(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-11-20
(45)【発行日】2024-11-28
(54)【発明の名称】相関分離フィルタの適応制御のための方法および装置
(51)【国際特許分類】
G10L 19/008 20130101AFI20241121BHJP
G10L 19/00 20130101ALI20241121BHJP
H04S 5/00 20060101ALI20241121BHJP
【FI】
G10L19/008 100
G10L19/00 330B
G10L19/00 400Z
H04S5/00
【外国語出願】
(21)【出願番号】P 2022205672
(22)【出願日】2022-12-22
(62)【分割の表示】P 2021027961の分割
【原出願日】2017-11-23
【審査請求日】2023-01-18
(32)【優先日】2016-11-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2016-12-06
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】598036300
【氏名又は名称】テレフオンアクチーボラゲット エルエム エリクソン(パブル)
(74)【代理人】
【識別番号】100109726
【氏名又は名称】園田 吉隆
(74)【代理人】
【識別番号】100150670
【氏名又は名称】小梶 晴美
(74)【代理人】
【識別番号】100194294
【氏名又は名称】石岡 利康
(72)【発明者】
【氏名】ヤンソン トフゴード, トマス
(72)【発明者】
【氏名】ファルク, トミ
【審査官】菊池 智紀
(56)【参考文献】
【文献】特表2020-502562(JP,A)
【文献】特開2007-065497(JP,A)
【文献】特開2012-124616(JP,A)
【文献】特表2016-510434(JP,A)
【文献】特表2006-524832(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00-21/18
H04S 1/00- 7/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
オーディオ信号の復号における信号成分の相関分離を適応的に調節するためのオーディオ信号処理方法(500、600)であって、
制御パラメータを取得すること(601)と、
前記制御パラメータの平均値を推定すること(602)と、
前記制御パラメータの変化を推定すること(604)と、
前記制御パラメータの前記変化と前記平均値の比を計算すること(606)と、
前記比に基づいて目標とされる相関分離フィルタの長さを計算すること(608)と、
前記目標とされる相関分離フィルタの長さを相関分離器に供給すること(610)と
を含む方法。
【請求項2】
計算された前記目標とされる相関分離フィルタの長さに基づいて相関分離信号の強度を計算することをさらに含む、請求項1に記載の方法。
【請求項3】
前記相関分離信号の強度が、2つ以上の異なる制御パラメータの関数として制御される、請求項2に記載の方法。
【請求項4】
前記制御パラメータが、推定された残響長さ、相関指標、空間幅の推定または予測利得から取得される、請求項1
から3のいずれか一項に記載の方法。
【請求項5】
相関分離フィルタの長さの適応が、少なくとも2つのサブバンドにおいて行われ、各サブバンドが適応された相関分離フィルタの長さを有する、請求項1から
4のいずれか一項に記載の方法。
【請求項6】
前記相関分離フィルタの長
さが、2つ以上の異なる制御パラメータの関数として制御される、請求項2から
5のいずれか一項に記載の方法。
【請求項7】
オーディオ信号の復号における信号成分の相関分離を適応的に調節するための装置(700、802)であって、
制御パラメータを取得し、
前記制御パラメータの平均値を推定し、
前記制御パラメータの変化を推定し、
前記制御パラメータの前記変化と前記平均値の比を計算し、
前記比に基づいて目標とされる相関分離フィルタの長さを計算し、
前記目標とされる相関分離フィルタの長さを相関分離器に供給するように適応された、装置。
【請求項8】
計算された前記目標とされる相関分離フィルタの長さに基づいて相関分離信号の強度を計算するようにさらに設定された、請求項
7に記載の装置。
【請求項9】
前記相関分離信号の強度を、2つ以上の異なる制御パラメータの関数として制御するようにさらに設定されている、請求項8に記載の装置。
【請求項10】
前記制御パラメータが、推定された残響長さ、相関指標、空間幅の推定または予測利得から取得される、請求項
7から9のいずれか一項に記載の装置。
【請求項11】
少なくとも2つのサブバンドにおいて相関分離フィルタの長さの適応を遂行するようにさらに設定されており、各サブバンドが適応された相関分離フィルタの長さを有する、請求項
7から
10のいずれか一項に記載の装置。
【請求項12】
前記相関分離フィルタの長
さを、2つ以上の異なる制御パラメータの関数として制御するようにさらに設定されている、請求項
8から
11のいずれか一項に記載の装置。
【請求項13】
請求項
7に記載の装置を備えるステレオまたはマルチチャネルオーディオコーデック。
【請求項14】
請求項
7に記載の装置を備えるパラメトリックステレオデコーダ。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は空間オーディオのコーディングおよびレンダリングに関するものである。
【背景技術】
【0002】
空間オーディオすなわち3Dオーディオは一般的な表現であり、多種類のマルチチャネルオーディオ信号を表す。オーディオシーンは、キャプチャ方法およびレンダリング方法に依拠して空間オーディオフォーマットによって表現される。キャプチャ方法(マイクロフォン)によって定義される一般的な空間オーディオフォーマットは、たとえばステレオ、バイノーラル、アンビソニックスなどとして表される。空間オーディオレンダリングシステム(ヘッドフォンまたはラウドスピーカ)は、ステレオ(左チャネルおよび右チャネル2.0)またはより高度なマルチチャネルオーディオ信号(2.1、5.1、7.1など)を用いて空間オーディオシーンをレンダリングすることができる。
【0003】
そのようなオーディオ信号の伝送および処理のための最近の技術は、エンドユーザに、より高い空間品質を伴う向上したオーディオ体感を与えることができ、多くの場合、より優れた了解度ならびに拡張現実感をもたらす。MPEGサラウンドオーディオまたはMPEG-H 3Dオーディオなどの空間オーディオコーディング技術は、たとえばインターネット上のストリーミングなどデータレートの制約がある用途に適応する、空間オーディオ信号のコンパクトな表現を生成する。しかしながら、データレート制約が強く、したがって空間オーディオ再生を向上するために復号されたオーディオチャネルの後処理も使用されるとき、空間オーディオ信号の伝送が制限される。一般に使用される技術は、たとえば復号されたモノ信号またはステレオ信号を、マルチチャネルオーディオ(5.1チャネル以上)へ、やみくもにアップミックスし得るものである。
【0004】
空間オーディオのコーディング技術および処理技術は、空間オーディオシーンを効率的にレンダリングするために、マルチチャネルオーディオ信号の空間的特徴を利用する。詳細には、空間オーディオキャプチャのチャネル間の時間差およびレベル差は、空間における指向性サウンドの傾聴者の認識を特徴づける両耳の間のキューを近似するのに使用される。チャネル間の時間差およびレベル差でしか、聴覚システムが検知し得るもの(すなわち耳入口における両耳の間の時間差およびレベル差)の近似ができないので、チャネル間の時間差が知覚態様に関連することが非常に重要である。チャネル間の時間差およびレベル差(ICTDおよびICLD)は一般にマルチチャネルオーディオ信号の指向性成分をモデル化するために使用され、両耳の間の相互相関(IACC)をモデル化するチャネル間相互相関(ICC)は音像の幅を特徴づけるために使用される。特に低周波数に関して、チャネル間位相差(ICPD)を用いてステレオ像もモデル化されることがある。
【0005】
空間聴覚に関連するバイノーラルキューは、両耳の間のレベル差(ILD)、両耳の間の時間差(ITD)、および両耳の間のコヒーレンスまたは相関(ICまたはIACC)と呼ばれることに留意されたい。一般的なマルチチャネル信号を考えるとき、チャネルに関係のある対応するキューは、チャネル間レベル差(ICLD)、チャネル間時間差(ICTD)、およびチャネル間コヒーレンスまたは相関(ICC)である。空間オーディオ処理は、主として、取り込まれたオーディオチャネル上で動作するので、オーディオチャネルを指すとき、「C」が省略されて、ITD、ILDおよびICという用語が使用されることが多い。
図1は、これらのパラメータの実例を与えるものである。
図1では、空間オーディオ再生が5.1のサラウンドシステム(個別の5つ+1つの低音効果)を用いて示されている。ITD、ILDおよびIACCに近似するために、オーディオチャネルから、空間におけるサウンドの人間の認識をモデル化するICTD、ICLDおよびICCなどのチャネル間パラメータが抽出される。
【0006】
図2には、パラメトリック空間オーディオ解析を採用する一般的なセットアップが示されている。
図2は、パラメトリックステレオコーダの基本ブロック図を図示するものである。ステレオエンコーダ201にステレオ信号対が入力される。パラメータ抽出202は、ダウンミキサ204による、モノエンコーダ206を用いて符号化される2つの入力チャネルの単独チャネル表現を準備するダウンミックスプロセスを支援する。抽出されたパラメータはパラメータエンコーダ208によって符号化される。すなわち、ステレオチャネルはモノ信号207へとダウンミックスされ、これが符号化されて、空間像を記述する符号化されたパラメータ205とともにデコーダ203へ伝送される。通常、ステレオパラメータのうちいくつかは、等価レクタンギュラ帯域幅(ERB)スケールなどの知覚周波数スケールにおいてスペクトルのサブバンドで表現される。デコーダは、復号されたモノ信号および伝送されたパラメータに基づいてステレオ合成を遂行する。すなわち、デコーダは、モノデコーダ210を使用して単独チャネルを再構成し、パラメトリック表現を使用してステレオチャネルを合成する。復号されたモノ信号および受け取られて符号化されたパラメータが、パラメータ合成ユニット212、またはパラメータを復号し、復号したパラメータを使用してステレオチャネルを合成し、合成したステレオ信号対を出力するプロセスに、入力される。
【0007】
人の聴覚システム用に空間オーディオをレンダリングするために、符号化されたパラメータが使用されるので、知覚される品質を最大化するためには、チャネル間パラメータを抽出して符号化する上で知覚を考慮に入れることが重要である。
【0008】
サイドチャネルは、明示的に符号化されないこともあるので、中央チャネルの相関分離性によって近似され得る。相関分離技術は、一般的には、微細構造の観点から入力信号に対してインコヒーレントな出力信号を生成するのに使用されるフィルタリング方法である。相関分離された信号のスペクトルエンベロープおよび時間エンベロープは、理想的なままであるものとする。相関分離フィルタは、一般的には入力信号の位相変化を伴うオールパスフィルタである。
【発明の概要】
【0009】
実施形態の本質は、マルチチャネルオーディオデコーダで利用される非コヒーレント信号成分を表現するための相関分離器の特性を適応制御することである。適応は、伝送される性能指標と、時間が経つにつれて性能指標が変化する様子とに基づくものある。入力信号の特性を一致させるために、相関分離器の異なる態様が、同一の基本的方法を使用して適応制御され得る。相関分離特性の最も重要な態様の1つに相関分離器のフィルタ長の選択があり、発明を実施するための形態において説明される。相関分離器の他の態様は、相関分離された成分の強度または入力信号の特性を一致させるために適応制御する必要性があり得る他の態様の制御など、類似のやり方で適応制御されてよい。
【0010】
相関分離フィルタの長さの適応のための方法が提供される。この方法は、制御パラメータを受け取るかまたは取得して、制御パラメータの平均値および変化を計算することを含む。制御パラメータの変化と平均値の比が計算され、現在の比に基づいて、最適の、または目標とされる相関分離フィルタの長さが計算される。次いで、最適の、または目標とされる相関分離フィルタの長さが、相関分離器に適用されるかまたは供給される。
【0011】
第1の態様によれば、相関分離器を適応的に調節するためのオーディオ信号処理方法が提示される。この方法は、制御パラメータを取得して制御パラメータの平均値および変化を計算することを含む。制御パラメータの変化と平均値の比が計算され、前記比に基づいて相関分離パラメータが計算される。次いで、相関分離パラメータが相関分離器に供給される。
【0012】
制御パラメータは性能指標でよい。性能指標は、推定された残響長さ、相関指標、空間幅の推定または予測利得から取得されてよい。
【0013】
制御パラメータは、パラメトリックステレオエンコーダなどのエンコーダから受け取られるか、またはデコーダにおいて既に利用可能な情報から、もしくは利用可能な情報と伝送された情報(すなわちデコーダが受け取った情報)を組み合わせることによって取得される。
【0014】
各周波数帯が最適な相関分離フィルタの長さを有し得るように、少なくとも2つのサブバンドにおいて相関分離フィルタの長さが適応され得る。これは、特定の周波数サブバンドまたは係数に対して、目標とされる長さよりも短いかまたは長いフィルタが使用され得ることを意味する。
【0015】
この方法は、パラメトリックステレオデコーダまたはステレオオーディオコーデックによって遂行される。
【0016】
第2の態様によれば、相関分離器を適応的に調節するための装置が提供される。この装置は、プロセッサと、前記プロセッサによって実行可能な命令を含む記憶装置とを備えることにより、制御パラメータを取得して制御パラメータの平均値および変化を計算するように機能する。この装置は、制御パラメータの変化と平均値の比を計算して、前記比に基づいて相関分離パラメータを計算するように機能する。この装置は、相関分離器に相関分離パラメータを供給するようにさらに機能する。
【0017】
第3の態様によれば、命令を含むコンピュータプログラムが提供され、命令がプロセッサによって実行されたとき、装置が、第1の態様の方法のアクションを遂行する。
【0018】
第4の態様によれば、非一時的コンピュータ可読媒体上に具現されたコンピュータプログラム製品が提供され、このコンピュータプログラム製品は、プロセッサに第1の態様のプロセスを遂行させるコンピュータ実行可能命令を含んでいるコンピュータコードを含む。
【0019】
第5の態様によれば、相関分離器を適応的に調節するためのオーディオ信号処理方法が提供される。この方法は、制御パラメータを取得して、前記制御パラメータの変化に基づいて目標とされる相関分離パラメータを計算することを含む。
【0020】
第6の態様によれば、第5の態様の方法を遂行するための手段を備える、マルチチャネルオーディオコーデックが提供される。
【0021】
本発明の例示の実施形態のより十分な理解のために、次に、添付図面に関連して以下の説明が参照される。
【図面の簡単な説明】
【0022】
【
図1】5.1サラウンドシステムを用いる空間オーディオ再生の図示である。
【
図2】パラメトリックステレオコーダの基本ブロック図の図示である。
【
図3】IACCの関数としての聴覚オブジェクトの幅の図示である。
【
図5】一実施形態による方法を記述するブロック図である。
【
図6】代替実施形態による方法を記述するブロック図である。
【
図8】相関分離フィルタ長計算器を備えるデバイスを示す図である。
【発明を実施するための形態】
【0023】
図面の
図1~
図8を参照することにより、本発明の例示の実施形態およびその可能な利点が理解される。
【0024】
非コヒーレント信号成分を表現するための既存の解決策は時間不変相関分離フィルタに基づくものであり、復号されたマルチチャネルオーディオにおける非コヒーレント成分の量は、相関分離された信号成分と相関分離されていない信号成分を混合することによって制御される。
【0025】
そのような時間不変の相関分離フィルタには、相関分離された信号が、聴覚シーンの変化によって影響を受ける入力信号の特性に適応しないという問題がある。たとえば、小さい残響の環境の単一音声源を録音する環境が、大きなコンサートホールにおける交響楽団の演奏をかなり長い残響を用いて録音するためのものと同一のフィルタからの相関分離された信号成分によって表現されるはずである。相関分離された成分の量が時間にわたって制御されたとしても、残響長さおよび相関分離の他の特性は制御されない。これによって、小さい残響の録音サウンドの環境が広すぎる一方で、大きい残響の録音の聴覚シーンが狭すぎるように知覚される。小さい残響の録音にとって望ましい短い残響長さは、多くの場合、より広い録音の録音に対して金属的かつ不自然な環境をもたらす。
【0026】
提案される解決策は、復号されてレンダリングされたマルチチャネルオーディオ信号における非コヒーレント成分の表現において、非コヒーレントなオーディオが時間にわたって変化する様子を考慮に入れ、その情報を使用して、たとえば残響長さといった相関分離の特性を適応制御することにより、非コヒーレントなオーディオ信号の制御を改善するものである。
【0027】
適応は、エンコーダにおける入力信号の信号特性に基づき得、デコーダに1つまたはいくつかの制御パラメータを伝送することによって制御される。あるいは、適応は、明示的制御パラメータを伝送することなく、デコーダにおいて既に利用可能な情報から、または利用可能な情報と伝送された情報(すなわちデコーダがエンコーダから受け取った情報)を組み合わせることによって制御され得る。
【0028】
伝送される制御パラメータは、たとえば、2チャネル入力の場合のステレオ像といった空間特性のパラメトリック記述の推定された性能に基づくものでよい。すなわち、制御パラメータは性能指標でよい。性能指標は、推定された残響長さ、相関指標、空間幅の推定または予測利得から取得されてよい。
【0029】
この解決策は、復号してレンダリングされたオーディオ信号における残響の、より優れた制御をもたらし、このことが、小さい残響のクリーンな音声信号または大きい残響の広いオーディオシーンを伴う広い音楽信号などの様々な信号タイプの、知覚される品質を改善する。
【0030】
実施形態の本質は、マルチチャネルオーディオデコーダで利用される非コヒーレント信号成分を表現するための相関分離フィルタの長さを適応制御することである。適応は、伝送される性能指標と、時間が経つにつれて性能指標が変化する様子とに基づくものある。加えて、相関分離された成分の強度は、相関分離長さとして同一の制御パラメータに基づいて制御されてよい。
【0031】
提案された解決策は、周波数帯の周波数係数に対する処理のために、フィルタバンクの周波数帯上の時間領域またはたとえば離散フーリエ変換(DFT)を利用する変換領域におけるフレームまたはサンプルに対して動作し得るものである。1つの領域において遂行される演算は別の領域において同様に遂行され得、所与の実施形態は例示された領域に限定されない。
【0032】
一実施形態では、提案された解決策は、たとえば
図2に図示されたように、符号化されたダウンミックスチャネルおよび空間特性のパラメトリック記述を用いるステレオオーディオコーデック用に利用される。パラメトリック解析によって抽出され得る、チャネル間の非コヒーレント成分を記述する1つまたは複数のパラメータは、合成されたステレオオーディオにおける知覚される量の非コヒーレント成分を適応的に調節するのに使用され得る。
図3に図示されているように、IACCすなわちチャネル間コヒーレンスは、空間聴覚のオブジェクトまたはシーンの知覚される幅に影響を及ぼすことになる。IACCが低下すると、ソース幅は、サウンドが2つの別個の無相関化されたオーディオソースとして知覚されるまで増大する。ステレオ録音において広い環境を表現し得るためには、チャネル間の非コヒーレント成分をデコーダにおいて合成する必要がある。
【0033】
2つの入力チャネルXおよびYのダウンミックスチャネルは、
から取得され得、Mはダウンミックスチャネルであり、Sはサイドチャネルである。ダウンミックスマトリクスU
1は、Mチャネルのエネルギーが最大化されてSチャネルのエネルギーが最小化されるように選択されてよい。ダウンミックス演算は、入力信号の位相または時間の調整を含み得る。パッシブなダウンミックスの一例は
によって与えられる。サイドチャネルSは明示的には符号化され得なくとも、たとえば予測フィルタを使用することによってパラメトリックにモデル化され得、
は復号された中央チャネル
から予測され、デコーダにおいて空間合成用に使用される。この場合、たとえば予測フィルタ係数といった予測パラメータが符号化されてデコーダに伝送され得る。
【0034】
サイドチャネルをモデル化するための別のやり方には、中央チャネルの相関分離によってサイドチャネルを近似するものがある。相関分離技術は、一般的には、微細構造の観点から入力信号に対してインコヒーレントな出力信号を生成するのに使用されるフィルタリング方法である。相関分離された信号のスペクトルエンベロープおよび時間エンベロープは、理想的なままであるものとする。相関分離フィルタは、一般的には入力信号の位相変化を伴うオールパスフィルタである。
【0035】
この実施形態では、提案された解決策は、パラメトリックステレオデコーダにおいて空間合成用に使用される相関分離器を適応的に調節するために使用される。
【0036】
符号化されたモノチャネルの空間レンダリング(アップミックス)
は、
によって取得され、U
2はアップミックスマトリクスであり、Dは、微細構造の観点において、
に対して理想的に無相関化される。アップミックスマトリクスは、合成された左チャネル
および右チャネル
における
の量およびDを制御する。アップミックスは、符号化された残差信号などのさらなる信号成分も包含し得ることに留意されたい。
【0037】
ILDおよびICCの伝送を用いるパラメトリックステレオにおいて利用されるアップミックスマトリクスの一例は、
によって与えられ、ここで
である。
【0038】
合成されたチャネル間の相関の量を判定するために回転角αが使用され、
によって与えられる。
【0039】
【0040】
2つのチャネルx[n]とy[n]の間のILDは
によって与えられ、n=[1,...,N]は、N個のサンプルのフレームに対するサンプルインデックスである。
【0041】
チャネル間コヒーレンスはチャネル間相互相関(ICC)によって推定され得る。従来のICCの推定は相互相関関数(CCF)であるr
xyに依存し、CCFは2つの波形x[n]とy[n]の間の類似性の指標であり、一般に、時間領域において
r
xy[n,τ]=E[x[n]y[n+τ]] (10)
として定義され、τはタイムラグであり、E[・]は期待値演算子である。長さNの信号フレームについて、相互相関は、一般的には
として推定される。
【0042】
次いで、ICCは、信号エネルギーによって次式のように正規化されるCCFの最大値として取得される。
【0043】
ステレオ像の記述において追加のパラメータが使用され得る。追加のパラメータは、たとえばチャネル間の位相差または時間差を反映し得るものである。
【0044】
相関分離フィルタは、それ自体のインパルス応答h
d(n)またはDFT領域における伝達関数H
d(k)によって規定され得、nはサンプルインデックスであり、kは周波数インデックスである。DFT領域において、相関分離された信号M
dが
によって取得され、kは周波数係数インデックスである。時間領域の演算により、相関分離された信号が、フィルタリング
によって取得され、nはサンプルインデックスである。
【0045】
一実施形態では、連続的に接続されたA個のオールパスフィルタに基づく残響器が
として取得され、ψ[a]はフィードバックの減衰を指定し、d[a]はフィードバックの遅延を指定する。これは相関分離用に使用され得る残響器の単なる例であって代替残響器が存在し、たとえばわずかなサンプル遅延が利用され得る。間隔[0,1]において減衰係数ψ[a」が1よりも大きな値として選択されることがあり、不安定なフィルタをもたらすことになる。減衰係数ψ[a]=0を選択することにより、フィルタはd[a]サンプルの遅延になる。その場合、フィルタ長は、残響器におけるフィルタのセットの中での最大の遅延d[a]によって与えられることになる。
【0046】
この例では2チャネルオーディオであるマルチチャネルオーディオでは、当然、信号特性に依拠してチャネル間で量が変化するコヒーレンスがある。減衰の効いた環境において録音された単一のスピーカについては、反響および残響が小量になってチャネル間のコヒーレンスが高くなるはずである。残響が増大するのにしたがって、一般にコヒーレンスが低下するはずである。これは、低ノイズの環境を伴うクリーンな音声信号については、相関分離フィルタの長さを、残響する環境における単一のスピーカの場合よりも恐らく短くするべきであることを意味する。相関分離器フィルタの長さは、生成される相関分離された信号の特性を制御する重要なパラメータの1つである。本発明の実施形態は、相関分離された信号の特性を入力信号の特性に一致させるために、相関分離された信号のレベル制御に関係のあるパラメータなど他のパラメータを適応制御するのにも使用され得る。
【0047】
非コヒーレント信号成分のレンダリングのために残響器を利用することにより、遅延の量が、符号化されたオーディオの異なる空間的特徴に適応するように制御され得る。より一般的には、相関分離フィルタのインパルス応答の長さを制御することができる。前述のように、フィルタ長を制御することは、フィードバックのない残響器の遅延を制御することと等価であり得る。
【0048】
一実施形態では、フィードバックのない残響器の遅延d(この場合フィルタ長と等価である)は、次式のように制御パラメータc1の関数f1(・)である。
d=f1(c1) (16)
【0049】
伝送される制御パラメータは、たとえば、2チャネル入力の場合のステレオ像といった空間特性のパラメトリック記述の推定された性能に基づくものでよい。性能指標rは、たとえば推定された残響長さ、相関指標、空間幅の推定または予測利得から取得されてよい。次いで、相関分離フィルタの長さdはこの性能指標に基づいて制御され得、すなわちc
1は性能指標rである。適切な制御関数f
1(・)の一例は、
よって与えられ、γ
1は、一般的には許容される最大の遅延をD
maxとする範囲[0,D
max]における同調パラメータであり、θ
1はg(r)の上限である。g(r)>θ
1であれば、たとえばd=1といったより短い遅延が選択される。
【0050】
θ
1は同調パラメータであり、たとえばθ
1=7.0にセットされ得る。θ
1とg(r)のダイナミクスの間には関係があり、別の実施形態ではたとえばθ
1=0.22となり得る。サブ関数g(r)は、rの変化と、時間にわたるrの平均の間の比として規定され得る。この比は、性能指標の平均値と比較して性能指標の変化が大きいサウンドについてはより大きくなり、これは、一般的にはバックグランドノイズまたは残響が小さい希薄なサウンドの場合である。バックグランドノイズを伴う音楽または音声のような、より稠密なサウンドについては、この比はより小さくなり、そのためにサウンド分類器のように機能し、元の入力信号の非コヒーレントな成分の特性を分類する。この比は、
として計算され得、θ
maxは上限であってたとえば200にセットされ、θ
minは下限であってたとえば0にセットされる。限度はたとえば同調パラメータθ
1に関係づけられてよく、たとえばθ
max=1.5θ
1となる。
【0051】
伝送される性能指標の平均値の推定は、フレームiに関して、
として取得される。
【0052】
第1のフレームrmean[i-1]については、0に初期化されてよい。平滑化係数αposおよびαnegは、rの増加方向の変化と減少方向の変化が異なるように選択されてよい。一例ではαpos=0.005およびαneg=0.5は、平均推定が、時間にわたる平均性能指標の最小値の方へ大きく辿ることを意味する。別の実施形態では、正の平滑化係数と負の平滑化係数は、たとえばαpos=αneg=0.1と等しい。
【0053】
同様に、性能指標変化の平滑化された推定は、
として取得され、ここで
r
c[i]=|r[i]-r
mean[i]| (21)
である。
【0054】
【0055】
次いで、比g(r)が、標準偏差
を平均値r
meanに関連づけてよく、すなわち
となり、または分散を2乗平均に関連づけてよく、すなわち
となる。
【0056】
標準偏差の別の推定は、
によって与えられ得、こちらの方が簡単である。
【0057】
平滑化係数βposおよびβnegは、rcの増加方向の変化と減少方向の変化が異なるように選択されてよい。一例ではβpos=0.5およびβneg=0.05は、平均推定が、時間にわたる性能指標の変化における最大値の方へ大きく辿ることを意味する。別の実施形態では、正の平滑化係数と負の平滑化係数は、たとえばβpos=βneg=0.1と等しい。
【0058】
一般に、すべての所与の例について、現行フレームの更新値が比較される任意の閾値に関して、2つの平滑化係数の間の移行が行われ得る。すなわち、式(25)の所与の例ではrc[i]>θthresである。
【0059】
加えて、遅延を制御する比g(r)は、時間にわたって、
によって平滑化されてよく、平滑化係数α
sは同調係数であり、たとえば0.01にセットされる。これは、フレームiについて、式(17)におけるg(r[i])が、
によって置換されることを意味する。
【0060】
別の実施形態では、比g(r)は、次式のように、性能指標c
1に基づいて条件付きで平滑化される。
【0061】
そのような関数の一例には
があり、この式で、平滑化パラメータは性能指標の関数である。たとえば
となる。
【0062】
関数fthresは、使用される性能指標に依拠して、異なって選択されてよい。関数fthresは、たとえば平均、百分位数(たとえば中央値)、フレームもしくはサンプルのセットにわたる、または周波数サブバンドもしくは係数のセットにわたる、最小値もしくは最大値c1であり得、すなわち、たとえば
fthres(c1)=max(c1[b]) (30)
であり、b=b0,...,bN-1はN個の周波数サブバンドのインデックスである。平滑化係数は、閾値θhigh(たとえば0.6にセットされている)が超された、または超されていないとき、平滑化する量を制御し、正の更新および負の更新について等しく、または異なってよく、たとえばκpos_high=0.03、κneg_high=0.05、κpos_low=0.1、κneg_low=0.001である。
【0063】
アーチファクトを防止するために、サンプルまたはフレームの間で、取得される相関分離フィルタの長さの変化に対する追加の平滑化または制限が可能であることが注目され得る。加えて、相関分離のために利用されるフィルタ長のセットは、信号をミキシングするとき取得される異なる色づけの数を低減するために、制限されてよい。たとえば、比較的短いものと、比較的長いものとの、2つの異なる長さがあってよい。
【0064】
一実施形態では、異なる長さd
1とd
2の2つの利用可能なフィルタのセットが使用される。目標とされるフィルタ長dはたとえば
として取得され、γ
1はたとえば
γ
1=d
2-d
1+δ (32)
によって与えられる同調パラメータであり、δはたとえば2にセットされ得るオフセット項である。ここで、d
2はd
1よりも大きいものと想定されている。目標のフィルタ長は制御パラメータであるが、異なる周波数については異なるフィルタ長または残響器遅延が利用され得ることが注目される。これは、特定の周波数サブバンドまたは係数に対して、目標とされる長さよりも短いかまたは長いフィルタが使用され得ることを意味する。
【0065】
この場合、合成されたチャネル
および
における相関分離された信号Dの量を制御する相関分離フィルタ強度sは、同一の制御パラメータによって、この場合は性能指標c
1≡rである1つの制御パラメータを用いて制御されてよい。
【0066】
別の実施形態では、相関分離フィルタの長さの適応は、いくつかの、すなわち少なくとも2つのサブバンドにおいて、各周波数帯が最適な相関分離フィルタの長さを有し得るように行われる。
【0067】
一実施形態では、残響器が式(15)で表されるようなフィードバックを伴うフィルタのセットを使用する場合には、フィードバックの量ψ[a]も、遅延パラメータd[a]と類似のやり方で適応されてよい。そのような実施形態では、生成される環境の長さは、これらの両方のパラメータの組合せであり、したがって、適切な環境長さを達成するために、どちらも適応されなければならない。
【0068】
さらに別の実施形態では、相関分離フィルタの長さまたは残響器の遅延dと、相関分離信号の強度sとは、2つ以上の異なる制御パラメータの関数、すなわち
d=f2(c21,c22,...) (33)
s=f3(c31,c32,...) (34)
として制御される。
【0069】
さらに別の実施形態では、相関分離フィルタの長さおよび相関分離信号の強度は、復号されたオーディオ信号を解析することによって制御される。
【0070】
加えて、残響長さは、過渡現象すなわち突然のエネルギー増加、または特別な特性を伴う他の信号に関して特別に制御されてよい。
【0071】
時間が経つにつれてフィルタが変化するので、フレームまたはサンプルにわたる変化に対して何かの処理を行うべきである。これは、たとえば補間またはオーバラップするフレームを伴う窓関数であり得る。補間は、それぞれ長さを制御された以前のフィルタと、いくつかのサンプルまたはフレームにわたる現在目標とされるフィルタ長との間で行われ得る。補間は、以前のフィルタの利得を連続的に減少させながら、サンプルまたはフレームにわたる現在目標とされる長さの現在のフィルタの利得を増加させることにより、達成され得る。別の実施形態では、目標とされるフィルタ長が利用可能でないとき、異なる長さの利用可能なフィルタを混合するように、目標とされるフィルタ長が、それぞれの利用可能なフィルタのフィルタ利得を制御する。長さd1のフィルタh1と長さd2のフィルタh2の2つの利用可能なフィルタの場合には、両フィルタの利得s1およびs2は
s1=f3(d1,d2,c1) (35)
s2=f4(d1,d2,c1) (36)
として取得され得る。
【0072】
フィルタ利得は、たとえばフィルタリングされた信号の等しいエネルギーを取得するために互いに依拠するものでもよく、すなわち、c
1によって利得を制御されるh
1が基準フィルタである場合にはs
2=f(s
1)である。たとえば、フィルタ利得s
1は
s
1=(d
2-d)/(d
2-d
1) (37)
として取得され得、dは範囲[d
1,d
2]において目標とされるフィルタ長であり、d
2>d
1である。次いで、第2のフィルタ利得は、たとえば
として取得される。
【0073】
次いで、フィルタリング演算が時間領域で遂行される場合には、フィルタリングされた信号m
d[n]は、
として取得される。
【0074】
相関分離信号の強度sが制御パラメータc1によって制御される場合には、強度sを、以前のフレームの制御パラメータおよび相関分離フィルタの長さdの関数f4(・)として制御するのが有益であり得る。すなわち
s[i]=f4(d,c1[i],c1[i-1],...,c1[i-NM]) (40)
となる。
【0075】
そのような関数の一例には
s[i]=min(β4c1[i-d],c1[i-d](1-α4)+α4c1[i]) (41)
があり、α4およびβ4は、たとえばα4=0.8もしくはα4=0.6、かつβ4=1.0といった同調パラメータである。α4は一般的には範囲[0,1]にあるべきであり、β4は1より大きくてもよい。
【0076】
複数のフィルタを混合する場合には、フィルタリングされた信号m
d[n]の、
とのアップミックスにおける強度sは、たとえば加重平均に基づいて取得され得、すなわち、2つのフィルタh
1およびh
2の場合には
s[i]=min(β
4w[i],w[i](1-α
4)+α
4c
1[i]) (42)
によって取得され得、ここで
w[i]=s
1c
1[i-d
1]+s
2c
1[i-d
2] (43)
である。
【0077】
図4は、前半がクリーンな音声を含有し、後半がクラシック音楽を含有している信号の一例を示すものである。性能指標の平均値は、音楽を含有している後半が比較的大きい。性能指標の変化も後半の方が大きいが、性能指標の平均値と性能指標の変化の間の比は、後半の方がかなり小さい。性能指標の変化が性能指標の平均値よりもはるかに大きい信号は、拡散成分の量が連続して大きい信号であると考えられ、したがって、この例の相関分離フィルタの長さは、前半を後半よりも短くするべきである。グラフの信号は、より制御された挙動のために、すべて平滑化され、部分的に制限されていることに留意されたい。この場合、目標とされる相関分離フィルタの長さは、フレームの離散数で表現されているが、他の実施形態では連続的に変化してもよい。
【0078】
図5および
図6は、相関分離器を調節するための例示の方法を図示するものである。この方法は、制御パラメータを取得して制御パラメータの平均値および変化を計算することを含む。制御パラメータの変化と平均値の比が計算され、この比に基づいて相関分離パラメータが計算される。次いで、相関分離パラメータが相関分離器に供給される。
【0079】
図5は、相関分離フィルタの長さの適応に包含されるステップを記述するものである。方法500は、性能指標パラメータすなわち制御パラメータを受け取るブロック501で始まる。性能指標は、オーディオエンコーダにおいて計算されて、オーディオデコーダに伝送される。あるいは、制御パラメータは、復号器において既に利用可能な情報から、または利用可能な情報と伝送された情報を組み合わせることによって、取得される。最初に、ブロック502および504に示されるように、性能指標の平均値および変化が計算される。次いで、506で、性能指標の変化と平均値の比が計算される。この比に基づいて、508で、相関分離フィルタの最適の長さが計算される。最後に、510で、たとえば受信されたモノ信号から、相関分離された信号を取得するために、新規の相関分離フィルタの長さが適用される。
【0080】
図6は、相関分離フィルタの長さの適応の別の実施形態を記述するものである。方法600は、性能指標パラメータすなわち制御パラメータを受け取るブロック601で始まる。性能指標は、オーディオエンコーダにおいて計算されて、オーディオデコーダに伝送される。あるいは、制御パラメータは、復号器において既に利用可能な情報から、または利用可能な情報と伝送された情報を組み合わせることによって、取得される。最初に、ブロック602および604に示されるように、性能指標の平均値および変化が計算される。次いで、606で、性能指標の変化と平均値の比が計算される。この比に基づいて、608で、目標とされる相関分離フィルタの長さが計算される。最終ステップは、610で、新規の目標とされる相関分離フィルタの長さを相関分離器に供給することである。
【0081】
この方法は、パラメトリックステレオデコーダまたはステレオオーディオコーデックによって遂行され得る。
【0082】
図7は、
図5および
図6で説明された方法を遂行する装置の一例を示すものである。装置700は、たとえば中央処理装置(CPU)といったプロセッサ710と、たとえばコンピュータプログラム730といった命令を記憶するための記憶装置の形態のコンピュータプログラム製品720とを備え、コンピュータプログラム730は、記憶装置から取り出されてプロセッサ710によって実行されたとき、装置700に、相関分離器を適応的に調節する実施形態に関係したプロセスを遂行させるものである。プロセッサ710は、記憶装置720に対して通信可能に結合されている。装置700は、入力パラメータすなわち性能指標を受け取るための入力ノードと、相関分離フィルタの長さなどの処理されたパラメータを出力するための出力ノードとをさらに備え得る。入力ノードと出力ノードは、どちらもプロセッサ710に対して通信可能に結合されている。
【0083】
装置700は、
図2の下側部分に示されたパラメトリックステレオデコーダなどのオーディオデコーダに備わっていてよい。装置700はステレオオーディオコーデックに備わっていてよい。
【0084】
図8は、相関分離フィルタ長計算器802を備えるデバイス800を示すものである。デバイス800は、たとえば音声デコーダまたはオーディオデコーダといったデコーダでよい。入力信号804は、空間像を記述する符号化されたパラメータを伴う符号化されたモノ信号である。入力パラメータは、性能指標などの制御パラメータを含み得る。出力信号806は、合成されたステレオ信号またはマルチチャネル信号、すなわち再構成されたオーディオ信号である。デバイス800は、オーディオエンコーダから入力信号を受け取るための受信器(図示せず)をさらに備え得る。デバイス800は、
図2に示されたようなモノデコーダおよびパラメトリック合成ユニットをさらに備え得る。
【0085】
一実施形態では、相関分離長計算器802は、性能指標パラメータすなわち制御パラメータを受け取るかまたは取得するための取得ユニットを備える。相関分離長計算器802は、性能指標の平均値および変化を計算するための第1の計算ユニットと、性能指標の変化と平均値の比を計算するための第2の計算ユニットと、目標とされる相関分離フィルタの長さを計算するための第3の計算ユニットとをさらに備える。相関分離長計算器802は、目標とされる相関分離フィルタの長さを相関分離ユニットに供給するための供給ユニットをさらに備え得る。
【0086】
例として、ソフトウェアまたはコンピュータプログラム730は、コンピュータプログラム製品として実現されてよく、通常は、好ましくは不揮発性のコンピュータ可読記憶媒体であるコンピュータ可読媒体に担持されるかまたは記憶される。コンピュータ可読媒体が含み得る1つまたは複数の取外し可能または取外し不能な記憶デバイスは、それだけではないが、読取り専用メモリ(ROM)、ランダムアクセスメモリ(RAM)、コンパクトディスク(CD)、デジタル多用途ディスク(DVD)、ブルーレイディスク、ユニバーサルシリアルバス(USB)記憶装置、ハードディスクドライブ(HDD)記憶装置、フラッシュメモリ、磁気テープ、または任意の他の従来の記憶デバイスを含み得る。
【0087】
本発明の実施形態は、ソフトウェア、ハードウェア、アプリケーションロジック、あるいはソフトウェア、ハードウェアおよびアプリケーションロジックの組合せで実施され得る。ソフトウェア、アプリケーションロジックおよび/またはハードウェアは、記憶装置、マイクロプロセッサまたは中央処理装置上に存在してよい。必要に応じて、ソフトウェア、アプリケーションロジックおよび/またはハードウェアの一部が、ホスト装置または記憶装置、ホストのマイクロプロセッサまたは中央処理装置上に存在してよい。例示の実施形態では、アプリケーションロジック、ソフトウェアまたは命令セットは、様々な従来のコンピュータ可読媒体のうち任意のものに保存されている。
【0088】
略語
ILD/ICLD チャネル間レベル差
IPD/ICPD チャネル間位相差
ITD/ICTD チャネル間時間差
IACC 両耳の間の相互相関
ICC チャネル間相関
DFT 離散フーリエ変換
CCF 相互相関関数