(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6395811
(24)【登録日】2018年9月7日
(45)【発行日】2018年9月26日
(54)【発明の名称】高次アンビソニックス表現を圧縮および圧縮解除する方法および装置
(51)【国際特許分類】
G10L 19/008 20130101AFI20180913BHJP
G10L 25/51 20130101ALI20180913BHJP
【FI】
G10L19/008 100
G10L25/51 400
【請求項の数】22
【全頁数】36
(21)【出願番号】特願2016-509473(P2016-509473)
(86)(22)【出願日】2014年4月24日
(65)【公表番号】特表2016-520864(P2016-520864A)
(43)【公表日】2016年7月14日
(86)【国際出願番号】EP2014058380
(87)【国際公開番号】WO2014177455
(87)【国際公開日】20141106
【審査請求日】2017年3月1日
(31)【優先権主張番号】13305558.2
(32)【優先日】2013年4月29日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】クルーガー,アレクサンダー
(72)【発明者】
【氏名】コルドン,スフエン
【審査官】
山下 剛史
(56)【参考文献】
【文献】
特開2012−133366(JP,A)
【文献】
国際公開第2012/059385(WO,A1)
【文献】
国際公開第2011/117399(WO,A1)
【文献】
欧州特許出願公開第2094032(EP,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
H04S 1/00− 7/00
AES E−Library
(57)【特許請求の範囲】
【請求項1】
所定数(I)の知覚符号化処理を使用して音場のHOAと称する高次アンビソニックス表現をHOA係数列の入力される時間フレーム
[この文献は図面を表示できません]
を用いて圧縮する方法であって、
前記方法は、フレーム単位で行われ、
−現在のフレーム
[この文献は図面を表示できません]
に対して、支配的な方向のセット
[この文献は図面を表示できません]
および対応する検出された方向性信号のインデックスのデータセット
[この文献は図面を表示できません]
を推定するステップ(13)と、
−前記現在のフレームのHOA係数列を分解するステップ(14、15)であって、非所定数(M)の方向性信号(X
DIR(k−2))であって、支配的な方向推定値の前記セット
[この文献は図面を表示できません]
に含まれる各々の方向と前記方向性信号のインデックスの各々の遅延したデータセット
[この文献は図面を表示できません]
とを用いた、前記非所定数(M)が前記所定数(I)よりも小さい、該非所定数(M)の方向性信号(X
DIR(k−2))と、前記所定数(I)と前記非所定数(M)との差に対応する低減された数のHOA係数列によって表現される残差のアンビエントHOA成分(C
AMB,RED(k−2))と、対応する前記低減された数の残差のアンビエントHOA係数列のインデックスのデータセット
[この文献は図面を表示できません]
と、に分解する、該分解するステップ(14、15)と、
−前記方向性信号(X
DIR(k−2))および前記残差のアンビエントHOA成分(C
AMB,RED(k−2))のHOA係数列を前記所定数(I)に対応する数のチャンネルに割り当てるステップ(16)であって、前記割り当てのために、前記方向性信号のインデックスの前記遅延されたデータセット
[この文献は図面を表示できません]
および前記低減された数の残差のアンビエントHOA係数列のインデックスの前記データセット
[この文献は図面を表示できません]
が使用される、該割り当てるステップと、
−関連するフレーム(Y(k−2))の前記チャンネルを知覚符号化するステップ(17)であって、符号化された圧縮されたフレーム
[この文献は図面を表示できません]
が得られる、該知覚符号化するステップ(17)と、
を含む、前記方法。
【請求項2】
所定数(I)の知覚符号化処理を使用して音場のHOAと称する高次アンビソニックス表現をHOA係数列の入力される時間フレーム
[この文献は図面を表示できません]
を用いて圧縮する装置であって、当該装置は、フレーム単位の処理を実行し、
−現在のフレーム
[この文献は図面を表示できません]
に対して、支配的な方向のセット
[この文献は図面を表示できません]
および対応する検出された方向性信号のインデックスのデータセット
[この文献は図面を表示できません]
を推定するように構成された手段(13)と、
−前記現在のフレームのHOA係数列を分解するように構成された手段(14、15)であって、非所定数(M)の方向性信号(X
DIR(k−2))であって、支配的な方向推定値の前記セット
[この文献は図面を表示できません]
に含まれる各々の方向と、前記方向性信号のインデックスの各々の遅延したデータセット
[この文献は図面を表示できません]
とを用いた、前記非所定数(M)が前記所定数(I)よりも小さい、該非所定数(M)の方向性信号(X
DIR(k−2))と、前記所定数(I)と前記非所定数(M)との差に対応する低減された数のHOA係数列によって表現される残差のアンビエントHOA成分(C
AMB,RED(k−2))と、対応する前記低減された数の残差のアンビエントHOA係数列のインデックスのデータセット
[この文献は図面を表示できません]
と、に分解するように構成され、割り当てのために、前記方向性信号のインデックスの前記遅延されたデータセット
[この文献は図面を表示できません]
および前記
低減された数の残差のアンビエントHOA係数列の前記データセット
[この文献は図面を表示できません]
が使用される、該手段(14、15)と、
−前記方向性信号(X
DIR(k−2))および前記残差のアンビエントHOA成分(C
AMB,RED(k−2))のHOA係数列を前記所定数(I)に対応する数のチャンネルに割り当てるように構成された手段(16)であって、該割り当てにより前記割り当てを記述する選択されたアンビエントHOA係数列のインデックスのパラメータ
[この文献は図面を表示できません]
を取得し、該パラメータが圧縮解除側での対応する再配分に使用可能である、前記手段(16)と、
−関連するフレーム(Y(k−2))の前記チャンネルを知覚符号化するように構成された手段(17)であって、符号化された圧縮されたフレーム
[この文献は図面を表示できません]
が得られる、該手段(17)と、
を備える、前記装置。
【請求項3】
前記非所定数(M)の方向性信号(XDIR(k−2))は、知覚に関連する基準に従って、
−前記圧縮のための所定の所与の数のチャンネルを用いることにより、対応して圧縮解除されるHOA表現が最小の知覚可能な誤差をもたらし、前記基準で考慮される誤差は、
−−複数の異なる数の前記方向性信号(XDIR(k−2))と前記残差のアンビエントHOA成分(CAMB,RED(k−2))に対して複数の異なる数のHOA係数列とを
使用することから生ずるモデル化誤差と、
−−前記方向性信号(XDIR(k−2))の知覚符号化に伴う量子化雑音と、
−−前記残差のアンビエントHOA成分(CAMB,RED(k−2))の個々のHOA
係数列を符号化することに伴う量子化雑音と、であり、
−前記3つの誤差の結果として生ずる合計誤差は、当該合計誤差の知覚可能性に関して、複数のテスト方向および複数の臨界帯域に対して考慮され、
−前記最小の知覚可能な誤差を達成するために、平均の知覚可能な誤差または最大の知覚可能な誤差を最小化するように前記非所定数(M)の方向性信号(XDIR(k−2))が選択される、ように決定される、請求項1に記載の方法。
【請求項4】
前記残差のアンビエントHOA成分(CAMB,RED(k−2))を表現する低減された数のHOA係数列の選択は、3つの場合を区別する基準に従って行われ、前記3つの場合は、
−前記現在のフレーム(k)のHOA係数列の数がその前のフレーム(k−1)のHOA係数列の数と同一であるときに、前記前のフレームと同一のHOA係数列が選択される場合と、
−前記現在のフレーム(k)のHOA係数列の数がその前のフレーム(k−1)のHOA係数列の数よりも小さいときに、方向性信号によって占められている前記現在のフレーム内のチャンネルに割り当てられた前記前のフレームに存在した、前記前のフレームからのHOA係数列が非アクティブ化される場合と、
−前記現在のフレーム(k)のHOA係数列の数がその前のフレーム(k−1)のHOA係数列の数よりも大きいときに、前記前のフレームで選択されていたHOA係数列が前記現在のフレームでも選択され、追加的なHOA係数列が当該追加的なHOA係数列の知覚的な重要性または最も高い平均パワーに従って選択可能である場合と、
である、請求項1または3に記載の方法。
【請求項5】
前記割り当て(16)の実行で、
−アクティブな方向性信号は、前記知覚符号化(17)のための連続的な信号を取得するために、そのアクティブな方向性信号がチャンネル・インデックスを保持するように、所与のチャンネルに割り当てられ、
−前記残差のアンビエントHOA成分(CAMB,RED(k−2))のHOA係数列は、最小の数(ΟRED)の当該HOA係数列が常に対応する数(ΟRED)の前のチャンネルが含まれるように、割り当てられ、
−前記残差のアンビエントHOA成分(CAMB,RED(k−2))の追加的なHOA係数列を割り当てるために、該追加的なHOA係数列が前記前のフレーム(k−1)でも選択されていたかが判定され、
−−前記追加的なHOA係数列が前記前のフレーム(k−1)でも選択されていた場合には、前記HOA係数列の知覚符号化(17)されるチャンネルに対する割り当て(16)が前記前のフレームに対する割り当てと同一となり、
−−前記追加的なHOA係数列が前記前のフレーム(k−1)では選択されておらず、
HOA係数列が新たに選択されている場合には、前記HOA係数列は、まずインデックスに関して昇順に配列され、当該昇順で、方向性信号によってまだ占められていない知覚符号化(17)されるチャンネルに割り当てられる、
請求項1、3、および4のいずれか1項に記載の方法。
【請求項6】
ΟREDは、前記残差のアンビエントHOA成分(CAMB,RED(k−2))を表現するHOA係数列の数であり、前記割り当て(16)を記述するパラメータは、前記残差のアンビエントHOA成分を表現するΟRED個のHOA係数列に追加して使用される追加の数のHOA係数列に対応する長さを有するビットアレイに配列され、前記ビットアレイ内で各o番目のビットは、(ΟRED+o)番目の追加のHOA係数列が前記残差のアンビエントHOA成分を表現するために使用されているかどうかを示す、請求項1および3〜5のいずれか1項に記載の方法。
【請求項7】
前記割り当て(16)を記述するパラメータは、非アクティブな方向性信号の数に対応する長さを有する割り当てベクトルに配列され、該割り当てベクトルの要素は、前記残差のアンビエントHOA成分の追加的なHOA係数列のうちのいずれが非アクティブな方向性信号を有するチャンネルに割り当てられるかを示す、請求項1および3〜5のいずれか1項に記載の方法。
【請求項8】
前記現在のフレームのHOA係数列の分解(14)は、前記方向性信号(XDIR(k−2))から元のHOA表現の部分を予測するために圧縮解除側で使用可能なパラメータ(ζ(k−2))をさらに供給する、請求項1および3〜7のいずれか1項に記載の方法。
【請求項9】
前記割り当て(16)は、割り当てベクトル(γ(k))を供給し、該割り当てベクトルの要素は、前記残差のアンビエントHOA成分に対する追加的なHOA係数列のうちのいずれが非アクティブな方向性信号を有するチャンネルに割り当てられるかについての情報を表現する、請求項5〜8のいずれか1項に記載の方法。
【請求項10】
請求項1に記載の方法に従って圧縮された高次アンビソニックス表現を圧縮解除する方法であって、
−チャンネルの知覚復号されたフレーム
[この文献は図面を表示できません]
を得るために、現在の符号化圧縮されたフレーム
[この文献は図面を表示できません]
を復号するステップ(31)と、
−方向性信号のインデックスの前記データセット
[この文献は図面を表示できません]
と選択されたアンビエントHOA係数列のインデックスの前記データセット
[この文献は図面を表示できません]
を使用して、方向性信号
[この文献は図面を表示できません]
の前記対応するフレームと前記残差のアンビエントHOA成分
[この文献は図面を表示できません]
の前記対応するフレームとを再形成するために、チャンネルの前記知覚復号されたフレーム
[この文献は図面を表示できません]
を再配分するステップ(32)と、
−検出された方向性信号のインデックスの前記データセット
[この文献は図面を表示できません]
および支配的な方向推定値の前記セット
[この文献は図面を表示できません]
を使用して、方向性信号
[この文献は図面を表示できません]
の前記フレームと前記残差のアンビエントHOA成分
[この文献は図面を表示できません]
の前記フレームとからHOA表現の現在の圧縮解除されたフレーム
[この文献は図面を表示できません]
を再合成するステップ(33)と、を含み、
均一に分布した方向に対する方向性信号が前記方向性信号
[この文献は図面を表示できません]
から予測され、その後に、前記現在の圧縮解除されたフレーム
[この文献は図面を表示できません]
は、方向性信号
[この文献は図面を表示できません]
の前記フレーム、前記予測された信号、および前記残差のアンビエントHOA成分
[この文献は図面を表示できません]
から再合成される、前記方法。
【請求項11】
請求項1に記載の方法に従って圧縮された高次アンビソニックス表現を圧縮解除する装置であって、
−チャンネルの知覚復号されたフレーム
[この文献は図面を表示できません]
を得るために、現在の符号化圧縮されたフレーム
[この文献は図面を表示できません]
を復号するように構成された手段(31)と、
−検出された方向性信号のインデックスの前記データセット
[この文献は図面を表示できません]
と選択されたアンビエントHOA係数列のインデックスの前記データセット
[この文献は図面を表示できません]
を使用して、方向性信号
[この文献は図面を表示できません]
の前記対応するフレームと前記残差のアンビエントHOA成分
[この文献は図面を表示できません]
の前記対応するフレームとを再形成するために、チャンネルの前記知覚復号されたフレーム
[この文献は図面を表示できません]
を再配分するように構成された手段(32)と、
−検出された方向性信号のインデックスの前記データセット
[この文献は図面を表示できません]
および支配的な方向推定値の前記セット
[この文献は図面を表示できません]
を使用して、方向性信号
[この文献は図面を表示できません]
の前記フレームと前記残差のアンビエントHOA成分
[この文献は図面を表示できません]
の前記フレームとからHOA表現の現在の圧縮解除されたフレーム
[この文献は図面を表示できません]
を再合成するように構成された手段(33)と、を備え、
均一に分布した方向に対する方向性信号が前記方向性信号
[この文献は図面を表示できません]
から予測され、その後に、前記現在の圧縮解除されたフレーム
[この文献は図面を表示できません]
は、方向性信号
[この文献は図面を表示できません]
の前記フレーム、前記予測された信号、および前記残差のアンビエントHOA成分
[この文献は図面を表示できません]
から再合成される、前記装置。
【請求項12】
均一に分布した方向に対する方向性信号の前記予測は、前記方向性信号
[この文献は図面を表示できません]
から、前記予測のための前記
供給されたパラメータ(ζ(k−2))を使用して行われる、
請求項
8に記載の方法。
【請求項13】
前記再配分(32)において、検出された方向性信号のインデックスの前記データセット
[この文献は図面を表示できません]
および選択されたアンビエントHOA係数列のインデックスの前記データセット
[この文献は図面を表示できません]
の代わりに、受信した割り当てベクトル(γ(k))が使用され、該割り当てベクトルの要素は、前記残差のアンビエントHOA成分の追加的なHOA係数列のうちのいずれが非アクティブな方向性信号を有するチャンネルに割り当てられるかについての情報を表現する、請求項10または12に記載の方法。
【請求項14】
前記非所定数(M)の方向性信号(XDIR(k−2))は、知覚に関連する基準に従って、
−前記圧縮のための所定の所与の数のチャンネルを用いることにより、対応して圧縮解除されるHOA表現が最小の知覚可能な誤差をもたらし、前記基準で考慮される誤差は、
−−複数の異なる数の前記方向性信号(XDIR(k−2))と前記残差のアンビエントHOA成分(CAMB,RED(k−2))に対して複数の異なる数のHOA係数列とを
使用することから生ずるモデル化誤差と、
−−前記方向性信号(XDIR(k−2))の知覚符号化に伴う量子化雑音と、
−−前記残差のアンビエントHOA成分(CAMB,RED(k−2))の個々のHOA
係数列を符号化することに伴う量子化雑音と、であり、
−前記3つの誤差の結果として生ずる合計誤差は、当該合計誤差の知覚可能性に関して、複数のテスト方向および複数の臨界帯域に対して考慮され、
−前記最小の知覚可能な誤差を達成するために、平均の知覚可能な誤差または最大の知覚可能な誤差を最小化するように前記非所定数(M)の方向性信号(XDIR(k−2))が選択される、ように決定される、請求項2に記載の装置。
【請求項15】
前記残差のアンビエントHOA成分(CAMB,RED(k−2))を表現する低減された数のHOA係数列の選択は、3つの場合を区別する基準に従って行われ、前記3つの場合は、
−前記現在のフレーム(k)のHOA係数列の数がその前のフレーム(k−1)のHOA係数列の数と同一であるときに、前記前のフレームと同一のHOA係数列が選択される場合と、
−前記現在のフレーム(k)のHOA係数列の数がその前のフレーム(k−1)のHOA係数列の数よりも小さいときに、方向性信号によって占められている前記現在のフレーム内のチャンネルに割り当てられた前記前のフレームに存在した、前記前のフレームからのHOA係数列が非アクティブ化される場合と、
−前記現在のフレーム(k)のHOA係数列の数がその前のフレーム(k−1)のHOA係数列の数よりも大きいときに、前記前のフレームで選択されていたHOA係数列が前記現在のフレームでも選択され、追加的なHOA係数列が当該追加的なHOA係数列の知覚的な重要性または最も高い平均パワーに従って選択可能である場合と、
である、請求項2または14に記載の装置。
【請求項16】
前記割り当て(16)の実行で、
−アクティブな方向性信号は、前記知覚符号化(17)のための連続的な信号を取得するために、そのアクティブな方向性信号がチャンネル・インデックスを保持するように、所与のチャンネルに割り当てられ、
−前記残差のアンビエントHOA成分(CAMB,RED(k−2))のHOA係数列は、最小の数(ΟRED)の当該HOA係数列が常に対応する数(ΟRED)の前のチャンネルが含まれるように、割り当てられ、
−前記残差のアンビエントHOA成分(CAMB,RED(k−2))の追加的なHOA係数列を割り当てるために、該追加的なHOA係数列が前記前のフレーム(k−1)でも選択されていたかが判定され、
−−前記追加的なHOA係数列が前記前のフレーム(k−1)でも選択されていた場合には、前記HOA係数列の知覚符号化(17)されるチャンネルに対する割り当て(16)が前記前のフレームに対する割り当てと同一となり、
−−前記追加的なHOA係数列が前記前のフレーム(k−1)では選択されておらず、
HOA係数列が新たに選択されている場合には、前記HOA係数列は、まずインデックスに関して昇順に配列され、当該昇順で、方向性信号によってまだ占められていない知覚符号化(17)されるチャンネルに割り当てられる、
請求項2、14および15のいずれか1項に記載の装置。
【請求項17】
ΟREDは、前記残差のアンビエントHOA成分(CAMB,RED(k−2))を表現するHOA係数列の数であり、前記割り当て(16)を記述するパラメータは、前記残差のアンビエントHOA成分を表現するΟRED個のHOA係数列に追加して使用される追加の数のHOA係数列に対応する長さを有するビットアレイに配列され、前記ビットアレイ内で各o番目のビットは、(ΟRED+o)番目の追加のHOA係数列が前記残差のアンビエントHOA成分を表現するために使用されているかどうかを示す、請求項2および14〜16のいずれか1項に記載の装置。
【請求項18】
前記割り当て(16)を記述するパラメータは、非アクティブな方向性信号の数に対応する長さを有する割り当てベクトルに配列され、該割り当てベクトルの要素は、前記残差のアンビエントHOA成分の追加的なHOA係数列のうちのいずれが非アクティブな方向性信号を有するチャンネルに割り当てられるかを示す、請求項2および14〜16のいずれか1項に記載の装置。
【請求項19】
前記現在のフレームのHOA係数列の分解(14)は、前記方向性信号(XDIR(k−2))から元のHOA表現の部分を予測するために圧縮解除側で使用可能なパラメータ(ζ(k−2))をさらに供給する、請求項2及び14〜18のいずれか1項に記載の装置。
【請求項20】
前記割り当て(16)は、割り当てベクトル(γ(k))を供給し、該割り当てベクトルの要素は、前記残差のアンビエントHOA成分に対する追加的なHOA係数列のうちのいずれが非アクティブな方向性信号を有するチャンネルに割り当てられるかについての情報を表現する、請求項16〜19のいずれか1項に記載の装置。
【請求項21】
均一に分布した方向に対する方向性信号の前記予測は、前記方向性信号
[この文献は図面を表示できません]
から、前記予測のための前記
供給されたパラメータ(ζ(k−2))を使用して行われる、
請求項
19に記載の装置。
【請求項22】
前記再配分(32)において、検出された方向性信号のインデックスの前記データセット
[この文献は図面を表示できません]
および選択されたアンビエントHOA係数列のインデックスの前記データセット
[この文献は図面を表示できません]
の代わりに、受信した割り当てベクトル(γ(k))が使用され、該割り当てベクトルの要素は、前記残差のアンビエントHOA成分の追加的なHOA係数列のうちのいずれが非アクティブな方向性信号を有するチャンネルに割り当てられるかについての情報を表現する、請求項11または21に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、方向性信号成分およびアンビエント信号成分を別々に処理することによって高次アンビソニックス表現を圧縮および圧縮解除する方法および装置に関する。
【背景技術】
【0002】
高次アンビソニックス(HOA)は、波面合成法(WFS)や22.2のようなチャンネルに基づくアプローチといった他の技術が存在する一方で、三次元音声を表現する1つの可能性を提供している。チャンネルに基づく方法と対照的に、HOA表現には、特定のラウドスピーカの設定とは独立しているという利点がある。しかしながら、この柔軟性を得るためには、特定のラウドスピーカの設定でHOA表現を再生するための復号処理が必要となる。通常、必要なラウドスピーカの数が大変多くなるWFSのアプローチと比較して、HOAは極めて少ない数のラウドスピーカのみで構成される設定にすることができる。HOAのさらなる利点は、ヘッドフォンへのバイノーラル・レンダリングにも変更を必要とすることなく同じ表現を利用できる点にある。
【0003】
HOAは、切断球面調和関数(SH)展開による複素調和平面波振幅の空間密度の表現に基づいている。各展開係数は角周波数の関数であり、これを、時間領域関数によって同等に表現することができる。したがって、一般性を失うことなく、完全なHOA音場表現は、実際には、“Ο”個の時間領域関数から構成されるものと考えることができる。ここで、Οは、展開係数の数を表している。これらの時間領域関数は同等の意味を有するものとして以下のHOA係数列またはHOAチャンネルを参照する。
【0004】
HOA表現の空間解像度は、展開の最大次数Nの増加とともに向上する。残念ながら、展開係数の数“Ο”は、次数Nに対して二乗的に増加し、特にΟ=(N+1)
2となる。例えば、次数N=4を使用した一般的なHOA表現には、Ο=25の個数のHOA(展開)係数が必要となる。上記の点を考慮して、HOA表現の伝送のための合計ビットレートは、所望の単一チャンネルのサンプリング・レートf
sおよびサンプル毎のビットの数N
bが与えられると、Ο・f
s・N
bによって求めることができる。したがって、サンプル毎にN
b=16の個数のビットを使用してf
s=48kHzのサンプリング・レートでの次数N=4のHOA表現を伝送すると、結果として、ビットレートは、19.2メガビット/秒となるが、これは、多くの実用的なアプリケーション、例えば、ストリーミングでは極めて高いビットレートである。
【0005】
HOA音場表現の圧縮は、欧州特許出願第12306569号および欧州特許出願第12305537号において提案されている。例えば、E.Hellerud、I.Burnett、A.SolvangおよびU.P.Svenssonの「AACを用いた高次アンビソニックスの符号化」124回AESコンベンション、アムステルダム、2008年、において行われているような、HOA係数列を個々に知覚符号化することの代わりに、特に音場分析を行い、所与のHOA表現を方向性成分および残差アンビエント成分に分解することによって、知覚符号化される信号の数を減少させる試みが行われている。一般的には、方向性成分は、一般的な平面波関数とみなすことができる少数の支配的な方向性信号によって表現されるものとされる。残差のアンビエントHOA成分の次数が低減される。その理由は、支配的な方向性信号を抽出した後には、より低次のHOA係数が最も関連する情報を保持していると考えられるからである。
【発明の概要】
【0006】
総括すると、そのような処理を行うことによって、知覚符号化されるHOA係数列の初期数(N+1)
2は、D個の支配的な方向性信号の所定数と、切断次数N
RED<Nを用いて残差のアンビエントHOA成分を表現する(N
RED+1)
2個のHOA係数列の数とに低減される。それによって、符号化される信号の数が決まり、すなわち、D+(N
RED+1)
2となる。特に、この数は、時間フレームkにおけるアクティブな支配的な方向性音源の実際に検出された数D
ACT(k)≦Dとは独立している。これは、時間フレームkにおいて、アクティブな支配的な方向性音源の実際に検出された数D
ACT(k)が方向性信号の最大許容数Dよりも小さい場合、知覚符号化される支配的な方向性信号のいくつかまたは全てさえもが零となることを意味している。つまり、これはこの複数のチャンネルが音場の関連情報を捕捉するために全く使用されないことを意味する。
【0007】
この状況で、欧州特許出願第12306569号および欧州特許出願第12305537号における処理の別の想定される弱点は、各時間フレーム内の支配的な方向性信号の数を決定するための基準である。その理由は、音場の連続的な知覚符号化に関してアクティブな支配的な方向性信号の最適な数を決定する試みが行われていないからである。例えば、欧州特許出願第12305537号においては、支配的な音源の数が単純なパワー基準を使用して、すなわち、最大の固有値に属する係数間の相関行列の部分空間の次元を求めることによって推定される。欧州特許出願第12306569号においては、支配的な方向性音源のインクリメンタル検出が提案されている。ここで、各々の方向からの平面波関数のパワーが最初の方向性信号に対して十分に高い場合には、方向性音源が支配的であると考慮される。欧州特許出願第12306569号および欧州特許出願第12305537号の場合のようなパワーに基づく基準を使用すると、音場の知覚符号化に関して最適であるとは云えない方向性−アンビエント分解となることもある。
【0008】
本発明によって解決される課題は、現在のHOAオーディオ信号コンテンツに対して、所定の低減された数のチャンネルに、方向性信号およびアンビエントHOA成分に対する係数をどのように割り当てるかを決定することによって、HOA圧縮を改善することにある。この課題は、請求項1および3に開示されたそれぞれの方法によって解決される。これらの方法を利用する装置は、請求項2および4において開示されている。
【0009】
本発明は、2つの態様において、欧州特許出願第12306569号で提案されている圧縮処理を改善する。第1に、知覚符号化される所与の数のチャンネルによってもたらされる帯域幅が良好に利用される。支配的な音源信号が検出されない時間フレームでは、支配的な方向性信号に対して当初より確保されているチャンネルは、アンビエント成分についての追加的な情報を捕捉するために、残差のアンビエントHOA成分の追加的なHOA係数列の形式で使用される。第2に、所与のHOA音場表現を知覚符号化するために所与の数のチャンネルを利用するという目的を念頭に置くと、HOA表現から抽出される方向性信号の数を決定するための基準は、その目的に対して適応化される。方向性信号の数は、復号され再構築されたHOA表現によって知覚される誤差が最も小さくなるように決定される。その基準は、方向性信号を抽出することと残差のアンビエントHOA成分を記述するためにHOA係数列をより少なく使用することとから生ずるモデル化誤差と、方向性信号を抽出することなく、その代わりに残差のアンビエントHOA成分を記述するために追加的なHOA係数列を使用することから生ずるモデル化誤差とを比較する。その基準は、さらに、その双方の場合に対して、方向性信号および残差のアンビエントHOA成分のHOA係数列の知覚符号化によってもたらされる量子化雑音の空間パワー分布を考慮する。
【0010】
上述した処理を実施するために、HOA圧縮を開始する前に、信号(チャンネル)の合計数Iが定められる。この合計数Iは、当初のΟ個のHOA係数列の数と比較して低減させられたものである。アンビエントHOA成分は、最小の数Ο
RED個のHOA係数列によって表現されるものと仮定される。場合によっては、その最小の数が零となることもある。残りのD=I−Ο
RED個のチャンネルは、方向性信号抽出処理が判定する知覚的に意味のよりあるものに依存して、方向性信号またはアンビエントHOA成分の追加的な係数列のいずれかを含むものとされる。方向性信号またはアンビエントHOA成分係数列のいずれかの残りのD個のチャンネルに対する割り当ては、フレーム単位で変更可能であるものと仮定される。受信機側での音場の再構築のために、この割り当てについての情報は、追加の副情報として送信される。
【0011】
原理的には、本発明の圧縮方法は、所定数の知覚符号化処理を使用して、HOAと称する音場の高次アンビソニックス表現をHOA係数列の入力される時間フレームを用いて圧縮するのに適している。この方法は、フレーム単位で行われ、
−現在のフレームに対して、支配的な方向のセットおよび対応する検出された方向性信号のインデックスのデータセットを推定するステップと、
−上記現在のフレームのHOA係数列を分解するステップであって、非所定数の方向性信号であって、支配的な方向推定値の上記セットに含まれる各々の方向と上記方向性信号のインデックスの各々のデータセットとを用いた、上記非所定数が上記所定数よりも小さい、上記非所定数の方向性信号と、上記所定数と上記非所定数との差に対応する低減された数のHOA係数列によって表現される残差のアンビエントHOA成分と、対応する上記低減された数の残差のアンビエントHOA係数列のインデックスのデータセットと、に分解する、上記分解するステップと、
−上記方向性信号および上記残差のアンビエントHOA成分のHOA係数列を上記所定数に対応する数のチャンネルに割り当てるステップであって、上記割り当てのために、上記方向性信号のインデックスの上記データセットおよび上記低減された数の残差のアンビエントHOA係数列のインデックスの上記データセットが使用される、上記割り当てるステップと、
−関連するフレームの上記チャンネルを知覚符号化するステップであって、符号化された圧縮されたフレームが得られる、上記知覚符号化するステップと、を含む。
【0012】
原理的には、本発明の圧縮装置は、所定数の知覚符号化処理を使用して音場のHOAと称する高次アンビソニックス表現をHOA係数列の入力される時間フレームを用いて圧縮するのに適している。
上記装置は、フレーム単位の処理を実行し、
−現在のフレームに対して、支配的な方向のセットおよび対応する検出された方向性信号のインデックスのデータセットを推定するように構成された手段と、
−上記現在のフレームのHOA係数列を分解するように構成された手段であって、非所定数の方向性信号であって、支配的な方向推定値の上記セットに含まれる各々の方向と、上記方向性信号のインデックスの各々のデータセットとを用いた、上記非所定数が上記所定数よりも小さい、上記非所定数の方向性信号と、上記所定数と上記非所定数との差に対応する低減された数のHOA係数列によって表現される残差のアンビエントHOA成分と、対応する上記低減された数の残差のアンビエントHOA係数列のインデックスの対応するデータセットと、に分解するように構成された、上記手段と、
−上記方向性信号および上記残差のアンビエントHOA成分のHOA係数列を上記所定数に対応する数のチャンネルに割り当てるように構成された手段であって、上記割り当てのために、上記方向性信号のインデックスの上記データセットおよび上記低減された数の残差のアンビエントHOA係数列のインデックスの上記データセットが使用される、上記手段と、
−関連するフレームの上記チャンネルを知覚符号化するように構成された手段であって、符号化された圧縮されたフレームが得られる、上記手段と、を含む。
【0013】
原理的には、本発明の圧縮解除方法は、上述の圧縮方法に従って圧縮された高次アンビソニックス表現を圧縮解除するのに適している。この圧縮解除方法は、
−チャンネルの知覚復号されたフレームを得るために、現在の符号化圧縮されたフレームを復号するステップと、
−検出された方向性信号のインデックスの上記データセットと上記選択されたアンビエントHOA係数列のインデックスの上記データセットを使用して、方向性信号の上記対応するフレームと残差のアンビエントHOA成分の上記対応するフレームとを再形成するために、チャンネルの上記知覚復号されたフレームを再配分するステップと、
−検出された方向性信号のインデックスの上記データセットおよび支配的な方向性推定値の上記セットを使用して、方向性信号の上記フレームと上記残差のアンビエントHOA成分の上記フレームとからHOA表現の現在の圧縮解除されたフレームを再合成するステップと、を含み、
均一に分布した方向に対する方向性信号が上記方向性信号から予測され、その後に、上記現在の圧縮解除されたフレームは、方向性信号の上記フレーム、上記予測された信号、および上記残差のアンビエントHOA成分から再合成される。
【0014】
原理的には、本発明の圧縮解除装置は、上述の圧縮方法に従って圧縮された高次アンビソニックス表現を圧縮解除するのに適している。この装置は、
−チャンネルの知覚復号されたフレームを得るために、現在の符号化圧縮されたフレームを復号するように構成された手段と、
−検出された方向性信号のインデックスの上記データセットと選択されたアンビエントHOA係数列のインデックスの上記データセットを使用して、方向性信号の上記対応するフレームと上記残差のアンビエントHOA成分の上記対応するフレームとを再形成するために、チャンネルの上記知覚復号されたフレームを再配分するように構成された手段と、
−検出された方向性信号のインデックスの上記データセットおよび支配的な方向性推定値の上記セットを使用して、方向性信号の上記フレームと上記残差のアンビエントHOA成分の上記フレームとから、上記HOA表現の現在の圧縮解除されたフレームを再合成するように構成された手段と、を含み、
均一に分布した方向に対する方向性信号が上記方向性信号から予測され、その後に、上記現在の圧縮解除されたフレームは、方向性信号の上記フレーム、上記予測された信号、および上記残差のアンビエントHOA成分から再合成される。
【0015】
本発明の追加的な実施形態は、各々の従属請求項に開示されており、有利なものである。
【図面の簡単な説明】
【0016】
【
図2】支配的な音源方向の推定のブロック図である。
【
図5】複数の異なるアンビソニックス次数Nおよび角度θ∈[0,π]に対する正規化された分散関数ν
N(Θ)を示す図である。
【発明を実施するための形態】
【0017】
本発明の例示的な実施形態は、添付図面を参照して説明される。
A.改良されたHOA圧縮
本発明に係る圧縮処理は、欧州特許出願第12306569号に基づいており、
図1に示されている。ここで、信号処理ブロックは、欧州特許出願第12306569号に対して変更が加えられ、または新たに導入されており、その信号処理ブロックは太字のボックスで示されており、本出願における「
[この文献は図面を表示できません]
」(方向推定値とされたもの)および「C」は、それぞれ、欧州特許出願第12306569号の「A」(方向推定値の行列)および「D」に対応する。
【0018】
HOA圧縮のために、長さLのHOA係数列の重複しない入力フレームC(k)を用いたフレーム単位の処理が使用される。ここで、kは、フレームのインデックスを表す。フレームは、下記の式(1)に特定されたHOA係数列に関して定義される。
【数1】
[この文献は図面を表示できません]
ここで、T
sは、サンプリング期間を表す。
【0019】
図1のステップまたはステージ11/12は、任意に行われ、HOA係数列の重複しないk番目のフレームおよび(k−1)番目のフレームを下記の式に従って連結して長いフレーム
[この文献は図面を表示できません]
にすることを含む。
【数2】
[この文献は図面を表示できません]
この長いフレームは、隣接する長いフレームと50%重複し、長いフレームは、支配的な音源方向の推定に連続的に使用される。
[この文献は図面を表示できません]
の表記と同様に、チルダ記号は、以下の説明において、各々の量が長い重複するフレームを指すことを示すために使用される。ステップ/ステージ11/12が存在しない場合には、チルダ記号は特別な意味を持たない。
【0020】
原理的には、支配的な音源の推定ステップまたはステージ13は、欧州特許出願第13305156号に提案されているように行われるが、重要な変更を有する。この変更は、検出される方向の数の決定、すなわち、何個の方向性信号がHOA表現から抽出されるとするかに関する。これは、アンビエントHOA成分の良好な近似計算のために、追加的なHOA係数列を使用することよりも方向性信号を抽出することの方が知覚的に関連性が高い場合にのみ、追加的なHOA係数列を使用する代わりに方向性信号を抽出しようとする考えから成し遂げられるものである。A.2の項目でこの技術についての詳細な説明を行う。
【0021】
支配的な音源の推定により、検出された方向性信号のインデックスのデータセット
[この文献は図面を表示できません]
と、対応する方向推定値のセット
[この文献は図面を表示できません]
とが得られる。Dは、HOA圧縮を開始する前に設定しなければならない方向性信号の最大数を示している。
【0022】
ステップまたはステージ14において、HOA係数列の現在の(長い)フレーム
[この文献は図面を表示できません]
が、セット
[この文献は図面を表示できません]
内に含まれる方向に属する複数の方向性信号X
DIR(k−2)と、残差のアンビエントHOA成分C
AMB(k−2)とに分解される(欧州特許出願第13305156号に提案されているように)。滑らかな信号を得るために、重畳加算処理の結果として2つのフレーム分の遅延が導入される。X
DIR(k−2)は、合計D個のチャンネルを含むものの、このうち、アクティブな方向性信号に対応するチャンネルのみが零でないと仮定される。このチャンネルを特定するインデックスは、データセット
[この文献は図面を表示できません]
内において出力されるものと仮定される。さらに、ステップ/ステージ14における分解によって、方向性信号から元のHOA表現の部分を予測するために圧縮解除側で使用されるいくつかのパラメータζ(k−2)を供給する(より詳細には欧州特許出願第13305156号参照)。ステップまたはステージ15において、アンビエントHOA成分C
AMB(k−2)の係数の数はインテリジェントに低減され、Ο
RED+D−N
DIR,ACT(k−2)個の非零のHOA係数列のみを含むようになる。ここで、
[この文献は図面を表示できません]
は、データセット
[この文献は図面を表示できません]
の組の数、すなわち、フレームk−2内のアクティブな方向性信号の数を示す。アンビエントHOA成分は、最小の数Ο
RED個のHOA係数列によって常に表現されると仮定されるため、この問題は、実際には、想定されるΟ−Ο
RED個のHOA係数列から残りのD−N
DIR,ACT(k−2)個のHOA係数列を選択することに集約される。滑らかな低減されたアンビエントHOA表現を取得するために、この選択は、前のフレームk−3で行った選択と比較して、変更が可能な限り少なくなるように行われる。
【0023】
特に、以下の3つの場合を区別すべきである。
【0024】
a)N
DIR,ACT(k−2)=N
DIR,ACT(k−3):この場合、フレームk−3の場合と同様に、同一のHOA係数列が選択されるものと想定される。
【0025】
b)N
DIR,ACT(k−2)<N
DIR,ACT(k−3):この場合、現在のフレーム内のアンビエントHOA成分を表現するために、この前のフレームk−3よりも多いHOA係数列を使用することができる。k−3において選択済のそのHOA係数列は、現在のフレーム内でも選択されるものと仮定される。異なる基準に従って追加的なHOA係数列を選択可能である。例えば、最高の平均パワーを有するHOA係数列をC
AMB(k−2)内で選択するか、あるいは、それぞれの知覚的な重要性に関してHOA係数列を選択する。
【0026】
c)N
DIR,ACT(k−2)>N
DIR,ACT(k−3):この場合、現在のフレーム内のアンビエントHOA成分を表現するために、最後のフレームk−3に存在するHOA係数列よりも少ないHOA係数列を使用することができる。ここで解決すべき課題は、既に選択済のHOA係数列のうち、どれを非アクティブ化しなければならないかである。合理的な解決法は、フレームk−3で、信号を割り当てるステップまたはステージ16でチャンネル
[この文献は図面を表示できません]
に割り当てられたHOA係数列を非アクティブ化することである。
【0027】
追加的なHOA係数列がアクティブ化または非アクティブ化されるときのフレーム境界での不連続を回避するために、各々の信号を平滑的にフェード・インまたはフェード・アウトさせるとよい。
【0028】
Ο
RED+N
DIR,ACT(k−2)個の低減された個数の最終的なアンビエントHOA表現は、C
AMB,RED(k−2)によって示される。選択されたアンビエント係数列のインデックスは、データセット
[この文献は図面を表示できません]
内に出力される。
【0029】
ステップ/ステージ16において、X
DIR(k−2)に含まれるアクティブな方向性信号およびC
AMB,RED(k−2)に含まれるHOA係数列は、個々の知覚符号化のためにI個のチャンネルのフレームY(k−2)に割り当てられる。より詳細に信号の割り当てを記述すると、フレームX
DIR(k−2)、Y(k−2)およびC
AMD,RED(k−2)は、下記のように、個々の信号x
DIR,d(k−2)(d∈{1,… ,D})、y
i(k−2)(i∈{1,… ,I})およびc
AMB, RED, ο(k−2)(ο∈1,… ,Ο)によって構成されるものと仮定される。
【数3】
[この文献は図面を表示できません]
【0030】
連続する知覚符号化のために連続した信号を取得するために、それぞれのチャンネルのインデックスを保持するようにアクティブな方向性信号が割り当てられる。これを下記の式のように表すことができる。
【数4】
[この文献は図面を表示できません]
【0031】
アンビエント成分のHOA係数列は、最小の数のΟ
RED個の係数列がY(k−2)の最後のΟ
RED個の信号に常に含まれるように、すなわち、下記の式に従って割り当てられる。
【数5】
[この文献は図面を表示できません]
【0032】
追加的なD−N
DIR,ACT(k−2)個のアンビエント成分のHOA係数列については、これらが前のフレームでも選択されていたかどうかを区別すべきである。
a)追加的なD−N
DIR,ACT(k−2)個のアンビエント成分のHOA係数列が送信されるものとして前のフレーム内でも選択されていた場合、すなわち、各々のインデックスもまた、データセット
[この文献は図面を表示できません]
に含まれる場合には、これらの係数列のY(k−2)における信号への割り当ては、前のフレームに対する割り当てと同じである。この処理は、滑らかな信号y
i(k−2)を確保するものであり、ステップまたはステージ17における連続的な知覚符号化にとって好ましいものである。
b)そうではなく、いくつかの係数列が新たに選択されている場合、すなわち、これらのインデックスがデータセット
[この文献は図面を表示できません]
に含まれているが、データセット
[この文献は図面を表示できません]
に含まれていない場合には、これらはまず、インデックスに関して昇順に配列され、この順番で方向性信号によってまだ占められていないY(k−2)のチャンネル
[この文献は図面を表示できません]
に割り当てられる。
【0033】
この特定の割り当ては、HOA圧縮解除処理の間に信号の再配分および合成が、どのアンビエントHOA係数列がY(k−2)個のどのチャンネルに含まれているかについての情報無しに行えるようになるという利点を提供する。代わりに、データセット
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
の情報のみで、HOA圧縮解除の間に割り当てを再構築することができる。
【0034】
この割り当て処理によって、割り当てベクトル
[この文献は図面を表示できません]
ももたらされることが有利である。この要素γ
ο(k)(ο=1,… ,D−N
DIR,ACT(k−2))は追加的なD−N
DIR,ACT(k−2)個のアンビエント成分のHOA係数列の各々のインデックスを表す。換言すれば、割り当てベクトルγ(k)の要素により、追加的なΟ−Ο
RED個のアンビエントHOA成分のHOA係数列のうちのいずれがD−N
DIR,ACT(k−2)個の非アクティブな方向性信号のチャンネルに割り当てられるかについての情報が得られる。このベクトルは、HOA圧縮解除のために行われる再配分処理の初期化(項目B参照)を可能にするために、追加的に、フレームレートによる送信よりも低い頻度ではあるが送信されることがある。知覚符号化ステップ/ステージ17は、フレームY(k−2)のI個のチャンネルを符号化し、符号化されたフレーム
[この文献は図面を表示できません]
を出力する。
【0035】
ステップ/ステージ16でベクトルγ(k)が送信されないフレームについては、圧縮解除側で、データ・パラメータ・セット
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
がベクトルγ(k)の代わりに再配分を行うために使用される。
【0036】
A.1 支配的な音源方向の推定
図1の支配的な音源方向に対する推定ステップ/ステージ13が
図2により詳細に描かれている。これは、本質的に、欧州特許出願第13305156号に記載された内容に従って行われるが、決定的な違いがある。その決定的な違いは、支配的な音源の数を決定する手法である。支配的な音源の数は、所与のHOA表現から抽出される方向性信号の数に対応する。この数は重要であり、その理由は、より多くの方向性信号を使用すること、あるいはその代わりに、より多くのHOA係数列を使用してアンビエントHOA成分をより良好にモデル化することのいずれかによって、所与のHOA表現がより良好に表現されているかを制御するためにこの数が使用されるからである。
【0037】
支配的な音源方向の推定は、入力されるHOA係数列の長いフレーム
[この文献は図面を表示できません]
を使用して、支配的な音源方向の予備サーチで、ステップまたはステージ21において開始する。予備的な方向推定値
[この文献は図面を表示できません]
と共に、個々の音源によって形成されるものとされる、予備的な方向推定値に対応する方向性信号
[この文献は図面を表示できません]
およびHOA音場成分
[この文献は図面を表示できません]
を欧州特許出願第13305156号に記載された内容に従って算出する。
【0038】
ステップまたはステージ22において、予備的な方向推定値、方向性信号、およびHOA音場成分は、抽出される方向性信号の数
[この文献は図面を表示できません]
を決定するために入力されるHOA係数列のフレーム
[この文献は図面を表示できません]
と共に使用される。結果として、
[この文献は図面を表示できません]
の方向性推定値
[この文献は図面を表示できません]
、これと対応する方向性信号
[この文献は図面を表示できません]
、およびHOA音場成分
[この文献は図面を表示できません]
が破棄される。代わりに、
[この文献は図面を表示できません]
の方向推定値
[この文献は図面を表示できません]
のみが、次に、既に見つかっている音源に対して割り当てられる。
【0039】
ステップまたはステージ23において、結果として得られる方向軌跡は、音源動きモデルに従ってスムージング(滑らかに)され、音源のいずれがアクティブであるとされるかが決定される(欧州特許出願第13305156号参照)。この最後の処理により、アクティブな方向性音源のインデックスのセット
[この文献は図面を表示できません]
とこれに対応する方向推定値のセット
[この文献は図面を表示できません]
とが得られる。
【0040】
A.2 抽出される方向性信号の数の決定
ステップ/ステージ22において方向性信号の数を決定するために、知覚的に最も関連する音場情報を捕捉するために利用される所与の合計数のI個のチャンネルが存在する状況が想定される。したがって、全体としてのHOA圧縮/圧縮解除品質にとって、より多くの方向性信号を使用すること、あるいは、アンビエントHOA成分のより良好なモデル化のためにより多くのHOA係数列を使用することのいずれかによって、現在のHOA表現がより良好に表現されるかというという課題を考慮して、抽出される方向性信号の数が決定される。抽出される方向性音源の数を決定するための基準をステップ/ステージ22において導出するために、どの基準が人間の知覚に関連しているか、HOA圧縮が、特に、以下の2つの処理によって行われることが考慮される。
−アンビエントHOA成分を表現するためのHOA係数列の低減(これは、関連するチャンネルの数の低減を意味する)
−方向性信号およびアンビエントHOA成分を表現するためのHOA係数列の知覚符号化
【0041】
抽出された方向性信号の数M(0≦M≦D)に依存して、1番目の処理により、下記の式に従って近似計算が行われる。
【数6】
[この文献は図面を表示できません]
【数7】
[この文献は図面を表示できません]
ここで、
【数8】
[この文献は図面を表示できません]
は、M個の個々に考慮される音源によって形成されるとするHOA音場成分
[この文献は図面を表示できません]
から構成される方向性成分のHOA表現を示し、
[この文献は図面を表示できません]
は、I−M個の非零HOA係数列のみを用いたアンビエント成分のHOA表現を示している。
【0042】
2番目の処理からの近似計算を下記の式によって表現することができる。
【数9】
[この文献は図面を表示できません]
【数10】
[この文献は図面を表示できません]
ここで、
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
は、それぞれ、知覚復号処理の後に合成された方向性成分およびアンビエントHOA成分を示している。
【0043】
基準の形成
抽出される方向性信号の数
[この文献は図面を表示できません]
は、合計近似誤差(ここで
[この文献は図面を表示できません]
である)
【数11】
[この文献は図面を表示できません]
が人間の知覚の点で可能な限り顕著とならないように選択される。これを確実にするために、個々のバーク尺度臨界帯域に対する合計誤差の方向性パワー分布は、所定の数Q個のテスト方向Ω
q (q=1,… ,Q)で考慮される。このテスト方向は、単位球面上でほぼ均一に分布する。より具体的に述べると、b番目の臨界帯域(b=1,… ,B)に対する方向性パワー分布は、下記のベクトルによって表現される。
【数12】
[この文献は図面を表示できません]
ベクトルの成分
[この文献は図面を表示できません]
は、方向Ω
q、b番目のバーク尺度臨界帯域、およびk番目のフレームに関連する合計誤差
[この文献は図面を表示できません]
のパワーを示す。合計誤差
[この文献は図面を表示できません]
の方向性パワー分布
[この文献は図面を表示できません]
は、元のHOA表現
[この文献は図面を表示できません]
による下記の方向性知覚マスキングパワー分布と比較される。
【数13】
[この文献は図面を表示できません]
次に、各テスト方向Ω
qおよび臨界帯域bに対して、合計誤差の知覚レベル
[この文献は図面を表示できません]
が算出される。知覚レベルは、ここで、本質的に、合計誤差
[この文献は図面を表示できません]
の方向性パワーと方向性マスキングパワーとの比率として下記の式に従って定義される。
【数14】
[この文献は図面を表示できません]
【0044】
「1」を減算し、連続的な最大値を求める処理が行われ、誤差パワーがマスキング閾値未満である限り確実に知覚レベルが零になるようにする。最終的に、抽出される方向性信号の数
[この文献は図面を表示できません]
は、全ての臨界帯域に亘る誤差知覚レベルの最大値の全てのテスト方向に対する平均値が最小になるように、すなわち、下記の式に従って選択される。
【数15】
[この文献は図面を表示できません]
【0045】
なお、代替的には、式(15)において誤差知覚レベルの最大値を平均化処理によって置き換えることができる。
【0046】
方向性知覚マスキングパワー分布の算出
元のHOA表現
[この文献は図面を表示できません]
による方向性知覚マスキングパワー分布
[この文献は図面を表示できません]
の算出のために、元のHOA表現
[この文献は図面を表示できません]
は、テスト方向Ω
q (q=1,… ,Q)から到来する一般的な平面波
[この文献は図面を表示できません]
によって表現されるようにするために、空間領域に変換される。行列
[この文献は図面を表示できません]
内の一般的な平面波信号
[この文献は図面を表示できません]
を
【数16】
[この文献は図面を表示できません]
のように配列すると、空間領域への変換は、下記の処理によって表現される。
【数17】
[この文献は図面を表示できません]
ここで、Ξは、テスト方向Ω
q (q=1,… ,Q)に対して以下の式によって定義されるモード行列を示す。
【数18】
[この文献は図面を表示できません]
ここで、S
q:=
【数19】
[この文献は図面を表示できません]
元のHOA表現
[この文献は図面を表示できません]
による、方向性知覚マスキングパワー分布
[この文献は図面を表示できません]
の要素
[この文献は図面を表示できません]
は、個々の臨界帯域bに対する一般的な平面波関数
[この文献は図面を表示できません]
のマスキングパワーに対応する。
【0047】
方向性パワー分布の算出
以下の説明において、方向性パワー分布
[この文献は図面を表示できません]
を算出するための以下の2つの代替策が示される。
【0048】
a.1つの可能性は、項目A.2の最初に記載されている2つの処理を実行することによって、所望のHOA表現
[この文献は図面を表示できません]
の近似値
[この文献は図面を表示できません]
を実際に算出することである。次に、合計近似誤差
[この文献は図面を表示できません]
が式(11)に従って算出される。次に、合計近似誤差
[この文献は図面を表示できません]
が、テスト方向Ω
q (q=1,… ,Q)から到来する一般的な平面波
[この文献は図面を表示できません]
によって表現されるために、空間領域に変換される。一般的な平面波信号を以下のように表される行列
[この文献は図面を表示できません]
内に配置すると、
【数20】
[この文献は図面を表示できません]
空間領域への変換は、下記の処理によって表現される。
【数21】
[この文献は図面を表示できません]
合計近似誤差
[この文献は図面を表示できません]
の方向性パワー分布
[この文献は図面を表示できません]
の要素
[この文献は図面を表示できません]
は、個々の臨界帯域b内で一般的な平面波関数
[この文献は図面を表示できません]
のパワーを算出することによって取得される。
【0049】
b.代替的な解決法は、
[この文献は図面を表示できません]
の代わりに近似値
[この文献は図面を表示できません]
のみを算出することである。この方法には、個々の信号の複雑な知覚符号化を直接行う必要がないという利点がある。この代わりに、個々のバーク尺度臨界帯域内の知覚量子化誤差のパワーを知ることで十分である。この目的のため、式(11)に定義された合計近似誤差を、以下の3つの近似誤差の合計として記述することができる。
【数22】
[この文献は図面を表示できません]
【数23】
[この文献は図面を表示できません]
【数24】
[この文献は図面を表示できません]
この3つの近似誤差は、互いに独立しているものと仮定することができる。この独立性のため、合計誤差
[この文献は図面を表示できません]
の方向性パワー分布は、3つの個々の誤差
[この文献は図面を表示できません]
、
[この文献は図面を表示できません]
、および
[この文献は図面を表示できません]
の方向性パワー分布の合計として表現することができる。
【0050】
以下、個々のバーク尺度臨界帯域に対する3つの誤差の方向性パワー分布をどのように算出するかについて記載する。
【0051】
a.誤差
[この文献は図面を表示できません]
の方向性パワー分布を算出するために、まず、下記の式によって、空間領域への変換が行われる。
【数25】
[この文献は図面を表示できません]
ここで、近似誤差
[この文献は図面を表示できません]
は、したがって、テスト方向Ω
q (q=1,… ,Q)から到来する一般的な平面波
[この文献は図面を表示できません]
によって表現され、これは、下記の式に従って、行列
[この文献は図面を表示できません]
内に配列される。
【数26】
[この文献は図面を表示できません]
結果として、近似誤差
[この文献は図面を表示できません]
の方向性パワー分布
[この文献は図面を表示できません]
の要素
[この文献は図面を表示できません]
は、個々の臨界帯域b内で、一般的な平面波関数
[この文献は図面を表示できません]
のパワーを算出することによって取得される。
【0052】
b.誤差
[この文献は図面を表示できません]
の方向性パワー分布
[この文献は図面を表示できません]
を算出するために、方向性信号
[この文献は図面を表示できません]
を知覚符号化することによって、この誤差が方向性HOA成分
[この文献は図面を表示できません]
に導入されることに留意すべきである。さらに、方向性HOA成分が式(8)によって与えられることを考慮すべきである。そして、簡略化のために、HOA成分
[この文献は図面を表示できません]
が、空間領域内で、Ο個の一般的な平面波関数
[この文献は図面を表示できません]
によって、等価的に表現されるものと仮定する。これは、単なるスケーリングによって、すなわち、下記の式に従って方向性信号
[この文献は図面を表示できません]
から形成される。
【数27】
[この文献は図面を表示できません]
ここで、
[この文献は図面を表示できません]
は、スケーリング・パラメータを示している。各々の平面波方向
[この文献は図面を表示できません]
は、単位球面上で均一に分布し、
[この文献は図面を表示できません]
が方向推定値
[この文献は図面を表示できません]
と対応するように、回転されるものと仮定される。したがって、スケーリング・パラメータ
[この文献は図面を表示できません]
は「1」である。
【0053】
回転された方向
[この文献は図面を表示できません]
に対して
[この文献は図面を表示できません]
をモード行列として定義し、
【数28】
[この文献は図面を表示できません]
に従ってベクトル内の全てのスケーリング・パラメータ
[この文献は図面を表示できません]
を配列すると、HOA成分
[この文献は図面を表示できません]
を下記の式のように記述することができる。
【数29】
[この文献は図面を表示できません]
【0054】
結果として、真の方向性HOA成分
【数30】
[この文献は図面を表示できません]
と、
【数31】
[この文献は図面を表示できません]
【数32】
[この文献は図面を表示できません]
によって知覚復号された方向性信号
[この文献は図面を表示できません]
(d=1,… ,M)が合成されたものとの間の誤差
[この文献は図面を表示できません]
(式(23)参照)は、下記の式で表される知覚符号化誤差
【数33】
[この文献は図面を表示できません]
の点で個々の方向性信号において下記の式によって表現することができる。
【数34】
[この文献は図面を表示できません]
【0055】
テスト方向Ω
q (q=1,… ,Q)に対して、空間領域内の誤差
[この文献は図面を表示できません]
の表現は、下記の式によって与えられる。
【数35】
[この文献は図面を表示できません]
【0056】
ベクトルの要素β
(d)(k)を
[この文献は図面を表示できません]
と表し、個々の知覚符号化誤差
[この文献は図面を表示できません]
が互いに独立しているものと仮定することにより、式(35)から、知覚符号化誤差
[この文献は図面を表示できません]
の方向性パワー分布
[この文献は図面を表示できません]
の要素
[この文献は図面を表示できません]
は、下記の式によって算出することができる。
【数36】
[この文献は図面を表示できません]
[この文献は図面を表示できません]
は、方向性信号
[この文献は図面を表示できません]
におけるb番目の臨界帯域内の知覚量子化誤差のパワーを表現するように想定されている。このパワーは、方向性信号
[この文献は図面を表示できません]
の知覚マスキングパワーに対応するものとすることができる。
【0057】
c.アンビエントHOA成分のHOA係数列の知覚符号化の結果として得られる誤差
[この文献は図面を表示できません]
の方向性パワー分布
[この文献は図面を表示できません]
を算出するために、各HOA係数列が独立して符号化されるものとする。したがって、各バーク尺度臨界帯域内の個々のHOA係数列内に導入される誤差は、相関性がないとすることができる。これは、誤差
[この文献は図面を表示できません]
の係数間相関行列は、各バーク尺度臨界帯域に対して対角である、すなわち、下記の式で表される。
【数37】
[この文献は図面を表示できません]
要素
[この文献は図面を表示できません]
は、
[この文献は図面を表示できません]
内のo番目の符号化されたHOA係数列におけるb番目の臨界帯域内の知覚量子化誤差のパワーを表現するものとする。これは、o番目のHOA係数列
[この文献は図面を表示できません]
の知覚マスキングパワーに対応するものと仮定することができる。したがって、知覚符号化誤差
[この文献は図面を表示できません]
の方向性パワー分布は、下記の式によって算出される。
【数38】
[この文献は図面を表示できません]
【0058】
B.改良されたHOA圧縮解除
対応するHOA圧縮解除処理が
図3に示されており、このHOA圧縮解除処理は、以下のステップまたはステージを含む。
【0059】
ステップまたはステージ31において、
[この文献は図面を表示できません]
内の復号された信号を取得するために、
[この文献は図面を表示できません]
内に含まれるI個の信号の知覚復号処理が行われる。
【0060】
信号再配分ステージまたはステージ32において、
[この文献は図面を表示できません]
内の知覚復号された信号は、方向性信号のフレーム
[この文献は図面を表示できません]
およびアンビエントHOA成分のフレーム
[この文献は図面を表示できません]
を再形成するために再配分される。インデックスのデータセット
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
を使用して、HOA圧縮に対して行われる割り当て処理を再現することによって、どのように信号を再配分するかについての情報が取得される。これは、再帰的な処理であるため(項目A参照)、例えば、送信に不具合が発生しているような場合に再配分処理を初期化できるようにするために、追加的に送信される割り当てベクトルγ(k)を使用することができる。
【0061】
合成ステップまたはステージ33において、(欧州特許出願第12306569号の
図2bおよび
図4に関連して記載されている処理に従って、)方向性信号のフレーム
[この文献は図面を表示できません]
、対応する方向のセット
[この文献は図面を表示できません]
と共にアクティブな方向性信号のインデックスのセット
[この文献は図面を表示できません]
、方向性信号からのHOA表現の部分を予測するためのパラメータζ(k−2)、および低減されたアンビエントHOA成分のHOA係数列のフレーム
[この文献は図面を表示できません]
を使用して、所望の合計HOA表現の現在のフレーム
[この文献は図面を表示できません]
が再合成される。
[この文献は図面を表示できません]
は、欧州特許出願第12306569号における
[この文献は図面を表示できません]
に対応し、
[この文献は図面を表示できません]
および
[この文献は図面を表示できません]
は、欧州特許出願第12306569号における
[この文献は図面を表示できません]
に対応する。ここでアクティブな方向性信号のインデックスは、
[この文献は図面を表示できません]
の行列要素においてマーク付けされる。すなわち、均一に分布する方向に対する方向性信号は、予測のための受信済のパラメータ(ζ(k−2))を使用して方向性信号
[この文献は図面を表示できません]
から予測される。その後、現在の圧縮解除されたフレーム
[この文献は図面を表示できません]
が、方向性信号
[この文献は図面を表示できません]
のフレーム、予測された部分および低減されたアンビエントHOA成分
[この文献は図面を表示できません]
から再合成される。
【0062】
C. 高次アンビソニックスの基礎
高次アンビソニックス(HOA)は注目されるコンパクトな領域内の音場の記述に基づいていており、音源が存在しないものと仮定される。その場合、注目領域内の時間tおよび位置xでの音圧p(t,x)の空間時間的な挙動は、均質媒質の波動方程式によって物理的に完全に求められる。以下の内容は、
図4に示された球面座標システムに基づいている。使用されている座標システムにおいて、x軸は前方の位置を指し、y軸は左側を指し、z軸は上方を指す。空間内の位置x=(r,θ,φ)
Tは、半径r>0(すなわち、座標原点への距離)、極軸zから測定される傾斜角θ∈[0,π]、さらに、x軸からの、x−y平面内で反時計周りに測定される、方位角φ∈[0,2π]によって表される。さらに、(・)
Tは、転置を表す。
【0063】
F
t(・)によって表される時間に対する音圧のフーリエ変換、すなわち、
【数39】
[この文献は図面を表示できません]
は下記の式に従った一連の球面調和関数に拡張される(E.G. Williams著“Fourier Acoustics(フーリエ・アコースティックス))”、応用数理科学、第93巻、アカデミックプレス社、1999年参照)。ここで、ωは角周波数を表し、iは虚数単位を表す。
【数40】
[この文献は図面を表示できません]
式(40)において、c
sは音速を示し、kは角波数を示し、この角波数kはk=w/c
sによって角周波数ωに関連している。さらに、j
n(・)は、第1種球ベッセル関数を表しており、
[この文献は図面を表示できません]
は、C.1の項目で定義されている次数nおよび位数mの実数値の球面調和関数を示している。展開係数
[この文献は図面を表示できません]
は、角波数kのみに依存する。上述した内容において、音圧は、空間的に帯域制限されているものと暗黙的に仮定されている。したがって、球面調和関数の級数が次数インデックスnに対して上限Nで打ち切られ、これは、HOA表現の次数と呼ばれる。
【0064】
音場が相異なる角周波数ωの調和平面波の無限個の重ね合わせによって表現され、角の組(θ,φ)によって特定される全ての想定可能な方向から到来する場合には、各々の平面波複素振幅関数C(ω,θ,φ)は、下記の球面調和展開によって表すことができることが分かる(B. Rafaely著、“Plane−wave Decomposition of the Sound Field on a Sphere by Spherical Convolution(球面畳み込みによる球面上の音場の平面波分解)”、米国音響学会誌4(116)、2149−2157頁、2004年参照)。
【数41】
[この文献は図面を表示できません]
ここで、展開係数
[この文献は図面を表示できません]
は、展開係数
[この文献は図面を表示できません]
と下記の式によって関連する。
【数42】
[この文献は図面を表示できません]
【0065】
個々の係数
[この文献は図面を表示できません]
が角周波数ωの関数であると仮定すると、逆フーリエ変換(
[この文献は図面を表示できません]
)によって示される)を適用することにより、下記の時間領域関数をもたらす。
【数43】
[この文献は図面を表示できません]
これは、各次数nおよび位数mに対して、下記の単一のベクトルc(t)にまとめられる。
【数44】
[この文献は図面を表示できません]
ベクトルc(t)内の時間領域関数
[この文献は図面を表示できません]
の位置インデックスは、n(n+1)+1+mによって与えられる。ベクトルc(t)内の要素の総計は、Ο=(N+1)
2によって与えられる。
【0066】
最終的なアンビソニックス形式は、サンプリング周波数f
sを使用して、下記のc(t)のサンプリングされたバージョンをもたらす。
【数45】
[この文献は図面を表示できません]
ここで、T
s=1/f
sは、サンプリング期間を示す。c(lT
s)の要素は、アンビソニックス係数として参照される。時間領域信号
[この文献は図面を表示できません]
は実数値であり、したがって、アンビソニックス係数は実数値である。
【0067】
C.1 実数値の球面調和関数の定義
実数値の球面調和関数
[この文献は図面を表示できません]
は、下記の式によって与えられる。
【数46】
[この文献は図面を表示できません]
ここで
【数47】
[この文献は図面を表示できません]
関連するルジャンドル関数P
n,m(x)は、下記の式で定義される。
【数48】
[この文献は図面を表示できません]
ここで、ルジャンドル多項式P
n(x)を用い、上述した、E.G.Williams著の文献の場合とは異なり、コンドン-ショートレーの位相項(−1)
mを用いない。
【0068】
C.2 高次アンビソニックスの空間解像度
方向Ω
0=(θ
0,φ
0)
Tから到来する一般的な平面波関数x(t)は、下記の式によってHOAにおいて表現される。
【数49】
[この文献は図面を表示できません]
平面波振幅の対応する空間密度
[この文献は図面を表示できません]
は、下記の式によって与えられる。
【数50】
[この文献は図面を表示できません]
【数51】
[この文献は図面を表示できません]
【0069】
式(51)から理解されるように、これは、一般的な平面波関数x(t)と空間分散関数ν
N(Θ)との積であり、空間分散関数ν
N(Θ)は、下記の式の特性を有するΩとΩ
0との間の角度Θのみに依存するように示されている。
【数52】
[この文献は図面を表示できません]
想定のとおり、無限次元の極限、つまり、N→∞である場合において、空間分散関数は
ディラックのデルタ関数δ(・)、すなわち、下記のように変化する。
【数53】
[この文献は図面を表示できません]
【0070】
しかしながら、有限次元Nの場合には、方向Ω
0からの一般的な平面波の寄与は、近隣の方向ににじみ、このにじみの度合いは次数の増加に伴い減少する。Nの複数の異なる値に対する正規化された関数ν
N(Θ)のプロットが
図5に示されている。
【0071】
任意の方向Ωでの平面波振幅の空間密度の時間領域の挙動は、他の任意の方向での平面波振幅の空間密度の時間領域の挙動の倍数となることが指摘される。特に、時間tに対して、何らかの所定方向Ω
1およびΩ
2についての関数c(t,Ω
1)およびc(t,Ω
2)は、高い相関性がある。
【0072】
C.3 球面調和関数変換
平面波振幅の空間密度がΟ個の空間方向Ω
o(1≦ο≦Ο)で離散化される場合、空間方向Ω
oは単位球面上でほぼ均一に分布するのだが、Ο個の方向性信号c(t,Ω
o)が取得される。これらの信号をベクトルにまとめると、下記の式で表され、
【数54】
[この文献は図面を表示できません]
式(50)を使用してこのベクトルを、下記のような単純な行列乗算によって式(44)に定義される連続的なアンビソニックス表現c(t)から計算可能であることを検証できる。
c
SPAT(t)=Ψ
Hc(t) (55)
ここで、(・)
Hは、複素共役転置を示し、Ψは、下記の式によって定義されるモード行列を表す。
【数55】
[この文献は図面を表示できません]
ここで、
【数56】
[この文献は図面を表示できません]
【0073】
方向Ω
oは単位球面上にほぼ均一に分布しているため、一般的には、モード行列は、可逆である。したがって、連続的なアンビソニックス表現は、方向性信号c(t,Ω
o)から下記の式によって計算することができる。
【数57】
[この文献は図面を表示できません]
【0074】
双方の式は、アンビソニックス表現と空間領域との間の変換および逆変換を構成する。本願において、これらの変換は、球面調和関数変換および逆球面調和関数変換と呼ばれる。
【0075】
なお、方向Ω
oは単位球面上でほぼ均一に分布するため、近似計算
【数58】
[この文献は図面を表示できません]
が利用可能となり、式(55)において、Ψ
Hの代わりにΨ
−1を使用することが正当化される。
【0076】
上述した関係の全てが離散時間領域にも有効であることは有利である。
【0077】
本発明の処理を単一のプロセッサまたは電子回路、または、並列に動作する複数のプロセッサまたは電子回路、および/または、本発明の処理の複数の異なる部分に対して動作する、複数のプロセッサまたは電子回路で実行することができる。
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]
[この文献は図面を表示できません]