特許第6342986号(P6342986)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ドルビー・インターナショナル・アーベーの特許一覧

特許63429861次アンビソニックス信号の指向性を高める方法及び装置
<>
  • 特許6342986-1次アンビソニックス信号の指向性を高める方法及び装置 図000036
  • 特許6342986-1次アンビソニックス信号の指向性を高める方法及び装置 図000037
  • 特許6342986-1次アンビソニックス信号の指向性を高める方法及び装置 図000038
  • 特許6342986-1次アンビソニックス信号の指向性を高める方法及び装置 図000039
  • 特許6342986-1次アンビソニックス信号の指向性を高める方法及び装置 図000040
  • 特許6342986-1次アンビソニックス信号の指向性を高める方法及び装置 図000041
  • 特許6342986-1次アンビソニックス信号の指向性を高める方法及び装置 図000042
  • 特許6342986-1次アンビソニックス信号の指向性を高める方法及び装置 図000043
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6342986
(24)【登録日】2018年5月25日
(45)【発行日】2018年6月13日
(54)【発明の名称】1次アンビソニックス信号の指向性を高める方法及び装置
(51)【国際特許分類】
   G10L 19/008 20130101AFI20180604BHJP
   G10L 19/00 20130101ALI20180604BHJP
【FI】
   G10L19/008 100
   G10L19/00 400A
【請求項の数】15
【全頁数】24
(21)【出願番号】特願2016-503627(P2016-503627)
(86)(22)【出願日】2014年3月17日
(65)【公表番号】特表2016-517033(P2016-517033A)
(43)【公表日】2016年6月9日
(86)【国際出願番号】EP2014055313
(87)【国際公開番号】WO2014147029
(87)【国際公開日】20140925
【審査請求日】2017年3月10日
(31)【優先権主張番号】13305352.0
(32)【優先日】2013年3月22日
(33)【優先権主張国】EP
(73)【特許権者】
【識別番号】510185767
【氏名又は名称】ドルビー・インターナショナル・アーベー
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100091214
【弁理士】
【氏名又は名称】大貫 進介
(72)【発明者】
【氏名】ボエム,ヨハネス
【審査官】 山下 剛史
(56)【参考文献】
【文献】 特表2012−514358(JP,A)
【文献】 国際公開第2012/023864(WO,A1)
【文献】 特表2010−504717(JP,A)
【文献】 米国特許第6628787(US,B1)
【文献】 PULKKI, Ville,Spatial Sound Reproduction with Directional Audio Coding,Journal of the Audio Engineering Society,2007年 6月15日,Vol.55, No.6,p.503-516
(58)【調査した分野】(Int.Cl.,DB名)
G10L 19/00−19/26
H04S 1/00− 7/00
AES E−Library
(57)【特許請求の範囲】
【請求項1】
1次アンビソニックス信号であり、0次及び1次の係数を有する入力信号の指向性を高める方法であって、
分析フィルタバンクにおいて前記入力信号にフィルタをかけるステップであって、前記1次アンビソニックス信号の周波数領域表現である4つの周波数領域チャネルが得られ、該周波数領域チャネルのうちの1つの第1周波数領域チャネルが0次係数を表し、残り3つの周波数領域チャネルが1次係数を表す、ステップと、
前記4つの周波数領域チャネルの音場解析を実行して、ソース方向及び拡散推定が得られるステップと、
フィルタにおいて、0次係数を有する前記第1周波数領域チャネルにフィルタをかけるステップであって、前記拡散推定が使用され、ダイレクトサウンド成分が得られるステップと、
高次アンビソニックス符号器において、少なくとも2である所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップであって、前記ソース方向が使用され、1次よりも高次のアンビソニックス係数を含む、前記所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドが得られるステップと、
前記所定の次数のアンビソニックスフォーマットにおける前記得られた符号化されたダイレクトサウンドから2次以上のアンビソニックス係数を選択するステップであって、1次及び0次の係数が除外されるステップと、
結合及び合成ユニットにおいて、前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップであって、指向性が高められた少なくとも2次のエンハンスド・アンビソニックス信号が得られるステップと
を有する方法。
【請求項2】
前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップは、
周波数領域結合器ユニットにおいて、前記4つの周波数領域チャネルのアンビソニックス信号を、前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数の中から選択された周波数係数と結合し、少なくとも2次のアンビソニックス信号の周波数領域表現である信号が得られるステップと、
合成フィルタバンクにおいて前記得られた信号にフィルタをかけて、少なくとも2次の係数を有するエンハンスド・アンビソニックス信号の時間領域表現が得られるステップと
を有する、請求項1に記載の方法。
【請求項3】
前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数を表す信号を前記入力信号と結合するステップは、
合成フィルタバンクにおいて、前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数にフィルタをかけて、2次以上の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られるステップと、
時間領域結合器において、前記入力信号を表すアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合し、前記入力信号と比較して指向性が高められた少なくとも2次のエンハンスド・アンビソニックス信号の時間領域表現が得られるステップと
を有する、請求項1に記載の方法。
【請求項4】
前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップにおいて、前記高次アンビソニックス符号器はBフォーマットを使用する、
請求項1乃至3のうちいずれか一項に記載の方法。
【請求項5】
前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するステップにおいて、前記高次アンビソニックス符号器は、Bフォーマット以外のアンビソニックスフォーマットを使用し、当該方法は、
前記結合するステップより前に、HOAフォーマット適応ユニットにおいて、前記Bフォーマット以外のアンビソニックスフォーマットに従って前記入力信号を再フォーマットし、前記入力信号の再フォーマットされたアンビソニックス係数が得られるステップを更に有し、
前記結合するステップにおいて、前記時間領域結合器は、前記入力信号の前記再フォーマットされたアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合する、
請求項に記載の方法。
【請求項6】
前記4つの周波数領域チャネルの音場解析を実行するステップは、
前記4つの周波数領域チャネルのアクティブインテンシティ解析を実行して、アクティブインテンシティを表す値が得られるステップと、
前記4つの周波数領域チャネルの拡散解析を実行して、前記拡散推定が得られるステップと、
前記アクティブインテンシティを表す値の到来方向解析を実行して、前記ソース方向が得られるステップと
を有する、請求項1乃至5のうちいずれか一項に記載の方法。
【請求項7】
前記少なくとも2次のエンハンスド・アンビソニックス信号を、より高次の又は異なったアンビソニックスフォーマットの更なるHOA入力信号とミキシングして、前記入力信号と前記更なるHOA入力信号との混合を含むHOA信号が得られるステップ
を更に有する請求項1乃至6のうちいずれか一項に記載の方法。
【請求項8】
前記エンハンスド・アンビソニックス信号は、3D実現のためのO=(Norder+1)2個の成分と、2D実現のためのO=(2Norder+1)個の成分とを有し、Norderは、前記高次アンビソニックス符号器の次数であり、
前記エンハンスド・アンビソニックス信号は、Cnm:[A00,A1-1,A10,A11,B2-2,B2-1,B20,B21,B22,…’]に従うCnm個の係数を有し、Aijは、前記入力信号の係数であり、Bijは、前記符号化されたダイレクトサウンドから選択された前記2次以上のアンビソニックス係数である、
請求項1乃至7のうちいずれか一項に記載の方法。
【請求項9】
1次アンビソニックス信号であり、0次及び1次の係数を有する入力信号の指向性を高める装置であって、
前記入力信号にフィルタをかけて、前記1次アンビソニックス信号の周波数領域表現である4つの周波数領域チャネルが得られ、該周波数領域チャネルのうちの1つの第1周波数領域チャネルが0次係数を表し、残り3つの周波数領域チャネルが1次係数を表す、分析フィルタバンクと、
前記4つの周波数領域チャネルの音場解析を実行して、ソース方向及び拡散推定が得られる音場解析ユニットと、
前記拡散推定が使用されて、0次係数を有する前記第1周波数領域チャネルにフィルタをかけ、ダイレクトサウンド成分が得られるフィルタと、
前記ソース方向が使用されて、少なくとも2である所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化し、少なくとも0次、1次及び2次のアンビソニックス係数を含む、前記所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドが得られる、高次アンビソニックス符号器と、
前記所定の次数のアンビソニックスフォーマットにおける前記得られた符号化されたダイレクトサウンドから少なくとも2次のアンビソニックス係数を選択する選択器と、
前記符号化されたダイレクトサウンドから選択された前記少なくとも2次のアンビソニックス係数に従う時間領域信号を前記1次アンビソニックス信号のアンビソニックス係数と結合して、少なくとも2次のエンハンスド・アンビソニックス信号の時間領域表現が得られる結合及び合成ユニットと
を有する装置。
【請求項10】
前記結合及び合成ユニットは、
前記4つの周波数領域チャネルのアンビソニックス信号を、前記符号化されたダイレクトサウンドからの2次以上の前記選択されたアンビソニックス係数の中から選択された周波数係数と結合し、少なくとも2次のアンビソニックス信号の周波数領域表現である信号が得られる周波数領域結合器ユニットと、
前記得られた信号にフィルタをかけて、少なくとも2次の係数を有するエンハンスド・アンビソニックス信号の時間領域表現が得られる合成フィルタバンクと
を有する、請求項9に記載の装置。
【請求項11】
前記結合及び合成ユニットは、
前記符号化されたダイレクトサウンドからの2次以上の前記選択されたアンビソニックス係数にフィルタをかけて、2次以上の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られる合成フィルタバンクと、
前記入力信号を表すアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合し、前記入力信号と比較して指向性が高められた少なくとも2次のエンハンスド・アンビソニックス信号の時間領域表現が得られる時間領域結合器ユニットと
を有する、請求項9に記載の装置。
【請求項12】
前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化する前記高次アンビソニックス符号器は、Bフォーマットを使用する、
請求項9乃至11のうちいずれか一項に記載の装置。
【請求項13】
前記高次アンビソニックス符号器は、前記所定の次数を持ったアンビソニックスフォーマットで前記ダイレクトサウンド成分を符号化するときに、Bフォーマット以外のアンビソニックスフォーマットを使用し、当該装置は、
前記Bフォーマット以外のアンビソニックスフォーマットに従って前記入力信号を再フォーマットし、前記入力信号の再フォーマットされたアンビソニックス係数が得られるHOAフォーマット適応ユニットを更に有し、
前記時間領域結合器ユニットは、前記入力信号の前記再フォーマットされたアンビソニックス係数を、2次以上の前記エンハンスメント高次アンビソニックス信号の時間領域表現と結合する、
請求項11に記載の装置。
【請求項14】
前記音場解析ユニットは、
前記4つの周波数領域チャネルのアクティブインテンシティ解析を実行して、アクティブインテンシティを表す値が得られるアクティブインテンシティ解析ブロックと、
前記4つの周波数領域チャネルの拡散解析を実行して、前記拡散推定が得られる拡散解析ブロックと、
前記アクティブインテンシティを表す値の到来方向解析を実行して、前記ソース方向が得られる到来方向解析ブロックと
を有する、請求項9乃至13のうちいずれか一項に記載の装置。
【請求項15】
前記少なくとも2次のエンハンスド・アンビソニックス信号を、より高次の又は異なったアンビソニックスフォーマットの他のHOA入力信号とミキシングして、前記入力信号と前記他のHOA入力信号との混合を含むHOA信号が得られるミキサユニット
を更に有する請求項9乃至14のうちいずれか一項に記載の装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、アンビソニックス音声信号処理及び音響効果の分野に関する。
【背景技術】
【0002】
アンビソニックス(Ambisonics)は、音圧に関してオーディオシーンを記述する技術であって、2D及び3Dの両方において、優れた空間分解能による複雑なオーディオシーンの記録、生成、伝送及び再生に対処する。アンビソニックスにおいて、空間オーディオシーンは、フーリエ−ベッセル級数の係数Anm(k)によって記述される。いわゆるBフォーマット信号として1次アンビソニックス信号を供給するマイクロホンアレイが知られている。しかし、1次アンビソニックス信号を2Dサラウンド又は3Dのためのスピーカ配置へと復号及びレンダリングすることは、音響指向性の限られた認知しか示さない。音源は、しばしば、それらが実際にあるよりも広いと認知される。特に、中心を外れた聴取位置について、音源は、スピーカ間のそれらの意図された実際上の位置の代わりに、最も近いスピーカ位置から聞こえてくるものとしてしばしば位置決めされる。1次アンビソニックス(Bフォーマット)信号は、音圧のフーリエ−ベッセル級数記述の4つの係数から成る。これらの係数は3D音場表現を形成する。それらはWチャネル(モノミックス、すなわち0次)及びX,Y,Zチャネル(1次)である。より高次の信号はより多くの係数を使用する。このことは、それらの係数がスピーカ信号へと復号される場合に、空間的な音源の位置決めの精度を向上させる。しかし、そのような高次の信号は、マイクロホンアレイによって供給されるBフォーマット信号に含まれない。
【0003】
指向性オーディオ・コーディング(Directional Audio Coding)(DirAC)は、オーディオ信号を表現又は再現するための既知の技術[5,9]である。それは、拡散音からダイレクトサウンドを分離するためにBフォーマット復号器を使用し、次いで、周波数領域におけるダイレクトサウンドの選択的な増幅のためにベクトル方式による振幅パニング(Vector-Based Amplitude Panning)(VBAP)を使用し、合成フィルタリングの後に、最終的にその出力でスピーカ信号を供給する。
【0004】
図1a)は、DirACに基づくBフォーマット復号化の構造を示す。Bフォーマット信号10は時間領域信号であり、分析フィルタバンクAFBにおいてK個の周波数バンド11へとフィルタリングされる。音場解析ブロックSFAは、拡散推定Ψ(f)13及び到来方向(directions-of-arrival)(DoA)12を推定する。DoAは、バンドkの特定の中間周波数でのソースへの方向の方位φ(f)及び傾斜Θ(f)である。1次アンビソニックス復号器AmbDは、アンビソニックス信号をL個のスピーカ信号14へとレンダリングする。直接拡散分離ブロックDDSは、拡散推定13から決定されるフィルタを用いて、1次アンビソニックス信号をL個のダイレクトサウンド信号15及びL個の拡散音信号16に分離する。L個の拡散音信号16は、復号器AmbDの出力14に、拡散推定13から得られる√Ψ(f)を乗じることによって、導出される。指向性信号は、√(1−Ψ(f))との乗算から導出される。ダイレクトサウンド信号15は、ベクトル方式による振幅パニング(VBAP)[8]と呼ばれる技術を用いて、更に処理される。VBAPユニットVPにおいて、(各周波数バンドにおける)各スピーカ信号のためのゲイン値は、DoA12及びスピーカの位置に従って、ダイレクトサウンドを所望の方向へパンするように乗じられる。拡散信号16は、無相関フィルタリングDFによって無相関にされ、無相関にされた拡散信号17は、VBAPユニットVPから得られるダイレクトサウンド信号に加えられる。合成フィルタバンクSFBは、周波数バンドを時間領域信号19と結合し、該結合された信号がL個のスピーカによって再生され得る。時間積分のための平滑化フィルタ(図1に図示せず。)は、拡散推定Ψ(f)13を計算するよう、且つ、VBAPによって導出されたゲイン値を平滑化するよう、適用される。
【0005】
図1b)は、音場解析ブロックSFAの詳細を示す。Bフォーマット信号は、原点(観測位置、r=0)での周波数領域における音場を表す。音響強度は、音場における運動及び位置エネルギの輸送を記述する。音場において、音響エネルギの全ての局所的な運動が正味の輸送に相当するわけではない。アクティブインテンシティI(時間平均された音響強度、DoA〜I)は、指向性の正味エネルギ輸送の割合、すなわち、3つのデカルト方向のための単位時間ごとのエネルギである。Bフォーマット信号のアクティブインテンシティ11aは、アクティブインテンシティ解析ブロックAIAにおいて得られ、拡散解析ブロックDAB及びDoA解析ブロックDOAABへ供給される。DoA解析ブロックDOAAB及び拡散解析ブロックDABは、DoA12及び拡散推定13を夫々出力する。DirACについては[9]において更に、また、基礎をなす理論は[5]において、記載される。
【発明の概要】
【発明が解決しようとする課題】
【0006】
例えばBフォーマットマイクロホン記録などの、1次アンビソニックス信号の指向性を高めることが望ましい。そのような指向性の強化は、よりリアルな再生のために、又は実際の記録された音響をより高次のコンテンツとミキシングするために、例えば、異なったスピーカセットアップのために再生されるよう意図されるフィルムサウンドに音響効果を加えるために、望ましい。本発明によって解決されるべき1つの課題は、1次アンビソニックス信号又はBフォーマット信号の指向性を、たとえそのような信号の高次係数が利用可能でないとしても高めることである。
【課題を解決するための手段】
【0007】
本発明に従って、この及び他の課題は、拡散音成分が変更されずにダイレクトサウンド成分を選択的に増幅することによって解決され得る。ダイレクトサウンドを選択的に増幅する場合に、次数を高められたアンビソニックスフォーマットの信号が得られることが有利である。これは、そのような信号が他のアンビソニックスフォーマットの信号と容易にミキシングされ得るためである。本発明によれば、1次アンビソニックス信号の次数を高めることが可能であり、これにより、指向性音響成分のみが考慮される。このことは、より高い次数(少なくとも2次)を有しながら、先と同じくアンビソニックスフォーマットの信号をもたらす。原理上は、1次アンビソニックス信号の指向性を高めるための開示される方法は、1次係数情報からより高次の係数を導出し、それらの導出された高次係数をアンビソニックス信号に加える。よって、1次アンビソニックス信号の1次係数情報(すなわち、0次及び1次の係数)は有利に保たれる(一実施形態において、再フォーマットを除く。)
言い換えると、付加的な指向性情報は、低次アンビソニックス信号から取り出され、その付加的な指向性情報は、より高次の係数を推定するのに使用される。このように、アンビソニックス信号の指向性は高められる。このことは、アンビソニックス信号がラウドスピーカ信号へと復号される場合に、空間的なソースの位置決めの精度を向上させる。本発明の1つの効果は、結果として得られる出力信号が入力信号よりも多くのエネルギを有することである。
【0008】
本発明は、請求項1において定義されるような、1次アンビソニックス信号であり、0次及び1次の係数を有する入力信号の指向性を高めるための方法に関する。
【0009】
本発明はまた、請求項9において定義されるような、0次及び1次の係数を有する1次アンビソニックス信号の指向性を高めるための装置に関する。
【0010】
更に、本発明は、コンピュータで実行される場合に、該コンピュータに、請求項1において定義されるような、0次及び1次の係数を有する1次アンビソニックス信号の指向性を高めるための方法を実行させるコンピュータ可読命令を記憶したコンピュータ可読記憶媒体に関する。
【0011】
いずれかの所与の次数のアンビソニックス信号は、たとえここで明示的に述べられていないとしても、一般的に、その所与の次数の係数のみならず、全てのより低次の次数の係数も含むことが知られる。例えば、2次のHOA信号は、2次の係数のみならず、0次及び1次の係数も含む。
【0012】
本発明の有利な実施形態は、従属請求項、下記の記載及び図面において開示される。
【図面の簡単な説明】
【0013】
本発明の例となる実施形態は、添付の図面を参照して記載される。
図1】a)は、既知のDirACベースのBフォーマット復号器の構造を示し、b)は、既知の音場解析ブロックの一般的な構造を示す。
図2】本発明の一般的な実施形態に従う装置の構造を示す。
図3】時間領域における結合を利用する実施形態に従う装置の構造を示す。
図4】周波数領域における結合を利用する第1実施形態に従う装置の構造を示す。
図5】周波数領域における結合を利用する第2実施形態に従う装置の構造を示す。
図6】本発明に従う方法のフローチャートを示す。
図7】結合ステップの詳細のフローチャートを示す。
【発明を実施するための形態】
【0014】
図2は、本発明の一般的な実施形態に従う装置の構造を示す。時間領域の1次アンビソニックス信号10(例えば、Bフォーマット信号)は、分析フィルタバンクAFBにおいてフィルタをかけられ、4つの周波数領域チャネル21が得られる。それらは入力信号10の周波数領域表現である。周波数領域チャネルの1つは0次係数(すなわち、Wチャネル)を表し、残り3つの周波数領域チャネルは1次係数(X、Y、Zチャネル)を表す。
【0015】
ダイレクトサウンド分離ユニットDSSは、4つの周波数領域チャネル21に含まれるダイレクトサウンド(すなわち、指向性音響)20を拡散音から分離する。実施形態において、ダイレクトサウンド分離ユニットDSSは、単にWチャネルを選択し、それをダイレクトサウンド20として使用する。更に、音場解析ユニットSFAは、4つの周波数領域チャネルの音場解析を実行して、周波数チャネルの周波数バンドごとにソース方向Θ,Φ22及び拡散推定Ψ23を得る。実施形態において、音場解析ユニットSFAは、方向情報22を得るために到来方向(DoA)解析ユニットを有する。
【0016】
ダイレクトサウンド分離器DSSによって得られたダイレクトサウンド20は、次いでフィルタFにおいてフィルタをかけられ、これによって、拡散成分が減衰されて、指向性音響が選択的に(相対的に)増幅される。フィルタFは、選択的な増幅のために拡散推定Ψ23を使用する。原理上は、それは、選択的に増幅されたダイレクトサウンド24を得るようにダイレクトサウンド20に√(2(1−Ψ(f)))を乗じる。選択的に増幅されたダイレクトサウンド24は、次いでHOA符号器HOAeにおいてアンビソニックス符号化され、所定の次数N(N>1、すなわち、少なくとも2次)のHOA信号25が得られる。HOA符号器HOAeは、符号化のためにソース方向Θ,Φ22を使用する。それは、Bフォーマットに従って0次及び1次の係数を有するアンビソニックスフォーマットを使用してよい。それはまた、代わりに、異なるアンビソニックスフォーマットを使用してよい。異なるアンビソニックスフォーマットは、通常は、Bフォーマットの順序とは異なる定義された係数の順序、若しくはBフォーマットの係数スケーリングとは異なる係数スケーリング、又はその両方を有する。
【0017】
選択器SELは、HOA信号25の定義された部分を選択し、その選択された部分25aは、次いで結合及び合成ユニットCSにおいて原のBフォーマット信号と結合される。選択された部分25aは、HOA信号25の高次部分、すなわち、少なくとも2次の部分(実施形態では係数)である。結合及び合成ユニットCSは、その出力において、スピーカ信号をレンダリングするのに使用され得る時間領域信号29を(HOAフォーマットにおいて)供給する。結合及び合成ユニットCSは、アンビソニックスフォーマットの信号にフィルタをかけ、時間領域信号を得るために、合成フィルタSFを有する。
【0018】
図2は、得られたHOA出力信号29が高次の他のHOA入力信号30とミキシングされ得る任意的な追加のミキサユニットMXを更に示す。他のHOA入力信号30はまた、後述されるHOAフォーマットアダプタHFAにより、入力信号10とは異なるアンビソニックスフォーマットを有することができる。ミキサMXは、得られたHOA出力信号29(すなわち、エンハンスドBフォーマット入力信号)及びHOA入力信号30の混合を含むHOA信号31を生成する。
【0019】
結合及び合成ユニットCSの実施形態の2つの基本的なタイプは、以下で記載される。1つのタイプの実施形態では、結合及び合成ユニットCSは、時間領域において、選択された部分25aを原のBフォーマット信号10と結合する。従って、それは、時間領域への選択された部分25aのみの合成を実行する。他のタイプの実施形態では、結合及び合成ユニットCSは、周波数領域において、選択された部分25aを原のBフォーマット信号10と結合し、後で時間領域への合成を実行する。
【0020】
図3は、第1のタイプの実施形態を示す。この実施形態では、結合及び合成ユニットCSは、合成された時間領域信号26を得るように、合成フィルタバンクSFBにおいて、HOA信号25のうちの選択された高次係数25aのみを合成する。時間領域結合器ユニットCBは、時間領域出力信号29を得るように、時間領域において、合成された時間領域信号26を入力信号と結合する。一実施形態において、時間領域HOAフォーマットアダプタユニットHFAは、HOA符号器HOAeが使用するフォーマットに従って、時間領域入力信号のフォーマットを適応させる。これは、時間領域結合器ユニットCBにおける得られた時間領域HOA信号28と合成された時間領域信号26との結合を簡単にする。幾つかの実施形態において、例えば、HOA符号器HOAeが、HOA入力信号と互換性があるフォーマットを使用する場合に、HOAフォーマットアダプタユニットHFAは必要とされなくてよい。HOAフォーマットアダプタユニットHFAは、HOA信号の係数を再配置及び/又は再スケーリングしてよい。
【0021】
分析フィルタバンクAFBは、例えば、FFT(高速フーリエ変換)を実行することによって、異なる周波数バンドを得る。これは時間遅延を生成する。一実施形態において、時間領域入力信号の遅延補償ユニットDC、例えば、分析フィルタバンクAFBや選択的増幅フィルタFなどのフィルタバンク遅延を補償する。表されている実施形態では、遅延補償は、HOAフォーマット適応HFAより前に行われているが、それは、他の実施形態では、HOAフォーマット適応より後に行われ得る。更なる他の実施形態では、遅延補償は2つのステップにおいて行われる。1つの遅延補償ユニットはフォーマット適応より前にあり、もう1つの遅延補償ユニットはフォーマット適応HFAより後にある。
【0022】
図4及び図5は、第2のタイプの結合及び合成ユニットCSを使用する実施形態を示す。この実施形態では、結合及び合成ユニットCSは、分析フィルタバンクから得られる、入力信号の周波数領域での0次及び1次のアンビソニックス信号を受信する。これは、図4に示される実施形態で見られるように、別個の分析フィルタバンクAFB’であってよく、あるいは、それは、図5に示される実施形態で見られるように、上記の分析フィルタバンクAFBであってよい。後者の場合に、分析フィルタバンクAFBによって供給される4つの周波数領域チャネル21は、結合及び合成ユニットCSに直接入力される。周波数領域結合器ユニットCBは、HOA信号25のうちの選択された高次係数25aを、周波数領域において、入力信号の0次及び1次のアンビソニックス係数と結合する。合成フィルタバンクSFB’は、結合されたアンビソニックス信号を合成し、時間領域出力信号29が得られる。一実施形態において、任意的な周波数領域HOAフォーマット適応HFAは、入力信号の0次及び1次のアンビソニックス係数に対して、それらをHOA信号25のうちの選択された高次係数25aと結合するより前に実行される。HOAフォーマットアダプタユニットHFAは、HOA信号の係数を再配置及び/又は再スケーリングしてよい。上述されたように、HOAフォーマットアダプタユニットHFAは、幾つかの実施形態では必要とされないことがある。更に、やはり上述されたように、遅延補償(図示せず。)は、処理チェーン(例えば、選択的増幅フィルタF、HOA符号器HOAe)において挿入される可能性があるあらゆる遅延のために、一実施形態において使用されてよい。なお、分析フィルタバンクAFB、AFB’によって挿入される遅延は補償される必要がないので、それは通常必要とされない。
【0023】
時間領域結合器CBは、時間領域において動作する結合器であり、一方、周波数領域結合器CBは、周波数領域において動作する結合器である。いずれのタイプの結合器も、選択された部分25aの得られた係数を入力信号10の(場合により再フォーマットされた)係数に加える。
【0024】
概して、0次及び1次の係数を有する1次アンビソニックス時間領域信号の指向性を高める装置は、
1次アンビソニックス信号にフィルタをかけて、1次アンビソニックス信号の周波数領域表現である4つの周波数領域チャネルが得られ、周波数領域チャネルのうちの1つの周波数領域チャネル20が0次係数を表し、3つの周波数領域チャネルが1次係数を表す、分析フィルタバンクAFBと、
4つの周波数領域チャネルの音場解析を実行して、ソース方向Θ,Φ22及び拡散推定Ψ23が得られる音場解析ユニットSFAと、
拡散推定Ψ23が使用されて、0次係数を有する周波数領域チャネル20にフィルタをかけ、ダイレクトサウンド成分24が得られる選択的増幅フィルタFと、
ソース方向Θ,Φ22が使用されて、少なくとも2である所定の次数を持ったアンビソニックスフォーマットでダイレクトサウンド成分24を符号化し、少なくとも0次、1次及び2次のアンビソニックス係数を含む、所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンド25が得られる、高次アンビソニックス符号器HOAeと、
所定の次数のアンビソニックスフォーマットにおける得られた符号化されたダイレクトサウンド25から少なくとも2次のアンビソニックス係数25aを選択する選択器SELと、
符号化されたダイレクトサウンドから選択された少なくとも2次のアンビソニックス係数25aを1次アンビソニックス入力信号10のアンビソニックス係数と結合して、少なくとも2次のアンビソニックス信号の時間領域表現29が得られる結合及び合成ユニットCSと
を有する。少なくとも2次の選択されたアンビソニックス係数25aは、0次又は1次の係数を含まないことが知られる。すなわち、選択器SELは、低次係数を除外する。
【0025】
一実施形態において、本発明は、1次のアンビソニックス信号10(すなわち、0次及び1次の係数のみを持ったアンビソニックス信号)の指向性を高めるための方法に関する。概して、方法は、
音場解析ユニットSFAにおいて、1次アンビソニックス信号から拡散推定Ψ23及び方向情報Θ,Φ22を生成するステップと、
選択的な増幅のためのフィルタFにおいて拡散推定Ψ23を使用して、1次アンビソニックス信号からダイレクトサウンド24を分離して選択的に増幅するステップと、
HOA符号器HOAeにおいて方向情報Θ,Φ22を使用して、選択的に増幅されたダイレクトサウンド24を符号化し、少なくとも2次のHOA信号25が得られるステップと、
HOA信号25から高次部分を選択し、該選択された高次部分が1次よりも高い次数の係数のみを含む(すなわち、0次の係数を含まず且つ1次の係数を含まない)ようにするステップと、
結合及び合成ユニットCSにおいて、HOA信号25から選択された高次係数を、入力された1次アンビソニックス信号と結合し、高次アンビソニックス信号(すなわち、少なくとも2次のアンビソニックス信号)の時間領域表現29が得られるステップと
を有する。
【0026】
一実施形態において、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、分析フィルタバンクAFBから入力信号の周波数領域での0次及び1次のアンビソニックス係数を受け取るステップと、HOA信号25のうちの選択された高次(すなわち、2次以上)係数を、周波数領域において、入力信号の0次及び1次のアンビソニックス係数と結合するステップと、結合されたアンビソニックス信号を合成フィルタバンクSFBにおいて合成して時間領域出力信号29を得るステップとを有する。
【0027】
実施形態において、方法は、入力信号の0次及び1次のアンビソニックス係数に対して、それらをHOA信号25のうちの選択された高次係数と結合するより前に、周波数領域HOAフォーマット適応HFAを実行するステップを更に有する。
【0028】
他の実施形態において、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、HOA信号25のうちの選択された高次係数25aのみを合成フィルタバンクSFBにおいて合成して、合成された時間領域信号26を得るステップと、得られた合成された時間領域信号を時間領域において入力信号と結合して、時間領域出力信号29を得るステップとを有する。実施形態において、時間領域入力信号の時間領域HOAフォーマット適応HFAは、結合より前に実行される。更なる実施形態では、フィルタバンク遅延を補償するための時間領域入力信号の遅延補償DCが、結合するステップより前に実行される。
【0029】
高次係数は、分析フィルタバンクAFBにおいて1次アンビソニックス入力信号10にフィルタをかけ、フィルタ処理された信号の到来方向(DoA)解析を実行して、拡散推定Ψ23及び方向Φ,Θ22が得られ、拡散推定Ψ23を用いてWチャネル(0次係数)にフィルタをかけ、それによりダイレクトサウンドS(f)20が分離され、高次アンビソニックス符号器HOAeにおいてアンビソニックスフォーマットでダイレクトサウンドS(f)を符号化することによって、得られる。結果として得られるHOA信号25から、高次係数のみが使用され、入力信号の低次係数と結合され、その結果からアンビソニックス出力信号29が合成される。
【0030】
概して、HOA信号25のうちの選択された高次係数を、入力された1次アンビソニックス信号10と結合するステップは、それらの夫々の係数を足し合わせることを有する。すなわち、出力信号29は、入力信号10の全ての係数と、更なる係数、すなわち、選択された部分25aのより高次の係数とを含む。
【0031】
図6は、本発明の一実施形態に従う方法のフローチャートを示す。入力信号10(0次及び1次の係数を有する1次アンビソニックス信号)の指向性を高める方法60は、
4つの周波数領域チャネル21が得られ、それらのうちの1つがアンビソニックスWチャネル20であるように、入力信号10にフィルタをかけるステップs1と、
4つの周波数領域チャネル21の音場解析SFAを実行して、ソース方向22及び拡散推定23が得られるステップs1と、
拡散推定23が使用されて、周波数領域のアンビソニックスWチャネル20を選択してフィルタをかけ、入力信号のダイレクトサウンド成分24が得られるステップs3と、
高次アンビソニックス符号器HOAeにおいて、ソース方向22が使用されて、所定の次数Nを持ったアンビソニックスフォーマットでダイレクトサウンド成分24を符号化し、所定の次数Nのアンビソニックスフォーマットにおける符号化されたダイレクトサウンド25が得られるステップs4と、
アンビソニックスフォーマットにおける得られた符号化されたダイレクトサウンド25から、少なくとも2次(すなわち、より低い次数を除く2次以上の次数)のアンビソニックス係数を含む定義された部分25aを選択するステップs5と、
符号化されたダイレクトサウンド25のうちの選択された部分の少なくとも2次のアンビソニックス係数を表す信号を入力信号10を表す信号と結合し、少なくとも2次のアンビソニックス信号29が得られるステップs6と
を有する。
【0032】
フィルタリングステップs1において得られる4つの周波数領域チャネル21は、1次アンビソニックス信号の周波数表現であり、周波数領域チャネル21のうちの1つの第1の周波数領域チャネル(Wチャネル)20は0次の係数を表し、一方、残り3つの周波数領域チャネル21(X,Y,Zチャネル)は1次の係数を表す。
【0033】
符号化ステップs4で、高次アンビソニックス符号器HOAeは、ソース方向Φ,Θ22を用いて、所定の次数Nを持ったアンビソニックスフォーマットにおいてダイレクトサウンド成分24を符号化する。所定の数Nは少なくとも2であり、所定の次数のアンビソニックスフォーマットにおける符号化されたダイレクトサウンドは、少なくとも2次の次数のアンビソニックス係数を有する。
【0034】
図7a)は、結合するステップs6が4つの周波数領域チャネル21を入力信号10の表現として使用する実施形態(図4,5に示される装置に対応)を示す。それは、
周波数領域結合器ユニットCBにおいて、4つの周波数領域チャネル21、21’、28の係数によって表される1次アンビソニックス信号10のアンビソニックス係数を、少なくとも2次のエンハンスメント高次アンビソニックス信号25のうちの選択された周波数成分25aと結合し、少なくとも2次のアンビソニックス信号の周波数領域表現であって、1次アンビソニックス入力信号10と比較して指向性が高められている信号37が得られるステップs61と、
合成フィルタバンクSFB’において、得られた信号37にフィルタをかけ、少なくとも2次の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現が得られるステップs64と
を有する。
【0035】
図7b)は、結合するステップs6が入力信号10の時間領域係数を使用する実施形態(図3に示される装置に対応)を示す。それは、
合成フィルタバンクSFBにおいて、符号化されたダイレクトサウンド25のうちの少なくとも2次の選択されたアンビソニックス係数25aにフィルタをかけ、少なくとも2次の係数を有するエンハンスメント高次アンビソニックス信号の時間領域表現26が得られるステップs62と、
時間領域結合器CBにおいて、1次アンビソニックス信号10(又は、実際のHOAフォーマットは適応され得るので、むしろ、1次アンビソニックス信号10のアンビソニックス係数を表す係数)を、少なくとも2次のエンハンスメント高次アンビソニックス信号の時間領域表現26と結合し、1次アンビソニックス信号10と比較して指向性が高められている少なくとも2次のアンビソニックス信号の時間領域表現29が得られるステップs65と
を有する。
【0036】
下記の記載は、アンビソニックスに関する更なる詳細を提供する。アンビソニックス理論では、空間オーディオシーンは、フーリエ−ベッセル級数の係数Anm(k)によって記述される。ソースがないボリュームについて、観測位置(r,θ,φ)での音圧は、次の式(1)によって、その球座標の関数として記述され得る(半径r、傾斜Θ、方位角Φ及び空間周波数k=ω/c=2πf/c):
【0037】
【数1】
上記の式において、数Anm(k)はアンビソニックス係数であり、jn(kr)は、半径依存性を記述する第1種の球ベッセル関数であり、Ynm(θ,φ)は、実際に実数値を有する球面調和関数(Spherical Harmonics)(SH)である。それらは角度依存性に関与する。nはアンビソニックス次数インデックスであり、mは等級である。小さいkrについてしか有効数字を有さないベッセル関数の性質により、総和級数は、十分な精度を伴って、ある次数n=Nで切り捨てられ得る。理論上完ぺきな再構成のために、N→∞である。更なる情報及び詳細は[11]、[6]、[7]、[3]、[13]において見直されてよい。アンビソニックス係数Anmはアンビソニックス信号を形成する。それらは、音圧の物理単位(1Pa)を有し、時間により変化する。信号A00は、アンビソニック記録のモノバージョンと見なされ得る。アンビソニックス係数の実際の値は、SHの定義、より正確には、その正規化スキームによって、決定される。式(1)における係数Anmの数は、2D表現についてはO=2N+1によって、そして、3D表現についてはO=(N+1)2によって、与えられる。
【0038】
実際に、アンビソニックスは、実数値の球面調和関数(SH)を使用する。符号化及び復号化の動作に作用するSHのための正規化スキームの種々の定式化及び種類、すなわち、アンビソニックス係数の値が存在するので、定義は以下で与えられる。符号なし表現による実数値SHの定式化は、ここでは次の式(2)の通りである:
【0039】
【数2】
上記の式において、
【0040】
[外1]
は、YnmとYn/m/*との間の直交関係に対応する正規化因子である(表1を参照)。すなわち、次の式の通りである;
【0041】
【数3】
上記の式において、クロネッカのデルタδaaは、a=a’については1に等しく、それ以外は0である。下記では、直交正規化スキームが使用される。
【0042】
Pn,|m|は、傾斜cos(θ)の依存性を記述する、関連するルジャンドル関数である。
【0043】
[外2]
Pn,|m|は、式(3)によってロドリーグの公式を用いて表現され得る(すなわち、ここで提示される全ての定義は、実数値変数の補償があいまいさを生じさせ得るコンドン−ショートレー位相の使用なしで済ませる。)。しかし、実装される計算のためのより有効な方法が存在する:
【0044】
【数4】
方位角部分φに対する依存性は、次の式(4)によって与えられる:
【0045】
【数5】
表1は、アンビソニックス内で使用される一般的な正規化スキームを示す。δ0,mは、m=0について1の値をとり、それ以外は0をとる。命名規則SN3D、N3Dは、[3]から採用される:
【0046】
【表1】
SoundField(登録商標)のようなマイクロホンによって記録された信号は、Bフォーマット信号を用いて表される。その技術は[2]において記載されている。4つのBフォーマット信号が存在する。W信号は、無指向性マイクロホンによって記録された音圧に比例する信号を搬送するが、1/√2という因数によってスケーリングされる。X、Y、Z信号は、3つのデカルト方向における圧力勾配に比例する信号を搬送する。4つのBフォーマット係数W、X、Y、Zは、W=A00N3D/√2、X=A11N3D/√3、Y=A1-1N3D/√3、Z=A10N3D/√3によるN3D正規化スキーム[3],[4]を用いる1次HOA係数に、及びW=A00SN3D/√2、X=A11SN3D、Y=A1-1SN3D、Z=A10SN3DによるSN3D正規化を用いるHOA係数に関係がある。更に、Bフォーマットは、因数inが係数表現内で除外される平面波符号化モデルを想定する。
【0047】
HOA信号は、平面波によっても表現され得る。平面波の音圧は、球面調和関数のためのN3D正規化スキームを用いて、[11]によって与えられている:
【0048】
【数6】
正確には、Anmは、次のようになる:
【0049】
【数7】
上記の式で、PS0(f)は、周波数fにおける座標系の原点での音圧である。Θ(f)s、φ(f)sは、ソースに対する方向(DoA)(傾斜、方位角)であり、*は複素共役を示す。Bフォーマット及びSoundField(登録商標)マイクロホンシステムを含む多数のアンビソニックスフォーマット及びシステムは、平面波符号化及び復号化モデルを想定し、因数inは除外される。その場合に、Anmは、次のようになる:
【0050】
【数8】
上述されたように、図1b)は、音場解析ブロックSFAのビルディングブロックを表す。それは、実際には、一般化された時間−周波数の検討が使用され、それにより任意の時間窓が使用可能となる点を除いて、本発明の音場解析ブロックSFAと同じようである。すなわち、音場解析は、種々の時間正規化へと簡略化される。この一般化は、任意の複素フィルタバンクの使用を可能にする。ここで考えられている他の一般化は、アクティブな音場が平面波の重ね合わせから組み立てられる点である。全ての音場パラメータは周波数の関数であり、それらは、フィルタバンクバンドkの夫々の中心周波数について計算され得る。kからのfの依存性は、下記の詳細な説明では省略される。
【0051】
アクティブインテンシティが次に記載される。
【0052】
アクティブインテンシティIa(f)は、次の式(8)に従って定義される([5]を参照):
【0053】
【数9】
アクティブインテンシティの単位はW/m2=N/(ms)である。P(f)*は、共役複素音圧(パスカル=1N/m2)であり、U(f)は、3つのデカルト次元におけるm/sでの粒子速度ベクトルである。Re{.}は実数部分を表す。アクティブインテンシティの他の定式化は、[11]において見られるように、1/2の更なる因数を使用する。それは、次いで、式(13)のための更なる因数をもたらす。Bフォーマット信号Wは、音圧信号P(f)に比例し、信号X(f)=[X(f),Y(f),Z(f)]Tは、音速Uに比例する。
【0054】
【数10】
上記の式において、eiはデカルト座標軸の単位ベクトルであり、伝播する平面波の単位ベクトル方向のeuである。Z0は特性インピーダンスである(空気の密度と音速との積Z00×c)。その場合に、アクティブインテンシティIaは、次の(10)のようにBフォーマットを用いて表現され得る([5]を参照):
【0055】
【数11】
上記の式において、因数√2は、Bフォーマット内のW係数のスケーリングを表し、*は複素共役を表す。Ia(f)、X(f)は、デカルト座標における周波数のベクトル関数である。
【0056】
到来方向が次に記載される。
【0057】
アクティブインテンシティの単位ベクトルeI(f)=[eIx(f),eIy(f),eIz(f)]Tは、eI=Ia(f)/||Ia(f)||によって与えられる。DoAの方位角は、次の式(11)によってラジアンで与えられる:
【0058】
【数12】
上記の式において、Iai(f)は、Ia(f)のデカルト成分であり、atan2は4象限逆正接である。仰角Θ(f)は、次の式(12)によって計算され得る:
【0059】
【数13】
拡散が次に記載される。
【0060】
音場のエネルギ密度、すなわち、単位ボリュームごとの音響エネルギ(物理単位N/m2=(kg・m/s2)/m2)は、[5]によって記載される:
【0061】
【数14】
上記の式において、||U||は行列ノルム2を記述し、ベクトルのユークリッド長さである。
【0062】
アンビソニックス信号について、1次/Bフォーマットは、次のようになる:
【0063】
【数15】
下記で、表記法における周波数の依存性は、より良い読みやすさのために断念される。
【0064】
拡散推定Ψは、[5]のように定義される:
【0065】
【数16】
【0066】
[外3]
は、IIRフィルタによる1次又は窓掛け平均によって実現される時間平均化を用いて実装され得る期待値演算子である。Ψは、音場の非アクティブ部分の寄与を表す。1の値は、完全に拡散した音場(運動エネルギの寄与なし)を記述し、0の値は、完全にアクティブな音場を記述する。Bフォーマット信号を用いると、拡散は、次の式(16)のように表現され得る:
【0067】
【数17】
拡散推定の代替の実現[1]は、次の式(17)によって与えられる:
【0068】
【数18】
平均フィルタリングが次に記載される。
【0069】
拡散推定及びDoA方向は、時間平均化を必要とする。期待値
【0070】
[外4]
を近似するよう、平滑化フィルタ出力は、[12]によって定義される:

y(n,k)=(1-g)x(n,k)+gy(n-1,k) (18)

ここで、x(n,k)は入力であり、y(n-1,k)は、フィルタバンドkにおいて出力される遅延されたサンプル(変換ブロック)である。フィルタパラメータgはg=exp(-1/fcτ)によって与えられる。ここで、fcは、サブサンプリングフィルタバンクのサンプルレートである。50%だけ重なり合った窓を持つブロックベースのフィルタバンクについて、fcはfc=fs/Nhopになる。ホップサイズNhopは、この50%オーバラップの場合について、窓サイズの半分である。時定数τは平均化の特性を決定づける。小さい値は、入力信号の高速な変化が追随される必要がある場合に適切であり、大きい値は、長期平均に適している。
【0071】
代替の実現手法が存在し、例えば([10]を参照):

y(k,n)=ax(n,k)+(1-a)y(k,n-1) (19)

ここで、a=Nhop/τfsであり、τ≧Nhop/fs。なお、τは、fsに対する絶対的な関係において見られる。
【0072】
ブロック依存のスイッチパラメータcc及び2つの時定数τmax、τminを有する適応フィルタは、次の時定数(20)のために使用され得る:
【0073】
【数19】
ほとんどの場合において、如何なる1次アンビソニックス記録もBフォーマット信号である。本発明に従う方法は、1次係数情報を保ちながら、既存の1次アンビソニックス記録のための高次アンビソニックス係数を導出する。到来方向(DoA)解析は、周波数にわたって最も強い方向を導出するために実行される。Wチャネルは、それらの信号の全てのモノミックスに相当する。Wチャネルは、拡散部分が周波数にわたって除去されるようにフィルタをかけられる。よって、フィルタをかけられたWチャネルは、周波数にわたるダイレクトサウンドの推定になる。DoA方向は、3DのためにはO=(Norder+1)2個の、2D実現のためにはO=(2Norder+1)個の係数を有して、予め割り当てられたアンビソニックス次数Norder>1の新しいHOA信号を形成するように、フィルタをかけられたWチャネル信号のアンビソニックス符号化のために使用される。Bフォーマット記録(すなわち、1次信号)の4つの係数は、必要ならば新しいアンビソニックス信号と同じフォーマットに変換されたフォーマットであり、出力信号を形成するように新しい係数と結合される。結果として得られる出力HOA信号係数Cは、0及び1次係数の変換されたBフォーマット係数と、より高次の成分の新しいHOA係数とから成る。
【0074】
処理又は処理の部分は、分析フィルタバンクのフィルタバンク周波数領域において適用される。
【0075】
一実施形態は、FFTベースの分析フィルタバンクを使用する。50%が重なり合ったサイン窓は960個のサンプルに、又は代替的に、例えば640若しくは512個のサンプルに適用される。左右へのゼロパディングは、1024個のサンプルFFT長を得るために使用される。逆フィルタバンク(合成フィルタバンク)は、480(320,256)個のサンプルをリストアするために窓掛け及びオーバーレイ加算を使用する。代替的に使用可能なフィルタバンクは、人体感覚により良く適合するフィルタバンド幅を使用するものであって、ISO/IEC 23003/2007/2010(MPEG Surround,SAOC)において記載されている。FFTフィルタバンクを使用する場合に、2以上のフィルタバンドは、特に高周波のために、人体感覚により良く適応するように結合され得る。一実施形態において、バークの約4分の1のバンド幅が1つのFFTフィルタバンドの細かさにより使用され、結合されたバンドにわたるアクティブインテンシティ及びエネルギの平均値が使用される。様々な実施形態において、音場パラメータ“アクティブインテンシティ”及び/又は“エネルギ密度”は、DoA角度及び拡散推定を導出するために使用される。
【0076】
一実施形態において、DoA方向及び拡散推定のための式(18)に従う特別の平滑化フィルタが使用される。その場合に、拡散推定の平滑化は、次のように実現される(周波数バンド依存性は、明りょうさのために省略される。)。
【0077】
式(15)に従う拡散推定は、
【0078】
[外5]
によって与えられる。エニュメレータ
【0079】
[外6]
の平滑化フィルタは、それらの成分のために同じ時定数を用いて1次IIRフィルタによって実現される。更に、フィルタは、小さいτmin及び大きい時定数τmaxによって特徴付けられる2つの係数を有する。時定数間の切り替えは、||Ia||の変化及び付加的な状態カウンタccに応じて実行される。このとき、Iaはフィルタ入力であり、
【0080】
[外7]
は前の動作のフィルタ出力である。
【0081】
[外8]
大きい時定数τmaxを有する係数が使用される。
【0082】
[外9]
小さい時定数τminによって特徴付けられる係数が使用され、ccは、1よりも大きいccmaxにセットされる(例えば、ccmax=10)。
【0083】
[外10]
時定数τ=τmin+((ccmax-cc)/ccmax)(τmaxmin)が使用され、ccは、それがゼロにならない限り以後デクリメントされる(ブロック処理)。
【0084】
ε1は正の定数である。エネルギEの平滑化は、同じ適応フィルタ構造だが別個のフィルタを用いて、同じように実行される。それはτmax、τmin及び自己cc状態カウンタによって特徴付けられる。このとき、|E(n)|の変化は、大きい、小さい及び補間された時定数の間を切り替えるために使用される。
【0085】
φ(f)及びΘ(f)は、2つの複素信号を生成することによって、アクティブインテンシティeI(f)=Ia(f)/||Ia(f)||の単位ベクトルから導出される:

a1=eIx+ieIy (21)

及び

a2=√(eIx2+eIy2)+ieIz (22)

上記の式において、i=√(-1)及びeIx、eIy、eIzは、アクティブインテンシティの単位ベクトルのデカルト成分である。信号a1、a2は、式(18)に従ってサブバンドごとに適応IIR1次フィルタを用いてフィルタをかけられる:

b1(n)=(1-g(Ψ))a1(n)+g(Ψ)b1(n-1) (23)

そして、b2(n)については、入力a2(n)と、拡散Ψに依存する同じフィルタパラメータg(Ψ)とを用いて同様である。依存性は線形であってよい:

g(Ψ)=(gmax-gmin)Ψ+gmin

gminはゼロに近く、gmax≦1である。
【0086】
指向性信号φ,Θは、次のようにフィルタ出力から計算され得る:

φ=atan2(Im{b1}/Re{b1}) (24)
Θ=atan2(Re{b2}/Im{b2}) (25)

図2〜5を参照して上述された実施形態は、Bフォーマットの場合におけるW、X、Y、Zによって表される4つの1次係数のために4つの分析フィルタを使用する。DoA及び拡散推定の解析は、中心周波数fkを有するK個の周波数バンドにおける上記の適応平滑化フィルタを用いて実行される。W係数信号は、Bフォーマットの場合には√(2(1-Ψ(fk)))を、他の正規化された1次信号の場合には√(1-Ψ(fk))を各周波数バンドにおいて乗じられて、信号Sを実現する。DoA方向は、3DのためにはO=(Norder+1)2個の、2D実現のためにはO=(2Norder+1)個の係数を有して、予め割り当てられたアンビソニックス次数Norder>1の新しいHOA信号を形成するように、周波数バンドにおいて信号Sをアンビソニックス符号化するために使用される。O個の新しいアンビソニックス信号はBnmによって表される。一実施形態において、HOA符号器は、因数inを除外する直交正規化球面調和関数又はN3dを使用する。平面波符号化スキームが使用される:
【0087】
【数20】
上記の式において、B(fk)は、O個のアンビソニックス係数B(fk)=[B00(fk),B1-1(fk),B10(fk),B11(fk),B2-2(fk),..]Tを保持する、中間周波数fkを持った夫々の周波数バンドkのためのベクトルである。
【0088】
[外11]
は、指向性の球面調和関数を保持する、サイズOx1のモードベクトルである:
【0089】
【数21】
Bフォーマット入力信号(例えば、記録)の4つの係数は、HOA符号器HOAeによって生成される新しいアンビソニックス信号と同じフォーマットに変換されたフォーマットである。これは、時々アンビソニックス係数内に含まれる因数inの任意的な考慮とともに球面調和関数の種々の正規化への適応と、2D球面調和関数に適応するための3Dから2Dへの変換又はその逆の変換とを暗示することができる。変換され且つソートされ直されたBフォーマット係数は、関係:[W,Y,Z,X]→[A00,A1-1,A10,A11]及び2Dについては:[W,Y,X]→[A00,A1-1,A11]を用いてA00,A1-1,A10,A11と表される。
【0090】
結果として得られるHOA信号Cnm29は、変換されたBフォーマット信号と、0及び1次係数が除去された新しいHOA係数Bnmとから成る。すなわち、Cnm:[A00,A1-1,A10,A11,B2-2,B2-1,B20,B21,B22,…’]。結果として得られるHOA信号Cnm29は、3D実現のためのO=(Norder+1)2個の成分、又はCnm:[A00,A1-1,
A11,B2-2,B22,…]による2D実現のためのO=(2Norder+1)個の成分を有する。このプロシージャは、アンビソニックス信号のための次数アップミックスと見なされ得る。
【0091】
図3に関連して上述された実施形態は、原の係数を時間領域において新しい係数と結合し、O-4個の合成フィルタ(文字“O”は非ゼロを意図される点を留意されたい。)及び付加的な遅延を用いてフィルタバンク遅延を補償する。図4及び5に示される実施形態は、フィルタバンク領域において結合し、O(非ゼロ)個の合成フィルタを使用する。
【0092】
本発明に従う次数アップミックスの後、新しい信号Cnmは、幾つかの目的、例えば、信号Dnmを形成するようにNorderの他のアンビソニックスコンテンツとミキシングすること、Norderのアンビソニックス復号器を用いてL個のスピーカによる再生のためにCnm又はDnmを復号すること、データベースにおいてCnm又はDnmを伝送及び/又は記憶すること、などのために使用され得る。幾つかの場合、例えば、伝送及び/又は記憶する場合に、メタデータが、アンビソニックス信号のオリジナル及び実行された処理を示すために使用され得る。
【0093】
本発明は、あらゆる低次のアンビソニックス信号の指向性も夫々の高次アンビソニックス信号へと高めるのに適しており、一方、ここで記載される例となる実施形態は、例えば2次信号へと高められるための1次(Bフォーマット)信号しか使用しない。しかし、同じ原理は、所与の次数のアンビソニックス信号をあらゆるより高い次数へも(例えば、2次信号を3次信号へ、1次信号を4次信号へ、など)高めるように適用され得る。一般的に、4次よりも高い次数の係数を生成することは意味をなさない。
【0094】
本発明の1つの利点は、それが、Bフォーマット信号(例えば、1次マイクロホン記録)をより高次のコンテンツとミキシングして、その混合を復号する場合に空間再現の正確さを高めることを可能にする点である。
【0095】
記載されている装置及び方法における、開示されているデバイスの形態及び詳細における、並びにそれらの動作における様々な削除、置換及び変更は、当業者によってなされ得るが、同じ結果を達成するように略同じように略同じ機能を実行するそれらの要素の全ての組み合わせが本発明の適用範囲内にあることは、明示的に意図される。本発明は、例示として記載されているのであり、明細書並びに(必要に応じて)特許請求の範囲及び図面において開示されている各特徴は、独立して、又はあらゆる適切な組み合わせにおいても、提供されてよい。特徴は、必要に応じて、ハードウェア、ソフトウェア、又はそれらの組み合わせにおいて実装されてよい。特許請求の範囲に現れる参照符号は、単なる例示であって、特許請求の範囲の適用範囲を制限するものではない。
【0096】
引用文献
【0097】
【表2】
図1
図2
図3
図4
図5
図6
図7a)】
図7b)】