特許第6404354号(P6404354)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオの特許一覧

特許6404354多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム
<>
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000026
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000027
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000028
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000029
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000030
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000031
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000032
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000033
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000034
  • 特許6404354-多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム 図000035
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6404354
(24)【登録日】2018年9月21日
(45)【発行日】2018年10月10日
(54)【発明の名称】多くの拡声器信号を生成するための装置及び方法、並びにコンピュータ・プログラム
(51)【国際特許分類】
   H04S 7/00 20060101AFI20181001BHJP
【FI】
   H04S7/00 310
【請求項の数】8
【全頁数】25
(21)【出願番号】特願2016-541876(P2016-541876)
(86)(22)【出願日】2014年9月1日
(65)【公表番号】特表2016-534667(P2016-534667A)
(43)【公表日】2016年11月4日
(86)【国際出願番号】EP2014068503
(87)【国際公開番号】WO2015036271
(87)【国際公開日】20150319
【審査請求日】2016年5月2日
(31)【優先権主張番号】102013218176.0
(32)【優先日】2013年9月11日
(33)【優先権主張国】DE
(73)【特許権者】
【識別番号】591037214
【氏名又は名称】フラウンホッファー−ゲゼルシャフト ツァ フェルダールング デァ アンゲヴァンテン フォアシュンク エー.ファオ
(74)【代理人】
【識別番号】100079577
【弁理士】
【氏名又は名称】岡田 全啓
(74)【代理人】
【識別番号】100167966
【弁理士】
【氏名又は名称】扇谷 一
(72)【発明者】
【氏名】シュナイダー マルティーン
(72)【発明者】
【氏名】ケラーマン ヴァルター
(72)【発明者】
【氏名】フランク アンドレーアス
【審査官】 須藤 竜也
(56)【参考文献】
【文献】 国際公開第2013/006325(WO,A1)
【文献】 特表2012−525051(JP,A)
【文献】 特開2008−118559(JP,A)
【文献】 特表2010−539833(JP,A)
【文献】 特開2012−133366(JP,A)
【文献】 特表2011−528200(JP,A)
【文献】 特表2012−530952(JP,A)
【文献】 Jens Ahrens, 外2名,Introduction to the SoundScape Renderer (SSR),retrieved from the Internet,ドイツ,2011年 5月 3日,第31頁第24行-30行目
(58)【調査した分野】(Int.Cl.,DB名)
H04S 1/00 − 7/00
G10L 19/00 − 99/00
(57)【特許請求の範囲】
【請求項1】
音源信号及び少なくとも1つの仮想的な音源オブジェクト(12a−c)のポジション(P1,P2)又はタイプを決定するメタ情報を備える前記少なくとも1つの仮想的な音源オブジェクト(12a−c)に基づいて、多くの拡声器信号(x´(k))を生成するための装置(10,30)であって、
前記装置(10,30)は、
前記メタ情報を時変的に修正するように構成されるモディファイア(18)と、
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)と、前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記タイプ又はポジション(P1,P2)が時変的に修正されている修正メタ情報を伝送して、多くの拡声器信号(x´(k))を形成するように構成されるレンダラー(22)とを備え、
前記モディファイア(18)は、前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の仮想的なポジション(P1,P2)が1つの瞬間とそれより後の瞬間とで修正され、且つそれによって前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記仮想的なポジション(P1,P2)のプレイバック空間(16)におけるポジションに対する距離が最大で25%変更されるように、前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報を修正するように構成され、あるいは
前記モディファイア(18)は、1つの瞬間とそれより後の瞬間とで前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報を、プレイバック空間(16)におけるポジション(P1,P2)に対して、両耳間レベル差が最大で26%増加され又は最大で21%減少されるように修正するように構成され、あるいは
前記モディファイア(18)は、1つの瞬間とそれより後の瞬間とで前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報を、プレイバック空間(16)におけるポジション(P1,P2)に対して、モノラルのレベル差が最大で26%増加され又は最大で21%減少されるように修正するように構成され、あるいは
前記モディファイア(18)は、プレイバック空間(16)におけるポジション(P1,P2)に対して、両耳間時間差が最大で30μs修正されるように、前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報を1つの瞬間とそれより後の瞬間とで修正するように構成され、あるいは
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)は、プレイバック空間(16)においてリスナー(17)に対して前方(34a,34b)に配置され、且つ前記モディファイア(18)は、1つの瞬間とそれより後の瞬間とで前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報を、前記リスナー(17)に対する前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の方向が3°(α1)未満しか変更されないように修正するように構成され、あるいは
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)は、プレイバック空間(16)においてリスナー(17)に対して側方向(36a,36b)に配置され、且つ前記モディファイア(18)は、1つの瞬間とそれより後の瞬間とで前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報を、前記リスナー(17)に対する前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の方向が10°(α2)未満しか変更されないように修正するように構成され、あるいは
前記モディファイア(18)は、少なくとも10秒の時間間隔で前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報を実行するように構成され、あるいは
前記モディファイア(18)は、前記少なくとも1つの仮想的な音源オブジェクト(12a)に対して最大10mでの距離(41)で画像(12´a)を配置するように構成され、あるいは
前記モディファイア(18)は、再生されるプレイバック・シーンの修正がプレイバック空間(16)のリスナー(17)にとって顕著でない、又は邪魔だと知覚されないように、前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記ポジション又はタイプについて部分的に再生される前記プレイバック・シーンの前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報を修正するように構成される、装置。
【請求項2】
複数のマイクロホン信号(d(k))及び前記多くの拡声器信号(x´(k))に基づいて、前記多くの拡声器信号(x´(k))が決定される複数の拡声器と、前記複数のマイクロホン信号(d(k))を創出する複数のマイクロホンとが適用され得るプレイバック空間(16)の伝送特性(Hest(n))を推定するように構成されるシステム計算機(28)をさらに備え、
前記レンダラー(22)は、前記プレイバック空間(16)の前記推定された伝送特性(Hest(n))に基づいて、前記多くの拡声器信号(x´(k))を計算するように構成される、請求項1に記載の装置。
【請求項3】
前記レンダラー(22)は、波動場合成アルゴリズム又は高次アンビソニック・アルゴリズムの規則に従って前記多くの拡声器信号(x´(k))を計算するように構成され、又は前記レンダラー(22)は、少なくとも10の拡声器信号(x´(k))を計算するように構成される、請求項1又は2に記載の装置。
【請求項4】
前記モディファイア(18)は、少なくとも2つの仮想的な音源オブジェクト(12a−c)を、第1の仮想的な音源オブジェクト(12a−c)の前記メタ情報が第2の仮想的な音源オブジェクト(12a−c)の前記メタ情報と比較して前記仮想的な音源オブジェクト(12a−c)のポジション又はタイプに関して異なって修正されるように、修正するように構成され、且つ
前記レンダラー(22)は、前記第1の修正されたメタ情報及び前記第2の修正されたメタ情報に基づいて前記多くの拡声器信号(x´(k))を計算するように構成される、請求項1〜3のいずれかに記載の装置。
【請求項5】
前記モディファイア(18)は、前記少なくとも1つの仮想的な音源オブジェクト(12a)の画像(12´a)を生成するようにさらに構成された装置(10,30)であって、前記画像は、前記少なくとも1つの仮想的な音源オブジェクト(12a)の前記メタ情報を少なくとも部分的に備え、且つ前記モディファイアは、前記少なくとも1つの仮想的な音源オブジェクト(12a)と前記画像(12´a)とが相互に異なるメタ情報を備えるように、前記メタ情報を時変的に修正するように構成される、請求項1〜4のいずれかに記載の装置。
【請求項6】
前記装置(10,30)において、前記レンダラー(22)は、前記複数の拡声器信号(x´(k))の相関が減少されるように、さらに、前記複数の拡声器信号(x´(k))に減衰又は遅延を加えるように構成される、請求項1〜5のいずれかに記載の装置。
【請求項7】
音源信号及び少なくとも1つの仮想的な音源オブジェクト(12a−c)のポジション又はタイプを決定するメタ情報を備える前記少なくとも1つの仮想的な音源オブジェクト(12a−c)に基づいて多くの拡声器信号(x´(k))を生成する方法であって、
前記方法は、
前記メタ情報を時変的に修正するステップと、
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)と、前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記タイプ又はポジションが時変的に修正された、前記修正された情報を伝送し、多くの拡声器信号(x´(k))を形成するステップとを含み、
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)のメタ情報を修正するステップは、前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の仮想的なポジション(P1,P2)が1つの瞬間とそれより後の瞬間とで修正され、且つそれによって前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記仮想的なポジション(P1,P2)のプレイバック空間(16)におけるポジションに対する距離が最大で25%変更されるように実行され、あるいは
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)のメタ情報を修正するステップは、1つの瞬間とそれより後の瞬間とで、プレイバック空間(16)におけるポジション(P1,P2)に対して、両耳間レベル差が最大で26%増加され又は最大で21%減少されるように実行され、あるいは
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)のメタ情報を修正するステップは、1つの瞬間とそれより後の瞬間とで、プレイバック空間(16)におけるポジション(P1,P2)に対して、モノラルのレベル差が最大で26%増加され又は最大で21%減少されるように実行され、あるいは
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)のメタ情報を修正するステップは、1つの瞬間とそれより後の瞬間とで、プレイバック空間(16)におけるポジション(P1,P2)に対して、両耳間時間差が最大で30μs修正されるように実行され、あるいは
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)は、プレイバック空間(16)においてリスナー(17)に対して前方(34a,34b)に配置され、且つ前記少なくとも1つの仮想的な音源オブジェクト(12a−c)のメタ情報を修正するステップは、1つの瞬間とそれより後の瞬間とで、前記リスナー(17)に対する前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の方向が3°(α1)未満しか変更されないように実行され、あるいは
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)は、プレイバック空間(16)においてリスナー(17)に対して側方向(36a,36b)に配置され、且つ前記少なくとも1つの仮想的な音源オブジェクト(12a−c)のメタ情報を修正するステップは、1つの瞬間とそれより後の瞬間とで、前記リスナー(17)に対する前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の方向が10°(α2)未満しか変更されないように実行され、あるいは
前記少なくとも1つの仮想的な音源オブジェクト(12a−c)のメタ情報は、少なとも10秒の時間間隔で実行され、あるいは
画像(12´a)は、前記少なくとも1つの仮想的な音源オブジェクト(12a)から最大10mの距離(41)に配置され、あるいは
再生されるプレイバック・シーンの修正がプレイバック空間(16)のリスナー(17)にとって顕著でない、又は邪魔だと知覚されないように、前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記ポジション又はタイプについて部分的に再生される前記プレイバック・シーンの前記少なくとも1つの仮想的な音源オブジェクト(12a−c)の前記メタ情報が修正される、方法。
【請求項8】
プログラムがコンピュータで動作するとき、請求項7に記載の方法を実行するためのプログラム・コードを備える、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、再生される音響シーンを変更することによって、複数の拡声器信号を非相関にする装置及び方法に関する。
【背景技術】
【0002】
3次元ヒアリング体験のために、オーディオ部分のリスナー又は映画の視聴者それぞれに、3次元音響再生を用いて、例えば、リスナー又は視聴者に再生される音響シーンの中に位置しているという印象を音響的に与えることによって、より現実的なヒアリング体験を与えることが意図され得る。心理音響効果もまたこのために利用され得る。波動場合成又は高次アンビソニックスの複数のアルゴリズムは、幾つかの又は多くの拡声器を用いるプレイバック又は再生空間の中で特定の音場を再生するために用いられ得る。ここで、複数の拡声器は、複数の拡声器が再生される音響シーンのほとんど如何なる位置でも配置される複数の音響音源に完全に又は部分的に対応する波動場を生成するように、駆動され得る。
【0003】
波動場合成(WFS)又は高次アンビソニックス(HOA)は、仮想的な複数の音響音源オブジェクトを空間的に表現するために、多数の伝搬チャンネルを用いることによって、リスナーに対して高品質な空間ヒアリング印象を許容する。より夢中にさせるユーザー体験を達成するために、これらの再生システムは、例えば、双方向アプリケーションのような更なるアプリケーションを許容し、又は再生品質を改善するために、空間的な記録システムによって補足され得る。拡声器配列の結合、例えばプレイバック空間のような囲まれた空間又は体積、及びマイクロホン配列は、拡声器エンクロージャ・マイクロホン・システム(LEMS)として参照され、且つ複数の拡声器信号及び複数のマイクロホン信号を同時に観測することによって、たくさんのアプリケーションにおいて識別される。しかしながら、複数の拡声器信号の典型的に強固な相互関係が、例えば[BMS98]において記載されるように、十分なシステム識別を阻害し得ることは、ステレオの音響エコー・キャンセル(AEC)から既に公知である。これは、ユニークでない問題として参照される。この場合において、システム識別の結果は、複数の拡声器信号の相関特性によって決定される不明確な幾つかの解決策のうちの単に1つである。この不完全なシステム識別の結果は、現在の複数の拡声器信号のために真実のLEMSの振る舞いを説明するにもかかわらず、複数の異なる適応フィルタリング・アプリケーション、例えばAEC又はリスニング・ルーム同等化(LRE)のために、このように用いられ得る。しかしながら、この結果は、複数の拡声器信号の相互関係の特性が、それによって、これらの適応されるフィルタに基づいてシステムの振る舞いを引き起こし、不安定になるように変化する場合、もはや真実でないだろう。この頑健性のなさは、例えばAEC又は適応LREのようなたくさんの技術の適用性に対して、重大な障害を構成する。
【0004】
拡声器エンクロージャ・マイクロホン・システム(LEMS)の識別は、音響再生の場において、たくさんのアプリケーションのために必要であり得る。複数の拡声器と複数のマイクロホンの間の多数の伝搬経路を用いて、例えば、波動場合成(WFS)を求め得るように、この問題はユニークでない問題に起因して、すなわち、過小決定された(under−determined)システムに起因して、特に挑んでい得る。音響プレイバック又は再生シーンにおいて、再生システムが拡声器を備えるよりも少ない仮想的な音源が再生される場合、このユニークでない問題が起こり得る。このような場合において、システムは、もはやユニークに識別され得ない。また、システム識別を含む方法は、複数の拡声器信号の相関特性を変更するために、小さい又は低い頑健性又は安定性に苦しむ。システム又はLEMSがユニークに識別され得、及び/又は頑健性が特定の条件の下で増加するために、ユニークでない問題に対する現在の手段は、複数の拡声器信号を修正すること(すなわち、非相関)を必然的に伴う。しかしながら、既知であるほとんどの試みは、オーディオ品質を低下し得、且つ波動場合成において適用されるとき、合成される波動場において妨げさえし得る。
【0005】
複数の拡声器信号を非相関にすることを目的として、3つの可能性が、システム識別、すなわち、現実のLEMSの識別又は推定の頑健性を増加させるために知られている。
【先行技術文献】
【非特許文献】
【0006】
【非特許文献1】[Ali98] ALI, M.: Stereophonic Acoustic Echo Cancellation System Using Time Varying All-Pass filtering for signal decorrelation. In: IEEE International Conference on Acoustics, Speech, and Signal Processing (ICASSP) Bd. 6. Seattle, WA, May 1998, pp. 3689 - 3692
【非特許文献2】[BBK03] BUCHNER, H.; BENESTY, J.; KELLERMANN, W.: Multichannel Frequency Domain Adaptive Algorithms with Application to Acoustic Echo Cancellation. In: BENESTY, J. (Hrsg.); HUANG, Y. (Hrsg.): Adaptive Signal Processing: Application to Real-World Problems. Berlin: Springer, 2003
【非特許文献3】[BDV93] BERKHOUT, A.J.; DE VRIES, D.; VOGEL, P.: Acoustic control by wave field synthesis. In: J. Acoust. Soc. Am. 93 (1993), Mai, pp. 2764 - 2778
【非特許文献4】[BLA97] Blauert, Jens: Spatial Hearing: the Psychophysics of Human Sound Localization. MIT press, 1997
【非特許文献5】[BMS98] BENESTY, J.; MORGAN, D.R.; SoNDHI, M.M.: A better understanding and an improved solution to the specific problems of stereophonic acoustic echo cancellation. In: IEEE Trans. Speech Audio Process. 6 (1998), March, No. 2, pp. 156 - 165
【非特許文献6】[Dan03] DANIEL, J.: Spatial sound encoding including near field effect: Introducing distance coding filters and a variable, new ambisonic format. In: 23rd International Conference of the Audio Eng. Soc., 2003
【非特許文献7】[GE98] GANSLER, T.; ENEROTH, P.: Influence of audio coding on stereophonic acoustic echo cancellation. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) vol. 6. Seattle, WA, May 1998, pp. 3649 - 3652
【非特許文献8】[GT98] GILLOIRE, A.; TURBIN, V.: Using auditory properties to improve the behaviour of stereophonic acoustic echo cancellers. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) vol. 6. Seattle, WA, May 1998, pp. 3681 - 3684
【非特許文献9】[HBK07] HERRE, J.; BUCHNER, H.; KELLERMANN, W.: Acoustic Echo Cancellation for Surround Sound using Perceptually Motivated Convergence Enhancement. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP) vol. 1. Honolulu, Hawaii, April 2007, pp. I-17 - I-20
【非特許文献10】[MHBOl] MORGAN, D.R.; HALL, J.L.; BENESTY, J.: Investigation of several types of nonlinearities for use in stereo acoustic echo cancellation. In: IEEE Trans. Speech Audio Process. 9 (2001), September, No. 6, pp. 686 - 696
【非特許文献11】[SHK13] SCHNEIDER, M.; HUEMMER, C.; KELLERMANN, W.: Wave-Domain Loudspeaker Signal Decorrelation for System Identification in Multichannel Audio Reproduction Scenarios. In: IEEE International Conference an Acoustics, Speech, and Signal Processing (ICASSP). Vancouver, Canada, May 2013
【非特許文献12】[SMH95] SoNDHI, M.M.; MORGAN, D.R.; HALL, J.L.: Stereophonic acoustic echo cancellation - An overview of the fundamental problem. In: IEEE Signal Process. Lett. 2 (1995), August, No. 8, pp. 148 -151
【非特許文献13】[WWJ12] WUNG, J.; WADA, T. S.; JUANG, B. H.: Inter-channel decorrelation by sub-band resampling in frequency domain. In: International Workshop on Acoustic Signal Enhancement [IWAENC). Kyoto, Japan, March 2012, pp. 29 − 32
【非特許文献14】[Bla97] Blauert, Jens: Spatial Hearing: the Psychophysics of Human Sound Localization. MIT press, 1997]
【発明の概要】
【発明が解決しようとする課題】
【0007】
[SMH95],[GT98]及び[GE98]は、ノイズを加えることを提案し、それは、複数の拡声器信号に対して、異なる複数の拡声器信号の独立である。[MHBOI]、[BMS98]は、再生チャンネルごとに異なる非線形の前処理を提案する。[Ali98]、[HBK07]において、異なる時変フィルタリングが、拡声器チャンネルそれぞれのために提案される。理想的な場合において言及される技術は、知覚される音品質を邪魔しないけれども、これらは一般に、WFSに対して十分に適切でない。WFSに対して複数の拡声器信号が分析的に決定されるので、時変フィルタリングが、再生される波動場において著しく妨げ得る。オーディオ再生の高品質を得ようと奮闘するとき、リスナーは、加えられる又は非線形に前処理する複数のノイズ信号を受け入れえ得ず、両方がオーディオ品質を低下し得る。[SHK13]において、WFSのための適切な試みが提案され、再生される波動場の時変ローテーションとして、複数の拡声器信号の変更が取得されるように、複数の拡声器信号が事前にフィルタ処理される。
【0008】
それ故に、本発明の目的は、改善されたシステム識別を許容する複数の拡声器信号を生成する装置及び方法を提供することである。
【課題を解決するための手段】
【0009】
この目的は、複数の独立請求項の要旨によって達成される。
【0010】
本発明の中心的な思想は、非相関にされた複数の拡声器信号が仮想的な音源オブジェクトのポジション又はタイプのような仮想的な音源オブジェクトのメタ情報の時変的な修正によって生成され得るという事実によって、上記の目的が解決され得ることを認識されたことである。
【0011】
一実施形態に従って、複数の拡声器信号を生成する装置は、仮想的な音源オブジェクトのメタ情報を時変的に修正するように構成されるモディファイア(modifier)を備える。仮想的な音源オブジェクトは、メタ情報及び音源信号を備える。
【0012】
メタ情報は、例えば、仮想的な音源オブジェクトのポジション又はタイプにような特性を決定する。メタ情報を修正することによって、仮想的な音源オブジェクトの、放出特性のようなポジション又はタイプが修正され得る。装置は、多くの拡声器信号を形成するために、仮想的な音源オブジェクト及び修正されたメタ情報を伝達するように構成されるレンダラーをさらに備える。メタ情報を時変的に修正することによって、複数の拡声器信号の非相関は、安定した、すなわち頑健なシステム識別が、改善されたシステム識別に基づいて、より頑健なLRE又はより頑健なAECを許容するために提案され得るように達成され得る。これは、LRE及び/又はAECの頑健性が、システム識別の頑健性に依存するためである。より頑健なLRE又はAECは、同様にして、複数の拡声器信号の改善された再生品質のために利用され得る。
【0013】
この実施形態の有利な点は、追加のフィルタリング又は複数のノイズ信号の追加による追加の非相関が施され得るように、非相関にされた複数の拡声器信号が、時変的に修正されたメタ情報に基づいてレンダラーを用いて生成され得るという事実である。
【0014】
代替の実施形態は、仮想的な音源オブジェクトのポジション及びタイプを決定する音源信号及びメタ情報を備える仮想的な音源オブジェクトに基づいて、複数の拡声器信号を生成する方法を提供する。その方法は、メタ情報を時変的に修正する工程と、多くの拡声器信号を形成するために、仮想的な音源オブジェクト及び修正されたメタ情報を伝達する工程とを含む。
【0015】
この実施形態の有利な点は、音響プレイバック・シーンの改善された再生品質が、相関された複数の拡声器信号を事後的に非相関にする工程と比較して達成され得るように、既に非相関にされた複数の拡声器信号が、メタ情報を修正する工程によって生成され得るという事実である。これは、複数の補足ノイズ信号の追加、又は非線形な演算を適用することが回避され得るためである。
【0016】
さらに有利な複数の実施形態は、従属請求項の要旨である。本発明の好ましい実施形態は、後に以下の添付図面を参照して詳細に説明されるだろう。
【図面の簡単な説明】
【0017】
図1】仮想的な複数の音源オブジェクトに基づいて複数の非相関にされた拡声器信号を生成する装置を示す。
図2】複数の拡声器が配置されるプレイバック空間の概略的な平面図を示す。
図3】異なる仮想的な複数の音源オブジェクトのメタ情報を修正する概略的な外観を示す。
図4】実験的な試作品において、複数の拡声器及び複数のマイクロホンの概略的な配置を示す。
図5a】複数の試作品の異なる振幅振動の4つの音源に対する4つのプロットにおいて、音響エコー・キャンセル(AEC)のために達成可能なエコー反射損失増幅(ERLE)の結果を示す。
図5b】振幅振動に対するシステム識別のための正規化システム距離を示す。
図5c】時間が横座標で示され、且つ振幅振動の値が縦座標で与えられるプロットを示す。
図6a】拡声器エンクロージャ・マイクロホン・システム(LEMS)を識別するための信号モデルを示す。
図6b図6aに従ってシステムを推定し、且つ複数の拡声器信号を非相関にする方法の信号モデルを示す。
図6c図1及び2において記載されるような、拡声器非相関を用いるMIMOシステム識別の信号モデルを示す。
【発明を実施するための形態】
【0018】
本発明の実施形態が、後に図面を参照して詳細に説明されるであろう前に、同一の要素、オブジェクト及び/若しくは構造、又はその同等の機能又は同等の効果が、異なる実施形態において与えられるこれらの要素の説明が相互に交換可能又は相互に適用可能であるように、異なる図面において同じ参照番号で提供されることが指摘される。
【0019】
図1は、仮想的な複数の音源オブジェクト12a,12b及び/又は12cに基づいて、複数の非相関にされた拡声器信号を生成する装置10を示す。仮想的な音源オブジェクトは、ノイズを放出する複数のオブジェクト、1人又は数人のような人体又は人、楽器、動物、植物、装置又は機械などの如何なるタイプでもあり得る。仮想的な複数の音源オブジェクト12a−cは、1曲を実行する1人のオーケストラのような音響プレイバック・シーンの要素であり得る。オーケストラとともに、仮想的な音源オブジェクトは、例えば、1つの楽器又は複数の楽器の集合であり得る。仮想的な音源オブジェクト12a−cの再生される1つのトーン若しくはノイズ、又は一連のトーン若しくはノイズのモノラル信号のような音源信号に加えて、メタ情報は、仮想的な音源オブジェクトにもまた関連付けられ得る。メタ情報は、例えば、再生システムによって再生される音響プレイバック・シーンの中で、仮想的な音源オブジェクトの位置を含む。模範的に、これは、再生されるオーケストラの中で、楽器それぞれの位置であり得る。代わりに又は加えて、メタ情報は、楽器の音源信号それぞれが演奏される方向に基づく情報のような、仮想的な音源オブジェクトそれぞれの指向性若しくは放出又は放射特性もまた含み得る。オーケストラの楽器が、例えばトランペットである場合、トランペットの音は、好ましくは特定の方向(鈴状のものが向けられる方向)に放出される。代わりに、楽器が例えばギターである場合、ギターは、トランペットと比較してより大きい放出角度で放出する。仮想的な音源オブジェクトのメタ情報は、再生されるプレイバック・シーンにおいて、放出特性及び放出特性の方向性を含み得る。メタ情報は、代わりに又は加えて、再生されるプレイバック・シーンにおいて、仮想的な音源オブジェクトの空間的な拡張もまた含み得る。メタ情報及び音源信号に基づいて、仮想的な音源オブジェクトは、空間において2又は3次元で記載される。
【0020】
再生されるプレイバック・シーンは、例えば、映画のオーディオ部分、すなわち、映画の音効果でもあり得る。再生されるプレイバック・シーンは、例えば、仮想的な音源オブジェクトが、模範的に、プレイバック空間に位置し且つ方向に依存して話している人、又は再生されるプレイバック・シーンの空間において動き、一方で電車又は車のようなノイズを放出するオブジェクトであり得るような、部分的に又は完全に映画シーンとマッチし得る。
【0021】
装置10は、複数の拡声器14a−eを駆動するために、複数の拡声器信号を生成するように構成される。複数の拡声器14a−eは、プレイバック空間16で又はにおいて配置され得る。プレイバック空間16は、例えば、リスナー又は視聴者17が位置するコンサートホール又は映画館であり得る。複数の拡声器14a−eで、複数の拡声器信号を生成又は再生することによって、仮想的な複数の音源オブジェクト12a−cに基づくプレイバック・シーンが、プレイバック空間16において再生され得る。装置10は、1つ又は幾つかの仮想的な音源オブジェクト12a−cのメタ情報を時変的に修正するように構成されるモディファイア18を含む。モディファイア18は、幾つかの仮想的な音源オブジェクト1つ1つ、すなわち、仮想的な音源オブジェクト12a−cそれぞれ、又は幾つかの仮想的な音源オブジェクトのメタ情報を修正するようにもまた構成される。モディファイア18は、例えば、再生されるプレイバック・シーンにおける仮想的な音源オブジェクト12a−cの位置、又は仮想的な音源オブジェクト12a−cの放出特性を修正するように構成される。
【0022】
言い換えると、複数の非相関フィルタを適用することは、複数の拡声器信号がプレイバック空間において結果として生じる複数の音響効果を考慮しないで非相関にされる場合、再生されるシーンにおいて制御不能な変化を引き起こし得るが、一方で装置10は、常態の、すなわち、仮想的な複数の音源オブジェクトの制御される変化を許容する。1つ又は幾つかの仮想的な音源オブジェクト12a−cの位置又は放出特性、すなわち、音源のタイプのようなメタ情報の修正によってレンダーされる、すなわち、再生される音響シーンの時変的な変更、これは、再生システムにアクセスすることによって、すなわち、モディファイア18を配置することによって、許容され得る。修正によって引き起こす複数の効果が、例えば、引き起こす複数の効果が知覚されない又はリスナー17によって乱されているとき知覚されない点において制限され得るように、仮想的な複数の音源オブジェクト12a−cのメタ情報の修正、及びこのように再生される音響プレイバック・シーンが、本質的に、すなわち、システムの中で確認され得る。
【0023】
装置10は、仮想的な複数の音源オブジェクト12a−cの音源信号と、多くの拡声器信号を形成するために修正されるメタ情報とを伝達するように構成されるレンダラー22を含む。レンダラー22は、複数の構成要素生成装置23a−cと、複数の信号構成要素処理装置24a−eを備える。レンダラー22は、波動場が複数の拡声器14a−eによって生成され得るように、且つ仮想的な音源オブジェクト12a−cが再生される音響プレイバック・シーンの中のポジション25で波動場によって表現され得るように、複数の構成要素生成装置23a−cを用いて、複数の信号構成要素を形成するために、仮想的な音源オブジェクト12a−cの音源信号と修正されたメタ情報とを伝達するように構成される。再生される音響プレイバック・シーンは、少なくとも部分的に、プレイバック空間16の中又は外で配置され得る。複数の信号構成要素処理装置24a−eは、複数の拡声器14a−eを駆動するための複数の拡声器信号を形成するために、1つ又は幾つかの仮想的な音源オブジェクトの信号構成要素を処理するように構成される。例えば、10,20,30,50,300又は500以上の多くの拡声器は、再生されるプレイバック・シーン及び/又はプレイバック・シーン16の寸法に例えば依存して、プレイバック・シーン16で又はにおいて配置され又は適用され得る。言い換えると、レンダラーは、複数の拡声器信号を形成するために、1つ又は幾つかの仮想的な音源オブジェクトの入力信号を伝達するマルチ入力(仮想的な複数の音源オブジェクト)マルチ出力(複数の拡声器信号)(MIMO)システムに記載され得る。複数の構成要素生成装置及び/又は複数の信号構成要素処理装置は、代わりに、2つ又は幾つかの分離した構成要素においてもまた配置され得る。
【0024】
代わりに又は加えて、レンダラー22は、まるで、コンサートホールのような自由空間環境において又は環境の異なるタイプにおいてリプレイされるように、再生されるプレイバック・シーンがプレイバック空間16においてリプレイされるように、予等化を実行し得る。すなわち、レンダラー22は、予等化によってのように、完全に又は部分的にプレイバック空間16によって引き起こされる複数の音響信号の歪曲を補償し得る。言い換えると、レンダラー22は、表現されるために、仮想的な音源オブジェクト12a−cに対する複数の拡声器信号を生み出すように構成される。
【0025】
幾つかの仮想的な音源オブジェクト12a−cが、複数の拡声器信号を形成するために伝達される場合、拡声器14a−eは、幾つかの仮想的な音源オブジェクト12a−cに基づく複数の駆動信号を特定の時間で再生し得る。
【0026】
装置10は、複数の拡声器14a−eによって生成される複数の波動場がマイクロホン26a−dによって捕えられ得るように、プレイバック空間16で又はにおいて適用され得る複数のマイクロホン26a−dを含む。装置10のシステム計算機28は、複数のマイクロホン26a−dのマイクロホン信号及び複数の拡声器信号に基づくプレイバック空間16の伝送特性を推定するように構成される。プレイバック空間16の伝送特性、すなわち、どのようにプレイバック空間16が複数の拡声器14a−eによって生成される複数の波動場に影響を及ぼすかの特性は、例えば、置換空間16の背景を変えるような備品の変化によって、又は置換空間16の中の複数の人又は複数のオブジェクトの位置を変えることによって、置換空間16に位置する人の数を変えることによって引き起こされ得る。複数の拡声器14a−eと複数のマイクロホン26a−dとの間の複数の反射経路は、例えば、プレイバック空間16における人又はオブジェクトの数を増やすことによって、ブロック又は生成される。伝送特性の推定は、システム識別としてもまた表現され得る。複数の拡声器信号が相関される場合、ユニークでない問題がシステム識別において起こり得る。
【0027】
レンダラー22は、変更される伝送特性が補償され得、且つオーディオ品質における低下が回避され得るように、プレイバック空間16の時変的な伝送特性に基づく時変的なレンダーリング・システムを実装するように構成され得る。言い換えると、レンダラー22は、プレイバック空間16の適応同等化を許容し得る。代わりに又は加えて、レンダラー22は、例えば非相関フィルタを用いて複数の拡声器信号をフィルタリングすることによって、複数の拡声器信号に減衰を加えるために、及び/又は複数の拡声器信号を遅延させるために、複数のノイズ信号によって生成される複数の拡声器信号を重畳するように構成され得る。非相関フィルタは、例えば、複数の拡声器信号の時変的な位相シフトのために用いられ得る。例えば、仮想的な音源オブジェクト12a−cにおけるメタ情報が、レンダラー22によって生成される複数の拡声器信号がプレイバック・シーンに対して低下されるべき手段によって相関されるように、軽微な程度にのみモディファイア18によって修正される場合、複数の拡声器信号の追加の非相関は、非相関フィルタ及び/又は複数のノイズ信号の追加によって達成され得る。
【0028】
複数の拡声器信号の非相関及び、このように、システムの複数の不安定性を低下又は回避することは、モディファイア18を用いて仮想的な音源オブジェクト12a−cのメタ情報を修正することによって達成され得る。システム識別は、例えば、変更、すなわち、仮想的な複数の音源オブジェクト12a−cの空間的な特性の修正を用いることによって、改善され得る。
【0029】
複数の拡声器信号の変更と比較して、メタ情報の修正が特に行われ得、且つ再生されるプレイバック・シーンのリスナー17が、修正を知覚しない又は乱されていることと同じく知覚しないように、例えば音響心理学的基準に依存してなされ得る。再生されるプレイバック・シーンにおいて仮想的な音源オブジェクト12a−cの位置25のシフトは、複数の非相関フィルタにおいてのような複数のノイズ信号を加えること又は複数の非線形フィルタ演算を適用することが回避され得るように、例えば、変更された複数の拡声器信号、及びこのように複数の拡声器信号の完全な又は部分的な非相関という結果になり得る。例えば、電車が再生されるプレイバック・シーンにおいて表現される場合、それは、電車それぞれが、例えば200,500又は1000mのようなリスナー17に対してより長い距離を伴う空間において、1,2又は5mにシフトされる場合、リスナー17によって、例えば知覚されないままであり得る。
【0030】
例えば[BDV93]において提案されるような、WFSのようなマルチチャンネル再生システム、例えば[Dan03]において提案されるような高次アンビソニックス(HOA)、又は同様の方法は、複数の点音源の形状、複数の双極子音源、腎臓形の放出特性の複数の音源、又は平面波を放出する複数の音源において、仮想的な複数の音源オブジェクトを表現することによって複数の他の物の中で、幾つかの仮想的な音源又は音源オブジェクトを伴う波動場を再生し得る。これら複数の音源が、仮想的な複数の音源オブジェクトの定位置、又は変化しない放出若しくは複数の指向性の特性のような固定された空間的な複数の特性を示す場合、不変の音響プレイバック・シーンは、対応する相関マトリックスが図6において詳細に述べられ議論されるようにフルランク(full−rank)である場合、識別され得る。
【0031】
装置10は、仮想的な複数の音源オブジェクト12a−cのメタ情報を修正することによって、及び/又はプレイバック空間16の時変の伝送特性を考慮するために、複数の拡声器信号の非相関を生成するように構成される。
【0032】
装置は、複数の拡声器信号を非相関にするために、WFS、HOA又は同様の再生モデルために再生される音響プレイバック・シーンの時変的な変更を表現する。このような非相関は、システム識別の問題が決定される最中である場合、役立ち得る。先行技術の解決策とは対照的に、装置10は、WFS又はHOA再生の高品質を達成するために、再生されるプレイバック・シーンの制御される変更を許容する。
【0033】
図2は、複数の拡声器14a−hが配置されるプレイバック空間16の概略的な平面図を示す。装置10は、1つ又は幾つかの仮想的な音源オブジェクト12a及び/又は12bに基づいて、複数の拡声器信号を生み出すように構成される。仮想的な複数の音源オブジェクト12a及び/又は12bのメタ情報の知覚可能な修正は、乱されているようなリスナーによって知覚され得る。例えば、仮想的な音源オブジェクト12a及び/又は12bの位置又はポジションが変更され過ぎる場合、リスナーは、例えば、オーケストラの楽器が空間において動く印象を持ち得る。代わりに、再生されるプレイバック・シーンが映画に属する場合、その結果は、仮想的な音源オブジェクトが、例えば、異なる速度で又は異なる方向に動くような一連のピクチャによって意味されるオブジェクトの光学的な速度と異なる音響的な速度で動く仮想的な音源オブジェクト12a及び/又は12bの音響印象であり得る。知覚可能な印象又は乱されているように知覚される印象は、特定の間隔又は許容誤差の中で、仮想的な音源オブジェクト12a及び/又は12bのメタ情報を変更することによって。減少又は防止され得る。
【0034】
正中面における、すなわち、リスナー17の水平面における空間的なヒアリングは、音響シーンを知覚するために重要であり得るが、一方で、矢状面における、すなわち、中心においてリスナー17の人体を左と右に半分に分割する平面における空間的なヒアリングは、軽微な関連性であり得る。3次元シーンを再生するように構成される再生システムのために、プレイバック・シーンは、3次元においてさらに変更され得る。リスナー17による複数の音響音源を局所化することは、正中面においてよりも矢状面において、より不明確であり得る。2次元の波動場から導出される複数の閾値が、3次元においてレンダーされるシーンの可能な変更に対して非常に保守的でより小さい閾値であるので、2次元(水平面)のためにまた3次元のためにも、後に定義される複数の閾値を保持又は拡張するために考えられる。次の議論は、たくさんの再生システムのための最適化の基準である、正中面における2次元プレイバック・シーンにおいての複数の知覚効果を強調するが、3次元システムにもまた適用して議論される。
【0035】
原則として、複数の波動場の異なるタイプは、例えば、複数の点音源の波動場、複数の平面波、又は複数の双極子のような一般的な複数のマルチ極音源の波動場のように再生され得る。2次元において、すなわち、2次元のみ考慮するとき、点音源又はマルチ極の知覚されるポジションは、方向及び距離によって記載され得るが、一方で、複数の平面波は、1つの入射方向によって記載され得る。リスナー17は、2つの空間的なトリガー刺激、すなわち、複数の両耳間レベル差(ILDs)及び複数の両耳時間差(ITDs)によって、音源の方向を局所化し得る。仮想的な音源オブジェクトそれぞれのメタ情報の修正は、リスナー17に対するILDsそれぞれにおける変化及び/又はITDsそれぞれにおける変化という結果になり得る。
【0036】
音源の距離は、[Bla97]において記載されるように、絶対的なモノラル・レベルによって既に知覚され得る。言い換えると、距離は、音の大きさの変化による音の大きさ及び/又は距離の変化によって知覚され得る。
【0037】
両耳間レベル差は、リスナー17の両耳の間のレベル差を記載する。音源に面する耳は、音源から離れた側に面する耳よりもより高い音圧にさらされ得る。リスナー17が頭を回転させて、両耳まで同じ音圧レベル及び両耳間レベル差にさらされ、且つ両耳間レベル差が僅かに小さい場合、リスナーは音源に面し得、又は代わりに、音源に背を向けて位置し得る。仮想的な音源オブジェクト12a又は12bのメタ情報の修正は、例えば、仮想的な音源オブジェクトは、異なる位置で表現され又は変化する指向性を備えるように、リスナー17の両耳で音圧レベルそれぞれにおける異なる変化という結果になり得、且つこのように、両耳間レベル差における変化において、前記変更がリスナー17に対して知覚可能であり得る。
【0038】
両耳間レベル差は、音源によって放出される波動場がより長い距離で配置される耳に達するために、より長い時間を必要とするように、音源とより短い距離又はより長い距離で配置されるリスナー17の耳との間で異なる実行時間から結果として生じ得る。仮想的な音源オブジェクト12a又は12bのメタ情報の修正は、例えば、仮想的な音源オブジェクトが異なる位置であるために表現されるように、仮想的な音源オブジェクトとリスナー17の2つの耳との間の距離の異なる変更、且つこのように両耳間レベル差の変更という結果になり得、この変更は、リスナー17に対して知覚可能であり得る。
【0039】
ILDの知覚不可能な変更又は乱すことのない変更は、0.6dBと2dBの間であり得、再生されるシナリオに依存する。0.6dBのILDの変化は、約6.6%のILDの減少又は約7.2%の増加に対応する。1dBのILDの変化は、約12%のILDにおける増加率又は11%の減少率に対応する。2dBのILDにおける増加は、約26%のILDにおける増加率に対応し、一方で2dBの減少は、21%の減少率に対応する。ITDのための知覚の閾値は、音響プレイバック・シーンのシナリオそれぞれに依存し得、且つ例えば、10,20,30又は40μsであり得る。僅かにのみ、すなわち、僅かに0.1dB変更されるILDsの範囲において、仮想的な音源オブジェクト12a又は12bのメタ情報を修正する場合、ITDsにおける変化は、ことによると、ILDの変更と比較して、リスナー17によってより早く知覚され得、又は乱されているように知覚され得る。
【0040】
メタ情報の修正は、リスナー17に対する音源の距離が僅かにシフトする場合、僅かにのみILDsに影響を及ぼし得る。ITDsは、より早い知覚可能性及び位置的な変化を伴う線形変化に起因して、再生されるプレイバック・シーンの不可聴な又は乱すことのない変更に対する制限をより強固に表現する。例えば、30μsのITDsが許容される場合、これは、前方、すなわち、視覚32の方向又はリスナー17の前方領域34a,34bに配置される複数の音源に対して最大α1=3°の音源とリスナー17との間の音源距離の最大変更、及び/又は側方向に、すなわち、側面で配置される複数の音源に対して最大α2=10°の変更という結果になり得る。側方向に配置される音源は、前方領域34aと34bの間に延在する側方領域36aと36bのうちの1つに位置し得る。前方領域34aと34bは、例えば、リスナー17の前方領域34aが、視覚32のラインに関して±45°の角度で、且つ前方領域34bがリスナーの後ろに配置され得るように、視覚のラインと反対の±45°で前方領域34bであるように定義され得る。代わりに又は加えて、前方領域34a及び34bは、より小さい又はより大きい角度もまた含み得、又は前方領域34aが例えば前方領域34bよりもより大きい角度領域を含むように、相互に異なる角度領域を含み得る。主に、前方領域34aと34b及び/又は側方領域36a及び36bは、互いに独立して、隣接して又は互いから分離して配置され得る。視覚32の方向は、例えば、リスナー14が座る椅子若しくは肘掛け椅子によって、又はリスナー17がスクリーンを見る方向によって影響を及ぼされ得る。
【0041】
言い換えると、装置10は、仮想的な音源オブジェクト12aのような前方に配置される複数の音源がこれらの方向に最大α1=3°、及び仮想的な音源オブジェクト12bのような最大α2=10°側方向に配置される音源に関して修正されるために、リスナー17の視覚32の方向を考慮して構成され得る。[SHK13]において提案されるようなシステムと比較して、装置10は、音源オブジェクトが仮想的な複数の音源オブジェクト12a,12bと個々に関してシフトされることを可能とし得、一方で[SHK13]において全体として再生されるプレイバック・シーンにのみローテーションされ得る。言い換えると、例えば[SHK13]において記載されるようなシステムは、レンダーされるシーンについての情報を有しないが、しかし、生成される複数の拡声器信号についての情報を考慮する。装置10は、装置10に対して、既知のレンダーされるシーンを変更する。
【0042】
3°又は10°の音源方向を変更することによって再生されるプレイバック・シーンの変更が、リスナー17に対して知覚され得ない場合、乱されているように知覚され得ない再生されるプレイバック・シーンの知覚可能な変化を受け入れることもまた考えられる。最大40μs又は45μsのITDの変化が、例えば、許容され得る。さらに、最大23°の音響シーン全体のローテーションが、例えば、たくさんの又はほとんどのリスナー[SHK13]によって乱されているように知覚され得ない。この閾値は、音響プリバック・シーンが最大28°,30°又は32°シフトされ得るために、複数の音源が知覚される個々の複数の音源又は複数の方向の独立した修正によって、僅かにある程度だけ増加し得る。
【0043】
仮想的な音源オブジェクトのような音響音源の距離38は、ことによると、不明確にのみリスナーによって知覚され得る。複数の実験は、最大25%の距離38の変化が、通常、複数のリスナーによって知覚されない、又は乱されているように知覚されないことを示し、それは、例えば[Bla97]において記載されるように、音源距離のむしろ激しい変化を許容する。
【0044】
再生されるプレイバック・シーンにおける複数の変更の間の期間又は時間間隔は、高いオーディオ品質を確保するために、約5秒、10秒又は15秒のような個々の変更の間の不変な又は可変な時間間隔を示し得る。高いオーディオ品質は、複数のシーン変更又は1つ若しくは幾つかの仮想的な音源オブジェクトのメタ情報の変更の間の例えば約10秒の間隔が複数の拡声器信号の十分に高い非相関を許容するという事実、及び複数の変更又は複数の修正の希少さが知覚可能でない又は乱さないプレイバック・シーンの変更に貢献するという事実によって、例えば、達成され得る。
【0045】
一般的な多重極音源の複数の放出特性の変化又は修正は、影響を及ぼされていないITDsを残し得、一方でILDsは影響を及ぼされ得る。これは、リスナー17によって気付かれないまま、又はILDsがリスナーの位置で閾値(0.6dB〜2dB)それぞれより小さい又は等しい限り、乱されるように知覚されない複数の放出特性の如何なる修正も許容し得る。
【0046】
同じ複数の閾値は、レベルにおけるモノラル変化に対して、すなわち、リスナー17の耳に関して決定され得る。
【0047】
装置10は、同じ又は同様の音源信号を放出する追加の結像された仮想的なオブジェクト12´aによって、元の仮想的な音源オブジェクト12aを重畳するように構成される。言い換えると、モディファイア18は、仮想的な音源オブジェクト(12a)の画像を生み出すように構成される。結像された仮想的な音源12´aは、仮想的な音源オブジェクト12aが元々配置される仮想的なポジションP1で無造作に配置され得る。仮想的なポジションP1は、リスナー17に対して距離38を有する。言い換えると、追加の結像された仮想的な音源12´aは、結像された仮想的な音源12´aが仮想的な音源オブジェクト12であるために、モディファイア18によって生み出される仮想的な音源オブジェクト12aの結像されたバージョンであり得る。言い換えると、仮想的な音源オブジェクト12aは、結像された仮想的な音源オブジェクト12´aを形成するために、モディファイア18によって結像され得る。仮想的な音源オブジェクト12aは、メタ情報の修正によって、例えば、結像された仮想的な音源オブジェクト12´aに対する距離42及びリスナー17に対する距離38´を伴う仮想的なポジションP2へと動かされ得る。代わりに又は加えて、画像12´aのメタ情報を修正するためのモディファイア18が考えられる。
【0048】
領域43は、リスナー17に対して少なくとも距離38の距離を備える結像された仮想的な音源オブジェクト12´aの周りに、距離41を伴う円のサブエリアとして表現され得る。修正される音源オブジェクト12aが領域43の中に配置されるために、結像された仮想的な音源オブジェクト12aとの間の距離38´が、結像された仮想的な音源12´aとの間の距離38よりも長い場合、仮想的な音源オブジェクト12aは、結像された仮想的な音源オブジェクト12´a及び仮想的な音源オブジェクト12を、分離した複数の音響オブジェクトとして知覚することなしに、結像された仮想的な音源オブジェクト12´aの周りで領域43において動かされ得る。領域43は、結像された仮想的な音源オブジェクト12´aの周りで最大5,10又は15mに達し得、且つ距離38に対応する半径R1の円によって制限され得る。
【0049】
代わりに又は加えて、装置10は、[Bla97]において記載されるようなHaas効果としても既知である先行音効果を用いるように構成され得る。Haasによって用いられる観測に従って、音源の、直接の(模範的に反射しない)部分の後、最大50msでリスナー17に到着する音源の音響反射が、元の音源の空間的な知覚にほとんど完全に含まれ得る。これは、2つの相互に分離された音響源が1つとして知覚され得ることを意味する。
【0050】
図3は、複数の非相関にされた拡声器信号を生成するために、装置30において異なる仮想的な複数の音源オブジェクト121−125のメタ情報の修正の模式的な外観を示す。図3及び説明それぞれは、明確な表現のために2次元であるが、全ての実施例は3次元にもまた有効である。
【0051】
仮想的な音源オブジェクト121は、点音源のような空間的に制限された音源である。仮想的な音源オブジェクト121のメタ情報は、例えば、仮想的な音源オブジェクト121が幾つかの間隔ステップを覆う円形の経路で動かされるように、修正され得る。
【0052】
仮想的な音源オブジェクト122は、点音源のような空間的に制限された音源でもある。仮想的な音源オブジェクト122のメタ情報の変更は、例えば、点音源が幾つかの間隔ステップを不規則に覆う制限された領域又は体積において動かされるように、行われ得る。仮想的な複数の音源オブジェクト121及び122の波動場は、仮想的な音源オブジェクト121又は122それぞれのポジションが修正されるために、メタ情報を修正することによって、一般的に修正され得る。原則として、これは、双極子又は腎臓形の放出特性の音源のような制限された空間的な拡張の如何なる仮想的な音源オブジェクトに対して可能である。
【0053】
仮想的な音源オブジェクト123は、平面音源を表現し、且つ活気立った平面波に関して変化され得る。仮想的な音源オブジェクト123の放出角度及び/又はリスナー17への入射角は、メタ情報を修正することによって影響を及ぼされ得る。
【0054】
仮想的な音源オブジェクト124は、複数の円形ラインによって示されるように、方向に依存する放出特性の双極子音源のような制限された空間の拡張の仮想的な音源オブジェクトである。方向に依存する放出特性は、仮想的な音源オブジェクト124のメタ情報を変更又は修正するためにローテーションされ得る。
【0055】
例えば、腎臓形の放出特性の仮想的な音源オブジェクト125のような、方向に依存する仮想的な複数の音源オブジェクトのために、メタ情報は、放出パターンが時点それぞれに依存して修正されるように、修正され得る。仮想的な音源オブジェクト125に対して、これは、腎臓形の放出特性(実線)からハイパー腎臓形の指向特性(破線)への変更によって模範的に表現される。全方向性の仮想的な複数の音源オブジェクト、又は複数の音源に対して、追加の、時変の、方向に依存する指向特性が、追加又は生成され得る。
【0056】
平面波の入射角を変更し、放出特性を変更し、放出特性をローテーションし、又は方向に依存する指向特性を全方向に放出する音源オブジェクトに加える、点音源又は制限された空間的な拡張の音源のような、仮想的な音源オブジェクトのポジションを変更するような異なる方法は、互いに結合され得る。ここで、音源オブジェクトそれぞれに対して修正されるために、選択され又は決定される複数のパラメータは、光学的であり、且つ相互に異なり得る。加えて、空間的な特性の変更のタイプ及び変更の速度は、再生されるプレイバック・シーンの変更がリスナーによって気付かれないままか、又はその知覚に関してリスナーのために受け入れ可能であるかのどちらかのように、選択され得る。加えて、時間的な個々の周波数領域に対する空間的な特性は、異なって変化され得る。
【0057】
続いて、図4を参照して、一方で図5c及び6cもまた参照して、本発明の発見の検証のために、多くの潜在的なステップの1つが記載される。図5cは、時間に亘る仮想的な音源オブジェクトの振動振幅の模範的な経過を示す。図6cにおいて、音響プレイバック・シーンを変更又は修正することによって非相関にされた複数の拡声器信号を生成することの信号モデルが議論される。これは、複数の効果を例示するための試作品である。試作品は、複数の拡声器及び/又は用いられる複数のマイクロホン、次元及び/又は複数の要素間の距離に関して実験的なステップである。
【0058】
図4は、実験的な試作品における複数の拡声器および複数のマイクロホンの概略的な配置を示す。模範的な数NL=48の拡声器が、拡声器システム14Sにおいて配置される。複数の拡声器は、結果が2π/48=7.5°の模範的な角距離であるために、例えば1.5mの半径の円形ラインに等距離で配置される。模範的な数NM=10のマイクロホンが、複数のマイクロホンが互いに36°の角度で示し得るために、例えば0.05mの半径RMの円形ラインにマイクロホン・システム26Sにおいて等距離で配置される。テスト目的のために、ステップは、約0.3秒の反射時間T60を伴う空間(LEMSのエンクロージャ)において配置される。複数のインパルス応答は、44.1kHzの単純な周波数で測定され得、11025Hzの単純な範囲にコンバートされ得、且つAECのための複数の適応フィルタの長さに対応する測定点の長さ1024にカットし得る。LEMSは、LEMSの中でマイクロホン信号(近端ノイズ)又はローカルな複数の音源でノイズなしで得られた複数のインパルス応答を畳み込ませることによって、シュミレーションされる。これらの理想的な実験室の条件は、適応アルゴリズムの合致で提供される方法の影響を他の複数の影響から分離するために選択される。例えば、モデル化された近端ノイズを含む更なる複数の実験が、等価な結果という結果になり得る。
【0059】
信号モデルが図6cにおいて議論される。ここで、非相関にされた複数の拡声器信号x´(k)は、LEMS Hへと入力され、そのとき、非相関にされた複数の拡声器信号x´(k)の観測に基づく伝達関数Hest(n)及び結果として生じる複数のマイクロホン信号d(k)によって識別され得る。複数のエラー信号e(k)が、残留エコーのようなエンクロージャで、複数の拡声器信号の反射を捕らえ得る。AECのために、[SHK13],[BBK03]において提案されるような、指数関数の忘却因子λ=0.95、ステップ寸法μ=0.5(0≦μ≧1で)及びLF=512のフレーム・シフトを伴う周波数領域において生成される適応フィルタ・アルゴリズムが適用され得る。
【0060】
取得されるシステム識別の測定は、正規化された不整合(NMA)と称され、且つ次の計算規則によって計算され得る。
【0061】
【0062】
【0063】
nとkの間の関係は、n=floor(k/LF)によって示され得る。floor(・)は、“floor”演算子又はガウス・ブラケット(Gaussian bracket)であり、すなわち、商が四捨五入される。加えて、取得されるエコー・キャンセルが考慮され得、それは、[SHK13]に対する改善された比較可能性を達成するために、例えばエコー反射損失増幅(ERLE)を用いて記載され得る。
【0064】
ERLEは次のように定義される。
【0065】
【0066】
【0067】
第1の実験において、複数の拡声器信号が、例えば[BDV93]において、αqによって変化する入射角で、同じ時間に、4つの平面波を合成するために提案されるような波動場合成理論に従って、決定される。αqは、複数の音源q=1,2,...,Ns=4に対して、0,π/2,π及び3π/2によって与えられる。結果として生じる時変的な入射角は、次のように記載され得る。
【0068】
【0069】
模範的に図5cにおいて例示されるように、φaは入射角の振動の振幅であり、且つLpは入射角の振動の持続期間(period duration)である。全48個の拡声器が等しい平均パワーで演算され得るために、ホワイト・ノイズの相互に非相関な複数の信号は、複数の音源信号に対して用いられる。
【0070】
駆動する複数の拡声器に対する複数のノイズ信号が実際にはほとんど関連がない得るが、このシナリオはφaの影響の明確且つ簡潔な推定を許容する。例えば、模範的に4つの独立した信号音源(Ns=4)及び48個の拡声器(NL=48)のみが配置又は用いられるという事実を考えて、高い正規化された不整合(NMA)が予想されるべきであるように、オブジェクト及びシステム識別の等価システムが強固に過小決定される。
【0071】
試作品は、先行技術よりも優れたNMAの結果を取得し得、且つこのようにWFS又はHOAの改善された音響再生という結果になり得る。
【0072】
実験の結果は、次のように図5においてグラフで例示される。
【0073】
図5aは、試作品の4つの音源に対するERLEを示す。このように、次が適用される:プロット1:φa=π/48、プロット2:φa=4π/48、プロット3:φa=8π/48、及びプロット4:φa=0。プロット4及び、このように、φa=0に対して、最大約58dBのERLEが達成され得る。
【0074】
図5bは、プロット1〜4において、φaに対して同一の値で達成される正規化された不整合を示す。不整合は、最大約−16dBの値に達し得、[SHK13]において達成される−6dBの値と比較して、LEMSのシステム記載における著しい改善という結果になり得る。
【0075】
図5cは、持続期間LPが読み出され得るために、時間が横座標、且つ縦座標で振幅振動φaの値が与えられるプロットを示す。
【0076】
正規化された不整合に関して最大10dBの[SHK13]と比較される改善は、少なくとも部分的に、[SHK13]において提案されるような試みが、空間的に帯域制限された複数の拡声器信号を用いて演算するという事実によって、説明され得る。自然な音響シーンの空間帯域幅は、(限定的に)提供される複数の拡声器信号及び複数の拡声器のシーンが、完全に、すなわち、如何なる偏差もなしに再生され得ないために、一般に大き過ぎる。人工的な、すなわち、制御される例えばHOAにおいてのような帯域制限を用いて、空間的に帯域制限されたシーンが達成され得る。例えば、WFSにおいてのような代替方法において、発生する複数のエイリアシング効果は、帯域制限されたシーンを取得するために受け入れ可能であり得る。図1及び2において提案されるような装置は、空間的に制限されない又はほとんど帯域制限されない仮想的なプレイバック・シーンを用いて演算し得る。[SHK13]において、複数の拡声器信号において既に生成され又は導入されたWFSの複数のエイリアシング効果は、仮想的な複数の音源オブジェクトの間の複数のエイリアシング効果が持続し得るために、再生されるプレイバック・シーンと単にローテーションされる。図5及び6において、複数の拡声器信号において個々のWFSのエイリアシング関係の部分は、個々の複数の音源オブジェクトのメタ情報を個々に修正することによって、仮想的なプレイバック・シーンのローテーションとともに変化し得る。これは、より強固な非相関という結果になり得る。図5a−cは、システム識別が図5bのプロット3において示されるように、音響シーンの仮想的な音源オブジェクトのより大きいローテーション振幅φaに改善され得ることを示す。NMAの減少は、図5aにおいてプロット1−3がプロット4(非ローテーション振幅)と比較して示すように、減少されるエコー・キャンセルの労力で達成され得る。しかしながら、非相関にされた複数の拡声器信号(φa>0)に対するエコー・キャンセルは、時間を改善されるが、一方でシステム識別は、変更のない複数の拡声器信号(φa=0)に対してなされない。
【0077】
システム識別の異なるタイプは、図6a−cにおいて以下に記載されるだろう。図6aは、ユニークでない問題が発生し得るマルチ入力マルチ出力(MIMO)システムのシステム識別の信号モデルを記載する。図6bは、先行技術に従って、拡声器信号の非相関を伴うMIMOシステム識別の信号モデルを記載する。図6cは、例えば、図1又は図2の装置を用いて達成され得るような、複数の拡声器信号の非相関を伴うMIMOシステム識別の信号モデルを示す。
【0078】
図6aにおいて、LENS Hは、Hest(n)によって決定又は推定される。Hest(n)は、複数の拡声器信号x(k)及び複数のマイクロホン信号d(k)を観測することによって、決定又は推定される。Hest(n)は、例えば、方程式の過小決定されたシステムの潜在的な解決策であり得る。複数の拡声器信号を捕らえる複数のベクトルは、次のように定義される。
【0079】
【0080】
xは、瞬間kで拡声器信号lの複数のサンプルxl(k)を捕らえる個々の複数の構成要素ベクトルxl(k)の長さを記載する。捕えられる複数のマイクロホン信号LDを記載する複数のベクトルは、次のようにチャンネルそれぞれに対して特定の瞬間で記録されるためにもまた定義され得る。
【0081】
【0082】
LEMSは、線形なMIMOフィルタリングによって、このように記載され得、次のように表わされ得る。
【0083】
【0084】
複数のマイクロホン信号の個々の記録は、次式によって取得され得る。
【0085】
【0086】
【0087】
【0088】
【0089】
【0090】
【0091】
複数のインパルス応答gl,q(k)は、模範的に複数のLRサンプルの長さを備え、且つ別々の時間領域においてR(l,q,ω)を表現する。
【0092】
LEMSは、システム推定Hest(n)のエラーe(k)が次式によって決定され得るように識別され得る。
且つ、例えばユークリッド又は幾何学的な基準のような対応する基準に関して最小化される。ユークリッド基準を選択する場合、その結果は、既知のウィーナー・ホップ方程式であり得る。複数のシステム応答に対して複数の有限インパルス応答(FIR)フィルタのみ考慮する場合、ウィーナー・ホップ方程式は、次のようなマトリックス表記法において記述又は表現され得る。
と、
【0093】
xdは、模範的に、拡声器と複数のマイクロホン信号の相関マトリックスである。Hest(n)は、複数の拡声器信号の相関マトリックスRxxがフルランクである場合、ユニークでのみあり得る。Rxxに対して、次のローテーションが取得され得る。
【0094】
【0095】
SSは、模範的に、次式に従う複数の音源信号の相関マトリックスである。
【0096】
【0097】
その結果は、RSSが次元NS(LX+LR−1)xNS(LX+LR−1)を備えるように、LS=LX+LR−1であり得、一方でRxxは、次元NLXxNLXを備える。フルランクであるためにRxxに対して必要な条件は、次の通りである。
【0098】
【0099】
仮想的な複数の音源は、少なくとも非相関にされた複数の信号を運び、且つ異なるポジションに位置する。
【0100】
拡声器の数NLが仮想的な音源の数NSを超える場合、ユニークでない問題が生じ得る。複数のインパルス応答長さNX及びNRの影響は、次の議論において無視されるだろう。
【0101】
ユニークでない問題は、他のものの中で、仮想的な複数の音源の少ない数によって生じ得る複数の拡声器信号の強固な相互関係から、少なくとも部分的に結果として生じ得る。ユニークでない問題の発生は、より高い確実性であり、よりたくさんのチャンネルが、例えば、仮想的な複数の音源オブジェクトの数がLEMSにおいて用いられる拡声器の数よりも少ない場合、再生システムのために用いられる。先行技術のその場しのぎの解決策は、Rxxのランクが増加し又はRxxの条件数が改善されるように、複数の拡声器信号を変更することを目的とする。
【0102】
【0103】
図6cは、図1及び2において記載されたような、拡声器非相関を伴うMIMOシステム識別の信号モデルを示す。ユニークなシステム識別のために必要な前提条件は、次式によって与えられる。
【0104】
【0105】
この条件は、仮想的な複数の音源オブジェクトの物理的な次元又は放出特性のような、実際の空間的な特性に関わりなく適用される。ここで、仮想的な複数の音源オブジェクトそれぞれは、プレイバック空間それぞれにおいて相互に異なるポジションで位置付けられる。しかしながら、仮想的な複数の音源オブジェクトの異なる複数の空間的な特性は、Gにおいて表現され得る異なる複数のインパルス応答を必要とし得る。次式に従う。
【0106】
【0107】
Gは、複数の拡声器信号x(k)の相関特性を決定し、Rxxによって記載される。ユニークでないことに起因して、そこでは、仮想的な複数の音源オブジェクトの空間的な特性に依存する、
に従って、Hest(n)に対する解決策の異なるセットであり得る。この解決策のセットからの全ての解決策が完全な識別Hest(n)=Hを含むので、Rxxに関わりなく、変化するRxxは、[SHK13]において記載されるように、システム識別に対して平均であり得る。
【0108】
仮想的な複数の音源オブジェクトの空間的な特性の変更は、システム識別を改善するために利用され得る。これは、G´(k)によって表現可能な時変なレンダーリング・システムを実装することによってなされ得る。時変なレンダーリング・システムG´(k)は、仮想的な複数の音源オブジェクトのメタ情報、及び、このように仮想的な複数の音源オブジェクトの空間的な特性を修正するために、例えば図1において議論されたようなモディファイア18を含む。レンダーリング・システムは、複数の点音源、複数の双極子音源、複数の平面音源、又は腎臓形の放出特性の複数の音源のような、異なる仮想的な複数の音源オブジェクトの波動場を再生するために、モディファイア18によって修正されるメタ情報に基づくレンダラー22に、複数の拡声器信号を提供する。
【0109】
図6a及び6bにおけるレンダーリング・システムGに関しての記載とは対照的に、図6cのG´(k)は、時間ステップkに依存し、且つ異なる時間ステップkに対して可変であり得る。レンダラー22は、ノイズ又は非相関フィルタを加えることが施され得るように、非相関にされた複数の拡声器信号x´(k)を直接的に生み出す。マトリックスG´(k)は、選択される再生スキームに従って、時間ステップkそれぞれに対して決定され得る。複数の瞬間kは、時間的に相互に異なる。
【0110】
装置に関連して幾つかの局面が記載されたが、これらの局面は、装置のブロック又は要素が理解されるべき、また、対応する方法ステップ又は方法ステップの特徴でもあるべきように、対応する方法の記載を表現することもまた理解されるべきである。同様に、関連して、又は、方法ステップとしてもまた記載されていた複数の局面は、対応するブロックの記載又は対応する装置の詳細若しくは特徴もまた表現する。
【0111】
具体的な実装要求に依存して、本発明の実施形態は、ハードウェア又はソフトウェアのどちらかで実装され得る。実装は、例えばフロッピー・ディスク,DVD,Blu−ray(登録商標)ディスク,CD,ROM,PROM,EPROM,EEPROM,又はFLASHメモリ、ハード・ディスク・ドライブ、又は協働し得若しくは方法それぞれが実行されるであろうようなプログラム可能なコンピュータ・システムと協働し得る、電気的に読み込み可能な制御信号を記憶された異なる磁気的又は光学的な記憶装置のような、デジタル記憶媒体を用いてなされ得る。したがって、デジタル記憶媒体は、コンピュータ読み込み可能であり得る。本発明に従う幾つかの実施形態は、このように、ここで記載される複数の方法のうちの1つが実行されるであろうようなプログラム可能なコンピュータ・システムと協働することが可能な電気的に読み込み可能な制御信号を備えるデータ・キャリアを含む。
【0112】
一般に、本発明の実施形態は、コンピュータ・プログラム製品がコンピュータで動作する場合、複数の方法の1つを実行するために演算されるプログラム・コードを備えるコンピュータ・プログラム製品として実装され得る。プログラム・コードは、例えば、機械読み込み可能なキャリアで記憶され得る。
【0113】
異なる実施形態は、コンピュータ・プログラムが機械読み込み可能なキャリアで記憶される場合、ここで記載された複数の方法のうちの1つを実行するためのコンピュータ・プログラムを備える。
【0114】
言い換えると、本発明の方法の一実施形態は、コンピュータ・プログラムがコンピュータで動作する場合、ここで記載された複数の方法のうちの1つを実行するためのプログラム・コードを備えるコンピュータ・プログラムである。本発明の方法のもう一つの実施形態は、このように、ここで記載される複数の方法のうちの1つを実行するためのコンピュータ・プログラムを記憶されるデータ・キャリア(又はデジタル記憶媒体若しくはコンピュータ読み込み可能な媒体)である。
【0115】
本発明の方法のもう一つの実施形態は、このように、ここで記載された複数の方法のうちの1つを実行するためのコンピュータ・プログラムを表現するデータ・ストリーム又は一連の信号である。データ・ストリーム又は一連の信号は、例えば、データ通信リンクを介して、模範的にインターネットを介して伝達されるように構成され得る。
【0116】
もう一つの実施形態は、ここで記載された複数の方法のうちの1つを実行するために構成又は適応される、例えばコンピュータ又はプログラム可能な論理装置などの処理手段を含む。
【0117】
もう一つの実施形態は、ここで記載された複数の方法のうちの1つを実行するためのコンピュータ・プログラムをインストールされるコンピュータを含む。
【0118】
幾つかの実施形態において、プログラム可能な論理装置(模範的にフィールドプログラム可能なゲート・アレイ、FPGA)は、ここで記載された複数の方法の幾つかの又は全ての機能性を実行するために用いられ得る。幾つかの実施形態において、フィールドプログラム可能なゲート・アレイは、ここで記載された複数の方法のうちの1つを実行するために、マイクロプロセッサと協働し得る。一般に、幾つかの実施形態における複数の方法は、コンピュータ処理装置(CPU)のような普遍的に使用可能なハードウェア、又は例えばASICのような方法に特有のハードウェアであり得る如何なるハードウェア装置によっても実行される。
【0119】
上記で記載された複数の実施形態は、本発明の原理の例示を単に表現する。配置の修正及び変更並びにここで記載された複数の詳細は、他の当業者にとって明らかであろうことが理解されるべきである。したがって、本発明は、次の特許請求の範囲によってのみ制限されるが、しかし、複数の実施形態の記載及び議論を用いてここで提案されていた具体的な詳細によっては制限されないことが意図される。
【0120】
用いられる略語
AEC 音響エコー・キャンセル(acoustic echo cancellation)
FIR 有限インパルス応答(finite impulse response)
HOA 高次アンビソニックス(higher−order ambisonics)
ILD 両耳間レベル差(interaural level difference)
ITD 両耳時間差(interaural time difference)
LEMS 拡声器エンクロージャ・マイクロホン・システム(loudspeaker−enclosure−microphone system)
LRE リスニング・ルーム同等化(listening room equalization)
MIMO マルチ入力マルチ出力(multi−input multi−output)
WFS 波動場合成(wave field synthesis)
図1
図2
図3
図4
図5a
図5b
図5c
図6a
図6b
図6c