(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-04-08
(45)【発行日】2025-04-16
(54)【発明の名称】モード残響のモード選択
(51)【国際特許分類】
G10K 15/08 20060101AFI20250409BHJP
【FI】
G10K15/08
(21)【出願番号】P 2022519418
(86)(22)【出願日】2020-09-24
(86)【国際出願番号】 US2020052369
(87)【国際公開番号】W WO2021061892
(87)【国際公開日】2021-04-01
【審査請求日】2023-09-01
(32)【優先日】2019-09-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】517260766
【氏名又は名称】イーブンタイド・インコーポレイテッド
(74)【代理人】
【識別番号】100099623
【氏名又は名称】奥山 尚一
(74)【代理人】
【識別番号】100125380
【氏名又は名称】中村 綾子
(74)【代理人】
【識別番号】100142996
【氏名又は名称】森本 聡二
(74)【代理人】
【識別番号】100166268
【氏名又は名称】田中 祐
(74)【代理人】
【氏名又は名称】池本 理絵
(74)【代理人】
【氏名又は名称】有原 幸一
(72)【発明者】
【氏名】ハーマン,ウッドロウ,キュー.
(72)【発明者】
【氏名】ヴェデリック,ラッセル
(72)【発明者】
【氏名】カレリゥク,コーレイ
【審査官】齊田 寛史
(56)【参考文献】
【文献】特表2016-502139(JP,A)
【文献】米国特許第9805704(US,B1)
【文献】特開2006-47451(JP,A)
【文献】特開平4-326399(JP,A)
【文献】特開平11-219197(JP,A)
【文献】KERELIUK, C., et al.,"MODAL ANALYSIS OF ROOM IMPULSE RESPONSES USING SUBBAND ESPRIT",PROCEEDINGS OF THE 21ST INTERNATIONAL CONFERENCE ON DIGITAL AUDIO EFFECTS (DAFX-18) [online],2018年12月31日,pp.334-341,[2024年11月12日検索], インターネット<URL:http://dafx2018.web.ua.pt/papers/DAFx2018_paper_56.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G10K 15/08
(57)【特許請求の範囲】
【請求項1】
音響空間のインパルス応答を受信するステップであって、該インパルス応答は該音響空間の複数の振動モードを含むものである受信するステップと、
前記インパルス応答を複数のサブ帯域に分割するステップであって、前記インパルス応答の各サブ帯域は、前記複数のモードの一部分を含むものである分割するステップと、
それぞれのサブ帯域ごとに、パラメトリック推定アルゴリズムを使用して、該サブ帯域に含まれる前記モードの一部分のそれぞれのパラメータを求めるステップと、
前記複数のサブ帯域の前記それぞれのモードを一つのセットに集約するステップと、
前記集約されたモードのセットをモードのサブセットにトランケートするステップと
を含み、
前記セットをモードのサブセットにトランケートするステップは、前記セットに含まれる前記モードのそれぞれについて、所定のマスキング曲線に基づいて前記モードの信号対マスク比(SMR)を求めるステップを含み、前記セットに含まれる前記モードの1つ以上は前記求められたSMRに基づいてトランケートされるものである、オーディオ信号を操作するモード残響効果を生成する方法。
【請求項2】
前記インパルス応答は、複数の不均一のサブ帯域に分割される、請求項1に記載の方法。
【請求項3】
前記インパルス応答を複数のサブ帯域に分割するステップは、前記インパルス応答をフィルタバンクに通すことを含む、請求項1に記載の方法。
【請求項4】
それぞれのサブ帯
域ごとに、該サブ帯
域の前記モードの一部分に含まれるモードの数を推定するステップを更に含み、
前記フィルタバンクは、1つ以上の複素フィルタを含み、各サブ帯域について、通過帯域幅と、該通過帯域幅よりも狭い区画幅とのそれぞれを有し、
前記モードの数は前記通過帯域幅内で推定され、
前記サブ帯
域に含まれる前記それぞれのモードのパラメータを求めるステップは前記区画幅内の前記モードについてのみ行われる、請求項3に記載の方法。
【請求項5】
それぞれのサブ帯域ごとに、該サブ帯域の前記モードの一部分に含まれるモードの数を推定するステップを更に含む、請求項1に記載の方法。
【請求項6】
各サブ帯域について、該サブ帯域に適用される前記パラメトリック推定アルゴリズムのモデルの次数は、該サブ帯域の前記モードの一部分に含まれる前記推定されたモードの数に基づいている、請求項5に記載の方法。
【請求項7】
前記サブ帯域の前記モードの一部分に含まれるモードの数を推定するステップは、
前記サブ帯域のピーク選択閾値を求めるステップと、
前記ピーク選択閾値よりも大きな前記サブ帯域内で検出されるピークの数を求めるステップと
を含み、
前記推定されるモードの数は前記求められたピークの数に基づいている、請求項5に記載の方法。
【請求項8】
前記サブ帯域は、前記インパルス応答の離散フーリエ変換(DFT)から導出され、前記サブ帯域のピーク選択閾値を求めるステップは、
前記サブ帯域の最大ピーク振幅を検出するステップと、
前記サブ帯域の最小ピーク振幅を検出するステップと
を含み、
前記ピーク選択閾値は前記最大ピーク振幅及び前記最小ピーク振幅に少なくとも部分に基づいて求められる、請求項7に記載の方法。
【請求項9】
前記ピーク選択閾値は、t = M
max - a(M
max - M
min)に基づいて求められ、M
maxは前記最大ピーク振幅であり、M
minは前記最小ピーク振幅であり、aは0と1との間の所定の値である、請求項8に記載の方法。
【請求項10】
それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、前記パラメトリック推定アルゴリズムが適用される各サブ帯域について、該サブ帯域に含まれる前記モードの一部分の周波数、減衰時間、初期振幅又は初期位相のうちの1つ以上を求めることを含む、請求項1に記載の方法。
【請求項11】
それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、該サブ帯域に含まれる各モードの複素振幅を推定することを更に含む、請求項10に記載の方法。
【請求項12】
前記サブ帯域は、離散フーリエ変換(DFT)から導出され、前記サブ帯
域に含まれる各モードについて、前記複素振幅を推定することは、前記サブ帯
域の前記推定された複素振幅のそれぞれの近似誤差を最小化することを含む、請求項11に記載の方法。
【請求項13】
前記近似誤差は、対応するスペクトルフィルタの通過帯域内に含まれる前記サブ帯
域のモードについてのみ最小化され、異なるスペクトルフィルタが、前記サブ帯
域のそれぞれに対応し、前記異なるスペクトルフィルタは
、可聴スペクトルをカバーし、重複しないものである、請求項12に記載の方法。
【請求項14】
前記パラメトリック推定アルゴリズムはESPRITアルゴリズムである、請求項1に記載の方法。
【請求項15】
それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、該サブ帯域のピーク選択閾値を求めるステップを含み、前記パラメータは、前記モードの一部分に含まれ且つ前記ピーク選択閾値よりも大きな振幅を有する前記モードについて求められる、請求項1に記載の方法。
【請求項16】
前記セットをモードのサブセットにトランケートするステップは、
前記セットに含まれるモードの数以下であるモードの総数を示す入力を受信することと、
前記セットを、前記モードの総数に等しい数のモードを有するモードのサブセットにトランケートすることと
を更に含む、請求項1に記載の方法。
【請求項17】
前記セットをモードのサブセットにトランケートするステップは、各モードの前記SMRに従って前記セットに含まれる前記モードをソートすることを更に含み、前記サブセットに含まれる各モードは、前記サブセットから除外される各モードの前記SMRよりも大きなSMRを有するものである、請求項16に記載の方法。
【請求項18】
前記所定のマスキング曲線は心理音響モデルに基づいている、請求項1に記載の方法。
【請求項19】
インパルス応答を記憶するメモリと、
1つ以上のプロセッサであって、音響空間の複数の振動モードを含むインパルス応答を受信することと、前記インパルス応答を複数のサブ帯域に分割することであって、前記インパルス応答の各サブ帯域は前記複数のモードの一部分を含むものである分割することと、それぞれのサブ帯域ごとに、該サブ帯域の前記モードの一部分に含まれるモードの数を推定することと、それぞれのサブ帯域ごとに、パラメトリック推定アルゴリズムを使用して、該サブ帯
域に含まれる前記モードの一部分のそれぞれのパラメータを求めることと、前記複数のサブ帯域の前記それぞれのモードを一つのセットに集約することと、前記セットに含まれる前記モードのそれぞれについて、所定のマスキング曲線に基づいて該モードの信号対マスク比(SMR)を求めることと、前記集約されたモードのセットをモードのサブセットにトランケートすることであって、前記セットに含まれる前記モードの1つ以上は前記求められたSMRに基づいてトランケートされることとを行うように構成されている、1つ以上のプロセッサと
を備える、オーディオ信号を操作するモード残響効果を生成するシステム。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2019年9月27日に出願された米国特許出願第16/585,018号の継続出願であり、その開示内容は引用することにより本明細書の一部をなすものとする。
【背景技術】
【0002】
オーディオ技術者、音楽家、更には一般大衆(「ユーザ」と総称する)にとって、オーディオ信号の生成及び操作は手慣れたものとなっている。例えば、オーディオ技術者は、モノラルのオーディオ信号をステレオフィールド内に位置決めするパン(pan)及びゲイン(gain)等の効果を使用してモノラルのオーディオ信号を互いにミキシングすることにより、ステレオ信号を編集する。ユーザは、効果を得るために、マルチバンド処理用のクロスオーバネットワーク等のマルチバンド構造(multiband structure)を使用した処理を行って、オーディオ信号の個々の成分に対しても操作を行う。加えて、音楽家及びオーディオ技術者は、圧縮、歪み、遅延、反響(reverberation)等のオーディオ効果を定期的に使用して、音響的に快い音、及び場合によっては不快な音を作成する。オーディオ信号操作は、通常、専門化したソフトウェア又はハードウェアを使用して行われる。オーディオ信号を操作するのに使用されるハードウェア及びソフトウェアのタイプは、一般にユーザの意図に依存する。ユーザは、オーディオ信号を作成及び操作する新たな方法を絶えず探している。
【0003】
残響(リバーブ、reverb)は、ユーザがオーディオ信号に適用する最も一般的な効果のうちの1つである。残響効果は、特定の部屋又は音響空間の反響をシミュレーションし、したがって、オーディオ信号は、特定のインパルス応答を有する部屋において記録されたかのように響く。
【0004】
残響をオーディオ信号に適用する1つの方法は、畳み込みと呼ばれる技法を使用することである。畳み込み残響は、所与の音響空間のインパルス応答をオーディオ信号に適用し、その結果、オーディオ信号は、その所与の空間において生成されたかのように響く。しかしながら、畳み込み残響のパラメータを操作する技法は、比較的制限されている。例えば、畳み込み残響を使用すると、オーディオ信号内の単一の周波数の共鳴音を分離及び操作することが可能でない場合がある。加えて、畳み込み残響を使用すると、シミュレーションされた物理空間の単一の特性(例えば、空間の長さ、空間の幅)を調整又は操作することも可能でない場合がある。
【0005】
残響をオーディオ信号に適用する代替方法は、モード残響(modal reverb)と呼ばれる技法を使用することである。畳み込み残響と異なり、モード残響は、所与の空間のインパルス応答を解析し、この解析に基づいて所与の空間における振動モードを特定し、次に、空間の個々の振動モードを合成する。その結果、残響の個々の周波数を分離して編集することができ、モード残響のパラメータを操作する技法は、畳み込み残響技法のパラメータを操作する技法よりもロバストである。
【0006】
現在知られているモード残響技法(modal reverb technique)の1つの欠点は、必要とされる処理の程度である。反響するオーディオ信号(reverberant audio signal)は、多くの場合に数万個の振動モードからなり、モード残響技法は、オーディオ信号に適用されている残響を適切に復元するためにこれらのモードのそれぞれを特定して処理しなければならない。しかし、プロセッサに大きな負担をかけることなく処理することができるのは、通常、約3000モード~約5000モードだけである。必要とされる処理の量は、オーディオ信号からモードを廃棄することによって削減することができるが、これは、オーディオ信号の品質を低下させるという好ましくない効果を有する。
【0007】
モード残響技法のもう1つの欠点は、音響空間(acoustic space)内のモードの全てを特定することが困難であるということである。前述の技法は、モードの全てを適切に特定するほど十分高い分解能を提供していない。例えば、いくつかの例示のモード残響技法では、モード残響のパラメータは、最初に、離散フーリエ変換(DFT:Discrete Fourier Transform)を使用して音響空間内のオーディオ信号のインパルス応答を周波数領域に変換し、次に、変換された信号のピークをその部屋のモードとして特定することによって導出することができる。しかしながら、DFTベースのモード特定の分解能は低い。分解能が低い結果、シミュレーションされる物理空間は、近似しかすることができず、容易にスケーリングすることができない。全体的に、DFTベースのモード残響技法は、オーディオ信号の或る可操作性を提供することができるが、劣化した品質、及び不正確なスケーラビリティを有する。
【発明の概要】
【発明が解決しようとする課題】
【0008】
本開示は、空間のインパルス応答(IR:impulse response)の記録の解析を通じて音響空間のモードの高分解能推定値を提供するアルゴリズムを導入することによって既知の畳み込み残響技法を改良する。
【課題を解決するための手段】
【0009】
このアルゴリズムは、記録を複数のサブ帯域に分割し、次に、ESPRIT等のパラメトリック推定アルゴリズムを使用して各モードの周波数及び減衰パラメータを個別に推定することによってこれを行う。ESPRITアルゴリズムによって行われる特異値分解(SVD:singular value decomposition)計算は、モードの数に対してほぼ3乗に比例する。これによって、ESPRITアルゴリズムは、標準的な音響空間のインパルス応答の記録に存在する多くのモードの数について扱いにくいものとなる。しかし、空間のモードが、個別のサブ帯域に分割されたIRによって表される場合には、ESPRITアルゴリズムを各サブ帯域に個別に適用することができ、したがって、アルゴリズムに通常必要とされる処理を削減することができる。ESPRITによって推定されるモードパラメータは、従来のDFTベースの技法よりも高い分解能を達成する。これによって、ユーザは、例えば、IR記録において一般に起こる周波数の重複した空間のモードを弁別する(discriminate)ことが可能になる。
【0010】
同技法は、インパルス応答以外の記録を用いて実施することもできる。例えば、ドラム音のオーディオ記録も複数のモードとして解析することができ、そのような記録をサブ帯域にそのように分割することは、ESPRITアルゴリズムを解析において適用することを同様に可能にするとともに、従来のDFTベースの技法よりも高い分解能でモードパラメータに基づいて記録を変更することを可能にする。
【0011】
上述の技法は、更に改良することができる。例えば、モードがサブ帯域間でほぼ均等に分割されるように、サブ帯域を不均一に更に分割することができる。第一に、これは、上述した理由から、必要とされる処理を削減するという利点を有する。加えて、不均一な分割は、アルゴリズムの分解能を改善することができる。例えば、空間のIRは、周波数スペクトルの或る部分には相対的に高密度のモードを有し、周波数スペクトルの別の部分には相対的に低密度のモードを有する場合がある。高密度のモードを有するオーディオスペクトルの部分に相対的に狭いサブ帯域を選択することによって、サブ帯域内のモードに適用されるアルゴリズムの分解能を改善することができる。同様に、低密度のモードを有するスペクトルの部分は、より低い分解能を許容することができ、したがって、アルゴリズムを適用するのに、より広いサブ帯域を選ぶことができる。
【0012】
本開示の1つの態様は、オーディオ信号を操作するモード残響効果(modal reverb effect)を生成する方法を提供する。前記方法は、音響空間のインパルス応答を受信するステップであって、該インパルス応答は該音響空間の複数の振動モードを含むものである受信するステップと、前記インパルス応答を複数のサブ帯域に分割するステップであって、前記インパルス応答の各サブ帯域は、前記複数のモードの一部分を含むものである分割するステップと、それぞれのサブ帯域ごとに、パラメトリック推定アルゴリズムを使用して、該サブ帯域に含まれる前記モードの一部分のそれぞれのパラメータを求めるステップと、前記複数のサブ帯域の前記それぞれのモードをセットに集約するステップと、前記集約されたモードの一つのセットをモードのサブセットにトランケートする(truncate)ステップとを伴うことができる。前記方法は、前記生成されたモード残響効果に基づいて前記オーディオ信号を操作するステップを更に伴うことができる。
【0013】
いくつかの例では、音響空間のインパルス応答を受信する代わりに、オーディオ信号を受信することができる。オーディオ信号は、それ自体が複数の振動モードを含むことができる。したがって、前記方法の残りのステップをオーディオ信号に適用することができ、それによって、オーディオ信号のモードをトランケートして結果を得ることができるように、オーディオ信号のサブ帯域への分割、パラメトリックアルゴリズムを使用した解析等を行うことができ、それによって、変更されたオーディオ信号が生成される。このように、本開示は、「インパルス応答」の解析の例を提供するが、当業者であれば、同じタイプの解析及び原理を他のオーディオ信号に適用することができること、並びに、本明細書における例は、オーディオ信号にも同様に適用可能であると理解及び予想されることを認識するであろう。
【0014】
いくつかの例では、前記インパルス応答は、複数の不均一のサブ帯域に分割することができる。前記インパルス応答を複数のサブ帯域に分割することは、前記インパルス応答をフィルタバンク(filter bank)に通すことを伴うことができる。それぞれのサブ帯域信号ごとに、該サブ帯域信号の前記モードの一部分に含まれるモードの数を推定することができる。前記フィルタバンクは、1つ以上の複素フィルタを含むことができ、サブ帯域ごとに、通過帯域幅と、該通過帯域幅よりも狭い区画(partition)幅とのそれぞれを有することができる。前記モードの数は、前記通過帯域幅内で推定することができる。前記サブ帯域信号に含まれる前記それぞれのモードのパラメータを求めることは、前記区画幅内の前記モードについてのみ行うことができる。
【0015】
いくつかの例では、前記方法は、それぞれのサブ帯域ごとに、該サブ帯域の前記モードの一部分に含まれるモードの数を推定することを更に伴うことができる。
【0016】
いくつかの例では、該サブ帯域に適用される前記パラメトリック推定アルゴリズムのモデルの次数は、該サブ帯域の前記モードの一部分に含まれる前記推定されたモードの数に基づくことができる。
【0017】
いくつかの例では、前記サブ帯域の前記モードの一部分に含まれるモードの数を推定するステップは、前記サブ帯域のピーク選択閾値を求めるステップと、前記ピーク選択閾値よりも大きな前記サブ帯域内で検出されるピークの数を求めるステップとを伴うことができる。前記推定されるモードの数は、前記求められたピークの数に基づくことができる。
【0018】
いくつかの例では、前記サブ帯域は、前記インパルス応答の離散フーリエ変換(DFT:Discrete Fourier Transform)から導出することができ、前記サブ帯域のピーク選択閾値を求めるステップは、前記サブ帯域の最大ピーク振幅を検出することと、前記サブ帯域の最小ピーク振幅を検出することとを伴うことができる。前記ピーク選択閾値は、前記最大ピーク振幅及び前記最小ピーク振幅に少なくとも部分に基づいて求めることができる。
【0019】
いくつかの例では、前記ピーク選択閾値は、t = Mmax - a(Mmax - Mmin)に基づいて求めることができ、Mmaxは前記最大ピーク振幅とすることができ、Mminは前記最小ピーク振幅とすることができ、aは0と1との間の所定の値とすることができる。
【0020】
いくつかの例では、それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、前記パラメトリック推定アルゴリズムが適用される各サブ帯域について、該サブ帯域に含まれる前記モードの一部分の周波数、減衰時間(decay time)、初期振幅又は初期位相のうちの1つ以上を求めることを伴うことができる。
【0021】
いくつかの例では、それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、該サブ帯域に含まれる各モードの複素振幅を推定するステップを更に伴うことができる。
【0022】
いくつかの例では、前記サブ帯域は、離散フーリエ変換(DFT)から導出することができ、前記サブ帯域信号に含まれる各モードについて、前記複素振幅を推定するステップは、前記サブ帯域信号の前記推定された複素振幅のそれぞれの近似誤差を最小化することを伴うことができる。
【0023】
いくつかの例では、前記近似誤差は、対応するスペクトルフィルタの通過帯域内に含まれる前記サブ帯域信号のモードについてのみ最小化することができる。異なるスペクトルフィルタが前記サブ帯域信号のそれぞれに対応することができ、前記異なるスペクトルフィルタは、重複することなく前記可聴スペクトルをカバーすることができる。
【0024】
いくつかの例では、前記パラメトリック推定アルゴリズムはESPRITアルゴリズムとすることができる。
【0025】
いくつかの例では、それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、該サブ帯域のピーク選択閾値を求めることを伴うことができ、前記パラメータは、前記モードの一部分に含まれ且つ前記ピーク選択閾値よりも大きな振幅を有することができる前記モードについて求めることができる。
【0026】
いくつかの例では、前記セットをモードのサブセットにトランケートするステップは、前記セットに含まれる前記モードのそれぞれについて、所定のマスキング曲線に基づいて前記モードの信号対マスク比(SMR)を求めることを伴うことができる。前記セットに含まれる前記モードの1つ以上は、前記求められたSMRに基づいてトランケートすることができる。
【0027】
いくつかの例では、前記セットをモードのサブセットにトランケートするステップは、モードの総数を示す入力を受信することであって、該モードの総数は、前記セットに含まれるモードの数以下であることと、前記セットを、前記モードの総数に等しい数のモードを有するモードのサブセットにトランケートすることとを更に伴うことができる。
【0028】
いくつかの例では、前記セットをモードのサブセットにトランケートするステップは、各モードの前記SMRに従って前記セットに含まれる前記モードをソートすることを更に伴うことができる。前記サブセットに含まれる各モードは、前記サブセットから除外される各モードの前記SMRよりも大きなSMRを有することができる。
【0029】
いくつかの例では、前記所定のマスキング曲線は心理音響モデルに基づくことができる。
【0030】
本開示の別の態様は、オーディオ信号を操作するモード残響効果を生成するシステムを提供する。前記システムは、インパルス応答を記憶するメモリと、1つ以上のプロセッサとを備えることができる。前記1つ以上のプロセッサは、音響空間のインパルス応答を受信することであって、該インパルス応答は該音響空間の複数の振動モード(modes of vibration)を含むものである受信することと、前記インパルス応答を複数のサブ帯域に分割することであって、前記インパルス応答の各サブ帯域は、前記複数のモードの一部分を含むものである分割することと、それぞれのサブ帯域ごとに、該サブ帯域の前記モードの一部分に含まれるモードの数を推定することと、パラメトリック推定アルゴリズムを使用して、該サブ帯域に含まれる前記モードの一部分のそれぞれのパラメータを求めることと、前記複数のサブ帯域の前記それぞれのモードをセットに集約することと、前記集約されたモードのセットをモードのサブセットにトランケートすることとを行うように構成することができる。
【0031】
本発明の上記態様、特徴及び利点は、例示的な実施形態の以下の説明及び添付図面を参照して検討すると更に理解される。添付図面において、同様の参照符号は同様の要素を表している。図面に示された本発明の実施形態の説明では、明瞭にするために特定の術語が使用される場合がある。しかしながら、本発明の態様は、使用される特定の用語に限定されることを意図していない。
【図面の簡単な説明】
【0032】
【
図1】本開示の一態様による一例示のシステムのブロック図である。
【
図2】本開示の一態様による一例示の方法のフロー図である。
【
図3】
図2に示す方法の一例示のサブルーチンのフロー図である。
【
図4】本開示の一態様によるフィルタバンク(filterbank)を表す図である。
【
図5】
図2に示す方法の別の例示のサブルーチンのフロー図である。
【発明を実施するための形態】
【0033】
図1は、本出願において説明されるモード残響(modal reverb)技法及びモード選択(mode selection)技法を実行する一例示のシステム100を示している。システム100は、一つのセット(a set)の命令又は実行可能プログラムを実行するように構成される1つ以上の処理デバイス110を含むことができる。プロセッサは、汎用CPU、又は特定用途向け集積回路(「ASIC」:application specific integrated circuit)等の専用の構成要素とすることもできるし、他のハードウェアベースのプロセッサとすることもできる。必須ではないが、特定の計算プロセスをより高速且つより効率的に実行する特殊化されたハードウェア構成要素を含めることができる。例えば、本開示の動作は、並列処理能力を備えた複数のコアを有するコンピュータアーキテクチャ上で並列に行うことができる。
【0034】
様々な命令が、
図2、
図3及び
図5のフロー図に関してより詳細に説明される。システムは、1つ以上のプロセッサ110によって実行される命令130及びプログラムを記憶する1つ以上の記憶デバイス又はメモリ120を更に含むことができる。加えて、メモリ120は、1つ以上のIR142、及びIRから特定される1つ以上のモード144等のデータ140を記憶するように構成することができる。例えば、IR142は、残響効果をオーディオ信号に適用したいユーザが選ぶことができる。残響効果は、選択されたIRのモード144(例えば、オーディオ信号が部屋内で再生されるとき、IRを生成するその部屋の複数のモード)を特定して合成することによって適用することができる。データは、空間の複数のモードに関する情報を更に含むことができる。簡単にするために、これらのモードは、本明細書では「IRのモード」ともいう。以下で説明するように、モードに関する情報は、命令130に含まれるアルゴリズムを使用して推定することができる。
【0035】
システム100は、データの入力及び出力用のインタフェース150を更に含むことができる。例えば、所与の音響空間のIRを、インタフェース150を介してシステムに入力することができ、選択された数のモード又は対応する指数関数的減衰シヌソイド(EDS:exponentially damped sinusoid)及びそれらのパラメータを、インタフェース150を介して出力することができる。代わりに又は加えて、1つ以上のプロセッサは、残響操作を実行可能なものとすることができ、その場合に、ユーザは、インタフェース150を介して所望の残響パラメータを入力することができ、これらの残響パラメータに基づいて変更されたオーディオ信号を生成し、インタフェース150を介して出力することができる。インタフェース150を介して他のパラメータ及び命令をシステムに及びシステムから提供することができる。例えば、IRにおいて特定されるモードの数は、ユーザによって入力される変数とすることができる。これは、ユーザの好みに応じて残響動作の処理速度を変えるのに使用することができる。所望のモードの数を事前に設定してメモリ140に記憶することもできるし、ユーザがインタフェース150を介して入力することもできるし、その双方とすることもできる。
【0036】
いくつかの例では、システム100は、ユーザのパーソナルコンピュータ、ラップトップ、タブレット、又は他のコンピューティングデバイスを含むことができ、その内部には、プロセッサ及びメモリの双方が収容される。システムによって実行される動作は、
図2、
図3及び
図5のルーチンに関してより詳細に説明される。
【0037】
図2は、一例示のルーチン200を示すフロー図である。
【0038】
ブロック210において、システムは、所与の空間のIRを受信する。この空間は、実空間とすることもできるし(それによって、IRは、実空間において再生されるインパルスに応答した記録とすることができる)、シミュレーションされた空間又は仮想空間とすることもできる。IRは、IRによってシミュレーションされた空間のそれぞれの振動モードに分解することができ、これらのモードは、分離して個々に変更することができる。通常のIRは、約10000個のモードよりも多くのモードを含むことができる。
【0039】
ブロック220において、システムは、IRを複数のサブ帯域に分割することができる。例えば、IRのモードは、一般的には可聴周波数の範囲(通常は約20Hz~約20kHzであると考えられる)における広帯域の周波数にわたる様々な周波数を中心とすることができる。この帯域は、複数のサブ帯域に分解することができ、各サブ帯域は、IRの全帯域よりも小さな帯域幅を有する。いくつかの例では、サブ帯域は、重複しないように選ぶこともできるし、IRの全帯域内の周波数の全てが考慮されるように選ぶこともできるし、その双方となるように選ぶこともできる。双方の考慮すべき事項が満たされる場合に、サブ帯域の帯域幅の合計は、完全なIRの帯域幅と等しくなることができる。
【0040】
いくつかの例では、サブ帯域は、対数スケール又は非対数スケールのいずれかにおいて均一の帯域幅を有するように選ぶことができる。例えば、IRが3つのサブ帯域に分解される場合に、各サブ帯域は、等しい帯域幅を有することができる。他の例では、IRは、異なる要因に基づいてサブ帯域に分割することができ、これは、サブ帯域の帯域幅の不均一性をもたらす場合がある。例えば、サブ帯域分割は、完全なIRのモードをほぼ均等に分割するように構成することができる。
【0041】
いくつかの例では、完全なIRを分割することは、最初に、1つ以上のフィルタバンク(filterbank)を使用して完全なIRをダウンサンプリングすることを伴うことができる。フィルタバンクは、IRのいくつかの部分を通過させるように構成することができ、それによって、IRを異なるサブ帯域にフィルタリングすることができる。
【0042】
加えて、いくつかの例では、ダウンサンプリングは、1つ以上の複素フィルタを使用して行うことができる。複素フィルタは、IRの正の周波数スペクトルのみを保持することができ、それによって、フィルタリングされたIRの不要な部分を後の処理動作から省略することができる。
【0043】
ブロック230において、各サブ帯域におけるモードの数が推定される。推定されたモードの数は、サブ帯域が均等に分割されたか否かを知らせることができる。加えて、又は代わりに、推定されたモードの数は、ルーチンの後の動作の所望の分解能を知らせることができる。
【0044】
所与のサブ帯域におけるモードの数を推定する一例示のサブルーチン300は、
図3のフロー図に示されている。
【0045】
ブロック310において、サブ帯域のピーク選択閾値を求めることができる。いくつかの例では、ピーク選択閾値は、最低可聴音量を表す振幅値等の固定値とすることができる。サンプリングされた周波数におけるサブ帯域の振幅値を(例えば、フーリエ変換方法を使用して)求めることができ、次に、ピーク選択閾値と比較することができ、それによって、ピーク選択閾値以上の値のみがIRのモードであると判断される。
【0046】
いくつかの例では、ピーク選択閾値は、サブ帯域自体の特性に基づいて求めることができる。例えば、ブロック312において、サブ帯域は、離散フーリエ変換(DFT)を使用して周波数領域において導出することができる。次に、ブロック314において、サブ帯域のDFTの最大ピーク振幅を求めることができ、ブロック316において、サブ帯域のDFTの最小ピーク振幅を求めることができる。ブロック318において、ピーク選択閾値が、最大ピーク及び最小ピークに基づいて設定される。例えば、式:t = Mmax - a(Mmax - Mmin)を使用して、ピーク選択閾値tを設定することができる。ここで、Mmaxは最大ピーク振幅であり、Mminは最小ピーク振幅であり、aは0と1との間の所定の値である。aの所定の値は0.25とすることができる。
【0047】
ブロック320において、ピーク選択閾値値よりも大きな振幅を有するサブ帯域内で検出されたピークの数がカウントされる。DFTにおける残りのピークは、重要でないもの又は可聴でないものとして無視される。カウントされたピークの数は、サブ帯域における推定されたモードの数に対応する。言い換えれば、カウントされた各ピークは、サブ帯域において特定及びカウントされ、更なる処理ステップにおいて使用されるモードの中心周波数を表す。残りのモードは、カウントされず、更なる処理ステップから省略される。
【0048】
ブロック330において、検出されたピークの数に基づいて完全なIRをサブ帯域に分割することができる。これは、不均一のサブ帯域をもたらす場合がある。この結果を達成するために、オーディオFFTフィルタバンクを使用することができる。各サブ帯域は、因果的(causal)Nタップ有限インパルス応答(FIR)フィルタh
r[n]:
【数1】
を用いてIRをフィルタリングすることによって生成することができる。
【0049】
ここで、
【数2】
であり、a
mは複素振幅であり、z
mはM個のモードのうちのm番目の複素モードであり、a
mrはスケーリングファクタを伴う複素振幅である。信号の最初のN-1個のサンプルは、指数関数的減衰(damping)シヌソイド(sinusoid:正弦曲線)の挙動を示さない開始時の過渡現象を表し、その後に、サンプルは、そのような挙動に従い始める。フィルタは、阻止帯域に中心周波数を有するモードを効果的に排除する。
【0050】
当該技術において知られているウィンドウイング法(windowing method)は、IIRフィルタをトランケートすることによってFIRフィルタを設計することを可能にする。トランケートの動作は、(IIRフィルタと比較して)FIRの帯域幅を拡張する。これによって、その結果、
図4に示すように、サブ帯域フィルタは、周波数が重複する。各FIRフィルタの帯域幅は、その区画にわたって一定であり、その区画の端部に近づくにつれてロールオフし始める。これは、区画の外部のモードが減衰され、それらのモードの推定が困難になることを意味する。任意の所与のサブ帯域について、そのサブ帯域の通過帯域内にあるが区画の外部にあるモードは、不可避的に推定されることになる。しかしながら、それらのモードは、近傍の通過帯域の区画内に必然的に含まれるので、適切にプルーニング(pruned)又は無視することができ、したがって、より確実に推定を行うことができる。
【0051】
ウィンドウイング法を使用して設計されるフィルタバンクの1つの例では、最初に、R個のブリックウォールフィルタ(brickwall filter)を、これらのR個のフィルタの全ての周波数応答H
rの合計が1になるように選ぶことができる。R個のフィルタの逆DTFTを行ったものは、
【数3】
を示す。ここで、h
rは、R個のフィルタの中のr番目のフィルタのインパルス応答である。フィルタはブリックウォールフィルタであるので、インパルス応答はIIRフィルタである。次に、短いウィンドウとの乗算を介して各チャネルのインパルス応答をトランケートすることができ、したがって、FIRフィルタが作成される。例えば、各サブ帯域IRチャネルがw[n]h
r[n]になるようにNタップウィンドウw[n]を使用することができる。w[0]が1に正規化される限り、このフィルタのセットは、次の式:
【数4】
から分かるように、R個のフィルタの完全な復元(δ[n])を引き続き与えることができる。
【0052】
w[n]による時間領域乗算によって、周波数領域における理想的なチャネルフィルタとウィンドウとの間の畳み込みが行われる。この結果、フィルタの周波数領域の拡散がもたらされ、フィルタ応答は、周波数が互いに重複する。この結果、
図4に示すものと同様のフィルタバンクが得られる。
【0053】
図4は、所与の通過帯域幅(passband width)を有する通過帯域(passband)410を有するフィルタバンクのサブ帯域を示している。通過帯域幅は、(上記でより詳細に説明した)サブ帯域に含まれるモードの数を推定するのに使用することができる。通過帯域は、所与の区画幅を有する区画420も有することができる。区画は、区画幅の外部に中心周波数を有するモードをサブ帯域から省くのに使用することができる。各区画領域は、対応するr番目のブリックウォールフィルタの元の境界に及ぶことが認識されるべきである。
【0054】
図4の例では、チェビシェフウィンドウ(Chebychev window)を使用して特定のフィルタバンクが設計されている。しかしながら、当該技術において知られている他のウィンドウイング技法を使用して、本開示による他の使用可能なフィルタバンクを作成することができる。
【0055】
図2に戻って、ブロック240において、パラメトリック推定アルゴリズムを使用して、サブ帯域に含まれるモードの部分のそれぞれのパラメータを求めることができる。これは、サブ帯域ごとに行うことができる。適用することができる1つのそのようなパラメトリック推定アルゴリズムは、指数関数的減衰シヌソイド(EDS)の周波数及び減衰パラメータを見つけるのに使用することができるESPRITアルゴリズムである。このアルゴリズムは、信号の信号ベクトルを表すベクトル行列の複素モードの解を求めるために複素シヌソイドの回転不変性特性(rotational invariance property)を利用する。
【0056】
上記ベクトル行列は、m次元空間(mは複素モードの数)にあるので、モードの数が増加すると、複素モードの解を求めるのに必要な処理は指数関数的に増加する。言い換えれば、ESPRITアルゴリズムのモデルの次数は、サブ帯域に含まれると推定されるモードの数に対応する。これによって、単一の行列内のIR全体の処理は扱いにくいものとなる。しかし、IRをサブ帯域に分割し、その後、ESPRITアルゴリズムをIRのモードの全てに一括して適用するのではなく、それらのサブ帯域に個別に適用し、ピーク選択閾値よりも大きな振幅を有するモードの解のみを求めることによって、処理の量を大幅に削減することができる。
【0057】
モードの所与のサブセット(例えば、所与のサブ帯域のモード)について、各モードの複素振幅を推定することができる。この推定は、モードの複素振幅の行列であるaの次の最小化関数:
【数5】
等の最小二乗法を使用して行うことができる。ここで、xはサンプリングされたモードのベクトルであり、Eは複素シヌソイドである。この関数は、それぞれX及びYとラベル付けされるx及びEのDFT:
【数6】
を行うことによって周波数領域において解くことができる。Yの各列は、その場合に、等比級数:
【数7】
を使用して解析的に計算することができる。ここで、zはN個のモードのうちのm番目のモードのn番目のサンプルであり、lはベクトルx内に収集されるサンプリングされたモードのうちのl番目のモードである。
【0058】
或いは、振幅及び位相の推定のプロセスは、スペクトルフィルタを使用した分割統治法(divide and conquer approach)に再度用いることにより行うこともできる。この手法では、最小化関数:
【数8】
を使用して振幅を推定することができる。ここで、X及びYはそれぞれx及びEのDFTであり、H
kは、複数のサブ帯域のうちのk番目のサブ帯域に関連付けられたk番目のスペクトルフィルタである。H
k内に含まれる周波数のみを最小化する必要があるように、フィルタH
kとの重複が最小であるモードは、Yから列を除去することによって事実上無視することができる。
【0059】
モードのサブセットに含まれる各モードmの帯域幅b
mも推定することができる。これは、サブ帯域のそれぞれについて行うことができ、これは、次の式:
【数9】
を使用して行うことができる。ここで、d
mは減衰係数であり、NはモードのDFT長である。
【0060】
上記式は、サブ帯域のスペクトルフィルタの通過帯域内に含まれるモードにのみ適用することができる。例えば、k番目のサブ帯域に関連付けられたk番目のスペクトルフィルタについて、振幅及び位相は、範囲
【数10】
がフィルタの通過帯域と交差するモードについてのみ推定することができる。これによって、関数を簡単化することができる。
【0061】
加えて、各モードの振幅及び位相の推定は、サブ帯域ごとに独立して行われるので、各サブ帯域の処理は、並列に行うことができる。したがって、並列処理能力を有する複数のコアを有するコンピュータアーキテクチャの場合に、モードパラメータ推定は、より一層高速化することができる。
【0062】
推定されたパラメータは、更なる計算及びその後の適用のためにシステムのメモリに記憶することができる。
【0063】
図2を続けて、ブロック250において、複数のサブ帯域のモードを統一されたセットに集約又は別の方法で再結合することができる。ブロック260において、モードの統一されたセットをトランケートすることができる。トランケートの結果は、モードのサブセットとすることができる。
【0064】
例えば、このセットに含まれるモードのそれぞれについて、モードの信号対マスク比(SMR:signal to mask ratio)が所定のマスキング曲線に基づいて求められ、このセットに含まれるモードの1つ以上が、求められたSMRに基づいてトランケートされる。
【0065】
モードの統一されたセットをトランケートする一例示のサブルーチン500が、
図5のフロー図に示されている。
【0066】
ブロック510において、マスキング曲線を定義することができる。いくつかの例では、マスキング曲線は、あらかじめ決定しておくことができる。マスキング曲線を使用して、モードの相対振幅を比較することができるが、専ら互いに対してではなく、曲線に対して比較することができる。マスキング曲線は、オーディオ信号を聴くことができる者の心理音響学を考慮するように設計された心理音響モデル(psychoacoustic model)とすることができる。1つの例示の心理音響モデルは、ISO/IEC MPEG1規格からの心理音響モデル1(Psychoacoustic Model 1)である。
【0067】
いくつかの例では、マスキング曲線は、トーンマスカ(tonal masker)及びノイズマスカ(noise masker)を伴うことができる。心理音響モデル1を含むいくつかの場合には、信号の各臨界帯域における非トーンマスカの寄与を合計することによって単一のノイズマスカを作成することができる。或いは、この合計は、マスキング曲線をより現実的にモデル化するために見つけられた平均に置き換えることができる。
【0068】
ブロック520において、統一されたセット内のモードごとに、信号対マスク比(SMR)を各所与のモードの周波数に基づいて求めることができる。SMR値は、システムのメモリに記憶することができる。
【0069】
ブロック530において、モードは、各モードのSMRに従ってソートすることができる。次に、ブロック540において、モードの総数を示す入力を受信することができ、ブロック550において、モードの統一されたセットを、最も高いSMRを有するモードを有するモードのサブセットにトランケートすることができる。このサブセットに含まれるモードの数は、入力された総数と等しいものとすることができる。入力された総数は、IRに含まれる振動モードの総数以下の数とすることができる。その結果は、心理音響の観点から、IRに対して最小の効果を有するモードを除外するとともにIRに対して最大の効果を有するモードを含むモードのサブセットである。これは、このモードのサブセットに基づくモード残響パラメータの操作が、完全なIRの特定されたモードの完全なセットに基づくパラメータの操作と異ならないものとして(又は相違が無視できるものとして)聞き手によって知覚され得ることを意味する。
【0070】
モードをトランケートする他の方法を、
図5のサブルーチン500の代わりに又はこのサブルーチンとともに使用することができる。例えば、相対的に低い振幅(例えば、最小二乗法を使用して推定される)を有するモードは、直ちに廃棄することができる。更なる例として、減衰不足モード(underdamped mode)(応答の包絡線がそれ自体増大している)は、不安定であり、廃棄することができる。加えて、又は代わりに、モードの総数を圧縮するために、K平均アルゴリズムを使用して、モードをクラスタに編成してグループ化することができる。
【0071】
いくつかの場合には、ESPRITアルゴリズムは、6000モードと12000モードとの間に含まれる所与の音響空間のIRを推定することができる。ユーザがトランケートしたいと望み得るモードの数6000~12000は、コンピュータごとに処理能力に応じて、又はユーザごとに許容可能な時間制約若しくは目標のオーディオ品質に応じて変化し得る。
図5のサブルーチン500は、これらの因子(例えば、IRパラメータを操作するのに必要とされる時間、操作される残響効果の品質及び精度)を制御するスケーラビリティ及びフレキシビリティを提供する。例えば、モードの総数を2000~3000、又は他の場合には3000~5000に制限することが望ましい場合がある。2000と5000との間の数は、その後、ブロック440において入力することができ、ESPRITが推定したモードは、その後の処理ステップのためにそれに応じてトランケートすることができる。
【0072】
図2に戻って、ブロック270において、IRは、モードのサブセットのみに基づくパラメータを含むように簡略化することができる。その後、簡略化されたIRを使用して、オーディオ信号が、簡略化されたIRのインパルス応答を有する音響空間内で再生されるかのように響くように、オーディオ信号の反響効果を操作することができる。本明細書において説明される技法に起因して、音響空間の元のIRと簡略化されたIRとの間の相違は、聞き手に無視できるもの又は知覚できないものとすることができる。上述したように、聞き手が相違を知覚する能力は、IRに含まれる様々な振動モードの振幅、心理音響モデル等を含むいくつかの因子に基づくことができる。
【0073】
より一般的には、本開示は、ユーザがオーディオ記録又はオーディオ記録の一部分の反響効果をより効果的且つ効率的に操作することを可能にすることができる。例えば、ユーザは、音響効果をオーディオ記録の一部分に加えて、その記録が大広間又は小さな部屋等の対象の音響空間において再生されたかのように響かせたい場合がある。動作中、1つ以上のプロセッサは、対象の音響空間のインパルス応答を受信するか又はそうでない場合には導出し、インパルス応答を周波数領域に変換し、周波数プロットをサブ帯域に分割し、その後、空間の最も重要なモード(例えば、上述したモードのサブセット)を選択するために、サブ帯域のそれぞれを最初は個別に解析し、その後、集約したものとして解析する。インパルス応答は、次に、空間のあまり重要でないモードである残りの部分を廃棄することによって簡略化することができる。1つ以上のプロセッサは、次に、空間の簡略化されたインパルス応答を使用してオーディオ信号を操作することが可能である。結果は、変更されたオーディオ記録である。
【0074】
この点に関して、反響は、振動モードの簡略化されたセットを使用して変更することができるオーディオ記録の特性の1つの例にすぎないが、モード変更は、反響を操作するのに特に有用である。これは、部分的には、知覚的に重要なパラメータ(部屋のサイズ、減衰時間)へのモードのマッピングが比較的簡単であるからであり、モードフィルタバンクのパラメータをオーディオレートで安定して調整することができるからである。オーディオ信号又は記録の操作の他の手法も、所与の信号の他の特性を変更するのにより効果的であり得る。
【0075】
上述したルーチンは、指数関数的減衰シヌソイド(EDS)を合計したものを使用してIRを表すことができるという仮定の下に動作する。このように、選択されたモードは、事実上、IRのEDSパラメータを推定したものであり、選択されたモードの制御は、IRの個々のEDSの制御を個々に近似する。これは、IRに対する多種多様なオーディオ効果を達成することができる。これらのオーディオ効果には、モーフィング(morphing)、空間化(spatialization)、ルームサイズスケーリング、等化(equalization)等が含まれるが、これらに限定されるものではない。
【0076】
加えて、上述したルーチンは、選ばれた音響空間のインパルス応答の処理を一般的に説明している。しかしながら、当業者であれば、オーディオ信号が選択された空間のインパルス応答でない場合であっても、同様のモード選択概念及びアルゴリズムをオーディオ信号等の他のデジタル入力に適用することができることを理解するであろう。例えば、オーディオ信号は、それ自体、オーディオ信号が記録される音響空間のインパルス応答をそこに含んでいる場合があり、そのインパルス応答は、本明細書における技法を使用して特定及び選択することができる記録空間のいくつかの振動モードを含む場合がある。更なる例として、オーディオ記録は、ESPRITアルゴリズムの適用が、振動モードを個別に変更することを可能にすることができるように、いくつかの振動モードを含むドラム記録とすることができる。このように、本出願は、任意のモード変更可能なオーディオ記録の改善された分解能を達成することができる。
【0077】
上記例は、ESPRITアルゴリズムを使用する状況において説明されている。しかしながら、他のアルゴリズムをパラメータ近似に使用することができる。より一般的には、ESPRIT以外のパラメトリック推定アルゴリズムを使用して、信号を個別の成分(例えば、モード、減衰シヌソイド等)に分解し、その後、各個別の成分のパラメータを推定することができる。
【0078】
本発明は特定の実施形態を参照しながら本明細書において説明されてきたが、これらの実施形態は本発明の原理及び応用形態を例示するにすぎないことは理解されたい。それゆえ、添付の特許請求の範囲によって規定されるような本発明の趣旨及び範囲から逸脱することなく、例示的な実施形態に数多くの変更を加えることができること、及び他の構成を考案することができることは理解されたい。
なお、出願当初の特許請求の範囲の記載は以下の通りである。
請求項1:
音響空間のインパルス応答を受信するステップであって、該インパルス応答は該音響空間の複数の振動モードを含むものである受信するステップと、
前記インパルス応答を複数のサブ帯域に分割するステップであって、前記インパルス応答の各サブ帯域は、前記複数のモードの一部分を含むものである分割するステップと、
それぞれのサブ帯域ごとに、パラメトリック推定アルゴリズムを使用して、該サブ帯域に含まれる前記モードの一部分のそれぞれのパラメータを求めるステップと、
前記複数のサブ帯域の前記それぞれのモードを一つのセットに集約するステップと、
前記集約されたモードのセットをモードのサブセットにトランケートするステップと
を含む、オーディオ信号を操作するモード残響効果を生成する方法。
請求項2:
前記インパルス応答は、複数の不均一のサブ帯域に分割される、請求項1に記載の方法。
請求項3:
前記インパルス応答を複数のサブ帯域に分割するステップは、前記インパルス応答をフィルタバンクに通すことを含む、請求項1に記載の方法。
請求項4:
それぞれのサブ帯域信号ごとに、該サブ帯域信号の前記モードの一部分に含まれるモードの数を推定するステップを更に含み、
前記フィルタバンクは、1つ以上の複素フィルタを含み、各サブ帯域について、通過帯域幅と、該通過帯域幅よりも狭い区画幅とのそれぞれを有し、
前記モードの数は前記通過帯域幅内で推定され、
前記サブ帯域信号に含まれる前記それぞれのモードのパラメータを求めるステップは前記区画幅内の前記モードについてのみ行われる、請求項3に記載の方法。
請求項5:
それぞれのサブ帯域ごとに、該サブ帯域の前記モードの一部分に含まれるモードの数を推定するステップを更に含む、請求項1に記載の方法。
請求項6:
各サブ帯域について、該サブ帯域に適用される前記パラメトリック推定アルゴリズムのモデルの次数は、該サブ帯域の前記モードの一部分に含まれる前記推定されたモードの数に基づいている、請求項5に記載の方法。
請求項7:
前記サブ帯域の前記モードの一部分に含まれるモードの数を推定するステップは、
前記サブ帯域のピーク選択閾値を求めるステップと、
前記ピーク選択閾値よりも大きな前記サブ帯域内で検出されるピークの数を求めるステップと
を含み、
前記推定されるモードの数は前記求められたピークの数に基づいている、請求項5に記載の方法。
請求項8:
前記サブ帯域は、前記インパルス応答の離散フーリエ変換(DFT)から導出され、前記サブ帯域のピーク選択閾値を求めるステップは、
前記サブ帯域の最大ピーク振幅を検出するステップと、
前記サブ帯域の最小ピーク振幅を検出するステップと
を含み、
前記ピーク選択閾値は前記最大ピーク振幅及び前記最小ピーク振幅に少なくとも部分に基づいて求められる、請求項7に記載の方法。
請求項9:
前記ピーク選択閾値は、t = M
max
- a(M
max
- M
min
)に基づいて求められ、M
max
は前記最大ピーク振幅であり、M
min
は前記最小ピーク振幅であり、aは0と1との間の所定の値である、請求項8に記載の方法。
請求項10:
それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、前記パラメトリック推定アルゴリズムが適用される各サブ帯域について、該サブ帯域に含まれる前記モードの一部分の周波数、減衰時間、初期振幅又は初期位相のうちの1つ以上を求めることを含む、請求項1に記載の方法。
請求項11:
それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、該サブ帯域に含まれる各モードの複素振幅を推定することを更に含む、請求項10に記載の方法。
請求項12:
前記サブ帯域は、離散フーリエ変換(DFT)から導出され、前記サブ帯域信号に含まれる各モードについて、前記複素振幅を推定することは、前記サブ帯域信号の前記推定された複素振幅のそれぞれの近似誤差を最小化することを含む、請求項11に記載の方法。
請求項13:
前記近似誤差は、対応するスペクトルフィルタの通過帯域内に含まれる前記サブ帯域信号のモードについてのみ最小化され、異なるスペクトルフィルタが、前記サブ帯域信号のそれぞれに対応し、前記異なるスペクトルフィルタは、前記可聴スペクトルをカバーし、重複しないものである、請求項12に記載の方法。
請求項14:
前記パラメトリック推定アルゴリズムはESPRITアルゴリズムである、請求項1に記載の方法。
請求項15:
それぞれのサブ帯域ごとに、前記モードの一部分のそれぞれのパラメータを求めるステップは、該サブ帯域のピーク選択閾値を求めるステップを含み、前記パラメータは、前記モードの一部分に含まれ且つ前記ピーク選択閾値よりも大きな振幅を有する前記モードについて求められる、請求項1に記載の方法。
請求項16:
前記セットをモードのサブセットにトランケートするステップは、前記セットに含まれる前記モードのそれぞれについて、所定のマスキング曲線に基づいて前記モードの信号対マスク比(SMR)を求めるステップを含み、前記セットに含まれる前記モードの1つ以上は、前記求められたSMRに基づいてトランケートされる、請求項1に記載の方法。
請求項17:
前記セットをモードのサブセットにトランケートするステップは、
前記セットに含まれるモードの数以下であるモードの総数を示す入力を受信することと、
前記セットを、前記モードの総数に等しい数のモードを有するモードのサブセットにトランケートすることと
を更に含む、請求項16に記載の方法。
請求項18:
前記セットをモードのサブセットにトランケートするステップは、各モードの前記SMRに従って前記セットに含まれる前記モードをソートすることを更に含み、前記サブセットに含まれる各モードは、前記サブセットから除外される各モードの前記SMRよりも大きなSMRを有するものである、請求項17に記載の方法。
請求項19:
前記所定のマスキング曲線は心理音響モデルに基づいている、請求項16に記載の方法。
請求項20:
インパルス応答を記憶するメモリと、
1つ以上のプロセッサであって、音響空間の複数の振動モードを含むインパルス応答を受信することと、前記インパルス応答を複数のサブ帯域に分割することであって、前記インパルス応答の各サブ帯域は前記複数のモードの一部分を含むものである分割することと、それぞれのサブ帯域ごとに、該サブ帯域の前記モードの一部分に含まれるモードの数を推定することと、それぞれのサブ帯域ごとに、パラメトリック推定アルゴリズムを使用して、該サブ帯域信号に含まれる前記モードの一部分のそれぞれのパラメータを求めることと、前記複数のサブ帯域の前記それぞれのモードを一つのセットに集約することと、前記集約されたモードのセットをモードのサブセットにトランケートすることとを行うように構成されている、1つ以上のプロセッサと
を備える、オーディオ信号を操作するモード残響効果を生成するシステム。