(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】特表2018-521366(P2018-521366A)
(43)【公表日】2018年8月2日
(54)【発明の名称】音響信号をサウンドオブジェクトに分解する方法及びシステム、サウンドオブジェクト及びその利用
(51)【国際特許分類】
G10G 3/04 20060101AFI20180706BHJP
G10L 25/90 20130101ALI20180706BHJP
【FI】
G10G3/04
G10L25/90
【審査請求】未請求
【予備審査請求】有
【全頁数】35
(21)【出願番号】特願2018-522870(P2018-522870)
(86)(22)【出願日】2016年7月22日
(85)【翻訳文提出日】2018年3月23日
(86)【国際出願番号】EP2016067534
(87)【国際公開番号】WO2017017014
(87)【国際公開日】20170202
(31)【優先権主張番号】15002209.3
(32)【優先日】2015年7月24日
(33)【優先権主張国】EP
(81)【指定国】
AP(BW,GH,GM,KE,LR,LS,MW,MZ,NA,RW,SD,SL,ST,SZ,TZ,UG,ZM,ZW),EA(AM,AZ,BY,KG,KZ,RU,TJ,TM),EP(AL,AT,BE,BG,CH,CY,CZ,DE,DK,EE,ES,FI,FR,GB,GR,HR,HU,IE,IS,IT,LT,LU,LV,MC,MK,MT,NL,NO,PL,PT,RO,RS,SE,SI,SK,SM,TR),OA(BF,BJ,CF,CG,CI,CM,GA,GN,GQ,GW,KM,ML,MR,NE,SN,TD,TG),AE,AG,AL,AM,AO,AT,AU,AZ,BA,BB,BG,BH,BN,BR,BW,BY,BZ,CA,CH,CL,CN,CO,CR,CU,CZ,DE,DK,DM,DO,DZ,EC,EE,EG,ES,FI,GB,GD,GE,GH,GM,GT,HN,HR,HU,ID,IL,IN,IR,IS,JP,KE,KG,KN,KP,KR,KZ,LA,LC,LK,LR,LS,LU,LY,MA,MD,ME,MG,MK,MN,MW,MX,MY,MZ,NA,NG,NI,NO,NZ,OM,PA,PE,PG,PH,PL,PT,QA,RO,RS,RU,RW,SA,SC,SD,SE,SG,SK,SL,SM,ST,SV,SY,TH,TJ,TM,TN,TR,TT,TZ,UA,UG,US
(71)【出願人】
【識別番号】518025825
【氏名又は名称】サウンド オブジェクト テクノロジーズ エス.アー.
(74)【代理人】
【識別番号】110001427
【氏名又は名称】特許業務法人前田特許事務所
(72)【発明者】
【氏名】プルータ アダム
【テーマコード(参考)】
5D182
【Fターム(参考)】
5D182AC01
5D182AD01
(57)【要約】
本発明の目的は、音響信号を、ゆっくり変化する振幅及び周波数を持つ信号の形態を有するサウンドオブジェクトに分解する方法及びシステムであると共に、サウンドオブジェクト及びそれらの使用である。この目的は、音響信号をデジタルサウンドオブジェクトに分解する方法であって、デジタルサウンドオブジェクトは前記音響信号の成分を表し、前記成分は波形を有し、前記方法は、前記アナログ音響信号をデジタル入力信号(P
IN)に変換するステップ、デジタルフィルタバンクを用いて、前記デジタル入力信号の瞬時周波数成分を求めるステップ、前記瞬時周波数成分の瞬時振幅を求めるステップ、前記瞬時周波数に関連付けられた前記デジタル入力信号の瞬時位相を求めるステップ、前記求められた瞬時周波数、位相、及び振幅に基づいて、少なくとも1つのデジタルサウンドオブジェクトを作るステップ、及び前記デジタルサウンドオブジェクトをサウンドオブジェクトデータベースに格納するステップを含む方法によって達成される。
【選択図】
図1
【特許請求の範囲】
【請求項1】
音響信号をデジタルサウンドオブジェクトに分解する方法であって、デジタルサウンドオブジェクトは前記音響信号の成分を表し、前記成分は波形を有し、前記方法は、
前記アナログ音響信号をデジタル入力信号(PIN)に変換するステップ、
デジタルフィルタバンクを用いて、前記デジタル入力信号の瞬時周波数成分を求めるステップ、
前記瞬時周波数成分の瞬時振幅を求めるステップ、
前記瞬時周波数に関連付けられた前記デジタル入力信号の瞬時位相を求めるステップ、
前記求められた瞬時周波数、位相、及び振幅に基づいて、少なくとも1つのデジタルサウンドオブジェクトを作るステップ、及び
前記デジタルサウンドオブジェクトをサウンドオブジェクトデータベースに格納するステップ
を含む方法。
【請求項2】
前記デジタルフィルタバンク中のデジタルフィルタは、その中心周波数に比例する窓長を有する、請求項1又は2に記載の方法。
【請求項3】
前記フィルタバンクの中心周波数群は、対数スケールに従って分布する、請求項2に記載の方法。
【請求項4】
前記フィルタを経た信号の周波数領域の解像度を改善する操作がサンプル毎に実行される、請求項1に記載の方法。
【請求項5】
前記瞬時周波数成分を求めるステップは、前記デジタルフィルタバンクの近接デジタルフィルタを用いて求められた1つ以上の瞬時周波数成分を考慮する、請求項1に記載の方法。
【請求項6】
前記瞬時周波数は、前記デジタル入力信号の後続するサンプル群にわたってトラッキングされる、請求項1に記載の方法。
【請求項7】
振幅のエンベロープの値及び周波数の値及びそれらの対応する時刻を求めることによって、前記サウンドオブジェクトの前記波形を記述する時間・周波数・振幅の空間における座標を持つ特徴点を作る、請求項6に記載の方法。
【請求項8】
前記値は、与えられたフィルタ(20)の窓W(n)の持続期間の1周期当たり1回以上の頻度で求められる、請求項7に記載の方法。
【請求項9】
選択されたサウンドオブジェクトの振幅及び/又は周波数を補正することによって、前記デジタルフィルタバンクによって生じた、前記サウンドオブジェクト中の予期される歪を低減するステップをさらに備える、請求項6に記載の方法。
【請求項10】
前記フィルタを経た信号の前記周波数領域の解像度を改善することは、選択されたフィルタ群の窓長を増加させるステップをさらに含む、請求項3又は4に記載の方法。
【請求項11】
前記フィルタを経た信号の前記周波数領域の解像度を改善することは、位置を求められた近接するサウンドオブジェクトの予期されたスペクトラムを前記フィルタ群の出力におけるスペクトラムから減じるステップをさらに備える、請求項4に記載の方法。
【請求項12】
前記フィルタを経た信号の前記周波数領域の解像度を改善することは、位置を求められた近接するサウンドオブジェクトに基づいて生成されたオーディオ信号を前記入力信号から減じるステップをさらに備える、請求項4に記載の方法。
【請求項13】
デジタルサウンドオブジェクトであって、前記デジタルサウンドオブジェクトは、請求項1〜12のいずれか1項に記載の方法によって生成された、音響信号の少なくとも1つの成分の波形を表す少なくとも1つのパラメータセットを備える、デジタルサウンドオブジェクト。
【請求項14】
前記パラメータセットは、時間・振幅・周波数の領域におけるサブ信号の形状を記述する特徴点を含む、
請求項13に記載のサウンドオブジェクト。
【請求項15】
それぞれの特徴点は、時間領域において、オブジェクトの周波数にアサインされたフィルタ(20)の窓W(n)の持続期間に比例する値だけ次のものから離れている、
請求項14に記載のサウンドオブジェクト。
【請求項16】
前記サウンドオブジェクトは、ヘッダをさらに含む、
請求項14に記載のサウンドオブジェクト。
【請求項17】
前記ヘッダは、チャネルの個数を定義する、
請求項16に記載のサウンドオブジェクト。
【請求項18】
振幅成分は、サブ信号の極大振幅の一部を定義する、
請求項14に記載のサウンドオブジェクト。
【請求項19】
周波数成分は、周波数が変化したトーン(トーン変化)の一部を定義する、
請求項14に記載のサウンドオブジェクト。
【請求項20】
時間成分は、前に定義された特徴点に対する、時間軸での前記特徴点の位置を定義する、
請求項14に記載のサウンドオブジェクト。
【請求項21】
請求項1〜20のいずれか1項に記載のサウンドオブジェクトを記憶する不揮発性のコンピュータで読み取り可能な媒体。
【請求項22】
オーディオ信号を生成する方法であって、
請求項13〜20のいずれか1項に記載のデジタルサウンドオブジェクトを受け取るステップ、
前記デジタルサウンドオブジェクトをデコードすることによって、前記オーディオ信号の少なくとも1つの成分の波形を記述する少なくとも1つのパラメータセットを抽出するステップ、
前記パラメータセットから前記波形を生成するステップ、
前記生成された波形に基づいて、前記オーディオ信号を合成するステップ、及び
前記オーディオ信号を出力するステップ
を含む方法。
【請求項23】
前記波形を生成するステップは、前記パラメータセットに含まれる前記波形の特徴点の間を補間することを含む、
請求項22に記載の方法。
【請求項24】
前記補間は、3次多項式を用いる、
請求項23に記載の方法。
【請求項25】
サブ信号は、時間領域において以前にシフトされ、短縮され、又は延長され、及び/又は周波数領域においてシフトされ又は改変され、及び/又はサウンドオブジェクトのエンベロープは、前記パラメータセットのうちの1つ以上のパラメータを変えることによって予め改変される、
請求項22に記載の方法。
【請求項26】
前記パラメータセットは、その発生の時刻について、又は高調波成分について、以前にグループ化されている、
請求項22に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の目的は、音響信号を、ゆっくり変化する振幅及び周波数を持つ信号の形態を有するサウンドオブジェクトに分解する方法及びシステム、及びサウンドオブジェクトとその利用である。本発明は、音響信号の分析及び合成の分野で適用可能であり、例えば特に音声信号合成に適用可能である。
【背景技術】
【0002】
この10年余りの音響信号の分析における発展は、取り立てて言うほどのことではない。依然として、ニューラルネットワーク、ウェーブレット分析又はファジー理論のような、よく知られている方法が用いられている。これらの方法以外で比較的よく広まっているのは、信号フィルタリングについての古典的な高速フーリエ変換(FFT)アルゴリズムの使用であり、これは、比較的低い演算能力で周波数成分の分析を可能とする。
【0003】
音響信号の分析の中で最も難しい分野のうちの一つであり、最も関心が持たれているのは、音声の分析及び合成である。
【0004】
デジタル技術の発展において非常に大きな進歩が見られたにもかかわらず、この分野における音響信号処理システムでの進歩は、大きなものではない。ここ数年の間、いくつかのアプリケーションが出現し、それらは、音声の認識に関する隙間を埋めようとするものであるが、それらに共通する出所(主にフーリエ変換の使用による周波数領域における分析)及びそれに関する限界は、市場の要求に答えられない結果となった。
【発明の概要】
【発明が解決しようとする課題】
【0005】
これらシステムの主な欠点は、
1)外部の干渉に対する脆弱性
既存の音響分析システムは、信号のソースが一つであることが確約される状況においては満足のいくように動作する。もし干渉、周囲音、又は複数の楽器の共鳴音のような、音響のさらなるソースが現れるなら、それらのスペクトラムは重なり、適用されている数学的モデルは機能しなくなる。
【0006】
2)スペクトラムのパラメータの相対的ばらつき
現在用いられている音響信号のパラメータを計算する方法は、フーリエ変換に由来する。それは、分析される周波数の線形な変化を想定しており、これは、2つの近接する(adjacent)周波数の相対的変化が一定ではないことを意味する。例えば、もし1秒当たりのサンプル(SPS)が44100のレートでサンプリングされた信号のサンプル1024(2
10)個のデータの窓がFFTアルゴリズムの使用によって分析されるなら、後続の周波数群は、43.07Hzずつ異なる。最初の非ゼロ周波数は、F1=43.07Hzであり、次のものはF2=86.13Hzである。最後の周波数は、F510=21963.9Hz、F511=22006.9Hzである。範囲の最初においては、スペクトラム周波数の相対的変化は100%であり、近くにある音を識別する機会はない。範囲の最後においては、スペクトラムパラメータの相対的変化が0.0019%なので、人間の耳には検出不可能である。
【0007】
3)スペクトラムの振幅特性に対するパラメータの限界
フーリエ変換に基づくアルゴリズムは、分析のために、振幅特性、特にスペクトラムの振幅の極大(maximum)を用いる。互いに近い、異なる周波数を持つ音の場合、このパラメータは、大きく歪むことになる。この場合、追加情報は、信号の位相を分析することで、位相特性から獲得され得る。しかしスペクトラムは、256サンプルだけシフトされた窓で分析されるので、計算された位相を関連付けるものは存在しない。
【0008】
この問題は、特許US5214708において記載された音声情報抽出システムによって部分的には解決されている。そこに開示されているのは、人間の耳の知覚のモデルに従って、互いに対数的に間隔が設けられた中心周波数を有するフィルタ群のバンクである。これらフィルタバンク群のうちの任意のもののバンド内には、1つのトーンしか存在しないという仮定のために、信号処理の分野での不確定性原理の問題が回避されてきた。US5214708に開示された解法に従って、周波数及び時間領域の波形情報を含む、ハーモニクス群のそれぞれについての変調に関する情報は、それぞれのハーモニクスの強さの対数の測定値に基づいて抽出され得る。近接するフィルタにおける信号の振幅の対数は、ガウシアンフィルタ及び対数増幅器の使用によって得られる。しかしこの解法の欠点は、音声分析に用いられる関数FM(t)が、単一の音声信号の本質的特性パラメータを効果的に抽出しないことである。この解法の次のずっと重大な欠点は、音響信号が一つのソースからだけの信号しか含まないという前提であり、そのような簡略化は、分解のためにそのようなシステムを使うことの実際の可能性を大幅に低減する。
【0009】
一方で、いくつかのソースからの音声信号の分解の上記課題について、いくつかの解法が提案されている。ボルドー大学のMathieu Lagrangeによる博士論文「Modelisation sinusoidale des sons polyphoniques」(2004年12月16日)の頁1〜220からは、音響信号を、ゆっくり変化する振幅及び周波数を持つ正弦波の形態を有するサウンドオブジェクトに分解するための方法及び適したシステムが知られており、前記方法は、短期間信号モデルのパラメータを決定するステップ、及び前記短期間パラメータに基づいて長期信号モデルのパラメータを決定するステップを含み、ここで短期間信号モデルのパラメータを決定するステップは、アナログ音響信号のデジタル入力信号への変換を含む。短期間信号モデルの決定は、ある周波数成分の存在をまず検出することと、次にその振幅、周波数、及び位相のパラメータ群を推定することとを伴う。長期信号モデルの決定は、成分パラメータの進化の予測可能な特徴を考慮に入れる異なるアルゴリズムを用いて、連続する検出された成分をサウンド群、すなわちサウンドオブジェクトにグルーピングすることを伴う。同様のコンセプトは、Virtanen et Alによる「Separation of harmonic sound sources using sinusoidal modeling」 IEEE International Conference on Acoustic, Speech, and signal Processing 2000, ICASSP ’00.5-9 June 2000, Piscataway, NJ USA, IEEE, vol.2,5 June 2000の頁765-768、及びTero Tolonenによる「Methods for Separation of Harmonic sound Sources using Sinusoidal Modeling」 106th Convention AES, 8 May 1999においても記載されている。全ての引用された文献は、周波数成分の決定及び推定を可能にする二、三の異なる方法に言及している。しかしこの非特許可能な文献は、ここで用いられるフーリエ変換処理によって引き起こされるいくつかの欠点を有する、とりわけ、連続して位相を分析することを許容しない分解方法及びシステムを教示する。さらにそれらの既知の方法は、単純な数学的操作によって非常に正確に周波数成分を決定することは可能にしない。
【0010】
したがって本発明の目的は、いくつかのソースから同時に来る信号として知覚される音響信号の効果的分析を可能にしつつ、時間及び周波数において非常に良い解像度を維持する、音響信号を分解する方法及びシステムを提供することである。より広くは、本発明の目的は、音声の分析及び合成のためのものを含む、音響信号の処理システムの信頼性を改善すること、及びその可能性を向上させることである。
【課題を解決するための手段】
【0011】
この目的は、独立請求項による方法及び装置によって達成される。優位性のある実施形態は、従属請求項において規定される。
【0012】
本発明によれば、音響信号を、ゆっくり変化する振幅及び周波数を持つ正弦波の形態を有するその音響信号のサブ信号群を記述するパラメータセット群に分解するための方法は、短期間信号モデルのパラメータを決定するステップ、及び前記短期間パラメータに基づいて長期信号モデルのパラメータを決定するステップを備え、ここで短期間信号モデルのパラメータを決定するステップは、アナログ音響信号をデジタル入力信号P
INに変換することを含み、ここで前記短期間信号モデルのパラメータを決定するステップにおいて、前記入力信号P
INは、それから前記音響信号のサンプル群をデジタルフィルタバンクの入力に与えることによって、対数スケールで分布された中心周波数群を持つ近接するサブバンド群に分離し、それぞれのデジタルフィルタは、公称中心周波数に比例する窓長を有し、
・それぞれのフィルタ(20)の出力において、フィルタを経た信号の実数値FC(n)及び虚数値FS(n)がサンプル毎に決定され、それからこれに基づいて、
・前記音響信号の全ての検出された構成要素の周波数、振幅、及び位相がサンプル毎に決定され、
・前記フィルタを経た信号の周波数領域の解像度を改善する操作は、サンプル毎に実行され、それぞれの連続するフィルタ(20)の角周波数値に実質的に似た角周波数値を出力する近隣のフィルタ(20)の個数を反映する、数学的操作から得られる関数FG(n)の極大値群に基づいて全ての検出された構成要素の周波数を決定するステップを少なくとも伴い、
そこにおいて、長期間信号モデルのパラメータを決定する前記ステップにおいて:
・前記音響信号のそれぞれの検出された要素について、アクティブオブジェクトデータベース(34)中のアクティブオブジェクトがそのトラッキングのために作られ、
・前記音響信号の後続の検出された要素は、前記アクティブオブジェクトデータベース(34)中の少なくとも選択されたアクティブオブジェクトとサンプル毎に関連付けられることによって、新しいアクティブオブジェクトを作り、又は前記検出された要素をアクティブオブジェクトに付加し、又はアクティブオブジェクトをクローズし、
・データベース(34)中のそれぞれのアクティブオブジェクトについて、振幅のエンベロープの値、及び周波数の値、及びそれらの対応する時刻が、与えられたフィルタ(20)の窓W(n)の持続期間の1周期当たり1回以上の頻度で決定されることによって、サウンドオブジェクトのゆっくり変化する正弦波波形を記述する特徴点を作り、
・少なくとも1つの選択されたクローズされたアクティブオブジェクトがサウンドオブジェクトのデータベース(35)に転送されることによって、時間・周波数・振幅の空間における座標を持つ特徴点群のセットによって定義された、少なくとも1つの分解されたサウンドオブジェクトを得る。
【0013】
本発明のさらなる局面によれば、音響信号を、ゆっくり変化する振幅及び周波数を持つ正弦波波形の形を有するサウンドオブジェクトに分解するシステムは、短期間信号モデルのパラメータを決定するサブシステム、及び前記パラメータに基づいて長期間信号モデルのパラメータを決定するサブシステムを備え、前記短期間パラメータを決定するサブシステムは、アナログ音響信号をデジタル入力信号P
INに変換するコンバータシステム、ここで前記短期間パラメータを決定するサブシステムは、対数分布にしたがって分布されるフィルタ中心周波数群を持つフィルタバンク(20)をさらに備え、それぞれのデジタルフィルタは、中心周波数に比例した窓長を有し、それぞれのフィルタ(20)は、フィルタを経た信号の実数値FC(n)及び虚数値FS(n)を決定するよう構成され、フィルタバンク(2)は、オブジェクトをトラッキングするシステム(3)に接続され、前記オブジェクトをトラッキングするシステム(3)は、入力信号P
INの全ての構成要素を検出するよう構成されたスペクトラム分析システム(31)、それぞれの連続するフィルタ(20)の角周波数値に実質的に近い角周波数を出力する近接するフィルタ群(20)の個数を反映する数学的操作から得られる関数FG(n)の極大値に基づいて全ての検出された構成要素の周波数を決定するよう構成された投票システム(32)を備え、前記長期間パラメータを決定するサブシステムは、オブジェクトを関連付けるシステム(33)、ゆっくり変化する正弦波波形を記述する特徴点を決定するよう構成された成形システム(37)、アクティブオブジェクトデータベース(34)、及びサウンドオブジェクトデータベース(35)を備える。
【0014】
本発明の他の局面によれば、信号を表しゆっくり変化する振幅及び周波数を有するサウンドオブジェクトは、前述の方法によって得ることができる。
【0015】
さらに本発明の本質は、信号を表しゆっくり変化する振幅及び周波数を有するサウンドオブジェクトが、時間・振幅・周波数の空間における3つの座標値を有する特徴点によって定義され得て、ここでそれぞれの特徴点は、次のものと時間領域において、オブジェクトの周波数に割り当てられたフィルタ(20)の窓W(n)の持続期間に比例する値だけ離れていることにもある。
【0016】
本発明による信号分解の方法及びシステムの主な優位性は、実際の音響信号の効果的な分析に適しており、この信号は、ふつうは、いくつかの異なるソース、例えばいくつかのさまざまな楽器、又は何人かの話している又は歌っている人からやってくる信号によって構成されることである。
【0017】
本発明による方法及びシステムは、音響信号を、成分群の振幅及び周波数の遅い変化を有する正弦波成分群に分解することを可能にする。このようなプロセスは、音響信号のベクトル化と呼ばれ得て、ここでベクトル化プロセスの結果として計算されたベクトルは、サウンドオブジェクトとして呼ばれ得る。本発明による方法及びシステムにおいて、分解の主要な目的は、全ての信号の成分(サウンドオブジェクト)をまず抽出し、次にそれらを所定の基準に従ってグループ化し、その後、その中に含まれた情報を決定することにある。
【0018】
本発明による方法及びシステムにおいて、信号は、時間領域及び周波数領域においてサンプル毎に分析される。もちろんこれは、計算能力の需要を増す。既に述べられたように、高速変換FFT及びSFTとしてその実現例を持つフーリエ変換を含む、今まで適用されてきた技術は、コンピュータの計算能力が高くない過去においては非常に重要な役割を果たしてきた。しかし最近20年の間は、コンピュータの計算能力は、100000倍に増した。したがって、本発明は、より多くの労力を要するツールを使うが、改善された正確性を提供し、人間の聴覚モデルによりよく適する。
【0019】
対数的に間隔を空けられた中心周波数を持つ、非常に多くの個数のフィルタ群(可聴帯域について300以上)を有するフィルタバンクの使用により、及び周波数領域の解像度を増す適用された動作により、互いに半音しか離れていない、2つの同時のソース群を抽出することができるシステムが得られる。
【0020】
前記フィルタバンクの出力において得られたオーディオ信号のスペクトラムは、サウンドオブジェクトの信号中の現在位置及び変化についての情報を含む。本発明によるシステム及び方法の仕事は、これらパラメータの変化を既存のオブジェクトに正確に関連付けることによって、もしパラメータが既存のオブジェクトのどれにもフィットしないなら、新しいオブジェクトを作り、もしそれについてのさらなるパラメータが存在しないなら、オブジェクトを終了することである。
【0021】
既存のサウンドオブジェクトと関連付けられることが意図される、オーディオ信号のパラメータを正確に求めるためには、考慮されているフィルタの個数が増やされ、投票システムが用いられることによって、より正確に現在のサウンドの周波数の位置を特定できる。もし近い周波数が現れるなら、上記フィルタ群の長さが大きくされることによって、例えば周波数領域の解像度、又は既に認識されているサウンドを抑圧する手法が適用されることによって、新しく現れているサウンドオブジェクトをよりよく抽出することができる。
【0022】
キーポイントは、本発明による方法及びシステムは、時間軸で周波数変動を有するオブジェクトをトラッキングすることである。これは、システムが実際の現象を分析し、新しい周波数を持つオブジェクトを、既に存在するオブジェクトとして、又は同じ信号のソースに関連付けられた同一グループに属するオブジェクトとして、正しく特定することを意味する。振幅及び周波数領域におけるオブジェクトのパラメータの精密な位置特定は、オブジェクト群をグループ化することによって、それらのソースを特定することを可能にする。オブジェクト群の与えられたグループへの割り当ては、サウンドの音色を決定する、基本周波数及びその高調波の間の具体的な関係を使用することで可能である。
【0023】
オブジェクトの精密な分離は、クリーンな信号(干渉がない)については良い結果を得る、既存のシステムによって、干渉がない、オブジェクト群のそれぞれのグループについてさらなる分析の可能性をつくる。信号中に存在するサウンドオブジェクトについての精密な情報を所有することは、例えば、オーディオ信号からの個々の楽器の楽譜の自動生成、又は高い周囲の干渉があるデバイスの音声制御のような全く新しい応用例においてそれらを利用することを可能にする。
【図面の簡単な説明】
【0024】
本発明は、図面を参照して実施形態において記述される。
【
図1】
図1は、オーディオ信号をサウンドオブジェクトに分解するシステムのブロック図である。
【
図2a】
図2aは、本発明の第1実施形態によるフィルタバンクの並列構造である。
【
図2b】
図2bは、本発明の第2実施形態によるフィルタバンクのツリー構造である。
【
図2c】
図2cは、ピアノのトーンスペクトラムを示す。
【
図2d】
図2dは、1オクターブ当たり48フィルタ、すなわちそれぞれの半音について4個のフィルタを用いるフィルタ構造の例を示す。
【
図3】
図3は、パッシブフィルタバンクシステムの動作の全般的な原理を示す。
【
図4】
図4は、フィルタの例示的パラメータを示す。
【
図5】
図5は、ブラックマン窓を有するフィルタF(n)のインパルス応答である。
【
図7a】
図7aは、実数成分FC(n)、虚数成分FS(n)、及び結果として生じるスペクトラムの振幅FA(n)及び位相FF(n)を含むフィルタバンク出力信号のスペクトラムの一部を示す。
【
図7b】
図7bは、対応するフィルタグループの公称角周波数F#(n)及びスペクトラムFQ(n)の角周波数を示す。
【
図7c】
図7cは、実数成分FC(n)、虚数成分FS(n)、及び結果として生じるスペクトラムの振幅FA(n)及び位相FF(n)を含むフィルタバンク出力信号のスペクトラムの一部を示す。
【
図7d】
図7dは、対応するフィルタグループの公称角周波数F#(n)及びスペクトラムFQ(n)の角周波数を示す。
【
図8】
図8は、サウンドオブジェクトをトラッキングするシステムのブロック図である。
【
図8a】
図8aは、4つの個別の周波数成分及びそれらの和の間の関係を示す。
【
図8b】
図8bは、4つの異なる周波数成分(トーン)を有する信号の他の例を示す。
【
図9a】
図9aは、投票システムの動作の例示的結果を示す。
【
図9b】
図9bは、投票システムの動作の例示的結果を示す。
【
図9c】
図9cは、本発明のある実施形態によるスペクトラム分析システム31によって計算され、及び分析された瞬時値を示す。
【
図10】オブジェクトを関連付けるサウンドシステムのフロー図である。
【
図10a】
図10aは、本発明の実施形態による要素検出及びオブジェクト生成プロセスの図解である。
【
図10b】
図10bは、本発明の実施形態によるマッチング関数の応用を示す。
【
図11】
図11は、ある実施形態による周波数解像度改善システムの動作を示す。
【
図12】
図12は、他の実施形態による周波数解像度改善システムの動作を示す。
【
図12-2b】
図12−2bは、良好に位置特定されたオブジェクト284及び312の求められたパラメータを示す。
【
図12-2c】
図12−2cは、良好に位置特定されたオブジェクトのスペクトラムを示す。
【
図12-2d】
図12−2dは、良好に位置特定されたオブジェクトの信号スペクトラム及び計算されたスペクトラムの間の差分を示す。
【
図12-2e】
図12−2eは、差分のスペクトラム中に位置するオブジェクト276及び304の求められたパラメータを示す。
【
図13】
図13は、さらに他の実施形態による周波数解像度改善システムの動作を示す。
【
図14e】
図14eは、本発明の実施形態によるオーディオ信号のマルチレベルの表現の例を示す。
【
図15】
図15は、サウンドオブジェクトについての情報の表記の例示的フォーマットを示す。
【
図15a】
図15aは、2つの周波数(破線)からなるオーディオ信号、及び補正なしでの分解から得られた信号を示す。
【
図16】
図16は、補正を必要とするサウンドオブジェクトの第1の例を示す。
【
図17】
図17は、補正を必要とするサウンドオブジェクトの第2の例を示す。
【
図18a】
図18aは、補正を必要とするサウンドオブジェクトのさらなる例を示す。
【
図18b】
図18bは、補正を必要とするサウンドオブジェクトのさらなる例を示す。
【
図18c】
図18cは、補正を必要とするサウンドオブジェクトのさらなる例を示す。
【
図18d】
図18dは、2つの周波数(破線)からなるオーディオ信号、及び補正システムをイネーブルした状態での分解から得られた信号を示す。
【
図19a】
図19aは、オーディオ信号からサウンドオブジェクトを抽出し、サウンドオブジェクトからオーディオ信号を合成するプロセスを示す。
【
図19b】
図19bは、オーディオ信号からサウンドオブジェクトを抽出し、サウンドオブジェクトからオーディオ信号を合成するプロセスを示す。
【
図19c】
図19cは、オーディオ信号からサウンドオブジェクトを抽出し、サウンドオブジェクトからオーディオ信号を合成するプロセスを示す。
【
図19d】
図19dは、オーディオ信号からサウンドオブジェクトを抽出し、サウンドオブジェクトからオーディオ信号を合成するプロセスを示す。
【
図19e】
図19eは、オーディオ信号からサウンドオブジェクトを抽出し、サウンドオブジェクトからオーディオ信号を合成するプロセスを示す。
【
図19f】
図19fは、オーディオ信号からサウンドオブジェクトを抽出し、サウンドオブジェクトからオーディオ信号を合成するプロセスを示す。
【
図19g】
図19gは、オーディオ信号からサウンドオブジェクトを抽出し、サウンドオブジェクトからオーディオ信号を合成するプロセスを示す。
【
図19h】
図19hは、オーディオ信号からサウンドオブジェクトを抽出し、サウンドオブジェクトからオーディオ信号を合成するプロセスを示す。
【発明を実施するための形態】
【0025】
本特許出願において、任意の2つのシステム間での接続という文脈において、「接続された」という語は、任意の可能な単一の、又は複数のパスによる接続として、加えて、直接又は間接の物理的又は動作上の接続として、最も広い可能な意味において理解されるべきである。
【0026】
本発明による音響信号をサウンドオブジェクトに分解するシステム1は、
図1に概略的に示される。デジタル形式のオーディオ信号がその入力に与えられる。このオーディオ信号のデジタル形式は、典型的で既知のA/D変換技術の適用の結果として得られる。音響信号をアナログからデジタル形式に変換するのに用いられる要素は、ここでは示されていない。システム1は、フィルタバンク2を備え、出力は、オブジェクトをトラッキングするシステム3に接続され、そのシステムは、さらに補正システム4に接続されている。オブジェクトをトラッキングするシステム3及びフィルタバンクの間には、フィルタバンク2のパラメータを制御するのに用いられるフィードバック接続が存在する。さらに、オブジェクトをトラッキングするシステム3は、フィルタバンク2の入力に差動システム5を介して接続されるが、この差動システム5は、
図8における周波数解像度改善システム36の積分要素である。
【0027】
音響信号からサウンドオブジェクトを抽出するために、時間領域及び周波数領域の信号分析が用いられている。前記デジタル入力信号は、フィルタバンク2にサンプル毎に入力される。好ましくは、このようなフィルタは、SOIフィルタである。フィルタバンク2の典型的な構造は、
図2aにはフィルタバンク2の典型的な構造が示されており、フィルタバンク2においては、個別のフィルタ群20は、同じ信号を与えられたサンプリングレートで並列して処理する。典型的には、サンプリングレートは、最も高い予期されるオーディオ信号成分の少なくとも2倍の大きさであり、好ましくは44.1kHzである。1秒当たりに処理されるべきサンプルのそのような個数は、大きな計算コストを要求するので、好ましくは
図2bのフィルタバンクツリー構造が用いられ得る。フィルタバンクツリー構造2において、フィルタ群20は、入力信号サンプリングレートに従ってグループ化される。例えば、ツリー構造におけるスプリットは、まず、1オクターブ毎になされ得る。より低い周波数を持つ個別のサブバンドについては、ローパスフィルタを用いて高い周波数成分をカットオフし、それらをより低いレートでサンプリングすることが可能である。結果として、サンプルの個数が低減するので、処理速度を大幅に増すことが達成される。好ましくは、300Hzまでの区間については信号はfp=600Hzでサンプリングされ、2.5kHzまでの区間については信号はfp=5kHzでサンプリングされる。
【0028】
本発明による方法及びシステムの主要な課題は、スペクトラム中の全てのサウンドオブジェクトの位置を特定する(localize)ことなので、重要な問題は、信号のパラメータの決定の起こり得る正確性、及び同時に現れる音の解像度である。このフィルタバンクは、2つの隣接する半音を分離することを可能にするために、高い周波数領域の解像度、すなわち半音当たり2フィルタより大きい解像度を提供しなければならない。
【0029】
好ましくは、本発明による方法及びシステムにおいては、対数分布を持つ、人間の耳のパラメータに対応するスケールが採用されているが、当業者であればフィルタの中心周波数の他の分布が本発明の範囲内で可能であることがわかるだろう。好ましくは、フィルタ群の中心周波数の分布のパターンは、音階であり、後続のオクターブは、先行するオクターブの2倍のトーンで始まる。それぞれのオクターブは、12半音に分割され、すなわち2つの隣接する半音は、5.94%だけ異なる(例えばe1=329.62Hz, f1=349.20Hz)。本発明による方法及びシステムにおいては、正確性を増すために、それぞれの半音について4つのフィルタ群が存在し、ここでそれぞれのフィルタは、1.45%だけ近接周波数から異なるそれ自身の周波数を聴く。最も低い可聴周波数は、C2=16.35Hzであると想定されている。好ましくは、フィルタ群の個数は、300より大きい。与えられた実施形態についてのフィルタ群の具体的な個数は、サンプリングレートに依存する。1秒当たり22050サンプルにおけるサンプリングだと、最も高い周波数は、e6=10548Hzであり、この範囲には450個のフィルタがある。1秒当たり44100サンプルにおけるサンプリングだと、最も高い周波数は、e7=21096Hzであり、この範囲には498個のフィルタがある。
【0030】
パッシブフィルタバンクの動作の一般的な原理が
図3に示される。フィルタバンク2のそれぞれのフィルタ20に与えられる入力信号は、関連する数学的操作の結果、時間領域から周波数領域へと変換される。実際には、励起信号への応答がそれぞれのフィルタ20の出力に現れ、信号のスペクトラムは、フィルタバンクの出力において共同して現れる。
【0031】
図4は、フィルタバンク2内の選択されたフィルタ群20の例示的なパラメータを示す。表からわかるように、中心周波数は、特定の音名シンボルで表されるトーン(tones)に対応する。それぞれのフィルタ20の窓の幅は、
W(n) = K * fp / FN(n) (1)
なる関係によって与えられ、ここでW(n)は、フィルタnの窓の幅であり、fpは、サンプリングレート(例えば44100Hz)であり、FN(n)は、フィルタnの公称(中心)周波数であり、Kは、窓幅係数(例えば16)である。
【0032】
音階のより低い範囲においては、周波数領域の解像度がより高くなければならないので、周波数のこの範囲については、フィルタ窓は最も広くなる。係数Kの導入及びフィルタの公称周波数FNへの正規化のおかげで、全てのフィルタについて同一の振幅及び位相の特性が提供されている。
【0033】
上述のフィルタバンクの実現については、当業者なら、SOIタイプのバンドパスフィルタの係数を得る可能な方法の一つが、フィルタのインパルス応答を求めることであることがわかるだろう。本発明によるフィルタ20の例示的なインパルス応答が
図5に示される。
図5のインパルス応答は、コサイン窓を持つフィルタのインパルス応答であり、
y(i)(n) = cos(ω(n)*i) * (A-B*cos(2πi/W(n))+C*cos(4πi/W(n)) (2)
なる関係で定義され、ここでω(n) = 2π*FN(n)/fpであり、W(n), FN(n), fpは、上で定義された通りである。
【0035】
フィルタ20のそれぞれによって実行される演算は、
図6に示されている。フィルタバンク2の仕事は、人間によって可聴である最も低い周波数(例えばC2=16.35 Hz)からサンプリングレートfpの1/2(例えば1秒当たり44100個のサンプルにおいてe7=21096 Hz)の範囲のオーディオ信号の周波数スペクトラムの算出を可能することである。それぞれのフィルタがその演算を開始する前に、フィルタ20のパラメータが初期化され、例示的なパラメータは、時間窓関数の特定の成分の係数である。それから、実数値しか有しない、入力信号の現在のサンプルP
INがフィルタバンク2の入力に与えられる。それぞれのフィルタ2は、再帰的なアルゴリズムを用いて、実数成分FC(n)及び虚数成分FS(n)の前の値に基づいて、成分FC(n)及びFS(n)の新しい値を計算し、フィルタに入力されるサンプルP
IN及びフィルタの窓を出て内部シフトレジスタに格納されるサンプルP
OUTの値も計算する。再帰的なアルゴリズムの使用のおかげで、フィルタ群のそれぞれについての計算の回数は一定であり、フィルタの窓長に依存しない。コサイン窓について実行された演算は、以下の式によって定義される。
【0037】
方程式(3)及び(4)について三角関数の積についての三角方程式を用いることによって、
図6に示される方程式に従って、成分FC(n)及びFS(n)の、オーディオ信号の前のサンプルについてのこれら成分の値、及びフィルタに入力されたサンプルP
INの値、及びフィルタから出力されるサンプルP
OUTの値に対する依存性を得る。それぞれのフィルタ20の場合、それぞれの後続のサンプルについての方程式の計算は、ハン又はハミング型の窓については15回の乗算及び17回の加算を必要とし、ブラックマン窓については25回の乗算及び24回の加算を必要とする。フィルタ20の処理は、フィルタの入力にそれ以上のオーディオ信号が存在しなくなったときに終了する。
【0038】
入力信号のそれぞれの後続のサンプルの後に得られたサンプルの実数成分FC(n)及び虚数成分FS(n)の値は、それぞれのフィルタ20の出力からサウンドオブジェクトをトラッキングするシステム3へ、具体的にはその中に設けられたスペクトラム分析システム31(
図8に示される)へ、送られる。入力信号のそれぞれのサンプルの後にはフィルタバンク2のスペクトラムが計算されているので、スペクトラム分析システム31は、振幅特性を除いては、フィルタバンク2の出力において位相特性を利用できる。特に、本発明による方法及びシステムにおいては、前のサンプルの位相に対する、出力信号の現在のサンプルの位相の変化は、スペクトラム中に存在する周波数の正確な分離のために用いられ、これは、
図7a、7b、7c、及び7dと、
図8とを参照してさらに説明される。
【0039】
スペクトラム分析システム31は、オブジェクトをトラッキングするシステム3(
図8に示される)の一部分であり、ステップバンクの出力における信号のスペクトラムの個々の成分を計算する。このシステムの動作を示すために、以下の成分を持つ音響信号(acoustic signal)が分析の対象となっている。
【0041】
図7a及び7bには、スペクトラム分析システム31によって計算され分析された量の信号及び値についてフィルタ20の選択されたグループの出力において得られた量の瞬時値がプロットされている。番号nが266から336であり、窓幅係数K=16を有する窓を持つフィルタについては、実数成分FC[n]の瞬時値及び虚数成分FS[n]の瞬時値が表されており、これらはスペクトラム分析システム31の入力に与えられ、スペクトラムの振幅FA[n]及びスペクトラムの位相FF[n]の瞬時値が表されており、これらはスペクトラム分析システム31によって計算される。既に言及されたように、スペクトラム分析システム31は、与えられた時刻において信号中に存在するサウンドオブジェクトの実際の周波数を決定するのに必要な、全ての可能な情報を集めるが、これには角周波数についての情報も含まれる。成分周波数のトーンの正しい位置は、
図7bに示されており、これは、フィルタFΩ[n]の公称角周波数及びフィルタFQ[n]の出力における角周波数の交点にあり、特定のフィルタnの出力におけるスペクトラムの位相の導関数として計算される。よって本発明によれば、サウンドオブジェクトを検出するために、スペクトラム分析システム31は、角周波数F#[n]及びFQ[n]のプロットも分析する。互いに離れた成分を含む信号の場合は、角周波数の分析の結果として求められた点は、
図7aの振幅の極大値の位置に対応する。
【0042】
信号処理におけるいくつかの典型的な現象のために、スペクトラムの振幅の極大値だけに基づく領域は、効果的ではない。入力信号中の与えられたトーンの存在は、近接する周波数群における振幅スペクトラムの値に影響を及ぼし、信号が互いに近いトーンを含むときには、結果としてひどく歪んだスペクトラムにつながる。この現象を例示し、本発明によるスペクトラム分析システム31の機能を例示するために、以下の周波数の音を含む信号が分析に供された。
【0044】
図7c及び7dに示されるように、近い所に位置する成分を持つ信号の場合、角周波数プロットの分析に基づいて決定されたトーンの正しい位置は、
図7cの振幅の極大値に対応しない。よって、そのような場合については、スペクトラム分析システム31によって分析されるさまざまなパラメータのおかげで、音響信号の分解にはクリチカルな状況を検出することができる。結果として、成分の正しい認識につながる特定の手順を適用することが可能であり、これは
図8及び
図9a、及び
図9bを参照してさらに説明される。
【0045】
図8にそのブロック図が示されるオブジェクトをトラッキングするシステム3の基本的なタスクは、与えられた時刻において入力信号中に存在する全ての周波数成分を検出することである。
図7b及び
図7dに示されるように、入力トーンに近接するフィルタは、非常に類似した角周波数を有し、これら周波数は、これらフィルタの公称角周波数とは異なる。この特性は、オブジェクトをトラッキングするシステム3の他のサブシステム、具体的には投票システム32によって用いられる。周波数成分の正しくない検出を避けるために、スペクトラム分析システム31によって計算されたフィルタFQ(n)の出力における振幅スペクトラムFA(n)及び角周波数の値は、それらの重み付けされた値の計算、及びフィルタの番号(n)の関数におけるその極大値の検出のための投票システム32へ送られる。このようにして、フィルタ2の出力において与えられた周波数について入力信号中に存在する周波数を決定するために、それに近接する全てのフィルタ群20の出力において当該周波数を考慮に入れる投票システムが得られる。このシステムの動作は、
図9a及び9bに示される。
図9aは、
図7a及び7bに示される関連する場合を示すが、
図9bは、
図7c及び7dに示される関連する場合を示す。見てわかるように、信号FG(n)のプロット(投票システム32によって計算された重み付けされた値)は、入力信号中に存在する周波数成分のトーンに対応する位置に顕著なピークを有する。互いに顕著に離れた成分を含む入力信号の場合(
図9aに示される)は、これらの位置は、スペクトラムFA(n)の振幅の極大値に対応する。互いに近すぎるように位置する成分を含む入力信号の場合(
図9bに示される)は、もし投票システム32なかったなら、スペクトラムの振幅の極大値に反映されるトーンが検出されるはずであり、これらは、重み付けされた信号FG(n)において上述のピーク以外の場所に位置する。
【0046】
換言すれば、上記「投票システム」は、「票を計算する」動作、具体的には、上記「票」が与えられるものと近いその角周波数を出力することによって、「投票する」特定の公称角周波数上のそれぞれのフィルタ(n)の「票」を集める動作を実行する。上記「票」は、曲線FQ[n]として示される。上記投票システム32の例示的実現例は、特定のセルの下である計算された値が集められて入れられるレジスタであり得る。フィルタの連続する番号、すなわちある値が集められるレジスタにおけるセルの番号は、特定のフィルタによって出力された特定の角周波数に基づいて決定され、この出力された角周波数は、レジスタに対するインデックスである。当業者なら、出力された角周波数の値は、めったに整数ではなく、よってこのインデックスは、ある仮定の下で決定されるべきであること、例えば、瞬時角周波数の上記値は切り上げ又は切り下げされるべきであることがわかるだろう。次に、決定されたインデックスの下で集められるべき値は、例えば、上記投票フィルタによって出力された振幅で1を乗算したものに等しい値、又は、出力された角周波数及び最も近い公称周波数の差を、上記投票フィルタによって出力された振幅によって乗算した値であり得る。このような値は、加算又は減算又は乗算によって、又は、投票フィルタ群の個数を反映する任意の他の数学的操作によって、レジスタの連続するセル内で集められ得る。このようにして、投票システム31は、スペクトラム分析システムから得られたパラメータに基づいて、特定の公称周波数についての「重み付けされた値」を計算する。「票を計算すること」というこの演算は、3つのセットの入力値群を考慮に入れるが、第1のものは、フィルタの公称角周波数の値であり、第2のものは、フィルタの瞬時角周波数の値であり、第3のものは、それぞれのフィルタについての振幅スペクトラムFA(n)の値である。
【0047】
図8に示されるように、スペクトラム分析システム31及び投票システム32は、それらの出力において、オブジェクトを関連付けるシステム33と接続される。オブジェクトを関連付けるシステム33は、それぞれの検出された周波数に関連付けられた、振幅、位相、及び角周波数のような、入力信号、及び追加のパラメータ群を含む、投票システム32によって検出された周波数群のリストが自由に使えるので、オブジェクトを関連付けるシステム33は、これらパラメータを「要素(elements)」の中に組み込み、次にそれらからサウンドオブジェクトを構築する。好ましくは、本発明によるシステム及び方法においては、投票システム32によって検出された周波数(角周波数)、及び、よって「要素」は、フィルタ番号nによって識別される。オブジェクトを関連付けるシステム33は、アクティブオブジェクトデータベース34と接続される。アクティブオブジェクトデータベース34は、周波数値に依存する順番で配列されたオブジェクトを備え、これらオブジェクトは、まだ「終了」されていない。「終了されたオブジェクト」という語は、与えられた時刻においてスペクトラム分析システム31によってどの要素も検出されておらず、投票システム32がそれに関連付けられ得るオブジェクトとして理解されるべきである。オブジェクトを関連付けるシステム33の動作は、
図10において示されている。投票システム32によって検出された入力信号の後続の要素は、データベース34において選択されたアクティブオブジェクトと関連付けられる。要求される演算の個数を制限するために、好ましくは、与えられた周波数の検出されたオブジェクトは、所定の周波数範囲内に位置する対応するアクティブオブジェクトとだけ比較される。最初は、この比較は、要素及びアクティブオブジェクトの角周波数を考慮する。もし当該要素に十分に近い(例えば0.2全音に対応する周波数の距離の範囲内に)オブジェクトが存在しないなら、これは、新しいオブジェクトが現れたことを意味し、それはアクティブオブジェクト34に追加されなければならない。もし、オブジェクトを現在の要素と関連付けることが終わったなら、アクティブサウンドオブジェクトに十分に近い(例えば0.2全音に対応する周波数の距離の範囲内に)要素が存在しないことになり、これは、オブジェクトについてのさらなるパラメータが検出されず、終了されなければならないことを意味する。上記終了されたオブジェクトは、一時的な干渉によって生じた偶然の終了を防ぐために、その周波数の1周期の間は依然として関連付けプロセスにおいて考慮される。この時間の間、データベース34においてそれはアクティブサウンドオブジェクトに戻ることができる。1周期の後、オブジェクトの最終点が決定される。もしオブジェクトが十分に長い時間(例えばその長さが対応する窓の幅W[n]よりも短くない)続くなら、このオブジェクトは、サウンドオブジェクトデータベース35に転送される。
【0048】
アクティブオブジェクト及びそれに十分に近いオブジェクトを互いに関連付ける場合においては、オブジェクトを関連付けるシステム33においてマッチング関数(matching function)がさらに計算され、これは、以下の重み付けされた値を含み、すなわち、振幅マッチング、位相マッチング、オブジェクト持続期間である。本発明によるオブジェクトを関連付けるシステム33のこのような機能は、実際の入力信号が一つのものからの成分信号であり、同じソースが周波数を変更した場合においては本質的に重要である。これは、周波数変更の結果、いくつかのアクティブオブジェクトは、互いにより近くなることがあり得るからである。したがって、マッチング関数を計算した後に、オブジェクトを関連付けるシステム33は、与えられた時刻において、データベース34内に十分に近い第2のオブジェクトが存在するかをチェックする。システム33は、どのオブジェクトが、一緒に統合するオブジェクト群の継続物(continuer)になるかを決定する。この選択は、マッチング関数の比較の結果によって判定される。最もよくマッチしたアクティブオブジェクトが継続され、終了すべきという命令が残りのものについて発行される。また解像度改善システム36は、アクティブオブジェクトデータベース34と協働する。それは、信号中に存在するオブジェクト群の相互の周波数領域での距離をトラッキングする(track)。もしアクティブオブジェクトの周波数が近すぎることが検出されたなら、解像度改善システム36は、周波数領域の解像度を改善する3つの処理のうちの一つを開始するために制御信号を送る。前述のように、互いに近い2,3の周波数が存在する場合、それらのスペクトラムは重なる。それらを区別するために、システムは、音を「集中して聴く」ことが必要である。それは、フィルタが信号をサンプリングする窓を長くすることによってこれを達成する。この場合、窓調整信号301がアクティベートされ、与えられた範囲において窓が延長されなければならないことがフィルタバンク2に知らされる。窓延長のために、信号の動的分析が妨害され、したがってもし近いオブジェクト群が検出されないなら、解像度改善システム36は、フィルタ20の窓を次に短縮することを実施する。本発明による解法においては、フィルタ20の公称周波数の12から24周期の長さを持つ窓が想定される。窓の幅と周波数領域の解像度の関係は、
図11に示される。下の表は、互いに隣り合って後続して存在する少なくとも4つのダメージのないオブジェクトをシステムが検出し、トラッキングする能力を示し、最小距離は、窓の幅の関数としてパーセンテージで表現されている。
【0050】
他の実施形態においては、システムは、フィルタバンクのスペクトラムを変化させることによって音を「集中して聴く」が、これは概略的に
図12に示される。周波数領域の解像度は、トラッキングシステム3の入力におけるスペクトラムから、新しく現れるオブジェクトの近傍に位置特定される「良好に位置特定されたオブジェクト(well localised objects)」の予期されるスペクトラムを減ずることによって改善される。「良好に位置特定されたオブジェクト」とは、その振幅があまりに速くは変化しない(窓の幅当たり1個の極値を超えない)、かつ、その周波数があまりに速くはドリフトしない(窓の幅当たり周波数の10%変化を超えない)オブジェクトと考えられる。より速く変化するオブジェクトのスペクトラムを減ずる試みは、測定システム入力における位相反転につながり得て、結果として干渉信号の発生になる正帰還につながり得る。実際のところ、解像度改善システム36は、オブジェクトの既知の瞬時周波数、振幅、及び位相に基づいて、予期されるスペクトラム303を以下の式によって計算する。
FS(n) = FA(n) * exp( -(x - FX(n)) 2/2σ2(W(n)))
* sin(FD(n)*(x-FX(n)) + FF(n))
FC(n) = FA(n) * exp( -(x - FX(n)) 2/2σ2(W(n)))
* cos(FD(n)*(x-FX(n)) + FF(n))
ここで、σは、窓の幅の関数であり、窓の幅=20なら、σ2 = 10であり、すなわち既知の瞬時周波数に基づいて、それらを実際のスペクトラムから減算するなら、近接する要素のスペクトラムは、それほど強くは干渉されないことになる。スペクトラム分析システム31及び投票システム32は、近接する要素及び減算されたオブジェクトのバリエーションしか知覚しない。しかしオブジェクトを関連付けるシステム33は、減算されたパラメータをさらに考慮する一方で、検出された要素をアクティブオブジェクトデータベース34と比較する。残念ながら、この周波数領域の解像度改善方法を実現するには、非常に大量の計算が要求され、正帰還のリスクが存在する。
【0051】
さらに他の実施形態において、周波数領域解像度は、入力信号から良好に位置特定された(前の実施形態のように)近接オブジェクトに基づいて生成されたオーディオ信号を減算することによって改善され得る。そのような動作が
図13において概略的に示される。実際には、これは、解像度改善システム36は、アクティブオブジェクト34の周波数、振幅及び位相についての情報に基づいてオーディオ信号302を発生するという事実に依拠し、ここでこの信号は、
図13に概略的に示されるようにフィルタバンク2の入力において差動システム5へ送られる。この種の演算における要求される計算の回数は、
図12の実施形態の場合よりも少ないが、フィルタバンク2によって導入される追加の遅延のせいでシステムの不安定性、及び意図しない発生のリスクが増加する。同様に、この場合も、オブジェクトを関連付けるシステム33は、減算されたアクティブオブジェクトのパラメータを考慮する。記載されてきたメカニズムにより、本発明による方法及びシステムは、少なくとも半音の1/2(すなわちFN[n+1] / FN[n] = 102.93%)の周波数領域の解像度を提供する。
【0052】
本発明によれば、アクティブオブジェクトデータベース34に含まれる情報は、成形システム37によっても用いられる。本発明による音信号分解の予期される結果は、ゆっくり変化する振幅エンベロープ及び周波数を持つ正弦波波形の形を有するサウンドオブジェクトを得ることである。したがって、成形システム37は、データベース34中のアクティブオブジェクトの振幅エンベロープ及び周波数の変化をトラッキングし、極大点、極小点、及び変曲点である、振幅及び周波数の後続の特性点をオンラインで計算する。このような情報は、正弦波波形を明確に記述することができる。成形システム37は、オブジェクトを記述する点の形であるこれら特性情報を、アクティブオブジェクトデータベース34へオンラインで送る。決定されるべき点の間の距離は、オブジェクトの周波数の20周期よりも小さくてはならないと仮定されている。周波数に比例する点の間の距離は、オブジェクトの変化のダイナミクスを効果的に表現できる。例示的なサウンドオブジェクトは、
図14aに示されている。この図は、時間(サンプル番号)の関数で変化する周波数を持つ4つのオブジェクトを示す。同じオブジェクトは、振幅及び時間(サンプル番号)によって定義される空間において
図14bにも示されている。図示される点は、振幅の極大及び極小を表す。点は、3次多項式を用いて計算された滑らかな曲線によって結ばれている。周波数変化の関数及び振幅エンベロープを決定した後に、オーディオ信号を決定することが可能になる。
図14cは、
図14a及び
図14bで定義されるオブジェクトの形状に基づいて決定されたオーディオ信号を示す。このプロットに示されるオブジェクトは、
図14dの表の形で記述されており、ここでそれぞれのオブジェクトについて、第1の点、最後の点、及び極値群を含む、その後続の特性点のパラメータが記述されている。それぞれの点は、3つの座標を有する。すなわちサンプル番号によって表現された時間軸での位置、振幅及び周波数である。そのような点群のセットは、ゆっくり変化する正弦波波形を明確に記述する。
【0053】
図14dの表に示されるサウンドオブジェクトの記述は、正式なプロトコルの形で書き留められ得る。そのような記法の標準化は、本発明によるサウンドオブジェクトの特性を用いてアプリケーションを開発することを可能にする。
図15は、サウンドオブジェクトの記法の例示的なフォーマットを示す。
【0054】
1)ヘッダ:この記法は、我々がサウンドオブジェクトの記述を扱うことを知らせる、4バイトキーワードを備える、ヘッダタグを重要な要素として有するヘッダから始まる。次に2バイトで、チャネル群(トラック群)の番号についての情報が特定され、2バイトで時間単位の定義がなされる。ヘッダは、ファイルの最初に一回だけ現れる。
【0055】
2)チャネル:このフィールドからのチャネル群(トラック群)についての情報は、サウンドオブジェクト群のグループを分離するのに役立ち、これらサウンドオブジェクト群は、例えばステレオの場合は左又は右チャネルのような重要な関係にあり、ボーカルトラック、パーカッション楽器トラック、定義されたマイクからの録音等であり得る。チャネルフィールドは、チャネル識別子(番号)、チャネル中のオブジェクト群の個数、及び定義された単位で測定された、オーディオ信号の最初からのチャネルの位置を含む。
【0056】
3)オブジェクト:最初のバイトに含まれる識別子は、オブジェクトのタイプについて特定する。識別子「0」は、サウンドオブジェクトである信号録音における基本単位を表す。値「1」は、例えば基本トーン及びその高調波のようなオブジェクト群のグループを含むフォルダを表し得る。オブジェクトに関連する他の要素を定義するために、他の値が用いられ得る。基本的なサウンドオブジェクトの記述には、点の個数が含まれる。点の個数は、オブジェクトそのものによって定義される最初の点を含まない。オブジェクトのパラメータで最大(maximal)の振幅を特定することは、オブジェクトの全ての点の同時の増幅を制御することを可能にする。オブジェクトのフォルダの場合、これは、フォルダに含まれる全てのオブジェクトの振幅の値に影響する。類推として、周波数についての情報を特定すること(以下の記法を適用:フィルタバンクのトーンの個数*4=ノート群*16)は、オブジェクトに関連する全ての要素の周波数を同時に制御することを可能にする。さらに、オブジェクトの最初の位置をより高いレベルの要素(例えばチャネル)に対して定義することは、時間軸上でオブジェクトをシフトすることを可能にする。
【0057】
4)点(Point):点は、時間・周波数・振幅の領域においてサウンドオブジェクトの形状を記述するのに用いられる。これらは、サウンドオブジェクトによって定義されるパラメータ群について相対的な値を有する。振幅の1バイトは、オブジェクトによって定義される最大(maximal)振幅のどの部分をその点が有するかを定義する。同様に、トーンバリエーションは、トーンのどの部分によって周波数が変化されたかを定義する。点の位置は、オブジェクト中の前に定義された点に対して相対的なものとして定義される。
【0058】
録音物のマルチレベルの構造、及びフィールド間の相対的な関連付けによって、サウンドオブジェクトに対する非常にフレキシブルな操作が可能になり、サウンドオブジェクトをオーディオ信号を設計及び改変するための効果的なツールにすることができる。
【0059】
図15に示されるフォーマットでの、本発明によるサウンドオブジェクトについての情報の圧縮された録音は、記憶され、転送されたファイルのサイズに大きな良い影響を与える。オーディオファイルがこのフォーマットからすぐに再生され得ることを考慮すれば、我々は、
図14cに示されるファイルのサイズを比較できるが、これは、.WAVフォーマットであれば2000バイトより多くなり、本発明によるサウンドオブジェクトレコード「UH0」の形だと132バイトになる。この場合、15倍よりも良い圧縮は、優秀な達成ではない。より長いオーディオ信号の場合は、ずっと良い結果が達成され得る。圧縮レベルは、オーディオ信号中にどのくらい多くの情報が含まれているか、すなわち当該信号からどのくらい多くのオブジェクトが読み出され得て、どのようにオブジェクトが構成されるかに依存する。
【0060】
オーディオ信号中のサウンドオブジェクトの識別は、明確な数学的変換ではない。分解の結果、得られたオブジェクト群の構成として作られるオーディオ信号は、入力信号とは異なる。本発明によるシステム及び方法の課題は、この差異を最小化することである。差異の原因には、2つのタイプがある。それらの一部は、適用される技術から予期され生じるが、他のものは、入力オーディオ信号の干渉又は予期し得ない特性から生じ得る。本発明によるサウンドオブジェクト群から構成されるオーディオ信号と、入力信号との差異を低減させるために、
図1に示される補正システム4が用いられる。このシステムは、オブジェクトを終了させた後に、オブジェクトのパラメータをサウンドオブジェクトデータベース35から取り込み、オブジェクト及び点の選択されたパラメータの改変の操作を実行することで、例えば、これらパラメータ中に存在する予期される差異又は不規則さを最小化する。
【0061】
補正システム4によって実行される、本発明によるサウンドオブジェクトの補正の第1のタイプは、
図16に示される。このオブジェクトの最初での、及び最後での歪は、過渡状態の間、定義された周波数を持つ信号が出現し、又は減衰するとき、より短いインパルス応答を持つフィルタは、その変化により迅速に応答するという事実によって生じる。したがって最初においてオブジェクトは、より高い周波数の向きへ曲げられ、最後においてはより低い周波数に向かう。オブジェクトの補正は、オブジェクトの中央部分によって定義された向きへと、最初及び最後におけるオブジェクトの周波数を変形させることに基づき得る。
【0062】
補正システム4によって実行される、本発明による補正の他のタイプは、
図17に示される。フィルタバンク2のフィルタ20を通るオーディオ信号サンプルは、フィルタの出力において変化を生じ、これは信号のシフトとして現れる。このシフトは、通常の性質であり、予測が可能である。その大きさは、フィルタnの窓Kの幅に依存し、この幅は、本発明によれば周波数の関数である。これは、それぞれの周波数は、異なる値だけシフトされることを意味し、これは、信号の音に知覚可能なくらい影響する。シフトの大きさは、フィルタの通常動作の領域ではフィルタ窓の幅の約1/2であり、初期フェーズでは窓の幅の約1/4であり、オブジェクト終端の場合は窓の幅の約3/4である。それぞれの周波数について、シフトの大きさは、予測され得るので、補正システム4の仕事は、オブジェクトの全ての点を反対方向へ適切にシフトすることによって、入力信号の表現のダイナミクスが改善させることである。
【0063】
補正システム4によって実行される、本発明によるさらに他のタイプの補正は、
図18a、
図18b、
図18cに示される。歪は、独立したオブジェクト群である部分に分割する一つのオブジェクトとして現れる。この分割は、例えば、入力信号の成分中の位相変動、密に近接するオブジェクトの干渉又は相互影響によって引き起こされ得る。このタイプの歪の補正には、エンベロープ及び周波数の関数の分析を実行すること、及びそれらオブジェクト群が全体を形成すべきであることを示すことを補正システム4が実行する必要がある。補正は、単純で、特定されたオブジェクト群を1つのオブジェクトに統合することに基づく。
【0064】
補正システム4の仕事には、オーディオ信号の音に少ししか影響しないオブジェクトを除去することもある。本発明によれば、そのようなオブジェクトは、与えられた時刻において信号全体において存在する最大の振幅の1%未満である最大の振幅しか有しないオブジェクトであり得ると判断された。40dBのレベルでの信号の変化は、聴き取れないはずだからである。
【0065】
補正システムは、大まかには、サウンドオブジェクトの形状における全ての不規則さの除去を実行し、その動作は、不連続なオブジェクトの連結、近接するものの近傍のオブジェクトの振動の除去、重要でないオブジェクトと共に、あまりに短くしか持続しないか、又はあまりに弱くしか聴き取れない、干渉するものの除去として分類され得る。
【0066】
音響信号分解のための方法及びシステムの使用の結果を示すために、毎秒44100サンプルでサンプリングされたステレオオーディオ信号の断片がテストされた。信号は、ギター及び歌唱の音を含む音楽の構成物である。2つのチャネルを示す
図19aに示されるプロットは、録音物の約250000個のサンプル(約5.6秒)を含む。
【0067】
図19bは、オーディオ信号の左チャネル(
図19aの上のプロット)についてのフィルタバンク2の動作から得られたスペクトル画像を示す。スペクトル画像は、C2=16.35Hzからe6=10548Hzまでの周波数を有する450個のフィルタ群の出力における振幅を含む。スペクトル画像の左側には、周波数を定義する参照点としてピアノの鍵盤が示されている。さらに低音部記号を持つ譜表、及び高音部記号を持つ譜表の印が付されている。スペクトル画像の水平軸は、構成物の間の時間的な瞬間に対応し、スペクトル画像中の濃い色は、フィルタを経た信号の振幅の値が高いことを示す。
【0068】
図19cは、投票システム32の動作の結果を示す。
図19bのスペクトル画像を
図19cのスペクトル画像と比較すると、要素を構成する信号を表す広いスポットが、入力信号の上記構成要素の正確な位置を表す別個の線群によって置き換わっている。
【0069】
図19dは、149008番目のサンプルについてのA−A線に沿ったスペクトル画像の断面を示し、周波数の関数として振幅を表す。中央の縦軸は、スペクトラムの実数成分及び虚数成分と振幅とを示す。右側の縦軸は、投票信号のピークを示し、要素を構成するオーディオ信号の一時的な位置を示す。
【0070】
図19eは、周波数226.4HzについてのB−B線に沿ったスペクトル画像の断面を示す。プロットは、番号n=182を持つフィルタ2の出力におけるスペクトラムの振幅を示す。
【0071】
図19fでは、サウンドオブジェクトが示される(補正システム4の動作はなし)。縦軸は周波数を示し、横軸はサンプルの番号によって表現された時間を示す。信号のテストされた断片においては、578個のオブジェクトが位置特定され、これらは、578+995 = 1573の点によって記述される。これらのオブジェクトを格納するには、約9780バイトが必要とされる。左チャネルに250000個のサンプルを含む
図19aのオーディオ信号は、直接の格納のために500000バイトを必要とし、本発明による信号分解方法及びサウンドオブジェクトを用いる場合、49のレベルにおける圧縮につながる。補正システム4の使用は、信号の音に無視できるような影響しか与えないオブジェクト群を除去することにより、圧縮レベルをさらに改善する。
【0072】
図19gにおいて、選択されたサウンドオブジェクトの振幅が示されており、これらサウンドオブジェクトは、3次の多項式で作られた滑らかな曲線によって既に決定された特性点を使用して形成されている。図において、最も高い振幅を持つオブジェクトの振幅の10%よりも高い振幅を持つオブジェクトが示されている。
【0073】
本発明による信号分解のための方法及びシステムを用いた結果、本発明によるサウンドオブジェクトが得られ、これらは、音響信号合成のために役に立ち得る。
【0074】
より具体的には、サウンドオブジェクトは、トラックの開始に対するオブジェクトの位置と、オブジェクト中に含まれる点の個数を示す識別子を含む。それぞれの点は、前の点に対するオブジェクトの位置、前の点についての振幅の変化、及び前の点の脈動に対する脈動の変化(対数スケールで表現される)を含む。適切に構築されたオブジェクトにおいては、最初及び最後の点の振幅は、ゼロでなければならない。もしそうでないなら、音響信号においてそのような振幅の飛躍は、クラックとして知覚され得る。重要な前提として、オブジェクト群は、ゼロに等しい位相で始まることがある。もしそうでなければ、開始点は、位相がゼロであるような位置に移動されなければならず、そうでなければ、オブジェクト全体の位相がずれてしまうことになる。
【0075】
そのような情報は、オブジェクトによって表現されたオーディオ信号を構築するのに十分である。単純な場合、点に含まれるパラメータを用いることによって、振幅のエンベロープの多角形の線、及び脈動変化の多角形の線を決定することができる。音響信号を改善し、曲線の断絶の部分で発生する高い周波数を除去するために、2次又はより高い次元の多項式の形の滑らかな曲線を発生することができ、その後続する導関数は、多角形の線(例えば3次スプライン)のピークにおいて等しい。
【0076】
線形補間の場合、ある点から次の点へのオーディオ信号の部分を記述する方程式は、次の形であり得る。
【0077】
【数2】
ここでA
iは点iの振幅、P
iは点iの位置、ω
iは点iの角周波数、Φ
iは点iの位相、Φ
0 = 0である。
【0078】
P個の点で構成されるオブジェクトのオーディオ信号は、上述のオフセットセグメント群の和である。同じように、完全なオーディオ信号は、オブジェクト群のオフセット信号群の和である。
【0079】
合成された
図19aのテスト信号は、
図19hに示される。
【0080】
本発明によるサウンドオブジェクトは、特に音響信号の処理、分析、及び合成におけるさまざまな応用例を可能とする、いくつかの性質を有する。サウンドオブジェクトは、本発明による信号分解のための方法の使用によって、オーディオ信号分解の結果、獲得され得る。サウンドオブジェクトは、
図14dに示されるパラメータの値を定義することによって、分析的に形成されることも可能である。サウンドオブジェクトデータベースは、周囲環境から得られた、又は人工的に作られた音によって形成され得る。3つの座標値を有する点によって記述されるサウンドオブジェクトのいくつかの優位性のある性質が以下に挙げられる。
【0081】
1)サウンドオブジェクトを記述するパラメータに基づいて、振幅及び周波数変動の関数を決定でき、他のオブジェクトに対しての位置を決定できるので、それらからオーディオ信号を構成することができる。
【0082】
2)サウンドオブジェクトを記述するパラメータ群のうちの1つは、時間であり、そのおかげでオブジェクトは時間領域においてシフトされ得て、短縮され得て、及び延長され得る。
【0083】
3)サウンドオブジェクトの第2パラメータは、周波数であり、これのおかげでオブジェクトは、周波数領域においてシフトされ、改変され得る。
【0084】
4)サウンドオブジェクトの次のパラメータは、振幅であり、これのおかげでサウンドオブジェクトのエンベロープは、改変され得る。
【0085】
5)サウンドオブジェクトは、例えば、同じ時間に存在するオブジェクト群、及び/又は高調波である周波数を持つオブジェクト群を選択することによってグループ化され得る。
【0086】
6)グループ化されたオブジェクト群は、オーディオ信号から分離され得るか、又はオーディオ信号に付加され得る。これによって、いくつかの他の信号から新しい信号を作り出したり、又は単一の信号をいくつかの独立する信号に分離したりすることができる。
【0087】
7)グループ化されたオブジェクト群は、増幅されたり(それらの振幅を増大させることによって)、又は無音化されたり(それらの振幅を減少させることによって)し得る。
【0088】
8)オブジェクト群のグループに含まれる高調波の振幅の性質を改変することによって、グループ化されたオブジェクト群の音色を改変することができる。
【0089】
9)高調波の周波数を増大又は減少させることによって、全てのグループ化された周波数の値を改変することができる。
【0090】
10)成分周波数の傾き(立ち下がり又は立ち上がり)を改変することによって、サウンドオブジェクト中に含まれる可聴である情動を改変することができる。
【0091】
11)3つの座標値を持つ点によって記述されるオブジェクトの形でオーディオ信号を呈示することによって、信号中に含まれる情報を損失することなく、要求されるデータバイトの個数を大幅に低減することができる。
【0092】
サウンドオブジェクトの性質を考慮して、それらのための多くの応用例が定義され得る。例示的な応用例としては、次のものを含む。
1)信号中に存在するサウンドオブジェクトの適切なグループ化に基づいた、楽器又は話者のような、オーディオ信号源の分離。
2)オーディオ信号からの個々の楽器についての楽譜の自動生成。
3)音楽演奏中における楽器の自動チューニングのための装置。
4)分離された話者の声を音声認識システムに転送すること。
5)分離された声の中に含まれる感情の認識。
6)分離された話者の特定。
7)認識された楽器の音色の改変。
8)楽器の置換(例えばピアノの代わりにギターで演奏)。
9)話者の声の改変(上昇、下降、感情の変換、イントネーション)。
10)話者の声の置換。
11)感情及びイントネーションの制御の可能性を持つ声の合成。
12)談話の滑らかな接合。
13)干渉のある環境の下であっても装置の音声制御。
14)新しい音、「サンプル」、ふつうにはない音の創造。
15)新しい楽器。
16)音の空間管理。
17)データ圧縮のさらなる可能性。
【0093】
さらなる実施形態
本発明のある実施形態によれば、音響信号の、ゆっくり変化する振幅及び周波数を持つ正弦波の形態を有するサウンドオブジェクトへの分解のための方法は、短期間信号モデルのパラメータを決定するステップ、及び前記短期間パラメータに基づいて長期信号モデルのパラメータを決定するステップを備え、ここで短期間信号モデルのパラメータを決定するステップは、アナログ音響信号をデジタル入力信号P
INに変換することを含み、ここで前記短期間信号モデルのパラメータを決定するステップにおいて、前記入力信号P
INは、それから前記音響信号のサンプル群をデジタルフィルタバンクの入力に与えることによって、対数スケールで分布された中心周波数群を持つ近接するサブバンド群に分離し、それぞれのデジタルフィルタは、公称中心周波数に比例する窓長を有し、
・それぞれのフィルタ(20)の出力において、フィルタを経た信号の実数値FC(n)及び虚数値FS(n)がサンプル毎に決定され、それからこれに基づいて、
・前記音響信号の全ての検出された構成要素の周波数、振幅、及び位相がサンプル毎に決定され、
・前記フィルタを経た信号の周波数領域の解像度を改善する操作は、サンプル毎に実行され、それぞれの連続するフィルタ(20)の角周波数値に実質的に似た角周波数値を出力する近隣のフィルタ(20)の個数を反映する、数学的操作から得られる関数FG(n)の極大値群に基づいて全ての検出された構成要素の周波数を決定するステップを少なくとも伴い、
そこにおいて、長期間信号モデルのパラメータを決定する前記ステップにおいて:
・前記音響信号のそれぞれの検出された要素について、アクティブオブジェクトデータベース(34)中のアクティブオブジェクトがそのトラッキングのために作られ、
・前記音響信号の後続の検出された要素は、前記アクティブオブジェクトデータベース(34)中の少なくとも選択されたアクティブオブジェクトとサンプル毎に関連付けられることによって、新しいアクティブオブジェクトを作り、又は前記検出された要素をアクティブオブジェクトに付加し、又はアクティブオブジェクトをクローズし、
・データベース(34)中のそれぞれのアクティブオブジェクトについて、振幅のエンベロープの値、及び周波数の値、及びそれらの対応する時刻が、与えられたフィルタ(20)の窓W(n)の持続期間の1周期当たり1回以上の頻度で決定されることによって、サウンドオブジェクトのゆっくり変化する正弦波波形を記述する特徴点を作り、
・少なくとも1つの選択されたクローズされたアクティブオブジェクトがサウンドオブジェクトのデータベース(35)に転送されることによって、時間・周波数・振幅の空間における座標を持つ特徴点群のセットによって定義された、少なくとも1つの分解されたサウンドオブジェクトを得る。
【0094】
本方法は、選択されたサウンドオブジェクトの振幅及び/又は周波数を補正するステップを伴うことによって、デジタルフィルタバンクによって発生するサウンドオブジェクト中の予期される歪を低減、選択サウンドオブジェクトを補正するステップをさらに含み得る。
【0095】
フィルタを経た信号の周波数領域の解像度を改善することは、選択されたフィルタ群の窓の長さを増すステップをさらに含み得る。
【0096】
フィルタを経た信号の周波数領域の解像度を改善する操作は、確実に位置特定された近接するサウンドオブジェクトの予期されたスペクトラムを、フィルタの出力におけるスペクトラムから減じるステップをさらに含み得る。
【0097】
フィルタを経た信号の周波数領域の解像度を改善する操作は、確実に位置特定された近接するサウンドオブジェクトに基づいて発生されたオーディオ信号を、入力信号から減じるステップをさらに含み得る。
【0098】
本発明のさらなる実施形態による、音響信号を、ゆっくり変化する振幅及び周波数を持つ正弦波波形の形を有するサウンドオブジェクトに分解するシステムは、短期間信号モデルのパラメータを決定するサブシステム、及び前記パラメータに基づいて長期間信号モデルのパラメータを決定するサブシステムを備え、
前記短期間パラメータを決定するサブシステムは、アナログ音響信号をデジタル入力信号P
INに変換するコンバータシステム、ここで前記短期間パラメータを決定するサブシステムは、対数分布にしたがって分布されるフィルタ中心周波数群を持つフィルタバンク(20)をさらに備え、それぞれのデジタルフィルタは、中心周波数に比例した窓長を有し、それぞれのフィルタ(20)は、フィルタを経た信号の実数値FC(n)及び虚数値FS(n)を決定するよう構成され、フィルタバンク(2)は、オブジェクトをトラッキングするシステム(3)に接続され、前記オブジェクトをトラッキングするシステム(3)は、入力信号P
INの全ての構成要素を検出するよう構成されたスペクトラム分析システム(31)、それぞれの連続するフィルタ(20)の角周波数値に実質的に近い角周波数を出力する近接するフィルタ群(20)の個数を反映する数学的操作から得られる関数FG(n)の極大値に基づいて全ての検出された構成要素の周波数を決定するよう構成された投票システム(32)を備え、前記長期間パラメータを決定するサブシステムは、オブジェクトを関連付けるシステム(33)、ゆっくり変化する正弦波波形を記述する特徴点を決定するよう構成された成形システム(37)、アクティブオブジェクトデータベース(34)、及びサウンドオブジェクトデータベース(35)を備える。
【0099】
オブジェクトをトラッキングするシステム(3)は、個々の選択されたサウンドオブジェクト群の振幅及び/又は周波数を補正することによって、デジタルフィルタバンクによって発生したサウンドオブジェクト中の予期された歪を低減するよう構成された、及び/又は不連続なオブジェクトを結合し、及び/又は選択されたサウンドオブジェクトを除去するよう構成された、補正システム(4)をさらに備えてもよい。
【0100】
本システムは、選択されたフィルタの窓長を増加させるよう、及び/又は確実に位置特定された近接サウンドオブジェクトの予期されたスペクトラムをフィルタの出力におけるスペクトラムから減じるよう、及び/又は確実に位置特定された近接サウンドオブジェクトに基づいて発生されたオーディオ信号を入力信号から減じるよう構成された解像度改善システム(36)をさらに備えてもよい。
【手続補正書】
【提出日】2018年3月28日
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音響信号をデジタルサウンドオブジェクトに分解する方法であって、デジタルサウンドオブジェクトは前記音響信号の成分を表し、前記成分は波形を有し、前記方法は、
前記アナログ音響信号をデジタル入力信号(PIN)に変換するステップであって、前記デジタル信号は、前記音響信号のサンプル群を含む、変換するステップ、
それぞれのサンプルについて、デジタルフィルタ群(n)を備えるデジタルフィルタバンクを用いて、前記デジタル入力信号の瞬時周波数成分を求めるステップ、
それぞれのサンプルについて、前記瞬時周波数成分の瞬時振幅を求めるステップ、
それぞれのサンプルについて、前記瞬時周波数に関連付けられた前記デジタル入力信号の瞬時位相を求めるステップ、
少なくとも1つのデジタルサウンドオブジェクトを作るステップであって、前記デジタルサウンドオブジェクトは、前記求められた瞬時周波数、位相、及び振幅を含む、作るステップ、及び
前記デジタルサウンドオブジェクトをサウンドオブジェクトデータベースに格納するステップ
を含み、
それぞれのサンプルについて、それぞれのフィルタ(n)について、前記音響信号中に存在する周波数群の位置が、それぞれのフィルタ(n)の出力における角周波数の値及びその公称角周波数の交点に基づいて求められる
方法。
【請求項2】
前記デジタルフィルタバンク中のデジタルフィルタは、その中心周波数に比例する窓長を有する、請求項1に記載の方法。
【請求項3】
前記フィルタバンクの中心周波数群は、対数スケールに従って分布する、請求項2に記載の方法。
【請求項4】
前記フィルタを経た信号の周波数領域の解像度を改善する操作がサンプル毎に実行される、請求項1に記載の方法。
【請求項5】
前記瞬時周波数成分を求めるステップは、前記デジタルフィルタバンクの近接デジタルフィルタを用いて求められた1つ以上の瞬時周波数成分を考慮する、請求項1に記載の方法。
【請求項6】
前記瞬時周波数は、前記デジタル入力信号の後続するサンプル群にわたってトラッキングされる、請求項1に記載の方法。
【請求項7】
振幅のエンベロープの値及び周波数の値及びそれらの対応する時刻を求めることによって、前記サウンドオブジェクトの前記波形を記述する時間・周波数・振幅の空間における座標を持つ特徴点を作る、請求項6に記載の方法。
【請求項8】
前記値は、与えられたフィルタ(20)の窓W(n)の持続期間の1周期当たり1回以上の頻度で求められる、請求項7に記載の方法。
【請求項9】
選択されたサウンドオブジェクトの振幅及び/又は周波数を補正することによって、前記デジタルフィルタバンクによって生じた、前記サウンドオブジェクト中の予期される歪を低減するステップをさらに備える、請求項6に記載の方法。
【請求項10】
前記フィルタを経た信号の前記周波数領域の解像度を改善することは、選択されたフィルタ群の窓長を増加させるステップをさらに含む、請求項4に記載の方法。
【請求項11】
前記フィルタを経た信号の前記周波数領域の解像度を改善することは、位置を求められた近接するサウンドオブジェクトの予期されたスペクトラムを前記フィルタ群の出力におけるスペクトラムから減じるステップをさらに備える、請求項4に記載の方法。
【請求項12】
前記フィルタを経た信号の前記周波数領域の解像度を改善することは、位置を求められた近接するサウンドオブジェクトに基づいて生成されたオーディオ信号を前記入力信号から減じるステップをさらに備える、請求項4に記載の方法。
【請求項13】
デジタルサウンドオブジェクトであって、前記デジタルサウンドオブジェクトは、請求項1〜12のいずれか1項に記載の方法によって生成された、音響信号の少なくとも1つの成分の波形を表す少なくとも1つのパラメータセットを備える、デジタルサウンドオブジェクト。
【請求項14】
請求項1〜13のいずれか1項に記載のサウンドオブジェクトを記憶する不揮発性のコンピュータで読み取り可能な媒体。
【請求項15】
オーディオ信号を生成する方法であって、
請求項13に記載のデジタルサウンドオブジェクトを受け取るステップ、
前記デジタルサウンドオブジェクトをデコードすることによって、前記オーディオ信号の少なくとも1つの成分の波形を記述する少なくとも1つのパラメータセットを抽出するステップ、
前記パラメータセットから前記波形を生成するステップ、
前記生成された波形に基づいて、前記オーディオ信号を合成するステップ、及び
前記オーディオ信号を出力するステップ
を含む方法。
【国際調査報告】