特許第6044119号(P6044119)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特許6044119-音響解析装置およびプログラム 図000034
  • 特許6044119-音響解析装置およびプログラム 図000035
  • 特許6044119-音響解析装置およびプログラム 図000036
  • 特許6044119-音響解析装置およびプログラム 図000037
  • 特許6044119-音響解析装置およびプログラム 図000038
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6044119
(24)【登録日】2016年11月25日
(45)【発行日】2016年12月14日
(54)【発明の名称】音響解析装置およびプログラム
(51)【国際特許分類】
   G10L 25/27 20130101AFI20161206BHJP
   G10G 3/04 20060101ALI20161206BHJP
   G10L 25/51 20130101ALI20161206BHJP
   G10L 21/0272 20130101ALI20161206BHJP
【FI】
   G10L25/27
   G10G3/04
   G10L25/51 300
   G10L21/0272
【請求項の数】6
【全頁数】20
(21)【出願番号】特願2012-123780(P2012-123780)
(22)【出願日】2012年5月30日
(65)【公開番号】特開2013-250357(P2013-250357A)
(43)【公開日】2013年12月12日
【審査請求日】2015年3月24日
【新規性喪失の例外の表示】特許法第30条第2項適用 一般社団法人情報処理学会 研究報告音楽情報科学(MUS) Vol.2012−MUS−94 No.27、2012年1月27日発行
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】安良岡 直希
【審査官】 安田 勇太
(56)【参考文献】
【文献】 国際公開第2005/066927(WO,A1)
【文献】 Virtanen, T., Klapuri, A.,Analysis of polyphonic audio using source-filter model and non-negative matrix factorization,Advances in Models for Acoustic Processing, Neural Information Processing Systems Workshop,2006年
(58)【調査した分野】(Int.Cl.,DB名)
G10L 25/00 −25/93
G10G 3/00 − 3/04
G10L 21/00 −21/18
(57)【特許請求の範囲】
【請求項1】
第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素と、第2全極型伝達関数でスペクトル包絡が表現されて相異なる音色に対応する複数の非調波要素とを、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数および前記第2全極型伝達関数係数と前記各調波要素および前記各非調波要素の音量と前記各調波構造の基本周波数とを反復的な更新で推定する変数解析手段
を具備する音響解析装置。
【請求項2】
前記調波成分に対応する各スペクトル包絡と前記非調波要素に対応する各スペクトル包絡とは時不変である
請求項1の音響解析装置。
【請求項3】
前記第1全極型伝達関数で表現される調波成分のスペクトル包絡と、当該調波成分の基本周波数の時間変化と、前記第2全極型伝達関数で表現される非調波要素のスペクトル包絡と、当該非調波要素の音量の時間変化とを含む解析結果画像を表示装置に表示させる表示制御手段
を具備する請求項1または請求項2の音響解析装置。
【請求項4】
第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素を、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数の係数と前記各調波要素の音量と前記各調波構造の基本周波数とを反復的な更新で推定する変数解析手段を具備し、
前記変数解析手段は、複数の基本周波数の各々の初期化後に前記音響モデルの各変数の更新処理を反復し、更新処理の反復過程で閾値を下回る音量となった調波構造に対応する各変数の更新を以後の更新処理での更新対象から除外する音響解析装置。
【請求項5】
第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素と、第2全極型伝達関数でスペクトル包絡が表現されて相異なる音色に対応する複数の非調波要素とを、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数および前記第2全極型伝達関数係数と前記各調波要素および前記各非調波要素の音量と前記各調波構造の基本周波数とを反復的な更新で推定する解析処理
をコンピュータに実行させるプログラム。
【請求項6】
第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素を、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数の係数と前記各調波要素の音量と前記各調波構造の基本周波数とを反復的な更新で推定する解析処理
をコンピュータに実行させるプログラムであって、
前記解析処理においては、複数の基本周波数の各々の初期化後に前記音響モデルの各変数の更新処理を反復し、更新処理の反復過程で閾値を下回る音量となった調波構造に対応する各変数の更新を以後の更新処理での更新対象から除外するプログラム
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音響信号を解析する技術に関する。
【背景技術】
【0002】
音響信号を要素成分毎(例えば楽器毎)に分離する技術が従来から提案されている。例えば非特許文献1には、非負値行列因子分解(NMF:Non-negative Matrix Factorization)を利用した音源分離が開示されている。非負値行列因子分解を利用した音源分離では、音響信号の各成分の振幅スペクトルに対応する基底ベクトルを配列した基底行列と、各基底ベクトルの加重値の時間変化を示す係数行列とに音響信号が分解される。非特許文献2には、複数のガウス分布を周波数軸上に等間隔に配列した音響モデルを定義し、音響信号の振幅スペクトルを時刻毎に複数の音響モデルに分配する技術(ハーモニッククラスタリング)が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】P. Smaragdis, et. al., "Non-negative Matrix Factorization for Polyphonic Music Transcription", Proc. IEEE Workshop on Applications of Signal Processing to Audio and Acoustics, 2003, p. 170-180
【非特許文献2】H. Kameoka, et. al., "Extraction of Multiple Fundamental Frequencies from Polyphonic Music Using Harmonic Clustering", In Proceedings of 18th International Congress on Acoustics, 2004, p. I-59-62
【発明の概要】
【発明が解決しようとする課題】
【0004】
非特許文献1の技術では、音色が共通で音高が相違する複数の音響(例えば1種類の楽器が発音した各音高の音響)が相異なる基底ベクトルに分離されるため、基底行列内の複数の基底ベクトルを音色毎(楽器毎)に正確に分類することが困難であるという問題がある。また、非特許文献2の技術では、音響信号の振幅スペクトルが時刻毎に独立に複数の音響モデルに分配されるから、時間的な変動が小さい音響特性(典型的には楽器毎の音色)を推定できず、非特許文献1と同様に、音響信号を音色毎に正確に分離することは困難である。以上の事情を考慮して、本発明は、音響信号の相異なる音色に対応する調波成分を高精度に解析することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の音響解析装置は、第1全極型伝達関数(例えば全極型伝達関数1/|Afj|)で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡(例えばJ個のスペクトル包絡VAfj)の各々と、ガウス関数列で表現されて相異なる基本周波数(例えば基本周波数μnk)に対応する複数の調波構造(例えばK個の調波構造Gn,fk)の各々との組合せに対応する複数の調波要素(例えば調波要素EAnj,k)を、要素毎の音量(例えば音量Unm)で混合した音響モデルのスペクトログラム(例えばスペクトログラムXn,f)が、対象音響信号(例えば音響信号Sy)のスペクトログラム(例えばスペクトログラムYn,f)に近似するように、第1全極型伝達関数の係数(例えば係数αpj)と各調波要素の音量と各調波構造の基本周波数とを反復的な更新で推定する変数解析手段を具備する。以上の構成によれば、調波成分に関連する各変数を高精度に解析することが可能である。なお、本発明の好適な態様において、調波成分に対応する各スペクトル包絡(調波成分の音色)は時不変とされる。以上の構成によれば、例えばガウス関数列を適用した時変のモデルで調波成分の各スペクトル包絡を表現した場合と比較して、調波成分のスペクトル包絡を高精度に推定できるという利点がある。
【0007】
本発明の好適な態様において、音響モデルは、第2全極型伝達関数(例えば全極型伝達関数1/|Bfl|)でスペクトル包絡(例えばスペクトル包絡VBfl)が表現されて相異なる音色に対応する複数の非調波要素(例えばL個の非調波要素EBl)と複数の調波要素とを要素毎の音量で混合し、変数解析手段は、音響モデルのスペクトログラムと対象音響信号のスペクトログラムとが相互に近似するように、第1全極型伝達関数および第2全極型伝達関数の各係数と、各調波要素および各非調波要素の音量と、各調波構造の基本周波数とを、反復的な更新で推定する。以上の態様では、調波成分および非調波成分の双方について各変数を高精度に解析できるという利点がある。なお、本発明の好適な態様において、非調波要素に対応する各スペクトル包絡(非調波成分の音色)は時不変とされる。以上の構成によれば、例えばガウス関数列を適用した時変のモデルで非調波成分の各スペクトル包絡を表現した場合と比較して、非調波成分のスペクトル包絡を高精度に推定できるという利点がある。
【0008】
本発明の好適な態様において、変数解析手段は、音響モデルのスペクトログラムと対象音響信号のスペクトログラムとの間のIダイバージェンスが最小となるように音響モデルの各変数を推定する。
【0009】
本発明の好適な態様において、変数解析手段は、複数の基本周波数の各々の初期化後に音響モデルの各変数の更新処理を反復し、更新処理の反復過程で閾値を下回る音量となった調波構造に対応する各変数の更新を以後の更新処理での更新対象から除外する。以上の態様では、閾値を下回る音量となった調波構造に対応する各変数の更新が以後の更新処理での更新対象から除外されるから、全部の調波構造について更新処理を最後まで継続する構成と比較して演算量が削減されるという利点がある。
【0010】
本発明の好適な態様に係る音響解析装置は、第1全極型伝達関数で表現される調波成分のスペクトル包絡と、当該調波成分の基本周波数の時間変化と、第2全極型伝達関数で表現される非調波要素のスペクトル包絡と、当該非調波要素の音量の時間変化とを含む解析結果画像を表示装置に表示させる表示制御手段を具備する。以上の態様では、各調波成分の基本周波数(音高)の時間変化と各非調波成分の音量の時間変化とを利用者が視覚的に容易に把握できるという利点がある。
【0011】
本発明の好適な態様に係る音響解析装置は、変数解析手段が解析した複数の音量のうち特定の要素成分に対応する音量を変更することで当該要素成分を抑圧するフィルタ(例えばフィルタ(例えばフィルタFn,f)を設定するとともにフィルタを対象音響信号に作用させる信号処理手段を具備する。本発明の音響解析装置によれば、対象音響信号の各調波成分が高精度に解析されるから、変数解析手段による解析結果に応じたフィルタを対象音響信号に作用させることで、対象音響信号の要素成分を高精度に抑圧することが可能である。
【0012】
以上の各態様に係る音響解析装置は、音響信号の解析に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)によって実現されるほか、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働によっても実現される。本発明のプログラムは、第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素を、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、第1全極型伝達関数の係数と各調波要素の音量と各調波構造の基本周波数とを反復的な更新で推定する解析処理をコンピュータに実行させる。以上のプログラムによれば、本発明の音響解析装置と同様の作用および効果が奏される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0013】
図1】本発明のひとつの実施形態に係る音響解析装置のブロック図である。
図2】音響モデルの説明図である。
図3】変数解析部が実行する解析処理のフローチャートである。
図4】解析結果画像の模式図である。
図5】実施形態の効果の説明図である。
【発明を実施するための形態】
【0014】
図1は、本発明の好適な実施形態に係る音響解析装置100のブロック図である。本実施形態の音響解析装置100は、音色が相違する複数の音響成分(調波成分および非調波成分)が混合された音響信号Syを解析する信号処理装置であり、図1に示すように、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステムで実現される。
【0015】
演算処理装置10は、記憶装置12に格納されたプログラムPGMを実行することで、音響信号Syを解析するための複数の機能(周波数分析部22,変数解析部24,表示制御部26,信号処理部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。
【0016】
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置12として任意に採用され得る。本実施形態の記憶装置12は音響信号Syを記憶する。なお、可搬型または内蔵型の記録媒体を再生する外部再生装置(図示略)から音響解析装置100が音響信号Syを取得することも可能である。
【0017】
表示装置14(例えば液晶表示パネル)は、演算処理装置10による解析結果を表示する。入力装置16は、利用者からの指示を受付ける機器であり、例えば複数の操作子を含んで構成される。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10から指示された音波を再生する。
【0018】
周波数分析部22は、音響信号SyのスペクトログラムYn,fを算定する。スペクトログラムYn,fは、時間軸上のフレーム毎に算定された振幅スペクトルの時系列である。記号nは、時間軸上に離散的に設定された任意の時点(フレームの番号)を意味し、記号fは、周波数軸上に離散的に設定された任意の周波数(周波数ビン)を意味する。スペクトログラムYn,fの算定には、短時間フーリエ変換等の公知の周波数解析が任意に採用される。
【0019】
本実施形態では、図2の音響モデルで生成されるスペクトログラムXn,fを音響信号SyのスペクトログラムYn,fのモデルとして想定する。図2に示すように、(J×K)個の調波要素EAnj,kの各々を要素毎の音量Hnj,kに応じて調整するとともにL個の非調波要素EBlの各々を要素毎の音量Inlに応じて調整し、調整後の各調波要素EAnj,kと調整後の各非調波要素EBlと((JK+L)個)を加算する音響モデルでスペクトログラムXn,fは表現される。
【0020】
(J×K)個の調波要素EAnj,kは、相異なる音色(例えば楽器毎)の調波成分に対応するJ個のスペクトル包絡VAfjの各々と、相異なる基本周波数(音高)μnkに対応するK個の調波構造Gn,fkの各々との(J×K)通りの組合せに対応する。1個のスペクトル包絡VAfjは、例えば弦楽器や管楽器等の調波性の1種類の楽器が発音する調波音のスペクトルの包絡線に相当する。なお、本実施形態では、各調波成分のスペクトル包絡VAfjが時間的に変動しない(すなわち各調波成分の音色が時不変である)と仮定する。他方、調波構造Gn,fkは、基本周波数μnkに対応する基音成分と基本周波数μnkの整数倍の周波数に対応する複数の倍音成分とを配列した系列であり、基本周波数μnkに応じて時刻n毎に刻々と変動する。音量Hnj,kは、J個のうち第j番目のスペクトル包絡VAfjとK個のうち第k番目の調波構造Gn,fkとの組合せに対応する調波要素EAnj,kの音量(加重値)に相当し、時刻n毎に刻々と変動する。
【0021】
他方、L個の非調波要素EBlは、相異なる音色の非調波成分に対応するL個のスペクトル包絡VBflに対応する。1個のスペクトル包絡VBflは、例えば打楽器等の非調波性の1種類の楽器が発音する非調波音のスペクトルの包絡線に相当する。調波成分のスペクトル包絡VAfjと同様に、本実施形態では、各非調波成分のスペクトル包絡VBflが時間的に変動しない(すなわち各非調波成分の音色が時不変である)と仮定する。音量Inlは、L個のうち第l番目のスペクトル包絡VBflに対応する非調波要素EBlの音量(加重値)に相当し、時刻n毎に刻々と変動する。
【0022】
以上の説明から理解されるように、図2の音響モデルで生成されるスペクトログラムXn,fは以下の数式(1)で定義される。なお、数式(1)の記号「:=」は定義を意味する。数式(1)の右辺の第1項が調波成分に対応し、第2項が非調波成分に対応する。
【数1】
【0023】
数式(1)の関数1/|Afj|は、第j番目の調波成分のスペクトル包絡VAfjをP個の係数αpj(p=1〜P)に応じて表現する数式(2)の全極型伝達関数である。なお、記号iは虚数単位を意味する。また、記号f'は、周波数(周波数ビン)fに対応する正規化角周波数を意味する。
【数2】
【0024】
同様に、数式(1)の関数1/|Bfl|は、第l番目の非調波成分のスペクトル包絡VBflをQ個の係数βql(q=1〜Q)に応じて表現する数式(3)の全極型伝達関数である。係数αpjの個数Pや係数βqlの個数Qは例えば10個程度に設定される。
【数3】
【0025】
数式(1)の調波構造Gn,fkは、基本周波数μnkの基音成分と基本周波数μnkの整数倍の周波数(h×μnk)の各倍音成分とに対応するガウス分布(ガウス関数)を基本周波数μnkに応じた間隔で周波数軸上に配列したガウス関数列を意味する以下の数式(4)で表現される。
【数4】

数式(4)の記号hは倍音成分の次数(整数)を意味し、記号σ2はガウス分布の分散を意味する。分散σ2は、例えば単一の所定値に設定される。数式(4)の調波構造Gn,fkによれば、基本周波数μnkに応じてガウス関数列が時刻n毎に周波数軸上で伸縮されるから、ビブラート等の微細な音高の変動も適切に表現できる。
【0026】
ところで、H. Kameoka, et. al., "Speech Spectrum Modeling for Joint Estimation of Spectral Envelope and Fundamental Frequency", IEEE Trans. on Audio, Speech and Language Processing, Vol. 18, No.6, p. 1507-1516, 2010(以下「非特許文献3」という)には、調波成分および非調波成分の双方をガウス関数列でモデル化する構成が開示されている。ガウス関数列(各ガウス分布の間隔)は音高に応じて刻々と変動する。すなわち、非特許文献3の構成では、調波成分および非調波成分の双方のスペクトル包絡が時間的に変動する(音色が時変である)ことが前提となる。他方、本実施形態では、全極型伝達関数1/|Afj|を適用した時不変のモデルで各調波成分のスペクトル包絡VAfjが表現され、全極型伝達関数1/|Bfl|を適用した時不変のモデルで各非調波成分のスペクトル包絡VBflが表現される。全極型伝達関数は共鳴過程のモデルとして好適であり、かつ、音色(スペクトル包絡)が時不変であるという過程は現実の音響の傾向に充分に整合するから、本実施形態によれば、非特許文献3の構成と比較して、各調波成分のスペクトル包絡VAfjや各非調波成分のスペクトル包絡VBflを高精度に推定できるという格別の効果が実現される。
【0027】
説明の便宜のため、(J×K)個の調波要素EAnj,kとL個の非調波要素EBlとに対して図2の上方から下方に向けて通し番号(0,1,2,……,JK+L−1)を付与し、任意の1個の要素を変数m(m=0〜JK+L−1)で表現したうえで、以下の数式(5)のように変数Wn,fmおよび変数Unmを定義する。なお、数式(5)の記号modは剰余を意味し、記号〈 〉は床関数を意味する。
【数5】
【0028】
数式(5)の関係を利用すると、前掲の数式(1)は以下の数式(6)のように変形される。
【数6】

数式(6)から理解されるように、音響モデルのスペクトログラムXn,fは、各要素成分(各調波要素EAnj,k,各非調波要素EBl)に対応するM個((JK+L)個)のスペクトルパターンWn,fmと各要素成分に対応するM個の時変な音量Unmとで表現される。
【0029】
図1の変数解析部24は、数式(6)で表現される音響モデルのスペクトログラムXn,fと周波数分析部22が算定した音響信号SyのスペクトログラムYn,fとが相互に近似するように音響モデルの各変数を推定する。具体的には、変数解析部24は、各調波構造Gn,fkの基本周波数μnkと、各調波成分のスペクトル包絡VAfjを表現する全極型伝達関数1/|Afj|の各係数αpjと、各非調波成分のスペクトル包絡VBflを表現する全極型伝達関数1/|Bfl|の各係数βqlと、各調波要素EAnj,kおよび各非調波要素EBlの音量Unm(Hnj,k,Inl)とを推定する。各変数(μnk,αpj,βql,Unm)は反復的な更新で推定される。
【0030】
変数解析部24による各変数の推定は、以下の数式(7)で表現されるように、スペクトログラムXn,fとスペクトログラムYn,fとの乖離の度合を表現する評価関数(距離規準)Qを各変数{μnk,αpj,βql,Unm}に関して(w.r.t.:with respect to)最小化する最適化問題として定式化される。
【数7】
【0031】
本実施形態では、以下の数式(8)で表現されるように、スペクトログラムXn,fとスペクトログラムYn,fとのIダイバージェンスを評価関数Qとして採用する。
【数8】
【0032】
<Iダイバージェンスを規準とした全極型伝達関数の係数の推定>
図2の音響モデルを評価する評価関数Qに数式(8)のIダイバージェンスを適用する場合、全極型伝達関数(1/|Afj|,1/|Bfl|)の各係数(αpj,βql)を推定するための更新式の導出が問題となる。そこで、変数解析部24による具体的な処理の説明に先立ち、数式(9)で表現されるように、時間軸上の1個の時刻(したがって時刻nは省略される)での振幅スペクトルYfを全極型伝達関数γ/|Af|で近似する場合を仮定して、全極型伝達関数γ/|Af|の係数αpを推定するという小課題を便宜的に検討する。
【数9】

数式(9)の記号「〜」は近似を意味する。また、数式(9)の記号γは、小課題の検討のために便宜的に導入した音量を意味する。振幅スペクトルYfと全極型伝達関数γ/|Af|との乖離の度合をIダイバージェンスで規定する評価関数Qは、以下の数式(10)で表現される。ただし、数式(10)では、係数αpの推定に関係しない要素を省略した。
【数10】
【0033】
数式(10)の評価関数Qを最小化する係数αpの更新式を検討する。仮に評価関数Qが係数αpの2次形式であれば、評価関数Qの係数αpによる偏微分がゼロになるときの係数αpの数値が更新値となり、この条件から係数αpの更新式を解析的に導出することが可能である。しかし、数式(10)で表現される評価関数Qは係数αpの2次形式ではないから、更新式の解析的な導出は困難である。以上の事情を考慮して、係数αpの2次形式で表現される適切な補助関数を設定する補助関数法を利用して係数αpの更新式を導出する。
【0034】
補助関数法は、補助変数ξに対する補助関数Q+(θ,ξ)の最小値が本来の最小化の目的となる関数Q(θ)に合致するように補助関数Q+(θ,ξ)を設計し(Q(θ)=min Q+(θ,ξ))、補助関数Q+(θ,ξ)について補助変数ξに関する最小化と本来の変数θに関する最小化とを反復することで間接的に本来の関数Q(θ)を単調減少させる手法である。補助関数Q+(θ,ξ)を最小にする変数θおよび変数ξの双方が解析的に解けるように補助関数Q+(θ,ξ)を設計すれば、変数の推定は簡単化される。
【0035】
数式(10)の括弧内の第1項の対数関数log|Af|の非線形性を解消するために以下の数式(11)を想定する。
【数11】

数式(11)の右辺は、変数|Af|2が変数ρfとなる地点での接線に相当するから、変数ρfを補助変数とする補助関数として利用できる。数式(11)の等号が成立するのは、補助変数ρfが変数|Af|2に合致する場合(ρf←|Af|2)である。
【0036】
次に、数式(10)の括弧内の第2項の逆数を解消するために、以下の数式(12)で表現されるように点τfを中心とする2次のテイラー近似を検討する。
【数12】

数式(12)の右辺は目的関数1/|Af|を下回る可能性があるため、補助関数の要件を厳密には充足しないが、変数τfを変数|Af|に合致させれば凸関数に対するニュートン法と同形になるから、変数τfを補助変数と見做した効率的かつ安定的な最適化が可能である。
【0037】
数式(11)および数式(12)を利用することで、数式(10)の評価関数Qに対する数式(13)の補助関数Q+が導出される。なお、数式(13)の変数Cは、係数αpを含まない要素を意味する。
【数13】
【0038】
数式(13)は、変数|Af|に対して線形であるが、係数αpに関する2次形式には依然として到達していない。そこで、複素数の補助関数ωfを変数|Af|に適用した以下の数式(14)を想定する。
【数14】

数式(14)の記号Re[ ]は実部を意味し、記号*は複素共役を意味する。
【0039】
数式(14)と前掲の数式(9)とを数式(13)に適用することで、係数αpの2次形式で表現される数式(15)の補助関数Q++が導出される。
【数15】
【0040】
数式(15)を利用した係数αpの更新を検討する。前述の3種類の補助変数(ρf,τf,ωf)を数式(16)のように更新し、数式(15)を係数αpで偏微分してゼロとすることで以下の数式(17)が導出される。
【数16】

【数17】
【0041】
変数pのP個分を連立することで、振幅スペクトルYfと全極型伝達関数γ/|Af|とのIダイバージェンス(数式(10)の評価関数Q)が最小化されるように全極型伝達関数γ/|Af|の係数αpを更新する更新式(18)が導出される。
【数18】

数式(18)は対称テプリッツ(Toeplitz)型の方程式であり、レビンソン-ダービン(Levinson-Durbin)アルゴリズムを利用することで高速に演算することが可能である。
【0042】
以上の検討を踏まえて、図1の変数解析部24が音響モデルの各変数(μnk,αpj,βql,Unm)を推定するための更新式を検討する。
【0043】
<音量Unm
評価関数Qを定義する数式(8)のうち括弧内の第1項の対数関数log(1/Xn,f)(=−logXn,f)に着目する。音響モデルのスペクトログラムXn,fを表現する数式(6)を考慮すると、対数関数−logXn,fは、対数関数が総和(Σ)を内包する形式であると理解できる。以上の形式を解消する(対数関数内から総和を除去する)ためにイェンゼン(Jensen)の不等式を適用すると、以下の数式(19)が導出される。
【数19】

数式(19)の変数λn,fmは、任意の変数n,f,mについて正数であり(∀n,f,m:λn,fm>0)、任意の変数nおよびfについて総和が1となる変数(∀n,f:Σλn,fm=1)である。数式(19)で等号が成立する条件は、ラグランジュ(Lagrange)の未定乗数法を利用して導出される以下の数式(20)で表現される。
【数20】
【0044】
数式(19)を利用することで、数式(8)の評価関数Qに対する数式(21)の補助関数Q+(対数関数が総和を内包しない形式)が導出される。記号Cは、音響モデルの変数(μnk,αpj,βql,Unm)を含まない要素を意味する。
【数21】
【0045】
数式(21)を音量Unmで偏微分することで以下の数式(22)が導出される。
【数22】

数式(22)をゼロとすることで、数式(8)の評価関数Q(スペクトログラムXn,fとスペクトログラムYn,fとのIダイバージェンス)が最小化されるように音量Unmを更新する以下の更新式(23)が導出される。
【数23】
【0046】
<全極型伝達関数の係数αpjおよび係数βql
前掲の数式(21)を変形すると、各調波成分のスペクトル包絡VAfjを表現する全極型伝達関数1/|Afj|の係数αpjに関連する要素は以下の数式(24)で表現される。
【数24】
【0047】
数式(24)が、前述の小課題の検討で想定した数式(10)の右辺と類似する形式であることを考慮すると、数式(10)に対応する更新式(18)を流用することで係数αpjの更新式が導出されると理解できる。すなわち、数式(10)の変数Yfを数式(24)の変数Σk,nn,fλn,fjK+kに対応させ、数式(10)の変数γを数式(24)の変数Σk,nn,fkmj,kに対応させて数式(18)を変形することで、数式(8)の評価関数Qが最小化されるように係数αpjを更新する以下の更新式(25)が導出される。
【数25】
【0048】
同様に、数式(10)の変数Yfを変数Σnn,fλn,fjK+lに対応させ、数式(10)の変数γを変数Σnnlに対応させて数式(18)を変形することで、数式(8)の評価関数Qが最小化されるように係数βqlを更新する以下の更新式(26)が導出される。
【数26】
【0049】
<基本周波数μnk
各調波構造Gn,fkの基本周波数μnkの更新式を導出するために、前掲の数式(21)の第1項のみに着目する。すなわち、数式(21)の第2項Σm,n,fn,fmnmは、基本周波数μnkに対する依存が無視できるほど微小であると仮定して省略する。数式(21)の第1項のうち基本周波数μnkに関連する要素は以下の数式(27)で表現される。
【数27】
【0050】
数式(27)にイェンゼンの不等式を適用することで、以下の数式(28)が導出される。
【数28】
【0051】
数式(28)の変数φn,fh,kは、任意の変数h,k,n,fについて正数であり(∀h,k,n,f:φn,fh,k>0)、任意の変数nおよびfについて総和が1となる変数(∀n,f:Σφn,fh,k=1)である。数式(28)を利用することで、数式(8)の評価関数Qに対する数式(29)の補助関数Q+が導出される。
【数29】
【0052】
数式(29)を基本周波数μnkで偏微分してゼロとすることで、数式(8)の評価関数Qが最小化されるように基本周波数μnkを更新する以下の更新式(30)が導出される。
【数30】
【0053】
本実施形態の変数解析部24は、音量Unmを更新する更新式(23)の演算と、係数αpjを更新する更新式(25)の演算と、係数βqlを更新する更新式(26)の演算と、基本周波数μnkを更新する更新式(30)の演算とを反復的に実行することで音響モデルの各変数(μnk,αpj,βql,Unm)を推定する。具体的には、変数解析部24は図3の解析処理を実行する。解析処理は、例えば入力装置16に対する利用者からの指示を契機として実行される。図3の解析処理を開始すると、変数解析部24は、音響モデルの各変数(μnk,αpj,βql,Unm)を初期化する(SA)。各変数を初期化する具体的な方法は任意であるが、例えば以下に例示する方法が好適である。
【0054】
変数解析部24は、対数軸上で等間隔に配列するK個の周波数の各々を各調波構造Gn,fkの基本周波数μnkの初期値に設定する(SA1)。なお、基本周波数μnkの初期値が適切でない場合(音響信号Syの実際の基本周波数との誤差が大きい場合)、音響信号Syの実際の基本周波数の整数倍または整数分の一の周波数が基本周波数μnkと誤推定される可能性が高いという傾向がある。以上の傾向を考慮して、本実施形態では、調波構造Gn,fkの総数Kを、音響信号Syの調波成分に想定される最大同時発音数と比較して充分に大きい数値に予備的に設定し、基本周波数μnkの初期値の妥当性が低いと各変数の更新の反復の過程で評価できる調波構造Gn,fkを更新対象から順次に除外する方法(後述のステップSB6)を採用する。
【0055】
変数解析部24は、音響信号SyのスペクトログラムYn,fのうちJ個のフレームの振幅スペクトルを例えばランダムに選択し、各振幅スペクトルの包絡線を近似する全極型伝達関数の係数を音響モデルの係数αpjの初期値に設定する(SA2)。同様に、変数解析部24は、音響信号SyのスペクトログラムYn,fのうちL個のフレームの振幅スペクトルを例えばランダムに選択し、各振幅スペクトルの包絡線を近似する全極型伝達関数の係数を音響モデルの係数βqlの初期値に設定する(SA3)。また、変数解析部24は、音量Unmを非負の乱数値に初期化する(SA4)。なお、ステップSA1からステップSA4の順序は任意に変更される。
【0056】
以上の手順で音響モデルの各変数を初期化すると、変数解析部24は、音響信号SyのスペクトログラムYn,fと各変数の現段階での数値とを適用した演算で各変数(μnk,αpj,βql,Unm)を更新する更新処理SBを実行する。更新処理SBを開始すると、変数解析部24は、数式(20)の演算で変数λn,fmを算定する(SB1)。そして、変数解析部24は、更新式(23)の演算で音量Unmを更新し(SB2)、更新式(30)の演算で基本周波数μnkを更新し(SB3)、更新式(25)の演算で係数αpjを更新し(SB4)、更新式(26)の演算で係数βqlを更新する(SB5)。なお、ステップSB2からステップSB5の順序は任意に変更される。
【0057】
ステップSA1で基本周波数μnkの初期値に選定されたK個の周波数のうち音響信号Syに実際に包含される基本周波数から乖離した周波数に対応する音量Unmは、ステップSB2での更新毎に順次に減少するという傾向がある。以上の傾向を考慮して、変数解析部24は、ステップSB2での更新後の音量Unmが所定の閾値を下回る調波構造Gn,fk(すなわち、基本周波数μnkの初期値の妥当性が低いと評価できる調波構造Gn,fk)に関連する変数(基本周波数μnkおよび音量Unm)を、以後の更新処理SBでの更新対象から除外する(SB6)。すなわち、更新処理の反復過程で音量Unmが閾値を下回った調波構造Gn,fkは音響モデルから除去される。したがって、K個の調波構造Gn,fkの全部について更新処理SBを最後まで継続する構成と比較して変数解析部24の演算量が削減されるという利点がある。
【0058】
変数解析部24は、更新処理SBの反復を終了する条件(以下「反復停止条件」という)が成立したか否かを判定する(SC1)。例えば変数解析部24は、現段階までの更新処理SBの反復回数が所定回数に到達した場合に反復停止条件が成立したと判定し、反復回数が所定回数を下回る場合には反復停止条件が成立していないと判定する。なお、反復停止条件の判定方法は任意である。例えば、音響モデルの各変数の収束の有無を評価(収束判定)することも可能である。すなわち、変数解析部24は、各変数が収束した場合に反復停止条件が成立したと判定し、各変数が収束していない場合には反復停止条件が成立していないと判定する。各変数の収束判定には公知の技術が任意に採用される。
【0059】
反復停止条件が成立していない場合(SC1:NO)、変数解析部24は、直前の更新処理SBでの更新後の各変数を適用した更新処理SBを実行する。すなわち、反復停止条件が成立するまで更新処理SBが順次に実行されて各変数が累積的に更新される。他方、反復停止条件が成立した場合(SC1:YES)、変数解析部24は、直前の更新処理SBでの更新後の各変数を最終的な解析結果として確定して記憶装置12に格納する(SC2)。変数解析部24が実行する解析処理の具体的な内容は以上の通りである。
【0060】
図1の表示制御部26は、変数解析部24の解析結果に応じた画像(以下「解析結果画像」という)を生成して表示装置14に表示させる。図4に例示されるように、本実施形態の解析結果画像50は、複数の領域(DY,DX,DA1,DA2,DB1,DB2)を含んで構成される。領域DYと領域DXと領域DA2と領域DB2とは時間軸が共通する。
【0061】
領域DYには、周波数分析部22が算定した音響信号SyのスペクトログラムYn,fが表示され、領域DXには、変数解析部24が推定した各変数(μnk,αpj,βql,Unm)で定義される音響モデルのスペクトログラムXn,fが表示される。以上のようにスペクトログラムYn,fとスペクトログラムXn,fとが対比的に表示されるから、利用者は、変数解析部24による解析の精度を視覚的に確認することが可能である。
【0062】
領域DA1および領域DA2は、音響信号Syの調波成分に関する解析結果を利用者に提示する画像領域である。領域DA1には、変数解析部24が推定した係数αpjに応じた全極型伝達関数1/|Afj|で表現される各調波成分のスペクトル包絡VAfjが表示される。領域DA2には、変数解析部24が調波構造Gn,fk毎に推定した各基本周波数μnkの時間的な変動(音高の時間軌跡)が表示される。すなわち、領域DA2は、縦軸が音高(基本周波数μnk)を示すピアノロール形式の画像である。利用者は、領域DA2を視認することで、各調波成分の音高の時間軌跡(例えば楽器毎の旋律)を直観的に把握することが可能である。なお、領域DA2内の各調波成分の音高の時間軌跡の表示態様(濃度や色彩等)を、各調波成分について推定された音量Unmに応じて制御する(すなわち、各調波成分の音量Unmを濃度や色彩で表現する)ことも可能である。
【0063】
他方、領域DB1および領域DB2は、音響信号Syの非調波成分に関する解析結果を利用者に提示する画像領域である。領域DB1には、変数解析部24が推定した係数βqlに応じた全極型伝達関数1/|Bfl|で表現される各非調波成分のスペクトル包絡VBflが表示される。領域DB2には、変数解析部24が各非調波成分について推定した音量Unm(すなわち図2の音量Inl)の時間的な変動が非調波成分毎(非調波要素EBl毎)に表示される。利用者は、領域DB2を視認することで、各非調波成分の発音の時点(例えば各打楽器の発音点)や、領域DA2内の各調波成分の基本周波数μnkとの時間的な関係を直観的に把握することが可能である。
【0064】
図1の信号処理部28は、変数解析部24の解析結果(μnk,αpj,βql,Unm)を適用した信号処理(フィルタ処理)を音響信号Syに対して実行することで音響信号Szを生成する。本実施形態の信号処理部28は、音響信号Syのうち入力装置16に対する利用者からの指示に応じた要素成分を抑圧した音響信号Szを生成する。
【0065】
具体的には、信号処理部28は、周波数分析部22が算定した音響信号SyのスペクトログラムYn,fについて以下の数式(31)の演算を実行することで音響信号SzのスペクトログラムZn,fを算定する。数式(31)の演算は、変数解析部24の解析結果に応じたフィルタFn,fを音響信号SyのスペクトログラムYn,fに作用させる処理を意味する。
【数31】

信号処理部28は、数式(31)で算定されたスペクトログラムZn,fを時間領域の音響信号Szに変換する。例えば、信号処理部28は、スペクトログラムZn,fと音響信号Syの位相スペクトログラムとを適用した短時間逆フーリエ変換で音響信号Szを生成する。なお、公知の位相復元法で音響信号Szを生成することも可能である。信号処理部28が生成した音響信号Szが放音装置18に供給されて音波として再生される。
【0066】
数式(31)のフィルタFn,fは、以下の数式(32)で表現される。
【数32】

数式(32)のフィルタFn,fの分母は、音響モデルのスペクトログラムXn,f(数式(6))に相当する。他方、数式(32)の分子の変数unmは、音響モデルにおけるM個((JK+L)個)の要素成分(調波要素EAnj,kおよび非調波要素EBl)の音量(以下「調整音量」という)に対応する。M個の調整音量unmのうち利用者からの指示に応じた要素成分に対応する各調整音量unmは所定値εに設定され、残余の各調整音量unmは変数解析部24が推定した音量Unmに設定される。所定値εは例えばゼロ(またはゼロに近い正数)に設定される。以上の説明から理解されるように、数式(32)のフィルタFn,fの分子は、音響モデルのスペクトログラムXn,fのうち利用者からの指示に応じた特定の要素成分の音量Unmを所定値εに変更したスペクトログラムに相当する。したがって、フィルタFn,fを音響信号Syに作用させる数式(31)の演算により、音響信号Syから特定の要素成分を抑圧(除去)した音響信号Szが生成される。
【0067】
利用者は、音響信号Syのうち所望の要素成分を入力装置16の操作で指定することが可能である。例えばJ個の調波成分のうち特定の調波成分を利用者が選択した場合、信号処理部28は、利用者が選択した調波成分のスペクトル包絡VAfjとK個の調波構造Gn,fkの各々との組合せに対応するK個の調整音量unmを所定値εに設定し、残余((M−K)個)の各調整音量unmを音量Unmに設定する。したがって、音響信号Syのうち利用者が選択した調波成分(例えば特定の楽器の演奏音)を抑圧した音響信号Szが生成される。
【0068】
K個の調波構造Gn,fkのうち特定の調波構造Gn,fkを利用者が選択した場合、信号処理部28は、利用者が選択した調波構造Gn,fkとJ個のスペクトル包絡VAfjの各々との組合せに対応するJ個の調整音量unmを所定値εに設定し、残余((M−J)個)の各調整音量unmを音量Unmに設定する。したがって、音響信号Syのうち利用者が選択した調波構造Gn,fkに対応する基本周波数μnkの調波成分(すなわち特定の音高)を抑圧した音響信号Szが生成される。
【0069】
また、L個の非調波成分のうち特定の非調波成分を利用者が選択した場合、信号処理部28は、利用者が選択した非調波成分(非調波要素EBl)に対応する調整音量unmを所定値εに設定し、残余の各調整音量unmを音量Unmに設定する。したがって、音響信号Syのうち利用者が選択した非調波成分(例えば特定の打楽器の演奏音)を抑圧した音響信号Szが生成される。
【0070】
図5は、以上に説明した音響解析装置100による処理結果である。図5では、相異なる2種類の調波性の楽器の演奏音を含む音響信号Sy(J=2,L=0)を楽器毎に分離(一方を抑圧)した場合のSN(Signal/Noise)比が、本実施形態の音響解析装置100を利用した場合と、非負値行列因子分解(NMF)での分離結果をk-means法で楽器毎に分類した場合(以下「対比例」という)とについて対比的に図示されている。SN比が高いほど分離精度が高いことを意味する。評価用の音楽は、RWC(Real World Computing) Music Databeseから選択されたクラシックおよびジャズの音楽である。本実施形態によれば、対比例と比較して音響信号Syの各要素成分を高精度に分離できることが図5から理解される。
【0071】
<変形例>
以上に例示した形態には様々な変形が加えられる。例えば、前述の形態では、J個の調波成分とL個の非調波成分とを含む音響モデルを例示したが、L個の非調波成分を省略することも可能である。
【0072】
また、前述の形態では、変数解析部24の解析結果を表示装置14による表示と信号処理部28による信号処理とに適用したが、変数解析部24の解析結果の利用方法は任意である。例えば、音響信号Syのうち特定の楽器に対応する調波成分の基本周波数μnkの解析結果からその楽器の楽譜を作成する構成(自動採譜)や、音響信号Syの特定の要素成分を解析結果に応じて抽出して選択的に音響効果(例えば残響効果)を付与する構成も採用され得る。
【符号の説明】
【0073】
100……音響解析装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、18……放音装置、22……周波数分析部、24……変数解析部、26……表示制御部、28……信号処理部、50……解析結果画像。
図1
図2
図3
図4
図5