【新規性喪失の例外の表示】特許法第30条第2項適用 一般社団法人情報処理学会 研究報告音楽情報科学(MUS) Vol.2012−MUS−94 No.27、2012年1月27日発行
【文献】
Virtanen, T., Klapuri, A.,Analysis of polyphonic audio using source-filter model and non-negative matrix factorization,Advances in Models for Acoustic Processing, Neural Information Processing Systems Workshop,2006年
(58)【調査した分野】(Int.Cl.,DB名)
第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素と、第2全極型伝達関数でスペクトル包絡が表現されて相異なる音色に対応する複数の非調波要素とを、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数および前記第2全極型伝達関数の各係数と、前記各調波要素および前記各非調波要素の音量と、前記各調波構造の基本周波数とを、反復的な更新で推定する変数解析手段
を具備する音響解析装置。
前記第1全極型伝達関数で表現される調波成分のスペクトル包絡と、当該調波成分の基本周波数の時間変化と、前記第2全極型伝達関数で表現される非調波要素のスペクトル包絡と、当該非調波要素の音量の時間変化とを含む解析結果画像を表示装置に表示させる表示制御手段
を具備する請求項1または請求項2の音響解析装置。
第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素を、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数の係数と前記各調波要素の音量と前記各調波構造の基本周波数とを反復的な更新で推定する変数解析手段を具備し、
前記変数解析手段は、複数の基本周波数の各々の初期化後に前記音響モデルの各変数の更新処理を反復し、更新処理の反復過程で閾値を下回る音量となった調波構造に対応する各変数の更新を以後の更新処理での更新対象から除外する音響解析装置。
第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素と、第2全極型伝達関数でスペクトル包絡が表現されて相異なる音色に対応する複数の非調波要素とを、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数および前記第2全極型伝達関数の各係数と、前記各調波要素および前記各非調波要素の音量と、前記各調波構造の基本周波数とを、反復的な更新で推定する解析処理
をコンピュータに実行させるプログラム。
第1全極型伝達関数で表現されて相異なる音色の調波成分に対応する複数のスペクトル包絡の各々と、ガウス関数列で表現されて相異なる基本周波数に対応する複数の調波構造の各々との組合せに対応する複数の調波要素を、要素毎の音量で混合した音響モデルのスペクトログラムが、対象音響信号のスペクトログラムに近似するように、前記第1全極型伝達関数の係数と前記各調波要素の音量と前記各調波構造の基本周波数とを反復的な更新で推定する解析処理
をコンピュータに実行させるプログラムであって、
前記解析処理においては、複数の基本周波数の各々の初期化後に前記音響モデルの各変数の更新処理を反復し、更新処理の反復過程で閾値を下回る音量となった調波構造に対応する各変数の更新を以後の更新処理での更新対象から除外するプログラム。
【発明を実施するための形態】
【0014】
図1は、本発明の好適な実施形態に係る音響解析装置100のブロック図である。本実施形態の音響解析装置100は、音色が相違する複数の音響成分(調波成分および非調波成分)が混合された音響信号Syを解析する信号処理装置であり、
図1に示すように、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステムで実現される。
【0015】
演算処理装置10は、記憶装置12に格納されたプログラムPGMを実行することで、音響信号Syを解析するための複数の機能(周波数分析部22,変数解析部24,表示制御部26,信号処理部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(DSP)が一部の機能を実現する構成も採用され得る。
【0016】
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置12として任意に採用され得る。本実施形態の記憶装置12は音響信号Syを記憶する。なお、可搬型または内蔵型の記録媒体を再生する外部再生装置(図示略)から音響解析装置100が音響信号Syを取得することも可能である。
【0017】
表示装置14(例えば液晶表示パネル)は、演算処理装置10による解析結果を表示する。入力装置16は、利用者からの指示を受付ける機器であり、例えば複数の操作子を含んで構成される。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10から指示された音波を再生する。
【0018】
周波数分析部22は、音響信号SyのスペクトログラムY
n,fを算定する。スペクトログラムY
n,fは、時間軸上のフレーム毎に算定された振幅スペクトルの時系列である。記号nは、時間軸上に離散的に設定された任意の時点(フレームの番号)を意味し、記号fは、周波数軸上に離散的に設定された任意の周波数(周波数ビン)を意味する。スペクトログラムY
n,fの算定には、短時間フーリエ変換等の公知の周波数解析が任意に採用される。
【0019】
本実施形態では、
図2の音響モデルで生成されるスペクトログラムX
n,fを音響信号SyのスペクトログラムY
n,fのモデルとして想定する。
図2に示すように、(J×K)個の調波要素EA
nj,kの各々を要素毎の音量H
nj,kに応じて調整するとともにL個の非調波要素EB
lの各々を要素毎の音量I
nlに応じて調整し、調整後の各調波要素EA
nj,kと調整後の各非調波要素EB
lと((JK+L)個)を加算する音響モデルでスペクトログラムX
n,fは表現される。
【0020】
(J×K)個の調波要素EA
nj,kは、相異なる音色(例えば楽器毎)の調波成分に対応するJ個のスペクトル包絡VA
fjの各々と、相異なる基本周波数(音高)μ
nkに対応するK個の調波構造G
n,fkの各々との(J×K)通りの組合せに対応する。1個のスペクトル包絡VA
fjは、例えば弦楽器や管楽器等の調波性の1種類の楽器が発音する調波音のスペクトルの包絡線に相当する。なお、本実施形態では、各調波成分のスペクトル包絡VA
fjが時間的に変動しない(すなわち各調波成分の音色が時不変である)と仮定する。他方、調波構造G
n,fkは、基本周波数μ
nkに対応する基音成分と基本周波数μ
nkの整数倍の周波数に対応する複数の倍音成分とを配列した系列であり、基本周波数μ
nkに応じて時刻n毎に刻々と変動する。音量H
nj,kは、J個のうち第j番目のスペクトル包絡VA
fjとK個のうち第k番目の調波構造G
n,fkとの組合せに対応する調波要素EA
nj,kの音量(加重値)に相当し、時刻n毎に刻々と変動する。
【0021】
他方、L個の非調波要素EB
lは、相異なる音色の非調波成分に対応するL個のスペクトル包絡VB
flに対応する。1個のスペクトル包絡VB
flは、例えば打楽器等の非調波性の1種類の楽器が発音する非調波音のスペクトルの包絡線に相当する。調波成分のスペクトル包絡VA
fjと同様に、本実施形態では、各非調波成分のスペクトル包絡VB
flが時間的に変動しない(すなわち各非調波成分の音色が時不変である)と仮定する。音量I
nlは、L個のうち第l番目のスペクトル包絡VB
flに対応する非調波要素EB
lの音量(加重値)に相当し、時刻n毎に刻々と変動する。
【0022】
以上の説明から理解されるように、
図2の音響モデルで生成されるスペクトログラムX
n,fは以下の数式(1)で定義される。なお、数式(1)の記号「:=」は定義を意味する。数式(1)の右辺の第1項が調波成分に対応し、第2項が非調波成分に対応する。
【数1】
【0023】
数式(1)の関数1/|A
fj|は、第j番目の調波成分のスペクトル包絡VA
fjをP個の係数α
pj(p=1〜P)に応じて表現する数式(2)の全極型伝達関数である。なお、記号iは虚数単位を意味する。また、記号f'は、周波数(周波数ビン)fに対応する正規化角周波数を意味する。
【数2】
【0024】
同様に、数式(1)の関数1/|B
fl|は、第l番目の非調波成分のスペクトル包絡VB
flをQ個の係数β
ql(q=1〜Q)に応じて表現する数式(3)の全極型伝達関数である。係数α
pjの個数Pや係数β
qlの個数Qは例えば10個程度に設定される。
【数3】
【0025】
数式(1)の調波構造G
n,fkは、基本周波数μ
nkの基音成分と基本周波数μ
nkの整数倍の周波数(h×μ
nk)の各倍音成分とに対応するガウス分布(ガウス関数)を基本周波数μ
nkに応じた間隔で周波数軸上に配列したガウス関数列を意味する以下の数式(4)で表現される。
【数4】
数式(4)の記号hは倍音成分の次数(整数)を意味し、記号σ
2はガウス分布の分散を意味する。分散σ
2は、例えば単一の所定値に設定される。数式(4)の調波構造G
n,fkによれば、基本周波数μ
nkに応じてガウス関数列が時刻n毎に周波数軸上で伸縮されるから、ビブラート等の微細な音高の変動も適切に表現できる。
【0026】
ところで、H. Kameoka, et. al., "Speech Spectrum Modeling for Joint Estimation of Spectral Envelope and Fundamental Frequency", IEEE Trans. on Audio, Speech and Language Processing, Vol. 18, No.6, p. 1507-1516, 2010(以下「非特許文献3」という)には、調波成分および非調波成分の双方をガウス関数列でモデル化する構成が開示されている。ガウス関数列(各ガウス分布の間隔)は音高に応じて刻々と変動する。すなわち、非特許文献3の構成では、調波成分および非調波成分の双方のスペクトル包絡が時間的に変動する(音色が時変である)ことが前提となる。他方、本実施形態では、全極型伝達関数1/|A
fj|を適用した時不変のモデルで各調波成分のスペクトル包絡VA
fjが表現され、全極型伝達関数1/|B
fl|を適用した時不変のモデルで各非調波成分のスペクトル包絡VB
flが表現される。全極型伝達関数は共鳴過程のモデルとして好適であり、かつ、音色(スペクトル包絡)が時不変であるという過程は現実の音響の傾向に充分に整合するから、本実施形態によれば、非特許文献3の構成と比較して、各調波成分のスペクトル包絡VA
fjや各非調波成分のスペクトル包絡VB
flを高精度に推定できるという格別の効果が実現される。
【0027】
説明の便宜のため、(J×K)個の調波要素EA
nj,kとL個の非調波要素EB
lとに対して
図2の上方から下方に向けて通し番号(0,1,2,……,JK+L−1)を付与し、任意の1個の要素を変数m(m=0〜JK+L−1)で表現したうえで、以下の数式(5)のように変数W
n,fmおよび変数U
nmを定義する。なお、数式(5)の記号modは剰余を意味し、記号〈 〉は床関数を意味する。
【数5】
【0028】
数式(5)の関係を利用すると、前掲の数式(1)は以下の数式(6)のように変形される。
【数6】
数式(6)から理解されるように、音響モデルのスペクトログラムX
n,fは、各要素成分(各調波要素EA
nj,k,各非調波要素EB
l)に対応するM個((JK+L)個)のスペクトルパターンW
n,fmと各要素成分に対応するM個の時変な音量U
nmとで表現される。
【0029】
図1の変数解析部24は、数式(6)で表現される音響モデルのスペクトログラムX
n,fと周波数分析部22が算定した音響信号SyのスペクトログラムY
n,fとが相互に近似するように音響モデルの各変数を推定する。具体的には、変数解析部24は、各調波構造G
n,fkの基本周波数μ
nkと、各調波成分のスペクトル包絡VA
fjを表現する全極型伝達関数1/|A
fj|の各係数α
pjと、各非調波成分のスペクトル包絡VB
flを表現する全極型伝達関数1/|B
fl|の各係数β
qlと、各調波要素EA
nj,kおよび各非調波要素EB
lの音量U
nm(H
nj,k,I
nl)とを推定する。各変数(μ
nk,α
pj,β
ql,U
nm)は反復的な更新で推定される。
【0030】
変数解析部24による各変数の推定は、以下の数式(7)で表現されるように、スペクトログラムX
n,fとスペクトログラムY
n,fとの乖離の度合を表現する評価関数(距離規準)Qを各変数{μ
nk,α
pj,β
ql,U
nm}に関して(w.r.t.:with respect to)最小化する最適化問題として定式化される。
【数7】
【0031】
本実施形態では、以下の数式(8)で表現されるように、スペクトログラムX
n,fとスペクトログラムY
n,fとのIダイバージェンスを評価関数Qとして採用する。
【数8】
【0032】
<Iダイバージェンスを規準とした全極型伝達関数の係数の推定>
図2の音響モデルを評価する評価関数Qに数式(8)のIダイバージェンスを適用する場合、全極型伝達関数(1/|A
fj|,1/|B
fl|)の各係数(α
pj,β
ql)を推定するための更新式の導出が問題となる。そこで、変数解析部24による具体的な処理の説明に先立ち、数式(9)で表現されるように、時間軸上の1個の時刻(したがって時刻nは省略される)での振幅スペクトルY
fを全極型伝達関数γ/|A
f|で近似する場合を仮定して、全極型伝達関数γ/|A
f|の係数α
pを推定するという小課題を便宜的に検討する。
【数9】
数式(9)の記号「〜」は近似を意味する。また、数式(9)の記号γは、小課題の検討のために便宜的に導入した音量を意味する。振幅スペクトルY
fと全極型伝達関数γ/|A
f|との乖離の度合をIダイバージェンスで規定する評価関数Qは、以下の数式(10)で表現される。ただし、数式(10)では、係数α
pの推定に関係しない要素を省略した。
【数10】
【0033】
数式(10)の評価関数Qを最小化する係数α
pの更新式を検討する。仮に評価関数Qが係数α
pの2次形式であれば、評価関数Qの係数α
pによる偏微分がゼロになるときの係数α
pの数値が更新値となり、この条件から係数α
pの更新式を解析的に導出することが可能である。しかし、数式(10)で表現される評価関数Qは係数α
pの2次形式ではないから、更新式の解析的な導出は困難である。以上の事情を考慮して、係数α
pの2次形式で表現される適切な補助関数を設定する補助関数法を利用して係数α
pの更新式を導出する。
【0034】
補助関数法は、補助変数ξに対する補助関数Q
+(θ,ξ)の最小値が本来の最小化の目的となる関数Q(θ)に合致するように補助関数Q
+(θ,ξ)を設計し(Q(θ)=min Q
+(θ,ξ))、補助関数Q
+(θ,ξ)について補助変数ξに関する最小化と本来の変数θに関する最小化とを反復することで間接的に本来の関数Q(θ)を単調減少させる手法である。補助関数Q
+(θ,ξ)を最小にする変数θおよび変数ξの双方が解析的に解けるように補助関数Q
+(θ,ξ)を設計すれば、変数の推定は簡単化される。
【0035】
数式(10)の括弧内の第1項の対数関数log|A
f|の非線形性を解消するために以下の数式(11)を想定する。
【数11】
数式(11)の右辺は、変数|A
f|
2が変数ρ
fとなる地点での接線に相当するから、変数ρ
fを補助変数とする補助関数として利用できる。数式(11)の等号が成立するのは、補助変数ρ
fが変数|A
f|
2に合致する場合(ρ
f←|A
f|
2)である。
【0036】
次に、数式(10)の括弧内の第2項の逆数を解消するために、以下の数式(12)で表現されるように点τ
fを中心とする2次のテイラー近似を検討する。
【数12】
数式(12)の右辺は目的関数1/|A
f|を下回る可能性があるため、補助関数の要件を厳密には充足しないが、変数τ
fを変数|A
f|に合致させれば凸関数に対するニュートン法と同形になるから、変数τ
fを補助変数と見做した効率的かつ安定的な最適化が可能である。
【0037】
数式(11)および数式(12)を利用することで、数式(10)の評価関数Qに対する数式(13)の補助関数Q
+が導出される。なお、数式(13)の変数Cは、係数α
pを含まない要素を意味する。
【数13】
【0038】
数式(13)は、変数|A
f|に対して線形であるが、係数α
pに関する2次形式には依然として到達していない。そこで、複素数の補助関数ω
fを変数|A
f|に適用した以下の数式(14)を想定する。
【数14】
数式(14)の記号Re[ ]は実部を意味し、記号*は複素共役を意味する。
【0039】
数式(14)と前掲の数式(9)とを数式(13)に適用することで、係数α
pの2次形式で表現される数式(15)の補助関数Q
++が導出される。
【数15】
【0040】
数式(15)を利用した係数α
pの更新を検討する。前述の3種類の補助変数(ρ
f,τ
f,ω
f)を数式(16)のように更新し、数式(15)を係数α
pで偏微分してゼロとすることで以下の数式(17)が導出される。
【数16】
【数17】
【0041】
変数pのP個分を連立することで、振幅スペクトルY
fと全極型伝達関数γ/|A
f|とのIダイバージェンス(数式(10)の評価関数Q)が最小化されるように全極型伝達関数γ/|A
f|の係数α
pを更新する更新式(18)が導出される。
【数18】
数式(18)は対称テプリッツ(Toeplitz)型の方程式であり、レビンソン-ダービン(Levinson-Durbin)アルゴリズムを利用することで高速に演算することが可能である。
【0042】
以上の検討を踏まえて、
図1の変数解析部24が音響モデルの各変数(μ
nk,α
pj,β
ql,U
nm)を推定するための更新式を検討する。
【0043】
<音量U
nm>
評価関数Qを定義する数式(8)のうち括弧内の第1項の対数関数log(1/X
n,f)(=−logX
n,f)に着目する。音響モデルのスペクトログラムX
n,fを表現する数式(6)を考慮すると、対数関数−logX
n,fは、対数関数が総和(Σ)を内包する形式であると理解できる。以上の形式を解消する(対数関数内から総和を除去する)ためにイェンゼン(Jensen)の不等式を適用すると、以下の数式(19)が導出される。
【数19】
数式(19)の変数λ
n,fmは、任意の変数n,f,mについて正数であり(∀n,f,m:λ
n,fm>0)、任意の変数nおよびfについて総和が1となる変数(∀n,f:Σλ
n,fm=1)である。数式(19)で等号が成立する条件は、ラグランジュ(Lagrange)の未定乗数法を利用して導出される以下の数式(20)で表現される。
【数20】
【0044】
数式(19)を利用することで、数式(8)の評価関数Qに対する数式(21)の補助関数Q
+(対数関数が総和を内包しない形式)が導出される。記号Cは、音響モデルの変数(μ
nk,α
pj,β
ql,U
nm)を含まない要素を意味する。
【数21】
【0045】
数式(21)を音量U
nmで偏微分することで以下の数式(22)が導出される。
【数22】
数式(22)をゼロとすることで、数式(8)の評価関数Q(スペクトログラムX
n,fとスペクトログラムY
n,fとのIダイバージェンス)が最小化されるように音量U
nmを更新する以下の更新式(23)が導出される。
【数23】
【0046】
<全極型伝達関数の係数α
pjおよび係数β
ql>
前掲の数式(21)を変形すると、各調波成分のスペクトル包絡VA
fjを表現する全極型伝達関数1/|A
fj|の係数α
pjに関連する要素は以下の数式(24)で表現される。
【数24】
【0047】
数式(24)が、前述の小課題の検討で想定した数式(10)の右辺と類似する形式であることを考慮すると、数式(10)に対応する更新式(18)を流用することで係数α
pjの更新式が導出されると理解できる。すなわち、数式(10)の変数Y
fを数式(24)の変数Σ
k,nY
n,fλ
n,fjK+kに対応させ、数式(10)の変数γを数式(24)の変数Σ
k,nG
n,fkH
mj,kに対応させて数式(18)を変形することで、数式(8)の評価関数Qが最小化されるように係数α
pjを更新する以下の更新式(25)が導出される。
【数25】
【0048】
同様に、数式(10)の変数Y
fを変数Σ
nY
n,fλ
n,fjK+lに対応させ、数式(10)の変数γを変数Σ
nI
nlに対応させて数式(18)を変形することで、数式(8)の評価関数Qが最小化されるように係数β
qlを更新する以下の更新式(26)が導出される。
【数26】
【0049】
<基本周波数μ
nk>
各調波構造G
n,fkの基本周波数μ
nkの更新式を導出するために、前掲の数式(21)の第1項のみに着目する。すなわち、数式(21)の第2項Σ
m,n,fW
n,fmU
nmは、基本周波数μ
nkに対する依存が無視できるほど微小であると仮定して省略する。数式(21)の第1項のうち基本周波数μ
nkに関連する要素は以下の数式(27)で表現される。
【数27】
【0050】
数式(27)にイェンゼンの不等式を適用することで、以下の数式(28)が導出される。
【数28】
【0051】
数式(28)の変数φ
n,fh,kは、任意の変数h,k,n,fについて正数であり(∀h,k,n,f:φ
n,fh,k>0)、任意の変数nおよびfについて総和が1となる変数(∀n,f:Σφ
n,fh,k=1)である。数式(28)を利用することで、数式(8)の評価関数Qに対する数式(29)の補助関数Q
+が導出される。
【数29】
【0052】
数式(29)を基本周波数μ
nkで偏微分してゼロとすることで、数式(8)の評価関数Qが最小化されるように基本周波数μ
nkを更新する以下の更新式(30)が導出される。
【数30】
【0053】
本実施形態の変数解析部24は、音量U
nmを更新する更新式(23)の演算と、係数α
pjを更新する更新式(25)の演算と、係数β
qlを更新する更新式(26)の演算と、基本周波数μ
nkを更新する更新式(30)の演算とを反復的に実行することで音響モデルの各変数(μ
nk,α
pj,β
ql,U
nm)を推定する。具体的には、変数解析部24は
図3の解析処理を実行する。解析処理は、例えば入力装置16に対する利用者からの指示を契機として実行される。
図3の解析処理を開始すると、変数解析部24は、音響モデルの各変数(μ
nk,α
pj,β
ql,U
nm)を初期化する(SA)。各変数を初期化する具体的な方法は任意であるが、例えば以下に例示する方法が好適である。
【0054】
変数解析部24は、対数軸上で等間隔に配列するK個の周波数の各々を各調波構造G
n,fkの基本周波数μ
nkの初期値に設定する(SA1)。なお、基本周波数μ
nkの初期値が適切でない場合(音響信号Syの実際の基本周波数との誤差が大きい場合)、音響信号Syの実際の基本周波数の整数倍または整数分の一の周波数が基本周波数μ
nkと誤推定される可能性が高いという傾向がある。以上の傾向を考慮して、本実施形態では、調波構造G
n,fkの総数Kを、音響信号Syの調波成分に想定される最大同時発音数と比較して充分に大きい数値に予備的に設定し、基本周波数μ
nkの初期値の妥当性が低いと各変数の更新の反復の過程で評価できる調波構造G
n,fkを更新対象から順次に除外する方法(後述のステップSB6)を採用する。
【0055】
変数解析部24は、音響信号SyのスペクトログラムY
n,fのうちJ個のフレームの振幅スペクトルを例えばランダムに選択し、各振幅スペクトルの包絡線を近似する全極型伝達関数の係数を音響モデルの係数α
pjの初期値に設定する(SA2)。同様に、変数解析部24は、音響信号SyのスペクトログラムY
n,fのうちL個のフレームの振幅スペクトルを例えばランダムに選択し、各振幅スペクトルの包絡線を近似する全極型伝達関数の係数を音響モデルの係数β
qlの初期値に設定する(SA3)。また、変数解析部24は、音量U
nmを非負の乱数値に初期化する(SA4)。なお、ステップSA1からステップSA4の順序は任意に変更される。
【0056】
以上の手順で音響モデルの各変数を初期化すると、変数解析部24は、音響信号SyのスペクトログラムY
n,fと各変数の現段階での数値とを適用した演算で各変数(μ
nk,α
pj,β
ql,U
nm)を更新する更新処理SBを実行する。更新処理SBを開始すると、変数解析部24は、数式(20)の演算で変数λ
n,fmを算定する(SB1)。そして、変数解析部24は、更新式(23)の演算で音量U
nmを更新し(SB2)、更新式(30)の演算で基本周波数μ
nkを更新し(SB3)、更新式(25)の演算で係数α
pjを更新し(SB4)、更新式(26)の演算で係数β
qlを更新する(SB5)。なお、ステップSB2からステップSB5の順序は任意に変更される。
【0057】
ステップSA1で基本周波数μ
nkの初期値に選定されたK個の周波数のうち音響信号Syに実際に包含される基本周波数から乖離した周波数に対応する音量U
nmは、ステップSB2での更新毎に順次に減少するという傾向がある。以上の傾向を考慮して、変数解析部24は、ステップSB2での更新後の音量U
nmが所定の閾値を下回る調波構造G
n,fk(すなわち、基本周波数μ
nkの初期値の妥当性が低いと評価できる調波構造G
n,fk)に関連する変数(基本周波数μ
nkおよび音量U
nm)を、以後の更新処理SBでの更新対象から除外する(SB6)。すなわち、更新処理の反復過程で音量U
nmが閾値を下回った調波構造G
n,fkは音響モデルから除去される。したがって、K個の調波構造G
n,fkの全部について更新処理SBを最後まで継続する構成と比較して変数解析部24の演算量が削減されるという利点がある。
【0058】
変数解析部24は、更新処理SBの反復を終了する条件(以下「反復停止条件」という)が成立したか否かを判定する(SC1)。例えば変数解析部24は、現段階までの更新処理SBの反復回数が所定回数に到達した場合に反復停止条件が成立したと判定し、反復回数が所定回数を下回る場合には反復停止条件が成立していないと判定する。なお、反復停止条件の判定方法は任意である。例えば、音響モデルの各変数の収束の有無を評価(収束判定)することも可能である。すなわち、変数解析部24は、各変数が収束した場合に反復停止条件が成立したと判定し、各変数が収束していない場合には反復停止条件が成立していないと判定する。各変数の収束判定には公知の技術が任意に採用される。
【0059】
反復停止条件が成立していない場合(SC1:NO)、変数解析部24は、直前の更新処理SBでの更新後の各変数を適用した更新処理SBを実行する。すなわち、反復停止条件が成立するまで更新処理SBが順次に実行されて各変数が累積的に更新される。他方、反復停止条件が成立した場合(SC1:YES)、変数解析部24は、直前の更新処理SBでの更新後の各変数を最終的な解析結果として確定して記憶装置12に格納する(SC2)。変数解析部24が実行する解析処理の具体的な内容は以上の通りである。
【0060】
図1の表示制御部26は、変数解析部24の解析結果に応じた画像(以下「解析結果画像」という)を生成して表示装置14に表示させる。
図4に例示されるように、本実施形態の解析結果画像50は、複数の領域(DY,DX,DA1,DA2,DB1,DB2)を含んで構成される。領域DYと領域DXと領域DA2と領域DB2とは時間軸が共通する。
【0061】
領域DYには、周波数分析部22が算定した音響信号SyのスペクトログラムY
n,fが表示され、領域DXには、変数解析部24が推定した各変数(μ
nk,α
pj,β
ql,U
nm)で定義される音響モデルのスペクトログラムX
n,fが表示される。以上のようにスペクトログラムY
n,fとスペクトログラムX
n,fとが対比的に表示されるから、利用者は、変数解析部24による解析の精度を視覚的に確認することが可能である。
【0062】
領域DA1および領域DA2は、音響信号Syの調波成分に関する解析結果を利用者に提示する画像領域である。領域DA1には、変数解析部24が推定した係数α
pjに応じた全極型伝達関数1/|A
fj|で表現される各調波成分のスペクトル包絡VA
fjが表示される。領域DA2には、変数解析部24が調波構造G
n,fk毎に推定した各基本周波数μ
nkの時間的な変動(音高の時間軌跡)が表示される。すなわち、領域DA2は、縦軸が音高(基本周波数μ
nk)を示すピアノロール形式の画像である。利用者は、領域DA2を視認することで、各調波成分の音高の時間軌跡(例えば楽器毎の旋律)を直観的に把握することが可能である。なお、領域DA2内の各調波成分の音高の時間軌跡の表示態様(濃度や色彩等)を、各調波成分について推定された音量U
nmに応じて制御する(すなわち、各調波成分の音量U
nmを濃度や色彩で表現する)ことも可能である。
【0063】
他方、領域DB1および領域DB2は、音響信号Syの非調波成分に関する解析結果を利用者に提示する画像領域である。領域DB1には、変数解析部24が推定した係数β
qlに応じた全極型伝達関数1/|B
fl|で表現される各非調波成分のスペクトル包絡VB
flが表示される。領域DB2には、変数解析部24が各非調波成分について推定した音量U
nm(すなわち
図2の音量I
nl)の時間的な変動が非調波成分毎(非調波要素EB
l毎)に表示される。利用者は、領域DB2を視認することで、各非調波成分の発音の時点(例えば各打楽器の発音点)や、領域DA2内の各調波成分の基本周波数μ
nkとの時間的な関係を直観的に把握することが可能である。
【0064】
図1の信号処理部28は、変数解析部24の解析結果(μ
nk,α
pj,β
ql,U
nm)を適用した信号処理(フィルタ処理)を音響信号Syに対して実行することで音響信号Szを生成する。本実施形態の信号処理部28は、音響信号Syのうち入力装置16に対する利用者からの指示に応じた要素成分を抑圧した音響信号Szを生成する。
【0065】
具体的には、信号処理部28は、周波数分析部22が算定した音響信号SyのスペクトログラムY
n,fについて以下の数式(31)の演算を実行することで音響信号SzのスペクトログラムZ
n,fを算定する。数式(31)の演算は、変数解析部24の解析結果に応じたフィルタF
n,fを音響信号SyのスペクトログラムY
n,fに作用させる処理を意味する。
【数31】
信号処理部28は、数式(31)で算定されたスペクトログラムZ
n,fを時間領域の音響信号Szに変換する。例えば、信号処理部28は、スペクトログラムZ
n,fと音響信号Syの位相スペクトログラムとを適用した短時間逆フーリエ変換で音響信号Szを生成する。なお、公知の位相復元法で音響信号Szを生成することも可能である。信号処理部28が生成した音響信号Szが放音装置18に供給されて音波として再生される。
【0066】
数式(31)のフィルタF
n,fは、以下の数式(32)で表現される。
【数32】
数式(32)のフィルタF
n,fの分母は、音響モデルのスペクトログラムX
n,f(数式(6))に相当する。他方、数式(32)の分子の変数u
nmは、音響モデルにおけるM個((JK+L)個)の要素成分(調波要素EA
nj,kおよび非調波要素EB
l)の音量(以下「調整音量」という)に対応する。M個の調整音量u
nmのうち利用者からの指示に応じた要素成分に対応する各調整音量u
nmは所定値εに設定され、残余の各調整音量u
nmは変数解析部24が推定した音量U
nmに設定される。所定値εは例えばゼロ(またはゼロに近い正数)に設定される。以上の説明から理解されるように、数式(32)のフィルタF
n,fの分子は、音響モデルのスペクトログラムX
n,fのうち利用者からの指示に応じた特定の要素成分の音量U
nmを所定値εに変更したスペクトログラムに相当する。したがって、フィルタF
n,fを音響信号Syに作用させる数式(31)の演算により、音響信号Syから特定の要素成分を抑圧(除去)した音響信号Szが生成される。
【0067】
利用者は、音響信号Syのうち所望の要素成分を入力装置16の操作で指定することが可能である。例えばJ個の調波成分のうち特定の調波成分を利用者が選択した場合、信号処理部28は、利用者が選択した調波成分のスペクトル包絡VA
fjとK個の調波構造G
n,fkの各々との組合せに対応するK個の調整音量u
nmを所定値εに設定し、残余((M−K)個)の各調整音量u
nmを音量U
nmに設定する。したがって、音響信号Syのうち利用者が選択した調波成分(例えば特定の楽器の演奏音)を抑圧した音響信号Szが生成される。
【0068】
K個の調波構造G
n,fkのうち特定の調波構造G
n,fkを利用者が選択した場合、信号処理部28は、利用者が選択した調波構造G
n,fkとJ個のスペクトル包絡VA
fjの各々との組合せに対応するJ個の調整音量u
nmを所定値εに設定し、残余((M−J)個)の各調整音量u
nmを音量U
nmに設定する。したがって、音響信号Syのうち利用者が選択した調波構造G
n,fkに対応する基本周波数μ
nkの調波成分(すなわち特定の音高)を抑圧した音響信号Szが生成される。
【0069】
また、L個の非調波成分のうち特定の非調波成分を利用者が選択した場合、信号処理部28は、利用者が選択した非調波成分(非調波要素EB
l)に対応する調整音量u
nmを所定値εに設定し、残余の各調整音量u
nmを音量U
nmに設定する。したがって、音響信号Syのうち利用者が選択した非調波成分(例えば特定の打楽器の演奏音)を抑圧した音響信号Szが生成される。
【0070】
図5は、以上に説明した音響解析装置100による処理結果である。
図5では、相異なる2種類の調波性の楽器の演奏音を含む音響信号Sy(J=2,L=0)を楽器毎に分離(一方を抑圧)した場合のSN(Signal/Noise)比が、本実施形態の音響解析装置100を利用した場合と、非負値行列因子分解(NMF)での分離結果をk-means法で楽器毎に分類した場合(以下「対比例」という)とについて対比的に図示されている。SN比が高いほど分離精度が高いことを意味する。評価用の音楽は、RWC(Real World Computing) Music Databeseから選択されたクラシックおよびジャズの音楽である。本実施形態によれば、対比例と比較して音響信号Syの各要素成分を高精度に分離できることが
図5から理解される。
【0071】
<変形例>
以上に例示した形態には様々な変形が加えられる。例えば、前述の形態では、J個の調波成分とL個の非調波成分とを含む音響モデルを例示したが、L個の非調波成分を省略することも可能である。
【0072】
また、前述の形態では、変数解析部24の解析結果を表示装置14による表示と信号処理部28による信号処理とに適用したが、変数解析部24の解析結果の利用方法は任意である。例えば、音響信号Syのうち特定の楽器に対応する調波成分の基本周波数μ
nkの解析結果からその楽器の楽譜を作成する構成(自動採譜)や、音響信号Syの特定の要素成分を解析結果に応じて抽出して選択的に音響効果(例えば残響効果)を付与する構成も採用され得る。