(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-05-12
(45)【発行日】2022-05-20
(54)【発明の名称】モード分解装置、モード分解方法、プログラム
(51)【国際特許分類】
G10L 25/27 20130101AFI20220513BHJP
G10G 1/00 20060101ALI20220513BHJP
【FI】
G10L25/27
G10G1/00
(21)【出願番号】P 2018043193
(22)【出願日】2018-03-09
【審査請求日】2020-11-24
【新規性喪失の例外の表示】特許法第30条第2項適用 (1) 発行日 平成29年9月11日 刊行物 「日本音響学会 2017年秋季研究発表会 講演論文集821頁~822頁」 発行者名 一般社団法人 日本音響学会 (2) 開催日 平成29年10月22日 集会名 「音楽音響研究会」 開催場所 アクトシティ浜松コングレスセンター 開催者名 一般社団法人 日本音響学会 音楽音響研究委員会
(73)【特許権者】
【識別番号】899000068
【氏名又は名称】学校法人早稲田大学
(73)【特許権者】
【識別番号】000130329
【氏名又は名称】株式会社コルグ
(74)【代理人】
【識別番号】100121706
【氏名又は名称】中尾 直樹
(74)【代理人】
【識別番号】100128705
【氏名又は名称】中村 幸雄
(74)【代理人】
【識別番号】100147773
【氏名又は名称】義村 宗洋
(72)【発明者】
【氏名】及川 靖広
(72)【発明者】
【氏名】矢田部 浩平
(72)【発明者】
【氏名】草野 翼
(72)【発明者】
【氏名】升山 義紀
(72)【発明者】
【氏名】宮城 雄介
(72)【発明者】
【氏名】高橋 健
(72)【発明者】
【氏名】大石 耕史
【審査官】菊池 智紀
(56)【参考文献】
【文献】特開2008-209549(JP,A)
【文献】特開2016-123841(JP,A)
【文献】特開平02-039197(JP,A)
【文献】特開2013-250357(JP,A)
【文献】升山義紀 他,"交互方向乗数法を用いたモード分解による楽器音の解析",日本音響学会2018年春季研究発表会講演論文集CD-ROM,2018年02月27日,pp.793-794
(58)【調査した分野】(Int.Cl.,DB名)
G10G 1/00- 7/02
G10H 1/00- 7/12
G10L 21/00-25/93
(57)【特許請求の範囲】
【請求項1】
楽音信号を各モードに分解するフィルタの振幅応答の逆特性と各モードの周波数成分のアダマール積と、前記楽音信号の周波数成分に関する最小二乗問題であって、完全再構成性と因果性を充たすことを制約とした制約付き最小二乗問題を解くことにより、前記楽音信号を各モードに分解す
るモード分解装置であって、
楽音信号sまたはその近似音から極を取り出す極取り出し部と、
iを前記楽音信号sの各モードのインデックスとし、前記極の情報に基づいて定まるi番目の共振周波数f
iの共振フィルタの振幅応答|h
i|に基づいて、i番目の第1の重みw
i
(1)を推定する動作を各モードについて繰り返し実行する第1重み推定部と、
jをj≠iを満たす楽音信号sのモードのインデックスとし、j番目の共振周波数f
jの共振フィルタの振幅応答|h
j|に基づいて、i番目の第2の重みw
i
(2)を推定する動作を各モードについて繰り返し実行する第2重み推定部と、
残差rに対する重みである残差重みw
rを推定する残差重み推定部と、
前記i番目の第1の重みw
i
(1)と前記i番目の第2の重みw
i
(2)のアダマール積であるi番目の第3の重みw
iと、i番目の前記モードx
iの周波数成分F(x
i)と、前記楽音信号sの周波数成分F(s)と、パラメータλと、前記残差重みw
rと、前記残差rの周波数成分F(r)に関する最小二乗問題
【数30】
の解を、完全再構成性と因果性を充たすことを制約として求めることにより、前記楽音信号sを各モードx
1,...,x
Nに分解するモード分解部
を
含み、
前記第1重み推定部は、
kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、μをパラメータとし、i番目の第1の重みw
i
(1)[k]を、
【数31】
と推
定し、
前記第2重み推定部は、
kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、g
jをj番目のモードx
jに対応するピークの大きさとし、i番目の第2の重みw
i
(2)[k]を
【数32】
と推
定し、
前記残差重み推定部は、
kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、g
jをj番目のモードx
jに対応するピークの大きさとし、残差重みw
r[k]を
【数33】
と推定する
モード分解装置。
【請求項2】
i,jを楽音信号sの各モードのインデックスとし、
ARモデルを用いて近似した楽音信号sから極p
iを取り出す極取り出し部と、
極p
iとその複素共役p
i
-のみを極に持つ共振フィルタの振幅応答を正規化したものを|h
i~|とし、ξを周波数インデックスとして、
【数34】
に基づいて、各モードx
iを中心周波数f
iの狭帯域な信号にする第1の重みw
i
(1)を推定する第1重み推定部と、
前記ARモデルで近似した楽器音sスペクトルで各モードの中心周波数f
iにあたるピークの大きさをg
iとし、j番目の共振周波数f
jの共振フィルタの振幅応答を|h
j|とし、
【数35】
に基づいて、他のモードの混入を防ぐ第2の重みw
i
(2)を推定する第2重み推定部と、
前記i番目の第1の重みw
i
(1)と前記i番目の第2の重みw
i
(2)のアダマール積をi番目の第3の重みw
iとし、i番目の前記モードx
iの周波数成分F(x
i)に関する最小二乗問題
【数36】
の解を、完全再構成性と因果性を充たすことを制約として、FISTAを用いて求めることにより、前記楽音信号sを各モードx
1,...,x
Nに分解するモード分解部
を含むモード分解装置。
【請求項3】
楽音信号を各モードに分解するフィルタの振幅応答の逆特性と各モードの周波数成分のアダマール積と、前記楽音信号の周波数成分に関する最小二乗問題であって、完全再構成性と因果性を充たすことを制約とした制約付き最小二乗問題を解くことにより、前記楽音信号を各モードに分解す
る、モード分解装置が実行するモード分解方法であって、
楽音信号sまたはその近似音から極を取り出す極取り出しステップと、
iを前記楽音信号sの各モードのインデックスとし、前記極の情報に基づいて定まるi番目の共振周波数f
iの共振フィルタの振幅応答|h
i|に基づいて、i番目の第1の重みw
i
(1)を推定する動作を各モードについて繰り返し実行する第1重み推定ステップと、
jをj≠iを満たす楽音信号sのモードのインデックスとし、j番目の共振周波数f
jの共振フィルタの振幅応答|h
j|に基づいて、i番目の第2の重みw
i
(2)を推定する動作を各モードについて繰り返し実行する第2重み推定ステップと、
残差rに対する重みである残差重みw
rを推定する残差重み推定ステップと、
前記i番目の第1の重みw
i
(1)と前記i番目の第2の重みw
i
(2)のアダマール積であるi番目の第3の重みw
iと、i番目の前記モードx
iの周波数成分F(x
i)と、前記楽音信号sの周波数成分F(s)と、パラメータλと、前記残差重みw
rと、前記残差rの周波数成分F(r)に関する最小二乗問題
【数37】
の解を、完全再構成性と因果性を充たすことを制約として求めることにより、前記楽音信号sを各モードx
1,...,x
Nに分解するモード分解ステップ
を
含み、
前記第1重み推定ステップは、
kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、μをパラメータとし、i番目の第1の重みw
i
(1)[k]を、
【数38】
と推
定し、
前記第2重み推定ステップは、
kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、g
jをj番目のモードx
jに対応するピークの大きさとし、i番目の第2の重みw
i
(2)[k]を
【数39】
と推
定し、
前記残差重み推定ステップは、
kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、g
jをj番目のモードx
jに対応するピークの大きさとし、残差重みw
r[k]を
【数40】
と推定する
モード分解方法。
【請求項4】
モード分解装置が実行するモード分解方法であって、
i,jを楽音信号sの各モードのインデックスとし、
ARモデルを用いて近似した楽音信号sから極p
iを取り出す極取り出しステップと、
極p
iとその複素共役p
i
-のみを極に持つ共振フィルタの振幅応答を正規化したものを|h
i~|とし、ξを周波数インデックスとして、
【数41】
に基づいて、各モードx
iを中心周波数f
iの狭帯域な信号にする第1の重みw
i
(1)を推定する第1重み推定ステップと、
前記ARモデルで近似した楽器音sスペクトルで各モードの中心周波数f
iにあたるピークの大きさをg
iとし、j番目の共振周波数f
jの共振フィルタの振幅応答を|h
j|とし、
【数42】
に基づいて、他のモードの混入を防ぐ第2の重みw
i
(2)を推定する第2重み推定ステップと、
前記i番目の第1の重みw
i
(1)と前記i番目の第2の重みw
i
(2)のアダマール積をi番目の第3の重みw
iとし、i番目の前記モードx
iの周波数成分F(x
i)に関する最小二乗問題
【数43】
の解を、完全再構成性と因果性を充たすことを制約として、FISTAを用いて求めることにより、前記楽音信号sを各モードx
1,...,x
Nに分解するモード分解ステップ
を含むモード分解方法。
【請求項5】
コンピュータを請求項
1または2に記載のモード分解装置として機能させるプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は楽音信号を複数のモードに分解するモード分解装置、モード分解方法、プログラムに関する。
【背景技術】
【0002】
楽器音のモードの減衰特性は楽器の種類や音の高さ、強さによって異なり、音色に大きな影響を与える。そこで、楽器音に対してモードの減衰特性の解析が盛んに行われている(非特許文献1)。特に打楽器や撥弦楽器の各モードの減衰特性において、発音時の挙動は重要である。
【先行技術文献】
【非特許文献】
【0003】
【文献】T. Cheng, S. Dixon and M. Mauch, "Modelling the decay of piano sounds," Int. Conf. Acoust., Speech Signal Process. (ICASSP), pp. 594{598, Apr. 2015.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、発音時に非調波成分が存在するため、各モードの発音時の挙動の解析は容易ではない。楽器音sをN個の中心周波数fi(i=1,...,N)の狭帯域なモードmiと非調波成分等の残差rに分解することを考える。このようなモード分解では一般にバンドパスフィルタが用いられる。しかし、フィルタの特性により各モードの振幅包絡が変化する他に、位相遅延やプリリンギングが発生する。因果的なフィルタを用いると、各モードに位相遅延が発生し、モードmi及び残差rの足し合わせと元の楽器音sが一致する完全再構成性が満たされない。一方、位相遅延のないフィルタを用いるとプリリンギングが発生し、因果性が満たされない。バンドパスフィルタ以外の手法として、短時間フーリエ変換(STFT, Short-Time Fourier Transform)や経験的モード分解(EMD, Empirical Mode Decomposition)を用いる手法も提案されているが、下表にまとめる通り、上記の課題をすべて解決するモード分解にはなっていない。
【0005】
【0006】
そこで本発明では、振幅包絡が変化せず、因果性と完全再構成性を充たすモード分解ができるモード分解装置を提供することを目的とする。
【課題を解決するための手段】
【0007】
本発明のモード分解装置は、楽音信号を各モードに分解するフィルタの振幅応答の逆特性と各モードの周波数成分のアダマール積と、楽音信号の周波数成分に関する最小二乗問題であって、完全再構成性と因果性を充たすことを制約とした制約付き最小二乗問題を解くことにより、楽音信号を各モードに分解する。
【発明の効果】
【0008】
本発明のモード分解装置によれば、振幅包絡が変化せず、因果性と完全再構成性を充たすモード分解ができる。
【図面の簡単な説明】
【0009】
【
図1】実施例1のモード分解装置の構成を示すブロック図。
【
図2】実施例1のモード分解装置の動作を示すフローチャート。
【
図3】設計した共振フィルタ|h
5|の振幅応答(上段左)、第1重みw
5
(1)(上段右)、第2重みw
5
(2)と残差重みw
r(下段左)、第3重みw
5(下段右)を示す図。
【
図4】フィルタと提案手法によるモード分解の結果を示す図。
【
図5】実施例2のモード分解装置の構成を示すブロック図。
【
図6】実施例2のモード分解装置の動作を示すフローチャート。
【
図7】実施例3のモード分解装置の構成を示すブロック図。
【
図8】実施例3のモード分解装置の動作を示すフローチャート。
【発明を実施するための形態】
【0010】
以下、本発明の実施の形態について、詳細に説明する。なお、同じ機能を有する構成部には同じ番号を付し、重複説明を省略する。
【実施例1】
【0011】
<理論>
以下、実施例1のモード分解装置1の基礎となる理論を説明する。因果的な線形フィルタを用いると、位相遅延が起こる。一方。このフィルタと同じ振幅応答|hi|を持つ位相遅延のないフィルタを考えると、フィルタ処理は
【0012】
【0013】
と表せるが、プリリンギングが発生する。ただし、F,F-1,○はそれぞれ離散フーリエ変換、逆離散フーリエ変換、アダマール積を表す。そこで、式(1)で示したフィルタ処理を最小二乗法を用いて再定式化することで、フィルタ処理を拡張する。フィルタの振幅応答|hi|に逆特性|hi|-1が存在する時、式(1)を変形すると
【0014】
【0015】
となる。式(2)を最小二乗問題に置き換えると
【0016】
【0017】
と表せる。この問題の解は式(1)と一致するため、フィルタ処理は最小二乗問題の解として解釈できる。このように、最小二乗問題として定式化することで、制約や他のコスト関数の導入が可能である。
【0018】
最小二乗問題(式(3))は各モードごとのフィルタ処理に対応し、完全再構成性、因果性は考慮されていない。そこで、これらを制約として、フィルタ処理に対応する最小二乗問題を解くことで、上記の性質を満たしたモード分解を実現する。すなわち、以下の制約付き最小二乗問題
【0019】
【0020】
を解くことで、楽器音sをN個のモードxi及び残差rへ分解する。ただし、nは時間サンプルを、τは楽器の発音時刻に対応するサンプルを表す。また、λは残差の大きさを調整するパラメータである。この問題は凸なので、適当な凸最適化アルゴリズムで解くことができる。式(4)では、全てのモード及び残差を同時に扱い、下段左式の制約を導入することで、完全再構成性を考慮することができる。また、下段右式の制約は各モードxiの因果性を表す。これにより、得られた各モードxi及び残差rが上記の性質を同時に満たすモード分解が可能である。式(4)上段のコスト関数における周波数領域での重みwiを|hi|-1の拡張として考えると、コスト関数の最小化はフィルタ処理の一般化に対応する。
【0021】
式(4)における重みwiは各モードxiが所望の周波数特性を持つように任意に作成することができる。楽器音のモード分解を考えるため、各モードxiが狭帯域かつ他のモードの成分の混入が少ない信号にする重みwiを作成する。ARモデルを用いて楽器音sを近似し、極の情報から共振周波数fiの共振フィルタを設計した。共振フィルタの振幅応答を|hi|とし、楽器音sのスペクトルのピークでモードmiに対応するピークの大きさをgiとする。これらの情報を利用し、各モードxiを中心周波数fiの狭帯域な信号にする第1の重みwi
(1)と、他のモードの混入を防ぐ第2の重みwi
(2)を作成する。これら2つの重みのアダマール積wi
(1)
○wi
(2)を式(4)の重みwi(第3の重み)とした(詳細は実施例1において後述)。
【0022】
<理論に基づく本発明の装置の一般的表現>
すなわち、以下の実施例に記載するモード分解装置1は、楽音信号sを各モードm1,...,mN(あるいはx1,...,xN)に分解するフィルタの振幅応答|hi|の逆特性|hi|-1(第3の重みwiとして拡張)と各モードm1,...,mN(あるいはx1,...,xN)の周波数成分F(mi)(あるいはF(xi))のアダマール積と、楽音信号sの周波数成分F(s)に関する最小二乗問題であって、完全再構成性((4)下段左式)と因果性((4)下段右式)を充たすことを制約とした制約付き最小二乗問題を解くことにより、楽音信号を各モードに分解する装置であるといえる。
【0023】
<モード分解装置1>
以下、
図1を参照して実施例1のモード分解装置1の構成を説明する。同図に示すように、本実施例のモード分解装置1は、極取り出し部11と、第1重み推定部12と、第2重み推定部13と、残差重み推定部14と、モード分解部15を含む構成である。
【0024】
以下、
図2を参照して各部の動作について説明する。まず、極取り出し部11は、楽音信号sまたはその近似音から極を取り出す(S11)。
【0025】
第1重み推定部12は、iを楽音信号sの各モードのインデックスとし、極の情報に基づいて定まるi番目の共振周波数fiの共振フィルタの振幅応答|hi|に基づいて、i番目の第1の重みwi
(1)を推定する動作を各モードについて繰り返し実行する(S12)。具体的には、第1重み推定部12は、kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、μを上限を表すパラメータとし、i番目の第1の重みwi
(1)[k]を、
【0026】
【0027】
と推定する(S12)。
【0028】
第2重み推定部13は、jをj≠iを満たす楽音信号sのモードのインデックスとし、j番目の共振周波数fjの共振フィルタの振幅応答|hj|に基づいて、i番目の第2の重みwi
(2)を推定する動作を各モードについて繰り返し実行する(S13)。具体的には、第2重み推定部13は、kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、gjをj番目のモードxjに対応するピークの大きさとし、i番目の第2の重みwi
(2)[k]を
【0029】
【0030】
と推定する(S13)。
【0031】
残差重み推定部14は、残差rに対する重みである残差重みwrを推定する(S14)。具体的には、残差重み推定部14は、kをインデックスを表すものとし、ξ[k]をインデックスkに対応する周波数とし、gjをj番目のモードxjに対応するピークの大きさとし、残差重みwr[k]を
【0032】
【0033】
と推定する(S14)。
【0034】
モード分解部15は、i番目の第1の重みwi
(1)とi番目の第2の重みwi
(2)のアダマール積であるi番目の第3の重みwiと、i番目のモードxiの周波数成分F(xi)と、楽音信号sの周波数成分F(s)と、パラメータλと、残差重みwrと、残差rの周波数成分F(r)に関する最小二乗問題
【0035】
【0036】
の解を、完全再構成性と因果性を充たすこと、すなわち
【0037】
【0038】
を制約として求めることにより、楽音信号sを各モードx1,...,xNに分解する(S15)。
【0039】
<実験>
一例として、The University of Iowa Musical Instrument Samples (MIS)(参考非特許文献1)のbellsC5stereobrassを提案手法により解析した。ARモデルの次数を300とし、楽器音sの近似にはBurg法(参考非特許文献2)を用いた。また、重みw
i
(1)のパラメータをμ=10
-3とした。制約付き最小二乗問題(式(4))は、λ=3×10
-3とし、Over-relaxation Monotone Fast Iterative Shrinkage-Thresholding Algorithm (OMFISTA)(参考非特許文献3)により解いた。第5モードに対応する共振フィルタの振幅応答|h
5|,第1重みw
5
(1),第2重みw
5
(2),第3重みw
i,残差重みw
rを
図3に示す。
【0040】
提案手法で得られた各モード及び残差の波形x
1,x
2,x
3,x
4,rと、式(1)で表される位相遅延のない共振フィルタを用いた場合の各モード及び残差の波形を
図4に示す。共振フィルタでは,フィルタの特性により各モードの音の立ち上がりが鈍くなり、プリリンギングも発生している。一方、提案手法ではプリリンギングが発生せず、残差が発音時の非調波成分に集中している。また、OMFISTAを用いることで式(4)下段の制約は常に満たされるため、完全再構成性も必ず満たされる。
(参考非特許文献1:Electronic Music Studios School of Music University of Iowa,"the University of Iowa Electronic Music Studios," Samples, http://theremin.music.uiowa.edu/MIS.html)
(参考非特許文献2:S. Kay, Modern spectral estimation: Theory and application, Prentice Hall, New Jersey, 1988.)
(参考非特許文献3:M. Yamagishi and I. Yamada, "Over-relaxation of the fast iterative shrinkage-thresholding algorithm with variable stepsize" IOP Sci. Inv. Probl., vol.27, no. 10, p. 105008, Sep. 2011.)
【実施例2】
【0041】
<理論>
以下、実施例2のモード分解装置2の基礎となる理論を説明する。最小二乗問題(式(3))は各モードごとの線形なフィルタ処理に対応しているが、完全再構成性、因果性は必ずしも考慮されていない。そこで、完全再構成性及び因果性を制約とした上で、フィルタ処理に対応する最小二乗問題を解くことで、プリリンギングが発生せず位相遅延のないモード分解を実現した。
【0042】
すなわち、以下の制約付き最小二乗問題
【0043】
【0044】
を解くことで、楽器音sをN個のモードxiへ分解する。実施例1と同様、nは時間インデックスを、τは楽器の発音時刻に対応するサンプルを表す。式(8)上段のコスト関数における周波数領域での重みwiをフィルタの周波数特性の逆hi
-1の拡張として考えると、上段のコスト関数の最小化はフィルタ処理の一般化に対応する。特に、重みwiが非負の実数ベクトルの時、零位相のフィルタによるフィルタ処理の拡張に対応する。
【0045】
重みwiを非負の実数ベクトルにし、式(8)下段で完全再構成性を満たす制約を導入したことで位相遅延のないモード分解を実現する。また、式(8)下段の制約は各モードが発音時刻τより前に成分を持たないことを示している。これにより、プリリンギングの発生を防ぎ、各モードにおいて因果性を満たすことを示している。
【0046】
式(8)における重みwiは各モードxiが所望の周波数特性を持つように任意に作成することができる。楽器音のモード分解を考えているため、各モードxiが狭帯域かつ他のモードの成分の混入が少ない信号にする重みwiを作成する。
【0047】
まず、ARモデルを用いて楽器音sを近似し、ARモデルのパラメータから楽器音のモードmiに対応する極piを選ぶ。この時、極piの偏角は各モードの中心周波数fiを正規化したものに対応する。極piごとに極piとその複素共役pi
-のみを極に持つ共振フィルタを設計し、この共振フィルタの振幅応答を正規化したものを|hi~|とする。また、ARモデルで近似した楽器音sスペクトルで各モードの中心周波数fiにあたるピークの大きさをgiとする。
【0048】
これらの情報を利用し、各モードxiを中心周波数fiの狭帯域な信号にする第1の重みwi
(1)と、他のモードの混入を防ぐ第2の重みwi
(2)を作成する。これら2つの重みのアダマール積wi
(1)
○wi
(2)を後述する式(14)の第3の重みwiとした。第1の重みwi
(1)は
【0049】
【0050】
とした。これにより、第1の重みwi
(1)のうち、モードの中心周波数fiへの重みは0になり急峻なディップを持つ。また、第2の重みwi
(2)を
【0051】
【0052】
とする。これにより第2の重みwi
(2)は他のモードの中心周波数fj≠iに対しピークを持つ。そのため、第3の重みwiはモードの中心周波数fiでディップを持ち、他のモード中心周波数fj≠iでピークを持つ。
【0053】
式(8)の手法はフィルタ処理の一般化にあたるため、コスト関数でデータ忠実性を考慮している。これにより、各モードに他のモードの成分が混在するモードミキシングが発生してしまう。そこで本実施例では、フィルタ処理の一般化にあたるコスト関数ではなく、各モードの周波数領域で重み付けしたエネルギーをコスト関数にした問題を考える。そこで、楽器音のスペクトルs^、推定するモードのスペクトルをxi^を利用し、周波数領域での完全再構成性の制約のもと重み付けしたエネルギーの最小化問題
【0054】
【0055】
を解くことで楽器音のスペクトルs^を各モードのスペクトルをxi^へ分解することを考える。但し、wi∈RLは各モードに対する重みを表す。離散フーリエ変換Fはユニタリ作用素であるため、周波数領域での完全再構成性が満たされる時、式(11)下段の周波数領域の完全再構成性制約の両辺に逆離散フーリエ変換F-1をかけた時間領域での完全再構成性も満たされる。式(11)上段のコスト関数は周波数インデックスξごとに独立であり、周波数インデックスξごとに考えることができる。式(11)を周波数インデックスξごとに考えると
【0056】
【0057】
と書き換えることができる。ここで、全ての周波数サンプルξに対し複数のモードの重みwi[ξ]が同時に0でない時、式(12)の解は
【0058】
【0059】
となる。式(13)は、式(11)の解xiが、周波数応答がGiとなるフィルタを楽器音sにかけたものと一致することを示している。つまり、式(11)はモードの周波数領域で重み付けしたエネルギーの最小化を考えていたが、完全再構成性を考慮した位相遅延のないフィルタバンクG1,...,Nを作成し、そのフィルタバンクを楽器音sにかけることと一致している。
【0060】
Gi[ξ]は重みw1,...,N[ξ]どうしの比によって決まり、重みwi[ξ]=0の時、Gi[ξ]=1となり、Gi≠j[ξ]=0となる。そのため、周波数応答がGiで与えられるフィルタは各モードの成分を排他的にする性質がある。そのため、式(11)を解くことで、モードミキシングの少ないモード分解を実現することができる。
【0061】
フィルタ処理を拡張した最適化問題によるモード分解より、周波数領域で重み付けした各モードのエネルギーの最小化によるモード分解(式(11))の方がモードミキシングが少ないことが式(11)の解析解(13)より分かった。しかし、式(11)では因果性を考慮していなかった。そこで、各モードの時間波形xiを変数とし、各モードの因果性を制約に加えた上で、周波数領域で重み付けした各モードのエネルギーの最小化問題
【0062】
【0063】
を解くことによる楽器音のモード分解を考える。この問題は凸なので、適当な凸最適化アルゴリズムで解くことができる。
【0064】
変数を各モードの時間波形xiで持ち、式(14)下段の各モードの因果性を表す制約を導入することで、各モードxiにおけるプリリンギングの発生を防ぐ。これにより、各モードxiが完全再構成性、因果性を同時に満たした位相遅延のないモード分解が可能である。
【0065】
本実施例では式(14)をFast Iterative Shrinkage-Thresholding Algorithm (FISTA) を用いて解いた。FISTAを用いると式(14)の解は
【0066】
【0067】
を反復することで求められる。但し、kは反復のインデックス、μはステップサイズを表し、作用素Tは
【0068】
【0069】
を表している。また、T*は作用素Tの随伴作用素を表す。κCは式(14)の下段の完全再構成性と因果性表す制約を同時に満たすアフィン部分空間Cへの射影を表し、
【0070】
【0071】
となる。式(17)の上段は各モードxiの足し合わせを楽器音sに一致させる効果があり、完全再構成性の制約に対応している。一方、下段はプリリンギングの発生を防ぐ効果があり、因果性の制約に対応している。FISTAでは、式(15)に示す通り、各反復ごとに各モードの時間波形xiに対し上記の制約を同時に満たすアフィン部分空間Cへの射影κCを行う。そのため、制約付き最小二乗問題(式(14))をFISTAを用いて解くことで、各反復においてモードxiは必ず完全再構成性と因果性を満たす。
【0072】
<モード分解装置2>
図5を参照して、本実施例のモード分解装置2の構成について説明する。同図に示すように、本実施例のモード分解装置2は、極取り出し部21と、第1重み推定部22と、第2重み推定部23と、モード分解部24を含む。
【0073】
図6を参照して各部の動作について説明する。極取り出し部21は、楽音信号sまたはその近似音から極を取り出す(S21)。
【0074】
第1重み推定部22は、式(9)に基づいて、各モードxiを中心周波数fiの狭帯域な信号にする第1の重みwi
(1)を推定する(S22)。
【0075】
第2重み推定部23は、式(10)に基づいて、他のモードの混入を防ぐ第2の重みwi
(2)を推定する(S23)。
【0076】
モード分解部24は、式(14)の上段で表される最小二乗問題を、式(14)の下段に表す完全再構成性、因果性を充たすことを制約として、FISTAを用いて求めることにより、楽音信号sを各モードx1,...,xNに分解する(S24)。
【実施例3】
【0077】
<理論>
以下、実施例3のモード分解装置3の基礎となる理論を説明する。一般に、楽器音sから周波数応答がhn^である線形フィルタを用いてモードxnを推定することは、
【0078】
【0079】
と表される。ただし、s^=Fsは楽器音sのスペクトルを表し、F、○はそれぞれ離散フーリエ変換、アダマール積を表す。フィルタの周波数応答hn^に逆特性hn
-1^が存在する時、式(18)の解は最小二乗問題:
【0080】
【0081】
の解と一致する。一般に知られている通り、線形なフィルタ処理では各モードの位相遅延とプリリンギングを同時に解消することができない。これらは分解されたモードの立ち上がりを変化させ、楽器音の立ち上がりの解析を困難にする。
【0082】
そこで、式(19)に対し、(I)完全再構成・因果性を表す制約の導入、(II)制約のみによるデータ忠実性の考慮、(III)アタック成分の変数への組み込み、という3点の変更を加えたモード分解手法を提案した。(I)により位相遅延及びプリリンギングを明示的に解消し、(III)においてモード分解の残差をアタック成分とする。上記手法において、凸最適化問題:
【0083】
【0084】
を解くことで、楽器音sをN個のモードxnとアタック成分xN+1に分解する。ただし、実施例1と同様、F-1は逆離散フーリエ変換、tは時間インデックス、τは楽器の発音時刻に対応するサンプルを表す。しかし、上記手法では、モード数が多く複数のモードの中心周波数が近い実楽器音に適用する場合、計算時間と分解性能が課題となっていた。そこで本実施例では、式(20)のADMM(Alternating Direction Method of Multipliers)を用いた高速な解法(後述)を利用し、分解性能向上のための重みwiを改善することで(後述)、上記の課題を解決する。
【0085】
ADMMを用いることで、式(20)の高速な解法を実現する。式(20)の解はADMMを用いて任意の初期値z[0]^、u[0]^から
【0086】
【0087】
を反復することで求められる。ただし、
【0088】
【0089】
とし、xT^はx^の転置を、kは反復インデックスを表す。また、
【0090】
【0091】
とする。ただし、C1、C2はそれぞれ完全再構成性と因果性を表す制約を満たす空間、χCは空間Cに対する指示関数、PC2は空間C2への距離射影、proxρ,fは関数fの近接作用素を表し、それぞれ
【0092】
【0093】
で与えられる。式(28)は解析的に解くことができ
【0094】
【0095】
と表せる。ただし、ynξ^=znξ^-xnξ^、ξは周波数インデックスを表す。すなわち、式(29)~(33)を用いて式(21)を計算し、式(26)、(27)を用いて式(22)を計算することが可能である。これにより、式(20)の解を効率的に求めることができる。
【0096】
式(20)における重みwnは各モード及びアタック成分xnが所望の周波数特性を持つよう任意に作成することができる。本実施例では、自己回帰モデルを用いて楽器音sを近似し、各モードに対応する極の情報から共振フィルタを設計する。共振フィルタの正規化した振幅応答|hn~|及び振幅応答の最大値anを利用し、各モードxnを狭帯域な信号にする第1の重みwn
dipと、他のモードの混入を防ぐ第2の重みwn
peaksを作成する。式(20)の第3の重みwnを2つの重みのアダマール積wn
dip
○wn
peaksで表し、第1の重みwn
dip、第2の重みwn
peaksをそれぞれ
【0097】
【0098】
とする。ただし、μ>0は第1の重みwn
dipによって各モードxnをどれだけ狭帯域にするか調整するパラメータを表す。本実施例では第1の重みwn
dip、第2の重みwn
peaksはそれぞれ目的のモードの中心周波数に対する共振フィルタの振幅応答、他のモードの中心周波数に対するノッチフィルタの振幅応答の和に対応する。また、アタック成分に対する重みwN+1を
【0099】
【0100】
とし、λ>0はアタック成分の大きさを調整するパラメータを表す。
【0101】
<モード分解装置3>
図7を参照して、本実施例のモード分解装置3の構成について説明する。同図に示すように、本実施例のモード分解装置3は、極取り出し部31と、第1重み推定部32と、第2重み推定部33と、アタック成分重み推定部34と、モード分解部35を含む。
【0102】
図8を参照して各部の動作について説明する。極取り出し部31は、楽音信号sまたはその近似音から極を取り出す(S31)。
【0103】
第1重み推定部32は、式(34)に基づいて、第1の重みwn
dipを推定する(S32)。
【0104】
第2重み推定部33は、式(35)に基づいて、第2の重みwn
peaksを推定する(S33)。
【0105】
アタック成分重み推定部34は、式(36)に基づいて、アタック成分重みwN+1を推定する(S34)。
【0106】
モード分解部35は、式(20)の上段で表される最小二乗問題を、式(20)の下段に表す完全再構成性、因果性を充たすことを制約として、ADMMを用いて求めることにより、楽音信号sを各モードx1,...,xNとアタック成分xN+1に分解する(S35)。
【0107】
<補記>
本発明の装置は、例えば単一のハードウェアエンティティとして、キーボードなどが接続可能な入力部、液晶ディスプレイなどが接続可能な出力部、ハードウェアエンティティの外部に通信可能な通信装置(例えば通信ケーブル)が接続可能な通信部、CPU(Central Processing Unit、キャッシュメモリやレジスタなどを備えていてもよい)、メモリであるRAMやROM、ハードディスクである外部記憶装置並びにこれらの入力部、出力部、通信部、CPU、RAM、ROM、外部記憶装置の間のデータのやり取りが可能なように接続するバスを有している。また必要に応じて、ハードウェアエンティティに、CD-ROMなどの記録媒体を読み書きできる装置(ドライブ)などを設けることとしてもよい。このようなハードウェア資源を備えた物理的実体としては、汎用コンピュータなどがある。
【0108】
ハードウェアエンティティの外部記憶装置には、上述の機能を実現するために必要となるプログラムおよびこのプログラムの処理において必要となるデータなどが記憶されている(外部記憶装置に限らず、例えばプログラムを読み出し専用記憶装置であるROMに記憶させておくこととしてもよい)。また、これらのプログラムの処理によって得られるデータなどは、RAMや外部記憶装置などに適宜に記憶される。
【0109】
ハードウェアエンティティでは、外部記憶装置(あるいはROMなど)に記憶された各プログラムとこの各プログラムの処理に必要なデータが必要に応じてメモリに読み込まれて、適宜にCPUで解釈実行・処理される。その結果、CPUが所定の機能(上記、…部、…手段などと表した各構成要件)を実現する。
【0110】
本発明は上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。また、上記実施形態において説明した処理は、記載の順に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されるとしてもよい。
【0111】
既述のように、上記実施形態において説明したハードウェアエンティティ(本発明の装置)における処理機能をコンピュータによって実現する場合、ハードウェアエンティティが有すべき機能の処理内容はプログラムによって記述される。そして、このプログラムをコンピュータで実行することにより、上記ハードウェアエンティティにおける処理機能がコンピュータ上で実現される。
【0112】
この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。具体的には、例えば、磁気記録装置として、ハードディスク装置、フレキシブルディスク、磁気テープ等を、光ディスクとして、DVD(Digital Versatile Disc)、DVD-RAM(Random Access Memory)、CD-ROM(Compact Disc Read Only Memory)、CD-R(Recordable)/RW(ReWritable)等を、光磁気記録媒体として、MO(Magneto-Optical disc)等を、半導体メモリとしてEEP-ROM(Electronically Erasable and Programmable-Read Only Memory)等を用いることができる。
【0113】
また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
【0114】
このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
【0115】
また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、ハードウェアエンティティを構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。