(58)【調査した分野】(Int.Cl.,DB名)
音響信号の基本周波数に対応する周期の整数倍に相当する基準長を含む探索範囲内の複数の候補長の各々について、前記音響信号の特定点を中心として当該候補長にわたる候補区間内における調波成分の優勢度を示す調波強度指標を算定する指標算定手段と、
前記複数の候補長のうち前記指標算定手段が候補長毎に算定した調波強度指標に応じて選択した候補長から解析長を特定する解析長特定手段と、
前記音響信号のうち前記解析長特定手段が特定した解析長に対応する解析区間を解析することで、前記音響信号の調波成分が優勢な調波帯域と調波帯域の高域側の非調波帯域との境界である調波境界周波数を特定する境界特定手段と
を具備する音響解析装置。
前記調波次数解析手段は、前記特定点を包含するように時間軸上の位置を相違させた前記解析長に対応する複数の解析区間の各々について、前記調波帯域と前記非調波帯域との境界に対応する調波成分の次数である暫定調波次数を算定する第1演算手段と、
前記複数の解析区間について前記第1演算手段が算定した複数の暫定調波次数から前記調波次数を算定する第2演算手段とを含む
請求項3または請求項4の音響解析装置。
【発明を実施するための形態】
【0011】
図1は、本発明の好適な態様に係る音響解析装置100のブロック図である。音響解析装置100は、音響信号s(n)のスペクトルのうち調波成分が優勢な低域側の調波帯域と非調波成分が優勢な高域側の非調波帯域との境界となる調波境界周波数(VCO:Voicing Cut-Off frequency)を特定する信号処理装置であり、
図1に示すように、演算処理装置12と記憶装置14とを具備するコンピュータシステムで実現される。
【0012】
記憶装置14は、演算処理装置12が実行するプログラムや演算処理装置12が使用する各種のデータを記憶する。例えば記憶装置14は、音響解析装置100による解析対象となる音響信号s(n)を記憶する。音響信号s(n)は、調波音を含有する音響の波形を示す時間領域のサンプル系列である。記号nは、時間軸上の各サンプルの番号を意味する。調波音は、基本周波数(ピッチ)に相当する間隔で複数の調波成分(すなわち基音成分および複数の倍音成分)を周波数軸上に配列した調波構造が観測される音響成分である。人間が発声した音声を収録した音響信号(音声信号)s(n)を以下の説明では想定する。半導体記録媒体または磁気記録媒体等の公知の記録媒体や複数種の記録媒体の組合せが記憶装置14として任意に採用される。
【0013】
演算処理装置12は、記憶装置14に記憶されたプログラムを実行することで、音響信号s(n)の調波境界周波数を特定するための複数の機能(基本周波数推定部22,特定点設定部24,解析区間設定部26,境界特定部28)を実現する。なお、演算処理装置12の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が一部の機能を実現する構成も採用され得る。演算処理装置12が特定した調波境界周波数は、音響信号s(n)に対する各種の音響処理に適用される。例えば、音響信号s(n)のうち調波境界周波数で規定される調波帯域内の成分に対して選択的に音響処理を実行する構成や、音響信号s(n)のうち調波境界周波数で規定される調波帯域内の成分を解析する(例えば特徴量を抽出する)構成が採用され得る。
【0014】
基本周波数推定部22は、音響信号s(n)の基本周波数FAを所定の周期で順次に推定する。基本周波数FAの推定には公知の技術が任意に採用される。基本周波数推定部22が順次に推定する基本周波数FAの時系列は、時間軸上で折線として表現される。
【0015】
特定点設定部24は、音響信号s(n)について時間軸上の特定点T(k)を順次に設定する(k=1,2,3,……)。記号kは各特定点T(k)の番号を意味する。各特定点T(k)は、
図2に示すように、基本周波数FAに対応するピッチ周期毎(すなわち音響信号s(n)の単位波形毎)に設定された時間軸上の時点(ピッチマーク)である。例えば、音響信号s(n)が示す音声の発音時に発声者の声門が閉塞する時点(GCI: Glottal Closure Instant)または声門が開口する時点(GOI: Glottal Opening Instant)が特定点T(k)として設定される。声門が閉塞または開口する時点の推定には、例えば、Thomas Drugman, et. al., "Glottal Closure and Opening Instant Detection from Speech Signals", INTERSPEECH 2009, p.2891-p.2894, 2009に開示された技術が好適に利用される。特定点設定部24が設定した特定点T(k)毎(すなわち音響信号s(n)の単位波形毎)に調波境界周波数FC(k)が順次に推定される。
【0016】
図1の解析区間設定部26は、音響信号s(n)のうち調波境界周波数FC(k)の解析に適用される解析区間を規定する時間長(以下「解析長」という)N(k)を設定する。解析長(フレームサイズ)N(k)は、特定点設定部24が設定した特定点T(k)毎に個別に設定され、音響信号s(n)のサンプルの個数で表現される。
図3は、解析区間設定部26のブロック図である。
図3に示すように、解析区間設定部26は、指標算定部32と解析長特定部34と周波数補正部36とを含んで構成される。
【0017】
指標算定部32は、解析長N(k)の候補であるG個(Gは2以上の自然数)の候補長NC(1)〜NC(G)の各々について、当該候補長NC(g)(g=1〜G)を解析長N(k)として採択する妥当性の指標となる調波強度指標H(g)(H(1)〜H(G))を算定する。特定点設定部24が設定した特定点T(k)毎にG個の調波強度指標H(1)〜H(G)が順次に算定される。
【0018】
図4は、特定点設定部24が設定した第k番目の特定点T(k)について指標算定部32が各候補長NC(g)の調波強度指標H(g)(H(1)〜H(G))を算定する指標算定処理のフローチャートである。指標算定処理は、例えば利用者からの指示(調波境界周波数FC(k)の算定指示)を契機として特定点T(k)毎に順次に実行される。
【0019】
指標算定処理を開始すると、指標算定部32は、音響信号s(n)のうち特定点設定部24が設定した特定点T(k)での基本周波数F0(k)を算定する(SA1)。具体的には、指標算定部32は、以下の数式(1)で表現される通り、基本周波数推定部22が推定した複数の基本周波数FAの時系列から特定点T(k)での基本周波数F0(k)を算定する。例えば、基本周波数FAが算定された各時点の間隔内に位置する特定点T(k)での基本周波数F0(k)が、特定点T(k)の前後の各時点の基本周波数FAを利用して補間される。基本周波数F(k)の算定(補間)には公知の補間技術が任意に採用される。
【数1】
【0020】
指標算定部32は、以下の数式(2)の演算を実行することで、調波強度指標H(g)の算定の基礎(各候補長NC(g)の基準)となる基準長N0(k)を算定する(SA2)。
【数2】
数式(2)の記号FSは、音響信号s(n)のサンプリング周波数である。数式(2)から理解される通り、基準長N0(k)は、音響信号s(n)のうち時間軸上の特定点T(k)での基本周波数F0(k)に対応するピッチ周期(1/F0(k))の整数倍に対応した時間長として定義され、当該時間長の区間内に存在するサンプルの個数として表現される。本実施形態では、数式(2)から理解される通り、基準長N0(k)を音響信号s(n)のピッチ周期の2倍(偶数倍)とした場合を例示する。
【0021】
指標算定部32は、基準長N0(k)を含む所定の数値範囲(以下「探索範囲」という)からG個の候補長NC(1)〜NC(G)を特定する(SA3)。具体的には、
図5から理解される通り、基準長N0(k)を中心とする探索範囲R内から間隔δでG個の候補長NC(1)〜NC(G)が抽出される。間隔δは偶数(例えばδ=2)に設定される。前述の通り基準長N0(k)は奇数であるから、G個の候補長NC(1)〜NC(G)の各々は奇数である。
図5に例示される通り、探索範囲Rは、基準長N0(k)から所定値wを減算した数値{N0(k)−w}を下限値とし、基準長N0(k)に所定値wを加算した数値{N0(k)+w}を上限値とする数値範囲(幅2w)である。所定値wは、例えば基準長N0(k)に所定の正数(例えば0.15)を乗算した数値に設定される。以上の説明から理解される通り、
図2に示すように、相異なる候補長NC(g)に対応するG個の区間(以下「候補区間」という)C(1)〜C(G)が特定点T(k)を中心として設定される。
【0022】
指標算定部32は、探索範囲Rから選択したG個の候補長NC(1)〜NC(G)の各々について調波強度指標H(g)(H(1)〜H(G))を算定する(SA4)。具体的には、指標算定部32は、以下の数式(3)の演算で各候補長NC(g)の調波強度指標H(g)を算定する。
【数3】
【0023】
数式(3)の記号Q(g,i)は、音響信号s(n)のうち特定点T(k)を中心とした候補長NC(g)の候補区間(フレーム)C(g)内のスペクトルにおける各周波数成分の強度(パワー)を意味する。記号iは、周波数軸上に離散的に設定された複数の周波数(周波数ビン)のうち任意の1個の周波数を指示する変数である。具体的には、指標算定部32は、特定点T(k)を中心とする候補長NC(g)の窓幅の窓関数(典型的には矩形窓)を時間領域で音響信号s(n)に乗算したうえで周波数領域のスペクトルに変換することで各周波数成分の強度Q(g,i)を算定する。時間領域から周波数領域への変換には、例えば高速フーリエ変換が好適に利用される。なお、各周波数成分の振幅を強度Q(g,i)として算定することも可能である。
【0024】
数式(3)から理解される通り、調波強度指標H(g)は、候補長NC(g)の候補区間C(g)内の音響信号s(n)を構成する複数の周波数成分のうち周波数軸上の奇数番目の周波数成分の強度Q(g,i)(i=3,5,7,……)の合計値と全部の周波数成分にわたる強度Q(g,i)の合計値との強度比に相当する。周波数軸上の奇数番目の各周波数成分(i=3,5,7,……)は調波成分を優勢に包含し、偶数番目の各周波数成分(i=2,4,6,……)は非調波成分を優勢に包含する。したがって、数式(3)の調波強度指標H(g)は、候補長NC(g)の候補区間C(g)内の音響信号s(n)の合計強度(数式(3)の右辺の分母)に対する各調波成分の合計強度(数式(3)の右辺の分子)の相対比である。以上の説明から理解される通り、調波強度指標H(g)は、音響信号s(n)のうち候補長NC(g)の候補区間C(g)内における調波成分の優勢度(非調波成分に対する調波成分の強度の優勢度)の指標に相当する。すなわち、音響信号s(n)のうち候補長NC(g)の候補区間C(g)内で調波成分が非調波成分と比較して優勢であるほど調波強度指標H(g)は大きい数値に設定される。以上に説明した調波強度指標H(g)がG個の候補長NC(1)〜NC(G)の各々について算定される。
図6に示すように、調波強度指標H(g)は候補長NC(g)の数値(横軸)に応じて変動する。
【0025】
図3の解析長特定部34は、G個の候補長NC(1)〜NC(G)に応じて解析区間(フレーム)の解析長N(k)を特定する。具体的には、G個の候補長NC(1)〜NC(G)のうち各候補長NC(g)の調波強度指標H(g)に応じて選択された候補長NC(g)から解析長N(k)が特定される。実施形態の解析長特定部34は、
図6に例示される通り、G個の候補長NC(1)〜NC(G)のうち調波強度指標H(g)が最大となる候補長(すなわち、調波成分の優勢度が最大となる候補長)NC(g)を解析長N(k)として選択する。すなわち、解析長N(k)は、以下の数式(4)で表現される。
【数4】
以上の説明から理解される通り、特定点T(k)を中心とするG個の候補区間C(1)〜C(G)のうち音響信号s(n)の調波成分が非調波成分と比較して優勢である1個の候補区間C(g)が解析長N(k)の解析区間として特定される。
図6に矢印で図示されるように、解析長特定部34による解析長N(k)の特定は、基本周波数推定部22が推定した基本周波数FAに対応する基準長N0(k)を調波成分が優勢な解析長N(k)に補正する処理とも換言され得る。
【0026】
図3の周波数補正部36は、解析長特定部34が特定した解析長N(k)に応じて特定点T(k)での音響信号s(n)の基本周波数F0(k)を補正する。具体的には、周波数補正部36は、特定点T(k)での音響信号s(n)の基本周波数F0(k)を以下の数式(5)の演算で算定する。基本周波数F0(k)の補正は特定点T(k)毎(解析長N(k)毎)に実行される。
【数5】
【0027】
以上が解析区間設定部26の具体例である。
図1の境界特定部28は、音響信号s(n)のうち解析区間設定部26(解析長特定部34)が特定した解析長N(k)に対応する時間長の解析区間(フレーム)を解析することで調波境界周波数FC(k)を特定点T(k)毎(解析長N(k)毎)に特定する。第1実施形態の解析区間は、解析長N(k)の半分の時間長(N(k)/2)に設定される。数式(2)を参照して前述した通り、基準長N0(k)は音響信号s(n)のピッチ周期の2倍に相当するから、解析区間の時間長は、音響信号s(n)のピッチ周期の1個分に概略的には近似する。
図7は、境界特定部28のブロック図である。
図7に示すように、境界特定部28は、区間シフト部42と調波次数解析部44と周波数算定部46とを含んで構成される。
【0028】
区間シフト部42は、時間軸上の位置が相違するM個の解析区間S(1)〜S(M)を特定点T(k)毎に設定する。時間軸上の1個の特定点T(k)に対応するM個の解析区間S(1)〜S(M)の各々は、
図8に示すように、解析長特定部34が特定した共通の解析長N(k)にわたる区間であり、当該特定点T(k)を区間内に包含するように時間軸上の相異なる位置に設定される。具体的には、音響信号s(n)のサンプルの1個分を単位として解析長N(k)に応じた解析区間を時間軸上で順次に移動(シフト)させることでM個の解析区間S(1)〜S(M)が設定される。
図8から理解される通り、M個の解析区間S(1)〜S(M)の各々の始端(時間軸上の左端)は範囲AL内に分布し、M個の解析区間S(1)〜S(M)の各々の終端(時間軸上の右端)は範囲AR内に分布する。
【0029】
各解析区間S(m)(m=1〜M)の始端の範囲ALは、以下の数式(6)で表現される時点aL1から時点aL2までの時間範囲であり、各解析区間S(m)の終端の範囲ARは、以下の数式(7)で表現される時点aR1から時点aR2までの時間範囲である。数式(6)および数式(7)の記号τは所定の正数(例えばτ=0.25)に設定される。
【数6】
【数7】
【0030】
図7の調波次数解析部44は、音響信号s(n)の各解析区間S(m)を解析することで調波次数hC(k)を特定点T(k)毎に順次に算定する。調波次数hC(k)は、音響信号s(n)の複数の調波成分のうち調波帯域と非調波帯域との境界に対応(近似または合致)する調波成分の次数(周波数軸上の低域側から複数の調波成分を計数した場合の各調波成分の番号)である。
【0031】
図7の周波数算定部46は、調波次数解析部44が算定した調波次数hC(k)と音響信号s(n)の基本周波数F0(k)とに応じて調波境界周波数FC(k)を算定する。具体的には、周波数算定部46は、調波次数解析部44が算定した調波次数hC(k)と周波数補正部36による補正後の基本周波数F0(k)とに応じて特定点T(k)毎に調波境界周波数FC(k)を算定する。例えば、以下の数式(8)で表現される通り、調波次数hC(k)と補正後の基本周波数F0(k)との乗算値が調波境界周波数FC(k)として算定される。
【数8】
【0032】
図9を参照して調波次数解析部44の具体例を説明する。
図9に示すように、調波次数解析部44は、第1演算部52と第2演算部54とを含んで構成される。第1演算部52は、区間シフト部42が設定したM個の解析区間S(1)〜S(M)の各々について暫定調波次数hA(m)(hA(1)〜hA(M))と確度系列P(m)(P(1)〜P(M))とを算定する。暫定調波次数hA(m)は、音響信号s(n)の解析区間S(m)内のスペクトルに観測されるJ個(Jは2以上の自然数)の調波成分のうち調波帯域と非調波帯域との境界に対応する1個の調波成分の次数に相当する。確度系列P(m)は、周波数軸上の相異なる次数(以下「候補次数」という)に対応するJ個の確度p(m,1)〜p(m,J)の系列(すなわちJ次元ベクトル)である。第j番目の候補次数の確度p(m,j)は、周波数軸上のJ個の候補次数のうち第j番目の候補次数が暫定調波次数hA(m)(または調波次数hC(k))に該当する可能性の指標(確率または尤度)である。すなわち、概略的には、確度系列P(m)内の相異なる候補次数に対応するJ個の確度p(m,1)〜p(m,J)の最大値に対応する候補次数が暫定調波次数hA(m)に相当する。
【0033】
図10は、第1演算部52が暫定調波次数hA(m)および確度系列P(m)を算定する調波解析処理のフローチャートである。区間シフト部42が設定したM個の解析区間S(1)〜S(M)の各々について
図9の調波解析処理が実行される。調波解析処理を開始すると、第1演算部52は、暫定調波次数hA(m)の候補として検討すべき候補次数の最大値(以下「最大次数」という)Jを設定する(SB1)。最大次数Jは、暫定調波次数hA(m)(または調波次数hC(k))に該当する可能性がある調波成分の範囲(帯域)を規定する変数である。
【0034】
具体的には、第1演算部52は、周波数補正部36による補正後の基本周波数F0(k)に応じて最大次数Jを特定点T(k)毎に可変に設定する。例えば、第1演算部52は、補正後の基本周波数F0(k)で所定値(以下「境界上限係数」という)FCmaxを除算した数値(FCmax/F0(k))を整数化することで最大次数Jを算定する。境界上限係数FCmaxは、調波境界周波数FC(k)に想定される最大値を上回るように選定される。具体的には、調波境界周波数FC(k)の用途に応じて境界上限係数FCmaxは実験的または統計的に選定される。例えば、音響信号s(n)のスペクトルのうち充分に明確な調波構造が観測される調波帯域を推定する必要がある用途では境界上限係数FCmaxが比較的に小さい数値に設定され、僅かでも調波構造が観測される調波帯域を推定する必要がある用途では境界上限係数FCmaxが比較的に大きい数値に設定される。
【0035】
第1演算部52は、音響信号s(n)のうち解析区間S(m)内の各周波数成分について正規化強度QN(m,i)を算定する(SB2)。正規化強度QN(m,i)は、周波数軸上の第1番目(i=1)の周波数の強度Q(m,1)が所定値(以下の例示では1)となるように、音響信号s(n)の解析区間S(m)のスペクトルにおける各周波数成分の強度Q(m,i)を正規化した強度である。具体的には、第1演算部52は、解析区間S(m)に対応する窓関数(典型的には解析長N(k)の窓幅の矩形窓)を音響信号s(n)に乗算したうえで周波数領域のスペクトルに変換することで各周波数成分の強度Q(m,i)を算定し、各強度Q(m,i)を適用した以下の数式(9)の演算で正規化強度QN(m,i)を算定する。時間領域から周波数領域への変換には、例えば高速フーリエ変換が好適に利用される。なお、各周波数成分の振幅を強度Q(m,i)として算定することも可能である。
【数9】
【0036】
第1演算部52は、J個の候補次数の各々について累算調波強度Eh(m,j)(Eh(m,1)〜Eh(m,J))と累算非調波強度Ea(m,j)(Ea(m,1)〜Ea(m,J))とを算定する(SB3)。累算調波強度Eh(m,j)は、第j番目の調波成分の低域側(すなわち周波数j・F0(k)以下の帯域内)に位置するj個の調波成分の合計強度(累算エネルギー)の指標である。具体的には、以下の数式(10)で表現される通り、調波成分に相当する第l番目(l=3,5,……)の周波数成分の正規化強度QN(m,l)と非調波成分に相当する第(l−1)番目の周波数成分の正規化強度QN(m,l-1)との差分をj個の調波成分にわたり累算することで累算調波強度Eh(m,j)が算定される。数式(10)の記号max{0,a}は、数値aを非負範囲に制限する演算を意味する。
【数10】
【0037】
他方、累算非調波強度Ea(m,j)は、第j番目の調波成分の高域側(すなわち周波数j・F0(k)以上の帯域内)に位置する非調波成分の合計強度(累算エネルギー)の指標である。具体的には、以下の数式(11)で表現される通り、非調波成分に相当する第l番目(l=2j,2j+2,……)の周波数成分の正規化強度QN(m,l)を累算することで累算非調波強度Ea(m,j)が算定される。
【数11】
【0038】
以上の演算でJ個の候補次数の各々について累算調波強度Eh(m,j)と累算非調波強度Ea(m,j)とを算定すると、第1演算部52は、相異なる候補次数に対応するJ個の確度p(m,j)(p(m,1)〜p(m,J))を累算調波強度Eh(m,j)と累算非調波強度Ea(m,j)とに応じて算定する(SB4)。すなわち、J個の確度p(m,1)〜p(m,J)を含む確度系列P(m)が生成される。第j番目の候補次数に対応する確度p(m,j)は、例えば以下の数式(12)で表現される通り、累算調波強度Eh(m,j)と累算非調波強度Ea(m,j)との加重和として算定される。
【数12】
数式(12)の加重値bは所定の整数(例えばb=2)に設定される。前述の通り、累算調波強度Eh(m,j)は第j番目の候補次数の調波成分の低域側に位置する各調波成分の合計強度の指標であり、累算非調波強度Ea(m,j)は第j番目の候補次数の調波成分の高域側に位置する非調波成分の合計強度の指標である。したがって、調波帯域と非調波帯域との境界(調波境界周波数FC(k))に近い調波成分の候補次数に対応する確度p(m,j)ほど大きい数値となる。
【0039】
以上の傾向を考慮して、第1演算部52は、解析区間S(m)の暫定調波次数hA(m)を各確度p(m,j)に応じて特定する(SB5)。具体的には、第1演算部52は、以下の数式(13)で表現される通り、調波成分のJ個の候補次数のうち確度p(m,j)が最大となる候補次数(すなわち、調波帯域と非調波帯域との境界に最も近い調波成分の次数)を解析区間S(m)の暫定調波次数hA(m)として選択する。
【数13】
【0040】
以上に説明した調波解析処理を第1演算部52が実行することで、1個の特定点T(k)に対応するM個の解析区間S(1)〜S(M)の各々について暫定調波次数hA(m)(hA(1)〜hA(M))と確度系列P(m)(P(1)〜P(M))とが算定される。
図9の第2演算部54は、相異なる解析区間S(m)について第1演算部52が算定したM個の暫定調波次数hA(1)〜hA(M)とM個の確度系列P(1)〜P(M)とに応じて調波次数hC(k)を特定点T(k)毎に算定する。
図9に示すように、第2演算部54は、代表値算定部542と平滑処理部544とを含んで構成される。
【0041】
代表値算定部542は、1個の特定点T(k)に対応するM個の解析区間S(1)〜S(M)にわたる暫定調波次数hA(m)の代表値(以下「代表調波次数」という)hB(k)と、M個の解析区間S(1)〜S(M)にわたる確度系列P(m)の各確度p(m,j)の候補次数毎の代表値(以下「代表確度」という)λ(k,j)(λ(k,1)〜λ(k,J))とを算定する。例えば、以下の数式(14)で表現される通り、相異なる解析区間S(m)に対応するM個の暫定調波次数hA(1)〜hA(M)の平均値(mean)が代表調波次数hB(k)として特定点T(k)毎に算定される。なお、M個の暫定調波次数hA(1)〜hA(M)の平均値以外の代表値(例えば中央値)を代表調波次数hB(k)として算定することも可能である。
【数14】
【0042】
また、以下の数式(15)で表現される通り、相異なる解析区間S(m)に対応するM個の確度p(1,j)〜p(M,j)の中央値(median)が代表確度λ(k,j)として特定点T(k)毎に算定される。なお、M個の確度p(1,j)〜p(M,j)の中央値以外の代表値(例えば平均値)を代表確度λ(k,j)として算定することも可能である。
【数15】
代表確度λ(k,j)は、J個の候補次数にわたる合計値(λ(k,1)+λ(k,2)+……+λ(k,J))が1となるように正規化される。したがって、代表確度λ(k,j)は、音響信号s(n)の解析長N(k)にわたる解析区間内のJ個の調波成分のうち第j番目の調波成分が、調波境界周波数FC(k)に近似または合致する調波成分に該当する確度の指標(確率または尤度)として利用される。
【0043】
以上に説明した通り、特定点T(k)毎に代表調波次数hB(k)と各候補次数の代表確度λ(k,j)(λ(k,1)〜λ(k,J))とが算定される。平滑処理部544は、代表調波次数hB(k)の時系列と比較して変動が平滑化された調波次数hC(k)の時系列を算定する。具体的には、平滑処理部544は、代表値算定部542が時間軸上の特定点T(k)毎に算定した代表調波次数hB(k)と各候補次数の代表確度λ(k,j)とを利用して特定点T(k)毎の調波次数hC(k)の時系列を算定する。
【0044】
各調波次数hC(k)の算定(代表調波次数hB(k)の時系列の平滑化)には公知の動的計画法(DP:Dynamic Programming)が好適に利用される。例えば、数式(16)で表現される通り、評価関数(スコア関数)Zが最大となる代表調波次数hB(k)を時間軸上の特定点T(k)毎(解析区間毎)に選択した経路を探索するビタビアルゴリズム(constrained Viterbi algorithm)で調波次数hC(k)の時系列を算定することが可能である。
【0046】
数式(16)の評価関数Zは、例えば以下の数式(17)で表現される。
【数17】
数式(17)の記号t
hB(j-1),hB(j)は、相前後する各特定点T(k)で代表調波次数hB(j-1)から代表調波次数hB(j)に変化する確度(すなわち、調波成分の個数がhB(j-1)個からhB(j)個に変化する遷移確率)を意味する。ただし、相前後する各特定点T(k)の間の調波成分の個数差は所定個(例えば5個)に制限される。また、数式(17)の代表確度λ(k,hB(j))は、代表調波次数hB(j)が調波帯域と非調波帯域との境界に該当する確度(状態確率)を意味する。以上に説明した処理で特定点T(k)毎に算定された調波次数hC(k)が、
図7の周波数算定部46による調波境界周波数FC(k)の算定(数式(8))に適用される。
【0047】
以上に説明した形態では、数式(4)を参照して前述した通り、G個の候補長NC(1)〜NC(G)のうち調波強度指標H(g)に応じて選択された候補長NC(g)から解析長N(k)が特定される。したがって、例えば解析区間の時間長を基準長N0(k)(すなわち基本周波数FAのみに依存する時間長)に固定する構成(以下「構成例1」という)と比較して、音響信号s(n)の基本周波数FAの推定誤差に対して頑健に調波境界周波数FC(k)を特定できるという利点がある。実際の実験結果を参照しながら以上の効果を説明する。
【0048】
図11の部分(A)は、構成例1で算定される調波次数hC(k)の時間変化であり、
図11の部分(B)は、本実施形態で算定される調波次数hC(k)の時間変化である。
図11の部分(A)および部分(B)では、調波境界周波数FC(k)(調波次数hC(k))に対する基本周波数FAの推定誤差の影響を評価するために、音響信号s(n)から推定された基本周波数FAに対して相異なる程度(0.5%,1%,2%,5%,10%)の誤差を人為的に付与した複数の場合について調波次数hC(k)の時間変化が併記されている。
【0049】
図11の部分(A)から把握される通り、構成例1では、基本周波数FAの誤差の程度に応じて調波次数hC(k)が大幅に変動するという傾向がある。他方、
図11の部分(B)から把握される通り、本実施形態では、基本周波数FAに相異なる誤差が付与された各場合の調波次数hC(k)の時系列は実質的に合致する。すなわち、基本周波数FAの推定誤差に対して頑健に調波境界周波数FC(k)を特定できるという前述の効果が
図11から確認できる。
【0050】
また、本実施形態では、1個の特定点T(k)を包含するように時間軸上の位置を相違させたM個の解析区間S(1)〜S(M)の各々について算定された暫定調波次数hA(m)(hA(1)〜hA(M))を利用して調波次数hC(k)(調波境界周波数FC(k))が算定される。したがって、解析長N(k)の1個の解析区間のみについて調波次数を算定する構成(以下「構成例2」という)と比較して、音響信号s(n)に対する解析区間の位置の変動(特定点T(k)の位置の変動)に対して頑健に調波境界周波数FC(k)を特定できるという利点がある。実際の実験結果を参照しながら以上の効果を説明する。
【0051】
図12の部分(A)は、構成例2で算定される調波次数hC(k)の時間変化であり、
図11の部分(B)は、本実施形態で算定される調波次数hC(k)の時間変化である。
図11の部分(A)および部分(B)では、調波境界周波数FC(k)(調波次数hC(k))に対する解析区間の位置の誤差の影響を評価する観点から、特定点T(k)を基準位置(誤差0%)として相異なる程度(0.5%,1%,2%,5%,10%)の誤差を解析区間の時間軸上の位置に対して人為的に付与した複数の場合における調波次数hC(k)の時間変化が併記されている。
【0052】
図12の部分(A)から把握される通り、構成例2では、解析区間(特定点T(k))の時間軸上の位置に応じて調波次数hC(k)が大幅に変動するという傾向がある。すなわち、調波次数hC(k)の推定精度に対する特定点T(k)(例えば発声者の声門が開口または閉塞する時点)の推定誤差の影響が顕著である。他方、
図12の部分(B)から把握される通り、本実施形態では、解析区間の位置に相異なる誤差が付与された各場合の調波次数hC(k)の時系列が実質的に合致する。すなわち、音響信号s(n)の特定点T(k)の推定誤差に対して頑健に調波境界周波数FC(k)を特定できるという利点がある。
【0053】
また、本実施形態では、解析長特定部34が特定した解析長N(k)に応じて音響信号s(n)の基本周波数F0(k)が補正される。したがって、数式(1)で算定された補正前の基本周波数F0(k)を数式(8)に適用する構成と比較して、調波境界周波数FC(k)を高精度に特定できるという利点がある。ただし、数式(1)で算定された基本周波数F0(k)を数式(8)に適用して調波境界周波数FC(k)を算定することも可能である。したがって、周波数補正部36は省略され得る。
【0054】
<変形例>
以上の形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0055】
(1)境界特定部28が調波境界周波数FC(k)(調波次数hC(k))を算定する方法は適宜に変更される。例えば、前述の実施形態では、時間軸上の位置が相違するM個の解析区間S(1)〜S(M)の各々について算定された暫定調波次数hA(m)を利用して調波次数hC(k)(調波境界周波数FC(k))を算定したが、解析長N(k)の1個の解析区間について
図10の調波解析処理を実行することで調波次数hC(k)(前述の形態における暫定調波次数hA(m)に相当する)を算定することも可能である。以上の説明から理解される通り、
図12の説明で想定した構成例2は本発明の範囲に包含される。
【0056】
また、平滑処理部544による平滑処理の具体的な方法は前述の例示(ビタビアルゴリズム)に限定されない。例えば、時間軸上の特定点T(k)毎の代表調波次数hB(k)の時系列を平滑化する(例えば移動平均を算定する)ことで平滑化後の調波次数hC(k)の時系列を算定することも可能である。
【0057】
(2)前述の形態では、G個の候補長NC(1)〜NC(G)のうち調波強度指標H(g)に応じて選択された候補長NC(g)から解析長N(k)が特定する構成(以下「特徴A」という)と、時間軸上の位置が相違するM個の解析区間S(1)〜S(M)の各々の暫定調波次数hA(m)(hA(1)〜hA(M))を利用して調波次数hC(k)(調波境界周波数FC(k))を算定する構成(以下「特徴B」という)との双方を具備する音響解析装置100を例示したが、特徴Aおよび特徴Bの一方にとって他方は必須の要件ではなく各々が独立に成立し得る。例えば特徴Bを具備する構成において解析長N(k)を特定する方法は任意であり、G個の候補長NC(1)〜NC(G)から解析長N(k)を選択する処理は省略され得る。
【0058】
(3)前述の形態では、G個の候補長NC(1)〜NC(G)のうち調波強度指標H(g)が最大となる1個の候補長NC(g)を解析区間を規定する解析長N(k)として選択したが、各候補長NC(g)の調波強度指標H(g)を利用して解析長N(k)を特定する方法は以上の例示に限定されない。例えば、調波強度指標H(g)の降順で選択された所定個の候補長NC(g)の代表値(例えば平均値)や加重和を解析長N(k)として算定する構成や、調波強度指標H(g)の降順で上位に位置する所定個の候補長NC(g)を除外したうえで調波強度指標H(g)が最大となる候補長NC(g)を解析長N(k)として選択する構成も採用され得る。以上の説明から理解される通り、解析長特定部34は、G個の候補長NC(1)〜NC(G)のうち各候補長NC(g)の調波強度指標H(g)に応じて選択した候補長NC(g)から解析長N(k)を特定する要素として包括的に表現される。
【0059】
(4)携帯電話機等の端末装置と通信するサーバ装置で音響解析装置100を実現することも可能である。例えば、音響解析装置100は、端末装置から受信した音響信号s(n)から調波境界周波数FC(k)を算定して端末装置に送信する。なお、音響信号s(n)の基本周波数FAを音響信号s(n)とともに端末装置から受信する構成(例えば端末装置が基本周波数推定部22を具備する構成)では音響解析装置100から基本周波数推定部22が省略され、音響信号s(n)の特定点T(k)を端末装置から受信する構成(例えば端末装置が特定点設定部24を具備する構成)では音響解析装置100から特定点設定部24が省略される。