【文献】
河原英紀 他,"尖度に基づく音響的イベントの検出と音声分析変換合成システムへの応用について",日本音響学会2010年春季研究発表会講演論文集CD-ROM,2010年 3月 1日,pp.315-316
【文献】
坂野秀樹 他,"時間領域平滑化群遅延による位相制御を用いた声質制御方式",電子情報通信学会論文誌D-II,2000年11月25日,Vol.J83-D-II,No.11,pp.2276-2282
【文献】
中野倫靖 他,"歌声・音声分析合成のためのF0適応多重フレーム統合分析に基づくスペクトル包絡と群遅延の推定法",情報処理学会研究報告,2012年10月15日,Vol.2012-MUS-96,No.7,pp.1-9
(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
本発明の音合成方法及び音合成装置は、音声信号の音色を変換する際に基板技術として用いられる音声分析合成方式を拡張するものである。音声分析合成方式は、多くの場合、声の高さに関する情報である基本周波数、声道の情報を表すスペクトル包絡、及び無声音か有声音かを表す有声無声判定情報の3つの時間的に変化する情報を音声波形から分析して抽出し、これら情報から合成音を生成する。
【0003】
スペクトル包絡は、音声信号の分析において求められる振幅スペクトルから、声の高さにも関係する周波数方向に変化する細かい変動情報を除去したものである。また、スペクトル包絡は音の音色の情報に深く関係している。つまり、音声において、スペクトル包絡は声道の情報と密接な関係にあり、誰が話しているかを表す話者性の情報や、何を話しているかを表す音韻性の情報を多分に含んでいる。
【0004】
音声分析合成方式は音声信号から声道の情報を分離して表現することから、声道の制御が容易である。しかし、音声分析合成方式は、音声波形に含まれる情報の中で、振幅スペクトルと対になる位相スペクトルの情報をほとんど含んでいない。位相スペクトルは声帯振動における雑音性の情報等を多く含んでいる。そこで、音声分析合成方式は位相スペクトルを有声無声判定情報という縮退した情報に置き換えて合成音を生成している。この場合、アナウンサーのような声帯振動が規則的な音声であれば、このような縮退した情報であっても問題は少ないが、ハスキーな声やガラガラ声等の声帯振動が特殊な音声を入力し、再合成した場合は合成音の劣化が発生する。
【0005】
さらに、近年では歌声合成システムにおいて、歌手が声帯の振動を積極的に制御するシャウト唱法やスクリーム唱法等を再現可能なシステムの実現の期待が高まっている。これらの音声も声帯振動がきわめて特殊であり、既存の音声分析合成方式では高品質な再現が難しい。声帯振動が特殊な音声の音声波形そのものを大量に収録しておき、それを使用する方法が用いられることも有るが、収録したものしか再現できないため、ユーザーが所望する声帯振動を再現することは困難である。
【0006】
そこで、非特許文献1は、雑音性の強い声帯振動を持つ音声を高品質に再合成したり、雑音性を強調したりすることができる従来の音声分析合成方式を開示している。この音声分析合成方式は、位相スペクトルと同等の情報を持つ群遅延スペクトルを音声信号から抽出し、その値を増幅することによって、声帯振動の雑音性を強調することができる。
【0007】
また、特許文献1は従来の音声合成方式を開示している。この音声合成方式は位相スペクトルの情報を変化させるものである。
【発明の概要】
【発明が解決しようとする課題】
【0010】
しかし、非特許文献1の音声分析合成方式は、群遅延スペクトルを安定して取り出すために、ピッチマーキングという前処理が必要になる。ピッチマーキングは、誤りの多い自動処理であるため、誤りが多く発生した場合は、手動で修正を行わないと高い品質の音声合成ができない。また、特許文献1の音声合成方式は、入力音声の位相スペクトルの情報を利用するものではなく、単に位相スペクトルの情報を変化させるものである。
【0011】
本発明は、上記従来の実情に鑑みてなされたものであって、高品質の合成音を容易に生成することができる音合成方法及び音合成装置を提供することを解決すべき課題としている。
【課題を解決するための手段】
【0012】
本発明の音合成方法は、合成音を生成する音合成方法であって、
予め定めた
帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と群遅延スペクトルの変動量との対応関係に基づいて、前記
帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値に対応させた群遅延スペクトルの変動量を生成する第1工程と、
この第1工程で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する第2工程と、
この第2工程で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する第3工程と、
任意の振幅スペクトル又は任意のスペクトル包絡と、前記第3工程で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して1周期分の信号である1ピッチ波形を生成する第4工程と、
この第4工程で生成した前記1ピッチ波形を重畳加算して合成音を生成する第5工程と
、
を備えており、
前記第2工程から第5工程を繰り返して合成用フレーム長の合成音を生成することを特徴とする。
【0013】
また、本発明の音合成装置は、合成音を生成する音合成装置であって、
予め定めた
帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と群遅延スペクトルの変動量との対応関係を記憶した記憶部と、
この記憶部に記憶された前記
帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と前記群遅延スペクトルの変動量との対応関係に基づいて、前記
帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値に対応させた群遅延スペクトルの変動量を生成する群遅延変動量生成部と、
この群遅延変動量生成部で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する群遅延生成部と、
この群遅延生成部で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する位相生成部と、
任意の振幅スペクトル又は任意のスペクトル包絡と、前記位相生成部で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して1周期分の信号である1ピッチ波形を生成する1ピッチ波形生成部と、
この1ピッチ波形生成部で生成した前記1ピッチ波形を重畳加算して合成音を生成する重畳加算部と
、
を備えていることを特徴とする。
【0014】
この音合成方法及び音合成装置は群遅延スペクトルの変動量と対応関係にある
帯域分割したスペクトルの尖度又はスペクトルフラットネスを利用して合成音を生成する。
帯域分割したスペクトルの尖度又はスペクトルフラットネスの値は群遅延スペクトルの変動量とは対応関係にあるため、予め定めておき、
帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値に対応させて群遅延スペクトルの変動量を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。
【0015】
したがって、本発明の音合成方法及び音合成装置は高品質の合成音を容易に生成することができる。
【発明を実施するための形態】
【0017】
本発明における好ましい実施の形態を説明する。
【0018】
本発明の音合成方法において、前記
帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値は入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出され得る。この場合、入力された音信号から群遅延スペクトルを抽出するよりも容易に抽出することができる
帯域分割したスペクトルの尖度又はスペクトルフラットネスを抽出するため、入力された音信号の分析を容易に行うことができる。
【0020】
本発明の音合成方法において、前記任意の振幅スペクトル又は任意のスペクトル包絡は、入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出され得る。この場合、位相スペクトルと組み合わせて複素スペクトルを求める際の振幅スペクトル又はスペクトル包絡を分析用信号から抽出したものを利用することによって、入力された音信号により近い合成音を生成することができる。
【0021】
本発明の音合成方法において、前記第2工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に所定の係数を乗じて生成され得る。この場合、群遅延スペクトルの変動量に乗じる所定の係数によって、合成音の雑音性を増幅させたり、減衰させたりすることができる。
【0022】
本発明の音合成方法において、前記第2工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に乱数を乗じて生成され得る。この場合、群遅延スペクトルの変動量に乗じる乱数によって、合成音の雑音性を増幅させたり、減衰させたりすることができると共に、合成音の雑音感をより良好に生成することができる。
【0023】
本発明の音合成装置において、入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、この分析用信号抽出部で抽出された前記分析用信号から
帯域分割したスペクトルの尖度又はスペクトルフラットネスの値を抽出する指標抽出部とを備え得る。この場合、分析用信号から抽出する
帯域分割したスペクトルの尖度又はスペクトルフラットネスの値は、分析用信号から群遅延スペクトルを抽出するよりも容易に抽出することができるため、入力された音信号の分析を容易に行うことができる。
【0024】
本発明の音合成装置において、入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、この分析用信号抽出部で抽出された前記分析用信号から前記振幅スペクトル又は前記スペクトル包絡を抽出するスペクトル抽出部とを備え得る。この場合、分析用信号抽出部で入力された音信号から分析用信号を抽出し、スペクトル抽出部で分析用信号から振幅スペクトル又はスペクトル包絡を抽出する。これによって、位相スペクトルと組み合わせて複素スペクトルを求める際の振幅スペクトル又はスペクトル包絡を分析用信号から抽出したものを利用することができ、入力された音信号により近い合成音を生成することができる。
【0025】
次に、本発明の音合成方法及び音合成装置を具体化した実施例1及び2について、図面を参照しつつ説明する。
【0026】
<実施例1>
実施例1の音合成装置は、
図1に示すように、分析部10と合成部20とを備えている。分析部10は、分析用信号抽出部11、スペクトル抽出部12、基本周波数抽出部13、及び指標抽出部14を有している。合成部20は群遅延変動量生成部21、群遅延生成部22、位相生成部23、1ピッチ波形生成部24、重畳加算部25、及び記憶部26を有している。この音合成装置を利用した音合成方法は、音合成装置に入力された音信号を分析部10で分析し、分析によって得られた情報に基づき、合成部20で合成音を生成する。
【0027】
この音合成装置を利用した音合成方法は、
図2に示すように、先ず、分析用信号抽出部11において、音合成装置に入力された音信号に対し、分析開始点から設定した時間長さのフレーム長の分析用信号を抽出する(ステップS1)。必要に応じて、抽出した分析用信号に分析窓を乗じる。以下において、このフレームにおけるフレーム番号をmとする。
【0028】
次に、指標抽出部14において、分析用信号抽出部11で抽出された分析用信号から周期性を表す指標である
帯域分割したスペクトルの尖度の値K
m(f)を抽出する(ステップS2)。
帯域分割したスペクトルの尖度の値K
m(f)は、
図3に示すように、周波数fに依存し、群遅延スペクトルの変動量W
m(f)に対応している。
帯域分割したスペクトルの尖度の値K
m(f)は容易かつ安定して音信号から抽出することができるため、入力された音信号の分析を容易に行うことができる。また、周波数に応じて変化する
帯域分割したスペクトルの尖度の値K
m(f)を用いることによって、高品質な合成音を生成することができる。
【0029】
次に、群遅延変動量生成部21において、群遅延スペクトルの変動量Wm(f)を生成する第1工程を実行する(ステップS3)。第1工程で生成された群遅延スペクトルの変動量Wm(f)を
図4に示す。この群遅延スペクトルの変動量Wm(f)は、記憶部26に蓄積された「指標−群遅延変動量対応情報」(
図5参照)に基づいて生成される。
帯域分割したスペクトルの尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)との対応関係は、実験的に予め定めておき、記憶部26に「指標−群遅延変動量対応情報」として蓄積されている。指標である
帯域分割したスペクトルの尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)との対応関係を表す関数Ψを周波数fと
帯域分割したスペクトルの尖度の値Km(f)に依存したものであるとすると、Wm(f)=Ψ(f,Km(f))と表すことができる。
【0030】
ここでは、まず、人工的に群遅延スペクトルの変動量Wm(f)を与えて作成した信号から
帯域分割したスペクトルの尖度の値Km(f)を観察し、これらの関係をシグモイド関数に基づく式1で近似した。
【0032】
ここで、b,c,dは、実験データから観察される
帯域分割したスペクトルの尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)とが最も良く対応付けられるように決められた定数である。また、a(f)も
帯域分割したスペクトルの尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)とが最もよく対応付けられるように定めた関数であり、例えば、シグモイド関数に基づく式2を利用することができる。
【0034】
ここで、p,qもb,c,dと同様、実際のデータから観測される
帯域分割したスペクトルの尖度の値Km(f)と群遅延スペクトルの変動量Wm(f)とが最も良く対応付けられるように決められた定数である。そして、Ψ-1(f,W)を用い、Wに関して逆関数を求めたものをΨ(f,W)とした。式1及び式2から式3になる。なお、必要に応じてa(f)はfに依存しない定数としてもよい。
【0036】
次に、群遅延生成部22において、第1工程で生成された群遅延スペクトルの変動量W
m(f)を用いて合成用フレーム(フレーム番号をnとする)に対する群遅延スペクトルD
n(f)を生成する第2工程を実行する(ステップS4)。第2工程で生成された群遅延スペクトルD
n(f)を
図6に示す。この群遅延スペクトルD
n(f)は、W
m(f)に依存する変動量をもつものであればよく、乱数生成器を用いて、平均値0、分散1の乱数N
n(f)を生成し、それに対して群遅延スペクトルの変動量W
m(f)を乗じたものである。合成音の雑音性を増幅させたり、減衰させたりする場合は、この重みに対して非零の係数αを乗ずればよい。この場合、生成される群遅延スペクトルD
n(f)は、D
n(f)=αW
m(f)N
n(f)と表される。このように、乱数N
n(f)を乗ずることによって合成音の雑音感を良好に生成することができる。
【0037】
次に、位相生成部23において、第2工程で生成された群遅延スペクトルD
n(f)を積分して位相スペクトルθ
n(f)に変換する第3工程を実行する(ステップS5)。第3工程で変換された位相スペクトルθ
n(f)を
図7に示す。また、この変換は式4に表される。なお、この位相スペクトルθ
n(f)に対しては、例えば、基本周波数の値に応じた位置のずれを再現するための変形等、他の変形を加えることもある。
【0039】
次に、1ピッチ波形生成部24において、
図8に示すスペクトル包絡A
m(f)と、第3工程で生成された位相スペクトルθ
n(f)とを組み合わせて複素スペクトルY
n(f)を求める。スペクトル包絡A
m(f)は、分析部10のスペクトル抽出部12において、分析用信号から抽出したものである(ステップS6−1)。このため、入力された音信号により近い合成音を生成することができる。複素スペクトルY
n(f)は式5に表させる。求められた複素スペクトルY
n(f)を逆フーリエ変換して、
図9に示す1周期分の信号(1ピッチ波形)y
n(t)を生成する第4工程を実行する(ステップS6)。
【0041】
次に、第4工程で生成した1ピッチ波形を分析部10の基本周波数抽出部13において分析用信号から抽出した基本周波数の値(ステップS7−1)を用いて重畳加算し、合成音を生成する第5工程を実行する(ステップS7)。加算開始位置は基本周期に基づいて更新する。分析フレームの更新が必要になるまで、第2工程から第5工程を繰り返す。
【0042】
分析フレームの更新が必要になった場合(ステップS8)、分析開始点を更新し、分析用信号抽出部11で次の分析用信号を抽出し(ステップS1)、上述した各処理を実行する。合成用フレームnにおける加算開始位置をt
nとすると、第2工程から第5工程を繰り返した処理後の合成音s
m(t)は、繰り返し処理前の合成音s
m-1(t)を用いて式6と表される。ここで、n
mは分析用フレームmにおける合成用フレームの最初のフレーム番号を表す。N
mは分析用フレームmにおける合成の繰り返し回数を表す。
【0044】
このようにして生成された合成音を
図10に示す。この音合成方法及び音合成装置は群遅延スペクトルの変動量と対応関係にある周期性を表す指標として
帯域分割したスペクトルの尖度を利用して合成音を生成する。
帯域分割したスペクトルの尖度の値Km(f)は群遅延スペクトルの変動量Wm(f)とは対応関係にあるため、予め定めておき、分析用信号から抽出した
帯域分割したスペクトルの尖度の値Km(f)に対応させて群遅延スペクトルの変動量Wm(f)を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。
【0045】
したがって、実施例1の音合成方法及び音合成装置は雑音性を有する合成音の生成を容易にすることができる。
【0046】
<実施例2>
実施例2の音合成装置は、
図11に示すように、分析部110において、線形予測分析部15、及び線形予測残差抽出部16を有し、合成部120において、残差駆動合成部27を有する点で実施例1と相違する。他の構成は実施例1と同様であり、同一の構成は同一の符号を付し、詳細な説明を省略する。
【0047】
この音合成装置を利用した音合成方法は、
図12に示すように、線形予測残差駆動型分析合成方式を利用するものである。つまり、1ピッチ波形生成部24において、線形予測残差抽出部16で抽出した線形予測残差信号の振幅スペクトルA
m(f)(ステップS6−2)と、第3工程(ステップS5)で生成された位相スペクトルθ
n(f)とを組み合わせて複素スペクトルY
n(f)を求め、逆フーリエ変換して、1周期分の信号(1ピッチ波形)を生成する第4工程を実行する(ステップS6)。
【0048】
その後、重畳加算部25において、合成音を生成する第5工程を実行し(ステップS7)、線形予測残差駆動型分析合成方式に対して与える線形予測残差信号として利用する。そして、残差駆動合成部27において、分析フレーム毎に線形予測分析部15において抽出した線形予測係数(ステップS9−1)を用い、この線形予測残差信号で駆動して合成音を生成する(ステップS9)。
【0049】
この音合成方法及び音合成装置も群遅延スペクトルの変動量と対応関係にある周期性を表す指標として
帯域分割したスペクトルの尖度を利用して合成音を生成する。
帯域分割したスペクトルの尖度の値Km(f)は群遅延スペクトルの変動量Wm(f)とは対応関係にあるため、予め定めておき、分析用信号から抽出した
帯域分割したスペクトルの尖度の値Km(f)に対応させて群遅延スペクトルの変動量Wm(f)を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。
【0050】
したがって、実施例2の音合成方法及び音合成装置も雑音性を有する合成音の生成を容易にすることができる。
【0051】
本発明は上記記述及び図面によって説明した実施例1及び2に限定されるものではなく、例えば次のような実施例も本発明の技術的範囲に含まれる。
(1)実施例1及び2では、分析部を有して音合成装置に入力した音信号を分析し、分析した各信号を基にして合成部で合成音を生成したが、分析部を有さず、蓄積した信号を基に合成部で合成音を生成してもよい。
(2)実施例1及び2では、周期性を表す指標として
帯域分割したスペクトルの尖度を利用したが、
帯域分割したスペクトルの尖度の代わりに
帯域分割したスペクトルのスペクトルフラットネ
スを利用してもよい。
(
3)実施例1及び2では、分析用信号から
スペクトルに対する尖度を抽出したが、スペクトル包絡の情報を取り除いた後の振幅スペクトルや、線形予測残差信号の振幅スペクトルから
スペクトルに対する尖度を抽出してもよい。
(
4)実施例1及び2では、群遅延生成部において、乱数を群遅延スペクトルの変動量に乗じたが、乱数の代わりに適当に生成しておいた群遅延スペクトルを群遅延データベースとして用意しておき、それに対して同様の処理をしてもよい。
(
5)実施例1及び2では、位相生成部において、群遅延スペクトルを積分して位相スペクトルに変換したが、群遅延スペクトルの累積和を計算して位相スペクトルに変換してもよい。
(
6)実施例1及び2では、1ピッチ波形生成部において、スペクトル包絡と位相スペクトルを組み合わせて複素スペクトルを求めたが、スペクトル包絡の代わりに振幅スペクトルを利用してもよい。