特許6347536 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 学校法人　名城大学の特許一覧

特許6347536音合成方法及び音合成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6347536

(24)【登録日】2018年6月8日

(45)【発行日】2018年6月27日

(54)【発明の名称】音合成方法及び音合成装置

(51)【国際特許分類】

G10L 13/06 20130101AFI20180618BHJP

【ＦＩ】

G10L13/06 120Z

【請求項の数】8

【全頁数】13

(21)【出願番号】特願2014-36603(P2014-36603)

(22)【出願日】2014年2月27日

(65)【公開番号】特開2015-161774(P2015-161774A)

(43)【公開日】2015年9月7日

【審査請求日】2016年10月13日

(73)【特許権者】

【識別番号】599002043

【氏名又は名称】学校法人名城大学

(74)【代理人】

【識別番号】110000497

【氏名又は名称】特許業務法人グランダム特許事務所

(72)【発明者】

【氏名】坂野秀樹

(72)【発明者】

【氏名】西脇裕展

【審査官】菊池智紀

(56)【参考文献】

【文献】国際公開第２００４／０４９３０４（ＷＯ，Ａ１）

【文献】河原英紀他，"尖度に基づく音響的イベントの検出と音声分析変換合成システムへの応用について"，日本音響学会2010年春季研究発表会講演論文集CD-ROM，２０１０年３月１日，pp.315-316

【文献】坂野秀樹他，"時間領域平滑化群遅延による位相制御を用いた声質制御方式"，電子情報通信学会論文誌D-II，２０００年１１月２５日，Vol.J83-D-II，No.11，pp.2276-2282

【文献】中野倫靖他，"歌声・音声分析合成のためのF0適応多重フレーム統合分析に基づくスペクトル包絡と群遅延の推定法"，情報処理学会研究報告，２０１２年１０月１５日，Vol.2012-MUS-96，No.7，pp.1-9

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１０Ｌ１３／００ −１３／１０，

２１／００３−２１／０１３

(57)【特許請求の範囲】

【請求項1】

合成音を生成する音合成方法であって、
予め定めた帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と群遅延スペクトルの変動量との対応関係に基づいて、前記帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値に対応させた群遅延スペクトルの変動量を生成する第１工程と、
この第１工程で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する第２工程と、
この第２工程で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する第３工程と、
任意の振幅スペクトル又は任意のスペクトル包絡と、前記第３工程で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して１周期分の信号である１ピッチ波形を生成する第４工程と、
この第４工程で生成した前記１ピッチ波形を重畳加算して合成音を生成する第５工程と、
を備えており、
前記第２工程から第５工程を繰り返して合成用フレーム長の合成音を生成することを特徴とする音合成方法。

【請求項2】

前記帯域分割したスペクトルの尖度又は前記スペクトルフラットネスの任意の値は、入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出される請求項１記載の音合成方法。

【請求項3】

前記任意の振幅スペクトル又は任意のスペクトル包絡は、入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出される請求項１又は２記載の音合成方法。

【請求項4】

前記第２工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に所定の係数を乗じて生成される請求項１乃至３のいずれか１項記載の音合成方法。

【請求項5】

前記第２工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に乱数を乗じて生成される請求項１乃至４のいずれか１項記載の音合成方法。

【請求項6】

合成音を生成する音合成装置であって、
予め定めた帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と群遅延スペクトルの変動量との対応関係を記憶した記憶部と、
この記憶部に記憶された前記帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と前記群遅延スペクトルの変動量との対応関係に基づいて、前記帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値に対応させた群遅延スペクトルの変動量を生成する群遅延変動量生成部と、
この群遅延変動量生成部で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する群遅延生成部と、
この群遅延生成部で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する位相生成部と、
任意の振幅スペクトル又は任意のスペクトル包絡と、前記位相生成部で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して１周期分の信号である１ピッチ波形を生成する１ピッチ波形生成部と、
この１ピッチ波形生成部で生成した前記１ピッチ波形を重畳加算して合成音を生成する重畳加算部と、
を備えていることを特徴とする音合成装置。

【請求項7】

入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、
この分析用信号抽出部で抽出された前記分析用信号から帯域分割したスペクトルの尖度又はスペクトルフラットネスの値を抽出する指標抽出部と、
を備えている請求項６記載の音合成装置。

【請求項8】

入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、
この分析用信号抽出部で抽出された前記分析用信号から前記振幅スペクトル又は前記スペクトル包絡を抽出するスペクトル抽出部と、
を備えている請求項６又は７記載の音合成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は音合成方法及び音合成装置に関するものである。

【背景技術】

【0002】

本発明の音合成方法及び音合成装置は、音声信号の音色を変換する際に基板技術として用いられる音声分析合成方式を拡張するものである。音声分析合成方式は、多くの場合、声の高さに関する情報である基本周波数、声道の情報を表すスペクトル包絡、及び無声音か有声音かを表す有声無声判定情報の３つの時間的に変化する情報を音声波形から分析して抽出し、これら情報から合成音を生成する。

【0003】

スペクトル包絡は、音声信号の分析において求められる振幅スペクトルから、声の高さにも関係する周波数方向に変化する細かい変動情報を除去したものである。また、スペクトル包絡は音の音色の情報に深く関係している。つまり、音声において、スペクトル包絡は声道の情報と密接な関係にあり、誰が話しているかを表す話者性の情報や、何を話しているかを表す音韻性の情報を多分に含んでいる。

【0004】

音声分析合成方式は音声信号から声道の情報を分離して表現することから、声道の制御が容易である。しかし、音声分析合成方式は、音声波形に含まれる情報の中で、振幅スペクトルと対になる位相スペクトルの情報をほとんど含んでいない。位相スペクトルは声帯振動における雑音性の情報等を多く含んでいる。そこで、音声分析合成方式は位相スペクトルを有声無声判定情報という縮退した情報に置き換えて合成音を生成している。この場合、アナウンサーのような声帯振動が規則的な音声であれば、このような縮退した情報であっても問題は少ないが、ハスキーな声やガラガラ声等の声帯振動が特殊な音声を入力し、再合成した場合は合成音の劣化が発生する。

【0005】

さらに、近年では歌声合成システムにおいて、歌手が声帯の振動を積極的に制御するシャウト唱法やスクリーム唱法等を再現可能なシステムの実現の期待が高まっている。これらの音声も声帯振動がきわめて特殊であり、既存の音声分析合成方式では高品質な再現が難しい。声帯振動が特殊な音声の音声波形そのものを大量に収録しておき、それを使用する方法が用いられることも有るが、収録したものしか再現できないため、ユーザーが所望する声帯振動を再現することは困難である。

【0006】

そこで、非特許文献１は、雑音性の強い声帯振動を持つ音声を高品質に再合成したり、雑音性を強調したりすることができる従来の音声分析合成方式を開示している。この音声分析合成方式は、位相スペクトルと同等の情報を持つ群遅延スペクトルを音声信号から抽出し、その値を増幅することによって、声帯振動の雑音性を強調することができる。

【0007】

また、特許文献１は従来の音声合成方式を開示している。この音声合成方式は位相スペクトルの情報を変化させるものである。

【先行技術文献】

【特許文献】

【0008】

【特許文献1】特開平１０−９７２８７号公報

【非特許文献】

【0009】

【非特許文献1】坂野秀樹、陸金林、中村哲、鹿野清宏、河原英紀、「時間領域平滑化群遅延による位相制御を用いた声質制御方式」、電子情報通信学会論文誌、Ｄ−II，Ｖｏｌ．Ｊ８３−Ｄ−II，Ｎｏ．１１，ｐｐ．２２７６−２２８２，２０００年１１月

【発明の概要】

【発明が解決しようとする課題】

【0010】

しかし、非特許文献１の音声分析合成方式は、群遅延スペクトルを安定して取り出すために、ピッチマーキングという前処理が必要になる。ピッチマーキングは、誤りの多い自動処理であるため、誤りが多く発生した場合は、手動で修正を行わないと高い品質の音声合成ができない。また、特許文献１の音声合成方式は、入力音声の位相スペクトルの情報を利用するものではなく、単に位相スペクトルの情報を変化させるものである。

【0011】

本発明は、上記従来の実情に鑑みてなされたものであって、高品質の合成音を容易に生成することができる音合成方法及び音合成装置を提供することを解決すべき課題としている。

【課題を解決するための手段】

【0012】

本発明の音合成方法は、合成音を生成する音合成方法であって、
予め定めた帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と群遅延スペクトルの変動量との対応関係に基づいて、前記帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値に対応させた群遅延スペクトルの変動量を生成する第１工程と、
この第１工程で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する第２工程と、
この第２工程で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する第３工程と、
任意の振幅スペクトル又は任意のスペクトル包絡と、前記第３工程で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して１周期分の信号である１ピッチ波形を生成する第４工程と、
この第４工程で生成した前記１ピッチ波形を重畳加算して合成音を生成する第５工程と、
を備えており、
前記第２工程から第５工程を繰り返して合成用フレーム長の合成音を生成することを特徴とする。

【0013】

また、本発明の音合成装置は、合成音を生成する音合成装置であって、
予め定めた帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と群遅延スペクトルの変動量との対応関係を記憶した記憶部と、
この記憶部に記憶された前記帯域分割したスペクトルの尖度又はスペクトルフラットネスの値と前記群遅延スペクトルの変動量との対応関係に基づいて、前記帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値に対応させた群遅延スペクトルの変動量を生成する群遅延変動量生成部と、
この群遅延変動量生成部で生成された前記群遅延スペクトルの変動量を用いて群遅延スペクトルを生成する群遅延生成部と、
この群遅延生成部で生成された群遅延スペクトルを積分又は累積和を計算して位相スペクトルに変換する位相生成部と、
任意の振幅スペクトル又は任意のスペクトル包絡と、前記位相生成部で変換された前記位相スペクトルとを組み合わせて複素スペクトルを求め、この複素スペクトルを逆フーリエ変換して１周期分の信号である１ピッチ波形を生成する１ピッチ波形生成部と、
この１ピッチ波形生成部で生成した前記１ピッチ波形を重畳加算して合成音を生成する重畳加算部と、
を備えていることを特徴とする。

【0014】

この音合成方法及び音合成装置は群遅延スペクトルの変動量と対応関係にある帯域分割したスペクトルの尖度又はスペクトルフラットネスを利用して合成音を生成する。帯域分割したスペクトルの尖度又はスペクトルフラットネスの値は群遅延スペクトルの変動量とは対応関係にあるため、予め定めておき、帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値に対応させて群遅延スペクトルの変動量を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。

【0015】

したがって、本発明の音合成方法及び音合成装置は高品質の合成音を容易に生成することができる。

【図面の簡単な説明】

【0016】

【図1】実施例１の音合成装置を示すブロック図である。

【図2】実施例１の音合成方法を示すフローチャートである。

【図3】尖度の値を示すグラフである。

【図4】群遅延スペクトルの変動量を示すグラフである。

【図5】指標−群遅延変動量対応を示すグラフである。

【図6】群遅延スペクトルを示すグラフである。

【図7】位相スペクトルを示すグラフである。

【図8】スペクトル包絡を示すグラフである。

【図9】１ピッチ波形を示すグラフである。

【図10】合成音を示すグラフである。

【図11】実施例２の音合成装置を示すブロック図である。

【図12】実施例２の音合成方法を示すフローチャートである。

【発明を実施するための形態】

【0017】

本発明における好ましい実施の形態を説明する。

【0018】

本発明の音合成方法において、前記帯域分割したスペクトルの尖度又はスペクトルフラットネスの任意の値は入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出され得る。この場合、入力された音信号から群遅延スペクトルを抽出するよりも容易に抽出することができる帯域分割したスペクトルの尖度又はスペクトルフラットネスを抽出するため、入力された音信号の分析を容易に行うことができる。

【0020】

本発明の音合成方法において、前記任意の振幅スペクトル又は任意のスペクトル包絡は、入力された音信号に対して設定した時間長さのフレーム長の分析用信号から抽出され得る。この場合、位相スペクトルと組み合わせて複素スペクトルを求める際の振幅スペクトル又はスペクトル包絡を分析用信号から抽出したものを利用することによって、入力された音信号により近い合成音を生成することができる。

【0021】

本発明の音合成方法において、前記第２工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に所定の係数を乗じて生成され得る。この場合、群遅延スペクトルの変動量に乗じる所定の係数によって、合成音の雑音性を増幅させたり、減衰させたりすることができる。

【0022】

本発明の音合成方法において、前記第２工程で生成される前記群遅延スペクトルは群遅延スペクトルの変動量に乱数を乗じて生成され得る。この場合、群遅延スペクトルの変動量に乗じる乱数によって、合成音の雑音性を増幅させたり、減衰させたりすることができると共に、合成音の雑音感をより良好に生成することができる。

【0023】

本発明の音合成装置において、入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、この分析用信号抽出部で抽出された前記分析用信号から帯域分割したスペクトルの尖度又はスペクトルフラットネスの値を抽出する指標抽出部とを備え得る。この場合、分析用信号から抽出する帯域分割したスペクトルの尖度又はスペクトルフラットネスの値は、分析用信号から群遅延スペクトルを抽出するよりも容易に抽出することができるため、入力された音信号の分析を容易に行うことができる。

【0024】

本発明の音合成装置において、入力された音信号に対して設定した時間長さのフレーム長毎に分析用信号を抽出する分析用信号抽出部と、この分析用信号抽出部で抽出された前記分析用信号から前記振幅スペクトル又は前記スペクトル包絡を抽出するスペクトル抽出部とを備え得る。この場合、分析用信号抽出部で入力された音信号から分析用信号を抽出し、スペクトル抽出部で分析用信号から振幅スペクトル又はスペクトル包絡を抽出する。これによって、位相スペクトルと組み合わせて複素スペクトルを求める際の振幅スペクトル又はスペクトル包絡を分析用信号から抽出したものを利用することができ、入力された音信号により近い合成音を生成することができる。

【0025】

次に、本発明の音合成方法及び音合成装置を具体化した実施例１及び２について、図面を参照しつつ説明する。

【0026】

＜実施例１＞
実施例１の音合成装置は、図１に示すように、分析部１０と合成部２０とを備えている。分析部１０は、分析用信号抽出部１１、スペクトル抽出部１２、基本周波数抽出部１３、及び指標抽出部１４を有している。合成部２０は群遅延変動量生成部２１、群遅延生成部２２、位相生成部２３、１ピッチ波形生成部２４、重畳加算部２５、及び記憶部２６を有している。この音合成装置を利用した音合成方法は、音合成装置に入力された音信号を分析部１０で分析し、分析によって得られた情報に基づき、合成部２０で合成音を生成する。

【0027】

この音合成装置を利用した音合成方法は、図２に示すように、先ず、分析用信号抽出部１１において、音合成装置に入力された音信号に対し、分析開始点から設定した時間長さのフレーム長の分析用信号を抽出する（ステップＳ１）。必要に応じて、抽出した分析用信号に分析窓を乗じる。以下において、このフレームにおけるフレーム番号をｍとする。

【0028】

次に、指標抽出部１４において、分析用信号抽出部１１で抽出された分析用信号から周期性を表す指標である帯域分割したスペクトルの尖度の値Ｋ_ｍ（ｆ）を抽出する（ステップＳ２）。帯域分割したスペクトルの尖度の値Ｋ_ｍ（ｆ）は、図３に示すように、周波数ｆに依存し、群遅延スペクトルの変動量Ｗ_ｍ（ｆ）に対応している。帯域分割したスペクトルの尖度の値Ｋ_ｍ（ｆ）は容易かつ安定して音信号から抽出することができるため、入力された音信号の分析を容易に行うことができる。また、周波数に応じて変化する帯域分割したスペクトルの尖度の値Ｋ_ｍ（ｆ）を用いることによって、高品質な合成音を生成することができる。

【0029】

次に、群遅延変動量生成部２１において、群遅延スペクトルの変動量Ｗm（ｆ）を生成する第１工程を実行する（ステップＳ３）。第１工程で生成された群遅延スペクトルの変動量Ｗm（ｆ）を図４に示す。この群遅延スペクトルの変動量Ｗm（ｆ）は、記憶部２６に蓄積された「指標−群遅延変動量対応情報」（図５参照）に基づいて生成される。帯域分割したスペクトルの尖度の値Ｋm（ｆ）と群遅延スペクトルの変動量Ｗm（ｆ）との対応関係は、実験的に予め定めておき、記憶部２６に「指標−群遅延変動量対応情報」として蓄積されている。指標である帯域分割したスペクトルの尖度の値Ｋm（ｆ）と群遅延スペクトルの変動量Ｗm（ｆ）との対応関係を表す関数Ψを周波数ｆと帯域分割したスペクトルの尖度の値Ｋm（ｆ）に依存したものであるとすると、Ｗm（ｆ）＝Ψ（ｆ，Ｋm（ｆ））と表すことができる。

【0030】

ここでは、まず、人工的に群遅延スペクトルの変動量Ｗm（ｆ）を与えて作成した信号から帯域分割したスペクトルの尖度の値Ｋm（ｆ）を観察し、これらの関係をシグモイド関数に基づく式１で近似した。

【0031】

【数1】

【0032】

ここで、ｂ，ｃ，ｄは、実験データから観察される帯域分割したスペクトルの尖度の値Ｋm（ｆ）と群遅延スペクトルの変動量Ｗm（ｆ）とが最も良く対応付けられるように決められた定数である。また、ａ（ｆ）も帯域分割したスペクトルの尖度の値Ｋm（ｆ）と群遅延スペクトルの変動量Ｗm（ｆ）とが最もよく対応付けられるように定めた関数であり、例えば、シグモイド関数に基づく式２を利用することができる。

【0033】

【数2】

【0034】

ここで、ｐ，ｑもｂ，ｃ，ｄと同様、実際のデータから観測される帯域分割したスペクトルの尖度の値Ｋm（ｆ）と群遅延スペクトルの変動量Ｗm（ｆ）とが最も良く対応付けられるように決められた定数である。そして、Ψ-1（ｆ，Ｗ）を用い、Ｗに関して逆関数を求めたものをΨ（ｆ，Ｗ）とした。式１及び式２から式３になる。なお、必要に応じてａ（ｆ）はｆに依存しない定数としてもよい。

【0035】

【数3】

【0036】

次に、群遅延生成部２２において、第１工程で生成された群遅延スペクトルの変動量Ｗ_m（ｆ）を用いて合成用フレーム（フレーム番号をｎとする）に対する群遅延スペクトルＤ_n（ｆ）を生成する第２工程を実行する（ステップＳ４）。第２工程で生成された群遅延スペクトルＤ_n（ｆ）を図６に示す。この群遅延スペクトルＤ_n（ｆ）は、Ｗ_m（ｆ）に依存する変動量をもつものであればよく、乱数生成器を用いて、平均値０、分散１の乱数Ｎ_n（ｆ）を生成し、それに対して群遅延スペクトルの変動量Ｗ_m（ｆ）を乗じたものである。合成音の雑音性を増幅させたり、減衰させたりする場合は、この重みに対して非零の係数αを乗ずればよい。この場合、生成される群遅延スペクトルＤ_n（ｆ）は、Ｄ_n（ｆ）＝αＷ_m（ｆ）Ｎ_n（ｆ）と表される。このように、乱数Ｎ_n（ｆ）を乗ずることによって合成音の雑音感を良好に生成することができる。

【0037】

次に、位相生成部２３において、第２工程で生成された群遅延スペクトルＤ_n（ｆ）を積分して位相スペクトルθ_n（ｆ）に変換する第３工程を実行する(ステップＳ５）。第３工程で変換された位相スペクトルθ_n（ｆ）を図７に示す。また、この変換は式４に表される。なお、この位相スペクトルθ_n（ｆ）に対しては、例えば、基本周波数の値に応じた位置のずれを再現するための変形等、他の変形を加えることもある。

【0038】

【数4】

【0039】

次に、１ピッチ波形生成部２４において、図８に示すスペクトル包絡Ａ_m（ｆ）と、第３工程で生成された位相スペクトルθ_n（ｆ）とを組み合わせて複素スペクトルＹ_n（ｆ）を求める。スペクトル包絡Ａ_m（ｆ）は、分析部１０のスペクトル抽出部１２において、分析用信号から抽出したものである（ステップＳ６−1）。このため、入力された音信号により近い合成音を生成することができる。複素スペクトルＹ_n（ｆ）は式５に表させる。求められた複素スペクトルＹ_n（ｆ）を逆フーリエ変換して、図９に示す１周期分の信号（１ピッチ波形）ｙ_n（ｔ）を生成する第４工程を実行する（ステップＳ６）。

【0040】

【数5】

【0041】

次に、第４工程で生成した１ピッチ波形を分析部１０の基本周波数抽出部１３において分析用信号から抽出した基本周波数の値（ステップＳ７−1）を用いて重畳加算し、合成音を生成する第５工程を実行する（ステップＳ７）。加算開始位置は基本周期に基づいて更新する。分析フレームの更新が必要になるまで、第２工程から第５工程を繰り返す。

【0042】

分析フレームの更新が必要になった場合（ステップＳ８）、分析開始点を更新し、分析用信号抽出部１１で次の分析用信号を抽出し（ステップＳ１）、上述した各処理を実行する。合成用フレームｎにおける加算開始位置をｔ_nとすると、第２工程から第５工程を繰り返した処理後の合成音ｓ_m（ｔ）は、繰り返し処理前の合成音ｓ_m-1（ｔ）を用いて式６と表される。ここで、ｎ_mは分析用フレームｍにおける合成用フレームの最初のフレーム番号を表す。Ｎ_mは分析用フレームｍにおける合成の繰り返し回数を表す。

【0043】

【数6】

【0044】

このようにして生成された合成音を図１０に示す。この音合成方法及び音合成装置は群遅延スペクトルの変動量と対応関係にある周期性を表す指標として帯域分割したスペクトルの尖度を利用して合成音を生成する。帯域分割したスペクトルの尖度の値Ｋm（ｆ）は群遅延スペクトルの変動量Ｗm（ｆ）とは対応関係にあるため、予め定めておき、分析用信号から抽出した帯域分割したスペクトルの尖度の値Ｋm（ｆ）に対応させて群遅延スペクトルの変動量Ｗm（ｆ）を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。

【0045】

したがって、実施例１の音合成方法及び音合成装置は雑音性を有する合成音の生成を容易にすることができる。

【0046】

＜実施例２＞
実施例２の音合成装置は、図１１に示すように、分析部１１０において、線形予測分析部１５、及び線形予測残差抽出部１６を有し、合成部１２０において、残差駆動合成部２７を有する点で実施例１と相違する。他の構成は実施例１と同様であり、同一の構成は同一の符号を付し、詳細な説明を省略する。

【0047】

この音合成装置を利用した音合成方法は、図１２に示すように、線形予測残差駆動型分析合成方式を利用するものである。つまり、１ピッチ波形生成部２４において、線形予測残差抽出部１６で抽出した線形予測残差信号の振幅スペクトルＡ_m（ｆ）（ステップＳ６−２)と、第３工程（ステップＳ５）で生成された位相スペクトルθ_n（ｆ）とを組み合わせて複素スペクトルＹ_n（ｆ）を求め、逆フーリエ変換して、１周期分の信号（１ピッチ波形）を生成する第４工程を実行する（ステップＳ６）。

【0048】

その後、重畳加算部２５において、合成音を生成する第５工程を実行し（ステップＳ７）、線形予測残差駆動型分析合成方式に対して与える線形予測残差信号として利用する。そして、残差駆動合成部２７において、分析フレーム毎に線形予測分析部１５において抽出した線形予測係数（ステップＳ９−1）を用い、この線形予測残差信号で駆動して合成音を生成する（ステップＳ９）。

【0049】

この音合成方法及び音合成装置も群遅延スペクトルの変動量と対応関係にある周期性を表す指標として帯域分割したスペクトルの尖度を利用して合成音を生成する。帯域分割したスペクトルの尖度の値Ｋm（ｆ）は群遅延スペクトルの変動量Ｗm（ｆ）とは対応関係にあるため、予め定めておき、分析用信号から抽出した帯域分割したスペクトルの尖度の値Ｋm(ｆ）に対応させて群遅延スペクトルの変動量Ｗm（ｆ）を生成することができる。これは、群遅延スペクトルを忠実に再現するのではなく、各帯域における群遅延スペクトルの変動の度合いを再現することで、雑音性を有する合成音の生成を可能にするものである。

【0050】

したがって、実施例２の音合成方法及び音合成装置も雑音性を有する合成音の生成を容易にすることができる。

【0051】

本発明は上記記述及び図面によって説明した実施例１及び２に限定されるものではなく、例えば次のような実施例も本発明の技術的範囲に含まれる。
（１）実施例１及び２では、分析部を有して音合成装置に入力した音信号を分析し、分析した各信号を基にして合成部で合成音を生成したが、分析部を有さず、蓄積した信号を基に合成部で合成音を生成してもよい。
（２）実施例１及び２では、周期性を表す指標として帯域分割したスペクトルの尖度を利用したが、帯域分割したスペクトルの尖度の代わりに帯域分割したスペクトルのスペクトルフラットネスを利用してもよい。
（３）実施例１及び２では、分析用信号からスペクトルに対する尖度を抽出したが、スペクトル包絡の情報を取り除いた後の振幅スペクトルや、線形予測残差信号の振幅スペクトルからスペクトルに対する尖度を抽出してもよい。
（４）実施例１及び２では、群遅延生成部において、乱数を群遅延スペクトルの変動量に乗じたが、乱数の代わりに適当に生成しておいた群遅延スペクトルを群遅延データベースとして用意しておき、それに対して同様の処理をしてもよい。
（５）実施例１及び２では、位相生成部において、群遅延スペクトルを積分して位相スペクトルに変換したが、群遅延スペクトルの累積和を計算して位相スペクトルに変換してもよい。
（６）実施例１及び２では、１ピッチ波形生成部において、スペクトル包絡と位相スペクトルを組み合わせて複素スペクトルを求めたが、スペクトル包絡の代わりに振幅スペクトルを利用してもよい。

【産業上の利用可能性】

【0052】

本発明は、ハスキーさの再現や協調が可能なリアルタイム声質変換システム、シャウト・スクリーム唱法を再現・強調できる歌声合成システム、ハスキーさを制御できるテキスト音声合成システム、音色の雑音性を自在に制御できる音楽用シンセサイザーに利用可能である。

【符号の説明】

【0053】

Ｓ３…第１工程
Ｓ４…第２工程
Ｓ５…第３工程
Ｓ６…第４工程
Ｓ７…第５工程
１１…分析用信号抽出部
１２…スペクトル抽出部
１４…指標抽出部
２１…群遅延変動量生成部
２２…群遅延生成部
２３…位相生成部
２４…１ピッチ波形生成部
２５…重畳加算部
２６…記憶部

【図1】