(58)【調査した分野】(Int.Cl.,DB名)
楽曲のうちブレス音を挿入すべき挿入区間と、前記挿入区間の直前で複数の音符を含む第1参照区間と前記挿入区間の直後で複数の音符を含む第2参照区間との少なくとも一方と、を設定する区間設定手段と、
前記第1参照区間に含まれる音符数と、前記第2参照区間に含まれる音符数との少なくとも一方を含む特徴情報を特定する特徴特定手段と
前記特徴特定手段が特定した特徴情報に応じて、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する変数設定手段と、
を具備するブレス音設定装置。
前記特徴特定手段は、前記第1参照区間における音高の最高値と最低値との差分値と、前記第2参照区間における音高の最高値と最低値との差分値との少なくとも一方を含む前記特徴情報を特定する
請求項1から請求項3の何れかのブレス音設定装置。
前記変数設定手段は、特徴情報とブレス音の強度または時間長との相関を規定する回帰モデルに、前記特徴特定手段が特定した前記特徴情報を適用することで、前記挿入区間に挿入するブレス音の強度および時間長の少なくとも一方を設定する
請求項1から請求項4の何れかのブレス音設定装置。
【発明を実施するための形態】
【0013】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。第1実施形態の音声合成装置100は、複数の音声素片を連結する素片接続型の音声合成で任意の楽曲(以下、「合成楽曲」という)の歌唱音声の音声信号Vを生成する信号処理装置である。音声信号Vには、合成楽曲の音楽的な特徴に応じて強度および時間長が調整されたブレス(息継ぎ)音が付加される。
【0014】
図1に示されるとおり、音声合成装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器(例えばマウス等のポインティングデバイスやキーボード)であり、例えば利用者が操作する複数の操作子を含んで構成される。なお、表示装置14と一体に構成されたタッチパネルを入力装置16として採用することも可能である。放音装置18(例えばスピーカやヘッドホン)は、音声信号Vに応じた音響を再生する。なお、音声信号Vをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
【0015】
記憶装置12は、演算処理装置10が実行するプログラムや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、以下に例示する通り、音声素片群Lとブレス波形群Bと合成情報Sと回帰モデル情報RMとを記憶する。
【0016】
音声素片群Lは、特定の発声者の発声音から事前に採取された複数の音声素片の集合(音声合成用ライブラリ)である。音声素片は、例えば、言語的な意味の区別の最小単位である音素(例えば母音や子音)、または、複数の音素を連結した音素連鎖(ダイフォンやトライフォン)である。各音声素片は、時間領域の音声波形のサンプル系列や、音声波形のフレーム毎に算定された周波数領域のスペクトルの時系列で表現される。
【0017】
合成情報Sは、合成楽曲の歌唱音声を指定する時系列データであり、
図1に例示される通り、合成楽曲を構成する音符毎に音高(例えばノートナンバー)X1と発音期間X2と音声符号X3とを時系列に指定する。発音期間X2は、音符の時間長(音価)であり、例えば発音の開始時刻と継続長(または終了時刻)とで規定される。以上の説明から理解される通り、合成情報Sは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号X3は、合成対象の音声の発音内容(すなわち合成楽曲の歌詞)を指定する。具体的には、音声符号X3は、合成楽曲の1個の音符について発音される音声単位(例えば音節やモーラ)を指定する。
【0018】
ブレス波形群Bは、特定の発声者の発声音から採取されたブレス(息継ぎ)音のブレス波形Wの集合である。強度(平均パワーや振幅)と時間長とが相違する複数種のブレス波形Wがブレス波形群Bに包含される。本実施形態では、例えば、相異なる3種類の強度(大/中/小)と相異なる3種類の時間長(長/中/短)との全通りの組み合わせに対応する9種類(3×3=9通り)のブレス波形Wが用意される。
【0019】
回帰モデル情報RMは、歌唱音声に付与されるブレス音の強度および時間長の統計的な傾向を表現する回帰モデルを規定する。
【0020】
図1の演算処理装置10(CPU)は、記憶装置12に格納されたプログラムを実行することで、合成情報Sの編集や音声信号Vの生成のための複数の機能(表示制御部24,ブレス音設定部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。表示制御部24は、楽曲編集用のソフトウェア(エディタ)で実現され、音声合成部28は、音声合成用のソフトウェア(音声合成エンジン)で実現される。また、ブレス音設定部26は、例えば、楽曲編集用または音声合成用のソフトウェアに対するプラグインソフトウェアで実現される。もっとも、各機能に対応するソフトウェアの切分けは任意であり、例えば、楽曲編集用のソフトウェアのひとつの機能としてブレス音設定部26の機能を内包することも可能である。
【0021】
表示制御部24は、各種の画像を表示装置14に表示させる。具体的には、表示制御部24は、合成情報Sが指定する合成楽曲の内容を利用者が確認するための
図3の編集画面60を表示装置14に表示させる。編集画面60は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面である。
【0022】
表示制御部24は、合成情報Sが指定する音符毎に音符図像62を編集画面60に配置する。音符図像62は、合成楽曲の各音符を表象する図像である。具体的には、音高軸の方向における音符図像62の位置は、合成情報Sが指定する音高X1に応じて設定され、時間軸の方向における音符図像62の位置および表示長は、合成情報Sが指定する発音期間X2に応じて設定される。実際には、音符図像62の各々に対応して音声符号X3が配置されるが、
図3では図示を省略している。また、表示制御部24は、編集画面60に対する利用者からの指示に応じて合成情報Sを生成および編集する。
【0023】
ブレス音設定部26は、合成楽曲の音楽的な特徴に応じて強度および時間長が調整されたブレス音を付加する。
図2は、ブレス音設定部26のブロック図である。
図2に示されるように、ブレス音設定部26は、区間設定部32と特徴特定部34と変数設定部36と波形選択部42と波形処理部44とを含んで構成される。区間設定部32は、合成楽曲のうちブレス音を挿入すべき区間(以下「挿入区間」という)TBを設定する。
【0024】
図3は、挿入区間TBの設定の説明図である。第1実施形態の区間設定部32は、挿入区間TBと、相前後する挿入区間TBの間の区間(以下「参照区間」という)TRとを設定する。具体的には、区間設定部32は、
図3から理解される通り、合成楽曲内の相前後する2個の音符の区間であって所定の閾値t0を上回る時間長の区間を挿入区間TBとして設定し、合成楽曲内で相前後する各挿入区間TBの間の区間を参照区間TRとして設定する。以上の説明から理解される通り、合成楽曲内の任意の1個の参照区間TRは、複数の音符を包含する区間(典型的には音楽的な纏まりが知覚される複数の音符の時系列で構成されるフレーズ)である。他方、挿入区間TBは、合成楽曲のうち閾値t0を上回る時間長にわたり音符が存在しない無音区間である。なお、閾値t0は例えば事前に採取された発声者のブレス音の分析結果に応じて実験的または統計的に選定される。閾値t0は、例えば250msecに設定される。
【0025】
特徴特定部34は、区間設定部32が設定した複数の挿入区間TBの各々について特徴情報Fを特定する。特徴情報Fは、各挿入区間の直前の参照区間TR(以下では特に「参照区間TR1」と表記する)および直後の参照区間TR(以下では特に「参照区間TR2」と表記する)の音楽的な特徴を示す情報である。第1実施形態の特徴情報Fは、以下に例示する複数種の特徴量を包含する。以下の特徴量の符号において、添字1は直前の参照区間TR1から抽出される要素を意味し、添字2は直後の参照区間TR2から抽出される要素を意味する。
(1)直前の参照区間TR1内の最終音の音高e1
(2)直後の参照区間TR2内の開始音の音高b2
(3)直前の参照区間TR1における音高の最高値h1
(4)直後の参照区間TR2における音高の最高値h2
(5)直前の参照区間TR1における音高の最低値l1
(6)直後の参照区間TR2における音高の最低値l2
(7)直前の参照区間TR1における音高の最高値h1と最低値l1との差分値r1
(8)直後の参照区間TR2における音高の最高値h2と最低値l2との差分値r2
(9)直前の参照区間TR1における音符数n1
(10)直後の参照区間TR2における音符数n2
(11)直前の参照区間TR1における音高の分布(以下「音高分布」という)S1
(12)直後の参照区間TR2における音高の分布(以下「音高分布」という)S2
(13)直前の参照区間TR1の時間長tR1
(14)直後の参照区間TR2の時間長tR2
(15)挿入区間TBの時間長tB
【0026】
音高分布Sj(j=1,2)は、参照区間TRj(TR1,TR2)に含まれる音符の各々に対応する音高の分布を示す指標値(具体的には、高音の占める割合を示す指標値)である。具体的には、参照区間TRjにおける各音符の音高pと音高の最低値ljとの差分値(p−lj)と当該音符の時間長tとの乗算値t(p−lj)を基準値S0_jで正規化した数値を参照区間TR内の全部の音符について合計した数値(Sj=Σ{t(p−lj)/S0_j})である。基準値S0は、例えば、参照区間TR1内の音高の最高値h1と最低値l1との差分値r1に参照区間TR1の時間長tR1を乗算した数値に設定される。以上の説明から理解される通り、音高分布Sjは、参照区間TRjにおける高音の割合が高いほど大きい数値となる(低音の割合が高いほど小さい数値となる)ように0以上かつ1以下の範囲内で変動する。
【0027】
図2の変数設定部36は、区間設定部32が設定した各挿入区間TBに挿入されるべきブレス音の強度αと時間長βとを、特徴特定部34が特定した特徴情報Fに応じて設定する。第1実施形態の変数設定部36は、記憶装置12に記憶された回帰モデル情報RMで規定される回帰モデルに特徴情報Fを適用することで強度αと時間長βとを設定する。
【0028】
回帰モデルは、特徴情報Fとブレス音の強度αおよび時間長βとの統計的な相関を表現する統計モデル(相関モデル)であり、事前に収集された多数のブレス音を学習データとして利用した機械学習により設定される。回帰モデルの機械学習には公知の技術が任意に採用され得るが、例えば、回帰木を利用したRFR(Random Forest Regression)が好適である。具体的には、事前に収集されたブレス音の強度および時間長と、当該ブレス音に関する前述の特徴情報F((1)〜(15))とを含む多数の学習データを利用した機械学習で回帰モデルが設定される。
【0029】
前述のRFRを利用した機械学習で生成された回帰モデルは、特徴情報Fの各変数とブレス音の強度αおよび時間長βの各々との相関の度合を示す指標値(以下「寄与度」という)を算出することが可能である。
【0030】
図4は、強度αおよび時間長βの各々に対する各特徴情報Fの寄与度の説明図である。
図4から理解される通り、ブレス音の強度αは、参照区間TR1の時間長tR1や挿入区間TBの時間長tBに加えて、各参照区間TR内の音高に関する特徴情報F(前掲の(1)〜(12))にも依存することが
図4から理解できる。具体的には、参照区間TR1の最終音の音高e1および音高の最高値h1と参照区間TR2の音高の最高値h2とは特に強度αに影響する。したがって、(1)〜(15)の特徴量を包含する特徴情報Fを回帰モデルに適用してブレス音の強度αを算定する第1実施形態によれば、実際の歌唱音声におけるブレス音の傾向を反映した適切な強度αを設定することが可能である。
【0031】
図5は、第1実施形態の回帰モデル情報RMで規定される回帰モデルの予測性能の評価結果を示す散布図である。具体的には、
図5の縦軸は、回帰モデルで算定される強度αの数値(予測値)を意味し、
図5の横軸は、実際の歌唱音声から抽出された約300個のブレス音の強度の数値(実測値)を意味する。
図5の通り、第1実施形態の回帰モデルによれば単独の特徴情報に基づく予測値と比較して高い精度でブレス音の強度αを設定できることが確認された。すなわち、音高に関連する特徴情報F(前掲の(1)〜(12))に応じてブレス音の強度αを算定する第1実施形態によれば、実際の歌唱音声におけるブレス音の傾向を反映した適切な強度αを設定できることが、
図5からも確認できる。
【0032】
他方、
図4におけるブレス音の時間長βに着目すると、挿入区間TBの時間長tBが支配的ではあるが、各参照区間TR内の音高に関する特徴情報F(前掲の(1)〜(12))も時間長βに影響することが確認できる。具体的には、参照区間TR1の最終音の音高e1および音高分布S1と参照区間TR2の音高の最高値h2とは特に時間長βに影響する。したがって、(1)〜(15)の特徴量を包含する特徴情報Fを回帰モデルに適用してブレス音の時間長βを算定する第1実施形態によれば、実際の歌唱音声におけるブレス音の傾向を反映した適切な時間長βを設定することが可能である。
【0033】
図2の波形選択部42は、以上に説明した方法で変数設定部36が設定した強度αおよび時間長βに応じたブレス波形Wを記憶装置12のブレス波形群Bから挿入区間TB毎に選択する。具体的には、波形選択部42は、変数設定部36が設定した強度αおよび時間長βに近似する強度および時間長のブレス波形Wをブレス波形群Bから選択する。
【0034】
波形処理部44は、波形選択部42が選択したブレス波形Wの強度および時間長を調整した複数のブレス波形を各挿入区間TBに配列した音響ファイル(以下「ブレス音情報BI」と表記する)を生成する。具体的には、波形処理部44は、ブレス波形群Bから選択したブレス波形Wの強度を変数設定部36が設定した強度αに調整するとともに、ブレス波形Wの時間長を変数設定部36が設定した時間長βに調整する。波形処理部44が生成するブレス音情報BIは、強度および時間長の調整後のブレス波形Wを時間軸上の各挿入区間TBに配置した音響の時間波形を示すファイル(例えばWAV形式のファイル)である。強度および時間長の調整の方法は任意であるが、例えば以下の処理が好適である。例えば、ブレス波形Wの平均パワーが予測値αと等しくなるように振幅を調整する方法が採用され得る。また、時間長の調整は、時間長βを上回るブレス波形Wが選択された場合に、ブレス波形Wの始点側や終点側の区間を削除する方法(例えばフェードイン/フェードアウト)や、ブレス波形Wをタイムコンプレッション(例えばリサンプリング)する方法が好適である。
【0035】
第1実施形態の表示制御部24は、編集画面60とともにブレス音画面70を表示装置14に表示させる。ブレス音画面70には、波形処理部44が生成したブレス音情報BIが示す音響(すなわち、強度および時間長の調整後のブレス波形Wが各挿入区間TBに挿入された音響)の時間波形が配置される。
図6から理解される通り、第1実施形態では、各参照区間TR(TR1,TR2)から抽出された特徴情報Fに応じて各挿入区間TBのブレス音の強度および時間長が適切に設定されたブレス音情報BIが生成される。なお、
図6では合成楽曲の全体にわたるブレス音情報BIの一部を例示したが、実際は合成楽曲の先頭から後尾までに含まれる全ての挿入区間TBにブレス音が挿入され、利用者はスクロール等の操作により、全ての挿入区間TBに付加されたブレス音を確認することが可能である。
【0036】
図1の音声合成部28は、記憶装置12に記憶された音声素片群Lと合成情報Sとブレス音情報BIとを利用して音声信号Vを生成する。具体的には、音声合成部28は、合成情報Sが指定する音符毎の音声符号X3に応じた音声素片を音声素片群Lから順次に選択し、各音声素片を音高X1および発音期間X2に調整して相互に連結することで歌唱音声の音声信号を生成し、ブレス音情報BIが示すブレス音を歌唱音声の音声信号に合成することで音声信号Vを生成する。音声合成部28が生成した音声信号Vが放音装置18に供給されることで、合成楽曲の歌唱音声が再生される。
【0037】
図7は、第1実施形態に係る音声合成装置100がブレス音情報BIを生成する処理(以下「ブレス音生成処理」という)の動作を示すフローチャートである。ブレス音生成処理は、例えば編集画面60において利用者からの処理の開始を指示する操作を契機として開始する。利用者から処理の開始が指示されると(SA11:YES)、区間設定部32は、合成楽曲を各挿入区間TBと各参照区間TRとに区分する(SA12)。
【0038】
特徴特定部34は、合成楽曲内の1個の挿入区間(以下「選択挿入区間」という)TBを順次に選択し(SA13)、選択挿入区間TBの直前の参照区間TR1および直後の参照区間TR2の特徴情報Fを特定する(SA14)。変数設定部36は、特徴特定部34が特定した特徴情報Fを回帰モデル情報RMの回帰モデルに適用することで、選択挿入区間TBに挿入すべきブレス音の強度αおよび時間長βを設定し(SA15)、波形選択部42は、強度αおよび時間長βに近いブレス波形Wをブレス波形群Bから選択する(SA16)。そして、波形処理部44は、波形選択部42が選択したブレス波形Wの強度および時間長を調整する(SA17)。
【0039】
区間設定部32が設定した複数の挿入区間TBの各々について以上の処理(SA14〜SA17)が実行される(SA18:NO)。合成楽曲の全部の挿入区間TBについて処理が完了すると(SA18:YES)、波形処理部44は、調整後のブレス波形Wを各挿入区間TBに配置した音響を示すブレス音情報BIを生成し(SA19)、表示制御部24は、ブレス音情報BIに応じたブレス音画面70を編集画面60とともに表示装置14に表示させる(SA20)。以上の処理が完了することでブレス音生成処理は終了する。
【0040】
以上に説明したとおり、第1実施形態では、複数の挿入区間TBの各々について、各挿入区間TBの直前の参照区間TR1および直後の参照区間TR2の音楽的な特徴を示す特徴情報Fに基づいてブレス音の強度αおよび時間長βが設定される。したがって、第1実施形態によれば、楽曲の音楽的な特徴とブレス音との強度および時間長とが相関するという現実の傾向を忠実に反映した聴感的に自然なブレス音を設定することが可能である。また、第1実施形態では音楽的な特徴情報Fに基づいてブレス音の強度αおよび時間長βを設定するので、歌詞情報が入力されていない場合でも挿入区間TBに適切なブレス音を設定することが可能である。
【0041】
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0042】
図8は、本発明の第2実施形態に係る音声合成装置100のブロック図である。第2実施形態の音声合成装置100は、第1実施形態の音声合成装置100にサンプル調整部46を追加した構成である。サンプル調整部46は、予め用意された複数のブレス波形W0の強度を、回帰モデルの生成(機械学習)に利用された学習用のブレス音(学習データ)の強度に適合させることで、ブレス波形群Bの各ブレス波形Wを生成する。
【0043】
図9は、初期的なブレス波形W0および学習データの強度の分布図である。
図9の符号Atargetは、予め用意された9種類のブレス波形W0の強度diの平均であり、符号Atrainは、回帰モデルの学習処理に適用された複数の学習データの強度の平均である。
図9から理解される通り、複数のブレス波形W0の強度diの平均Atargetと学習データの強度の平均Atrainとは相違する。以上の事情を考慮して、第2実施形態のサンプル調整部46は、各ブレス波形W0の強度diを、以下の数式(1)の演算で強度Diに調整することで、ブレス波形群Bのブレス波形Wを生成する。
Di=Atrain+ω(di−Atarget) ……(1)
【0044】
数式(1)の符号ωは、複数のブレス波形W0の強度diの分散を、学習データの強度の分散に適合させる調整値(加重値)である。
図10は、数式(1)で算定された各ブレス波形Wの強度Diと学習データの強度との分布図である。数式(1)および
図10から理解される通り、数式(1)の演算は、調整後の各ブレス波形Wの強度Diの平均と分散を学習データの強度の平均Atrainと分散に近似(理想的には合致)するように調整する演算に相当する。すなわち、サンプル調整部46による処理後のブレス波形Wの強度の分布は、学習データの強度の分布に適合するように調整される。なお、調整値ωを1に設定すれば、複数のブレス波形W0の強度diの平均Atargetを、ブレス波形Wの分散を維持したまま学習データの強度の平均Atrainに適合させることが可能である。
図10では調整値ωを1に設定した場合が例示されている。サンプル調整部46が生成したブレス波形W(ブレス波形群B)を利用したブレス音生成処理(
図7)の内容は第1実施形態と同様である。
【0045】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、ブレス波形Wにおける強度の分布が学習データの強度の分布に近似するようにブレス波形W0の強度が調整される。したがって、事前に用意されたブレス波形W0の強度と学習データの強度とが乖離する場合でも、回帰モデルを利用して適切なブレス波形Wを選択できるという利点がある。換言すると、回帰モデルの機械学習に利用される学習データとは無関係に用意された既存のブレス波形W0を流用できるという利点がある
【0046】
なお、事前に用意されたブレス波形W0の時間長については学習データとの乖離が少ないと仮定し、前述の説明では強度の調整のみに言及した。ただし、各ブレス波形W0と学習データとで時間長が乖離する場合に、第2実施形態と同様の方法で、調整後の時間長の平均値が学習データの時間長の平均値に近似するように各ブレス波形W0の時間長を調整することも可能である。
【0047】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様は適宜に併合され得る。
【0048】
(1)前述の各形態において、合成楽曲の開始から歌唱開始(最初の音符)までの区間が挿入区間TBとして設定され得る。ただし、当該挿入区間TBには直前の参照区間TR1が存在しない。そこで、例えば当該挿入区間TBの直後の参照区間TR2から抽出された特徴情報Fを参照区間TR1の特徴情報Fとして流用する構成や、参照区間TR2の音符列を時間軸上で反転させた音符列を参照区間TR1として特徴情報Fを抽出する構成が採用され得る。
【0049】
(2)前述の各形態では、特徴特定部34が特定した特徴情報Fに応じて変数設定部36がブレス音の強度αと時間長βとを設定する構成を例示したが、ブレス音の強度αや時間長β以外の特性を設定することも可能である。例えば、ブレス波形の形状や周波数特性(スペクトルのピークや傾斜等)を設定することも可能である。
【0050】
(3)前述の各形態では、(1)〜(15)の各特徴量を包含する特徴情報Fを例示したが、特徴情報Fに包含される特徴量の種類は各態様の例示に限定されない。例えば、各参照区間TRj(TR1,TR2)における各音符の音高p(ノートナンバー)と、当該音符の発音期間の時間長tとの積を、参照区間内TRjの全部の音符について累積した数値(音高‐時間指標)を包含する特徴情報Fを強度αや時間長βの設定に利用することも可能である。
【0051】
(4)前述の各形態では、合成楽曲の音楽的な特徴を示す情報(特徴量)を特徴情報Fとして利用したが、これ以外の特徴量を強度αや時間長βの設定に利用することも可能である。例えば、挿入区間TBに前後する参照区間TR1および参照区間TR2の音素に関係する特徴量を特徴情報Fとして利用する構成としてもよい。音素に関係する特徴量としては例えば音素記号や音素の種類等を例示することができる。
【0052】
(5)複数種の回帰モデルを選択的に利用することも可能である。例えば、歌手別やジャンル別に複数の回帰モデルを個別に作成し、合成楽曲の歌手やジャンルに応じて回帰モデルを選択する構成が採用される。
【0053】
もっとも、前述の各形態で例示した回帰モデルの採用は本発明において必須ではない。例えば、特徴情報Fと強度αまたは時間長βとの相関を規定する関数の演算で強度αまたは時間長βを算定する構成や、特徴情報Fの各数値と強度αまたは時間長βの各数値とを対応付けるテーブルを利用して特徴情報Fに応じた強度αまたは時間長βを特定する構成も採用され得る。
【0054】
(6)前述の各形態では、(1)〜(15)の全部の特徴量を特徴情報Fとして利用して強度αおよび時間長βを設定したが、寄与度が高い特徴量を特徴情報Fとして、回帰モデルの生成や回帰モデルを適用した強度αおよび時間長βの設定に利用することも可能である。以上の構成によれば、処理負荷を軽減することが可能である。
【0055】
(7)前述の各形態では、強度および時間長の調整後の各ブレス波形Wを各挿入区間TBに配列したブレス音情報BIを生成したが、調整後のブレス波形をブレス波形群Bに追加する構成としてもよい。かかる構成によれば、ブレス波形Wの種類を多様化することが可能になる。
【0056】
(8)前述の各形態では、変数設定部36が設定した強度αおよび時間長βに応じたブレス波形を配列したブレス音情報BIを生成したが、ブレス波形の発音を指示する情報(イベントデータ)を合成情報Sに付加することも可能である。また、波形選択部42が選択したブレス波形W(ファイル名)を順次に指定する時系列データ(ブレス音のパートデータ)をブレス音情報BIに代えて生成することも可能である。各ブレス波形Wの強度αや時間長βは、時系列データの付加情報として指定される。以上の説明から理解される通り、前述の各形態のブレス音設定部26は、楽曲のブレス音を設定する要素として包括的に表現され、設定されたブレス音の利用の方法は任意である。
【0057】
(9)波形選択部42が選択したブレス波形Wの時間長が挿入区間TBの時間長tBに対して短い場合に、ブレス波形Wの終端が参照区間TR2の始点に対して所定の時間長Tだけ前方の時点となるように、ブレス波形Wを挿入区間TBに配列してもよい。なお、子音(特に無声子音)の音素に母音の音素が後続する音声符号X3の合成音を生成する場合、発音期間X2の開始前に子音の発音を開始するとともに発音期間X2の始点で母音の発音を開始すると、聴感的に自然な印象の合成音を生成することが可能である。以上の事情を考慮すると、発音期間X2の開始前に発音される子音と重ならないように時間長Tを設定した構成が好適である。例えば、参照区間TR2の先頭の音素の種類に応じて時間長Tを可変に設定する構成が採用され得る。また、時間長Tを所定値(例えば50msec)に設定した構成や、回帰モデルを利用して時間長Tを可変に設定することも可能である。
【0058】
(10)前述の各形態では、変数設定部36が設定した強度αおよび時間長βに近似する強度および時間長のブレス波形Wをブレス波形群Bから選択したが、ブレス波形Wの選択の方法は以上の例示に限定されない。例えば、時間長βが近似するブレス波形Wを波形選択部42がブレス波形群Bから選択し、当該ブレス波形Wの強度を波形処理部44が強度αに調整することも可能である。また、1個のブレス波形Wが連続して選択されて聴感的に単調な印象のブレス音になることを防ぐため、直前に選択したブレス音を選択対象から除外する構成としてもよい。また、ブレス波形群Bの各ブレス波形Wが選択された頻度を算出し、頻度が低い(または頻度が高い)ブレス波形Wを優先的に選択することも可能である。
【0059】
(11)前述の各形態では、変数設定部36が強度αおよび時間長βの双方を設定したが、強度αおよび時間長βの一方のみを設定することも可能である。
【0060】
(12)前述の各形態では、複数の音声素片を相互に接続する素片接続型の音声合成を例示したが、音声合成の方式は以上の例示に限定されない。例えば、HMM(Hidden Markov Model)を利用して推定された音高の時間変化に対して音声符号X3に応じたフィルタ処理を実行する統計モデル型の音声合成で音声信号Vを生成することも可能である。
【0061】
(13)移動通信網やインターネット等の通信網を介して端末装置と通信するサーバ装置で音声合成装置100を実現することも可能である。具体的には、音声合成装置100は、端末装置から通信網を介して受信した合成情報Sを利用してブレス音情報BIを生成し、ブレス音情報BIを通信網から端末装置に送信する。以上の説明から理解される通り、音声合成の機能は省略され得る。すなわち、本発明は、楽曲のブレス音を設定するブレス音設定装置としても特定され得る。