(58)【調査した分野】(Int.Cl.,DB名)
【発明を実施するための形態】
【0015】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。
図1に示すように、音声合成装置100は、楽曲を歌唱した音声の波形を示す音声信号Zを生成する信号処理装置であり、演算処理装置10と記憶装置12と表示装置14と操作装置16と放音装置18とを具備するコンピュータシステムで実現される。演算処理装置10は、音声合成装置100の各要素を統括的に制御する制御装置である。
【0016】
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。操作装置16は、音声合成装置100に対する利用者からの指示を受付ける入力機器であり、利用者による操作に応じた操作信号Mを生成する。第1実施形態では、表示装置14と一体に構成されたタッチパネルを操作装置16として例示する。すなわち、操作装置16は、表示装置14の表示面に対する利用者の手指の接触を検知するとともに接触の位置に応じた操作信号Mを出力する。放音装置18(例えばスピーカやヘッドホン)は、演算処理装置10が生成した音声信号Zに応じた音波を再生する。なお、演算処理装置10が生成した音声信号Zをデジタルからアナログに変換するD/A変換器の図示は便宜的に省略した。
【0017】
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、音声素片群Lと合成情報Sとを記憶する。音声素片群Lは、音声信号Zの合成用素材として利用される複数の音声素片Vの集合(音声合成ライブラリ)である。音声素片Vは、音韻論的な区別の最小単位である音素(例えば母音や子音)の単体や複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。
【0018】
合成情報Sは、楽曲の内容(旋律や歌詞)を指定する時系列データであり、楽曲毎に事前に生成されて記憶装置12に記憶される。
図1に示すように、合成情報Sは、楽曲の歌唱パートの旋律を構成する複数の音符の各々について音高SAと発音符号SBとを指定する。音高SAは、音符の音高を意味する数値(例えばノートナンバ)である。発音符号SBは、音符の発音とともに発声すべき発音内容を指示する符号である。第1実施形態の発音符号SBは、楽曲の歌詞を構成する1個の音節(発音単位)に相当する。合成情報Sを利用した音声合成で楽曲の歌唱音の音声信号Zが生成される。第1実施形態では、操作装置16に対する利用者からの指示に応じて楽曲の各音符の発音時点が制御される。したがって、楽曲を構成する複数の音符の順番は合成情報Sで指定されるが、各音符の発音時点や継続長は合成情報Sでは指定されない。
【0019】
演算処理装置10は、記憶装置12に記憶されたプログラムPGMを実行することで、音声信号Zを生成するための複数の機能(操作特定部22,表示制御部24,操作予測部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を担当する構成も採用され得る。
【0020】
表示制御部24は、操作装置16の操作時に利用者が視認する
図2の操作画面50Aを表示装置14に表示させる。
図2の操作画面50Aは、端部(左端)ELと端部(右端)ERとの間でX方向に延在する直線(以下「操作経路」という)Gと、操作経路G上に配置された操作図像52(ポインター)とを含むスライダ型の画像である。
図1の操作特定部22は、操作装置16から供給される操作信号Mに応じて操作経路Gのうち利用者が指示した位置(以下「操作位置」という)Pを特定する。利用者は、表示装置14の表示面のうち操作経路G上の任意の位置に手指を接触させることで当該位置を操作位置Pとして指示し、表示面に接触した状態を維持したまま手指を操作経路Gに沿って移動させる(ドラッグ操作)ことで操作位置Pを端部ELと端部ERとの間でX方向に移動させることが可能である。すなわち、操作特定部22は、操作装置16に対する利用者からの操作に応じてX方向に移動する操作位置Pを特定する。表示制御部24は、操作経路Gのうち操作特定部22が特定した操作位置Pに操作図像52を配置する。すなわち、操作図像52は、操作位置Pを表現する図形(
図2の例示では円形)であり、操作装置16に対する利用者からの指示に応じて端部ELと端部ERとの間でX方向に移動する。
【0021】
利用者は、音声信号Zの再生に並行して操作装置16を操作して操作位置Pを移動させることで、合成情報Sが指定する各音符の発音時点を任意に指示することが可能である。具体的には、楽曲内の1個の音符の発音が開始される時点として利用者が希望する任意の時点(以下「指示時点」という)TBにて操作位置Pが操作経路G上の特定の位置(以下「基準位置」という)PBに到達するように、利用者は、基準位置PB以外の位置から基準位置PBに向けて操作位置Pを移動させる。第1実施形態では、
図2に示すように、操作経路Gの端部(右端)ERを基準位置PBとして例示する。すなわち、利用者は、楽曲内の1個の音符の所望の指示時点TBの到来前に、表示面の端部ELの位置に手指を接触させて操作位置Pを端部ELに設定し、操作位置Pが所望の指示時点TBにて基準位置PB(端部ER)に到達するように、表示面に接触した状態で手指をX方向に移動させる。以上のように操作位置Pを基準位置PBまで移動させる操作(以下「発音指示操作」という)を、音声信号Zの再生に並行して音符毎(歌詞の音節毎)に逐次的に反復することで、発音指示操作毎に設定される指示時点TBが楽曲内の各音符の発音時点として指示される。
【0022】
図1の操作予測部26は、基準位置PB(端部ER)に到達する以前の操作位置Pの移動速度νに応じて、操作位置Pが実際に基準位置PBに到達する以前に指示時点TBを予測(推定)する。具体的には、操作予測部26は、操作経路G上に設定された予測開始位置CSから予測実行位置CEまでの距離δを操作位置Pが移動する時間長τに応じて指示時点TBを予測する。第1実施形態では、
図2に示すように、操作経路Gの端部(左端)ELを予測開始位置CSとして想定する。他方、予測実行位置CEは、操作経路Gのうち予測開始位置CS(端部EL)から基準位置PB(端部ER)までの途中の時点である。
【0023】
図3は、操作予測部26の動作の説明図であり、操作位置P(横軸)の時間変化を意味する。
図3に示すように、操作予測部26は、発音指示操作により操作位置Pが時点TSにて予測開始位置CSを出発してから時点TEにて予測実行位置CEを通過するまでに経過した時間長τを計測し、予測開始位置CSと予測実行位置CEとの距離δを時間長τで除算することで操作位置Pの移動速度νを算定する。そして、操作予測部26は、操作位置Pが予測開始位置CSから移動速度νの等速でX方向に移動したと仮定した場合に操作位置Pが基準位置PBに到達する時刻を指示時点TBとして算定する。なお、以上の例示では操作位置Pの移動速度νが一定であると仮定したが、移動速度νの経時的な増加や減少を加味して指示時点TBを予測することも可能である。
【0024】
図1の音声合成部28は、合成情報Sで指定された楽曲を歌唱した音声の音声信号Zを生成する。第1実施形態の音声合成部28は、記憶装置12に記憶された音声素片群Lの各音声素片Vを相互に接続する素片接続型の音声合成により音声信号Zを生成する。具体的には、音声合成部28は、合成情報Sが音符毎に指定する発音符号SBに対応した音声素片Vを音声素片群Lから順次に選択し、各音符に指定された音高SAに各音声素片Vを調整して相互に連結することで音声信号Zを生成する。音声信号Zにおいて各音符が発音される時点(各音声素片Vが配置される時間軸上の位置)は、当該音符に対応する発音指示操作の実行時に操作予測部26が予測した指示時点TBに応じて制御される。
【0025】
図4に示すように、音素Q1に音素Q2が後続する発音符号SBが合成情報Sにて指定された音符に着目して操作予測部26および音声合成部28の動作を説明する。日本語の歌詞を想定すると、典型的には音素Q1は子音であり音素Q2は母音である。例えば、発音符号SBが音節「さ[s-a]」である場合、子音の音素/s/(Q1)に母音の音素/a/(Q2)が後続する。
図4に示すように、音声合成部28は、発音符号SBに対応する音声素片VAおよび音声素片VBを音声素片群Lから選択する。音声素片VAおよび音声素片VBの各々は、
図4に示すように、当該素片の始点側の音素(以下「前方音素」という)と終点側の音素(以下「後方音素」という)とを連結した音素連鎖(ダイフォン)である。
【0026】
音声素片VAの後方音素は発音符号SBの音素Q1に相当する。また、音声素片VBの前方音素は発音符号SBの音素Q1に相当し、音声素片VBの後方音素は発音符号SBの音素Q2に相当する。例えば、前掲の例示のように音素/s/(Q1)に音素/a/(Q2)が後続する発音符号SB(音節「さ[s-a]」)に着目すると、後方音素が音素/s/である音素連鎖/*-s/が音声素片VAとして選択され、前方音素が音素/s/であり後方音素が音素/a/である音素連鎖/s-a/が音声素片VBとして選択される。なお、音声素片VAの前方音素に付与された記号「*」は、直前の発音符号SBに対応する特定の音素Q2または無音/#/を意味する。
【0027】
ところで、例えば母音が子音に後続する音節を歌唱する場合を想定すると、実際の楽曲の歌唱では、当該音節内の子音の発音が各音符の始点から開始されるのではなく、音節内の母音(すなわち音節内の後方の音素)の発音が各音符の始点にて開始されるという傾向がある。以上の傾向が再現されるように、第1実施形態の音声合成部28は、発音符号SBの音素Q1の発音が指示時点TBの到来前に開始されるとともに発音符号SBの音素Q2の発音が指示時点TBで開始されるように音声信号Zを生成する。具体的には以下の通りである。
【0028】
利用者は、操作装置16を適宜に操作することで、操作経路Gの端部EL(予測開始位置CS)から基準位置PBに向けてX方向に操作位置Pを移動させる。
図5から理解される通り、音声合成部28は、操作経路G上に設定された特定の位置(以下「発音開始位置」という)PAを操作位置Pが通過する時点TAから音声素片VA(前方音素/*/)が開始するように音声信号Zを生成する。すなわち、音声素片VAの始点は、操作位置Pが発音開始位置PAを通過する時点TAに略一致する。
【0029】
音声合成部28は、操作経路G上の発音開始位置PAを音素Q1の種類に応じて可変に設定する。例えば、発音開始位置PAを音素Q1の種類毎に登録したテーブルが記憶装置12に記憶され、合成情報Sで指定される発音符号SBの音素Q1に対応する発音開始位置PAを、音声合成部28が記憶装置12のテーブルから特定する。音素Q1の種類と発音開始位置PAとの関係は任意であるが、例えば、音響特性が短時間で非定常に変動して時間的な持続性が低い破裂音や破擦音等の音素の発音開始位置PAは、定常的に発音が継続され得る摩擦音や鼻音等の音素の発音開始位置PAと比較して時間的に後方に位置する。具体的には、破裂音の音素/t/の発音開始位置PAは操作経路Gの端部ELから50%の地点に設定され、摩擦音の音素/s/の発音開始位置PAは操作経路Gの端部ELから20%の地点に設定される。ただし、各音素の発音開始位置PAは以上の例示(50%,20%)に限定されない。
【0030】
発音指示操作により操作位置PがX方向に移動して予測実行位置CEを通過すると、操作予測部26は、操作位置Pが予測開始位置CSを通過(出発)した時点TSと予測実行位置CEを通過した時点TEとの間の時間長τに応じて、操作位置Pが基準位置PBに到達する指示時点TBを算定する。
【0031】
操作予測部26は、操作経路G上の予測実行位置CE(距離δ)を音素Q1の種類に応じて可変に設定する。例えば、予測実行位置CEを音素Q1の種類毎に登録したテーブルが記憶装置12に記憶され、合成情報Sで指定される発音符号SBの音素Q1に対応する予測実行位置CEを、操作予測部26が記憶装置12のテーブルから特定する。音素Q1の種類と予測実行位置CEとの関係は任意であるが、例えば、音響特性が短時間で非定常に変動して時間的な持続性が低い破裂音や破擦音等の音素の予測実行位置CEは、定常的に発音が継続され得る摩擦音や鼻音等の音素の予測実行位置CEと比較して端部EL側に位置する。
【0032】
音声合成部28は、
図5に示すように、操作予測部26が特定した指示時点TBから音声素片VBの音素Q2が開始するように音声信号Zを生成する。具体的には、発音開始位置PAにて開始した音声素片VAの音素Q1に引続いて音声素片VBの音素(前方音素)Q1の発音が指示時点TBの到来前に開始し、かつ、音声素片VBの音素Q1が指示時点TBにて音素(後方音素)Q2に遷移する。すなわち、音声素片VBの音素Q2の始点(音素Q1と音素Q2との境界)は、操作予測部26が特定した指示時点TBに略一致する。
【0033】
音声合成部28は、指示時点TBまで音素Q1が継続するように音声素片VAの音素Q1と音声素片VBの音素Q1とを時間軸上で適宜に伸縮する。例えば、音声素片VAおよび音声素片VBの一方または双方の音素Q1のうち音響特性が定常的に維持される区間(例えば音声素片VBの音素Q1のうち始点側の区間)を時間軸上で反復させることで音素Q1が伸長され、当該区間内の音声を適宜に間引くことで音素Q2が短縮される。以上の説明から理解される通り、音声合成部28は、操作位置Pが基準位置PBに到達すると予測される指示時点TBの到来前に音素Q1の発音が開始されるとともに指示時点TBの到来により音素Q1から音素Q2に遷移する音声の音声信号Zを生成する。
【0034】
合成情報Sが指定する音符毎に発音指示操作に応じた以上の処理が順次に反復される。
図6は、「さかな[s-a][k-a][n-a]」という歌詞が合成情報Sで指定された場合の各音素(音声素片V)の発音の時点を例示する説明図である。具体的には、楽曲内の音符N1の発音符号SB1として音節「さ[s-a]」が指定され、音符N2の発音符号SB2として音節「か[k-a]」が指定され、音符N3の発音符号SB3として音節「な[n-a]」が指定される。
【0035】
図6から理解される通り、音節「さ[s-a]」が指定された音符N1について利用者が発音指示操作OP1を実行すると、音素/s/(Q1)に対応する発音開始位置PA[s]を操作位置Pが通過する時点TA1において、無音/#/と音素/s/とが連続する音声素片/#-s/(音声素片VA)の発音が開始される。そして、音素/s/と音素/a/(Q2)とが連続する音声素片/s-a/(音声素片VB)の音素/s/の発音が音声素片/#-s/の発音の直後に開始され、音素/s/に対応する予測実行位置CE[s]を操作位置Pが通過する時点TEで操作予測部26が特定した指示時点TB1において、音声素片/s-a/の音素/a/の発音が開始される。
【0036】
同様に、音節「か[k-a]」が指定された音符N2の発音指示操作OP2では、音素/k/(Q1)に対応する発音開始位置PA[k]を操作位置Pが通過する時点TA2を契機として音声素片/a-k/(音声素片VA)および音声素片/k-a/(音声素片VB)の発音が順次に開始され、かつ、音素/k/に対応する予測実行位置CE[k]を操作位置Pが通過する時点TEで特定された指示時点TB2において音声素片/k-a/の音素/a/(Q2)が開始される。また、音節「な[n-a]」が指定された音符N3の発音指示操作OP3では、音素/n/(Q1)の発音開始位置PA[n]を操作位置Pが通過する時点TA3を契機として音声素片/a-n/(音声素片VA)および音声素片/n-a/(音声素片VB)の発音が順次に開始され、かつ、音素/n/の予測実行位置CE[n]を操作位置Pが通過する時点TEで特定された指示時点TB3にて音声素片/n-a/の音素/a/(Q2)が開始される。
【0037】
図7は、操作予測部26および音声合成部28が実行する処理(以下「合成処理」という)のフローチャートである。合成情報Sが時系列に指定する音符毎に
図7の合成処理が実行される。合成処理を開始すると、音声合成部28は、処理対象の音符の発音符号SBに対応した音声素片V(VA,VB)を音声素片群Lから選択する(S1)。
【0038】
音声合成部28は、操作特定部22により特定される操作位置Pが予測開始位置CSを出発するまで待機し(S2:NO)、操作位置Pが予測開始位置CSを出発した場合(S2:YES)には操作位置Pが発音開始位置PAに到達するまで待機する(S3:NO)。操作位置Pが発音開始位置PAに到達すると(S3:YES)、音声合成部28は、音声素片VAが開始するように音声信号Zを生成する(S4)。
【0039】
操作予測部26は、発音開始位置PAを通過した操作位置Pが予測実行位置CEに到達するまで待機し(S5:NO)、操作位置Pが予測実行位置CEに到達した場合(S5:YES)に、操作位置Pが基準位置PBに到達する指示時点TBを予測する(S6)。音声合成部28は、指示時点TBの到来前に音声素片VBの音素Q1が開始するとともに指示時点TBから音声素片VBの音素Q2が開始するように音声信号Zを生成する(S7)。
【0040】
以上に説明した通り、第1実施形態では、発音符号SBの各音素の発音時点(時点TA,指示時点TB)が発音指示操作に応じて制御されるから、音声信号Zにおける各音符の発音時点を実時間的に変更できるという利点がある。また、第1実施形態では、音素Q2が音素Q1に後続する発音符号SBの音声の合成が指示された場合に、操作位置Pが基準位置PBに到達する指示時点TBの到来前に音素Q1の発音が開始され、かつ、指示時点TBの到来により音素Q1から音素Q2に遷移するように音声信号Zが生成される。したがって、例えば母音が子音に後続する音節を歌唱する場合に音符の開始前に子音の発音が開始するとともに音符の始点にて母音の発音が開始する、という傾向を再現した聴感的に自然な音声信号Zを生成できるという利点がある。
【0041】
ところで、第1実施形態では、音素Q2の直前に音素Q1が位置する音声素片VB(ダイフォン)が音声信号Zの生成に利用されるから、操作位置Pが実際に基準位置PBに到達した時点(以下「実指示時点」という)で音声素片VBの発音を開始させる構成では、音声素片VBの音素(前方音素)Q1の時間分だけ実指示時点から経過した時点で音素(後方音素)Q2の発音が開始される。すなわち、音素Q2の発音の開始が実指示時点から遅延する。他方、第1実施形態では、操作位置Pが実際に基準位置PBに到来する以前に指示時点TBが予測されるから、指示時点TBの到来前から音声素片VBの音素Q1の発音を開始するとともに音声素片VBの音素Q2の発音を指示時点TBにて開始することが可能である。したがって、利用者が意図した時点(操作位置Pが基準位置PBに到達する時点)に対する音素Q2の遅延を低減できるという利点がある。
【0042】
また、第1実施形態では、音素Q1の種類に応じて操作経路G上の発音開始位置PAが可変に制御される。したがって、音素Q1の種類に応じた適切な時点で音素Q1の発音を開始できるという利点がある。また、第1実施形態では、音素Q1の種類に応じて操作経路G上の予測実行位置CEが可変に制御される。したがって、操作経路Gのうち音素Q1の種類に応じた適切な区間を指示時点TBの予測に反映させることが可能である。
【0043】
<第2実施形態>
本発明の第2実施形態を以下に説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、第1実施形態の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0044】
図8は、第2実施形態における操作画面50Bの模式図である。
図8に示すように、第2実施形態の操作画面50Bには、相異なる音高SA(C,D,E,……)に対応する複数の操作経路Gが配置される。利用者は、操作画面50B内の複数の操作経路Gのうち所望の音高SAに対応する1個の操作経路(以下「対象操作経路」という)Gを選択して第1実施形態と同様に発音指示操作を実行する。操作特定部22は、操作画面50B内の複数の操作経路Gのうち利用者が選択した対象操作経路G上の操作位置Pを特定し、表示制御部24は、対象操作経路Gの操作位置Pに操作図像52を配置する。すなわち、対象操作経路Gは、操作位置Pを移動させる発音指示操作の対象として利用者が選択した操作経路Gである。対象操作経路Gの選択(音高SAの選択)と対象操作経路Gに対する発音指示操作とが楽曲内の音符毎に順次に実行される。
【0045】
第2実施形態の音声合成部28は、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する音高SAの音声信号Zを生成する。すなわち、音声信号Zが示す各音符の音高が、複数の操作経路Gのうち当該音符の発音指示操作の対象として利用者が選択した対象操作経路Gの音高SAに設定される。各音符の発音符号SBや発音時点に関連する処理は第1実施形態と同様である。以上の説明から理解される通り、第1実施形態では楽曲の各音符の音高SAが合成情報Sで事前に指定されるのに対し、第2実施形態では、利用者による対象操作経路Gの選択で楽曲の各音符の音高SAが実時間的に(すなわち、音声信号Zの生成に並行して音符毎に逐次的に)指定される。したがって、第2実施形態の合成情報Sでは音符毎の音高SAの指定が省略され得る。
【0046】
第2実施形態においても第1実施形態と同様の効果が実現される。また、第2実施形態では、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する音高SAの音声信号Zが生成される。したがって、楽曲の各音符の発音時点に加えて各音符の音高SAも利用者が実時間的に容易に指定できるという利点がある。
【0047】
<第3実施形態>
図9は、第3実施形態における操作画面50Cの模式図である。
図9に示すように、第3実施形態の操作画面50Cには、相異なる発音符号SB(音節)に対応する複数の操作経路Gが配置される。利用者は、操作画面50C内の複数の操作経路Gのうち所望の発音符号SBに対応する1個の操作経路Gを対象操作経路Gとして選択して第1実施形態と同様に発音指示操作を実行する。操作特定部22は、操作画面50C内の複数の操作経路Gのうち利用者が選択した対象操作経路G上の操作位置Pを特定し、表示制御部24は、対象操作経路Gの操作位置Pに操作図像52を配置する。対象操作経路Gの選択(発音符号SBの選択)と対象操作経路Gに対する発音指示操作とが楽曲内の音符毎に順次に実行される。
【0048】
第3実施形態の音声合成部28は、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する発音符号SBの音声信号Zを生成する。すなわち、音声信号Zが示す各音符の発音符号が、複数の操作経路Gのうち当該音符の発音指示操作の対象として利用者が選択した対象操作経路Gの発音符号SBに設定される。各音符の音高SAや発音時点に関連する処理は第1実施形態と同様である。以上の説明から理解される通り、第1実施形態では楽曲の各音符の発音符号SBが合成情報Sで事前に指定されるのに対し、第3実施形態では、利用者による対象操作経路Gの選択で楽曲の各音符の発音符号SBが実時間的に(すなわち、音声信号Zの生成に並行して音符毎に逐次的に)指定される。したがって、第3実施形態の合成情報Sでは音符毎の発音符号SBの指定が省略され得る。
【0049】
第3実施形態においても第1実施形態と同様の効果が実現される。また、第3実施形態では、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する発音符号SBの音声信号Zが生成される。したがって、楽曲の各音符の発音時点に加えて各音符の発音符号SBも利用者が実時間的に容易に指定できるという利点がある。
【0050】
<第4実施形態>
第1実施形態では、操作経路Gの端部ELから端部ERに向かう方向(以下「XR方向」という)に操作位置Pを移動させる発音指示操作に応じて各音符の発音時点を制御したが、端部ERから端部ELに向かう方向(以下「XL方向」という)に操作位置Pを移動させる発音指示操作に応じて各音符の発音時点を制御することも可能である。第4実施形態では、XR方向の発音指示操作とXL方向の発音指示操作との各々に応じて各音符の発音時点を制御する。具体的には、利用者は、発音指示操作で操作位置Pを移動させる方向を音符毎に反転させる。例えば楽曲内の奇数番目の各音符についてはXR方向の発音指示操作が実行され、偶数番目の各音符についてはXL方向の発音指示操作が実行される。すなわち、操作位置P(操作図像52)は端部ELと端部ERとの間で往復する。
【0051】
図10に示すように、楽曲内で相前後する音符N1および音符N2に着目する。音符N2は音符N1の直後に位置する。音素Q1に音素Q2が後続する発音符号SB1が音符N1に指定され、音素Q3に音素Q4が後続する発音符号SB2が音符N2に指定された場合を想定する。例えば、「さか[s-a][k-a]」という歌詞を想定すると、発音符号SB1に相当する音節「さ[s-a]」は音素/s/(Q1)と音素/a/(Q2)とで構成され、発音符号SB2に相当する音節「か[k-a]」は音素/k/(Q3)と音素/a/(Q4)とで構成される。利用者は、音符N1について、端部ELから端部ERに向かうXR方向に操作位置Pを移動させる発音指示操作(XR方向の発音指示操作)を実行し、直後の音符N2について、端部ERから端部ELに向かうXL方向に操作位置Pを移動させる発音指示操作(XL方向の発音指示操作)を実行する。
【0052】
利用者が音符N1についてXR方向の発音指示操作を開始すると、操作予測部26は、XR方向の下流側に位置する端部ERを基準位置PB1(第1基準位置)として、操作位置Pが基準位置PB1に到達する時点を指示時点TB1として特定する。音声合成部28は、指示時点TB1の到来前に音符N1の発音符号SB1の音素Q1が発音されるとともに指示時点TB1にて音素Q1から音素Q2に遷移する音声の音声信号Zを生成する。
【0053】
他方、利用者が操作位置Pの移動方向を反転させて音符N2についてXL方向の発音指示操作を開始すると、操作予測部26は、XL方向の下流側に位置する端部ELを基準位置PB2(第2基準位置)として、操作位置Pが基準位置PB2に到達する時点を指示時点TB2として特定する。音声合成部28は、指示時点TB2の到来前に音符N2の発音符号SB2の音素Q3が発音されるとともに指示時点TB2にて音素Q3から音素Q4に遷移する音声の音声信号Zを生成する。
【0054】
楽曲内で相前後する2個の音符(N1,N2)の対毎に以上の処理が実行されることで、楽曲内の各音符の発音時点がXR方向およびXL方向の一方の発音指示操作(操作位置Pの往復操作)に応じて制御される。
【0055】
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、操作位置Pの往復で楽曲内の各音符の発音時点が指示されるから、楽曲内の音符毎に操作位置Pを一方向に移動させる構成と比較して利用者による発音指示操作(手指を音符毎に移動させる動作)の負担が軽減されるという利点がある。
【0056】
<第5実施形態>
前述の第2実施形態では、複数の操作経路Gのうち利用者が選択した対象操作経路Gに対応する音高SAの音声信号Zを生成した。第5実施形態では、1個の操作経路Gが表示装置14に表示され、操作経路Gに交差する方向における操作位置Pに応じて音声信号Zの音高SAが制御される。
【0057】
第5実施形態の表示制御部24は、
図11の操作画面50Dを表示装置14に表示させる。操作画面50Dは、相互に交差(典型的には直交)するX軸とY軸とが設定された操作領域54に1個の操作経路Gを配置した画像である。操作経路GはX軸に平行に配置される。したがって、Y軸の方向は、基準位置PBに向かう操作経路Gに交差する方向に相当する。利用者は、操作領域54内の任意の位置を操作位置Pとして指示することが可能である。操作特定部22は、操作位置Pに対応するX軸上の位置PXとY軸上の位置PYとを特定し、表示制御部24は、操作領域54内の操作位置P(PX,PY)に操作図像52を配置する。
【0058】
操作予測部26は、操作位置Pに対応するX軸上の位置PXに応じて、第1実施形態と同様の方法で指示時点TBを特定する。また、第5実施形態の音声合成部28は、操作位置Pに対応するY軸上の位置PYに応じた音高SAの音声信号Zを生成する。以上の説明から理解される通り、操作領域54のX軸は時間軸に相当し、Y軸は音高軸に相当する。
【0059】
具体的には、
図11に例示される通り、操作領域54は、相異なる音高に対応する複数の領域56に区分される。各領域56は、Y軸の方向に並列されてX軸に沿う帯状の領域である。音声合成部28は、操作領域54の複数の領域56のうち操作位置Pを包含する領域56に対応した音高(すなわち位置PYに応じた音高)SAの音声信号Zを生成する。具体的には、例えば、操作経路G上の所定の地点(例えば基準位置PBや発音開始位置PA等)に位置PXが到達した時点で操作位置Pが包含される領域56に対応した音高SAの音声信号Zが生成される。すなわち、操作位置P(位置PX)が所定の地点に到達した時点で音高SAが確定する。以上に例示される通り、第5実施形態では、操作位置Pに応じて音高SAが制御されるから、第2実施形態と同様に、合成情報Sにおける音符毎の音高SAの指定は省略され得る。
【0060】
以上の説明から理解される通り、利用者は、操作装置16に対する操作により操作位置Pを操作領域54内の任意の地点に移動させることで、操作位置PのX軸上の位置PXに応じて第1実施形態と同様に各音符(音素)の発音時点を実時間的に指示できるほか、操作位置PのY軸上の位置PYに応じて楽曲の各音符の音高SAを実時間的に指示することが可能である。すなわち、第5実施形態においても第2実施形態と同様の効果が実現される。
【0061】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0062】
(1)前述の各形態では、音素Q1の種類毎に発音開始位置PAおよび予測実行位置CEを設定したが、発音符号SBを構成する音素Q1と音素Q2との組合せ毎に発音開始位置PAや予測実行位置CEを相違させることも可能である。
【0063】
(2)操作画面50(50A,50B,50C,50D)に対する操作に応じて音声信号Zの音響特性を制御することも可能である。例えば、発音指示操作の実行中または実行後に、X方向に交差するY方向(縦方向)に利用者が操作位置Pを往復させた場合に、音声合成部28が音声信号Zにビブラートを付加する構成が採用される。具体的には、操作位置PのY方向の往復の振幅に応じた深度(音高の変動範囲)で操作位置Pの往復の周期に応じた速度(音高の変動周期)のビブラートが音声信号Zに付加される。また、例えば発音指示操作の実行中または実行後に利用者が操作位置PをY方向に移動させた場合に、Y方向の移動量に応じた程度の音響効果(例えば残響効果)を音声合成部28が音声信号Zに付加することも可能である。
【0064】
(3)前述の各形態では、操作装置16としてタッチパネルを想定し、表示装置14が表示する操作画面50に対して利用者が発音指示操作を実行する場合を例示したが、利用者が現実に操作する操作子を具備する操作装置16を採用することも可能である。例えば、操作子(ツマミ)を直線的に移動させるスライダ型の操作装置16を想定すると、操作子の位置が前述の各形態の操作位置Pに相当する。また、例えばマウス等のポインティングデバイスを操作装置16として利用して利用者が操作位置Pを指示することも可能である。
【0065】
(4)前述の各形態では、実際に操作位置Pが基準位置PBに到達する以前に指示時点TBを予測したが、実際に操作位置Pが基準位置PBに到達した時点(実指示時点)を指示時点TBとして音声信号Zを生成することも可能である。ただし、音素Q1が音素Q2に先行する音素連鎖(ダイフォン)の音声素片VBを利用する構成のもとで実際に操作位置Pが基準位置PBに到達した時点から音声素片VBの発音を開始した場合、前述の通り、利用者が意図した時点(実指示時点)から遅延した時点で音素Q2の発音が開始される可能性がある。したがって、利用者が意図した時点で正確に各音符を発音させるという観点からは、前述の各形態の通り、操作位置Pが実際に基準位置PBに到達する以前に指示時点TBを予測する構成が好適である。
【0066】
(5)前述の各形態では、音素Q1の種類に応じて発音開始位置PAおよび予測実行位置CEを可変に制御したが、発音開始位置PAや予測実行位置CEを所定の位置に固定することも可能である。また、前述の各形態では、端部ELを予測開始位置CSとして端部ERを基準位置PBとした場合を例示したが、予測開始位置CSや基準位置PBを操作経路Gの端部(EL,ER)以外の地点とすることも可能である。例えば、端部ELから端部ER側に所定Iの距離だけ離間した位置を予測開始位置CSとした構成や、端部ERから端部EL側に所定の距離だけ離間した位置を基準位置PBとした構成も採用される。
【0067】
(6)前述の各形態では、操作経路Gを直線としたが、操作経路Gを曲線とすることも可能である。例えば、操作経路Gを円形として円周上に各位置(PA,PB,CS,CE)を設定することも可能である。利用者は、所望の時点にて操作経路G上の基準位置PBに操作位置Gが到達するように、操作経路Gに沿って表示面上に円形を描く動作(発音指示操作)を音符毎に実行する。
【0068】
(7)前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意であり、日本語には限定されない。例えば、英語,スペイン語,中国語,韓国語等の任意の言語の音声を生成する場合にも以上の各形態を同様に適用することが可能である。1個の発音符号SBが2個の子音の音素で構成され得る言語では、音素Q1および音素Q2の双方が子音の音素である可能性もある。また、言語体系によっては(例えば英語)、第1音素Q1および第2音素Q2の一方または双方が複数の音素(音素群)で構成される場合も想定される。例えば、単語“September”の最初の音節“sep”に着目すると、音素(音素群)“se”を第1音素Q1、音素“p”を第2音素Q2として両者間の遷移を制御する構成や、音素“s”を第1音素Q1、音素(音素群)“ep”を第2音素Q2として両者間の遷移を制御する構成が採用される。1個の音節内における第1音素Q1と第2音素Q2との境界(例えば前掲の音節“sep”を音素“se”と音素“p”とに区分するか音素“s”と音素“ep”とに区分するか)は、例えば事前に設定された規則や利用者からの指示に応じて決定される。