特許第6620462号(P6620462)IP Force 特許公報掲載プロジェクト 2015.5.11 β版

▶ ヤマハ株式会社の特許一覧
特許6620462合成音声編集装置、合成音声編集方法およびプログラム
<>
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000004
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000005
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000006
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000007
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000008
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000009
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000010
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000011
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000012
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000013
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000014
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000015
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000016
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000017
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000018
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000019
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000020
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000021
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000022
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000023
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000024
  • 特許6620462-合成音声編集装置、合成音声編集方法およびプログラム 図000025
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6620462
(24)【登録日】2019年11月29日
(45)【発行日】2019年12月18日
(54)【発明の名称】合成音声編集装置、合成音声編集方法およびプログラム
(51)【国際特許分類】
   G06F 3/0482 20130101AFI20191209BHJP
   G10L 13/02 20130101ALI20191209BHJP
   G10L 13/00 20060101ALI20191209BHJP
【FI】
   G06F3/0482
   G10L13/02 110Z
   G10L13/00 100Y
【請求項の数】8
【全頁数】21
(21)【出願番号】特願2015-164279(P2015-164279)
(22)【出願日】2015年8月21日
(65)【公開番号】特開2017-41213(P2017-41213A)
(43)【公開日】2017年2月23日
【審査請求日】2018年6月25日
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100128598
【弁理士】
【氏名又は名称】高田 聖一
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】才野 慶二郎
【審査官】 菅原 浩二
(56)【参考文献】
【文献】 特開平10−333799(JP,A)
【文献】 特開2004−264676(JP,A)
【文献】 特開2013−137520(JP,A)
【文献】 特開2009−258292(JP,A)
【文献】 特開2012−037978(JP,A)
【文献】 特開2000−242385(JP,A)
【文献】 特開2004−287192(JP,A)
【文献】 特開2002−202788(JP,A)
【文献】 特開2010−019643(JP,A)
【文献】 特開2011−164162(JP,A)
【文献】 特開2004−240451(JP,A)
【文献】 特表2002−500788(JP,A)
【文献】 特表2011−526033(JP,A)
【文献】 特開2014−178620(JP,A)
【文献】 特開2008−139426(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 3/048−3/0489
G10L 13/00
G10L 13/02
(57)【特許請求の範囲】
【請求項1】
利用者からの操作を受付ける指示受付手段と、
合成音声の音符を表象する音符図像と、前記指示受付手段が受付ける操作に応じて移動する指示子と、前記音符図像に対応する第1操作図像とを表示装置に表示させる表示制御手段と、
階層構造で規定される複数の歌唱表現の何れかを、階層毎に選択肢を前記利用者に順次に選択させることで、前記音符図像が表象する音符の合成音声に付加される歌唱表現として選択させる選択処理手段とを具備し、
前記選択処理手段は、
前記第1操作図像に対応する位置に前記指示子が移動した場合に、前記階層構造の最上位の階層の複数の選択肢を前記表示装置に表示させ、かつ、前記階層構造における一の階層の複数の選択肢うち一の選択肢に対応する位置に前記指示子が移動した場合に、前記階層構造において前記一の選択肢の下位に位置する複数の選択肢を前記表示装置に表示させ
前記複数の歌唱表現の何れかを前記利用者が選択した場合に、前記第1操作図像を、当該歌唱表現が付加される区間の時間長を前記利用者が変更するための第2操作図像に変更する
合成音声編集装置。
【請求項2】
前記表示制御手段は、時間軸が設定された楽譜領域内に、前記時間軸上で前記音符の発音期間にわたる前記音符図像を配置し、
前記選択処理手段は、前記時間軸の方向における前記発音期間の範囲内に前記指示子が移動した場合に前記表示装置に前記第1操作図像を表示させ
請求項1の合成音声編集装置。
【請求項3】
前記選択処理手段は、前記音符のうち前方区間における歌唱表現を選択するための階層毎の選択肢を前記音符図像の始点側に表示させ、前記音符の後方区間における歌唱表現を選択するための階層毎の選択肢を前記音符図像の終点側に表示させる
請求項1または請求項2の合成音声編集装置。
【請求項4】
前記利用者が選択した歌唱表現を前記音符の合成音声に付加する処理に関する制御情報を、前記指示受付手段が前記利用者から受付けた指示に応じて可変に設定する情報管理手段を具備し
前記制御情報は、当該歌唱表現の音声成分を時間軸の方向に伸縮する場合において当該音声成分の始点側および終点側の何れを伸長させるかを示す速度変数を含む
を具備する請求項1から請求項3の何れかの合成音声編集装置。
【請求項5】
前記制御情報は、
前記音符の発音期間のうち前記歌唱表現が付加される期間の時間比率と、
前記付加比率の最大値と、
前記歌唱表現の始点での数値から前記最大値までの前記付加比率の時間変化と、
前記最大値から前記歌唱表現の終点での数値までの前記付加比率の時間変化とを含む
請求項4の合成音声編集装置。
【請求項6】
前記情報管理手段は、前記歌唱表現に関する複数の特徴量の各々について、前記指示受付手段が前記利用者から受付けた指示に応じて制御情報を可変に設定する
請求項4または請求項5の合成音声編集装置。
【請求項7】
利用者からの操作を受付け、
合成音声の音符を表象する音符図像と、前記受付けた操作に応じて移動する指示子と、前記音符図像に対応する第1操作図像とを表示装置に表示させ、
階層構造で規定される複数の歌唱表現の何れかを、階層毎に選択肢を前記利用者に順次に選択させることで、前記音符図像が表象する音符の合成音声に付加される歌唱表現として選択させ、
前記複数の歌唱表現の何れかの選択においては、
前記第1操作図像に対応する位置に前記指示子が移動した場合に、前記階層構造の最上位の階層の複数の選択肢を前記表示装置に表示させ、かつ、前記階層構造における一の階層の複数の選択肢のうち一の選択肢に対応する位置に前記指示子が移動した場合に、前記階層構造において前記一の選択肢の下位に位置する複数の選択肢を前記表示装置に表示させ、
前記複数の歌唱表現の何れかを前記利用者が選択した場合に、前記第1操作図像を、当該歌唱表現が付加される区間の時間長を前記利用者が変更するための第2操作図像に変更する
コンピュータにより実現される合成音声編集方法。
【請求項8】
利用者からの操作を受付ける指示受付手段、
合成音声の音符を表象する音符図像と、前記指示受付手段が受付ける操作に応じて移動する指示子と、前記音符図像に対応する第1操作図像とを表示装置に表示させる表示制御手段、および、
階層構造で規定される複数の歌唱表現の何れかを、階層毎に選択肢を前記利用者に順次に選択させることで、前記音符図像が表象する音符の合成音声に付加される歌唱表現として選択させる選択処理手段
としてコンピュータを機能させるプログラムであって、
前記選択処理手段は、
前記第1操作図像に対応する位置に前記指示子が移動した場合に、前記階層構造の最上位の階層の複数の選択肢を前記表示装置に表示させ、かつ、前記階層構造における一の階層の複数の選択肢のうち一の選択肢に対応する位置に前記指示子が移動した場合に、前記階層構造において前記一の選択肢の下位に位置する複数の選択肢を前記表示装置に表示させ、
前記複数の歌唱表現の何れかを前記利用者が選択した場合に、前記第1操作図像を、当該歌唱表現が付加される区間の時間長を前記利用者が変更するための第2操作図像に変更する
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成の内容を利用者に編集させる技術に関する。
【背景技術】
【0002】
多様な歌唱表現が付加された音声を合成する各種の技術が従来から提案されている。例えば非特許文献1には、多数の歌唱表現が配列されたリストを表示して利用者に所望の歌唱表現を選択させる構成が開示されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】クリプトン・フューチャー・メディア社「Piapro Studio」V4Xの新機能紹介、[平成27年5月20日検索]、インターネット<URL: http://www.crypton.co.jp/mp/pages/prod/vocaloid/v4x.jsp>
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかし、非特許文献1の技術では、利用者が選択可能な全種類の歌唱表現がリストに並列に表示されるから、利用者が所望の1個の歌唱表現を選択することは実際には困難である。以上の事情を考慮して、本発明は、歌唱表現を選択する利用者の負担を軽減することを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために、本発明の合成音声編集装置は、利用者からの操作を受付ける指示受付手段と、合成音声の音符を表象する音符図像と、指示受付手段が受付ける操作に応じて移動する指示子とを表示装置に表示させる表示制御手段と、階層構造で規定される複数の歌唱表現の何れかを、階層毎に選択肢を利用者に順次に選択させることで、音符図像が表象する音符の合成音声に付加される歌唱表現として選択させる手段であって、階層構造における一の階層の複数の選択肢を表示装置に表示させ、当該複数の選択肢のうち一の選択肢に対応する位置に指示子が移動した場合に、階層構造において一の選択肢の下位に位置する複数の選択肢を表示装置に表示させる選択処理手段とを具備する。以上の構成では、階層毎に順次に選択肢を選択させることで複数の歌唱表現の何れかを利用者に選択させるから、利用者が選択可能な全種類の歌唱表現を一括的に表示して所望の歌唱表現を利用者に選択させる構成と比較して、利用者が所望の歌唱表現を容易に選択できるという利点がある。他方、歌唱表現が階層構造で規定される構成では、階層毎に選択肢を順次に利用者に選択させる必要がある。しかし、以上の構成では、複数の歌唱表現を規定する階層構造の一の階層における一の選択肢に対応する位置に指示子が移動した場合に、当該一の選択肢の下位に位置する複数の選択肢が表示装置に表示されるから、指示子の移動以外の操作(例えばマウスのクリック)を必要とせずに利用者が階層の一の選択肢を選択できる。したがって、指示子の移動とは別個の特定の操作により利用者が所望の選択肢を選択する構成と比較して、複数の歌唱表現の何れかを選択する利用者の負担を軽減することが可能である。なお、「選択肢に対応する位置」とは、典型的には選択肢に重なる位置であるが、選択肢の近傍の位置でもよい。
【0006】
本発明の好適な態様に係る合成音声編集装置は、表示制御手段は、時間軸が設定された楽譜領域内に、時間軸上で音符の発音期間にわたる音符図像を配置し、選択処理手段は、時間軸の方向における発音期間の範囲内に指示子が移動した場合に表示装置に操作図像を表示させ、操作図像に対応する位置に指示子が移動した場合に、階層構造の最上位の階層の複数の選択肢を表示装置に表示させる。以上の構成では、音符図像で時間軸上に表象される発音期間の範囲内に指示子が移動した場合に操作図像が表示され、操作図像に対応する位置に指示子が移動した場合に階層構造の最上位の階層の複数の選択肢が表示される。したがって、操作図像が常に表示される構成と比較して表示画像が簡素化される。また、操作図像に対応する位置に指示子が移動した場合に最上位の階層の複数の選択肢が表示される(すなわち階層毎の選択肢の選択が開始される)から、指示子の移動以外の操作が操作図像に対して付加された場合(例えば操作図像のクリック)に最上位の階層の選択肢を表示する構成と比較して、利用者による操作の負担を軽減することが可能である。
【0007】
本発明の好適な態様において、選択処理手段は、音符のうち特定の区間における歌唱表現を選択するための階層毎の選択肢を、音符図像の近傍で当該区間に対応した位置に表示させる。以上の構成では、音符の特定の区間における歌唱表現の選択肢が、音符図像の近傍で当該区間に対応した位置に表示されるから、歌唱表現が付加される区間と当該区間に付加される歌唱表現との関係を利用者が視覚的および直観的に把握できるという利点がある。具体的な態様において、選択処理手段は、音符のうち前方区間における歌唱表現を選択するための階層毎の選択肢を音符図像の始点側に表示させ、音符の後方区間における歌唱表現を選択するための階層毎の選択肢を音符図像の終点側に表示させる。以上の構成では、音符の前方区間(アタック部)の歌唱表現の選択肢が音符図像の始点側に表示され、後方区間(リリース部)の歌唱表現の選択肢が終点側に表示される。したがって、歌唱表現を付加する部分(始点または終点)と当該部分に付加される歌唱表現との関係を、利用者が視覚的および直観的に把握できるという利点がある。
【0008】
本発明の好適な態様の合成音声編集装置は、利用者が選択した歌唱表現を音符の合成音声に付加する処理に関する制御情報を、指示受付手段が利用者から受付けた指示に応じて可変に設定する情報管理手段を具備する。以上の構成では、歌唱表現の付加に関する制御情報が利用者からの指示に応じて可変に設定されるから、利用者の嗜好や意図を反映した多様な合成音声を生成できるという利点がある。制御情報は、例えば、音符の発音期間のうち歌唱表現が付加される期間の時間比率、当該歌唱表現の音声成分を時間軸の方向に伸縮する場合の当該伸縮の度合と当該音声成分の始点側および終点側の何れを伸長させるかを示す速度変数、付加比率の最大値、歌唱表現の始点での数値から最大値までの付加比率の時間変化、および、最大値から歌唱表現の終点での数値までの付加比率の時間変化の少なくともひとつを包含する。
【0009】
本発明の好適な態様において、情報管理手段は、歌唱表現に関する複数の特徴量の各々について、指示受付手段が利用者から受付けた指示に応じて制御情報を可変に設定する。以上の態様では、歌唱表現に関する複数の特徴量の各々について、利用者から受付けた指示に応じて制御情報が設定されるから、利用者の意図や嗜好を反映した多様な合成音声を生成することが可能になる。
【図面の簡単な説明】
【0010】
図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
図2】合成情報の模式図である。
図3】編集画面の説明図である。
図4】歌唱表現の階層構造の説明図である。
図5】歌唱表現を選択する操作の説明図である。
図6】歌唱表現を選択する操作の説明図である。
図7】歌唱表現を選択する操作の説明図である。
図8】歌唱表現を選択する操作の説明図である。
図9】歌唱表現を選択する操作の説明図である。
図10】歌唱表現を選択する操作の説明図である。
図11】歌唱表現を選択する操作の説明図である。
図12】表現付加時間を設定する操作の説明図である。
図13】歌唱表現が選択された場合の編集画面の一例の説明図である。
図14】時間占有率の設定の説明図である。
図15】表現付加時間を設定する操作の説明図である。
図16】音声合成部の動作の説明図である。
図17】第2実施形態における制御情報設定画面の表示例である。
図18】制御情報設定画面の説明図である。
図19】速度変数と音声素片の伸縮との関係の説明図である。
図20】遷移係数と付加比率の時間変化との関係の説明図である。
図21】遷移係数を変更する操作の説明図である。
図22】第3実施形態における制御情報設定画面の説明図である。
【発明を実施するための形態】
【0011】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。第1実施形態の音声合成装置100は、任意の楽曲を歌唱した歌唱音声を表す音声信号Vを、複数の音声素片を連結する素片接続型の音声合成で生成する信号処理装置である。図1に例示される通り、音声合成装置100は、演算処理装置10と記憶装置12と表示装置14と入力装置16と放音装置18とを具備するコンピュータシステム(例えば携帯電話機やパーソナルコンピュータ等の情報処理装置)で実現される。
【0012】
表示装置14(例えば液晶表示パネル)は、演算処理装置10から指示された画像を表示する。入力装置16は、音声合成装置100に対する各種の指示のために利用者が操作する操作機器である。第1実施形態ではマウス等のポインティングデバイスを入力装置16として想定する。放音装置18(例えばスピーカやヘッドホン)は、音声信号Vに応じた音響を再生する。
【0013】
記憶装置12は、演算処理装置10が実行するプログラムPGMや演算処理装置10が使用する各種のデータを記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置12として任意に採用される。第1実施形態の記憶装置12は、以下に例示する通り、音声素片群Lと合成情報Sとを記憶する。
【0014】
音声素片群Lは、特定の発声者の収録音声から事前に採取された複数の音声素片の集合(音声合成用ライブラリ)である。各音声素片は、音声の言語的な最小単位に相当する1個の音素、または、複数の音素を相互に連結した音素連鎖(ダイフォンやトライフォン)であり、時間領域の音声波形または周波数領域のスペクトルとして表現される。第1実施形態の音声素片群Lは、音声素片群L1と音声素片群L2とを包含する。音声素片群L1は、発声者が通常の方法で発声した音声から採取された複数の音声素片Pを包含する。音声素片群L2は、音声素片Pと発声者は共通するが声質が音声素片Pとは相違する複数の複数の音声素片Qを包含する。各音声素片Qは、発声者が特定の音高を特定の歌唱表現で発声した音声から採取される。具体的には、声帯や口腔の挙動を通常の発声時とは相違させた特有の歌唱表現により独特(non-modal)な声質で発声された音声から各音声素片Qが生成される。例えば濁声や嗄れ声や唸り声等の特徴的な歌唱表現が付加された複数の音声素片Qが音声素片群L2には包含される。なお、音声素片群L1の各音声素片Pとは別個の発声者の音声の音声素片Qを利用することも可能である。
【0015】
合成情報Sは、図2に例示される通り、任意の1個の楽曲(以下「合成楽曲」という)の歌唱音声を指定する時系列データであり、合成楽曲を構成する音符毎に単位データUを包含する。任意の1個の音符の単位データUは、当該音符の音高X1と発音期間X2と音声符号X3とを指定する。音高X1は例えばMIDI(Musical Instrument Digital Interface)のノートナンバである。発音期間X2は、音符の時間長(音価)であり、例えば発音の開始時刻と継続長(または終了時刻)とで規定される。以上の説明から理解される通り、合成情報Sは、合成楽曲の楽譜を指定する時系列データとも換言され得る。音声符号X3は、合成対象の音声の発音内容(すなわち合成楽曲の歌詞)を指定する。具体的には、音声符号X3は、合成楽曲の1個の音符について発音される音声単位(例えば音節やモーラ)を指定する
【0016】
利用者は、合成楽曲の音符毎に所望の歌唱表現を付加することが可能である。合成情報Sにおいて歌唱表現が付加された音符の単位データUには、当該歌唱表現を規定する表現情報X4が付加される。表現情報X4は、歌唱表現の種類を表す識別情報Eと、当該歌唱表現を合成音声に付加する処理に関する変数を含む制御情報Zとを包含する。第1実施形態では、利用者は、任意の1個の音符のうち始点側の前方区間(アタック部)と、当該音符のうち終点側の後方区間(リリース部)との各々について歌唱表現を指定することが可能である。すなわち、任意の1個の音符の前方区間と後方区間との各々について歌唱表現の識別情報Eと制御情報Zとが設定される。音符内で歌唱表現を付加する区間毎に表現情報X4が設定されると表現することも可能である。
【0017】
図1の演算処理装置10(CPU)は、記憶装置12に格納されたプログラムPGMを実行することで、合成情報Sの編集や音声信号Vの生成のための複数の機能(指示受付部22,表示制御部24,選択処理部25,情報管理部26,音声合成部28)を実現する。なお、演算処理装置10の各機能を複数の装置に分散した構成や、専用の電子回路(例えばDSP)が演算処理装置10の一部の機能を実現する構成も採用され得る。
【0018】
指示受付部(指示受付手段)22は、入力装置16に対する操作に応じた利用者からの指示を受付ける。表示制御部(表示制御手段)24は、各種の画像を表示装置14に表示させる。具体的には、第1実施形態の表示制御部24は、合成情報Sが指定する合成楽曲の内容を利用者が確認するための図3の編集画面40を表示装置14に表示させる。編集画面40は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面(楽譜領域)である。また、表示制御部24は、指示受付部22が受付ける操作に応じて移動する指示子44を編集画面40に表示させる。指示子44は入力装置16に対する操作に応じて移動することで編集画面40の任意の位置を指定する図像(ポインタ)である。
【0019】
表示制御部24は、合成情報Sが指定する音符毎に音符図像42を編集画面40に配置する。音符図像42は、合成楽曲の各音符を表象する図像である。具体的には、音高軸の方向における音符図像42の位置は、合成情報Sが指定する音高X1に応じて設定され、時間軸の方向における音符図像42の位置および表示長は、合成情報Sが指定する発音期間X2に応じて設定される。また、各音符の音符図像42には当該音符の音声符号X3(発音文字および音素記号)が付加される。
【0020】
利用者は、図3の編集画面40を確認しながら入力装置16を適宜に操作することで、音符図像42の追加または移動や音声符号X3の追加または変更を指示することが可能である。表示制御部24は、指示受付部22が利用者から受付けた指示に応じて編集画面40(音符図像42や音声符号X3)を更新する。
【0021】
図1の情報管理部26は、編集画面40に対する利用者からの指示に応じて合成情報Sを編集する。例えば、情報管理部26は、音高軸の方向における音符図像42の移動の指示に応じて、合成情報Sのうち当該音符図像42に対応する音符の音高X1を変更するとともに、時間軸の方向における音符図像42の位置または表示長の変更の指示に応じて、合成情報Sのうち当該音符図像42に対応する音符の発音期間X2を変更する。また、任意の音符の音声符号X3が変更された場合、情報管理部26は、合成情報Sのうち当該音符に対応する音声符号X3を変更する。
【0022】
図1の選択処理部(選択処理手段)25は、音符図像42が表象する音符の合成音声に付加される歌唱表現を複数の候補から利用者に選択させる。利用者が選択可能な複数の歌唱表現は、複数の階層で構成される階層構造で規定される。
【0023】
図4は、歌唱表現の階層構造の説明図である。音符の前方区間(attack)に付加される歌唱表現の階層構造と、後方区間(release)に付加される歌唱表現の階層構造とが図4に例示されている。図4に例示される通り、階層構造を構成する複数の階層の各々に複数の選択肢C(C1〜C3)が包含され、第2階層以降の各階層の任意の1個の選択肢Cは、当該階層の上位の階層の1個の選択肢Cに対応する。
【0024】
例えば、前方区間に付加される歌唱表現の第1階層(最上位層)には、「fry(ボーカルフライ)」「growl(唸り声)」「rough(嗄れ声)」の3個の選択肢C1が包含される。第1階層の各選択肢C1は、歌唱表現の分類を意味する。第2階層には、第1階層の「fry」に対応する「slow」「creaky」の2個の選択肢C2と、第1階層の「growl」に対応する「hard」「sharp」「slow」の3個の選択肢C2と、第1階層の「rough」に対応する「slow」「sharp」の2個の選択肢C2とが包含される。第2階層の各選択肢C2は、選択肢C1の歌唱表現の特徴を表現する。例えば「slow」は、発音の立上がりが比較的に緩慢であることを意味し、「sharp」は、発音の立上がりが比較的に急峻であることを意味する。また、「hard」は、第1階層の選択肢C1に対応する歌唱表現(growl)の度合が顕著であることを意味する。また、第1階層の「rough」に対応する第2階層の「sharp」には、第3階層において相異なる声質の「type1」「type2」の2個の選択肢C3が対応付けられる。第1階層から最末端までの複数の階層にわたる選択肢Cの組合せで1種類の歌唱表現が規定される。具体的には、図4では、「fry-slow」「fry-creaky」「growl-hard」「growl-sharp」「growl-slow」「rough-slow」「rough-sharp-type1」「rough-sharp-type2」の8種類の歌唱表現が例示されている。以上の例示から理解される通り、第2階層以降の各階層の選択肢Cは複数の歌唱表現(例えばfry-slow,growl-slow,rough-slow)で共通し得る。
【0025】
以上の説明では音符の前方区間の歌唱表現を例示したが、音符の後方区間の歌唱表現についても同様の階層構造で規定される。具体的には、第1階層には、吐息のように発声を緩慢に減衰させる「soft」の1個の選択肢C1が包含され、当該選択肢C1に対応する「long(長時間をかけて)」「short(短時間で)」の2個の選択肢C2が第2階層に包含される。すなわち、図4では、「soft-long」[soft-short]の2種類の歌唱表現が例示されている。以上の説明から理解される通り、図4では、音符の前方区間の8種類の歌唱表現と、音符の後方区間の2種類の歌唱表現とを含む10種類の歌唱表現が例示されている。
【0026】
任意の1種類の歌唱表現で発音された音声素片Qが複数の母音(a,i,u,e,o)の各々について音声素片群L2に包含される。具体的には、任意の1種類の母音を特定の歌唱表現で定常的に発音した音声から、当該歌唱表現に対応する当該母音の音声素片Qが採取される。なお、歌唱表現の種類は図4の例示に限定されない。例えば、前方区間の歌唱表現としては、音符の音高より低い音高から目的の音高に到達させる技法(いわゆる「しゃくり」)を前方区間の歌唱表現として例示され、後方区間の歌唱表現としては、不規則な声帯の振動をともなう「fry」が例示され得る。
【0027】
第1実施形態の選択処理部25は、以上に説明した階層構造の複数の階層の各々について当該階層の複数の選択肢Cの何れかを利用者に順次に選択させることで、複数の階層にわたる選択肢Cの組合せに対応する歌唱表現を、合成音声に付加される歌唱表現として利用者に選択させる。図5から図15を参照して、音声符号X3「た」が付加された1個の音符について利用者が所望の1種類の歌唱表現を選択する具体的な手順を説明する。
【0028】
利用者は、入力装置16を適宜に操作することで、歌唱表現の選択対象となる所望の1個の音符(以下「対象音符」という)の近傍に指示子44を移動させる。時間軸の方向において対象音符の音符図像42の始点から終点までの範囲(すなわち対象音符の発音期間X2の範囲)Y内に指示子44が移動すると、選択処理部25は、図5に例示される通り、操作図像46A(Atk)と操作図像46B(Rls)とを表示装置14に表示させる。指示子44が音符の範囲Yの外側に位置する場合、当該音符について操作図像46Aおよび操作図像46Bは表示されない。操作図像46Aは、対象音符の前方区間の歌唱表現の選択を利用者が指示するための図像(アイコン)であり、音符図像42の始点(左端)の近傍に配置される。他方、操作図像46Bは、対象音符の後方区間の歌唱表現の選択を利用者が指示するための図像であり、音符図像42の終点(右端)の近傍に配置される。
【0029】
前方区間の歌唱表現の選択を所望する利用者は、入力装置16を適宜に操作することで指示子44を操作図像46Aに接近させる。利用者による操作で指示子44が操作図像46Aに対応した位置に移動すると、選択処理部25は、図6に例示される通り、前方区間の歌唱表現の階層構造における第1階層の複数の選択肢C1(fry,growl,rough)を表示装置14に表示させる。具体的には、操作図像46Aに重なる位置に指示子44が移動した場合に、第1階層の複数の選択肢C1を縦方向に配列した吹出画像N1が操作図像46Aの近傍に表示される。なお、複数の選択肢C1を表示する契機は以上の例示(指示子44が操作図像46Aに重なること)に限定されない。例えば、操作図像46Aを含む所定の範囲内に指示子44が移動した場合に複数の選択肢C1を表示することも可能である。なお、図6に例示される通り、操作図像46Aまたは操作図像46Bに対応した位置に指示子44が移動すると、指示子44の態様が変化する(矢印→手)。
【0030】
利用者は、入力装置16を操作することで、吹出画像N1に配列された複数の選択肢C1のうち所望の1個の選択肢C1に指示子44を接近させる。第1階層の任意の1個の選択肢C1に対応する位置(例えば当該選択肢C1に重なる位置)に指示子44が移動した場合、選択処理部25は、図7に例示される通り、階層構造の第2階層において当該選択肢C1の下位に位置する複数の選択肢C2(slow,creaky)を表示装置14に表示させる。具体的には、選択処理部25は、第1階層の複数の選択肢C1のうち指示子44の移動で利用者が選択した「fry」の選択肢C1の表示態様を変化(例えば強調表示)させたうえで、当該選択肢C1の下位に位置する第2階層の「slow」「creaky」の2個の選択肢C2を配列した吹出画像N2を、第1階層の吹出画像N1の側方に表示させる。以上の説明から理解される通り、第1実施形態では、第1階層の複数の選択肢C1のうち任意の1個の選択肢C1に対応した位置に指示子44を移動させる操作(いわゆるマウスオーバー)を契機として、第2階層のうち当該選択肢C1に対応した複数の選択肢C2が表示装置14に表示される。すなわち、第2階層の選択肢C2の表示にあたり指示子44の移動以外の操作(例えばマウスクリック)は不要である。
【0031】
利用者は、入力装置16を操作することで、吹出画像N2に配列された複数の選択肢C2のうち所望の1個の選択肢C2に指示子44を接近させる。第2階層の任意の1個の選択肢C2に対応する位置(例えば当該選択肢C2に重なる位置)に指示子44が移動した場合、選択処理部25は、図8に例示される通り、指示子44が位置する選択肢C2の表示態様を変化(例えば強調表示)させる。図8で利用者が選択した選択肢C2「creaky」は、利用者が吹出画像N1で選択した選択肢C1「fry」を基点とする図4の階層構造の最下層に位置するから、指示子44が選択肢C2に重なった場合でも、さらに下層の選択肢Cは表示されない。指示子44が選択肢C2に重なった状態で利用者が入力装置16に所定の操作(例えばマウスクリック)を付与すると当該選択肢C2が選択される。すなわち、利用者が指示子44の移動で階層毎に順次に選択してきた複数の選択肢Cの組合せに対応する歌唱表現の選択が確定する。例えば図5から図8の例示では、「fry-creaky」の歌唱表現が選択される。なお、第2階層の複数の選択肢C2(slow,creaky)の何れにも対応しない位置(例えば吹出画像N2の外側)に指示子44が移動した場合、選択処理部25は、吹出画像N1および吹出画像N2の双方を編集画面40から消去する。すなわち、利用者は、指示子44を移動させることで歌唱表現の選択を中止することが可能である。
【0032】
図9には、第1階層の「rough」の選択肢C1と第2階層の「sharp」の選択肢C2とが選択された場合が例示されている。図4で例示した通り、「rough-sharp」には下層の第3階層の選択肢C3(「type1」,「type2」)が存在する。したがって、第2階層の1個の選択肢C2「sharp」に指示子44が重なると、選択処理部25は、当該選択肢C2の表示態様を変化(例えば強調表示)させるとともに、当該選択肢C2の下位に位置する複数の選択肢C3(type1,type2)を表示装置14に表示させる。具体的には、選択肢C2「sharp」の下位に位置する「type1」「type2」の2個の選択肢C3を配列した吹出画像N3が、第2階層の吹出画像N2の側方に表示される。図10に例示されるように、任意の1個の選択肢C3に指示子44が重なる状態で入力装置16に所定の操作(例えばマウスクリック)が付与された場合に当該選択肢C3を最末端とする歌唱表現(例えば「rough-sharp-type1」)の選択が確定する。
【0033】
以上の手順で前方区間の歌唱表現が確定すると、情報管理部26は、当該歌唱表現を表す表現情報X4を対象音符の単位データUに付加する。具体的には、表現情報X4には、当該歌唱表現の識別情報E(例えば複数の階層にわたる選択肢Cの組合せ)と、初期値に設定された制御情報Zとが包含される。
【0034】
また、前方区間の歌唱表現の選択が確定すると、選択処理部25は、図11に例示されるように、対象音符の操作図像46Aを操作図像48Aに変更する。操作図像48Aは、利用者が選択した歌唱表現が付加される前方区間の時間長(以下「表現付加時間」という)TAを表象する画像である。操作図像48Aには、利用者が選択した歌唱表現の識別情報E(複数の階層にわたる選択肢Cの組合せ)が付加される。
【0035】
操作図像48Aのうち時間軸上の後方の端部(右端)には、表現付加時間TAの終点を意味する操作点WAが表示される。図12に例示される通り、利用者は、入力装置16に対する操作により操作点WAを移動させることで、発音期間X2の範囲内で表現付加時間TAを変更することが可能である。表現付加時間TAは、対象音符の発音期間X2のうち所定の比率(以下「時間比率」という)τAの時間長に相当する。情報管理部26は、対象音符の発音期間X2のうち当該発音期間X2の始点から操作点WAまでの表現付加時間TAの時間比率τAを制御情報Zとして合成情報Sに設定する。利用者が移動させていない初期的な状態の操作点WAは、発音期間X2の終点に位置する。すなわち、時間比率τAの初期値は1(100%)である。
【0036】
以上の説明では、対象音符の発音期間X2のうち前方区間について歌唱表現の選択と制御情報Zの調整とを例示した。発音期間X2の後方区間に関する歌唱表現の選択や制御情報Zの調整のための操作は、前方区間と同様である。すなわち、図13に例示される通り、後方区間に対応する操作図像46Bに指示子44が重なると、後方区間の歌唱表現に関する第1階層の選択肢C1(soft)が吹出画像N1により表示され、当該選択肢C1に対応する位置に指示子44が移動すると、当該選択肢C1の下位に位置する第2階層の複数の選択肢C2(long,short)が吹出画像N2により表示される。
【0037】
なお、図13に例示されるように、吹出画像N2を吹出画像N1の側部(例えば右方)に表示させると、吹出画像N2が表示装置14の表示領域の外側に位置し、利用者が複数の選択肢C2(long,short)を視覚的に把握しづらいという問題がある。そこで、図14に例示されるように、選択処理部25が吹出画像N2を吹出画像N1の左方(すなわち音符図像42の中央寄)に表示させる構成も好適である。
【0038】
以上の手順で後方区間の歌唱表現が確定すると、選択処理部25は、図15に例示される通り操作図像46Bを操作図像48Bに変更する。操作図像48Bは、操作図像48Aと同様に、利用者が選択した歌唱表現が付加される後方区間の表現付加時間TBを利用者が調整するための画像であり、当該歌唱表現の識別情報Eが付加される。具体的には、利用者は、操作図像48Bの始点側に付加された操作点WBを入力装置16の操作により移動させることで所望の表現付加時間TBを指示することが可能である。情報管理部26は、対象音符の発音期間X2のうち操作点WBから当該発音期間X2の終点までの表現付加時間TBの時間比率τBを対象音符の制御情報Zとして合成情報Sに設定する。
【0039】
以上の説明から理解される通り、情報管理部26は、利用者が選択した歌唱表現の音声成分(音声素片Q)を音符の合成音声に付加する処理に関する制御情報Z(表現付加時間TAおよび表現付加時間TB)を、指示受付部22が利用者から受付けた指示に応じて可変に設定する。
【0040】
図1の音声合成部28は、記憶装置12に記憶された音声素片群L(L1,L2)と合成情報Sとを利用して音声信号Vを生成する。図16は、合成情報Sで指定される1個の音符について音声合成部28が実行する処理の説明図である。
【0041】
図16に例示される通り、音声合成部28は、合成情報Sが当該音符に指定する音声符号X3の音声素片Pを音声素片群L1から選択し、合成情報Sが指定する音高X1および発音期間X2に当該音声素片Pを調整する。他方、音声合成部28は、表現情報X4の識別情報Eで指定される歌唱表現の音声素片Qであり、かつ、音声符号X3の母音に対応する音声素片Qを、前方区間(attack)および後方区間(release)の各々について音声素片群L2から選択する。図16では前方区間の音声素片Qが符号QAで表現され、後方区間の音声素片Qが符号QBで表現されている。音声合成部28は、音声素片QAおよび音声素片QBを音高X1に調整し、かつ、前方区間の音声素片QAを表現付加時間TAに伸縮するとともに後方区間の音声素片QBを表現付加時間TBに伸縮する。表現付加時間TAは、表現情報X4の制御情報Zで指定される時間比率τAを発音期間X2に乗算した時間長であり、表現付加時間TBは、表現情報X4の制御情報Zで指定される時間比率τBを発音期間X2に乗算した時間長である。以上の調整が完了すると、音声合成部28は、調整後の前方区間の音声素片QAを音声素片Pの始点側(音声素片Pの前方区間)に混合するとともに調整後の後方区間の音声素片QBを音声素片Pの終点側(音声素片Pの後方区間)に混合する。音声素片Pに対する音声素片QAおよび音声素片QBの付加の度合(以下「付加比率」という)Rは所定値に設定される。付加比率Rは、音声素片Q(QA,QB)の加重値に相当する。以上の手順で順次に生成された複数の音声素片を時間軸上で相互に連結することで音声信号Vが生成される。なお、音声素片Qの始点や終点における音声の不連続を抑制するために、音声素片Qを音声素片Pに対してクロスフェードすることも可能である。音声合成部28が生成した音声信号Vが放音装置18に供給されることで合成楽曲の歌唱音声が再生される。
【0042】
以上の構成では、階層毎に順次に選択肢Cを選択させることで複数の歌唱表現の何れかを利用者に選択させるから、利用者が選択可能な全種類の歌唱表現を表示して所望の歌唱表現を利用者に選択させる構成と比較して、利用者が所望の歌唱表現を容易に選択することが可能である。また、階層構造の一の階層における一の選択肢Cに対応する位置に指示子44が移動した場合に、当該一の選択肢Cの下位に位置する複数の選択肢Cが表示装置14に表示されるから、指示子44の移動以外の操作(例えばマウスのクリック)を必要とせずに利用者が各階層の選択肢Cを選択できる。したがって、指示子44の移動とは別個の特定の操作により利用者が所望の選択肢を選択する構成と比較して、複数の歌唱表現の何れかを選択する利用者の負担を軽減することが可能である。
【0043】
また、以上の構成では、音符図像42の始点から終点までの範囲Y内に指示子44が移動した場合に操作図像(46A,46B)が表示され、利用者による操作で操作図像(46A,46B)に対応した位置に指示子44が移動した場合に、階層構造の最上位の階層の複数の選択肢Cが表示される。したがって、操作図像46Aおよび操作図像46Bが常に表示される構成と比較して編集画面40が簡素化される。また、操作図像(46A,46B)に対応する位置に指示子44が移動した場合に最上位の階層の複数の選択肢Cが表示される(すなわち階層毎の選択肢の選択が開始される)から、指示子44の移動以外の操作(例えばクリック)が操作図像(46A,46B)に対して付加された場合に最上位の階層の選択肢Cを表示する構成と比較して、利用者による操作の負担を軽減することが可能である。
【0044】
さらに、音符の前方区間における歌唱表現を選択するための階層の選択肢Cが音符図像42の始点側に表示され、音符の後方区間における歌唱表現を選択するための階層の選択肢Cが音符図像42の終点側に表示される。したがって、歌唱表現を付加する部分(始点または終点)と付加すべき歌唱表現との関係を、利用者が視覚的および直観的に把握できるという利点がある。
【0045】
<第2実施形態>
本発明の第2実施形態を説明する。第1実施形態では、表現付加時間TAおよび表現付加時間TBを制御情報Zとして例示した。第2実施形態では、歌唱表現の付加に関する多様な変数を制御情報Zとして利用者が調整可能である。以下に例示する各態様において作用や機能が第1実施形態と同様である要素については、第1実施形態の説明で使用した符号を流用して各々の詳細な説明を適宜に省略する。なお、歌唱表現の選択については第1実施形態と同様であるから以下では説明を省略する。
【0046】
図17は、第2実施形態において利用者が制御情報Zを設定するための画面(制御情報設定画面)50の表示例であり、図18は、図17に例示した制御情報設定画面50に参照符号等の説明用の補助的な要素を便宜的に追記した図面である。図18では、制御情報設定画面50の説明を重視する観点から各要素の網掛等の図示が適宜に省略されている。
【0047】
利用者が所望の1個の音符(対象音符)を選択したうえで制御情報Zの詳細設定の指示を入力装置16に付与した場合に、表示制御部24は、図17の制御情報設定画面50を表示装置14に表示させる。図18に例示される通り、制御情報設定画面50には、対象音符を表象する音符図像42とともに領域DAと領域DBと領域DCとが配置される。領域DAは、対象音符の前方区間に対する歌唱表現の付加に関する制御情報Zの設定の指示を利用者から受付けるための領域であり、領域DBは、対象音符の後方区間に対する歌唱表現の付加に関する制御情報Zの設定の指示を利用者から受付けるための領域である。
【0048】
領域DAには操作図像48Aと操作子49Aとが表示される。情報管理部26は、前述の編集画面40に対する操作時と同様に、操作図像48Aの操作点WAを移動させる利用者からの操作に応じて表現付加時間TAの時間比率τAを設定する。また、利用者は、入力装置16に対する操作で操作子49Aを時間軸の方向に移動させ得る。情報管理部26は、操作子49Aの位置に応じて速度変数SAを設定する。速度変数SAは、歌唱表現の音声素片Qを表現付加時間TAに調整する処理における伸縮の度合と、音声素片Qの始点側および終点側の何れを伸長/収縮させるかを規定する。速度変数SAは、初期値(典型的には0)から正側および負側の双方(例えば−50から+50までの範囲内)にわたり可変に設定される。
【0049】
図19は、速度変数SAと歌唱表現の音声素片Qとの関係の説明図である。図19では、前方区間の音声素片Qを表現付加時間TAに伸縮する場合が例示されている。速度変数SAが初期値に設定された状態では、歌唱表現の音声素片Qが全区間にわたり均等に伸縮されて表現付加時間TAに調整される。他方、速度変数SAが初期値から変更された場合、図19に例示される通り、音声素片Qは、時間軸上の位置に応じて不均等(非線形)に伸縮される。具体的には、速度変数SAが初期値を上回る数値(すなわち正数)に設定されると、音声素片Qのうち始点側の部分ほど収縮されるとともに終点側の部分ほど伸長されるように音声素片Qが不均等に伸縮され、速度変数SAの絶対値が大きいほど始点側の収縮および終点側の伸長の度合は増加する。他方、速度変数SAが初期値を下回る数値(すなわち負数)に設定されると、音声素片Qのうち終点側の部分ほど収縮されるとともに始点側の部分ほど伸長されるように音声素片Qが不均等に伸縮され、速度変数SAの絶対値が大きいほど終点側の収縮および始点側の伸長の度合が増加する。以上の例示の通り、速度変数SAが大きいほど音声素片Qの始点側が収縮され、結果的に当該音声素片Qの開始直後の音声の立上がりは速くなる。したがって、速度変数SAは、前方区間の音声の立上がりの速度を規定する変数とも換言される。
【0050】
以上の説明では、対象音符の前方区間の速度変数SAの指定を例示したが、後方区間の歌唱表現についても同様に、情報管理部26は、領域DBの操作子49Bに対する利用者からの指示に応じて速度変数SBを設定する。ただし、後方区間については速度変数SBの正負と音声素片Qの収縮の位置(始点側/終点側)との関係が前方区間の速度変数SAとは逆転する。すなわち、速度変数SBが初期値を上回る場合(SB>0)には、音声素片Qのうち終点側の部分ほど収縮されるとともに始点側の部分ほど伸長され、速度変数SBが初期値を下回る場合(SB<0)には、音声素片Qのうち始点側の部分ほど収縮されるとともに終点側の部分ほど伸長される。速度変数SBの絶対値が大きいほど伸縮の度合が増加するという傾向は速度変数SAと同様である。以上の説明から理解される通り、速度変数SBが大きいほど対象音符の後方区間の音声素片Qの終点側が収縮され、結果的に当該音声素片Qの終了直前の音声の立下がりは速くなる。すなわち、速度変数SBは、後方区間の音声の立下がりの速度を規定する変数とも換言され得る。
【0051】
図18の領域DCは、付加比率Rの時間変化の設定の指示を利用者から受付けるための領域であり、制御情報設定画面50のうち音符図像42の下方に位置する。領域DCには、時間軸(横軸)と付加比率Rの数値軸(縦軸)とが設定された領域に遷移画像50Aおよび遷移画像50Bが表示される。遷移画像50Aは、対象音符の前方区間の歌唱表現の付加比率Rの時間変化を表象する折線グラフであり、遷移画像50Bは、対象音符の後方区間の歌唱表現の付加比率Rの時間変化を表象する折線グラフである。図17および図18に例示される通り、遷移画像50Aと遷移画像50Bとは相互に重複し得る。また、遷移画像50Aおよび遷移画像50Bは、音符図像42と共通の時間軸のもとで表示される。なお、第1実施形態では前方区間と後方区間とで付加比率Rを便宜的に共通としたが、以下の説明では、前方区間の付加比率RAと後方区間の付加比率RBとを区別する。
【0052】
図18に例示される通り、遷移画像50Aは、前方区間の歌唱表現の表現付加時間TA(TA=τA×X2)にわたる台形状の図形である。具体的には、図18に例示される通り、前方区間の歌唱表現の付加比率RAが、表現付加時間TAの始点から前縁期間TA1にわたり0から最大値RAmaxまで増加して以降は当該最大値RAmaxに維持され、表現付加時間TAの途中の時点から終点までの後縁期間TA2にわたり最大値RAmaxから0まで減少する、という付加比率Rの時間的な変化が遷移画像50Aで表現される。利用者は、遷移画像50Aに対する操作により、付加比率RAの最大値RAmax,表現付加時間TAの始点側における付加比率RAの時間変化(時間比率τA1,遷移係数αA1),表現付加時間TAの終点側における付加比率RAの時間変化(時間比率τA2,遷移係数αA2)を、前方区間の制御情報Zとして指示することが可能である。
【0053】
他方、遷移画像50Bは、後方区間の歌唱表現の表現付加時間TB(TB=τB×X2)にわたる台形状の図形である。具体的には、図18に例示される通り、後方区間の歌唱表現の付加比率RBが、表現付加時間TBの始点から前縁期間TB1にわたり0から最大値RBmaxまで増加して当該最大値RBmaxに維持され、表現付加時間TBの途中の時点から終点までの後縁期間TB2にわたり最大値RBmaxから0まで減少する、という付加比率RBの時間的な変化が遷移画像50Bで表現される。利用者は、遷移画像50Bに対する操作により、付加比率RBの最大値RBmax,表現付加時間TBの始点側における付加比率RBの時間変化(時間比率τB1,遷移係数αB1),表現付加時間TBの終点側における付加比率RBの時間変化(時間比率τB2,遷移係数αB2)を、後方区間の制御情報Zとして指示することが可能である。
【0054】
表示制御部24は、制御情報Zの変更に連動して遷移画像50Aおよび遷移画像50Bを更新する。なお、利用者は、制御情報設定画面50の各操作子(51A,51B,52A1,52A2,52B1,52B2,53A1,53A2,53B1,53B2)に対する操作で制御情報Zを変更するほか、図18に例示された数値入力欄に制御情報Zの数値を直接に入力することも可能である。以下、制御情報Zの設定について詳述する。
【0055】
<RAmax,RBmax>
利用者は、入力装置16を適宜に操作することで、操作子51Aを縦方向に移動させることが可能である。図18の例示では、遷移画像50Aの上辺に相当する操作子51Aと遷移画像50Aの近傍に配置された操作子51Aとが図示されている。情報管理部26は、縦方向における操作子51Aの位置に応じて付加比率RAの最大値RAmaxを設定する。最大値RAmaxは0以上かつ100以下の範囲内で設定される。同様に、情報管理部26は、操作子51Bに対する利用者からの操作に応じて後方区間の付加比率RBの最大値RBmaxを設定する。
【0056】
<τA1,τA2,τB1,τB2>
利用者は、入力装置16を適宜に操作することで、前縁期間TA1の終点を表象する操作子52A1を時間軸の方向に移動させることが可能である。情報管理部26は、前方区間の表現付加時間TAのうち、当該表現付加時間TAの始点から操作子52A1の位置までの前縁期間TA1の比率(%)を時間比率τA1として可変に設定する。すなわち、表現付加時間TAと時間比率τA1との乗算値に相当する時間長の前縁期間TA1にわたり付加比率RAは0から最大値RAmaxまで増加する。
【0057】
同様に、利用者は、後縁期間TA2の始点を表象する操作子52A2を時間軸の方向に移動させることが可能である。情報管理部26は、前方区間の表現付加時間TAのうち、当該表現付加時間TAの始点から操作子52A2の位置までの期間の時間比率τA2を設定する。すなわち、表現付加時間TAと時間比率τA2との乗算値に相当する時間長が当該表現付加時間TAの始点に対して経過した時点から、当該表現付加時間TAの終点までの後縁期間TA2にわたり、付加比率RAは最大値RAmaxから0まで減少する。後方区間についても同様であり、表現付加時間TBのうち始点から操作子52B1の位置までの前縁期間TB1の時間比率τB1と、表現付加時間TBのうち当該表現付加時間TBの始点から操作子52B2の位置までの時間比率τB2とが、利用者からの指示に応じて設定される。なお、表現付加時間TAのうち後縁期間TA2の時間的な比率を時間比率τA2とした構成や、表現付加時間TBのうち後縁期間TB2の時間的な比率を時間比率τB2とした構成も採用され得る。
【0058】
<αA1,αA2,αB1,αB2>
図18の操作子53A1は、表現付加時間TA内の前縁期間TA1における付加比率RAの変化の態様を利用者が指示するための画像である。情報管理部26は、操作子53A1に対する利用者からの操作に応じて遷移係数αA1を0以上かつ100以下の範囲内で可変に設定する。図20に例示される通り、前縁期間TA1内の付加比率RAの時間変化の態様は、遷移係数αA1に応じて制御される。遷移係数αA1が初期値(例えば50)である場合、前縁期間TA1内で付加比率RAは直線的に増加する。
【0059】
操作子53A1に対して上方向の操作(例えば操作子53A1のドラッグ)が付与されると、情報管理部26は、遷移係数αA1を初期値から操作量に応じて増加させる。図20に例示される通り、遷移係数αA1が基準値50を上回る場合、付加比率RAは、前縁期間TA1内で上に凸の軌跡に沿って0から最大値RAmaxまで経時的に増加する。他方、操作子53A1が下方向に操作されると、情報管理部26は、遷移係数αA1を操作量に応じて減少させる。図20に例示される通り、遷移係数αA1が基準値50を下回る場合、付加比率RAは、前縁期間TA1内で下に凸の軌跡に沿って0から最大値RAmaxまで経時的に増加する。
【0060】
なお、図21に例示される通り、操作子53A1の操作中には、遷移画像50Aの形状は維持されたまま、前縁期間TA1での付加比率RAの暫定的な軌跡rが遷移画像50Aとは別個の態様で表示される。また、前述の例示の通り操作子53A1に上下方向の操作が付与された場合、操作子53A1自体は移動せず、操作子53A1に付加された円弧状の矢印の画像が変化する。具体的には、操作子53A1の操作で指示された遷移係数αA1が大きいほど操作子53A1の矢印は円周方向に伸長される。したがって、利用者は、操作ツマミを操作させているかのような感覚で操作子53A1を操作することが可能である。
【0061】
なお、遷移係数αA1に応じて付加比率RAの時間変化の態様を変化させるための方法は任意であるが、遷移係数αA1に応じた変数λを含む以下の数式(1)を利用することで、前縁期間TA1内での付加比率RAの軌跡rを遷移係数αA1に応じて制御することが可能である。数式(1)の変数λは、遷移係数αA1の値域(0≦αA1≦100)を−0.9から+0.9までの範囲に変換した数値である。また、数式(1)の記号tは、前縁期間TA1の始点を原点(t=0)とした経過時間を意味する。
【数1】
【0062】
なお、以上の説明では、表現付加時間TAの前縁期間TA1における付加比率RAの時間変化(遷移係数αA1)に着目したが、表現付加時間TAの後縁期間TA2における付加比率RAの時間変化(遷移係数αA2)も、操作子53A2に対する操作に応じて同様に設定される。具体的には、情報管理部26は、操作子53A2に対する操作量に応じて遷移係数αA2を設定する。後縁期間TA2内において、付加比率RAは、遷移係数αA2が基準値50を上回る場合には上に凸の軌跡に沿って最大値RAmaxから0まで減少し、遷移係数αA2が基準値50を下回る場合には下に凸の軌跡に沿って最大値RAmaxから0まで減少する。操作子53A2に付加された矢印の変化や操作中の暫定的な軌跡rの表示は、操作子53A1に対する操作に関する前述の例示と同様である。
【0063】
後縁期間TA2における付加比率RAの減少の軌跡rは、以下の数式(2)で表現される。数式(2)の変数λは、数式(1)と同様に、遷移係数αA2の値域(0≦αA2≦100)を−0.9から+0.9までの範囲に変換した数値である。また、数式(2)の記号tは、後縁期間TA2の始点を原点(t=0)とした経過時間を意味する。
【数2】
【0064】
以上の例示と同様に、表現付加時間TBの前縁期間TB1における付加比率RBの増加の態様を規定する遷移係数αB1は、図18の操作子53B1に対する操作に応じて設定され、後縁期間TB2における付加比率RBの減少の態様を規定する遷移係数αB2は操作子53B2に対する操作に応じて設定される。具体的には、付加比率RBは、遷移係数αB1または遷移係数αB2が初期値を上回る場合には上に凸の軌跡に沿って変動し、初期値を下回る場合には下に凸の軌跡に沿って変動する。操作子53B1および操作子53B2に付加された矢印の変化や操作中の暫定的な軌跡rの表示は前述の例示と同様である。
【0065】
以上に例示した通り、第2実施形態では、対象音符の発音期間X2のうち歌唱表現が付加される期間の時間比率(τA,τB),当該歌唱表現の音声素片Qを伸縮する場合の当該伸縮の度合と当該音声素片Qの始点側および終点側の何れを伸長させるかを示す速度変数
SA,SB),付加比率Rの最大値(RAmax,RBmax),歌唱表現の始点側における付加比率Rの時間変化(τA1,τB1,αA1,αB1),および、歌唱表現の終点側における付加比率Rの時間変化(τA2,τB2,αA2,αB2)を含む制御情報Zを情報管理部26が設定する。したがって、制御情報Zが所定値に固定された構成と比較して、利用者の嗜好や意図に適合した多様な特性の音声信号Vを生成できるという利点がある。なお、以上に例示した複数種の変数は適宜に省略され得る。すなわち、情報管理部26は、以上に例示した複数種の変数の少なくともひとつを設定する要素として表現される。
【0066】
<第3実施形態>
第1実施形態では、音声素片Pおよび音声素片Qが時間領域の音声波形または周波数領域のスペクトルとして表現された構成を例示した。第3実施形態の音声素片Pおよび音声素片Qの各々は、当該音声素片の音響特性を近似的に表現する複数の特徴量σで表現される。第3実施形態では、スペクトル包絡,励振源特性,基本周波数など、音声素片の各フレームを表現する音響的なパラメータを複数の特徴量σとして例示する。音声合成部28は、音声素片Pの特徴量σと歌唱表現の音声素片Qの特徴量σとの間で付加比率Rを加重値とした加重和を特徴量σ毎に算定し、算定後の複数の特徴量σで近似される周波数特性の音声素片を時間軸上で相互に連結することで音声信号Vを生成する。
【0067】
図22は、第3実施形態における制御情報設定画面50の表示例である。図22に例示される通り、第3実施形態の表示制御部24は、制御情報Zを指定する領域DC(DC1〜DC4)を特徴量σ毎に別個に表示させる。領域DC1の特徴量σ(REG)は、声帯振動のスペクトル包絡を近似する励起波形包絡(Excitation Curve)を意味し、領域DC2の特徴量σ(TBR)は、胸部共鳴特性を近似する所定個の帯域通過フィルタを規定する胸部レゾナンス(Chest Resonance)であり、領域DC3の特徴量σ(EXC)は、声門の周期的な励起(Excitation)に相当する。領域DC4の特徴量(F0)は基本周波数(ピッチ)を意味する。
【0068】
利用者は、入力装置16を適宜に操作することで、複数の特徴量σのうち制御情報Zの変更対象となる1種類の特徴量(以下「対象特徴量」という)σを選択することが可能である。第3実施形態の表示制御部24は、利用者が選択した対象特徴量σについては、第2実施形態で例示した通り、遷移画像50Aおよび遷移画像50Bと各操作子(51A,51B,52A1,52A2,52B1,52B2,53A1,53A2,53B1,53B2)を表示する一方、対象特徴量σ以外の非選択の各特徴量σについては、簡略化された領域DCを表示する。具体的には、非選択の各特徴量σの領域DCでは、遷移画像50Aおよび遷移画像50Bが縦方向に縮小され、各操作子(51A,51B,52A1,52A2,52B1,52B2,53A1,53A2,53B1,53B2)は非表示とされる。情報管理部26は、対象特徴量σの付加比率Rの時間変化を規定する制御情報Zを、当該対象特徴量σの領域DCに対する利用者からの操作に応じて、第2実施形態と同様に設定する。非選択の各特徴量σについては制御情報Zの設定が禁止される。
【0069】
第3実施形態では、歌唱表現に関する複数の特徴量σの各々について利用者からの指示に応じて制御情報Zが可変に設定されるから、利用者の意図や嗜好を反映した多様な合成音声を生成することが可能である。なお、前述の例示のように特徴量σ毎に制御情報Zを個別に設定する動作モードと、複数の特徴量σについて制御情報Zを一括的に設定する動作モードとを利用者が選択できる構成も好適である。
【0070】
<変形例>
以上に例示した各態様は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2個以上の態様は、相互に矛盾しない範囲で適宜に併合され得る。
【0071】
(1)前述の各形態では、特定の音高で発音された音声素片Qを合成情報Sで指定される音高X1に調整したが、共通の発音内容を相異なる音高(例えば高音域/中音域/低音域の3種類)で発音した複数の音声素片Qを歌唱表現毎に音声素片群L2に収録し、音高が相違する複数の音声素片Qを補間することで目標の音高X1に調整することも可能である。
【0072】
(2)前述の各形態では、時間軸上で音符図像42の始点から終点までの範囲Y内に指示子44が移動することを契機として操作図像(46A,46B)を表示させたが、操作図像(46A,46B)を表示させる契機は以上の例示に限定されない。例えば、音高軸上で音符図像42の音高X1を含む所定の範囲と時間軸上の音符図像42の範囲Yとが重複する矩形状の領域内に指示子44が移動した場合に操作図像(46A,46B)を表示させることも可能である。
【0073】
(3)第3実施形態では、音声素片Pおよび音声素片Qが複数の特徴量σで表現される構成を例示したが、例えば音声波形や周波数スペクトルで表現された音声素片Pおよび音声素片Qから音声合成部28が複数の特徴量σを抽出することも可能である。すなわち、複数の特徴量σを音声素片Q毎に記憶装置12に保持する必要はない。
【0074】
(4)前述の各形態では、1個の音符の前方区間および後方区間に対する歌唱表現の付加を例示したが、歌唱表現が付加される区間は前方区間および後方区間に限定されない。例えば1個の音符の途中の区間に歌唱表現を付加する場合にも前述の各形態を採用することが可能である。また、1個の音符内で歌唱表現が付加される区間の総数も任意である。
【0075】
指示子44が音符図像42の近傍に移動した場合には、当該音符内で歌唱表現が付加され得る全部の区間の各々について操作図像46(46A,46B)が表示される。ただし、1個の音符内で歌唱表現が付加され得る複数の区間のうち特定の区間(例えば指示子44に最も近い区間)について選択的に操作図像46を表示することも可能である。なお、前述の各形態では、前方区間の歌唱表現に関する操作図像46Aや選択肢Cを音符図像42の始点側に配置し、後方区間の歌唱表現に関する操作図像46Bや選択肢Cを音符図像42の終点側に配置した。前方区間および後方区間に限定しない任意の区間を加味すると、音符のうち特定の区間における歌唱表現の操作図像46や選択肢Cを、当該音符の音符図像42の近傍で当該区間に対応した位置に表示させる構成として包括的に表現され得る。
【0076】
なお、前方区間や後方区間以外の任意の区間に歌唱表現が付加され得る構成では、当該区間を指定する情報(例えば当該区間の始点,終点や範囲を示す情報)が音符内の区間毎に個別に設定されて表現情報X4に含められる。また、音声素片群L2には、1個の音符内で歌唱表現が付加され得る区間毎に、相異なる歌唱表現に対応する複数の音声素片Qが登録される。
【0077】
(5)前述の各形態では、音声合成部28を含む音声合成装置100を例示したが、音声合成部28が合成すべき音声を編集するための装置(合成音声編集装置)としても本発明は実施され得る。合成音声編集装置における音声合成部28の有無は不問である。
【0078】
(6)音声合成装置100を好適な態様として例示した合成音声編集装置は、前述の各形態で例示した通り、CPU(Central Processing Unit)等の汎用の演算処理装置とプログラムとの協働で実現されるほか、合成音声の編集に専用されるDSP(Digital Signal Processor)等のハードウェア(電子回路)でも実現され得る。以上のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされ得る。記録媒体は、例えば非一過性(non-transitory)の記録媒体であり、CD-ROM等の光学式記録媒体(光ディスク)が好例であるが、半導体記録媒体や磁気記録媒体等の公知の任意の形式の記録媒体を包含し得る。また、以上に例示したプログラムは、通信網を介した配信の形態で提供されてコンピュータにインストールされ得る。本発明は、以上に説明した各態様に係る合成音声編集装置の動作方法(合成音声編集方法)としても特定される。
【0079】
100……音声合成装置、10……演算処理装置、12……記憶装置、14……表示装置、16……入力装置、18……放音装置、22……指示受付部、24……表示制御部、25……選択処理部、26……情報管理部、28……音声合成部、40……編集画面、42……音符図像。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22