特許第6236765号(P6236765)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許6236765音楽データ編集装置および音楽データ編集方法
<>
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000002
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000003
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000004
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000005
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000006
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000007
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000008
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000009
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000010
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000011
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000012
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000013
  • 特許6236765-音楽データ編集装置および音楽データ編集方法 図000014
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6236765
(24)【登録日】2017年11月10日
(45)【発行日】2017年11月29日
(54)【発明の名称】音楽データ編集装置および音楽データ編集方法
(51)【国際特許分類】
   G10G 3/04 20060101AFI20171120BHJP
   G10L 13/00 20060101ALI20171120BHJP
   G10L 13/02 20130101ALI20171120BHJP
   G10L 13/033 20130101ALI20171120BHJP
【FI】
   G10G3/04
   G10L13/00 100Y
   G10L13/02 110Z
   G10L13/033 102B
【請求項の数】6
【全頁数】16
(21)【出願番号】特願2012-244710(P2012-244710)
(22)【出願日】2012年11月6日
(65)【公開番号】特開2013-137520(P2013-137520A)
(43)【公開日】2013年7月11日
【審査請求日】2015年9月17日
(31)【優先権主張番号】特願2011-260089(P2011-260089)
(32)【優先日】2011年11月29日
(33)【優先権主張国】JP
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】100125689
【弁理士】
【氏名又は名称】大林 章
(74)【代理人】
【識別番号】100121108
【弁理士】
【氏名又は名称】高橋 太朗
(72)【発明者】
【氏名】入山 達也
【審査官】 大野 弘
(56)【参考文献】
【文献】 特開2004−258563(JP,A)
【文献】 特開平08−115081(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10G 3/04
G10L 13/00
G10L 13/02
G10L 13/033
(57)【特許請求の範囲】
【請求項1】
合成音の音高および発音時点と音響合成に適用される制御情報とを音符毎に指定する音楽データを編集する装置であって、
音高軸と時間軸とが設定された楽譜領域のうち前記音楽データが指定する音高および発音時点に対応する位置に音符図形を音符毎に表示させ、前記楽譜領域内の各音符図形に対応する位置に、当該音符図形が示す音符の制御情報の変更の指示を受付ける編集画像を配置する表示制御手段と、
各音符の編集画像に対する利用者からの指示に応じて当該音符の制御情報を編集する編集処理手段とを具備し、
前記表示制御手段は、前記楽譜領域の表示倍率が閾値を上回る場合に、前記表示倍率が前記閾値を下回る場合の編集画像により変更の指示を受付ける制御情報を含み、かつ、前記表示倍率が前記閾値を下回る場合と比較して多い種類数の制御情報の変更の指示を受付ける編集画像を配置する
音楽データ編集装置。
【請求項2】
前記表示制御手段は、制御情報を適用した合成音の特徴量の時間変化を表現する遷移画像を含む前記編集画像を前記楽譜領域内に配置し、前記遷移画像に対する利用者からの指示に応じて前記遷移画像を変化させ、
前記編集処理手段は、利用者からの指示に応じた前記遷移画像の変化に対応するように制御情報を編集する
請求項1の音楽データ編集装置。
【請求項3】
前記楽譜領域の表示倍率は、前記時間軸方向の表示倍率であり、
前記表示制御手段は、前記時間軸方向の表示倍率に応じて前記遷移画像を前記時間軸方向に伸縮する一方、前記時間軸方向の表示倍率とは独立に変更される前記音高軸方向の表示倍率に応じて前記遷移画像を前記音高軸方向に伸縮する
請求項2の音楽データ編集装置。
【請求項4】
前記表示制御手段は、制御情報の数値を示す変数指示画像を含む前記編集画像を前記楽譜領域内に配置し、前記変数指示画像が示す数値を利用者からの指示に応じて変化させ、
前記編集処理手段は、利用者からの指示に応じた前記変数指示画像の数値の変化に対応するように制御情報を編集する
請求項1から請求項3の何れかの音楽データ編集装置。
【請求項5】
前記表示制御手段は、音響合成時の特定処理の実行の有無を示す処理選択画像を含む前記編集画像を前記楽譜領域内に配置し、前記処理選択画像が示す特定処理の実行の有無を利用者からの指示に応じて変化させ、
前記編集処理手段は、前記処理選択画像が示す特定処理の実行の有無に対応するように制御情報を編集する
請求項1から請求項4の何れかの音楽データ編集装置。
【請求項6】
合成音の音高および発音時点と音響合成に適用される制御情報とを音符毎に指定する音楽データを編集する方法であって、
コンピュータシステムが、
音高軸と時間軸とが設定された楽譜領域のうち前記音楽データが指定する音高および発音時点に対応する位置に音符図形を音符毎に表示させ、前記楽譜領域内の各音符図形に対応する位置に、当該音符図形が示す音符の制御情報の変更の指示を受付ける編集画像を配置し、
各音符の編集画像に対する利用者からの指示に応じて当該音符の制御情報を編集し、
前記編集画像の配置においては、前記楽譜領域の表示倍率が閾値を上回る場合に、前記表示倍率が前記閾値を下回る場合の編集画像により変更の指示を受付ける制御情報を含み、かつ、前記表示倍率が前記閾値を下回る場合と比較して多い種類数の制御情報の変更の指示を受付ける編集画像を配置する
音楽データ編集方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音符の時系列を指定する音楽データを編集する技術に関する。
【背景技術】
【0002】
音声合成や楽音合成等の音響合成に使用される音楽データを表示および編集する技術が従来から提案されている。例えば音声合成に適用される音楽データは、合成音の音高と発音期間と音声符号(例えば歌詞の文字)と制御情報とを音符毎に指定する。制御情報は、音声合成に適用されて合成音の特性を制御する情報であり、例えば発音開始直後のピッチの変動(ベンド)やビブラートの態様(種類や継続長)を指定する。特許文献1には、音楽データで指定される各音符を表現する図形(以下「音符図形」という)を、音高軸と時間軸とが設定されたピアノロール型の楽譜領域に配置し、各音符図形に対する利用者からの指示に応じて音楽データを編集する技術が開示されている。各音符の音符図形の近傍には、その音符の制御情報を表現する図形(例えばビブラートを表現する図形)が配置される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特許第4456088号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
特許文献1の技術では、例えば利用者が選択した音符の制御情報を編集するための設定画面を楽譜領域とは別個に表示し、設定画面に対する利用者からの指示に応じて制御情報を編集する構成が採用され得る。しかし、各音符図形とは独立した設定画面に対する操作では、各音符の制御情報を利用者が直観的に把握して所望の数値に設定することは困難である。以上の事情を考慮して、本発明は、制御情報の直観的な編集を可能にすることを目的とする。
【課題を解決するための手段】
【0005】
以上の課題を解決するために本発明が採用する手段を説明する。なお、本発明の理解を容易にするために、以下の説明では、本発明の要素と後述の実施形態の要素との対応を括弧書で付記するが、本発明の範囲を実施形態の例示に限定する趣旨ではない。
【0006】
本発明の音楽データ編集装置は、合成音の音高および発音時点と音響合成に適用される制御情報とを音符毎に指定する音楽データを編集する装置であって、音高軸と時間軸とが設定された楽譜領域のうち音楽データが指定する音高および発音時点に対応する位置に音符図形を音符毎に表示させる手段であって、楽譜領域内の各音符図形に対応する位置に、当該音符図形が示す音符の制御情報の変更の指示を受付ける編集画像(例えば遷移画像QA,変数指示画像QB,処理選択画像QC,遷移画像QD)を配置する表示制御手段(例えば表示制御部32)と、各音符の編集画像に対する利用者からの指示に応じて当該音符の制御情報を編集する編集処理手段(例えば編集処理部34)とを具備する。以上の構成では、楽譜領域に配置された編集画像に対する操作に応じて制御情報が編集される。すなわち、楽譜領域に対する直接的な操作で(すなわち、楽譜領域とは別個の設定画面等に対する操作を介することなく)制御情報が編集される。したがって、例えば楽譜領域内の各音符図形を確認しながら各音符の制御情報を直観的かつ容易に編集することが可能である。
【0007】
本発明の好適な態様において、表示制御手段は、制御情報を適用した合成音の特徴量(例えば音高や音量)の時間変化を表現する遷移画像(例えば遷移画像QAまたは遷移画像QD)を含む編集画像を楽譜領域内に配置し、遷移画像に対する利用者からの指示に応じて遷移画像を変化させ、編集処理手段は、利用者からの指示に応じた遷移画像の変化に対応するように制御情報を編集する。以上の態様では、合成音の特徴量の時間変化を表現する遷移画像の変化に対応するように制御情報が編集されるから、特徴量の時間変化を直観的に編集することが可能である。なお、以上の態様の具体例は、例えば第1実施形態や第5実施形態として後述される。
【0008】
遷移画像を表示する態様の具体例において、表示制御手段は、利用者からの指示に応じて遷移画像を音高軸方向に伸縮する。以上の態様によれば、遷移画像を音高軸方向に伸縮することで特徴量の時間変化を詳細に確認できるという利点がある。なお、以上の態様の具体例は、例えば第4実施形態として後述される。
【0009】
本発明の好適な態様において、表示制御手段は、制御情報の数値を示す変数指示画像(例えば変数指示画像QB)を含む編集画像を表示領域内に配置し、変数指示画像が示す数値を利用者からの指示に応じて変化させ、編集処理手段は、利用者からの指示に応じた変数指示画像の数値の変化に対応するように制御情報を編集する。以上の態様では、変数指示画像に対する操作で利用者が制御情報の数値を直接的に指定することが可能である。以上の態様の具体例は、例えば第2実施形態として後述される。
【0010】
本発明の好適な態様において、表示制御手段は、音響合成時の特定処理の実行の有無を示す処理選択画像(例えば処理選択画像QC)を含む編集画像を表示領域内に配置し、処理選択画像が示す特定処理の実行の有無を利用者からの指示に応じて変化させ、編集処理手段は、処理選択画像が示す特定処理の実行の有無に対応するように制御情報を編集する。以上の態様では、処理選択画像に対する操作で利用者が特定処理の実行の有無を直接的に指定することが可能である。なお、以上の態様の具体例は、例えば第3実施形態として後述される。
【0011】
本発明の好適な態様において、楽譜領域の表示倍率が閾値を下回る場合(第1表示状態)と表示倍率が閾値を上回る場合(第2表示状態)とで、編集画像の表示の有無や編集対象となる制御情報の種類を変更する構成も好適である。例えば、楽譜領域の表示倍率が閾値を下回る場合に編集画像を非表示とする構成や、表示倍率が閾値を下回る場合に、表示倍率が閾値を上回る場合と比較して少ない種類数の制御情報の変更の指示を受付ける編集画像を配置する構成が採用され得る。
【0012】
以上の各態様に係る音楽データ編集装置は、音楽データの表示に専用されるDSP(Digital Signal Processor)などのハードウェア(電子回路)で実現されるほか、CPU(Central Processing Unit)などの汎用の演算処理装置とプログラムとの協働でも実現される。本発明のプログラムは、合成音の音高および発音時点と音響合成に適用される制御情報とを音符毎に指定する音楽データを編集するために、音高軸と時間軸とが設定された楽譜領域のうち音楽データが指定する音高および発音時点に対応する位置に音符図形を音符毎に表示させる処理であって、楽譜領域の表示倍率が閾値を上回る場合に、楽譜領域内の各音符図形に対応する位置に、当該音符図形が示す音符の制御情報の変更の指示を受付ける編集画像を配置する表示制御処理と、各音符の編集画像に対する利用者からの指示に応じて当該音符の制御情報を編集する編集処理とをコンピュータに実行させる。以上のプログラムによれば、本発明の音楽データ編集装置と同様の作用および効果が実現される。本発明のプログラムは、コンピュータが読取可能な記録媒体に格納された形態で提供されてコンピュータにインストールされるほか、通信網を介した配信の形態で提供されてコンピュータにインストールされる。
【図面の簡単な説明】
【0013】
図1】本発明の第1実施形態に係る音声合成装置のブロック図である。
図2】音楽データの模式図である。
図3】第1表示状態における編集画面の模式図である。
図4】第1表示状態における設定画面の模式図である。
図5】第2表示状態における編集画面の模式図である。
図6】遷移画像の変化の説明図である。
図7】第2実施形態における第2表示状態の編集画面の模式図である。
図8】第3実施形態における第2表示状態の編集画面の模式図である。
図9】第4実施形態における第2表示状態の編集画面の模式図である。
図10】第4実施形態における第2表示状態の編集画面の模式図である。
図11】第5実施形態における第2表示状態の編集画面の模式図である。
図12】変形例における第2表示状態の編集画面の模式図である。
図13】変形例における編集画面の模式図である。
【発明を実施するための形態】
【0014】
<第1実施形態>
図1は、本発明の第1実施形態に係る音声合成装置100のブロック図である。音声合成装置100は、素片接続型の音声合成で歌唱音の音声信号Sを生成する信号処理装置であり、図1に示すように、演算処理装置12と記憶装置14と表示装置22と入力装置24と放音装置26とを具備するコンピュータシステムで実現される。例えば据置型の情報処理装置(パーソナルコンピュータ)や携帯型の情報処理装置(携帯電話機や携帯情報端末)で音声合成装置100は実現される。
【0015】
演算処理装置12は、記憶装置14に格納されたプログラムPGMを実行することで複数の機能(表示制御部32,編集処理部34,音声合成部36)を実現する。なお、演算処理装置12の各機能を複数の集積回路に分散した構成や、専用の電子回路(例えばDSP)が一部の機能を実現する構成も採用され得る。
【0016】
表示装置22(例えば液晶表示装置)は、演算処理装置12が指示する画像を表示する。入力装置24は、利用者からの指示を受付ける機器(例えばマウス等のポインティングデバイスやキーボード)である。なお、表示装置22と一体に構成されたタッチパネルを入力装置24として採用することも可能である。放音装置26(例えばヘッドホンやスピーカ)は、演算処理装置12が生成した音声信号Sに応じた音波を放射する。
【0017】
記憶装置14は、演算処理装置12が実行するプログラムPGMや演算処理装置12が使用する各種のデータ(音声素片群DA,音楽データDB)を記憶する。半導体記録媒体や磁気記録媒体等の公知の記録媒体または複数種の記録媒体の組合せが記憶装置14として採用される。
【0018】
音声素片群DAは、相異なる音声素片に対応する複数の素片データ(例えば音声素片の波形のサンプル系列)で構成されて音声合成の素材として使用される音声合成ライブラリである。音声素片は、言語的な意味の区別の最小単位である音素(例えば母音や子音)、または複数の音素を連結した音素連鎖(例えばダイフォンやトライフォン)である。
【0019】
音楽データDBは、楽曲を構成する音符の時系列を指定するデータであり、図2に示すように、楽曲内の相異なる音符に対応する複数の単位データUを含んで構成される。各単位データUは、音高X1と発音時点X2と継続長X3と音声符号X4と制御情報X5とを指定する。音高X1は音符の音高(実際には各音高に付与されたノートナンバ)である。発音時点X2は発音が開始する時刻(発音時刻)を意味し、継続長X3は音符の発音が継続する時間(音価)を意味する。すなわち、発音時点X2と継続長X3とで音符の発音期間が規定される。なお、各音符の発音時点X2と消音時点とで発音期間を規定することも可能である。音声符号X4は、楽曲の歌詞等の発音内容を示す符号である。以下の説明では歌詞の発音文字(書記素)を音声符号X4として例示するが、例えば音素記号を音声符号X4として指定することも可能である。
【0020】
制御情報X5は、音声合成に適用されて合成音の音楽的な特性を制御する変数(表情パラメータ)である。第1実施形態では、発音時点X2の直後の音高の微細な変化を規定する変数(音高の変動幅Z1および変動長Z2)と、音符に付加されるビブラートを規定する変数(ビブラートの継続長Z3および種類Z4)とを制御情報X5として例示する。図2に示すように、変動幅Z1は、発音期間のうち発音時点X2から目標の音高X1に到達する時点までの区間(以下「開始区間」という)内での音高の変動量(発音開始時点の音高と目標の音高X1との差異)を規定し、変動長Z2は開始区間の時間長を規定する。また、ビブラートの継続長Z3は、発音区間のうちビブラートが付加される区間の時間長を規定する。例えば、発音期間の継続長X3に対するビブラートの時間長の比率が継続長Z3として指定される。ビブラートの種類Z4は、事前に用意された複数の候補(ビブラートなし/通常のビブラート/大振幅のビブラート/小振幅のビブラート/長周期のビブラート/短周期のビブラート)の何れかに設定される。
【0021】
図1の音声合成部36は、音声素片群DAと音楽データDBとを利用して音声信号Sを生成する。具体的には、音声合成部36は、第1に、音楽データDBが各音符に指定する音声符号X4に対応する音声素片の素片データを音声素片群DAから順次に選択し、第2に、各素片データを、単位データUが指定する音高X1および継続長X3に調整するとともに制御情報X5に応じて音声の特性を調整する。第3に、音声合成部36は、調整後の素片データを、各単位データUが指定する発音時点X2に配置して相互に連結することで音声信号Sを生成する。音声合成部36が生成した音声信号Sが放音装置26に供給されて音波として再生される。
【0022】
図1の表示制御部32は、音楽データDBの内容を利用者が確認する図3の編集画面50を表示装置22に表示させる。図3に示すように、第1実施形態の編集画面50は、楽譜領域51を含んで構成される。楽譜領域51は、相互に交差する時間軸(横軸)および音高軸(縦軸)が設定されたピアノロール型の座標平面である。図3において時間軸方向に等間隔に配列された縦方向の破線Lは、楽曲内の1拍分に相当する期間の境界線(以下「拍線」という)を意味する。すなわち、時間軸上で相互に隣合う2本の拍線Lの間隔が楽曲の1拍分の時間長に相当する。
【0023】
表示制御部32は、音楽データDBが指定する各音符を表現する音符図形Vを楽譜領域51内に配置する。第1実施形態の音符図形Vは矩形状の図形である。音楽データDBに対応する楽曲のうちの一部の区間(以下「表示対象区間」という)内の音符について音符図形Vが楽譜領域51に表示される。音高軸方向における音符図形Vの位置は音楽データDBの音高X1に応じて設定され、時間軸方向における音符図形Vの位置は音楽データDBの発音時点X2に応じて設定される。時間軸方向における音符図形Vの表示長は音楽データDBの継続長X3に応じて設定される。また、音楽データDBの音声符号X4が音符図形Vの内部に配置される。
【0024】
図1の編集処理部34は、楽譜領域51に対する利用者からの指示に応じて音楽データDBを編集する。例えば楽譜領域51内の既存の音符図形Vの位置の変更が指示された場合、その音符図形Vに対応する単位データUの音高X1および発音時点X2が変更され、音符図形Vの表示長の変更が指示された場合には単位データUの継続長X3が変更される。また、各音符図形Vに対応する音声符号X4の変更が指示された場合、その音符図形Vに対応する単位データUの音声符号X4が変更される。また、音符図形Vの追加が指示された場合にはその音符図形Vに対応する単位データUが音楽データDBに追加される。
【0025】
図3に示すように、編集画面50は、楽譜領域51の時間軸方向の表示倍率Rtを利用者が変更するための操作子画像(スライダ)52を含む。利用者は、入力装置24を使用して操作子画像52を適宜に操作することが可能である。表示制御部32は、操作子画像52に対する操作で利用者が指定した表示倍率Rtとなるように楽譜領域51内の表示画像を時間軸方向に伸縮する。
【0026】
表示倍率Rtは、楽譜領域51内での楽曲の単位時間(例えば楽曲の1拍分の時間長)の表示上の長さに相当する。したがって、表示倍率Rtが増加する(楽譜領域51内での単位時間の表示長が長くなる)ほど楽曲内の表示対象区間は短くなり、楽曲のうち楽譜領域51内に表示される小節数や拍数が減少する(拍線Lの間隔が拡大する)とともに各音符図形Vは時間軸方向に伸長する。他方、表示倍率Rtが減少する(楽譜領域51内での単位時間の表示長が短くなる)ほど楽曲内の表示対象区間は長くなり、楽曲のうち楽譜領域51内に表示される小節数や拍数が増加する(拍線Lの間隔が縮小する)とともに音符図形Vは時間軸方向に縮小される。なお、表示倍率Rtを変化させた場合でも楽譜領域51自体の表示サイズは変化しない。
【0027】
表示制御部32は、表示倍率Rtに応じて楽譜領域51の表示態様を変化させる。具体的には、表示制御部32は、利用者が設定した表示倍率Rtと所定の閾値THとを比較し、表示倍率Rtが閾値THを下回る第1表示状態と表示倍率Rtが閾値THを上回る第2表示状態とで楽譜領域51の表示態様を変化させる。すなわち、第2表示状態は、楽譜領域51を第1表示状態と比較して拡大表示した状態を意味する。図3は、第1表示状態での編集画面50の表示例であり、図5は、第2表示状態での編集画面50の表示例である。
【0028】
図3に示すように、第1表示状態では、表示制御部32は、各音符図形Vの周囲に表情図形Eを配置する。表情図形Eは、各音符の制御情報X5の編集を利用者が開始するための図形であり、発音期間内の開始区間に対応する第1部分E1と、ビブラートが付加され得る区間(すなわち発音区間の末尾側の区間)に対応する第2部分E2とを含んで構成される。ビブラートが付加される音符の第2部分E2は波線状の図形(すなわちビブラートによる音高の変化を表現する図形)に設定され、ビブラートが付加されない音符の第2部分E2は直線状の図形(すなわち音高が一定に維持されることを表現する図形)に設定される。
【0029】
所望の音符に対応する表情図形Eの第1部分E1を利用者が入力装置24の操作(例えばマウスによるクリック)で指示すると、その音符の開始区間に関する制御情報X5(Z1,Z2)を設定するための図4の部分(A)の設定画面61が編集画面50とは別個に表示される。利用者は、設定画面61に対する操作により開始区間内の音高の変動幅Z1と変動長Z2とを任意に設定することが可能である。編集処理部34は、音楽データDBの制御情報X5が指定する変動幅Z1と変動長Z2とを設定画面61での設定値に変更する。
【0030】
また、所望の音符に対応する表情図形Eの第2部分E2を利用者が指示すると、その音符のビブラートに関する制御情報X5(Z3,Z4)を設定するための図4の部分(B)の設定画面62が編集画面50とは別個に表示される。利用者は、設定画面62に対する操作によりビブラートの継続長Z3を任意に設定するとともにビブラートの種類Z4を複数の候補から選択することが可能である。編集処理部34は、音楽データDBの制御情報X5が指定するビブラートの継続長Z3と種類Z4とを設定画面62での設定値に変更する。
【0031】
第1表示状態で楽譜領域51内に配置される表情図形Eの第1部分E1および第2部分E2の表示には、事前に用意された所定の図形が使用される。すなわち、第1部分E1の画像は、制御情報X5には依存せず、複数の表情図形Eにわたり共通する。また、第2部分E2の画像は、時間軸方向の表示長がビブラートの継続長Z3に応じて設定される以外は、複数の表情図形Eにわたり共通する。例えば、第2部分E2の波線の振幅や周期は複数の表情図形Eにわたり共通する。
【0032】
他方、表示倍率Rtが第1表示状態と比較して高い第2表示状態(拡大表示時)では、表示制御部32は、図5に示すように、楽譜領域51内の各音符図形Vに対応する位置(音符図形Vの直下)に遷移画像QAを配置する。遷移画像QAは、制御情報X5を実際に反映させた各音符の音高の時間変化を表現する画像(曲線または折線)である。したがって、遷移画像QAの態様(特徴量の時間変化)は音符毎に相違し得る。具体的には、遷移画像QAが示す音高は、図6に示すように、変動長Z2の開始区間内で変動幅Z1にわたり変化して音高X1に到達し、種類Z4に応じた振幅および周期で継続長Z3にわたり変動する。
【0033】
利用者は、入力装置24を適宜に操作する(例えば遷移画像QAの一部をマウスでドラッグする)ことで、所望の音符に対応する遷移画像QAの変化を指示することが可能である。表示制御部32は、利用者からの指示に応じて遷移画像QAの形状を変化させる。図6には、遷移画像QAの変化が破線で例示されている。編集処理部34は、利用者が操作した遷移画像QAが示す音符の制御情報X5を、その遷移画像QAの変化に対応するように編集する。
【0034】
例えば図6に破線で示すように遷移画像QAの左端部を利用者が音高軸方向に移動させた場合には、制御情報X5のうち音高の変動幅Z1が変更され、遷移画像QAの開始区間を利用者が伸縮した場合には制御情報X5のうち音高の変動長Z2が変更される。また、遷移画像QAのビブラートの区間を利用者が伸縮した場合には制御情報X5のうちビブラートの継続長Z3が変更され、遷移画像QAにおけるビブラートの振幅や周期を利用者が変更した場合には制御情報X5内のビブラートの種類Z4が変更される。
【0035】
以上に説明したように、第1表示状態では、表情図形Eに対する指示を契機として表示される設定画面(61,62)を操作することで制御情報X5が編集されるのに対し、第2表示状態では、楽譜領域51内に配置された遷移画像QAに対する操作(すなわち楽譜領域51に対する直接的な操作)で制御情報X5が編集される。したがって、例えば楽譜領域51内の各音符の相関を確認しながら各音符の制御情報X5を直観的に編集することが可能である。
【0036】
なお、表示倍率Rtが低い第1表示状態でも楽譜領域51に遷移画像QAを表示して利用者による操作を受付ける構成では、楽譜領域51内に多数の音符図形Vと多数の遷移画像QAとが小さいサイズで混在するから、制御情報X5が所望の数値に編集されるように利用者が遷移画像QAを正確に操作することは困難である。第1実施形態では、表示倍率Rtが閾値THを上回る第2表示状態(拡大表示時)のみで遷移画像QAが表示されるから、遷移画像QAの正確な操作が容易であるという利点がある。他方、第1表示状態では、設定画面(61,62)を操作することで制御情報X5を正確に設定することが可能である。
【0037】
<第2実施形態>
本発明の第2実施形態を説明する。なお、以下に例示する各形態において作用や機能が第1実施形態と同等である要素については、以上の説明で参照した符号を流用して各々の詳細な説明を適宜に省略する。
【0038】
図7は、第2実施形態における第2表示状態での編集画面50(楽譜領域51)の模式図である。第2実施形態では、楽譜領域51内の各音符図形Vに対応する位置に、第1実施形態と同様の遷移画像QAに加えて変数指示画像QB(QB1〜QB4)が配置される。各音符に対応する変数指示画像QBは、その音符の制御情報X5の数値を示す画像である。
【0039】
具体的には、変数指示画像QB1は音高の変動幅Z1を表示し、変数指示画像QB2は音高の変動長Z2を表示する。また、変数指示画像QB3はビブラートの継続長Z3を表示し、変数指示画像QB4はビブラートの種類Z4を表示する。なお、第1表示状態での表示画像は第1実施形態と同様である。すなわち、第1表示状態では、遷移画像QAや変数指示画像QBは楽譜領域51に表示されない。
【0040】
利用者は、入力装置24を適宜に操作することで所望の変数指示画像QBの数値を指示することが可能である。表示制御部32は、変数指示画像QBの数値を利用者が指定した数値に変更する。編集処理部34は、変数指示画像QBに対して利用者が指示した数値に応じて、その変数指示画像QBに対応する音符の制御情報X5を編集する。
【0041】
例えば、変数指示画像QB1の数値が変更された場合には制御情報X5のうち音高の変動幅Z1が変更後の数値に更新され、変数指示画像QB2の数値が変更された場合には制御情報X5のうち音高の変動長Z2が変更後の数値に更新される。同様に、制御情報X5のうちビブラートの継続長Z3は変数指示画像QB3に対する指示に応じて更新され、制御情報X5のうちビブラートの種類Z4は変数指示画像QB4に対する指示(例えばプルダウンメニューの複数の候補からビブラートの種類を選択する指示)に応じて更新される。
【0042】
変数指示画像QBに対する利用者からの指示に応じて制御情報X5が更新されると、表示制御部32は、更新後の制御情報X5に対応するように遷移画像QAを更新する。また、利用者は、第1実施形態と同様に、入力装置24を操作することで遷移画像QAを変化させることが可能である。遷移画像QAの変化に対応するように制御情報X5が更新されると、表示制御部32は、各変数指示画像QBの数値を制御情報X5の更新後の内容に変更する。
【0043】
以上に説明したように、第2実施形態の第2表示状態では、楽譜領域51内に配置された変数指示画像QB(QB1〜QB4)に対する操作(すなわち楽譜領域51に対する直接的な操作)で制御情報X5が編集される。したがって、第1実施形態と同様に、例えば楽譜領域51内の各音符の相関を確認しながら各音符の制御情報X5を直観的に編集することが可能である。また、表示倍率Rtが高い第2表示状態にて変数指示画像QBが表示されるから、例えば表示倍率Rtが低い第1表示状態でも変数指示画像QBを表示する構成と比較して、変数指示画像QBの数値を変更する操作が容易であるという利点がある。表示倍率Rtが低い第1表示状態では変数指示画像QBの表示が省略されて楽譜領域51が簡素化されるから、利用者が各音符図形Vを容易に確認できるという利点もある。
【0044】
<第3実施形態>
第3実施形態の制御情報X5は、第1実施形態と同様の変数(Z1〜Z4)に加えて処理選択情報Z5を含んで構成される。各音符の制御情報X5の処理選択情報Z5は、その音符の合成音の生成時に所定の処理(以下「特定処理」という)を実行するか否かを複数種の特定処理の各々について指定する。特定処理は、音声合成時に音声合成部36が実行可能な処理である。以下の説明では、ポルタメント処理と自動素片決定処理とを特定処理として例示する。ポルタメント処理は、相前後する2個の音符の音高を連続的に連結する処理である。自動素片決定処理は、利用者が指定した音声符号X4(発音文字)に対応する音声素片を自動的に選択する処理である。自動素片決定処理を実行しない状態では、利用者が任意に指定した音声素片が音声符号X4とは無関係に選択される。すなわち、利用者による音声素片の選択が保護(プロテクト)される。
【0045】
図8は、第3実施形態における第2表示状態での編集画面50(楽譜領域51)の模式図である。第3実施形態では、楽譜領域51内の各音符図形Vに対応する位置に、第1実施形態と同様の遷移画像QAに加えて処理選択画像QC(QC1,QC2)が配置される。各音符に対応する処理選択画像QCは、その音符の合成音の生成時に特定処理を実行するか否かを示す画像である。処理選択画像QC1は、ポルタメント処理の実行の有無を示す画像であり、処理選択画像QC2は、自動素片決定処理の実行の有無を示す画像である。表示制御部32は、制御情報X5の処理選択情報Z5に応じて各処理選択画像QC(QC1,QC2)を表示させる。処理選択画像QC1のチェックボックスがオンに設定された状態(チェックが付加された状態)はポルタメント処理を実行することを意味し、処理選択画像QC2のチェックボックスがオンに設定された状態は自動素片決定処理を実行しないことを意味する。なお、第1表示状態での表示画像は第1実施形態と同様である。すなわち、第1表示状態では、遷移画像QAや処理選択画像QCは楽譜領域51に表示されない。
【0046】
利用者は、入力装置24を適宜に操作する(例えば各処理選択画像QCのチェックボックスをマウスでクリックする)ことで、各処理選択画像QCに対応する特定処理の実行の有無を指示することが可能である。表示制御部32は、各処理選択画像QCのチェックボックスを利用者からの指示に応じてオンまたはオフに設定する。編集処理部34は、各処理選択画像QCに対する利用者からの指示に応じて、その音符に対応する制御情報X5(処理選択情報Z5)を編集する。
【0047】
以上に説明したように、第3実施形態の第2表示状態では、楽譜領域51内に配置された処理選択画像QC(QC1,QC2)に対する操作(すなわち楽譜領域51に対する直接的な操作)で制御情報X5が編集される。したがって、第1実施形態と同様に、例えば楽譜領域51内の各音符の相関を確認しながら各音符の制御情報X5を直観的に編集することが可能である。また、表示倍率Rtが高い第2表示状態にて処理選択画像QCが表示されるから、例えば表示倍率Rtが低い第1表示状態でも処理選択画像QCを表示する構成と比較して、処理選択画像QCの操作が容易であるという利点がある。表示倍率Rtが低い第1表示状態では処理選択画像QCの表示が省略されて楽譜領域51が簡素化されるから、利用者が各音符図形Vを容易に確認できるという利点もある。
【0048】
<第4実施形態>
図9は、第4実施形態における第2表示状態での編集画面50の模式図である。第1実施形態では、楽譜領域51内の各音符図形Vの周囲に遷移画像QAを配置した。第4実施形態の表示制御部32は、図9に示すように、各音符の音符図形Vの内側(輪郭線の内部)にその音符の遷移画像QAを配置する。
【0049】
第4実施形態の編集画面50は、図9に示すように、楽譜領域51の音高軸方向の表示倍率Rpを利用者が変更するための操作子画像(スライダ)53を含んで構成される。利用者は、入力装置24を使用して操作子画像53を適宜に操作することが可能である。表示制御部32は、操作子画像53に対する操作で利用者が指定した表示倍率Rpとなるように楽譜領域51内の表示画像を音高軸方向に伸縮する。
【0050】
図10は、図9の状態から表示倍率Rpを増加させた場合の編集画面50の模式図である。図10に示すように、表示制御部32は、表示倍率Rpが増加するほど、音高軸方向における1個の音高の表示幅(図10の横方向の破線の間隔)を拡大するとともに各音符図形Vを音高軸方向に伸長する。そして、表示制御部32は、音符図形Vの伸長に連動するように遷移画像QAも音高軸方向に伸長する。すなわち、遷移画像QAが示す音高の時間変化が強調されて視認し易くなる。なお、表示倍率Rpに連動した遷移画像QAの伸縮では制御情報X5は変更されない。遷移画像QAに対する利用者からの指示に応じて制御情報X5が編集される構成は第1実施形態と同様である。
【0051】
第4実施形態においても第1実施形態と同様の効果が実現される。また、第4実施形態では、音高軸方向の表示倍率Rpが変更され得るから、利用者は、表示倍率Rpを増加させることで、遷移画像QAが示す音高の時間変化を詳細に確認することが可能である。
【0052】
また、第4実施形態では、遷移画像QAで表現される音高が音高軸上の数値に対応するから、音符図形Vの周囲に遷移画像QAを配置した第1実施形態の構成(すなわち、遷移画像QAが表現する音高と音高軸上の数値とが必ずしも整合しない構成)と比較して、遷移画像QAが示す音高の数値を利用者が正確かつ容易に把握できる(ひいては編集作業が容易化される)という利点がある。
【0053】
<第5実施形態>
第5実施形態の制御情報X5は、第1実施形態と同様の変数(Z1〜Z4)に加えて、各音符の発音時点X2の直後の振幅の微細な変化を規定する変数(強勢度Z6,減衰度Z7)を含んで構成される。強勢度Z6は、発音時点X2の直後にて音声の振幅が増加する速度(アクセント)を規定し、減衰度Z7は、発音開始後に音声の振幅が減衰する度合(ディケイ)を規定する。
【0054】
図11は、第5実施形態における第2表示状態での編集画面50の模式図である。表示制御部32は、第2表示状態において、楽譜領域51内の各音符図形Vに対応する位置に遷移画像QDを配置する。遷移画像QDは、制御情報X5(Z6,Z7)を実際に反映させた各音符の振幅の時間変化を表現する画像(曲線または折線)である。すなわち、遷移画像QDが示す振幅は、図11に示すように、発音時点X2から強勢度Z6に応じた速度で増加して目標値に到達したうえで減衰度Z7に応じた度合で経時的に減衰する。
【0055】
第1実施形態の遷移画像QAと同様に、利用者は、入力装置24を利用して遷移画像QDを直接的に操作することで制御情報X5の編集を指示することが可能である。すなわち、表示制御部32は、利用者からの指示に応じて遷移画像QDの形状を変化させ、編集処理部34は、利用者が操作した遷移画像QDが示す音符の制御情報X5(強勢度Z6,減衰度Z7)を、その遷移画像QDの変化に対応するように編集する。したがって、第5実施形態においても第1実施形態と同様の効果が実現される。
【0056】
なお、第2実施形態の変数指示画像QBや第3実施形態の処理選択画像QCを遷移画像QDとともに(または遷移画像QDに代えて)音符毎に楽譜領域51に配置することも可能である。変数指示画像QBは、例えば強勢度Z6や減衰度Z7を利用者が指定するために使用され得る。また、第4実施形態と同様に、遷移画像QDを音符図形Vの内側に配置した構成や、音高軸方向の表示倍率Rpに応じて遷移画像QDを音符図形Vとともに音高軸方向に伸縮する構成も採用される。
【0057】
<変形例>
以上の各形態は多様に変形され得る。具体的な変形の態様を以下に例示する。以下の例示から任意に選択された2以上の態様を適宜に併合することも可能である。
【0058】
(1)時間軸方向の表示倍率Rtが高い第2表示状態では、楽譜領域51内に表示される音符図形Vの個数が第1表示状態と比較して減少する。そこで、楽曲内の表示対象区間の前後の各音符に対応する情報を表示対象区間内の情報とともに楽譜領域51に配置する構成が好適である。例えば図12のように、表示制御部32は、表示対象区間内の各音符の音声符号X4_A(「さいた」の文字列)とともに、表示対象区間の直後の所定個の音符(すなわち音符図形Vが楽譜領域51内には表示されない音符)の音声符号X4_B(「はなが」の文字列)を楽譜領域51内に配置する。以上の構成によれば、表示倍率Rtが高い場合でも楽曲内の広い範囲にわたり各音符の情報(例えば音声符号X4)を確認することが可能である。
【0059】
(2)表示倍率Rtや表示倍率Rpを利用者が変更するための構成は任意である。例えば、表示倍率Rtや表示倍率Rpを利用者が数値で指定する構成や、利用者による所定の操作(例えばボタンの押下)で表示倍率Rtや表示倍率Rpを所定値(例えば閾値TH)に設定する構成が採用される。また、利用者が1個の音符図形Vを選択した場合に、その音符図形Vを含む所定の範囲の音符図形Vが楽譜領域51に位置するように表示倍率Rtを設定することも可能である。例えば、図3に例示された第1表示状態において先頭から第2番目の音符図形V(音声符号「い」)を利用者が選択した場合に、利用者が選択した音符図形Vと直前および直後の音符図形Vとを含む3個の音符図形Vが楽譜領域51の時間軸方向の全体にわたるように(すなわち図3の表示から図5の表示に変更されるように)表示倍率Rtが自動的に設定される。
【0060】
(3)各制御情報X5の変更指示を利用者から受付けるための画像(以下「編集画像」という)の形態は以上の例示に限定されない。例えば、利用者からの指示に応じて回転する形式の操作子(ツマミ)の画像や、利用者からの指示に応じて直線的に移動する形式の操作子(スライダ)の画像が、例えば第2実施形態の変数指示画像QBとして採用され得る。また、第1実施形態の遷移画像QAと第2実施形態の変数指示画像QBと第3実施形態の処理選択画像QCとを適宜に組合わせて編集画像を構成することも可能である。以上の説明から理解されるように、前述の各形態にて例示した編集画像(QA〜QD)は、制御情報X5の変更指示を利用者から受付けるための画像として包括され、編集画像に対する変更指示が直接的に(すなわち設定画面61や設定画面62等の他の画像に対する操作を介することなく)制御情報X5に反映される。
【0061】
(4)前述の各形態では、表示倍率Rtが閾値THを上回る第2表示状態にて各音符図形Vの周囲に編集画像(QA〜QD)を配置したが、第1表示状態および第2表示状態の双方において各音符図形Vの周囲に編集画像(QA〜QD)を配置することも可能である。第1表示状態および第2表示状態の双方で編集画像(QA〜QD)を表示する場合、第1表示状態にて編集画像に対する操作で編集可能な制御情報X5の種類数よりも多数の制御情報X5を、第2表示状態(拡大表示時)にて編集画像に対する操作で編集可能とした構成が好適に採用される。
【0062】
例えば、各音符の音高の時間変化を表現する第1実施形態の遷移画像QAを表示する場合、第1表示状態ではビブラートの継続長Z3の変更のみが許可され、第2表示状態ではビブラートの継続長Z3および種類(音高の変動幅)Z4の双方の変更が許可される。第1表示状態ではビブラートの継続長Z3の変更のみを許可し、第2表示状態では、ビブラートの継続長Z3や種類Z4等の変更指示を受付ける遷移画像QAを各音符図形Vの内側に配置することも可能である。また、第1表示状態では音高の時間変化の変更指示を受付ける遷移画像QAを表示し、第2表示状態では、特定処理の有無を示す処理選択画像QCを遷移画像QAに加えて表示する構成も採用され得る。以上に例示した各態様は、編集画像に対する操作で編集可能な制御情報X5の種類数が表示倍率Rtに応じて変化する構成(例えば第2表示状態で編集可能な制御情報X5の種類数が第1表示状態で編集可能な制御情報X5の種類数を上回る構成)として包括され、第1表示状態および第2表示状態の各々で表示される画像の具体的な内容は、以上の例示に限定されることなく適宜に変更される。また、例えば表示倍率Rtが閾値THを上回る場合にマウスカーソルの表示態様を変化させる構成も採用され得る。
【0063】
(5)編集画像に対する利用者からの指示に応じて編集可能な制御情報X5の種類は以上の例示に限定されない。例えば、合成音の音量(ダイナミクス,ベロシティ)や明瞭度(高域成分の増減度合)や発声時の開口の度合等の変数を制御情報X5として、編集画像に対する指示に応じて編集する構成が採用される。すなわち、制御情報X5は、音声合成に適用される変数として包括される。また、制御情報X5のうち楽譜領域51に表示させる情報を利用者が選択できる構成も好適である。
【0064】
(6)前述の各形態では、楽曲の1個のパートの音符を楽譜領域51に表示したが、楽曲の複数のパートの各々の音符を楽譜領域51に同時または選択的に表示することも可能である。音符図形Vはパート毎に相異なる態様(すなわち、色彩や階調の相違により各パートの音符図形Vを視覚的に区別可能な態様)で表示される。
【0065】
(7)第3実施形態における処理選択画像QCの形式は以上の例示に限定されない。例えば、図13に例示される通り、自動素片決定処理やポルタメント処理等の特定処理の実行(すなわち、前述の処理選択画像QC1や処理選択画像QC2のチェックボックスがオンに設定された状態)を意味する処理選択画像QC3を音符図形Vに付加する(例えば音符図形Vに重複させる)ことも可能である。図13の例示では、音符図形Vとは表示態様が相違する図形(三角形)が処理選択画像QC3として音符図形Vの隅部(右下隅)に配置されている。利用者が処理選択画像QC3を操作する(例えばマウスでクリックする)と、処理選択画像QC3が消去された状態(特定処理を実行しない状態)に変更される。処理選択画像QC3が消去された状態で利用者が音符図形Vの隅部を操作すると、処理選択画像QC3が表示される。したがって、利用者は、処理選択画像QC3の表示/非表示で特定処理の実行の有無を視覚的に確認することが可能である。なお、処理選択画像QCの表示/非表示を制御する構成のほか、処理選択画像QCの表示態様(色彩や階調)を特定処理の実行の有無に応じて制御する構成も採用され得る。
【0066】
(8)前述の各形態では、音声素片群DAと音楽データDBとを記憶する記憶装置14を音声合成装置100に搭載したが、音声合成装置100とは独立した外部装置(例えばサーバ装置)が音声素片群DAおよび音楽データDBの一方または双方を記憶する構成も採用され得る。音声合成装置100は、例えば通信網を介して音声素片群DAまたは音楽データDBを取得して、編集画面50の表示や音楽データDBの編集や音声信号Sの合成を実行する。以上の説明から理解されるように、音声素片群DAや音楽データDBを記憶する要素(前述の各形態における記憶装置14)は音声合成装置100の必須の要素ではない。
【0067】
(9)前述の各形態では、日本語の音声の合成を例示したが、合成対象となる音声の言語は任意であり、日本語には限定されない。例えば、英語,スペイン語,中国語,韓国語等の任意の言語の音声を生成する場合にも以上の各形態を同様に適用することが可能である。
【0068】
(10)前述の各形態では、音声合成部36を含む音声合成装置100を例示したが、音楽データDBを表示装置22に表示させて利用者からの指示に応じて編集する装置(音楽データ編集装置)としても本発明は実現される。音楽データ編集装置は、例えば図1の音声合成装置100から音声合成部36を省略した構成である。音楽データ編集装置に音声合成部36を追加することで音声合成装置100が実現されると換言することも可能である。
【0069】
また、前述の各形態では、音声合成に適用される音楽データDBを例示したが、音楽データDBを適用した合成の対象は音声(人声)に限定されない。例えば、各種の楽器の演奏音の合成(楽音合成)に音楽データDBを利用することも可能である。すなわち、音楽データDBは、音声合成や楽音合成を包含する音響合成に適用されるデータとして包括される。
【符号の説明】
【0070】
100……音声合成装置、12……演算処理装置、14……記憶装置、22……表示装置、24……入力装置、26……放音装置、32……表示制御部、34……編集処理部、36……音声合成部。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13