特許第6299141号(P6299141)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特許6299141楽音情報生成装置および楽音情報生成方法
<>
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000002
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000003
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000004
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000005
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000006
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000007
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000008
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000009
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000010
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000011
  • 特許6299141-楽音情報生成装置および楽音情報生成方法 図000012
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6299141
(24)【登録日】2018年3月9日
(45)【発行日】2018年3月28日
(54)【発明の名称】楽音情報生成装置および楽音情報生成方法
(51)【国際特許分類】
   G10H 1/00 20060101AFI20180319BHJP
   G10L 13/00 20060101ALI20180319BHJP
   G10L 13/033 20130101ALI20180319BHJP
【FI】
   G10H1/00 102Z
   G10L13/00 100Y
   G10L13/033 102B
【請求項の数】5
【全頁数】12
(21)【出願番号】特願2013-216251(P2013-216251)
(22)【出願日】2013年10月17日
(65)【公開番号】特開2015-79130(P2015-79130A)
(43)【公開日】2015年4月23日
【審査請求日】2016年8月23日
(73)【特許権者】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000752
【氏名又は名称】特許業務法人朝日特許事務所
(72)【発明者】
【氏名】入山 達也
【審査官】 菊池 智紀
(56)【参考文献】
【文献】 特開2000−315081(JP,A)
【文献】 特開2011−095397(JP,A)
【文献】 国際公開第2013/149188(WO,A1)
【文献】 特開2006−178052(JP,A)
【文献】 特開2011−175006(JP,A)
【文献】 北原鉄朗 他,"OrpheusBB:Human-in-the-loop型の自動作曲システム",インタラクション2011予稿集,2011年 3月10日
【文献】 深山覚 他,"Orpheus Ver.3.0:自動作曲パラメタの編集機能に基づく音楽制作支援システム",情報処理学会研究報告,2011年 9月15日,Vol.2011-MUS-91,No.16,p.7
(58)【調査した分野】(Int.Cl.,DB名)
G10H 1/00− 7/12
G10L 13/00−13/10
(57)【特許請求の範囲】
【請求項1】
互いに異なる抑揚表現に対応する第1の楽音情報と第2の楽音情報とを記憶する記憶部と、
歌詞を入力する入力部と、
楽音情報の歌らしさまたは話し言葉らしさを表す指標であるパラメータを指定する指定部と、
前記入力部にて入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成する生成部と、
前記指定部により指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正する補正部であって、その補正量を前記第1の楽音情報と前記第2の楽音情報と前記パラメータとを用いて決定する前記補正部
を有する楽音情報生成装置。
【請求項2】
前記楽音情報には、各形態素について、前記音高に加え、音の長さ、音の強弱、音高の時間変化および音の強弱の時間変化のうち少なくともいずれか一つが含まれる
ことを特徴とする請求項1に記載の楽音情報生成装置。
【請求項3】
前記第1の楽音情報は音楽的な表現を代表し、前記第2の楽音情報は非音楽的な表現を代表する
ことを特徴とする請求項1または2に記載の楽音情報生成装置。
【請求項4】
前記指定部は、前記パラメータの値と当該値が適用される期間とを指定する
ことを特徴とする請求項1ないし3のいずれか一つの記載の楽音情報生成装置。
【請求項5】
互いに異なる抑揚表現に対応する第1の楽音情報と第2の楽音情報とを記憶するステップと、
歌詞を入力するステップと、
楽音情報の歌らしさまたは話し言葉らしさを表す指標であるパラメータを指定するステップと、
該入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成するステップと、
該指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正するステップと
を有し、
前記補正するステップにおいて、その補正量を、前記第1の楽音情報と前記第2の楽音情報と前記パラメータとを用いて決定することを特徴とする楽音情報生成方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は歌詞に楽音情報を付与する技術に関する。
【背景技術】
【0002】
入力された歌詞に応じたメロディをつける、いわゆる自動作曲の技術がある。特許文献1には、入力された歌詞を単語に分解し、単語の抑揚情報を参照することによって、各単語に対して音高情報を生成する装置が開示されている。この技術によれば、ユーザは、楽音情報を指定する作業を行う必要なく、歌詞を入力するだけでメロディを取得することができる。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2002−149179号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の技術では、入力した歌詞に対応して自動的に1つのメロディが生成される。つまり、歌詞を決定するとメロディが一意に決定されてしまうので、ユーザの好み等に応じて、1つの歌詞から様々なメロディを生成することはできない。
本発明は、歌詞に応じて生成される楽音情報に自由度を持たせることを目的とする。
【課題を解決するための手段】
【0005】
本発明は、一の態様において、互いに異なる抑揚表現に対応する第1の楽音情報と第2の楽音情報とを記憶する記憶部と、歌詞を入力する入力部と、楽音情報の歌らしさまたは話し言葉らしさを表す指標であるパラメータを指定する指定部と、前記入力部にて入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成する生成部と、前記指定部により指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正する補正部であって、その補正量を前記第1の楽音情報と前記第2の楽音情報と前記パラメータとを用いて決定する前記補正部とを有する楽音情報生成装置を提供する。
好ましい態様において、前記楽音情報には、各形態素について、前記音高に加え、音の長さ、音の強弱、音高の時間変化および音の強弱の時間変化のうち少なくともいずれか一つが含まれる。
ましい態様において、前記第1の楽音情報は音楽的な表現を代表し、前記第2の楽音情報は非音楽的な表現を代表する。
好ましい態様において、前記指定部は、前記パラメータの値と当該値が適用される期間とを指定する。
本発明は、他の観点において、互いに異なる抑揚表現に対応する第1の楽音情報と第2の楽音情報とを記憶するステップと、歌詞を入力するステップと、楽音情報の歌らしさまたは話し言葉らしさを表す指標であるパラメータを指定するステップと、該入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成するステップと、該指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正するステップとを有し、前記補正するステップにおいて、その補正量を、前記第1の楽音情報と前記第2の楽音情報と前記パラメータとを用いて決定することを特徴とする楽音情報生成方法を提供する。
【発明の効果】
【0006】
本発明によれば、歌詞に応じて生成される楽音情報に自由度を持たせることができる。
【図面の簡単な説明】
【0007】
図1】楽音情報生成装置10の機能ブロック図である。
図2】楽音情報生成装置10の動作フローである。
図3】入力画面の一例を表す図である。
図4】歌詞に基づいて生成されるピッチカーブの一例である。
図5】歌詞に基づいて生成されるピッチカーブの一例である。
図6】パラメータに対応するピッチカーブの一例である。
図7】入力画面の他の例を表す図である。
図8】入力画面の他の例を表す図である。
図9】入力画面の他の例を表す図である。
図10】入力画面の他の例を表す図である。
図11】入力画面の他の例を表す図である。
【発明を実施するための形態】
【0008】
図1は楽音情報生成装置10の機能ブロック図である。楽音情報生成装置10は、制御部11、入力部12、記憶部13、表示部14、放音部18を含む。好ましい態様において、楽音情報生成装置10は、一般的なコンピュータとしての機能を有する。コンピュータには、デスクトップPCの他、スマートフォンなどの携帯端末が含まれる。
【0009】
入力部12は、キーボード、マウス、タッチパネル、マイクなどの、ユーザが情報や指示を楽音情報生成装置10に入力するために用いられる入力装置である。ユーザは、入力部12を介して、所望の歌詞およびパラメータを入力する。パラメータとは、決定部16にて生成された複数の楽音情報によって表されるメロディを補正する際に補正部17が用いる情報である。この実施例では、パラメータは、補正後の楽音情報の歌らしさまたは話し言葉らしさを表す一の指標である。なお、以下における「歌詞」とは、音階や拍などによって表される一般的な楽曲によって規定される音程や音長に従って発声を行うもののみを意味するのではなく、一般的な言葉を含み、文字によって特定することができる文字情報をいう。同様に、「メロディ」とは、音階や拍などによって表される一般的な楽曲の枠組みに従って生成されるもののみを意味するものでなく、少なくとも音程の情報を含む、歌詞を発話するガイドとなる楽音情報をいう。例えば、「今日はいい天気」という文字情報は歌詞になり得るし、ピッチを時間の関数であらわした場合に連続的に変化するものも「メロディ」となり得る。
【0010】
表示部14は、液晶パネルやその駆動回路を含み、画像を表示する。具体的には、表示部14は、補正部17から出力された楽音情報に基づいて生成されたメロディを表す画面を生成する。
【0011】
記憶部13は、ハードディスクや半導体メモリ等の記憶装置である。記憶部13には、制御部11の機能を発揮させるためのプログラムの他、データベース15が格納される。データベース15は、形態素と抑揚(イントネーション)の情報とを対応付けて記憶している。抑揚の情報には、その形態素がどのような音程で発音されるべきなのか、発音中に音高がどのような時間変化するのか、発音がどれくらい持続するのか(発音開始および発音終了のタイミングによって定まる音の長さ)が含まれる。より具体的には、抑揚の情報は一のパラメータに対して2種類記憶される。本実施例の歌らしさを表すパラメータに対しては、1つは、その歌詞が発音されたとき最も歌らしく聞こえる抑揚の付け方(いわば歌らしさ100%に対応)を表すものであり、他方は、その歌詞が発音されたとき話し言葉らしく聞こえる(いわば歌らしさ0%に対応)抑揚の付け方を規定するものである。なお、ここでいう抑揚とは、抑揚がゼロの場合をも含む概念である。
なお、歌らしさが「100%」、「0%」という概念は、抑揚の程度の表現の仕方の一例にすぎない。例えば、2つの楽音情報は、それぞれ音楽的(または歌唱的)な表現を代表するものと、非音楽的(または非歌唱的)な表現を代表するもの把握することも可能である。要するに、2つの楽音情報は互いに異なる抑揚表現に対応する。
【0012】
なお、形態素とは、一般的には、意味をもつ最小の単位をいい、一の形態素は一の音素または複数の音素(音素のまとまり)に対応するものである。しかし、本実施例における形態素とは、このような音声学または言語学上の意味に必ずしも限定されない。要するに、その形態素に意味のある音の割り当てを行うことができる最小の単位、またはこの最小単位を所定の規則でまとめたものである。
例えば、日本語の場合、五十音の清音とこれに濁音、半濁音、長音、促音、撥音、拗音を組み合わせてえられる音、およびこれらの音を複数組み合わせたものを形態素と定義することができる。このように形態素の定義は任意であり、言語によって適切な適宜は異なり得るが、本発明はすべての言語に適用することが可能である。
以下では、入力される言語は日本語であり、形態素として五十音およびこれらの濁音、半濁音、長音、促音、撥音、拗音の組み合わせ(五十音等という)を採用する。すなわち、入力された歌詞は五十音等に分解され、分解された各音に対して楽音情報の付与が行われる例を示す。
【0013】
制御部11は、CPUや音声処理プロセッサ等のプロセッサによって実現され、決定部16および補正部17を含む。
決定部16は、入力部12にて入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成する。具体的には、決定部16は、既存の形態素解析アルゴリズムを用いて、歌詞から単語や文章から形態素を抽出する。続いて、決定部16は、データベース15を参照し、各形態素に対し楽音情報を生成する。一の形態素についての楽音情報には、当該形態素を発音する際の音高が少なくとも含まれ、好ましくは、これに加えて音長の情報が含まれる。好ましい態様において、楽音情報は、音程や音長の情報に加えて、強弱(音量)についての情報を含んでいてもよい。この実施例では、音高および音長のみを含む楽音情報が生成される例を説明する。
【0014】
各形態素に対して楽音情報が決定されることは、歌詞を構成する全ての形態素についての、発音の開始タイミング、発音の終了タイミング、および発音されている期間における音高の変化(変化しない場合も含む)が決定されることを意味する。従って、全ての形態素について楽音情報をつなぎ合わせれば、入力された歌詞に対応する一つのメロディが生成されることになる。本実施例では、歌詞に対応して生成される楽音情報には、各形態素に対応して発音される音の高さ(ピッチ)に関する情報が少なくとも含まれるため、歌詞に対応するメロディ(つまり歌詞を構成する各形態素の楽音情報をつなぎ合わせたもの)をピッチカーブとして表現する。
【0015】
上述の通り、抑揚の情報には2種類あり、それぞれの情報を用いた楽音情報が生成される。つまり、歌らしさが0%に対応する第1の楽音情報と、歌らしさが100%に対応する第2楽音情報とが生成される。換言すると、一の歌詞に対応して複数の第1の楽音情報からなる第1のメロディと、当該一の歌詞に対応して複数の第2の楽音情報からなる第2のメロディとが生成される。
例えば、第1の楽音情報については、歌詞の時間軸方向のタイミングを保つ(すなわち各形態素の発音タイミング間の間隔を一定にする)ように、既存の音声合成技術を用いて作成される。この際、例えば形態素または形態素の一定のまとまりに対応付けられた楽音情報(音程や音程の時間変化に関する情報)をデータベース15からから読み出して使用して参照してもよい。あるいは、既存の音声合成技術を用いてピッチカーブ情報を生成し、このピッチカーブ情報に基づいて第1のメロディを生成してもよい。なお、生成された第1のメロディや第2のメロディは、入力部12を用いてユーザが修正できるようにしてもよい。換言すると、入力された歌詞に対応する第1のメロディおよび第2のメロディは、自動的または半自動的に決定される。なお、第2の楽音情報は、全ての音高および音量が一定であるという情報(換言すると、実質的な楽音情報が存在しない状態)であってもよい。
生成された第1のメロディおよび第2のメロディは、補正部17における補正処理の基準として用いられる。
【0016】
補正部17は、入力部12から入力されたパラメータに基づいて、入力部12にて入力された歌詞に対応して生成された複数の楽音情報を一括して補正することによって、ユーザに提供する最終的な楽音情報を決定する。具体的には、指定されたパラメータを用いて第1のメロディと第2のメロディを補間することにより、ユーザに提供する最終的な一の第3のメロディを生成する。
【0017】
放音部18は、音声処理回路、スピーカ、アンプ等によって実現され、補正部17から供給される楽音情報と、入力部12から供給される所定の指示とに基づいて放音の開始や停止を行う。
【0018】
図2は楽音情報生成装置10の動作を表す。まず、ユーザは歌詞を入力する(S100)。続いて、ユーザは、入力部12を用いてパラメータを入力する(S102)。決定部16は、入力された歌詞を解析し(S104)、データベース15を参照し、上述した基準メロディを2つ生成する(S106)。補正部17は生成された基準メロディとパラメータとに基づいて一のメロディを生成する(S108)。補正部17にて生成されたメロディは、表示部14にて表示される(S110)。以下、各処理について詳説する。
【0019】
図3は、歌詞の入力およびパラメータの指定を行う画面の一例を表す。
この画面は、大きく、エリアR1とエリアR2とボタンB1とボタンB2によって構成される。
エリアR1は、歌詞すなわちテキスト情報を入力するフィールドである。エリアR2には、パラメータを指定するためのオブジェクトとしてスライダD1および入力フィールドF1が配置される。ユーザはスライダD1を動かすもしくは入力フィールドF1内に数値を入力することにより、入力された歌詞が放音部にて発音されたときに歌らしく聞こえるのか話し言葉らしく聞こえるのかを規定するパラメータの値(0%〜100%)を指定する。ここでは、歌らしさ100%は話し言葉らしさ0%と同義であり、歌らしさ0%は話し言葉らしさ100%と同義であると定義している。ユーザは所望の歌詞を入力し、所望のパラメータを指定し、ボタンB1を押すと、その内容が制御部11に供給される。同図は、歌詞として「おなかすいたな」が入力され、パラメータ(歌らしさ60%)が指定された例を表す。
【0020】
図4および図5は、歌詞に基づいて生成されたメロディのピッチカーブの例(S1、S2)を表す。
決定部16は、入力された歌詞「おなかすいたな」を構成する形態素として「お」、「な」、「か」、「す」、「い」、「た」、「な」を抽出する。決定部16は、データベース15の抑揚情報を参照し、歌らしさ100%の場合と、歌らしさ0%の場合とのそれぞれについて、各形態素ついて、発音タイミング(発音開始時点および発音終了時点)音高(の変化)を決定する。この結果、100%の場合について図4に示すピッチカーブが、0%の場合について図5に示すピッチカーブが、それぞれ一例として得られる。
【0021】
図4について詳説する。ピッチカーブS1は、歌詞「おなかすいたな」が時刻t0(100%)で発音が開始され、時刻tf(100%)で発音が終了し、音程がどのように時間変化するかを示している。ここで、各形態素に対応して描かれている長方形のブロックは、その音が発音されている期間を表す。例えば、形態素「な」は、時刻t1からt1eまでの期間Taにわたって、一定のピッチP2で発音されることを意味する。
【0022】
ピッチカーブS1の決定においては、発音が歌らしく(換言すると音楽的に)聞こえるようにするため、歌詞を構成する文や単語が持つ自然な抑揚感を逸脱しない範囲で、(ア)歌詞に含まれる形態素を発音する際の音程の幅(最高音と最低音との差)が比較的大きく(換言すると、抑揚に富んでいる)、(イ)音高が音階に対応した離散的な値をとる(換言すると、発音中にピッチの時間変化がないまたは乏しく、次の形態素の発音に移行する際にはピッチが非連続的になる)、(ウ)発音持続時間が長め(典型的には、1つの形態素についての発音持続時間が四分音符または二分音符相当となる)となるように設定するのが好ましい。
【0023】
図5について詳説する。ピッチカーブS2は、歌詞「おなかすいたな」が時刻t0(0%)で発音が開始され、時刻tf(0%)で発音が終了し、途中、音程がどのように変化するかを示したものである。各形態素に対応する長方形ブロックは、その音が発音されている期間を表す。例えば、形態素「な」は、時刻t1(0%)にてピッチP5にて発音が開始され、時刻t1e(0%)までTbの間、ピッチP6となるまで連続的に音程が変化する発音処理がなされることを意味する。
話し言葉に対応するピッチカーブの決定においては、話し言葉らしく聞こえるようにするため、歌詞を構成する文や単語が持つ抑揚感を逸脱しない範囲で、(ア)各形態素の発音の音程の幅(最高音と最低音の差)が比較的小さく(換言すると、抑揚に乏しい)、(イ)連続的な音程値をとる(換言すると、発音中にピッチが連続的に時間変化する)、(ウ)発音持続時間が短め(典型的には、1つの形態素の発音が十六分音符に相当長さ)となるように設定するのが好ましい。
【0024】
図6は、生成された2つのピッチカーブS1およびS2に基づいて一のピッチカーブS3を生成する方法を模式的に表す。この例では、パラメータに従って、生成された2つの基準となるピッチカーブを線形補完する。具体的には、歌らしさ100%、0%に対応する、時刻tにおけるピッチPの関数であるピッチカーブを、それぞれP=PA(t)、P=PB(t)、P=PA(t)、P=PB(t)において、n番目の形態素の発音開始時刻をそれぞれtA(i)、tB(i)、発音終了時刻をtA(j)、tB(j)、パラメータをα(0<α<1)とすると、
補正後の各形態素に対応するピッチカーブPfinal(t)は、
final(t;α*tA(i)*(1-α)*tB(i)<t<α*tA(j)*(1-α)tB(j))=
α*PA(t;tA(i)≦(1-α)tA<(j))+(1-α)*PB(t;tB(i)≦t<tB(j))・・・(1)
と表すことができる。
これは、各形態素の発音開始時刻、終了時刻、発音持続時間、当該形態素の部分に対応する2つのピッチカーブを係数αで重み付けして重ね合わせることに相当する。
なお、補間の方法としては、線形補完に替えて、非線形補間や、その他の既存演算アルゴリズムを用いることができる。
なお、一の形態素が子音と母音とで構成される場合は、発音の音程や音長さを決定するのは実質的に母音だといえるので、形態素を子音と母音とに分解し、子音と母音とのそれぞれについての楽音情報に対して処理をしてもよい。例えば、楽音情報(音高や発音持続時間)を母音のみに付与する。こうすることで、音程や音長が変化しても、発音が不自然に聞こえることを防ぐことができる。
【0025】
この実施例によれば、ユーザは、1つの所望のパラメータ値を指定するだけで、入力した歌詞にマッチし、且つユーザの好みが反映されたメロディが生成される。また、パラメータ値を変更することにより、1つの歌詞から多様なメロディを得ることができる。また、パラメータの種類として、歌らしさ(話し言葉らしさ)という概念を導入することで、単なる楽曲の作成でもなく単なる人工合成音声の生成でもない、新たらしい創作への意欲をユーザに掻き立てることが期待される。
【0026】
また、この実施例によれば、パラメータは形態素のすべてに一括して適用されるので、生成されるメロディにユーザの好みを反映させるために、入力した歌詞の例えば形態素ごとに、逐一、楽音情報を編集するといった作業が必要ない。これにより、手軽に作曲の面白さをユーザに味わってもらうことができる。
仮に、手作業で形態素ごとにピッチ等を調整する場合、全体のバランスをとるのが大変な場合であるが、この実施例によれば、予め用意されたモデルに基づいて基準ピッチカーブを計算し、これに基づいて全体を一括して補正することによって最終的なメロディが決定されるため、得られたメロディ全体の整合性が崩れる虞は小さい。
【0027】
加えて、この実施例によれば、パラメータに対応するメロディを決定する際に、代表的なパラメータ値(0%および100%)に対応するメロディを少なくとも2つ用意しておけばよい。代表値以外についてのピッチカーブは、代表値を用いてそれぞれ生成した2つのピッチカーブをパラメータの値に従って補間することによって生成されるからである。これにより、記憶しておくべきデータ量を節約することができ、且つ演算量が低減できる。
【0028】
<変形例>
上記実施例に対して種々の変形を行うことが可能である。以下、変形を行う際の観点について例示する。
図7は、歌詞を入力する画面の他の例を表す図である。エリアR2において、スライダD1および入力フィールドF1に加え、スライダD2と入力フィールドF2が設けられる。スライダD1、入力フィールドF1は、音程について、歌らしさ(話し言葉らしさ)の度合いを指定するためのものであり、スライダD2,入力フィールドF2は、速度(発音時間=音の長さ)について、歌らしさ(話し言葉らしさ)の度合いを指定するためのものである。すなわち、この入力画面では、音程と速度のそれぞれについて、独立に、歌らしさ(話し言葉らしさ)を指定することができる。換言すると、歌らしさ(話し言葉らしさ)を規定するパラメータが2つ用意されている。
【0029】
決定部16は、データベース15を参照し、この画面で入力された歌詞に対し、ユーザによって指定された音程および速度(音の長さ)のそれぞれについて、歌らしさ0%と100%の2つの楽音情報を生成する。そして、補正部17は、音程について指定されたパラメータに従って、歌らしさ0%と100%のそれぞれに対応して生成された楽音情報(ただし音程に関する情報のみを含む)を用いて補完処理を行うことにより、一の楽音情報(音程に関する情報のみを含む)を決定する。加えて、補正部17は、歌らしさ0%と100%のそれぞれに対応して生成された楽音情報(ただし音長に関する情報のみを含む)を用いて補完処理を行うことにより、一の楽音情報(音長に関する情報のみを含む)を決定する。そして、補正部17は、こうして得られた音程と音長とを含む楽音情報から一のピッチカーブを生成する。この例によれば、速度に関するパラメータと音程に関するパラメータとを独立して指定することで、生成できるメロディの自由度が増える。
【0030】
音程や速度に加えて、アクセント(主に、その形態素の発音開始から所定の期間における音程の時間変化として表現される)、強弱(音量の大小)、ビブラート(音程の揺らぎ)等の、メロディを構成する他の要素のそれぞれについて、歌らしさ(話し言葉らしさ)を個別に指定できるようにしてもよい。
あるいは、これらの要素を個別に指定するか、一つのパラメータで指定するか(一括指定)を、ユーザに選択させてもよい。一括指定するためのパラメータは、所定の規則によって個別パラメータの組み合わせに対応づけられている。よって、一括指定した場合は、その一のパラメータ(例えば「60%」)に対して、個別のパラメータ(例えば、「音程」については基準音程の60%、速度については基準速度の70%、アクセントについては基準アクセントの65%、強弱については基準値の55%という値、ビブラートについては基準値の50%)が決定される。なお、音程、速度、アクセント、強弱、ブブラートの振幅や周期等に対する基準値の設定方法は任意である。例えば、ビブラートについては、歌らしさ100%においては所定の振幅および周期が設定され、歌らしさが0%(話し言葉らしさ100%)に近づくに従って少なくとも振幅が減少するように設定される。
【0031】
換言すると、本発明においてユーザによって指定される情報は、一種類のパラメータの値に限られず、複数のパラメータ種類の値を含む一のパラメータセットであってもよい。このようなパラメータの指定を実現するための入力画面の例を示したのが図8である。この入力画面は、エリアR3とエリアR4とに大別される。エリアR3は、個別のパラメータ(同図の例では、ピッチ、速さ、アクセント、ビブラート)を指定するためのスライダD3、D4、D5、およびD6を有する。エリアR4は、パラメータを一括指定するためのスライダD1を含む。ユーザは、ラジオボタンB3およびB4によってパラメータの指定方法を選択する。
【0032】
パラメータの値は、時間によって変化してもよい。具体的には、入力部12を介して、ユーザはパラメータの値に加えて当該値が適用される期間を入力する。例えば、演奏時間が計3分のメロディにおいて、メロディの再生時間が0〜60秒までの間は「歌らしさ20%」で、60秒から120秒までの間は「歌らしさ50%」で、120秒から180秒までの間は「歌らしさ80%」と指定される。このように、パラメータの値を時間の関数とすることで、例えば、再生が進むにつれて歌唱っぽい雰囲気から話し言葉らしく聞こえるような効果や、再生の途中の所定期間だけ雰囲気が大幅に変わるといった効果を与えることができる。
【0033】
本発明においてユーザに指定させるパラメータは、「歌らしさ(話し言葉らしさの対極の概念)」という一種類のパラメータだけでなく、2種類以上であってもよい。2種類パラメータを独立に指定するための入力画面の一例を図9に示す。この入力画面は、歌詞を入力するためエリアR5に加えて、パラメータを指定するためのエリアR6を備える。そして、エリアR6において、2次元平面内の一点(同図のW)の座標(例えば、W(60%、70%))として指定する。Xは例えば「歌らしさ」の指標であり、Yは例えば「声質の男性(女性)らしさ」の指標と設定することができる。この場合であっても、上記実施例と同様、制御部11は、全てのx、yの値に対応するの楽音情報を記憶しておく必要はなく、二次元平面内の代表点(少なくとも2点)に対応する楽音情報を記憶しておき、代表点以外の点については、補間によって計算することができる。
【0034】
本発明においてユーザに指定させるパラメータは、入力された歌詞を構成する歌詞の一部の形態素のみに対して有効となるように定義してもよい。換言すると、歌詞の一部にのみ適用されるパラメータをユーザが指定してもよい。
具体的には、図10に示すように、歌詞を入力する際に、歌詞とパラメータを適用させたい部分とその内容とを、スクリプト言語によって記述する。同図の第1文の例では、「おなか」という歌詞部分の前後にタグを付加することで、「おなか」という歌詞部分がパラメータの適用対象であることを表し、パラメータの種類が"Rate song“という再生音の速度を表すものであって、その値が−20%であることを記述している。同図の第2文の例では、「すいたな」の歌詞部分に対し、基準よりも70%増しの速度で発音することを記述している。この入力内容に基づいて制御部11にて生成されるメロディは、「おなか」という歌詞部分が基準よりも−20%の速度(つまり2割遅い速度)で発音され、「すいたな」の歌詞部分は基準よりも70%増しの速度で発音される。
ここで、発音速度(音長)の基準は、例えば、歌らしさ100%における発音速度(音長)であってもよいし、別途、入力画面においてユーザ指定した値(0%〜100%)に対応する発音速度(音長)であってもよい。
この例によれば、全体として、歌らしさを指定しつつ、特定の歌詞部分についてのみ有効な速度パラメータを指定することができるので、細かいニュアンスを表現することが可能となる。
【0035】
特定の形態素についてのみ有効となるパラメータは、速度を指定するものに限られず、強調(特定の音の音量を変化させる)に関係するもの、強拍/弱拍(特定の音の音長を大きく/小さくする)に関係するもの、音程等を指定するもの等であってもよい。図11(a)〜(c)は、それぞれ、「す」を強調する、「い」を強拍にする、「な」のピッチを上げることを指定するタグの例である。
【0036】
楽音情報生成装置10からデータベース15を省略してもよい。この場合、データベース15をサーバ内に格納し、楽音情報生成装置10にネットワークを介して他の装置と通信を行う手段を設け、楽音情報生成装置10は必要に応じてサーバに歌詞の解析を依頼し、サーバにて基準メロディの生成を行って楽音情報生成装置10に送信してもよい。また、表示部14や放音部18を楽音情報生成装置10から省略してもよい。要するに、本発明は、システム全体として、歌詞を入力するステップと、パラメータを指定するステップと、該入力された歌詞を構成する複数の形態素に各々に対し、少なくとも音高を含む楽音情報を生成するステップと、該指定されたパラメータに基づいて、前記歌詞に対応して生成された複数の楽音情報を一括して補正するステップとを実行する機能を有していればよく、これらの機能を全て一のハードウェアに実装してもよいし、複数のハードウェアに分散して実装させてもよい。
【0037】
本発明は、これらの機能を実行するためのプログラムおよびプログラムを記憶した記録媒体を提供する。記録媒体とは、例えば、半導体メモリ、光ディスク、磁気ディスクである。あるいは、このプログラムは、ネットワークを介してダウンロードされるものであってもよい。
【符号の説明】
【0038】
10:楽音情報生成装置
11:制御部
12:入力部
13:記憶部
14:表示部
15:データベース
16:決定部
17:補正部
18:放音部
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11