(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024157015
(43)【公開日】2024-11-06
(54)【発明の名称】情報処理装置、電子楽器、電子楽器システム、方法及びプログラム
(51)【国際特許分類】
G10L 13/10 20130101AFI20241029BHJP
G10L 13/00 20060101ALI20241029BHJP
G10L 13/02 20130101ALI20241029BHJP
G10L 13/033 20130101ALI20241029BHJP
G10H 5/00 20060101ALI20241029BHJP
G10H 1/18 20060101ALI20241029BHJP
【FI】
G10L13/10 114
G10L13/00 100Y
G10L13/02 110Z
G10L13/10 111F
G10L13/033 102B
G10H5/00
G10H1/18 Z
【審査請求】未請求
【請求項の数】10
【出願形態】OL
(21)【出願番号】P 2024137559
(22)【出願日】2024-08-19
(62)【分割の表示】P 2022006321の分割
【原出願日】2022-01-19
(71)【出願人】
【識別番号】000001443
【氏名又は名称】カシオ計算機株式会社
(74)【代理人】
【識別番号】110001254
【氏名又は名称】弁理士法人光陽国際特許事務所
(72)【発明者】
【氏名】段城 真
(72)【発明者】
【氏名】太田 文章
(72)【発明者】
【氏名】中村 厚士
(57)【要約】 (修正有)
【課題】より少ないメモリ容量で、電子楽器の操作に応じて、より自然な音声を発音させる情報処理装置、電子楽器、電子楽器システム、方法及びプログラムを提供する。
【解決手段】電子楽器において、CPUは、鍵盤の押鍵操作の検出に応じて、音節開始フレームに対応する歌声パラメータに基づく音節Comeを発音させた後、前記音節に含まれる母音区間内の或る母音フレームに対応する歌声パラメータに基づく母音ahの発音の開始後も鍵盤のいずれかの鍵が押鍵されている状態が継続している場合、押鍵されている鍵の操作が解除(すなわち、離鍵)されるまで或る母音フレームに対応する歌声パラメータに基づく母音の発音を継続させる。
【選択図】
図12
【特許請求の範囲】
【請求項1】
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる制御部、
を備え、
前記制御部は、
前記操作子への操作が解除された際に、発音させる次のフレーム位置が母音終了位置を超え、かつ、いずれの操作子への操作も検出していない場合に、前記次のフレーム位置が音節終了位置を超えるか否かを判断し、
超えない場合に、前記母音フレームに続く子音フレームに対応するパラメータに基づく子音の発音処理を実行するとともに、前記子音の発音処理に対する消音処理を実行する、
情報処理装置。
【請求項2】
前記制御部は、電子楽器の音声合成部に前記パラメータを出力し、前記音声合成部に前記パラメータに基づく音声波形データを生成させて、前記音声波形データに基づく音声を発音させる請求項1に記載の情報処理装置。
【請求項3】
前記パラメータは、人間の声を機械学習することにより生成された学習済みモデルにより推論されたパラメータである請求項1又は2に記載の情報処理装置。
【請求項4】
前記パラメータは、スペクトルパラメータを含む請求項1~3のいずれか一項に記載の情報処理装置。
【請求項5】
前記制御部は、演奏中を含む任意のタイミングでユーザにより実行される前記発音される音声の音色の変更指示操作に応じて、前記パラメータを別の音色のパラメータに変更する請求項1~4のいずれか一項に記載の情報処理装置。
【請求項6】
前記操作子への操作が継続している場合とは、電子鍵盤楽器においては押鍵中の鍵が存在する場合を含み、
前記操作子への操作が解除とは、前記電子鍵盤楽器においては押鍵された全ての鍵が離鍵されていずれの鍵も押鍵されていない状態を含む、請求項1~5のいずれか一項に記載の情報処理装置。
【請求項7】
請求項1~6のいずれか一項に記載の情報処理装置と、
複数の操作子と、
を備える電子楽器。
【請求項8】
請求項1~6のいずれか一項に記載の情報処理装置と、
複数の操作子を備える電子楽器と、
を備える電子楽器システム。
【請求項9】
情報処理装置の制御部が、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させ、更に、
前記操作子への操作が解除された際に、発音させる次のフレーム位置が母音終了位置を超え、かつ、いずれの操作子への操作も検出していない場合に、前記次のフレーム位置が音節終了位置を超えるか否かを判断し、
超えない場合に、前記母音フレームに続く子音フレームに対応するパラメータに基づく子音の発音処理を実行するとともに、前記子音の発音処理に対する消音処理を実行する、
方法。
【請求項10】
情報処理装置の制御部が、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させ、更に、
前記操作子への操作が解除された際に、発音させる次のフレーム位置が母音終了位置を超え、かつ、いずれの操作子への操作も検出していない場合に、前記次のフレーム位置が音節終了位置を超えるか否かを判断し、
超えない場合に、前記母音フレームに続く子音フレームに対応するパラメータに基づく子音の発音処理を実行するとともに、前記子音の発音処理に対する消音処理を実行する、
ためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、電子楽器、電子楽器システム、方法及びプログラムに関する。
【背景技術】
【0002】
従来、鍵盤楽器などの電子楽器の押鍵に応じて歌詞を音節ごとに発音させる技術が知られている。
例えば、特許文献1には、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を読み出し、オーディオ情報に対応付けられた区切り情報であって、発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する区切り情報を読み出し、ノートオン情報またはノートオフ情報を取得したことに応じて、区切り情報に基づいてオーディオ情報における再生位置を移動させ、ノートオン情報に対応するノートオフ情報を取得したことに応じて、再生対象の発声単位のループ終了位置から再生終了位置までの再生を開始する、オーディオ情報再生方法が記載されている。
【先行技術文献】
【特許文献】
【0003】
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、特許文献1では、複数の発声単位の波形データであるオーディオ情報をつなぎ合わせて音節ごとの発音やループ再生を行うため、自然な歌声を発音させることが困難であった。また、複数の発声単位の各々の波形データが時系列化されたオーディオ情報を記憶する必要があるため、大きいメモリ容量が必要であった。
【0005】
本発明は、上記の問題に鑑みてなされたものであり、より少ないメモリ容量で、電子楽器の操作に応じて、より自然な音声を発音させることができるようにすることを目的とする。
【課題を解決するための手段】
【0006】
上記課題を解決するため、本発明の情報処理装置は、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる制御部、
を備え、
前記制御部は、
前記操作子への操作が解除された際に、発音させる次のフレーム位置が母音終了位置を超え、かつ、いずれの操作子への操作も検出していない場合に、前記次のフレーム位置が音節終了位置を超えるか否かを判断し、
超えない場合に、前記母音フレームに続く子音フレームに対応するパラメータに基づく子音の発音処理を実行するとともに、前記子音の発音処理に対する消音処理を実行する。
【発明の効果】
【0007】
本発明によれば、より少ないメモリ容量で、電子楽器の操作に応じて、より自然な音声を発音させることが可能となる。
【図面の簡単な説明】
【0008】
【
図1】本発明の電子楽器システムの全体構成例を示す図である。
【
図3】
図1の電子楽器の機能的構成を示すブロック図である。
【
図4】
図1の端末装置の機能的構成を示すブロック図である。
【
図5】
図1の電子楽器の歌声発音モードにおける、鍵盤の押鍵操作に応じた歌声の発音に係る構成を示す図である。
【
図6】フレームと音節の関係を示すイメージ図である。
【
図7】
図3のCPUにより実行される歌声発音モード処理の流れを示すフローチャートである。
【
図8】
図3のCPUにより実行される音声合成処理Aの流れを示すフローチャートである。
【
図9】
図3のCPUにより実行される音声合成処理Bの流れを示すフローチャートである。
【
図10】
図3のCPUにより実行される音声合成処理Cの流れを示すフローチャートである。
【
図11】
図3のCPUにより実行される音声合成処理Dの流れを示すフローチャートである。
【
図12】音節Comeが歌声発音モード処理で鍵盤の操作に応じて発音される場合の、押鍵検出時から離鍵が検出されて音量が0となるまでの音量の変化を示すグラフ及びグラフの各タイミングでの発音に用いられるフレーム位置を模式的に示す図である。
【発明を実施するための形態】
【0009】
以下に、本発明を実施するための形態について、図面を用いて説明する。但し、以下に述べる実施形態には、本発明を実施するために技術的に好ましい種々の限定が付されている。そのため、本発明の技術的範囲を以下の実施形態及び図示例に限定するものではない。
【0010】
[電子楽器システム1の構成]
図1は、本発明に係る電子楽器システム1の全体構成例を示す図である。
図1に示すように、電子楽器システム1は、電子楽器2と、端末装置3と、が通信インターフェースI(又は通信ネットワークN)を介して接続されて構成されている。
【0011】
[電子楽器2の構成]
電子楽器2は、ユーザの鍵盤101の押鍵操作に応じて楽器音を出力する通常モードの他、鍵盤101の押鍵操作に応じて歌声を発音する歌声発音モードを有する。
本実施形態において、電子楽器2は、歌声発音モードとして、第1モードと第2モードを有する。第1モードは、人間(歌い手)の声を忠実に再現した歌声を発音するモードである。第2モードは、設定された音色(楽器音など)と人間の歌声を合わせた音色で歌声を発音するモードである。
【0012】
図2は、電子楽器2の外観例を示す図である。電子楽器2は、操作子(演奏操作子)としての複数の鍵からなる鍵盤101と、各種設定を指示するスイッチパネル102と、パラメータ変更操作子103と、各種表示を行うLCD104(Liquid Crystal Display)と、を備える。また、電子楽器2は、演奏により生成された楽音や音声(歌声)を放音するスピーカ214を裏面部、側面部、又は背面部等に備える。
【0013】
図3は、
図1の電子楽器2の制御系の機能的構成を示すブロック図である。
図3に示すように、電子楽器2は、タイマ210に接続されたCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、音源部204、音声合成部205、アンプ213、
図2の鍵盤101、スイッチパネル102、及びパラメータ変更操作子103が接続されるキースキャナ206、
図2のLCD104が接続されるLCDコントローラ207、及び通信部208が、それぞれバス209に接続されて構成されている。本実施形態において、スイッチパネル102には、後述する歌声発音モードスイッチ、第1モード/第2モード切り替えスイッチ、及び音色設定スイッチが含まれる。
【0014】
また、音源部204、音声合成部205には、それぞれD/Aコンバータ211、212が接続され、音源部204から出力される楽器音の波形データ、音声合成部205から出力される歌声の音声波形データ(歌声波形データ)は、それぞれD/Aコンバータ211、212によりアナログ信号に変換され、アンプ213により増幅された後、スピーカ214から出力(すなわち、発音)されるようになっている。
【0015】
CPU201は、RAM203をワークメモリとして使用しながらROM202に記憶されたプログラムを実行することにより、
図1の電子楽器2の制御動作を実行する。CPU201は、ROM202に記憶されているプログラムとの協働により後述する歌声発音モード処理を実行することで、本発明の情報処理装置の制御部の機能を実現する。
ROM202は、プログラム及び各種固定データ等を記憶する。
【0016】
音源部204は、ピアノ、オルガン、シンセサイザー、弦楽器、管楽器等の楽器音の波形データ(楽器音波形データ)の他、歌声発音モードにおける発声音源用の波形データ(発声音源用波形データ)として、人の声、犬の声、猫の声等の様々な音色の波形データが記憶された波形ROMを有する。なお、楽器音波形データについても発声音源用波形データとして使用することが可能である。
【0017】
音源部204は、通常モードにおいて、CPU201からの制御指示に従い、鍵盤101の押鍵操作された鍵の音高情報に基づいて、例えば図示しない波形ROMから楽器音波形データを読み出し、D/Aコンバータ211に出力する。また、音源部204は、歌声発音モードの第2モードにおいて、CPU201からの制御指示に従い、鍵盤101の押鍵操作された鍵の音高情報に基づいて、例えば図示しない波形ROMから波形データを読み出し、発声音源用波形データとして音声合成部205に出力する。音源部204は、同時に複数チャネル分の波形データの出力が可能である。なお、音高情報と波形ROMに記憶されている波形データに基づいて、鍵盤101の押鍵操作された鍵の音高に応じた波形データを生成してもよい。
音源部204は、PCM(Pulse Code Modulation)音源方式に限定されず、例えば、FM(Frequency Modulation)音源方式等、他の音源方式を用いたものであってもよい。
【0018】
音声合成部205は、音源生成部及び合成フィルタを有し、CPU201から与えられる音高情報及び歌声パラメータ、または、CPU201から与えられる歌声パラメータ及び音源部204から入力される発声音源用波形データに基づいて歌声波形データを生成し、D/Aコンバータ212に出力する。
【0019】
なお、音源部204、音声合成部205は、LSI(Large-Scale Integration)等の専用のハードウエアにより構成されることとしてもよいし、CPU201とROM202に記憶されたプログラムとの協働によるソフトウエアにより実現されることとしてもよい。
【0020】
キースキャナ206は、
図2の鍵盤101の各鍵の押鍵(KeyOn)/離鍵(KeyOff)、スイッチパネル102及びパラメータ変更操作子103の操作状態を定常的に走査し、鍵盤101の操作された鍵の音高及び押鍵/離鍵情報(演奏操作情報)、スイッチパネル102及びパラメータ変更操作子103の操作情報をCPU201に出力する。
ここで、パラメータ変更操作子103は、ユーザが歌声発音モードにおいて発音される歌声の音色(声色)を設定(変更指示)するためのスイッチである。本実施形態のパラメータ変更操作子103は、
図2に示すように、指示部103aの位置が目盛り1~2の間となる範囲で回転可能に構成され、指示部103aの位置に応じて、歌声発音モードにおいて発音される歌声の声色を、第1音声と、第1音声とは異なる第2音声との間で設定(変更)することができるようになっている。例えば、パラメータ変更操作子103を時計回りに最大限に回した状態(例えば、指示部103aを目盛り1に合わせた状態)とすることで、歌声発音モードにおいて発音される歌声の声色を第1音声(例えば、男性の声)に設定することができる。パラメータ変更操作子103を反時計回りに最大限に回した状態(例えば、指示部103aを目盛り2に合わせた状態)とすることで、歌声発音モードにおいて発音される歌声の声色を第2音声(例えば、女性の声)に設定することができる。また、パラメータ変更操作子103の指示部103aを目盛り1と目盛り2の間とすることで、第1音声と第2音声を合成した声色に設定することができる。第1音声と第2音声を合成する際の割合は、目盛り1からの回転角度と、目盛り2からの回転角度の比に応じて決定される。
【0021】
LCDコントローラ207は、LCD104の表示状態を制御するIC(集積回路)である。
通信部208は、インターネット等の通信ネットワークNやUSB(Universal Serial Bus)ケーブル等の通信インターフェースIを介して接続された端末装置3等の外部装置とのデータ送受信を行う。
【0022】
[端末装置3の構成]
図4は、
図1の端末装置3の機能的構成を示すブロック図である。
図4に示すように、端末装置3は、CPU301、ROM302、RAM303、記憶部304、操作部305、表示部306、通信部307等を備えて構成されたコンピュータであり、各部はバス308により接続されている。端末装置3としては、例えば、タブレットPC(Personal Computer)、ノートPC、スマートフォン等が適用可能である。
【0023】
端末装置3のROM302には、学習済みモデル302a及び学習済みモデル302bが搭載されている。学習済みモデル302aと学習済みモデル302bは、それぞれ複数の歌唱曲の楽譜データ(歌詞データ(歌詞のテキスト情報)及び音高データ(音の長さの情報も含む))と、それぞれの歌唱曲を或る歌い手(人間)が歌ったときの歌声波形データと、からなる複数のデータセットを機械学習することにより生成されたものである。学習済みモデル302aは、上述の第1音声に対応する第1の歌い手(例えば、男性)の歌声波形データを機械学習することにより生成されたものである。学習済みモデル302bは、上述の第2音声に対応する第2の歌い手(例えば、女性)の歌声波形データを機械学習することにより生成されたものである。学習済みモデル302a及び学習済みモデル302bは、任意の歌唱曲(フレーズでもよい)の歌詞データ及び音高データが入力されると、それぞれ、その学習済みモデルを生成したときの歌い手が入力された歌唱曲を歌った場合と同等の歌声を発音するための歌声パラメータ群(歌声情報という)を推論する。
【0024】
[歌声発音モードの動作]
図5は、歌声発音モードにおける、鍵盤101の押鍵操作に応じた歌声の発音に係る構成を示す図である。以下、
図5を参照して、電子楽器2において歌声発音モードで鍵盤101の押鍵操作に応じて歌声を発音する際の動作について説明する。
【0025】
歌声発音モードで演奏を行いたい場合、ユーザは、電子楽器2においてスイッチパネル102の歌声発音モードスイッチを押下し、歌声発音モードへの移行を指示する。
CPU201は、歌声発音モードスイッチが押下されると、動作モードを歌声発音モードに移行させる。また、スイッチパネル102の第1モード/第2モード切り替えスイッチの押下に応じて、CPU201は、歌声発音モードにおける第1モード/第2モードを切り替える。
第2モードが設定された場合において、ユーザがスイッチパネル102の音色選択スイッチにより発音させたい声の音色を選択すると、CPU201は、選択された音色の情報を音源部204に設定する。
【0026】
次いで、ユーザは、端末装置3において、電子楽器2に歌声発音モードで発音させたい任意の歌唱曲の歌詞データ及び音高データを専用のアプリケーション等を用いて入力する。歌唱曲の歌詞データ及び音高データを記憶部304に記憶しておき、記憶部304に記憶されている中から任意の歌唱曲の歌詞データ及び音高データを選択することとしてもよい。
端末装置3において、歌声発音モードで発音させたい任意の歌唱曲の歌詞データ及び音高データが入力されると、CPU301は、入力された歌唱曲の歌詞データ及び音高データを学習済みモデル302a及び学習済みモデル302bに入力して、それぞれに歌声パラメータ群を推論させ、推論された歌声パラメータ群である歌声情報を通信部307により電子楽器2に送信する。
【0027】
ここで、歌声情報について説明する。
歌唱曲を時間方向に所定時間単位で区切ったそれぞれの区間をフレームと呼び、学習済みモデル302a及び学習済みモデル302bは、フレーム単位で歌声パラメータを生成する。すなわち、各学習済みモデルで生成される1つの歌唱曲の歌声情報は、フレーム単位の複数の歌声パラメータ(時系列の歌声パラメータ群)により構成される。本実施形態では、歌唱曲を所定のサンプリング周波数(例えば、44.1kHz)でサンプリングしたときの1サンプルの長さ×225を1フレームとする。
【0028】
フレーム単位の歌声パラメータには、スペクトルパラメータ(発音される声の周波数スペクトル)及び基本周波数F0パラメータ(発音される声のピッチ周波数)が含まれる。スペクトルパラメータは、フォルマントパラメータ、等と表現してもよい。また、歌声パラメータは、フィルタ係数、等と表現してもよい。本実施例では、フレーム単位に適用するフィルタ係数が夫々決定されている。よって本発明は、フレーム単位でフィルタが変更されている、と捉えることもできる。
【0029】
また、フレーム単位の歌声パラメータには、音節の情報が含まれる。
図6は、フレームと音節の関係を示すイメージ図である。
図6(a)は、英語のフレーズにおけるフレームと音節の関係を示す図、
図6(b)は、日本語のフレーズにおけるフレームと音節の関係を示す図である。
図6(a)、(b)に示すように、歌唱曲(フレーズ)の音声は、複数の音節(
図6(a)では第1音節(Come)及び第2音節(on)、
図6(b)では第1音節(か)及び第2音節(お))により構成されている。それぞれの音節は、一般的には、1つの母音、又は、1つの母音と1又は複数の子音の組み合わせにより構成されている。すなわち、音節を発音させるためのパラメータである歌声パラメータには、少なくとも音節に含まれる母音に対応するパラメータが含まれる。各音節は、時間方向に連続する複数のフレーム区間にわたって発音され、一つの歌唱曲に含まれる各音節の音節開始位置、音節終了位置、母音開始位置、母音終了位置(いずれも、時間方向における位置)は、フレーム位置(先頭から何番目のフレームか)によって特定することができる。歌声情報における、各音節の音節開始位置、音節終了位置、母音開始位置、母音終了位置に該当するフレームの歌声パラメータには、第〇音節開始フレーム、第〇音節終了フレーム、第〇母音開始フレーム、第〇母音終了フレーム(〇は自然数)等の情報が含まれている。
【0030】
図5に戻り、電子楽器2において、通信部208により端末装置3から歌声情報(学習済みモデル302aで生成された第1の歌声情報及び学習済みモデル302bで生成された第2の歌声情報)を受信すると、CPU201は、受信した歌声情報をRAM203に記憶させる。
次いで、CPU201は、キースキャナ206から入力されるパラメータ変更操作子103の操作情報に基づいて、歌声の発音に用いる歌声情報(歌声パラメータ群)を設定する。具体的に、パラメータ変更操作子103の指示部103aが目盛り1に合わせた状態である場合、第1の歌声情報を歌声の発音に用いるパラメータとして設定する。パラメータ変更操作子103の指示部103aが目盛り2に合わせた状態である場合、第2の歌声情報を歌声の発音に用いるパラメータとして設定する。パラメータ変更操作子103の指示部103aが目盛り1と目盛り2の間に位置する状態である場合、その位置に応じて、第1の歌声情報と第2の歌声情報に基づいて歌声情報を生成してRAM203に記憶し、生成した歌声情報を歌声の発音に用いるパラメータとして設定する。
【0031】
次いで、CPU201は、後述する歌声発音モード処理(
図7参照)を開始し、キースキャナ206からの演奏操作情報に基づいて鍵盤101の状態を検出して音声合成処理A~D(
図8~
図11参照)を実行することにより、発音させるフレームを特定する。そして、第1モードが設定されている場合、CPU201は、設定された歌声情報の特定されたフレームの基本周波数F0パラメータ及びスペクトルパラメータをRAM203から読み出して、押鍵操作されている鍵の音高情報とともに音声合成部205に出力する。音声合成部205は、入力された音高情報、基本周波数F0パラメータ及びスペクトルパラメータに基づいて歌声波形データを生成し、D/Aコンバータ212に出力する。第2モードが設定されている場合、CPU201は、設定された歌声情報の特定されたフレームのスペクトルパラメータをRAM203から読み出して音声合成部205に出力する。また、押鍵操作されている鍵の音高情報を音源部204に出力する。音源部204は、予め設定された音色の、入力された音高情報に応じた波形データを発声音源用波形データとして波形ROMから読み出し音声合成部205に出力する。音声合成部205は、入力された発声音源用波形データとスペクトルパラメータに基づいて歌声波形データを生成し、D/Aコンバータ212に出力する。
D/Aコンバータ212に出力された歌声波形データはアナログ音声信号に変換され、アンプ213で増幅されてスピーカ214から出力される。
【0032】
以下、歌声発音モード処理について説明する。
図7は、歌声発音モード処理の流れを示すフローチャートである。歌声発音モード処理は、例えば、歌声の発音に用いる歌声情報(歌声パラメータ群)の設定が終了した際に、CPU201とROM202に記憶されているプログラムとの協働により実行される。
【0033】
まず、CPU201は、音声合成処理A~Dで使用される変数を初期化する(ステップS1)。
次いで、CPU201は、キースキャナ206からの入力に基づき、パラメータ変更操作子103の操作が検出されたか否かを判断する(ステップS2)。
パラメータ変更操作子103の操作が検出されたと判断した場合(ステップS2;YES)、CPU201は、パラメータ変更操作子103の指示部103aの位置に応じて、歌声の発音に用いる歌声情報(歌声パラメータ群)を変更し(ステップS3)、ステップS4に移行する。
【0034】
例えば、パラメータ変更操作子103の指示部103aが目盛り1に合わせた状態に変更された場合、歌声の発音に用いるパラメータの設定を第1の歌声情報に変更する。パラメータ変更操作子103の指示部103aが目盛り2に合わせた状態に変更された場合、歌声の発音に用いるパラメータの設定を第2の歌声情報に変更する。パラメータ変更操作子103の指示部103aが目盛り1と目盛り2の間に位置する状態に変更された場合、第1の歌声情報と第2の歌声情報に基づいて歌声情報を生成して(例えば、指示部103aの目盛り1からの回転角度と、目盛り2からの回転角度の比に応じて第1の歌声情報と第2の歌声情報を合成して)RAM203に記憶し、歌声の発音に用いるパラメータの設定を生成した歌声情報に変更する。これにより、歌声の発音中(演奏中)であっても声色を変化させることが可能となる。
【0035】
パラメータ変更操作子103の操作が検出されていないと判断した場合(ステップS2;NO)、CPU201は、ステップS4に移行する。
【0036】
ステップS4において、CPU201は、キースキャナ206から入力された演奏操作情報に基づいて、鍵盤101の押鍵操作(KeyOn)が検出されたか否かを判断する(ステップS4)。
KeyOnが検出されたと判断した場合(ステップS4;YES)、CPU201は、音声合成処理Aを実行する(ステップS5)。
【0037】
図8は、音声合成処理Aの流れを示すフローチャートである。音声合成処理Aは、CPU201とROM202に記憶されているプログラムとの協働により実行される。
【0038】
音声合成処理Aにおいて、まず、CPU201は、KeyOnCounterにKeyOnCounter+1を設定する(ステップS501)。
ここで、KeyOnCounterは、現在押鍵されている鍵の数(操作継続中の操作子の数)を格納する変数である。
【0039】
次いで、CPU201は、KeyOnCounterが1であるか否かを判断する(ステップS502)。
すなわち、検出された押鍵操作が他の操作子が押鍵されていない状態でなされたか否かを判断する。
【0040】
KeyOnCounterが1であると判断した場合(ステップS502;YES)、CPU201は、CurrentFramePosが最後の音節のフレーム位置であるか否かを判断する(ステップS503)。
このCurrentFramePosは、現在の発音対象のフレームのフレーム位置を格納する変数であり、次の発音対象のフレームのフレーム位置に置き換えられるまでは(例えば、
図8では、ステップS508又はステップS509が実行されるまでは)、前回発音されたフレームのフレーム位置が格納されている。
【0041】
CurrentFramePosが最後の音節のフレーム位置であると判断した場合(ステップS503;YES)、CPU201は、次の発音対象のフレームのフレーム位置を格納する変数であるNextFramePosに、最初の音節の音節開始位置を設定する(ステップS504)。
そして、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS509)、ステップS510に移行する。
すなわち、前回発音されたフレームが最後の音節である場合は、前回発音された音節の次の音節がないため、発音対象のフレームの位置が最初の音節開始位置のフレームに進行する。
【0042】
CurrentFramePosが最後の音節のフレーム位置ではないと判断した場合(ステップS503;NO)、CPU201は、NextFramePosに、次の音節の音節開始位置を設定する(ステップS505)。
そして、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS509)、ステップS510に移行する。
すなわち、前回発音されたフレームが最後の音節ではない場合は、発音対象のフレームの位置が次の音節の音節開始位置に進行する。
【0043】
一方、KeyOnCounterが1ではないと判断した場合(ステップS502;NO)、CPU201は、NextFramePosにCurrentFramePos+再生レート/120を設定する(ステップS507)。
ここで、120は、デフォルトのテンポ値であるが、デフォルトのテンポ値はこれに限定されるものではない。再生レートは、ユーザが予め設定した値である。例えば、再生レートが240に設定されている場合、次に発音するフレームの位置が現在のフレーム位置から2つ進んだ位置に設定される。再生レートが60に設定されている場合、次に発音するフレームの位置が現在のフレーム位置から0.5進んだ位置に設定される。
【0044】
次いで、CPU201は、NextFramePos>母音終了位置であるか否かを判断する(ステップS507)。すなわち、次に発音するフレームの位置が、現在の発音対象の音節の母音終了位置(すなわち前回発音された音節の母音終了位置)を超えるか否かを判断する。
NextFramePos>母音終了位置ではないと判断した場合(ステップS507;NO)、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS509)、ステップS510に移行する。
すなわち、発音対象のフレームのフレーム位置をNextFramePosに進行させる。
【0045】
NextFramePos>母音終了位置であると判断した場合(ステップS507;YES)、CPU201は、CurrentFramePosに現在の発音対象の音節の母音終了位置を設定し(ステップS508)、ステップS510に移行する。
すなわち、NextFramePosが母音終了位置を超える場合、発音対象のフレームのフレーム位置をNextFramePosの位置に移行させずに、前回発音された音節の母音終了位置に維持する。
【0046】
ステップS510において、CPU201は、歌声の発音に用いるパラメータとして設定されている歌声情報の、CurrentFramePosに格納されているフレーム位置のフレームの歌声パラメータをRAM203から取得して音声合成部205に出力し(ステップS510)、出力した歌声パラメータに基づいて音声合成部205により歌声波形データを生成させてD/Aコンバータ212、アンプ213、スピーカ214を介して歌声(音声)を出力させ(ステップS511)、
図7のステップS6に移行する。
【0047】
ここで、第1モードが設定されている場合、CPU201は、押鍵操作されている鍵の音高情報を音声合成部205に出力するとともに、設定された歌声情報の特定されたフレームの基本周波数F0パラメータ及びスペクトルパラメータをRAM203から読み出して音声合成部205に出力し、音声合成部205により、出力した音高情報、基本周波数F0パラメータ及びスペクトルパラメータに基づいて歌声波形データを生成させ、D/Aコンバータ212、アンプ213、スピーカ214を介して歌声波形データに基づく音声を出力(発音)させる。第2モードが設定されている場合、CPU201は、設定された歌声情報の特定されたフレームのスペクトルパラメータをRAM203から読み出して音声合成部205に出力する。また、押鍵操作されている鍵の音高情報を音源部204に出力し、音源部204により、予め設定された音色の、入力された音高情報に応じた波形データを発声音源用波形データとして波形ROMから読み出して音声合成部205に出力させる。そして、音声合成部205により、入力された発声音源用波形データとスペクトルパラメータに基づいて歌声波形データを生成させ、D/Aコンバータ212、アンプ213、スピーカ214を介して歌声波形データに基づく音声を出力させる。
【0048】
図7のステップS6において、CPU201は、KeyOnCounter=1であるか否かを判断する(ステップS6)。すなわち、今回検出された押鍵操作が、押鍵されている鍵がない状態での押鍵操作であるか否かを判断する。
KeyOnCounter=1であると判断した場合(ステップS6;YES)、CPU201は、アンプ213を制御して、生成された歌声波形データに基づく音声の発音開始処理(フェードイン)を行わせ(ステップS7)、ステップS17に移行する。発音開始処理は、アンプ213の音量を設定値に到達するまで徐々に大きくしていく(フェードインする)処理である。これにより、音声合成部205により生成された歌声波形データに基づく音声を徐々に大きくしながらスピーカ214により出力(発音)させることができる。なお、アンプ213の音量が設定値に到達すると発音開始処理は終了するが、アンプ213の音量は、消音開始処理が実行されるまでそのまま設定値に維持される。
KeyOnCounter=1ではないと判断した場合(ステップS6;NO)、CPU201は、ステップS17に移行する。すなわち、今回検出された押鍵操作の時点ですでに押鍵されている鍵がある場合は、すでに発音開始処理が開始されているため、そのままステップS17に移行する。
【0049】
一方、ステップS4において、KeyOnが検出されていないと判断した場合(ステップS4;NO)、CPU201は、鍵盤101のいずれかの鍵の離鍵(KeyOff、すなわち、押鍵操作の解除)が検出されたか否かを判断する(ステップS8)。
【0050】
ステップS8において、KeyOffが検出されていないと判断した場合(ステップS8;NO)、CPU201は、KeyOnCounter=>1であるか否かを判断する(ステップS9)。
KeyOnCounter=>1であると判断した場合(ステップS9;YES)、CPU201は、音声合成処理Bを実行する(ステップS10)。
【0051】
図9は、音声合成処理Bの流れを示すフローチャートである。音声合成処理Bは、CPU201とROM202に記憶されているプログラムとの協働により実行される。
音声合成処理Bにおいて、まず、CPU201は、NextFramePosにCurrentFramePos+再生レート/120を設定する(ステップS901)。
ステップS901の処理は、
図8のステップS506と同様であるので説明を援用する。
【0052】
次いで、CPU201は、NextFramePos>母音終了位置であるか否かを判断する(ステップS902)。すなわち、NextFramePosが現在の発音対象の音節の母音終了位置(すなわち前回発音された音節の母音終了位置)を超えるか否かを判断する。
NextFramePos>母音終了位置ではないと判断した場合(ステップS902;NO)、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS903)、ステップS905に移行する。
すなわち、NextFramePosが母音終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。
【0053】
NextFramePos>母音終了位置であると判断した場合(ステップS902;YES)、CPU201は、CurrentFramePosに現在の発音対象の音節の母音終了位置を設定し(ステップS904)、ステップS905に移行する。
すなわち、NextFramePosが母音終了位置を超える場合、発音対象のフレームのフレーム位置をNextFramePosの位置に移行させずに、前回発音された音節の母音終了位置に維持する。
【0054】
ステップS905において、CPU201は、歌声の発音に用いるパラメータとして設定されている歌声情報の、CurrentFramePosに格納されているフレーム位置のフレームの歌声パラメータをRAM203から取得して音声合成部205に出力し(ステップS905)、音声合成部205により、出力した歌声パラメータに基づいて歌声波形データを生成させてD/Aコンバータ212、アンプ213、スピーカ214を介して歌声を出力させ(ステップS906)、
図7のステップS17に移行する。
ステップS905とS906の処理は、それぞれ
図8のステップS510、S511と同様であるので説明を援用する。
【0055】
一方、
図7のステップS8において、KeyOffが検出されたと判断した場合(ステップS8;YES)、CPU201は、音声合成処理Cを実行する(ステップS11)。
【0056】
図10は、音声合成処理Cの流れを示すフローチャートである。音声合成処理Cは、CPU201とROM202に記憶されているプログラムとの協働により実行される。
【0057】
音声合成処理Cにおいて、まず、CPU201は、KeyOnCounterにKeyOnCounter - 1を設定する(ステップS1101)。
次いで、CPU201は、NextFramePosにCurrentFramePos+再生レート/120を設定する(ステップS1102)。
ステップS1102の処理は、
図8のステップS506と同様であるので説明を援用する。
【0058】
次いで、CPU201は、NextFramePos>母音終了位置であるか否かを判断する(ステップS1103)。すなわち、NextFramePosが現在の発音対象の音節の母音終了位置(すなわち前回発音された音節の母音終了位置)を超えるか否かを判断する。
NextFramePos>母音終了位置ではないと判断した場合(ステップS1103;NO)、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS1107)、ステップS1109に移行する。
すなわち、NextFramePosが母音終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。
【0059】
NextFramePos>母音終了位置であると判断した場合(ステップS1103;YES)、CPU201は、KeyOnCounter=0であるか否か(すなわち、鍵盤101の全鍵が離鍵された状態であるか否か)を判断する(ステップS1104)。
KeyOnCounter=0ではないと判断した場合(ステップS1104;NO)、CPU201は、CurrentFramePosに現在の発音対象の音節の母音終了位置を設定し(ステップS1105)、ステップS1109に移行する。
すなわち、NextFramePosが母音終了位置を超える場合であって、鍵盤101の全鍵が離鍵された状態ではない(押鍵されている鍵がある)場合、発音対象のフレームのフレーム位置をNextFramePosに移行させずに、前回発音された音節の母音終了位置に維持する。
【0060】
KeyOnCounter=0であると判断した場合(ステップS1104;YES)、CPU201は、NextFramePos>音節終了位置であるか否かを判断する(ステップS1106)。
すなわち、CPU201は、NextFramePosが現在の発音対象の音節の音節終了位置(すなわち前回発音された音節の音節終了位置)を超えるか否かを判断する。
【0061】
NextFramePos>音節終了位置ではないと判断した場合(ステップS1106;NO)、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS1107)、ステップS1109に移行する。
すなわち、鍵盤101の全鍵が離鍵された状態であって、NextFramePosが音節終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。
【0062】
NextFramePos>音節終了位置であると判断した場合(ステップS1106;YES)、CPU201は、CurrentFramePosに音節終了位置を設定し(ステップS1108)、ステップS1109に移行する。
すなわち、鍵盤101の全鍵が離鍵された状態であって、NextFramePosが音節終了位置を超える場合、発音対象のフレームのフレーム位置をNextFramePosに移行させずに、前回発音された音節の音節終了位置に維持する。
【0063】
ステップS1109において、CPU201は、歌声の発音に用いるパラメータとして設定されている歌声情報の、CurrentFramePosに格納されているフレーム位置のフレームの歌声パラメータをRAM203から取得して音声合成部205に出力し(ステップS1109)、音声合成部205により、出力した歌声パラメータに基づいて歌声波形データを生成させてD/Aコンバータ212、アンプ213、スピーカ214を介して歌声を出力させ(ステップS1110)、
図7のステップS12に移行する。
ステップS1109とS1110の処理は、それぞれ
図8のステップS510、S511と同様であるので説明を援用する。
【0064】
図7のステップS12において、CPU201は、KeyOnCounter=0である(鍵盤101の全鍵の離鍵が検出された)か否かを判断する(ステップS12)。
KeyOnCounter=0ではない(鍵盤101の全鍵の離鍵が検出されていない)と判断した場合(ステップS12;NO)、CPU201は、ステップS17に移行する。
KeyOnCounter=0である(鍵盤101の全鍵の離鍵が検出された)と判断した場合(ステップS12;YES)、CPU201は、アンプ213を制御して消音開始処理(フェードアウト開始)を実行し(ステップS13)、ステップS17に移行する。
消音開始処理は、アンプ213の音量が0になるまで徐々に小さくしていく消音処理を開始する処理である。消音処理により、音声合成部205により生成された歌声波形データに基づく音声が徐々に小さい音量でスピーカ214により出力される。
【0065】
一方、ステップS9において、KeyOnCounter>=1ではないと判断した場合(ステップS9;NO)、すなわち、鍵盤101の全鍵が離鍵されている状態であると判断された場合、CPU201は、アンプ213の音量が0であるか否かを判断する(ステップS14)。
アンプ213の音量が0ではないと判断した場合(ステップS14;NO)、CPU201は、音声合成処理Dを実行する(ステップS15)。
【0066】
図11は、音声合成処理Dの流れを示すフローチャートである。音声合成処理Dは、CPU201とROM202に記憶されているプログラムとの協働により実行される。
【0067】
音声合成処理Dにおいて、まず、CPU201は、NextFramePosにCurrentFramePos+再生レート/120を設定する(ステップS1501)。
ステップS1501の処理は、
図8のステップS506と同様であるので説明を援用する。
【0068】
次いで、CPU201は、NextFramePos>母音終了位置であるか否かを判断する(ステップS1502)。すなわち、NextFramePosが現在の発音対象の音節の母音終了位置(すなわち前回発音された音節の母音終了位置)を超えるか否かを判断する。
NextFramePos>母音終了位置ではないと判断した場合(ステップS1502;NO)、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS1504)、ステップS1506に移行する。
すなわち、NextFramePosが母音終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。
【0069】
NextFramePos>母音終了位置であると判断した場合(ステップS1502;YES)、CPU201は、NextFramePos>音節終了位置であるか否かを判断する(ステップS1503)。
すなわち、CPU201は、NextFramePosが現在の発音対象の音節の音節終了位置(すなわち前回発音された音節の音節終了位置)を超えるか否かを判断する。
【0070】
NextFramePos>音節終了位置ではないと判断した場合(ステップS1503;NO)、CPU201は、CurrentFramePosにNextFramePosを設定し(ステップS1504)、ステップS1506に移行する。すなわち、NextFramePosが音節終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。
【0071】
NextFramePos>音節終了位置であると判断した場合(ステップS1503;YES)、CPU201は、CurrentFramePosに音節終了位置を設定し(ステップS1505)、ステップS1506に移行する。
すなわち、NextFramePosが音節終了位置を超える場合、発音対象のフレームのフレーム位置をNextFramePosに移行させずに、前回発音された音節の音節終了位置に維持する。
【0072】
ステップS1506において、CPU201は、歌声の発音に用いるパラメータとして設定されている歌声情報の、CurrentFramePosに格納されているフレーム位置のフレームの歌声パラメータをRAM203から取得して音声合成部205に出力し(ステップS1506)、音声合成部205により、出力した歌声パラメータに基づいて歌声波形データを生成させてD/Aコンバータ212、アンプ213、スピーカ214を介して歌声を出力させ(ステップS1507)、
図7のステップS16に移行する。
ステップS1506とS1507の処理は、それぞれ
図8のステップS510、S511と同様であるので説明を援用する。
【0073】
図7のステップS16において、CPU201は、アンプ213を制御して消音処理(フェードアウト)を実行し(ステップS16)、ステップS17に移行する。
【0074】
一方、ステップS14において、アンプ213の音量が0であると判断した場合(ステップS14;YES)、CPU201は、ステップS17に移行する。
【0075】
ステップS17において、CPU201は、歌声発音モードの終了が指示されたか否かを判断する(ステップS17)。
例えば、歌声発音モードスイッチが押下され、通常モードへの移行が指示された場合、CPU201は、歌声発音モードの終了が指示されたと判断する。
【0076】
歌声発音モードの終了が指示されていないと判断した場合(ステップS17;NO)、CPU201は、ステップS2に戻る。
歌声発音モードの終了が指示されたと判断した場合(ステップS17;YES)、CPU201は、歌声発音モード処理を終了する。
【0077】
図12は、音節Comeが上述の歌声発音モード処理で鍵盤101の操作(押鍵操作(KeyOn))に応じて発音される場合の、押鍵検出時(いずれの鍵も押鍵されていない状態での押鍵検出時)から離鍵(KeyOff)が検出されて音量が0となるまでの音量の変化を示すグラフ及びグラフの各タイミングでの発音に用いられるフレーム位置を模式的に示す図である。
図12(a)は、母音ahの終了位置のタイミングで離鍵(全鍵離鍵)が検出された場合のグラフ及び模式図を示している。
図12(b)は、母音ahの終了位置のタイミングから3フレーム分の時間が経過した後で離鍵(全鍵離鍵)が検出された場合のグラフ及び模式図を示している。
図12(c)は、母音ahの終了位置より前のタイミングで離鍵(全鍵離鍵)が検出された場合を示している。
【0078】
図12(b)に示すように、押鍵検出により音節開始フレーム(
図12(b)の1番目のフレーム)の歌声パラメータに基づく音節の発音を開始させた後、発音している音節に含まれる母音区間(
図12(b)のahの区間)内の母音終了位置のフレーム(或る母音フレーム)までフレーム位置が進んだ後(すなわち、母音終了位置のフレームの歌声パラメータに基づく母音の発音の開始後)においても押鍵が継続している場合、離鍵(全鍵離鍵)が検出されるまで、母音終了位置のフレームの歌声パラメータに基づいて母音の発音が継続される。また、
図12(c)に示すように、押鍵検出により音節開始フレーム(
図12(c)の1番目のフレーム)の歌声パラメータに基づく音節の発音を開始させた後、母音終了位置までフレーム位置が進むよりも前に離鍵(全鍵離鍵)が検出された場合、直ちに消音処理が開始され、歌声パラメータに用いるフレームの位置を進行させつつ消音処理が行われる。
したがって、ユーザによる鍵盤101の操作に応じた長さで音節を自然に発音させることができる。
【0079】
従来の電子楽器による歌声発音技術(例えば、特許文献1)では、複数の発音単位の波形データであるオーディオ情報をつなぎ合わせて音節ごとの発音や操作に応じたループ再生を行うため、自然な歌声を発音させることが困難であった。また、複数の発声単位の各々の波形データが時系列化されたオーディオ情報を記憶する必要があるため、大きいメモリ容量が必要であった。本実施形態の電子楽器2では、音節の母音終了位置のフレームに基づく母音の発音の開始後においても押鍵が継続している場合、人間の歌声を機械学習により学習した学習済みモデルにより生成された歌声パラメータのうち、母音終了位置のフレームの歌声パラメータを用いて歌声波形データを生成して発音させるため、母音の波形をつなぎ合わせた場合のようなぎこちない発音ではなく、より自然な音声(歌声)を発音させることができる。また、複数の発声単位の各々の波形データをRAM203に記憶しておく必要がないため、従来の歌声発音技術に比べてメモリ容量も少なくて済む。
【0080】
また、従来の電子楽器による歌声発音技術は、波形データを再生するものであるため、固定された声色での発音となり、再生中に声色を変えることはできない。一方、本実施形態の電子楽器2では、歌声パラメータを用いて音声波形を生成して発音を行うため、歌声の発音中(演奏中)に、ユーザによるパラメータ変更操作子103の操作に応じて、歌声の声色を変更することが可能となる。
【0081】
以上説明したように、電子楽器2のCPU201によれば、鍵盤101の鍵の押鍵操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も押鍵中の鍵が存在する状態が継続している場合、押鍵が解除されるまで(すなわち、離鍵が検出されるまで)、或る母音フレームに対応するパラメータに基づく母音の発音を継続させる。具体的に、電子楽器2の音声合成部205に或る母音フレームに対応する歌声パラメータを出力し、音声合成部205に歌声パラメータに基づく音声波形データを生成させて、音声波形データに基づく音声を発音させる。
したがって、より少ないメモリ容量で、電子楽器の操作に応じて、より自然な音声を発音させることが可能となる。
【0082】
また、音節の発音に用いる歌声パラメータとして、人間(歌い手)の声を機械学習することにより生成された学習済みモデルにより推論された歌声パラメータを用いるため、歌い手の自然な音素レベルの発音ニュアンスを残した、表現力のある発音が可能となる。
【0083】
また、CPU201は、演奏中を含むタイミングでユーザにより実行されるパラメータ変更操作子103の操作に応じて、音節を発音するための歌声パラメータを別の音色の歌声パラメータに変更する。したがって、演奏中(歌声の発音中)であっても、歌声の音色を変更することが可能となる。
【0084】
なお、上記実施形態における記述内容は、本発明に係る情報処理装置、電子楽器、電子楽器システム、方法及びプログラムの好適な一例であり、これに限定されるものではない。
例えば、上記実施形態においては、本発明の情報処理装置が電子楽器2に含まれる構成として説明したが、これに限定されない。例えば、本発明の情報処理装置の機能が、有線又は無線による通信インターフェースを介して電子楽器2に接続された外部装置(例えば、上述の端末装置3(PC(Personal Computer)、タブレット端末、スマートフォン等
))に備えられていることとしてもよい。
【0085】
また、上記実施形態では、学習済みモデル302a及び学習済みモデル302bが端末装置3に備えられていることとして説明したが、電子楽器2に備えられている構成としてもよい。そして、電子楽器2において入力された歌詞データ及び音高データに基づいて、学習済みモデル302a及び学習済みモデル302bが歌声情報を推論することとしてもよい。
【0086】
また、上記実施形態においては、鍵盤101のいずれの鍵も操作されていない状態で一の鍵への押鍵操作が検出された場合に音節の発音を開始させることとして説明したが、音節の発音を開始させるトリガとなる押鍵操作はこれに限定されない。例えば、メロディーライン(トップノート)の鍵の押鍵操作が検出された場合に音節の発音を開始させることとしてもよい。
【0087】
また、上記実施形態においては、電子楽器2が電子鍵盤楽器である場合を例にとり説明したが、これに限定されず、例えば、電子弦楽器、電子管楽器等の他の電子楽器であってもよい。
【0088】
また、上記実施形態では、本発明に係るプログラムのコンピュータ読み取り可能な媒体としてROM等の半導体メモリやハードディスクを使用した例を開示したが、この例に限定されない。その他のコンピュータ読み取り可能な媒体として、SSDや、CD-ROM等の可搬型記録媒体を適用することが可能である。また、本発明に係るプログラムのデータを通信回線を介して提供する媒体として、キャリアウエーブ(搬送波)も適用される。
【0089】
その他、電子楽器、情報処理装置、及び電子楽器システムの細部構成及び細部動作に関しても、発明の趣旨を逸脱することのない範囲で適宜変更可能である。
【0090】
以上に本発明の実施形態を説明したが、本発明の技術的範囲は上述の実施の形態に限定するものではなく、特許請求の範囲に記載に基づいて定められる。更に、特許請求の範囲の記載から本発明の本質とは関係のない変更を加えた均等な範囲も本発明の技術的範囲に含む。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
〔付記〕
<請求項1>
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる制御部、
を備える情報処理装置。
<請求項2>
前記制御部は、電子楽器の音声合成部に前記パラメータを出力し、前記音声合成部に前記パラメータに基づく音声波形データを生成させて、前記音声波形データに基づく音声を発音させる請求項1に記載の情報処理装置。
<請求項3>
前記パラメータは、人間の声を機械学習することにより生成された学習済みモデルにより推論されたパラメータである請求項1又は2に記載の情報処理装置。
<請求項4>
前記パラメータは、スペクトルパラメータを含む請求項1~3のいずれか一項に記載の情報処理装置。
<請求項5>
前記制御部は、演奏中を含む任意のタイミングでユーザにより実行される前記発音される音声の音色の変更指示操作に応じて、前記パラメータを別の音色のパラメータに変更する請求項1~4のいずれか一項に記載の情報処理装置。
<請求項6>
前記操作子への操作が継続している場合とは、電子鍵盤楽器においては押鍵中の鍵が存在する場合を含み、
前記操作子への操作が解除とは、前記電子鍵盤楽器においては押鍵された全ての鍵が離鍵されていずれの鍵も押鍵されていない状態を含む、請求項1~5のいずれか一項に記載の情報処理装置。
<請求項7>
請求項1~6のいずれか一項に記載の情報処理装置と、
複数の操作子と、
を備える電子楽器。
<請求項8>
請求項1~6のいずれか一項に記載の情報処理装置と、
複数の操作子を備える電子楽器と、
を備える電子楽器システム。
<請求項9>
情報処理装置の制御部が、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる、方法。
<請求項10>
情報処理装置の制御部が、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる、
処理を実行するためのプログラム。
【符号の説明】
【0091】
1 電子楽器システム
2 電子楽器
101 鍵盤
102 スイッチパネル
103 パラメータ変更操作子
104 LCD
201 CPU
202 ROM
203 RAM
204 音源部
205 音声合成部
206 キースキャナ
208 通信部
209 バス
210 タイマ
211 D/Aコンバータ
212 D/Aコンバータ
213 アンプ
214 スピーカ
3 端末装置
301 CPU
302 ROM
302a 学習済みモデル
302b 学習済みモデル
303 RAM
304 記憶部
305 操作部
306 表示部
307 通信部
308 バス