特開2024-157015 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

青山学院大学 (神奈川県相模原市中央区淵野辺)

▶ カシオ計算機株式会社の特許一覧

特開2024-157015情報処理装置、電子楽器、電子楽器システム、方法及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024157015

(43)【公開日】2024-11-06

(54)【発明の名称】情報処理装置、電子楽器、電子楽器システム、方法及びプログラム

(51)【国際特許分類】

G10L 13/10 20130101AFI20241029BHJP

G10L 13/00 20060101ALI20241029BHJP

G10L 13/02 20130101ALI20241029BHJP

G10L 13/033 20130101ALI20241029BHJP

G10H 5/00 20060101ALI20241029BHJP

G10H 1/18 20060101ALI20241029BHJP

【ＦＩ】

G10L13/10 114

G10L13/00 100Y

G10L13/02 110Z

G10L13/10 111F

G10L13/033 102B

G10H5/00

G10H1/18 Z

【審査請求】未請求

【請求項の数】10

【出願形態】ＯＬ

(21)【出願番号】P 2024137559

(22)【出願日】2024-08-19

(62)【分割の表示】P 2022006321の分割

【原出願日】2022-01-19

(71)【出願人】

【識別番号】000001443

【氏名又は名称】カシオ計算機株式会社

(74)【代理人】

【識別番号】110001254

【氏名又は名称】弁理士法人光陽国際特許事務所

(72)【発明者】

【氏名】段城真

(72)【発明者】

【氏名】太田文章

(72)【発明者】

【氏名】中村厚士

(57)【要約】（修正有）

【課題】より少ないメモリ容量で、電子楽器の操作に応じて、より自然な音声を発音させる情報処理装置、電子楽器、電子楽器システム、方法及びプログラムを提供する。
【解決手段】電子楽器において、ＣＰＵは、鍵盤の押鍵操作の検出に応じて、音節開始フレームに対応する歌声パラメータに基づく音節Ｃｏｍｅを発音させた後、前記音節に含まれる母音区間内の或る母音フレームに対応する歌声パラメータに基づく母音ａｈの発音の開始後も鍵盤のいずれかの鍵が押鍵されている状態が継続している場合、押鍵されている鍵の操作が解除（すなわち、離鍵）されるまで或る母音フレームに対応する歌声パラメータに基づく母音の発音を継続させる。
【選択図】図１２

【特許請求の範囲】

【請求項1】

操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる制御部、
を備え、
前記制御部は、
前記操作子への操作が解除された際に、発音させる次のフレーム位置が母音終了位置を超え、かつ、いずれの操作子への操作も検出していない場合に、前記次のフレーム位置が音節終了位置を超えるか否かを判断し、
超えない場合に、前記母音フレームに続く子音フレームに対応するパラメータに基づく子音の発音処理を実行するとともに、前記子音の発音処理に対する消音処理を実行する、
情報処理装置。

【請求項2】

前記制御部は、電子楽器の音声合成部に前記パラメータを出力し、前記音声合成部に前記パラメータに基づく音声波形データを生成させて、前記音声波形データに基づく音声を発音させる請求項１に記載の情報処理装置。

【請求項3】

前記パラメータは、人間の声を機械学習することにより生成された学習済みモデルにより推論されたパラメータである請求項１又は２に記載の情報処理装置。

【請求項4】

前記パラメータは、スペクトルパラメータを含む請求項１～３のいずれか一項に記載の情報処理装置。

【請求項5】

前記制御部は、演奏中を含む任意のタイミングでユーザにより実行される前記発音される音声の音色の変更指示操作に応じて、前記パラメータを別の音色のパラメータに変更する請求項１～４のいずれか一項に記載の情報処理装置。

【請求項6】

前記操作子への操作が継続している場合とは、電子鍵盤楽器においては押鍵中の鍵が存在する場合を含み、
前記操作子への操作が解除とは、前記電子鍵盤楽器においては押鍵された全ての鍵が離鍵されていずれの鍵も押鍵されていない状態を含む、請求項１～５のいずれか一項に記載の情報処理装置。

【請求項7】

請求項１～６のいずれか一項に記載の情報処理装置と、
複数の操作子と、
を備える電子楽器。

【請求項8】

請求項１～６のいずれか一項に記載の情報処理装置と、
複数の操作子を備える電子楽器と、
を備える電子楽器システム。

【請求項9】

情報処理装置の制御部が、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させ、更に、
前記操作子への操作が解除された際に、発音させる次のフレーム位置が母音終了位置を超え、かつ、いずれの操作子への操作も検出していない場合に、前記次のフレーム位置が音節終了位置を超えるか否かを判断し、
超えない場合に、前記母音フレームに続く子音フレームに対応するパラメータに基づく子音の発音処理を実行するとともに、前記子音の発音処理に対する消音処理を実行する、
方法。

【請求項10】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置、電子楽器、電子楽器システム、方法及びプログラムに関する。

【背景技術】

【0002】

従来、鍵盤楽器などの電子楽器の押鍵に応じて歌詞を音節ごとに発音させる技術が知られている。
例えば、特許文献１には、発音音高および発音順序が決められた複数の発声単位の各々の波形データが時系列化されたオーディオ情報を読み出し、オーディオ情報に対応付けられた区切り情報であって、発声単位ごとに、再生開始位置、ループ開始位置、ループ終了位置および再生終了位置を規定する区切り情報を読み出し、ノートオン情報またはノートオフ情報を取得したことに応じて、区切り情報に基づいてオーディオ情報における再生位置を移動させ、ノートオン情報に対応するノートオフ情報を取得したことに応じて、再生対象の発声単位のループ終了位置から再生終了位置までの再生を開始する、オーディオ情報再生方法が記載されている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】国際公開第２０２０／２１７８０１号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、特許文献１では、複数の発声単位の波形データであるオーディオ情報をつなぎ合わせて音節ごとの発音やループ再生を行うため、自然な歌声を発音させることが困難であった。また、複数の発声単位の各々の波形データが時系列化されたオーディオ情報を記憶する必要があるため、大きいメモリ容量が必要であった。

【0005】

本発明は、上記の問題に鑑みてなされたものであり、より少ないメモリ容量で、電子楽器の操作に応じて、より自然な音声を発音させることができるようにすることを目的とする。

【課題を解決するための手段】

【0006】

上記課題を解決するため、本発明の情報処理装置は、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる制御部、
を備え、
前記制御部は、
前記操作子への操作が解除された際に、発音させる次のフレーム位置が母音終了位置を超え、かつ、いずれの操作子への操作も検出していない場合に、前記次のフレーム位置が音節終了位置を超えるか否かを判断し、
超えない場合に、前記母音フレームに続く子音フレームに対応するパラメータに基づく子音の発音処理を実行するとともに、前記子音の発音処理に対する消音処理を実行する。

【発明の効果】

【0007】

本発明によれば、より少ないメモリ容量で、電子楽器の操作に応じて、より自然な音声を発音させることが可能となる。

【図面の簡単な説明】

【0008】

【図1】本発明の電子楽器システムの全体構成例を示す図である。

【図2】図１の電子楽器の外観を示す図である。

【図3】図１の電子楽器の機能的構成を示すブロック図である。

【図4】図１の端末装置の機能的構成を示すブロック図である。

【図5】図１の電子楽器の歌声発音モードにおける、鍵盤の押鍵操作に応じた歌声の発音に係る構成を示す図である。

【図6】フレームと音節の関係を示すイメージ図である。

【図7】図３のＣＰＵにより実行される歌声発音モード処理の流れを示すフローチャートである。

【図8】図３のＣＰＵにより実行される音声合成処理Ａの流れを示すフローチャートである。

【図9】図３のＣＰＵにより実行される音声合成処理Ｂの流れを示すフローチャートである。

【図10】図３のＣＰＵにより実行される音声合成処理Ｃの流れを示すフローチャートである。

【図11】図３のＣＰＵにより実行される音声合成処理Ｄの流れを示すフローチャートである。

【図12】音節Ｃｏｍｅが歌声発音モード処理で鍵盤の操作に応じて発音される場合の、押鍵検出時から離鍵が検出されて音量が０となるまでの音量の変化を示すグラフ及びグラフの各タイミングでの発音に用いられるフレーム位置を模式的に示す図である。

【発明を実施するための形態】

【0009】

以下に、本発明を実施するための形態について、図面を用いて説明する。但し、以下に述べる実施形態には、本発明を実施するために技術的に好ましい種々の限定が付されている。そのため、本発明の技術的範囲を以下の実施形態及び図示例に限定するものではない。

【0010】

［電子楽器システム１の構成］
図１は、本発明に係る電子楽器システム１の全体構成例を示す図である。
図１に示すように、電子楽器システム１は、電子楽器２と、端末装置３と、が通信インターフェースＩ（又は通信ネットワークＮ）を介して接続されて構成されている。

【0011】

［電子楽器２の構成］
電子楽器２は、ユーザの鍵盤１０１の押鍵操作に応じて楽器音を出力する通常モードの他、鍵盤１０１の押鍵操作に応じて歌声を発音する歌声発音モードを有する。
本実施形態において、電子楽器２は、歌声発音モードとして、第１モードと第２モードを有する。第１モードは、人間（歌い手）の声を忠実に再現した歌声を発音するモードである。第２モードは、設定された音色（楽器音など）と人間の歌声を合わせた音色で歌声を発音するモードである。

【0012】

図２は、電子楽器２の外観例を示す図である。電子楽器２は、操作子（演奏操作子）としての複数の鍵からなる鍵盤１０１と、各種設定を指示するスイッチパネル１０２と、パラメータ変更操作子１０３と、各種表示を行うＬＣＤ１０４（Liquid Crystal Display）と、を備える。また、電子楽器２は、演奏により生成された楽音や音声（歌声）を放音するスピーカ２１４を裏面部、側面部、又は背面部等に備える。

【0013】

図３は、図１の電子楽器２の制御系の機能的構成を示すブロック図である。図３に示すように、電子楽器２は、タイマ２１０に接続されたＣＰＵ（Central Processing Unit）２０１、ＲＯＭ（Read Only Memory）２０２、ＲＡＭ（Random Access Memory）２０３、音源部２０４、音声合成部２０５、アンプ２１３、図２の鍵盤１０１、スイッチパネル１０２、及びパラメータ変更操作子１０３が接続されるキースキャナ２０６、図２のＬＣＤ１０４が接続されるＬＣＤコントローラ２０７、及び通信部２０８が、それぞれバス２０９に接続されて構成されている。本実施形態において、スイッチパネル１０２には、後述する歌声発音モードスイッチ、第１モード／第２モード切り替えスイッチ、及び音色設定スイッチが含まれる。

【0014】

また、音源部２０４、音声合成部２０５には、それぞれＤ／Ａコンバータ２１１、２１２が接続され、音源部２０４から出力される楽器音の波形データ、音声合成部２０５から出力される歌声の音声波形データ（歌声波形データ）は、それぞれＤ／Ａコンバータ２１１、２１２によりアナログ信号に変換され、アンプ２１３により増幅された後、スピーカ２１４から出力（すなわち、発音）されるようになっている。

【0015】

ＣＰＵ２０１は、ＲＡＭ２０３をワークメモリとして使用しながらＲＯＭ２０２に記憶されたプログラムを実行することにより、図１の電子楽器２の制御動作を実行する。ＣＰＵ２０１は、ＲＯＭ２０２に記憶されているプログラムとの協働により後述する歌声発音モード処理を実行することで、本発明の情報処理装置の制御部の機能を実現する。
ＲＯＭ２０２は、プログラム及び各種固定データ等を記憶する。

【0016】

音源部２０４は、ピアノ、オルガン、シンセサイザー、弦楽器、管楽器等の楽器音の波形データ（楽器音波形データ）の他、歌声発音モードにおける発声音源用の波形データ（発声音源用波形データ）として、人の声、犬の声、猫の声等の様々な音色の波形データが記憶された波形ＲＯＭを有する。なお、楽器音波形データについても発声音源用波形データとして使用することが可能である。

【0017】

音源部２０４は、通常モードにおいて、ＣＰＵ２０１からの制御指示に従い、鍵盤１０１の押鍵操作された鍵の音高情報に基づいて、例えば図示しない波形ＲＯＭから楽器音波形データを読み出し、Ｄ／Ａコンバータ２１１に出力する。また、音源部２０４は、歌声発音モードの第２モードにおいて、ＣＰＵ２０１からの制御指示に従い、鍵盤１０１の押鍵操作された鍵の音高情報に基づいて、例えば図示しない波形ＲＯＭから波形データを読み出し、発声音源用波形データとして音声合成部２０５に出力する。音源部２０４は、同時に複数チャネル分の波形データの出力が可能である。なお、音高情報と波形ＲＯＭに記憶されている波形データに基づいて、鍵盤１０１の押鍵操作された鍵の音高に応じた波形データを生成してもよい。
音源部２０４は、ＰＣＭ（Pulse Code Modulation）音源方式に限定されず、例えば、ＦＭ（Frequency Modulation）音源方式等、他の音源方式を用いたものであってもよい。

【0018】

音声合成部２０５は、音源生成部及び合成フィルタを有し、ＣＰＵ２０１から与えられる音高情報及び歌声パラメータ、または、ＣＰＵ２０１から与えられる歌声パラメータ及び音源部２０４から入力される発声音源用波形データに基づいて歌声波形データを生成し、Ｄ／Ａコンバータ２１２に出力する。

【0019】

なお、音源部２０４、音声合成部２０５は、ＬＳＩ（Large-Scale Integration）等の専用のハードウエアにより構成されることとしてもよいし、ＣＰＵ２０１とＲＯＭ２０２に記憶されたプログラムとの協働によるソフトウエアにより実現されることとしてもよい。

【0020】

キースキャナ２０６は、図２の鍵盤１０１の各鍵の押鍵（ＫｅｙＯｎ）／離鍵（ＫｅｙＯｆｆ）、スイッチパネル１０２及びパラメータ変更操作子１０３の操作状態を定常的に走査し、鍵盤１０１の操作された鍵の音高及び押鍵／離鍵情報（演奏操作情報）、スイッチパネル１０２及びパラメータ変更操作子１０３の操作情報をＣＰＵ２０１に出力する。
ここで、パラメータ変更操作子１０３は、ユーザが歌声発音モードにおいて発音される歌声の音色（声色）を設定（変更指示）するためのスイッチである。本実施形態のパラメータ変更操作子１０３は、図２に示すように、指示部１０３ａの位置が目盛り１～２の間となる範囲で回転可能に構成され、指示部１０３ａの位置に応じて、歌声発音モードにおいて発音される歌声の声色を、第１音声と、第１音声とは異なる第２音声との間で設定（変更）することができるようになっている。例えば、パラメータ変更操作子１０３を時計回りに最大限に回した状態（例えば、指示部１０３ａを目盛り１に合わせた状態）とすることで、歌声発音モードにおいて発音される歌声の声色を第１音声（例えば、男性の声）に設定することができる。パラメータ変更操作子１０３を反時計回りに最大限に回した状態（例えば、指示部１０３ａを目盛り２に合わせた状態）とすることで、歌声発音モードにおいて発音される歌声の声色を第２音声（例えば、女性の声）に設定することができる。また、パラメータ変更操作子１０３の指示部１０３ａを目盛り１と目盛り２の間とすることで、第１音声と第２音声を合成した声色に設定することができる。第１音声と第２音声を合成する際の割合は、目盛り１からの回転角度と、目盛り２からの回転角度の比に応じて決定される。

【0021】

ＬＣＤコントローラ２０７は、ＬＣＤ１０４の表示状態を制御するＩＣ（集積回路）である。
通信部２０８は、インターネット等の通信ネットワークＮやＵＳＢ(Universal Serial Bus)ケーブル等の通信インターフェースＩを介して接続された端末装置３等の外部装置とのデータ送受信を行う。

【0022】

［端末装置３の構成］
図４は、図１の端末装置３の機能的構成を示すブロック図である。
図４に示すように、端末装置３は、ＣＰＵ３０１、ＲＯＭ３０２、ＲＡＭ３０３、記憶部３０４、操作部３０５、表示部３０６、通信部３０７等を備えて構成されたコンピュータであり、各部はバス３０８により接続されている。端末装置３としては、例えば、タブレットＰＣ（Personal Computer）、ノートＰＣ、スマートフォン等が適用可能である。

【0023】

端末装置３のＲＯＭ３０２には、学習済みモデル３０２ａ及び学習済みモデル３０２ｂが搭載されている。学習済みモデル３０２ａと学習済みモデル３０２ｂは、それぞれ複数の歌唱曲の楽譜データ（歌詞データ（歌詞のテキスト情報）及び音高データ（音の長さの情報も含む））と、それぞれの歌唱曲を或る歌い手（人間）が歌ったときの歌声波形データと、からなる複数のデータセットを機械学習することにより生成されたものである。学習済みモデル３０２ａは、上述の第１音声に対応する第１の歌い手（例えば、男性）の歌声波形データを機械学習することにより生成されたものである。学習済みモデル３０２ｂは、上述の第２音声に対応する第２の歌い手（例えば、女性）の歌声波形データを機械学習することにより生成されたものである。学習済みモデル３０２ａ及び学習済みモデル３０２ｂは、任意の歌唱曲（フレーズでもよい）の歌詞データ及び音高データが入力されると、それぞれ、その学習済みモデルを生成したときの歌い手が入力された歌唱曲を歌った場合と同等の歌声を発音するための歌声パラメータ群（歌声情報という）を推論する。

【0024】

［歌声発音モードの動作］
図５は、歌声発音モードにおける、鍵盤１０１の押鍵操作に応じた歌声の発音に係る構成を示す図である。以下、図５を参照して、電子楽器２において歌声発音モードで鍵盤１０１の押鍵操作に応じて歌声を発音する際の動作について説明する。

【0025】

歌声発音モードで演奏を行いたい場合、ユーザは、電子楽器２においてスイッチパネル１０２の歌声発音モードスイッチを押下し、歌声発音モードへの移行を指示する。
ＣＰＵ２０１は、歌声発音モードスイッチが押下されると、動作モードを歌声発音モードに移行させる。また、スイッチパネル１０２の第１モード／第２モード切り替えスイッチの押下に応じて、ＣＰＵ２０１は、歌声発音モードにおける第１モード／第２モードを切り替える。
第２モードが設定された場合において、ユーザがスイッチパネル１０２の音色選択スイッチにより発音させたい声の音色を選択すると、ＣＰＵ２０１は、選択された音色の情報を音源部２０４に設定する。

【0026】

次いで、ユーザは、端末装置３において、電子楽器２に歌声発音モードで発音させたい任意の歌唱曲の歌詞データ及び音高データを専用のアプリケーション等を用いて入力する。歌唱曲の歌詞データ及び音高データを記憶部３０４に記憶しておき、記憶部３０４に記憶されている中から任意の歌唱曲の歌詞データ及び音高データを選択することとしてもよい。
端末装置３において、歌声発音モードで発音させたい任意の歌唱曲の歌詞データ及び音高データが入力されると、ＣＰＵ３０１は、入力された歌唱曲の歌詞データ及び音高データを学習済みモデル３０２ａ及び学習済みモデル３０２ｂに入力して、それぞれに歌声パラメータ群を推論させ、推論された歌声パラメータ群である歌声情報を通信部３０７により電子楽器２に送信する。

【0027】

ここで、歌声情報について説明する。
歌唱曲を時間方向に所定時間単位で区切ったそれぞれの区間をフレームと呼び、学習済みモデル３０２ａ及び学習済みモデル３０２ｂは、フレーム単位で歌声パラメータを生成する。すなわち、各学習済みモデルで生成される１つの歌唱曲の歌声情報は、フレーム単位の複数の歌声パラメータ（時系列の歌声パラメータ群）により構成される。本実施形態では、歌唱曲を所定のサンプリング周波数（例えば、４４．１ｋＨｚ）でサンプリングしたときの１サンプルの長さ×２２５を１フレームとする。

【0028】

フレーム単位の歌声パラメータには、スペクトルパラメータ（発音される声の周波数スペクトル）及び基本周波数Ｆ０パラメータ（発音される声のピッチ周波数）が含まれる。スペクトルパラメータは、フォルマントパラメータ、等と表現してもよい。また、歌声パラメータは、フィルタ係数、等と表現してもよい。本実施例では、フレーム単位に適用するフィルタ係数が夫々決定されている。よって本発明は、フレーム単位でフィルタが変更されている、と捉えることもできる。

【0029】

また、フレーム単位の歌声パラメータには、音節の情報が含まれる。
図６は、フレームと音節の関係を示すイメージ図である。図６（ａ）は、英語のフレーズにおけるフレームと音節の関係を示す図、図６（ｂ）は、日本語のフレーズにおけるフレームと音節の関係を示す図である。図６（ａ）、（ｂ）に示すように、歌唱曲（フレーズ）の音声は、複数の音節（図６（ａ）では第１音節（Ｃｏｍｅ）及び第２音節（ｏｎ）、図６（ｂ）では第１音節（か）及び第２音節（お））により構成されている。それぞれの音節は、一般的には、１つの母音、又は、１つの母音と１又は複数の子音の組み合わせにより構成されている。すなわち、音節を発音させるためのパラメータである歌声パラメータには、少なくとも音節に含まれる母音に対応するパラメータが含まれる。各音節は、時間方向に連続する複数のフレーム区間にわたって発音され、一つの歌唱曲に含まれる各音節の音節開始位置、音節終了位置、母音開始位置、母音終了位置（いずれも、時間方向における位置）は、フレーム位置（先頭から何番目のフレームか）によって特定することができる。歌声情報における、各音節の音節開始位置、音節終了位置、母音開始位置、母音終了位置に該当するフレームの歌声パラメータには、第〇音節開始フレーム、第〇音節終了フレーム、第〇母音開始フレーム、第〇母音終了フレーム（〇は自然数）等の情報が含まれている。

【0030】

図５に戻り、電子楽器２において、通信部２０８により端末装置３から歌声情報（学習済みモデル３０２ａで生成された第１の歌声情報及び学習済みモデル３０２ｂで生成された第２の歌声情報）を受信すると、ＣＰＵ２０１は、受信した歌声情報をＲＡＭ２０３に記憶させる。
次いで、ＣＰＵ２０１は、キースキャナ２０６から入力されるパラメータ変更操作子１０３の操作情報に基づいて、歌声の発音に用いる歌声情報（歌声パラメータ群）を設定する。具体的に、パラメータ変更操作子１０３の指示部１０３ａが目盛り１に合わせた状態である場合、第１の歌声情報を歌声の発音に用いるパラメータとして設定する。パラメータ変更操作子１０３の指示部１０３ａが目盛り２に合わせた状態である場合、第２の歌声情報を歌声の発音に用いるパラメータとして設定する。パラメータ変更操作子１０３の指示部１０３ａが目盛り１と目盛り２の間に位置する状態である場合、その位置に応じて、第１の歌声情報と第２の歌声情報に基づいて歌声情報を生成してＲＡＭ２０３に記憶し、生成した歌声情報を歌声の発音に用いるパラメータとして設定する。

【0031】

次いで、ＣＰＵ２０１は、後述する歌声発音モード処理（図７参照）を開始し、キースキャナ２０６からの演奏操作情報に基づいて鍵盤１０１の状態を検出して音声合成処理Ａ～Ｄ（図８～図１１参照）を実行することにより、発音させるフレームを特定する。そして、第１モードが設定されている場合、ＣＰＵ２０１は、設定された歌声情報の特定されたフレームの基本周波数Ｆ０パラメータ及びスペクトルパラメータをＲＡＭ２０３から読み出して、押鍵操作されている鍵の音高情報とともに音声合成部２０５に出力する。音声合成部２０５は、入力された音高情報、基本周波数Ｆ０パラメータ及びスペクトルパラメータに基づいて歌声波形データを生成し、Ｄ／Ａコンバータ２１２に出力する。第２モードが設定されている場合、ＣＰＵ２０１は、設定された歌声情報の特定されたフレームのスペクトルパラメータをＲＡＭ２０３から読み出して音声合成部２０５に出力する。また、押鍵操作されている鍵の音高情報を音源部２０４に出力する。音源部２０４は、予め設定された音色の、入力された音高情報に応じた波形データを発声音源用波形データとして波形ＲＯＭから読み出し音声合成部２０５に出力する。音声合成部２０５は、入力された発声音源用波形データとスペクトルパラメータに基づいて歌声波形データを生成し、Ｄ／Ａコンバータ２１２に出力する。
Ｄ／Ａコンバータ２１２に出力された歌声波形データはアナログ音声信号に変換され、アンプ２１３で増幅されてスピーカ２１４から出力される。

【0032】

以下、歌声発音モード処理について説明する。
図７は、歌声発音モード処理の流れを示すフローチャートである。歌声発音モード処理は、例えば、歌声の発音に用いる歌声情報（歌声パラメータ群）の設定が終了した際に、ＣＰＵ２０１とＲＯＭ２０２に記憶されているプログラムとの協働により実行される。

【0033】

まず、ＣＰＵ２０１は、音声合成処理Ａ～Ｄで使用される変数を初期化する（ステップＳ１）。
次いで、ＣＰＵ２０１は、キースキャナ２０６からの入力に基づき、パラメータ変更操作子１０３の操作が検出されたか否かを判断する（ステップＳ２）。
パラメータ変更操作子１０３の操作が検出されたと判断した場合（ステップＳ２；ＹＥＳ）、ＣＰＵ２０１は、パラメータ変更操作子１０３の指示部１０３ａの位置に応じて、歌声の発音に用いる歌声情報（歌声パラメータ群）を変更し（ステップＳ３）、ステップＳ４に移行する。

【0034】

例えば、パラメータ変更操作子１０３の指示部１０３ａが目盛り１に合わせた状態に変更された場合、歌声の発音に用いるパラメータの設定を第１の歌声情報に変更する。パラメータ変更操作子１０３の指示部１０３ａが目盛り２に合わせた状態に変更された場合、歌声の発音に用いるパラメータの設定を第２の歌声情報に変更する。パラメータ変更操作子１０３の指示部１０３ａが目盛り１と目盛り２の間に位置する状態に変更された場合、第１の歌声情報と第２の歌声情報に基づいて歌声情報を生成して（例えば、指示部１０３ａの目盛り１からの回転角度と、目盛り２からの回転角度の比に応じて第１の歌声情報と第２の歌声情報を合成して）ＲＡＭ２０３に記憶し、歌声の発音に用いるパラメータの設定を生成した歌声情報に変更する。これにより、歌声の発音中（演奏中）であっても声色を変化させることが可能となる。

【0035】

パラメータ変更操作子１０３の操作が検出されていないと判断した場合（ステップＳ２；ＮＯ）、ＣＰＵ２０１は、ステップＳ４に移行する。

【0036】

ステップＳ４において、ＣＰＵ２０１は、キースキャナ２０６から入力された演奏操作情報に基づいて、鍵盤１０１の押鍵操作（ＫｅｙＯｎ）が検出されたか否かを判断する（ステップＳ４）。
ＫｅｙＯｎが検出されたと判断した場合（ステップＳ４；ＹＥＳ）、ＣＰＵ２０１は、音声合成処理Ａを実行する（ステップＳ５）。

【0037】

図８は、音声合成処理Ａの流れを示すフローチャートである。音声合成処理Ａは、ＣＰＵ２０１とＲＯＭ２０２に記憶されているプログラムとの協働により実行される。

【0038】

音声合成処理Ａにおいて、まず、ＣＰＵ２０１は、KeyOnCounterにKeyOnCounter＋1を設定する（ステップＳ５０１）。
ここで、KeyOnCounterは、現在押鍵されている鍵の数（操作継続中の操作子の数）を格納する変数である。

【0039】

次いで、ＣＰＵ２０１は、KeyOnCounterが１であるか否かを判断する（ステップＳ５０２）。
すなわち、検出された押鍵操作が他の操作子が押鍵されていない状態でなされたか否かを判断する。

【0040】

KeyOnCounterが１であると判断した場合（ステップＳ５０２；ＹＥＳ）、ＣＰＵ２０１は、CurrentFramePosが最後の音節のフレーム位置であるか否かを判断する（ステップＳ５０３）。
このCurrentFramePosは、現在の発音対象のフレームのフレーム位置を格納する変数であり、次の発音対象のフレームのフレーム位置に置き換えられるまでは（例えば、図８では、ステップＳ５０８又はステップＳ５０９が実行されるまでは）、前回発音されたフレームのフレーム位置が格納されている。

【0041】

CurrentFramePosが最後の音節のフレーム位置であると判断した場合（ステップＳ５０３；ＹＥＳ）、ＣＰＵ２０１は、次の発音対象のフレームのフレーム位置を格納する変数であるNextFramePosに、最初の音節の音節開始位置を設定する（ステップＳ５０４）。
そして、ＣＰＵ２０１は、CurrentFramePosにNextFramePosを設定し（ステップＳ５０９）、ステップＳ５１０に移行する。
すなわち、前回発音されたフレームが最後の音節である場合は、前回発音された音節の次の音節がないため、発音対象のフレームの位置が最初の音節開始位置のフレームに進行する。

【0042】

CurrentFramePosが最後の音節のフレーム位置ではないと判断した場合（ステップＳ５０３；ＮＯ）、ＣＰＵ２０１は、NextFramePosに、次の音節の音節開始位置を設定する（ステップＳ５０５）。
そして、ＣＰＵ２０１は、CurrentFramePosにNextFramePosを設定し（ステップＳ５０９）、ステップＳ５１０に移行する。
すなわち、前回発音されたフレームが最後の音節ではない場合は、発音対象のフレームの位置が次の音節の音節開始位置に進行する。

【0043】

一方、KeyOnCounterが１ではないと判断した場合（ステップＳ５０２；ＮＯ）、ＣＰＵ２０１は、NextFramePosにCurrentFramePos＋再生レート／１２０を設定する（ステップＳ５０７）。
ここで、１２０は、デフォルトのテンポ値であるが、デフォルトのテンポ値はこれに限定されるものではない。再生レートは、ユーザが予め設定した値である。例えば、再生レートが２４０に設定されている場合、次に発音するフレームの位置が現在のフレーム位置から２つ進んだ位置に設定される。再生レートが６０に設定されている場合、次に発音するフレームの位置が現在のフレーム位置から０．５進んだ位置に設定される。

【0044】

次いで、ＣＰＵ２０１は、NextFramePos＞母音終了位置であるか否かを判断する（ステップＳ５０７）。すなわち、次に発音するフレームの位置が、現在の発音対象の音節の母音終了位置（すなわち前回発音された音節の母音終了位置）を超えるか否かを判断する。
NextFramePos＞母音終了位置ではないと判断した場合（ステップＳ５０７；ＮＯ）、ＣＰＵ２０１は、CurrentFramePosにNextFramePosを設定し（ステップＳ５０９）、ステップＳ５１０に移行する。
すなわち、発音対象のフレームのフレーム位置をNextFramePosに進行させる。

【0045】

NextFramePos＞母音終了位置であると判断した場合（ステップＳ５０７；ＹＥＳ）、ＣＰＵ２０１は、CurrentFramePosに現在の発音対象の音節の母音終了位置を設定し（ステップＳ５０８）、ステップＳ５１０に移行する。
すなわち、NextFramePosが母音終了位置を超える場合、発音対象のフレームのフレーム位置をNextFramePosの位置に移行させずに、前回発音された音節の母音終了位置に維持する。

【0046】

ステップＳ５１０において、ＣＰＵ２０１は、歌声の発音に用いるパラメータとして設定されている歌声情報の、CurrentFramePosに格納されているフレーム位置のフレームの歌声パラメータをＲＡＭ２０３から取得して音声合成部２０５に出力し（ステップＳ５１０）、出力した歌声パラメータに基づいて音声合成部２０５により歌声波形データを生成させてＤ／Ａコンバータ２１２、アンプ２１３、スピーカ２１４を介して歌声（音声）を出力させ（ステップＳ５１１）、図７のステップＳ６に移行する。

【0047】

ここで、第１モードが設定されている場合、ＣＰＵ２０１は、押鍵操作されている鍵の音高情報を音声合成部２０５に出力するとともに、設定された歌声情報の特定されたフレームの基本周波数Ｆ０パラメータ及びスペクトルパラメータをＲＡＭ２０３から読み出して音声合成部２０５に出力し、音声合成部２０５により、出力した音高情報、基本周波数Ｆ０パラメータ及びスペクトルパラメータに基づいて歌声波形データを生成させ、Ｄ／Ａコンバータ２１２、アンプ２１３、スピーカ２１４を介して歌声波形データに基づく音声を出力（発音）させる。第２モードが設定されている場合、ＣＰＵ２０１は、設定された歌声情報の特定されたフレームのスペクトルパラメータをＲＡＭ２０３から読み出して音声合成部２０５に出力する。また、押鍵操作されている鍵の音高情報を音源部２０４に出力し、音源部２０４により、予め設定された音色の、入力された音高情報に応じた波形データを発声音源用波形データとして波形ＲＯＭから読み出して音声合成部２０５に出力させる。そして、音声合成部２０５により、入力された発声音源用波形データとスペクトルパラメータに基づいて歌声波形データを生成させ、Ｄ／Ａコンバータ２１２、アンプ２１３、スピーカ２１４を介して歌声波形データに基づく音声を出力させる。

【0048】

図７のステップＳ６において、ＣＰＵ２０１は、KeyOnCounter＝１であるか否かを判断する（ステップＳ６）。すなわち、今回検出された押鍵操作が、押鍵されている鍵がない状態での押鍵操作であるか否かを判断する。
KeyOnCounter＝１であると判断した場合（ステップＳ６；ＹＥＳ）、ＣＰＵ２０１は、アンプ２１３を制御して、生成された歌声波形データに基づく音声の発音開始処理（フェードイン）を行わせ（ステップＳ７）、ステップＳ１７に移行する。発音開始処理は、アンプ２１３の音量を設定値に到達するまで徐々に大きくしていく（フェードインする）処理である。これにより、音声合成部２０５により生成された歌声波形データに基づく音声を徐々に大きくしながらスピーカ２１４により出力（発音）させることができる。なお、アンプ２１３の音量が設定値に到達すると発音開始処理は終了するが、アンプ２１３の音量は、消音開始処理が実行されるまでそのまま設定値に維持される。
KeyOnCounter＝１ではないと判断した場合（ステップＳ６；ＮＯ）、ＣＰＵ２０１は、ステップＳ１７に移行する。すなわち、今回検出された押鍵操作の時点ですでに押鍵されている鍵がある場合は、すでに発音開始処理が開始されているため、そのままステップＳ１７に移行する。

【0049】

一方、ステップＳ４において、ＫｅｙＯｎが検出されていないと判断した場合（ステップＳ４；ＮＯ）、ＣＰＵ２０１は、鍵盤１０１のいずれかの鍵の離鍵（ＫｅｙＯｆｆ、すなわち、押鍵操作の解除）が検出されたか否かを判断する（ステップＳ８）。

【0050】

ステップＳ８において、ＫｅｙＯｆｆが検出されていないと判断した場合（ステップＳ８；ＮＯ）、ＣＰＵ２０１は、KeyOnCounter＝＞１であるか否かを判断する（ステップＳ９）。
KeyOnCounter＝＞１であると判断した場合（ステップＳ９；ＹＥＳ）、ＣＰＵ２０１は、音声合成処理Ｂを実行する（ステップＳ１０）。

【0051】

図９は、音声合成処理Ｂの流れを示すフローチャートである。音声合成処理Ｂは、ＣＰＵ２０１とＲＯＭ２０２に記憶されているプログラムとの協働により実行される。
音声合成処理Ｂにおいて、まず、ＣＰＵ２０１は、NextFramePosにCurrentFramePos＋再生レート／１２０を設定する（ステップＳ９０１）。
ステップＳ９０１の処理は、図８のステップＳ５０６と同様であるので説明を援用する。

【0052】

次いで、ＣＰＵ２０１は、NextFramePos＞母音終了位置であるか否かを判断する（ステップＳ９０２）。すなわち、NextFramePosが現在の発音対象の音節の母音終了位置（すなわち前回発音された音節の母音終了位置）を超えるか否かを判断する。
NextFramePos＞母音終了位置ではないと判断した場合（ステップＳ９０２；ＮＯ）、ＣＰＵ２０１は、CurrentFramePosにNextFramePosを設定し（ステップＳ９０３）、ステップＳ９０５に移行する。
すなわち、NextFramePosが母音終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。

【0053】

NextFramePos＞母音終了位置であると判断した場合（ステップＳ９０２；ＹＥＳ）、ＣＰＵ２０１は、CurrentFramePosに現在の発音対象の音節の母音終了位置を設定し（ステップＳ９０４）、ステップＳ９０５に移行する。
すなわち、NextFramePosが母音終了位置を超える場合、発音対象のフレームのフレーム位置をNextFramePosの位置に移行させずに、前回発音された音節の母音終了位置に維持する。

【0054】

ステップＳ９０５において、ＣＰＵ２０１は、歌声の発音に用いるパラメータとして設定されている歌声情報の、CurrentFramePosに格納されているフレーム位置のフレームの歌声パラメータをＲＡＭ２０３から取得して音声合成部２０５に出力し（ステップＳ９０５）、音声合成部２０５により、出力した歌声パラメータに基づいて歌声波形データを生成させてＤ／Ａコンバータ２１２、アンプ２１３、スピーカ２１４を介して歌声を出力させ（ステップＳ９０６）、図７のステップＳ１７に移行する。
ステップＳ９０５とＳ９０６の処理は、それぞれ図８のステップＳ５１０、Ｓ５１１と同様であるので説明を援用する。

【0055】

一方、図７のステップＳ８において、ＫｅｙＯｆｆが検出されたと判断した場合（ステップＳ８；ＹＥＳ）、ＣＰＵ２０１は、音声合成処理Ｃを実行する（ステップＳ１１）。

【0056】

図１０は、音声合成処理Ｃの流れを示すフローチャートである。音声合成処理Ｃは、ＣＰＵ２０１とＲＯＭ２０２に記憶されているプログラムとの協働により実行される。

【0057】

音声合成処理Ｃにおいて、まず、ＣＰＵ２０１は、KeyOnCounterにKeyOnCounter - 1を設定する（ステップＳ１１０１）。
次いで、ＣＰＵ２０１は、NextFramePosにCurrentFramePos＋再生レート／１２０を設定する（ステップＳ１１０２）。
ステップＳ１１０２の処理は、図８のステップＳ５０６と同様であるので説明を援用する。

【0058】

次いで、ＣＰＵ２０１は、NextFramePos＞母音終了位置であるか否かを判断する（ステップＳ１１０３）。すなわち、NextFramePosが現在の発音対象の音節の母音終了位置（すなわち前回発音された音節の母音終了位置）を超えるか否かを判断する。
NextFramePos＞母音終了位置ではないと判断した場合（ステップＳ１１０３；ＮＯ）、ＣＰＵ２０１は、CurrentFramePosにNextFramePosを設定し（ステップＳ１１０７）、ステップＳ１１０９に移行する。
すなわち、NextFramePosが母音終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。

【0059】

NextFramePos＞母音終了位置であると判断した場合（ステップＳ１１０３；ＹＥＳ）、ＣＰＵ２０１は、KeyOnCounter＝０であるか否か（すなわち、鍵盤１０１の全鍵が離鍵された状態であるか否か）を判断する（ステップＳ１１０４）。
KeyOnCounter＝０ではないと判断した場合（ステップＳ１１０４；ＮＯ）、ＣＰＵ２０１は、CurrentFramePosに現在の発音対象の音節の母音終了位置を設定し（ステップＳ１１０５）、ステップＳ１１０９に移行する。
すなわち、NextFramePosが母音終了位置を超える場合であって、鍵盤１０１の全鍵が離鍵された状態ではない（押鍵されている鍵がある）場合、発音対象のフレームのフレーム位置をNextFramePosに移行させずに、前回発音された音節の母音終了位置に維持する。

【0060】

KeyOnCounter＝０であると判断した場合（ステップＳ１１０４；ＹＥＳ）、ＣＰＵ２０１は、NextFramePos＞音節終了位置であるか否かを判断する（ステップＳ１１０６）。
すなわち、ＣＰＵ２０１は、NextFramePosが現在の発音対象の音節の音節終了位置（すなわち前回発音された音節の音節終了位置）を超えるか否かを判断する。

【0061】

NextFramePos＞音節終了位置ではないと判断した場合（ステップＳ１１０６；ＮＯ）、ＣＰＵ２０１は、CurrentFramePosにNextFramePosを設定し（ステップＳ１１０７）、ステップＳ１１０９に移行する。
すなわち、鍵盤１０１の全鍵が離鍵された状態であって、NextFramePosが音節終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。

【0062】

NextFramePos＞音節終了位置であると判断した場合（ステップＳ１１０６；ＹＥＳ）、ＣＰＵ２０１は、CurrentFramePosに音節終了位置を設定し（ステップＳ１１０８）、ステップＳ１１０９に移行する。
すなわち、鍵盤１０１の全鍵が離鍵された状態であって、NextFramePosが音節終了位置を超える場合、発音対象のフレームのフレーム位置をNextFramePosに移行させずに、前回発音された音節の音節終了位置に維持する。

【0063】

ステップＳ１１０９において、ＣＰＵ２０１は、歌声の発音に用いるパラメータとして設定されている歌声情報の、CurrentFramePosに格納されているフレーム位置のフレームの歌声パラメータをＲＡＭ２０３から取得して音声合成部２０５に出力し（ステップＳ１１０９）、音声合成部２０５により、出力した歌声パラメータに基づいて歌声波形データを生成させてＤ／Ａコンバータ２１２、アンプ２１３、スピーカ２１４を介して歌声を出力させ（ステップＳ１１１０）、図７のステップＳ１２に移行する。
ステップＳ１１０９とＳ１１１０の処理は、それぞれ図８のステップＳ５１０、Ｓ５１１と同様であるので説明を援用する。

【0064】

図７のステップＳ１２において、ＣＰＵ２０１は、KeyOnCounter＝０である（鍵盤１０１の全鍵の離鍵が検出された）か否かを判断する（ステップＳ１２）。
KeyOnCounter＝０ではない（鍵盤１０１の全鍵の離鍵が検出されていない）と判断した場合（ステップＳ１２；ＮＯ）、ＣＰＵ２０１は、ステップＳ１７に移行する。
KeyOnCounter＝０である（鍵盤１０１の全鍵の離鍵が検出された）と判断した場合（ステップＳ１２；ＹＥＳ）、ＣＰＵ２０１は、アンプ２１３を制御して消音開始処理（フェードアウト開始）を実行し（ステップＳ１３）、ステップＳ１７に移行する。
消音開始処理は、アンプ２１３の音量が０になるまで徐々に小さくしていく消音処理を開始する処理である。消音処理により、音声合成部２０５により生成された歌声波形データに基づく音声が徐々に小さい音量でスピーカ２１４により出力される。

【0065】

一方、ステップＳ９において、KeyOnCounter＞＝１ではないと判断した場合（ステップＳ９；ＮＯ）、すなわち、鍵盤１０１の全鍵が離鍵されている状態であると判断された場合、ＣＰＵ２０１は、アンプ２１３の音量が０であるか否かを判断する（ステップＳ１４）。
アンプ２１３の音量が０ではないと判断した場合（ステップＳ１４；ＮＯ）、ＣＰＵ２０１は、音声合成処理Ｄを実行する（ステップＳ１５）。

【0066】

図１１は、音声合成処理Ｄの流れを示すフローチャートである。音声合成処理Ｄは、ＣＰＵ２０１とＲＯＭ２０２に記憶されているプログラムとの協働により実行される。

【0067】

音声合成処理Ｄにおいて、まず、ＣＰＵ２０１は、NextFramePosにCurrentFramePos＋再生レート／１２０を設定する（ステップＳ１５０１）。
ステップＳ１５０１の処理は、図８のステップＳ５０６と同様であるので説明を援用する。

【0068】

次いで、ＣＰＵ２０１は、NextFramePos＞母音終了位置であるか否かを判断する（ステップＳ１５０２）。すなわち、NextFramePosが現在の発音対象の音節の母音終了位置（すなわち前回発音された音節の母音終了位置）を超えるか否かを判断する。
NextFramePos＞母音終了位置ではないと判断した場合（ステップＳ１５０２；ＮＯ）、ＣＰＵ２０１は、CurrentFramePosにNextFramePosを設定し（ステップＳ１５０４）、ステップＳ１５０６に移行する。
すなわち、NextFramePosが母音終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。

【0069】

NextFramePos＞母音終了位置であると判断した場合（ステップＳ１５０２；ＹＥＳ）、ＣＰＵ２０１は、NextFramePos＞音節終了位置であるか否かを判断する（ステップＳ１５０３）。
すなわち、ＣＰＵ２０１は、NextFramePosが現在の発音対象の音節の音節終了位置（すなわち前回発音された音節の音節終了位置）を超えるか否かを判断する。

【0070】

NextFramePos＞音節終了位置ではないと判断した場合（ステップＳ１５０３；ＮＯ）、ＣＰＵ２０１は、CurrentFramePosにNextFramePosを設定し（ステップＳ１５０４）、ステップＳ１５０６に移行する。すなわち、NextFramePosが音節終了位置を超えない場合、発音対象のフレームのフレーム位置をNextFramePosに進行させる。

【0071】

NextFramePos＞音節終了位置であると判断した場合（ステップＳ１５０３；ＹＥＳ）、ＣＰＵ２０１は、CurrentFramePosに音節終了位置を設定し（ステップＳ１５０５）、ステップＳ１５０６に移行する。
すなわち、NextFramePosが音節終了位置を超える場合、発音対象のフレームのフレーム位置をNextFramePosに移行させずに、前回発音された音節の音節終了位置に維持する。

【0072】

ステップＳ１５０６において、ＣＰＵ２０１は、歌声の発音に用いるパラメータとして設定されている歌声情報の、CurrentFramePosに格納されているフレーム位置のフレームの歌声パラメータをＲＡＭ２０３から取得して音声合成部２０５に出力し（ステップＳ１５０６）、音声合成部２０５により、出力した歌声パラメータに基づいて歌声波形データを生成させてＤ／Ａコンバータ２１２、アンプ２１３、スピーカ２１４を介して歌声を出力させ（ステップＳ１５０７）、図７のステップＳ１６に移行する。
ステップＳ１５０６とＳ１５０７の処理は、それぞれ図８のステップＳ５１０、Ｓ５１１と同様であるので説明を援用する。

【0073】

図７のステップＳ１６において、ＣＰＵ２０１は、アンプ２１３を制御して消音処理（フェードアウト）を実行し（ステップＳ１６）、ステップＳ１７に移行する。

【0074】

一方、ステップＳ１４において、アンプ２１３の音量が０であると判断した場合（ステップＳ１４；ＹＥＳ）、ＣＰＵ２０１は、ステップＳ１７に移行する。

【0075】

ステップＳ１７において、ＣＰＵ２０１は、歌声発音モードの終了が指示されたか否かを判断する（ステップＳ１７）。
例えば、歌声発音モードスイッチが押下され、通常モードへの移行が指示された場合、ＣＰＵ２０１は、歌声発音モードの終了が指示されたと判断する。

【0076】

歌声発音モードの終了が指示されていないと判断した場合（ステップＳ１７；ＮＯ）、ＣＰＵ２０１は、ステップＳ２に戻る。
歌声発音モードの終了が指示されたと判断した場合（ステップＳ１７；ＹＥＳ）、ＣＰＵ２０１は、歌声発音モード処理を終了する。

【0077】

図１２は、音節Ｃｏｍｅが上述の歌声発音モード処理で鍵盤１０１の操作（押鍵操作（ＫｅｙＯｎ））に応じて発音される場合の、押鍵検出時（いずれの鍵も押鍵されていない状態での押鍵検出時）から離鍵（ＫｅｙＯｆｆ）が検出されて音量が０となるまでの音量の変化を示すグラフ及びグラフの各タイミングでの発音に用いられるフレーム位置を模式的に示す図である。図１２（ａ）は、母音ａｈの終了位置のタイミングで離鍵（全鍵離鍵）が検出された場合のグラフ及び模式図を示している。図１２（ｂ）は、母音ａｈの終了位置のタイミングから３フレーム分の時間が経過した後で離鍵（全鍵離鍵）が検出された場合のグラフ及び模式図を示している。図１２（ｃ）は、母音ａｈの終了位置より前のタイミングで離鍵（全鍵離鍵）が検出された場合を示している。

【0078】

図１２（ｂ）に示すように、押鍵検出により音節開始フレーム（図１２（ｂ）の１番目のフレーム）の歌声パラメータに基づく音節の発音を開始させた後、発音している音節に含まれる母音区間（図１２（ｂ）のａｈの区間）内の母音終了位置のフレーム（或る母音フレーム）までフレーム位置が進んだ後（すなわち、母音終了位置のフレームの歌声パラメータに基づく母音の発音の開始後）においても押鍵が継続している場合、離鍵（全鍵離鍵）が検出されるまで、母音終了位置のフレームの歌声パラメータに基づいて母音の発音が継続される。また、図１２（ｃ）に示すように、押鍵検出により音節開始フレーム（図１２（ｃ）の１番目のフレーム）の歌声パラメータに基づく音節の発音を開始させた後、母音終了位置までフレーム位置が進むよりも前に離鍵（全鍵離鍵）が検出された場合、直ちに消音処理が開始され、歌声パラメータに用いるフレームの位置を進行させつつ消音処理が行われる。
したがって、ユーザによる鍵盤１０１の操作に応じた長さで音節を自然に発音させることができる。

【0079】

従来の電子楽器による歌声発音技術（例えば、特許文献１）では、複数の発音単位の波形データであるオーディオ情報をつなぎ合わせて音節ごとの発音や操作に応じたループ再生を行うため、自然な歌声を発音させることが困難であった。また、複数の発声単位の各々の波形データが時系列化されたオーディオ情報を記憶する必要があるため、大きいメモリ容量が必要であった。本実施形態の電子楽器２では、音節の母音終了位置のフレームに基づく母音の発音の開始後においても押鍵が継続している場合、人間の歌声を機械学習により学習した学習済みモデルにより生成された歌声パラメータのうち、母音終了位置のフレームの歌声パラメータを用いて歌声波形データを生成して発音させるため、母音の波形をつなぎ合わせた場合のようなぎこちない発音ではなく、より自然な音声（歌声）を発音させることができる。また、複数の発声単位の各々の波形データをＲＡＭ２０３に記憶しておく必要がないため、従来の歌声発音技術に比べてメモリ容量も少なくて済む。

【0080】

また、従来の電子楽器による歌声発音技術は、波形データを再生するものであるため、固定された声色での発音となり、再生中に声色を変えることはできない。一方、本実施形態の電子楽器２では、歌声パラメータを用いて音声波形を生成して発音を行うため、歌声の発音中（演奏中）に、ユーザによるパラメータ変更操作子１０３の操作に応じて、歌声の声色を変更することが可能となる。

【0081】

以上説明したように、電子楽器２のＣＰＵ２０１によれば、鍵盤１０１の鍵の押鍵操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も押鍵中の鍵が存在する状態が継続している場合、押鍵が解除されるまで（すなわち、離鍵が検出されるまで）、或る母音フレームに対応するパラメータに基づく母音の発音を継続させる。具体的に、電子楽器２の音声合成部２０５に或る母音フレームに対応する歌声パラメータを出力し、音声合成部２０５に歌声パラメータに基づく音声波形データを生成させて、音声波形データに基づく音声を発音させる。
したがって、より少ないメモリ容量で、電子楽器の操作に応じて、より自然な音声を発音させることが可能となる。

【0082】

また、音節の発音に用いる歌声パラメータとして、人間（歌い手）の声を機械学習することにより生成された学習済みモデルにより推論された歌声パラメータを用いるため、歌い手の自然な音素レベルの発音ニュアンスを残した、表現力のある発音が可能となる。

【0083】

また、ＣＰＵ２０１は、演奏中を含むタイミングでユーザにより実行されるパラメータ変更操作子１０３の操作に応じて、音節を発音するための歌声パラメータを別の音色の歌声パラメータに変更する。したがって、演奏中（歌声の発音中）であっても、歌声の音色を変更することが可能となる。

【0084】

なお、上記実施形態における記述内容は、本発明に係る情報処理装置、電子楽器、電子楽器システム、方法及びプログラムの好適な一例であり、これに限定されるものではない。
例えば、上記実施形態においては、本発明の情報処理装置が電子楽器２に含まれる構成として説明したが、これに限定されない。例えば、本発明の情報処理装置の機能が、有線又は無線による通信インターフェースを介して電子楽器２に接続された外部装置（例えば、上述の端末装置３（ＰＣ（Personal Computer）、タブレット端末、スマートフォン等
））に備えられていることとしてもよい。

【0085】

また、上記実施形態では、学習済みモデル３０２ａ及び学習済みモデル３０２ｂが端末装置３に備えられていることとして説明したが、電子楽器２に備えられている構成としてもよい。そして、電子楽器２において入力された歌詞データ及び音高データに基づいて、学習済みモデル３０２ａ及び学習済みモデル３０２ｂが歌声情報を推論することとしてもよい。

【0086】

また、上記実施形態においては、鍵盤１０１のいずれの鍵も操作されていない状態で一の鍵への押鍵操作が検出された場合に音節の発音を開始させることとして説明したが、音節の発音を開始させるトリガとなる押鍵操作はこれに限定されない。例えば、メロディーライン（トップノート）の鍵の押鍵操作が検出された場合に音節の発音を開始させることとしてもよい。

【0087】

また、上記実施形態においては、電子楽器２が電子鍵盤楽器である場合を例にとり説明したが、これに限定されず、例えば、電子弦楽器、電子管楽器等の他の電子楽器であってもよい。

【0088】

また、上記実施形態では、本発明に係るプログラムのコンピュータ読み取り可能な媒体としてＲＯＭ等の半導体メモリやハードディスクを使用した例を開示したが、この例に限定されない。その他のコンピュータ読み取り可能な媒体として、ＳＳＤや、ＣＤ－ＲＯＭ等の可搬型記録媒体を適用することが可能である。また、本発明に係るプログラムのデータを通信回線を介して提供する媒体として、キャリアウエーブ（搬送波）も適用される。

【0089】

その他、電子楽器、情報処理装置、及び電子楽器システムの細部構成及び細部動作に関しても、発明の趣旨を逸脱することのない範囲で適宜変更可能である。

【0090】

以上に本発明の実施形態を説明したが、本発明の技術的範囲は上述の実施の形態に限定するものではなく、特許請求の範囲に記載に基づいて定められる。更に、特許請求の範囲の記載から本発明の本質とは関係のない変更を加えた均等な範囲も本発明の技術的範囲に含む。
以下に、この出願の願書に最初に添付した特許請求の範囲に記載した発明を付記する。付記に記載した請求項の項番は、この出願の願書に最初に添付した特許請求の範囲の通りである。
〔付記〕
＜請求項１＞
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる制御部、
を備える情報処理装置。
＜請求項２＞
前記制御部は、電子楽器の音声合成部に前記パラメータを出力し、前記音声合成部に前記パラメータに基づく音声波形データを生成させて、前記音声波形データに基づく音声を発音させる請求項１に記載の情報処理装置。
＜請求項３＞
前記パラメータは、人間の声を機械学習することにより生成された学習済みモデルにより推論されたパラメータである請求項１又は２に記載の情報処理装置。
＜請求項４＞
前記パラメータは、スペクトルパラメータを含む請求項１～３のいずれか一項に記載の情報処理装置。
＜請求項５＞
前記制御部は、演奏中を含む任意のタイミングでユーザにより実行される前記発音される音声の音色の変更指示操作に応じて、前記パラメータを別の音色のパラメータに変更する請求項１～４のいずれか一項に記載の情報処理装置。
＜請求項６＞
前記操作子への操作が継続している場合とは、電子鍵盤楽器においては押鍵中の鍵が存在する場合を含み、
前記操作子への操作が解除とは、前記電子鍵盤楽器においては押鍵された全ての鍵が離鍵されていずれの鍵も押鍵されていない状態を含む、請求項１～５のいずれか一項に記載の情報処理装置。
＜請求項７＞
請求項１～６のいずれか一項に記載の情報処理装置と、
複数の操作子と、
を備える電子楽器。
＜請求項８＞
請求項１～６のいずれか一項に記載の情報処理装置と、
複数の操作子を備える電子楽器と、
を備える電子楽器システム。
＜請求項９＞
情報処理装置の制御部が、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる、方法。
＜請求項１０＞
情報処理装置の制御部が、
操作子への操作の検出に応じて音節開始フレームに対応するパラメータに基づく音節の発音を開始させた後、前記音節に含まれる母音区間内の或る母音フレームに対応するパラメータに基づく母音の発音の開始後も前記操作子への操作が継続している場合、前記操作子への操作が解除されるまで前記或る母音フレームに対応するパラメータに基づく母音の発音を継続させる、
処理を実行するためのプログラム。

【符号の説明】

【0091】

１電子楽器システム
２電子楽器
１０１鍵盤
１０２スイッチパネル
１０３パラメータ変更操作子
１０４ＬＣＤ
２０１ＣＰＵ
２０２ＲＯＭ
２０３ＲＡＭ
２０４音源部
２０５音声合成部
２０６キースキャナ
２０８通信部
２０９バス
２１０タイマ
２１１Ｄ／Ａコンバータ
２１２Ｄ／Ａコンバータ
２１３アンプ
２１４スピーカ
３端末装置
３０１ＣＰＵ
３０２ＲＯＭ
３０２ａ学習済みモデル
３０２ｂ学習済みモデル
３０３ＲＡＭ
３０４記憶部
３０５操作部
３０６表示部
３０７通信部
３０８バス

【図1】