特開2024-54051 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2024-54051音響モデルの訓練システム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024054051

(43)【公開日】2024-04-16

(54)【発明の名称】音響モデルの訓練システム及び方法

(51)【国際特許分類】

G10L 13/06 20130101AFI20240409BHJP

【ＦＩ】

G10L13/06 230Z

【審査請求】未請求

【請求項の数】19

【出願形態】ＯＬ

(21)【出願番号】P 2022192811

(22)【出願日】2022-12-01

(31)【優先権主張番号】63/412,887

(32)【優先日】2022-10-04

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】110000408

【氏名又は名称】弁理士法人高橋・林アンドパートナーズ

(72)【発明者】

【氏名】大道竜之介

(72)【発明者】

【氏名】才野慶二郎

(72)【発明者】

【氏名】西村方成

(57)【要約】

【課題】複数の訓練用データから音響モデルの訓練に使用するデータを選択可能にすることで、様々な訓練を容易に実行可能にすること。
【解決手段】音響モデルの訓練システムは、ネットワークに接続可能な、第１ユーザが使用する第１デバイスと、前記ネットワークに接続可能なサーバと、を含む。前記第１デバイスは、前記第１ユーザによる制御の下で、前記サーバに複数の音波形をアップロードし、既にアップロードされた、又は、これからアップロードされる前記複数の音波形から第１波形セットとして一以上の音波形を選択し、音響特徴量を生成する音響モデルに対する第１訓練ジョブの第１実行指示を前記サーバに送信する。前記サーバは、前記第１デバイスからの前記第１実行指示に基づいて、選択された前記第１波形セットを用いて前記第１訓練ジョブの実行を開始し、前記第１訓練ジョブによって訓練された訓練済み音響モデルを前記第１デバイスに提供する。
【選択図】図４

【特許請求の範囲】

【請求項1】

ネットワークに接続可能な、第１ユーザが使用する第１デバイスと、
前記ネットワークに接続可能なサーバと、を含み、
前記第１デバイスは、前記第１ユーザによる制御の下で、
前記サーバに複数の音波形をアップロードし、
既にアップロードされた、又は、これからアップロードされる前記複数の音波形から第１波形セットとして一以上の音波形を選択し、
音響特徴量を生成する音響モデルに対する第１訓練ジョブの第１実行指示を前記サーバに送信し、
前記サーバは、前記第１デバイスからの前記第１実行指示に基づいて、
選択された前記第１波形セットを用いて前記第１訓練ジョブの実行を開始し、
前記第１訓練ジョブによって訓練された訓練済み音響モデルを前記第１デバイスに提供する音響モデルの訓練システム。

【請求項2】

予め保存された複数の音波形から、音響特徴量を生成する音響モデルに対する第１訓練ジョブで用いる一以上の音波形を選択させるインターフェースを第１ユーザに提供する、１以上のコンピュータにより実現される音響モデルの訓練方法。

【請求項3】

前記インターフェースを用いて前記第１ユーザが選択した一以上の波形を第１波形セットとして受け取り、
前記インターフェースを介した前記第１ユーザによる第１実行指示に基づいて、前記第１波形セットを用いて前記第１訓練ジョブの実行を開始し、
前記第１訓練ジョブによって訓練された音響モデルを、第１音響モデルとして前記第１ユーザに提供する、ことをさらに含む請求項２に記載の訓練方法。

【請求項4】

前記第１ユーザによる第１公開指示に基づいて、前記第１訓練ジョブの状態を示す第１状態情報を、前記第１ユーザとは異なる第２ユーザに提供する、ことをさらに含む請求項３に記載の訓練方法。

【請求項5】

前記第１状態情報を、前記第１ユーザの使用する第１デバイスに表示し、
前記第１公開指示に基づいて、前記第１状態情報を、前記第２ユーザが使用する第２デバイスに表示する、ことをさらに含む請求項４に記載の訓練方法。

【請求項6】

前記第１訓練ジョブの状態は、時間経過に応じて変化し、
前記第２ユーザが使用する第２デバイスに表示される前記第１状態情報が繰り返し更新される、請求項４に記載の訓練方法。

【請求項7】

前記第１訓練ジョブの状態の進行度が前記第１状態情報として表示される、請求項４に記載の訓練方法。

【請求項8】

前記第２ユーザによる公開要求に基づいて、前記公開要求のタイミングの前記第１状態情報が、前記第２ユーザが使用する第２デバイスに表示される、請求項４に記載の訓練方法。

【請求項9】

前記インターフェースを用いて前記第１ユーザが新たに選択した一以上の波形を第２波形セットとして受け取り、
前記第１ユーザによる第２実行指示に基づいて、前記第２波形セットを用いた第２訓練ジョブの実行を開始する、ことをさらに含み、
前記第１訓練ジョブ及び前記第２訓練ジョブは並行して実行される、請求項３に記載の訓練方法。

【請求項10】

前記第１ユーザによる公開指示に基づいて、前記第１訓練ジョブに関する第１状態情報及び前記第２訓練ジョブに関する第２状態情報の少なくとも一方を、前記第１ユーザとは異なる第２ユーザの第２デバイスに提供する、ことをさらに含む請求項９に記載の訓練方法。

【請求項11】

前記第１ユーザの第１実行指示に応じて、前記第１ユーザに対して課金し、
前記課金に対する支払いが確認された場合に、前記第１訓練ジョブの実行を開始する、請求項２に記載の訓練方法。

【請求項12】

実空間を特定する空間ＩＤを受信し、
前記訓練方法を提供するサービスに対する前記第１ユーザのアカウント情報と、前記空間ＩＤとをリンクさせる、請求項２に記載の訓練方法。

【請求項13】

前記空間ＩＤにリンクした前記アカウント情報を有する前記第１ユーザに対して課金をする、請求項１２に記載の訓練方法。

【請求項14】

前記実空間において再生された、楽曲を構成する音を示す楽譜データを、前記楽曲の再生期間の少なくとも一部における歌唱又は演奏音が収録された音声データとともに受信し、
前記音声データを予め保存された音波形として、前記楽譜データとリンクして記憶する、請求項１２に記載の訓練方法。

【請求項15】

前記第１ユーザの録音指示に基づいて、前記再生期間のうち指定された期間の前記音声データを収録する、請求項１４に記載の訓練方法。

【請求項16】

前記第１ユーザの再生指示に基づいて、前記音声データを前記実空間において再生し、
前記再生指示によって再生された前記音声データを、前記第１ユーザに提供される前記予め保存された複数の音波形の一つとして保存するか否かを、前記第１ユーザに問い合わせる、請求項１４に記載の訓練方法。

【請求項17】

予め保存された音波形を分析し、
前記分析によって得られた分析結果に基づいて、前記第１ユーザに推薦する楽曲を特定し、
特定された前記楽曲を示す情報を前記第１ユーザに提供する、請求項２に記載の訓練方法。

【請求項18】

前記分析結果は、歌唱スタイル、演奏スタイル、歌唱音域、及び演奏音域の少なくともいずれか一を示す、請求項１７に記載の訓練方法。

【請求項19】

前記分析結果は、演奏スキルを示す、請求項１７に記載の訓練方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の一実施形態は、音響モデルの訓練システム及び方法に関する。

【背景技術】

【0002】

特定の歌手の声音及び特定の楽器の演奏音を合成する音声合成（Sound Synthesis）技術が知られている。特に、機械学習を利用した音声合成技術（例えば、特許文献１、２）では、ユーザによって入力された楽譜データ及び音響データに基づいて当該特定の音声及び演奏音で自然な発音の合成音声を出力するために、十分に訓練された音響モデルが要求される。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０２０－０７６８４３号公報

【特許文献2】国際公開第２０２２／０８０３９５号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、音響モデルを十分に訓練するためには、膨大な量の声音及び演奏音について言語特徴量をラベル付けする必要があり、莫大な時間と費用を要していた。そのため、資金を十分に有する企業しか音響モデルの訓練を実行することができず、音響モデルの種類が限られていた。

【0005】

本発明の一実施形態の目的の一つは、複数の訓練用データから音響モデルの訓練に使用するデータを選択可能にすることで、様々な訓練を容易に実行可能にすることである。

【課題を解決するための手段】

【0006】

本発明の一実施形態による音響モデルの訓練システムは、ネットワークに接続可能な、第１ユーザが使用する第１デバイスと、前記ネットワークに接続可能なサーバと、を含む。前記第１デバイスは、前記第１ユーザによる制御の下で、前記サーバに複数の音波形をアップロードし、既にアップロードされた、又は、これからアップロードされる前記複数の音波形から第１波形セットとして一以上の音波形を選択し、音響特徴量を生成する音響モデルに対する第１訓練ジョブの第１実行指示を前記サーバに送信する。前記サーバは、前記第１デバイスからの前記第１実行指示に基づいて、選択された前記第１波形セットを用いて前記第１訓練ジョブの実行を開始し、前記第１訓練ジョブによって訓練された訓練済み音響モデルを前記第１デバイスに提供する。

【0007】

本発明の一実施形態による音響モデルの訓練方法は、予め保存された複数の音波形から、音響特徴量を生成する音響モデルに対する第１訓練ジョブを実行させるための一以上の音波形を選択させるインターフェースを第１ユーザに提供することを１以上のコンピュータにより実現させる。

【発明の効果】

【0008】

本発明の一実施形態によれば、複数の訓練用データから音響モデルの訓練に使用するデータを選択可能にすることで、様々な訓練を容易に実行可能にできる。

【図面の簡単な説明】

【0009】

【図1】本発明の一実施形態における音響モデル訓練システムの全体構成を示す図である。

【図2】本発明の一実施形態におけるサーバの構成を示すブロック図である。

【図3】本発明の一実施形態における音響モデルの概念を示すブロック図である。

【図4】本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。

【図5】本発明の一実施形態における音響モデルの訓練方法におけるＧＵＩの一例を示す図である。

【図6】本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。

【図7】本発明の一実施形態における音響モデルの情報公開及び試聴要求に係るＧＵＩの一例を示す図である。

【図8】本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。

【図9】本発明の一実施形態における音響モデルの訓練時に公開情報を設定するときのＧＵＩの一例を示す図である。

【図10】本発明の一実施形態における音響モデルの訓練方法を示すフローチャートである。

【図11】本発明の一実施形態における音響モデルの訓練に用いる音波形の収録方法を示すシーケンス図である。

【図12】本発明の一実施形態において、サーバによって管理されるデータ構成を示す図である。

【図13】本発明の一実施形態における音響モデルの訓練においてサーバに送信されるデータを示す図である。

【図14】本発明の一実施形態における音響モデルの訓練方法を示すフローチャートである。

【図15】本発明の一実施形態における音響モデルの訓練に適した楽曲の推薦方法を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、本発明の一実施形態における音響モデルの訓練システム及び方法について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明を実施する形態の一例であって、本発明はこれらの実施形態に限定して解釈されない。本実施形態で参照する図面において、同一部分又は同様の機能を有する部分には同一の符号又は類似の符号（数字の後にＡ、Ｂ等を付しただけの符号）が付されており、それらの繰り返しの説明は省略される場合がある。

【0011】

以下の実施形態において、「楽譜データ」は、音符の音高及び強度に関する情報、音符における音韻に関する情報、音符の発音期間に関する情報、及び演奏記号に関する情報を含むデータである。例えば、楽譜データは、楽曲の楽譜及び歌詞の少なくとも一方を示すデータである。楽譜データは、当該楽曲を構成する音符の時系列を示すデータであってもよく、当該楽曲を構成する言語の時系列を示すデータであってもよい。

【0012】

「音波形」は、音声の波形データであり、その音声を発する音源は、音源ＩＤで特定される。例えば、音波形は、歌唱の波形データ及び楽器音の波形データの少なくとも一方である。例えば、音波形は、マイク等の入力装置を介して取り込まれた歌手の歌声及び楽器の演奏音の波形データを含む。音源ＩＤは、その歌手の歌唱の音色、又はその楽器の演奏音の音色を特定する。音波形のうち、音響モデルを用いて合成音波形を生成するために入力される音波形を「合成用音波形」といい、音響モデルを訓練するために用いられる音波形を「訓練用音波形」という。合成用音波形と訓練用音波形とを区別する必要がない場合、これらを併せて、単に「音波形」という。

【0013】

「音響モデル」は、楽譜データの楽譜特徴量の入力と、音波形の音響特徴量の入力とを有する。音響モデルとして、例えば、国際公開第２０２２／０８０３９５号に記載された、楽譜エンコーダ１１１、音響エンコーダ１２１、切換部１３１、及び音響デコーダ１３３を有する音響モデルを用いる。この音響モデルは、入力された楽譜データの楽譜特徴量又は音波形の音響特徴量と音源ＩＤとを処理することで、その音源ＩＤが示す音色を有する、目的とする音波形の音響特徴量を生成する機能を有し、新たな合成音波形を生成するための音声合成プログラムによって使用される音声合成モデルである。音声合成プログラムは、ある楽曲の楽譜データから生成した楽譜特徴量と音源ＩＤとを音響モデルに供給することで、その音源ＩＤが示す音色で、かつその楽曲の音響特徴量を得て、その音響特徴量を音波形に変換する。或いは、音声合成プログラムは、ある楽曲の音波形から生成した音響特徴量と音源ＩＤとを音響モデルに供給することで、その音源ＩＤが示す音色で、かつその楽曲の新たな音響特徴量を得て、その新たな音響特徴量を音波形に変換する。音響モデル毎に、所定数の音源ＩＤが用意される。つまり、各音響モデルは、所定数の音色のうちの、音源ＩＤが示す音色の音響特徴量を選択的に生成する。

【0014】

音響モデルは、機械学習を利用した、例えば、畳み込みニューラルネットワーク（ＣＮＮ）又はリカレントニューラルネットワーク（ＲＮＮ）などを利用した所定のアーキテクチャの生成モデルである。音響特徴量は、自然音や合成音の波形の周波数スペクトルにおける発音の特徴を表すものであり、音響特徴量が近いことは歌声又は演奏音の音色やその時間変化が似ていることを意味する。

【0015】

音響モデルの訓練においては、音響モデルによって、参照した音波形の音響特徴量と類似する音響特徴量が生成されるように、音響モデルの変数が変更される。訓練には、例えば、国際公開第２０２２／０８０３９５号に記載された訓練プログラムＰ２、楽譜データＤ１（訓練用楽譜データ）、及び学習用音響データＤ２（訓練用音波形）を用いる。複数の音源ＩＤに対応する複数の音声の波形を用いた基本訓練によって、複数の音源ＩＤに対応する複数の音色の合成音の音響特徴量を生成できるように、音響モデル（楽譜エンコーダ、音響エンコーダ、及び音響デコーダ）の変数が変更される。さらに、その訓練済の音響モデルを、（未使用の）新たな音源ＩＤに対応する別の音色の音波形を用いて補助訓練することで、その音響モデルは、新たな音源ＩＤの示す音色の音響特徴量を生成できるようになる。具体的には、ＸＸＸさん（複数人）の声の音波形で訓練済の音響モデルに対して、さらに、新たな音源ＩＤを用いて、ＹＹＹさん（一人）の声音の音波形で補助訓練を行うことにより、ＹＹＹさんの声音の音響特徴量を生成できる音響モデルになるように、音響モデル（少なくとも、音響デコーダ）の変数が変更される。音響モデルに対する、上記のような、新たな音源ＩＤに対応する訓練の単位を「訓練ジョブ」という。つまり、訓練ジョブとは、訓練のプログラムによって実行される一連の訓練プロセスを意味する。

【0016】

「プログラム」とは、プロセッサ及びメモリを備えたコンピュータにおいてプロセッサより実行される命令又は命令群を指す。「コンピュータ」は、プログラムの実行主体を指す総称である。例えば、サーバ（又はクライアント）によりプログラムが実行される場合、「コンピュータ」は、サーバ（又はクライアント）を指す。また、サーバとクライアントとの間の分散処理により「プログラム」が実行される場合、「コンピュータ」は、サーバ及びクライアントの両方を含む。この場合、「プログラム」は、「サーバで実行されるプログラム」及び「クライアントで実行されるプログラム」を含む。「プログラム」が、複数のサーバ間で分散処理される場合も同様に、「コンピュータ」は、複数のサーバを含み、「プログラム」は、各サーバで実行される各プログラムを含む。

【0017】

［１．第１実施形態］
［１－１．システムの全体構成］
図１は、本発明の一実施形態における音響モデル訓練システムの全体構成を示す図である。図１に示すように、音響モデル訓練システム１０は、サーバ１００（Ｓｅｒｖｅｒ）、通信端末２００（ＴＭ１）、及び通信端末３００（ＴＭ２）を含む。サーバ１００及び通信端末２００、３００は、それぞれネットワーク４００に接続可能である。通信端末２００及び通信端末３００は、それぞれネットワーク４００を介してサーバ１００と通信できる。通信端末２００を「第１デバイス」という場合がある。通信端末２００を使用するユーザを「第１ユーザ」という場合がある。

【0018】

本実施形態において、サーバ１００は、音声合成器として機能し、音響モデルの訓練を実施するコンピュータである。サーバ１００は、ストレージ１１０を備えている。図１では、ストレージ１１０がサーバ１００に直接接続された構成が例示されているが、この構成に限定されない。例えば、ストレージ１１０が直接又は他のコンピュータを介してネットワーク４００に接続され、サーバ１００とストレージ１１０との間のデータの送受信がネットワーク４００を介して行われていてもよい。

【0019】

通信端末２００は、音響モデルを訓練するための訓練用音波形を選択し、サーバ１００に訓練を実行する指示を送信する端末である。通信端末３００は、通信端末２００とは異なる端末であり、サーバ１００にアクセス可能な端末である。詳細は後述するが、通信端末３００は、訓練中の音響モデルに関する公開情報を閲覧又は試聴する端末である。通信端末２００、３００は、例えばスマートフォン若しくはタブレット端末などのモバイル用の通信端末、又は、デスクトップ型パソコンなどの据え置き用の通信端末を含む。

【0020】

ネットワーク４００は一般的なＷｏｒｌｄＷｉｄｅＷｅｂ（ＷＷＷ）サービスによって提供されるインターネット、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、又は社内ＬＡＮなどのＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）である。

【0021】

［１－２．音声合成に用いられるサーバの構成］
図２は、本発明の一実施形態におけるサーバの構成を示すブロック図である。図２に示すように、サーバ１００は、制御部１０１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１０２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１０３、ユーザインタフェース（ＵＩ）１０４、通信インターフェース１０５、及びストレージ１１０を備える。サーバ１００の各機能部が協働することによって、本実施形態の音声合成技術が実現される。

【0022】

制御部１０１は、中央演算処理装置（ＣＰＵ：ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、画像処理装置（ＧＰＵ：ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、当該ＣＰＵ及びＧＰＵに接続されたレジスタやメモリなどの記憶装置を含む。制御部１０１は、メモリに一時的に記憶されたプログラムをＣＰＵ及びＧＰＵによって実行し、サーバ１００に備えられた各機能を実現させる。具体的には、制御部１０１は、通信端末２００からの各種要求信号に応じて演算処理を行い、通信端末２００、３００にコンテンツデータを提供する。

【0023】

ＲＡＭ１０２は、演算処理に必要な制御プログラム、音響モデル（アーキテクチャと変数で構成される）及びコンテンツデータなどを一時的に記憶する。また、ＲＡＭ１０２は、例えばデータバッファとして使用され、通信端末２００など、外部機器から受信した各種データを、ストレージ１１０に記憶させるまでの間、一時的に保持する。ＲＡＭ１２として、例えば、ＳＲＡＭ（ＳｔａｔｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）又はＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの汎用メモリを用いてもよい。

【0024】

ＲＯＭ１０３は、サーバ１００の機能を実現させるための各種プログラム、各種音響モデル、及びパラメータ等を記憶する。ＲＯＭ１０３に記憶されているプログラム、音響モデル、及びパラメータ等は、必要に応じて制御部１０１によって読み出され、実行ないし利用される。

【0025】

ユーザインタフェース１０４は、制御部１０１の制御によって、その表示器にグラフィカルユーザインタフェース（ＧＵＩ）などの各種の表示画像を表示し、サーバ１００のユーザからの入力を受け付ける。

【0026】

通信インターフェース１０５は、制御部１０１の制御によって、ネットワーク４００に接続して、ネットワーク４００に接続された通信端末２００、３００などの他の通信装置との間で、情報の送信及び受信を行うインターフェースである。

【0027】

ストレージ１１０は、不揮発性メモリ、ハードディスクドライブなどの恒久的な情報の保持及び書き換えが可能な記録装置（記録媒体）である。ストレージ１１０は、プログラム、音響モデル、及び当該プログラムの実行に必要となるパラメータ等の情報を記憶する。図２に示すように、ストレージ１１０には、例えば音声合成プログラム１１１、訓練ジョブ１１２、楽譜データ１１３、及び音波形１１４が記憶されている。これらのプログラム及びデータは一般的な音声合成に係るものを使用することができ、例えば、国際公開第２０２２／０８０３９５号に記載された音声合成プログラムＰ１、訓練プログラムＰ２、楽譜データＤ１、及び音響データＤ２をそれぞれ用いてもよい。

【0028】

上記のように、音声合成プログラム１１１は、楽譜データや音波形から合成音波形を生成するためのプログラムである。制御部１０１が音声合成プログラム１１１を実行するとき、制御部１０１は音響モデル１２０を使用して合成音波形を生成する。なお、当該合成音波形は、国際公開第２０２２／０８０３９５号に記載された音響データＤ３に対応する。訓練ジョブ１１２で制御部１０１により実行される音響モデル１２０の訓練プログラムは、例えば国際公開第２０２２／０８０３９５号に記載されたエンコーダ及び音響デコーダを訓練するプログラムである。楽譜データは、楽曲を規定するデータである。音波形は、音声又は演奏音の波形データであり、例えば歌手の歌声又は楽器の演奏音を示す波形データである。

【0029】

［１－３．音声合成に用いられるサーバの機能構成］
図３は、本発明の一実施形態における音響モデルの概念を示すブロック図である。上記のように、音響モデル１２０は、図２の制御部１０１が音声合成プログラム１１１を読み出して実行するとき、その制御部１０１が実行する音声合成技術において使用される機械学習モデルである。音響モデル１２０は、音響特徴量を生成する。音響モデル１２０には、制御部１０１により、入力信号として所望の楽曲の楽譜データ１１３の楽譜特徴量１２３又は音波形１１４の音響特徴量１２４が入力される。音響モデル１２０を用いて、音源ＩＤと当該楽譜特徴量１２３とを処理することにより、当該楽曲の合成音の音響特徴量１２９が生成される。制御部１０１は、その音響特徴量１２９に基づいて、当該楽曲を音源ＩＤで特定される歌手が歌唱した又は楽器で演奏した合成音波形１３０を合成して出力する。又は、音響モデル１２０を用いて、音源ＩＤと当該音響特徴量１２４とを処理することにより、当該楽曲の合成音の音響特徴量１２９を生成する。制御部１０１は、その音響特徴量１２９に基づいて、当該楽曲の音波形を音源ＩＤで特定される歌手の歌声又は楽器の演奏音の音色に変換した合成音波形１３０を合成して出力する。

【0030】

音響モデル１２０は、機械学習を利用した生成モデルであり、訓練プログラムを実行している（つまり、訓練ジョブ１１２を実行中の）制御部１０１によって訓練される。制御部１０１は、（未使用の）新たな音源ＩＤと訓練用音波形を用いて音響モデル１２０を訓練し、音響モデル１２０（少なくとも音響デコーダ）の変数を決定する。具体的には、制御部１０１は、訓練用音波形から訓練用の音響特徴量を生成し、音響モデル１２０に新たな音源ＩＤと訓練用の音響特徴量が入力された場合に、合成音波形１３０を生成する音響特徴量が訓練用の音響特徴量に近づくように、上記の変数を徐々に繰り返し変更する。訓練用音波形は、例えば、通信端末２００又は通信端末３００からサーバ１００にアップロード（送信）され、ストレージ１１０にユーザデータとして保存されてもよく、参考データとしてサーバ１００の管理者が予めストレージ１１０に保存したものでもよい。以下の説明において、ストレージ１１０に保存することをサーバ１００に保存する、という場合がある。

【0031】

［１－４．音声合成方法］
図４は、本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。図４に示す音響モデルの訓練方法では、通信端末２００がサーバ１００に訓練用音波形をアップロードする例を示す。ただし、上記のように、訓練用音波形はその他の方法でサーバ１００に予め保存されていてもよい。図４に示すシーケンスにおける訓練ジョブを「第１訓練ジョブ」という場合がある。通信端末２００側の処理ＴＭ１の各ステップおよびサーバ１００側の処理Ｓｅｒｖｅｒの各ステップは、実際には、通信端末２００の制御部およびサーバ１００の制御部１０１がそれぞれ実行するが、ここでは説明を単純にするため、通信端末２００およびサーバ１００を各ステップの実行主体として表現する。特に断らない限り、以降のシーケンス図の説明やフローチャートの説明も同様である。

【0032】

図４に示すように、まず、通信端末２００（第１デバイス）は、サーバ１００の第１ユーザのアカウントにログインした第１ユーザの指示に基づいて、サーバ１００に、１又は複数の訓練用音波形をアップロード（送信）する（ステップＳ４０１）。サーバ１００は、Ｓ４０１で送信された訓練用音波形を、第１ユーザの記憶領域に記憶する（ステップＳ４１１）。サーバ１００にアップロードされる音波形は１つでも、複数でもよく、複数の音波形は第１ユーザの記憶領域の複数のフォルダに分けて記憶されてもよい。上記のステップＳ４０１、４１１は、以下の訓練ジョブを実行するための準備に係るステップである。

【0033】

続いて、以下に訓練ジョブを実行するためのステップを説明する。通信端末２００は、サーバ１００に訓練ジョブの実行を要求する（ステップＳ４０２）。Ｓ４０２の要求に対して、サーバ１００は、通信端末２００に対して、予め保存された音波形（及び保存される予定の音波形）のうち訓練ジョブに使用する音波形を選択するためのグラフィカルユーザインターフェース（ＧＵＩ）を提供する（ステップＳ４１２）。

【0034】

通信端末２００は、その表示器にＳ４１２で提供されたＧＵＩを表示し、第１ユーザは、そのＧＵＩを用いて、記憶領域（乃至所望のフォルダ）にアップロードされた複数の音波形から一以上の訓練用音波形を波形セット１４９（図５参照）として選択する（ステップＳ４０３）。Ｓ４０３で波形セット１４９（訓練用音波形）が選択された後に、第１ユーザからの指示に応じて、通信端末２００は、訓練ジョブの実行開始を指示する（ステップＳ４０４）。

【0035】

Ｓ４０４における通信端末２００（第１デバイス）からの指示に基づいて、サーバ１００は、選択された波形セット１４９を用いて訓練ジョブの実行を開始する（ステップＳ４１３）。換言すると、Ｓ４１３において、Ｓ４１２で提供されたＧＵＩを介した第１ユーザの指示に基づいて訓練ジョブが実行される。

【0036】

訓練には、選択された波形セット１４９中の各波形が全部使用されるのではなく、無音区間やノイズ区間などを除いた有用区間のみを含む前処理済み波形セットが使用される。また、訓練される音響モデル１２０（ベース音響モデル）として、音響デコーダが未訓練の音響モデル１２０を用いてもよいが、複数の基本訓練済みの音響モデル１２０のうち、波形セット１４９の波形の音響特徴量に近い音響特徴量の生成を学習した音響デコーダを含む音響モデル１２０を選択して用いれば、訓練ジョブにかかる時間やコストを低減できる。何れの音響モデル１２０を選ぶとしても、楽譜エンコーダと音響エンコーダは、基本訓練済みのものを用いる。

【0037】

ベース音響モデルは、第１ユーザが選択した波形セット１４９に基づいて、サーバ１００が決定してもよい。又は、第１ユーザが、複数の訓練済み音響モデルのいずれかをベース音響モデルとして選択して、第１実行指示にそのベース音響モデルを示す指定データを含めてもよい。音響デコーダに供給する音源ＩＤ（例えば、歌手ＩＤ、楽器ＩＤなど）としては、未使用の新たな音源ＩＤを用いる。ここで、新たな音源ＩＤとしてどの音源ＩＤを使用されたかを、ユーザは必ずしも知らなくてよい。ただ、訓練済みモデルを使用して音声合成する際には、自動的に、その新たな音源ＩＤが用いられる。

【0038】

訓練ジョブでは、前処理済み波形セットから一部の短波形を少しずつ取り出し、取り出した短波形を用いて音響モデル（少なくとも音響デコーダ）を訓練する、という単位訓練を繰り返す。単位訓練では、前記新たな音源ＩＤと短波形の音響特徴量とを音響モデル１２０に入力し、それに応じて音響モデル１２０が出力する音響特徴量と入力した音響特徴量の間の差分が小さくなるよう、音響モデルの変数を調整する。変数の調整には、例えば、誤差逆伝搬法を用いる。単位訓練を繰り返すことで、前処理済み波形セットによる訓練が一通り終わったら、音響モデル１２０が生成する音響特徴量の品質を評価して、当該品質が所定の基準に達していなければ、その前処理済み波形セットを用いて、再び音響モデルの訓練を行う。音響モデル１２０が生成する音響特徴量の品質が所定の基準に達していれば、訓練ジョブは完了し、その時点の音響モデル１２０が訓練済み音響モデル１２０となる。

【0039】

Ｓ４１３で訓練ジョブが完了することで、訓練済み音響モデル１２０が確立される（ステップＳ４１４）。この訓練済み音響モデル１２０を「第１音響モデル」という場合がある。サーバ１００は、通信端末２００に、訓練済み音響モデル１２０が確立されたことを通知する（ステップＳ４１５）。上記のＳ４０３～Ｓ４１５のステップが、音響モデル１２０の訓練ジョブである。

【0040】

Ｓ４１５の通知の後に、第１ユーザからの指示に応じて、通信端末２００が、所望の楽曲の楽譜データを含む音声合成の指示をサーバ１００に送信する（ステップＳ４０５）。それに応じて、サーバ１００は、音声合成プログラムを実行して、その楽譜データに基づいて、Ｓ４１４で完成した訓練済み音響モデル１２０を用いた音声合成を実行する（ステップＳ４１６）。Ｓ４１６で生成された合成音波形１３０を通信端末２００に送信する（ステップＳ４１７）。この音声合成では、前記新たな音源ＩＤが用いられる。

【0041】

Ｓ４１６及びＳ４１７を併せて、訓練ジョブによって訓練された訓練済み音響モデル１２０（音声合成機能）を、通信端末２００（第１デバイス）ないし第１ユーザに提供する、ということができる。ステップＳ４１６の音声合成プログラムの実行を、サーバ１００の代わりに、通信端末２００で行ってもよい。その場合、サーバ１００は、当該訓練済み音響モデル１２０を通信端末２００に送信し、通信端末２００は、受け取った訓練済み音響モデル１２０を用いて、前記新たな音源ＩＤで、所望の楽曲の楽譜データに基づく音声合成処理を実行し、合成音波形１３０を取得する。

【0042】

本実施形態では、Ｓ４０２で訓練ジョブの実行を要求する前に、Ｓ４０１で訓練用音波形をアップロードしたが、この構成に限定されない。例えば、訓練用音波形のアップロードが、Ｓ４０４で訓練ジョブの実行を指示した後に行われてもよい。この場合、Ｓ４０３において、通信端末２００に記憶された複数の音波形（未アップロードの音波形を含む）から、波形セット１４９として一以上の音波形が選択され、訓練ジョブの実行指示に応じて、選択された音波形のうちの未アップロードの音波形が、アップロードされてもよい。

【0043】

［１－５．ＧＵＩ１４０］
ここで、Ｓ４１２で提供されるＧＵＩの一例について説明する。図５は、本発明の一実施形態における音響モデルの訓練方法における第１ＧＵＩの一例を示す図である。図５に示すＧＵＩ１４０は、通信端末２００のユーザインタフェースに含まれる表示器に表示される。図５に示すように、ＧＵＩ１４０には、訓練用音波形の候補として、音波形Ａ、音波形Ｂ、・・・、音波形Ｚ（例えば、特定のフォルダにアップロード済みの音波形）が表示される。それぞれの音波形の隣には、チェックボックス１４１、１４２、・・・、１４３が表示されている。上記のように訓練用音波形の候補として表示された音波形Ａ、音波形Ｂ、・・・、音波形Ｚは、例えば、同一人による歌声に係る音波形であり、それぞれ楽曲や歌い方が異なっていてもよい。音波形は、同一の楽器の種々の演奏音であってもよい。

【0044】

上記の構成を換言すると、Ｓ４１２において、サーバ１００は、予め保存された複数の音波形（及び保存される予定の音波形）から、音響モデル１２０に対する訓練ジョブを実行させるための一以上の音波形を、波形セット１４９として第１ユーザに選択させるＧＵＩを、通信端末２００に提供する。

【0045】

上記Ｓ４０３において、通信端末２００の第１ユーザによって、図５に示すチェックボックス１４１、１４２、・・・、１４３がチェックされることで、訓練用音波形が選択される。図５では、訓練用音波形として、チェックボックス１４１、１４２がチェックされ、音波形Ａ及び音波形Ｂが波形セット１４９として選択された例を示す。波形セット１４９として選択する波形は１つでも複数でもよい。

【0046】

上記Ｓ４０４において、チェックボックス１４１、１４２が選択された状態で、実行ボタン１４４が押されたのに応じて、通信端末２００は、Ｓ４０４の訓練ジョブの指示を実行する。当該訓練ジョブの指示に応じて、サーバ１００は、音波形Ａ及び音波形Ｂからなる波形セット１４９を用いた音響モデル１２０の訓練を開始する。実行ボタン１４４が押されるとは、実行ボタン１４４がクリック又はタップされることを含む。

【0047】

以上のように、本実施形態に係る音響モデル訓練システム１０は、予めストレージ１１０に保存された複数の音波形（及び保存される予定の音波形）から一以上の音波形を選択して、選択された音波形を訓練用音波形として音響モデル１２０に対する訓練ジョブを実行する。上記の構成によって、通信端末２００の第１ユーザは、未訓練の又は訓練済の音響モデル１２０を訓練することで、所望の音響モデル１２０を得る。なお、音波形のサーバ１００へのアップロードは、波形セット１４９の選択や訓練ジョブの実行指示より後でもよい。つまり、訓練ジョブに使用する音波形は、訓練ジョブが開始されるより前の任意の時点で、通信端末２００からサーバ１００にアップロードされてもよい。また、音響デコーダが訓練済み音響モデルの補助訓練ならば、従来の音響モデル１２０に比べて、短時間かつ低コストで、訓練済み音響モデル１２０を得られる。

【0048】

［２．第２実施形態］
図６及び図７を用いて、第２実施形態に係る音響モデル訓練システム１０Ａについて説明する。音響モデル訓練システム１０Ａの全体構成及びサーバに関するブロック図は第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図５を参照し、これらの図に示された符号の後にアルファベット“Ａ”を付して説明する。

【0049】

［２－１．音声合成方法］
図６は、本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。図６に示す音響モデルの訓練方法では、ユーザの指示で訓練ジョブの実行が開始されてから訓練済み音響モデルが完成するまでの間に、その訓練ジョブの進行状態を示す情報を、第３者に公開する構成について説明する。図６のステップＳ６０１以前のステップは、図４のＳ４０１～Ｓ４０３と同様なので、説明を省略する。図６のＳ６０１は図４のＳ４０４と同じである。以下の説明において、通信端末３００Ａを使用する、上記第３者に該当するユーザを「第２ユーザ」という場合がある。

【0050】

Ｓ６０１における通信端末２００Ａからの第１ユーザによる実行指示に基づいて、サーバ１００Ａは、新たな音源ＩＤと選択された波形セット１４９Ａを用いて、ベース音響モデルの訓練ジョブの実行を開始する（ステップＳ６１１）。訓練ジョブの完了時には、その成果として、この波形セット１４９Ａで訓練された訓練済み音響モデル１２０Ａが得られる。Ｓ６１１において、訓練ジョブが開始されると、サーバ１００Ａは、通信端末２００Ａに対して訓練ジョブを開始したことを通知し、訓練ジョブの状態を示す状態情報を第３者への公開すること、つまり第３者による閲覧を許すことについて、その可否を通信端末２００Ａに問い合わせる（ステップＳ６１２）。通信端末２００Ａは、Ｓ６１２の問い合わせに対して、第１ユーザが訓練ジョブの状態を示す状態情報を公開する旨の公開指示を行なえば、その公開指示をサーバ１００Ａに送信する（ステップＳ６０２）。第１ユーザが公開指示を行わなければ、通信端末２００Ａは、公開指示を送信しない。この状態情報は、その公開指示の有無に関係なく通信端末２００Ａに送信され、その表示器に表示されて、第１ユーザにより閲覧される。

【0051】

Ｓ６０２において、上記のように第１ユーザによる公開指示に基づいて、サーバ１００Ａは、Ｓ６１１で実行開始された第１ユーザの訓練ジョブの状態を示す状態情報を、通信端末３００Ａに対して公開する（ステップＳ６１３）。これにより、第３者は、通信端末３００Ａの表示器に表示されたその状態情報を閲覧できる。

【0052】

なお、第１ユーザが、訓練ジョブの状態を示す状態情報を公開することに予め同意して公開指示が行われている場合は、Ｓ６１２、Ｓ６０２のステップを省略できる。つまり、その予め行われた第１ユーザの公開指示に基づいて、第１ユーザの訓練ジョブの状態を示す状態情報が第２ユーザに公開されてもよい。

【0053】

Ｓ６２２以降のＳ６１５～Ｓ６１８のステップは、図４のＳ４１４～Ｓ４１７のステップと同様なので、説明を省略する。

【0054】

図６では、訓練ジョブを実行する指示を出した通信端末２００Ａとは異なる通信端末３００Ａが、試聴要求を実行する主体である構成を例示したが、この構成に限定されない。例えば、訓練ジョブの実行を指示した通信端末２００Ａ（第１ユーザ）が、自ら訓練ジョブの進行度を確認するために、試聴要求を実行してもよい。例えば、通信端末２００Ａが試聴要求をすることで、進行度が１００％に達していなくても、第１ユーザが試聴用の合成音波形に満足するタイミングで訓練ジョブを終了できる。

【0055】

［２－２．ＧＵＩ１５０Ａ］
ここで、Ｓ６１３で提供されるＧＵＩの一例について説明する。図７は、本発明の一実施形態における音響モデルの情報公開及び試聴要求に係るＧＵＩの一例を示す図である。図７に示すＧＵＩ１５０Ａは、通信端末２００Ａ、３００Ａの表示器に表示される。

【0056】

図７に示すように、ＧＵＩ１５０Ａには、状態情報に応じた進行度を示す項目１５１Ａ及び詳細情報を示す項目１５２Ａと、試聴を要求する試聴ボタン１５７Ａとが表示されている。本実施形態では、進行度を示す項目１５１Ａは、音響モデル１２０Ａの訓練ジョブの進行度を示している。ただし、当該項目１５１Ａは、例えば完了予想を１００％とする経過時間、及び音響モデル１２０Ａの変数の変化の程度など、完成度以外の項目であってもよい。

【0057】

項目１５１Ａは、訓練ジョブの進行度をパーセント表示するプログレスバーである。項目１５１Ａにおいて、進行度が示す現在の状態は、訓練ジョブの開始時に見積もられた総訓練量に対する現在の訓練量であってもよく、訓練ジョブの実行中における音響モデル１２０Ａの変数の変化の様子から見積もられた総訓練量に対する現在の訓練量であってもよい。つまり、訓練ジョブの状態は時間経過に応じて変化し、サーバ１００Ａは、当該訓練ジョブの状態の経時変化を示す進行度を、項目１５１Ａとして通信端末に提供して表示する。訓練ジョブの状態は時間経過に応じて変化するため、サーバ１００Ａは、訓練ジョブの状態を示す状態情報を、その情報が変化したときに、或いは、一定時間ごとに、繰り返し更新し、通信端末２００Ａ、３００Ａに対して繰り返し提供する。

【0058】

本実施形態では、訓練ジョブの状態を示す状態情報が、通信端末２００Ａ、３００Ａに対して繰り返しリアルタイムに提供する構成を例示したが、この構成に限定されない。例えば、当該状態情報は、通信端末２００Ａ、３００Ａの各々に対して１回だけ提供可能な構成であってもよい。又は、当該状態情報は、通信端末３００Ａを用いた第２ユーザによる公開要求に基づいて、当該公開要求のタイミングの上記状態情報が通信端末３００Ａ（第２デバイス）に表示されてもよい。

【0059】

図７では、進行度を示す項目１５１Ａとして、プログレスバーが表示された構成を例示したが、この構成に限定されない。例えば、進行度を数値でパーセント表示をしてもよい。

【0060】

項目１５２Ａは、訓練ジョブの詳細を示す情報である。図７では、項目１５２Ａの詳細情報の一例として、音響モデル名称１５３Ａ、訓練用音波形１５４Ａ、完了予想１５５Ａ、及び訓練実行者１５６Ａが表示されている。音響モデル名称１５３Ａは、第１ユーザが設定した名称である。例えば、「音声Ｘ→Ｙ」は、Ｘ（一人若しくは複数人の歌手Ｘ、または１つ若しくは複数の楽器Ｘ）の音声を合成する訓練前の音響モデル１２０Ａ（ベース音響モデル）を、実行中の訓練ジョブによって、Ｙ（新たな歌手Ｙまたは楽器Ｙ）の音声を合成する訓練済み音響モデル１２０Ａに変化させることを意味する。訓練用音波形１５４Ａは、実行中の訓練ジョブにおいて、音響モデル１２０Ａの訓練に使用される音波形を示す。図７の例は、音響モデル１２０Ａのために音波形Ｂが使用されることを意味する。完了予想１５５Ａは、実行中の訓練ジョブの進行度が１００％に達すると予想される日時を示す。訓練実行者１５６Ａは、実行中の訓練ジョブを実行したユーザ名を示す。当該ユーザ名は、アカウント名であってもよく、ニックネームであってもよい。図７では、訓練実行者１５６Ａは「Ｕ１」である。Ｕ１はＹに係る歌手又は演奏者と同一でもよく、異なってもよい。

【0061】

試聴ボタン１５７Ａは、後述する試聴要求を実行するボタンである。例えば、図６において、Ｓ６１３における情報公開の後に、第２ユーザが試聴ボタン１５７Ａを押すことによって、通信端末３００Ａがサーバ１００Ａに対して合成音声の試聴を要求する（ステップＳ６２１）。Ｓ６２１において試聴要求が実行されると、サーバ１００Ａは、当該試聴要求が実行された時点における進行度の音響モデル１２０Ａを用いた試聴用の音声合成を、前記新たな音源ＩＤを用いて実行し、試聴用の合成音波形を提供する（ステップＳ６１４）。当該試聴用の合成音波形の提供によって、通信端末３００Ａは、上記の時点における音響モデル１２０Ａによって生成された合成音声を試聴できる（ステップＳ６２２）。当然ながら、この試聴は、通信端末２００Ａでも行える。

【0062】

訓練ジョブは、ある一群の処理（バッチ）を単位として、バッチ単位でまとめて実行される。上記の試聴要求が実行された時点で、音響モデル１２０Ａが１つのバッチ処理の最中である場合、直前のバッチ処理で得られた音響モデル１２０Ａで生成した試聴用の合成音波形を提供してもよいし、その時点以後で、実行中のバッチ処理が完了したタイミングで、得られた音響モデル１２０Ａで生成した試聴用の合成音波形の提供を行ってもよい。つまり、サーバ１００Ａは、通信端末２００Ａ、３００Ａからの試聴要求に基づいて、当該試聴要求のタイミングに応じた音響モデル１２０Ａによる試聴用の合成音波形を、第１および第２ユーザに提供する。

【0063】

以上のように、本実施形態に係る音響モデル訓練システム１０Ａによると、通信端末３００Ａの第２ユーザは、訓練ジョブによって音響モデル１２０Ａが訓練され、確立されていく過程を閲覧できる。又は、通信端末２００Ａの第１ユーザは、上記のように、進行度が１００％に達していなくても、満足するタイミングで訓練ジョブを終了できる。

【0064】

［３．第３実施形態］
図８及び図９を用いて、第３実施形態に係る音響モデル訓練システム１０Ｂについて説明する。音響モデル訓練システム１０Ｂの全体構成及びサーバに関するブロック図は第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図５を参照し、これらの図に示された符号の後にアルファベット“Ｂ”を付して説明する。

【0065】

［３－１．音声合成方法］
図８は、本発明の一実施形態における音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。図８に示す音響モデルの訓練方法では、第１訓練ジョブ及び第２訓練ジョブが並行して実行されており、各々の訓練ジョブに関する状態情報を第３者に対して選択的に公開する構成について説明する。図８のステップＳ８０１以前のステップは、図４のＳ４０１～Ｓ４０３と同様なので、説明を省略する。図８のＳ８０１は図４のＳ４０４と同じである。

【0066】

Ｓ８０１における通信端末２００Ｂからの第１実行指示に基づいて、サーバ１００Ｂは、新たな音源ＩＤと第１ユーザの選択した第１波形セットを用いて、第１ベース音響モデルの第１訓練ジョブを実行する（ステップＳ８１１）。Ｓ８１１において、第１訓練ジョブが開始されると、サーバ１００Ｂは、通信端末２００Ｂに対して第１訓練ジョブを開始したことを通知し、第１訓練ジョブに関する第１状態情報を第３者に公開することについて、可否を通信端末２００Ｂに問い合わせる（ステップＳ８１２）。本実施形態において、上記の「第３者」は第２ユーザに該当する。通信端末２００Ｂは、Ｓ８１２の問い合わせに対して、第１状態情報を公開する旨の公開指示をサーバ１００Ｂに送信する（ステップＳ８０２）。

【0067】

Ｓ８０２において、上記のように第１ユーザによる第１公開指示に基づいて、サーバ１００Ｂは、Ｓ８１１で実行された第１訓練ジョブに関する第１状態情報を、通信端末３００Ｂ（第２ユーザ）に対して公開する（ステップＳ８１３）。第１ユーザが第１公開指示をしなかった場合は、サーバ１００Ｂは、第２ユーザに第１状態情報を公開しない。

【0068】

続いて、Ｓ８０３における通信端末２００Ｂからの第２実行指示に基づいて、サーバ１００Ｂは、新たな音源ＩＤと第１ユーザが選択した第２波形セットを用いて、第２ベース音響モデルの第２訓練ジョブを実行する（ステップＳ８１４）。Ｓ８１１、Ｓ８１４によって、第１訓練ジョブ及び第２訓練ジョブが並行して実行される。第１ベース音響モデルと第２ベース音響モデルとは相互に独立であり、両者の用いる音源ＩＤ間には何の関連性もない。例えば、ｎ個の訓練ジョブを並行処理する場合は、ｎ個の仮想マシンを起動することによって実現される。第２訓練ジョブに用いられる第２波形セットは第１訓練ジョブに用いられる第１波形セットと異なるが、第２訓練ジョブの訓練プログラムは第１訓練ジョブの訓練プログラムと同じである。第１訓練ジョブの完了時には、その成果として、第１波形セットで訓練された第１訓練済み音響モデルが得られ、また、第２訓練ジョブの完了時には、その成果として、第２波形セットで訓練された第２訓練済み音響モデルが得られる。

【0069】

第２訓練ジョブを実行する方法は第１訓練ジョブを実行する方法と同様である。第２訓練ジョブでは、第１ユーザが、予め保存された複数の音波形（及び保存される予定の音波形）から選択した一以上の音波形である第２波形セットが使用される。

【0070】

Ｓ８１４において、第２訓練ジョブが開始されると、サーバ１００Ｂは、通信端末２００Ｂに対して第２訓練ジョブを開始したことを通知し、第２訓練ジョブに関する第２状態情報の公開可否を通信端末２００Ｂに問い合わせる（ステップＳ８１５）。通信端末２００Ｂは、この問い合わせに対して、第２訓練ジョブに関する第２状態情報を公開する旨の第２公開指示をサーバ１００Ｂに送信する（ステップＳ８０４）。第２公開指示を受信したサーバ１００Ｂは、Ｓ８１４で実行された第２訓練ジョブに関する第２状態情報を、通信端末３００Ｂ（第２ユーザ）に対して公開する（ステップＳ８１６）。第１ユーザが第２公開指示をしなかった場合は、サーバ１００Ｂは、第２ユーザに第２状態情報を公開しない。

【0071】

なお、第１ユーザが、第１訓練ジョブ又は第２訓練ジョブに関する状態情報を公開することに予め同意して公開指示が行われている場合は、Ｓ８１２、Ｓ８０２、Ｓ８１５、Ｓ８０４のステップを省略できる。つまり、その予め行われた第１ユーザの公開指示に基づいて、第１訓練ジョブ又は第２訓練ジョブに関する状態情報が第２ユーザに公開されてもよい。

【0072】

Ｓ８１６以降のＳ８３１～Ｓ８２１のステップは、基本的には、図６のＳ６２１～Ｓ６１８のステップと同様であるが、第１訓練ジョブと第２訓練ジョブの各々について、個別に実行される。

【0073】

［３－２．ＧＵＩ１６０Ｂ］
ここで、Ｓ８１５で第１ユーザに対して提供されるＧＵＩの一例について説明する。図９は、本発明の一実施形態における音響モデルの訓練時に公開情報を設定するときの公開設定用ＧＵＩの一例を示す図である。図９に示すＧＵＩ１６０Ｂは、第１ユーザの通信端末２００Ｂ表示器に表示される。

【0074】

図９に示すように、ＧＵＩ１６０Ｂは、訓練ジョブの状態情報を公開する際に、どのような情報を公開するか設定する画面である。本実施形態では、公開設定項目１６１Ｂには、第１訓練ジョブの項目１６２Ｂ及び第２訓練ジョブの項目１６７Ｂがある。第１訓練ジョブ１６２Ｂには、詳細設定の一例として、音響モデル名称１６３Ｂ、訓練用音波形１６４Ｂ、完了予想１６５Ｂ、及び訓練実行者１６６Ｂの項目が表示されている。第２訓練ジョブ１６７Ｂには、詳細設定の一例として、音響モデル名称１６８Ｂ、訓練用音波形１６９Ｂ、完了予想１７０Ｂ、及び訓練実行者１７１Ｂの項目が表示されている。上記の各項目は図７に示す各項目と同じなので、説明を省略する。

【0075】

図９のＧＵＩ１６０Ｂにおいて、ユーザによって選択された項目は『黒塗りの四角形（■）』で表示されており、ユーザ選択されていない項目は『白抜きの四角形（□）』で表示されている。第１ユーザによって第１訓練ジョブ１６２Ｂの項目が選択されると、第１訓練ジョブに係る詳細項目は、全て自動的に選択される。この場合、第１訓練ジョブに係る全ての項目が公開対象となる。第２訓練ジョブ１６７Ｂの項目が非選択の場合、第１ユーザは、第２訓練ジョブに係る詳細項目を個別に選択できる。図９の場合、音響モデル名称１６８Ｂ及び訓練用音波形１６９Ｂの項目のみが選択されている。この場合、第２訓練ジョブについて、選択された詳細項目のみが公開対象となる。第１通信端末は、第１訓練ジョブの第１状態情報のうち、第１ユーザにより公開対象として選択された範囲の情報について、サーバ１００Ｂに第１公開指示を送信し（Ｓ８０２およびＳ８０４）、第２訓練ジョブの第２状態情報のうち、第１ユーザにより公開対象として選択された範囲の情報について、第２公開指示を送信する（Ｓ８０４）。つまり、サーバ１００Ｂは、第１ユーザによる公開指示に基づいて、第１状態情報及び第２状態情報の少なくとも一方を、個別にかつ選択的に、第２ユーザに公開する（通信端末３００Ｂに提供する）。第１訓練ジョブ及び第２訓練ジョブの複数の項目のうち、公開指示を受け取らなかった項目については、対応する状態情報を第２ユーザに公開しない。

【0076】

なお、Ｓ８１２においても上記と同様のＧＵＩが提供されるが、そのＧＵＩでは、第１訓練ジョブ１６２Ｂに関係する項目のみが表示される。

【0077】

公開ボタン１７２Ｂは、訓練中の音響モデルに関する情報公開を指示するボタンである。図８のＳ８０４において、第１ユーザが公開ボタン１７２Ｂを押すことによって、第１訓練ジョブ及び第２訓練ジョブの状態情報のうち、ユーザによって選択された公開対象項目の公開指示が、通信端末２００Ｂからサーバ１００Ｂに送信され、その公開対象項目の状態情報が図７と同様の形式で第３者に公開される（ステップＳ８１６）。

【0078】

以上のように、本実施形態に係る音響モデル訓練システム１０Ｂによると、第１ユーザは、自身が起動した複数の訓練ジョブを、第３者に対して個別に公開できる。また、第１ユーザは、訓練ジョブの詳細項目ごとに、公開する項目と公開しない項目とを自由に設定できる。

【0079】

［４．第４実施形態］
図１０を用いて、第４実施形態に係る音響モデル訓練システム１０Ｃについて説明する。音響モデル訓練システム１０Ｃの全体構成及びサーバに関するブロック図は第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図５を参照し、これらの図に示された符号の後にアルファベット“Ｃ”を付して説明する。

【0080】

［４－１．音声合成方法］
図１０は、本発明の一実施形態における音響モデルの訓練方法を示すフローチャートである。図１０に示す音響モデルの訓練方法では、ユーザにより課金に対する支払いが実行されたことを条件に、そのユーザが実行指示した訓練ジョブを実行する。図１０では、図４のＳ４０４の訓練ジョブ指示からＳ４１３の訓練ジョブ実行までの間に行われる動作について説明する。図１０のステップＳ１００１、Ｓ１００４は、それぞれ図４のＳ４０４、Ｓ４１３と同じである。

【0081】

図１０に示すように、Ｓ１００１で通信端末２００Ｃによって、訓練ジョブの実行指示（第１実行指示）がサーバ１００Ｃに送信される。続いて、その実行指示を受け取ったサーバ１００Ｃによって、訓練ジョブの実行を指示した第１ユーザに対する課金が実行され、通信端末２００Ｃに課金に係る情報が通知される（ステップＳ１００２）。当該通知の後に、サーバ１００Ｃによって、通信端末２００Ｃがサーバ１００Ｃの運営者に対してその課金の支払いを実行したか否かの判断が行われる（ステップＳ１００３）。通信端末２００Ｃがその支払いを実行すると（Ｓ１００３の「Ｙｅｓ」）、サーバ１００Ｃによって、選択された波形セットを用いて、その課金の範囲で、ベース音響モデルに対し、その実行指示された訓練ジョブが実行される（ステップＳ１００４）。一方、通信端末２００Ｃがその支払いを実行しないと（Ｓ１００３の「Ｎｏ」）、サーバ１００Ｃによる訓練ジョブは実行されず、通信端末２００Ｃに対してエラー（訓練ジョブの不実行）が通知される（ステップＳ１００５）。サーバ１００Ｃは、Ｓ１００２の課金処理を、サーバ１００Ｃの制御部が単位時間の訓練ジョブを行う（Ｓ１００４）ごとに実行し、第１ユーザからの支払いを得れば（Ｓ１００３）、訓練中の音響モデルに対して、次の単位時間の訓練ジョブを実行（Ｓ１００４）してもよい。

【0082】

以上のように、本実施形態に係る音響モデル訓練システム１０Ｃによると、第１ユーザは、支払った分に見合う訓練ジョブを、サーバ１００Ｃに実行させることができる。

【0083】

［５．第５実施形態］
図１１～図１４を用いて、第５実施形態に係る音響モデル訓練システム１０Ｄについて説明する。音響モデル訓練システム１０Ｄの全体構成及びサーバに関するブロック図は第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図５を参照し、これらの図に示された符号の後にアルファベット“Ｄ”を付して説明する。

【0084】

［５－１．音声合成方法］
図１１は、本発明の一実施形態における音響モデルの訓練に用いる音波形の収録方法を示すシーケンス図である。図１１に示す収録方法では、例えばカラオケボックスなどの録音用空間で訓練用音波形の録音及びサーバへのアップロードを実行する構成について説明する。録音用空間は実空間である。以下の説明において、録音用空間としてレンタル空間を例示する。

【0085】

図１１に示すカラオケサーバ５００Ｄは、例えば、カラオケボックス及びカラオケブース等の貸出を統括するサーバ又はコンピュータである。カラオケサーバ５００Ｄは、例えば一店舗に備えられたカラオケボックス及びカラオケブースなどの複数のレンタル空間の何れか１つのレンタル空間を特定する空間ＩＤ、及び各レンタル空間が利用可能か否かを示す利用可能性を管理する。レンタル空間は、カラオケボックスなどの完全に閉じられた空間でもよいし、カラオケブースなどのように、一部が外部に開放された空間でもよい。各レンタル空間には、録音機能とカラオケサーバ５００Ｄとの通信機能とを備えたカラオケ機器が設置されている。カラオケサーバ５００Ｄは、ネットワーク４００Ｄに接続可能であり、ネットワーク４００Ｄを介してサーバ１００Ｄと通信できる。本実施形態において、サーバ１００Ｄは、カラオケサーバ５００Ｄに対するレンタル空間の利用予約業務を代行する。ただし、詳細は後述するが、この構成に限定されない。

【0086】

まず、通信端末２００Ｄは、サーバ１００Ｄが提供する音響モデル訓練サービスに対してログインをする（ステップＳ１１０１）。Ｓ１１０１において、通信端末２００Ｄは、サーバ１００Ｄに対して、当該サービスを利用する第１ユーザが入力したアカウント情報（例えば、ユーザＩＤとパスワード）を送信する。サーバ１００Ｄは、通信端末２００Ｄから受信したアカウント情報に基づいてユーザ認証を行い、第１ユーザのそのユーザＩＤのアカウントへのログインを承認する（ステップＳ１１１１）。ユーザ認証は、サーバ１００Ｄではなく、外部の認証サーバで行ってもよい。

【0087】

通信端末２００Ｄは、Ｓ１１１１でログインしたユーザＩＤにおいて、当該サービスの利用を含む所望の日時における所望の空間ＩＤのレンタル空間の予約を要求する（ステップＳ１１０２）。サーバ１００Ｄは、Ｓ１１０２の予約要求を受けると、カラオケサーバ５００Ｄに対して当該日時における当該空間ＩＤのレンタル空間の利用状況又は空き状況を確認する（ステップＳ１１１２）。カラオケサーバ５００Ｄは、当該レンタル空間が利用可能であれば、予約を行い（ステップＳ１１２１）、当該日時における当該空間ＩＤのレンタル空間の予約が完了した旨の予約完了情報をサーバ１００Ｄに送信する。前記予約要求で、第１ユーザが前払いを指定している場合は、ステップＳ１１２１で、レンタル料と当該サービスの利用料の課金を行う。当該サービスの利用料は、レンタル空間の利用後に実行される、そこでの収録波形を用いた基本的な訓練ジョブの対価である。通信端末２００Ｄは、レンタル空間の予約要求をカラオケサーバに対して行い、その予約要求に応じて予約を行ったカラオケサーバ５００Ｄからサーバ１００Ｄに、その予約に係るユーザＩＤと空間ＩＤを含む予約完了情報を送信してもよい。

【0088】

サーバ１００Ｄは、カラオケサーバ５００Ｄから予約完了情報を受信すると（ステップＳ１１１３）、当該予約完了情報に係る空間ＩＤと第１ユーザのユーザＩＤとをリンクさせる（ステップＳ１１１４）。そして、予約が完了したことを通信端末２００Ｄに通知する（ステップＳ１１１５）。予約完了通知は、カラオケサーバ５００Ｄから通信端末２００Ｄに送られてもよい。

【0089】

通信端末２００Ｄが予約完了通知を受けると、通信端末２００Ｄは第１ユーザに対して、予約が完了したこと、並びに、予約されたレンタル空間及び日時を特定する情報を表示する。上記のレンタル空間を特定する情報は、例えば空間ＩＤで特定されるカラオケボックスの部屋番号である。第１ユーザが、予約した日時に、予約されたレンタル空間に移動し、レンタル空間に備えられたカラオケ機器を操作して所望の楽曲を選択することで、その楽曲の伴奏が当該レンタル空間で再生される。第１ユーザはカラオケ機器を用いて録音開始指示及び録音終了指示を実行する。これらの指示に伴い、カラオケサーバ５００Ｄでは、第１ユーザの歌声又は楽器の演奏音を録音する（ステップＳ１１２２）。

【0090】

レンタル空間の利用時間が終了したとき（録音完了）、カラオケサーバ５００Ｄ（レンタル業者）は、レンタル空間と訓練ジョブの利用料が先払いされていなければ、その利用料を第１ユーザに課金し、第１ユーザは、カラオケサーバ５００Ｄの端末にて、その利用料金を支払う。レンタル料金とセットなので、訓練ジョブの利用料は、その分だけＳ１００２での課金よりディスカウントしてもよい。第１ユーザは、録音完了した音波形（波形データ）から、サーバ１００Ｄにアップロードする音波形を選択し、さらに、訓練ジョブの利用料が支払われた場合、アップロードする音波形の中からその訓練ジョブに使用する波形セットを選択する。カラオケサーバ５００Ｄは、選択された音波形及び録音が行われた空間ＩＤをサーバ１００Ｄの第１ユーザのユーザＩＤで特定される、第１ユーザの記憶領域にアップロードする（ステップＳ１１２３）。

【0091】

サーバ１００Ｄは、アップロードされた音波形及び空間ＩＤを、第１ユーザの記憶領域に互いにリンクさせて記憶する（ステップＳ１１１６）。サーバ１００Ｄにアップロードされ、記憶される音波形は１つであってもよく、複数であってもよい。

【0092】

Ｓ１１１４で、空間ＩＤと第１ユーザのユーザＩＤとがリンクし、Ｓ１１１６で、アップロードされた音波形と空間ＩＤとがリンクする。したがって、サーバ１００Ｄは、図１２に示すように、第１ユーザのユーザＩＤ１８０Ｄ、空間ＩＤ１８１Ｄ、及びアップロードされた音波形１８２Ｄをリンクして記憶する。図１２は、本発明の一実施形態において、サーバによって管理されるデータの例である。ユーザＩＤ１８０Ｄは、図１１のＳ１１１１でログインしたアカウントのユーザＩＤであり、後述する図１３の各データは、ユーザＩＤに対応した記憶領域に記憶される。空間ＩＤ１８１Ｄは、図１１のＳ１１２２で録音が行われた空間の空間ＩＤである。音波形１８２Ｄは、図１１のＳ１１２２で録音され、Ｓ１１２３でサーバ１００Ｄに送信された音波形である。

【0093】

サーバ１００Ｄは、Ｓ１１２３で音波形がアップロードされた記憶領域から、当該音波形をアップロードした第１ユーザのユーザＩＤを特定する（ステップＳ１１１７）。その後、第１ユーザからの指示に基づいて、サーバ１００Ｄは、新たな音源ＩＤとアップロードされた音波形を用いて、ベース音響モデルの訓練ジョブを実行する（ステップＳ１１１８）。

【0094】

ここで、Ｓ１１２３でカラオケサーバ５００Ｄからサーバ１００Ｄにアップロードされるデータについて図１３を用いて説明する。図１１の説明では、Ｓ１１２３で第１ユーザの歌声又は演奏音を示す音波形だけがサーバ１００Ｄにアップロードされる構成を例示したが、この構成に限定されない。例えば、歌声の場合、図１３に示すように、カラオケ機器によってレンタル空間に供給される楽曲のガイドメロディを構成する音を示す音高データ５０３Ｄ及び楽曲の歌詞を示すテキストデータ５０２Ｄが、当該音波形５０１Ｄとともにサーバ１００Ｄにアップロードされてもよい。演奏音の場合は、テキストデータ５０２Ｄはアップロードされない。

【0095】

カラオケサーバ５００Ｄが、Ｓ１１２２で録音されたデータを、Ｓ１１２３でサーバ１００Ｄにアップロードするステップについて図１４を用いて説明する。図１１の説明では、Ｓ１１２２で録音された音波形が、特段のステップを経ることなく、Ｓ１１２３でサーバ１００Ｄにアップロードされる構成を例示したが、この構成に限定されない。例えば、図１４に示すように、録音された音波形に係る音声データを再生したうえで、第１ユーザが、その音波形のアップロードの要否を判断してもよい。図１４の例では、カラオケ機器又は通信端末２００Ｄを使用して、第１ユーザに対して、録音された音波形の再生要否、当該音波形のアップロード要否、再録音の要否、及び動作終了の要否を問い合わせる。これらの４つの問い合わせは、一つのＧＵＩで順番に表示されてもよく、再生ボタン、アップロードボタン、再録音ボタン、及び終了ボタンとして並列にＧＵＩ上に表示されてもよい。

【0096】

図１１のＳ１１２２で音声データの録音が完了した後に、図１４に示すように、カラオケサーバ５００Ｄは、第１ユーザによる再生指示の有無を判断する（ステップＳ１４０１）。Ｓ１４０１で再生指示があった場合（Ｓ１４０１の「Ｙｅｓ」）、カラオケサーバ５００Ｄは、カラオケ機器を使用して、図１１のＳ１１２２で録音された音声データを、録音が行われたレンタル空間で再生する（ステップＳ１４０２）。当該再生の際に、当該音声データのみを再生してもよく、当該音声データをガイドメロディとともに再生してもよい。Ｓ１４０２で再生が行われた後、再びＳ１４０１のステップに戻る。Ｓ１４０１で再生指示がない場合（Ｓ１４０１の「Ｎｏ」）、Ｓ１４０２の再生を実行せずに次のステップに進む。

【0097】

続いて、図１１のＳ１１２２で録音された音声データについて、アップロードの要否が判断される（ステップＳ１４０３）。例えば、カラオケサーバ５００Ｄは、第１ユーザに対して、録音された音声データをアップロードするか否かを選択するＧＵＩを提供し、第１ユーザによる選択に従ってアップロードの要否を判断する。

【0098】

Ｓ１４０３でアップロードが必要であると判断された場合（Ｓ１４０３の「Ｙｅｓ」）、図１１のＳ１１２３のアップロードが実行され、上記の動作が終了する。一方、Ｓ１４０３でアップロードを実行する指示がない場合（Ｓ１４０３の「Ｎｏ」）、再録音の要否が判断される（ステップＳ１４０４）。例えば、カラオケサーバ５００Ｄは、第１ユーザに対して、再録音を行うか否かを選択するＧＵＩを提供し、第１ユーザによる選択に従って再録音の要否を判断する。

【0099】

Ｓ１４０４で再録音が必要であると判断された場合（Ｓ１４０４の「Ｙｅｓ」）、カラオケサーバ５００Ｄは、図１１のＳ１１２２と同様の方法で再録音を行う（ステップＳ１４０５）。Ｓ１４０５の再録音が終了すると、再度、Ｓ１４０１で再生指示の有無が判断される。Ｓ１４０４で再録音を開始する指示がない場合（Ｓ１４０４の「Ｎｏ」）、動作終了の可否が判断される（ステップＳ１４０６）。Ｓ１４０６で動作を終了していいと判断された場合（Ｓ１４０６の「Ｙｅｓ」）、上記の動作が終了する。一方、Ｓ１４０６で動作終了の指示がない場合（Ｓ１４０６の「Ｎｏ」）、Ｓ１４０１のステップに戻る。Ｓ１４０１における再生指示、Ｓ１４０３におけるアップロード実行指示、Ｓ１４０４における再録音の開始指示、及びＳ１４０６の終了指示がない場合、カラオケサーバ５００Ｄは、これらの判断ステップを繰り返し実行する。

【0100】

本実施形態では、サーバ１００Ｄが、カラオケサーバ５００Ｄに対するレンタル空間の利用予約業務を代行する構成を例示したが、この構成に限定されない。例えば、カラオケサーバ５００Ｄが、レンタル空間の利用予約業務を行ってもよい。その場合、サーバ１００Ｄとカラオケサーバ５００Ｄは、第１ユーザの第１アカウント情報を共有する。さらに、サーバ１００Ｄは、カラオケサーバ５００Ｄから受信した空間ＩＤと音波形を、第１ユーザのユーザＩＤ（第１アカウント情報）にリンクして記憶する。その後のステップは、図１１のＳ１１２２以降と同様である。

【0101】

図１１のＳ１１２２における録音開始指示及び録音終了指示は、楽曲の開始及び終了によって実行されてもよく、第１ユーザの任意の操作によって実行されてもよい。つまり、第１ユーザの録音指示に基づいて、楽曲の再生期間のうち指定された期間の音声データのみを収録してもよい。録音開始指示及び録音終了指示は、カラオケ機器を用いて実行されてもよく、通信端末２００Ｄを用いて実行されてもよい。つまり、Ｓ１１２２の録音は、楽曲の再生期間の少なくとも一部の期間だけ実行されてもよい。上記の構成を換言すると、図１３に示すように、サーバ１００Ｄは、レンタル空間において提供された、楽曲の第１ユーザが歌唱ないし演奏するパートの音を示す音高データ５０３Ｄや楽曲の歌詞を示すテキストデータ５０２Ｄを、楽曲の再生期間の少なくとも一部の期間における歌唱が収録された音声データである音波形５０１Ｄとともに、カラオケサーバ５００Ｄから受信してもよい。そして、サーバ１００Ｄは、当該歌唱ないし演奏音の音波形５０１Ｄを訓練用音波形として、楽譜データとリンクして記憶する。

【0102】

以上のように、本実施形態に係る音響モデル訓練システム１０Ｄによると、カラオケボックス等を利用して音声データを録音し、サーバ１００Ｄにアップロードできるため、第１ユーザが音声データを録音するための環境を準備する労力を軽減できる。

【0103】

［６．第６実施形態］
図１５を用いて、第６実施形態に係る音響モデル訓練システム１０Ｅについて説明する。音響モデル訓練システム１０Ｅの全体構成及びサーバに関するブロック図は第１実施形態に係る音響モデル訓練システム１０と同じなので、説明を省略する。以下の説明において、第１実施形態と同じ構成については説明を省略し、主に第１実施形態と相違する点について説明する。以下の説明において、第１実施形態と同様の構成について説明をする場合、図１～図５を参照し、これらの図に示された符号の後にアルファベット“Ｅ”を付して説明する。

【0104】

［６－１．音声合成方法］
図１５は、本発明の一実施形態における目的とする音響モデルの訓練に適した楽曲の推薦方法を示すフローチャートである。図１５に示す推薦方法では、訓練用音波形としてサーバ１００Ｅに予め保存された音波形の全部、又はその一部、又は、ユーザの選択した波形セットに基づいて、当該音波形に適した楽曲を第１ユーザに推薦する構成について説明する。通信端末１００Ｅは、予め、第１ユーザが想定している音高又は音響特徴量に関しての当該音響モデルの使用範囲を示す情報を、第１ユーザから受け取っている。

【0105】

まず、サーバ１００Ｅは、予め保存された訓練用音波形又は選択された波形セットの分析を行う（ステップＳ１５０１）。分析される訓練用音波形は、保存された訓練用音波形の全部ではなく、その一部の特定の音源（特定の歌唱者又は特定の楽器）の音波形である。例えば、サーバ１００Ｅの第１ユーザの記憶領域に歌唱者別又は楽器別のフォルダを設け、訓練用音波形を、それぞれ対応する歌唱者ないし楽器のフォルダに分けて保存しておき、各フォルダに記憶されている音波形について、当該分析を個別に行うとよい。波形セットは、第１ユーザが特定の歌唱者又は特定の楽器の音響モデルを訓練するために選択した、特定の歌唱者又は特定の楽器の音波形のセットである。当該分析は、例えば音波形の音高又は音響特徴量に基づいて行われる。さらに、分析を行った音波形の楽曲が判っている場合、その音波形をその楽曲の歌唱又は演奏音の楽譜データと対比することによって、音高、音色、強弱等に関して、歌唱スキル又は演奏スキルを判定できる。又は、当該分析によって、歌唱スタイル、演奏スタイル、歌唱音域、又は演奏音域を判定できる。

【0106】

歌唱スタイルは歌い方であり、演奏スタイルは演奏の仕方である。具体的には、歌唱スタイルとして、ニュートラル、ビブラート、ハスキー、フライ、及びグロウル等が挙げられる。演奏スタイルとして、擦弦楽器であれば、ニュートラル、ビブラート、ピチカート、スピカート、フラジョレット、及びトレモロ等が挙げられ、撥弦楽器であれば、ニュートラル、ポジション、レガート、スライド、及びスラップ／ミュート等が挙げられる。クラリネットであれば、ニュートラル、スタカート、ビブラート、及びトリル等が挙げられる。なお、例えば、上記のビブラートは、ビブラートを多用する歌唱スタイル又は演奏スタイルを意味する。歌唱又は演奏におけるピッチ、音量、音色、及びこれらの動的挙動は、全体的にスタイルによって変わる。訓練ジョブにおいて、サーバ１００Ｅは、新たな音色ＩＤと波形セットとに加えて、その波形セットの分析で得られる歌唱スタイル又は演奏スタイルを入力としつつ、ベース音響モデル１２０Ｅを訓練してもよい。

【0107】

訓練用音波形の歌唱音域及び演奏音域は、特定の歌唱者の歌唱及び特定の楽器の演奏音の複数の音波形における音高の分布から判断され、その歌唱者ないし楽器の音波形の音域を示す。

【0108】

特定の音源の音色に関して、音高データ及び音響特徴量の使用予定範囲が網羅されていない場合に、サーバ１００Ｅは、用意した訓練用音波形では音響モデルの訓練が十分にできていないと判断する。Ｓ１５０１の分析を行うことで、サーバ１００Ｅは、特定の音源の音色を使用予定の全音域のうちで、音波形が全くない又は少ない音域を検出する。そして、サーバ１００Ｅは、データが不十分な音域を補充するために、第１ユーザに推薦するための１以上の楽曲を特定する（ステップＳ１５０２）。そして、Ｓ１５０２で特定された楽曲を示す情報を通信端末２００Ｅ（第１ユーザ）に提供し、通信端末２００Ｅは、受信したその情報をその表示器に表示する。

【0109】

以上のように、本実施形態に係る音響モデル訓練システム１０Ｅによると、訓練用音波形として用意された音波形では使用予定範囲をカバーしない場合に、それを第１ユーザに知らせられるため、第１ユーザは使用予定範囲を網羅する訓練用音波形を準備できる。

【0110】

なお、本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。各実施形態は、技術的な矛盾を生じない限り、互いに組み合わせることができる。

【符号の説明】

【0111】

１０：音響モデル訓練システム、１００：サーバ、１０１：制御部、１０２：ＲＡＭ、１０３：ＲＯＭ、１０４：ユーザインタフェース、１０５：通信インターフェース、１１０：ストレージ、１１１：音声合成プログラム、１１２：訓練ジョブ、１１３：楽譜データ、１１４：音波形、１２０：音響モデル、１３０：合成音波形、１４０：ＧＵＩ、１４１、１４２、１４３：チェックボックス、１４４：実行ボタン、１５０Ａ：ＧＵＩ、１５１Ａ、１５２Ａ：進行度を示す項目、１５３Ａ：音響モデル名称、１５４Ａ：訓練用音波形、１５５Ａ：完了予想、１５６Ａ：訓練実行者、１５７Ａ：試聴ボタン、１６０Ｂ：ＧＵＩ、１６１Ｂ：公開設定項目、１６２Ｂ：第１訓練ジョブ、１６３Ｂ、１６８Ｂ：音響モデル名称、１６４Ｂ、１６９Ｂ：訓練用音波形、１６５Ｂ、１７０Ｂ：完了予想、１６６Ｂ、１７１Ｂ：訓練実行者、１６７Ｂ：第２訓練ジョブ、１７２Ｂ：公開ボタン、１８０Ｄ：アカウント情報、１８２Ｄ：音波形、２００、３００：通信端末、４００：ネットワーク、４１１：ステップ、５００Ｄ：カラオケサーバ、５０１Ｄ：音波形、５０２Ｄ：テキストデータ、５０３Ｄ：音高データ

【図1】