IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

<>
  • 特開-音響モデルの訓練方法 図1
  • 特開-音響モデルの訓練方法 図2
  • 特開-音響モデルの訓練方法 図3
  • 特開-音響モデルの訓練方法 図4
  • 特開-音響モデルの訓練方法 図5
  • 特開-音響モデルの訓練方法 図6
  • 特開-音響モデルの訓練方法 図7
  • 特開-音響モデルの訓練方法 図8
  • 特開-音響モデルの訓練方法 図9
  • 特開-音響モデルの訓練方法 図10
  • 特開-音響モデルの訓練方法 図11
  • 特開-音響モデルの訓練方法 図12
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024054053
(43)【公開日】2024-04-16
(54)【発明の名称】音響モデルの訓練方法
(51)【国際特許分類】
   G10L 13/06 20130101AFI20240409BHJP
   G10L 13/00 20060101ALI20240409BHJP
【FI】
G10L13/06 230Z
G10L13/00 100Y
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2022212415
(22)【出願日】2022-12-28
(31)【優先権主張番号】63/412,887
(32)【優先日】2022-10-04
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000408
【氏名又は名称】弁理士法人高橋・林アンドパートナーズ
(72)【発明者】
【氏名】大道 竜之介
(72)【発明者】
【氏名】才野 慶二郎
(72)【発明者】
【氏名】西村 方成
(72)【発明者】
【氏名】清水 正宏
(57)【要約】
【課題】訓練済みの音響モデルについて、そのモデルの追加訓練の可否を選択すること。
【解決手段】音響モデルの訓練方法は、音響特徴量を生成する音響モデルの訓練方法であって、付加情報がリンクした第1音響モデルを、音波形を用いた再訓練の対象として特定し、前記付加情報に基づき、前記第1音響モデルに対する再訓練の可否を判断し、再訓練が可能と判断された場合に、音波形の音響特徴量を用いて、前記第1音響モデルを再訓練することで、再訓済の第2音響モデルを作成する。前記付加情報は、前記音響モデルに対する再訓練の許可を示す許可フラグであってもよい。
【選択図】図5
【特許請求の範囲】
【請求項1】
音響特徴量を生成する音響モデルの訓練方法であって、
付加情報がリンクした第1音響モデルを、音波形を用いた再訓練の対象として特定し、
前記付加情報に基づき、前記第1音響モデルに対する再訓練の可否を判断し、
再訓練が可能と判断された場合に、音波形の音響特徴量を用いて、前記第1音響モデルを再訓練することで、再訓済の第2音響モデルを作成する音響モデルの訓練方法。
【請求項2】
前記付加情報は、前記第1音響モデルに対する再訓練の許可を示す許可フラグである、請求項1に記載の方法。
【請求項3】
前記付加情報は、前記第1音響モデルの再訓練のプロセスを示す手順データを含み、
前記第1音響モデルの前記再訓練は、前記手順データに基づいて行われる、請求項1に記載の方法。
【請求項4】
前記付加情報は、前記第1音響モデルの第1特徴を示す情報を含み、
前記音波形が特定されると、前記第1特徴と前記音波形の第2特徴とに基づいて、それぞれ前記付加情報がリンクした複数の前記第1音響モデルから、再訓練が行われる前記第1音響モデルを選択する、請求項1に記載の方法。
【請求項5】
再訓練が行われる前記第1音響モデルは、それぞれ前記付加情報がリンクした複数の前記第1音響モデルから選択され、
前記複数の第1音響モデルを用いて、前記音波形に係る楽曲の音響特徴量を各々生成し、
前記音波形と前記生成された複数の音響特徴量とに基づいて、再訓練が行われる前記第1音響モデルを選択する、請求項1に記載の方法。
【請求項6】
前記第1音響モデルは、1以上の作成者によって作成された音響モデルであり、
前記付加情報は、前記1以上の作成者によって付与された、前記作成者が作成した第1音響モデルに対する再訓練の可否を制御する情報である、請求項1に記載の方法。
【請求項7】
前記付加情報は、前記第1音響モデルの原作成者により前記第1音響モデルにリンクされた第1付加情報であり、
前記第2音響モデルを作成したユーザは、前記第2音響モデルに対する再訓練の可否を示す第2付加情報を設定して、前記第2音響モデルにリンクする、請求項1又は6に記載の方法。
【請求項8】
前記第2音響モデルは第3者に販売され、その対価は、前記再訓練による前記第1音響モデルから前記第2音響モデルへの変化度に応じて、前記第1音響モデルの作成者と、前記第2音響モデルの作成者との間で、案分される、請求項1又は6に記載の方法。
【請求項9】
前記第2音響モデルは第3者に販売され、
前記付加情報は、前記第1音響モデルの作成者の取り分を示す取り分情報を含み、
前記販売の対価は、前記取り分情報に応じて、前記第1音響モデルの作成者に分配される、請求項1又は6に記載の方法。
【請求項10】
前記再訓練が行われる第1音響モデルは、複数の第1音響モデルの中から選択されたモデルであり、
前記複数の第1音響モデルは、未訓練の初期モデルであって、当該モデルへの再訓練の許可を示す付加情報がリンクされた、前記初期モデルを含む、請求項1に記載の方法。
【請求項11】
前記再訓練が行われる第1音響モデルは、複数の第1音響モデルの中から選択されたモデルであり、
前記複数の第1音響モデルには、複数の音色種別に対応する複数の普遍音響モデルであって、それぞれ、対応する音色種別の音響特徴量を生成するよう訓練された前記複数の普遍音響モデルが含まれる、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、音響モデルの訓練方法に関する。
【背景技術】
【0002】
特定の歌手の声音及び特定の楽器の演奏音を合成する音声合成技術(Sound Synthesis)が知られている。特に、機械学習を利用した音声合成技術(例えば、特許文献1)では、ユーザによって入力された楽譜データ及び音響データに基づいて当該特定の音声及び演奏音で自然な発音の合成音声を出力するために、十分に訓練された音響モデルが要求される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】国際公開第2022/080395号
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、音響モデルを十分に訓練するためには、膨大な量の声音及び演奏音について言語特徴量をラベル付けする必要があり、莫大な時間と費用を要していた。そのため、資金を十分に有する企業しか音響モデルの訓練を実行することができず、音響モデルの種類が限られていた。一方で、近年、音響モデルの訓練を一般のユーザが実行するためのプラットフォームが整備されてきている。そのようなプラットフォームが完成した場合、一般のユーザが訓練を行った音響モデルを用いて、他のユーザがさらに訓練を実行するケースが想定される。
【0005】
本発明の一実施形態の目的の一つは、訓練済みの音響モデルについて、そのモデルの追加訓練の可否を選択することである。
【課題を解決するための手段】
【0006】
本発明の一実施形態による音響モデルの訓練方法は、音響特徴量を生成する音響モデルの提供方法であって、付加情報がリンクした第1音響モデルを、音波形を用いた再訓練の対象として特定し、前記付加情報に基づき、前記第1音響モデルに対する再訓練の可否を判断し、再訓練が可能と判断された場合に、音波形の音響特徴量を用いて、前記第1音響モデルを再訓練することで、再訓済の第2音響モデルを作成する。
【発明の効果】
【0007】
本発明の一実施形態によれば、訓練済みの音響モデルについて、そのモデルの追加訓練の可否を選択することができる。
【図面の簡単な説明】
【0008】
図1】音響モデル訓練システムの全体構成図である。
図2】サーバの構成図である。
図3】音響モデルの説明図である。
図4】音響モデルの訓練方法及び音声合成方法を示すシーケンス図である。
図5】音響モデルの訓練方法を示すフローチャートである。
図6】付加情報の一例を示す図である。
図7】音響モデルの訓練方法を示すフローチャートである。
図8】付加情報の一例を示す図である。
図9】音響モデルの訓練方法を示す概念図である。
図10】音響モデルの訓練方法を示すフローチャートである。
図11】音響モデルの訓練方法を示すフローチャートである。
図12】音響モデルの訓練方法を示すフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態における音響モデルの訓練方法について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明を実施する形態の一例であって、本発明はこれらの実施形態に限定して解釈されない。本実施形態で参照する図面において、同一部分又は同様の機能を有する部分には同一の符号又は類似の符号が付されており、それらの繰り返しの説明は省略される場合がある。
【0010】
以下の実施形態において、「楽譜データ」は、音符の音高及び強度に関する情報、音符における音韻に関する情報、音符の発音期間に関する情報、及び演奏記号に関する情報を含むデータである。例えば、楽譜データは、楽曲の楽譜及び歌詞の少なくとも一方を示すデータである。楽譜データは、当該楽曲を構成する音符の時系列を示すデータであってもよく、当該楽曲を構成する言語の時系列を示すデータであってもよい。
【0011】
「音波形」は、音声の波形データであり、その音声を発する音源は、音源IDで特定される。例えば、音波形は、歌唱の波形データ及び楽器音の波形データの少なくとも一方である。例えば、音波形は、マイク等の入力装置を介して取り込まれた歌手の歌声及び楽器の演奏音の波形データを含む。音源IDは、その歌手の歌唱の音色、又はその楽器の演奏音の音色を特定する。音波形のうち、音響モデルを用いて合成音波形を生成するために入力される音波形を「合成用音波形」といい、音響モデルを訓練するために用いられる音波形を「訓練用音波形」という。合成用音波形と訓練用音波形とを区別する必要がない場合、これらを併せて、単に「音波形」という。
【0012】
「音響モデル」は、楽譜データの楽譜特徴量の入力と、音波形の音響特徴量の入力とを有する。音響モデルとして、例えば、国際公開第2022/080395号に記載された、楽譜エンコーダ、音響エンコーダ、切換部、及び音響デコーダを有する音響モデルを用いる。この音響モデルは、入力された楽譜データの楽譜特徴量又は音波形の音響特徴量と音源IDとを処理することで、その音源IDが示す音色を有する、目的とする音波形の音響特徴量を生成する機能を有し、新たな合成音波形を生成するための音声合成プログラムによって使用される音声合成モデルである。音声合成プログラムは、ある楽曲の楽譜データから生成した楽譜特徴量と音源IDとを音響モデルに供給することで、その音源IDが示す音色で、かつその楽曲の音響特徴量を得て、その音響特徴量を音波形に変換する。或いは、音声合成プログラムは、ある楽曲の音波形から生成した音響特徴量と音源IDとを音響モデルに供給することで、その音源IDが示す音色で、かつその楽曲の新たな音響特徴量を得て、その新たな音響特徴量を音波形に変換する。音響モデル毎に、所定数の音源IDが用意される。つまり、各音響モデルは、所定数の音色のうちの、音源IDが示す音色の音響特徴量を選択的に生成する。
【0013】
音響モデルは、機械学習を利用した、例えば、畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)などを利用した所定のアーキテクチャの生成モデルである。音響特徴量は、自然音や合成音の波形の周波数スペクトルにおける発音の特徴を表すものであり、音響特徴量が近いことは歌声又は演奏音の音色やその時間変化が似ていることを意味する。
【0014】
音響モデルの訓練においては、音響モデルによって、参照した音波形の音響特徴量と類似する音響特徴量が生成されるように、音響モデルの変数が変更される。訓練には、例えば、国際公開第2022/080395号に記載された訓練プログラムP2、楽譜データD1(訓練用楽譜データ)、及び学習用音響データD2(訓練用音波形)を用いる。複数の音源IDに対応する複数の音声の波形を用いた基本訓練によって、複数の音源IDに対応する複数の音色の合成音の音響特徴量を生成できるように、音響モデル(楽譜エンコーダ、音響エンコーダ、及び音響デコーダ)の変数が変更される。さらに、その訓練済の音響モデルを、(未使用の)新たな音源IDに対応する別の音色の音波形を用いて補助訓練(「再訓練」という場合がある)することで、その音響モデルは、新たな音源IDの示す音色の音響特徴量を生成できるようになる。具体的には、XXXさん(複数人)の声の音波形で訓練済の音響モデルに対して、さらに、新たな音源IDを用いて、YYYさん(一人)の声音の音波形で補助訓練を行うことにより、YYYさんの声音の音響特徴量を生成できる音響モデルになるように、音響モデル(少なくとも、音響デコーダ)の変数が変更される。音響モデルに対する、上記のような、新たな音源IDに対応する訓練の単位を「訓練ジョブ」という。つまり、訓練ジョブとは、訓練のプログラムによって実行される一連の訓練プロセスを意味する。
【0015】
「プログラム」とは、プロセッサ及びメモリを備えたコンピュータにおいてプロセッサより実行される命令又は命令群を指す。「コンピュータ」は、プログラムの実行主体を指す総称である。例えば、サーバ(又はクライアント)によりプログラムが実行される場合、「コンピュータ」は、サーバ(又はクライアント)を指す。また、サーバとクライアントとの間の分散処理により「プログラム」が実行される場合、「コンピュータ」は、サーバ及びクライアントの両方を含む。この場合、「プログラム」は、「サーバで実行されるプログラム」及び「クライアントで実行されるプログラム」を含む。「プログラム」が、ネットワークに接続された複数のコンピュータで分散処理される場合、「コンピュータ」は、複数のコンピュータであり、「プログラム」は、複数のコンピュータで実行される複数のプログラムを含む。
【0016】
[1.第1実施形態]
[1-1.システムの全体構成]
図1は、本発明の一実施形態における音響モデル訓練システムの全体構成を示す図である。図1に示すように、音響モデル訓練システム10は、サーバ100(Server)、通信端末200(TM1)、及び通信端末300(TM2)を含む。サーバ100及び通信端末200、300は、それぞれネットワーク400に接続されている。通信端末200及び通信端末300は、それぞれネットワーク400を介してサーバ100と通信できる。
【0017】
本実施形態において、サーバ100は、音声合成器として機能し、音響モデルの訓練を実施するコンピュータである。サーバ100は、ストレージ110を備えている。図1では、ストレージ110がサーバ100に直接接続された構成が例示されているが、この構成に限定されない。例えば、ストレージ110が直接又は他のコンピュータを介してネットワーク400に接続され、サーバ100とストレージ110との間のデータの送受信がネットワーク400を介して行われていてもよい。
【0018】
通信端末200は、音響モデルを訓練するための訓練用音波形を選択し、サーバ100に訓練を実行する指示を送信するユーザ(後述する作成者)の端末である。例えば、通信端末300は、楽譜データを提供してサーバ100に対して合成音波形の生成を要求するユーザの端末である。通信端末200、300は、例えばスマートフォンなどのモバイル用の通信端末、又は、デスクトップ型パソコンなどの据え置き用の通信端末を含む。なお、本発明の訓練方法は、本実施形態で説明するクライアントサーバの構成でなくても実施できる。例えば、通信端末とサーバの代わりに、プログラムを実行できるプロセッサを搭載した、スマートフォン、パソコン、電子楽器、音響機器などの1台の電子機器で実施してもよい。或いは、ネットワークで接続された複数台の電子機器で、分散処理として実施してもよい。
【0019】
ネットワーク400は一般的なインターネット、WAN(Wide Area Network)、又は社内LANなどのLAN(Local Area Network)である。
【0020】
[1-2.音声合成に用いられるサーバなどの構成]
図2は、サーバの構成を示すブロック図である。図2に示すように、サーバ100は、制御部101、RAM(Random Access Memory)102、ROM(Read Only Memory)103、ユーザインタフェース(UI)104、通信インタフェース105、及びストレージ110を備える。サーバ100の各機能部が協働することによって、本実施形態の音声合成技術が実現される。
【0021】
制御部101は、中央処理装置(CPU:Central Processing Unit)、画像処理装置(GPU:Graphics Processing Unit)などのプロセッサ、当該CPU及びGPUに接続されたレジスタやメモリなどの記憶装置などを含む。制御部101は、メモリに一時的に記憶されたプログラムをCPU及びGPUによって実行し、サーバ100に備えられた各機能を実現させる。具体的には、制御部101は、通信端末200からの各種要求信号に応じて演算処理を行い、通信端末200、300にその処理結果を提供する。
【0022】
RAM102は、演算処理に必要な制御プログラム、音響モデル(アーキテクチャと変数で構成される)及びコンテンツデータなどを一時的に記憶する。また、RAM102は、例えばデータバッファとして使用され、通信端末200など、外部機器から受信した各種データを、ストレージ110に記憶させるまでの間、一時的に保持する。RAM102として、例えば、SRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)などの汎用メモリを用いてもよい。
【0023】
ROM103は、サーバ100の機能を実現させるための各種プログラム、各種音響モデル、及びパラメータ等を記憶する。ROM103に記憶されているプログラム、音響モデル、及びパラメータ等は、必要に応じて制御部101によって読み出され、実行ないし利用される。
【0024】
ユーザインタフェース104は、グラフィカルな表示を行う表示器、ユーザ操作を受け付ける操作子やセンサ、サウンドを入出力するサウンドデバイスなどを備えており、制御部101の制御によって、その表示器に各種の表示画像を表示し、ユーザからの入力を受け付ける。
【0025】
通信インタフェース105は、制御部101の制御によって、ネットワーク400に接続して、ネットワーク400に接続された通信端末200、300などの他の通信装置との間で、情報の送信及び受信を行うインタフェースである。
【0026】
ストレージ110は、不揮発性メモリ、ハードディスクドライブなどの恒久的な情報の保持及び書き換えが可能な記録装置(記録媒体)である。ストレージ110は、プログラム、音響モデル、及び当該プログラムの実行に必要となるパラメータ等の情報を記憶する。図2に示すように、ストレージ110には、例えば音声合成プログラム111、訓練ジョブ112、楽譜データ113、及び音波形114が記憶されている。これらのプログラム及びデータとして、例えば、国際公開第2022/080395号に記載された音声合成プログラムP1、訓練プログラムP2、楽譜データD1、及び音響データD2をそれぞれ用いてもよい。
【0027】
上記のように、音声合成プログラム111は、楽譜データ113や音波形114から合成音波形を生成するためのプログラムである。制御部101が音声合成プログラム111を実行するとき、制御部101は音響モデル120を使用して合成音波形を生成する。なお、当該合成音波形は、国際公開第2022/080395号に記載された音響データD3に対応する。訓練ジョブ112で制御部101により実行される音響モデル120の訓練プログラムは、例えば国際公開第2022/080395号に記載されたエンコーダ及び音響デコーダを訓練するプログラムである。楽譜データ113は、楽曲を規定するデータである。音波形114は、歌手の歌声又は楽器の演奏音を示す波形データである。通信端末200、300の構成は、規模などに多少の差はあるが、基本的にはサーバ100と同じである。
【0028】
[1-3.音声合成に用いられる音響モデル]
図3は、音響モデルの説明図である。上記のように、音響モデル120は、図2の制御部101が音声合成プログラム111を読み出して実行するとき、その制御部101が実行する音声合成処理において使用される機械学習モデルである。音響モデル120は、音響特徴量を生成するよう訓練されている。音響モデル120には、制御部101により、入力信号として所望の楽曲の楽譜データ113の楽譜特徴量123又は音波形114の音響特徴量124が入力される。制御部101が、音響モデル120を用いて、音源IDと当該楽譜特徴量123とを処理することにより、当該楽曲の合成音の音響特徴量129が生成される。制御部101は、その音響特徴量129に基づいて、当該楽曲を音源IDで特定される歌手が歌唱した又は楽器で演奏した合成音波形130を合成して出力する。又は、制御部101が、音響モデル120を用いて、音源IDと当該音響特徴量124とを処理することにより、当該楽曲の合成音の音響特徴量129を生成する。制御部101は、その音響特徴量129に基づいて、当該楽曲の音波形を音源IDで特定される歌手の歌声又は楽器の演奏音の音色に変換した合成音波形130を合成して出力する。
【0029】
音響モデル120は、機械学習により確立された生成モデルであり、訓練プログラムを実行している(つまり、訓練ジョブ112を実行中の)制御部101によって訓練される。制御部101は、(未使用の)新たな音源IDと訓練用音波形を用いて音響モデル120を訓練し、音響モデル120(少なくとも音響デコーダ)の変数を決定する。具体的には、制御部101は、訓練用音波形から訓練用の音響特徴量を生成し、音響モデル120に新たな音源IDと訓練用の音響特徴量が入力された場合に、合成音波形130を生成する音響特徴量が訓練用の音響特徴量に近づくように、その変数を徐々に繰り返し変更する。訓練用音波形は、例えば、通信端末200又は通信端末300からサーバ100にアップロード(送信)され、ストレージ110にユーザデータとして保存されてもよく、参考データとしてサーバ100の管理者が予めストレージ110に保存したものでもよい。以下の説明において、ストレージ110に保存することをサーバ100に保存する、という場合がある。
【0030】
音響モデル120には付加情報141(図6図8)がリンク(付与)されている。付加情報141は、音響モデル120に対する再訓練の可否を示す情報である。音響モデル120は、1以上の作成者によって作成された音響モデルである。訓練により音響モデル120を作成する乃至作成した会社又はユーザを、作成者と呼ぶ。当該音響モデル120に付与された付加情報141は、当該1以上の作成者によってリンクされた情報であり、作成者によって作成された音響モデルに対する再訓練の可否を示す情報である。付加情報のリンクとは、何らかの方法で、その付加情報を音響モデル120のユーザに提供することである。例えば、音響モデル120の一部に埋め込むことで、付加情報が音響モデルにリンクされる。或いは、音響モデルの管理データベースに、音響モデルに関連付けて付加情報を記憶することにより、付加情報が音響モデルにリンクされる。そのデータベースには、ブロックチェーンの技術が用いられても良い。
【0031】
例えば、付加情報141は、未訓練の初期モデルを訓練してオリジナルの音響モデル120を作成した作成者(原作成者と呼ぶ)が、自身が作成した音響モデル120をベースモデルとして訓練を実行することを許可するか否かを示す情報である。初期モデルは、音響特徴量の生成を未学習の音響モデルであって、例えば、訓練済みの楽譜エンコーダと音響エンコーダと、未訓練の音響デコーダとを備える。未訓練の音響デコーダとは、その変数が乱数などで初期化された音響デコーダである。従って、初期モデルは、楽曲の楽譜特徴量や音響特徴量が入力されても、その楽曲の合成音波形の音響特徴量を生成できない。初期モデルにリンクされた付加情報に含まれる履歴データ(図8)はその初期モデルが未訓練であることを示し、同第1付加情報(図8)は未設定であり、同第2付加情報(図8)は「〇」を示す。
【0032】
又は、付加情報141は、何れかの訓練済みの音響モデルをベースとして再訓練して音響モデル120を作成した作成者が、訓練済み音響モデル120に対して再訓練を実行することを許可するか否かを示す情報である。付加情報141は、例えば、音響モデル120に対する訓練の許可を示す許可フラグを含んでもよい。訓練済み又は再訓練済みの音響モデル120を提供されたユーザ(その音響モデルを再訓練する作成者を含む)は、その音響モデルにリンクされた付加情報を変更できない。
【0033】
付加情報141は、音響モデル120を訓練するためのプロセスを規定する手順データを含んでもよい。オリジナルの音響モデルを再訓練した音響モデル120に対して、そのオリジナルの音響モデルの原作成者が付与した付加情報146Aを「第1付加情報」といい、再訓練を実行した作成者(ユーザ)が付与した付加情報142Aを「第2付加情報」という場合がある(図8)。詳細は後述するが、「第2付加情報」142Aは、その再訓練された音響モデル120に対する1回の再訓練の許可(直系の1世代の許可)を示し、「第1付加情報」146Aは、オリジナルの音響モデル120に対するn回の再訓練の許可(n世代の許可)を示す。
【0034】
[1-4.音声合成方法]
図4は、音響モデルの訓練方法を示すシーケンス図である。図4に示す音響モデルの訓練方法では、例えば、通信端末200がサーバ100に訓練用音波形をアップロードする。ただし、上記のように、訓練用音波形はその他の方法でサーバ100に予め保存されていてもよい。通信端末200側の処理TM1の各ステップおよびサーバ100側の処理Serverの各ステップは、実際には、通信端末200の制御部およびサーバ100の制御部101がそれぞれ実行するが、ここでは説明を単純にするため、通信端末200およびサーバ100を各ステップの実行主体として表現する。特に断らない限り、以降のフローチャートの説明も同様である。
【0035】
図4に示すように、まず、通信端末200は、サーバ100のユーザのアカウントにログインした作成者の指示に基づいて、サーバ100に、1又は複数の訓練用音波形をアップロード(送信)する(S401)。サーバ100は、S401で送信された訓練用音波形を、ユーザの記憶領域に記憶する(S411)。サーバ100にアップロードされる音波形は1つでも、複数でもよく、複数の音波形はユーザの記憶領域の複数のフォルダに分けて記憶されてもよい。上記のS401、411は、以下の訓練ジョブを実行するための準備に係るステップである。
【0036】
続いて、以下に訓練ジョブを実行するためのステップを説明する。通信端末200は、サーバ100に訓練ジョブの実行を要求する(S402)。S402の要求に対して、サーバ100は、通信端末200に対して、予め保存された音波形(及び保存される予定の音波形)のうち訓練ジョブに使用する音波形を選択するためのグラフィカルユーザインタフェース(GUI)を提供する(S412)。
【0037】
S412で提供されたインタフェースに対する作成者(ユーザ)の入力によって、通信端末200は、その表示器にS412で提供されたGUIを表示し、作成者は、そのGUIを用いて、記憶領域(乃至所望のフォルダ)にアップロードされた複数の音波形から一以上の音波形を訓練用の波形セットとして選択する(S403)。
【0038】
S403で波形セット(訓練用音波形)が選択された後に、作成者からの指示に応じて、通信端末200は、訓練ジョブの実行開始を指示する(S404)。その指示に応じて、サーバ100は、選択された波形セットを用いて訓練ジョブの実行を開始する(S413)。
【0039】
訓練には、選択された波形セット中の各波形が全部使用されるのではなく、無音区間やノイズ区間などを除いた有用区間のみを含む前処理済み波形セットが使用される。また、訓練される音響モデル120(ベースモデル)として、音響デコーダが未訓練の音響モデル(訓練済みの音響モデル120)を用いてもよいが、複数の基本訓練済みの音響モデル120のうち、波形セットの波形の音響特徴量に近い音響特徴量の生成を学習した音響デコーダを含む音響モデル(未訓練の音響モデル120)を選択して用いれば、訓練ジョブにかかる時間やコストを低減できる。何れの音響モデル120を選ぶとしても、楽譜エンコーダと音響エンコーダは、基本訓練済みのものを用いる。
【0040】
ベースモデルは、作成者が選択した波形セットに基づいて、サーバ100が決定してもよい。又は、作成者が、複数の訓練済み音響モデルのいずれかをベースモデルとして選択して、第1実行指示にそのベースモデルを示す指定データを含めてもよい。音響デコーダに供給する音源ID(例えば、歌手ID、楽器IDなど)としては、未使用の新たな音源IDを用いる。ここで、新たな音源IDとしてどの音源IDを使用されたかを、作成者を含むユーザは必ずしも知らなくてよい。ただ、訓練済みモデルを使用して音声合成する際には、自動的に、その新たな音源IDが用いられる。新たな音源IDは、ユーザが訓練した音響モデルに、その訓練で学習した音色の音響特徴量を合成させるためのキーデータである。
【0041】
訓練ジョブでは、前処理済み波形セットから一部の短波形を少しずつ取り出し、取り出した短波形を用いて音響モデル(少なくとも音響デコーダ)を訓練する、という単位訓練を繰り返す。単位訓練では、前記新たな音源IDと短波形の音響特徴量とを音響モデル120に入力し、それに応じて音響モデル120が出力する音響特徴量と入力した音響特徴量の間の差分が小さくなるよう、音響モデルの変数を調整する。変数の調整には、例えば、誤差逆伝搬法を用いる。単位訓練を繰り返すことで、前処理済み波形セットによる訓練が一通り終わったら、音響モデル120が生成する音響特徴量の品質を評価して、当該品質が所定の基準に達していなければ、その前処理済み波形セットを用いて、再び音響モデルの訓練を行う。音響モデル120が生成する音響特徴量の品質が所定の基準に達していれば、訓練ジョブは完了し、その時点の音響モデル120が訓練済み音響モデル120となる。
【0042】
S413で実行された訓練ジョブが完了することで、訓練済み音響モデル120が確立される(S414)。サーバ100は、通信端末200に、訓練済み音響モデル120が確立されたことを通知する(S415)。上記のS403~S415のステップが、音響モデル120の訓練ジョブである。
【0043】
S415の通知の後に、ユーザからの指示に応じて、通信端末200が、所望の楽曲の楽譜データを含む音声合成の指示をサーバ100に送信する(S405)。S405でのユーザは、作成者ではなく、音響モデル120の利用者の位置づけである。それに応じて、サーバ100は、音声合成プログラムを実行して、その楽譜データに基づいて、S414で確立された訓練済み音響モデル120を用いた音声合成を実行する(S416)。S416で生成された合成音波形130を通信端末200に送信する(S417)。この音声合成では、前記新たな音源IDが用いられる。
【0044】
S416及びS417を併せて、訓練ジョブによって訓練された訓練済み音響モデル120(音声合成機能)を、通信端末200(又はユーザ)に提供する、ということができる。S416の音声合成プログラムの実行を、サーバ100の代わりに、通信端末200で行ってもよい。その場合、サーバ100は、当該訓練済み音響モデル120を通信端末200に送信し、通信端末200は、受け取った訓練済み音響モデル120を用いて、前記新たな音源IDで、所望の楽曲の楽譜データに基づく音声合成処理を実行し、合成音波形130を取得する。
【0045】
本実施形態では、S402で訓練ジョブの実行を要求する前に、S401で訓練用音波形をアップロードしたが、この構成に限定されない。例えば、訓練用音波形のアップロードが、S404で訓練ジョブの実行を指示した後に行われてもよい。この場合、S403において、通信端末200に記憶された複数の音波形(未アップロードの音波形を含む)から、波形セットとして一以上の音波形が選択され、訓練ジョブの実行指示に応じて、選択された音波形のうちの未アップロードの音波形が、アップロードされてもよい。
【0046】
[1-5.訓練済み音響モデルの再訓練方法]
図5は、音響モデルの訓練方法を示すフローチャートである。図5に示すフローチャートでは、既に訓練され、訓練の可否を示す付加情報がリンクされた音響モデル120を例示する。図5のフローチャートは、訓練する音響モデル120を作成者が指定した後、図4のS404において訓練ジョブの実行を指示してから、S414においてその訓練ジョブで確立された新たな音響モデルが作成者に提供されるまでの間に、サーバ100によって実行される処理を示す。S404の訓練ジョブの指示に応じて、サーバ100は図5の処理を開始する。
【0047】
サーバ100は、上記の訓練ジョブの実行指示(図4のS404)に含まれる指定データに基づいて、訓練すべき音響モデル120を特定する(S501)。本実施形態において、音響モデル120は、訓練済みまたは未訓練の音響モデルであり、付加情報がリンクされている。サーバ100は、S501で特定された音響モデル120の付加情報に基づいて、音響モデル120に対する再訓練の可否を判断する(S502)。
【0048】
S502において、再訓練が可と判断された場合(S502の「Yes」)、サーバ100は、音響モデル120を再訓練する訓練ジョブを実行し(S413に相当するS503)、通信端末200に対し、再訓練済みの新たな音響モデル120を提供して(S414に相当するS504)、図5の処理を終了する。一方、S502において、再訓練が不可と判断された場合(S502の「No」)、音響モデル120の再訓練は実行されず、エラーメッセージが通信端末200に通知され(S505)、図5に示す動作が終了する。作成者は、以上の処理で確立された新たな音響モデル120を、通信ネットワークを介して、第3者に無料で提供しても良いし、第3者に有償で販売しても良い。或いは、作成者は、新たな音響モデルを、第3者に無償で使わせてもよいし、サブスクリプションなどで、第3者に有償で使用させてもよい。
【0049】
図6は、付加情報141の一例を示す。図6に示すように、音響モデル120にリンクされる情報は、音響モデル120毎に、基本情報120a、許可フラグ142及び手順データ143を含む。なお、再訓練の可否の判断には、許可フラグ142と手順データ143の何れか一方が必要である。許可フラグがある場合、手順データ143は再訓練の可否の判断に用いなくても良い。手順データで再訓練の可否を判断する場合、付加情報141は許可フラグ142を含まなくて良い。
【0050】
許可フラグ142は、音響モデル120の作成者が設定(リンク)するフラグであって、その音響モデルに対する再訓練の許可と不許可の何れか一方を示す。図6では、音響モデル[1]及び[3]の許可フラグ「○」は、再訓練の実行可を示す。音響モデル[2]の許可フラグ「×」は、再訓練の実行不可を示す。再訓練の可否判断(S502)において、サーバ100は、ある音響モデル120にリンクされた許可フラグ142が「○」であれば、その音響モデル120の再訓練は可と判断し(S502の「Yes」)、「×」であればその再訓練は不可と判断する(S502の「No」)。音響モデル120を受け取った第3者は、その音響モデルにリンクされた許可フラグが再訓練可を示していれば、自らが作成者としてその音響モデル120を再訓練できるが、再訓練不可を示していれば、その再訓練を行えない。
【0051】
手順データ143は、音響モデル120の再訓練に必須の情報である。作成者は、自分の作成した音響モデル120を再訓練されたくない場合、手順データ143をリンクしない、又は、無効な手順データをリンクすることにより、第3者によるその音響モデルの再訓練を防止できる。音響モデル120の訓練に必須の情報とは、例えば、その音響モデルのアーキテクチャ(ニューラルネットワークの構成や入出力)に関する情報である。S502において、サーバ100は、ある音響モデル120に有効な手順データ143がリンクされていれば、その音響モデル120の再訓練を可と判断し(S502の「Yes」)、手順データがリンクされていない、又は、無効な手順データがリンクされていれば、その再訓練を不可と判断する(S502の「No」)。なお、S503における音響モデル120の再訓練は、手順データ143に基づいて行われる。
【0052】
本実施形態では、図5に示す再訓練の可否判断(S502)が、再訓練の実行指示(図4のS404)の後に実行される構成を例示したが、この構成に限定されない。図5のS502の再訓練の可否判断は、図4のS403におけるベースモデルの選択時に行われてもよい。この場合、例えば、用意されている全ての音響モデル120から再訓練の実行が不可な音響モデルを除外して、ベースモデルの選択肢として作成者に表示してもよい。又は、選択肢として全ての音響モデル120を表示するものの、その内の再訓練が不可の音響モデル120を選択できないよう非アクティブ表示してもよい。
【0053】
以上のように、本実施形態に係る音響モデル訓練システム10によると、訓練済みの音響モデル120にリンクする付加情報141によって、音響モデル120の作成者は、その音響モデルの第3者による追加訓練の可否を制御できる。
【0054】
[2.第2実施形態]
図7及び図8を用いて、第2実施形態に係る音響モデル訓練システム10Aについて説明する。音響モデル訓練システム10Aの構成に関するブロック図は第1実施形態と同じなので、説明を省略する。以下において、第1実施形態と同じ点は説明を省略し、主に第1実施形態と相違する点を説明する。また、第1実施形態と同様の構成は、図1図4に示された符号の後にアルファベット“A”を付して説明する。
【0055】
[2-1.訓練済み音響モデルの再訓練方法]
図7は、音響モデルの訓練方法を示すフローチャートである。図7のフローチャートは、図4のS403の音波形の選択から、S413の音響モデルの提供までの間に、通信端末200Aとサーバ100Aとが協働で実行する一連の処理を示す。上述したように、本発明の訓練方法はクライアントサーバの構成である必要はなく、各ステップの処理をサーバと通信端末の何れが行うかは、本発明にとって重要ではない。従って、以下の説明では、フローチャートの各ステップの実行主体を、サーバ100Aと通信端末200Aを含むシステムとして説明する。まず作成者による音波形の特定操作に応じて、システム(サーバ100Aと通信端末200A)は、訓練に用いる1以上の音波形を特定する(S701)。次に、システムは、特定された音波形を分析して、当該音波形の第2特徴を取得する(S702)。用意されている複数の音響モデルの各々に対応して、その音響モデルが生成する音響特徴量の音色的な特徴を示す第1特徴144Aが提供されている。
【0056】
第1特徴及び第2特徴は、1以上の音波形の音響特徴量を分析ないし集計して得られる、音響特徴量の音色的な特徴を示す情報である。ここで、音響特徴量は、例えば、スペクトル包絡とピッチのセットの時系列、又は、スペクトルの時系列などである。なお、第1特徴や第2特徴などの特徴情報は、その音響特徴量に応じて、公知の音色分類器の出力する分類ベクトル、又は、その処理の途中における潜在表現であってもよく、公知の音響指紋技術により、その音響特徴量から抽出された音響指紋であってもよい。
【0057】
続いて、システムは、用意された複数の音響モデル120Aのうちの、再訓練が可と判断される音響モデルの中から、その音響モデルの第1特徴144AがS702で取得された第2特徴に近い音響モデルを抽出し、抽出された音響モデル120Aを選択候補として作成者に提示する(S703)。次に、システムは、作成者の選択操作に応じて、S703で提示された音響モデルのなかのいずれか1の音響モデル120Aを、ベースモデルとして選択する(S704)。以上のS701からS704までの処理が、図4のS403とS404に相当する。
【0058】
ユーザによる訓練ジョブの実行指示に応じて、システムは、S701で特定された音波形を用いて、S704で選択されたベースモデルを再訓練して、新たな音響モデル120Aを確立する(S705)。次に、システムは、作成者の設定操作に応じて、第2付加情報142Aなどを用意して、S705で確立した新たな音響モデル120Aにリンクする(S706)。そして、システムは、上記の結果得られた新たな音響モデル120Aを、作成者に提供する(S707)。S705の処理が図4のS413に相当し、S706とS707の処理がS414に相当する。作成者は、新たな音響モデル120Aを、第3者に有償ないし無償で提供しても良いし、有償ないし無償で使用させても良い。
【0059】
音響モデル120Aにリンクされた付加情報141Aは、例えば、図8に示すように、訓練済みの音響モデル120A毎に、第1付加情報146A、第2付加情報142A、履歴データ147A、第1特徴144A、及び変化度145Aを含む。この実施形態では、手順データ143Aは音響モデル120Aに必ず付属し、付加情報141Aには含まれない。なお、オリジナルの音響モデル120Aに関しては、第1付加情報146Aと第2付加情報142A(許可フラグに相当)の両方が、原作成者により設定される。第1付加情報146Aは、原作成者が、オリジナルの音響モデル120を確立したときに、その音響モデルにリンクした付加情報であり、その音響モデルに対するn回の再訓練の許可(n世代の許可)を示す。第1付加情報は、ベースモデルから再訓練で確立された音響モデルへと自動で引き継がれ、再訓練を行う作成者は変更できない。オリジナルの音響モデルを1回再訓練することで第1世代の再訓練済み音響モデルが確立され、2回再訓練することで第2世代の再訓練済み音響モデルが確立され、オリジナルの音響モデルをi回再訓練することで第i世代の再訓練済み音響モデルが確立される。第1付加情報により、その再訓練の可能な回数がnに制限される。第2付加情報142Aは、作成者が再訓練により音響モデル120を確立したときに、その音響モデルにリンクした付加情報であり、その音響モデルに対する再訓練の可否を示す。第2付加情報は、例えば、許可フラグ142と同種のデータである。履歴データ147Aは、システムに管理され作成者が変更できないデータであり、訓練済みの音響モデル120Aに対する訓練の履歴を示す。その履歴には、オリジナルの音響モデルの確率時の訓練と、それ以降の全ての再訓練とが含まれる。
【0060】
図7の右部分を用いて、S706のステップの詳細を説明する。第2付加情報のリンク処理(S706)では、システムは、まず、ベースモデルの変数と再訓練済み音響モデル120Aの変数とを比較して、再訓練による変数の変化度145Aを算出する(S711)。当該変化度は、再訓練の前後で音響モデル120Aが変化した程度を示すものである。
【0061】
続いて、S702で取得された第2特徴とベースモデルの第1特徴とに基づき、システムは、新たな音響モデル120Aの第1特徴144Aを生成する(S712)。次に、作成者の設定操作に応じて、システムは、第2付加情報142Aなどを設定する(S713)。そして、新たな音響モデル120Aに許可フラグなどを含む第2付加情報142A、第1特徴144A、変化度145Aなどをリンクする(S714)。S714の後、S707にて、これらの情報がリンクされた、新たな音響モデル120Aが、作成者に提供される。なお、変数の変化度の代わりに、ベースモデルと再訓練済み音響モデルの間での、再訓練による第1特徴の変化度145Aを用いても良い。
【0062】
以上のように、本実施形態に係る音響モデル訓練システム10Aによると、作成者は、再訓練が可の音響モデル120Aのうちの、訓練に用いる音波形の特性に適合した音響モデル120Aを、容易に選択することができ、再訓練を効率良く実行できる。
【0063】
[3.第3実施形態]
図9を用いて、第2実施形態の変形例として、第3実施形態に係る音響モデル訓練システム10Bについて説明する。音響モデル訓練システム10Bの構成に関するブロック図は第1及び第2実施形態と同じなので、説明を省略する。以下において、第2実施形態と同じ点の説明を省略し、主に第2実施形態と相違する点を説明する。また、第1及び第2実施形態と同様の構成は、図1図4に示された符号の後にアルファベット“B”を付して説明する。
【0064】
[3-1.訓練済み音響モデルの再訓練方法]
図9を用いて、第3実施形態に係る訓練済み音響モデル120Bの再訓練方法を説明する。第2実施形態のS703では、訓練する音響モデル120Aの候補を、各音響モデル120Aにリンクされた第1特徴144Aを用いて、複数の音響モデルの中から抽出ないし選択したが、第3実施形態では、各音響モデル120Bの生成する音響特徴量に基づいて抽出ないし選択する。図9は、その音響モデルの選択または抽出の方法を示す。
【0065】
図9に示すように、訓練に用いる音波形(S701で特定された音波形に相当)の音響特徴量、または、その音波形に対応する楽曲の楽譜データの楽譜特徴量が、候補として用意された複数の音響モデル120B-1~120B-3の各々に入力される。システムは、各音響モデル120Bを用いて、音源IDと、入力された音響特徴量又は楽譜特徴量とを処理することにより、その楽曲の合成音波形の音響特徴量を生成する。その際の音源IDには、訓練に用いる音波形と最も近い音色に対応する音源IDを用いる。
【0066】
例えば、音響モデル120B-1~120B-3によって、それぞれ音響特徴量1~3が生成される。さらに、生成された音響特徴量1~3に基づいて、それぞれ合成音波形1~3が生成される。そして、生成された合成音波形1~3と入力された音波形との比較に基づいて、再訓練の対象として特定される音響モデルが選択ないし抽出される。例えば、合成音波形1~3の各々と音波形との間の共通性又は類似性が評価される。そして、これらの比較結果に基づいて、音響モデル120B-1~120B-3のうち、入力された音波形に適した音響モデルが選択ないし抽出される。
【0067】
図9において、音響モデル120B-1~120B-3の動作は、システムにより並行して同じ期間に行われてもよく、順次行われてもよい。また、上記の例では、合成音波形1~3と入力された音波形とに基づいて音響モデルが選択される構成を例示したが、この構成に限定されない。例えば、システムは、生成された音響特徴量1~3と、入力された音波形を分析(S702)して得られる音響特徴量とに基づいて、音響モデルを選択してもよい。
【0068】
以上のように、本実施形態に係る音響モデル訓練システム10Bによると、訓練に用いる音波形の特性に適合した音響モデル120Bを選択することができるため、再訓練を効率良く実行できる。
【0069】
[4.第4実施形態]
図10を用いて、第2実施形態の変形例としての、第4実施形態に係る音響モデル訓練システム10Cについて説明する。その構成に関するブロック図は第1及び第2実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下において、第1及び第2実施形態と同じ点の説明を省略し、主に第1実施形態と相違する点を説明する。また、第1及び第2実施形態と同様の構成は、図1図4に示された符号の後にアルファベット“C”を付して説明する。
【0070】
[4-1.訓練済み音響モデルの再訓練方法]
図10のフローチャートを用いて、第4実施形態に係る、第1付加情報146C及び第2付加情報142Cがリンクされた訓練済み音響モデル120Cの再訓練方法を説明する。これら付加情報は、図8で説明した付加情報と基本的に同じである。
【0071】
作成者が、訓練に用いる音波形を選択し(S403)、訓練する音響モデル120Cを指定して訓練ジョブの実行開始を指示したとき(S404)、システムは、その指示に基づいて、訓練する音響モデル120Cを特定する(S1001)。システムは、S1001で特定された音響モデル120Cにリンクされた第1付加情報146Cと履歴データ147Cとに基づいて、その音響モデル120Cに対する再訓練の可否を判断する(S1002)。システムは、履歴データが示すこれ迄の再訓練の回数が、第1付加情報の示す回数nより小さければ再訓練が可と判断し、回数nに達していれば再訓練が不可と判断する。
【0072】
再訓練が可と判断された場合(S1002の「Yes」)、システムは、その音響モデル120Cにリンクされた第2付加情報に基づいて、その音響モデル120Cに対する再訓練の可否を判断する(S1003)。システムは、第2付加情報が「〇」を示していれば再訓練可と判断し、「×」を示していれば再訓練は不可と判断する。再訓練が可と判断された場合(S1003の「Yes」)、システムは、選択された音波形を用いてその音響モデル120Cの再訓練を行い(S1004)、再訓練済みの新たな音響モデル120Cを確立して提供し(S1005)、図11の処理を終了する。一方、S1002かS1003において、再訓練が不可能であると判断された場合(S1002かS1003の「No」)、システムは、その音響モデル120Cの再訓練を行わず、代わりに、エラーメッセージをユーザに通知して(S1006)、図11の処理を終了する。
【0073】
以上のように、本実施形態に係る音響モデル訓練システム10Cは、訓練済み音響モデル120Cの再訓練の可否を、その音響モデルの作成者だけでなく、その音響モデルのルーツであるオリジナルの音響モデルの原作成者が制御できる。原作成者は、自身が確立したオリジナルの音響モデル120Cに対する再訓練を、所望の世代までに制限できる。
【0074】
[5.第5実施形態]
図11を用いて、第2実施形態の変形例としての、第5実施形態に係る音響モデル訓練システム10Dについて説明する。音響モデル訓練システム10Dの構成に関するブロック図は第1実施形態と同じなので、説明を省略する。以下において、第1又は第2実施形態と同じ点は説明を省略し、主に第1及び第2実施形態と相違する点を説明する。以下の説明において、第1実施形態と同様の構成は、図1図4に示された符号の後にアルファベット“D”を付して説明する。
【0075】
[5-1.訓練済み音響モデルに係る対価の分配方法]
図11のフローチャートを用いて、第5実施形態に係る訓練済み音響モデル120Dの再訓練方法を説明する。上述したように、第2実施形態における作成者は、S707で提供された新たな音響モデル120D乃至その使用権を、第3者に有償で販売できる。図11は、その際の課金以降の対価の分配方法を示す。第3者への課金には、例えば、サブスクリプション方式、プリペイドポイント方式などを用いてもよい。
【0076】
まず、システムは、販売した音響モデル120D、又はその使用権の販売対価を、それを購入した第3者であるユーザに課金する(S1101)。次に、システムは、その音響モデルにリンクされた履歴データ147Dに基づき、その音響モデル120Dがオリジナルの音響モデルか否か判断する(S1102)。
【0077】
音響モデル120Dがオリジナルの音響モデルであると判断された場合(S1102の「Yes」)、販売対価からシステムの利用料等を控除することで原作成者の対価を算出して、原作成者への支払いを実行する(S1103)。一方、音響モデル120Dがオリジナルの音響モデルではないと判断された場合(S1102の「No」)、システムの利用料等を控除後の対価を、その音響モデルにリンクされた変化度145Dに基づいて分割することで、原作成者の対価と、音響モデル120Dの作成者の対価とを算出し、原作成者と作成者への対価の支払いを実行する(S1104)。
【0078】
以上のように、本実施形態に係る音響モデル訓練システム10Dによると、第1及び第2実施形態と同様の効果に加え、再訓練された音響モデル120Dに係る販売対価を、再訓練を行った作成者の貢献度に応じて、原作成者と作成者とで合理的に分配できる。
【0079】
[6.第6実施形態]
図12を用いて、第2実施形態の変形例としての、第6実施形態に係る音響モデル訓練システム10Eについて説明する。音響モデル訓練システム10E構成に関するブロック図は第1実施形態と同じなので、説明を省略する。以下の説明において、第1又は第2実施形態と同じ点は説明を省略し、主に第1及び第2実施形態と相違する点を説明する。以下の説明において、第1実施形態と同様の構成は、図1図4に示された符号の後にアルファベット“E”を付して説明する。
【0080】
[6-1.訓練済み音響モデルに係る対価の分配方法]
図12を用いて、第6実施形態に係る訓練済み音響モデル120Eの再訓練方法を説明する。図12は、図11と同様、再訓練された音響モデル120E、又はその使用権の対価を、原作成者と作成者とで分配する方法を示すフローチャートである。第6実施形態で再訓練済みの音響モデル120Eにリンクされる付加情報には、図8に示される、第2及び第5実施形態における変化度145Aの代わりに、取り分148Eが含まれる。取り分148Eは、その音響モデル120Eのルーツであるオリジナルの音響モデルの原作成者が設定した、前記対価の内の自分の取り分の割合を示すデータである。取り分148Eは、例えば、原作成者の取り分を固定額で示すデータ、又は、販売対価に対する原作成者の取り分の割合を示すデータでもよい。取り分148Eは、ベースモデルから再訓練で確立された音響モデルへと自動で引き継がれ、再訓練を行う作成者は変更できない。未訓練の初期モデルには、取り分148Eがリンクされていない、又は、無効な取り分148Eがリンクされていてもよい。さらに、ある作成者が再訓練済みの音響モデル120Eに、その音響モデル120Eをさらに再訓練した音響モデルに係る販売対価における、その作成者の取り分148E’を、その作成者がリンクしてもよい。
【0081】
まず、システムは、販売した音響モデル120E、又はその使用権の販売対価を、それを購入した第3者であるユーザに課金する(S1201)。次に、システムは、履歴データ147E及び取り分148Eに基づき、その音響モデル120Eについて、その作成者とは別の原作成者の取り分が生じるか否か判断する(S1202)。その音響モデル120Eの作成者が原作成者であれば、その取り分は生じない。
【0082】
原作成者の取り分が生じない場合(S1202の「No」)、販売対価からシステムの利用料等を控除することで、原作成者である作成者の対価を算出して、原作成者への支払いを実行する(S1203)。一方、原作成者の取り分が生じる場合(S1202の「Yes」)、販売対価とその音響モデル120Eにリンクされた取り分148Eに基づいて、原作成者の対価を決定し、システムの利用料等を控除後の対価から原作成者の対価を減算することで、音響モデル120Eの作成者の対価を算出して、原作成者と作成者への対価の支払いを実行する(S1204)。
【0083】
上記のように、取り分情報125Eが音響モデル120Eにリンクされている場合、再訓練の実行前に、当該再訓練を行うユーザに対して取り分情報125Eを開示してもよい。
【0084】
以上のように、本実施形態に係る音響モデル訓練システム10Eによると、第1及び第2実施形態と同様の効果に加え、訓練済み音響モデル120Eに係る販売対価を、音響モデル120Eの原作成者の設定した取り分148Eに基づいて、原作成者と作成者とに分配できる。
【0085】
[7.第7実施形態]
第2実施形態の変形例である第7実施形態に係る音響モデル訓練システム10Fについて説明する。音響モデル訓練システム10Fの構成に関するブロック図は第1実施形態と同じなので、説明を省略する。以下の説明において、第1又は第2実施形態と同じ点の説明を省略し、主に第1及び第2実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成は、図1図4に示された符号の後にアルファベット“F”を付して説明する。
【0086】
[7-1.訓練済み音響モデルの再訓練方法]
図4を用いて、第8実施形態に係る訓練済み音響モデル120Gの再訓練方法について説明する。第7実施形態では、ユーザに対して訓練対象の候補として提供される複数の音響モデル120Fに、普遍的な音響モデル120F(普遍モデル120Fと呼ぶ)が含まれる。訓練済みの音響モデル120Fにリンクされる付加情報には、図8に示される、第2実施形態における変化度145Aの代わりに、その音響モデル120Fが生成する音響特徴量の音色種別を示す識別子が含まれる。さらに、当該識別子は、その音響モデル120Fが普遍モデルか否かを特定する。普遍モデルは、初期モデルの代わりとして使えるよう、1つの音色種別の音波形を用いた訓練用に用意された音響モデルであって、その音色種別の典型的な音色を有する複数の音信号の音響特徴量を用いて訓練された音響モデルである。複数の音色種別に対応する複数の普遍モデル120Fが用意される。作成者は、訓練に用いる音波形を選択し(S403)、ベースモデルとして普遍モデルを指定して訓練ジョブの実行を指示することにより(S404)、選択された音波形を用いて普遍モデルの再訓練が行われ(S413)、再訓練されたオリジナルの音響モデル120Fが確立される(S414)。つまり、この場合の作成者は、確立されたオリジナルの音響モデル120Fの原作成者として、その音響モデルに第1付加情報と第2付加情報とをリンクする。
【0087】
識別子が示す音色種別は、例えば楽器音の場合はピアノ、低音弦楽器、高音金管楽器、ベースギター、クラリネットなどであり、歌唱音の場合はアルト歌手、ソプラノ歌手、男性演歌歌手、女性ロック歌手などである。
【0088】
それぞれの音色種別について、再訓練する音響モデル120Fを選択する作成者に対して、その選択肢として、普遍的な音響モデル120Fが提供される。識別子は、例えば、音響モデル120Fの音色種別が低音弦楽器の場合は「LowSt」であり、さらにそれが普遍モデルである場合は、普遍モデルを示す「U」が付加された「LowSt_U」である。また、識別子は、音響モデル120Fの音色種別がアルト歌手である場合は「Alt」であり、さらに普遍モデルである場合は「Alt_U」である。なお、初期モデルの識別子は音色なしを示す「void」である。識別子は、音色種別を示す第1識別子と、普遍モデル(又は初期モデル)か否かを示す第2識別子で構成されてもよい。訓練する音響モデルの指定時(S404)に、システムは、識別子(第2識別子)に基づき、候補となる各音響モデル120Fが普遍モデルであるか否かを、作成者に通知する。その通知により、作成者は、初期モデル、何れかの普遍モデル、又は、何れかの普遍モデルでない音響モデルを選択的に指定できる。作成者が、初期モデル又は普遍モデルを選択すれば、その作成者は、原作成者としてオリジナルの音響モデル120Fを確立できる。なお、具体的な音響モデル120Fの再訓練方法は第1、第2実施形態と同様である。
【0089】
以上のように、本実施形態に係る音響モデル訓練システム10Fによると、第1及び第2実施形態と同様の効果に加え、ユーザは、選択した音信号に適した普遍モデルを選択することで、初期モデルを訓練するより効率的に、原作成者としてオリジナルの音響モデル120Fを確立できる。
【0090】
なお、本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0091】
10:音響モデル訓練システム、 100:サーバ、 101:制御部、 102:RAM、 103:ROM、 104:表示部、 105:通信インタフェース、 110:ストレージ、 111:音声合成プログラム、 112:訓練ジョブ、 113:楽譜データ、 114:音波形、 120:音響モデル、 123:楽譜特徴量、 124:音響特徴量、 125E:取り分情報、 129:音響特徴量、 141:付加情報、 142:許可フラグ、 142A:第2付加情報、 143:手順データ、 144A:第1特徴、 145A:変化度、 146A:第1付加情報、 147A:履歴データ、 130:合成音波形、 200、300:通信端末、 400:ネットワーク
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12