(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024054058
(43)【公開日】2024-04-16
(54)【発明の名称】音波形の特性分布に係る表示方法
(51)【国際特許分類】
G10L 25/48 20130101AFI20240409BHJP
G10L 13/00 20060101ALI20240409BHJP
G10L 13/033 20130101ALI20240409BHJP
G10L 25/51 20130101ALI20240409BHJP
G10H 1/00 20060101ALI20240409BHJP
G10L 13/06 20130101ALI20240409BHJP
【FI】
G10L25/48 100
G10L13/00 100Y
G10L13/033 102B
G10L25/51
G10H1/00 102Z
G10L13/06 230Z
【審査請求】未請求
【請求項の数】22
【出願形態】OL
(21)【出願番号】P 2023043561
(22)【出願日】2023-03-17
(31)【優先権主張番号】63/412,887
(32)【優先日】2022-10-04
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】000004075
【氏名又は名称】ヤマハ株式会社
(74)【代理人】
【識別番号】110000408
【氏名又は名称】弁理士法人高橋・林アンドパートナーズ
(72)【発明者】
【氏名】大道 竜之介
(72)【発明者】
【氏名】才野 慶二郎
(72)【発明者】
【氏名】西村 方成
【テーマコード(参考)】
5D478
【Fターム(参考)】
5D478EB00
(57)【要約】
【課題】音響モデルの訓練に用いる音波形を特定しやすくすること。
【解決手段】音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法は、音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、前記特性の分布に関連する情報を表示する。前記特性の分布は、前記使用された複数の音波形を分析して得られる特性の分布であってもよい。
【選択図】
図5
【特許請求の範囲】
【請求項1】
音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法であって、
音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、
前記特性の分布に関連する情報を表示する表示方法。
【請求項2】
前記特性の分布は、前記使用された複数の音波形を分析して得られる特性の分布である、請求項1に記載の表示方法。
【請求項3】
前記特性の分布に関連する情報は、前記音響モデルに不足する訓練を示す、請求項1に記載の表示方法。
【請求項4】
前記特性の分布に関連する情報は、前記音響モデルが前記訓練で獲得した能力を示す、請求項1に記載の表示方法。
【請求項5】
前記取得では、前記音響モデルの訓練に先立って、その訓練に使用する予定の音波形を含む、その訓練で確立されると期待される音響モデルの訓練で使用された音波形の前記特性の分布を取得し、
前記表示では、前記期待される音響モデルの訓練に使用された複数の音波形の前記取得された特性の分布に関連する情報を表示する、請求項1に記載の表示方法。
【請求項6】
前記訓練は追加訓練であって、
前記特性の分布は、前記追加訓練前の音響モデルの訓練に使用された複数の音波形と前記追加訓練に使用される音波形とを分析して得られる特性の分布である、請求項5に記載の表示方法。
【請求項7】
前記追加訓練前の音響モデルは、ユーザによって複数の訓練済み音響モデルの中から選択された音響モデルである、請求項6に記載の表示方法。
【請求項8】
前記複数の音波形の特性は、音高、強度、音韻、音長、スタイルのうち一以上を含む、請求項1に記載の表示方法。
【請求項9】
前記表示では、前記特性の分布を示すグラフが表示される、請求項1又は請求項8に記載の表示方法。
【請求項10】
前記複数の特性は、第1特性及び第2特性を含み、
前記表示では、前記第1特性及び前記第2特性の2次元分布を示すグラフが表示される、請求項1に記載の表示方法。
【請求項11】
前記特性の分布を前記取得することは、
前記複数の音波形を分析して、前記特性として第1特性及び第2特性を取得し、
前記表示では、前記第1特性が所定範囲内のときの前記第2特性の分布を表示する、請求項1に記載の表示方法。
【請求項12】
前記表示では、
前記取得された前記特性の分布において、前記分布が閾値より小さくなる、前記特性に関する音波形の不足範囲を検出し、
前記不足範囲を表示する、請求項1に記載の表示方法。
【請求項13】
前記表示は、前記検出された範囲の上限と下限との少なくとも一方の特性値を表示する、請求項12に記載の表示方法。
【請求項14】
前記表示は、複数の楽曲のうちの、前記検出された範囲の特性値の音符を含む楽曲を選択的に表示する、請求項12に記載の表示方法。
【請求項15】
前記表示は、複数の楽曲のうちの、前記検出された範囲の特性値の音符を含む複数の候補曲を検出し、
ユーザに対して、検出された候補曲を提示する、請求項12に記載の表示方法。
【請求項16】
前記音響モデルは、第1楽曲の前記音波形の少なくとも一部の楽譜特徴量と、前記音波形の第1音響特徴量を含む訓練データを用いて訓練されることで、第2楽曲の楽譜特徴量に応じて第2音響特徴量を生成する能力を習得したモデルであり、
前記取得は、前記音響モデルの訓練に用いた前記音波形の履歴を示す履歴データを取得し、前記履歴データに基づいて、前記音響モデルの訓練に用いた前記音波形の特性分布に関する情報を取得し、
前記表示は、前記取得した音波形の特性分布に関する情報を表示する、請求項1に記載の表示方法。
【請求項17】
前記表示は、前記取得した音波形の特性分布に基づき、前記第2楽曲の楽譜の特徴量に対する前記音響モデルの得意度を表示する、請求項16に記載の表示方法。
【請求項18】
前記表示は、前記第2楽曲の楽譜と前記取得した音波形の特性分布とに基づき、前記音響モデルの、前記第2楽曲に対する得意度を評価し、前記評価された得意度を表示する、請求項16に記載の表示方法。
【請求項19】
前記表示は、
前記第2楽曲の各区間の楽譜と前記取得した音波形の特性分布とに基づいて、その区間の第2楽曲に対する前記音響モデルの得意度を評価し、
前記評価された得意度を、区間毎に表示する、請求項16に記載の表示方法。
【請求項20】
前記表示は、
複数の第2楽曲の複数の楽譜と前記取得した音波形の特性分布とに基づき、前記音響モデルの、複数の第2楽曲の各々に対する得意度を評価し、
前記評価された得意度に基づき、前記複数の楽曲のうちの少なくとも一の楽曲を推薦表示する、請求項16に記載の表示方法。
【請求項21】
前記取得は、複数の音響モデルの各々について、その音響モデルの履歴データに基づいて、その音響モデルの訓練に用いた音信号の特性分布を取得し、
前記表示は、前記第2楽曲の楽譜と前記取得された複数の音響モデルの複数の特性分布とに基づいて、前記第2楽曲に適合する一以上の音響モデルを推薦表示する、請求項16に記載の表示方法。
【請求項22】
第2楽曲の楽譜の一部を順次受け取り、前記音響モデルを用いて前記受け取った楽譜の一部の特徴量をリアルタイム処理して、前記受け取った楽譜の一部に対応する、前記第2音響特徴量の一部をリアルタイム生成する生成方法の実行中に、
前記表示は、
前記受け取った楽譜の一部と前記取得した音信号の特性分布とに基づき、前記受け取った楽譜の一部に対する前記音響モデルの得意度をリアルタイム評価し、
前記評価された得意度をリアルタイム表示する、請求項16に記載の表示方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明の一実施形態は、音波形の特性分布に係る表示方法に関する。
【背景技術】
【0002】
特定の歌手の声音及び特定の楽器の演奏音を合成する音声合成(Sound Synthesis)技術が知られている。特に、機械学習を利用した音声合成技術(例えば、特許文献1、2)では、ユーザによって入力された楽譜データ及び音響データに基づいて当該特定の音声及び演奏音で自然な発音の合成音声を出力するために、十分に訓練された音響モデルが要求される。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2020-076843号公報
【特許文献2】国際公開第2022/080395号
【発明の概要】
【発明が解決しようとする課題】
【0004】
十分に訓練された音響モデルを得るためには、現在の音響モデルにおいて不足した音域を正確に把握し、当該音域を補うために適した訓練用の音波形を選定する必要がある。しかし、上記のように音響モデルにおいて不足した音域を正確に把握することは非常に困難であり、訓練に用いる音波形を効率よく正確に特定することは難しかった。
【0005】
本発明の一実施形態の目的の一つは、音響モデルの訓練に用いる音波形を特定しやすくすることである。
【課題を解決するための手段】
【0006】
本発明の一実施形態による、音響特徴量を生成するよう、複数の音波形を用いて訓練されることで確立される音響モデルに関連する情報を表示する方法は、音波形が有する複数の特性のうちいずれかの特性であって、前記音響モデルの訓練に使用された複数の音波形の前記特性の分布を取得し、前記特性の分布に関連する情報を表示する。
【発明の効果】
【0007】
本発明の一実施形態によれば、音響モデルの訓練に用いる音波形を特定しやすくすることができる。
【図面の簡単な説明】
【0008】
【
図1】音響モデルの訓練システムの全体構成図である。
【
図4】音響モデルの訓練方法を例示するシーケンス図である。
【
図5】音響モデルの訓練処理及び音波形の特性分布の表示処理を例示するフローチャートである。
【
図7】音波形の特性分布の表示方法を例示するフローチャートの変形例である。
【
図8】音響モデルの訓練処理を例示するフローチャートである。
【
図10】ユーザに対して推薦する楽曲の特性分布の一例である。
【
図11】楽曲の選択・編集・再生処理を例示するフローチャートである。
【
図15】楽曲再生処理を例示するフローチャートである。
【発明を実施するための形態】
【0009】
以下、本発明の一実施形態における音波形の特性分布に係る表示方法について、図面を参照しながら詳細に説明する。以下に示す実施形態は本発明を実施する形態の一例であって、本発明はこれらの実施形態に限定して解釈されない。本実施形態で参照する図面において、同一部分又は同様の機能を有する部分には同一の符号又は類似の符号(数字の後にA、B等を付しただけの符号)が付されており、それらの繰り返しの説明は省略される場合がある。
【0010】
以下の実施形態において、「楽譜データ」は、音符の音高及び強度に関する情報、音符における音韻に関する情報、音符の発音期間に関する情報、及び演奏記号に関する情報を含むデータである。例えば、楽譜データは、楽曲の楽譜及び歌詞の少なくとも一方を示すデータである。楽譜データは、当該楽曲を構成する音符の時系列を示すデータであってもよく、当該楽曲を構成する言語の時系列を示すデータであってもよい。
【0011】
「音波形」は、音声の波形データであり、その音声を発する音源は、音源IDで特定される。例えば、音波形は、歌唱の波形データ及び楽器音の波形データの少なくとも一方である。例えば、音波形は、マイク等の入力装置を介して取り込まれた歌手の歌声及び楽器の演奏音の波形データを含む。音源IDは、その歌手の歌唱の音色、又はその楽器の演奏音の音色を特定する。音波形のうち、音響モデルを用いて合成音波形を生成するために入力される音波形を「合成用音波形」といい、音響モデルを訓練するために用いられる音波形を「訓練用音波形」という。合成用音波形と訓練用音波形とを区別する必要がない場合、これらを併せて、単に「音波形」という。
【0012】
「音響モデル」は、楽譜データの楽譜特徴量の入力と、音波形の音響特徴量の入力とを有する。音響モデルとして、例えば、国際公開第2022/080395号に記載された、楽譜エンコーダ、音響エンコーダ、切換部、及び音響デコーダを有する音響モデルを用いる。この音響モデルは、入力された楽譜データの楽譜特徴量又は音波形の音響特徴量と音源IDとを処理することで、その音源IDが示す音色を有する、目的とする音波形の音響特徴量を生成する機能を有し、新たな合成音波形を生成するための音声合成プログラムによって使用される音声合成モデルである。音声合成プログラムは、ある楽曲の楽譜データから生成した楽譜特徴量と音源IDとを音響モデルに供給することで、その音源IDが示す音色で、かつその楽曲の音響特徴量を得て、その音響特徴量を音波形に変換する。或いは、音声合成プログラムは、ある楽曲の音波形から生成した音響特徴量と音源IDとを音響モデルに供給することで、その音源IDが示す音色で、かつその楽曲の新たな音響特徴量を得て、その新たな音響特徴量を音波形に変換する。音響モデル毎に、所定数の音源IDが用意される。つまり、各音響モデルは、所定数の音色のうちの、音源IDが示す音色の音響特徴量を選択的に生成する。
【0013】
音響モデルは、機械学習を利用した、例えば、畳み込みニューラルネットワーク(CNN)又はリカレントニューラルネットワーク(RNN)などを利用した所定のアーキテクチャの生成モデルである。音響特徴量は、自然音や合成音の波形の周波数スペクトルにおける発音の特徴を表すものであり、音響特徴量が近いことは歌声又は演奏音の音色やその時間変化が似ていることを意味する。
【0014】
音響モデルの訓練においては、音響モデルによって、参照した音波形の音響特徴量と類似する音響特徴量が生成されるように、音響モデルの変数が変更される。訓練には、例えば、国際公開第2022/080395号に記載された訓練プログラムP2、楽譜データD1(訓練用楽譜データ)、及び学習用音響データD2(訓練用音波形)を用いる。複数の音源IDに対応する複数の音声の波形を用いた基本訓練によって、複数の音源IDに対応する複数の音色の合成音の音響特徴量を生成できるように、音響モデル(楽譜エンコーダ、音響エンコーダ、及び音響デコーダ)の変数が変更される。さらに、その訓練済の音響モデルを、(未使用の)新たな音源IDに対応する別の音色の音波形を用いて補助訓練することで、その音響モデルは、新たな音源IDの示す音色の音響特徴量を生成できるようになる。具体的には、XXXさん(複数人)の声の音波形で訓練済の音響モデルに対して、さらに、新たな音源IDを用いて、YYYさん(一人)の声音の音波形で補助訓練を行うことにより、YYYさんの声音の音響特徴量を生成できる音響モデルになるように、音響モデル(少なくとも、音響デコーダ)の変数が変更される。音響モデルに対する、上記のような、新たな音源IDに対応する訓練の単位を「訓練ジョブ」という。つまり、訓練ジョブとは、訓練のプログラムによって実行される一連の訓練プロセスを意味する。
【0015】
「プログラム」とは、プロセッサ及びメモリを備えたコンピュータにおいてプロセッサより実行される命令又は命令群を指す。「コンピュータ」は、プログラムの実行主体を指す総称である。例えば、サーバ(又はクライアント)によりプログラムが実行される場合、「コンピュータ」は、サーバ(又はクライアント)を指す。また、サーバとクライアントとの間の分散処理により「プログラム」が実行される場合、「コンピュータ」は、サーバ及びクライアントの両方を含む。この場合、「プログラム」は、「サーバで実行されるプログラム」及び「クライアントで実行されるプログラム」を含む。「プログラム」が、ネットワークに接続された複数のコンピュータで分散処理される場合、「コンピュータ」は、複数のコンピュータであり、「プログラム」は、複数のコンピュータで実行される複数のプログラムを含む。
【0016】
[1.第1実施形態]
[1-1.システムの全体構成]
図1は、音響モデル訓練システムの全体構成図である。
図1に示すように、音響モデル訓練システム10は、クラウドのサーバ100(Server)、通信端末200(TM1)、及び通信端末300(TM2)を含む。サーバ100及び通信端末200、300は、それぞれネットワーク400に接続されている。通信端末200及び通信端末300は、それぞれネットワーク400を介してサーバ100と通信できる。
【0017】
本実施形態において、サーバ100は、音声合成器として機能し、音響モデルの訓練を実施するコンピュータである。サーバ100は、ストレージ110を備えている。
図1では、ストレージ110がサーバ100に直接接続された構成が例示されているが、この構成に限定されない。例えば、ストレージ110が直接又は他のコンピュータを介してネットワーク400に接続され、サーバ100とストレージ110との間のデータの送受信がネットワーク400を介して行われていてもよい。
【0018】
通信端末200は、音響モデルを訓練するための訓練用音波形を選択し、サーバ100に訓練を実行する指示を送信するユーザ(後述する作成者)の端末である。例えば、通信端末300は、楽譜データを提供してサーバ100に対して合成音波形の生成を要求するユーザの端末である。通信端末200、300は、例えばスマートフォンなどのモバイル用の通信端末、又は、デスクトップ型パソコンなどの据え置き用の通信端末を含む。なお、本発明の訓練方法は、本実施形態で説明するクライアントサーバの構成でなくても実施できる。例えば、通信端末とサーバを含むシステムの代わりに、プログラムを実行できるプロセッサを搭載した、スマートフォン、パソコン、電子楽器、音響機器などの1台の電子機器で実施してもよい。或いは、ネットワークで接続された複数台の電子機器で、分散処理として実施してもよい。
【0019】
ネットワーク400は一般的なインターネット、WAN(Wide Area Network)、又は社内LANなどのLAN(Local Area Network)である。
【0020】
[1-2.音声合成に用いられるサーバの構成]
図2は、クラウドのサーバの構成を示すブロック図である。
図2に示すように、サーバ100は、制御部101、RAM(Random Access Memory)102、ROM(Read Only Memory)103、ユーザインタフェース(UI)104、通信インターフェース105、及びストレージ110を備える。サーバ100の各機能部が協働することによって、本実施形態の音声合成技術が実現される。
【0021】
制御部101は、中央処理装置(CPU:Central Processing Unit)、画像処理装置(GPU:Graphics Processing Unit)などのプロセッサ、当該CPU及びGPUに接続されたレジスタやメモリなどの記憶装置などを含む。制御部101は、メモリに一時的に記憶されたプログラムをCPU及びGPUによって実行し、サーバ100に備えられた各機能を実現させる。具体的には、制御部101は、通信端末200からの各種要求信号に応じて演算処理を行い、通信端末200、300にその処理結果を提供する。
【0022】
RAM102は、演算処理に必要な制御プログラム、音響モデル(アーキテクチャと変数で構成される)及びコンテンツデータなどを一時的に記憶する。また、RAM102は、例えばデータバッファとして使用され、通信端末200など、外部機器から受信した各種データを、ストレージ110に記憶させるまでの間、一時的に保持する。RAM102として、例えば、SRAM(Static Random Access Memory)又はDRAM(Dynamic Random Access Memory)などの汎用メモリを用いてもよい。
【0023】
ROM103は、サーバ100の機能を実現させるための各種プログラム、各種音響モデル、及びパラメータ等を記憶する。ROM103に記憶されているプログラム、音響モデル、及びパラメータ等は、必要に応じて制御部101によって読み出され、実行ないし利用される。
【0024】
ユーザインタフェース104は、グラフィカルな表示を行う表示器、ユーザ操作を受け付ける操作子やセンサ、サウンドを入出力するサウンドデバイスなどを備えており、制御部101の制御によって、その表示器に各種の表示画像を表示し、ユーザからの入力を受け付ける。
【0025】
通信インターフェース105は、制御部101の制御によって、ネットワーク400に接続して、ネットワーク400に接続された通信端末200、300などの他の通信装置との間で、情報の送信及び受信を行うインターフェースである。
【0026】
ストレージ110は、不揮発性メモリ、ハードディスクドライブなどの恒久的な情報の保持及び書き換えが可能な記録装置(記録媒体)である。ストレージ110は、プログラム、音響モデル、及び当該プログラムの実行に必要となるパラメータ等の情報を記憶する。
図2に示すように、ストレージ110には、例えば音声合成プログラム111、訓練ジョブ112、楽譜データ113、及び音波形114が記憶されている。これらのプログラム及びデータとして、例えば、国際公開第2022/080395号に記載された音声合成プログラムP1、訓練プログラムP2、楽譜データD1、及び音響データD2をそれぞれ用いてもよい。ストレージ110に記憶される音波形114は、過去に音響モデル120の訓練に使用された訓練用音波形を含む。このように、過去に訓練に使用された訓練用音波形に係るデータを「履歴データ」という場合がある。
【0027】
上記のように、音声合成プログラム111は、楽譜データや音波形から合成音波形を生成するためのプログラムである。制御部101が音声合成プログラム111を実行するとき、制御部101は音響モデル120を使用して合成音波形を生成する。なお、当該合成音波形は、国際公開第2022/080395号に記載された音響データD3に対応する。訓練ジョブ112で制御部101により実行される音響モデル120の訓練プログラムによって実行される訓練プロセスであり、例えば国際公開第2022/080395号に記載されたエンコーダ及び音響デコーダを訓練するプログラムである。楽譜データは、楽曲を規定するデータである。音波形は、歌手の歌声又は楽器の演奏音を示す波形データである。通信端末200、300の構成は、規模などに多少の差はあるが、基本的にはサーバ100と同じである。
【0028】
[1-3.音声合成に用いられる音響モデル]
図3は、音響モデルの説明図である。上記のように、音響モデル120は、
図2の制御部101が音声合成プログラム111を読み出して実行するとき、その制御部101が実行する音声合成処理において使用される機械学習モデルである。音響モデル120は、音響特徴量を生成するよう訓練されている。音響モデル120には、制御部101により、入力信号として所望の楽曲の楽譜データ113の楽譜特徴量123又は音波形114の音響特徴量124が入力される。制御部101が、音響モデル120を用いて、音源IDと当該楽譜特徴量123とを処理することにより、当該楽曲の合成音の音響特徴量129が生成される。制御部101は、その音響特徴量129に基づいて、当該楽曲を音源IDで特定される歌手が歌唱した又は楽器で演奏した合成音波形130を合成して出力する。又は、制御部101が、音響モデル120を用いて、音源IDと当該音響特徴量124とを処理することにより、当該楽曲の合成音の音響特徴量129を生成する。制御部101は、その音響特徴量129に基づいて、当該楽曲の音波形を音源IDで特定される歌手の歌声又は楽器の演奏音の音色に変換した合成音波形130を合成して出力する。
【0029】
音響モデル120は、機械学習により確立された生成モデルであり、訓練プログラムを実行している(つまり、訓練ジョブ112を実行中の)制御部101によって訓練される。制御部101は、(未使用の)新たな音源IDと訓練用音波形を用いて音響モデル120を訓練し、音響モデル120(少なくとも音響デコーダ)の変数を決定する。具体的には、制御部101は、訓練用音波形から訓練用の音響特徴量を生成し、音響モデル120に新たな音源IDと訓練用の音響特徴量が入力された場合に、合成音波形130を生成する音響特徴量が訓練用の音響特徴量に近づくように、その変数を徐々に繰り返し変更する。訓練用音波形は、例えば、通信端末200又は通信端末300から、クラウドのサーバ100にアップロード(送信)され、ストレージ110にユーザデータとして保存されてもよく、参考データとしてサーバ100の管理者が予めストレージ110に保存したものでもよい。以下の説明において、ストレージ110に保存することをサーバ100に保存する、という場合がある。
【0030】
[1-4.音声合成方法]
図4は、音響モデルの訓練方法を示すシーケンス図である。
図4に示す音響モデルの訓練方法では、例えば、通信端末200がサーバ100に訓練用音波形をアップロードする。ただし、上記のように、訓練用音波形はその他の方法でサーバ100に予め保存されていてもよい。実際には、通信端末200側の処理TM1の各ステップは通信端末の制御部が実行し、サーバ100側の処理Serverの各ステップはサーバ100の制御部101が実行するが、ここでは説明を単純にするため、通信端末200およびサーバ100を各ステップの実行主体として表現する。また、以降のフローチャートの説明も同様であるが、実行主体が通信端末かサーバかの区別は本発明にとって全く重要ではないので、フローチャートに関しては、基本的には、通信端末200、300とサーバ100を含むシステムを実行主体として説明する。
【0031】
図4に示すように、まず、通信端末200は、サーバ100のユーザのアカウントにログインした作成者の指示に基づいて、サーバ100に、1又は複数の訓練用音波形をアップロード(送信)する(S401)。サーバ100は、S401で送信された訓練用音波形を、ユーザの記憶領域に記憶する(S411)。サーバ100にアップロードされる音波形は1つでも、複数でもよく、複数の音波形はユーザの記憶領域の複数のフォルダに分けて記憶されてもよい。上記のS401、411は、以下の訓練ジョブを実行するための準備に係るステップである。S411で記憶された音波形を、「音響モデルの訓練に関連する音波形」又は「訓練に使用される音波形」という場合がある。これらの音波形に関するデータを「入力音波形に関する履歴データ」という場合がある。上記の音波形のうち、訓練ジョブに使用された音波形を「訓練に使用された音波形」という場合がある。
【0032】
続いて、以下に訓練ジョブを実行するためのステップを説明する。通信端末200は、サーバ100に訓練ジョブの実行を要求する(S402)。S402の要求に対して、サーバ100は、通信端末200に対して、予め保存された音波形又は保存される予定の音波形のうち訓練ジョブに使用する音波形を選択するためのグラフィカルユーザインターフェース(GUI)を提供する(S412)。
【0033】
S412で提供されたGUIに対する作成者(ユーザ)の入力によって、通信端末200は、そのUIの表示器にS412で提供されたGUIを表示し、作成者は、そのGUIを用いて、記憶領域(又は所望のフォルダ)にアップロードされた複数の音波形から一以上の音波形を訓練用の波形セットとして選択する(S403)。
【0034】
S403で波形セット(訓練用音波形)が選択された後に、作成者からの指示に応じて、通信端末200は、訓練ジョブの実行開始を指示する(S404)。その指示に応じて、サーバ100は、選択された波形セットを用いて訓練ジョブの実行を開始する(S413)。
【0035】
訓練には、選択された波形セット中の各波形が全部使用されるのではなく、無音区間やノイズ区間などを除いた有用区間のみを含む前処理済み波形セットが使用される。また、訓練される音響モデル120(ベースとして指定されたモデル)として、音響デコーダが未訓練の音響モデルを用いてもよいが、複数の基本訓練済みの音響モデル120のうち、波形セットの波形の音響特徴量に近い音響特徴量の生成を学習した音響デコーダを含む音響モデルを選択して用いれば、訓練ジョブにかかる時間やコストを低減できる。何れの音響モデル120を選ぶとしても、楽譜エンコーダと音響エンコーダは、基本訓練済みのものを用いる。
【0036】
ベースモデルは、作成者が選択した波形セットに基づいて、複数の訓練済み音響モデル乃至初期モデルから、サーバ100が自動的に、或いは、ユーザからの指示に基づいて決定してもよい。例えば、通信端末200は、訓練ジョブの実行開始をサーバ100に対して指示する際に、複数の訓練済み音響モデル120乃至初期モデルのうち作成者(ユーザ)が選択したいずれかをベースモデルとし、その選択されたベースモデルを示す指定データをサーバ100に送信してもよい。サーバ100は、当該指定データに基づいて、訓練される音響モデル120を指定する。音響デコーダに供給する音源ID(例えば、歌手ID、楽器IDなど)としては、未使用の新たな音源IDを用いる。ここで、新たな音源IDとしてどの音源IDを使用されたかを、作成者を含むユーザは必ずしも知らなくてよい。ただし、訓練済みモデルを使用して音声合成する際には、自動的に、その新たな音源IDが用いられる。新たな音源IDは、ユーザが訓練した音響モデルに、その訓練で学習した音色の音響特徴量を合成させるためのキーデータである。
【0037】
訓練ジョブでは、前処理済み波形セットから一部の短波形を少しずつ取り出し、取り出した短波形を用いて音響モデル(少なくとも音響デコーダ)を訓練する、という単位訓練を繰り返す。単位訓練では、前記新たな音源IDと短波形の音響特徴量とを音響モデル120に入力し、それに応じて音響モデル120が出力する音響特徴量と入力した音響特徴量の間の差分が小さくなるよう、音響モデルの変数を調整する。変数の調整には、例えば、誤差逆伝搬法を用いる。単位訓練を繰り返すことで、前処理済み波形セットによる訓練が一通り終わったら、音響モデル120が生成する音響特徴量の品質を評価して、当該品質が所定の基準に達していなければ、その前処理済み波形セットを用いて、再び音響モデルの訓練を行う。音響モデル120が生成する音響特徴量の品質が所定の基準に達していれば、訓練ジョブは完了し、その時点の音響モデル120が訓練済み音響モデル120となる。
【0038】
S413で実行された訓練ジョブが完了することで、訓練済み音響モデル120が確立される(S414)。サーバ100は、通信端末200に、訓練済み音響モデル120が確立されたことを通知する(S415)。上記のS403~S415のステップが、音響モデル120の訓練ジョブである。
【0039】
S415の通知の後に、ユーザからの指示に応じて、通信端末200が、所望の楽曲の楽譜データを含む音声合成の指示をサーバ100に送信する(S405)。S405でのユーザは、作成者ではなく、音響モデル120の利用者の位置づけである。それに応じて、サーバ100は、音声合成プログラムを実行して、その楽譜データに基づいて、S414で確立された訓練済み音響モデル120を用いた音声合成を実行する(S416)。S416で生成された合成音波形130を通信端末200に送信する(S417)。この音声合成では、前記新たな音源IDが用いられる。
【0040】
S416及びS417を併せて、訓練ジョブによって訓練された訓練済み音響モデル120(音声合成機能)を、通信端末200(又はユーザ)に提供する、ということができる。S416の音声合成プログラムの実行を、サーバ100の代わりに、通信端末200で行ってもよい。その場合、サーバ100は、当該訓練済み音響モデル120を通信端末200に送信し、通信端末200は、受け取った訓練済み音響モデル120を用いて、前記新たな音源IDで、所望の楽曲の楽譜データに基づく音声合成処理を実行し、合成音波形130を取得する。
【0041】
本実施形態では、S402で訓練ジョブの実行を要求する前に、S401で訓練用音波形をアップロードしたが、この構成に限定されない。例えば、訓練用音波形のアップロードが、S404で訓練ジョブの実行を指示した後に行われてもよい。この場合、S403において、通信端末200に記憶された複数の音波形(未アップロードの音波形を含む)から、波形セットとして一以上の音波形が選択され、訓練ジョブの実行指示に応じて、選択された音波形のうちの未アップロードの音波形が、アップロードされてもよい。
【0042】
[1-5.特性分布の表示方法]
図5は、音響モデル120の訓練処理、及び、音響モデル120の訓練に用いた音波形の特性分布の表示処理を例示するフローチャートである。
図5の処理は、システムによって実行される。本実施形態において、訓練に用いた音波形は公開されていないが、その音波形の特性分布は公開されており、第3者によって閲覧可能である。
【0043】
図5の「訓練処理」では、サーバ100にアップロードされた音波形の中から、ユーザが音波形を選択し、システムは、選択された音波形を用いて訓練ジョブを実行する。システム(サーバ100)は、ユーザの選択操作に応じて、音響モデル120の訓練に用いる複数の音波形を特定する(S501)。システム(サーバ100)は、特定された複数の音波形を用いて、ベースとなる音響モデル120の訓練ジョブを実行することで、訓練済みの音響モデル120を確立する(S502)。そして、システム(サーバ100)は、確立した音響モデル120の訓練に用いられた音波形の識別子を含む履歴データを、当該音響モデル120にリンク(関連付け)する(S503)。ここで、履歴データなどの音響モデルにリンクされた各種データは、クラウドのストレージから、その音響モデルを入手する第3者に対し、その音響モデルに関連して提供される。そのストレージは、サーバ100と一体でもよいし、一体でなくてもよい。第3者は、その履歴データ(識別子)に基づいて、その音響モデルの訓練に用いられた音波形の特性分布などの概要を取得し確認できる。しかし、著作権や個人情報の保護のため、音響モデル120の訓練に用いられた音波形そのものは、その音波形をアップロードした作成者を除くユーザの通信端末300からアクセスできないよう保護される。一方、サーバ100は、下述する音波形の分析のため、その識別子を用いて、訓練済み音響モデル120の訓練に用いられた音波形を、そのユーザがアップロードしたか否かに関係なく、特定し取得できる。
【0044】
システム(サーバ100)は、履歴データに含まれる識別子が示す複数の音波形を分析し、当該音波形が有する複数の特性について、特性分布を取得する。特性分布は、例えば、分布を示す対象の特性値をx軸及びy軸とし、x軸及びy軸における各特性値における音波形のデータ量をz軸としたヒストグラム形式の分布である。
【0045】
図5の「表示処理」では、ユーザによって音響モデル120及び特性種別が選択され、システムは、選択された音響モデル120の履歴データが特定する音波形の特性分布を、ユーザの通信端末200のUIの表示器(システムの表示器とも呼ぶ)に表示する。ユーザによる音響モデルの選択操作に応じて、システムは、複数の音響モデルの中から1つの音響モデル120を選択する(S511)。システムは、ユーザによる特性種別の選択操作に応じて、複数の特性種別の中から、表示する特性種別を選択する(S512)。ここで選択する種別は、1つでも複数でもよい。
【0046】
ここで、特性種別とは、当該音響モデル120の訓練に用いられた音波形が有する複数の特性の種別を意味する。例えば、音波形が有する複数の特性は、音高、強度、音韻、音長、スタイルである。ユーザは、上記選択操作によって、これらの特性から一以上の特性を選択する。
【0047】
上記のスタイルは、歌唱スタイル及び演奏スタイルを含む。歌唱スタイルは歌い方であり、演奏スタイルは演奏の仕方である。具体的には、歌唱スタイルとして、ニュートラル、ビブラート、ハスキー、フライ、及びグロウル等が挙げられる。演奏スタイルとして、擦弦楽器であれば、ニュートラル、ビブラート、ピチカート、スピカート、フラジョレット、及びトレモロ等が挙げられ、撥弦楽器であれば、ニュートラル、ポジション、レガート、スライド、及びスラップ/ミュート等が挙げられる。クラリネットであれば、ニュートラル、スタカート、ビブラート、及びトリル等が挙げられる。なお、例えば、上記のビブラートは、ビブラートを多用する歌唱スタイル又は演奏スタイルを意味する。歌唱又は演奏におけるピッチ、音量、音色、及びこれらの動的挙動は、全体的にスタイルによって変わる。
【0048】
システム(サーバ100)は、履歴データに含まれる識別子が示す複数の音波形の各々を分析して、その波形のS512で選択された種別の特性分布を取得し、それら複数音波形の特性分布を合成して1つの合成された特性分布にする(S513)。例えば、システム(サーバ100)は、履歴データに含まれる識別子が示す音波形A、Bについて、音高に関する特性分布A、Bを取得し、各音高における音波形A、Bのデータ量を合成(積算)する。システムは、選択された種別の、合成された特性分布を表示する(S514)。なお、当該特性分布の表示は、特性分布に関連する情報の1つの表示例である。S512で2以上の種別が選択されたときは、S513で、各音波形の分析により当該2以上の種別の特性分布を取得し、複数の音波形分の特性分布を種別ごとに合成して、S514で、当該2以上の種別の、合成された特性分布を表示する。
【0049】
上記のように、サーバ100は、ユーザによって選択された音響モデル120の訓練に用いた全音波形の特性分布に関連する情報を表示する。上記合成された特性分布は、音響モデル120がその訓練で獲得した能力に相当する。
【0050】
本実施形態では、表示される特性分布に対応する特性種別は、S512でユーザによって選択される構成を例示したが、当該特性種別が固定されており、ユーザによって選択できなくてもよい。
【0051】
なお、S502の訓練が、未訓練の初期モデルをベースとして行われた場合、S503の履歴データには、その訓練で用いた全ての音波形の識別子が含まれる。一方、S502の訓練が、既存の訓練済みの音響モデル120をベースとして行われた場合、S503の履歴データには、その訓練で用いた全ての音波形の識別子と、ベースとなった音響モデル120の訓練に用いた全ての音波形の識別子とが含まれる。ベースが初期モデルか否かに関わらず、訓練済みの音響モデル120にリンクされた属性データには、初期モデルからその音響モデル120が確立されるまでの全訓練に用いた全ての音波形(音響モデルの訓練に用いた全音波形)の識別子が含まれる。
【0052】
図5のS514において表示される特性分布の一例を
図6に示す。この実施形態では、S512で特性種別として「音高」と「強度」の2つが選択されており、
図6の画面140には、履歴データに含まれる複数の音波形について合成された、「音高」と「強度」の特性分布を示すグラフが表示される。
【0053】
図6に示す画面140は、システム(サーバ100)によって提供され、システム(通信端末200)の表示器に表示される。画面140には、2次元表示部141、第1軸表示部142、第2軸表示部143、及びデータ量バー144が含まれる。
【0054】
第1軸表示部142は、第1軸における第1特性の各値に対する音波形のデータ量を示すカーブを表示する。本実施形態の第1特性は音高なので、第1軸の単位は[Hz]である。第2軸表示部143は、第2軸における第2特性の各値に対する音波形のデータ量を示すカーブを表示する。本実施形態の第2特性は強度(音量)なので、第2軸の単位は[Dyn.]である。
【0055】
2次元表示部141は、第1軸及び第2軸を用いた直交座標におけるデータ量の2次元分布である。2次元表示部141では、第1軸及び第2軸の各々の値における音波形のデータ量が、当該データ量の区分に応じた態様で表示されている。データ量バー144は、当該データ量の区分に応じた態様のスケールを示す。
【0056】
図6に示す例では、音波形のデータ量が、0[sec]である第1区分、0[sec]より大きく20[sec]以下である第2区分、20[sec]より大きく100[sec]以下である第3区分、及び100[sec]より大きく140[sec]以下である第4区分に分けられている。第1~第4区分は、それぞれ異なる態様で表示される。例えば、これらは色の違いで表示されてもよい。例えば、第1区分は「黒」、第2区分は「青」、第3区分は「緑」、第4区分は「黄色」で表示されてもよい。又は、第1区分は「黒」で、第2区分は上記黒より明るく、第3区分は第1区分より明るく、第4区分は第3区分より明るく表示されてもよい。より多い態様又は少ない態様を用いて、より多くの区分又は少ない区分の表示を行ってもよい。また、異なる区分は、色や明るさの差異に限らず、ハッチング、形状、ぼやけ具合などの差異で表現してもよい。
【0057】
以上のように、本実施形態に係る音響モデル訓練システム10によると、現在の音響モデル120の訓練に使用された音波形、又は音響モデル120の訓練に使用される候補である音波形に対応する特性分布を示すグラフを表示することで、ユーザが訓練に用いる訓練用音波形を特定しやすくなる。
【0058】
[1-6.変形例]
図7は、
図5の表示方法に類似する、音波形の特性分布の表示方法を例示するフローチャートである。以下の説明において、両者の類似する部分について説明を省略し、主に両者の相違する部分について説明する。
【0059】
図7の「訓練処理」では、
図5と同様に、ユーザによって音波形が選択され、システムは、選択された音波形を用いて訓練ジョブを実行する。
図7のS701、S702は、
図5のS501、S502と同じである。システム(サーバ100)は、S702で訓練済みの音響モデル120を確立した後、その訓練に用いられた複数の各音波形を分析して複数種別の特性分布を取得し、それらを種別ごとに合成して、複数種別の合成された特性分布を取得する(S703)。続いて、システム(サーバ100)は、S702の訓練のベースの音響モデルが未訓練の初期モデルか否かを判断する(S704)。
【0060】
S704でベースモデルが初期モデルではないと判断された場合(S704の「NO」)、システム(サーバ100)は、S703で取得した複数種別の特性分布と、その訓練のベースとした訓練済みの音響モデルの履歴データが示す複数種別の特性分布とを、種別ごとに合成する(S705)。その合成後、システム(サーバ100)は、S702で確立した音響モデル120に、S705で合成された複数種別の特性分布を、履歴データとしてリンクする(S706)。一方、S704でベースモデルが初期モデルであると判断された場合(S704の「YES」)、システム(サーバ100)は、S705の処理をスキップして、S702で確立した音響モデル120に、S703で取得した複数種別の特性分布を、履歴データとしてリンクする(S706)。
【0061】
図5及び
図7のいずれの表示処理においても、履歴データは、訓練済み音響モデル120に関して、その訓練に用いた全音波形の特性分布を得るために用いられる。
図5のS503で音響モデル120にリンクされる履歴データは、その訓練に用いた全音波形を示す識別子であり、
図5の表示処理では、システムは、その識別子が示す各音波形を分析して、それら音波形の特性分布を取得し合成した(S513)。それに対し、
図7の訓練処理では、システムは、訓練済みの音響モデル120に、履歴データとして、その訓練に用いられた全音波形の合成された特性分布を複数種別分リンクする(S706)。従って、
図7の表示処理では、システムは、何れの音波形も分析することなく、その音響モデル120の、選択された種別の特性分布を取得し(S713)、画面(
図6)に表示する(S714)。
【0062】
何れの本実施形態においても、第3者は、音響モデル120ごとの特性分布を入手し閲覧できる。
【0063】
図7の「表示処理」は、上述した点を除き、
図5と同様なので、説明を省略する。つまり、S711~S714は、S511~S514と基本的に同じ処理である。
【0064】
[2.第2実施形態]
図8~
図13を用いて、第2実施形態に係る音響モデル訓練システム10Aについて説明する。音響モデル訓練システム10Aの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、
図1~
図4を参照し、これらの図に示された符号の後にアルファベット“A”を付して説明する。
【0065】
[2-1.音響モデルの訓練処理]
図8は、システム10Aによって実行される、音響モデルの訓練処理を例示するフローチャートである。
図8に示す音響モデルの訓練処理では、特定の特性分布に関して訓練データが不足した範囲を検出し、その領域を補うために適したデータを用いて訓練を実行する構成について説明する。
【0066】
システム(サーバ100A)は、通信端末200A(又はユーザ)からの指示に応じて、音響モデル120Aと1乃至複数の特性種別とを選択する(S801)。システム(サーバ100A)は、選択された音響モデル120Aの選択された種別の特性分布を取得し、音響モデル120Aに対する訓練における不足範囲を検出する(S802)。具体的には、システムは、選択された音響モデル120Aにリンクした履歴データを取得し、当該履歴データに基づいて、当該音響モデルの訓練に使用された音波形の選択された種別の特性分布を取得する。
【0067】
システム(サーバ100A)は、取得された各種別の特性分布に関して、その種別で訓練が必要とされる特性値の範囲(必要範囲)において、データ量が閾値より小さい範囲を、その種別の不足範囲として検出する。又は、システムは、取得した各種別の特性分布とその種別の参照用の特性値の分布(参照分布)とを比較し、その種別の特性分布が参照分布より小さい範囲を不足範囲として検出してもよい。各種別の必要範囲及び閾値、又は参照分布は、例えば、ユーザによって選択された任意の楽曲等のその種別の特性分布に基づいて決定してもよく、既存の訓練済み音響モデルのその種別の特性分布に基づいて決定してもよい。
【0068】
S802で不足範囲が検出されると、システムは、ユーザに対して、画面140(
図6)への当該不足範囲の表示の要否を問い合わせる(S803)。この問い合わせは、当該不足範囲を文字表示で行うか(文字表示ボタン)、グラフ表示で行うか(グラフ表示ボタン)、に関する問い合わせを含む。ユーザが(文字表示ボタンを操作して)文字表示を選択した場合、システムは当該不足範囲をその画面上に文字で表示する(S804)。
【0069】
他方、ユーザが(グラフ表示ボタンを操作して)グラフ表示を選択した場合、システムは当該不足範囲をその画面上にグラフ表示する(S805)。ユーザが当該不足範囲の表示を不要と判断した場合(文字表示ボタンとグラフ表示ボタンが操作されない場合)、システムはS804、S805の表示を行わずに次のステップ(S807)に進む。
【0070】
S805のグラフ表示の一例を
図9に示す。
図9に示すように、検出された音響モデル120Aの不足範囲を、枠で囲んで表示する。この例では、不足範囲がたまたま三角形の形状だったので、三角形の枠で囲んでいる。この枠によって、ユーザは、第1特性(音高)及び第2特性(強度)における不足範囲の上限及び下限を確認できる。本実施形態では、不足範囲の上限及び下限の両方を表示したが、上限及び下限の一方だけ表示してもよい。
【0071】
図9に示す画面140Aは、システム(サーバ100A)によって提供され、システム(通信端末200A)の表示器に表示される。
図9に示す特性分布は、音高が高い範囲、かつ、強度が低い範囲のデータが不足するため、画面140Aにおいて、不足範囲をユーザに通知するメッセージ(「データ補充が必要です」)が表示される。
【0072】
図9に示す画面140A及びメッセージは、一例に過ぎず、その他の態様で表示されてもよい。システムは、S804において、不足範囲に係る情報、例えば、不足範囲に含まれる音高又は強度を、テキストで表示器に表示してもよい。或いは、システムは、不足する音信号の表現(スタカート又はビブラートなど)を表示してもよい。
【0073】
図8のS804、S805に続き、システムは、ユーザに対して、音響モデル120Aの訓練の要否を問い合わせる(S806)。この問い合わせは、既存の音波形を使用して訓練を行うか(訓練ボタン)、訓練に使用する音波形を新たに録音する必要があるか(録音&訓練ボタン)、に関する問い合わせを含む。
【0074】
ユーザが(訓練ボタンを操作して)既存の音波形を使用して訓練を行うことを選択した場合、システム(サーバ100A)は、ユーザの波形選択操作に応じて、既にアップロードされサーバ100Aに保存されている音波形の中から音波形を選択し、訓練に用いる音波形として特定する(S807)。そして、システム(サーバ100A)は、訓練に用いる音波形を分析して、当該音波形が有する1乃至複数の特性について、特性分布を取得し、ベースが初期モデルならそのまま、初期モデルでなければベースの音響モデルの特性分布と合成して、例えば
図6と同様の態様で通信端末200の表示器に表示する(S808)。
【0075】
他方、上記の問い合わせに対して、ユーザが(録音&訓練ボタンを操作して)音波形を新たに録音することを選択した場合、システム(サーバ100A)は、複数の楽曲から不足範囲の特性値の音を十分に含む楽曲を特定し、ユーザに推薦する(S809)。つまり、システムは、複数の楽曲のうちの、不足範囲の特性値の音符を含む1乃至複数の候補曲を検出し、ユーザに対して、検出された候補曲を提示する。本実施形態の場合、システムは、予め(
図8に示す訓練処理が開始される前に)公開された楽曲の楽譜データに含まれる複数の音符を分析し、当該楽曲で演奏されるべき音信号の特性分布(当該楽曲の特性分布と呼ぶ)を取得している。
【0076】
システムは、ユーザに対して楽曲を推薦する際に、例えば
図6と同様の態様で、推薦した各楽曲の特性分布を参考として表示する(S810)。推薦する楽曲が複数の場合、システムは、複数の楽曲の複数の特性分布を一括で表示してもよいし、1曲分ずつ個別に表示してもよい。S810で表示される特性分布は、当該特性分布に対応する楽曲の楽譜データに基づく、当該楽曲の特性分布である。
【0077】
S809で推薦される楽曲の音波形は、音響モデル120Aの訓練に先立って録音される音波形であり、その訓練に使用する予定の(又は、使用する可能性がある)音波形である。
【0078】
S810で表示される楽曲の特性分布の画面の一例を
図10に示す。
図10の画面には、参考として、
図9と同様の不足範囲が点線で表示されている。システム(サーバ100A)は、例えば、分析済みの楽曲の中から、この不足範囲に十分なデータ量を有する楽曲を、推薦する楽曲として特定する。なお、
図10の特性分布は1つの楽曲分の音信号だけの特性分布なので、
図6に示す、音響モデル120の訓練に用いた全音波形の特性分布と比較すると、データ量がかなり少ない。
【0079】
ユーザは、S809、S810で推薦された楽曲から、例えば1つの楽曲を選択して演奏し、システム(通信端末200)は、演奏された楽曲を録音し(S811)、その録音データ(新たな音波形)をサーバ100Aに送信する。システム(サーバ100A)は、その新たな音波形を既存の音波形と同様に、そのユーザの記憶領域に保存する。続いてS807で音波形の選択処理が行われる。
【0080】
S811でユーザによって録音された新たな音波形の特性分布は、当該楽曲の楽譜データの特性分布と必ずしも一致せず、新たな音波形全体の特性分布は、
図10の特性分布と必ずしも一致しない。システム(サーバ100A)は、既存の音波形と新たな音波形の中から訓練に用いる音波形を選択し(S807)、訓練に用いる音波形を分析してその特性分布を取得する(S808)。ここで取得される特性分布は、その音波形を用いた将来の訓練で確立されると期待される音響モデル120Aについて、その将来の訓練で使用された音波形の特性分布である。S808において、システムは、当該期待される訓練済み音響モデル120Aの訓練で使用された全音波形の特性分布を表示する。その訓練のベースモデルが訓練済み音響モデルである場合、ベースモデルの特性分布と当該期待される音響モデル120の特性分布とを合成した特性分布が表示される。ユーザは、この特性分布を見て、S807で特定した音波形が適正か否か判断できる。
【0081】
S806の問い合わせに対して、ユーザが(訓練不要ボタンを操作して)訓練を希望しない旨の返答をした場合、
図8に示すフローは終了する。
【0082】
S808に続き、サーバ100Aは、ユーザに対して、音響モデル120Aの訓練実行の要否を問い合わせる(S812)。当該問い合わせに対して、ユーザが訓練実行ボタンを操作して、S807で選択した音波形を用いた訓練の実行を指示した場合、システム(サーバ100A)は、S502と同様に、S801で選択した音響モデル120Aの訓練を、S807で選択した音波形を用いて実行し、訓練済みの音響モデル120Aを確立して(S813)、S703~S706と同様に、確立した音響モデル120Aの訓練に用いた全音信号の特性分布を取得し、履歴データとして当該音響モデル120Aにリンクする(S814)。
【0083】
他方、上記の問い合わせに対して、ユーザが(音波形の再選択ボタンを操作して)音波形の再選択を指示した場合、システム(サーバ100A)は、再度ユーザに対して音波形を選択するためのGUIを提供し、S807に示すようにユーザの選択操作に応じて音波形を特定する。
【0084】
S812の問い合わせに対して、ユーザが(訓練のキャンセルボタンを操作して)訓練の実行をキャンセルする旨を指示した場合、システムは、
図8に示す処理を終了する。
【0085】
なお、S812において、システムはユーザに対して新たな録音の要否を問い合わせてもよい。その問い合わせに対し、ユーザが(録音&訓練ボタンを操作して)音波形を新たに録音する旨を指示した場合、上述したS809~S811以降の処理が行われる。
【0086】
S809では、過去に音響モデル120Aの訓練に使用された楽曲に基づいて、新たな楽曲を推薦してもよい。例えば、既に訓練に使用した楽曲と同じ歌手又は演奏者の別の楽曲を推薦してもよい。また、訓練に使用された楽曲と同じ又は近いジャンルの楽曲を推薦してもよい。さらに、一曲の全体を推薦してもよく、一曲の一部だけを推薦してもよい。
【0087】
以上のように、本実施形態に係る音響モデル訓練システム10Aによると、現在の音響モデル120Aにおいて訓練不足の領域に適した訓練用音波形をユーザが効率よく準備ないし選定すること、および、当該領域にデータを補充するために適した楽曲をユーザに推薦することができる。
【0088】
[3.第3実施形態]
図11を用いて、第3実施形態に係る音響モデル訓練システム10Bについて説明する。音響モデル訓練システム10Bの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、
図1~
図4を参照し、これらの図に示された符号の後にアルファベット“B”を付して説明する。
【0089】
[3-1.楽曲の選択・編集・再生処理]
図11は、システム10Bによって実行される、ユーザに所望の楽曲の選択、編集、再生をできるようにするための、楽曲の選択・編集・再生処理を例示するフローチャートである。
図11では、音響モデル120Bの特性分布に基づいて、音響モデル120Bの得意度を評価し、その得意度をユーザに対して表示する構成について説明する。
【0090】
システム(サーバ100B)は、ユーザからの選択指示に応じて、複数の訓練済み音響モデルの中から音響モデル120Bを選択し、リンクされた履歴データに基づいて、当該音響モデル120Bの特性分布を取得する(S1101)。続いて、システム(サーバ100B)は、複数の楽曲から、S1101で取得した特性分布に適合しそうな1乃至複数の候補曲を特定し(S1102)、各候補曲に対する当該音響モデル120Bの得意度を評価する(S1103)。
【0091】
各音響モデル120Bは、初期モデルから複数の第1楽曲の音波形を用いて訓練されたモデルであるが、その訓練の少なくとも一部において、第1楽曲の演奏音の音波形及び当該音波形に対応する楽譜を用いて訓練されている。つまり、音響モデル120Bは、過去に訓練に用いられた第1楽曲の音波形の少なくとも一部の楽譜の楽譜特徴量と、当該音波形の第1音響特徴量とを含む訓練データを用いて訓練されたモデルである。この音響モデル120Bに(訓練に使用されていない)未知の第2楽曲の楽譜が入力されると、音響モデル120Bは、当該第2楽曲の楽譜特徴量に応じた第2音響の音響特徴量(第2音響特徴量)を生成する。
【0092】
S1101において、システム(サーバ100B)は、選択した音響モデル120Bの訓練に用いた第1楽曲の全音波形の履歴を示す履歴データを取得する。第1実施形態に関して説明したように、当該音響モデル120Bにリンクされた履歴データには、前記全音波形の識別子、または、前記全音波形の特性分布が含まれていてもよい。システム(サーバ100B)は、当該履歴データに基づいて、前記全音信号の特性分布を、当該音響モデル120Bの特性分布として取得する。ここで取得する特性分布は、音信号の複数の特性のうちの、ユーザの指定した或いは所定の、何れか1以上の特性の分布である。システムは、当該音響モデルの特性分布を通信端末200Bの表示器に表示してもよい。なお、本明細書において、楽譜データを「楽譜」と呼ぶ場合がある。
【0093】
システムには、複数の楽曲の楽譜データが用意されている。S1102において、システムは、前記複数の楽曲の各々を分析してその楽曲の特性分布を取得し、前記複数の楽曲のうちから、その楽曲の特性分布が当該音響モデル120Bの特性分布から外れる量の少ない楽曲を選択して、当該音響モデル120に適合しそうな候補曲(推薦曲とも呼ぶ)として特定する。或いは、S1102において、システムは、前記複数の楽曲の各々の最高音と最低音とを検出し、前記取得された音響モデル120Bの特性分布がその最高音と最低音を含む1乃至複数の楽曲を選択して、当該音響モデル120Bに適合しそうな候補曲として特定してもよい。
【0094】
演奏する楽曲に対する得意度は、前記取得した特性分布及びその楽曲の楽譜データに基づいて評価される。具体的には、その得意度は、当該音響モデル120Bの特性分布が、その楽譜データの特性をカバーする程度である。当該音響モデル120Bの特性分布が楽譜データの特性をカバーする、とは、楽譜データに基づく音信号の特性が分布する範囲に、当該音響モデル120Bの特性が分布している、つまり、その範囲の音信号を当該音響モデル120Bが既に学習していることを意味する。例えば、両特性分布を重ねた場合に、楽譜データの特性分布が、当該音響モデルの特性分布の内側に存在する場合、得意度は100%である。
【0095】
さらに、得意度は、楽譜データの特性が分布する範囲の各特性値における、当該音響モデル120Bの特性分布のデータ量に基づいて評価されてもよい。具体的には、得意度は、その範囲の特性値のうちの、その特性分布のデータ量が所定量(例えば、40秒)より多くなる特性値の割合を意味してもよい。例えば、楽譜データの特性分布の範囲の全特性値において、当該音響モデル120Bの特性分布のデータ量が所定量より多い特性値の割合が80%の場合、当該音響モデルの得意度(カバー率)は80%である。
【0096】
得意度は数値、メータ、又はバーグラフで表されてもよい。或いは、
図6の表示において、システムが当該音響モデル120Bの特性分布と楽曲の楽譜データの特性分布とを重ねて表示すれば、ユーザは、その表示を見て、当該音響モデルのその楽曲に対する得意度を認識できる。
【0097】
S1103において、システム(サーバ100B)は、候補曲として特定された楽曲(第2楽曲)の楽譜及び当該音響モデル120Bの特性分布に基づき、当該音響モデルの、第2楽曲に対する得意度を評価する。なお、S1102とS1103の実行順を逆にしてもよい。その場合、システムは、まずS1103において、用意された複数の楽曲全部の得意度を評価し、続くS1102において、複数の楽曲のうちから、得意度が高い1乃至複数の曲を選択し、候補曲として特定してもよい。或いは、複数の楽曲のうちの得意度が閾値より高い楽曲を選び、選択された楽曲のうちから得意度の高い1乃至複数の楽曲を候補曲として特定してもよい。
【0098】
続いて、システムは、各候補曲(推薦曲)に対応付けて、当該音響モデル120Bのその候補曲に対する得意度を表示する(S1104)。この推薦曲及び得意度の表示の一例を
図12に示す。この例では、当該音響モデル120Bの特性分布に基づいて選択された複数の第2楽曲と、その各楽曲に対する当該音響モデル120Bの得意度とを対応付けて表示することで、ユーザにそれら楽曲を推薦している。
【0099】
図12に示すGUI160Bは、システム(通信端末200B)の表示器に表示され、表題161B、推薦曲の表示欄、及び選択ボタン166Bを含む。推薦曲の表示欄には、各推薦曲と、その推薦曲を選ぶためのラジオボタン162B~165Bと、その推薦曲についての得意度、ジャンルなどの付加情報が表示される。
【0100】
ユーザが、GUI160Bにおいて、複数の推薦曲のうちの所望の楽曲に対応するラジオボタンを選択して選択ボタン166Bを押すと、システム(サーバ100B)は当該ユーザ操作に応じてその楽曲を選択する(S1105)。
【0101】
続いて、システム(サーバ100B)は、選択された楽曲の楽譜データの一連の音符のうちの各音符に対する当該音響モデル120Bの得意度を、当該音響モデル120Bの特性分布に基づいて評価し(S1106)、システム(通信端末200)の表示器に、その楽曲の各音符を、その音符に対する得意度とともに表示する(S1107)。例えば、システムは、得意度の表示付きで、その楽曲のピアノロールを表示してもよい。当該得意度は、各音符に対して評価されているため、当該ピアノロールにおいて、音符毎に得意度が表示される。
【0102】
S1107で表示されるピアノロールの一例を
図13に示す。
図13に示すピアノロール170Bは、横軸が「時間(sec)」であり、縦軸が「音高」である。
【0103】
ピアノロール170B中には、選択された楽曲の一連の音符の各々のピッチとタイミングとを示す複数の音符バー171Bが表示される。各音符の音符バー171Bは、例えば、3種類の態様のうちのその音符に対する得意度に応じた何れか1の態様で表示される。密なハッチングの音符バー172B「優」は、その音符に対する得意度が高いことを示す。疎なハッチングの音符バー173B「可」は、その音符に対する得意度が中程度であることを示す。白の音符バー174B「劣」は、その音符に対する得意度が低いことを示す。つまり、得意度が高い順に「優」、「可」、「劣」の3レベル表示である。
【0104】
ここでは、当該音響モデル120Bの得意度が、音符毎に評価され表示される。当該得意度は、上記楽曲(第2楽曲)の各音符の区間の楽譜について評価され、
図13のように、音符の区間毎に表示される。
【0105】
同じ音高であっても、強度が異なれば得意度が異なる場合がある。
図13には、音高が同じでも得意度が異なる音符や、得意度が途中で変わる音符がある。楽曲に対する得意度の区分数は、3に限らず、2つでも4つ以上でもよい。また、異なる区分は、ハッチングの差異に限らず、色、明るさ、形状、ぼやけ具合などの差異で表現してもよい。
【0106】
図13のバーをその上方から指し示す矢印は、後述する再生動作で、再生位置を示すカーソル175Bである。さらに、グラフの下方に示された得意度メータ176Bには、カーソル175Bの位置における楽曲の得意度が表示される。得意度メータ176Bの下方には、再生ボタン178B及び取消ボタン179Bが表示される。システムは、ユーザが音符バーを編集操作したか否かの判定(S1108)と、ユーザが再生ボタン178Bを操作したかい否かの判定(S1110)とを行う。
【0107】
ユーザが何れかの音符バーを編集操作した場合(S1108の「YES」)、サーバ100Bは、その編集操作に応じて、楽曲の楽譜データのうちの、その音符バーに対応する音符を編集する(S1109)。当該編集は、その音符の音高、強度、音韻、音長、及びスタイルのいずれかの変更を含む。例えば、ユーザがある音符バーを縦軸方向に動かすと、対応する音符の音高が変更され、横方向に動かすと、その音符のタイミングが変更される。また、ユーザがある音符バーの長さを変更すると、対応する音符の音長が変化する。さらに、ある音符バーのプロパティ編集画面を開いて、対応する音符の強度やスタイルを変更できる。当該編集が行われると、再度S1106、S1107の処理によって、編集された音符に対する得意度が評価し直され、当該音符に対する表示(得意度を含む表示)が更新される。
【0108】
一方、ユーザが何れの音符バーも編集操作しない場合(S1108の「NO」)、システムは、S1110で再生ボタン操作の有無を判断する。ユーザが再生ボタン178Bを操作した場合(S1110の「YES」)、サーバ100Bは、当該音響モデル120Bを用いて、当該楽曲の楽譜データに応じた音波形を合成し、再生デバイスを用いて、その合成された音波形を再生し(S1111)、その再生が完了したら、ピアノロール表示を消去して、
図11の処理を終了する。なお、再生の完了時に、
図11の処理を終了する代わりに、ピアノロール表示を残したまま、S1108に進んでもよい。
【0109】
上記の音波形の合成は、システム(サーバ100B又は通信端末200B)が入手した楽曲の楽譜データに基づく音波形(歌唱又は楽器音)の合成である。本実施形態では、S1110で再生指示された後に、S1111で楽譜データに基づく音波形を合成している。しかし、当該音波形の合成は、再生指示されるより前、例えば、S1105で楽曲が選択された時点や、楽譜データの編集が行われた時点などに、行われてもよい。この場合、S1110で再生指示に応じて、予め合成された音波形が再生される。
【0110】
他方、ユーザが
図13に示す再生ボタン178Bを操作しない場合(S1110の「NO」)、システムは、S1108のステップに戻り、編集要否を判断する。つまり、ユーザが音符バーの編集操作も再生ボタンの操作も行わない場合、サーバ100Bは、S1108、S1110のステップを繰り返すスタンバイ状態である。また、ユーザが取消ボタン179Bを操作すると、システムは、ピアノロール表示を消去して、
図11の処理を終了する。
【0111】
以上のように、本実施形態に係る音響モデル訓練システム10Bによると、ユーザは、選択した訓練済み音響モデル120Bの特性分布に基づき、当該音響モデル120Bで再生するのに適した楽曲を、容易に選択できる。また、ユーザは、楽曲の各音符に関連づけて、当該音響モデル120Bのその音符に対する得意度を確認できる。さらに、ユーザは、楽曲の一連の音符の各々に対する得意度を確認しつつ、その楽曲の音符を個別に編集できる。
【0112】
[4.第4実施形態]
図14を用いて、第4実施形態に係る音響モデル訓練システム10Cについて説明する。音響モデル訓練システム10Cの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、
図1~
図4を参照し、これらの図に示された符号の後にアルファベット“C”を付して説明する。
【0113】
[4-1.特性分布の表示方法]
図14は、システム10Cが表示する音波形の特性分布の一例である。
図14に示す特性分布は、
図6に示す特性分布と類似しているが、特性分布を表示する2つの特性のうち、一方の特性が所定の範囲にある場合における他方の特性に係る分布を表示する点において、両者は相違する。
【0114】
図14では、ユーザが、第3区分に相当する音波形のデータ量が100[sec]より大の条件を指定し、データ量の表示を音高についてその条件を満たす範囲(M1[Hz]~M2[Hz])に限定した場合の、第2軸表示部143Cにおける音量の特性分布の表示例が示されている。つまり、第1軸表示部142Cにおいて斜線で示された範囲(M1[Hz]~M2[Hz])の音波形の音量の分布が、第2軸表示部143Cに表示される。このように、
図14で、システムは、音高(第1特性)が所定範囲内の音信号の音量(第2特性)の特性分布を表示する。
【0115】
図14の例では、音波形のデータ量に基づいて、第1特性の範囲を決定したが、これに限定されない。第1特性の範囲、つまり下限M1と上限M2を、それぞれユーザが任意の値に設定してよい。また、下限M1と上限M2の何れか一方だけを指定してもよい。或いは、第2特性の範囲を指定し、その範囲における音波形の第1特性の分布が表示されてもよい。
【0116】
以上のように、本実施形態に係る音響モデル訓練システム10Cによると、ユーザは、第1特性に関して注目した音信号(訓練データ)の第2特性の特性分布を確認できる。例えば、音高が上限M2より低い範囲において、どの強度の音波形による訓練が不足しているか確認できる。或いは、強度が下限M1より強い範囲において、どの音高の音波形による訓練が十分か確認できる。
【0117】
[5.第5実施形態]
図15を用いて、第5実施形態に係る音響モデル訓練システム10Dについて説明する。音響モデル訓練システム10Dの全体構成及びサーバに関するブロック図は第1実施形態に係る音響モデル訓練システム10と同じなので、説明を省略する。以下の説明において、第1実施形態と同じ構成については説明を省略し、主に第1実施形態と相違する点について説明する。以下の説明において、第1実施形態と同様の構成について説明をする場合、
図1~
図4を参照し、これらの図に示された符号の後にアルファベット“D”を付して説明する。
【0118】
[5-1.リアルタイム得意度表示]
図15は、楽曲再生処理を例示するフローチャートである。
図15に示すフローチャートに示す処理では、音響モデル訓練システム10Dは、サーバ100Dないし通信端末200Dに未保存の楽曲を、外部の配信サイトから、楽曲のストリームとして、その楽曲の楽譜データの一部分を順次受信しつつ音声合成を行う。本実施形態の場合、システムは、当該楽曲の一連の各音に対する得意度を予め算出できない。したがって、本実施形態では、システム(サーバ100D)は、各時点に受信したストリームに基づいて、そのストリームに含まれる各音に対する得意度をリアルタイムに計算し、表示する。
【0119】
システム10Dは、通信端末200D(又はユーザ)からの選択操作に応じて、複数の楽曲の中から所望の楽曲を選択する(S1501)。システム(サーバ100D)は、選択された楽曲の楽譜を分析してその楽曲の特性分布を取得し、当該特性分布を、複数の音響モデル120Dの特性分布と対比して、その楽曲の特性分布をカバーできる特性分布を有する1以上の音響モデル120Dを、当該楽曲に適した候補モデルとして特定する(S1502)。つまり、システムは、楽曲に応じて、当該楽曲に適した音響モデル120Dを推薦する。そして、システム(サーバ100D)は、当該楽曲に対する、各候補モデルの得意度を取得する(S1503)。得意度の評価方法は、第2実施形態(
図11に係る説明)と同様の手法で行われるため、詳細な説明を省略する。
【0120】
続いて、システムは、上記楽曲の特性分布及び各候補モデルの特性分布と、当該楽曲に対する各候補モデルの得意度とをシステム(通信端末200D)の表示器に表示する(S1504)。当該表示は、例えば、当該楽曲の特性分布及びユーザの指定した何れかの候補モデルの特性分布が
図6に示すようなグラフ表示され、その候補モデルの当該楽曲に対する得意度が、テキスト形式で、グラフ表示と重ねて又は並べて表示される。当該グラフ表示とテキスト形式の表示とが並列に表示されてもよい。
【0121】
候補モデルとして複数の音響モデル120Dが特定された場合、ユーザは、S1504で表示された特性分布及び得意度を参照して、何れか1の音響モデル120Dを選択し、システム(サーバ100D)は、その選択操作に応じて、その音響モデル120Dを選択する(S1505)。
【0122】
続いて、システムは、ユーザに対して、S1501で選択した楽曲又はS1505で選択した音響モデル120Dの変更要否(S1506)、及び当該楽曲の再生要否(S1507)を問い合わせる。
【0123】
ユーザがS1506で(音響モデルの選択ボタンを操作して)音響モデル120Dの変更を指示した場合、システムは、再度、上記の特性分布及び得意度をシステム(通信端末200D)の表示器に表示し(S1504)、ユーザによる新たな選択操作に応じて、何れか1の音響モデル120Dを選択する(S1505)。他方、ユーザがS1506で(楽曲の選択ボタンを操作して)楽曲の変更を指示した場合、システム(サーバ100D)は、ユーザによる新たな選択操作に応じて、何れか1の楽曲を選択する(S1501)。
【0124】
ユーザがS1506で(いずれの選択ボタンも操作せず)変更を指示しない場合(S1506の「NO」)、システムは、楽曲の再生要否(S1507)を判断する。ユーザが(再生ボタンを操作して)楽曲の再生を指示した場合(S1507の「YES」)、処理フローは楽曲再生のステップに進む。他方、ユーザがS1507で(再生ボタンを操作せず)再生を指示しない場合(S1507の「NO」)、システムは、S1606のステップに戻り、再び、上述の変更要否を判断する。つまり、ユーザが変更も再生も指示しない場合、システムは、S1506及びS1507のステップを繰り返すスタンバイ状態である。このように、処理フローがループすることによって、ユーザが楽曲の再生に先立って楽曲や使用する音響モデルを選択し直すことができる。なお、ユーザがS1507で取消を指示すると、システムは、
図15に示す一連の処理フローを終了する。
【0125】
S1507でユーザが再生を指示すると、システム(サーバ100D)は、楽曲のストリームを取得する(S1508)。具体的には、ユーザが再生を指示すると、システムは、当該再生指示の操作に応じて、配信サイトに当該楽曲を要求する。当該要求に応じて、当該配信サイトからシステム(サーバ100D)に、当該楽曲のストリーム配信が開始される。楽譜データの部分ごとのストリーム配信は、楽曲の先頭から末尾まで継続的に行われる。つまり、S1508において、システム(サーバ100D)は、楽曲(第2楽曲)の楽譜の一部分を順次受け取る。なお、配信サイトが楽曲を通信端末200Dにストリーム配信し、通信端末200Dがその受信した楽譜の一部分をサーバ100Dに順次転送してもよい。
【0126】
システム(サーバ100D)は、楽曲のストリーム(一部分)を取得するごとに、選択された音響モデル120Dを用いた第2音響のリアルタイム生成と、その音響モデル120の得意度の表示とを並行で行う(S1509、S1510)。システム(サーバ100D)は、リアルタイム生成に並行して、受け取った楽譜の一部分とその音響モデル120Dの特性分布とに基づいて、その楽譜の一部分に対する、その音響モデル120Dの得意度をリアルタイムで取得(評価)する(S1509)。続いて、サーバ100Dは、その音響モデル120Dを用いて、その楽譜の一部分を処理して、その一部分に対応する第2音響特徴量をリアルタイムで生成し、その第2音響特徴量に基づいて音波形(第2音響)をリアルタイムで合成して再生するとともに、その取得された得意度をリアルタイムで表示する(S1510)。
【0127】
なお、本発明は上記の実施形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。
【符号の説明】
【0128】
10:音響モデル訓練システム、 100:サーバ、 101:制御部、 102:RAM、 103:ROM、 104:ユーザインタフェース(UI)、 105:通信インターフェース、 110:ストレージ、 111:音声合成プログラム、 112:訓練ジョブ、 113:楽譜データ、 114:音波形、 120:音響モデル、 123:楽譜特徴量、 124、129:音響特徴量、 130:合成音波形、 140:画面、 141:2次元表示部、 142:第1軸表示部、 143:第2軸表示部、 144:データ量バー、 160B:GUI、 161B:表題、 162B~165B:ラジオボタン、 166B:選択ボタン、 170B:ピアノロール、 171B~174B:音符バー、 175B:カーソル、 176B:得意度メータ、 178B:再生ボタン、 179B:取消ボタン、 200、300:通信端末、 400:ネットワーク