特開2022-65566 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヤマハ株式会社の特許一覧

特開2022-65566音声合成方法およびプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2022065566

(43)【公開日】2022-04-27

(54)【発明の名称】音声合成方法およびプログラム

(51)【国際特許分類】

G10L 13/10 20130101AFI20220420BHJP

G10L 13/00 20060101ALI20220420BHJP

G10L 13/033 20130101ALI20220420BHJP

【ＦＩ】

G10L13/10 114

G10L13/00 100Y

G10L13/033 102B

【審査請求】未請求

【請求項の数】5

【出願形態】ＯＬ

(21)【出願番号】P 2020174248

(22)【出願日】2020-10-15

(71)【出願人】

【識別番号】000004075

【氏名又は名称】ヤマハ株式会社

(74)【代理人】

【識別番号】100108523

【弁理士】

【氏名又は名称】中川雅博

(74)【代理人】

【識別番号】100098305

【弁理士】

【氏名又は名称】福島祥人

(74)【代理人】

【識別番号】100125704

【弁理士】

【氏名又は名称】坂根剛

(74)【代理人】

【識別番号】100187931

【弁理士】

【氏名又は名称】澤村英幸

(72)【発明者】

【氏名】大道竜之介

(72)【発明者】

【氏名】才野慶二郎

(57)【要約】

【課題】特定の音質の音響データに、同じ音質の音響データを追加することなどが容易に行える音声合成方法を提供することを課題とする。
【解決手段】音声合成方法は楽譜データＤ１の楽譜特徴量から中間特徴量ＭＦ１を生成する楽譜エンコーダ１１１、音響データＤ２の音響特徴量から中間特徴量ＭＦ２を生成する音響エンコーダ１２１およびＭＦ１，ＭＦ２に基づいて音響特徴量ＡＦＳを生成する音響デコーダ１３３を準備し、補助学習用音響データＤ２＿Ｔを受け取り、音響エンコーダを用いてＤ２＿Ｔの音響特徴量から生成されるＭＦ２と、Ｄ２＿Ｔの音響特徴量とを用いて、Ｄ２＿Ｔの音響特徴量に近い音響特徴量ＡＦＳを生成するよう音響デコーダ１３３を訓練し、楽譜エンコーダを用いて、Ｄ２＿Ｔの時間軸上に配置された楽譜データＤ１から生成されるＭＦ１を、訓練済みの音響デコーダ１３３で処理することにより、音響特徴量ＡＦＳを生成する。
【選択図】図２

【特許請求の範囲】

【請求項1】

コンピュータにより実現される音声合成方法であって、
楽譜データの楽譜特徴量から第１中間特徴量を生成する楽譜エンコーダ、音響データの音響特徴量から第２中間特徴量を生成する音響エンコーダ、および、前記第１中間特徴量または前記第２中間特徴量に基づいて音響特徴量を生成する音響デコーダを準備し、
補助学習用音響データを受け取り、
前記音響エンコーダを用いて前記補助学習用音響データの音響特徴量から生成される前記第２中間特徴量と、前記補助学習用音響データの音響特徴量とを用いて、前記補助学習用音響データの音響特徴量に近い音響特徴量を生成するよう、前記音響デコーダを補助訓練し、
ユーザインタフェースを介して、前記補助学習用音響データの時間軸上に配置された楽譜データを受け取り、
前記楽譜エンコーダを用いて前記配置された楽譜データから生成される前記第１中間特徴量を、前記補助訓練済みの前記音響デコーダで処理することにより、音響特徴量を生成する、音声合成方法。

【請求項2】

前記準備することは、
前記楽譜エンコーダが基本学習用楽譜データに基づいて生成する前記第１中間特徴量および前記音響エンコーダが基本学習用音響データに基づいて生成する前記第２中間特徴量が近づくように、かつ、前記音響デコーダにより生成される前記音響特徴量が、前記基本学習用音響データから取得される音響特徴量に近づくように、前記楽譜エンコーダ、前記音響エンコーダおよび前記音響デコーダを訓練すること、
を含む、請求項１に記載の音声合成方法。

【請求項3】

音色を指定する第１識別子に基づいて前記音響デコーダが訓練される、請求項１または請求項２に記載の音声合成方法。

【請求項4】

音色を指定する第２識別子に基づいて、前記音響デコーダが前記第１識別子で指定される音色とは異なる音色で訓練される、請求項３に記載の音声合成方法。

【請求項5】

コンピュータに音声合成方法を実行させるプログラムであって、当該プログラムに基づきコンピュータは、
楽譜データの楽譜特徴量から第１中間特徴量を生成する楽譜エンコーダ、音響データの楽譜特徴量から第２中間特徴量を生成する音響エンコーダ、および、前記第１中間特徴量または前記第２中間特徴量に基づいて音響特徴量を生成する音響デコーダを準備し、
補助学習用音響データを受け取り、
前記音響エンコーダを用いて前記補助学習用音響データの音響特徴量から生成される前記第２中間特徴量と、前記補助学習用音響データの音響特徴量とを用いて、前記補助学習用音響データの音響特徴量に近い音響特徴量を生成するよう、前記音響デコーダを補助訓練し、
ユーザインタフェースを介して、前記補助学習用音響データの時間軸上に配置された楽譜データを受け取り、
前記楽譜エンコーダを用いて前記配置された楽譜データから生成される前記第１中間特徴量を、前記補助訓練済みの前記音響デコーダで処理することにより、音響特徴量を生成する、音声合成プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、音声合成方法およびプログラムに関する。本明細書の「音声」は、一般の「音（サウンド）」を意味しており、「人の声（ボイス）」には限定されない。

【背景技術】

【0002】

特定の歌手の歌声や特定の楽器の演奏音を合成する音声合成器が知られている。機械学習を利用した音声合成器は、特定の歌手や楽器の楽譜データ付きの音響データを教師データとして学習する。特定の歌手や楽器の音響データを学習した音声合成器は、ユーザによって楽譜データが与えられることにより、特定の歌手の歌声や特定の楽器の演奏音を合成して出力する。下記特許文献１において、機械学習を利用した歌声の合成技術が開示されている。また、歌声の合成技術を利用することで、歌声の声質を変換する技術が知られている。

【先行技術文献】

【特許文献】

【0003】

【特許文献1】特開２０１９－１０１０９４号公報

【発明の概要】

【発明が解決しようとする課題】

【0004】

ある歌手の歌声が録音されたトラックにその歌手と同じ音質の歌声やセリフを少し追加したり、そのトラックの歌声を少し修正したい場合がある。また、楽器の演奏音が録音されたトラックに、その楽器音と同じ音質の演奏音を少し追加したり、そのトラックの演奏音を少し修正したい場合がある。それらの場合、そのトラックのその箇所について、その歌手の歌唱やその楽器の演奏音を録音し直す必要があった。

【0005】

機械学習を利用した音声合成器は、所望の歌手の歌声や楽器の演奏音を学習させて合成することができる。しかし、その学習のためには、特定の歌手の歌唱や楽器の演奏音の音響データに加えて、ラベリング作業を行い、その音響データに対応する楽譜データを準備する必要がある。

【0006】

本発明の目的は、録音された特定の音質の音響データに対して、同じ音質の音響データを追加することや、その音質を保ったまま音響データを部分的に修正することが容易に行える音声合成方法を提供することである。

【課題を解決するための手段】

【0007】

本発明の一局面に従う音声合成方法は、コンピュータにより実現される音声合成方法であって、楽譜データの楽譜特徴量から第１中間特徴量を生成する楽譜エンコーダ、音響データの音響特徴量から第２中間特徴量を生成する音響エンコーダ、および、第１中間特徴量または第２中間特徴量に基づいて音響特徴量を生成する音響デコーダを準備し、補助学習用音響データを受け取り、音響エンコーダを用いて補助学習用音響データの音響特徴量から生成される第２中間特徴量と、補助学習用音響データの音響特徴量とを用いて、補助学習用音響データの音響特徴量に近い音響特徴量を生成するよう、音響デコーダを補助訓練し、ユーザインタフェースを介して、補助学習用音響データの時間軸上に配置された楽譜データを受け取り、楽譜エンコーダを用いて配置された楽譜データから生成される第１中間特徴量を、補助訓練済みの音響デコーダで処理することにより、音響特徴量を生成する。

【0008】

本発明の他の局面に従う音声合成プログラムは、コンピュータに音声合成方法を実行させるプログラムであって、当該プログラムに基づきコンピュータは、楽譜データの楽譜特徴量から第１中間特徴量を生成する楽譜エンコーダ、音響データの楽譜特徴量から第２中間特徴量を生成する音響エンコーダ、および、第１中間特徴量または第２中間特徴量に基づいて音響特徴量を生成する音響デコーダを準備し、補助学習用音響データを受け取り、音響エンコーダを用いて補助学習用音響データの音響特徴量から生成される第２中間特徴量と、補助学習用音響データの音響特徴量とを用いて、補助学習用音響データの音響特徴量に近い音響特徴量を生成するよう、音響デコーダを補助訓練し、ユーザインタフェースを介して、補助学習用音響データの時間軸上に配置された楽譜データを受け取り、楽譜エンコーダを用いて配置された楽譜データから生成される第１中間特徴量を、補助訓練済みの音響デコーダで処理することにより、音響特徴量を生成する。

【発明の効果】

【0009】

本発明は、録音された特定の音質の音響データに対して、同じ音質の音響データを追加することや、その音質を保ったまま音響データを部分的に修正することが容易に行える音声合成方法を提供する。

【図面の簡単な説明】

【0010】

【図1】実施の形態に係る音声合成器の構成図である。

【図2】実施の形態に係る音声合成器の機能ブロック図である。

【図3】音声合成器が利用するデータを示す図である。

【図4】実施の形態に係る基本訓練方法を示すフローチャートである。

【図5】実施の形態に係る音声合成方法を示すフローチャートである。

【図6】音声合成器のユーザインタフェースを示す図である。

【図7】音声合成器のユーザインタフェースを示す図である。

【図8】実施の形態に係る音響デコーダ訓練方法を示すフローチャートである。

【図9】音声合成器のユーザインタフェースを示す図である。

【図10】音声合成器のユーザインタフェースを示す図である。

【図11】音声合成器のユーザインタフェースを示す図である。

【発明を実施するための形態】

【0011】

（１）音声合成器の構成
以下、本発明の実施の形態に係る音声合成器について図面を用いて詳細に説明する。図１は、実施の形態に係る音声合成器１を示す構成図である。図１に示すように、音声合成器１は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）１１、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１２、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１３、操作部１４、表示部１５、記憶装置１６、サウンドシステム１７、デバイスインタフェース１８および通信インタフェース１９を備える。音声合成器１は、例えば、パーソナルコンピュータ、タブレット端末またはスマートフォンなどが利用される。

【0012】

ＣＰＵ１１は、１又は複数のプロセッサにより構成されており、音声合成器１の全体制御を行う。ＲＡＭ１２は、ＣＰＵ１１がプログラムを実行するときに作業エリアとして利用される。ＲＯＭ１３は、制御プログラムなどが記憶される。操作部１４は、音声合成器１に対するユーザの操作を入力する。操作部１４は、例えば、マウスやキーボードなどである。表示部１５は、音声合成器１のユーザインタフェースを表示する。操作部１４および表示部１５が、タッチパネル式ディスプレイとして構成されていてもよい。サウンドシステム１７は、音源、音声信号をＤ／Ａ変換および増幅する機能、アナログ変換された音声信号を出力するスピーカなどを含む。デバイスインタフェース１８は、ＣＰＵ１１がＣＤ－ＲＯＭ、半導体メモリなどの記憶媒体ＲＭにアクセスするためのインタフェースである。通信インタフェース１９は、ＣＰＵ１１が、インターネットなどのネットワークに接続するためのインタフェースである。

【0013】

記憶装置１６には、音声合成プログラムＰ１、訓練プログラムＰ２、楽譜データＤ１および音響データＤ２が記憶されている。音声合成プログラムＰ１は、音声合成された音響データまたは音質変換された音響データを生成するためのプログラムである。訓練プログラムＰ２は、音声合成または音質変換に利用されるエンコーダおよび音響デコーダを訓練するためのプログラムである。

【0014】

楽譜データＤ１は、楽曲を規定するデータである。楽譜データＤ１は、各音符の音高や強度に関する情報、各音符内での音韻に関する情報（歌唱の場合のみ）、各音符の発音期間に関する情報、演奏記号に関する情報などを含んでいる。音響データＤ２は、音声の波形データである。音響データＤ２は、例えば、歌唱の波形データや、楽器音の波形データなどである。音声合成器１では、楽譜データＤ１と音響データＤ２を用いて、１曲のコンテンツが生成される。

【0015】

（２）音声合成器の機能構成
図２は、音声合成器１の機能ブロック図である。図２に示すように、音声合成器１は、制御部１００を備える。制御部１００は、変換部１１０、楽譜エンコーダ１１１、ピッチモデル１１２、分析部１２０、音響エンコーダ１２１、切換部１３１、切換部１３２、音響デコーダ１３３およびボコーダ１３４を備える。図２において、制御部１００は、音声合成プログラムＰ１を、ＲＡＭ１２を作業領域として利用しつつ、ＣＰＵ１１が実行することにより実現される機能部である。つまり、変換部１１０、楽譜エンコーダ１１１、ピッチモデル１１２、分析部１２０、音響エンコーダ１２１、切換部１３１、切換部１３２、音響デコーダ１３３およびボコーダ１３４は、音声合成プログラムＰ１がＣＰＵ１１により実行されることにより実現される機能部である。また、楽譜エンコーダ１１１、音響エンコーダ１２１および音響デコーダ１３３は、訓練プログラムＰ２が、ＲＡＭ１２を作業領域として利用しつつ、ＣＰＵ１１により実行されることによりその機能を学習する。

【0016】

変換部１１０は、楽譜データＤ１を読み込み、楽譜データＤ１から種々の楽譜特徴データＳＦを生成する。変換部１１０は、その楽譜特徴データＳＦを楽譜エンコーダ１１１およびピッチモデル１１２に出力する。楽譜エンコーダ１１１が変換部１１０から取得する楽譜特徴データＳＦは各時点の音質を制御する因子であり、例えば、音高や強度や音素ラベルなどのコンテキストである。ピッチモデル１１２が変換部１１０から取得する楽譜特徴データＳＦは各時点の音高を制御する因子であり、例えば、音高および発音期間で特定される音符のコンテキストである。コンテキストは、各時点のデータに加えて、その前と後の少なくとも一方のデータを含む。

【0017】

楽譜エンコーダ１１１は、楽譜特徴データＳＦから中間特徴データＭＦ１を生成する。訓練済みの楽譜エンコーダ１１１は、楽譜特徴データＳＦから中間特徴データＭＦ１を生成する統計的モデルであり、記憶装置１６に記憶された複数の変数１１１＿Ｐにより規定される。楽譜エンコーダ１１１は、本実施の形態においては、楽譜特徴データＳＦに応じた中間特徴データＭＦ１を出力する生成モデルが利用される。楽譜エンコーダ１１１を構成する生成モデルとしては、例えば、畳み込みニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、それらの組合せなどが利用される。自己回帰モデルや、アテンション付きモデルでもよい。

【0018】

ピッチモデル１１２は、楽譜特徴データＳＦを読み込み、楽譜特徴データＳＦから楽曲中の音の基本周波数Ｆ０を生成する。ピッチモデル１１２は、取得した基本周波数Ｆ０を切換部１３２に出力する。訓練済みのピッチモデル１１２は、楽譜特徴データＳＦから楽曲中の音の基本周波数Ｆ０を生成する統計的モデルであり、記憶装置１６に記憶された複数の変数１１２＿Ｐにより規定される。ピッチモデル１１２は、本実施の形態においては、楽譜特徴データＳＦに応じた基本周波数Ｆ０を出力する生成モデルが利用される。ピッチモデル１１２を構成する生成モデルとしては、例えば、ＣＮＮ、ＲＮＮ、それらの組合せなどが利用される。自己回帰モデルや、アテンション付きモデルでもよい。逆に、もっとシンプルな隠れマルコフや、ランダムフォレストのモデルを用いてもよい。

【0019】

分析部１２０は、音響データＤ２を読み込み、音響データＤ２に対して周波数分析を行う。分析部１２０は、音響データＤ２に対して周波数分析を行うことにより、音響データＤ２の示す音の基本周波数Ｆ０および音響特徴データＡＦを生成する。音響特徴データＡＦは音響データＤ２の示す音の周波数スペクトルを示し、例えば、メル周波数対数スペクトル（ＭＳＬＳ：Ｍｅｌ－ＳｃａｌｅＬｏｇ－Ｓｐｅｃｔｒｕｍ）である。分析部１２０は、その基本周波数Ｆ０を切換部１３２に出力する。分析部１２０は、その音響特徴データＡＦを音響エンコーダ１２１に出力する。

【0020】

音響エンコーダ１２１は、音響特徴データＡＦから中間特徴データＭＦ２を生成する。訓練済みの音響エンコーダ１２１は、音響特徴データＡＦから中間特徴データＭＦ２を生成する統計的モデルであり、記憶装置１６に記憶された複数の変数１２１＿Ｐにより規定される。音響エンコーダ１２１は、本実施の形態においては、音響特徴データＡＦに応じた中間特徴データＭＦ２を出力する生成モデルが利用される。音響エンコーダ１２１を構成する生成モデルとしては、例えば、ＣＮＮ、ＲＮＮ、それらの組合せなどが利用される。

【0021】

切換部１３１は、楽譜エンコーダ１１１から中間特徴データＭＦ１を受け取る。切換部１３１は、音響エンコーダ１２１から中間特徴データＭＦ２を受け取る。切換部１３１は、楽譜エンコーダ１１１からの中間特徴データＭＦ１、または、音響エンコーダ１２１からの中間特徴データＭＦ２のいずれかを選択的に音響デコーダ１３３に出力する。

【0022】

切換部１３２は、ピッチモデル１１２から基本周波数Ｆ０を受け取る。切換部１３２は、分析部１２０から基本周波数Ｆ０を受け取る。切換部１３２は、ピッチモデル１１２からの基本周波数Ｆ０、または、分析部１２０からの基本周波数Ｆ０のいずれかを選択的に音響デコーダ１３３に出力する。

【0023】

音響デコーダ１３３は、中間特徴データＭＦ１または中間特徴データＭＦ２に基づいて、音響特徴データＡＦＳを生成する。音響特徴データＡＦＳは周波数振幅スペクトルであり、例えば、メル周波数対数スペクトルである。音響デコーダ１３３は、音響特徴データＡＦＳを生成する統計的モデルであり、記憶装置１６に記憶された複数の変数１３３＿Ｐにより規定される。音響デコーダ１３３は、本実施の形態においては、中間特徴データＭＦ１または中間特徴データＭＦ２に応じた音響特徴データＡＦＳを出力するモデルが利用される。音響デコーダ１３３を構成するモデルとしては、例えば、ＣＮＮ、ＲＮＮ、それらの組合せなどが利用される。自己回帰モデルや、アテンション付きモデルでもよい。

【0024】

ボコーダ１３４は、音響エンコーダ１２１から入力した音響特徴データＡＦＳに基づいて合成音響データＤ３を生成する。音響特徴データＡＦＳがメル周波数対数スペクトルである場合であれば、ボコーダ１３４は、音響エンコーダ１２１から入力したメル周波数対数スペクトルを時間領域の音響信号に変換し、合成音響データＤ３を生成する。

【0025】

（３）音声合成器が使用する情報
図３は、音声合成器１が使用するデータを示す。音声合成器１は、音声合成に関わるデータとして、楽譜データＤ１および音響データＤ２を使用する。楽譜データＤ１は、上述したように、楽曲を規定するデータである。楽譜データＤ１は、各音符の音高などに関する情報、各音符内の音韻に関する情報（歌唱の場合のみ）、各音符の発音期間に関する情報、演奏記号に関する情報などを含んでいる。音響データＤ２は、上述したように、音声の波形データである。音響データＤ２は、例えば、歌唱の波形データや、楽器音の波形データなどである。各歌唱の波形データには、その歌唱を行った歌唱者を示す音源ＩＤが付与されており、各楽器音の波形データには、その楽器を示す音源ＩＤが付与されている。音源ＩＤは、その波形データ示す音の生成源を示す。

【0026】

音声合成器１が使用する楽譜データＤ１には、基本学習用楽譜データＤ１＿Ｒおよび合成用楽譜データＤ１＿Ｓがある。音声合成器１が使用する音響データＤ２には、それらに対応する基本学習用音響データＤ２＿Ｒ、合成用音響データＤ２＿Ｓおよび補助学習用音響データＤ２＿Ｔがある。基本学習用音響データＤ２＿Ｒに対応する基本学習用楽譜データＤ１＿Ｒは、基本学習用音響データＤ２＿Ｒにおける演奏に対応する楽譜（音符列等）を示す。合成用音響データＤ２＿Ｓに対応する合成用楽譜データＤ１＿Ｓは、合成用音響データＤ２＿Ｓにおける演奏に対応する楽譜（音符列等）を示す。図１および図２の記憶装置１６には、楽譜データＤ１および音響データＤ２を図示しているが、実際には、楽譜データＤ１としては、基本学習用楽譜データＤ１＿Ｒおよび合成用楽譜データＤ１＿Ｓが記憶され、音響データＤ２としては、基本学習用音響データＤ２＿Ｒ、合成用音響データＤ２＿Ｓおよび補助学習用音響データＤ２＿Ｔが記憶される。

【0027】

基本学習用楽譜データＤ１＿Ｒは、楽譜エンコーダ１１１、音響エンコーダ１２１および音響デコーダ１３３の訓練に用いられるデータである。基本学習用音響データＤ２＿Ｒは、楽譜エンコーダ１１１、音響エンコーダ１２１および音響デコーダ１３３の訓練に用いられるデータである。基本学習用楽譜データＤ１＿Ｒおよび基本学習用音響データＤ２＿Ｒを用いて、楽譜エンコーダ１１１、音響エンコーダ１２１および音響デコーダ１３３が学習することにより、音声合成器１は、音源ＩＤで特定される音質の音声を合成可能な状態に設定される。

【0028】

合成用楽譜データＤ１＿Ｓは、特定の音質の音声を合成可能な状態となった音声合成器１に与えられるデータである。音声合成器１は、合成用楽譜データＤ１＿Ｓに基づいて音源ＩＤで特定される音質の音声の合成音響データＤ３を生成する。例えば、歌唱合成の場合、音声合成器１は、歌詞（音韻）およびメロディー（音符列）が与えられることにより、音源ＩＤで特定される歌手の歌声を合成出力できる。楽器音合成の場合、メロディ（音符列）を与えることにより、音源ＩＤで特定される楽器の演奏音を合成出力できる。

【0029】

合成用音響データＤ２＿Ｓは、特定の音質の音声を合成可能な状態となった音声合成器１に与えられるデータである。音声合成器１は、合成用音響データＤ２＿Ｓに基づいて音源ＩＤで特定される音質の音声の合成音響データＤ３を生成する。例えば、音声合成器１は、任意の音源ＩＤの歌手または楽器音の合成用音響データＤ２＿Ｓが与えられることにより、それとは異なる音源ＩＤで特定される歌手の歌声や楽器の演奏音を合成出力する。この機能を利用することにより、音声合成器１は、ある種の音質変換器として機能する。

【0030】

補助学習用音響データＤ２＿Ｔは、音響デコーダ１３３の訓練に用いられるデータである。補助学習用音響データＤ２＿Ｔは、音響デコーダ１３３により合成される音質を変更するための学習データである。補助学習用音響データＤ２＿Ｔを用いて、音響デコーダ１３３が学習することにより、音声合成器１は、新たな別の歌手の歌声を合成可能な状態に設定される。

【0031】

（４）基本訓練方法
次に、本実施の形態に係る音声合成器１の基本訓練方法について説明する。図４は、本実施の形態に係る音声合成器１の基本訓練方法を示すフローチャートである。基本訓練では、音声合成器１が備える楽譜エンコーダ１１１、音響エンコーダ１２１および音響デコーダ１３３が訓練される。図４で示される基本訓練方法は、機械学習の処理ステップ毎に、訓練プログラムＰ２がＣＰＵ１１により実行されることにより実現される。１回の処理ステップでは、周波数分析の複数フレーム分に相当する音響データが処理される。

【0032】

図４の基本訓練方法を実行する前に、教師データとして、音源ＩＤ毎に、基本学習用楽譜データＤ１＿Ｒおよび対応する基本学習用音響データＤ２＿Ｒが複数セット準備され、記憶装置１６に記憶される。教師データとして準備される基本学習用楽譜データＤ１＿Ｒおよび基本学習用音響データＤ２＿Ｒは、各音源ＩＤで特定される音質の楽曲を基本訓練するために準備されたデータである。ここでは、基本学習用楽譜データＤ１＿Ｒおよび基本学習用音響データＤ２＿Ｒが、複数の音源ＩＤで特定される複数の歌手の歌声を基本訓練するために準備されたデータである場合を例に説明する。

【0033】

ステップＳ１０１において、変換部１１０としてのＣＰＵ１１が、基本学習用楽譜データＤ１＿Ｒに基づいて楽譜特徴データＳＦを生成する。本実施の形態においては、音響特徴の生成のための楽譜の特徴を示す楽譜特徴データＳＦとして、例えば、音素ラベルを示すデータが用いられる。次に、ステップＳ１０２において、分析部１２０としてのＣＰＵ１１が、音源ＩＤで音質が特定される基本学習用音響データＤ２＿Ｒに基づいて周波数スペクトルを示す音響特徴データＡＦを生成する。本実施の形態においては、音響特徴データＡＦとして、例えば、メル周波数対数スペクトルが用いられる。なお、ステップＳ１０２の処理をステップＳ１０１の処理の前に実行してもよい。

【0034】

次に、ステップＳ１０３において、ＣＰＵ１１が、楽譜エンコーダ１１１を用いて、楽譜特徴データＳＦを処理して、中間特徴データＭＦ１を生成する。次に、ステップＳ１０４において、ＣＰＵ１１が、音響エンコーダ１２１を用いて、音響特徴データＡＦを処理して、中間特徴データＭＦ２を生成する。なお、ステップＳ１０４の処理をステップＳ１０３の処理の前に実行してもよい。

【0035】

次に、ステップＳ１０５において、ＣＰＵ１１が、音響デコーダ１３３を用いて、基本学習用音響データＤ２＿Ｒの音源ＩＤと基本周波数Ｆ０と中間特徴データＭＦ１とを処理して音響特徴データＡＦＳ１を生成し、また、その音源ＩＤと基本周波数Ｆ０と中間特徴データＭＦ２とを処理して音響特徴データＡＦＳ２を生成する。本実施の形態においては、周波数スペクトルを示す音響特徴データＡＦＳとして、例えば、メル周波数対数スペクトルが用いられる。なお、音響デコーダ１３３は、音響デコードを実行するときに、切換部１３２から基本周波数Ｆ０を入力する。基本周波数Ｆ０は、入力データが基本学習用楽譜データＤ１＿Ｒである場合には、ピッチモデル１１２により生成され、入力データが基本学習用音響データＤ２＿Ｒである場合には、分析部１２０により生成される。また、音響デコーダ１３３は、音響デコードを実行するときに、歌手を特定する識別しとして音源ＩＤを入力する。これら基本周波数Ｆ０および音源ＩＤは、中間特徴データＭＦ１，ＭＦ２とともに、音響デコーダ１３３を構成する生成モデルへの入力値となる。

【0036】

次に、ステップＳ１０６において、ＣＰＵ１１が、中間特徴データＭＦ１および中間特徴データＭＦ２が相互に近づくように、かつ、音響特徴データＡＦＳが正解である音響特徴データＡＦに近づくように、楽譜エンコーダ１１１、音響エンコーダ１２１および音響デコーダ１３３を訓練する。つまり、中間特徴データＭＦ１は楽譜特徴データＳＦ（例えば、音素ラベルを示す）から生成され、中間特徴データＭＦ２は周波数スペクトル（例えば、メル周波数対数スペクトル）から生成されるが、これら２つの中間特徴データＭＦ１，ＭＦ２の距離が相互に近づくように、楽譜エンコーダ１１１の生成モデルおよび音響エンコーダ１２１の生成モデルが訓練される。

【0037】

具体的には、中間特徴データＭＦ１と中間特徴データＭＦ２の間の差を減らすように、その差のバックプロバケーションが実行され、楽譜エンコーダ１１１の変数１１１＿Ｐおよび音響エンコーダ１２１の変数１２１＿Ｐが更新される。中間特徴データＭＦ１および中間特徴データＭＦ２の差としては、例えば、これら２つのデータを表すベクトルのユークリッド距離が用いられる。並行して、音響デコーダ１３３から生成された音響特徴データＡＦＳが教師データである基本学習用音響データＤ２＿Ｒから生成された音響特徴データＡＦに近づくように、誤差のバックプロバケーションが実行され、楽譜エンコーダ１１１の変数１１１＿Ｐ、音響エンコーダ１２１の変数１２１＿Ｐおよび音響デコーダ１３３の変数１３３＿Ｐが更新される。

【0038】

１つの処理ステップ（ステップＳ１０１～Ｓ１０６）の学習処理を、複数の教師データである基本学習用楽譜データＤ１＿Ｒおよび基本学習用音響データＤ２＿Ｒについて、繰り返し実行することにより、楽譜エンコーダ１１１、音響エンコーダ１２１および音響デコーダ１３３が、各音源ＩＤで特定される特定の音質であり、楽譜特徴量に応じて音質が変化する音響データ（歌手の歌声や、楽器の演奏音に対応）を合成可能な状態に訓練される。具体的には、訓練済みの音声合成器１は、楽譜データＤ１に基づいて、楽譜エンコーダ１１１および音響デコーダ１３３を用いて、訓練済みの特定の音質の音声（歌声や楽器音）を合成可能である。また、訓練済みの音声合成器１は、音響データＤ２に基づいて、音響エンコーダ１２１および音響デコーダ１３３を用いて、訓練済みの特定の音質の音声（歌声や楽器音）を合成可能である。

【0039】

上述したように、音響デコーダ１３３の訓練では、各基本学習用音響データＤ２＿Ｒに付与された音源ＩＤを入力値として利用する。したがって、音響デコーダ１３３は、複数の音源ＩＤの基本学習用音響データＤ２＿Ｒを利用することにより、複数の歌手の歌声や複数の楽器の演奏音を相互に区別して学習可能である。

【0040】

（５）音声合成方法
次に、本実施の形態に係る音声合成器１による、指定された音源ＩＤの音質の音声を合成する方法について説明する。図５は、本実施の形態に係る音声合成器１による音声合成方法を示すフローチャートである。図５で示される音声合成方法は、周波数分析のフレームに相当する時間ごとに、音声合成プログラムＰ１がＣＰＵ１１により実行されることにより実現される。説明の簡略化のため、ここでは合成用楽譜データＤ１＿Ｓからの基本周波数Ｆ０の生成と、合成用音響データＤ２＿Ｓからの基本周波数Ｆ０の生成とが、予め完了しているものとする。なお、それら基本周波数Ｆ０の生成を、図５の処理とパラレルに実行してもよい。

【0041】

ステップＳ２０１において、変換部１１０としてのＣＰＵ１１が、ユーザインタフェースの時間軸上の当該フレームの時刻の前後に配置された合成用楽譜データＤ１＿Ｓを取得する。または、分析部１２０が、ユーザインタフェースの時間軸上の当該フレームの時刻の前後に配置された合成用音響データＤ２＿Ｓを取得する。図６は、音声合成プログラムＰ１が表示部１５に表示するユーザインタフェース２００を示す図である。本実施の形態においては、ユーザインタフェース２００として、例えば、時間軸と音高軸とを有するピアノロールが用いられる。図６に示すように、ユーザは、操作部１４を操作して、ピアノロールにおいて、所望の時刻および音高に対応する位置に、合成用楽譜データＤ１＿Ｓ（音符またはテキスト）および合成用音響データＤ２＿Ｓ（波形データ）を配置する。図の期間Ｔ１，Ｔ２およびＴ４においては、ユーザによって、合成用楽譜データＤ１＿Ｓが、ピアノロールに配置されている。期間Ｔ１において、ユーザは、音高を伴わないテキスト（曲中の語り）のみを配置している（ＴＴＳ機能）。期間Ｔ２およびＴ４において、ユーザは、音符（音高および発音期間）の時系列と、各音符で歌われる歌詞とを配置している（歌声合成機能）。図において、ブロック２０１は、音符の音高および発音期間を表している。また、ブロック２０１の下に、その音符で歌われる歌詞（音韻）が表示される。また、期間Ｔ３およびＴ５において、ユーザは、合成用音響データＤ２＿Ｓを、ピアノロールの所望の時刻位置に配置している（音質変換機能）。図において、波形２０２は、合成用音響データＤ２＿Ｓ（波形データ）の示す波形であり、音高軸方向の位置は任意である。或いは、波形２０２を、合成用音響データＤ２＿Ｓの基本周波数Ｆ０に対応する位置に自動配置してもよい。また、図では歌唱合成のために音符に加えて歌詞が配置されているが、楽器音合成では、歌詞やテキストの配置は必要ない。

【0042】

次に、ステップＳ２０２において、制御部１００であるＣＰＵ１１は、現時刻に取得したデータが合成用楽譜データＤ１＿Ｓであるか否かを判定する。取得したデータが合成用楽譜データＤ１＿Ｓ（音符）である場合、処理はステップＳ２０３に進む。ステップＳ２０３において、ＣＰＵ１１は、その合成用楽譜データＤ１＿Ｓから楽譜特徴データＳＦを生成し、楽譜エンコーダ１１１を用いて、その楽譜特徴データＳＦを処理して中間特徴データＭＦ１を生成する。楽譜特徴データＳＦは、歌唱合成なら音韻の特徴を示し、生成される歌唱の音質がその音韻に応じて制御される。また、楽器音合成なら、楽譜特徴データＳＦは音符の音高や強度を示し、生成される楽器音の音質がその音高や強度に応じて制御される。

【0043】

次に、ステップＳ２０４において、制御部１００としてのＣＰＵ１１は、現時刻に取得したデータが合成用音響データＤ２＿Ｓであるか否かを判定する。取得したデータが合成用音響データＤ２＿Ｓ（波形データ）である場合、処理はステップＳ２０５に進む。ステップＳ２０５において、ＣＰＵ１１は、その合成用音響データＤ２＿Ｓから音響特徴量ＡＦ（周波数スペクトル）を生成し、音響エンコーダ１２１を用いて、その音響特徴量ＡＦを処理して中間特徴データＭＦ２を生成する。

【0044】

ステップＳ２０３またはステップＳ２０５を実行した後、処理はステップＳ２０６に進む。ステップＳ２０６において、ＣＰＵ１１は、音響デコーダ１３３を用いて、その時点で指定されている音源ＩＤと、その時点の基本周波数Ｆ０と、その時点で生成された中間特徴データＭＦ１または中間特徴データＭＦ２とを処理して音響特徴データＡＦＳを生成する。基本訓練で生成される２つの中間特徴データが相互に近づくよう訓練されるので、音響特徴データＡＦから生成される中間特徴データＭＦ２は、楽譜特徴データから生成される中間特徴データＭＦ１と同様に、対応する楽譜の特徴を反映する。本実施の形態においては、音響デコーダ１３３は、順次生成される中間特徴データＭＦ１および中間特徴データＭＦ２を時間軸上で結合した上でデコード処理を実行し、音響特徴データＡＦＳを生成する。

【0045】

次に、ステップＳ２０７において、ボコーダ１３４としてのＣＰＵ１１が、周波数スペクトルを示す音響特徴データＡＦＳに基づいて、基本的に音源ＩＤが示す音質で、さらに、その音質が音韻や音高に応じて変化する波形データである合成音響データＤ３を生成する。中間特徴データＭＦ１および中間特徴データＭＦ２が時間軸上で結合された上で音響特徴データＡＦＳが生成されているため、曲中のつなぎが自然な合成音響データＤ３のコンテンツが生成される。図７は、音声合成処理結果を表示するユーザインタフェース２００を示す図である。図７において、期間Ｔ１～Ｔ５の全体において、生成された基本周波数（Ｆ０）２１１が表示されている。期間Ｔ１においては、合成音響データＤ３の波形２１２が基本周波数に重ねて表示されている。期間Ｔ３，Ｔ５においては、合成音響データＤ３の波形２１３が基本周波数に重ねて表示されている。

【0046】

（６）音響デコーダ訓練方法
図８は、本実施の形態に係る音声合成器１の補助訓練方法を示すフローチャートである。補助訓練では、音声合成器１が備える音響デコーダ１３３が訓練される。図８で示される補助訓練方法は、訓練プログラムＰ２が実行されることにより実現される。図８の補助訓練方法を実行する前に、教師データとして、所定の音源ＩＤで特定される新たな音質の補助学習用音響データＤ２＿Ｔが準備され、記憶装置１６に記憶される。教師データとして準備される補助学習用音響データＤ２＿Ｔは、基本訓練された音響デコーダ１３３の音質を変更するために準備されたデータである。補助学習用音響データＤ２＿Ｔは、通常、基本訓練に用いた基本学習用音響データＤ２＿Ｒとは異なる音響データであるが、その音響データの音源ＩＤは基本学習用音響データＤ２＿Ｒと同じ、つまり同じ歌手や同じ楽器の音響データであってもよい。つまり、音響デコーダ１３３に、新たな歌手や楽器の音質を学習させることも、既に学習済の歌手や楽器の音質を改善させることもできる。

【0047】

まず、ステップＳ３０１において、分析部１２０であるＣＰＵ１１が、補助学習用音響データＤ２＿Ｔに基づいて基本周波数Ｆ０と音響特徴データＡＦとを生成する。本実施の形態においては、補助学習用音響データＤ２＿Ｔの周波数スペクトルを示す音響特徴データＡＦとして、例えば、メル周波数対数スペクトルが用いられる。この音響デコーダ訓練では、補助学習用音響データＤ２＿Ｔだけを用いて、別の音質（例えば、新たな歌手の歌声）を生成モデルに学習させる。したがって、音響デコーダ訓練において楽譜データＤ１は不要である。つまり、ＣＰＵ１１は、音素ラベルのない補助学習用音響データＤ２＿Ｔを用いて音響デコーダ１３３を訓練する。

【0048】

次に、ステップＳ３０２において、ＣＰＵ１１は、音響エンコーダ１２１を用いて、音響特徴データＡＦを処理して、中間特徴データＭＦ２を生成する。続いて、ステップＳ３０３において、ＣＰＵ１１が、音響デコーダ１３３を用いて、補助学習用音響データＤ２＿Ｔの音源ＩＤと基本周波数Ｆ０と中間特徴データＭＦ２とを処理して、音響特徴データＡＦＳを生成する。続いて、ステップＳ３０４において、ＣＰＵ１１が、音響特徴データＡＦＳが補助学習用音響データＤ２＿Ｔから生成された音響特徴データＡＦに近づくように、音響デコーダ１３３を訓練する。つまり、楽譜エンコーダ１１１および音響エンコーダ１２１は訓練せず、音響デコーダ１３３のみを訓練する。このように、本実施の形態の補助訓練方法によれば、訓練に音素ラベルのない補助学習用音響データＤ２＿Ｔを使えるので、教師データを準備する手間とコストをかけずに音響デコーダ１３３を訓練できる。

【0049】

図９は、音響デコーダの訓練方法に係るユーザインタフェース２００を示す図である。ユーザの録音指示に応じて、ＣＰＵ１１は、例えば１曲分の歌手の歌声や楽器の演奏音を新たに録音し音源ＩＤを付与する。その音源が学習済であれば、それと同じ音源ＩＤを付与し、未学習であれば新たな音源ＩＤを付与する。録音された１トラック分の波形データが補助学習用音響データＤ２＿Ｔである。この録音は、伴奏トラックを再生しながら行われても良い。図９において波形２２１は、補助学習用音響データＤ２＿Ｔの示す波形である。音響デコーダの補助訓練後であれば、ユーザが歌唱した音声や演奏した楽器音を、音声合成器１に接続されたマイクを介して直接取り込んでリアルタイムに音質変換処理してもよい。ＣＰＵ１１が、その補助学習用音響データＤ２＿Ｔを用いて図８の補助訓練処理を行うことで、音響デコーダ１３３は、新たな歌声や楽器音の性質を例えば１曲分学習し、その声質の歌声や楽器音を合成可能となる。図９は、さらに、ユーザの音符配置指示に応じて、ＣＰＵ１１が、録音された波形データの時間軸上の期間Ｔ１２に３つの音符（合成用楽譜データＤ１＿Ｓ）を配置した様子を示す。図では歌唱合成のために各音符の歌詞が入力されているが、楽器音合成であれば、歌詞は不要である。ＣＰＵ１１は、期間Ｔ１２について、補助訓練された音声合成器１を用いて、その合成用楽譜データＤ１＿Ｓを処理し、補助学習用音響データＤ２＿Ｔの音源ＩＤの示す音質の音声合成を行う。ＣＰＵ１１は、期間Ｔ１２は、音源ＩＤの示す音質で音声合成された合成音響データＤ３であり、区間Ｔ１１は、補助学習用音響データＤ２＿Ｔであるコンテンツを生成する。或いは、期間Ｔ１２は、音源ＩＤの示す音質で音声合成された合成音響データＤ３であり、区間Ｔ１１は、補助学習用音響データＤ２＿Ｔを入力として音声合成器１により合成されたその音源ＩＤの音質の合成音響データＤ３であるコンテンツを生成してもよい。

【0050】

（７）他の実施の形態
上述した本実施の形態の音声合成器１を用いることで、合成用楽譜データＤ１＿Ｓに基づいて音声合成された曲中に、ユーザの歌声や演奏した楽器音を挿入することも可能である。図１０は、音声合成器１において音声合成された曲を再生するユーザインタフェース２００を示している。期間Ｔ２１およびＴ２３は、ユーザにより合成用楽譜データＤ１＿Ｓが配置されており、ＣＰＵ１１によって、ユーザの指定した音源ＩＤの示す音質で歌唱合成が実行される。図１０に示すユーザインタフェース２００を表示させた状態で、ユーザがオーバーダビングの開始を指示すると、ＣＰＵ１１は、音声合成プログラムＰ１を実行して、その音源ＩＤの示す音質の合成音響データＤ３の再生を行う。このとき、ユーザインタフェース２００において現在時刻位置がタイムバー２１４によって示される。ユーザは、タイムバー２１４の位置を見ながら歌唱を行う。ユーザが歌唱した音声は、音声合成器１に接続されたマイクを介して収音され、合成用音響データＤ２＿Ｓとして記録される。図において、波形２０２は、合成用音響データＤ２＿Ｓの波形を示す。ＣＰＵ１１は、音響エンコーダ１２１および音響デコーダ１３３を用いて、合成用音響データＤ２＿Ｓを処理し、その音源ＩＤが示す音質の合成音響データＤ３を生成する。図１１は、合成音響データＤ３の波形２１５が結合されたユーザインタフェース２００を示す。ＣＰＵ１１は、期間Ｔ２１およびＴ２３は、合成用楽譜データＤ１＿Ｓから歌唱合成された音源ＩＤの示す音質の合成音響データＤ３であり、期間Ｔ２２は、ユーザ歌唱から歌唱合成されたその音源ＩＤの示す音質の合成音響データＤ３であるコンテンツを生成する。

【0051】

上述した実施の形態においては、音声合成器１が音源ＩＤで特定される歌手の歌声を合成する場合を例に説明した。本実施の形態の音声合成器１は、特定の歌手の歌声を合成する以外にも、様々な音質の音声を合成する用途に利用可能である。例えば、音声合成器１は、音源ＩＤで特定される楽器の演奏音を合成する用途に利用可能である。

【0052】

上述した実施の形態においては、合成用楽譜データＤ１＿Ｓに基づいて生成された中間特徴データＭＦ１と、合成用音響データＤ２＿Ｓに基づいて生成された中間特徴データＭＦ２とを時間軸上で結合した上で、音響特徴データＡＦＳを生成した。別の実施の形態として、中間特徴データＭＦ１に基づいて生成される音響特徴データＡＦＳと、中間特徴データＭＦ２に基づいて生成される音響特徴データＡＦＳとを結合した上で、合成音響データＤ３を生成してもよい。あるいは、別の実施の形態として、中間特徴データＭＦ１に基づいて生成される音響特徴データＡＦＳから合成音響データＤ３を生成し、中間特徴データＭＦ２に基づいて生成される音響特徴データＡＦＳから合成音響データＤ３を生成し、これら２つの合成音響データＤ３を結合してもよい。

【0053】

本実施の形態の音声合成器１は、音素ラベルなしの合成用音響データＤ２＿Ｓを利用してある音源ＩＤで特定される歌手の歌声を合成することができる。これにより、音声合成器１を、クロス言語合成器として利用することが可能である。つまり、音響デコーダ１３３が、当該音源ＩＤについて日本語の音響データでのみ訓練されている場合であっても、別の音源ＩＤで英語の音響データで訓練されていれば、英語の歌詞の合成用音響データＤ２＿Ｓを与えることによって、当該音源ＩＤの音質での英語言語による歌唱を生成することが可能である。

【0054】

上記の実施の形態においては音声合成プログラムＰ１および訓練プログラムＰ２は、記憶装置１６に記憶されている場合を例に説明した。音声合成プログラムＰ１および訓練プログラムＰ２は、コンピュータが読み取り可能な記録媒体ＲＭに格納された形態で提供され、記憶装置１６またはＲＯＭ１３にインストールされてもよい。また、音声合成器１が通信インタフェース１９を介してネットワークに接続されている場合、ネットワークに接続されたサーバから配信された音声合成プログラムＰ１または訓練プログラムＰ２が記憶装置１６またはＲＯＭ１３にインストールされてもよい。あるいは、ＣＰＵ１１が記憶媒体ＲＭにデバイスインタフェース１８を介してアクセスし、記憶媒体ＲＭＦに記憶されている音声合成プログラムＰ１または訓練プログラムＰ２を実行してもよい。

【0055】

（８）実施の形態の効果
以上説明したように、本実施の形態に係る音声合成方法は、コンピュータにより実現される音声合成方法であって、楽譜データＤ１の楽譜特徴量から第１中間特徴量（中間特徴データＭＦ１）を生成する楽譜エンコーダ１１１、音響データＤ２の音響特徴量から第２中間特徴量（中間特徴データＭＦ２）を生成する音響エンコーダ１２１、および、第１中間特徴量（中間特徴データＭＦ１）または第２中間特徴量（中間特徴データＭＦ２）に基づいて音響特徴量（音響特徴データＡＦＳ）を生成する音響デコーダ１３３を準備し、補助学習用音響データＤ２＿Ｔを受け取り、音響エンコーダ１２１を用いて補助学習用音響データＤ２＿Ｔの音響特徴量から生成される第２中間特徴量（中間特徴データＭＦ２）と、補助学習用音響データＤ２＿Ｔの音響特徴量とを用いて、前記補助学習用音響データＤ２＿Ｔの音響特徴量に近い音響特徴量（音響特徴データＡＦＳ）を生成するよう、音響デコーダ１３３を補助訓練し、ユーザインタフェース２００を介して、補助学習用音響データＤ２＿Ｔの時間軸上に配置された楽譜データＤ１を受け取り、楽譜エンコーダ１１１を用いて配置された楽譜データＤ１から生成される第１中間特徴量（中間特徴データＭＦ１）を、補助訓練済みの音響デコーダ１３３で処理することにより、音響特徴量（音響特徴データＡＦＳ）を生成する。これにより、録音された特定の音質の音響データに対して、同じ音質の音響データを追加することや、その音質を保ったまま音響データを部分的に修正することが容易に行える。

【0056】

準備することは、楽譜エンコーダ１１１が基本学習用楽譜データＤ１＿Ｒに基づいて生成する第１中間特徴量（中間特徴データＭＦ１）および音響エンコーダ１２１が基本学習用音響データＤ２＿Ｒに基づいて生成する第２中間特徴量（中間特徴データＭＦ２）が近づくように、かつ、音響デコーダ１３３により生成される音響特徴量（音響特徴データＡＦＳ）が、基本学習用音響データＤ２＿Ｒから取得される音響特徴量に近づくように、楽譜エンコーダ１１１、音響エンコーダ１２１および音響デコーダ１３３を訓練することを含んでもよい。音響デコーダ１３３は、楽譜データＤ１に基づいて生成された中間特徴データＭＦ１、または、音響データＤ２に基づいて生成された中間特徴データＭＦ２のいずれに対しても音響特徴データＡＦＳを生成可能である。

【0057】

音色を指定する第１識別子に基づいて音響デコーダ１３３が訓練されてもよい。識別子に応じた音質の合成音声を生成することが可能である。

【0058】

音色を指定する第２識別子に基づいて、音響デコーダ１３３が第１識別子で指定される音色とは異なる音色で訓練されてもよい。識別子に応じて異なる音質の合成音声を生成することが可能である。

【0059】

本実施の形態に係る音響デコーダの音声合成プログラムは、コンピュータに音声合成方法を実行させるプログラムであって、当該プログラムに基づきコンピュータは、楽譜データＤ１の楽譜特徴量から第１中間特徴量（中間特徴データＭＦ１）を生成する楽譜エンコーダ１１１、音響データＤ２の楽譜特徴量から第２中間特徴量（中間特徴データＭＦ２）を生成する音響エンコーダ１２１、および、第１中間特徴量（中間特徴データＭＦ１）または第２中間特徴量（中間特徴データＭＦ２）に基づいて音響特徴量（音響特徴データＡＦＳ）を生成する音響デコーダ１３３を準備し、補助学習用音響データＤ２＿Ｔを受け取り、音響エンコーダ１２１を用いて補助学習用音響データＤ２＿Ｔの音響特徴量から生成される第２中間特徴量（中間特徴データＭＦ２）と、補助学習用音響データＤ２＿Ｔの音響特徴量とを用いて、補助学習用音響データＤ２＿Ｔの音響特徴量に近い音響特徴量（音響特徴データＡＦＳ）を生成するよう、音響デコーダ１３３を補助訓練し、ユーザインタフェース２００を介して、補助学習用音響データＤ２＿Ｔの時間軸上に配置された楽譜データＤ１を受け取り、楽譜エンコーダ１１１を用いて配置された楽譜データＤ１から生成される第１中間特徴量（中間特徴データＭＦ１）を、補助訓練済みの音響デコーダ１３３で処理することにより、音響特徴量（音響特徴データＡＦＳ）を生成する。これにより、録音された特定の音質の音響データに対して、同じ音質の音響データを追加することや、その音質を保ったまま音響データを部分的に修正することが容易に行える。

【符号の説明】

【0060】

１００…制御部、１１０…変換部、１１１…楽譜エンコーダ、１２０…分析部、１２１…音響エンコーダ、１３１…切換部、１３３…音響デコーダ、１３４…ボコーダ、Ｄ１…楽譜データ、Ｄ２…音響データ、Ｄ３…合成音響データ、ＳＦ…楽譜特徴データ、ＡＦ…音響特徴データ、ＭＦ１，ＭＦ２…中間特徴データ、ＡＦＳ…音響特徴データ

【図1】