IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社 ディー・エヌ・エーの特許一覧

特開2023-14765音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法
<>
  • 特開-音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法 図1
  • 特開-音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法 図2
  • 特開-音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法 図3
  • 特開-音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法 図4
  • 特開-音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法 図5
  • 特開-音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023014765
(43)【公開日】2023-01-31
(54)【発明の名称】音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法
(51)【国際特許分類】
   G10L 13/10 20130101AFI20230124BHJP
   G10L 25/30 20130101ALI20230124BHJP
【FI】
G10L13/10 112B
G10L13/10 111F
G10L13/10 111A
G10L13/10 111E
G10L25/30
【審査請求】未請求
【請求項の数】11
【出願形態】OL
(21)【出願番号】P 2021118913
(22)【出願日】2021-07-19
(71)【出願人】
【識別番号】599115217
【氏名又は名称】株式会社 ディー・エヌ・エー
(74)【代理人】
【識別番号】110001210
【氏名又は名称】弁理士法人YKI国際特許事務所
(72)【発明者】
【氏名】大西 弘太郎
(72)【発明者】
【氏名】滝口 啓介
(72)【発明者】
【氏名】豆谷 浩輝
(72)【発明者】
【氏名】森 紘一郎
(57)【要約】
【課題】ソース話者とは異なるターゲット話者が発した音声を合成して出力する音声合成装置を提供する。
【解決手段】内容情報を音素潜在表現に変換するエンコーダ20と内容情報についてソース話者音声から音素の長さを特徴量として抽出する特徴量抽出器26と音素の長さに応じて音素潜在表現の長さを調整する音長調整部32と、音素のピッチを予測し、当該ピッチの予測値に応じて音素潜在表現のピッチを調整するピッチ予測器34と音素のエネルギーを予測し、当該エネルギーの予測値に応じて音素潜在表現のエネルギーを調整するエネルギー予測器36と音素潜在表現をデコードして所定の出力特徴量に変換するデコーダ24と、を備え、エンコーダ20、ピッチ予測器34、エネルギー予測器36及びデコーダ24は、出力特徴量がソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように訓練されている音声合成装置100とする。
【選択図】図4
【特許請求の範囲】
【請求項1】
音声の内容を示す内容情報を音素潜在表現に変換するエンコーダと、
前記内容情報についてソース話者が発したソース話者音声から音素の長さを特徴量として抽出する特徴量抽出器と、
前記音素の長さに応じて前記音素潜在表現の長さを調整する音長調整部と、
前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、
前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、
前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、
を備え、
前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記内容情報について前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声合成装置。
【請求項2】
請求項1に記載の音声合成装置であって、
前記出力特徴量は、前記ソース話者音声と等しい音長のパラレルデータである前記ターゲット話者音声を示す特徴量であることを特徴とする音声合成装置。
【請求項3】
請求項1又は2に記載の音声合成装置であって、
前記音素潜在表現に対して音素の長さを予測し、前記音長調整部へ出力する時間長予測器をさらに備え、
学習用の音声の内容を示す学習用内容情報を前記エンコーダに入力することによって得られた学習用音素潜在表現を用いて、
前記時間長予測器において、前記学習用音素潜在表現に対して音素の長さを予測し、
前記音長調整部において、前記音素の長さの予測値に応じて前記学習用音素潜在表現の長さを調整し、
前記ピッチ予測器において、前記学習用音素潜在表現の音素のピッチを予測し、当該ピッチの予測値に応じて前記学習用音素潜在表現のピッチを調整し、
前記エネルギー予測器において、前記学習用音素潜在表現の音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記学習用音素潜在表現のエネルギーを調整し、
前記デコーダにおいて、前記学習用音素潜在表現を前記出力特徴量に変換し、
前記特徴量抽出器において前記学習用内容情報について前記ターゲット話者が発した学習用ターゲット話者音声から音素の長さ、音素のピッチ、音素のエネルギー及び音素の出力特徴量を抽出し、
前記時間長予測器における音素の長さの予測値、前記ピッチ予測器における音素のピッチの予測値、前記エネルギー予測器における音素のエネルギーの予測値及び前記デコーダにおいて得られた出力特徴量の各々と、前記特徴量抽出器において抽出された音素の長さ、音素のピッチ、音素のエネルギー及び音素の出力特徴量の各々との誤差が最小となるように前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは機械学習により訓練されていることを特徴とする音声合成装置。
【請求項4】
コンピュータを、
音声の内容を示す内容情報を音素潜在表現に変換するエンコーダと、
前記内容情報についてソース話者が発したソース話者音声から音素の長さを特徴量として抽出する特徴量抽出器と、
前記音素の長さに応じて前記音素潜在表現の長さを調整する音長調整部と、
前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、
前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、
前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、
して機能させる音声合成プログラムであって、
前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記内容情報について前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声合成プログラム。
【請求項5】
コンピュータを、
音声の内容を示す内容情報を音素潜在表現に変換するエンコーダと、
前記内容情報についてソース話者が発したソース話者音声から音素の長さを特徴量として抽出する特徴量抽出器と、
前記音素の長さに応じて前記音素潜在表現の長さを調整する音長調整部と、
前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、
前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、
前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、
して機能させる音声合成方法であって、
前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記内容情報について前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声合成方法。
【請求項6】
ソース話者が発したソース話者音声から特徴量を抽出し、当該特徴量をソース話者音声特徴量として出力する第1特徴量抽出器と、
前記ソース話者特徴量を線形変換する線形変換層と、
前記線形変換層の出力を音素潜在表現に変換するエンコーダと、
前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、
前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、
前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、
前記出力特徴量を合成音声に変換するボコーダと、
を備え、
前記線形変換層、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声変換装置。
【請求項7】
請求項6に記載の音声変換装置であって、
学習用ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発した学習用ターゲット話者音声から音素のピッチ、音素のエネルギー及び出力特徴量を抽出する第2特徴量抽出器を備え、
前記線形変換層、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記ピッチ予測器における音素のピッチの予測値、前記エネルギー予測器における音素のエネルギーの予測値及び前記デコーダにおいて得られた出力特徴量の各々と、前記第2特徴量抽出器において抽出された音素のピッチ、音素のエネルギー及び音素の出力特徴量の各々との誤差が最小となるように機械学習により訓練されていることを特徴とする音声変換装置。
【請求項8】
請求項6又は7に記載の音声変換装置であって、
前記学習用ターゲット話者音声は、請求項1~3のいずれか1項に記載の音声合成装置によって前記学習用ソース話者音声の内容を示す内容情報を前記ターゲット話者が発した音声として合成した合成音声であることを特徴とする音声変換装置。
【請求項9】
請求項6~8のいずれか1項に記載の音声変換装置であって、
前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、請求項1~3のいずれか1項に記載の音声合成装置として機械学習により予め訓練された状態からさらに前記出力特徴量が前記ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声変換装置。
【請求項10】
コンピュータを、
ソース話者が発したソース話者音声から特徴量を抽出し、当該特徴量をソース話者音声特徴量として出力する第1特徴量抽出器と、
前記ソース話者特徴量を線形変換する線形変換層と、
前記線形変換層の出力を音素潜在表現に変換するエンコーダと、
前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、
前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、
前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、
前記出力特徴量を合成音声に変換するボコーダと、
して機能させる音声変換プログラムであって、
前記線形変換層、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声変換プログラム。
【請求項11】
コンピュータを、
ソース話者が発したソース話者音声から特徴量を抽出し、当該特徴量をソース話者音声特徴量として出力する第1特徴量抽出器と、
前記ソース話者特徴量を線形変換する線形変換層と、
前記線形変換層の出力を音素潜在表現に変換するエンコーダと、
前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、
前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、
前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、
前記出力特徴量を合成音声に変換するボコーダと、
して機能させる音声変換方法であって、
前記線形変換層、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声変換方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、音声合成装置、音声合成プログラム及び音声合成方法並びに音声変換装置、音声変換プログラム及び音声変換方法に関する。
【背景技術】
【0002】
テキストや音素等の情報を音声合成モデルに入力することによって音声を合成する音声合成装置が知られている。文字や音素に加えて、さらに話者が発生した音声から求められた話者の特徴を音声合成モデルに入力することによって、当該文字や音素に応じて当該話者が発生したような音声を合成する音声合成装置も知られている(非特許文献1,2)。また、ソース話者が発した音声を異なるターゲット話者が発した音声のように変換して出力する音声変換装置も知られている。このような音声変換装置は、動画配信、ボイスチャット、映画の吹き替えなどにおける利用が期待されている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】”Transfer Learning from Speaker Verification to Multi-speaker Text-To-Speech Synthesis”: https://arxiv.org/abs/1806.04558
【非特許文献2】”FastSpeech 2: Fast and High-Quality End-to-End Text to Speech”: https://arxiv.org/abs/2006.04558
【発明の概要】
【発明が解決しようとする課題】
【0004】
ところで、ソース話者の音声をターゲット話者の音声に変換する音声変換装置において音声変換モデルを機械学習させるためには多数の話者が発した音声を用いる必要がある。
【0005】
このとき、ソース話者とターゲット話者とで異なる内容の音声を用いるノンパラレルデータによる機械学習では、音声データを収集することは容易であり、音声データの収集のコストを低くできるという利点がある。一方、ソース話者とターゲット話者との音声の対応を取るのが困難であり、高品質な変換音声を得るためには高度な音声変換モデルを適用する必要がある。
【0006】
これに対して、ソース話者とターゲット話者とで同じ内容の音声を用いるパラレルデータによる機械学習では、同じテキストから音声を収集する必要があり、音声データを収集することは困難であり、音声データの収集のコストが高くなる。一方、ソース話者とターゲット話者との音声の対応を取り易く、高品質な変換音声を得ることが容易になる。ただし、同じテキストに基づいてソース話者とターゲット話者から音声を得た場合であっても、音声の長さ(時間長)は異なるものとなるため、ソース話者の音声とターゲット話者の音声との長さ(時間長)の対応を取るためにダイナミック・タイム・ワーピング(DTW:Dynamic Time Warping)のような技術が必要となる。
【課題を解決するための手段】
【0007】
本発明の1つの態様は、音声の内容を示す内容情報を音素潜在表現に変換するエンコーダと、前記内容情報についてソース話者が発したソース話者音声から音素の長さを特徴量として抽出する特徴量抽出器と、前記音素の長さに応じて前記音素潜在表現の長さを調整する音長調整部と、前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、を備え、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記内容情報について前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声合成装置である。
【0008】
ここで、前記出力特徴量は、前記ソース話者音声と等しい音長のパラレルデータである前記ターゲット話者音声を示す特徴量であることが好適である。
【0009】
また、前記音素潜在表現に対して音素の長さを予測し、前記音長調整部へ出力する時間長予測器をさらに備え、学習用の音声の内容を示す学習用内容情報を前記エンコーダに入力することによって得られた学習用音素潜在表現を用いて、前記時間長予測器において、前記学習用音素潜在表現に対して音素の長さを予測し、前記音長調整部において、前記音素の長さの予測値に応じて前記学習用音素潜在表現の長さを調整し、前記ピッチ予測器において、前記学習用音素潜在表現の音素のピッチを予測し、当該ピッチの予測値に応じて前記学習用音素潜在表現のピッチを調整し、前記エネルギー予測器において、前記学習用音素潜在表現の音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記学習用音素潜在表現のエネルギーを調整し、前記デコーダにおいて、前記学習用音素潜在表現を前記出力特徴量に変換し、前記特徴量抽出器において前記学習用内容情報について前記ターゲット話者が発した学習用ターゲット話者音声から音素の長さ、音素のピッチ、音素のエネルギー及び音素の出力特徴量を抽出し、前記時間長予測器における音素の長さの予測値、前記ピッチ予測器における音素のピッチの予測値、前記エネルギー予測器における音素のエネルギーの予測値及び前記デコーダにおいて得られた出力特徴量の各々と、前記特徴量抽出器において抽出された音素の長さ、音素のピッチ、音素のエネルギー及び音素の出力特徴量の各々との誤差が最小となるように前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは機械学習により訓練されていることが好適である。
【0010】
本発明の別の態様は、コンピュータを、音声の内容を示す内容情報を音素潜在表現に変換するエンコーダと、前記内容情報についてソース話者が発したソース話者音声から音素の長さを特徴量として抽出する特徴量抽出器と、前記音素の長さに応じて前記音素潜在表現の長さを調整する音長調整部と、前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、して機能させる音声合成プログラムであって、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記内容情報について前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声合成プログラムである。
【0011】
本発明の別の態様は、コンピュータを、音声の内容を示す内容情報を音素潜在表現に変換するエンコーダと、前記内容情報についてソース話者が発したソース話者音声から音素の長さを特徴量として抽出する特徴量抽出器と、前記音素の長さに応じて前記音素潜在表現の長さを調整する音長調整部と、前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、して機能させる音声合成方法であって、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記内容情報について前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声合成方法である。
【0012】
本発明の別の態様は、ソース話者が発したソース話者音声から特徴量を抽出し、当該特徴量をソース話者音声特徴量として出力する第1特徴量抽出器と、前記ソース話者特徴量を線形変換する線形変換層と、前記線形変換層の出力を音素潜在表現に変換するエンコーダと、前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、前記出力特徴量を合成音声に変換するボコーダと、を備え、前記線形変換層、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声変換装置である。
【0013】
ここで、学習用ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発した学習用ターゲット話者音声から音素のピッチ、音素のエネルギー及び出力特徴量を抽出する第2特徴量抽出器を備え、前記線形変換層、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記ピッチ予測器における音素のピッチの予測値、前記エネルギー予測器における音素のエネルギーの予測値及び前記デコーダにおいて得られた出力特徴量の各々と、前記第2特徴量抽出器において抽出された音素のピッチ、音素のエネルギー及び音素の出力特徴量の各々との誤差が最小となるように機械学習により訓練されていることが好適である。
【0014】
また、前記学習用ターゲット話者音声は、請求項1~3のいずれか1項に記載の音声合成装置によって前記学習用ソース話者音声の内容を示す内容情報を前記ターゲット話者が発した音声として合成した合成音声であることが好適である。
【0015】
また、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、請求項1~3のいずれか1項に記載の音声合成装置として機械学習により予め訓練された状態からさらに前記出力特徴量が前記ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることが好適である。
【0016】
本発明の別の態様は、コンピュータを、ソース話者が発したソース話者音声から特徴量を抽出し、当該特徴量をソース話者音声特徴量として出力する第1特徴量抽出器と、前記ソース話者特徴量を線形変換する線形変換層と、前記線形変換層の出力を音素潜在表現に変換するエンコーダと、前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、前記出力特徴量を合成音声に変換するボコーダと、して機能させる音声変換プログラムであって、前記線形変換層、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声変換プログラムである。
【0017】
本発明の別の態様は、コンピュータを、ソース話者が発したソース話者音声から特徴量を抽出し、当該特徴量をソース話者音声特徴量として出力する第1特徴量抽出器と、前記ソース話者特徴量を線形変換する線形変換層と、前記線形変換層の出力を音素潜在表現に変換するエンコーダと、前記音素潜在表現に対して音素のピッチを予測し、当該ピッチの予測値に応じて前記音素潜在表現のピッチを調整するピッチ予測器と、前記音素潜在表現に対して音素のエネルギーを予測し、当該エネルギーの予測値に応じて前記音素潜在表現のエネルギーを調整するエネルギー予測器と、前記音素潜在表現をデコードして所定の出力特徴量に変換するデコーダと、前記出力特徴量を合成音声に変換するボコーダと、して機能させる音声変換方法であって、前記線形変換層、前記エンコーダ、前記ピッチ予測器、前記エネルギー予測器及び前記デコーダは、前記出力特徴量が前記ソース話者音声の内容を前記ソース話者とは異なるターゲット話者が発したターゲット話者音声を示す特徴量となるように機械学習により訓練されていることを特徴とする音声変換方法である。
【発明の効果】
【0018】
本発明の実施の形態は、パラレルデータを生成するための音声合成装置、音声合成プログラム及び音声合成方法並びに当該パラレルデータを用いて学習された音声変換装置、音声変換プログラム及び音声変換方法を提供することを目的の1つとする。本発明の実施の形態の他の目的は、本明細書全体を参照することにより明らかになる。
【図面の簡単な説明】
【0019】
図1】本発明の実施の形態における音声合成装置の構成を示す図である。
図2】本発明の実施の形態における音声合成モデルを示す図である。
図3】本発明の実施の形態における時間長予測器、ピッチ予測器及びエネルギー予測器の構成例を示す図である。
図4】本発明の実施の形態における音声合成モデルを用いた音声合成処理を示す図である。
図5】本発明の実施の形態における音声変換モデルを示す図である。
図6】本発明の実施の形態における音声変換モデルを用いた音声変換処理を示す図である。
【発明を実施するための形態】
【0020】
[音声合成装置及び音声変換装置の構成]
本発明の実施の形態における音声合成装置100及び音声変換装置200は、図1に示すように、処理部10、記憶部12、入力部14、出力部16及び通信部18を含んで構成される。
【0021】
音声合成装置100及び音声変換装置200は、一般的なコンピュータにより構成することができる。処理部10は、CPU等を含んで構成され、音声合成装置100及び音声変換装置200における処理を統合的に行う。処理部10は、記憶部12に記憶されている音声合成プログラム及び音声変換プログラムを実行することにより、本実施の形態における音声合成処理及び音声変換処理を行う。記憶部12は、音声合成処理において用いられる音声合成モデル[エンコーダ(Encoder)、分散アダプタ(Variance Adaptor)、デコーダ(Decoder)]、モデル生成に必要な音声データ、テキストデータ等、音声合成処理において必要な情報を記憶する。また、記憶部12は、音声変換処理において用いられる音声変換モデル[線形変換層、エンコーダ(Encoder)、分散アダプタ(Variance Adaptor)、デコーダ(Decoder)]、モデル生成に必要な音声データ等、音声変換処理において必要な情報を記憶する。記憶部12は、例えば、半導体メモリ、ハードディスク等で構成することができる。記憶部12は、音声合成装置100及び音声変換装置200の内部に設けてもよいし、無線や有線等の情報網を利用して処理部10からアクセスできるように外部に設けてもよい。入力部14は、音声合成装置100及び音声変換装置200に対して情報を入力するための手段を含む。出力部16は、音声合成装置100及び音声変換装置200において処理された情報を表示させる手段を含む。通信部18は、外部の装置(サーバ等)との情報交換を行うためのインターフェースを含んで構成される。通信部18は、例えば、インターネット等の情報通信網に接続されることによって、外部の装置との通信を可能にする。
【0022】
[音声合成モデルの訓練]
以下、図2を参照して、本実施の形態における音声合成モデルの訓練方法について説明する。音声合成装置100は、音声合成モデル(エンコーダ、分散アダプタ、デコーダ)のための機械学習を行うことによって構成される。音声合成装置100を用いることによって、音声合成モデルに基づいて音声を自動合成する処理を行うことができる。
【0023】
音声合成装置100の音声合成モデルは、図2に示すように、エンコーダ20、分散アダプタ22、デコーダ24及び特徴量抽出器26を含んで構成される。
【0024】
音声合成モデルの構築には、ターゲット話者のテキストデータと音声データセットとを組み合わせた学習用データが用いられる。テキストデータは、ターゲット話者の発話を音声の内容を文字や音素で表したデータである。テキストデータは、音声合成装置100によって生成される音声の内容を示す内容情報として使用される。音声データは、テキストデータに含まれる文字や音素に対応する音声のデータである。ここでは、音声データは、ターゲット話者が発した音声のデータとする。
【0025】
なお、本実施の形態では、音声の内容を文字として表現したテキストデータを用いたがこれに限定されるものではない。テキストデータの代わりに、又は、テキストデータに加えて、音声の内容を他の方法で表したデータとしてもよい。例えば、音声の内容を音素で表した音素データとしてもよい。
【0026】
音声合成モデルの機械学習には、ターゲット話者が発話したテキストデータに対応する音声データがセットとして用いられる。これによって、音声合成装置100では、テキストデータ等の音声の内容を表現した入力データに基づいてターゲット話者が発したような音声を合成して出力するように訓練が行われる。
【0027】
エンコーダ20は、テキストデータ又は音素データを含む入力データを受けて、音素潜在表現に変換する。音素潜在表現は、入力データに含まれる各音素に対する言語的な特徴を表す特徴量である。エンコーダ20は、複数の畳み込み層及び正規層を組み合わせて構成することができる。エンコーダ20のニューラルネットワークの構成は、既存のエンコーダ20のニューラルネットワークの構成を適用することができる。エンコーダ20は、後述する分散アダプタ22及びデコーダ24と共に機械学習される。
【0028】
分散アダプタ22は、図2に示すように、時間長予測器(Duration Predictor)30、音長調整部(Length Regulator)32、ピッチ予測器(Pitch Prediction)34、エネルギー予測器(Energy Prediction)36を含んで構成される。
【0029】
時間長予測器30は、エンコーダ20から入力された音素潜在表現に含まれる各音素に対応するメルフレームの数から各音素の長さを予測する処理を行う。時間長予測器30における予測結果は対数ドメインに変換することが好適である。時間長予測器30は、後述する特徴量抽出器26において音声データから抽出された音素の長さに対して、各音素の長さの予測値との誤差を最小化するように最適化される。例えば、平均二乗誤差(MSE)損失を最小化するように最適化される。
【0030】
音長調整部32は、時間長予測器30で予測された各音素の長さの予測値に基づいて、エンコーダ20から入力された入力データに含まれる音素潜在表現の各音素の長さを調整して拡張音素潜在表現として出力する。したがって、音長調整部32では、生成される合成音声の長さが決定される。
【0031】
ピッチ予測器34は、時間長予測器30及び音長調整部32において処理された音素潜在表現に含まれる各音素に対する音の高低(ピッチ)を予測する処理を行う。ピッチ予測器34は、音の構成の変動をより正確に予測するために、連続ウェーブレット変換(CWT)を使用して連続的な音の高低の繋がりをピッチスペクトログラムに分解し、ピッチスペクトログラムをトレーニングターゲットとして使用することが好適である。ピッチ予測器34は、後述する特徴量抽出器26において音声データから抽出された音素の高低(ピッチ)に対して、各音素の高低(ピッチ)の予測値との誤差を最小化するように最適化される。例えば、平均二乗誤差(MSE)損失を最小化するように最適化される。ピッチ予測器34によって予測されたピッチの予測値は、音長調整部32から出力された拡張音素潜在表現に加えられる。
【0032】
エネルギー予測器36は、時間長予測器30及び音長調整部32において処理された音素潜在表現に含まれる各音素に対する音の大きさ(エネルギー)を予測する処理を行う。エネルギー予測器36は、短時間フーリエ変換(STFT:Short-time Fourier Transform)されたフレームの振幅のL2-ノルムをエネルギーとして算出する。エネルギー予測器36は、さらに各フレームに対して算出されたエネルギーを均一に量子化する。エネルギー予測器36によって予測されたエネルギーの予測値は、ピッチ予測器34と同様に、音長調整部32から出力された拡張音素潜在表現に加えられる。エネルギー予測器36は、後述する特徴量抽出器26において音声データから抽出された音素の大きさ(エネルギー)に対して、音素の大きさ(エネルギー)の予測値との誤差を最小化するように最適化される。例えば、平均二乗誤差(MSE)損失を最小化するように最適化される。エネルギー予測器36によって予測されたエネルギーの予測値は、音長調整部32から出力された拡張音素潜在表現に加えられる。
【0033】
図3は、時間長予測器30、ピッチ予測器34及びエネルギー予測器36を構成するニューラルネットワークの構成例を示す。時間長予測器30、ピッチ予測器34及びエネルギー予測器36は、それぞれ図3に示すように、畳み込み層(CONV 1D -ReLU)、レイヤ正規化層(LN+Dropout)、畳み込み層(CONV 1D -ReLU)、レイヤ正規化層(LN+Dropout)及びリニア層(Linear Layer)を組み合わせて構成される。各層におけるニューラルネットワークの階層は、適宜設定すればよい。ここで、畳み込み層では、活性化関数としてReLUを用いることが好適である。また、レイヤ正規化層では、ドロップアウト処理を適宜適用することが好適である。
【0034】
デコーダ24は、分散アダプタ22で処理された拡張音素潜在表現の入力を受けて、拡張音素潜在表現を所定の特徴量に変換する。所定の特徴量は、例えばメルスペクトログラムとすることができる。デコーダ24は、複数の畳み込み層及び正規層を組み合わせて構成することができる。デコーダ24のニューラルネットワークの構成は、既存のデコーダ24のニューラルネットワークの構成を適用することができる。デコーダ24は、エンコーダ20及び分散アダプタ22と共に機械学習される。
【0035】
特徴量抽出器26は、ターゲット話者が発した音声データの入力を受けて、音声データから特徴量を抽出する処理を行う。特徴量抽出器26において抽出される特徴量は、音素の長さ、音素のピッチ、音素のエネルギー及びメルスペクトログラムとする。特徴量抽出器26は、例えば、WORLD等のツールを利用して特徴量を抽出することができる。
【0036】
特徴量抽出器26に入力されるターゲット話者が発した音声データは、エンコーダ20に入力される入力データに対応してターゲット話者が発した音声である。そこで、特徴量抽出器26において抽出された特徴量と時間長予測器30、ピッチ予測器34、エネルギー予測器36及びデコーダ24の出力が一致するようにエンコーダ20、時間長予測器30、ピッチ予測器34、エネルギー予測器36及びデコーダ24が機械学習により訓練される。
【0037】
すなわち、時間長予測器30は、特徴量抽出器26において音声データから抽出された音素の長さに対して時間長予測器30にて予測した各音素の長さの予測値との誤差が最小化されるように訓練される。また、ピッチ予測器34は、特徴量抽出器26において音声データから抽出された音素の高低(ピッチ)に対してピッチ予測器34にて予測した各音素の高低(ピッチ)の予測値との誤差が最小化されるように訓練される。また、エネルギー予測器36は、特徴量抽出器26において音声データから抽出された音素の大きさ(エネルギー)に対してエネルギー予測器36にて予測した音素の大きさ(エネルギー)の予測値との誤差が最小化されるように訓練される。また、デコーダ24は、特徴量抽出器26において音声データから抽出されたメルスペクトログラムに対してデコーダ24にて生成されたメルスペクトログラムとの誤差が最小化されるように訓練される。エンコーダ20についても、時間長予測器30、ピッチ予測器34、エネルギー予測器36及びデコーダ24における訓練が最適化されるように訓練される。
【0038】
以上のように、音声合成装置100において、ターゲット話者のテキスト等の入力データ及び入力データに対応するターゲット話者が発した音声データを用いてエンコーダ20、分散アダプタ22及びデコーダ24を機械学習により訓練することができる。
【0039】
[音声合成モデルを用いた音声合成処理]
以下、図4を参照して、本実施の形態における音声合成モデルを用いた音声合成処理について説明する。音声合成装置100は、上記のように、機械学習によって訓練済みの音声合成モデル(エンコーダ、分散アダプタ、デコーダ)を備える。したがって、音声合成装置100を用いることによって、音声合成モデルに基づいて音声を自動合成する処理を行うことができる。
【0040】
ここでは、後述する音声変換装置200における音声変換モデルを機械学習により訓練するためのパラレルデータを生成するための音声合成処理について説明する。すなわち、ソース話者がテキスト等に基づいて発した音声データからソース話者とは異なるターゲット話者が当該テキスト等と同じ内容について発した音声データを生成する音声合成処理について説明する。
【0041】
音声合成処理では、音声合成装置100においてターゲット話者について既に訓練されたエンコーダ20、分散アダプタ22及びデコーダ24を用いて処理を行う。音声合成装置100に対してソース話者が発した音声データの元になった音声の内容を示すテキスト等を入力データとしてエンコーダ20に入力する。また、当該入力データに基づいてソース話者が発した音声データを特徴量抽出器26へ入力する。
【0042】
エンコーダ20では、入力データを音素潜在表現に変換する。分散アダプタ22の時間長予測器30は、音素潜在表現に含まれる各音素に対応するメルフレームの数から各音素の長さを予測する。ただし、音声合成処理では、時間長予測器30によって予測された音素の長さを用いず、特徴量抽出器26に入力されたソース話者の音声データに基づいて特徴量抽出器26において抽出された音素の長さが用いられる。すなわち、音長調整部32に対して特徴量抽出器26において抽出された音素の長さが入力される。音長調整部32は、特徴量抽出器26において音声データから抽出された音素の長さを受けて、エンコーダ20から入力された入力データに含まれる音素潜在表現の各音素の長さを調整して拡張音素潜在表現として出力する。
【0043】
これによって、ソース話者の音声データと音声合成装置100で合成されるターゲット話者の音声データの音声の長さ(時間長)が等しくなるように調整される。すなわち、ソース話者の音声と同じ長さ(時間長)のターゲット話者の音声がパラレルデータとして合成される。したがって、ソース話者の音声と合成されるターゲット話者の音声との音声の長さ(時間長)の対応を取るためのダイナミック・タイム・ワーピング(DTW:Dynamic Time Warping)のような技術は不要となる。
【0044】
ピッチ予測器34は、音長調整部32において処理された拡張音素潜在表現に含まれる各音素に対する音の高低(ピッチ)を予測する。ピッチ予測器34は、予測した音の高低(ピッチ)の予測値に応じて音長調整部32において処理された音素潜在表現の音の高低(ピッチ)を調整する処理を行う。続いて、エネルギー予測器36は、拡張音素潜在表現に含まれる各音素に対する音の大きさ(エネルギー)を予測する処理を行う。エネルギー予測器36は、予測した音の大きさ(エネルギー)の予測値に応じて拡張音素潜在表現の音の大きさ(エネルギー)を調整する処理を行う。以上の処理によって、エンコーダ20から入力された音素潜在表現の音素の高低(ピッチ)及び大きさ(エネルギー)がターゲット話者の音声の拡張音素潜在表現に変換されてデコーダ24へ出力される。
【0045】
デコーダ24は、分散アダプタ22で処理された拡張音素潜在表現の入力を受けて、拡張音素潜在表現を所定の特徴量に変換する。所定の特徴量は、例えばメルスペクトログラムとすることができる。当該メルスペクトログラムは、テキスト等の音声の内容を示す情報に基づいてターゲット話者が発した音声を示す情報である。
【0046】
以上のように、ターゲット話者の音声を用いて訓練された音声合成装置100を用いることによって、ソース話者の音声データ及びその内容を示すテキスト等の情報に応じてターゲット話者の音声データを合成することができる。このとき、音長調整部32に対して特徴量抽出器26において抽出された音素の長さを用いることによって、ソース話者の音声データと音声合成装置100で合成されるターゲット話者の音声データの音声の長さ(時間長)が等しくなるように調整され、ソース話者の音声と同じ音声の長さ(時間長)を有するターゲット話者の音声をパラレルデータとして得ることができる。
【0047】
[音声変換モデルの訓練]
以下、図5を参照して、本実施の形態における音声変換モデルの訓練方法について説明する。音声変換装置200は、音声変換モデル(線形変換層、エンコーダ、分散アダプタ、デコーダ)のための機械学習を行うことによって構成される。音声変換装置200を用いることによって、音声変換モデルに基づいてソース話者の音声をターゲット話者の音声に自動変換する処理を行うことができる。
【0048】
音声変換装置200の音声変換モデルは、図5に示すように、エンコーダ20、分散アダプタ22、デコーダ24、特徴量抽出器26、特徴量抽出器40及び線形変換層42を含んで構成される。
【0049】
音声変換モデルの構築には、変換元となるソース話者の音声データと、変換先となるターゲット話者の音声データとを組み合わせた学習用データが用いられる。ターゲット話者の音声データが学習用データにおける教師データとして用いられる。本実施の形態では、ソース話者の音声データと、上記音声合成装置100においてソース話者の音声データ及びその内容を示すテキスト等の情報から合成されたパラレルデータであるターゲット話者の音声データとを組み合わせて学習用データとして用いることが好適である。
【0050】
特徴量抽出器40は、ソース話者の音声データの入力を受けて、当該音声データから特徴量を抽出する処理を行う。特徴量抽出器26において抽出される特徴量は音声データのメルスペクトログラムとする。特徴量抽出器26は、例えば、WORLD等のツールを利用して特徴量を抽出することができる。
【0051】
線形変換層42は、特徴量抽出器40から出力されたメルスペクトログラムに線形変換処理を適用してエンコーダ20で使用可能なデータフォーマットに変換して出力する。すなわち、エンコーダ20はテキスト等の音声データの内容を示す情報を入力として使用するモジュールであるため、特徴量抽出器40から出力されたメルスペクトログラムをそのまま処理できないので、線形変換層42においてメルスペクトログラをエンコーダ20で使用可能なデータフォーマットに変換して出力する。線形変換層42のニューラルネットワークの構成は、既存の線形変換層42のニューラルネットワークの構成を適用することができる。既存の線形変換層42は、エンコーダ20、分散アダプタ22のピッチ予測器34及びエネルギー予測器36並びにデコーダ24と共に機械学習される。
【0052】
エンコーダ20は、線形変換層42の出力を受けて音素潜在表現に変換する。エンコーダ20は、音声合成装置100におけるエンコーダ20と同様の構成とすることができる。エンコーダ20は、線形変換層42、分散アダプタ22及びデコーダ24と共に機械学習される。
【0053】
ピッチ予測器34は、エンコーダ20から出力された音素潜在表現に含まれる各音素に対する音の高低(ピッチ)を予測する処理を行う。ピッチ予測器34は、音声合成装置100におけるピッチ予測器34と同様の構成とすることができる。ピッチ予測器34は、後述する特徴量抽出器26においてターゲット話者の音声データから抽出された音素の高低(ピッチ)に対して、各音素の高低(ピッチ)の予測値との誤差を最小化するように最適化される。例えば、平均二乗誤差(MSE)損失を最小化するように最適化される。ピッチ予測器34によって予測されたピッチの予測値は、エンコーダ20から出力された拡張音素潜在表現に加えられる。
【0054】
エネルギー予測器36は、音素潜在表現に含まれる各音素に対する音の大きさ(エネルギー)を予測する処理を行う。エネルギー予測器36は、音声合成装置100におけるエネルギー予測器36と同様の構成とすることができる。エネルギー予測器36は、後述する特徴量抽出器26においてターゲット話者の音声データから抽出された音素の大きさ(エネルギー)に対して、音素の大きさ(エネルギー)の予測値との誤差を最小化するように最適化される。例えば、平均二乗誤差(MSE)損失を最小化するように最適化される。エネルギー予測器36によって予測されたエネルギーの予測値は、エンコーダ20から出力された拡張音素潜在表現に加えられる。
【0055】
デコーダ24は、分散アダプタ22のピッチ予測器34及びエネルギー予測器36で処理された拡張音素潜在表現の入力を受けて、拡張音素潜在表現をメルスペクトログラムに変換する。デコーダ24は、音声合成装置100におけるデコーダ24と同様の構成とすることができる。デコーダ24は、線形変換層42、エンコーダ20及び分散アダプタ22と共に機械学習される。
【0056】
ここで、ピッチ予測器34、エネルギー予測器36及びデコーダ24は、音声合成装置100における音声合成の訓練済みの状態を初期状態として機械学習による訓練を行うことが好適である。すなわち、音声変換装置200のピッチ予測器34、エネルギー予測器36及びデコーダ24は、音声合成装置100として既に訓練された状態から微調整するように訓練することが好適である。これによって、音声変換装置200の機械学習による訓練を迅速化させることがでると共に、音声変換モデルをより最適化することができる。
【0057】
また、音声合成装置100を用いてソース話者の音声データから合成されたターゲット話者の音声データを学習用データとして用いることによって、両方の音声の長さ(時間長)を一致させたパラレルデータによって音声変換装置200が訓練される。これにより、音声変換モデルの訓練をより最適化することができる。
【0058】
また、音声変換装置200では、ソース話者の音声とターゲット話者の音声の長さを一致させるための時間長予測器30及び音長調整部32は不要となる。さらに、ソース話者の音声と教師データであるターゲット話者の音声との音声の長さ(時間長)の対応を取るためのダイナミック・タイム・ワーピング(DTW:Dynamic Time Warping)のような技術も不要となる。
【0059】
特徴量抽出器26は、ターゲット話者の音声データの入力を受けて、音声データから特徴量を抽出する処理を行う。特徴量抽出器26において抽出される特徴量は、音素のピッチ、音素のエネルギー及びメルスペクトログラムとする。特徴量抽出器26は、例えば、WORLD等のツールを利用して特徴量を抽出することができる。
【0060】
音声変換装置200では、特徴量抽出器26において抽出された特徴量とピッチ予測器34、エネルギー予測器36及びデコーダ24の出力が一致するように線形変換層42、エンコーダ20、ピッチ予測器34、エネルギー予測器36及びデコーダ24が機械学習により訓練される。すなわち、ピッチ予測器34は、特徴量抽出器26においてターゲット話者の音声データから抽出された音素の高低(ピッチ)に対してピッチ予測器34にて予測した各音素の高低(ピッチ)の予測値との誤差が最小化されるように訓練される。また、エネルギー予測器36は、特徴量抽出器26においてターゲット話者の音声データから抽出された音素の大きさ(エネルギー)に対してエネルギー予測器36にて予測した音素の大きさ(エネルギー)の予測値との誤差が最小化されるように訓練される。また、デコーダ24は、特徴量抽出器26においてターゲット話者の音声データから抽出されたメルスペクトログラムに対してデコーダ24にて生成されたメルスペクトログラムとの誤差が最小化されるように訓練される。線形変換層42及びエンコーダ20についても、時間長予測器30、ピッチ予測器34、エネルギー予測器36及びデコーダ24における訓練が最適化されるように訓練される。
【0061】
以上のように、ソース話者の音声データをターゲット話者の音声データに変換する音声変換モデルを備えた音声変換装置200を得ることができる。
【0062】
[音声変換モデルを用いた音声変換処理]
以下、図6を参照して、本実施の形態における音声変換モデルを用いた音声変換処理について説明する。音声変換装置200は、上記のように、機械学習によって訓練済みの音声変換モデル(線形変換層、エンコーダ、分散アダプタ、デコーダ)を備える。さらに、音声変換装置200は、メルスペクトログラムを音声に変換するボコーダ28を備える。音声変換装置200を用いることによって、音声変換モデルに基づいて音声を自動合成する処理を行うことができる。
【0063】
ここでは、ソース話者の音声をターゲット話者の音声に変換する音声変換処理について説明する。すなわち、ソース話者が発した音声を同じ内容についてターゲット話者が発した音声に変換して出力する音声変換処理について説明する。
【0064】
音声変換装置200には、ソース話者が発した音声の音声データが入力される。特徴量抽出器40では、ソース話者の音声データの入力を受けて、当該音声データから特徴量であるメルスペクトログラムを抽出する。線形変換層42は、特徴量抽出器40から出力されたメルスペクトログラムに線形変換処理を適用してエンコーダ20で使用可能なデータフォーマットに変換して出力する。
【0065】
エンコーダ20では、入力データを音素潜在表現に変換する。ピッチ予測器34は、エンコーダ20から出力された音素潜在表現に含まれる各音素に対する音の高低(ピッチ)を予測する。ピッチ予測器34によって予測されたピッチの予測値は、エンコーダ20から出力された拡張音素潜在表現に加えられる。続いて、エネルギー予測器36は、音素潜在表現に含まれる各音素に対する音の大きさ(エネルギー)を予測する処理を行う。エネルギー予測器36によって予測されたエネルギーの予測値は、エンコーダ20から出力された拡張音素潜在表現に加えられる。以上の処理によって、素潜在表現の音素の高低(ピッチ)及び大きさ(エネルギー)がターゲット話者の音声の拡張音素潜在表現に変換されてデコーダ24へ出力される。
【0066】
デコーダ24は、分散アダプタ22で処理された拡張音素潜在表現の入力を受けて、拡張音素潜在表現をメルスペクトログラムに変換する。当該メルスペクトログラムは、ソース話者の音声データを変換して得られたターゲット話者の音声データを示す情報である。
【0067】
ボコーダ28は、デコーダ24から出力されたメルスペクトログラムを音声データに変換して出力する。ボコーダ28は、特徴量抽出器40における音声データからメルスペクトログラムを抽出する処理の逆の処理を行うことによってメルスペクトログラムを音声データに変換することができる。
【0068】
以上のように、音声変換装置200を用いることによって、ソース話者の音声データをターゲット話者の音声データに変換することができる。
【0069】
なお、本実施の形態における音声合成装置100及び音声変換装置200では、各構成要素を1つの装置にて実現する構成としたが、各構成要素を異なる装置や異なる実行主体にて実現するようにしてもよい。例えば、各構成要素のうち幾つかを複数のコンピュータで分担して実現するようにしてもよい。
【0070】
また、音声合成装置100の合成処理によって得られたソース話者とターゲット話者の音声のパラレルデータは様々な構成の音声変換装置における機械学習における訓練に適用することができる。すなわち、当該パラレルデータを適用する音声変換装置は、本実施の形態における音声変換装置200の構成に限定されるものではなく、他の様々な構成の音声変換装置に適用することができる。
【符号の説明】
【0071】
10 処理部、12 記憶部、14 入力部、16 出力部、18 通信部、20 エンコーダ、22 分散アダプタ、24 デコーダ、26 特徴量抽出器、28 ボコーダ、30 時間長予測器、32 音長調整部、34 ピッチ予測器、36 エネルギー予測器、40 特徴量抽出器、42 線形変換層、100 音声合成装置、200 音声変換装置。
図1
図2
図3
図4
図5
図6