IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2024-529880合成トレーニングデータを使用した2レベルのテキスト読上げシステム
<>
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図1
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図2A
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図2B
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図3
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図4A
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図4B
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図5
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図6
  • 特表-合成トレーニングデータを使用した2レベルのテキスト読上げシステム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-14
(54)【発明の名称】合成トレーニングデータを使用した2レベルのテキスト読上げシステム
(51)【国際特許分類】
   G10L 13/10 20130101AFI20240806BHJP
   G10L 25/30 20130101ALI20240806BHJP
【FI】
G10L13/10 112Z
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024501888
(86)(22)【出願日】2022-07-01
(85)【翻訳文提出日】2024-03-08
(86)【国際出願番号】 US2022073390
(87)【国際公開番号】W WO2023288169
(87)【国際公開日】2023-01-19
(31)【優先権主張番号】17/305,809
(32)【優先日】2021-07-14
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】レヴ・フィンケルシュタイン
(72)【発明者】
【氏名】チュン-アン・チャン
(72)【発明者】
【氏名】ビュンハ・チュン
(72)【発明者】
【氏名】ノルマン・カサグランデ
(72)【発明者】
【氏名】ユ・ジャン
(72)【発明者】
【氏名】ロバート・アンドリュー・ジェームズ・クラーク
(72)【発明者】
【氏名】ヴィンセント・ワン
(57)【要約】
方法(600)は、複数のトレーニングオーディオ信号(102)および対応するトランスクリプト(106)を含むトレーニングデータ(10)を取得するステップを含む。各トレーニングオーディオ信号は、ターゲット話者によって第1のアクセント/方言で話される。トレーニングオーディオ信号ごとに、本方法は、ターゲット話者によって第2のアクセント/方言で話されるトレーニング合成スピーチ表現(202)を生成するステップと、対応するトランスクリプトとトレーニング合成スピーチ表現とに基づいてテキスト読上げ(TTS)システム(300)をトレーニングするステップとを含む。本方法はまた、第2のアクセント/方言でスピーチに合成される入力テキスト発話(320)を受信するステップを含む。本方法はまた、話者埋込み(108)および第2のアクセント/方言を識別するアクセント/方言識別子(109)を取得するステップを含む。本方法はまた、第2のアクセント/方言でターゲット話者の音声のクローンを作成する、入力テキストシーケンスの合成スピーチ表現に対応する出力オーディオ波形(152)を生成するステップを含む。
【特許請求の範囲】
【請求項1】
データ処理ハードウェア(122)上で実行されると、前記データ処理ハードウェア(122)に、
複数のトレーニングオーディオ信号(102)および対応するトランスクリプト(106)を含むトレーニングデータ(10)を取得するステップであって、各トレーニングオーディオ信号(102)が、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応し、各トランスクリプト(106)が、前記対応する参照発話のテキスト表現を含む、ステップと、
前記トレーニングデータ(10)のトレーニングオーディオ信号(102)ごとに、
前記ターゲット話者によって前記第1のアクセント/方言で話される前記参照発話に対応する前記トレーニングオーディオ信号(102)を入力として受信するように構成されたトレーニングされた音声クローン作成システム(200)によって、前記ターゲット話者によって話される、前記対応する参照発話のトレーニング合成スピーチ表現(202)を生成するステップであって、前記トレーニング合成スピーチ表現(202)が、前記第1のアクセント/方言とは異なる第2のアクセント/方言の前記ターゲット話者の音声を含む、ステップと、
前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)と、前記トレーニングされた音声クローン作成システム(200)によって生成された前記対応する参照発話の前記トレーニング合成スピーチ表現(202)とに基づいて、テキスト読上げ(TTS)システム(300)をトレーニングするステップと、
前記第2のアクセント/方言でスピーチ(152)に合成される入力テキスト発話(320)を受信するステップと、
前記ターゲット話者の音声特性を表す話者埋込み(108)と、前記第2のアクセント/方言を識別するアクセント/方言識別子(109)とを含む条件付け入力(108、109)を取得するステップと、
前記取得された条件付け入力(108、109)で条件付けされた前記トレーニングされたTTSシステム(300)を使用して、および前記入力テキスト発話(320)を処理することによって、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する、前記入力テキスト発話(320)の合成スピーチ表現(202)に対応する出力オーディオ波形(152)を生成するステップと
を含む動作を行わせる、コンピュータ実装方法(600)。
【請求項2】
前記TTSシステム(300)をトレーニングするステップが、
前記トレーニングされた音声クローン作成システム(200)によって生成された前記対応する参照発話の前記トレーニング合成スピーチ表現(202)を、前記トレーニング合成スピーチ表現(202)によってキャプチャされた韻律を表す発話埋込み(204)にエンコードするために、前記TTSシステム(300)のTTSモデル(400)のエンコーダ部分(400a)をトレーニングするステップと、
表現力豊かなスピーチの予測される出力オーディオ信号(402)を生成するために、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を使用して、前記発話埋込み(204)をデコードすることによって前記TTSシステム(300)のデコーダ部分(400b)をトレーニングするステップと
を含む、請求項1に記載のコンピュータ実装方法(600)。
【請求項3】
前記TTSシステム(300)をトレーニングするステップが、
前記入力テキスト発話(320)の予測される合成スピーチ表現(152)を生成するために、前記予測される出力オーディオ信号(402)を使用して、前記TTSシステム(300)のシンセサイザ(150)をトレーニングするステップであって、前記予測される合成スピーチ表現(152)は、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成し、前記発話埋込み(204)によって表される前記韻律を有する、ステップと、
前記予測される合成スピーチ表現(152)と前記トレーニング合成スピーチ表現(202)との間の勾配/損失(154)を生成するステップと、
前記TTSモデル(400)と前記シンセサイザ(150)を通じて前記勾配/損失(153)を逆伝播するステップと
をさらに含む、請求項2に記載のコンピュータ実装方法(600)。
【請求項4】
前記動作が、
前記トレーニング合成スピーチ表現(202)から、前記トレーニング合成スピーチ表現(202)によってキャプチャされた前記韻律を表す参照韻律特徴を提供する固定長の参照フレームのシーケンスをサンプリングするステップをさらに含み、
前記TTSモデル(400)の前記エンコーダ部分(400a)をトレーニングするステップが、前記トレーニング合成スピーチ表現(202)からサンプリングされた前記固定長の参照フレームのシーケンスを前記発話埋込み(204)にエンコードするために、前記エンコーダ部分(400a)をトレーニングするステップを含む、請求項2または3に記載のコンピュータ実装方法(600)。
【請求項5】
前記TTSモデル(400)の前記デコーダ部分(400b)をトレーニングするステップが、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を使用して、前記発話埋込み(204)によって表される前記韻律を表す前記トランスクリプト(106)の予測される韻律特徴を提供する固定長の予測されるフレーム(280)のシーケンスに前記発話埋込み(204)をデコードするステップを含む、請求項4に記載のコンピュータ実装方法(600)。
【請求項6】
前記デコーダ部分(400b)によってデコードされた固定長の予測されるフレームの数が、前記トレーニング合成スピーチ表現(202)からサンプリングされた固定長の参照フレームの数と等しくなるように、前記TTSモデル(400)がトレーニングされる、請求項5に記載のコンピュータ実装方法(600)。
【請求項7】
前記参照発話の前記トレーニング合成スピーチ表現(202)が、オーディオ波形またはメル周波数スペクトログラムのシーケンスを含む、請求項1から6のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項8】
前記トレーニングされた音声クローン作成システム(200)が、前記トレーニング合成スピーチ表現(202)を生成する際に、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を入力として受信するようにさらに構成されている、請求項1から7のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項9】
前記ターゲット話者によって話される前記参照発話に対応する前記トレーニングオーディオ信号(102)が、人間のスピーチの入力オーディオ波形を含み、
前記トレーニング合成スピーチ表現(202)が、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する合成スピーチの出力オーディオ波形を含み、
前記トレーニングされた音声クローン作成システム(200)が、入力オーディオ波形を対応する出力オーディオ波形に直接変換するように構成されたエンドツーエンドのニューラルネットワークを備える、請求項1から8のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項10】
前記TTSシステム(300)が、
前記条件付け入力で条件付けされ、前記入力テキスト発話(320)を使用して、韻律特徴を提供する固定長の予測されるフレーム(502)のシーケンスに発話埋込み(204)をデコードすることによって、表現力豊かなスピーチの出力オーディオ信号(402)を生成するように構成されたTTSモデル(400)であって、前記発話埋込み(204)が、前記入力テキスト発話(320)の意図された韻律を指定するために選択され、前記韻律特徴が、前記発話埋込み(204)によって指定された前記意図された韻律を表す、TTSモデル(400)と、
前記固定長の予測されるフレーム(502)のシーケンスを入力として受信し、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する前記入力テキスト発話(320)の前記合成スピーチ表現(202)に対応する前記出力オーディオ波形を出力として生成するように構成された波形シンセサイザ(228)と
を備える、請求項1から9のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項11】
前記意図された韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含む、請求項10に記載のコンピュータ実装方法(600)。
【請求項12】
データ処理ハードウェア(122)と、
前記データ処理ハードウェア(122)と通信し、前記データ処理ハードウェア(122)によって実行されると、前記データ処理ハードウェア(122)に、
複数のトレーニングオーディオ信号(102)および対応するトランスクリプト(106)を含むトレーニングデータ(10)を取得することであって、各トレーニングオーディオ信号(102)が、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応し、各トランスクリプト(106)が、前記対応する参照発話のテキスト表現を含む、取得することと、
前記トレーニングデータ(10)のトレーニングオーディオ信号(102)ごとに、
前記ターゲット話者によって前記第1のアクセント/方言で話される前記参照発話に対応する前記トレーニングオーディオ信号(102)を入力として受信するように構成されたトレーニングされた音声クローン作成システム(200)によって、前記ターゲット話者によって話される、前記対応する参照発話のトレーニング合成スピーチ表現(202)を生成することであって、前記トレーニング合成スピーチ表現(202)が、前記第1のアクセント/方言とは異なる第2のアクセント/方言の前記ターゲット話者の音声を含む、生成することと、
前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)と、前記トレーニングされた音声クローン作成システム(200)によって生成された前記対応する参照発話の前記トレーニング合成スピーチ表現(202)とに基づいて、テキスト読上げ(TTS)システム(300)をトレーニングすることと、
前記第2のアクセント/方言でスピーチ(152)に合成される入力テキスト発話(320)を受信することと、
前記ターゲット話者の音声特性を表す話者埋込み(108)と、前記第2のアクセント/方言を識別するアクセント/方言識別子(109)とを含む条件付け入力(108、109)を取得することと、
前記取得された条件付け入力(108、109)で条件付けされた前記トレーニングされたTTSシステム(300)を使用して、および前記入力テキスト発話(320)を処理することによって、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する、前記入力テキスト発話(320)の合成スピーチ表現(202)に対応する出力オーディオ波形(152)を生成することと
を含む動作を行わせる命令を記憶するメモリハードウェア(124)と
を備える、システム(100)。
【請求項13】
前記TTSシステム(300)をトレーニングすることが、
前記トレーニングされた音声クローン作成システム(200)によって生成された前記対応する参照発話の前記トレーニング合成スピーチ表現(202)を、前記トレーニング合成スピーチ表現(202)によってキャプチャされた韻律を表す発話埋込み(204)にエンコードするために、前記TTSシステム(300)のTTSモデル(400)のエンコーダ部分(400a)をトレーニングすることと、
表現力豊かなスピーチの予測される出力オーディオ信号(402)を生成するために、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を使用して、前記発話埋込み(204)をデコードすることによって前記TTSシステム(300)のデコーダ部分(400b)をトレーニングすることと
を含む、請求項12に記載のシステム(100)。
【請求項14】
前記TTSシステム(300)をトレーニングすることが、
前記入力テキスト発話(320)の予測される合成スピーチ表現(152)を生成するために、前記予測される出力オーディオ信号(402)を使用して、前記TTSシステム(300)のシンセサイザ(150)をトレーニングすることであって、前記予測される合成スピーチ表現(152)が、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成し、前記発話埋込み(204)によって表される前記韻律を有する、トレーニングすることと、
前記予測される合成スピーチ表現(152)と前記トレーニング合成スピーチ表現(202)との間の勾配/損失(154)を生成することと、
前記TTSモデル(400)と前記シンセサイザ(150)を通じて前記勾配/損失(153)を逆伝播することと
をさらに含む、請求項13に記載のシステム(100)。
【請求項15】
前記動作が、
前記トレーニング合成スピーチ表現(202)から、前記トレーニング合成スピーチ表現(202)によってキャプチャされた前記韻律を表す参照韻律特徴を提供する固定長の参照フレームのシーケンスをサンプリングすることをさらに含み、
前記TTSモデル(400)の前記エンコーダ部分(400a)をトレーニングすることが、前記トレーニング合成スピーチ表現(202)からサンプリングされた前記固定長の参照フレームのシーケンスを前記発話埋込み(204)にエンコードするために、前記エンコーダ部分(400a)をトレーニングすることを含む、請求項13または14に記載のシステム(100)。
【請求項16】
前記TTSモデル(400)の前記デコーダ部分(400b)をトレーニングすることが、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を使用して、前記発話埋込み(204)によって表される前記韻律を表す前記トランスクリプト(106)の予測される韻律特徴を提供する固定長の予測されるフレーム(280)のシーケンスに前記発話埋込み(204)をデコードすることを含む、請求項15に記載のシステム(100)。
【請求項17】
前記デコーダ部分(400b)によってデコードされた固定長の予測されるフレームの数が、前記トレーニング合成スピーチ表現(202)からサンプリングされた固定長の参照フレームの数と等しくなるように、前記TTSモデル(400)がトレーニングされる、請求項16に記載のシステム(100)。
【請求項18】
前記参照発話の前記トレーニング合成スピーチ表現(202)が、オーディオ波形またはメル周波数スペクトログラムのシーケンスを含む、請求項12から17のいずれか一項に記載のシステム(100)。
【請求項19】
前記トレーニングされた音声クローン作成システム(200)が、前記トレーニング合成スピーチ表現(202)を生成する際に、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を入力として受信するようにさらに構成されている、請求項12から18のいずれか一項に記載のシステム(100)。
【請求項20】
前記ターゲット話者によって話される前記参照発話に対応する前記トレーニングオーディオ信号(102)が、人間のスピーチの入力オーディオ波形を含み、
前記トレーニング合成スピーチ表現(202)が、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する合成スピーチの出力オーディオ波形を含み、
前記トレーニングされた音声クローン作成システム(200)が、入力オーディオ波形を対応する出力オーディオ波形に直接変換するように構成されたエンドツーエンドのニューラルネットワークを備える、請求項12から19のいずれか一項に記載のシステム(100)。
【請求項21】
前記TTSシステム(300)が、
前記条件付け入力で条件付けされ、前記入力テキスト発話(320)を使用して、韻律特徴を提供する固定長の予測されるフレーム(502)のシーケンスに発話埋込み(204)をデコードすることによって、表現力豊かなスピーチの出力オーディオ信号(402)を生成するように構成されたTTSモデル(400)であって、前記発話埋込み(204)が、前記入力テキスト発話(320)の意図された韻律を指定するために選択され、前記韻律特徴が、前記発話埋込み(204)によって指定された前記意図された韻律を表す、TTSモデル(400)と、
前記固定長の予測されるフレーム(502)のシーケンスを入力として受信し、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する前記入力テキスト発話(320)の前記合成スピーチ表現(202)に対応する前記出力オーディオ波形を出力として生成するように構成された波形シンセサイザ(228)と
を備える、請求項1から20のいずれか一項に記載のシステム(100)。
【請求項22】
前記意図された韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含む、請求項21に記載のシステム(100)。
【請求項23】
データ処理ハードウェア(122)上で実行されると、前記データ処理ハードウェア(122)に、
複数のトレーニングテキスト発話(106)を含むトレーニングデータ(10)を取得するステップと、
前記トレーニングデータ(106)のトレーニングテキスト発話(106)ごとに、
前記トレーニングテキスト発話(106)を入力として受信するように構成されたトレーニングされた音声クローン作成システム(200)によって、対応する前記トレーニングテキスト発話(106)のトレーニング合成スピーチ表現(202)を生成するステップであって、前記トレーニング合成スピーチ表現(202)がターゲット話者の音声の中にあり、ターゲットスピーチ特性を有する、ステップと、
対応する前記トレーニングテキスト発話(106)と、前記トレーニングされた音声クローン作成システム(200)によって生成された前記トレーニング合成スピーチ表現(202)とに基づいて、前記ターゲットスピーチ特性を有する合成スピーチ(152)を生成する方法を学習するためにテキスト読上げ(TTS)システム(300)をトレーニングするステップと、
前記ターゲットスピーチ特性を有するスピーチに合成される入力テキスト発話(320)を受信するステップと、
前記トレーニングされたTTSシステム(300)を使用して、前記入力テキスト発話(320)の合成スピーチ表現(152)を生成するステップであって、前記合成スピーチ表現(152)が前記ターゲットスピーチ特性を有する、ステップと
を含む動作を行わせる、コンピュータ実装方法(600)。
【請求項24】
前記動作が、前記ターゲット話者の音声特性を示す話者識別子(108)を含む条件付け入力(108、109)を取得するステップをさらに含み、
前記入力テキスト発話(320)の前記合成スピーチ表現(202)を生成する際に、前記トレーニングされたTTSシステム(300)が前記取得された条件付け入力(108、109)で条件付けされ、
前記ターゲットスピーチ特性を有する前記合成スピーチ表現(152)が前記ターゲット話者の前記音声のクローンを作成する、請求項23に記載のコンピュータ実装方法(600)。
【請求項25】
前記ターゲットスピーチ特性が、ターゲットアクセント/方言を含む、請求項23または24に記載のコンピュータ実装方法(600)。
【請求項26】
前記ターゲットスピーチ特性が、ターゲット韻律/スタイルを含む、請求項23から25のいずれか一項に記載のコンピュータ実装方法(600)。
【請求項27】
前記対応するトレーニングテキスト発話(320)の前記トレーニング合成スピーチ表現(202)を生成する際に、前記トレーニングされた音声クローン作成システム(200)が、前記ターゲット話者の音声特性を示す話者識別子(108)を受信するようにさらに構成されている、請求項23から26のいずれか一項に記載のコンピュータ実装方法(600)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、合成トレーニングデータを使用した2レベルのテキスト読上げシステムに関する。
【背景技術】
【0002】
スピーチ合成システムは、テキストおよび/またはオーディオ入力から合成オーディオを生成するためにスピーチモデルを使用し、モバイルデバイス上での普及が進んでいる。様々な異なるスピーチモデルが存在し、それぞれが話し方、韻律、言語、アクセントなどの独自の効率および機能を含む。シナリオによっては、これらの開発された機能のうちの1つを別のスピーチモデルに実装することが有用な場合がある。しかしながら、スピーチモデルをトレーニングするために必要な特定のトレーニングデータが利用できない場合がある。他の場合には、これらの機能のうちの1つまたは複数をスピーチモデル間で転送することが有用な場合がある。しかしながら、ここでは、特定のスピーチモデルには多大な開発コスト、アーキテクチャ上の制約、および/または設計上の制限があるため、スピーチモデル間で機能を転送することは特に困難になる場合がある。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】米国特許出願第16/867,427号
【非特許文献】
【0004】
【非特許文献1】https://arxiv.org/abs/1712.05884におけるJ. Shenらによる「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」
【非特許文献2】https://arxiv.org/pdf/1711.10433.pdfにおいて入手可能である、van den Oord著「Parallel WaveNet: Fast High-Fidelity Speech Synthesis」
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を行わせるコンピュータ実装方法を提供する。本動作は、複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを取得するステップを含む。各トレーニングオーディオ信号は、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応する。各トランスクリプトは、対応する参照発話のテキスト表現を含む。本動作は、トレーニングデータのトレーニングオーディオ信号ごとに、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応するトレーニングオーディオ信号を入力として受信するように構成されたトレーニングされた音声クローン作成システムによって、ターゲット話者によって話される、対応する参照発話のトレーニング合成スピーチ表現を生成するステップを含む。トレーニング合成スピーチ表現は、第1のアクセント/方言とは異なる第2のアクセント/方言のターゲット話者の音声を含む。ここで、トレーニングデータのトレーニングオーディオ信号ごとに、本動作はまた、トレーニングオーディオ信号の対応するトランスクリプトと、トレーニングされた音声クローン作成システムによって生成された対応する参照発話のトレーニング合成スピーチ表現とに基づいて、テキスト読上げ(TTS)システムをトレーニングするステップを含む。本動作はまた、第2のアクセント/方言のスピーチに合成される入力テキスト発話を受信するステップを含む。本動作はまた、ターゲット話者の音声特性を表す話者埋込みと、第2のアクセント/方言を識別するアクセント/方言識別子とを含む条件付け入力を取得するステップを含む。本動作はまた、取得された条件付け入力で条件付けされたトレーニングされたTTSシステムを使用し、入力テキスト発話を処理することによって、第2のアクセント/方言でターゲット話者の音声のクローンを作成する、入力テキスト発話の合成スピーチ表現に対応する出力オーディオ波形を生成するステップを含む。
【0006】
本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、TTSシステムをトレーニングするステップは、トレーニングされた音声クローン作成システムによって生成された対応する参照発話のトレーニング合成スピーチ表現を、トレーニング合成スピーチ表現によってキャプチャされた韻律を表す発話埋込みにエンコードするために、TTSシステムのTTSモデルのエンコーダ部分をトレーニングするステップを含む。これらの実装形態では、TTSシステムをトレーニングするステップはまた、表現力豊かなスピーチの予測される出力オーディオ信号を生成するために、トレーニングオーディオ信号の対応するトランスクリプトを使用して、発話埋込みをデコードすることによってTTSシステムのデコーダ部分をトレーニングするステップを含む。いくつかの例では、TTSシステムをトレーニングするステップは、第2の/アクセント方言でターゲット話者の音声のクローンを作成し、発話埋込みによって表される韻律を有する入力テキスト発話の予測される合成スピーチ表現を生成するために、予測される出力オーディオ信号を使用して、TTSシステムのシンセサイザをトレーニングするステップと、予測される合成スピーチ表現とトレーニング合成スピーチ表現との間の勾配/損失を生成するステップと、TTSモデルとシンセサイザを通じて勾配/損失を逆伝播するステップとをさらに含む。
【0007】
本動作は、トレーニング合成スピーチ表現から、トレーニング合成スピーチ表現によってキャプチャされた韻律を表す参照韻律特徴を提供する固定長の参照フレームのシーケンスをサンプリングするステップをさらに含み得る。ここで、TTSモデルのエンコーダ部分をトレーニングするステップは、トレーニング合成スピーチ表現からサンプリングされた固定長の参照フレームのシーケンスを発話埋込みにエンコードするために、エンコーダ部分をトレーニングするステップを含む。いくつかの実装形態では、TTSモデルのデコーダ部分をトレーニングするステップは、トレーニングオーディオ信号の対応するトランスクリプトを使用して、発話埋込みによって表される韻律を表すトランスクリプトの予測される韻律特徴を提供する固定長の予測されるフレームのシーケンスに発話埋込みをデコードするステップを含む。任意選択で、デコーダ部分によってデコードされた固定長の予測されるフレームの数が、トレーニング合成スピーチ表現からサンプリングされた固定長の参照フレームの数と等しくなるように、TTSモデルがトレーニングされ得る。
【0008】
いくつかの実装形態では、参照発話のトレーニング合成スピーチ表現は、オーディオ波形またはメル周波数スペクトログラムのシーケンスを含む。トレーニングされた音声クローン作成システムは、トレーニング合成スピーチ表現を生成する際に、トレーニングオーディオ信号の対応するトランスクリプトを入力として受信するようにさらに構成され得る。いくつかの例では、ターゲット話者によって話される参照発話に対応するトレーニングオーディオ信号は、人間のスピーチの入力オーディオ波形を含み、トレーニング合成スピーチ表現は、第2のアクセント/方言でターゲット話者の音声のクローンを作成する合成スピーチの出力オーディオ波形を含み、トレーニングされた音声クローン作成システムは、入力オーディオ波形を対応する出力オーディオ波形に直接変換するように構成されたエンドツーエンドのニューラルネットワークを含む。
【0009】
いくつかの実装形態では、TTSシステムは、条件付け入力で条件付けされ、入力テキスト発話を使用して韻律特徴を提供する固定長の予測されるフレームのシーケンスに発話埋込みをデコードすることによって、表現力豊かなスピーチの出力オーディオ信号を生成するように構成されたTTSモデルを含む。発話埋込みは、入力テキスト発話用に意図された韻律を指定するために選択され、韻律特徴は、発話埋込みによって指定された意図された韻律を表す。これらの実装形態では、TTSシステムはまた、固定長の予測されるフレームのシーケンスを入力として受信し、第2のアクセント/方言でターゲット話者の音声のクローンを作成する入力テキスト発話の合成スピーチ表現に対応する出力オーディオ波形を出力として生成するように構成された波形シンセサイザを含む。意図された韻律を表す韻律特徴は、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含み得る。
【0010】
本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を行わせる命令を記憶するメモリハードウェアとを含むシステムを提供する。本動作は、複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを取得することを含む。各トレーニングオーディオ信号は、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応する。各トランスクリプトは、対応する参照発話のテキスト表現を含む。本動作は、トレーニングデータのトレーニングオーディオ信号ごとに、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応するトレーニングオーディオ信号を入力として受信するように構成されたトレーニングされた音声クローン作成システムによって、ターゲット話者によって話される、対応する参照発話のトレーニング合成スピーチ表現を生成することを含む。トレーニング合成スピーチ表現は、第1のアクセント/方言とは異なる第2のアクセント/方言のターゲット話者の音声を含む。ここで、トレーニングデータのトレーニングオーディオ信号ごとに、本動作はまた、トレーニングオーディオ信号の対応するトランスクリプトと、トレーニングされた音声クローン作成システムによって生成された対応する参照発話のトレーニング合成スピーチ表現とに基づいて、テキスト読上げ(TTS)システムをトレーニングすることを含む。本動作はまた、第2のアクセント/方言のスピーチに合成される入力テキスト発話を受信することを含む。本動作はまた、ターゲット話者の音声特性を表す話者埋込みと、第2のアクセント/方言を識別するアクセント/方言識別子とを含む条件付け入力を取得することを含む。本動作はまた、取得された条件付け入力で条件付けされたトレーニングされたTTSシステムを使用して、および入力テキスト発話を処理することによって、第2のアクセント/方言でターゲット話者の音声のクローンを作成する、入力テキスト発話の合成スピーチ表現に対応する出力オーディオ波形を生成することを含む。
【0011】
本開示の実装形態は、以下の任意選択の機能のうちの1つまたは複数を含み得る。いくつかの実装形態では、TTSシステムをトレーニングすることは、トレーニングされた音声クローン作成システムによって生成された対応する参照発話のトレーニング合成スピーチ表現を、トレーニング合成スピーチ表現によってキャプチャされた韻律を表す発話埋込みにエンコードするために、TTSシステムのTTSモデルのエンコーダ部分をトレーニングすることを含む。これらの実装形態では、TTSシステムをトレーニングすることはまた、表現力豊かなスピーチの予測される出力オーディオ信号を生成するために、トレーニングオーディオ信号の対応するトランスクリプトを使用して、発話埋込みをデコードすることによってTTSシステムのデコーダ部分をトレーニングすることを含む。いくつかの例では、TTSシステムをトレーニングすることは、第2の/アクセント方言でターゲット話者の音声のクローンを作成し、発話埋込みによって表される韻律を有する入力テキスト発話の予測される合成スピーチ表現を生成するために、予測される出力オーディオ信号を使用して、TTSシステムのシンセサイザをトレーニングすることと、予測される合成スピーチ表現とトレーニング合成スピーチ表現との間の勾配/損失を生成することと、TTSモデルとシンセサイザを通じて勾配/損失を逆伝播することとをさらに含む。
【0012】
本動作は、トレーニング合成スピーチ表現から、トレーニング合成スピーチ表現によってキャプチャされた韻律を表す参照韻律特徴を提供する固定長の参照フレームのシーケンスをサンプリングすることをさらに含み得る。ここで、TTSモデルのエンコーダ部分をトレーニングすることは、トレーニング合成スピーチ表現からサンプリングされた固定長の参照フレームのシーケンスを発話埋込みにエンコードするために、エンコーダ部分をトレーニングすることを含む。いくつかの実装形態では、TTSモデルのデコーダ部分をトレーニングすることは、トレーニングオーディオ信号の対応するトランスクリプトを使用して、発話埋込みによって表される韻律を表すトランスクリプトの予測される韻律特徴を提供する固定長の予測されるフレームのシーケンスに発話埋込みをデコードすることを含む。任意選択で、デコーダ部分によってデコードされた固定長の予測されるフレームの数が、トレーニング合成スピーチ表現からサンプリングされた固定長の参照フレームの数と等しくなるように、TTSモデルがトレーニングされ得る。
【0013】
いくつかの実装形態では、参照発話のトレーニング合成スピーチ表現は、オーディオ波形またはメル周波数スペクトログラムのシーケンスを含む。トレーニングされた音声クローン作成システムは、トレーニング合成スピーチ表現を生成する際に、トレーニングオーディオ信号の対応するトランスクリプトを入力として受信するようにさらに構成され得る。いくつかの例では、ターゲット話者によって話される参照発話に対応するトレーニングオーディオ信号は、人間のスピーチの入力オーディオ波形を含み、トレーニング合成スピーチ表現は、第2のアクセント/方言でターゲット話者の音声のクローンを作成する合成スピーチの出力オーディオ波形を含み、トレーニングされた音声クローン作成システムは、入力オーディオ波形を対応する出力オーディオ波形に直接変換するように構成されたエンドツーエンドのニューラルネットワークを含む。
【0014】
いくつかの実装形態では、TTSシステムは、条件付け入力で条件付けされ、入力テキスト発話を使用して、韻律特徴を提供する固定長の予測されるフレームのシーケンスに発話埋込みをデコードすることによって、表現力豊かなスピーチの出力オーディオ信号を生成するように構成されたTTSモデルを含む。発話埋込みは、入力テキスト発話用に意図された韻律を指定するために選択され、韻律特徴は、発話埋込みによって指定された意図された韻律を表す。これらの実装形態では、TTSシステムはまた、固定長の予測されるフレームのシーケンスを入力として受信し、第2のアクセント/方言でターゲット話者の音声のクローンを作成する入力テキスト発話の合成スピーチ表現に対応する出力オーディオ波形を出力として生成するように構成された波形シンセサイザを含む。意図された韻律を表す韻律特徴は、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含み得る。
【0015】
本開示の別の態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、複数のテキスト発話を含むトレーニングデータを取得するステップを含む動作を行わせるコンピュータ実装方法を提供する。トレーニングデータのトレーニングテキスト発話ごとに、本動作はまた、トレーニングテキスト発話を入力として受信するように構成されたトレーニングされた音声クローン作成システムによって、対応するトレーニングテキスト発話のトレーニング合成スピーチ表現を生成するステップと、対応するトレーニングテキスト発話と、トレーニングされた音声クローン作成システムによって生成されたトレーニング合成スピーチ表現とに基づいて、ターゲットスピーチ特性を有する合成スピーチを生成する方法を学習するためにテキスト読上げ(TTS)システムをトレーニングするステップとを含む。トレーニング合成スピーチ表現はターゲット話者の音声の中にあり、ターゲットスピーチ特性を有する。本動作はまた、ターゲットスピーチ特性を有するスピーチに合成される入力テキスト発話を受信するステップと、トレーニングされたTTSシステムを使用して、入力テキスト発話の合成スピーチ表現を生成するステップであって、合成スピーチ表現がターゲットスピーチ特性を有する、ステップとを含む。
【0016】
本開示の実装形態は、以下の任意選択の機能のうちの1つまたは複数を含み得る。いくつかの実装形態では、本動作は、ターゲット話者の音声特性を示す話者識別子を含む条件付け入力を取得するステップをさらに含む。ここで、入力テキスト発話の合成スピーチ表現を生成する際に、トレーニングされたTTSシステムは、取得された条件付け入力で条件付けされ、ターゲットスピーチ特性を有する合成スピーチ表現は、ターゲット話者の音声のクローンを作成する。ターゲットスピーチ特性は、ターゲットアクセント/方言またはターゲット韻律/スタイルを含み得る。いくつかの例では、対応するトレーニングテキスト発話のトレーニング合成スピーチ表現を生成する際に、トレーニングされた音声クローン作成システムは、ターゲット話者の音声特性を示す話者識別子を受信するようにさらに構成されている。
【0017】
本開示の1つまたは複数の実装形態の詳細は、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0018】
図1】トレーニングされたスピーチクローン作成システムを使用して、意図されたアクセント/方言でターゲット話者の音声を含む表現力豊かなスピーチを生成するためにテキスト読上げシステムをトレーニングするための例示的なシステムの概略図である。
図2A図1の例示的なトレーニングされたスピーチクローン作成システムの概略図である。
図2B図1の例示的なトレーニングされたスピーチクローン作成システムの概略図である。
図3図1のTTSシステムのTTSモデルおよびシンセサイザのトレーニングの概略図である。
図4A図3のTTSモデルのエンコーダ部分の概略図である。
図4B図3のTTSモデルのデコーダ部分の概略図である。
図5図2Bのトレーニングされたスピーチクローン作成システムのスペクトログラムデコーダの概略図である。
図6】入力テキスト発話を、意図されたアクセント/方言およびターゲット話者の音声を有する表現力豊かなスピーチに合成する方法の動作の例示的な構成のフローチャートである。
図7】本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0019】
様々な図面における同様の参照符号は同様の要素を示す。
【0020】
スピーチ合成システムによってよく使用されるテキスト読上げ(TTS)システムは、通常、実行時に参照音響表現なしでテキスト入力のみが与えられ、リアルに聞こえる合成スピーチを生成するために、テキスト入力によって提供されない多くの言語要素を代入する必要がある。これらの言語要素のサブセットはまとめて韻律と呼ばれ、イントネーション(ピッチの変化)、強勢(強勢のある音節と強勢のない音節)、音の長さ、音量、トーン、リズム、および話し方を含み得る。韻律は、スピーチの感情状態、スピーチの形式(たとえば、発言、質問、命令など)、スピーチの皮肉もしくは諷刺の存在、スピーチの知識の不確実性、または入力テキストの文法もしくは語彙の選択によってエンコードできない他の言語要素を示し得る。言語要素はまた、特定の地理的地域における話者が所与の言語で単語/用語を発音する方法に関連付けられるアクセント/方言を伝えることもある。たとえば、マサチューセッツ州ボストンの英語話者は「ボストンアクセント」を有しており、ノースダコタ州ファーゴの英語話者が同じ用語を発音する方法とは異なるように単語/用語を発音する。したがって、所与のテキスト入力は、様々な異なるアクセント/方言、および/または異なる話し方にまたがる所与の言語の合成スピーチを生成することができるだけでなく、異なる言語にまたがる合成スピーチを生成することができる。
【0021】
場合によっては、TTSシステムは、1人または複数のターゲット話者によって話される人間のスピーチを使用してトレーニングされる。たとえば、各ターゲット話者は、ターゲット話者にとってネイティブである特定のスタイルおよび特定のアクセント/方言(たとえば、アメリカ英語のアクセント)で話すプロの声優であってもよい。ターゲット話者(たとえば、プロの広告読者)によって話されるトレーニング発話のコーパスを使用して、TTSシステムは、ターゲット話者に関連付けられる音声、話し方、およびアクセント/方言に一致する合成スピーチを生成する方法を学習することができる。状況によっては、TTSシステムが、ターゲット話者の音声のクローンを作成するが、ターゲット話者にとってネイティブである話し方および/またはアクセント/方言とは異なる話し方および/またはアクセント/方言の合成スピーチを生成することが有用な場合がある。ターゲット話者がアメリカ英語のアクセントで話すプロの声優を含む例に戻ると、TTSシステムが、声優(たとえば、ターゲット話者)の音声を含むがイギリス英語のアクセントである合成スピーチを生成することが望ましい場合がある。ここで、TTSシステムがイギリス英語アクセントでターゲット話者によって話される参照発話に基づいてTTSシステムがトレーニングされていない限り、イギリス英語アクセントのターゲット話者の音声のクローンを作成する合成スピーチを生成することはできない。さらに、ネイティブにアメリカ英語のアクセントで話すプロの声優は、イギリス英語のアクセントに関連付けられる用語を正確に発音/発声(enunciate)するスピーチを生成できない場合があり、イギリス英語のアクセントで声優によって話される参照発話に基づいてTTSシステムをトレーニングすることさえできない。十分なトレーニングデータを取得できないという状況は、声優にとってネイティブではない、複数の異なるアクセント/方言にまたがってターゲット話者の音声のクローンを作成する合成スピーチをTTSシステムが生成することが望ましい状況においてさらに悪化する。
【0022】
本明細書の実装形態は、ターゲット話者がネイティブに話さないターゲットアクセント/方言でターゲット話者の音声のクローンを作成するトレーニング合成スピーチ表現を生成するために、トレーニングされた音声クローン作成システムを利用することと、ターゲットアクセント/方言でターゲット話者の音声のクローンを作成する、表現力豊かな合成スピーチを生成する方法を学習するようにTTSシステムをトレーニングするために、トレーニング合成スピーチ表現を使用することとを対象としている。より具体的には、トレーニングされた音声クローン作成システムは、複数のトレーニングオーディオ信号および対応するトランスクリプトを含むトレーニングデータを取得し、各トレーニングオーディオ信号は、ターゲット話者にとってネイティブである第1のアクセント/方言でターゲット話者によって話される参照発話に対応する。トレーニングオーディオ信号ごとに、トレーニングされた音声クローンシステムは、ターゲット話者によって話される対応する参照発話のトレーニング合成スピーチ表現を生成する。ここで、トレーニング合成スピーチ表現は、第1のアクセント/方言とは異なる第2のアクセント/方言のターゲット話者の音声を含む。すなわち、トレーニング合成スピーチ表現は、ターゲット話者によって話される参照発話に関連付けられる第1のアクセント/方言とは異なるアクセント/方言に関連付けられる。
【0023】
トレーニングされていないTTSシステムは、第2のアクセント/方言でターゲット話者の音声のクローンを作成する合成スピーチを生成する方法を学習するために、トレーニングオーディオ信号のトランスクリプトおよびトレーニング合成スピーチ表現に基づいてトレーニングする。すなわち、トレーニングされていない状態では、TTSシステムは、入力テキストから生成された合成スピーチにおいて異なるアクセント/方言にまたがるターゲット話者の音声を転送することができない。しかしながら、異なるアクセント/方言でターゲット話者の音声のクローンを作成するトレーニング合成スピーチ表現を生成するために音声クローンシステムを利用し、TTSシステムをトレーニングするためにトレーニング合成スピーチ表現を使用した後、入力テキスト発話を、第2のアクセント/方言でターゲット話者の音声のクローンを作成する対応する表現力豊かな合成スピーチに変換するために、トレーニングされたTTSシステムを推論中に使用することができる。ここで、推論中に、トレーニングされたTTSシステムは、ターゲット話者の音声特性を表す話者埋込みと第2のアクセント/方言を識別するアクセント/方言識別子を含む条件付け入力を受信して、TTSシステムが、入力テキスト発話を、第2のアクセント/方言でターゲット話者の音声のクローンを作成する出力オーディオ波形に変換できるようにし得る。
【0024】
図1は、トレーニングされていないテキスト読上げシステム(TTS)300をトレーニングし、入力テキスト発話320を、ターゲットアクセント/方言のターゲット話者の音声を含む表現力豊かなスピーチ152に合成するためにトレーニングされたTTSシステム300を実行するための例示的なシステム100を示している。本明細書の例は、異なるアクセント/方言に対して特定の音声で合成スピーチ152を生成することを対象としているが、本明細書の実装形態は、異なるアクセント/方言に加えて、またはその代わりに、異なる話し方に対して特定の音声で合成スピーチ152を生成するために同様に適用することができる。システム100は、データ処理ハードウェア122と、データ処理ハードウェア122と通信し、データ処理ハードウェア122に動作を行わせるためにデータ処理ハードウェア122によって実行可能な命令を記憶するメモリハードウェア124とを有するコンピューティングシステム(互換的に「コンピューティングデバイス」と呼ばれる)120を含む。
【0025】
いくつかの実装形態では、コンピューティングシステム120(たとえば、データ処理ハードウェア122)は、トレーニングされていないTTSシステム300をトレーニングする際に使用するためのトレーニング合成スピーチ表現202を生成するように構成されたトレーニングされた音声クローン作成システム200を提供する。トレーニングされた音声クローン作成システム200は、複数のトレーニングオーディオ信号102および対応するトランスクリプト106を含むトレーニングデータ10を取得する。各トレーニングオーディオ信号102は、第1のアクセント/方言でターゲット話者によって話される人間のスピーチの発話を含む。たとえば、トレーニングオーディオ信号102は、ターゲット話者によってアメリカ英語のアクセントで話されてもよい。したがって、ターゲット話者によって話される人間のスピーチの発話に関連付けられる第1のアクセント/方言は、ターゲット話者のネイティブのアクセント/方言に対応し得る。各トランスクリプト106は、対応する参照発話ごとのテキスト表現を含む。トレーニングデータ10はまた、それぞれが対応するターゲット話者の話者特性(たとえば、ネイティブアクセント、話者識別子、男性/女性など)を表す複数の話者埋込み(「話者識別子」とも呼ばれる)108を含み得る。すなわち、話者埋込み/識別子108は、ターゲット話者の話者特性を表し得る。話者埋込み/識別子108は、ターゲット話者の話者特性を表す数値ベクトルを含んでもよく、単にターゲット話者の音声でトレーニング合成スピーチ表現202を生成するようにトレーニングされた音声クローン作成システム200に命令する、ターゲット話者に関連付けられる識別子を含んでもよい。後者の場合、話者識別子は、システム200によって使用される対応する話者埋込みに変換され得る。いくつかの例では、トレーニングされた音声クローン作成システム200は、各トレーニングオーディオ信号102(たとえば、人間のスピーチの参照発話)を対応するトレーニング合成スピーチ表現202に直接変換する音声変換システムを含む。他の例では、トレーニングされた音声クローン作成システム200は、対応するトランスクリプト106を、トレーニングオーディオ信号102に関連付けられる第1のアクセント/方言とは異なる第2のアクセント/方言で参照発話の音声のクローンを作成する、対応するトレーニング合成スピーチ表現106に変換するテキスト読上げ音声クローン作成システムを含む。
【0026】
簡単にするために、本明細書の例は、ターゲットアクセント/方言(たとえば、第2のアクセント/方言)でターゲット話者の音声のクローンを作成するトレーニング合成スピーチ表現202を生成するトレーニングされた音声クローン作成システム200を対象とする。しかしながら、本明細書における実装形態は、ターゲット話者の音声のクローンを作成し、任意のターゲットスピーチ特性を有するトレーニング合成スピーチ表現202を生成するトレーニングされた音声クローン作成システム200にも同様に適用可能である。したがって、ターゲットスピーチ特性は、ターゲットアクセント/方言、ターゲット韻律/スタイル、または何らかの他のスピーチ特性のうちの少なくとも1つを含み得る。明らかになるように、トレーニングされた音声クローン作成システムによって生成された、ターゲットスピーチ特性を有するトレーニング合成スピーチ表現202は、ターゲットスピーチ特性を有する合成スピーチ202を生成する方法を学習するように、トレーニングされていないTTSシステム300をトレーニングするために使用される。
【0027】
トレーニングデータ10のトレーニングオーディオ信号102ごとに、トレーニングされた音声クローン作成システム200は、ターゲット話者によって話される対応する参照発話のトレーニング合成スピーチ表現202を生成する。ここで、トレーニング合成スピーチ表現202は、トレーニングオーディオ信号102の第1のアクセント/方言とは異なる第2のアクセント/方言のターゲット話者の音声を含む。すなわち、トレーニングされた音声クローン作成システム200は、第1のアクセント/方言でターゲット話者によって話された参照発話に対応するトレーニングオーディオ信号102を入力として受け取り、トレーニングオーディオ信号102のトレーニング合成スピーチ表現202を第2のアクセント/方言で出力として生成する。したがって、トレーニングされた音声クローン作成システム200は、トレーニングされていないTTSシステム300をトレーニングする際に使用するための複数のトレーニング合成スピーチ表現202を作成するために、トレーニングデータ10の複数のトレーニングオーディオ信号102の各々に対して対応するトレーニング合成スピーチ表現202を生成する。いくつかの例では、トレーニングされた音声クローン作成システム200は、話者埋込み/識別子108からトレーニング合成スピーチ表現202の話者特性を決定する。
【0028】
いくつかの実装形態では、トレーニングされた音声クローン作成システム200がTTS音声クローン作成システム200を含む場合、トレーニングデータ10は、複数のトレーニングテキスト発話106を含み、TTS音声クローン作成システム200は、各トレーニングテキスト発話106を、ターゲットスピーチ特性におけるトレーニング合成スピーチ表現202に変換する。ターゲットスピーチ特性は第2のアクセント/方言を含み得る。あるいは、ターゲットスピーチ特性は、ターゲット韻律/スタイルを含み得る。すなわち、TTS音声クローン作成システム200は、テキストのみからトレーニング合成スピーチ表現202を生成し得る。したがって、トレーニングテキスト発話106は、人間のスピーチの対応するオーディオ信号とペアになっていない、話されていないテキスト発話に対応し得る。そのため、話されていないテキスト発話は手動で、または言語モデルから導き出すことができる。TTS音声クローン作成システム200はまた、ターゲット話者の音声でターゲットスピーチ特性を有するトレーニング合成スピーチ表現202を生成するために、ターゲット話者の音声のクローンを作成するようにTTS音声クローン作成システム200を条件付ける話者埋込み/識別子108を受信し得る。TTS音声クローン作成システム200はまた、ターゲットスピーチ特性を識別するターゲットスピーチ特性識別子を受信し得る。たとえば、ターゲットスピーチ特性識別子は、結果として得られるトレーニング合成スピーチ表現202のターゲットアクセント/方言(たとえば、第2のアクセント/方言)を識別するアクセント/方言識別子109を含み得、および/または結果として得られるトレーニング合成スピーチ表現202のターゲット韻律/スタイルを示す韻律/スタイル識別子(すなわち、発話埋込み204)を含み得る。
【0029】
トレーニングデータ10のトレーニングオーディオ信号102ごとに、トレーニングされていないTTSシステム300は、トレーニングオーディオ信号102の対応するトランスクリプト106と、第2の方言/言語のターゲット話者の音声を含むトレーニングされた音声クローン作成システム200から出力される対応するトレーニング合成スピーチ表現202とに基づいてトレーニングする。より具体的には、トレーニングされていないTTSシステム300をトレーニングすることは、トレーニングデータ10のトレーニングオーディオ信号102ごとに、合成スピーチが第2の方言/アクセントでターゲット話者の音声のクローンを作成するように、入力テキストから合成スピーチを生成する方法を学習するためにトレーニングされていないTTSシステム300のTTSモデル400とシンセサイザ150の両方をトレーニングすることを含み得る。すなわち、TTSモデル400およびシンセサイザ150を含むTTSシステム300は、各トレーニング合成スピーチ表現202と一致する合成スピーチ152を生成するようにトレーニングされる。トレーニング中に、TTSシステム300は、トレーニング合成スピーチ表現202に対する発話埋込み204を予測することを学習し得る。ここで、各発話埋込み204は、TTSシステム300が複製することを目的とするトレーニング合成スピーチ表現202に関連付けられる韻律情報および/またはアクセント/方言情報を表し得る。さらに、複数のTTSシステム300、300A~Nは、トレーニングされた音声クローン作成システム200から出力されるトレーニング合成スピーチ表現202に基づいてトレーニングし得る。ここで、各TTSシステム300は、異なるターゲット話者の音声、異なる話し方/韻律、および/または異なるアクセント/方言を含み得る、対応するトレーニング合成スピーチ表現202のセットに基づいてトレーニングする。その後、複数のトレーニングされたTTSシステム300の各々は、対応するアクセント/方言のそれぞれのターゲット音声について表現力豊かなスピーチ152を生成するように構成されている。コンピューティングデバイス120は、後で推論中に使用するために、各トレーニングされたTTSシステム300をデータストレージ180(たとえば、メモリハードウェア124)に記憶し得る。
【0030】
推論中、コンピューティングデバイス120は、入力テキスト発話320を、ターゲットアクセント/方言でターゲット話者の音声のクローンを作成する(または、ターゲットアクセント/方言に加えて、もしくはその代わりに、何らかの他のターゲットスピーチ特性を伝える)表現力豊かなスピーチ152に合成するために、トレーニングされたTTSシステム300を使用し得る。特に、トレーニングされたTTSシステム300のTTSモデル400は、ターゲット話者の音声特性を表す話者埋込み/識別子108と、意図されたアクセント/方言(たとえば、イギリス英語またはアメリカ英語)を識別するアクセント/方言識別子109とを含む条件付け入力を取得し得る。条件付け入力は、結果として得られる合成スピーチ152が含むべき特定の話し方垂直を表す話し方韻律/スタイル識別子をさらに含むことができる。話者埋込み/識別子108およびアクセント/方言識別子109で条件付けされたTTSモデル400は、出力オーディオ波形402を生成するために入力テキスト発話320を処理する。ここで、話者埋込み/識別子108はターゲット話者の話者特性を含み、アクセント/方言識別子109はターゲットアクセント/方言(たとえば、アメリカ英語、イギリス英語など)を含む。出力オーディオ波形402は、ターゲットアクセント/方言およびターゲット話者の音声特性を伝え、スピーチシンセサイザ150が出力オーディオ波形402から合成スピーチ152を生成できるようにする。TTSモデル400はまた、出力オーディオ波形402に対応するいくつかの予測されるフレーム280を生成し得る。
【0031】
図2Aは、システム100のトレーニングされた音声クローン作成システム200、200aの例を示している。トレーニングされた音声クローン作成システム200aは、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応するトレーニングオーディオ信号102と、参照発話の対応するトランスクリプション106を受信し、第1のアクセント/方言とは異なる第2のアクセント/方言でターゲット話者の音声のクローンを作成するトレーニング合成スピーチ表現202を生成する。トレーニングされた音声クローン作成システム200aは、推論ネットワーク210、シンセサイザ220、および敵対的損失モジュール230を含む。推論ネットワーク210は、第1のアクセント/方言でターゲット話者によって話される参照発話に対応する入力トレーニングオーディオ信号102を消費するように構成された残差エンコーダ212を含み、トレーニングオーディオ信号102の残差エンコーディング214を出力する。トレーニングオーディオ信号102は、メルスペクトログラム表現を含み得る。いくつかの例では、特徴表現(すなわち、メルスペクトログラムシーケンス)がトレーニングオーディオ信号102から抽出され、そこから対応する残差エンコーディング214を生成するために入力として残差エンコーダ212に提供される。
【0032】
シンセサイザ220は、テキストエンコーダ222、話者埋込み/識別子108、言語埋込み224、デコーダニューラルネットワーク500、および波形シンセサイザ228を含む。テキストエンコーダ222は、畳み込みサブネットワークおよび双方向長短期記憶(LSTM)層を有するエンコーダニューラルネットワークを含み得る。デコーダニューラルネットワーク500は、出力メルスペクトログラム502を生成するために、テキストエンコーダ222、話者埋込み/識別子108、および言語埋込み224からの出力225を入力として受信するように構成されている。話者埋込み/識別子108は、ターゲット話者の音声特性を表し得、言語埋込み224は、トレーニングオーディオ信号の言語、生成されるトレーニング合成スピーチ発話204の言語、トレーニングオーディオ信号102およびトレーニング合成スピーチ表現に関連付けられるアクセント/方言を識別するアクセント/方言識別子109のうちの少なくとも1つに関連付けられる言語情報を指定し得る。最後に、波形シンセサイザ228は、デコーダニューラルネットワーク500から出力されたメルスペクトログラム502を時間領域波形(たとえば、トレーニング合成スピーチ表現202)に変換し得る。トレーニング合成スピーチ表現202は、同じターゲット話者によるトレーニングデータの参照発話において話された第1のアクセント/方言とは異なる第2のアクセント/方言のターゲット話者の音声を含む。したがって、音声クローン作成システム200aは、第1のアクセント/方言で参照発話を話したターゲット話者の音声を保持し、参照発話において話された第1のアクセント/方言を第2の/アクセント方言に変換するトレーニング合成スピーチ表現202を出力する。音声クローン作成システム200aによって生成された各トレーニング合成スピーチ表現202はまた、トレーニング合成スピーチ表現202に基づいてTTSシステム300をトレーニングする際に条件付け入力として使用するために、言語埋込み224、アクセント/方言識別子109、および/または話者埋込み/識別子108と関連付けられ得る。いくつかの実装形態では、波形シンセサイザ228はグリフィンリムシンセサイザである。いくつかの他の実装形態では、波形シンセサイザ228はボコーダである。たとえば、波形シンセサイザ228は、WaveRNNボコーダを含み得る。ここで、WaveRNNボコーダは、トレーニングされた音声クローン作成システム200によって予測されたスペクトログラムで条件付けされた、24kHzでサンプリングされた16ビット信号を生成し得る。いくつかの他の実装形態では、波形シンセサイザ228は、トレーニング可能なスペクトログラムから波形へのインバータである。波形シンセサイザ125が波形を生成した後、オーディオ出力システムは、その波形を使用してトレーニング合成スピーチ表現202を生成することができる。いくつかの例では、WaveNetニューラルボコーダが波形シンセサイザ228を置き換える。WaveNetニューラルボコーダは、波形シンセサイザ228によって生成されたトレーニング合成スピーチ表現202と比較して、トレーニング合成スピーチ表現202の異なるオーディオ忠実度を提供し得る。
【0033】
テキストエンコーダ222は、トレーニングオーディオ信号102の対応するトランスクリプション106をテキストエンコーディング225、225a~nのシーケンスにエンコードするように構成されている。いくつかの実装形態では、テキストエンコーダは、デコーダニューラルネットワーク500の出力ステップごとに、対応するテキストエンコーディングを固定長コンテキストベクトルとして生成するために、トランスクリプション106の逐次特徴表現を受信するように構成されたアテンションネットワークを含む。すなわち、テキストエンコーダ222におけるアテンションネットワークは、デコーダニューラルネットワーク500が後で生成するメルスペクトログラム502のフレームごとに固定長コンテキストベクトル225、225a~n、を生成し得る。フレームは、入力信号の小さい部分、たとえば入力信号の10ミリ秒のサンプルに基づくメルスペクトログラム502の単位である。アテンションネットワークは、テキストエンコーダ222出力の要素ごとの重みを決定し、各要素の重み付き合計を決定することによって固定長ベクトル225を生成し得る。アテンション重みは、デコーダニューラルネットワーク500の時間ステップごとに変化し得る。
【0034】
したがって、デコーダニューラルネットワーク500は、固定長ベクトル(たとえば、テキストエンコーディング)225を入力として受信し、メル周波数スペクトログラム502の対応するフレームを出力として生成するように構成されている。メル周波数スペクトログラム502は、音の周波数領域表現である。メル周波数スペクトログラムは、スピーチ明瞭度にとって重要な低周波数を強調する一方、摩擦音および他のノイズバーストによって支配され、概して、高忠実度でモデル化する必要のない高周波数を強調しない。
【0035】
いくつかの実装形態では、デコーダニューラルネットワーク500は、トランスクリプション106に基づいて出力ログメルスペクトログラムフレームのシーケンス、たとえば出力メルスペクトログラム502を生成するように構成されたアテンションベースのシーケンスツーシーケンスモデルを含む。たとえば、デコーダニューラルネットワーク500は、Tacotron 2モデルに基づき得る(たとえば、https://arxiv.org/abs/1712.05884におけるJ. Shenらによる「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」を参照されたい。この内容は参照により本明細書に組み込まれる)。トレーニングされた音声クローン作成システム200aは、追加の話者入力(たとえば、話者埋込み/識別子108)、および任意選択で、言語埋込み224、敵対的にトレーニングされた話者分類器(たとえば、話者分類器234)、および変分自動エンコーダスタイルの残差エンコーダ(たとえば、残差エンコーダ212)を用いてデコーダニューラルネットワーク500を増強する、強化された多言語のトレーニングされた音声クローン作成システムを提供する。
【0036】
アテンションベースのシーケンスツーシーケンスデコーダニューラルネットワーク500を話者分類器234、残差エンコーダ212、話者埋込み/識別子108、および/または言語埋込み224のうちの1つまたは複数を用いて増強する、強化され、トレーニングされた音声クローン作成システム200aは、特に多くの肯定的な結果をもたらす。すなわち、トレーニングされた音声クローン作成システム200aは、異なる自然言語および異なるアクセント/方言にわたるモデル能力の共有を促進するために、トランスクリプション106の音素入力表現の使用を可能にし、トレーニングされた音声クローン作成システム200aが、トレーニングデータ10において使用される言語と完全に相関する話者のアイデンティティをどのように表すかをスピーチ内容から解きほぐすようにトレーニングされた音声クローン作成システム200aを促進するために、敵対的損失項233を組み込む。
【0037】
図2Bは、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応する入力トレーニングオーディオ信号102を、第2のアクセント/方言でターゲット話者の音声を表す出力メルスペクトログラム502に変換するように構成された、例示的なトレーニングされた音声クローン作成システム200、200bを示している。すなわち、トレーニングされた音声クローン作成システム200bは、スピーチツースピーチ(S2S)変換モデルを含む。トレーニング音声クローン作成システム200bは、出力メルスペクトログラム502を生成するための入力として対応するトランスクリプション106を使用するトレーニング音声クローン作成システム200a(図2A)と対比される。S2S変換モデル200bは、スピーチ認識を行うことなく、またはトレーニングオーディオ信号102からの中間離散表現(たとえば、テキストまたは音素)の生成を必要とせずに、トレーニングオーディオ信号102を出力メルスペクトログラム502に直接変換するように構成されている。S2S変換モデル200bは、トレーニングオーディオ信号102を隠れ特徴表現(たとえば、一連のベクトル)にエンコードするように構成されたスペクトログラムエンコーダ240と、隠れ表現を出力メルスペクトログラム502にデコードするように構成されたスペクトログラムデコーダ500とを含む。たとえば、スペクトログラムデコーダ500が参照発話に対応する入力トレーニングオーディオ信号102を受信すると、スペクトログラムデコーダ500は、オーディオの与えるフレームを処理し、それらのオーディオの5つのフレームを10個のベクトルに変換し得る。ベクトルは、トレーニングオーディオ信号102のフレームのトランスクリプションではなく、むしろトレーニングオーディオ信号102のフレームの数学的表現である。次に、スペクトログラムデコーダ500は、スペクトログラムエンコーダ240から受信したベクトルに基づいて、トレーニング合成スピーチ表現に対応する出力メルスペクトログラム502を生成し得る。たとえば、スペクトログラムデコーダ500は、スペクトログラムエンコーダ240からオーディオの5つのフレームを表す10個のベクトルを受信し得る。ここで、スペクトログラムデコーダ500は、第2の/アクセント方言におけるトレーニングオーディオ信号102の5つのフレームとして、意図された単語または単語の一部を含む参照発話のスピーチ表現に対応する出力メルスペクトログラム502の5つのフレームを生成し得る。
【0038】
いくつかの例では、S2S変換モデル200bはまた、隠れ表現をテキスト表現、たとえば音素または書記素にデコードするテキストデコーダ(図示せず)を含む。これらの例では、スペクトログラムデコーダ500およびテキストデコーダは、スペクトログラムエンコーダ240によってエンコードされた隠れ表現をそれぞれ受信し、出力メルスペクトログラム502またはテキスト表現のそれぞれを並行して出力する、トレーニングされた音声クローン作成システム200の並列デコーディングブランチに対応し得る。図2AのTTSベースの音声クローン作成システム200aと同様に、S2S変換システム200bは、出力メルスペクトログラム502を可聴出力用の時間領域波形に合成するための波形シンセサイザ228、あるいはボコーダをさらに含み得る。時間領域オーディオ波形は、時間の経過に伴うオーディオ信号の振幅を定義するオーディオ波形を含む。波形シンセサイザ228は、出力メルスペクトログラム502をトレーニング合成スピーチ表現202の時間領域波形に合成するための単位選択モジュールまたはWaveNetモジュールを含み得る。いくつかの実装形態では、ボコーダ228、すなわちニューラルボコーダは、時間領域オーディオ波形(たとえば、トレーニング合成スピーチ表現202の)への変換のために、メル周波数スペクトログラムに基づいて別個にトレーニングおよび条件付けされる。
【0039】
図示される例では、トレーニングデータ10に関連付けられるターゲット話者は、第1のアクセント/方言(たとえば、アメリカ英語のアクセント)で話す。トレーニングされた音声クローン作成システム(たとえば、S2S音声変換モデル)200bは、第1のアクセント/方言で話されたトレーニングデータ10のトレーニングオーディオ信号102を、第2のアクセント/方言(たとえば、イギリス英語のアクセント)のターゲット話者の音声を含むトレーニング合成スピーチ表現202に直接変換するようにトレーニングされる。本開示の範囲から逸脱することなく、トレーニングされた音声クローン作成システム200bは、第1の言語または話し方でターゲット話者によって話された参照発話に対応するトレーニングオーディオ信号102を、ターゲット話者の音声を保持しているが異なる第2の言語または話し方であるトレーニング合成スピーチ表現202に変換するようにトレーニングされ得る。
【0040】
図3は、トレーニングされた音声クローン作成システム200によって生成されたトレーニング合成スピーチ表現202に基づいて、TTSシステム300をトレーニングするための例示的なトレーニングプロセス301を示している。トレーニングされた音声クローン作成システム200は、トレーニングオーディオ信号102および対応するトランスクリプト106を含むトレーニングデータ10を取得する。各トレーニング信号102は、話者埋込み/識別子108およびアクセント/方言識別子109を含む条件付け入力に関連付けられ得る。ここで、トレーニングデータ10のトレーニングオーディオ信号102は、第1のアクセント/方言(たとえば、アメリカ英語)の人間のスピーチを表す。トレーニングオーディオ信号102(および、任意選択で対応するトランスクリプト)に基づいて、トレーニングされた音声クローン作成システム200は、第1のアクセント/方言とは異なる第2のアクセント/方言のターゲット話者の音声を含むトレーニング合成スピーチ表現202を生成するように構成されている。トレーニング合成スピーチ表現202は、オーディオ波形またはメル周波数スペクトログラムのシーケンスを含み得る。トレーニングされた音声クローン作成システム200は、トレーニングされていないTTSモデル300をトレーニングするためのトレーニング合成スピーチ表現202を提供する。
【0041】
トレーニングされていないTTSシステム300は、TTSモデル400およびシンセサイザ150を含む。TTSモデル400は、エンコーダ部分400aおよびデコーダ部分400bを含む。TTSモデル400は、変分層をさらに含み得る。エンコーダ部分400aは、トレーニング合成スピーチ表現202を、トレーニング合成スピーチ表現202によってキャプチャされた韻律および/または第2のアクセント/方言を表す対応する発話埋込み204にエンコードする方法を学習するようにトレーニングされる。トレーニング中、デコーダ部分400bは、トランスクリプト106および条件付け入力(たとえば、話者埋込み/識別子108およびアクセント/方言識別子)で条件付けされ、エンコーダ部分400aによってトレーニング合成スピーチ表現202からエンコードされた発話埋込み204を予測される出力オーディオ信号402にデコードするように構成されている。トレーニング中に、デコーダ部分400bは、予測される出力オーディオ信号を生成するために、トレーニングデータのトランスクリプト106および発話埋込み204を受信する。トレーニングの目標は、予測される出力オーディオ信号402とトレーニング合成スピーチ表現202との間の損失を最小限に抑えることである。デコーダ部分400bはまた、予測される出力オーディオ信号402に対応するいくつかの予測されるフレーム280を生成し得る。すなわち、デコーダ部分400bは、発話埋込み204を、韻律特徴および/またはアクセント/方言情報を提供する固定長の予測されるフレーム280(互換的に「予測されるフレーム」と呼ばれる)のシーケンスにデコードする。韻律特徴は、トレーニング合成スピーチ表現202の韻律を表し、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含む。
【0042】
いくつかの実装形態では、シンセサイザ150は、TTSモデル400からの予測される出力オーディオ信号402に対応する予測されるフレーム280の数から予測される合成スピーチ表現152を生成する方法を学習するようにトレーニングされる。ここで、予測される合成スピーチ表現は、第2のアクセント/方言でターゲット話者の音声のクローンを作成し、トレーニング合成スピーチ表現202によってキャプチャされた韻律をさらに含み得る。より具体的には、シンセサイザ150は、トレーニング合成スピーチ表現202と一致する予測される合成スピーチ表現152を生成するようにシンセサイザ150に教示するために、TTSモデル400と同様に、音声クローン作成システム200から出力されたトレーニング合成スピーチ表現202をグラウンドトゥルースラベルとして受信する。シンセサイザ150は、トレーニング中に、予測される合成スピーチ表現152とトレーニング合成スピーチ表現202との間の勾配/損失154を生成する。いくつかの例では、シンセサイザ150は、TTSモデル400とシンセサイザ150を通じて勾配/損失154を逆伝播する。
【0043】
TTSモデル400およびTTSシステム300のシンセサイザがトレーニングされると、トレーニングされたTTSシステム300は、入力テキスト発話320から第2のアクセント/方言の合成スピーチ152を生成するために、デコーダ部分400bのみを適用する。すなわち、デコーダ部分400bは、入力テキスト発話320および条件付け入力108、109で条件付けされた選択された発話埋込み204を、出力オーディオ波形402および対応する予測されるフレーム280の数にデコードし得る。その後、シンセサイザ150は、第2のアクセント/方言でターゲット話者の音声のクローンを作成する合成スピーチ152を生成するために、予測されるフレーム280の数を使用する。
【0044】
図4Aおよび図4Bは、入力テキスト発話320を、ターゲットアクセント/方言でターゲット話者の音声のクローンを作成する表現力豊かなスピーチに合成するための階層的言語構造によって表される、図3のTTSモデル400を示している。明らかになるように、TTSモデル400は、所与の入力テキスト発話320の音節ごとに、所与の入力テキスト発話または他の言語仕様からの一意のマッピングに依存することなく、ターゲットアクセント/方言を有し、ターゲット話者の音声で合成スピーチ152を生成するために、音節の持続時間と、その音節のピッチ(F0)およびエネルギー(C0)輪郭を一緒に予測するようにトレーニングされ得る。
【0045】
トレーニング中、TTSモデル400の階層的言語構造は、トレーニング合成スピーチ表現202からサンプリングされた複数の固定長の参照フレーム211を固定長の発話埋込み204にエンコードするエンコーダ部分400a(図4A)と、固定長の発話埋込み204をデコードする方法を学習するデコーダ部分400b(図4B)とを含む。デコーダ部分400bは、固定長の発話埋込み204を、表現力豊かなスピーチのいくつかの予測されるフレーム280を含む出力オーディオ波形402にデコードし得る。明らかになるように、TTSモデル400は、デコーダ部分400bから出力される予測されるフレーム280の数がエンコーダ部分400aに入力される参照フレーム211の数と等しくなるようにトレーニングされる。さらに、TTSモデル400は、参照フレーム211および予測されるフレーム280に関連付けられるアクセント/方言および韻律情報が互いに実質的に一致するようにトレーニングされる。
【0046】
図3および図4Aを参照すると、エンコーダ部分400aは、トレーニングされた音声クローン作成システム200から出力された合成スピーチ表現202からサンプリングされた固定長の参照フレーム211のシーケンスを受信する。トレーニング合成スピーチ表現202は、ターゲットアクセント/方言のターゲット話者の音声を含む。参照フレーム211は、5ミリ秒(ms)の持続時間を含み、合成スピーチ表現202のピッチの輪郭(F0)またはエネルギーの輪郭(C0)(および/またはスペクトル特性の輪郭(M0))のうちの一方を表し得る。並行して、エンコーダ部分400aはまた、それぞれが5ミリ秒の持続時間を含み、合成スピーチ表現202のピッチの輪郭(F0)またはエネルギーの輪郭(C0)(および/またはスペクトル特性の輪郭(M0))のうちの他方を表す参照フレーム211の第2のシーケンスを受信し得る。したがって、合成スピーチ表現202からサンプリングされた参照フレーム211のシーケンスは、合成スピーチ表現202のターゲットアクセント/方言および/または韻律を表すための持続時間、ピッチ輪郭、エネルギー輪郭、および/またはスペクトル特性輪郭を提供する。合成スピーチ表現202の長さまたは持続時間は、参照フレーム211の総数の合計に相関する。
【0047】
エンコーダ部分400aは、互いに対してクロック制御(clock)する合成スピーチ表現202の参照フレーム211、音素421、421a、音節430、430a、単語440、440a、および文450、450aの階層レベルを含む。たとえば、参照フレーム211のシーケンスに関連付けられるレベルは、音素421のシーケンスに関連付けられる次のレベルよりも速くクロック制御する。同様に、音節430のシーケンスに関連付けられるレベルは、音素421のシーケンスに関連付けられるレベルよりも遅くクロック制御し、単語440のシーケンスに関連付けられるレベルよりも速くクロック制御する。したがって、本質的にシーケンスツーシーケンスエンコーダを提供するために、より速い後の最終クロック(すなわち、状態)後の出力が対応するより遅い層への入力として取られるように、より遅いクロッキング層は、より速いクロッキング層からの出力を入力として受信する。図示される例では、階層レベルは長短期記憶(LSTM)レベルを含む。
【0048】
図示される例では、合成スピーチ表現202は、3つの単語440、440A~Cを含む1つの文450、450Aを含む。第1の単語440、440Aは、2つの音節430、430Aa~Abを含む。第2の単語440、440Bは、1つの音節430、430Baを含む。第3の単語440、440aは、2つの音節430、430Ca~Cbを含む。第1の単語440、440Aの第1の音節430、430Aaは、2つの音素421、421Aa1~Aa2を含む。第2の単語440、440Bの第1の音節430、430Baは、3つの音素421、421Ba1~Ba3を含む。第3の単語440、440Cの第1の音節430、430Caは、1つの音素421、421Ca1を含む。第3の単語440、440Cの第2の音節430、430Cbは、2つの音素421、421Cb1~Cb2を含む。
【0049】
いくつかの実装形態では、エンコーダ部分400aは、最初に、参照フレーム211のシーケンスをフレームベースの音節埋込み432、432Aa~Cbにエンコードする。各フレームベースの音節埋込み432は、対応する音節430に関連付けられる持続時間、ピッチ(F0)、および/またはエネルギー(C0)を示す数値ベクトルとして表される参照韻律特徴を示し得る。いくつかの実装形態では、参照フレーム211は、音素421Aa1~421Cb2のシーケンスを定義する。ここで、エンコーダ部分400aは、参照フレーム211のサブセットを1つまたは複数の音素にエンコードする代わりに、単音レベルの言語特徴422、422Aa1~Cb2を単音特徴ベースの音節埋込み434、434Aa~Cbにエンコードすることによって音素421を考慮する。各音素レベルの言語特徴422は、音素の位置を示し得るが、各音素特徴ベースの音節埋込み434は、対応する音節430内の各音素の位置ならびに対応する音節430内の音素421の数を示すベクトルを含む。音節430ごとに、それぞれの音節埋込み432、434は、対応する音節430のそれぞれの音節レベルの言語特徴436、436Aa~Cbと連結され、エンコードされ得る。さらに、各音節埋込み432、434は、音節430のレベルの対応する状態を示す。
【0050】
引き続き図4Aを参照すると、斜めのハッチングパターンを含む階層層内のブロックは、階層の特定のレベルの言語特徴(単語レベル440を除く)に対応する。単語レベル440におけるハッチングパターンは、入力テキスト発話320(推論中)から言語特徴として抽出された単語埋込み442、またはトランスクリプト106から得られた単語ユニット472に基づく、トランスフォーマからの双方向エンコーダ表現(BERT)モデル470から出力されたWP埋込み442を含む。エンコーダ400aのリカレントニューラルネットワーク(RNN)部分には単語片の概念がないため、各単語の第1の単語片に対応するWP埋込み442は、1つまたは複数の音節430を含み得る単語を表すために選択され得る。フレームベースの音節埋込み432および単音特徴ベースの音節埋込み434を用いて、エンコーダ部分400aは、これらの音節埋込み432、434を他の言語特徴436、453、442(またはWP埋込み442)とともにエンコードする。たとえば、エンコーダ部分400aは、音節レベルの言語特徴436、436Aa~Cb、単語レベルの言語特徴(またはBERTモデル470から出力されたWP埋込み432、432A~C)、および/または文レベルの言語特徴452、452Aと連結された音節埋込み432、434をエンコードする。言語特徴436、452、442(またはWP埋込み442)とともに音節埋込み432、434をエンコードすることによって、エンコーダ部分400aは、合成スピーチ表現202に対する発話埋込み204を生成する。発話埋込み204は、合成スピーチ表現202のトランスクリプション106(たとえば、テキスト表現)とともにデータストレージ180(図1)に記憶され得る。トレーニングデータ10から、言語特徴432、442、452が抽出され、階層的言語構造のトレーニングを調整する際に使用するために記憶され得る。言語特徴(たとえば、言語特徴422、436、442、452)は、音素ごとの個々の音および/もしくは音節内の各音素の位置、各音節が強調されているか否か、各単語の構文情報、発話が質問かフレーズか、ならびに/または発話の話者の性別を含み得るが、これらに限定されない。本明細書で使用されるように、TTSモデル400のエンコーダ部分400aおよびデコーダ部分400bに関する単語レベルの言語特徴442の任意の参照は、BERTモデル470からのWP埋込みと置き換えることができる。
【0051】
図4Aの例では、言語特徴436、442、452と音節埋込み432、434との間のエンコーディングを示すために、エンコーディングブロック422、422Aa~Cbが示されている。ここで、ブロック422は、発話埋込み204を生成するために音節レートにおいてシーケンスエンコードされる。例示として、第1のブロック422Aaは、第2のブロック422Abに入力として供給される。第2のブロック422Abは、第3のブロック422Baに入力として供給される。第3のブロック422Baは、第4のブロック422Caに入力として供給される。第4のブロック422Caは、第5のブロック422Cbに供給される。いくつかの構成では、発話埋込み204は平均μを含み、標準偏差σは、複数のトレーニング合成スピーチ表現202のトレーニングデータに関するものである。
【0052】
いくつかの実装形態では、各音節430は、参照フレーム211のサブセットの対応するエンコーディングを入力として受信し、エンコードされたサブセット内の参照フレーム211の数に等しい持続時間を含む。図示される例では、最初の7つの固定長の参照フレーム211が音節430Aaにエンコードされ、次の4つの固定長の参照フレーム211が音節430Abにエンコードされ、次の11個の固定長の参照フレーム211が音節430Baにエンコードされ、次の3つの固定長の参照フレーム211が音節430Caにエンコードされ、最後の6つの固定長の参照フレーム211が音節430Cbにエンコードされる。したがって、音節シーケンス430内の各音節430は、音節430にエンコードされた参照フレーム211の数に基づく対応する持続時間、ならびに対応するピッチおよび/またはエネルギー輪郭を含み得る。たとえば、音節430Aaは、35ミリ秒に等しい持続時間(すなわち、それぞれが5ミリ秒の固定長を有する7つの参照フレーム211)を含み、音節430Abは、20ミリ秒に等しい持続時間(すなわち、それぞれが5ミリ秒の固定長を有する4つの参照フレーム211)を含む。したがって、参照フレーム211のレベルは、音節430のレベルにおける音節430Aaと次の音節430Abとの間の単一クロッキングに対して合計10回クロック制御する。音節430の持続時間は、音節430のタイミングおよび隣接する音節430同士の間の休止を示し得る。
【0053】
いくつかの例では、エンコーダ部分400aによって生成される発話埋込み204は、合成スピーチ表現202のアクセント/方言および/または韻律を表す数値ベクトルを含む固定長の発話埋込み204である。いくつかの例では、固定長の発話埋込み204は、「128」または「256」に等しい値を有する数値ベクトルを含む。
【0054】
ここで図3および図4Bを参照すると、トレーニング中に、TTSモデル400のデコーダ部分400bは、トランスクリプト106のターゲットアクセント/方言および韻律を指定する固定長の発話埋込み204を最初にデコードすることによって、複数の固定長の音節埋込み435を生成するように構成されている。より具体的には、発話埋込み204は、トレーニングされた音声クローン作成システム200から出力された合成スピーチ表現202によって保有されるターゲットアクセント/方言および韻律を表す。さらに、デコーダ部分400bは、ターゲット話者の音声特性を示す受信された話者埋込み/識別子108、および/または結果として得られる合成スピーチ152のターゲットアクセント/方言を示すアクセント/方言識別子109を使用して、トランスクリプト106に関連付けられる固定長の発話埋込み204をデコードする。したがって、デコーダ部分400bは、図4Aのエンコーダ部分400aによってエンコードされた複数の固定長の参照フレーム211に厳密に一致する複数の固定長の予測されるフレーム280を生成するために、発話埋込み204を逆伝播するように構成されている。たとえば、ピッチ(F0)とエネルギー(C0)の両方に対する固定長の予測されるフレーム280は、トレーニング合成スピーチ表現202によって保有されるターゲットアクセント/方言韻律と実質的に一致するターゲットアクセント/方言(たとえば、予測されるアクセント)を表すために並行して生成され得る。いくつかの例では、スピーチシンセサイザ150は、固定長の発話埋込み204に基づいて、意図されたアクセント/方言でターゲット話者の音声のクローンを作成する合成スピーチ152を生成するために、固定長の予測されるフレーム280を使用する。たとえば、スピーチシンセサイザ150の単位選択モジュールまたはWaveNetモジュールは、意図されたアクセントおよび/または意図された韻律を有する合成スピーチ152を生成するために、いくつかの予測されるフレーム280を使用し得る。特に、前述したように、合成スピーチ152において生成された意図されたアクセント/方言は、ターゲット話者にとってネイティブではなく、トレーニングデータ10の参照発話のいずれにおいてもターゲット話者によって話されていないアクセント/方言を含む。
【0055】
図示される例では、デコーダ部分400bは、エンコーダ部分400aから受信した発話埋込み204を、単語440、440b、音節430、430b、音素421、421b、および固定長の予測されるフレーム280の階層レベルにデコードする。具体的には、固定長の発話埋込み204は、デコーダ部分400bの階層入力データの変分層に対応し、積み重ねられた階層レベルの各々は、階層入力データの長さに合わせて可変的にクロック制御される長短期記憶(LSTM)処理セルを含む。たとえば、音節レベル430は単語レベル440より速くクロック制御し、音素レベル421より遅くクロック制御する。各レベルにおける長方形ブロックは、単語、音節、音素、またはフレームそれぞれのLSTM処理セルに対応する。有利には、トレーニングされた音声クローン作成システム200は、単語レベル440のLSTM処理セルに最後の1000単語にわたるメモリを与え、音節レベル430のLSTMセルに最後の100個の音節にわたるメモリを与え、音素レベル421のLSTMセルに最後の100個の音素にわたるメモリを与え、固定長ピッチおよび/またはエネルギーフレーム280のLSTMセルに最後の100個の固定長フレーム280にわたるメモリを与える。固定長フレーム280がそれぞれ5ミリ秒の持続時間(たとえば、フレームレート)を含む場合、対応するLSTM処理セルは最後の500ミリ秒(たとえば、0.5秒)にわたるメモリを提供する。
【0056】
図示の例では、階層的言語構造のデコーダ部分400bは、予測される固定長のフレーム280のシーケンスを生成するために、エンコーダ部分400aによってエンコードされた固定長の発話埋込み204を、3つの単語440A~440Cのシーケンス、5つの音節430Aa~430Cbのシーケンス、および9つの音素421Aa1~421Cb2のシーケンスに単純に逆伝播する。デコーダ部分400bは、トレーニング中はトレーニングデータ10の言語特徴、および推論中は入力テキスト発話320で条件付けされる。より速いクロッキング層からの出力がより遅いクロッキング層によって入力として受信される図4Aのエンコーダ部分400aとは対照的に、デコーダ部分400bは、より遅いクロッキング層の出力が各クロックサイクルにおいてタイミング信号を付加されてより速いクロッキング層の入力に分配されるように、より速いクロッキング層に供給されるより遅いクロッキング層からの出力を含む。TTSモデル400のさらなる詳細は、2020年5月5日に出願された米国特許出願第16/867,427号を参照して説明されており、その内容全体が参照により組み込まれる。
【0057】
図4Bを参照すると、いくつかの実装形態では、TTSモデル400の階層的言語構造は、推論中に入力テキスト発話320のメルスペクトル情報を予測するための制御可能なモデルを提供するように適合され、同時にメルスペクトル情報において暗黙的に表されるアクセント/方言および韻律を効果的に制御する。具体的には、TTSモデル400は、入力テキスト発話のメル周波数スペクトログラム502を予測し、時間領域オーディオ波形への変換のためにスピーチシンセサイザ150のボコーダネットワーク155への入力としてメル周波数スペクトログラム502を提供し得る。時間領域オーディオ波形は、時間の経過に伴うオーディオ信号の振幅を定義するオーディオ波形を含む。明らかになるように、スピーチシンセサイザ150は、サンプルトランスクリプト106に基づいてトレーニングされたTTSシステム300と、トレーニングされた音声クローン作成システム200から出力されたトレーニング合成スピーチ表現202を使用して、入力テキスト発話320から合成スピーチ152を生成することができる。すなわち、TTSシステム300は、生成するために重要な領域の専門知識を必要とする複雑な言語的および音響的特徴を受信せず、むしろ、エンドツーエンドのディープニューラルネットワークを使用して、入力テキスト発話320をメル周波数スペクトログラム502に変換することができる。ボコーダネットワーク155、すなわちニューラルボコーダは、タイ領域オーディオ波形に変換するために、メル周波数スペクトログラムに基づいて別個にトレーニングおよび条件付けされ得る。
【0058】
メル周波数スペクトログラムは、音の周波数領域表現を含む。メル周波数スペクトログラムは、スピーチ明瞭度にとって重要な低周波数を強調する一方、摩擦音および他のノイズバーストによって支配され、概して、高忠実度でモデル化する必要のない高周波数を強調しない。ボコーダネットワーク155は、メル周波数スペクトログラムを受信し、メル周波数スペクトログラムに基づいてオーディオ出力サンプルを生成するように構成された任意のネットワークとすることができる。たとえば、ボコーダネットワーク155は、https://arxiv.org/pdf/1711.10433.pdfにおいて入手可能である、van den Oord著「Parallel WaveNet: Fast High-Fidelity Speech Synthesis」に記載されている並列フィードフォワードニューラルネットワークに基づくことができ、これは参照により本明細書に組み込まれる。あるいは、ボコーダネットワーク155は自己回帰ニューラルネットワークとすることができる。
【0059】
次に図5を参照すると、トレーニングされた音声クローン作成システム200のスペクトログラムデコーダ500(デコーダ部分500と同じ意味で呼ばれる)は、プレネット510、長短期記憶(LSTM)サブネットワーク520、線形投影530、および畳み込みポストネット540を有するアーキテクチャを含み得る。前の時間ステップのメル周波数予測が通過するプレネット510は、隠れ整流線形単位(ReLU)の完全に接続された2つの層を含み得る。プレネット510は、トレーニング中のスピーチ合成システムの収束速度を高め、汎化能力を向上させるために、アテンションを学習するための情報ボトルネックとして機能する。出力変動を導入するために、確率0.5のドロップアウトがプレネット510の後段に適用され得る。
【0060】
LSTMサブネットワーク520は、2つ以上のLSTM層を含み得る。各時間ステップにおいて、LSTMサブネットワーク520は、プレネット510の出力の連結を受信し、固定長コンテキストベクトル225(たとえば、図2Aおよび図2Bのエンコーダからのテキストエンコーディング出力)は、メルスペクトログラム502の出力シーケンスが完了したことを予測するためにスカラに投影され、シグモイド活性化を通過する。LSTM層は、たとえば0.1の確率でゾーンアウトを使用して正規化され得る。線形投影は、LSTMサブネットワーク520の出力を入力として受信し、メル周波数スペクトログラム502、502Pの予測を生成する。
【0061】
1つまたは複数の畳み込み層を有する畳み込みポストネット540は、加算器550において予測されるメル周波数スペクトログラム502Pに加算する残差542を予測するために、時間ステップの予測されるメル周波数スペクトログラム502Pを処理する。これにより、全体的な再構築が改善される。最後の畳み込み層を除く各畳み込み層の後に、バッチ正規化と双曲線正接(TanH)の活性化が続く場合がある。畳み込み層は、ドロップアウトを使用して、たとえば0.5の確率で正規化される。残差542は、線形投影520によって生成された予測されるメル周波数スペクトログラム502Pに加算され、その和(すなわち、メル周波数スペクトログラム502)がスピーチシンセサイザ150に提供され得る。いくつかの実装形態では、デコーダ部分500が時間ステップごとにメル周波数スペクトログラム502を予測するのと並行して、LSTMサブネットワーク520の出力、[発話埋込み]、およびトレーニングデータ10の一部(たとえば、テキストエンコーダ(図示せず)によって生成された文字埋込み)の連結は、メル周波数スペクトログラム502の出力シーケンスが完了する確率を予測するためにスカラに投影され、シグモイド活性化を通過する。出力シーケンスメル周波数スペクトログラム502は、トレーニングデータ10のトレーニング合成スピーチ表現202に対応し、ターゲット話者の意図された韻律および意図されたアクセントを含む。
【0062】
この「ストップトークン」予測は推論中に使用され、トレーニングされた音声クローン作成システム200が、固定期間にわたって常に生成するのではなく、いつ生成を終了するかを動的に決定できるようにする。ストップトークンが、生成が終了したことを示すとき、すなわち、ストップトークンの確率がしきい値を超えたとき、デコーダ部分500は、メル周波数スペクトログラム502Pの予測を停止し、その時点までに予測されたメル周波数スペクトログラムをトレーニング合成スピーチ表現202として返す。あるいは、デコーダ部分500は、同じ長さ(たとえば、10秒)のメル周波数スペクトログラム502を常に生成し得る。
【0063】
図6は、入力テキスト発話を、意図されたアクセント/方言を有する表現力豊かなスピーチに合成し、ターゲット話者432の音声のクローンを作成する方法600の動作の例示的な構成のフローチャートである。データ処理ハードウェア122(図1)は、メモリハードウェア124に記憶された命令を実行することによって、方法600の動作を実行し得る。動作602において、方法600は、複数のトレーニングオーディオ信号102および対応するトランスクリプト106を含むトレーニングデータ10を取得するステップを含む。各トレーニングオーディオ信号102は、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応する。各トランスクリプト106は、対応する参照発話のテキスト表現を含む。トレーニングオーディオ信号102のトレーニングオーディオ信号102ごとに、方法600は動作604および606を行う。動作604において、方法600は、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応するトレーニングオーディオ信号102を入力として受信するように構成されたトレーニングされた音声クローン作成システム200によって、ターゲット話者によって話される対応する参照発話のトレーニング合成スピーチ表現202を生成するステップを含む。ここで、トレーニング合成スピーチ表現202は、第1のアクセント/方言とは異なる第2のアクセント/方言のターゲット話者の音声を含む。動作606において、方法600は、トレーニングオーディオ信号102の対応するトランスクリプト106と、トレーニングされた音声クローン作成システム200によって生成された対応する参照発話のトレーニング合成スピーチ表現202とに基づいて、テキスト読上げ(TTS)システム300をトレーニングするステップを含む。
【0064】
動作608において、方法600は、第2のアクセント/方言の表現力豊かなスピーチ152に合成される入力テキスト発話320を受信するステップを含む。動作610において、方法600は、ターゲット話者の音声特性を表す話者埋込み/識別子108と、第2のアクセント/方言を識別するアクセント/方言識別子109とを含む条件付け入力を取得するステップを含む。動作612において、方法600は、取得された条件付け入力で条件付けされたトレーニングされたTTSシステム300を使用して、および入力テキスト発話320を処理することによって、第2のアクセント/方言でターゲット話者の音声のクローンを作成する、入力テキスト発話320の合成スピーチ表現202に対応する出力オーディオ波形402を生成するステップを含む。いくつかの実装形態では、動作610の条件付け入力(108、109)を取得するステップは任意選択であり、動作612を行うステップは、トレーニングされたTTSシステム300を使用して、トレーニングされたTTSシステム300をいかなる条件付け入力(108、109)にも条件付けることなく、入力テキスト発話320の合成スピーチ表現202を生成するステップを含み得る。
【0065】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを行わせるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。アプリケーションの例は、これらに限定されないが、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含む。
【0066】
非一時的メモリは、コンピューティングデバイスによって使用されるプログラム(たとえば、命令シーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであってもよい。非一時的メモリは、揮発性および/または不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例は、これらに限定されないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/電子的に消去可能なプログラマブル読取り専用メモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、これらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。
【0067】
図7は、本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス700の概略図である。コンピューティングデバイス700は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの、様々な形態のデジタルコンピュータを表すことを意図している。ここに示されるコンポーネント、それらの接続と関係、およびそれらの機能は、例示のみを意図しており、本明細書で説明および/または請求される発明の実装形態を限定することを意図するものではない。
【0068】
コンピューティングデバイス700は、プロセッサ710、メモリ720、ストレージデバイス730、メモリ720および高速拡張ポート750に接続する高速インターフェース/コントローラ740、ならびに低速バス770およびストレージデバイス730に接続する低速インターフェース/コントローラ760を含む。コンポーネント710、720、730、740、750、および760の各々は、様々なバスを使用して相互接続されており、共通のマザーボード上に、または必要に応じて他の方法で搭載され得る。プロセッサ710は、高速インターフェース740に結合されたディスプレイ780などの外部入力/出力デバイス上のグラフィカルユーザインターフェース(GUI)にグラフィック情報を表示するために、メモリ720またはストレージデバイス730に記憶された命令を含む、コンピューティングデバイス700内で実行する命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリの種類とともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス700が接続されてもよく、各デバイスは必要な動作の一部を提供する(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)。
【0069】
メモリ720は、コンピューティングデバイス700内に情報を非一時的に記憶する。メモリ720は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ720は、コンピューティングデバイス700によって使用されるプログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであってもよい。不揮発性メモリの例は、これらに限定されないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能なプログラマブル読取り専用メモリ(EPROM)/電子的に消去可能なプログラマブル読取り専用メモリメモリ(EEPROM)(たとえば、通常、ブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、これらに限定されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。
【0070】
ストレージデバイス730は、コンピューティングデバイス700に大容量ストレージを提供することができる。いくつかの実装形態では、ストレージデバイス730はコンピュータ可読媒体である。様々な異なる実装形態では、ストレージデバイス730は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の類似の固体メモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってもよい。追加の実装形態では、コンピュータプログラム製品は情報担体に有形に具体化される。コンピュータプログラム製品は、実行されると、上記のような1つまたは複数の方法を行う命令を含む。情報担体は、メモリ720、ストレージデバイス730、プロセッサ710上のメモリなどのコンピュータまたは機械可読媒体である。
【0071】
高速コントローラ740は、コンピューティングデバイス700の帯域幅を大量に消費する動作を管理し、一方、低速コントローラ760は、帯域幅をあまり消費しない動作を管理する。そのような職務の割当ては単なる例である。いくつかの実装形態では、高速コントローラ740は、メモリ720、ディスプレイ780(たとえばグラフィックプロセッサまたはアクセラレータを通じて)、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート750に結合される。いくつかの実装形態では、低速コントローラ760は、ストレージデバイス730および低速拡張ポート790に結合される。様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポート790は、キーボード、ポインティングデバイス、スキャナなどの1つもしくは複数の入力/出力デバイス、または、たとえばネットワークアダプタを通じたスイッチもしくはルータなどのネットワーキングデバイスに結合され得る。
【0072】
コンピューティングデバイス700は、図に示されるように、多くの異なる形態で実装され得る。たとえば、それは、標準サーバ700aとして、もしくはそのようなサーバ700aのグループ内で複数回、ラップトップコンピュータ700bとして、またはラックサーバシステム700cの一部として実装され得る。
【0073】
本明細書に記載されるシステムおよび技法の様々な実装形態は、デジタル電子回路および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せにおいて実現することができる。これらの様々な実装形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように結合された、専用であってもよく汎用であってもよい少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムの実装形態を含むことができる。
【0074】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサ用の機械命令を含み、高レベルの手続き型言語および/もしくはオブジェクト指向プログラミング言語、ならびに/またはアセンブリ言語/機械言語で実装することができる。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令および/またはデータを、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD)媒体)を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0075】
本明細書で説明されるプロセスおよび論理フローは、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって行うことができ、1つまたは複数のコンピュータプログラムを実行して、入力データを操作して出力を生成することによって機能を行う。プロセスおよび論理フローはまた、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)などの専用論理回路によって行うことができる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読取り専用メモリ、ランダムアクセスメモリ、またはその両方から命令とデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令とデータを記憶するための1つまたは複数のメモリデバイスである。一般に、コンピュータはまた、データを記憶するための1つまたは複数の大容量ストレージデバイス、たとえば、磁気、光磁気ディスク、または光ディスクを含むか、またはそれらからデータを受信するか、またはそれらにデータを転送するために動作可能に結合される。しかしながら、コンピュータがそのようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、例として、EPROM、EEPROM、フラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、不揮発性メモリ、媒体およびメモリデバイスのすべての形態を含む。プロセッサとメモリは、専用論理回路によって補足されたり、専用論理回路に組み込んだりすることができる。
【0076】
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーン、および任意選択で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールを有するコンピュータ上で実装することができる。ユーザとの対話を提供するために他の種類のデバイスを使用することもでき、たとえば、ユーザに提供されるフィードバックは、たとえば、視覚的フィードバック、聴覚的フィードバック、触覚的フィードバックなど、任意の形式の感覚的フィードバックとすることができ、ユーザからの入力は、音響、音声、触覚入力など、あらゆる形式で受信することができる。さらに、コンピュータは、ユーザによって使用されるデバイスとの間でドキュメントを送受信することによって、たとえば、ウェブブラウザから受信したリクエストに応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
【0077】
多くの実装形態を説明してきた。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な変更が行われてよいことが理解されるであろう。したがって、他の実装形態も特許請求の範囲に含まれる。
【符号の説明】
【0078】
10 トレーニングデータ
100 システム
102 トレーニングオーディオ信号
106 トランスクリプション
106 トランスクリプト
106 トレーニングテキスト発話
108 話者埋込み/識別子
109 アクセント/方言識別子
120 コンピューティングシステム
122 データ処理ハードウェア
124 メモリハードウェア
150 シンセサイザ
150 スピーチシンセサイザ
152 スピーチ
152 合成スピーチ表現
152 合成スピーチ
153 勾配/損失
154 勾配/損失
155 ボコーダネットワーク
180 データストレージ
200 音声クローン作成システム
200a 音声クローン作成システム
200b 音声クローン作成システム
200b S2S変換モデル
200b S2S変換システム
202 トレーニング合成スピーチ表現
204 発話埋込み
204 トレーニング合成スピーチ発話
210 推論ネットワーク
211 参照フレーム
212 残差エンコーダ
214 残差エンコーディング
220 シンセサイザ
222 テキストエンコーダ
224 言語埋込み
225 出力
225 テキストエンコーディング
225 固定長コンテキストベクトル
225 固定長ベクトル
225a~n テキストエンコーディング
225a~n 固定長コンテキストベクトル
228 波形シンセサイザ
228 ボコーダ
230 敵対的損失モジュール
233 敵対的損失項
234 話者分類器
240 スペクトログラムエンコーダ
280 予測されるフレーム
280 固定長フレーム
300 テキスト読上げ(TTS)システム
300A~N TTSシステム
301 トレーニングプロセス
320 入力テキスト発話
400 TTSモデル
400a エンコーダ部分
400a エンコーダ
400b デコーダ部分
402 出力オーディオ波形、出力オーディオ信号
421 音素
421a 音素
421Aa1~Aa2 音素
421Aa1~421Cb2 音素
421b 音素
421Ba1~Ba3 音素
421Ca1 音素
421Cb1~Cb2 音素
422 音素レベルの言語特徴
422 言語特徴
422 エンコーディングブロック
422Aa~Cb エンコーディングブロック
422Aa1~Cb2 音素レベルの言語特徴
422Aa 第1のブロック
422Ab 第2のブロック
422Ba 第3のブロック
422Ca 第4のブロック
422Cb 第5のブロック
430 音節
430 音節シーケンス
430a 音節
430Aa 第1の音節
430Ab 音節
430Ba 第1の音節
430b 音節
430Ca 第1の音節
430Ca 音節
430Cb 第2の音節
430Cb 音節
432 音節埋込み
432 言語特徴
432Aa~Cb 音節埋込み
434 音節埋込み
434Aa~Cb 音素特徴ベースの音節埋込み
435 音節埋込み
436 音節レベルの言語特徴
436 言語特徴
436Aa~Cb 音節レベルの言語特徴
440 単語
440 単語レベル
440a 単語
440A 第1の単語
440B 第2の単語
440b 単語
440C 第3の単語
442 WP埋込み
442 単語レベルの言語特徴
450 文
450a 文
452 文レベルの言語特徴
452 言語特徴
452A 文レベルの言語特徴
453 言語特徴
470 トランスフォーマからの双方向エンコーダ表現(BERT)モデル
472 単語ユニット
500 スペクトログラムデコーダ
500 デコーダ部分
500 デコーダニューラルネットワーク
502 出力メルスペクトログラム
502 メルスペクトログラム
502 メル周波数スペクトログラム
502P メル周波数スペクトログラム
510 プレネット
520 ロングショートタームメモリ(LSTM)サブネットワーク
530 線形投影
540 畳み込みポストネット
542 残差
550 加算器
600 方法
700 コンピューティングデバイス
700a 標準サーバ
700b ラップトップコンピュータ
700c ラックサーバシステム
710 プロセッサ
720 メモリ
730 ストレージデバイス
740 高速インターフェース/コントローラ
750 高速拡張ポート
760 低速インターフェース/コントローラ
770 低速バス
780 ディスプレイ
790 低速拡張ポート
図1
図2A
図2B
図3
図4A
図4B
図5
図6
図7
【手続補正書】
【提出日】2024-03-08
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
データ処理ハードウェア(122)上で実行されると、前記データ処理ハードウェア(122)に、
複数のトレーニングオーディオ信号(102)および対応するトランスクリプト(106)を含むトレーニングデータ(10)を取得するステップであって、各トレーニングオーディオ信号(102)が、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応し、各トランスクリプト(106)が、前記対応する参照発話のテキスト表現を含む、ステップと、
前記トレーニングデータ(10)のトレーニングオーディオ信号(102)ごとに、
前記ターゲット話者によって前記第1のアクセント/方言で話される前記参照発話に対応する前記トレーニングオーディオ信号(102)を入力として受信するように構成されたトレーニングされた音声クローン作成システム(200)によって、前記ターゲット話者によって話される、前記対応する参照発話のトレーニング合成スピーチ表現(202)を生成するステップであって、前記トレーニング合成スピーチ表現(202)が、前記第1のアクセント/方言とは異なる第2のアクセント/方言の前記ターゲット話者の音声を含む、ステップと、
前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)と、前記トレーニングされた音声クローン作成システム(200)によって生成された前記対応する参照発話の前記トレーニング合成スピーチ表現(202)とに基づいて、テキスト読上げ(TTS)システム(300)をトレーニングするステップと、
前記第2のアクセント/方言でスピーチ(152)に合成される入力テキスト発話(320)を受信するステップと、
前記ターゲット話者の音声特性を表す話者埋込み(108)と、前記第2のアクセント/方言を識別するアクセント/方言識別子(109)とを含む条件付け入力(108、109)を取得するステップと、
前記取得された条件付け入力(108、109)で条件付けされた前記トレーニングされたTTSシステム(300)を使用して、および前記入力テキスト発話(320)を処理することによって、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する、前記入力テキスト発話(320)の合成スピーチ表現(202)に対応する出力オーディオ波形(152)を生成するステップと
を含む動作を行わせる、コンピュータ実装方法(600)。
【請求項2】
前記TTSシステム(300)をトレーニングするステップが、
前記トレーニングされた音声クローン作成システム(200)によって生成された前記対応する参照発話の前記トレーニング合成スピーチ表現(202)を、前記トレーニング合成スピーチ表現(202)によってキャプチャされた韻律を表す発話埋込み(204)にエンコードするために、前記TTSシステム(300)のTTSモデル(400)のエンコーダ部分(400a)をトレーニングするステップと、
表現力豊かなスピーチの予測される出力オーディオ信号(402)を生成するために、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を使用して、前記発話埋込み(204)をデコードすることによって前記TTSシステム(300)のデコーダ部分(400b)をトレーニングするステップと
を含む、請求項1に記載のコンピュータ実装方法(600)。
【請求項3】
前記TTSシステム(300)をトレーニングするステップが、
前記入力テキスト発話(320)の予測される合成スピーチ表現(152)を生成するために、前記予測される出力オーディオ信号(402)を使用して、前記TTSシステム(300)のシンセサイザ(150)をトレーニングするステップであって、前記予測される合成スピーチ表現(152)は、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成し、前記発話埋込み(204)によって表される前記韻律を有する、ステップと、
前記予測される合成スピーチ表現(152)と前記トレーニング合成スピーチ表現(202)との間の勾配/損失(154)を生成するステップと、
前記TTSモデル(400)と前記シンセサイザ(150)を通じて前記勾配/損失(153)を逆伝播するステップと
をさらに含む、請求項2に記載のコンピュータ実装方法(600)。
【請求項4】
前記動作が、
前記トレーニング合成スピーチ表現(202)から、前記トレーニング合成スピーチ表現(202)によってキャプチャされた前記韻律を表す参照韻律特徴を提供する固定長の参照フレームのシーケンスをサンプリングするステップをさらに含み、
前記TTSモデル(400)の前記エンコーダ部分(400a)をトレーニングするステップが、前記トレーニング合成スピーチ表現(202)からサンプリングされた前記固定長の参照フレームのシーケンスを前記発話埋込み(204)にエンコードするために、前記エンコーダ部分(400a)をトレーニングするステップを含む、請求項2に記載のコンピュータ実装方法(600)。
【請求項5】
前記TTSモデル(400)の前記デコーダ部分(400b)をトレーニングするステップが、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を使用して、前記発話埋込み(204)によって表される前記韻律を表す前記トランスクリプト(106)の予測される韻律特徴を提供する固定長の予測されるフレーム(280)のシーケンスに前記発話埋込み(204)をデコードするステップを含む、請求項4に記載のコンピュータ実装方法(600)。
【請求項6】
前記デコーダ部分(400b)によってデコードされた固定長の予測されるフレームの数が、前記トレーニング合成スピーチ表現(202)からサンプリングされた固定長の参照フレームの数と等しくなるように、前記TTSモデル(400)がトレーニングされる、請求項5に記載のコンピュータ実装方法(600)。
【請求項7】
前記参照発話の前記トレーニング合成スピーチ表現(202)が、オーディオ波形またはメル周波数スペクトログラムのシーケンスを含む、請求項1に記載のコンピュータ実装方法(600)。
【請求項8】
前記トレーニングされた音声クローン作成システム(200)が、前記トレーニング合成スピーチ表現(202)を生成する際に、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を入力として受信するようにさらに構成されている、請求項1に記載のコンピュータ実装方法(600)。
【請求項9】
前記ターゲット話者によって話される前記参照発話に対応する前記トレーニングオーディオ信号(102)が、人間のスピーチの入力オーディオ波形を含み、
前記トレーニング合成スピーチ表現(202)が、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する合成スピーチの出力オーディオ波形を含み、
前記トレーニングされた音声クローン作成システム(200)が、入力オーディオ波形を対応する出力オーディオ波形に直接変換するように構成されたエンドツーエンドのニューラルネットワークを備える、請求項1に記載のコンピュータ実装方法(600)。
【請求項10】
前記TTSシステム(300)が、
前記条件付け入力で条件付けされ、前記入力テキスト発話(320)を使用して、韻律特徴を提供する固定長の予測されるフレーム(502)のシーケンスに発話埋込み(204)をデコードすることによって、表現力豊かなスピーチの出力オーディオ信号(402)を生成するように構成されたTTSモデル(400)であって、前記発話埋込み(204)が、前記入力テキスト発話(320)の意図された韻律を指定するために選択され、前記韻律特徴が、前記発話埋込み(204)によって指定された前記意図された韻律を表す、TTSモデル(400)と、
前記固定長の予測されるフレーム(502)のシーケンスを入力として受信し、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する前記入力テキスト発話(320)の前記合成スピーチ表現(202)に対応する前記出力オーディオ波形を出力として生成するように構成された波形シンセサイザ(228)と
を備える、請求項1に記載のコンピュータ実装方法(600)。
【請求項11】
前記意図された韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含む、請求項10に記載のコンピュータ実装方法(600)。
【請求項12】
データ処理ハードウェア(122)と、
前記データ処理ハードウェア(122)と通信し、前記データ処理ハードウェア(122)によって実行されると、前記データ処理ハードウェア(122)に、
複数のトレーニングオーディオ信号(102)および対応するトランスクリプト(106)を含むトレーニングデータ(10)を取得することであって、各トレーニングオーディオ信号(102)が、ターゲット話者によって第1のアクセント/方言で話される参照発話に対応し、各トランスクリプト(106)が、前記対応する参照発話のテキスト表現を含む、取得することと、
前記トレーニングデータ(10)のトレーニングオーディオ信号(102)ごとに、
前記ターゲット話者によって前記第1のアクセント/方言で話される前記参照発話に対応する前記トレーニングオーディオ信号(102)を入力として受信するように構成されたトレーニングされた音声クローン作成システム(200)によって、前記ターゲット話者によって話される、前記対応する参照発話のトレーニング合成スピーチ表現(202)を生成することであって、前記トレーニング合成スピーチ表現(202)が、前記第1のアクセント/方言とは異なる第2のアクセント/方言の前記ターゲット話者の音声を含む、生成することと、
前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)と、前記トレーニングされた音声クローン作成システム(200)によって生成された前記対応する参照発話の前記トレーニング合成スピーチ表現(202)とに基づいて、テキスト読上げ(TTS)システム(300)をトレーニングすることと、
前記第2のアクセント/方言でスピーチ(152)に合成される入力テキスト発話(320)を受信することと、
前記ターゲット話者の音声特性を表す話者埋込み(108)と、前記第2のアクセント/方言を識別するアクセント/方言識別子(109)とを含む条件付け入力(108、109)を取得することと、
前記取得された条件付け入力(108、109)で条件付けされた前記トレーニングされたTTSシステム(300)を使用して、および前記入力テキスト発話(320)を処理することによって、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する、前記入力テキスト発話(320)の合成スピーチ表現(202)に対応する出力オーディオ波形(152)を生成することと
を含む動作を行わせる命令を記憶するメモリハードウェア(124)と
を備える、システム(100)。
【請求項13】
前記TTSシステム(300)をトレーニングすることが、
前記トレーニングされた音声クローン作成システム(200)によって生成された前記対応する参照発話の前記トレーニング合成スピーチ表現(202)を、前記トレーニング合成スピーチ表現(202)によってキャプチャされた韻律を表す発話埋込み(204)にエンコードするために、前記TTSシステム(300)のTTSモデル(400)のエンコーダ部分(400a)をトレーニングすることと、
表現力豊かなスピーチの予測される出力オーディオ信号(402)を生成するために、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を使用して、前記発話埋込み(204)をデコードすることによって前記TTSシステム(300)のデコーダ部分(400b)をトレーニングすることと
を含む、請求項12に記載のシステム(100)。
【請求項14】
前記TTSシステム(300)をトレーニングすることが、
前記入力テキスト発話(320)の予測される合成スピーチ表現(152)を生成するために、前記予測される出力オーディオ信号(402)を使用して、前記TTSシステム(300)のシンセサイザ(150)をトレーニングすることであって、前記予測される合成スピーチ表現(152)が、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成し、前記発話埋込み(204)によって表される前記韻律を有する、トレーニングすることと、
前記予測される合成スピーチ表現(152)と前記トレーニング合成スピーチ表現(202)との間の勾配/損失(154)を生成することと、
前記TTSモデル(400)と前記シンセサイザ(150)を通じて前記勾配/損失(153)を逆伝播することと
をさらに含む、請求項13に記載のシステム(100)。
【請求項15】
前記動作が、
前記トレーニング合成スピーチ表現(202)から、前記トレーニング合成スピーチ表現(202)によってキャプチャされた前記韻律を表す参照韻律特徴を提供する固定長の参照フレームのシーケンスをサンプリングすることをさらに含み、
前記TTSモデル(400)の前記エンコーダ部分(400a)をトレーニングすることが、前記トレーニング合成スピーチ表現(202)からサンプリングされた前記固定長の参照フレームのシーケンスを前記発話埋込み(204)にエンコードするために、前記エンコーダ部分(400a)をトレーニングすることを含む、請求項13に記載のシステム(100)。
【請求項16】
前記TTSモデル(400)の前記デコーダ部分(400b)をトレーニングすることが、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を使用して、前記発話埋込み(204)によって表される前記韻律を表す前記トランスクリプト(106)の予測される韻律特徴を提供する固定長の予測されるフレーム(280)のシーケンスに前記発話埋込み(204)をデコードすることを含む、請求項15に記載のシステム(100)。
【請求項17】
前記デコーダ部分(400b)によってデコードされた固定長の予測されるフレームの数が、前記トレーニング合成スピーチ表現(202)からサンプリングされた固定長の参照フレームの数と等しくなるように、前記TTSモデル(400)がトレーニングされる、請求項16に記載のシステム(100)。
【請求項18】
前記参照発話の前記トレーニング合成スピーチ表現(202)が、オーディオ波形またはメル周波数スペクトログラムのシーケンスを含む、請求項12に記載のシステム(100)。
【請求項19】
前記トレーニングされた音声クローン作成システム(200)が、前記トレーニング合成スピーチ表現(202)を生成する際に、前記トレーニングオーディオ信号(102)の前記対応するトランスクリプト(106)を入力として受信するようにさらに構成されている、請求項12に記載のシステム(100)。
【請求項20】
前記ターゲット話者によって話される前記参照発話に対応する前記トレーニングオーディオ信号(102)が、人間のスピーチの入力オーディオ波形を含み、
前記トレーニング合成スピーチ表現(202)が、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する合成スピーチの出力オーディオ波形を含み、
前記トレーニングされた音声クローン作成システム(200)が、入力オーディオ波形を対応する出力オーディオ波形に直接変換するように構成されたエンドツーエンドのニューラルネットワークを備える、請求項12に記載のシステム(100)。
【請求項21】
前記TTSシステム(300)が、
前記条件付け入力で条件付けされ、前記入力テキスト発話(320)を使用して、韻律特徴を提供する固定長の予測されるフレーム(502)のシーケンスに発話埋込み(204)をデコードすることによって、表現力豊かなスピーチの出力オーディオ信号(402)を生成するように構成されたTTSモデル(400)であって、前記発話埋込み(204)が、前記入力テキスト発話(320)の意図された韻律を指定するために選択され、前記韻律特徴が、前記発話埋込み(204)によって指定された前記意図された韻律を表す、TTSモデル(400)と、
前記固定長の予測されるフレーム(502)のシーケンスを入力として受信し、前記第2のアクセント/方言で前記ターゲット話者の前記音声のクローンを作成する前記入力テキスト発話(320)の前記合成スピーチ表現(202)に対応する前記出力オーディオ波形を出力として生成するように構成された波形シンセサイザ(228)と
を備える、請求項12から20のいずれか一項に記載のシステム(100)。
【請求項22】
前記意図された韻律を表す前記韻律特徴が、持続時間、ピッチ輪郭、エネルギー輪郭、および/またはメル周波数スペクトログラム輪郭を含む、請求項21に記載のシステム(100)。
【請求項23】
データ処理ハードウェア(122)上で実行されると、前記データ処理ハードウェア(122)に、
複数のトレーニングテキスト発話(106)を含むトレーニングデータ(10)を取得するステップと、
前記トレーニングデータ(106)のトレーニングテキスト発話(106)ごとに、
前記トレーニングテキスト発話(106)を入力として受信するように構成されたトレーニングされた音声クローン作成システム(200)によって、対応する前記トレーニングテキスト発話(106)のトレーニング合成スピーチ表現(202)を生成するステップであって、前記トレーニング合成スピーチ表現(202)がターゲット話者の音声の中にあり、ターゲットスピーチ特性を有する、ステップと、
対応する前記トレーニングテキスト発話(106)と、前記トレーニングされた音声クローン作成システム(200)によって生成された前記トレーニング合成スピーチ表現(202)とに基づいて、前記ターゲットスピーチ特性を有する合成スピーチ(152)を生成する方法を学習するためにテキスト読上げ(TTS)システム(300)をトレーニングするステップと、
前記ターゲットスピーチ特性を有するスピーチに合成される入力テキスト発話(320)を受信するステップと、
前記トレーニングされたTTSシステム(300)を使用して、前記入力テキスト発話(320)の合成スピーチ表現(152)を生成するステップであって、前記合成スピーチ表現(152)が前記ターゲットスピーチ特性を有する、ステップと
を含む動作を行わせる、コンピュータ実装方法(600)。
【請求項24】
前記動作が、前記ターゲット話者の音声特性を示す話者識別子(108)を含む条件付け入力(108、109)を取得するステップをさらに含み、
前記入力テキスト発話(320)の前記合成スピーチ表現(202)を生成する際に、前記トレーニングされたTTSシステム(300)が前記取得された条件付け入力(108、109)で条件付けされ、
前記ターゲットスピーチ特性を有する前記合成スピーチ表現(152)が前記ターゲット話者の前記音声のクローンを作成する、請求項23に記載のコンピュータ実装方法(600)。
【請求項25】
前記ターゲットスピーチ特性が、ターゲットアクセント/方言を含む、請求項23に記載のコンピュータ実装方法(600)。
【請求項26】
前記ターゲットスピーチ特性が、ターゲット韻律/スタイルを含む、請求項23に記載のコンピュータ実装方法(600)。
【請求項27】
前記対応するトレーニングテキスト発話(320)の前記トレーニング合成スピーチ表現(202)を生成する際に、前記トレーニングされた音声クローン作成システム(200)が、前記ターゲット話者の音声特性を示す話者識別子(108)を受信するようにさらに構成されている、請求項23から26のいずれか一項に記載のコンピュータ実装方法(600)。
【国際調査報告】