IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2024-505076多様で自然なテキスト読み上げサンプルを生成する
<>
  • 特表-多様で自然なテキスト読み上げサンプルを生成する 図1
  • 特表-多様で自然なテキスト読み上げサンプルを生成する 図2A
  • 特表-多様で自然なテキスト読み上げサンプルを生成する 図2B
  • 特表-多様で自然なテキスト読み上げサンプルを生成する 図2C
  • 特表-多様で自然なテキスト読み上げサンプルを生成する 図3
  • 特表-多様で自然なテキスト読み上げサンプルを生成する 図4
  • 特表-多様で自然なテキスト読み上げサンプルを生成する 図5
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-02
(54)【発明の名称】多様で自然なテキスト読み上げサンプルを生成する
(51)【国際特許分類】
   G10L 13/047 20130101AFI20240126BHJP
   G10L 25/30 20130101ALI20240126BHJP
【FI】
G10L13/047 Z
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023546122
(86)(22)【出願日】2022-01-21
(85)【翻訳文提出日】2023-09-26
(86)【国際出願番号】 US2022013351
(87)【国際公開番号】W WO2022164725
(87)【国際公開日】2022-08-04
(31)【優先権主張番号】17/163,007
(32)【優先日】2021-01-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ユ・ジャン
(72)【発明者】
【氏名】ブヴァナ・ラマバドラン
(72)【発明者】
【氏名】アンドリュー・ローゼンバーグ
(72)【発明者】
【氏名】ヨンフイ・ウ
(72)【発明者】
【氏名】ビュンハ・チュン
(72)【発明者】
【氏名】ロン・ワイス
(72)【発明者】
【氏名】ユアン・カオ
(57)【要約】
多様で自然なテキスト読み上げ(TTS)サンプルを生成する方法(400)は、TTSモデル(200)を使用して、受信されたテキスト(152)に基づいて音声サンプル(154)を使用するステップを含む。トレーニングプロセスは、各々がスペクトログラム(166)と、スペクトログラム(166)に対応するトレーニングテキスト(164)とを含むトレーニングサンプル(162)を受信することによって、音声サンプルを生成するようにTTSモデルをトレーニングする。各トレーニングサンプルについて、トレーニングプロセスは、トレーニングテキストに関連付けられた音声単位を識別する。各音声単位について、トレーニングプロセスは、音声埋め込み(e)を生成し、音声埋め込みをスペクトログラムの一部と位置合わせし、位置合わせされた部分から潜在特徴(212)を抽出し、量子化埋め込み(q)を潜在特徴に割り当てる。トレーニングプロセスは、スペクトログラムに対応するトレーニングテキストに関連付けられた音声単位に関する音声埋め込みと量子化埋め込みとの連結(230)を復号することによって音声サンプルを生成する。
【特許請求の範囲】
【請求項1】
データ処理ハードウェア(112)によって実行されると、前記データ処理ハードウェア(112)に動作を実行させるコンピュータ実装方法(400)であって、前記動作が、
テキストのシーケンス(152)を受信するステップと、
テキスト読み上げ(TTS)モデル(200)を使用して前記テキストのシーケンス(152)に基づいて1つまたは複数の音声サンプル(154)を生成するステップと
を含み、前記TTSモデル(200)が、
複数のトレーニングサンプル(162)を受信するステップであって、前記複数のトレーニングサンプル(162)の各トレーニングサンプルが、参照スペクトログラム(166)と、前記参照スペクトログラム(166)に対応するテキストのトレーニングシーケンス(164)とを含む、ステップと、
前記複数のトレーニングサンプル(162)の各トレーニングサンプルについて、
前記参照スペクトログラム(166)に対応する前記テキストのトレーニングシーケンス(164)に関連付けられた音声単位のシーケンスを識別するステップと、
前記音声単位のシーケンスの各音声単位について、
音声埋め込み(e)を生成するステップと、
前記音声埋め込み(e)を前記参照スペクトログラム(166)の対応する位置と位置合わせするステップと、
前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分から潜在特徴(212)を抽出するステップと、
量子化埋め込み(q)を、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分からの前記潜在特徴(212)に割り当てるステップと、
前記参照スペクトログラム(166)に対応する前記テキストのトレーニングシーケンス(164)に関連付けられた前記音声単位のシーケンスについて、前記音声埋め込み(e)と前記量子化埋め込み(q)との連結(230)を復号するステップと
によって、前記1つまたは複数の音声サンプル(154)を生成するようにトレーニングされる、
コンピュータ実装方法(400)。
【請求項2】
前記量子化埋め込み(q)を、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分からの前記潜在特徴(212)に割り当てるステップが、連続潜在空間内の事後分布(170)から前記量子化埋め込み(q)をサンプリングした後、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分からの前記潜在特徴(212)に前記量子化埋め込み(q)を割り当てるステップを含む、請求項1に記載の方法(400)。
【請求項3】
前記動作が、
複数の利用可能な量子化埋め込み(q)の各々について、前記対応する量子化埋め込み(q)と、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分から抽出された前記潜在特徴(212)との間のユークリッド距離を決定するステップと、
前記複数の利用可能な量子化埋め込み(q)の中から、前記対応する量子化埋め込み(q)と、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分から抽出された前記潜在特徴(212)との間の最小ユークリッド距離に関連付けられた前記量子化埋め込み(q)を選択するステップと
をさらに含み、
前記量子化埋め込み(q)を前記潜在特徴(212)に割り当てるステップが、前記最小ユークリッド距離に関連付けられた前記選択された量子化埋め込み(q)を割り当てるステップを含む、
請求項1または2に記載の方法(400)。
【請求項4】
前記動作が、前記TTSモデル(200)のトレーニング中、
前記音声埋め込み(e)と前記潜在特徴(212)とに基づいて尤度確率として表される再構成損失を決定するステップと、
前記潜在特徴(212)の事前分布(180)と前記潜在特徴(212)の事後分布(170)との間のKL発散を決定するステップと、
前記決定された再構成損失と前記決定されたKL発散との間の差に基づいて前記TTSモデル(200)の証拠下限(ELBO)損失を最適化するステップと
をさらに含む、
請求項1から3のいずれか一項に記載の方法(400)。
【請求項5】
前記動作が、前記TTSモデル(200)をトレーニングする間、
前記TTSモデル(200)からの出力として、前記複数のトレーニングサンプル(162)に関する事後分布(170)を生成するステップと、
前記生成された事後分布(170)を前記複数のトレーニングサンプル(162)にわたって適合させることによって事前分布(180)を生成するために、自己回帰(AR)事前ニューラルネットワーク(201)をトレーニングするステップと
をさらに含む、
請求項1から4のいずれか一項に記載の方法(400)。
【請求項6】
前記1つまたは複数の音声サンプル(154)を生成するステップが、前記トレーニングされたAR事前ニューラルネットワーク(201)からの前記事前分布をサンプリングすることに基づく、請求項5に記載の方法(400)。
【請求項7】
前記音声単位のシーケンスが、音素のシーケンスを含む、請求項1から6のいずれか一項に記載の方法(400)。
【請求項8】
前記潜在特徴(212)が、潜在韻律特徴を含む、請求項1から7のいずれか一項に記載の方法(400)。
【請求項9】
前記1つまたは複数の音声サンプル(154)が、第1の音声サンプルと第2の音声サンプルとを含み、前記第1の音声サンプルが、前記第2の音声サンプルとは異なる音声属性を有する、請求項1から8のいずれか一項に記載の方法(400)。
【請求項10】
前記動作が、前記TTSモデル(200)によって生成された前記1つまたは複数の音声サンプル(154)を使用して音声認識モデル(140)をトレーニングするステップをさらに含む、請求項1から9のいずれか一項に記載の方法(400)。
【請求項11】
データ処理ハードウェア(112)と、
前記データ処理ハードウェア(112)と通信するメモリハードウェア(114)であって、前記メモリハードウェア(114)が、前記データ処理ハードウェア(112)上で実行されると、前記データ処理ハードウェア(112)に動作を実行させる命令を記憶する、メモリハードウェア(114)
とを備えるシステム(500)であって、前記動作が、
テキストのシーケンス(152)を受信することと、
テキスト読み上げ(TTS)モデル(200)を使用して前記テキストのシーケンス(152)に基づいて1つまたは複数の音声サンプル(154)を生成することと
を含み、前記TTSモデル(200)が、
複数のトレーニングサンプル(162)を受信することであって、前記複数のトレーニングサンプル(162)の各トレーニングサンプルが、参照スペクトログラム(166)と、前記参照スペクトログラム(166)に対応するテキストのトレーニングシーケンス(164)とを含む、ことと、
前記複数のトレーニングサンプル(162)の各トレーニングサンプルについて、
前記参照スペクトログラム(166)に対応するテキストのトレーニングシーケンス(164)に関連付けられた音声単位のシーケンスを識別することと、
前記音声単位のシーケンスの各音声単位について、
音声埋め込み(e)を生成することと、
前記音声埋め込み(e)を前記参照スペクトログラム(166)の対応する位置と位置合わせすることと、
前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分から潜在特徴(212)を抽出することと、
量子化埋め込み(q)を、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分からの前記潜在特徴(212)に割り当てることと、
前記参照スペクトログラム(166)に対応する前記テキストのトレーニングシーケンス(164)に関連付けられた前記音声単位のシーケンスについて、前記音声埋め込み(e)と前記量子化埋め込み(q)との連結(230)を復号することと
によって、前記1つまたは複数の音声サンプル(154)を生成するようにトレーニングされる、
システム(500)。
【請求項12】
前記量子化埋め込み(q)を、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分からの前記潜在特徴(212)に割り当てることが、連続潜在空間内の事後分布(170)から前記量子化埋め込み(q)をサンプリングした後、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分からの前記潜在特徴(212)に前記量子化埋め込み(q)を割り当てることを含む、請求項11に記載のシステム(500)。
【請求項13】
前記動作が、
複数の利用可能な量子化埋め込み(q)の各々について、前記対応する量子化埋め込み(q)と、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分から抽出された前記潜在特徴(212)との間のユークリッド距離を決定することと、
前記複数の利用可能な量子化埋め込み(q)の中から、前記対応する量子化埋め込み(q)と、前記音声埋め込み(e)と位置合わせされた前記参照スペクトログラム(166)の前記対応する部分から抽出された前記潜在特徴(212)との間の最小ユークリッド距離に関連付けられた前記量子化埋め込み(q)を選択することと
をさらに含み、
前記量子化埋め込み(q)を前記潜在特徴(212)に割り当てることが、前記最小ユークリッド距離に関連付けられた前記選択された量子化埋め込み(q)を割り当てることを含む、
請求項11または12に記載のシステム(500)。
【請求項14】
前記動作が、前記TTSモデル(200)のトレーニング中、
前記音声埋め込み(e)と前記潜在特徴(212)とに基づいて尤度確率として表される再構成損失を決定することと、
前記潜在特徴(212)の事前分布(180)と前記潜在特徴(212)の事後分布(170)との間のKL発散を決定することと、
前記決定された再構成損失と前記決定されたKL発散との間の差に基づいて前記TTSモデル(200)の証拠下限(ELBO)損失を最適化することと
をさらに含む、
請求項11から13のいずれか一項に記載のシステム(500)。
【請求項15】
前記動作が、前記TTSモデル(200)をトレーニングする間、
前記TTSモデル(200)からの出力として、前記複数のトレーニングサンプル(162)に関する事後分布(170)を生成することと、
前記生成された事後分布(170)を前記複数のトレーニングサンプル(162)にわたって適合させることによって事前分布(180)を生成するために、自己回帰(AR)事前ニューラルネットワーク(201)をトレーニングすることと
をさらに含む、
請求項11から14のいずれか一項に記載のシステム(500)。
【請求項16】
前記1つまたは複数の音声サンプル(154)を生成することが、前記トレーニングされたAR事前ニューラルネットワーク(201)からの前記事前分布をサンプリングすることに基づく、請求項15に記載のシステム(500)。
【請求項17】
前記音声単位のシーケンスが、音素のシーケンスを含む、請求項11から16のいずれか一項に記載のシステム(500)。
【請求項18】
前記潜在特徴(212)が、潜在韻律特徴を含む、請求項11から17のいずれか一項に記載のシステム(500)。
【請求項19】
前記1つまたは複数の音声サンプル(154)が、第1の音声サンプルと第2の音声サンプルとを含み、前記第1の音声サンプルが、前記第2の音声サンプルとは異なる音声属性を有する、請求項11から18のいずれか一項に記載のシステム(500)。
【請求項20】
前記動作が、前記TTSモデル(200)によって生成された前記1つまたは複数の音声サンプル(154)を使用して音声認識モデル(140)をトレーニングすることをさらに含む、請求項11から19のいずれか一項に記載のシステム(500)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、多様で自然なテキスト読み上げサンプルを生成することに関する。
【背景技術】
【0002】
音声合成システムは、テキスト入力から音声を生成するために、テキスト読み上げ(TTS)モデルを使用する。生成/合成された音声は、意図された韻律(表現力)を有する人間の音声のように聞こえる(自然性)と同時に、メッセージを正確に伝える(明瞭度)べきである。従来の音声合成モデルは、理解できる音声を提供することができるが、最近の音声のニューラルモデル化における進歩は、合成音声の自然さおよび忠実度を大幅に改善している。しかし、これらの進歩にもかかわらず、しばしば、TTSモデルによって生成される合成音声は、生成されるサンプル間の多様性よりもむしろ、自然さに焦点を合わせる。この焦点により、TTSモデルの開発は、残念ながら多様性と自然性の両方であるような能力に欠ける。すなわち、現在のTTSモデルは、合成音声が人間の自然さのレベルに近づいているが、典型的には、多様性がほとんどなく最小限であるように、多様性と自然性とをトレードオフしている。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Shen、Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions
【非特許文献2】J.Shenら、「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」
【発明の概要】
【課題を解決するための手段】
【0004】
本開示の一態様は、多様で自然なテキスト読み上げサンプルを生成するコンピュータ実装方法を提供する。コンピュータ実装方法は、データ処理ハードウェアによって実行されると、データ処理ハードウェアに動作を実行させる。動作は、テキストのシーケンスを受信するステップと、テキスト読み上げ(TTS)モデルを使用してテキストのシーケンスに基づいて1つまたは複数の音声サンプルを生成するステップとを含む。TTSモデルは、複数のトレーニングサンプルを受信することによって、1つまたは複数の音声サンプルを生成するようにトレーニングされる。複数のトレーニングサンプルの各トレーニングサンプルは、参照スペクトログラムと、参照スペクトログラムに対応するテキストのトレーニングシーケンスとを含む。複数のトレーニングサンプルの各トレーニングサンプルについて、TTSモデルは、参照スペクトログラムに対応するテキストのトレーニングシーケンスに関連付けられた音声単位のシーケンスを識別するようにトレーニングされる。音声単位のシーケンスの各音声単位について、TTSモデルは、音声埋め込みを生成し、音声埋め込みを参照スペクトログラムの対応する位置と位置合わせし、音声埋め込みと位置合わせされた参照スペクトログラムの対応する部分から潜在特徴を抽出し、量子化埋め込みを、音声埋め込みと位置合わせされた参照スペクトログラムの対応する部分からの潜在特徴に割り当てるようにトレーニングされる。TTSモデルは、参照スペクトログラムに対応するテキストのトレーニングシーケンスに関連付けられた音声単位のシーケンスについて、音声埋め込みと量子化埋め込みとの連結を復号することによって、1つまたは複数の音声サンプルを生成するようにトレーニングされる。
【0005】
本開示の別の態様は、多様で自然なテキスト読み上げサンプルを生成するためのシステムを提供する。システムは、データ処理ハードウェアによって実行されると、データ処理ハードウェアに動作を実行させる。動作は、テキストのシーケンスを受信することと、テキスト読み上げ(TTS)モデルを使用してテキストのシーケンスに基づいて1つまたは複数の音声サンプルを生成することとを含む。TTSモデルは、複数のトレーニングサンプルを受信することによって、1つまたは複数の音声サンプルを生成するようにトレーニングされる。複数のトレーニングサンプルの各トレーニングサンプルは、参照スペクトログラムと、参照スペクトログラムに対応するテキストのトレーニングシーケンスとを含む。複数のトレーニングサンプルの各トレーニングサンプルについて、TTSモデルは、参照スペクトログラムに対応するテキストのトレーニングシーケンスに関連付けられた音声単位のシーケンスを識別するようにトレーニングされる。音声単位のシーケンスの各音声単位について、TTSモデルは、音声埋め込みを生成し、音声埋め込みを参照スペクトログラムの対応する位置と位置合わせし、音声埋め込みと位置合わせされた参照スペクトログラムの対応する部分から潜在特徴を抽出し、量子化埋め込みを、音声埋め込みと位置合わせされた参照スペクトログラムの対応する部分からの潜在特徴に割り当てるようにトレーニングされる。TTSモデルは、参照スペクトログラムに対応するテキストのトレーニングシーケンスに関連付けられた音声単位のシーケンスについて、音声埋め込みと量子化埋め込みとの連結を復号することによって、1つまたは複数の音声サンプルを生成するようにトレーニングされる。
【0006】
本開示のいずれかの態様の実装形態は、以下の任意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態において、量子化埋め込みを、音声埋め込みと位置合わせされた参照スペクトログラムの対応する部分からの潜在特徴に割り当てることは、連続潜在空間内の事後分布から量子化埋め込みをサンプリングした後、音声埋め込みと位置合わせされた参照スペクトログラムの対応する部分からの潜在特徴に量子化埋め込みを割り当てることを含む。いくつかの例において、動作は、TTSモデルをトレーニングする間、TTSモデルからの出力として、複数のトレーニングサンプルに関する事後分布を生成することと、生成された事後分布を複数のトレーニングサンプルにわたって適合させることによって事前分布を生成するために、自己回帰(AR)事前ニューラルネットワークをトレーニングすることとをさらに含む。1つまたは複数の音声サンプルを生成することは、トレーニングされたAR事前ニューラルネットワークからの事前分布をサンプリングすることに基づき得る。
【0007】
いくつかの例において、動作は、TTSモデルのトレーニング中、音声埋め込みと潜在特徴とに基づいて尤度確率として表される再構成損失を決定することをさらに含む。これらの例において、動作は、TTSモデルのトレーニング中、潜在特徴の事前分布と潜在特徴の事後分布との間のKL発散を決定することも含む。ここで、TTSモデルのトレーニング中、動作は、決定された再構成損失と決定されたKL発散との間の差に基づいてTTSモデルの証拠下限(ELBO)損失を最適化することを追加で含む。
【0008】
いくつかの構成において、動作は、複数の利用可能な量子化埋め込みの各々について、対応する量子化埋め込みと、音声埋め込みと位置合わせされた参照スペクトログラムの対応する部分から抽出された潜在特徴との間のユークリッド距離を決定することをさらに含む。これらの動作は、複数の利用可能な量子化埋め込みの中から、対応する量子化埋め込みと、音声埋め込みと位置合わせされた参照スペクトログラムの対応する部分から抽出された潜在特徴との間の最小ユークリッド距離に関連付けられた量子化埋め込みを選択することも含む。ここで、量子化埋め込みを潜在特徴に割り当てることは、最小ユークリッド距離に関連付けられた選択された量子化埋め込みを割り当てることを含む。
【0009】
音声単位のシーケンスは、音素のシーケンスを含み得る。潜在特徴は、潜在韻律特徴を含み得る。1つまたは複数の音声サンプルは、第1の音声サンプルと第2の音声サンプルとを含み、第1の音声サンプルは、第2の音声サンプルとは異なる音声属性を有する。動作は、TTSモデルによって生成された1つまたは複数の音声サンプルを使用して音声認識モデルをトレーニングすることも含み得る。
【0010】
本開示の1つまたは複数の実装形態の詳細は、添付図面および以下の説明において記載される。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0011】
図1】多様で自然なテキスト読み上げサンプルを生成するための例示的な音声環境の概略図である。
図2A】多様で自然なテキスト読み上げサンプルを生成するための例示的なテキスト読み上げモデルの概略図である。
図2B】多様で自然なテキスト読み上げサンプルを生成するための例示的なテキスト読み上げモデルの概略図である。
図2C】多様で自然なテキスト読み上げサンプルを生成するための例示的なテキスト読み上げモデルの概略図である。
図3図1の音声環境のテキスト読み上げシステムのためのテキスト読み上げ音声モデルをトレーニングするための例示的なトレーニングプロセスの概略図である。
図4】多様で自然なテキスト読み上げサンプルを生成する方法に関する動作の例示的な配置のフローチャートである。
図5】本明細書で説明するシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0012】
様々な図面における同様の参照符号は、同様の要素を示す。
【0013】
神経エンドツーエンド音声読み上げ(TTS)合成の速いペースの開発は、人間の自然さのレベルに近づく音声の生成を可能にした。TTSモデルは、自然な合成音声を生成することに焦点を合わせていたので、これらのTTSをシステムは、一般に、多様な合成音声サンプルを生成することに同様には焦点を合わせていなかった。合成音声は、多くの異なる方法においてロボットのように聞こえる(すなわち、多様にロボットのように聞こえる)よりも、ロボットのように聞こえず、より人間のように聞こえることが本質的に好ましいので、これは、自然な成り行きであった。この成り行きにより、合成音声サンプルの自然さは、しばしば、サンプルの多様性とトレードオフであった。これは、ユーザのための音声アシスタントがJohn LegendまたはIssa Raeのように聞こえる場合があるが、合成音声としてのJohn Legendの声が、声の抑揚の多様な配列を持たない場合があることを意味する。
【0014】
実際のレベルにおいて、音声サンプルの多様性は、同じ入力テキストから生成された2つの音声サンプル間の変化を生成するTTSシステムの能力を指す。発話が話されているとき、発話は、話者に固有の発話関連属性(例えば、話者のスタイルまたは話者のピッチ)、背景雑音、チャネル特性(例えば、残響)、および/または話された韻律(強勢、イントネーション、および/またはリズム)を含み得る。これらの属性の各々は、発話が音声サンプルとして捕捉されるとき、あるレベルの変動を導入する場合がある。一般に、TTSシステムに関連付けられたTTSモデルは、エンコーダ-デコーダニューラルネットワークアーキテクチャを使用して、入力テキストを音響特徴のシーケンスに直接マッピングする。TTSモデルへの入力は、テキストであるので、TTSモデルをトレーニングするために入力として提供されるテキストのサンプルは、テキストの出力合成音声がどのように聞こえるべきかに関する文脈情報を欠いている。言い換えれば、合成音声がどのような音声属性を有するべきかということである。例えば、入力テキストから合成された音声発話は、ニュースキャスター領域における話者とスポーツコメンテーター領域における話者とでは、異なる音声関連の属性および韻律を伝達すべきである。
【0015】
出力合成音声がどのように聞こえるべきかに関するテキストからの文脈情報の欠如により、TTSシステムは、テキストを超える追加入力をTTSモデルに提供するように進化してきた。いくつかの手法において、TTSモデルを潜在変数モデルとして構造化することによって、TTSモデル(すなわち、音声合成モデル)において音声関連属性が考慮される。潜在変数モデルは、入力変数および未観測の潜在(または隠れ)変数の関数として表現される入力データ(例えば、観察可能な入力変数)にわたる確率分布を生成するように動作する。すなわち、確率分布は、入力データを潜在空間を定義する潜在変数として表現する事後分布と呼ばれる。ここで、潜在変数、またはより具体的には潜在特徴は、TTSモデルに入力されるデータセット(例えば、テキストのシーケンス)として容易に観測できない音声関連属性を表す。したがって、TTSシステムは、テキストを生成した人(例えば、テキストの作成者)、またはテキストを作成した人がどのように聞こえるかなどの音声属性を示す潜在表現を生成する。この手法では、潜在モデル化プロセスは、テキストがそれ自体では、韻律要素(例えば、強勢、イントネーション、および/またはリズム)、話者の特性(例えば、話者のピッチまたはトーン)、または環境の特性(例えば、背景雑音、残響など)などの話者関連属性を自然には含まないという事実を説明し得る。
【0016】
依然として、潜在変数モデルの進化は、多様な合成音声サンプルを生成する能力においていくぶん制限されている。例えば、いくつかのTTSモデル化手法は、音声関連属性を潜在表現として捕捉することを目的としているが、これらの手法は、発話全体に対して単一の潜在変数を抽出する。これが意味するのは、この手法は、あるレベルの多様な合成音声サンプルを生成し得るが、この多様性は、マクロレベルで発生するということである。このマクロな手法は、音声サンプルが話し方またはあるレベルの感情を大まかに捕捉し得るという点において多様であるが、音声サンプルのサブ部分に関連する音声属性については多様性に欠ける。この手法を採用する1つのそのようなモデルは、ベクトル量子化変数オートエンコーダ(VQ-VAE)を使用するTTSモデルである。VQ-VAEとして、量子化は、ターゲット音声サンプルに関するベクトル全体にわたって大域的に生じる。これは、任意の長さの音声信号にわたる変動の全空間を捕捉するための単一のグローバル表現を結果として生じる。この点において、VQ-VAE手法を使用して「今日の天気は、72度で晴れです(The weather is 72 degrees and sunny today)」と述べた合成音声サンプルは、一貫して全体的に明るく、幸せに、および/または陽気に聞こえる場合があるが、その文のどの部分が明るく陽気に聞こえるかは、変化しない。マクロレベルにおいて動作することによって、このVQ-VAE手法が多様な音声サンプルを生成することができる程度は、制限される。
【0017】
人間の性質により、人間が口頭発話を提供する場合、これらの発話から捕捉されたサンプルは、韻律要素に関してしばしば細かいバリエーションを有する。人間の音声にはこれらの細かいバリエーションが存在するので、音声認識システムなどの人間の音声を認識するシステムは、典型的には、実際の人間の音声サンプルにおいてトレーニングされる。対照的に、音声認識システムが合成音声サンプルにおいてトレーニングされた場合、音声認識システムは、多様性がほとんどまたはまったくないサンプルを用いてトレーニグされる。したがって、音声認識システムは、推論中に人間の音声におけるこれらの細かいバリエーションを認識できない場合がある。実際的に言えば、これは、多様性を欠く従来の合成音声サンプルを用いて音声認識システムをトレーニングすることは、いくつかの実際の人間のサンプルにおいてトレーニングされた音声認識システムと比較した場合、堅牢性が劣りおよび/または精度が劣る音声認識システムを結果として生じる可能性が高いことを意味する。そういう状況であれば、既存のTTSモデルは、一般に、人間の音声を認識するための堅牢かつ正確な音声認識システムをそれ自体でトレーニングすることができる合成音声サンプルを生成することができない。
【0018】
合成音声サンプルにおける多様性の欠如を克服するために、TTSモデルは、粗粒化手法(すなわち、マクロレベル手法)ではなく、細粒化手法を使用し得る。これは、発話全体に対する単一の潜在変数の代わりに、モデルが、ターゲット音声サンプルのサブ部分から音声関連属性を符号化する構造を含むことを意味する。例えば、細粒化構造は、ターゲット音声サンプル内の各音素に関連付けられた韻律を符号化する。この手法により、細粒化TTSモデルは、提供された参照音声の音声関連属性に似ている音声を合成することができ、および/または対応する潜在特徴の値を変更することによってこれらの音声関連属性を制御することができる。いくつかの例において、この細粒化構造を達成するために、TTSモデルは、マクロレベル手法とよく似たVAEを使用するが、代わりにターゲット音声サンプルのサブ部分において(例えば、ターゲット音声サンプルの音素において)発生するように量子化を変更する。これは、量子化細粒化VAE(QF-VAE)と呼ばれる。
【0019】
残念ながら、細粒化レベルにおける量子化は、合成音声サンプルの自然さのいくらかを損なう場合がある。例えば、各サブ部分は、ここでは潜在空間内で独立して表現されるので、これらの独立した表現から形成された合成音声サンプルは、音節間の長い休止またはエネルギーの突然の増加などの、不連続で不自然なアーティファクトを示す場合がある。確かに、これらの不自然な音のうちのいくつかを解決する技法が存在するが、これらの技法は、しばしば、合成音声サンプルに関する多様性の抑制を結果として生じ、これは、細粒化量子化を実行する目的を失敗させる場合がある。例えば、1つの手法は、サンプル生成中に事前分布の標準偏差をスケールダウンし、これは、外れ値をサンプリングする尤度を低減する。合成音声サンプルの多様性を損なうことを回避しながら、合成音声サンプルに期待される自然さのレベルも促進するために、TTSシステムは、QF-VAEの事後分布に適合するようにトレーニングされた自己回帰(AR)事前モデルを使用する。AR事前モデルにより、モデルは、潜在特徴にわたる時間的ダイナミクスを学習し、TTSシステムが多様かつ自然な合成音声サンプルを生成することを可能にする。
【0020】
多様かつ自然な合成サンプルを生成することによって、TTSシステムからのこれらの合成音声サンプルは、他の音声システムに組み込まれ得る。例えば、音声認識システムは、多様かつ自然な合成音声サンプルを使用してトレーニングし得る。これは、音声認識が実際の人間の音声からの不十分な数のトレーニング例を有する場合、特に有利であり得る。ここで、TTSシステムによって生成された合成音声サンプルは、音声認識システムに利用可能な人間の音声のトレーニング例の数を補足または補強し得、音声認識システムが、人間の音声サンプルにおいて通常存在するであろう細かい韻律バリエーションにおいて十分にトレーニングされるおよび/または依然としてトレーニングされることを可能にする。追加的または代替的に、これらの多様で自然な合成音声サンプルは、追加の人間の音声トレーニングサンプルを必要とせずに、音声認識システムを完全にトレーニングし得る。ここで、合成音声サンプルのみを使用して音声認識システムをトレーニングすることは、人間の音声のトレーニングサンプルを捕捉するコストのかかるプロセスを回避し、適切な数の音声サンプルを用いて音声認識システムを一貫してトレーニングするのに役立ち得る。
【0021】
図1を参照すると、いくつかの実装形態において、音声環境100は、音声対応デバイス110(デバイス110またはユーザデバイス110とも呼ばれる)に口頭発話12を伝達するユーザ10を含む。ユーザ10(発話12の話者)は、デバイス110からの応答を求めるため、またはデバイス110にクエリによって指定されたタスクを実行させるためのクエリまたはコマンドとして発話12を話し得る。デバイス110は、音声環境100内の1人または複数のユーザ10からの音を捕捉するように構成される。ここで、オーディオ音は、可聴クエリ、デバイス110に対するコマンド、またはデバイス110によって捕捉される可聴通信として機能する、ユーザ10による口頭発話12を指し得る。デバイス110の、またはデバイス110に関連付けられた音声対応システム(例えば、デジタルアシスタントインターフェース)は、クエリに答えることによっておよび/またはコマンドを実行させることによって、コマンドに関するクエリをフィールド化し得る。
【0022】
ここで、デバイス110は、ユーザ10による口頭発話12に対応するオーディオデータ14を捕捉する。デバイス110は、ユーザ10に関連付けられ、オーディオデータ14を受信することができる任意のコンピューティングデバイスに対応し得る。ユーザデバイス110のいくつかの例は、限定はしないが、モバイルデバイス(例えば、携帯電話、タブレット、ラップトップ、電子書籍リーダなど)、コンピュータ、ウェアラブルデバイス(例えば、スマートウォッチなど)、音楽プレーヤー、キャスティングデバイス、スマート家電(例えば、スマートテレビ)およびインターネットオブシングス(IoT)デバイス、リモートコントロール、スマートスピーカなどを含む。デバイス110は、データ処理ハードウェア112と、データ処理ハードウェア112と通信し、命令を記憶するメモリハードウェア114とを含み、命令は、データ処理ハードウェア112によって実行されると、データ処理ハードウェア112に、音声および/またはテキスト処理に関連する1つまたは複数の動作を実行させる。いくつかの例において、デバイス110は、1つまたは複数のアプリケーション(すなわち、ソフトウェアアプリケーション)を含み、各アプリケーションは、アプリケーション内の様々な機能を実行するために、デバイス110に関連付けられた1つまたは複数の音声処理システム/モデル140、150、200を利用し得る。例えば、デバイス110は、ユーザ10と会話し、様々なタスクの実行を支援するために、合成再生オーディオ154(合成音声154とも呼ばれる)をユーザ10に伝達するように構成されたアシスタントアプリケーションを含む。
【0023】
デバイス110は、音声環境100内のオーディオデータ14を捕捉して電気信号に変換するためのオーディオ捕捉デバイス(例えば、マイクロフォン)116と、可聴オーディオ信号(例えば、デバイス110からの合成再生信号154)を伝達するための音声出力デバイス(例えば、スピーカ)118とをさらに含む。デバイス110は、図示の例において単一のオーディオ捕捉デバイス116を実装するが、デバイス110は、本開示の範囲から逸脱することなく、オーディオ捕捉デバイス116のアレイを実装し得、それによって、アレイ内の1つまたは複数のオーディオ捕捉デバイス116は、デバイス110上に物理的に存在しないが、オーディオサブシステム(例えば、デバイス110の周辺機器)と通信し得る。例えば、デバイス110は、車両全体に配置されたマイクロフォンのアレイを活用する車両インフォテインメントシステムに対応し得る。同様に、音声出力デバイス118は、デバイス110上に存在する1つもしくは複数のスピーカ、デバイス110と通信する1つもしくは複数のスピーカ、または1つもしくは複数のスピーカがデバイス110上に存在し、1つもしくは複数の他のスピーカがデバイス110から物理的に取り外されているが、デバイス110と通信する組合せのいずれかを含み得る。
【0024】
さらに、デバイス110は、ネットワーク120を介してリモートシステム130と通信するように構成される。リモートシステム130は、リモートデータ処理ハードウェア134(例えば、リモートサーバまたはCPU)および/またはリモートメモリハードウェア136(例えば、リモートデータベースまたは他のストレージハードウェア)などのリモートリソース132を含み得る。デバイス110は、音声処理および/または合成再生通信に関連する様々な機能を実行するためにリモートリソース132を利用し得る。例えば、デバイス110は、音声認識システム140を使用する音声認識および/またはTTSシステム150を使用する(例えば、TTSモデル200を使用する)テキストから音声への変換を実行するように構成される。これらのシステム/モデル140、150、200は、デバイス110上に存在し得(オンデバイスシステムと呼ばれる)、またはリモートに存在するが(リモートシステム130と呼ばれる)、デバイス110と通信し得る。いくつかの例において、これらのシステム140、150、200のうちのいくつかは、ローカルにまたはオンデバイスに存在するが、他のシステムは、リモートに存在する。言い換えれば、これらのシステム140、150、200のいずれかが、ローカル、リモート、またはその両方の任意の組合せであり得る。例えば、システム140、150、200が、サイズまたは処理要件においてかなり大きい場合、システム140、150、200は、リモートシステム130内に存在し得る。依然として、デバイス110が1つまたは複数のシステム140、150、200のサイズまたは処理要件をサポートし得る場合、1つまたは複数のシステム140、150、200は、データ処理ハードウェア112および/またはメモリハードウェア114は、データ処理ハードウェア112および/またはメモリハードウェア114を使用するデバイス110上に存在し得る。オプションで、システム140、150、200のうちの1つまたは複数は、ローカル/オンデバイスとリモートの両方に存在し得る。例えば、システム140、150、200のうちの1つまたは複数は、デバイス110とリモートシステム130との間のネットワーク120への接続が利用可能な場合、デフォルトでリモートシステム上で実行し得るが、接続が失われるか、またはネットワーク120が利用できない場合、システム140、150、200は、代わりにデバイス110上でローカルに実行する。
【0025】
音声認識システム140は、オーディオデータ14を入力として受信し、そのオーディオ信号を出力として転写142に転写する。一般的に言えば、オーディオデータ14を転写142に変換することによって、音声認識システム140は、デバイス110がユーザ10からの口頭発話12がクエリ、コマンド、またはなにか他の形式のオーディオ通信に対応するときを認識することを可能にする。すなわち、音声認識システム140は、転写142に対してクエリ解釈(例えば、意味解析)を実行するための自然言語理解(NLU)機能を含み得る。転写142は、次いでデバイス110がクエリまたはコマンドに対する応答を生成するために使用し得るテキストのシーケンスを指す。例えば、ユーザ10がデバイス110に「今日の天気はどうなりますか(what will the weather be like today)」という質問をした場合、デバイス110は、「今日の天気はどうなりますか(what will the weather be like today)」という質問に対応するオーディオデータ14を音声認識システム140に渡す。音声認識システム140は、オーディオデータ14を、「今日の天気はどうなりますか(what will the weather be like today)」のテキストを含む転写142に変換する。次いで、デバイス110は、テキストまたはテキストの一部を使用して、クエリに対する応答を決定し得る。例えば、当日(すなわち、今日)の天気を決定するために、デバイス110は、テキスト(例えば、「今日の天気はどうなりますか(what will the weather be like today)」)、またはテキストの識別部分(例えば、「天気(weather)」および「今日(today)」)を検索エンジンに渡す。次いで、検索エンジンは、デバイス110がユーザ10に対する応答を生成するために解釈する1つまたは複数の検索結果を返し得る。
【0026】
いくつかの実装形態において、デバイス110またはデバイス110に関連付けられたシステムは、デバイス110が口頭発話12のクエリに対する応答としてユーザ10に伝達するテキスト152(テキスト152のシーケンスまたは入力テキスト152とも呼ばれる)を識別する。次いで、デバイス110は、テキスト152を、デバイス110口頭発話12のクエリに対する応答としてユーザ10に伝達する(例えば、ユーザ10に聴覚的に伝達する)ための対応する合成再生オーディオ154に変換するために、TTSシステム150を使用し得る。言い換えれば、TTSシステム150は、テキスト152を入力として受信し、テキスト152を(例えば、一連のニューラルネットワークを介して)合成再生オーディオ154の出力に変換し、合成再生オーディオ154は、テキスト152の可聴表現を定義するオーディオ信号である。例えば、再生オーディオ154は、入力テキスト152の言語化またはナレーションである。いくつかの例において、入力テキスト152は、特定の自然言語(例えば、英語、スペイン語、またはフランス語)におけるテキストまたは記号のシーケンスを指す。記号のシーケンスは、文字、数字、句読点、および/または他の特殊記号を含むことができる。TTSシステム150が再生オーディオ154を生成する場合、再生オーディオ154は、人間が入力テキスト152を定義する記号のシーケンスをどのように言語化するのかを近似する合成音声を含む。
【0027】
TTSシステム150(または他の音声合成システム)は、合成再生オーディオ154を生成するためにディープニューラルネットワーク(例えば、注意ベースのTacotronネットワーク)を利用するTTSモデル200(例えば、図2のTTSモデル200)を含む。いくつかの実装形態において、TTSモデル200は、オーディオ波形(例えば、経時的なオーディオ信号の振幅を定義する)を生成するために、音声特徴(例えば、入力テキスト152の特徴)の符号化表現である埋め込みを処理する。生成されると、TTSシステム150は、デバイス110が合成再生オーディオ154を出力することを可能にするために、合成再生オーディオ154をデバイス110に伝達する。例えば、デバイス110は、1つまたは複数のスピーカ118から「今日は、晴れです(today is sunny)」の合成再生オーディオ154を可聴に出力する。ここで、TTSシステム150のTTSモデル200は、合成音声154の音声関連属性を制御するように構成される。言い換えれば、TTSモデル200は、人間の話者の声を自然さの観点からシミュレートする一方で、細粒化潜在特徴をモデル化することによって多様な合成音声を生成することもできるように構成される。図1は、アシスタントアプリケーションの文脈においてTTSシステム150の一例を示すが、TTSシステム150(例えば、TTSモデル200を使用する)は、例えば、音声検索、ナビゲーション、または文書の読み上げなどの、他のテキスト読み上げシナリオにおいて適用可能である。
【0028】
図2A図2Cを参照すると、いくつかの例において、TTSモデル200は、エンコーダ202とデコーダ204とを含むエンコーダ-デコーダネットワークアーキテクチャを有する。いくつかの実装形態において、エンコーダ-デコーダ202、204構造は、Tacotron 2のシーケンス間リカレントニューラルネットワーク(RNN)に対応する(例えば、https://arxiv.org/pdf/1712.05884.pdfにおいて利用可能で、参照により本明細書に組み込まれる、Shen、Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictionsにおいて説明されている)。いくつかの構成において、エンコーダ202は、入力テキスト152または入力テキスト152に対応する埋め込み(例えば、記号埋め込み)を受信し、デコーダ204が後に生成する各メル周波数スペクトログラムに関する文脈ベクトルVcを生成するように構成される。文脈ベクトルVcは、固定長であり、一般に、入力テキスト152を形成する記号のシーケンスに対応する特定の位置において現れる特徴を定義し得る。いくつかの構成において、テキスト入力152は、エンコーダ202に入力される前に、最初に(例えば、正規化エンジンを介して)音素シーケンスに変換される。
【0029】
エンコーダ202は、1つまたは複数の畳み込み層と、それに続く双方向長短期記憶(LSTM)層とを含み得る。各畳み込み層内のニューロンは、前の層内のニューロンの小さいサブセットから入力を受信し得る。この点において、ニューロン接続性は、畳み込み層が、入力テキスト152に対応する記号のシーケンス内の位置において特定の隠れ特徴が現れるときにアクティブになるフィルタを学習することを可能にする。いくつかの実装形態において、各畳み込み層内のフィルタは、一連の記号(例えば、4個、5個、または6個の記号)にまたがり得る。各畳み込み層の後には、バッチ正規化および正規化線形単位(RELU)が続き得る。エンコーダ202が1つまたは複数の畳み込み層を含む場合、双方向LSTM層がこれらの畳み込み層の後に続き得る。ここで、双方向LSTMは、入力テキスト152に対応する記号のシーケンスの逐次特徴表現を生成するために、最終畳み込み層によって生成された隠れ特徴を処理するように構成される。逐次特徴表現は、特徴ベクトルのシーケンスを含み得る。
【0030】
いくつかの実装形態において、エンコーダ202は、エンコーダ202から逐次特徴表現を受信し、各デコーダ出力ステップに関する文脈ベクトルVcを生成するために逐次特徴表現を処理するように構成された注意ネットワークも含む。すなわち、注意ネットワークは、デコーダ204が後に生成するメル周波数スペクトログラムの各フレームに関する固定長文脈ベクトルVcを生成することができる。フレームは、入力信号の小さい部分(例えば、10ミリ秒のサンプル)に基づくメル周波数スペクトログラムの単位を指す。注意ネットワークのアーキテクチャは、特定のTTSシステム150に応じて変化し得る。注意ネットワークのいくつかの例は、加法注意ネットワーク、位置敏感注意ネットワーク、ガウス混合モデル(GMM)注意ネットワーク(例えば、長い発話への一般化を改善するため)、順方向注意ネットワーク、段階的単調注意ネットワーク、または動的畳み込み注意ネットワークを含む。注意ネットワークを用いると、モデル200は、文脈ベクトルVcを生成するために、特定の注意重みを受け取る追加入力(例えば、音声埋め込みeを有する)に基づいて出力シーケンス(例えば、出力ログメルスペクトログラムフレームのシーケンス)を生成することができ得る。
【0031】
デコーダ204は、意図された音声関連属性(例えば、意図された韻律および/または音声特徴)を含む表現音声の出力オーディオ信号AS(例えば、出力シーケンスメル周波数スペクトログラム)を生成するニューラルネットワーク(例えば、自己回帰型リカレントニューラルネットワーク)として構成される。例えば、文脈ベクトルVcに基づいて、デコーダ204は、エンコーダ202によって生成された符号化表現から音声信号の表現(例えば、メルフレームまたはスペクトログラムフレーム)を予測する。すなわち、デコーダ204は、1つまたは複数の文脈ベクトルVcを入力として受信し、各文脈ベクトルVcについて、メル周波数スペクトログラムの対応するフレームを生成し得、メル周波数スペクトログラムは、音の周波数領域表現である。いくつかの例において、デコーダ204は、Tacotron 2と同様のアーキテクチャを含む。言い換えれば、デコーダ204は、プレネット、長短期記憶(LSTM)サブネットワーク、線形投影、および畳み込みポストネットを有するアーキテクチャを含み得る。
【0032】
いくつかの構成において、TTSモデル200は、音声合成器206(合成器206とも呼ばれる)も含む。合成器206は、メル周波数スペクトログラムを受信し、メル周波数スペクトログラムに基づいて合成音声154としてオーディオ出力サンプルを生成するように構成された任意のネットワークであり得る。いくつかの他の実装形態において、合成器206は、ボコーダを含む。例えば、音声合成器206は、(例えば、https://arxiv.org/abs/1712.05884において利用可能な、J.Shenらによる「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」によって説明されている)WaveRNNボコーダを含み得る。ここで、WaveRNNボコーダは、TTSモデル200によって予測されたスペクトログラムを条件とする、24kHzにおいてサンプリングされた16ビット信号を生成し得る。いくつかの他の実装形態において、合成器206は、波形インバータへのトレーニング可能なスペクトログラムである。合成器206が波形を生成した後、オーディオサブシステムは、波形を使用して合成音声154を精製し、合成音声154を(例えば、デバイス110上での)再生のために提供することができ、または他のシステムが合成音声154を生成および再生することを可能にするために、生成された波形を別のシステムに提供することができる。一般的に言えば、合成器206は、合成音声154の結果として生じる韻律および/またはスタイルにほとんど影響を与えず、実際には、合成器206が音声信号の表現(例えば、デコーダ204によって出力されたメルフレームまたはスペクトログラムフレーム)を波形に変換する際に、合成音声154のオーディオ忠実度に影響を与えるだけである。
【0033】
図2Bおよび図2Cを引き続き参照すると、いくつかの実装形態において、エンコーダ202は、第1のエンコーダ部分202、202aと呼ばれる第1の分岐と、第2のエンコーダ部分202、202bと呼ばれる第2の分岐とを有する2分岐システムである。いくつかの例において、第1のエンコーダ部分202aは、Tacotron 2において使用されるエンコーダの機能を指し、第2のエンコーダ部分202bは、多様で自然な音声サンプルを生成するために、Tacotron 2構造がQF-VAEをそのエンコーダ構造に組み込むことを可能にする。第1のエンコーダ部分202aは、テキスト152のシーケンスを入力として受信し、テキスト152のシーケンスを表す、音声埋め込みeと呼ばれる符号化を生成する。例えば、第1のエンコーダ部分202aは、テキスト152のシーケンスに関連付けられた音声単位のシーケンスを分割または識別し、各々の識別子された音声単位に対応する音声埋め込みeを生成する。いくつかの例において、音声単位は、音素であり、第1のエンコーダ部分202aは、テキスト152のシーケンス内に存在する各音素について音声埋め込みeを生成する。例示するために、図2Bは、「今日の天気はどうなりますか(what will the weather be like today)」というクエリの一部に対応するテキスト152を入力として受信するTTSモデル200を示す。ここで、第1のエンコーダ部分202aは、このテキスト152が8個の音素を含むことを識別し、8個の音声埋め込みe、e1~8を生成し、各音声埋め込みeは、音素の符号化表現に対応する。次いで、第1のエンコーダ部分202aは、生成した音声埋め込みeを第2のエンコーダ分岐202bに渡し得る。
【0034】
第2の分岐202bは、特徴生成器210を使用して潜在特徴212を生成するために、第1の分岐202aと連携して動作する。潜在特徴212は、韻律などの音声関連属性を符号化された形式で表す。第2のエンコーダ部分202bは、第1のエンコーダ分岐202aによって識別された入力テキスト152の各音声単位に関連付けられた音声関連属性を符号化する。いくつかの例において、潜在特徴212を生成するために、第2のエンコーダ部分202bは、音声関連属性を含むターゲットまたは参照スペクトログラム208を識別する必要がある。すなわち、テキストシーケンス152は、一般に、テキストシーケンス152に対応する音声関連属性のいかなるラベルまたは識別子も持たない記号から構成される。そういう状況であれば、第2のエンコーダ部分202bの特徴生成器210は、潜在変数空間(すなわち、音声関連属性を表す空間)の分布を表す参照スペクトログラム208を取得するように構成される。いくつかの例において、参照スペクトログラム208を取得するために、特徴生成器210は、潜在変数空間の分布をサンプリングする。特徴生成器210が参照スペクトログラム208を取得すると、特徴生成器210は、第1のエンコーダ部分202aから受信されたテキスト入力152に対応する埋め込みeのシーケンスを参照スペクトログラム208と位置合わせする。
【0035】
いくつかの実装形態において、特徴生成器210は、注意機構(例えば、位置敏感注意機構)を使用することによって、第1のエンコーダ部分202aから受信されたテキスト入力152に対応する埋め込みe、e1~nのシーケンスを参照スペクトログラム208と位置合わせする。第1のエンコーダ部分202aから受信されたテキスト入力152に対応する埋め込みeのシーケンスを参照スペクトログラム208と位置合わせすることによって、特徴生成器210は、特徴生成器210が潜在特徴212を抽出する参照スペクトログラム208の部分を識別する。すなわち、特徴生成器210は、第1のエンコーダ部分202aによって生成された音声埋め込みeと位置合わせされた参照スペクトログラム208の対応する部分から潜在特徴212、212a~n(図2C)を抽出する。図2Cの例において、8個の埋め込みe1~8が参照スペクトログラム208と整列すると、特徴生成器210は、参照スペクトログラム208の8個のセグメントまたは部分を識別する。参照スペクトログラム208の8個のセグメントの各々の識別されたセグメントについて、特徴生成器210は、その特定のセグメントを表す潜在特徴212(例えば、音声関連属性)を抽出する。図2Cにおいて、特徴生成器210は、入力テキスト152から8個の音素または音声単位に対応する8個の潜在特徴212、212a~hを生成または抽出する。第1のエンコーダ分岐202aによって識別された音声単位(例えば、音素)に関する潜在特徴212を生成することによって、特徴生成器210は、音声関連属性を細粒化レベルにおいて表すのに役立つ。
【0036】
特徴生成器210は、潜在特徴212を第2のエンコーダ部分202bの量子化器220に伝達する。量子化器220は、量子化プロセスを実行するように構成される。量子化プロセスは、一般に、入力パラメータを出力値のより小さいデータセットに変換するプロセスを指す。いくつかの例において、量子化器は、いくつかの異なる量子化埋め込みq、q1~nを含むコードブックを含む。言い換えれば、コードブックは、異なる量子化埋め込みqのデータベースとして機能し、コードブックのサイズは、特定の連続潜在特徴212を表し得る離散量子化埋め込みqの数に対応する。量子化器220は、どのコードブックエントリまたは量子化埋め込みqが特定の潜在特徴212を表すべきかを決定するように構成される。いくつかの例において、量子化器220は、各々のそれぞれの量子化埋め込みqと特定の潜在特徴212との間のユークリッド距離を最小化する量子化埋め込みqを決定することによって、どの量子化埋め込みqが特定の潜在特徴212を表すべきかを決定する。より具体的には、量子化器220は、各々のそれぞれの量子化埋め込みqと特定の潜在特徴212との間のそれぞれのユークリッド距離を決定し、複数のユークリッド距離を生成する。複数のユークリッド距離から、量子化器220は、最小のユークリッド距離(すなわち、最小値)を選択し、最小のユークリッド距離に対応する量子化埋め込みqが、潜在特徴212に関する量子化埋め込みqとして潜在特徴212を表すと決定する。すなわち、量子化器220は、最小のユークリッド距離に対応する量子化埋め込みqを潜在特徴212に割り当てることになる。
【0037】
図2Cを参照すると、量子化器220は、特徴生成器210によって生成された8個の潜在特徴212、212a~hの各々を表す量子化埋め込みqを決定することが示されている。例えば、ここで、埋め込み空間は、潜在的な量子化埋め込みqのコードブックを表す。この例において、量子化器220は、第8の量子化埋め込みq、q8を第1の潜在特徴212aに割り当て、第1の量子化埋め込みq、q1を第2の潜在特徴212bに割り当て、第8の量子化埋め込みq、q8を、第3の潜在特徴212cを表すようにも割り当て、第3の量子化埋め込みq、q3を第4の潜在特徴212dに割り当て、第37の量子化埋め込みq、q37を現在第5の潜在特徴212eにすでに割り当てている。この例において、第8の量子化埋め込みq8は、(例えば、最小ユークリッド距離手法に従って)両方の潜在特徴212a、cにとって最良の代表的な量子化埋め込みqであるので、第1の潜在特徴212aと第3の潜在特徴212cの両方を表す。ここで、第1の潜在特徴212aは、第3の潜在特徴212cと同じであってもよく、または異なっていてもよいが、同じ代表的な量子化埋め込みqに依然として最も近い。
【0038】
2つの分岐エンコーダ202では、各分岐202a、bは、埋め込みをデコーダ204に伝達する。第1の分岐202aは、入力テキスト152の音声単位に関する音声埋め込みeを生成する。第2の分岐202bは、第1の分岐202aからの音声埋め込みeと位置合わせされた音声単位から抽出された音声関連属性を表す量子化埋め込みqを生成する。図2Bのようないくつかの例において、エンコーダ202は、第2の分岐202bからの入力テキスト152に関する量子化埋め込みqと、分岐202aからの音声埋め込みeとを一緒に連結し、結果として生じる連結埋め込み230を再構築のためにデコーダ204に渡す(すなわち、デコーダ204は、結果として生じる連結埋め込み230を復号する)。例えば、各分岐202a、bは、デコーダ204に渡される前に、シーケンスの各ステップにおいて一緒に連結された埋め込みのシーケンスを生成する。
【0039】
図3を参照すると、多様で自然な合成音声サンプル154を生成するようにTTSモデル200に教えるために、TTSモデル200は、トレーニングプロセス300を受ける。トレーニングプロセス300の第1の段階310中、トレーニングプロセス300は、複数のトレーニングサンプル162、162a~nを使用して1つまたは複数の合成音声サンプル154を生成するようにTTSモデル200をトレーニングする。複数のトレーニングサンプル162、162a~nの各トレーニングサンプル162は、テキスト164のトレーニングシーケンスと、テキスト164のトレーニングシーケンスに対応する参照トレーニングスペクトログラム166とを含む。すなわち、各トレーニングサンプル162は、発話を表すそれぞれのトレーニングスペクトログラム166と、発話の転写に対応するテキスト164のそれぞれのトレーニングシーケンスとを含む。トレーニングプロセス300の第1の段階310中、トレーニングプロセス300は、エンコーダ-デコーダ202、204ネットワークを一緒にトレーニングするために、最大尤度手法を使用する。すなわち、第1の段階310中、エンコーダ/デコーダ202、204は、教師強制として知られるトレーニング技法において、前の時間ステップからの正しい出力を入力として受信する。テキスト164のトレーニングシーケンスと、その対応する参照トレーニングスペクトログラム166とを用いて、トレーニングプロセス300は、図2A図2Cにおいて説明したTTSモデル200の実装形態(すなわち、推論)と同様の方法においてトレーニングサンプル162を処理するようにTTSモデル200をトレーニングする。次いで、トレーニングプロセス300は、TTSモデル200がテキスト152の特定のシーケンスに対して自然で多様な合成音声サンプル154を生成することができることを保証するために、各トレーニングサンプル162に対してこれらのトレーニングステップを繰り返す。いくつかの例において、トレーニングプロセス300は、トレーニングプロセス300中に証拠下限(ELBO)損失を最適化することによってTTSモデル200をトレーニングする。ELBO損失は、以下の式
【0040】
【数1】
【0041】
によって表され得、ここで、第1の項Eq(Z|X)(log p(X|Y,z))は、再構成損失であり、第2の項
【0042】
【数2】
【0043】
は、事前分布と事後分布との間のKL発散であり、zは、潜在特徴のシーケンスを表し、znは、n番目の音素に関する潜在表現に対応する。ここで、Xは、参照トレーニングスペクトログラム166であり、Yは、音声埋め込みe(例えば、第1の分岐200aからの音素符号化)を表す。
【0044】
各トレーニングサンプル162について、第1の段階310におけるトレーニングプロセス300は、参照トレーニングスペクトログラム166に対応するテキスト164のトレーニングシーケンスに関連付けられた音声単位のシーケンスを識別する。音声単位のシーケンスの各音声単位について、トレーニングプロセス300は、音声埋め込みeを生成し、音声埋め込みeを参照トレーニングスペクトログラム166の対応する部分と位置合わせするために、(例えば、第1のエンコーダ分岐202aにおいて)TTSモデル200をトレーニングする。参照トレーニングスペクトログラム166の対応する部分について、トレーニングプロセス300は、音声埋め込みeと整列する参照トレーニングスペクトログラム166の対応する部分から潜在特徴212を抽出するようにTTSモデル200を(例えば、第2のエンコーダ分岐202bにおいて)トレーニングする。トレーニングプロセス300は、量子化埋め込みqを、音声埋め込みeと位置合わせされた参照トレーニングスペクトログラム166の対応する部分からの潜在特徴212に割り当てるようにモデル200をトレーニングすることに進む。参照トレーニングスペクトログラム166に対応するテキスト164のトレーニングシーケンスに関連付けられた音声単位のシーケンスに関する音声埋め込みeおよび量子化埋め込みqを用いて、トレーニングプロセス300は、音声埋め込みeおよび量子化埋め込みqの連結230を復号するようにデコーダ204をトレーニングする。
【0045】
トレーニングプロセス300が複数のトレーニングサンプル162に対して繰り返した後、トレーニングプロセス300は、潜在空間の正確な事後分布170をどのように生成するかを学習するためにTTSモデル200をトレーニングする。残念ながら、事後分布170は、実際の音声スペクトログラム(すなわち、参照トレーニングスペクトログラム166)から導出されるので、モデル200が推論に進むとき、モデル200は、対応する参照スペクトログラム166なしに入力テキスト152を受信することになる。参照スペクトログラム166なしでは、TTSモデル200は、潜在特徴生成のためのガイダンスなしになることになる。
【0046】
参照スペクトログラム208のこの欠如を克服するために、トレーニングプロセス300の第2の段階320は、事後分布170からの潜在特徴シーケンスにおける時間的コヒーレンス性をモデル化するために、モデル200の自己回帰(AR)事前ネットワーク201をトレーニングする。すなわち、AR事前ネットワーク201は、事前分布180を形成するために、第1の段階310において学習されたトレーニングデータ162に対して事後分布170を適合させるようにトレーニングされる。事前分布180が事後分布170に適合することで、AR事前ネットワーク201は、モデル200に関する潜在特徴生成を導くために、入力テキスト152を受信したときに、参照スペクトログラム208をモデル200に供給し得る。第2の段階320におけるトレーニングプロセス300中、トレーニングプロセス300は、各時間ステップにおける事前分布180および事後分布170が同じ分布族に由来するように、連続潜在空間においてAR事前ネットワークを適合させることを目的とする。いくつかの例において、第1の段階310と同様に、第2の段階320のトレーニングプロセス300は、事後分布170の潜在特徴シーケンスから教師強制技法を使用してAR事前ネットワーク201をトレーニングする。いくつかの実装形態において、第2の段階320は、事後分布170のトレーニング(すなわち、第1の段階310)に影響を与えることを回避するために、TTSモデル200の他の部分とは別にAR事前ネットワーク201をトレーニングする。AR事前ネットワーク201は、TTSモデル200の追加の構成要素、またはTTSモデル200の別の構成要素の一部であり得る。例えば、合成器206は、トレーニングプロセス300の第2の段階320によってトレーニングされたAR事前ネットワーク201として機能し得る。
【0047】
図4は、多様で自然なテキスト読み上げサンプルを生成する方法400の動作の例示的な配置のフローチャートである。動作402において、方法400は、テキスト152のシーケンスを受信する。動作404において、方法は、テキスト読み上げ(TTS)モデル200を使用して、テキスト152のシーケンスに基づいて1つまたは複数の音声サンプル154を生成する。動作404aおよび404bにおいて、方法400は、1つまたは複数の音声サンプル154を生成するためにTTSモデルをトレーニングする。動作404aにおいて、方法400は、複数のトレーニングサンプル162を受信し、複数のトレーニングサンプル162の各トレーニングサンプル162は、参照スペクトログラム166と、参照スペクトログラム166に対応するテキスト164のトレーニングシーケンスとを含む。動作404bは、方法400が複数のトレーニングサンプル162の各トレーニングサンプル162に対して実行する2つのサブ動作404b1および404b2を含む。サブ動作404b1において、方法400は、参照スペクトログラム166に対応するテキスト164のトレーニングシーケンスに関連付けられた音声単位のシーケンスを識別する。ここで、サブ動作404b2は、方法400が音声単位のシーケンスの各音声単位に対して実行する4つのステップ(i)~(iv)に分割される。サブ動作404b2のステップ(i)において、方法400は、音声埋め込みeを生成する。サブ動作404b2のステップ(ii)において、方法400は、音声埋め込みeを参照スペクトログラム166の対応する部分と位置合わせする。サブ動作404b2のステップ(iii)において、方法400は、音声埋め込みeと位置合わせされた参照スペクトログラム166の対応する部分から潜在特徴212を抽出する。サブ動作404b2のステップ(iv)において、方法400は、量子化埋め込みqを、音声埋め込みeと位置合わせされた参照スペクトログラム166の対応する部分からの潜在特徴212に割り当てる。動作406において、方法400は、参照スペクトログラム166に対応するテキスト164のトレーニングシーケンスに関連付けられた音声単位のシーケンスに関する音声埋め込みeおよび量子化埋め込みqの連結230を復号する。
【0048】
図5は、本明細書で説明するシステム(デバイス110、音声認識システム140、TTSシステム150、および/またはTTSモデル200)および方法(例えば、方法400)を実装するために使用され得る例示的なコンピューティングデバイス500の概略図である。コンピューティングデバイス500は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを表すことを意図している。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示的であることのみを意図しており、本文書で説明および/または特許請求する発明の実装を限定することを意図していない。
【0049】
コンピューティングデバイス500は、プロセッサ510(例えば、データ処理ハードウェア)と、メモリ520(例えば、メモリハードウェア)と、記憶デバイス530と、メモリ520および高速拡張ポート550に接続する高速インターフェース/コントローラ540と、低速バス570および記憶デバイス530に接続する低速インターフェース/コントローラ560とを含む。構成要素510、520、530、540、550、および560の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に取り付けられ得、または必要に応じて他の方法において取り付けられ得る。プロセッサ510は、高速インターフェース540に結合されたディスプレイ580などの外部入力/出力デバイス上にグラフィカルユーザインターフェース(GUI)のためのグラフィカル情報を表示するための、メモリ520内または記憶デバイス530上に記憶された命令を含む、コンピューティングデバイス500内で実行するための命令を処理することができる。他の実装形態において、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリのタイプとともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス500が接続され得、各デバイスが(例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の一部を提供する。
【0050】
メモリ520は、コンピューティングデバイス500内に情報を非一時的に記憶する。メモリ520は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであり得る。非一時的メモリ520は、プログラム(例えば、命令のシーケンス)またはデータ(プログラム状態情報)を、コンピューティングデバイス500によって使用するために一時的または永続的に記憶するために使用される物理デバイスであり得る。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読み取り専用メモリ(ROM)/プログラム可能読み取り専用メモリ(PROM)/消去可能プログラム可能読み取り専用メモリ(EPROM)/電気的消去可能プログラム可能読み取り専用メモリ(EEPROM)(例えば、典型的には、ブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)、ならびにディスクまたはテープを含む。
【0051】
記憶デバイス530は、コンピューティングデバイス500のための大容量ストレージを提供することができる。いくつかの実装形態において、記憶デバイス530は、コンピュータ可読媒体である。様々な異なる実装形態において、記憶デバイス530は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実装形態において、コンピュータプログラム製品は、情報キャリア内に明白に具体化される。コンピュータプログラム製品は、実行されると、上記で説明した方法などの、1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ520、記憶デバイス530、またはプロセッサ510上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。
【0052】
高速コントローラ540は、コンピューティングデバイス500のための帯域幅集約的動作を管理し、低速コントローラ560は、より帯域幅集約的でない動作を管理する。そのような役割の割り当ては、単なる例示である。いくつかの実装形態において、高速コントローラ540は、メモリ520、(例えば、グラフィックスプロセッサまたはアクセラレータを介して)ディスプレイ580、および様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート550に結合される。いくつかの実装形態において、低速コントローラ560は、記憶デバイス530および低速拡張ポート590に結合される。様々な通信ポート(例えば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得る低速拡張ポート590は、キーボード、ポインティングデバイス、スキャナ、または、例えば、ネットワークアダプタを介するスイッチもしくはルータなどのネットワーキングデバイスなどの、1つまたは複数の入力/出力デバイスに結合され得る。
【0053】
コンピューティングデバイス500は、図に示すように、いくつかの異なる形態において実装され得る。例えば、コンピューティングデバイス500は、標準的なサーバ500aとして、もしくはサーバ500aのグループ内で複数回、ラップトップコンピュータ500bとして、またはラックサーバシステム500cの一部として実装され得る。
【0054】
本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せにおいて実現され得る。これらの様々な実装形態は、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信し、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスにデータおよび命令を送信するように結合された、専用または汎用であり得る少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含むことができる。
【0055】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサのための機械語を含み、高級手続き型および/もしくはオブジェクト指向言語、ならびに/またはアセンブリ/機械語において実装され得る。本明細書で使用される場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置、および/またはデバイス(例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0056】
本明細書で説明するプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを実行する1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実行され得る。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用の両方のマイクロプロセッサ、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読み取り専用メモリ、またはランダムアクセスメモリ、またはその両方から命令とデータとを受信する。コンピュータの本質的な要素は、命令を実行するためのプロセッサ、および命令とデータとを記憶するための1つまたは複数のメモリである。一般に、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば、磁気ディスク、光磁気ディスク、または光ディスクも含むか、またはそれらからデータを受信、もしくはそれらにデータを送信、もしくはその両方を行うように動作可能に結合される。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令とデータとを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内部ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完され得、または専用論理回路の中に組み込まれ得る。
【0057】
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するための表示デバイス、例えば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、オプションで、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールとを有するコンピュータ上に実装され得る。他の種類のデバイスも同様にユーザとの対話を提供するために使用され得、例えば、ユーザに提供されるフィードバックは、任意の形態の感覚的フィードバック、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックであり得、ユーザからの入力は、音響的入力、音声入力、または触覚的入力を含む任意の形態で受信され得る。それに加えて、コンピュータは、ユーザによって使用されるデバイスにドキュメントを送信し、そのデバイスからドキュメントを受信することによって、例えば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答して、ウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
【0058】
いくつかの実装形態について説明してきた。それにもかかわらず、本開示の要旨および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内にある。
【符号の説明】
【0059】
10 ユーザ
12 口頭発話
14 オーディオデータ
100 音声環境
110 音声対応デバイス、デバイス、ユーザデバイス
112 データ処理ハードウェア
114 メモリハードウェア
116 オーディオ捕捉デバイス
118 音声出力デバイス、スピーカ
120 ネットワーク
130 リモートシステム
132 リモートリソース
134 リモートデータ処理ハードウェア
136 リモートメモリハードウェア
140 音声処理システム/モジュール、音声認識システム、システム/モジュール、システム
142 転写
150 音声処理システム/モジュール、TTSシステム、システム/モジュール、システム
152 テキスト、入力テキスト、テキストシーケンス
154 合成再生オーディオ、合成音声、合成再生信号、再生オーディオ
162、162a~n トレーニングサンプル
164 テキスト
166 参照トレーニングスペクトログラム、トレーニングスペクトログラム、参照スペクトログラム
170 事後分布
180 事前分布
200 音声処理システム/モジュール、TTSモデル、システム/モジュール、システム、モデル、テキスト読み上げ(TTS)モデル
201 自己回帰(AR)事前ネットワーク、AR事前ネットワーク
202 エンコーダ、第1のエンコーダ部分、第2のエンコーダ部分、分岐エンコーダ
202a 第1のエンコーダ部分、第1の分岐、第1のエンコーダ分岐、分岐
202b 第2のエンコーダ部分、第2のエンコーダ分岐、第2の分岐、分岐
204 デコーダ
206 音声合成器、合成器
208 ターゲットまたは参照スペクトログラム、参照スペクトログラム
210 特徴生成器
212、212a~n、212a~h 潜在特徴
220 量子化器
230 連結埋め込み、連結
300 トレーニングプロセス
310 第1の段階
320 第2の段階
500 コンピューティングデバイス
510 プロセッサ、構成要素
520 メモリ、構成要素
530 記憶デバイス、構成要素
540 高速インターフェース/コントローラ、構成要素
550 高速拡張ポート、構成要素
560 低速インターフェース/コントローラ、構成要素
570 低速バス
580 ディスプレイ
590 低速拡張ポート
図1
図2A
図2B
図2C
図3
図4
図5
【国際調査報告】