IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ディープマインド テクノロジーズ リミテッドの特許一覧

特表2024-519262音声合成ニューラルネットワークを訓練するためのスペクトル表現の予測
<>
  • 特表-音声合成ニューラルネットワークを訓練するためのスペクトル表現の予測 図1
  • 特表-音声合成ニューラルネットワークを訓練するためのスペクトル表現の予測 図2
  • 特表-音声合成ニューラルネットワークを訓練するためのスペクトル表現の予測 図3
  • 特表-音声合成ニューラルネットワークを訓練するためのスペクトル表現の予測 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-05-10
(54)【発明の名称】音声合成ニューラルネットワークを訓練するためのスペクトル表現の予測
(51)【国際特許分類】
   G10L 13/08 20130101AFI20240501BHJP
   G06N 3/045 20230101ALI20240501BHJP
   G06N 3/08 20230101ALI20240501BHJP
   G10L 25/30 20130101ALI20240501BHJP
【FI】
G10L13/08 150Z
G06N3/045
G06N3/08
G10L25/30
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023559795
(86)(22)【出願日】2022-06-01
(85)【翻訳文提出日】2023-11-13
(86)【国際出願番号】 EP2022064925
(87)【国際公開番号】W WO2022253901
(87)【国際公開日】2022-12-08
(31)【優先権主張番号】63/195,635
(32)【優先日】2021-06-01
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.TENSORFLOW
(71)【出願人】
【識別番号】517030789
【氏名又は名称】ディープマインド テクノロジーズ リミテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ノルマン・カサグランデ
(57)【要約】
ニューラルネットワークを訓練して音声合成を行うための、コンピュータ記憶媒体に符号化されたコンピュータプログラムを含む方法、システムおよび装置。方法の1つは、第1のニューラルネットワークを訓練して、オーディオサンプルのスペクトル表現を処理し、オーディオサンプルの予測を生成するための訓練データセットを取得するステップと、ここにおいて、訓練した後、第1のニューラルネットワークは、第2のニューラルネットワークからオーディオサンプルのスペクトル表現を取得し、訓練データセットにおける複数のオーディオサンプルに対して、オーディオサンプルの真値スペクトル表現を生成するステップと、第3のニューラルネットワークを用いて真値スペクトル表現を処理して、オーディオサンプルの更新されたスペクトル表現を生成するステップと、更新されたスペクトル表現を用いて第1のニューラルネットワークを訓練するステップと、ここにおいて、第3のニューラルネットワークは、第2のニューラルネットワークにより生成されたスペクトル表現に類似した、更新されたスペクトル表現を生成するように構成される。
【特許請求の範囲】
【請求項1】
オーディオサンプルのスペクトル表現を処理して前記オーディオサンプルの予測を生成するように、第1のニューラルネットワークを訓練する方法であって、
ここにおいて、前記第1のニューラルネットワークが訓練された後、前記第1のニューラルネットワークは、第2のニューラルネットワークから処理されるオーディオサンプルの前記スペクトル表現を取得するように構成され、
ここにおいて、前記第2のニューラルネットワークは、テキスト入力を処理して前記テキスト入力の音声化の予測スペクトル表現を生成するように構成され、
前記方法は、
複数のオーディオサンプルを含む訓練データセットを取得するステップと
前記訓練データセットにおける1つまたは複数のオーディオサンプルに対して、
前記オーディオサンプルの真値スペクトル表現を生成するステップ、および
第3のニューラルネットワークを用いて前記オーディオサンプルの前記真値スペクトル表現を処理して、前記オーディオサンプルの更新されたスペクトル表現を生成するステップを含み、さらに
前記更新されたスペクトル表現を用いて前記第1のニューラルネットワークを訓練するステップとを含み、
ここにおいて、前記第3のニューラルネットワークは、真値スペクトル表現を処理して、前記第2のニューラルネットワークにより生成されたスペクトル表現に類似した更新されたスペクトル表現を生成するように構成される、方法。
【請求項2】
前記第3のニューラルネットワークは、
入力オーディオサンプルの前記真値スペクトル表現を取得するステップと、
エンコーダサブネットワークを用いて前記真値スペクトル表現を処理して、前記真値スペクトル表現の埋め込みを生成するステップと、
デコーダサブネットワークを用いて前記真値スペクトル表現の埋め込みを処理して、前記入力オーディオサンプルの前記更新されたスペクトル表現を生成するステップと
を含む動作を実施するように訓練されている、事前に訓練されたオートエンコーダニューラルネットワークである、請求項1に記載の方法。
【請求項3】
前記第3のニューラルネットワークは、i)特定のテキストの音声化を表す入力オーディオサンプルの前記真値スペクトル表現と、ii)前記特定のテキスト入力を処理することに応じて、前記第2のニューラルネットワークにより生成される予測スペクトル表現とを、それぞれが含む訓練例を用いて訓練されている、請求項1または2記載の方法。
【請求項4】
前記第1のニューラルネットワークは、任意の音声を特徴付けるオーディオサンプルを生成するように構成される、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記第2のニューラルネットワークは、所定の音声セットに対応する予測スペクトル表現を生成するように構成されているに過ぎない、請求項4に記載の方法。
【請求項6】
前記第3のニューラルネットワークは、
i)訓練用オーディオサンプルの訓練用真値スペクトル表現と、ii)前記第2のニューラルネットワークにより生成された前記訓練用オーディオサンプルの訓練用予測スペクトル表現とを、それぞれが含む複数の訓練例を取得するステップと、
前記複数の訓練例の1つまたは複数のものに対して、
前記第3のニューラルネットワークを用いて、前記訓練用真値スペクトル表現を処理して、前記訓練用オーディオサンプルの訓練用更新スペクトル表現を生成するステップ、および
前記訓練用更新スペクトル表現と、前記訓練用予測スペクトル表現との間の誤差を決定するステップを含み、さらに
前記決定された誤差を用いて前記第3のニューラルネットワークに対するパラメータ更新を生成するステップと
を含む動作を実施することにより訓練されている、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記更新されたスペクトル表現を用いて前記第1のニューラルネットワークを訓練する前記ステップは、
前記第1のニューラルネットワークおよび前記第2のニューラルネットワークを一緒に訓練するステップと、
前記第3のニューラルネットワークにより生成された前記更新されたスペクトル表現を用いて、前記第1のニューラルネットワークを微調整するステップと
を含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
請求項1から7のいずれか一項に記載の方法を用いて訓練された第1のニューラルネットワークを用いてオーディオサンプルを生成する方法。
【請求項9】
音声合成推論システムとして、前記第3のニューラルネットワークを使用せずに、前記第1のニューラルネットワーク、および前記第2のニューラルネットワークを展開するステップ
をさらに含む、請求項8に記載の方法。
【請求項10】
新しいテキスト入力を、前記音声合成推論システムに提供するステップと、
前記音声合成推論システムからの出力として、前記新しいテキスト入力に対応する音声の予測を表すオーディオサンプルを受け取るステップと
をさらに含む、請求項8または9に記載の方法。
【請求項11】
1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータにより実行されたとき、前記1つまたは複数のコンピュータに、請求項1から10のいずれか一項に記載の方法を実施させる命令を記憶する1つまたは複数の記憶デバイスとを備えるシステム。
【請求項12】
1つまたは複数のコンピュータにより実行されたとき、前記1つまたは複数のコンピュータに、請求項1から10のいずれか一項に記載の動作を実施させる命令を記憶する1つまたは複数の非一時的なコンピュータ記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本明細書は、ニューラルネットワークを用いて音声データを生成することに関する。
【背景技術】
【0002】
ニューラルネットワークは、受け取った入力に対する出力を予測するために、非線形ユニットの1つまたは複数の層を使用する機械学習モデルである。いくつかのニューラルネットワークは、出力層に加えて1つまたは複数の隠れ層を含む。各隠れ層の出力は、ネットワークにおける1つまたは複数の他の層、すなわち、1つまたは複数の他の隠れ層、出力層、またはその両方への入力として使用される。ネットワークの各層は、各組のパラメータの現在値に従って受信された入力から、出力を生成する。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」(arXiv: 1712.05884)
【非特許文献2】「Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling」(arXiv: 2010.04301)
【非特許文献3】「PixelCNN++: Improving The PixelCNN With Discretized Logistic Mixture Likelihood And Other Modifications」、Salimans他、arXiv:1701.05517
【発明の概要】
【課題を解決するための手段】
【0004】
本明細書は、オーディオサンプルの予測スペクトル表現を用いてオーディオサンプルを生成するためにニューラルネットワークを訓練するように構成された、1つまたは複数の場所における1つまたは複数のコンピュータ上のコンピュータプログラムとして実施されるシステムを述べる。
【0005】
本明細書では、オーディオサンプルのスペクトル表現は、オーディオサンプルの周波数のスペクトル表現であり、周波数のスペクトルは、経時的に変化する。例えば、オーディオサンプルの複数の時間点のそれぞれにおいて、スペクトル表現は、所定の組の周波数における各周波数に対して、各振幅値を含むことができる。本明細書では、スペクトログラムは、オーディオサンプルのスペクトル表現の視覚的な表現である。例えば、スペクトログラムは、時間が1つの軸に沿って変化し、また周波数が、別の軸に沿って変化する2次元の画像とすることができ、画像における各要素(例えば、画素)に対して、スペクトログラムは、例えば、対応する可能な振幅値の範囲を表す色の範囲からの振幅値を表す色など、対応する時間における対応する周波数の振幅値の視覚的表現を含むことができる。
【0006】
ニューラルネットワーク(本明細書で「ボコーダ」ニューラルネットワークと呼ぶことがある)が訓練された後、ボコーダニューラルネットワークは、テキスト入力を処理して、テキスト入力の言語化(または音声化)の予測スペクトル表現を生成するように構成される第2のニューラルネットワーク(本明細書で「スペクトル表現」ニューラルネットワークと呼ぶことがある)を含む音声合成システムにおいて展開され得る。ボコーダニューラルネットワークは次いで、スペクトル表現ニューラルネットワークにより生成された予測スペクトル表現を取得し、かつ予測スペクトル表現を処理して、テキスト入力の言語化の音声サンプルを生成することができる。したがって、音声合成システムは、テキストシーケンスを特徴付ける条件付けテキスト入力を含むシステム入力を受け入れるように構成される。音声合成システムは、条件付けテキスト入力を処理して、入力テキストに対応する音声データ、すなわち、入力テキストを話す話者を特徴付けるオーディオデータを生成することができる。
【0007】
いくつかの実施形態では、スペクトル表現ニューラルネットワークは、特定の音声または音声のタイプに対して予測スペクトル表現を生成するように訓練するためには、かなりの時間量および計算資源を必要とする可能性がある。すなわち、これらの実施形態では、特定の音声がテキスト入力を言語化するオーディオサンプルの予測スペクトル表現を生成するためには、スペクトル表現ニューラルネットワークは、特定の音声に対して特に訓練される必要がある。訓練プロセスはまた、特定の音声に対応する訓練データの、すなわち、様々なテキスト入力を言語化する特定の音声の真値オーディオサンプルのかなりの量を必要とすることが多い。しかし、訓練データの大量のコーパスは、いずれかの、少量の音声に対して利用できないことが多い。したがって、いくつかのこのような実施形態では、スペクトル表現ニューラルネットワークは、いくつかの音声(例えば、3、5、10、20、50、または100の音声)に対して訓練されるだけである、すなわち、これらの音声によって言語化されたオーディオサンプルの予測スペクトル表現を生成できるだけである。
【0008】
他方で、ボコーダニューラルネットワークは、音声にわたって広く訓練され得る。すなわち、訓練システムは、別々にそれぞれ異なる音声に対してボコーダニューラルネットワークを訓練する必要がなく、複数の音声に対して同時にボコーダニューラルネットワークを訓練するために、複数の音声に対応する訓練例(例えば、真値オーディオサンプルおよび対応するスペクトル表現入力の対など)を含む訓練セットを使用することができる。したがって、訓練セットは、訓練システムがいくつかのこのような訓練例にアクセスできるだけである場合であっても、比較的まれな音声に対応する訓練例を含むことができる。実際に、いくつかの実施形態においては、例えば、ボコーダニューラルネットワークが、十分に広い様々な音声に対して訓練された場合、ボコーダニューラルネットワークは、訓練が完了した後、訓練データセットになかった新しい音声に対応するスペクトル表現を受け取り、かつ新しい音声に対して正確なオーディオサンプルを生成できるように構成され得る。
【0009】
オーディオサンプルのコーパスが与えられた場合、訓練システムは、例えば、帯域通過フィルタまたはフーリエ変換を用いて、オーディオサンプルを処理することによって、オーディオサンプルの真値スペクトル表現を生成することができる。しかし、訓練中に訓練入力として真値スペクトル表現をボコーダニューラルネットワークに提供することは、ボコーダニューラルネットワークが、推論時に真値スペクトル表現を受け取らないため、ボコーダニューラルネットワークが展開された後には、次善の結果が生じ得る。そうではなくて、ボコーダニューラルネットワークは、スペクトル表現ニューラルネットワークにより生成されている予測スペクトル表現を受け取る。スペクトル表現ニューラルネットワークは、非常に正確な予測スペクトル表現を生成するように訓練することができるが、そうであっても、これらの予測スペクトル表現は、完全なものではなく、対応する真値スペクトル表現からわずかな差を有する可能性がある。ニューラルネットワークを訓練するときは、ニューラルネットワークが、推論時に受け取ることになるものと一致する訓練入力を提供することが重要である。
【0010】
したがって、ボコーダニューラルネットワークに対する訓練システムは、2つの競合する要件を有する。第1に、ボコーダニューラルネットワークは、展開した後に受け取ることになる入力に一致する訓練データを受け取る必要がある、すなわち、ボコーダニューラルネットワークは、スペクトル表現ニューラルネットワークにより生成されたスペクトル表現を受け取ること、またはスペクトル表現ニューラルネットワークにより生成される予測スペクトル表現と密接に類似したスペクトル表現を受け取ることが必要であることである。第2に、ボコーダニューラルネットワークは、多種多様な音声に対応する訓練入力を受け取る必要があり、それは、上記で述べた制限のため、スペクトル表現ニューラルネットワークは生成することができない可能性がある。
【0011】
本明細書で述べられる技法を用いると、訓練システムは、第3のニューラルネットワーク(本明細書で「摂動」ニューラルネットワークと呼ぶことがある)を用いて、オーディオサンプルの真値スペクトル表現を処理し、オーディオサンプルの更新されたスペクトル表現(本明細書で「摂動されたスペクトル表現」ニューラルネットワークと呼ぶことがある)を生成することにより、ボコーダニューラルネットワークに対する訓練入力を生成することができる。摂動されたスペクトル表現は、スペクトル表現ニューラルネットワークにより生成される予測スペクトル表現と同様のものであり、したがって、ボコーダニューラルネットワークに対する適切な訓練入力である。言い換えると、摂動ニューラルネットワークは、真値ペクトル表現を処理して、スペクトル表現ニューラルネットワークにより生成されたものと同じ特性を有する摂動されたスペクトル表現を生成するように構成することができる。訓練システムは、次いで、対応する真値オーディオサンプルと共に、摂動されたスペクトル表現を使用して、ボコーダニューラルネットワークの管理された訓練を実施することができる。訓練が完了した後、ボコーダニューラルネットワークは、上記で述べられたように、スペクトル表現ニューラルネットワークと共に展開され得る、すなわち、通常、摂動ニューラルネットワークは、推論時に、音声合成システムには展開されない。
【0012】
いくつかの実施形態では、摂動ニューラルネットワークは、スペクトル表現ニューラルネットワークにより生成される予測スペクトル表現を模倣する摂動されたスペクトル表現を生成するように明示的に訓練される。いくつかの他の実施形態では、摂動ニューラルネットワークは、このように摂動されたスペクトル表現を生成するようには明示的に訓練されない。例えば、摂動ニューラルネットワークは、真値スペクトル表現を処理して、真値スペクトル表現の埋め込みを生成し、次いで、その埋め込みを用いて、スペクトル表現を再構成するように構成されたオートエンコーダニューラルネットワークとすることができる。スペクトル表現ニューラルネットワークにより生成される予測スペクトル表現は、対応する真値スペクトル表現よりも摂動ニューラルネットワークにより生成され再構成されたスペクトル表現に、より密接に類似することができ、したがって、再構成されたスペクトル表現は、ボコーダニューラルネットワークの訓練中に、摂動されたスペクトル表現として使用することができる。
【発明の効果】
【0013】
本明細書で述べられる主題は、以下の利点のうちの1つまたは複数のものを実現するために特定の実施形態で実施することができる。多くの既存の音声合成システムは、1つまたはいくつかの所定の音声を特徴付けるオーディオサンプルを生成することに限られている。本明細書において述べられる技法を用いると、訓練システムは、実際に普遍的であるように、ボコーダニューラルネットワークを訓練することができる、すなわち、ボコーダニューラルネットワークに対する訓練データセットでは表現されなかった音声であっても、任意の音声を特徴付けるオーディオサンプルを生成することができる。いくつかの実施形態では、訓練されたボコーダニューラルネットワークは、複数の異なるスペクトル表現ニューラルネットワーク(例えば、さらにボコーダニューラルネットワークの訓練および展開後に訓練されたスペクトル表現ニューラルネットワーク)のいずれか1つと共に展開されて、それらの任意のものからのスペクトル表現を受け取ったとき、高品質のオーディオサンプルを生成することができる。
【0014】
本明細書の主題の1つまたは複数の実施形態の細部は、添付図面および以下の記述において説明される。本主題の他の特徴、態様、および利点は、その記述、図面、および特許請求の範囲から明らかになろう。
【図面の簡単な説明】
【0015】
図1】例示的な音声合成推論システムの図である。
図2】例示的な訓練システムの図である。
図3】例示的なオートエンコーダニューラルネットワークシステムの図である。
図4】音声合成を実施するようにニューラルネットワークを訓練するための例示的なプロセスの流れ図である。
【発明を実施するための形態】
【0016】
様々な図面における同様の参照数字および指定は、同様の要素を示す。
【0017】
本明細書は、オーディオサンプルの予測スペクトル表現を用いてオーディオサンプルを生成するためにニューラルネットワークを訓練するシステムを述べる。
【0018】
図1は、オーディオサンプル122を生成するための例示的な音声合成推論システム100の図である。音声合成推論システム100は、1つまたは複数の場所において、1つまたは複数のコンピュータ上のコンピュータプログラムとして実施されるシステムの例であり、そこには、以下で述べられるシステム、構成要素、および技法が実装され得る。
【0019】
音声合成推論システム100は、条件付けテキスト入力102を処理して、オーディオサンプル122を生成するように構成される。条件付けテキスト入力102は、入力テキストを表しており、またオーディオサンプル122は、入力テキストに対応する音声を表す。すなわち、オーディオサンプル122は、条件付けテキスト入力102により表された入力テキストの言語化を表す。
【0020】
条件付けテキスト入力102は、入力テキストを表す一連の入力要素を含む。いくつかの実施形態では、条件付けテキスト入力102は、特定の分解能で入力テキストを埋め込むことを含み、例えば、一連の入力要素は、入力テキストの文字レベル、音素レベル、または単語レベルの埋め込みとすることができる。それに代えて、または加えて、条件付けテキスト入力102は、入力テキストを特徴付ける言語上の特徴を含むことができる。例えば、一連の入力要素は、入力テキストに対応する一連の入力時間ステップの各入力時間ステップに対する言語上の特徴の各ベクトルを含むことができる。特定の例として、各入力時間ステップに対する言語上の特徴は、1つまたは複数のi)音素、ii)入力時間ステップにおけるテキストの持続期間、またはiii)ピッチ情報、例えば、入力時間ステップの対数基本周波数logF0により表される入力時間ステップにおけるピッチなどを含むことができる。
【0021】
条件付けテキスト入力102は、任意の適切な供給源から取得することができる。例えば、音声合成推論システム100は、質問に答える、かつ/またはタスクを実行するようにユーザと対話する仮想アシスタントの構成要素とすることができ、また条件付けテキスト入力102は、ユーザにより出された照会に応じて仮想アシスタントにより生成されたテキスト応答とすることができる。音声合成推論システム100は、次いで、テキスト応答の言語化であるオーディオサンプル122を生成し、かつそのオーディオサンプル122をユーザに再生することができる。別の例として、条件付けテキスト入力102は、本(または新聞もしくは雑誌などの他の書かれた媒体)からのテキストとすることができ、また音声合成推論システム100は、ユーザに再生される本の言語化であるオーディオサンプル122を生成するように構成され得る(例えば、本に対応するオーディオブック)。別の例として、音声合成推論システム100は、ユーザからのテキスト入力102を受け取り、テキスト入力102の言語化であるオーディオサンプル122をユーザに提供するシステム、例えば、話すことができない、または話すことが困難であるユーザに対してアクセス可能性を提供するシステムの構成要素とすることができる。
【0022】
いくつかの実施形態では、音声合成推論システム100はまた、入力として雑音入力104を受け取る。例えば、雑音入力104は、例えば、正規分布など、所定の分布からランダムにサンプリングすることができる。雑音入力104は、音声合成推論システム100により生成されたオーディオサンプル122における可変性を保証することができる。
【0023】
いくつかの実施形態では、音声合成推論システム100はまた、オーディオサンプル122が属すべきクラス106の識別を入力として受け取る。クラス106は、1組の可能なクラスのメンバーとすることができる。例えば、クラス106は、オーディオサンプル122が同様に発音すべき特定の話者(1組の可能な話者からの)に対応することができる。すなわち、オーディオサンプル122は、特定の話者により話される入力テキストを表すことができる。特定の例として、クラス106は、ワンホットベクトルにより表すことができ、すなわち、各要素は、1組の可能なクラスからの各クラスに対応し、クラス106に対応する要素は1に等しく、要素の残りはゼロに等しいベクトルである。
【0024】
オーディオサンプル122は、一連の出力時間ステップの各出力時間ステップにおいてオーディオ波のサンプルを含むことができる。例えば、オーディオサンプル122は、各出力時間ステップに対して、オーディオ波の振幅値を含むことができる。いくつかの実施形態では、振幅値は、生の振幅値であり、他のいくつかの実施形態では、振幅値は、圧縮される、圧伸される、またはその両方である。
【0025】
概して、一連の入力時間ステップ、および一連の出力時間ステップは、例えば、1、2、5、または10秒など同じ時間期間(すなわち、入力テキストの音声化の持続期間)に特徴付ける。しかし、いくつかの場合では、異なる数の入力時間ステップおよび出力時間ステップがあり得る。特定の例では、時間期間が2秒である場合、条件付け入力102は、400入力時間ステップを含むことができる(200Hzの周波数になる)が、オーディオサンプル122は、48000時間ステップを含むことができる(24kHzの周波数になる)。したがって、音声合成推論システム100は、各入力時間ステップに対して複数の出力時間ステップ(この場合120)に対するオーディオサンプルを生成することができる。
【0026】
音声合成推論システム100は、2つの訓練されるニューラルネットワークを含み、スペクトル表現ニューラルネットワーク110とボコーダニューラルネットワーク120である。音声合成推論システム100は、「推論」システムと呼ばれるが、それは、スペクトル表現ニューラルネットワーク110および生成されるニューラルネットワーク120が、すでに訓練されており、したがって、音声合成推論システム100は、例えば、作成環境において、展開することができるからである。すなわち、音声合成推論システム100の動作は、推論を実施するデバイス上で、またはデバイスのシステム上で実施することができ、すなわち、新しい入力を受け取り、かつ新しい入力を処理して対応する出力を生成する。
【0027】
いくつかの実施形態では、音声合成推論システム100は、クラウドシステムへと展開することができる、すなわち、1つまたは複数の場所で、例えば、数百または数千のコンピューティングノードなど、複数のコンピューティングノードを有する分散されたコンピューティングシステムへと展開することができる。いくつかの他の実施形態では、音声合成推論システム100は、例えば、携帯電話、タブレットコンピュータ、スマートデバイス、または他のエッジコンピューティングデバイスなど、ユーザデバイスに展開することができる。
【0028】
スペクトル表現ニューラルネットワーク110は、条件付けテキスト入力102(および任意選択で、雑音入力104および/またはクラス106の表現)を処理して、オーディオサンプル122の予測スペクトル表現112を生成するように構成される。
【0029】
スペクトル表現112は、オーディオサンプル122の任意の適切な表現とすることができる。例えば、スペクトル表現112は、オーディオサンプルの非正規化スペクトル表現、オーディオサンプルのメル周波数スペクトル表現、またはオーディオサンプルのメル周波数ケプストラル係数(MFCC)表現とすることができる。
【0030】
例えば、スペクトル表現ニューラルネットワーク110は、条件付けテキスト入力102の一連の入力要素を、複数の処理時間ステップにわたり反復的に処理する1つまたは複数の回帰型ニューラルネットワーク層を含むことができる。それに代えて、またはそれに加えて、スペクトル表現ニューラルネットワーク110は、畳み込みカーネルを用いて、条件付けテキスト入力102の一連の入力要素を処理するように構成された1つまたは複数の一次元畳み込みニューラルネットワーク層を含むことができる。それに代えて、またはそれに加えて、スペクトル表現ニューラルネットワーク110は、条件付けテキスト入力102の一連の入力要素に、自己注意機構を適用する1つまたは複数のニューラルネットワーク層、例えば、1つまたは複数のトランスフォーマ(Transformer)ニューラルネットワーク層を含むことができる。
【0031】
スペクトル表現ニューラルネットワークおよびボコーダニューラルネットワークの特定の例は、「Natural TTS Synthesis by Conditioning WaveNet on Mel Spectrogram Predictions」(arXiv: 1712.05884)においてより詳細に論じられており、その内容は、参照により本明細書に組み込まれる。
【0032】
スペクトル表現ニューラルネットワークおよびボコーダニューラルネットワークの別の特定の例は、「Non-Attentive Tacotron: Robust and Controllable Neural TTS Synthesis Including Unsupervised Duration Modeling」(arXiv: 2010.04301)においてより詳細に論じられており、その内容は、参照により本明細書に組み込まれる。
【0033】
上記で論じられるように、いくつかの実施形態では、スペクトル表現ニューラルネットワーク110は、条件付けテキスト入力102の所与の話者の音声化を特徴付ける予測スペクトル表現112を学習して生成するためには、大量の訓練時間、大幅な計算資源、および/または多数の訓練例を必要とする。
【0034】
ボコーダニューラルネットワーク120は、予測スペクトル表現112を処理して、オーディオサンプル122を生成するように構成される。いくつかの実施形態では、ボコーダニューラルネットワーク120は「普遍的」なものである。すなわち、ボコーダニューラルネットワーク120は、ボコーダニューラルネットワーク120に対する訓練データセットで表されない話者であっても、任意の話者に対応する予測スペクトル表現112を用いてオーディオサンプル122を生成するように、訓練を介して構成されている。
【0035】
いくつかの実施形態では、ボコーダニューラルネットワーク120が、オーディオサンプル122を生成した後、音声合成推論システム100は、例えば、ユーザのユーザデバイスのオーディオシステムにオーディオサンプルを提供することによるなど、オーディオサンプル122をユーザに対して再生させることができる。例えば、音声合成推論システム100は、質問に答える、かつ/またはタスクを実行するためにユーザと対話する仮想のアシスタントの構成要素とすることができる。特定の例として、ユーザは、照会を提出することができ、仮想のアシスタントは、照会に対するテキスト応答を生成することができ、また音声合成推論システムは、テキスト応答の言語化であるオーディオサンプル122を生成して、オーディオサンプル122をユーザに対して再生させることができる。
【0036】
それに代えて、または加えて、音声合成推論システム100は、オーディオサンプル122を記憶するために、またはさらなる処理をするために、外部システムに提供することができる。
【0037】
いくつかの実施形態では、スペクトル表現ニューラルネットワーク110およびボコーダニューラルネットワーク120は、別々に訓練される。例えば、スペクトル表現ニューラルネットワーク110は、i)訓練用条件付けテキスト入力、およびii)真値オーディオサンプルをそれぞれが含む訓練例を用いて訓練することができる。特定の訓練例の訓練用条件付けテキスト入力から生成される予測スペクトル表現は、予測オーディオサンプルを直接生成するために、再構成アルゴリズムを用いて処理する、例えば、Griffin-Lim再構成アルゴリズムを用いて処理することができる。訓練システムは、次いで、i)再構成を用いて生成された予測オーディオサンプルと、ii)特定の訓練例の真値オーディオサンプルとの間の差を用いて、スペクトル表現ニューラルネットワーク110のパラメータに対する更新を決定することができる。別の例として、スペクトル表現ニューラルネットワーク110は、i)訓練用条件付けテキスト入力と、ii)真値オーディオサンプルから生成された真値スペクトル表現とを、それぞれが含む訓練例を用いて訓練することができる。訓練システムは、次いで、i)特定の訓練例の訓練用条件付けテキスト入力から生成された予測スペクトル表現ニューラルネットワーク110と、ii)特定の訓練例の真値スペクトル表現との間の差を用いて、スペクトル表現ニューラルネットワーク110のパラメータに対する更新を決定することができる。
【0038】
スペクトル表現ニューラルネットワーク110およびボコーダニューラルネットワーク120が、別々に訓練される実施形態では、ボコーダニューラルネットワーク120は、図2を参照して以下で述べられる訓練システム200を用いて訓練され得る。
【0039】
他のいくつかの実施形態では、スペクトル表現ニューラルネットワーク110およびボコーダニューラルネットワーク120は、一緒に訓練される。すなわち、訓練システムは、i)訓練用条件付けテキスト入力、およびii)真値オーディオサンプルをそれぞれが含む訓練例を取得することができる。訓練システムは、スペクトル表現ニューラルネットワーク110およびボコーダニューラルネットワーク120を用いて、訓練用条件付けテキスト入力をエンドツーエンドで処理し、訓練用オーディオサンプルを生成し、かつ訓練用オーディオサンプルと対応する真値オーディオサンプルの間の誤差を決定することができる。訓練システムは、次いで、ボコーダニューラルネットワーク120とスペクトル表現ニューラルネットワーク110の両方を介して誤差を逆伝播させて、例えば、勾配降下法を用いるなど、両方のニューラルネットワークに対するパラメータ更新を決定することができる。
【0040】
スペクトル表現ニューラルネットワーク110およびボコーダニューラルネットワーク120が一緒に訓練される実施形態では、ボコーダニューラルネットワーク120は、次いで、図2を参照して以下で述べられる訓練システム200を用いて微調整され得る(すなわち、ボコーダニューラルネットワーク120のパラメータが更新され得る)。
【0041】
図2は、例示的な訓練システム200の図である。訓練システム200は、システム、構成要素、および以下で述べられる技法が実施され得る、1つまたは複数の場所における1つまたは複数のコンピュータでコンピュータプログラムとして実施されるシステムの例である。
【0042】
訓練システム200は、ボコーダニューラルネットワーク220を訓練して、オーディオサンプルのスペクトル表現を処理し、対応するオーディオサンプルの予測を生成するように構成される。例えば、ボコーダニューラルネットワーク220は、図1を参照して上記で述べられたボコーダニューラルネットワーク120と同様に構成することができる。訓練した後、ボコーダニューラルネットワーク220は、例えば、図1で示されたスペクトル表現ニューラルネットワーク110など、スペクトル表現ニューラルネットワークと共に音声合成システムに展開することができる。
【0043】
訓練システム200は、ボコーダニューラルネットワーク220、摂動ニューラルネットワーク210、およびパラメータ更新システム230を含む。
【0044】
摂動ニューラルネットワーク210は、オーディオサンプルの真値スペクトル表現202を処理して、オーディオサンプルの摂動されたスペクトル表現212を生成するように構成される。訓練システム200は、次いで、摂動されたスペクトル表現212を、ボコーダニューラルネットワーク220に対する訓練入力として使用することができる。
【0045】
上記で述べたように、ボコーダニューラルネットワーク220の訓練中に、ボコーダニューラルネットワーク220が推論時に分かる入力と一致する、またはそれと同様の入力を、ボコーダニューラルネットワーク220に提供することは、例えば、訓練が完了した後に、訓練精度またはテスト精度により測定される、訓練を向上させることができる。したがって、摂動ニューラルネットワーク210は、ボコーダニューラルネットワーク220が共に展開されるスペクトル表現ニューラルネットワークにより生成される予測スペクトル表現と類似した摂動スペクトル表現212を生成するように構成され得る。
【0046】
いくつかの実施形態では、摂動ニューラルネットワーク210は、スペクトル表現ニューラルネットワークにより生成される予測スペクトル表現を模倣する摂動されたスペクトル表現212を生成するように明示的に訓練され得る。例えば、摂動ニューラルネットワーク210に対する訓練システム(例えば、訓練システム200または別の訓練システム)は、i)テキスト入力の言語化を表すオーディオサンプルの真値スペクトル表現202、およびii)テキスト入力の処理に応じて、スペクトル表現ニューラルネットワークにより生成される予測スペクトル表現をそれぞれが含む訓練例を取得することができる。訓練システムは、次いで、摂動ニューラルネットワーク210を用いて真値スペクトル表現202を処理し、摂動されたスペクトル表現212を生成し、i)摂動されたスペクトル表現212と、ii)スペクトル表現ニューラルネットワークにより生成された予測スペクトル表現との間の誤差に従って、摂動ニューラルネットワーク210のパラメータに対する更新を決定することができる。
【0047】
言い換えると、訓練システムは、スペクトル表現ニューラルネットワークが訓練された音声に対応する訓練例を用いて、摂動ニューラルネットワーク210を訓練することができる。次に、摂動ニューラルネットワーク210が訓練された後、摂動ニューラルネットワーク210は(i)スペクトル表現ニューラルネットワークが訓練されていない音声に対応するが、(ii)スペクトル表現ニューラルネットワークによって生成されるはずの予測スペクトル表現になお類似した摂動されたスペクトル表現212を生成することができる。したがって、ボコーダニューラルネットワーク220は、スペクトル表現ニューラルネットワークだけを用いて生成され得るものよりも多様な訓練セットを用いて訓練することができる。
【0048】
いくつかの他の実施形態では、摂動ニューラルネットワーク210は、スペクトル表現ニューラルネットワークにより生成される予測スペクトル表現を模倣する摂動スペクトル表現212を生成するように明示的に訓練されない。例えば、摂動ニューラルネットワーク210は、オートエンコーダニューラルネットワークとすることができ、それは、真値スペクトル表現202を処理して、真値スペクトル表現202の埋め込みを生成し、次いで、埋め込みを用いて、真値スペクトル表現202を再構成する(すなわち、真値スペクトル表現202の予測である再構成されたスペクトル表現を生成する)ように構成される。
【0049】
再構成されたスペクトル表現は、摂動されたスペクトル表現212と見なすことができるが、それは、埋め込むことは、概して、真値スペクトル表現202のすべての情報を符号化することはできず、したがって、再構成プロセスは、真値スペクトル表現202からの情報を失うからである。再構成されたスペクトル表現は、スペクトル表現ニューラルネットワークにより生成された予測スペクトル表現に対する真値スペクトル表現202よりも、スペクトル表現ニューラルネットワークにより生成された予測スペクトル表現に対して、より類似することができ、したがって、再構成されたスペクトル表現は、真値スペクトル表現202よりもボコーダニューラルネットワーク220に対して、より適切な訓練入力になり得る。ボコーダニューラルネットワークに対する訓練入力を生成するために使用され得る例示的なオートエンコーダニューラルネットワークは、図3を参照して以下でより詳細に論じられる。
【0050】
ボコーダニューラルネットワーク220は、摂動されたスペクトル表現212を処理して、オーディオサンプル222を生成し、そのオーディオサンプルをパラメータ更新システム230に提供することができる。パラメータ更新システム230はまた、真値スペクトル表現202に対応する真値オーディオサンプル204を取得することができる。すなわち、真値スペクトル表現202は、例えば、帯域フィルタまたはフーリエ変換を用いて真値オーディオサンプル204を処理することにより、真値オーディオサンプル204から生成されている。
【0051】
したがって、訓練システム200は、多様な異なる音声を特徴付ける真値オーディオサンプル204を取得し、真値オーディオサンプル204を処理して対応する真値スペクトル表現202を生成し、次いで、上記で述べたように、摂動ニューラルネットワーク210を用いて真値スペクトル表現202を処理することによって、ボコーダニューラルネットワーク220に対する大量の訓練データセットを生成することができる。
【0052】
パラメータ更新システム230は、生成されたオーディオサンプル222と真値オーディオサンプル204の間の差を用いてボコーダニューラルネットワーク220のネットワークに対する更新232を決定することができる。例えば、パラメータ更新システム230は、生成されたオーディオサンプル222と真値オーディオサンプル204の間のL1もしくはL2距離、またはその2乗を決定することができる。別の例として、パラメータ更新システム230は、生成されたオーディオサンプル222と、真値オーディオサンプル204の間の2乗平均平方根誤差を決定することができる。別の例では、パラメータ更新システム230は、例えば、「PixelCNN++: Improving The PixelCNN With Discretized Logistic Mixture Likelihood And Other Modifications」、Salimans他、arXiv:1701.05517で述べられるように、離散化ロジスティック混合尤度(logistic mixture likelihood)に従って、更新232を生成することができる。
【0053】
パラメータ更新システム230は、次いで、例えば、勾配降下法を用いて、パラメータ更新232を生成するために、ボコーダニューラルネットワーク220を介して誤差を逆伝播させることができる。パラメータ更新システム230はまた、例えば、アダムオプティマイザまたは適応勾配(AdaGrad)などの任意の適切なオプティマイザを使用することもできる。
【0054】
このように、訓練システム200は、ボコーダニューラルネットワーク220を訓練して、多種多様な話者に対するオーディオサンプル222を生成することができる。例えば、訓練システムは、高い、もしくは低い声で話す話者、ボーカルフライ(vocal fry)を使用する話者、様々なアクセントを用いる話者、高い、もしくは低いテンポで話す話者、鼻声を用いる話者、ささやく話者などを特徴付ける真値オーディオサンプル204を使用することができる。したがって、ボコーダニューラルネットワーク220は、推論時に、展開後に受け取ることのできる新しい入力(すなわち、新しい会話特性を表すスペクトル表現)を良好に扱うように訓練され得る。
【0055】
いくつかの実施形態では、訓練システム200は、摂動ニューラルネットワーク210を使用して、対応するテキスト入力を有しないオーディオサンプルの摂動されたスペクトル表現212を生成する。すなわち、オーディオサンプルのテキストのコピーが利用できない場合、スペクトル表現ニューラルネットワーク(テキスト入力を処理するように構成されている)は、ボコーダニューラルネットワーク220に対する訓練入力として使用され得る予測スペクトル表現を生成することができない。したがって、訓練システム200は、上記で述べられたオーディオサンプルを用いて真値スペクトル表現202を生成し、摂動ニューラルネットワーク210を用いて、真値スペクトル表現202を処理し、ボコーダニューラルネットワークに対する訓練入力を生成することができる。
【0056】
いくつかの実施形態では、図2で示されるように、摂動スペクトル表現212が生成された後、摂動スペクトル表現212をボコーダニューラルネットワーク220に直接提供するのではなく、訓練システム200は、将来の時点に、ボコーダニューラルネットワーク220を訓練するために、摂動されたスペクトル表現212を記憶することができる。すなわち、訓練システム200は、(i)摂動ニューラルネットワーク210、および(ii)ボコーダニューラルネットワーク220の訓練を非同期で実行することができる。例えば、訓練システム200は、摂動ニューラルネットワークを用いて、複数の真値スペクトル表現202を処理し、対応する摂動されたスペクトル表現を生成することによって、ボコーダニューラルネットワーク220に対する訓練セットを生成し、次いで、将来の時点に、生成された訓練セットを用いてボコーダニューラルネットワーク220を訓練することができる。
【0057】
いくつかの実施形態では、外部システムが、摂動ニューラルネットワーク210を実行して、摂動されたスペクトル表現212を生成し、かつボコーダニューラルネットワーク220を訓練するために、摂動されたスペクトル表現212を訓練システム200に提供する。すなわち、これらの実施形態では、訓練システム200は、摂動ニューラルネットワーク210を含まない。
【0058】
いくつかの実施形態では、訓練システム200は、例えば、グラフィックス処理ユニット(GPU)、またはテンソル処理ユニット(TPU)などの単一のデバイス上で実行される。すなわち、摂動ニューラルネットワーク210、ボコーダニューラルネットワーク220、およびパラメータ更新システム230は、同じデバイス上で実行され得る。いくつかの他の実施形態では、訓練システム200の実行は、複数のデバイスにわたって分散される。例えば、摂動ニューラルネットワーク210は、1つまたは複数の第1のデバイスを用いて実行することができ、またボコーダニューラルネットワーク220およびパラメータ更新システム230は、1つまたは複数の第2のデバイスを用いて実行することができる。
【0059】
図3は、例示的なオートエンコーダニューラルネットワークシステム300の図である。オートエンコーダニューラルネットワークシステム300は、以下で述べられるシステム、構成要素、および技法が実施される、1つまたは複数の場所における1つまたは複数のコンピュータのコンピュータプログラムとして実施されるシステムの例である。
【0060】
オートエンコーダニューラルネットワークシステム300は、オーディオサンプルの真値スペクトル表現302を処理して、オーディオサンプルの摂動されたスペクトル表現322を生成するように構成される。オートエンコーダニューラルネットワークシステム300は、摂動されたスペクトル表現322を処理して対応するオーディオサンプルに対する予測を生成するように構成されたボコーダニューラルネットワークに対する訓練入力を生成するように、訓練システムにより使用することができる。例えば、オートエンコーダニューラルネットワークシステムは、図2を参照して上記で述べられたボコーダニューラルネットワーク220を訓練するとき、摂動ニューラルネットワーク210として働くことができる。ボコーダニューラルネットワークは、次いで、例えば、図1を参照して上記で述べられたスペクトル表現ニューラルネットワーク110など、スペクトル表現ニューラルネットワークと共に、音声合成システムに展開することができる。
【0061】
オートエンコーダニューラルネットワークシステム300は、エンコーダサブネットワーク310およびデコーダサブネットワーク320を含む。エンコーダサブネットワーク310は、真値スペクトル表現302を処理して、真値スペクトル表現302の埋め込み312を生成するように構成される。デコーダサブネットワーク320は、真値スペクトル表現302の埋め込み312を処理して、埋め込み312から真値スペクトル表現302を再構成し、摂動されたスペクトル表現322を生成するように構成される。本明細書では、埋め込みとは、特定の埋め込み空間における入力を表す数値の順序付けられた収集であり、例えば、埋め込みは、固定された次元数を有する浮動点または他の数値のベクトルとすることができる。
【0062】
いくつかの実施形態では、オートエンコーダニューラルネットワークシステム300は、例えば、図2で示される訓練システム200など、ボコーダニューラルネットワークに対する訓練システムで展開される前に、事前に訓練される。事前の訓練中に、オートエンコーダニューラルネットワークシステム300は、摂動されたスペクトル表現322を生成するように構成することができ、したがって、真値スペクトル表現302と、対応する摂動されたスペクトル表現322の間の差は、最小化される、または閾値以下に低減される。
【0063】
例えば、オートエンコーダニューラルネットワークシステム300に対する訓練システムは、オートエンコーダニューラルネットワークシステム300を用いて、真値スペクトル表現302を含む訓練例を処理して、各摂動されたスペクトル表現322を生成することができる。オートエンコーダニューラルネットワークシステム300の訓練中に処理される各訓練例に対して、訓練システムは、i)真値スペクトル表現302とii)対応する摂動されたスペクトル表現322の間の差を特徴付ける再構成誤差を決定することができる。例えば、再構成誤差は、真値スペクトル表現302と、摂動されたスペクトル表現322の間のL1もしくはL2距離とすることができるが、またはその2乗とすることができる。別の例として、再構成誤差は、真値スペクトル表現302と、摂動されたスペクトル表現322の間の2乗平均平方根誤差とすることができる。
【0064】
訓練システムは、次いで、オートエンコーダニューラルネットワークシステム300を介して再構成誤差を逆伝播して、例えば、勾配下降法を用いるなど、オートエンコーダニューラルネットワークシステム300のネットワークパラメータの値に対する更新を決定することができる。例えば、訓練システムは、エンコーダサブネットワーク310とデコーダサブネットワーク320の両方のネットワークパラメータの値に対して更新を決定することができる(すなわち、エンコーダサブネットワーク310およびデコーダサブネットワーク320は、同時に訓練され得る)。言い換えると、訓練システムは、教師なしで、オートエンコーダニューラルネットワークシステム300を訓練することができる。
【0065】
いくつかの実施形態では、オートエンコーダニューラルネットワークシステム300は、変分オートエンコーダ(VAE)である。
【0066】
概して、埋め込み312は、真値ペクトル表現302よりも低い次元数を有するが、摂動されたスペクトル表現322は、真値スペクトル表現302と同じ次元数を有する。例えば、埋め込み312の次元数は、真値スペクトル表現302の次元数のサイズの1/10、1/100、または1/1000になり得る。すなわち、真値スペクトル表現302がエンコーダサブネットワーク310により処理されて、埋め込み312を生成するとき、情報の喪失があり、したがって、摂動されたスペクトル表現322は、元の真値スペクトル表現302の近似に過ぎない。言い換えると、摂動されたスペクトル表現322は、真値スペクトル表現302の劣化した、または「雑音のある」バージョンである。
【0067】
上記で述べられたように、摂動されたスペクトル表現322の雑音のある性質は、ボコーダニューラルネットワークに対する訓練入力として摂動されたスペクトル表現322を使用するとき有利であり得る。いくつかの実施形態では、オートエンコーダニューラルネットワークシステム300は、スペクトル表現ニューラルネットワークとは独立して訓練されているが、いくつかの場合、オートエンコーダニューラルネットワークシステム300により導かれる劣化は、真値スペクトル表現に対して、スペクトル表現ニューラルネットワークにより生成される予測スペクトル表現の劣化と同様のものであり得る。しかし、スペクトル表現ニューラルネットワークとは異なり、オートエンコーダニューラルネットワークシステム300は、任意の話者に対応する任意の真値スペクトル表現302を処理することができ、したがって、オートエンコーダニューラルネットワークシステム300は、ボコーダニューラルネットワークに対して多様な訓練データセットを生成することができる。
【0068】
図4は、第1のニューラルネットワークを訓練して音声合成を実施するための例示的なプロセス400の流れ図である。簡便にするため、プロセス400は、1つまたは複数の場所に位置する1つまたは複数のコンピュータのシステムにより実施されるものとして述べられる。例えば、本明細書に従って適切にプログラムされる、例えば、図2で示される訓練システム200などの訓練システムは、プロセス400を実施することができる。
【0069】
本明細書でボコーダニューラルネットワークとも呼ばれる第1のニューラルネットワークは、オーディオサンプルのスペクトル表現を処理して、オーディオサンプルの予測を生成するように構成される。例えば、第1のニューラルネットワークは、図1を参照して上記で述べられたボコーダニューラルネットワーク120とすることができ、または図2を参照して上記で述べられたボコーダニューラルネットワーク220とすることができる。
【0070】
第1のニューラルネットワークが訓練された後、第1のニューラルネットワークは、推論環境に展開することができ、そこにおいて、第1のニューラルネットワークは、第2のニューラルネットワークから、新しいオーディオサンプルの予測スペクトル表現を取得する。本明細書ではスペクトル表現ニューラルネットワークとも呼ばれる、第2のニューラルネットワークは、テキスト入力を処理して、テキスト入力の音声化の予測スペクトル表現を生成するように構成される。例えば、第2のニューラルネットワークは、図1を参照して上記で述べられたスペクトル表現ニューラルネットワーク110とすることができる。
【0071】
システムは、複数の訓練サンプルを含む訓練データセットを取得する(ステップ402)。
【0072】
訓練データセットにおける1つまたは複数のオーディオサンプルに対して、任意選択で、訓練データセットにおける各オーディオサンプルに対して、システムは、オーディオサンプルの真値スペクトル表現を生成する(ステップ404)。
【0073】
真値スペクトル表現が生成される訓練データセットにおける各オーディオサンプルに対して、システムは、第3のニューラルネットワークを用いてオーディオサンプルの真値スペクトル表現を処理し、オーディオサンプルの更新されたスペクトル表現を生成する(ステップ406)。本明細書で摂動ニューラルネットワークとも呼ばれる第3のニューラルネットワークは、真値スペクトル表現を処理して、第2のニューラルネットワークにより生成されるスペクトル表現と類似する更新されたスペクトル表現を生成するように構成される。例えば、第3のニューラルネットワークは、図2を参照して上記で述べられた摂動ニューラルネットワーク210とすることができる。
【0074】
システムは、更新されたスペクトル表現を用いて、第1のニューラルネットワークを訓練する(ステップ408)。例えば、システムは、第1のニューラルネットワークを用いて、更新されたスペクトル表現を処理して、予測オーディオサンプルを生成し、かつ予測オーディオサンプルと、ステップ402で得られた真値オーディオサンプルの間の差を用いて第1のニューラルネットワークに対するパラメータ更新を決定することができる。
【0075】
本明細書は、システムおよびコンピュータプログラム構成要素に関して「構成される」という用語を使用する。特定の動作またはアクションを実施するように構成された1つまたは複数のコンピュータのシステムの場合、システムは、動作時に、システムにその動作またはアクションを実施させるソフトウェア、ファームウェア、ハードウェア、またはそれらの組合せをインストールしていることを意味する。特定の動作またはアクションを実施するように構成された1つまたは複数のコンピュータプログラムの場合、1つまたは複数のプログラムが、データ処理装置により実行されたとき、装置に動作またはアクションを実施させる命令を含むことを意味する。
【0076】
本明細書で述べられる主題および機能的な動作の諸実施形態は、本明細書で開示される構造、およびそれらの構造の均等な形態、またはその1つまたは複数の組合せを含む、デジタル電子回路において、有形に実施されるコンピュータソフトウェアまたはファームウェアにおいて、コンピュータハードウェアにおいて実施することができる。本明細書において述べられる主題の実施形態は、1つまたは複数のコンピュータプログラムとして実施することができる、すなわち、データ処理装置により実行される、またはその動作を制御するための、有形な非一時的な記憶媒体に符号化されたコンピュータプログラム命令の1つまたは複数のモジュールとして実施することができる。コンピュータ記憶媒体は、機械可読の記憶デバイス、機械可読の記憶基板、ランダムもしくはシリアルアクセスメモリデバイス、またはそれらの1つまたは複数の組合せとすることができる。代替的に、または加えて、プログラム命令は、データ処理装置により実行するために、適切な受信器装置に送信するための情報を符号化するように生成された、例えば、機械で生成された電気的、光学的、または電磁気的信号など、人工的に生成された伝播信号上で符号化され得る。
【0077】
「データ処理装置」という用語は、データ処理ハードウェアを指しており、例えば、プログラム可能なプロセッサ、コンピュータ、または複数のプロセッサもしくはコンピュータを含むデータを処理するための装置、デバイス、および機械のすべての種類を包含する。装置はまた、例えば、FPGA(書替え可能ゲートアレイ)、またはASIC(特定用途向けIC)など、専用の論理回路とすることができ、またはさらに含むことができる。装置は、ハードウェアに加えて、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、またはそれらの1つまたは複数の組合せを構成するコードなど、コンピュータプログラムに対する実行環境を生成するコードを任意選択で含むことができる。
【0078】
プログラム、ソフトウェア、ソフトウェアアプリケーション、アプリ(app)、モジュール、ソフトウェアモジュール、スクリプト、またはコードとも呼ばれる、またはそのように記述することのできるコンピュータプログラムは、コンパイルされる、もしくは解釈される言語、または宣言形もしくは手続き形言語を含むプログラミング言語の任意の形で記述することができ、スタンドアロンプログラムとして、またはモジュール、構成要素、サブルーチン、もしくはコンピューティング環境で使用するのに適した他のユニットとして含む、任意の形態で展開することができる。プログラムは、必ずしもそうする必要はないが、ファイルシステムにおけるファイルに対応することができる。プログラムは、例えば、マークアップ言語文書に記憶された1つまたは複数のスクリプトなど、他のプログラムもしくはデータを保持するファイルの一部に、問題のプログラムに専用の単一のファイルに、または例えば、1つまたは複数のモジュール、サブプログラム、またはコードの部分を記憶するファイルなどの複数の協調されるファイルに記憶することができる。コンピュータプログラムは展開されて、1つのサイトに位置する、または複数のサイトにわたって分散されてデータ通信ネットワークにより相互接続された、1つまたは複数のコンピュータで実行することができる。
【0079】
本明細書において、「データベース」という用語は、データの任意の収集されたものを指すために広く使用され、データは、何らかの特定の方法で構造化される必要はない、または全く構造化される必要がなく、それは、1つまたは複数の場所において記憶デバイスに記憶することができる。したがって、例えば、インデックスデータベースは、複数のデータ収集を含むことができ、そのそれぞれは、様々に編成され、かつアクセスされ得る。
【0080】
同様に、本明細書において、「エンジン」という用語は、1つまたは複数の特有の機能を実施するようにプログラムされたソフトウェアベースのシステム、サブシステム、またはプロセスを指すために広く使用される。概して、エンジンは、1つまたは複数の場所における1つまたは複数のコンピュータにインストールされる1つまたは複数のソフトウェアモジュールもしくは構成要素として実施されることになる。いくつかの場合、1つまたは複数のコンピュータは、特定のエンジンに専用のものとなり、他の場合には、複数のエンジンが、同じ1つまたは複数のコンピュータにインストールされ、かつ動作することができる。
【0081】
本明細書で述べられるプロセスおよび論理的な流れは、1つまたは複数のコンピュータプログラムを実行して、入力データに作用しかつ出力を生成することにより機能を実施させる、1つまたは複数のプログラム可能なコンピュータにより実施され得る。プロセスおよび論理的な流れはまた、例えば、FPGA、またはASICなどの専用の論理回路により、または専用の論理回路と1つまたは複数のプログラムされたコンピュータの組合せにより実施することができる。
【0082】
コンピュータプログラムの実行に適したコンピュータは、汎用もしくは専用のマイクロプロセッサまたはその両方、あるいは任意の他の種類の中央処理装置に基づくことができる。概して、中央処理装置は、読出し専用メモリもしくはランダムアクセスメモリ、またはその両方から命令およびデータを受け取ることができる。コンピュータの基本的な要素は、命令を実施もしくは実行するための中央処理装置と、命令およびデータを記憶するための1つまたは複数のメモリデバイスとである。中央処理装置およびメモリは、専用の論理回路により補われる、またはそれに組み込まれ得る。概して、コンピュータはまた、例えば、磁気、光磁気ディスク、または光ディスクなど、データを記憶するための1つまたは複数の大容量記憶デバイスを含む、または動作可能に結合されて、そこからデータを受け取る、もしくはそこにデータを送信する、またはその両方が行われる。しかし、コンピュータは、このようなデバイスを有する必要はない。さらに、コンピュータは、数例を挙げると、例えば、移動電話、携帯情報端末(PDA)、モバイルオーディオもしくはビデオプレーヤ、ゲーム機、全地球測位システム(GPS)受信器、または例えば、ユニバーサルシリアルバス(USB)フラッシュドライブなどの可搬型記憶デバイスなど、別のデバイスに組み込むことができる。
【0083】
コンピュータプログラム命令およびデータを記憶するために適したコンピュータ可読媒体は、例として、例えば、EPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイス、例えば、内蔵するハードディスクもしくは取外し可能なディスクなどの磁気ディスク、光磁気ディスク、およびCD ROM、DVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。
【0084】
ユーザとの対話を提供するために、本明細書で述べられる主題の実施形態は、情報をユーザに表示するための、例えば、CRT(陰極線管)またはLCD(液晶ディスプレイ)モニタなど表示デバイスと、ユーザが入力をコンピュータに提供できる、例えば、マウスもしくはトラックボールなどのキーボードおよび指示デバイスとを有するコンピュータで実施することができる。ユーザとの対話を提供するために、他の種類のデバイスもユーザとの対話を提供するために同様に使用することができ、例えば、ユーザに提供されるフィードバックは、例えば、視覚的なフィードバック、聴覚的なフィードバック、もしくは触覚的なフィードバックなどの任意の形態の感覚的なフィードバックとすることができ、またユーザからの入力は、音響、音声、または触覚的な入力を含む任意の形態で受け取ることができる。加えて、コンピュータは、例えば、ウェブブラウザから受信された要求に応じて、ユーザのデバイス上のウェブブラウザにウェブページを送ることによるなど、ユーザにより使用されるデバイスに文書を送り、かつそこから文書を受信することにより、ユーザと対話することができる。さらに、コンピュータは、例えば、メッセージアプリケーションを動作させているスマートフォンなどの個人デバイスに、テキストメッセージまたは他の形のメッセージを送り、返事としてユーザから応答メッセージを受信することにより、ユーザと対話することができる。
【0085】
機械学習モデルを実施するためのデータ処理装置はまた、例えば、機械学習訓練または作成の共通かつ計算が集中する部分、すなわち、推論、作業負荷を処理するための専用のハードウェアアクセラレータユニットを含むことができる。
【0086】
機械学習モデルは、例えば、TensorFlowフレームワーク、Microsoft Cognitive Toolkitフレームワーク、Apache Singaフレームワーク、またはApache MXNetフレームワークなど、機械学習フレームワークを用いて実施し、かつ展開することができる。
【0087】
本明細書で述べられる主題の諸実施形態は、例えば、データサーバとしてバックエンド構成要素を含む、または例えば、アプリケーションサーバなどのミドルウェア構成要素を含む、または例えば、グラフィカルユーザインターフェース、ウェブブラウザを有するクライアントコンピュータなどのフロントエンド構成要素を含む、またはユーザが本明細書で述べられた主題の実施形態と対話することのできるアプリを含む、または1つまたは複数のこのようなバックエンド、ミドルウェア、もしくはフロントエンドの構成要素の任意の組合せを含むコンピューティングシステムで実施することができる。システムの構成要素は、例えば、通信ネットワークなど、デジタルデータ通信の任意の形態または媒体により相互接続され得る。通信ネットワークの例は、ローカルエリアネットワーク(LAN)、および例えば、インターネットなどの広域ネットワーク(WAN)を含む。
【0088】
コンピューティングシステムは、クライアントおよびサーバを含むことができる。クライアントおよびサーバは、概して互いに遠隔にあり、通常、通信ネットワークを介して対話する。クライアントおよびサーバの関係は、各コンピュータで動作し、互いにクライアント/サーバの関係を有するコンピュータプログラムにより生ずる。いくつかの実施形態では、サーバは、例えば、クライアントとして働く、デバイスと対話するユーザにデータを表示し、かつそこからユーザ入力を受信するためになど、例えば、HTMLページなどのデータをユーザデバイスに送信する。例えば、ユーザ対話の結果、ユーザデバイスに生成されたデータは、サーバでデバイスから受信することができる。
【0089】
上記で述べた実施形態に加えて、以下の実施形態もまた革新的なものである。
【0090】
実施形態1は、オーディオサンプルのスペクトル表現を処理してオーディオサンプルの予測を生成するように構成された第1のニューラルネットワークを訓練する方法である、
ここにおいて、第1のニューラルネットワークが訓練された後、第1のニューラルネットワークは、第2のニューラルネットワークからオーディオサンプルのスペクトル表現を取得するように構成され、
ここにおいて、第2のニューラルネットワークは、テキスト入力を処理してテキスト入力の音声化の予測スペクトル表現を生成するように構成され、
方法は、
複数のオーディオサンプルを含む訓練データセットを取得するステップと、
訓練データセットにおける1つまたは複数のオーディオサンプルに対して、また任意選択で、訓練データセット内の各オーディオサンプルに対して、
オーディオサンプルの真値スペクトル表現を生成するステップ、および
第3のニューラルネットワークを用いてオーディオサンプルの真値スペクトル表現を処理して、オーディオサンプルの更新されたスペクトル表現を生成するステップ
を含み、さらに
更新されたスペクトル表現を用いて第1のニューラルネットワークを訓練するステップとを含み、
ここにおいて、第3のニューラルネットワークは、真値スペクトル表現を処理して、第2のニューラルネットワークにより生成されたスペクトル表現に類似した更新されたスペクトル表現を生成するように構成される(例えば、そのように訓練されている)。この実施形態では、第2のニューラルネットワークにより生成されたテキスト入力の音声化の予測スペクトル表現は、第1のニューラルネットワークにより処理されるオーディオサンプルのスペクトル表現として第1のニューラルネットワークに提供される、または提供され得る。
【0091】
実施形態2は、実施形態1の方法であり、ここにおいて、第3のニューラルネットワークは、
オーディオサンプルの真値スペクトル表現を取得するステップと、
エンコーダサブネットワークを用いて真値スペクトル表現を処理して、真値スペクトル表現の埋め込みを生成するステップと、
デコーダサブネットワークを用いて真値スペクトル表現の埋め込みを処理して、オーディオサンプルの更新されたスペクトル表現を生成するステップと
を含む動作を実施するように訓練されている、事前に訓練されたオートエンコーダニューラルネットワークである。代替的に、第3のニューラルネットワークは、i)テキスト入力の音声化を表すオーディオサンプルの真値スペクトル表現と、ii)テキスト入力の処理に応じて、スペクトル表現ニューラルネットワークにより生成される予測スペクトル表現とをそれぞれが含む、訓練例を用いて訓練されたものであり得る。このような第3のニューラルネットワークは、真値スペクトル表現を処理して、第2のニューラルネットワークにより生成されたスペクトル表現と類似した更新されたスペクトル表現を生成するように構成される。
【0092】
実施形態3は、実施形態1または2のいずれか一項の方法であり、第1のニューラルネットワークは、任意の音声を特徴付けるオーディオサンプルを生成するように構成される(例えば、そのように訓練されている)。
【0093】
実施形態4は、実施形態3の方法であり、第2のニューラルネットワークは、所定の音声セットに対応する予測スペクトル表現を生成するように構成される(例えば、そのように訓練されている)だけである。例えば、第2のニューラルネットワークは、所定の音声セットに対する訓練データを用いて、訓練されたものとすることができる。
【0094】
実施形態5は、実施形態1から4のいずれか一項の方法であり、第3のニューラルネットワークは、
i)訓練用オーディオサンプルの訓練用真値スペクトル表現と、ii)第2のニューラルネットワークにより生成された訓練用オーディオサンプルの訓練用予測スペクトル表現とをそれぞれが含む複数の訓練例を取得するステップと、
訓練例の1つまたは複数のものに対して、また任意選択で各訓練例に対して、
第3のニューラルネットワークを用いて、訓練用真値スペクトル表現を処理して、訓練用オーディオサンプルの訓練用更新スペクトル表現を生成するステップ、および
訓練用更新スペクトル表現と、訓練用予測スペクトル表現の間の誤差を決定するステップを含み、さらに
決定された誤差を用いて第3のニューラルネットワークに対するパラメータ更新を生成するステップと
を含む動作を実施することにより訓練されている。
【0095】
実施形態6は、実施形態1から5のいずれか一項の方法であり、
作成環境において、第3のニューラルネットワークを含むことなく、第1のニューラルネットワークおよび第2のニューラルネットワークを展開するステップをさらに含む。
【0096】
実施形態7は、実施形態1から5のいずれか一項の方法であり、
第3のニューラルネットワークを含むことなく、第1のニューラルネットワークおよび第2のニューラルネットワークを展開するステップをさらに含む。
【0097】
実施形態8は、実施形態1から7のいずれか一項であり、
第1のニューラルネットワークおよび第2のニューラルネットワークを一緒に訓練するステップと、
第3のニューラルネットワークにより生成された複数の更新されたスペクトル表現を用いて、第1のニューラルネットワークを微調整するステップと
をさらに含む。
【0098】
実施形態9は、実施形態1から7のいずれか一項の方法であり、更新されたスペクトル表現を用いて第1のニューラルネットワークを訓練するステップは、
第1のニューラルネットワークおよび第2のニューラルネットワークを一緒に訓練するステップと、
第3のニューラルネットワークにより生成された更新されたスペクトル表現を用いて、第1のニューラルネットワークを微調整するステップと
をさらに含む。
【0099】
実施形態10は、実施形態1から9のいずれか一項の方法を用いて訓練された第1のニューラルネットワークを用いてオーディオサンプルを生成する方法である。
【0100】
実施形態11は、実施形態10の方法であり、
音声合成推論システムとして、第3のニューラルネットワークを使用せずに、第1のニューラルネットワーク、および第2のニューラルネットワークを展開するステップをさらに含む。
【0101】
実施形態12は、実施形態10または11のいずれか一項の方法であり、
テキスト入力を音声合成推論システムに提供するステップと、
音声合成推論システムからの出力として、入力テキストに対応する音声の予測を表すオーディオサンプルを受け取るステップと
をさらに含む。
【0102】
実施形態13は、1つまたは複数のコンピュータと、1つまたは複数のコンピュータにより実行されたとき、1つまたは複数のコンピュータに、実施形態1から12のいずれか一項の方法を実施させる命令を記憶する1つまたは複数の記憶デバイスとを備えるシステムである。
【0103】
実施形態14は、1つまたは複数のコンピュータにより実行されたとき、1つまたは複数のコンピュータに、実施形態1から12のいずれか一項の動作を実施させる命令を記憶する1つまたは複数の非一時的なコンピュータ記憶媒体である。
【0104】
本明細書は、多くの特有の実施形態の細部を含むが、これらのものは、いずれかの発明の範囲に対する、または特許請求され得る範囲に対する限定として解釈されるべきではなく、特定の発明の特定の実施形態に特有であり得る特徴の説明であるとして解釈されるべきである。別々の実施形態の文脈において本明細書で述べられたいくつかの特徴はまた、単一の実施形態における組合せで実施することもできる。反対に、単一の実施形態の文脈で述べられた様々な特徴はまた、複数の実施形態で別々に、または任意の適切な下位の組合せで実施することが可能である。さらに、特徴は、いくつかの組合せで働くように上記で述べられ、かつそのように初期には請求されるかもしれないが、特許請求される組合せからの1つまたは複数の特徴は、いくつかの場合、その組合せから除くことができ、また特許請求される組合せは、下位の組合せ、または下位の組合せの変形形態を対象とすることができる。
【0105】
同様に、動作が、特定の順序で図面に示され、また特許請求の範囲に記載されているが、これは、このような動作が、望ましい結果を達成するために、示された特定の順序で、または連続する順序で実施されること、またはすべての示された動作が実施されることを必要としていると解釈されるべきではない。いくつかの状況では、多重タスキングおよび並列処理が有利であり得る。さらに、上記で述べられた実施形態において、様々なシステムモジュールおよび構成要素の分離は、すべての実施形態においてこのような分離を必要とするものと理解されるべきではなく、それは、述べられたプログラム構成要素およびシステムが、概して、単一のソフトウェア製品で共に一体化することができる、または複数のソフトウェア製品へとパッケージ化され得るものと理解すべきである。
【0106】
主題の特定の実施形態が述べられてきた。他の実施形態も添付の特許請求の範囲に含まれる。例えば、特許請求の範囲に記載されたアクションは、異なる順序で実施することができ、なお望ましい結果を達成することができる。一例では、添付図に示されたプロセスは、望ましい結果を達成するために、示された特定の順序、または連続する順序を必ずしも必要としない。いくつかの場合、多重タスキングおよび並列処理が有利であり得る。
【符号の説明】
【0107】
100 音声合成推論システム
102 条件付けテキスト入力
104 雑音入力
106 クラス
110 スペクトル表現ニューラルネットワーク
112 予測スペクトル表現
120 ボコーダニューラルネットワーク
122 オーディオサンプル
200 訓練システム
202 真値スペクトル表現
204 真値オーディオサンプル
210 摂動ニューラルネットワーク
212 摂動されたスペクトル表現
220 ボコーダニューラルネットワーク
222 オーディオサンプル
230 パラメータ更新システム
232 パラメータ更新
300 オートエンコーダニューラルネットワークシステム
302 真値スペクトル表現
310 エンコーダサブネットワーク
312 埋め込み
320 デコーダサブネットワーク
322 摂動されたスペクトル表現
図1
図2
図3
図4
【手続補正書】
【提出日】2023-11-13
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
オーディオサンプルのスペクトル表現を処理して前記オーディオサンプルの予測を生成するように、第1のニューラルネットワークを訓練するコンピュータ実装方法であって、
ここにおいて、前記第1のニューラルネットワークが訓練された後、前記第1のニューラルネットワークは、第2のニューラルネットワークから処理されるオーディオサンプルの前記スペクトル表現を取得するように構成され、
ここにおいて、前記第2のニューラルネットワークは、テキスト入力を処理して前記テキスト入力の音声化の予測スペクトル表現を生成するように構成され、
前記方法は、
複数のオーディオサンプルを含む訓練データセットを取得するステップと
前記訓練データセットにおける1つまたは複数のオーディオサンプルに対して、
前記オーディオサンプルの真値スペクトル表現を生成するステップ、および
第3のニューラルネットワークを用いて前記オーディオサンプルの前記真値スペクトル表現を処理して、前記オーディオサンプルの更新されたスペクトル表現を生成するステップを含み、さらに
前記更新されたスペクトル表現を用いて前記第1のニューラルネットワークを訓練するステップとを含み、
ここにおいて、前記第3のニューラルネットワークは、真値スペクトル表現を処理して、前記第2のニューラルネットワークにより生成されたスペクトル表現に類似した更新されたスペクトル表現を生成するように構成される、方法。
【請求項2】
前記第3のニューラルネットワークは、
入力オーディオサンプルの前記真値スペクトル表現を取得するステップと、
エンコーダサブネットワークを用いて前記真値スペクトル表現を処理して、前記真値スペクトル表現の埋め込みを生成するステップと、
デコーダサブネットワークを用いて前記真値スペクトル表現の埋め込みを処理して、前記入力オーディオサンプルの前記更新されたスペクトル表現を生成するステップと
を含む動作を実施するように訓練されている、事前に訓練されたオートエンコーダニューラルネットワークである、請求項1に記載の方法。
【請求項3】
前記第3のニューラルネットワークは、i)特定のテキストの音声化を表す入力オーディオサンプルの前記真値スペクトル表現と、ii)前記特定のテキスト入力を処理することに応じて、前記第2のニューラルネットワークにより生成される予測スペクトル表現とを、それぞれが含む訓練例を用いて訓練されている、請求項1または2記載の方法。
【請求項4】
前記第1のニューラルネットワークは、任意の音声を特徴付けるオーディオサンプルを生成するように構成される、請求項1から3のいずれか一項に記載の方法。
【請求項5】
前記第2のニューラルネットワークは、所定の音声セットに対応する予測スペクトル表現を生成するように構成されているに過ぎない、請求項4に記載の方法。
【請求項6】
前記第3のニューラルネットワークは、
i)訓練用オーディオサンプルの訓練用真値スペクトル表現と、ii)前記第2のニューラルネットワークにより生成された前記訓練用オーディオサンプルの訓練用予測スペクトル表現とを、それぞれが含む複数の訓練例を取得するステップと、
前記複数の訓練例の1つまたは複数のものに対して、
前記第3のニューラルネットワークを用いて、前記訓練用真値スペクトル表現を処理して、前記訓練用オーディオサンプルの訓練用更新スペクトル表現を生成するステップ、および
前記訓練用更新スペクトル表現と、前記訓練用予測スペクトル表現との間の誤差を決定するステップを含み、さらに
前記決定された誤差を用いて前記第3のニューラルネットワークに対するパラメータ更新を生成するステップと
を含む動作を実施することにより訓練されている、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記更新されたスペクトル表現を用いて前記第1のニューラルネットワークを訓練する前記ステップは、
前記第1のニューラルネットワークおよび前記第2のニューラルネットワークを一緒に訓練するステップと、
前記第3のニューラルネットワークにより生成された前記更新されたスペクトル表現を用いて、前記第1のニューラルネットワークを微調整するステップと
を含む、請求項1から6のいずれか一項に記載の方法。
【請求項8】
請求項1から7のいずれか一項に記載の方法を用いて訓練された第1のニューラルネットワークを用いてオーディオサンプルを生成する方法。
【請求項9】
音声合成推論システムとして、前記第3のニューラルネットワークを使用せずに、前記第1のニューラルネットワーク、および前記第2のニューラルネットワークを展開するステップ
をさらに含む、請求項8に記載の方法。
【請求項10】
新しいテキスト入力を、前記音声合成推論システムに提供するステップと、
前記音声合成推論システムからの出力として、前記新しいテキスト入力に対応する音声の予測を表すオーディオサンプルを受け取るステップと
をさらに含む、請求項9に記載の方法。
【請求項11】
1つまたは複数のコンピュータと、前記1つまたは複数のコンピュータにより実行されたとき、前記1つまたは複数のコンピュータに、請求項1から10のいずれか一項に記載の方法を実施させる命令を記憶する1つまたは複数の記憶デバイスとを備えるシステム。
【請求項12】
1つまたは複数のコンピュータにより実行されたとき、前記1つまたは複数のコンピュータに、請求項1から10のいずれか一項に記載の動作を実施させる命令を記憶する1つまたは複数のコンピュータ可読記憶媒体。
【国際調査報告】