(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-08-16
(45)【発行日】2024-08-26
(54)【発明の名称】声変換および音声認識モデルを使用した合成データ拡大
(51)【国際特許分類】
G10L 21/007 20130101AFI20240819BHJP
G10L 15/06 20130101ALI20240819BHJP
G10L 25/30 20130101ALI20240819BHJP
【FI】
G10L21/007
G10L15/06 300Y
G10L25/30
(21)【出願番号】P 2023514096
(86)(22)【出願日】2021-08-19
(86)【国際出願番号】 US2021046781
(87)【国際公開番号】W WO2022046526
(87)【国際公開日】2022-03-03
【審査請求日】2023-04-26
(32)【優先日】2020-08-31
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ファディ・ビァドシー
(72)【発明者】
【氏名】リヤン・ジアン
(72)【発明者】
【氏名】ペドロ・ジェイ・モレーノ・メンギバル
(72)【発明者】
【氏名】アンドリュー・ローゼンバーグ
【審査官】中村 天真
(56)【参考文献】
【文献】高島悠樹ほか,End-to-end構音障害者音声認識のための複数データベースを用いたデータ拡張,電子情報通信学会技術研究報告,2019年03月07日,第118巻,第496号,p.335-340
【文献】荒川陸ほか,リアルタイムDNN音声変換の実装とデータ拡張法による音質改善法,日本音響学会講演論文集,2019年02月19日,p.1023-1026
【文献】Jason Li et al.,Training Neural Speech Recognition Systems with Synthetic Speech Augmentation,[online],2018年11月02日,[2023.08.23検索],インターネット<URL: https://arxiv.org/pdf/1811.00707.pdf>
【文献】上乃聖ほか,多数話者コーパスを用いたEnd-to-End音声合成による単語単位End-to-End音声認識のデータ拡張,日本音響学会講演論文集,2019年02月19日,p.865-866
【文献】山崎大河ほか,感情表現が可能なEnd-to-End日本語音声合成システムの構築,日本音響学会講演論文集,2020年08月26日,p.859-862
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-25/93
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
音声変換モデルをトレーニングする方法であって、
データ処理ハードウェアによって、複数のトレーニングテキスト発話を取得するステップであって、
前記複数のトレーニングテキスト発話の第1の部分が、口頭トレーニング発話のセットにおける複数の転写を備え、各口頭トレーニング発話が、非定型音声に関連付けられたターゲット話者によって話され、対応する前記口頭トレーニング発話の対応する非合成音声表現とペアにされた対応する転写を備え、
前記複数のトレーニングテキスト発話の第2の部分が、それにおいて前記音声変換モデルが学習するようにトレーニングされる特定の領域に関係する、複数の非口頭のトレーニングテキスト発話を備え、各非口頭のトレーニングテキスト発話が、いかなる対応する口頭発話ともペアにされない、ステップと、
前記データ処理ハードウェアによって、前記口頭トレーニング発話のセットを使用して、前記ターゲット話者の声における、かつ前記ターゲット話者に関連付けられた前記非定型音声をキャプチャする音声を合成するように、テキスト音声(TTS)モデルを適合させるステップと、
前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記データ処理ハードウェアによって、前記適合されたTTSモデルからの出力として、前記対応する非口頭のトレーニングテキスト発話の合成音声表現を生成するステップであって、前記合成音声表現が、前記ターゲット話者の前記声を備え、前記ターゲット話者に関連付けられた前記非定型音声をキャプチャする、ステップと、
前記データ処理ハードウェアによって、前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記適合されたTTSモデルによって生成された前記合成音声表現に基づいて、前記音声変換モデルをトレーニングするステップと
を含み、
前記音声変換モデルが、入力発話のオーディオ波形を、対応する出力オーディオ波形に直接変換するように構成された、エンドツーエンドニューラルネットワークを備える、方法。
【請求項2】
音声変換モデルをトレーニングする方法であって、
データ処理ハードウェアによって、複数のトレーニングテキスト発話を取得するステップであって、
前記複数のトレーニングテキスト発話の第1の部分が、口頭トレーニング発話のセットにおける複数の転写を備え、各口頭トレーニング発話が、非定型音声に関連付けられたターゲット話者によって話され、対応する前記口頭トレーニング発話の対応する非合成音声表現とペアにされた対応する転写を備え、
前記複数のトレーニングテキスト発話の第2の部分が、それにおいて前記音声変換モデルが学習するようにトレーニングされる特定の領域に関係する、複数の非口頭のトレーニングテキスト発話を備え、各非口頭のトレーニングテキスト発話が、いかなる対応する口頭発話ともペアにされない、ステップと、
前記データ処理ハードウェアによって、前記口頭トレーニング発話のセットを使用して、前記ターゲット話者の声における、かつ前記ターゲット話者に関連付けられた前記非定型音声をキャプチャする音声を合成するように、テキスト音声(TTS)モデルを適合させるステップと、
前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記データ処理ハードウェアによって、前記適合されたTTSモデルからの出力として、前記対応する非口頭のトレーニングテキスト発話の合成音声表現を生成するステップであって、前記合成音声表現が、前記ターゲット話者の前記声を備え、前記ターゲット話者に関連付けられた前記非定型音声をキャプチャする、ステップと、
前記データ処理ハードウェアによって、前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記適合されたTTSモデルによって生成された前記合成音声表現に基づいて、前記音声変換モデルをトレーニングするステップと
を含み、
前記方法が、
前記適合されたTTSモデルによって生成された各合成音声表現について、
前記データ処理ハードウェアによって、前記音声変換モデルからの出力として、前記ターゲット話者の前記声における、合成された標準的な流暢な音声の対応するオーディオ波形を生成するステップと、
前記データ処理ハードウェアによって、テキストデコーダからの出力として、前記音声変換モデルからの出力として生成された前記合成された標準的な流暢な音声の対応するオーディオ波形のためのテキスト表現を生成するステップと、
前記データ処理ハードウェアによって、前記合成された標準的な流暢な音声の対応するオーディオ波形のために前記テキストデコーダからの出力として生成された前記テキスト表現と、前記対応する非口頭のトレーニングテキスト発話とに基づいて、前記対応する合成音声表現に関連付けられた単語誤り率損失を決定するステップと、
前記データ処理ハードウェアによって、単語誤り率損失しきい値を満たす単語誤り率損失を有する、前記音声変換モデルからの出力として生成された前記合成音声表現のそれぞれに各々対応する、合成音声表現のフィルタ処理されたセットを識別するステップと
をさらに含み、
前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記適合されたTTSモデルによって生成された前記合成音声表現に基づいて、前記音声変換モデルをトレーニングするステップが、前記合成音声表現のフィルタ処理されたセットにおいて前記音声変換モデルをトレーニングし、前記単語誤り率損失しきい値を満たさない単語誤り率損失を有する、前記音声変換モデルからの出力として生成された前記合成音声表現のいずれにおいても、前記音声変換モデルをトレーニングしないステップを含む、方法。
【請求項3】
前記方法が、前記ターゲット話者に関連付けられた前記非定型音声と同じタイプの非定型音声を有する話者によって話された入力発話のオーディオ波形を変換するように、前記音声変換モデルが前にトレーニングされていないとき、
前記データ処理ハードウェアによって、前記口頭トレーニング発話のセットを使用して、非定型音声をもつ前記ターゲット話者によって話された入力発話のオーディオ波形を、合成された標準的な流暢な音声のオーディオ波形に変換するように、前記音声変換モデルを適合させるステップ
をさらに含み、
前記合成された標準的な流暢な音声の対応するオーディオ波形を生成するステップが、前記適合された音声変換モデルからの出力として、前記ターゲット話者の前記声における、前記合成された標準的な流暢な音声の対応するオーディオ波形を生成するステップを含む、請求項2に記載の方法。
【請求項4】
前記テキストデコーダが、前記音声変換モデル上に存在する、請求項2に記載の方法。
【請求項5】
前記テキストデコーダが、前記音声変換モデルとは別個の参照自動音声認識モデル上に存在する、請求項2に記載の方法。
【請求項6】
前記音声変換モデルをトレーニングした後、
前記データ処理ハードウェアにおいて、非定型音声に関連付けられた前記ターゲット話者によって話された発話に対応する入力オーディオ波形を受信するステップと、
前記データ処理ハードウェアによって、前記トレーニングされた音声変換モデルを使用して、非定型音声に関連付けられた前記ターゲット話者によって話された前記発話に対応する前記入力オーディオ波形を、前記ターゲット話者によって話された前記発話の合成された標準的な流暢な音声表現に対応する出力オーディオ波形に変換するステップと
をさらに含む、請求項1に記載の方法。
【請求項7】
前記音声変換モデルが、音声を対応するテキスト
表現に変換するように構成された、自動音声認識モデルを備える、請求項1または2に記載の方法。
【請求項8】
前記音声変換モデルをトレーニングした後、
前記データ処理ハードウェアにおいて、非定型音声に関連付けられた前記ターゲット話者によって話された発話に対応するオーディオデータを受信するステップと、
前記データ処理ハードウェアによって、前記トレーニングされた音声変換モデルを使用して、非定型音声に関連付けられた前記ターゲット話者によって話された前記発話に対応する前記オーディオデータを、前記ターゲット話者によって話された前記発話の標準的なテキスト表現に変換するステップと
をさらに含む、請求項7に記載の方法。
【請求項9】
前記複数のトレーニングテキスト発話の前記第2の部分における、前記複数の非口頭のトレーニングテキスト発話の少なくとも一部分が、前記特定の領域に関係する特有の句をターゲットにする手動で書かれたテキストを備える、請求項1または2に記載の方法。
【請求項10】
前記方法が、前記データ処理ハードウェアによって、前記複数のトレーニングテキスト発話の前記第2の部分における、前記非口頭のトレーニングテキスト発話を取得するために、非口頭のテキスト選択プロセスを実行するステップをさらに含み、前記テキスト選択プロセスが、
非口頭のテキスト発話のコーパスを取得すること、
前記非口頭のテキスト発話のコーパスにおける各非口頭のテキスト発話について、
前記非口頭のテキスト発話が領域固有言語モデルにおいて現れることに関連付けられた第1の確率を決定すること、
前記非口頭のテキスト発話が背景言語モデルにおいて現れることに関連付けられた第2の確率を決定することであって、前記背景言語モデルが、前記非口頭のテキスト発話のコーパスにおけるあらゆる非口頭のテキスト発話においてトレーニングされる、こと、および
前記第1の確率と、前記第2の確率と、前記対応する非口頭のテキスト発話において現れる単語の数とに基づいて、スコアを決定すること、ならびに
前記複数のトレーニングテキスト発話の前記第2の部分における、前記非口頭のトレーニングテキスト発話として、Nベストスコアを有する、前記非口頭のテキスト発話のコーパスにおける前記非口頭のテキスト発話を選択すること
を行うように構成される、請求項1または2に記載の方法。
【請求項11】
前記TTSモデルが、エンコーダ部分およびデコーダ部分を備える、事前トレーニングされた参照TTSモデルを備え、
前記TTSモデルを適合させるステップが、前記エンコーダ部分のパラメータが固定されたままである間に、前記デコーダ部分のパラメータを調整することによって、前記事前トレーニングされた参照TTSモデルを適合させるステップを含む、請求項1または2に記載の方法。
【請求項12】
システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信しているメモリハードウェアとを備え、前記メモリハードウェアが、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに動作を実行させる命令を記憶し、前記動作が、
複数のトレーニングテキスト発話を取得することであって、
前記複数のトレーニングテキスト発話の第1の部分が、口頭トレーニング発話のセットにおける複数の転写を備え、各口頭トレーニング発話が、非定型音声に関連付けられたターゲット話者によって話され、対応する前記口頭トレーニング発話の対応する非合成音声表現とペアにされた対応する転写を備え、
前記複数のトレーニングテキスト発話の第2の部分が、それにおいて音声変換モデルが学習するようにトレーニングされる特定の領域に関係する、複数の非口頭のトレーニングテキスト発話を備え、各非口頭のトレーニングテキスト発話が、いかなる対応する口頭発話ともペアにされない、こと、
前記口頭トレーニング発話のセットを使用して、前記ターゲット話者の声における、かつ前記ターゲット話者に関連付けられた前記非定型音声をキャプチャする音声を合成するように、テキスト音声(TTS)モデルを適合させること、
前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記適合されたTTSモデルからの出力として、前記対応する非口頭のトレーニングテキスト発話の合成音声表現を生成することであって、前記合成音声表現が、前記ターゲット話者の前記声を備え、前記ターゲット話者に関連付けられた前記非定型音声をキャプチャする、こと、および
前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記適合されたTTSモデルによって生成された前記合成音声表現に基づいて、前記音声変換モデルをトレーニングすることを含み、
前記音声変換モデルが、入力発話のオーディオ波形を、対応する出力オーディオ波形に直接変換するように構成された、エンドツーエンドニューラルネットワークを備える、システム。
【請求項13】
システムであって、
データ処理ハードウェアと、
前記データ処理ハードウェアと通信しているメモリハードウェアとを備え、前記メモリハードウェアが、前記データ処理ハードウェア上で実行されると、前記データ処理ハードウェアに動作を実行させる命令を記憶し、前記動作が、
複数のトレーニングテキスト発話を取得することであって、
前記複数のトレーニングテキスト発話の第1の部分が、口頭トレーニング発話のセットにおける複数の転写を備え、各口頭トレーニング発話が、非定型音声に関連付けられたターゲット話者によって話され、対応する前記口頭トレーニング発話の対応する非合成音声表現とペアにされた対応する転写を備え、
前記複数のトレーニングテキスト発話の第2の部分が、それにおいて音声変換モデルが学習するようにトレーニングされる特定の領域に関係する、複数の非口頭のトレーニングテキスト発話を備え、各非口頭のトレーニングテキスト発話が、いかなる対応する口頭発話ともペアにされない、こと、
前記口頭トレーニング発話のセットを使用して、前記ターゲット話者の声における、かつ前記ターゲット話者に関連付けられた前記非定型音声をキャプチャする音声を合成するように、テキスト音声(TTS)モデルを適合させること、
前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記適合されたTTSモデルからの出力として、前記対応する非口頭のトレーニングテキスト発話の合成音声表現を生成することであって、前記合成音声表現が、前記ターゲット話者の前記声を備え、前記ターゲット話者に関連付けられた前記非定型音声をキャプチャする、こと、および
前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記適合されたTTSモデルによって生成された前記合成音声表現に基づいて、前記音声変換モデルをトレーニングすることを含み、
前記動作が、
前記適合されたTTSモデルによって生成された各合成音声表現について、
前記音声変換モデルからの出力として、前記ターゲット話者の前記声における、合成された標準的な流暢な音声の対応するオーディオ波形を生成すること、
テキストデコーダからの出力として、前記音声変換モデルからの出力として生成された前記合成された標準的な流暢な音声の対応するオーディオ波形のためのテキスト表現を生成すること、および
前記合成された標準的な流暢な音声の対応するオーディオ波形のために前記テキストデコーダからの出力として生成された前記テキスト表現と、前記対応する非口頭のトレーニングテキスト発話とに基づいて、前記対応する合成音声表現に関連付けられた単語誤り率損失を決定すること、ならびに
単語誤り率損失しきい値を満たす単語誤り率損失を有する、前記音声変換モデルからの出力として生成された前記合成音声表現のそれぞれに各々対応する、合成音声表現のフィルタ処理されたセットを識別することをさらに含み、
前記複数の非口頭のトレーニングテキスト発話のうちの各非口頭のトレーニングテキスト発話について、前記適合されたTTSモデルによって生成された前記合成音声表現に基づいて、前記音声変換モデルをトレーニングすることが、前記合成音声表現のフィルタ処理されたセットにおいて前記音声変換モデルをトレーニングし、前記単語誤り率損失しきい値を満たさない単語誤り率損失を有する、前記音声変換モデルからの出力として生成された前記合成音声表現のいずれにおいても、前記音声変換モデルをトレーニングしないことを含む、システム。
【請求項14】
前記動作が、前記ターゲット話者に関連付けられた前記非定型音声と同じタイプの非定型音声を有する話者によって話された入力発話のオーディオ波形を変換するように、前記音声変換モデルが前にトレーニングされていないとき、
前記口頭トレーニング発話のセットを使用して、非定型音声をもつ前記ターゲット話者によって話された入力発話のオーディオ波形を、合成された標準的な流暢な音声のオーディオ波形に変換するように、前記音声変換モデルを適合させること
をさらに含み、
前記合成された標準的な流暢な音声の対応するオーディオ波形を生成することが、前記適合された音声変換モデルからの出力として、前記ターゲット話者の前記声における、前記合成された標準的な流暢な音声の対応するオーディオ波形を生成することを含む、請求項13に記載のシステム。
【請求項15】
前記テキストデコーダが、前記音声変換モデル上に存在する、請求項13に記載のシステム。
【請求項16】
前記テキストデコーダが、前記音声変換モデルとは別個の参照自動音声認識モデル上に存在する、請求項13に記載のシステム。
【請求項17】
前記動作が、前記音声変換モデルをトレーニングした後、
非定型音声に関連付けられた前記ターゲット話者によって話された発話に対応する入力オーディオ波形を受信すること、および
前記トレーニングされた音声変換モデルを使用して、非定型音声に関連付けられた前記ターゲット話者によって話された前記発話に対応する前記入力オーディオ波形を、前記ターゲット話者によって話された前記発話の合成された標準的な流暢な音声表現に対応する出力オーディオ波形に変換すること
をさらに含む、請求項12に記載のシステム。
【請求項18】
前記音声変換モデルが、音声を対応するテキスト
表現に変換するように構成された、自動音声認識モデルを備える、請求項12または13に記載のシステム。
【請求項19】
前記動作が、前記音声変換モデルをトレーニングした後、
非定型音声に関連付けられた前記ターゲット話者によって話された発話に対応するオーディオデータを受信すること、および
前記トレーニングされた音声変換モデルを使用して、非定型音声に関連付けられた前記ターゲット話者によって話された前記発話に対応する前記オーディオデータを、前記ターゲット話者によって話された前記発話の標準的なテキスト表現に変換すること
をさらに含む、請求項18に記載のシステム。
【請求項20】
前記複数のトレーニングテキスト発話の前記第2の部分における、前記複数の非口頭のトレーニングテキスト発話の少なくとも一部分が、前記特定の領域に関係する特有の句をターゲットにする手動で書かれたテキストを備える、請求項12または13に記載のシステム。
【請求項21】
前記動作が、前記複数のトレーニングテキスト発話の前記第2の部分における、前記非口頭のトレーニングテキスト発話を取得するために、非口頭のテキスト選択プロセスを実行することをさらに含み、前記テキスト選択プロセスが、
非口頭のテキスト発話のコーパスを取得すること、
前記非口頭のテキスト発話のコーパスにおける各非口頭のテキスト発話について、
前記非口頭のテキスト発話が領域固有言語モデルにおいて現れることに関連付けられた第1の確率を決定すること、
前記非口頭のテキスト発話が背景言語モデルにおいて現れることに関連付けられた第2の確率を決定することであって、前記背景言語モデルが、前記非口頭のテキスト発話のコーパスにおけるあらゆる非口頭のテキスト発話においてトレーニングされる、こと、および
前記第1の確率と、前記第2の確率と、前記対応する非口頭のテキスト発話において現れる単語の数とに基づいて、スコアを決定すること、ならびに
前記複数のトレーニングテキスト発話の前記第2の部分における、前記非口頭のトレーニングテキスト発話として、Nベストスコアを有する、前記非口頭のテキスト発話のコーパスにおける前記非口頭のテキスト発話を選択すること
を行うように構成される、請求項12または13に記載のシステム。
【請求項22】
前記TTSモデルが、エンコーダ部分およびデコーダ部分を備える、事前トレーニングされた参照TTSモデルを備え、
前記TTSモデルを適合させることが、前記エンコーダ部分のパラメータが固定されたままである間に、前記デコーダ部分のパラメータを調整することによって、前記事前トレーニングされた参照TTSモデルを適合させることを含む、請求項12または13に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、声変換および音声認識モデルを使用した合成データ拡大に関する。
【背景技術】
【0002】
自動音声認識(ASR)は、オーディオ入力を取り、オーディオ入力をテキストに転写するプロセスであり、モバイルデバイスおよび他のデバイスにおいて使用される非常に重要な技術となっている。一般に、自動音声認識は、オーディオ入力(たとえば、音声発話)を取ること、およびオーディオ入力をテキストに転写することによって、人物が言ったことの正確な転写を提供しようと試みる。
【0003】
深層学習ベースの音声変換モデルおよびASRモデルの開発における1つの課題は、これらのモデルのパラメータがトレーニングデータに過度に適合する傾向があり、それによって、トレーニングデータが充分に広範でないとき、見えないデータを一般化することが困難になることである。より大きいトレーニングデータセット上で音声変換モデルおよびASRモデルをトレーニングすることによって、精度が向上するが、これらのモデルによって許容範囲内の精度を達成するために、非定型音声パターンをもつ話者によって話される(すなわち、音響多様性(acoustic diversity))、特定の領域をターゲットにする(すなわち、言語多様性)発話を含む、十分なトレーニングデータが欠如している。
【先行技術文献】
【特許文献】
【0004】
【非特許文献】
【0005】
【文献】https://arxiv.org/pdf/1904.04169.pdfにおいて利用可能な、Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separation
【発明の概要】
【課題を解決するための手段】
【0006】
本開示の一態様は、非定型音声に関連付けられたターゲット話者のために個別化された音声変換モデルをトレーニングするための方法を提供する。方法は、データ処理ハードウェアによって、複数のトレーニングテキスト発話を取得するステップを含む。複数のトレーニングテキスト発話の第1の部分は、口頭トレーニング発話のセットにおける複数の転写を含む。各口頭トレーニング発話は、非定型音声に関連付けられたターゲット話者によって話され、対応する口頭トレーニング発話の対応する非合成音声表現とペアにされた対応する転写を含む。複数のトレーニングテキスト発話の第2の部分は、それにおいて音声変換モデルが学習するようにトレーニングされる特定の領域に関係する、複数の非口頭トレーニングテキスト発話を含む。各非口頭トレーニングテキスト発話は、いかなる対応する口頭発話ともペアにされない。方法はまた、データ処理ハードウェアによって、口頭トレーニング発話のセットを使用して、ターゲット話者の声における、かつターゲット話者に関連付けられた非定型音声をキャプチャする音声を合成するように、テキスト音声(TTS)モデルを適合させるステップも含む。複数の非口頭トレーニングテキスト発話のうちの各非口頭トレーニングテキスト発話について、方法は、データ処理ハードウェアによって、適合されたTTSモデルからの出力として、対応する非口頭トレーニングテキスト発話の合成音声表現を生成するステップを含む。合成音声表現は、ターゲット話者の声を含み、ターゲット話者に関連付けられた非定型音声をキャプチャする。方法はまた、データ処理ハードウェアによって、複数の非口頭トレーニングテキスト発話のうちの各非口頭トレーニングテキスト発話について、適合されたTTSモデルによって生成された合成音声表現に基づいて、音声変換モデルをトレーニングするステップも含む。
【0007】
本開示の実装形態は、以下の随意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、適合されたTTSモデルによって生成された各合成音声表現について、方法は、データ処理ハードウェアによって、音声変換モデルからの出力として、ターゲット話者の声における、合成された標準的な流暢な音声の対応するオーディオ波形を生成するステップと、データ処理ハードウェアによって、テキストデコーダからの出力として、音声変換モデルからの出力として生成された合成された標準的な流暢な音声の対応するオーディオ波形のためのテキスト表現を生成するステップと、データ処理ハードウェアによって、対応する合成音声表現に関連付けられた単語誤り率損失(word error rate loss)を決定するステップとをさらに含む。単語誤り率損失は、合成された標準的な流暢な音声の対応するオーディオ波形と、対応する非口頭トレーニングテキスト発話とについて、テキストデコーダからの出力として生成されたテキスト表現に基づく。これらの実装形態では、方法はまた、データ処理ハードウェアによって、合成音声表現のフィルタ処理されたセットを識別するステップも含む。フィルタ処理されたセットにおける各合成音声表現は、単語誤り率損失しきい値を満たす単語誤り率損失を有する、音声変換モデルからの出力として生成された合成音声表現のそれぞれに対応する。これらの実装形態では、複数の非口頭テキスト発話のうちの各非口頭テキスト発話について、適合されたTTSモデルによって生成された合成音声表現に基づいて、音声変換モデルをトレーニングするステップは、合成音声表現のフィルタ処理されたセットにおいて音声変換モデルをトレーニングするステップを含む。音声変換モデルは、単語誤り率損失しきい値を満たさない単語誤り率損失を有する、音声変換モデルからの出力として生成された合成音声表現のいずれにおいても、トレーニングしない。
【0008】
いくつかの例では、方法は、ターゲット話者に関連付けられた非定型音声と同じタイプの非定型音声を有する話者によって話された入力発話のオーディオ波形を変換するように、音声変換モデルが前にトレーニングされていないとき、データ処理ハードウェアによって、口頭トレーニング発話のセットを使用して、非定型音声をもつターゲット話者によって話された入力発話のオーディオ波形を、合成された標準的な流暢な音声のオーディオ波形に変換するように、音声変換モデルを適合させるステップをさらに含む。ここで、合成された標準的な流暢な音声の対応するオーディオ波形を生成するステップは、適合された音声変換モデルからの出力として、ターゲット話者の声における、合成された標準的な流暢な音声の対応するオーディオ波形を生成するステップを含む。いくつかの例では、テキストデコーダは、音声変換モデル上に存在する。他の例では、テキストデコーダは、音声変換モデルとは別個の参照自動音声認識モデル上に存在する。
【0009】
いくつかの実装形態では、音声変換モデルは、入力オーディオ波形を、対応する出力オーディオ波形に直接変換するように構成された、エンドツーエンドニューラルネットワークを含む。これらの実装形態では、音声変換モデルをトレーニングした後、方法はまた、データ処理ハードウェアにおいて、非定型音声に関連付けられたターゲット話者によって話された発話に対応する入力オーディオ波形を受信するステップと、データ処理ハードウェアによって、トレーニングされた音声変換モデルを使用して、非定型音声に関連付けられたターゲット話者によって話された発話に対応する入力オーディオ波形を、ターゲット話者によって話された発話の合成された標準的な流暢な音声表現に対応する出力オーディオ波形に変換するステップとを含み得る。
【0010】
他の実装形態では、音声変換モデルは、音声を対応するテキストに変換するように構成された、自動音声認識モデルを含む。これらの実装形態では、音声変換モデルをトレーニングした後、方法はまた、データ処理ハードウェアによって、非定型音声に関連付けられたターゲット話者によって話された発話に対応するオーディオデータを受信するステップと、データ処理ハードウェアによって、トレーニングされた音声変換モデルを使用して、非定型音声に関連付けられたターゲット話者によって話された発話に対応するオーディオデータを、ターゲット話者によって話された発話の標準的なテキスト表現に変換するステップとを含み得る。
【0011】
複数のトレーニングテキスト発話の第2の部分における、複数の非口頭トレーニングテキスト発話の少なくとも一部分は、特定の領域に関係する特有の句をターゲットにする手動で書かれたテキストを含み得る。随意に、方法は、データ処理ハードウェアによって、複数のトレーニングテキスト発話の第2の部分における、非口頭トレーニングテキスト発話を取得するために、非口頭テキスト選択プロセスを実行するステップを含み得る。テキスト選択プロセスは、非口頭テキスト発話のコーパスを取得するように構成される。非口頭テキスト発話のコーパスにおける各非口頭テキスト発話について、テキスト選択プロセスは、非口頭テキスト発話が領域固有言語モデルにおいて現れることに関連付けられた第1の確率を決定すること、および、非口頭テキスト発話が背景言語モデルにおいて現れることに関連付けられた第2の確率を決定することを行うように構成される。背景言語モデルは、非口頭テキスト発話のコーパスにおけるあらゆる非口頭テキスト発話においてトレーニングされる。非口頭テキスト発話のコーパスにおける各非口頭テキスト発話について、テキスト選択プロセスはまた、第1の確率と、第2の確率と、対応する非口頭テキスト発話において現れる単語の数とに基づいて、スコアを決定するように構成される。最後に、テキスト選択プロセスは、複数のトレーニングテキスト発話の第2の部分における、非口頭トレーニングテキスト発話として、Nベストスコアを有する、非口頭テキスト発話のコーパスにおける非口頭テキスト発話を選択するように構成される。
【0012】
いくつかの実装形態では、TTSモデルは、エンコーダ部分およびデコーダ部分を含む、事前トレーニングされた参照TTSモデルを含む。これらの実装形態では、TTSモデルを適合させるステップは、エンコーダ部分のパラメータが固定されたままである間に、デコーダ部分のパラメータを調整することによって、事前トレーニングされた参照TTSモデルを適合させるステップを含む。
【0013】
本開示の別の態様は、非定型音声に関連付けられたターゲット話者のために個別化された音声変換モデルをトレーニングするためのシステムを提供する。システムは、データ処理ハードウェアと、データ処理ハードウェアと通信しているメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を記憶する。動作は、複数のトレーニングテキスト発話を取得することを含む。複数のトレーニングテキスト発話の第1の部分は、口頭トレーニング発話のセットにおける複数の転写を含む。各口頭トレーニング発話は、非定型音声に関連付けられたターゲット話者によって話され、対応する口頭トレーニング発話の対応する非合成音声表現とペアにされた対応する転写を含む。複数のトレーニングテキスト発話の第2の部分は、それにおいて音声変換モデルが学習するようにトレーニングされる特定の領域に関係する、複数の非口頭トレーニングテキスト発話を含む。各非口頭トレーニングテキスト発話は、いかなる対応する口頭発話ともペアにされない。動作はまた、口頭トレーニング発話のセットを使用して、ターゲット話者の声における、かつターゲット話者に関連付けられた非定型音声をキャプチャする音声を合成するように、テキスト音声(TTS)モデルを適合させることも含む。複数の非口頭トレーニングテキスト発話のうちの各非口頭トレーニングテキスト発話について、動作は、適合されたTTSモデルからの出力として、対応する非口頭トレーニングテキスト発話の合成音声表現を生成することを含む。合成音声表現は、ターゲット話者の声を含み、ターゲット話者に関連付けられた非定型音声をキャプチャする。動作はまた、複数の非口頭トレーニングテキスト発話のうちの各非口頭トレーニングテキスト発話について、適合されたTTSモデルによって生成された合成音声表現に基づいて、音声変換モデルをトレーニングすることも含む。
【0014】
本開示の実装形態は、以下の随意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、適合されたTTSモデルによって生成された各合成音声表現について、動作は、音声変換モデルからの出力として、ターゲット話者の声における、合成された標準的な流暢な音声の対応するオーディオ波形を生成すること、テキストデコーダからの出力として、音声変換モデルからの出力として生成された合成された標準的な流暢な音声の対応するオーディオ波形のためのテキスト表現を生成すること、および、対応する合成音声表現に関連付けられた単語誤り率損失を決定することをさらに含む。単語誤り率損失は、合成された標準的な流暢な音声の対応するオーディオ波形と、対応する非口頭トレーニングテキスト発話とについて、テキストデコーダからの出力として生成されたテキスト表現に基づく。これらの実装形態では、動作はまた、合成音声表現のフィルタ処理されたセットを識別することも含む。フィルタ処理されたセットにおける各合成音声表現は、単語誤り率損失しきい値を満たす単語誤り率損失を有する、音声変換モデルからの出力として生成された合成音声表現のそれぞれに対応する。これらの実装形態では、複数の非口頭テキスト発話のうちの各非口頭テキスト発話について、適合されたTTSモデルによって生成された合成音声表現に基づいて、音声変換モデルをトレーニングすることは、合成音声表現のフィルタ処理されたセットにおいて音声変換モデルをトレーニングすることを含む。音声変換モデルは、単語誤り率損失しきい値を満たさない単語誤り率損失を有する、音声変換モデルからの出力として生成された合成音声表現のいずれにおいても、トレーニングしない。
【0015】
いくつかの例では、動作は、ターゲット話者に関連付けられた非定型音声と同じタイプの非定型音声を有する話者によって話された入力発話のオーディオ波形を変換するように、音声変換モデルが前にトレーニングされていないとき、口頭トレーニング発話のセットを使用して、非定型音声をもつターゲット話者によって話された入力発話のオーディオ波形を、合成された標準的な流暢な音声のオーディオ波形に変換するように、音声変換モデルを適合させることをさらに含む。ここで、合成された標準的な流暢な音声の対応するオーディオ波形を生成することは、適合された音声変換モデルからの出力として、ターゲット話者の声における、合成された標準的な流暢な音声の対応するオーディオ波形を生成することを含む。いくつかの例では、テキストデコーダは、音声変換モデル上に存在する。他の例では、テキストデコーダは、音声変換モデルとは別個の参照自動音声認識モデル上に存在する。
【0016】
いくつかの実装形態では、音声変換モデルは、入力オーディオ波形を、対応する出力オーディオ波形に直接変換するように構成された、エンドツーエンドニューラルネットワークを含む。これらの実装形態では、音声変換モデルをトレーニングした後、動作はまた、非定型音声に関連付けられたターゲット話者によって話された発話に対応する入力オーディオ波形を受信すること、および、トレーニングされた音声変換モデルを使用して、非定型音声に関連付けられたターゲット話者によって話された発話に対応する入力オーディオ波形を、ターゲット話者によって話された発話の合成された標準的な流暢な音声表現に対応する出力オーディオ波形に変換することを含み得る。
【0017】
他の実装形態では、音声変換モデルは、音声を対応するテキストに変換するように構成された、自動音声認識モデルを含む。これらの実装形態では、音声変換モデルをトレーニングした後、動作はまた、非定型音声に関連付けられたターゲット話者によって話された発話に対応するオーディオデータを受信すること、および、トレーニングされた音声変換モデルを使用して、非定型音声に関連付けられたターゲット話者によって話された発話に対応するオーディオデータを、ターゲット話者によって話された発話の標準的なテキスト表現に変換することを含み得る。
【0018】
複数のトレーニングテキスト発話の第2の部分における、複数の非口頭トレーニングテキスト発話の少なくとも一部分は、特定の領域に関係する特有の句をターゲットにする手動で書かれたテキストを含み得る。随意に、動作は、複数のトレーニングテキスト発話の第2の部分における、非口頭トレーニングテキスト発話を取得するために、非口頭テキスト選択プロセスを実行することを含み得る。テキスト選択プロセスは、非口頭テキスト発話のコーパスを取得するように構成される。非口頭テキスト発話のコーパスにおける各非口頭テキスト発話について、テキスト選択プロセスは、非口頭テキスト発話が領域固有言語モデルにおいて現れることに関連付けられた第1の確率を決定すること、および、非口頭テキスト発話が背景言語モデルにおいて現れることに関連付けられた第2の確率を決定することを行うように構成される。背景言語モデルは、非口頭テキスト発話のコーパスにおけるあらゆる非口頭テキスト発話においてトレーニングされる。非口頭テキスト発話のコーパスにおける各非口頭テキスト発話について、テキスト選択プロセスはまた、第1の確率と、第2の確率と、対応する非口頭テキスト発話において現れる単語の数とに基づいて、スコアを決定するように構成される。最後に、テキスト選択プロセスは、複数のトレーニングテキスト発話の第2の部分における、非口頭トレーニングテキスト発話として、Nベストスコアを有する、非口頭テキスト発話のコーパスにおける非口頭テキスト発話を選択するように構成される。
【0019】
いくつかの実装形態では、TTSモデルは、エンコーダ部分およびデコーダ部分を含む、事前トレーニングされた参照TTSモデルを含む。これらの実装形態では、TTSモデルを適合させることは、エンコーダ部分のパラメータが固定されたままである間に、デコーダ部分のパラメータを調整することによって、事前トレーニングされた参照TTSモデルを適合させることを含む。
【0020】
本開示の1つまたは複数の実装形態の詳細が、添付図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。
【図面の簡単な説明】
【0021】
【
図1A】音声-音声変換モデルを含む、例示的な音声変換システムの概略図である。
【
図1B】音声テキスト変換モデルを含む、例示的な音声変換システムの概略図である。
【
図2A】ターゲット話者によって話された口頭トレーニング発話のセットを取得するための、個別化されたシードデータ収集段階の概略図である。
【
図2B】複数の非口頭トレーニングテキスト発話を取得するための、データ生成段階の概略図である。
【
図2C】参照テキスト音声(TTS)モデルを適合させ、参照音声-音声変換モデルを適合させるための、適合段階の概略図である。
【
図2D】適合されたTTSモデルから出力された合成された音声表現のフィルタ処理されたセットを識別するための、検証およびフィルタ処理段階の概略図である。
【
図2E】音声変換モデルをトレーニングするための、最終トレーニング段階の概略図である。
【
図3】音声変換モデルをトレーニングする方法のための動作の例示的な配列のフローチャートである。
【
図4】本明細書で説明するシステムおよび方法を実装するために使用され得る、例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0022】
様々な図面における同様の参照符号は、同様の要素を示す。
【0023】
自動音声認識(ASR)は、正確な転写への変換のために、非定型音声パターンをもつ話者からの音声を認識するために、エンドツーエンド(E2E)深層学習ベースモデルの導入とともに、多大な進歩を遂げている。たとえば、非定型音声パターンは、限定はしないが、身体的または神経学的状態(たとえば、筋萎縮性側索硬化症(ALS)疾患をもつ話者)、なまりの強い音声、および聴覚障害者の音声のために、損なわれた音声を含み得る。同様の深層学習ベースモデルが、音声-音声変換システムによって、非定型音声パターンをもつ音声を標準的な流暢な出力音声に変換するために適用され得る。本明細書で使用するとき、別段に規定されていない限り、「音声変換システム」および「音声変換モデル」という用語は、入力された非定型音声が認識され、対応するテキスト(たとえば、転写)に変換される、ASRシステム/モデル、または音声認識を実行することなしに、入力された非定型音声が標準的な流暢な合成された音声に直接変換される、音声-音声変換システム/モデルのいずれかを指すことがある。別の言い方をすれば、音声-音声変換システム/モデルは、入力オーディオ波形を中間表現(たとえば、テキストまたは音素)に変換することなしに、非定型音声に対応する入力オーディオ波形またはスペクトログラムを、標準的な流暢な音声に対応する出力オーディオ波形またはスペクトログラムに直接変換するように構成される。明らかになるように、音声変換モデル、ならびに音声変換モデルをトレーニングするための技法は、ユーザの意図する音声の認識および/または再生を可能にすることによって、非定型音声をもつユーザが他の人間と音声インターフェース(たとえば、デジタルアシスタント)の両方に話し、その両方によって理解されることを可能にするようになる。
【0024】
深層学習ベースの音声変換モデルおよびASRモデルの開発における1つの課題は、これらのモデルのパラメータがトレーニングデータに過度に適合する傾向があり、それによって、トレーニングデータが充分に広範でないとき、見えないデータを一般化することが困難になることである。より大きいトレーニングデータセット上で音声変換モデルおよびASRモデルをトレーニングすることによって、精度が向上するが、非定型音声を有するターゲット話者に向けた、および特定のターゲット領域における個別化のために十分な、言語多様性と音響多様性の両方を提供するトレーニングデータが欠如している。たとえば、十分な音響多様性をもつトレーニングデータを達成するために、非定型音声を有するターゲット話者は、対応する転写と各々ペアにされた何時間もの口頭発話を記録しなければならないようになる。さらに、特定のターゲット領域のための十分な言語多様性を達成することは、話者から記録された発話が、特定のターゲット領域に関連付けられた用語を含むことを必要とするようになる。たとえば、特定のターゲット領域は、限定はしないが、職業的分野(たとえば、網膜専門の医師)、教育的訓練(たとえば、心理学の講師)、音楽、ナビゲーション、または天気を含み得る。特定のターゲット領域は、同様に、ターゲット話者に関連付けられた個別化された領域であり得、この場合、個別化された領域に関連付けられた特定の用語は、ターゲット話者に関連付けられた家族の名前、連絡先名、音楽ライブラリ内の音楽アーティスト/アルバム/曲などを含み得る。
【0025】
テキスト音声(TTS)または音声合成システムは、人間の耳にとって人間音声とは区別不可能であり得る、最先端の自然な、現実的に聞こえる合成された音声を取得するために、Seq2Seqモデルを適用することに成功している。有利なことに、非口頭テキスト発話、またはテキストのみのデータは、音声変換モデルのトレーニングを改善するための合成された音声を作り出すために、容易に安価に取得され得る。たとえば、非口頭テキスト発話は、トレーニングデータセットの量を増すために使用され得るのみでなく、非口頭テキスト発話は、転写された音声(たとえば、人間によって話されたオーディオおよび対応する転写)を取得しなければならない困難なしに、トレーニングデータにおける言語多様性を高めることができる。
【0026】
本明細書の実装形態は、非定型音声を有するターゲット話者のために個別化され、ターゲット話者に関係する特定の領域をターゲットにする、音声変換モデル(すなわち、ASRまたは音声-音声変換)をトレーニングするために使用されるトレーニングデータを改善することを対象とする。詳細には、実装形態は、非定型音声をもつターゲット話者によって話された記録された発話の転写された音響データに対応する、初期の個別化されたシードデータをサンプリングすること、およびベースラインテキスト音声(TTS)モデルを適合させる/調整するために、サンプリングされたシードデータを使用することを含む。ここで、「ベースラインTTSモデル」は、入力テキストを、1人または複数のあらかじめ定義された話者の声において合成された標準的な音声に変換するために、前にトレーニングされた参照/既存のTTSモデルを指すにすぎない。ここで、ターゲット話者からサンプリングされた個別化されたシードデータは、入力テキストを、ターゲット話者の声における、かつターゲット話者の非定型音声パターンを有する、出力される合成された音声に変換するように、ベースラインTTSモデルを調整する/適合させる。事前トレーニングされたベースラインTTSモデルは、エンコーダ部分およびデコーダ部分を含み、それによって、TTSモデルを適合させることは、エンコーダ部分のパラメータが固定されたままである間に、デコーダ部分のパラメータを調整/再トレーニングすることを含み得る。このようにしてTTSモデルを適合させるために、個別化されたシードデータを使用することによって、適合されたTTSモデルは、特定の領域に関連付けられた用語または句を含むテキスト発話を、ターゲット話者の声における、かつターゲット話者の関連付けられた非定型音声パターンを有する、合成された音声を含む合成トレーニング発話に変換するために使用され得る。明らかになるように、適合されたTTSモデルは、音声変換モデルのトレーニングにおける言語多様性と音響多様性の両方を高めるために、特定の領域をターゲットにし、かつターゲット話者の声(すなわち、合成された声)における非定型音声をもつ、多数の合成トレーニング発話を生成し得る。
【0027】
適合されたTTSモデルによって作り出された合成トレーニング発話、および対応する転写は、ベースライン音声変換モデルを適合させる/調整するために使用される。ここで、「ベースライン音声変換モデル」は、典型的/標準的な音声を認識するために、転写された音響データの一般的なコーパス上で事前トレーニングされた、参照/既存のASRモデル、または様々な話者および記録状態に及ぶコーパスからの複数の発話の各々のための入力オーディオ波形(またはスペクトログラム)を、あらかじめ定義された標準的な話者の声における対応する出力オーディオ波形(またはスペクトログラム)にマッピングするようにトレーニングされた、参照/既存の音声-音声変換モデルのいずれかを指す。したがって、合成トレーニング発話は、ターゲット話者によって話され、かつ特定の領域をターゲットにする非定型音声を認識し、かつ/または標準的なテキストおよび/もしくは標準的な流暢な合成された音声に変換するように、一般的な音声変換モデルを適合させる/調整するために十分な言語多様性および音響多様性を提供する。これらの実装形態では、ターゲット話者によって話された記録された発話の転写された音響データに対応する、サンプリングされたシードデータが、ベースライン音声変換モデルを適合させる/調整するためにさらに使用され得る。他の実装形態では、適合されたTTSモデルによって作り出された合成トレーニング発話、およびサンプリングされたシードデータの組合せが、最初から音声変換モデルをトレーニングするために使用される。
【0028】
図1Aは、非定型音声に関連付けられたターゲット話者104によって話された発話108に対応する入力オーディオデータ102を、ターゲット話者104によって話された同じ発話の合成された標準的な流暢な音声表現114に対応する出力オーディオデータ106に変換するように構成された、音声変換モデル300、300aを示す。音声変換システム100aの関連する音声変換モデル300は、音声認識を実行することなしに、またはさもなければ入力オーディオデータ102からのいかなる中間個別表現(たとえば、テキストまたは音素)の生成も必要とすることなしに、入力オーディオデータ102(たとえば、入力スペクトログラム)を出力オーディオデータ106(たとえば、出力スペクトログラム)に直接変換するように構成された、音声-音声(S2S:speech-to-speech)変換モデル300aを含む。S2S変換モデル300aは、入力オーディオデータ102を隠れた特徴表現(たとえば、一連のベクトル)に符号化するように構成された、スペクトログラムエンコーダ310と、隠れた表現を、合成された標準的な流暢な音声表現に対応する出力オーディオデータ106に復号するように構成された、スペクトログラムデコーダ320とを含む。たとえば、スペクトログラムエンコーダ310が発話108の入力オーディオデータ102を受信するとき、スペクトログラムエンコーダ310は、オーディオの5つのフレームを処理し、オーディオのそれらの5つのフレームを10個のベクトルに変換し得る。これらのベクトルは、オーディオデータ102のフレームの転写ではなく、むしろ、オーディオデータ102のフレームの数学的表現である。次に、スペクトログラムデコーダ320は、スペクトログラムエンコーダ310から受信されたベクトルに基づいて、合成された標準的な流暢な音声表現に対応する出力オーディオデータ106を生成し得る。たとえば、スペクトログラムデコーダ320は、オーディオの5つのフレームを表す、スペクトログラムエンコーダ310からの10個のベクトルを受信し得る。ここで、スペクトログラムデコーダ320は、入力オーディオデータ102の5つのフレームとして、意図された単語または単語の部分を含むが、非定型音声の非流暢性のない、発話の合成された標準的な流暢な音声表現114に対応する出力オーディオデータ106の5つのフレームを生成し得る。
【0029】
いくつかの例では、S2S変換モデル300aはまた、隠れた表現をテキスト表現、たとえば、音素または書記素に復号する、テキストデコーダ(
図2D)250も含む。これらの例では、スペクトログラムデコーダ320およびテキストデコーダ250は、スペクトログラムエンコーダ310によって符号化された隠れた表現を各々受信し、並列に、出力オーディオデータ106またはテキスト表現のそれらのそれぞれを発する、S2S変換モデル300aの並列復号分岐に対応し得る。S2S変換システム100aは、出力オーディオデータ106を、標準的な流暢な音声の同じ発話114としての可聴出力のための時間領域波形に合成するために、合成器375をさらに含み得る。時間領域オーディオ波形は、経時的にオーディオ信号の振幅を定義するオーディオ波形を含む。合成器375は、出力オーディオデータ106を、合成された標準的な流暢な音声の時間領域波形に合成するための、ユニット選択モジュールまたはWaveNetモジュールを含み得る。いくつかの実装形態では、合成器375は、時間領域オーディオ波形への変換のために、メル周波数スペクトログラムにおいて別個にトレーニングおよび調整される、ボコーダネットワーク、すなわち、ニューラルボコーダを含む。
【0030】
図示の例では、ターゲット話者104が、理解することが困難であり得る非定型音声パターンを用いて話すように、ターゲット話者104が非定型音声に関連付けられる。非定型音声パターンは、限定はしないが、身体的または神経学的状態(たとえば、筋萎縮性側索硬化症(ALS)疾患をもつ話者)、なまりの強い音声、および聴覚障害者の音声のために、損なわれた音声を含み得る。例として、ターゲット話者104は、ALS疾患を有し、ALS疾患による非定型音声に関連付けられる。音声-音声変換システム100aは、それに応じて、ALS音声に関連付けられたターゲット話者104によって話された発話108に対応する入力オーディオデータ102を、同じ発話の合成された標準的な流暢な音声表現114に対応する出力オーディオデータ106に直接変換するようにトレーニングされる。したがって、出力オーディオデータ106によって提供された合成された標準的な流暢な音声表現は、ターゲット話者104によって話されたALS音声の了解度を向上させる。本開示の範囲からの逸脱なしに、S2S変換モデル300aは、第1の言語における非定型音声に関連付けられた発話108に対応する入力オーディオデータ102を、同じ声であるが、異なる第2の言語における、同じ発話の合成された標準的な流暢な音声表現114に対応する出力オーディオデータ106に直接変換するようにトレーニングされ得る。
【0031】
ターゲット話者104に関連付けられたコンピューティングデバイス110は、ターゲット話者104によって話された発話108をキャプチャし、対応する入力オーディオデータ102を、出力オーディオデータ106への変換のために音声-音声変換システム100aに送信し得る。その後、音声-音声変換システム100aは、ターゲット話者104によって話された同じ発話の合成された標準的な流暢な音声表現114に対応する出力オーディオデータ106を、ユーザ118に関連付けられた別のコンピューティングデバイス116に送信し得、それによって、その別のコンピューティングデバイス116が、ターゲット話者104によって話された発話108の合成された標準的な流暢な音声表現を可聴的に出力する。この例では、ターゲット話者104およびユーザ118は、電話通話または他のタイプのボイス通信プロトコル、たとえば、ボイスオーバーインターネットプロトコルなどを介して、それらのそれぞれのコンピューティングデバイス110、116を通して互いに話している。ターゲット話者104および他方のユーザ118は、同じ言語を話し得るが、ターゲット話者104がALS疾患による非定型音声を有するので、他方のユーザ118がターゲット話者104を理解することは困難であり得る。したがって、ターゲット話者104が、理解することが困難であり得る非定型音声(たとえば、ALS音声)を用いて話す間、合成された標準的な流暢な音声表現を聞いている他方のユーザ118は、ターゲット話者104によって意図された発話108をより容易に理解する時間を有するようになる。別の言い方をすれば、合成された標準的な流暢な音声表現は、非定型音声をもつターゲット話者によって話された元の発話108よりも、別のユーザが理解することがより容易であり得る、より一貫した調子を提供する。特に、合成された標準的な流暢な音声表現は、ターゲット話者104の声におけるものである。
【0032】
いくつかの他の例では、S2S変換システム100aは、代わりに、ターゲット話者104によって話された発話の合成された標準的な流暢な音声表現に対応する出力オーディオデータ106を、聴衆に対して、ターゲット話者104の声において、合成された標準的な流暢な音声表現を可聴的に出力するための、出力オーディオデバイスに渡し得る。たとえば、ターゲット話者104は、学生のクラスに講義を行う心理学教授であり得、この場合、ターゲット話者104によって話された発話は、特有の特定の領域、たとえば、心理学に属する医学専門用語を含む。明らかになるように、音声-音声変換モデル300aは、特有の領域に関連付けられた言語多様性を学習するように、ならびにターゲット話者104に関連付けられた非定型音声の特有のタイプに関連付けられた音響多様性を学習するようにトレーニングされる。
【0033】
代替的に、他方のコンピューティングデバイス116は、ダウンストリーム自動音声認識(ASR)システムに関連付けられ得、この場合、音声-音声変換システム100aは、認識されたテキストへの変換のためのASRシステムへの入力として、合成された標準的な流暢な音声表現に対応する出力オーディオデータ106を提供するためのフロントエンドとして機能する。認識されたテキストは、他方のユーザ118に提示され得、かつ/またはさらなる処理のために、自然言語理解(NLU)システムに提供され得る。音声-音声変換システム100aの機能は、リモートサーバ112上に、コンピューティングデバイス110、116のいずれかもしくは両方の上に、またはリモートサーバおよびコンピューティングデバイス110、116の任意の組合せの上に存在し得る。いくつかの実装形態では、S2S変換モデル300aは、ターゲット話者104が非定型音声として発話の対応する部分を話すとき、発話の合成された標準的な流暢な音声表現に対応する出力オーディオデータ106を連続的に生成する。ターゲット話者104によって話された発話108の部分の合成された標準的な流暢な音声表現に対応する出力オーディオデータ106を連続的に生成することによって、ターゲット話者104とユーザ118(または聴衆)との間の会話がより自然なペースになり得る。いくつかの追加の実装形態では、S2S変換モデル300aは、ボイスアクティビティ検出、エンドポインティング(end pointing)、クエリ終了検出(end of query detection)などの技法を使用して、かつ非定型音声をもつ発話108の対応する入力オーディオデータ102を、同じ発話の合成された標準的な流暢な音声表現114に対応する、対応する出力オーディオデータ106に変換する前に、ターゲット話者104が話すことを停止するときを決定/検出するために待機する。
【0034】
次に
図1Bを参照すると、いくつかの実装形態では、音声変換システム100、100bは、非定型音声に関連付けられたターゲット話者104によって話された発話108に対応する入力オーディオデータ102を、発話108の標準的なテキスト表現(すなわち、転写)120に変換するように構成された、音声テキスト変換システム100bを含む。
図1AのS2S変換システム100aの場合と同様に、音声テキスト変換システム100bは、ターゲット話者104に関連付けられた非定型音声(たとえば、ALS音声)の特有のタイプを認識するのみでなく、特有の領域に関連付けられた特有の単語および/または句も認識するように構成される。これらの特有の単語および/または句は、固有名詞、または一般的/ベースライン音声テキストシステムをトレーニングするために使用される一般的なトレーニングコーパスにおいて一般的に存在しないか、もしくは不十分に表現される、他の専門用語を含み得る。
【0035】
したがって、音声テキスト変換システム100bは、非定型音声に関連付けられたターゲット話者104によって話された元の発話108の意図をキャプチャする、対応する標準的なテキスト表現120への変換のために、ターゲット話者の特有のタイプの非定型音声パターン、ならびに特有の領域のための言語情報を認識することができる、ターゲット話者104のための個別化された自動音声認識(ASR)システムに対応し得る。別のユーザ118(
図1A)は、発話108の標準的なテキスト表現120を取得し得る。いくつかの構成では、システム100bから出力された標準的なテキスト表現120は、たとえば、ユーザデバイス110またはリモートサーバ112上で実行している自然言語理解(NLU)モジュールによって、ユーザコマンドを実行するために処理される。追加または代替として、テキスト音声システム(たとえば、ユーザデバイス110またはリモートサーバ112の任意の組合せの上で実行している)は、転写を、別のデバイスによる可聴出力のために、合成された音声に変換し得る。音声テキスト変換システム100bの機能は、リモートサーバ112上に、コンピューティングデバイス110上に、またはリモートサーバ112およびコンピューティングデバイス110の任意の組合せの上に存在し得る。
【0036】
音声テキスト変換システム100bに関連付けられた音声変換モデル300は、入力オーディオデータ102を発話108の標準的なテキスト表現(すなわち、転写)120に変換することによって、非定型音声の発話108において音声認識を実行するように構成された、音声テキスト変換モデル300b(自動音声認識(ASR)モデル300bと互換的に呼ばれる)を含み得る。音声テキスト変換モデル300bは、入力オーディオデータ102を隠れた特徴表現(たとえば、一連のベクトル)に符号化するように構成されたエンコーダ350と、隠れた表現を標準的な転写120に復号するように構成されたテキストデコーダ250とを含む。たとえば、テキストエンコーダ350が発話108の入力オーディオデータ102を受信するとき、エンコーダ350は、オーディオの5つのフレームを処理し、オーディオのそれらの5つのフレームを10個のベクトルに変換し得る。これらのベクトルは、オーディオデータ102のフレームの転写ではなく、むしろ、オーディオデータ102のフレームの数学的表現である。次に、テキストデコーダ250は、エンコーダ350から受信されたベクトルに基づいて、標準的な転写120を生成し得る。たとえば、テキストデコーダ250は、入力オーディオデータ102の5つのフレームにおける意図された単語または単語の部分を含む、発話108の標準的な転写120に対応する単語のシーケンスを生成し得る。本開示の範囲からの逸脱なしに、ASRモデル300bは、第1の言語における非定型音声に関連付けられた発話108に対応する入力オーディオデータ102を、異なる第2の言語における発話108の対応する標準的な転写に変換するようにトレーニングされ得る。
【0037】
図1Aおよび
図1Bを参照すると、音声変換システム100は、音声変換モデル300、すなわち、
図1AのS2S変換モデル300aおよび/または
図1Bの音声テキスト変換モデル300bをトレーニングするように構成された、トレーニングプロセス200を実行する。
図2A~
図2Eを参照しながら以下でより詳細に説明するように、トレーニングプロセス200は、個別化されたシードデータ収集段階200a(
図2A)、データ生成段階200b(
図2B)、適合段階200c(
図2C)、検証およびフィルタ処理段階200d(
図2D)、ならびに最終トレーニング段階200e(
図2E)を含む。
【0038】
図2Aを参照すると、トレーニングプロセス200の個別化されたシードデータ収集段階200aは、非定型音声に関連付けられたターゲット話者104のための口頭トレーニング発話305、305a~nのセットを取得することを含む。ここで、各口頭トレーニング発話305は、ターゲット話者104によって話され、対応する口頭トレーニング発話305の対応する非合成音声表現304とペアにされた対応する転写302aを含む。したがって、非合成音声表現304は、ターゲット話者104の声におけるものであり、ターゲット話者104に関連付けられた非定型音声(たとえば、ALS音声)のタイプのための非定型音声パターンを含む。口頭トレーニング発話305のセットにおける転写302aは、複数のトレーニングテキスト発話302の第1の部分を形成し得る。各転写302aは、ターゲット話者104の母語(native speaking language)における標準的な転写であり得る。いくつかの例では、口頭トレーニング発話305の一部または全部は、それにおいて音声変換モデル300が学習するようにトレーニングされる特定の領域に関係する単語および/または句を含む。
【0039】
いくつかの実装形態では、個別化されたシードデータ収集段階200aは、ターゲット話者104に各口頭トレーニング発話305を話すようにプロンプトし、対応する非合成音声表現304を取得するために、発話を記録する。ターゲット話者104について取得された各非合成音声表現304は、口頭トレーニング発話305の対応する転写302aとペアにされ得る。したがって、各口頭トレーニング発話305は、ターゲット話者104によって話された、手動で転写された音響データ302a、304を含む。図示の例では、個別化されたシードデータ収集段階200aは、ターゲット話者104に関連付けられたコンピューティングデバイス110のグラフィカルユーザインターフェース上で対応する転写302aを表示することによって、ユーザに各口頭トレーニング発話305を話すようにプロンプトする。このことは、口頭トレーニング発話ごとに別個のプロンプトを含み得るか、または一度に任意の数の連続する口頭トレーニング発話を話すように、ターゲット話者にプロンプトすることを含み得る。追加または代替として、コンピューティングデバイス110は、ターゲット話者が各トレーニング発話を話すためのプロンプト(たとえば、「以下の句を話してください」)を可聴的に出力し得る。口頭トレーニング発話305のセットは、メモリハードウェア420(
図4)上にあるデータストア202に記憶され得る。いくつかの例では、個別化されたシードデータ収集段階200aは、約500個の口頭トレーニング発話305を収集する。
【0040】
図2Bを参照すると、トレーニングプロセス200のデータ生成段階200bは、それにおいて音声変換モデル300が学習するようにトレーニングされている特定の領域に関係する、複数の非口頭トレーニングテキスト発話302bを取得することを含む。たとえば、ターゲット話者104は、特定の領域が大学レベルの心理学コースのための心理学専門用語を含むように、心理学教授であり得る。各非口頭トレーニングテキスト発話302bは、いかなる対応する口頭発話ともペアにされない。複数の非口頭トレーニングテキスト発話302bは、複数のトレーニングテキスト発話302の第2の部分を形成し得る。
【0041】
いくつかの実装形態では、データ生成段階200bは、非口頭テキストのコーパス402から非口頭トレーニングテキスト発話302bを選択するように構成される。非口頭テキストのコーパス402は、広範囲の領域中からの多数の非口頭トレーニングテキスト発話302bを含み、それにおいて音声変換モデル300が学習するようにトレーニングされている特定の領域よりもはるかに大きい言語多様性を含む。前述のように、口頭トレーニング発話305のセットは、特定の領域に関係するという点で、領域固有であり得る。非口頭テキストのコーパス402は、口頭トレーニング発話305と同じまたは異なるデータストア202に記憶され得る。非口頭テキストのコーパス402は、新しい非口頭トレーニングテキスト発話302bを組み込むために、動的に変化し得る。非口頭テキストコーパス402におけるすべての非口頭トレーニングテキスト発話302bを単に使用することは、以下の理由で実現可能ではなく、すなわち、i)各文について、音声モダリティが符号化されるために、テキストよりもはるかに多くのメモリを必要とし、それによって、コーパス402におけるすべてのテキストを変換することが実行不可能になり、ii)TTS推論における音声モダリティとテキストモダリティとの間の変換、および音声変換モデルトレーニングもまた、大きい計算を必要とし、iii)口頭トレーニング発話305における転写302aと、非口頭テキストコーパス402における非口頭トレーニングテキスト発話302bとの間の大量の差によって、インテリジェント戦略がそれらの寄与のバランスを取ることが必要となる。
【0042】
データ生成段階200bは、
図2Dおよび
図2Eを参照しながら以下でより詳細に説明するTTS合成のためのデータとして、非口頭テキストコーパス402から、利用可能な非口頭トレーニングテキスト発話302bのサブセットを選択することを目的とする。別の言い方をすれば、データ生成段階200bは、利用可能な非口頭トレーニングテキスト発話302bの選択されたサブセットと、ターゲットにされている特定の領域(たとえば、心理学専門用語)との間の一致を向上させ、それによって、次に、大量の非領域固有データを活用するために必要とされる計算リソースを低減することを目的とする。したがって、データ生成段階200bは、音声変換モデル300が学習するようにトレーニングされている特定の領域に最良に一致する、非口頭トレーニングテキスト発話302bを選択することによって、計算コストおよびメモリコストを低減する。
【0043】
いくつかの例では、データ生成段階200bは、非口頭テキストコーパス402全体において前にトレーニングされた背景言語モデル(LM)406への入力として、特定の領域に関連付けられた領域識別子(図示せず)を単に提供することによって、特定の領域に最良に一致する、コーパス402からの利用可能な非口頭トレーニングテキスト発話302bのサブセットを選択する。前述のように、非口頭テキストコーパス402は、多数の異なる領域に及ぶ。これらの例では、背景LM406は、その内容全体が参照により本明細書に組み込まれる、2014年2月12日に出願された米国特許第9,842,592号に記載されているように、入力として領域識別子を随意に受け入れることが可能な最大エントロピー(MaxEnt LM)を含み得る。ここで、特定の領域に関連付けられた領域識別子は、MaxEnt LMが、特定の領域に関係する単語および/または句を含む可能性のある、コーパス402からの利用可能な非口頭トレーニングテキスト発話302bのサブセットを出力することを可能にし得る。いくつかの構成では、単語の尤度を評価するのではなく、統計学的言語モデルは、特定の領域に関係する単語の統計分布に一致するテキスト句をランダムに生成するために、リバースモードで動作する。
【0044】
追加の例では、
図2Aに示されているように、データ生成段階200bは、ターゲット話者104から取得された口頭トレーニング発話305のセットにおける転写302aを使用して、特定の領域に最良に一致する、コーパス402からの利用可能な非口頭トレーニングテキスト発話302bのサブセットを選択する、非口頭テキスト選択プロセスを実行する。ここで、ターゲット話者104によって話された口頭トレーニング発話305は、特定の領域に関係する単語、句、および/または他の専門用語を含む。随意に、口頭トレーニング発話305のセットにおける転写302aに加えて、またはその代わりに、特定の領域に関係する異なる転写された発話のセットが、非口頭トレーニングテキスト発話302bを選択するために使用され得る。このことは、すべての口頭トレーニング発話305が特定の領域に属することを必要としない利点を提供するようになる。
【0045】
非口頭テキスト選択プロセスの第1の段階(段階A)の間に、データ生成段階200bは、非口頭トレーニングテキスト発話302bの対照的な選択を可能にするために、2つの言語モデル404、406を構築する。ここで、領域固有言語モデル(LM)404は、口頭トレーニング発話305のセットにおける各転写302aにおいてトレーニングされる。口頭トレーニング発話305のセットは、そのために音声変換モデル300がトレーニングされている特定の領域に属すると仮定される。一方、背景LM406は、非口頭テキストコーパス402全体における各非口頭トレーニングテキスト発話302bにおいてトレーニングされる。前述のように、非口頭テキストコーパス402は、多数の異なる領域に及ぶ。いくつかの例では、第1の段階は、nグラム言語モデルトレーニングを使用して、2つの言語モデル404、406を構築する。他の例では、第1の段階は、ニューラルネットワーク言語モデルトレーニングを使用して、2つの言語モデル404、406を構築する。
【0046】
非口頭テキスト選択プロセスの第2の段階(段階B)の間に、データ生成段階200bは、2つの対照的なLM404、406を使用して、非口頭トレーニングテキスト発話302bにおける各単語が領域固有LM404において現れることに関連付けられた第1の確率
【0047】
【0048】
を決定すること、および非口頭トレーニングテキスト発話302bにおける各単語が背景LM406において現れることに関連付けられた第2の確率
【0049】
【0050】
を決定することによって、非口頭テキストコーパス402における各非口頭トレーニングテキスト発話302bを評価する。その後、非口頭テキストコーパス402における各非口頭トレーニングテキスト発話302bについて、プロセス200は、スコアラー408において、第1の確率と、第2の確率と、対応する非口頭トレーニングテキスト発話302bにおいて現れる単語の数#(w)とに基づいて、スコアSを決定する。たとえば、各非口頭トレーニングテキスト発話302bのためのスコアSは、次のように計算され得る。
【0051】
【0052】
スコアを決定した後、データ生成段階200bは、NベストスコアSをもつ非口頭トレーニングテキスト発話302bを選択し、その理由は、これらの非口頭トレーニングテキスト発話302bが特定の領域に最良に一致するからである。テキストコーパス402は、数十億のテキスト発話302bを含み得る。利用可能なテキストコーパス402から選択する代わりに、またはそれに加えて、非口頭トレーニングテキスト発話302bは、いくつかの句/不適当な名詞(たとえば、家族の名前、連絡先名、ゲームなど)をターゲットにするために、LMから生成されない手動で書かれたテキストを含み得、かつ/または非口頭トレーニングテキスト発話302bは、特定の領域に関連付けられたトピック分類器を使用して、関係する特有のトピックから導出され得る。データ生成段階200bの間に生成された非口頭トレーニングテキスト発話302bは、何百万もの発話を含むことがあり、したがって、話者から収集された口頭トレーニング発話305の数をはるかに超えることがある。明らかになるように、非口頭トレーニングテキスト発話302bの内容は、音声変換モデル300が学習するようにトレーニングされている特定の領域のための言語多様性を高めるが、非口頭トレーニングテキスト発話302bから生成された対応する合成音声表現は、音声変換モデル300が変換している非定型音声のための音響多様性を高める。
【0053】
図2Cを参照すると、トレーニングプロセス200の適合段階200cは、
図2Aの個別化されたシードデータ収集段階200aの間に収集された口頭トレーニング発話305のセットを使用して、ターゲット話者104の声における、かつターゲット話者104に関連付けられた非定型音声(たとえば、ALS音声)をキャプチャする音声を合成するように、テキスト音声(TTS)モデル210と参照S2S変換モデル301の両方を適合させることを含む。適合段階200cは、
図2Bのデータ生成段階200bの前、後、またはそれと同時に行われ得る。
【0054】
TTSモデル210は、1人または複数のあらかじめ定義された話者の声において、合成された標準的な流暢な音声を生成するために、入力テキストにおいて事前トレーニングされ得る。したがって、TTSモデル210をトレーニングするために使用されるグランドトゥルース音声サンプルは、定型音声をもつ話者から取得され得る。
【0055】
同様に、参照S2S変換モデル301は、単一のあらかじめ定義された話者の声において同じ内容をキャプチャする対応する出力オーディオデータへの、様々な異なる話者によって話された多数の発話に対応する入力オーディオデータにおいて事前トレーニングされる。特に、様々な異なる話者からの発話は、定型音声パターン、様々な異なるタイプの非定型音声パターン(たとえば、異なる方言にわたる強いなまり、異なる神経学的状態にわたる不規則な音声)、ならびに背景雑音を含み得る。たとえば、参照S2S変換モデル301は、参照により本明細書に組み込まれ、https://arxiv.org/pdf/1904.04169.pdfにおいて利用可能な、Parrotron: An End-to-End Speech-to-Speech Conversion Model and its Applications to Hearing-Impaired Speech and Speech Separationに記載された、エンドツーエンドトレーニングされた音声-音声変換モデルを含み得る。参照S2S変換モデル301は、シーケンスツーシーケンスを使用して、背景雑音を潜在的に含む任意の音声を正規化し、単一のあらかじめ定義されたターゲット話者の声において同じ内容を生成することができる。ソース音声は、任意の話者またはアクセントからのものであり得、複雑な韻律パターン、不完全性、非定型音声、および背景雑音を含み得、それらのすべてが正規化プロセスを通して除去され、その理由は、第1のオーディオデータが、固定されたアクセントならびに一貫した明瞭度および韻律をもつクリーンな第2のオーディオデータに変換されるからである。言い換えれば、システムは、話者特性を含むすべての非言語情報を除外(project away)し、何が言われているかのみを保持し、誰が、どのように、またはどこでそれが言われるかを保持しないために使用され得る。
【0056】
TTSモデル210が、ターゲット話者104以外の声において合成された標準的な流暢な音声を生成するように事前トレーニングされ、参照S2S変換モデル301が、定型音声と様々なタイプの非定型音声の両方に関連付けられた様々な異なる話者からの発話において事前トレーニングされるので、適合段階200cは、ターゲット話者104の声と、ターゲット話者104に関連付けられた特有のタイプの非定型音声(たとえば、ALS音声)の両方に、モデル210、301を適合させることを目的とする。しかしながら、いくつかの例では、参照S2S変換モデルが、ターゲット話者104に関連付けられた特有のタイプの非定型音声に関連付けられた入力オーディオデータを変換するように事前トレーニングされるとき、適合段階200cは、参照S2S変換モデル301を適合させることを控え、その理由は、モデル301が、ターゲット話者104に関連付けられた同じタイプの非定型音声を標準的な流暢な音声に変換するようにすでにトレーニングされているからである。
【0057】
適合段階200cは、口頭トレーニング発話305のセットにおける転写302aを、ターゲット話者104の声における、かつターゲット話者104に関連付けられた非定型音声をキャプチャする、対応する合成音声306に変換するように、TTSモデル210を適合させる。いくつかの実装形態では、TTSモデル210は、ターゲット話者104の声における、かつターゲット話者104に関連付けられた非定型音声をキャプチャする、合成された音声306の時間領域オーディオ波形を生成するように、TTSモデル210を適合させるために、転写302aを処理するために協働する、エンコーダ212およびデコーダ214を含む。時間領域オーディオ波形は、経時的にオーディオ信号の振幅を定義するオーディオ波形である。
【0058】
エンコーダ212は、文字のシーケンスとして転写304を受信すること、およびデコーダ214が後に生成することになる各メル周波数スペクトログラムのための固定長コンテキストベクトル213を生成することを行うように構成された、エンコーダニューラルネットワーク212であり得る。TTSモデル210が、ターゲット話者104の声における非定型音声をキャプチャする合成された音声を作り出すように適合されているので、適合段階200cは、エンコーダ212のパラメータが固定されたままである間に、デコーダ214のパラメータを調整/再トレーニングすることを含み得る。デコーダ214は、入力として、エンコーダニューラルネットワーク212によって生成された固定長コンテキストベクトル213を受信すること、および各固定長コンテキストベクトル213のための出力として、メル周波数スペクトログラムの対応するフレームを生成することを行うように構成された、ニューラルネットワークであり得る。メル周波数スペクトログラムは、音の周波数領域表現である。メル周波数スペクトログラムは、音声了解度にとって重要である、より低い周波数を強調するが、摩擦音および他の雑音バーストが大半を占め、一般に高忠実度でモデル化される必要がない高周波数を強調しない。合成された音声306は、デコーダ214から出力されたメル周波数スペクトログラムに関連付けられた合成された音声表現を含み得るか、または合成された音声306は、デコーダ214から出力されたメル周波数スペクトログラムに基づいて、ボコーダ(図示せず)によって生成された時間領域オーディオ波形であり得る。デコーダ214は、ターゲット話者104に関連付けられた声および非定型音声により良好に一致するように、デコーダによって生成されたメル周波数スペクトログラムの音響特性を改善することによって、ターゲット話者104に適合され得る、ポストネット(post-net)を含み得る。
【0059】
適合段階200cは、口頭トレーニング発話305のセットからの非合成音声表現304を、ターゲット話者104の声における、合成された標準的な流暢な音声に変換するように、参照S2S変換モデル301を適合させる。前述のように、非合成音声表現304は、ターゲット話者104によって話された発話に関連付けられ、したがって、ターゲット話者104に関連付けられた非定型音声をキャプチャする。ここで、適合段階200cは、スペクトログラムデコーダ320のためのグランドトゥルースとして、対応する転写302aを使用して、入力された非合成音声表現304の意図された内容を伝える合成された標準的な流暢な音声316を正確に復号/発し得る。
【0060】
図2Dを参照すると、
図2Bのデータ生成段階200bの間に取得された複数の非口頭トレーニングテキスト発話のうちの各非口頭トレーニングテキスト発話302bについて、検証およびフィルタ処理段階200dは、適合されたTTSモデル210からの出力として、対応する非口頭トレーニングテキスト発話302bの合成音声表現306を生成する。口頭トレーニング発話305が、TTSモデル210を適合させるために使用されたので、各合成音声表現306は、ターゲット話者の声を含み、ターゲット話者104に関連付けられた非定型音声をキャプチャする。したがって、適合されたTTSモデル210から出力された各合成音声表現306は、複数の非口頭トレーニングテキスト発話302bのうちの対応する1つとペアにされる。
【0061】
図示の例では、検証およびフィルタ処理段階200dは、適合されたS2S変換モデル301をさらに使用して、適合されたTTSモデル210から出力された各合成音声表現306について、ターゲット話者104の声における、合成された標準的な流暢な音声316の対応するオーディオ波形を生成し、その後、テキストデコーダ250を使用して、適合されたS2S変換モデル301からの出力として生成された、合成された標準的な流暢な音声316の対応するオーディオ波形のためのテキスト表現318を生成する。前述のように、参照S2S音声変換モデル301が同じタイプの非定型音声を変換するために前にトレーニングされる場合、参照S2S音声変換モデル301は、合成音声表現306から、合成された標準的な流暢な音声のオーディオ波形を生成するより前に適合される必要がない(が、依然として適合され得る)。いくつかの例では、テキストデコーダ250は、適合されたS2S音声変換モデル301上に存在し、その場合、S2S音声変換モデル301は、スペクトログラムデコーダ320から合成された標準的な流暢な音声316の対応するオーディオ波形を発するのと並列に、テキストデコーダ250からテキスト表現318を発する。他の例では、テキストデコーダ250は、音声変換モデルとは別個の参照自動音声認識モデル上に存在する。
【0062】
その後、適合されたTTSモデル210から出力された各合成音声表現306について、検証およびフィルタ処理段階200dは、教師あり損失単語モジュール340を適用して、対応する合成音声表現306に関連付けられた単語誤り率損失342を決定する。詳細には、単語誤り率損失342は、合成された標準的な流暢な音声316について、テキストデコーダ250から出力されたテキスト表現318、および対応する非口頭トレーニングテキスト発話302bに基づく。特に、非口頭トレーニングテキスト発話302bは、生じた合成音声表現306への変換のための適合されたTTSモデル210への入力と、デコーダ250から出力された対応するテキスト表現318を確認するためのグランドトゥルースの両方の働きをする。図示の例では、検証およびフィルタ処理段階200dは、対応する単語誤り率損失342が単語誤り率損失しきい値を満たすか否かを決定することによって、適合されたTTSモデル210から出力された各合成音声表現306を検証する。対応する単語誤り率損失342が単語誤り率損失しきい値を満たすとき、対応する合成音声表現306は、音声変換モデル300のトレーニングにおいて使用するために、合成音声表現のフィルタ処理されたセット306Aに記憶される。対応する単語誤り率損失342が単語誤り率損失しきい値を満たすことができないとき、対応する合成音声表現306は破棄され、音声変換モデル300をトレーニングするために使用されない。
【0063】
図示の例では、教師あり損失単語モジュール340は、対応するテキスト表現318と、グランドトゥルースの働きをする対応する非口頭トレーニングテキスト発話302bとの間で誤認識(misrecognize)された単語の数に基づいて、単語誤り率損失342を決定する。たとえば、60%の単語誤り率損失は、対応するテキスト表現318における単語の40%が、対応する合成された標準的な流暢な音声316からテキストデコーダ250によって誤認識されたことを示す。単語誤り率損失しきい値は、任意の値に設定されてよく、必要に応じて調整され得る。一例では、単語誤り率損失しきい値は70%であり、対応する合成音声表現306が単語誤り率損失しきい値を満たし、したがって合成音声表現のフィルタ処理されたセット306Aにおいて受け入れられるために、対応するテキスト表現318における単語の少なくとも70%が正確に認識されなければならないことを示す。単語誤り率損失342および単語誤り率損失しきい値のための値セットは、音声変換モデル300をトレーニングするために好適である合成音声表現306(すなわち、合成音声表現のフィルタ処理されたセット306A)のみを識別すること、およびトレーニングするために好適でないいかなる合成音声表現306も破棄することを行うためのプロキシの働きをする。破棄された合成音声表現306は、テキストデコーダ250が、単語誤り率損失しきい値を満たすことができない単語誤り率損失342をもつ対応するテキスト表現318を作り出すために、適合されたS2S変換モデル301が了解可能な合成された標準的な流暢な音声316に正確に変換することができない入力オーディオ波形(またはスペクトログラム)を示す。簡単に言えば、破棄された合成音声表現306は、了解不可能であるか、または内容およびスタイルの品質に関して理想から程遠いことを示す、適合されたTTSモデル210によって生成された合成音声表現306の総数のわずかな割合に関連付けられる。
【0064】
適合されたS2S変換モデル301を使用して、各非定型合成音声表現306から、合成された標準的な流暢な音声316を作り出すステップと、テキストエンコーダ250によって、合成された標準的な流暢な音声316において音声認識を適用して、テキスト表現318を作り出すステップとは、音声変換モデル300をトレーニングするための合成音声表現306を検証する助けになることを理解されたいが、これらのステップは随意であり得る。たとえば、適合されたTTSモデル210は、ペアにされない非口頭トレーニングテキスト発話302bごとに対応する合成音声表現306を生成するために使用され得、合成音声表現のフィルタ処理されたセット306Aを識別するために、適合されたS2S変換モデル301、テキストデコーダ250、および教師あり損失単語モジュール340を適用することなしに、合成音声表現306のすべてが、音声変換モデル300をトレーニングするために使用され得る。
【0065】
次に
図2Eを参照すると、最終トレーニング段階200eは、複数の非口頭トレーニングテキスト発話302bのうちの各非口頭トレーニングテキスト発話302bについて、適合されたTTSモデル210によって生成された合成音声表現306に基づいて、音声変換モデル300をトレーニングすることを含む。より詳細には、トレーニングプロセス200の最終トレーニング段階200eは、合成音声表現のフィルタ処理されたセット306Aにおいて音声変換モデル300をトレーニングし、
図2Dの検証およびフィルタ処理段階200dにおいて上記で論じたように、単語誤り率損失しきい値を満たさない単語誤り率損失342を有するために破棄された合成音声表現306のいずれにおいても、音声変換モデル300をトレーニングしない。
【0066】
いくつかの実装形態では、音声変換モデル300をトレーニングすることは、話者の非定型音声に関連付けられた入力オーディオ波形を、話者の声における標準的な流暢な音声の対応する出力波形に直接変換するように、ターゲット話者104のために個別化されたS2S音声変換モデル300aをトレーニングすることを含む。合成音声表現のフィルタ処理されたセット306Aにおける合成音声表現306Aの数は、ターゲット話者104の声と、ターゲット話者104に関連付けられた非定型音声のタイプの両方を学習するように、S2S音声変換モデル300aをトレーニングするための十分な音響多様性を提供する。さらに、S2S変換モデル300aをトレーニングするために使用される各合成音声表現306は、特定の領域に関係するので、合成音声表現のフィルタ処理されたセット306Aにおける合成音声表現306Aの数はまた、ターゲット話者104によって話された非定型音声発話108において存在する可能性がある特定の領域に関連付けられた特定の単語、名称、句、または他の専門用語を学習するように、S2S音声変換モデル300aをトレーニングするための十分な言語多様性も提供する。
【0067】
いくつかの例では、S2S変換モデル300aをトレーニングすることは、非口頭トレーニングテキスト発話302bのうちの対応する1つと各々ペアにされた、合成音声表現のフィルタ処理されたセット306Aにおいて、参照S2S変換モデル301(
図2C)を適合させることを含む。前述のように、参照S2S変換モデル301は、あらかじめ定義された話者の声において標準的な流暢な音声を作り出すために、異なる発話スタイルおよび異なる声をもつ、様々な異なる話者から話された発話を使用して、前にトレーニングされた。したがって、合成音声表現のフィルタ処理されたセット306Aにおいて、参照S2S変換モデル301を適合させることは、特有のタイプの非定型音声に関連付けられたターゲット話者104によって話された発話に対応する任意の入力オーディオ波形(たとえば、
図1Aの入力オーディオデータ102)を、ターゲット話者によって話された同じ発話の合成された標準的な流暢な音声表現316に対応する出力オーディオ波形(たとえば、
図1Aの出力オーディオデータ106)に変換するために、ターゲット話者104のために個別化される、トレーニングされたS2S変換モデル300aを提供する。これらの例では、トレーニングされたS2S音声変換モデル300aは、
図2Aの個別化されたシードデータ収集段階200aの間に、ターゲット話者104から収集された口頭トレーニング発話305のセットからの非合成音声表現304においてさらに適合/調整され得る。
【0068】
他の例では、S2S変換モデル300aをトレーニングすることは、最初からS2S変換モデル300aをトレーニングすることを含む。最初からS2S変換モデル300aをトレーニングすることは、非口頭トレーニングテキスト発話302bのうちの対応する1つと各々ペアにされた、合成音声表現のフィルタ処理されたセット306Aと、対応する転写302aと各々ペアにされた、口頭トレーニング発話305のセットにおける非合成音声表現304との混合において、トレーニングすることを含み得る。ここで、モデル300は、モデル300aが、並列に、対応する合成された標準的な流暢な音声表現316を出力するように、並列に、非合成音声表現304および合成音声表現306の対応するバッチにおいてトレーニングされ得る。
【0069】
参照S2S変換モデル301を適合させることによるか、最初からかにかかわらず、S2S変換モデル300aをトレーニングするとき、トレーニングプロセス200の最終トレーニング段階200eは、バックプロパゲーションを通して、モデル300aをトレーニングするために、確率的勾配降下法などの確率的最適化アルゴリズムを使用し得る。たとえば、自動音声認識器(たとえば、
図2Dのテキストデコーダ250)は、単語誤り率損失342(
図2D)を取得するために、グランドトゥルースの働きをする対応するトレーニングテキスト発話302a、302bと比較され得る、S2S変換モデル300aから出力された各対応する合成された標準的な流暢な音声表現316のためのテキスト表現318を作り出し得る。自動音声認識器は、別個にトレーニングされた自動音声認識器であり得るが、自動音声認識器はまた、スペクトログラムデコーダ320によって発せられた対応する合成の標準的な流暢な音声表現316と並列に、テキスト表現318を発するS2S変換モデル300aのテキストデコーダも含み得る。得られたテキスト表現318がどこから作り出されるかにかかわらず、確率的最適化アルゴリズムは、実際の出力(たとえば、テキスト表現318)とターゲット出力(転写および非口頭トレーニングテキスト発話302a、302b)との間の差に基づいて、それぞれの損失関数(たとえば、交差エントロピー損失関数)を定義するために、単語誤り率損失342を使用し得る。たとえば、損失関数は、トレーニング例の各バッチについて計算され、次いで、モデル300aにおける各重みに関して差別化され得る。
【0070】
いくつかの追加の実装形態では、音声変換モデル300をトレーニングすることは、追加または代替として、話者の非定型音声に関連付けられた入力オーディオ波形を、ターゲット話者104によって話された発話の標準的な転写120を含む対応するテキストに変換するように、ターゲット話者104のために個別化された音声テキスト変換モデル300b(「ASRモデル」と互換的に呼ばれる)をトレーニングすることを含む。合成音声表現のフィルタ処理されたセット306Aにおける合成音声表現306Aの数は、ターゲット話者104に関連付けられた非定型音声のタイプを用いて話された発話108を認識することを学習するように、ASRモデル300bをトレーニングするための十分な音響多様性を提供する。さらに、ASRモデル300bをトレーニングするために使用される各合成音声表現306は、特定の領域に関係するので、合成音声表現のフィルタ処理されたセット306Aにおける合成音声表現306Aの数はまた、ターゲット話者104によって話された非定型音声発話108において存在する可能性がある特定の領域に関連付けられた特有の単語、名称、句、または他の専門用語を認識することを学習するように、ASRモデル300bをトレーニングするための十分な言語多様性も提供する。
【0071】
S2S音声変換モデル300aの場合と同様に、ASRモデル300bをトレーニングすることは、異なる発話スタイルをもつ様々な異なる話者によって話されたトレーニング発話の一般的なコーパスにおいて前にトレーニングされた、参照ASRモデル300bを適合させることを含み得る。ここで、参照ASRモデル300bは、非口頭トレーニングテキスト発話302bのうちの対応する1つと各々ペアにされた、合成音声表現のフィルタ処理されたセット306Aにおいて適合され、次いで、
図2Aの個別化されたシードデータ収集段階200aの間に、ターゲット話者104から収集された口頭トレーニング発話305のセットからの非合成音声表現304においてさらに適合/調整され得る。一方、ASRモデル300bは、非口頭トレーニングテキスト発話302bのうちの対応する1つと各々ペアにされた、合成音声表現のフィルタ処理されたセット306Aと、対応する転写302aと各々ペアにされた、口頭トレーニング発話305のセットにおける非合成音声表現304との混合を使用して、最初からトレーニングされ得る。
【0072】
他の例では、S2S変換モデル300aをトレーニングすることは、最初からS2S変換モデル300aをトレーニングすることを含む。最初からS2S変換モデル300aをトレーニングすることは、非口頭トレーニングテキスト発話302bのうちの対応する1つと各々ペアにされた、合成音声表現のフィルタ処理されたセット306Aと、対応する転写302aと各々ペアにされた、口頭トレーニング発話305のセットにおける非合成音声表現304との混合において、トレーニングすることを含み得る。ここで、モデル300は、モデル300aが、並列に、対応する合成された標準的な流暢な音声表現316を出力するように、並列に、非合成音声表現304および合成音声表現306の対応するバッチにおいてトレーニングされ得る。
【0073】
トレーニングプロセス200の最終トレーニング段階200eは、バックプロパゲーションを通して、ASRモデル300bをトレーニングするために、確率的勾配降下法などの確率的最適化アルゴリズムを使用し得る。ASRモデル300bをトレーニングするための確率的最適化アルゴリズムの使用の詳細については、S2S変換モデル300aのトレーニングに関して上記で論じている。
【0074】
図3は、非定型音声に関連付けられたターゲット話者のために個別化された音声変換モデルをトレーニングする方法380のための動作の例示的な配列のフローチャートを提供する。フローチャートについて、
図1A、
図1B、および
図2A~
図2Eのトレーニングプロセス200に関して説明することがある。データ処理ハードウェア410(
図4)は、データ処理ハードウェア410と通信しているメモリハードウェア420(
図4)上に記憶された命令を実行することによって、方法380のための動作を実行し得る。データ処理ハードウェア410およびメモリハードウェア420は、
図1Aおよび
図1Bのリモートサーバ112および/またはユーザコンピューティングデバイス110など、コンピューティングデバイス400(
図4)上に存在し得る。動作382において、方法380は、複数のトレーニングテキスト発話302a、302bを取得する。ここで、複数のトレーニングテキスト発話の第1の部分は、口頭トレーニング発話305、305a~nのセットにおける複数の転写302aを含む。各口頭トレーニング発話305は、非定型音声に関連付けられたターゲット話者104によって話され、対応する口頭トレーニング発話305の対応する非合成音声表現304とペアにされた対応する転写302aを含む。口頭トレーニング発話305のセットは、
図2Aの個別化されたシードデータ収集段階200aの間に取得され得る。複数のトレーニングテキスト発話の第2の部分は、それにおいて音声変換モデル300が学習するようにトレーニングされる特定の領域に関係する、複数の非口頭トレーニングテキスト発話302bを含む。各非口頭トレーニングテキスト発話302bは、いかなる対応する口頭発話ともペアにされない。複数の非口頭トレーニングテキスト発話302bは、
図2Bのデータ生成段階200bの間に取得され得る。
【0075】
動作384において、方法380は、口頭トレーニング発話305のセットを使用して、ターゲット話者の声における、かつターゲット話者に関連付けられた非定型音声をキャプチャする音声を合成するように、テキスト音声(TTS)モデル210を適合させることを含む。TTSモデル210を適合させることの詳細については、
図2Cの適合段階200cに関して説明している。
【0076】
動作386において、複数の非口頭トレーニングテキスト発話のうちの各非口頭トレーニングテキスト発話302bについて、方法380は、適合されたTTSモデル210からの出力として、対応する非口頭トレーニングテキスト発話302bの合成音声表現306を生成することも含む。ここで、適合されたTTSモデル210から出力された各合成音声表現306は、ターゲット話者104の声におけるものであり、ターゲット話者104に関連付けられた非定型音声をキャプチャする。動作388において、方法380は、複数の非口頭トレーニングテキスト発話のうちの各非口頭トレーニングテキスト発話302bについて、適合されたTTSモデル210によって生成された合成音声表現306に基づいて、音声変換モデル300をトレーニングすることも含む。音声変換モデル300をトレーニングすることは、S2S変換モデル300aまたは音声テキスト(たとえば、ASR)モデル300bのうちの少なくとも1つをトレーニングすることを含む。
【0077】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指すことがある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーム用アプリケーションを含むが、それに限定されない。
【0078】
非一時的メモリは、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイスによる使用のために、一時的または永続的に記憶するために使用される物理デバイスであり得る。非一時的メモリは、揮発性および/または不揮発性アドレス可能半導体メモリであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェアのために使用される)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。
【0079】
図4は、本明細書で説明するシステムおよび方法を実装するために使用され得る、例示的なコンピューティングデバイス400の概略図である。コンピューティングデバイス400は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すことを意図している。ここに示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示であることのみを意図しており、本明細書で説明および/または請求する本発明の実装形態を限定することは意図していない。
【0080】
コンピューティングデバイス400は、プロセッサ410と、メモリ420と、記憶デバイス430と、メモリ420および高速拡張ポート450に接続する高速インターフェース/コントローラ440と、低速バス470および記憶デバイス430に接続する低速インターフェース/コントローラ460とを含む。構成要素410、420、430、440、450、および460の各々は、様々なバスを使用して相互接続され、共通マザーボード上に、または適宜に他の方法で搭載され得る。プロセッサ410は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を、高速インターフェース440に結合されたディスプレイ480などの外部入力/出力デバイス上に表示するための、メモリ420中または記憶デバイス430上に記憶された命令を含む、コンピューティングデバイス400内での実行のための命令を処理することができる。他の実装形態では、適宜に、複数のメモリおよび複数のタイプのメモリとともに、複数のプロセッサおよび/または複数のバスが使用されてもよい。また、複数のコンピューティングデバイス400が接続されてよく、各デバイスは、必要な動作の部分を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。
【0081】
メモリ420は、コンピューティングデバイス400内に情報を非一時的に記憶する。メモリ420は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ420は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス400による使用のために、一時的または永続的に記憶するのに使われる物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電子的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェアのために使用される)を含むが、それに限定されない。揮発性メモリの例は、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含むが、それに限定されない。
【0082】
記憶デバイス430は、コンピューティングデバイス400に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス430は、コンピュータ可読媒体である。様々な異なる実装形態では、記憶デバイス430は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、あるいは、ストレージエリアネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実装形態では、コンピュータプログラム製品が、情報キャリア中で有形に実施される。コンピュータプログラム製品は、実行されると、上記で説明したものなど、1つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ420、記憶デバイス430、またはプロセッサ410上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。
【0083】
高速コントローラ440は、コンピューティングデバイス400のための帯域幅集約的な動作を管理するが、低速コントローラ460は、帯域幅低集約的な動作を管理する。役割のそのような割振りは、例示にすぎない。いくつかの実装形態において、高速コントローラ440は、メモリ420、ディスプレイ480に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)、および様々な拡張カード(図示せず)を受ける場合がある高速拡張ポート450に結合される。いくつかの実装形態において、低速コントローラ460は、記憶デバイス430および低速拡張ポート490に結合される。低速拡張ポート490は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得るが、キーボード、ポインティングデバイス、スキャナなど、1つもしくは複数の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえば、ネットワークアダプタを通して結合され得る。
【0084】
コンピューティングデバイス400は、図に示されるように、いくつかの異なる形態で実装され得る。たとえば、コンピューティングデバイス400は、標準サーバ400aとして、またはラップトップコンピュータ400bなどのサーバ400aのグループにおいて、またはラックサーバシステム400cの一部として複数回実装され得る。
【0085】
本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現され得る。これらの様々な実装形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含むことができ、プログラマブルプロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するように、かつそれらにデータおよび命令を送信するように結合された、専用または汎用であってもよい。
【0086】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られている)は、プログラマブルプロセッサ用の機械命令を含み、高水準手続き型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ/機械言語で実装され得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに、機械命令および/またはデータを提供するために使用される、任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される任意の信号を指す。
【0087】
本明細書で説明するプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実行するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、専用論理回路、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によっても実行され得る。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から、命令およびデータを受信することになる。コンピュータの本質的要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受信し、もしくは大容量記憶デバイスにデータを転送し、または両方を行うように大容量記憶デバイスに動作可能に結合される。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内部ハードディスクまたは取外し可能ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路によって補完され得るか、専用論理回路に組み込まれ得る。
【0088】
ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、随意に、それによってユーザがコンピュータに入力を与えることができるキーボードおよびポインティングデバイス、たとえば、マウスまたはトラックボールとを有する、コンピュータ上で実装され得る。他の種類のデバイスも、ユーザとの対話を提供するために使用されてよく、たとえば、ユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであってよく、ユーザからの入力は、音響、音声、または触覚入力を含む、任意の形態で受信されてよい。さらに、コンピュータは、ユーザによって使われるデバイスへドキュメントを送信し、デバイスからドキュメントを受信することによって、たとえば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザへウェブページを送信することによって、ユーザと対話することができる。
【0089】
いくつかの実装形態について説明した。それでも、本開示の趣旨および範囲から逸脱することなしに様々な修正が行われ得ることが理解されよう。したがって、他の実装形態は、以下の特許請求の範囲内である。
【符号の説明】
【0090】
100 音声変換システム、システム
100a 音声変換システム、S2S変換システム、音声-音声変換システム
100b 音声変換システム、音声テキスト変換システム、システム
102 入力オーディオデータ、オーディオデータ
104 ターゲット話者
106 出力オーディオデータ
108 発話、非定型音声発話
110 コンピューティングデバイス、ユーザデバイス、ユーザコンピューティングデバイス
112 リモートサーバ
114 同じ発話の合成された標準的な流暢な音声表現、発話の合成された標準的な流暢な音声表現、同じ発話
116、400 コンピューティングデバイス
118 ユーザ
120 標準的なテキスト表現(すなわち、転写)、標準的なテキスト表現、標準的な転写
200 トレーニングプロセス、プロセス
200a 個別化されたシードデータ収集段階
200b データ生成段階
200c 適合段階
200d 検証およびフィルタ処理段階
200e 最終トレーニング段階
202 データストア
210 テキスト音声(TTS)モデル、TTSモデル、モデル、適合されたTTSモデル、事前トレーニングされた参照TTSモデル
212 エンコーダ、エンコーダニューラルネットワーク
213 固定長コンテキストベクトル
214 デコーダ
250 テキストデコーダ、デコーダ、デコーダ部分
300 音声変換モデル、モデル
300a 音声変換モデル、音声-音声(S2S)変換モデル、S2S変換モデル、音声-音声変換モデル、S2S音声変換モデル、モデル
300b 音声テキスト変換モデル、自動音声認識(ASR)モデル、ASRモデル、参照ASRモデル、音声テキスト(たとえば、ASR)モデル
301 参照S2S変換モデル、モデル、適合されたS2S変換モデル、参照S2S音声変換モデル、適合されたS2S音声変換モデル、S2S音声変換モデル
302 トレーニングテキスト発話、非口頭トレーニングテキスト発話、非口頭テキスト発話、転写
302a 転写、手動で転写された音響データ、トレーニングテキスト発話
302b 非口頭トレーニングテキスト発話、テキスト発話、トレーニングテキスト発話
304 非合成音声表現、手動で転写された音響データ、転写
305、305a~n 口頭トレーニング発話
306 合成音声、合成された音声、合成音声表現、非定型合成音声表現
306A 合成音声表現のフィルタ処理されたセット、合成音声表現
310 スペクトログラムエンコーダ
316 合成された標準的な流暢な音声、合成された標準的な流暢な音声表現、合成の標準的な流暢な音声表現
318 テキスト表現、標準的なテキスト表現
320 スペクトログラムデコーダ
340 教師あり損失単語モジュール
342 単語誤り率損失
350 エンコーダ、テキストエンコーダ、エンコーダ部分
375 合成器
380 方法
400a 標準サーバ、サーバ
400b ラップトップコンピュータ
400c ラックサーバシステム
402 非口頭テキストのコーパス、非口頭テキストコーパス、コーパス、テキストコーパス、非口頭テキスト発話のコーパス
404 言語モデル、領域固有言語モデル(LM)、LM、領域固有LM、領域固有言語モデル
406 背景言語モデル(LM)、背景LM、言語モデル、LM、背景言語モデル
408 スコアラー
410 データ処理ハードウェア、プロセッサ、構成要素
420 メモリハードウェア、メモリ、構成要素、非一時的メモリ
430 記憶デバイス、構成要素
440 高速インターフェース/コントローラ、構成要素、高速インターフェース、高速コントローラ
450 高速拡張ポート、構成要素
460 低速インターフェース/コントローラ、構成要素、低速コントローラ
470 低速バス
480 ディスプレイ
490 低速拡張ポート