特表2024-511625 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特表2024-511625コンフォーマベースの音声変換モデル

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-14

(54)【発明の名称】コンフォーマベースの音声変換モデル

(51)【国際特許分類】

G10L 21/007 20130101AFI20240307BHJP

【ＦＩ】

G10L21/007

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023558802

(86)(22)【出願日】2022-03-16

(85)【翻訳文提出日】2023-11-06

(86)【国際出願番号】 US2022020606

(87)【国際公開番号】W WO2022203922

(87)【国際公開日】2022-09-29

(31)【優先権主張番号】63/166,954

(32)【優先日】2021-03-26

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/312,195

(32)【優先日】2022-02-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(72)【発明者】

【氏名】ラマバドラン、ブバナ

(72)【発明者】

【氏名】チェン、ジェフアイ

(72)【発明者】

【氏名】ビアジー、ファディ

(72)【発明者】

【氏名】メンヒバル、ペドロジェイ．モレノ

(57)【要約】

音声変換の方法（６００）は、音声変換モデル（２００）のエンコーダ（２１０）への入力として、発話（１０８）に対応する入力スペクトログラム（１０２）を受信する工程を含み、エンコーダは、自己注意ブロック（４００）のスタックを含む。方法は、エンコーダからの出力として、エンコード済みスペクトログラム（２１２）を生成する工程と、音声変換モデルのスペクトログラムデコーダ（２２０）への入力として、エンコーダからの出力として生成されたエンコード済みスペクトログラムを受信する工程とをさらに含む。方法は、スペクトログラムデコーダからの出力として、発話の合成音声表現に対応する出力スペクトログラム（２２２）を生成することをさらに含む。

【特許請求の範囲】

【請求項1】

音声変換モデル（２００）であって、
自己注意ブロック（４００）のスタックを含むエンコーダ（２１０）であって、発話（１０８）に対応する入力スペクトログラム（１０２）をエンコードするよう構成されたエンコーダ（２１０）と、
スペクトログラムデコーダ（２２０ａ）であって、
前記エンコーダ（２１０）からエンコード済みスペクトログラム（２１２）を入力として受信するとともに、
前記発話（１０８）の合成音声表現に対応する出力スペクトログラム（２２２）を出力として生成するよう構成されたスペクトログラムデコーダ（２２０ａ）と、を備える音声変換モデル（２００）。

【請求項2】

前記発話（１０８）に対応する前記入力スペクトログラム（１０２）は、非典型的な音声に関連付けられた話者（１０４）によって話された入力音声から抽出され、
前記発話（１０８）の前記合成音声表現は、前記発話の合成された標準的で流暢な音声表現を含む、請求項１に記載の音声変換モデル（２００）。

【請求項3】

単語片デコーダ（２２０ｂ）であって、
前記エンコーダ（２１０）から前記エンコード済みスペクトログラム（２１２）を入力として受信するとともに、
前記発話（１０８）のトランスクリプション（２０１）に対応するテキスト表現を出力として生成するよう構成された単語片デコーダ（２２０ｂ）をさらに備える、請求項１または２に記載の音声変換モデル（２００）。

【請求項4】

音素デコーダ（２２０ｃ）であって、
前記エンコーダ（２１０）から前記エンコード済みスペクトログラム（２１２）を入力として受信するとともに、
前記発話（１０８）の音素表現（２０２）を出力として生成するよう構成された音素デコーダ（２２０ｃ）をさらに備える、請求項１乃至３のいずれか一項に記載の音声変換モデル（２００）。

【請求項5】

前記自己注意ブロック（４００）のスタックは、コンフォーマブロック（４００）のスタックを含み、各コンフォーマブロックは、マルチヘッド自己注意機構（４２０）を含む、請求項１乃至４のいずれか一項に記載の音声変換モデル（２００）。

【請求項6】

前記エンコーダ（２１０）は、前記コンフォーマブロック（４００）のスタックの前に配置されるとともに、前記入力スペクトログラム（１０２）を受信するよう構成された第１のサブサンプリング層（３０５）をさらに含み、前記第１のサブサンプリング層（３０５）は、ＣＮＮ（畳み込みニューラルネットワーク）層を含み、該ＣＮＮ層の後に時間方向にプーリングが行われることで、前記コンフォーマブロック（４００）のスタック内の最初のコンフォーマブロックによって処理されるフレームの数を低減する、請求項５に記載の音声変換モデル（２００）。

【請求項7】

前記エンコーダ（２１０）は、前記コンフォーマブロック（４００）のスタック内のコンフォーマブロック（４００ａ）の最初のセットと前記コンフォーマブロック（４００）のスタック内のコンフォーマブロック（４００ｂ）の最後のセットとの間に配置された第２のサブサンプリング層（３１５）をさらに含み、前記第２のサブサンプリング層（３１５）は、前記コンフォーマブロック（４００ａ）の最初のセット内の最後のコンフォーマブロックによって出力された隠れ表現をサブサンプリングすることで、前記コンフォーマブロック（４００ｂ）の最後のセットによって処理されるフレームの数を低減するよう構成される、請求項６に記載の音声変換モデル（２００）。

【請求項8】

前記エンコーダ（２１０）は、前記コンフォーマブロック（４００）のスタックの後に配置されたアップサンプリング層（３２５）をさらに含み、前記アップサンプリング層（３２５）は、前記コンフォーマブロック（４００）のスタック内の最後のコンフォーマブロックによって出力された隠れ表現をアップサンプリングするよう構成された単一の転置ＣＮＮ層を含むことで、前記エンコーダ（２１０）と前記スペクトログラムデコーダ（２２０ａ）との間に配置された相互注意機構（２３１ａ）によって処理されるフレームの数を増加させる、請求項７に記載の音声変換モデル（２００）。

【請求項9】

前記音声変換モデル（２００）は、２ステップトレーニングプロセス（５００）を使用してトレーニングされ、前記２ステップトレーニングプロセスは、
標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話について前記音声変換モデル（２００）を事前トレーニングする第１のトレーニングステップであって、各話された発話は、前記発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされる、第１のトレーニングステップと、
非典型的な音声に関連付けられた話者によって話された複数の非典型的な音声サンプルに基づいて、事前トレーニングされた前記音声変換モデル（２００）のパラメータを微調整する、第２のトレーニングステップと、を含む請求項１乃至８のいずれか一項に記載の音声変換モデル（２００）。

【請求項10】

前記スペクトログラムデコーダ（２２０ａ）は、前記発話（１０８）のトランスクリプション（２０１）に対応するテキスト表現に対して中間のテキスト－音声変換を実行することなく、前記エンコード済みスペクトログラム（２１２）から前記出力スペクトログラム（２２２）を直接的に生成する、請求項１乃至９のいずれか一項に記載の音声変換モデル（２００）。

【請求項11】

データ処理ハードウェア（７１０）上で実行されると、前記データ処理ハードウェア（７１０）に動作を実行させる、コンピュータが実施する方法（６００）であって、前記動作は
音声変換モデル（２００）のエンコーダ（２１０）への入力として、発話（１０８）に対応する入力スペクトログラム（１０２）を受信する工程であって、前記エンコーダ（２１０）は、自己注意ブロック（４００）のスタックを含む、工程と、
前記エンコーダ（２１０）からの出力として、エンコード済みスペクトログラム（２１２）を生成する工程と、
前記音声変換モデル（２００）のスペクトログラムデコーダ（２００ａ）への入力として、前記エンコーダ（２１０）からの出力として生成された前記エンコード済みスペクトログラム（２１２）を受信する工程と、
前記スペクトログラムデコーダ（２２０ａ）からの出力として、前記発話（１０８）の合成音声表現に対応する出力スペクトログラム（２２２）を生成する、出力スペクトログラム生成工程と、を含むコンピュータが実施する方法（６００）。

【請求項12】

前記発話（１０８）に対応する前記入力スペクトログラム（１０２）は、非典型的な音声に関連付けられた話者（１０４）によって話された入力音声から抽出され、
前記発話の前記合成音声表現は、前記発話の合成された標準的で流暢な音声表現を含む、請求項１１に記載の方法（６００）。

【請求項13】

前記動作は、
前記音声変換モデル（２００）の単語片デコーダ（２２０ｂ）への入力として、前記エンコーダ（２１０）からの出力として生成された前記エンコード済みスペクトログラム（２１２）を受信する工程と、
前記単語片デコーダ（２２０ｂ）からの出力として、前記発話（１０８）のトランスクリプション（２０１）に対応するテキスト表現を生成する工程と、をさらに含む請求項１１または１２に記載の方法（６００）。

【請求項14】

前記動作は、
前記音声変換モデル（２００）の音素デコーダ（２２０ｃ）への入力として、前記エンコーダ（２１０）からの出力として生成された前記エンコード済みスペクトログラム（２１２）を受信する工程と、
前記音素デコーダ（２２０ｃ）からの出力として、前記発話（１０８）の音素表現（２０２０）を生成する工程と、をさらに含む請求項１１乃至１３のいずれか一項に記載の方法（６００）。

【請求項15】

前記エンコーダ（２１０）の前記自己注意ブロック（４００）のスタックは、コンフォーマブロック（４００）のスタックを含み、各コンフォーマブロックは、マルチヘッド自己注意機構（４２０）を含む、請求項１１乃至１４のいずれか一項に記載の方法（６００）。

【請求項16】

【請求項17】

【請求項18】

【請求項19】

前記音声変換モデル（２００）は、２ステップトレーニングプロセス（５００）を使用してトレーニングされ、前記２ステップトレーニングプロセスは、
標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話について前記音声変換モデル（２００）を事前トレーニングする第１のトレーニングステップであって、各話された発話は、前記発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされる、第１のトレーニングステップと、
非典型的な音声に関連付けられた話者によって話された複数の非典型的な音声サンプルに基づいて、事前トレーニングされた前記音声変換モデルのパラメータを微調整する、第２のトレーニングステップと、を含む請求項１１乃至１８のいずれか一項に記載の方法（６００）。

【請求項20】

前記出力スペクトログラム生成工程は、前記発話（１０８）のトランスクリプション（２０１）に対応するテキスト表現に対して中間のテキスト－音声変換を実行することなく、前記入力スペクトログラム（２１２）から前記出力スペクトログラム（２２２）を直接的に生成する工程を含む、請求項１１乃至１９のいずれか一項に記載の方法（６００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、コンフォーマベースの音声変換モデルに関する。

【背景技術】

【0002】

音声変換モデルは、音声の言語情報を変更することなくソース話者の音声を別の形式に修正するために使用可能である。例えば、音声変換モデルは、ユーザの音声のトランスクリプトを生成することができる。或いは、音声変換モデルは、ユーザの音声を別の言語の音声の音声波形に変換することができる。機械学習方法は、音声を別の形式に正確かつ効率的に変換する音声変換モデルをトレーニングするために使用可能である。

【発明の概要】

【発明が解決しようとする課題】

【0003】

コンフォーマベースの音声変換モデルを提供する。

【課題を解決するための手段】

【0004】

本開示の一態様は、発話に対応する入力スペクトログラムをエンコードするよう構成された自己注意ブロックのスタックを含むエンコーダを含む音声変換モデルを提供する。音声変換モデルは、エンコーダからエンコード済みスペクトログラムを入力として受信するよう構成されたスペクトログラムデコーダをさらに含む。スペクトログラムデコーダは、発話の合成音声表現に対応する出力スペクトログラムを出力として生成するようさらに構成される。

【0005】

本開示の実装は、以下の選択的特徴のうちの１つまたは複数を含んでよい。いくつかの実装では、発話に対応する入力スペクトログラムは、非典型的な音声に関連付けられた話者によって話された入力音声から抽出される。これらの実装では、発話の合成音声表現は、発話の合成された標準的で流暢な音声表現を含む。さらに、音声変換モデルは、エンコーダからエンコード済みスペクトログラムを入力として受信するとともに、発話のトランスクリプションに対応するテキスト表現を出力として生成するよう構成された単語片デコーダを含んでよい。

【0006】

さらに、音声変換モデルは、エンコーダからエンコード済みスペクトログラムを入力として受信するとともに、発話の音素表現を出力として生成するよう構成された音素デコーダを含んでよい。

【0007】

いくつかの実装では、自己注意ブロックのスタックは、コンフォーマブロックのスタックを含み、各コンフォーマブロックは、マルチヘッド自己注意機構を有する。これらの実装では、エンコーダは、コンフォーマブロックのスタックの前に配置されるとともに、入力スペクトログラムを受信するよう構成された第１のサブサンプリング層をさらに含んでよく、第１のサブサンプリング層は、ＣＮＮ（畳み込みニューラルネットワーク）層を含み、その後、時間方向にプーリングが行われることで、コンフォーマブロックのスタック内の最初のコンフォーマブロックによって処理されるフレームの数を低減する。さらに、これらの実装では、エンコーダは、コンフォーマブロックのスタック内のコンフォーマブロックの最初のセットとコンフォーマブロックのスタック内のコンフォーマブロックの最後のセットとの間に配置された第２のサブサンプリング層を含んでよく、第２のサブサンプリング層は、コンフォーマブロックの最初のセット内の最後のコンフォーマブロックによって出力された隠れ表現をサブサンプリングすることで、コンフォーマブロックの最後のセットによって処理されるフレームの数を低減するよう構成される。これらの実装では、エンコーダは、コンフォーマブロックのスタックの後に配置されたアップサンプリング層をさらに含んでよく、アップサンプリング層は、コンフォーマブロックのスタック内の最後のコンフォーマブロックによって出力された隠れ表現をアップサンプリングするよう構成された単一の転置ＣＮＮ層を含むことで、エンコーダとスペクトログラムデコーダとの間に配置された相互注意機構によって処理されるフレームの数を増加させる。

【0008】

さらに、音声変換モデルは、標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話について音声変換モデルを事前トレーニングする第１のトレーニングステップを含む２ステップトレーニングプロセスを使用してトレーニングされてよい。ここで、各話された発話は、発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされる。２ステップトレーニングプロセスは、非典型的な音声に関連付けられた話者によって話された複数の非典型的な音声サンプルに基づいて、事前トレーニングされた音声変換モデルのパラメータを微調整する第２のトレーニングステップをさらに含む。

【0009】

いくつかの実装では、スペクトログラムデコーダは、発話のトランスクリプションに対応するテキスト表現に対して中間のテキスト－音声変換を実行することなく、エンコード済みスペクトログラムから出力スペクトログラムを直接的に生成する。

【0010】

本開示の別の態様は、音声変換モデルのためにコンピュータが実施する方法を提供する。コンピュータが実施する方法は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる。動作は、音声変換モデルのエンコーダへの入力として、発話に対応する入力スペクトログラムを受信する工程を含み、エンコーダは、自己注意ブロックのスタックを含む。動作は、エンコーダからの出力として、エンコード済みスペクトログラムを生成する工程をさらに含む。動作は、音声変換モデルのスペクトログラムデコーダへの入力として、エンコーダからの出力として生成されたエンコード済みスペクトログラムを受信する工程を含む。動作は、スペクトログラムデコーダからの出力として、発話の合成音声表現に対応する出力スペクトログラムを生成する、出力スペクトログラム生成工程をさらに含む。

【0011】

この態様は、以下の選択的特徴のうちの１つまたは複数を含んでよい。いくつかの実装では、発話に対応する入力スペクトログラムは、非典型的な音声に関連付けられた話者によって話された入力音声から抽出される。これらの実装では、発話の合成音声表現は、発話の合成された標準的で流暢な音声表現を含む。

【0012】

いくつかの実装では、動作は、音声変換モデルの単語片デコーダへの入力として、エンコーダからの出力として生成されたエンコード済みスペクトログラムを受信する工程を含む。これらの実装は、単語片デコーダからの出力として、発話のトランスクリプションに対応するテキスト表現を生成する工程をさらに含む。動作は、音声変換モデルの音素デコーダへの入力として、エンコーダからの出力として生成されるエンコード済みスペクトログラムを受信する工程と、音素デコーダからの出力として、発話の音素表現を生成する工程とをさらに含んでよい。

【0013】

【0014】

【0015】

【0016】

本開示の１つまたは複数の実装の詳細は、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになるであろう。

【図面の簡単な説明】

【0017】

【図1】音声変換モデルを含む例示的な音声変換システムの概略図。

【図2】音声変換モデルの概略図。

【図3】音声変換モデルのトレーニングおよび推論時間を高速化するための例示的な混合フレームレート処理方式の概略図。

【図4】例示的なコンフォーマブロックの概略図。

【図5】音声変換モデルのための例示的なトレーニング方式の概略図。

【図6】音声変換を実行する方法のための動作の例示的な構成のフローチャート。

【図7】本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図。

【発明を実施するための形態】

【0018】

様々な図面における同様の参照符号は、同様の要素を示す。
より包括的な音声技術、特に発話障害を有する人々を助けることができる音声技術を開発することへの関心が高まっている。ＡＳＲ（自動音声認識）は、正確なトランスクリプションへの変換のために、構音障害または非典型的な音声パターンを有する話者からの音声を認識するＥ２Ｅ（エンドツーエンド）深層学習ベースのモデルの導入によって、途方もなく進歩してきた。例えば、非典型的な音声パターンは、身体的または神経学的状態（例えば、ＡＬＳ（筋萎縮性側索硬化症）疾患を有する話者）に起因する障害のある音声、重度のアクセントのある音声、および聴覚障害のある音声を含み得るが、これに限定されない。音声変換システムは、同様の深層学習ベースのモデルを適用することで、非典型的な音声パターンを有する音声を標準的で流暢な出力音声に変換することができる。

【0019】

マッチングされたトレーニングデータ分布およびテストデータ分布は、音声変換モデルをトレーニングするための最適な性能をもたらすことが知られている。しかしながら、発話障害を有する話者からのトレーニングデータが不十分なので、現在の方法を使用してモデルをトレーニングすることは困難になり得る。さらに、発話障害を有するユーザは、モデルを十分にトレーニングするために必要なだけのデータを記録することに多大な労力を要すると感じ得るので、そのようなトレーニングデータを得ることは困難である。本開示は、エンコーダ／デコーダアーキテクチャを有する音声変換モデルに対する改善を提供する。この改善は、必要なトレーニングデータを少なくし、音声変換モデルのトレーニングを促進し、モデルが大きなユーザの集団に拡大することを可能にし、さらに広範囲の非典型的な音声に対して対応できる。本開示は、エンコーダアクティベーションのサブサンプルと、典型的なエンコーダ出力の対応するアップサンプリングとを使用して、音声変換モデルに対するアーキテクチャ変更を通じてこの改善を提供する。本開示は、タスクのための共有エンコーダアーキテクチャを使用して推論中に音声とテキストの両方を共同でデコードする統合モデルにおける多対１のＶＣ（音声変換）とＡＳＲとの組合せをさらに提供する。

【0020】

本明細書で使用される場合、別段の指定がない限り、「音声変換システム」および「音声変換モデル」という用語は、入力された非典型的な音声が認識されるとともに、対応するテキスト（例えば、トランスクリプション）および／または非典型的な音声を表す音素のセットに変換されるＡＳＲシステム／モデル、または入力された非典型的な音声が音声認識を実行せずに標準的で流暢な合成音声に直接的に変換される音声－音声変換システム／モデルの任意の組合せを指し得る。別の言い方をすれば、音声変換システム／モデルは、入力音声波形を中間表現（例えば、テキストまたは音素）に変換することなく、非典型的な音声に対応する入力音声波形またはスペクトログラムを、標準的で流暢な音声に対応する出力音声波形またはスペクトログラムに直接的に変換するよう構成される。明らかになるように、音声変換モデル、および音声変換モデルをトレーニングするための技法は、ユーザの意図した音声の認識および／または再生を可能にすることによって、非典型的な音声を有するユーザが、他の人間および音声インターフェース（例えば、デジタルアシスタント）の両方と話すこと、およびそれらによって理解されることを可能にする。本明細書の例は、標準的で流暢な音声に対応する出力音声波形またはスペクトログラムへの変換のための、非典型的な音声に対応する入力音声波形またはスペクトログラムを受信する音声変換モデルを示すが、音声変換モデルは、本開示の範囲から逸脱することなく、他の種類の音声変換タスクを実行するように同様に適合されてよい。例えば、音声変換モデルは、第１言語での発話に対応する入力音声波形またはスペクトログラムを、異なる第２言語での発話の翻訳に対応する出力音声波形またはスペクトログラムに変換してよい。音声変換モデルは、同様に、ユーザによる発話入力を受信し、発話入力と同じ言語内容を含むが、ターゲット話者の異なる音声特性を有する合成音声を出力してもよい。

【0021】

図１は、音声変換モデル２００およびボコーダ３７４を含む音声変換システム１００を示す。音声変換モデル２００は、非典型的な音声に関連付けられたソース話者１０４によって話された発話１０８に対応する入力音声データ１０２を、ターゲット話者１０４によって話された同じ発話１１４の合成された標準的で流暢な音声表現に対応する出力音声データ１０６に変換するよう構成される。本明細書で使用される場合、入力音声データ１０２は、発話１０８に対応する入力スペクトログラムを含み得る。本明細書で使用される場合、出力音声データ１０６は、同じ発話１１４の合成された標準的で流暢な音声表現に対応する出力スペクトログラム２２２、またはボコーダ３７５によって出力スペクトログラム２２２から変換された時間領域音声波形３７６を含み得る。図示されていないが、ユーザデバイス１１０上に常駐する音響フロントエンドは、ユーザデバイス１１０のマイクロフォンを介してキャプチャされた発話１０８の時間領域音声波形を入力スペクトログラム１０２または他の種類の音声データ１０２に変換してよい。いくつかの実装では、音声変換モデル２００は、発話１０８に対応する入力音声データ１０２を、発話１０８のトランスクリプション２０１または音素表現２０２に対応するテキスト表現（例えば、書記素、単単語片、または単語）に変換する。いくつかの追加的な実装では、音声変換システム１００の音声変換モデル２００は、音声認識を実行することなく、または入力音声データ１０２から中間の離散的表現（例えば、テキストまたは音素）の生成を必要とすることなく、入力音声データ１０２（例えば、入力スペクトログラム）を出力音声データ１０６（例えば、出力スペクトログラム２２２）に直接的に変換するよう構成される。

【0022】

音声変換モデル２００は、入力スペクトログラム１０２をエンコード済みスペクトログラム２１２（例えば、一連のベクトルを含む隠れ特徴表現）にエンコードするよう構成されたスペクトログラムエンコーダ２１０と、エンコード済みスペクトログラム２１２を、合成された標準的で流暢な音声表現、トランスクリプション２０１、および／または音素表現２０２に対応する出力スペクトログラム２２２にデコードするよう構成された１つまたは複数のデコーダ２２０、２２０ａ～ｃとを含む。トランスクリプト２０１は、人間の読み手によって理解され得る、および／または下流のアプリケーション（例えば、デジタルアシスタント）によって理解され得る、発話１０８の標準的で流暢なトランスクリプションを含んでよい。

【0023】

エンコーダ２１０は、コンフォーマまたはトランスフォーマを含み得るマルチヘッド注意ブロック４００（本明細書ではコンフォーマブロック４００と呼ばれる）のスタックを含み得る。各マルチヘッド注意ブロック４００は、マルチヘッド注意機構４２０（図４）を含んでよい。コンフォーマブロック４００は、エンコーダ２１０によって実装されて、入力される非典型的な音声の高分解能なスペクトルパターン（ｐａｔｔｅｒｓ）をキャプチャしてよい。例えば、スペクトログラムエンコーダ２１０が発話１０８の入力音声データ１０２を受信すると、スペクトログラムエンコーダ２１０は、コンフォーマブロック４００を使用して入力スペクトログラム１０２の１０ミリ秒（ｍｓ）の音声サンプルを処理することで、アップサンプリングされた４０ｍｓのエンコード済みスペクトログラム２１２を生成してよい。エンコーダ２１０のコンフォーマブロック４００によるアップサンプリングのプロセスは、以下の図３および図４を用いてより詳細に説明される。次に、スペクトログラムデコーダ２２０ａは、スペクトログラムエンコーダ２１０から出力されたアップサンプリングされたエンコード済みスペクトログラム２１２に基づいて、合成された標準的で流暢な音声表現に対応する出力スペクトログラム２２２を生成してよい。例えば、スペクトログラムデコーダ２２０ａは、入力スペクトログラム１０２の１０ｍｓの音声サンプルを表す、アップサンプリングされた４０ｍｓのエンコード済みスペクトログラム２１２を、スペクトログラムエンコーダ２１０から受信してよい。ここで、相互注意機構２３１、２３１ａ（図２および図３）を通じて、スペクトログラムデコーダ２２０ａは、１０ｍｓの入力音声データ１０２として意図された単語または単語の一部を含むが非典型的な音声の非流暢性を含まない、発話１１４の合成された標準的で流暢な音声表現に対応する１２．５ｍｓの出力スペクトログラム２２２を生成してよい。

【0024】

いくつかの例では、音声変換モデル２００はまた、エンコード済みスペクトログラム２１２をテキスト表現、例えばトランスクリプション２０１にデコードする単語片デコーダ２２０ｂを含む。例えば、単語片デコーダ２２０ｂは、エンコード済みスペクトログラム２１２を、トランスクリプション２０１を形成し得る対応する単語片にデコードするようトレーニングされてよい。図示の例では、モデル２００によって単語片デコーダ２２０ｂが使用されているが、モデル２００は、代わりに、エンコード済みスペクトログラムを書記素または単語にデコードするよう構成された書記素デコーダ２２０ｂまたは単語デコーダ２２０ｂを使用してよい。追加的または代替的には、音声変換モデル２００は、エンコード済みスペクトログラム２１２を、発話１１４の合成された標準的で流暢な音声表現を示す音素を含む音素表現２０２にデコードする音素デコーダ２２０ｃを含んでもよい。したがって、スペクトログラム、単語片、および音素デコーダ２２０ａ～ｃは、音声変換モデル２００の並列のデコード分岐に対応してよい。デコード分岐のそれぞれは、スペクトログラムエンコーダ２１０によってエンコードされた、アップサンプリングされたエンコード済みスペクトログラム２１２を受信するとともに、出力スペクトログラム２２２、トランスクリプション２０１、および音素表現２０２のうちの対応するものを並列に出力する。音声変換システム１００のボコーダ３７５（シンセサイザ３７５とも呼ばれる）は、スペクトログラムデコーダ２２０ａによって出力された出力スペクトログラム２２２を、別のコンピューティングデバイス１１６からの可聴出力のために、同じ発話１１４の合成された標準的で流暢な音声の時間領域波形３７６に変換するよう構成される。時間領域音声波形は、経時的な音声信号の振幅を定める音声波形を含む。ボコーダ３７５は、出力スペクトログラム２２２を標準的で流暢な音声の時間領域波形に合成するためのユニット選択モジュールまたはＷａｖｅＮｅｔモジュールを含んでよい。いくつかの実装では、シンセサイザ３７５は、ボコーダネットワーク、すなわち、時間領域音声波形への変換のためにメル周波数スペクトログラム上で別個にトレーニングされ調整されるニューラルボコーダを含む。いくつかの追加的な例では、ボコーダ３７５は、ストリーミングＧｒｉｆｆｉｎ－Ｌｉｍボコーダなどのストリーミングボコーダ３７５を含む。例示的ストリーミングボコーダは、２０２２年２月２１日に出願された米国仮出願第６３／３１２１９５号に説明されており、その全体の内容は、参照により組み込まれる。

【0025】

示された例では、ソース話者１０４は、理解が困難であり得る非典型的な音声パターンでソース話者１０４が話すような、非典型的な音声に関連付けられている。非典型的な音声パターンは、身体的または神経学的状態（例えば、ＡＬＳ（筋萎縮性側索硬化症）疾患を有する話者）に起因する障害のある発話、重度のアクセントのある発話、および聴覚障害のある発話を含み得るが、これに限定されない。例として、ソース話者１０４は、ＡＬＳ疾患を有するとともに、ＡＬＳ疾患による非典型的な音声に関連付けられている。したがって、音声変換モデル２００は、ＡＬＳ音声に関連付けられたソース話者１０４によって話された発話１０８に対応する入力スペクトログラム１０２を、同じ発話１０８の合成された標準的で流暢な音声表現に対応する出力スペクトログラム２２２に直接的に変換するようトレーニングされる。したがって、出力スペクトログラム２２２によって提供された合成された標準的で流暢な音声表現は、ソース話者１０４によって話されたＡＬＳ音声の了解度を改善する。本開示の範囲から逸脱することなく、音声変換モデル２００は、第１言語の発話１０８に対応する入力スペクトログラム１０２を、ソース話者と同じ声であるが異なる第２言語の発話１０８の合成音声表現に対応する出力スペクトログラム２２２に直接的に変換する多言語音声変換モデルとしてトレーニングされてもよい。さらに、モデル２０は、第１の音声特性を有するソース話者によって話された発話１０８に対応する入力スペクトログラム１０２を、ターゲット話者に対応した異なる音声特性を有する同じ発話１０８の合成音声表現に対応する出力スペクトログラム２２２に直接的に変換するようトレーニングされてもよい。

【0026】

ソース話者１０４に関連付けられたコンピューティングデバイス１１０は、ソース話者１０４によって話された発話１０８をキャプチャするとともに、出力スペクトログラム２２２、トランスクリプション２０１、または音素表現２０２のうちのいずれかへの変換のために、対応する入力音声データ１０２を音声－音声変換システム１００に提供してよい。コンピューティングデバイス１１０は、スマートフォン、タブレット、デスクトップ／ラップトップコンピュータ、スマートスピーカ、スマートディスプレイ、スマート家電、アシスタント対応ウェアラブルデバイス（例えば、スマートウォッチ、スマートヘッドフォン、スマートグラスなど）、または車両インフォテインメント（ｉｎｆｏｔａｉｎｍｅｎｔ）システムを含み得るが、これに限定されない。その後、音声変換システム１００は、ボコーダ３７５を使用することで、出力スペクトログラム２２２を時間領域音声波形３７６に変換してよい。時間領域音声波形３７６は、合成された標準的で流暢な音声の発話１１４としてコンピューティングデバイス１１０または別のコンピューティングデバイス１１６から可聴的に出力されてよい。本開示の範囲から逸脱することなく、音声変換システム１００はまた、ソース話者１０４によって話された同じ発話１１４の合成された標準的で流暢な音声表現に対応するトランスクリプション２０１および／または音素表現２０２を、ユーザ１１８に関連付けられた別のコンピューティングデバイス１１６に提供してよい。これによって、別のコンピューティングデバイス１１６は、標準的なトランスクリプション２０１をソース話者１０４によって話された発話１０８の理解可能な表現として表示してよく、および／またはトランスクリプション２０１または音素表現２０２を合成された標準的で流暢な音声に変換するＴＴＳ（テキスト－音声）システムを使用してよい。この例では、ソース話者１０４およびユーザ１１８は、電話または他の種類の音声通信プロトコル、例えば、ボイスオーバインターネットプロトコルを介して、それぞれのコンピューティングデバイス１１０、１１６を通じて会話をしている。ソース話者１０４および他のユーザ１１８は、同一の言語を話し得るが、ソース話者１０４は、医学的状態（例えば、非典型的な音声）、強いアクセント、または異なる母国語による非典型的な音声を有するので、他のユーザ１１８がソース話者１０４を理解することは困難であり得る。したがって、ソース話者１０４は、理解が困難であり得る非典型的な音声（例えば、ＡＬＳ音声）で話すが、合成された標準的で流暢な音声表現を聞いている他のユーザ１１８は、ソース話者１０４によって意図された発話１０８の理解がより容易になる。別の言い方をすれば、合成された標準的で流暢な音声表現は、非典型的な音声でターゲット話者によって話された元の発話１０８よりも別のユーザにとって理解が容易であり得る、より一貫性のあるリズムを提供する。特に、合成された標準的で流暢な音声表現は、ソース話者１０４の声で話される。しかしながら、用途に応じて、音声変換システム１００は、合成された標準的で流暢な音声を、ソース話者とは異なる音声特性を有するターゲット話者の声で生成してもよい。

【0027】

いくつかの追加的な例では、音声変換システム１００は、ソース話者１０４によって話された発話の合成された標準的で流暢な音声表現に対応する出力音声データ１０６を、合成された標準的で流暢な音声表現をソース話者１０４の声で可聴的に聞き手に出力するための出力音声デバイスに送る。例えば、ソース話者１０４は、クラスの学生に講義を行う心理学教授であってもよく、ソース話者１０４によって話される発話は、特定のドメイン、例えば心理学に属する医学用語を含む。明らかになるように、音声－音声変換モデル２００は、特定のドメインに関連付けられた言語的多様性を学習するとともに、ソース話者１０４に関連付けられた特定の種類の非典型的な音声に関連付けられた音響的多様性を学習するようトレーニングされる。

【0028】

或いは、他のコンピューティングデバイス１１６は、音声変換システム１００が、合成された標準的で流暢な音声表現に対応する出力音声データ１０６を、認識されたテキストへの変換のためのＡＳＲ（自動音声認識）システムへの入力として提供するフロントエンドとして機能する、下流のＡＳＲシステムに関連付けられてよい。認識されたテキストは、他のユーザ１１８に提示されてよく、および／またはさらなる処理のためにＮＬＵ（自然言語理解）システムに提供されてよい。音声変換システム１００の機能は、リモートサーバ１１２、コンピューティングデバイス１１０、１１６のいずれかもしくは両方、またはリモートサーバおよびコンピューティングデバイス１１０、１１６の任意の組合せ上に常駐してよい。音声変換システム１００は、音声変換モデル２００がコンピューティングデバイス１１０またはリモートサーバ１１２のうちの１つに常駐し、ボコーダ３７５がリモートサーバ１１２または他のコンピューティングデバイス１１６のうちの１つに常駐するように、複数のデバイス間で分散されてよい。いくつかの実装では、音声変換モデル２００は、ソース話者１０４が発話に対応する部分を非典型的な音声として話すときに、発話の合成された標準的で流暢な音声表現に対応する出力スペクトログラム２２２を連続的に生成する。ソース話者１０４によって話された発話１０８の部分の合成された標準的で流暢な音声表現に対応する出力スペクトログラム２２２を連続的に生成することによって、ソース話者１０４とユーザ１１８（または聞き手）との間の会話は、より自然にペース調整され得る。いくつかの追加的な実装では、音声変換モデル２００は、非典型的な音声を有する発話１０８に対応する入力音声データ１０２を、同じ発話１１４の合成された標準的で流暢な音声表現に対応する出力スペクトログラム２２２に変換する前に、ボイスアクティビティ検出、終点、クエリ検出の終了などの技法を使用することで、ソース話者１０４が発話を停止するときを判定／検出するよう待機する。

【0029】

図２は、図１の音声変換システム１００によって使用される例示的な音声変換モデル２００の概略図を示す。音声変換モデル２００は、エンコーダ２１０および１つまたは複数のデコーダ２２０、２２０ａ～ｃを含む。エンコーダ２１０は、入力音声データ１０２をエンコード済みスペクトログラム２１２にエンコードするよう構成される。ここで、入力音声データ１０２は、ソース話者１０４によって話された発話１０８に対応する入力スペクトログラムのシーケンスを含む。いくつかの実施形態において、エンコーダ２１０は、コンフォーマブロック４００のスタックを含む。これらの実装では、エンコーダは、畳み込み層を使用して入力音声データ１０２をサブサンプリングし、次いで、コンフォーマブロック４００のスタックを用いて入力音声データ１０２を処理する。各コンフォーマブロック４００は、フィードフォワード層、自己注意層、畳み込み層、および第２のフィードフォワード層を含んでよい。いくつかの例では、コンフォーマブロック４００のスタックは、それぞれが５１２個の状態、８個の注意ヘッド、および３２×１の畳み込みカーネルサイズを有する１７層のコンフォーマブロックを含む。図４は、例示的なコンフォーマブロックの概略図である。エンコーダ２１０は、代わりに、コンフォーマブロックの代わりに、トランスフォーマブロックまたは軽量畳み込みブロックのスタックを使用してもよい。

【0030】

スペクトグラム、音素、および単語片デコーダ２２０、２２０ａ～ｃはそれぞれ、エンコーダ２１０によって出力された共有のエンコード済みスペクトログラム２１２をそれぞれ受信する回帰型ニューラルネットワークベースのアーキテクチャを含んでよい。スペクトログラムデコーダ２２０ａは、エンコーダ２１０から共有のエンコード済みスペクトログラム２１２を受信するよう構成された相互注意機構２３１、２３１ａ（図３にも示す）を含んでよい。スペクトログラムデコーダ２２０ａはさらに、複数のＬＳＴＭ（長短期記憶）層２３３、２３３ａおよび複数の畳み込み層２３５を使用することで、共有のエンコード済みスペクトログラム２１２を処理してよい。例えば、スペクトログラムデコーダ２２０ａは、５つのＬＳＴＭ層２３３ａと５つの変換層２３５とを含んでよい。スペクトログラムデコーダ２２０ａは、出力スペクトログラム２２２を生成してよい。いくつかの実装では、スペクトログラムデコーダ２２０ａは、発話のトランスクリプションに対応するテキスト表現に対して中間のテキスト－音声変換を実行することなく、エンコード済みスペクトログラム２１２から出力スペクトログラム２２２を直接的に生成してよい。

【0031】

図示の例では、単語片デコーダ２２０ｂは、エンコーダから共有のエンコード済みスペクトログラムを受信するよう構成された対応する相互注意機構２３１、２３１ｂと、その後に続く、２つのＬＳＴＭ（長短期記憶）層２３３、２３３ｂと、発話のトランスクリプションに対応するテキスト表現２０１を出力するＳｏｆｔｍａｘ層２４５、２４５ａとを含む。

【0032】

単語片デコーダ２２０ｂと同様に、音素デコーダ２２０ｃも、エンコーダ２１０から共有のエンコード済みスペクトログラム２１２を受信するよう構成された相互注意機構２３１、２３１ｃと、その後に続く、２つのＬＳＴＭ（長短期記憶）層２３３、２３３ｃと、発話２０２の音素表現を出力するＳｏｆｔｍａｘ層２４５、２４５ｂとを含んでよい。

【0033】

図３は、図１の音声変換モデル２００のトレーニング時間および推論時間を改善するための例示的な混合フレームレート処理方式の概略図３００を示す。混合フレームレート処理方式は、音声－音声処理（すなわち、スペクトログラムデコーダ２２０ａを介して出力スペクトログラム２２２を生成すること）におけるエンコーダ２２０のメモリ消費およびトレーニング速度を改善し得る。予測されたターゲットまたは入力シーケンスがテキストである、ＡＳＲ（自動音声認識）またはＴＴＳ（テキスト－音声）などの他のモデルとは異なり、音声－音声変換モデルは、入力シーケンスとして音響フレームを使用する一方で、音響フレームのシーケンスも出力する。音響フレームの出力数はテキストシーケンスの出力数よりもはるかに大きいので、音声－音声の変換は、ＡＳＲまたはＴＴＳモデルと比較して多くの計算を必要とする。場合によっては、モデル複雑度は、エンコーダ２１０の自己注意機構に起因して、入力フレームの数に基づく二次関数になる。さらに、メモリ使用は、音響シーケンスの長さに直接的に比例し得るので、結果的に、バッチサイズが小さくなり、トレーニング速度が遅くなりかねない。図３に示す混合フレームレート処理方式は、計算の数を大幅に削減し、その後、トレーニングを改善し得る。

【0034】

いくつかの実装では、混合フレームレート処理方式は、３×３カーネルサイズおよび２×２ストライドを有する畳み込みサブサンプリングを使用するので、結果的に、サブサンプリング係数が４になる。これらの実装では、転置畳み込みネットワークは、５１２のチャネル、４のフィルタサイズ、時間方向に２のストライドを有する１つのＣＮＮ（畳み込みニューラルネットワーク）層を含む。さらに、混合フレームレート方式は、３０ｍｓウィンドウおよび１０ｍｓフレームシフトを使用することで、入力音声から１２８次元のログメルスペクトログラム特徴を抽出することを含んでよい。その特徴は、エンコーダ２１０に提供されてよい。例示的な実装では、スペクトログラムデコーダ２２０ａのターゲットは、５０ｍｓのフレーム長、１２．５ｍｓのシフト、および２０４８点のＦＦＴを用いて計算された１０２５次元のＳＴＦＴ（短時間フーリエ変換）振幅を含む。

【0035】

処理方式は、スペクトログラムエンコーダ２１０が入力スペクトログラム１０２の１０ｍｓ（ミリ秒）の音声サンプルを受信することによって開始してよい。エンコーダ２１０は、最初に、複数のＣＮＮ層を含む第１のサブサンプリング層３０５を使用して１０ｍｓの音声サンプルを処理してよい。第１のサブサンプリング層３０５によるサブサンプリングの実施の際には、ＣＮＮ層が使用され、その後、時間方向にプーリングが行われることで、コンフォーマブロック４００、４００ａ～ｂのスタック内の最初のコンフォーマブロックによって処理されるフレームの数を低減する。ＣＮＮは、１０ｍｓの音声を４０ｍｓの表現にサブサンプリングしてもよく、４０ｍｓの表現は次いで、コンフォーマブロック４００ａの最初のセットに提供される。コンフォーマブロック４００ａの最初のセットは、４０ｍｓの表現を処理した後、それを第２のサブサンプリング層３１５に提供してよい。第２のサブサンプリング層３１５は、コンフォーマブロック４００ａの最初のセットとコンフォーマブロック４００ｂの最後のセットとの間に配置されてよい。いくつかの例では、エンコーダ２１０のコンフォーマブロックの総数が１７であるように、コンフォーマブロック４００ａの最初のセットは４つのコンフォーマブロックを含み、コンフォーマブロック４００ｂの最後のセットは１３個のコンフォーマブロックを含む。ここで、第２のサブサンプリング層３１５は、コンフォーマブロック４００ａの最初のセット内の最後のコンフォーマブロックによって出力された隠れ表現３０８をサブサンプリングすることで、コンフォーマブロック４００ｂの最後のセットによって処理されるフレームの数を低減するよう構成されてよい。例えば、第２のサブサンプリング層３１５は、コンフォーマブロック４００ａの最初のセットによって出力された４０ｍｓの隠れ表現３０８を、対応する８０ｍｓの表現３１８にサブサンプリングするよう構成されてよい。コンフォーマブロック４００ｂの最後のセットの最終コンフォーマブロックの終わりに、エンコーダ２１０は、アップサンプリング層３２５を使用して８０ｍｓの隠れ表現３２２をアップサンプリングする。アップサンプリング層３２５は、コンフォーマブロック４００ｂの最後のセットの最後のコンフォーマブロックによって出力された８０ｍｓの隠れ表現３２２を、エンコード済みスペクトログラム２１２の対応する４０ｍｓの表現にアップサンプリングすることで、エンコード済みスペクトログラム２１２のフレーム数を増加させるよう構成された単一の転置ＣＮＮ層を含んでよい。

【0036】

エンコード済みスペクトログラム２１２は、エンコーダ２１０とスペクトログラムデコーダ２２０ａとの間に配置された相互注意機構２３１ａによって受信されてよい。いくつかの実装では、相互注意機構２３１ａは、スペクトログラムデコーダ２２０ａに含まれる。スペクトログラムデコーダ２２０ａは、相互注意機構２３１ａを使用して、エンコード済みスペクトログラム２１２の４０ｍｓの表現を２５ｍｓの表現に低減してよい。２５ｍｓの表現は次いで、ＬＳＴＭ２３３ａに提供されてよい。ＬＳＴＭ２３３ａの出力は、低減係数３３５によって低減されてよい。スペクトログラムデコーダ２２０ａは、１２．５ｍｓの最終サイズで、結果として生じる出力スペクトログラム２２２を出力してよい。出力スペクトログラム２２２は、合成音声の対応する時間領域音声波形への変換のためにボコーダ３７５（図１）に提供されてよい。

【0037】

上記の例は、限定を意図するものではない。エンコーダ２１０は、処理のために任意の適切な長さの音声サンプルを受信してよい。エンコーダ２１０は、次いで、音声サンプルを処理、サブサンプリング、またはアップサンプリングすることで、任意の適切な長さを有し得るエンコード済みスペクトログラム２１２を生成してよい。同様に、デコーダ２２０ａは、エンコード済みスペクトログラム２１２を処理することで、適切な長さの出力スペクトログラム２２２を生成してよい。

【0038】

実験では、同一のエンコーダフレームシフトが与えられた場合、混合フレームレート方式は、異なるサブサンプリングおよびアップサンプリング設定による異なる実現を可能にする。例えば、サブサンプリングの増加は、一般に、トレーニングの改善をもたらすが、アップサンプリングを通じて回復することがより困難なスペクトログラムＷＥＲの回帰を引き起こす。情報損失は、エンコーダ２１０のコンフォーマブロック４００ｂの最後のセットの最後のコンフォーマブロックにおけるフィードフォワードニューラルネットワーク重み行列のスパース性に基づいて評価されてもよい。ＣＰＶ（累積分散割合）は、以下の式によって計算されてよい。

【0039】

【数1】

【0040】

ここで、ｓ_ｉは行列のｉ番目の特異値であり、ｋは考慮する特異値の数であり、Ｄはフィードフォワード行列のサイズである（Ｄ＝５１２）。任意の所与のｋについて、より大きなＣＰＶは、ネットワークがｋのスパース性指数を有するデータの構造を学習することができることを示す。小さい値のｋは、疎な行列構造を示す。

【0041】

図４は、エンコーダ２１０のコンフォーマ層のスタックにおけるコンフォーマブロック４００の例を示す。コンフォーマブロック４００は、前半のフィードフォワード層４１０と、後半のフィードフォワード層４４０と、前半のフィードフォワード層４１０と後半のフィードフォワード層４４０との間に配置されたマルチヘッド自己注意ブロック４２０および畳み込み層４３０と、連結演算子４０５とを含む。前半のフィードフォワード層４１０は、入力メルスペクトログラムシーケンスを含む入力音声データ１０２を処理する。続いて、マルチヘッド自己注意ブロック４２０は、前半のフィードフォワード層４１０の出力と連結された入力音声データ１０２を受信する。端的に言えば、マルチヘッド自己注意ブロック４２０の役割は、強調される各入力フレームについてノイズのコンテキストを個別に要約することである。畳み込み層４３０は、前半のフィードフォワード層４１０の出力と連結されたマルチヘッド自己注意ブロック４２０の出力をサブサンプリングする。その後、後半のフィードフォワード層４４０は、畳み込み層４３０出力とマルチヘッド自己注意ブロック４２０との連結を受信する。ｌａｙｅｒｎｏｒｍモジュール４５０は、後半のフィードフォワード層４４０からの出力を処理する。数学的には、コンフォーマブロック４００は、変調特徴ｍを使用して入力特徴ｘを変換することで、以下のように出力特徴ｙを生成する。

【0042】

【数2】

【0043】

図５は、音声変換モデル２００のためのトレーニングプロセス５００を示す。いくつかの実装では、プロセス５００は、２ステップトレーニング技法を採用する。はじめに、音声変換モデル２００は、話者の大きなプールからの典型的な音声に対して事前トレーニングされることで多対１の音声変換モデル２００を得て、結果的に、話者から独立したＡＳＲ／変換ベースモデルになる。トレーニングに使用されるターゲット音声は、典型的な音声を反映する所定の音声による基準トランスクリプトから合成された音声であってもよい。個別化のために、基本モデルの任意のパラメータが、単一入力話者（例えば、聴覚障害のある話者）からの音声に微調整されることで、非典型的な音声から典型的な音声への１対１音声変換モデル（および話者依存のＡＳＲ）モデルを取得してよい。

【0044】

図５を参照すると、プロセス５００は、はじめに、事前トレーニングデータ５０５を使用して音声変換モデル２００を事前トレーニングする。モデルの事前トレーニングは、モデルを初期化するために使用される技法である。モデルは、次いで、追加的なトレーニングデータ５１０に基づいてさらに微調整されてよい。音声変換モデル２００に関して、事前トレーニングは、標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話を含む事前トレーニングデータ５０５を用いて音声変換モデル２００を開始することを含んでよい。事前トレーニングデータ５０５は、話された発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされた話された発話をさらに含んでよい。

【0045】

次いで、プロセス５００は、非典型的な音声の事前トレーニングされた音声変換モデル２００のパラメータを微調整してよい。トレーニングプロセスは、エンコーダ２１０またはデコーダ２２０、２２０ａ～ｃのいずれかを別々にまたは任意の適切な組合せで共同でトレーニングすることを含んでよい。プロセス５００は、トレーニング入力５１０を音声変換モデル２００に供給することを含む。いくつかの実装では、トレーニング入力５１０は、非典型的な音声に関連付けられた１人または複数の話者によって話された複数の非典型的な音声サンプルを含む。さらに、トレーニング入力５１０は、トレーニング入力５１０に関連付けられたターゲット出力を示すラベル５２０を使用してラベル付けされてよい。トレーニング入力５１０を受信すると、音声変換モデル２００は、出力５１５（例えば、トランスクリプト２０１、音素表現２０２、出力スペクトログラム２２２）を生成してよい。音声変換モデル２００は、図２乃至図４のいずれかに関して説明した方法で、または音声変換のために任意の他の好適な方法で、トレーニング入力５１０を処理してよい。

【0046】

いくつかの実装では、出力５１５は損失関数５３０によって使用されて損失５４０が生成される。すなわち、損失関数５３０は、出力５１５とラベル５２０とを比較することで損失５４０を生成する。損失５４０は、ラベル５２０（すなわち、ターゲット出力）と出力５１５との間の不一致を示す。損失関数３５０は、回帰損失、平均二乗誤差、平均二乗対数誤差、平均絶対誤差、バイナリ分類、バイナリクロスエントロピー、ヒンジ損失、マルチクラス損失などの損失を判定するための任意の適切な技法を実装してよい。次いで、損失５４０は、音声変換モデル２００に直接的に供給されてよい。ここで、音声変換モデル２００は、損失５４０を処理するとともに、損失５４０を補償するよう音声変換モデル２００の１つまたは複数のパラメータを調整する。

【0047】

図６は、音声変換を実行するためにコンピュータが実施する方法６００の動作の例示的な構成のフローチャートである。方法６００は、例えば、図１の例示的な音声変換システム１００の様々な要素によって実行されてよい。動作６１０において、方法は、音声変換モデル２００のエンコーダ２１０への入力として、発話１０８に対応する入力スペクトログラム１０２を受信する工程を含む。エンコーダ２１０は、自己注意ブロック４００のスタックを含む。動作６２０において、方法６００は、エンコーダ２１０からの出力として、エンコード済みスペクトログラム２１２を生成する工程を含む。動作６３０において、方法６００は、音声変換モデル２２０のスペクトログラムデコーダ２００ａへの入力として、エンコーダ２１０からの出力として生成されたエンコード済みスペクトログラム２１２を受信する工程を含む。動作６４０において、方法６００は、スペクトログラムデコーダ２２０ａからの出力として、同じ発話１１４の合成された標準的で流暢な音声表現に対応する出力スペクトログラム２２２を生成する工程を含む。

【0048】

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含むが、これらに限定されない。

【0049】

非一時的メモリは、コンピューティングデバイスによる使用のために、プログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を一時的または永続的に記憶するために使用される物理デバイスであってよい。非一時的メモリは、揮発性および／または不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例は、フラッシュメモリおよびＲＯＭ（リードオンリーメモリ）／ＰＲＯＭ（プログラマブルリードオンリーメモリ）／ＥＰＲＯＭ（消去可能プログラマブルリードオンリーメモリ）／ＥＥＰＲＯＭ（電子的消去可能プログラマブルリードオンリーメモリ）（例えば、ブートプログラムなどのファームウェアに典型的に使用される）を含むが、これらに限定されない。揮発性メモリの例は、ＲＡＭ（ランダムアクセスメモリ）、ＤＲＡＭ（ダイナミックランダムアクセスメモリ）、ＳＲＡＭ（スタティックランダムアクセスメモリ）、ＰＣＭ（相変化メモリ）、およびにディスクまたはテープを含むが、これらに限定されない。

【0050】

図７は、本明細書で説明されたシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス７００の概略図である。コンピューティングデバイス７００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ等、様々な形態のデジタルコンピュータを表すよう意図されている。本明細書で示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものに過ぎず、本明細書で説明および／または特許請求される本発明の実装を限定するものではない。

【0051】

コンピューティングデバイス７００は、プロセッサ７１０、メモリ７２０、記憶デバイス７３０、メモリ７２０および高速拡張ポート７５０に接続する高速インターフェース／コントローラ７４０、ならびに低速バス７７０および記憶デバイス７３０に接続する低速インターフェース／コントローラ７６０を含む。構成要素７１０、７２０、７３０、７４０、７５０、および７６０の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で実装され得る。プロセッサ７１０は、高速インターフェース７４０に接続されたディスプレイ７８０などの外部入力／出力デバイス上にＧＵＩ（グラフィカルユーザインターフェース）のためのグラフィカル情報を表示するようメモリ７２０または記憶デバイス７３０に記憶された命令を含む、コンピューティングデバイス７００内で実行するための命令を処理することができる。他の実装では、複数のメモリおよびメモリの種類とともに、必要に応じて複数のプロセッサおよび／または複数のバスが使用されてよい。また、複数のコンピューティングデバイス７００が接続されてもよく、各デバイスは、例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして、必要な動作の一部を提供する。プロセッサ７１０は、リモートサーバ１１２、コンピューティングデバイス１１０、１１６のいずれかもしくは両方、またはリモートサーバおよびコンピューティングデバイス１１０、１１６の任意の組合せ上に常駐するデータ処理ハードウェア７１０と呼ばれることがある。メモリ７１０は、リモートサーバ１１２、コンピューティングデバイス１１０、１１６のいずれかもしくは両方、またはリモートサーバおよびコンピューティングデバイス１１０、１１６の任意の組合せ上に常駐するメモリハードウェア７２０と呼ばれることがある。

【0052】

メモリ７２０は、コンピューティングデバイス７００内に情報を非一時的に記憶する。メモリ７２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってもよい。非一時的メモリ７２０は、コンピューティングデバイス７００による使用のために一時的または永続的にプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を記憶するために使用される物理的なデバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよびＲＯＭ（リードオンリーメモリ）／ＰＲＯＭ（プログラマブルリードオンリーメモリ）／ＥＰＲＯＭ（消去可能プログラマブルリードオンリーメモリ）／ＥＥＰＲＯＭ（電子的消去可能プログラマブルリードオンリーメモリ）（例えば、ブートプログラムなどのファームウェアに典型的に使用される）を含むが、これらに限定されない。揮発性メモリの例は、ＲＡＭ（ランダムアクセスメモリ）、ＤＲＡＭ（ダイナミックランダムアクセスメモリ）、ＳＲＡＭ（スタティックランダムアクセスメモリ）、ＰＣＭ（相変化メモリ）、およびにディスクまたはテープを含むが、これらに限定されない。

【0053】

記憶デバイス７３０は、コンピューティングデバイス７００に大容量ストレージを提供することが可能である。いくつかの実装では、記憶デバイス７３０はコンピュータ可読媒体である。様々な異なる実装では、記憶デバイス７３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光学ディスクデバイス、テープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってよい。追加的な実装では、コンピュータプログラム製品は、情報担体として有形に具現化される。コンピュータプログラム製品は、実行されると、上記のような１つまたは複数の方法を実行する命令を含む。情報担体は、メモリ７２０、記憶デバイス７３０、またはプロセッサ７１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

【0054】

高速コントローラ７４０は、コンピューティングデバイス７００のための帯域幅集中型の演算を管理し、低速コントローラ７６０は、より低い帯域幅集中型の演算を管理する。このようなデューティの割り当ては例示にすぎない。いくつかの実装では、高速コントローラ７４０は、メモリ７２０、ディスプレイ７８０（例えば、グラフィックスプロセッサまたはアクセラレータを介して）、および様々な拡張カード（図示せず）を受け入れ得る高速拡張ポート７５０に接続される。いくつかの実装では、低速コントローラ７６０は、記憶デバイス７３０および低速拡張ポート７９０に接続される。種々の通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポート７９０は、例えばネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナー、または、スイッチまたはルータ等のネットワークデバイス等の、１つまたは複数の入力／出力デバイスに接続されてよい。

【0055】

コンピューティングデバイス７００は、図７に示されるように、複数の異なる形態で実装されてよい。例えば、コンピューティングデバイス７００は、ラップトップコンピュータ７００ｂとして、ラックサーバシステム７００ｃの一部として、または標準的なサーバ７００ａとしてもしくはそのようなサーバ７００ａのグループにおいて複数回実装されてもよい。

【0056】

本明細書で説明されたシステムおよび技法の様々な実装は、デジタル電子回路および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現され得る。これらの様々な実装は、記憶デバイス、１つ以上の入力デバイス、および１つ以上の出力デバイスに対してデータおよび命令を送信すると共にこれらからデータおよび命令を受信するよう接続された、特定目的または汎用目的の１つ以上のプログラマブルプロセッサを備えたプログラマブルシステム上で実行可能および／または翻訳可能な１つまたは複数のコンピュータプログラムでの実装を含んでよい。

【0057】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を含み、高レベル手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実装され得る。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、機器および／または装置（例えば、磁気ディスク、光学ディスク、メモリ、ＰＬＤ（プログラマブル論理デバイス））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

【0058】

本明細書で説明されたプロセスおよび論理フローは、入力データに対して動作しかつ出力を生成することによって機能を実行するために１つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、特殊目的論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサ、ならびに命令およびデータを記憶するための１つまたは複数のメモリデバイスである。一般的に、コンピュータはまた、データを記憶するための１つまたは複数の大容量記憶デバイス、例えば、磁気、光磁気ディスク、もしくは光学ディスクを含むか、またはそれらからデータを受信するか、それらにデータを転送するか、もしくはその両方を行うように動作可能に接続される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路によって補完され得るか、または特殊目的論理回路に組み込まれ得る。

【0059】

ユーザとの対話を提供するために、本開示の１つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはタッチスクリーンと、任意選択で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールとを有するコンピュータ上で実装されてよい。他の種類のデバイスを使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚的なフィードバック、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックであってよく、ユーザからの入力は、音響的入力、音声的入力、または触覚的入力を含む任意の形式で取り込まれてよい。さらに、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、デバイスから文書を受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

【0060】

複数の実装について説明してきたが、本開示の主旨および範囲から逸脱することなく、様々な変更が行われ得ることが理解されるであろう。したがって、他の実施形態は、以下の特許請求の範囲内にある。

【図1】