(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-03-14
(54)【発明の名称】コンフォーマベースの音声変換モデル
(51)【国際特許分類】
G10L 21/007 20130101AFI20240307BHJP
【FI】
G10L21/007
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023558802
(86)(22)【出願日】2022-03-16
(85)【翻訳文提出日】2023-11-06
(86)【国際出願番号】 US2022020606
(87)【国際公開番号】W WO2022203922
(87)【国際公開日】2022-09-29
(32)【優先日】2021-03-26
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-02-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100142907
【氏名又は名称】本田 淳
(72)【発明者】
【氏名】ラマバドラン、ブバナ
(72)【発明者】
【氏名】チェン、ジェフアイ
(72)【発明者】
【氏名】ビアジー、ファディ
(72)【発明者】
【氏名】メンヒバル、ペドロ ジェイ.モレノ
(57)【要約】
音声変換の方法(600)は、音声変換モデル(200)のエンコーダ(210)への入力として、発話(108)に対応する入力スペクトログラム(102)を受信する工程を含み、エンコーダは、自己注意ブロック(400)のスタックを含む。方法は、エンコーダからの出力として、エンコード済みスペクトログラム(212)を生成する工程と、音声変換モデルのスペクトログラムデコーダ(220)への入力として、エンコーダからの出力として生成されたエンコード済みスペクトログラムを受信する工程とをさらに含む。方法は、スペクトログラムデコーダからの出力として、発話の合成音声表現に対応する出力スペクトログラム(222)を生成することをさらに含む。
【特許請求の範囲】
【請求項1】
音声変換モデル(200)であって、
自己注意ブロック(400)のスタックを含むエンコーダ(210)であって、発話(108)に対応する入力スペクトログラム(102)をエンコードするよう構成されたエンコーダ(210)と、
スペクトログラムデコーダ(220a)であって、
前記エンコーダ(210)からエンコード済みスペクトログラム(212)を入力として受信するとともに、
前記発話(108)の合成音声表現に対応する出力スペクトログラム(222)を出力として生成するよう構成されたスペクトログラムデコーダ(220a)と、を備える音声変換モデル(200)。
【請求項2】
前記発話(108)に対応する前記入力スペクトログラム(102)は、非典型的な音声に関連付けられた話者(104)によって話された入力音声から抽出され、
前記発話(108)の前記合成音声表現は、前記発話の合成された標準的で流暢な音声表現を含む、請求項1に記載の音声変換モデル(200)。
【請求項3】
単語片デコーダ(220b)であって、
前記エンコーダ(210)から前記エンコード済みスペクトログラム(212)を入力として受信するとともに、
前記発話(108)のトランスクリプション(201)に対応するテキスト表現を出力として生成するよう構成された単語片デコーダ(220b)をさらに備える、請求項1または2に記載の音声変換モデル(200)。
【請求項4】
音素デコーダ(220c)であって、
前記エンコーダ(210)から前記エンコード済みスペクトログラム(212)を入力として受信するとともに、
前記発話(108)の音素表現(202)を出力として生成するよう構成された音素デコーダ(220c)をさらに備える、請求項1乃至3のいずれか一項に記載の音声変換モデル(200)。
【請求項5】
前記自己注意ブロック(400)のスタックは、コンフォーマブロック(400)のスタックを含み、各コンフォーマブロックは、マルチヘッド自己注意機構(420)を含む、請求項1乃至4のいずれか一項に記載の音声変換モデル(200)。
【請求項6】
前記エンコーダ(210)は、前記コンフォーマブロック(400)のスタックの前に配置されるとともに、前記入力スペクトログラム(102)を受信するよう構成された第1のサブサンプリング層(305)をさらに含み、前記第1のサブサンプリング層(305)は、CNN(畳み込みニューラルネットワーク)層を含み、該CNN層の後に時間方向にプーリングが行われることで、前記コンフォーマブロック(400)のスタック内の最初のコンフォーマブロックによって処理されるフレームの数を低減する、請求項5に記載の音声変換モデル(200)。
【請求項7】
前記エンコーダ(210)は、前記コンフォーマブロック(400)のスタック内のコンフォーマブロック(400a)の最初のセットと前記コンフォーマブロック(400)のスタック内のコンフォーマブロック(400b)の最後のセットとの間に配置された第2のサブサンプリング層(315)をさらに含み、前記第2のサブサンプリング層(315)は、前記コンフォーマブロック(400a)の最初のセット内の最後のコンフォーマブロックによって出力された隠れ表現をサブサンプリングすることで、前記コンフォーマブロック(400b)の最後のセットによって処理されるフレームの数を低減するよう構成される、請求項6に記載の音声変換モデル(200)。
【請求項8】
前記エンコーダ(210)は、前記コンフォーマブロック(400)のスタックの後に配置されたアップサンプリング層(325)をさらに含み、前記アップサンプリング層(325)は、前記コンフォーマブロック(400)のスタック内の最後のコンフォーマブロックによって出力された隠れ表現をアップサンプリングするよう構成された単一の転置CNN層を含むことで、前記エンコーダ(210)と前記スペクトログラムデコーダ(220a)との間に配置された相互注意機構(231a)によって処理されるフレームの数を増加させる、請求項7に記載の音声変換モデル(200)。
【請求項9】
前記音声変換モデル(200)は、2ステップトレーニングプロセス(500)を使用してトレーニングされ、前記2ステップトレーニングプロセスは、
標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話について前記音声変換モデル(200)を事前トレーニングする第1のトレーニングステップであって、各話された発話は、前記発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされる、第1のトレーニングステップと、
非典型的な音声に関連付けられた話者によって話された複数の非典型的な音声サンプルに基づいて、事前トレーニングされた前記音声変換モデル(200)のパラメータを微調整する、第2のトレーニングステップと、を含む請求項1乃至8のいずれか一項に記載の音声変換モデル(200)。
【請求項10】
前記スペクトログラムデコーダ(220a)は、前記発話(108)のトランスクリプション(201)に対応するテキスト表現に対して中間のテキスト-音声変換を実行することなく、前記エンコード済みスペクトログラム(212)から前記出力スペクトログラム(222)を直接的に生成する、請求項1乃至9のいずれか一項に記載の音声変換モデル(200)。
【請求項11】
データ処理ハードウェア(710)上で実行されると、前記データ処理ハードウェア(710)に動作を実行させる、コンピュータが実施する方法(600)であって、前記動作は
音声変換モデル(200)のエンコーダ(210)への入力として、発話(108)に対応する入力スペクトログラム(102)を受信する工程であって、前記エンコーダ(210)は、自己注意ブロック(400)のスタックを含む、工程と、
前記エンコーダ(210)からの出力として、エンコード済みスペクトログラム(212)を生成する工程と、
前記音声変換モデル(200)のスペクトログラムデコーダ(200a)への入力として、前記エンコーダ(210)からの出力として生成された前記エンコード済みスペクトログラム(212)を受信する工程と、
前記スペクトログラムデコーダ(220a)からの出力として、前記発話(108)の合成音声表現に対応する出力スペクトログラム(222)を生成する、出力スペクトログラム生成工程と、を含むコンピュータが実施する方法(600)。
【請求項12】
前記発話(108)に対応する前記入力スペクトログラム(102)は、非典型的な音声に関連付けられた話者(104)によって話された入力音声から抽出され、
前記発話の前記合成音声表現は、前記発話の合成された標準的で流暢な音声表現を含む、請求項11に記載の方法(600)。
【請求項13】
前記動作は、
前記音声変換モデル(200)の単語片デコーダ(220b)への入力として、前記エンコーダ(210)からの出力として生成された前記エンコード済みスペクトログラム(212)を受信する工程と、
前記単語片デコーダ(220b)からの出力として、前記発話(108)のトランスクリプション(201)に対応するテキスト表現を生成する工程と、をさらに含む請求項11または12に記載の方法(600)。
【請求項14】
前記動作は、
前記音声変換モデル(200)の音素デコーダ(220c)への入力として、前記エンコーダ(210)からの出力として生成された前記エンコード済みスペクトログラム(212)を受信する工程と、
前記音素デコーダ(220c)からの出力として、前記発話(108)の音素表現(2020)を生成する工程と、をさらに含む請求項11乃至13のいずれか一項に記載の方法(600)。
【請求項15】
前記エンコーダ(210)の前記自己注意ブロック(400)のスタックは、コンフォーマブロック(400)のスタックを含み、各コンフォーマブロックは、マルチヘッド自己注意機構(420)を含む、請求項11乃至14のいずれか一項に記載の方法(600)。
【請求項16】
前記エンコーダ(210)は、前記コンフォーマブロック(400)のスタックの前に配置されるとともに、前記入力スペクトログラム(102)を受信するよう構成された第1のサブサンプリング層(305)をさらに含み、前記第1のサブサンプリング層(305)は、CNN(畳み込みニューラルネットワーク)層を含み、該CNN層の後に時間方向にプーリングが行われることで、前記コンフォーマブロック(400)のスタック内の最初のコンフォーマブロックによって処理されるフレームの数を低減する、請求項15に記載の方法(600)。
【請求項17】
前記エンコーダ(210)は、前記コンフォーマブロック(400)のスタック内のコンフォーマブロック(400a)の最初のセットと前記コンフォーマブロック(400)のスタック内のコンフォーマブロック(400b)の最後のセットとの間に配置された第2のサブサンプリング層(315)をさらに含み、前記第2のサブサンプリング層(315)は、前記コンフォーマブロック(400a)の最初のセット内の最後のコンフォーマブロックによって出力された隠れ表現をサブサンプリングすることで、前記コンフォーマブロック(400b)の最後のセットによって処理されるフレームの数を低減するよう構成される、請求項16に記載の方法(600)。
【請求項18】
前記エンコーダ(210)は、前記コンフォーマブロック(400)のスタックの後に配置されたアップサンプリング層(325)をさらに含み、前記アップサンプリング層(325)は、前記コンフォーマブロック(400)のスタック内の最後のコンフォーマブロックによって出力された隠れ表現をアップサンプリングするよう構成された単一の転置CNN層を含むことで、前記エンコーダ(210)と前記スペクトログラムデコーダ(220a)との間に配置された相互注意機構(231a)によって処理されるフレームの数を増加させる、請求項17に記載の方法(600)。
【請求項19】
前記音声変換モデル(200)は、2ステップトレーニングプロセス(500)を使用してトレーニングされ、前記2ステップトレーニングプロセスは、
標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話について前記音声変換モデル(200)を事前トレーニングする第1のトレーニングステップであって、各話された発話は、前記発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされる、第1のトレーニングステップと、
非典型的な音声に関連付けられた話者によって話された複数の非典型的な音声サンプルに基づいて、事前トレーニングされた前記音声変換モデルのパラメータを微調整する、第2のトレーニングステップと、を含む請求項11乃至18のいずれか一項に記載の方法(600)。
【請求項20】
前記出力スペクトログラム生成工程は、前記発話(108)のトランスクリプション(201)に対応するテキスト表現に対して中間のテキスト-音声変換を実行することなく、前記入力スペクトログラム(212)から前記出力スペクトログラム(222)を直接的に生成する工程を含む、請求項11乃至19のいずれか一項に記載の方法(600)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、コンフォーマベースの音声変換モデルに関する。
【背景技術】
【0002】
音声変換モデルは、音声の言語情報を変更することなくソース話者の音声を別の形式に修正するために使用可能である。例えば、音声変換モデルは、ユーザの音声のトランスクリプトを生成することができる。或いは、音声変換モデルは、ユーザの音声を別の言語の音声の音声波形に変換することができる。機械学習方法は、音声を別の形式に正確かつ効率的に変換する音声変換モデルをトレーニングするために使用可能である。
【発明の概要】
【発明が解決しようとする課題】
【0003】
コンフォーマベースの音声変換モデルを提供する。
【課題を解決するための手段】
【0004】
本開示の一態様は、発話に対応する入力スペクトログラムをエンコードするよう構成された自己注意ブロックのスタックを含むエンコーダを含む音声変換モデルを提供する。音声変換モデルは、エンコーダからエンコード済みスペクトログラムを入力として受信するよう構成されたスペクトログラムデコーダをさらに含む。スペクトログラムデコーダは、発話の合成音声表現に対応する出力スペクトログラムを出力として生成するようさらに構成される。
【0005】
本開示の実装は、以下の選択的特徴のうちの1つまたは複数を含んでよい。いくつかの実装では、発話に対応する入力スペクトログラムは、非典型的な音声に関連付けられた話者によって話された入力音声から抽出される。これらの実装では、発話の合成音声表現は、発話の合成された標準的で流暢な音声表現を含む。さらに、音声変換モデルは、エンコーダからエンコード済みスペクトログラムを入力として受信するとともに、発話のトランスクリプションに対応するテキスト表現を出力として生成するよう構成された単語片デコーダを含んでよい。
【0006】
さらに、音声変換モデルは、エンコーダからエンコード済みスペクトログラムを入力として受信するとともに、発話の音素表現を出力として生成するよう構成された音素デコーダを含んでよい。
【0007】
いくつかの実装では、自己注意ブロックのスタックは、コンフォーマブロックのスタックを含み、各コンフォーマブロックは、マルチヘッド自己注意機構を有する。これらの実装では、エンコーダは、コンフォーマブロックのスタックの前に配置されるとともに、入力スペクトログラムを受信するよう構成された第1のサブサンプリング層をさらに含んでよく、第1のサブサンプリング層は、CNN(畳み込みニューラルネットワーク)層を含み、その後、時間方向にプーリングが行われることで、コンフォーマブロックのスタック内の最初のコンフォーマブロックによって処理されるフレームの数を低減する。さらに、これらの実装では、エンコーダは、コンフォーマブロックのスタック内のコンフォーマブロックの最初のセットとコンフォーマブロックのスタック内のコンフォーマブロックの最後のセットとの間に配置された第2のサブサンプリング層を含んでよく、第2のサブサンプリング層は、コンフォーマブロックの最初のセット内の最後のコンフォーマブロックによって出力された隠れ表現をサブサンプリングすることで、コンフォーマブロックの最後のセットによって処理されるフレームの数を低減するよう構成される。これらの実装では、エンコーダは、コンフォーマブロックのスタックの後に配置されたアップサンプリング層をさらに含んでよく、アップサンプリング層は、コンフォーマブロックのスタック内の最後のコンフォーマブロックによって出力された隠れ表現をアップサンプリングするよう構成された単一の転置CNN層を含むことで、エンコーダとスペクトログラムデコーダとの間に配置された相互注意機構によって処理されるフレームの数を増加させる。
【0008】
さらに、音声変換モデルは、標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話について音声変換モデルを事前トレーニングする第1のトレーニングステップを含む2ステップトレーニングプロセスを使用してトレーニングされてよい。ここで、各話された発話は、発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされる。2ステップトレーニングプロセスは、非典型的な音声に関連付けられた話者によって話された複数の非典型的な音声サンプルに基づいて、事前トレーニングされた音声変換モデルのパラメータを微調整する第2のトレーニングステップをさらに含む。
【0009】
いくつかの実装では、スペクトログラムデコーダは、発話のトランスクリプションに対応するテキスト表現に対して中間のテキスト-音声変換を実行することなく、エンコード済みスペクトログラムから出力スペクトログラムを直接的に生成する。
【0010】
本開示の別の態様は、音声変換モデルのためにコンピュータが実施する方法を提供する。コンピュータが実施する方法は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる。動作は、音声変換モデルのエンコーダへの入力として、発話に対応する入力スペクトログラムを受信する工程を含み、エンコーダは、自己注意ブロックのスタックを含む。動作は、エンコーダからの出力として、エンコード済みスペクトログラムを生成する工程をさらに含む。動作は、音声変換モデルのスペクトログラムデコーダへの入力として、エンコーダからの出力として生成されたエンコード済みスペクトログラムを受信する工程を含む。動作は、スペクトログラムデコーダからの出力として、発話の合成音声表現に対応する出力スペクトログラムを生成する、出力スペクトログラム生成工程をさらに含む。
【0011】
この態様は、以下の選択的特徴のうちの1つまたは複数を含んでよい。いくつかの実装では、発話に対応する入力スペクトログラムは、非典型的な音声に関連付けられた話者によって話された入力音声から抽出される。これらの実装では、発話の合成音声表現は、発話の合成された標準的で流暢な音声表現を含む。
【0012】
いくつかの実装では、動作は、音声変換モデルの単語片デコーダへの入力として、エンコーダからの出力として生成されたエンコード済みスペクトログラムを受信する工程を含む。これらの実装は、単語片デコーダからの出力として、発話のトランスクリプションに対応するテキスト表現を生成する工程をさらに含む。動作は、音声変換モデルの音素デコーダへの入力として、エンコーダからの出力として生成されるエンコード済みスペクトログラムを受信する工程と、音素デコーダからの出力として、発話の音素表現を生成する工程とをさらに含んでよい。
【0013】
いくつかの実装では、自己注意ブロックのスタックは、コンフォーマブロックのスタックを含み、各コンフォーマブロックは、マルチヘッド自己注意機構を有する。これらの実装では、エンコーダは、コンフォーマブロックのスタックの前に配置されるとともに、入力スペクトログラムを受信するよう構成された第1のサブサンプリング層をさらに含んでよく、第1のサブサンプリング層は、CNN(畳み込みニューラルネットワーク)層を含み、その後、時間方向にプーリングが行われることで、コンフォーマブロックのスタック内の最初のコンフォーマブロックによって処理されるフレームの数を低減する。さらに、これらの実装では、エンコーダは、コンフォーマブロックのスタック内のコンフォーマブロックの最初のセットとコンフォーマブロックのスタック内のコンフォーマブロックの最後のセットとの間に配置された第2のサブサンプリング層を含んでよく、第2のサブサンプリング層は、コンフォーマブロックの最初のセット内の最後のコンフォーマブロックによって出力された隠れ表現をサブサンプリングすることで、コンフォーマブロックの最後のセットによって処理されるフレームの数を低減するよう構成される。これらの実装では、エンコーダは、コンフォーマブロックのスタックの後に配置されたアップサンプリング層をさらに含んでよく、アップサンプリング層は、コンフォーマブロックのスタック内の最後のコンフォーマブロックによって出力された隠れ表現をアップサンプリングするよう構成された単一の転置CNN層を含むことで、エンコーダとスペクトログラムデコーダとの間に配置された相互注意機構によって処理されるフレームの数を増加させる。
【0014】
さらに、音声変換モデルは、標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話について音声変換モデルを事前トレーニングする第1のトレーニングステップを含む2ステップトレーニングプロセスを使用してトレーニングされてよい。ここで、各話された発話は、発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされる。2ステップトレーニングプロセスは、非典型的な音声に関連付けられた話者によって話された複数の非典型的な音声サンプルに基づいて、事前トレーニングされた音声変換モデルのパラメータを微調整する第2のトレーニングステップをさらに含む。
【0015】
いくつかの実装では、スペクトログラムデコーダは、発話のトランスクリプションに対応するテキスト表現に対して中間のテキスト-音声変換を実行することなく、エンコード済みスペクトログラムから出力スペクトログラムを直接的に生成する。
【0016】
本開示の1つまたは複数の実装の詳細は、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになるであろう。
【図面の簡単な説明】
【0017】
【
図1】音声変換モデルを含む例示的な音声変換システムの概略図。
【
図3】音声変換モデルのトレーニングおよび推論時間を高速化するための例示的な混合フレームレート処理方式の概略図。
【
図5】音声変換モデルのための例示的なトレーニング方式の概略図。
【
図6】音声変換を実行する方法のための動作の例示的な構成のフローチャート。
【
図7】本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図。
【発明を実施するための形態】
【0018】
様々な図面における同様の参照符号は、同様の要素を示す。
より包括的な音声技術、特に発話障害を有する人々を助けることができる音声技術を開発することへの関心が高まっている。ASR(自動音声認識)は、正確なトランスクリプションへの変換のために、構音障害または非典型的な音声パターンを有する話者からの音声を認識するE2E(エンドツーエンド)深層学習ベースのモデルの導入によって、途方もなく進歩してきた。例えば、非典型的な音声パターンは、身体的または神経学的状態(例えば、ALS(筋萎縮性側索硬化症)疾患を有する話者)に起因する障害のある音声、重度のアクセントのある音声、および聴覚障害のある音声を含み得るが、これに限定されない。音声変換システムは、同様の深層学習ベースのモデルを適用することで、非典型的な音声パターンを有する音声を標準的で流暢な出力音声に変換することができる。
【0019】
マッチングされたトレーニングデータ分布およびテストデータ分布は、音声変換モデルをトレーニングするための最適な性能をもたらすことが知られている。しかしながら、発話障害を有する話者からのトレーニングデータが不十分なので、現在の方法を使用してモデルをトレーニングすることは困難になり得る。さらに、発話障害を有するユーザは、モデルを十分にトレーニングするために必要なだけのデータを記録することに多大な労力を要すると感じ得るので、そのようなトレーニングデータを得ることは困難である。本開示は、エンコーダ/デコーダアーキテクチャを有する音声変換モデルに対する改善を提供する。この改善は、必要なトレーニングデータを少なくし、音声変換モデルのトレーニングを促進し、モデルが大きなユーザの集団に拡大することを可能にし、さらに広範囲の非典型的な音声に対して対応できる。本開示は、エンコーダアクティベーションのサブサンプルと、典型的なエンコーダ出力の対応するアップサンプリングとを使用して、音声変換モデルに対するアーキテクチャ変更を通じてこの改善を提供する。本開示は、タスクのための共有エンコーダアーキテクチャを使用して推論中に音声とテキストの両方を共同でデコードする統合モデルにおける多対1のVC(音声変換)とASRとの組合せをさらに提供する。
【0020】
本明細書で使用される場合、別段の指定がない限り、「音声変換システム」および「音声変換モデル」という用語は、入力された非典型的な音声が認識されるとともに、対応するテキスト(例えば、トランスクリプション)および/または非典型的な音声を表す音素のセットに変換されるASRシステム/モデル、または入力された非典型的な音声が音声認識を実行せずに標準的で流暢な合成音声に直接的に変換される音声-音声変換システム/モデルの任意の組合せを指し得る。別の言い方をすれば、音声変換システム/モデルは、入力音声波形を中間表現(例えば、テキストまたは音素)に変換することなく、非典型的な音声に対応する入力音声波形またはスペクトログラムを、標準的で流暢な音声に対応する出力音声波形またはスペクトログラムに直接的に変換するよう構成される。明らかになるように、音声変換モデル、および音声変換モデルをトレーニングするための技法は、ユーザの意図した音声の認識および/または再生を可能にすることによって、非典型的な音声を有するユーザが、他の人間および音声インターフェース(例えば、デジタルアシスタント)の両方と話すこと、およびそれらによって理解されることを可能にする。本明細書の例は、標準的で流暢な音声に対応する出力音声波形またはスペクトログラムへの変換のための、非典型的な音声に対応する入力音声波形またはスペクトログラムを受信する音声変換モデルを示すが、音声変換モデルは、本開示の範囲から逸脱することなく、他の種類の音声変換タスクを実行するように同様に適合されてよい。例えば、音声変換モデルは、第1言語での発話に対応する入力音声波形またはスペクトログラムを、異なる第2言語での発話の翻訳に対応する出力音声波形またはスペクトログラムに変換してよい。音声変換モデルは、同様に、ユーザによる発話入力を受信し、発話入力と同じ言語内容を含むが、ターゲット話者の異なる音声特性を有する合成音声を出力してもよい。
【0021】
図1は、音声変換モデル200およびボコーダ374を含む音声変換システム100を示す。音声変換モデル200は、非典型的な音声に関連付けられたソース話者104によって話された発話108に対応する入力音声データ102を、ターゲット話者104によって話された同じ発話114の合成された標準的で流暢な音声表現に対応する出力音声データ106に変換するよう構成される。本明細書で使用される場合、入力音声データ102は、発話108に対応する入力スペクトログラムを含み得る。本明細書で使用される場合、出力音声データ106は、同じ発話114の合成された標準的で流暢な音声表現に対応する出力スペクトログラム222、またはボコーダ375によって出力スペクトログラム222から変換された時間領域音声波形376を含み得る。図示されていないが、ユーザデバイス110上に常駐する音響フロントエンドは、ユーザデバイス110のマイクロフォンを介してキャプチャされた発話108の時間領域音声波形を入力スペクトログラム102または他の種類の音声データ102に変換してよい。いくつかの実装では、音声変換モデル200は、発話108に対応する入力音声データ102を、発話108のトランスクリプション201または音素表現202に対応するテキスト表現(例えば、書記素、単単語片、または単語)に変換する。いくつかの追加的な実装では、音声変換システム100の音声変換モデル200は、音声認識を実行することなく、または入力音声データ102から中間の離散的表現(例えば、テキストまたは音素)の生成を必要とすることなく、入力音声データ102(例えば、入力スペクトログラム)を出力音声データ106(例えば、出力スペクトログラム222)に直接的に変換するよう構成される。
【0022】
音声変換モデル200は、入力スペクトログラム102をエンコード済みスペクトログラム212(例えば、一連のベクトルを含む隠れ特徴表現)にエンコードするよう構成されたスペクトログラムエンコーダ210と、エンコード済みスペクトログラム212を、合成された標準的で流暢な音声表現、トランスクリプション201、および/または音素表現202に対応する出力スペクトログラム222にデコードするよう構成された1つまたは複数のデコーダ220、220a~cとを含む。トランスクリプト201は、人間の読み手によって理解され得る、および/または下流のアプリケーション(例えば、デジタルアシスタント)によって理解され得る、発話108の標準的で流暢なトランスクリプションを含んでよい。
【0023】
エンコーダ210は、コンフォーマまたはトランスフォーマを含み得るマルチヘッド注意ブロック400(本明細書ではコンフォーマブロック400と呼ばれる)のスタックを含み得る。各マルチヘッド注意ブロック400は、マルチヘッド注意機構420(
図4)を含んでよい。コンフォーマブロック400は、エンコーダ210によって実装されて、入力される非典型的な音声の高分解能なスペクトルパターン(patters)をキャプチャしてよい。例えば、スペクトログラムエンコーダ210が発話108の入力音声データ102を受信すると、スペクトログラムエンコーダ210は、コンフォーマブロック400を使用して入力スペクトログラム102の10ミリ秒(ms)の音声サンプルを処理することで、アップサンプリングされた40msのエンコード済みスペクトログラム212を生成してよい。エンコーダ210のコンフォーマブロック400によるアップサンプリングのプロセスは、以下の
図3および
図4を用いてより詳細に説明される。次に、スペクトログラムデコーダ220aは、スペクトログラムエンコーダ210から出力されたアップサンプリングされたエンコード済みスペクトログラム212に基づいて、合成された標準的で流暢な音声表現に対応する出力スペクトログラム222を生成してよい。例えば、スペクトログラムデコーダ220aは、入力スペクトログラム102の10msの音声サンプルを表す、アップサンプリングされた40msのエンコード済みスペクトログラム212を、スペクトログラムエンコーダ210から受信してよい。ここで、相互注意機構231、231a(
図2および
図3)を通じて、スペクトログラムデコーダ220aは、10msの入力音声データ102として意図された単語または単語の一部を含むが非典型的な音声の非流暢性を含まない、発話114の合成された標準的で流暢な音声表現に対応する12.5msの出力スペクトログラム222を生成してよい。
【0024】
いくつかの例では、音声変換モデル200はまた、エンコード済みスペクトログラム212をテキスト表現、例えばトランスクリプション201にデコードする単語片デコーダ220bを含む。例えば、単語片デコーダ220bは、エンコード済みスペクトログラム212を、トランスクリプション201を形成し得る対応する単語片にデコードするようトレーニングされてよい。図示の例では、モデル200によって単語片デコーダ220bが使用されているが、モデル200は、代わりに、エンコード済みスペクトログラムを書記素または単語にデコードするよう構成された書記素デコーダ220bまたは単語デコーダ220bを使用してよい。追加的または代替的には、音声変換モデル200は、エンコード済みスペクトログラム212を、発話114の合成された標準的で流暢な音声表現を示す音素を含む音素表現202にデコードする音素デコーダ220cを含んでもよい。したがって、スペクトログラム、単語片、および音素デコーダ220a~cは、音声変換モデル200の並列のデコード分岐に対応してよい。デコード分岐のそれぞれは、スペクトログラムエンコーダ210によってエンコードされた、アップサンプリングされたエンコード済みスペクトログラム212を受信するとともに、出力スペクトログラム222、トランスクリプション201、および音素表現202のうちの対応するものを並列に出力する。音声変換システム100のボコーダ375(シンセサイザ375とも呼ばれる)は、スペクトログラムデコーダ220aによって出力された出力スペクトログラム222を、別のコンピューティングデバイス116からの可聴出力のために、同じ発話114の合成された標準的で流暢な音声の時間領域波形376に変換するよう構成される。時間領域音声波形は、経時的な音声信号の振幅を定める音声波形を含む。ボコーダ375は、出力スペクトログラム222を標準的で流暢な音声の時間領域波形に合成するためのユニット選択モジュールまたはWaveNetモジュールを含んでよい。いくつかの実装では、シンセサイザ375は、ボコーダネットワーク、すなわち、時間領域音声波形への変換のためにメル周波数スペクトログラム上で別個にトレーニングされ調整されるニューラルボコーダを含む。いくつかの追加的な例では、ボコーダ375は、ストリーミングGriffin-Limボコーダなどのストリーミングボコーダ375を含む。例示的ストリーミングボコーダは、2022年2月21日に出願された米国仮出願第63/312195号に説明されており、その全体の内容は、参照により組み込まれる。
【0025】
示された例では、ソース話者104は、理解が困難であり得る非典型的な音声パターンでソース話者104が話すような、非典型的な音声に関連付けられている。非典型的な音声パターンは、身体的または神経学的状態(例えば、ALS(筋萎縮性側索硬化症)疾患を有する話者)に起因する障害のある発話、重度のアクセントのある発話、および聴覚障害のある発話を含み得るが、これに限定されない。例として、ソース話者104は、ALS疾患を有するとともに、ALS疾患による非典型的な音声に関連付けられている。したがって、音声変換モデル200は、ALS音声に関連付けられたソース話者104によって話された発話108に対応する入力スペクトログラム102を、同じ発話108の合成された標準的で流暢な音声表現に対応する出力スペクトログラム222に直接的に変換するようトレーニングされる。したがって、出力スペクトログラム222によって提供された合成された標準的で流暢な音声表現は、ソース話者104によって話されたALS音声の了解度を改善する。本開示の範囲から逸脱することなく、音声変換モデル200は、第1言語の発話108に対応する入力スペクトログラム102を、ソース話者と同じ声であるが異なる第2言語の発話108の合成音声表現に対応する出力スペクトログラム222に直接的に変換する多言語音声変換モデルとしてトレーニングされてもよい。さらに、モデル20は、第1の音声特性を有するソース話者によって話された発話108に対応する入力スペクトログラム102を、ターゲット話者に対応した異なる音声特性を有する同じ発話108の合成音声表現に対応する出力スペクトログラム222に直接的に変換するようトレーニングされてもよい。
【0026】
ソース話者104に関連付けられたコンピューティングデバイス110は、ソース話者104によって話された発話108をキャプチャするとともに、出力スペクトログラム222、トランスクリプション201、または音素表現202のうちのいずれかへの変換のために、対応する入力音声データ102を音声-音声変換システム100に提供してよい。コンピューティングデバイス110は、スマートフォン、タブレット、デスクトップ/ラップトップコンピュータ、スマートスピーカ、スマートディスプレイ、スマート家電、アシスタント対応ウェアラブルデバイス(例えば、スマートウォッチ、スマートヘッドフォン、スマートグラスなど)、または車両インフォテインメント(infotainment)システムを含み得るが、これに限定されない。その後、音声変換システム100は、ボコーダ375を使用することで、出力スペクトログラム222を時間領域音声波形376に変換してよい。時間領域音声波形376は、合成された標準的で流暢な音声の発話114としてコンピューティングデバイス110または別のコンピューティングデバイス116から可聴的に出力されてよい。本開示の範囲から逸脱することなく、音声変換システム100はまた、ソース話者104によって話された同じ発話114の合成された標準的で流暢な音声表現に対応するトランスクリプション201および/または音素表現202を、ユーザ118に関連付けられた別のコンピューティングデバイス116に提供してよい。これによって、別のコンピューティングデバイス116は、標準的なトランスクリプション201をソース話者104によって話された発話108の理解可能な表現として表示してよく、および/またはトランスクリプション201または音素表現202を合成された標準的で流暢な音声に変換するTTS(テキスト-音声)システムを使用してよい。この例では、ソース話者104およびユーザ118は、電話または他の種類の音声通信プロトコル、例えば、ボイスオーバインターネットプロトコルを介して、それぞれのコンピューティングデバイス110、116を通じて会話をしている。ソース話者104および他のユーザ118は、同一の言語を話し得るが、ソース話者104は、医学的状態(例えば、非典型的な音声)、強いアクセント、または異なる母国語による非典型的な音声を有するので、他のユーザ118がソース話者104を理解することは困難であり得る。したがって、ソース話者104は、理解が困難であり得る非典型的な音声(例えば、ALS音声)で話すが、合成された標準的で流暢な音声表現を聞いている他のユーザ118は、ソース話者104によって意図された発話108の理解がより容易になる。別の言い方をすれば、合成された標準的で流暢な音声表現は、非典型的な音声でターゲット話者によって話された元の発話108よりも別のユーザにとって理解が容易であり得る、より一貫性のあるリズムを提供する。特に、合成された標準的で流暢な音声表現は、ソース話者104の声で話される。しかしながら、用途に応じて、音声変換システム100は、合成された標準的で流暢な音声を、ソース話者とは異なる音声特性を有するターゲット話者の声で生成してもよい。
【0027】
いくつかの追加的な例では、音声変換システム100は、ソース話者104によって話された発話の合成された標準的で流暢な音声表現に対応する出力音声データ106を、合成された標準的で流暢な音声表現をソース話者104の声で可聴的に聞き手に出力するための出力音声デバイスに送る。例えば、ソース話者104は、クラスの学生に講義を行う心理学教授であってもよく、ソース話者104によって話される発話は、特定のドメイン、例えば心理学に属する医学用語を含む。明らかになるように、音声-音声変換モデル200は、特定のドメインに関連付けられた言語的多様性を学習するとともに、ソース話者104に関連付けられた特定の種類の非典型的な音声に関連付けられた音響的多様性を学習するようトレーニングされる。
【0028】
或いは、他のコンピューティングデバイス116は、音声変換システム100が、合成された標準的で流暢な音声表現に対応する出力音声データ106を、認識されたテキストへの変換のためのASR(自動音声認識)システムへの入力として提供するフロントエンドとして機能する、下流のASRシステムに関連付けられてよい。認識されたテキストは、他のユーザ118に提示されてよく、および/またはさらなる処理のためにNLU(自然言語理解)システムに提供されてよい。音声変換システム100の機能は、リモートサーバ112、コンピューティングデバイス110、116のいずれかもしくは両方、またはリモートサーバおよびコンピューティングデバイス110、116の任意の組合せ上に常駐してよい。音声変換システム100は、音声変換モデル200がコンピューティングデバイス110またはリモートサーバ112のうちの1つに常駐し、ボコーダ375がリモートサーバ112または他のコンピューティングデバイス116のうちの1つに常駐するように、複数のデバイス間で分散されてよい。いくつかの実装では、音声変換モデル200は、ソース話者104が発話に対応する部分を非典型的な音声として話すときに、発話の合成された標準的で流暢な音声表現に対応する出力スペクトログラム222を連続的に生成する。ソース話者104によって話された発話108の部分の合成された標準的で流暢な音声表現に対応する出力スペクトログラム222を連続的に生成することによって、ソース話者104とユーザ118(または聞き手)との間の会話は、より自然にペース調整され得る。いくつかの追加的な実装では、音声変換モデル200は、非典型的な音声を有する発話108に対応する入力音声データ102を、同じ発話114の合成された標準的で流暢な音声表現に対応する出力スペクトログラム222に変換する前に、ボイスアクティビティ検出、終点、クエリ検出の終了などの技法を使用することで、ソース話者104が発話を停止するときを判定/検出するよう待機する。
【0029】
図2は、
図1の音声変換システム100によって使用される例示的な音声変換モデル200の概略図を示す。音声変換モデル200は、エンコーダ210および1つまたは複数のデコーダ220、220a~cを含む。エンコーダ210は、入力音声データ102をエンコード済みスペクトログラム212にエンコードするよう構成される。ここで、入力音声データ102は、ソース話者104によって話された発話108に対応する入力スペクトログラムのシーケンスを含む。いくつかの実施形態において、エンコーダ210は、コンフォーマブロック400のスタックを含む。これらの実装では、エンコーダは、畳み込み層を使用して入力音声データ102をサブサンプリングし、次いで、コンフォーマブロック400のスタックを用いて入力音声データ102を処理する。各コンフォーマブロック400は、フィードフォワード層、自己注意層、畳み込み層、および第2のフィードフォワード層を含んでよい。いくつかの例では、コンフォーマブロック400のスタックは、それぞれが512個の状態、8個の注意ヘッド、および32×1の畳み込みカーネルサイズを有する17層のコンフォーマブロックを含む。
図4は、例示的なコンフォーマブロックの概略図である。エンコーダ210は、代わりに、コンフォーマブロックの代わりに、トランスフォーマブロックまたは軽量畳み込みブロックのスタックを使用してもよい。
【0030】
スペクトグラム、音素、および単語片デコーダ220、220a~cはそれぞれ、エンコーダ210によって出力された共有のエンコード済みスペクトログラム212をそれぞれ受信する回帰型ニューラルネットワークベースのアーキテクチャを含んでよい。スペクトログラムデコーダ220aは、エンコーダ210から共有のエンコード済みスペクトログラム212を受信するよう構成された相互注意機構231、231a(
図3にも示す)を含んでよい。スペクトログラムデコーダ220aはさらに、複数のLSTM(長短期記憶)層233、233aおよび複数の畳み込み層235を使用することで、共有のエンコード済みスペクトログラム212を処理してよい。例えば、スペクトログラムデコーダ220aは、5つのLSTM層233aと5つの変換層235とを含んでよい。スペクトログラムデコーダ220aは、出力スペクトログラム222を生成してよい。いくつかの実装では、スペクトログラムデコーダ220aは、発話のトランスクリプションに対応するテキスト表現に対して中間のテキスト-音声変換を実行することなく、エンコード済みスペクトログラム212から出力スペクトログラム222を直接的に生成してよい。
【0031】
図示の例では、単語片デコーダ220bは、エンコーダから共有のエンコード済みスペクトログラムを受信するよう構成された対応する相互注意機構231、231bと、その後に続く、2つのLSTM(長短期記憶)層233、233bと、発話のトランスクリプションに対応するテキスト表現201を出力するSoftmax層245、245aとを含む。
【0032】
単語片デコーダ220bと同様に、音素デコーダ220cも、エンコーダ210から共有のエンコード済みスペクトログラム212を受信するよう構成された相互注意機構231、231cと、その後に続く、2つのLSTM(長短期記憶)層233、233cと、発話202の音素表現を出力するSoftmax層245、245bとを含んでよい。
【0033】
図3は、
図1の音声変換モデル200のトレーニング時間および推論時間を改善するための例示的な混合フレームレート処理方式の概略
図300を示す。混合フレームレート処理方式は、音声-音声処理(すなわち、スペクトログラムデコーダ220aを介して出力スペクトログラム222を生成すること)におけるエンコーダ220のメモリ消費およびトレーニング速度を改善し得る。予測されたターゲットまたは入力シーケンスがテキストである、ASR(自動音声認識)またはTTS(テキスト-音声)などの他のモデルとは異なり、音声-音声変換モデルは、入力シーケンスとして音響フレームを使用する一方で、音響フレームのシーケンスも出力する。音響フレームの出力数はテキストシーケンスの出力数よりもはるかに大きいので、音声-音声の変換は、ASRまたはTTSモデルと比較して多くの計算を必要とする。場合によっては、モデル複雑度は、エンコーダ210の自己注意機構に起因して、入力フレームの数に基づく二次関数になる。さらに、メモリ使用は、音響シーケンスの長さに直接的に比例し得るので、結果的に、バッチサイズが小さくなり、トレーニング速度が遅くなりかねない。
図3に示す混合フレームレート処理方式は、計算の数を大幅に削減し、その後、トレーニングを改善し得る。
【0034】
いくつかの実装では、混合フレームレート処理方式は、3×3カーネルサイズおよび2×2ストライドを有する畳み込みサブサンプリングを使用するので、結果的に、サブサンプリング係数が4になる。これらの実装では、転置畳み込みネットワークは、512のチャネル、4のフィルタサイズ、時間方向に2のストライドを有する1つのCNN(畳み込みニューラルネットワーク)層を含む。さらに、混合フレームレート方式は、30msウィンドウおよび10msフレームシフトを使用することで、入力音声から128次元のログメルスペクトログラム特徴を抽出することを含んでよい。その特徴は、エンコーダ210に提供されてよい。例示的な実装では、スペクトログラムデコーダ220aのターゲットは、50msのフレーム長、12.5msのシフト、および2048点のFFTを用いて計算された1025次元のSTFT(短時間フーリエ変換)振幅を含む。
【0035】
処理方式は、スペクトログラムエンコーダ210が入力スペクトログラム102の10ms(ミリ秒)の音声サンプルを受信することによって開始してよい。エンコーダ210は、最初に、複数のCNN層を含む第1のサブサンプリング層305を使用して10msの音声サンプルを処理してよい。第1のサブサンプリング層305によるサブサンプリングの実施の際には、CNN層が使用され、その後、時間方向にプーリングが行われることで、コンフォーマブロック400、400a~bのスタック内の最初のコンフォーマブロックによって処理されるフレームの数を低減する。CNNは、10msの音声を40msの表現にサブサンプリングしてもよく、40msの表現は次いで、コンフォーマブロック400aの最初のセットに提供される。コンフォーマブロック400aの最初のセットは、40msの表現を処理した後、それを第2のサブサンプリング層315に提供してよい。第2のサブサンプリング層315は、コンフォーマブロック400aの最初のセットとコンフォーマブロック400bの最後のセットとの間に配置されてよい。いくつかの例では、エンコーダ210のコンフォーマブロックの総数が17であるように、コンフォーマブロック400aの最初のセットは4つのコンフォーマブロックを含み、コンフォーマブロック400bの最後のセットは13個のコンフォーマブロックを含む。ここで、第2のサブサンプリング層315は、コンフォーマブロック400aの最初のセット内の最後のコンフォーマブロックによって出力された隠れ表現308をサブサンプリングすることで、コンフォーマブロック400bの最後のセットによって処理されるフレームの数を低減するよう構成されてよい。例えば、第2のサブサンプリング層315は、コンフォーマブロック400aの最初のセットによって出力された40msの隠れ表現308を、対応する80msの表現318にサブサンプリングするよう構成されてよい。コンフォーマブロック400bの最後のセットの最終コンフォーマブロックの終わりに、エンコーダ210は、アップサンプリング層325を使用して80msの隠れ表現322をアップサンプリングする。アップサンプリング層325は、コンフォーマブロック400bの最後のセットの最後のコンフォーマブロックによって出力された80msの隠れ表現322を、エンコード済みスペクトログラム212の対応する40msの表現にアップサンプリングすることで、エンコード済みスペクトログラム212のフレーム数を増加させるよう構成された単一の転置CNN層を含んでよい。
【0036】
エンコード済みスペクトログラム212は、エンコーダ210とスペクトログラムデコーダ220aとの間に配置された相互注意機構231aによって受信されてよい。いくつかの実装では、相互注意機構231aは、スペクトログラムデコーダ220aに含まれる。スペクトログラムデコーダ220aは、相互注意機構231aを使用して、エンコード済みスペクトログラム212の40msの表現を25msの表現に低減してよい。25msの表現は次いで、LSTM233aに提供されてよい。LSTM233aの出力は、低減係数335によって低減されてよい。スペクトログラムデコーダ220aは、12.5msの最終サイズで、結果として生じる出力スペクトログラム222を出力してよい。出力スペクトログラム222は、合成音声の対応する時間領域音声波形への変換のためにボコーダ375(
図1)に提供されてよい。
【0037】
上記の例は、限定を意図するものではない。エンコーダ210は、処理のために任意の適切な長さの音声サンプルを受信してよい。エンコーダ210は、次いで、音声サンプルを処理、サブサンプリング、またはアップサンプリングすることで、任意の適切な長さを有し得るエンコード済みスペクトログラム212を生成してよい。同様に、デコーダ220aは、エンコード済みスペクトログラム212を処理することで、適切な長さの出力スペクトログラム222を生成してよい。
【0038】
実験では、同一のエンコーダフレームシフトが与えられた場合、混合フレームレート方式は、異なるサブサンプリングおよびアップサンプリング設定による異なる実現を可能にする。例えば、サブサンプリングの増加は、一般に、トレーニングの改善をもたらすが、アップサンプリングを通じて回復することがより困難なスペクトログラムWERの回帰を引き起こす。情報損失は、エンコーダ210のコンフォーマブロック400bの最後のセットの最後のコンフォーマブロックにおけるフィードフォワードニューラルネットワーク重み行列のスパース性に基づいて評価されてもよい。CPV(累積分散割合)は、以下の式によって計算されてよい。
【0039】
【0040】
ここで、siは行列のi番目の特異値であり、kは考慮する特異値の数であり、Dはフィードフォワード行列のサイズである(D=512)。任意の所与のkについて、より大きなCPVは、ネットワークがkのスパース性指数を有するデータの構造を学習することができることを示す。小さい値のkは、疎な行列構造を示す。
【0041】
図4は、エンコーダ210のコンフォーマ層のスタックにおけるコンフォーマブロック400の例を示す。コンフォーマブロック400は、前半のフィードフォワード層410と、後半のフィードフォワード層440と、前半のフィードフォワード層410と後半のフィードフォワード層440との間に配置されたマルチヘッド自己注意ブロック420および畳み込み層430と、連結演算子405とを含む。前半のフィードフォワード層410は、入力メルスペクトログラムシーケンスを含む入力音声データ102を処理する。続いて、マルチヘッド自己注意ブロック420は、前半のフィードフォワード層410の出力と連結された入力音声データ102を受信する。端的に言えば、マルチヘッド自己注意ブロック420の役割は、強調される各入力フレームについてノイズのコンテキストを個別に要約することである。畳み込み層430は、前半のフィードフォワード層410の出力と連結されたマルチヘッド自己注意ブロック420の出力をサブサンプリングする。その後、後半のフィードフォワード層440は、畳み込み層430出力とマルチヘッド自己注意ブロック420との連結を受信する。layernormモジュール450は、後半のフィードフォワード層440からの出力を処理する。数学的には、コンフォーマブロック400は、変調特徴mを使用して入力特徴xを変換することで、以下のように出力特徴yを生成する。
【0042】
【0043】
図5は、音声変換モデル200のためのトレーニングプロセス500を示す。いくつかの実装では、プロセス500は、2ステップトレーニング技法を採用する。はじめに、音声変換モデル200は、話者の大きなプールからの典型的な音声に対して事前トレーニングされることで多対1の音声変換モデル200を得て、結果的に、話者から独立したASR/変換ベースモデルになる。トレーニングに使用されるターゲット音声は、典型的な音声を反映する所定の音声による基準トランスクリプトから合成された音声であってもよい。個別化のために、基本モデルの任意のパラメータが、単一入力話者(例えば、聴覚障害のある話者)からの音声に微調整されることで、非典型的な音声から典型的な音声への1対1音声変換モデル(および話者依存のASR)モデルを取得してよい。
【0044】
図5を参照すると、プロセス500は、はじめに、事前トレーニングデータ505を使用して音声変換モデル200を事前トレーニングする。モデルの事前トレーニングは、モデルを初期化するために使用される技法である。モデルは、次いで、追加的なトレーニングデータ510に基づいてさらに微調整されてよい。音声変換モデル200に関して、事前トレーニングは、標準的で流暢な音声に関連付けられた典型的な話者による複数の話された発話を含む事前トレーニングデータ505を用いて音声変換モデル200を開始することを含んでよい。事前トレーニングデータ505は、話された発話に対応したグラウンドトゥルースであって合成された標準的で流暢な音声表現とペアにされた話された発話をさらに含んでよい。
【0045】
次いで、プロセス500は、非典型的な音声の事前トレーニングされた音声変換モデル200のパラメータを微調整してよい。トレーニングプロセスは、エンコーダ210またはデコーダ220、220a~cのいずれかを別々にまたは任意の適切な組合せで共同でトレーニングすることを含んでよい。プロセス500は、トレーニング入力510を音声変換モデル200に供給することを含む。いくつかの実装では、トレーニング入力510は、非典型的な音声に関連付けられた1人または複数の話者によって話された複数の非典型的な音声サンプルを含む。さらに、トレーニング入力510は、トレーニング入力510に関連付けられたターゲット出力を示すラベル520を使用してラベル付けされてよい。トレーニング入力510を受信すると、音声変換モデル200は、出力515(例えば、トランスクリプト201、音素表現202、出力スペクトログラム222)を生成してよい。音声変換モデル200は、
図2乃至
図4のいずれかに関して説明した方法で、または音声変換のために任意の他の好適な方法で、トレーニング入力510を処理してよい。
【0046】
いくつかの実装では、出力515は損失関数530によって使用されて損失540が生成される。すなわち、損失関数530は、出力515とラベル520とを比較することで損失540を生成する。損失540は、ラベル520(すなわち、ターゲット出力)と出力515との間の不一致を示す。損失関数350は、回帰損失、平均二乗誤差、平均二乗対数誤差、平均絶対誤差、バイナリ分類、バイナリクロスエントロピー、ヒンジ損失、マルチクラス損失などの損失を判定するための任意の適切な技法を実装してよい。次いで、損失540は、音声変換モデル200に直接的に供給されてよい。ここで、音声変換モデル200は、損失540を処理するとともに、損失540を補償するよう音声変換モデル200の1つまたは複数のパラメータを調整する。
【0047】
図6は、音声変換を実行するためにコンピュータが実施する方法600の動作の例示的な構成のフローチャートである。方法600は、例えば、
図1の例示的な音声変換システム100の様々な要素によって実行されてよい。動作610において、方法は、音声変換モデル200のエンコーダ210への入力として、発話108に対応する入力スペクトログラム102を受信する工程を含む。エンコーダ210は、自己注意ブロック400のスタックを含む。動作620において、方法600は、エンコーダ210からの出力として、エンコード済みスペクトログラム212を生成する工程を含む。動作630において、方法600は、音声変換モデル220のスペクトログラムデコーダ200aへの入力として、エンコーダ210からの出力として生成されたエンコード済みスペクトログラム212を受信する工程を含む。動作640において、方法600は、スペクトログラムデコーダ220aからの出力として、同じ発話114の合成された標準的で流暢な音声表現に対応する出力スペクトログラム222を生成する工程を含む。
【0048】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含むが、これらに限定されない。
【0049】
非一時的メモリは、コンピューティングデバイスによる使用のために、プログラム(例えば、命令のシーケンス)またはデータ(例えば、プログラム状態情報)を一時的または永続的に記憶するために使用される物理デバイスであってよい。非一時的メモリは、揮発性および/または不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例は、フラッシュメモリおよびROM(リードオンリーメモリ)/PROM(プログラマブルリードオンリーメモリ)/EPROM(消去可能プログラマブルリードオンリーメモリ)/EEPROM(電子的消去可能プログラマブルリードオンリーメモリ)(例えば、ブートプログラムなどのファームウェアに典型的に使用される)を含むが、これらに限定されない。揮発性メモリの例は、RAM(ランダムアクセスメモリ)、DRAM(ダイナミックランダムアクセスメモリ)、SRAM(スタティックランダムアクセスメモリ)、PCM(相変化メモリ)、およびにディスクまたはテープを含むが、これらに限定されない。
【0050】
図7は、本明細書で説明されたシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス700の概略図である。コンピューティングデバイス700は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ等、様々な形態のデジタルコンピュータを表すよう意図されている。本明細書で示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものに過ぎず、本明細書で説明および/または特許請求される本発明の実装を限定するものではない。
【0051】
コンピューティングデバイス700は、プロセッサ710、メモリ720、記憶デバイス730、メモリ720および高速拡張ポート750に接続する高速インターフェース/コントローラ740、ならびに低速バス770および記憶デバイス730に接続する低速インターフェース/コントローラ760を含む。構成要素710、720、730、740、750、および760の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で実装され得る。プロセッサ710は、高速インターフェース740に接続されたディスプレイ780などの外部入力/出力デバイス上にGUI(グラフィカルユーザインターフェース)のためのグラフィカル情報を表示するようメモリ720または記憶デバイス730に記憶された命令を含む、コンピューティングデバイス700内で実行するための命令を処理することができる。他の実装では、複数のメモリおよびメモリの種類とともに、必要に応じて複数のプロセッサおよび/または複数のバスが使用されてよい。また、複数のコンピューティングデバイス700が接続されてもよく、各デバイスは、例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして、必要な動作の一部を提供する。プロセッサ710は、リモートサーバ112、コンピューティングデバイス110、116のいずれかもしくは両方、またはリモートサーバおよびコンピューティングデバイス110、116の任意の組合せ上に常駐するデータ処理ハードウェア710と呼ばれることがある。メモリ710は、リモートサーバ112、コンピューティングデバイス110、116のいずれかもしくは両方、またはリモートサーバおよびコンピューティングデバイス110、116の任意の組合せ上に常駐するメモリハードウェア720と呼ばれることがある。
【0052】
メモリ720は、コンピューティングデバイス700内に情報を非一時的に記憶する。メモリ720は、コンピュータ可読媒体、揮発性メモリユニット(複数可)、または不揮発性メモリユニット(複数可)であってもよい。非一時的メモリ720は、コンピューティングデバイス700による使用のために一時的または永続的にプログラム(例えば、命令のシーケンス)またはデータ(例えば、プログラム状態情報)を記憶するために使用される物理的なデバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよびROM(リードオンリーメモリ)/PROM(プログラマブルリードオンリーメモリ)/EPROM(消去可能プログラマブルリードオンリーメモリ)/EEPROM(電子的消去可能プログラマブルリードオンリーメモリ)(例えば、ブートプログラムなどのファームウェアに典型的に使用される)を含むが、これらに限定されない。揮発性メモリの例は、RAM(ランダムアクセスメモリ)、DRAM(ダイナミックランダムアクセスメモリ)、SRAM(スタティックランダムアクセスメモリ)、PCM(相変化メモリ)、およびにディスクまたはテープを含むが、これらに限定されない。
【0053】
記憶デバイス730は、コンピューティングデバイス700に大容量ストレージを提供することが可能である。いくつかの実装では、記憶デバイス730はコンピュータ可読媒体である。様々な異なる実装では、記憶デバイス730は、フロッピー(登録商標)ディスクデバイス、ハードディスクデバイス、光学ディスクデバイス、テープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってよい。追加的な実装では、コンピュータプログラム製品は、情報担体として有形に具現化される。コンピュータプログラム製品は、実行されると、上記のような1つまたは複数の方法を実行する命令を含む。情報担体は、メモリ720、記憶デバイス730、またはプロセッサ710上のメモリなどのコンピュータ可読媒体または機械可読媒体である。
【0054】
高速コントローラ740は、コンピューティングデバイス700のための帯域幅集中型の演算を管理し、低速コントローラ760は、より低い帯域幅集中型の演算を管理する。このようなデューティの割り当ては例示にすぎない。いくつかの実装では、高速コントローラ740は、メモリ720、ディスプレイ780(例えば、グラフィックスプロセッサまたはアクセラレータを介して)、および様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート750に接続される。いくつかの実装では、低速コントローラ760は、記憶デバイス730および低速拡張ポート790に接続される。種々の通信ポート(例えば、USB、Bluetooth(登録商標)、イーサネット(登録商標)、無線イーサネット)を含み得る低速拡張ポート790は、例えばネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナー、または、スイッチまたはルータ等のネットワークデバイス等の、1つまたは複数の入力/出力デバイスに接続されてよい。
【0055】
コンピューティングデバイス700は、
図7に示されるように、複数の異なる形態で実装されてよい。例えば、コンピューティングデバイス700は、ラップトップコンピュータ700bとして、ラックサーバシステム700cの一部として、または標準的なサーバ700aとしてもしくはそのようなサーバ700aのグループにおいて複数回実装されてもよい。
【0056】
本明細書で説明されたシステムおよび技法の様々な実装は、デジタル電子回路および/または光回路、集積回路、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/またはそれらの組合せで実現され得る。これらの様々な実装は、記憶デバイス、1つ以上の入力デバイス、および1つ以上の出力デバイスに対してデータおよび命令を送信すると共にこれらからデータおよび命令を受信するよう接続された、特定目的または汎用目的の1つ以上のプログラマブルプロセッサを備えたプログラマブルシステム上で実行可能および/または翻訳可能な1つまたは複数のコンピュータプログラムでの実装を含んでよい。
【0057】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラマブルプロセッサのための機械命令を含み、高レベル手続き型および/またはオブジェクト指向プログラミング言語、および/またはアセンブリ/機械言語で実装され得る。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を含む、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、機器および/または装置(例えば、磁気ディスク、光学ディスク、メモリ、PLD(プログラマブル論理デバイス))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0058】
本明細書で説明されたプロセスおよび論理フローは、入力データに対して動作しかつ出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、特殊目的論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般的に、コンピュータはまた、データを記憶するための1つまたは複数の大容量記憶デバイス、例えば、磁気、光磁気ディスク、もしくは光学ディスクを含むか、またはそれらからデータを受信するか、それらにデータを転送するか、もしくはその両方を行うように動作可能に接続される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、EPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCDROMおよびDVD-ROMディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路によって補完され得るか、または特殊目的論理回路に組み込まれ得る。
【0059】
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えば、CRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、任意選択で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールとを有するコンピュータ上で実装されてよい。他の種類のデバイスを使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚的なフィードバック、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックであってよく、ユーザからの入力は、音響的入力、音声的入力、または触覚的入力を含む任意の形式で取り込まれてよい。さらに、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、デバイスから文書を受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
【0060】
複数の実装について説明してきたが、本開示の主旨および範囲から逸脱することなく、様々な変更が行われ得ることが理解されるであろう。したがって、他の実施形態は、以下の特許請求の範囲内にある。
【国際調査報告】