(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-14
(54)【発明の名称】ロバストな直接音声間翻訳
(51)【国際特許分類】
G10L 15/02 20060101AFI20240806BHJP
G10L 13/00 20060101ALI20240806BHJP
G10L 15/16 20060101ALI20240806BHJP
G10L 15/00 20130101ALI20240806BHJP
【FI】
G10L15/02 300Z
G10L13/00 100G
G10L15/16
G10L15/00 200C
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024502159
(86)(22)【出願日】2021-12-15
(85)【翻訳文提出日】2024-03-06
(86)【国際出願番号】 US2021063429
(87)【国際公開番号】W WO2023287446
(87)【国際公開日】2023-01-19
(32)【優先日】2021-07-16
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】イェ・ジア
(72)【発明者】
【氏名】ミシェル・タドモール・ラマノヴィッチ
(72)【発明者】
【氏名】タル・レメズ
(72)【発明者】
【氏名】ロイ・ポメランツ
(57)【要約】
直接音声間翻訳(S2ST)モデル(200)が、ソース話者(104)によって第1の言語で話された発話(108)に対応する入力音声表現(102)を受け取り、入力音声表現を隠れた特徴表現(215)にエンコードするように構成されたエンコーダ(210)を含む。S2STモデルはまた、エンコードされた隠れた表現に注意を向けるコンテキストベクトル(225)を生成するように構成されたアテンションモジュール(220)を含む。S2STモデルはまた、アテンションモジュールによって生成されたコンテキストベクトルを受け取り、第2の異なる言語での発話の翻訳に対応する音素表現(235)を予測するように構成されたデコーダ(230)を含む。S2STモデルはまた、コンテキストベクトルおよび音素表現を受け取り、異なる第2の言語で話される発話の翻訳に対応する翻訳された合成音声表現(355)を生成するように構成された合成器(300)を含む。
【特許請求の範囲】
【請求項1】
直接音声間翻訳(S2ST)モデル(200)であって、
エンコーダ(210)であって、
ソース話者(104)によって第1の言語で話された発話(108)に対応する入力音声表現(102)を受け取ること、および
前記入力音声表現(102)を隠れた特徴表現(215)にエンコードすること
を行うように構成された、エンコーダ(210)と、
前記エンコーダ(210)によってエンコードされた前記隠れた特徴表現(215)に注意を向けるコンテキストベクトル(225)を生成するように構成されたアテンションモジュール(220)と、
デコーダ(230)であって、
前記アテンションモジュール(220)によって生成された前記コンテキストベクトル(225)を受け取ること、および
第2の異なる言語での前記発話(108)の翻訳に対応する音素表現(235)を予測すること
を行うように構成された、デコーダ(230)と、
合成器(300)であって、
前記コンテキストベクトル(225)および前記音素表現(235)を受け取ること、および
前記異なる第2の言語で話された前記発話(108)の前記翻訳に対応する翻訳された合成音声表現(355)を生成すること
を行うように構成された、合成器(300)と
を備える、S2STモデル(200)。
【請求項2】
前記エンコーダ(210)が、コンフォーマブロック(400)のスタックを含む、請求項1に記載のS2STモデル(200)。
【請求項3】
前記エンコーダ(210)が、トランスフォーマブロックまたは軽量の畳み込みブロックのうちの一方のスタックを含む、請求項1または2に記載のS2STモデル(200)。
【請求項4】
前記合成器(300)が、前記音素表現(235)によって表される音素の列中の各音素の継続時間(315)を予測するように構成された継続時間モデルネットワーク(310)を含む、請求項1から3のいずれか一項に記載のS2STモデル(200)。
【請求項5】
前記合成器(300)が、各音素の前記予測された継続時間(315)に基づいて前記音素の列をアップサンプリングすることによって、前記翻訳された合成音声表現(102)を生成するように構成される、請求項4に記載のS2STモデル(200)。
【請求項6】
前記翻訳された合成音声表現(102)が、前記ソース話者(104)の発話スタイル/韻律に合わせて構成される、請求項1から5のいずれか一項に記載のS2STモデル(200)。
【請求項7】
前記S2STモデル(200)が、並列のソース言語発話およびターゲット言語発話のペアにおいてトレーニングされ、
各ペアが、前記ソース発話で話された声を含む、請求項1から6のいずれか一項に記載のS2STモデル(200)。
【請求項8】
前記ソース言語発話(108)または前記ターゲット言語発話のうちの少なくとも一方が、前記ソース発話(108)の前記声の合成音声を生成するようにトレーニングされたテキスト音声モデルによって合成された音声を含む、請求項7に記載のS2STモデル(200)。
【請求項9】
ボコーダ(375)が、
前記翻訳された合成音声表現(355)を受け取ることと、
前記翻訳された合成音声表現(355)を、前記翻訳された合成音声表現(355)の可聴出力に合成することと
を行うように構成される、請求項1から8のいずれか一項に記載のS2STモデル(200)。
【請求項10】
前記音素表現(235)が、前記翻訳された合成音声表現(355)に対応する音素列における可能性のある音素の確率分布を含む、請求項1から9のいずれか一項に記載のS2STモデル(200)。
【請求項11】
データ処理ハードウェア上で実行されると、前記データ処理ハードウェア(610)に、
直接音声間翻訳(S2ST)モデル(200)への入力として、ソース話者(104)によって第1の言語で話された発話(108)に対応する入力音声表現(102)を受け取るステップと、
前記S2STモデル(200)のエンコーダ(210)によって、前記入力音声表現(102)を隠れた特徴表現(215)にエンコードするステップと、
前記エンコーダ(210)によってエンコードされた前記隠れた特徴表現(215)に注意を向けるコンテキストベクトル(225)を、前記S2STモデル(200)のアテンションモジュール(220)によって生成するステップと、
前記アテンションモジュール(220)によって生成された前記コンテキストベクトル(225)を、前記S2STモデル(200)のデコーダ(230)で受け取るステップと、
第2の異なる言語での前記発話の翻訳に対応する音素表現(235)を、前記デコーダ(230)によって予測するステップと、
前記コンテキストベクトル(225)および前記音素表現(235)を、前記S2STモデル(200)の合成器(300)で受け取るステップと、
前記異なる第2の言語で話される前記発話の前記翻訳に対応する翻訳された合成音声表現(355)を、前記合成器(300)によって生成するステップと
を含む動作を行わせる、コンピュータにより実施される方法(500)。
【請求項12】
前記エンコーダ(210)が、コンフォーマブロック(400)のスタックを含む、請求項11に記載のコンピュータにより実施される方法(500)。
【請求項13】
前記エンコーダ(210)が、トランスフォーマブロックまたは軽量の畳み込みブロックのうちの一方のスタックを含む、請求項11または12に記載のコンピュータにより実施される方法(500)。
【請求項14】
前記合成器(300)が、前記音素表現(235)によって表される音素の列中の各音素の継続時間(315)を予測するように構成された継続時間モデルネットワーク(310)を含む、請求項11から13のいずれか一項に記載のコンピュータにより実施される方法(500)。
【請求項15】
前記翻訳された合成音声表現(355)を生成するステップが、各音素の前記予測された継続時間(315)に基づいて前記音素の列をアップサンプリングするステップを含む、請求項14に記載のコンピュータにより実施される方法(500)。
【請求項16】
前記翻訳された合成音声表現(355)が、前記ソース話者(104)の発話スタイル/韻律に合わせて構成される、請求項11から15のいずれか一項に記載のコンピュータにより実施される方法(500)。
【請求項17】
前記S2STモデル(200)が、並列のソース言語発話およびターゲット言語発話のペアにおいてトレーニングされ、
各ペアが、前記ソース発話(108)で話された声を含む、請求項11から16のいずれか一項に記載のコンピュータにより実施される方法(500)。
【請求項18】
前記ソース言語発話(108)または前記ターゲット言語発話のうちの少なくとも一方が、前記ソース発話(108)の前記声の合成音声を生成するようにトレーニングされたテキスト音声モデルによって合成された音声を含む、請求項17に記載のコンピュータにより実施される方法(500)。
【請求項19】
前記動作が、
前記翻訳された合成音声表現(355)を、ボコーダ(375)で受け取ることと、
前記翻訳された合成音声表現(355)を、前記翻訳された合成音声表現(355)の可聴出力に、前記ボコーダ(375)によって合成することと
をさらに含む、請求項11から18のいずれか一項に記載のコンピュータにより実施される方法(500)。
【請求項20】
前記音素表現(235)が、前記翻訳された合成音声表現(355)に対応する音素列における可能性のある音素の確率分布を含む、請求項11から19のいずれか一項に記載のコンピュータにより実施される方法(500)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ロバストな直接音声間翻訳(speech-to-speech translation)に関する。
【背景技術】
【0002】
共通の言語を共有していない人々の間のコミュニケーションの壁を打破するためには、音声間翻訳(S2ST)が大いに有益である。従来、S2STシステムは、3つの構成要素、すなわち自動音声認識(ASR)、テキスト間(text-to-text)機械翻訳(MT)、およびテキスト音声(text-to-speech:TTS)合成のカスケードから構成されている。最近では、直接音声テキスト翻訳(speech-to-text translation)(ST)の進歩がASRおよびMTのカスケードをしのぎ、それによってSTおよびTTSの2つの構成要素カスケードをS2STとして実現可能にしている。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の一態様は、ソース話者によって第1の言語で話された発話に対応する入力音声表現を受け取り、入力音声表現を隠れた特徴表現にエンコードするように構成されたエンコーダを含む、直接音声間翻訳(S2ST)モデルを提供する。S2STモデルはまた、エンコーダによってエンコードされた隠れた表現に注意を向ける(attend)コンテキストベクトルを生成するように構成されたアテンションモジュールを含む。S2STモデルはまた、アテンションモジュールによって生成されたコンテキストベクトルを受け取り、第2の異なる言語での発話の翻訳に対応する音素表現を予測するように構成されたデコーダを含む。S2STモデルはまた、コンテキストベクトルおよび音素表現を受け取り、第2の異なる言語で話される発話の翻訳に対応する、翻訳された合成音声表現を生成するように構成された合成器を含む。
【0004】
本開示の実装形態は、以下の任意の特徴のうちの1つまたは複数を含んでもよい。いくつかの実装形態では、エンコーダは、コンフォーマ(conformer)ブロックのスタックを含む。他の実装形態では、エンコーダは、トランスフォーマ(transformer)ブロックまたは軽量の畳み込みブロックのうちの一方のスタックを含む。いくつかの例では、合成器は、音素表現によって表される音素の列中の各音素の継続時間を予測するように構成された継続長モデル(duration model)ネットワークを含む。これらの例では、合成器は、各音素の予測された継続時間に基づいて音素の列をアップサンプリングすることによって、翻訳された合成音声表現を生成するように構成されてもよい。翻訳された合成音声表現は、ソース話者の発話スタイル(speaking style)/韻律に合わせて構成されてもよい。
【0005】
いくつかの実装形態では、S2STモデルは、ソース発話で話された声を各々含む、並列のソース言語発話とターゲット言語発話のペアにおいてトレーニングされる。これらの実装形態では、ソース言語発話またはターゲット言語発話のうちの少なくとも一方が、ソース発話の声の合成音声を生成するようにトレーニングされたテキスト音声モデルによって合成された音声を含む。いくつかの例では、S2STモデルは、翻訳された合成音声表現を受け取り、翻訳された合成音声表現を、翻訳された合成音声表現の可聴出力に合成するように構成されたボコーダをさらに含む。場合によっては、音素表現は、翻訳された合成音声表現に対応する音素列における可能性のある音素の確率分布を含んでもよい。
【0006】
本開示の別の態様は、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに直接音声間翻訳のための動作を行わせる、コンピュータにより実施される方法を提供する。この動作は、直接音声間翻訳(S2ST)モデルへの入力として、ソース話者によって第1の言語で話された発話に対応する入力音声表現を受け取ることを含む。この動作はまた、S2STモデルのエンコーダによって、入力音声表現を隠れた特徴表現にエンコードすることを含む。この動作はまた、エンコーダによってエンコードされた隠れた特徴表現に注意を向けるコンテキストベクトルを、S2STモデルのデコーダによって生成することを含む。この動作はまた、S2STモデルのデコーダでアテンションモジュールによって生成されたコンテキストベクトルを受け取ることを含む。この動作はまた、第2の異なる言語での発話の翻訳に対応する音素表現を、デコーダによって予測することを含む。この動作はまた、S2STモデルの合成器でコンテキストベクトルおよび音素表現を受け取ることを含む。この動作はまた、異なる第2の言語で話される発話の翻訳に対応する翻訳された合成音声表現を、合成器によって生成することを含む。
【0007】
本開示の実装形態は、以下の任意の特徴のうちの1つまたは複数を含んでもよい。いくつかの実装形態では、エンコーダは、コンフォーマブロックのスタックを含む。他の実装形態では、エンコーダは、トランスフォーマブロックまたは軽量の畳み込みブロックのうちの一方のスタックを含む。いくつかの例では、合成器は、音素表現によって表される音素の列中の各音素の継続時間を予測するように構成された継続長モデルネットワークを含む。これらの例では、翻訳された合成音声表現を生成することは、各音素の予測された継続時間に基づいて音素の列をアップサンプリングすることを含んでもよい。
【0008】
翻訳された合成音声表現は、ソース話者の発話スタイル/韻律に合わせて構成されてもよい。いくつかの実装形態では、S2STモデルは、ソース発話で話された声を各々含む、並列のソース言語発話とターゲット言語発話のペアにおいてトレーニングされる。これらの実装形態では、ソース言語発話またはターゲット言語発話のうちの少なくとも一方が、ソース発話の声の合成音声を生成するようにトレーニングされたテキスト音声モデルによって合成された音声を含んでもよい。いくつかの例では、動作は、翻訳された合成音声表現をS2STモデルのボコーダで受け取ることと、翻訳された合成音声表現を、翻訳された合成音声表現の可聴出力にボコーダによって合成することとをさらに含む。場合によっては、音素表現は、翻訳された合成音声表現に対応する音素列における可能性のある音素の確率分布を含んでもよい。
【0009】
本開示の1つまたは複数の実装形態の詳細について、添付の図面および以下の説明に示す。他の態様、特徴、および利点は、説明および図面、ならびに特許請求の範囲から明らかとなるであろう。
【図面の簡単な説明】
【0010】
【
図1】直接音声間翻訳(S2ST)モデルを含む例示的な音声環境の概略図である。
【
図4】例示的なConformerブロックの概略図である。
【
図5】直接音声間翻訳を行う方法のための動作の例示的な構成のフローチャートである。
【
図6】本明細書で説明するシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0011】
様々な図面における同じ参照符号は、同じ要素を示す。
【0012】
共通の言語を共有していない人々の間のコミュニケーションの壁を打破するためには、音声間翻訳(S2ST)が大いに有益である。従来、S2STシステムは、3つの構成要素、すなわち自動音声認識(ASR)、テキスト間機械翻訳(MT)、およびテキスト音声(TTS)合成のカスケードから構成されている。最近では、直接音声テキスト翻訳(ST)の進歩がASRおよびMTのカスケードをしのぎ、それによってSTおよびTTSの2つの構成要素カスケードをS2STとして実現可能にしている。
【0013】
直接S2STは、1つの言語の音声を別の言語の音声に直接翻訳することを含む。言い方を変えれば、直接S2STシステム/モデルは、人間の話者によって第1の言語で話された音声に対応する入力オーディオ波形またはスペクトログラムを、入力オーディオ波形を中間表現(たとえば、テキストまたは音素)に変換することなく、第1の言語とは異なる第2の言語の合成された音声に対応する出力オーディオ波形またはスペクトログラムに変換するように構成される。明らかになるように、直接S2STモデル、ならびに直接S2STモデルをトレーニングするための技法は、ユーザがユーザの母語で話し、異なる言語の合成オーディオとしてユーザの音声を認識および/または再生可能にすることによって、他の人間と音声インターフェース(たとえば、デジタルアシスタント)の両方によって理解されることを可能にする。最近の直接S2STモデルは、翻訳品質に関してカスケード型S2STシステムに及ばなかったと同時に、バブリングおよび長い中断に関して出力合成音声のロバスト性の問題もある。これらの問題は、音声を合成するためにアテンションベースの手法を使用することに起因する。
【0014】
本明細書の実装形態は、エンドツーエンドでトレーニングされ、既存の直接S2STシステムをしのぎ、翻訳品質、音声の自然さ、および音声のロバスト性に関してカスケード型システムに匹敵する、ロバストな直接S2STモデルを対象とする。特に、カスケード型システムと比較すると、直接S2STシステム/モデルは、話者の声および韻律などのパラ言語および非言語情報を翻訳中に保持すること、文書形態なしに言語上で動作すること、計算要件および推論レイテンシを低減すること、サブシステムにわたるエラーの複合化(error compounding)を回避すること、ならびに名前および他の固有名詞など、翻訳する必要がない内容の処理を容易にすることの可能性を有する。本明細書の実装形態は、明示的話者埋め込みまたは識別子に頼らない、S2STにおける声保持技法をさらに対象とする。詳細には、トレーニングされるS2STモデルは、ソース話者とは異なる声で音声を生成する能力なしに、入力音声で提供されるソース話者の声を単に保持するようにトレーニングされる。特に、ソース話者の声を保持する能力は、なりすましオーディオアーティファクト(spoofing audio artifact)を作成するための悪用を事前に軽減することによって、本番環境に有用である。
【0015】
図1は、ソース話者によって第1の言語で話された入力発話を、異なる第2の言語の対応する出力発話に直接翻訳するように、およびその逆も同様に、構成された直接音声間翻訳(S2ST)モデル200を採用する音声会話環境100を示す。明らかになるように、直接S2STモデル200は、エンドツーエンドでトレーニングされる。特に、直接S2STモデル200は、自動音声認識器(ASR)構成要素、テキスト間機械翻訳(MT)構成要素、およびテキスト音声(TTS)合成構成要素を採用するカスケード型S2STシステム、または直接音声テキスト翻訳(ST)構成要素、続いてTTS構成要素があるカスケードを採用する他のカスケード型S2STシステムとは異なる。
【0016】
図示の例では、直接S2STモデル200は、ソース話者104によって第1の/ソース言語(たとえば、スペイン語)で話された発話108に対応する入力オーディオデータ102を、ソース話者104によって異なる第2の言語(たとえば、英語)で話された、翻訳された発話114の翻訳された合成音声表現に対応する出力オーディオデータ(たとえば、メルスペクトログラム)106に変換するように構成される。直接S2STモデル200は、音声認識およびテキスト間機械翻訳を実行することなく、または場合によっては入力データ102からの何らかの中間離散表現(たとえば、テキストまたは音素)の生成を必要とすることなく、入力オーディオデータ102に対応する入力スペクトログラムを、出力オーディオデータ106に対応する出力スペクトログラムに直接変換してもよい。
図2および
図3に関してより詳細に説明するが、直接S2STモデル200は、スペクトログラムエンコーダ210、アテンションモジュール220、デコーダ230、および合成器(たとえば、スペクトログラムデコーダ)300を含む。
【0017】
ボコーダ375が、直接S2STモデル200から出力された出力オーディオデータ106を、第2の言語で、かつソース話者の声で話される翻訳された発話114としての可聴出力のために時間領域の波形に合成してもよい。時間領域のオーディオ波形は、経時的にオーディオ信号の振幅を定義するオーディオ波形を含む。ボコーダ375の代わりに、ユニット選択モジュールまたはWaveNetモジュールが、出力オーディオデータ106を、翻訳された第2の言語での、かつソース話者104の声での、合成された音声の時間領域波形に代わりに合成してもよい。いくつかの実装形態では、ボコーダ375は、時間領域のオーディオ波形への変換のためにメル周波数スペクトログラム上で別々にトレーニングされ、調整されるボコーダネットワーク、すなわちニューラルボコーダを含む。
【0018】
図示の例では、ソース話者104は、スペイン語の第1の/ソース言語の母語話者である。直接S2ST200はしたがって、ソース話者104によってスペイン語で話された発話108に対応する入力オーディオデータ102を、英語(たとえば、第2の/ターゲット言語)の翻訳された発話114に対応する翻訳された合成音声表現に対応する出力オーディオデータ106に直接変換するようにトレーニングされる。すなわち、英語の翻訳された発話114(たとえば、「Hi, what are your plans this afternoon?」)は、ソース話者104によってスペイン語で話された入力発話108(たとえば、「Hola, cuales son tus planes esta tarde?」)の翻訳版の合成オーディオを含む。このようにして、出力オーディオデータ106によって英語で提供される翻訳された合成表現は、母語のスペイン語話者が、英語を母語として話す受信ユーザ118にスペイン語で話した発話108を伝えることを可能にする。いくつかの例では、ソース話者104は英語を話さず、受信話者118は、スペイン語を話さない/理解しない。いくつかの実装形態では、直接S2STモデル200は、マルチリンガルであり、話者118によって英語で話された入力発話をスペイン語の翻訳された発話にも変換するようにトレーニングされる。これらの実装形態では、直接S2STモデル200は、スペイン語および英語に加えて、またはこれらに代えて、言語の1つまたは複数の他のペア間で音声を変換するように構成されてもよい。
【0019】
特に、直接S2STモデル200は、合成音声表現および結果として生じる翻訳された発話114に対応する出力オーディオデータ106が、ソース話者の声を、ただし異なる第2の言語で伝えるように、ソース話者の声の特性を保持するようにトレーニングされる。言い換えれば、翻訳された発話114は、ソース話者104が異なる第2の言語を実際に話すように、ソース話者104の声の特性(たとえば、発話スタイル/韻律)を伝える。いくつかの例では、以下でより詳細に説明するように、直接S2STモデル200は、出力オーディオデータ106においてソース話者の声の特性を保持するだけでなく、なりすましオーディオアーティファクトを作成するためのモデル200の悪用を軽減するためにソース話者とは異なる声で音声を生成する能力を妨げるようにもトレーニングされる。
【0020】
ソース話者104に関連するコンピューティングデバイスが、ソース話者104によってソース/第1の言語(たとえば、スペイン語)で話された発話108をキャプチャし、出力オーディオデータ106に変換するために、対応入力オーディオデータ102を直接S2STモデル200に送信してもよい。その後、直接S2STモデル200は、翻訳された発話114の翻訳された合成音声表現に対応する出力オーディオデータ106を、受信ユーザ118に関連する他のコンピューティングデバイス116に送信してもよく、それによって他のコンピューティングデバイス116は、異なる第2の言語(たとえば、英語)の翻訳された発話114として翻訳された合成音声表現を可聴的に出力する。この例では、ソース話者104およびユーザ118は、それぞれ自身のコンピューティングデバイス110、116を介して、オーディオ/ビデオ通話(たとえば、ビデオ会議/チャット)、電話通話、または他のタイプの音声通信プロトコル、たとえば、ボイスオーバーインターネットプロトコルなどを通じて、互いと話している。
【0021】
特に、直接S2STモデル200は、ソース話者104によって話された発話108に対応する入力オーディオデータ102において使用された翻訳された合成音声表現に対応する出力オーディオデータ106において同じ発話スタイル/韻律を保持するようにトレーニングされてもよい。たとえば、図示の例では、スペイン語の発話108のための入力オーディオデータ102は、質問をすることに関連するスタイル/韻律を伝えるので、S2STモデル200は、質問をすることに関連するスタイル/韻律を有する翻訳された合成音声表現に対応する出力オーディオデータ106を生成する。
【0022】
いくつかの他の例では、S2ST変換モデル200は代わりに、ソース話者104によって話された発話の翻訳された合成音声表現に対応する出力オーディオデータ106を、翻訳された合成音声表現をソース話者104の声で聴衆に可聴的に出力するための出力オーディオデバイスに送る。たとえば、スペイン語を母語として話すソース話者104は、英語を話す聴衆に講義を行う講師である場合があり、この場合にソース話者104によってスペイン語で話された発話は、オーディオデバイスから英語を話す聴衆に英語の翻訳された発話として可聴的に出力される、翻訳された合成音声表現に変換される。
【0023】
代替的に、他のコンピューティングデバイス116は、S2STモデル200が、認識されるテキストへの変換のためにASRシステムへの入力として、合成音声表現に対応する出力オーディオデータ106を提供するためのフロントエンドとして機能する、下流の自動音声認識(ASR)システムと関連付けられてもよい。認識されるテキストは、他のユーザ118に提示されることがあり、かつ/またはさらなる処理のために自然言語理解(NLU)システムに提供されることがある。
【0024】
S2STモデル200の機能は、リモートサーバ112上に、またはコンピューティングデバイス110、116のいずれかもしくは両方に、またはリモートサーバとコンピューティングデバイス110、116のいずれかの組合せにあることがある。詳細には、コンピューティングデバイス110、116のデータ処理ハードウェアが、S2STモデル200を実行してもよい。いくつかの実装形態では、S2STモデル200は、ソース話者104が第1の/ソース言語で発話の対応する部分を話すように、発話の合成音声表現に対応する出力オーディオデータ106を継続的に生成する。ソース話者104によって話された発話108の一部分の合成音声表現に対応する出力オーディオデータ106を継続的に生成することによって、ソース話者104とユーザ118(または聴衆)との間の会話は、より自然にペースを調整され得る。いくつかのさらなる実装形態では、S2STモデル200は、第1の言語の発話108の対応入力オーディオデータ102を、同じ発話114の、ただし異なる第2の言語の翻訳された合成音声表現に対応する対応出力オーディオデータ106に変換する前に、音声区間検出(voice activity detection)、エンドポインティング、クエリ終了検出(end of query detection)などの技法を使用して、ソース話者104が話すのをやめるときを決定/検出するのを待つ。
【0025】
図2は、エンコーダ210と、アテンションモジュール220と、デコーダ230と、合成器300とを含む、
図1の直接S2STモデル200を示す。エンコーダ210は、入力オーディオデータ102を隠れた特徴表現(たとえば、一連のベクトル)215にエンコードするように構成される。ここで、入力オーディオデータ102は、ソース話者104によってソース/第1の言語(たとえば、スペイン語)で話された発話108に対応する入力スペクトログラムの列を含む。入力音素の列は、80チャネルのメルスペクトログラム列を含んでもよい。いくつかの実装形態では、エンコーダ210は、Conformer層のスタックを含む。これらの実装形態では、エンコーダは、畳み込み層を使用して入力メルスペクトログラム列を含む入力オーディオデータ102をサブサンプリングし、次いでConformerブロックのスタックで入力メルスペクトログラム列を処理する。各Conformerブロックは、フィードフォワード層と、セルフアテンション層と、畳み込み層と、第2のフィードフォワード層とを含んでもよい。いくつかの例では、Conformerブロックのスタックは、144次元およびサブサンプリング係数4(4)のConformerブロックの16層を含む。
図4は、例示的なConformerブロックの概略図である。エンコーダ210は、Conformerブロックの代わりにトランスフォーマブロックまたは軽量の畳み込みブロックのスタックを使用してもよい。
【0026】
アテンションモジュール220は、エンコーダ210によってエンコードされた隠れた特徴表現215に注意を向けるコンテキストベクトル225を生成するように構成される。アテンションモジュール220は、マルチヘッドアテンション機構を含んでもよい。デコーダ230は、アテンションのソース値として隠れた特徴表現215を示すコンテキストベクトル225を入力として受け取り、オーディオデータ(たとえば、ターゲットの翻訳された合成音声表現)106に対応する音素列245における可能性のある音素の確率分布を表す音素表現235を、出力として予測するように構成される。すなわち、音素表現235は、第2の異なる発話での(たとえば、第2の言語での)発話108の翻訳に対応する。全結合ネットワークプラスソフトマックス240層が、複数の出力ステップの各々で、音素表現235によって表される可能性のある音素の確率分布において最高確率をもつ音素を使用することに基づいて、音素(たとえば、英語の音素)の列245中の音素を選択してもよい。図示の例では、デコーダ230は自己回帰型であり、各出力ステップで、前の出力ステップの各々の間にSoftmax240によって選択された音素列245における各前の音素に基づいて、所与の出力ステップに対する可能性のある音素の確率分布を生成する。いくつかの実装形態では、デコーダ230は、アテンションモジュール220によって支援された長短期記憶(long short-term memory:LSTM)セルのスタックを含む。特に、エンコーダ210、アテンションモジュール220、およびデコーダ230の組合せは、カスケード型S2STシステムで一般的に見られる直接音声テキスト翻訳(ST)構成要素と同様である。
【0027】
合成器300は、複数の出力ステップの各々の間の入力として、対応する出力ステップで音素表現235(または音素列245)とコンテキストベクトル225の連結を受け取り、複数の出力ステップの各々での出力として、ターゲット/第2の言語での、かつソース話者104の声での翻訳された合成音声表現に対応する出力オーディオデータ106を生成する。代替的に、合成器300は、音素表現235およびコンテキストベクトル225を(たとえば、連結なしで)受け取ってもよい。合成器300は、スペクトログラムデコーダと呼ばれることもある。いくつかの例では、合成器は、予測される各出力スペクトログラムが、前に予測されたスペクトログラムの列に基づいている、自己回帰型である。他の例では、合成器300は、並列および非自己回帰型である。
【0028】
図3は、
図1の合成器300の一例を示す。ここで、合成器300は、音素継続時間モデル化ネットワーク(すなわち、継続時間予測器)310と、アップサンプラモジュール320と、再帰型ニューラルネットワーク(RNN)330と、畳み込み層340とを含んでもよい。継続時間モデル化ネットワークは、デコーダ230からの音素表現235、およびアテンションモジュール220からのコンテキストベクトル225を入力として受け取る。さらに、継続時間モデル化ネットワーク310は、ターゲット/第2の言語での翻訳された合成音声表現を表す出力オーディオデータ106に対応する音素表現235における各音素について継続時間315を予測することを課される。トレーニング中には、各音素についての個々のターゲット継続時間315が未知であり、したがって、継続時間モデルネットワーク310は、基準メル周波数スペクトログラム列全体の総フレーム継続時間Tと、基準メル周波数スペクトログラム列に対応する基準音素列中の音素(たとえば、トークン)の総数Kの割合に基づいてターゲット平均継続時間を決定する。すなわち、ターゲット平均継続時間は、トレーニング中に使用される基準メル周波数スペクトログラム列および基準音素列を使用するすべての音素についての平均継続時間である。トレーニング中に、損失項(たとえば、L2損失項)が、予測される音素継続時間とターゲット平均継続時間との間で決定される。したがって、継続時間モデルネットワーク310は、外部アライナーから提供される教師あり音素継続時間ラベルを使用せずに教師なしで音素継続時間を予測するよう学習する。外部アライナーが、音素とメルスペクトルフレームとの間で合理的なアラインメントを提供することができるが、基準音素列中の音素をそれらの継続時間に従ってアップサンプリングするために長さレギュレータ(length regulator)によって音素継続時間丸め(phoneme duration rounding)が要求され、これが長く残る可能性がある丸め誤差につながる。いくつかの事例では、トレーニング中に外部アライナーからの教師あり継続時間ラベルを使用し、推論中に予測継続時間を使用して、S2STモデル200のトレーニングとS2STモデル200の推論との間で音素継続時間の不一致が作り出される。さらに、そのような丸め演算は、微分可能ではなく、したがって、誤差勾配が継続時間モデルネットワークを伝播することができない。
【0029】
アップサンプラ320は、予測継続時間315、コンテキストベクトル225,および音素表現を入力として受け取り、出力235を生成する。詳細には、アップサンプラ320は、継続時間モデルネットワーク310からの予測継続時間315に基づいて入力列(たとえば、音素表現235または音素列245)をアップサンプリングするように構成される。RNN330は、出力335を受信し、オーディオデータ106(たとえば、ターゲット/第2の言語のターゲットの翻訳された合成音声表現)に対応するターゲットメルスペクトログラム335を、自己回帰して予測するように構成される。RNN330は、ターゲットメルスペクトログラフ335を畳み込み層340および連結器(concatenator)350に提供する。畳み込み層340は、ターゲットメルスペクトログラム335をさらに改良し、出力345を生成するように構成された残差畳み込みポストネット(residual convolutional post-net)を提供する。すなわち、畳み込み層340は、第2の言語の予測される翻訳された合成音声表現をさらに改良する。連結器350は、異なる第2の言語で話された発話108の翻訳に対応する翻訳された合成音声表現355を生成するために、出力345とターゲットメルスペクトログラム335を連結する。したがって、翻訳された合成音声表現355は、オーディオデータ106(
図2)に対応し得る。注目すべきことに、翻訳された合成音声表現355は、ソース話者104の発話スタイル/韻律を保持する。
【0030】
本明細書における実装形態は、異なる話者の声での合成音声を生成することはできず、ソース話者の声のみを保持するように、トレーニングされるS2STモデル200を制限する声保持技法をさらに対象とする。この技法は、第1の言語の入力発話と第2の言語の出力発話の両方で同じ話者の声を用いた並列発話でトレーニングすることを含む。流暢なバイリンガル話者はあまり見られないので、ソース話者の声を含むターゲット第2言語のトレーニング発話を合成するために、クロスリンガルTTSモデルが採用されてもよい。したがって、S2STモデル200は、第1の言語のソース話者104からの発話およびターゲット第2言語のソース話者104の合成されたトレーニング発話を使用してトレーニングしてもよい。S2STモデル200はさらに、話者のターンの間、各ソース話者に対して、翻訳された合成音声においてソース話者の声を保持するようにトレーニングされ得る。
【0031】
図4は、エンコーダ210のConformer層のスタックからのConformerブロック400の一例を示す。Conformerブロック400は、第1のハーフフィードフォワード層410、第2のハーフフィードフォワード層440、第1および第2のハーフフィードフォワード層410、440の間に配設されたマルチヘッドセルフアテンションブロック420および畳み込み層430、ならびに連結演算子405を含む。第1のハーフフィードフォワード層410は、入力メルスペクトログラム列を含んだ入力オーディオデータ102を処理する。その後、マルチヘッドセルフアテンションブロック420は、第1のハーフフィードフォワード層410の出力と連結された入力オーディオデータ102を受け取る。直観的に、マルチヘッドセルフアテンションブロック420の役割は、高度化される各入力フレームに対して別々にノイズコンテキストを集約することである。畳み込み層430は、第1のハーフフィードフォワード層410の出力と連結されたマルチヘッドセルフアテンションブロック420の出力をサブサンプリングする。その後、第2のハーフフィードフォワード層440が、畳み込み層430出力とマルチヘッドセルフアテンションブロック420の連結を受け取る。レイヤーノルム(layernorm)モジュール450が、第2のハーフフィードフォワード層440からの出力を処理する。数学的に、コンフォーマブロック400は、以下のように、変調特徴量mを使用して、入力特徴量xを変換して、出力特徴量yを生成する。
【0032】
【0033】
図5は、直接音声間翻訳を実行するためのコンピュータにより実施される方法500のための動作の例示的な構成のフローチャートである。動作502において、方法500は、ソース話者104によって第1の言語で話された発話108に対応する入力音声表現102を受け取るステップを含む。動作504において、方法500は、S2STモデル200のエンコーダ210が入力音声表現102を隠れた特徴表現215にエンコードするステップを含む。動作506において、方法500は、S2STモデル200のアテンションモジュール220が、エンコーダ210によってエンコードされた隠れた特徴表現215に注意を向けるコンテキストベクトル225を生成するステップを含む。動作508において、方法500は、S2STモデル200のデコーダ230でコンテキストベクトル225を受け取るステップを含む。動作510において、方法500は、デコーダ230が第2の異なる言語での発話108の翻訳に対応する音素表現235を予測するステップを含む。動作512において、方法500は、S2STモデル200の合成器300でコンテキストベクトル225および音素表現235を受け取るステップを含む。動作514において、方法500は、合成器300によって、異なる第2の言語で話された発話108の翻訳に対応する翻訳された音声表現355を生成するステップを含む。
【0034】
ソフトウェアアプリケーション(すなわち、ソフトウェアリソース)は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションが、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的なアプリケーションは、限定はしないが、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書処理アプリケーション、表計算アプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションを含む。
【0035】
非一時的メモリは、コンピューティングデバイスによる使用のために一時的または永続的にプログラム(たとえば、一連の命令)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスであってもよい。非一時的メモリは、揮発性および/または不揮発性のアドレス指定可能な半導体メモリであってもよい。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電気的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、一般的にはブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含む。
【0036】
図6は、本明細書で説明するシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス600の概略図である。コンピューティングデバイス600は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形態のデジタルコンピュータを表すように意図されている。ここで示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示にすぎないものとし、本明細書で説明および/または請求する本発明の実装形態を限定するものではない。
【0037】
コンピューティングデバイス600は、プロセッサ610と、メモリ620と、ストレージデバイス630と、メモリ620および高速拡張ポート650に接続している高速インターフェース/コントローラ640と、低速バス670およびストレージデバイス630に接続している低速インターフェース/コントローラ660とを含む。構成要素610、620、630、640、650、および660の各々は、様々なバスを使用して相互に接続され、共通のマザーボードに、または必要に応じて他の方法で、取り付けられ得る。プロセッサは610、高速インターフェース640に結合されたディスプレイ680などの外部入力/出力デバイス上にグラフィカルユーザインターフェース(GUI)用のグラフィカル情報を表示するために、メモリ620またはストレージデバイス630に記憶された命令を含む、コンピューティングデバイス600内の実行のための命令を処理することができる。他の実装形態では、必要に応じて、複数のメモリおよびメモリのタイプと合わせて、複数のプロセッサおよび/または複数のバスが使用され得る。また、複数のコンピューティングデバイス600が接続され、各デバイスが(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)必要な動作の一部を提供してもよい。
【0038】
メモリ620は、コンピューティングデバイス600内に非一時的に情報を記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。不揮発性メモリ620は、コンピューティングデバイス600による使用のために一時的または永続的にプログラム(たとえば、一連の命令)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスであってもよい。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読取り専用メモリ(ROM)/プログラマブル読取り専用メモリ(PROM)/消去可能プログラマブル読取り専用メモリ(EPROM)/電気的消去可能プログラマブル読取り専用メモリ(EEPROM)(たとえば、一般的にはブートプログラムなどのファームウェアに使用される)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープを含む。
【0039】
ストレージデバイス630は、コンピューティングデバイス600に大容量ストレージを提供することが可能である。いくつかの実装形態では、ストレージデバイス630は、コンピュータ可読媒体である。様々な異なる実装形態では、ストレージデバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成のデバイスを含むデバイスのアレイであってもよい。さらなる実装形態では、コンピュータプログラム製品は、情報担体で有形に具体化される。コンピュータプログラム製品は、実行されると、上記で説明したような1つまたは複数の方法を行う命令を含んでいる。情報担体は、メモリ620、ストレージデバイス630、またはプロセッサ610上のメモリなど、コンピュータ可読または機械可読媒体である。
【0040】
高速コントローラ640は、コンピューティングデバイス600の帯域幅集約的な動作(bandwidth-intensive operations)を管理し、低速コントローラ660は、帯域幅低集約的な動作(lower bandwidth-intensive operations)を管理する。任務のこのような割振りは、例示にすぎない。いくつかの実装形態では、高速コントローラ640は、メモリ620、ディスプレイ680(たとえば、グラフィックプロセッサもしくはアクセラレータを介する)に結合され、また様々な拡張カード(図示せず)を受け入れ得る高速拡張ポート650に結合される。いくつかの実装形態では、低速コントローラ660は、ストレージデバイス630および低速拡張ポート690に結合される。低速拡張ポート690は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含んでもよく、キーボード、ポインティングデバイス、スキャナなどの1つもしくは複数の入力/出力デバイスに、または、たとえばネットワークアダプタを介してスイッチもしくはルータなどのネットワーキングデバイスに結合されてもよい。
【0041】
コンピューティングデバイス600は、図に示すように、いくつかの異なる形態で実装されることがある。たとえば、コンピューティングデバイス600は、標準的なサーバ600aとして、またはそのようなサーバ600aのグループに複数回、またはラップトップコンピュータ600bとして、またはラックサーバシステム600cの一部として実装されることがある。
【0042】
本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光回路、集積回路、特別に設計されたASIC(特殊用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現されることがある。これらの様々な実装形態は、ストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するために、ならびにこれらにデータおよび命令を送信するために結合された、特定用途または汎用である場合がある、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能および/または解釈可能である、1つまたは複数のコンピュータプログラムにおける実装を含むことができる。
【0043】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる)は、プログラマブルプロセッサ用の機械命令を含み、高水準手続き型言語および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ言語/機械語で、実装されることがある。本明細書で使用する「機械可読媒体」、「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用されるいかなるコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用されるいかなる信号も指す。
【0044】
本明細書で説明するプロセスおよび論理フローは、入力データ上で動作し、出力を生成することによって機能を実施するために、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラマブルプロセッサが1つまたは複数のコンピュータプログラムを実行するによって実施され得る。プロセスおよび論理フローはまた、専用の論理回路、たとえばFPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)によって実施されることもある。コンピュータプログラムの実行に好適なプロセッサは、例として、汎用マイクロプロセッサと専用マイクロプロセッサの両方、およびいずれかの種類のデジタルコンピュータのいずれか1つまたは複数のプロセッサを含む。一般にプロセッサは、読取り専用メモリまたはランダムアクセスメモリまたは両方から命令およびデータを受け取ることになる。コンピュータの必須要素は、命令を行うためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。一般にコンピュータはまた、データを記憶するための1つもしくは複数の大容量ストレージデバイス、たとえば、磁気ディスク、光磁気ディスク、もしくは光ディスクを含むことになり、またはこれらからデータを受け取る、もしくはこれらにデータを転送する、もしくはその両方を行うために動作可能に結合されることになる。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに好適なコンピュータ可読媒体は、あらゆる形態の不揮発性メモリ、媒体、およびメモリデバイスを含み、例として、半導体メモリデバイス、たとえばEPROM、EEPROM、およびフラッシュメモリデバイス、磁気ディスク、たとえば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにCD ROMおよびDVD-ROMディスクを含む。プロセッサおよびメモリは、専用論理回路によって補われる、または専用論理回路に組み込まれることがある。
【0045】
ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえばCRT(陰極線管)、LCD(液晶ディスプレイ)モニタ、またはタッチスクリーンと、ユーザがそれによってコンピュータへの入力を行うことができるキーボードおよびポインティングデバイス、たとえばマウスまたはトラックボールとを有するコンピュータに実装され得る。他の種類のデバイスも、ユーザとの対話を可能にするために使用されることがあり、たとえばユーザに提供されるフィードバックは、任意の形態の感覚フィードバック、たとえば視覚フィードバック、聴覚フィードバック、または触覚フィードバックとすることができ、ユーザからの入力は、音響入力、音声入力、または触覚入力を含む、任意の形態で受け取ることができる。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送ること、およびデバイスから文書を受け取ることによって、たとえば、ウェブブラウザから受け取られる要求に応じてユーザのクライアントデバイス上のウェブブラウザにウェブページを送ることによって、ユーザと対話することができる。
【0046】
いくつかの実装形態について説明した。しかしながら、様々な変更が本開示の趣旨および範囲から逸脱することなく行われ得ることは理解されよう。したがって、他の実装形態が以下の特許請求の範囲内に入る。
【符号の説明】
【0047】
100 音声会話環境
102 入力オーディオデータ
104 ソース話者
106 出力オーディオデータ
108 発話
110 コンピューティングデバイス
112 リモートサーバ
114 翻訳された発話
116 コンピューティングデバイス
118 受信ユーザ
200 直接音声間翻訳(S2ST)モデル
210 エンコーダ
215 隠れた特徴表現
220 アテンションモジュール
225 コンテキストベクトル
230 デコーダ
235 音素表現
245 音素列
300 合成器
310 継続時間モデルネットワーク
315 継続時間
320 アップサンプラ
330 再帰型ニューラルネットワーク(RNN)
335 ターゲットメルスペクトログラム
340 畳み込み層
345 出力
350 連結器
355 翻訳された合成音声表現
375 ボコーダ
600 コンピューティングデバイス
610 プロセッサ
620 メモリ
630 ストレージデバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
【手続補正書】
【提出日】2024-03-06
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
直接音声間翻訳(S2ST)モデル(200)であって、
エンコーダ(210)であって、
ソース話者(104)によって第1の言語で話された発話(108)に対応する入力音声表現(102)を受け取ること、および
前記入力音声表現(102)を隠れた特徴表現(215)にエンコードすること
を行うように構成された、エンコーダ(210)と、
前記エンコーダ(210)によってエンコードされた前記隠れた特徴表現(215)に注意を向けるコンテキストベクトル(225)を生成するように構成されたアテンションモジュール(220)と、
デコーダ(230)であって、
前記アテンションモジュール(220)によって生成された前記コンテキストベクトル(225)を受け取ること、および
第2の異なる言語での前記発話(108)の翻訳に対応する音素表現(235)を予測すること
を行うように構成された、デコーダ(230)と、
合成器(300)であって、
前記コンテキストベクトル(225)および前記音素表現(235)を受け取ること、および
前記異なる第2の言語で話された前記発話(108)の前記翻訳に対応する翻訳された合成音声表現(355)を生成すること
を行うように構成された、合成器(300)と
を備える、
直接S2STモデル(200)。
【請求項2】
前記エンコーダ(210)が、コンフォーマブロック(400)のスタックを含む、請求項1に記載の
直接S2STモデル(200)。
【請求項3】
前記エンコーダ(210)が、トランスフォーマブロックまたは軽量の畳み込みブロックのうちの一方のスタックを含む、請求項1または2に記載の
直接S2STモデル(200)。
【請求項4】
前記合成器(300)が、前記音素表現(235)によって表される音素の列中の各音素の継続時間(315)を予測するように構成された継続時間モデルネットワーク(310)を含む、請求項1から3のいずれか一項に記載の
直接S2STモデル(200)。
【請求項5】
前記合成器(300)が、各音素の前記予測された継続時間(315)に基づいて前記音素の列をアップサンプリングすることによって、前記翻訳された合成音声表現(102)を生成するように構成される、請求項4に記載の
直接S2STモデル(200)。
【請求項6】
前記翻訳された合成音声表現(102)が、前記ソース話者(104)の発話スタイル/韻律に合わせて構成される、請求項1から5のいずれか一項に記載の
直接S2STモデル(200)。
【請求項7】
前記
直接S2STモデル(200)が、並列のソース言語発話およびターゲット言語発話のペアにおいてトレーニングされ、
各ペアが、前記ソース
言語発話で話された声を含む、請求項1から6のいずれか一項に記載の
直接S2STモデル(200)。
【請求項8】
前記ソース言語発話(108)または前記ターゲット言語発話のうちの少なくとも一方が、前記ソース
言語発話(108)の前記声の合成音声を生成するようにトレーニングされたテキスト音声モデルによって合成された音声を含む、請求項7に記載の
直接S2STモデル(200)。
【請求項9】
ボコーダ(375)が、
前記翻訳された合成音声表現(355)を受け取ることと、
前記翻訳された合成音声表現(355)を、前記翻訳された合成音声表現(355)の可聴出力に合成することと
を行うように構成される、請求項1から8のいずれか一項に記載の
直接S2STモデル(200)。
【請求項10】
前記音素表現(235)が、前記翻訳された合成音声表現(355)に対応する音素列における可能性のある音素の確率分布を含む、請求項1から9のいずれか一項に記載の
直接S2STモデル(200)。
【請求項11】
データ処理ハードウェア上で実行されると、前記データ処理ハードウェア(610)に、
直接音声間翻訳(S2ST)モデル(200)への入力として、ソース話者(104)によって第1の言語で話された発話(108)に対応する入力音声表現(102)を受け取るステップと、
前記
直接S2STモデル(200)のエンコーダ(210)によって、前記入力音声表現(102)を隠れた特徴表現(215)にエンコードするステップと、
前記エンコーダ(210)によってエンコードされた前記隠れた特徴表現(215)に注意を向けるコンテキストベクトル(225)を、前記
直接S2STモデル(200)のアテンションモジュール(220)によって生成するステップと、
前記アテンションモジュール(220)によって生成された前記コンテキストベクトル(225)を、前記
直接S2STモデル(200)のデコーダ(230)で受け取るステップと、
第2の異なる言語での前記発話の翻訳に対応する音素表現(235)を、前記デコーダ(230)によって予測するステップと、
前記コンテキストベクトル(225)および前記音素表現(235)を、前記
直接S2STモデル(200)の合成器(300)で受け取るステップと、
前記異なる第2の言語で話される前記発話の前記翻訳に対応する翻訳された合成音声表現(355)を、前記合成器(300)によって生成するステップと
を含む動作を行わせる、コンピュータにより実施される方法(500)。
【請求項12】
前記エンコーダ(210)が、コンフォーマブロック(400)のスタックを含む、請求項11に記載のコンピュータにより実施される方法(500)。
【請求項13】
前記エンコーダ(210)が、トランスフォーマブロックまたは軽量の畳み込みブロックのうちの一方のスタックを含む、請求項11または12に記載のコンピュータにより実施される方法(500)。
【請求項14】
前記合成器(300)が、前記音素表現(235)によって表される音素の列中の各音素の継続時間(315)を予測するように構成された継続時間モデルネットワーク(310)を含む、請求項11から13のいずれか一項に記載のコンピュータにより実施される方法(500)。
【請求項15】
前記翻訳された合成音声表現(355)を生成するステップが、各音素の前記予測された継続時間(315)に基づいて前記音素の列をアップサンプリングするステップを含む、請求項14に記載のコンピュータにより実施される方法(500)。
【請求項16】
前記翻訳された合成音声表現(355)が、前記ソース話者(104)の発話スタイル/韻律に合わせて構成される、請求項11から15のいずれか一項に記載のコンピュータにより実施される方法(500)。
【請求項17】
前記
直接S2STモデル(200)が、並列のソース言語発話およびターゲット言語発話のペアにおいてトレーニングされ、
各ペアが、前記ソース
言語発話(108)で話された声を含む、請求項11から16のいずれか一項に記載のコンピュータにより実施される方法(500)。
【請求項18】
前記ソース言語発話(108)または前記ターゲット言語発話のうちの少なくとも一方が、前記ソース
言語発話(108)の前記声の合成音声を生成するようにトレーニングされたテキスト音声モデルによって合成された音声を含む、請求項17に記載のコンピュータにより実施される方法(500)。
【請求項19】
前記動作が、
前記翻訳された合成音声表現(355)を、ボコーダ(375)で受け取ることと、
前記翻訳された合成音声表現(355)を、前記翻訳された合成音声表現(355)の可聴出力に、前記ボコーダ(375)によって合成することと
をさらに含む、請求項11から18のいずれか一項に記載のコンピュータにより実施される方法(500)。
【請求項20】
前記音素表現(235)が、前記翻訳された合成音声表現(355)に対応する音素列における可能性のある音素の確率分布を含む、請求項11から19のいずれか一項に記載のコンピュータにより実施される方法(500)。
【国際調査報告】