(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-10-04
(45)【発行日】2022-10-13
(54)【発明の名称】クロスリンガル音声変換システムおよび方法
(51)【国際特許分類】
G10L 21/003 20130101AFI20221005BHJP
G10L 25/30 20130101ALI20221005BHJP
G06N 3/08 20060101ALI20221005BHJP
G06N 3/04 20060101ALI20221005BHJP
G06N 20/00 20190101ALI20221005BHJP
【FI】
G10L21/003
G10L25/30
G06N3/08 180
G06N3/04
G06N20/00 160
【外国語出願】
(21)【出願番号】P 2020215179
(22)【出願日】2020-12-24
【審査請求日】2021-04-16
(32)【優先日】2019-12-30
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520509030
【氏名又は名称】ティーエムアールダブリュー ファウンデーション アイピー エスエーアールエル
(74)【代理人】
【識別番号】100114775
【氏名又は名称】高岡 亮一
(74)【代理人】
【識別番号】100121511
【氏名又は名称】小田 直
(74)【代理人】
【識別番号】100202751
【氏名又は名称】岩堀 明代
(74)【代理人】
【識別番号】100208580
【氏名又は名称】三好 玲奈
(74)【代理人】
【識別番号】100191086
【氏名又は名称】高橋 香元
(72)【発明者】
【氏名】セヴァト,イエルリ
【審査官】米倉 秀明
(56)【参考文献】
【文献】特開2019-101391(JP,A)
【文献】特開2019-109306(JP,A)
【文献】特開2009-186820(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00-13/10
G10L 19/00-99/00
G06N 3/08
G06N 3/04
G06N 20/00
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
機械学習システムによって実行されるクロスリンガル音声変換の方法であって、前記方法は、
音声特徴抽出器によって、第1の言語の第1の音声オーディオセグメントおよび第2の言語の第2の音声オーディオセグメントを受信することと、
前記音声特徴抽出器によって、前記第1の音声オーディオセグメントおよび前記第2の音声オーディオセグメントからそれぞれ、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むオーディオ特徴を抽出することと、
敵対的生成ネットワーク(GAN)システムの生成器を介して、トレーニング済みデータセットから、前記第1の音声の話者依存音響特徴および前記第2の音声の話者非依存言語特徴を有する第3の音声候補であって、前記第2の言語を話す第3の音声候補を生成することと、
前記GANシステムの1つ以上の識別器を介して、前記第3の音声候補を前記第1の音声の話者依存音響特徴および前記第2の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較することと、
前記第3の音声候補を改良するために、前記比較ステップの結果を前記生成器に返すことと、
を含む、方法。
【請求項2】
前記話者依存音響特徴は、声道特性に関連する短時間分節的特徴を含み、前記話者非依存言語特徴は、2つ以上のセグメントにわたる音響特性に関連する超分節的特徴を含む、請求項1に記載の方法。
【請求項3】
複数の第3の音声候補を生成することであって、各第3の音声候補は、異なるレベルの第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むことをさらに含む、請求項1に記載の方法。
【請求項4】
音声翻訳中に使用するために前記複数の第3の音声候補のうちの1つ以上を選択することをさらに含む、請求項3に記載の方法。
【請求項5】
選択された1つ以上の第3の音声候補を、前記機械学習システムに接続され、複数の異なるトレーニング済み第3の音声を含むデータベースに記憶することをさらに含む、請求項4に記載の方法。
【請求項6】
前記GANシステムは、Variational Autoencoding Wasserstein GAN(VAW-GAN)システムまたはCycle-Consistent GAN(CycleGAN)システムである、請求項1に記載のシステム。
【請求項7】
前記第1の音声は、前記第1の言語を話すオリジナルの俳優の音声であり、前記第2の音声は、前記第2の言語を話す声優である、請求項1に記載の方法。
【請求項8】
オリジナル版、前記オリジナルの俳優の音声による吹替版、または前記声優の音声による吹替版の選択を可能にする映画音声翻訳中に実施される、請求項7に記載の方法。
【請求項9】
複数の第3の音声候補を生成することであって、各第3の音声候補は、異なるレベルの第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むことと、
異なるレベルの前記第1の音声の話者依存音響特徴および前記第2の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において、前記複数の生成済み第3の音声候補を使用することと、
をさらに含む、請求項8に記載の方法。
【請求項10】
サイクル一貫性のある敵対的生成ネットワーク(CycleGAN)システムをトレーニングする方法であって、
前記方法は、少なくとも敵対的損失およびサイクル一貫性損失関数を使用して順方向マッピング関数および逆方向マッピング関数を同時に学習することを含み、前記順方向マッピング関数は、
音声特徴抽出器によって、第1の言語の第1の音声オーディオセグメントを受信すること、
前記音声特徴抽出器によって、第1の音声の話者依存音響特徴を抽出すること、
前記第1の音声の話者依存音響特徴を前記CycleGANシステムの第1から第3への話者生成器に送信すること、
前記第1から第3への話者生成器によって、前記逆方向マッピング関数から第2の音声の話者非依存言語特徴を受信すること、
前記第1から第3への話者生成器によって、前記第1の音声の話者依存音響特徴および前記第2の音声の話者非依存言語特徴を使用して第3の音声候補を生成すること、および
前記CycleGANシステムの第1の識別器によって、前記第3の音声候補と前記第1の音声の話者依存音響特徴との間に矛盾があるかどうかを決定すること
を含み、
前記逆方向マッピング関数は、
前記特徴抽出器によって、第2の言語の第2の音声オーディオセグメントを受信すること、
前記特徴抽出器によって、前記第2の音声の話者非依存言語特徴を抽出すること、
前記第2の音声の話者非依存言語特徴を第2から第3への音声候補生成器に送信すること、
前記第2から第3への音声候補生成器によって、前記順方向マッピング関数から第1の音声の話者依存音響特徴を受信すること、
前記第2から第3への音声候補生成器によって、前記第2の音声の話者非依存言語特徴および前記第1の音声の話者依存音響特徴を使用して第
4の音声候補を生成すること、および
第2識別器によって、前記第
4の音声候補と前記第2の音声の話者非依存言語特徴との間に矛盾があるかどうかを決定すること
を含む、方法。
【請求項11】
前記順方向マッピング関数は、前記第1の識別器が前記第3の音声候補と前記第1の音声の話者依存音響特徴とが一致しないと判定した場合に、前記方法をトリガして、続けて、
前記第3の音声候補を改良するために、第1の不一致情報を前記第1から第3への音声候補生成器に返し、
前記第3の音声候補を第3から第1への話者生成器に送信し、
変換済み第1の音声の話者依存音響特徴を生成し、
前記変換済み第1の音声の話者依存音響特徴を前記第1から第3への音声候補生成器に返し、
前記逆方向マッピング関数は、前記第2の識別器が前記第
4の音声候補と前記第2の音声の話者非依存言語特徴とが一致しないと判定した場合に、前記方法をトリガして、続けて、
前記第
4の音声候補を改良するために、第2の不一致情報を前記第2から第3への音声候補生成器に返し、
前記第
4の音声候補を第3から第2への話者生成器に送信し、
変換済み第2の音声の話者非依存言語特徴を生成し、
前記変換済み第2の音声の話者非依存言語特徴を前記第2から第3への音声候補生成器に返す、請求項10に記載の方法。
【請求項12】
前記第1の音声オーディオセグメントおよび前記第2の音声オーディオセグメントの各々の識別関連特徴を維持するための識別マッピング損失を採用することをさらに含む、請求項10に記載の方法。
【請求項13】
サーバコンピュータシステムのメモリに記憶され、少なくとも1つのプロセッサによって実装される機械学習システムであって、前記機械学習システムが、
音声特徴抽出器であって、
第1の言語の第1の音声オーディオセグメントおよび第2の言語の第2の音声オーディオセグメントを受信し、
前記第1の音声オーディオセグメントおよび前記第2の音声オーディオセグメントからそれぞれ、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むオーディオ特徴を抽出する
ように構成された、音声特徴抽出器と、
1つ以上の生成器および1つ以上の識別器を備える敵対的生成ネットワーク(GAN)であって、前記1つ以上の生成器は、
抽出された特徴を受信し、
前記第1の音声の話者依存音響特徴および前記第2の音声の話者非依存言語特徴を有する第3の音声候補であって、前記第2の言語を話す第3の音声候補を生成する
ように構成され、
前記1つ以上の識別器は、
前記第3の音声候補を前記第1の音声の話者依存音響特徴および前記第2の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較し、
前記第3の音声候補を改良するために、前記比較の結果を前記生成器に返す
ように構成される、敵対的生成ネットワーク(GAN)と、
を備える、機械学習システム。
【請求項14】
前記話者依存音響特徴は、声道特性に関連する短時間分節的特徴を含み、前記話者非依存言語特徴は、2つ以上のセグメントにわたる音響特性に関連する超分節的特徴を含む、請求項13に記載のシステム。
【請求項15】
前記1つ以上の生成器は、選択のための複数の第3の音声候補を生成するようにさらに構成される、請求項13に記載のシステム。
【請求項16】
前記GANシステムは、Variational Autoencoding Wasserstein GAN(VAW-GAN)システムまたはCycle-Consistent GAN(CycleGAN)システムである、請求項13に記載のシステム。
【請求項17】
前記機械学習システムに接続され、選択された1つ以上の第3の音声を記憶するように構成され、複数の異なるトレーニング済み第3の音声を含むデータベースをさらに備える、請求項13に記載のシステム。
【請求項18】
前記第1の音声は、前記第1の言語を話すオリジナルの俳優の音声であり、前記第2の音声は、前記第2の言語を話す声優である、請求項13に記載のシステム。
【請求項19】
オリジナル版、オリジナル俳優の音声による吹替版、または声優の音声による吹替版の選択を可能にする映画音声翻訳のために構成される、請求項13に記載のシステム。
【請求項20】
前記機械学習システムはさらに、
異なるレベルの前記第1の音声の話者依存音響特徴および前記第2の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルを生成する
ように構成される、請求項13に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
(単数または複数の)関連出願に対する(単数または複数の)相互参照
この出願は、参照によって本明細書に組み込まれている、2019年12月30日に出願された米国仮出願特許第62/955227号の利益を主張する。
【背景技術】
【0002】
音声(例えば、アプリケーション、映画、オーディオブックおよびゲーム)を含むメディア作品は、典型的には、台本に沿ったパフォーマンスを演じるオリジナルの演技者によって作成される。音声は、多くの場合、「声優」の助けを借りて異なる言語に翻訳されることが多い。オリジナルの俳優はこれらの作品を視聴可能にする言語の全てを通常話すことができないので、多くの聴衆は、さまざまな言語に対する代わりの声優に頼る必要がある。
【0003】
音声変換(VC)は、ある話者の音声を別の話者の音声のような音に変換する。より具体的には、ほとんどの現在のVC技法は、元話者の音声を対象話者の音声のように聞こえるようにすることに焦点を合わせており、これは、元話者および対象話者の両方のスペクトル特徴マッピングを実行することを伴う。既存のVC技法のほとんどは、元話者と対象話者の言語が同じであることを意味する、単一言語VC用に設計されている。パラレルデータ(すなわち、両方の言語で同じ音声内容を含むデータ)が実際には常に利用可能であるとは限らないので、クロスリンガルVCは、単一言語VCよりも難しい技法であり得る。したがって、ノンパラレルデータを用いて動作することができるクロスリンガルVC技法は、メディア作品翻訳で使用され得るクロスリンガルVCに使用され得る。
【発明の概要】
【0004】
この概要は、「発明を実施するための形態」において以下でさらに詳細に説明する概念の選択を簡略化した形で紹介するために提供されている。この概要は、特許請求される主題の重要な特徴を特定することを意図するものではなく、特許請求される主題の範囲を決定する際の助けとして使用されることを意図するものでもない。
【0005】
本開示は、全般的に、音声変換に関し、より詳細には、ノンパラレルデータを用いたクロスリンガル音声変換を可能にする方法およびシステムに関する。
【0006】
本開示の実施形態によれば、機械学習システム(例えば、敵対的生成ネットワーク(GAN)システム)によって実行されるクロスリンガル音声変換の方法は、音声特徴抽出器によって、第1の言語の第1の音声オーディオセグメントおよび第2の言語の第2の音声オーディオセグメントを受信することを含む。該方法は、音声特徴抽出器を通して、第1の音声オーディオセグメントおよび第2の音声オーディオセグメントからそれぞれ、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むオーディオ特徴を抽出する。該方法は、1つ以上の生成器を通して、トレーニング済みデータセットから、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を有する第3の音声候補であって、第2の言語を話す第3の音声候補を生成する。該方法は、第3の音声候補を第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較する1つ以上の識別器によって進行する。該システムは、第3の音声候補を改良するために、比較ステップの結果を生成器に返す。
【0007】
一実施形態では、1つ以上の識別器は、第3の音声候補と第1の音声話者依存音響特徴と第2の音声話者非依存言語特徴との間に少なくとも1つの不一致があるかどうかを判定する。このような実施形態では、少なくとも1つの不一致が存在する場合、該システムは、第3の音声候補と第1の音声の話者依存音響特徴と第2の音声の話者非依存言語特徴との間の一貫性損失に関する情報を生成する。
【0008】
いくつかの実施形態では、抽出された話者依存音響特徴は、話者の音声の実際の音を特徴付ける音声特徴を指し、聴取者が、同じピッチ、アクセント、振幅、および抑揚で同じ単語を話す話者を区別することを可能にする。さらなる実施形態では、話者依存音響特徴は、音色、共鳴、スペクトル包絡、および平均ピッチ強度などの声道特性に関連する短時間的特徴(例えば、短いオーディオセグメントから判定され得る特徴)である分節的特徴を含む。話者非依存言語特徴は、2つ以上のセグメントにわたるドメインの音響特性に関連する超分節的特徴を含み得、ピッチ曲線、単語の持続時間、リズム、調音、音節、音素、イントネーション曲線、またはストレスパターンなどの特徴に関連し得る。これらの超分節的特徴は、言語または方言のアクセントを定める特徴などの特定の言語または方言に特有の言語特徴と高い相関を有し得る。
【0009】
いくつかの実施形態では、該方法は、複数の第3の音声候補を生成することであって、各第3の音声候補が、異なるレベルの第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むことをさらに含む。このような実施形態では、該システムは、異なるレベルの第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において、複数の生成済みの第3の音声候補を使用し得る。
【0010】
GANは、競合的または敵対的なニューラルネットワークベースのシステムとして説明することができる。いくつかの実施形態では、GANはディープニューラルネットワーク(DNN)システムである。GANは、例えば、Variational Autoencoding Wasserstein GAN(VAW-GAN)システムまたはCycle-Consistent GAN(CycleGAN)システムを含み得る。機械学習システムは、学習された出力の一部として1つ以上の第3の音声候補を生成するために、第1の音声および第2の音声からのデータセットに基づいてトレーニングするための上記または他の同様の機械学習ベースのネットワークシステムを使用し得る。
【0011】
CycleGANが使用される実施形態では、CycleGANシステムのトレーニングは、少なくとも敵対的損失関数およびサイクル一貫性損失関数を使用して順方向マッピング関数および逆方向マッピング関数を同時に学習することを含む。
【0012】
一実施形態では、順方向マッピング関数は、特徴抽出器によって、第1の言語の第1の音声オーディオセグメントを受信し、特徴抽出器によって、第1の音声の話者依存音響特徴を抽出することによって進行する。順方向マッピング関数は、第1の生成器の一部である第1から第3への話者生成器に第1の音声の話者依存音響特徴を送信することによって進行する。その後、順方向マッピング関数は、第1から第3への話者生成器によって、逆方向マッピング関数から第2の音声の話者非依存言語特徴を受信することによって継続する。順方向マッピング関数は、第1から第3への話者生成器を介して、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を使用して第3の音声候補を生成する。順方向マッピング関数は、第1の識別器によって、第3の音声候補と第1の音声話者依存音響特徴との間に矛盾があるかどうかを判定する。
【0013】
一実施形態では、逆方向マッピング関数は、特徴抽出器によって、第2の言語の第2の音声オーディオセグメントを受信することを含み、特徴抽出器によって、第2の音声の話者非依存言語特徴を抽出することによって継続する。逆方向マッピング関数は、第2の音声の話者非依存言語特徴を、第2の生成器モジュールの一部であり得る第2から第3への音声候補生成器に送信することによって継続する。逆方向マッピング関数は、第2から第3への音声候補生成器によって、順方向マッピング関数から第1の音声の話者依存音響特徴を受信する。逆方向マッピング関数は、第2から第3への音声候補生成器によって、第2の音声の話者非依存言語特徴および第1の音声の話者依存音響特徴を使用して第3の音声候補を生成することによって継続する。逆方向マッピング関数は、第2の識別器によって、第3の音声候補と第2の音声の話者非依存言語特徴との間に矛盾があるかどうかを判定することによって継続する。
【0014】
一実施形態では、第1の識別器が第3の音声候補と第1の音声の話者依存音響特徴とが一致していないと判定した場合、第1の識別器は、第3の音声候補を改良するために第1の不一致情報を第1から第3への音声候補生成器に返す。該方法は、第3の音声候補を第1の生成器の一部である第3から第1への話者生成器に送信することによって継続し、第3から第1への話者生成器は、第3の音声候補を利用して、変換された特徴の過剰平滑化を低減することに寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第1の音声の話者依存音響特徴を生成する。変換済み第1の音声の話者依存音響特徴は、その後、第3の音声候補をさらに改良するために、トレーニングプロセスを継続するように第1から第3への音声候補生成器に返される。一実施形態では、第3の音声候補が第1の音声の話者依存音響特徴と一致する場合、順方向マッピング関数は終了し得る。
【0015】
一実施形態では、第2の識別器は、第3の音声候補を改良するために、第2の不一致情報を第2から第3への音声候補生成器に返す。次に、第3の音声候補は、第2の生成器の一部である第3から第2への話者生成器に送られ、第3から第2への話者生成器は、第3の音声候補を利用して、変換された特徴の過剰平滑化を低減することに寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第2の音声の話者非依存言語特徴を生成する。変換済み第2の音声の話者非依存言語特徴は、その後、第3の音声候補をさらに改良するために、トレーニングプロセスを継続するように第2から第3への音声候補生成器に返される。一実施形態では、第3の音声候補が第2の音声の話者非依存音響特徴と一致する場合、逆方向マッピング関数は終了し得る。
【0016】
いくつかの実施形態では、該方法は、音声翻訳中に使用するために複数の第3の音声のうちの1つ以上を選択することをさらに含む。さらなる実施形態では、該方法は、選択された1つ以上の第3の音声を、機械学習システムに接続されたデータベースに記憶することによって継続し、データベースは、複数の異なるトレーニング済み第3の音声を含む。
【0017】
いくつかの実施形態では、第1の音声は、第1の言語を話すオリジナルの俳優の音声であり、第2の音声は、第2の言語を話す声優である。
【0018】
さらに別の実施形態では、該方法は、オリジナル版、オリジナルの俳優の音声による吹替版、または声優の音声による吹替版の選択を可能にする映画音声翻訳中に実施される。これらの実施形態では、該方法は、異なるレベルの第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において、複数の生成済み第3の音声を使用することをさらに含む。一実施形態では、該方法は、次に、最適な吹替版のオーディオファイルを選択する。
【0019】
いくつかの実施形態では、サーバのメモリに記憶され、少なくとも1つのプロセッサによって実装される機械学習システムは、第1の言語の第1の音声オーディオセグメントおよび第2の言語の第2の音声オーディオセグメントを受信し、第1の音声オーディオセグメントおよび第2の音声オーディオセグメントからそれぞれ、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むオーディオ特徴を抽出するように構成された音声特徴抽出器を備える。該システムは、抽出された特徴を受信し、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を有する第3の音声候補であって、第2の言語を話す第3の音声候補を生成するように構成された1つ以上の生成器を備えるGANをさらに備える。GANは、第3の音声候補を第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較し、第3の音声候補を改良するために比較の結果を生成器に返すように構成された1つ以上の識別器をさらに備える。
【0020】
いくつかの実施形態では、該システムは、機械学習システムに接続され、選択された1つ以上の第3の音声を記憶するように構成され、複数の異なるトレーニング済み第3の音声を含むデータベースをさらに備える。
【0021】
いくつかの実施形態では、該システムは、オリジナル版、オリジナルの俳優の音声による吹替版、または声優の音声による吹替版の選択を可能にする映画音声翻訳のために構成される。またさらなる実施形態では、機械学習システムはさらに、異なるレベルの第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において、複数の生成済み第3の音声を使用するように構成される。該システムは、最適な吹替版のオーディオファイルのような吹替版のオーディオファイルを選択するようにさらに構成され得る。
【0022】
上記の概要は、本開示のすべての態様の網羅的なリストを含むものではない。本開示は、上記で要約された様々な態様の全ての適切な組み合わせから実施され得る全てのシステムおよび方法、ならびに以下の「発明を実施するための形態」において開示され、本願とともに出願された請求項において特に指示されるシステムおよび方法を含むことが企図される。そのような組み合わせは、上記の概要に具体的に列挙されていない特定の利点を有する。他の特徴および利点は、添付図面および以下の詳細な説明から明らかになるであろう。
【0023】
前述の態様および付随する利点の多くは、添付図面と併せて以下の詳細な説明を参照することによってよりよく理解されるので、より容易に理解されるであろう。
【図面の簡単な説明】
【0024】
【
図1A】一実施形態に係る、ノンパラレルデータを用いたクロスリンガル音声変換を可能にするシステムの概略図である。
【
図1B】ノンパラレルデータを用いたクロスリンガル音声変換を可能にするシステムの別の実施形態を示す図である。
【
図2】一実施形態に係る、Variational Autoencoding Wasserstein GAN(VAW-GAN)アルゴリズムを使用してノンパラレルデータを用いたクロスリンガル音声変換を可能にするシステムの概略図である。
【
図3A】一実施形態に係る、Cycle-Consistent(CycleGAN)アルゴリズムを使用する順方向マッピング関数の概略図である。
【
図3B】一実施形態に係る、Cycle-Consistent(CycleGAN)アルゴリズムを使用する逆方向マッピング関数の概略図である。
【
図4】一実施形態に係る、トレーニング済みクロスリンガル音声変換システムを実装するサンプルオンライン映画ストリーミングプラットフォームの概略図である。
【
図5】一実施形態に係る、ノンパラレルデータを用いたクロスリンガル音声変換を可能にする方法の概略図である。
【
図6】一実施形態に係る、Cycle-Consistent(CycleGAN)アルゴリズムを使用してノンパラレルデータを用いたクロスリンガル音声変換を可能にする順方向マッピング関数を説明する方法の概略図である。
【
図7】一実施形態に係る、Cycle-Consistent(CycleGAN)アルゴリズムを使用してノンパラレルデータを用いたクロスリンガル音声変換を可能にする逆方向マッピング関数を説明する方法の概略図である。
【発明を実施するための形態】
【0025】
以下の説明では、様々な実施形態を例示した図面を参照する。また、以下では、いくつかの実施例を参照して様々な実施形態について説明する。実施形態は、特許請求される主題の範囲から逸脱することなく、設計および構造の変更を含み得ることを理解されたい。
【0026】
本開示のいくつかの態様では、ノンパラレルデータを用いたクロスリンガル音声変換システムは、第1の言語の第1の音声の音特徴と第2の言語の第2の音声の音特徴と組み合わせて第2の言語の第3の音声候補を生成することによって、音声のリアルタイムまたはほぼリアルタイムの変換および翻訳を可能にする。生成された第3の音声候補は、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含み、そのことにより、第3の音声候補は、第2の言語に特有の言語特徴を保持しながら、第1の音声が第2の言語を話しているかのように聞こえるようになる。これらの目的のために、該システムは、リアルタイムまたはほぼリアルタイムのクロスリンガル音声変換において使用するための第3の音声候補を生成することができる状態になる前に、話者の各々からの複数の音声サンプルを用いてトレーニングされる機械学習システム(例えば、ディープニューラルネットワーク(DNN)システム、または敵対的生成ネットワーク(GAN)システムのような競合的もしくは敵対的ニューラルネットワークベースのシステム)を備える。クロスリンガル音声変換システムは、第3の音声候補の生成のための機械学習システムのトレーニング中に、音声の各々から音特徴を抽出し、それらを適用するように構成される。
【0027】
GANシステムを使用する実施形態では、前記システムのいくつかの利点は、二言語データおよびそれらのアライメントに依存せず、また自動音声認識(ASR)などの任意の外部プロセスにも依存しないことを含む。これらの実施形態では、GANシステムはさらに、任意の2つの言語の限られた量のノンパラレルトレーニングデータでトレーニングされ得る。いくつかの実施形態では、GANによって最適化された目的関数により、実データまたはグラウンドトゥルースデータと区別不能な人工データが生成される。パラレルデータは、両方の言語において同じ言語内容を含む発話を含むデータであり、これは通常収集することが困難であるが、ノンパラレルデータは、両方の言語において異なる言語内容を含む発話を含むデータである。
【0028】
図1Aは、一実施形態に係る、ノンパラレルデータを用いたクロスリンガル音声変換システム100aの概略図である。
【0029】
図1Aは、第1の言語の第1の音声オーディオセグメント104を生成する第1の音声源102と、第2の言語の第2の音声オーディオセグメント108を生成する第2の音声源106とを示す。第1の音声オーディオセグメント104および第2の音声オーディオセグメント108は、インターネットなどのネットワーク110を介して、メモリ116内に機械学習システム114を記憶するサーバ112に送信される。サーバ112は、第1および第2のオーディオセグメント104、106に含まれるデータを、機械学習システム114に含まれる命令を用いて処理するように構成された少なくとも1つのプロセッサ118をさらに備える。少なくとも1つのプロセッサ118は、機械学習システム114に含まれるコンピュータコードを実行して、第2の言語の少なくとも1つの第3の音声候補120を生成する。例示を容易にするために、本明細書内では単一のサーバを参照して実施例が説明されるが、サーバによって提供されるものとして本明細書内で説明される任意の機能は1つ以上のサーバコンピュータを備えるサーバコンピュータシステムによって提供され得ることを理解されたい。
【0030】
いくつかの実施形態では、第1および第2の音声オーディオセグメント104および108は、ユーザがネットワークに接続された電子ユーザデバイス(例えば、PCまたは携帯電話などのコンピュータ)を介してアクセスすることができるユーザインターフェースを介して機械学習システム114に転送される。ユーザデバイスは、ユーザが音声セグメントを記録することができる一体化されたマイクロホンまたは補助マイクロホンを有し得る。他の実施形態では、音声セグメントは、予め記録されたデジタルファイルとしてアップロードされ得る。他の実施形態では、オーディオセグメントのうちの1つ以上は合成的に生成され、したがって、オーディオセグメントに記録されたオーディオ信号を生成するのに人間のユーザを必要としない。
【0031】
いくつかの実施形態では、クロスリンガル音声変換システム100aは、機械学習システム114に接続された音声データベース122をさらに備える。音声データベース122は、選択された1つ以上の第3の音声候補を記憶するように構成され、複数のトレーニング済み第3の音声を含む。したがって、システム100aは、第1の音声オーディオセグメントおよび第2の音声オーディオセグメントを用いてクロスリンガル変換システム114をトレーニングし、音声変換および翻訳中に、将来使用するために音声データベース122に記憶されている第3の音声の選択を可能にし得る適切な量の第2の言語の第3の音声オーディオセグメント120を生成し得る。これらの選択された第3の音声は、フィルム、オーディオブック、ゲーム、および他のアプリケーションを含む、音声翻訳および変換を必要とし得るメディア作品などの複数の用途で使用され得る。
【0032】
図1Bは、別の実施形態のノンパラレルデータを用いたクロスリンガル変換システム100bを示す。クロスリンガル変換システム100bは、音声オーディオセグメント104および108の各々からの音声オーディオ特徴に関するさらなる詳細を含む。したがって、
図1Bの実施形態では、機械学習システム114は、第1の音声セグメント104から抽出された話者依存音響特徴124および第2の音声セグメント108から抽出された話者非依存言語特徴126を含むデータを用いて、クロスリンガル音声変換のためにトレーニングされるように構成される。クロスリンガル変換の結果、話者依存音響特徴および話者非依存言語特徴を含む第2の言語の第3の音声候補120が得られる。
【0033】
抽出された話者依存音響特徴124は、話者の音声の実際の音を特徴付ける音声特徴を指し、聴取者が、例えば、同じピッチ、アクセント、振幅、および抑揚で、同じ単語を話している話者を区別することを可能にする。いくつかの実施形態では、話者依存音響特徴124は、音色、共鳴、スペクトル包絡、および平均ピッチ強度などの声道特性に関係する短時間的特徴(例えば、短いオーディオセグメントから判定され得る特徴)である分節的特徴を含む。話者非依存言語特徴126は、2つ以上のセグメントにわたるドメインの音響特性に関連する超分節的特徴を含み得、ピッチ曲線、単語の持続時間、リズム、調音、音節、音素、イントネーション曲線、または強勢パターンなどの特徴に関連し得る。これらの超分節的特徴は、言語または方言のアクセントを定める特徴などの特定の言語または方言に特有の言語特徴と高い相関を有し得る。
【0034】
例として、音色は、話者が特定の音に対して発生させる周波数成分のセットから生じる生理学的特性である、話者依存音響特徴124と見なされ得る。したがって、例えば、第3の音声候補120は、とりわけ、第1の音声源102の音色および第2の音声源106のアクセントを含み得、一方で、第1の言語の第1の音声オーディオセグメント104の同じ言語内容を保持し、第1の言語から第2の言語へ言語変換され得る。
【0035】
いくつかの実施形態では、機械学習システム114は、ディープニューラルネットワーク(DNN)システムなどのニューラルネットワークベースのシステム、または、例えば、Variational Autoencoding Wasserstein GAN(VAW-GAN)システムまたはCycle-Consistent GAN(CycleGAN)システムを含む敵対的生成ネットワーク(GAN)システムなどの競合的または敵対的ニューラルネットワークベースのシステムである。機械学習システム114は、学習された出力の一部として1つ以上の第3の音声候補を生成するために、第1の音声および第2の音声からのデータセットに基づいてトレーニングするための上記または他の同様の機械学習ベースのネットワークシステムを使用し得る。
【0036】
図2は、ノンパラレルデータを用いたVariational Autoencoding Wasserstein GAN(VAW-GAN)クロスリンガル変換システムを採用する、別の実施形態のクロスリンガル変換システム200を示す。
【0037】
システム200は、第1の言語の第1の音声オーディオセグメント104および第2の言語の第2の音声オーディオセグメント108を処理し、これらは機械学習システム114に送信される。
【0038】
機械学習システム114は、第2の言語の第3の音声オーディオセグメント120が生成され得るように、第1の音声源および第2の音声源の両方から生成された発話を用いてトレーニングされるように構成され得る。開示されているように、
図2の機械学習システム114において使用されるトレーニングアルゴリズムは、例えば、トレーニング中に整列パラレルコーパスを必要としないVAW-GANアルゴリズムであり得る。
【0039】
図2に示されている実施例では、機械学習システム114は、第1の音声オーディオセグメント104および第2の音声オーディオセグメント108の両方の表現をマッピングし、各々の音声によって作られた各々の音に関連する周波数成分を抽出するために、音声プロファイルマッピング204を行うように構成された音声特徴抽出器202を備える。音声特徴抽出器202の機能は、エンコーダまたは電話の認識装置の機能と同様である。したがって、音声特徴抽出器202は、第1の音声オーディオセグメント104の周波数の振幅と第2の音声オーディオセグメント108の周波数の振幅との関係を抽出して、各々の音声オーディオセグメントに関係し、正確な音声マッピングを可能にする音声特徴を学習し得る。このような抽出は、特に、スペクトル特徴、ピッチ(基本周波数(f(0))、エネルギー、非周期性関連パラメータなどを抽出することを伴い得る。例えば、音声は、抽出された周波数成分に基づいて互いに対してベクトル空間においてマッピングされ得、音声オーディオセグメントにおいて生成されない音の合成周波数成分の外挿を可能にする。ベクトル空間における音声のマッピングに関するさらなる詳細は、米国特許出願公開第2018/0342256号に開示されている。この特許の内容は、参照により本願明細書に引用したものとする。
【0040】
第1のオーディオセグメント104および第2の音声オーディオセグメント108の表現のマッピングは、第1の音声オーディオセグメント104および第2の音声オーディオセグメント108の各々の話者非依存言語特徴126から話者依存音響特徴124を分離するために行われる。したがって、音声特徴抽出器202は、第1の音声の話者依存音響特徴124および第2の音声の話者非依存言語特徴126を含む第3の音声候補120が生成され得るように、機械学習システム114をトレーニングするために周波数成分からこれらの音声特徴を抽出する。
【0041】
いくつかの実施形態では、機械学習システム114は、第1の言語の第1の音声オーディオセグメント104および第2の言語の第2の音声オーディオセグメント108を、例えば時間的受容フィルタを使用して、分析オーディオセグメントへとフィルタリングする。これらの実施形態では、音声特徴抽出器202は、ベクトル空間における各々の音声の表現の後続のマッピングのために、分析オーディオセグメントから周波数成分を抽出する。
【0042】
機械学習システム114は、少なくとも1つの生成器206および少なくとも1つの識別器208をさらに備え、これらは、GANシステムにおいて一緒にトレーニングされる2つのニューラルネットワークである。生成器206は、第1の音声セグメント104および第2の音声セグメント108にそれぞれ含まれる第1の音声の話者依存音響特徴124と第2の音声の話者非依存言語特徴126との間のマッピング関数を推定し、データを使用して、識別器208に送信される第3の音声候補120を生成する。生成器206は、復号器または合成器として動作する。識別器208は、最初に生成された第1の音声の話者依存音響特徴124および第2の音声の話者非依存言語特徴126を含む音声特徴抽出器202からのグラウンドトゥルースデータを受け取り、そのグラウンドトゥルースデータを生成器206によって合成的に生成された第3の音声候補120と比較するバイナリ分類器として動作する。識別器208はさらに、第3の音声候補120と第1の音声話者依存音響特徴124と第2の音声話者非依存言語特徴126との間に少なくとも1つの不一致があるかどうかを判定する。一実施形態では、少なくとも1つの不一致が存在する場合、識別器208は、第3の音声候補120と第1の音声の話者依存音響特徴124と第2の音声の話者非依存言語特徴126との間の一貫性損失に関する不一致情報を生成する。最後に、識別器208は、第3の音声候補120を改良するために、不一致情報を生成器206に返す。
【0043】
いくつかの実施形態では、機械学習システム114は、異なるレベルの第1の音声の話者依存音響特徴124および第2の音声の話者非依存言語特徴126をそれぞれ含む、複数の第3の音声候補120を生成するように構成される。例えば、第3の音声候補120の各々は、音色の変化を表示し得、またはより強い/より軽いアクセントを有し得、このことは、最適な第3の音声を選択するための様々なオプションを人間またはソフトウェアプログラムに提供し得る。さらなる実施形態では、機械学習システム114はさらに、音声翻訳中に使用するために複数の第3の音声候補120のうちの1つ以上を選択するように構成される。またさらなる実施形態では、機械学習システム114はさらに、選択された1つ以上の第3の音声を機械学習システム114に接続されているデータベース(例えば、
図1Aの音声データベース122)に記憶するように構成され、データベースは、選択された第3の音声に対応する複数のトレーニング済みGANニューラルネットワークを含む。
【0044】
図3A~
図3Bは、少なくとも敵対的損失関数およびサイクル一貫性損失関数を使用して順方向マッピング関数および逆方向マッピング関数を同時に学習することを含むCycle-Consistent GAN(CycleGAN)アルゴリズムを採用するクロスリンガル変換システム300の実施形態を示す。敵対的損失は、生成されたデータ(例えば、生成された第3の音声候補)の分布と、実際の対象データ(例えば、実際の話者依存音響特徴および話者非依存言語特徴)の分布とを区別不能にするために使用される。一方、サイクル一貫性損失は、入力情報がネットワーク全体を通して処理されるときに不変であるように、入力情報の一部を制約するために導入され得る。このことにより、対になっていないクロスリンガルデータから最適な擬似対を見つけることが可能になる。さらに、敵対的損失は、変換された特徴シーケンスの過剰平滑化を低減することに寄与する。CycleGANは、対になったトレーニングデータが存在しないいくつかのタスクに対して顕著な結果をもたらすことが知られている。いくつかの実施形態では、CycleGANトレーニング中に、変換された第3の候補において使用すべき第1の音声オーディオセグメントおよび第2の音声オーディオセグメントの各々の識別関連特徴を維持するのに役立つ識別マッピング損失も考慮され得る。これらの損失を組み合わせることによって、対になっていないトレーニングサンプルからモデルを学習することができ、学習されたマッピングは、入力を所望の出力にマッピングすることができる。
【0045】
図3Aは、一実施形態に係る、機械学習システム114で採用され得るCycleGANアルゴリズム300を使用する順方向マッピング関数302の概略図である。順方向マッピング関数302は、特徴抽出器202から、第1の言語の第1の音声オーディオセグメント102を受信し、音声特徴抽出器202によって、第1の音声の話者依存音響特徴124を抽出することによって進行する。第1の音声の話者依存音響特徴124は、第1の言語の第1の音声オーディオセグメント102から直接抽出されるので、これらの特徴は、本明細書では、プロセスにおいて後で生成された作成済み第1の音声の話者依存音響特徴と区別するためにグラウンドトゥルースの第1の音声の話者依存音響特徴124とも呼ばれる。
【0046】
順方向マッピング関数302は、第1の生成器306の一部である第1から第3への音声候補生成器304に対して、グラウンドトゥルースの第1の音声の話者依存音響特徴124を送信することによって進行する。次に、順方向マッピング関数302は、第1から第3への音声候補生成器304によって、逆方向マッピング関数308Aから抽出されたグラウンドトゥルースの第2の音声の話者非依存言語特徴126を受信する。その後、順方向マッピング関数302は、第1から第3への音声候補生成器304を介して、第1の言語の第1の音声オーディオセグメント104から抽出されたグラウンドトゥルースの第1の音声の話者依存音響特徴124、および逆方向マッピング関数308Aから受信されたグラウンドトゥルースの第2の音声の話者非依存言語特徴126を使用して、第2の言語の第3の音声候補310を生成する。したがって、第1の言語の第1の音声オーディオセグメント104に含まれる言語内容と共に第3の音声候補310に含まれる作成済み第1の音声の話者依存音響特徴は、グラウンドトゥルースの話者依存音響特徴124と区別不能なはずであるが、第3の音声候補310が第2の言語に特有の第2の音声の話者非依存言語特徴126を含み、結果として生じるメッセージが第2の言語に翻訳されるという違いを有する。
【0047】
順方向マッピング関数302は、第1の識別器312を通して、第3の音声候補310に含まれる作成済み第1の音声の話者依存音響特徴とグラウンドトゥルースの第1の音声の話者依存音響特徴124との間に不一致があるかどうかの判定を行う314。不一致がある場合、第1の識別器312は、一貫性損失に関する不一致情報316を生成する。最後に、第1の識別器312は、第3の音声候補310を改良するために、不一致情報316を第1から第3への音声候補生成器304に返す。
【0048】
第3の音声候補308は、第1の生成器306の一部である第3から第1への話者生成器318に送信し、第3から第1への話者生成器318は、第3の音声候補310を利用して、変換された特徴の過剰平滑化を低減することに寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第1の音声の話者依存音響特徴320を生成する。変換済み第1の音声の話者依存音響特徴320は、その後、第3の音声候補310をさらに改良するために、トレーニングプロセスを継続するように第1から第3への音声候補生成器304に返される。第3の音声候補310が第1の音声の話者依存音響特徴124と一致する場合、順方向マッピング関数302は終了し得る322。
【0049】
順方向マッピング関数302は、逆方向マッピング関数308と並行して実行され、これは、
図3Aに示されている平行線324で表される。
【0050】
図3Bは、一実施形態に係る、Cycle-Consistent(CycleGAN)アルゴリズムを使用する逆方向マッピング関数310の概略図である。
【0051】
順方向マッピング関数308は、特徴抽出器202から、第2の言語の第2の音声オーディオセグメント108を受信し、音声特徴抽出器202によって、第2の音声の話者非依存言語特徴126を抽出することによって進行する。第2の音声の話者非依存言語特徴126は、第2の言語の第2の音声オーディオセグメント104から直接抽出されるので、これらの特徴は、本明細書では、プロセスにおいて後で生成された作成済み第2の音声の話者非依存言語特徴と区別するためにグラウンドトゥルースの第2の音声の話者非依存言語特徴126とも呼ばれる。
【0052】
逆方向マッピング関数308は、第2の生成器328の一部である第2から第3への音声候補生成器326に対して、グラウンドトゥルースの第2の音声の話者非依存言語特徴126を送信することによって進行する。次に、逆方向マッピング関数308は、第2から第3への音声候補生成器326によって、順方向マッピング関数302Bからグラウンドトゥルースの第1の音声の話者依存音響特徴124を受信する。その後、逆方向マッピング関数308は、第2から第3への音声候補生成器326を介して、第2の言語の第2の音声オーディオセグメント108から抽出されたグラウンドトゥルースの第2の音声の話者非依存音響特徴126および順方向マッピング関数302Aから受信されたグラウンドトゥルースの第1の音声の話者依存音響特徴124を使用して、第2の言語の第4の音声候補330を生成する。したがって、第4の音声候補330に含まれる作成済み第2の音声の話者非依存言語特徴は、グラウンドトゥルースの第2の音声の話者非依存言語特徴126と区別不能であるはずであるが、第4の音声候補330が第1の言語の第1の音声オーディオセグメント104に特有の第1の音声の話者依存音響特徴124を含み、第1の言語の第1の音声オーディオセグメント104によって生成されたメッセージの元の言語内容を伝え、結果として生じるメッセージが第2の言語に翻訳されるという違いを有する。
【0053】
逆方向マッピング関数308は、第2の識別器332を通して、第4の音声候補330に含まれる作成済み第2の音声の話者非依存言語特徴とグラウンドトゥルースの第2の音声の話者非依存音響特徴126との間に不一致があるかどうかの判定を行う334。不一致がある場合、第2の識別器332は、一貫性損失に関する不一致情報336を生成する。第2の識別器332は、第4の音声候補330を改良するために、不一致情報336を第2から第3への音声候補生成器326に返す。
【0054】
次に、第4の音声候補330は、第2の生成器328の一部である第3から第2への話者生成器338に送られ、第3から第2への話者生成器338は、第4の音声候補330を利用して、変換された特徴の過剰平滑化を低減することに寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第2の音声の話者非依存言語特徴340を生成する。変換済み第2の音声の話者非依存言語特徴340は、その後、第4の音声候補330をさらに改良するために、トレーニングプロセスを継続するように第2から第3への音声候補生成器326に返される。第4の音声候補330が第2の音声の話者非依存音響特徴126と一致する場合、逆方向マッピング関数308は終了し得る342。
【0055】
図4は、一実施形態に係る、トレーニング済みクロスリンガル音声変換システムを実装するサンプルオンライン映画ストリーミングプラットフォーム400の概略図である。
【0056】
オンライン映画ストリーミングプラットフォーム400は、ユーザが、オリジナル版406のフィルム402のオーディオ、オリジナルの俳優の音声408による第2の言語の吹替版、および声優410による第2の言語の吹替版を有するような様々なオプションの選択を可能にする言語メニュー404を含むフィルム402を選択することを可能にする。第1の言語を話すオリジナルの声優から生成された第1の音声オーディオは、オリジナル版406のために使用され得、第2の音声オーディオは、声優410による第2の言語を含む言語選択オプション404のために第2の言語を話す声優から生成され得る。オリジナルのオーディオの第2の言語への翻訳および第1の話者と第2の話者との間の特徴の変換は、例えば、
図1A~
図3Bのシステム100a~300で示されているシステムを通して、声優410による第2の言語の吹替版を可能にするための本開示のクロスリンガル音声変換システムの実装を伴う。
【0057】
したがって、本開示の
図1A~
図3Bの100a~300のクロスリンガル変換システムは、オリジナル俳優の音声が所望の言語に翻訳された映画のバージョンを視聴者に提供するように構成され得る。例として、
図1Bを参照すると、オリジナル俳優の音声は、言語内容(例えば、オリジナル俳優が役を演じる映画の台本に関連する)と共に話者依存音響特徴124を伝え、声優によって生成された第2の音声オーディオセグメント108は、声優の非依存言語特徴126を用いて機械学習システム114をトレーニングするのに役立つ。話者依存音響特徴124と話者非依存言語特徴126との組み合わせは、十分な回数のトレーニングおよび改良の後に、オリジナルの俳優の音声による吹替版408としての機能を果たすために第2の言語の選択された第3の音声候補120として使用され得る、1つ以上の第3の音声候補を生成する。いくつかの実施形態では、複数の生成済み第3の音声は、異なるレベルの第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含む複数の吹替版のオーディオファイルの生成において使用され得、最適な吹替版のオーディオファイルを選択するための幅広いオプションを可能にする。選択は、人間(例えば、システム管理者)によって手動で、またはコンピュータコード(例えば、人工知能プログラム)によって自動的に実行され得る。
【0058】
図5は、一実施形態に係る、ノンパラレルデータを用いたクロスリンガル音声変換を可能にする方法500の概略図である。
【0059】
方法500は、ステップ502から開始し、504において、音声特徴抽出器によって、第1の言語の第1の音声オーディオセグメントおよび第2の言語の第2の音声オーディオセグメントを受信する。方法500は、ステップ506に進み、音声特徴抽出器を通して、第1の言語の第1の音声オーディオセグメントおよび第2の言語の第2の音声オーディオセグメントからそれぞれ、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むオーディオ特徴(本明細書では、後続のステップにおいて生成器によって合成的に生成されたデータとの違いを明らかにするためにグラウンドトゥルースデータとも呼ばれる)を抽出する。ステップ508において、方法500は、第1の音声の話者非依存音響特徴および第2の音声の話者非依存言語特徴を用いて生成器をトレーニングする。ステップ510において、該方法は、トレーニング済みデータセットから、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を保持する第3の音声候補であって、第2の言語を話す第3の音声候補を生成する。
【0060】
その後、方法500はステップ512に進み、1つ以上の識別器が第3の音声候補を第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと比較する。この比較によって、1つ以上の識別器は、チェック514において、第3の音声候補と第1の音声の話者依存音響特徴と第2の音声の話者非依存言語特徴との間に少なくとも1つの不一致があるかどうかを判定する。少なくとも1つの不一致が存在する場合、識別器は、ステップ516において、第3の音声候補と第1の音声の話者依存音響特徴と第2の音声の話者非依存言語特徴との間の一貫性損失に関する不一致情報を生成する。ステップ518において、識別器は、第3の音声候補を改良するために不一致情報を生成器に返し、ステップ510にループバックする。第3の音声候補が第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むグラウンドトゥルースデータと一致する場合、該方法は終了し得る520。
【0061】
いくつかの実施形態では、方法500は、Variational Autoencoding Wasserstein GAN(VAW-GAN)アルゴリズムを使用して実装される。
【0062】
図6は、一実施形態に係る、Cycle-Consistent(CycleGAN)アルゴリズムを使用することによってノンパラレルデータを用いたクロスリンガル音声変換を可能にする順方向マッピング関数を説明する方法600の概略図である。順方向マッピング関数は、
図7を参照して方法700で説明される逆方向マッピング関数と同時に実行される。
【0063】
方法600の順方向マッピング関数は、ステップ602から開始し、ステップ604において、特徴抽出器によって第1の言語の第1の音声オーディオセグメントを受信し、ステップ606に進み、特徴抽出器によって第1の音声の話者依存音響特徴を抽出する。順方向マッピング関数は、ステップ608に進み、第1の生成器の一部である第1から第3への話者生成器に第1の音声の話者依存音響特徴を送信する。その後、順方向マッピング関数は、続けてステップ610に進み、第1から第3への話者生成器によって、逆方向マッピング関数から第2の言語の第2の音声の話者非依存言語特徴を受信する。第1の音声オーディオセグメントから抽出された第1の音声の話者依存音響特徴および逆方向マッピング関数からの第2の音声の話者非依存言語特徴は、本明細書では、後続のステップにおいて生成器によって合成的に生成されたデータとの違いを明らかにするためにグラウンドトゥルースデータと呼ばれる。続いて、順方向マッピング関数は、ステップ612において、第1の生成器を介して、第1の音声の話者依存音響特徴および第2の音声の話者非依存言語特徴を含むグラウンドトゥルースデータを使用して、第3の音声候補を生成する。
【0064】
順方向マッピング関数は、チェック614において、第1の識別器によって、第3の音声候補とグラウンドトゥルースの第1の音声の話者依存音響特徴との間に矛盾があるかどうかを判定する。矛盾がある場合、第1の識別器は、ステップ616において、一貫性損失に関する不一致情報を生成する。ステップ618において、第1の識別器は、第3の音声候補を改良するために、不一致情報を第1から第3への音声候補生成器に返す。該方法は、続いてステップ620に進み、第1の識別器が第3の音声候補を第1の生成器の一部である第3から第1への話者生成器に送信する。第3から第1への話者生成器は、ステップ622において、第3の音声候補を利用して、変換された特徴の過剰平滑化の低減に寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第1の音声の話者依存音響特徴を生成する。変換済み第1の音声の話者依存音響特徴は、その後、ステップ624に示されているように、第3の音声候補をさらに改良するために、トレーニングプロセスを継続するように第1から第3への音声候補生成器に返され、ステップ612にループバックされる。第3の音声候補が第1の音声の話者依存音響特徴と一致する場合、順方向マッピング関数は終了し得る626。
【0065】
図7は、一実施形態に係る、CycleGANアルゴリズムを使用することによってノンパラレルデータを用いたクロスリンガル音声変換を可能にする逆方向マッピング関数を説明する方法700の概略図である。方法600の順方向マッピング関数と方法700の逆方向マッピング関数の両方が、CycleGANアルゴリズムトレーニングの一部として同時に実行される。
【0066】
方法700の逆方向マッピング関数は、ステップ702から開始し、ステップ704において、特徴抽出器によって第2の言語の第2の音声オーディオセグメントを受信し、続けて、ステップ706に進み、特徴抽出器によって第2の音声の話者非依存言語特徴を抽出する。次に、逆方向マッピング関数は、ステップ708に進み、第2の生成器の一部である第2から第3への音声候補生成器に第2の音声の話者非依存言語特徴を送信する。続いて、ステップ710において、逆方向マッピング関数は、第2から第3への音声候補生成器によって、順方向マッピング関数から第1の音声の話者依存音響特徴を受信する。第2の音声オーディオセグメントから抽出された第2の音声の話者非依存言語特徴および順方向マッピング関数からの第1の音声の話者依存音響特徴は、本明細書では、後続のステップにおいて生成器によって合成的に生成されたデータとの違いを明らかにするためにグラウンドトゥルースデータと呼ばれる。逆方向マッピング関数は、続けて、ステップ712に進み、第2から第3への音声候補生成器によって、第2の音声の話者依存音響特徴および第1の音声の話者依存音響特徴を使用して、第3の音声候補を生成する。
【0067】
逆方向マッピング関数は、チェック714において、第2の識別器によって、第3の音声候補と第2の音声の話者非依存言語特徴との間に矛盾があるかどうかを判定する。矛盾がある場合、第2の識別器は、ステップ716において、一貫性損失に関する不一致情報を生成する。ステップ718において、第2の識別器は、第3の音声候補を改良するために、不一致情報を第2から第3への音声候補生成器に返す。次に、第3の音声候補は、ステップ720において、第2の生成器の一部である第3から第2への話者生成器に送信される。第3から第2への話者生成器は、ステップ722において、第3の音声候補を利用して、変換された特徴の過剰平滑化の低減に寄与する敵対的損失プロセスを採用するトレーニングフェーズの一部として、変換済み第2の音声の話者非依存言語特徴を生成する。変換済み第2の音声の話者非依存言語特徴は、その後、ステップ724において、第3の音声候補をさらに改良するために、トレーニングプロセスを継続するように第2から第3への音声候補生成器に返され、ステップ712にループバックされる。第3の音声候補が第2の音声の話者非依存音響特徴と一致する場合、逆方向マッピング関数は終了し得る726。
【0068】
図5~
図7の方法500~700の実装を可能にする、
図1A~
図3Bに示されている機械学習システム114およびその中に含まれる様々な要素(例えば、1つ以上の音声特徴抽出器202、生成器206、または識別器208)は、ソフトウェアまたはファームウェアを実行する複数のマイクロプロセッサを使用する少なくとも1つのプロセッサ118によって実装され得る、または1つ以上の特定用途向け集積回路(ASIC)および関連ソフトウェアを使用して実装され得る。他の実施例では、
図5~
図7の方法500~700の実施を可能にする、機械学習システム114およびその中に含まれる様々な要素は、ASIC、個別の電子部品(例えば、トランジスタ)、およびマイクロプロセッサの組み合わせを使用して実装され得る。いくつかの実施形態では、機械学習システム114は、複数の異なる機械にわたって分散され得る。いくつかの実施形態では、別個のものとして示される構成要素は、単一の構成要素によって置き換えられてもよい。さらに、表示されている構成要素のいくつかは、追加の構成要素であり得る、または他の構成要素で置き換えられ得る。
【0069】
さらに、1つ以上のコンピュータに本明細書内で説明する方法のいずれかを実行させるように構成された命令を記憶したコンピュータ可読媒体について説明する。コンピュータ可読媒体は、コンピュータ可読命令、データ構造、プログラムモジュール、または他のデータなどの情報を記憶することができる任意の方法または技術で実装された揮発性または不揮発性の媒体、取り外し可能もしくは取り外し不可能な媒体を含み得る。一般に、本明細書内で説明されるコンピューティングデバイスの機能は、C、C++、COBOL、JAVA(登録商標)、PHP、Perl、Python、Ruby、HTML、CSS、JavaScript、VBScript、ASPX、C#のようなMicrosoft.NET(登録商標)言語などのプログラミング言語で書かれ得るハードウェア命令またはソフトウェア命令で具現化されたコンピューティング論理で実装され得る。コンピューティング論理は、実行可能プログラムにコンパイルされ得る、または解釈されたプログラミング言語で書かれ得る。一般に、本明細書内で説明されている機能は、より大きい処理能力を提供するために複製され得るか、他のモジュールとマージされ得るか、またはサブモジュールに分割され得る論理モジュールとして実装され得る。コンピューティング論理は、任意のタイプのコンピュータ可読媒体(例えば、メモリもしくは記憶媒体などの非一時的な媒体)またはコンピュータ記憶装置に記憶され、1つ以上の汎用もしくは専用プロセッサ上に記憶されて、そのプロセッサによって実行され得、その結果、本明細書内で説明する機能を提供するように構成された専用コンピューティングデバイスが作成され得る。
【0070】
特定の実施形態が説明され、添付図面に示されているが、そのような実施形態は例示的なものに過ぎず、広範な発明を限定するものではなく、当業者は様々な他の修正形態に気付き得るので、本発明は図示され説明されている特定の構成および配置に限定されないことを理解されたい。したがって、説明は、限定ではなく例示と見なされるべきである。