(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-12-26
(54)【発明の名称】ディスエンタングルされた発話内容およびスタイル表現の教師なし学習
(51)【国際特許分類】
G10L 15/065 20130101AFI20231219BHJP
G10L 15/10 20060101ALI20231219BHJP
G10L 15/16 20060101ALI20231219BHJP
【FI】
G10L15/065 Z
G10L15/10 500Z
G10L15/16
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2023535764
(86)(22)【出願日】2021-11-18
(85)【翻訳文提出日】2023-08-10
(86)【国際出願番号】 US2021059991
(87)【国際公開番号】W WO2022125290
(87)【国際公開日】2022-06-16
(32)【優先日】2020-12-11
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ルオミン・パン
(72)【発明者】
【氏名】アンドロス・チャンドラ
(72)【発明者】
【氏名】ユ・ジャン
(72)【発明者】
【氏名】シゲキ・カリタ
(57)【要約】
言語的内容および発話様式のディスエンタングルモデル(100)は、コンテンツエンコーダ(110)、スタイルエンコーダ(130)、およびデコーダ(150)を含む。コンテンツエンコーダは、入力発話(102)を入力として受信し、入力発話の言語的内容(120)の潜在表現を出力として生成するように構成される。コンテンツエンコーダは、言語的内容の潜在表現から発話様式情報をディスエンタングルするようにトレーニングされる。スタイルエンコーダは、入力発話を入力として受信し、入力発話の発話様式(140)の潜在表現を出力として生成するように構成される。スタイルエンコーダは、発話様式の潜在表現から言語的内容情報をディスエンタングルするようにトレーニングされる。デコーダは、入力発話の言語的内容の潜在表現および同じまたは異なる入力発話の発話様式の潜在表現に基づいて出力発話(152)を生成するように構成される。
【特許請求の範囲】
【請求項1】
言語的内容(120)および発話様式(140)のディスエンタングルモデル(100)であって、
入力発話(102)を入力として受信し、
前記入力発話(102)の言語的内容(120)の潜在表現を出力として生成する
ように構成されたコンテンツエンコーダ(110)であって、言語的内容(120)の前記潜在表現から発話様式情報をディスエンタングルするようにトレーニングされた、コンテンツエンコーダ(110)と、
同じまたは異なる入力発話(102)を入力として受信し、
前記同じまたは異なる入力発話(102)の発話様式(140)の潜在表現を出力として生成する
ように構成されたスタイルエンコーダ(130)であって、発話様式(140)の前記潜在表現から言語的内容情報をディスエンタングルするようにトレーニングされた、スタイルエンコーダ(130)と、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じまたは異なる入力発話(102)の発話様式(140)の前記潜在表現に基づいて出力発話を生成するように構成されたデコーダ(150)と
を備える、モデル(100)。
【請求項2】
前記コンテンツエンコーダ(110)が、前記入力発話(102)における発話様式の変動を破棄する言語的内容(120)の個別の時間ステップごとの潜在表現として、言語的内容(120)の前記潜在表現を生成する、請求項1に記載のモデル(100)。
【請求項3】
前記コンテンツエンコーダ(110)が、
前記入力発話(102)を入力として受信し、前記言語的内容(120)の初期の個別の時間ステップごとの潜在表現を生成するように構成された1つまたは複数の畳み込み層(112)と、
前記言語的内容(120)のそれぞれの初期の個別の時間ステップごとの潜在表現に直線状勾配を有した情報ボトルネックを適用して、前記入力発話(102)の前記言語的内容(120)を表す一連の潜在変数として言語的内容(120)の前記潜在表現を生成するように構成されたベクトル量子化(VQ)層と
を含む、請求項1または2に記載のモデル(100)。
【請求項4】
前記コンテンツエンコーダ(110)が、各時間ステップについて生成された言語的内容(120)の前記潜在表現に基づく内容VQ損失(124)を使用してトレーニングされ、前記内容VQ損失(124)が、出力と最近傍コードブックとの間の距離を最小化するように前記コンテンツエンコーダ(110)を促す、請求項3に記載のモデル(100)。
【請求項5】
前記スタイルエンコーダ(130)が、
前記入力発話(102)を入力として受信するように構成された1つまたは複数の畳み込み層(132)と、
時間軸にわたるグローバル平均プーリング演算によって前記1つまたは複数の畳み込み層(132)からの出力を要約して、発話様式(140)の前記潜在表現に対応するグローバルスタイル潜在変数を抽出するように構成された、ガウス事後確率を有する変分層(134)と
を含む、請求項1から4のいずれか一項に記載のモデル(100)。
【請求項6】
トレーニング中に、前記グローバルスタイル潜在変数が、前記スタイルエンコーダ(130)によって予測されるスタイル潜在変数の平均および分散からサンプリングされ、
推論中に、前記グローバルスタイル潜在変数が、前記スタイルエンコーダ(130)によって予測される前記グローバルスタイル潜在変数の前記平均からサンプリングされる、
請求項5に記載のモデル(100)。
【請求項7】
前記スタイルエンコーダ(130)が、前記スタイルエンコーダ(130)によって予測されるスタイル潜在変数の平均および分散に基づくスタイル正則化損失(144)を使用してトレーニングされ、前記スタイルエンコーダ(130)が、前記スタイル正則化損失(144)を使用して、単位ガウス事前確率とガウス事後確率との間のカルバック・ライブラ(KL)情報量を最小化する、請求項5または6に記載のモデル(100)。
【請求項8】
前記デコーダ(150)が、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じ入力発話(102)の発話様式(140)の前記潜在表現を入力として受信し、
前記入力発話(102)の再構成物を含む前記出力発話を出力として生成する
ように構成される、請求項1から7のいずれか一項に記載のモデル(100)。
【請求項9】
前記モデル(100)が、前記入力発話(102)と前記デコーダ(150)から出力される前記入力発話(102)の前記再構成物との間の再構成損失(162)を使用してトレーニングされる、請求項8に記載のモデル(100)。
【請求項10】
前記デコーダ(150)が、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記異なる入力発話(102)の発話様式(140)の前記潜在表現を入力として受信し、
前記入力発話(102)によって指定される言語的内容情報および前記異なる入力発話(102)によって指定される発話様式情報を含む前記出力発話を出力として生成する
ように構成される、請求項1から9のいずれか一項に記載のモデル(100)。
【請求項11】
前記コンテンツエンコーダ(110)および前記スタイルエンコーダ(130)が、相互情報損失を使用して、言語的内容(120)の前記潜在表現および発話様式(140)の前記潜在表現において取り込まれる相互情報量を最小化するようにトレーニングされる、請求項1から10のいずれか一項に記載のモデル(100)。
【請求項12】
コンピュータ実施方法(500)であって、データ処理ハードウェア(22)で実行されるとき、
入力発話(102)を受信するステップと、
コンテンツエンコーダ(110)を使用して、前記入力発話(102)を処理して、前記入力発話(102)の言語的内容(120)の潜在表現を生成するステップであって、前記コンテンツエンコーダ(110)が、言語的内容(120)の前記潜在表現から発話様式情報をディスエンタングルするようにトレーニングされる、ステップと、
スタイルエンコーダ(130)を使用して、同じまたは異なる入力発話(102)を処理して、前記同じまたは異なる入力発話(102)の発話様式(140)の潜在表現を生成するステップであって、前記スタイルエンコーダ(130)が、発話様式(140)の前記潜在表現から言語的内容情報をディスエンタングルするようにトレーニングされる、ステップと、
デコーダ(150)を使用して、前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じまたは異なる入力発話(102)の発話様式(140)の前記潜在表現を処理して、出力発話を生成するステップと
を含む動作を前記データ処理ハードウェア(22)に実行させる、コンピュータ実施方法(500)。
【請求項13】
前記入力発話(102)を処理して、前記入力発話(102)の言語的内容(120)の前記潜在表現を生成するステップが、
前記入力発話(102)を処理して、前記入力発話(102)における発話様式の変動を破棄する言語的内容(120)の個別の時間ステップごとの潜在表現として、言語的内容(120)の前記潜在表現を生成するステップ
を含む、請求項12に記載のコンピュータ実施方法(500)。
【請求項14】
前記コンテンツエンコーダ(110)が、
前記入力発話(102)を入力として受信し、前記言語的内容(120)の初期の個別の時間ステップごとの潜在表現を生成するように構成された1つまたは複数の畳み込み層(112)と、
前記言語的内容(120)のそれぞれの初期の個別の時間ステップごとの潜在表現に直線状勾配を有した情報ボトルネックを適用して、前記入力発話(102)の前記言語的内容(120)を表す一連の潜在変数として言語的内容(120)の前記潜在表現を生成するように構成されたベクトル量子化(VQ)層と
を含む、請求項12または13に記載のコンピュータ実施方法(500)。
【請求項15】
前記コンテンツエンコーダ(110)が、各時間ステップについて生成された言語的内容(120)の前記潜在表現に基づく内容VQ損失(124)を使用してトレーニングされ、前記内容VQ損失(124)が、出力と最近傍コードブックとの間の距離を最小化するように前記コンテンツエンコーダ(110)を促す、請求項14に記載のコンピュータ実施方法(500)。
【請求項16】
前記スタイルエンコーダ(130)が、
前記入力発話(102)を入力として受信するように構成された1つまたは複数の畳み込み層(132)と、
時間軸にわたるグローバル平均プーリング演算によって前記1つまたは複数の畳み込み層(132)からの出力を要約して、発話様式(140)の前記潜在表現に対応するグローバルスタイル潜在変数を抽出するように構成された、ガウス事後確率を有する変分層(134)と
を含む、請求項12から15のいずれか一項に記載のコンピュータ実施方法(500)。
【請求項17】
前記動作が、
トレーニング中に、前記スタイルエンコーダ(130)によって予測されるスタイル潜在変数の平均および分散から前記グローバルスタイル潜在変数をサンプリングするステップと、
推論中に、前記スタイルエンコーダ(130)によって予測される前記グローバルスタイル潜在変数の前記平均から前記グローバルスタイル潜在変数をサンプリングするステップと
をさらに含む、請求項16に記載のコンピュータ実施方法(500)。
【請求項18】
前記スタイルエンコーダ(130)が、前記スタイルエンコーダ(130)によって予測されるスタイル潜在変数の平均および分散に基づくスタイル正則化損失(144)を使用してトレーニングされ、前記スタイルエンコーダ(130)が、前記スタイル正則化損失(144)を使用して、単位ガウス事前確率とガウス事後確率との間のカルバック・ライブラ(KL)情報量を最小化する、請求項16または17に記載のコンピュータ実施方法(500)。
【請求項19】
前記デコーダ(150)が、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じ入力発話(102)の発話様式(140)の前記潜在表現を入力として受信し、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じ入力発話(102)の発話様式(140)の前記潜在表現を処理して、前記入力発話(102)の再構成物を含む前記出力発話を出力として生成する
ように構成される、請求項12から18のいずれか一項に記載のコンピュータ実施方法(500)。
【請求項20】
前記モデル(100)が、前記入力発話(102)と前記デコーダ(150)から出力される前記入力発話(102)の前記再構成物との間の再構成損失(162)を使用してトレーニングされる、請求項19に記載のコンピュータ実施方法(500)。
【請求項21】
前記デコーダ(150)が、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記異なる入力発話(102)の発話様式(140)の前記潜在表現を入力として受信し、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記異なる入力発話(102)の発話様式(140)の前記潜在表現を処理して、前記入力発話(102)によって指定される言語的内容情報および前記異なる入力発話(102)によって指定される発話様式情報を含む前記出力発話を出力として生成する
ように構成される、請求項12から20のいずれか一項に記載のコンピュータ実施方法(500)。
【請求項22】
前記コンテンツエンコーダ(110)および前記スタイルエンコーダ(130)が、相互情報損失を使用して、言語的内容(120)の前記潜在表現および発話様式(140)の前記潜在表現において取り込まれる相互情報量を最小化するようにトレーニングされる、請求項12から21のいずれか一項に記載のコンピュータ実施方法(500)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、ディスエンタングルされた(disentangled)発話内容およびスタイル表現の教師なし学習に関する。
【背景技術】
【0002】
音声波形は、言語的内容(linguistic contents)と発話様式(speaking styles)とに広く分類され得るいくつかの基礎要因の影響を受ける、複雑な高次元形態のデータである。発話からのディスエンタングルされた潜在表現の学習は、発話合成、データ拡大、音声転送、および音声圧縮を含む、生成タスクにおける広範な応用を有する。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の一態様は、コンテンツエンコーダ、スタイルエンコーダ、およびデコーダを含む、言語的内容および発話様式のディスエンタングルモデルを提供する。コンテンツエンコーダは、入力発話を入力として受信し、入力発話の言語的内容の潜在表現を出力として生成するように構成される。コンテンツエンコーダは、言語的内容の潜在表現から発話様式情報をディスエンタングルするようにトレーニングされる。スタイルエンコーダは、同じまたは異なる入力発話を入力として受信し、同じまたは異なる入力発話の発話様式の潜在表現を出力として生成するように構成される。スタイルエンコーダは、発話様式の潜在表現から言語的内容情報をディスエンタングルするようにトレーニングされる。デコーダは、入力発話の言語的内容の潜在表現および同じまたは異なる入力発話の発話様式の潜在表現に基づいて出力発話を生成するように構成される。
【0004】
本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態において、コンテンツエンコーダは、入力発話における発話様式の変動を破棄する言語的内容の個別の時間ステップごとの潜在表現として言語的内容の潜在表現を生成する。コンテンツエンコーダは、入力発話を入力として受信し、言語的内容の初期の個別の時間ステップごとの潜在表現を生成するように構成された1つまたは複数の畳み込み層と、言語的内容のそれぞれの初期の個別の時間ステップごとの潜在表現に直線状勾配を有した情報ボトルネックを適用して、入力発話の言語的内容を表す一連の潜在変数として言語的内容の潜在表現を生成するように構成されたベクトル量子化(VQ: vector-quantization)層とを含み得る。ここで、コンテンツエンコーダは、各時間ステップについて生成された言語的内容の潜在表現に基づく内容VQ損失を使用してトレーニングされ得、それによって、VQ損失は、出力と最近傍コードブックとの間の距離を最小化するようにコンテンツエンコーダを促す。
【0005】
いくつかの例では、スタイルエンコーダは、入力発話を入力として受信するように構成された1つまたは複数の畳み込み層と、時間軸にわたるグローバル平均プーリング演算によって1つまたは複数の畳み込み層から出力を要約して、発話様式の潜在表現に対応するグローバル潜在スタイル変数を抽出するように構成された、ガウス事後確率を有する変分層とを含む。これらの例では、トレーニング中に、グローバル潜在スタイル変数が、スタイルエンコーダによって予測されるスタイル潜在変数の平均および分散からサンプリングされ得、そして、推論中に、グローバル潜在スタイル変数が、スタイルエンコーダによって予測されるグローバル潜在スタイル変数の平均からサンプリングされ得る。追加でまたは別法として、スタイルエンコーダは、スタイルエンコーダによって予測されるスタイル潜在変数の平均および分散に基づいて、スタイル正則化損失を使用してトレーニングされ得、そこで、スタイルエンコーダは、スタイル正則化損失を使用して、単位ガウス事前確率とガウス事後確率との間のカルバック・ライブラ(KL: Kullback-Leibler)情報量を最小化する。
【0006】
いくつかの実装形態において、デコーダは、入力発話の言語的内容の潜在表現および同じ入力発話の発話様式の潜在表現を入力として受信することと、入力発話の再構成物を含む出力発話を出力として生成することとを行うように構成される。モデルは、入力発話とデコーダから出力される入力発話の再構成物との間の再構成損失を使用してトレーニングされ得る。
【0007】
いくつかの付加的実装形態において、デコーダは、入力発話の言語的内容の潜在表現および異なる入力発話の発話様式の潜在表現を入力として受信することと、入力発話によって指定される言語的内容情報および異なる入力発話によって指定される発話様式情報を含む出力発話を出力として生成することとを行うように構成される。コンテンツエンコーダおよびスタイルエンコーダは、言語的内容の潜在表現および発話様式において取り込まれる相互情報量を最小化するために、相互情報損失を使用してトレーニングされ得る。
【0008】
本開示の別の態様は、データ処理ハードウェアで実行されるとき、入力発話を受信することと、入力発話を、コンテンツエンコーダを使用して処理して、入力発話の言語的内容の潜在表現を生成することとを含む動作をデータ処理ハードウェアに実行させる、コンピュータ実施方法を提供する。コンテンツエンコーダは、言語的内容の潜在表現から発話様式情報をディスエンタングルするようにトレーニングされる。動作はまた、同じまたは異なる入力発話を、スタイルエンコーダを使用して処理して、同じまたは異なる入力発話の発話様式の潜在表現を生成することと、入力発話の言語的内容の潜在表現および同じまたは異なる入力発話の発話様式の潜在表現を、デコーダを使用して処理して、出力発話を生成することとを含む。スタイルエンコーダは、発話様式の潜在表現から言語的内容情報をディスエンタングルするようにトレーニングされる。
【0009】
本態様は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態において、入力発話を処理して言語的内容の潜在表現を生成することは、入力発話を処理して、入力発話における発話様式の変動を破棄する言語的内容の個別の時間ステップごとの潜在表現として言語的内容の潜在表現を生成することを含む。コンテンツエンコーダは、入力発話を入力として受信し、言語的内容の初期の個別の時間ステップごとの潜在表現を生成するように構成された1つまたは複数の畳み込み層と、言語的内容のそれぞれの初期の個別の時間ステップごとの潜在表現に直線状勾配を有した情報ボトルネックを適用して、入力発話からの言語的内容を表す一連の潜在変数として言語的内容の潜在表現を生成するように構成されたベクトル量子化(VQ)層とを含み得る。ここで、コンテンツエンコーダは、各時間ステップについて生成された言語的内容の潜在表現に基づく内容VQ損失を使用してトレーニングされ得、それによって、VQ損失は、出力と最近傍コードブックとの間の距離を最小化するようにコンテンツエンコーダを促す。
【0010】
いくつかの例では、スタイルエンコーダは、入力発話を入力として受信するように構成された1つまたは複数の畳み込み層と、時間軸にわたるグローバル平均プーリング演算によって1つまたは複数の畳み込み層から出力を要約して、発話様式の潜在表現に対応するグローバル潜在スタイル変数を抽出するように構成された、ガウス事後確率を有する変分層とを含む。これらの例では、動作は、トレーニング中に、スタイルエンコーダによって予測されるスタイル潜在変数の平均および分散からグローバルスタイル潜在変数をサンプリングすることと、推論中に、スタイルエンコーダによって予測されるグローバル潜在スタイル変数の平均からグローバルスタイル潜在変数をサンプリングすることとをさらに含み得る。追加でまたは別法として、スタイルエンコーダは、スタイルエンコーダによって予測されるスタイル潜在変数の平均および分散に基づいて、スタイル正則化損失を使用してトレーニングされ得、そこで、スタイルエンコーダは、スタイル正則化損失を使用して、単位ガウス事前確率とガウス事後確率との間のカルバック・ライブラ(KL)情報量を最小化する。
【0011】
いくつかの実装形態において、デコーダは、入力発話の言語的内容の潜在表現および同じ入力発話の発話様式の潜在表現を入力として受信することと、入力発話の再構成物を含む出力発話を出力として生成することとを行うように構成される。モデルは、入力発話とデコーダから出力される入力発話の再構成物との間の再構成損失を使用してトレーニングされ得る。
【0012】
いくつかの付加的実装形態において、デコーダは、入力発話の言語的内容の潜在表現および異なる入力発話の発話様式の潜在表現を入力として受信することと、入力発話によって指定される言語的内容情報および異なる入力発話によって指定される発話様式情報を含む出力発話を出力として生成することとを行うように構成される。コンテンツエンコーダおよびスタイルエンコーダは、言語的内容および発話様式の潜在表現で取り込まれる相互情報量を最小化するために、相互情報損失を使用してトレーニングされ得る。
【0013】
本開示の1つまたは複数の実装形態の詳細が、添付の図面および後述において明記される。他の態様、特徴、および利点が、記述および図面から、ならびに特許請求の範囲から、明らかとなろう。
【図面の簡単な説明】
【0014】
【
図1】入力発話からの言語的内容および発話様式の潜在表現をディスエンタングルするための例示的システムの概略図である。
【
図2】スタイルエンコーダ、コンテンツエンコーダ、およびデコーダを含む、言語的内容および発話様式のディスエンタングルモデルの概略図である。
【
図3】様々なコードブックサイズの内容話者IDおよびスタイル話者IDと比較した上位kまでの話者精度のプロットを示す図である。
【
図4A】
図1および
図2の言語的内容および発話様式のディスエンタングルモデルからスタイルエンコーダを実装する例示的話者認識モデルの概略図である。
【
図4B】
図1および
図2の言語的内容および発話様式のディスエンタングルモデルからコンテンツエンコーダを実装する例示的発話認識モデルの概略図である。
【
図5】出力発話を生成するための動作の例示的構成の流れ図である。
【
図6】本明細書に記載のシステムおよび方法を実装するために使用され得る例示的計算デバイスの概略図である。
【発明を実施するための形態】
【0015】
様々な図面における類似の参照記号は、類似の要素を示す。
【0016】
音声波形は、言語的内容(たとえば、音素)と発話様式とに広く分類することができるいくつかの基礎要因の影響を受ける、複雑な高次元形態のデータである。発話からの言語的内容および発話様式のディスエンタングルされた潜在表現を学習することは、発話合成、データ拡大、音声転送、および音声圧縮を含む、生成タスクにおける広範な応用を有する。発話から潜在表現をディスエンタングルすることはまた、自動発話認識および話者分類などの下流タスクに有用であり得る。
【0017】
発話の教師なし潜在表現学習の技法は、ラベル付きの発話データを収集することに関するコスト、複雑さ、およびプライバシに関する懸念から、関心を集めている。特に、教師なしデータからの発話様式の潜在表現の学習は、人のラベルで発話の韻律を記述することが本質的にできないことにより、特に関心を集めている。韻律ラベルを有さない発話から埋め込む辞書からのグローバルスタイルトークンの学習は、全発話シーケンスからグローバル表現を学習する能力を提供する。さらに、細粒度のローカライズされた発話表現は、ラベルのない発話データに自己教師あり学習を適用することと、発話認識のために微調整され得るローカライズされた潜在表現を抽出することとによって学習され得る。
【0018】
本明細書に記載の実装形態は、グローバル表現とローカライズされた表現との両方を学習することによる発話の教師なし表現学習に向けられる。具体的には、実装形態は、コンテンツエンコーダ、スタイルエンコーダ、およびデコーダを含む、オートエンコーダモデルを使用して、発話からの言語的内容および発話様式の潜在表現をディスエンタングルすることに向けられる。オートエンコーダモデルは、言語的内容および発話様式のディスエンタングルモデルと同義で参照され得る。コンテンツエンコーダは、入力発話からの言語的内容を取り込む個別の時間ステップごとの(たとえば、フレームごとの)潜在表現を学習するように構成されたベクトル量子化(VQ)層を有するローカルエンコーダに関連しており、一方、スタイルエンコーダは、入力発話から発話様式を取り込む発言ごとの潜在表現を抽出するように構成された変分オートエンコーダ(VAE: variational autoencoder)と関連している。トレーニング中に、デコーダは、コンテンツおよびスタイルエンコーダから出力された言語的内容および発話様式の潜在表現を使用して、コンテンツおよびスタイルエンコーダへの入力発話サンプルを再構成する。推論中に、デコーダは、第1の発話サンプルから抽出された言語的内容の潜在表現と、異なる第2の発話サンプルから抽出された発話様式の潜在表現とを結合することによって、新しい発話特徴を生成することができる。
【0019】
付加的実装形態において、コンテンツおよびスタイルエンコーダから出力される言語的内容および発話様式の潜在表現からの相互情報量を最小化するために、相互情報損失がコンテンツおよびスタイルエンコーダに適用される。明らかであるように、それぞれの出力において抽出相互情報量を最小化するようにコンテンツおよびスタイルエンコーダをトレーニングすることはさらに、言語的内容の潜在表現(たとえば、ローカル表現)および発話様式の潜在表現(たとえば、グローバル表現)を発話からディスエンタングルする。
【0020】
オートエンコーダモデルは、コンテンツエンコーダ、スタイルエンコーダ130、およびデコーダを含む。デコーダは、内容およびスタイルの両方の潜在表現を入力として受信すると共に、発話特徴を出力として生成するように構成される。すなわち、デコーダは、入力発話を出力発話特徴として再構成するように構成される。一部の応用例の際には、トレーニングされたオートエンコーダモデルは、デコーダの使用を省くことができる。
【0021】
図1は、言語的内容120および発話様式140の潜在表現を入力発話102からディスエンタングルするようにオートエンコーダモデル(たとえば、言語的内容および発話様式のディスエンタングルモデル)100をトレーニングするための例示的システム10を示す。入力発話102は、一連の発話特徴を含み得る。いくつかの例では、入力発話102を表す一連の発話特徴は、ログ・メル・フィルタバンク特徴を含む。システム10は、計算システム20を含み、計算システム20は、データ処理ハードウェア22と、データ処理ハードウェア22と通信し、データ処理ハードウェア22に動作を実行させる命令を記憶するメモリハードウェア24とを有する。いくつかの実装形態において、計算システム20(たとえば、データ処理ハードウェア22)は、1人または複数の異なる話者によって話された発言に対応する入力発話102の複数のサンプルでオートエンコーダモデル100をトレーニングするためのトレーニングプロセスを実行する。トレーニングプロセスは、入力発話102から抽出されたおよび対応する発話特徴152を生成するために結合された言語的内容120および発話様式140の潜在表現を復号することによって、入力発話102の各サンプルを再構成することを目指す。トレーニングプロセスは、メモリハードウェア24にあるデータストレージ185に、入力発話102および対応する出力発話特徴152の各サンプルから抽出された言語的内容120および発話様式140の潜在表現を記憶することができる。
【0022】
推論中に、計算システム20(たとえば、データ処理ハードウェア22)またはユーザ計算デバイス(図示せず)は、第1の発話サンプル50、50aから抽出されたおよび第2の発話サンプル50、50bから抽出された発話様式を有する言語的内容を伝搬する合成された発話として新しい発話特徴152を生成するために、コンテンツエンコーダ110、スタイルエンコーダ130、およびデコーダ150を含むトレーニングされたオートエンコーダモデル100を実行する。ここで、コンテンツエンコーダ110は、第1の話者によって話された第1の発話サンプル50aから言語的内容120の時間ステップごとの潜在表現を予測するように構成され、一方、スタイルエンコーダ130は、異なる話者によって話された異なる第2の発話サンプル50bから発話様式140の発言ごとの潜在表現を抽出するように構成された変分オートエンコーダ(VAE)に関連している。特に、異なる話者によって話された第1のおよび第2の発話サンプル50a、50bは、異なる言語的内容を含むことがあり得、第1の話者および第2の話者は、異なる発話様式(たとえば、韻律/アクセント)で話すことがあり得る。このシナリオでは、トレーニングされたオートエンコーダモデル100は、音声転送の応用例において使用する(たとえば、「それをこのように述べよ」)ために適合され、そこでは、合成された発話として生成された新しい発話特徴152は、第1の話者によって、しかし第2の話者の音声および発話様式で、話された第1の発話サンプル50aの言語的内容を保存する。いくつかの例では、第1の発話サンプル50aは、第2の発話サンプル50bとは異なる言語で話される。トレーニングされたオートエンコーダモデル100は、データ拡大の応用例において同様に適用され得、そこでは、発話様式140の潜在表現は、同じ言語的内容の合成された発話の異なる拡大を伝達するデコーダ150から新しい発話特徴152を生み出すために、異なるユーザによって話されたおよび異なる発話様式を伝達する発話サンプルから抽出される。
【0023】
デコーダ150は、コンテンツエンコーダ110によって出力された言語的内容120の潜在表現およびスタイルエンコーダ130によって出力された発話様式140の潜在表現を結合することによって出力として発話特徴152を生成するように構成される。出力190は、出力発話特徴152をデコーダ150から受信することができる。出力190は、出力発話特徴152でトレーニングされた発話認識モデルまたは話者識別モデルを含み得る。任意選択で、出力190は、発話特徴152を受信せず、代わりに、コンテンツおよびスタイルエンコーダ110、130からそれぞれに言語的内容120および発話様式140の潜在表現を受信することができる。
【0024】
図2は、入力発話102、
【数1】
からの言語的内容120および発話様式140の潜在表現をディスエンタングルするためのオートエンコーダモデル100の一例を示す。オートエンコーダモデルは、コンテンツエンコーダ110、スタイルエンコーダ130、およびデコーダ150を含む。デコーダ150は、内容およびスタイル120、140の両方の潜在表現を入力として受信し、発話特徴152を出力として生成するように構成される。一部の応用例の際は、トレーニングされたオートエンコーダモデル100は、デコーダ150の使用を省くことができる。
【0025】
コンテンツエンコーダ110は、1つまたは複数の畳み込み層112およびベクトル量子化(VQ)層114を有するニューラルネットワークを含み得る。いくつかの例では、コンテンツエンコーダ110は、残差接続を有する10個の1次元畳み込み層を含む。最終的出力長を半分に(たとえば、TからT/2に)に減らすために、2の時間ストライドが、第3の畳み込み層において適用され得る。コンテンツエンコーダ110の1つまたは複数の畳み込み層112は、入力発話102を受信して発話102から初期潜在表現113を生成し、VQ層114は、初期潜在表現113に直線状の勾配を有した情報ボトルネックを適用して、必要なローカライズされた情報、たとえば、音素または部分語様の潜在表現、を取り込み、発話様式の変動を破棄する。したがって、VQ層114は、入力発話102からの言語的内容を表す一連の潜在変数、
【数2】
を抽出する。したがって、コンテンツエンコーダ110は、入力発話102における発話様式の変動を破棄するか、または他の方法でそれからディスエンタングルされる、個別の時間ステップごとの(たとえば、フレームごとの)言語的内容120の潜在表現(c
1、...、c
T)を予測することを学習するようにトレーニングされる。
【0026】
いくつかの実装形態において、トレーニング中に、VQ損失モジュール122は、各時間ステップについて予測された言語的内容120の潜在表現に基づいて、コンテンツエンコーダ110の内容VQ損失124を決定する。内容VQ損失124は、それ自体と最近傍コードブックEiとの間の距離を最小化するようにコンテンツエンコーダ出力zを促す。VQ損失モジュール122は、以下の式を使用して、内容VQ損失124を決定することができる。
【0027】
【0028】
ここで、sg(・)は、停止勾配演算を示す。内容VQ損失124は、連続データ点をクラスタ化すると共にクラスタの近くに他のデータ点を移動するようにモデルが促されるクラスタリング損失に類似する、自己教師あり損失に対応する。
【0029】
スタイルエンコーダ130は、1つまたは複数の畳み込み層132、および時間軸にわたるグローバル平均プーリング演算によって畳み込み層132からの出力を要約するように構成されたガウス事後確率を有する変分層134を有するニューラルネットワークを含み得る。いくつかの例では、スタイルエンコーダ130は、3つの異なる層に対して時間ストライド2と共に6つの残差1次元畳み込み層を使用して入力発話102を処理し、それにより8xの時間長の減少をもたらす。グローバル平均プーリング演算は、入力発話102から発話様式140を表すグローバル潜在スタイル変数、
【数4】
を抽出する。トレーニング中に、発話様式140の潜在表現に対応するグローバル潜在スタイル変数が、以下のようにサンプリングされる。
【0030】
【0031】
ここで、S
μは、スタイルエンコーダ130によって予測されたスタイル変数の平均を示し、
【数6】
は、スタイルエンコーダによって予測されたスタイル変数の分散を示す。推論中に、グローバル潜在スタイル変数sは、単純に、入力発話102からスタイルエンコーダ130によって予測されたスタイル変数S
μの平均に対応し得る。したがって、スタイルエンコーダ130は、入力発話102内の言語的内容120からディスエンタングルされた発話様式140の発言ごとの潜在表現を抽出することを学習するようにトレーニングされる。
【0032】
トレーニング中に、スタイル損失モジュール142は、スタイルエンコーダ130によって予測されたスタイル変数の平均S
μおよび分散
【数7】
に基づいて、スタイル正則化損失144、L
KL、を決定することができる。スタイルエンコーダ130は、スタイル正則化損失144を使用して単位ガウス事前確率N(0.1)とガウス事後確率
【数8】
との間のカルバック・ライブラ(KL)情報量を最小化する。スタイル損失モジュール142は、以下の式を使用して、スタイル正則化損失144を決定することができる。
【0033】
【0034】
いくつかの実装形態において、デコーダ150は、トレーニング中に、それぞれ、コンテンツおよびスタイルエンコーダ110、130から出力された言語的内容および発話様式120、140の潜在表現の両方を入力として受信し、特徴152、
【数10】
、を再構成するように構成される。トレーニング中に、再構成損失モジュール160は、グラウンドトゥルースの役割を果たす入力発話102、X、とモデル100を最適化する際に使用するための再構成された発話152、
【数11】
との間の再構成損失162を生成して、Xと
【数12】
との間のL1およびL2ノルム平方距離を最小にする。いくつかの構成において、デコーダ150は、第{1,3,5,7}層でチャネル軸において発話様式140の潜在表現、s、を連結させることによって残差接続供給発話様式情報を有する10個の1次元畳み込み層を含む。
【0035】
コンテンツエンコーダ110およびスタイルエンコーダ130が、互いにディスエンタングルされた言語的内容120および発話様式140のそれぞれの潜在表現を予測するために、それぞれ最適化される間に、入力発話102からの言語的内容120を表す量子化された変数c1、...、cTは、発話様式情報など、内容でない情報を本質的に取り込むことができる。トレーニング中に明示的ラベルを使用せずに、モデル100は、コンテンツおよびスタイルエンコーダ110、130から出力された言語的内容(c1、...、cT)120および発話様式140(s)のそれぞれの潜在表現から最小化相互情報量(MI)を推定することができる。したがって、エンコーダ出力の間の相互関係の量を減らすために相互情報量を最小化することは、言語的内容および発話様式のローカルおよびグローバル表現をさらにディスエンタングルするために、モデル100を最適化する。
【0036】
いくつかの実装形態において、2つのエンコーダ出力の間の相互情報量を測定するために、ノイズ対比的推定(INCE)に基づく損失が、以下のように、内容とスタイルとの間の下界MIを推定するために使用される。
【0037】
【0038】
ここで、Kは、異なる発言にわたるサンプルの数であり、Sc(・,・)は、ニューラルネットワークスコアラであり、Ciは、量子化の前のコンテンツエンコーダ110からの初期潜在表現であり、Siは、スタイルエンコーダ130から出力された発話様式140の潜在表現である。
【0039】
その後、I
NCEは、Scに関して最大化され、I
NCEは、以下の式を使用してモデル100の最終的損失
【数14】
に関して最小化される。
【0040】
【0041】
モデル100の最終的損失
【数16】
は、内容VQ損失124、theスタイル正則化損失144、および再構成損失162の結合された和
【数17】
に基づいて、決定され得る。最終的に、MIを測定するために、適応勾配スケーリングが、以下のように各時間ステップにおいてモデルパラメータを更新することによって式(7)の損失を安定させるために適用される。
【0042】
【0043】
ローカルおよびグローバル表現をさらにディスエンタングルするために、相互情報損失が適用され得る。特に、グローバルVAEによって取り込まれるグローバルスタイル表現は、話者分類モデルを取得するためにグローバルスタイル表現の上で線形投影層をトレーニングすることを可能にするために、1話者につき1つのみの例から十分な話者情報を提供する。
【0044】
実験は、コンテンツエンコーダ110のVQ-VAEコードブックサイズを増やすことが、入力発話102からの言語的内容を保存するためにモデル100を最適化することを示している。また、コンテンツおよびスタイルエンコーダ110、130によって取り込まれる相互情報量を最小化するために相互情報損失を適用することはさらに、言語的内容保存を改良する。モデル100が発話をどれほどよく圧縮するかを測定するために最適化された、第1の非シャッフルシナリオにおいて、コンテンツおよびスタイルエンコーダ110、130は、同じ入力発話102、X
i、をそれぞれ受信し、そして、デコーダ150は、入力発話の再構成物に対応する発話特徴152、
【数19】
、を予測する。VQ-VAEコードブックによって言語的内容の保存を測定するために最適化された第2のシャッフルシナリオにおいて、コンテンツエンコーダ110は、入力発話X
iを受信し、スタイルエンコーダ130は、異なる入力発話102、X
j、を受信し、デコーダ150は、発話特徴152、
【数20】
、を予測して、発話特徴
【数21】
が最初の発話Xiの言語的内容をどれほどよく保存するかを決定する。入力発話からの最初の言語的内容と比較してデコーダによって出力された予測された発話特徴がどれほど良いかを評価するために、自動発話認識器は、予測された発話特徴
【数22】
を書き起こし、ワードエラー率が、コンテンツエンコーダ110に供給された最初の入力発話X
iのグラウンドトゥルーステキストでの書き起こしのために計算される。以下の表1は、相互情報損失を有するおよび有さない、様々に異なるコードブックサイズを有するシャッフルおよび非シャッフルシナリオの両方について計算されたワードエラー率を示す。
【0045】
【0046】
実験はさらに、スタイルエンコーダが入力発話102から最初の発話様式をどれほどよく抽出および保存するかを測定する。これらの実験では、コンテンツおよびスタイルエンコーダ110、130は、異なる入力発話X
i、X
jを受信し、デコーダ150は、エンコーダ110、130から出力された言語的内容および発話様式130、140の潜在表現に基づいて、生成された発話に対応する発話特徴
【数23】
を予測する。生成された発話と異なる入力発話X
i、X
jとの間の話者類似性を評価するために、話者認識モデルが、入力発話X
i、X
jのグラウンドトゥルース話者ラベルを使用してトレーニングされ、ソフトマックス出力がデコーダ150によって出力された予測された発話特徴
【数24】
に関して予測される。ソフトマックス出力予測は、スタイルエンコーダ130に供給された入力発話X
jに関するグラウンドトゥルース話者と比較した平均ランキング、上位1、上位3、および上位5の精度などのメトリクスを計算するために使用される。
図3は、MI損失でトレーニングされたモデルの様々なコードブックサイズの内容(SRC)話者IDおよびスタイル(TGT)話者IDと比較した上位kの話者精度のプロット300を示す。プロット300は、生成された発話が、コンテンツエンコーダ110に供給された入力発話X
iよりスタイルエンコーダ130に供給された入力発話X
jにはるかに近い話者スタイルを取り込んだ、ということを示す。以下の表2はまた、MI損失の適用を有するおよび有さない、様々に異なるコードブックサイズのスタイルエンコーダ130に供給された入力発話X
jについて、話者スタイル精度がどのように変化するかを示す。具体的には、表2は、スタイルおよび内容情報は、コードブックサイズが増すにつれて、よりディスエンタングルされ、その一方で、MI損失の適用は、特により小さいコードブックサイズについて、ディスエンタングルを改良する、ということを示す。したがって、表1および表2は、コードブックサイズを考慮するときの内容再構成とスタイルのディスエンタングルとの間のトレードオフを明らかにする。
【0047】
【0048】
言語的内容および発話様式のディスエンタングルされた潜在表現を発話から学習するようにモデル100をトレーニングした後、トレーニングされたモデル100は、発話合成、データ拡大、音声転送、および音声圧縮を含む、生成タスクにおける広範な応用例において使用され得る。これらの潜在表現を発話からディスエンタングルするためのトレーニングされたモデル100の能力はまた、自動発話認識および/または話者認識/分類モデルのトレーニングなどの下流タスクに有用であり得る。一般に、トレーニングされたモデル100は、エンコーダのみの適用およびエンコーダ-デコーダの適用、の2つのグループの適用において使用され得る。エンコーダ-デコーダの適用、たとえば、音声転送の応用例およびデータ拡大の応用例、については、
図1を参照して前述した。
【0049】
図4Aは、話者認識タスクのための話者認識モデル400としてトレーニング済みスタイルエンコーダ130を使用することを含む、注目すべきエンコーダのみの適用例を示す。ここでは、トレーニングされたスタイルエンコーダ130は、1人または複数の話者によって話された発言に対応する入力発話を含む大量のラベルなしデータでスタイルエンコーダ130を事前にトレーニングすることによって、話者認識の応用例に適する。次いで、少量のラベル付きデータが、少ショットの話者認識タスクを実行するために、事前にトレーニングされたスタイルエンコーダを微調整する。ラベル付きデータは、「1ショット」および「3ショット」と称される、1話者あたりの発話例402の数を変化させ得る。話者認識タスクについて、線形投影層(たとえば、ソフトマックス層)は、所与の入力発話のスタイルエンコーダ130から出力された発話様式140の潜在表現に基づいて話者分類のロジットを計算するために、スタイルエンコーダの上に置かれる。微調整時、すべてのパラメータは、投影層を除いて凍結される。スタイルエンコーダ130および投影層450は、話者認識モデル400を形成することができる。話者認識モデル400aは、これらに制限されないが、異なる話者の検出(たとえば、ダイアライゼーション)、話者IDの計算、および/または登録/検証のための音声マッチングなどの、種々の話者認識タスクの実行のために使用され得る。
【0050】
図4Bは、入力発話402の発話認識結果を生成するための発話認識モデル400bとしてトレーニング済みコンテンツエンコーダ110を使用することを含む、別のエンコーダのみの適用例を示す。コンテンツエンコーダ110は、言語的内容120の潜在表現を使用することおよび教師なしデータを活用することによって自動発話認識(ASR)トレーニングのブートストラップにおいて使用するためのローカル情報を提供するために言語的内容120の潜在表現を抽出するために、活用され得る。示された例において、ニューラルネットワーク470は、発話認識モデル400bを提供するためにコンテンツエンコーダ110の上に置かれる。いくつかの実装形態において、コンテンツエンコーダ110およびニューラルネットワーク470は、入力発話例402および対応する書き起こしのラベル付きデータを使用して、再トレーニングされる。この構成では、コンテンツエンコーダ110は、発話認識精度を改善するために発話からの言語的内容をエンコードするための特徴抽出器として機能する。
【0051】
注目すべきエンコーダ-デコーダの応用例は、音声転送の応用例(たとえば、「Say it like this」)およびデータ拡大の応用例を含む。典型的な音声転送の応用例において、コンテンツエンコーダ110は、第1の話者から発話を受信し、スタイルエンコーダ130は、第2の話者から異なる発話を受信することになる。第1の話者および第2の話者によって話された発話は、異なる内容を含み得る。このシナリオでは、デコーダ150は、第1の話者から、しかし第2の話者の音声で、発話の言語的内容を伝達する合成された発話表現を生成することができる。すなわち、デコーダ150は、第1の話者からの発話のコンテンツエンコーダ110によってエンコードされた言語的内容120の潜在表現と第2の話者からの発話のスタイルエンコーダ130によってエンコードされた発話様式140の潜在表現とを入力として受信し、第1の話者からの発話の言語的内容および第2の話者の発話様式を保存する合成発話を出力として生成する。データ拡大の応用例において、発話様式の潜在表現は、同じ言語的内容のデコーダからの合成発話の異なる拡大を生み出すように、変えられ得る。
【0052】
図5は、出力発話を生成する方法500の動作の例示的構成の流れ図である。データ処理ハードウェア22は、方法500の動作をデータ処理ハードウェアに実行させるために、メモリハードウェア24に記憶された命令を実行することができる。動作502で、方法500は、入力発話102を受信することを含み、動作504において、方法500は、入力発話102を、コンテンツエンコーダ110を使用して処理して、入力発話102の言語的内容120の潜在表現を生成することを含む。コンテンツエンコーダ110は、言語的内容120の潜在表現から発話様式情報をディスエンタングルするようにトレーニングされる。
【0053】
動作506で、方法500は、同じまたは異なる入力発話を、スタイルエンコーダ130を使用して処理して、同じまたは異なる発話の発話様式140の潜在表現を生成することを含む。スタイルエンコーダ130は、発話様式140の潜在表現から言語的内容情報をディスエンタングルするようにトレーニングされる。動作508において、方法500は、入力発話102の言語的内容120の潜在表現および同じまたは異なる発話の発話様式140の潜在表現を、デコーダ150を使用して処理して、出力発話を生成することを含む。
【0054】
ソフトウェアアプリケーション(すなわち、ソフトウェア資源)は、計算デバイスにタスクを実行させるコンピュータソフトウェアを指し得る。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と称され得る。例示的アプリケーションには、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションが含まれるが、これらに制限されない。
【0055】
非一時メモリは、計算デバイスによって使用するために一時的または恒久的にプログラム(たとえば、一連の命令)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスでもよい。非一時メモリは、揮発性および/または不揮発性アドレス可能半導体メモリでもよい。不揮発性メモリの例としては、これらに制限されないが、フラッシュメモリおよびリードオンリメモリ(ROM)/プログラマブルリードオンリメモリ(PROM)/消去可能プログラマブルリードオンリメモリ(EPROM)/電子的消去可能プログラマブルリードオンリメモリ(EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェアのために使用される)が挙げられる。揮発性メモリの例としては、これらに制限されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM)ならびにディスクまたはテープが挙げられる。
【0056】
図6は、本文書に記載のシステムおよび方法を実装するために使用され得る例示的計算デバイス600の概略図である。計算デバイス600は、様々な形のデジタルコンピュータ、たとえば、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ、を表すよう意図されている。ここに示された構成要素、それらの接続および関係、ならびにそれらの機能は、単に例示であり、本文書で説明および/または請求される発明の実装形態を制限することは意図されていない。
【0057】
計算デバイス600は、プロセッサ610、メモリ620、ストレージデバイス630、メモリ620および高速拡張ポート650に接続する高速インターフェース/コントローラ640、ならびに、低速バス670およびストレージデバイス630に接続する低速インターフェース/コントローラ660を含む。構成要素610、620、630、640、650、および660のそれぞれは、様々なバスを使用して、相互に接続され、必要に応じて共通のマザーボードにまたは他の方式で搭載され得る。プロセッサ610は、外部入力/出力デバイス、たとえば、高速インターフェース640に連結されたディスプレイ680、のグラフィカルユーザインターフェース(GUI)のためのグラフィカル情報を表示するために、メモリ620にまたはストレージデバイス630に記憶された命令を含む、計算デバイス600内で実行するための命令を処理することができる。他の実装形態において、複数のプロセッサおよび/または複数のバスが、複数のメモリおよびメモリのタイプと共に、必要に応じて、使用され得る。また、複数の計算デバイス600が、必要な動作の部分を提供する各デバイス(たとえば、サーババンク、ブレードサーバのグループ、または、マルチプロセッサシステムのような)と接続され得る。
【0058】
メモリ620は、計算デバイス600内に非一時的に情報を記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットでもよい。非一時メモリ620は、計算デバイス600によって使用するために一時的または恒久的にプログラム(たとえば、一連の命令)またはデータ(たとえば、プログラム状態情報)を記憶するために使用される物理デバイスでもよい。不揮発性メモリの例としては、これらに制限されないが、フラッシュメモリおよびリードオンリメモリ(ROM)/プログラマブルリードオンリメモリ(PROM)/消去可能プログラマブルリードオンリメモリ(EPROM)/電子的消去可能プログラマブルリードオンリメモリ(EEPROM)(たとえば、通常はファームウェア、たとえば、ブートプログラム、のために使用される)が挙げられる。揮発性メモリの例としては、これらに制限されないが、ランダムアクセスメモリ(RAM)、ダイナミックランダムアクセスメモリ(DRAM)、スタティックランダムアクセスメモリ(SRAM)、相変化メモリ(PCM: phase change memory)ならびにディスクまたはテープが挙げられる。
【0059】
ストレージデバイス630は、計算デバイス600のためのマスストレージを提供する能力を有する。いくつかの実装形態において、ストレージデバイス630は、コンピュータ可読媒体である。様々な異なる実装形態において、ストレージデバイス630は、フロッピディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の類似のソリッドステートメモリデバイス、あるいは、ストレージエリアネットワークまたは他の構成内のデバイスを含む、デバイスのアレイでもよい。付加的実装形態において、コンピュータプログラム製品は、情報キャリアにおいて有形に実施される。コンピュータプログラム製品は、実行されるとき、1つまたは複数の方法、たとえば、前述の方法、を実行する命令を含む。情報キャリアは、コンピュータまたは機械可読媒体、たとえば、メモリ620、ストレージデバイス630、または、プロセッサ610のメモリ、である。
【0060】
高速コントローラ640は、計算デバイス600の帯域幅集約型動作を管理し、その一方で、低速コントローラ660は、より帯域幅集約でない動作を管理する。任務のそのような割り当ては、単に例示である。いくつかの実装形態において、高速コントローラ640は、メモリ620に、ディスプレイ680(たとえば、グラフィックスプロセッサまたはアクセラレータを介して)に、および、様々な拡張カード(図示せず)を受け入れることができる、高速拡張ポート650に連結される。いくつかの実装形態において、低速コントローラ660は、ストレージデバイス630および低速拡張ポート690に連結される。様々な通信ポート(たとえば、USB、ブルートゥース(登録商標)、イーサネット、ワイヤレスイーサネット)を含み得る、低速拡張ポート690は、1つまたは複数の入力/出力デバイス、たとえば、キーボード、ポインティングデバイス、スキャナ、に、または、たとえば、ネットワークアダプタを介して、スイッチもしくはルータなどのネットワーキングデバイスに、連結され得る。
【0061】
計算デバイス600は、図に示すように、いくつかの異なる形で実装され得る。たとえば、計算デバイス600は、標準サーバ600aとしてまたはそのようなサーバ600aのグループにおいて複数回ラップトップコンピュータ600bとして、あるいはラックサーバシステム600cの一部として、実装され得る。
【0062】
本明細書に記載のシステムおよび技法の様々な実装形態は、デジタル電子および/または光回路構成要素、集積回路構成要素、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、および/または、その組合せにおいて実現され得る。これらの様々な実装形態は、データおよび命令をストレージシステム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスから受信するために、ならびにデータおよび命令をそれらに送信するために連結された、専用または汎用でもよい、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステムで実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装形態を含み得る。
【0063】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラマブルプロセッサの機械命令を含み、ハイレベルな手続き型および/またはオブジェクト指向プログラミング言語において、および/またはアセンブリ/機械言語において、実装され得る。本明細書では、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を含む、プログラマブルプロセッサに機械命令および/またはデータを提供するために使用される、任意のコンピュータプログラム製品、非一時コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(PLD))を指す。「機械可読信号」という用語は、機械命令および/またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。
【0064】
本明細書に記載のプロセスおよび論理の流れは、入力データで動作することおよび出力を生成することによって機能を実行するために1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも称される、1つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理の流れはまた、専用論理回路構成要素、たとえば、FPGA(フィールドプログラマブルゲートアレイ)またはASIC(特定用途向け集積回路)、によって実行され得る。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用の両方のマイクロプロセッサと任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサとを含む。一般に、プロセッサは、リードオンリメモリまたはランダムアクセスメモリあるいはその両方から命令およびデータを受信することになる。コンピュータの必須要素は、命令を実行するためのプロセッサと、命令およびデータを記憶するための1つまたは複数のメモリデバイスとである。一般に、コンピュータはまた、データを記憶するための1つまたは複数のマスストレージデバイス、たとえば、磁気ディスク、光磁気ディスク、または光ディスク、を含む、あるいは、そのようなマスストレージデバイスからデータを受信するためにまたはそれにデータを転送するために、またはその両方のために、動作可能に連結されることになる。しかしながら、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイス、と、磁気ディスク、たとえば、内部ハードディスクもしくは取り外し可能ディスク、と、光磁気ディスクと、CD ROMおよびDVD-ROMディスクとを含む、すべての形の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、専用論理回路構成要素によって補完され得る、またはそれに組み込まれ得る。
【0065】
ユーザとの対話を提供するために、本開示の1つまたは複数の態様は、ユーザに対して情報を表示するための表示デバイス、たとえば、CRT(ブラウン管)、LCD(液晶ディスプレイ)モニタ、またはタッチ画面、と、任意選択で、それによってユーザが入力をコンピュータに提供することができる、キーボードおよびポインティングデバイス、たとえば、マウスもしくはトラックボール、とを有する、コンピュータ上で実装され得る。他の種類のデバイスが、同様にユーザとの対話を提供するために使用され得、たとえば、ユーザに提供されるフィードバックは、任意の形の知覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック、になり得、そして、ユーザからの入力は、音響、発話、または触覚入力を含む、任意の形で受信され得る。加えて、コンピュータは、ユーザが使用するデバイスに文書を送信し、そのようなデバイスから文書を受信することによって、たとえば、ウェブブラウザから受信される要求に応答してユーザのクライアントデバイスでウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
【0066】
いくつかの実装形態が記述された。しかしながら、本開示の精神および範囲を逸脱せずに様々な修正が行われ得るということが理解されよう。したがって、他の実装形態が、次の特許請求の範囲の範囲内にある。
【符号の説明】
【0067】
10 システム
20 計算システム
22 データ処理ハードウェア
24 メモリハードウェア
50,50a 第1の発話サンプル
50,50b 第2の発話サンプル
100 オートエンコーダモデル
102 発話
110 コンテンツエンコーダ
112 畳み込み層
113 初期潜在表現
114 ベクトル量子化(VQ)層
120 言語的内容
122 VQ損失モジュール
124 内容VQ損失
130 スタイルエンコーダ
132 畳み込み層
134 変分層
140 発話様式
142 スタイル損失モジュール
144 スタイル正則化損失
150 デコーダ
152 発話特徴
160 再構成損失モジュール
162 再構成損失
185 データストレージ
190 出力
300 プロット
400 話者認識モデル
402 入力発話、発話例
450 投影層
470 ニューラルネットワーク
500 方法
600 計算デバイス
610 プロセッサ
620 メモリ
630 ストレージデバイス
640 高速インターフェース/コントローラ
650 高速拡張ポート
660 低速インターフェース/コントローラ
670 低速バス
680 ディスプレイ
690 低速拡張ポート
【手続補正書】
【提出日】2023-08-10
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
言語的内容(120)および発話様式(140)のディスエンタングルモデル(100)であって、
入力発話(102)を入力として受信し、
前記入力発話(102)の言語的内容(120)の潜在表現を出力として生成する
ように構成されたコンテンツエンコーダ(110)であって、言語的内容(120)の前記潜在表現から発話様式情報をディスエンタングルするようにトレーニングされた、コンテンツエンコーダ(110)と、
同じまたは異なる入力発話(102)を入力として受信し、
前記同じまたは異なる入力発話(102)の発話様式(140)の潜在表現を出力として生成する
ように構成されたスタイルエンコーダ(130)であって、発話様式(140)の前記潜在表現から言語的内容情報をディスエンタングルするようにトレーニングされた、スタイルエンコーダ(130)と、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じまたは異なる入力発話(102)の発話様式(140)の前記潜在表現に基づいて出力発話を生成するように構成されたデコーダ(150)と
を備える、モデル(100)。
【請求項2】
前記コンテンツエンコーダ(110)が、前記入力発話(102)における発話様式の変動を破棄する言語的内容(120)の個別の時間ステップごとの潜在表現として、言語的内容(120)の前記潜在表現を生成する、請求項1に記載のモデル(100)。
【請求項3】
前記コンテンツエンコーダ(110)が、
前記入力発話(102)を入力として受信し、前記言語的内容(120)の初期の個別の時間ステップごとの潜在表現を生成するように構成された1つまたは複数の畳み込み層(112)と、
前記言語的内容(120)のそれぞれの初期の個別の時間ステップごとの潜在表現に直線状勾配を有した情報ボトルネックを適用して、前記入力発話(102)の前記言語的内容(120)を表す一連の潜在変数として言語的内容(120)の前記潜在表現を生成するように構成されたベクトル量子化(VQ)層と
を含む、請求項1または2に記載のモデル(100)。
【請求項4】
前記コンテンツエンコーダ(110)が、各時間ステップについて生成された言語的内容(120)の前記潜在表現に基づく内容VQ損失(124)を使用してトレーニングされ、前記内容VQ損失(124)が、出力と最近傍コードブックとの間の距離を最小化するように前記コンテンツエンコーダ(110)を促す、請求項3に記載のモデル(100)。
【請求項5】
前記スタイルエンコーダ(130)が、
前記入力発話(102)を入力として受信するように構成された1つまたは複数の畳み込み層(132)と、
時間軸にわたるグローバル平均プーリング演算によって前記1つまたは複数の畳み込み層(132)からの出力を要約して、発話様式(140)の前記潜在表現に対応するグローバルスタイル潜在変数を抽出するように構成された、ガウス事後確率を有する変分層(134)と
を含む、請求項1から4のいずれか一項に記載のモデル(100)。
【請求項6】
トレーニング中に、前記グローバルスタイル潜在変数が、前記スタイルエンコーダ(130)によって予測されるスタイル潜在変数の平均および分散からサンプリングされ、
推論中に、前記グローバルスタイル潜在変数が、前記スタイルエンコーダ(130)によって予測される前記グローバルスタイル潜在変数の前記平均からサンプリングされる、
請求項5に記載のモデル(100)。
【請求項7】
前記スタイルエンコーダ(130)が、前記スタイルエンコーダ(130)によって予測されるスタイル潜在変数の平均および分散に基づくスタイル正則化損失(144)を使用してトレーニングされ、前記スタイルエンコーダ(130)が、前記スタイル正則化損失(144)を使用して、単位ガウス事前確率とガウス事後確率との間のカルバック・ライブラ(KL)情報量を最小化する、請求項5または6に記載のモデル(100)。
【請求項8】
前記デコーダ(150)が、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じ入力発話(102)の発話様式(140)の前記潜在表現を入力として受信し、
前記入力発話(102)の再構成物を含む前記出力発話を出力として生成する
ように構成される、請求項1から7のいずれか一項に記載のモデル(100)。
【請求項9】
前記モデル(100)が、前記入力発話(102)と前記デコーダ(150)から出力される前記入力発話(102)の前記再構成物との間の再構成損失(162)を使用してトレーニングされる、請求項8に記載のモデル(100)。
【請求項10】
前記デコーダ(150)が、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記異なる入力発話(102)の発話様式(140)の前記潜在表現を入力として受信し、
前記入力発話(102)によって指定される言語的内容情報および前記異なる入力発話(102)によって指定される発話様式情報を含む前記出力発話を出力として生成する
ように構成される、請求項1から9のいずれか一項に記載のモデル(100)。
【請求項11】
前記コンテンツエンコーダ(110)および前記スタイルエンコーダ(130)が、相互情報損失を使用して、言語的内容(120)の前記潜在表現および発話様式(140)の前記潜在表現において取り込まれる相互情報量を最小化するようにトレーニングされる、請求項1から10のいずれか一項に記載のモデル(100)。
【請求項12】
データ処理ハードウェア(22)によって実施される方法(500)であっ
て、
入力発話(102)を受信するステップと、
コンテンツエンコーダ(110)を使用して、前記入力発話(102)を処理して、前記入力発話(102)の言語的内容(120)の潜在表現を生成するステップであって、前記コンテンツエンコーダ(110)が、言語的内容(120)の前記潜在表現から発話様式情報をディスエンタングルするようにトレーニングされる、ステップと、
スタイルエンコーダ(130)を使用して、同じまたは異なる入力発話(102)を処理して、前記同じまたは異なる入力発話(102)の発話様式(140)の潜在表現を生成するステップであって、前記スタイルエンコーダ(130)が、発話様式(140)の前記潜在表現から言語的内容情報をディスエンタングルするようにトレーニングされる、ステップと、
デコーダ(150)を使用して、前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じまたは異なる入力発話(102)の発話様式(140)の前記潜在表現を処理して、出力発話を生成するステップと
を含む
、方法(500)。
【請求項13】
前記入力発話(102)を処理して、前記入力発話(102)の言語的内容(120)の前記潜在表現を生成するステップが、
前記入力発話(102)を処理して、前記入力発話(102)における発話様式の変動を破棄する言語的内容(120)の個別の時間ステップごとの潜在表現として、言語的内容(120)の前記潜在表現を生成するステップ
を含む、請求項12に記載
の方法(500)。
【請求項14】
前記コンテンツエンコーダ(110)が、
前記入力発話(102)を入力として受信し、前記言語的内容(120)の初期の個別の時間ステップごとの潜在表現を生成するように構成された1つまたは複数の畳み込み層(112)と、
前記言語的内容(120)のそれぞれの初期の個別の時間ステップごとの潜在表現に直線状勾配を有した情報ボトルネックを適用して、前記入力発話(102)の前記言語的内容(120)を表す一連の潜在変数として言語的内容(120)の前記潜在表現を生成するように構成されたベクトル量子化(VQ)層と
を含む、請求項12または13に記載
の方法(500)。
【請求項15】
前記コンテンツエンコーダ(110)が、各時間ステップについて生成された言語的内容(120)の前記潜在表現に基づく内容VQ損失(124)を使用してトレーニングされ、前記内容VQ損失(124)が、出力と最近傍コードブックとの間の距離を最小化するように前記コンテンツエンコーダ(110)を促す、請求項14に記載
の方法(500)。
【請求項16】
前記スタイルエンコーダ(130)が、
前記入力発話(102)を入力として受信するように構成された1つまたは複数の畳み込み層(132)と、
時間軸にわたるグローバル平均プーリング演算によって前記1つまたは複数の畳み込み層(132)からの出力を要約して、発話様式(140)の前記潜在表現に対応するグローバルスタイル潜在変数を抽出するように構成された、ガウス事後確率を有する変分層(134)と
を含む、請求項12から15のいずれか一項に記載
の方法(500)。
【請求項17】
トレーニング中に、前記スタイルエンコーダ(130)によって予測されるスタイル潜在変数の平均および分散から前記グローバルスタイル潜在変数をサンプリングするステップと、
推論中に、前記スタイルエンコーダ(130)によって予測される前記グローバルスタイル潜在変数の前記平均から前記グローバルスタイル潜在変数をサンプリングするステップと
をさらに含む、請求項16に記載
の方法(500)。
【請求項18】
前記スタイルエンコーダ(130)が、前記スタイルエンコーダ(130)によって予測されるスタイル潜在変数の平均および分散に基づくスタイル正則化損失(144)を使用してトレーニングされ、前記スタイルエンコーダ(130)が、前記スタイル正則化損失(144)を使用して、単位ガウス事前確率とガウス事後確率との間のカルバック・ライブラ(KL)情報量を最小化する、請求項16または17に記載
の方法(500)。
【請求項19】
前記デコーダ(150)が、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じ入力発話(102)の発話様式(140)の前記潜在表現を入力として受信し、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記同じ入力発話(102)の発話様式(140)の前記潜在表現を処理して、前記入力発話(102)の再構成物を含む前記出力発話を出力として生成する
ように構成される、請求項12から18のいずれか一項に記載
の方法(500)。
【請求項20】
前記入力発話(102)と前記デコーダ(150)から出力される前記入力発話(102)の前記再構成物との間の再構成損失(162)を使用して
、言語的内容(120)および発話様式(140)のディスエンタングルモデル(100)をトレーニング
するステップをさらに含む、請求項19に記載
の方法(500)。
【請求項21】
前記デコーダ(150)が、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記異なる入力発話(102)の発話様式(140)の前記潜在表現を入力として受信し、
前記入力発話(102)の言語的内容(120)の前記潜在表現および前記異なる入力発話(102)の発話様式(140)の前記潜在表現を処理して、前記入力発話(102)によって指定される言語的内容情報および前記異なる入力発話(102)によって指定される発話様式情報を含む前記出力発話を出力として生成する
ように構成される、請求項12から20のいずれか一項に記載
の方法(500)。
【請求項22】
前記コンテンツエンコーダ(110)および前記スタイルエンコーダ(130)が、相互情報損失を使用して、言語的内容(120)の前記潜在表現および発話様式(140)の前記潜在表現において取り込まれる相互情報量を最小化するようにトレーニングされる、請求項12から21のいずれか一項に記載
の方法(500)。
【国際調査報告】