IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル インコーポレイテッドの特許一覧

特表2024-538716マスク音声モデリングのための被誘導データ選択
<>
  • 特表-マスク音声モデリングのための被誘導データ選択 図1
  • 特表-マスク音声モデリングのための被誘導データ選択 図2
  • 特表-マスク音声モデリングのための被誘導データ選択 図3A
  • 特表-マスク音声モデリングのための被誘導データ選択 図3B
  • 特表-マスク音声モデリングのための被誘導データ選択 図3C
  • 特表-マスク音声モデリングのための被誘導データ選択 図4
  • 特表-マスク音声モデリングのための被誘導データ選択 図5
  • 特表-マスク音声モデリングのための被誘導データ選択 図6
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】マスク音声モデリングのための被誘導データ選択
(51)【国際特許分類】
   G10L 15/06 20130101AFI20241016BHJP
   G10L 15/16 20060101ALI20241016BHJP
【FI】
G10L15/06 300Y
G10L15/16
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024521016
(86)(22)【出願日】2022-08-18
(85)【翻訳文提出日】2024-06-05
(86)【国際出願番号】 US2022075182
(87)【国際公開番号】W WO2023059958
(87)【国際公開日】2023-04-13
(31)【優先権主張番号】63/262,136
(32)【優先日】2021-10-05
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.BLUETOOTH
(71)【出願人】
【識別番号】502208397
【氏名又は名称】グーグル エルエルシー
【氏名又は名称原語表記】Google LLC
【住所又は居所原語表記】1600 Amphitheatre Parkway 94043 Mountain View, CA U.S.A.
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】アンドリュー・ローゼンバーグ
(72)【発明者】
【氏名】ブヴァナ・ラマバドラン
(72)【発明者】
【氏名】ユ・ジャン
(72)【発明者】
【氏名】ムラリ・カーティック・バスカー
(57)【要約】
マスク音声モデリングのための被誘導データ選択の方法は、発声に対応する符号化表現のシーケンスを取得するステップを含む。各それぞれの符号化表現に対して、方法は、それぞれの符号化表現を処理して、可能な音声認識仮定に関する対応する確率分布を生成するステップと、それぞれの符号化表現に、可能な音声認識仮定に関する対応する確率分布からの最高確率として信頼性スコアを割り当てるステップとを含む。方法は、符号化表現のシーケンスに割り当てられた信頼性スコアに基づいて、マスキングするべきマスクなし符号化表現のセットを選択するステップも含む。方法は、マスクなし符号化表現の選択されたセットをマスキングすることによって、マスキングされた符号化表現のセットを生成するステップも含む。ここで、各マスキングされた符号化表現は、マスクなし符号化表現の選択されたセットの中のマスクなし符号化表現の各々に対応する。
【特許請求の範囲】
【請求項1】
マスク音声モデリングのための被誘導データ選択のためのコンピュータ実装方法(500)であって、前記コンピュータ実装方法(500)は、データ処理ハードウェア(610)上で実行されると、前記データ処理ハードウェア(610)に動作を実施させ、前記動作は、
発声(106)に対応する符号化表現(211)のシーケンスを取得することと、
符号化表現(211)の前記シーケンスの中の各それぞれの符号化表現(211)に対して、
スコアラーモデル(410)を使って、前記それぞれの符号化表現(211)を処理して、前記それぞれの符号化表現(211)についての可能な音声認識仮定(412)に関する対応する確率分布(414)を生成し、
前記それぞれの符号化表現(211)に、前記それぞれの符号化表現(211)についての可能な音声認識仮定(412)に関する前記対応する確率分布(414)からの最高確率として、信頼性スコア(416)を割り当てることと、
符号化表現(211)の前記シーケンスに割り当てられた前記信頼性スコア(416)に基づいて、符号化表現(211)の前記シーケンスから、マスキングするべきマスクなし符号化表現(211)のセットを選択することと、
マスクなし符号化表現(211)の前記選択されたセットをマスキングすることによって、マスキングされた符号化表現(211m)のセットを生成することであって、マスキングされた符号化表現(211m)の前記セットの中の各マスキングされた符号化表現(211m)は、マスクなし符号化表現(211)の前記選択されたセットの中の前記マスクなし符号化表現(211)の各々に対応する、こととを含む、コンピュータ実装方法(500)。
【請求項2】
マスキングするべきマスクなし符号化表現(211)の前記セットを選択することは、符号化表現(211)の前記シーケンスから、最高信頼性スコア(416)を有する上位K個の符号化表現(211)を選択することを含む、請求項1に記載のコンピュータ実装方法(500)。
【請求項3】
Kは、マスキングされるべき符号化表現(211)の前記シーケンスの中の符号化表現(211)の所定の比率に基づく、請求項2に記載のコンピュータ実装方法(500)。
【請求項4】
前記所定の比率は40パーセントに等しい、請求項3に記載のコンピュータ実装方法(500)。
【請求項5】
前記動作は、
マスキングするべきマスクなし符号化表現(211)の前記選択されたセットの中の各それぞれのマスクなし符号化表現(211)に対して、量子化器(218)を使って、前記それぞれのマスクなし符号化表現(211)用の対応するターゲットコンテキストベクトル(219)を生成することと、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、
前記それぞれのマスキングされた符号化表現(211m)用の対応する対照コンテキストベクトル(215)を生成し、
前記それぞれのマスキングされた符号化表現(211m)に対応する前記それぞれのマスクなし符号化表現(211)用に生成された、前記対応する対照コンテキストベクトル(215)および前記対応するターゲットコンテキストベクトル(219)に基づいて、対照損失(342)を生成することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記対照損失(342)を使って、オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項6】
前記動作は、
マスキングするべきマスクなし符号化表現(211)の前記選択されたセットの中の各それぞれのマスクなし符号化表現(211)に対して、クラスタモジュール(222)を使って、前記それぞれのマスクなし符号化表現(211)用の対応するK平均クラスタ(223)を生成することと、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、前記それぞれのマスキングされた符号化表現(211m)に対応する前記それぞれのマスクなし符号化表現(211m)用に生成された、前記対応する対照コンテキストベクトル(215)および前記対応するK平均クラスタ(223)に基づいて、交差エントロピー損失(355)を生成することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記交差エントロピー損失(355)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項5に記載のコンピュータ実装方法(500)。
【請求項7】
前記動作は、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、前記対照損失(342)および前記交差エントロピー損失(355)に基づいて、最終的なトレーニング目標(365)を判断することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記最終的なトレーニング目標(365)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項6に記載のコンピュータ実装方法(500)。
【請求項8】
前記動作は、
マスキングされた符号化表現(211m)の前記セットの中の前記信頼性スコア(416)を平均することによって、発声レベル信頼性スコア(416)を判断することと、
前記発声レベル信頼性スコア(416)に基づいて前記最終的なトレーニング目標(365)を重み付けすることと、
前記重み付けされた最終的なトレーニング目標(365)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項7に記載のコンピュータ実装方法(500)。
【請求項9】
前記動作は、前記対照コンテキストベクトル(215)からボトルネック特徴(217)を抽出することをさらに含む、請求項6から8のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項10】
前記動作は、前記抽出されたボトルネック特徴(217)を使って、各対応するK平均クラスタ(223)を精錬することをさらに含む、請求項9に記載のコンピュータ実装方法(500)。
【請求項11】
データ処理ハードウェア(610)と、
前記データ処理ハードウェア(610)と通信するメモリ(620)ハードウェアとを備えるシステム(100)であって、前記メモリ(620)ハードウェアは、前記データ処理ハードウェア(610)上で実行されると、前記データ処理ハードウェア(610)に動作を実施させる命令を記憶し、前記動作は、
発声(106)に対応する符号化表現(211)のシーケンスを取得することと、
符号化表現(211)の前記シーケンスの中の各それぞれの符号化表現(211)に対して、
スコアラーモデル(410)を使って、前記それぞれの符号化表現(211)を処理して、前記それぞれの符号化表現(211)についての可能な音声認識仮定(412)に関する対応する確率分布(414)を生成し、
前記それぞれの符号化表現(211)に、前記それぞれの符号化表現(211)についての可能な音声認識仮定(412)に関する前記対応する確率分布(414)からの最高確率として、信頼性スコア(416)を割り当てることと、
符号化表現(211)の前記シーケンスに割り当てられた前記信頼性スコア(416)に基づいて、符号化表現(211)の前記シーケンスから、マスキングするべきマスクなし符号化表現(211)のセットを選択することと、
マスクなし符号化表現(211)の前記選択されたセットをマスキングすることによって、マスキングされた符号化表現(211m)のセットを生成することであって、マスキングされた符号化表現(211m)の前記セットの中の各マスキングされた符号化表現(211m)は、マスクなし符号化表現(211)の前記選択されたセットの中の前記マスクなし符号化表現(211)の各々に対応する、こととを含む、システム(100)。
【請求項12】
マスキングするべきマスクなし符号化表現(211)の前記セットを選択することは、符号化表現(211)の前記シーケンスから、最高信頼性スコア(416)を有する上位K個の符号化表現(211)を選択することを含む、請求項11に記載のシステム(100)。
【請求項13】
Kは、マスキングされるべき符号化表現(211)の前記シーケンスの中の符号化表現(211)の所定の比率に基づく、請求項12に記載のシステム(100)。
【請求項14】
前記所定の比率は40パーセントに等しい、請求項13に記載のシステム(100)。
【請求項15】
前記動作は、
マスキングするべきマスクなし符号化表現(211)の前記選択されたセットの中の各それぞれのマスクなし符号化表現(211)に対して、量子化器(218)を使って、前記それぞれのマスクなし符号化表現(211)用の対応するターゲットコンテキストベクトル(219)を生成することと、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、
前記それぞれのマスキングされた符号化表現(211m)用の対応する対照コンテキストベクトル(215)を生成し、
前記それぞれのマスキングされた符号化表現(211m)に対応する前記それぞれのマスクなし符号化表現(211)用に生成された、前記対応する対照コンテキストベクトル(215)および前記対応するターゲットコンテキストベクトル(219)に基づいて、対照損失(342)を生成することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記対照損失(342)を使って、オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項11から14のいずれか一項に記載のシステム(100)。
【請求項16】
前記動作は、
マスキングするべきマスクなし符号化表現(211)の前記選択されたセットの中の各それぞれのマスクなし符号化表現(211)に対して、クラスタモジュール(222)を使って、前記それぞれのマスクなし符号化表現(211)用の対応するK平均クラスタ(223)を生成することと、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、前記それぞれのマスキングされた符号化表現(211m)に対応する前記それぞれのマスクなし符号化表現(211m)用に生成された、前記対応する対照コンテキストベクトル(215)および前記対応するK平均クラスタ(223)に基づいて、交差エントロピー損失(355)を生成することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記交差エントロピー損失(355)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項15に記載のシステム(100)。
【請求項17】
前記動作は、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、前記対照損失(342)および前記交差エントロピー損失(355)に基づいて、最終的なトレーニング目標(365)を判断することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記最終的なトレーニング目標(365)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項16に記載のシステム(100)。
【請求項18】
前記動作は、
マスキングされた符号化表現(211m)の前記セットの中の前記信頼性スコア(416)を平均することによって、発声レベル信頼性スコア(416)を判断することと、
前記発声レベル信頼性スコア(416)に基づいて前記最終的なトレーニング目標(365)を重み付けすることと、
前記重み付けされた最終的なトレーニング目標(365)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項17に記載のシステム(100)。
【請求項19】
前記動作は、前記対照コンテキストベクトル(215)からボトルネック特徴(217)を抽出することをさらに含む、請求項16から18のいずれか一項に記載のシステム(100)。
【請求項20】
前記動作は、前記抽出されたボトルネック特徴(217)を使って、各対応するK平均クラスタ(223)を精錬することをさらに含む、請求項19に記載のシステム(100)。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、マスク音声モデリングのための被誘導データ選択に関する。
【背景技術】
【0002】
自動音声認識(automatic speech recognition:ASR)、すなわち、オーディオ入力を受け取り、テキストに転写するプロセスは、モバイルデバイスおよび他のデバイスにおいて使われる、大いに重要な技術である。概して、自動音声認識は、オーディオ入力(たとえば、音声発声)を受け取り、オーディオ入力をテキストに転写することによって、人が言ったことの正確な転写を与えることを試みる。最新のASRモデルは、深層ニューラルネットワークの進行中の開発に基づいて、精度(たとえば、低い単語誤り率(word error rate:WER))とレイテンシ(たとえば、ユーザ発声と転写との間の遅延)の両方において向上し続ける。ただし、深層学習ベースのASRモデルを開発する際の1つの難題は、ASRモデルのパラメータが、トレーニングデータに過剰適合する傾向があり、そうすることによって、ASRモデルが、トレーニングデータが十分には大規模でないときに未知のデータを一般化するという問題点を有することになることである。その結果、比較的大きいトレーニングデータセットでASRモデルをトレーニングすると、ASRモデルの正確さが向上する。ASRモデルのトレーニングに使用されるトレーニングデータの量を増やすために、合成音声および/またはデータ拡張音声を組み込むことができる。
【発明の概要】
【課題を解決するための手段】
【0003】
本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、マスク音声モデリングのための被誘導データ選択のための動作を実施させるコンピュータ実装方法を提供する。動作は、発声に対応する符号化表現のシーケンスを取得することを含む。符号化表現のシーケンスの中の各それぞれの符号化表現に対して、動作は、スコアラーモデルを使って、それぞれの符号化表現を処理して、それぞれの符号化表現についての可能な音声認識仮定に関する対応する確率分布を生成することと、それぞれの符号化表現についての可能な音声認識仮定に関する、対応する確率分布からの最高確率としての信頼性スコアを、それぞれの符号化表現に割り当てることとを含む。動作は、符号化表現のシーケンスに割り当てられた信頼性スコアに基づいて、符号化表現のシーケンスから、マスキングするべきマスクなし符号化表現のセットを選択することも含む。動作は、マスクなし符号化表現の選択されたセットをマスキングすることによって、マスキングされた符号化表現のセットを生成することも含む。マスキングされた符号化表現のセットの中の各マスキングされた符号化表現は、マスクなし符号化表現の選択されたセットの中のマスクなし符号化表現の各々に対応する。
【0004】
本開示の実装形態は、以下の任意選択の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、マスキングするべきマスクなし符号化表現のセットを選択することは、最高信頼性スコアを有する上位K個の符号化表現を、符号化表現のシーケンスから選択することを含む。これらの実装形態では、Kは、マスキングされるべき符号化表現のシーケンスの中の符号化表現の所定の比率に基づき得る。任意選択で、所定の比率は40パーセントに等しくてよい。
【0005】
いくつかの例では、動作は、マスキングするべきマスクなし符号化表現の選択されたセットの中の各それぞれのマスクなし符号化表現に対して、量子化器を使って、それぞれのマスクなし符号化表現用の対応するターゲットコンテキストベクトルを生成することをさらに含む。これらの例では、動作はまた、マスキングされた符号化表現のセットの中の各それぞれのマスキングされた符号化表現に対して、それぞれのマスキングされた符号化表現用の対応する対照コンテキストベクトルを生成することと、それぞれのマスキングされた符号化表現に対応する、それぞれのマスクなし符号化表現用に生成された、対応する対照コンテキストベクトルおよび対応するターゲットコンテキストベクトルに基づいて、対照損失を生成し、マスキングされた符号化表現のセット用に生成された対照損失を使って、オーディオエンコーダを事前トレーニングすることとを含む。いくつかの実装形態では、動作は、マスキングするべきマスクなし符号化表現の選択されたセットの中の各それぞれのマスクなし符号化表現に対して、クラスタモジュールを使って、それぞれのマスクなし符号化表現用の対応するK平均クラスタを生成することと、マスキングされた符号化表現のセットの中の各それぞれのマスキングされた符号化表現に対して、それぞれのマスキングされた符号化表現に対応する、それぞれのマスクなし符号化表現用に生成された、対応する対照コンテキストベクトルおよび対応するK平均クラスタに基づいて、交差エントロピー損失を生成することと、マスキングされた符号化表現のセット用に生成された交差エントロピー損失を使って、オーディオエンコーダを事前トレーニングすることとをさらに含む。
【0006】
動作は、マスキングされた符号化表現のセットの中の各それぞれのマスキングされた符号化表現用の対照損失および交差エントロピー損失に基づいて、最終的なトレーニング目標を判断することと、マスキングされた符号化表現のセット用に生成された最終的なトレーニング目標を使って、オーディオエンコーダを事前トレーニングすることとをさらに含み得る。いくつかの実装形態では、動作は、マスキングされた符号化表現のセットの中の信頼性スコアを平均することによって、発声レベル信頼性スコアを判断することと、発声レベル信頼性スコアに基づいて最終的なトレーニング目標を重み付けすることと、重み付けされた最終的なトレーニング目標を使って、オーディオエンコーダを事前トレーニングすることとをさらに含む。任意選択で、動作は、対照コンテキストベクトルからボトルネック特徴を抽出することをさらに含む。ここで、動作は、抽出されたボトルネック特徴を使って、各対応するK平均クラスタを精錬することをさらに含む。
【0007】
本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェア上で実行されるとデータ処理ハードウェアに動作を実施させる命令を記憶するメモリハードウェアとを含むシステムを提供する。動作は、発声に対応する符号化表現のシーケンスを取得することを含む。符号化表現のシーケンスの中の各それぞれの符号化表現に対して、動作は、スコアラーモデルを使って、それぞれの符号化表現を処理して、それぞれの符号化表現についての可能な音声認識仮定に関する対応する確率分布を生成することと、それぞれの符号化表現についての可能な音声認識仮定に関する、対応する確率分布からの最高確率としての信頼性スコアを、それぞれの符号化表現に割り当てることとを含む。動作は、符号化表現のシーケンスに割り当てられた信頼性スコアに基づいて、符号化表現のシーケンスから、マスキングするべきマスクなし符号化表現のセットを選択することも含む。動作は、マスクなし符号化表現の選択されたセットをマスキングすることによって、マスキングされた符号化表現のセットを生成することも含む。マスキングされた符号化表現のセットの中の各マスキングされた符号化表現は、マスクなし符号化表現の選択されたセットの中のマスクなし符号化表現の各々に対応する。
【0008】
本開示の実装形態は、以下の任意の特徴のうちの1つまたは複数を含み得る。いくつかの実装形態では、マスキングするべきマスクなし符号化表現のセットを選択することは、最高信頼性スコアを有する上位K個の符号化表現を、符号化表現のシーケンスから選択することを含む。これらの実装形態では、Kは、マスキングされるべき符号化表現のシーケンスの中の符号化表現の所定の比率に基づき得る。任意選択で、所定の比率は40パーセントに等しくてよい。
【0009】
いくつかの例では、動作は、マスキングするべきマスクなし符号化表現の選択されたセットの中の各それぞれのマスクなし符号化表現に対して、量子化器を使って、それぞれのマスクなし符号化表現用の対応するターゲットコンテキストベクトルを生成することをさらに含む。これらの例では、動作はまた、マスキングされた符号化表現のセットの中の各それぞれのマスキングされた符号化表現に対して、それぞれのマスキングされた符号化表現用の対応する対照コンテキストベクトルを生成することと、それぞれのマスキングされた符号化表現に対応する、それぞれのマスクなし符号化表現用に生成された、対応する対照コンテキストベクトルおよび対応するターゲットコンテキストベクトルに基づいて、対照損失を生成し、マスキングされた符号化表現のセット用に生成された対照損失を使って、オーディオエンコーダを事前トレーニングすることとを含む。いくつかの実装形態では、動作は、マスキングするべきマスクなし符号化表現の選択されたセットの中の各それぞれのマスクなし符号化表現に対して、クラスタモジュールを使って、それぞれのマスクなし符号化表現用の対応するK平均クラスタを生成することと、マスキングされた符号化表現のセットの中の各それぞれのマスキングされた符号化表現に対して、それぞれのマスキングされた符号化表現に対応する、それぞれのマスクなし符号化表現用に生成された、対応する対照コンテキストベクトルおよび対応するK平均クラスタに基づいて、交差エントロピー損失を生成することと、マスキングされた符号化表現のセット用に生成された交差エントロピー損失を使って、オーディオエンコーダを事前トレーニングすることとをさらに含む。
【0010】
動作は、マスキングされた符号化表現のセットの中の各それぞれのマスキングされた符号化表現用の対照損失および交差エントロピー損失に基づいて、最終的なトレーニング目標を判断することと、マスキングされた符号化表現のセット用に生成された最終的なトレーニング目標を使って、オーディオエンコーダを事前トレーニングすることとをさらに含み得る。いくつかの実装形態では、動作は、マスキングされた符号化表現のセットの中の信頼性スコアを平均することによって、発声レベル信頼性スコアを判断することと、発声レベル信頼性スコアに基づいて最終的なトレーニング目標を重み付けすることと、重み付けされた最終的なトレーニング目標を使って、オーディオエンコーダを事前トレーニングすることとをさらに含む。任意選択で、動作は、対照コンテキストベクトルからボトルネック特徴を抽出することをさらに含む。ここで、動作は、抽出されたボトルネック特徴を使って、各対応するK平均クラスタを精錬することをさらに含む。
【0011】
本開示の1つまたは複数の実装形態の詳細が、添付図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになろう。
【図面の簡単な説明】
【0012】
図1】例示的音声認識システムの概略図である。
図2】例示的音声認識モデルの概略図である。
図3A】例示的マスキング依頼(ask-to-mask)トレーニングプロセスの概略図である。
図3B】例示的マスキング依頼トレーニングプロセスの概略図である。
図3C】例示的マスキング依頼トレーニングプロセスの概略図である。
図4】例示的マスキングモジュールの概略図である。
図5】マスク音声モデリングのための被誘導データ選択のコンピュータ実装方法のための動作の例示的並びのフローチャートである。
図6】本明細書で説明するシステムおよび方法を実装するのに使用され得る例示的コンピューティングデバイスの概略図である。
【発明を実施するための形態】
【0013】
様々な図面における同様の参照符号は、同様の要素を示す。
【0014】
自動化音声認識(ASR)は、オーディオからキャラクタシーケンスにマップするシーケンスツーシーケンス(sequence to sequence:Seq2Seq)モデルの導入に伴い、途方もない進歩をした。同時に、テキスト音声(text-to-speech:TTS)または音声合成システムは、人間の耳にとって人間音声とは区別不可能であり得る、最先端の自然な、現実的に聞こえる合成された音声を取得するために、Seq2Seqモデルを適用することに成功している。
【0015】
深層学習ベースのASRモデルを開発する際の1つの難題は、ASRモデルのパラメータが、トレーニングデータに過剰適合する傾向があり、そうすることによって、ASRモデルが、トレーニングデータが十分には大規模でないときに未知のデータを一般化するという問題点を有することになることである。したがって、比較的大きいトレーニングデータセットでASRモデルをトレーニングすると、ASRモデルの精度が向上する。たとえば、機械学習または他の統計的方法の使用により、約10,000時間分の転写された音声を含むトレーニング用データセットでASRモデルをトレーニングすることができる。しかし、トレーニングデータに関連付けられたドメインが、推論中にASRモデルが展開されるドメインと異なるとき、ASRモデルの性能が低下する。たとえば、ビデオ会議に関連付けられたドメイン中の音声でASRモデルをトレーニングするのは、ボイスサーチクエリに関連した音声を認識する際に、比較的効果的でなく、その逆も同様である。
【0016】
大量のラベルなし音声またはテキストデータでASRモデルを事前トレーニングし、続いて、ラベル付き音声またはテキストデータの比較的小さいセットでトレーニングすることによって、事前トレーニングされたASRモデルを微調整することで、ASRモデル性能の向上が示された。特に、マスク音声モデリング(masked speech modeling:MSM)とは、トレーニング用発声に対応する入力音声フレームのラベルなしシーケンスを受信し、各トレーニング用発声用の入力音声フレームの一部分をマスキングする事前トレーニング技法である。その後、MSM事前トレーニング方法は、マスキングされた入力音声フレームから音声表現を学習する。ただし、マスキング用に選択された入力音声フレームは、すべての入力音声フレームが、意味のある表現を学習するための関連情報を含むわけではなくても、恣意的に選択される。つまり、マスキング用に関連情報を含む音声フレームを選択することが、ASRモデルが事前トレーニング中に意味のある表現を学習するためには、より有益であり得る。
【0017】
したがって、本明細書における実装形態は、MSMのための被誘導データ選択のための方法およびシステムを対象とする。より詳細には、MSM事前トレーニングプロセスが、発声に対応する符号化表現のシーケンスを取得するマスキングモジュールを実行し得る。マスキングモジュールは、各それぞれの符号化表現を処理して、可能な音声認識仮定に関する対応する確率分布を生成し、対応する確率分布からの最高確率として、信頼性スコアを割り当てる。符号化表現のシーケンスに割り当てられた信頼性スコアに基づいて、マスキングモジュールは、符号化表現の選択されたセットをマスキングする。有利には、マスキングモジュールは、関連情報を含む、マスキング用の符号化表現を選択し、そうすることによって、ASRモデルが事前トレーニング中に学習する、意味のある表現を増やす。その上、明らかになるように、マスキングモジュールは、発声全体についての発声レベル信頼性スコアを判断し、発声レベル信頼性スコアに基づいてASRモデルをトレーニングするのに使われる最終的なトレーニング目標を重み付けし得る。
【0018】
図1は、ユーザ104のユーザデバイス102上および/またはユーザデバイス102と通信するリモートコンピューティングデバイス201(たとえば、クラウドコンピューティング環境において実行する分散型システムの、1つもしくは複数のサーバ)上に存在する自動化音声認識(ASR)モデル200を実装するASRシステム100を示す。ユーザデバイス102はモバイルコンピューティングデバイス(たとえば、スマートフォン)として示されるが、ユーザデバイス102は、限定はしないが、タブレットデバイス、ラップトップ/デスクトップコンピュータ、ウェアラブルデバイス、デジタルアシスタントデバイス、スマートスピーカー/ディスプレイ、スマート器具、車載インフォテインメントシステム、またはモノのインターネット(IoT)デバイスなど、任意のタイプのコンピューティングデバイスに対応してもよく、データ処理ハードウェア111およびメモリハードウェア113を備える。
【0019】
ユーザデバイス102は、ユーザ104によって発話された発声106を受信し(たとえば、ユーザデバイス102は、発話された発声106を記録するための1つまたは複数のマイクロフォンを含み得る)、発声106を、ASRシステム100によって処理されることが可能な入力音響フレーム110に関連付けられた対応するデジタルフォーマットに変換するように構成されたオーディオサブシステム108を含む。図示した例において、ユーザは、「What is the weather in New York City?」というフレーズに対する英語の自然言語で、それぞれの発声106を発話し、オーディオサブシステム108は、発声106を、ASRシステム100への入力用に、対応する音響フレーム110に変換する。その後、ASRモデル200は、入力として、発声106に対応する音響フレーム(すなわち、入力音声フレームのシーケンス)110を受信し、出力として、発声106の対応する転写120(たとえば、認識結果/仮定)を生成/予測する。図示した例において、ユーザデバイス102および/またはリモートコンピューティングデバイス201は、発声106の転写120の表現を、ユーザデバイス102のユーザ104に提示するように構成されたユーザインターフェースジェネレータ107も実行する。いくつかの構成では、ASRシステム100から出力された転写120は、たとえば、ユーザコマンドを実行するために、ユーザデバイス102またはリモートコンピューティングデバイス201上で実行する自然言語理解(NLU)モジュールによって処理される。追加または代替として、テキスト音声システム(たとえば、ユーザデバイス102またはリモートコンピューティングデバイス201のどの組合せにおいても実行する)は、転写を、別のデバイスによる可聴出力のための合成音声に変換してよい。たとえば、元の発声106は、ユーザ104が友人へ送っているメッセージに対応してよく、ここで転写120は、元の発声106において伝えられるメッセージを聴くべき友人への可聴出力のための合成音声に変換される。
【0020】
図2を参照すると、例示的ASRモデル200は、対話型アプリケーションに関連付けられたレイテンシ制約を遵守する回帰型ニューラルネットワークトランスデューサ(Recurrent Neural Network-Transducer:RNN-T)モデルアーキテクチャを含む。RNN-Tモデルアーキテクチャの使用は例示的なものであり、ASRモデル200は、特に、トランスフォーマトランスデューサおよびコンフォーマトランスデューサモデルアーキテクチャなど、他のアーキテクチャを含み得る。ASRモデル(すなわち、RNN-Tモデル)200のRNN-Tモデルアーキテクチャは、小さい計算フットプリントを可能にし、従来のASRアーキテクチャよりも少ないメモリ要件を利用し、RNN-Tモデルアーキテクチャを完全にユーザデバイス102上で音声認識を実施するのに適したものにする(たとえば、リモートサーバとの通信を必要としない)。RNN-Tモデル200は、エンコーダネットワーク210、予測ネットワーク220、および共同ネットワーク230を含む。エンコーダネットワーク210は、概して旧来のASRシステムの音響モデル(acoustic model:AM)に類似しており、自己アテンションレイヤ(コンフォーマレイヤまたはトランスフォーマレイヤなど)のスタック、または積層長期短期記憶(Long Short-Term Memory:LSTM)レイヤの回帰型ネットワークを含む。たとえばエンコーダは、d次元特徴ベクトルのシーケンス(たとえば、音響フレーム110(図1))x=(x1,x2,...,xT)を読み取り、ここで、
【0021】
【数1】
【0022】
であり、各出力ステップで、より高次の特徴表現を生じる。このより高次の特徴表現は、
【0023】
【数2】
【0024】
と記される。
【0025】
同様に、予測ネットワーク220もLSTMネットワークであり、これは、言語モデル(language model:LM)のように、最終ソフトマックスレイヤ240によってこれまで出力された非空白シンボルのシーケンス、すなわちy0、...、yui-1を処理して、密な表現
【0026】
【数3】
【0027】
にする。最終的に、RNN-Tモデルアーキテクチャを用いて、エンコーダおよび予測/デコーダネットワーク210、220によって生じた表現は、共同ネットワーク230によって組み合わされる。予測ネットワーク220は、密な表現を処理する代わりに、ルックアップされた疎な埋め込みを出力することによってレイテンシを改善するように、埋め込みルックアップテーブルで置き換えられてよい。共同ネットワークは次いで、
【0028】
【数4】
【0029】
を予測し、これは、次の出力シンボルに関する分布である。別の言い方をすると、共同ネットワーク230は、各出力ステップ(たとえば、時間ステップ)において、可能な音声認識仮定に関する確率分布を生成する。ここで、「可能な音声認識仮定」は、指定された自然言語でシンボル/キャラクタを各々が表す出力ラベルのセットに対応する。たとえば、自然言語が英語であるとき、出力ラベルのセットは、27個のシンボルを含んでよく、たとえば、英語アルファベットの26文字の各々用の1つのラベル、およびスペースを指定する1つのラベルである。したがって、共同ネットワーク230は、出力ラベルの所定のセットの各々の出現の見込みを示す値のセットを出力してよい。この値セットは、ベクトルであってよく、出力ラベルのセットに関する確率分布を示すことができる。いくつかの場合には、出力ラベルは書記素(たとえば、個々のキャラクタ、また、可能性としては句読および他のシンボル)であるが、出力ラベルのセットは、そのように限定されるわけではない。たとえば、出力ラベルのセットは、書記素に加え、またはその代わりに、ワードピースおよび/または単語全体を含み得る。共同ネットワーク230の出力分布は、異なる出力ラベルの各々についての事後確率値を含み得る。したがって、異なる書記素または他のシンボルを表す100個の異なる出力ラベルがある場合、共同ネットワーク230の出力yiは、1つが各出力ラベルについてである、100個の異なる確率値を含み得る。確率分布は次いで、スコアを選択し、転写120を判断するためのビームサーチプロセスにおいて(たとえば、ソフトマックスレイヤ240によって)候補正書(orthographic)要素(たとえば、書記素、ワードピース、および/または単語)に割り当てるのに使うことができる。
【0030】
ソフトマックスレイヤ240は、分布における最も高い確率をもつ出力ラベル/シンボルを、対応する出力ステップにおいてRNN-Tモデル200によって予測される次の出力シンボルとして選択するための、どの技法を利用してもよい。このように、RNN-Tモデル200は、条件付き独立仮定は行わず、むしろ、各シンボルの予測は、音響だけでなく、それまでに出力されたラベルのシーケンスも条件とする。RNN-Tモデル200は、出力シンボルが将来の音響フレーム110に依存しないと想定し、そうすることによって、RNN-Tモデル200は、ストリーミング方式で利用されることが可能になる。
【0031】
いくつかの例では、RNN-Tモデル200のエンコーダネットワーク(すなわち、オーディオエンコーダ)210は、コンフォーマブロックなどの自己注意レイヤ/ブロックのスタックを含む。ここで、各コンフォーマブロックは、一連の多頭自己注意、深さ方向の畳み込みレイヤ、およびフィードフォワードレイヤを含む。予測ネットワーク220は、2つの2,048次元LSTMレイヤを有してよく、その各々に、やはり640次元投射レイヤが続く。代替的に、予測ネットワーク220は、LSTMレイヤの代わりに、トランスフォーマまたはコンフォーマブロックのスタック、または埋め込みルックアップテーブルを含むこともできる。最終的に、共同ネットワーク230も、640個の隠れユニットを有し得る。ソフトマックスレイヤ240は、複数のトレーニングデータセットですべて固有のワードピースまたは書記素を使って生成される、統合ワードピースまたは書記素セットからなってよい。
【0032】
図3A図3Cは、ASRモデル200(図2)を事前トレーニングするための異なるMSMアーキテクチャを使う、例示的マスキング依頼(ask-to-mask:ATM)トレーニングプロセス300を示す。ATMトレーニングプロセス300(単に「トレーニングプロセス300」とも呼ばれる)は、非発話テキスト発声320のセット、転写された非合成音声発声304のセット、および/または転写されていない非合成音声発声306を含む利用可能なトレーニングデータを使って、ASRモデル200を事前トレーニングすることができる。各非発話テキスト発声320は、各非発話テキスト発声320が発声の任意の対応する発話オーディオ表現(すなわち、音声)とペアにされないようなテキストのみのデータ(すなわち、ペアにされないデータ)を含む。非発話テキスト発声320は、単語、ワードピース、音素および/または書記素を含むテキストチャンクのいかなるシーケンスも含み得る。各転写されていない非合成音声発声306(単に「転写されていない音声発声306」とも呼ばれる)は、転写されていない音声発声が任意の対応する転写とペアにされないようなオーディオのみのデータ(すなわち、ペアにされないデータ)を含む。一方、各転写された非合成音声発声304(単に「転写された音声発声304」とも呼ばれる)は、対応する転写された音声発声の対応する非合成音声表現とペアにされる対応する転写(図示せず)を含む。
【0033】
トレーニングデータは、複数の非発話トレーニング用テキスト発声320の各々のための合成された音声表現(たとえば、合成音声)332も含み得る。つまり、非発話トレーニング用テキスト発声320は、各非発話トレーニング用テキスト発声がどの合成されたまたは合成されていない音声ともペアにされないような、テキストのみのデータ、すなわち、ペアなしデータである非発話テキストを含む。したがって、テキスト音声(text-to-speech: TTS)システム330は、非発話トレーニングテキスト発声320の各々のための対応する合成音声表現332を生成し得る。特に、合成音声表現は、ASRモデル200をトレーニングするためのメル周波数スペクトログラムフレームを含んでよく、そうすることによって、トレーニングプロセス300が、メル周波数スペクトログラムフレームを合成して合成音声にするためのボコーダおよび/またはシンセサイザを含む必要がなくなる。
【0034】
TTSシステム330は、非発話テキスト発声320を変換するときに話者埋め込みzを適用して、話者埋め込みに関連付けられた特定の話し方および韻律を有する合成音声表現332を生成し得る。TTSシステム330は、得られた合成音声表現332の異なる話者特性に各々関連付けられた多数の異なる話者埋め込みzをそれぞれ適用することができる。同様に、TTSシステム330は、合成される発声の韻律および他の生産品質を変え得る。いくつかの例では、トレーニングプロセス300は、合成音声表現332のサンプル発声の少なくとも1つにデータ拡張を適用する。データ拡張には、限定はしないが、対応する合成音声表現にノイズを加える、タイミングを操作する(たとえば、ストレッチング)、残響を加えることを含み得る。データ拡張は、合成音声表現332に異なる合成録音条件を追加し得る。
【0035】
簡単のために、トレーニングプロセス300は、対照自己教師あり損失部300a(図3A)、交差エントロピー自己教師あり損失部300b(図3B)、および最終的なトレーニング目標自己教師あり損失部300c(図3C)を含む。トレーニングプロセス300は、対照自己教師あり損失部300a(図3A)、交差エントロピー自己教師あり損失部300b(図3B)、および最終的なトレーニング目標自己教師あり損失部300c(図3C)から導出された損失の任意の組合せを使って、オーディオエンコーダ210を事前トレーニングし得る。
【0036】
引き続き図3A図3Cを参照すると、図示した例において、ASRモデル200(図2)のオーディオエンコーダ210は、各々が多頭(たとえば、8頭)自己注意メカニズムを含む自己注意レイヤのスタックを含む。たとえば、自己注意レイヤのスタックは、コンフォーマレイヤまたはトランスフォーマレイヤのスタックを含み得る。図示の例では、オーディオエンコーダ210は、コンフォーマブロックのスタックを含むコンフォーマエンコーダを含み、各コンフォーマブロックは、一連の多頭自己注意レイヤ、深さ方向畳み込みレイヤ、およびフィードフォワードレイヤを含む。コンフォーマエンコーダ210は、畳み込みサブサンプリングブロック212を含む特徴エンコーダと、線形レイヤ214およびコンフォーマブロック216のスタックを含むコンテキストネットワークとに分けることができる。いくつかの実装形態では、畳み込みサブサンプリングブロック212は、両方ともストライド(2、2)を有する2つの2次元畳み込みレイヤを有し、その結果、特徴シーケンス長が4分の1に短縮される。
【0037】
畳み込みサブサンプリングブロック212は、入力として、各転写された音声発声304、各非転写非合成音声発声306、および各合成された音声表現332に関連付けられた入力音声フレーム(たとえば、図1の音響フレーム110などのメル周波数スペクトログラム)のシーケンスを受信し、出力として、転写された音声発声304のうちの1つ、非転写音声発声306、または合成された音声表現332のうちの1つのそれぞれに対応する、符号化表現211、211a~nのシーケンスを生成する。符号化表現211のシーケンスの中の各符号化表現211は、書記素、音素、ワードピース、または単語を表し得る。その上、符号化表現211の各シーケンスは、トレーニングデータの中の発声のうちの各々に対応する。畳み込みサブサンプリングブロック212から出力された符号化表現211のシーケンス(E=[e1,e2,...,eT])は、マスキングモジュール400にフィードされてよく、このモジュールは、符号化されたマスクなし表現211の選択されたセットをマスキングする。
【0038】
ここで図4を参照すると、いくつかの実装形態では、マスキングモジュール400は、スコアラーモデル410およびマスカー420を含む。スコアラーモデル410(単に「スコアラー410」とも呼ばれる)は、符号化表現211のシーケンスを取得し、各それぞれの符号化表現211を処理して、それぞれの符号化表現211についての可能な音声認識仮定412に関する対応する確率分布414を生成する。スコアラー410によって受信された符号化表現211のシーケンスは、マスキングされていない。その上、スコアラー410は、フレームレベルでの確率分布を(たとえば、各符号化表現211について)生成する。確率分布414は、各可能な音声認識仮定(すなわち、ラベル)に関連付けられた確率を含む。いくつかの事例では、スコアラー410は、確率分布414を、
P=p(et=l|E);l∈L (1)
によって判断し得る。
【0039】
式1において、Pは、それぞれの符号化表現211についての確率分布414を表し、lは、コードブックの中の複数の潜在的音声認識仮定L(すなわち、ラベル)からの潜在的音声認識仮定(すなわち、ラベル)の各々を表す。たとえば、図4に示すように、スコアラー410は、「Google Adsenseを見せて(Show Google Adsense)」という発声に対応する単語を各々が表す3つの符号化表現211a~cを受信する。この例では、スコアラー410は、「見せて(Show)」という単語を表す第1の符号化表現211aを処理して、第1の符号化表現211aについての可能な音声認識仮定412に関する対応する第1の確率分布414を生成し、「Google」という単語を表す第2の符号化表現211bを処理して、第2の符号化表現211bについての可能な音声認識仮定412に関する対応する第2の確率分布414を生成し、「Adsense」という単語を表す第3の符号化表現211cを処理して、第3の符号化表現211cについての可能な音声認識仮定412に関する対応する第3の確率分布414を生成する。ここで、第1の確率分布414は、可能な音声認識仮定412「show」および「snow」について、それぞれ確率0.7および0.3を含み、第2の確率分布414は、可能な音声認識仮定412「Google」および「Doodle」について、それぞれ確率0.9および0.1を含み、第3の確率分布414は、可能な音声認識仮定412「Adsense」および「Accents」について、それぞれ確率0.6および0.4を含む。
【0040】
いくつかの実装形態では、スコアラー410は、ターゲットドメインと同様のトレーニングデータ(すなわち、ドメイン内データ)でトレーニングされた外部ASRモデルである。スコアラー410は、ASRモデルがフレームレベル(たとえば、各符号化表現211用)確率分布を生成するようなコネクショニスト時間分類(connectionist temporal classification:CTC)目標を利用するフレーム同期ASRモデルであってよい。スコアラー410は、それぞれの符号化表現211についての各音声認識仮定412が、対応する発声の正確な転写である見込みに基づいて、確率分布414を生成し得る。他の実装形態では、スコアラー410は、各音声認識仮定412とターゲットドメインの類似度に基づいて、確率分布414を生成する。たとえば、ASRモデル200用のターゲットドメインはビデオ会議に関連付けられてよく、それにより、スコアラー410は、ターゲットドメイン(たとえば、ビデオ会議)に属す見込みがある音声認識仮定412についてより高い確率を生成する。任意選択で、スコアラー410は、確率分布414を生成するのに、転写精度と、ターゲットドメインとの類似の何らかの組合せを使ってよい。したがって、高確率を有する音声認識仮定412は、ASRモデル200(図2)が事前トレーニング中に意味のある表現を学習するための、意味のある情報を音声認識仮定412が含む見込みがあることを示す。
【0041】
その上、スコアラー410は、それぞれの符号化表現211についての音声認識仮定412に関する対応する確率分布414からの最高確率として、信頼性スコア416を割り当てる。スコアラー410は、音声認識仮定412に関する対応する確率分布414からの最高確率として、信頼性スコア416を、
【0042】
【数5】
【0043】
によって割り当て得る。
【0044】
式2において、stは、それぞれの符号化表現211についての信頼性スコア416を表す。スコアラー410は、K個のマスキング開始インデックス{i1,...,ik}を、
【0045】
【数6】
【0046】
による確率でサンプリングする。
【0047】
留意すべきこととして、式3において、
【0048】
【数7】
【0049】
は、スコアラー410が置換えなしでサンプリングすることを確実にする。したがって、スコアラー410は、符号化表現211のシーケンスの中の初期符号化表現211を、各可能な音声認識仮定412のための確率に比例する確率でサンプリングする。上記例を続けると、スコアラー410は、第1の符号化表現211aについての信頼性スコア416として0.7を、第2の符号化表現211bについての信頼性スコア416として0.9を、および第3の符号化表現211cについての信頼性スコア416として0.6を割り当てるが、それは、これらの確率が、それぞれの確率分布414における最高確率だからである。図4に示すように、各符号化表現211に割り当てられた信頼性スコア416は、破線ボックスで記される。
【0050】
いくつかの例では、スコアラー410は、信頼性スコア416を、それぞれの符号化表現211についての音声認識仮定412に関する対応する確率分布414からの低確率として割り当てる。スコアラー410は、信頼性スコアを、高確率と低確率の混合として割り当ててもよい。特に、スコアラー410は、信頼性スコア416を、
【0051】
【数8】
【0052】
によって低確率に割り当ててよい。
【0053】
マスカー420は、符号化表現211のシーケンスの中の各符号化表現211に割り当てられた信頼性スコア416を受信し、マスキングするべき、マスクなし符号化表現211のセットを選択する。つまり、マスカー420は、ASRモデル200が事前トレーニング中に意味のある表現をそこから学習するマスクなし符号化表現211のシーケンスから、上位K個の符号化表現211を選択すればよい。ここで、Kは、マスカー420が選択する符号化表現211の数を表す。いくつかの事例では、Kは、マスキングされるべき符号化表現211のシーケンスの中の符号化表現211の所定の比率に基づく。たとえば、Kは、40パーセントという所定の比率を表し得るが、所定の比率は任意の比率であってよいことが理解されよう。したがって、この例では、マスカー420は、Kを、符号化表現211のシーケンスの中の10個の符号化表現211を含む発声のために4に設定してよい。
【0054】
マスカー420は、マスクなし符号化表現211の選択されたセットをマスキングすることによって、マスキングされた符号化表現211、211mのセットを生成する。図4に示す例を続けると、所定の比率は33パーセントであってよく、これにより、マスカー420は、最高信頼性スコア416を有する、合計3つの符号化表現211のうちの2つの符号化表現211を選択する。ここで、マスカー420は、第1の符号化表現211aおよび第2の符号化表現211bを、マスキングのためのマスクなし符号化表現211のセットとして選択するが、それは、これらの符号化表現211が最高割当て信頼性スコア416を有するからである。その後、マスカー420は、黒色ボックスで記される第1の符号化表現211aおよび第2の符号化表現211bをマスキングすることによって、マスキングされた符号化表現211ma、211mbのセットを生成する。したがって、マスキングされた符号化表現211mのセットの中の各マスキングされた符号化表現211mは、マスクなし符号化表現211の選択されたセットの中のマスクなし符号化表現211の各々に対応する。図4に示すように、第1の符号化表現211aは第1のマスキングされた符号化表現211maに対応し、第2の符号化表現211bは第2のマスキングされた符号化表現211mbに対応する。明らかになるように、トレーニングプロセス300(図3)は、マスキングされた符号化表現211mのセットを使って、ASRモデル200(図2)を事前トレーニングするだけである。
【0055】
ここで図3Aを参照すると、トレーニングプロセス300の対照自己教師あり損失部300aが、対照損失項342および対照トレーニング目標345を生成する。特に、コンテキストネットワークの線形レイヤ214およびコンフォーマブロック216が、マスキングされた符号化表現211mのセットを受信し、マスキングされた符号化表現211mのセットの中の各対応するマスキングされた符号化表現211mについての対応する対照コンテキストベクトル215(cj∈C)を出力する。つまり、オーディオエンコーダ210は、すべてのマスキングされた時間インスタンスj∈Jについての対照コンテキストベクトル215を生成する。その上、量子化器218は、マスクなし符号化特徴211の選択されたセットを入力として受信し、各それぞれのマスクなし符号化特徴211についての対応する量子化ベクトル219(Q=[q1,q2,...,qT])を出力として生成する。各ターゲットコンテキストベクトル(すなわち、ターゲットコンテキストベクトル)219は、ターゲットまたはコードブック中のコードの数を記すL次元を含む。量子化器218は、ガンベルソフトマックス量子化器であってよい。
【0056】
その後、対照損失モジュール340が、それぞれのマスキングされた符号化表現211mに対応するそれぞれのマスクなし符号化表現211用に生成された、対応する対照コンテキストベクトル215および対応するターゲットコンテキストベクトル219に基づいて、対照損失項342(Lctr)を導出する。いくつかの例では、トレーニングプロセス300は、対照損失項342を直接使うことによって、オーディオエンコーダ210を事前トレーニングする。他の例では、対照損失モジュール340は、オーディオエンコーダ210を事前トレーニングするのに使われる対照トレーニング目標345(Lwv)を導出するための多様性損失(Ldiv)を判断する。これらの例では、対照損失モジュール340は、対照トレーニング目標345を、
Lwv=Lctr+0.1・Ldiv (5)
によって導出する。
【0057】
式5において、
【0058】
【数9】
【0059】
であり、Ldivは多様性損失を表す。対照損失項342は、コードブックに依存して、肯定的例と否定的例の両方を表し、多様性損失により、量子化コードブック表現の使用の増大が促進される。特に、多様性損失は、各コードブック用のコードブックエントリにわたる平均化ソフトマックス分布のエントロピーを最大化することによって、G個のコードブックの各々の中のV個のエントリの等しい使用が促進される。対照損失モジュール340は、多様性損失(Ldiv)を、
【0060】
【数10】
【0061】
によって導出し得る。
【0062】
トレーニングプロセス300は、対照トレーニング目標345および/または対照損失項342に基づいてオーディオエンコーダ210のパラメータを更新することによって、ASRモデル200(図2)をトレーニングし得る。
【0063】
ここで図3Bを参照すると、トレーニングプロセス300の交差エントロピー損失部300bが、ASRモデル200(図2)を事前トレーニングするための交差エントロピー損失355を生成する。特に、コンテキストネットワークの線形レイヤ214およびコンフォーマブロック216が、マスキングされた符号化表現211mのセットを受信し、対応する対照コンテキストベクトル215(cj∈C)を、マスキングされた符号化表現211mのセットの中の各対応するマスキングされた符号化表現211m用に出力する。つまり、オーディオエンコーダ210は、すべてのマスキングされた時間インスタンスj∈Jについての対照コンテキストベクトル215を生成する。その上、クラスタモジュール222は、マスクなし符号化特徴211の選択されたセットを入力として受信し、各それぞれのマスクなし符号化特徴211についての対応するK平均クラスタ223(Y=[y1,y2,...,yT])を出力として生成する。任意選択で、クラスタモジュール222は、対照コンテキストベクトル215から抽出されたボトルネック特徴217を受信し、抽出されたボトルネック特徴217を使って、各K平均クラスタ223をさらに精錬してよい。留意すべきこととして、各K平均クラスタ223は、対照コンテキストベクトル215の各々のためのターゲットを表す。
【0064】
その後、交差エントロピー損失モジュール350が、それぞれのマスキングされた符号化表現211mに対応するそれぞれのマスクなし符号化表現211のために生成された、対応する対照コンテキストベクトル215および対応するK平均クラスタ223に基づいて、交差エントロピー損失355(Lce)を導出する。トレーニングプロセス300は、交差エントロピー損失355に基づいてオーディオエンコーダ210のパラメータを更新することによって、オーディオエンコーダ210を事前トレーニングする。
【0065】
ここで図3Cを参照すると、トレーニングプロセス300の最終的トレーニング目標自己教師あり損失部300cが、ASRモデル200(図2)を事前トレーニングするための最終的なトレーニング目標365を生成する。特に、コンテキストネットワークの線形レイヤ214およびコンフォーマブロック216が、マスキングされた符号化表現211mのセットを受信し、マスキングされた符号化表現211mのセットの中の各対応するマスキングされた符号化表現211mについての対応する対照コンテキストベクトル215(cj∈C)を出力する。つまり、オーディオエンコーダ210は、すべてのマスキングされた時間インスタンスj∈Jについての対照コンテキストベクトル215を生成する。その上、オーディオエンコーダ210は、さらに対照コンテキストベクトル215を精錬することによって、精錬された対照コンテキストベクトル213を生成してよい。オーディオエンコーダ210は、精錬された対照コンテキストベクトル213を、
【0066】
【数11】
【0067】
によって生成する。
【0068】
式7において、yjは、精錬された対照コンテキストベクトル213を表す。ここで、対照コンテキストベクトル215は、ターゲットコンテキストベクトル219用のターゲットであり、精錬された対照コンテキストベクトルは、K平均クラスタ223用のターゲットである。量子化モジュール224が、マスクなし符号化特徴211の選択されたセットを入力として受信し得る。いくつかの事例では、量子化モジュール224は、量子化器218(図3A)およびクラスタモジュール222(図3B)を含む。したがって、量子化モジュール224は、量子化器218(図3A)を使って、各それぞれのマスクなし符号化特徴211についての対応する量子化ベクトル219(Q=[q1,q2,...,qT])を出力として生成し、クラスタモジュール222(図3B)を使って、各それぞれのマスクなし符号化特徴211についての対応するK平均クラスタ223(Y=[y1,y2,...,yT])を出力として生成する。
【0069】
いくつかの例では、目標損失モジュール360が、対照トレーニング目標345および交差エントロピー損失355に基づいて、最終的なトレーニング目標365(Lwb)を導出する。特に、目標損失モジュール360は、それぞれのマスキングされた符号化表現211mに対応するそれぞれのマスクなし符号化表現211用に生成された、対応する対照コンテキストベクトル215および対応するターゲットコンテキストベクトル219に基づいて、対照損失項342および対照損失目標345を導出する。その上、目標損失モジュール360が、それぞれのマスキングされた符号化表現211mに対応するそれぞれのマスクなし符号化表現211のために生成された、対応する精錬された対照コンテキストベクトル213および対応するK平均クラスタ223に基づいて、交差エントロピー損失355(Lce)を導出する。各それぞれのマスキングされた符号化表現211m用に、目標損失モジュール360は、対照損失項342(または対照損失目標345)および交差エントロピー損失355に基づいて最終的なトレーニング目標を、
Lwb=Lce+Lwv (8)
によって判断する。
【0070】
式8において、Lwbは最終的なトレーニング目標365を表す。トレーニングプロセス300は、最終的なトレーニング目標365に基づいてオーディオエンコーダ210のパラメータを更新することによって、オーディオエンコーダ210をトレーニングし得る。
【0071】
上述したように、トレーニングプロセス300は、発声に対応する符号化表現211のシーケンスの中の各符号化表現211(たとえば、フレームレベル)についての損失を判断する。いくつかの事例では、トレーニングプロセス300は、フレームレベルではなく、より粗い発声レベルでトレーニング用サンプルを選択することで恩恵を被り得る。したがって、トレーニングプロセス300は、マスキングされた符号化表現211のセットの中のマスキングされた符号化表現211mすべての信頼性スコア416を、
【0072】
【数12】
【0073】
によって平均することによって、発声レベル信頼性スコアを判断し得る。
【0074】
式9において、suは発声レベル信頼性スコアを表す。その上、トレーニングプロセス300は、発声レベル信頼性スコアに基づいて、最終的なトレーニング目標365を重み付けしてよい。たとえば、トレーニングプロセス300は、高い発声レベル信頼性スコアに関連付けられた最終的なトレーニング目標365に、高い重みを割り当てる。したがって、高い重みをもつ、重み付けされた最終的なトレーニング目標365が、より低い重みをもつ、重み付けされた最終的なトレーニング目標365よりも大きい影響を、オーディオエンコーダ210の事前トレーニングに対して有することになる。
【0075】
図5は、マスク音声モデリングのための被誘導データ選択の方法500のための動作の例示的並びのフローチャートである。方法500は、メモリハードウェア620(図6)に記憶された命令を使って、データ処理ハードウェア610(図6)上で実行し得る。データ処理ハードウェア610およびメモリハードウェア620は、コンピューティングデバイス600(図6)に対応する図1のユーザデバイス102および/またはリモートコンピューティングデバイス201上に常駐し得る。
【0076】
動作502において、方法500は、発声106に対応する符号化表現211、211a~nのシーケンスを取得するステップを含む。符号化表現211のシーケンスの中の各それぞれの符号化表現211に対して、方法500は動作504および506を実施する。動作504において、方法500は、スコアラーモデル410を使って、それぞれの符号化表現211を処理して、それぞれの符号化表現211についての可能な音声認識仮定412に関する対応する確率分布414を生成するステップを含む。動作506において、方法500は、それぞれの符号化表現211に、それぞれの符号化表現211についての音声認識仮定412に関する対応する確率分布414からの最高確率として、信頼性スコア416を割り当てるステップを含む。動作508において、方法500は、符号化表現211のシーケンスに割り当てられた信頼性スコア416に基づいて、マスキングするべきマスクなし符号化表現211のセットを、符号化表現211のシーケンスから選択するステップを含む。動作510において、方法500は、マスクなし符号化表現211の選択されたセットをマスキングすることによって、マスキングされた符号化表現211、211mのセットを生成するステップを含む。ここで、マスキングされた符号化表現211mのセットの中の各マスキングされた符号化表現211mは、マスクなし符号化表現211の選択されたセットの中のマスクなし符号化表現211のそれぞれの1つに対応する。
【0077】
図6は、本文書に記載するシステムおよび方法を実装するのに使うことができる例示的コンピューティングデバイス600の概略図である。コンピューティングデバイス600は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなど、様々な形のデジタルコンピュータを表すことを意図している。ここに示す構成要素、それらの接続および関係、ならびにそれらの機能は、例示にすぎないものとし、本明細書で説明および/または請求する本発明の実装形態を限定するものではない。
【0078】
コンピューティングデバイス600は、プロセッサ610と、メモリ620と、記憶デバイス630と、メモリ620および高速拡張ポート650に接続する高速インターフェース/コントローラ640と、低速バス670および記憶デバイス630に接続する低速インターフェース/コントローラ660とを含む。構成要素610、620、630、640、650、および660の各々は、様々なバスを使って相互接続され、共通マザーボード上に、または必要に応じて他の方式で搭載されてよい。プロセッサ610は、グラフィカルユーザインターフェース(GUI)についてのグラフィカル情報を、高速インターフェース640に結合されたディスプレイ680などの外部入力/出力デバイス上に表示するための、メモリ620中または記憶デバイス630上に記憶された命令を含む、コンピューティングデバイス600内での実行のための命令を処理することができる。他の実装形態では、複数のプロセッサおよび/または複数のバスが、必要に応じて、複数のメモリおよび複数のタイプのメモリとともに使われてよい。また、複数のコンピューティングデバイス600が接続されてよく、各デバイスは、必要な動作の部分を(たとえば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして)提供する。
【0079】
メモリ620は、コンピューティングデバイス600内に情報を非一時的に記憶する。メモリ620は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってよい。非一時的メモリ620は、プログラム(たとえば、命令のシーケンス)またはデータ(たとえば、プログラム状態情報)を、コンピューティングデバイス600による使用のために、一時的または永続的に記憶するのに使用される物理デバイスであってよい。不揮発性メモリの例は、限定はしないが、フラッシュメモリおよび読取り専用メモリ(read-only memory:ROM)/プログラム可能読取り専用メモリ(programmable read-only memory:PROM)/消去可能プログラマブル読取り専用メモリ(erasable programmable read-only memory:EPROM)/電子的消去可能プログラマブル読取り専用メモリ(electronically erasable programmable read-only memory:EEPROM)(たとえば、通常は、ブートプログラムなどのファームウェア用に使われる)を含む。揮発性メモリの例は、限定はしないが、ランダムアクセスメモリ(random access memory:RAM)、動的ランダムアクセスメモリ(dynamic random access memory:DRAM)、スタティックランダムアクセスメモリ(static random access memory:SRAM)、相変化メモリ(phase change memory:PCM)ならびにディスクまたはテープを含む。
【0080】
記憶デバイス630は、コンピューティングデバイス600に大容量記憶を提供することが可能である。いくつかの実装形態では、記憶デバイス630は、コンピュータ可読媒体である。様々な異なる実装形態では、記憶デバイス630は、フロッピーディスクデバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、あるいは、ストレージエリアネットワークまたは他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実施形態では、コンピュータプログラム製品は、情報キャリアにおいて有形に具現化される。コンピュータプログラム製品は、実行されると、上記で説明されたものなどの1つまたは複数の方法を実施する命令を含む。情報キャリアは、メモリ620、記憶デバイス630、またはプロセッサ610上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。
【0081】
高速コントローラ640は、コンピューティングデバイス600向けの帯域消費型動作を管理し、低速コントローラ660は、より帯域低消費型の動作を管理する。役割のそのような割振りは、例示にすぎない。いくつかの実装形態では、高速コントローラ640は、メモリ620、ディスプレイ680に(たとえば、グラフィックスプロセッサまたはアクセラレータを通して)結合され、および様々な拡張カード(図示せず)を受け入れることができる高速拡張ポート650に結合される。いくつかの実装形態では、低速コントローラ660は、記憶デバイス630および低速拡張ポート690に結合される。低速拡張ポート690は、様々な通信ポート(たとえば、USB、Bluetooth、イーサネット、ワイヤレスイーサネット)を含み得るが、キーボード、ポインティングデバイス、スキャナなど、1つもしくは複数の入力/出力デバイス、またはスイッチもしくはルータなどのネットワークデバイスに、たとえば、ネットワークアダプタを通して結合され得る。
【0082】
コンピューティングデバイス600は、図に示すように、いくつかの異なる形で実装されてよい。たとえば、コンピューティングデバイス600は、標準的なサーバ600aとして、もしくはそのようなサーバ600aのグループで何度も、またはラップトップコンピュータ600bとして、またはラックサーバシステム600cの一部として実装され得る。
【0083】
本明細書で説明するシステムおよび技法の様々な実装形態は、デジタル電子および/もしくは光学回路構成、集積回路構成、特別に設計されたASIC(特定用途向け集積回路)、コンピュータハードウェア、ファームウェア、ソフトウェア、ならびに/またはそれらの組合せで実現され得る。これらの様々な実装形態は、少なくとも1つのプログラマブルプロセッサを含むプログラマブルシステム上で実行可能および/または解釈可能な1つまたは複数のコンピュータプログラムにおける実装を含むことができ、プログラマブルプロセッサは、記憶システム、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスからデータおよび命令を受信するように、かつそれらにデータおよび命令を送信するように結合された、専用または汎用であってもよい。
【0084】
これらのコンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる)は、プログラム可能プロセッサ用の機械命令を含み、高度手続型および/もしくはオブジェクト指向プログラミング言語で、ならびに/またはアセンブリ/機械言語で実装され得る。本明細書で使用する「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械命令を機械可読信号として受信する機械可読媒体を含むプログラマブルプロセッサに、機械命令および/またはデータを提供するために使用される、任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および/またはデバイス(たとえば、磁気ディスク、光ディスク、メモリ、プログラマブル論理デバイス(Programmable Logic Device:PLD))を指す。「機械可読信号」という用語は、プログラム可能プロセッサに機械命令および/またはデータを提供するのに使われるどの信号も指す。
【0085】
本明細書に記載したプロセスおよび論理フローは、入力データに対して動作し、出力を生成することによって機能を実施するための1つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる1つまたは複数のプログラム可能プロセッサによって実施することができる。プロセスおよび論理フローは、特殊目的論理回路構成、たとえば、FPGA(field programmable gate array、フィールドプログラマブルゲートアレイ)やASIC(application specific integrated circuit、特定用途向け集積回路)によって実施することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用および専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の1つまたは複数のプロセッサを含む。概して、プロセッサは、読取り専用メモリもしくはランダムアクセスメモリまたは両方から、命令およびデータを受信することになる。コンピュータの本質的要素は、命令を実施するためのプロセッサ、ならびに命令およびデータを記憶するための1つまたは複数のメモリデバイスである。概して、コンピュータは、データを記憶するための1つまたは複数の大容量記憶デバイス、たとえば、磁気、光磁気ディスク、または光ディスクも含み、あるいは大容量記憶デバイスからデータを受信し、もしくはデータを転送し、または両方を行うように大容量記憶デバイスに動作可能に結合される。ただし、コンピュータは、そのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、たとえば、EPROM、EEPROM、およびフラッシュメモリデバイスと、磁気ディスク、たとえば、内部ハードディスクまたは取外し可能ディスクと、光磁気ディスクと、CD-ROMおよびDVD-ROMディスクとを含む、すべての形態の不揮発性メモリ、媒体およびメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路構成によって補完することも、その中に組み込むこともできる。
【0086】
ユーザとの対話を可能にするために、本開示の1つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、たとえば、CRT(cathode ray tube、陰極線管)やLCD(liquid crystal display、液晶ディスプレイ)モニタ、またはタッチスクリーンと、任意選択で、ユーザがコンピュータに入力を与えることができるためのキーボードおよびポインティングデバイス、たとえば、マウスやトラックボールとを有するコンピュータ上で実装することができる。他の種類のデバイスも、ユーザとの対話を可能にするために使用されることが可能であり、たとえば、ユーザに与えられるフィードバックは、任意の形態の感覚フィードバック、たとえば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声、または触覚入力を含む、任意の形態で受信されることが可能である。加えて、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、そのデバイスから文書を受信することによって、たとえば、ユーザのクライアントデバイス上のウェブブラウザから受信された要求に応答して、そのウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。
【0087】
いくつかの実装形態について説明した。それにもかかわらず、本開示の趣旨および範囲から逸脱することなく、様々な修正が行われ得ることが理解されよう。したがって、他の実装形態が、以下の特許請求の範囲内にある。
【符号の説明】
【0088】
100 自動化音声認識(ASR)システム
102 ユーザデバイス
107 インターフェースジェネレータ
108 オーディオサブシステム
111 データ処理ハードウェア
113 メモリハードウェア
200 ASRモデル、RNN-Tモデル
201 リモートコンピューティングデバイス
210 エンコーダネットワーク、オーディオエンコーダ
212 畳み込みサブサンプリングブロック
214 線形レイヤ
216 コンフォーマブロック
218 量子化器
220 予測ネットワーク
222 クラスタモジュール
224 量子化モジュール
230 共同ネットワーク
240 ソフトマックスレイヤ
330 テキスト音声(TTS)システム
340 対照損失モジュール
350 交差エントロピー損失モジュール
360 目標損失モジュール
400 マスキングモジュール
410 スコアラーモデル、スコアラー
420 マスカー
600 コンピューティングデバイス
600a 標準サーバ、サーバ
600b ラップトップコンピュータ
600c ラックサーバシステム
610 データ処理ハードウェア、プロセッサ、構成要素
620 メモリハードウェア、構成要素
630 記憶デバイス、構成要素
640 高速インターフェース/コントローラ、構成要素
650 高速拡張ポート、構成要素
660 低速インターフェース/コントローラ、構成要素
670 低速バス
680 ディスプレイ
690 低速拡張ポート
図1
図2
図3A
図3B
図3C
図4
図5
図6
【手続補正書】
【提出日】2024-06-05
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
マスク音声モデリングのための被誘導データ選択のためのコンピュータ実装方法(500)であって、前記コンピュータ実装方法(500)は、データ処理ハードウェア(610)上で実行されると、前記データ処理ハードウェア(610)に動作を実施させ、前記動作は、
発声(106)に対応する符号化表現(211)のシーケンスを取得することと、
符号化表現(211)の前記シーケンスの中の各それぞれの符号化表現(211)に対して、
スコアラーモデル(410)を使って、前記それぞれの符号化表現(211)を処理して、前記それぞれの符号化表現(211)についての可能な音声認識仮定(412)に関する対応する確率分布(414)を生成し、
前記それぞれの符号化表現(211)に、前記それぞれの符号化表現(211)についての可能な音声認識仮定(412)に関する前記対応する確率分布(414)からの最高確率として、信頼性スコア(416)を割り当てることと、
符号化表現(211)の前記シーケンスに割り当てられた前記信頼性スコア(416)に基づいて、符号化表現(211)の前記シーケンスから、マスキングするべきマスクなし符号化表現(211)のセットを選択することと、
マスクなし符号化表現(211)の前記選択されたセットをマスキングすることによって、マスキングされた符号化表現(211m)のセットを生成することであって、マスキングされた符号化表現(211m)の前記セットの中の各マスキングされた符号化表現(211m)は、マスクなし符号化表現(211)の前記選択されたセットの中の前記マスクなし符号化表現(211)の各々に対応する、こととを含む、コンピュータ実装方法(500)。
【請求項2】
マスキングするべきマスクなし符号化表現(211)の前記セットを選択することは、符号化表現(211)の前記シーケンスから、最高信頼性スコア(416)を有する上位K個の符号化表現(211)を選択することを含む、請求項1に記載のコンピュータ実装方法(500)。
【請求項3】
Kは、マスキングされるべき符号化表現(211)の前記シーケンスの中の符号化表現(211)の所定の比率に基づく、請求項2に記載のコンピュータ実装方法(500)。
【請求項4】
前記所定の比率は40パーセントに等しい、請求項3に記載のコンピュータ実装方法(500)。
【請求項5】
前記動作は、
マスキングするべきマスクなし符号化表現(211)の前記選択されたセットの中の各それぞれのマスクなし符号化表現(211)に対して、量子化器(218)を使って、前記それぞれのマスクなし符号化表現(211)用の対応するターゲットコンテキストベクトル(219)を生成することと、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、
前記それぞれのマスキングされた符号化表現(211m)用の対応する対照コンテキストベクトル(215)を生成し、
前記それぞれのマスキングされた符号化表現(211m)に対応する前記それぞれのマスクなし符号化表現(211)用に生成された、前記対応する対照コンテキストベクトル(215)および前記対応するターゲットコンテキストベクトル(219)に基づいて、対照損失(342)を生成することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記対照損失(342)を使って、オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項1から4のいずれか一項に記載のコンピュータ実装方法(500)。
【請求項6】
前記動作は、
マスキングするべきマスクなし符号化表現(211)の前記選択されたセットの中の各それぞれのマスクなし符号化表現(211)に対して、クラスタモジュール(222)を使って、前記それぞれのマスクなし符号化表現(211)用の対応するK平均クラスタ(223)を生成することと、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、前記それぞれのマスキングされた符号化表現(211m)に対応する前記それぞれのマスクなし符号化表現(211m)用に生成された、前記対応する対照コンテキストベクトル(215)および前記対応するK平均クラスタ(223)に基づいて、交差エントロピー損失(355)を生成することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記交差エントロピー損失(355)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項5に記載のコンピュータ実装方法(500)。
【請求項7】
前記動作は、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、前記対照損失(342)および前記交差エントロピー損失(355)に基づいて、最終的なトレーニング目標(365)を判断することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記最終的なトレーニング目標(365)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項6に記載のコンピュータ実装方法(500)。
【請求項8】
前記動作は、
マスキングされた符号化表現(211m)の前記セットの中の前記信頼性スコア(416)を平均することによって、発声レベル信頼性スコア(416)を判断することと、
前記発声レベル信頼性スコア(416)に基づいて前記最終的なトレーニング目標(365)を重み付けすることと、
前記重み付けされた最終的なトレーニング目標(365)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項7に記載のコンピュータ実装方法(500)。
【請求項9】
前記動作は、前記対照コンテキストベクトル(215)からボトルネック特徴(217)を抽出することをさらに含む、請求項6に記載のコンピュータ実装方法(500)。
【請求項10】
前記動作は、前記抽出されたボトルネック特徴(217)を使って、各対応するK平均クラスタ(223)を精錬することをさらに含む、請求項9に記載のコンピュータ実装方法(500)。
【請求項11】
データ処理ハードウェア(610)と、
前記データ処理ハードウェア(610)と通信するメモリ(620)ハードウェアとを備えるシステム(100)であって、前記メモリ(620)ハードウェアは、前記データ処理ハードウェア(610)上で実行されると、前記データ処理ハードウェア(610)に動作を実施させる命令を記憶し、前記動作は、
発声(106)に対応する符号化表現(211)のシーケンスを取得することと、
符号化表現(211)の前記シーケンスの中の各それぞれの符号化表現(211)に対して、
スコアラーモデル(410)を使って、前記それぞれの符号化表現(211)を処理して、前記それぞれの符号化表現(211)についての可能な音声認識仮定(412)に関する対応する確率分布(414)を生成し、
前記それぞれの符号化表現(211)に、前記それぞれの符号化表現(211)についての可能な音声認識仮定(412)に関する前記対応する確率分布(414)からの最高確率として、信頼性スコア(416)を割り当てることと、
符号化表現(211)の前記シーケンスに割り当てられた前記信頼性スコア(416)に基づいて、符号化表現(211)の前記シーケンスから、マスキングするべきマスクなし符号化表現(211)のセットを選択することと、
マスクなし符号化表現(211)の前記選択されたセットをマスキングすることによって、マスキングされた符号化表現(211m)のセットを生成することであって、マスキングされた符号化表現(211m)の前記セットの中の各マスキングされた符号化表現(211m)は、マスクなし符号化表現(211)の前記選択されたセットの中の前記マスクなし符号化表現(211)の各々に対応する、こととを含む、システム(100)。
【請求項12】
マスキングするべきマスクなし符号化表現(211)の前記セットを選択することは、符号化表現(211)の前記シーケンスから、最高信頼性スコア(416)を有する上位K個の符号化表現(211)を選択することを含む、請求項11に記載のシステム(100)。
【請求項13】
Kは、マスキングされるべき符号化表現(211)の前記シーケンスの中の符号化表現(211)の所定の比率に基づく、請求項12に記載のシステム(100)。
【請求項14】
前記所定の比率は40パーセントに等しい、請求項13に記載のシステム(100)。
【請求項15】
前記動作は、
マスキングするべきマスクなし符号化表現(211)の前記選択されたセットの中の各それぞれのマスクなし符号化表現(211)に対して、量子化器(218)を使って、前記それぞれのマスクなし符号化表現(211)用の対応するターゲットコンテキストベクトル(219)を生成することと、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、
前記それぞれのマスキングされた符号化表現(211m)用の対応する対照コンテキストベクトル(215)を生成し、
前記それぞれのマスキングされた符号化表現(211m)に対応する前記それぞれのマスクなし符号化表現(211)用に生成された、前記対応する対照コンテキストベクトル(215)および前記対応するターゲットコンテキストベクトル(219)に基づいて、対照損失(342)を生成することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記対照損失(342)を使って、オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項11から14のいずれか一項に記載のシステム(100)。
【請求項16】
前記動作は、
マスキングするべきマスクなし符号化表現(211)の前記選択されたセットの中の各それぞれのマスクなし符号化表現(211)に対して、クラスタモジュール(222)を使って、前記それぞれのマスクなし符号化表現(211)用の対応するK平均クラスタ(223)を生成することと、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、前記それぞれのマスキングされた符号化表現(211m)に対応する前記それぞれのマスクなし符号化表現(211m)用に生成された、前記対応する対照コンテキストベクトル(215)および前記対応するK平均クラスタ(223)に基づいて、交差エントロピー損失(355)を生成することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記交差エントロピー損失(355)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項15に記載のシステム(100)。
【請求項17】
前記動作は、
マスキングされた符号化表現(211m)の前記セットの中の各それぞれのマスキングされた符号化表現(211m)に対して、前記対照損失(342)および前記交差エントロピー損失(355)に基づいて、最終的なトレーニング目標(365)を判断することと、
マスキングされた符号化表現(211m)の前記セット用に生成された前記最終的なトレーニング目標(365)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項16に記載のシステム(100)。
【請求項18】
前記動作は、
マスキングされた符号化表現(211m)の前記セットの中の前記信頼性スコア(416)を平均することによって、発声レベル信頼性スコア(416)を判断することと、
前記発声レベル信頼性スコア(416)に基づいて前記最終的なトレーニング目標(365)を重み付けすることと、
前記重み付けされた最終的なトレーニング目標(365)を使って、前記オーディオエンコーダ(210)を事前トレーニングすることとをさらに含む、請求項17に記載のシステム(100)。
【請求項19】
前記動作は、前記対照コンテキストベクトル(215)からボトルネック特徴(217)を抽出することをさらに含む、請求項16に記載のシステム(100)。
【請求項20】
前記動作は、前記抽出されたボトルネック特徴(217)を使って、各対応するK平均クラスタ(223)を精錬することをさらに含む、請求項19に記載のシステム(100)。
【国際調査報告】