7662907 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

7662907言語モデル融合ＡＳＲシステムにおける意図的でない記憶の検出

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2025-04-07

(45)【発行日】2025-04-15

(54)【発明の名称】言語モデル融合ＡＳＲシステムにおける意図的でない記憶の検出

(51)【国際特許分類】

G10L 15/183 20130101AFI20250408BHJP

G10L 15/06 20130101ALI20250408BHJP

【ＦＩ】

G10L15/183

G10L15/06

【請求項の数】 30

(21)【出願番号】P 2024561806

(86)(22)【出願日】2023-04-19

(86)【国際出願番号】 US2023019135

(87)【国際公開番号】W WO2023205261

(87)【国際公開日】2023-10-26

【審査請求日】2024-11-18

(31)【優先権主張番号】63/363,240

(32)【優先日】2022-04-19

(33)【優先権主張国・地域又は機関】US

【早期審査対象出願】

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(72)【発明者】

【氏名】ファン、ロニー

(72)【発明者】

【氏名】チェン、スティーブ

(72)【発明者】

【氏名】タッカー、オム

(72)【発明者】

【氏名】マシューズ、ラジブ

【審査官】土井悠生

(56)【参考文献】

【文献】特開２００３－２０２８９３（ＪＰ，Ａ）

【文献】特開２０１０－２７１７５１（ＪＰ，Ａ）

【文献】中村優太, 外7名，“診療記録で事前学習した言語モデルからの学習データ中の人名漏洩リスクの推定”，言語処理学会第２７回年次大会発表論文集［ｏｎｌｉｎｅ］ Proceedings of the Twenty-seventh Annual Meeting of the Association for Natural Language Processing，日本，言語処理学会，2021年03月08日，p.986-991

【文献】C. Song, 外1名，“Auditing Data Provenance in Text-Generation Models”，arXiv.org，2018年11月01日，p.1-11，[2025.3.10検索], インターネット<URL:https://arxiv.org/pdf/1811.00513>

【文献】N. Carlini, 外4名，“The Secret Sharer: Evaluating and Testing Unintended Memorization in Neural Networks”，arXiv.org，2018年02月22日，p.1-19，[2025.3.10検索], インターネット<URL: https://arxiv.org/pdf/1802.08232>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／００－９９／００

(57)【特許請求の範囲】

【請求項1】

コンピュータ実装方法（４００）であって、データ処理ハードウェア（５１０）で実行されるとき、前記データ処理ハードウェア（５１０）に、
カナリアテキストサンプル（１３４）のセットをトレーニングテキストサンプル（１３０）のコーパスに挿入することと、
前記トレーニングテキストサンプル（１３０）のコーパス、及び前記トレーニングテキストサンプル（１３０）のコーパスに挿入された前記カナリアテキストサンプル（１３４）のセットで外部言語モデル（１６０）を訓練することと、
前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプル（１３４）ごとに、
テキスト読み出し（ＴＴＳ）システム（１４０）を使用して、対応する合成音声発話（１４２）を生成することと、
入力として、前記対応する合成音声発話（１４２）を受け取るように構成された訓練された自動音声認識（ＡＳＲ）モデル（２００）を使用して、前記対応する合成音声発話（１４２）の初期転写（２３２）を生成することと、
前記トレーニングテキストサンプル（１３０）のコーパス、及び前記トレーニングテキストサンプル（１３０）のコーパスに挿入された前記カナリアテキストサンプル（１３４）のセットで訓練された前記外部言語モデル（１６０）を使用して、対応する合成音声発話（１４２）ごとに生成された前記初期転写（２３２）を再スコアリングすることと、
再スコアリングされた前記初期転写（１２０）及び前記カナリアテキストサンプル（１３４）に基づいて、前記外部言語モデル（１６０）のワード誤り率（ＷＥＲ）（１５２）を決定することと、
前記外部言語モデル（１６０）の前記ＷＥＲ（１５２）に基づいて、前記外部言語モデル（１６０）による前記カナリアテキストサンプル（１３４）の記憶を検出することと、
を含む動作を実行させる、前記コンピュータ実装方法（４００）。

【請求項2】

前記外部言語モデル（１６０）のより低いＷＥＲ（１５２）が、前記外部言語モデル（１６０）による前記カナリアテキストサンプル（１３４）の記憶の増加に対応する、請求項１に記載のコンピュータ実装方法（４００）。

【請求項3】

前記動作が、
外来テキストサンプル（１３６）のセットをトレーニングテキストサンプル（１３６）の第２のコーパスに挿入することと、
前記トレーニングテキストサンプル（１３１）の第２のコーパス、及び前記トレーニングテキストサンプル（１３１）の第２のコーパスに挿入された前記外来テキストサンプル（１３６）のセットで第２の外部言語モデル（１７０）を訓練することと、
前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプル（１３４）ごとに、前記対応する合成音声発話（１４２）のために前記訓練されたＡＳＲモデル（２００）によって生成された前記初期転写（２３２）を受け取ることと、
前記トレーニングテキストサンプル（１３１）の第２のコーパス、及び前記トレーニングテキストサンプル（１３１）の第２のコーパスに挿入された前記外来テキストサンプル（１３６）のセットで訓練された前記第２の外部言語モデル（１７０）を使用して、対応する合成音声発話（１４２）ごとに生成された前記初期転写（２３２）を再スコアリングすることと、
前記第２の外部言語モデル（１７０）によって再スコアリングされた前記初期転写（２３２）及び前記カナリアテキストサンプル（１３４）に基づいて、前記第２の外部言語モデル（１７０）の第２のＷＥＲ（１５４）を決定することと、
前記外部言語モデル（１６０）の前記ＷＥＲ（１５２）と前記第２の外部言語モデル（１７０）の前記第２のＷＥＲ（１５４）を比較することにより、前記外部言語モデル（１６０）による前記カナリアテキストサンプル（１３４）の記憶を検出することと、
をさらに含む、請求項１または２に記載のコンピュータ実装方法（４００）。

【請求項4】

前記動作が、前記外部言語モデル（１６０）を訓練するときに、所定数の前記カナリアテキストサンプル（１３４）から勾配をクリッピングすることによるサンプルごとの勾配クリッピングを適用することにより、前記外部言語モデル（１６０）による前記カナリアテキストサンプル（１３４）の前記検出された記憶を軽減することをさらに含む、請求項１または２に記載のコンピュータ実装方法（４００）。

【請求項5】

前記動作が、前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプル（１３４）ごとに、
前記対応する合成音声発話（１４４）の接頭辞部分（１４６）にいかなるノイズも追加せずに、前記対応する合成音声発話（１４２）の接尾辞部分（１４４）にノイズを追加することと、
分類器（１８０）を使用して、前記対応するカナリアテキストサンプル（１３４）と一致する前記対応する合成音声発話（１４２）のために生成された再スコアリングされた前記初期転写（１２０）に基づいて、前記対応するカナリアテキストサンプル（１３４）が前記外部言語モデル（１６０）を訓練するために使用されたと決定することと、
をさらに含む、請求項１または２に記載のコンピュータ実装方法（４００）。

【請求項6】

前記カナリアテキストサンプル（１３４）のセット内の各カナリアテキストサンプル（１３４）が、それぞれがスペースで分離されたランダムな英数字の固定長シーケンスを含む、請求項１または２に記載のコンピュータ実装方法（４００）。

【請求項7】

前記カナリアテキストサンプル（１３４）のセットを前記トレーニングテキストサンプル（１３４）のコーパスに挿入することが、
前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプルの第１の部分の各カナリアテキストサンプル（１３４）を、１回だけ、前記トレーニングテキストサンプル（１３０）のコーパスに挿入することと、
前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプルの第２の部分の各カナリアテキストサンプル（１３４）を、２回以上、前記トレーニングテキストサンプル（１３０）のコーパスに挿入することであって、前記カナリアテキストサンプルの第２の部分が、前記カナリアテキストサンプルの第１の部分とは異なるカナリアテキストサンプル（１３４）を含む、前記挿入することと、
を含む、請求項１または２に記載のコンピュータ実装方法（４００）。

【請求項8】

前記外部言語モデル（１６０）が外部ニューラル言語モデルを含む、請求項１または２に記載のコンピュータ実装方法（４００）。

【請求項9】

前記外部ニューラル言語モデルが、トランスフォーマ層またはコンフォーマ層のスタックを含む、請求項８に記載のコンピュータ実装方法（４００）。

【請求項10】

前記動作が、前記訓練された外部言語モデル（１６０）を前記訓練されたＡＳＲモデル（２００）と統合することをさらに含み、前記訓練された外部言語モデル（１６０）が、前記訓練されたＡＳＲモデル（２００）によって予測される、可能性のある音声認識仮説にわたる確率分布（２３２）を再スコアリングするように構成される、請求項１または２に記載のコンピュータ実装方法（４００）。

【請求項11】

前記訓練されたＡＳＲモデル（２００）が、
第１のエンコーダ（２１０）であって、
入力として、音響フレーム（１１０）のシーケンスを受け取ることと、
複数の出力ステップのそれぞれで、前記音響フレーム（１１０）のシーケンス内の対応する音響フレーム（１１０）の第１の高次特徴表現（２１２）を生成することと、
を行うように構成された前記第１のエンコーダ（２１０）と、
第２のエンコーダ（２２０）であって、
入力として、前記複数の出力ステップのそれぞれで前記第１のエンコーダ（２１０）によって生成された前記第１の高次特徴表現（２１２）を受け取ることと、
前記複数の出力ステップのそれぞれで、対応する第１の高次特徴フレーム（２１２）のために第２の高次特徴表現（２２２）を生成することと、
を行うように構成された前記第２のエンコーダ（２２０）と、
デコーダ（２０６）であって、
入力として、前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成された前記第２の高次特徴表現（２２２）を受け取ることと、
前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説にわたる第１の確率分布（２３２）を生成することと、
を行うよう構成された前記デコーダ（２０６）と
を備える、請求項１または２に記載のコンピュータ実装方法（４００）。

【請求項12】

前記デコーダ（２０６）または別のデコーダが、
入力として、前記複数の出力ステップのそれぞれで前記第１のエンコーダ（２１０）によって生成された前記第１の高次特徴表現（２１２）を受け取ることと、
前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説にわたる第２の確率分布（２３２）を生成することと、
を行うようさらに構成される、請求項１１に記載のコンピュータ実装方法（４００）。

【請求項13】

前記デコーダ（２０６）が、
予測ネットワーク（２４０）であって、前記複数の出力ステップのそれぞれで、
入力として、最終ソフトマックス層によって出力されるＮ個の以前の非空白記号のシーケンスを受け取ることと、
前記Ｎ個の以前の非空白記号のシーケンスの非空白記号ごとに、それぞれの埋め込みを生成することと、
前記それぞれの埋め込みを平均化することによって平均埋め込み（２４２）を生成することと、
を行うように構成された前記予測ネットワーク（２４０）と、
共同ネットワーク（２３０）であって、
入力として、前記複数の出力ステップのそれぞれで、前記予測ネットワーク（２４０）によって生成された前記平均埋め込み（２４２）、及び
前記ＡＳＲモデル（２００）がストリーミングモードで動作しているとき、前記複数の出力ステップのそれぞれで前記第１のエンコーダ（２１０）によって生成される前記第１の高次特徴表現（２１２）、または
前記ＡＳＲモデル（２００）が非ストリーミングモードで動作しているとき、前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成される前記第２の高次特徴表現（２２２）
の１つを受け取ることと、
前記複数の出力ステップのそれぞれで、
前記ＡＳＲモデル（２００）が前記ストリーミングモードで動作しているとき、可能性のある音声認識仮説にわたる前記第２の確率分布（２３２）、または
前記ＡＳＲモデル（２００）が前記非ストリーミングモードで動作しているとき、可能性のある音声認識仮説にわたる前記第１の確率分布（２３２）
の１つを生成することと、
を行うように構成された、前記共同ネットワーク（２３０）と
を備える、請求項１２に記載のコンピュータ実装方法（４００）。

【請求項14】

前記第１のエンコーダ（２１０）が、コンフォーマ層の初期スタックを含む因果エンコーダを備え、
前記第２のエンコーダ（２２０）が、前記コンフォーマ層の前記初期スタックに重なるコンフォーマ層の最終スタックを含む非因果エンコーダを備える、
請求項１１に記載のコンピュータ実装方法（４００）。

【請求項15】

前記ＡＳＲモデルの前記第１のエンコーダ（２１０）及び前記第２のエンコーダ（２２０）が、ハイブリッド自己回帰トランスデューサ因数分解を使用して、前記トレーニングテキストサンプル（１３０）のコーパスと、前記トレーニングテキストサンプル（１３０）のコーパスに挿入された前記カナリアテキストサンプル（１３４）のセットとを含む、テキストのみのデータで訓練された前記外部言語モデル（１６０）の統合を容易にするように訓練される、請求項１１に記載のコンピュータ実装方法（４００）。

【請求項16】

システム（５００）であって、
データ処理ハードウェア（５１０）と、
前記データ処理ハードウェア（５１０）と通信するメモリハードウェア（５２０）であって、前記メモリハードウェア（５２０）が、前記データ処理ハードウェア（５１０）で実行されるとき、前記データ処理ハードウェア（５１０）に、
カナリアテキストサンプル（１３４）のセットをトレーニングテキストサンプル（１３０）のコーパスに挿入することと、
前記トレーニングテキストサンプル（１３０）のコーパス、及び前記トレーニングテキストサンプル（１３０）のコーパスに挿入された前記カナリアテキストサンプル（１３４）のセットで外部言語モデル（１６０）を訓練することと、
前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプル（１３４）ごとに、
テキスト読み出し（ＴＴＳ）システム（１４０）を使用して、対応する合成音声発話（１４２）を生成することと、
入力として、前記対応する合成音声発話（１４２）を受け取るように構成された訓練された自動音声認識（ＡＳＲ）モデル（２００）を使用して、前記対応する合成音声発話（１４２）の初期転写（２３２）を生成することと、
前記トレーニングテキストサンプル（１３０）のコーパス、及び前記トレーニングテキストサンプル（１３０）のコーパスに挿入された前記カナリアテキストサンプル（１３４）のセットで訓練された前記外部言語モデル（１６０）を使用して、対応する合成音声発話（１４２）ごとに生成された前記初期転写（２３２）を再スコアリングすることと、
再スコアリングされた前記初期転写（１２０）及び前記カナリアテキストサンプル（１３４）に基づいて、前記外部言語モデル（１６０）のワード誤り率（ＷＥＲ）（１５２）を決定することと、
前記外部言語モデル（１６０）の前記ＷＥＲ（１５２）に基づいて、前記外部言語モデル（１６０）による前記カナリアテキストサンプル（１３４）の記憶を検出することと、
を含む動作を実行させる命令を格納する前記メモリハードウェア（５２０）と、
を備える、システム（５００）。

【請求項17】

前記外部言語モデル（１６０）のより低いＷＥＲ（１５２）が、前記外部言語モデル（１６０）による前記カナリアテキストサンプル（１３４）の記憶の増加に対応する、請求項１６に記載のシステム（５００）。

【請求項18】

前記動作が、
外来テキストサンプル（１３６）のセットをトレーニングテキストサンプル（１３６）の第２のコーパスに挿入することと、
前記トレーニングテキストサンプル（１３１）の第２のコーパス、及び前記トレーニングテキストサンプル（１３１）の第２のコーパスに挿入された前記外来テキストサンプル（１３６）のセットで第２の外部言語モデル（１７０）を訓練することと、
前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプル（１３４）ごとに、前記対応する合成音声発話（１４２）のために前記訓練されたＡＳＲモデル（２００）によって生成された前記初期転写（２３２）を受け取ることと、
前記トレーニングテキストサンプル（１３１）の第２のコーパス、及び前記トレーニングテキストサンプル（１３１）の第２のコーパスに挿入された前記外来テキストサンプル（１３６）のセットで訓練された前記第２の外部言語モデル（１７０）を使用して、対応する合成音声発話（１４２）ごとに生成された前記初期転写（２３２）を再スコアリングすることと、
前記第２の外部言語モデル（１７０）によって再スコアリングされた前記初期転写（２３２）及び前記カナリアテキストサンプル（１３４）に基づいて、前記第２の外部言語モデル（１７０）の第２のＷＥＲ（１５４）を決定することと、
前記外部言語モデル（１６０）の前記ＷＥＲ（１５２）と前記第２の外部言語モデル（１７０）の前記第２のＷＥＲ（１５４）を比較することにより、前記外部言語モデル（１６０）による前記カナリアテキストサンプル（１３４）の記憶を検出することと、
をさらに含む、請求項１６または１７に記載のシステム（５００）。

【請求項19】

前記動作が、前記外部言語モデル（１６０）を訓練するときに、所定数の前記カナリアテキストサンプル（１３４）から勾配をクリッピングすることによるサンプルごとの勾配クリッピングを適用することにより、前記外部言語モデル（１６０）による前記カナリアテキストサンプル（１３４）の前記検出された記憶を軽減することをさらに含む、請求項１６または１７に記載のシステム（５００）。

【請求項20】

前記動作が、前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプル（１３４）ごとに、
前記対応する合成音声発話（１４４）の接頭辞部分（１４６）にいかなるノイズも追加せずに、前記対応する合成音声発話（１４２）の接尾辞部分（１４４）にノイズを追加することと、
分類器（１８０）を使用して、前記対応するカナリアテキストサンプル（１３４）と一致する前記対応する合成音声発話（１４２）のために生成された再スコアリングされた前記初期転写（１２０）に基づいて、前記対応するカナリアテキストサンプル（１３４）が前記外部言語モデル（１６０）を訓練するために使用されたと決定することと、
をさらに含む、請求項１６または１７に記載のシステム（５００）。

【請求項21】

前記カナリアテキストサンプル（１３４）のセット内の各カナリアテキストサンプル（１３４）が、それぞれがスペースで分離されたランダムな英数字の固定長シーケンスを含む、請求項１６または１７に記載のシステム（５００）。

【請求項22】

前記カナリアテキストサンプル（１３４）のセットを前記トレーニングテキストサンプル（１３４）のコーパスに挿入することが、
前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプルの第１の部分の各カナリアテキストサンプル（１３４）を、１回だけ、前記トレーニングテキストサンプル（１３０）のコーパスに挿入することと、
前記カナリアテキストサンプル（１３４）のセット内のカナリアテキストサンプルの第２の部分の各カナリアテキストサンプル（１３４）を、２回以上、前記トレーニングテキストサンプル（１３０）のコーパスに挿入することであって、前記カナリアテキストサンプルの第２の部分が、前記カナリアテキストサンプルの第１の部分とは異なるカナリアテキストサンプル（１３４）を含む、前記挿入することと、
を含む、請求項１６または１７に記載のシステム（５００）。

【請求項23】

前記外部言語モデル（１６０）が外部ニューラル言語モデルを含む、請求項１６または１７に記載のシステム（５００）。

【請求項24】

前記外部ニューラル言語モデルが、トランスフォーマ層またはコンフォーマ層のスタックを含む、請求項２３に記載のシステム（５００）。

【請求項25】

前記動作が、前記訓練された外部言語モデル（１６０）を前記訓練されたＡＳＲモデル（２００）と統合することをさらに含み、前記訓練された外部言語モデル（１６０）が、前記訓練されたＡＳＲモデル（２００）によって予測される、可能性のある音声認識仮説にわたる確率分布（２３２）を再スコアリングするように構成される、請求項１６または１７に記載のシステム（５００）。

【請求項26】

前記訓練されたＡＳＲモデル（２００）が、
第１のエンコーダ（２１０）であって、
入力として、音響フレーム（１１０）のシーケンスを受け取ることと、
複数の出力ステップのそれぞれで、前記音響フレーム（１１０）のシーケンス内の対応する音響フレーム（１１０）の第１の高次特徴表現（２１２）を生成することと、
を行うように構成された前記第１のエンコーダ（２１０）と、
第２のエンコーダ（２２０）であって、
入力として、前記複数の出力ステップのそれぞれで前記第１のエンコーダ（２１０）によって生成された前記第１の高次特徴表現（２１２）を受け取ることと、
前記複数の出力ステップのそれぞれで、対応する第１の高次特徴フレーム（２１２）のために第２の高次特徴表現（２２２）を生成することと、
を行うように構成された前記第２のエンコーダ（２２０）と、
デコーダ（２０６）であって、
入力として、前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成された前記第２の高次特徴表現（２２２）を受け取ることと、
前記複数の出力ステップのそれぞれで、可能性のある音声認識仮説にわたる第１の確率分布（２３２）を生成することと、
を行うよう構成された前記デコーダ（２０６）と、
を備える、請求項１６または１７に記載のシステム（５００）。

【請求項27】

【請求項28】

前記デコーダ（２０６）が、
予測ネットワーク（２４０）であって、前記複数の出力ステップのそれぞれで、
入力として、最終ソフトマックス層によって出力されるＮ個の以前の非空白記号のシーケンスを受け取ることと、
前記Ｎ個の以前の非空白記号のシーケンスの非空白記号ごとに、それぞれの埋め込みを生成することと、
前記それぞれの埋め込みを平均化することによって平均埋め込み（２４２）を生成することと、を行うように構成された前記予測ネットワーク（２４０）と、
共同ネットワーク（２３０）であって、
入力として、前記複数の出力ステップのそれぞれで、前記予測ネットワーク（２４０）によって生成された前記平均埋め込み（２４２）、及び
前記ＡＳＲモデル（２００）がストリーミングモードで動作しているとき、前記複数の出力ステップのそれぞれで前記第１のエンコーダ（２１０）によって生成される前記第１の高次特徴表現（２１２）、または
前記ＡＳＲモデル（２００）が非ストリーミングモードで動作しているとき、前記複数の出力ステップのそれぞれで前記第２のエンコーダ（２２０）によって生成される前記第２の高次特徴表現（２２２）
の１つを受け取ることと、
前記複数の出力ステップのそれぞれで、
前記ＡＳＲモデル（２００）が前記ストリーミングモードで動作しているとき、可能性のある音声認識仮説にわたる前記第２の確率分布（２３２）、または
前記ＡＳＲモデル（２００）が前記非ストリーミングモードで動作しているとき、可能性のある音声認識仮説にわたる前記第１の確率分布（２３２）
の１つを生成することと、
を行うように構成された、前記共同ネットワーク（２３０）と、
を備える、請求項２７に記載のシステム（５００）。

【請求項29】

前記第１のエンコーダ（２１０）が、コンフォーマ層の初期スタックを含む因果エンコーダを備え、
前記第２のエンコーダ（２２０）が、前記コンフォーマ層の前記初期スタックに重なるコンフォーマ層の最終スタックを含む非因果エンコーダを備える、
請求項２６に記載のシステム（５００）。

【請求項30】

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、言語モデル融合ＡＳＲシステムにおける意図的でない記憶の検出に関する。

【背景技術】

【0002】

オーディオ入力を取得し、オーディオ入力をテキストに転写するプロセスである自動音声認識（ＡＳＲ）は、モバイルデバイス及び他のデバイスで使用される大いに重要な技術となっている。一般に、自動音声認識は、オーディオ入力（例えば、音声発話）を取得し、オーディオ入力をテキストに転写することにより、人が話した内容の正確な転写を提供しようとする。最新のＡＳＲモデルは、ディープニューラルネットワークの継続中の開発に基づいて、正確さ（例えば、低ワード誤り率（ＷＥＲ））とレイテンシ（例えば、クライアントの発話と転写との間の遅延）の両方で改善し続ける。いくつかの例では、最新のＡＳＲモデルは言語モデル（ＬＭ）を活用して、ＡＳＲモデルによって生成された音響的に類似した転写仮説の曖昧さを解消する。ただし、ＬＭを使用することの１つの欠点は、ＬＭのトレーニング中に潜在的に機密性の高いテキストデータを非意図的に記憶することである。結果として、機密性の高いテキストデータを記憶すると、ＬＭのプライバシーの脆弱性が生じ、これにより、ハッカーがＬＭを訓練するために使用される機密性の高いテキストデータへのアクセスを得る場合がある。

【発明の概要】

【0003】

本開示の一態様は、データ処理ハードウェアで実行されるとき、データ処理ハードウェアに、言語モデル自動音声認識（ＡＳＲ）システムでの意図的でない記憶を検出するための動作を実行させるコンピュータ実装方法を提供する。動作は、カナリアテキストサンプルのセットをトレーニングテキストサンプルのコーパスに挿入することと、トレーニングテキストサンプルのコーパス、及びトレーニングテキストサンプルのコーパスに挿入されたカナリアテキストサンプルのセットで外部言語モデルを訓練することとを含む。カナリアテキストサンプルのセット内のカナリアテキストサンプルごとに、動作は、テキスト読み上げ（ＴＴＳ）システムを使用して対応する合成音声発話を生成することと、入力として対応する合成音声発話を受け取るように構成された訓練されたＡＳＲモデルを使用して対応する合成音声発話の初期転写を生成することとを含む。動作はまた、トレーニングテキストサンプルのコーパス、及びトレーニングテキストサンプルのコーパスに挿入されたカナリアテキストサンプルのセットで訓練された外部言語モデルを使用して、対応する合成音声発話ごとに生成された初期転写を再スコアリングすることを含む。動作はまた、再スコアリングされた初期転写とカナリアテキストサンプルとに基づいて外部言語モデルのワード誤り率（ＷＥＲ）を決定することと、外部言語モデルのＷＥＲに基づいて、外部言語モデルによるカナリアテキストサンプルの記憶を検出することとを含む。

【0004】

本開示の実施態様は、以下の任意選択の特徴の１つまたは複数を含み得る。いくつかの実施態様では、外部言語モデルのより低いＷＥＲは、外部言語モデルによるカナリアテキストサンプルの記憶の増加に対応する。いくつかの例では、動作は、外来テキストサンプルのセットをトレーニングテキストサンプルの第２のコーパスに挿入することと、トレーニングテキストサンプルの第２のコーパス、及びトレーニングテキストサンプルの第２のコーパスに挿入された外来テキストサンプルのセットで第２の外部言語モデルを訓練することと、カナリアテキストサンプルのセット内のカナリアテキストサンプルごとに、対応する合成音声発話のための、訓練されたＡＳＲモデルによって生成された初期転写を受け取ることと、トレーニングテキストサンプルの第２のコーパス、及びトレーニングテキストサンプルの第２のコーパスに挿入された外来テキストサンプルのセットで訓練された第２の言語モデルを使用して対応する合成音声発話ごとに生成された初期転写を再スコアリングすることと、第２の外部言語モデルによって再スコアリングされた初期のテスト転写、及びカナリアテキストサンプルに基づいて第２の外部言語モデルの第２のＷＥＲを決定することと、外部言語モデルのＷＥＲと第２の外部言語モデルの第２のＷＥＲを比較することにより、外部言語モデルによるカナリアテキストサンプルの記憶を検出することと、をさらに含む。

【0005】

動作は、外部言語モデルを訓練するときに、所定数のカナリアテキストサンプルから勾配をクリッピングすることによるサンプルごとの勾配クリッピングを適用することにより、外部言語モデルによるカナリアテキストサンプルの検出された記憶を軽減することをさらに含み得る。いくつかの実施態様では、動作は、カナリアテキストサンプルのセット内のカナリアテキストサンプルごとに、対応する合成音声発話の接頭辞部分にいずれのノイズも追加することなく、対応する合成音声発話の接尾辞部分にノイズを追加することと、分類器を使用して、対応するカナリアテキストサンプルと一致する対応する合成音声発話のために生成された再スコアリングされた初期転写に基づいて、対応するカナリアテキストサンプルが、外部言語モデルを訓練するために使用されたと決定することとをさらに含む。カナリアテキストサンプルのセット内の各カナリアテキストサンプルは、それぞれがスペースで分離されたランダムな英数字の固定長シーケンスを含み得る。

【0006】

いくつかの例では、カナリアテキストサンプルのセットをトレーニングテキストサンプルのコーパスに挿入することは、カナリアテキストサンプルのセット内のカナリアテキストサンプルの第１の部分の各カナリアテキストサンプルを、１回だけ、トレーニングテキストサンプルのコーパスに挿入することと、カナリアテキストサンプルのセット内のカナリアテキストサンプルの第２の部分の各カナリアテキストサンプルを、２回以上、トレーニングテキストサンプルのコーパスに挿入することとを含む。これらの例では、カナリアテキストサンプルの第２の部分は、カナリアテキストサンプルの第１の部分とは異なるカナリアテキストサンプルを含む。外部言語モデルは、外部ニューラル言語モデルを含み得る。ここで、外部ニューラル言語モデルは、トランスフォーマ層またはコンフォーマ層のスタックを含み得る。いくつかの実施態様では、動作は、訓練された外部言語モデルを訓練されたＡＳＲモデルと統合することをさらに含み、訓練された外部言語モデルが、訓練されたＡＳＲモデルによって予測される、可能性のある音声認識仮説にわたる確率分布を再スコアリングするように構成される。

【0007】

いくつかの例では、訓練されたＡＳＲモデルは、入力として音響フレームのシーケンスを受け取り、複数の出力ステップのそれぞれで、音響フレームのシーケンス内の対応する音響フレームの第１の高次特徴表現を生成するように構成された第１のエンコーダと、入力として、複数の出力のステップのそれぞれで第１のエンコーダによって生成された第１の高次特徴表現を受け取り、複数の出力ステップのそれぞれで、対応する第１の高次特徴フレームのための第２の高次特徴表現を生成するように構成された第２のエンコーダと、入力として、複数の出力ステップのそれぞれで第２のエンコーダによって生成された第２の高次特徴表現を受け取り、複数の時間ステップのそれぞれで、可能性のある音声認識仮説にわたる第１の確率分布を生成するように構成されたデコーダとを含む。ここで、デコーダまたは別のデコーダは、入力として、複数の出力ステップのそれぞれで第１のエンコーダによって生成された第１の高次特徴表現を受け取り、複数の出力ステップのそれぞれで、可能性のある音声認識仮説にわたる第２の確率分布を生成するようにさらに構成され得る。

【0008】

いくつかの実施態様では、デコーダは、複数の出力ステップのそれぞれで、入力として、最終ソフトマックス層によって出力されたＮ個の以前の非空白記号のシーケンスを受け取り、Ｎ個の以前の非空白記号のシーケンスの非空白記号ごとにそれぞれの埋め込みを生成し、それぞれの埋め込みを平均することによって平均埋め込みを生成するように構成された予測ネットワークと、入力として、複数の出力ステップのそれぞれで予測ネットワークによって生成された平均埋め込み、及びＡＳＲモデルがストリーミングモードで動作しているときに複数の出力ステップのそれぞれで第１のエンコーダによって生成された第１の高次特徴表現、またはＡＳＲモデルが非ストリーミングモードで動作しているときに、複数の出力ステップのそれぞれで第２のエンコーダによって生成された第２の高次特徴表現のうちの１つを受け取るように構成された共同ネットワークとを含む。これらの実施態様では、デコーダは、複数の出力ステップのそれぞれで、ＡＳＲモデルがストリーミングモードで動作しているときの可能性のある音声認識仮説にわたる第２の確率分布、またはＡＳＲモデルが非ストリーミングモードで動作しているときの可能性のある音声認識仮説にわたる第１の確率分布のうちの１つを生成するようにさらに構成される。第１のエンコーダは、コンフォーマ層の初期スタックを有する因果エンコーダを含み得、第２のエンコーダは、コンフォーマ層の初期スタックに重なるコンフォーマ層の最終スタックを有する非因果エンコーダを含む。いくつかの例では、ＡＳＲモデルの第１のエンコーダ及び第２のエンコーダは、ハイブリッド自己回帰トランスデューサ因数分解を使用して、トレーニングテキストサンプルのコーパスと、トレーニングテキストサンプルのコーパスに挿入されたカナリアテキストサンプルのセットとを含む、テキストのみのデータで訓練された外部言語モデルの統合を容易にするように訓練される。

【0009】

本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアで実行されるとき、データ処理ハードウェアに動作を実行させる命令を格納するメモリハードウェアとを含むシステムを提供する。動作は、カナリアテキストサンプルのセットをトレーニングテキストサンプルのコーパスに挿入することと、トレーニングテキストサンプルのコーパス、及びトレーニングテキストサンプルのコーパスに挿入されたカナリアテキストサンプルのセットで外部言語モデルを訓練することとを含む。カナリアテキストサンプルのセット内のカナリアテキストサンプルごとに、動作は、テキスト読み上げ（ＴＴＳ）システムを使用して対応する合成音声発話を生成することと、入力として対応する合成音声発話を受け取るように構成された訓練されたＡＳＲモデルを使用して対応する合成音声発話の初期転写を生成することとを含む。動作はまた、トレーニングテキストサンプルのコーパス、及びトレーニングテキストサンプルのコーパスに挿入されたカナリアテキストサンプルのセットで訓練された外部言語モデルを使用して、対応する合成音声発話ごとに生成された初期転写を再スコアリングすることを含む。動作はまた、再スコアリングされた初期転写とカナリアテキストサンプルとに基づいて外部言語モデルのワード誤り率（ＷＥＲ）を決定することと、外部言語モデルのＷＥＲに基づいて、外部言語モデルによるカナリアテキストサンプルの記憶を検出することとを含む。

【0010】

【0011】

【0012】

【0013】

【0014】

【0015】

本開示の１つまたは複数の実施態様の詳細は、添付の図面及び以下の説明において述べられる。他の態様、特徴、及び利点は、説明及び図面から、ならびに特許請求の範囲から明らかになるであろう。

【図面の簡単な説明】

【0016】

【図1】自動音声認識のためにカスケードエンコーダ、及び言語モデルアーキテクチャを使用する例示的な音声環境の概略図である。

【図2A】カナリアテキストサンプルの意図的でない記憶を検出するための例示的なプロセスの概略図である。

【図2B】カナリアテキストサンプルの意図的でない記憶を検出するための例示的なプロセスの概略図である。

【図3】Ａ及びＢは、外部言語モデルを訓練するための例示的なトレーニングプロセスの概略図である。

【図4】言語モデル融合自動音声認識システムにおける意図的でない記憶を検出する方法の動作の例示的な配置のフローチャートである。

【図5】本明細書に説明するシステム及び方法を実装するために使用し得る例示的なコンピューティングデバイスの概略図である。

【発明を実施するための形態】

【0017】

種々の図面における同様の参照記号は、同様の要素を指す。

【0018】

従来、エンドツーエンド（Ｅ２Ｅ）自動音声認識（ＡＳＲ）モデルは、主要なコンポーネントとしてエンコーダと、デコーダとを含む。例えば、エンコーダは、符号化された入力オーディオデータを生成し、デコーダは、入力オーディオデータに対応する候補転写を生成する。多くの最新のＡＳＲモデルは、言語情報を使用して、ＡＳＲモデルによって生成された音響的に類似する候補転写の曖昧さを解消するように構成された外部言語モデル（ＬＭ）をさらに活用する。例えば、ＬＭは、「ドッグパークへの行き方」の方がユーザによって話される可能性が高いという言語情報に基づいて、「ドッグパークへの行き方」が「ドッグバークへの行き方」よりも正確な転写である可能性がはるかに高いと判断し得る。特に、ＬＭを活用することにより、ＡＳＲモデルは、ユーザが話すまれな言葉、または語彙外の（ＯＯＶ）言葉を認識するための性能（例えば、ワード誤り率（ＷＥＲ））を大幅に向上させ得る。

【0019】

ＬＭは、一般的なテキストサンプルと、連絡先リスト、入力パターン、及び他のユーザ固有の情報などのユーザ固有のテキストサンプルとを含む数百万のトレーニングテキストサンプルで訓練される。したがって、特定のユーザ向けのユーザ固有のテキストサンプルでＬＭを訓練すると、ＬＭは、明確にユーザに合わせた転写を生成する。例えば、ＬＭは、ユーザと関連付けられた連絡先氏名でのＬＭトレーニングに基づいて、ＡＳＲモデルによって生成された「Ｈａｉｌｅｅを呼んで」の間違った転写を、「Ｈａｌｅｉｇｈを呼んで」の正しい転写に改善し得る。

【0020】

しかしながら、ユーザ固有のテキストサンプルを使用してＬＭを訓練することの主要な欠点は、ＬＭが、ユーザにとって固有な潜在的に機密情報を非意図的に記憶する場合があることである。例えば、ユーザのクレジットカード番号を使用してＬＭを訓練すると、ＬＭは、ユーザがクレジットカード番号を話すときに正確な転写を生成することが可能になるが、ＬＭはまた、クレジットカード番号を非意図的に記憶する場合がある。本明細書で使用する場合、ＬＭを訓練するために使用され、ＬＭによって非意図的に記憶されるユーザ固有のテキストサンプルは、カナリアテキストサンプルと呼ばれる。カナリアテキストサンプルは、ユーザと関連付けられた機密情報を含む場合がある。カナリアテキストサンプルの記憶は、これらの記憶されたカナリアテキストサンプルを特定することができるハッカーによって悪用され、それにより潜在的に機密性の高い情報が悪用される場合がある。ただし、ＬＭが非意図的に記憶されたカナリアテキストサンプルを有するかどうかを判断する際には、いくつかの障害が存在する。すなわち、ＡＳＲモデルは、入力として（テキストデータではなく）オーディオデータを受け取り、出力として、発話ごとに単一のトランスクリプトを生成するように構成される。したがって、Ｎ個の最適の転写のリストを得るためにＬＭの直接的なアクセスが利用できないとき、ＬＭに対する従来の攻撃はいずれの記憶されたテキストデータも決定することができない。

【0021】

したがって、本明細書の実施態様は、外部ＬＭによって非意図的に記憶されたカナリアテキストサンプルを検出するための方法及びシステムを対象とする。より具体的には、方法は、カナリアテキストサンプルのセットをトレーニングテキストサンプルのコーパスに挿入することと、トレーニングテキストサンプルのコーパス、及びトレーニングテキストサンプルのコーパスに挿入されたカナリアテキストサンプルのセットで外部ＬＭを訓練することとを含む。カナリアテキストサンプルごとに、テキスト読み上げ（ＴＴＳ）システムは、対応する合成音声発話を生成し、訓練されたＡＳＲモデルは、対応する合成音声発話の初期転写を生成する。訓練された外部ＬＭは、対応する合成音声発話ごとに生成された初期転写を再スコアリングする。再スコアリングされた初期転写及びカナリアテキストサンプルを使用して、方法は、外部ＬＭのワード誤り率（ＷＥＲ）を決定し、外部ＬＭによるカナリアテキストサンプルの記憶を検出する。明らかになるように、カナリアテキストサンプルの記憶を検出することは、カナリアテキストサンプルで訓練されていない別の外部ＬＭを使用すること、及び／または分類器を使用することを含み得る。記憶されたカナリアテキストサンプルを検出することは、ＬＭの潜在的なセキュリティ脆弱性を特定するにすぎない。その目的のために、方法及びシステムは、外部ＬＭがトレーニング中にカナリアテキストサンプルを記憶することを軽減するために、指定数のカナリアテキストサンプルから勾配をクリッピングすることにより、サンプルごとの勾配クリッピングを適用することをさらに対象とし得る。

【0022】

図１は、音声環境１００の一例である。音声環境１００では、ユーザ１０４が、ユーザデバイス１０などのコンピューティングデバイスとインタラクトする方法は、音声入力を通してである場合がある。ユーザデバイス１０（一般に、デバイス１０とも呼ばれる）は、音声環境１００内の１人または複数のユーザ１０４から音（例えば、ストリーミングオーディオデータ）を取り込むように構成される。ここで、ストリーミングオーディオデータは、可聴クエリ、ユーザデバイス１０に対するコマンド、またはユーザデバイス１０によって取り込まれた可聴通信として機能する、ユーザ１０４による音声発話１０６を指す場合がある。ユーザデバイス１０の音声対応システムは、クエリに応答することにより、及び／またはコマンドを１つまたは複数の下流アプリケーションによって実行／遂行させることにより、クエリまたはコマンドに対処し得る。

【0023】

ユーザデバイス１０は、ユーザ１０４と関連付けられており、オーディオデータを受け取ることができる任意のコンピューティングデバイスに対応し得る。ユーザデバイス１０のいくつかの例は、モバイルデバイス（例えば、スマートウォッチ）、スマートアプライアンス、モノのインターネット（ＩｏＴ）デバイス、車載インフォテインメントシステム、スマートディスプレイ、スマートスピーカなどを含むが、これらに限定されない。ユーザデバイス１０は、データ処理ハードウェア１２と、データ処理ハードウェア１２と通信し、データ処理ハードウェア１２によって実行されるとき、データ処理ハードウェア１２に１つまたは複数の動作を実行させる命令を格納するメモリハードウェア１４とを含む。ユーザデバイス１０は、音声環境１００内の音勢発話１０６を取り込み、電気信号に変換するためのオーディオキャプチャデバイス（例えば、マイクロフォン）１６、１６ａと、可聴オーディオ信号（例えば、ユーザデバイス１０からの出力データとして）を通信するための音声出力デバイス（例えば、スピーカ）１６、１６ｂとを有するオーディオシステム１６をさらに含む。示された例では、ユーザデバイス１０は単一のオーディオキャプチャデバイス１６ａを実装するが、ユーザデバイス１０は、本開示の範囲から逸脱することなくオーディオキャプチャデバイス１６ａのアレイを実装してもよく、これにより、アレイの１つまたは複数のキャプチャデバイス１６ａは、ユーザデバイス１０に物理的に存在しないが、オーディオシステム１６と通信し得る。

【0024】

音声環境１００では、自動音声認識（ＡＳＲ）システム１１８は、ＡＳＲモデル（例えば、訓練されたＡＳＲモデル）２００、及び第１の外部言語モデル（ＬＭ）１６０を実装し、それぞれがユーザ１０４のユーザデバイス１０上、及び／またはネットワーク４０を介してユーザデバイス１０と通信しているリモートコンピューティングデバイス６０（例えば、クラウドコンピューティング環境で実行する分散システムの１つまたは複数のリモートサーバ）上に存在する。いくつかの例では、ＡＳＲモデル２００は、リカレント型ニューラルネットワーク－トランスデューサ（ＲＮＮ－Ｔ）モデルアーキテクチャを含む。ユーザデバイス１０及び／またはリモートコンピューティングデバイス６０はまた、ユーザ１０４によって話され、オーディオキャプチャデバイス１６ａによって取り込まれた発話１０６を受け取り、発話１０６をＡＳＲシステム１１８によって処理できる入力音響フレーム１１０と関連付けられた対応するデジタル形式に変換するように構成されたオーディオサブシステム１０８を含む。例では、ユーザはそれぞれの発話１０６を話し、オーディオサブシステム１０８は、ＡＳＲシステム１１８への入力のために、発話１０６を対応するオーディオデータ（例えば、音響フレームのシーケンス）１１０に変換する。その後、ＡＳＲモデル２００は、入力として、発話１０６に対応する音響フレーム１１０のシーケンスを受け取り、ＡＳＲモデル２００が、音響フレーム１１０内の各音響フレーム１１０を受け取る（例えば、処理する）ときに、各出力ステップで、発話１０６の対応する転写１２０（例えば、音声認識結果／仮説）を生成／予測する。

【0025】

示された例では、ＡＳＲモデル２００は、ストリーミング音声認識を実行して、初期音声認識結果（例えば、候補仮説）１２０、１２０ａを生成し、初期音声認識結果１２０ａを改善することにより、最終的な音声認識結果（例えば、最終仮説）１２０、１２０ｂを生成し得る。初期の及び最終的な音声認識結果１２０ａ、１２０ｂは、部分的な音声認識結果または音声認識結果全体のいずれかに対応し得る。別の言い方をすれば、初期の及び最終的な音声認識結果１２０ａ、１２０ｂは、発話１０６の一部または発話１０６の部分全体のいずれかに対応し得る。例えば、部分音声認識結果は、音声発話の一部または話された用語の一部に対応する場合もある。しかしながら、以降で明らかになるように、ＡＳＲモデル２００は、最終的な音声認識結果１２０ｂに対して追加の処理を実行し、これにより、最終的な音声認識結果１２０ｂが、初期の音声認識結果１２０ａよりも遅れる場合がある。図２を参照してより詳細に説明すると、第１の外部ＬＭ１６０は、ストリーミングモードまたは非ストリーミングモードのいずれかで転写１２０を改善するためにＡＳＲモデル２００によって生成された転写１２０を再スコアリングし得る。第１の外部ＬＭ１６０は、ＡＳＲモデル２００の外部に存在する場合もあれば、ＡＳＲモデル２００と一体化している場合もある。

【0026】

ユーザデバイス１０及び／またはリモートコンピューティングデバイス６０はまた、発話１０６の転写１２０の表現をユーザデバイス１０のユーザ１０４に提示するように構成されたユーザインターフェースジェネレータ１０７も実行する。以下でより詳細に説明するように、ユーザインターフェースジェネレータ１０７は、時間１の間に、ストリーミング方式で初期音声認識結果１２０ａを表示し、後に、時間２の間にストリーミング方式で最終的な音声認識結果１２０ｂを表示し得る。とりわけ、ＡＳＲモデル２００は、最終的な音声認識結果１２０ｂが、初期の音声認識結果１２０ａを改善するとしても、ストリーミング方式で最終的な音声認識１２０ｂを出力する。いくつかの構成では、ＡＳＲシステム１１８から出力された転写１２０は（例えば、ユーザデバイス１０またはリモートコンピューティングデバイス６０で実行する自然言語理解（ＮＬＵ）モジュールによって）処理されて、発話１０６によって指定されたユーザコマンド／クエリを実行する。追加的にまたは代替的に、テキスト読み上げシステム（図示せず）（例えば、ユーザデバイス１０またはリモートコンピューティングデバイス６０の任意の組み合わせで実行する）は、ユーザデバイス１０及び／または他のデバイスによる可聴出力のために転写１２０を合成音声に変換し得る。

【0027】

示された例では、ユーザ１０４は、ＡＳＲシステム１１８を使用するユーザデバイス１０のプログラムまたはアプリケーション５０（例えば、デジタルアシスタントアプリケーション５０）とインタラクトする。例えば、図１は、ユーザ１０４とデジタルアシスタントアプリケーション５０との間の会話を描写するために、デジタルアシスタントアプリケーション５０とコミュニケーションをとるユーザ１０４及びユーザデバイス１０の画面にデジタルアシスタントインターフェース１８を表示するデジタルアシスタントアプリケーション５０を示す。この例では、ユーザ１０４はデジタルアシスタントアプリケーション５０に、「今晩のコンサートは何時ですか？」と質問する。ユーザ１０４からのこの質問は、オーディオキャプチャデバイス１６ａによって取り込まれ、ユーザデバイス１０のオーディオシステム１６によって処理される音声発話１０６である。この例では、オーディオシステム１６は、音声発話１０６を受け取り、音声発話１０６をＡＳＲシステム１１８への入力のために音響フレーム１１０のシーケンスに変換する。

【0028】

例を続けると、ＡＳＲモデル２００は、ユーザ１０４が話す発話１０６に対応する音響フレーム１１０のシーケンスを受け取りながら、音響フレーム１１０のシーケンスを符号化し、次に符号化された音響フレーム１１０のシーケンスを初期音声認識結果１２０ａに復号化する。時間１の間、ユーザインターフェースジェネレータ１０７は、デジタルアシスタントインターフェース１８を介して、ユーザデバイス１０のユーザ１０４に、ワード、ワードピース、及び／または個々の文字が話されるとすぐに画面に表示されるように、発話１０６の初期の音声認識結果１２０ａの表現をストリーミング方式で提示する。いくつかの例では、第１のルックアヘッドオーディオコンテキストはゼロに等しい。

【0029】

時間２の間、ユーザインターフェースジェネレータ１０７は、デジタル支援インターフェース１８を介して、ユーザデバイス１０のユーザ１０４に、ワード、ワードピース、及び／または個々の文字がＡＳＲモデル２００によって生成されるとすぐに画面に表示されるように、発話１０６の最終的な音声認識結果１２０ｂの表現をストリーミング方式で提示する。いくつかの実施態様では、ユーザインターフェースジェネレータ１０７は、時間１において提示された初期の音声認識結果１２０ａの表現を、時間２において提示された最終的な音声認識結果１２０ｂの表現に置き換える。ここで、時間１及び時間２は、ユーザインターフェースジェネレータ１０７がそれぞれの音声認識結果１２０をいつ提示するのかに対応するタイムスタンプを含み得る。この例では、時間１のタイムスタンプは、ユーザインターフェースジェネレータ１０７が最終的な音声認識結果１２０ｂよりも早い時点で初期音声認識結果１２０ａを提示することを示す。例えば、最終的な音声認識結果１２０ｂは初期の音声認識結果１２０ａよりも正確であると推定されるため、転写１２０として最終的に表示される最終的な音声認識結果１２０ｂは、初期の音声認識結果１２０ａで誤認識された可能性のあるあらゆる用語を修正し得る。この例では、ＡＳＲモデル２００によって出力されるストリーミング初期音声認識結果１２０ａは、時間１においてユーザデバイス１０の画面に表示され、低いレイテンシと関連付けられ、ユーザ１０４に、ユーザのクエリが処理中であるという応答性を提供する一方で、ＡＳＲモデル２００によって出力され、時間２において画面に表示される最終的な音声認識結果１２０ｂは、追加の音声認識モデル及び／または言語モデルを活用して、正確さに関して音声認識の質を向上させるが、レイテンシは増加する。ただし、初期の音声認識結果１２０ａは、ユーザが発話１０６を話すときに表示されるので、最終的な音声認識結果１２０ｂを生成すること、及び最終的に表示することと関連付けられるより高いレイテンシは、ユーザ１０４には容易に気づかれない。

【0030】

図１に示す例では、デジタルアシスタントアプリケーション５０は、自然言語処理を使用してユーザ１０４が提起した質問に応答し得る。自然言語処理は、概して、文字言語（例えば、初期の音声認識結果１２０ａ及び／または最終的な音声認識結果１２０ｂ）を解釈し、文字言語が任意のアクションを促すかどうかを判断するプロセスを指す。この例では、デジタルアシスタントアプリケーション５０は、自然言語処理を使用して、ユーザ１０４からの質問が、ユーザのスケジュール及びより具体的にはユーザのスケジュールにあるコンサートに関することを認識する。自然言語処理を用いてこれらの詳細を認識することにより、自動アシスタントは、ユーザのクエリに対する応答１９を返し、応答１９は、「会場のドアは午後６時半に開き、コンサートは午後８時に始まります」と述べる。いくつかの構成では、自然言語処理は、ユーザデバイス１０のデータ処理ハードウェア１２と通信するリモートサーバ６０で発生する。

【0031】

図２Ａ及び２Ｂは、第１の外部ＬＭ１６０によるカナリアテキストサンプル１３４の意図的でない記憶を検出するための第１の例示的なプロセス２０１（図２Ａ）及び第２の例示的なプロセス２０２（図２Ｂ）の概略図を示す。プロセス２０１、２０２は、リモートサーバ６０（図１）で実行し、カスケードエンコーダ２０４と、デコーダ２０６とを有する訓練されたＡＳＲモデル２００を含む。以降で明らかになるように、ＡＳＲモデル２００はストリーミングモード、非ストリーミングモード、及び／またはストリーミングモードと非ストリーミングモードの両方で並行して動作し得る。さらに、プロセス２０１、２０２は、テキスト読み上げ（ＴＴＳ）システム１４０及び第１の外部ＬＭ１６０を含むがこれらに限定されない、ＡＳＲモデル２００の外部の１つまたは複数のコンポーネントを用い得る。

【0032】

ここで図３Ａ及び図３Ｂを参照すると、いくつかの実施態様では、トレーニングプロセス３００は、第１の外部ＬＭ１６０及び第２の外部ＬＭ１７０を訓練するように構成される。以降で明らかになるように、第２の外部ＬＭ１７０は、第１の外部ＬＭ１６０がカナリアテキストサンプル１３４のいずれかを非意図的に記憶したかどうかを検出するためのベースラインＬＭとして使用され得る。特に、図３Ａは、トレーニングテキストサンプル１３０の第１のコーパスを使用して第１の外部ＬＭ（例えば、第１のＬＭ）１６０を訓練するように構成された第１のトレーニングプロセス３００、３００ａの概略図を示す。ここで、トレーニングテキストサンプル１３０の第１のコーパスは、トレーニングテキスト発話１３２、１３２ａ－ｎのセットと、カナリアテキストサンプル１３４、１３４ａ－ｎのセットとを含む。トレーニングテキスト発話１３２のセットは、ユーザ固有ではないか、またはユーザについての機密情報を含まない一般的なテキストサンプルを含み得る。例えば、トレーニングテキスト発話１３２は、「ヘイ、グーグル」、「今週、何の約束をしている？」、及び「今日の天気はどう？」を含む場合がある。第１のトレーニングプロセス３００ａはまた、各カナリアテキストサンプル１３４が出力ラベルの固定長のシーケンス（または動的長シーケンス）を含むカナリアテキストサンプル１３４のセットを取得する。各出力ラベルは、英数字、書記素、音素、Ｎ－グラム、ワードピース、及び／またはワードを含み得る。いくつかの場合、各出力ラベルはスペースで分離される。さらに、各カナリアテキストサンプル１３４は、ユーザ固有の情報またはユーザと関連付けられた機密情報を表す場合がある。例えば、カナリアテキストサンプル１３４は、パスワード「ｏｅｇｄｂｕ」またはクレジットカード番号「１１１１２２２２３３３３４４４４」に対応する場合がある。しかしながら、いくつかの例では、ユーザと関連付けられた任意の実際の機密情報を明らかにすることを回避するために、カナリアテキストサンプル１３４は、ユーザと関連付けられたいかなる機密情報も実際には含まずに、パスワード、シリアル番号、クレジットカード番号、及び／または他の秘密情報などの機密情報に似たフォーマットを有するランダムな英数字のシーケンス（例えば、架空の機密情報）を含み得る。

【0033】

第１のトレーニングプロセス３００ａは、各カナリアテキストサンプル１３４をトレーニングテキストサンプル１３０の第１のコーパスに挿入する。したがって、トレーニングテキストサンプル１３０の第１のコーパス内の各トレーニングテキストサンプル１３０は、トレーニングテキスト発話１３２のそれぞれ１つまたはカナリアテキストサンプル１３４のそれぞれの１つに対応する場合がある。さらに、トレーニングテキストサンプル１３０の第１のコーパスは、任意の数のトレーニングテキストサンプル１３０を含み得る。いくつかの実施態様では、第１のトレーニングプロセス３００ａは、カナリアテキストサンプル１３４のセット内のカナリアテキストサンプル１３４の第１の部分の各カナリアテキストサンプル１３４を、１回だけ（例えば、１回）、トレーニングテキストサンプル１３０の第１のコーパスに挿入し、カナリアテキストサンプル１３４のセット内のカナリアテキストサンプル１３４の第２の部分の各カナリアテキストサンプル１３４を、２回以上、トレーニングテキストサンプル１３０の第１のコーパスに挿入し得る。ここで、カナリアテキストサンプル１３４の第２の部分は、カナリアテキストサンプル１３４の第１の部分とは異なるカナリアテキストサンプル１３４を含む。したがって、トレーニングテキストサンプル１３０の第１のコーパスに挿入された各カナリアテキストサンプル１３４は、トレーニングテキストサンプル１３０の第１のコーパスにおいて異なる発生数を有し得る。

【0034】

第１のＬＭ１６０は、入力として、トレーニングテキストサンプル１３０の第１のコーパス内の各トレーニングテキストサンプル１３０（例えば、トレーニングテキスト発話１３２またはカナリアテキストサンプル１３４）を受け取り、出力として、トレーニングテキストサンプル１３０の第１のコーパス内の対応するトレーニングテキストサンプル１３０のトレーニング転写１６２を生成するように構成され得る。いくつかの例では、第１のＬＭ１６０は、トレーニングテキストサンプル１３０ごとに出力ラベルのサブセットを受け取り、テキストサンプルの出力レベルの残りのサブセットを予測するためにトレーニング転写１６２を生成する。例えば、トレーニングテキストサンプル１３０が「１２３４」の場合、第１のＬＭ１６０は、出力ラベル「１２３」を受け取り、次の出力ラベルが「４」であると予測し得る。他の例では、第１のＬＭ１６０は、トレーニングテキストサンプル１３０ごとに出力ラベルの隠されたシーケンスを受け取り、これにより、出力ラベルの１つまたは複数は、マスキング値（例えば、ｎｕｌｌ値）

【数1】

を割り当てられ、隠された出力ラベルの出力ラベルを予測するためにトレーニング転写１６２を生成する。例えば、トレーニングテキストサンプル１３０が「ｐａｓｓｗｏｒｄ」の場合、第１のＬＭ１６０は、出力ラベル「ｐ

【数2】

ｓｓｗｏｒｄ」を受け取り、隠された出力値

【数3】

が「ａ」であると予測し得る。

【0035】

第１のトレーニング損失モジュール３１０は、トレーニングテキストサンプル１３０ごとに第１のＬＭ１６０によって生成されたトレーニング転写１６２を受け取り、トレーニング転写１６２（例えば、予測された転写）を対応するトレーニングテキストサンプル１３０（例えば、グラウンドトゥルースラベル）と比較することによって第１のトレーニング損失３１２を決定する。その後、第１のトレーニングプロセス３００ａは、フィードバックとして第１のトレーニング損失３１２を第１のＬＭ１６０に提供し、第１のトレーニング損失３１２に基づいて第１のＬＭ１６０のパラメータを更新する。したがって、第１のトレーニングプロセス３００ａは、トレーニングテキスト発話１３２のセット及びカナリアテキストサンプル１３４のセットを使用して、正確な転写を生成するように、第１のＬＭ１６０を訓練する。とりわけ、第１のトレーニングプロセス３００ａ中に、第１のＬＭ１６０は、１つまたは複数のカナリアテキストサンプル１３４を非意図的に記憶する場合がある。以降で明らかになるように、第１のＬＭ１６０によって記憶されたカナリアテキストサンプル１３４のいずれも、プロセス２０１、２０２（図２）によって検出され得る。

【0036】

ここで図３Ｂを参照すると、第２のトレーニングプロセス３００ｂは、トレーニングテキストサンプル１３１の第２のコーパスを使用して、第２の外部ＬＭ（例えば、第２のＬＭ）１７０を訓練するように構成される。ここで、トレーニングテキストサンプル１３１の第２のコーパスは、トレーニングテキスト発話１３２のセットと、外来テキストサンプル１３６、１３６ａ－ｎのセットとを含む。すなわち、第１のトレーニングプロセス３００ａ（図３Ａ）とは対照的に、第２のトレーニングプロセス３００ｂは、外来テキストサンプル１３６のセットを取得し、カナリアテキストサンプル１３４の代わりに、トレーニングテキストサンプル１３１の第２のコーパスに挿入する。ここで、各外来テキストサンプル１３６は、カナリアテキストサンプル１３４と同じ固定長シーケンス（または動的長シーケンス）の出力ラベルを含み得る。すなわち、外来テキストサンプル１３６の各出力ラベルは、任意選択でスペースで分離される、英数字、音素、書記素、Ｎ－グラム、ワードピース、及び／またはワードを含み得る。さらに、各外来テキストサンプル１３６は、ユーザ固有情報またはユーザについての機密情報を表す場合がある。ただし、以降で明らかになるように、外来テキストサンプル１３６のセット内の各外来テキストサンプル１３６は、カナリアテキストサンプル１３４のセット内の各カナリアテキストサンプル１３４とは異なる。したがって、外来テキストサンプル１３６はまた、パスワード「ｏｅｇｄｂｕ」またはクレジットカード番号「１１１１２２２２３３３３４４４４」に、これらのテキストサンプルがカナリアテキストサンプル１３４のセットにすでに含まれていない場合にのみ、対応し得る。

【0037】

同様に、第２のトレーニングプロセス３００ｂは、各外来テキストサンプル１３６を、トレーニングテキストサンプル１３１の第２のコーパスに挿入する。したがって、トレーニングテキストサンプル１３１の第２のコーパス内の各トレーニングテキストサンプル１３１は、トレーニングテキスト発話１３２のそれぞれ１つまたは外来テキストサンプル１３６のそれぞれ１つに対応する場合がある。第２のＬＭ１７０は、入力として、トレーニングテキストサンプル１３１の第２のコーパス内の各トレーニングテキストサンプル１３１（例えば、トレーニングテキスト発話１３２または外来テキストサンプル１３６）を受け取り、出力として、トレーニングテキストサンプル１３１の第２のコーパス内の対応するトレーニングテキストサンプル１３１のトレーニング転写１７２を生成するように構成され得る。いくつかの例では、第２のＬＭ１７０は、トレーニングテキストサンプル１３１ごとに出力ラベルのサブセットを受け取り、テキストサンプルの出力レベルの残りのサブセットを予測するためにトレーニング転写１７２を生成するように構成される。他の例では、第２のＬＭ１７０は、トレーニングテキストサンプル１３０ごとに出力ラベルの隠されたシーケンスを受け取り、これにより、出力ラベルの１つまたは複数は、マスキング値

【数4】

を割り当てられ、隠された値の出力ラベルを予測するためにトレーニング転写１６２を生成する。

【0038】

第２のトレーニング損失モジュール３２０は、トレーニングテキストサンプル１３１ごとに第２の言語モデル１７０によって生成されたトレーニング転写１７２を受け取り、トレーニング転写１７２（例えば、予測された転写）を対応するトレーニングテキストサンプル１３１（例えば、グラウンドトゥルースラベル）と比較することによって第２のトレーニング損失３２２を決定する。その後、第２のトレーニングプロセス３００ｂは、フィードバックとして第２のトレーニング損失３２２を第２のＬＭ１７０に提供し、第２のトレーニング損失３２２に基づいて第２のＬＭ１７０のパラメータを更新する。したがって、第２のトレーニングプロセス３００ｂは、トレーニングテキスト発話１３２のセット及び外来テキストサンプル１３６のセットを使用して、正確な転写を生成するように、第２のＬＭ１７０を訓練する。とりわけ、第２のＬＭ１７０は、カナリアテキストサンプル１３４のいずれかをも使用して訓練されていない。したがって、第２のＬＭ１７０は、トレーニング中にカナリアテキストサンプル１３４のいずれも使用せず、おそらくカナリアテキストサンプル１３４のいずれも記憶することができなかったため、第２のＬＭ１７０は、第１のＬＭ１６０がトレーニング中にいずれかのカナリアテキストサンプル１３４を非意図的に記憶したかどうかを検出するためのベースラインＬＭを表し得る。したがって、第２のＬＭ１７０は、カナリアテキストサンプルの記憶を検出するためにのみ使用され、推論には使用されない。

【0039】

図２Ａ及び図２Ｂを参照し直すと、第１のＬＭ１６０がカナリアテキストサンプル１３４のいずれかを記憶したかどうかを検出するために、プロセス２０１、２０２は、入力としてカナリアテキストサンプル１３４を受け取る必要がある。ただし、ＡＳＲモデル２００は、テキスト入力ではなく、入力としてオーディオデータ（例えば、音響フレーム１１０）を受け取るように構成される。その目的で、ＴＴＳシステム１４０は、各出力ステップで、カナリアテキストサンプル１３４のセット内のそれぞれのカナリアテキストサンプル１３４ごとに、対応する合成音声発話１４２を生成するように構成される。各合成音声発話１４２は、ＡＳＲモデル２００のカスケードエンコーダ２０４による処理に適した音響フレーム１１０のそれぞれのシーケンスに対応する。

【0040】

カスケードエンコーダ２０４は、符号化経路が、第１のエンコーダ２１０の出力が復号化の前に第２のエンコーダ２２０の入力を提供するようにカスケードする２つのエンコーダ２１０、２２０を含むモデル構造を指す。ここで、第１のエンコーダ２１０及び第２のエンコーダ２２０は、各エンコーダの基礎となるアーキテクチャに関係なくカスケードされ得る。エンコーダ２１０、２２０は、それぞれ、マルチヘッド（例えば、８ヘッド）のアテンション層（例えば、１７層）のスタックを含み得る。いくつかの例では、エンコーダ２１０、２２０のマルチヘッドアテンション層のスタックは、５１２次元のコンフォーマ層のスタックを含む。他の例では、トランスフォーマ層は、コンフォーマ層の代わりに使用され得る。

【0041】

第１のエンコーダ２１０は、それぞれがセルフアテンション層として使用されるマルチヘッド（例えば、８ヘッド）の注意機構を有する、コンフォーマ層（例えば、１５のコンフォーマ層）の初期スタックを含む因果エンコーダである場合がある。ここで、第１のエンコーダ２１０の各コンフォーマ層は、因果畳み込み層及び左コンテキストアテンション層を使用して、第１のエンコーダ２１０があらゆる将来の入力（例えば、ゼロに等しい右コンテキスト）を使用することを制限し得る。一方、第２のエンコーダ２２０は、コンフォーマ層の初期スタックに重なるコンフォーマ層（例えば、２つのコンフォーマ層）の最終スタックを含む非因果エンコーダである場合がある。ここで、第２のエンコーダ２２０の各コンフォーマ層は、非因果畳み込み層及び右コンテキストアテンション層を使用し、それにより第２のエンコーダ２２０が、将来の入力を使用（例えば、対処）することを可能にし得る。すなわち、第２のエンコーダ２２０は、追加の右コンテキスト（例えば、将来の音響フレームの２．８８秒）を受け取り、処理して、エンコーダ出力を生成し得る。したがって、第１及び第２のエンコーダ２１０、２２０は、本明細書ではそれぞれ「因果エンコーダ２１０」及び「非因果エンコーダ２２０」と互換的に呼ばれてよい。

【0042】

図２Ａ及び図２Ｂを引き続き参照すると、第１のエンコーダ２１０は、ｄ次元の特徴ベクトルのシーケンス（例えば、音響フレーム１１０のシーケンス）ｘ＝（ｘ_１，ｘ_２，…，ｘ_Ｔ）（式中、

【数5】

）を受け取り、各出力ステップで、音響フレーム１１０のシーケンス内の対応する音響フレーム１１０の第１の高次特徴表現２１２を生成する。同様に、第２のエンコーダ２２０は、第１のエンコーダ２１０にカスケードで接続され、入力として、第１の高次特徴表現２１２を受け取り、各出力ステップで、対応する第１の高次特徴表現２１２に対して第２の高次特徴表現２２２を生成する。とりわけ、第２のエンコーダ２２０は、追加の右コンテキストに対処して、各第２の高次特徴表現２２２を生成する。しかしながら、いくつかの例では、第２のエンコーダ２２０は、入力として音響フレーム１１０のいずれも受け取ることなく、第２の高次特徴表現２２２を生成する。これらの例では、第２のエンコーダ２２０は、入力として第１の高次特徴表現２１２のみを使用して、第２の高次特徴表現２２２を生成する。カスケードエンコーダ２０４は、各出力ステップで、カスケードエンコーダ２０４が、発話の一部または発話全体のいずれかに対応する第１及び第２の高次特徴表現２１２、２２２を生成するように、ストリーミング方式で動作し得る。

【0043】

デコーダ２０６は、共同ネットワーク２３０と、予測ネットワーク２４０とを有するリカレント型ニューラルネットワーク－トランスデューサ（ＲＮＮ－Ｔ）アーキテクチャを含み得る。予測ネットワーク２４０は、Ｖ２埋め込みルックアップテーブルを含み得る。予測ネットワーク２４０は、入力として、最終ソフトマックス層によって出力されたＮ個の以前の非空白記号のシーケンスを受け取り、Ｎ個の以前の非空白記号のシーケンスの非空白記号ごとにそれぞれの埋め込みを生成するように構成される。すなわち、図示されていないが、ＡＳＲモデル２００は、デコーダ２０６の出力を受け取るソフトマックス層を含み得る。いくつかの実施態様では、ソフトマックス層は、デコーダ２０６とは別個であり、デコーダ２０６からの出力ｙ_ｒを処理する。次に、ソフトマックス層の出力は、正字要素を選択するためにビーム探索法プロセスで使用される。いくつかの例では、ソフトマックス層は、デコーダ２０６と統合され、その結果、デコーダ２０６の出力ｙ_ｒはソフトマックス層の出力を表する。予測ネットワーク２４０は、非空白記号のそれぞれに対して生成されたそれぞれの埋め込みを平均化することにより、平均埋め込み２４２を生成するようにさらに構成される。

【0044】

非ストリーミングモードでは、デコーダ２０６は共同ネットワーク２３０を使用して、カスケードエンコーダ２０４によって出力された第１の高次特徴表現２１２及び第２の高次特徴表現２２２を結合するだけでなく、予測ネットワーク２４０によって生成された平均埋め込み２４２を使用して、初期転写（例えば、デコーダ出力）２３２を生成する。デコーダ出力２３２は、Ｎ個の以前の非空白記号のシーケンス｛ｙ_ｉ－１．．．，ｙ_ｉ－Ｎ｝、及び入力ｘを所与として、現在のサブワードユニットｙ_ｉにわたる確率分布

【数6】

である場合がある。非ストリーミングモードでは、デコーダ出力２３２は、格子再スコアリングまたはｎ－ｂｅｓｔ再ランク付けなどの技術を用いて、デコーダ２０６からの初期デコーダ出力２３２を再スコアリング／改善する第１のＬＭ１６０に出力される。言い換えれば、デコーダ２０６は初期転写２３２を生成し、第１のＬＭ１６０は、初期転写２３２を再スコアリングして、転写（例えば、再スコアリングされた初期転写）１２０を生成する。

【0045】

デコーダ２０６は、各出力ステップで、可能性のある音声認識仮説にわたる確率分布を含む初期転写２３２を生成するように構成される。別の言い方をすれば、ジョイント層２３０は、各出力ステップ（例えば、時間ステップ）において、可能性のある音声認識仮説にわたる確率分布を生成する。したがって、初期転写２３２は、本明細書で可能性のある音声認識仮説にわたる確率分布２３２と互換的に呼ばれる場合がある。ここで、「可能性のある音声認識仮説」は、それぞれが、指定された自然言語での書記素（例えば、記号／文字）またはワードピースを表す出力ラベル／記号（「音声単位」とも呼ばれる）のセットに対応する。例えば、自然言語が英語であるとき、出力ラベルのセットは二十七（２７）個の記号、例えば、英語のアルファベットの２６文字の各々に１つのラベル及びスペースを指定する１つのラベルを含み得る。したがって、共同ネットワーク２３０は、所定の出力ラベルのセットの各々の発生可能性を示す値のセットを出力し得る。この値のセットはベクトル（例えば、ワンホットベクトル）である場合があり、出力ラベルのセットにわたる確率分布を示す場合がある。いくつかの場合、出力ラベルは書記素（例えば、個々の文字、潜在的な句読点及び他の記号など）であるが、出力ラベルのセットはそれらに制限されない。例えば、出力ラベルのセットは、書記素に加えて、または書記素の代わりに、ワードピース及び／またはワード全体を含むことができる。出力ラベルはまた、音素または副音素など、他のタイプの音声単位でもあるであろう。共同ネットワークの出力分布は、異なる出力ラベルの各々に対する事後確率値を含むことができる。したがって、書記素または他の記号を表す１００の異なる出力ラベルがある場合、共同ネットワークの出力は、出力ラベルごとに１つずつ、１００の異なる確率値を含むことができる。次に、確率分布を使用して、初期転写２３２を決定するために、（例えば、ソフトマックス層による）ビーム探索法プロセスで候補となる正字要素（例えば、書記素、ワードピース、及び／またはワード）を選択し、スコアを割り当てることができる。

【0046】

図２Ａ及び図２Ｂを引き続き参照すると、いくつかの構成では、ＡＳＲモデル２００は、ストリーミングモードと非ストリーミングモードの両方で並行して動作する。ストリーミングモードと非ストリーミングモードの両方で同時に動作するとき、ＡＳＲモデル２００は、最初に、第１のエンコーダ２１０を使用してオーディオデータ１１０に対してストリーミング音声認識を実行して、第２のエンコーダ２２０とデコーダ２０６の両方のために第１の高次特徴表現２１０を生成する。デコーダ２０６は次に、可能性のある音声認識仮説にわたる第１の確率分布２３２を生成し、第１の確率分布２３２は次に、第１のＬＭ１６０によって再スコアリングされて、初期の音声認識結果１２０ａを生成する。任意選択で、ストリーミングモードで、デコーダ２０６は、可能性のある音声認識仮説にわたる第１の確率分布２３２を直接出力し、それにより第１ＬＭ１６０を迂回し得る。ＡＳＲモデル２００はまた、オーディオデータ１１０に対して非ストリーミング音声認識を実行し、ここで、第２のエンコーダ２２０は、第１のエンコーダ２１０から受け取った第１の高次特徴表現２１２を使用して、第２の高次特徴表現２２２を生成する。デコーダ２０６は次に、可能性のある音声認識仮説にわたる第２の確率分布２３２を生成し、第２の確率分布２３２は次に、第１のＬＭ１６０によって再スコアリングされて、最終的な音声認識結果１２０ｂを生成する。

【0047】

他の構成では、ＡＳＲモデル２００はストリーミングモードのみで動作する。これは、例えば、ユーザ１０４が、音声検索またはオンデバイスディクテーションなど、可能な限り小さいレイテンシを必要とするアプリケーションを使用しているときに発生する場合がある。ここで、ＡＳＲモデル２００は、第１のエンコーダ２１０のみを使用してオーディオデータ１１０に対してストリーミング音声認識を実行して、デコーダ２０６のために第１の高次特徴表現２１２を生成する。デコーダ２０６は次に、可能性のある音声認識仮説にわたる第１の確率分布２３２を生成し、第１の確率分布２３２は次に、第１のＬＭ１６０によって再スコアリングされて、初期の音声認識結果１２０ａを生成する。ＡＳＲモデル２００のストリーミングモードは、初期の音声認識結果１２０ａを迅速に生成するため、用語のいかなる不正確さも概してユーザには許容可能である。

【0048】

さらに他の構成では、ＡＳＲモデル２００は非ストリーミングモードのみで動作する。非ストリーミングモードは、例えば、ユーザ１０４が自分の電話に残されたボイスメールの転写を見ているときに発生する場合がある。上述のように、このタイプのアプリケーションは、処理回数の増加と引き換えに性能を向上させるために、将来のコンテキストを使用することから恩恵を受ける。ここで、ＡＳＲモデル２００は、最初に、第１のエンコーダ２１０を使用して、第２のエンコーダ２２０のための第１の高次特徴表現２１２を生成するが、デコーダ２０６は、第１の高次特徴表現２１２を復号化しない。ＡＳＲモデル２００は次に、符号化されたオーディオデータ１１０に対して非ストリーミング音声認識を実行し、ここで、第２のエンコーダ２２０は、第１のエンコーダ２１０から受け取った第１の高次特徴表現２１２を使用して、第２の高次特徴表現２２２を生成する。デコーダ２０６は次に、可能性のある音声認識仮説にわたる第２の確率分布２３２を生成し、第２の確率分布２３２は次に、第１のＬＭ１６０によって再スコアリングされて、最終的な音声認識結果１２０ｂを生成する。ＡＳＲモデル２００の非ストリーミングモードは、最終的な音声認識結果１２０ｂを正確に生成するため、正確な転写を表示するためのレイテンシは概してユーザには許容可能である。

【0049】

いくつかの例では、第１のＬＭ１６０は、外部ニューラル言語モデルを含む。ここで、外部ニューラル言語モデルは、マルチヘッド（例えば、８ヘッド）のセルフアテンション層（例えば、１２層）のスタックを含むことができ、ここで、各層は、７６８のモデル次元及び２０４８のフィードフォワード層の次元を含む。マルチヘッドセルフアテンション層のスタックは、トランスフォーマ層またはコンフォーマ層のスタックを含む場合がある。例えば、コンフォーマ層のスタックは、出力ワードピースモデル予測ごとに所定数のトークン（例えば、３１のトークン）を遡る一方向コンフォーマ層を含み得る。ここで、第１のＬＭ１６０は、４，０９６のワードピースを予測するように訓練される。いくつかの場合、第２のＬＭ１７０（図２Ａ）は、第１のＬＭ１６０と同じ構造を含む。

【0050】

ＡＳＲモデル２００を外部ＬＭと統合するには、通常、浅い融合が必要である。しかしながら、カスケードエンコーダ２０４及びデコーダ２０６の過信によって、重み付けは困難になり、多くの場合、ワードの高い削除率につながる可能性がある。ここで、訓練されたＡＳＲモデル２００によって予測された、可能性のある音声認識仮説にわたる確率分布２３２を再スコアリングするように構成された訓練された第１のＬＭ１６０は、浅い融合を使用して訓練されたＡＳＲモデル２００と統合され得る。したがって、ＡＳＲモデル２００の第１のエンコーダ２１０及び第２のエンコーダ２２０は、ハイブリッド自己回帰トランスデューサ（ＨＡＴ）因数分解を使用して、トレーニングテキストサンプル１３０の第１のコーパスと、トレーニングセットサンプル１３０の第１のコーパス（図３Ａ）に挿入されたカナリアテキストサンプル１３４のセットとを含む、テキストのみのデータで訓練された第１のＬＭ１６０の統合を容易にするように訓練され得る。別の言い方をすれば、ＨＡＴ因数分解は、ＡＳＲモデル２００のトレーニング中に、カスケードエンコーダ２０４及びデコーダ２０６の内部損失スコアを取り除いて、以下に従ってデコーダ２０６を最適化することによって第１のＬＭ１６０との統合を容易にするために利用され得る。

【数7】

式１では、ｐ（ｙ｜ｘ）はＡＳＲモデル２００の対数事後スコアを表し、ｐＩＬＭ（ｙ）はＡＳＲモデル２００の内部言語モデルスコアを表し、ｐＬＭは第１のＬＭ１６０の言語モデルスコアを表し、（λ_１，λ_２）は補間重みを表す。

【0051】

ここで特に図２Ａを参照すると、いくつかの実施態様では、第１のプロセス２０１は、第１のＬＭ１６０が、カナリアテキストサンプル１３４ベースのセットごとにトレーニング（図３Ａ）中にいずれかのカナリアテキストサンプル１３４を記憶したかどうかを検出するために検出損失モジュール１５０及び第２のＬＭ１７０を実行する。すなわち、第１のトレーニングプロセス２０１は、どの特定のカナリアテキストサンプル１３４が記憶されたのかを特に識別することなく、第１のＬＭ１６０が１つまたは複数のカナリアテキストサンプル１３４を記憶したかどうかを判断する。ここで、第１のプロセス２０１は、トレーニングが行われた後に、第１及び第２のＬＭ１６０、１７０を実行する。とりわけ、第２のＬＭ１７０は、第１のＬＭ１６０による意図的でない記憶を検出するためのベースラインＬＭとしてのみ使用され、これにより、第２のＬＭ１７０は、ＡＳＲシステム１１８による推論中に使用されない（図１）。簡単に言えば、第２のＬＭ１７０はベースラインＬＭを表しており、これは、第２のＬＭ１７０が、実際にはカナリアテキストサンプル１３４のいずれか１つも含まずに、カナリアテキストに類似するトレーニングサンプルを含むトレーニングテキストサンプル１３１（図３Ｂ）の第２のコーパスで訓練されたためである。

【0052】

それぞれのカナリアテキストサンプル１３４ごとに、第１のＬＭ１６０は、対応する合成音声発話１４２のためにデコーダ２０６によって生成された初期転写２３２を再スコアリングして、転写１２０を生成する。同様に、それぞれのカナリアテキストサンプル１３４ごとに、第２のＬＭ１７０は、対応する合成音声発話１４２のためにデコーダ２０６によって生成された初期転写を再スコアリングして、検出転写１７４を生成する。したがって、それぞれのカナリアテキストサンプル１３４ごとに、第１のプロセス２０１は、ともに同じそれぞれのカナリアテキストサンプル１３４と関連付けられた、対応する転写１２０及び対応する検出転写１７４を生成する。

【0053】

いくつかの例では、検出損失モジュール１５０は、それぞれのカナリアテキストサンプル１３４ごとに、第１のＬＭによって生成された転写１２０、及び第２のＬＭ１７０によって生成された検出転写１７４を受け取って、それぞれのＬＭ１６０、１７０ごとのＷＥＲを決定するように構成される。すなわち、検出損失モジュール１５０は、転写１２０を対応するカナリアテキストサンプル１３４（例えば、グラウンドトゥルースラベル）と比較することに基づいて、第１のＬＭ１６０の第１のＷＥＲ１５２を決定する。同様に、検出損失モジュール１５０は、検出転写１７４を対応するカナリアテキストサンプル１３４（例えば、グラウンドトゥルースラベル）と比較することに基づいて、第２のＬＭ１７０の第２のＷＥＲ１５４を決定する。したがって、第１及び第２のＷＥＲ１５２、１５４は、カナリアテキストサンプル１３４のセット全体に対する集約ＷＥＲを表す。第１及び第２のＷＥＲ１５２、１５４は、対応するカナリアテキストサンプル１３４と、転写１２０または検出転写１７４それぞれとの間のコサイン類似度を含み得る。

【0054】

したがって、検出損失モジュール１５０は、第１のＬＭ１６０の第１のＷＥＲ１５２と第２のＬＭ１７０の第２のＷＥＲ１５４を比較することにより、第１のＬＭ１６０がカナリアテキストサンプル１３４を記憶したことを検出し得る。特に、検出損失モジュール１５０は、第１のＷＥＲ１５２と第２のＷＥＲ１５４とのＷＥＲの差を決定し、ＷＥＲの差が差閾値を満たすかどうかを判断し得る。差が差閾値を満たすと判断することに応答して、検出損失モジュール１５０は、どの特定のカナリアテキストサンプル１３４が記憶されたのかを特に識別することなく、第１のＬＭ１６０がカナリアテキストサンプル１３４のセットごとに１つまたは複数のカナリアテキストサンプル１３４が記憶されたことを検出する。簡単に言えば、第１のＬＭ１６０が、カナリアテキストサンプル１３４のセット全体で平均して、第２のＬＭ１７０によって生成された検出転写１７４よりもはるかに正確なカナリアテキストサンプルのセットの転写１２０を生成する場合、検出損失モジュール１５０は、カナリアテキストサンプル１３４の１つまたは複数が、トレーニング中に第１のＬＭ１６０によって記憶されたと判断する（図３Ａ）。有利なことに、第１のプロセス２０１は、第１及び第２のＬＭ１６０、１７０のＷＥＲを単に比較するだけで、一般的に第１のＬＭ１６０に直接アクセスしないユーザには利用できない、第１のＬＭ１６０によって生成されたＮ－ｂｅｓｔリストまたは信頼度値にアクセスする必要がない。いくつかの例では、検出損失モジュール１５０は、第２のＷＥＲ１５４を決して考慮することすらなく、第１のＷＥＲ１５２がＷＥＲ閾値を満たすかどうかを判断することにより、第１のＬＭ１６０がカナリアテキストサンプル１３４を記憶したことを検出する。ここで、第１のＬＭ１６０の第１のＷＥＲ１５２が低いほど、第１のＬＭ１６０によるカナリアテキストサンプル１３４の記憶の増加に対応する。

【0055】

ここで特に図２Ｂを参照すると、いくつかの実施態様では、第２のプロセス２０２は、第１のＬＭ１６０がサンプルごとに、トレーニング中に（図３Ａ）カナリアテキストサンプル１３４を記憶したかどうかを検出するために分類器１８０を実行する。とりわけ、第１のプロセス２０１（図２Ａ）とは対照的に、第２のプロセス２０２は、第１のＬＭ１６０によって記憶される特定のカナリアテキストサンプル１３４を識別する。さらに、第２のプロセス２０２は、いかなる他のＬＭも活用せずに、第１のＬＭ１６０による記憶を検出する。

【0056】

いくつかのシナリオでは、ＴＴＳシステム１４０によって生成された合成音声発話１４２は明瞭すぎるため、デコーダ２０６は、第１のＬＭ１６０を活用せずに音声を正確に転写する。他のシナリオでは、ＴＴＳシステム１４０によって生成された合成音声発話１４２は不明瞭すぎるため、デコーダ２０６は、音声のいかなる転写も生成せず、したがって第１のＬＭ１６０は、転写を再スコアリングすることができない。その目的のために、ＴＴＳシステム１４０は、カナリアテキストサンプル１３４ごとに生成された合成音声発話１４２を拡張する。特に、ＴＴＳシステムは、対応する合成音声発話１４２の接頭辞部分１４６にいかなるノイズも追加せずに、対応する合成音声発話１４２の接尾辞部分１４４にノイズを追加することにより、拡張された合成音声発話１４２、１４２Ａを生成する。ＴＴＳシステム１４０は、接尾辞部分１４４のみを拡張することにより、第２のプロセス２０２が、拡張された合成音声発話１４２Ａを不明瞭にしすぎずに第１のＬＭ１６０を活用して初期転写２３２を再スコアリングすることを確実にし、その結果、デコーダ２０６は、拡張された合成音声発話１４２Ａのいかなる転写も生成しない。

【0057】

それぞれのカナリアテキストサンプル１３４ごとに、第１のＬＭ１６０は、対応する拡張された合成音声発話１４２Ａのためにデコーダ２０６によって生成された初期転写２３２を再スコアリングして、転写１２０を生成する。分類器１８０は、それぞれのカナリアテキストサンプル１３４ごとに、対応する拡張された合成音声発話１４２Ａ及び対応するカナリアテキストサンプル１３４のために第１のＬＭ１６０によって生成された転写１２０を受け取るように構成される。ここで、分類器１８０は、対応するカナリアテキストサンプル１３４と一致する対応する拡張された合成音声発話１４２Ａのために生成された転写１２０に基づいて、対応するカナリアテキストサンプル１３４が第１のＬＭ１６０を訓練するために使用されたと判断する。別の言い方をすると、分類器１８０は、第１のＬＭ１６０を訓練するために使用されたカナリアテキストサンプル１３４が、トレーニング中に第１のＬＭ１６０によって非意図的に記憶されたかどうかを判断する。ここで、分類器１８０は、それぞれのカナリアテキストサンプル１３４ごとに、第１のＬＭ１６０によって生成された転写１２０が、転写１２０とそれぞれのカナリアテキストサンプル１３４との閾値差を満たすと判断することにより、第１のＬＭ１６０がそれぞれのカナリアテキストサンプル１３４を記憶したかどうかを判断し得る。いくつかの構成では、転写１２０は、第１のＬＭ１６０によって記憶されているとして分類されるそれぞれのカナリアテキストサンプル１３４と正確に一致しなければならない。したがって、分類器１８０は、それぞれのカナリアテキストサンプル１３４ごとに、それぞれのカナリアテキストサンプル１３４が、第１のＬＭ１６０によって記憶されたのか、それとも記憶されなかったのかを示す対応するインジケータ１８２を出力する。

【0058】

しかしながら、プロセス２０１、２０２は、記憶を低減させることなく、第１のＬＭ１６０がいずれかのカナリアテキストサンプル１３４を記憶したかどうかを単に検出するだけである。その目的のために、図３Ａを参照し直すと、第１の例示的なトレーニングプロセス３００ａは、第１のＬＭ１６０を訓練しながら、サンプルごとの勾配クリッピングを適用することにより、第１のＬＭ１６０によるカナリアテキストサンプル１３４の検出された記憶を軽減することをさらに含み得る。いくつかの例では、第１の例示的なトレーニングプロセス３００ａは、各トレーニングテキストサンプル１３０の勾配を固定最大クリッピング基準までクリッピングし、次にランダムノイズを平均クリッピング勾配に追加する。これらの例では、勾配クリッピングは、推論中に一般化が低減されることを大幅に犠牲にして、第１のＬＭ１６０の強固なプライバシーを保証する。したがって、第１の例示的なトレーニングプロセス３００ａは、カナリアテキストサンプル１３４それぞれにサンプルごとの勾配クリッピングを適用して、所定数のカナリアテキストサンプル１３４から勾配をクリッピングし、それによりカナリアテキストサンプルのクリッピングされた勾配の感度を制限する。有利なことに、このようにしてサンプルごとの勾配クリッピングを適用することにより、推論中に第１のＬＭ１６０の一般化を犠牲にすることなく、第１のＬＭ１６０による記憶が少なくなることが保証される。任意選択で、サンプルごとの勾配クリッピングは、トレーニングテキストサンプル１３０ごとに適用され得る。

【0059】

図４は、言語モデルが非意図的にカナリアテキストサンプルを記憶したことを検出するためのコンピュータ実装方法４００の動作の例示的な配置のフローチャートである。データ処理ハードウェア５１０（図５）は、データ処理ハードウェア５１０に方法４００の動作を実行させる、メモリハードウェア５２０（図５）に格納された命令を実行し得る。データ処理ハードウェア５１０は、ユーザデバイス１０のデータ処理ハードウェア１２、またはサーバ６０に存在するデータ処理ハードウェアを含み得る。メモリハードウェア５２０は、ユーザデバイス１０のメモリハードウェア１４またはサーバ６０に存在するメモリハードウェアを含み得る。動作４０２で、方法４００は、カナリアテキストサンプル１３４のセットをトレーニングテキストサンプル１３０の第１のコーパスに挿入することを含む。動作４０４で、方法４００は、トレーニングテキストサンプル１３０の第１のコーパス、及びトレーニングテキストサンプル１３０の第１のコーパスに挿入されたカナリアテキストサンプル１３４のセットで第１のＬＭ１６０を訓練することを含む。カナリアテキストサンプル１３４のセット内のそれぞれのカナリアテキストサンプル１３４ごとに、方法４００は動作４０６と４０８を実行する。動作４０６で、方法４００は、ＴＴＳシステム１４０を使用して、それぞれのカナリアテキストサンプル１３４のために対応する合成音声発話１４２を生成することを含む。動作４０８で、方法４００は、入力として、対応する合成音声発話１４２を受け取るように構成された訓練されたＡＳＲモデル２００を使用して、対応する合成音声発話１４２のための初期転写２３２を生成することを含む。

【0060】

動作４１０で、方法４００は、第１のＬＭ１６０を使用して、対応する合成音声発話ごとに生成された初期転写２３２を再スコアリングすることを含む。ここで、第１のＬＭ１６０によって出力される再スコアリングされた初期転写は、転写１２０に対応し得る。例えば、訓練されたＡＳＲモデル２００がストリーミングモードで動作するとき、第１のＬＭ１６０は、初期音声認識結果１２０、１２０ａに対応する再スコアリングされた初期転写を出力する。一方、訓練されたＡＳＲモデル２００が非ストリーミングモードで動作するとき、第１のＬＭ１６０は、最終的な音声認識結果１２０、１２０ｂに対応する、再スコアリングされた初期転写を出力する。動作４１２で、方法４００は、再スコアリングされた初期転写（例えば、転写）１２０及びカナリアテキストサンプル（例えば、グラウンドトゥルースラベル）１３４に基づいて、第１のＬＭ１６０の第１のＷＥＲ１５２を決定することを含む。動作４１４で、方法４００は、第１のＬＭ１６０の第１のＷＥＲ１５２に基づいて、第１のＬＭ１６０によるカナリアテキストサンプル１３４の記憶を検出することを含む。いくつかの例では、方法４００は、第１のＬＭ１６０の第１のＷＥＲ１５２を第２のＬＭ１７０の第２のＷＥＲ１５４と比較することにより、カナリアテキストサンプル１３４の記憶を検出する。他の例では、方法４００は、分類器１８０を使用することにより、カナリアテキストサンプルの記憶を検出する。

【0061】

図５は、本文書に記載のシステム及び方法を実装するために使用され得る例示的なコンピューティングデバイス（例えば、システム）５００の概略図である。コンピューティングデバイス５００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、及び他の適切なコンピュータなど、様々な形式のデジタルコンピュータを表すことを意図している。ここで示されているコンポーネント、それらの接続と関係、及びそれらの機能は、例示のみを目的としており、この文書で説明及び／または特許請求されている本発明の実施態様を制限することを意図してはいない。

【0062】

コンピューティングデバイス５００には、プロセッサ５１０、メモリ５２０、ストレージデバイス５３０、メモリ５２０及び高速拡張ポート５５０に接続する高速インターフェース／コントローラ５４０、ならびに低速バス５７０及びストレージデバイス５３０に接続する低速インターフェース／コントローラ５６０が含まれる。各コンポーネント５１０、５２０、５３０、５４０、５５０、及び５６０は、様々なバスを使用して相互接続されており、共通のマザーボードに据え付けられるか、または必要に応じて他の方法で存在することもできる。プロセッサ（例えば、データ処理ハードウェア）５１０は、メモリ５２０またはストレージデバイス５３０に格納された命令を含む、コンピューティングデバイス５００内で実行するための命令を処理して、高速インターフェース５４０に接続されたディスプレイ５８０などの外部入出力デバイスにグラフィカルユーザインターフェース（ＧＵＩ）のグラフィカル情報を表示することができる。他の実施態様では、複数のメモリ及びメモリの種類とともに、必要に応じて複数のプロセッサ及び／または複数のバスが使用される場合がある。また、複数のコンピューティングデバイス５００が接続され、各デバイスが（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な動作の部分を提供する場合がある。

【0063】

メモリ（例えば、メモリハードウェア）５２０は、コンピューティングデバイス５００内に非一時的に情報を格納する。メモリ５２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってよい。非一時的メモリ５２０は、コンピューティングデバイス５００による使用のために一時的または永続的にプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリ及び読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常はブートプログラムなどのファームウェアに使用される）を含むが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、及びディスクまたはテープを含むが、これらに限定されない。

【0064】

ストレージデバイス５３０は、コンピューティングデバイス５００に大容量ストレージを提供することができる。いくつかの実施態様では、ストレージデバイス５３０はコンピュータ可読媒体である。様々な異なる実施態様では、ストレージデバイス５３０は、フロッピーディスク（登録商標）デバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくはその他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成のデバイスを含む、デバイスアレイであってよい。追加の実施態様では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行時に上述したような１つまたは複数の方法を実行する命令を含む。情報キャリアは、メモリ５２０、ストレージデバイス５３０、またはプロセッサ５１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

【0065】

高速コントローラ５４０は、コンピューティングデバイス５００の帯域幅集約動作を管理し、低速コントローラ５６０は、低帯域幅集約動作を管理する。そのような役割の割り振りは単なる例である。いくつかの実施態様では、高速コントローラ５４０は、メモリ５２０、ディスプレイ５８０（例えば、グラフィックプロセッサまたはアクセラレータを介して）、及び様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート５５０に結合される。いくつかの実施態様では、低速コントローラ５６０は、ストレージデバイス５３０及び低速拡張ポート５９０に結合される。様々な通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット）を含み得る低速拡張ポート５９０は、例えば、ネットワークアダプタを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチもしくはルータなどのネットワークデバイスなどの１つまたは複数の入出力デバイスに結合され得る。

【0066】

コンピューティングデバイス５００は、図に示すように、多くの様々な形式で実装できる。例えば、それは、標準サーバ５００ａとして、またはそれらのようなサーバ５００ａのグループ内で複数回、ラップトップコンピュータ５００ｂとして、またはラックサーバシステム５００ｃの一部として実装されてよい。

【0067】

本明細書で説明するシステム及び技術の様々な実施態様は、デジタル電子及び／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、及び／またはそれらの組み合わせで実現できる。これらの様々な実施態様は、特殊または汎用であり得、ストレージシステムからデータ及び命令を受信し、ストレージシステムにデータ及び命令を送信するように結合された、少なくとも１つのプログラマブルプロセッサ、少なくとも１つの入力デバイス、及び少なくとも１つの出力デバイスを含むプログラム可能なシステムで実行可能及び／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施態様を含むことができる。

【0068】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を含み、かつ高水準手続型及び／またはオブジェクト指向プログラミング言語、及び／またはアセンブリ／機械言語で実装することができる。本明細書で使用する場合、「機械可読媒体」及び「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受け取る機械可読媒体を含むプログラマブルプロセッサに機械命令及び／またはデータを提供するために用いられる、あらゆるコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置及び／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令及び／またはデータをプログラマブルプロセッサに提供するために用いられるあらゆる信号を指す。

【0069】

本明細書に説明するプロセス及び論理フローは、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラマブルプロセッサが１つまたは複数のコンピュータプログラムを実行して、入力データに作用し、出力を生成することにより機能を実行することによって実行できる。プロセス及び論理フローはまた、特殊用途論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行され得る。コンピュータプログラムの実行に適切なプロセッサは、例えば、汎用及び特殊目的のマイクロプロセッサの両方、ならびにいずれかの種類のデジタルコンピュータのいずれか１つまたは複数のプロセッサを含む。概して、プロセッサは、読み出し専用メモリ、ランダムアクセスメモリ、またはその両方から命令及びデータを受け取る。コンピュータの基本的な要素は、命令を実行するためのプロセッサ、ならびに命令及びデータを格納するための１つまたは複数のメモリデバイスである。概して、コンピュータはまた、データを格納するための１つまたは複数の大容量記憶デバイス、例えば、磁気ディスク、光磁気ディスク、または光ディスクを含む、またはそれらからデータを受け取るもしくはそれらにデータを送信する、あるいはその両方を行うよう動作可能に接続される。しかし、コンピュータがそのようなデバイスを有している必要はない。コンピュータプログラム命令及びデータを格納するのに適したコンピュータ可読媒体は、あらゆる形式の不揮発性メモリ、メディア、及びメモリデバイスを含み、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、及びフラッシュメモリデバイスなどの半導体メモリデバイス、内蔵ハードディスクまたはリムーバブルディスクなどの磁気ディスク、光磁気ディスク、ならびにＣＤＲＯＭ及びＤＶＤ－ＲＯＭディスクを含む。プロセッサ及びメモリは、専用論理回路によって補完されるか、または専用論理回路に組み込まれ得る。

【0070】

ユーザとのインタラクションを提供するために、本開示の１つまたは複数の態様は、ユーザに情報を表示するためのディスプレイ装置（例えばＣＲＴ（ブラウン管）、ＬＣＤ（液晶画面）モニタ）、またはタッチスクリーン、及び任意選択で、ユーザがそれによってコンピュータに入力を提供することができるキーボード及びポインティングデバイス、例えば、マウスまたはトラックボールを有するコンピュータに実装することができる。他の種類のデバイスもまた、ユーザとのインタラクションを提供するために使用でき、例えば、ユーザに提供されるフィードバックは、任意の形式の感覚的フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声言語、または触覚入力を含む、任意の形式で受け取られ得る。さらに、コンピュータは、例えば、ウェブブラウザから受け取った要求に応答して、ユーザが使用するデバイスに文書を送り、ユーザが使用するデバイスから文書を受け取ることで、ユーザとインタラクトできる。

【0071】

いくつかの実施態が説明されてきた。それにも関わらず、本開示の趣旨及び範囲から逸脱することなく、様々な修正を行い得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。

【要約】

方法（４００）は、カナリアテキストサンプル（１３４）のセットをトレーニングテキストサンプル（１３０）のコーパスに挿入することと、トレーニングテキストサンプルのコーパス、及びトレーニングテキストサンプルのコーパスに挿入されたカナリアテキストサンプルのセットで外部言語モデル（１６０）を訓練することとを含む。カナリアテキストサンプルごとに、方法はまた、対応する合成音声発話（１４２）を生成することと、対応する合成音声発話の初期転写（２３２）を生成することとを含む。本方法はまた、外部言語モデルを使用して、対応する合成音声発話ごとに生成された初期転写を再スコアリングすることを含む。方法はまた、再スコアリングされた初期転写とカナリアテキストサンプルとに基づいて外部言語モデルのワード誤り率（ＷＥＲ）（１５２）を決定することと、外部言語モデルのＷＥＲに基づいて、外部言語モデルによるカナリアテキストサンプルの記憶を検出することとを含む。
【選択図】図１

【図1】

【図2A】

【図2B】

【図3】

【図4】

【図5】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版