特表2024-513778 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特表2024-513778自己適応型蒸留

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
3
4
5

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-03-27

(54)【発明の名称】自己適応型蒸留

(51)【国際特許分類】

G10L 15/06 20130101AFI20240319BHJP

G10L 15/16 20060101ALI20240319BHJP

G06N 3/084 20230101ALI20240319BHJP

【ＦＩ】

G10L15/06 300Y

G10L15/16

G06N3/084

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2023558805

(86)(22)【出願日】2021-12-07

(85)【翻訳文提出日】2023-10-31

(86)【国際出願番号】 US2021062255

(87)【国際公開番号】W WO2022203729

(87)【国際公開日】2022-09-29

(31)【優先権主張番号】63/166,938

(32)【優先日】2021-03-26

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(72)【発明者】

【氏名】リール、イザベル

(72)【発明者】

【氏名】ガウル、ニーラジ

(72)【発明者】

【氏名】ハガニ、パリサ

(72)【発明者】

【氏名】ファリス、ブライアン

(72)【発明者】

【氏名】ラマバドラン、ブバナ

(72)【発明者】

【氏名】プラサード、マナサ

(72)【発明者】

【氏名】メンヒバル、ペドロジェイ．モレノ

(72)【発明者】

【氏名】チュー、ユン

(57)【要約】

１つまたは複数のトレーニングされた教師ＡＳＲ（自動音声認識）モデル（２１０）を多言語生徒モデル（２００）に蒸留するための方法（４００）は、複数の教師トレーニング例（１５２）および複数の生徒トレーニング例（１５４）を受信する工程を含む。方法はまた、複数の教師トレーニング例を使用して１つまたは複数の教師ＡＳＲモデルをトレーニングする工程を含む。各教師ＡＳＲモデルは、それぞれの音声入力のそれぞれのテキスト表現を出力するよう構成される。方法は、複数の生徒トレーニング例を使用して多言語生徒ＡＳＲモデルをトレーニングすることにより、および調整可能な蒸留損失重み（２２２）を使用して、トレーニングされた１つまたは複数の教師ＡＳＲモデルを多言語生徒ＡＳＲモデルに蒸留することにより、多言語生徒ＡＳＲモデルを生成する工程をさらに含む。生徒ＡＳＲモデルは、音声入力（１４）を受信するとともに、受信された音声入力に対応するテキスト表現（１４２）を出力するよう構成される。

【特許請求の範囲】

【請求項1】

データ処理ハードウェア（１３４）によって実行されると、前記データ処理ハードウェア（１３４）に動作を実行させる、コンピュータが実施する方法（４００）であって、
前記動作は、
複数の教師トレーニング例（１５２）および複数の生徒トレーニング例（１５４）を受信する工程と、
前記複数の教師トレーニング例（１５２）を使用して１つまたは複数の教師自動音声認識（ＡＳＲ）モデル（２１０）をトレーニングする工程であって、各教師ＡＳＲモデル（２１０）は、それぞれの音声入力（１４）のそれぞれのテキスト表現を出力するよう構成される、工程と、
多言語生徒ＡＳＲモデル（２００）を生成する工程であって、
音声入力（１４）を受信し、受信した前記音声入力（１４）の対応するテキスト表現（１４２）を出力するよう構成される前記多言語生徒ＡＳＲモデル（２００）を、前記複数の生徒トレーニング例（１５４）を使用してトレーニングする工程と、
調整可能な蒸留損失重み（２２２）を使用して、トレーニングされた前記１つまたは複数の教師ＡＳＲモデル（２１０）を前記多言語生徒ＡＳＲモデル（２００）に蒸留する工程と、によって前記多言語生徒ＡＳＲモデル（２００）を生成する工程と、を備える、方法（４００）。

【請求項2】

前記１つまたは複数の教師ＡＳＲモデル（２１０）は、前記多言語生徒ＡＳＲモデル（２００）よりも少ない言語を集合的に認識するよう構成される、請求項１に記載の方法（４００）。

【請求項3】

前記調整可能な蒸留損失重み（２２２）は定数値を含む、請求項１または２に記載の方法（４００）。

【請求項4】

前記多言語生徒モデル（２００）をトレーニングすることは、ｎ個のトレーニングステップにわたって行われ、
前記調整可能な蒸留損失重み（２２２）は、前記ｎ個のトレーニングステップに基づき減少する減少関数を含む、請求項１乃至３のいずれか一項に記載の方法（４００）。

【請求項5】

前記１つまたは複数の教師ＡＳＲモデル（２１０）および前記多言語生徒ＡＳＲモデル（２００）の各々は、回帰型ニューラルネットワーク－トランスデューサ（ＲＮＮ－Ｔ）アーキテクチャを含む、請求項１乃至４のいずれか一項に記載の方法（４００）。

【請求項6】

前記調整可能な蒸留損失重み（２２２）は、前記１つまたは複数の教師ＡＳＲモデル（２１０）に対応するＲＮＮ－Ｔ損失に基づく減少関数を含む、請求項５に記載の方法（４００）。

【請求項7】

前記調整可能な蒸留損失重み（２２２）は、前記１つまたは複数の教師ＡＳＲモデル（２１０）に対応する第１のＲＮＮ－Ｔ損失および前記多言語生徒ＡＳＲモデル（２００）に対応する第２のＲＮＮ－Ｔ損失に基づく減少関数を含む、請求項５または６に記載の方法（４００）。

【請求項8】

前記減少関数は、
前記１つまたは複数の教師ＡＳＲモデル（２１０）に対応する前記第１のＲＮＮ－Ｔ損失を時間のインスタンスにわたって減少させ、
前記多言語生徒ＡＳＲモデル（２００）に対応する前記第２のＲＮＮ－Ｔ損失を前記時間のインスタンスにわたって増加させる、請求項７に記載の方法（４００）。

【請求項9】

前記１つまたは複数の教師ＡＳＲモデル（２１０）の各教師ＡＳＲモデル（２１０）は、単一言語教師ＡＳＲモデル（２１０）に対応する、請求項１乃至８のいずれか一項に記載の方法（４００）。

【請求項10】

前記１つまたは複数の教師ＡＳＲモデル（２１０）は、単体の多言語ＡＳＲモデルに対応する、請求項１乃至９のいずれか一項に記載の方法（４００）。

【請求項11】

システム（１００）であって、
データ処理ハードウェア（１３４）と、
前記データ処理ハードウェア（１３５）と通信するメモリハードウェア（１３６）と、を備え、前記メモリハードウェア（１３６）は、前記データ処理ハードウェア（１３４）上で実行されると前記データ処理ハードウェア（１３４）に動作を実行させる命令を記憶し、
前記動作は、
複数の教師トレーニング例（１５２）および複数の生徒トレーニング例（１５４）を受信する工程と、
前記複数の教師トレーニング例（１５２）を使用して１つまたは複数の教師自動音声認識（ＡＳＲ）モデル（２１０）をトレーニングする工程であって、各教師ＡＳＲモデル（２１０）は、それぞれの音声入力（１４）のそれぞれのテキスト表現を出力するよう構成される、工程と、
多言語生徒ＡＳＲモデル（２００）を生成する工程であって、
音声入力（１４）を受信し、受信した前記音声入力（１４）の対応するテキスト表現（１４２）を出力するよう構成される前記多言語生徒ＡＳＲモデル（２００）を、前記複数の生徒トレーニング例（１５４）を使用してトレーニングする工程と、
調整可能な蒸留損失重み（２２２）を使用して、トレーニングされた前記１つまたは複数の教師ＡＳＲモデル（２１０）を前記多言語生徒ＡＳＲモデル（２００）に蒸留する工程と、によって前記多言語生徒ＡＳＲモデル（２００）を生成する工程と、を備える、システム（１００）。

【請求項12】

前記１つまたは複数の教師ＡＳＲモデル（２１０）は、前記多言語生徒ＡＳＲモデル（２００）よりも少ない言語を集合的に認識するよう構成される、請求項１１に記載のシステム（１００）。

【請求項13】

前記調整可能な蒸留損失重み（２２２）は定数値を含む、請求項１１または１２に記載のシステム（１００）。

【請求項14】

前記多言語生徒モデル（２００）をトレーニングすることは、ｎ個のトレーニングステップにわたって行われ、
前記調整可能な蒸留損失重み（２２２）は、前記ｎ個のトレーニングステップに基づき減少する減少関数を含む、請求項１１乃至１３のいずれか一項に記載のシステム（１００）。

【請求項15】

前記１つまたは複数の教師ＡＳＲモデル（２１０）および前記多言語生徒ＡＳＲモデルの各々は、回帰型ニューラルネットワーク－トランスデューサ（ＲＮＮ－Ｔ）アーキテクチャを含む、請求項１１乃至１４のいずれか一項に記載のシステム（１００）。

【請求項16】

前記調整可能な蒸留損失重み（２２２）は、前記１つまたは複数の教師ＡＳＲモデル（２１０）に対応するＲＮＮ－Ｔ損失に基づく減少関数を含む、請求項１５に記載のシステム（１００）。

【請求項17】

前記調整可能な蒸留損失重み（２２２）は、前記１つまたは複数の教師ＡＳＲモデル（２１０）に対応する第１のＲＮＮ－Ｔ損失および前記多言語生徒ＡＳＲモデル（２００）に対応する第２のＲＮＮ－Ｔ損失に基づく減少関数を含む、請求項１５または１６に記載のシステム（１００）。

【請求項18】

前記減少関数は、
前記１つまたは複数の教師ＡＳＲモデル（２１０）に対応する前記第１のＲＮＮ－Ｔ損失を時間のインスタンスにわたって減少させ、
前記多言語生徒ＡＳＲモデル（２００）に対応する前記第２のＲＮＮ－Ｔ損失を前記時間のインスタンスにわたって増加させる、請求項１７に記載のシステム（１００）。

【請求項19】

前記１つまたは複数の教師ＡＳＲモデル（２１０）の各教師ＡＳＲモデル（２１０）は、単一言語教師ＡＳＲモデル（２１０）に対応する、請求項１１乃至１８のいずれか一項に記載のシステム（１００）。

【請求項20】

前記１つまたは複数の教師ＡＳＲモデル（２１０）は、単体の多言語ＡＳＲモデルに対応する、請求項１１乃至１９のいずれか一項に記載のシステム（１００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、自己適応型蒸留に関する。

【背景技術】

【0002】

近年、ＡＳＲ（自動音声認識）が人気を得てきたことに伴い、ＡＳＲは世界中の言語により広く適用されている。しかしながら、いくつかの言語は、ＡＳＲモデルの品質または堅牢性に影響を及ぼす制限を有する。例えば、言語は、高いリソースを有するものから低いリソースを有するものまで様々であり得る。リソースとは、ＡＳＲモデルがトレーニングならびに精度および堅牢性を改善するために活用する資源を指す。リソースの不均衡により、ＡＳＲモデルは、ＡＳＲモデルを採用するアプリケーションまたはプログラムによるユーザ体験に必然的に影響を与える様々な性能劣化に遭遇する可能性がある。

【発明の概要】

【0003】

本開示の一態様は、１つまたは複数のトレーニングされた教師ＡＳＲ（自動音声認識）モデルを多言語生徒モデルに蒸留するためにコンピュータが実施する方法を提供する。コンピュータが実施する方法は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、複数の教師トレーニング例および複数の生徒トレーニング例を受信する工程を含む動作を実行させる。動作はまた、複数の教師トレーニング例を使用して１つまたは複数の教師ＡＳＲモデルをトレーニングする工程を含む。各教師ＡＳＲモデルは、それぞれの音声入力のそれぞれのテキスト表現を出力するよう構成される。動作はまた、複数の生徒トレーニング例を使用して多言語生徒ＡＳＲモデルをトレーニングすることにより、および調整可能な蒸留損失重みを使用して、トレーニングされた１つまたは複数の教師ＡＳＲモデルを多言語生徒ＡＳＲモデルに蒸留することにより、多言語生徒ＡＳＲモデルを生成する工程を含む。各生徒ＡＳＲモデルは、音声入力を受信し、受信した音声入力に対応するテキスト表現を出力するよう構成される。

【0004】

本開示の実装は、以下の選択的特徴のうちの１つまたは複数を含んでよい。いくつかの実装では、１つまたは複数の教師ＡＳＲモデルは、多言語生徒ＡＳＲモデルよりも少ない言語を集合的に認識するよう構成される。調整可能な蒸留損失重みは、定数値を含んでよい。いくつかの追加的な実装では、多言語生徒モデルをトレーニングすることは、ｎ個のトレーニングステップにわたって行われ、調整可能な蒸留損失重みは、ｎ個のトレーニングステップに基づき減少する減少関数を含む。

【0005】

いくつかの例では、１つまたは複数の教師ＡＳＲモデルおよび多言語生徒ＡＳＲモデルの各々は、ＲＮＮ－Ｔ（回帰型ニューラルネットワーク－トランスデューサ）アーキテクチャを含む。これらの例では、調整可能な蒸留損失重みは、１つまたは複数の教師ＡＳＲモデルに対応するＲＮＮ－Ｔ損失に基づく減少関数を含んでもよい。あるいは、これらの例における調整可能な蒸留損失重みは、１つまたは複数の教師ＡＳＲモデルに対応する第１のＲＮＮ－Ｔ損失および多言語生徒ＡＳＲモデルに対応する第２のＲＮＮ－Ｔ損失に基づく減少関数を含んでよい。ここで、減少関数は、１つまたは複数の教師ＡＳＲモデルに対応する第１のＲＮＮ－Ｔ損失を時間のインスタンスにわたって減少させ、多言語生徒ＡＳＲモデルに対応する第２のＲＮＮ－Ｔ損失を時間のインスタンスにわたって増加させてもよい。

【0006】

１つまたは複数の教師ＡＳＲモデルの各教師ＡＳＲモデルは、単一言語ＡＳＲモデルに対応してよい。あるいは、１つまたは複数の教師ＡＳＲモデルは、単体の多言語ＡＳＲモデルに対応してもよい。

【0007】

本開示の別の態様は、１つまたは複数のトレーニングされた教師ＡＳＲ（自動音声認識）モデルを多言語生徒モデルに蒸留するためのシステムを提供する。このシステムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアとを含む。メモリハードウェアは、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、複数の教師トレーニング例および複数の生徒トレーニング例を受信する工程を含む動作を実行させる命令を記憶する。動作はまた、複数の教師トレーニング例を使用して１つまたは複数の教師ＡＳＲモデルをトレーニングする工程を含む。各教師ＡＳＲモデルは、それぞれの音声入力のそれぞれのテキスト表現を出力するよう構成される。動作はまた、複数の生徒トレーニング例を使用して多言語生徒ＡＳＲモデルをトレーニングすることにより、および調整可能な蒸留損失重みを使用して、トレーニングされた１つまたは複数の教師ＡＳＲモデルを多言語生徒ＡＳＲモデルに蒸留することにより、多言語生徒ＡＳＲモデルを生成する工程を含む。各生徒ＡＳＲモデルは、音声入力を受信し、受信した音声入力に対応するテキスト表現を出力するよう構成される。

【0008】

この態様は、以下の選択的特徴のうちの１つまたは複数を含んでよい。いくつかの実装では、１つまたは複数の教師ＡＳＲモデルは、多言語生徒ＡＳＲモデルよりも少ない言語を集合的に認識するよう構成される。調整可能な蒸留損失重みは、定数値を含んでよい。いくつかの追加的な実装では、多言語生徒モデルをトレーニングすることは、ｎ個のトレーニングステップにわたって行われ、調整可能な蒸留損失重みは、ｎ個のトレーニングステップに基づき減少する減少関数を含む。

【0009】

【0010】

【0011】

本開示の１つまたは複数の実装の詳細が、添付の図面および以下の説明に記載される。他の態様、特徴、および利点は、説明および図面から、ならびに特許請求の範囲から明らかになるであろう。

【図面の簡単な説明】

【0012】

【図1A】適応型自動音声認識モデルを使用する例示的な音声環境の概略図。

【図1B】適応型自動音声認識モデルを使用する例示的な音声環境の概略図。

【図2A】２以上の単一言語教師モデルから形成された例示的な適応モデルの概略図。

【図2B】単体の多言語教師モデルから形成された例示的な適応モデルの概略図。

【図3】図１Ａ乃至２Ｂの適応モデルの例示的なモデルアーキテクチャの概略図。

【図4】適応モデルを生成する方法の動作の例示的な構成のフローチャート。

【図5】本明細書で説明されるシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイスの概略図。

【発明を実施するための形態】

【0013】

様々な図面における同様の参照符号は、同様の要素を示す。
図１Ａおよび図１Ｂを参照すると、いくつかの実装では、システム１００は、話された発話１２を音声対応デバイス１１０（デバイス１１０またはユーザデバイス１１０とも呼ばれる）に通信するユーザ１０を含む。ユーザ１０（すなわち、発話１２の話者）は、クエリまたはコマンドとして発話１２を話して、デバイス１１０からの応答を求めるか、またはクエリによって指定されたタスクをデバイス１１０に実行させてよい。デバイス１１０は、ユーザデバイス１１０の音声環境内の１人または複数のユーザ１０からの音をキャプチャするよう構成される。本明細書では、オーディオ音は、可聴クエリ、デバイス１１０に対するコマンド、またはデバイス１１０によってキャプチャされた可聴通信として機能する、ユーザ１０によって話された発話１２を指し得る。デバイス１１０の、またはデバイス１１０に関連付けられた音声対応システム（例えば、デジタルアシスタントインターフェース）は、クエリに回答すること、および／またはコマンドを実行させることによって、コマンドまたはクエリに対処し得る。

【0014】

ここで、デバイス１１０は、ユーザ１０によって話された発話１２に対応する音声データ１４をキャプチャする。デバイス１１０は、ユーザ１０に関連付けられ、音声データ１４を受信することが可能な任意のコンピューティングデバイスに対応してよい。ユーザデバイス１１０のいくつかの例は、モバイルデバイス（例えば、携帯電話、タブレット、ラップトップ、電子書籍リーダーなど）、コンピュータ、ウェアラブルデバイス（例えば、スマートウォッチ）、音楽プレーヤ、キャスティングデバイス、スマート家電（例えば、スマートテレビ）およびＩｏＴ（モノのインターネット）デバイス、リモートコントロール、スマートスピーカなどを含むが、これらに限定されない。デバイス１１０は、データ処理ハードウェア１１２およびメモリハードウェア１１４を含む。メモリハードウェア１１４は、データ処理ハードウェア１１２と通信するとともに、データ処理ハードウェア１１２によって実行されるとデータ処理ハードウェア１１２に音声および／またはテキスト処理に関連する１つまたは複数の動作を実行させる命令を記憶する。いくつかの例では、デバイス１１０は、１つまたは複数のアプリケーション（すなわち、ソフトウェアアプリケーション）を含む。各アプリケーションは、デバイス１１０に関連付けられた１つまたは複数の音声処理システム１４０、２００を利用して、アプリケーション内の様々な機能を実行し得る。

【0015】

デバイス１１０は、音声環境内の音声データ１４をキャプチャして電気信号に変換するためのオーディオキャプチャデバイス（例えば、マイクロフォン）１１６と、可聴音声信号（例えば、デバイス１１０からの合成再生信号１５４）を通信するための音声出力デバイス（例えば、スピーカ）１１８とを有するオーディオサブシステムをさらに含む。デバイス１１０は、図示の例では単体のオーディオキャプチャデバイス１１６を実装するが、デバイス１１０は、本開示の範囲から逸脱することなく、一連のオーディオキャプチャデバイス１１６を実装することによって、一連のオーディオキャプチャデバイス１１６のうちの１つまたは複数が、デバイス１１０上に物理的に常駐せずにオーディオサブシステム（例えば、デバイス１１０の周辺機器）と通信してよい。例えば、デバイス１１０は、車両全体にわたって配置された一連のマイクロフォンを活用する車両インフォテインメント（ｉｎｆｏｔａｉｎｍｅｎｔ）システムに対応してよい。

【0016】

さらに、デバイス１１０は、ネットワーク１２０を介してリモートシステム１３０と通信するよう構成される。リモートシステム１３０は、リモートデータ処理ハードウェア１３４（例えば、リモートサーバまたはＣＰＵ）および／またはリモートメモリハードウェア１３６（例えば、リモートデータベースまたは他のストレージハードウェア）などのリモートリソース１３２を含んでよい。デバイス１１０は、リモートリソース１３２を利用して音声処理に関する様々な機能を実行してよい。例えば、デバイス１１０は、音声認識システム１４０を使用して音声認識を実行するよう構成される。これらのシステム１４０、２００は、デバイス１１０上に常駐し得る（オンデバイスシステムと称される）か、またはリモート（例えば、リモートシステム１３０上）で常駐しつつデバイス１１０と通信し得る。いくつかの実施例では、これらのシステム１４０、２００のうちのいくつかは、ローカルでまたはオンデバイスで常駐し、他は、リモートで常駐する。換言すると、これらのシステム１４０、２００は、任意の組合せでローカルまたはリモートであってよい。例えば、システム１４０、２００のサイズまたは処理要件がかなり大きい場合、システム１４０、２００はリモートシステム１３０内に常駐してもよい。しかし、デバイス１１０が１つまたは複数のシステム１４０、２００のサイズまたは処理要件をサポートすることができる場合、１つまたは複数のシステム１４０、２００は、データ処理ハードウェア１１２および／またはメモリハードウェア１１４を使用してデバイス１１０上に常駐してよい。または、１つまたは複数のシステム１４０、２００、ローカルまたはオンデバイスおよびリモートの両方で常駐してもよい。例えば、１つまたは複数のシステム１４０、２００は、デバイス１１０とリモートシステム１３０との間のネットワーク１２０への接続が利用可能である場合、リモートシステム１３０上でデフォルトで実行されてよいが、接続が失われるかまたはネットワーク１２０が利用不可能である場合、システム１４０、２００は、代わりに、デバイス１１０上でローカルで実行される。

【0017】

音声認識システム１４０は、音声データ１４を入力として受信するとともに、適応ＡＳＲ（自動音声認識）モデル２００（適応モデル２００とも呼ばれる）を使用して、その音声信号を出力としてトランスクリプション１４２に文字起こしする。一般的には、音声データ１４をトランスクリプション１４２に変換することによって、音声認識システム１４０は、ユーザ１０からの話された発話１２がクエリ、コマンド、または何らかの他の形態の音声通信に対応する場合に、デバイス１１０が認識することを可能にする。トランスクリプション１４２は、デバイス１１０が次いでクエリまたはコマンドに対する応答を生成するために使用し得るテキストのシーケンスを指す。例えば、ユーザ１０がデバイス１１０に「今日の天気はどうなるか」という質問をした場合、デバイス１１０は、「今日の天気はどうなるか」という質問に対応する音声データ１４を音声認識システム１４０に渡す。音声認識システム１４０は、音声データ１４を、「今日の天気はどうなるか？」というテキストを含むトランスクリプトに変換する。次いで、デバイス１１０は、テキストまたはテキストの一部を使用して、クエリに対する応答を決定してよい。例えば、当日（すなわち、今日）の天気を決定するために、デバイス１１０は、テキスト（例えば、「今日の天気はどうなるか？」）またはテキストの識別部分（例えば、「天気」および「今日」）を検索エンジンに渡す。次いで、検索エンジンは、ユーザ１０に対する応答を生成するためにデバイス１１０が解釈する１つまたは複数の検索結果を返してよい。

【0018】

図１Ｂを参照すると、音声認識システム１４０の適応モデル２００は、多言語音声認識モデルであってよい。多言語音声認識モデルは、２以上の言語（すなわち、複数の言語）でトランスクリプション１４２を生成することができるモデルである。例えば、図１Ｂは、音声認識システム１４０が音声データ１４を受信するとともに、多言語版の適応モデル２００が「今日の天気はどうなるか？」という発話１２に対応する音声データ１４を３つの異なるトランスクリプション１４２、１４２ａ～ｃに変換する様子を示す。ここで、第１のトランスクリプション１４２ａは、「今日の天気はどうなるか？」のスペイン語（ＳＰと示す）翻訳、

【0019】

【表1】

【0020】

である。第２のトランスクリプション１４２ｂは、「今日の天気はどうなるか？」のスウェーデン語（ＳＷと示す）翻訳、

【0021】

【表2】

【0022】

である。第３のトランスクリプション１４２ｃは、「今日の天気はどうなるか？」のドイツ語（ＤＥと示す）翻訳、

【0023】

【表3】

【0024】

である。多言語音声認識モデルは、異なる言語を話すことができる多言語ユーザにとって、または他の言語（すなわち、高リソース言語）から利用可能なデータから共有表現を学習することによって低リソース言語に対する音声認識モデルの性能を改善するのに有利であり得る。例えば、米国英語のような言語についてはトレーニングデータが大量であり得るが、ズールー語のような言語についてはトレーニングデータが少量であり得る。ここで、適応モデル２００が多言語モデルである場合、適応モデル２００は、ズールー語についてのトレーニングデータの不足を補うために、大量の米国英語のトレーニング例を活用することができる。

【0025】

図２Ａおよび図２Ｂは、適応モデル２００（生徒モデル２００とも呼ばれる）を生成するプロセスの例である。適応モデル２００は、適応モデル２００が生徒モデルと呼ばれ得るものであるように、１つまたは複数の教師モデル２１０から形成されてよい。すなわち、教師モデル２１０は、生徒モデルのニューラルネットワークを形成するか、または何らかの形でそれに影響を与えるために、生徒モデル（例えば、適応モデル２００）に蒸留されるニューラルネットワークを有する。蒸留は、一般に、事前トレーニングされたネットワークを使用してニューラルネットワークをトレーニングするプロセスを指す。蒸留を使用して、所望の出力に対してあまり重要でない（例えば、デッドウェイトに類似する）事前トレーニングされたネットワークのニューロンは、より合理化されたニューラルネットワーク（すなわち、蒸留されたニューラルネットワーク）を形成するために削減されてよい。蒸留は、事前トレーニングされたネットワークと比較したとき、蒸留されたニューラルネットワークがより正確および／またはよりコンパクトなサイズであることを可能にし得る。換言すると、事前トレーニングされたネットワークが形成された場合、事前トレーニングされたネットワークは、事前トレーニングされたネットワークのトレーニングが完了した時点で所望の出力に対して最終的には少ない影響を有することになるニューロンを形成した可能性がある。したがって、事前トレーニングされたネットワークは、これらのニューロンからの有害な影響を低減するよう、または不要なニューロンを除去するよう除去または修正されてよいニューロンを含んでいる。ＡＳＲモデルの場合、蒸留は、生徒モデルが、高リソース状況で学習した教師モデルから低リソース状況において挙動を学習し得る低リソース状況において有利であり得る。

【0026】

しかしながら、蒸留は、知識を生徒モデル２００に伝える際に課題がある。例えば、生徒モデル２００に対して知識蒸留を実行するときの１つの困難は、学習プロセス２２０間のバランスをどのように取るかである。すなわち、生徒モデル２００は、蒸留プロセス２２０、２２０ａおよび自身のトレーニングプロセス２２０、２２０ｂの両方によって教えられ得る。生徒モデル２００を生成するために複数の学習プロセス２２０が関与するので、トレーニングされた生徒モデル２００の性能は、これらのプロセス２２０間のバランスに基づき変化し得る。学習プロセス２２０の間、１つまたは複数の教師モデル２１０は、まず、蒸留プロセス２２０ａのためのニューラルネットワークを確立するようにトレーニングされる。１つまたは複数の教師モデル２１０のためのトレーニングプロセスの間、教師モデル２１０は、（例えば、トレーニングサンプルデータベース１５０から）複数の教師トレーニングサンプル１５２、１５２ａ～ｎを受信するとともに、教師トレーニングサンプル１５２を使用してトレーニングをして、各教師モデル２１０に、出力として、それぞれの音声入力のテキスト（ｔｅｘｔｕｒａｌ）表現を予測するように教える。この点において、トレーニングサンプル（例えば、教師トレーニングサンプル１５２または生徒トレーニング例１５４）は、トレーニングサンプル１５２、１５４がオーディオサンプルおよびオーディオサンプルの対応するトランスクリプション（すなわち、テキスト表現）を含むので、モデルがグラウンドトゥルースを学習することを可能にする。１つまたは複数の教師モデル２１０がトレーニングされると、次いで、トレーニングされた１つまたは複数の教師モデル２１０は、それらの知識を生徒モデル２００に蒸留してよい。

【0027】

１つまたは複数の教師モデル２１０からの蒸留プロセス２２０ａに加えて、生徒モデル２００はまた、トレーニングプロセス２２０、２２０ｂから学習する。トレーニングプロセス２２０ｂでは、教師トレーニングプロセスとほぼ同様に、生徒モデル２００は、テキスト表現を予測することができるよう生徒トレーニングサンプル１５４から学習する。蒸留プロセス２２０ａおよびトレーニングプロセス２２０ｂの両方を用いて、生徒モデル２００は、重み２２２、２２２ａ～ｂを使用することによって、これらのプロセス２２０ａ、２２０ｂからどれだけ多くの知識を得るかのバランスを取るよう構成される。すなわち、各プロセス２２０ａ、２２０ｂは、一連のトレーニングステップである。各トレーニングステップにおいて、各プロセス２２０の損失が計算されて次のトレーニングステップに影響を与えるために使用される。例えば、一般的に言えば、生徒モデル２００は、所与の入力音声のテキスト表現を正確に予測することができるニューラルネットワークに近づくために、所与のプロセス２２０の損失を最小限に抑えたい。各プロセス２２０は付随する損失を有するので、学習プロセス全体は、蒸留プロセス２２０ａについての蒸留損失とトレーニングプロセス２２０ｂについてのトレーニング損失（例えば、ＲＮＮ－Ｔ損失）との組合せとしての総損失によって表され得る。したがって、生徒モデル２００がこれらのプロセス２２０ａ、２２０ｂのバランスをどのように取るかを決定するために、生徒モデル２００は、いずれかのプロセス損失に適用される調整可能な重み２２２を使用する。いくつかの例では、調整可能な重み２２２は蒸留損失に適用されるので、調整可能な蒸留重み２２２ａと呼ばれる。

【0028】

いくつかの構成において、調整可能な蒸留重み２２２ａは、定数値として構成される。しかし、他の構成では、調整可能な蒸留重み２２２ａは、トレーニングステップの数が増加するにつれて減少する減少関数であってもよい。すなわち、生徒モデル２００は、経時的に蒸留プロセス損失についての関心が低くなる。１つまたは複数の教師モデル２１０および生徒モデル２００がＲＮＮ－Ｔモデルアーキテクチャ（例えば、エンドツーエンドのストリーミングアプリケーションにおいて）を有するとき、調整可能な蒸留重み２２２ａは、１つまたは複数の教師モデル２１０に対応するＲＮＮ－Ｔ損失に基づく減少関数であってよい。さらに、両方のモデル２００、２１０のＲＮＮ－Ｔアーキテクチャを用いて、調整可能な蒸留重み２２２ａはまた、生徒モデル２００のＲＮＮ－Ｔ損失を補償してもよい。ここで、調整可能な蒸留重み２２２ａは、１つまたは複数の教師モデル２１０からの第１のＲＮＮ－Ｔ損失に基づき減少し、生徒モデル２００からの第２のＲＮＮ－Ｔ損失に基づき増加する関数であることによって、生徒モデル２００のＲＮＮ－Ｔ損失を補償してもよい。

【0029】

特に図２Ａを参照すると、１つまたは複数の教師モデル２１０は、多言語生徒モデル２００を形成するために、その知識の各々を生徒モデル２００に蒸留する複数の単一言語教師モデル２１０に対応してよい。一方、図２Ｂは、１つまたは複数の教師モデル２１０を、その知識を多言語生徒モデル２００に蒸留する単体の多言語教師モデル２１０として示す。これらの場合のいずれにおいても、１つまたは複数の教師モデル２１０は、結果として得られる多言語（ｍｕｔｌｉ－ｌｉｎｇｕａｌ）生徒モデル２００よりも少ない言語を集合的に認識し得る。例えば、生徒モデル２００が自身のトレーニングプロセス２２０ａを有するので、生徒モデル２００は、生徒モデル２００に蒸留された教師モデル２１０よりも多くの言語を含むようにその言語ベースを拡張することができる。

【0030】

図３を参照すると、適応蒸留のプロセスは、異なる種類の音声認識モデルに適用可能であってよい。一般的には、適応モデル２００が特定の種類の音声認識モデルであるとき、教師モデル２１０および生徒モデル（すなわち、適応モデル２００）の両方は、蒸留用の同一種類のモデルである。普及しつつある１つのモデルは、ＲＮＮ－Ｔ（回帰型ニューラルネットワークトランスデューサ）として知られるシーケンス間モデルである。ＲＮＮ－Ｔは、アテンション機構を採用しない。ＲＮＮ－Ｔは、一般にシーケンス全体（例えば、オーディオ波形）を処理して出力（例えば、センテンス）を生成する必要がある他のシーケンス間モデルとは異なり、入力サンプルを連続的に処理するとともに、出力シンボルをストリーミングする。この特徴は、リアルタイム通信にとって特に有用である。例えば、ＲＮＮ－Ｔによる音声認識は、話された文字を１つずつ出力し得る。ここで、ＲＮＮ－Ｔは、次のシンボルを予測するために、モデルによって予測されたシンボルをそれ自体にフィードバックするフィードバックループを使用する。ＲＮＮ－Ｔをデコードすることは、大きなデコーダグラフの代わりに単一のニューラルネットワークを通じたビーム検索を含むので、ＲＮＮ－Ｔは、サーバベースの音声認識モデルの大きさの数分の１に小型化し得る。サイズの減少により、ＲＮＮ－Ｔは、完全にオンデバイスで展開され、オフラインで（すなわち、ネットワーク接続なしで）実行することができるので、通信ネットワークに関する非信頼性問題を回避することができる。

【0031】

適応モデル２００がＲＮＮ－Ｔモデルである場合、適応モデル２００は、入力シーケンス（例えば、入力音声信号）を目標シーケンス（例えば、音声信号中で話された単語または文字）にマッピングするためにエンドツーエンドでトレーニングされ得るエンコーダ－デコーダフレームワークに対応するニューラルネットワークモデルである。換言すると、（例えば、実数値ベクトルの）入力シーケンスが与えられると、ＲＮＮ－Ｔモデルは、ラベルの目標シーケンスを予測しようと試みる。ここで、入力シーケンスは、対数メルフィルタバンク（ｌｏｇ－ｍｅｌｆｉｌｔｅｒｂａｎｋ）エネルギー特徴または他のニューラルネットワーク符号化特徴などの生の特徴ベクトルであってよい。

【0032】

引き続き図３を参照すると、適応モデル２００は、エンコーダネットワーク３０２およびデコーダネットワーク３０４を含む。エンコーダネットワーク３０２は、エンコーダ３１０を含む。エンコーダ３１０は、ｄ次元特徴ベクトルｘ＝（ｘ_１，ｘ_２，…，ｘ_Ｔ）のシーケンスを読み取り、ここで

【0033】

【数1】

【0034】

であり、また、各時間ステップにおいて、エンコーダ埋め込みｅとも呼ばれる高次の特徴表現を生成する。デコーダネットワーク３０４は、高次の特徴表現ｅを受信するとともに、ジョイント層３２０および予測ネットワーク３３０を使用して高次の特徴表現ｅをデコードする。予測ネットワーク３３０と組み合わせたジョイント層３２０は、ジョイント層３２０が予測ネットワーク３３０に供給されるロジットを計算する、フィードフォワードニューラルネットワークと見なされ得る。換言すると、ジョイント層２３０は、デコーダ出力ｙ_ｒを生成するために、エンコーダネットワーク３０２によって出力された高次の特徴表現ｅを、前の予測ｙ_ｒ－１の埋め込みと組み合わせる。デコーダ出力は、前のユニット｛ｙ_ｉ－１，．．．，ｙ_０｝および入力ｘが与えられた場合、現在のサブワードユニットｙ_ｉに対する確率分布

【0035】

【数2】

【0036】

であってよい。図示されていないが、デコーダネットワーク３０４は、デコーダ３０４からの出力ｙ_ｒを処理するソフトマックス層を含んでよい。次に、ソフトマックス層の出力をビーム検索プロセスで使用することで、直交要素を選択する。ソフトマックス層は、モデル２００の構成に応じて、デコーダネットワーク３０４と一体化されてもよいし、別体であってもよい。

【0037】

図４は、１つまたは複数のトレーニングされた教師ＡＳＲ（自動音声認識）モデル２１０を多言語生徒モデル２００に蒸留する方法４００についての動作の例示的な構成のフローチャートである。動作４０２において、方法４００は、複数の教師トレーニング例および複数の生徒トレーニング例を受信する工程を含む。

【0038】

動作４０４において、方法４００は、複数の教師トレーニング例を使用して１つまたは複数の教師ＡＳＲモデル２１０をトレーニングする工程を含む。各教師ＡＳＲモデル２１０は、それぞれの音声入力のそれぞれのテキスト表現を出力するよう構成される。

【0039】

動作４０６において、本方法は、サブ動作４０６ａ、４０６ｂを実行することによって多言語生徒ＡＳＲモデル２００を生成する工程を含む。サブ動作４０６ａは、複数の生徒トレーニング例を使用して多言語生徒ＡＳＲモデル２００をトレーニングすることを含む。生徒ＡＳＲモデル２００は、音声入力を受信するとともに、受信した音声入力に対応するテキスト表現を出力するよう構成される。サブ動作４０６ｂは、調整可能な蒸留損失重みを使用して、トレーニングされた１つまたは複数の教師ＡＳＲモデル２１０を多言語生徒ＡＳＲモデル２００に蒸留することを含む。

【0040】

図５は、本明細書で説明されたシステムおよび方法を実装するために使用され得る例示的なコンピューティングデバイス５００の概略図である。コンピューティングデバイス５００は、ラップトップ、デスクトップ、ワークステーション、携帯情報端末、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータ等、様々な形態のデジタルコンピュータを表すよう意図されている。本明細書で示される構成要素、それらの接続および関係、ならびにそれらの機能は、例示的なものに過ぎず、本明細書で説明および／または特許請求される本発明の実装を限定するものではない。

【0041】

コンピューティングデバイス５００は、プロセッサ５１０（例えば、データ処理ハードウェア１３４）と、メモリ５２０（例えば、メモリハードウェア１３６）と、記憶デバイス５３０と、メモリ５２０および高速拡張ポート５５０に接続する高速インターフェース／コントローラ５４０と、低速バス５７０および記憶デバイス５３０に接続する低速インターフェース／コントローラ５６０とを含む。構成要素５１０、５２０、５３０、５４０、５５０、および５６０の各々は、様々なバスを使用して相互接続され、共通のマザーボード上に、または必要に応じて他の方法で実装され得る。プロセッサ５１０は、高速インターフェース５４０に接続されたディスプレイ５８０などの外部入力／出力デバイス上にＧＵＩ（グラフィカルユーザインターフェース）のためのグラフィカル情報を表示するようメモリ５２０または記憶デバイス５３０に記憶された命令を含む、コンピューティングデバイス５００内で実行するための命令を処理することができる。他の実装では、複数のメモリおよびメモリの種類とともに、必要に応じて複数のプロセッサおよび／または複数のバスが使用されてよい。また、複数のコンピューティングデバイス５００が接続されてもよく、各デバイスは、例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして、必要な動作の一部を提供する。

【0042】

メモリ５２０は、コンピューティングデバイス５００内に情報を非一時的に記憶する。メモリ５２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってもよい。非一時的メモリ５２０は、コンピューティングデバイス５００による使用のために一時的または永続的にプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を記憶するために使用される物理的なデバイスであってもよい。不揮発性メモリの例は、フラッシュメモリおよびＲＯＭ（リードオンリーメモリ）／ＰＲＯＭ（プログラマブルリードオンリーメモリ）／ＥＰＲＯＭ（消去可能プログラマブルリードオンリーメモリ）／ＥＥＰＲＯＭ（電子的消去可能プログラマブルリードオンリーメモリ）（例えば、ブートプログラムなどのファームウェアに典型的に使用される）を含むが、これらに限定されない。揮発性メモリの例は、ＲＡＭ（ランダムアクセスメモリ）、ＤＲＡＭ（ダイナミックランダムアクセスメモリ）、ＳＲＡＭ（スタティックランダムアクセスメモリ）、ＰＣＭ（相変化メモリ）、およびにディスクまたはテープを含むが、これらに限定されない。

【0043】

記憶デバイス５３０は、コンピューティングデバイス５００に大容量ストレージを提供することが可能である。いくつかの実装では、記憶デバイス５３０はコンピュータ可読媒体である。様々な異なる実装では、記憶デバイス５３０は、フロッピーディスク（登録商標）デバイス、ハードディスクデバイス、光学ディスクデバイス、テープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成におけるデバイスを含むデバイスのアレイであってよい。追加の実装では、コンピュータプログラム製品は、情報担体として有形に具現化される。コンピュータプログラム製品は、実行されると、上記のような１つまたは複数の方法を実行する命令を含む。情報担体は、メモリ５２０、記憶デバイス５３０、またはプロセッサ５１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

【0044】

高速コントローラ５４０は、コンピューティングデバイス５００のための帯域幅集約的な演算を管理し、低速コントローラ５６０は、より低い帯域幅集約的な演算を管理する。このようなデューティの割り当ては例示にすぎない。いくつかの実装では、高速コントローラ５４０は、メモリ５２０、ディスプレイ６８０（例えば、グラフィックスプロセッサまたはアクセラレータを介して）、および様々な拡張カード（図示せず）を受け入れ得る高速拡張ポート５５０に接続される。いくつかの実装では、低速コントローラ５６０は、記憶デバイス５３０および低速拡張ポート５９０に接続される。種々の通信ポート（例えば、ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ、イーサネット（登録商標）、無線イーサネット）を含み得る低速拡張ポート５９０は、例えばネットワークアダプタを通じて、キーボード、ポインティングデバイス、スキャナー、または、スイッチまたはルータ等のネットワークデバイス等の、１つまたは複数の入力／出力デバイスに接続されてよい。

【0045】

コンピューティングデバイス５００は、図に示すように、複数の異なる形態で実装されてよい。例えば、コンピューティングデバイス５００は、ラップトップコンピュータ５００ｂとして、ラックサーバシステム５００ｃの一部として、または標準的なサーバ５００ａとしてもしくはそのようなサーバ５００ａのグループにおいて複数回実装されてもよい。

【0046】

本明細書で説明されたシステムおよび技法の様々な実装は、デジタル電子回路および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現され得る。これらの様々な実装は、記憶デバイス、１つ以上の入力デバイス、および１つ以上の出力デバイスに対してデータおよび命令を送信すると共にこれらからデータおよび命令を受信するよう接続された、特定目的または汎用目的の１つ以上のプログラマブルプロセッサを備えたプログラマブルシステム上で実行可能および／または翻訳可能な１つまたは複数のコンピュータプログラムでの実装を含んでよい。

【0047】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーションまたはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を含み、高レベル手続き型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実装され得る。本明細書で使用されるように、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読信号として機械命令を受信する機械可読媒体を含む、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意のコンピュータプログラム製品、非一時的コンピュータ可読媒体、機器および／または装置（例えば、磁気ディスク、光学ディスク、メモリ、ＰＬＤ（プログラマブル論理デバイス））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

【0048】

本明細書で説明されたプロセスおよび論理フローは、入力データに対して動作しかつ出力を生成することによって機能を実行するために１つまたは複数のコンピュータプログラムを実行する１つまたは複数のプログラマブルプロセッサによって実行され得る。プロセスおよび論理フローは、特殊目的論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行することもできる。コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、ならびに任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリもしくはランダムアクセスメモリまたはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサ、ならびに命令およびデータを記憶するための１つまたは複数のメモリデバイスである。一般的に、コンピュータはまた、データを記憶するための１つまたは複数の大容量記憶デバイス、例えば、磁気、光磁気ディスク、もしくは光学ディスクを含むか、またはそれらからデータを受信するか、それらにデータを転送するか、もしくはその両方を行うように動作可能に接続される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを記憶するのに適したコンピュータ可読媒体は、例として、半導体メモリデバイス、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、ならびにＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む、すべての形態の不揮発性メモリ、媒体、およびメモリデバイスを含む。プロセッサおよびメモリは、特殊目的論理回路によって補完され得るか、または特殊目的論理回路に組み込まれ得る。

【0049】

ユーザとの対話を提供するために、本開示の１つまたは複数の態様は、ユーザに情報を表示するためのディスプレイデバイス、例えば、ＣＲＴ（陰極線管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはタッチスクリーンと、任意選択で、ユーザがコンピュータに入力を提供することができるキーボードおよびポインティングデバイス、例えば、マウスまたはトラックボールとを有するコンピュータ上で実装され得る。他の種類のデバイスを使用して、ユーザとの対話を提供してもよい。例えば、ユーザに提供されるフィードバックは、任意の形式の感覚的なフィードバック、例えば、視覚的フィードバック、聴覚的フィードバック、または触覚的フィードバックであってよく、ユーザからの入力は、音響的入力、音声的入力、または触覚的入力を含む任意の形式で取り込まれてよい。さらに、コンピュータは、ユーザによって使用されるデバイスに文書を送信し、デバイスから文書を受信することによって、例えば、ウェブブラウザから受信された要求に応答して、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、ユーザと対話することができる。

【0050】

複数の実装について説明してきたが、本開示の主旨および範囲から逸脱することなく、様々な変更が行われ得ることが理解されるであろう。したがって、他の実施形態は、以下の特許請求の範囲内にある。

【図1A】