特許7698154 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特許7698154音声認識の正確な量子化トレーニングを備えた４ビットコンフォーマ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2
3
4
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-06-16

(45)【発行日】2025-06-24

(54)【発明の名称】音声認識の正確な量子化トレーニングを備えた４ビットコンフォーマ

(51)【国際特許分類】

G10L 15/06 20130101AFI20250617BHJP

【ＦＩ】

G10L15/06 300C

【請求項の数】 20

(21)【出願番号】P 2024556057

(86)(22)【出願日】2023-03-20

(65)【公表番号】

(43)【公表日】2025-04-15

(86)【国際出願番号】 US2023015695

(87)【国際公開番号】W WO2023183262

(87)【国際公開日】2023-09-28

【審査請求日】2025-01-08

(31)【優先権主張番号】63/269,705

(32)【優先日】2022-03-21

(33)【優先権主張国・地域又は機関】US

【新規性喪失の例外の表示】特許法第３０条第２項適用令和４年３月２９日にウェブサイトのアドレスｈｔｔｐｓ：／／ａｒｘｉｖ．ｏｒｇ／ａｂｓ／２２０３．１５９５２にて発表

【早期審査対象出願】

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(72)【発明者】

【氏名】ディン、シャオジン

(72)【発明者】

【氏名】ルイバコフ、オレグ

(72)【発明者】

【氏名】メドウラーク、フェニックス

(72)【発明者】

【氏名】アグラワル、シヴァニ

(72)【発明者】

【氏名】ホー、ヤンチャン

(72)【発明者】

【氏名】リュー、ルーカス

【審査官】本多美優梨

(56)【参考文献】

【文献】中国特許出願公開第１１３５９３５３８（ＣＮ，Ａ）

【文献】米国特許出願公開第２０２２／００６７５１２（ＵＳ，Ａ１）

【文献】米国特許第１０２２９３５６（ＵＳ，Ｂ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１５／００－１５／３４

(57)【特許請求の範囲】

【請求項1】

コンピュータ実装方法（５００）としての方法であって、前記コンピュータ実装方法（５００）はデータ処理ハードウェア（６２）上で実行されたとき、前記データ処理ハードウェア（６２）に動作を行なわせており、前記動作は、
複数のトレーニングサンプル（１５２）を取得する工程であって、複数の前記トレーニングサンプル（１５２）のうちの前記各トレーニングサンプル（１５２）の各々は、
各々の音声発話（１５４）と、および
各々の前記音声発話（１５４）のトランスクリプションを表す各々のテキスト発話（１５６）と、
を備えている、複数の前記トレーニングサンプル（１５２）を取得する工程と、
複数の前記トレーニングサンプル（１５２）に関する自動音声認識ＡＳＲモデル（２００）を、ネイティブ整数演算による量子化アウェアなトレーニングを使用することでトレーニングする工程であって、前記ネイティブ整数演算に割り振られたビット数は整数固定ビット幅であるとともに、前記ネイティブ整数演算は前記自動音声認識ＡＳＲモデル（２００）の重みを表すべく使用される、前記自動音声認識ＡＳＲモデル（２００）をトレーニングする工程と、
トレーニング済自動音声認識ＡＳＲモデル（２００）を整数のターゲット固定ビット幅（１６２）に量子化する工程であって、前記自動音声認識ＡＳＲモデル（２００）の複数の重み（２０２）は、トレーニング時に学習されるだけでなく、量子化の際に前記ターゲット固定ビット幅（１６２）に基づいて整数値に変換されるとともに、変換済の整数値が量子化済の前記自動音声認識ＡＳＲモデル（２００）に含まれることで、前記トレーニング済自動音声認識ＡＳＲモデル（２００）を前記ターゲット固定ビット幅（１６２）に量子化する工程と、
量子化済の前記トレーニング済自動音声認識ＡＳＲモデル（２００）を、ユーザデバイス（１０）に提供する工程と、
を備えている、方法（５００）。

【請求項2】

前記ターゲット固定ビット幅（１６２）は「４」である、
請求項１に記載の方法（５００）。

【請求項3】

前記自動音声認識ＡＳＲモデル（２００）はさらに、複数の活性化関数（２０４）を備えており、
複数の前記活性化関数（２０４）のうちの前記各活性化関数（２０４）は、前記ターゲット固定ビット幅（１６２）を有している整数を備えている、
請求項１に記載の方法（５００）。

【請求項4】

前記自動音声認識ＡＳＲモデル（２００）はさらに、複数の活性化関数（２０４）を備えており、
複数の前記活性化関数（２０４）のうちの前記各活性化関数（２０４）は、前記ターゲット固定ビット幅（１６２）よりも大きい固定ビット幅を有している整数を備えている、
請求項１に記載の方法（５００）。

【請求項5】

前記自動音声認識ＡＳＲモデル（２００）はさらに、複数の活性化関数（２０４）を備えており、
複数の前記活性化関数（２０４）のうちの前記各活性化関数（２０４）は、浮動小数点値を備えている、
請求項１に記載の方法（５００）。

【請求項6】

前記トレーニング済自動音声認識ＡＳＲモデル（２００）を量子化する工程は、量子化される軸の推定最大値と、前記ターゲット固定ビット幅（１６２）と、に基づきスケールファクタ（１６０）を決定する工程を備えている、
請求項１～５のいずれか１項に記載の方法（５００）。

【請求項7】

前記自動音声認識ＡＳＲモデル（２００）は、１つまたは複数のマルチヘッドアテンション層（３０２）を備えている、
請求項１～５のいずれか１項に記載の方法（５００）。

【請求項8】

１つもしくは複数の前記マルチヘッドアテンション層（３０２）は、１つもしくは複数のコンフォーマ層または１つもしくは複数のトランスフォーマ層を備えている、
請求項７に記載の方法（５００）。

【請求項9】

前記自動音声認識ＡＳＲモデル（２００）は、複数のエンコーダおよび複数のデコーダを備えており、
前記自動音声認識ＡＳＲモデル（２００）を量子化する工程は、複数の前記エンコーダを量子化する工程と、および複数の前記デコーダを量子化しない工程と、を備えている、
請求項１～５のいずれか１項に記載の方法（５００）。

【請求項10】

前記自動音声認識ＡＳＲモデル（２００）は、オーディオエンコーダ（２１０）を備えており、
前記オーディオエンコーダ（２１０）は、第１因果エンコーダと第２非因果エンコーダとを備えているカスケード済のエンコーダを備えている、
請求項１～５のいずれか１項に記載の方法（５００）。

【請求項11】

システム（１００）であって、前記システム（１００）は、
データ処理ハードウェア（６２）と、および
前記データ処理ハードウェア（６２）に通信するメモリハードウェア（６４）と、
を備えており、
前記メモリハードウェア（６４）は命令を格納しており、前記命令は前記データ処理ハードウェア（６２）上で実行されたときに前記データ処理ハードウェア（６２）に動作を行なわせており、前記動作は、
複数のトレーニングサンプル（１５２）を取得する工程であって、複数の前記トレーニングサンプル（１５２）のうちの前記各トレーニングサンプル（１５２）の各々は、
各々の音声発話（１５４）と、および
各々の前記音声発話（１５４）のトランスクリプションを表す各々のテキスト発話（１５６）と、
を備えている、複数の前記トレーニングサンプル（１５２）を取得する工程と、
複数の前記トレーニングサンプル（１５２）に関する自動音声認識ＡＳＲモデル（２００）を、ネイティブ整数演算による量子化アウェアなトレーニングを使用することでトレーニングする工程であって、前記ネイティブ整数演算に割り振られたビット数は整数固定ビット幅であるとともに、前記ネイティブ整数演算は前記自動音声認識ＡＳＲモデル（２００）の重みを表すべく使用される、前記自動音声認識ＡＳＲモデル（２００）をトレーニングする工程と、
トレーニング済自動音声認識ＡＳＲモデル（２００）を、整数のターゲット固定ビット幅（１６２）に量子化する工程であって、前記自動音声認識ＡＳＲモデル（２００）の複数の重み（２０２）は、トレーニング時に学習されるだけでなく、量子化の際に前記ターゲット固定ビット幅（１６２）に基づいて整数値に変換されるとともに、変換済の整数値が量子化済の前記自動音声認識ＡＳＲモデル（２００）に含まれることで、前記トレーニング済自動音声認識ＡＳＲモデル（２００）を前記ターゲット固定ビット幅（１６２）に量子化する工程と、
量子化済の前記トレーニング済自動音声認識ＡＳＲモデル（２００）を、ユーザデバイス（１０）に提供する工程と、
を備えている、システム（１００）。

【請求項12】

前記ターゲット固定ビット幅（１６２）は「４」である、
請求項１１に記載のシステム（１００）。

【請求項13】

前記自動音声認識ＡＳＲモデル（２００）はさらに、複数の活性化関数（２０４）を備えており、
複数の前記活性化関数（２０４）のうちの前記各活性化関数（２０４）は、前記ターゲット固定ビット幅（１６２）を有している整数を備えている、
請求項１１に記載のシステム（１００）。

【請求項14】

前記自動音声認識ＡＳＲモデル（２００）はさらに、複数の活性化関数（２０４）を備えており、
複数の前記活性化関数（２０４）のうちの前記各活性化関数（２０４）は、前記ターゲット固定ビット幅（１６２）よりも大きい固定ビット幅を有している整数を備えている、
請求項１１に記載のシステム（１００）。

【請求項15】

前記自動音声認識ＡＳＲモデル（２００）はさらに、複数の活性化関数（２０４）を備えており、
複数の前記活性化関数（２０４）のうちの前記各活性化関数（２０４）は、浮動小数点値を備えている、
請求項１１に記載のシステム（１００）。

【請求項16】

前記トレーニング済自動音声認識ＡＳＲモデル（２００）を量子化する工程は、量子化される軸の推定最大値と、前記ターゲット固定ビット幅（１６２）と、に基づきスケールファクタ（１６０）を決定する工程を備えている、
請求項１１～１５のいずれか１項に記載のシステム（１００）。

【請求項17】

前記自動音声認識ＡＳＲモデル（２００）は、１つまたは複数のマルチヘッドアテンション層（３０２）を備えている、
請求項１１～１５のいずれか１項に記載のシステム（１００）。

【請求項18】

１つもしくは複数の前記マルチヘッドアテンション層（３０２）は、１つもしくは複数のコンフォーマ層または１つもしくは複数のトランスフォーマ層を備えている、
請求項１７に記載のシステム（１００）。

【請求項19】

前記自動音声認識ＡＳＲモデル（２００）は、複数のエンコーダおよび複数のデコーダを備えており、
前記自動音声認識ＡＳＲモデル（２００）を量子化する工程は、複数の前記エンコーダを量子化する工程と、および複数の前記デコーダを量子化しない工程と、を備えている、
請求項１１～１５のいずれか１項に記載のシステム（１００）。

【請求項20】

前記自動音声認識ＡＳＲモデル（２００）はオーディオエンコーダ（２１０）を備えており、
前記オーディオエンコーダ（２１０）は、第１因果エンコーダと第２非因果エンコーダとを備えているカスケード済のエンコーダを備えている、
請求項１１～１５のいずれか１項に記載のシステム（１００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、音声認識のための正確な量子化トレーニングに関する。

【背景技術】

【0002】

最新の自動音声認識（ＡＳＲ）システムは、良質（例えば、低いワードエラー率（ＷＥＲ））なだけでなく、低レイテンシ（例えば、ユーザが語ってから、トランスクリプションが現れるまでの遅延が短いこと）をもたらすことに重点を置いている。さらに今日では自動音声認識ＡＳＲシステムを使用する場合、自動音声認識ＡＳＲシステムがリアルタイムで、またはリアルタイムよりもさらに高速に対応するストリーミング形式で、発話（アタランス）を復号（デコード）するという需要がある。説明すると、直接的なユーザ双方向性（インタラクティビティ）を経る（エクスペリエンスする）携帯電話において自動音声認識ＡＳＲシステムが展開されている場合、自動音声認識ＡＳＲシステムを使用する携帯電話のアプリケーションは、語られたらすぐに単語が画面に表示されるようストリーミングされるべく、音声認識を必要とする場合がある。ここで携帯電話のユーザは、レイテンシに対する許容度が低い虞もある。この低い許容範囲によって、音声認識は、ユーザのエクスペリエンスに悪影響を与え得るレイテンシと不正確さとによる影響を最小限に抑える方法で、モバイルデバイスで実行しようとする。

【先行技術文献】

【特許文献】

【0003】

【文献】国際公開第２０２１／２５８７５２号

【発明の概要】

【発明が解決しようとする課題】

【0004】

しかしながら、携帯電話のリソースは限られていることが多いだけでなく、それが自動音声認識ＡＳＲモデルのサイズを制限する。

【課題を解決するための手段】

【0005】

本開示の一態様は、自動音声認識（ＡＳＲ）モデルをトレーニング（訓練、学習）するための方法を提供する。コンピュータ実装方法は、データ処理ハードウェア上で実行されたとき、データ処理ハードウェアに動作を行なわせる。動作は、複数のトレーニングサンプルを取得する工程を備えている。複数のトレーニングサンプルのうちの各トレーニングサンプルの各々は、各々の音声発話（スピーチアタランス）と、各々の音声発話のトランスクリプション（転写）を表す各々のテキスト発話と、を備えている。方法は、複数のトレーニングサンプルに関する自動音声認識ＡＳＲモデルを、ネイティブ整数演算による量子化アウェアなトレーニングを使用することでトレーニングする工程を備えている。また方法は、トレーニング済自動音声認識ＡＳＲモデルを整数のターゲット固定ビット幅に量子化する工程も備えている。量子化済のトレーニング済自動音声認識ＡＳＲモデルは、複数の重みを備えている。複数の重みのうちの各重みは、ターゲット固定ビット幅を有している整数を備えている。方法は、量子化済のトレーニング済自動音声認識ＡＳＲモデルを、ユーザデバイスに提供する工程を備えている。

【0006】

本開示の実施態様は、以下の任意選択の特徴の１つまたは複数を含み得る。いくつかの実施態様では、ターゲット固定ビット幅は「４」である。いくつかの例では、自動音声認識ＡＳＲモデルはさらに、複数の活性化関数を備えている。複数の活性化関数のうちの各活性化関数は、ターゲット固定ビット幅を有している整数を含み得る。他の例では、自動音声認識ＡＳＲモデルはさらに、複数の活性化関数を備えており、複数の活性化関数のうちの各活性化関数は、ターゲット固定ビット幅よりも大きい固定ビット幅を有している整数を備えている。さらに他の例では、自動音声認識ＡＳＲモデルはさらに、複数の活性化関数を備えており、複数の活性化関数のうちの各活性化関数は浮動小数点値（フロートバリュー）を備えている。

【0007】

任意選択で、トレーニング済自動音声認識ＡＳＲモデルを量子化する工程は、量子化される軸（アクシス）の推定最大値と、ターゲット固定ビット幅と、に基づきスケールファクタを決定する工程を備えている。いくつかの実施態様では、自動音声認識ＡＳＲモデルは、１つまたは複数のマルチヘッドアテンション層を備えている。これらの実施態様のいくつかでは、１つもしくは複数のマルチヘッドアテンション層は、１つもしくは複数のコンフォーマ層または１つもしくは複数のトランスフォーマ層を備えている。自動音声認識ＡＳＲモデルは、複数のエンコーダおよび複数のデコーダを含み得、自動音声認識ＡＳＲモデルを量子化する工程は、複数のエンコーダを量子化する工程と、および複数のデコーダを量子化しない工程と、を含み得る。いくつかの例では、自動音声認識ＡＳＲモデルはオーディオエンコーダを備えており、オーディオエンコーダは、第１因果（コーザル）エンコーダと第２非因果（ノンコーザル）エンコーダとを有しているカスケード（連結）済のエンコーダを備えている。

【0008】

本開示の他の態様は、自動音声認識ＡＳＲモデルをトレーニングするためのシステムを提供する。システムは、データ処理ハードウェアと、およびデータ処理ハードウェアに通信するメモリハードウェアと、を備えている。メモリハードウェアは、データ処理ハードウェアで実行されたときにデータ処理ハードウェアに動作を実行させる命令を格納する。動作は、複数のトレーニングサンプルを取得する工程を備えている。複数のトレーニングサンプルのうちの各トレーニングサンプルの各々は、各々の音声発話（スピーチアタランス）と、および各々の音声発話のトランスクリプション（転写、文字起こし）を表す各々のテキスト発話（テキスツァルアタランス）と、を備えている。方法は、複数のトレーニングサンプルに関する自動音声認識ＡＳＲモデルを、ネイティブ整数演算による量子化アウェアなトレーニングを使用することでトレーニングする工程を備えている。また方法は、トレーニング済自動音声認識ＡＳＲモデルを、整数のターゲット固定ビット幅に量子化する工程も備えている。量子化済のトレーニング済自動音声認識ＡＳＲモデルは、複数の重みを備えている。複数の重みのうちの各重みは、ターゲット固定ビット幅を有している整数を備えている。方法は、量子化済のトレーニング済自動音声認識ＡＳＲモデルを、ユーザデバイスに提供する工程を備えている。

【0009】

この態様は、以下の任意選択の特徴のうちの１つまたは複数を含み得る。いくつかの実施態様では、ターゲット固定ビット幅は「４」である。いくつかの例では、自動音声認識ＡＳＲモデルはさらに、複数の活性化関数を備えており、複数の活性化関数のうちの各活性化関数は、ターゲット固定ビット幅を有している整数を含み得る。他の例では、自動音声認識ＡＳＲモデルはさらに、複数の活性化関数を備えており、複数の活性化関数のうちの各活性化関数は、ターゲット固定ビット幅よりも大きい固定ビット幅を有している整数を備えている。さらに他の例では、自動音声認識ＡＳＲモデルはさらに、複数の活性化関数を備えており、複数の活性化関数のうちの各活性化関数は浮動小数点値を備えている。

【0010】

任意選択で、トレーニング済自動音声認識ＡＳＲモデルを量子化する工程は、量子化される軸の推定最大値と、ターゲット固定ビット幅と、に基づきスケールファクタを決定する工程を備えている。いくつかの実施態様では、自動音声認識ＡＳＲモデルは、１つまたは複数のマルチヘッドアテンション層を備えている。これらの実施態様のいくつかでは、１つもしくは複数のマルチヘッドアテンション層は、１つもしくは複数のコンフォーマ層または１つもしくは複数のトランスフォーマ層を備えている。自動音声認識ＡＳＲモデルは、複数のエンコーダおよび複数のデコーダを含み得、自動音声認識ＡＳＲモデルを量子化する工程は、複数のエンコーダを量子化する工程と、および複数のデコーダを量子化しない工程と、を含み得る。いくつかの例では、自動音声認識ＡＳＲモデルはオーディオエンコーダを備えており、オーディオエンコーダは、第１因果エンコーダと第２非因果エンコーダとを有しているカスケード済のエンコーダを備えている。

【0011】

本開示の１つまたは複数の実施態様の詳細は、添付の図面および以下の説明において述べられる。他の態様、特徴、および利点、は説明および図面ならびに特許請求の範囲から明らかになる。

【図面の簡単な説明】

【0012】

【図1A】音声認識を行なうための例示的なシステムの概略図である。

【図1B】図１Ａのシステムの自動音声認識（ＡＳＲ）モデルをトレーニングするための構成要素の概略図である。

【図2】図１Ａのシステムの例示的な回帰型ニューラルネットワーク－トランスデューサ（ＲＮＮ－Ｔ）モデルの概略図である。

【図3】図２のＲＮＮ－Ｔモデルの例示的な予測ネットワークの概略図である。

【図4】ネイティブ整数演算による量子化アウェアなトレーニングの量子化アルゴリズムの概略図である。

【図5】自動音声認識（ＡＳＲ）モデルをトレーニングする方法のための動作の例示的な配置のフローチャートである。

【図6】本明細書に記載のシステムおよび方法を実装するべく使用され得る例示的なコンピューティングデバイスの概略図である。

【発明を実施するための形態】

【0013】

種々の図面における同様の参照記号は、同様の要素を指す。
音声検索（ボイスサーチ）と発話（スピーチ）インタラクティブ特徴との急速な成長によって、自動音声認識（ＡＳＲ）は、ユーザインタラクティブサービスおよびデバイス（例えば、検索エンジンおよびスマートフォンにおける音声機能による検索）にとって不可欠な構成要素となっている。最新の自動音声認識ＡＳＲアプリケーションは、多くの場合、エンドツーエンドモデルに基づき開発されていることで、従来のハイブリッドシステムとで比較してはるかに小さなモデルサイズで、認識パフォーマンス（性能）の大幅な向上を達成することが示されている。認識品質を損なうことなく、レイテンシおよびモデルサイズを改善することは、サーバサイドモデルとオンデバイスモデルとの両方でライブ自動音声認識ＡＳＲアプリケーションに利益をもたらすべく積極的に追求されてきた。

【0014】

量子化は、従来の３２ビット浮動小数点値の代わりに、低精度のデータタイプ（例えば、および８ビット整数）で重みおよび／または活性化関数を表すことによって、自動音声認識ＡＳＲモデルの計算およびメモリコストを削減する技法である。最新のモデル量子化方法の中でも、８ビット整数（ｉｎｔ８）を使用した「トレーニング後の量子化」（ＰＴＱ：ポストトレーニング量子化）は、多くのアプリケーションで成功裏に適用されている人気があり、使いやすい技法である。ただし、そのような技法の欠点の１つは、精度の低下によるパフォーマンス低下の虞である。トレーニング後の量子化ＰＴＱの他の制限は、モデルの量子化を制御できないことである。例えば、トレーニング後の量子化ＰＴＱは、４ビット整数（ｉｎｔ４）量子化を、または層の選択済セットのカスタマイズされた量子化を、サポートしない場合がある。

【0015】

本明細書の実施態様は、ネイティブ整数演算によるネイティブ「量子化アウェアなトレーニング」（ＱＡＴ）を使用することで自動音声認識ＡＳＲモデルをトレーニングするモデルトレーナ（訓練器）を備えている。「フェイク」量子化アウェアなトレーニングＱＡＴを使用するいくつかの方法（すなわち浮動小数点演算を使用後、変換（コンバージョン）を使用することで浮動小数点を整数に変換（コンバート）する方法）とは対照的に、ネイティブ量子化アウェアなトレーニングＱＡＴは、ネイティブ整数演算を使用することで、量子化演算（例えば、行列積）を実行するとともに、トレーニングおよび推論（インフェレンス）中の精度にいかなる差も有しないモデルを生成する。すなわち「フェイク量子化」は、トレーニング中に浮動小数点演算が仮数（マンティッサ）のビットに収まらないとき、トレーニングモード（すなわち浮動小数点演算による）と、推論モード（すなわち整数演算による）と、の間に数値的な差を有しうる。

【0016】

本明細書の実施態様は、ネイティブ量子化アウェアなトレーニングＱＡＴを使用することで自動音声認識ＡＳＲモデルをトレーニングする、モデルトレーナを備えている。このアプローチは、「トレーニングしたものは役立つものである」を確保する。すなわちネイティブ整数演算では、トレーニングの順伝播（フォワードプロパゲーション）と推論（インフェレンス）との間に数値的な差がない。したがって、トレーニング済モデルは、パフォーマンス（性能）が同じであるクラウド（例えば、テンソル処理ユニット（ＴＰＵ）上）またはモデルアプリケーションの両方、など複数のアプリケーションで実行されてもよい。モデルトレーナは、量子化に使用される演算数を最小にしているので、従来技法とで比較して、トレーニング時間を短縮させる。自動音声認識ＡＳＲモデルは、１つまたは複数のコンフォーマ層および／または１つまたは複数のトランスフォーマ層、など１つまたは複数のマルチヘッドアテンション層を含み得る。

【0017】

図１Ａは、音声環境１０１で動作するシステム１００の例である。音声環境（スピーチエンバイラメント）１０１では、ユーザデバイス１０、などコンピューティングデバイスとで相互作用（インタラクト）するユーザ１０４の方法は、声入力（ボイスインプット）によるものであり得る。ユーザデバイス１０（一般にデバイス１０とも称される）は、音声環境１００内の１つまたは複数のユーザ１０４から音（例えば、ストリーミングオーディオデータ）をキャプチャするように構成されている。ここでストリーミングオーディオデータは、可聴クエリ、デバイス１０に対するコマンド、またはデバイス１０によってキャプチャ済の可聴通信（オーディブルコミュニケーション）、として機能するユーザ１０４によって話された発話１０６を指し得る。デバイス１０の発話対応（スピーチイネーブルド）システムは、クエリに回答することによって、および／またはコマンドを１つまたは複数の下流アプリケーションが行なう／遂行することによって、クエリまたはコマンドに対処し得る。

【0018】

ユーザデバイス１０は、ユーザ１０４に関連付けられているとともに、オーディオデータを受信することが可能にされている任意のコンピューティングデバイスに対応し得る。ユーザデバイス１０のいくつかの例は、モバイルデバイス（例えば、携帯電話、タブレット、ラップトップなど）、コンピュータ、ウェアラブルデバイス（例えば、スマートウォッチ）、スマートアプライアンス、モノのインターネット（ＩｏＴ）デバイス、車載インフォテインメントシステム、スマートディスプレイ、スマートスピーカ、などを備えているがこれらに限定されない。ユーザデバイス１０は、データ処理ハードウェア１２と、データ処理ハードウェア１２に通信するメモリハードウェア１４と、を備えており、データ処理ハードウェア１２によって実行されたとき、データ処理ハードウェア１２に１つまたは複数の動作を行なわせる命令を格納する。さらにユーザデバイス１０は、音声環境１００内で話された発話１０６をキャプチャし電気信号に変換するためのオーディオキャプチャデバイス（例えば、マイクロフォン）１６、１６ａと、可聴オーディオ信号を（例えば、デバイス１０からの出力オーディオデータとして）通信するための発話出力デバイス（例えば、スピーカ）１６、１６ｂと、を備えたオーディオシステム１６を備えている。図示の例では、ユーザデバイス１０は単一のオーディオキャプチャデバイス１６ａを実装しているが、ユーザデバイス１０は、本開示の範囲から逸脱することなく、オーディオキャプチャデバイス１６ａのアレイを実装し得ることによって、アレイ内の１つまたは複数のキャプチャデバイス１６ａは、ユーザデバイス１０に物理的に存在せずに、オーディオシステム１６に通信し得る。

【0019】

音声環境１００では、自動音声認識（ＡＳＲ）システム１１８は、ユーザ１０４のユーザデバイス１０上に、および／またはネットワーク４０を介してユーザデバイス１０に通信するリモートコンピューティングデバイス６０（例えば、クラウドコンピューティング環境内で実行する分散システムの１つまたは複数のリモートサーバ）上に、存在するモデル２００（回帰型ニューラルネットワーク－トランスデューサ（ＲＮＮ－Ｔ）モデルまたは他のコンフォーマトランスデューサモデル／マルチパスモデルなど）を備えている。リモートコンピューティングデバイスは、データ処理ハードウェア６２およびメモリハードウェア６４を備えている。ユーザデバイス１０および／またはリモートコンピューティングデバイス６０はまた、オーディオサブシステム１０８を備えており、ユーザ１０４によって話されているとともに、オーディオキャプチャデバイス１６ａによってキャプチャ済の発話１０６を受信するだけでなく、発話１０６を自動音声認識ＡＳＲシステム１１８によって処理されることができる入力音響フレーム１１０に関連付けられている対応するデジタルフォーマットに変換するように構成されている。示されている例では、ユーザは各々の発話１０６を話しており、オーディオサブシステム１０８は発話１０６を対応するオーディオデータ（例えば、音響フレーム）１１０に変換（コンバート）して自動音声認識ＡＳＲシステム１１８に入力する。その後、モデル２００は、発話１０６に対応するオーディオフレーム１１０（すなわちオーディオデータ）を入力として受信するとともに、発話１０６の対応するトランスクリプション１２０（例えば、音声認識結果／仮説）を出力として生成／予測する。

【0020】

ユーザデバイス１０および／またはリモートコンピューティングデバイス６０は、発話１０６のトランスクリプション１２０の表現をユーザデバイス１０のユーザ１０４に提示するように構成されたユーザインタフェースジェネレータ１０７も実行している。以下でさらに詳細に説明されるように、ユーザインタフェースジェネレータ１０７は、ストリーミング形式で音声認識結果１２０を表示し得る。いくつかの構成では、自動音声認識ＡＳＲシステム１１８から出力されたトランスクリプション１２０は、発話１０６によって指定されたユーザコマンド／クエリを実行するべく、例えばユーザデバイス１０またはリモートコンピューティングデバイス６０で実行する自然言語理解（ＮＬＵ）モジュールによって、処理される。さらにまたは代わりに、テキスト読み上げシステム（図示せず）（例えば、ユーザデバイス１０またはリモートコンピューティングデバイス６０の任意の組合せで実行される）は、トランスクリプション（転写、文字起こし）を、ユーザデバイス１０および／または他のデバイスによる可聴出力の合成音声に変換することが可能にされている。

【0021】

図示の例では、ユーザ１０４は、自動音声認識ＡＳＲシステム１１８を使用するユーザデバイス１０のプログラムまたはアプリケーション５０（例えば、デジタルアシスタントアプリケーション５０）とで相互作用する。例えば、図１Ａは、デジタルアシスタントアプリケーション５０とでコミュニケーションを取るユーザ１０４と、ユーザ１０４とデジタルアシスタントアプリケーション５０との間の会話を示すためユーザデバイス１０の画面にデジタルアシスタントインタフェース１８を表示するデジタルアシスタントアプリケーション５０と、を描く。この例では、ユーザ１０４はデジタルアシスタントアプリケーション５０に、「今夜のコンサートは何時？」と質問する。ユーザ１０４からのこの質問は、オーディオキャプチャデバイス１６ａによってキャプチャされており、ユーザデバイス１０のオーディオシステム１６によって処理される、話された発話（スポークンアタランス）１０６である。この例では、オーディオシステム１６は、話された発話１０６を受信するとともに、それを自動音声認識ＡＳＲシステム１１８への入力のために音響フレーム１１０に変換（コンバート）する。

【0022】

ここで図１Ｂを参照すると、リモートコンピューティングデバイス６０は、モデルトレーナ１５０を実行することで、図１Ａのモデル２００をトレーニングする。モデルトレーナ１５０は、複数のトレーニングサンプル１５２、１５２ａ～１５２ｎを（例えば、メモリハードウェア６４から）取得する。各トレーニングサンプル１５２は、話されたトレーニング発話１５４（すなわち入力オーディオ特徴のシーケンス）と、発話１５４のトランスクリプション１５６を表す対応するテキスト発話１５６と、を備えている。モデルトレーナ１５０は、複数のトレーニングサンプル１５２に関するモデル２００を、ネイティブ整数演算による量子化アウェアなトレーニング（ＱＡＴ）を使用することでトレーニングする。以下でさらに詳細に論じられるように、モデルトレーナ１５０は、トレーニング中にスケールファクタ１６０を決定することによって、量子化アウェアなトレーニングを使用する。モデルトレーナ１５０は、トレーニング中またはトレーニング後、モデル２００を整数固定ビット幅１６２に量子化する。整数固定ビット幅１６２は、各ネイティブ整数演算に割り振られたビット数を表す。例えば、整数固定ビット幅１６２が「８」である場合、モデル２００は、８ビットの整数（すなわちｉｎｔ８）に量子化される。他の例では、整数固定ビット幅１６２が「４」である場合、モデル２００は、４ビットの整数（すなわちｉｎｔ４）に量子化される。６ビット整数、など他の例が可能にされている。整数固定ビット幅１６２は、ユーザによって設定可能であってよく、モデルのユースケースに依存してよい。

【0023】

従来の量子化アウェアな技法は、「フェイク」量子化アウェアなトレーニングＱＡＴに依存している。例えば、多くの一般的なシステムは、ｔｆ．ｑｕａｎｔｉｚａｔｉｏｎ．ｆａｋｅ＿ｑｕａｎｔ＿^＊演算を使用することでモデルを量子化する。これらの演算はサーバ側の推論（サーバサイドインフェレンス）中に使用されるが、オンデバイスモデル（例えば、スマートフォンなどのユーザデバイス）の場合、変換演算（例えば、ＴＦｌｉｔｅ）を使用することでフェイク量子化演算を整数演算に変換（コンバート）する必要がある。したがって、これらの従来技法は、フェイク量子化演算を実際の整数演算（インテガーオペレーション）に変換（コンバート）するべくこの追加の変換ステップを必要としているので、既存のアプリケーションプログラミングインタフェース（ＡＰＩ）は、最後の次元のチャネルごとの最小値および最大値の推定のみをサポートする。チャネルの次元が最後の次元ではない一部のユースケースなどでは、これは理想的ではない。これらのケースでは、従来技法は、入力テンソルの次元をパーミュートすることで、チャネルの次元を最後の次元にしており、次に、アプリケーションプログラミングインタフェースＡＰＩを使用することでテンソルを「フェイク」量子化する必要がある。最後に、次元をパーミュートすることで、入力テンソルの元の順序に戻す必要がある。これらの追加のパーミュート演算によって、トレーニング時間が増加する。対照的に、モデルトレーナ１５０は、ネイティブ整数演算（例えば、ｔｆ演算）を使用する。その結果、モデル２００は、モバイルおよびテンソル処理ユニットＴＰＵアプリケーションの両方におけるトレーニングおよび推論（インフェレンス）に使用され得る。さらにハードウェアでサポートされた整数演算（例えば、行列積）を使用することで、トレーニングがさらに高速化され得る。

【0024】

量子化中、モデルトレーナ１５０は、モデル２００の１つまたは複数の重み２０２および／または活性化関数２０４のサイズを調整することによって、モデル２００のサイズを縮小させる。従来、自動音声認識ＡＳＲモデルの重み２０２と活性化関数２０４との両方は、３２ビットの空間を占めるとともに、多くの場合、処理に複雑な計算を必要とするｆｌｏａｔ３２値によって表される。「トレーニング後の量子化」ＰＴＱでは、これらのｆｌｏａｔ３２値は、精度およびメモリの要件を減らすべく「クリップ」またはラウンドされ得る。対照的に、モデルトレーナ１５０は、固定ビット幅１６２によって決定されるサイズの整数を使用することでモデル２００の重み２０２を表すべく、ネイティブ整数演算を使用する。いくつかの例では、モデルトレーナ１５０は、同じ固定ビット幅１６２（例えば、４ビットまたは８ビット）ごとに重み２０２および活性化関数２０４を量子化する。他の例では、モデルトレーナ１５０は、異なる固定ビット幅１６２を使用することで、重み２０２および活性化関数を量子化する。例えば、モデルトレーナ１５０は、重み２０２の固定ビット幅１６２（例えば、重み２０２の４ビット、活性化関数２０４の８ビット）よりも大きい固定ビット幅１６２を用いて活性化関数２０４を量子化する。さらに他の例では、モデルトレーナ１５０は、重み２０２を量子化する一方で、活性化関数２０４を量子化しない（例えば、活性化関数２０４はｆｌｏａｔ３２などの浮動小数点値によって表される）。

【0025】

モデルトレーナ１５０は、モデル２００の一部のみを量子化し得る。いくつかの例では、モデル２００が複数のエンコーダおよび複数のデコーダを備えている場合、モデルトレーナ１５０は、いくつかのシナリオではデコーダのメモリ要件が最小であるので、エンコーダのみを量子化する一方で、デコーダを量子化しない。トレーニングおよび量子化の後、モデルトレーナ１５０は、量子化済のトレーニング済モデル２００をユーザデバイス１０に提供し得る。

【0026】

ここで図２を参照すると、例示的なモデル２００、２００ａは、インタラクティブアプリケーションに関連付けられているレイテンシ制約を遵守する回帰型ニューラルネットワーク－トランスデューサ（ＲＮＮ－Ｔ）モデルアーキテクチャを備えている。ＲＮＮ－Ｔモデルアーキテクチャの使用は例示的なものであり、モデル２００は、とりわけ、トランスフォーマ－トランスデューサおよびコンフォーマ－トランスデューサモデルアーキテクチャなどの他のアーキテクチャを含み得る。ＲＮＮ－Ｔモデル２００ａは、小さい計算フットプリントを提供しており、従来の自動音声認識ＡＳＲアーキテクチャよりも少ないメモリ要件を利用するので、ＲＮＮ－Ｔモデルのアーキテクチャは、ユーザデバイス１０上で完全に音声認識を行なうことに適している（例えば、リモートサーバとの通信は必要ない）。この例では、ＲＮＮ－Ｔモデル２００ａは、エンコーダネットワーク２１０、予測ネットワーク３００、およびジョイントネットワーク２３０、を備えている。従来の自動音声認識ＡＳＲシステム内の音響モデル（ＡＭ）に大まかに類似しているエンコーダネットワーク２１０は、セルフアテンション（自己注意）層（例えば、コンフォーマもしくはトランスフォーマ層）のスタックを、または積層された長短期記憶（ＬＳＴＭ）層の回帰型ネットワークを、備えている。例えば、エンコーダは、ｄ次元の特徴ベクトル（例えば、音響フレーム）のシーケンスｘ＝（ｘ_１，ｘ_２，・・・，ｘ_Ｔ）、式中

【0027】

【数1】

【0028】

を読み出しており、各出力ステップでは、高次特徴表現を生成する。この高次特徴表現は

【0029】

【数2】

【0030】

として表される。
同様に、予測ネットワーク３００はまた、ＬＳＴＭネットワークであってもよい。これは、言語モデル（ＬＭ）のように、これまで最終ソフトマックス層２４０によって出力された非空白記号のシーケンスｙ_０、・・・、ｙ_ｕｉ－１を、密な表現

【0031】

【数3】

【0032】

に処理する。最後に、ＲＮＮ－Ｔモデルアーキテクチャを用いることで、エンコーダおよび予測／デコーダネットワーク２１０、３００によって生成済の表現は、ジョイント（結合）ネットワーク２３０によって組み合わされる。予測ネットワーク３００は、密な表現を処理する代わりに、疎な埋込のルックアップを出力することによってレイテンシを改善するべく、埋込ルックアップテーブルによって置き換えられ得る。次に、ジョイントネットワークは、次の出力記号の分布である

【0033】

【数4】

【0034】

を予測する。言い換えれば、ジョイントネットワーク２３０は、各出力ステップ（例えば、時間ステップ）では、可能（ポッシブル）な音声認識仮説の確率分布を生成する。ここでは「可能な音声認識仮説」は、指定された自然言語の記号／文字を各々表す出力ラベルのセットに対応する。例えば、自然言語が英語のとき、出力ラベルのセットには二十七（２７）個の記号が含まれ得る。例えば、英語のアルファベットの２６文字各々に１つのラベルと、スペース（空白）を表す１つのラベルと、がある。したがって、ジョイントネットワーク２３０は、所定出力ラベルセットの各々の発生尤度を示す値のセットを出力し得る。この値のセットはベクトルであり得るので、出力ラベルのセット上の確率分布を示すことができる。場合によっては、出力ラベルは書記素（個々の文字、潜在的な句読点やその他の記号、など）であるが出力ラベルのセットはそれに制限されない。例えば、出力ラベルのセットは、書記素に加えてまたは書記素の代わりに、単語の一部および／または単語全体を備えていることができる。ジョイントネットワーク２３０の出力分布は、異なる出力ラベルの各々に対する事後確率値（ポステリアプロバビリティバリュー）を含み得る。したがって、異なる書記素または他の記号を表す１００個の異なる出力ラベルが存在する場合、ジョイントネットワーク２３０の出力ｙ_ｉは、出力ラベルごとに１つずつ、１００個の異なる確率値を備えていることができる。次に、確率分布を使用することで、ビーム検索処理（例えば、ソフトマックス層２４０による）で候補となる正書要素（例えば、書記素、単語片、および／または単語）を選択するとともに、スコアを割り当てて、トランスクリプション１２０を決定できる。

【0035】

ソフトマックス層２４０は、対応する出力ステップでＲＮＮ－Ｔモデル２００によって予測された次の出力記号として、分布内で最も高い確率を有している出力ラベル／記号を選択するべく任意の技法を使用することでもよい。このように、ＲＮＮ－Ｔモデル２００は、条件付き独立の仮定を行なわず、むしろ各記号の予測は、音響だけでなく、これまでに出力されたラベルのシーケンスにも条件付けられる。ＲＮＮ－Ｔモデル２００は、出力記号が将来の音響フレーム１１０から独立していると仮定することで、ＲＮＮ－Ｔモデルをストリーミング方式で使用することが可能になる。

【0036】

いくつかの例では、ＲＮＮ－Ｔモデル２００のエンコーダネットワーク（すなわちオーディオエンコーダ）２１０は、１つまたは複数のコンフォーマブロック／層および／または１つまたは複数のトランスフォーマブロック／層、などマルチヘッドアテンション層またはセルフアテンション層／ブロックのスタックを備えている。任意選択で、エンコーダ２１０（すなわちオーディオエンコーダ）は、マルチパスアーキテクチャのための第１パス因果（コーザル）エンコーダおよび第２パス非因果（ノンコーザル）エンコーダを備えている。このマルチパスモデルは、ストリーミングおよび非ストリーミング自動音声認識ＡＳＲを統合している。因果エンコーダは左のコンテキストのみを使用することで、最小のレイテンシで部分結果を生成している。非因果エンコーダは左および右の両方のコンテキストを使用することによって、さらに正確な仮説を提供することが可能にされている。この例では、各コンフォーマブロックは、一連のマルチヘッドセルフアテンション（多頭自己注意）、深さ単位畳み込み、およびフィードフォワード、の層を備えている。予測ネットワーク３００は、２つの２０４８次元のＬＳＴＭ層を有し得、その各々の後にも６４０次元の射影（投影、プロジェクテッド）層が続く。あるいは、予測ネットワーク３００は、ＬＳＴＭ層の代わりに、トランスフォーマもしくはコンフォーマブロックのスタックを、または埋込ルックアップテーブルを、含み得る。最後に、ジョイントネットワーク２３０はまた、６４０個の隠れユニットを有し得る。ソフトマックス層２４０は、複数のトレーニングデータセット内のすべての一意の単語片または書記素を使用することで生成される、統合された単語片または書記素セットを備えて構成されてもよい。

【0037】

図３は、最終ソフトマックス層２４０によって出力されたＮ個の以前の非空白記号３０１ａ～３０１ｎに制限される、非空白記号のシーケンスｙ_ｕｉ－ｎ、・・・、ｙ_ｕｉ－１を入力として受信するＲＮＮ－Ｔモデル２００ａの例示的な予測ネットワーク３００を示す。いくつかの例では、Ｎは２に等しい。他の例では、Ｎは５に等しいが、開示は非限定的であり、Ｎは任意の整数に等しくてもよい。非空白記号３０１ａ～３０１ｎのシーケンスは、初期音声認識結果１２０ａ（図１）を示す。いくつかの実施態様では、予測ネットワーク３００は、マルチヘッドアテンションメカニズム３０２を備えており、これは、マルチヘッドアテンションメカニズムのうちの各ヘッド３０２Ａ～３０２Ｈにわたって共有埋込行列３０４を共有している。一例では、マルチヘッドアテンションメカニズム３０２は４つのヘッドを備えている。ただし、マルチヘッドアテンションメカニズム３０２では任意の数のヘッドを使用できる。特に、マルチヘッドアテンションメカニズムによって、モデルサイズの増加を最小限に抑えながらパフォーマンスが大幅に向上する。以下に詳しく説明するように、各ヘッド３０２Ａ～３０２Ｈは独自の位置ベクトル３０８の行を備えており、すべてのヘッドからの出力３１８Ａ～３１８Ｈを連結することでモデルサイズが増加するのではなく、代わりにヘッド平均モジュール３２２によって出力３１８Ａ～３１８Ｈが平均化される。

【0038】

マルチヘッドアテンションメカニズム３０２の第１ヘッド３０２Ａを参照すると、第１ヘッド３０２Ａは共有埋込行列３０４を使用することで、複数の時間ステップからの対応する時間ステップで入力として受信済の非空白記号のシーケンスｙ_ｕｉ－ｎ、・・・、ｙ_ｕｉ－１内のうちの各非空白記号３０１に対して、対応する埋込３０６、３０６ａ～３０６ｎ（例えば

【0039】

【数5】

【0040】

）を生成する。特に、共有埋込行列３０４は、マルチヘッドアテンションメカニズム３０２のすべてのヘッド同士間で共有されるので、他のヘッド３０２Ｂ～３０２Ｈはすべて、各非空白記号に対して同じ対応する埋込３０６を生成する。第１ヘッド３０２Ａはまた、非空白記号のシーケンスｙ_ｕｉ－ｎ、・・・、ｙ_ｕｉ－１内の対応する各非空白記号に、各々の位置ベクトルＰＶ_{Ａａ～Ａｎ}３０８、３０８Ａａ～３０８Ａｎ（例えば

【0041】

【数6】

【0042】

）を割り当てる。各非空白記号に割り当てられた各々の位置ベクトルＰＶ３０８は、非空白記号のシーケンスの履歴内の位置（例えば、最終ソフトマックス層２４０によって出力されたＮ個の以前の非空白記号）を示す。例えば、最初の位置ベクトルＰＶ_Ａａは履歴の最新の位置に割り当てられる一方で、最後の位置ベクトルＰＶ_Ａｎは、最終ソフトマックス層２４０によって出力されたＮ個の以前の非空白記号の履歴の最後の位置に割り当てられる。特に、埋込３０６の各々は、位置ベクトルＰＶ３０８の各々とで同じ次元（すなわち次元サイズ）を含んでもよい。

【0043】

非空白記号３０１ａ～３０１ｎのシーケンスｙ_ｕｉ－ｎ、・・・、ｙ_ｕｉ－１内のうちの各非空白記号３０１ごとに共有埋込行列３０４によって生成済の対応する埋込は、マルチヘッドアテンションメカニズム３０２のすべてのヘッド３０２Ａ～３０２Ｈで同じであるが、各ヘッド３０２Ａ～３０２Ｈは、位置ベクトル３０８の異なるセット／行を定義する。例えば、第１ヘッド３０２Ａは位置ベクトルＰＶ_{Ａａ～Ａｎ}の行３０８Ａａ～３０８Ａｎを定義しており、第２ヘッド３０２Ｂは位置ベクトルＰＶ_{Ｂａ～Ｂｎ}の異なる行３０８Ｂａ～３０８Ｂｎを定義しており、・・・、第Ｈヘッド３０２Ｈは位置ベクトルＰＶ_{Ｈａ～Ｈｎ}の他の異なる行３０８Ｈａ～３０８Ｈｎを定義する。

【0044】

受信済の非空白記号３０１ａ～３０１ｎのシーケンス内のうちの各非空白記号について、第１ヘッド３０２Ａは、重み層３１０を介して、対応する埋込と、それに割り当てられた各々の位置ベクトルＰＶ３０８と、の間の類似度に比例して、対応する埋込３０６に重み付ける。いくつかの例では、類似度にはコサイン類似度（例えば、コサイン距離）が含まれる場合がある。示される例では、重み層３１０は、重み付き埋込３１２、３１２Ａａ～３１２Ａｎのシーケンスを出力しており、各重み付き埋込は、それに割り当てられた各々の位置ベクトルＰＶ３０８に比例して重み付けされた対応する埋込３０６に関連付けられる。他の言い方をすれば、埋込３０６ごとに重み層３１０によって出力された重み付き埋込３１２は、埋込３０６と各々の位置ベクトルＰＶ３０８との間のドット積に対応し得る。重み付き埋込３１２は、埋込が、各々の位置ベクトルＰＶ３０８に関連付けられている位置決めに類似している程度に比例して、埋込に加えられるものとして解釈され得る。計算速度を上げるべく、予測ネットワーク３００には非回帰層が含まれており、したがって、重み付けされた埋込３１２Ａａ～３１２Ａｎのシーケンスは連結されず、代わりに加重平均モジュール３１６によって平均化されている。よって第１ヘッド３０２Ａからの出力として、次式で表される重み付けされた埋込３１２Ａａ～３１２Ａｎの加重平均３１８Ａが生成される。

【0045】

【数7】

【0046】

式１において、ｈはヘッド３０２のインデックスを表しており、ｎはコンテキスト内の位置を表しており、ｅは埋込次元を表す。さらに式１では、Ｈ、Ｎ、およびｄ_ｅ、は対応する次元のサイズを備えている。位置ベクトルＰＶ３０８はトレーニング可能にされている必要はなく、ランダムな値を含んでもよい。特に、重み付けされた埋込３１２が平均化されても、位置ベクトルＰＶ３０８は位置履歴情報を潜在的に保存できるので、予測ネットワーク３００のうちの各層で回帰接続を提供する必要性が軽減される。

【0047】

第１ヘッド３０２Ａに関して上で説明した動作は、マルチヘッドアテンションメカニズム３０２の他の各ヘッド３０２Ｂ～３０２Ｈでも同様に実行される。各ヘッド３０２によって定義された位置決めされたベクトルＰＶ３０８の異なるセットによって、重み層３１０は、第１ヘッド３０２Ａにおける重み付き埋込３１２Ａａ～３１２Ａａのシーケンスとは異なる、他のヘッド３０２Ｂ～３０２Ｈのうちの各々における重み付き埋込３１２Ｂａ～３１２Ｂｎ、３１２Ｈａ～３１２Ｈｎのシーケンスを出力する。その後、加重平均モジュール３１６は、他の各対応するヘッド３０２Ｂ～３０２Ｈからの出力として、非空白記号のシーケンスの対応する重み付き埋込３１２のうちの各々の加重平均３１８Ｂ～３１８Ｈを生成する。

【0048】

示されている例では、予測ネットワーク３００は、対応するヘッド３０２Ａ～３０２Ｈから出力される加重平均３１８Ａ～３１８Ｈを平均化するヘッド平均モジュール３２２を備えている。ＳＷＩＳＨを備えた射影層３２６は、加重平均３１８Ａ～３１８Ｈの平均に対応するヘッド平均モジュール３２２からの出力３２４を入力として受信するとともに、射影出力３２８を出力として生成してもよい。最終層正規化３３０は、射影出力３２８を正規化して、複数の時間ステップから対応する時間ステップにおける単一の埋込ベクトルＰ_ｕｉ３５０を提供することが可能にされている。予測ネットワーク３００は、初期時間ステップに続く複数の時間ステップのうちの各々において、単一の埋込ベクトルＰ_ｕｉ３５０のみを生成する。

【0049】

いくつかの構成では、予測ネットワーク３００は、マルチヘッドアテンションメカニズム３０２を実装せず、第１ヘッド３０２Ａに関して上記の動作のみを行なう。これらの構成では、重み付けされた埋込３１２Ａａ～３１２Ａｎの加重平均３１８Ａが、射影層３２６と層正規化３３０とを通過するだけで、単一の埋込ベクトルＰ_ｕｉ３５０が提供される。

【0050】

いくつかの実施態様では、ＲＮＮ－Ｔデコーダ、すなわち予測ネットワーク３００とジョイントネットワーク２３０とのサイズをさらに縮小させるべく、予測ネットワーク３００とジョイントネットワーク２３０との間のパラメータ結び付け（パラメータタイイング）が適用される。具体的には、語彙サイズ｜Ｖ｜および埋込次元ｄ_ｅの場合、予測ネットワークにおける共有埋込行列３０４は

【0051】

【数8】

【0052】

である。一方、最後の隠れ層は、ジョイントネットワーク２３０における次元サイズｄ_ｈを備えているので、隠れ層から出力ロジックへのフィードフォワード射影の重みは、

【0053】

【数9】

【0054】

となり、語彙に余分な空白トークンが含まれる。したがって、ジョイントネットワーク２３０の最後の層に対応するフィードフォワード層は、重み行列［ｄ_ｈ，｜Ｖ］｜を備えている。予測ネットワーク３００が埋込次元ｄ_ｅのサイズをジョイントネットワーク２３０の最後の隠れ層の次元ｄ_ｈに結び付けることによって、ジョイントネットワーク２３０のフィードフォワード射影重みおよび予測ネットワーク３００の共有埋込行列３０４は、単純な転置変換によって全ての非空白記号についてそれらの重みを共有していることができる。２つの行列が全てのそれらの値を共有しているので、ＲＮＮ－Ｔデコーダは２つの個々の行列を格納する代わりに、それらの値をメモリ上に１回格納するだけでよい。埋込次元ｄ_ｅのサイズを隠れ層次元ｄ_ｈのサイズに等しく設定することによって、ＲＮＮ－Ｔデコーダは、埋込次元ｄ_ｅと語彙サイズ｜Ｖ｜との積に等しいパラメータ数を削減させる。この重み結び付け（ウェイトタイイング）は、正則化技法に対応する。

【0055】

ここで図４を参照すると、アルゴリズム４００は、ＴｅｎｓｏｒＦｌｏｗにおける８ビット整数（ｉｎｔ８）のネイティブ量子化を示す。アルゴリズム４００を使用することで、モデルトレーナ１５０は、トレーニング中、スケールファクタ１６０を、最初に（アルゴリズム４００がチャネル単位の量子化をサポートするため）量子化される軸（アクシス）に対する最大値を推定することによって決定する。次に、モデルトレーナ１５０は、最大値を整数表現値４１０（すなわちこの例では１２７．０）で除算することによって、スケールファクタ１６０を決定する。整数表現値４１０は、所望の整数固定ビット幅１６２に基づく。すなわちスケールファクタ１６０は、量子化される軸の推定最大値と、ターゲット固定ビット幅１６２と、に基づく。例えば、８ビットの量子化（すなわち８の整数固定ビット幅）の場合、整数表現値４１０は１２７．０である。他の例として、４ビットの量子化（すなわち４の整数固定ビット幅）の場合、整数表現値は４．０である。スケールファクタ１６０を決定した後、モデルトレーナ１５０は、スケールファクタ１６０で除算し整数にキャストすることによって、入力テンソルを量子化する。逆量子化（デ－クオンタイゼーション）は、テンソルにスケールファクタ１６０を乗算することによって使用され得る。

【0056】

図５は、自動音声認識ＡＳＲモデル２００をトレーニングする方法５００の動作の例示的な配置のフローチャートである。方法５００は、動作５０２では、複数のトレーニングサンプル１５２を取得する工程を備えている。複数のトレーニングサンプル１５２のうちの各トレーニングサンプル１５２の各々は、各々の音声発話１５４と、各々の音声発話１５４のトランスクリプションを表す各々のテキスト発話１５６と、を備えている。方法５００は、動作５０４では、複数のトレーニングサンプル１５２に関する自動音声認識（ＡＳＲ）モデル２００を、ネイティブ整数演算による「量子化アウェアなトレーニング」（ＱＡＴ）を使用することでトレーニングする工程を備えている。動作５０６では、方法５００は、トレーニング済自動音声認識ＡＳＲモデル２００を、整数のターゲット固定ビット幅１６２に量子化する工程を備えている。量子化済のトレーニング済自動音声認識ＡＳＲモデル２００は、複数の重み２０２を備えている。複数の重み２０２のうちの各重み２０２は、ターゲット固定ビット幅１６２を有している整数を備えている。動作５０８では、方法５００は、量子化済のトレーニング済自動音声認識ＡＳＲモデル２００を、ユーザデバイス１０に提供する工程を備えている。

【0057】

図６は、本文書に記載のシステムおよび方法を実装するべく使用できる例示的なコンピューティングデバイス６００の概略図である。コンピューティングデバイス６００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータ、など様々な形式のデジタルコンピュータを表すことを意図している。ここで示されている構成要素、それらの接続と関係、およびそれらの機能は、例示のみを目的としており、この文書で説明および／または特許請求されている本発明の実施態様を制限することを意図してはいない。

【0058】

コンピューティングデバイス６００は、プロセッサ６１０、メモリ６２０、ストレージデバイス６３０、メモリ６２０および高速拡張ポート６５０に接続する高速インターフェイス／コントローラ６４０、および低速バス６７０およびストレージデバイス６３０に接続する低速インターフェイス／コントローラ６６０を備えている。構成要素（６１０、６２０、６３０、６４０、６５０、および６６０）のうちの各々は、様々なバスを使用することで相互接続されており、共通のマザーボードに据え付けられるか、または必要に応じて他の方法で存在することも可能にされている。プロセッサ６１０は、メモリ６２０またはストレージデバイス６３０に記憶された命令を備えている、コンピューティングデバイス６００内で実行するための命令を処理して、高速インターフェイス６４０に結合されたディスプレイ６８０などの外部入出力デバイスにグラフィカルユーザインターフェイス（ＧＵＩ）のグラフィカル情報を表示することが可能にされている。他の実施態様では、複数のメモリおよび複数の種類のメモリとともに、必要に応じて複数のプロセッサおよび／または複数のバスが使用されてもよい。また、複数のコンピューティングデバイス６００が接続されており、各デバイスが必要な動作の一部を行なう場合もある（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）。

【0059】

メモリ６２０は、コンピューティングデバイス６００内の非一時的な情報を記憶する。メモリ６２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）であってもよい。非一時的メモリ６２０は、コンピューティングデバイス６００による使用のために一時的または永続的にプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を格納するべく使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読み出し専用メモリ（ＲＯＭ）／プログラマブル読み出し専用メモリ（ＰＲＯＭ）／消去可能なプログラマブル読み出し専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラマブル読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常はブートプログラムなどのファームウェアに使用される）を備えているがこれらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを備えているがこれらに限定されない。

【0060】

ストレージデバイス６３０は、コンピューティングデバイス６００に大容量ストレージを設けることができる。いくつかの実施態様において、ストレージデバイス６３０はコンピュータ可読媒体である。様々な異なる実施態様では、ストレージデバイス６３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、もしくはテープデバイス、フラッシュメモリもしくはその他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくはその他のコンフィグレーションのデバイスを備えている、デバイスアレイであってもよい。追加の実施態様では、コンピュータプログラム製品は、情報キャリアに有形に具現化される。コンピュータプログラム製品は、実行時に上述したような１つまたは複数の方法を行なう命令を備えている。情報キャリアは、メモリ６２０、ストレージデバイス６３０、またはプロセッサ６１０上のメモリなどのコンピュータ可読媒体または機械可読媒体である。

【0061】

高速コントローラ６４０は、コンピューティングデバイス６００の帯域幅集約動作を一層管理しており、低速コントローラ６６０は、帯域幅集約動作を一層少なく管理する。このような役割の割り振りは単なる例である。いくつかの実施態様では、高速コントローラ６４０は、メモリ６２０、ディスプレイ６８０（例えば、グラフィックプロセッサまたはアクセラレータを介して）、および様々な拡張カード（図示せず）を受け入れることができる高速拡張ポート６５０に結合される。いくつかの実施態様では、低速コントローラ６６０は、ストレージデバイス６３０および低速拡張ポート６９０に結合される。低速拡張ポート６９０には、様々な通信ポート（ＵＳＢ、Ｂｌｕｅｔｏｏｔｈ（登録商標）、イーサネット（登録商標）、ワイヤレスイーサネット（登録商標）など）が含まれる場合があり、ネットワークアダプタなどを介して、キーボード、ポインティングデバイス、スキャナ、またはスイッチやルータなどのネットワークデバイスなどの１つまたは複数の入力／出力デバイスに結合され得る。

【0062】

コンピューティングデバイス６００は、図に示すように、多くの様々な形式で実装できる。例えば、それは、標準サーバ６００ａとして、またはそのようなサーバ６００ａのグループで複数回、ラップトップコンピュータ６００ｂとして、またはラックサーバシステム６００ｃの一部として、実装され得る。

【0063】

本明細書で説明するシステムおよび技術の様々な実施態様は、デジタル電子および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せ、で実現できる。これらの様々な実施態様は、特殊または汎用であり得、ストレージシステムからデータおよび命令を受信するとともに、ストレージシステムにデータおよび命令を送信するように結合された、少なくとも１つのプログラマブルプロセッサ、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイス、を備えているプログラム可能なシステムで実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施態様を備えていることができる。

【0064】

ソフトウェアアプリケーション（すなわちソフトウェアリソース）は、コンピューティングデバイスにタスクを行なわせるコンピュータソフトウェアを指してもよい。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれることがある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションを備えているがこれらに限定されない。

【0065】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラマブルプロセッサのための機械命令を備えており、かつ高水準手続型および／またはオブジェクト指向プログラミング言語、および／またはアセンブリ／機械言語で実装されることができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、機械可読の信号として機械命令を受信する機械可読媒体を備えているプログラマブルプロセッサに機械命令および／またはデータを提供するべく用いられる、あらゆるコンピュータプログラム製品、非一時的コンピュータ可読媒体、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理回路（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するべく用いられるあらゆる信号を指す。

【0066】

本明細書に説明する処理および論理フローは、データ処理ハードウェアとも称される、１つまたは複数のプログラマブルプロセッサが１つまたは複数のコンピュータプログラムを実行することで、入力データに作用しており、出力を生成することによって機能を行なうことによって行なわれ得る。処理および論理フローはまた、特殊用途論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって行なわれ得る。コンピュータプログラムの実行に適切なプロセッサは、例えば、汎用および特殊目的のプロセッサの両方、ならびにいずれかの種類のデジタルコンピュータのいずれか１つまたは複数のプロセッサを備えている。概して、プロセッサは、読み出し専用メモリ、ランダムアクセスメモリ、またはその両方から命令およびデータを受信する。コンピュータの基本的な要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを格納するための１つまたは複数のメモリデバイスである。概して、コンピュータはまた、データを格納するための１つまたは複数の大容量記憶デバイス、例えば磁気ディスク、光磁気ディスク、または光ディスクを備えている、またはそれらからデータを受信するもしくはそれらにデータを送信する、あるいはその両方を行なうよう動作可能に結合される。しかし、コンピュータがそのようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体は、あらゆる形式の不揮発性メモリ、媒体、およびメモリデバイスを備えており、例として、半導体メモリデバイス、例えばＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス、磁気ディスク、例えば、内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスク、およびＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭディスクを備えている。プロセッサおよびメモリは、専用論理回路によって補完されるか、または専用論理回路に組み込まれ得る。

【0067】

ユーザとのインタラクションを行なうために、本開示の１つまたは複数の態様は、ユーザに情報を表示するための表示装置、例えば、ＣＲＴ（ブラウン管）、ＬＣＤ（液晶ディスプレイ）モニタ、またはタッチスクリーン、および任意選択で、ユーザがそれによってコンピュータへの入力を行なうことができるキーボードおよびポインティングデバイス（例えばマウスまたはトラックボール）を有しているコンピュータに実装されることができる。他の種類のデバイスもまた、ユーザとのインタラクションを提供するべく用いられ得る。例えば、ユーザに提供されるフィードバックは、あらゆる形式の感覚的フィードバック、例えば視覚フィードバック、聴覚フィードバック、または触覚フィードバックであることができ、ユーザからの入力は、音響、音声言語、または触覚入力を備えている、任意の形式で受け取られ得る。さらにコンピュータは、ユーザが使用するデバイスにドキュメントを送受信することで、例えば、ウェブブラウザから受信済の要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することで、ユーザとで相互作用できる。

【0068】

いくつかの実施態様が説明されてきた。それにも関わらず、本開示の趣旨および範囲から逸脱することなく、様々な修正を行ない得ることが理解される。したがって、他の実施態様は、以下の特許請求の範囲内である。

【図1A】