特表2024-538020 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特表2024-538020自然会話音声システムのための非流暢性検出モデル

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3
4A
4B
5
6

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-18

(54)【発明の名称】自然会話音声システムのための非流暢性検出モデル

(51)【国際特許分類】

G10L 15/04 20130101AFI20241010BHJP

G10L 15/16 20060101ALI20241010BHJP

【ＦＩ】

G10L15/04 200

G10L15/16

【審査請求】有

【予備審査請求】未請求

(21)【出願番号】P 2024520857

(86)(22)【出願日】2022-08-26

(85)【翻訳文提出日】2024-05-24

(86)【国際出願番号】 US2022075550

(87)【国際公開番号】W WO2023059963

(87)【国際公開日】2023-04-13

(31)【優先権主張番号】63/262,185

(32)【優先日】2021-10-06

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(72)【発明者】

【氏名】チャン、シュオ－イーン

(72)【発明者】

【氏名】リー、ボー

(72)【発明者】

【氏名】サイナス、ターラエヌ

(72)【発明者】

【氏名】ストローマン、トレバー

(72)【発明者】

【氏名】ジャン、チャオ

(57)【要約】

方法（５００）は１つまたは複数の発話（１０６）を特徴付ける音響フレーム（１１０）のシーケンスを受信する工程を備える。複数の時間ステップの各々において、方法は音声認識モデル（２００）のエンコーダネットワーク（２２０）によって、音響フレームのシーケンスの対応する音響フレームの高次特徴表現（２２４）を生成する工程と、音声認識モデルの予測ネットワーク（３００）によって、音声認識モデルの最終ソフトマックス層（２５０）によって出力された対応する非空白記号のシーケンス（２５２）の隠れ表現（３５０）を生成する工程と、エンコーダネットワークによって生成された高次特徴表現と、予測ネットワークによって生成された稠密表現と、を受信する音声認識モデルの第１ジョイントネットワーク（２１０）によって、対応する時間ステップが休止および話の終わりに対応する確率分布を生成する工程と、を備える。

【特許請求の範囲】

【請求項1】

コンピュータ実装方法（５００）であって、データ処理ハードウェア上（６１０）で実行されると、前記データ処理ハードウェア（６１０）に、
１つまたは複数の発話（１０６）を特徴付ける音響フレーム（１１０）のシーケンスを受信する工程と、
複数の時間ステップの各々において、
音声認識モデル（２００）のエンコーダネットワーク（２２０）によって、前記音響フレーム（１１０）のシーケンス内の対応する音響フレームの高次特徴表現（２２４）を生成する工程と、
前記音声認識モデル（２００）の予測ネットワーク（３００）によって、前記音声認識モデル（２００）の最終ソフトマックス層（２５０）によって出力された対応する非空白記号のシーケンス（２５２）の隠れ表現（３５０）を生成する工程と、
前記エンコーダネットワーク（２２０）によって生成された前記高次特徴表現（２２４）と、前記予測ネットワーク（３００）によって生成された前記隠れ表現（３５０）と、を受信する前記音声認識モデル（２００）の第１ジョイントネットワーク（２１０）によって、対応する前記時間ステップが休止および話の終わりに対応する確率分布を生成する工程と、
を備えている動作を実行させる、コンピュータ実装方法（５００）。

【請求項2】

前記動作は、
対応する前記時間ステップが前記話の終わりに対応する確率が、話の終わり閾値を満たすと判定する工程と、
対応する前記時間ステップが前記話の終わりに対応する前記確率が、前記話の終わり閾値を満たすと判定したことに応じて、マイク終了イベントをトリガする工程と、
をさらに備えている、
請求項１に記載のコンピュータ実装方法（５００）。

【請求項3】

前記動作は、
対応する前記時間ステップが前記休止に対応する確率が休止閾値を満たすと判定する工程と、
対応する前記時間ステップが前記休止に対応する前記確率が前記休止閾値を満たすと判定したことに基づき、対応する前記時間ステップで休止トークン（２１２）を発行する工程と、
をさらに備えている、
請求項１または２に記載のコンピュータ実装方法（５００）。

【請求項4】

前記動作は、複数の出力ステップの各々において、前記音声認識モデル（２００）の第２ジョイントネットワーク（２４０）によって、可能性を有している音声認識仮説について確率分布（２４２）を生成する工程、をさらに備えている、
請求項１～３のいずれか１項に記載のコンピュータ実装方法（５００）。

【請求項5】

前記音声認識モデル（２００）は、２段階のトレーニング処理によって訓練されており、前記２段階のトレーニング処理は、
音声認識タスクに関して前記エンコーダネットワーク（２２０）、前記予測ネットワーク（３００）、および前記第２ジョイントネットワーク（２４０）、を訓練する第１段階と、
前記第１ジョイントネットワーク（２１０）を初期化および微調整することで、発話（１０６）中の休止位置および話の終わり位置を予測する方法を学習する第２段階と、
を備えている、
請求項４に記載のコンピュータ実装方法（５００）。

【請求項6】

前記エンコーダネットワーク（２２０）、前記予測ネットワーク（３００）、および前記第２ジョイントネットワーク（２４０）、のパラメータは前記２段階のトレーニング処理のうちの前記第２段階中に固定される、
請求項５に記載のコンピュータ実装方法（５００）。

【請求項7】

前記２段階のトレーニング処理は、前記休止位置と話の前記終わり位置とを示すラベルを有している複数の書き起こされたトレーニング発話に関して前記音声認識モデル（２００）を訓練する、
請求項５または６に記載のコンピュータ実装方法（５００）。

【請求項8】

前記エンコーダネットワーク（２２０）は自己注意ブロックのスタックを備えている、
請求項１～７のいずれか１項に記載のコンピュータ実装方法（５００）。

【請求項9】

前記自己注意ブロックのスタックは、コンフォーマブロックのスタックまたはトランスフォーマブロックのスタックを備えている、
請求項８に記載のコンピュータ実装方法（５００）。

【請求項10】

対応する前記非空白記号（２５２）のシーケンスの前記隠れ表現（３５０）を生成する工程は、
対応する前記時間ステップにおいて入力として受信された前記非空白記号のシーケンス（２５２）内の非空白記号ごとに、
前記予測ネットワーク（３００）によって、共有埋込行列（３０４）を使用することで、対応する前記非空白記号の埋込（３０６）を生成する工程と、
前記予測ネットワーク（３００）によって、対応する前記非空白記号に各々の位置ベクトル（３０８）を割り当てる工程と、
前記予測ネットワーク（３００）によって、前記埋込（３０６）と前記各々の位置ベクトル（３０８）との間の類似性に比例して前記埋込（３０６）に重み付けする工程と、
前記予測ネットワーク（３００）からの出力として、対応する前記時間ステップにおいて単一の埋込ベクトル（３０５）を生成する工程であって、前記単一の埋込ベクトル（３０５）は重み付けされた前記埋込の加重平均に基づいており、前記単一の埋込ベクトル（３０５）は前記隠れ表現（３５０）を備えている、前記単一の埋込ベクトル（３０５）を生成する工程と、
を備えている、
請求項１～９のいずれか１項に記載のコンピュータ実装方法（５００）。

【請求項11】

前記予測ネットワーク（３００）はマルチヘッド注意機構（３０２）を備えており、前記マルチヘッド注意機構（３０２）は、前記マルチヘッド注意機構（３０２）の各ヘッド（３０２Ａ～Ｈ）全体で前記共有埋込行列（３０４）を共有している、
請求項１０に記載のコンピュータ実装方法（５００）。

【請求項12】

システム（１００）であって、前記システム（１００）は、
データ処理ハードウェア（６１０）と、
前記データ処理ハードウェア（６１０）に通信しているメモリハードウェア（６２０）であって、前記データ処理ハードウェア（６１０）上で実行されると、前記データ処理ハードウェア（６１０）に、
１つまたは複数の発話（１０６）を特徴付ける音響フレーム（１１０）のシーケンスを受信する工程と、
複数の出力ステップの各々において、
音声認識モデル（２００）のエンコーダネットワーク（２２０）によって、前記音響フレーム（１１０）のシーケンス内の対応する音響フレームの高次特徴表現（２２４）を生成する工程と、
前記音声認識モデル（２００）の予測ネットワーク（３００）によって、前記音声認識モデル（２００）の最終ソフトマックス層（２５０）によって出力される対応する非空白記号のシーケンス（２５２）の隠れ表現（３５０）を生成する工程と、
前記エンコーダネットワーク（２２０）によって生成された前記高次特徴表現（２２４）と、前記予測ネットワーク（３００）によって生成された前記隠れ表現（３５０）と、を受信する前記音声認識モデル（２００）の第１ジョイントネットワーク（２１０）によって、対応する時間ステップが休止および話の終わりに対応する確率分布を生成する工程と、
を備えている動作を実行させる前記メモリハードウェア（６２０）と、
を備えている、システム（１００）。

【請求項13】

前記動作は、
対応する前記時間ステップが前記話の終わりに対応する確率が、話の終わり閾値を満たすと判定する工程と、
対応する前記時間ステップが前記話の終わりに対応する前記確率が前記話の終わり閾値を満たすと判定したことに応じて、マイク終了イベントをトリガする工程と、
をさらに備えている、
請求項１２に記載のシステム（１００）。

【請求項14】

前記動作は、
対応する前記時間ステップが前記休止に対応する確率が休止閾値を満たすと判定する工程と、
対応する前記時間ステップが前記休止に対応する前記確率が前記休止閾値を満たすと判定したことに基づき、対応する前記時間ステップで休止トークン（２１２）を発行する工程と、
をさらに備えている、
請求項１２または１３に記載のシステム（１００）。

【請求項15】

前記動作は、複数の前記出力ステップの各々において、前記音声認識モデル（２００）の第２ジョイントネットワーク（２４０）によって、可能性を有している音声認識仮説について確率分布（２４２）を生成する工程、をさらに備えている、
請求項１２～１４のいずれか１項に記載のシステム（１００）。

【請求項16】

【請求項17】

前記エンコーダネットワーク（２２０）、前記予測ネットワーク（３００）、および前記第２ジョイントネットワーク（２４０）、のパラメータは前記２段階のトレーニング処理のうちの前記第２段階中に固定される、
請求項１６に記載のシステム（１００）。

【請求項18】

前記２段階のトレーニング処理は、前記休止位置および話の前記終わり位置を示すラベルを有している複数の書き起こされたトレーニング発話に関して前記音声認識モデル（２００）を訓練する、
請求項１６または１７に記載のシステム（１００）。

【請求項19】

前記エンコーダネットワーク（２２０）は自己注意ブロックのスタックを備えている、
請求項１２～１８のいずれか１項に記載のシステム（１００）。

【請求項20】

前記自己注意ブロックのスタックは、コンフォーマブロックのスタックまたはトランスフォーマブロックのスタックを備えている、
請求項１２～１９のいずれか１項に記載のシステム（１００）。

【請求項21】

対応する前記非空白記号（２５２）のシーケンスの前記隠れ表現（３５０）を生成する工程は、
対応する前記時間ステップにおいて入力として受信された前記非空白記号（２５２）のシーケンス内の非空白記号ごとに、
前記予測ネットワーク（３００）によって、共有埋込行列（３０４）を使用することで、対応する前記非空白記号の埋込（３０６）を生成する工程と、
前記予測ネットワーク（３００）によって、対応する前記非空白記号に各々の位置ベクトル（３０８）を割り当てる工程と、
前記予測ネットワーク（３００）によって、前記埋込（３０６）と前記各々の位置ベクトル（３０８）との間の類似性に比例して前記埋込（３０６）に重み付けする工程と、
前記予測ネットワーク（３００）からの出力として、対応する前記時間ステップにおいて単一の埋込ベクトル（３０５）を生成する工程であって、前記単一の埋込ベクトル（３０５）は重み付けされた前記埋込の加重平均に基づいており、前記単一の埋込ベクトル（３０５）は前記隠れ表現（３５０）を備えている、前記単一の埋込ベクトル（３０５）を生成する工程と、
を備えている、
請求項１２～２０のいずれか１項に記載のシステム（１００）。

【請求項22】

前記予測ネットワーク（３００）はマルチヘッド注意機構（３０２）を備えており、前記マルチヘッド注意機構（３０２）は、前記マルチヘッド注意機構（３０２）の各ヘッド（３０２Ａ～Ｈ）全体で前記共有埋込行列（３０４）を共有している、
請求項２１に記載のシステム（１００）。

【請求項23】

自然会話の自動音声認識（ＡＳＲ）モデル（２００）であって、自動音声認識ＡＳＲモデル（２００）は、
エンコーダネットワーク（２２０）であって、
入力として、１つまたは複数の発話（１０６）を特徴付ける音響フレーム（１１０）のシーケンスを受信することで、
複数の時間ステップの各々において、前記音響フレーム（１１０）のシーケンス内の対応する音響フレームの高次特徴表現（２２４）を生成する
ように構成された前記エンコーダネットワーク（２２０）と、
予測ネットワーク（３００）であって、
入力として、最終ソフトマックス層（２５０）によって出力された非空白記号（２５２）のシーケンスを受信することで、
複数の前記時間ステップの各々において、隠れ表現（３５０）を生成する
ように構成された前記予測ネットワーク（３００）と、
第１ジョイントネットワーク（２１０）であって、
入力として、複数の前記時間ステップの各々において前記予測ネットワーク（３００）によって生成された前記隠れ表現（３５０）と、複数の前記時間ステップの各々において前記エンコーダネットワーク（２２０）によって生成された前記高次特徴表現（２２４）と、を受信することで、
複数の前記時間ステップの各々において、対応する前記時間ステップが休止および話の終わりに対応する確率分布を生成する
ように構成された前記第１ジョイントネットワーク（２１０）と、
を備えている、自動音声認識ＡＳＲモデル（２００）。

【請求項24】

前記自動音声認識ＡＳＲモデル（２００）は、対応する前記時間ステップが閾値を満たす話の終わりに対応する確率に基づき、マイク終了イベントをトリガする、
請求項２３に記載の自動音声認識ＡＳＲモデル（２００）。

【請求項25】

入力として、複数の前記時間ステップの各々において前記予測ネットワーク（３００）によって生成された前記隠れ表現（３５０）と、複数の前記時間ステップの各々において前記エンコーダネットワーク（２２０）によって生成された前記高次特徴表現（２２４）と、を受信することで、
複数の前記時間ステップの各々において、可能性を有している音声認識仮説について確率分布を生成する
ように構成された第２ジョイントネットワーク（２４０）をさらに備えている、
請求項２３または２４に記載の自動音声認識ＡＳＲモデル（２００）。

【請求項26】

前記エンコーダネットワーク（２２０）、前記予測ネットワーク（３００）、および前記第２ジョイントネットワーク（２４０）、は第１トレーニング段階中に音声認識タスクに関して訓練されており、
前記第１トレーニング段階の後、前記エンコーダネットワーク（２２０）、前記予測ネットワーク（３００）、および前記第２ジョイントネットワーク（２４０）、が固定中に前記第１ジョイントネットワーク（２１０）が初期化および微調整されることで発話（１０６）中の休止位置と話の終わり位置とを予測する方法を学習する、
請求項２５に記載の自動音声認識ＡＳＲモデル（２００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、自然会話音声システムのための非流暢性（ディスフルーエンシー）検出モデルに関する。

【背景技術】

【0002】

最新の自動音声認識（ＡＳＲ）システムは、高品質（例えば、低い単語誤り率）だけではなく、低遅延（例えば、発話しているユーザと、表示される書き起こし（トランスクリプション、転写）と、の間の短い遅延）を提供することにも重点を置いている。

【発明の概要】

【発明が解決しようとする課題】

【0003】

例えば、今日の自動音声認識ＡＳＲシステムを実装しているデバイスを使用するとき、多くの場合、自動音声認識ＡＳＲシステムがリアルタイムにまたはリアルタイムよりも高速に対応するストリーミング方式で発話をデコードすることが期待されている。

【課題を解決するための手段】

【0004】

本開示の一態様は、データ処理ハードウェア上で実行されると、データ処理ハードウェアに、１つまたは複数の発話を特徴付ける音響フレームのシーケンスを受信する工程を備えている動作（オペレーション、操作）を実行させるコンピュータ実装方法を提供する。複数の出力時間ステップの各々において、動作は、音声認識モデルのエンコーダネットワークによって、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現を生成する工程と、音声認識モデルの予測ネットワークによって、音声認識モデルの最終ソフトマックス層によって出力された対応する非空白記号のシーケンスの隠れ表現（ヒドゥンレプリゼンテーション、隠し表現）を生成する工程と、エンコーダネットワークによって生成された高次特徴表現と、予測ネットワークによって生成された隠れ表現と、を受信する音声認識モデルの第１ジョイントネットワーク（第１のジョイントネットワーク）によって、対応する時間ステップが休止および話の終わりに対応する確率分布を生成する工程と、をさらに備えている。

【0005】

本開示の実装は、以下の任意選択の特徴の１つまたは複数を含み得る。いくつかの実装では、動作は、対応する時間ステップが話の終わりに対応する確率が、話の終わり閾値を満たすと判定する工程と、対応する時間ステップが話の終わりに対応する確率が、閾値を満たすと判定したことに応じて、マイク終了イベントをトリガする工程と、をさらに備えている。

【0006】

いくつかの実装では、動作は、対応する時間ステップが休止に対応する確率が休止閾値を満たすと判定する工程と、対応する時間ステップが休止に対応する確率が休止閾値を満たすと判定したことに基づき、対応する時間ステップで休止トークンを発行する工程と、を備えている。

【0007】

いくつかの例では、動作は、複数の出力ステップの各々において、音声認識モデルの第２ジョイントネットワーク（第２のジョイントネットワーク）によって、可能性を有している音声認識仮説について確率分布を生成する工程を備えている。いくつかの実装では、音声認識モデルは、２段階のトレーニング処理によって訓練される。２段階のトレーニング処理は、音声認識タスクに関してエンコーダネットワーク、予測ネットワーク、および第２ジョイントネットワークを訓練する第１段階と、第１ジョイントネットワークを初期化および微調整することで発話中の休止位置および話の終わり位置を予測する方法を学習する第２段階と、を含み得る。いくつかの例では、エンコーダネットワーク、予測ネットワーク、および第２ジョイントネットワーク、のパラメータは２段階のトレーニング処理のうちの第２段階中に固定される。いくつかの実装では、２段階のトレーニング処理は、休止位置および話の終わり位置を示すラベルを有している複数の書き起こされたトレーニング発話に関して音声認識モデルを訓練する。

【0008】

いくつかの実装では、エンコーダネットワークは自己注意ブロックのスタックを備えている。自己注意ブロックのスタックは、コンフォーマブロックのスタックまたはトランスフォーマブロックのスタックを含み得る。

【0009】

いくつかの例では、対応する非空白記号のシーケンスの隠れ表現を生成する工程は、対応する時間ステップにおいて入力として受信された非空白記号のシーケンス内の非空白記号ごとに、予測ネットワークによって、共有埋込行列（共有された埋め込みマトリクス）を使用することで、対応する非空白記号の埋込を生成する工程と、予測ネットワークによって、対応する非空白記号に各々の位置ベクトルを割り当てる工程と、予測ネットワークによって、埋込と各々の位置ベクトルとの間の類似性に比例して埋込に重み付けする工程と、を備えている。隠れ表現を生成する工程は、予測ネットワークからの出力として、対応する時間ステップにおいて単一の埋込ベクトルを生成する工程であって、単一の埋込ベクトルは重み付けされた埋込の加重平均に基づいており、単一の埋込ベクトルは隠れ表現を備えている、単一の埋込ベクトルを生成する工程、をさらに備えている。

【0010】

いくつかの実装では、予測ネットワークはマルチヘッド注意機構を備えており、マルチヘッド注意機構は、マルチヘッド注意機構の各ヘッド全体で共有された埋込行列を共有している。

【0011】

本開示の別の態様は、データ処理ハードウェアと、データ処理ハードウェアに通信するメモリハードウェアと、を備えているシステムを提供する。データ処理ハードウェア上で実行されると、データ処理ハードウェアに動作を実行させる命令を格納するメモリハードウェア。動作は、１つまたは複数の発話を特徴付ける音響フレームのシーケンスを受信する工程を備えている。動作は、複数の出力時間ステップの各々において、音声認識モデルのエンコーダネットワークによって、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現を生成する工程と、音声認識モデルの予測ネットワークによって、音声認識モデルの最終ソフトマックス層によって出力された対応する非空白記号のシーケンスの隠れ表現を生成する工程と、エンコーダネットワークによって生成された高次特徴表現と、予測ネットワークによって生成された隠れ表現と、を受信する音声認識モデルの第１ジョイントネットワークによって、対応する時間ステップが休止および話の終わりに対応する確率分布を生成する工程と、をさらに備えている。

【0012】

【0013】

【0014】

いくつかの例では、動作は、複数の出力ステップの各々において、音声認識モデルの第２ジョイントネットワークによって、可能性を有している音声認識仮説について確率分布を生成する工程を備えている。いくつかの実装では、音声認識モデルは、２段階のトレーニング処理によって訓練される。２段階のトレーニング処理は、音声認識タスクに関してエンコーダネットワーク、予測ネットワーク、および第２ジョイントネットワークを訓練する第１段階と、第１ジョイントネットワークを初期化および微調整することで発話中の休止位置および話の終わり位置を予測する方法を学習する第２段階と、を含み得る。いくつかの例では、エンコーダネットワーク、予測ネットワーク、および第２ジョイントネットワーク、のパラメータは２段階のトレーニング処理のうちの第２段階中に固定される。いくつかの実装では、２段階のトレーニング処理は、休止位置および話の終わり位置を示すラベルを有している複数の書き起こされたトレーニング発話に関して音声認識モデルを訓練する。

【0015】

【0016】

いくつかの例では、対応する非空白記号のシーケンスの隠れ表現を生成する工程は、対応する時間ステップにおいて入力として受信された非空白記号のシーケンス内の非空白記号ごとに、予測ネットワークによって、共有埋込行列を使用することで、対応する非空白記号の埋込を生成する工程と、予測ネットワークによって、対応する非空白記号に各々の位置ベクトルを割り当てる工程と、予測ネットワークによって、埋込と各々の位置ベクトルとの間の類似性に比例して埋込に重み付けする工程と、を備えている。隠れ表現を生成する工程は、予測ネットワークからの出力として、対応する時間ステップで単一の埋込ベクトルを生成することであって、単一の埋込ベクトルは重み付けされた埋込の加重平均に基づいており、単一の埋込ベクトルは隠れ表現を備えている、単一の埋込ベクトルを生成する工程、をさらに備えている。

【0017】

【0018】

本開示のさらに別の態様は、エンコーダと、予測ネットワークと、第１ジョイントネットワークと、を備えている自然会話（ナチュラルカンバセーション）の自動音声認識（ＡＳＲ）モデルを提供する。入力として、１つまたは複数の発話を特徴付ける音響フレームのシーケンスを受信することで、複数の時間ステップの各々において、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現を生成するように構成されたエンコーダ。入力として、最終ソフトマックス層によって出力された非空白記号のシーケンスを受信することで、複数の時間ステップの各々において、隠れ表現を生成するように構成される予測ネットワーク。入力として、複数の時間ステップの各々において予測ネットワークによって生成された隠れ表現と、複数の時間ステップの各々においてエンコーダによって生成された高次特徴表現と、を受信することで複数の時間ステップの各々において、対応する時間ステップが休止および話の終わりに対応するかどうかの確率分布を生成するように構成された第１ジョイントネットワーク。

【0019】

本開示の実装は、以下の任意選択の特徴の１つまたは複数を含み得る。いくつかの実装では、自動音声認識ＡＳＲモデルは、話の終わりに対応している対応する時間ステップが閾値を満たす確率に基づき、マイク終了イベントをトリガする。

【0020】

いくつかの例では、自動音声認識ＡＳＲモデルはまた、複数の時間ステップの各々において予測ネットワークによって生成された隠れ表現と、複数の時間ステップの各々においてエンコーダによって生成された高次特徴表現と、を受信することで複数の時間ステップの各々において、可能性を有している音声認識仮説について確率分布を生成するように構成された第２ジョイントネットワークを備えている。

【0021】

いくつかの実装では、エンコーダネットワーク、予測ネットワーク、および第２ジョイントネットワーク、は第１トレーニング段階中に音声認識タスクに関して訓練されており、第１トレーニング段階の後、エンコーダネットワーク、予測ネットワーク、および第２ジョイントネットワーク、が固定されている間に、第１ジョイントネットワークが初期化および微調整されることで発話中の休止位置および話の終わり位置を予測する方法を学習する。

【0022】

本開示のさらに別の態様は、エンコーダと、予測ネットワークと、第１ジョイントネットワークと、を備えている自動音声認識ＡＳＲモデルと、順序交代検出器（ターンテイキングディテクタ）モデルと、を備えている自然会話の自動音声認識（ＡＳＲ）システムを提供する。入力として、１つまたは複数の発話を特徴付ける音響フレームのシーケンスを受信することで、複数の時間ステップの各々において、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現を生成するように構成されたエンコーダ。入力として、最終ソフトマックス層によって出力された非空白記号のシーケンスを受信することで、複数の時間ステップの各々において、隠れ表現を生成するように構成される予測ネットワーク。入力として、複数の時間ステップの各々において予測ネットワークによって生成された隠れ表現と、複数の時間ステップの各々においてエンコーダによって生成された高次特徴表現と、を受信することで複数の時間ステップの各々において、対応する時間ステップが休止および話の終わりに対応するかどうかの確率分布を生成するように構成されたジョイントネットワーク。入力として、複数の時間ステップの各々においてエンコーダによって生成された高次特徴表現を受信することで、高次の特徴表現ごとに、高次特徴表現が会話、休止、および話の終わり、に対応するのかどうかの対応する確率分布を生成するように構成された順序交代検出器モデル。

【0023】

本開示のさらに別の態様は、エンコーダと、予測ネットワークと、ジョイントネットワークと、を備えている自動音声認識ＡＳＲモデルと、順序交代検出器モデルと、を備えている自然会話の自動音声認識（ＡＳＲ）システムを提供する。入力として、１つまたは複数の発話を特徴付ける音響フレームのシーケンスを受信することで、複数の時間ステップの各々において、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現を生成するように構成されたエンコーダを備えている自動音声認識ＡＳＲモデル。入力として、最終ソフトマックス層によって出力された非空白記号のシーケンスを受信することで、複数の時間ステップの各々において、隠れ表現を生成するように構成される予測ネットワーク。複数の時間ステップの各々において予測ネットワークによって生成された隠れ表現と、複数の時間ステップの各々においてエンコーダによって生成された高次特徴表現と、を受信することで、複数の時間ステップの各々において、可能性を有している音声認識仮説について確率分布を生成するように構成されたジョイントネットワーク。入力として、複数の時間ステップの各々において予測ネットワークによって生成された隠れ表現を受信することで、次のサブワード単位が、休止、および話の終わり、に対応するのかどうかの対応する確率分布を生成するように構成された順序交代検出器モデル。

【0024】

本開示の１つまたは複数の実施態様の詳細は、添付の図面および以下の説明において述べられる。他の態様、特徴、および利点、は説明および図面ならびに特許請求の範囲から明らかになる。

【図面の簡単な説明】

【0025】

【図1】音声発話を書き起こすための非流暢性検出ジョイントモデルを備えている自動音声認識（ＡＳＲ）システムを使用する例示的な音声環境の概略図である。

【図2A】非流暢性検出モデルを統合した例示的な自動音声認識ＡＳＲシステムの概略図である。

【図2B】非流暢性検出モデルを統合した例示的な自動音声認識ＡＳＲシステムの概略図である。

【図2C】非流暢性検出モデルを統合した例示的な自動音声認識ＡＳＲシステムの概略図である。

【図3】図２Ａ～図２Ｃの自動音声認識ＡＳＲシステムの例示的な結合および縮小予測ネットワークの概略図である。

【図4A】例示的な長文式の書き起こされたトレーニング発話を示す。

【図4B】図４Ａの長文式の書き起こされたトレーニング発話のための例示的な注釈付きの書き起こされたトレーニング発話を示す。

【図5】自動音声認識ＡＳＲシステム内で非流暢性検出ジョイントモデルを実行するコンピュータ実装方法の動作の例示的な構成のフローチャートである。

【図6】本明細書に説明されるシステムおよび方法を実装するべく使用し得る例示的なコンピューティングデバイスの概略図である。

【発明を実施するための形態】

【0026】

様々な図面における同様の参照記号は、同様の要素を示す。
音声起動デジタルアシスタントおよびダイアログシステムなどの多くの音声対話アプリケーションは、ストリーミング自動音声認識（ＡＳＲ）システムを使用している。しかしながら、人間のような自然な会話の経験を提供するには、自動音声認識ＡＳＲシステムは、人間の会話の話、やりとり、順序交代（ターンテイキング）、などに似た話および対話のパターンを正確に認識する必要がある。自然会話音声の認識に伴う問題は、休止を認識する工程と、人がいつ話を終えたのかを判断する工程と、を備えているがこれらに限定されない。多くの自然会話音声は非流暢性を備えているとしても、大部分の従来の自動音声認識ＡＳＲシステムは、非流暢性が存在していないと想定している。例えば、大部分の従来の自動音声認識ＡＳＲシステムは、人が事前に何を言いたいのかを知っているので、したがって流暢でなくなることは無しに話す、流暢な一回限りの発話を想定している。例示的な非流暢性は、休止、考えるための休止、無作為な休止、躊躇、言葉の長音化（例えば、「あの…（ｏｎｎｎ…）」）、つなぎの休止または言葉（例えば、「うー（ｕｈ）」、「うーむ（ｕｍ）」）、繰り返されるフレーズ、および行動の変更、を備えているがこれらに限定されない。流暢ではないことによって、発話中に短い休止または長い休止が生じる場合があり、これによって自動音声認識ＡＳＲ中に曖昧さが生じる場合があるので、自動音声認識ＡＳＲシステムは、発話を時期尚早に終了（ｅｎｄ－ｐｏｉｎｔ）させることで、人が話し終える前に人を遮る場合がある。例えば、人は、「どこでできますか」と話すことによって発話を開始しており、後に休止が続く場合がある。自然会話音声中、休止は、人が話し終えていないことを示す場合がある。しかしながら、従来の自動音声認識ＡＳＲシステムは、多くの場合、人が、例えば「タイ料理を注文する」と話すことによって続ける、など自分が話すことを意図していた残りの内容を話す機会を得る前に、「申し訳ありませんが、聞き取れませんでした」と応答する。自然な会話のやりとりのためには、自動音声認識ＡＳＲシステムが休止中に「ｍｍｈ」など確認のフレーズで応じることで、自動音声認識ＡＳＲシステムは人が話し終えるのを待機していることを示すか、または単に人が話し続けてから話し終えるのを待機するか、のどちらかであることが好ましい。したがって、自然な会話のやりとりのためには、自動音声認識ＡＳＲシステムが、非流暢性、および話の終わりのイベントを正確に認識および処理するとともに、人が話し終えるまで非流暢性を使用することで「話し続ける」（ホールドザフロア）ことによって、人が話し終えたら可能な限り迅速に応答することを可能にすることが重要である。

【0027】

本明細書の実施態様は、自然な会話のやりとりの音声発話で自然に発生する非流暢性および話の終わりのイベントを検出するように構成および訓練された非流暢性検出モデルと自動音声認識ＡＳＲシステムとを統合することを対象としている。例示的な非流暢性検出モデルは、再帰型ニューラルネットワーク－変換器（ＲＮＮ－Ｔ）モデル、などエンドツーエンド（Ｅ２Ｅ）自動音声認識ＡＳＲ上に構築されるか、またはエンドツーエンド（Ｅ２Ｅ）自動音声認識ＡＳＲモデルに統合される。例示的な方法では、自動音声認識ＡＳＲシステムは、１つまたは複数の発話を特徴付ける音響フレームのシーケンスを受信する。複数の出力ステップの各々のために、自動音声認識ＡＳＲモデルのエンコーダネットワークは、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現を生成しており、自動音声認識ＡＳＲモデルの予測ネットワークは、自動音声認識ＡＳＲモデルの最終ソフトマックス層によって出力された対応する非空白記号のシーケンスの隠れ表現を生成しており、自動音声認識ＡＳＲモデルの第１ジョイントネットワーク（つまり、非流暢性検出ジョイントネットワーク）は、高次特徴表現および隠れ表現を受信することで、対応する時間ステップが非流暢性（例えば、休止）および話の終わりイベントに対応する確率分布を生成する。自動音声認識ＡＳＲモデルの第２ジョイントネットワーク（例えば、単語片ジョイントネットワーク）は、対応する時間ステップにおいて高次特徴表現および隠れ表現を受信することで、対応する時間ステップにおいて可能性を有している音声認識仮説について確率分布を生成する。

【0028】

図１は、例示的な音声環境１００の概略図である。音声環境１００では、ユーザ１０４がユーザデバイス１０などのコンピューティングデバイスとで対話する方法は、音声入力を通してであってよい。ユーザデバイス１０（一般にデバイス１０とも呼ばれる）は、音声環境１００内の１人以上のユーザ１０４からのサウンド（例えば、ストリーミング音声データ）を取り込むように構成されている。ここで、ストリーミング音声データは、可聴クエリ、デバイス１０に対するコマンド、またはデバイス１０によって取り込まれる可聴通信、として機能するユーザ１０４による音声発話１０６を指す場合がある。デバイス１０の音声対応システムは、クエリに応えること、および／または１つまたは複数のダウンストリームアプリケーションによってコマンドを実行／達成させること、によってクエリまたはコマンドを処理し得る。

【0029】

ユーザデバイス１０は、ユーザ１０４に関連付けられており、音声データを受信できる任意のコンピューティングデバイスに対応する場合がある。ユーザデバイス１０のいくつかの例は、モバイルデバイス（例えば、携帯電話、タブレット、ラップトップなど）、コンピュータ、ウェアラブルデバイス（例えば、スマートウォッチ）、スマート家電、車両インフォテインメントシステム、モノのインターネット（ＩｏＴ）デバイス、車両インフォテインメントシステム、スマートディスプレイ、スマートスピーカなどを備えているが、これらに限定されない。ユーザデバイス１０は、データ処理ハードウェア１２と、データ処理ハードウェア１２に通信するメモリハードウェア１４と、を備えている。メモリハードウェア１４は、データ処理ハードウェア１２上で実行されると、データ処理ハードウェア１２に１つまたは複数の動作（オペレーション、操作）を実行させる命令を格納する。ユーザデバイス１０は、音声環境１００内で音声発話１０６を取り込み、電気信号に変換するための音声キャプチャデバイス（例えば、マイク）１６、１６ａと、（例えば、デバイス１０から出力された音声データとして）可聴音声信号を通信するための音声出力デバイス（例えば、スピーカ）１６、１６ｂと、を備えた音声システム１６をさらに備えている。ユーザデバイス１０は、示されている例では単一の音声キャプチャデバイス１６ａを実装しているが、ユーザデバイス１０は、本開示の範囲から逸脱することなく音声キャプチャデバイス１６ａのアレイを実装し得、それによってアレイ内の１つまたは複数のキャプチャデバイス１６ａは、ユーザデバイス１０に物理的に常駐するのではなく、音声システム１６に通信し得る。

【0030】

音声環境１００では、再帰型ニューラルネットワーク－変換器（ＲＮＮ－Ｔ）モデル２００と非流暢性検出モデル２０５とを実装する自動音声認識（自動音声認識ＡＳＲ）システム１１８は、ユーザ１０４のユーザデバイス１０上に、および／またはネットワーク４０を介してユーザデバイス１０に通信するリモートコンピューティングデバイス６０（例えば、クラウドコンピューティング環境で実行する分散システムの１つまたは複数のリモートサーバ）上に、常駐する。ユーザデバイス１０および／またはリモートコンピューティングデバイス６０はまた、ユーザ１０４によって話されることで音声キャプチャデバイス１６ａによって取り込まれた発話１０６を受信することによって、発話１０６を、自動音声認識ＡＳＲシステム１１８が処理できる入力音響フレーム１１０に関連付けられた対応するデジタルフォーマットに変換するように構成された音声サブシステム１０８を備えている。示されている例では、ユーザは各々の発話１０６を話しており、音声サブシステム１０８は、自動音声認識ＡＳＲシステム１１８への入力のために発話１０６を対応する音声データ（例えば、音響フレーム）１１０に変換する。その後、ＲＮＮ－Ｔモデル２００は、入力として、発話１０６に対応する音響フレーム１１０を受信することで、出力として、発話１０６の対応する書き起こし（トランスクリプション、転写）１２０を生成／予測する。示されている例では、ＲＮＮ－Ｔモデル２００は、ストリーミング音声認識を実行することで、ユーザが話すにつれて部分的な書き起こし（例えば、ストリーミング認識結果）１２０ａ、１２０ｂを生成し得る。

【0031】

ユーザデバイス１０および／またはリモートコンピューティングデバイス６０はまた、発話１０６の書き起こし１２０、１２０ａ～１２０ｎの表現をユーザデバイス１０のユーザ１０４に提示するとともに、発話１０６のクエリおよび／またはコマンドに対する１つまたは複数の応答１２１、１２１ａ～１２１ｎを提示するように構成されたユーザインタフェース（ユーザーインターフェース）ジェネレータ１０７を実行する。以下にさらに詳細に説明されるように、ユーザインタフェースジェネレータ１０７は、音声認識結果１２０、１２０ａ～ｎおよび応答１２１、１２１ａ～ｎを異なる時間中にまたは異なるときに表示し得る。示されるように、ユーザインタフェースジェネレータ１０７は、音声認識結果１２０、１２０ａ～ｎ（例えば、書き起こし）および応答１２１、１２１ａ～ｎを提示することで、ユーザ１０４とで対話型プログラムまたは対話型アプリケーション（例えば、デジタルアシスタントアプリケーション５０）との間のやりとり／会話を表現し得る。

【0032】

いくつかの構成では、自動音声認識ＡＳＲシステム１１８から出力された書き起こし１２０は、発話１０６によって指定されるユーザコマンド／クエリを実行するべく、例えば、ユーザデバイス１０またはリモートコンピューティングデバイス６０上で実行する自然言語処理／理解（ＮＬＰ／ＮＬＵ）モジュールによって処理される。デジタルアシスタントアプリケーション５０は、発話１０６によって指定されたユーザコマンド／クエリの実行に続いて、適切な応答１２１を提供し得る。さらにまたは代わりに、音声変換システム（図示せず）（例えば、ユーザデバイス１０またはリモートコンピューティングデバイス６０の任意の組合せで実行する）は、書き起こし１２０および／または応答１２１をユーザデバイス１０および／または別のデバイスによる可聴出力のための合成音声に変換し得る。

【0033】

示されている例では、ユーザ１０４は、自動音声認識ＡＳＲシステム１１８を使用するユーザデバイス１０のプログラムまたはアプリケーション（例えば、デジタルアシスタントアプリケーション５０）とで対話する。例えば、図１は、デジタルアシスタントアプリケーション５０に通信しているユーザ１０４の、およびユーザ１０４とデジタルアシスタントアプリケーション５０との間の、自然な会話のやりとりを示すために、ユーザデバイス１０の画面１９上に対話型デジタルアシスタントインタフェース１８を表示するデジタルアシスタントアプリケーション５０を示す。この例では、ユーザ１０４は、時間１中に発話１０６の第１部分１０６ａ（「どこでできますか」）を話しており、次に、発話の第２部分１０６ｂ中でに休止する（省略記号「…」で表される）。

【0034】

この例を続けると、ＲＮＮ－Ｔモデル２００は、ユーザ１０４が話すにつれて発話１０６に対応する音響フレーム１１０を受信しながら、音響フレーム１１０に対して音声認識を実行することで、発話１０６の第１部分１０６ａに対応する第１音声認識結果１２０ａ（つまり、「どこでできますか」（ウェアーキャンアイ））を生成する。示されている例では、非流暢性検出モデル２０５は、発話１０６の第２部分１０６ｂに対応する音響フレーム１１０が、発話を時期尚早に終了させるであろう話の終わりイベントではなく、ユーザの話の休止を示すことを検出する。時間２中、ユーザインタフェースジェネレータ１０７は、デジタルアシスタントインタフェース１８を介して、発話１０６の第１音声認識結果１２０ａの表現をユーザデバイス１０のユーザ１０４にストリーミング方式で提示しており、その結果、単語、単語片、および／または個々の文字、はそれらが話されるとすぐにユーザデバイス１０の画面１９に表示される。非流暢性検出モデル２０５が、第２部分１０６ｂ中の休止の存在を検出することに基づき、時間３で、デジタルアシスタント５０は、自動音声認識ＡＳＲシステム１１８およびデジタルアシスタント５０が、ユーザ１０４が話し続けることを待機していることをユーザ１０４に示すために確認応答１２１ａ（「Ｍｈｍ」）で応答する。

【0035】

この例を続けると、ユーザ１０４が休止後に発話１０６の第３部分（残りの部分）１０６ｃ（「タイ料理を注文する」）を話し始めると、ＲＮＮ－Ｔモデル２００は、発話１０６の残りの部分１０６ｃに対応するオーディオフレーム１１０に対して音声認識を実行することで、第２音声認識結果１２０ｂ（つまり、「タイ料理を注文する」）を生成する。ユーザ１０４が発話１０６の残りの部分１０６ｃを話し終えると、非流暢性検出モデル２０５は、話の終わりイベントを検出することで、発話１０６が完了したことを示す。時間４中、ユーザインタフェースジェネレータ１０７は、デジタルアシスタントインタフェース１８を介して、発話１０６の第２音声認識結果１２０ｂの表現をユーザデバイス１０のユーザ１０４にストリーミング方式で提示しており、その結果、単語、単語片、および／または個々の文字、はそれらが話されるとすぐにユーザデバイス１０の画面１９に表示される。特に、自動音声認識ＡＳＲシステム１１８は、マイク終了（クロージング、閉じ）イベントをトリガしており、（例えば、ＮＬＰ／ＮＬＵモジュールによって）書き起こし１２０を処理することで、非流暢性検出モデル２０５が話の終わりイベントを検出したことに応じて、発話１０６によって指定されたユーザコマンド／クエリ（例えば、タイレストランの検索を実行する）を実行する。時間５で、ユーザインタフェースジェネレータ１０７は、デジタルアシスタントインタフェース１８を介して、クエリに対する応答１２１ｂ（つまり、「これらのタイレストランが近くにあります…」）を提示する。

【0036】

図２Ａは、デジタルアシスタントとの人間の会話の音声、やりとり、および／または順序交代、に似た音声およびやりとりのパターンを示す音声発話中の非流暢性を検出するための第１ジョイントネットワーク（つまり、非流暢性検出ジョイントネットワーク）２１０として非流暢性検出モデル２０５を統合した例示的なＲＮＮ－Ｔモデル２００、２００ａの概略図である。自然会話音声の認識に伴う問題は、休止を認識する工程と、人がいつ話を終えたのかを判断する工程と、を備えているがこれらに限定されない。例示的な非流暢性は、休止、考えるための休止、無作為な休止、躊躇、言葉の長音化（例えば、「あの…」）、つなぎの休止または言葉（例えば、「うー」、「うーむ」）、繰り返されるフレーズ、および行動の変更、を備えているがこれらに限定されない。閾値期間中に音声活動が検出されないことによって特徴付けられるこれらの非流暢性は、従来の自動音声認識ＡＳＲシステムに、ユーザが発話を話すことを完了する前に発話を時期尚早に終了させる可能性がある。このように時期尚早に終了させることによって、デジタルアシスタントがユーザにクエリを反復することを促すために遮る場合、デジタルアシスタントが処理できないというようにクエリが誤って解釈されることで、それによってユーザの不満につながる場合がある。

【0037】

示されるように、ＲＮＮ－Ｔモデル２００ａは、エンコーダネットワーク２２０と、予測／デコーダネットワーク３００と、第２ジョイントネットワーク２４０（つまり、単語片ジョイントネットワーク２４０）と、最終ソフトマックス出力層２５０と、を備えている。従来の自動音声認識ＡＳＲシステムにおける音響モデル（ＡＭ）にほぼ類似しているエンコーダネットワーク２２０（例えば、音声エンコーダ）は、特徴ベクトルのシーケンス

【0038】

【数1】

【0039】

を受信しており、上式で

【0040】

【数2】

【0041】

（例えば、図１の音響フレーム１１０）であり、各時間ステップにおいて

【0042】

【数3】

【0043】

として示される高次特徴表現２２４（一般に音響表現とも呼ばれる）を生成する。
示されている例では、予測／デコーダネットワーク３００は、言語モデル（ＬＭ）とで同様に、ソフトマックス層２５０によってこれまでに出力された非空白記号のシーケンス

【0044】

【数4】

【0045】

を、現在の時間ステップが休止および話の終わりに対応するかどうかの確率分布を表す隠れ表現

【0046】

【数5】

【0047】

（一般に、稠密表現（デンスレプリゼンテーション）または言語表現とも呼ばれる）に処理するＬＳＴＭベースの予測ネットワークを備えており、上式で、

【0048】

【数6】

【0049】

は特殊なシーケンスの開始記号を表す。
図３は、入力として、最終ソフトマックス層２５０によって出力されたＮ個の以前の非空白記号２５２ａ～２５２ｎに限定された非空白記号のシーケンスｙ_ｕ－ｎ，…，ｙ_ｕ－１を受信するＲＮＮ－Ｔモデル２００用の予測ネットワーク３００を示す。いくつかの例では、Ｎは２に等しい。他の例では、Ｎは５に等しいが、本開示は非限定的であり、Ｎは任意の整数に等しくてよい。非空白記号のシーケンス２５２ａ～ｎは、部分的な音声認識結果１２０ａ、１２０ｂ（図１）を示し得る。いくつかの実装では、予測ネットワーク３００はマルチヘッド注意機構３０２を備えており、マルチヘッド注意機構３０２は、マルチヘッド注意機構の各ヘッド３０２Ａ～３０２Ｈ全体で共有埋込行列（共有された埋め込みマトリクス）３０４を共有している。一例では、マルチヘッド注意機構３０２は４つのヘッドを備えている。ただし、マルチヘッド注意機構３０２は、任意の数のヘッドを用い得る。特に、マルチヘッド注意機構３０２は、モデルサイズの拡大を最小限に抑えるとともに性能を大幅に向上させる。以下にさらに詳細に説明されるように、各ヘッド３０２Ａ～Ｈは、独自の位置ベクトル３０８の行を備えており、出力３１８Ａ～Ｈは、すべてのヘッドからの出力３１８Ａ～Ｈを連結することによってモデルサイズの拡大を招くことなく、代わりにヘッド平均モジュール３２２によって平均化される。

【0050】

マルチヘッド注意機構３０２の第１ヘッド３０２Ａを参照すると、ヘッド３０２Ａは、共有埋込行列３０４を使用することで、複数の時間ステップからの対応する時間ステップにおいて入力として受信された非空白記号のシーケンスｙ_ｕｉ－ｎ，…，ｙ_ｕｉ－１内の各非空白記号３０１に対して、対応する埋込３０６、３０６ａ～ｎ（例えば

【0051】

【数7】

【0052】

）を生成する。特に、共有埋込行列３０４は、マルチヘッド注意機構３０２のすべてのヘッドにわたって共有されるので、他のヘッド３０２Ｂ～Ｈはすべて、各非空白記号に対して同じ対応する埋込３０６を生成する。ヘッド３０２Ａはまた、非空白記号のシーケンスｙ_ｕ－ｎ，…，ｙ_ｕ－１内の対応する各非空白記号に各々の位置ベクトルＰＶ_{Ａａ～Ａｎ}３０８、３０８Ａａ～Ａｎ（例えば

【0053】

【数8】

【0054】

）を割り当てる。各非空白記号に割り当てられた各々の位置ベクトルＰＶ３０８は、非空白記号のシーケンスの履歴内の位置を示す（例えば、最終ソフトマックス層２５０によって出力されたＮ個の以前の非空白記号）。例えば、最初の位置ベクトルＰＶ_Ａａは、履歴内の最新の位置に割り当てられ、一方、最後の位置ベクトルＰＶ_Ａｎは、最終ソフトマックス層２５０によって出力されたＮ個の以前の非空白記号の履歴内の最後の位置に割り当てられる。特に、埋込３０６の各々は、位置ベクトルＰＶ３０８の各々とで同じ次元性（つまり、次元サイズ）を含み得る。

【0055】

非空白記号のシーケンス２５２ａ～２５２ｎ、ｙ_ｕ－ｎ，…，ｙ_ｕ－１の中の各非空白記号３０１の各々に対して、共有埋込行列３０４によって生成された対応する埋込は、マルチヘッド注意機構３０２のヘッド３０２Ａ～Ｈのすべてとで同じであるが、各ヘッド３０２Ａ～Ｈは、位置ベクトル３０８の異なるセット／行を定義する。例えば、第１ヘッド３０２Ａは、位置ベクトルＰＶ_{Ａａ～Ａｎ}３０８_{Ａａ～Ａｎ}の行の位置を定義しており、第２ヘッド３０２Ｂは、位置ベクトルＰＶ_{Ｂａ～Ｂｎ}３０８_{Ｂａ～Ｂｎ}，…，の異なる行を定義しており、Ｈ番目のヘッド３０２Ｈは、位置ベクトルＰＶ_{Ｈａ～Ｈｎ}３０８_{Ｈａ～Ｈｎ}の別の異なる行を定義する。

【0056】

受信された非空白記号のシーケンス２５２ａ～ｎ内の非空白信号ごとに、第１ヘッド３０２Ａはまた、重み層３１０を介して、対応する埋込と、それに割り当てられた各々の位置ベクトルＰＶ３０８と、の間の類似性に比例して、対応する埋込３０６に重み付けする。いくつかの例では、類似性はコサイン類似性（例えば、コサイン距離）を含み得る。示されている例では、重み層３１０は、各々が、それに割り当てられた各々の位置ベクトルＰＶ３０８に比例して重み付けされた対応する埋込３０６に関連付けられた重み付けされた埋込のシーケンス３１２、３１２Ａａ～Ａｎを出力する。別の言い方をすれば、各埋込３０６に対して重み層３１０によって出力された重み付けされた埋込３１２は、埋込３０６と各々の位置ベクトルＰＶ３０８との間のドット積に対応し得る。重み付けされた埋込３１２は、埋込が、その各々の位置ベクトルＰＶ３０８に関連付けられた位置とでどの程度類似しているのかに比例して埋込に注意を向けていると解釈され得る。計算速度を加速するべく、予測ネットワーク３００は、非再帰層を備えているので、重み付けされた埋込のシーケンス３１２Ａａ～Ａｎは連結されるのではなく、代わりに加重平均モジュール３１６によって平均化されて、第１ヘッド３０２Ａの出力として、以下によって表される重み付けされた埋込３１２Ａａ～Ａｎの加重平均３１８Ａを生成する。

【0057】

【数9】

【0058】

方程式（１）では、ｈはヘッド３０２のインデックスを表しており、ｎはコンテキスト内の位置を表しており、ｅは埋込次元を表す。さらに、方程式（１）では、Ｈ、Ｎ、およびｄ_ｅ、は対応する次元のサイズを備えている。位置ベクトルＰＶ３０８は、訓練可能にされている必要はなく、乱数値を含み得る。特に、重み付けられた埋込３１２が平均化されても、位置ベクトルＰＶ３０８は、潜在的に位置履歴情報を保存することができるので、予測ネットワーク３００の各層で再帰接続を提供する必要性を軽減する。

【0059】

第１ヘッド３０２Ａに関して上述された動作は、マルチヘッド注意機構３０２の他の各ヘッド３０２Ｂ～Ｈによって同様に実行される。各ヘッド３０２によって定義された位置ベクトルＰＶ３０８の異なるセットによって、重み層３１０は、第１ヘッド３０２Ａにおける重み付けされた埋込のシーケンス３１２Ａａ～Ａａとは異なる他の各ヘッド３０２Ｂ～Ｈで、重み付けされた埋込のシーケンス３１２Ｂａ～Ｂｎ、３１２Ｈａ～Ｈｎを出力する。その後、加重平均モジュール３１６は、他の対応する各ヘッド３０２Ｂ～Ｈからの出力として、非空白記号のシーケンスの対応する重み付けされた埋込３１２の各々の加重平均３１８Ｂ～３１８Ｈを生成する。

【0060】

示されている例では、予測ネットワーク３００は、対応するヘッド３０２Ａ～Ｈから出力された加重平均３１８Ａ～Ｈを平均化するヘッド平均モジュール３２２を備えている。ＳＷＩＳＨ（スウィッシュ）を備えている投影層３２６は、入力として、加重平均３１８Ａ～Ｈの平均に対応するヘッド平均モジュール３２２からの出力３２４を受信することで、出力として、投影された出力３２８を生成し得る。最終層正規化３３０は、投影された出力３２８を正規化することで、複数の時間ステップからの対応する時間ステップにおいて単一の埋込ベクトル

【0061】

【数10】

【0062】

（つまり、隠れ表現）を提供し得る。予測ネットワーク３００は、最初の時間ステップに続く複数の時間ステップの各々において、単一の埋込ベクトル

【0063】

【数11】

【0064】

のみを生成する。
いくつかの構成では、予測ネットワーク３００は、マルチヘッド注意機構３０２を実装せず、第１ヘッド３０２Ａに関して上述された動作を実行するだけである。これらの構成では、重み付けされた埋込３１２Ａａ～Ａｎの加重平均３１８Ａは、単に投影層３２６および層正規化３３０を通過することで、単一の埋込ベクトル

【0065】

【数12】

【0066】

を提供する。
図２Ａに戻ると、単語片ジョイントネットワーク２４０は、予測ネットワーク３００から単一の埋込ベクトル

【0067】

【数13】

【0068】

を受信するとともに、エンコーダ２２０から高次特徴表現

【0069】

【数14】

【0070】

を受信する。単語片ジョイントネットワーク２４０は、対応する時間ステップにおいて可能性を有している音声認識仮説について確率分布

【0071】

【数15】

【0072】

を生成する。例えば、自然言語が英語であるとき、出力ラベルのセットは、例えば、英語のアルファベットの２６文字の各々に対する１つのラベル、およびスペースを指定する１つのラベル、など二十七（２７）の記号を含み得る。したがって、単語片ジョイントネットワーク２４０は、所定の出力ラベルのセットの各々の発生の可能性を示す値のセットを出力し得る。この値のセットはベクトルである可能性があり、出力ラベルのセットについて確率分布を示すことができる。いくつかの場合、出力ラベルは書記素（例えば、個々の文字、および潜在的に句読点および他の記号）であるが、出力ラベルのセットは、そのように限定されていない。例えば、出力ラベルのセットは、書記素に加えてまたは書記素の代わりに、単語片および／または単語全体を備えている可能性がある。単語片ジョイントネットワーク２４０は、異なる出力ラベルの各々の事後確率値を備えている可能性がある。したがって、異なる書記素または他の記号を表す１００個の互いに異なる出力ラベルがあるとき、単語片ジョイントネットワーク２４０の出力

【0073】

【数16】

【0074】

は、出力ラベルごとに１つずつ、１００個の互いに異なる確率値を備えていることができる。可能性を有している音声認識仮説についての確率分布

【0075】

【数17】

【0076】

は、音声認識結果１２０（図１）の確率を示す。すなわち、ジョイントネットワーク２３０は、非空白記号のシーケンス２５２に基づく単一の埋込ベクトル３５０を使用することで、音声認識結果１２０の確率分布を決定する。別の言い方をすれば、単語片ジョイントネットワーク２４０は、各出力ステップ（例えば、時間ステップ）において、可能性を有している音声認識仮説についての確率分布２４２を生成する。確率分布

【0077】

【数18】

【0078】

は、次に、書き起こし１２０を決定するためのビーム検索処理（例えば、ソフトマックス層２４０による）で候補綴り要素（例えば、書記素、単語片、および／または単語）にスコアを選択および割り当てるべく使用できる。

【0079】

ソフトマックス層２５０は、対応する出力ステップにおいてＲＮＮ－Ｔモデル２００によって予測された次の出力記号

【0080】

【数19】

【0081】

として、分布

【0082】

【数20】

【0083】

内の最高の確率を有している出力ラベル／記号を選択するべく任意の技術を用い得る。このようにして、ＲＮＮ－Ｔモデル２００は、条件付き独立仮定を行なわない。代わりに、ＲＮＮ－Ｔモデル２００は、音響だけではなく、これまでに出力されたラベルのシーケンスに関しても条件付けされた各記号を予測する。ＲＮＮ－Ｔモデル２００は、出力記号が将来の音響フレーム１１０とは関係がないと想定しており、これによってＲＮＮ－Ｔモデル２００をストリーミング方式で用いることが可能になる。いくつかの例では、ソフトマックス層２５０は、複数のトレーニングデータセット内のすべての一意の単語片または書記素を使用することで生成される統一された単語片または書記素のセットから成る。

【0084】

第１ジョイントネットワーク（つまり、非流暢性検出ジョイントネットワーク）２１０は、エンコーダネットワーク２２０によって出力された高次特徴表現

【0085】

【数21】

【0086】

と、予測ネットワーク３００によって出力された単一の埋込ベクトル

【0087】

【数22】

【0088】

と、に基づき対応する時間ステップが非流暢性（例えば、休止）または話の終わりイベントに対応する確率分布を生成する。別の言い方をすれば、第１ジョイントネットワークは、休止の＜ｐａｕｓｅ＞（ポーズ）と、話の終わりイベントの＜ｅｏｓ＞（エンドオブスピーチ）と、を備えている所定の出力ラベルのセットの各々の発生の可能性を示す値のセットを出力できる。この値のセットは、ベクトルである場合があり、出力ラベルのセットについて確率分布を示すことができる。休止の条件付き確率および話の終わりイベントの条件付き可能性を提供する確率分布は、以下の数式を使用することで決定できる。

【0089】

【数23】

【0090】

上式で、

【0091】

【数24】

【0092】

は、最高の確率

【0093】

【数25】

【0094】

を有している出力された単語片仮説である。非流暢性検出ジョイントネットワーク２１０は、対応する確率が所定の閾値を満たす（例えば、超える）とき、トークン２１２（例えば、＜ｐａｕｓｅ＞トークンおよび＜ｅｏｓ＞トークン）を発行する。例えば

【0095】

【数26】

【0096】

が話の終わり閾値を満たす（例えば、超える）と、＜ｅｏｓ＞トークン２１２が発行されており、

【0097】

【数27】

【0098】

が休止閾値を満たす（例えば、超える）と、＜ｐａｕｓｅ＞トークン２１２が発行される。話の終わり閾値および休止閾値は、同じ値を有している必要はない。いくつかの例では、話の終わりイベントが検出される（例えば、対応する時間ステップが話の終わりに対応する確率が、話の終わり閾値を満たす）と、例えば、マイク終了イベントのトリガを引き起こす話の終わりトークン２１２を発行することによって、ユーザデバイス１０によるマイク終了イベントがトリガされる。

【0099】

図１および図２Ａを参照すると、ＲＮＮ－Ｔ２００ａが従来のＲＮＮ－Ｔとで同じ音声認識品質を有していることを保証するべく、トレーニングシステム１３０（図１）は、２段階のトレーニング処理を使用することでＲＮＮ－Ｔ２００を訓練する。第１段階中、トレーニングシステム１３０は、音声認識タスクに関してエンコーダネットワーク２２０、予測ネットワーク３００、および単語片ジョイントネットワーク２４０、を訓練することで音声認識を実行する。第２段階中、トレーニングシステム１３０は、非流暢性検出ジョイントネットワーク２１０を初期化および微調整（例えば、トレーニング）することで休止および話の終わりイベントの存在を検出する方法を学習しながら、エンコーダネットワーク２２０、予測ネットワーク３００、および単語片ジョイントネットワーク２４０、のパラメータを固定および保持する。すなわち、トレーニングシステム１３０は、発話中の休止位置および話の終わり位置を予測する方法を学習するように、非流暢性検出ジョイントネットワーク２１０を訓練する。トレーニングシステム１３０は、例えば、トレーニングデータジェネレータ１４０（図１）によって注釈が付けられた複数の書き起こされたトレーニング発話を使用することで、休止位置および話の終わり位置を示すラベル（例えば、＜ｐａｕｓｅ＞および＜ｅｏｓ＞）を備えているように非流暢性検出ジョイントネットワーク２１０を訓練する。例えば、トレーニングデータジェネレータ１４０は、一時休止の場合には＜ｐａｕｓｅ＞トークンを挿入しており、発話の終わりには＜ｅｏｓ＞トークンを挿入することができる。

【0100】

単一の音声クエリを備えている短文式の発話の場合、トレーニングデータジェネレータ１４０は、＜ｅｏｓ＞トークンを各発話の終わりに付加しており、例えば強制位置合わせを使用することで決定された無音セグメントに対して＜ｐａｕｓｅ＞トークンを挿入する。短文式の発話は話の終わりイベントおよび通常の短い休止をモデル化するべく使用できるが、それらは可能性を有している非流暢性の更に幅広い範囲をカバーしない場合がある。さらに、単一の＜ｅｏｓ＞トークンのみが各発話終わりに付加されるので、非流暢性検出ジョイントネットワーク２１０は、発話中の最初の話の終わりイベントを決定した後に追加の＜ｅｏｓ＞トークンを発行するのを停止することを学習する場合があり、これによって、更に長い発話または複数の非流暢性を有している発話の非流暢性検出の問題が引き起こされる場合がある。

【0101】

図２Ａに戻ると、エンコーダネットワーク２２０に入力された特徴ベクトル

【0102】

【数28】

【0103】

は、３つの２５ミリ秒（ｍｓ）の音響フレームを、１０ｍｓシフトすることで積み重ねるとともに、３０ｍｓフレームレートまでダウンサンプリングすることによって形成された８０次元のｌｏｇ－Ｍｅｌフィルタバンク特徴を含み得る。いくつかの例では、エンコーダネットワーク２２０は、１２個の５１２次元コンフォーマ層を備えている。コンフォーマ層は、カーネルサイズが１５の因果畳み込み、および８ヘッドの自己注意を有している左コンテキスト注意層のスタックを備えている。説明されるエンコーダネットワーク２２０は、コンフォーマ層／ブロック（例えば、１２のコンフォーマブロック）を備えている自己注意を有しているマルチヘッド注意層／ブロックのスタックを有しているが、本開示はこのように限定されない。例えば、エンコーダネットワーク２２０は、トランスフォーマ層のスタックおよび／または任意の他のタイプのマルチヘッド注意層／ブロックのスタックを含み得る。エンコーダネットワーク２２０は、一連のマルチヘッド自己注意層、深さ方向畳み込み層、およびフィードフォワード層、を含み得る。代わりに、エンコーダネットワーク２２０は、マルチヘッド注意層／ブロックの代わりに、複数の長文式メモリ（ＬＳＴＭ）層を含み得る。

【0104】

予測ネットワーク３００は、３２０の埋込次元を有しているＬＴＳＭベースのネットワークを含み得る。融合された表現

【0105】

【数29】

【0106】

の次元

【0107】

【数30】

【0108】

は、６４０に設定され得る。いくつかの例では、単語片ジョイントネットワーク２４０は隠れ単位を備えている。さらにまたは代わりに、単語片ジョイントネットワーク２４０は、完全接続（ＦＣ）層を含まない。代わりに、予測ネットワーク３００は、トランスフォーマブロックまたはコンフォーマブロック（または他のタイプのマルチヘッド注意ブロック）のスタックを含み得る。予測ネットワーク３００はまた、隠れ表現を生成する代わりにルックアップされたスパース埋込を出力することによって遅延を改善するべく、埋込ルックアップテーブル（例えば、Ｖ２埋込ルックアップテーブル）であってよい。いくつかの実装では、予測ネットワーク３００はステートレス（状態無し）予測ネットワークである。

【0109】

単語片ジョイントネットワーク２４０および予測ネットワーク３００は、ＲＮＮ－Ｔモデル２００のＲＮＮ－Ｔデコーダを集合的に形成し得る。いくつかの実装では、ＲＮＮ－Ｔデコーダ、つまり予測ネットワーク３００および単語片ジョイントネットワーク２４０のサイズをさらに縮小するべく、予測ネットワーク３００と単語片ジョイントネットワーク２４０との間のパラメータ結合が適用される。具体的には、語彙サイズ｜Ｖ｜および埋込次元ｄ_ｅの場合、予測ネットワークにおける共有埋込行列３０４は、

【0110】

【数31】

【0111】

である。一方、最後の隠れ層は、ジョイントネットワーク２４０において次元サイズｄ_ｈを含んでおり、隠れ層から出力ロジットへのフィードフォワード投影重みは

【0112】

【数32】

【0113】

となり、語彙に余分な空白トークンが含まれる。したがって、単語片ジョイントネットワーク２４０の最後の層に対応するフィードフォワード層は、重み行列［ｄ_ｈ，｜Ｖ｜］を備えている。予測ネットワーク３００に、埋込次元ｄ_ｅのサイズを単語片ジョイントネットワーク２４０の最後の隠れ層の次元性ｄ_ｈに結合させることによって、単語片ジョイントネットワーク２４０のフィードフォワード投影重みおよび予測ネットワーク３００の共有埋込行列３０４は、単純な転置変換を介してすべての非空白記号の重みを共有できる。２つの行列はそのすべての値を共有しているので、ＲＮＮ－Ｔデコーダは、２つの個別の行列を格納する代わりに、メモリに一度に値を格納すれば十分である。埋込次元ｄ_ｅのサイズを隠れ層次元ｄ_ｈのサイズに等しく設定することによって、ＲＮＮ－Ｔデコーダは、埋込次元ｄ_ｅと語彙サイズ｜Ｖ｜との積に等しいパラメータの数を減少させる。この重み結合は、正規化技術に相当する。

【0114】

図２Ｂは、対応する各時間ステップにおいて（つまり、各音響フレーム２２２ｘ（ｔ）ごとに、対応する時間ステップが非流暢性（例えば、休止）および話の終わりイベントに対応する確率分布を計算するべく、音響ベースの順序交代デコーダ４１０として非流暢性検出モデル２０５を統合する例示的なＲＮＮ－Ｔモデル２００、２００ｂの概略図である。示されるように、ＲＮＮ－Ｔモデル２００ｂは、図２ＡのＲＮＮ－Ｔモデル２００ａのエンコーダネットワーク２２０と、予測／デコーダネットワーク３００と、単語片ジョイントネットワーク２４０と、最終ソフトマックス出力層２５０と、を備えているが、非流暢性検出ジョイントネットワーク２１０を、音響ベースの順序交代検出ネットワーク２０５で置き換える。エンコーダネットワーク２２０と、予測／デコーダネットワーク３００と、単語片ジョイントネットワーク２４０と、最終ソフトマックス出力層２５０と、の詳細は図２Ａおよび図３に関して上述される。

【0115】

音響ベースの順序交代検出ネットワーク４１０は、時間ステップｔにおける入力された各特徴ベクトル

【0116】

【数33】

【0117】

について、入力された特徴ベクトル

【0118】

【数34】

【0119】

に対してエンコーダネットワーク２２０によって生成された高次特徴表現

【0120】

【数35】

【0121】

に基づき、対応する時間ステップが休止および話の終わりイベントに対応する確率分布を生成する。別の言い方をすれば、音響ベースの順序交代検出ネットワーク４１０は、休止の＜ｐａｕｓｅ＞と、話の終わりイベントの＜ｅｏｓ＞と、を備えている所定の出力ラベルのセットの各々の発生の可能性を示す値のセットを出力できる。この値のセットは、ベクトルである場合があり、出力ラベルのセットについて確率分布を示すことができる。休止の条件付き確率および話の終わりイベントの条件付き可能性を提供する確率分布は、以下の数式を使用することで決定できる。

【0122】

【数36】

【0123】

順序交代検出ネットワーク４１０は、対応する確率が所定の閾値を満たす（例えば、超える）とき、トークン４１２（例えば、＜ｐａｕｓｅ＞トークンおよび＜ｅｏｓ＞トークン）を発行する。例えば

【0124】

【数37】

【0125】

が話の終わり閾値を満たす（例えば、超える）と、＜ｅｏｓ＞トークン４１２が発行されており、

【0126】

【数38】

【0127】

が休止閾値を満たす（例えば、超える）と、＜ｐａｕｓｅ＞トークン４１２が発行される。話の終わり閾値および休止閾値は、同じ値を有している必要はない。いくつかの例では、話の終わりイベントが検出される（例えば、対応する時間ステップが、話の終わりに対応する確率が話の終わり閾値を満たす）と、例えば、マイク終了イベントのトリガを引き起こす話の終わりトークン４１２を発行することによって、ユーザデバイス１０によるマイク終了イベントがトリガされる。

【0128】

ＲＮＮ－Ｔ２００ａは、エンコーダネットワーク２２０を共有していることによって、ＲＮＮ－Ｔデコーダによる、つまり予測ネットワーク３００および単語片ジョイントネットワーク２４０による音声認識を、音響ベースの順序交代検出ネットワーク４１０による順序交代検出とで同期させるので、これは、自然会話の入力の正しいやりとりを保証するのに役立つ。さらに、順序交代検出ネットワーク４１０はエンコーダネットワーク２２０を再利用するので、もう１つの別個のエンコーダを構成するか、または備えていることは必要ではなく、これによって、計算の複雑さは軽減される。遅延したまたは遅い非流暢検出は、クエリおよびコマンドに対する遅い応答をもたらす場合があるので、いくつかの例は、順序交代検出ネットワーク４１０に発行正規化方法（例えば、ＦａｓｔＥｍｉｔ）を適用することで、非流暢性検出の遅延を減少させる。ＲＮＮ－Ｔ２００ｂが、従来のＲＮＮ－Ｔとで同じ音声認識品質を有していることを保証するべく、トレーニングシステム１３０（図１）は、図２ＡのＲＮＮ－Ｔ２００ａに関して上述されたのとで同様の方法によって２段階でＲＮＮ－Ｔ２００ｂを訓練する。

【0129】

図２Ｃは、対応する各時間ステップにおいて、対応する時間ステップが非流暢性（例えば、休止）および話の終わりイベントに対応する確率分布を計算するべく、意味論（セマンティック）ベースの順序交代検出ネットワーク４２０として非流暢性検出モデル２０５を統合する例示的なＲＮＮ－Ｔモデル２００、２００ｃの概略図である。示されるように、ＲＮＮ－Ｔモデル２００ｂは、図２ＡのＲＮＮ－Ｔモデル２００ａのエンコーダネットワーク２２０と、予測／デコーダネットワーク３００と、単語片ジョイントネットワーク２４０と、最終ソフトマックス出力層２５０と、を備えているが、非流暢性検出ジョイントネットワーク２１０を、音響ベースの順序交代検出ネットワーク２０５で置き換える。エンコーダネットワーク２２０と、予測／デコーダネットワーク３００と、単語片ジョイントネットワーク２４０と、最終ソフトマックス出力層２５０と、の詳細は図２Ａおよび図３に関して上述される。

【0130】

意味論ベースの順序交代検出ネットワーク４２０は、各時間ステップについて、ソフトマックス層２５０によって出力された出力記号の過去のシーケンス

【0131】

【数39】

【0132】

に基づき、対応する時間ステップが非流暢性（例えば、休止）および話の終わりイベントに対応する確率分布を生成する。別の言い方をすれば、意味論ベースの順序交代検出ネットワーク４２０は、休止の＜ｐａｕｓｅ＞と、話の終わりイベントの＜ｅｏｓ＞と、を備えている所定の出力ラベルのセットの各々の発生の可能性を示す値のセットを出力できる。この値のセットは、ベクトルである場合があり、出力ラベルのセットについて確率分布を示すことができる。休止の条件付き確率および話の終わりイベントの条件付き可能性を提供する確率分布は、以下の数式を使用することで決定できる。

【0133】

【数40】

【0134】

いくつかの例では、意味論ベースの順序交代検出ネットワーク４２０は、次の出力記号（例えば、部分語単位）が＜ｐａｕｓｅ＞および＜ｅｏｓ＞に対応する確率を決定する言語モデル（ＬＭ）を備えている。意味論ベースの順序交代検出ネットワーク４２０は、対応する確率が所定の閾値を満たす（例えば、超える）とき、トークン４２２（例えば、＜ｐａｕｓｅ＞トークンおよび＜ｅｏｓ＞トークン）を発行する。例えば、

【0135】

【数41】

【0136】

が話の終わり閾値を満たす（例えば、超える）と、＜ｅｏｓ＞トークン４２２が発行されており、

【0137】

【数42】

【0138】

が休止閾値を満たす（例えば、超える）と、＜ｐａｕｓｅ＞トークン４２２が発行される。話の終わり閾値および休止閾値は、同じ値を有している必要はない。いくつかの例では、話の終わりイベントが検出される（例えば、対応する時間ステップが、話の終わりに対応する確率が話の終わり閾値を満たす）と、例えば、マイク終了イベントのトリガを引き起こす話の終わりトークン４２２を発行することによって、ユーザデバイス１０によるマイク終了イベントがトリガされる。ＲＮＮ－Ｔ２００ｃが、従来のＲＮＮ－Ｔとで同じ音声認識品質を有していることを保証するべく、トレーニングシステム１３０（図１）は、図２ＡのＲＮＮ－Ｔ２００ａに関して上述されたのとで同様の方法によって２段階でＲＮＮ－Ｔ２００ｃを訓練する。

【0139】

図４Ａは、例示的な書き起こされた長文式のトレーニング発話４００を示す。図４Ｂは、図４Ａの書き起こされた長文式のトレーニング発話５００についてトレーニングデータジェネレータ１４０によって生成された例示的な注釈付きの書き起こされたトレーニング発話４５０を示す。長文式の発話（例えば、数十秒の長さおよび／またはより自然な会話の音声入力およびやりとりを備えている複数の音声セグメントを備えている）の場合、トレーニングデータジェネレータ１４０は、例えば強制位置合わせを使用することで無音セグメント４０２、４０２ａ～ｎを決定しており、無音の持続時間に基づき文の境界を決定する。例えば、トレーニングデータジェネレータ１４０は、短い無音休止（例えば、無音休止４０２ａおよび４０２ｂ）に各々の＜ｐａｕｓｅ＞トークン（例えば、トークン４５２ａおよび４５２ｂ）でラベルを付け、少なくとも最初に長い無音休止（例えば、無音休止４０２ｃおよび４０２ｄ）に各々の＜ｅｏｓ＞トークンでラベルを付ける一方で、最後の無音休止（例えば、無音休止４０２ｅ）に＜ｅｏｓ＞トークン（例えば、トークン４５２ｅ）でラベルを付ける。いくつかの例では、無音休止は、無音休止の持続時間を所定の閾値とで比較することによって、短いのか、それとも長いのか、が判定される。例えば、トレーニングデータジェネレータ１４０は、所定の閾値に満たない無音休止を「短い」と分類しており、所定の閾値よりも長い無音休止持続時間を「長い」と分類する。しかしながら、このように長い無音休止にラベルを付けることによって、トレーニングデータジェネレータ１４０は、いくつかの長い無音休止（例えば、無音休止４０２ｃおよび４０２ｄ）を＜ｅｏｓ＞トークンで誤ってラベルを付ける場合がある。したがって、トレーニングデータジェネレータ１４０は、躊躇語４１２（つなぎ、繰り返されるフレーズ、など）に続く任意の長さの無音休止（例えば、無音休止４０２ｃ）を＜ｐａｕｓｅ＞トークン（例えば、トークン４５２ｃ）で再度ラベルを付ける。さらに、トレーニングデータジェネレータ１４０は、単語長音化４１４に続く任意の長さの無音休止（例えば、無音休止４０２ｄ）に＜ｐａｕｓｅ＞トークン（例えば、トークン４５２ｄ）で再度ラベルを付ける。いくつかの例では、トレーニングデータジェネレータ１４０は、単語または単語片の最後の音素が、基準を満たす（例えば、音素について事前に計算された１０の標準偏差を超える）持続時間を有している場合、単語長音化を決定する。

【0140】

図５は、非流暢性を検出しており、音声認識を実行するためのコンピュータ実装方法５００のための動作（オペレーション、操作）の例示的な構成のフローチャートである。動作５０２で、方法５００は、１つまたは複数の発話（例えば、発話１０６）を特徴付ける音響フレーム（例えば、特徴ベクトル

【0141】

【数43】

【0142】

）のシーケンスを受信する工程を備えている。
複数の時間ステップの各々において、方法５００は、動作５０４、５０６、５０８、および５１０を実行する。動作５０４で、方法５００は、音声認識モデル（例えば、ＲＮＮ－Ｔ２００）のエンコーダネットワーク２２０によって、音響フレームのシーケンス内の対応する音響フレームの高次特徴表現

【0143】

【数44】

【0144】

を生成する工程を備えている。
動作５０６で、方法５００は、音声認識モデルの予測ネットワーク３００によって、音声認識モデルの最終ソフトマックス層２５０によって出力された対応する非空白記号

【0145】

【数45】

【0146】

のシーケンスのために隠れ表現（例えば、単一の埋込ベクトル

【0147】

【数46】

【0148】

）を生成する工程を備えている。
動作５０８で、方法５００は、エンコーダネットワークによって生成された高次特徴表現と、予測ネットワークによって生成された稠密表現（デンスレプリゼンテーション）と、を受信する音声認識モデルの第１ジョイントネットワーク（例えば、非流暢性検出ジョイントネットワーク）２１０によって、対応する時間ステップが休止および話の終わりに対応する確率分布を生成する工程を備えている。

【0149】

動作５１０で、方法５００は、音声認識モデルの第２ジョイントネットワーク（例えば、単語片ジョイントネットワーク）２４０によって、可能性を有している音声認識仮説について確率分布

【0150】

【数47】

【0151】

を生成する工程を備えている。
図６は、本文書に説明されるシステムおよび方法を実装するべく使用できる例示的なコンピューティングデバイス６００の概略図である。コンピューティングデバイス６００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、およびその他の適切なコンピュータデバイス、など様々な形式のデジタルコンピュータを表すことを目的としている。ここに示されている構成要素、その接続および関係性、ならびにその機能は、例示的となることのみを目的としており、本文書に説明および／請求される本発明の実装を制限することを目的としていない。

【0152】

コンピューティングデバイス６００は、データ処理ハードウェア１２および／または６２を実装するべく使用できるプロセッサ６１０（つまり、データ処理ハードウェア）と、メモリハードウェア１４および／または６４を実装するべく使用できるメモリ６２０（つまり、メモリハードウェア）と、メモリハードウェア１４および／または６４を実装するべく使用できるストレージデバイス６３０（つまり、メモリハードウェア）と、メモリ６２０および高速拡張ポート６５０に接続する高速インタフェース／コントローラ６４０と、低速バス６６０およびストレージデバイス６３０に接続する低速インタフェース／コントローラ６７０と、を備えている。構成要素６１０、６２０、６３０、６４０、６５０、および６６０の各々は、様々なバスを使用することで相互接続されており、共通のマザーボード上に取り付けられる場合もあれば、必要に応じて他の方法で取り付けられる場合もある。プロセッサ６１０は、高速インタフェース６４０に結合されたディスプレイ６８０などの外部入力／出力デバイス上にグラフィカルユーザインタフェース（ＧＵＩ）用のグラフィック情報を表示するべく、メモリ６２０内にまたはストレージデバイス６３０上に格納された命令を備えている、コンピューティングデバイス６００内で実行するための命令を処理できる。他の実装では、複数のプロセッサおよび／または複数のバスは、複数のメモリおよびメモリのタイプとともに、必要に応じて使用され得る。また、複数のコンピューティングデバイス６００が接続されてよく、各デバイスは、必要な動作の部分を提供する（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）。

【0153】

メモリ６２０は、コンピューティングデバイス６００内に情報を非一時的に格納する。メモリ６２０は、コンピュータ可読媒体、揮発性メモリユニット（複数可）、または不揮発性メモリユニット（複数可）である場合がある。非一時的メモリ６２０は、コンピューティングデバイス６００が使用するべく一時的または永続的にプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を格納するべく使用される物理デバイスであってよい。不揮発性メモリの例は、フラッシュメモリおよび読み取り専用メモリ（ＲＯＭ）／プログラム可能な読み取り専用メモリ（ＰＲＯＭ）／消去可能なプログラム可能な読み取り専用メモリ（ＥＰＲＯＭ）／電子的に消去可能なプログラム可能な読み取り専用メモリ（ＥＥＰＲＯＭ）（例えば、通常はブートプログラムなどのファームウェアに使用される）を備えているが、これらに限定されない。揮発性メモリの例は、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープを備えているが、これらに限定されない。

【0154】

ストレージデバイス６３０は、コンピューティングデバイス６００に大容量ストレージを提供することができる。いくつかの実装では、ストレージデバイス６３０はコンピュータ可読媒体である。様々な異なる実装では、ストレージデバイス６３０は、フロッピー（登録商標）ディスクデバイス、ハードディスクデバイス、光ディスクデバイス、テープデバイス、フラッシュメモリもしくは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークもしくは他の構成内のデバイスを備えているデバイスのアレイである場合がある。追加の実装では、コンピュータプログラム製品は情報キャリア内に有形に具体化される。コンピュータプログラム製品は、実行されると、上述の１つまたは複数の方法を実行する命令を備えている。情報キャリアは、メモリ６２０、ストレージデバイス６３０、またはプロセッサ６１０上のメモリなどのコンピュータ可読媒体またはマシン可読媒体である。

【0155】

高速コントローラ６４０は、コンピューティングデバイス６００の帯域幅を集中使用する動作を管理しており、一方、低速コントローラ６７０は、帯域幅を集中使用する動作を一層少なく管理する。このような業務の割り当ては例示的にすぎない。いくつかの実装では、高速コントローラ６４０は、メモリ６２０、（例えば、グラフィックプロセッサまたはアクセレレータを介して）ディスプレイ６８０に、および様々な拡張カード（図示せず）を受け入れ得る高速拡張ポート６５０に結合される。いくつかの実装では、低速コントローラ６７０は、ストレージデバイス６３０および低速拡張ポート６９０に結合される。様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標））を含み得る低速拡張ポート６９０は、キーボード、ポインティングデバイス、スキャナなどの１つまたは複数の入力／出力デバイス、またはスイッチもしくはルータなどのネットワーキングデバイスに、例えばネットワークアダプタを介して結合し得る。

【0156】

コンピューティングデバイス６００は、図に示されるように、いくつかの異なる形式で実装し得る。例えば、コンピューティングデバイス６００は、標準的なサーバ６００ａとして、またはこのようなサーバ６００ａのグループ内で複数回、ラップトップコンピュータ６００ｂとして、またはラックサーバシステム６００ｃの一部として実装され得る。

【0157】

本明細書に説明されるシステムおよび技術の様々な実装は、デジタル電子回路および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組合せで実現できる。これらの様々な実装は、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信するとともに、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイス、にデータおよび命令を送信するべく結合された、特殊目的または汎用である場合がある、少なくとも１つのプログラム可能なプロセッサを備えているプログラム可能なシステム上で実行可能および／または解釈可能にされている１つまたは複数のコンピュータプログラム内に実装を含めることができる。

【0158】

ソフトウェアアプリケーション（つまり、ソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指す場合がある。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼ばれる場合がある。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システム保守アプリケーション、文書作成アプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲーミングアプリケーションを備えているが、これらに限定されない。

【0159】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られる）は、プログラム可能プロセッサに対する機械命令を備えており、高水準手続き型言語および／またはオブジェクト指向プログラミング言語で、および／またはアセンブリ／機械言語で実装できる。本願で使用される場合、用語「機械可読媒体」および「コンピュータ可読媒体」は、機械命令および／またはデータを、機械可読信号として機械命令を受け取る機械可読媒体を備えているプログラム可能プロセッサに提供するべく使用される、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブル論理回路（ＰＬＤ））を指す。用語「機械可読信号」は、機械命令および／またはデータをプログラム可能プロセッサに提供するべく用いられる任意の信号を指す。

【0160】

本明細書に説明される処理および論理の流れは、入力されたデータに作用しており、出力を生成することによって機能を実行するべく１つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼ばれる１つまたは複数のプログラム可能プロセッサによって実行できる。処理および論理の流れはまた、特殊目的論理回路、例えば、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）によって実行できる。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用マイクロプロセッサと特殊目的マイクロプロセッサの両方と、任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサと、を備えている。一般に、プロセッサは、読み取り専用メモリもしくはランダムアクセスメモリ、または両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するためのプロセッサ、ならびに命令およびデータを格納するための１つまたは複数のメモリデバイスである。一般に、コンピュータはまた、例えば磁気ディスク、光磁気ディスク、もしくは光ディスクなどのデータを格納するための１つまたは複数の大量記憶装置を備えているか、または１つまたは複数の大量記憶装置からデータを受信するもしくは１つまたは複数の大量記憶装置にデータを転送する、もしくは両方を行なうように動作可能に結合される。しかしながら、コンピュータは、このようなデバイスを有している必要はない。コンピュータプログラム命令およびデータを格納するべく適したコンピュータ可読媒体は、例として、例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイスなどの半導体メモリデバイス、例えば内蔵ハードディスクまたはリムーバブルディスク、光磁気ディスクなどの磁気ディスク、およびＣＤＲＯＭディスクとＤＶＤ－ＲＯＭディスクを備えているすべての形式の不揮発性メモリ、メディア、およびメモリデバイスを備えている。プロセッサおよびメモリは、特殊目的論理回路によって補完することができるか、または特殊目的論理回路に組み込むことができる。

【0161】

ユーザとのやりとりを提供するべく、本開示の１つまたは複数の態様は、例えば、ＣＲＴ（ブラウン管）、ＬＣＤ（液晶画面）モニタ、またはタッチスクリーンなどのユーザに情報を表示するためのディスプレイデバイス、ならびに任意選択でユーザがコンピュータへの入力を提供することができる、例えば、マウスやトラックボールなどのキーボードおよびポインティングデバイスを有しているコンピュータ上に実装できる。他の種類のデバイスもまた、ユーザとのやりとりを提供するべく使用できる。例えば、ユーザに提供されるフィードバックは、例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバックなど任意の形式の感覚的フィードバックである場合があり、ユーザからの入力は、音響入力、音声入力、または触覚入力、を備えている任意の形式で受け取ることができる。さらに、コンピュータは、例えば、ウェブブラウザから受け取られた要求に応じて、ユーザのクライアントデバイス上のウェブブラウザにウェブページを送信することによって、などユーザによって使用されるデバイスに文書を送信しており、ユーザによって使用されるデバイスから文書を受信することによってユーザとで対話することができる。

【0162】

いくつかの実装が説明されてきた。言うまでもなく、本開示の趣旨および範囲から逸脱することなく、多様な修正が成され得ることが理解される。したがって、他の実装は、以下の特許請求の範囲の範囲内である。

【図1】

【図2A】

【図2B】

【図2C】

【図3】

【図4A】

【図4B】

【図5】

【図6】

【手続補正書】

【提出日】2024-05-24

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

前記動作は、
対応する前記時間ステップが前記休止に対応する確率が休止閾値を満たすと判定する工程と、
対応する前記時間ステップが前記休止に対応する前記確率が前記休止閾値を満たすと判定したことに基づき、対応する前記時間ステップで休止トークン（２１２）を発行する工程と、
をさらに備えている、
請求項１に記載のコンピュータ実装方法（５００）。

【請求項4】

【請求項5】

【請求項6】

【請求項7】

前記２段階のトレーニング処理は、前記休止位置と話の前記終わり位置とを示すラベルを有している複数の書き起こされたトレーニング発話に関して前記音声認識モデル（２００）を訓練する、
請求項５に記載のコンピュータ実装方法（５００）。

【請求項8】

前記エンコーダネットワーク（２２０）は自己注意ブロックのスタックを備えている、
請求項１～３のいずれか１項に記載のコンピュータ実装方法（５００）。

【請求項9】

【請求項10】

対応する前記非空白記号（２５２）のシーケンスの前記隠れ表現（３５０）を生成する工程は、
対応する前記時間ステップにおいて入力として受信された前記非空白記号のシーケンス（２５２）内の非空白記号ごとに、
前記予測ネットワーク（３００）によって、共有埋込行列（３０４）を使用することで、対応する前記非空白記号の埋込（３０６）を生成する工程と、
前記予測ネットワーク（３００）によって、対応する前記非空白記号に各々の位置ベクトル（３０８）を割り当てる工程と、
前記予測ネットワーク（３００）によって、前記埋込（３０６）と前記各々の位置ベクトル（３０８）との間の類似性に比例して前記埋込（３０６）に重み付けする工程と、
前記予測ネットワーク（３００）からの出力として、対応する前記時間ステップにおいて単一の埋込ベクトル（３０５）を生成する工程であって、前記単一の埋込ベクトル（３０５）は重み付けされた前記埋込の加重平均に基づいており、前記単一の埋込ベクトル（３０５）は前記隠れ表現（３５０）を備えている、前記単一の埋込ベクトル（３０５）を生成する工程と、
を備えている、
請求項１～３のいずれか１項に記載のコンピュータ実装方法（５００）。

【請求項11】

【請求項12】

【請求項13】

【請求項14】

前記動作は、
対応する前記時間ステップが前記休止に対応する確率が休止閾値を満たすと判定する工程と、
対応する前記時間ステップが前記休止に対応する前記確率が前記休止閾値を満たすと判定したことに基づき、対応する前記時間ステップで休止トークン（２１２）を発行する工程と、
をさらに備えている、
請求項１２に記載のシステム（１００）。

【請求項15】

【請求項16】

【請求項17】

【請求項18】

前記２段階のトレーニング処理は、前記休止位置および話の前記終わり位置を示すラベルを有している複数の書き起こされたトレーニング発話に関して前記音声認識モデル（２００）を訓練する、
請求項１６に記載のシステム（１００）。

【請求項19】

前記エンコーダネットワーク（２２０）は自己注意ブロックのスタックを備えている、
請求項１２～１４のいずれか１項に記載のシステム（１００）。

【請求項20】

前記自己注意ブロックのスタックは、コンフォーマブロックのスタックまたはトランスフォーマブロックのスタックを備えている、
請求項１９に記載のシステム（１００）。

【請求項21】

対応する前記非空白記号（２５２）のシーケンスの前記隠れ表現（３５０）を生成する工程は、
対応する前記時間ステップにおいて入力として受信された前記非空白記号（２５２）のシーケンス内の非空白記号ごとに、
前記予測ネットワーク（３００）によって、共有埋込行列（３０４）を使用することで、対応する前記非空白記号の埋込（３０６）を生成する工程と、
前記予測ネットワーク（３００）によって、対応する前記非空白記号に各々の位置ベクトル（３０８）を割り当てる工程と、
前記予測ネットワーク（３００）によって、前記埋込（３０６）と前記各々の位置ベクトル（３０８）との間の類似性に比例して前記埋込（３０６）に重み付けする工程と、
前記予測ネットワーク（３００）からの出力として、対応する前記時間ステップにおいて単一の埋込ベクトル（３０５）を生成する工程であって、前記単一の埋込ベクトル（３０５）は重み付けされた前記埋込の加重平均に基づいており、前記単一の埋込ベクトル（３０５）は前記隠れ表現（３５０）を備えている、前記単一の埋込ベクトル（３０５）を生成する工程と、
を備えている、
請求項１２～１４のいずれか１項に記載のシステム（１００）。

【請求項22】

【請求項23】

【請求項24】

【請求項25】

【請求項26】

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版