IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-507391音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略
<>
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図1
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図2
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図3
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図4
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図5
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図6
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図7
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図8
  • 特表-音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-02-19
(54)【発明の名称】音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略
(51)【国際特許分類】
   G10L 15/16 20060101AFI20240209BHJP
   G10L 15/06 20130101ALI20240209BHJP
【FI】
G10L15/16
G10L15/06 300Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023551792
(86)(22)【出願日】2022-01-17
(85)【翻訳文提出日】2023-08-24
(86)【国際出願番号】 CN2022072268
(87)【国際公開番号】W WO2022179337
(87)【国際公開日】2022-09-01
(31)【優先権主張番号】17/186,167
(32)【優先日】2021-02-26
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【復代理人】
【識別番号】100104880
【弁理士】
【氏名又は名称】古部 次郎
(74)【復代理人】
【識別番号】100118108
【弁理士】
【氏名又は名称】久保 洋之
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】サオン、ジョージ、アンドレイ
(57)【要約】
デジタル音声の認識精度を向上させるためのコンピュータ実装方法が提供される。本方法は、デジタル音声を受信することを含む。本方法はさらに、デジタル音声を重複チャンクに分割することを含む。本方法はまた、双方向エンコーダ埋め込みを取得するために重複チャンクの各々の双方向エンコーダ埋め込みを計算することを含む。本方法は、さらに、双方向エンコーダ埋め込みを結合することを含む。本方法はさらに、音声認識システムによって、結合された双方向エンコーダ埋め込みを使用して、デジタル音声を解釈することを含む。
【特許請求の範囲】
【請求項1】
デジタル音声の認識精度を向上させるためのコンピュータ実装方法であって、
前記デジタル音声を受信することと、
前記デジタル音声を重複チャンクに分割することと、
双方向エンコーダ埋め込みを取得するために前記重複チャンクの各々の双方向エンコーダ埋め込みを計算することと、
前記双方向エンコーダ埋め込みを結合することと、
音声認識システムによって、前記結合された双方向エンコーダ埋め込みを使用して、前記デジタル音声を解釈することと、
を含む、コンピュータ実装方法。
【請求項2】
前記結合ステップは、第1の重複チャンクおよび第2の重複チャンクの前記双方向エンコーダ埋め込みを結合する際に、前記第2の重複チャンクの前記双方向エンコーダ埋め込みのみを使用し、前記第1の重複チャンクの前記双方向エンコーダ埋め込みを省略することによって、前記双方向エンコーダ埋め込みを結合する、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記結合ステップは、第1の重複チャンクおよび第2の重複チャンクの前記双方向エンコーダ埋め込みを結合する際に、前記第1の重複チャンクの前記双方向エンコーダ埋め込みを前記第2の重複チャンクの前記双方向エンコーダ埋め込みと平均化することを含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記結合ステップは、最終結果の前半で前記重複チャンクの左の1つからの前記双方向エンコーダ埋め込みを使用し、最終結果の後半で前記重複チャンクの右の1つからの前記双方向エンコーダ埋め込みを使用することを含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記音声認識システムは、前記受信したデジタル音声を解釈するためにリカレントニューラルネットワーク変換器モデルを使用する、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記リカレントニューラルネットワーク変換器モデルが、予測ネットワークおよびエンコーダに動作可能に結合されたジョイントネットワークを含む、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記リカレントニューラルネットワーク変換器モデルは、前記ジョイントネットワークに動作可能に結合され、前記ジョイントネットワークの出力を条件付き確率分布に変換するソフトマックス層をさらに含む、請求項6に記載のコンピュータ実装方法。
【請求項8】
重複チャンクは、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中に使用される、請求項5に記載のコンピュータ実装方法。
【請求項9】
チャンクのサイズは、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中にランダム化される、請求項5に記載のコンピュータ実装方法。
【請求項10】
チャンクのサイズは、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中に固定される、請求項5に記載のコンピュータ実装方法。
【請求項11】
チャンクの重複量は、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中に固定される、請求項5に記載のコンピュータ実装方法。
【請求項12】
チャンクの重複量は、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中にランダム化される、請求項5に記載のコンピュータ実装方法。
【請求項13】
前記エンコーダは、前記音声認識システムにおける音響モデルをシミュレートするように構成され、予測ネットワークは、前記音声認識システムにおける言語モデルをシミュレートするように構成される、請求項5に記載のコンピュータ実装方法。
【請求項14】
前記解釈ステップは、前記リカレントニューラルネットワーク変換器モデルのアライメント格子上でビームサーチを実行することを含む、請求項5に記載のコンピュータ実装方法。
【請求項15】
前記重複チャンク間の重複量は、精度対待ち時間を制御するために使用される推論時のパラメータである、請求項1に記載のコンピュータ実装方法。
【請求項16】
前記重複チャンクの重複する領域は、リカレントニューラルネットワーク変換器モデルにおける音響エンコーダの重複を含む、請求項1に記載のコンピュータ実装方法。
【請求項17】
デジタル音声の認識精度を向上させるためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令をその中に実装した非一時的コンピュータ可読記憶媒体を含み、前記プログラム命令は、コンピュータによって実行可能であり、前記コンピュータに、方法を実行させ、前記方法は、
前記デジタル音声を受信することと、
前記デジタル音声を重複チャンクに分割することと、
双方向エンコーダ埋め込みを取得するために前記重複チャンクの各々の双方向エンコーダ埋め込みを計算することと、
前記双方向エンコーダ埋め込みを結合することと、
音声認識システムによって、前記結合された双方向エンコーダ埋め込みを使用して、前記デジタル音声を解釈することと、
を含む、コンピュータプログラム製品。
【請求項18】
前記結合ステップは、第1の重複チャンクおよび第2の重複チャンクの前記双方向エンコーダ埋め込みを結合する際に、前記第2の重複チャンクの前記双方向エンコーダ埋め込みのみを使用し、前記第1の重複チャンクの前記双方向エンコーダ埋め込みを省略することによって、前記双方向エンコーダ埋め込みを結合する、請求項17に記載のコンピュータ実装方法。
【請求項19】
前記結合ステップは、第1の重複チャンクおよび第2の重複チャンクの前記双方向エンコーダ埋め込みを結合する際に、前記第1の重複チャンクの前記双方向エンコーダ埋め込みを前記第2の重複チャンクの前記双方向エンコーダ埋め込みと平均化することを含む、請求項17に記載のコンピュータ実装方法。
【請求項20】
プログラムコードを記憶するための記憶装置と、
前記プログラムコードを実行するために、前記記憶装置に動作可能に結合されたプロセッサデバイスと、を備え、前記プログラムコードは、
デジタル音声を受信することと、
前記デジタル音声を重複チャンクに分割することと、
双方向エンコーダ埋め込みを取得するために前記重複チャンクの各々の双方向エンコーダ埋め込みを計算することと、
前記双方向エンコーダ埋め込みを結合することと、
前記結合された双方向エンコーダ埋め込みを使用して、前記デジタル音声を解釈することと、
を実行する、音声認識システム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、音声認識および人工知能に関し、より詳細には、エンドツーエンドの音声認識のためのストリーミングリカレントニューラルネットワーク(RNN)変換器のチャンキングおよび重複復号戦略に関する。
【背景技術】
【0002】
ハイブリッドモデリングは、隠れマルコフモデル(HMM)と、状態観測の尤度に用いられるモデル(一般的にはディープニューラルネットワーク(DNN))を含む音声認識の技術として知られている。HMMの状態は、周囲の音声コンテキストに基づくサブ音声ユニットの決定木クラスタリングによって取得される。RNN変換器を用いたエンドツーエンドの音声認識には、訓練と推論の両方において利点がある。例えば、ハイブリッドモデリングと比較して、大幅に少ない訓練ステップで済む。さらに、RNN-Tは、ハイブリッドモデルと比較して、高い精度、低いメモリフットプリント、および高速な推論を有する。しかし、RNN-Tベースの音声認識は、ハイブリッド音声認識と比較して、生成される単語の信頼性の低い時間アライメントを有するなどの欠陥を依然として抱えている。
【発明の概要】
【0003】
本発明の態様によれば、デジタル音声の認識精度を向上させるためのコンピュータ実装方法が提供される。本方法は、デジタル音声を受信することを含む。本方法はさらに、デジタル音声を重複チャンクに分割することを含む。本方法はまた、双方向エンコーダ埋め込みを取得するために重複チャンクの各々の双方向エンコーダ埋め込みを計算することを含む。本方法は、さらに、双方向エンコーダ埋め込みを結合することを含む。本方法は、さらに、音声認識システムによって、結合された双方向エンコーダ埋め込みを使用して、デジタル音声を解釈することを含む。
【0004】
本発明の他の態様によれば、デジタル音声の認識精度を向上させるためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、プログラム命令をその中に実装した非一時的コンピュータ可読記憶媒体を含む。本プログラム命令は、コンピュータによって実行可能であり、コンピュータに方法を実行させる。本方法は、デジタル音声を受信することを含む。本方法はさらに、デジタル音声を重複チャンクに分割することを含む。本方法はまた、双方向エンコーダ埋め込みを取得するために重複チャンクの各々の双方向エンコーダ埋め込みを計算することを含む。本方法は、さらに、双方向エンコーダ埋め込みを結合することを含む。本方法は、さらに、音声認識システムによって、結合された双方向エンコーダ埋め込みを使用して、デジタル音声を解釈することを含む。
【0005】
本発明のさらに他の態様によれば、音声認識システムが提供される。音声認識システムは、プログラムコードを記憶するための記憶装置を備える。音声認識システムは、デジタル音声を受信するプログラムコードを実行するために、記憶装置に動作可能に結合されたプロセッサデバイスをさらに備える。プロセッサデバイスは、さらに、デジタル音声を重複チャンクに分割するプログラムコードを実行する。プロセッサデバイスは、また、双方向エンコーダ埋め込みを取得するために重複チャンクの各々の双方向エンコーダ埋め込みを計算するプログラムコードを実行する。プロセッサデバイスは、さらに、双方向エンコーダ埋め込みを結合するプログラムコードを実行する。プロセッサデバイスは、さらに、結合された双方向エンコーダ埋め込みを使用して、デジタル音声を解釈するプログラムコードを実行する。
【0006】
これらおよび他の特徴および利点は、添付の図面と関連して読まれる、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。
【0007】
以下の説明では、以下の図を参照しながら、好ましい実施形態の詳細を説明する。
【図面の簡単な説明】
【0008】
図1】本発明の実施形態による、例示的なコンピューティングデバイスを示すブロック図である。
図2】本発明の実施形態による、音声認識のためのリカレントニューラルネットワーク変換器(RNN-T)モデル訓練のための例示的な方法を示すフロー図である。
図3】本発明の実施形態による、音声認識のためのリカレントニューラルネットワーク変換器(RNN-T)モデル推論のための例示的な方法を示すフロー図である。
図4】本発明の実施形態による、音声認識のためのリカレントニューラルネットワーク変換器(RNN-T)モデル推論のための例示的な方法を示すフロー図である。
図5】本発明の実施形態による、例示的なRNN-Tアーキテクチャを示すブロック図である。
図6】本発明の実施形態による、例示的なアライメントトレリスを示す図である。
図7】本発明の実施形態による、例示的なエンコーダ計算を示すブロック図である。
図8】本発明の実施形態による、クラウドコンシューマが使用するローカルコンピューティングデバイスが通信する1または複数のクラウドコンピューティングノードを有する例示的なクラウドコンピューティング環境を示すブロック図である。
図9】本発明の実施形態による、クラウドコンピューティング環境によって提供される機能抽象化レイヤのセットを示すブロック図である。
【発明を実施するための形態】
【0009】
本発明の実施形態は、エンドツーエンドの音声認識のためのストリーミングRNN変換器のチャンキングおよび重複復号戦略を対象とする。
【0010】
本発明の実施形態は、推論中に音声の重複チャンクに対して双方向埋め込みを計算することができる。
【0011】
モデルの訓練中、訓練発話が重複チャンクに分割される場合があり、双方向エンコーダ埋め込みを取得するために重複チャンクの各々に対して双方向エンコーダ埋め込みが個別に計算される場合がある。各チャンクの双方向エンコーダ埋め込みを連結することによって、発話全体に対する双方向エンコーダ埋め込みが取得され得る。チャンクのサイズと重複量は、モデル訓練中にランダム化または固定化され得る。
【0012】
テスト時には、入力された発話が重複チャンクに分割される場合がある。各チャンクについて、双方向エンコーダ埋め込みが計算され得る。重複する領域では、埋め込みは、例として以下の方法の1または複数で結合することができる:(1)次のチャンクの埋め込みを使用する、(2)2つのチャンクの埋め込みを平均化する、(3)前半で左チャンクの埋め込みを使用し、後半で右チャンクの埋め込みを使用する。
【0013】
図1は、本発明の実施形態による、例示的なコンピューティングデバイス100を示すブロック図である。コンピューティングデバイス100は、エンドツーエンドの音声認識のためのストリーミングRNN-Tのチャンキングおよび重複復号を実行するように構成される。
【0014】
コンピューティングデバイス100は、限定されないが、コンピュータ、サーバ、ラックベースサーバ、ブレードサーバ、ワークステーション、デスクトップコンピュータ、ラップトップコンピュータ、ノートブックコンピュータ、タブレットコンピュータ、モバイルコンピューティングデバイス、ウェアラブルコンピューティングデバイス、ネットワーク家電、ウェブ家電、分散コンピューティングシステム、プロセッサベースシステム、もしくは消費者電子デバイス、またはその組み合わせを含む、本明細書に記載の機能を実行できるあらゆるタイプの計算またはコンピュータデバイスとして実装されてもよい。さらにまたは代替的に、コンピューティングデバイス100は、1または複数のコンピュートスリード、メモリスリード、または他のラック、スリード、コンピューティングシャーシ、または物理的に分解されたコンピューティングデバイスの他の構成要素として実装され得る。図1に示すように、コンピューティングデバイス100は、例示的に、プロセッサ110、入力/出力サブシステム120、メモリ130、データ記憶装置140、および通信サブシステム150、もしくは、サーバあるいは同様のコンピューティングデバイスで一般的に見られる他のコンポーネントおよびデバイス、またはその組み合わせを含む。もちろん、コンピューティングデバイス100は、他の実施形態において、サーバコンピュータに一般的に見られるもの(例えば、様々な入力/出力デバイス)などの他のまたは追加のコンポーネントを含み得る。さらに、いくつかの実施形態では、例示的な構成要素のうちの1または複数が、別の構成要素に組み込まれるか、さもなければその一部を形成することができる。例えば、メモリ130、またはその一部は、いくつかの実施形態において、プロセッサ110に組み込まれることがある。
【0015】
プロセッサ110は、本明細書で説明する機能を実行することができる任意のタイプのプロセッサとして実装されてもよい。プロセッサ110は、単一プロセッサ、複数プロセッサ、中央処理装置(CPU)、グラフィックス処理装置(GPU)、単一またはマルチコアプロセッサ、デジタル信号プロセッサ、マイクロコントローラ、または他のプロセッサあるいは処理/制御回路として実装されてもよい。
【0016】
メモリ130は、本明細書で説明する機能を実行できる任意のタイプの揮発性または不揮発性メモリまたはデータ記憶装置として実装され得る。動作において、メモリ130は、オペレーティングシステム、アプリケーション、プログラム、ライブラリ、およびドライバなど、コンピューティングデバイス100の動作中に使用される様々なデータおよびソフトウェアを記憶することができる。メモリ130は、I/Oサブシステム120を介してプロセッサ110に通信可能に結合され、これは、プロセッサ110、メモリ130、およびコンピューティングデバイス100の他のコンポーネントとの入力/出力動作を容易にする回路もしくはコンポーネントまたはその両方として実装されてもよい。例えば、I/Oサブシステム120は、メモリコントローラハブ、入力/出力制御ハブ、プラットフォームコントローラハブ、統合制御回路、ファームウェアデバイス、通信リンク(例えば、ポイントツーポイントリンク、バスリンク、ワイヤ、ケーブル、ライトガイド、プリント回路基板トレースなど)、もしくは、入力/出力動作を容易にする他のコンポーネントおよびサブシステム、またはその組み合わせとして実装されてよく、または含んでもよい。いくつかの実施形態では、I/Oサブシステム120は、システムオンチップ(SOC)の一部を形成し、プロセッサ110、メモリ130、およびコンピューティングデバイス100の他のコンポーネントと共に、単一の集積回路チップ上に組み込まれる場合がある。
【0017】
データ記憶装置140は、例えば、メモリデバイスおよび回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または他のデータ記憶装置など、データの短期または長期記憶用に構成された任意のタイプのデバイスまたは装置として実装することができる。データ記憶装置140は、エンドツーエンドの音声認識のためのストリーミングRNN-Tのチャンキングおよび重複復号のためのプログラムコードを記憶することができる。コンピューティングデバイス100の通信サブシステム150は、ネットワークを介してコンピューティングデバイス100と他のリモートデバイスとの間の通信を可能にすることができる、任意のネットワークインタフェースコントローラまたは他の通信回路、デバイス、またはその集合体として実装され得る。通信サブシステム150は、任意の1または複数の通信技術(例えば、有線または無線通信)および関連プロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAXなど)を使用して、かかる通信を実現するように構成されることがある。
【0018】
示されるように、コンピューティングデバイス100はまた、1または複数の周辺デバイス160を含み得る。周辺デバイス160は、任意の数の追加の入力/出力デバイス、インタフェースデバイス、もしくは他の周辺デバイス、またはその組み合わせを含むことができる。例えば、いくつかの実施形態では、周辺デバイス160は、ディスプレイ、タッチスクリーン、グラフィック回路、キーボード、マウス、スピーカシステム、マイクロフォン、ネットワークインタフェース、もしくは、他の入力/出力デバイス、インタフェースデバイス、および/または周辺デバイス、またはその組み合わせを含むことがある。
【0019】
もちろん、コンピューティングデバイス100は、当業者によって容易に想定されるように、他の要素(図示せず)を含むこともでき、また、特定の要素を省略することもできる。例えば、様々な他の入力デバイスもしくは出力デバイスまたはその両方が、当業者によって容易に理解されるように、同じものの特定の実装に依存して、コンピューティングデバイス100に含まれることができる。例えば、様々なタイプの無線もしくは有線またはその両方の入力もしくは出力またはその両方のデバイスを使用することができる。さらに、様々な構成の追加のプロセッサ、コントローラ、メモリ等も利用することができる。さらに、別の実施形態では、クラウド構成を利用することができる(例えば、図8図9を参照)。処理システム100のこれらおよび他のバリエーションは、本明細書で提供される本発明の教示を与えられた当業者によって容易に企図されるものである。
【0020】
本明細書で採用されるように、「ハードウェアプロセッササブシステム」または「ハードウェアプロセッサ」という用語は、1または複数の特定のタスクを実行するために協働するプロセッサ、メモリ(RAM、キャッシュなどを含む)、ソフトウェア(メモリ管理ソフトウェアを含む)またはその組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1または複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含むことができる。1または複数のデータ処理要素は、中央処理装置、グラフィックス処理装置、もしくは、別個のプロセッサあるいは演算要素ベースのコントローラ(例えば、論理ゲートなど)、またはその組み合わせに含まれる可能性がある。ハードウェアプロセッササブシステムは、1または複数のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、読み取り専用メモリなど)を含むことができる。いくつかの実施形態では、ハードウェアプロセッササブシステムは、オンボードまたはオフボードであり得る、またはハードウェアプロセッササブシステムによる使用のために専用であり得る1または複数のメモリ(例えば、ROM、RAM、基本入力/出力システム(BIOS)、など)を含むことができる。
【0021】
いくつかの実施形態において、ハードウェアプロセッササブシステムは、1または複数のソフトウェア要素を含み、実行することができる。1または複数のソフトウェア要素は、オペレーティングシステムおよび/または1または複数のアプリケーションおよび/または特定のコードを含み、指定された結果を達成することができる。
【0022】
他の実施形態では、ハードウェアプロセッササブシステムは、指定された結果を達成するために1または複数の電子処理機能を実行する専用の特殊な回路を含むことができる。かかる回路は、1または複数の特定用途向け集積回路(ASIC)、FPGA、もしくはPLA、またはその組み合わせを含むことができる。
【0023】
ハードウェアプロセッササブシステムのこれらおよび他の変形も、本発明の実施形態に従って企図されるものである。
【0024】
図2は、本発明の実施形態による、音声認識のためのリカレントニューラルネットワーク変換器(RNN-T)モデル訓練のための例示的な方法200を示すフロー図である。
【0025】
ブロック210で、訓練発話を受信する。
【0026】
ブロック220において、訓練発話を重複チャンクに分割する。チャンクのサイズおよび重複量は、訓練中に固定またはランダム化することができる。重複チャンクは、重複する音声入力領域を2回処理するための待ち時間を犠牲にして精度を高めるために、1つのチャンクから次のチャンクにいくつかの情報を保持/運搬するために使用される。
【0027】
ブロック230において、双方向エンコーダ埋め込みを取得するために重複チャンクの各々に対して双方向エンコーダ埋め込みを別々に計算する。
【0028】
ブロック240において、重複チャンクの各々の双方向エンコーダ埋め込みを連結することによって、(全体の)訓練発話の双方向エンコーダ埋め込みを取得する。
【0029】
ブロック250で、発話全体の(連結された)双方向エンコーダ埋め込みを記憶する。
【0030】
ブロック260で、他の発話があるかどうかを判断する。他の発話がある場合、ステップ210に戻り、訓練発話のコーパスを処理するために、次の発話に対して繰り返す。他の発話がない場合は、本方法を終了する。別の実施形態では、複数の発話が並行して処理される。
【0031】
図3~4は、本発明の実施形態による、音声認識のためのリカレントニューラルネットワーク(RNN-T)モデル推論のための例示的な方法300を示すフロー図である。
【0032】
ブロック310で、入力発話を受信する。
【0033】
ブロック320において、入力発話を重複チャンクに分割する。一実施形態では、重複チャンク間の重複量は、精度対待ち時間を制御するために使用される推論時のパラメータである。同じチャンクサイズの場合、重複が大きいほど、精度および待ち時間が大きくなり、重複が小さいほど、精度および待ち時間は小さくなる。
【0034】
ブロック330において、重複チャンクの各々について双方向エンコーダ埋め込みを計算する。
【0035】
ブロック340では、重複する領域で埋め込みを結合する。
【0036】
例として、重複する領域では、ブロック340Aから340Cに示すように、埋め込みを以下の方法の1または複数で結合することができる。
【0037】
ブロック340Aにおいて、次のチャンクからの埋め込みを使用する。一実施形態では、これは、重複する領域を有する2つの重複チャンクの2番目のチャンクを意味し得る。
【0038】
一実施形態において、ブロック340Aは、ブロック340A1を含み得る。
【0039】
ブロック340A1において、第1の重複チャンクおよび第2の重複チャンクの双方向エンコーダ埋め込みを結合する際に、第2の重複チャンクの双方向エンコーダ埋め込みのみを使用し、第1の重複チャンクの双方向エンコーダ埋め込みを省略することによって、双方向エンコーダ埋め込みを結合する。これは、第1のオーバーラップチャンクの双方向エンコーダ埋め込みをゼロに設定し、そのゼロと第2のオーバーラップチャンクの双方向エンコーダ埋め込みを結合することを含むと考えることができる。
【0040】
ブロック340Bで、2つのチャンクからの埋め込みを平均化する。これは、2つの重複チャンクを意味することができる。
【0041】
一実施形態では、ブロック340Bは、ブロック340B1を含むことができる。
【0042】
ブロック340B1において、第1の重複チャンクおよび第2の重複チャンクの双方向エンコーダ埋め込みを結合する際に、第1の重複チャンクの双方向エンコーダ埋め込みを第2の重複チャンクの双方向エンコーダ埋め込みと平均化することによって、双方向エンコーダ埋め込みを結合する。
【0043】
ブロック340Cにおいて、前半で2つの重複チャンクの左チャンクからの埋め込みを使用し、後半で2つの重複チャンクの右チャンクからの埋め込みを使用する。
【0044】
ブロック350において、コンピューティングデバイスによって、結合された双方向エンコーダ埋め込みを使用して、受信したデジタル音声を解釈する。
【0045】
一実施形態では、ブロック350は、ブロック350Aを含み得る。
【0046】
ブロック350Aにおいて、入力発話に関して、訓練されたRNNモデルのアライメント格子上でビームサーチを実行することによって、音声認識を実行する。
【0047】
次に、本発明の実施形態によるリカレントニューラルネットワーク変換器(RNN-T)モデルに関して説明する。
【0048】
そのために、y=(y,...,y)∈y出力シーケンス(典型的には文字、単語、形態素)、およびx=(x,...,x)∈x入力シーケンス(音声信号から抽出された音響フレーム)とする。
【0049】
【0050】
図5は、本発明の実施形態による、例示的なRNN-Tアーキテクチャ500を示すブロック図である。
【0051】
図5は、入力された音響サンプルxと予測されたシンボルyを有するRNN-Tの表現を示す。予測されたシンボル(ソフトマックス層の出力)は、yu-1として、予測ネットワークを通じてモデルにフィードバックされ、予測はこれまでの音響サンプルと過去の出力の両方に条件付けられることを保証する。
【0052】
一方向性RNN-Tアーキテクチャ500は、エンコーダネットワーク(転写ネットワークとも呼ばれる)510、予測ネットワーク520、ジョイントネットワーク530、およびソフトマックスブロック540を含む。予測ネットワーク520およびエンコーダネットワーク510は、LSTM RNNとすることができ、ジョイントネットワーク530は、フィードフォワードネットワークとすることができる。もちろん、トランスフォーマー、コンフォーマー、畳み込みネットワーク、リカレントネットワーク、フィードフォワードネットワーク(DNN)などの他の構造も、本明細書に提供される本発明の教示を考慮して使用することができる。
【0053】
エンコーダネットワーク510は、入力シーケンス(T’≦T)の高次元の埋め込みh=(h,...,hT’)を計算する。エンコーダネットワーク510は、音響モデルに類似しており、音響特徴xをハイレベル表現hに変換し、tは時間インデックスである。これらの文脈では、高次元埋め込みは、少なくとも1024次元を有する埋め込みを意味する。入力特徴が与えられたら、一方向性長短期記憶(LSTM)層を積み重ねてエンコーダネットワーク510を構築することができる、もしくは本明細書に記載するように他のいくつかの符号化構造を使用することができる。
【0054】
予測ネットワーク520は、再帰的なg=Prediction(gu-1,yu-1)を介して出力シーケンスの高次元の埋め込みg=(g,...,g)を計算する。予測ネットワーク520は、RNN言語モデルのように動作し、RNN-Tモデルによって予測された前の非空白ターゲットyu-1に条件付けしてハイレベル表現hを生成する。ここで、uは出力ラベルインデックスである。
【0055】
【0056】
ジョイントネットワーク530は、エンコーダネットワーク出力と予測ネットワーク出力とを結合するフィードフォワードネットワークである。
【0057】
RNN-Tは、注意メカニズムを採用しないsequence-to-sequenceモデルの一形態である。一般的に、出力(文)を生成するために入力シーケンス(この場合は波形)全体を処理する必要がある多くのsequence-to-sequenceモデルとは異なり、RNN-Tは入力サンプルを連続的に処理して出力シンボルを流すという、音声ディクテーションに歓迎される特性を備えている。一実装では、出力シンボルはアルファベットの文字にすることができる。RNN-T認識装置は、あなたが話すと同時に、適切な場所に空白を入れながら、文字を1つずつ出力する。これは、モデルによって予測されたシンボルを、次のシンボルを予測するためにモデルに戻すフィードバックループによって行われる。
【0058】
例示的な一実施形態では、RNN_Tモデルは、640ユニット/方向を有する6つの双方向エンコーダ層、1024ユニットを有する1つの単方向予測層、およびサイズ40の出力層を有さないサイズ256のジョイントネットワークを含む。もちろん、本発明の精神を維持しつつ、他の数の層およびユニットを使用することができる。
【0059】
図6は、本発明の実施形態による例示的なアライメントトレリス600を示す図である。
【0060】
アライメントトレリス600は、x=(x,...,x)およびy=(y,...,y)のようなx軸とy軸との相対的な関係で考えることができる。
【0061】
アライメントトレリス600の各ノードは、Zt,uのソフトマックスを表す。
【0062】
RNN-Tアーキテクチャ600による音声認識は、アライメントトレリス600上のビーム探索によって実現される。
【0063】
図7は、本発明の実施形態による、例示的なエンコーダ計算700を示すブロック図である。
【0064】
エンコーダ計算700は、入力発話710から行われる。
【0065】
エンコーダ計算700は、双方向の重複チャンク720を含む。
【0066】
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載した教示の実装形態はクラウドコンピューティング環境に限定されない。むしろ、本発明の実施形態は、現在公知のまたは将来開発される他の任意の種類のコンピュータ環境と共に実施することができる。
【0067】
クラウドコンピューティングは、設定可能なコンピューティングリソースの共有プール(例えばネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、記憶装置、アプリケーション、仮想マシンおよびサービス)へ、簡便かつオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルであり、リソースは、最小限の管理労力または最小限のサービスプロバイダとのやり取りによって速やかに準備(provision)およびリリースできるものである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、および少なくとも4つの実装モデルを含むことがある。
【0068】
特性は以下の通りである。
【0069】
オンデマンド・セルフサービス:クラウドの消費者は、サービスプロバイダとの人的な対話を必要することなく、必要に応じて自動的に、サーバ時間やネットワークストレージなどのコンピューティング能力を一方的に準備することができる。
【0070】
ブロード・ネットワークアクセス:コンピューティング能力はネットワーク経由で利用可能であり、また、標準的なメカニズムを介してアクセスできる。それにより、異種のシンまたはシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、PDA)による利用が促進される。
【0071】
リソースプーリング:プロバイダのコンピューティングリソースはプールされ、マルチテナントモデルを利用して複数の消費者に提供される。様々な物理リソースおよび仮想リソースが、需要に応じて動的に割り当ておよび再割り当てされる。一般に消費者は、提供されたリソースの正確な位置を管理または把握していないため、位置非依存(location independence)の感覚がある。ただし消費者は、より高い抽象レベル(例えば、国、州、データセンタ)では場所を特定可能な場合がある。
【0072】
迅速な柔軟性(elasticity):コンピューティング能力は、迅速かつ柔軟に準備することができるため、場合によっては自動的に、直ちにスケールアウトし、また、速やかにリリースされて直ちにスケールインすることができる。消費者にとって、準備に利用可能なコンピューティング能力は無制限に見える場合が多く、任意の時間に任意の数量で購入することができる。
【0073】
測定されるサービス:クラウドシステムは、サービスの種類(例えば、ストレージ、処理、帯域幅、アクティブユーザアカウント)に適したある程度の抽象化レベルでの測定機能を活用して、リソースの使用を自動的に制御し最適化する。リソース使用量を監視、制御、および報告して、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供することができる。
【0074】
サービスモデルは以下の通りである。
【0075】
サービスとしてのソフトウェア(SaaS):消費者に提供される機能は、クラウドインフラストラクチャ上で動作するプロバイダのアプリケーションを利用できることである。当該そのアプリケーションは、ウェブブラウザ(例えばウェブメール)などのシンクライアントインタフェースを介して、各種のクライアント装置からアクセスできる。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージや、個別のアプリケーション機能さえも含めて、基礎となるクラウドインフラストラクチャの管理や制御は行わない。ただし、ユーザ固有の限られたアプリケーション構成の設定はその限りではない。
【0076】
サービスとしてのプラットフォーム(PaaS):消費者に提供される機能は、プロバイダによってサポートされるプログラム言語およびツールを用いて、消費者が作成または取得したアプリケーションを、クラウドインフラストラクチャに展開(deploy)することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、ストレージを含む、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、展開されたアプリケーションを制御でき、かつ場合によってはそのホスティング環境の構成も制御できる。
【0077】
サービスとしてのインフラストラクチャ(IaaS):消費者に提供される機能は、オペレーティングシステムやアプリケーションを含み得る任意のソフトウェアを消費者が展開および実行可能な、プロセッサ、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースを準備することである。消費者は、基礎となるクラウドインフラストラクチャの管理や制御は行わないが、オペレーティングシステム、ストレージ、および展開されたアプリケーションを制御でき、かつ場合によっては一部のネットワークコンポーネント(例えばホストファイアウォール)を部分的に制御できる。
【0078】
展開モデルは以下の通りである。
【0079】
プライベートクラウド:このクラウドインフラストラクチャは、特定の組織専用で運用される。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。
【0080】
コミュニティクラウド:このクラウドインフラストラクチャは、複数の組織によって共有され、共通の関心事(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンス)を持つ特定のコミュニティをサポートする。このクラウドインフラストラクチャは、当該組織または第三者によって管理することができ、オンプレミスまたはオフプレミスで存在することができる。
【0081】
パブリッククラウド:このクラウドインフラストラクチャは、不特定多数の人々や大規模な業界団体に提供され、クラウドサービスを販売する組織によって所有される。
【0082】
ハイブリッドクラウド:このクラウドインフラストラクチャは、2つ以上のクラウドモデル(プライベート、コミュニティまたはパブリック)を組み合わせたものとなる。それぞれのモデル固有の実体は保持するが、標準または個別の技術によってバインドされ、データとアプリケーションの可搬性(例えば、クラウド間の負荷分散のためのクラウドバースティング)を実現する。
【0083】
クラウドコンピューティング環境は、ステートレス性(statelessness)、低結合性(low coupling)、モジュール性(modularity)および意味論的相互運用性(semantic interoperability)に重点を置いたサービス指向型環境である。クラウドコンピューティングの中核にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。
【0084】
ここで図8を参照すると、例示的なクラウドコンピューティング環境850が描かれている。図示されるように、クラウドコンピューティング環境850は1または複数のクラウドコンピューティングノード810を含む。これらに対して、クラウド消費者が使用するローカルコンピュータ装置(例えば、パーソナルデジタルアシスタント(PDA)もしくは携帯電話854A、デスクトップコンピュータ854B、ラップトップコンピュータ854C、もしくは自動車コンピュータシステム854Nまたはこれらの組み合わせなど)は通信を行うことができる。ノード810は互いに通信することができる。ノード810は、例えば、上述のプライベート、コミュニティ、パブリックもしくはハイブリッドクラウドまたはこれらの組み合わせなど、1または複数のネットワークにおいて、物理的または仮想的にグループ化(不図示)することができる。これにより、クラウドコンピューティング環境850は、サービスとしてのインフラストラクチャ、プラットフォームもしくはソフトウェアまたはこれらの組み合わせを提供することができ、クラウド消費者はこれらについて、ローカルコンピュータ装置上にリソースを維持する必要がない。なお、図8に示すコンピュータ装置854A~Nの種類は例示に過ぎず、コンピューティングノード810およびクラウドコンピューティング環境850は、任意の種類のネットワークもしくはネットワークアドレス指定可能接続(例えば、ウェブブラウザの使用)またはその両方を介して、任意の種類の電子装置と通信可能であることを理解されたい。
【0085】
ここで図9を参照すると、クラウドコンピューティング環境850(図8)によって提供される機能的抽象化モデルレイヤのセットが示されている。なお、図9に示すコンポーネント、レイヤおよび機能は例示に過ぎず、本発明の実施形態はこれらに限定されないことをあらかじめ理解されたい。図示するように、以下のレイヤおよび対応する機能が提供される。
【0086】
ハードウェアおよびソフトウェアレイヤ960は、ハードウェアコンポーネントおよびソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム961、縮小命令セットコンピュータ(RISC)アーキテクチャベースのサーバ962、サーバ963、ブレードサーバ964、記憶装置965、ならびにネットワークおよびネットワークコンポーネント966が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア967およびデータベースソフトウェア968を含む。
【0087】
仮想化レイヤ970は、抽象化レイヤを提供する。当該レイヤから、例えば以下の仮想エンティティを提供することができる:仮想サーバ971、仮想ストレージ972、仮想プライベートネットワークを含む仮想ネットワーク973、仮想アプリケーションおよびオペレーティングシステム974、ならびに仮想クライアント975。
【0088】
一例として、管理レイヤ980は以下の機能を提供することができる。リソース準備981は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を可能にする。計量および価格設定982は、クラウドコンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費に対する請求またはインボイス送付を可能にする。一例として、これらのリソースはアプリケーションソフトウェアのライセンスを含んでよい。セキュリティは、データおよび他のリソースに対する保護のみならず、クラウドコンシューマおよびタスクの識別確認を可能にする。ユーザポータル983は、コンシューマおよびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理984は、要求されたサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当ておよび管理を可能にする。サービス品質保証(SLA)の計画および履行985は、SLAに従って将来必要になると予想されるクラウドコンピューティングリソースの事前手配および調達を可能にする。
【0089】
ワークロードレイヤ990は、クラウドコンピューティング環境が利用可能な機能の例を提供する。このレイヤから提供可能なワークロードおよび機能の例には、マッピングおよびナビゲーション991、ソフトウェア開発およびライフサイクル管理992、仮想教室教育の配信993、データ分析処理994、取引処理995、ならびに、エンドツーエンドの音声認識のためのRNN-Tのストリーミングのチャンキングおよび重複復号996が含まれる。
【0090】
本発明は、任意の可能な技術詳細レベルで統合されたシステム、方法もしくはコンピュータプログラム製品またはそれらの組み合せとすることができる。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を記憶したコンピュータ可読記憶媒体を含んでよい。
【0091】
コンピュータ可読記憶媒体は、命令実行装置によって使用される命令を保持し、記憶することができる有形の装置とすることができる。コンピュータ可読記憶媒体は、一例として、電子記憶装置、磁気記憶装置、光学記憶装置、電磁記憶装置、半導体記憶装置またはこれらの適切な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な一例としては、ポータブルコンピュータディスケット、ハードディスク、RAM、ROM、EPROM(またはフラッシュメモリ)、SRAM、CD-ROM、DVD、メモリスティック、フロッピーディスク、パンチカードまたは溝内の隆起構造などに命令を記録した機械的に符号化された装置、およびこれらの適切な組み合せが挙げられる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝播する電磁波、導波管もしくは他の伝送媒体を介して伝播する電磁波(例えば、光ファイバケーブルを通過する光パルス)、またはワイヤを介して送信される電気信号のような、一過性の信号それ自体として解釈されるべきではない。
【0092】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理装置に、または、ネットワーク(例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、もしくはワイヤレスネットワークまたはその組み合わせ)を介して外部コンピュータまたは外部記憶装置にダウンロードすることができる。ネットワークは、銅線伝送ケーブル、光伝送ファイバー、無線伝送、ルーター、ファイアウォール、スイッチ、ゲートウェイコンピュータ、もしくはエッジサーバまたはその組み合わせで構成される。各コンピューティング/処理装置のネットワークアダプタカードまたはネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理装置内のコンピュータ可読記憶媒体に格納するためにコンピュータ可読プログラム命令を転送する。
【0093】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSMALLTALK(登録商標)、C++などのオブジェクト指向プログラミング言語と「C」プログラミング言語や類似のプログラミング言語などの手続き型プログラミング言語を含む、1つ以上のプログラミング言語の任意の組み合わせで記述されたソースコードまたはオブジェクトコードのいずれかであってよい。コンピュータ可読プログラム命令は、スタンドアロンソフトウェアパッケージとして、完全にユーザのコンピュータ上で、または部分的にユーザのコンピュータ上で実行可能である。あるいは、部分的にユーザのコンピュータ上でかつ部分的にリモートコンピュータ上で、または完全にリモートコンピュータまたはサーバ上で実行可能である。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)またはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続され、または(例えば、インターネットサービスプロバイダーを使用したインターネット経由で)外部コンピュータに接続されてよい。いくつかの実施形態では、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用してパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。
【0094】
本発明の態様は、本発明の実施形態による方法、装置(システム)、およびコンピュータプログラム製品のフローチャート図もしくはブロック図またはその両方を参照して本明細書に記載されている。フローチャート図もしくはブロック図またはその両方の各ブロック、およびフローチャート図もしくはブロック図またはその両方のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されよう。
【0095】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令がフローチャートもしくはブロック図またはその両方の1または複数のブロックで指定された機能/動作を実装するための手段を生成するように、機械を生成するために汎用コンピュータ、専用コンピュータのプロセッサまたは他のプログラム可能なデータ処理装置に提供されることができる。これらのコンピュータ可読プログラム命令はまた、フローチャートもしくはブロック図またはその両方の1または複数のブロックで指定された機能/行為の態様を実装する命令を含む生成品の1つを命令が記憶されたコンピュータ可読記憶媒体が構成するように、コンピュータ、プログラム可能なデータ処理装置、もしくは特定の方法で機能する他のデバイスまたはその組み合わせに接続可能なコンピュータ可読記憶媒体の中に記憶されることができる。
【0096】
コンピュータ、他のプログラム可能な装置、または他のデバイス上でフローチャートもしくはブロック図またはその両方の1または複数のブロックで指定された機能/行為を実行する命令のように、コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラム可能なデータ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラム可能な装置、または他のデバイス上で一連の操作ステップを実行し、コンピュータ実装された過程を生成することができる。
【0097】
図中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータプログラム製品が実行可能な実装の構成、機能、および動作を示している。これに関して、フローチャートまたはブロック図の各ブロックは、モジュール、セグメント、または命令の一部を表してよく、これは、指定された論理機能を実装するための1または複数の実行可能命令を構成する。いくつかの代替の実施形態では、ブロックに示されている機能は、図に示されている順序とは異なる場合がある。例えば、連続して示される2つのブロックは、実際には、実質的に同時に実行されるか、またはブロックは、関係する機能に応じて逆の順序で実行される場合がある。ブロック図もしくはフローチャート図またはその両方の各ブロック、およびブロック図もしくはフローチャート図またはその両方のブロックの組み合わせは、指定された機能または動作を実行する、または特別な目的のハードウェアとコンピュータ命令の組み合わせを実行する特別な目的のハードウェアベースのシステムによって実装できることにも留意されたい。
【0098】
本明細書において、「ある実施形態(one embodiment)」または「一実施形態(an embodiment)」ならびにその他の変形は、実施形態に関連して記載される特定の特徴、構造、または特性が、本発明の少なくとも1つの実施形態に含まれることを意味する。したがって、本明細書全体の様々な箇所に登場する「ある実施形態において(in one embodiment)」または「一実施形態において(in an embodiment)」ならびにその他の変形は、必ずしもそうではないがすべて同じ実施形態を指す場合がある。
【0099】
例えば、「A/B」、「AもしくはBまたはその両方」、「AおよびBの少なくとも1つ」の場合、以下の「/」、「~もしくは…またはその両方(and/or)」、「少なくとも1つの(at least one)」のいずれかの使用は、最初に挙げた選択肢(A)のみの選択、または2番目に挙げた選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含することが意図されていることが理解されるであろう。さらなる例として、「A、B、もしくはC、またはその組み合わせ」および「A、B、およびCのうちの少なくとも1つ」の場合、かかる表現は、最初に挙げた選択肢(A)のみの選択、または2番目に挙げた選択肢(B)のみの選択、または3番目に挙げた選択肢(C)のみの選択、または、1番目および2番目に挙げた選択肢(AおよびB)のみの選択、または1番目および3番目に挙げた選択肢(AおよびC)のみの選択、または2番目および3番目に挙げた選択肢(BおよびC)のみの選択、または3つの選択肢(AおよびBおよびC)全ての選択を包含するよう意図されている。これは、本技術および関連技術における通常の技術者が容易に理解できるように、記載された項目の数だけ拡張することができる。
【0100】
システムおよび方法の好ましい実施形態(これらは例示であり、限定することを意図していない)を説明したが、上記の教示に照らして、当業者によって修正および変形がなされ得ることが留意される。したがって、添付の特許請求の範囲によって概説される本発明の範囲内にある、開示された特定の実施形態において変更がなされ得ることが理解されるものとする。このように、特許法が要求する詳細さおよび特殊性をもって、本発明の態様を説明したが、特許状によって保護されることが主張され、望まれるものは、添付の特許請求の範囲に規定されている。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2023-10-27
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
デジタル音声の認識精度を向上させるためのコンピュータ実装方法であって、
前記デジタル音声を受信することと、
前記デジタル音声を重複チャンクに分割することと、
双方向エンコーダ埋め込みを取得するために前記重複チャンクの各々の双方向エンコーダ埋め込みを計算することと、
前記双方向エンコーダ埋め込みを結合することと、
音声認識システムによって、前記結合された双方向エンコーダ埋め込みを使用して、前記デジタル音声を解釈することと、
を含む、コンピュータ実装方法。
【請求項2】
前記結合ステップは、第1の重複チャンクおよび第2の重複チャンクの前記双方向エンコーダ埋め込みを結合する際に、前記第2の重複チャンクの前記双方向エンコーダ埋め込みのみを使用し、前記第1の重複チャンクの前記双方向エンコーダ埋め込みを省略することによって、前記双方向エンコーダ埋め込みを結合する、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記結合ステップは、第1の重複チャンクおよび第2の重複チャンクの前記双方向エンコーダ埋め込みを結合する際に、前記第1の重複チャンクの前記双方向エンコーダ埋め込みを前記第2の重複チャンクの前記双方向エンコーダ埋め込みと平均化することを含む、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記結合ステップは、最終結果の前半で前記重複チャンクの左の1つからの前記双方向エンコーダ埋め込みを使用し、最終結果の後半で前記重複チャンクの右の1つからの前記双方向エンコーダ埋め込みを使用することを含む、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記音声認識システムは、前記受信したデジタル音声を解釈するためにリカレントニューラルネットワーク変換器モデルを使用する、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記リカレントニューラルネットワーク変換器モデルが、予測ネットワークおよびエンコーダに動作可能に結合されたジョイントネットワークを含む、請求項5に記載のコンピュータ実装方法。
【請求項7】
前記リカレントニューラルネットワーク変換器モデルは、前記ジョイントネットワークに動作可能に結合され、前記ジョイントネットワークの出力を条件付き確率分布に変換するソフトマックス層をさらに含む、請求項6に記載のコンピュータ実装方法。
【請求項8】
重複チャンクは、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中に使用される、請求項5に記載のコンピュータ実装方法。
【請求項9】
チャンクのサイズは、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中にランダム化される、請求項5に記載のコンピュータ実装方法。
【請求項10】
チャンクのサイズは、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中に固定される、請求項5に記載のコンピュータ実装方法。
【請求項11】
チャンクの重複量は、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中に固定される、請求項5に記載のコンピュータ実装方法。
【請求項12】
チャンクの重複量は、前記リカレントニューラルネットワーク変換器モデルの訓練セッション中にランダム化される、請求項5に記載のコンピュータ実装方法。
【請求項13】
前記エンコーダは、前記音声認識システムにおける音響モデルをシミュレートするように構成され、予測ネットワークは、前記音声認識システムにおける言語モデルをシミュレートするように構成される、請求項5に記載のコンピュータ実装方法。
【請求項14】
前記解釈ステップは、前記リカレントニューラルネットワーク変換器モデルのアライメント格子上でビームサーチを実行することを含む、請求項5に記載のコンピュータ実装方法。
【請求項15】
前記重複チャンク間の重複量は、精度対待ち時間を制御するために使用される推論時のパラメータである、請求項1に記載のコンピュータ実装方法。
【請求項16】
前記重複チャンクの重複する領域は、リカレントニューラルネットワーク変換器モデルにおける音響エンコーダの重複を含む、請求項1に記載のコンピュータ実装方法。
【請求項17】
デジタル音声の認識精度を向上させるためのコンピュータプログラム製品であって、前記コンピュータプログラム製品は、プログラム命令をその中に実装した非一時的コンピュータ可読記憶媒体を含み、前記プログラム命令は、コンピュータによって実行可能であり、前記コンピュータに、方法を実行させ、前記方法は、
前記デジタル音声を受信することと、
前記デジタル音声を重複チャンクに分割することと、
双方向エンコーダ埋め込みを取得するために前記重複チャンクの各々の双方向エンコーダ埋め込みを計算することと、
前記双方向エンコーダ埋め込みを結合することと、
音声認識システムによって、前記結合された双方向エンコーダ埋め込みを使用して、前記デジタル音声を解釈することと、
を含む、コンピュータプログラム製品。
【請求項18】
前記結合ステップは、第1の重複チャンクおよび第2の重複チャンクの前記双方向エンコーダ埋め込みを結合する際に、前記第2の重複チャンクの前記双方向エンコーダ埋め込みのみを使用し、前記第1の重複チャンクの前記双方向エンコーダ埋め込みを省略することによって、前記双方向エンコーダ埋め込みを結合する、請求項17に記載のコンピュータプログラム製品
【請求項19】
前記結合ステップは、第1の重複チャンクおよび第2の重複チャンクの前記双方向エンコーダ埋め込みを結合する際に、前記第1の重複チャンクの前記双方向エンコーダ埋め込みを前記第2の重複チャンクの前記双方向エンコーダ埋め込みと平均化することを含む、請求項17に記載のコンピュータプログラム製品
【請求項20】
プログラムコードを記憶するための記憶装置と、
前記プログラムコードを実行するために、前記記憶装置に動作可能に結合されたプロセッサデバイスと、を備え、前記プログラムコードは、
デジタル音声を受信することと、
前記デジタル音声を重複チャンクに分割することと、
双方向エンコーダ埋め込みを取得するために前記重複チャンクの各々の双方向エンコーダ埋め込みを計算することと、
前記双方向エンコーダ埋め込みを結合することと、
前記結合された双方向エンコーダ埋め込みを使用して、前記デジタル音声を解釈することと、
を実行する、音声認識システム。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0017
【補正方法】変更
【補正の内容】
【0017】
データ記憶装置140は、例えば、メモリデバイスおよび回路、メモリカード、ハードディスクドライブ、ソリッドステートドライブ、または他のデータ記憶装置など、データの短期または長期記憶用に構成された任意のタイプのデバイスまたは装置として実装することができる。データ記憶装置140は、エンドツーエンドの音声認識のためのストリーミングRNN-Tのチャンキングおよび重複復号のためのプログラムコード140Aを記憶することができる。コンピューティングデバイス100の通信サブシステム150は、ネットワークを介してコンピューティングデバイス100と他のリモートデバイスとの間の通信を可能にすることができる、任意のネットワークインタフェースコントローラまたは他の通信回路、デバイス、またはその集合体として実装され得る。通信サブシステム150は、任意の1または複数の通信技術(例えば、有線または無線通信)および関連プロトコル(例えば、イーサネット、InfiniBand(登録商標)、Bluetooth(登録商標)、Wi-Fi(登録商標)、WiMAXなど)を使用して、かかる通信を実現するように構成されることがある。
【手続補正3】
【補正対象書類名】図面
【補正対象項目名】図6
【補正方法】変更
【補正の内容】
図6
【国際調査報告】