(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-30
(54)【発明の名称】ニューラル・トランスデューサ・モデルに統合された外部言語モデル情報
(51)【国際特許分類】
G10L 15/06 20130101AFI20250123BHJP
G10L 15/16 20060101ALI20250123BHJP
【FI】
G10L15/06 300C
G10L15/16
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024540723
(86)(22)【出願日】2023-01-16
(85)【翻訳文提出日】2024-07-04
(86)【国際出願番号】 EP2023050846
(87)【国際公開番号】W WO2023139016
(87)【国際公開日】2023-07-27
(32)【優先日】2022-01-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】倉田 岳人
(57)【要約】
ニューラル・トランスデューサを訓練するためのコンピュータ実施方法であって、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得することと、スーパーバイザリ出力を取得するために出力を結合することと、出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新することと、を含む、コンピュータ実施方法が提供される。ニューラル・トランスデューサは、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)であり得る。
【特許請求の範囲】
【請求項1】
ニューラル・トランスデューサを訓練するためのコンピュータ実施方法であって、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得することと、
スーパーバイザリ出力を取得するために前記出力を結合することと、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新することと、
を含む、コンピュータ実施方法。
【請求項2】
前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)である、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記出力を前記結合することが、線形補間を使用することによって行われる、請求項1または2に記載のコンピュータ実施方法。
【請求項4】
前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項1または2に記載のコンピュータ実施方法。
【請求項5】
前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項1ないし4のいずれか一項に記載のコンピュータ実施方法。
【請求項6】
前記事後ラティスの水平軸が、時間インデックスtであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルuであり、前記事後ラティス内の各ノードt,uが、トランスクリプション・シーケンスのポイントtによって出力シーケンスの最初のu要素(elements)の出力を有する事後分布を表す、請求項5に記載のコンピュータ実施方法。
【請求項7】
前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のuを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項6に記載のコンピュータ実施方法。
【請求項8】
ニューラル・トランスデューサを訓練するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、前記プログラム命令が、コンピュータに、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得させ、
スーパーバイザリ出力を取得するために前記出力を結合させ、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新させる、
ために、前記コンピュータによって実行可能である、コンピュータ・プログラム製品。
【請求項9】
前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)である、請求項8に記載のコンピュータ・プログラム製品。
【請求項10】
前記出力を前記結合することが、線形補間を使用することによって行われる、請求項8または9に記載のコンピュータ・プログラム製品。
【請求項11】
前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項8または9に記載のコンピュータ・プログラム製品。
【請求項12】
前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項8ないし11のいずれか一項に記載のコンピュータ・プログラム製品。
【請求項13】
前記事後ラティスの水平軸が、時間インデックスtであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルuであり、前記事後ラティス内の各ノードt,uが、トランスクリプション・シーケンスのポイントtによって出力シーケンスの最初のu要素(elements)の出力を有する事後分布を表す、請求項12に記載のコンピュータ・プログラム製品。
【請求項14】
前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のuを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項13に記載のコンピュータ・プログラム製品。
【請求項15】
ニューラル・トランスデューサを訓練するための訓練データを準備するためのシステムであって、
メモリと、
前記メモリと通信する1つまたは複数のプロセッサであって、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得し、
スーパーバイザリ出力を取得するために前記出力を結合し、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新する、
ように構成される、プロセッサと、
を備える、システム。
【請求項16】
前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)である、請求項15に記載のシステム。
【請求項17】
前記出力を前記結合することが、線形補間を使用することによって行われる、請求項15または16に記載のシステム。
【請求項18】
前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項15または16に記載のシステム。
【請求項19】
前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項15ないし18のいずれか一項に記載のシステム。
【請求項20】
前記事後ラティスの水平軸が、時間インデックスtであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルuであり、前記事後ラティス内の各ノードt,uが、トランスクリプション・シーケンスのポイントtによって出力シーケンスの最初のu要素(elements)の出力を有する事後分布を表し、前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のuを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項19に記載のシステム。
【請求項21】
コンピュータ・プログラムであって、前記プログラムがコンピュータ上で動作すると、請求項1ないし7のいずれか一項に記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、機械学習に関し、より詳細には、エンド・ツー・エンド音声認識のために、外部言語モデル情報を、例えば、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T:recurrent neural network transducer)・モデルなどのニューラル・トランスデューサ・モデルに統合するための方法およびシステムに関する。
【背景技術】
【0002】
自動音声認識(ASR:automatic speech recognition)のためのエンド・ツー・エンド・モデルが、従来のASRシステムの別個のコンポーネント(例えば、音響、発音、および言語モデル)を単一のニューラル・ネットワークに組み込む方法として近年人気を集めている。そのようなモデルの例には、コネクショニスト時系列分類(CTC:connectionist temporal classification)ベース・モデル、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)、およびアテンション・ベースseq2seqモデルが含まれる。これらのモデルの中で、RNN-Tは、最もストリーミングに適したエンド・ツー・エンド認識器であり、従来システムと比較して競争力のある性能を示している。
【発明の概要】
【0003】
本発明の一態様によれば、ニューラル・トランスデューサを訓練するためのコンピュータ実施方法が提供される。コンピュータ実施方法は、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得することと、スーパーバイザリ出力を取得するために出力を結合することと、出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新することと、を含む。
【0004】
本発明の別の態様によれば、ニューラル・トランスデューサを訓練するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、プログラム命令は、コンピュータに、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得させ、スーパーバイザリ出力を取得するために出力を結合させ、出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新させる、ために、コンピュータによって実行可能である。
【0005】
本発明のさらに別の態様によれば、ニューラル・トランスデューサを訓練するためのシステムが提供される。システムは、メモリと、メモリと通信する1つまたは複数のプロセッサであって、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得し、スーパーバイザリ出力を取得するために出力を結合し、出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新する、ように構成される、プロセッサと、を含む。
【0006】
例示的実施形態は、異なる主題に関連して説明されることに留意されたい。特に、方法タイプの請求項に関連して説明される実施形態もあれば、装置タイプの請求項に関連して説明される実施形態もある。しかしながら、当業者であれば、特段の言及がない限り、1つのタイプの主題に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴間の任意の組み合わせ、特に方法タイプ請求項の特徴と装置タイプ請求項の特徴との間の任意の組み合わせも、本文書内で説明されるものと考えられるということを上記および以下の説明から推察するであろう。
【0007】
これらのおよび他の特徴および利点は、その例示的実施形態の以下の詳細な説明から明らかとなり、詳細な説明は、添付図面に関連して読まれるべきである。
【0008】
本発明の好適な実施形態は、単なる例として、以下の図面を参照してここで説明される。
【図面の簡単な説明】
【0009】
【
図1】本発明の実施形態による、外部言語モデル(LM)情報を、例えば、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)などのニューラル・トランスデューサ・モデルに統合するための例示的システムのブロック/フロー図である。
【
図2】例示的なニューラル・トランスデューサ・アーキテクチャおよび出力確率ラティスのブロック/フロー図である。
【
図3】本発明の実施形態による、外部言語モデル(LM)を統合することによりニューラル・トランスデューサを訓練するための方法のブロック/フロー図である。
【
図4】本発明の実施形態による、外部LM情報をRNN-Tなどのニューラル・トランスデューサ・モデルに統合するための例示的な方法のブロック/フロー図である。
【
図5】本発明の実施形態による、ニューラル・トランスデューサが音声テキスト変換のために自動音声認識(ASR)でどのように使用されるかの実際の適用例を示す図である。
【
図6】本発明の実施形態による、外部LM情報をRNN-Tなどのニューラル・トランスデューサ・モデルに統合するための例示的な処理システムのブロック/フロー図である。
【
図7】本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック/フロー図である。
【
図8】本発明の実施形態による、例示的な抽象モデル層の概略図である。
【発明を実施するための形態】
【0010】
図面全体を通して、同一または類似の参照番号は、同一または類似の要素を表す。
【0011】
本発明による実施形態は、外部言語モデル(LM)からの事後分布(posterior)を使用することによってニューラル・トランスデューサ・モデルを改善するための方法およびデバイスを提供する。
【0012】
回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)へと掘り下げる前に、音声認識は進化し続けている。ASRシステムの品質の向上を図る、既存アーキテクチャに対する新たな音声認識アーキテクチャまたは改善策が、開発され続けている。説明すると、音声認識は、最初は、各モデルが専用の目的を有する複数のモデルを採用していた。例えば、ASRシステムは、音響モデル(AM:acoustic model)、発音モデル(PM:pronunciation model)、および言語モデル(LM:language model)を含んでいた。音響モデルは、オーディオのセグメント(例えば、オーディオのフレーム)を音素にマッピングするものであった。発音モデルは、これらの音素を接続して単語を形成し、言語モデルは、与えられたフレーズの尤度(例えば、単語のシーケンスの可能性)を表現するために使用された。さらにこれらの個別のモデルは協働するものであったが、各モデルは独立して訓練され、多くの場合、異なるデータセットに対して手動で設計された。
【0013】
別個のモデルの手法によって、特に、所与のモデルのための訓練コーパス(例えば、訓練データの本体)がモデルの有効性を満たしたときに、音声認識システムが非常に正確になることが可能となったが、別個のモデルを独立して訓練する必要があることによって、それ自体に複雑性がもたらされ、統合モデルを用いたアーキテクチャが導き出された。これらの統合モデルは、単一ニューラル・ネットワークを使用して、オーディオ波形(例えば、入力シーケンス)を出力センテンス(例えば、出力シーケンス)に直接マッピングしようとするものであった。これによって、シーケンス・ツー・シーケンスの手法が得られ、それによって、オーディオ特徴のシーケンスを与えたときに、単語(または書記素)のシーケンスが生成された。シーケンス・ツー・シーケンス・モデルの例には、「アテンション・ベース」モデルおよび「リッスン・アテンド・スペル」(LAS)モデルが含まれる。LASモデルは、リスナ・コンポーネント、アテンダ・コンポーネント、およびスペラ・コンポーネントを使用して音声発話を文字にトランスクリプトする。ここで、リスナは、オーディオ入力(例えば、音声入力の時間周波数表現)を受信し、オーディオ入力をより上位の特徴表現にマッピングする、回帰型ニューラル・ネットワーク(RNN)の符号化器である。アテンダは、より上位の特徴に注目して、入力特徴と予測されるサブワード単位(例えば、書記素または単語片)との間のアラインメントを学習する。スペラは、仮定された単語のセットにわたる確率分布を作り出すことによって、入力から文字シーケンスを生成する、アテンション・ベースRNN復号器である。統合構造では、モデルの全てのコンポーネントが、単一のエンド・ツー・エンド(E2E)ニューラル・ネットワークとして併せて訓練されてもよい。ここでは、E2Eモデルは、アーキテクチャが完全にニューラル・ネットワークから構成されるモデルを指す。完全なニューラル・ネットワークは、外部コンポーネントまたは手動で設計されたコンポーネント(例えば、有限状態トランスデューサ、語彙集(lexicon)、またはテキスト正規化モジュール)あるいはその両方がなくても機能する。加えて、E2Eモデルを訓練すると、これらのモデルは、概して、決定木からのブートストラップまたは別個のシステムからの時間アラインメントを必要としない。
【0014】
初期E2Eモデルは、個別に訓練されたモデルを越える、正確性と訓練の改善を証明したが、LASモデルなどのこれらのE2Eモデルは、出力テキストを生成する前に入力シーケンス全体をレビューすることによって機能し、したがって、入力を受信したときにストリーミング出力を可能にしなかった。ストリーミング・ケイパビリティがなければ、LASモデルは、リアルタイム音声トランスクリプションを実行することができない。この欠陥のため、レイテンシに敏感な、またはリアルタイム音声トランスクリプションが必要な音声アプリケーションに対してLASモデルを展開することは、問題を引き起こす場合がある。
【0015】
加えて、音響、発音、および言語モデルを有する音声認識システム、または合わせて構成されたそのようなモデルは、これらのモデルに関連付けられた比較的大規模な探索グラフを探索しなければならない復号器に依存し得る。大規模な探索グラフの場合、このタイプの音声認識システムを完全にオンデバイスでホストすることは助けとならない。ここで、音声認識システムが「オンデバイス」でホストされると、オーディオ入力を受信するデバイスは、そのプロセッサを使用して、音声認識システムの機能を実行する。例えば、音声認識システムが完全にオンデバイスでホストされると、デバイスのプロセッサは、音声認識システムの機能を実行するために、いかなるオフデバイス・コンピューティング・リソースとも協調する必要はない。完全なオンデバイスでない音声認識を実行するデバイスは、音声認識システムの少なくともいくつかの機能を実行するために、(例えば、リモート・コンピューティング・システムまたはクラウド・コンピューティングの)リモート・コンピューティング、およびしたがってオンライン接続性に依存する。例えば、音声認識システムは、サーバ・ベース・モデルとのネットワーク接続を使用して大規模探索グラフで復号を実行する。
【0016】
残念ながら、リモート接続に依存することによって、音声認識システムは、通信ネットワークのレイテンシ問題または固有の信頼性の低さあるいはその両方に対して脆弱になる。これらの問題を回避することによって音声認識の有用性を改善するために、音声認識システムはこの場合も、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)として知られるシーケンス・ツー・シーケンス・モデルの形式に発展した。RNN-Tは、アテンション・メカニズムを採用しておらず、概して出力(例えば、センテンス)を作り出すためにシーケンス全体(例えば、オーディオ波形)を処理する必要がある他のシーケンス・ツー・シーケンス・モデルとは異なり、RNN-Tは、入力サンプルを連続的に処理し、出力シンボルをストリーミングする。これは、リアルタイム通信にとって特に魅力的な特徴である。例えば、RNN-Tを用いた音声認識は、文字を1つずつ話すように出力し得る。
【0017】
したがって、音声認識の正確性を改善するためのより効率的なプロセスの必要性が存在する。本発明の例示的実施形態は、外部言語モデル(LM)からの事後分布を使用することによってニューラル・トランスデューサ・モデル(例えば、RNN-T)を改善する方法を導入する。
【0018】
本発明は、所与の例示的アーキテクチャに関して説明されるが、他のアーキテクチャ、構造、基板材料、ならびにプロセス特徴およびステップ/ブロックが、本発明の範囲内において変化し得ることを理解すべきである。明確化のために、ある特徴を全ての図面に示すことができないことに留意すべきである。これは、任意の特定の実施形態もしくは例示、または特許請求の範囲の限定として解釈されることを意図するものではない。
【0019】
図1は、本発明の実施形態による、外部言語モデル(LM)情報を、例えば、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)などのニューラル・トランスデューサ・モデルに統合するための例示的システム10のブロック/フロー図である。
【0020】
例示的実施形態は、事後ラティス(posterior lattice)の各P(y|t,u)について言語モデルの確率P_{LM}(y|u)が結合されるシステム10を導入する。このように、任意の時間インデックスについて、先行する出力シンボルが与えられたLM確率は、同一である。その結果、同一のP_{LM}(y|u)が、同一のuを有する全ての時間インデックスtについてのP(y|t,u)と結合され得る。次いで、結合された確率は、ニューラル・トランスデューサ・モデルを訓練するための教師として使用される。
【0021】
特に、
図1を参照すると、任意のタイプの言語モデル22は、大量のテキスト・データ(例えば、外部コーパス)から訓練される。オーディオ・データ14およびそのトランスクリプション・データ12を使用することによって、事後ラティスのP(y|t,u)(32)は、シード・ニューラル・トランスデューサ・モデル20から計算される。次いで、言語モデルの確率P_{LM}(y|u)(30)が、訓練済み言語モデル22を用いて計算され、P(y|t,u)(32)およびP_{LM}(y|u)(30)が、例えば、線形補間または対数線形補間を使用することによって結合される。ニューラル・トランスデューサ・モデル24のパラメータは、訓練中のニューラル・トランスデューサ・モデル(24)からの出力と計算された補間後の出力(34)との間のKLダイバージェンスまたは平均二乗誤差を最小化することによって更新される。
【0022】
本発明の利点は、好ましくは、ニューラル・トランスデューサ・モデル自体が、シード・ニューラル・トランスデューサ・モデルおよび外部言語モデルの補間後の出力をもたらすために訓練される、少なくともより良好な音声認識の正確性を含む。
【0023】
図2は、例示的なニューラル・トランスデューサ・アーキテクチャおよび出力確率ラティスのブロック/フロー図である。
【0024】
ニューラル・トランスデューサ・アーキテクチャは、例えば、RNN-Tモデル50であってもよく、RNN-Tモデル50は、符号化器(または符号化器ネットワーク)54と、予測(または予測ネットワーク)64と、結合ネットワーク70と、を含む。符号化器ネットワーク54は、音響モデルに類似しており、音響モデルは、音響特徴x
tを上位表現
【数1】
に変換し、tは時間インデックスである。予測ネットワーク64は、RNN言語モデルのように動作し、RNN言語モデルは、RNN-Tモデルによって予測された前の非ブランク・ターゲットy
u-1(62)を条件とすることによって、上位表現
【数2】
を作り出し、uは、出力ラベル・インデックスである。
【0025】
結合ネットワーク70は、符号化器ネットワーク出力
【数3】
と予測ネットワーク出力
【数4】
とを結合する、フィード・フォワード・ネットワークである。各出力トークンkについての最終事後分布が、ソフトマックス演算72の適用後に取得される。
【数5】
【0026】
RNN-Tの損失関数は、入力音響特徴xが与えられた出力ラベル・シーケンスyの負の対数事後分布である。
L=-lnP(y|x)
【0027】
このようにして、RNN-Tモデル50に従って、ニューラル・トランスデューサは、P(y|t,u)(74)によって定義された出力確率ラティスにわたる探索によって、入力特徴シーケンスxに基づいて出力シーケンスyを生成する。x=(x1,...xT)は、オーディオ特徴ベクトルの入力シーケンス52であり、y=(y1,...yU)は、前のトークンのシーケンス76であり、z{t,u}は、ロジットである。
【0028】
出力確率ラティス80について、各ノード88は、z_{t,u}のソフトマックスを表す。
【0029】
図3は、本発明の実施形態による、外部言語モデル(LM)を統合することによりニューラル・トランスデューサを訓練するための方法のブロック/フロー図である。
【0030】
ブロック90において、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデル、および例えばRNN-Tなどのシード・ニューラル・トランスデューサからそれぞれ出力を取得する。
【0031】
ブロック92において、スーパーバイザリ出力を取得するために出力を結合する。
【0032】
ブロック94において、その出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新する。別の言い方をすると、訓練中の別のニューラル・トランスデューサからの出力が、スーパーバイザリ出力に接近し、または近づく。シード・ニューラル・トランスデューサ20(
図1)は固定である。新たなニューラル・トランスデューサ24(
図1)は、スクラッチ(ランダム値)から訓練され、またはシード・モデルによって初期化される。シード・ニューラル・トランスデューサは、訓練中のニューラル・トランスデューサとは異なることに留意されたい。
【0033】
図4は、本発明の実施形態による、外部言語モデル(LM)情報をRNN-Tなどのニューラル・トランスデューサ・モデルに統合するための例示的な方法のブロック/フロー図である。
【0034】
ブロック100において、大量のテキスト・データから任意のタイプの言語モデルを訓練する。
【0035】
ブロック102において、オーディオおよびそのトランスクリプションを使用することによって、シード・ニューラル・トランスデューサ・モデルから事後ラティスのP(y|t,u)を計算する。
【0036】
ブロック104において、訓練済み言語モデルで言語モデル確率P_{LM}(y|u)を計算する。
【0037】
ブロック106において、例えば、線形補間または対数線形補間のいずれかを使用することによって、P(y|t,u)およびP_{LM}(y|u)を結合する。
【0038】
ブロック108において、訓練中のニューラル・トランスデューサ・モデルからの出力と計算された補間後の出力との間のKLダイバージェンスまたは平均二乗誤差を最小化することによって、ニューラル・トランスデューサ・モデルのパラメータを更新する。上述の通り、シード・ニューラル・トランスデューサ20(
図1)は固定である。新たなニューラル・トランスデューサ24(
図1)は、スクラッチ(ランダム値)から訓練され、またはシード・モデルによって初期化される。シード・ニューラル・トランスデューサは、訓練中のニューラル・トランスデューサとは異なることに留意されたい。
【0039】
図5は、本発明の実施形態による、RNN-Tが音声テキスト変換のために自動音声認識(ASR)でどのように使用されるかの実際の適用例110を示す。
【0040】
簡単に言うと、対話型人工知能(AI)は、機械と通信するために自然言語を使用するものである。対話型AIの深層学習アプリケーションは、音声アシスタントおよびチャットボットから顧客セルフ・サービスを可能にする質問応答システムまで、日々成長している。ソリューションに対話型AIを適合する産業の範囲は幅広く、金融からヘルスケアに及ぶ多様な領域を有する。対話型AIは、正確で、高速かつ自然な人間対機械の対話で快適なユーザ・エクスペリエンスを届けるために、シームレスに、かつ調和して動作しなければならない複数の深層ニューラル・ネットワークを統合する、複合システムである。これらの目標を達成するために、開発者は、特に、領域適応、ユーザ分析、コンプライアンス、高精度音声認識、ユーザ識別、感情分析などを遂行するような重要な問題を解決するアプリケーションを開発している。
【0041】
対話型AIアプリケーションは、3つのサブシステムを使用して、オーディオを処理し、トランスクリプトするステップ、聞かれた質問を理解する(意味を導き出す)ステップ、応答(テキスト)を生成し、人間に応答を返すステップを実行する。これらのステップは、共に動作する複数の深層学習ソリューションによって達成される。第1に、自動音声認識(ASR)システム112は、生のオーディオ信号を処理し、それからテキストをトランスクリプトするために使用される。第2に、自然言語処理(NLP)は、トランスクリプトされたテキスト(ASR出力)から意味を導き出すために使用される。この場合、シード・ニューラル・トランスデューサ20(
図1)は固定である。新たなニューラル・トランスデューサ24(
図1)は、スクラッチ(ランダム値)から訓練され、またはシード・モデルによって初期化される。シード・ニューラル・トランスデューサは、訓練中のニューラル・トランスデューサとは異なることに留意されたい。最後に、音声合成または音声テキスト化116が、テキストを作り出すために使用される。作り出されたテキストは、例えば、スマートフォン120、タブレット122、またはコンピュータ124、あるいはそれらの組み合わせの上に表示され得る。その結果、例示的システム10は、例示的な実際の適用例として、音声116からテキストを作り出すためにASR112において実施され得る。
【0042】
図6は、本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な処理システムのブロック/フロー図である。
【0043】
図6は、コンピューティング・デバイス205を含むシステム200のコンポーネントのブロック図を示す。
図6は、単に1つの実施態様の例示を提供するだけであり、異なる実施形態が実施され得る環境に関していかなる限定も示唆しないと理解されたい。図示された環境に対して多くの修正が行われ得る。
【0044】
コンピューティング・デバイス205は、通信ファブリック202を含み、通信ファブリック202は、コンピュータ・プロセッサ204、メモリ206、永続記憶装置208、通信ユニット210、および入力/出力(I/O)インターフェース212の間に通信を提供する。通信ファブリック202は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサなど)、システム・メモリ、周辺デバイス、ならびにシステム内の任意の他のハードウェア・コンポーネント間でデータを渡し、または情報を制御し、あるいはその両方を行うように設計された任意のアーキテクチャで実施され得る。例えば、通信ファブリック202は、1つまたは複数のバスで実施され得る。
【0045】
メモリ206、キャッシュ・メモリ216、および永続記憶装置208は、コンピュータ可読記憶媒体である。本実施形態では、メモリ206は、ランダム・アクセス・メモリ(RAM)214を含む。別の実施形態では、メモリ206は、フラッシュ・メモリであってもよい。概して、メモリ206は、任意の適当な揮発性または不揮発性コンピュータ可読記憶媒体を含み得る。
【0046】
本発明のいくつかの実施形態では、プログラム225は、コンピューティング・デバイス205のコンポーネントとしてAIアクセラレータ・チップ222によって含まれ、動作される。他の実施形態では、プログラム225は、メモリ206の1つまたは複数のメモリを介した、それぞれのコンピュータ・プロセッサ204のうちの1つまたは複数と併せた(エンド・ツー・エンド音声認識のために、外部言語モデル情報を、例えば回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)・モデルなどのニューラル・トランスデューサ・モデルに統合するための)AIアクセラレータ・チップ222による実行のために、永続記憶装置208に記憶される。本実施形態では、永続記憶装置208は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代替として、または加えて、永続記憶装置208は、ソリッド・ステート・ハード・ドライブ、半導体記憶デバイス、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶することが可能な任意の他のコンピュータ可読記憶媒体を含み得る。
【0047】
永続記憶装置208によって使用される媒体は、また、リムーバブルであってもよい。例えば、リムーバブル・ハード・ドライブは、永続記憶装置208のために用いられてもよい。他の実施例は、永続記憶装置208の一部でもある別のコンピュータ可読記憶媒体上への転送のために、ドライブ内に挿入される光学および磁気ディスク、サム・ドライブ、ならびにスマート・カードを含む。
【0048】
これらの実施例において、通信ユニット210は、分散型データ処理環境のリソースを含む、他のデータ処理システムまたはデバイスとの通信を提供する。これらの実施例では、通信ユニット210は、1つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット210は、物理的通信リンクおよび無線通信リンクのいずれかまたは両方の使用を通して通信を提供し得る。深層学習プログラム225は、通信ユニット210を通して永続記憶装置208にダウンロードされ得る。
【0049】
I/Oインターフェース212は、コンピューティング・システム200に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、I/Oインターフェース212は、キーボード、キーパッド、タッチ・スクリーン、または何らかの他の適当な入力デバイス、あるいはそれらの組み合わせなどの外部デバイス218への接続を提供し得る。外部デバイス218は、例えば、サム・ドライブ、ポータブル光学または磁気ディスク、およびメモリ・カードなどの、ポータブル・コンピュータ可読記憶媒体も含み得る。
【0050】
ディスプレイ220は、ユーザにデータを表示するための機構を提供し、例えば、コンピュータ・モニタであってもよい。
【0051】
図7は、本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック/フロー図である。
【0052】
本発明は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に列挙する教示の実施態様は、クラウド・コンピューティング環境に限定されないと理解されたい。むしろ、本発明の実施形態は、現在既知の、または後に開発される任意の他のタイプのコンピューティング環境と併せて実施されることが可能である。
【0053】
クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速に供給され、リリースされ得る、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含み得る。
【0054】
特性は、以下の通りである。
【0055】
オンデマンド・セルフサービス:クラウド消費者は、サービス・プロバイダと人との対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを一方的に供給し得る。
【0056】
幅広いネットワーク・アクセス:ケイパビリティは、ネットワーク上で利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを通してアクセスされる。
【0057】
リソースの共用:プロバイダのコンピューティング・リソースが、マルチテナント型モデルを使用して複数の消費者にサービスするためにプールされ、異なる物理リソースおよび仮想リソースが要求に従って動的に割り当ておよび再割り当てされる。消費者が、概して、提供されるリソースの正確な場所に対する制御または知識を有しないが、より高い抽象レベル(例えば、国、州、またはデータセンタ)において場所を指定することが可能であり得るという点において、位置独立の意味がある。
【0058】
スピーディな拡張性:ケイパビリティは、場合によっては自動的に、即座にスケール・アウトするようにスピーディかつ弾力的に供給され、即座にスケール・インするようにスピーディに解放され得る。消費者に対しては、供給に利用可能なケイパビリティが、多くの場合無制限であるように見え、いつでも任意の量で購入可能である。
【0059】
サービスが計測可能であること:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ・アカウント)に適したある抽象レベルにおいて計測ケイパビリティを活用することによって、リソース使用を自動的に制御し、最適化する。リソース使用量は、モニタリングされ、制御され、報告されて、利用サービスのプロバイダおよび消費者の両方に透明性をもたらし得る。
【0060】
サービス・モデルは、以下の通りである。
【0061】
サービスとしてのソフトウェア(SaaS):消費者に提供されるケイパビリティは、クラウド・インフラ上で実行中のプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えば、ウェブ・ベースの電子メール)を通して、様々なクライアント・デバイスからアクセス可能である。消費者は、限定されたユーザ固有アプリケーションの構成設定は例外である可能性があるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケイパビリティでさえも含む、基礎的なクラウド・インフラを管理または制御しない。
【0062】
サービスとしてのプラットフォーム(PaaS):消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成したアプリケーションまたは消費者が取得したアプリケーションを、クラウド・インフラ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラを管理または制御しないが、展開されたアプリケーション、および、可能な限りアプリケーション・ホスティング環境構成に対して制御を行う。
【0063】
サービスとしてのインフラ(IaaS):消費者に提供されるケイパビリティは、処理、ストレージ、ネットワーク、ならびに消費者がオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行することが可能な、他の基本コンピューティング・リソースを供給することである。消費者は、基礎となるクラウド・インフラを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対して制御を行い、かつ可能な限り選択ネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)の限定的な制御を行う。
【0064】
展開モデルは、以下の通りである。
【0065】
プライベート・クラウド:クラウド・インフラは、組織のためだけに動作される。クラウド・インフラは、その組織または第三者によって管理され、構内または構外に存在し得る。
【0066】
コミュニティ・クラウド:クラウド・インフラは、複数の組織によって共有され、共有の関心事(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラは、その組織または第三者によって管理され、構内または構外に存在し得る。
【0067】
パブリック・クラウド:クラウド・インフラは、一般公衆または大きな業界団体に利用可能とされ、クラウド・サービスを販売する組織によって所有される。
【0068】
ハイブリッド・クラウド:クラウド・インフラは、一意なエンティティのままであるが、データおよびアプリケーション・ポータビリティを可能にする標準化技術または独自技術(例えば、クラウド間のロード・バランシングのためのクラウド・バースティング)によって結合された、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
【0069】
クラウド・コンピューティング環境は、無国籍、低結合、モジュール性、および意味相互運用性を中心としたサービス指向型である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラである。
【0070】
ここで
図7を参照すると、本発明のユース・ケースを可能にするための例示的なクラウド・コンピューティング環境450が示されている。図示するように、クラウド・コンピューティング環境450は、例えば、携帯情報端末(PDA)もしくは携帯電話454A、デスクトップ・コンピュータ454B、ラップトップ・コンピュータ454C、または自動車コンピュータ・システム454N、あるいはそれらの組み合わせなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが通信し得る、1つまたは複数のクラウド・コンピューティング・ノード410を含む。ノード410は、互いに通信し得る。それらは、上述のようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの、1つまたは複数のネットワーク内で物理的または仮想的にグループ化され得る(図示せず)。これによって、クラウド・コンピューティング環境450が、インフラ、プラットフォーム、またはソフトウェア、あるいはそれらの組み合わせを、クラウド消費者がローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提案することが可能となる。
図7に示されるコンピューティング・デバイス454A~Nのタイプは、単なる例示であるように意図され、コンピューティング・ノード410およびクラウド・コンピューティング環境450は、任意のタイプのネットワークまたはネットワーク・アドレス可能な接続あるいはその両方を経て(例えば、ウェブ・ブラウザを用いて)、任意のタイプのコンピュータ化デバイスと通信し得ると理解されたい。
【0071】
図8は、本発明の実施形態による、例示的な抽象モデル層の概略図である。
図8に示されるコンポーネント、層、および機能は、単なる例示であるように意図され、本発明の実施形態は、それらに限定されないと、予め理解されたい。図示されるように、以下の層および対応する機能が提供される。
【0072】
ハードウェアおよびソフトウェア層560は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム561、RISC(Reduced Instruction Set Computer)アーキテクチャ・ベース・サーバ562、サーバ563、ブレード・サーバ564、記憶デバイス565、ならびにネットワークおよびネットワーキング・コンポーネント566を含む。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア567およびデータベース・ソフトウェア568を含む。
【0073】
仮想化層570は、仮想エンティティの以下の例、仮想サーバ571、仮想ストレージ572、仮想プライベート・ネットワークを含む仮想ネットワーク573、仮想アプリケーションおよびオペレーティング・システム574、ならびに仮想クライアント575が提供され得る、抽象層を提供する。
【0074】
一実施例では、管理層580は、後述する機能を提供し得る。リソース供給581は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的な調達を提供する。測定および価格設定582は、リソースが、クラウド・コンピューティング環境内で利用され、これらのリソースの消費に対して課金または請求されるときに、コスト追跡を提供する。一実施例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、データおよび他のリソースについての保護だけでなく、クラウド消費者およびタスクのための本人確認を提供する。ユーザ・ポータル583は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理584は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス水準合意(SLA)計画および遂行585は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。
【0075】
ワークロード・レイヤ590は、クラウド・コンピューティング環境が使用され得る機能性の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション541、ソフトウェア開発およびライフサイクル管理592、仮想クラスルーム教育配信593、データ解析処理594、トランザクション処理595、ならびに外部LM情報を、例えばRNN-Tなどのニューラル・トランスデューサに統合するためのシステム10を含む。
【0076】
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体を含み得る。
【0077】
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持し、記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または前述したものの任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ、読み取り専用メモリ、消去可能プログラマブル読み取り専用メモリ(EPROMまたはFlashメモリ)、静的ランダム・アクセス・メモリ、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチカードまたは命令をその上に記録させる溝内の隆起構造などの機械的に符号化されたデバイス、および前述したものの任意の適当な組み合わせを含む。本明細書で用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由伝播する電磁波、導波管もしくは他の送信媒体を通って伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を通って送信される電気信号などの、一過性信号自体であると解釈されるべきではない。
【0078】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組み合わせを介して外部コンピュータまたは外部記憶デバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体の記憶用にコンピュータ可読プログラム命令を転送する。
【0079】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つもしくは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的にかつリモート・コンピュータ上で部分的に、またはリモート・コンピュータもしくはサーバ上で完全に、実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通して、ユーザのコンピュータに接続されてもよく、または、接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通して)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することによって、コンピュータ可読プログラム命令を実行し得る。
【0080】
本発明の態様は、発明の実施形態による、方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組み合わせが、コンピュータ可読プログラム命令によって実施され得ると理解されたい。
【0081】
コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックあるいはモジュールにおいて指定される機能/動作を実施する手段を生成するように、これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または機械を製造するための他のプログラマブル・データ処理装置の少なくとも1つのプロセッサに提供されてもよい。コンピュータ可読記憶媒体に記憶される命令を有するコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックあるいはモジュールにおいて指定される機能/動作の態様を実施する命令を含む製品を含むように、これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定のやり方で機能するように指示し得る、コンピュータ可読記憶媒体に記憶され得る。
【0082】
コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックあるいはモジュールにおいて指定される機能/動作を実施するように、コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ブロック/ステップを実行させてコンピュータ実施プロセスを作り出すために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ得る。
【0083】
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えられる実施態様のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実施態様において、ブロック内に記載された機能は、図面中に記載された順序以外で発生してもよい。例えば、連続して示される2つのブロックが、実際には、実質的に同時に実行されてもよく、または、ブロックが、関係する機能性次第で逆の順序で実行されることがあってもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせが、指定された機能もしくは動作を実行し、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェア・ベース・システムによって実施され得ることにも留意されたい。
【0084】
本原理の「一実施形態」または「実施形態」への明細書内の参照、およびそれらの他の変形は、実施形態に関連して説明される特定の特徴、構造、特性などが、本原理の少なくとも1つの実施形態に含まれることを意味する。したがって、明細書全体を通して様々な場所に現れる、「一実施形態では」または「実施形態では」という句および任意の他の変形の出現は、必ずしも全てが同一の実施形態を指すものではない。
【0085】
以下の「/」、「および/または」、および「のうちの少なくとも1つ」のいずれかの使用は、例えば、「A/B」、「Aおよび/またはB」、および「AおよびBのうちの少なくとも1つ」の場合、最初に列挙された選択肢(A)のみの選択、または2番目に列挙された選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含するように意図されると、理解されたい。さらなる例として、「A、B、および/またはC」および「A、B、およびCのうちの少なくとも1つ」の場合、このような表現法は、最初に列挙された選択肢(A)のみの選択、または2番目に列挙された選択肢(B)のみの選択、または3番目に列挙された選択肢(C)のみの選択、または最初と2番目に列挙された選択肢(AおよびB)のみの選択、または最初と3番目に列挙された選択肢(AおよびC)のみの選択、または2番目と3番目に列挙された選択肢(BおよびC)のみの選択、または3つの選択肢全て(AおよびBおよびC)の選択を包含するように意図される。これは、当技術分野および関連技術分野の当業者に容易に明らかなように、多くの項目が列挙されたときについても拡張され得る。
【0086】
(例示であり限定ではないことを意図する)エンド・ツー・エンド音声認識のために、外部言語モデル情報を、RNN-Tモデルなどのニューラル・トランスデューサ・モデルに統合するための方法およびシステムの好適な実施形態が説明されたが、上記教示に照らして修正および変形が当業者により行われ得ることに留意されたい。したがって、添付された特許請求の範囲により概説される発明の範囲内にある、説明された特定の実施形態において変更が行われ得ることが、理解されるものとする。
【手続補正書】
【提出日】2024-12-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
ニューラル・トランスデューサを訓練するためのコンピュータ実施方法であって、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得することと、
スーパーバイザリ出力を取得するために前記出力を結合することと、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新することと、
を含む、コンピュータ実施方法。
【請求項2】
前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)である、請求項1に記載のコンピュータ実施方法。
【請求項3】
前記出力を前記結合することが、線形補間を使用することによって行われる、請求項1または2に記載のコンピュータ実施方法。
【請求項4】
前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項1または2に記載のコンピュータ実施方法。
【請求項5】
前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項1ないし
2のいずれか一項に記載のコンピュータ実施方法。
【請求項6】
前記事後ラティスの水平軸が、時間インデックスtであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルuであり、前記事後ラティス内の各ノードt,uが、トランスクリプション・シーケンスのポイントtによって出力シーケンスの最初のu要素(elements)の出力を有する事後分布を表す、請求項5に記載のコンピュータ実施方法。
【請求項7】
前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のuを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項6に記載のコンピュータ実施方法。
【請求項8】
ニューラル・トランスデューサを訓練するためのコンピュータ・プログラ
ムであって、
コンピュータに、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得
することと、
スーパーバイザリ出力を取得するために前記出力を結合
することと、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新
することと、
を実行させるためのコンピュータ・プログラ
ム。
【請求項9】
前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)である、請求項8に記載のコンピュータ・プログラ
ム。
【請求項10】
前記出力を前記結合することが、線形補間を使用することによって行われる、請求項8または9に記載のコンピュータ・プログラ
ム。
【請求項11】
前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項8または9に記載のコンピュータ・プログラ
ム。
【請求項12】
前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項8ないし
9のいずれか一項に記載のコンピュータ・プログラ
ム。
【請求項13】
前記事後ラティスの水平軸が、時間インデックスtであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルuであり、前記事後ラティス内の各ノードt,uが、トランスクリプション・シーケンスのポイントtによって出力シーケンスの最初のu要素(elements)の出力を有する事後分布を表す、請求項12に記載のコンピュータ・プログラ
ム。
【請求項14】
前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のuを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項13に記載のコンピュータ・プログラ
ム。
【請求項15】
ニューラル・トランスデューサを訓練するための訓練データを準備するためのシステムであって、
メモリと、
前記メモリと通信する1つまたは複数のプロセッサであって、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得し、
スーパーバイザリ出力を取得するために前記出力を結合し、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新する、
ように構成される、プロセッサと、
を備える、システム。
【請求項16】
前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)である、請求項15に記載のシステム。
【請求項17】
前記出力を前記結合することが、線形補間を使用することによって行われる、請求項15または16に記載のシステム。
【請求項18】
前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項15または16に記載のシステム。
【請求項19】
前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項15ないし
16のいずれか一項に記載のシステム。
【請求項20】
前記事後ラティスの水平軸が、時間インデックスtであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルuであり、前記事後ラティス内の各ノードt,uが、トランスクリプション・シーケンスのポイントtによって出力シーケンスの最初のu要素(elements)の出力を有する事後分布を表し、前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のuを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項19に記載のシステム。
【国際調査報告】