(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-01-11
(54)【発明の名称】スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズ
(51)【国際特許分類】
G10L 15/06 20130101AFI20231228BHJP
G10L 15/16 20060101ALI20231228BHJP
【FI】
G10L15/06 300Y
G10L15/06 300D
G10L15/16
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023534228
(86)(22)【出願日】2021-11-26
(85)【翻訳文提出日】2023-06-05
(86)【国際出願番号】 IB2021061019
(87)【国際公開番号】W WO2022144630
(87)【国際公開日】2022-07-07
(32)【優先日】2020-12-29
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】倉田 岳人
(72)【発明者】
【氏名】サオン、ジョージ、アンドレイ
(72)【発明者】
【氏名】キングスベリー、ブライアン
(57)【要約】
スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズリカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータ実装方法が提供される。コンピュータ実装方法は、第1のドメインテキストデータから第1のドメインオーディオデータを合成する段階、及び初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに、合成された第1のドメインオーディオデータを供給する段階を含み、エンコーダは合成された第1のドメインオーディオデータ及び第1のドメインテキストデータを使用して更新される。コンピュータ実装方法は、第2のドメインテキストデータから第2のドメインオーディオデータを合成する段階、及びリカレントニューラルネットワークトランスデューサ(RNN-T)の更新されたエンコーダに、合成された第2のドメインオーディオデータを供給する段階をさらに含み、予測ネットワークは合成された第2のドメインオーディオデータ及び第2のドメインテキストデータを使用して更新される。コンピュータ実装方法は、更新されたエンコーダを初期条件に復元する段階をさらに含む。
【特許請求の範囲】
【請求項1】
第1のドメインテキストデータから第1のドメインオーディオデータを合成する段階;
初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに前記合成された第1のドメインオーディオデータを供給する段階、ここで前記エンコーダは前記合成された第1のドメインオーディオデータ及び前記第1のドメインテキストデータを使用して更新される;
第2のドメインテキストデータから第2のドメインオーディオデータを合成する段階;
前記合成された第2のドメインオーディオデータを前記リカレントニューラルネットワークトランスデューサ(RNN-T)の前記更新されたエンコーダに供給する段階、ここで予測ネットワークは前記合成された第2のドメインオーディオデータ及び前記第2のドメインテキストデータを使用して更新される;及び
前記初期条件に前記更新されたエンコーダを復元させる段階
を備える、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータ実装方法。
【請求項2】
前記リカレントニューラルネットワークトランスデューサ(RNN-T)は、前記エンコーダの出力を予測子の出力と組み合わせるジョイナーを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドz
t,uとして出力を生じる、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記ソフトマックス関数は、事後確率P(y|t,u)を生成する、請求項3に記載のコンピュータ実装方法。
【請求項5】
事後確率ジェネレータP(y|t,u)は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスxに基づいて、長さUの出力シーケンスである、出力シーケンスy=(y
1,y
2,...y
U-1,y
U)である出力を生成する、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記入力特徴シーケンスxは、前記合成された第1のドメインオーディオデータから導出される、請求項5に記載のコンピュータ実装方法。
【請求項7】
1又は複数のプロセッサデバイス;
前記1又は複数のプロセッサデバイスのうちの少なくとも1つと通信するメモリ;及び
表示画面;
を、
前記メモリは、
第1のドメインテキストデータから生成された合成された第1のドメインオーディオデータを受信するよう構成されたエンコーダ、ここで前記エンコーダは初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダであり、ここで前記エンコーダは前記合成された第1のドメインオーディオデータ及び前記第1のドメインテキストデータを使用して前記初期条件から更新されるよう構成されており、ここで前記エンコーダは第2のドメインテキストデータから生成された合成された第2のドメインオーディオデータを受信するようさらに構成されている;及び
ベクトルとして表される音響特徴の時間順のシーケンスのである入力特徴シーケンスxに基づいて、出力シンボルシーケンスyを生じる出力シーケンスジェネレータ
を有する、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのシステム。
【請求項8】
前記メモリは、前記トレーニング済みエンコーダの出力を予測子の出力と組み合わせるよう構成されているジョイナーをさらに有する、請求項7に記載のシステム。
【請求項9】
前記ジョイナーは、前記出力として、誘導されたローカルフィールドz
t,uを生じる、請求項8に記載のシステム。
【請求項10】
前記メモリは、誘導されたローカルフィールドz
t,uを受信し、出力を生成するよう構成されているソフトマックス関数をさらに有する、請求項9に記載のシステム。
【請求項11】
前記出力シンボルシーケンスy=(y
1,y
2,...y
U-1,y
U)は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスxに基づいて、長さUの出力シーケンスである、請求項10に記載のシステム。
【請求項12】
前記メモリは、第1のドメインテキストデータから第1のドメインオーディオデータを合成し、また第2のドメインテキストデータから第2のドメインオーディオデータを合成するよう構成されているシンセサイザをさらに有する、請求項11に記載のシステム。
【請求項13】
前記エンコーダは、前記初期条件に復元されるようさらに構成されている、請求項12に記載のシステム。
【請求項14】
1又は複数のコンピュータ可読記憶媒体、及び
前記1又は複数のコンピュータ可読記憶媒体上にまとめて記憶されたプログラム命令
を備え、
前記プログラム命令は、コンピュータに、
第1のドメインテキストデータから第1のドメインオーディオデータを合成すること;
初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに前記合成された第1のドメインオーディオデータを供給すること、ここで前記エンコーダは前記合成された第1のドメインオーディオデータ及び前記第1のドメインテキストデータを使用して更新される;
第2のドメインテキストデータから第2のドメインオーディオデータを合成すること;
前記合成された第2のドメインオーディオデータを前記リカレントニューラルネットワークトランスデューサ(RNN-T)の前記更新されたエンコーダに供給すること、ここで予測子は前記合成された第2のドメインオーディオデータ及び前記第2のドメインテキストデータを使用して更新される;及び
前記初期条件に前記更新されたエンコーダを復元させること
を行わせるために前記コンピュータにより実行可能である、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータプログラム製品。
【請求項15】
前記リカレントニューラルネットワークトランスデューサ(RNN-T)は、前記トレーニング済みエンコーダの出力を前記予測子の出力と組み合わせるジョイナーを含む、請求項14に記載のコンピュータプログラム製品。
【請求項16】
前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドz
t,uとして出力を生じる、請求項15に記載のコンピュータプログラム製品。
【請求項17】
前記ソフトマックス関数は、事後確率P(y|t,u)を生成する、請求項16に記載のコンピュータプログラム製品。
【請求項18】
事後確率ジェネレータP(y|t,u)は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスxに基づいて、長さUの出力シーケンスである出力シーケンスy=(y
1,y
2,...y
U-1,y
U)である出力を生成する、請求項17に記載のコンピュータプログラム製品。
【請求項19】
第1のドメインオーディオデータを前記合成する段階は、前記入力特徴シーケンスxである、請求項18に記載のコンピュータプログラム製品。
【請求項20】
第1のドメインテキストデータから第1のドメインオーディオデータを合成する段階;
初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに前記合成された第1のドメインオーディオデータを供給する段階、ここで前記エンコーダは前記合成された第1のドメインオーディオデータ及び前記第1のドメインテキストデータを使用して更新され、前記合成された第1のドメインオーディオデータを音響埋め込みa
tに符号化し、前記音響埋め込みa
tは、前記合成された第1のドメインオーディオデータをより小さい特徴空間に圧縮する;
前記音響埋め込みa
tをジョイナーに供給する段階;
第2のドメインテキストデータから第2のドメインオーディオデータを合成する段階;
前記合成された第2のドメインオーディオデータを前記更新されたエンコーダに供給する段階、ここで前記更新されたエンコーダは、前記合成された第2のドメインオーディオデータを前記音響埋め込みb
tに符号化し、ここで、前記音響埋め込みb
tは、前記合成された第2のドメインオーディオデータをより小さい特徴空間に圧縮する;
前記ジョイナーからの出力シーケンスを前記リカレントニューラルネットワークトランスデューサ(RNN-T)の予測子に供給する段階、ここで前記予測子は、前記合成された第2のドメインオーディオデータ及び前記第2のドメインテキストデータからの前記出力シーケンスを使用して更新される;及び
前記初期条件に前記更新されたエンコーダを復元させる段階
を備える、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータ実装方法。
【請求項21】
前記ジョイナーは、前記音響埋め込みa
tを、加重和を通じて前記予測子からの埋め込みと組み合わせる、請求項20に記載のコンピュータ実装方法。
【請求項22】
前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドz
t,uとして出力を生じる、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記ソフトマックス関数は、事後確率P(y|t,u)を生成する、請求項22に記載のコンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は一般にスピーチ認識、より具体的にはエンドツーエンドのスピーチ認識モデルをトレーニングするための方法及びシステムに関する。
【0002】
リカレントニューラルネットワーク(RNN)は人工ニューラルネットワークのタイプであり、ノード間の接続が時系列に沿った、方向づけられたグラフを形成する。これは、RNNが音素などの属性の間のシーケンスの依存性を分析することを可能にする。フィードフォワードニューラルネットワークから導出されて、RNNは入力の可変の長さのシーケンスを処理するべくそれらの内的状態(メモリ)を使用できる。RNNはまた、秩序化情報を直接符号化できる。RNNは元のシーケンスと同じ秩序において入力を受信及び処理できる。これは、それらを、非セグメント状態の接続された手書き入力の認識又はスピーチ認識などのタスクに適用可能なものにする。時系列の入力された値は、実際の値又はシンボルであってよい。
【0003】
RNNは、固定した数のパラメータを有することができ、また可変の入力数を処理することができる。RNNはシーケンスにおける位置の数及びネットワークの層の数の間で一対一の関係を有し得る。各層はシーケンスにおける特定の配置の単一の入力を有し得る(例えば、時間、段階)。入力は、それによって、シーケンスにおける入力の配置に依拠して隠れ層と相互作用できる。層のアーキテクチャは時間内に反復され、そのためリカレントと称される。RNNは変換を行うために入力及び出力シーケンス間の事前に定めたアライメントを必要とし得る。これには限界があり得る、なぜならばアライメントを見つけることが、シーケンス変換問題の非常に難しい側面である場合があるからである。
【0004】
エンドツーエンド(E2E)自動スピーチ認識(ASR)システムは、音響特徴を出力トークンシーケンスにマッピングすることで、音響特徴のシーケンスをトークン(音素、キャラクター、単語など)の出力シーケンスに直接変換できる。ASRのエンドツーエンドモデルは入力オーディオの与えられた単語のトランスクリプトを直接出力できる。
【発明の概要】
【0005】
本発明の実施形態によると、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータ実装方法が提供される。コンピュータ実装方法は、第1のドメインテキストデータから第1のドメインオーディオデータを合成する段階、及び初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに合成された第1のドメインオーディオデータを供給する段階を含み、エンコーダは合成された第1のドメインオーディオデータ及び第1のドメインテキストデータを使用して更新される。コンピュータ実装方法は、第2のドメインテキストデータから第2のドメインオーディオデータを合成する段階、及びリカレントニューラルネットワークトランスデューサ(RNN-T)の更新されたエンコーダに、合成された第2のドメインオーディオデータを供給する段階をさらに含み、予測ネットワークは合成された第2のドメインオーディオデータ及び第2のドメインテキストデータを使用して更新される。コンピュータ実装方法は、更新されたエンコーダを初期条件に復元する段階をさらに含む。
【0006】
本発明の別の実施形態によると、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのシステムが提供される。システムは、1又は複数のプロセッサデバイス、1又は複数のプロセッサデバイスのうちの少なくとも1つと通信するメモリ、及び表示画面を含み、メモリは第1のドメインテキストデータから第1のドメインオーディオデータを合成し、第2のドメインテキストデータから第2のドメインオーディオデータを合成するよう構成されたシンセサイザ、及び第1のドメインテキストデータから生成される合成された第1のドメインオーディオデータを受信するよう構成されたエンコーダを含み、エンコーダは初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダであり、エンコーダは合成された第1のドメインオーディオデータ及び第1のドメインテキストデータを使用して初期条件から更新されるよう構成され、エンコーダは、第2のドメインテキストデータから生成された合成された第2のドメインオーディオデータを受信するようさらに構成される。メモリは、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスxに基づいて、出力シンボルシーケンスyを生じる出力シーケンスジェネレータをさらに含む。
【0007】
本発明のさらに別の実施形態によると、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータプログラム製品が提供され、コンピュータプログラム製品は1又は複数のコンピュータ可読記憶媒体を含み、プログラム命令はまとめて1又は複数のコンピュータ可読記憶媒体に記憶され、プログラム命令はコンピュータにより実行可能である。実行される場合に、コンピュータに、第1のドメインテキストデータから第1のドメインオーディオデータを合成すること、及び初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに、合成された第1のドメインオーディオデータを供給することを生じさせるコンピュータプログラム製品、ここでエンコーダは合成された第1のドメインオーディオデータ及び第1のドメインテキストデータを使用して更新される。実行される場合に、コンピュータにまた、第2のドメインテキストデータから第2のドメインオーディオデータを合成すること、及びリカレントニューラルネットワークトランスデューサ(RNN-T)の更新されたエンコーダに、合成された第2のドメインオーディオデータを供給することを生じさせるコンピュータプログラム製品、ここで予測子は合成された第2のドメインオーディオデータ及び第2のドメインテキストデータを使用して更新される。コンピュータプログラム製品は、実行される場合に、コンピュータにまた、更新されたエンコーダを初期条件に復元させる。
【0008】
本発明のさらに別の実施形態によると、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータ実装方法が提供される。コンピュータ実装方法は、第1のドメインテキストデータから第1のドメインオーディオデータを合成する段階、及び初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに、合成された第1のドメインオーディオデータを供給する段階を含み、エンコーダは合成された第1のドメインオーディオデータ及び第1のドメインテキストデータを使用して更新され、合成された第1のドメインオーディオデータを音響埋め込みatに符号化し、ここで音響埋め込みatは、合成された第1のドメインオーディオデータをより小さい特徴空間に圧縮する。コンピュータ実装方法は、音響埋め込みatをジョイナーに供給する段階、及び第2のドメインテキストデータから第2のドメインオーディオデータを合成する段階をさらに含む。コンピュータ実装方法は、さらに、合成された第2のドメインオーディオデータを更新されたエンコーダに供給する段階、ここで更新されたエンコーダは、合成された第2のドメインオーディオデータを音響埋め込みbtに符号化し、ここで、音響埋め込みbtは、合成された第2のドメインオーディオデータをより小さい特徴空間に圧縮する、及びジョイナーからの出力シーケンスをリカレントニューラルネットワークトランスデューサ(RNN-T)の予測子に供給する段階、ここで予測子は、合成された第2のドメインオーディオデータ及び第2のドメインテキストデータからの出力シーケンスを使用して更新される、を含む。コンピュータ実装方法は、更新されたエンコーダを初期条件に対して復元する段階をさらに含む。
【0009】
これら及び他の特徴及び利点は、これらの例示的実施形態に関する以下の詳細な説明により明らかになり、以下の詳細な説明は、添付図面との関連で読まれるべきである。
【図面の簡単な説明】
【0010】
以下の説明は、好ましい実施形態の詳細を、以下の図面を参照して提供する。
【
図1】本発明の実施形態による、スピーチ認識に適用され得るリカレントニューラルネットワークトランスデューサ(RNN-T)のためのアーキテクチャの図である。
【
図2】本発明の実施形態による、スピーチ認識のためのリカレントニューラルネットワークトランスデューサ(RNN-T)をトレーニングするためのアルゴリズムを示すブロック/フロー図である。
【
図3】本発明の実施形態による、テキストからのオーディオ特徴を合成し、エンコーダ及び予測子を更新し、エンコーダを復元するためのアルゴリズムを示すブロック/フロー図である。
【
図4】本発明の実施形態による、RNN-Tのための事後格子の図である。
【
図5】本発明の実施形態による、本方法及びシステムが適用され得る例示的な処理システムである。
【
図6】本発明の実施形態による、道路レイアウトのモデル化のための1又は複数のニューラルネットワークを実装するよう構成された例示的な処理システムである。
【
図7】本発明の実施形態による、例示的なニューラルネットワークをイラストで示すブロック図である。
【
図8】実施形態による、クラウドコンシューマによって使用されるローカルコンピューティングデバイスが通信する1又は複数のクラウドコンピューティングノードを有する例示的なクラウドコンピューティング環境を示すブロック図である。
【
図9】本発明の実施形態による、クラウドコンピューティング環境により提供される機能抽象化層のセットを示すブロック図である。
【発明を実施するための形態】
【0011】
本発明の実施形態は、充分強いベースのRNN-Tモデルから特定のターゲットドメインへの言語モデルのカスタマイズのためのシステム及び方法を提供する。RNN-Tは予め最初からトレーニングできる。トレーニング済みのRNN-Tは、ユーザにより特定のドメインに対してカスタマイズできる。
【0012】
1つのニューラルネットワークに亘るビームサーチは、推論のために実行され得て、その結果、計算コストが小さくなり、メモリフットプリントが小さくなり、推論エンジンが単純になる。
【0013】
様々な実施形態で、この手法は、RNN-Tベースのモデル化に対応することができ、「言語モデル」及び「語彙」は他のモジュールと共に1つのニューラルネットワークに統合され、ネットワークがトレーニング及び展開された後に外部から直接操作できない。
【0014】
本発明が適用され得る例示的な適用/使用は、自動スピーチ認識(ASR)、自然言語翻訳などを含むが、それに限定されない。
【0015】
本発明の態様が、与えられた例示のアーキテクチャという観点で説明されるが、他のアーキテクチャ、構造、及びプロセス特徴及び段階が、本発明の態様の範囲で変動し得ることを理解されたい。
【0016】
ここで図面を参照するが、それにおいて同様の数字は同一又は同様の要素を表し、最初は
図1を参照して、本発明の実施形態による、スピーチ認識に適用できるリカレントニューラルネットワークトランスデューサ(RNN-T)のためのアーキテクチャの図が示される。
【0017】
ディープニューラルネットワーク(DNN)を利用する自動スピーチ認識(ASR)は、いくつかのモデルを同時に実装するハイブリッド枠組みを使用できる。ハイブリッドシステムのためのモデルは、音響モデル(AM)及び言語モデル(LM)を含み得る。RNN-Tモデルは、3つの部分、テキスト埋め込みにラベルのシーケンスを符号化する予測子ネットワーク、観測ベクトルのシーケンスを音響埋め込みに符号化するエンコーダネットワーク、及びテキスト及び音響埋め込みを組み合わせるソフトマックス出力層を有するニューラルネットワーク(例えばジョイナー)を含み得る。
【0018】
「言語モデル」のカスタマイズは、開発者及びユーザが、特定のアプリケーション、ユースケースの特定の単語、フレーズ、及び文章を、トレーニング済み言語モデルに対する自動スピーチ認識(ASR)のために追加することを可能にする機能である。換言すれば、カスタマイズは先行してトレーニング及び展開された言語モデル(LM)を修正してそれによって柔軟で効率的なカスタマイズ機能を設ける。様々な実施形態では、ハイブリッドシステムで音響モデル、言語モデル、及び語彙が明白にモジュール化される。したがって「言語モデル」カスタマイズは、言語モデル及び語彙がトレーニング及び展開された後でさえ、それらが直接操作され、修正され得るという理由で、容易に実現できる。
【0019】
1又は複数の実施形態では、ASRのRNN-T100は3つの構成要素を有することができ、オーディオ用のエンコーダ130、テキスト用の予測子140、及びエンコーダ130及び予測子140の出力を組み合わせるジョイナー150を含む。エンコーダ130は時間tでオーディオフレームを、音響埋め込みatとして符号化でき、埋め込みは入力された特徴空間をより小さい特徴空間に圧縮できる。音響モデル(AM)は、エンコーダ130に組み込むことができる。予測子140は、テキスト埋め込みthとして、添え字hまでテキスト履歴を符号化できる。言語モデルは、予測子140に組み込むことができる。テキスト埋め込みベクトル及びエンコーダ出力は、固定した次元の実際の値のベクトルであってよい。これらの埋め込みは、ジョイナー150に供給することができ、これはそれらを組み合わせて、yt,hでの出力ユニットに亘り確率分布を生じる。
【0020】
様々な実施形態で、オーディオ及び出力シンボル間のフレームレベルのアライメントは、RNN-Tをトレーニング又はカスタマイズするのに利用されない。対のテキスト及びテキストからの合成オーディオが、RNN-Tをトレーニング又はカスタマイズするのに使用でき、事前に計算されたアライメントなしにエンドツーエンドのモデルが対のオーディオ及びトランスクリプトからトレーニングされ得る。コンピュータ実装方法は、合成された第1のドメインオーディオデータ及び第1のドメインテキストデータを使用することによりエンコーダネットワークを更新することを含むことができる。
【0021】
様々な実施形態で、入力特徴シーケンスx、110を、リカレントニューラルネットワークトランスデューサ(RNN-T)100のエンコーダ130に供給することができ、入力特徴シーケンスxはベクトルとして表される音響特徴の時間順のシーケンスであり得る。様々な実施形態で、x=(x
1,x
2,...,x
T)は、任意の長さTの入力シーケンスであり得る。1又は複数の実施形態で、オーディオデータはソースドメインで利用可能なテキストから合成できる。オーディオデータを合成するために使用されるテキストは、元のRNN-T ASRモデルのトレーニングで使用されるのと同じテキストにすることができる。エンコーダ130の音響モデルは、音響特徴x
tを高水準の表現
【数1】
に変換することができ、式中tは時間の添え字である。
【数2】
式中h
t
encは長さTの埋め込みベクトルシーケンスであってよく、埋め込みは、入力された特徴空間を、固定した大きさの長さTのより小さな出力ベクトル(密のベクトル)に圧縮できる。様々な実施形態で、エンコーダ130は単方向性エンコーダネットワーク又は双方向性エンコーダネットワークであり得る。
【0022】
予測子140は、RNN言語モデルとして機能でき、それが、RNN-Tモデルにより予測される先行の非ブランクターゲットy
u-1という条件で、高水準の表現
【数3】
を生じ、式中uは出力ラベルの添え字である。
【数4】
式中、h
u
preは埋め込みベクトルである。
【0023】
オーディオ信号を単語のシーケンスに変換することは、異なる声により作成される明らかな歪みにもかかわらず、言語音(音素又は音節など)を識別できることを必要とする。RNNは入力シーケンス及び出力シーケンスをマッピングする問題に適用できる。RNN出力が確率的な場合、入力シーケンスと同じ長さの出力シーケンスに亘る分布が生じ得る。スピーチ認識は、入力シーケンスx=x1,...,xTが与えられる場合、最も見込みのある単語シーケンスW=w1,...,wnを判定することに関与し、この場合、Tは発話におけるフレーム数を表すことができる。
【0024】
様々な実施形態では、出力シンボルシーケンスy、120は、u-1の長さを有し、言語モデルとして挙動し得る予測ニューラルネットワーク140に供給され得、出力シンボルシーケンスyは、リカレントニューラルネットワークトランスデューサ(RNN-T)により生成される。120におけるyu-1は、先行の予測(例えばシンボル)を示す。RNN-Tは、u-1に至る先行のシンボルシーケンスに基づいて、次のシンボルyuを予測する。様々な実施形態で、y=(y1,y2,...,yU)は、セットYに属する目標の出力シンボルの長さUのシーケンスであり得る。目標のシンボルのセットは、文字、音素、書記素、ワードピースなどであり得る。
【0025】
RNN-Tモデルにおいて、余分なブランクシンボルΦが、長さUシーケンスyを長さ-(T+U)シーケンスΦ(y)のセットに拡張するために導入できる。シンボル又はラベルのシーケンス長さ(U)及び音響特徴フレーム(T)は、同じ長さでなくともよい。
【0026】
予測ニューラルネットワーク140の出力が、出力シンボルを生じる前にジョイナー150でエンコーダ130の出力とマージされるため、カスタマイズのために予測ネットワーク140を直接操作すること(単語、フレーズ、及び文を追加すること)は、可能ではない。
【0027】
様々な実施形態で、入力ベクトルxt及び出力ベクトルyuは、固定した長さの実数値ベクトルとして表されてよく;例えば、キャラクターベースのスピーチ認識では、各xtはメル周波数ケプストラム係数(MFCC)のベクトルであってよく、各ytは特定のキャラクターを符号化するワンホットベクトルであってよく、メル周波数ケプストラム係数(MFCC)は、音の短期のパワーのスペクトルを表したものである。入力ベクトルxt及び出力ベクトルyuは、マッピングされ得て、入力ベクトルxt及び出力ベクトルyuは、異なる長さT及びUを有し得る。
【0028】
様々な実施形態で、エンコーダ130は、最初に、先んじてトレーニングされ得る。RNN-Tをトレーニングする前に、エンコーダネットワーク130及び予測ネットワーク140が初期化され得る。
【0029】
様々な実施形態では、音響モデル及びクロスエントロピー言語モデルが、先んじて得られ、音響モデルは、音素音響モデルであってよい。様々な実施形態で、クロスエントロピー言語モデルはキャラクターのクロスエントロピー言語モデル、サブワードクロスエントロピー言語モデル、又は単語クロスエントロピー言語モデルであり得る。
【0030】
様々な実施形態で、エンドツーエンドのスピーチ認識モデルのエンコーダ130は音響モデルに基づいて初期化できる。エンコーダネットワーク130はまた、対の合成オーディオ及びソースドメインからの関連するテキストを使用して更新され得る。「ソース」データはカスタマイズの前に元のRNN-Tをトレーニングするために使用されるトレーニングデータである。
【0031】
様々な実施形態で、予測子ネットワーク140は入力オーディオに関連付けられるテキストを判定/予測する言語モデラとして動作する。
【0032】
様々な実施形態で、予測ネットワーク140はリカレントニューラルネットワークであり得、予測ネットワーク140は入力層、出力層、及び1又は複数の隠れ層を有し得る。入力層の大きさは、入力ベクトルの長さと同じであってよく、K={k1,k2,...kK}のラベルがあり得、yuがkkと等しくてよい。ここで、nは1≦k≦Kの添え字である。入力はワンホットベクトルとして符号化され得る。
【0033】
様々な実施形態で、予測ネットワーク140の出力は出力シンボルを発する前にエンコーダネットワーク130からの出力とマージされる。キャラクターベースのシステムでRNN-Tからの出力シンボル(ソフトマックス計算後)は、キャラクターのセット及び<BLANK>シンボルである。様々な実施形態で、<BLANK>シンボルは、予測ネットワークの履歴で使用されない。カスタマイズのために予測ネットワーク140を直接操作すること(単語、フレーズ、及び文を追加すること)は可能ではない。エンコーダネットワーク130及び予測ネットワーク140の両方からの出力は予測ネットワーク140又はRNN-T100全体の更新のため使用される。しかしながら、RNN-T100はテキストデータとのみカスタマイズされ、オーディオデータが利用できない場合、エンコーダネットワーク130からの出力が得られない。
【0034】
様々な実施形態で、出力特徴シーケンスy、180は、P(y|t,u)で定められる出力確率格子に亘る検索による入力特徴シーケンスx、110に基づいてRNN-T100により生成される出力シーケンスであり得、式中y=(y1,y2,...yU-1,yU)は、何らかの出力空間Yに亘るすべてのシーケンスの集合Y*に属する長さUの出力シーケンスであり得、P(y|t,u)は「t」及び「u」を与えられたyの事後確率であり、「t」はベクトルとして表される音響特徴の時間順のシーケンスの時間に亘る添え字であり、「u」は長さUの出力シーケンスに亘る添え字である。様々な実施形態で、y=(y1,y2,...,yu-1)は予測ネットワーク140に供給される。
【0035】
様々な実施形態で、コネクショニスト時系列分類(CTC)モデルが、音素音響モデルを得るための入力としてのベクトルとして、また出力としてのの音素として表される音響特徴xでトレーニングされる。このCTCモデルでトレーニングされたニューラルネットワークは、RNN-T100のエンコーダネットワーク130を初期化するのに使用され得る。音素音響モデルはRNN-T100のエンコーダネットワーク130のための初期の音響モデルとして使用できる。音響特徴は入力として使用でき、モデルユニットは初期の音響モデルをトレーニングして目標の音響モデルを得るよう、出力としてセットできる。
【0036】
様々な実施形態で、クロスエントロピー(CE)が、言語モデル(LM)をトレーニングするために使用できる。CTC音響モデル及びCE言語モデルは、エンドツーエンドシステムのエンコーダ130(エンコーダ)及び予測子140(デコーダ)それぞれを初期化するために使用できる。初期化後、エンドツーエンドシステムは適した初期の状態を有し得る。
【0037】
RNN-Tのトレーニングはプレトレーニングモデルから開始できる、又はプレトレーニングがなければトレーニングはランダムな初期化から開始できる。
【0038】
様々な実施形態で、言語モデルはLSTM層及び第1の入力埋め込み層を含み得る。LSTMはエンコーダネットワーク130及び予測ネットワーク140の両方で利用できるが、Transformerなどのニューラルネットワークの他のタイプはまたエンコーダ及び予測ネットワークのいずれか又は両方で使用できる。
【0039】
様々な実施形態で、エンコーダ130及び予測子140で生成された出力はジョイナー150により組み合わせることができ、ジョイナー150は高水準の表現ht
enc、hu
pre(埋め込みベクトル)の加重和を生じ得る。ジョイナーネットワーク150はエンコーダネットワークht
encからの出力、及び予測ネットワークhu
preからの出力を組み合わせて埋め込みzt,u(ロジット)を出力できる。様々な実施形態で、ジョイナー150は、両方の埋め込みの線形変換の合計として、エンコーダネットワーク出力ht
enc及び予測ネットワーク出力hu
preを組み合わせるフィードフォワードネットワークである;
【0040】
【0041】
式中、W
enc及びW
preは重み行列であり、b
zはバイアスベクトルであり、
【数6】
は非線形関数であり、例えばTanh又はReLUである。
【0042】
zt,uは線形変換で出力層に接続される:
【0043】
【0044】
式中、Wは重み行列であり、byはバイアスベクトルである。
【0045】
様々な実施形態で、ソフトマックス関数160はジョイナー150の出力に適用されており、ソフトマックス関数160はジョイナーニューラルネットワーク150の出力を正規化して、予測された出力クラスに対して確率(事後)分布170、
【数8】
を生じるアクティベーション関数である。
【数9】
は事後格子を定め、式中各ノードは事後分布を表す。予測された出力クラスはテキストトレーニングコーパス/レキシコンのキャラクター又はサブワード(単語の一部)であり得る。ソフトマックス関数160は、RNN-T100の出力層であり得る。
【0046】
様々な実施形態で、確率分布170は出力特徴シーケンスy、180を生成するのに使用でき、出力特徴シーケンスy、180は、P(y|t,u)により定められる出力確率格子に亘り検索により生成できる。出力シンボルシーケンスy、120は、予測子140を更新するのに使用できる。モデルをトレーニングする場合、対のシンボルシーケンス及び入力されたオーディオ特徴が両方与えられ、それにより事後確率格子が計算できるため、ビームサーチは利用されなくてもよい。RNN-Tの損失を最小にすることで、パラメータが更新される。RNN-Tの損失はすべての可能なRNN-Tのアライメントに亘るシンボルの事後確率の総和として定義される:
【0047】
【0048】
式中、各シーケンス
【数11】
はx及びy間のRNN-Tのアライメントの1つであり、
【数12】
の要素はシンボルのセット
【数13】
に属する。
【0049】
様々な実施形態で、トランスクリプト及びオーディオからのみのエンドツーエンドのトレーニングが実現でき、そこではハイブリッドモデルで必要な反復及び長期のトレーニング段階が必要とされない。様々な実施形態で、スペル及び発音を結びつけるレキシコンがまた必要とされない。RNN-Tは関連付けられた対のオーディオデータ及びそのトランスクリプションからトレーニングされ得る。
【0050】
1又は複数の実施形態で、オーディオデータはソースドメインで利用可能なテキストから合成できる。オーディオデータを合成するために使用されるテキストは、元のRNN-Tモデルのトレーニングで使用されるのと同じテキストにすることができる。エンコーダネットワークを更新する場合、本発明者らは元のRNN-Tモデルのトレーニングで使用されるテキスト用の合成オーディオを使用する。そうして、エンコーダネットワークは予測ネットワークからの適切な出力に条件付けられて更新することができる。
【0051】
様々な実施形態で、エンコーダネットワークは、対の合成オーディオ及びソースドメインからのテキストを使用して更新され得る。
【0052】
オーディオデータはまたターゲットドメインのテキスト用に合成できる。
【0053】
様々な実施形態で、予測ネットワークは、対の合成オーディオ及びターゲットドメインからのテキストを使用して更新され得る。予測ネットワークを更新する場合、エンコーダネットワークはソースドメインの合成オーディオに既に適合されている。そうして、予測ネットワークはエンコーダネットワークからの適切な出力に条件付けられて更新することができる。
【0054】
様々な実施形態で、エンコーダネットワークは元の条件に復元し得る。合成オーディオの質は昨今改善されてきたが、合成オーディオの使用によるスピーチ認識のためにエンコーダネットワークを更新することは、必ずしも価値のあるものではない。最終的なエンコーダネットワークは、カスタマイズで使用されるターゲットドメインから合成オーディオにより汚染されることなく、元のエンコーダネットワークと同じであり得る。エンコーダは、カスタマイズされる特徴がもはや望まれなくなると、初期の状態にリセットされ得る。
【0055】
図2は、本発明の実施形態による、スピーチ認識のためのリカレントニューラルネットワークトランスデューサ(RNN-T)をトレーニングするためのアルゴリズムを示すブロック/フロー図である。
【0056】
1又は複数の実施形態で、リカレントニューラルネットワークトランスデューサ(RNN-T)をトレーニングするためのアルゴリズム200は、ベクトルとして表される音響特徴の入力特徴シーケンスxを作成することに関与でき、入力特徴シーケンスxは、(元の)RNN-Tを最初にトレーニングすべく使用されるテキストから合成されるオーディオデータであってよい。エンコーダネットワークは、最初にトレーニングしてもよい。オーディオデータはソースドメインのテキストから合成でき、ソースドメインは標準的なコーパスにより表現することができる。
【0057】
ブロック210で、音響特徴の特徴シーケンスxが、ソースドメイン用のテキストを読み取ることによって合成され得る。
【0058】
215で、音響特徴の特徴シーケンスxはRNN-Tのエンコーダ130に供給され得、音響特徴は、メル周波数ケプストラム係数(MFCC)のベクトルであり得る。
【0059】
ブロック220で、エンコーダは、関連付けられた対の合成オーディオ及びソースドメインのテキストを使用してトレーニングされ得る。エンコーダは隠れベクトルシーケンス(h0,h1,..,hT)を生成できる。入力されたオーディオ特徴は長さTを有し得る。隠れベクトルhtは、各オーディオ特徴について計算され得る。
【0060】
225で、隠れベクトルシーケンス(h0,h1,..,hT)がジョイナー230に供給され得る。
【0061】
ブロック230で、ジョイナーは隠れベクトルシーケンス(h
0,h
1,..,h
t)を予測子270からの隠れベクトルシーケンス(h
0,h
1,..,h
u-1)と組み合わせて、h
T及びh
uの添え字t及びu
【数14】
と関係する誘導されたローカルフィールドz
t,uを生じる。
【0062】
235で、誘導されたローカルフィールドzt,uは、ソフトマックス関数240に供給される。
【0063】
240で、ソフトマックス関数は事後確率P(y|t,u)250を生成する。
【0064】
245で、事後確率P(y|t,u)はソフトマックス関数により出力される。
【0065】
250で、240からの出力はP(y|t,u)である。
【0066】
255で、P(y|t,u)は、長さUを有する出力シンボルシーケンスyを生じる出力シーケンスジェネレータ260に供給される。
【0067】
ブロック260で、出力シーケンスジェネレータ260は、長さUを有する出力シンボルシーケンスyを生じる。
【0068】
265で、長さU-1を有する出力シンボルシーケンスyが予測子ニューラルネットワーク270に供給されて予測子ニューラルネットワーク270を更新し、120のyu-1が先行の予測(例えば文字)を示す。u-1までの先行する単語シーケンスに基づいて、RNN-Tは次のシンボルyuを予測する。
【0069】
ブロック270で、予測子ニューラルネットワーク270が更新され、隠れベクトルシーケンス(h0,h1,..,hU)が生成される。
【0070】
図3は、本発明の実施形態による、テキストからのオーディオ特徴を合成し、エンコーダ及び予測子を更新し、エンコーダを復元するためのアルゴリズムを示すブロック/フロー図である。
【0071】
ブロック310で、トレーニング用に使用されるソースドメインテキストを識別する。
【0072】
ブロック320で、ソースドメインからのテキストからのエンコーダのソースドメイントレーニング用オーディオデータを合成する。
【0073】
ブロック330で、エンコーダネットワークを更新するが、予測子ニューラルネットワーク及びジョイナーニューラルネットワークの重みを一定に(すなわち、固定で)維持する。
【0074】
ブロック340で、トレーニング用に使用されるターゲットドメインテキストを識別する。
【0075】
ブロック350で、ターゲットドメインのテキストからの予測子のターゲットドメイントレーニング用にオーディオを合成する。ターゲットドメイン用の合成オーディオをエンコーダに入れる。様々な実施形態で、予測ネットワークのみが更新される。エンコーダネットワークはターゲットドメイン用の合成オーディオにより更新されない。
【0076】
ブロック360で、エンコーダニューラルネットワーク及びジョイナーニューラルネットワークの重みを一定に維持しながら、予測子ネットワークを更新する。
【0077】
ブロック370で、カスタマイズされるモデルの実際の展開の間、ターゲットドメインオーディオを供給する前に、エンコーダネットワークを重みに復元させる。エンコーダネットワークへの重みをソースドメインについてトレーニングした状態に復元することは、エンコーダをプレカスタマイズした状態にリセットできる。
【0078】
図4は、本発明の実施形態による、RNN-Tのための事後格子の図である。
【0079】
y=(y1,y2,...,yU)は言語的に翻訳する目標の出力シンボルの長さUのシーケンスを示し得る。
【0080】
x=(x1,x2,...,xT)はT時間段階に亘る音響特徴ベクトルを示すことができる。
【0081】
各ノード400はP(yt+u|t,u)で定義される事後分布P(y|t,u)を表す。
【0082】
図5は、本発明の実施形態による、本方法及びシステムが適用され得る例示的な処理システム500である。
【0083】
様々な実施形態で、処理システム500は、少なくとも1つのプロセッサ(CPU)504を含むことができ、システムバス502により、他の成分へ動作的に結合されるベクトルの計算/操作を行うことができるグラフィクス処理(GPU)505を有し得る。キャッシュ506、リードオンリメモリ(ROM)508]、ランダムアクセスメモリ(RAM)510、入力/出力(I/O)アダプタ520、音声アダプタ530、ネットワークアダプタ540、ユーザインタフェースアダプタ550、及びディスプレイアダプタ560は、システムバス502に動作的に結合され得る。
【0084】
第1のストレージデバイス522及び第2のストレージデバイス524は、I/Oアダプタ520により、システムバス502に動作的に結合されている。ストレージデバイス522及び524は、ディスクストレージデバイス(例えば磁気又は光学式ディスクストレージデバイス)、ソリッドステートデバイス、磁気ストレージデバイスなどのいずれかであってよい。ストレージデバイス522及び524は、同じタイプのストレージデバイス、又は異なるタイプのストレージデバイスであってよい。
【0085】
スピーカ532は、音声アダプタ530によって、システムバス502に動作的に結合されている。トランシーバ542は、ネットワークアダプタ540により、システムバス502に動作可能に結合されている。表示デバイス562は、ディスプレイアダプタ560によって、システムバス502に動作的に結合されている。
【0086】
第1のユーザ入力デバイス552、第2のユーザ入力デバイス554、及び第3のユーザ入力デバイス556は、ユーザインタフェースアダプタ550により、システムバス502に動作可能に結合されている。ユーザ入力デバイス552、554及び556は、キーボード、マウス、キーパッド、画像キャプチャデバイス、運動感知デバイス、マイクロフォン、先述のデバイスのうちの少なくとも2つの機能を組み込んだデバイスなどのいずれでもよい。当然、他のタイプの入力デバイスもまた、この原理の精神を維持しながら使用することができる。ユーザ入力デバイス552、554及び556は、同じタイプのユーザ入力デバイス又は異なるタイプのユーザ入力デバイスでもよい。ユーザ入力デバイス552、554及び556は、システム500に対して情報を入力及び出力するために使用できる。
【0087】
様々な実施形態で、処理システム500はまた、当業者により容易に想到される他の要素(示さず)を含み得、また特定の要素を省くことができる。例えば、当業者には容易に理解されるように、様々な他の入力デバイス若しくは出力デバイス又はその組み合わせが、その特定の実装形態に応じて、処理システム500に含まれてもよい。例えば、様々なタイプの無線若しくは有線又はその両方の入力若しくは出力又はその両方のデバイスが使用され得る。また、当業者には容易に理解されるように、様々な構成における、追加のプロセッサ、コントローラ、メモリなどを利用することもまたできる。処理システム500のそれらの又は他の変形が、本明細書に提示されているこの原理の教示を与えられると当業者により容易に想到される。
【0088】
また、システム500は、本方法/システムの個々の実施形態を実装するためのコンピュータシステム計算システムであると理解されたい。処理システム500の一部又はすべては、
図1~4の要素のうちの1又は複数に実装され得る。さらに、処理システム500は、例えば
図1~4の方法の少なくとも一部を含む、本明細書に説明されている方法の少なくとも一部を行うことができることを理解されたい。
【0089】
図6は、本発明の実施形態による、道路レイアウトのモデル化のための1又は複数のニューラルネットワークを実装するよう構成された例示的な処理システム600である。
【0090】
1又は複数の実施形態で、処理システム600は、スピーチ認識のリカレントニューラルネットワークトランスデューサのカスタマイズのコンピュータ実装方法を行うよう構成されるコンピュータシステム500であり得る。
【0091】
1又は複数の実施形態で、処理システム600は、メモリコンポーネント670を含むコンピュータシステム500であることができ、コンピュータシステムのランダムアクセスメモリ(RAM)510、ハードドライブ522、及び/又はビデオ画像から道路レイアウトを理解するコンピュータ実装方法を記憶及び実装するためのクラウドストレージを含むが、それらに限定されない。メモリコンポーネント670はまた、メモリストレージを組織するためのデータベースを利用できる。
【0092】
様々な実施形態で、メモリコンポーネント670は、音響入力をモデル化し自動スピーチ認識(ASR)を行うよう構成される複数の音響モデルを実装するよう構成できるエンコーダニューラルネットワーク610を含み得る。様々な実施形態で、エンコーダニューラルネットワーク610は、長短期記憶(LSTM)又は双方向性LSTM(BLSTM)として実装できる。エンコーダニューラルネットワーク610はまた、入力された音響信号として受信するよう構成され得る。入力はマイクロフォン556により受信されるオーディオデータの一連のセットであり得る。エンコーダニューラルネットワーク610はまた埋め込みである出力値を生成するよう構成できる。
【0093】
様々な実施形態で、メモリコンポーネント670は、1又は複数の音響モデルを学習するよう構成され、また自動スピーチ認識(ASR)を実行するエンコーダ埋め込みを生成するよう構成できる予測子ニューラルネットワーク620を含み得る。様々な実施形態で、予測子ニューラルネットワーク620は、長短期記憶(LSTM)として実装できる。予測子ニューラルネットワーク620はまた、埋め込みである出力値を生成するよう構成できる。
【0094】
様々な実施形態で、メモリコンポーネント670はエンコーダ及び予測子からの2つの別個の入力データセットを組み合わせるよう構成され得るジョイナーニューラルネットワーク630を含むことができ、データは特徴/ベクトルht及びhuであり得る。ジョイナーニューラルネットワーク630は出力を生じるよう構成することができ、出力は文字、サブワード、又は単語であり得る。
【0095】
様々な実施形態で、メモリコンポーネント670は、長さu-1を有する出力シンボルシーケンスy、120を生じるよう構成される出力ジェネレータ640を含み得る。出力ジェネレータ640は、ジョイナーニューラルネットワーク630から出力を受信するよう構成できる。
【0096】
様々な実施形態で、メモリコンポーネント670は、ジョイナーニューラルネットワーク630の出力値から予測を生成するよう構成されたソフトマックス関数650を含むことができる。
【0097】
様々な実施形態で、メモリコンポーネント670は、第1のドメインテキストデータから第1のドメインオーディオデータ、及び/又は第2のドメインテキストデータから第2のドメインオーディオデータを合成するよう構成されたシンセサイザ660を含み得る。
【0098】
図7は、本発明の別の実施形態による、例示的なニューラルネットワークをイラストで示すブロック図である。
【0099】
ニューラルネットワーク700は、複数のニューロン/ノードを含むことができ、出力ノードは複数の接続708のうちの1又は複数を使用して通信することができる。ニューラルネットワーク700は、例えば1又は複数の入力層702、1又は複数の隠れ層704、及び1又は複数の出力層706を含む、複数の層を含むことができる。一実施形態で、各層のノードは、いずれかの関数(例えば入力プログラム、入力データなど)をいずれかの先行の層に適用して出力を生じるように用いることができ、隠れ層704は、入力層(又は他のいずれかの層)からの入力を異なるレベルのノードのための出力に変換するのに用いることができる。
【0100】
図8は、実施形態による、クラウドコンシューマによって使用されるローカルコンピューティングデバイスが通信する1又は複数のクラウドコンピューティングノードを有する例示的なクラウドコンピューティング環境を示すブロック図である。
【0101】
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実施はクラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在既知の又は後に開発される任意の他のタイプのコンピューティング環境と併せて実施されることが可能である。
【0102】
クラウドコンピューティングは、管理の労力又はサービスのプロバイダとの対話を最小限に抑えながら迅速にプロビジョニング及びリリースできる構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共有プールに対する便利なオンデマンドネットワークアクセスを可能にするための、サービス提供モデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル及び少なくとも4つの展開モデルを含み得る。
【0103】
特徴は次の通りである。
オンデマンドセルフサービス:クラウドコンシューマは、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス:能力は、ネットワーク経由で利用可能であり、異種のシンクライアントプラットフォーム又はシッククライアントプラットフォーム(例えば、携帯電話、ラップトップ、PDA(登録商標))による使用を促進する標準機構を介してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数のコンシューマにサービスを提供するようにプールされており、様々な物理リソース及び仮想リソースが需要に従って動的に割り当てられ、また再割り当てされる。消費者は、一般に、提供されたリソースの正確な位置に関する制御又は知識はないが、より高い抽象化のレベル(例えば、国、州、又はデータセンタ)で位置を指定でき得るという点で、位置独立の感覚がある。
迅速な弾力性:能力は、迅速かつ弾力的にプロビジョニングでき、場合によっては、自動的に、迅速にスケールアウトされ、迅速にリリースされて迅速にスケールインされる。消費者にとって、プロビジョニングに利用可能な能力は無制限に見えることが多く、任意の時点において任意の量で購入できる。
測定されたサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、アクティブなユーザアカウント)に適したある程度の抽象化のレベルで計測能力を活用することにより、リソースの使用を自動的に制御及び最適化する。リソースの使用状況を監視、制御、及び報告して、利用するサービスの、プロバイダと消費者の両方に透明性を提供できる。
【0104】
サービスモデルは次の通りである。
サービスとしてのソフトウェア(SaaS):コンシューマに提供される能力は、クラウドインフラストラクチャ上で動作しているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインターフェースを介して、様々なクライアントデバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージ、又は、個々のアプリケーション能力さえも含む基礎となるクラウドインフラストラクチャを管理することも、制御することもない。ただし、限定されたユーザ固有のアプリケーション構成設定は例外となる場合がある。
プラットフォームアズアサービス(PaaS):消費者に提供される能力は、プロバイダによりサポートされるプログラミング言語及びツールを用いて作成される、消費者が作成又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、又は、ストレージを含む基礎となるクラウドインフラストラクチャを管理することも、制御することもないが、展開されるアプリケーション、また場合によっては、アプリケーションホスティング環境構成を制御することができる。
サービスとしてのインフラストラクチャ(IaaS):消費者に提供される能力は、処理、ストレージ、ネットワーク、及び消費者が、オペレーティングシステム及びアプリケーションを含み得る、任意のソフトウェアを展開及び実行できるその他の基本的なコンピューティングリソースをプロビジョニングすることである。消費者は、基礎となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されるアプリケーションを制御し、場合によっては、選択されたネットワーキングコンポーネント(例えば、ホストファイアウォール)を限定的に制御する。
【0105】
展開モデルは次の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。プライベートクラウドは、この組織又はサードパーティにより管理されてよく、オンプレミス又はオフプレミスで存在してよい。
コミュニティクラウド:クラウドインフラストラクチャは複数の組織によって共有されており、共有された懸念事項(例えば、ミッション、セキュリティ要件、ポリシ、コンプライアンスの考慮事項)を有する特定のコミュニティをサポートしている。これは、組織又は第三者により管理することができ、オンプレミス又はオフプレミスに存在することができる。
パブリッククラウド:クラウドインフラストラクチャは、一般の人々又は大規模な業界団体が利用できるようにしたもので、クラウドサービスを販売する組織が所有している。
ハイブリッドクラウド:クラウドインフラストラクチャは、一意のエンティティのままであるが、データ及びアプリケーションの移植性を可能にする標準化された技術又は特許技術(例えば、クラウド間の負荷分散のためのクラウドバースト)によって結合された2つ以上のクラウド(プライベート、コミュニティ、又はパブリック)の構成である。
【0106】
クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性、及びセマンティック相互運用性を重視したサービス指向型である。クラウドコンピューティングの中核には、相互接続されたノードからなるネットワークを含むインフラストラクチャが存在する。
【0107】
ここで
図8を参照すると、例示的なクラウドコンピューティング環境950が図示されている。
図示のように、クラウドコンピューティング環境950は、1又は複数のクラウドコンピューティングノード910を備え、例えば、パーソナルデジタルアシスタント(PDA(登録商標))又は携帯電話951、デスクトップコンピュータ952、ラップトップコンピュータ953、及び/又は自動車コンピュータシステム954などの、クラウドコンシューマに使用されるローカルコンピューティングデバイスが、クラウドコンピューティングノード910を用いて通信してもよい。ノード910は、互いに通信し得る。これらは、上述したようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、もしくはハイブリッドクラウド、又はその組み合わせなどの、1又は複数のネットワークにおいて物理的又は仮想的にグループ化(図示されていない)されてよい。これにより、クラウドコンピューティング環境950は、インフラストラクチャ、プラットフォーム若しくはソフトウェア又はその組み合わせを、クラウドコンシューマがローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能となる。
図8に示されるコンピューティングデバイス951、952、953、954のタイプが、単に例示を意図するものであり、コンピューティングノード110及びクラウドコンピューティング環境950が、(例えば、ウェブブラウザを使用して)任意のタイプのネットワークもしくはネットワークアドレス可能な接続又はその組み合わせによって任意のタイプのコンピュータ化デバイスと通信可能であることは理解されたい。
【0108】
図9は、本発明の実施形態による、クラウドコンピューティング環境により提供される機能抽象化層のセットを示すブロック図である。
【0109】
ここで
図9を参照すると、クラウドコンピューティング環境950(
図7)によって提供される機能抽象化層のセットが示されている。
図8に示すコンポーネント、層、及び機能が例示のみを意図するものであり、本発明の実施形態がこれらに限定されないことを先に理解されたい。図示されるように、以下の層及び対応する機能が提供される。
【0110】
ハードウェア及びソフトウェア層1060は、ハードウェア及びソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム61、RISC(縮小命令セットコンピュータ)アーキテクチャベースサーバ62、サーバ63、ブレードサーバ64、ストレージデバイス65、ならびにネットワーク及びネットワーキングコンポーネント66が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア67及びデータベースソフトウェア68を含む。
【0111】
仮想化層1070は、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーション及びオペレーティングシステム74、ならびに仮想クライアント75である、仮想エンティティの例が提供され得る抽象化層を提供する。
【0112】
一例において、管理層1080は、以下に説明される機能を提供し得る。リソースプロビジョニング81は、クラウドコンピューティング環境内でタスクを実行するのに利用される、コンピューティングリソース及び他のリソースの動的な調達を提供する。計量及び価格設定82は、クラウドコンピューティング環境内でリソースが利用されるときのコスト追跡、及びこれらのリソースの消費に対する請求又はインボイス作成を提供する。1つの例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウドコンシューマ及びタスクのアイデンティティ検証、並びに、データ及び他のリソースの保護を提供する。ユーザポータル83は、コンシューマ及びシステム管理者に、クラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理84は、必要とされるサービスレベルが満たされるように、クラウドコンピューティングリソース割り当て及び管理を提供する。サービス水準合意(SLA)計画及び履行85は、SLAに従って将来の要件が予測されるクラウドコンピューティングリソースの事前手配及び調達を提供する。
【0113】
ワークロード層1090は、クラウドコンピューティング環境が利用され得る機能性の例を提供する。この層から提供される可能性のあるワークロードと機能の例は、マッピングとナビゲーション91;ソフトウェア開発とライフサイクル管理92;仮想教室での教育の提供93;データ分析処理94;トランザクション処理95;自動スピーチ認識(ASR)96を実装するリカレントニューラルネットワークトランスデューサ(RNN-T)を含み、教師のニューラルネットワークは、自動スピーチ認識を学習し、生徒のニューラルネットワークを準備するよう構成されたリカレントニューラルネットワークにすることができる。
【0114】
本明細書で用いられる際、「ハードウェアプロセッササブシステム」又は「ハードウェアプロセッサ」という用語は、1又は複数の特定のタスクを実行するために連携するプロセッサ、メモリ、ソフトウェア、又はこれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、1又は複数のデータ処理要素(例えば、論理回路、処理回路、命令実行デバイスなど)を含み得る。1又は複数のデータ処理要素は、中央処理ユニット、グラフィックス処理ユニット、若しくは、別個のプロセッサ若しくはコンピューティング要素ベースのコントローラ(例えば論理ゲートなど)、又は、その組合せに含まれ得る。ハードウェアプロセッササブシステムは、1又は複数のオンボードメモリ(例えば、キャッシュ、専用メモリアレイ、リードオンリメモリなど)を含み得る。いくつかの実施形態において、ハードウェアプロセッササブシステムは、オンボード若しくはオンボードであり得る、又は、ハードウェアプロセッササブシステム(例えば、ROM、RAM、ベーシックインプット/アウトプットシステム(BIOS)など)による使用専用であり得る、1又は複数のメモリを含み得る。
【0115】
いくつかの実施形態において、ハードウェアプロセッササブシステムは、1又は複数のソフトウェア要素を含み得る、又は、実行し得る。1又は複数のソフトウェア要素は、オペレーティングシステム若しくは1又は複数のアプリケーション又はその両方、若しくは、指定された結果を実現するための特定のコード、又は、その両方を含み得る。
【0116】
他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を実現するための1又は複数の電子処理機能を実行する、専用の、特殊な回路を含み得る。そのような回路は、1又は複数の特定用途向け集積回路(ASIC)、FPGA若しくはPLA又はその組合せを含み得る。
【0117】
本発明の実施形態によるハードウェアプロセッササブシステムのこれらの及び他の変形も考えられる。
【0118】
本発明は、任意の考えられる技術詳細レベルで統合化されたシステム、方法、若しくはコンピュータプログラム製品、又はその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(又は複数のコンピュータ可読記憶媒体)を含み得る。
【0119】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を記憶及び格納できる有形のデバイスであることができる。コンピュータ可読記憶媒体は、例えば、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又はこれらの任意の好適な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例の非網羅的リストは、ポータブル・フロッピー(R)・ディスク、ハード・ディスク、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM:erasable programmable read-only memory又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM:static random access memory)、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM:compact disc read-only memory)、デジタル・バーサタイル・ディスク(DVD:digital versatile disk)、メモリ・スティック、フロッピー(R)・ディスク、命令が記録されているパンチカード又は溝の中の隆起構造などの機械的に符号化されるデバイス、及びこれらの任意の好適な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又はワイヤを通じて伝送される電気信号等の一時的な信号それ自体とは解釈されるべきではない。
【0120】
本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティングデバイス/処理デバイスへ、又はネットワーク(例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、又はワイヤレス・ネットワーク、あるいはその組合せ)を介して外部コンピュータ又は外部ストレージデバイスへダウンロードされ得る。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、又はエッジサーバ、あるいはその組合せを備えてよい。各コンピューティングデバイス/処理デバイス内のネットワークアダプタ・カード又はネットワーク・インターフェイスは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を各コンピューティングデバイス/処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。
【0121】
本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、又はたとえばSmalltalk(登録商標)、又はC++などのオブジェクト指向プログラミング言語、及びたとえば「C」プログラミング言語又は同様のプログラミング言語などの手続き型プログラミング言語を含む、1又は複数のプログラミング言語の任意の組み合わせで書かれたソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上ですべて実行され得るか、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行され得るか、部分的にユーザのコンピュータ上で且つ部分的にリモートコンピュータ上で実行され得るか、又は、リモートコンピュータ若しくはサーバ上ですべて実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)又は広域ネットワーク(WAN)を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、又は接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを介して)外部コンピュータに対して行われてよい。いくつかの実施形態において、本発明の態様を実行するために、例えばプログラマブル・ロジック回路、フィールドプログラマブル・ゲート・アレイ(FPGA:field-programmable gate arrays)、又はプログラマブル・ロジック・アレイ(PLA:programmable logic arrays)を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用することによって、電子回路をカスタマイズするためのコンピュータ可読プログラム命令を実行してよい。
【0122】
本発明の態様は、本明細書において、本発明の実施形態に従って、方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図又はブロック図あるいはその両方を参照して説明される。フローチャート図又はブロック図あるいはその両方の各ブロック、ならびにフローチャート図又はブロック図あるいはその両方に含まれるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装され得るということが理解されるであろう。
【0123】
これらのコンピュータ可読プログラム命令をコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに提供してマシンを生じてよく、それにより、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャート若しくはブロック図、又はその両方の1つ又は複数のブロックで指定された機能/動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、特定の方式で機能するようコンピュータ、プログラマブルデータ処理装置及び/又は他のデバイスに指示できるコンピュータ可読記憶媒体に格納されてよく、それにより、格納された命令を有するコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図の1つのブロック又は複数のブロックにおいて指定される機能/動作の態様を実装する命令を含む製造品を備える。
【0124】
コンピュータ可読プログラム命令は、コンピュータ上、他のプログラム可能な装置上、又は他のデバイス上で実行される命令が、フローチャート又はブロック図あるいはその両方の1つ又は複数のブロックに指定される機能/動作を実施するように、コンピュータ、他のプログラム可能なデータ処理装置、又は他のデバイスに読み込まれてもよく、それによって、一連の動作可能な段階を、コンピュータ上、他のプログラム可能な装置上、又はコンピュータ実装プロセスを生じる他のデバイス上で実行させる。
【0125】
本明細書内の本発明の「1つの実施形態」又は「実施形態」並びにそれら他の変形の言及は、実施形態との関連で説明された特定の特徴、構造、特性などが、少なくとも1つの本発明の実施形態に含まれることを意味する。そうして、本明細書全体にわたって様々な箇所に出現する、「1つの実施形態において」又は「実施形態において」という語句、及び任意の他の変形の出現は、必ずしもすべてが同一の実施形態に言及しているわけではない。
【0126】
例えば「A/B」、「AもしくはB又はその組み合わせ」、及び「A及びBの少なくとも1つ」の場合の、以下の「/」、「~もしくは…又はその組み合わせ」、及び「~の少なくとも1つ」のいずれかの使用が、第1の列挙されるオプション(A)のみの選択、又は、第2の列挙されるオプション(B)のみの選択、又は、両方のオプション(A及びB)の選択を包含することが意図されることは理解されたい。さらなる例として、「A、B、もしくはC又はその組み合わせ」、及び「A、B、及びCの少なくとも1つ」の場合、そのような言い回しは、第1の列挙されるオプション(A)のみの選択、又は、第2の列挙されるオプション(B)のみの選択、又は、第3の列挙されるオプション(C)のみの選択、又は、第1及び第2の列挙されるオプション(A及びB)のみの選択、又は、第1及び第3の列挙されるオプション(A及びC)のみの選択、又は、第2及び第3の列挙されるオプション(B及びC)のみの選択、又は、3つのオプションすべて(A及びB及びC)の選択を包含することが意図される。これは、当業者によって容易に明らかな限りで、列挙されるアイテムと同じ数だけ延長されてよい。
【0127】
図内のフローチャート及びブロック図は、本発明の様々な実施形態に従って、システム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関連して、フローチャート又はブロック図内の各ブロックは、規定された論理機能を実装するための1又は複数の実行可能な命令を備える、命令のモジュール、セグメント、又は部分を表してよい。いくつかの代替的な実装形態において、ブロックに記されている機能は、図面に記されている順序とは異なる順序で行われ得る。例えば、連続して示されている2つのブロックが、実際には、1つの段階として実現されてもよく、同時に、実質的に同時に、部分的にもしくは全体的に時間重複する方式で実行されてもよく、又は、ブロックは、場合によっては、関与する機能性に依拠して逆の順序で実行されてもよい。ブロック図又はフローチャート図あるいはその両方の各ブロック、ならびにブロック図又はフローチャート図あるいはその両方に含まれるブロックの組み合わせは、規定された機能又は動作を実行するか、又は専用ハードウェアとコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実装され得るということにも留意されたい。
【0128】
(例証することを意図するに過ぎず限定的でない)システム及び方法の好ましい実施形態が説明されたが、上記の教示があれば、当業者によって修正及び変形がされ得ることに留意されたい。したがって、発明の範囲内で開示され、添付の特許請求の範囲により概要を示された特定の実施形態内では、変更がなされてよいことを理解されたい。このように本発明の態様を、特許法により必要とされる詳細及び特定性と共に説明したが、何が請求され、特許証により保護されるように所望されるかは、添付の特許請求の範囲に示される。
【手続補正書】
【提出日】2023-07-12
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
第1のドメインテキストデータから第1のドメインオーディオデータを合成する段階;
初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに前記合成された第1のドメインオーディオデータを供給する段階、ここで前記エンコーダは前記合成された第1のドメインオーディオデータ及び前記第1のドメインテキストデータを使用して更新される;
第2のドメインテキストデータから第2のドメインオーディオデータを合成する段階;
前記合成された第2のドメインオーディオデータを前記リカレントニューラルネットワークトランスデューサ(RNN-T)の前記更新されたエンコーダに供給する段階、ここで予測ネットワークは前記合成された第2のドメインオーディオデータ及び前記第2のドメインテキストデータを使用して更新される;及び
前記初期条件に前記更新されたエンコーダを復元させる段階
を備える、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータ実装方法。
【請求項2】
前記リカレントニューラルネットワークトランスデューサ(RNN-T)は、前記エンコーダの出力を予測子の出力と組み合わせるジョイナーを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドz
t,uとして出力を生じる、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記ソフトマックス関数は、事後確率P(y|t,u)を生成する、請求項3に記載のコンピュータ実装方法。
【請求項5】
事後確率ジェネレータP(y|t,u)は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスxに基づいて、長さUの出力シーケンスである、出力シーケンスy=(y
1,y
2,...y
U-1,y
U)である出力を生成する、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記入力特徴シーケンスxは、前記合成された第1のドメインオーディオデータから導出される、請求項5に記載のコンピュータ実装方法。
【請求項7】
1又は複数のプロセッサデバイス;
前記1又は複数のプロセッサデバイスのうちの少なくとも1つと通信するメモリ;及び
表示画面;
を、
前記メモリは、
第1のドメインテキストデータから生成された合成された第1のドメインオーディオデータを受信するよう構成されたエンコーダ、ここで前記エンコーダは初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダであり、ここで前記エンコーダは前記合成された第1のドメインオーディオデータ及び前記第1のドメインテキストデータを使用して前記初期条件から更新されるよう構成されており、ここで前記エンコーダは第2のドメインテキストデータから生成された合成された第2のドメインオーディオデータを受信するようさらに構成されている;及び
ベクトルとして表される音響特徴の時間順のシーケンスのである入力特徴シーケンスxに基づいて、出力シンボルシーケンスyを生じる出力シーケンスジェネレータ
を有する、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのシステム。
【請求項8】
前記メモリは、前記トレーニング済みエンコーダの出力を予測子の出力と組み合わせるよう構成されているジョイナーをさらに有する、請求項7に記載のシステム。
【請求項9】
前記ジョイナーは、前記出力として、誘導されたローカルフィールドz
t,uを生じる、請求項8に記載のシステム。
【請求項10】
前記メモリは、誘導されたローカルフィールドz
t,uを受信し、出力を生成するよう構成されているソフトマックス関数をさらに有する、請求項9に記載のシステム。
【請求項11】
前記出力シンボルシーケンスy=(y
1,y
2,...y
U-1,y
U)は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスxに基づいて、長さUの出力シーケンスである、請求項10に記載のシステム。
【請求項12】
前記メモリは、第1のドメインテキストデータから第1のドメインオーディオデータを合成し、また第2のドメインテキストデータから第2のドメインオーディオデータを合成するよう構成されているシンセサイザをさらに有する、請求項11に記載のシステム。
【請求項13】
前記エンコーダは、前記初期条件に復元されるようさらに構成されている、請求項12に記載のシステム。
【請求項14】
1又は複数のコンピュータ可読記憶媒体、及び
前記1又は複数のコンピュータ可読記憶媒体上にまとめて記憶されたプログラム命令
を備え、
前記プログラム命令は、コンピュータに、
第1のドメインテキストデータから第1のドメインオーディオデータを合成すること;
初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに前記合成された第1のドメインオーディオデータを供給すること、ここで前記エンコーダは前記合成された第1のドメインオーディオデータ及び前記第1のドメインテキストデータを使用して更新される;
第2のドメインテキストデータから第2のドメインオーディオデータを合成すること;
前記合成された第2のドメインオーディオデータを前記リカレントニューラルネットワークトランスデューサ(RNN-T)の前記更新されたエンコーダに供給すること、ここで予測子は前記合成された第2のドメインオーディオデータ及び前記第2のドメインテキストデータを使用して更新される;及び
前記初期条件に前記更新されたエンコーダを復元させること
を行わせるために前記コンピュータにより実行可能である、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータプログラ
ム。
【請求項15】
前記リカレントニューラルネットワークトランスデューサ(RNN-T)は、前記トレーニング済みエンコーダの出力を前記予測子の出力と組み合わせるジョイナーを含む、請求項14に記載のコンピュータプログラ
ム。
【請求項16】
前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドz
t,uとして出力を生じる、請求項15に記載のコンピュータプログラ
ム。
【請求項17】
前記ソフトマックス関数は、事後確率P(y|t,u)を生成する、請求項16に記載のコンピュータプログラ
ム。
【請求項18】
事後確率ジェネレータP(y|t,u)は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスxに基づいて、長さUの出力シーケンスである出力シーケンスy=(y
1,y
2,...y
U-1,y
U)である出力を生成する、請求項17に記載のコンピュータプログラ
ム。
【請求項19】
第1のドメインオーディオデータを前記合成する段階は、前記入力特徴シーケンスxである、請求項18に記載のコンピュータプログラ
ム。
【請求項20】
第1のドメインテキストデータから第1のドメインオーディオデータを合成する段階;
初期条件を有するリカレントニューラルネットワークトランスデューサ(RNN-T)のトレーニング済みエンコーダに前記合成された第1のドメインオーディオデータを供給する段階、ここで前記エンコーダは前記合成された第1のドメインオーディオデータ及び前記第1のドメインテキストデータを使用して更新され、前記合成された第1のドメインオーディオデータを音響埋め込みa
tに符号化し、前記音響埋め込みa
tは、前記合成された第1のドメインオーディオデータをより小さい特徴空間に圧縮する;
前記音響埋め込みa
tをジョイナーに供給する段階;
第2のドメインテキストデータから第2のドメインオーディオデータを合成する段階;
前記合成された第2のドメインオーディオデータを前記更新されたエンコーダに供給する段階、ここで前記更新されたエンコーダは、前記合成された第2のドメインオーディオデータを前記音響埋め込みb
tに符号化し、ここで、前記音響埋め込みb
tは、前記合成された第2のドメインオーディオデータをより小さい特徴空間に圧縮する;
前記ジョイナーからの出力シーケンスを前記リカレントニューラルネットワークトランスデューサ(RNN-T)の予測子に供給する段階、ここで前記予測子は、前記合成された第2のドメインオーディオデータ及び前記第2のドメインテキストデータからの前記出力シーケンスを使用して更新される;及び
前記初期条件に前記更新されたエンコーダを復元させる段階
を備える、リカレントニューラルネットワークトランスデューサ(RNN-T)をカスタマイズするためのコンピュータ実装方法。
【請求項21】
前記ジョイナーは、前記音響埋め込みa
tを、加重和を通じて前記予測子からの埋め込みと組み合わせる、請求項20に記載のコンピュータ実装方法。
【請求項22】
前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドz
t,uとして出力を生じる、請求項21に記載のコンピュータ実装方法。
【請求項23】
前記ソフトマックス関数は、事後確率P(y|t,u)を生成する、請求項22に記載のコンピュータ実装方法。
【国際調査報告】