特表2024-501173 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-501173スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-01-11

(54)【発明の名称】スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズ

(51)【国際特許分類】

G10L 15/06 20130101AFI20231228BHJP

G10L 15/16 20060101ALI20231228BHJP

【ＦＩ】

G10L15/06 300Y

G10L15/06 300D

G10L15/16

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2023534228

(86)(22)【出願日】2021-11-26

(85)【翻訳文提出日】2023-06-05

(86)【国際出願番号】 IB2021061019

(87)【国際公開番号】W WO2022144630

(87)【国際公開日】2022-07-07

(31)【優先権主張番号】17/136,439

(32)【優先日】2020-12-29

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(74)【復代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】倉田岳人

(72)【発明者】

【氏名】サオン、ジョージ、アンドレイ

(72)【発明者】

【氏名】キングスベリー、ブライアン

(57)【要約】

スピーチ認識のためのリカレントニューラルネットワークトランスデューサのカスタマイズリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータ実装方法が提供される。コンピュータ実装方法は、第１のドメインテキストデータから第１のドメインオーディオデータを合成する段階、及び初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに、合成された第１のドメインオーディオデータを供給する段階を含み、エンコーダは合成された第１のドメインオーディオデータ及び第１のドメインテキストデータを使用して更新される。コンピュータ実装方法は、第２のドメインテキストデータから第２のドメインオーディオデータを合成する段階、及びリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の更新されたエンコーダに、合成された第２のドメインオーディオデータを供給する段階をさらに含み、予測ネットワークは合成された第２のドメインオーディオデータ及び第２のドメインテキストデータを使用して更新される。コンピュータ実装方法は、更新されたエンコーダを初期条件に復元する段階をさらに含む。

【特許請求の範囲】

【請求項1】

第１のドメインテキストデータから第１のドメインオーディオデータを合成する段階；
初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに前記合成された第１のドメインオーディオデータを供給する段階、ここで前記エンコーダは前記合成された第１のドメインオーディオデータ及び前記第１のドメインテキストデータを使用して更新される；
第２のドメインテキストデータから第２のドメインオーディオデータを合成する段階；
前記合成された第２のドメインオーディオデータを前記リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の前記更新されたエンコーダに供給する段階、ここで予測ネットワークは前記合成された第２のドメインオーディオデータ及び前記第２のドメインテキストデータを使用して更新される；及び
前記初期条件に前記更新されたエンコーダを復元させる段階
を備える、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータ実装方法。

【請求項2】

前記リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）は、前記エンコーダの出力を予測子の出力と組み合わせるジョイナーを含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドｚ_ｔ，ｕとして出力を生じる、請求項２に記載のコンピュータ実装方法。

【請求項4】

前記ソフトマックス関数は、事後確率Ｐ（ｙ｜ｔ，ｕ）を生成する、請求項３に記載のコンピュータ実装方法。

【請求項5】

事後確率ジェネレータＰ（ｙ｜ｔ，ｕ）は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスｘに基づいて、長さＵの出力シーケンスである、出力シーケンスｙ＝（ｙ_１，ｙ_２，...ｙ_Ｕ－１，ｙ_Ｕ）である出力を生成する、請求項４に記載のコンピュータ実装方法。

【請求項6】

前記入力特徴シーケンスｘは、前記合成された第１のドメインオーディオデータから導出される、請求項５に記載のコンピュータ実装方法。

【請求項7】

１又は複数のプロセッサデバイス；
前記１又は複数のプロセッサデバイスのうちの少なくとも１つと通信するメモリ；及び
表示画面；
を、
前記メモリは、
第１のドメインテキストデータから生成された合成された第１のドメインオーディオデータを受信するよう構成されたエンコーダ、ここで前記エンコーダは初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダであり、ここで前記エンコーダは前記合成された第１のドメインオーディオデータ及び前記第１のドメインテキストデータを使用して前記初期条件から更新されるよう構成されており、ここで前記エンコーダは第２のドメインテキストデータから生成された合成された第２のドメインオーディオデータを受信するようさらに構成されている；及び
ベクトルとして表される音響特徴の時間順のシーケンスのである入力特徴シーケンスｘに基づいて、出力シンボルシーケンスｙを生じる出力シーケンスジェネレータ
を有する、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのシステム。

【請求項8】

前記メモリは、前記トレーニング済みエンコーダの出力を予測子の出力と組み合わせるよう構成されているジョイナーをさらに有する、請求項７に記載のシステム。

【請求項9】

前記ジョイナーは、前記出力として、誘導されたローカルフィールドｚ_ｔ，ｕを生じる、請求項８に記載のシステム。

【請求項10】

前記メモリは、誘導されたローカルフィールドｚ_ｔ，ｕを受信し、出力を生成するよう構成されているソフトマックス関数をさらに有する、請求項９に記載のシステム。

【請求項11】

前記出力シンボルシーケンスｙ＝（ｙ_１，ｙ_２，...ｙ_Ｕ－１，ｙ_Ｕ）は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスｘに基づいて、長さＵの出力シーケンスである、請求項１０に記載のシステム。

【請求項12】

前記メモリは、第１のドメインテキストデータから第１のドメインオーディオデータを合成し、また第２のドメインテキストデータから第２のドメインオーディオデータを合成するよう構成されているシンセサイザをさらに有する、請求項１１に記載のシステム。

【請求項13】

前記エンコーダは、前記初期条件に復元されるようさらに構成されている、請求項１２に記載のシステム。

【請求項14】

１又は複数のコンピュータ可読記憶媒体、及び
前記１又は複数のコンピュータ可読記憶媒体上にまとめて記憶されたプログラム命令
を備え、
前記プログラム命令は、コンピュータに、
第１のドメインテキストデータから第１のドメインオーディオデータを合成すること；
初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに前記合成された第１のドメインオーディオデータを供給すること、ここで前記エンコーダは前記合成された第１のドメインオーディオデータ及び前記第１のドメインテキストデータを使用して更新される；
第２のドメインテキストデータから第２のドメインオーディオデータを合成すること；
前記合成された第２のドメインオーディオデータを前記リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の前記更新されたエンコーダに供給すること、ここで予測子は前記合成された第２のドメインオーディオデータ及び前記第２のドメインテキストデータを使用して更新される；及び
前記初期条件に前記更新されたエンコーダを復元させること
を行わせるために前記コンピュータにより実行可能である、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータプログラム製品。

【請求項15】

前記リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）は、前記トレーニング済みエンコーダの出力を前記予測子の出力と組み合わせるジョイナーを含む、請求項１４に記載のコンピュータプログラム製品。

【請求項16】

前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドｚ_ｔ，ｕとして出力を生じる、請求項１５に記載のコンピュータプログラム製品。

【請求項17】

前記ソフトマックス関数は、事後確率Ｐ（ｙ｜ｔ，ｕ）を生成する、請求項１６に記載のコンピュータプログラム製品。

【請求項18】

事後確率ジェネレータＰ（ｙ｜ｔ，ｕ）は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスｘに基づいて、長さＵの出力シーケンスである出力シーケンスｙ＝（ｙ_１，ｙ_２，...ｙ_Ｕ－１，ｙ_Ｕ）である出力を生成する、請求項１７に記載のコンピュータプログラム製品。

【請求項19】

第１のドメインオーディオデータを前記合成する段階は、前記入力特徴シーケンスｘである、請求項１８に記載のコンピュータプログラム製品。

【請求項20】

第１のドメインテキストデータから第１のドメインオーディオデータを合成する段階；
初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに前記合成された第１のドメインオーディオデータを供給する段階、ここで前記エンコーダは前記合成された第１のドメインオーディオデータ及び前記第１のドメインテキストデータを使用して更新され、前記合成された第１のドメインオーディオデータを音響埋め込みａ_ｔに符号化し、前記音響埋め込みａ_ｔは、前記合成された第１のドメインオーディオデータをより小さい特徴空間に圧縮する；
前記音響埋め込みａ_ｔをジョイナーに供給する段階；
第２のドメインテキストデータから第２のドメインオーディオデータを合成する段階；
前記合成された第２のドメインオーディオデータを前記更新されたエンコーダに供給する段階、ここで前記更新されたエンコーダは、前記合成された第２のドメインオーディオデータを前記音響埋め込みｂ_ｔに符号化し、ここで、前記音響埋め込みｂ_ｔは、前記合成された第２のドメインオーディオデータをより小さい特徴空間に圧縮する；
前記ジョイナーからの出力シーケンスを前記リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の予測子に供給する段階、ここで前記予測子は、前記合成された第２のドメインオーディオデータ及び前記第２のドメインテキストデータからの前記出力シーケンスを使用して更新される；及び
前記初期条件に前記更新されたエンコーダを復元させる段階
を備える、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータ実装方法。

【請求項21】

前記ジョイナーは、前記音響埋め込みａ_ｔを、加重和を通じて前記予測子からの埋め込みと組み合わせる、請求項２０に記載のコンピュータ実装方法。

【請求項22】

前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドｚ_ｔ，ｕとして出力を生じる、請求項２１に記載のコンピュータ実装方法。

【請求項23】

前記ソフトマックス関数は、事後確率Ｐ（ｙ｜ｔ，ｕ）を生成する、請求項２２に記載のコンピュータ実装方法。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は一般にスピーチ認識、より具体的にはエンドツーエンドのスピーチ認識モデルをトレーニングするための方法及びシステムに関する。

【0002】

リカレントニューラルネットワーク（ＲＮＮ）は人工ニューラルネットワークのタイプであり、ノード間の接続が時系列に沿った、方向づけられたグラフを形成する。これは、ＲＮＮが音素などの属性の間のシーケンスの依存性を分析することを可能にする。フィードフォワードニューラルネットワークから導出されて、ＲＮＮは入力の可変の長さのシーケンスを処理するべくそれらの内的状態（メモリ）を使用できる。ＲＮＮはまた、秩序化情報を直接符号化できる。ＲＮＮは元のシーケンスと同じ秩序において入力を受信及び処理できる。これは、それらを、非セグメント状態の接続された手書き入力の認識又はスピーチ認識などのタスクに適用可能なものにする。時系列の入力された値は、実際の値又はシンボルであってよい。

【0003】

ＲＮＮは、固定した数のパラメータを有することができ、また可変の入力数を処理することができる。ＲＮＮはシーケンスにおける位置の数及びネットワークの層の数の間で一対一の関係を有し得る。各層はシーケンスにおける特定の配置の単一の入力を有し得る（例えば、時間、段階）。入力は、それによって、シーケンスにおける入力の配置に依拠して隠れ層と相互作用できる。層のアーキテクチャは時間内に反復され、そのためリカレントと称される。ＲＮＮは変換を行うために入力及び出力シーケンス間の事前に定めたアライメントを必要とし得る。これには限界があり得る、なぜならばアライメントを見つけることが、シーケンス変換問題の非常に難しい側面である場合があるからである。

【0004】

エンドツーエンド（Ｅ２Ｅ）自動スピーチ認識（ＡＳＲ）システムは、音響特徴を出力トークンシーケンスにマッピングすることで、音響特徴のシーケンスをトークン（音素、キャラクター、単語など）の出力シーケンスに直接変換できる。ＡＳＲのエンドツーエンドモデルは入力オーディオの与えられた単語のトランスクリプトを直接出力できる。

【発明の概要】

【0005】

本発明の実施形態によると、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータ実装方法が提供される。コンピュータ実装方法は、第１のドメインテキストデータから第１のドメインオーディオデータを合成する段階、及び初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに合成された第１のドメインオーディオデータを供給する段階を含み、エンコーダは合成された第１のドメインオーディオデータ及び第１のドメインテキストデータを使用して更新される。コンピュータ実装方法は、第２のドメインテキストデータから第２のドメインオーディオデータを合成する段階、及びリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の更新されたエンコーダに、合成された第２のドメインオーディオデータを供給する段階をさらに含み、予測ネットワークは合成された第２のドメインオーディオデータ及び第２のドメインテキストデータを使用して更新される。コンピュータ実装方法は、更新されたエンコーダを初期条件に復元する段階をさらに含む。

【0006】

本発明の別の実施形態によると、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのシステムが提供される。システムは、１又は複数のプロセッサデバイス、１又は複数のプロセッサデバイスのうちの少なくとも１つと通信するメモリ、及び表示画面を含み、メモリは第１のドメインテキストデータから第１のドメインオーディオデータを合成し、第２のドメインテキストデータから第２のドメインオーディオデータを合成するよう構成されたシンセサイザ、及び第１のドメインテキストデータから生成される合成された第１のドメインオーディオデータを受信するよう構成されたエンコーダを含み、エンコーダは初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダであり、エンコーダは合成された第１のドメインオーディオデータ及び第１のドメインテキストデータを使用して初期条件から更新されるよう構成され、エンコーダは、第２のドメインテキストデータから生成された合成された第２のドメインオーディオデータを受信するようさらに構成される。メモリは、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスｘに基づいて、出力シンボルシーケンスｙを生じる出力シーケンスジェネレータをさらに含む。

【0007】

本発明のさらに別の実施形態によると、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータプログラム製品が提供され、コンピュータプログラム製品は１又は複数のコンピュータ可読記憶媒体を含み、プログラム命令はまとめて１又は複数のコンピュータ可読記憶媒体に記憶され、プログラム命令はコンピュータにより実行可能である。実行される場合に、コンピュータに、第１のドメインテキストデータから第１のドメインオーディオデータを合成すること、及び初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに、合成された第１のドメインオーディオデータを供給することを生じさせるコンピュータプログラム製品、ここでエンコーダは合成された第１のドメインオーディオデータ及び第１のドメインテキストデータを使用して更新される。実行される場合に、コンピュータにまた、第２のドメインテキストデータから第２のドメインオーディオデータを合成すること、及びリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の更新されたエンコーダに、合成された第２のドメインオーディオデータを供給することを生じさせるコンピュータプログラム製品、ここで予測子は合成された第２のドメインオーディオデータ及び第２のドメインテキストデータを使用して更新される。コンピュータプログラム製品は、実行される場合に、コンピュータにまた、更新されたエンコーダを初期条件に復元させる。

【0008】

本発明のさらに別の実施形態によると、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータ実装方法が提供される。コンピュータ実装方法は、第１のドメインテキストデータから第１のドメインオーディオデータを合成する段階、及び初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに、合成された第１のドメインオーディオデータを供給する段階を含み、エンコーダは合成された第１のドメインオーディオデータ及び第１のドメインテキストデータを使用して更新され、合成された第１のドメインオーディオデータを音響埋め込みａ_ｔに符号化し、ここで音響埋め込みａ_ｔは、合成された第１のドメインオーディオデータをより小さい特徴空間に圧縮する。コンピュータ実装方法は、音響埋め込みａ_ｔをジョイナーに供給する段階、及び第２のドメインテキストデータから第２のドメインオーディオデータを合成する段階をさらに含む。コンピュータ実装方法は、さらに、合成された第２のドメインオーディオデータを更新されたエンコーダに供給する段階、ここで更新されたエンコーダは、合成された第２のドメインオーディオデータを音響埋め込みｂｔに符号化し、ここで、音響埋め込みｂｔは、合成された第２のドメインオーディオデータをより小さい特徴空間に圧縮する、及びジョイナーからの出力シーケンスをリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の予測子に供給する段階、ここで予測子は、合成された第２のドメインオーディオデータ及び第２のドメインテキストデータからの出力シーケンスを使用して更新される、を含む。コンピュータ実装方法は、更新されたエンコーダを初期条件に対して復元する段階をさらに含む。

【0009】

これら及び他の特徴及び利点は、これらの例示的実施形態に関する以下の詳細な説明により明らかになり、以下の詳細な説明は、添付図面との関連で読まれるべきである。

【図面の簡単な説明】

【0010】

以下の説明は、好ましい実施形態の詳細を、以下の図面を参照して提供する。

【図1】本発明の実施形態による、スピーチ認識に適用され得るリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のためのアーキテクチャの図である。

【図2】本発明の実施形態による、スピーチ認識のためのリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をトレーニングするためのアルゴリズムを示すブロック／フロー図である。

【図3】本発明の実施形態による、テキストからのオーディオ特徴を合成し、エンコーダ及び予測子を更新し、エンコーダを復元するためのアルゴリズムを示すブロック／フロー図である。

【図4】本発明の実施形態による、ＲＮＮ－Ｔのための事後格子の図である。

【図5】本発明の実施形態による、本方法及びシステムが適用され得る例示的な処理システムである。

【図6】本発明の実施形態による、道路レイアウトのモデル化のための１又は複数のニューラルネットワークを実装するよう構成された例示的な処理システムである。

【図7】本発明の実施形態による、例示的なニューラルネットワークをイラストで示すブロック図である。

【図8】実施形態による、クラウドコンシューマによって使用されるローカルコンピューティングデバイスが通信する１又は複数のクラウドコンピューティングノードを有する例示的なクラウドコンピューティング環境を示すブロック図である。

【図9】本発明の実施形態による、クラウドコンピューティング環境により提供される機能抽象化層のセットを示すブロック図である。

【発明を実施するための形態】

【0011】

本発明の実施形態は、充分強いベースのＲＮＮ－Ｔモデルから特定のターゲットドメインへの言語モデルのカスタマイズのためのシステム及び方法を提供する。ＲＮＮ－Ｔは予め最初からトレーニングできる。トレーニング済みのＲＮＮ－Ｔは、ユーザにより特定のドメインに対してカスタマイズできる。

【0012】

１つのニューラルネットワークに亘るビームサーチは、推論のために実行され得て、その結果、計算コストが小さくなり、メモリフットプリントが小さくなり、推論エンジンが単純になる。

【0013】

様々な実施形態で、この手法は、ＲＮＮ－Ｔベースのモデル化に対応することができ、「言語モデル」及び「語彙」は他のモジュールと共に１つのニューラルネットワークに統合され、ネットワークがトレーニング及び展開された後に外部から直接操作できない。

【0014】

本発明が適用され得る例示的な適用／使用は、自動スピーチ認識（ＡＳＲ）、自然言語翻訳などを含むが、それに限定されない。

【0015】

本発明の態様が、与えられた例示のアーキテクチャという観点で説明されるが、他のアーキテクチャ、構造、及びプロセス特徴及び段階が、本発明の態様の範囲で変動し得ることを理解されたい。

【0016】

ここで図面を参照するが、それにおいて同様の数字は同一又は同様の要素を表し、最初は図１を参照して、本発明の実施形態による、スピーチ認識に適用できるリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のためのアーキテクチャの図が示される。

【0017】

ディープニューラルネットワーク（ＤＮＮ）を利用する自動スピーチ認識（ＡＳＲ）は、いくつかのモデルを同時に実装するハイブリッド枠組みを使用できる。ハイブリッドシステムのためのモデルは、音響モデル（ＡＭ）及び言語モデル（ＬＭ）を含み得る。ＲＮＮ－Ｔモデルは、３つの部分、テキスト埋め込みにラベルのシーケンスを符号化する予測子ネットワーク、観測ベクトルのシーケンスを音響埋め込みに符号化するエンコーダネットワーク、及びテキスト及び音響埋め込みを組み合わせるソフトマックス出力層を有するニューラルネットワーク（例えばジョイナー）を含み得る。

【0018】

「言語モデル」のカスタマイズは、開発者及びユーザが、特定のアプリケーション、ユースケースの特定の単語、フレーズ、及び文章を、トレーニング済み言語モデルに対する自動スピーチ認識（ＡＳＲ）のために追加することを可能にする機能である。換言すれば、カスタマイズは先行してトレーニング及び展開された言語モデル（ＬＭ）を修正してそれによって柔軟で効率的なカスタマイズ機能を設ける。様々な実施形態では、ハイブリッドシステムで音響モデル、言語モデル、及び語彙が明白にモジュール化される。したがって「言語モデル」カスタマイズは、言語モデル及び語彙がトレーニング及び展開された後でさえ、それらが直接操作され、修正され得るという理由で、容易に実現できる。

【0019】

１又は複数の実施形態では、ＡＳＲのＲＮＮ－Ｔ１００は３つの構成要素を有することができ、オーディオ用のエンコーダ１３０、テキスト用の予測子１４０、及びエンコーダ１３０及び予測子１４０の出力を組み合わせるジョイナー１５０を含む。エンコーダ１３０は時間ｔでオーディオフレームを、音響埋め込みａ_ｔとして符号化でき、埋め込みは入力された特徴空間をより小さい特徴空間に圧縮できる。音響モデル（ＡＭ）は、エンコーダ１３０に組み込むことができる。予測子１４０は、テキスト埋め込みｔ_ｈとして、添え字ｈまでテキスト履歴を符号化できる。言語モデルは、予測子１４０に組み込むことができる。テキスト埋め込みベクトル及びエンコーダ出力は、固定した次元の実際の値のベクトルであってよい。これらの埋め込みは、ジョイナー１５０に供給することができ、これはそれらを組み合わせて、ｙ_ｔ，ｈでの出力ユニットに亘り確率分布を生じる。

【0020】

様々な実施形態で、オーディオ及び出力シンボル間のフレームレベルのアライメントは、ＲＮＮ－Ｔをトレーニング又はカスタマイズするのに利用されない。対のテキスト及びテキストからの合成オーディオが、ＲＮＮ－Ｔをトレーニング又はカスタマイズするのに使用でき、事前に計算されたアライメントなしにエンドツーエンドのモデルが対のオーディオ及びトランスクリプトからトレーニングされ得る。コンピュータ実装方法は、合成された第１のドメインオーディオデータ及び第１のドメインテキストデータを使用することによりエンコーダネットワークを更新することを含むことができる。

【0021】

様々な実施形態で、入力特徴シーケンスｘ、１１０を、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）１００のエンコーダ１３０に供給することができ、入力特徴シーケンスｘはベクトルとして表される音響特徴の時間順のシーケンスであり得る。様々な実施形態で、ｘ＝（ｘ_１，ｘ_２，...，ｘ_Ｔ）は、任意の長さＴの入力シーケンスであり得る。１又は複数の実施形態で、オーディオデータはソースドメインで利用可能なテキストから合成できる。オーディオデータを合成するために使用されるテキストは、元のＲＮＮ－ＴＡＳＲモデルのトレーニングで使用されるのと同じテキストにすることができる。エンコーダ１３０の音響モデルは、音響特徴ｘ_ｔを高水準の表現

【数1】

に変換することができ、式中ｔは時間の添え字である。

【数2】

式中ｈ_ｔ ^ｅｎｃは長さＴの埋め込みベクトルシーケンスであってよく、埋め込みは、入力された特徴空間を、固定した大きさの長さＴのより小さな出力ベクトル（密のベクトル）に圧縮できる。様々な実施形態で、エンコーダ１３０は単方向性エンコーダネットワーク又は双方向性エンコーダネットワークであり得る。

【0022】

予測子１４０は、ＲＮＮ言語モデルとして機能でき、それが、ＲＮＮ－Ｔモデルにより予測される先行の非ブランクターゲットｙ_ｕ－１という条件で、高水準の表現

【数3】

を生じ、式中ｕは出力ラベルの添え字である。

【数4】

式中、ｈ_ｕ ^ｐｒｅは埋め込みベクトルである。

【0023】

オーディオ信号を単語のシーケンスに変換することは、異なる声により作成される明らかな歪みにもかかわらず、言語音（音素又は音節など）を識別できることを必要とする。ＲＮＮは入力シーケンス及び出力シーケンスをマッピングする問題に適用できる。ＲＮＮ出力が確率的な場合、入力シーケンスと同じ長さの出力シーケンスに亘る分布が生じ得る。スピーチ認識は、入力シーケンスｘ＝ｘ_１，...，ｘ_Ｔが与えられる場合、最も見込みのある単語シーケンスＷ＝ｗ_１，...，ｗ_ｎを判定することに関与し、この場合、Ｔは発話におけるフレーム数を表すことができる。

【0024】

様々な実施形態では、出力シンボルシーケンスｙ、１２０は、ｕ－１の長さを有し、言語モデルとして挙動し得る予測ニューラルネットワーク１４０に供給され得、出力シンボルシーケンスｙは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）により生成される。１２０におけるｙ_ｕ－１は、先行の予測（例えばシンボル）を示す。ＲＮＮ－Ｔは、ｕ－１に至る先行のシンボルシーケンスに基づいて、次のシンボルｙ_ｕを予測する。様々な実施形態で、ｙ＝（ｙ_１，ｙ_２，...，ｙ_Ｕ）は、セットＹに属する目標の出力シンボルの長さＵのシーケンスであり得る。目標のシンボルのセットは、文字、音素、書記素、ワードピースなどであり得る。

【0025】

ＲＮＮ－Ｔモデルにおいて、余分なブランクシンボルΦが、長さＵシーケンスｙを長さ－（Ｔ＋Ｕ）シーケンスΦ（ｙ）のセットに拡張するために導入できる。シンボル又はラベルのシーケンス長さ（Ｕ）及び音響特徴フレーム（Ｔ）は、同じ長さでなくともよい。

【0026】

予測ニューラルネットワーク１４０の出力が、出力シンボルを生じる前にジョイナー１５０でエンコーダ１３０の出力とマージされるため、カスタマイズのために予測ネットワーク１４０を直接操作すること（単語、フレーズ、及び文を追加すること）は、可能ではない。

【0027】

様々な実施形態で、入力ベクトルｘ_ｔ及び出力ベクトルｙ_ｕは、固定した長さの実数値ベクトルとして表されてよく；例えば、キャラクターベースのスピーチ認識では、各ｘ_ｔはメル周波数ケプストラム係数（ＭＦＣＣ）のベクトルであってよく、各ｙ_ｔは特定のキャラクターを符号化するワンホットベクトルであってよく、メル周波数ケプストラム係数（ＭＦＣＣ）は、音の短期のパワーのスペクトルを表したものである。入力ベクトルｘ_ｔ及び出力ベクトルｙ_ｕは、マッピングされ得て、入力ベクトルｘ_ｔ及び出力ベクトルｙ_ｕは、異なる長さＴ及びＵを有し得る。

【0028】

様々な実施形態で、エンコーダ１３０は、最初に、先んじてトレーニングされ得る。ＲＮＮ－Ｔをトレーニングする前に、エンコーダネットワーク１３０及び予測ネットワーク１４０が初期化され得る。

【0029】

様々な実施形態では、音響モデル及びクロスエントロピー言語モデルが、先んじて得られ、音響モデルは、音素音響モデルであってよい。様々な実施形態で、クロスエントロピー言語モデルはキャラクターのクロスエントロピー言語モデル、サブワードクロスエントロピー言語モデル、又は単語クロスエントロピー言語モデルであり得る。

【0030】

様々な実施形態で、エンドツーエンドのスピーチ認識モデルのエンコーダ１３０は音響モデルに基づいて初期化できる。エンコーダネットワーク１３０はまた、対の合成オーディオ及びソースドメインからの関連するテキストを使用して更新され得る。「ソース」データはカスタマイズの前に元のＲＮＮ－Ｔをトレーニングするために使用されるトレーニングデータである。

【0031】

様々な実施形態で、予測子ネットワーク１４０は入力オーディオに関連付けられるテキストを判定／予測する言語モデラとして動作する。

【0032】

様々な実施形態で、予測ネットワーク１４０はリカレントニューラルネットワークであり得、予測ネットワーク１４０は入力層、出力層、及び１又は複数の隠れ層を有し得る。入力層の大きさは、入力ベクトルの長さと同じであってよく、Ｋ＝｛ｋ_１，ｋ_２，...ｋ_Ｋ｝のラベルがあり得、ｙ_ｕがｋ_ｋと等しくてよい。ここで、ｎは１≦ｋ≦Ｋの添え字である。入力はワンホットベクトルとして符号化され得る。

【0033】

様々な実施形態で、予測ネットワーク１４０の出力は出力シンボルを発する前にエンコーダネットワーク１３０からの出力とマージされる。キャラクターベースのシステムでＲＮＮ－Ｔからの出力シンボル（ソフトマックス計算後）は、キャラクターのセット及び＜ＢＬＡＮＫ＞シンボルである。様々な実施形態で、＜ＢＬＡＮＫ＞シンボルは、予測ネットワークの履歴で使用されない。カスタマイズのために予測ネットワーク１４０を直接操作すること（単語、フレーズ、及び文を追加すること）は可能ではない。エンコーダネットワーク１３０及び予測ネットワーク１４０の両方からの出力は予測ネットワーク１４０又はＲＮＮ－Ｔ１００全体の更新のため使用される。しかしながら、ＲＮＮ－Ｔ１００はテキストデータとのみカスタマイズされ、オーディオデータが利用できない場合、エンコーダネットワーク１３０からの出力が得られない。

【0034】

様々な実施形態で、出力特徴シーケンスｙ、１８０は、Ｐ（ｙ｜ｔ，ｕ）で定められる出力確率格子に亘る検索による入力特徴シーケンスｘ、１１０に基づいてＲＮＮ－Ｔ１００により生成される出力シーケンスであり得、式中ｙ＝（ｙ_１，ｙ_２，...ｙ_Ｕ－１，ｙ_Ｕ）は、何らかの出力空間Ｙに亘るすべてのシーケンスの集合Ｙ＊に属する長さＵの出力シーケンスであり得、Ｐ（ｙ｜ｔ，ｕ）は「ｔ」及び「ｕ」を与えられたｙの事後確率であり、「ｔ」はベクトルとして表される音響特徴の時間順のシーケンスの時間に亘る添え字であり、「ｕ」は長さＵの出力シーケンスに亘る添え字である。様々な実施形態で、ｙ＝（ｙ_１，ｙ_２，...，ｙ_ｕ－１）は予測ネットワーク１４０に供給される。

【0035】

様々な実施形態で、コネクショニスト時系列分類（ＣＴＣ）モデルが、音素音響モデルを得るための入力としてのベクトルとして、また出力としてのの音素として表される音響特徴ｘでトレーニングされる。このＣＴＣモデルでトレーニングされたニューラルネットワークは、ＲＮＮ－Ｔ１００のエンコーダネットワーク１３０を初期化するのに使用され得る。音素音響モデルはＲＮＮ－Ｔ１００のエンコーダネットワーク１３０のための初期の音響モデルとして使用できる。音響特徴は入力として使用でき、モデルユニットは初期の音響モデルをトレーニングして目標の音響モデルを得るよう、出力としてセットできる。

【0036】

様々な実施形態で、クロスエントロピー（ＣＥ）が、言語モデル（ＬＭ）をトレーニングするために使用できる。ＣＴＣ音響モデル及びＣＥ言語モデルは、エンドツーエンドシステムのエンコーダ１３０（エンコーダ）及び予測子１４０（デコーダ）それぞれを初期化するために使用できる。初期化後、エンドツーエンドシステムは適した初期の状態を有し得る。

【0037】

ＲＮＮ－Ｔのトレーニングはプレトレーニングモデルから開始できる、又はプレトレーニングがなければトレーニングはランダムな初期化から開始できる。

【0038】

様々な実施形態で、言語モデルはＬＳＴＭ層及び第１の入力埋め込み層を含み得る。ＬＳＴＭはエンコーダネットワーク１３０及び予測ネットワーク１４０の両方で利用できるが、Ｔｒａｎｓｆｏｒｍｅｒなどのニューラルネットワークの他のタイプはまたエンコーダ及び予測ネットワークのいずれか又は両方で使用できる。

【0039】

様々な実施形態で、エンコーダ１３０及び予測子１４０で生成された出力はジョイナー１５０により組み合わせることができ、ジョイナー１５０は高水準の表現ｈ_ｔ ^ｅｎｃ、ｈ_ｕ ^ｐｒｅ（埋め込みベクトル）の加重和を生じ得る。ジョイナーネットワーク１５０はエンコーダネットワークｈ_ｔ ^ｅｎｃからの出力、及び予測ネットワークｈ_ｕ ^ｐｒｅからの出力を組み合わせて埋め込みｚ_ｔ，ｕ（ロジット）を出力できる。様々な実施形態で、ジョイナー１５０は、両方の埋め込みの線形変換の合計として、エンコーダネットワーク出力ｈ_ｔ ^ｅｎｃ及び予測ネットワーク出力ｈ_ｕ ^ｐｒｅを組み合わせるフィードフォワードネットワークである；

【0040】

【数5】

【0041】

式中、Ｗ^ｅｎｃ及びＷ^ｐｒｅは重み行列であり、ｂ_ｚはバイアスベクトルであり、

【数6】

は非線形関数であり、例えばＴａｎｈ又はＲｅＬＵである。

【0042】

ｚ_ｔ，ｕは線形変換で出力層に接続される：

【0043】

【数7】

【0044】

式中、Ｗは重み行列であり、ｂ_ｙはバイアスベクトルである。

【0045】

様々な実施形態で、ソフトマックス関数１６０はジョイナー１５０の出力に適用されており、ソフトマックス関数１６０はジョイナーニューラルネットワーク１５０の出力を正規化して、予測された出力クラスに対して確率（事後）分布１７０、

【数8】

を生じるアクティベーション関数である。

【数9】

は事後格子を定め、式中各ノードは事後分布を表す。予測された出力クラスはテキストトレーニングコーパス／レキシコンのキャラクター又はサブワード（単語の一部）であり得る。ソフトマックス関数１６０は、ＲＮＮ－Ｔ１００の出力層であり得る。

【0046】

様々な実施形態で、確率分布１７０は出力特徴シーケンスｙ、１８０を生成するのに使用でき、出力特徴シーケンスｙ、１８０は、Ｐ（ｙ｜ｔ，ｕ）により定められる出力確率格子に亘り検索により生成できる。出力シンボルシーケンスｙ、１２０は、予測子１４０を更新するのに使用できる。モデルをトレーニングする場合、対のシンボルシーケンス及び入力されたオーディオ特徴が両方与えられ、それにより事後確率格子が計算できるため、ビームサーチは利用されなくてもよい。ＲＮＮ－Ｔの損失を最小にすることで、パラメータが更新される。ＲＮＮ－Ｔの損失はすべての可能なＲＮＮ－Ｔのアライメントに亘るシンボルの事後確率の総和として定義される：

【0047】

【数10】

【0048】

式中、各シーケンス

【数11】

はｘ及びｙ間のＲＮＮ－Ｔのアライメントの１つであり、

【数12】

の要素はシンボルのセット

【数13】

に属する。

【0049】

様々な実施形態で、トランスクリプト及びオーディオからのみのエンドツーエンドのトレーニングが実現でき、そこではハイブリッドモデルで必要な反復及び長期のトレーニング段階が必要とされない。様々な実施形態で、スペル及び発音を結びつけるレキシコンがまた必要とされない。ＲＮＮ－Ｔは関連付けられた対のオーディオデータ及びそのトランスクリプションからトレーニングされ得る。

【0050】

１又は複数の実施形態で、オーディオデータはソースドメインで利用可能なテキストから合成できる。オーディオデータを合成するために使用されるテキストは、元のＲＮＮ－Ｔモデルのトレーニングで使用されるのと同じテキストにすることができる。エンコーダネットワークを更新する場合、本発明者らは元のＲＮＮ－Ｔモデルのトレーニングで使用されるテキスト用の合成オーディオを使用する。そうして、エンコーダネットワークは予測ネットワークからの適切な出力に条件付けられて更新することができる。

【0051】

様々な実施形態で、エンコーダネットワークは、対の合成オーディオ及びソースドメインからのテキストを使用して更新され得る。

【0052】

オーディオデータはまたターゲットドメインのテキスト用に合成できる。

【0053】

様々な実施形態で、予測ネットワークは、対の合成オーディオ及びターゲットドメインからのテキストを使用して更新され得る。予測ネットワークを更新する場合、エンコーダネットワークはソースドメインの合成オーディオに既に適合されている。そうして、予測ネットワークはエンコーダネットワークからの適切な出力に条件付けられて更新することができる。

【0054】

様々な実施形態で、エンコーダネットワークは元の条件に復元し得る。合成オーディオの質は昨今改善されてきたが、合成オーディオの使用によるスピーチ認識のためにエンコーダネットワークを更新することは、必ずしも価値のあるものではない。最終的なエンコーダネットワークは、カスタマイズで使用されるターゲットドメインから合成オーディオにより汚染されることなく、元のエンコーダネットワークと同じであり得る。エンコーダは、カスタマイズされる特徴がもはや望まれなくなると、初期の状態にリセットされ得る。

【0055】

図２は、本発明の実施形態による、スピーチ認識のためのリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をトレーニングするためのアルゴリズムを示すブロック／フロー図である。

【0056】

１又は複数の実施形態で、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をトレーニングするためのアルゴリズム２００は、ベクトルとして表される音響特徴の入力特徴シーケンスｘを作成することに関与でき、入力特徴シーケンスｘは、（元の）ＲＮＮ－Ｔを最初にトレーニングすべく使用されるテキストから合成されるオーディオデータであってよい。エンコーダネットワークは、最初にトレーニングしてもよい。オーディオデータはソースドメインのテキストから合成でき、ソースドメインは標準的なコーパスにより表現することができる。

【0057】

ブロック２１０で、音響特徴の特徴シーケンスｘが、ソースドメイン用のテキストを読み取ることによって合成され得る。

【0058】

２１５で、音響特徴の特徴シーケンスｘはＲＮＮ－Ｔのエンコーダ１３０に供給され得、音響特徴は、メル周波数ケプストラム係数（ＭＦＣＣ）のベクトルであり得る。

【0059】

ブロック２２０で、エンコーダは、関連付けられた対の合成オーディオ及びソースドメインのテキストを使用してトレーニングされ得る。エンコーダは隠れベクトルシーケンス（ｈ_０，ｈ_１，．．，ｈ_Ｔ）を生成できる。入力されたオーディオ特徴は長さＴを有し得る。隠れベクトルｈ_ｔは、各オーディオ特徴について計算され得る。

【0060】

２２５で、隠れベクトルシーケンス（ｈ_０，ｈ_１，．．，ｈ_Ｔ）がジョイナー２３０に供給され得る。

【0061】

ブロック２３０で、ジョイナーは隠れベクトルシーケンス（ｈ_０，ｈ_１，．．，ｈ_ｔ）を予測子２７０からの隠れベクトルシーケンス（ｈ_０，ｈ_１，．．，ｈ_ｕ－１）と組み合わせて、ｈ_T及びｈ_ｕの添え字ｔ及びｕ

【数14】

と関係する誘導されたローカルフィールドｚ_ｔ，ｕを生じる。

【0062】

２３５で、誘導されたローカルフィールドｚ_ｔ，ｕは、ソフトマックス関数２４０に供給される。

【0063】

２４０で、ソフトマックス関数は事後確率Ｐ（ｙ｜ｔ，ｕ）２５０を生成する。

【0064】

２４５で、事後確率Ｐ（ｙ｜ｔ，ｕ）はソフトマックス関数により出力される。

【0065】

２５０で、２４０からの出力はＰ（ｙ｜ｔ，ｕ）である。

【0066】

２５５で、Ｐ（ｙ｜ｔ，ｕ）は、長さＵを有する出力シンボルシーケンスｙを生じる出力シーケンスジェネレータ２６０に供給される。

【0067】

ブロック２６０で、出力シーケンスジェネレータ２６０は、長さＵを有する出力シンボルシーケンスｙを生じる。

【0068】

２６５で、長さＵ－１を有する出力シンボルシーケンスｙが予測子ニューラルネットワーク２７０に供給されて予測子ニューラルネットワーク２７０を更新し、１２０のｙ_ｕ－１が先行の予測（例えば文字）を示す。ｕ－１までの先行する単語シーケンスに基づいて、ＲＮＮ－Ｔは次のシンボルｙ_ｕを予測する。

【0069】

ブロック２７０で、予測子ニューラルネットワーク２７０が更新され、隠れベクトルシーケンス（ｈ_０，ｈ_１，．．，ｈ_Ｕ）が生成される。

【0070】

図３は、本発明の実施形態による、テキストからのオーディオ特徴を合成し、エンコーダ及び予測子を更新し、エンコーダを復元するためのアルゴリズムを示すブロック／フロー図である。

【0071】

ブロック３１０で、トレーニング用に使用されるソースドメインテキストを識別する。

【0072】

ブロック３２０で、ソースドメインからのテキストからのエンコーダのソースドメイントレーニング用オーディオデータを合成する。

【0073】

ブロック３３０で、エンコーダネットワークを更新するが、予測子ニューラルネットワーク及びジョイナーニューラルネットワークの重みを一定に（すなわち、固定で）維持する。

【0074】

ブロック３４０で、トレーニング用に使用されるターゲットドメインテキストを識別する。

【0075】

ブロック３５０で、ターゲットドメインのテキストからの予測子のターゲットドメイントレーニング用にオーディオを合成する。ターゲットドメイン用の合成オーディオをエンコーダに入れる。様々な実施形態で、予測ネットワークのみが更新される。エンコーダネットワークはターゲットドメイン用の合成オーディオにより更新されない。

【0076】

ブロック３６０で、エンコーダニューラルネットワーク及びジョイナーニューラルネットワークの重みを一定に維持しながら、予測子ネットワークを更新する。

【0077】

ブロック３７０で、カスタマイズされるモデルの実際の展開の間、ターゲットドメインオーディオを供給する前に、エンコーダネットワークを重みに復元させる。エンコーダネットワークへの重みをソースドメインについてトレーニングした状態に復元することは、エンコーダをプレカスタマイズした状態にリセットできる。

【0078】

図４は、本発明の実施形態による、ＲＮＮ－Ｔのための事後格子の図である。

【0079】

ｙ＝（ｙ_１，ｙ_２，...，ｙ_Ｕ）は言語的に翻訳する目標の出力シンボルの長さＵのシーケンスを示し得る。

【0080】

ｘ＝（ｘ_１，ｘ_２，...，ｘ_Ｔ）はＴ時間段階に亘る音響特徴ベクトルを示すことができる。

【0081】

各ノード４００はＰ（ｙ_ｔ＋ｕ｜ｔ，ｕ）で定義される事後分布Ｐ（ｙ｜ｔ，ｕ）を表す。

【0082】

図５は、本発明の実施形態による、本方法及びシステムが適用され得る例示的な処理システム５００である。

【0083】

様々な実施形態で、処理システム５００は、少なくとも１つのプロセッサ（ＣＰＵ）５０４を含むことができ、システムバス５０２により、他の成分へ動作的に結合されるベクトルの計算／操作を行うことができるグラフィクス処理（ＧＰＵ）５０５を有し得る。キャッシュ５０６、リードオンリメモリ（ＲＯＭ）５０８］、ランダムアクセスメモリ（ＲＡＭ）５１０、入力／出力（Ｉ／Ｏ）アダプタ５２０、音声アダプタ５３０、ネットワークアダプタ５４０、ユーザインタフェースアダプタ５５０、及びディスプレイアダプタ５６０は、システムバス５０２に動作的に結合され得る。

【0084】

第１のストレージデバイス５２２及び第２のストレージデバイス５２４は、Ｉ／Ｏアダプタ５２０により、システムバス５０２に動作的に結合されている。ストレージデバイス５２２及び５２４は、ディスクストレージデバイス（例えば磁気又は光学式ディスクストレージデバイス）、ソリッドステートデバイス、磁気ストレージデバイスなどのいずれかであってよい。ストレージデバイス５２２及び５２４は、同じタイプのストレージデバイス、又は異なるタイプのストレージデバイスであってよい。

【0085】

スピーカ５３２は、音声アダプタ５３０によって、システムバス５０２に動作的に結合されている。トランシーバ５４２は、ネットワークアダプタ５４０により、システムバス５０２に動作可能に結合されている。表示デバイス５６２は、ディスプレイアダプタ５６０によって、システムバス５０２に動作的に結合されている。

【0086】

第１のユーザ入力デバイス５５２、第２のユーザ入力デバイス５５４、及び第３のユーザ入力デバイス５５６は、ユーザインタフェースアダプタ５５０により、システムバス５０２に動作可能に結合されている。ユーザ入力デバイス５５２、５５４及び５５６は、キーボード、マウス、キーパッド、画像キャプチャデバイス、運動感知デバイス、マイクロフォン、先述のデバイスのうちの少なくとも２つの機能を組み込んだデバイスなどのいずれでもよい。当然、他のタイプの入力デバイスもまた、この原理の精神を維持しながら使用することができる。ユーザ入力デバイス５５２、５５４及び５５６は、同じタイプのユーザ入力デバイス又は異なるタイプのユーザ入力デバイスでもよい。ユーザ入力デバイス５５２、５５４及び５５６は、システム５００に対して情報を入力及び出力するために使用できる。

【0087】

様々な実施形態で、処理システム５００はまた、当業者により容易に想到される他の要素（示さず）を含み得、また特定の要素を省くことができる。例えば、当業者には容易に理解されるように、様々な他の入力デバイス若しくは出力デバイス又はその組み合わせが、その特定の実装形態に応じて、処理システム５００に含まれてもよい。例えば、様々なタイプの無線若しくは有線又はその両方の入力若しくは出力又はその両方のデバイスが使用され得る。また、当業者には容易に理解されるように、様々な構成における、追加のプロセッサ、コントローラ、メモリなどを利用することもまたできる。処理システム５００のそれらの又は他の変形が、本明細書に提示されているこの原理の教示を与えられると当業者により容易に想到される。

【0088】

また、システム５００は、本方法／システムの個々の実施形態を実装するためのコンピュータシステム計算システムであると理解されたい。処理システム５００の一部又はすべては、図１～４の要素のうちの１又は複数に実装され得る。さらに、処理システム５００は、例えば図１～４の方法の少なくとも一部を含む、本明細書に説明されている方法の少なくとも一部を行うことができることを理解されたい。

【0089】

図６は、本発明の実施形態による、道路レイアウトのモデル化のための１又は複数のニューラルネットワークを実装するよう構成された例示的な処理システム６００である。

【0090】

１又は複数の実施形態で、処理システム６００は、スピーチ認識のリカレントニューラルネットワークトランスデューサのカスタマイズのコンピュータ実装方法を行うよう構成されるコンピュータシステム５００であり得る。

【0091】

１又は複数の実施形態で、処理システム６００は、メモリコンポーネント６７０を含むコンピュータシステム５００であることができ、コンピュータシステムのランダムアクセスメモリ（ＲＡＭ）５１０、ハードドライブ５２２、及び／又はビデオ画像から道路レイアウトを理解するコンピュータ実装方法を記憶及び実装するためのクラウドストレージを含むが、それらに限定されない。メモリコンポーネント６７０はまた、メモリストレージを組織するためのデータベースを利用できる。

【0092】

様々な実施形態で、メモリコンポーネント６７０は、音響入力をモデル化し自動スピーチ認識（ＡＳＲ）を行うよう構成される複数の音響モデルを実装するよう構成できるエンコーダニューラルネットワーク６１０を含み得る。様々な実施形態で、エンコーダニューラルネットワーク６１０は、長短期記憶（ＬＳＴＭ）又は双方向性ＬＳＴＭ（ＢＬＳＴＭ）として実装できる。エンコーダニューラルネットワーク６１０はまた、入力された音響信号として受信するよう構成され得る。入力はマイクロフォン５５６により受信されるオーディオデータの一連のセットであり得る。エンコーダニューラルネットワーク６１０はまた埋め込みである出力値を生成するよう構成できる。

【0093】

様々な実施形態で、メモリコンポーネント６７０は、１又は複数の音響モデルを学習するよう構成され、また自動スピーチ認識（ＡＳＲ）を実行するエンコーダ埋め込みを生成するよう構成できる予測子ニューラルネットワーク６２０を含み得る。様々な実施形態で、予測子ニューラルネットワーク６２０は、長短期記憶（ＬＳＴＭ）として実装できる。予測子ニューラルネットワーク６２０はまた、埋め込みである出力値を生成するよう構成できる。

【0094】

様々な実施形態で、メモリコンポーネント６７０はエンコーダ及び予測子からの２つの別個の入力データセットを組み合わせるよう構成され得るジョイナーニューラルネットワーク６３０を含むことができ、データは特徴／ベクトルｈ_ｔ及びｈ_ｕであり得る。ジョイナーニューラルネットワーク６３０は出力を生じるよう構成することができ、出力は文字、サブワード、又は単語であり得る。

【0095】

様々な実施形態で、メモリコンポーネント６７０は、長さｕ－１を有する出力シンボルシーケンスｙ、１２０を生じるよう構成される出力ジェネレータ６４０を含み得る。出力ジェネレータ６４０は、ジョイナーニューラルネットワーク６３０から出力を受信するよう構成できる。

【0096】

様々な実施形態で、メモリコンポーネント６７０は、ジョイナーニューラルネットワーク６３０の出力値から予測を生成するよう構成されたソフトマックス関数６５０を含むことができる。

【0097】

様々な実施形態で、メモリコンポーネント６７０は、第１のドメインテキストデータから第１のドメインオーディオデータ、及び／又は第２のドメインテキストデータから第２のドメインオーディオデータを合成するよう構成されたシンセサイザ６６０を含み得る。

【0098】

図７は、本発明の別の実施形態による、例示的なニューラルネットワークをイラストで示すブロック図である。

【0099】

ニューラルネットワーク７００は、複数のニューロン／ノードを含むことができ、出力ノードは複数の接続７０８のうちの１又は複数を使用して通信することができる。ニューラルネットワーク７００は、例えば１又は複数の入力層７０２、１又は複数の隠れ層７０４、及び１又は複数の出力層７０６を含む、複数の層を含むことができる。一実施形態で、各層のノードは、いずれかの関数（例えば入力プログラム、入力データなど）をいずれかの先行の層に適用して出力を生じるように用いることができ、隠れ層７０４は、入力層（又は他のいずれかの層）からの入力を異なるレベルのノードのための出力に変換するのに用いることができる。

【0100】

図８は、実施形態による、クラウドコンシューマによって使用されるローカルコンピューティングデバイスが通信する１又は複数のクラウドコンピューティングノードを有する例示的なクラウドコンピューティング環境を示すブロック図である。

【0101】

本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実施はクラウドコンピューティング環境に限定されないことを理解されたい。むしろ、本発明の実施形態は、現在既知の又は後に開発される任意の他のタイプのコンピューティング環境と併せて実施されることが可能である。

【0102】

クラウドコンピューティングは、管理の労力又はサービスのプロバイダとの対話を最小限に抑えながら迅速にプロビジョニング及びリリースできる構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス）の共有プールに対する便利なオンデマンドネットワークアクセスを可能にするための、サービス提供モデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル及び少なくとも４つの展開モデルを含み得る。

【0103】

特徴は次の通りである。
オンデマンドセルフサービス：クラウドコンシューマは、サービスプロバイダとの人的対話を必要とすることなく、必要に応じて自動的に、サーバ時間及びネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス：能力は、ネットワーク経由で利用可能であり、異種のシンクライアントプラットフォーム又はシッククライアントプラットフォーム（例えば、携帯電話、ラップトップ、ＰＤＡ（登録商標））による使用を促進する標準機構を介してアクセスされる。
リソースプーリング：プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数のコンシューマにサービスを提供するようにプールされており、様々な物理リソース及び仮想リソースが需要に従って動的に割り当てられ、また再割り当てされる。消費者は、一般に、提供されたリソースの正確な位置に関する制御又は知識はないが、より高い抽象化のレベル（例えば、国、州、又はデータセンタ）で位置を指定でき得るという点で、位置独立の感覚がある。
迅速な弾力性：能力は、迅速かつ弾力的にプロビジョニングでき、場合によっては、自動的に、迅速にスケールアウトされ、迅速にリリースされて迅速にスケールインされる。消費者にとって、プロビジョニングに利用可能な能力は無制限に見えることが多く、任意の時点において任意の量で購入できる。
測定されたサービス：クラウドシステムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、アクティブなユーザアカウント）に適したある程度の抽象化のレベルで計測能力を活用することにより、リソースの使用を自動的に制御及び最適化する。リソースの使用状況を監視、制御、及び報告して、利用するサービスの、プロバイダと消費者の両方に透明性を提供できる。

【0104】

サービスモデルは次の通りである。
サービスとしてのソフトウェア（ＳａａＳ）：コンシューマに提供される能力は、クラウドインフラストラクチャ上で動作しているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ（例えば、ウェブベースの電子メール）などのシンクライアントインターフェースを介して、様々なクライアントデバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージ、又は、個々のアプリケーション能力さえも含む基礎となるクラウドインフラストラクチャを管理することも、制御することもない。ただし、限定されたユーザ固有のアプリケーション構成設定は例外となる場合がある。
プラットフォームアズアサービス（ＰａａＳ）：消費者に提供される能力は、プロバイダによりサポートされるプログラミング言語及びツールを用いて作成される、消費者が作成又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、又は、ストレージを含む基礎となるクラウドインフラストラクチャを管理することも、制御することもないが、展開されるアプリケーション、また場合によっては、アプリケーションホスティング環境構成を制御することができる。
サービスとしてのインフラストラクチャ（ＩａａＳ）：消費者に提供される能力は、処理、ストレージ、ネットワーク、及び消費者が、オペレーティングシステム及びアプリケーションを含み得る、任意のソフトウェアを展開及び実行できるその他の基本的なコンピューティングリソースをプロビジョニングすることである。消費者は、基礎となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されるアプリケーションを制御し、場合によっては、選択されたネットワーキングコンポーネント（例えば、ホストファイアウォール）を限定的に制御する。

【0105】

展開モデルは次の通りである。
プライベートクラウド：クラウドインフラストラクチャは、組織のためだけに運用される。プライベートクラウドは、この組織又はサードパーティにより管理されてよく、オンプレミス又はオフプレミスで存在してよい。
コミュニティクラウド：クラウドインフラストラクチャは複数の組織によって共有されており、共有された懸念事項（例えば、ミッション、セキュリティ要件、ポリシ、コンプライアンスの考慮事項）を有する特定のコミュニティをサポートしている。これは、組織又は第三者により管理することができ、オンプレミス又はオフプレミスに存在することができる。
パブリッククラウド：クラウドインフラストラクチャは、一般の人々又は大規模な業界団体が利用できるようにしたもので、クラウドサービスを販売する組織が所有している。
ハイブリッドクラウド：クラウドインフラストラクチャは、一意のエンティティのままであるが、データ及びアプリケーションの移植性を可能にする標準化された技術又は特許技術（例えば、クラウド間の負荷分散のためのクラウドバースト）によって結合された２つ以上のクラウド（プライベート、コミュニティ、又はパブリック）の構成である。

【0106】

クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性、及びセマンティック相互運用性を重視したサービス指向型である。クラウドコンピューティングの中核には、相互接続されたノードからなるネットワークを含むインフラストラクチャが存在する。

【0107】

ここで図８を参照すると、例示的なクラウドコンピューティング環境９５０が図示されている。
図示のように、クラウドコンピューティング環境９５０は、１又は複数のクラウドコンピューティングノード９１０を備え、例えば、パーソナルデジタルアシスタント（ＰＤＡ（登録商標））又は携帯電話９５１、デスクトップコンピュータ９５２、ラップトップコンピュータ９５３、及び／又は自動車コンピュータシステム９５４などの、クラウドコンシューマに使用されるローカルコンピューティングデバイスが、クラウドコンピューティングノード９１０を用いて通信してもよい。ノード９１０は、互いに通信し得る。これらは、上述したようなプライベートクラウド、コミュニティクラウド、パブリッククラウド、もしくはハイブリッドクラウド、又はその組み合わせなどの、１又は複数のネットワークにおいて物理的又は仮想的にグループ化（図示されていない）されてよい。これにより、クラウドコンピューティング環境９５０は、インフラストラクチャ、プラットフォーム若しくはソフトウェア又はその組み合わせを、クラウドコンシューマがローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能となる。図８に示されるコンピューティングデバイス９５１、９５２、９５３、９５４のタイプが、単に例示を意図するものであり、コンピューティングノード１１０及びクラウドコンピューティング環境９５０が、（例えば、ウェブブラウザを使用して）任意のタイプのネットワークもしくはネットワークアドレス可能な接続又はその組み合わせによって任意のタイプのコンピュータ化デバイスと通信可能であることは理解されたい。

【0108】

図９は、本発明の実施形態による、クラウドコンピューティング環境により提供される機能抽象化層のセットを示すブロック図である。

【0109】

ここで図９を参照すると、クラウドコンピューティング環境９５０（図７）によって提供される機能抽象化層のセットが示されている。図８に示すコンポーネント、層、及び機能が例示のみを意図するものであり、本発明の実施形態がこれらに限定されないことを先に理解されたい。図示されるように、以下の層及び対応する機能が提供される。

【0110】

ハードウェア及びソフトウェア層１０６０は、ハードウェア及びソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム６１、ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャベースサーバ６２、サーバ６３、ブレードサーバ６４、ストレージデバイス６５、ならびにネットワーク及びネットワーキングコンポーネント６６が含まれる。いくつかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア６７及びデータベースソフトウェア６８を含む。

【0111】

仮想化層１０７０は、仮想サーバ７１、仮想ストレージ７２、仮想プライベートネットワークを含む仮想ネットワーク７３、仮想アプリケーション及びオペレーティングシステム７４、ならびに仮想クライアント７５である、仮想エンティティの例が提供され得る抽象化層を提供する。

【0112】

一例において、管理層１０８０は、以下に説明される機能を提供し得る。リソースプロビジョニング８１は、クラウドコンピューティング環境内でタスクを実行するのに利用される、コンピューティングリソース及び他のリソースの動的な調達を提供する。計量及び価格設定８２は、クラウドコンピューティング環境内でリソースが利用されるときのコスト追跡、及びこれらのリソースの消費に対する請求又はインボイス作成を提供する。１つの例では、これらのリソースは、アプリケーションソフトウェアライセンスを含んでよい。セキュリティは、クラウドコンシューマ及びタスクのアイデンティティ検証、並びに、データ及び他のリソースの保護を提供する。ユーザポータル８３は、コンシューマ及びシステム管理者に、クラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理８４は、必要とされるサービスレベルが満たされるように、クラウドコンピューティングリソース割り当て及び管理を提供する。サービス水準合意（ＳＬＡ）計画及び履行８５は、ＳＬＡに従って将来の要件が予測されるクラウドコンピューティングリソースの事前手配及び調達を提供する。

【0113】

ワークロード層１０９０は、クラウドコンピューティング環境が利用され得る機能性の例を提供する。この層から提供される可能性のあるワークロードと機能の例は、マッピングとナビゲーション９１；ソフトウェア開発とライフサイクル管理９２；仮想教室での教育の提供９３；データ分析処理９４；トランザクション処理９５；自動スピーチ認識（ＡＳＲ）９６を実装するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）を含み、教師のニューラルネットワークは、自動スピーチ認識を学習し、生徒のニューラルネットワークを準備するよう構成されたリカレントニューラルネットワークにすることができる。

【0114】

本明細書で用いられる際、「ハードウェアプロセッササブシステム」又は「ハードウェアプロセッサ」という用語は、１又は複数の特定のタスクを実行するために連携するプロセッサ、メモリ、ソフトウェア、又はこれらの組み合わせを指すことができる。有用な実施形態では、ハードウェアプロセッササブシステムは、１又は複数のデータ処理要素（例えば、論理回路、処理回路、命令実行デバイスなど）を含み得る。１又は複数のデータ処理要素は、中央処理ユニット、グラフィックス処理ユニット、若しくは、別個のプロセッサ若しくはコンピューティング要素ベースのコントローラ（例えば論理ゲートなど）、又は、その組合せに含まれ得る。ハードウェアプロセッササブシステムは、１又は複数のオンボードメモリ（例えば、キャッシュ、専用メモリアレイ、リードオンリメモリなど）を含み得る。いくつかの実施形態において、ハードウェアプロセッササブシステムは、オンボード若しくはオンボードであり得る、又は、ハードウェアプロセッササブシステム（例えば、ＲＯＭ、ＲＡＭ、ベーシックインプット／アウトプットシステム（ＢＩＯＳ）など）による使用専用であり得る、１又は複数のメモリを含み得る。

【0115】

いくつかの実施形態において、ハードウェアプロセッササブシステムは、１又は複数のソフトウェア要素を含み得る、又は、実行し得る。１又は複数のソフトウェア要素は、オペレーティングシステム若しくは１又は複数のアプリケーション又はその両方、若しくは、指定された結果を実現するための特定のコード、又は、その両方を含み得る。

【0116】

他の実施形態において、ハードウェアプロセッササブシステムは、指定された結果を実現するための１又は複数の電子処理機能を実行する、専用の、特殊な回路を含み得る。そのような回路は、１又は複数の特定用途向け集積回路（ＡＳＩＣ）、ＦＰＧＡ若しくはＰＬＡ又はその組合せを含み得る。

【0117】

本発明の実施形態によるハードウェアプロセッササブシステムのこれらの及び他の変形も考えられる。

【0118】

本発明は、任意の考えられる技術詳細レベルで統合化されたシステム、方法、若しくはコンピュータプログラム製品、又はその組み合わせであり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数のコンピュータ可読記憶媒体）を含み得る。

【0119】

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を記憶及び格納できる有形のデバイスであることができる。コンピュータ可読記憶媒体は、例えば、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又はこれらの任意の好適な組み合わせであってよいが、これらに限定されない。コンピュータ可読記憶媒体のさらに具体的な例の非網羅的リストは、ポータブル・フロッピー（Ｒ）・ディスク、ハード・ディスク、ランダムアクセスメモリ（ＲＡＭ）、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ：ｅｒａｓａｂｌｅｐｒｏｇｒａｍｍａｂｌｅｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ又はフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ：ｓｔａｔｉｃｒａｎｄｏｍａｃｃｅｓｓｍｅｍｏｒｙ）、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ：ｃｏｍｐａｃｔｄｉｓｃｒｅａｄ－ｏｎｌｙｍｅｍｏｒｙ）、デジタル・バーサタイル・ディスク（ＤＶＤ：ｄｉｇｉｔａｌｖｅｒｓａｔｉｌｅｄｉｓｋ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、命令が記録されているパンチカード又は溝の中の隆起構造などの機械的に符号化されるデバイス、及びこれらの任意の好適な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波若しくは他の自由に伝搬する電磁波、導波路若しくは他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通じて伝送される電気信号等の一時的な信号それ自体とは解釈されるべきではない。

【0120】

本明細書に記載されたコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から各コンピューティングデバイス／処理デバイスへ、又はネットワーク（例えば、インターネット、ローカルエリアネットワーク、広域ネットワーク、又はワイヤレス・ネットワーク、あるいはその組合せ）を介して外部コンピュータ又は外部ストレージデバイスへダウンロードされ得る。このネットワークは、銅伝送ケーブル、光伝送ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、又はエッジサーバ、あるいはその組合せを備えてよい。各コンピューティングデバイス／処理デバイス内のネットワークアダプタ・カード又はネットワーク・インターフェイスは、コンピュータ可読プログラム命令をネットワークから受信し、それらのコンピュータ可読プログラム命令を各コンピューティングデバイス／処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。

【0121】

本発明の動作を実行するためのコンピュータ可読プログラム命令はアセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路に対する構成データ、又はたとえばＳｍａｌｌｔａｌｋ（登録商標）、又はＣ＋＋などのオブジェクト指向プログラミング言語、及びたとえば「Ｃ」プログラミング言語又は同様のプログラミング言語などの手続き型プログラミング言語を含む、１又は複数のプログラミング言語の任意の組み合わせで書かれたソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上ですべて実行され得るか、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行され得るか、部分的にユーザのコンピュータ上で且つ部分的にリモートコンピュータ上で実行され得るか、又は、リモートコンピュータ若しくはサーバ上ですべて実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又は広域ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続されてよく、又は接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに対して行われてよい。いくつかの実施形態において、本発明の態様を実行するために、例えばプログラマブル・ロジック回路、フィールドプログラマブル・ゲート・アレイ（ＦＰＧＡ：ｆｉｅｌｄ－ｐｒｏｇｒａｍｍａｂｌｅｇａｔｅａｒｒａｙｓ）、又はプログラマブル・ロジック・アレイ（ＰＬＡ：ｐｒｏｇｒａｍｍａｂｌｅｌｏｇｉｃａｒｒａｙｓ）を含む電子回路は、コンピュータ可読プログラム命令の状態情報を利用することによって、電子回路をカスタマイズするためのコンピュータ可読プログラム命令を実行してよい。

【0122】

本発明の態様は、本明細書において、本発明の実施形態に従って、方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図又はブロック図あるいはその両方を参照して説明される。フローチャート図又はブロック図あるいはその両方の各ブロック、ならびにフローチャート図又はブロック図あるいはその両方に含まれるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装され得るということが理解されるであろう。

【0123】

これらのコンピュータ可読プログラム命令をコンピュータ、又は他のプログラム可能なデータ処理装置のプロセッサに提供してマシンを生じてよく、それにより、コンピュータ又は他のプログラム可能なデータ処理装置のプロセッサを介して実行される命令が、フローチャート若しくはブロック図、又はその両方の１つ又は複数のブロックで指定された機能／動作を実装する手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、特定の方式で機能するようコンピュータ、プログラマブルデータ処理装置及び／又は他のデバイスに指示できるコンピュータ可読記憶媒体に格納されてよく、それにより、格納された命令を有するコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図の１つのブロック又は複数のブロックにおいて指定される機能／動作の態様を実装する命令を含む製造品を備える。

【0124】

コンピュータ可読プログラム命令は、コンピュータ上、他のプログラム可能な装置上、又は他のデバイス上で実行される命令が、フローチャート又はブロック図あるいはその両方の１つ又は複数のブロックに指定される機能／動作を実施するように、コンピュータ、他のプログラム可能なデータ処理装置、又は他のデバイスに読み込まれてもよく、それによって、一連の動作可能な段階を、コンピュータ上、他のプログラム可能な装置上、又はコンピュータ実装プロセスを生じる他のデバイス上で実行させる。

【0125】

本明細書内の本発明の「１つの実施形態」又は「実施形態」並びにそれら他の変形の言及は、実施形態との関連で説明された特定の特徴、構造、特性などが、少なくとも１つの本発明の実施形態に含まれることを意味する。そうして、本明細書全体にわたって様々な箇所に出現する、「１つの実施形態において」又は「実施形態において」という語句、及び任意の他の変形の出現は、必ずしもすべてが同一の実施形態に言及しているわけではない。

【0126】

例えば「Ａ／Ｂ」、「ＡもしくはＢ又はその組み合わせ」、及び「Ａ及びＢの少なくとも１つ」の場合の、以下の「／」、「～もしくは…又はその組み合わせ」、及び「～の少なくとも１つ」のいずれかの使用が、第１の列挙されるオプション（Ａ）のみの選択、又は、第２の列挙されるオプション（Ｂ）のみの選択、又は、両方のオプション（Ａ及びＢ）の選択を包含することが意図されることは理解されたい。さらなる例として、「Ａ、Ｂ、もしくはＣ又はその組み合わせ」、及び「Ａ、Ｂ、及びＣの少なくとも１つ」の場合、そのような言い回しは、第１の列挙されるオプション（Ａ）のみの選択、又は、第２の列挙されるオプション（Ｂ）のみの選択、又は、第３の列挙されるオプション（Ｃ）のみの選択、又は、第１及び第２の列挙されるオプション（Ａ及びＢ）のみの選択、又は、第１及び第３の列挙されるオプション（Ａ及びＣ）のみの選択、又は、第２及び第３の列挙されるオプション（Ｂ及びＣ）のみの選択、又は、３つのオプションすべて（Ａ及びＢ及びＣ）の選択を包含することが意図される。これは、当業者によって容易に明らかな限りで、列挙されるアイテムと同じ数だけ延長されてよい。

【0127】

図内のフローチャート及びブロック図は、本発明の様々な実施形態に従って、システム、方法、及びコンピュータプログラム製品の可能な実装のアーキテクチャ、機能、及び動作を示す。これに関連して、フローチャート又はブロック図内の各ブロックは、規定された論理機能を実装するための１又は複数の実行可能な命令を備える、命令のモジュール、セグメント、又は部分を表してよい。いくつかの代替的な実装形態において、ブロックに記されている機能は、図面に記されている順序とは異なる順序で行われ得る。例えば、連続して示されている２つのブロックが、実際には、１つの段階として実現されてもよく、同時に、実質的に同時に、部分的にもしくは全体的に時間重複する方式で実行されてもよく、又は、ブロックは、場合によっては、関与する機能性に依拠して逆の順序で実行されてもよい。ブロック図又はフローチャート図あるいはその両方の各ブロック、ならびにブロック図又はフローチャート図あるいはその両方に含まれるブロックの組み合わせは、規定された機能又は動作を実行するか、又は専用ハードウェアとコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムによって実装され得るということにも留意されたい。

【0128】

（例証することを意図するに過ぎず限定的でない）システム及び方法の好ましい実施形態が説明されたが、上記の教示があれば、当業者によって修正及び変形がされ得ることに留意されたい。したがって、発明の範囲内で開示され、添付の特許請求の範囲により概要を示された特定の実施形態内では、変更がなされてよいことを理解されたい。このように本発明の態様を、特許法により必要とされる詳細及び特定性と共に説明したが、何が請求され、特許証により保護されるように所望されるかは、添付の特許請求の範囲に示される。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【手続補正書】

【提出日】2023-07-12

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

第１のドメインテキストデータから第１のドメインオーディオデータを合成する段階；
初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに前記合成された第１のドメインオーディオデータを供給する段階、ここで前記エンコーダは前記合成された第１のドメインオーディオデータ及び前記第１のドメインテキストデータを使用して更新される；
第２のドメインテキストデータから第２のドメインオーディオデータを合成する段階；
前記合成された第２のドメインオーディオデータを前記リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の前記更新されたエンコーダに供給する段階、ここで予測ネットワークは前記合成された第２のドメインオーディオデータ及び前記第２のドメインテキストデータを使用して更新される；及び
前記初期条件に前記更新されたエンコーダを復元させる段階
を備える、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータ実装方法。

【請求項2】

【請求項3】

【請求項4】

前記ソフトマックス関数は、事後確率Ｐ（ｙ｜ｔ，ｕ）を生成する、請求項３に記載のコンピュータ実装方法。

【請求項5】

【請求項6】

前記入力特徴シーケンスｘは、前記合成された第１のドメインオーディオデータから導出される、請求項５に記載のコンピュータ実装方法。

【請求項7】

【請求項8】

【請求項9】

前記ジョイナーは、前記出力として、誘導されたローカルフィールドｚ_ｔ，ｕを生じる、請求項８に記載のシステム。

【請求項10】

【請求項11】

【請求項12】

【請求項13】

前記エンコーダは、前記初期条件に復元されるようさらに構成されている、請求項１２に記載のシステム。

【請求項14】

【請求項15】

前記リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）は、前記トレーニング済みエンコーダの出力を前記予測子の出力と組み合わせるジョイナーを含む、請求項１４に記載のコンピュータプログラム。

【請求項16】

前記ジョイナーは、ソフトマックス関数に供給される誘導されたローカルフィールドｚ_ｔ，ｕとして出力を生じる、請求項１５に記載のコンピュータプログラム。

【請求項17】

前記ソフトマックス関数は、事後確率Ｐ（ｙ｜ｔ，ｕ）を生成する、請求項１６に記載のコンピュータプログラム。

【請求項18】

事後確率ジェネレータＰ（ｙ｜ｔ，ｕ）は、ベクトルとして表される音響特徴の時間順のシーケンスである入力特徴シーケンスｘに基づいて、長さＵの出力シーケンスである出力シーケンスｙ＝（ｙ_１，ｙ_２，...ｙ_Ｕ－１，ｙ_Ｕ）である出力を生成する、請求項１７に記載のコンピュータプログラム。

【請求項19】

第１のドメインオーディオデータを前記合成する段階は、前記入力特徴シーケンスｘである、請求項１８に記載のコンピュータプログラム。

【請求項20】

第１のドメインテキストデータから第１のドメインオーディオデータを合成する段階；
初期条件を有するリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）のトレーニング済みエンコーダに前記合成された第１のドメインオーディオデータを供給する段階、ここで前記エンコーダは前記合成された第１のドメインオーディオデータ及び前記第１のドメインテキストデータを使用して更新され、前記合成された第１のドメインオーディオデータを音響埋め込みａ_ｔに符号化し、前記音響埋め込みａ_ｔは、前記合成された第１のドメインオーディオデータをより小さい特徴空間に圧縮する；
前記音響埋め込みａ_ｔをジョイナーに供給する段階；
第２のドメインテキストデータから第２のドメインオーディオデータを合成する段階；
前記合成された第２のドメインオーディオデータを前記更新されたエンコーダに供給する段階、ここで前記更新されたエンコーダは、前記合成された第２のドメインオーディオデータを前記音響埋め込みｂ_ｔに符号化し、ここで、前記音響埋め込みｂ_ｔは、前記合成された第２のドメインオーディオデータをより小さい特徴空間に圧縮する；
前記ジョイナーからの出力シーケンスを前記リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）の予測子に供給する段階、ここで前記予測子は、前記合成された第２のドメインオーディオデータ及び前記第２のドメインテキストデータからの前記出力シーケンスを使用して更新される；及び
前記初期条件に前記更新されたエンコーダを復元させる段階
を備える、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）をカスタマイズするためのコンピュータ実装方法。

【請求項21】

【請求項22】

【請求項23】

前記ソフトマックス関数は、事後確率Ｐ（ｙ｜ｔ，ｕ）を生成する、請求項２２に記載のコンピュータ実装方法。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版