特表2025-502950 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2025-502950ニューラル・トランスデューサ・モデルに統合された外部言語モデル情報

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-01-30

(54)【発明の名称】ニューラル・トランスデューサ・モデルに統合された外部言語モデル情報

(51)【国際特許分類】

G10L 15/06 20130101AFI20250123BHJP

G10L 15/16 20060101ALI20250123BHJP

【ＦＩ】

G10L15/06 300C

G10L15/16

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024540723

(86)(22)【出願日】2023-01-16

(85)【翻訳文提出日】2024-07-04

(86)【国際出願番号】 EP2023050846

(87)【国際公開番号】W WO2023139016

(87)【国際公開日】2023-07-27

(31)【優先権主張番号】17/580,878

(32)【優先日】2022-01-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(72)【発明者】

【氏名】倉田岳人

(57)【要約】

ニューラル・トランスデューサを訓練するためのコンピュータ実施方法であって、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得することと、スーパーバイザリ出力を取得するために出力を結合することと、出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新することと、を含む、コンピュータ実施方法が提供される。ニューラル・トランスデューサは、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）であり得る。

【特許請求の範囲】

【請求項1】

ニューラル・トランスデューサを訓練するためのコンピュータ実施方法であって、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得することと、
スーパーバイザリ出力を取得するために前記出力を結合することと、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新することと、
を含む、コンピュータ実施方法。

【請求項2】

前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）である、請求項１に記載のコンピュータ実施方法。

【請求項3】

前記出力を前記結合することが、線形補間を使用することによって行われる、請求項１または２に記載のコンピュータ実施方法。

【請求項4】

前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項１または２に記載のコンピュータ実施方法。

【請求項5】

前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項１ないし４のいずれか一項に記載のコンピュータ実施方法。

【請求項6】

前記事後ラティスの水平軸が、時間インデックスｔであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルｕであり、前記事後ラティス内の各ノードｔ，ｕが、トランスクリプション・シーケンスのポイントｔによって出力シーケンスの最初のｕ要素（elements）の出力を有する事後分布を表す、請求項５に記載のコンピュータ実施方法。

【請求項7】

前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のｕを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項６に記載のコンピュータ実施方法。

【請求項8】

ニューラル・トランスデューサを訓練するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、前記プログラム命令が、コンピュータに、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得させ、
スーパーバイザリ出力を取得するために前記出力を結合させ、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新させる、
ために、前記コンピュータによって実行可能である、コンピュータ・プログラム製品。

【請求項9】

前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）である、請求項８に記載のコンピュータ・プログラム製品。

【請求項10】

前記出力を前記結合することが、線形補間を使用することによって行われる、請求項８または９に記載のコンピュータ・プログラム製品。

【請求項11】

前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項８または９に記載のコンピュータ・プログラム製品。

【請求項12】

前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項８ないし１１のいずれか一項に記載のコンピュータ・プログラム製品。

【請求項13】

前記事後ラティスの水平軸が、時間インデックスｔであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルｕであり、前記事後ラティス内の各ノードｔ，ｕが、トランスクリプション・シーケンスのポイントｔによって出力シーケンスの最初のｕ要素(elements)の出力を有する事後分布を表す、請求項１２に記載のコンピュータ・プログラム製品。

【請求項14】

前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のｕを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項１３に記載のコンピュータ・プログラム製品。

【請求項15】

ニューラル・トランスデューサを訓練するための訓練データを準備するためのシステムであって、
メモリと、
前記メモリと通信する１つまたは複数のプロセッサであって、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得し、
スーパーバイザリ出力を取得するために前記出力を結合し、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新する、
ように構成される、プロセッサと、
を備える、システム。

【請求項16】

前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）である、請求項１５に記載のシステム。

【請求項17】

前記出力を前記結合することが、線形補間を使用することによって行われる、請求項１５または１６に記載のシステム。

【請求項18】

前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項１５または１６に記載のシステム。

【請求項19】

前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項１５ないし１８のいずれか一項に記載のシステム。

【請求項20】

前記事後ラティスの水平軸が、時間インデックスｔであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルｕであり、前記事後ラティス内の各ノードｔ，ｕが、トランスクリプション・シーケンスのポイントｔによって出力シーケンスの最初のｕ要素（elements）の出力を有する事後分布を表し、前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のｕを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項１９に記載のシステム。

【請求項21】

コンピュータ・プログラムであって、前記プログラムがコンピュータ上で動作すると、請求項１ないし７のいずれか一項に記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に、機械学習に関し、より詳細には、エンド・ツー・エンド音声認識のために、外部言語モデル情報を、例えば、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ：recurrent neural network transducer）・モデルなどのニューラル・トランスデューサ・モデルに統合するための方法およびシステムに関する。

【背景技術】

【0002】

自動音声認識（ＡＳＲ：automatic speech recognition）のためのエンド・ツー・エンド・モデルが、従来のＡＳＲシステムの別個のコンポーネント（例えば、音響、発音、および言語モデル）を単一のニューラル・ネットワークに組み込む方法として近年人気を集めている。そのようなモデルの例には、コネクショニスト時系列分類（ＣＴＣ：connectionist temporal classification）ベース・モデル、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）、およびアテンション・ベースｓｅｑ２ｓｅｑモデルが含まれる。これらのモデルの中で、ＲＮＮ－Ｔは、最もストリーミングに適したエンド・ツー・エンド認識器であり、従来システムと比較して競争力のある性能を示している。

【発明の概要】

【0003】

本発明の一態様によれば、ニューラル・トランスデューサを訓練するためのコンピュータ実施方法が提供される。コンピュータ実施方法は、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得することと、スーパーバイザリ出力を取得するために出力を結合することと、出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新することと、を含む。

【0004】

本発明の別の態様によれば、ニューラル・トランスデューサを訓練するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、プログラム命令は、コンピュータに、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得させ、スーパーバイザリ出力を取得するために出力を結合させ、出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新させる、ために、コンピュータによって実行可能である。

【0005】

本発明のさらに別の態様によれば、ニューラル・トランスデューサを訓練するためのシステムが提供される。システムは、メモリと、メモリと通信する１つまたは複数のプロセッサであって、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得し、スーパーバイザリ出力を取得するために出力を結合し、出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新する、ように構成される、プロセッサと、を含む。

【0006】

例示的実施形態は、異なる主題に関連して説明されることに留意されたい。特に、方法タイプの請求項に関連して説明される実施形態もあれば、装置タイプの請求項に関連して説明される実施形態もある。しかしながら、当業者であれば、特段の言及がない限り、１つのタイプの主題に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴間の任意の組み合わせ、特に方法タイプ請求項の特徴と装置タイプ請求項の特徴との間の任意の組み合わせも、本文書内で説明されるものと考えられるということを上記および以下の説明から推察するであろう。

【0007】

これらのおよび他の特徴および利点は、その例示的実施形態の以下の詳細な説明から明らかとなり、詳細な説明は、添付図面に関連して読まれるべきである。

【0008】

本発明の好適な実施形態は、単なる例として、以下の図面を参照してここで説明される。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態による、外部言語モデル（ＬＭ）情報を、例えば、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）などのニューラル・トランスデューサ・モデルに統合するための例示的システムのブロック／フロー図である。

【図2】例示的なニューラル・トランスデューサ・アーキテクチャおよび出力確率ラティスのブロック／フロー図である。

【図3】本発明の実施形態による、外部言語モデル（ＬＭ）を統合することによりニューラル・トランスデューサを訓練するための方法のブロック／フロー図である。

【図4】本発明の実施形態による、外部ＬＭ情報をＲＮＮ－Ｔなどのニューラル・トランスデューサ・モデルに統合するための例示的な方法のブロック／フロー図である。

【図5】本発明の実施形態による、ニューラル・トランスデューサが音声テキスト変換のために自動音声認識（ＡＳＲ）でどのように使用されるかの実際の適用例を示す図である。

【図6】本発明の実施形態による、外部ＬＭ情報をＲＮＮ－Ｔなどのニューラル・トランスデューサ・モデルに統合するための例示的な処理システムのブロック／フロー図である。

【図7】本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック／フロー図である。

【図8】本発明の実施形態による、例示的な抽象モデル層の概略図である。

【発明を実施するための形態】

【0010】

図面全体を通して、同一または類似の参照番号は、同一または類似の要素を表す。

【0011】

本発明による実施形態は、外部言語モデル（ＬＭ）からの事後分布（posterior）を使用することによってニューラル・トランスデューサ・モデルを改善するための方法およびデバイスを提供する。

【0012】

回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）へと掘り下げる前に、音声認識は進化し続けている。ＡＳＲシステムの品質の向上を図る、既存アーキテクチャに対する新たな音声認識アーキテクチャまたは改善策が、開発され続けている。説明すると、音声認識は、最初は、各モデルが専用の目的を有する複数のモデルを採用していた。例えば、ＡＳＲシステムは、音響モデル（ＡＭ：acoustic model）、発音モデル（ＰＭ：pronunciation model）、および言語モデル（ＬＭ：language model）を含んでいた。音響モデルは、オーディオのセグメント（例えば、オーディオのフレーム）を音素にマッピングするものであった。発音モデルは、これらの音素を接続して単語を形成し、言語モデルは、与えられたフレーズの尤度（例えば、単語のシーケンスの可能性）を表現するために使用された。さらにこれらの個別のモデルは協働するものであったが、各モデルは独立して訓練され、多くの場合、異なるデータセットに対して手動で設計された。

【0013】

別個のモデルの手法によって、特に、所与のモデルのための訓練コーパス（例えば、訓練データの本体）がモデルの有効性を満たしたときに、音声認識システムが非常に正確になることが可能となったが、別個のモデルを独立して訓練する必要があることによって、それ自体に複雑性がもたらされ、統合モデルを用いたアーキテクチャが導き出された。これらの統合モデルは、単一ニューラル・ネットワークを使用して、オーディオ波形（例えば、入力シーケンス）を出力センテンス（例えば、出力シーケンス）に直接マッピングしようとするものであった。これによって、シーケンス・ツー・シーケンスの手法が得られ、それによって、オーディオ特徴のシーケンスを与えたときに、単語（または書記素）のシーケンスが生成された。シーケンス・ツー・シーケンス・モデルの例には、「アテンション・ベース」モデルおよび「リッスン・アテンド・スペル」（ＬＡＳ）モデルが含まれる。ＬＡＳモデルは、リスナ・コンポーネント、アテンダ・コンポーネント、およびスペラ・コンポーネントを使用して音声発話を文字にトランスクリプトする。ここで、リスナは、オーディオ入力（例えば、音声入力の時間周波数表現）を受信し、オーディオ入力をより上位の特徴表現にマッピングする、回帰型ニューラル・ネットワーク（ＲＮＮ）の符号化器である。アテンダは、より上位の特徴に注目して、入力特徴と予測されるサブワード単位（例えば、書記素または単語片）との間のアラインメントを学習する。スペラは、仮定された単語のセットにわたる確率分布を作り出すことによって、入力から文字シーケンスを生成する、アテンション・ベースＲＮＮ復号器である。統合構造では、モデルの全てのコンポーネントが、単一のエンド・ツー・エンド（Ｅ２Ｅ）ニューラル・ネットワークとして併せて訓練されてもよい。ここでは、Ｅ２Ｅモデルは、アーキテクチャが完全にニューラル・ネットワークから構成されるモデルを指す。完全なニューラル・ネットワークは、外部コンポーネントまたは手動で設計されたコンポーネント（例えば、有限状態トランスデューサ、語彙集（lexicon）、またはテキスト正規化モジュール）あるいはその両方がなくても機能する。加えて、Ｅ２Ｅモデルを訓練すると、これらのモデルは、概して、決定木からのブートストラップまたは別個のシステムからの時間アラインメントを必要としない。

【0014】

初期Ｅ２Ｅモデルは、個別に訓練されたモデルを越える、正確性と訓練の改善を証明したが、ＬＡＳモデルなどのこれらのＥ２Ｅモデルは、出力テキストを生成する前に入力シーケンス全体をレビューすることによって機能し、したがって、入力を受信したときにストリーミング出力を可能にしなかった。ストリーミング・ケイパビリティがなければ、ＬＡＳモデルは、リアルタイム音声トランスクリプションを実行することができない。この欠陥のため、レイテンシに敏感な、またはリアルタイム音声トランスクリプションが必要な音声アプリケーションに対してＬＡＳモデルを展開することは、問題を引き起こす場合がある。

【0015】

加えて、音響、発音、および言語モデルを有する音声認識システム、または合わせて構成されたそのようなモデルは、これらのモデルに関連付けられた比較的大規模な探索グラフを探索しなければならない復号器に依存し得る。大規模な探索グラフの場合、このタイプの音声認識システムを完全にオンデバイスでホストすることは助けとならない。ここで、音声認識システムが「オンデバイス」でホストされると、オーディオ入力を受信するデバイスは、そのプロセッサを使用して、音声認識システムの機能を実行する。例えば、音声認識システムが完全にオンデバイスでホストされると、デバイスのプロセッサは、音声認識システムの機能を実行するために、いかなるオフデバイス・コンピューティング・リソースとも協調する必要はない。完全なオンデバイスでない音声認識を実行するデバイスは、音声認識システムの少なくともいくつかの機能を実行するために、（例えば、リモート・コンピューティング・システムまたはクラウド・コンピューティングの）リモート・コンピューティング、およびしたがってオンライン接続性に依存する。例えば、音声認識システムは、サーバ・ベース・モデルとのネットワーク接続を使用して大規模探索グラフで復号を実行する。

【0016】

残念ながら、リモート接続に依存することによって、音声認識システムは、通信ネットワークのレイテンシ問題または固有の信頼性の低さあるいはその両方に対して脆弱になる。これらの問題を回避することによって音声認識の有用性を改善するために、音声認識システムはこの場合も、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）として知られるシーケンス・ツー・シーケンス・モデルの形式に発展した。ＲＮＮ－Ｔは、アテンション・メカニズムを採用しておらず、概して出力（例えば、センテンス）を作り出すためにシーケンス全体（例えば、オーディオ波形）を処理する必要がある他のシーケンス・ツー・シーケンス・モデルとは異なり、ＲＮＮ－Ｔは、入力サンプルを連続的に処理し、出力シンボルをストリーミングする。これは、リアルタイム通信にとって特に魅力的な特徴である。例えば、ＲＮＮ－Ｔを用いた音声認識は、文字を１つずつ話すように出力し得る。

【0017】

したがって、音声認識の正確性を改善するためのより効率的なプロセスの必要性が存在する。本発明の例示的実施形態は、外部言語モデル（ＬＭ）からの事後分布を使用することによってニューラル・トランスデューサ・モデル（例えば、ＲＮＮ－Ｔ）を改善する方法を導入する。

【0018】

本発明は、所与の例示的アーキテクチャに関して説明されるが、他のアーキテクチャ、構造、基板材料、ならびにプロセス特徴およびステップ／ブロックが、本発明の範囲内において変化し得ることを理解すべきである。明確化のために、ある特徴を全ての図面に示すことができないことに留意すべきである。これは、任意の特定の実施形態もしくは例示、または特許請求の範囲の限定として解釈されることを意図するものではない。

【0019】

図１は、本発明の実施形態による、外部言語モデル（ＬＭ）情報を、例えば、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）などのニューラル・トランスデューサ・モデルに統合するための例示的システム１０のブロック／フロー図である。

【0020】

例示的実施形態は、事後ラティス（posterior lattice）の各Ｐ（ｙ｜ｔ，ｕ）について言語モデルの確率Ｐ＿｛ＬＭ｝（ｙ｜ｕ）が結合されるシステム１０を導入する。このように、任意の時間インデックスについて、先行する出力シンボルが与えられたＬＭ確率は、同一である。その結果、同一のＰ＿｛ＬＭ｝（ｙ｜ｕ）が、同一のｕを有する全ての時間インデックスｔについてのＰ（ｙ｜ｔ，ｕ）と結合され得る。次いで、結合された確率は、ニューラル・トランスデューサ・モデルを訓練するための教師として使用される。

【0021】

特に、図１を参照すると、任意のタイプの言語モデル２２は、大量のテキスト・データ（例えば、外部コーパス）から訓練される。オーディオ・データ１４およびそのトランスクリプション・データ１２を使用することによって、事後ラティスのＰ（ｙ｜ｔ，ｕ）（３２）は、シード・ニューラル・トランスデューサ・モデル２０から計算される。次いで、言語モデルの確率Ｐ＿｛ＬＭ｝（ｙ｜ｕ）（３０）が、訓練済み言語モデル２２を用いて計算され、Ｐ（ｙ｜ｔ，ｕ）（３２）およびＰ＿｛ＬＭ｝（ｙ｜ｕ）（３０）が、例えば、線形補間または対数線形補間を使用することによって結合される。ニューラル・トランスデューサ・モデル２４のパラメータは、訓練中のニューラル・トランスデューサ・モデル（２４）からの出力と計算された補間後の出力（３４）との間のＫＬダイバージェンスまたは平均二乗誤差を最小化することによって更新される。

【0022】

本発明の利点は、好ましくは、ニューラル・トランスデューサ・モデル自体が、シード・ニューラル・トランスデューサ・モデルおよび外部言語モデルの補間後の出力をもたらすために訓練される、少なくともより良好な音声認識の正確性を含む。

【0023】

図２は、例示的なニューラル・トランスデューサ・アーキテクチャおよび出力確率ラティスのブロック／フロー図である。

【0024】

ニューラル・トランスデューサ・アーキテクチャは、例えば、ＲＮＮ－Ｔモデル５０であってもよく、ＲＮＮ－Ｔモデル５０は、符号化器（または符号化器ネットワーク）５４と、予測（または予測ネットワーク）６４と、結合ネットワーク７０と、を含む。符号化器ネットワーク５４は、音響モデルに類似しており、音響モデルは、音響特徴ｘ_ｔを上位表現

【数1】

に変換し、ｔは時間インデックスである。予測ネットワーク６４は、ＲＮＮ言語モデルのように動作し、ＲＮＮ言語モデルは、ＲＮＮ－Ｔモデルによって予測された前の非ブランク・ターゲットｙ_ｕ－１（６２）を条件とすることによって、上位表現

【数2】

を作り出し、ｕは、出力ラベル・インデックスである。

【0025】

結合ネットワーク７０は、符号化器ネットワーク出力

【数3】

と予測ネットワーク出力

【数4】

とを結合する、フィード・フォワード・ネットワークである。各出力トークンｋについての最終事後分布が、ソフトマックス演算７２の適用後に取得される。

【数5】

【0026】

ＲＮＮ－Ｔの損失関数は、入力音響特徴ｘが与えられた出力ラベル・シーケンスｙの負の対数事後分布である。
Ｌ＝－ｌｎＰ（ｙ｜ｘ）

【0027】

このようにして、ＲＮＮ－Ｔモデル５０に従って、ニューラル・トランスデューサは、Ｐ（ｙ｜ｔ，ｕ）（７４）によって定義された出力確率ラティスにわたる探索によって、入力特徴シーケンスｘに基づいて出力シーケンスｙを生成する。ｘ＝（ｘ_１，．．．ｘ_Ｔ）は、オーディオ特徴ベクトルの入力シーケンス５２であり、ｙ＝（ｙ_１，．．．ｙ_Ｕ）は、前のトークンのシーケンス７６であり、ｚ｛ｔ，ｕ｝は、ロジットである。

【0028】

出力確率ラティス８０について、各ノード８８は、ｚ＿｛ｔ，ｕ｝のソフトマックスを表す。

【0029】

図３は、本発明の実施形態による、外部言語モデル（ＬＭ）を統合することによりニューラル・トランスデューサを訓練するための方法のブロック／フロー図である。

【0030】

ブロック９０において、オーディオ・データおよびオーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデル、および例えばＲＮＮ－Ｔなどのシード・ニューラル・トランスデューサからそれぞれ出力を取得する。

【0031】

ブロック９２において、スーパーバイザリ出力を取得するために出力を結合する。

【0032】

ブロック９４において、その出力がスーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新する。別の言い方をすると、訓練中の別のニューラル・トランスデューサからの出力が、スーパーバイザリ出力に接近し、または近づく。シード・ニューラル・トランスデューサ２０（図１）は固定である。新たなニューラル・トランスデューサ２４（図１）は、スクラッチ（ランダム値）から訓練され、またはシード・モデルによって初期化される。シード・ニューラル・トランスデューサは、訓練中のニューラル・トランスデューサとは異なることに留意されたい。

【0033】

図４は、本発明の実施形態による、外部言語モデル（ＬＭ）情報をＲＮＮ－Ｔなどのニューラル・トランスデューサ・モデルに統合するための例示的な方法のブロック／フロー図である。

【0034】

ブロック１００において、大量のテキスト・データから任意のタイプの言語モデルを訓練する。

【0035】

ブロック１０２において、オーディオおよびそのトランスクリプションを使用することによって、シード・ニューラル・トランスデューサ・モデルから事後ラティスのＰ（ｙ｜ｔ，ｕ）を計算する。

【0036】

ブロック１０４において、訓練済み言語モデルで言語モデル確率Ｐ＿｛ＬＭ｝（ｙ｜ｕ）を計算する。

【0037】

ブロック１０６において、例えば、線形補間または対数線形補間のいずれかを使用することによって、Ｐ（ｙ｜ｔ，ｕ）およびＰ＿｛ＬＭ｝（ｙ｜ｕ）を結合する。

【0038】

ブロック１０８において、訓練中のニューラル・トランスデューサ・モデルからの出力と計算された補間後の出力との間のＫＬダイバージェンスまたは平均二乗誤差を最小化することによって、ニューラル・トランスデューサ・モデルのパラメータを更新する。上述の通り、シード・ニューラル・トランスデューサ２０（図１）は固定である。新たなニューラル・トランスデューサ２４（図１）は、スクラッチ（ランダム値）から訓練され、またはシード・モデルによって初期化される。シード・ニューラル・トランスデューサは、訓練中のニューラル・トランスデューサとは異なることに留意されたい。

【0039】

図５は、本発明の実施形態による、ＲＮＮ－Ｔが音声テキスト変換のために自動音声認識（ＡＳＲ）でどのように使用されるかの実際の適用例１１０を示す。

【0040】

簡単に言うと、対話型人工知能（ＡＩ）は、機械と通信するために自然言語を使用するものである。対話型ＡＩの深層学習アプリケーションは、音声アシスタントおよびチャットボットから顧客セルフ・サービスを可能にする質問応答システムまで、日々成長している。ソリューションに対話型ＡＩを適合する産業の範囲は幅広く、金融からヘルスケアに及ぶ多様な領域を有する。対話型ＡＩは、正確で、高速かつ自然な人間対機械の対話で快適なユーザ・エクスペリエンスを届けるために、シームレスに、かつ調和して動作しなければならない複数の深層ニューラル・ネットワークを統合する、複合システムである。これらの目標を達成するために、開発者は、特に、領域適応、ユーザ分析、コンプライアンス、高精度音声認識、ユーザ識別、感情分析などを遂行するような重要な問題を解決するアプリケーションを開発している。

【0041】

対話型ＡＩアプリケーションは、３つのサブシステムを使用して、オーディオを処理し、トランスクリプトするステップ、聞かれた質問を理解する（意味を導き出す）ステップ、応答（テキスト）を生成し、人間に応答を返すステップを実行する。これらのステップは、共に動作する複数の深層学習ソリューションによって達成される。第１に、自動音声認識（ＡＳＲ）システム１１２は、生のオーディオ信号を処理し、それからテキストをトランスクリプトするために使用される。第２に、自然言語処理（ＮＬＰ）は、トランスクリプトされたテキスト（ＡＳＲ出力）から意味を導き出すために使用される。この場合、シード・ニューラル・トランスデューサ２０（図１）は固定である。新たなニューラル・トランスデューサ２４（図１）は、スクラッチ（ランダム値）から訓練され、またはシード・モデルによって初期化される。シード・ニューラル・トランスデューサは、訓練中のニューラル・トランスデューサとは異なることに留意されたい。最後に、音声合成または音声テキスト化１１６が、テキストを作り出すために使用される。作り出されたテキストは、例えば、スマートフォン１２０、タブレット１２２、またはコンピュータ１２４、あるいはそれらの組み合わせの上に表示され得る。その結果、例示的システム１０は、例示的な実際の適用例として、音声１１６からテキストを作り出すためにＡＳＲ１１２において実施され得る。

【0042】

図６は、本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な処理システムのブロック／フロー図である。

【0043】

図６は、コンピューティング・デバイス２０５を含むシステム２００のコンポーネントのブロック図を示す。図６は、単に１つの実施態様の例示を提供するだけであり、異なる実施形態が実施され得る環境に関していかなる限定も示唆しないと理解されたい。図示された環境に対して多くの修正が行われ得る。

【0044】

コンピューティング・デバイス２０５は、通信ファブリック２０２を含み、通信ファブリック２０２は、コンピュータ・プロセッサ２０４、メモリ２０６、永続記憶装置２０８、通信ユニット２１０、および入力／出力（Ｉ／Ｏ）インターフェース２１２の間に通信を提供する。通信ファブリック２０２は、プロセッサ（マイクロプロセッサ、通信およびネットワーク・プロセッサなど）、システム・メモリ、周辺デバイス、ならびにシステム内の任意の他のハードウェア・コンポーネント間でデータを渡し、または情報を制御し、あるいはその両方を行うように設計された任意のアーキテクチャで実施され得る。例えば、通信ファブリック２０２は、１つまたは複数のバスで実施され得る。

【0045】

メモリ２０６、キャッシュ・メモリ２１６、および永続記憶装置２０８は、コンピュータ可読記憶媒体である。本実施形態では、メモリ２０６は、ランダム・アクセス・メモリ（ＲＡＭ）２１４を含む。別の実施形態では、メモリ２０６は、フラッシュ・メモリであってもよい。概して、メモリ２０６は、任意の適当な揮発性または不揮発性コンピュータ可読記憶媒体を含み得る。

【0046】

本発明のいくつかの実施形態では、プログラム２２５は、コンピューティング・デバイス２０５のコンポーネントとしてＡＩアクセラレータ・チップ２２２によって含まれ、動作される。他の実施形態では、プログラム２２５は、メモリ２０６の１つまたは複数のメモリを介した、それぞれのコンピュータ・プロセッサ２０４のうちの１つまたは複数と併せた（エンド・ツー・エンド音声認識のために、外部言語モデル情報を、例えば回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）・モデルなどのニューラル・トランスデューサ・モデルに統合するための）ＡＩアクセラレータ・チップ２２２による実行のために、永続記憶装置２０８に記憶される。本実施形態では、永続記憶装置２０８は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代替として、または加えて、永続記憶装置２０８は、ソリッド・ステート・ハード・ドライブ、半導体記憶デバイス、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶することが可能な任意の他のコンピュータ可読記憶媒体を含み得る。

【0047】

永続記憶装置２０８によって使用される媒体は、また、リムーバブルであってもよい。例えば、リムーバブル・ハード・ドライブは、永続記憶装置２０８のために用いられてもよい。他の実施例は、永続記憶装置２０８の一部でもある別のコンピュータ可読記憶媒体上への転送のために、ドライブ内に挿入される光学および磁気ディスク、サム・ドライブ、ならびにスマート・カードを含む。

【0048】

これらの実施例において、通信ユニット２１０は、分散型データ処理環境のリソースを含む、他のデータ処理システムまたはデバイスとの通信を提供する。これらの実施例では、通信ユニット２１０は、１つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット２１０は、物理的通信リンクおよび無線通信リンクのいずれかまたは両方の使用を通して通信を提供し得る。深層学習プログラム２２５は、通信ユニット２１０を通して永続記憶装置２０８にダウンロードされ得る。

【0049】

Ｉ／Ｏインターフェース２１２は、コンピューティング・システム２００に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、Ｉ／Ｏインターフェース２１２は、キーボード、キーパッド、タッチ・スクリーン、または何らかの他の適当な入力デバイス、あるいはそれらの組み合わせなどの外部デバイス２１８への接続を提供し得る。外部デバイス２１８は、例えば、サム・ドライブ、ポータブル光学または磁気ディスク、およびメモリ・カードなどの、ポータブル・コンピュータ可読記憶媒体も含み得る。

【0050】

ディスプレイ２２０は、ユーザにデータを表示するための機構を提供し、例えば、コンピュータ・モニタであってもよい。

【0051】

図７は、本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック／フロー図である。

【0052】

本発明は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に列挙する教示の実施態様は、クラウド・コンピューティング環境に限定されないと理解されたい。むしろ、本発明の実施形態は、現在既知の、または後に開発される任意の他のタイプのコンピューティング環境と併せて実施されることが可能である。

【0053】

クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速に供給され、リリースされ得る、構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス）の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特性、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含み得る。

【0054】

特性は、以下の通りである。

【0055】

オンデマンド・セルフサービス：クラウド消費者は、サービス・プロバイダと人との対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを一方的に供給し得る。

【0056】

幅広いネットワーク・アクセス：ケイパビリティは、ネットワーク上で利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを通してアクセスされる。

【0057】

リソースの共用：プロバイダのコンピューティング・リソースが、マルチテナント型モデルを使用して複数の消費者にサービスするためにプールされ、異なる物理リソースおよび仮想リソースが要求に従って動的に割り当ておよび再割り当てされる。消費者が、概して、提供されるリソースの正確な場所に対する制御または知識を有しないが、より高い抽象レベル（例えば、国、州、またはデータセンタ）において場所を指定することが可能であり得るという点において、位置独立の意味がある。

【0058】

スピーディな拡張性：ケイパビリティは、場合によっては自動的に、即座にスケール・アウトするようにスピーディかつ弾力的に供給され、即座にスケール・インするようにスピーディに解放され得る。消費者に対しては、供給に利用可能なケイパビリティが、多くの場合無制限であるように見え、いつでも任意の量で購入可能である。

【0059】

サービスが計測可能であること：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ・アカウント）に適したある抽象レベルにおいて計測ケイパビリティを活用することによって、リソース使用を自動的に制御し、最適化する。リソース使用量は、モニタリングされ、制御され、報告されて、利用サービスのプロバイダおよび消費者の両方に透明性をもたらし得る。

【0060】

サービス・モデルは、以下の通りである。

【0061】

サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供されるケイパビリティは、クラウド・インフラ上で実行中のプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース（例えば、ウェブ・ベースの電子メール）を通して、様々なクライアント・デバイスからアクセス可能である。消費者は、限定されたユーザ固有アプリケーションの構成設定は例外である可能性があるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケイパビリティでさえも含む、基礎的なクラウド・インフラを管理または制御しない。

【0062】

サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成したアプリケーションまたは消費者が取得したアプリケーションを、クラウド・インフラ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラを管理または制御しないが、展開されたアプリケーション、および、可能な限りアプリケーション・ホスティング環境構成に対して制御を行う。

【0063】

サービスとしてのインフラ（ＩａａＳ）：消費者に提供されるケイパビリティは、処理、ストレージ、ネットワーク、ならびに消費者がオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行することが可能な、他の基本コンピューティング・リソースを供給することである。消費者は、基礎となるクラウド・インフラを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対して制御を行い、かつ可能な限り選択ネットワーキング・コンポーネント（例えば、ホスト・ファイアウォール）の限定的な制御を行う。

【0064】

展開モデルは、以下の通りである。

【0065】

プライベート・クラウド：クラウド・インフラは、組織のためだけに動作される。クラウド・インフラは、その組織または第三者によって管理され、構内または構外に存在し得る。

【0066】

コミュニティ・クラウド：クラウド・インフラは、複数の組織によって共有され、共有の関心事（例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項）を有する特定のコミュニティをサポートする。クラウド・インフラは、その組織または第三者によって管理され、構内または構外に存在し得る。

【0067】

パブリック・クラウド：クラウド・インフラは、一般公衆または大きな業界団体に利用可能とされ、クラウド・サービスを販売する組織によって所有される。

【0068】

ハイブリッド・クラウド：クラウド・インフラは、一意なエンティティのままであるが、データおよびアプリケーション・ポータビリティを可能にする標準化技術または独自技術（例えば、クラウド間のロード・バランシングのためのクラウド・バースティング）によって結合された、２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成物である。

【0069】

クラウド・コンピューティング環境は、無国籍、低結合、モジュール性、および意味相互運用性を中心としたサービス指向型である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラである。

【0070】

ここで図７を参照すると、本発明のユース・ケースを可能にするための例示的なクラウド・コンピューティング環境４５０が示されている。図示するように、クラウド・コンピューティング環境４５０は、例えば、携帯情報端末（ＰＤＡ）もしくは携帯電話４５４Ａ、デスクトップ・コンピュータ４５４Ｂ、ラップトップ・コンピュータ４５４Ｃ、または自動車コンピュータ・システム４５４Ｎ、あるいはそれらの組み合わせなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが通信し得る、１つまたは複数のクラウド・コンピューティング・ノード４１０を含む。ノード４１０は、互いに通信し得る。それらは、上述のようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの、１つまたは複数のネットワーク内で物理的または仮想的にグループ化され得る（図示せず）。これによって、クラウド・コンピューティング環境４５０が、インフラ、プラットフォーム、またはソフトウェア、あるいはそれらの組み合わせを、クラウド消費者がローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提案することが可能となる。図７に示されるコンピューティング・デバイス４５４Ａ～Ｎのタイプは、単なる例示であるように意図され、コンピューティング・ノード４１０およびクラウド・コンピューティング環境４５０は、任意のタイプのネットワークまたはネットワーク・アドレス可能な接続あるいはその両方を経て（例えば、ウェブ・ブラウザを用いて）、任意のタイプのコンピュータ化デバイスと通信し得ると理解されたい。

【0071】

図８は、本発明の実施形態による、例示的な抽象モデル層の概略図である。図８に示されるコンポーネント、層、および機能は、単なる例示であるように意図され、本発明の実施形態は、それらに限定されないと、予め理解されたい。図示されるように、以下の層および対応する機能が提供される。

【0072】

ハードウェアおよびソフトウェア層５６０は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム５６１、ＲＩＳＣ（Reduced Instruction Set Computer）アーキテクチャ・ベース・サーバ５６２、サーバ５６３、ブレード・サーバ５６４、記憶デバイス５６５、ならびにネットワークおよびネットワーキング・コンポーネント５６６を含む。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア５６７およびデータベース・ソフトウェア５６８を含む。

【0073】

仮想化層５７０は、仮想エンティティの以下の例、仮想サーバ５７１、仮想ストレージ５７２、仮想プライベート・ネットワークを含む仮想ネットワーク５７３、仮想アプリケーションおよびオペレーティング・システム５７４、ならびに仮想クライアント５７５が提供され得る、抽象層を提供する。

【0074】

一実施例では、管理層５８０は、後述する機能を提供し得る。リソース供給５８１は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的な調達を提供する。測定および価格設定５８２は、リソースが、クラウド・コンピューティング環境内で利用され、これらのリソースの消費に対して課金または請求されるときに、コスト追跡を提供する。一実施例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、データおよび他のリソースについての保護だけでなく、クラウド消費者およびタスクのための本人確認を提供する。ユーザ・ポータル５８３は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理５８４は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス水準合意（ＳＬＡ）計画および遂行５８５は、ＳＬＡに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。

【0075】

ワークロード・レイヤ５９０は、クラウド・コンピューティング環境が使用され得る機能性の例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション５４１、ソフトウェア開発およびライフサイクル管理５９２、仮想クラスルーム教育配信５９３、データ解析処理５９４、トランザクション処理５９５、ならびに外部ＬＭ情報を、例えばＲＮＮ－Ｔなどのニューラル・トランスデューサに統合するためのシステム１０を含む。

【0076】

本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体を含み得る。

【0077】

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持し、記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または前述したものの任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ、読み取り専用メモリ、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはＦｌａｓｈメモリ）、静的ランダム・アクセス・メモリ、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチカードまたは命令をその上に記録させる溝内の隆起構造などの機械的に符号化されたデバイス、および前述したものの任意の適当な組み合わせを含む。本明細書で用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由伝播する電磁波、導波管もしくは他の送信媒体を通って伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または電線を通って送信される電気信号などの、一過性信号自体であると解釈されるべきではない。

【0078】

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組み合わせを介して外部コンピュータまたは外部記憶デバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体の記憶用にコンピュータ可読プログラム命令を転送する。

【0079】

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つもしくは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的にかつリモート・コンピュータ上で部分的に、またはリモート・コンピュータもしくはサーバ上で完全に、実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通して、ユーザのコンピュータに接続されてもよく、または、接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを通して）外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することによって、コンピュータ可読プログラム命令を実行し得る。

【0080】

本発明の態様は、発明の実施形態による、方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組み合わせが、コンピュータ可読プログラム命令によって実施され得ると理解されたい。

【0081】

コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックあるいはモジュールにおいて指定される機能／動作を実施する手段を生成するように、これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または機械を製造するための他のプログラマブル・データ処理装置の少なくとも１つのプロセッサに提供されてもよい。コンピュータ可読記憶媒体に記憶される命令を有するコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックあるいはモジュールにおいて指定される機能／動作の態様を実施する命令を含む製品を含むように、これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定のやり方で機能するように指示し得る、コンピュータ可読記憶媒体に記憶され得る。

【0082】

コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックあるいはモジュールにおいて指定される機能／動作を実施するように、コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ブロック／ステップを実行させてコンピュータ実施プロセスを作り出すために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ得る。

【0083】

図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えられる実施態様のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実施態様において、ブロック内に記載された機能は、図面中に記載された順序以外で発生してもよい。例えば、連続して示される２つのブロックが、実際には、実質的に同時に実行されてもよく、または、ブロックが、関係する機能性次第で逆の順序で実行されることがあってもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせが、指定された機能もしくは動作を実行し、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェア・ベース・システムによって実施され得ることにも留意されたい。

【0084】

本原理の「一実施形態」または「実施形態」への明細書内の参照、およびそれらの他の変形は、実施形態に関連して説明される特定の特徴、構造、特性などが、本原理の少なくとも１つの実施形態に含まれることを意味する。したがって、明細書全体を通して様々な場所に現れる、「一実施形態では」または「実施形態では」という句および任意の他の変形の出現は、必ずしも全てが同一の実施形態を指すものではない。

【0085】

以下の「／」、「および／または」、および「のうちの少なくとも１つ」のいずれかの使用は、例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「ＡおよびＢのうちの少なくとも１つ」の場合、最初に列挙された選択肢（Ａ）のみの選択、または２番目に列挙された選択肢（Ｂ）のみの選択、または両方の選択肢（ＡおよびＢ）の選択を包含するように意図されると、理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」および「Ａ、Ｂ、およびＣのうちの少なくとも１つ」の場合、このような表現法は、最初に列挙された選択肢（Ａ）のみの選択、または２番目に列挙された選択肢（Ｂ）のみの選択、または３番目に列挙された選択肢（Ｃ）のみの選択、または最初と２番目に列挙された選択肢（ＡおよびＢ）のみの選択、または最初と３番目に列挙された選択肢（ＡおよびＣ）のみの選択、または２番目と３番目に列挙された選択肢（ＢおよびＣ）のみの選択、または３つの選択肢全て（ＡおよびＢおよびＣ）の選択を包含するように意図される。これは、当技術分野および関連技術分野の当業者に容易に明らかなように、多くの項目が列挙されたときについても拡張され得る。

【0086】

（例示であり限定ではないことを意図する）エンド・ツー・エンド音声認識のために、外部言語モデル情報を、ＲＮＮ－Ｔモデルなどのニューラル・トランスデューサ・モデルに統合するための方法およびシステムの好適な実施形態が説明されたが、上記教示に照らして修正および変形が当業者により行われ得ることに留意されたい。したがって、添付された特許請求の範囲により概説される発明の範囲内にある、説明された特定の実施形態において変更が行われ得ることが、理解されるものとする。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【手続補正書】

【提出日】2024-12-03

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

前記出力を前記結合することが、線形補間を使用することによって行われる、請求項１または２に記載のコンピュータ実施方法。

【請求項4】

前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項１または２に記載のコンピュータ実施方法。

【請求項5】

前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項１ないし２のいずれか一項に記載のコンピュータ実施方法。

【請求項6】

【請求項7】

【請求項8】

ニューラル・トランスデューサを訓練するためのコンピュータ・プログラムであって、コンピュータに、
オーディオ・データおよび前記オーディオ・データのトランスクリプション・データを入力データとして使用することによって、訓練済み言語モデルおよびシード・ニューラル・トランスデューサからそれぞれ出力を取得することと、
スーパーバイザリ出力を取得するために前記出力を結合することと、
その出力が前記スーパーバイザリ出力に近くなるように、訓練中の別のニューラル・トランスデューサのパラメータを更新することと、
を実行させるためのコンピュータ・プログラム。

【請求項9】

前記ニューラル・トランスデューサが、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）である、請求項８に記載のコンピュータ・プログラム。

【請求項10】

前記出力を前記結合することが、線形補間を使用することによって行われる、請求項８または９に記載のコンピュータ・プログラム。

【請求項11】

前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項８または９に記載のコンピュータ・プログラム。

【請求項12】

前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項８ないし９のいずれか一項に記載のコンピュータ・プログラム。

【請求項13】

【請求項14】

前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のｕを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項１３に記載のコンピュータ・プログラム。

【請求項15】

【請求項16】

【請求項17】

前記出力を前記結合することが、線形補間を使用することによって行われる、請求項１５または１６に記載のシステム。

【請求項18】

前記出力を前記結合することが、対数線形補間を使用することによって行われる、請求項１５または１６に記載のシステム。

【請求項19】

前記ニューラル・トランスデューサの前記出力が、事後ラティスである、請求項１５ないし１６のいずれか一項に記載のシステム。

【請求項20】

前記事後ラティスの水平軸が、時間インデックスｔであり、前記事後ラティスの垂直軸が、前記トランスクリプション・データ内のシンボルｕであり、前記事後ラティス内の各ノードｔ，ｕが、トランスクリプション・シーケンスのポイントｔによって出力シーケンスの最初のｕ要素（elements）の出力を有する事後分布を表し、前記出力を前記結合することが、前記訓練済み言語モデルの同一出力を、同一のｕを有する全ての時間インデックスについての前記事後分布と結合することを含む、請求項１９に記載のシステム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版