特開2024-18989 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特開2024-18989事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024018989

(43)【公開日】2024-02-08

(54)【発明の名称】事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器

(51)【国際特許分類】

G10L 15/06 20130101AFI20240201BHJP

G10L 15/16 20060101ALI20240201BHJP

G10L 15/10 20060101ALI20240201BHJP

【ＦＩ】

G10L15/06 300Y

G10L15/16

G10L15/10 500Z

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

(21)【出願番号】P 2023104946

(22)【出願日】2023-06-27

(31)【優先権主張番号】17/874,899

(32)【優先日】2022-07-27

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(74)【復代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】ツヴィコンス

(57)【要約】

【課題】オーディオの音声からのより効率的かつ正確なテキストトランスクリプションを可能にする。
【解決手段】例示のシステムは、事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信するプロセッサを備える。プロセッサは、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するための言語識別（ＬＩＤ）分類器を更にトレーニングする。
【選択図】図１

【特許請求の範囲】

【請求項1】

事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信し；及び
言語によってラベル付けされたトレーニングサンプルを使用して前記符号化済みオーディオの言語を検出するための言語識別（ＬＩＤ）分類器をトレーニングする
プロセッサを備える、システム。

【請求項2】

前記エンコーダは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）エンコーダを含む、請求項１に記載のシステム。

【請求項3】

前記エンコーダは、１つの言語に対して事前トレーニングされる、請求項１に記載のシステム。

【請求項4】

前記プロセッサは：
テキストに変換されることになるオーディオサンプルを受信し；
前記オーディオサンプルを符号化して、第２の符号化済みオーディオにし；
前記トレーニングされたＬＩＤ分類器を介して前記第２の符号化済みオーディオを分類し；及び
前記第２の符号化済みオーディオがターゲット言語として分類されることを検出することに応答して、前記第２の符号化済みオーディオ、及び前記事前トレーニングされたＳＴＴモデルの予測器からの予測に基づいて、前記ターゲット言語のテキストを生成する、
請求項１に記載のシステム。

【請求項5】

前記ＳＴＴモデルは、異なる言語に対して専用の複数の予測器を備え、ここで、前記ＬＩＤ分類器は、テキストに変換されることになるオーディオサンプルに対応する第２の符号化済みオーディオを分類し、前記分類に基づいて、対応する専用予測器を選択する、請求項１に記載のシステム。

【請求項6】

前記ＳＴＴモデルの前記エンコーダは、異なる言語のための前記複数の予測器を用いて事前トレーニングされる、請求項５に記載のシステム。

【請求項7】

前記符号化済みオーディオは、フレームレベル特徴ベクトルを含む、請求項１から６のいずれか一項に記載のシステム。

【請求項8】

プロセッサを介して、事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信する段階；及び
前記プロセッサを介して、言語によってラベル付けされたトレーニングサンプルを使用して前記符号化済みオーディオの言語を検出するための言語識別（ＬＩＤ）分類器をトレーニングする段階
を備える、コンピュータ実装方法。

【請求項9】

前記プロセッサを介して、テキストに変換されることになるオーディオサンプルを受信する段階；
前記プロセッサを介して、前記オーディオサンプルを符号化して、第２の符号化済みオーディオにする段階；及び
前記プロセッサを介して、前記トレーニングされたＬＩＤ分類器を介して前記第２の符号化済みオーディオを分類する段階；
を備える、請求項８に記載のコンピュータ実装方法。

【請求項10】

前記プロセッサを介して、前記第２の符号化済みオーディオがターゲット言語として分類されないことを検出することに応答して、前記オーディオサンプルの処理を停止する段階を備える、請求項９に記載のコンピュータ実装方法。

【請求項11】

前記プロセッサを介して、前記第２の符号化済みオーディオがターゲット言語として分類されることを検出することに応答して、前記第２の符号化済みオーディオ、及び前記事前トレーニングされたＳＴＴモデルの予測器からの予測に基づいて、前記ターゲット言語のテキストを生成する段階を備える、請求項９に記載のコンピュータ実装方法。

【請求項12】

前記プロセッサを介して、テキストに変換されることになるオーディオサンプルを受信する段階；
前記プロセッサを介して、前記オーディオサンプルを符号化して、第２の符号化済みオーディオにする段階；
前記プロセッサを介して、前記トレーニングされたＬＩＤ分類器を介して前記第２の符号化済みオーディオを分類する段階；及び
前記プロセッサを介して、前記分類に基づいて、異なる言語に対して専用の複数の予測器のうちの１つの専用予測器に前記第２の符号化済みオーディオを送信する段階
を備える、請求項８から１１のいずれか一項に記載のコンピュータ実装方法。

【請求項13】

前記専用予測器を介して前記第２の符号化済みオーディオから前記テキストを生成する段階を備える、請求項１２に記載のコンピュータ実装方法。

【請求項14】

前記第２の符号化済みオーディオを分類する段階は、プーリングされた重み付き平均の線形射影にソフトマックス関数を適用する段階、及び最高小数確率を有する言語クラスに基づいて前記第２の符号化済みオーディオを分類する段階を有する、請求項１２に記載のコンピュータ実装方法。

【請求項15】

言語識別分類器をトレーニングするコンピュータプログラムであって、前記コンピュータプログラムは、プログラムコードを備え、前記プログラムコードは、プロセッサにより実行された場合、前記プロセッサに、
事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信する手順；及び
言語によってラベル付けされたトレーニングサンプルを使用して前記符号化済みオーディオの言語を検出するための言語識別（ＬＩＤ）分類器をトレーニングする手順
を行わせるために前記プロセッサによって実行可能である、コンピュータプログラム。

【請求項16】

前記プロセッサにより実行された場合、前記プロセッサに、
テキストに変換されることになるオーディオサンプルを受信する手順；
前記オーディオサンプルを符号化して、第２の符号化済みオーディオにする手順；及び
前記トレーニングされたＬＩＤ分類器を介して前記第２の符号化済みオーディオを分類する手順
を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項１５に記載のコンピュータプログラム。

【請求項17】

前記プロセッサにより実行された場合、前記プロセッサに、
前記符号化済みオーディオがターゲット言語として分類されないことを検出することに応答して、前記オーディオサンプルの処理を停止する手順を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項１６に記載のコンピュータプログラム。

【請求項18】

前記プロセッサにより実行された場合、前記プロセッサに、
前記第２の符号化済みオーディオがターゲット言語として分類されることを検出することに応答して、前記第２の符号化済みオーディオ、及び前記事前トレーニングされたＳＴＴモデルの予測器からの予測に基づいて、前記ターゲット言語のテキストを生成する手順を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項１６に記載のコンピュータプログラム。

【請求項19】

前記プロセッサにより実行された場合、前記プロセッサに、
テキストに変換されることになるオーディオサンプルを受信する手順；
前記オーディオサンプルを符号化して、第２の符号化済みオーディオにする手順；
前記トレーニングされたＬＩＤ分類器を介して前記第２の符号化済みオーディオを分類する手順；
前記分類に基づいて、異なる言語に対して専用の複数の予測器のうちの１つの専用予測器に前記第２の符号化済みオーディオを送信する手順；及び
前記専用予測器を介して前記符号化済みオーディオから前記テキストを生成する手順
を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項１５から１８のいずれか一項に記載のコンピュータプログラム。

【請求項20】

前記プロセッサにより実行された場合、前記プロセッサに、
プーリングされた重み付き平均の線形射影にソフトマックス関数を適用し、最高小数確率を有する言語クラスに基づいて前記第２の符号化済みオーディオを分類する手順を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項１９に記載のコンピュータプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本技法は、言語識別分類に関する。より具体的には、本技法は、言語識別分類器をトレーニングすることに関する。

【背景技術】

【0002】

【発明の概要】

【発明が解決しようとする課題】

【0003】

オーディオの音声からのより効率的かつ正確なテキストトランスクリプションを可能にする。

【課題を解決するための手段】

【0004】

本明細書において説明される実施形態によれば、システムは、事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信するプロセッサを含むことができる。プロセッサは、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するために言語識別（ＬＩＤ）分類器を更にトレーニングすることもできる。

【0005】

本明細書において説明される別の実施形態によれば、方法は、プロセッサを介して、事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信する段階を含むことができる。方法は、プロセッサを介して、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するために言語識別（ＬＩＤ）分類器をトレーニングする段階を更に含むことができる。

【0006】

本明細書において説明される別の実施形態によれば、言語識別分類器をトレーニングするコンピュータプログラム製品は、プログラムコードが具現化されたコンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体は、一時的信号それ自体ではない。プログラムコードは、プロセッサに、事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信させるために当該プロセッサによって実行可能である。プログラムコードは、プロセッサに、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するために言語識別（ＬＩＤ）分類器をトレーニングさせることもできる。

【図面の簡単な説明】

【0007】

【図1】事前トレーニングされた音声対テキスト（ＳＴＴ）システムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングする例示のシステムのブロック図である。

【0008】

【図2】事前トレーニングされたＳＴＴシステムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングする例示のシステムの詳細なブロック図である。

【0009】

【図3】事前トレーニングされたＳＴＴシステムのエンコーダからの符号化済みオーディオを使用して複数の言語を検出及び文字起こしするためにトレーニングされたＬＩＤ分類器を備える例示の多言語ＳＴＴシステムのブロック図である。

【0010】

【図4】事前トレーニングされたＳＴＴシステムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングすることができる例示の方法のプロセスフロー図である。

【0011】

【図5】本明細書において説明される実施形態に従ってトレーニングされたＬＩＤ分類器を使用してターゲット言語のオーディオからテキストを生成することができる例示の方法のプロセスフロー図である。

【0012】

【図6】本明細書において説明される実施形態に従ってトレーニングされたＬＩＤ分類器を使用して複数の言語のオーディオからテキストを生成することができる例示の方法のプロセスフロー図である。

【0013】

【図7】事前トレーニングされたＳＴＴシステムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングする等の本発明の方法を実行することに関与するコンピュータコードのうちの少なくとも幾つかの実行のための環境の一例を含む例示のコンピューティング環境のブロック図である。

【0014】

【図8】事前トレーニングされたＳＴＴシステムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングすることができる例示の有形の非一時的コンピュータ可読媒体である。

【発明を実施するための形態】

【0015】

音声対テキスト（ＳＴＴ）を用いる幾つかの音声トランスクリプションシステムは、単一言語モデルを使用し、ここで、ユーザは、何らかの事前知識に基づいて適切な言語を選択する。しかしながら、時として、音声の言語は、事前に知られていない場合があるか、又は期待されたものとは異なる。これは、入力オーディオの言語及びＳＴＴモジュールの間の不一致をもたらし、ＳＴＴモジュールに、誤ったトランスクリプションを生成させるか、又はトランスクリプションを全く生成させない可能性がある。その上、オーディオに対して言語分類ツールを適用して、音声の言語を識別し、その後対応するＳＴＴモジュールを使用することは、過度に大きいレイテンシを生み出す可能性があり、これはなぜならば、ＬＩＤ分類器が言語を正しく識別するために数秒の音声を必要とする可能性があり、かつこの識別が完了するまでＳＴＴモジュールが開始しない可能性があるためである。加えて、各モジュールが並列で異なる言語を有する複数のＳＴＴモジュールを使用することは、はるかに多くの計算リソースを使用する可能性があり、これはなぜならば、幾つかのモデルが同時に実行される必要がある可能性があるためである。最終的に、一度に幾つかの言語に対してトレーニングされた多言語ＳＴＴは、トレーニングするのが困難であり、かつ更なる処理リソースを必要とする可能性がある。その上、そのような多言語ＳＴＴは，単一言語モデルほど正確ではない可能性がある。

【0016】

本開示の実施形態によれば、例示のシステムは、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）等の事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信することができるプロセッサを含む。プロセッサは、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するための言語識別（ＬＩＤ）分類器を更にトレーニングすることができる。それゆえ、本開示の実施形態は、オーディオの音声からのより効率的かつ正確なテキストトランスクリプションを可能にする。特に、本明細書において説明される技法を使用してトレーニングされたモデルを使用して、２００９年１０月にリリースされたＮＩＳＴ－ＬＲＥ－０７データセットについて現行技術水準の性能結果が実証され、このデータセットは、１４個の言語についての６６時間の従来的な電話音声セグメントを含む。例えば、１０ｓ条件について０．５６％の等価エラー率（ＥＥＲ）が観測された。その上、これらの技法は、テキスト復号を待機することなく言語の迅速な識別を可能にし、かつ最小オーバヘッド及び最小レイテンシのみで識別を可能にする。これは、それらのＳＴＴモデルに対して一切の変更を伴わずに、既存の自動化音声認識（ＡＳＲ）システムに対するＬＩＤ機能の追加を可能にする。幾つかの例では、ＬＩＤ分類器は、単一言語ＳＴＴモジュールの一部として機能し、ＳＴＴモジュールがトランスクリプションを開始する前に入力音声が期待される言語ではないことを指示するのに使用され得る。この指示は、ＳＴＴモジュールが最小オーバヘッドで正しい言語のモデルに切り替えることを可能にし得る。幾つかの例では、ＬＩＤ分類器は、多言語モデルの一部として動作してよく、ここで、ＬＩＤ分類器は、正しい言語への復号を命令する。これらの例では、オーバヘッドも最小であり得、これはなぜならば、リソースの大部分がＬＩＤ分類器及びＳＴＴモジュールの間で共有されるためである。

【0017】

ここで図１を参照すると、ブロック図は、事前トレーニングされたＳＴＴシステムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングする例示のシステムを示している。図１の例示のシステム１００は、音声対テキスト（ＳＴＴ）システム１０２を備える。例えば、ＳＴＴシステム１０２は、１つの言語の音声に対して事前トレーニングされたリカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）であってよい。システム１００は、ＳＴＴシステム１０２に通信可能に結合された言語識別（ＬＩＤ）分類器１０４を備える。ＳＴＴシステム１０２は、予測器１０６、エンコーダ１０８及びジョイント１１０ネットワークを有する。例えば、これらの３つのネットワークは、特定の言語に対してトレーニング済みであってよい。１つの例として、言語は、アメリカ英語であってよい。様々な例において、エンコーダ１０８は、オーディオを、ＳＴＴにとって有用なフレームレベル埋め込み特徴に変換する音響エンコーダであってよい。例えば、エンコーダ１０８は、ラベル付けされたオーディオ録音に対して教師あり学習の方式でトレーニング済みであってよい。様々な例において、エンコーダ１０８は、長短期記憶（ＬＳＴＭ）層又はコンフォーマエンコーダネットワークから作製されてよい。ＳＴＴシステム１０２は、ジョイントモジュール１１０の出力から生成されるものとして示されているテキスト１１２も有する。ＬＩＤ分類器１０４は、検出された言語１１６を生成するものとして示されているＬＩＤモジュール１１４を有する。ＳＴＴシステム１０２は、オーディオ１１８を受信するものとして示されている。例えば、オーディオ１１８は、テキスト１１２に変換されることになる特定の言語の音声を含んでよい。

【0018】

図１の例では、ＬＩＤ分類器１０４のトレーニング中、エンコーダ１０８は、オーディオ１１８を受信し、オーディオ１１８を特徴のセットに変換してよい。例えば、オーディオ１１８は、様々な言語からのオーディオサンプルのペアを含むラベル付けされたトレーニングセットの一部であってよく、ラベルは、オーディオサンプルのうちの各々のオーディオサンプルの言語を示す。１つの例として、トレーニングセットは、ＮＩＳＴ－ＬＲＥ－０７データセットであってよい。様々な例において、生成された特徴は、フレームレベル特徴ベクトルであってよい。ＬＩＤ分類器１０４のＬＩＤ１１４は、特徴を受信し、検出された言語１１６を出力してよい。トレーニングにおいて、言語１１６は、その後、ＬＩＤ１１４をトレーニングするために、受信されたオーディオ１１８に対応するラベルと比較されてよい。例えば、ＬＩＤ１１４の１つ又は複数の重みは、比較の結果に基づいて調整されてよい。様々な例において、ＬＩＤ１１４の１つ又は複数の重みを調整するために、その後、バックプロパゲーションが使用されてよい。例えば、図２の例示のＬＩＤ分類器１０４においてより詳細に説明されるＬＩＤ１１４の層のうちのいずれかに関連付けられた１つ又は複数の重みが調整されてよい。

【0019】

さらに図１を参照すると、推論ステージにおいて、受信されたオーディオ１１８は、テキスト１１２に変換されることになる未知の言語のオーディオであってよい。エンコーダ１０８は、同様に、オーディオ１１８を、特徴のセットに変換し、当該特徴をＬＩＤ分類器１０４に送信してよい。ＬＩＤ分類器１０４の結果に基づいて、ＳＴＴシステム１０２は、その後、エンコーダ１０８からの特徴のセットの処理を継続すべきか否かを判断してよい。例えば、ＳＴＴシステム１０２は、検出された言語１１６がそのターゲットと異なることを検出することに応答して、テキスト１１２の生成をキャンセルしてよい。

【0020】

図１のブロック図は、システム１００が図１において示されたコンポーネントの全てを含むべきであることを示すことを意図していないことを理解されたい。むしろ、システム１００は、より少数のコンポーネント、又は、図１において示されていない追加のコンポーネント（例えば、追加のオーディオサンプル、又は追加の予測器、エンコーダ、分類器、言語等）を含むことができる。

【0021】

図２は、事前トレーニングされたＳＴＴシステムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングする例示のシステムの詳細なブロック図である。図２の例示のシステム２００は、ＬＩＤ分類器１０４に通信可能に結合されたＲＮＮ－Ｔエンコーダ１０８を備える。ＬＩＤ分類器１０４は、双方向長短期記憶（Ｂｉ－ＬＳＴＭ）層２０２を含む。ＬＩＤ分類器１０４は、乗算器２０８において乗算される重み２０４及び線形射影２０６を含む。ＬＩＤ分類器１０４は、平均プーリング層２１０も含む。例えば、平均プーリング層２１０は、マルチヘッド重み付き平均プーリング層であってよい。ＬＩＤ分類器１０４は、線形射影２１２及びソフトマックス関数２１４も更に含む。ＲＮＮ－Ｔエンコーダ１０８は、オーディオ２１６を受信するものとして示されている。ＬＩＤ分類器１０４は、分類２１８を出力するものとして示されている。

【0022】

図２の例では、平均プーリング層２１０は、マルチヘッド重み付き平均プーリング層であってよい。例えば、平均プーリング層２１０は、以下の式によって定義されてよい：

【数1】

【数2】

ここで、ｗ_ｔは、フレームについての重みベクトルであり、ｘ_ｔは、時刻ｔにおけるＬＳＴＭ出力ベクトルであり、

【数3】

、

【数4】

、及び

【数5】

は、線形射影であり、σ（）は、ログシグモイド関数であり、ｙは、プーリングされた重み付き平均である。

【0023】

さらに図２を参照すると、言語ごとの最終確率は、線形射影２１２及びソフトマックス関数２１４を使用してプーリングされた重み付き平均ｙから計算されてよい。ソフトマックス関数２１４は、実数のベクトルを受信し、ｎ個の実数を、ｎ個の可能な結果の確率分布に変換してよい。例えば、ソフトマックス関数２１４は、数ｎの言語クラスのうちの各クラスに確率を割り当ててよい。全ての言語クラスの確率は、合計すると１．０になり得る。様々な例において、出力分類２１８は、最高小数確率を有するクラスであってよい。

【0024】

図２のブロック図は、システム２００が図２において示されたコンポーネントの全てを含むべきであることを示すことを意図していないことを理解されたい。むしろ、システム２００は、より少数のコンポーネント、又は、図２において示されていない追加のコンポーネント（例えば、追加のオーディオサンプル、又は追加のクラス、層、分類等）を含むことができる。

【0025】

図３は、そのエンコーダからの符号化済みオーディオを使用して複数の言語を検出及び文字起こしするためにトレーニングされたＬＩＤ分類器を備える例示の多言語ＲＮＮ－ＴＳＴＴシステム３００のブロック図である。図３の例示のシステム３００は、エンコーダ３０２を備える。システム３００は、エンコーダ３０２に通信可能に結合されたＬＩＤ分類器３０４を備える。例えば、ＬＩＤ分類器３０４は、図２の例示のＬＩＤ分類器１０４であってよい。システム３００は、それぞれ英語、フランス語、スペイン語、及び中国語といった言語に関連付けられるとともに、ＬＩＤ分類器３０４に通信可能に結合された予測器３０６Ａ、３０６Ｂ、３０６Ｃ、及び３０６Ｄのセットも備える。システム３００は、エンコーダ３０２、及び予測器３０６Ａ、３０６Ｂ、３０６Ｃ、及び３０６Ｄに通信可能に結合されたジョイントモジュール３０８を更に備える。ＳＴＴシステム３００は、テキスト３１０を生成するものとして示されている。例えば、テキスト３１０は、受信されたオーディオ３１２の音声に対応してよい。

【0026】

図３の例では、ＬＩＤ分類器３０４は、エンコーダ３０２からの符号化済みオーディオを、英語、フランス語、スペイン語、又は中国語を含む幾つかの言語のうちの１つに分類するようにトレーニングされている。様々な例において、任意の追加の言語が含まれてもよいし、又はこれらの言語のうちのいずれかが排除されてもよい。それゆえ、推論ステージにおいて、ＬＩＤ分類器３０４は、符号化済みオーディオを、最高確率を有する分類に対応する言語モデルに向けてよい。例えば、ＬＩＤ分類器３０４は、テキストに変換されることになるオーディオサンプルに対応する第２の符号化済みオーディオを分類し、その後、分類に基づいて予測器３０６Ａ、３０６Ｂ、３０６Ｃ、３０６Ｄのうちの対応する専用予測器を選択することができる。例えば、ＬＩＤ分類器３０４は、符号化された符号化済みオーディオを、ＬＩＤ分類器３０４に対してトレーニングされた様々な言語クラスの中の最高小数確率に対応する言語モデルに向けてよい。

【0027】

さらに図３を参照すると、ジョイントモジュール３０８は、検出された言語に対応する予測器３０６Ａ～３０６Ｄのうちの１つからの予測を受信し、当該予測、及びエンコーダ３０２からの符号化済みオーディオに基づいて、テキスト３１０を生成してよい。このようにして、複数の言語のオーディオが、同じシステム３００を使用して処理されてよい。

【0028】

図３のブロック図は、システム３００が図３において示されたコンポーネントの全てを含むべきであることを示すことを意図されていないことを理解されたい。むしろ、システム３００は、より少数のコンポーネント、又は、図３において示されていない追加のコンポーネント（例えば、追加の言語、予測器、又は追加のオーディオサンプル、生成されたテキスト等）を含むことができる。例えば、異なるスペリング及び異なる発音に起因した言語の変異形のために、異なる予測器も使用されてよい。例えば、英語予測器３０６Ａは、各々異なる英語のスペリング及び発音に対してトレーニングされたアメリカ英語予測器及びイギリス英語予測器に置き換えられてよい。

【0029】

図４は、事前トレーニングされたＲＮＮ－ＴベースのＳＴＴシステムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングすることができる例示の方法のプロセスフロー図である。方法４００は、図３のコンピューティングデバイス３００等の任意の適したコンピューティングデバイスを用いて実装することでき、図１のシステム１００を参照して説明される。例えば、以下で説明される方法は、図７及び図８のプロセッサセット７１０又はプロセッサ８０２によって実装することができる。

【0030】

ブロック４０２において、プロセッサは、事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信する。例えば、エンコーダは、事前トレーニングされたＲＮＮ－Ｔであってよい。様々な例において、エンコーダは、１つの言語に対して事前トレーニングされてよい。

【0031】

ブロック４０４において、プロセッサは、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するための言語識別（ＬＩＤ）分類器をトレーニングする。例えば、ＬＩＤ分類器は、対応する言語ラベルを有する符号化済みオーディオサンプルのペアを受信してよい。

【0032】

図４のプロセスフロー図は、方法４００の動作が任意の特定の順序において実行されることになること、又は方法４００の動作の全てが全ての場合に含まれることになることを示すことを意図されていない。加えて、方法４００は、任意の適した数の追加の動作を含むことができる。

【0033】

図５は、本明細書において説明される実施形態に従ってトレーニングされたＬＩＤ分類器を使用してターゲット言語のオーディオからテキストを生成することができる例示の方法のプロセスフロー図である。方法５００は、図３のコンピューティングデバイス３００等の任意の適したコンピューティングデバイスを用いて実装することでき、図１のシステム１００を参照して説明される。

【0034】

ブロック５０２において、プロセッサは、テキストに変換されることになるオーディオサンプルを受信する。例えば、オーディオサンプルは、アメリカ英語の音声のサンプルであってよい。

【0035】

ブロック５０４において、プロセッサは、オーディオサンプルを符号化して符号化済みオーディオにする。例えば、符号化済みオーディオは、フレームレベル特徴ベクトルを含んでよい。

【0036】

ブロック５０６において、プロセッサは、トレーニングされたＬＩＤ分類器を介して第２の符号化済みオーディオを分類する。幾つかの例では、プロセッサは、プーリングされた重み付き平均の線形射影にソフトマックス関数を適用すること、及び最高小数確率を有する言語クラスに基づいて第２の符号化済みオーディオを分類することによって、第２の符号化済みオーディオを分類してよい。例えば、ＬＩＤ分類器は、図４の方法４００を使用してトレーニング済みであってよい。

【0037】

判定ダイヤモンド５０８において、プロセッサは、符号化済みオーディオがターゲット言語として分類されるか否かを判定する。符号化済みオーディオがターゲット言語として分類されないことをプロセッサが検出する場合、方法は、ブロック５１０において継続してよい。符号化済みオーディオがターゲット言語として分類されることをプロセッサが検出する場合、方法は、ブロック５１２において継続してよい。

【0038】

ブロック５１０において、プロセッサは、オーディオサンプルの処理を停止する。例えば、オーディオサンプルは、サポートされていない言語であり、したがって、テキストに変換されることが可能ではない可能性がある。

【0039】

ブロック５１２において、プロセッサは、符号化済みオーディオに基づいてテキストを生成する。例えば、プロセッサは、ブロック５０４において計算された符号化済み特徴を使用してオーディオサンプルのトランスクリプションを継続してよい。

【0040】

図５のプロセスフロー図は、方法５００の動作が任意の特定の順序において実行されることになること、又は方法５００の動作の全てが全ての場合に含まれることになることを示すことを意図されていない。加えて、方法５００は、任意の適した数の追加の動作を含むことができる。

【0041】

図６は、本明細書において説明される実施形態に従ってトレーニングされたＬＩＤ分類器を使用して複数の言語のオーディオからテキストを生成することができる例示の方法のプロセスフロー図である。方法６００は、図３のコンピューティングデバイス３００等の任意の適したコンピューティングデバイスを用いて実装することができ、図３のシステム３００を参照して説明される。

【0042】

ブロック６０２において、プロセッサは、テキストに変換されることになるオーディオサンプルを受信する。例えば、オーディオサンプルは、アメリカ英語又はＵＳ英語の音声を含んでよい。

【0043】

ブロック６０４において、プロセッサは、オーディオサンプルを符号化して符号化済みオーディオにする。例えば、符号化済みオーディオは、フレームレベル特徴ベクトルを含んでよい。

【0044】

ブロック６０６において、プロセッサは、トレーニングされたＬＩＤ分類器を介して符号化済みオーディオを分類する。幾つかの例では、プロセッサは、プーリングされた重み付き平均の線形射影にソフトマックス関数を適用すること、及び最高小数確率を有する言語クラスに基づいて第２の符号化済みオーディオを分類することによって、第２の符号化済みオーディオを分類してよい。例えば、トレーニングされたＬＩＤ分類器は、図４の方法４００を使用してトレーニング済みであってよい。１つの例として、トレーニングされたＬＩＤ分類器は、符号化済みオーディオをＵＳ英語であるものとして分類してよい。

【0045】

ブロック６０８において、プロセッサは、分類に基づいて異なる言語に対して専用の複数の予測器のうちの１つの専用予測器を選択する。例えば、当該複数の予測器は、ＵＳ英語の音声を有するオーディオのサンプルに対してトレーニングされたＵＳ英語予測器を含んでよい。

【0046】

ブロック６１０において、プロセッサは、専用予測器を介して符号化済みオーディオからテキストを生成する。例えば、プロセッサは、ＵＳ英語スペリングを使用してテキストを生成してよい。

【0047】

図６のプロセスフロー図は、方法６００の動作が任意の特定の順序において実行されることになること、又は方法６００の動作の全てが全ての場合に含まれることになることを示すことを意図されていない。加えて、方法６００は、任意の適した数の追加の動作を含むことができる。

【0048】

本開示の様々な態様は、説明文、フローチャート、コンピュータシステムのブロック図、及び／又はコンピュータプログラム製品（ＣＰＰ）実施形態に含まれる機械ロジックのブロック図によって説明される。任意のフローチャートに関して、関与する技術に依存して、所与のフローチャートにおいて示されているものと異なる順序において動作を実行することができる。例えば、ここでもやはり関与する技術に依存して、連続したフローチャートブロックにおいて示された２つの動作は、逆の順序において、単一の統合された段階として、同時に、又は少なくとも部分的に時間的に重複して、実行されてよい。

【0049】

コンピュータプログラム製品実施形態（「ＣＰＰ実施形態」又は「ＣＰＰ」）は、本開示において、所与のＣＰＰの請求項において指定されたコンピュータ動作を実行する命令及び／又はデータに対応する機械可読コードを集合的に含む１つ又は複数の記憶デバイスのセットに集合的に含まれる１つの、又は複数の、記憶媒体（「媒体」とも呼ばれる）の任意のセットを説明するために使用される用語である。「記憶デバイス」は、コンピュータプロセッサによる使用のための命令を保持及び記憶することができる任意の有形デバイスである。限定することなく、コンピュータ可読記憶媒体は、電子記憶媒体、磁気記憶媒体、光学記憶媒体、電磁記憶媒体、半導体記憶媒体、機械的記憶媒体、又は前述の任意の適した組み合わせであってよい。これらの媒体を含む記憶デバイスの幾つかの既知のタイプとしては：ディスケット、ハードディスク、ランダムアクセスメモリ（ＲＡＭ）、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、コンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピーディスク、機械的に符号化されたデバイス（パンチカード又はディスクの主要面において形成されたピット／ランド等）又は前述の任意の適した組み合わせが挙げられる。コンピュータ可読記憶媒体は、その用語が本開示において使用される場合、電波又は他の自由に伝播する電磁波、導波路を通して伝播する電磁波、光ファイバケーブルを通過する光パルス、ワイヤを通して通信される電気信号、及び／又は他の送信媒体等の一時的信号それ自体の形式でのストレージとしては解釈されるべきではない。当業者によって理解されるように、データは、典型的には、アクセス、でフラグメンテーション又はガベージコレクション等の記憶デバイスの通常動作中の幾つかの時折の時点において移動されるが、これは、記憶デバイスを一時的なものにせず、これはなぜならば、データは、それが記憶されている間は一時的ではないためである。

【0050】

コンピューティング環境７００は、言語識別分類器トレーナ１００等の、本発明の方法を実行することに関与するコンピュータコードのうちの少なくとも一部の実行のための環境の一例を含む。ブロック１００に加えて、コンピューティング環境７００は、例えば、コンピュータ７０１、ワイドエリアネットワーク（ＷＡＮ）７０２、エンドユーザデバイス（ＥＵＤ）７０３、リモートサーバ７０４、パブリッククラウド７０５、及びプライベートクラウド７０６を備える。この実施形態では、コンピュータ７０１は、プロセッサセット７１０（処理回路７２０及びキャッシュ７２１を含む）、通信ファブリック７１１、揮発性メモリ７１２、永続ストレージ７１３（上記で識別されたように、オペレーティングシステム７２２及びブロック１００を含む）、ペリフェラルデバイスセット７１４（ユーザインターフェース（ＵＩ）、デバイスセット７２３、ストレージ７２４、及びモノのインターネット（ＩｏＴ）センサセット７２５を含む）、及びネットワークモジュール７１５を有する。リモートサーバ７０４は、リモートデータベース７３０を有する。パブリッククラウド７０５は、ゲートウェイ７４０、クラウドオーケストレーションモジュール７４１、ホスト物理機械セット７４２、仮想機械セット７４３、及びコンテナセット７４４を有する。

【0051】

コンピュータ７０１は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、スマートウォッチ又は他のウェアラブルコンピュータ、メインフレームコンピュータ、量子コンピュータ、又は、プログラムを実行すること、ネットワークにアクセスすること、又はリモートデータベース７３０等のデータベースにクエリすることが可能である、現在既知であるか又は将来開発されることになる他の任意の形式のコンピュータ又はモバイルデバイスの形式を取ってよい。コンピュータ技術の技術分野においてよく理解されているように、また技術に依存して、コンピュータ実装方法の性能は、複数のコンピュータの中で、及び／又は複数のロケーション間で分散させてよい。他方、コンピューティング環境７００のこの提示では、詳細な論述は、提示を可能な限り単純に保つために、単一のコンピュータ、具体的にはコンピュータ７０１に対して焦点が当てられている。コンピュータ７０１は、図７におけるクラウドには示されていないが、クラウドに位置してよい。他方、コンピュータ７０１は、積極的に示され得るいずれかの範囲を除いて、クラウドにあることは必要とされない。

【0052】

プロセッサセット７１０は、現在既知であるか又は将来開発されることになる任意のタイプの１つ又は複数のコンピュータプロセッサを含む。処理回路７２０は、複数のパッケージ、例えば、複数の協調的な集積回路チップにわたって分散してよい。処理回路７２０は、複数のプロセッサスレッド及び／又は複数のプロセッサコアを実装してよい。キャッシュ７２１は、プロセッサチップパッケージに位置し、かつ典型的には、プロセッサセット７１０上で実行されるスレッド又はコアによる迅速なアクセスのために利用可能であるべきであるデータ又はコードのために使用されるメモリである。キャッシュメモリは、典型的には、処理回路に対する相対的近接性に依存して複数のレベルに編成される。代替的には、プロセッサセットのためのキャッシュの一部又は全ては、「オフチップ（ｏｆｆｃｈｉｐ：チップ外）」に位置してよい。幾つかのコンピューティング環境では、プロセッサセット７１０は、キュビットを用いて機能し、かつ量子コンピューティングを実行するために設計されてよい。

【0053】

コンピュータ可読プログラム命令は、典型的には、コンピュータ７０１のプロセッサセット７１０によって一連の動作段階を実行し、それによって、コンピュータ実装方法をもたらすためにコンピュータ７０１上にロードされ、それにより、このように実行される命令は、本文書に含まれるコンピュータ実装方法（「本発明の方法」と総称される）のフローチャート及び／又は文章による説明において指定される方法をインスタンス化することになる。これらのコンピュータ可読プログラム命令は、キャッシュ７２１及び以下で論述される他の記憶媒体等の、様々なタイプのコンピュータ可読記憶媒体に記憶される。プログラム命令、及び関連付けられたデータは、本発明の方法の実行を制御及び命令するためにプロセッサセット７１０によってアクセスされる。コンピューティング環境７００では、本発明の方法を実行する命令のうちの少なくとも幾つかは、永続ストレージ７１３内のブロック２００に記憶されてよい。

【0054】

通信ファブリック７１１は、コンピュータ７０１の様々なコンポーネントが互いに通信することを可能にする信号導通経路である。典型的には、このファブリックは、バス、ブリッジ、物理入力／出力ポート等を構成するスイッチ及び導電経路等の、スイッチ及び導電経路から作製される。光ファイバ通信経路及び／又は無線通信経路等の他のタイプの信号通信経路が使用されてよい。

【0055】

揮発性メモリ７１２は、現在既知であるか又は将来開発されることになる任意のタイプの揮発性メモリである。例としては、ダイナミックタイプランダムアクセスメモリ（ＲＡＭ）又はスタティックタイプＲＡＭが挙げられる。典型的には、揮発性メモリは、ランダムアクセスによって特徴付けられるが、これは、積極的に示されない限り必要とされない。コンピュータ７０１では、揮発性メモリ７１２は、単一のパッケージに位置し、かつコンピュータ７０１の内部にあるが、代替的又は付加的に、揮発性メモリは、複数のパッケージにわたって分散し、及び／又はコンピュータ７０１に対して外部に位置してよい。

【0056】

永続ストレージ７１３は、現在既知であるか又は将来開発されることになる任意の形式のコンピュータ用不揮発性ストレージである。このストレージの不揮発性は、電力がコンピュータ７０１に及び／又は直接永続ストレージ７１３に供給されるか否かに関わらずに記憶されたデータが維持されることを意味する。永続ストレージ７１３は、リードオンリメモリ（ＲＯＭ）であってよいが、典型的には、永続ストレージの少なくとも一部は、データの書き込み、データの削除及びデータの書き換えを可能にする。永続ストレージの幾つかのよく知られている形式としては、磁気ディスク及びソリッドステート記憶デバイスが挙げられる。オペレーティングシステム７２２は、様々な既知の独自のオペレーティングシステム、又はカーネルを利用するオープンソースのポータブルオペレーティングシステムインターフェースタイプのオペレーティングシステム等の幾つかの形式を取ってよい。ブロック２００に含まれるコードは、典型的には、本発明の方法を実行することに関与するコンピュータコードのうちの少なくとも幾つかを含む。

【0057】

ペリフェラルデバイスセット７１４は、コンピュータ７０１のペリフェラルデバイスのセットを含む。ペリフェラルデバイス及びコンピュータ７０１の他のコンポーネントの間のデータ通信接続は、Ｂｌｕｅｔｏｏｔｈ（登録商標）接続、近接場通信（ＮＦＣ）接続、ケーブル（ユニバーサルシリアルバス（ＵＳＢ）タイプケーブル等）によって作成される接続、挿入タイプ接続（例えば、セキュアデジタル（ＳＤ）カード）、ローカルエリア通信ネットワークを通して作成される接続、及び更にインターネット等のワイドエリアネットワークを通して作成される接続等の様々な方法において実装されてよい。様々な実施形態において、ＵＩデバイスセット７２３は、ディスプレイスクリーン、スピーカ、マイクロフォン、ウェアラブルデバイス（ゴーグル及びスマートウォッチ等）、キーボード、マウス、プリンタ、タッチパッド、ゲームコントローラ、及び触覚デバイス等のコンポーネントを含んでよい。ストレージ７２４は、外部ハードドライブ等の外部ストレージ、又はＳＤカード等の挿入可能ストレージである。ストレージ７２４は、永続的及び／又は揮発性であってよい。幾つかの実施形態では、ストレージ７２４は、キュビットの形式でデータを記憶する量子コンピューティング記憶デバイスの形式を取ってよい。コンピュータ７０１が大量のストレージを有することが必要とされる（例えば、コンピュータ７０１が大規模データベースをローカルに記憶するとともに管理する）実施形態では、このストレージは、複数の地理的に分散したコンピュータによって共有されるストレージエリアネットワーク（ＳＡＮ）等の非常に大量のデータを記憶するように設計されたペリフェラル記憶デバイスによって提供されてよい。ＩｏＴセンサセット７２５は、モノのインターネット応用において使用することができるセンサから構成される。例えば、１つのセンサは、サーモメータであってよく、かつ別のセンサは、モーション検出器であってよい。

【0058】

ネットワークモジュール７１５は、コンピュータ７０１がＷＡＮ７０２を通して他のコンピュータと通信することを可能にするコンピュータソフトウェア、ハードウェア、及びファームウェアの集合体である。ネットワークモジュール７１５は、モデム又はＷｉ－Ｆｉ（登録商標）信号送受信機等のハードウェア、通信ネットワーク送信のためにデータをパケット化及び／又はパケット化解除するソフトウェア、及び／又はインターネットを介してデータを通信するウェブブラウザソフトウェアを含んでよい。幾つかの実施形態では、ネットワークモジュール７１５のネットワーク制御機能及びネットワーク転送機能は、同じ物理ハードウェアデバイス上で実行される。他の実施形態（例えば、ソフトウェア定義ネットワーキング（ＳＤＮ）を利用する実施形態）では、ネットワークモジュール７１５の制御機能及び転送機能は、制御機能が幾つかの異なるネットワークハードウェアデバイスを管理するように、物理的に別個のデバイス上で実行される。本発明の方法を実行するコンピュータ可読プログラム命令は、典型的には、ネットワークアダプタカード又はネットワークモジュール７１５に含まれるネットワークインターフェースを通して外部コンピュータ又は外部記憶デバイスからコンピュータ７０１にダウンロードすることができる。

【0059】

ＷＡＮ７０２は、現在既知であるか又は将来開発されることになる、コンピュータデータを通信する任意の技術によって非ローカル距離にわたってコンピュータデータを通信することが可能である任意のワイドエリアネットワーク（例えば、インターネット）である。幾つかの実施形態では、ＷＡＮは、Ｗｉ－Ｆｉネットワーク等の、ローカルエリアに位置するデバイス間のデータを通信するように設計されたローカルエリアネットワーク（ＬＡＮ）に置き換えられ、及び／又はこれによって補足されてよい。ＷＡＮ及び／又はＬＡＮは、典型的には、銅送信ケーブル、光送信ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及びエッジサーバ等のコンピュータハードウェアを含む。

【0060】

エンドユーザデバイス（ＥＵＤ）７０３は、エンドユーザ（例えば、コンピュータ７０１を動作させる企業の顧客）によって使用及び制御される任意のコンピュータシステムであり、コンピュータ７０１に関連して上記で論述された形式のうちの任意のものを取ってよい。ＥＵＤ７０３は、典型的には、コンピュータ７０１の動作から有益かつ有用なデータを受信する。例えば、コンピュータ７０１がエンドユーザに推奨を提供するように設計されている仮説の事例では、この推奨は、典型的には、コンピュータ７０１のネットワークモジュール７１５からＷＡＮ７０２を通してＥＵＤ７０３に通信されることになる。このようにして、ＥＵＤ７０３は、エンドユーザに推奨を表示、又は別様に提示することができる。幾つかの実施形態では、ＥＵＤ７０３は、シンクライアント、ヘビークライアント、メインフレームコンピュータ、デスクトップコンピュータ等のようなクライアントデバイスであってよい。

【0061】

リモートサーバ７０４は、少なくとも幾つかのデータ及び／又は機能をコンピュータ７０１にサービングする任意のコンピュータシステムである。リモートサーバ７０４は、コンピュータ７０１を動作させる同じエンティティによって制御及び使用されてよい。リモートサーバ７０４は、コンピュータ７０１等の他のコンピュータによる使用のために有益かつ有用なデータを収集及び記憶する機械を表す。例えば、コンピュータ７０１が履歴データに基づいて推奨を提供するように設計及びプログラミングされている仮説の事例では、この履歴データは、リモートサーバ７０４のリモートデータベース７３０からコンピュータ７０１に提供されてよい。

【0062】

パブリッククラウド７０５は、ユーザによる直接のアクティブ管理を伴わずに、コンピュータシステムリソース及び／又は他のコンピュータ機能、特にデータストレージ（クラウドストレージ）及びコンピューティングパワーのオンデマンド可用性を提供する、複数のエンティティによる使用のために利用可能な任意のコンピュータシステムである。クラウドコンピューティングは、典型的には、コヒーレンス及び規模の経済性を達成するためにリソースの共有を活用する。パブリッククラウド７０５のコンピューティングリソースの直接かつアクティブな管理は、クラウドオーケストレーションモジュール７４１のコンピュータハードウェア及び／又はソフトウェアによって実行される。パブリッククラウド７０５によって提供されるコンピューティングリソースは、典型的には、ホスト物理機械セット７４２のコンピュータを構成する様々なコンピュータ上で実行される仮想コンピューティング環境によって実装され、ホスト物理機械セット７４２は、パブリッククラウド７０５における物理コンピュータのユニバースであり、及び／又はこれにとって利用可能である。仮想コンピューティング環境（ＶＣＥ）は、典型的には、仮想機械セット７４３からの仮想機械及び／又はコンテナセット７４４からのコンテナの形式を取る。これらのＶＣＥは、イメージとして記憶されてよく、イメージとして又はＶＣＥのインスタンス化後のいずれかで、様々な物理機械ホストの中及びこれらの間で転送されてよいことが理解される。クラウドオーケストレーションモジュール７４１は、イメージの転送及び記憶を管理し、ＶＣＥの新たなインスタンス化を展開し、ＶＣＥ展開のアクティブインスタンス化を管理する。ゲートウェイ７４０は、パブリッククラウド７０５がＷＡＮ７０２を通して通信することを可能にするコンピュータソフトウェア、ハードウェア、及びファームウェアの集合体である。

【0063】

仮想化コンピューティング環境（ＶＣＥ）の何らかの更なる探索がここで提供される。ＶＣＥは、「イメージ」として記憶することができる。ＶＣＥの新たなアクティブインスタンスは、イメージからインスタンス化することができる。ＶＣＥの２つのよく知られているタイプは、仮想機械及びコンテナである。コンテナは、オペレーティングシステムレベル仮想化を使用するＶＣＥである。これは、カーネルがコンテナと呼ばれる複数の隔離されたユーザ空間インスタンスの存在を可能にするオペレーティングシステム特徴を指す。これらの隔離されたユーザ空間インスタンスは、典型的には、それらにおいて実行されるプログラムの観点からは実際のコンピュータとして挙動する。通常のオペレーティングシステム上で実行されるコンピュータプログラムは、コネクテッドデバイス、ファイル及びフォルダ、ネットワーク共有、ＣＰＵパワー、及び定量化可能ハードウェア機能等の、そのコンピュータの全てのリソースを利用することができる。しかしながら、コンテナ内部で実行されるプログラムは、コンテナ及び当該コンテナに割り当てられたデバイスのコンテンツのみを使用し、これは、コンテナ化として知られる特徴である。

【0064】

プライベートクラウド７０６は、コンピューティングリソースが単一の企業による使用のためにのみ利用可能であることを除いて、パブリッククラウド７０５と同様である。プライベートクラウド７０６はＷＡＮ７０２と通信しているものとして示されているが、他の実施形態では、プライベートクラウドは、インターネットから完全に切断され、ローカル／プライベートネットワークを通してのみアクセス可能であってよい。ハイブリッドクラウドは、多くの場合に異なるベンダによってそれぞれ実装される、異なるタイプ（例えば、プライベート、コミュニティ又はパブリッククラウドタイプ）の複数のクラウドの複合体である。複数のクラウドの各々は、別個かつ離散的なエンティティを維持するが、より大きいハイブリッドクラウドアーキテクチャが、複数の構成要素のクラウド間のオーケストレーション、管理、及び／又はデータ／アプリケーションポータビリティを可能にする標準化された又は独自の技術によってともに結び付けられる。この実施形態では、パブリッククラウド７０５及びプライベートクラウド７０６は両方とも、より大きいハイブリッドクラウドの一部である。

【0065】

ここで図８を参照すると、事前トレーニングされたＳＴＴシステムのエンコーダからの符号化済みオーディオを使用してＬＩＤ分類器をトレーニングすることができる例示の有形の非一時的コンピュータ可読媒体８００のブロック図が示されている。有形の非一時的コンピュータ可読媒体８００は、コンピュータ相互接続８０４を介してプロセッサ８０２によってアクセスされてよい。さらに、有形の非一時的コンピュータ可読媒体８００は、プロセッサ８０２に、図４～図６の方法４００～６００の動作を実行するように命令するコードを含んでよい。

【0066】

本明細書において論述された様々なソフトウェアコンポーネントは、図８において示されたように、有形の非一時的コンピュータ可読媒体８００上に記憶されてよい。例えば、受信機モジュール８０６は、事前トレーニングされた音声対テキスト（ＳＴＴ）モデルのエンコーダから符号化済みオーディオを受信するコードを含む。受信機モジュール８０６は、テキストに変換されることになるオーディオサンプルを受信するコードも含む。言語識別（ＬＩＤ）分類器トレーニングモジュール８０８は、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するための言語識別（ＬＩＤ）分類器をトレーニングするコードを含む。推論モジュール８１０は、オーディオサンプルを符号化して、第２の符号化済みオーディオにするコードを含む。幾つかの例では、推論モジュール８１０は、トレーニングされたＬＩＤ分類器を介して第２の符号化済みオーディオを分類するコードも含む。例えば、推論モジュール８１０は、プーリングされた重み付き平均の線形射影にソフトマックス関数を適用し、最高小数確率を有する言語クラスに基づいて第２の符号化済みオーディオを分類するコードも含んでよい。推論モジュール８１０は、符号化済みオーディオがターゲット言語として分類されないことを検出することに応答して、オーディオサンプルの処理を停止するコードも含んでよい。様々な例において、推論モジュール８１０は、第２の符号化済みオーディオがターゲット言語として分類されることを検出することに応答して、第２の符号化済みオーディオ、及び事前トレーニングされたＳＴＴモデルの予測器からの予測に基づいて、ターゲット言語のテキストを生成するコードも含む。幾つかの例では、推論モジュール８１０は、分類に基づいて、異なる言語に対して専用の複数の予測器のうちの１つの専用予測器に第２の符号化済みオーディオを送信するコードも更に含む。例えば、推論モジュール８１０は、専用予測器を介して符号化済みオーディオからテキストを生成するコードも含んでよい。

【0067】

本技法の様々な実施形態の説明が、例示の目的で提示されてきたが、網羅的であること、又は開示された実施形態に限定されることは意図されていない。説明された実施形態の範囲及び思想から逸脱することなく、多くの修正及び変形が、当業者には明らかであろう。本明細書において使用される専門用語は、実施形態の原理、実用的な用途又は市場において見られる技術に対する技術的改善を最適に説明するために、又は、本明細書において開示された実施形態を他の当業者が理解することを可能にするために選択された。

【図1】