IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特開2024-18989事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器
<>
  • 特開-事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器 図1
  • 特開-事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器 図2
  • 特開-事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器 図3
  • 特開-事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器 図4
  • 特開-事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器 図5
  • 特開-事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器 図6
  • 特開-事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器 図7
  • 特開-事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024018989
(43)【公開日】2024-02-08
(54)【発明の名称】事前トレーニングされた音声対テキストシステムのエンコーダからの符号化済みオーディオを使用してトレーニングされた言語識別分類器
(51)【国際特許分類】
   G10L 15/06 20130101AFI20240201BHJP
   G10L 15/16 20060101ALI20240201BHJP
   G10L 15/10 20060101ALI20240201BHJP
【FI】
G10L15/06 300Y
G10L15/16
G10L15/10 500Z
【審査請求】未請求
【請求項の数】20
【出願形態】OL
(21)【出願番号】P 2023104946
(22)【出願日】2023-06-27
(31)【優先権主張番号】17/874,899
(32)【優先日】2022-07-27
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】ツヴィ コンス
(57)【要約】
【課題】オーディオの音声からのより効率的かつ正確なテキストトランスクリプションを可能にする。
【解決手段】例示のシステムは、事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信するプロセッサを備える。プロセッサは、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するための言語識別(LID)分類器を更にトレーニングする。
【選択図】図1
【特許請求の範囲】
【請求項1】
事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信し;及び
言語によってラベル付けされたトレーニングサンプルを使用して前記符号化済みオーディオの言語を検出するための言語識別(LID)分類器をトレーニングする
プロセッサを備える、システム。
【請求項2】
前記エンコーダは、リカレントニューラルネットワークトランスデューサ(RNN-T)エンコーダを含む、請求項1に記載のシステム。
【請求項3】
前記エンコーダは、1つの言語に対して事前トレーニングされる、請求項1に記載のシステム。
【請求項4】
前記プロセッサは:
テキストに変換されることになるオーディオサンプルを受信し;
前記オーディオサンプルを符号化して、第2の符号化済みオーディオにし;
前記トレーニングされたLID分類器を介して前記第2の符号化済みオーディオを分類し;及び
前記第2の符号化済みオーディオがターゲット言語として分類されることを検出することに応答して、前記第2の符号化済みオーディオ、及び前記事前トレーニングされたSTTモデルの予測器からの予測に基づいて、前記ターゲット言語のテキストを生成する、
請求項1に記載のシステム。
【請求項5】
前記STTモデルは、異なる言語に対して専用の複数の予測器を備え、ここで、前記LID分類器は、テキストに変換されることになるオーディオサンプルに対応する第2の符号化済みオーディオを分類し、前記分類に基づいて、対応する専用予測器を選択する、請求項1に記載のシステム。
【請求項6】
前記STTモデルの前記エンコーダは、異なる言語のための前記複数の予測器を用いて事前トレーニングされる、請求項5に記載のシステム。
【請求項7】
前記符号化済みオーディオは、フレームレベル特徴ベクトルを含む、請求項1から6のいずれか一項に記載のシステム。
【請求項8】
プロセッサを介して、事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信する段階;及び
前記プロセッサを介して、言語によってラベル付けされたトレーニングサンプルを使用して前記符号化済みオーディオの言語を検出するための言語識別(LID)分類器をトレーニングする段階
を備える、コンピュータ実装方法。
【請求項9】
前記プロセッサを介して、テキストに変換されることになるオーディオサンプルを受信する段階;
前記プロセッサを介して、前記オーディオサンプルを符号化して、第2の符号化済みオーディオにする段階;及び
前記プロセッサを介して、前記トレーニングされたLID分類器を介して前記第2の符号化済みオーディオを分類する段階;
を備える、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記プロセッサを介して、前記第2の符号化済みオーディオがターゲット言語として分類されないことを検出することに応答して、前記オーディオサンプルの処理を停止する段階を備える、請求項9に記載のコンピュータ実装方法。
【請求項11】
前記プロセッサを介して、前記第2の符号化済みオーディオがターゲット言語として分類されることを検出することに応答して、前記第2の符号化済みオーディオ、及び前記事前トレーニングされたSTTモデルの予測器からの予測に基づいて、前記ターゲット言語のテキストを生成する段階を備える、請求項9に記載のコンピュータ実装方法。
【請求項12】
前記プロセッサを介して、テキストに変換されることになるオーディオサンプルを受信する段階;
前記プロセッサを介して、前記オーディオサンプルを符号化して、第2の符号化済みオーディオにする段階;
前記プロセッサを介して、前記トレーニングされたLID分類器を介して前記第2の符号化済みオーディオを分類する段階;及び
前記プロセッサを介して、前記分類に基づいて、異なる言語に対して専用の複数の予測器のうちの1つの専用予測器に前記第2の符号化済みオーディオを送信する段階
を備える、請求項8から11のいずれか一項に記載のコンピュータ実装方法。
【請求項13】
前記専用予測器を介して前記第2の符号化済みオーディオから前記テキストを生成する段階を備える、請求項12に記載のコンピュータ実装方法。
【請求項14】
前記第2の符号化済みオーディオを分類する段階は、プーリングされた重み付き平均の線形射影にソフトマックス関数を適用する段階、及び最高小数確率を有する言語クラスに基づいて前記第2の符号化済みオーディオを分類する段階を有する、請求項12に記載のコンピュータ実装方法。
【請求項15】
言語識別分類器をトレーニングするコンピュータプログラムであって、前記コンピュータプログラムは、プログラムコードを備え、前記プログラムコードは、プロセッサにより実行された場合、前記プロセッサに、
事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信する手順;及び
言語によってラベル付けされたトレーニングサンプルを使用して前記符号化済みオーディオの言語を検出するための言語識別(LID)分類器をトレーニングする手順
を行わせるために前記プロセッサによって実行可能である、コンピュータプログラム。
【請求項16】
前記プロセッサにより実行された場合、前記プロセッサに、
テキストに変換されることになるオーディオサンプルを受信する手順;
前記オーディオサンプルを符号化して、第2の符号化済みオーディオにする手順;及び
前記トレーニングされたLID分類器を介して前記第2の符号化済みオーディオを分類する手順
を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項15に記載のコンピュータプログラム。
【請求項17】
前記プロセッサにより実行された場合、前記プロセッサに、
前記符号化済みオーディオがターゲット言語として分類されないことを検出することに応答して、前記オーディオサンプルの処理を停止する手順を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項16に記載のコンピュータプログラム。
【請求項18】
前記プロセッサにより実行された場合、前記プロセッサに、
前記第2の符号化済みオーディオがターゲット言語として分類されることを検出することに応答して、前記第2の符号化済みオーディオ、及び前記事前トレーニングされたSTTモデルの予測器からの予測に基づいて、前記ターゲット言語のテキストを生成する手順を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項16に記載のコンピュータプログラム。
【請求項19】
前記プロセッサにより実行された場合、前記プロセッサに、
テキストに変換されることになるオーディオサンプルを受信する手順;
前記オーディオサンプルを符号化して、第2の符号化済みオーディオにする手順;
前記トレーニングされたLID分類器を介して前記第2の符号化済みオーディオを分類する手順;
前記分類に基づいて、異なる言語に対して専用の複数の予測器のうちの1つの専用予測器に前記第2の符号化済みオーディオを送信する手順;及び
前記専用予測器を介して前記符号化済みオーディオから前記テキストを生成する手順
を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項15から18のいずれか一項に記載のコンピュータプログラム。
【請求項20】
前記プロセッサにより実行された場合、前記プロセッサに、
プーリングされた重み付き平均の線形射影にソフトマックス関数を適用し、最高小数確率を有する言語クラスに基づいて前記第2の符号化済みオーディオを分類する手順を行わせるために前記プロセッサによって実行可能なプログラムコードを更に備える、請求項19に記載のコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本技法は、言語識別分類に関する。より具体的には、本技法は、言語識別分類器をトレーニングすることに関する。
【背景技術】
【0002】
音声対テキスト(STT)を用いる幾つかの音声トランスクリプションシステムは、単一言語モデルを使用し、ここで、ユーザは、何らかの事前知識に基づいて適切な言語を選択する。しかしながら、時として、音声の言語は、事前に知られていない場合があるか、又は期待されたものとは異なる。これは、入力オーディオの言語及びSTTモジュールの間の不一致をもたらし、STTモジュールに、誤ったトランスクリプションを生成させるか、又はトランスクリプションを全く生成させない可能性がある。
【発明の概要】
【発明が解決しようとする課題】
【0003】
オーディオの音声からのより効率的かつ正確なテキストトランスクリプションを可能にする。
【課題を解決するための手段】
【0004】
本明細書において説明される実施形態によれば、システムは、事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信するプロセッサを含むことができる。プロセッサは、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するために言語識別(LID)分類器を更にトレーニングすることもできる。
【0005】
本明細書において説明される別の実施形態によれば、方法は、プロセッサを介して、事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信する段階を含むことができる。方法は、プロセッサを介して、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するために言語識別(LID)分類器をトレーニングする段階を更に含むことができる。
【0006】
本明細書において説明される別の実施形態によれば、言語識別分類器をトレーニングするコンピュータプログラム製品は、プログラムコードが具現化されたコンピュータ可読記憶媒体を含むことができる。コンピュータ可読記憶媒体は、一時的信号それ自体ではない。プログラムコードは、プロセッサに、事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信させるために当該プロセッサによって実行可能である。プログラムコードは、プロセッサに、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するために言語識別(LID)分類器をトレーニングさせることもできる。
【図面の簡単な説明】
【0007】
図1】事前トレーニングされた音声対テキスト(STT)システムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングする例示のシステムのブロック図である。
【0008】
図2】事前トレーニングされたSTTシステムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングする例示のシステムの詳細なブロック図である。
【0009】
図3】事前トレーニングされたSTTシステムのエンコーダからの符号化済みオーディオを使用して複数の言語を検出及び文字起こしするためにトレーニングされたLID分類器を備える例示の多言語STTシステムのブロック図である。
【0010】
図4】事前トレーニングされたSTTシステムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングすることができる例示の方法のプロセスフロー図である。
【0011】
図5】本明細書において説明される実施形態に従ってトレーニングされたLID分類器を使用してターゲット言語のオーディオからテキストを生成することができる例示の方法のプロセスフロー図である。
【0012】
図6】本明細書において説明される実施形態に従ってトレーニングされたLID分類器を使用して複数の言語のオーディオからテキストを生成することができる例示の方法のプロセスフロー図である。
【0013】
図7】事前トレーニングされたSTTシステムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングする等の本発明の方法を実行することに関与するコンピュータコードのうちの少なくとも幾つかの実行のための環境の一例を含む例示のコンピューティング環境のブロック図である。
【0014】
図8】事前トレーニングされたSTTシステムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングすることができる例示の有形の非一時的コンピュータ可読媒体である。
【発明を実施するための形態】
【0015】
音声対テキスト(STT)を用いる幾つかの音声トランスクリプションシステムは、単一言語モデルを使用し、ここで、ユーザは、何らかの事前知識に基づいて適切な言語を選択する。しかしながら、時として、音声の言語は、事前に知られていない場合があるか、又は期待されたものとは異なる。これは、入力オーディオの言語及びSTTモジュールの間の不一致をもたらし、STTモジュールに、誤ったトランスクリプションを生成させるか、又はトランスクリプションを全く生成させない可能性がある。その上、オーディオに対して言語分類ツールを適用して、音声の言語を識別し、その後対応するSTTモジュールを使用することは、過度に大きいレイテンシを生み出す可能性があり、これはなぜならば、LID分類器が言語を正しく識別するために数秒の音声を必要とする可能性があり、かつこの識別が完了するまでSTTモジュールが開始しない可能性があるためである。加えて、各モジュールが並列で異なる言語を有する複数のSTTモジュールを使用することは、はるかに多くの計算リソースを使用する可能性があり、これはなぜならば、幾つかのモデルが同時に実行される必要がある可能性があるためである。最終的に、一度に幾つかの言語に対してトレーニングされた多言語STTは、トレーニングするのが困難であり、かつ更なる処理リソースを必要とする可能性がある。その上、そのような多言語STTは,単一言語モデルほど正確ではない可能性がある。
【0016】
本開示の実施形態によれば、例示のシステムは、リカレントニューラルネットワークトランスデューサ(RNN-T)等の事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信することができるプロセッサを含む。プロセッサは、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するための言語識別(LID)分類器を更にトレーニングすることができる。それゆえ、本開示の実施形態は、オーディオの音声からのより効率的かつ正確なテキストトランスクリプションを可能にする。特に、本明細書において説明される技法を使用してトレーニングされたモデルを使用して、2009年10月にリリースされたNIST-LRE-07データセットについて現行技術水準の性能結果が実証され、このデータセットは、14個の言語についての66時間の従来的な電話音声セグメントを含む。例えば、10s条件について0.56%の等価エラー率(EER)が観測された。その上、これらの技法は、テキスト復号を待機することなく言語の迅速な識別を可能にし、かつ最小オーバヘッド及び最小レイテンシのみで識別を可能にする。これは、それらのSTTモデルに対して一切の変更を伴わずに、既存の自動化音声認識(ASR)システムに対するLID機能の追加を可能にする。幾つかの例では、LID分類器は、単一言語STTモジュールの一部として機能し、STTモジュールがトランスクリプションを開始する前に入力音声が期待される言語ではないことを指示するのに使用され得る。この指示は、STTモジュールが最小オーバヘッドで正しい言語のモデルに切り替えることを可能にし得る。幾つかの例では、LID分類器は、多言語モデルの一部として動作してよく、ここで、LID分類器は、正しい言語への復号を命令する。これらの例では、オーバヘッドも最小であり得、これはなぜならば、リソースの大部分がLID分類器及びSTTモジュールの間で共有されるためである。
【0017】
ここで図1を参照すると、ブロック図は、事前トレーニングされたSTTシステムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングする例示のシステムを示している。図1の例示のシステム100は、音声対テキスト(STT)システム102を備える。例えば、STTシステム102は、1つの言語の音声に対して事前トレーニングされたリカレントニューラルネットワークトランスデューサ(RNN-T)であってよい。システム100は、STTシステム102に通信可能に結合された言語識別(LID)分類器104を備える。STTシステム102は、予測器106、エンコーダ108及びジョイント110ネットワークを有する。例えば、これらの3つのネットワークは、特定の言語に対してトレーニング済みであってよい。1つの例として、言語は、アメリカ英語であってよい。様々な例において、エンコーダ108は、オーディオを、STTにとって有用なフレームレベル埋め込み特徴に変換する音響エンコーダであってよい。例えば、エンコーダ108は、ラベル付けされたオーディオ録音に対して教師あり学習の方式でトレーニング済みであってよい。様々な例において、エンコーダ108は、長短期記憶(LSTM)層又はコンフォーマエンコーダネットワークから作製されてよい。STTシステム102は、ジョイントモジュール110の出力から生成されるものとして示されているテキスト112も有する。LID分類器104は、検出された言語116を生成するものとして示されているLIDモジュール114を有する。STTシステム102は、オーディオ118を受信するものとして示されている。例えば、オーディオ118は、テキスト112に変換されることになる特定の言語の音声を含んでよい。
【0018】
図1の例では、LID分類器104のトレーニング中、エンコーダ108は、オーディオ118を受信し、オーディオ118を特徴のセットに変換してよい。例えば、オーディオ118は、様々な言語からのオーディオサンプルのペアを含むラベル付けされたトレーニングセットの一部であってよく、ラベルは、オーディオサンプルのうちの各々のオーディオサンプルの言語を示す。1つの例として、トレーニングセットは、NIST-LRE-07データセットであってよい。様々な例において、生成された特徴は、フレームレベル特徴ベクトルであってよい。LID分類器104のLID114は、特徴を受信し、検出された言語116を出力してよい。トレーニングにおいて、言語116は、その後、LID114をトレーニングするために、受信されたオーディオ118に対応するラベルと比較されてよい。例えば、LID114の1つ又は複数の重みは、比較の結果に基づいて調整されてよい。様々な例において、LID114の1つ又は複数の重みを調整するために、その後、バックプロパゲーションが使用されてよい。例えば、図2の例示のLID分類器104においてより詳細に説明されるLID114の層のうちのいずれかに関連付けられた1つ又は複数の重みが調整されてよい。
【0019】
さらに図1を参照すると、推論ステージにおいて、受信されたオーディオ118は、テキスト112に変換されることになる未知の言語のオーディオであってよい。エンコーダ108は、同様に、オーディオ118を、特徴のセットに変換し、当該特徴をLID分類器104に送信してよい。LID分類器104の結果に基づいて、STTシステム102は、その後、エンコーダ108からの特徴のセットの処理を継続すべきか否かを判断してよい。例えば、STTシステム102は、検出された言語116がそのターゲットと異なることを検出することに応答して、テキスト112の生成をキャンセルしてよい。
【0020】
図1のブロック図は、システム100が図1において示されたコンポーネントの全てを含むべきであることを示すことを意図していないことを理解されたい。むしろ、システム100は、より少数のコンポーネント、又は、図1において示されていない追加のコンポーネント(例えば、追加のオーディオサンプル、又は追加の予測器、エンコーダ、分類器、言語等)を含むことができる。
【0021】
図2は、事前トレーニングされたSTTシステムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングする例示のシステムの詳細なブロック図である。図2の例示のシステム200は、LID分類器104に通信可能に結合されたRNN-Tエンコーダ108を備える。LID分類器104は、双方向長短期記憶(Bi-LSTM)層202を含む。LID分類器104は、乗算器208において乗算される重み204及び線形射影206を含む。LID分類器104は、平均プーリング層210も含む。例えば、平均プーリング層210は、マルチヘッド重み付き平均プーリング層であってよい。LID分類器104は、線形射影212及びソフトマックス関数214も更に含む。RNN-Tエンコーダ108は、オーディオ216を受信するものとして示されている。LID分類器104は、分類218を出力するものとして示されている。
【0022】
図2の例では、平均プーリング層210は、マルチヘッド重み付き平均プーリング層であってよい。例えば、平均プーリング層210は、以下の式によって定義されてよい:
【数1】
【数2】
ここで、wは、フレームについての重みベクトルであり、xは、時刻tにおけるLSTM出力ベクトルであり、
【数3】

【数4】
、及び
【数5】
は、線形射影であり、σ()は、ログシグモイド関数であり、yは、プーリングされた重み付き平均である。
【0023】
さらに図2を参照すると、言語ごとの最終確率は、線形射影212及びソフトマックス関数214を使用してプーリングされた重み付き平均yから計算されてよい。ソフトマックス関数214は、実数のベクトルを受信し、n個の実数を、n個の可能な結果の確率分布に変換してよい。例えば、ソフトマックス関数214は、数nの言語クラスのうちの各クラスに確率を割り当ててよい。全ての言語クラスの確率は、合計すると1.0になり得る。様々な例において、出力分類218は、最高小数確率を有するクラスであってよい。
【0024】
図2のブロック図は、システム200が図2において示されたコンポーネントの全てを含むべきであることを示すことを意図していないことを理解されたい。むしろ、システム200は、より少数のコンポーネント、又は、図2において示されていない追加のコンポーネント(例えば、追加のオーディオサンプル、又は追加のクラス、層、分類等)を含むことができる。
【0025】
図3は、そのエンコーダからの符号化済みオーディオを使用して複数の言語を検出及び文字起こしするためにトレーニングされたLID分類器を備える例示の多言語RNN-T STTシステム300のブロック図である。図3の例示のシステム300は、エンコーダ302を備える。システム300は、エンコーダ302に通信可能に結合されたLID分類器304を備える。例えば、LID分類器304は、図2の例示のLID分類器104であってよい。システム300は、それぞれ英語、フランス語、スペイン語、及び中国語といった言語に関連付けられるとともに、LID分類器304に通信可能に結合された予測器306A、306B、306C、及び306Dのセットも備える。システム300は、エンコーダ302、及び予測器306A、306B、306C、及び306Dに通信可能に結合されたジョイントモジュール308を更に備える。STTシステム300は、テキスト310を生成するものとして示されている。例えば、テキスト310は、受信されたオーディオ312の音声に対応してよい。
【0026】
図3の例では、LID分類器304は、エンコーダ302からの符号化済みオーディオを、英語、フランス語、スペイン語、又は中国語を含む幾つかの言語のうちの1つに分類するようにトレーニングされている。様々な例において、任意の追加の言語が含まれてもよいし、又はこれらの言語のうちのいずれかが排除されてもよい。それゆえ、推論ステージにおいて、LID分類器304は、符号化済みオーディオを、最高確率を有する分類に対応する言語モデルに向けてよい。例えば、LID分類器304は、テキストに変換されることになるオーディオサンプルに対応する第2の符号化済みオーディオを分類し、その後、分類に基づいて予測器306A、306B、306C、306Dのうちの対応する専用予測器を選択することができる。例えば、LID分類器304は、符号化された符号化済みオーディオを、LID分類器304に対してトレーニングされた様々な言語クラスの中の最高小数確率に対応する言語モデルに向けてよい。
【0027】
さらに図3を参照すると、ジョイントモジュール308は、検出された言語に対応する予測器306A~306Dのうちの1つからの予測を受信し、当該予測、及びエンコーダ302からの符号化済みオーディオに基づいて、テキスト310を生成してよい。このようにして、複数の言語のオーディオが、同じシステム300を使用して処理されてよい。
【0028】
図3のブロック図は、システム300が図3において示されたコンポーネントの全てを含むべきであることを示すことを意図されていないことを理解されたい。むしろ、システム300は、より少数のコンポーネント、又は、図3において示されていない追加のコンポーネント(例えば、追加の言語、予測器、又は追加のオーディオサンプル、生成されたテキスト等)を含むことができる。例えば、異なるスペリング及び異なる発音に起因した言語の変異形のために、異なる予測器も使用されてよい。例えば、英語予測器306Aは、各々異なる英語のスペリング及び発音に対してトレーニングされたアメリカ英語予測器及びイギリス英語予測器に置き換えられてよい。
【0029】
図4は、事前トレーニングされたRNN-TベースのSTTシステムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングすることができる例示の方法のプロセスフロー図である。方法400は、図3のコンピューティングデバイス300等の任意の適したコンピューティングデバイスを用いて実装することでき、図1のシステム100を参照して説明される。例えば、以下で説明される方法は、図7及び図8のプロセッサセット710又はプロセッサ802によって実装することができる。
【0030】
ブロック402において、プロセッサは、事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信する。例えば、エンコーダは、事前トレーニングされたRNN-Tであってよい。様々な例において、エンコーダは、1つの言語に対して事前トレーニングされてよい。
【0031】
ブロック404において、プロセッサは、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するための言語識別(LID)分類器をトレーニングする。例えば、LID分類器は、対応する言語ラベルを有する符号化済みオーディオサンプルのペアを受信してよい。
【0032】
図4のプロセスフロー図は、方法400の動作が任意の特定の順序において実行されることになること、又は方法400の動作の全てが全ての場合に含まれることになることを示すことを意図されていない。加えて、方法400は、任意の適した数の追加の動作を含むことができる。
【0033】
図5は、本明細書において説明される実施形態に従ってトレーニングされたLID分類器を使用してターゲット言語のオーディオからテキストを生成することができる例示の方法のプロセスフロー図である。方法500は、図3のコンピューティングデバイス300等の任意の適したコンピューティングデバイスを用いて実装することでき、図1のシステム100を参照して説明される。
【0034】
ブロック502において、プロセッサは、テキストに変換されることになるオーディオサンプルを受信する。例えば、オーディオサンプルは、アメリカ英語の音声のサンプルであってよい。
【0035】
ブロック504において、プロセッサは、オーディオサンプルを符号化して符号化済みオーディオにする。例えば、符号化済みオーディオは、フレームレベル特徴ベクトルを含んでよい。
【0036】
ブロック506において、プロセッサは、トレーニングされたLID分類器を介して第2の符号化済みオーディオを分類する。幾つかの例では、プロセッサは、プーリングされた重み付き平均の線形射影にソフトマックス関数を適用すること、及び最高小数確率を有する言語クラスに基づいて第2の符号化済みオーディオを分類することによって、第2の符号化済みオーディオを分類してよい。例えば、LID分類器は、図4の方法400を使用してトレーニング済みであってよい。
【0037】
判定ダイヤモンド508において、プロセッサは、符号化済みオーディオがターゲット言語として分類されるか否かを判定する。符号化済みオーディオがターゲット言語として分類されないことをプロセッサが検出する場合、方法は、ブロック510において継続してよい。符号化済みオーディオがターゲット言語として分類されることをプロセッサが検出する場合、方法は、ブロック512において継続してよい。
【0038】
ブロック510において、プロセッサは、オーディオサンプルの処理を停止する。例えば、オーディオサンプルは、サポートされていない言語であり、したがって、テキストに変換されることが可能ではない可能性がある。
【0039】
ブロック512において、プロセッサは、符号化済みオーディオに基づいてテキストを生成する。例えば、プロセッサは、ブロック504において計算された符号化済み特徴を使用してオーディオサンプルのトランスクリプションを継続してよい。
【0040】
図5のプロセスフロー図は、方法500の動作が任意の特定の順序において実行されることになること、又は方法500の動作の全てが全ての場合に含まれることになることを示すことを意図されていない。加えて、方法500は、任意の適した数の追加の動作を含むことができる。
【0041】
図6は、本明細書において説明される実施形態に従ってトレーニングされたLID分類器を使用して複数の言語のオーディオからテキストを生成することができる例示の方法のプロセスフロー図である。方法600は、図3のコンピューティングデバイス300等の任意の適したコンピューティングデバイスを用いて実装することができ、図3のシステム300を参照して説明される。
【0042】
ブロック602において、プロセッサは、テキストに変換されることになるオーディオサンプルを受信する。例えば、オーディオサンプルは、アメリカ英語又はUS英語の音声を含んでよい。
【0043】
ブロック604において、プロセッサは、オーディオサンプルを符号化して符号化済みオーディオにする。例えば、符号化済みオーディオは、フレームレベル特徴ベクトルを含んでよい。
【0044】
ブロック606において、プロセッサは、トレーニングされたLID分類器を介して符号化済みオーディオを分類する。幾つかの例では、プロセッサは、プーリングされた重み付き平均の線形射影にソフトマックス関数を適用すること、及び最高小数確率を有する言語クラスに基づいて第2の符号化済みオーディオを分類することによって、第2の符号化済みオーディオを分類してよい。例えば、トレーニングされたLID分類器は、図4の方法400を使用してトレーニング済みであってよい。1つの例として、トレーニングされたLID分類器は、符号化済みオーディオをUS英語であるものとして分類してよい。
【0045】
ブロック608において、プロセッサは、分類に基づいて異なる言語に対して専用の複数の予測器のうちの1つの専用予測器を選択する。例えば、当該複数の予測器は、US英語の音声を有するオーディオのサンプルに対してトレーニングされたUS英語予測器を含んでよい。
【0046】
ブロック610において、プロセッサは、専用予測器を介して符号化済みオーディオからテキストを生成する。例えば、プロセッサは、US英語スペリングを使用してテキストを生成してよい。
【0047】
図6のプロセスフロー図は、方法600の動作が任意の特定の順序において実行されることになること、又は方法600の動作の全てが全ての場合に含まれることになることを示すことを意図されていない。加えて、方法600は、任意の適した数の追加の動作を含むことができる。
【0048】
本開示の様々な態様は、説明文、フローチャート、コンピュータシステムのブロック図、及び/又はコンピュータプログラム製品(CPP)実施形態に含まれる機械ロジックのブロック図によって説明される。任意のフローチャートに関して、関与する技術に依存して、所与のフローチャートにおいて示されているものと異なる順序において動作を実行することができる。例えば、ここでもやはり関与する技術に依存して、連続したフローチャートブロックにおいて示された2つの動作は、逆の順序において、単一の統合された段階として、同時に、又は少なくとも部分的に時間的に重複して、実行されてよい。
【0049】
コンピュータプログラム製品実施形態(「CPP実施形態」又は「CPP」)は、本開示において、所与のCPPの請求項において指定されたコンピュータ動作を実行する命令及び/又はデータに対応する機械可読コードを集合的に含む1つ又は複数の記憶デバイスのセットに集合的に含まれる1つの、又は複数の、記憶媒体(「媒体」とも呼ばれる)の任意のセットを説明するために使用される用語である。「記憶デバイス」は、コンピュータプロセッサによる使用のための命令を保持及び記憶することができる任意の有形デバイスである。限定することなく、コンピュータ可読記憶媒体は、電子記憶媒体、磁気記憶媒体、光学記憶媒体、電磁記憶媒体、半導体記憶媒体、機械的記憶媒体、又は前述の任意の適した組み合わせであってよい。これらの媒体を含む記憶デバイスの幾つかの既知のタイプとしては:ディスケット、ハードディスク、ランダムアクセスメモリ(RAM)、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM)、コンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、機械的に符号化されたデバイス(パンチカード又はディスクの主要面において形成されたピット/ランド等)又は前述の任意の適した組み合わせが挙げられる。コンピュータ可読記憶媒体は、その用語が本開示において使用される場合、電波又は他の自由に伝播する電磁波、導波路を通して伝播する電磁波、光ファイバケーブルを通過する光パルス、ワイヤを通して通信される電気信号、及び/又は他の送信媒体等の一時的信号それ自体の形式でのストレージとしては解釈されるべきではない。当業者によって理解されるように、データは、典型的には、アクセス、でフラグメンテーション又はガベージコレクション等の記憶デバイスの通常動作中の幾つかの時折の時点において移動されるが、これは、記憶デバイスを一時的なものにせず、これはなぜならば、データは、それが記憶されている間は一時的ではないためである。
【0050】
コンピューティング環境700は、言語識別分類器トレーナ100等の、本発明の方法を実行することに関与するコンピュータコードのうちの少なくとも一部の実行のための環境の一例を含む。ブロック100に加えて、コンピューティング環境700は、例えば、コンピュータ701、ワイドエリアネットワーク(WAN)702、エンドユーザデバイス(EUD)703、リモートサーバ704、パブリッククラウド705、及びプライベートクラウド706を備える。この実施形態では、コンピュータ701は、プロセッサセット710(処理回路720及びキャッシュ721を含む)、通信ファブリック711、揮発性メモリ712、永続ストレージ713(上記で識別されたように、オペレーティングシステム722及びブロック100を含む)、ペリフェラルデバイスセット714(ユーザインターフェース(UI)、デバイスセット723、ストレージ724、及びモノのインターネット(IoT)センサセット725を含む)、及びネットワークモジュール715を有する。リモートサーバ704は、リモートデータベース730を有する。パブリッククラウド705は、ゲートウェイ740、クラウドオーケストレーションモジュール741、ホスト物理機械セット742、仮想機械セット743、及びコンテナセット744を有する。
【0051】
コンピュータ701は、デスクトップコンピュータ、ラップトップコンピュータ、タブレットコンピュータ、スマートフォン、スマートウォッチ又は他のウェアラブルコンピュータ、メインフレームコンピュータ、量子コンピュータ、又は、プログラムを実行すること、ネットワークにアクセスすること、又はリモートデータベース730等のデータベースにクエリすることが可能である、現在既知であるか又は将来開発されることになる他の任意の形式のコンピュータ又はモバイルデバイスの形式を取ってよい。コンピュータ技術の技術分野においてよく理解されているように、また技術に依存して、コンピュータ実装方法の性能は、複数のコンピュータの中で、及び/又は複数のロケーション間で分散させてよい。他方、コンピューティング環境700のこの提示では、詳細な論述は、提示を可能な限り単純に保つために、単一のコンピュータ、具体的にはコンピュータ701に対して焦点が当てられている。コンピュータ701は、図7におけるクラウドには示されていないが、クラウドに位置してよい。他方、コンピュータ701は、積極的に示され得るいずれかの範囲を除いて、クラウドにあることは必要とされない。
【0052】
プロセッサセット710は、現在既知であるか又は将来開発されることになる任意のタイプの1つ又は複数のコンピュータプロセッサを含む。処理回路720は、複数のパッケージ、例えば、複数の協調的な集積回路チップにわたって分散してよい。処理回路720は、複数のプロセッサスレッド及び/又は複数のプロセッサコアを実装してよい。キャッシュ721は、プロセッサチップパッケージに位置し、かつ典型的には、プロセッサセット710上で実行されるスレッド又はコアによる迅速なアクセスのために利用可能であるべきであるデータ又はコードのために使用されるメモリである。キャッシュメモリは、典型的には、処理回路に対する相対的近接性に依存して複数のレベルに編成される。代替的には、プロセッサセットのためのキャッシュの一部又は全ては、「オフチップ(off chip:チップ外)」に位置してよい。幾つかのコンピューティング環境では、プロセッサセット710は、キュビットを用いて機能し、かつ量子コンピューティングを実行するために設計されてよい。
【0053】
コンピュータ可読プログラム命令は、典型的には、コンピュータ701のプロセッサセット710によって一連の動作段階を実行し、それによって、コンピュータ実装方法をもたらすためにコンピュータ701上にロードされ、それにより、このように実行される命令は、本文書に含まれるコンピュータ実装方法(「本発明の方法」と総称される)のフローチャート及び/又は文章による説明において指定される方法をインスタンス化することになる。これらのコンピュータ可読プログラム命令は、キャッシュ721及び以下で論述される他の記憶媒体等の、様々なタイプのコンピュータ可読記憶媒体に記憶される。プログラム命令、及び関連付けられたデータは、本発明の方法の実行を制御及び命令するためにプロセッサセット710によってアクセスされる。コンピューティング環境700では、本発明の方法を実行する命令のうちの少なくとも幾つかは、永続ストレージ713内のブロック200に記憶されてよい。
【0054】
通信ファブリック711は、コンピュータ701の様々なコンポーネントが互いに通信することを可能にする信号導通経路である。典型的には、このファブリックは、バス、ブリッジ、物理入力/出力ポート等を構成するスイッチ及び導電経路等の、スイッチ及び導電経路から作製される。光ファイバ通信経路及び/又は無線通信経路等の他のタイプの信号通信経路が使用されてよい。
【0055】
揮発性メモリ712は、現在既知であるか又は将来開発されることになる任意のタイプの揮発性メモリである。例としては、ダイナミックタイプランダムアクセスメモリ(RAM)又はスタティックタイプRAMが挙げられる。典型的には、揮発性メモリは、ランダムアクセスによって特徴付けられるが、これは、積極的に示されない限り必要とされない。コンピュータ701では、揮発性メモリ712は、単一のパッケージに位置し、かつコンピュータ701の内部にあるが、代替的又は付加的に、揮発性メモリは、複数のパッケージにわたって分散し、及び/又はコンピュータ701に対して外部に位置してよい。
【0056】
永続ストレージ713は、現在既知であるか又は将来開発されることになる任意の形式のコンピュータ用不揮発性ストレージである。このストレージの不揮発性は、電力がコンピュータ701に及び/又は直接永続ストレージ713に供給されるか否かに関わらずに記憶されたデータが維持されることを意味する。永続ストレージ713は、リードオンリメモリ(ROM)であってよいが、典型的には、永続ストレージの少なくとも一部は、データの書き込み、データの削除及びデータの書き換えを可能にする。永続ストレージの幾つかのよく知られている形式としては、磁気ディスク及びソリッドステート記憶デバイスが挙げられる。オペレーティングシステム722は、様々な既知の独自のオペレーティングシステム、又はカーネルを利用するオープンソースのポータブルオペレーティングシステムインターフェースタイプのオペレーティングシステム等の幾つかの形式を取ってよい。ブロック200に含まれるコードは、典型的には、本発明の方法を実行することに関与するコンピュータコードのうちの少なくとも幾つかを含む。
【0057】
ペリフェラルデバイスセット714は、コンピュータ701のペリフェラルデバイスのセットを含む。ペリフェラルデバイス及びコンピュータ701の他のコンポーネントの間のデータ通信接続は、Bluetooth(登録商標)接続、近接場通信(NFC)接続、ケーブル(ユニバーサルシリアルバス(USB)タイプケーブル等)によって作成される接続、挿入タイプ接続(例えば、セキュアデジタル(SD)カード)、ローカルエリア通信ネットワークを通して作成される接続、及び更にインターネット等のワイドエリアネットワークを通して作成される接続等の様々な方法において実装されてよい。様々な実施形態において、UIデバイスセット723は、ディスプレイスクリーン、スピーカ、マイクロフォン、ウェアラブルデバイス(ゴーグル及びスマートウォッチ等)、キーボード、マウス、プリンタ、タッチパッド、ゲームコントローラ、及び触覚デバイス等のコンポーネントを含んでよい。ストレージ724は、外部ハードドライブ等の外部ストレージ、又はSDカード等の挿入可能ストレージである。ストレージ724は、永続的及び/又は揮発性であってよい。幾つかの実施形態では、ストレージ724は、キュビットの形式でデータを記憶する量子コンピューティング記憶デバイスの形式を取ってよい。コンピュータ701が大量のストレージを有することが必要とされる(例えば、コンピュータ701が大規模データベースをローカルに記憶するとともに管理する)実施形態では、このストレージは、複数の地理的に分散したコンピュータによって共有されるストレージエリアネットワーク(SAN)等の非常に大量のデータを記憶するように設計されたペリフェラル記憶デバイスによって提供されてよい。IoTセンサセット725は、モノのインターネット応用において使用することができるセンサから構成される。例えば、1つのセンサは、サーモメータであってよく、かつ別のセンサは、モーション検出器であってよい。
【0058】
ネットワークモジュール715は、コンピュータ701がWAN702を通して他のコンピュータと通信することを可能にするコンピュータソフトウェア、ハードウェア、及びファームウェアの集合体である。ネットワークモジュール715は、モデム又はWi-Fi(登録商標)信号送受信機等のハードウェア、通信ネットワーク送信のためにデータをパケット化及び/又はパケット化解除するソフトウェア、及び/又はインターネットを介してデータを通信するウェブブラウザソフトウェアを含んでよい。幾つかの実施形態では、ネットワークモジュール715のネットワーク制御機能及びネットワーク転送機能は、同じ物理ハードウェアデバイス上で実行される。他の実施形態(例えば、ソフトウェア定義ネットワーキング(SDN)を利用する実施形態)では、ネットワークモジュール715の制御機能及び転送機能は、制御機能が幾つかの異なるネットワークハードウェアデバイスを管理するように、物理的に別個のデバイス上で実行される。本発明の方法を実行するコンピュータ可読プログラム命令は、典型的には、ネットワークアダプタカード又はネットワークモジュール715に含まれるネットワークインターフェースを通して外部コンピュータ又は外部記憶デバイスからコンピュータ701にダウンロードすることができる。
【0059】
WAN702は、現在既知であるか又は将来開発されることになる、コンピュータデータを通信する任意の技術によって非ローカル距離にわたってコンピュータデータを通信することが可能である任意のワイドエリアネットワーク(例えば、インターネット)である。幾つかの実施形態では、WANは、Wi-Fiネットワーク等の、ローカルエリアに位置するデバイス間のデータを通信するように設計されたローカルエリアネットワーク(LAN)に置き換えられ、及び/又はこれによって補足されてよい。WAN及び/又はLANは、典型的には、銅送信ケーブル、光送信ファイバ、無線送信、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及びエッジサーバ等のコンピュータハードウェアを含む。
【0060】
エンドユーザデバイス(EUD)703は、エンドユーザ(例えば、コンピュータ701を動作させる企業の顧客)によって使用及び制御される任意のコンピュータシステムであり、コンピュータ701に関連して上記で論述された形式のうちの任意のものを取ってよい。EUD703は、典型的には、コンピュータ701の動作から有益かつ有用なデータを受信する。例えば、コンピュータ701がエンドユーザに推奨を提供するように設計されている仮説の事例では、この推奨は、典型的には、コンピュータ701のネットワークモジュール715からWAN702を通してEUD703に通信されることになる。このようにして、EUD703は、エンドユーザに推奨を表示、又は別様に提示することができる。幾つかの実施形態では、EUD703は、シンクライアント、ヘビークライアント、メインフレームコンピュータ、デスクトップコンピュータ等のようなクライアントデバイスであってよい。
【0061】
リモートサーバ704は、少なくとも幾つかのデータ及び/又は機能をコンピュータ701にサービングする任意のコンピュータシステムである。リモートサーバ704は、コンピュータ701を動作させる同じエンティティによって制御及び使用されてよい。リモートサーバ704は、コンピュータ701等の他のコンピュータによる使用のために有益かつ有用なデータを収集及び記憶する機械を表す。例えば、コンピュータ701が履歴データに基づいて推奨を提供するように設計及びプログラミングされている仮説の事例では、この履歴データは、リモートサーバ704のリモートデータベース730からコンピュータ701に提供されてよい。
【0062】
パブリッククラウド705は、ユーザによる直接のアクティブ管理を伴わずに、コンピュータシステムリソース及び/又は他のコンピュータ機能、特にデータストレージ(クラウドストレージ)及びコンピューティングパワーのオンデマンド可用性を提供する、複数のエンティティによる使用のために利用可能な任意のコンピュータシステムである。クラウドコンピューティングは、典型的には、コヒーレンス及び規模の経済性を達成するためにリソースの共有を活用する。パブリッククラウド705のコンピューティングリソースの直接かつアクティブな管理は、クラウドオーケストレーションモジュール741のコンピュータハードウェア及び/又はソフトウェアによって実行される。パブリッククラウド705によって提供されるコンピューティングリソースは、典型的には、ホスト物理機械セット742のコンピュータを構成する様々なコンピュータ上で実行される仮想コンピューティング環境によって実装され、ホスト物理機械セット742は、パブリッククラウド705における物理コンピュータのユニバースであり、及び/又はこれにとって利用可能である。仮想コンピューティング環境(VCE)は、典型的には、仮想機械セット743からの仮想機械及び/又はコンテナセット744からのコンテナの形式を取る。これらのVCEは、イメージとして記憶されてよく、イメージとして又はVCEのインスタンス化後のいずれかで、様々な物理機械ホストの中及びこれらの間で転送されてよいことが理解される。クラウドオーケストレーションモジュール741は、イメージの転送及び記憶を管理し、VCEの新たなインスタンス化を展開し、VCE展開のアクティブインスタンス化を管理する。ゲートウェイ740は、パブリッククラウド705がWAN702を通して通信することを可能にするコンピュータソフトウェア、ハードウェア、及びファームウェアの集合体である。
【0063】
仮想化コンピューティング環境(VCE)の何らかの更なる探索がここで提供される。VCEは、「イメージ」として記憶することができる。VCEの新たなアクティブインスタンスは、イメージからインスタンス化することができる。VCEの2つのよく知られているタイプは、仮想機械及びコンテナである。コンテナは、オペレーティングシステムレベル仮想化を使用するVCEである。これは、カーネルがコンテナと呼ばれる複数の隔離されたユーザ空間インスタンスの存在を可能にするオペレーティングシステム特徴を指す。これらの隔離されたユーザ空間インスタンスは、典型的には、それらにおいて実行されるプログラムの観点からは実際のコンピュータとして挙動する。通常のオペレーティングシステム上で実行されるコンピュータプログラムは、コネクテッドデバイス、ファイル及びフォルダ、ネットワーク共有、CPUパワー、及び定量化可能ハードウェア機能等の、そのコンピュータの全てのリソースを利用することができる。しかしながら、コンテナ内部で実行されるプログラムは、コンテナ及び当該コンテナに割り当てられたデバイスのコンテンツのみを使用し、これは、コンテナ化として知られる特徴である。
【0064】
プライベートクラウド706は、コンピューティングリソースが単一の企業による使用のためにのみ利用可能であることを除いて、パブリッククラウド705と同様である。プライベートクラウド706はWAN702と通信しているものとして示されているが、他の実施形態では、プライベートクラウドは、インターネットから完全に切断され、ローカル/プライベートネットワークを通してのみアクセス可能であってよい。ハイブリッドクラウドは、多くの場合に異なるベンダによってそれぞれ実装される、異なるタイプ(例えば、プライベート、コミュニティ又はパブリッククラウドタイプ)の複数のクラウドの複合体である。複数のクラウドの各々は、別個かつ離散的なエンティティを維持するが、より大きいハイブリッドクラウドアーキテクチャが、複数の構成要素のクラウド間のオーケストレーション、管理、及び/又はデータ/アプリケーションポータビリティを可能にする標準化された又は独自の技術によってともに結び付けられる。この実施形態では、パブリッククラウド705及びプライベートクラウド706は両方とも、より大きいハイブリッドクラウドの一部である。
【0065】
ここで図8を参照すると、事前トレーニングされたSTTシステムのエンコーダからの符号化済みオーディオを使用してLID分類器をトレーニングすることができる例示の有形の非一時的コンピュータ可読媒体800のブロック図が示されている。有形の非一時的コンピュータ可読媒体800は、コンピュータ相互接続804を介してプロセッサ802によってアクセスされてよい。さらに、有形の非一時的コンピュータ可読媒体800は、プロセッサ802に、図4図6の方法400~600の動作を実行するように命令するコードを含んでよい。
【0066】
本明細書において論述された様々なソフトウェアコンポーネントは、図8において示されたように、有形の非一時的コンピュータ可読媒体800上に記憶されてよい。例えば、受信機モジュール806は、事前トレーニングされた音声対テキスト(STT)モデルのエンコーダから符号化済みオーディオを受信するコードを含む。受信機モジュール806は、テキストに変換されることになるオーディオサンプルを受信するコードも含む。言語識別(LID)分類器トレーニングモジュール808は、言語によってラベル付けされたトレーニングサンプルを使用して符号化済みオーディオの言語を検出するための言語識別(LID)分類器をトレーニングするコードを含む。推論モジュール810は、オーディオサンプルを符号化して、第2の符号化済みオーディオにするコードを含む。幾つかの例では、推論モジュール810は、トレーニングされたLID分類器を介して第2の符号化済みオーディオを分類するコードも含む。例えば、推論モジュール810は、プーリングされた重み付き平均の線形射影にソフトマックス関数を適用し、最高小数確率を有する言語クラスに基づいて第2の符号化済みオーディオを分類するコードも含んでよい。推論モジュール810は、符号化済みオーディオがターゲット言語として分類されないことを検出することに応答して、オーディオサンプルの処理を停止するコードも含んでよい。様々な例において、推論モジュール810は、第2の符号化済みオーディオがターゲット言語として分類されることを検出することに応答して、第2の符号化済みオーディオ、及び事前トレーニングされたSTTモデルの予測器からの予測に基づいて、ターゲット言語のテキストを生成するコードも含む。幾つかの例では、推論モジュール810は、分類に基づいて、異なる言語に対して専用の複数の予測器のうちの1つの専用予測器に第2の符号化済みオーディオを送信するコードも更に含む。例えば、推論モジュール810は、専用予測器を介して符号化済みオーディオからテキストを生成するコードも含んでよい。
【0067】
本技法の様々な実施形態の説明が、例示の目的で提示されてきたが、網羅的であること、又は開示された実施形態に限定されることは意図されていない。説明された実施形態の範囲及び思想から逸脱することなく、多くの修正及び変形が、当業者には明らかであろう。本明細書において使用される専門用語は、実施形態の原理、実用的な用途又は市場において見られる技術に対する技術的改善を最適に説明するために、又は、本明細書において開示された実施形態を他の当業者が理解することを可能にするために選択された。
図1
図2
図3
図4
図5
図6
図7
図8