IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2023-545103低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強
<>
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図1
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図2
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図3
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図4
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図5
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図6
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図7
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図8
  • 特表-低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-26
(54)【発明の名称】低リソース・セッティングにおいて多言語ASR音響モデルを訓練するための翻字ベースのデータ増強
(51)【国際特許分類】
   G10L 15/06 20130101AFI20231019BHJP
   G10L 15/16 20060101ALI20231019BHJP
【FI】
G10L15/06 300Y
G10L15/16
G10L15/06 500Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023521710
(86)(22)【出願日】2021-10-15
(85)【翻訳文提出日】2023-04-10
(86)【国際出願番号】 CN2021124149
(87)【国際公開番号】W WO2022078506
(87)【国際公開日】2022-04-21
(31)【優先権主張番号】17/073,337
(32)【優先日】2020-10-17
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000420
【氏名又は名称】弁理士法人MIP
(72)【発明者】
【氏名】トーマス、サミュエル
(72)【発明者】
【氏名】オードーカーシ、カーティク
(72)【発明者】
【氏名】キングスベリー、ブライアン イー ディー
(57)【要約】
低リソース・セッティングにおいて自動音声認識のための多言語音響モデルを構築するコンピュータ実装方法は、ベースライン多言語音響モデルを作成するために、オリジナルの音訳された訓練データを用いて訓練言語のセットに対して多言語ネットワークを訓練することを含む。音訳された訓練データの翻字は、多言語ネットワークを通じて、言語のセットからの複数の多言語データ・タイプを処理することによって、および翻字データのプールを出力することによって実行される。音響モデルの再訓練のための翻字データの1つまたは複数の部分を選択するために、出力された翻字データのプールに対してフィルタリング・メトリックが適用される。訓練データを更新するために、出力された翻字データの1つまたは複数の選択された部分を元のオリジナルの音訳された訓練データに追加することによって、データ増強が実行される。多言語ネットワークを通じた新しい多言語音響モデルの訓練は、更新された訓練データを使用して実行される。
【特許請求の範囲】
【請求項1】
低リソース・セッティングにおいて自動音声認識のための多言語音響モデルを構築するコンピュータ実装方法であって、前記方法は、
ベースラインの多言語音響モデルを作成するために、オリジナルの音訳された訓練データを用いて訓練言語のセットに対して多言語ネットワークを訓練することと、
前記多言語ネットワークを通じて、前記言語のセットからの複数の多言語データ・タイプを処理することによって、翻字を実行し、翻字データのプールを出力することと、
前記音響モデルの再訓練のための前記翻字データの1つまたは複数の部分を選択するために、前記多言語ネットワークから出力された前記翻字データのプールに対してフィルタリング・メトリックを適用することと、
更新された訓練データを取得するために、前記翻字データのプールの前記1つまたは複数の選択された部分を元の前記オリジナルの音訳された訓練データに追加することによって、データ増強を実行することと、
前記多言語ネットワークを通じて前記更新された訓練データを使用して新しい多言語音響モデルを訓練することと
を含む、コンピュータ実装方法。
【請求項2】
前記ベースラインの多言語音響モデルを、前記更新された訓練データで再訓練すること
をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記オリジナルの音訳された訓練データが、低リソース言語からのものであり、
前記多言語ネットワークが、各言語のシンボルのセットを別個にモデル化するように構成された複数の言語特有出力レイヤを含むニューラル・ネットワークを含み、
前記ニューラル・ネットワークが、前記翻字データの言語特有の部分を、少なくとも1つの個別の言語特有出力レイヤに出力する
請求項1に記載のコンピュータ実装方法。
【請求項4】
前記翻字データのプールの前記1つまたは複数の選択された部分を元の前記オリジナルの音訳された訓練データに前記追加することが、他の言語のシンボルを使用するデータの新しいコピーを含む再ラベル付けされたデータを含む、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記訓練言語のセットに対して前記多言語ネットワークを前記訓練することが、数十時間の前記オリジナルの音訳された訓練データを含む前記オリジナルの音訳された訓練データの前記低リソース言語を用いて実行される、請求項3に記載のコンピュータ実装方法。
【請求項6】
前記ニューラル・ネットワークによって未音訳データを処理することに応答して、半教師ありラベルを生成することをさらに含む、請求項3に記載のコンピュータ実装方法。
【請求項7】
前記翻字データのプールに対して前記フィルタリング・メトリックを前記適用することが、前記翻字データの残りと比べて比較的高いカウントのシンボルを有する前記出力された翻字データの前記1つまたは複数の部分を選択することによって実行される、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記翻字データのプールに対して前記フィルタリング・メトリックを前記適用することが、前記オリジナルの音訳された訓練データを含む発話中のシンボルに対する、前記翻字データ中のシンボルの比を比較すること、およびより高いシンボルの比を有する前記出力された翻字データの1つまたは複数の部分を選択することによって実行される、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記複数の多言語データ・タイプを前記処理することが、音訳された訓練データ、同一の前記訓練言語のセットからの未音訳データ、および異なる言語からの未音訳データを処理することを含む、請求項1に記載のコンピュータ実装方法。
【請求項10】
新しい言語を前記多言語ネットワークに追加することと、
翻字データを前記新しい言語で出力することと
をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項11】
低リソース・セッティングにおける多言語音響モデルの翻字ベースのデータ増強のために構成された自動音声認識システムであって、前記システムは、
プロセッサと、
前記プロセッサに結合されたメモリであって、前記メモリが、前記プロセッサに
ベースラインの多言語音響モデルを作成するために、オリジナルの音訳された訓練データを用いて訓練言語のセットに対して多言語ネットワークを訓練することと、
前記多言語ネットワークを通じて、前記言語のセットからの複数の多言語データ・タイプを処理することによって、翻字を実行し、翻字データのプールを出力することと、
前記音響モデルの再訓練のための前記翻字データの1つまたは複数の部分を選択するために、前記多言語ネットワークから出力された前記翻字データのプールに対してフィルタリング・メトリックを適用することと、
更新された訓練データを取得するために、前記出力された翻字データの前記1つまたは複数の選択された部分を元の前記オリジナルの音訳された訓練データに追加することによって、データ増強を実行することと、
新しい多言語音響モデルを、前記更新された訓練データを使用して訓練することと
を含む動作を実行させる命令を記憶する、前記メモリと
を備える、自動音声認識システム。
【請求項12】
前記命令が、前記プロセッサに
前記ベースラインの多言語音響モデルを、前記更新された訓練データで再訓練すること
を含む、さらなる動作を実行させる、請求項11に記載のシステム。
【請求項13】
前記多言語ネットワークが、各言語のシンボルのセットを別個にモデル化するように構成された複数の言語特有出力レイヤを含むニューラル・ネットワークを含み、
前記ニューラル・ネットワークが、前記翻字データの言語特有の部分を、少なくとも1つの個別の言語特有出力レイヤに出力するように構成される、請求項11に記載のシステム。
【請求項14】
前記命令が、前記プロセッサに
前記翻字データの残りと比べて比較的高いカウントのシンボルを有する前記出力された翻字データの前記1つまたは複数の部分を選択することによって前記翻字データのプールをフィルタリングすること
を含む、さらなる動作を実行させる、請求項11に記載のシステム。
【請求項15】
前記命令が、前記プロセッサに
前記オリジナルの音訳された訓練データを含む発話中のシンボルに対する、前記翻字データ中のシンボルの比を比較することによって前記翻字データのプールをフィルタリングすることと、
より高いシンボルの比を有する前記出力された翻字データの1つまたは複数の部分を選択することと
を含む、さらなる動作を実行させる、請求項11に記載のシステム。
【請求項16】
前記複数の多言語データ・タイプを前記処理することが、音訳された訓練データ、同一の前記訓練言語のセットからの未音訳データ、および異なる言語からの未音訳データを処理することを含む、請求項11に記載のシステム。
【請求項17】
前記命令が、前記プロセッサに
新しい言語を前記多言語ネットワークに追加することと、
翻字データを前記新しい言語で出力することと
を含む、さらなる動作を実行させる、請求項16に記載のシステム。
【請求項18】
非一過性コンピュータ可読記憶媒体であって、前記非一過性コンピュータ可読記憶媒体は、実行されるとコンピュータ・デバイスに、低リソース・セッティングにおいて自動音声認識のための多言語音響モデルを構築する方法を実行させるコンピュータ可読命令を有するコンピュータ可読プログラム・コードを有形に具体化し、前記方法は、
エンドツーエンドな再帰レイヤを有する多言語モデルを、複数の言語から引き出したプールされたデータ・セットに対して訓練することと、
訓練されたネットワークを通じて、発話ごとに音響特徴を順方向パスすることによって音訳された訓練データを翻字することと、
前記ネットワークを訓練するために使用された言語に属する前記ネットワークを通ってデータを順方向パスすることによって、未音訳の訓練データを翻字することと、
発話の翻字された出力におけるシンボル数のカウント、または基準音訳のシンボル数に対する翻字された言語中のシンボル数の比のうちの少なくとも1つを含む、フィルタリング・メトリックを適用することと、
前記翻字データを言語の前記訓練プールに追加することによってデータ増強を実行し、および新しい多言語モデルを訓練することと
を含む、非一過性コンピュータ可読記憶媒体。
【請求項19】
前記多言語モデルのベースラインが、第1の動作において、固定数のエポックで訓練される、請求項18に記載のコンピュータ可読記憶媒体。
【請求項20】
前記データ増強を実行することが、教師無しデータを使用すること、および低リソース・セッティングにおける音響モデルを改善するために、前記翻字を言語の前記訓練プール全体で実行することを含む、請求項18に記載のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、一般的に音声認識(ASR:acoustic speech recognition)に関し、より詳細には、多言語ASR音響モデルを訓練することに関する。
【背景技術】
【0002】
音声認識システムのための音響モデルは、典型的には数百時間のタスク特有な訓練データを伴う。しかしながら、タスク特有な訓練に利用可能なリソースの量が少ない場合、例えば典型的な数百時間または数千時間よりはるかに少ない量(例えば、数十時間)である場合に提示される課題がある。低リソース・セッティングは、音響モデルを十分に訓練することを困難なものとする。そのため、そのような音響モデルの誤り率は、十分な訓練リソースが存在する事例よりも、通常ずっと高くなる。
【0003】
そのような低リソース・セッティングでは、多言語音響モデルを構築するために他の言語からの音訳データを使用することができる。そのような多言語音響モデルは、次いで後続の処理のための多言語ボトルネック特徴を抽出するために使用されるか、または低リソースの言語に対して微調整ステップを実行した後、音響モデルとして直接使用される場合もある。低リソース・セッティングの課題に対処する以前の試みは、訓練データに対してデータ増強を適用することを含んでいたが、音響モデルの訓練ならびに手作業の介入において顕著な改善は得られなかった。
【0004】
しかしながら、低リソース・セッティングで訓練された音響モデルの単語誤り率(WER:word error rate)は、追加的な音訳データを用いたとしても、比較的高い。そのパフォーマンスを改善するための以前の試みには以下が含まれる:(1)スピーチをきれいにするデータ増強;(2)声道長摂動(VTLP:vocal tract length perturbation);(3)音速および温度摂動、ならびにそのような方法の様々な組合せ。
【0005】
したがって、WERの低減を伴う、低リソース・セッティングにおいて多言語音響モデルを訓練する課題に対処する必要がある。
【発明の概要】
【0006】
一実施形態によると、低リソース・セッティングにおいて自動音声認識のための多言語音響モデルを構築するコンピュータ実装方法は、ベースライン多言語音響モデルを作成するために、オリジナルの音訳された訓練データを用いて訓練言語のセットに対して多言語ネットワークを訓練することを含む。音訳された訓練データの翻字は、多言語ネットワークを通じて、言語のセットからの複数の多言語データ・タイプを処理することによって、および翻字データのプールを出力することによって実行される。音響モデルの再訓練のための翻字データの1つまたは複数の部分を選択するために、出力された翻字データのプールに対してフィルタリング・メトリックが適用される。訓練データを更新するために、出力された翻字データの1つまたは複数の選択された部分を元のオリジナルの音訳された訓練データに追加することによって、データ増強が実行される。新しい多言語音響モデルは、更新された訓練データを使用して訓練される。このコンピュータ実装方法は、少なくとも翻字およびデータ増強動作、ならびに出力された翻字データに対するデータ増強の実行によって、多言語音響モデルの、より正確な訓練を実現する。特に低リソース・セッティングにおける、出力された翻字データに対するデータ増強の適用はまた、訓練データが改善され増加するに伴い、音響モデルの、さらに多様で正確な訓練も実現する。
【0007】
一実施形態において、コンピュータ実装方法は、ベースライン多言語音響モデルを、更新された訓練データで再訓練することをさらに含む。この動作により、より正確でロバストなベースライン音響モデルがもたらされる。
【0008】
一実施形態において、オリジナルの訓練データは、低リソース言語からのものであり、多言語ネットワークは、各言語のシンボルのセットを別個にモデル化するように構成された、複数の言語特有出力レイヤを含むニューラル・ネットワークを含み、ニューラル・ネットワークは、翻字データの言語特有の部分を、少なくとも1つの個別の言語特有出力レイヤに出力する。ニューラル・ネットワークの使用は、音響モデルの、より高速でより効率的な訓練を実現する。
【0009】
一実施形態において、出力された翻字データの1つまたは複数の選択された部分を元のオリジナルの音訳された訓練に追加することは、他の言語のシンボルを使用するデータの新しいコピーから形成される再ラベル付けされたデータを含む。他の言語のシンボルを使用するデータの新しいコピーから形成されるデータを再ラベル付けすることは、多言語音響モデルを訓練する際、多言語ネットワークを支援する。
【0010】
一実施形態において、訓練言語のセットに対して多言語ネットワークを訓練することは、数十時間のオリジナルの音訳データを含むオリジナルの音訳された訓練データの低リソース・セッティングで実行される。方法は、音響モデルのより正確な訓練を提供するが、それ以外のやり方では、低リソース・セッティングを正確かつ効率的に訓練することが困難であるからである。
【0011】
一実施形態において、コンピュータ実装方法は、多言語ニューラル・ネットワークによって未音訳データを処理することに応答して、半教師ありラベルを生成することを含む。
【0012】
一実施形態において、翻字データの残りと比べて比較的高いカウントのシンボルを有する翻字データのプールの1つまたは複数の部分を選択することによって翻字データのプールをフィルタリングすることが実行される。この動作は、より正確な音響モデルの訓練を実現する。フィルタリング・メトリックの適用は、多言語音響モデルの、よりロバストで正確な訓練を実現する。
【0013】
一実施形態において、フィルタリング・メトリックの翻字データのプールへの適用は、オリジナルの音訳された訓練データを含む発話中のシンボルに対する、翻字データ中のシンボルの比を比較すること、およびより高いシンボルの比を有する翻字データのプールの1つまたは複数の部分を選択することによって実行される。フィルタリング・メトリックの適用は、多言語音響モデルの、よりロバストで正確な訓練を実現する。
【0014】
一実施形態において、複数の多言語データ・タイプを処理することは、音訳された訓練データ、同一の訓練言語のセットからの未音訳データ、および異なる言語からの未音訳データの処理を含む。
【0015】
一実施形態において、新しい言語は、多言語ネットワークへの入力に追加され、新しい言語での翻字データが出力される。新しい言語がロバストなモデルの多様性に加わり、精度と訓練を改善する。
【0016】
一実施形態によると、多言語音響モデルの翻字ベースのデータ増強のために構成された自動音声認識システムは、プロセッサと、プロセッサに結合されたメモリとを含む。メモリは、プロセッサに、ベースライン多言語音響モデルを作成するために、オリジナルの音訳された訓練データを用いて訓練言語のセットに対して多言語ネットワークを訓練することと、多言語ネットワークを通じて、言語のセットからの複数の多言語データ・タイプを処理することによって、翻字を実行し、翻字データのプールを出力することとを含む動作を実行させる命令を記憶する。音響モデルの再訓練のための翻字データの1つまたは複数の部分を選択するために、多言語ネットワークから出力された翻字データのプールに対してフィルタリング・メトリックが適用される。更新された訓練データを取得するために、出力された翻字データの1つまたは複数の選択された部分を元のオリジナルの音訳された訓練データに追加することによって、データ増強が実行される。更新された訓練データは、多言語ネットワークおよび更新された訓練データを用いた多言語音響モデルの再訓練を通じて処理される。この構成は、少なくとも翻字およびデータ増強動作、ならびに出力された翻字データに対するデータ増強の実行によって、音響モデルの、より正確な訓練を実現する。
【0017】
一実施形態において、多言語ネットワークは、各言語のシンボルのセットを別個にモデル化するように構成された、複数の言語特有出力レイヤを含むニューラル・ネットワークを含み、ニューラル・ネットワークは、翻字データの言語特有の部分を、少なくとも1つの個別の言語特有出力レイヤに出力するように構成される。ニューラル・ネットワークの使用は、音響モデルの、より高速でより効率的な訓練を実現する。
【0018】
一実施形態による、実行されるとコンピュータ・デバイスに、低リソース・セッティングにおいて自動音声認識のための多言語音響モデルを構築する方法を実行させるコンピュータ可読命令を有するコンピュータ可読プログラム・コードを有形に具体化する、非一過性コンピュータ可読記憶媒体。方法は、多言語モデルを、複数の言語から引き出したプールされたデータ・セットに対してエンドツーエンドな再帰レイヤを用いて訓練することを含む。
【0019】
音訳された訓練データは、訓練されたネットワークを通じて、発話ごとに音響特徴を順方向パスすることによって翻字される。ネットワークを訓練するために使用された言語に属する未音訳の訓練データは、ネットワークを通じてデータを順方向パスすることによって翻字される。発話の翻字された出力におけるシンボル数のカウント、または基準音訳のシンボル数に対する翻字された言語中のシンボル数の比のうちの少なくとも1つを含む、フィルタリング・メトリックが適用される。データ増強は、翻字データを言語の訓練プールに追加すること、および新しい多言語モデルを訓練することによって、実行される。
【0020】
これらおよび他の特徴は、添付の図面と併せて読まれる例示的な実施形態の以下の詳細な説明から明らかとなろう。
【0021】
図面は、例示的な実施形態の図面である。これらはすべての実施形態を図示するものではない。他の実施形態が、追加で、または代替で使用されてもよい。明らかな、または不必要な場合がある詳細は、紙面の節約のため、またはより効果的な図示のために省略される場合がある。一部の実施形態は、追加的なコンポーネントもしくはステップを用いて、もしくは図示されるすべてのコンポーネントもしくはステップを用いずに、またはそれらの組合せで実用化され得る。異なる図面に同一の符号が登場する場合、同一または類似のコンポーネントまたはステップを指す。
【図面の簡単な説明】
【0022】
図1】例示の実施形態に従う、多言語ネットワークのアーキテクチャの概観図である。
図2】例示の実施形態に従う、様々なタイプの訓練データおよびフィルタリング・メトリックを伴う、図1の多言語ネットワークの図である。
図3】例示の実施形態に従う、音響モデル・パフォーマンスの図である。
図4】例示の実施形態に従う、音響モデル・パフォーマンスの図である。
図5】例示の実施形態に従う、新しい言語を含むためにモデルをポーティングした後の、単語誤り率(WER%)の観点でのモデル・パフォーマンスの図である。
図6】例示の実施形態に従う、ASRのための多言語音響モデルを構築するコンピュータ実装方法を示すフローチャートである。
図7】例示の実施形態に従う、地震イメージング用のシステムの様々なネットワーク化コンポーネントと通信することができる、コンピュータ・ハードウェア・プラットフォームの機能的なブロック図である。
図8】例示の実施形態に従う、例示のクラウド・コンピューティング環境の図である。
図9】例示の実施形態に従う、クラウド・コンピューティング環境によって提供される機能的な抽象レイヤのセットの図である。
【発明を実施するための形態】
【0023】
概要
以下の詳細な説明では、関連する教示の徹底した理解を与えるべく、多くの具体的な詳細が例として説明される。しかしながら、本教示はそのような詳細を伴うことなく実践され得ることを理解されたい。他の事例では、よく知られた方法、手順、コンポーネント、もしくは回路網またはそれらの組合せが、本教示の態様を不必要に曖昧にすることを避けるために、詳細を伴わずに比較的高いレベルで説明されてきた。
【0024】
本開示の例示の実施形態は、低リソース・セッティングにおけるオリジナルの訓練データ向けに、多言語音響モデルを構築することを対象としているが、コンピュータ実装方法およびシステムは、そのような条件に限定されない。低リソース・セッティングとは、例えば、利用可能な訓練データが数十時間しかないセッティングである。「低リソース言語」は、自動音声認識システムが許容可能な単語誤り率で動作するよう訓練するには言語リソースの量が不十分な言語であることを理解されたい。利用可能な訓練データが不十分な、いくつかの言語の複数の方言が存在する。本開示は、自動音声認識システムを訓練することに伴う課題をどのように克服するかに対処するが、その教示はまた、低リソース・セッティングで利用可能な数十時間と比べて、数千時間の利用可能な訓練データを有し得る、高いリソース・セッティングにも適用可能であり、利点を与える。
【0025】
本開示のコンピュータ実装方法およびデバイスは、特に、音響モデルが満足のいく精度で動作するよう訓練するには不十分な場合がある、低リソース・セッティングの訓練データの事例で、自動音声認識(ASR)システムなどのデバイスで使用される音響モデルの訓練および実装の精度に改善をもたらす。加えて、本開示のコンピュータ実装方法およびデバイスは、コンピュータ動作の効率に改善をもたらす。例えば、本明細書における教示により、技術的な改善は、ASRシステムにおいて音響モデルを訓練および動作させるために必要とされる処理電力量の削減をもたらし、正確な結果を与えるモデルを得るために使用されるエポック、反復、および時間が少なくなる。音響モデルの動作における誤りを訂正するための人間による対話の必要が低減されるか、もしくは無くなるか、またはその両方であり、それによってコンピュータ動作がより効率的になる。エポックおよび反復の低減はまた、コンピュータ・メモリの使用の低減を実現する。本開示の教示を用いて、より正確な音響モデルを作り出す際の、時間の節約が実現される。
【0026】
例示のアーキテクチャ
図1は、例示の実施形態に従う、多言語ネットワークの例示のアーキテクチャ100の概観を与える。この例示の実施形態では、多言語ネットワーク105は、入力特徴レイヤ110、複数の共有される言語独立型再帰レイヤ115、および言語特有出力レイヤ120a、120b、および120cを含む。音訳された訓練データ135もまた示される。
【0027】
入力特徴レイヤ110は、オリジナルの音訳データを受信する。オリジナルの音訳データは、発話などの、発声されたかまたは発せられた音の表現である。自動音声認識システムでは、発話は、発話の言語に関連付けられるシンボルに音訳される。例えば、英語の発話は、英語に音訳され、日本語の発話は、日本語に音訳される、などである。音訳データは、多言語ネットワーク105によってプッシュ(例えば、処理)される。多言語ネットワークは、ニューラル・ネットワークであることができ、この例示の実施形態で示されるように、ニューラル・ネットワークのレイヤは、言語処理の様々な機能を実行する。共有される独立型再帰レイヤは、翻字などの動作を実行することによって、オリジナルの音訳データを処理する。翻字機能は、発話を表現するために他の言語のシンボルを適用する。人間によって発せられる音にはある程度の共通性があるため、英語での発話を、異なる言語(例えば、ヒンディ語、モンゴル語、ジャワ語、スペイン語、標準中国語)のシンボルに翻字して、翻字データのプールを作成することが可能である。共有される言語依存型再帰レイヤ115は、翻字データを言語特有出力レイヤ120a、120b、120cなどに提供する。この例示の実施形態では、出力レイヤ120は、オリジナルの音訳データを出力するが、出力レイヤ120aおよび120cは、翻字された出力レイヤであり、翻字データの言語特有な出力があることを意味している。音訳された訓練データ135は、さらなる処理のために元の多言語ネットワークのレイヤに追加されるより前に、追加的な処理機能の対象となるデータを含む。
【0028】
図2は、例示の実施形態に従う、様々なタイプの訓練データおよびフィルタリング・メトリックを伴う、図1の多言語ネットワークの概観200を示す。例えば、図2は、入力特徴レイヤ210に与えることができる異なる種類の入力データを示す。1つまたは複数の発話をその言語のシンボルで表現し得る、オリジナルの音訳された訓練データ205は、入力特徴レイヤ210への入力のうちの1つとして示される。発話の音訳された訓練データと同じ言語の第1の未音訳データ207、および発話の音訳されたデータの言語とは異なる言語の第2の未音訳データ209などの追加的なデータが示される。多言語音響モデルの訓練を、自動音声認識システムを訓練する際使用される音響モデルの精度および性能の観点から改善するために、未音訳データのうち一方または両方が、オリジナルの音訳データと共に入力することができる。
【0029】
ここで図1および図2に関する上記説明を参照すると、図2に示される言語特有出力レイヤ220a、220b、220cは、翻字データの出力プールを与える。データの出力プールは、音響モデルの訓練の精度を高めるデータを選択するために適用されるフィルタリング・メトリック225を有する。フィルタリング・メトリック225として使用することができるいくつかの機能が存在する。
【0030】
フィルタリング・メトリック225による、そのようなフィルタリングは、言語特有出力のそれぞれについて翻字データのシンボルのカウントを実施すること、および最も高いシンボル・カウント、または最も高いシンボル・カウントのグループ、または比較的高い(シンボル・カウントが低い言語に対して)シンボル・カウントを選択することによるものである。高いシンボル・カウントは、多言語音響モデルのより正確な訓練を想定した翻字データの選択を用意することができる。
【0031】
フィルタリング・メトリック225にしたがって実行することができる別のフィルタリング機能は、発話のオリジナルの音訳データ中のシンボルに対する、翻字データ中のシンボルの比を比較すること、およびより高いシンボルの比を有する出力された翻字データの1つまたは複数の部分を選択することである。
【0032】
次いで、翻字された出力データ230の1つまたは複数の選択された部分を、オリジナルの音訳された訓練データ235に追加することによって、多言語データ増強を実行することができる。図2は、3つの言語特有出力レイヤの言語を識別しており、235a、235cは、個々のレイヤ220a、220cによって出力された言語であり、フィルタリング・メトリックとデータ増強の対象である。データ増強後のオリジナルの音訳データ235bは、追加的な処理の後の言語特有レイヤ220bの出力である。増強されたデータ235a、235b、235cは、次いで、さらなる処理のために元の多言語ネットワークに入力される。音響モデルの精度を高めるために多言語音響モデルのための訓練データが作成されるよう、いくつかの反復を実行することができる。低リソース・セッティングでは、本開示の教示は、多言語音響モデルのより正確な訓練を実現しつつ、計算リソースを節約する。
【0033】
図3は、例示の実施形態に従う、音響モデル・パフォーマンスを示す表305である。図3は、低リソース言語に対する実験を識別する(条件401、402、403、および404として識別する)。これらの単言語モデルは、それぞれモンゴル語、ジャワ語、ルオ語、およびジョージア語である。ラベル「C1」はすべての翻字データの使用を示し、「D1」はフィルタリング・メトリックを通じて選択されたデータを示し、E1はフィルタリング・メトリックを使用する50時間のデータを示し、F1はフィルタリング・メトリックを使用する100時間のデータを示す。翻字された訓練データの使用により、言語のそれぞれで単語誤り率が減少することが分かる。言語のそれぞれは、リソースの量が増加するにつれ、単語誤り率の改善を示す。
【0034】
図4は、例示の実施形態に従う、音響モデル・パフォーマンスの図である。図3と同様に、ベースライン・パフォーマンス405および未音訳の訓練データを用いたモデル・パフォーマンス415が示される。未音訳のクロス言語データでのモデル・パフォーマンス420もまた示される。
【0035】
ベースライン・パフォーマンス405は、単言語および多言語の条件を含む。未音訳の訓練データを用いたモデル・パフォーマンス415は、半教師あり(ST)音訳を含む。例えば、未音訳データを音訳するために、多言語ネットワークを使用することが可能である。ある言語に対応する未音訳データが、その多言語ネットワークを訓練するために使用された場合、ネットワークはそのデータのための音訳を生成することができる。ラベルは、人間の注釈付けを伴わずに自動的に生成されるため、これを半教師ありのデータを呼ぶ。加えて、モデル・パフォーマンス415は、翻字された(TL:transliterated)言語シンボルを含む。未音訳のクロス言語データでのモデル・パフォーマンス420を参照すると、「CSR1」は、セブアノ語、カザフ語、テルグ語、リトアニア語を含み、「CSR2」は、パシュトー語、パラグアイのグアラニ語、イボ語、アムハラ語を含む。
【0036】
図5は、例示の実施形態に従う、新しい言語を含むためにモデルをポーティングした後の、モデル・パフォーマンス(WER%)の図である。図5は、新しい言語(イタリア語)を含むためのモデルのポーティングを示す。訓練の時間が増加するとパフォーマンスが改善されることが分かる。
【0037】
さらに図5に関しては、イタリア語は、訓練される新しい言語である。例えば、A4は、ネットワークがイタリア語だけに対して訓練される事例であり、このネットワークについての重みはランダムに初期化される。B4では、ネットワークは、やはりイタリア語だけに対して訓練されるが、今度は、ネットワークは、多くの言語に対して訓練された(しかし、イタリア語はまだ訓練されていない)多言語ネットワークを形成するように初期化される。ネットワークは、この場合より良好に初期化され、つまりB4は、A4より良好である。C4は、多言語システムが訓練される事例である。イタリア語は、今度は多言語のうちの1つであり、そのため訓練されたモデルを、イタリア語を処理するために使用することができる。C4は、多言語訓練であることからA4またはB4よりも良好である。D4は、さらに良好な多言語ネットワークが訓練される事例である。今度は、このモデルは、追加的な翻字データを訓練に使用する。
【0038】
ASR用に訓練された音響モデルは、一般的に、ハイブリッド音響モデル、またはエンドツーエンド音響モデルという2つのカテゴリに分けられることを理解されたい。本開示の教示は、両方のカテゴリに適用することができる。そのため、コネクショニスト時系列分類法(CTC:Connectionist Temporal Classification)は、エンドツーエンドな音響モデル訓練で使用することができる訓練方法の1つのタイプであるが、本開示は、エンドツーエンドな音響モデル訓練に限定されない。
【0039】
例示のプロセス
例示のアーキテクチャの前述の概観と併せて、次に、例示のプロセスの高レベルの考察を検討することが有用であろう。この目的のため、図1図5と併せて、図6は、例示の実施形態に従う、設定フェーズおよび実行フェーズを含む地震イメージング動作を図示するフローチャート600を描いている。プロセス600は、ハードウェア、ソフトウェア、またはそれらの組合せとして実装することができる動作のシーケンスを表現する論理的なフローチャートにおける、ブロックの集合として示される。ソフトウェアのコンテキストでは、ブロックは、1つまたは複数のプロセッサによって実行されると、列挙される動作を実行するコンピュータ実行可能命令を表現する。一般的に、コンピュータ実行可能な命令は、機能を実行するか、または抽象的なデータ・タイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含むことができる。各プロセスにおいて、動作が説明される順序は限定として解釈されるよう意図されておらず、あらゆる数の説明されるブロックは、プロセスを実行するために、あらゆる順序で組み合わせる、もしくは並列に実行される、またはその両方が可能である。
【0040】
次に図6を参照すると、動作605では、多言語ネットワークが、オリジナルの音訳された訓練データを用いて訓練言語のセットに対して訓練される。オリジナルの音訳された訓練データは、例えば、そのネイティブ言語に音訳される発話である。例えば、英語の発話は、英語のシンボルおよび書記素を使用して音訳される。しかしながら、他のシンボルを使用することができることを理解されたい。音素、サブ単語(sub-word)、全単語(whole word)などもまた、書記素の代わりに、または書記素と併せて使用することができる。この例では、オリジナルの音訳されるセッティングは、低リソース・セッティングであり、このことは、(典型的なリソース・セッティングには数百時間、または数千時間の訓練データが存在することとは対照的に)数十時間の訓練データが存在することを意味する。
【0041】
動作610では、複数の多言語データを処理することによって、翻字が実行される。翻字では、ある言語における発話は、発話が行なわれた言語とは異なる言語のシンボルによって表現される。低リソース・セッティングの環境では、翻字データのプールは、多言語ネットワークによって出力することができる。
【0042】
動作615では、音響モデルの再訓練のための翻字データの1つまたは複数の部分を選択するために、多言語ネットワークから出力された翻字データのプールに対してフィルタリング・メトリックが適用される。部分は、音響モデルを再訓練して精度を高め(すなわち、単語誤り率を低下させる)、訓練データの量を増加することによって音響モデルをよりロバストにする目的で選択される。フィルタリング・メトリックを適用する一例は、翻字データの残りと比べて比較的高いカウントのシンボルを有する翻字データの1つまたは複数の部分を選択することである。例えば、発話の事例では、より高いカウントのシンボルは、より正確に発話を定めることができる。
【0043】
別の例では、翻字データの出力プールに対してフィルタリング・メトリックを適用することは、オリジナルの音訳された訓練データを含む発話中のシンボルに対する、翻字データ中のシンボルの比を比較すること、およびより高いシンボルの比を有する出力された翻字データの1つまたは複数の部分を選択することによって実行される。選択される部分が複数存在する場合、一実施形態では、複数の最大の比が続く場合があることを理解されたい(例えば、第1の最大、第2の最大、第3の最大など)。
【0044】
動作620では、フィルタリング・メトリックの適用によって選択された翻字データの1つまたは複数の選択された部分を、元のオリジナルの音訳データに追加することによって、データ増強が実行される。データ増強は、例えば1つの発話の複数の表現を、オリジナルの音訳データの言語、および発話の言語とは異なる言語からのシンボルを使用して発話を表現することができる増強されたデータの両方で与えることができる。例えば、発話は英語であってもよいが、増強されたデータはヒンディ語のシンボルを使用して発話を表現してもよい。そのため、増強されたデータは、更新された訓練データと考えることができる。
【0045】
動作625では、多言語ネットワークは、更新された訓練データを用いて新しい多言語音響モデルを訓練する。プロセスは、動作625の後に終了する。しかしながら、多言語音響モデルの精度およびロバスト性を高めるために、複数のエポックが実施されてもよいことを理解されたい。新しい言語は、追加することが可能であり、多言語音響モデルの精度およびロバスト性を高めるために生成された追加的な翻字データ。本開示では、ベースライン多言語音響モデルを更新された訓練データを用いて再訓練することも可能である。
【0046】
図7は、コンピュータ・ハードウェア・プラットフォームの機能的なブロック図700を与える。特に、図7は、図6で示される方法を実装するために使用され得るような、具体的に設定されたネットワークまたはホスト・コンピュータ・プラットフォーム700を図示している。
【0047】
コンピュータ・プラットフォーム700は、中央処理装置(CPU)704、ハードディスク・ドライブ(HDD)706、ランダム・アクセス・メモリ(RAM)もしくはリード・オンリ・メモリ(ROM)708またはその両方、キーボード710、マウス712、ディスプレイ714、通信インターフェース716を含むことがあり、これらはシステム・バス702に接続される。HDD706はデータ・ストアを含むことができる。
【0048】
一実施形態において、HDD706は、本明細書で説明される様式で自動音声認識(ASR)705動作などの様々なプロセスを実行することができるプログラムを記憶することを含む機能を有する。ASRモジュール705は、多言語音響モデル742を訓練するためなどの、自動音声認識プロセスの管理を実現する。ネットワーク処理モジュール710は、低リソース・セッティングにおける訓練データを処理して、ベースライン多言語音響モジュールを作成する。翻字モジュール720は、少なくとも1つの言語からのシンボルを使用して、別の言語で行なわれる発話を表現し、翻字モジュール720は、翻字データのプールを出力する。フィルタリング・メトリック・モジュール730は、翻字データの出力プールへの適用のために構成され、音響モデル742の再訓練のための翻字データの1つまたは複数の部分を選択するようにさらに構成される。データ増強モジュール735は、音響モデル742を再訓練するために、出力された翻字データの1つまたは複数の選択された部分を元のオリジナルの音訳データに追加することによって、訓練データを増強するように構成される。訓練サンプル・モジュール740は、音響モデル742を訓練するために、多言語データを記憶する。
【0049】
例示的なクラウド・プラットフォーム
上で考察したように、環境学的および生態学的な最適化方法に関する機能は、クラウドを含むことができる。本開示は、以下で考察されるようにクラウド・コンピューティングの詳細な説明を含むが、本明細書で具陳される教示の実装形態はクラウド・コンピューティング環境に限定されないことを理解されたい。むしろ本開示の実施形態は、現在公知の、または後に開発されるあらゆる他のタイプのコンピューティング環境と併せて実装することができる。
【0050】
クラウド・コンピューティングは、構成可能なコンピューティング・リソースの共有プール(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)への便利でオン・デマンドのネットワーク・アクセスを可能とするためのサービス提供のモデルであり、最小限の管理努力で、またはサービスのプロバイダとの対話で迅速にプロビジョニングおよびリリースすることができる。このクラウド・モデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含むことができる。
【0051】
特徴は以下のとおりである:
オン・デマンドなセルフサービス:クラウド消費者は、サービスのプロバイダとの人間による対話を要求することなく必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。
【0052】
幅広いネットワーク・アクセス:機能はネットワーク上で利用可能であり、異質なシン・クライアントまたはシック・クライアントのプラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを通じてアクセスされる。
【0053】
リソースのプール:プロバイダのコンピューティング・リソースは、マルチテナントのモデルを使用して複数の消費者にサービス提供するためにプールされ、異なる物理的および仮想的なリソースが要求に応じて動的に割り当ておよび再割り当てされる。消費者が提供されるリソースの正確な場所についての制御または情報を一般的に持たない点で、場所の独立性の意味があるが、より高度な抽象において場所(例えば、国、州、またはデータセンタ)を特定できることもある。
【0054】
迅速な拡張性:機能は迅速かつ拡張可能にプロビジョニングすることができ、いくつかの場合において、自動的に、素早くスケール・アウトされ、迅速にリリースされて素早くスケール・インされる。消費者にとって、プロビジョニングのために利用可能な機能は、しばしば無制限に見え、いつでもいくらでも購入することができる。
【0055】
サービスの計測:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブなユーザ・アカウント)に適当な何らかの抽象化のレベルにおいて計測機能を活用することによりリソースの使用を自動的に制御し、最適化する。リソースの使用は監視され、制御され、かつ報告され得、利用されるサービスのプロバイダおよび消費者の両方にとって透明性を与えている。
【0056】
サービス・モデルは以下のとおりである:
サービスとしてのソフトウェア(Software as a Service(SaaS)):消費者に提供される機能は、クラウド・インフラストラクチャで実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えば、ウェブ・ベースの電子メール)を通じて様々なクライアント・デバイスからアクセス可能である。消費者は、ネットワーク、サーバ、オペレーティング・システム、ストレージ、またはさらには個々のアプリケーション機能を含む基礎となるクラウド・インフラストラクチャを管理または制御することはなく、例外として限定されたユーザ固有アプリケーションの構成設定が可能である。
【0057】
サービスとしてのプラットフォーム(Platform as a Service(PaaS)):消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者作成の、または既成のアプリケーションをクラウド・インフラストラクチャに展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎となるクラウド・インフラストラクチャの管理または制御をしないが、展開されたアプリケーション、および場合によっては環境構成をホストするアプリケーションについての制御を有する。
【0058】
サービスとしてのインフラストラクチャ(Infrastructure as a Service(IaaS)):消費者に提供される機能は、任意のソフトウェアを消費者が展開および実行することができる処理、ストレージ、ネットワーク、および他の基本的なコンピューティング・リソースをプロビジョニングすることであり、これにはオペレーティング・システムおよびアプリケーションが含まれ得る。消費者は、基礎となるクラウド・インフラストラクチャの管理または制御をしないが、オペレーティング・システム、ストレージ、展開されたアプリケーションの制御、および場合によっては選択ネットワーキング・コンポーネント(例えば、ホスト・ファイヤウォール)の限定された制御を有する。
【0059】
展開モデルは以下のとおりである:
プライベート・クラウド:クラウド・インフラストラクチャは、ある組織のためだけに運用される。その組織またはサード・パーティによって管理され得、オンプレミスまたはオフプレミスで存在することができる。
【0060】
コミュニティ・クラウド:クラウド・インフラストラクチャは、いくつかの組織によって共有され、共有される事案(例えば、ミッション、セキュリティ要件、ポリシ、およびコンプライアンス懸案事項)を有する特定のコミュニティをサポートする。組織またはサード・パーティによって管理され得、オンプレミスまたはオフプレミスで存在することができる。
【0061】
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆または大規模な業界団体に対して利用可能とされ、クラウド・サービスを販売する組織によって所有される。
【0062】
ハイブリッド・クラウド:クラウド・インフラストラクチャは、一意なエンティティのままである2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)を組み合わせたものであるが、データおよびアプリケーションのポータビリティを可能にする標準化された、または専有的な技術(例えば、クラウド間でロード・バランシングを行なうためのクラウド・バースト)によって結合される。
【0063】
クラウド・コンピューティング環境は、ステートレス性、低い結合性、モジュール性、および意味論的な相互運用性に焦点をあてたサービス指向である。クラウド・コンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
【0064】
次に図8を参照すると、クラウド・コンピューティングを利用する例示的なクラウド・コンピューティング環境800が描写されている。示されるように、クラウド・コンピューティング環境800は、例えば、携帯情報端末(PDA)または携帯電話854A、デスクトップ・コンピュータ854B、ラップトップ・コンピュータ854C、もしくは自動車コンピュータ・システム854Nまたはそれらの組合せなど、クラウドの消費者によって使用されるローカルのコンピューティング・デバイスと通信することができる、1つまたは複数のクラウド・コンピューティング・ノード810を有するクラウド850を含む。ノード810は互いに通信することができる。これらは、本明細書において上述したようなプライベート、コミュニティ、パブリック、もしくはハイブリッドのクラウド、またはそれらの組合せなど、1つまたは複数のネットワークにおいて、物理的または仮想的にグループ化することができる(図示せず)。これにより、クラウド・コンピューティング環境800は、クラウドの消費者がローカルのコンピューティング・デバイスでリソースを維持する必要のない、インフラストラクチャ、プラットフォーム、もしくはソフトウェアまたはそれらの組合せをサービスとして提供することができる。図8に示されるコンピューティング・デバイス854A~Nのタイプは、単に例示的であることを意図されており、コンピューティング・ノード810およびクラウド・コンピューティング環境850は、あらゆるタイプのネットワーク上もしくはネットワーク・アドレス可能接続で(例えば、ウェブ・ブラウザを使用して)、またはその両方で、あらゆるタイプのコンピュータ化されたデバイスと通信することができることが理解されよう。
【0065】
次に図9を参照すると、クラウド・コンピューティング環境800(図8)によって提供される機能的な抽象化レイヤ900のセットが示されている。図9に示されるコンポーネント、レイヤ、および機能は、単に例示的であることを意図されており、本開示の実施形態はそれに限定されないことが、予め理解されるべきである。描写されるように、以下のレイヤおよび対応する機能が提供される。
【0066】
ハードウェアおよびソフトウェア・レイヤ960は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、以下が挙げられる:メインフレーム961、RISC(縮小命令セット・コンピュータ)アーキテクチャ・ベースのサーバ962、サーバ963、ブレード・サーバ964、ストレージ・デバイス965、ならびにネットワークおよびネットワーキング・コンポーネント966。いくつかの実施形態において、ソフトウェア・コンポーネントとしては、ネットワーク・アプリケーション・サーバ・ソフトウェア967、およびデータベース・ソフトウェア968が挙げられる。
【0067】
仮想化レイヤ970は、仮想エンティティの以下の例が提供され得る抽象化レイヤを提供する:仮想サーバ971、仮想ストレージ972、仮想プライベート・ネットワークを含む仮想ネットワーク973、仮想アプリケーションおよびオペレーティング・システム974、ならびに仮想クライアント975。
【0068】
一例において、管理レイヤ980は、以下で説明される機能を提供することができる。リソース・プロビジョニング981は、コンピューティング・リソースおよびクラウド・コンピューティング環境内でタスクを実施するために利用される他のリソースの動的な調達を提供する。計測および課金982は、クラウド・コンピューティング環境内でリソースが利用される際のコスト追跡、およびこれらのリソースの消費についての課金または請求書発行を提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含む場合がある。セキュリティは、クラウド消費者およびタスクについての識別情報の検証、ならびにデータおよび他のリソースについての保護を与える。ユーザ・ポータル983は、クラウド・コンピューティング環境へのアクセスを消費者およびシステム管理者に提供する。サービス水準管理984は、要求されるサービス水準が満たされるように、クラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス水準合意(SLA)計画および遂行985は、SLAにしたがって将来的な要求が予期されるクラウド・コンピューティング・リソースについての事前申し合わせ、およびクラウド・コンピューティング・リソースの調達を提供する。
【0069】
ワークロード・レイヤ990は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤからもたらされ得るワークロードおよび機能の例として以下が挙げられる:マッピングおよびナビゲーション991、ソフトウェア開発およびライフサイクル管理992、仮想授業教育配信993、データ分析処理994、取引処理995、ならびに本明細書で考察したような、ハイブリッドなクラウドベースのプラットフォーム上で地震イメージングを実施するためのASRモジュール996。
【0070】
結論
例示を目的として本教示の様々な実施形態の説明を提示してきたが、網羅的であること、または開示された実施形態に限定することは意図されていない。説明された実施形態の範囲から逸脱することなく、多くの修正形態および変形形態が当業者にとって明らかとなろう。本明細書において使用される用語法は、実施形態の原理、実践的な用途もしくは市場で見られる技術より優れた技術的な改善を最良に説明するため、または他の当業者が本明細書において開示される実施形態を理解できるように選ばれたものである。
【0071】
前述のことは、最良の状態もしくは他の例またはその両方と考えられるものを説明したが、様々な修正形態が作成され得ること、および本明細書で開示される主題は、様々な形態および例において実装され得ること、また教示は多くの用途に適用することができるが、その一部のみが本明細書で説明されていることを理解されたい。添付の特許請求の範囲によって、本教示の真の範囲に含まれる、あらゆるすべての応用形態、修正形態、および変形形態が請求されることが意図される。
【0072】
本明細書で考察したコンポーネント、ステップ、特徴、目的、ベネフィット、および利点は、例示に過ぎない。それら、またはそれらに関する考察のいずれも、保護の範囲を限定することを意図されない。本明細書では様々な利点が考察されたが、必ずしもすべての実施形態がすべての利点を含むわけではないことを理解されたい。別段に記述されない限り、添付の特許請求の範囲を含めて本明細書に記載のすべての測定値、値、レーティング、位置、程度、大きさ、および他の指定は、おおよそのものであり、正確ではない。これらの値は、関係する機能、および関連する技術分野で通例のものと一貫性のある、妥当な範囲を有することが意図される。
【0073】
多数の他の実施形態もまた、企図される。これらは、より少ないか、追加的であるか、もしくは異なるか、またはそれらの組合せのコンポーネント、ステップ、特徴、目的、ベネフィット、および利点を有する実施形態を含む。これらはまた、コンポーネントもしくはステップまたはその両方が、異なるように配置構成されるか、もしくは順序付けられるか、またはその両方の実施形態を含む。
【0074】
本明細書の図面中におけるフローチャートおよび図は、本開示の様々な実施形態による、可能な実装形態の、アーキテクチャ、機能性、および動作を図示している。
【0075】
前述のことは、例示的な実施形態と併せて説明されたが、「例示的」という用語は、最良または最適ではなく、例であることを意味するに過ぎないことを理解されたい。今述べたことを除き、説明または図示してきたことは、特許請求の範囲に記載されているかどうかに関係なく、あらゆるコンポーネント、ステップ、特徴、目的、ベネフィット、利点、または同等物を一般に公開することを意図するものではなく、そのように解釈されるべきではない。
【0076】
本明細書で使用される用語および表現は、本明細書で別段の特定の意味が説明されている場合を除き、対応する調査および研究の個々の分野に関し、このような用語および表現に与えられる通常の意味を有するものと理解されたい。第1および第2などの関係的な用語は、エンティティまたはアクション同士で、そのような実際の関係性または順序を必ずしも要求することなく、または暗示することなく、1つのエンティティまたはアクションを別のものと区別するために使用されるに過ぎない。「を含む(comprises)」、「を含む(comprising)」という用語、またはそのあらゆる他の変形は、要素の列挙を含むプロセス、方法、物品、または装置が、そのような要素だけではなく、明示的には列挙されない、またはそのようなプロセス、方法、物品、または装置に固有な他の要素も含み得るように、非排他的な包含をカバーするよう意図されている。「1つの、ある(a)」または「1つの、ある(an)」で始まる要素は、さらなる制約なく、その要素を含むプロセス、方法、物品、または装置において、追加的な同一要素の存在を排除するものではない。
【0077】
本開示の要約は、技術的な本開示の性質を読者が素早く理解できるよう与えられる。要約書は、特許請求の範囲または意味を、解釈または限定するために使用されるものではないとの理解で提出されるものである。加えて、前述の詳細な説明では、様々な特徴は、本開示を合理化する目的で様々な実施形態においてグループ化されることが分かる。この開示方法は、特許請求される実施形態が、各請求項で明示的に記載される特徴よりも多くの特徴を有するという意図を反映するものと解釈されてはならない。むしろ、添付の特許請求の範囲が反映するように、発明の主題は、単一の開示される実施形態のすべての特徴に存在するわけではない。故に、それによって添付の特許請求の範囲は詳細な説明に組み込まれ、各請求項は、別個に請求される主題として独立している。
図1
図2
図3
図4
図5
図6
図7
図8
図9
【手続補正書】
【提出日】2023-04-21
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
低リソース・セッティングにおいて自動音声認識のための多言語音響モデルを構築するコンピュータ実装方法であって、前記コンピュータ実装方法は、
ベースライン多言語音響モデルを作成するために、オリジナルの音訳された訓練データを用いて訓練言語のセットに対して多言語ネットワークを訓練することと、
前記多言語ネットワークを通じて、言語のセットからの複数の多言語データ・タイプを処理することによって、翻字を実行し、翻字データのプールを出力することと、
前記多言語音響モデルの再訓練のための前記翻字データの1つまたは複数の部分を選択するために、前記多言語ネットワークから出力された前記翻字データのプールに対してフィルタリング・メトリックを適用することと、
更新された訓練データを取得するために、前記翻字データのプールの前記1つまたは複数の選択された部分を元の前記オリジナルの音訳された訓練データに追加することによって、データ増強を実行することと、
前記多言語ネットワークを通じて前記更新された訓練データを使用して新しい多言語音響モデルを訓練することと
を含む、コンピュータ実装方法。
【請求項2】
前記ベースライン多言語音響モデルを、前記更新された訓練データで再訓練すること
をさらに含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記オリジナルの訓練データが、低リソース言語からのものであり、
前記多言語ネットワークが、各言語のシンボルのセットを別個にモデル化するように構成された、複数の言語特有出力レイヤを含むニューラル・ネットワークを含み、
前記ニューラル・ネットワークが、前記翻字データの言語特有の部分を、少なくとも1つの個別の言語特有出力レイヤに出力する
請求項1または2に記載のコンピュータ実装方法。
【請求項4】
前記翻字データのプールの前記1つまたは複数の選択された部分を元の前記オリジナルの音訳された訓練に前記追加することが、他の言語のシンボルを使用するデータの新しいコピーを含む再ラベル付けされたデータを含む、請求項1~3のいずれか1項に記載のコンピュータ実装方法。
【請求項5】
訓練言語のセットに対して前記多言語ネットワークを前記訓練することが、数十時間の前記オリジナルの音訳データを含む前記オリジナルの音訳された訓練データの前記低リソース言語で実行される、請求項3または4に記載のコンピュータ実装方法。
【請求項6】
ニューラル・ネットワークによって未音訳データを処理することに応答して、半教師ありラベルを生成することをさらに含む、請求項3~5のいずれか1項に記載のコンピュータ実装方法。
【請求項7】
前記翻字データのプールに対して前記フィルタリング・メトリックを前記適用することが、前記翻字データの残りと比べて比較的高いカウントのシンボルを有する前記出力された翻字データの前記1つまたは複数の部分を選択することによって実行される、請求項1~6のいずれか1項に記載のコンピュータ実装方法。
【請求項8】
前記翻字データのプールに対して前記フィルタリング・メトリックを前記適用することが、前記オリジナルの音訳された訓練データを含む発話中のシンボルに対する、前記翻字データ中のシンボルの比を比較すること、およびより高いシンボルの比を有する前記出力された翻字データの1つまたは複数の部分を選択することによって実行される、請求項1~7のいずれか1項に記載のコンピュータ実装方法。
【請求項9】
前記複数の多言語データ・タイプを前記処理することが、音訳された訓練データ、同一の前記訓練言語のセットからの未音訳データ、および異なる言語からの未音訳データを処理することを含む、請求項1~8のいずれか1項に記載のコンピュータ実装方法。
【請求項10】
新しい言語を前記多言語ネットワークに追加することと、
翻字データを前記新しい言語で出力することと
をさらに含む、請求項1~9のいずれか1項に記載のコンピュータ実装方法。
【請求項11】
低リソース・セッティングにおける多言語音響モデルの翻字ベースのデータ増強のために構成された自動音声認識システムであって、前記システムは、
ースライン多言語音響モデルを作成するために、オリジナルの音訳された訓練データを用いて訓練言語のセットに対して多言語ネットワークを訓練することと、
前記多言語ネットワークを通じて、言語のセットからの複数の多言語データ・タイプを処理することによって、翻字を実行し、翻字データのプールを出力することと、
前記多言語音響モデルの再訓練のための前記翻字データの1つまたは複数の部分を選択するために、前記多言語ネットワークから出力された前記翻字データのプールに対してフィルタリング・メトリックを適用することと、
更新された訓練データを取得するために、前記出力された翻字データの前記1つまたは複数の選択された部分を元の前記オリジナルの音訳された訓練データに追加することによって、データ増強を実行することと、
新しい多言語音響モデルを、前記更新された訓練データを使用して訓練することと
を含む動作を実行する
動音声認識システム。
【請求項12】
前記システムは、
前記ベースライン多言語音響モデルを、前記更新された訓練データで再訓練すること
を含む、さらなる動作を実行る、請求項11に記載のシステム。
【請求項13】
前記多言語ネットワークが、各言語のシンボルのセットを別個にモデル化するように構成された、複数の言語特有出力レイヤを含むニューラル・ネットワークを含み、
前記ニューラル・ネットワークが、前記翻字データの言語特有の部分を、少なくとも1つの個別の言語特有出力レイヤに出力するように構成される、請求項11または12に記載のシステム。
【請求項14】
前記システムは、
前記翻字データの残りと比べて比較的高いカウントのシンボルを有する前記出力された翻字データの前記1つまたは複数の部分を選択することによって前記翻字データのプールをフィルタリングすること
を含む、さらなる動作を実行る、請求項11~13のいずれか1項に記載のシステム。
【請求項15】
前記システムは、
前記オリジナルの音訳された訓練データを含む発話中のシンボルに対する、前記翻字データ中のシンボルの比を比較することによって前記翻字データのプールをフィルタリングすることと、
より高いシンボルの比を有する前記出力された翻字データの1つまたは複数の部分を選択することと
を含む、さらなる動作を実行させる、請求項11~14のいずれか1項に記載のシステム。
【請求項16】
前記複数の多言語データ・タイプを前記処理することが、音訳された訓練データ、同一の前記訓練言語のセットからの未音訳データ、および異なる言語からの未音訳データを処理することを含む、請求項11~15のいずれか1項に記載のシステム。
【請求項17】
前記システムは、
新しい言語を前記多言語ネットワークに追加することと、
翻字データを前記新しい言語で出力することと
を含む、さらなる動作を実行る、請求項16に記載のシステム。
【請求項18】
請求項1~10のいずれか1項に記載のコンピュータ実装方法をコンピュータ・システムに実行させるためのコンピュータ実行可能なプログラム。
【請求項19】
請求項18に記載のコンピュータ実行可能なプログラムを格納した、コンピュータ可読な記録媒体。
【請求項20】
非一過性コンピュータ可読記憶媒体であって、前記非一過性コンピュータ可読記憶媒体は、実行されるとコンピュータ・デバイスに、低リソース・セッティングにおいて自動音声認識のための多言語音響モデルを構築する方法を実行させるコンピュータ可読命令を有するコンピュータ可読プログラム・コードを有形に具体化し、前記方法は、
エンドツーエンドな再帰レイヤを有する多言語モデルを、複数の言語から引き出したプールされたデータ・セットに対して訓練することと、
訓練されたネットワークを通じて、発話ごとに音響特徴を順方向パスすることによって音訳された訓練データを翻字することと、
前記ネットワークを訓練するために使用された言語に属する前記ネットワークを通ってデータを順方向パスすることによって、未音訳の訓練データを翻字することと、
発話の翻字された出力におけるシンボル数のカウント、または基準音訳のシンボル数に対する翻字された言語中のシンボル数の比のうちの少なくとも1つを含む、フィルタリング・メトリックを適用することと、
前記翻字データを言語の前記訓練プールに追加することによってデータ増強を実行し、および新しい多言語モデルを訓練することと
を含む、非一過性コンピュータ可読記憶媒体。
【手続補正2】
【補正対象書類名】明細書
【補正対象項目名】0022
【補正方法】変更
【補正の内容】
【0022】
図1】例示の実施形態に従う、多言語ネットワークのアーキテクチャの概観図である。
図2】例示の実施形態に従う、様々なタイプの訓練データおよびフィルタリング・メトリックを伴う、図1の多言語ネットワークの図である。
図3】例示の実施形態に従う、音響モデル・パフォーマンスの図である。
図4】例示の実施形態に従う、音響モデル・パフォーマンスの図である。
図5】例示の実施形態に従う、新しい言語を含むためにモデルをポーティングした後の、単語誤り率(WER%)の観点でのモデル・パフォーマンスの図である。
図6】例示の実施形態に従う、ASRのための多言語音響モデルを構築するコンピュータ実装方法を示すフローチャートである。
図7】例示の実施形態に従う、ASRのための多言語音響モデルを構築する方法を実装するために使用され得る、コンピュータ・ハードウェア・プラットフォームの機能的なブロック図である。
図8】例示の実施形態に従う、例示のクラウド・コンピューティング環境の図である。
図9】例示の実施形態に従う、クラウド・コンピューティング環境によって提供される機能的な抽象レイヤのセットの図である。
【手続補正3】
【補正対象書類名】明細書
【補正対象項目名】0039
【補正方法】変更
【補正の内容】
【0039】
例示のプロセス
例示のアーキテクチャの前述の概観と併せて、次に、例示のプロセスの高レベルの考察を検討することが有用であろう。この目的のため、図1図5と併せて、図6は、例示の実施形態に従う、設定フェーズおよび実行フェーズを含む多言語音響モデルを構築するための動作を図示するフローチャート600を描いている。プロセス600は、ハードウェア、ソフトウェア、またはそれらの組合せとして実装することができる動作のシーケンスを表現する論理的なフローチャートにおける、ブロックの集合として示される。ソフトウェアのコンテキストでは、ブロックは、1つまたは複数のプロセッサによって実行されると、列挙される動作を実行するコンピュータ実行可能命令を表現する。一般的に、コンピュータ実行可能な命令は、機能を実行するか、または抽象的なデータ・タイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、データ構造などを含むことができる。各プロセスにおいて、動作が説明される順序は限定として解釈されるよう意図されておらず、あらゆる数の説明されるブロックは、プロセスを実行するために、あらゆる順序で組み合わせる、もしくは並列に実行される、またはその両方が可能である。
【手続補正4】
【補正対象書類名】明細書
【補正対象項目名】0069
【補正方法】変更
【補正の内容】
【0069】
ワークロード・レイヤ990は、クラウド・コンピューティング環境が利用され得る機能性の例を提供する。このレイヤからもたらされ得るワークロードおよび機能の例として以下が挙げられる:マッピングおよびナビゲーション991、ソフトウェア開発およびライフサイクル管理992、仮想授業教育配信993、データ分析処理994、取引処理995、ならびに本明細書で考察したような、ハイブリッドなクラウドベースのプラットフォーム上で多言語音響モデルに基づく音声認識を実施するためのASRモジュール996。
【国際調査報告】