IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-539875RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス
<>
  • 特表-RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス 図1
  • 特表-RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス 図2
  • 特表-RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス 図3
  • 特表-RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス 図4
  • 特表-RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス 図5
  • 特表-RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス 図6
  • 特表-RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス 図7
  • 特表-RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-31
(54)【発明の名称】RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス
(51)【国際特許分類】
   G10L 15/06 20130101AFI20241024BHJP
【FI】
G10L15/06 300Y
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024522562
(86)(22)【出願日】2022-10-26
(85)【翻訳文提出日】2024-04-15
(86)【国際出願番号】 EP2022079944
(87)【国際公開番号】W WO2023078755
(87)【国際公開日】2023-05-11
(31)【優先権主張番号】17/518,027
(32)【優先日】2021-11-03
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(74)【復代理人】
【識別番号】110000877
【氏名又は名称】弁理士法人RYUKA国際特許事務所
(72)【発明者】
【氏名】福田 隆
(57)【要約】
RNN-Tベースのグローバル英語モデル用トレーニングデータシーケンス複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートする段階、を備える、発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法が提供される。
【特許請求の範囲】
【請求項1】
発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法であって、
複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する;及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする段階
を備える、コンピュータ実装方法。
【請求項2】
それぞれが前記異なる音響特徴量を有する前記複数の音声データセットをデータプールからサンプリングする段階を更に備え、それにより、前記サンプリングされた音声データセットは複数の類似文のセットを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
様々な文を制御するためにスコアペナルティが提示される、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記類似文は、ターゲット言語の異なる方言を有する類似文である、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記発話認識モデルは、前記ターゲット言語用のグローバル発話認識モデルである、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記異なる音声データセットからの前記類似文はミニバッチにグループ化される、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、請求項6に記載のコンピュータ実装方法。
【請求項8】
前記ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む、請求項6に記載のコンピュータ実装方法。
【請求項9】
異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、
【数13】
によって与えられ、ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項1に記載のコンピュータ実装方法。
【請求項10】
前記類似度スコア依存型ペナルティは、
P(d)=γeκd-γ(d>0)
によって与えられ、ここでγ、κはハイパーパラメータである、請求項9に記載のコンピュータ実装方法。
【請求項11】
発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラム製品であって、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、前記プログラム命令は、コンピュータに:
複数の音声データセットを取得させる、各音声データセットは異なる音響特徴量を有する;及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートさせる
ために前記コンピュータによって実行可能である、コンピュータプログラム製品。
【請求項12】
それぞれが前記異なる音響特徴量を有する前記複数の音声データセットがデータプールからサンプリングされ、それにより、前記サンプリングされた音声データセットは複数の類似文のセットを含む、請求項11に記載のコンピュータプログラム製品。
【請求項13】
様々な文を制御するためにスコアペナルティが提示される、請求項12に記載のコンピュータプログラム製品。
【請求項14】
前記類似文は、ターゲット言語の異なる方言を有する類似文である、請求項11に記載のコンピュータプログラム製品。
【請求項15】
前記発話認識モデルは、前記ターゲット言語用のグローバル発話認識モデルである、請求項14に記載のコンピュータプログラム製品。
【請求項16】
前記異なる音声データセットからの前記類似文はミニバッチにグループ化される、請求項11に記載のコンピュータプログラム製品。
【請求項17】
前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、請求項16に記載のコンピュータプログラム製品。
【請求項18】
前記ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む、請求項16に記載のコンピュータプログラム製品。
【請求項19】
異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、
【数14】
によって与えられ、ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項11に記載のコンピュータプログラム製品。
【請求項20】
前記類似度スコア依存型ペナルティは、
P(d)=γeκd-γ(d>0)
によって与えられ、ここでγ、κはハイパーパラメータである、請求項19に記載のコンピュータプログラム製品。
【請求項21】
発話認識モデル用のトレーニングデータを準備するためのシステムであって、
メモリ;及び
前記メモリと通信する1つ又は複数のプロセッサ
を備え、前記1つ又は複数のプロセッサは、
複数の音声データセットを取得する、各音声データセットは異なる音響特徴量を有する;及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする
ように構成されている、システム。
【請求項22】
異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、
【数15】
によって与えられ、ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項21に記載のシステム。
【請求項23】
発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法であって、
複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する;
前記発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする段階;及び
前記異なる音声データセットからの前記類似文をミニバッチにグループ化する段階、ここで前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む
を備える、コンピュータ実装方法。
【請求項24】
異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、
【数16】
によって与えられ、ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項23に記載のコンピュータ実装方法。
【請求項25】
発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラム製品であって、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、前記プログラム命令は、コンピュータに:
複数の音声データセットを取得させる、各音声データセットは異なる音響特徴量を有する;
前記発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートさせる;及び
前記異なる音声データセットからの前記類似文をミニバッチにグループ化させる、ここで前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む
ために前記コンピュータによって実行可能である、コンピュータプログラム製品。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、概して機械学習に関し、より具体的には、リカレントニューラルネットワークトランスデューサ(Recurrent Neural Network Transducer:RNN-T)ベースのグローバル英語モデル用の効率的なトレーニングデータシーケンスを構成するための方法及びシステムに関する。
【背景技術】
【0002】
自動発話認識(Automatic Speech Recognition:ASR)のためのエンドツーエンドモデルは、従来のASRシステムの別個コンポーネント(例えば、音響、発音、及び言語モデル)を単一のニューラルネットワークに畳み込む方法として、近年人気を得ている。そのようなモデルの例は、コネクショニスト時間分類(Connectionist Temporal Classification:CTC)ベースモデル、リカレントニューラルネットワークトランスデューサ(RNN-T)、及びアテンション・ベースseq2seqモデルを含む。これらのモデルのうち、RNN-Tは最も好適なストリーミングエンドツーエンドリコグナイザであり、これは、従来のシステムと比較して競争力のある性能を示している。
【0003】
RNN-Tについて掘り下げる前に、発話認識は、モバイル環境の制約のない機敏な需要を満たすために進化し続けている。ASRシステムの品質を向上させることを目指し、新たな発話認識アーキテクチャ又は既存のアーキテクチャの改良が開発され続けている。説明するならば、発話認識は当初、各モデルが専用の目的を有する、複数のモデルを採用していた。例えば、ASRシステムには、音響モデル(Acoustic Model:AM)、発音モデル(Pronunciation Model:PM)、及び言語モデル(Language Model:LM)が含まれていた。音響モデルは、音声のセグメント(例えば、音声のフレーム)を音素にマッピングした。発音モデルはこれらの音素を繋げて単語を形成し、一方、言語モデルは所与の語句の尤度(例えば、単語のシーケンスの確率)を表すために使用されていた。しかし、これらの個別のモデルは連携して機能したものの、各モデルは独自にトレーニングされ、多くの場合、異なるデータセットで手動で設計された。
【0004】
別個のモデルのアプローチは、特に、所与のモデルについてのトレーニングコーパス(例えば、トレーニングデータの群)が当該モデルの有効性に対応している場合、発話認識システムがかなり正確であることを可能にしたものの、別個のモデルを独自にトレーニングする必要性が、その独自の複雑さをもたらし、統合されたモデルを有するアーキテクチャへと至った。これらの統合されたモデルは、単一のニューラルネットワークを使用して、音声波形(例えば、入力シーケンス)を出力文(例えば、出力シーケンス)に直接マッピングすることを目指した。これにより、音声特徴量のシーケンスを与えられた場合に単語(又は書記素)のシーケンスを生成する、シーケンス・ツー・シーケンス(sequence-to-sequence)のアプローチがもたらされた。シーケンス・ツー・シーケンスモデルの例は、「アテンション・ベース(attention-based)」モデル及び「リッスン・アテンド・スペル(listen-attend-spell:LAS)モデルを含む。LASモデルは、リスナー・コンポーネント、アテンダー・コンポーネント、及びスペラー・コンポーネントを用いて、発話の発声を文字に転写する。ここで、リスナーはリカレントニューラルネットワーク(RNN)エンコーダであり、音声入力(例えば、発話入力の時間周波数表現)を受信して、音声入力をより上位の特徴表現にマッピングする。アテンダーは、入力特徴量及び予測されるサブワードユニット(例えば、書記素又は単語片)の間のアライメントを学習するために、より上位の特徴量に注意を払う。スペラーは、仮定された単語のセットに対する確率分布を生じさせることにより、入力から文字シーケンスを生成するアテンション・ベースのRNNデコーダである。統合された構造により、モデルの全コンポーネントが単一のエンドツーエンド(end-to-end:E2E)ニューラルネットワークとして共同でトレーニングされ得る。ここで、E2Eモデルは、そのアーキテクチャが完全にニューラルネットワークで構築されているモデルを指す。完全なニューラルネットワークは、外部コンポーネント及び/又は手動で設計されたコンポーネント(例えば、有限状態トランスデューサ、語彙集、又はテキスト正規化モジュール)を伴うことなく機能する。加えて、E2Eモデルをトレーニングする場合、これらのモデルは概して、決定木からのブートストラップ又は別個のシステムからのタイムアライメントを必要としない。
【0005】
初期のE2Eモデルは正確であり、個別にトレーニングされたモデルに対してトレーニングが改良されていることが証明されたが、LASモデルなどのこれらのE2Eモデルは、出力テキストを生成する前に入力シーケンス全体をレビューすることによって機能したため、入力が受信されたときに出力をストリーミングすることを可能にしていなかった。ストリーミング能力がなければ、LASモデルはリアルタイムのボイス転写を行うことができない。この欠陥に起因して、レイテンシ感度が高い、又はリアルタイムのボイス転写を必要とする発話アプリケーションに対してLASモデルを展開することは、問題を引き起こし得る。
【0006】
加えて、音響、発音及び言語モデルを有する、又はそのようなモデルが共に構成された発話認識システムは、これらのモデルに関連付けられた比較的大規模な検索グラフを検索しなければならないデコーダに依拠し得る。大規模な検索グラフでは、このタイプの発話認識システムを完全にオンデバイスでホストすることに資さない。ここで、発話認識システムが「オンデバイス」でホストされている場合、音声入力を受信したデバイスは、そのプロセッサを使用して発話認識システムの機能を実行する。例えば、発話認識システムが完全にオンデバイスでホストされている場合、デバイスのプロセッサは、発話認識システムの機能を実行するために任意のオフデバイスのコンピューティングリソースと連携する必要がない。完全にオンデバイスではない発話認識を実行するデバイスは、発話認識システムの少なくとも一部の機能を実行するために、(例えば、リモートコンピューティングシステム又はクラウドコンピューティングの)リモートコンピューティング、ひいてはオンライン接続に依拠する。例えば、発話認識システムは、サーバベースのモデルとのネットワーク接続を用いて大規模な検索グラフでデコーディングを実行する。
【0007】
残念ながら、リモート接続に依拠していることにより、発話認識システムは、レイテンシの問題及び/又は通信ネットワーク固有の信頼性の低さに対して脆弱になる。これらの問題を回避することによって発話認識の有用性を向上させるため、発話認識システムは再び、リカレントニューラルネットワークトランスデューサ(RNN-T)として知られるシーケンス・ツー・シーケンスモデルの形態へと再び進化を遂げた。RNN-Tはアテンション機構を採用しておらず、概して出力(例えば、文)を生じさせるためにシーケンス(例えば、音声波形)全体を処理する必要がある他のシーケンス・ツー・シーケンスモデルとは異なり、RNN-Tは入力サンプルを継続的に処理して出力シンボルをストリーミングし、これはリアルタイム通信にとって特に魅力的な特徴である。例えば、RNN-Tによる発話認識は、話された通りに文字を1つずつ出力し得る。
【0008】
従って、RNN-Tを用いたトレーニングデータシーケンスについてのより効率的なプロセスの必要性が存在する。
【発明の概要】
【0009】
実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法が提供される。コンピュータ実装方法は、複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートする段階、を備える。
【0010】
別の実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、プログラム命令は、コンピュータに、複数の音声データセットを取得させる、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートさせる、ためにコンピュータによって実行可能である。
【0011】
更に別の実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのシステムが提供される。システムは、メモリ、及び、メモリと通信する1つ又は複数のプロセッサ、を備え、1つ又は複数のプロセッサは、複数の音声データセットを取得する、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートするように構成されている。
【0012】
別の実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法が提供される。コンピュータ実装方法は、複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する、発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートする段階、及び、異なる音声データセットからの類似文をミニバッチにグループ化する段階、ここでミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、を備える。
【0013】
更に別の実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、プログラム命令は、コンピュータに、複数の音声データセットを取得させる、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートさせる、及び、異なる音声データセットからの前記類似文をミニバッチにグループ化させる、ここでミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、ためにコンピュータによって実行可能である。
【0014】
好ましい一態様において、それぞれが異なる音響特徴量を有する複数の音声データセットがデータプールからサンプリングされ、それにより、サンプリングされた音声データセットは複数の類似文のセットを含む。
【0015】
別の好ましい態様において、様々な文を制御するためにスコアペナルティが提示される。
【0016】
更に別の好ましい態様において、類似文は、ターゲット言語の異なる方言を有する類似文である。
【0017】
更に別の好ましい態様において、発話認識モデルは、ターゲット言語用のグローバル発話認識モデルである。
【0018】
更に別の好ましい態様において、異なる音声データセットからの類似文はミニバッチにグループ化される。
【0019】
更に別の好ましい態様において、ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む。
【0020】
更に別の好ましい態様において、ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む。
【0021】
更に別の好ましい態様において、異なる音声データセットからの類似文の異なる英語方言間の類似度は、次式によって与えられる。
【0022】
【数1】
ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである。
【0023】
更に別の好ましい態様において、類似度スコア依存型ペナルティは、次式によって与えられる。
【0024】
P(d)=γeκd-γ(d>0)
ここで、γ、κはハイパーパラメータである。
【0025】
例示的な実施形態は、異なる主題を参照して説明されることに留意されたい。特に、幾つかの実施形態は、方法型請求項を参照して説明される一方、他の実施形態は装置型請求項を参照して説明されている。しかしながら、当業者であれば、上記及び以下の説明から、別段に通知されない限り、主題のうちの1つの型に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴間、特に、方法型請求項の特徴、及び装置型請求項の特徴間の任意の組み合わせも本明細書内で説明されているものとみなされると推論するであろう。
【0026】
これらの特徴及び利点、及び、他の特徴及び利点が、それらの例証的実施形態の以下での詳細な説明から明らかになるであろう。この詳細な説明は、添付図面に関連して読まれるべきものである。
【図面の簡単な説明】
【0027】
本発明は、以下の図面を参照し、好ましい実施形態の以下の説明において詳細を提供する。
図1】本発明の実施形態による、グローバル英語モデル(global English model:GEM)構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的なシステムのブロック/フロー図である。
図2】本発明の実施形態による、グローバル英語モデル(GEM)構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的な方法のブロック/フロー図である。
図3】本発明の実施形態による、発話認識モデル用のトレーニングデータを準備するための例示的な方法のブロック/フロー図である。
図4】本発明の実施形態による、従来の方法と対比した、例示的な方法を採用することによる例示的なデータソーティングを示す。
図5】本発明の実施形態による、複数の音声データセットからの文をソートするためのシステムを示す。
図6】本発明の実施形態による、グローバル英語モデル(GEM)構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的な処理システムのブロック/フロー図である。
図7】本発明の実施形態による、例示的なクラウドコンピューティング環境のブロック/フロー図である。
図8】本発明の実施形態による、例示的な抽象化モデル層の概略図である。
【0028】
図面全体にわたって、同一又は類似の参照符号は、同一又は類似の要素を表す。
【発明を実施するための形態】
【0029】
本発明による実施形態は、リカレントニューラルネットワークトランスデューサ(RNN-T)ベースのグローバル英語モデル用の効率的なトレーニングデータシーケンスを構成するための方法及びデバイスを提供する。RNN-Tモデルは、通常、トレーニングデータの対数尤度を向上させることを目的としたRNN-T損失でトレーニングされる。しかしながら、RNN-Tモデルについての逐次トレーニング基準を調査した研究作業は殆どない。
【0030】
現状において、各言語に特化したRNN-Tモデルが別個に構築されている。英語の場合でさえも、英語圏の国ごとに強い方言(訛り)があることから、実用的サービスとして十分な性能を実現するために複数のモデルが独自に作成されている。例えば、アメリカ英語(US)、オーストラリア英語(AU)、及びイギリス英語(UK)モデルが個別の言語として現在展開されている。しかしながら、ユーザビリティ及び維持コストの観点からは、複数の英語方言を単一のモデルで処理する単一の統一された英語モデル(本明細書ではグローバル英語モデル(GEM)と称される)を構築し、展開することが現実的である。GEM構築についての1つの有益な態様は、データサイズに関して良好な均衡を伴って、複数の方言を含む効率的なトレーニングデータを構成することである。通常、それらのデータセットは不均衡である。
【0031】
本発明の例示的な実施形態は、正確なグローバル英語モデル構築のためにより良いトレーニングデータ収集(ソーティング及びサンプリング)を有利に行う方法を導入することにより、そのような問題を軽減する。
【0032】
本発明は、所与の例証的なアーキテクチャに関して説明されるが、しかしながら、本発明の範囲内で他のアーキテクチャ、構造、基板材料及びプロセス特徴及び段階/ブロックが変動し得ることが理解されるべきである。明確性のため、特定の特徴は全ての図面には示され得ないことに留意されたい。これは、任意の特定の実施形態、又は例証、又は特許請求の範囲の範囲の限定として解釈されることを意図するものではない。
【0033】
図1は、本発明の実施形態による、グローバル英語モデル(GEM)構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的なシステムのブロック/フロー図である。
【0034】
従来の方法5において、ランダムサンプリング12、音声の長さに基づくデータソーティング14、及びモデルトレーニング16のために、データ10が提供される。
【0035】
データ10は、例えば、オーストラリア英語のテキスト又はボイスメッセージ、イギリス英語のテキスト又はボイスメッセージ、及びアメリカ英語のテキスト又はボイスメッセージであり得る。
【0036】
対照的に、例示的な実施形態は、方言間の文の類似度に基づくデータサンプリングのためにデータサンプラー22に、次に、方言間の文の類似度に基づくデータソーティングのためにデータソーター24に、データ10が有利に提供され、そして次に、モデルトレーニング26が実行される方法20を導入する。
【0037】
データ10は、例えば、オーストラリア英語のテキスト又はボイスメッセージ、イギリス英語のテキスト又はボイスメッセージ、及びアメリカ英語のテキスト又はボイスメッセージであり得る。
【0038】
このように、方法20は、グローバル英語モデル(GEM)構築のために、異なる方言を有する類似文が音声の長さに対する弱い制約を伴って有利に近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成する。利点は、各ミニバッチが異なる英語方言間の類似文のペアを含むことである。各ミニバッチは、類似した量の方言データを有利に含む。より良いGEM構築のため、同じメトリックが、IBM Watson(登録商標)speech to text(STT)の顧客データなどの現実的なフィールドデータを含む大規模なデータプールからのデータサンプリングにも適用され得る。現実的なビッグデータがいかにして効率的に活用され、GEMのより良いトレーニングデータによって編成され得るかが、本発明の利点である。データサンプリングについての有益な態様は、様々な文を制御するためにスコアペナルティを導入することである。これにより、予測ネットワークトレーニングが単語シーケンスの強い制約によって生じる偏ったテキストに過剰適合しないようにする。
【0039】
IBM Watson(登録商標)STT技術は、顧客セルフサービス、エージェント支援、及び発話分析を含むがこれらに限定されない様々なユースケースにおいて、複数の言語での高速かつ正確な発話転写を可能にする。IBM Watson(登録商標)STTは、例えばWatson(登録商標)アシスタントなどの既存アプリケーション内で、人が、記述されたテキストを様々な言語及びボイスで自然に聞こえる音声に変換することを可能にするアプリケーションプログラミングインタフェース(application programming interface:API)クラウドサービスである。
【0040】
図2は、本発明の実施形態による、グローバル英語モデル(GEM)構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的な方法のブロック/フロー図である。
【0041】
ブロック30で、
【数2】
から発声をランダムに選択することによって、ベース方言のサブセット
【数3】
が作成される。
【0042】
ブロック32で、音声の長さのメトリックで
【数4】
内の発声をソートすることによって、
【数5】
が作成される。
【0043】
ブロック34で、未処理の最短発声
【数6】

【数7】
から選択される。
【0044】
ブロック36で、n=1に設定する。
【0045】
ブロック38で、最高類似度を有する発声が、GEM構築のためのより良いトレーニングサンプルとして、他の方言
【数8】
から抽出される。
【0046】
ブロック40で、n=Nであるかどうかが判定される。「いいえ」の場合、次にブロック42に進み、ここでnはn+1に設定される。「はい」の場合、ブロック44に進む。
【0047】
ブロック44で、
【数9】
内の全ての発声が処理されたかどうかが判定される。「いいえ」の場合、ブロック34に戻る。「はい」の場合、プロセスは終了する。
【0048】
【数10】
は、ベース方言のトレーニングデータセットである。
【0049】
最小量の方言トレーニングデータがベースセットとして使用されるが、これに限定されない。
【0050】
【数11】
は、他の方言のトレーニングデータセットである。(n=1...Nであり、ここでNは他の方言の数である)。
【0051】
方言間の類似度は、
【数12】
として有利に与えられる。
【0052】
ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである。
【0053】
P(d)は、P(d)=γeκd-γ(d>0)によって有利に与えられる。
【0054】
ここで、γ、κはハイパーパラメータである。
【0055】
図3は、本発明の実施形態による、発話認識モデル用のトレーニングデータを準備するための例示的な方法のブロック/フロー図である。
【0056】
ブロック50で、複数の音声データセットを取得し、各音声データセットは異なる音響特徴量を有する。
【0057】
ブロック52で、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットから文を有利にソートする。
【0058】
更に、様々な文を制御するためにスコアペナルティを提示しながら、それぞれが異なる音響特徴量を有する複数の音声データセットがデータプールから有利にサンプリングされ、それにより、サンプリングされた音声データセットは複数の類似文のセットを含む。加えて、類似文は、ターゲット言語の異なる方言を有する類似文であり、発話認識モデルは、ターゲット言語用のグローバル発話認識モデルである。
【0059】
図4は、本発明の実施形態による、従来の方法と対比した、例示的な方法を採用することによる例示的なデータソーティングを示す。
【0060】
ブロック60は、各方言からのランダムな選択を示す。
【0061】
最初の数文はオーストラリア英語(au)であり、次の数文はイギリス英語(uk)であり、最後の数文はアメリカ英語(us)である。
【0062】
このように、文中の単語又は文の長さ又は文の任意の他の特性に関わらず、文は、それらがどのタイプの英語であるか(例えば、au、uk、us)によってグループ化される。
【0063】
ブロック70は、音声の長さによってソートされた文を示す。
【0064】
最初の文(THANK YOU)は最短であり一番上に列挙されており、一方、最後の文(OKAY I JUST WANTED TO ASK YOU TO STAY ON THE LINE FOR A MOMENT WE ARE HERE UNTIL NINE P M)は最長であり一番下に列挙されている。
【0065】
このように、文は、任意の他の要素に関わらず、長さによって列挙される。
【0066】
ブロック80は、例示的な実施形態に従い、類似度によって文を有利にソートする。
【0067】
例えば、第1のグループ82は、「THANK YOU.」という語句を含む3つの文を含む。方言又は長さに関わらず、「THANK YOU.」という語句は3つの文の全てにおいて見られるため、そのような文は、(類似度のみに基づき)82として共にグループ化される。
【0068】
第2のグループ84もまた、3つの文を含む。各文は、「I WILL RING.」という語句を含む。方言又は長さに関わらず、「I WILL RING.」という語句は3つの文の全てにおいて見られるため、そのような文は、(類似度のみに基づき)84として共にグループ化される。
【0069】
第3のグループ86もまた、3つの文を含む。各文は、「WANTS TO DO」又は「WANTS TO KNOW.」という語句を含む。方言又は長さに関わらず、そのような語句は類似しており3つの文の全てにおいて見られるため、そのような文は、(類似度のみに基づき)86として共にグループ化される。
【0070】
第4のグループ88もまた、3つの文を含む。各文は、「OKAY WE'RE HERE」又は「I AH OKAY USED」又は「OKAY I JUST WANTED TO ASK.」のように「OKAY,」という語句を含む。方言又は長さに関わらず、そのような語句は類似しており3つの文の全てにおいて見られるため、そのような文は、(類似度のみに基づき)88として共にグループ化される。
【0071】
従って、異なる方言を有する類似文は有利にも互いに近接して配置され、ひいては(例えば、ミニバッチにおいて)共にグループ化される。換言すれば、グループ化又はミニバッチを判定するために、単語又は語句の近接度又は類似度が分析及び評価される。各グループ82、84、86、88は、ミニバッチと称され得る。ミニバッチは、例えば、3つの文を含み得る。しかしながら、ミニバッチは、3~10の任意の数の文を含み得る。
【0072】
図5は、本発明の実施形態による、複数の音声データセットからの文をソートするためのシステムを示す。
【0073】
一例において、音響特徴量(acoustic feature)92を有する第1の音声データセット90が取得され、音響特徴量102を有する第2の音声データセット100が取得され、かつ音響特徴量112を有する第3の音声データセット110が取得される。音声データセット90、100、110からの文は、発話認識モデル120を効率的にトレーニングするために、類似度又は近接度に関し、ソーター115によって有利にソートされる。図5を参照して上記で説明された通り、類似文は複数のミニバッチにグループ化され得る。
【0074】
更に、音声の長さに弱い制約が課され、従って、ミニバッチを判定するにあたり、類似度の特徴量(feature)、又は変数、又はパラメータが、有利により支配的になる。
【0075】
図6は、本発明の実施形態による、グローバル英語モデル(GEM)構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的な処理システムのブロック/フロー図である。
【0076】
図6は、コンピューティングデバイス205を含む、システム200のコンポーネントのブロック図を示す。図6は、1つの実装の例示を提供しているに過ぎず、異なる実施形態が実装され得る環境に関して何らかの限定を示唆するものではないことを理解されたい。図示された環境に対して多くの修正を行うことができる。
【0077】
コンピューティングデバイス205は、通信ファブリック202を備え、通信ファブリック202は、コンピュータプロセッサ204、メモリ206、永続ストレージ208、通信ユニット210、及び入力/出力(I/O)インタフェース212の間の通信を提供する。通信ファブリック202は、プロセッサ(例えば、マイクロプロセッサ、通信及びネットワークプロセッサ等)、システムメモリ、周辺デバイス、及びシステム内の任意の他のハードウェアコンポーネントの間でデータ及び/又は制御情報を渡すように設計された任意のアーキテクチャを用いて実装され得る。例えば、通信ファブリック202は、1つ又は複数のバスで実装され得る。
【0078】
メモリ206、キャッシュメモリ216、及び永続ストレージ208は、コンピュータ可読記憶媒体である。この実施形態では、メモリ206は、ランダムアクセスメモリ(RAM)214を含む。別の実施形態において、メモリ206は、フラッシュメモリであり得る。概して、メモリ206は、任意の好適な揮発性又は不揮発性のコンピュータ可読記憶媒体を含み得る。
【0079】
本発明の幾つかの実施形態において、プログラム225は、コンピューティングデバイス205のコンポーネントとしてAIアクセラレータチップ222によって含まれて動作する。他の実施形態において、プログラム225は、メモリ206の1つ又は複数のメモリを介し、それぞれのコンピュータプロセッサ204のうちの1つ又は複数と併せて、(RNN-T用のトレーニングデータシーケンスを実装するための)AIアクセラレータチップ222による実行のために永続ストレージ208に記憶される。この実施形態では、永続ストレージ208は、磁気ハードディスクドライブを含む。磁気ハードディスクドライブの代わりに、又はこれに加えて、永続ストレージ208は、ソリッドステートハードドライブ、半導体ストレージデバイス、リードオンリメモリ(ROM)、消去可能プログラマブルリードオンリメモリ(EPROM)、フラッシュメモリ、又はプログラム命令又はデジタル情報を記憶することができる任意の他のコンピュータ可読記憶媒体を含み得る。
【0080】
永続ストレージ208によって使用される媒体はまた、リムーバブルであり得る。例えば、永続ストレージ208のためにリムーバブルハードドライブを使用することができる。他の例は、光ディスク及び磁気ディスク、サムドライブ、及び、永続ストレージ208の一部でもある別のコンピュータ可読記憶媒体に転送されるためにドライブに挿入されるスマートカードを含む。
【0081】
これらの例では、通信ユニット210は、分散データ処理環境のリソースを含む、他のデータ処理システム又はデバイスとの通信を提供する。これらの例において、通信ユニット210は、1つ又は複数のネットワークインタフェースカードを含む。通信ユニット210は、物理通信リンク及びワイヤレス通信リンクのいずれか又は両方の使用を通じて通信を提供することができる。深層学習プログラム225は、通信ユニット210を通じて永続ストレージ208にダウンロードすることができる。
【0082】
I/Oインタフェース212は、コンピューティングシステム200に接続することができる他のデバイスに対するデータの入力及び出力を可能にする。例えば、I/Oインタフェース212は、キーボード、キーパッド、タッチスクリーン、及び/又は他の何らかの好適な入力デバイスなどの外部デバイス218への接続を提供することができる。外部デバイス218は、例えば、サムドライブ、ポータブル光ディスク又は磁気ディスク、及びメモリカードなどのポータブルコンピュータ可読記憶媒体も含むことができる。
【0083】
ディスプレイ220は、ユーザにデータを表示する機構を提供し、例えば、コンピュータモニタであり得る。
【0084】
図7は、本発明の実施形態による例示的なクラウドコンピューティング環境のブロック/フロー図である。
【0085】
本発明は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書において記載される教示の実装は、クラウドコンピューティング環境に限定されないことが理解されるべきである。むしろ、本発明の実施形態は、現在既知又は後に開発される任意の他のタイプのコンピューティング環境と併せて実装されることが可能である。
【0086】
クラウドコンピューティングは、管理の労力又はサービスのプロバイダとの対話を最小限に抑えながら迅速にプロビジョニング及びリリースされ得る構成可能なコンピューティングリソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共有プールに対する便利なオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルである。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、及び少なくとも4つの展開モデルを含み得る。
【0087】
特性は以下の通りである。
オンデマンドセルフサービス:クラウドコンシューマは、サービスプロバイダとの人的対話を要することなく、必要に応じて自動的に、サーバ時間及びネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス:能力は、ネットワークを介して利用可能であり、また、異種混交のシンクライアントプラットフォーム又はシッククライアントプラットフォーム(例えば、モバイル電話、ラップトップ、及びPDA(登録商標))による使用を促進する標準的な機構を通じてアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数のコンシューマにサービス提供するようにプールされており、異なる物理リソース及び仮想リソースが需要に沿って動的に割り当て及び再割り当てされる。コンシューマは概して提供されたリソースの正確なロケーションに対して制御又は知識を有していないが、より高いレベルの抽象化(例えば、国、州、又はデータセンタ)でロケーションを指定することができる場合があるという点で、ロケーションの独立性がある。
迅速な弾力性:能力は迅速に且つ伸縮自在に、場合によっては自動的にプロビジョニングされ、素早くスケールアウトすることも、迅速にリリースして素早くスケールインすることもできる。多くの場合、コンシューマにとって、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入できる。
計測サービス:クラウドシステムは、或る抽象化レベルでサービスのタイプ(例えば、ストレージ、処理、帯域幅、及びアクティブなユーザアカウント)に適した計測能力を活用することにより、リソースの使用を自動的に制御及び最適化する。リソース使用率は、モニタリング、制御、及び、報告され得、利用されるサービスのプロバイダ及びコンシューマの両方に透明性を提供する。
【0088】
サービスモデルは以下の通りである。
サービスとしてのソフトウェア(SaaS):コンシューマに提供される能力は、クラウドインフラストラクチャ上で実行しているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインタフェースを通じて、様々なクライアントデバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージ、又は、個々のアプリケーション能力さえも含む基礎となるクラウドインフラストラクチャを管理又は制御しないが、限定的なユーザ固有のアプリケーション構成設定は例外となる場合がある。
サービスとしてのプラットフォーム(PaaS):コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成された、コンシューマが作成又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む基礎となるクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション及び、場合によっては、アプリケーションホスティング環境の構成を制御する。
サービスとしてのインフラストラクチャ(IaaS):コンシューマに提供される能力は、処理、ストレージ、ネットワーク、及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、コンシューマは、オペレーティングシステム及びアプリケーションを含み得る任意のソフトウェアを展開し、実行させることができる。コンシューマは、基礎となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御し、場合によっては、選択されたネットワーキングコンポーネント(例えば、ホストファイアウォール)を限定的に制御する。
【0089】
展開モデルは以下の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。それは、その組織又は第三者によって管理され得、オンプレミス又はオフプレミスで存在し得る。
コミュニティクラウド:クラウドインフラストラクチャは、複数の組織により共有されており、共有の関心事(例えば、ミッション、セキュリティ要件、ポリシ、及び法令順守に関わる考慮事項)を有する特定のコミュニティをサポートする。それは、その組織又は第三者によって管理され得、オンプレミス又はオフプレミスで存在し得る。
パブリッククラウド:クラウドインフラストラクチャは、一般大衆又は大規模な業界団体にとって利用可能になり、クラウドサービスを販売する組織により所有される。
ハイブリッドクラウド:このクラウドインフラストラクチャは、2つ又はそれより多くのクラウド(プライベート、コミュニティ、又はパブリック)の複合体であり、これは、一意的なエンティティのままであるが、データ及びアプリケーションのポータビリティ(例えば、クラウド間の負荷分散のためのクラウドバースト)を可能にする標準化された技術又は独自技術によって共に結合される。
【0090】
クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性、及び意味的相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中核には、相互接続されたノードからなるネットワークを含むインフラストラクチャが存在する。
【0091】
ここで図7を参照すると、例証的なクラウドコンピューティング環境450は、本発明のユースケースを可能にするために示されている。示されているように、クラウドコンピューティング環境450は、例えば、携帯情報端末(PDA)又はセルラ電話454A、デスクトップコンピュータ454B、ラップトップコンピュータ454C、及び/又は自動車コンピュータシステム454Nなど、クラウドコンシューマによって使用されるローカルコンピューティングデバイスが通信し得る、1つ又は複数のクラウドコンピューティングノード410を含む。ノード410は、互いに通信することができる。それらは、上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド又はハイブリッドクラウド、又はそれらの組み合わせなどの1つ又は複数のネットワークにおいて、物理的又は仮想的にグループ化(不図示)され得る。これにより、クラウドコンピューティング環境450を、インフラストラクチャ、プラットフォーム及び/又はソフトウェアを、クラウドコンシューマがそのためにローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能となる。図7に図示されるコンピューティングデバイス454A~454Nのタイプは、専ら例示的なものを意図し、コンピューティングノード410及びクラウドコンピューティング環境450は、任意のタイプのネットワーク及び/又はネットワークアドレス指定可能な接続(例えば、ウェブブラウザを使用して)を介して、任意のタイプのコンピュータ化されたデバイスと通信可能であることを理解されたい。
【0092】
図8は、本発明の実施形態による例示的な抽象化モデル層の概略図である。図8に示されているコンポーネント、層及び機能は、例示のみが意図されており、本発明の実施形態はこれらに限定されないことを予め理解されたい。図示の通り、以下の層及び対応する機能が提供される。
【0093】
ハードウェア及びソフトウェア層560は、ハードウェア及びソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム561;RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ562;サーバ563;ブレードサーバ564;ストレージデバイス565;及びネットワーク及びネットワーキングコンポーネント566が含まれる。幾つかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア567及びデータベースソフトウェア568を含む。
【0094】
仮想化層570は抽象化層を提供し、抽象化層からは、仮想エンティティの以下の例:仮想サーバ571;仮想ストレージ572;仮想プライベートネットワークを含む仮想ネットワーク573;仮想アプリケーション及びオペレーティングシステム574;及び仮想クライアント575が提供され得る。
【0095】
一例において、管理層580は、以下に説明される機能を提供し得る。リソースプロビジョニング581は、クラウドコンピューティング環境内でタスクを実行するのに利用されるコンピューティングリソース及び他のリソースの動的調達を提供する。計測及び価格設定582は、リソースがクラウドコンピューティング環境内で利用される際のコスト追跡及びこれらのリソースの消費に対する課金又は請求書作成を提供する。一例において、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウドコンシューマ及びタスクについての識別情報検証、並びに、データ及び他のリソースの保護を提供する。ユーザポータル583は、コンシューマ及びシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理584は、必要なサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当て及び管理を提供する。サービスレベル合意(SLA)計画及び履行585は、将来要件がSLAに従って予期されるクラウドコンピューティングリソースの事前の取り決め及び調達を提供する。
【0096】
ワークロード層590は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例には、マッピング及びナビゲーション541;ソフトウェア開発及びライフサイクル管理592;仮想教室教育提供593;データ分析処理594;トランザクション処理595;及びRNN-T用のトレーニングデータシーケンス20が含まれる。
【0097】
本発明は、システム、方法及び/又はコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体(又は複数の媒体)を含み得る。
【0098】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持及び記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、限定されないが、例えば、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又は、前述のものの任意の好適な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下:ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ、リードオンリメモリ、消去可能プログラマブルリードオンリメモリ(EPROM又はフラッシュメモリ)、スタティックランダムアクセスメモリ、ポータブルコンパクトディスクリードオンリメモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の好適な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波又は他の自由に伝搬する電磁波、導波路又は他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、又はワイヤを通じて伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。
【0099】
本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング/処理デバイスに、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び/又はワイヤレスネットワークを介して、外部コンピュータ又は外部ストレージデバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び/又はエッジサーバを含み得る。各コンピューティング/処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。
【0100】
本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Smalltalk(登録商標)、C++等のようなオブジェクト指向型プログラミング言語、及び、「C」プログラミング言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行され得、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行され得、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行され得、又はリモートコンピュータ又はサーバ上で完全に実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)又はワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され得、又はその接続は、(例えば、インターネットサービスプロバイダを使用してインターネットを通じて)外部コンピュータに対して行われ得る。幾つかの実施形態において、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ(FPGA)、又はプログラマブルロジックアレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズすることができる。
【0101】
本発明の態様は、本明細書において、本発明の実施形態による方法、装置(システム)、及びコンピュータプログラム製品のフローチャート図及び/又はブロック図を参照して説明される。フローチャート図及び/又はブロック図の各のブロック、及び、フローチャート図及び/又はブロック図におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装され得ることが理解されよう。
【0102】
これらのコンピュータ可読プログラム命令を汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のうちの少なくとも1つのプロセッサに提供してマシンを生じさせることができ、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び/又はブロック図の単数又は複数のブロック又はモジュールで指定された機能/作用を実装するための手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶することができ、この命令は、コンピュータ、プログラマブルデータ処理装置及び/又は他のデバイスに対し、特定の様式で機能するよう指示することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート及び/又はブロック図の単数又は複数のブロック又はモジュールで指定された機能/作用の態様を実装する命令を含む製品を含むようになる。
【0103】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、一連の動作ブロック/段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させてコンピュータ実装プロセスを生じさせることができ、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート及び/又はブロック図の単数又は複数のブロック又はモジュールで指定された機能/作用を実装するようになる。
【0104】
図におけるフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する1つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は部分を表すことができる。幾つかの代替的実装形態において、ブロックに記載された機能は、図に記載された順序とは別の順序で生じ得る。例えば、連続して示される2つのブロックは、実際に、関与する機能性に応じて、実質的に同時に実行され得、又は、ブロックは場合によっては、逆の順序で実行され得る。ブロック図及び/又はフローチャート図の各ブロック、及び、ブロック図及び/又はフローチャート図におけるブロックの組み合わせは、指定された機能又は作用を実行する、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムにより実装され得ることにも留意されたい。
【0105】
明細書における本原理の「一実施形態」又は「実施形態」、並びにそれらの他の変形についての言及は、その実施形態に関連して説明される特定の特徴、構造、特性等が本原理の少なくとも1つの実施形態に含まれることを意味する。そのため、本明細書の全体にわたり様々な箇所に出現する、「一実施形態において」又は「実施形態において」という語句、並びに任意の他の変形の出現は、必ずしも全てが同じ実施形態に言及しているわけではない。
【0106】
以下の「/」、「及び/又は」、及び「のうちの少なくとも1つ」のいずれかの使用は、例えば、「A/B」、「A及び/又はB」、及び「A及びBのうちの少なくとも1つ」の場合、第1の列挙される選択肢(A)のみの選択、又は、第2の列挙される選択肢(B)のみの選択、又は、両方の選択肢(A及びB)の選択を包含することが意図されることを理解されたい。更なる例として、「A、B、及び/又はC」、及び「A、B、及びCのうちの少なくとも1つ」の場合において、そのような語句は、第1の列挙される選択肢(A)のみの選択、又は、第2の列挙される選択肢(B)のみの選択、又は、第3の列挙される選択肢(C)のみの選択、又は、第1及び第2の列挙される選択肢(A及びB)のみの選択、又は、第1及び第3の列挙される選択肢(A及びC)のみの選択、又は、第2及び第3の列挙される選択肢(B及びC)のみの選択、又は、3つの選択肢全て(A及びB及びC)の選択を包含することが意図される。これは、この技術分野及び関連技術分野において当業者によって容易に明らかであるように、列挙される多くの項目に対しても拡張することができる。
【0107】
リカレントニューラルネットワークトランスデューサ(RNN-T)ベースのグローバル英語モデル用の効率的なトレーニングデータシーケンスを構成するための方法及びシステムの好ましい実施形態(これは、例証的なものであって、限定的であることを意図していない)について説明してきたが、上記の教示に照らし、当業者によって修正及び変形がなされ得ることに留意されたい。従って、説明された特定の実施形態において、添付の特許請求の範囲によって概説されているような本発明の範囲内である変更が行われ得ることが理解されるべきである。このように、本発明の態様を、特許法により必要とされる詳細及び特殊性を伴って説明してきたが、特許請求される事柄、及び、特許証により保護されることが所望される事柄は、添付の特許請求の範囲に記載される。
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2024-05-15
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法であって、
複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する;及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする段階
を備える、コンピュータ実装方法。
【請求項2】
それぞれが前記異なる音響特徴量を有する前記複数の音声データセットをデータプールからサンプリングする段階を更に備え、それにより、前記サンプリングされた音声データセットは複数の類似文のセットを含む、請求項1に記載のコンピュータ実装方法。
【請求項3】
様々な文を制御するためにスコアペナルティが提示される、請求項2に記載のコンピュータ実装方法。
【請求項4】
前記類似文は、ターゲット言語の異なる方言を有する類似文である、請求項1に記載のコンピュータ実装方法。
【請求項5】
前記発話認識モデルは、前記ターゲット言語用のグローバル発話認識モデルである、請求項4に記載のコンピュータ実装方法。
【請求項6】
前記異なる音声データセットからの前記類似文はミニバッチにグループ化される、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、請求項6に記載のコンピュータ実装方法。
【請求項8】
前記ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む、請求項6に記載のコンピュータ実装方法。
【請求項9】
異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、
【数13】
によって与えられ、ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項1に記載のコンピュータ実装方法。
【請求項10】
前記類似度スコア依存型ペナルティは、
P(d)=γeκd-γ(d>0)
によって与えられ、ここでγ、κはハイパーパラメータである、請求項9に記載のコンピュータ実装方法。
【請求項11】
発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラムであって記コンピュータプログラムは、コンピュータに:
複数の音声データセットを取得する手順、各音声データセットは異なる音響特徴量を有する;及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする手順
を実行させるためのコンピュータプログラム。
【請求項12】
それぞれが前記異なる音響特徴量を有する前記複数の音声データセットがデータプールからサンプリングされ、それにより、前記サンプリングされた音声データセットは複数の類似文のセットを含む、請求項11に記載のコンピュータプログラム。
【請求項13】
様々な文を制御するためにスコアペナルティが提示される、請求項12に記載のコンピュータプログラム。
【請求項14】
前記類似文は、ターゲット言語の異なる方言を有する類似文である、請求項11に記載のコンピュータプログラム。
【請求項15】
前記発話認識モデルは、前記ターゲット言語用のグローバル発話認識モデルである、請求項14に記載のコンピュータプログラム。
【請求項16】
前記異なる音声データセットからの前記類似文はミニバッチにグループ化される、請求項11に記載のコンピュータプログラム。
【請求項17】
前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、請求項16に記載のコンピュータプログラム。
【請求項18】
前記ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む、請求項16に記載のコンピュータプログラム。
【請求項19】
異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、
【数14】
によって与えられ、ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項11に記載のコンピュータプログラム。
【請求項20】
前記類似度スコア依存型ペナルティは、
P(d)=γeκd-γ(d>0)
によって与えられ、ここでγ、κはハイパーパラメータである、請求項19に記載のコンピュータプログラム。
【請求項21】
発話認識モデル用のトレーニングデータを準備するためのシステムであって、
メモリ;及び
前記メモリと通信する1つ又は複数のプロセッサ
を備え、前記1つ又は複数のプロセッサは、
複数の音声データセットを取得する、各音声データセットは異なる音響特徴量を有する;及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする
ように構成されている、システム。
【請求項22】
異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、
【数15】
によって与えられ、ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項21に記載のシステム。
【請求項23】
発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法であって、
複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する;
前記発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする段階;及び
前記異なる音声データセットからの前記類似文をミニバッチにグループ化する段階、ここで前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む
を備える、コンピュータ実装方法。
【請求項24】
異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、
【数16】
によって与えられ、ここでF(a,b)は、n個の単語シーケンスの単語ベクトルに基づく文a及び文bの間の距離であり、P(d)は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項23に記載のコンピュータ実装方法。
【請求項25】
発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラムであって、前記コンピュータプログラムは、コンピュータに:
複数の音声データセットを取得する手順、各音声データセットは異なる音響特徴量を有する;
前記発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする手順;及び
前記異なる音声データセットからの前記類似文をミニバッチにグループ化する手順、ここで前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含
を実行させるためのコンピュータプログラム。
【国際調査報告】