特表2024-539875 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-539875ＲＮＮ－Ｔベースのグローバル英語モデル用トレーニングデータシーケンス

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-10-31

(54)【発明の名称】ＲＮＮ－Ｔベースのグローバル英語モデル用トレーニングデータシーケンス

(51)【国際特許分類】

G10L 15/06 20130101AFI20241024BHJP

【ＦＩ】

G10L15/06 300Y

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024522562

(86)(22)【出願日】2022-10-26

(85)【翻訳文提出日】2024-04-15

(86)【国際出願番号】 EP2022079944

(87)【国際公開番号】W WO2023078755

(87)【国際公開日】2023-05-11

(31)【優先権主張番号】17/518,027

(32)【優先日】2021-11-03

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(74)【復代理人】

【識別番号】110000877

【氏名又は名称】弁理士法人ＲＹＵＫＡ国際特許事務所

(72)【発明者】

【氏名】福田隆

(57)【要約】

ＲＮＮ－Ｔベースのグローバル英語モデル用トレーニングデータシーケンス複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートする段階、を備える、発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法が提供される。

【特許請求の範囲】

【請求項1】

発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法であって、
複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する；及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする段階
を備える、コンピュータ実装方法。

【請求項2】

それぞれが前記異なる音響特徴量を有する前記複数の音声データセットをデータプールからサンプリングする段階を更に備え、それにより、前記サンプリングされた音声データセットは複数の類似文のセットを含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

様々な文を制御するためにスコアペナルティが提示される、請求項２に記載のコンピュータ実装方法。

【請求項4】

前記類似文は、ターゲット言語の異なる方言を有する類似文である、請求項１に記載のコンピュータ実装方法。

【請求項5】

前記発話認識モデルは、前記ターゲット言語用のグローバル発話認識モデルである、請求項４に記載のコンピュータ実装方法。

【請求項6】

前記異なる音声データセットからの前記類似文はミニバッチにグループ化される、請求項１に記載のコンピュータ実装方法。

【請求項7】

前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、請求項６に記載のコンピュータ実装方法。

【請求項8】

前記ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む、請求項６に記載のコンピュータ実装方法。

【請求項9】

異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、

【数13】

によって与えられ、ここでＦ（ａ，ｂ）は、ｎ個の単語シーケンスの単語ベクトルに基づく文ａ及び文ｂの間の距離であり、Ｐ（ｄ）は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項１に記載のコンピュータ実装方法。

【請求項10】

前記類似度スコア依存型ペナルティは、
Ｐ（ｄ）＝γｅ^κｄ－γ（ｄ＞０）
によって与えられ、ここでγ、κはハイパーパラメータである、請求項９に記載のコンピュータ実装方法。

【請求項11】

発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラム製品であって、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、前記プログラム命令は、コンピュータに：
複数の音声データセットを取得させる、各音声データセットは異なる音響特徴量を有する；及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートさせる
ために前記コンピュータによって実行可能である、コンピュータプログラム製品。

【請求項12】

それぞれが前記異なる音響特徴量を有する前記複数の音声データセットがデータプールからサンプリングされ、それにより、前記サンプリングされた音声データセットは複数の類似文のセットを含む、請求項１１に記載のコンピュータプログラム製品。

【請求項13】

様々な文を制御するためにスコアペナルティが提示される、請求項１２に記載のコンピュータプログラム製品。

【請求項14】

前記類似文は、ターゲット言語の異なる方言を有する類似文である、請求項１１に記載のコンピュータプログラム製品。

【請求項15】

前記発話認識モデルは、前記ターゲット言語用のグローバル発話認識モデルである、請求項１４に記載のコンピュータプログラム製品。

【請求項16】

前記異なる音声データセットからの前記類似文はミニバッチにグループ化される、請求項１１に記載のコンピュータプログラム製品。

【請求項17】

前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、請求項１６に記載のコンピュータプログラム製品。

【請求項18】

前記ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む、請求項１６に記載のコンピュータプログラム製品。

【請求項19】

異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、

【数14】

によって与えられ、ここでＦ（ａ，ｂ）は、ｎ個の単語シーケンスの単語ベクトルに基づく文ａ及び文ｂの間の距離であり、Ｐ（ｄ）は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項１１に記載のコンピュータプログラム製品。

【請求項20】

前記類似度スコア依存型ペナルティは、
Ｐ（ｄ）＝γｅ^κｄ－γ（ｄ＞０）
によって与えられ、ここでγ、κはハイパーパラメータである、請求項１９に記載のコンピュータプログラム製品。

【請求項21】

発話認識モデル用のトレーニングデータを準備するためのシステムであって、
メモリ；及び
前記メモリと通信する１つ又は複数のプロセッサ
を備え、前記１つ又は複数のプロセッサは、
複数の音声データセットを取得する、各音声データセットは異なる音響特徴量を有する；及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする
ように構成されている、システム。

【請求項22】

異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、

【数15】

によって与えられ、ここでＦ（ａ，ｂ）は、ｎ個の単語シーケンスの単語ベクトルに基づく文ａ及び文ｂの間の距離であり、Ｐ（ｄ）は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項２１に記載のシステム。

【請求項23】

発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法であって、
複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する；
前記発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする段階；及び
前記異なる音声データセットからの前記類似文をミニバッチにグループ化する段階、ここで前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む
を備える、コンピュータ実装方法。

【請求項24】

異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、

【数16】

によって与えられ、ここでＦ（ａ，ｂ）は、ｎ個の単語シーケンスの単語ベクトルに基づく文ａ及び文ｂの間の距離であり、Ｐ（ｄ）は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項２３に記載のコンピュータ実装方法。

【請求項25】

発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラム製品であって、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、前記プログラム命令は、コンピュータに：
複数の音声データセットを取得させる、各音声データセットは異なる音響特徴量を有する；
前記発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートさせる；及び
前記異なる音声データセットからの前記類似文をミニバッチにグループ化させる、ここで前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む
ために前記コンピュータによって実行可能である、コンピュータプログラム製品。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、概して機械学習に関し、より具体的には、リカレントニューラルネットワークトランスデューサ（ＲｅｃｕｒｒｅｎｔＮｅｕｒａｌＮｅｔｗｏｒｋＴｒａｎｓｄｕｃｅｒ：ＲＮＮ－Ｔ）ベースのグローバル英語モデル用の効率的なトレーニングデータシーケンスを構成するための方法及びシステムに関する。

【背景技術】

【0002】

自動発話認識（ＡｕｔｏｍａｔｉｃＳｐｅｅｃｈＲｅｃｏｇｎｉｔｉｏｎ：ＡＳＲ）のためのエンドツーエンドモデルは、従来のＡＳＲシステムの別個コンポーネント（例えば、音響、発音、及び言語モデル）を単一のニューラルネットワークに畳み込む方法として、近年人気を得ている。そのようなモデルの例は、コネクショニスト時間分類（ＣｏｎｎｅｃｔｉｏｎｉｓｔＴｅｍｐｏｒａｌＣｌａｓｓｉｆｉｃａｔｉｏｎ：ＣＴＣ）ベースモデル、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）、及びアテンション・ベースｓｅｑ２ｓｅｑモデルを含む。これらのモデルのうち、ＲＮＮ－Ｔは最も好適なストリーミングエンドツーエンドリコグナイザであり、これは、従来のシステムと比較して競争力のある性能を示している。

【0003】

ＲＮＮ－Ｔについて掘り下げる前に、発話認識は、モバイル環境の制約のない機敏な需要を満たすために進化し続けている。ＡＳＲシステムの品質を向上させることを目指し、新たな発話認識アーキテクチャ又は既存のアーキテクチャの改良が開発され続けている。説明するならば、発話認識は当初、各モデルが専用の目的を有する、複数のモデルを採用していた。例えば、ＡＳＲシステムには、音響モデル（ＡｃｏｕｓｔｉｃＭｏｄｅｌ：ＡＭ）、発音モデル（ＰｒｏｎｕｎｃｉａｔｉｏｎＭｏｄｅｌ：ＰＭ）、及び言語モデル（ＬａｎｇｕａｇｅＭｏｄｅｌ：ＬＭ）が含まれていた。音響モデルは、音声のセグメント（例えば、音声のフレーム）を音素にマッピングした。発音モデルはこれらの音素を繋げて単語を形成し、一方、言語モデルは所与の語句の尤度（例えば、単語のシーケンスの確率）を表すために使用されていた。しかし、これらの個別のモデルは連携して機能したものの、各モデルは独自にトレーニングされ、多くの場合、異なるデータセットで手動で設計された。

【0004】

別個のモデルのアプローチは、特に、所与のモデルについてのトレーニングコーパス（例えば、トレーニングデータの群）が当該モデルの有効性に対応している場合、発話認識システムがかなり正確であることを可能にしたものの、別個のモデルを独自にトレーニングする必要性が、その独自の複雑さをもたらし、統合されたモデルを有するアーキテクチャへと至った。これらの統合されたモデルは、単一のニューラルネットワークを使用して、音声波形（例えば、入力シーケンス）を出力文（例えば、出力シーケンス）に直接マッピングすることを目指した。これにより、音声特徴量のシーケンスを与えられた場合に単語（又は書記素）のシーケンスを生成する、シーケンス・ツー・シーケンス（ｓｅｑｕｅｎｃｅ－ｔｏ－ｓｅｑｕｅｎｃｅ）のアプローチがもたらされた。シーケンス・ツー・シーケンスモデルの例は、「アテンション・ベース（ａｔｔｅｎｔｉｏｎ－ｂａｓｅｄ）」モデル及び「リッスン・アテンド・スペル（ｌｉｓｔｅｎ－ａｔｔｅｎｄ－ｓｐｅｌｌ：ＬＡＳ）モデルを含む。ＬＡＳモデルは、リスナー・コンポーネント、アテンダー・コンポーネント、及びスペラー・コンポーネントを用いて、発話の発声を文字に転写する。ここで、リスナーはリカレントニューラルネットワーク（ＲＮＮ）エンコーダであり、音声入力（例えば、発話入力の時間周波数表現）を受信して、音声入力をより上位の特徴表現にマッピングする。アテンダーは、入力特徴量及び予測されるサブワードユニット（例えば、書記素又は単語片）の間のアライメントを学習するために、より上位の特徴量に注意を払う。スペラーは、仮定された単語のセットに対する確率分布を生じさせることにより、入力から文字シーケンスを生成するアテンション・ベースのＲＮＮデコーダである。統合された構造により、モデルの全コンポーネントが単一のエンドツーエンド（ｅｎｄ－ｔｏ－ｅｎｄ：Ｅ２Ｅ）ニューラルネットワークとして共同でトレーニングされ得る。ここで、Ｅ２Ｅモデルは、そのアーキテクチャが完全にニューラルネットワークで構築されているモデルを指す。完全なニューラルネットワークは、外部コンポーネント及び／又は手動で設計されたコンポーネント（例えば、有限状態トランスデューサ、語彙集、又はテキスト正規化モジュール）を伴うことなく機能する。加えて、Ｅ２Ｅモデルをトレーニングする場合、これらのモデルは概して、決定木からのブートストラップ又は別個のシステムからのタイムアライメントを必要としない。

【0005】

初期のＥ２Ｅモデルは正確であり、個別にトレーニングされたモデルに対してトレーニングが改良されていることが証明されたが、ＬＡＳモデルなどのこれらのＥ２Ｅモデルは、出力テキストを生成する前に入力シーケンス全体をレビューすることによって機能したため、入力が受信されたときに出力をストリーミングすることを可能にしていなかった。ストリーミング能力がなければ、ＬＡＳモデルはリアルタイムのボイス転写を行うことができない。この欠陥に起因して、レイテンシ感度が高い、又はリアルタイムのボイス転写を必要とする発話アプリケーションに対してＬＡＳモデルを展開することは、問題を引き起こし得る。

【0006】

加えて、音響、発音及び言語モデルを有する、又はそのようなモデルが共に構成された発話認識システムは、これらのモデルに関連付けられた比較的大規模な検索グラフを検索しなければならないデコーダに依拠し得る。大規模な検索グラフでは、このタイプの発話認識システムを完全にオンデバイスでホストすることに資さない。ここで、発話認識システムが「オンデバイス」でホストされている場合、音声入力を受信したデバイスは、そのプロセッサを使用して発話認識システムの機能を実行する。例えば、発話認識システムが完全にオンデバイスでホストされている場合、デバイスのプロセッサは、発話認識システムの機能を実行するために任意のオフデバイスのコンピューティングリソースと連携する必要がない。完全にオンデバイスではない発話認識を実行するデバイスは、発話認識システムの少なくとも一部の機能を実行するために、（例えば、リモートコンピューティングシステム又はクラウドコンピューティングの）リモートコンピューティング、ひいてはオンライン接続に依拠する。例えば、発話認識システムは、サーバベースのモデルとのネットワーク接続を用いて大規模な検索グラフでデコーディングを実行する。

【0007】

残念ながら、リモート接続に依拠していることにより、発話認識システムは、レイテンシの問題及び／又は通信ネットワーク固有の信頼性の低さに対して脆弱になる。これらの問題を回避することによって発話認識の有用性を向上させるため、発話認識システムは再び、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）として知られるシーケンス・ツー・シーケンスモデルの形態へと再び進化を遂げた。ＲＮＮ－Ｔはアテンション機構を採用しておらず、概して出力（例えば、文）を生じさせるためにシーケンス（例えば、音声波形）全体を処理する必要がある他のシーケンス・ツー・シーケンスモデルとは異なり、ＲＮＮ－Ｔは入力サンプルを継続的に処理して出力シンボルをストリーミングし、これはリアルタイム通信にとって特に魅力的な特徴である。例えば、ＲＮＮ－Ｔによる発話認識は、話された通りに文字を１つずつ出力し得る。

【0008】

従って、ＲＮＮ－Ｔを用いたトレーニングデータシーケンスについてのより効率的なプロセスの必要性が存在する。

【発明の概要】

【0009】

実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法が提供される。コンピュータ実装方法は、複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートする段階、を備える。

【0010】

別の実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、プログラム命令は、コンピュータに、複数の音声データセットを取得させる、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートさせる、ためにコンピュータによって実行可能である。

【0011】

更に別の実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのシステムが提供される。システムは、メモリ、及び、メモリと通信する１つ又は複数のプロセッサ、を備え、１つ又は複数のプロセッサは、複数の音声データセットを取得する、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートするように構成されている。

【0012】

別の実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのコンピュータ実装方法が提供される。コンピュータ実装方法は、複数の音声データセットを取得する段階、各音声データセットは異なる音響特徴量を有する、発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートする段階、及び、異なる音声データセットからの類似文をミニバッチにグループ化する段階、ここでミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、を備える。

【0013】

更に別の実施形態によれば、発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラム製品が提供される。コンピュータプログラム製品は、プログラム命令が具現化されたコンピュータ可読記憶媒体を備え、プログラム命令は、コンピュータに、複数の音声データセットを取得させる、各音声データセットは異なる音響特徴量を有する、及び、発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットからの文をソートさせる、及び、異なる音声データセットからの前記類似文をミニバッチにグループ化させる、ここでミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、ためにコンピュータによって実行可能である。

【0014】

好ましい一態様において、それぞれが異なる音響特徴量を有する複数の音声データセットがデータプールからサンプリングされ、それにより、サンプリングされた音声データセットは複数の類似文のセットを含む。

【0015】

別の好ましい態様において、様々な文を制御するためにスコアペナルティが提示される。

【0016】

更に別の好ましい態様において、類似文は、ターゲット言語の異なる方言を有する類似文である。

【0017】

更に別の好ましい態様において、発話認識モデルは、ターゲット言語用のグローバル発話認識モデルである。

【0018】

更に別の好ましい態様において、異なる音声データセットからの類似文はミニバッチにグループ化される。

【0019】

更に別の好ましい態様において、ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む。

【0020】

更に別の好ましい態様において、ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む。

【0021】

更に別の好ましい態様において、異なる音声データセットからの類似文の異なる英語方言間の類似度は、次式によって与えられる。

【0022】

【数1】

ここでＦ（ａ，ｂ）は、ｎ個の単語シーケンスの単語ベクトルに基づく文ａ及び文ｂの間の距離であり、Ｐ（ｄ）は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである。

【0023】

更に別の好ましい態様において、類似度スコア依存型ペナルティは、次式によって与えられる。

【0024】

Ｐ（ｄ）＝γｅ^κｄ－γ（ｄ＞０）
ここで、γ、κはハイパーパラメータである。

【0025】

例示的な実施形態は、異なる主題を参照して説明されることに留意されたい。特に、幾つかの実施形態は、方法型請求項を参照して説明される一方、他の実施形態は装置型請求項を参照して説明されている。しかしながら、当業者であれば、上記及び以下の説明から、別段に通知されない限り、主題のうちの１つの型に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴間、特に、方法型請求項の特徴、及び装置型請求項の特徴間の任意の組み合わせも本明細書内で説明されているものとみなされると推論するであろう。

【0026】

これらの特徴及び利点、及び、他の特徴及び利点が、それらの例証的実施形態の以下での詳細な説明から明らかになるであろう。この詳細な説明は、添付図面に関連して読まれるべきものである。

【図面の簡単な説明】

【0027】

本発明は、以下の図面を参照し、好ましい実施形態の以下の説明において詳細を提供する。

【図1】本発明の実施形態による、グローバル英語モデル（ｇｌｏｂａｌＥｎｇｌｉｓｈｍｏｄｅｌ：ＧＥＭ）構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的なシステムのブロック／フロー図である。

【図2】本発明の実施形態による、グローバル英語モデル（ＧＥＭ）構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的な方法のブロック／フロー図である。

【図3】本発明の実施形態による、発話認識モデル用のトレーニングデータを準備するための例示的な方法のブロック／フロー図である。

【図4】本発明の実施形態による、従来の方法と対比した、例示的な方法を採用することによる例示的なデータソーティングを示す。

【図5】本発明の実施形態による、複数の音声データセットからの文をソートするためのシステムを示す。

【図6】本発明の実施形態による、グローバル英語モデル（ＧＥＭ）構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的な処理システムのブロック／フロー図である。

【図7】本発明の実施形態による、例示的なクラウドコンピューティング環境のブロック／フロー図である。

【図8】本発明の実施形態による、例示的な抽象化モデル層の概略図である。

【0028】

図面全体にわたって、同一又は類似の参照符号は、同一又は類似の要素を表す。

【発明を実施するための形態】

【0029】

本発明による実施形態は、リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）ベースのグローバル英語モデル用の効率的なトレーニングデータシーケンスを構成するための方法及びデバイスを提供する。ＲＮＮ－Ｔモデルは、通常、トレーニングデータの対数尤度を向上させることを目的としたＲＮＮ－Ｔ損失でトレーニングされる。しかしながら、ＲＮＮ－Ｔモデルについての逐次トレーニング基準を調査した研究作業は殆どない。

【0030】

現状において、各言語に特化したＲＮＮ－Ｔモデルが別個に構築されている。英語の場合でさえも、英語圏の国ごとに強い方言（訛り）があることから、実用的サービスとして十分な性能を実現するために複数のモデルが独自に作成されている。例えば、アメリカ英語（ＵＳ）、オーストラリア英語（ＡＵ）、及びイギリス英語（ＵＫ）モデルが個別の言語として現在展開されている。しかしながら、ユーザビリティ及び維持コストの観点からは、複数の英語方言を単一のモデルで処理する単一の統一された英語モデル（本明細書ではグローバル英語モデル（ＧＥＭ）と称される）を構築し、展開することが現実的である。ＧＥＭ構築についての１つの有益な態様は、データサイズに関して良好な均衡を伴って、複数の方言を含む効率的なトレーニングデータを構成することである。通常、それらのデータセットは不均衡である。

【0031】

本発明の例示的な実施形態は、正確なグローバル英語モデル構築のためにより良いトレーニングデータ収集（ソーティング及びサンプリング）を有利に行う方法を導入することにより、そのような問題を軽減する。

【0032】

本発明は、所与の例証的なアーキテクチャに関して説明されるが、しかしながら、本発明の範囲内で他のアーキテクチャ、構造、基板材料及びプロセス特徴及び段階／ブロックが変動し得ることが理解されるべきである。明確性のため、特定の特徴は全ての図面には示され得ないことに留意されたい。これは、任意の特定の実施形態、又は例証、又は特許請求の範囲の範囲の限定として解釈されることを意図するものではない。

【0033】

図１は、本発明の実施形態による、グローバル英語モデル（ＧＥＭ）構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的なシステムのブロック／フロー図である。

【0034】

従来の方法５において、ランダムサンプリング１２、音声の長さに基づくデータソーティング１４、及びモデルトレーニング１６のために、データ１０が提供される。

【0035】

データ１０は、例えば、オーストラリア英語のテキスト又はボイスメッセージ、イギリス英語のテキスト又はボイスメッセージ、及びアメリカ英語のテキスト又はボイスメッセージであり得る。

【0036】

対照的に、例示的な実施形態は、方言間の文の類似度に基づくデータサンプリングのためにデータサンプラー２２に、次に、方言間の文の類似度に基づくデータソーティングのためにデータソーター２４に、データ１０が有利に提供され、そして次に、モデルトレーニング２６が実行される方法２０を導入する。

【0037】

【0038】

このように、方法２０は、グローバル英語モデル（ＧＥＭ）構築のために、異なる方言を有する類似文が音声の長さに対する弱い制約を伴って有利に近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成する。利点は、各ミニバッチが異なる英語方言間の類似文のペアを含むことである。各ミニバッチは、類似した量の方言データを有利に含む。より良いＧＥＭ構築のため、同じメトリックが、ＩＢＭＷａｔｓｏｎ（登録商標）ｓｐｅｅｃｈｔｏｔｅｘｔ（ＳＴＴ）の顧客データなどの現実的なフィールドデータを含む大規模なデータプールからのデータサンプリングにも適用され得る。現実的なビッグデータがいかにして効率的に活用され、ＧＥＭのより良いトレーニングデータによって編成され得るかが、本発明の利点である。データサンプリングについての有益な態様は、様々な文を制御するためにスコアペナルティを導入することである。これにより、予測ネットワークトレーニングが単語シーケンスの強い制約によって生じる偏ったテキストに過剰適合しないようにする。

【0039】

ＩＢＭＷａｔｓｏｎ（登録商標）ＳＴＴ技術は、顧客セルフサービス、エージェント支援、及び発話分析を含むがこれらに限定されない様々なユースケースにおいて、複数の言語での高速かつ正確な発話転写を可能にする。ＩＢＭＷａｔｓｏｎ（登録商標）ＳＴＴは、例えばＷａｔｓｏｎ（登録商標）アシスタントなどの既存アプリケーション内で、人が、記述されたテキストを様々な言語及びボイスで自然に聞こえる音声に変換することを可能にするアプリケーションプログラミングインタフェース（ａｐｐｌｉｃａｔｉｏｎｐｒｏｇｒａｍｍｉｎｇｉｎｔｅｒｆａｃｅ：ＡＰＩ）クラウドサービスである。

【0040】

図２は、本発明の実施形態による、グローバル英語モデル（ＧＥＭ）構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的な方法のブロック／フロー図である。

【0041】

ブロック３０で、

【数2】

から発声をランダムに選択することによって、ベース方言のサブセット

【数3】

が作成される。

【0042】

ブロック３２で、音声の長さのメトリックで

【数4】

内の発声をソートすることによって、

【数5】

が作成される。

【0043】

ブロック３４で、未処理の最短発声

【数6】

が

【数7】

から選択される。

【0044】

ブロック３６で、ｎ＝１に設定する。

【0045】

ブロック３８で、最高類似度を有する発声が、ＧＥＭ構築のためのより良いトレーニングサンプルとして、他の方言

【数8】

から抽出される。

【0046】

ブロック４０で、ｎ＝Ｎであるかどうかが判定される。「いいえ」の場合、次にブロック４２に進み、ここでｎはｎ＋１に設定される。「はい」の場合、ブロック４４に進む。

【0047】

ブロック４４で、

【数9】

内の全ての発声が処理されたかどうかが判定される。「いいえ」の場合、ブロック３４に戻る。「はい」の場合、プロセスは終了する。

【0048】

【数10】

は、ベース方言のトレーニングデータセットである。

【0049】

最小量の方言トレーニングデータがベースセットとして使用されるが、これに限定されない。

【0050】

【数11】

は、他の方言のトレーニングデータセットである。（ｎ＝１...Ｎであり、ここでＮは他の方言の数である）。

【0051】

方言間の類似度は、

【数12】

として有利に与えられる。

【0052】

【0053】

Ｐ（ｄ）は、Ｐ（ｄ）＝γｅ^κｄ－γ（ｄ＞０）によって有利に与えられる。

【0054】

ここで、γ、κはハイパーパラメータである。

【0055】

図３は、本発明の実施形態による、発話認識モデル用のトレーニングデータを準備するための例示的な方法のブロック／フロー図である。

【0056】

ブロック５０で、複数の音声データセットを取得し、各音声データセットは異なる音響特徴量を有する。

【0057】

ブロック５２で、発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、複数の音声データセットから文を有利にソートする。

【0058】

更に、様々な文を制御するためにスコアペナルティを提示しながら、それぞれが異なる音響特徴量を有する複数の音声データセットがデータプールから有利にサンプリングされ、それにより、サンプリングされた音声データセットは複数の類似文のセットを含む。加えて、類似文は、ターゲット言語の異なる方言を有する類似文であり、発話認識モデルは、ターゲット言語用のグローバル発話認識モデルである。

【0059】

図４は、本発明の実施形態による、従来の方法と対比した、例示的な方法を採用することによる例示的なデータソーティングを示す。

【0060】

ブロック６０は、各方言からのランダムな選択を示す。

【0061】

最初の数文はオーストラリア英語（ａｕ）であり、次の数文はイギリス英語（ｕｋ）であり、最後の数文はアメリカ英語（ｕｓ）である。

【0062】

このように、文中の単語又は文の長さ又は文の任意の他の特性に関わらず、文は、それらがどのタイプの英語であるか（例えば、ａｕ、ｕｋ、ｕｓ）によってグループ化される。

【0063】

ブロック７０は、音声の長さによってソートされた文を示す。

【0064】

最初の文（ＴＨＡＮＫＹＯＵ）は最短であり一番上に列挙されており、一方、最後の文（ＯＫＡＹＩＪＵＳＴＷＡＮＴＥＤＴＯＡＳＫＹＯＵＴＯＳＴＡＹＯＮＴＨＥＬＩＮＥＦＯＲＡＭＯＭＥＮＴＷＥＡＲＥＨＥＲＥＵＮＴＩＬＮＩＮＥＰＭ）は最長であり一番下に列挙されている。

【0065】

このように、文は、任意の他の要素に関わらず、長さによって列挙される。

【0066】

ブロック８０は、例示的な実施形態に従い、類似度によって文を有利にソートする。

【0067】

例えば、第１のグループ８２は、「ＴＨＡＮＫＹＯＵ．」という語句を含む３つの文を含む。方言又は長さに関わらず、「ＴＨＡＮＫＹＯＵ．」という語句は３つの文の全てにおいて見られるため、そのような文は、（類似度のみに基づき）８２として共にグループ化される。

【0068】

第２のグループ８４もまた、３つの文を含む。各文は、「ＩＷＩＬＬＲＩＮＧ．」という語句を含む。方言又は長さに関わらず、「ＩＷＩＬＬＲＩＮＧ．」という語句は３つの文の全てにおいて見られるため、そのような文は、（類似度のみに基づき）８４として共にグループ化される。

【0069】

第３のグループ８６もまた、３つの文を含む。各文は、「ＷＡＮＴＳＴＯＤＯ」又は「ＷＡＮＴＳＴＯＫＮＯＷ．」という語句を含む。方言又は長さに関わらず、そのような語句は類似しており３つの文の全てにおいて見られるため、そのような文は、（類似度のみに基づき）８６として共にグループ化される。

【0070】

第４のグループ８８もまた、３つの文を含む。各文は、「ＯＫＡＹＷＥ'ＲＥＨＥＲＥ」又は「ＩＡＨＯＫＡＹＵＳＥＤ」又は「ＯＫＡＹＩＪＵＳＴＷＡＮＴＥＤＴＯＡＳＫ．」のように「ＯＫＡＹ，」という語句を含む。方言又は長さに関わらず、そのような語句は類似しており３つの文の全てにおいて見られるため、そのような文は、（類似度のみに基づき）８８として共にグループ化される。

【0071】

従って、異なる方言を有する類似文は有利にも互いに近接して配置され、ひいては（例えば、ミニバッチにおいて）共にグループ化される。換言すれば、グループ化又はミニバッチを判定するために、単語又は語句の近接度又は類似度が分析及び評価される。各グループ８２、８４、８６、８８は、ミニバッチと称され得る。ミニバッチは、例えば、３つの文を含み得る。しかしながら、ミニバッチは、３～１０の任意の数の文を含み得る。

【0072】

図５は、本発明の実施形態による、複数の音声データセットからの文をソートするためのシステムを示す。

【0073】

一例において、音響特徴量（ａｃｏｕｓｔｉｃｆｅａｔｕｒｅ）９２を有する第１の音声データセット９０が取得され、音響特徴量１０２を有する第２の音声データセット１００が取得され、かつ音響特徴量１１２を有する第３の音声データセット１１０が取得される。音声データセット９０、１００、１１０からの文は、発話認識モデル１２０を効率的にトレーニングするために、類似度又は近接度に関し、ソーター１１５によって有利にソートされる。図５を参照して上記で説明された通り、類似文は複数のミニバッチにグループ化され得る。

【0074】

更に、音声の長さに弱い制約が課され、従って、ミニバッチを判定するにあたり、類似度の特徴量（ｆｅａｔｕｒｅ）、又は変数、又はパラメータが、有利により支配的になる。

【0075】

図６は、本発明の実施形態による、グローバル英語モデル（ＧＥＭ）構築のために、音声の長さに対する弱い制約を伴って、異なる方言を有する類似文が近接して配置されるというメトリックに基づき、トレーニングデータシーケンスを編成するための例示的な処理システムのブロック／フロー図である。

【0076】

図６は、コンピューティングデバイス２０５を含む、システム２００のコンポーネントのブロック図を示す。図６は、１つの実装の例示を提供しているに過ぎず、異なる実施形態が実装され得る環境に関して何らかの限定を示唆するものではないことを理解されたい。図示された環境に対して多くの修正を行うことができる。

【0077】

コンピューティングデバイス２０５は、通信ファブリック２０２を備え、通信ファブリック２０２は、コンピュータプロセッサ２０４、メモリ２０６、永続ストレージ２０８、通信ユニット２１０、及び入力／出力（Ｉ／Ｏ）インタフェース２１２の間の通信を提供する。通信ファブリック２０２は、プロセッサ（例えば、マイクロプロセッサ、通信及びネットワークプロセッサ等）、システムメモリ、周辺デバイス、及びシステム内の任意の他のハードウェアコンポーネントの間でデータ及び／又は制御情報を渡すように設計された任意のアーキテクチャを用いて実装され得る。例えば、通信ファブリック２０２は、１つ又は複数のバスで実装され得る。

【0078】

メモリ２０６、キャッシュメモリ２１６、及び永続ストレージ２０８は、コンピュータ可読記憶媒体である。この実施形態では、メモリ２０６は、ランダムアクセスメモリ（ＲＡＭ）２１４を含む。別の実施形態において、メモリ２０６は、フラッシュメモリであり得る。概して、メモリ２０６は、任意の好適な揮発性又は不揮発性のコンピュータ可読記憶媒体を含み得る。

【0079】

本発明の幾つかの実施形態において、プログラム２２５は、コンピューティングデバイス２０５のコンポーネントとしてＡＩアクセラレータチップ２２２によって含まれて動作する。他の実施形態において、プログラム２２５は、メモリ２０６の１つ又は複数のメモリを介し、それぞれのコンピュータプロセッサ２０４のうちの１つ又は複数と併せて、（ＲＮＮ－Ｔ用のトレーニングデータシーケンスを実装するための）ＡＩアクセラレータチップ２２２による実行のために永続ストレージ２０８に記憶される。この実施形態では、永続ストレージ２０８は、磁気ハードディスクドライブを含む。磁気ハードディスクドライブの代わりに、又はこれに加えて、永続ストレージ２０８は、ソリッドステートハードドライブ、半導体ストレージデバイス、リードオンリメモリ（ＲＯＭ）、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ）、フラッシュメモリ、又はプログラム命令又はデジタル情報を記憶することができる任意の他のコンピュータ可読記憶媒体を含み得る。

【0080】

永続ストレージ２０８によって使用される媒体はまた、リムーバブルであり得る。例えば、永続ストレージ２０８のためにリムーバブルハードドライブを使用することができる。他の例は、光ディスク及び磁気ディスク、サムドライブ、及び、永続ストレージ２０８の一部でもある別のコンピュータ可読記憶媒体に転送されるためにドライブに挿入されるスマートカードを含む。

【0081】

これらの例では、通信ユニット２１０は、分散データ処理環境のリソースを含む、他のデータ処理システム又はデバイスとの通信を提供する。これらの例において、通信ユニット２１０は、１つ又は複数のネットワークインタフェースカードを含む。通信ユニット２１０は、物理通信リンク及びワイヤレス通信リンクのいずれか又は両方の使用を通じて通信を提供することができる。深層学習プログラム２２５は、通信ユニット２１０を通じて永続ストレージ２０８にダウンロードすることができる。

【0082】

Ｉ／Ｏインタフェース２１２は、コンピューティングシステム２００に接続することができる他のデバイスに対するデータの入力及び出力を可能にする。例えば、Ｉ／Ｏインタフェース２１２は、キーボード、キーパッド、タッチスクリーン、及び／又は他の何らかの好適な入力デバイスなどの外部デバイス２１８への接続を提供することができる。外部デバイス２１８は、例えば、サムドライブ、ポータブル光ディスク又は磁気ディスク、及びメモリカードなどのポータブルコンピュータ可読記憶媒体も含むことができる。

【0083】

ディスプレイ２２０は、ユーザにデータを表示する機構を提供し、例えば、コンピュータモニタであり得る。

【0084】

図７は、本発明の実施形態による例示的なクラウドコンピューティング環境のブロック／フロー図である。

【0085】

本発明は、クラウドコンピューティングに関する詳細な説明を含むが、本明細書において記載される教示の実装は、クラウドコンピューティング環境に限定されないことが理解されるべきである。むしろ、本発明の実施形態は、現在既知又は後に開発される任意の他のタイプのコンピューティング環境と併せて実装されることが可能である。

【0086】

クラウドコンピューティングは、管理の労力又はサービスのプロバイダとの対話を最小限に抑えながら迅速にプロビジョニング及びリリースされ得る構成可能なコンピューティングリソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス）の共有プールに対する便利なオンデマンドのネットワークアクセスを可能にするためのサービス提供のモデルである。このクラウドモデルは、少なくとも５つの特性、少なくとも３つのサービスモデル、及び少なくとも４つの展開モデルを含み得る。

【0087】

特性は以下の通りである。
オンデマンドセルフサービス：クラウドコンシューマは、サービスプロバイダとの人的対話を要することなく、必要に応じて自動的に、サーバ時間及びネットワークストレージなどのコンピューティング能力を一方的にプロビジョニングすることができる。
幅広いネットワークアクセス：能力は、ネットワークを介して利用可能であり、また、異種混交のシンクライアントプラットフォーム又はシッククライアントプラットフォーム（例えば、モバイル電話、ラップトップ、及びＰＤＡ（登録商標））による使用を促進する標準的な機構を通じてアクセスされる。
リソースプーリング：プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数のコンシューマにサービス提供するようにプールされており、異なる物理リソース及び仮想リソースが需要に沿って動的に割り当て及び再割り当てされる。コンシューマは概して提供されたリソースの正確なロケーションに対して制御又は知識を有していないが、より高いレベルの抽象化（例えば、国、州、又はデータセンタ）でロケーションを指定することができる場合があるという点で、ロケーションの独立性がある。
迅速な弾力性：能力は迅速に且つ伸縮自在に、場合によっては自動的にプロビジョニングされ、素早くスケールアウトすることも、迅速にリリースして素早くスケールインすることもできる。多くの場合、コンシューマにとって、プロビジョニングに利用可能な能力は無制限に見え、任意の時点において任意の量で購入できる。
計測サービス：クラウドシステムは、或る抽象化レベルでサービスのタイプ（例えば、ストレージ、処理、帯域幅、及びアクティブなユーザアカウント）に適した計測能力を活用することにより、リソースの使用を自動的に制御及び最適化する。リソース使用率は、モニタリング、制御、及び、報告され得、利用されるサービスのプロバイダ及びコンシューマの両方に透明性を提供する。

【0088】

サービスモデルは以下の通りである。
サービスとしてのソフトウェア（ＳａａＳ）：コンシューマに提供される能力は、クラウドインフラストラクチャ上で実行しているプロバイダのアプリケーションを使用することである。アプリケーションには、ウェブブラウザ（例えば、ウェブベースの電子メール）などのシンクライアントインタフェースを通じて、様々なクライアントデバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、ストレージ、又は、個々のアプリケーション能力さえも含む基礎となるクラウドインフラストラクチャを管理又は制御しないが、限定的なユーザ固有のアプリケーション構成設定は例外となる場合がある。
サービスとしてのプラットフォーム（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語及びツールを使用して作成された、コンシューマが作成又は取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。コンシューマは、ネットワーク、サーバ、オペレーティングシステム、又はストレージを含む基礎となるクラウドインフラストラクチャを管理又は制御しないが、展開されたアプリケーション及び、場合によっては、アプリケーションホスティング環境の構成を制御する。
サービスとしてのインフラストラクチャ（ＩａａＳ）：コンシューマに提供される能力は、処理、ストレージ、ネットワーク、及び他の基本的なコンピューティングリソースをプロビジョニングすることであり、コンシューマは、オペレーティングシステム及びアプリケーションを含み得る任意のソフトウェアを展開し、実行させることができる。コンシューマは、基礎となるクラウドインフラストラクチャを管理又は制御しないが、オペレーティングシステム、ストレージ、展開されたアプリケーションを制御し、場合によっては、選択されたネットワーキングコンポーネント（例えば、ホストファイアウォール）を限定的に制御する。

【0089】

展開モデルは以下の通りである。
プライベートクラウド：クラウドインフラストラクチャは、組織のためだけに運用される。それは、その組織又は第三者によって管理され得、オンプレミス又はオフプレミスで存在し得る。
コミュニティクラウド：クラウドインフラストラクチャは、複数の組織により共有されており、共有の関心事（例えば、ミッション、セキュリティ要件、ポリシ、及び法令順守に関わる考慮事項）を有する特定のコミュニティをサポートする。それは、その組織又は第三者によって管理され得、オンプレミス又はオフプレミスで存在し得る。
パブリッククラウド：クラウドインフラストラクチャは、一般大衆又は大規模な業界団体にとって利用可能になり、クラウドサービスを販売する組織により所有される。
ハイブリッドクラウド：このクラウドインフラストラクチャは、２つ又はそれより多くのクラウド（プライベート、コミュニティ、又はパブリック）の複合体であり、これは、一意的なエンティティのままであるが、データ及びアプリケーションのポータビリティ（例えば、クラウド間の負荷分散のためのクラウドバースト）を可能にする標準化された技術又は独自技術によって共に結合される。

【0090】

クラウドコンピューティング環境は、ステートレス性、低結合性、モジュール性、及び意味的相互運用性に重点を置いたサービス指向型である。クラウドコンピューティングの中核には、相互接続されたノードからなるネットワークを含むインフラストラクチャが存在する。

【0091】

ここで図７を参照すると、例証的なクラウドコンピューティング環境４５０は、本発明のユースケースを可能にするために示されている。示されているように、クラウドコンピューティング環境４５０は、例えば、携帯情報端末（ＰＤＡ）又はセルラ電話４５４Ａ、デスクトップコンピュータ４５４Ｂ、ラップトップコンピュータ４５４Ｃ、及び／又は自動車コンピュータシステム４５４Ｎなど、クラウドコンシューマによって使用されるローカルコンピューティングデバイスが通信し得る、１つ又は複数のクラウドコンピューティングノード４１０を含む。ノード４１０は、互いに通信することができる。それらは、上記で説明されたようなプライベートクラウド、コミュニティクラウド、パブリッククラウド又はハイブリッドクラウド、又はそれらの組み合わせなどの１つ又は複数のネットワークにおいて、物理的又は仮想的にグループ化（不図示）され得る。これにより、クラウドコンピューティング環境４５０を、インフラストラクチャ、プラットフォーム及び／又はソフトウェアを、クラウドコンシューマがそのためにローカルコンピューティングデバイス上にリソースを維持する必要がないサービスとして提供することが可能となる。図７に図示されるコンピューティングデバイス４５４Ａ～４５４Ｎのタイプは、専ら例示的なものを意図し、コンピューティングノード４１０及びクラウドコンピューティング環境４５０は、任意のタイプのネットワーク及び／又はネットワークアドレス指定可能な接続（例えば、ウェブブラウザを使用して）を介して、任意のタイプのコンピュータ化されたデバイスと通信可能であることを理解されたい。

【0092】

図８は、本発明の実施形態による例示的な抽象化モデル層の概略図である。図８に示されているコンポーネント、層及び機能は、例示のみが意図されており、本発明の実施形態はこれらに限定されないことを予め理解されたい。図示の通り、以下の層及び対応する機能が提供される。

【0093】

ハードウェア及びソフトウェア層５６０は、ハードウェア及びソフトウェアコンポーネントを含む。ハードウェアコンポーネントの例には、メインフレーム５６１；ＲＩＳＣ（縮小命令セットコンピュータ）アーキテクチャベースのサーバ５６２；サーバ５６３；ブレードサーバ５６４；ストレージデバイス５６５；及びネットワーク及びネットワーキングコンポーネント５６６が含まれる。幾つかの実施形態において、ソフトウェアコンポーネントは、ネットワークアプリケーションサーバソフトウェア５６７及びデータベースソフトウェア５６８を含む。

【0094】

仮想化層５７０は抽象化層を提供し、抽象化層からは、仮想エンティティの以下の例：仮想サーバ５７１；仮想ストレージ５７２；仮想プライベートネットワークを含む仮想ネットワーク５７３；仮想アプリケーション及びオペレーティングシステム５７４；及び仮想クライアント５７５が提供され得る。

【0095】

一例において、管理層５８０は、以下に説明される機能を提供し得る。リソースプロビジョニング５８１は、クラウドコンピューティング環境内でタスクを実行するのに利用されるコンピューティングリソース及び他のリソースの動的調達を提供する。計測及び価格設定５８２は、リソースがクラウドコンピューティング環境内で利用される際のコスト追跡及びこれらのリソースの消費に対する課金又は請求書作成を提供する。一例において、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウドコンシューマ及びタスクについての識別情報検証、並びに、データ及び他のリソースの保護を提供する。ユーザポータル５８３は、コンシューマ及びシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理５８４は、必要なサービスレベルが満たされるように、クラウドコンピューティングリソースの割り当て及び管理を提供する。サービスレベル合意（ＳＬＡ）計画及び履行５８５は、将来要件がＳＬＡに従って予期されるクラウドコンピューティングリソースの事前の取り決め及び調達を提供する。

【0096】

ワークロード層５９０は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得るワークロード及び機能の例には、マッピング及びナビゲーション５４１；ソフトウェア開発及びライフサイクル管理５９２；仮想教室教育提供５９３；データ分析処理５９４；トランザクション処理５９５；及びＲＮＮ－Ｔ用のトレーニングデータシーケンス２０が含まれる。

【0097】

本発明は、システム、方法及び／又はコンピュータプログラム製品であり得る。コンピュータプログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読記憶媒体（又は複数の媒体）を含み得る。

【0098】

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持及び記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、限定されないが、例えば、電子ストレージデバイス、磁気ストレージデバイス、光ストレージデバイス、電磁ストレージデバイス、半導体ストレージデバイス、又は、前述のものの任意の好適な組み合わせであり得る。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下：ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ、リードオンリメモリ、消去可能プログラマブルリードオンリメモリ（ＥＰＲＯＭ又はフラッシュメモリ）、スタティックランダムアクセスメモリ、ポータブルコンパクトディスクリードオンリメモリ（ＣＤ－ＲＯＭ）、デジタル多用途ディスク（ＤＶＤ）、メモリスティック、フロッピディスク、機械的にエンコードされたデバイス、例えば、パンチカード又は命令を記録した溝内の隆起構造、及び前述したものの任意の好適な組み合わせを含む。コンピュータ可読記憶媒体は、本明細書において使用される場合、電波又は他の自由に伝搬する電磁波、導波路又は他の伝送媒体を通じて伝搬する電磁波（例えば、光ファイバケーブルを通過する光パルス）、又はワイヤを通じて伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。

【0099】

本明細書において説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体から、それぞれのコンピューティング／処理デバイスに、又は、ネットワーク、例えば、インターネット、ローカルエリアネットワーク、ワイドエリアネットワーク及び／又はワイヤレスネットワークを介して、外部コンピュータ又は外部ストレージデバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ及び／又はエッジサーバを含み得る。各コンピューティング／処理デバイス内のネットワークアダプタカード又はネットワークインタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に記憶するために転送する。

【0100】

本発明の動作を実行するコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、又は、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋等のようなオブジェクト指向型プログラミング言語、及び、「Ｃ」プログラミング言語又は類似のプログラミング言語などの従来の手続き型プログラミング言語を含む１つ又は複数のプログラミング言語の任意の組み合わせで記述されたソースコード又はオブジェクトコードのいずれかであり得る。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に実行され得、スタンドアロンソフトウェアパッケージとしてユーザのコンピュータ上で部分的に実行され得、部分的にユーザのコンピュータ上で、かつ、部分的にリモートコンピュータ上で実行され得、又はリモートコンピュータ又はサーバ上で完全に実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク（ＬＡＮ）又はワイドエリアネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じてユーザのコンピュータに接続され得、又はその接続は、（例えば、インターネットサービスプロバイダを使用してインターネットを通じて）外部コンピュータに対して行われ得る。幾つかの実施形態において、例えば、プログラマブルロジック回路、フィールドプログラマブルゲートアレイ（ＦＰＧＡ）、又はプログラマブルロジックアレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路をパーソナライズすることができる。

【0101】

本発明の態様は、本明細書において、本発明の実施形態による方法、装置（システム）、及びコンピュータプログラム製品のフローチャート図及び／又はブロック図を参照して説明される。フローチャート図及び／又はブロック図の各のブロック、及び、フローチャート図及び／又はブロック図におけるブロックの組み合わせが、コンピュータ可読プログラム命令によって実装され得ることが理解されよう。

【0102】

これらのコンピュータ可読プログラム命令を汎用コンピュータ、専用コンピュータ又は他のプログラマブルデータ処理装置のうちの少なくとも１つのプロセッサに提供してマシンを生じさせることができ、それにより、コンピュータ又は他のプログラマブルデータ処理装置のプロセッサを介して実行される命令が、フローチャート及び／又はブロック図の単数又は複数のブロック又はモジュールで指定された機能／作用を実装するための手段を作成するようになる。また、これらのコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体に記憶することができ、この命令は、コンピュータ、プログラマブルデータ処理装置及び／又は他のデバイスに対し、特定の様式で機能するよう指示することができ、それにより、命令を記憶したコンピュータ可読記憶媒体は、フローチャート及び／又はブロック図の単数又は複数のブロック又はモジュールで指定された機能／作用の態様を実装する命令を含む製品を含むようになる。

【0103】

コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブルデータ処理装置、又は他のデバイスにロードされて、一連の動作ブロック／段階をコンピュータ、他のプログラマブル装置又は他のデバイス上で実行させてコンピュータ実装プロセスを生じさせることができ、それにより、コンピュータ、他のプログラマブル装置、又は他のデバイス上で実行される命令は、フローチャート及び／又はブロック図の単数又は複数のブロック又はモジュールで指定された機能／作用を実装するようになる。

【0104】

図におけるフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータプログラム製品の可能な実装形態のアーキテクチャ、機能、及び動作を示す。これに関して、フローチャート又はブロック図における各ブロックは、指定される論理機能を実装する１つ又は複数の実行可能命令を含む命令のモジュール、セグメント、又は部分を表すことができる。幾つかの代替的実装形態において、ブロックに記載された機能は、図に記載された順序とは別の順序で生じ得る。例えば、連続して示される２つのブロックは、実際に、関与する機能性に応じて、実質的に同時に実行され得、又は、ブロックは場合によっては、逆の順序で実行され得る。ブロック図及び／又はフローチャート図の各ブロック、及び、ブロック図及び／又はフローチャート図におけるブロックの組み合わせは、指定された機能又は作用を実行する、又は専用ハードウェア及びコンピュータ命令の組み合わせを実行する専用ハードウェアベースのシステムにより実装され得ることにも留意されたい。

【0105】

明細書における本原理の「一実施形態」又は「実施形態」、並びにそれらの他の変形についての言及は、その実施形態に関連して説明される特定の特徴、構造、特性等が本原理の少なくとも１つの実施形態に含まれることを意味する。そのため、本明細書の全体にわたり様々な箇所に出現する、「一実施形態において」又は「実施形態において」という語句、並びに任意の他の変形の出現は、必ずしも全てが同じ実施形態に言及しているわけではない。

【0106】

以下の「／」、「及び／又は」、及び「のうちの少なくとも１つ」のいずれかの使用は、例えば、「Ａ／Ｂ」、「Ａ及び／又はＢ」、及び「Ａ及びＢのうちの少なくとも１つ」の場合、第１の列挙される選択肢（Ａ）のみの選択、又は、第２の列挙される選択肢（Ｂ）のみの選択、又は、両方の選択肢（Ａ及びＢ）の選択を包含することが意図されることを理解されたい。更なる例として、「Ａ、Ｂ、及び／又はＣ」、及び「Ａ、Ｂ、及びＣのうちの少なくとも１つ」の場合において、そのような語句は、第１の列挙される選択肢（Ａ）のみの選択、又は、第２の列挙される選択肢（Ｂ）のみの選択、又は、第３の列挙される選択肢（Ｃ）のみの選択、又は、第１及び第２の列挙される選択肢（Ａ及びＢ）のみの選択、又は、第１及び第３の列挙される選択肢（Ａ及びＣ）のみの選択、又は、第２及び第３の列挙される選択肢（Ｂ及びＣ）のみの選択、又は、３つの選択肢全て（Ａ及びＢ及びＣ）の選択を包含することが意図される。これは、この技術分野及び関連技術分野において当業者によって容易に明らかであるように、列挙される多くの項目に対しても拡張することができる。

【0107】

リカレントニューラルネットワークトランスデューサ（ＲＮＮ－Ｔ）ベースのグローバル英語モデル用の効率的なトレーニングデータシーケンスを構成するための方法及びシステムの好ましい実施形態（これは、例証的なものであって、限定的であることを意図していない）について説明してきたが、上記の教示に照らし、当業者によって修正及び変形がなされ得ることに留意されたい。従って、説明された特定の実施形態において、添付の特許請求の範囲によって概説されているような本発明の範囲内である変更が行われ得ることが理解されるべきである。このように、本発明の態様を、特許法により必要とされる詳細及び特殊性を伴って説明してきたが、特許請求される事柄、及び、特許証により保護されることが所望される事柄は、添付の特許請求の範囲に記載される。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【手続補正書】

【提出日】2024-05-15

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

【請求項2】

【請求項3】

様々な文を制御するためにスコアペナルティが提示される、請求項２に記載のコンピュータ実装方法。

【請求項4】

前記類似文は、ターゲット言語の異なる方言を有する類似文である、請求項１に記載のコンピュータ実装方法。

【請求項5】

前記発話認識モデルは、前記ターゲット言語用のグローバル発話認識モデルである、請求項４に記載のコンピュータ実装方法。

【請求項6】

前記異なる音声データセットからの前記類似文はミニバッチにグループ化される、請求項１に記載のコンピュータ実装方法。

【請求項7】

前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、請求項６に記載のコンピュータ実装方法。

【請求項8】

前記ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む、請求項６に記載のコンピュータ実装方法。

【請求項9】

異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、

【数13】

【請求項10】

【請求項11】

発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラムであって、前記コンピュータプログラムは、コンピュータに：
複数の音声データセットを取得する手順、各音声データセットは異なる音響特徴量を有する；及び
前記発話認識モデルをトレーニングするために、音声の長さに弱い制約を課しながら、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする手順
を実行させるためのコンピュータプログラム。

【請求項12】

それぞれが前記異なる音響特徴量を有する前記複数の音声データセットがデータプールからサンプリングされ、それにより、前記サンプリングされた音声データセットは複数の類似文のセットを含む、請求項１１に記載のコンピュータプログラム。

【請求項13】

様々な文を制御するためにスコアペナルティが提示される、請求項１２に記載のコンピュータプログラム。

【請求項14】

前記類似文は、ターゲット言語の異なる方言を有する類似文である、請求項１１に記載のコンピュータプログラム。

【請求項15】

前記発話認識モデルは、前記ターゲット言語用のグローバル発話認識モデルである、請求項１４に記載のコンピュータプログラム。

【請求項16】

前記異なる音声データセットからの前記類似文はミニバッチにグループ化される、請求項１１に記載のコンピュータプログラム。

【請求項17】

前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む、請求項１６に記載のコンピュータプログラム。

【請求項18】

前記ミニバッチのうちの各ミニバッチは、類似した量の方言データを含む、請求項１６に記載のコンピュータプログラム。

【請求項19】

異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、

【数14】

によって与えられ、ここでＦ（ａ，ｂ）は、ｎ個の単語シーケンスの単語ベクトルに基づく文ａ及び文ｂの間の距離であり、Ｐ（ｄ）は偏ったテキストデータを構成しないための類似度スコア依存型ペナルティである、請求項１１に記載のコンピュータプログラム。

【請求項20】

前記類似度スコア依存型ペナルティは、
Ｐ（ｄ）＝γｅ^κｄ－γ（ｄ＞０）
によって与えられ、ここでγ、κはハイパーパラメータである、請求項１９に記載のコンピュータプログラム。

【請求項21】

【請求項22】

異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、

【数15】

【請求項23】

【請求項24】

異なる音声データセットからの前記類似文の異なる英語方言間の類似度は、

【数16】

【請求項25】

発話認識モデル用のトレーニングデータを準備するためのコンピュータプログラムであって、前記コンピュータプログラムは、コンピュータに：
複数の音声データセットを取得する手順、各音声データセットは異なる音響特徴量を有する；
前記発話認識モデルをトレーニングするために、異なる音声データセットからの類似文が近接して配置されるよう、前記複数の音声データセットからの文をソートする手順；及び
前記異なる音声データセットからの前記類似文をミニバッチにグループ化する手順、ここで前記ミニバッチのうちの各ミニバッチは、異なる英語方言間の文のペアを含む
を実行させるためのコンピュータプログラム。

【国際調査報告】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版