IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2025-502939RNN-Tモデルを生成するためのデータ・ソート
<>
  • 特表-RNN-Tモデルを生成するためのデータ・ソート 図1
  • 特表-RNN-Tモデルを生成するためのデータ・ソート 図2
  • 特表-RNN-Tモデルを生成するためのデータ・ソート 図3
  • 特表-RNN-Tモデルを生成するためのデータ・ソート 図4
  • 特表-RNN-Tモデルを生成するためのデータ・ソート 図5
  • 特表-RNN-Tモデルを生成するためのデータ・ソート 図6
  • 特表-RNN-Tモデルを生成するためのデータ・ソート 図7
  • 特表-RNN-Tモデルを生成するためのデータ・ソート 図8
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-30
(54)【発明の名称】RNN-Tモデルを生成するためのデータ・ソート
(51)【国際特許分類】
   G10L 15/06 20130101AFI20250123BHJP
   G10L 15/18 20130101ALI20250123BHJP
   G10L 15/16 20060101ALI20250123BHJP
【FI】
G10L15/06 300Y
G10L15/18 300H
G10L15/16
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024538721
(86)(22)【出願日】2023-01-16
(85)【翻訳文提出日】2024-06-25
(86)【国際出願番号】 EP2023050845
(87)【国際公開番号】W WO2023139015
(87)【国際公開日】2023-07-27
(31)【優先権主張番号】17/580,846
(32)【優先日】2022-01-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【弁理士】
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【弁理士】
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】福田 隆
(72)【発明者】
【氏名】長野 徹
(57)【要約】
音声認識モデル用の訓練データを準備するためのコンピュータ実施方法であって、コーパスから複数のセンテンスを取得することと、複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割することと、複数のセンテンスのうちのセンテンスごとに、センテンス内の各音素の3つの隠れ状態の期間の変動量に基づいて、スコアを計算することと、計算されたスコアを使用することによって、複数のセンテンスをソートすることと、を含む、コンピュータ実施方法が提供される。
【特許請求の範囲】
【請求項1】
音声認識モデル用の訓練データを準備するためのコンピュータ実施方法であって、
コーパスから複数のセンテンスを取得することと、
前記複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割することと、
前記複数のセンテンスのうちのセンテンスごとに、前記センテンス内の各音素の前記3つの隠れ状態の期間の変動量に基づいて、スコアを計算することと、
計算された前記スコアを使用することによって、前記複数のセンテンスをソートすることと、
を含む、コンピュータ実施方法。
【請求項2】
各スコアが、前記センテンス内の各音素の前記3つの隠れ状態の平均期間を使用することによって計算される、請求項1に記載のコンピュータ実施方法。
【請求項3】
各スコアが、クリーン音声から前もって推定された前記センテンス内の各音素の前記3つの隠れ状態のそれぞれの期間を使用することによって計算される、請求項1に記載のコンピュータ実施方法。
【請求項4】
前記スコアが、クリーン音声からの統計値が利用可能でない場合、音素独立均一スコアである、請求項1ないし3のいずれか一項に記載のコンピュータ実施方法。
【請求項5】
前記音素独立均一スコアが、
【数1】
として与えられ、
n,xはn番目の音素のx番目の状態の期間であり、xが初期(b)または中間(m)または終期(e)のいずれかをとり、μが、dn,xによって得られる前記n番目の音素の前記3つの隠れ状態の平均期間であり、Nが、前記センテンス内の音素の総数である、請求項4に記載のコンピュータ実施方法。
【請求項6】
前記スコアが、クリーン音声からの統計値が利用可能である場合、音素依存均一スコアである、請求項1ないし5のいずれか一項に記載のコンピュータ実施方法。
【請求項7】
前記音素依存均一スコアが、
【数2】
として与えられ、
λk(n),xが、前記クリーン音声から事前に推定された、n番目の音素が参照されるべき音素k(n)のx番目の状態の理想期間であり、k(n)が、前記n番目の音素を対応する音素にマッピングする関数である、請求項6に記載のコンピュータ実施方法。
【請求項8】
音声認識モデル用の訓練データを準備するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、前記プログラム命令が、コンピュータに、
コーパスから複数のセンテンスを取得させ、
前記複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割させ、
前記複数のセンテンスのうちのセンテンスごとに、前記センテンス内の各音素の前記3つの隠れ状態の期間の変動量に基づいて、スコアを計算させ、
計算された前記スコアを使用することによって、前記複数のセンテンスをソートさせるために、前記コンピュータによって実行可能である、コンピュータ・プログラム製品。
【請求項9】
各スコアが、前記センテンス内の各音素の前記3つの隠れ状態の平均期間を使用することによって計算される、請求項8に記載のコンピュータ・プログラム製品。
【請求項10】
各スコアが、クリーン音声から前もって推定された前記センテンス内の各音素の前記3つの隠れ状態のそれぞれの期間を使用することによって計算される、請求項8に記載のコンピュータ・プログラム製品。
【請求項11】
前記スコアが、クリーン音声からの統計値が利用可能でない場合、音素独立均一スコアである、請求項8ないし10のいずれか一項に記載のコンピュータ・プログラム製品。
【請求項12】
前記音素独立均一スコアが、
【数3】
として与えられ、
n,xはn番目の音素のx番目の状態の期間であり、xが初期(b)または中間(m)または終期(e)のいずれかをとり、μが、dn,xによって得られる前記n番目の音素の前記3つの隠れ状態の平均期間であり、Nが、前記センテンス内の音素の総数である、請求項11に記載のコンピュータ・プログラム製品。
【請求項13】
前記スコアが、クリーン音声からの統計値が利用可能である場合、音素依存均一スコアである、請求項8ないし12のいずれか一項に記載のコンピュータ・プログラム製品。
【請求項14】
前記音素依存均一スコアが、
【数4】
として与えられ、
λk(n),xが、前記クリーン音声から事前に推定された、n番目の音素が参照されるべき音素k(n)のx番目の状態の理想期間であり、k(n)が、前記n番目の音素を対応する音素にマッピングする関数である、請求項13に記載のコンピュータ・プログラム製品。
【請求項15】
音声認識モデル用の訓練データを準備するためのシステムであって、
メモリと、
前記メモリと通信する1つまたは複数のプロセッサであって、
コーパスから複数のセンテンスを取得し、
前記複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割し、
前記複数のセンテンスのうちのセンテンスごとに、前記センテンス内の各音素の前記3つの隠れ状態の期間の変動量に基づいて、スコアを計算し、
計算された前記スコアを使用することによって、前記複数のセンテンスをソートする、
ように構成された、プロセッサと、
を備える、システム。
【請求項16】
各スコアが、前記センテンス内の各音素の前記3つの隠れ状態の平均期間を使用することによって計算される、請求項15に記載のシステム。
【請求項17】
各スコアが、クリーン音声から前もって推定された前記センテンス内の各音素の前記3つの隠れ状態のそれぞれの期間を使用することによって計算される、請求項15に記載のシステム。
【請求項18】
前記スコアが、クリーン音声からの統計値が利用可能でない場合、音素独立均一スコアである、請求項15ないし17のいずれか一項に記載のシステム。
【請求項19】
前記音素独立均一スコアが、
【数5】
として与えられ、
n,xはn番目の音素のx番目の状態の期間であり、xが初期(b)または中間(m)または終期(e)のいずれかをとり、μが、dn,xによって得られる前記n番目の音素の前記3つの隠れ状態の平均期間であり、Nが、前記センテンス内の音素の総数である、請求項18に記載のシステム。
【請求項20】
前記スコアが、クリーン音声からの統計値が利用可能である場合、音素依存均一スコアであり、前記音素依存均一スコアが、
【数6】
として与えられ、
λk(n),xが、前記クリーン音声から事前に推定された、n番目の音素が参照されるべき音素k(n)のx番目の状態の理想期間であり、k(n)が、前記n番目の音素を対応する音素にマッピングする関数である、請求項15ないし19のいずれか一項に記載のシステム。
【請求項21】
コンピュータ・プログラムであって、前記プログラムがコンピュータ上で動作すると、請求項1ないし7のいずれか一項に記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、機械学習に関し、より詳細には、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T:recurrent neural network transducer)・モデルを生成するためのデータ・ソートのための方法およびシステムに関する。
【背景技術】
【0002】
自動音声認識(ASR:automatic speech recognition)のためのエンド・ツー・エンド・モデルが、従来のASRシステムの別個のコンポーネント(例えば、音響、発音、および言語モデル)を単一のニューラル・ネットワークに組み込む方法として近年人気を集めている。そのようなモデルの例には、コネクショニスト時系列分類(CTC:connectionist temporal classification)ベース・モデル、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)、およびアテンション・ベースseq2seqモデルが含まれる。これらのモデルの中で、RNN-Tは、最もストリーミングに適したエンド・ツー・エンド認識器であり、従来システムと比較して競争力のある性能を示している。
【発明の概要】
【0003】
本発明の一態様によれば、音声認識モデル用の訓練データを準備するためのコンピュータ実施方法が提供される。コンピュータ実施方法は、コーパスから複数のセンテンスを取得することと、複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割することと、複数のセンテンスのうちのセンテンスごとに、センテンス内の各音素の3つの隠れ状態の期間の変動量に基づいて、スコアを計算することと、計算されたスコアを使用することによって、複数のセンテンスをソートすることと、を含む。
【0004】
本発明の別の態様によれば、音声認識モデル用の訓練データを準備するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、プログラム命令が、コンピュータに、コーパスから複数のセンテンスを取得させ、複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割させ、複数のセンテンスのうちのセンテンスごとに、センテンス内の各音素の3つの隠れ状態の期間の変動量に基づいて、スコアを計算させ、計算されたスコアを使用することによって、複数のセンテンスをソートさせるために、コンピュータによって実行可能である。
【0005】
本発明のさらに別の態様によれば、音声認識モデル用の訓練データを準備するためのシステムが提供される。システムは、メモリと、メモリと通信する1つまたは複数のプロセッサであって、コーパスから複数のセンテンスを取得し、複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割し、複数のセンテンスのうちのセンテンスごとに、センテンス内の各音素の3つの隠れ状態の期間の変動量に基づいて、スコアを計算し、計算されたスコアを使用することによって、複数のセンテンスをソートするように構成されたプロセッサと、を含む。
【0006】
例示的実施形態は、異なる主題に関連して説明されることに留意されたい。特に、方法タイプの請求項に関連して説明される実施形態もあれば、装置タイプの請求項に関連して説明される実施形態もある。しかしながら、当業者であれば、特段の言及がない限り、1つのタイプの主題に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴間の任意の組み合わせ、特に方法タイプ請求項の特徴と装置タイプ請求項の特徴との間の任意の組み合わせも、本文書内で説明されるものと考えられるということを上記および以下の説明から推察するであろう。
【0007】
これらのおよび他の特徴および利点は、その例示的実施形態の以下の詳細な説明から明らかとなり、詳細な説明は、添付図面に関連して読まれるべきである。
【0008】
ここで、本発明の好適な実施形態は、単なる例として、以下の図面を参照して説明される。
【図面の簡単な説明】
【0009】
図1】本発明の実施形態による、状態間で均衡のとれた期間を有する音素の例示的なシーケンス、および状態間で不均衡な期間を有する音素の例示的なシーケンスのブロック/フロー図である。
図2】本発明の実施形態による、訓練コーパスからセンテンスを選択し、シーケンス内の音素を3つの隠れ状態に分割するための例示的な方法のブロック/フロー図である。
図3】本発明の実施形態による、クリア音声からの統計値が利用可能でない場合、およびクリア音声からの統計値が利用可能である場合の均一スコアの計算を示す図である。
図4】本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な方法のブロック/フロー図である。
図5】本発明の実施形態による、音声認識モデル用の訓練データを準備するためのシステムを示す図である。
図6】本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な処理システムのブロック/フロー図である。
図7】本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック/フロー図である。
図8】本発明の実施形態による、例示的な抽象モデル層の概略図である。
【発明を実施するための形態】
【0010】
図面全体を通して、同一または類似の参照番号は、同一または類似の要素を表す。
【0011】
本発明による実施形態は、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)・ベース・モデルのための効率的な訓練データ・シーケンスを構成するための方法およびデバイスを提供する。例示的な実施形態は、有利なことに、各音素の隠れ状態の期間の変化を評価することによって、訓練データセットをソートする。
【0012】
RNN-Tを掘り下げる前に、音声認識は、モバイル環境の非連続的かつ素早い要求に応じるために発展し続けている。ASRシステムの品質向上を図る、既存アーキテクチャに対する新たな音声認識アーキテクチャまたは改善策が、開発され続けている。説明すると、音声認識は、最初は、各モデルが専用の目的を有する複数のモデルを採用していた。例えば、ASRシステムは、音響モデル(AM:acoustic model)、発音モデル(PM:pronunciation model)、および言語モデル(LM:language model)を含んでいた。音響モデルは、オーディオのセグメント(例えば、オーディオのフレーム)を音素にマッピングするものであった。発音モデルは、これらの音素を接続して単語を形成し、言語モデルは、与えられたフレーズの尤度(例えば、単語のシーケンスの可能性)を表現するために使用された。さらにこれらの個別のモデルは協働するものであったが、各モデルは独立して訓練され、多くの場合、異なるデータセットに対して手動で設計された。
【0013】
別個のモデルの手法によって、特に、所与のモデルのための訓練コーパス(例えば、訓練データの本体)がモデルの有効性を満たしたときに、音声認識システムが非常に正確になることが可能となったが、別個のモデルを独立して訓練する必要があることによって、それ自体に複雑性がもたらされ、統合モデルを用いたアーキテクチャが導き出された。これらの統合モデルは、単一ニューラル・ネットワークを使用して、オーディオ波形(例えば、入力シーケンス)を出力センテンス(例えば、出力シーケンス)に直接マッピングしようとするものであった。これによって、シーケンス・ツー・シーケンスの手法が得られ、それによって、オーディオ特徴のシーケンスを与えたときに、単語(または書記素)のシーケンスが生成された。シーケンス・ツー・シーケンス・モデルの例には、「アテンション・ベース」モデルおよび「リッスン・アテンド・スペル」(LAS)モデルが含まれる。LASモデルは、リスナ・コンポーネント、アテンダ・コンポーネント、およびスペラ・コンポーネントを使用して音声発話を文字にして書き起こす。ここで、リスナは、オーディオ入力(例えば、音声入力の時間周波数表現)を受信し、オーディオ入力をより上位の特徴表現にマッピングする、回帰型ニューラル・ネットワーク(RNN)の符号化器である。アテンダは、より上位の特徴に注目して、入力特徴と予測されるサブワード単位(例えば、書記素または単語片)との間のアライメントを学習する。スペラは、仮定された単語のセットにわたる確率分布を作り出すことによって、入力から文字シーケンスを生成する、アテンション・ベースRNN復号器である。統合構造では、モデルの全てのコンポーネントが、単一のエンド・ツー・エンド(E2E)ニューラル・ネットワークとして併せて訓練されてもよい。ここでは、E2Eモデルは、アーキテクチャが完全にニューラル・ネットワークから構成されるモデルを指す。完全なニューラル・ネットワークは、外部コンポーネントまたは手動で設計されたコンポーネント(例えば、有限状態トランスデューサ、語彙集(lexicon)、またはテキスト正規化モジュール)あるいはその両方がなくても機能する。加えて、E2Eモデルを訓練すると、これらのモデルは、概して、決定木からのブートストラップまたは別個のシステムからの時間アライメントを必要としない。
【0014】
初期E2Eモデルは、個別に訓練されたモデルを越える、正確性と訓練の改善を証明したが、LASモデルなどのこれらのE2Eモデルは、出力テキストを生成する前に入力シーケンス全体をレビューすることによって機能し、したがって、入力を受信したときにストリーミング出力を可能にしなかった。ストリーミング・ケイパビリティがなければ、LASモデルは、リアルタイム音声書き起こしを行うことができない。この欠陥のため、レイテンシに敏感な、またはリアルタイム音声書き起こしが必要な音声アプリケーションに対してLASモデルを展開することは、問題を引き起こす場合がある。
【0015】
加えて、音響、発音、および言語モデルを有する音声認識システム、または合わせて構成されたそのようなモデルは、これらのモデルに関連付けられた比較的大規模な探索グラフを探索しなければならない復号器に依存し得る。大規模な探索グラフの場合、このタイプの音声認識システムを完全にオンデバイスでホストすることは助けとならない。ここで、音声認識システムが「オンデバイス」でホストされると、オーディオ入力を受信するデバイスは、そのプロセッサを使用して、音声認識システムの機能を実行する。例えば、音声認識システムが完全にオンデバイスでホストされると、デバイスのプロセッサは、音声認識システムの機能を実行するために、いかなるオフデバイス・コンピューティング・リソースとも協調する必要はない。完全なオンデバイスでない音声認識を実行するデバイスは、音声認識システムの少なくともいくつかの機能を実行するために、(例えば、リモート・コンピューティング・システムまたはクラウド・コンピューティングの)リモート・コンピューティング、およびしたがってオンライン接続性に依存する。例えば、音声認識システムは、サーバ・ベース・モデルとのネットワーク接続を使用して大規模探索グラフで復号を実行する。
【0016】
残念ながら、リモート接続に依存することによって、音声認識システムは、通信ネットワークのレイテンシ問題または固有の信頼性の低さあるいはその両方に対して脆弱になる。これらの問題を回避することによって音声認識の有用性を改善するために、音声認識システムはこの場合も、回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)として知られるシーケンス・ツー・シーケンス・モデルの形式に発展した。RNN-Tは、アテンション・メカニズムを採用しておらず、概して出力(例えば、センテンス)を作り出すためにシーケンス全体(例えば、オーディオ波形)を処理する必要がある、他のシーケンス・ツー・シーケンス・モデルとは異なり、RNN-Tは、入力サンプルを連続的に処理し、出力シンボルをストリーミングする。これは、リアルタイム通信にとって特に魅力的な特徴である。例えば、RNN-Tを用いた音声認識は、文字を1つずつ話すように出力し得る。
【0017】
したがって、RNN-Tを使用してデータ・シーケンスを訓練するためのより効率的なプロセスの必要がある。本発明の例示的な実施形態は、各音素の隠れ状態の期間の変化を分析および評価することによって、訓練データのソートを改善する方法を導入する。
【0018】
本発明は、所与の例示的アーキテクチャに関して説明されるが、他のアーキテクチャ、構造、基板材料、ならびにプロセス特徴およびステップ/ブロックが、本発明の範囲内において変化し得ることを理解すべきである。明確化のために、ある特徴を全ての図面に示すことができないことに留意すべきである。これは、任意の特定の実施形態もしくは例示、または特許請求の範囲の限定として解釈されることを意図するものではない。
【0019】
図1は、本発明の実施形態による、状態間で均衡のとれた期間を有する音素の例示的なシーケンス、および状態間で不均衡な期間を有する音素の例示的なシーケンスとのブロック/フロー図である。
【0020】
例示的実施形態は、均衡のとれた音素コンテキスト依存状態を有する発話が、音響的に容易であるという仮定に基づいて、訓練データ・シーケンスを編成する方法を導入する。言い換えると、音素ごとの初期、中間、および終期状態の期間が不均衡である場合、それらの発話は、音響的観点からより困難なケースとみなされる。例えば、自然発生的な音声は、隠れ状態の間に不均衡な期間を含む傾向にあり、読書形式の音声よりも困難である。
【0021】
3つの隠れ状態間の期間に基づく均一スコアは、発話が音響的にどの程度困難であるかを推定するために、各状態のフレーム数の差異によって得られる。それは、訓練サンプルをソートするための基準として使用される。各隠れ状態の期間がチェックされ、音響的に困難な発話に対してアライメントが変化するとき、例示的方法は、無音関連音素(X、VN、NS)を無視する。
【0022】
音素10のシーケンスは、第1の音素12(A-b)、第2の音素14(A-m)、第3の音素16(A-e)、第4の音素18(s-b)、第5の音素20(s-m)、および第6の音素22(s-e)を含む。第1の音素12は、期間32を有し、第2の音素14は、期間34を有し、第3の音素16は、期間36を有し、第4の音素18は、期間38を有し、第5の音素20は、期間40を有し、第6の音素22は、期間42を有する。
【0023】
音素12、14、16、18、20、22の期間32、34、36、38、40、42は、均等に均衡がとれている。別の言い方をすると、各音素は、状態間で均衡のとれた期間を有する。言い換えると、「均衡のとれた」は、各期間の規則性または統一性または均一性または類似性を指す。したがって、均衡のとれた音素を有する発話は、クリーン音声、即ち、より構造化され、編成され、規則的であり、精密であり、論理的であり、または測定され、あるいはその組み合わせである音声と呼ばれることがある。構造化された音声またはクリーン音声は、理解がより容易であり、よって音響的に容易である。各状態のフレームは、より同等または等価である(状態間の差異が少ない)。
【0024】
これに対して、音素50のシーケンスは、第1の音素72(A-b)、第2の音素74(A-m)、第3の音素76(A-e)、第4の音素78(s-b)、第5の音素80(s-m)、および第6の音素82(s-e)を含む。第1の音素72は、期間52を有し、第2の音素74は、期間54を有し、第3の音素76は、期間56を有し、第4の音素78は、期間58を有し、第5の音素80は、期間60を有し、第6の音素82は、期間62を有する。
【0025】
音素52、54、56、58、60、62の期間72、74、76、78、80、82は、均等に均衡がとれていない。別の言い方をすると、各音素は、状態間で不均衡な期間を有する。言い換えると、「不均衡」は、各期間の不規則性または不統一性または不均一性または非類似性を指す。したがって、不均衡な音素を有する発話は、クリーンでない音声、即ち、構造化されていない、編成されていない、規則的でない、精密でない、論理的でない、または測定されていない、あるいはその組み合わせである音声と呼ばれることがある。その代わりに、クリーンでない音声は、より無秩序で、自然発生的で、雑音が多く、組織化されておらず、かつ乱雑であり、または混乱している。構造化されていない音声(クリーンでない音声)は、理解がより難しく、よって音響的に困難である。各状態のフレームは、比例しておらず、または比較可能でなく、または一貫性に欠ける(状態間の差異が大きい)。例えば、音素78は、8のフレームを有し、音素82は、1のフレームを有する。結果として、このようなフレームの間の差異が大きい。
【0026】
図2および図3を参照して後述する均一スコアは、状態間の期間に基づき、各状態のフレーム数の差異によって得られる。
【0027】
図2は、本発明の実施形態による、訓練コーパスからセンテンスを選択し、シーケンス内の音素を3つの隠れ状態に分割するための例示的な方法のブロック/フロー図90である。
【0028】
スコア計算のために、センテンス92が訓練コーパスから選択され、センテンス内の各音素が、3つの隠れ状態に分割または分離される。例えば、音素94は、センテンス92の音響表現93から選択される。音素94は、3つの隠れ状態、即ち、隠れ状態1(94A)、隠れ状態2(94B)、および隠れ状態3(94C)に分割される。隠れ状態1は、初期状態と呼ばれてもよく、隠れ状態2は、中間状態と呼ばれてもよく、隠れ状態3は、終期状態と呼ばれてもよい。隠れ状態1は、音響表現96Aとして提示され、隠れ状態2は、音響表現96Bとして提示され、隠れ状態2は、音響表現96Cとして提示される。
【0029】
次いで、均一スコアが、図3を参照して後述するように、センテンスごとに計算され、訓練サンプルは、計算された均一スコアに基づいて昇順でソートされる。
【0030】
図3は、本発明の実施形態による、クリア音声からの統計値が利用可能でない場合、およびクリア音声からの統計値が利用可能である場合の均一スコアの計算を示す。
【0031】
第1のシナリオ100では、音素独立均一スコアは、クリーン音声からの統計値が利用可能でない場合に、
【数1】

として与えられる。
【0032】
n,xは、n番目の音素のx番目の状態(xは、b:初期、またはm:中間、またはe:終期のいずれかをとる)の期間であり、μは、dn,xによって得られるn番目の音素の3つの隠れ状態の平均期間であり、Nは、センテンス内の音素の総数である。
【0033】
第2のシナリオ102では、音素依存均一スコアは、クリーン音声からの統計値が利用可能である場合に、
【数2】

として与えられる。
【0034】
λk(n),xは、クリーン音声から事前に推定された、n番目の音素が参照されるべき音素k(n)のx番目の状態の理想期間であり、k(n)は、n番目の音素を対応する音素にマッピングする関数である。
【0035】
図4は、本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な方法のブロック/フロー図である。
【0036】
ブロック120において、複数のセンテンスが、コーパスから取得される。
【0037】
ブロック122において、各センテンス内の各音素が、3つの隠れ状態に分割される。
【0038】
ブロック124において、センテンスごとに、センテンス内の各音素の3つの隠れ状態の期間の変動量に基づいて、スコアが計算される。
【0039】
ブロック126において、複数のセンテンスが、計算されたスコアを使用することにより、(例えば、昇順で)ソートされる。
【0040】
図5は、本発明の実施形態による、音声認識モデル用の訓練データを準備するためのシステムを示す。
【0041】
コーパス130は、複数の異なるソースから複数の書かれたテキストの集合体を含んで提示される。センテンス140は、コーパス130から抽出され得る。一例では、センテンス140からセンテンス3が選択され得る。音素150は、センテンス3から導出される。
【0042】
音素は、特定言語において、意味の差につながる音の最小クラスとして定義され得る。例えば、英語では、/l/と/r/とは、2つの音素である。これは、「royal」および「loyal」で明らかであるように、一方をもう一方と置き換えることによって、異なる意味を持つ単語が作り出されるからである。音素は、通常2つのスラッシュによって示されることに留意されたい。
【0043】
音素は、それらが発音される方法において著しく異なり(バリエーション(variations)は、「音(phones)」と呼ばれる)、即ち、人は、異なるアクセント、異なるスピード、および異なる声のピッチ(例えば、男性対女性の声)で発する。実際に、「the」と同じくらい短く日常的な単語でさえ、多くの全く別の方法で発音され得ることが分かっている。
【0044】
音素150のそれぞれが、3つの隠れ状態に分割される。例えば、音素1は、/c/であってもよく、音素2は、/a/であってもよく、音素3は、/t/であってもよい。音素1は、3つの隠れ状態に分割され、音素2は、3つの隠れ状態に分割され、音素3は、3つの隠れ状態に分割され、以下同様である。簡略化のため、音素3が、3つの隠れ状態160に分割されて示される。隠れ状態1は、初期状態であり、隠れ状態2は、中間状態であり、隠れ状態3は、終期状態である。隠れ状態1は、期間Aを有し、隠れ状態2は、期間Bを有し、隠れ状態3は、期間Cを有する。初期状態は、第1の音響波を表し、中間状態は、第2の音響波を表し、終期状態は、第3の音響波を表し、各音響波は、潜在的に異なる周波数を有する。
【0045】
均一スコア計算器170は、クリーン音声からの統計値が利用可能である場合、または利用可能でない場合に基づいて、均一スコアを計算するために使用される。統計値は、変数またはパラメータの数に関連する様々なデータまたは情報またはデータのサンプルを指し得る。
【0046】
一例では、均一スコアは、音素の3つの状態の平均期間172から計算される。別の例では、均一スコアは、事前にクリーン音声から推定された理想的な期間174から計算される。
【0047】
訓練サンプルは、ソーティング・コンポーネント180によってソートされ得る。訓練サンプルは、例えば、提案された均一スコア182、184、186、188の昇順でソートされ得る。
【0048】
図6は、本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な処理システムのブロック/フロー図である。
【0049】
図6は、コンピューティング・デバイス205を含むシステム200のコンポーネントのブロック図を示す。図6は、単に1つの実施態様の例示を提供するだけであり、異なる実施形態が実施され得る環境に関していかなる限定も示唆しないと理解されたい。図示された環境に対して多くの修正が行われ得る。
【0050】
コンピューティング・デバイス205は、通信ファブリック202を含み、通信ファブリック202は、コンピュータ・プロセッサ204、メモリ206、永続記憶装置208、通信ユニット210、および入力/出力(I/O)インターフェース212の間に通信を提供する。通信ファブリック202は、プロセッサ(マイクロプロセッサ、通信およびネットワーク・プロセッサなど)、システム・メモリ、周辺デバイス、ならびにシステム内の任意の他のハードウェア・コンポーネント間でデータを渡し、または情報を制御し、あるいはその両方を行うように設計された任意のアーキテクチャで実施され得る。例えば、通信ファブリック202は、1つまたは複数のバスで実施され得る。
【0051】
メモリ206、キャッシュ・メモリ216、および永続記憶装置208は、コンピュータ可読記憶媒体である。本実施形態では、メモリ206は、ランダム・アクセス・メモリ(RAM)214を含む。別の実施形態では、メモリ206は、フラッシュ・メモリであってもよい。概して、メモリ206は、任意の適当な揮発性または不揮発性コンピュータ可読記憶媒体を含み得る。
【0052】
本発明のいくつかの実施形態では、プログラム225は、コンピューティング・デバイス205のコンポーネントとしてAIアクセラレータ・チップ222によって含まれ、動作される。他の実施形態では、プログラム225は、メモリ206の1つまたは複数のメモリを介した、それぞれのコンピュータ・プロセッサ204のうちの1つまたは複数と併せた(本明細書に記載されたデータ・ソート技術を含むRNN-T用の訓練データ・シーケンスを実施するための)AIアクセラレータ・チップ222による実行のために、永続記憶装置208に記憶される。本実施形態では、永続記憶装置208は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代替として、または加えて、永続記憶装置208は、ソリッド・ステート・ハード・ドライブ、半導体記憶デバイス、読み取り専用メモリ(ROM)、消去可能プログラマブル読み取り専用メモリ(EPROM)、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶することが可能な任意の他のコンピュータ可読記憶媒体を含み得る。
【0053】
永続記憶装置208によって使用される媒体は、また、リムーバブルであってもよい。例えば、リムーバブル・ハード・ドライブは、永続記憶装置208のために用いられてもよい。他の実施例は、永続記憶装置208の一部でもある別のコンピュータ可読記憶媒体上への転送のために、ドライブ内に挿入される光学および磁気ディスク、サム・ドライブ、ならびにスマート・カードを含む。
【0054】
これらの実施例において、通信ユニット210は、分散型データ処理環境のリソースを含む、他のデータ処理システムまたはデバイスとの通信を提供する。これらの実施例では、通信ユニット210は、1つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット210は、物理的通信リンクおよび無線通信リンクのいずれかまたは両方の使用を通して通信を提供し得る。深層学習プログラム225は、通信ユニット210を通して永続記憶装置208にダウンロードされ得る。
【0055】
I/Oインターフェース212は、コンピューティング・システム200に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、I/Oインターフェース212は、キーボード、キーパッド、タッチ・スクリーン、または何らかの他の適当な入力デバイス、あるいはそれらの組み合わせなどの外部デバイス218への接続を提供し得る。外部デバイス218は、例えば、サム・ドライブ、ポータブル光学または磁気ディスク、およびメモリ・カードなどの、ポータブル・コンピュータ可読記憶媒体も含み得る。
【0056】
ディスプレイ220は、ユーザにデータを表示するための機構を提供し、例えば、コンピュータ・モニタであってもよい。
【0057】
図7は、本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック/フロー図である。
【0058】
本発明は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に列挙する教示の実施態様は、クラウド・コンピューティング環境に限定されないと理解されたい。むしろ、本発明の実施形態は、現在既知の、または後に開発される任意の他のタイプのコンピューティング環境と併せて実施されることが可能である。
【0059】
クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速に供給され、リリースされ得る、構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス)の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも5つの特性、少なくとも3つのサービス・モデル、および少なくとも4つの展開モデルを含み得る。
【0060】
特性は、以下の通りである。
【0061】
オンデマンド・セルフサービス:クラウド消費者は、サービス・プロバイダと人との対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを一方的に供給し得る。
【0062】
幅広いネットワーク・アクセス:ケイパビリティは、ネットワーク上で利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的なメカニズムを通してアクセスされる。
【0063】
リソースの共用:プロバイダのコンピューティング・リソースが、マルチテナント型モデルを使用して複数の消費者にサービスするためにプールされ、異なる物理リソースおよび仮想リソースが要求に従って動的に割り当ておよび再割り当てされる。消費者が、概して、提供されるリソースの正確な場所に対する制御または知識を有しないが、より高い抽象レベル(例えば、国、州、またはデータセンタ)において場所を指定することが可能であり得るという点において、位置独立の意味がある。
【0064】
スピーディな拡張性:ケイパビリティは、場合によっては自動的に、即座にスケール・アウトするようにスピーディかつ弾力的に供給され、即座にスケール・インするようにスピーディに解放され得る。消費者に対しては、供給に利用可能なケイパビリティが、多くの場合無制限であるように見え、いつでも任意の量で購入可能である。
【0065】
サービスが計測可能であること:クラウド・システムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ・アカウント)に適したある抽象レベルにおいて計測ケイパビリティを活用することによって、リソース使用を自動的に制御し、最適化する。リソース使用量は、モニタリングされ、制御され、報告されて、利用サービスのプロバイダおよび消費者の両方に透明性をもたらし得る。
【0066】
サービス・モデルは、以下の通りである。
【0067】
サービスとしてのソフトウェア(SaaS):消費者に提供されるケイパビリティは、クラウド・インフラ上で実行中のプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース(例えば、ウェブ・ベースの電子メール)を通して、様々なクライアント・デバイスからアクセス可能である。消費者は、限定されたユーザ固有アプリケーションの構成設定は例外である可能性があるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケイパビリティでさえも含む、基礎的なクラウド・インフラを管理または制御しない。
【0068】
サービスとしてのプラットフォーム(PaaS):消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成したアプリケーションまたは消費者が取得したアプリケーションを、クラウド・インフラ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラを管理または制御しないが、展開されたアプリケーション、および、可能な限りアプリケーション・ホスティング環境構成に対して制御を行う。
【0069】
サービスとしてのインフラ(IaaS):消費者に提供されるケイパビリティは、処理、ストレージ、ネットワーク、ならびに消費者がオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行することが可能な、他の基本コンピューティング・リソースを供給することである。消費者は、基礎となるクラウド・インフラを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対して制御を行い、かつ可能な限り選択ネットワーキング・コンポーネント(例えば、ホスト・ファイアウォール)の限定的な制御を行う。
【0070】
展開モデルは、以下の通りである。
【0071】
プライベート・クラウド:クラウド・インフラは、組織のためだけに動作される。クラウド・インフラは、その組織または第三者によって管理され、構内または構外に存在し得る。
【0072】
コミュニティ・クラウド:クラウド・インフラは、複数の組織によって共有され、共有の関心事(例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。クラウド・インフラは、その組織または第三者によって管理され、構内または構外に存在し得る。
【0073】
パブリック・クラウド:クラウド・インフラは、一般公衆または大きな業界団体に利用可能とされ、クラウド・サービスを販売する組織によって所有される。
【0074】
ハイブリッド・クラウド:クラウド・インフラは、一意なエンティティのままであるが、データおよびアプリケーション・ポータビリティを可能にする標準化技術または独自技術(例えば、クラウド間のロード・バランシングのためのクラウド・バースティング)によって結合された、2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の合成物である。
【0075】
クラウド・コンピューティング環境は、無国籍、低結合、モジュール性、および意味相互運用性を中心としたサービス指向型である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラである。
【0076】
ここで図7を参照すると、本発明のユース・ケースを可能にするための例示的なクラウド・コンピューティング環境450が示されている。図示するように、クラウド・コンピューティング環境450は、例えば、携帯情報端末(PDA)もしくは携帯電話454A、デスクトップ・コンピュータ454B、ラップトップ・コンピュータ454C、または自動車コンピュータ・システム454N、あるいはそれらの組み合わせなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが通信し得る、1つまたは複数のクラウド・コンピューティング・ノード410を含む。ノード410は、互いに通信し得る。それらは、上述のようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの、1つまたは複数のネットワーク内で物理的または仮想的にグループ化され得る(図示せず)。これによって、クラウド・コンピューティング環境450が、インフラ、プラットフォーム、またはソフトウェア、あるいはそれらの組み合わせを、クラウド消費者がローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提案することが可能となる。図7に示されるコンピューティング・デバイス454A~Nのタイプは、単なる例示であるように意図され、コンピューティング・ノード410およびクラウド・コンピューティング環境450は、任意のタイプのネットワークまたはネットワーク・アドレス可能な接続あるいはその両方を経て(例えば、ウェブ・ブラウザを用いて)、任意のタイプのコンピュータ化デバイスと通信し得ると理解されたい。
【0077】
図8は、本発明の実施形態による、例示的な抽象モデル層の概略図である。図8に示されるコンポーネント、層、および機能は、単なる例示であるように意図され、本発明の実施形態は、それらに限定されないと、予め理解されたい。図示されるように、以下の層および対応する機能が提供される。
【0078】
ハードウェアおよびソフトウェア層560は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム561、RISC(Reduced Instruction Set Computer)アーキテクチャ・ベース・サーバ562、サーバ563、ブレード・サーバ564、記憶デバイス565、ならびにネットワークおよびネットワーキング・コンポーネント566を含む。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア567およびデータベース・ソフトウェア568を含む。
【0079】
仮想化層570は、仮想エンティティの以下の例、仮想サーバ571、仮想ストレージ572、仮想プライベート・ネットワークを含む仮想ネットワーク573、仮想アプリケーションおよびオペレーティング・システム574、ならびに仮想クライアント575が提供され得る、抽象層を提供する。
【0080】
一実施例では、管理層580は、後述する機能を提供し得る。リソース供給581は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的な調達を提供する。測定および価格設定582は、リソースが、クラウド・コンピューティング環境内で利用され、これらのリソースの消費に対して課金または請求されるときに、コスト追跡を提供する。一実施例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、データおよび他のリソースについての保護だけでなく、クラウド消費者およびタスクのための本人確認を提供する。ユーザ・ポータル583は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理584は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス水準合意(SLA)計画および遂行585は、SLAに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。
【0081】
ワークロード層590は、クラウド・コンピューティング環境が利用され得る機能性の実施例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション541、ソフトウェア開発およびライフサイクル管理592、仮想クラスルーム教育配信593、データ解析処理594、トランザクション処理595、ならびにRNN-Tモデルのためのデータ・ソート596を含む。
【0082】
本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体を含み得る。
【0083】
コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持し、記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または前述したものの任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ、読み取り専用メモリ、消去可能プログラマブル読み取り専用メモリ(EPROMまたはFlashメモリ)、静的ランダム・アクセス・メモリ、ポータブル・コンパクト・ディスク読み取り専用メモリ(CD-ROM)、デジタル・バーサタイル・ディスク(DVD)、メモリ・スティック、フロッピー(R)・ディスク、パンチカードまたは命令をその上に記録させる溝内の隆起構造などの機械的に符号化されたデバイス、および前述したものの任意の適当な組み合わせを含む。本明細書で用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由伝播する電磁波、導波管もしくは他の送信媒体を通って伝播する電磁波(例えば、光ファイバ・ケーブルを通過する光パルス)、または電線を通って送信される電気信号などの、一過性信号自体であると解釈されるべきではない。
【0084】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組み合わせを介して外部コンピュータまたは外部記憶デバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング/処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体の記憶用にコンピュータ可読プログラム命令を転送する。
【0085】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはSmalltalk(R)、C++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、1つもしくは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的にかつリモート・コンピュータ上で部分的に、またはリモート・コンピュータもしくはサーバ上で完全に、実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくはワイド・エリア・ネットワーク(WAN)を含む任意のタイプのネットワークを通して、ユーザのコンピュータに接続されてもよく、または、接続は、(例えば、インターネット・サービス・プロバイダを使用してインターネットを通して)外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、またはプログラマブル・ロジック・アレイ(PLA)を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することによって、コンピュータ可読プログラム命令を実行し得る。
【0086】
本発明の態様は、発明の実施形態による、方法、装置(システム)、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組み合わせが、コンピュータ可読プログラム命令によって実施され得ると理解されたい。
【0087】
コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックあるいはモジュールにおいて指定される機能/動作を実施する手段を生成するように、これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または機械を製造するための他のプログラマブル・データ処理装置の少なくとも1つのプロセッサに提供されてもよい。コンピュータ可読記憶媒体に記憶される命令を有するコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックあるいはモジュールにおいて指定される機能/動作の態様を実施する命令を含む製品を含むように、これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定のやり方で機能するように指示し得る、コンピュータ可読記憶媒体に記憶され得る。
【0088】
コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の1つまたは複数のブロックあるいはモジュールにおいて指定される機能/動作を実施するように、コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ブロック/ステップを実行させてコンピュータ実施プロセスを作り出すために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ得る。
【0089】
図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えられる実施態様のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実施態様において、ブロック内に記載された機能は、図面中に記載された順序以外で発生してもよい。例えば、連続して示される2つのブロックが、実際には、実質的に同時に実行されてもよく、または、ブロックが、関係する機能性次第で逆の順序で実行されることがあってもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせが、指定された機能もしくは動作を実行し、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェア・ベース・システムによって実施され得ることにも留意されたい。
【0090】
本原理の「一実施形態」または「実施形態」への明細書内の参照、およびそれらの他の変形は、実施形態に関連して説明される特定の特徴、構造、特性などが、本原理の少なくとも1つの実施形態に含まれることを意味する。したがって、明細書全体を通して様々な場所に現れる、「一実施形態では」または「実施形態では」という句および任意の他の変形の出現は、必ずしも全てが同一の実施形態を指すものではない。
【0091】
以下の「/」、「および/または」、および「のうちの少なくとも1つ」のいずれかの使用は、例えば、「A/B」、「Aおよび/またはB」、および「AおよびBのうちの少なくとも1つ」の場合、最初に列挙された選択肢(A)のみの選択、または2番目に列挙された選択肢(B)のみの選択、または両方の選択肢(AおよびB)の選択を包含するように意図されると、理解されたい。さらなる例として、「A、B、および/またはC」および「A、B、およびCのうちの少なくとも1つ」の場合、このような表現法は、最初に列挙された選択肢(A)のみの選択、または2番目に列挙された選択肢(B)のみの選択、または3番目に列挙された選択肢(C)のみの選択、または最初と2番目に列挙された選択肢(AおよびB)のみの選択、または最初と3番目に列挙された選択肢(AおよびC)のみの選択、または2番目と3番目に列挙された選択肢(BおよびC)のみの選択、または3つの選択肢全て(AおよびBおよびC)の選択を包含するように意図される。これは、当技術分野および関連技術分野の当業者に容易に明らかなように、多くの項目が列挙されたときについても拡張され得る。
【0092】
回帰型ニューラル・ネットワーク・トランスデューサ(RNN-T)モデルを生成するためのデータ・ソートのための方法およびシステムの好適な実施形態が説明されたが(例示であり限定ではないことを意図するものである)、上記教示に照らして修正および変形が当業者により行われ得ることに留意されたい。したがって、添付された特許請求の範囲により概説される発明の範囲内にある、説明された特定の実施形態において変更が行われ得ることが、理解されるべきである。
図1
図2
図3
図4
図5
図6
図7
図8
【手続補正書】
【提出日】2024-12-03
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
音声認識モデル用の訓練データを準備するためのコンピュータ実施方法であって、
コーパスから複数のセンテンスを取得することと、
前記複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割することと、
前記複数のセンテンスのうちのセンテンスごとに、前記センテンス内の各音素の前記3つの隠れ状態の期間の変動量に基づいて、スコアを計算することと、
計算された前記スコアを使用することによって、前記複数のセンテンスをソートすることと、
を含む、コンピュータ実施方法。
【請求項2】
各スコアが、前記センテンス内の各音素の前記3つの隠れ状態の平均期間を使用することによって計算される、請求項1に記載のコンピュータ実施方法。
【請求項3】
各スコアが、クリーン音声から前もって推定された前記センテンス内の各音素の前記3つの隠れ状態のそれぞれの期間を使用することによって計算される、請求項1に記載のコンピュータ実施方法。
【請求項4】
前記スコアが、クリーン音声からの統計値が利用可能でない場合、音素独立均一スコアである、請求項に記載のコンピュータ実施方法。
【請求項5】
前記音素独立均一スコアが、
【数1】
として与えられ、
n,xはn番目の音素のx番目の状態の期間であり、xが初期(b)または中間(m)または終期(e)のいずれかをとり、μが、dn,xによって得られる前記n番目の音素の前記3つの隠れ状態の平均期間であり、Nが、前記センテンス内の音素の総数である、請求項4に記載のコンピュータ実施方法。
【請求項6】
前記スコアが、クリーン音声からの統計値が利用可能である場合、音素依存均一スコアである、請求項に記載のコンピュータ実施方法。
【請求項7】
前記音素依存均一スコアが、
【数2】
として与えられ、
λk(n),xが、前記クリーン音声から事前に推定された、n番目の音素が参照されるべき音素k(n)のx番目の状態の理想期間であり、k(n)が、前記n番目の音素を対応する音素にマッピングする関数である、請求項6に記載のコンピュータ実施方法。
【請求項8】
請求項1ないし7のいずれか一項に記載の方法を実行させるためのコンピュータ・プログラムを記録したコンピュータ可読記憶媒体。
【請求項9】
音声認識モデル用の訓練データを準備するためのシステムであって、
メモリと、
前記メモリと通信する1つまたは複数のプロセッサであって、
コーパスから複数のセンテンスを取得し、
前記複数のセンテンスのうちの各センテンス内の各音素を3つの隠れ状態に分割し、
前記複数のセンテンスのうちのセンテンスごとに、前記センテンス内の各音素の前記3つの隠れ状態の期間の変動量に基づいて、スコアを計算し、
計算された前記スコアを使用することによって、前記複数のセンテンスをソートする、
ように構成された、プロセッサと、
を備える、システム。
【請求項10】
各スコアが、前記センテンス内の各音素の前記3つの隠れ状態の平均期間を使用することによって計算される、請求項に記載のシステム。
【請求項11】
各スコアが、クリーン音声から前もって推定された前記センテンス内の各音素の前記3つの隠れ状態のそれぞれの期間を使用することによって計算される、請求項に記載のシステム。
【請求項12】
前記スコアが、クリーン音声からの統計値が利用可能でない場合、音素独立均一スコアである、請求項に記載のシステム。
【請求項13】
前記音素独立均一スコアが、
【数3】
として与えられ、
n,xはn番目の音素のx番目の状態の期間であり、xが初期(b)または中間(m)または終期(e)のいずれかをとり、μが、dn,xによって得られる前記n番目の音素の前記3つの隠れ状態の平均期間であり、Nが、前記センテンス内の音素の総数である、請求項12に記載のシステム。
【請求項14】
前記スコアが、クリーン音声からの統計値が利用可能である場合、音素依存均一スコアであり、前記音素依存均一スコアが、
【数4】
として与えられ、
λk(n),xが、前記クリーン音声から事前に推定された、n番目の音素が参照されるべき音素k(n)のx番目の状態の理想期間であり、k(n)が、前記n番目の音素を対応する音素にマッピングする関数である、請求項に記載のシステム。
【請求項15】
コンピュータ・プログラムであって、前記プログラムがコンピュータ上で動作すると、請求項1ないし7のいずれか一項に記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。
【国際調査報告】