特表2025-502939 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2025-502939ＲＮＮ－Ｔモデルを生成するためのデータ・ソート

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2025-01-30

(54)【発明の名称】ＲＮＮ－Ｔモデルを生成するためのデータ・ソート

(51)【国際特許分類】

G10L 15/06 20130101AFI20250123BHJP

G10L 15/18 20130101ALI20250123BHJP

G10L 15/16 20060101ALI20250123BHJP

【ＦＩ】

G10L15/06 300Y

G10L15/18 300H

G10L15/16

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024538721

(86)(22)【出願日】2023-01-16

(85)【翻訳文提出日】2024-06-25

(86)【国際出願番号】 EP2023050845

(87)【国際公開番号】W WO2023139015

(87)【国際公開日】2023-07-27

(31)【優先権主張番号】17/580,846

(32)【優先日】2022-01-21

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(72)【発明者】

【氏名】福田隆

(72)【発明者】

【氏名】長野徹

(57)【要約】

音声認識モデル用の訓練データを準備するためのコンピュータ実施方法であって、コーパスから複数のセンテンスを取得することと、複数のセンテンスのうちの各センテンス内の各音素を３つの隠れ状態に分割することと、複数のセンテンスのうちのセンテンスごとに、センテンス内の各音素の３つの隠れ状態の期間の変動量に基づいて、スコアを計算することと、計算されたスコアを使用することによって、複数のセンテンスをソートすることと、を含む、コンピュータ実施方法が提供される。

【特許請求の範囲】

【請求項1】

音声認識モデル用の訓練データを準備するためのコンピュータ実施方法であって、
コーパスから複数のセンテンスを取得することと、
前記複数のセンテンスのうちの各センテンス内の各音素を３つの隠れ状態に分割することと、
前記複数のセンテンスのうちのセンテンスごとに、前記センテンス内の各音素の前記３つの隠れ状態の期間の変動量に基づいて、スコアを計算することと、
計算された前記スコアを使用することによって、前記複数のセンテンスをソートすることと、
を含む、コンピュータ実施方法。

【請求項2】

各スコアが、前記センテンス内の各音素の前記３つの隠れ状態の平均期間を使用することによって計算される、請求項１に記載のコンピュータ実施方法。

【請求項3】

各スコアが、クリーン音声から前もって推定された前記センテンス内の各音素の前記３つの隠れ状態のそれぞれの期間を使用することによって計算される、請求項１に記載のコンピュータ実施方法。

【請求項4】

前記スコアが、クリーン音声からの統計値が利用可能でない場合、音素独立均一スコアである、請求項１ないし３のいずれか一項に記載のコンピュータ実施方法。

【請求項5】

前記音素独立均一スコアが、

【数1】

として与えられ、
ｄ_ｎ，ｘはｎ番目の音素のｘ番目の状態の期間であり、ｘが初期（ｂ）または中間（ｍ）または終期（ｅ）のいずれかをとり、μ_ｎが、ｄ_ｎ，ｘによって得られる前記ｎ番目の音素の前記３つの隠れ状態の平均期間であり、Ｎが、前記センテンス内の音素の総数である、請求項４に記載のコンピュータ実施方法。

【請求項6】

前記スコアが、クリーン音声からの統計値が利用可能である場合、音素依存均一スコアである、請求項１ないし５のいずれか一項に記載のコンピュータ実施方法。

【請求項7】

前記音素依存均一スコアが、

【数2】

として与えられ、
λ_{ｋ（ｎ），ｘ}が、前記クリーン音声から事前に推定された、ｎ番目の音素が参照されるべき音素ｋ（ｎ）のｘ番目の状態の理想期間であり、ｋ（ｎ）が、前記ｎ番目の音素を対応する音素にマッピングする関数である、請求項６に記載のコンピュータ実施方法。

【請求項8】

音声認識モデル用の訓練データを準備するためのコンピュータ・プログラム製品であって、前記コンピュータ・プログラム製品が、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、前記プログラム命令が、コンピュータに、
コーパスから複数のセンテンスを取得させ、
前記複数のセンテンスのうちの各センテンス内の各音素を３つの隠れ状態に分割させ、
前記複数のセンテンスのうちのセンテンスごとに、前記センテンス内の各音素の前記３つの隠れ状態の期間の変動量に基づいて、スコアを計算させ、
計算された前記スコアを使用することによって、前記複数のセンテンスをソートさせるために、前記コンピュータによって実行可能である、コンピュータ・プログラム製品。

【請求項9】

各スコアが、前記センテンス内の各音素の前記３つの隠れ状態の平均期間を使用することによって計算される、請求項８に記載のコンピュータ・プログラム製品。

【請求項10】

各スコアが、クリーン音声から前もって推定された前記センテンス内の各音素の前記３つの隠れ状態のそれぞれの期間を使用することによって計算される、請求項８に記載のコンピュータ・プログラム製品。

【請求項11】

前記スコアが、クリーン音声からの統計値が利用可能でない場合、音素独立均一スコアである、請求項８ないし１０のいずれか一項に記載のコンピュータ・プログラム製品。

【請求項12】

前記音素独立均一スコアが、

【数3】

として与えられ、
ｄ_ｎ，ｘはｎ番目の音素のｘ番目の状態の期間であり、ｘが初期（ｂ）または中間（ｍ）または終期（ｅ）のいずれかをとり、μ_ｎが、ｄ_ｎ，ｘによって得られる前記ｎ番目の音素の前記３つの隠れ状態の平均期間であり、Ｎが、前記センテンス内の音素の総数である、請求項１１に記載のコンピュータ・プログラム製品。

【請求項13】

前記スコアが、クリーン音声からの統計値が利用可能である場合、音素依存均一スコアである、請求項８ないし１２のいずれか一項に記載のコンピュータ・プログラム製品。

【請求項14】

前記音素依存均一スコアが、

【数4】

として与えられ、
λ_{ｋ（ｎ），ｘ}が、前記クリーン音声から事前に推定された、ｎ番目の音素が参照されるべき音素ｋ（ｎ）のｘ番目の状態の理想期間であり、ｋ（ｎ）が、前記ｎ番目の音素を対応する音素にマッピングする関数である、請求項１３に記載のコンピュータ・プログラム製品。

【請求項15】

音声認識モデル用の訓練データを準備するためのシステムであって、
メモリと、
前記メモリと通信する１つまたは複数のプロセッサであって、
コーパスから複数のセンテンスを取得し、
前記複数のセンテンスのうちの各センテンス内の各音素を３つの隠れ状態に分割し、
前記複数のセンテンスのうちのセンテンスごとに、前記センテンス内の各音素の前記３つの隠れ状態の期間の変動量に基づいて、スコアを計算し、
計算された前記スコアを使用することによって、前記複数のセンテンスをソートする、
ように構成された、プロセッサと、
を備える、システム。

【請求項16】

各スコアが、前記センテンス内の各音素の前記３つの隠れ状態の平均期間を使用することによって計算される、請求項１５に記載のシステム。

【請求項17】

各スコアが、クリーン音声から前もって推定された前記センテンス内の各音素の前記３つの隠れ状態のそれぞれの期間を使用することによって計算される、請求項１５に記載のシステム。

【請求項18】

前記スコアが、クリーン音声からの統計値が利用可能でない場合、音素独立均一スコアである、請求項１５ないし１７のいずれか一項に記載のシステム。

【請求項19】

前記音素独立均一スコアが、

【数5】

として与えられ、
ｄ_ｎ，ｘはｎ番目の音素のｘ番目の状態の期間であり、ｘが初期（ｂ）または中間（ｍ）または終期（ｅ）のいずれかをとり、μ_ｎが、ｄ_ｎ，ｘによって得られる前記ｎ番目の音素の前記３つの隠れ状態の平均期間であり、Ｎが、前記センテンス内の音素の総数である、請求項１８に記載のシステム。

【請求項20】

前記スコアが、クリーン音声からの統計値が利用可能である場合、音素依存均一スコアであり、前記音素依存均一スコアが、

【数6】

として与えられ、
λ_{ｋ（ｎ），ｘ}が、前記クリーン音声から事前に推定された、ｎ番目の音素が参照されるべき音素ｋ（ｎ）のｘ番目の状態の理想期間であり、ｋ（ｎ）が、前記ｎ番目の音素を対応する音素にマッピングする関数である、請求項１５ないし１９のいずれか一項に記載のシステム。

【請求項21】

コンピュータ・プログラムであって、前記プログラムがコンピュータ上で動作すると、請求項１ないし７のいずれか一項に記載の方法を実行するように適合されたプログラム・コード手段を含む、コンピュータ・プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に、機械学習に関し、より詳細には、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ：recurrent neural network transducer）・モデルを生成するためのデータ・ソートのための方法およびシステムに関する。

【背景技術】

【0002】

自動音声認識（ＡＳＲ：automatic speech recognition）のためのエンド・ツー・エンド・モデルが、従来のＡＳＲシステムの別個のコンポーネント（例えば、音響、発音、および言語モデル）を単一のニューラル・ネットワークに組み込む方法として近年人気を集めている。そのようなモデルの例には、コネクショニスト時系列分類（ＣＴＣ：connectionist temporal classification）ベース・モデル、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）、およびアテンション・ベースｓｅｑ２ｓｅｑモデルが含まれる。これらのモデルの中で、ＲＮＮ－Ｔは、最もストリーミングに適したエンド・ツー・エンド認識器であり、従来システムと比較して競争力のある性能を示している。

【発明の概要】

【0003】

本発明の一態様によれば、音声認識モデル用の訓練データを準備するためのコンピュータ実施方法が提供される。コンピュータ実施方法は、コーパスから複数のセンテンスを取得することと、複数のセンテンスのうちの各センテンス内の各音素を３つの隠れ状態に分割することと、複数のセンテンスのうちのセンテンスごとに、センテンス内の各音素の３つの隠れ状態の期間の変動量に基づいて、スコアを計算することと、計算されたスコアを使用することによって、複数のセンテンスをソートすることと、を含む。

【0004】

本発明の別の態様によれば、音声認識モデル用の訓練データを準備するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、具現化されたプログラム命令を有するコンピュータ可読記憶媒体を含み、プログラム命令が、コンピュータに、コーパスから複数のセンテンスを取得させ、複数のセンテンスのうちの各センテンス内の各音素を３つの隠れ状態に分割させ、複数のセンテンスのうちのセンテンスごとに、センテンス内の各音素の３つの隠れ状態の期間の変動量に基づいて、スコアを計算させ、計算されたスコアを使用することによって、複数のセンテンスをソートさせるために、コンピュータによって実行可能である。

【0005】

本発明のさらに別の態様によれば、音声認識モデル用の訓練データを準備するためのシステムが提供される。システムは、メモリと、メモリと通信する１つまたは複数のプロセッサであって、コーパスから複数のセンテンスを取得し、複数のセンテンスのうちの各センテンス内の各音素を３つの隠れ状態に分割し、複数のセンテンスのうちのセンテンスごとに、センテンス内の各音素の３つの隠れ状態の期間の変動量に基づいて、スコアを計算し、計算されたスコアを使用することによって、複数のセンテンスをソートするように構成されたプロセッサと、を含む。

【0006】

例示的実施形態は、異なる主題に関連して説明されることに留意されたい。特に、方法タイプの請求項に関連して説明される実施形態もあれば、装置タイプの請求項に関連して説明される実施形態もある。しかしながら、当業者であれば、特段の言及がない限り、１つのタイプの主題に属する特徴の任意の組み合わせに加えて、異なる主題に関する特徴間の任意の組み合わせ、特に方法タイプ請求項の特徴と装置タイプ請求項の特徴との間の任意の組み合わせも、本文書内で説明されるものと考えられるということを上記および以下の説明から推察するであろう。

【0007】

これらのおよび他の特徴および利点は、その例示的実施形態の以下の詳細な説明から明らかとなり、詳細な説明は、添付図面に関連して読まれるべきである。

【0008】

ここで、本発明の好適な実施形態は、単なる例として、以下の図面を参照して説明される。

【図面の簡単な説明】

【0009】

【図1】本発明の実施形態による、状態間で均衡のとれた期間を有する音素の例示的なシーケンス、および状態間で不均衡な期間を有する音素の例示的なシーケンスのブロック／フロー図である。

【図2】本発明の実施形態による、訓練コーパスからセンテンスを選択し、シーケンス内の音素を３つの隠れ状態に分割するための例示的な方法のブロック／フロー図である。

【図3】本発明の実施形態による、クリア音声からの統計値が利用可能でない場合、およびクリア音声からの統計値が利用可能である場合の均一スコアの計算を示す図である。

【図4】本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な方法のブロック／フロー図である。

【図5】本発明の実施形態による、音声認識モデル用の訓練データを準備するためのシステムを示す図である。

【図6】本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な処理システムのブロック／フロー図である。

【図7】本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック／フロー図である。

【図8】本発明の実施形態による、例示的な抽象モデル層の概略図である。

【発明を実施するための形態】

【0010】

図面全体を通して、同一または類似の参照番号は、同一または類似の要素を表す。

【0011】

本発明による実施形態は、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）・ベース・モデルのための効率的な訓練データ・シーケンスを構成するための方法およびデバイスを提供する。例示的な実施形態は、有利なことに、各音素の隠れ状態の期間の変化を評価することによって、訓練データセットをソートする。

【0012】

ＲＮＮ－Ｔを掘り下げる前に、音声認識は、モバイル環境の非連続的かつ素早い要求に応じるために発展し続けている。ＡＳＲシステムの品質向上を図る、既存アーキテクチャに対する新たな音声認識アーキテクチャまたは改善策が、開発され続けている。説明すると、音声認識は、最初は、各モデルが専用の目的を有する複数のモデルを採用していた。例えば、ＡＳＲシステムは、音響モデル（ＡＭ：acoustic model）、発音モデル（ＰＭ：pronunciation model）、および言語モデル（ＬＭ：language model）を含んでいた。音響モデルは、オーディオのセグメント（例えば、オーディオのフレーム）を音素にマッピングするものであった。発音モデルは、これらの音素を接続して単語を形成し、言語モデルは、与えられたフレーズの尤度（例えば、単語のシーケンスの可能性）を表現するために使用された。さらにこれらの個別のモデルは協働するものであったが、各モデルは独立して訓練され、多くの場合、異なるデータセットに対して手動で設計された。

【0013】

別個のモデルの手法によって、特に、所与のモデルのための訓練コーパス（例えば、訓練データの本体）がモデルの有効性を満たしたときに、音声認識システムが非常に正確になることが可能となったが、別個のモデルを独立して訓練する必要があることによって、それ自体に複雑性がもたらされ、統合モデルを用いたアーキテクチャが導き出された。これらの統合モデルは、単一ニューラル・ネットワークを使用して、オーディオ波形（例えば、入力シーケンス）を出力センテンス（例えば、出力シーケンス）に直接マッピングしようとするものであった。これによって、シーケンス・ツー・シーケンスの手法が得られ、それによって、オーディオ特徴のシーケンスを与えたときに、単語（または書記素）のシーケンスが生成された。シーケンス・ツー・シーケンス・モデルの例には、「アテンション・ベース」モデルおよび「リッスン・アテンド・スペル」（ＬＡＳ）モデルが含まれる。ＬＡＳモデルは、リスナ・コンポーネント、アテンダ・コンポーネント、およびスペラ・コンポーネントを使用して音声発話を文字にして書き起こす。ここで、リスナは、オーディオ入力（例えば、音声入力の時間周波数表現）を受信し、オーディオ入力をより上位の特徴表現にマッピングする、回帰型ニューラル・ネットワーク（ＲＮＮ）の符号化器である。アテンダは、より上位の特徴に注目して、入力特徴と予測されるサブワード単位（例えば、書記素または単語片）との間のアライメントを学習する。スペラは、仮定された単語のセットにわたる確率分布を作り出すことによって、入力から文字シーケンスを生成する、アテンション・ベースＲＮＮ復号器である。統合構造では、モデルの全てのコンポーネントが、単一のエンド・ツー・エンド（Ｅ２Ｅ）ニューラル・ネットワークとして併せて訓練されてもよい。ここでは、Ｅ２Ｅモデルは、アーキテクチャが完全にニューラル・ネットワークから構成されるモデルを指す。完全なニューラル・ネットワークは、外部コンポーネントまたは手動で設計されたコンポーネント（例えば、有限状態トランスデューサ、語彙集（lexicon）、またはテキスト正規化モジュール）あるいはその両方がなくても機能する。加えて、Ｅ２Ｅモデルを訓練すると、これらのモデルは、概して、決定木からのブートストラップまたは別個のシステムからの時間アライメントを必要としない。

【0014】

初期Ｅ２Ｅモデルは、個別に訓練されたモデルを越える、正確性と訓練の改善を証明したが、ＬＡＳモデルなどのこれらのＥ２Ｅモデルは、出力テキストを生成する前に入力シーケンス全体をレビューすることによって機能し、したがって、入力を受信したときにストリーミング出力を可能にしなかった。ストリーミング・ケイパビリティがなければ、ＬＡＳモデルは、リアルタイム音声書き起こしを行うことができない。この欠陥のため、レイテンシに敏感な、またはリアルタイム音声書き起こしが必要な音声アプリケーションに対してＬＡＳモデルを展開することは、問題を引き起こす場合がある。

【0015】

加えて、音響、発音、および言語モデルを有する音声認識システム、または合わせて構成されたそのようなモデルは、これらのモデルに関連付けられた比較的大規模な探索グラフを探索しなければならない復号器に依存し得る。大規模な探索グラフの場合、このタイプの音声認識システムを完全にオンデバイスでホストすることは助けとならない。ここで、音声認識システムが「オンデバイス」でホストされると、オーディオ入力を受信するデバイスは、そのプロセッサを使用して、音声認識システムの機能を実行する。例えば、音声認識システムが完全にオンデバイスでホストされると、デバイスのプロセッサは、音声認識システムの機能を実行するために、いかなるオフデバイス・コンピューティング・リソースとも協調する必要はない。完全なオンデバイスでない音声認識を実行するデバイスは、音声認識システムの少なくともいくつかの機能を実行するために、（例えば、リモート・コンピューティング・システムまたはクラウド・コンピューティングの）リモート・コンピューティング、およびしたがってオンライン接続性に依存する。例えば、音声認識システムは、サーバ・ベース・モデルとのネットワーク接続を使用して大規模探索グラフで復号を実行する。

【0016】

残念ながら、リモート接続に依存することによって、音声認識システムは、通信ネットワークのレイテンシ問題または固有の信頼性の低さあるいはその両方に対して脆弱になる。これらの問題を回避することによって音声認識の有用性を改善するために、音声認識システムはこの場合も、回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）として知られるシーケンス・ツー・シーケンス・モデルの形式に発展した。ＲＮＮ－Ｔは、アテンション・メカニズムを採用しておらず、概して出力（例えば、センテンス）を作り出すためにシーケンス全体（例えば、オーディオ波形）を処理する必要がある、他のシーケンス・ツー・シーケンス・モデルとは異なり、ＲＮＮ－Ｔは、入力サンプルを連続的に処理し、出力シンボルをストリーミングする。これは、リアルタイム通信にとって特に魅力的な特徴である。例えば、ＲＮＮ－Ｔを用いた音声認識は、文字を１つずつ話すように出力し得る。

【0017】

したがって、ＲＮＮ－Ｔを使用してデータ・シーケンスを訓練するためのより効率的なプロセスの必要がある。本発明の例示的な実施形態は、各音素の隠れ状態の期間の変化を分析および評価することによって、訓練データのソートを改善する方法を導入する。

【0018】

本発明は、所与の例示的アーキテクチャに関して説明されるが、他のアーキテクチャ、構造、基板材料、ならびにプロセス特徴およびステップ／ブロックが、本発明の範囲内において変化し得ることを理解すべきである。明確化のために、ある特徴を全ての図面に示すことができないことに留意すべきである。これは、任意の特定の実施形態もしくは例示、または特許請求の範囲の限定として解釈されることを意図するものではない。

【0019】

図１は、本発明の実施形態による、状態間で均衡のとれた期間を有する音素の例示的なシーケンス、および状態間で不均衡な期間を有する音素の例示的なシーケンスとのブロック／フロー図である。

【0020】

例示的実施形態は、均衡のとれた音素コンテキスト依存状態を有する発話が、音響的に容易であるという仮定に基づいて、訓練データ・シーケンスを編成する方法を導入する。言い換えると、音素ごとの初期、中間、および終期状態の期間が不均衡である場合、それらの発話は、音響的観点からより困難なケースとみなされる。例えば、自然発生的な音声は、隠れ状態の間に不均衡な期間を含む傾向にあり、読書形式の音声よりも困難である。

【0021】

３つの隠れ状態間の期間に基づく均一スコアは、発話が音響的にどの程度困難であるかを推定するために、各状態のフレーム数の差異によって得られる。それは、訓練サンプルをソートするための基準として使用される。各隠れ状態の期間がチェックされ、音響的に困難な発話に対してアライメントが変化するとき、例示的方法は、無音関連音素（Ｘ、ＶＮ、ＮＳ）を無視する。

【0022】

音素１０のシーケンスは、第１の音素１２（Ａ－ｂ）、第２の音素１４（Ａ－ｍ）、第３の音素１６（Ａ－ｅ）、第４の音素１８（ｓ－ｂ）、第５の音素２０（ｓ－ｍ）、および第６の音素２２（ｓ－ｅ）を含む。第１の音素１２は、期間３２を有し、第２の音素１４は、期間３４を有し、第３の音素１６は、期間３６を有し、第４の音素１８は、期間３８を有し、第５の音素２０は、期間４０を有し、第６の音素２２は、期間４２を有する。

【0023】

音素１２、１４、１６、１８、２０、２２の期間３２、３４、３６、３８、４０、４２は、均等に均衡がとれている。別の言い方をすると、各音素は、状態間で均衡のとれた期間を有する。言い換えると、「均衡のとれた」は、各期間の規則性または統一性または均一性または類似性を指す。したがって、均衡のとれた音素を有する発話は、クリーン音声、即ち、より構造化され、編成され、規則的であり、精密であり、論理的であり、または測定され、あるいはその組み合わせである音声と呼ばれることがある。構造化された音声またはクリーン音声は、理解がより容易であり、よって音響的に容易である。各状態のフレームは、より同等または等価である（状態間の差異が少ない）。

【0024】

これに対して、音素５０のシーケンスは、第１の音素７２（Ａ－ｂ）、第２の音素７４（Ａ－ｍ）、第３の音素７６（Ａ－ｅ）、第４の音素７８（ｓ－ｂ）、第５の音素８０（ｓ－ｍ）、および第６の音素８２（ｓ－ｅ）を含む。第１の音素７２は、期間５２を有し、第２の音素７４は、期間５４を有し、第３の音素７６は、期間５６を有し、第４の音素７８は、期間５８を有し、第５の音素８０は、期間６０を有し、第６の音素８２は、期間６２を有する。

【0025】

音素５２、５４、５６、５８、６０、６２の期間７２、７４、７６、７８、８０、８２は、均等に均衡がとれていない。別の言い方をすると、各音素は、状態間で不均衡な期間を有する。言い換えると、「不均衡」は、各期間の不規則性または不統一性または不均一性または非類似性を指す。したがって、不均衡な音素を有する発話は、クリーンでない音声、即ち、構造化されていない、編成されていない、規則的でない、精密でない、論理的でない、または測定されていない、あるいはその組み合わせである音声と呼ばれることがある。その代わりに、クリーンでない音声は、より無秩序で、自然発生的で、雑音が多く、組織化されておらず、かつ乱雑であり、または混乱している。構造化されていない音声（クリーンでない音声）は、理解がより難しく、よって音響的に困難である。各状態のフレームは、比例しておらず、または比較可能でなく、または一貫性に欠ける（状態間の差異が大きい）。例えば、音素７８は、８のフレームを有し、音素８２は、１のフレームを有する。結果として、このようなフレームの間の差異が大きい。

【0026】

図２および図３を参照して後述する均一スコアは、状態間の期間に基づき、各状態のフレーム数の差異によって得られる。

【0027】

図２は、本発明の実施形態による、訓練コーパスからセンテンスを選択し、シーケンス内の音素を３つの隠れ状態に分割するための例示的な方法のブロック／フロー図９０である。

【0028】

スコア計算のために、センテンス９２が訓練コーパスから選択され、センテンス内の各音素が、３つの隠れ状態に分割または分離される。例えば、音素９４は、センテンス９２の音響表現９３から選択される。音素９４は、３つの隠れ状態、即ち、隠れ状態１（９４Ａ）、隠れ状態２（９４Ｂ）、および隠れ状態３（９４Ｃ）に分割される。隠れ状態１は、初期状態と呼ばれてもよく、隠れ状態２は、中間状態と呼ばれてもよく、隠れ状態３は、終期状態と呼ばれてもよい。隠れ状態１は、音響表現９６Ａとして提示され、隠れ状態２は、音響表現９６Ｂとして提示され、隠れ状態２は、音響表現９６Ｃとして提示される。

【0029】

次いで、均一スコアが、図３を参照して後述するように、センテンスごとに計算され、訓練サンプルは、計算された均一スコアに基づいて昇順でソートされる。

【0030】

図３は、本発明の実施形態による、クリア音声からの統計値が利用可能でない場合、およびクリア音声からの統計値が利用可能である場合の均一スコアの計算を示す。

【0031】

第１のシナリオ１００では、音素独立均一スコアは、クリーン音声からの統計値が利用可能でない場合に、

【数1】

として与えられる。

【0032】

ｄ_ｎ，ｘは、ｎ番目の音素のｘ番目の状態（ｘは、ｂ：初期、またはｍ：中間、またはｅ：終期のいずれかをとる）の期間であり、μ_ｎは、ｄ_ｎ，ｘによって得られるｎ番目の音素の３つの隠れ状態の平均期間であり、Ｎは、センテンス内の音素の総数である。

【0033】

第２のシナリオ１０２では、音素依存均一スコアは、クリーン音声からの統計値が利用可能である場合に、

【数2】

として与えられる。

【0034】

λ_{ｋ（ｎ），ｘ}は、クリーン音声から事前に推定された、ｎ番目の音素が参照されるべき音素ｋ（ｎ）のｘ番目の状態の理想期間であり、ｋ（ｎ）は、ｎ番目の音素を対応する音素にマッピングする関数である。

【0035】

図４は、本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な方法のブロック／フロー図である。

【0036】

ブロック１２０において、複数のセンテンスが、コーパスから取得される。

【0037】

ブロック１２２において、各センテンス内の各音素が、３つの隠れ状態に分割される。

【0038】

ブロック１２４において、センテンスごとに、センテンス内の各音素の３つの隠れ状態の期間の変動量に基づいて、スコアが計算される。

【0039】

ブロック１２６において、複数のセンテンスが、計算されたスコアを使用することにより、（例えば、昇順で）ソートされる。

【0040】

図５は、本発明の実施形態による、音声認識モデル用の訓練データを準備するためのシステムを示す。

【0041】

コーパス１３０は、複数の異なるソースから複数の書かれたテキストの集合体を含んで提示される。センテンス１４０は、コーパス１３０から抽出され得る。一例では、センテンス１４０からセンテンス３が選択され得る。音素１５０は、センテンス３から導出される。

【0042】

音素は、特定言語において、意味の差につながる音の最小クラスとして定義され得る。例えば、英語では、／ｌ／と／ｒ／とは、２つの音素である。これは、「ｒｏｙａｌ」および「ｌｏｙａｌ」で明らかであるように、一方をもう一方と置き換えることによって、異なる意味を持つ単語が作り出されるからである。音素は、通常２つのスラッシュによって示されることに留意されたい。

【0043】

音素は、それらが発音される方法において著しく異なり（バリエーション(variations)は、「音（phones）」と呼ばれる）、即ち、人は、異なるアクセント、異なるスピード、および異なる声のピッチ（例えば、男性対女性の声）で発する。実際に、「ｔｈｅ」と同じくらい短く日常的な単語でさえ、多くの全く別の方法で発音され得ることが分かっている。

【0044】

音素１５０のそれぞれが、３つの隠れ状態に分割される。例えば、音素１は、／ｃ／であってもよく、音素２は、／ａ／であってもよく、音素３は、／ｔ／であってもよい。音素１は、３つの隠れ状態に分割され、音素２は、３つの隠れ状態に分割され、音素３は、３つの隠れ状態に分割され、以下同様である。簡略化のため、音素３が、３つの隠れ状態１６０に分割されて示される。隠れ状態１は、初期状態であり、隠れ状態２は、中間状態であり、隠れ状態３は、終期状態である。隠れ状態１は、期間Ａを有し、隠れ状態２は、期間Ｂを有し、隠れ状態３は、期間Ｃを有する。初期状態は、第１の音響波を表し、中間状態は、第２の音響波を表し、終期状態は、第３の音響波を表し、各音響波は、潜在的に異なる周波数を有する。

【0045】

均一スコア計算器１７０は、クリーン音声からの統計値が利用可能である場合、または利用可能でない場合に基づいて、均一スコアを計算するために使用される。統計値は、変数またはパラメータの数に関連する様々なデータまたは情報またはデータのサンプルを指し得る。

【0046】

一例では、均一スコアは、音素の３つの状態の平均期間１７２から計算される。別の例では、均一スコアは、事前にクリーン音声から推定された理想的な期間１７４から計算される。

【0047】

訓練サンプルは、ソーティング・コンポーネント１８０によってソートされ得る。訓練サンプルは、例えば、提案された均一スコア１８２、１８４、１８６、１８８の昇順でソートされ得る。

【0048】

図６は、本発明の実施形態による、音声認識モデル用の訓練データを準備するための例示的な処理システムのブロック／フロー図である。

【0049】

図６は、コンピューティング・デバイス２０５を含むシステム２００のコンポーネントのブロック図を示す。図６は、単に１つの実施態様の例示を提供するだけであり、異なる実施形態が実施され得る環境に関していかなる限定も示唆しないと理解されたい。図示された環境に対して多くの修正が行われ得る。

【0050】

コンピューティング・デバイス２０５は、通信ファブリック２０２を含み、通信ファブリック２０２は、コンピュータ・プロセッサ２０４、メモリ２０６、永続記憶装置２０８、通信ユニット２１０、および入力／出力（Ｉ／Ｏ）インターフェース２１２の間に通信を提供する。通信ファブリック２０２は、プロセッサ（マイクロプロセッサ、通信およびネットワーク・プロセッサなど）、システム・メモリ、周辺デバイス、ならびにシステム内の任意の他のハードウェア・コンポーネント間でデータを渡し、または情報を制御し、あるいはその両方を行うように設計された任意のアーキテクチャで実施され得る。例えば、通信ファブリック２０２は、１つまたは複数のバスで実施され得る。

【0051】

メモリ２０６、キャッシュ・メモリ２１６、および永続記憶装置２０８は、コンピュータ可読記憶媒体である。本実施形態では、メモリ２０６は、ランダム・アクセス・メモリ（ＲＡＭ）２１４を含む。別の実施形態では、メモリ２０６は、フラッシュ・メモリであってもよい。概して、メモリ２０６は、任意の適当な揮発性または不揮発性コンピュータ可読記憶媒体を含み得る。

【0052】

本発明のいくつかの実施形態では、プログラム２２５は、コンピューティング・デバイス２０５のコンポーネントとしてＡＩアクセラレータ・チップ２２２によって含まれ、動作される。他の実施形態では、プログラム２２５は、メモリ２０６の１つまたは複数のメモリを介した、それぞれのコンピュータ・プロセッサ２０４のうちの１つまたは複数と併せた（本明細書に記載されたデータ・ソート技術を含むＲＮＮ－Ｔ用の訓練データ・シーケンスを実施するための）ＡＩアクセラレータ・チップ２２２による実行のために、永続記憶装置２０８に記憶される。本実施形態では、永続記憶装置２０８は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代替として、または加えて、永続記憶装置２０８は、ソリッド・ステート・ハード・ドライブ、半導体記憶デバイス、読み取り専用メモリ（ＲＯＭ）、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭ）、フラッシュ・メモリ、またはプログラム命令もしくはデジタル情報を記憶することが可能な任意の他のコンピュータ可読記憶媒体を含み得る。

【0053】

永続記憶装置２０８によって使用される媒体は、また、リムーバブルであってもよい。例えば、リムーバブル・ハード・ドライブは、永続記憶装置２０８のために用いられてもよい。他の実施例は、永続記憶装置２０８の一部でもある別のコンピュータ可読記憶媒体上への転送のために、ドライブ内に挿入される光学および磁気ディスク、サム・ドライブ、ならびにスマート・カードを含む。

【0054】

これらの実施例において、通信ユニット２１０は、分散型データ処理環境のリソースを含む、他のデータ処理システムまたはデバイスとの通信を提供する。これらの実施例では、通信ユニット２１０は、１つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット２１０は、物理的通信リンクおよび無線通信リンクのいずれかまたは両方の使用を通して通信を提供し得る。深層学習プログラム２２５は、通信ユニット２１０を通して永続記憶装置２０８にダウンロードされ得る。

【0055】

Ｉ／Ｏインターフェース２１２は、コンピューティング・システム２００に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、Ｉ／Ｏインターフェース２１２は、キーボード、キーパッド、タッチ・スクリーン、または何らかの他の適当な入力デバイス、あるいはそれらの組み合わせなどの外部デバイス２１８への接続を提供し得る。外部デバイス２１８は、例えば、サム・ドライブ、ポータブル光学または磁気ディスク、およびメモリ・カードなどの、ポータブル・コンピュータ可読記憶媒体も含み得る。

【0056】

ディスプレイ２２０は、ユーザにデータを表示するための機構を提供し、例えば、コンピュータ・モニタであってもよい。

【0057】

図７は、本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック／フロー図である。

【0058】

本発明は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に列挙する教示の実施態様は、クラウド・コンピューティング環境に限定されないと理解されたい。むしろ、本発明の実施形態は、現在既知の、または後に開発される任意の他のタイプのコンピューティング環境と併せて実施されることが可能である。

【0059】

クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速に供給され、リリースされ得る、構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想機械、およびサービス）の共有プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特性、少なくとも３つのサービス・モデル、および少なくとも４つの展開モデルを含み得る。

【0060】

特性は、以下の通りである。

【0061】

オンデマンド・セルフサービス：クラウド消費者は、サービス・プロバイダと人との対話を必要とすることなく、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング・ケイパビリティを一方的に供給し得る。

【0062】

幅広いネットワーク・アクセス：ケイパビリティは、ネットワーク上で利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準的なメカニズムを通してアクセスされる。

【0063】

リソースの共用：プロバイダのコンピューティング・リソースが、マルチテナント型モデルを使用して複数の消費者にサービスするためにプールされ、異なる物理リソースおよび仮想リソースが要求に従って動的に割り当ておよび再割り当てされる。消費者が、概して、提供されるリソースの正確な場所に対する制御または知識を有しないが、より高い抽象レベル（例えば、国、州、またはデータセンタ）において場所を指定することが可能であり得るという点において、位置独立の意味がある。

【0064】

スピーディな拡張性：ケイパビリティは、場合によっては自動的に、即座にスケール・アウトするようにスピーディかつ弾力的に供給され、即座にスケール・インするようにスピーディに解放され得る。消費者に対しては、供給に利用可能なケイパビリティが、多くの場合無制限であるように見え、いつでも任意の量で購入可能である。

【0065】

サービスが計測可能であること：クラウド・システムは、サービスのタイプ（例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ・アカウント）に適したある抽象レベルにおいて計測ケイパビリティを活用することによって、リソース使用を自動的に制御し、最適化する。リソース使用量は、モニタリングされ、制御され、報告されて、利用サービスのプロバイダおよび消費者の両方に透明性をもたらし得る。

【0066】

サービス・モデルは、以下の通りである。

【0067】

サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供されるケイパビリティは、クラウド・インフラ上で実行中のプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザなどのシン・クライアント・インターフェース（例えば、ウェブ・ベースの電子メール）を通して、様々なクライアント・デバイスからアクセス可能である。消費者は、限定されたユーザ固有アプリケーションの構成設定は例外である可能性があるが、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション・ケイパビリティでさえも含む、基礎的なクラウド・インフラを管理または制御しない。

【0068】

サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供されるケイパビリティは、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成したアプリケーションまたは消費者が取得したアプリケーションを、クラウド・インフラ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎的なクラウド・インフラを管理または制御しないが、展開されたアプリケーション、および、可能な限りアプリケーション・ホスティング環境構成に対して制御を行う。

【0069】

サービスとしてのインフラ（ＩａａＳ）：消費者に提供されるケイパビリティは、処理、ストレージ、ネットワーク、ならびに消費者がオペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行することが可能な、他の基本コンピューティング・リソースを供給することである。消費者は、基礎となるクラウド・インフラを管理または制御しないが、オペレーティング・システム、ストレージ、展開されたアプリケーションに対して制御を行い、かつ可能な限り選択ネットワーキング・コンポーネント（例えば、ホスト・ファイアウォール）の限定的な制御を行う。

【0070】

展開モデルは、以下の通りである。

【0071】

プライベート・クラウド：クラウド・インフラは、組織のためだけに動作される。クラウド・インフラは、その組織または第三者によって管理され、構内または構外に存在し得る。

【0072】

コミュニティ・クラウド：クラウド・インフラは、複数の組織によって共有され、共有の関心事（例えば、任務、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項）を有する特定のコミュニティをサポートする。クラウド・インフラは、その組織または第三者によって管理され、構内または構外に存在し得る。

【0073】

パブリック・クラウド：クラウド・インフラは、一般公衆または大きな業界団体に利用可能とされ、クラウド・サービスを販売する組織によって所有される。

【0074】

ハイブリッド・クラウド：クラウド・インフラは、一意なエンティティのままであるが、データおよびアプリケーション・ポータビリティを可能にする標準化技術または独自技術（例えば、クラウド間のロード・バランシングのためのクラウド・バースティング）によって結合された、２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の合成物である。

【0075】

クラウド・コンピューティング環境は、無国籍、低結合、モジュール性、および意味相互運用性を中心としたサービス指向型である。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラである。

【0076】

ここで図７を参照すると、本発明のユース・ケースを可能にするための例示的なクラウド・コンピューティング環境４５０が示されている。図示するように、クラウド・コンピューティング環境４５０は、例えば、携帯情報端末（ＰＤＡ）もしくは携帯電話４５４Ａ、デスクトップ・コンピュータ４５４Ｂ、ラップトップ・コンピュータ４５４Ｃ、または自動車コンピュータ・システム４５４Ｎ、あるいはそれらの組み合わせなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスが通信し得る、１つまたは複数のクラウド・コンピューティング・ノード４１０を含む。ノード４１０は、互いに通信し得る。それらは、上述のようなプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、もしくはハイブリッド・クラウド、またはそれらの組み合わせなどの、１つまたは複数のネットワーク内で物理的または仮想的にグループ化され得る（図示せず）。これによって、クラウド・コンピューティング環境４５０が、インフラ、プラットフォーム、またはソフトウェア、あるいはそれらの組み合わせを、クラウド消費者がローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提案することが可能となる。図７に示されるコンピューティング・デバイス４５４Ａ～Ｎのタイプは、単なる例示であるように意図され、コンピューティング・ノード４１０およびクラウド・コンピューティング環境４５０は、任意のタイプのネットワークまたはネットワーク・アドレス可能な接続あるいはその両方を経て（例えば、ウェブ・ブラウザを用いて）、任意のタイプのコンピュータ化デバイスと通信し得ると理解されたい。

【0077】

図８は、本発明の実施形態による、例示的な抽象モデル層の概略図である。図８に示されるコンポーネント、層、および機能は、単なる例示であるように意図され、本発明の実施形態は、それらに限定されないと、予め理解されたい。図示されるように、以下の層および対応する機能が提供される。

【0078】

ハードウェアおよびソフトウェア層５６０は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例は、メインフレーム５６１、ＲＩＳＣ（Reduced Instruction Set Computer）アーキテクチャ・ベース・サーバ５６２、サーバ５６３、ブレード・サーバ５６４、記憶デバイス５６５、ならびにネットワークおよびネットワーキング・コンポーネント５６６を含む。いくつかの実施形態では、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア５６７およびデータベース・ソフトウェア５６８を含む。

【0079】

仮想化層５７０は、仮想エンティティの以下の例、仮想サーバ５７１、仮想ストレージ５７２、仮想プライベート・ネットワークを含む仮想ネットワーク５７３、仮想アプリケーションおよびオペレーティング・システム５７４、ならびに仮想クライアント５７５が提供され得る、抽象層を提供する。

【0080】

一実施例では、管理層５８０は、後述する機能を提供し得る。リソース供給５８１は、クラウド・コンピューティング環境内でタスクを実行するために利用される、コンピューティング・リソースおよび他のリソースの動的な調達を提供する。測定および価格設定５８２は、リソースが、クラウド・コンピューティング環境内で利用され、これらのリソースの消費に対して課金または請求されるときに、コスト追跡を提供する。一実施例では、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、データおよび他のリソースについての保護だけでなく、クラウド消費者およびタスクのための本人確認を提供する。ユーザ・ポータル５８３は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理５８４は、要求されるサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割り当ておよび管理を提供する。サービス水準合意（ＳＬＡ）計画および遂行５８５は、ＳＬＡに従って将来の要件が予期されるクラウド・コンピューティング・リソースの事前配置および調達を提供する。

【0081】

ワークロード層５９０は、クラウド・コンピューティング環境が利用され得る機能性の実施例を提供する。この層から提供され得るワークロードおよび機能の例は、マッピングおよびナビゲーション５４１、ソフトウェア開発およびライフサイクル管理５９２、仮想クラスルーム教育配信５９３、データ解析処理５９４、トランザクション処理５９５、ならびにＲＮＮ－Ｔモデルのためのデータ・ソート５９６を含む。

【0082】

本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはそれらの組み合わせであってもよい。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読記憶媒体を含み得る。

【0083】

コンピュータ可読記憶媒体は、命令実行デバイスによる使用のための命令を保持し、記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光学記憶デバイス、電磁気記憶デバイス、半導体記憶デバイス、または前述したものの任意の適当な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的リストは、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ、読み取り専用メモリ、消去可能プログラマブル読み取り専用メモリ（ＥＰＲＯＭまたはＦｌａｓｈメモリ）、静的ランダム・アクセス・メモリ、ポータブル・コンパクト・ディスク読み取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピー（Ｒ）・ディスク、パンチカードまたは命令をその上に記録させる溝内の隆起構造などの機械的に符号化されたデバイス、および前述したものの任意の適当な組み合わせを含む。本明細書で用いられるコンピュータ可読記憶媒体は、電波もしくは他の自由伝播する電磁波、導波管もしくは他の送信媒体を通って伝播する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または電線を通って送信される電気信号などの、一過性信号自体であると解釈されるべきではない。

【0084】

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスに、あるいはネットワーク、例えば、インターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、もしくはワイヤレス・ネットワーク、またはそれらの組み合わせを介して外部コンピュータまたは外部記憶デバイスに、ダウンロードされ得る。ネットワークは、銅伝送ケーブル、光伝送ファイバ、ワイヤレス伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはそれらの組み合わせを含み得る。各コンピューティング／処理デバイス内のネットワーク・アダプタ・カードまたはネットワーク・インターフェースは、コンピュータ可読プログラム命令をネットワークから受信し、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体の記憶用にコンピュータ可読プログラム命令を転送する。

【0085】

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、またはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語、および「Ｃ」プログラミング言語もしくは類似のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つもしくは複数のプログラミング言語の任意の組み合わせで書かれたソース・コードもしくはオブジェクト・コードのいずれかであってもよい。コンピュータ可読プログラム命令は、ユーザのコンピュータ上で完全に、ユーザのコンピュータ上で部分的に、スタンドアロン・ソフトウェア・パッケージとして、ユーザのコンピュータ上で部分的にかつリモート・コンピュータ上で部分的に、またはリモート・コンピュータもしくはサーバ上で完全に、実行してもよい。後者のシナリオでは、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通して、ユーザのコンピュータに接続されてもよく、または、接続は、（例えば、インターネット・サービス・プロバイダを使用してインターネットを通して）外部コンピュータに対して行われてもよい。いくつかの実施形態では、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路は、本発明の態様を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路を個別化することによって、コンピュータ可読プログラム命令を実行し得る。

【0086】

本発明の態様は、発明の実施形態による、方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照して、本明細書において説明される。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方のブロックの組み合わせが、コンピュータ可読プログラム命令によって実施され得ると理解されたい。

【0087】

コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックあるいはモジュールにおいて指定される機能／動作を実施する手段を生成するように、これらのコンピュータ可読プログラム命令は、汎用コンピュータ、専用コンピュータ、または機械を製造するための他のプログラマブル・データ処理装置の少なくとも１つのプロセッサに提供されてもよい。コンピュータ可読記憶媒体に記憶される命令を有するコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックあるいはモジュールにおいて指定される機能／動作の態様を実施する命令を含む製品を含むように、これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはそれらの組み合わせに特定のやり方で機能するように指示し得る、コンピュータ可読記憶媒体に記憶され得る。

【0088】

コンピュータ、他のプログラマブル装置、または他のデバイス上で実行する命令が、フローチャートまたはブロック図あるいはその両方の１つまたは複数のブロックあるいはモジュールにおいて指定される機能／動作を実施するように、コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ブロック／ステップを実行させてコンピュータ実施プロセスを作り出すために、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイス上にロードされ得る。

【0089】

図面中のフローチャートおよびブロック図は、本発明の様々な実施形態によるシステム、方法、およびコンピュータ・プログラム製品の考えられる実施態様のアーキテクチャ、機能性、および動作を示している。この点に関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を含む、モジュール、セグメント、または命令の一部を表し得る。いくつかの代替的実施態様において、ブロック内に記載された機能は、図面中に記載された順序以外で発生してもよい。例えば、連続して示される２つのブロックが、実際には、実質的に同時に実行されてもよく、または、ブロックが、関係する機能性次第で逆の順序で実行されることがあってもよい。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組み合わせが、指定された機能もしくは動作を実行し、または専用ハードウェアおよびコンピュータ命令の組み合わせを実行する専用ハードウェア・ベース・システムによって実施され得ることにも留意されたい。

【0090】

本原理の「一実施形態」または「実施形態」への明細書内の参照、およびそれらの他の変形は、実施形態に関連して説明される特定の特徴、構造、特性などが、本原理の少なくとも１つの実施形態に含まれることを意味する。したがって、明細書全体を通して様々な場所に現れる、「一実施形態では」または「実施形態では」という句および任意の他の変形の出現は、必ずしも全てが同一の実施形態を指すものではない。

【0091】

以下の「／」、「および／または」、および「のうちの少なくとも１つ」のいずれかの使用は、例えば、「Ａ／Ｂ」、「Ａおよび／またはＢ」、および「ＡおよびＢのうちの少なくとも１つ」の場合、最初に列挙された選択肢（Ａ）のみの選択、または２番目に列挙された選択肢（Ｂ）のみの選択、または両方の選択肢（ＡおよびＢ）の選択を包含するように意図されると、理解されたい。さらなる例として、「Ａ、Ｂ、および／またはＣ」および「Ａ、Ｂ、およびＣのうちの少なくとも１つ」の場合、このような表現法は、最初に列挙された選択肢（Ａ）のみの選択、または２番目に列挙された選択肢（Ｂ）のみの選択、または３番目に列挙された選択肢（Ｃ）のみの選択、または最初と２番目に列挙された選択肢（ＡおよびＢ）のみの選択、または最初と３番目に列挙された選択肢（ＡおよびＣ）のみの選択、または２番目と３番目に列挙された選択肢（ＢおよびＣ）のみの選択、または３つの選択肢全て（ＡおよびＢおよびＣ）の選択を包含するように意図される。これは、当技術分野および関連技術分野の当業者に容易に明らかなように、多くの項目が列挙されたときについても拡張され得る。

【0092】

回帰型ニューラル・ネットワーク・トランスデューサ（ＲＮＮ－Ｔ）モデルを生成するためのデータ・ソートのための方法およびシステムの好適な実施形態が説明されたが（例示であり限定ではないことを意図するものである）、上記教示に照らして修正および変形が当業者により行われ得ることに留意されたい。したがって、添付された特許請求の範囲により概説される発明の範囲内にある、説明された特定の実施形態において変更が行われ得ることが、理解されるべきである。

【図1】