2023-56442 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

2023-56442ニューラル・ネットワークを使用したテキスト・ツー・音声合成のための教師なしアライメント

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
2C
3
4A
4B
5
6A
6B
6C
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2023056442

(43)【公開日】2023-04-19

(54)【発明の名称】ニューラル・ネットワークを使用したテキスト・ツー・音声合成のための教師なしアライメント

(51)【国際特許分類】

G10L 13/10 20130101AFI20230412BHJP

G10L 25/30 20130101ALI20230412BHJP

【ＦＩ】

G10L13/10 111F

G10L13/10 111A

G10L13/10 111E

G10L25/30

【審査請求】未請求

【請求項の数】20

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2021174285

(22)【出願日】2021-10-26

(31)【優先権主張番号】17/496,569

(32)【優先日】2021-10-07

(33)【優先権主張国・地域又は機関】US

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＴＥＮＳＯＲＦＬＯＷ

２．ＢＬＵＥＴＯＯＴＨ

(71)【出願人】

【識別番号】501450960

【氏名又は名称】エヌビディアコーポレーション

(74)【代理人】

【識別番号】110000855

【氏名又は名称】弁理士法人浅村特許事務所

(72)【発明者】

【氏名】ケビンシー

(72)【発明者】

【氏名】ホセラファエルバリェゴメスダコスタ

(72)【発明者】

【氏名】ローハンバドラニ

(72)【発明者】

【氏名】エイドリアンランクッキ

(72)【発明者】

【氏名】ウェイピン

(72)【発明者】

【氏名】ブライアンカタンザーロ

(57)【要約】（修正有）

【課題】推論時の音素継続長の変化を容易にするために、音声リズムをサンプリング可能な分布としてさらにモデル化するモデルを含む、合成音声を生成するコンピュータ実装方法及びプロセッサを提供する。
【解決手段】合成音声を生成するプロセスは、複数のオーディオ・セグメントから、それぞれの音素継続長、音素ピッチ及び音素エネルギーを決定するステップと、前記音素継続長に対応する第１の分布に少なくとも部分的に基づいて、合成済み音声のオーディオ・セグメントのアライメントを決定するステップと、テキスト・シーケンスについて、前記アライメント及び前記音素ピッチに対応する第２の分布又は前記音素エネルギーに対応する第３の分布のうちの少なくとも１つに少なくとも部分的に基づいて、テキスト・シーケンスの合成済みの朗読を含むオーディオ・セグメントを生成するステップと、を含む。
【選択図】図６Ａ

【特許請求の範囲】

【請求項1】

複数のオーディオ・セグメントから、それぞれの音素継続長、音素ピッチ、及び音素エネルギーを決定するステップと、
前記音素継続長に対応する第１の分布に少なくとも部分的に基づいて、合成済み音声のオーディオ・セグメントのアライメントを決定するステップと、
テキスト・シーケンスについて、前記アライメント、及び前記音素ピッチに対応する第２の分布、又は前記音素エネルギーに対応する第３の分布のうちの少なくとも１つに少なくとも部分的に基づいて、前記テキスト・シーケンスの合成済みの朗読を含むオーディオ・セグメントを生成するステップと
を含む、コンピュータ実装方法。

【請求項2】

第４の分布に少なくとも部分的に基づいて、前記合成済みの朗読に関連する１つ又は複数の特性に対応する前記第４の分布を生成するステップをさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記テキスト・シーケンスと合計音声継続長と間のアライメント行列を決定するステップをさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項4】

指定された範囲外の音素と継続長のペアを除外するための事前分布を前記アライメント行列に適用するステップをさらに含む、請求項３に記載のコンピュータ実装方法。

【請求項5】

前記事前分布が葉巻状である、請求項４に記載のコンピュータ実装方法。

【請求項6】

前記事前分布がベータ二項分布から構築される、請求項４に記載のコンピュータ実装方法。

【請求項7】

前記テキスト・シーケンスから、複数のテキスト・トークンを決定するステップと、
前記アライメントに少なくとも部分的に基づいて、前記複数のテキスト・トークンのそれぞれを、それぞれのメル・フレームにアライメントするステップと
をさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項8】

前記アライメントが、第１の時点の前記メル・フレームと前記テキスト・シーケンス内のテキスト音素との間のＬ２距離に少なくとも部分的に基づく、請求項７に記載のコンピュータ実装方法。

【請求項9】

前記合成済みの朗読が、第１の合成済みの朗読が第２の合成済みの朗読と異なるように、生成的であり、前記第１の合成済みの朗読及び前記第２の合成済みの朗読のそれぞれが、前記テキスト・シーケンスに基づく、請求項１に記載のコンピュータ実装方法。

【請求項10】

人間の音声を含む複数のオーディオ・サンプルから、前記複数のオーディオ・サンプルのテキストと、前記複数のオーディオ・サンプルの継続長と、前記オーディオ・サンプルのピッチ又は前記オーディオ・サンプルのエネルギーのうちの少なくとも１つとの間のアライメントを決定するステップと、
前記アライメントに少なくとも部分的に基づいて、アライメント分布を生成するステップと、
前記アライメント分布から、１つ又は複数の話者特性に対応する１つ又は複数のベクトルを決定するステップと、
テキスト・シーケンスを受信するステップと、
前記テキスト・シーケンス及び前記１つ又は複数のベクトルに少なくとも部分的に基づいて、前記テキスト・シーケンスに対応する合成オーディオ・クリップを生成するステップと
を含む、方法。

【請求項11】

前記アライメントが、ベータ二項分布を有するアライメント行列に少なくとも部分的に基づく、請求項１０に記載の方法。

【請求項12】

前記合成オーディオ・クリップを生成するためのエンコーダ及びデコーダが並列に動作する、請求項１０に記載の方法。

【請求項13】

前記テキスト・シーケンスと前記アライメント分布のメル・フレームとの間のソフト・アライメントを決定するステップと、
前記テキスト・シーケンスと前記アライメント分布の前記メル・フレームと間のハード・アライメントを決定するステップと
をさらに含む、請求項１０に記載の方法。

【請求項14】

前記テキスト・シーケンスから第２の合成オーディオ・クリップを生成するステップであって、前記第２の合成オーディオ・クリップが前記第１の合成オーディオ・クリップとは異なる、生成するステップをさらに含む、請求項１０に記載の方法。

【請求項15】

音素分布、ピッチ分布、又はエネルギー分布のうちの少なくとも１つを生成するステップと、
前記音素分布、前記ピッチ分布、又は前記エネルギー分布のうちの少なくとも１つからサンプリングするステップと
をさらに含む、請求項１０に記載の方法。

【請求項16】

メルスペクトログラムとして表される人間の音声のオーディオ・クリップを受信し、
前記オーディオ・クリップ内のテキスト・シーケンス及び前記オーディオ・クリップの継続長を表す複数のメル・フレームについてのアライメントを決定し、
前記オーディオ・クリップに関連するピッチ及びエネルギーの１つ又は複数の分布を決定し、
第２のテキスト・シーケンスを受信し、
前記アライメント及び前記１つ又は複数の分布に少なくとも部分的に基づいて、前記第２のテキスト・シーケンスの第２のオーディオ・クリップを生成する
ための１つ又は複数の処理ユニットを備える、プロセッサ。

【請求項17】

前記１つ又は複数の処理ユニットがさらに、前記第２のオーディオ・クリップを生成するためのエンコーダ及びデコーダを実装し、前記エンコーダ及びデコーダが並列に動作する、請求項１６に記載のプロセッサ。

【請求項18】

前記１つ又は複数の処理ユニットがさらに、
確率分布に正規化されたアライメント行列を生成し、
前記アライメント行列にベータ二項分布を当てはめる、
請求項１６に記載のプロセッサ。

【請求項19】

前記ベータ二項分布が、指定された範囲外の音素とメル・フレームのペアを除外する、請求項１８に記載のプロセッサ。

【請求項20】

前記１つ又は複数の処理ユニットがさらに、前記第２のテキスト・シーケンスから第３のオーディオ・クリップを生成し、前記第２のオーディオ・クリップが、前記第３のオーディオ・クリップとは異なる、請求項１６に記載のプロセッサ。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ニューラル・ネットワークを使用したテキスト・ツー・音声合成のための教師なしアライメントに関するものである。

【背景技術】

【0002】

音声合成は、一般に、自己回帰方式でモデル化され、統計モデルを使用して、入力テキスト・シーケンスに基づいて出力音声が生成される。これらのモデルは、入力テキスト・シーケンスの様々な音素長を予測するが、予測が不十分なたった１つのオーディオ・フレームが、合成済み音声のシーケンス全体にわたってさらなるエラーを引き起こすことがある。自己回帰モデルはまた、特にシーケンス長が長くなるとスケーリングが不十分になる。さらに、自己回帰モデルを並列アーキテクチャに統合しようとすると、オーディオとテキストのアライメントの問題など、自己回帰モデル独自の問題が発生する。さらに、自己回帰モデルは合成音声の結果に多様性がなく、モデルが実行されるたびに入力テキスト・シーケンスが同様の出力となり、これは、多くのアプリケーションで望ましくない場合がある。

【発明の概要】

【課題を解決するための手段】

【0003】

図面を参照しながら、本開示による様々な実施例を説明する。

【図面の簡単な説明】

【0004】

【図1】少なくとも一実施例による、音声合成のためのパイプラインの実例を示す図である。

【図2A】少なくとも一実施例による、音声合成のための訓練パイプラインの実例を示す図である。

【図2B】少なくとも一実施例による、音声合成のための推論パイプラインの実例を示す図である。

【図2C】少なくとも一実施例による、アライメント・アーキテクチャを示す図である。

【図3】少なくとも一実施例による、アライメント注意行列の実例を示す図である。

【図4A】少なくとも一実施例による、実例音素分布を示す図である。

【図4B】少なくとも一実施例による、実例ピッチ分布を示す図である。

【図5】少なくとも一実施例による、音声合成のための実例環境を示す図である。

【図6A】少なくとも一実施例による、合成音声を生成するためのプロセスの実例フローチャートである。

【図6B】少なくとも一実施例による、合成音声を生成するためのプロセスの実例フローチャートである。

【図6C】少なくとも一実施例による、テキスト・ツー・音声システムを訓練するためのプロセスの実例フローチャートである。

【図7】少なくとも一実施例による、例示的なデータ・センタ・システムを示す図である。

【図8】少なくとも一実施例による、コンピュータ・システムを示す図である。

【図9】少なくとも一実施例による、コンピュータ・システムを示す図である。

【図10】少なくとも一実施例による、１つ又は複数の実施例による、グラフィックス・プロセッサの少なくとも一部分を示す図である。

【図11】少なくとも一実施例による、１つ又は複数の実施例による、グラフィックス・プロセッサの少なくとも一部分を示す図である。

【発明を実施するための形態】

【0005】

様々な実施例による手法は、エンド・ツー・エンドのテキスト・ツー・音声（ＴＴＳ：ｔｅｘｔ－ｔｏ－ｓｐｅｅｃｈ）モデルのためのシステム及び方法を提供する。少なくとも一実施例では、ＴＴＳモデルは、並列又は少なくとも部分的に並列である。様々な実施例は、推論中のトークン継続長（ｄｕｒａｔｉｏｎ）の変化を容易にするために、音声リズムをサンプリング可能な分布としてさらにモデル化するモデルを含むことができる。少なくとも一実施例では、システム及び方法は、音声とテキストのアライメントのオンライン抽出を提供する。

【0006】

様々な実施例は、主に並列のエンド・ツー・エンド・モデルを使用したＴＴＳ生成のためのシステム及び方法に関する。実施例は、長さが変化する可能性がある個々の音素を対応するテキストとアライメントするために確率的判定を使用する、教師なしアライメントを含む。尤もらしい音素継続長の分布全体をサンプリングするための生成モデルが使用され、可能性が低い又は非現実的な継続長の考慮を排除するための境界が設定されてもよい。さらに、訓練フェーズ中に抽出され得る様々な音素のピッチ及びエネルギーのための別の生成モデルが開発されてもよい。同じ確率分布から多様な位置をサンプリングすることによって、多様性を実現することができる。システム及び方法はまた、合成されたデータを訓練中にタグ付け／分類し、次いで推論時に無視してもよい又は使用しなくてもよいという分布を考慮したデータ拡張を使用して訓練を改善することを目的とし得る。

【0007】

本開示の様々な実施例は、ＴＴＳでの従来のアライメント・ツールに関連する問題を克服することを目的とし、これらの従来のツールは、推論の前にアライメントの抽出を試みるか、又は注意メカニズムに依存する。強制的なアライナを使用すると、能力が制限される場合があり、たとえば、特定の言語又はアルファベットに対してアライナを利用することができない。さらに、アライナの注意メカニズムは不安定であることが証明されており、有意義な解に収束しない可能性がある。本開示のシステム及び方法は、注意ベースのメカニズムを拡張して事前分布を追加することによって、これらの問題及び他の問題に対処することができ、１つ又は複数の実施例では、事前分布は葉巻形状であってもよい。さらに、システム及び方法は、所与の信号のテキストの最尤の文字列を識別するために、順方向サブ・アルゴリズム及びビタビなどの隠れマルコフ法（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｅｔｈｏｄ）に関連する様々な手法を展開することができる。

【0008】

実施例はまた、訓練に使用されるデータ・セットが不十分である又は小さいことに関連する問題にも対処することができる。ＴＴＳ合成訓練パイプラインに関しては、多くの場合、拡張されたデータ・サンプルと同じように聞こえるようにテキストを合成することは望ましくないため、これらのサンプルはモデル化に望ましい分布の範囲外と見なされる可能性があるので、拡張されたデータ・サンプルが組み込まれることはめったにない。少なくとも一実施例では、システム及び方法は、推論結果に影響を及ぼすことなく、モデルの一般化を改善するためのデータ拡張を組み込むことができる。たとえば、拡張されたデータは、１つ又は複数の生成された分布内でラベル付けされるか又は他の方法で識別されてもよく、推論中のサンプリングは、拡張されたデータの領域を回避する。

【0009】

本開示のシステム及び方法を使用して、合成済み音声による多様性にも対処する。少なくとも一実施例では、同じテキストが複数回合成されてもよく、各結果は、尤もらしく、且つ質的に異なる。生成モデル（正規化フロー）を利用して、推論時に尤もらしい音素継続長をサンプリングすることができ、音声に関する重要なバリエーションの１つが音素継続長であるので、これにより多様性を向上させることができる。システム及び方法は、ピッチ及びエネルギーのモデル化し、それにより合成済み音声の多様性についてより多くの選択肢を提供することを目的とし得る。少なくとも一実施例では、ピッチ及びエネルギーがモデル化されてもよく、確率的成分は、出力音声を生成するときにこれらのモデルからサンプリングしてもよい。

【0010】

様々な実施例はまた、話者の条件付け変数を改善することができる。たとえば、従来の複数話者ＴＴＳモデルは、特定の話者に次元ベクトルを割り当て、次いで、出力を生成するときにそのベクトルを適用する場合がある。しかし、話者に対して単一のベクトルを使用すると、話者の個々の分散をモデル化することなく、同様に聞こえる出力又は異なって聞こえる出力を生成するモデルの能力が制限される可能性がある。実施例は、推論時に話者の分布全体にわたる入力及びモデルの関数としてベクトルを生成することができる。

【0011】

図１に、テキスト入力に対応し得る入力１０２を含む、音声合成と呼ばれることもあるテキスト・ツー・音声（ＴＴＳ）パイプライン１００を示す。入力が、ユーザによって提供された入力などの最初のテキスト入力、評価された後にテキストに変換された発話などの変換済みのテキスト入力、入力画像又は入力映像から抽出されたテキスト・シーケンスなどであってもよいことを認識すべきである。少なくとも一実施例では、入力１０２は、他のアプリケーションのなかでもとりわけ、ユーザのクエリに応答して回答を提供する会話型人工知能（ＡＩ：ａｒｔｉｆｉｃｉａｌｉｎｔｅｌｌｉｇｅｎｃｅ）システムなどのユーザによって提供される質問又はコメントに応答してもよい。図示の入力１０２は、処理フレームワーク１０４内に含めるようにフォーマットされてもよく、処理フレームワーク１０４は、１つ又は複数の特徴について入力１０２を評価するための１つ又は複数の訓練済み機械学習システムを含んでもよく、これにより、入力１０２を、人間の音声をエミュレートするオーディオ出力に変換することを可能にすることができる。

【0012】

この実例では、処理フレームワーク１０４は、自然言語理解（ＮＬＵ：ｎａｔｕｒａｌｌａｎｇｕａｇｅｕｎｄｅｒｓｔａｎｄｉｎｇ）システム１０６と、韻律モデル１０８と、ＴＴＳモジュール１１０とを含む。認識されるように、ＮＬＵシステム１０６は、人間がデバイスと自然に対話できるようにするために、１つ又は複数の会話型ＡＩシステムとともに利用されてもよい。ＮＬＵシステム１０６を利用して、入力１０２のコンテキスト及び意図を解釈し、応答を生成してもよい。たとえば、入力１０２は前処理されてもよく、前処理には、トークン化、レンマ化、ステミング、及び他のプロセスが含まれてもよい。さらに、ＮＬＵシステム１０６は、エンティティ認識、意図認識、感情分析などの機能を可能にするために、ＢＥＲＴモデルなどの１つ又は複数の深層学習モデルを含んでもよい。さらに、ＮＬＵシステム１０６によって、入力１０２の言語単位を音素に変換することができ、次いで、韻律モデル１０８を使用して音素を組み立てることができる。

【0013】

少なくとも一実施例では、ＴＴＳモデル１１０は、ＮＬＵシステム１０６によって生成されたテキスト応答を受け取り、テキスト応答を自然に聞こえる音声に変更してもよい。様々な実施例では、韻律モデル１０８がＴＴＳモデル１１０の一部であってもよいことを認識すべきである。ＮＬＵシステム１０６からの出力は、言語分析、合成など、ＴＴＳモデル１１０に関連する様々なプロセスを経てもよい。さらに、音声の一部がタグ付けされてもよい。様々な実施例では、発音を洗練させ、単語の継続長を算出し、発話の韻律構造を解読し、文法情報を理解するために、出力がさらに分析されてもよい。また、テキストをメルスペクトログラムに変換してボコーダ１１２に出力し、自然に聞こえる音声を生成してもよい。上記のように、様々な実施例では、ボコーダ１１２がＴＴＳモデル１１０に組み込まれてもよいことを認識すべきである。したがって、人間の音声のように聞こえるオーディオ出力１１４が生成される。

【0014】

音声合成は、完全に自己回帰的な方法で逐次的にモデル化されることがあり、この場合、シーケンス長が長くなると、訓練速度及び干渉速度をスケーリングできないか、又は非効率的なスケーリングになる。さらに、１つ又は複数のオーディオ・フレーム内のエラーが、合成済み音声の他の部分に伝播する可能性がある。音声合成の並列化は望ましいが、音素長に関連する問題が発生する可能性がある。たとえば、音素を合成することなく音素の個々の長さを知ることは困難である。さらに、最初に入力テキスト内の音素を決定し、次いでメルスペクトログラムからサンプリングする可能性のある方法は、本開示のシステム及び方法の完全なエンド・ツー・エンドの並列化を見落としている。本開示のシステム及び方法は、多様な結果を推論するための生成モデルの実装とともに、オンライン・アライメントを含むエンド・ツー・エンド・システムを目的とし得る。

【0015】

並列アーキテクチャでは、多くの場合、既存のアライメント技法では不十分であるか又は使用に適さない。たとえば、既存の技法は、自己回帰モデルから、２段階プロセスを組み込んだ並列アーキテクチャを抜き出すことができるが、これは訓練にコストがかかる可能性がある。また、これらの技法は、多くの場合、システムで使用される個々の言語又はアルファベットに対して独立した訓練が使用されるので、制限される。さらに、これらの技法は、多くの場合、音声リズムの変動など推論の多様性を損なうことになる。システム及び方法は、トークン継続長について、別個のモデルであり得る１つ又は複数の生成モデルを組み込むことによって、これらの欠点を克服することができる。

【0016】

図２Ａに示す訓練パイプライン２００は、テキスト入力及び話者情報が与えられた場合にメルスペクトログラムをサンプリングするための生成モデルを構築するために利用されてもよい。この実例では、拡張２０６のために、メルスペクトログラム２０２に、話者固有の特性を符号化することができる話者ベクトル２０４（ξ）が提供される。たとえば、メルスペクトログラムは、メルスペクトログラム・テンソル

【数1】

として表され得る人間の音声のオーディオ・クリップに対するものであり、ここで、Ｔは時間軸上のメル・フレーム数であり、Ｃ_ｍｅｌはフレームごとの次元のバンド数である。話者ベクトル２０４は、データ分布に関連する対応する変更に関する情報を含んでもよい。この実例では、拡張２０６は、話者ベクトル２０４への対応する変更とともにメルスペクトログラム２０２を変更することができる一定の確率を用いて適用されてもよく、次いで、訓練パイプライン２０８に対して出力が行われる。メルスペクトログラム２０２が、入力テキスト２１０とともに拡張することなく訓練パイプライン２０８に対しても行われることを認識すべきであり、これは、

【数2】

によって示される埋め込まれたテキスト・シーケンスのテンソルとして表されてもよく、ここで、Ｎは長さである。結果として得られる出力は、潜在空間にわたる最尤推定（ＭＬＥ：ｍａｘｉｍｕｍｌｉｋｅｌｉｈｏｏｄｅｓｔｉｍａｔｉｏｎ）２１２である。この出力は、最適化されたメル及び継続長（音声速度）の潜在確率変数に対応してもよい。

【0017】

図２Ｂに示す推論パイプライン２５０は、入力サンプル２５２を生成するために、ＭＬＥ２１２からサンプリングすることができる。ＭＬＥ２１２のランダム・サンプリングによって、多様な推論結果が可能になる場合がある。少なくとも一実施例では、推論パイプライン２５４によってサンプル２５２が処理されて、第２のメルスペクトログラム２５６が出力され、次いで、第２のメルスペクトログラム２５６が処理されて、出力オーディオ・クリップが生成されてもよい。

【0018】

本開示の様々な実施例は、モデル化のための並列アーキテクチャを維持しながら、推論時間におけるメルスペクトログラム・フレームとメルスペクトログラム・フレームの継続長と両方のサンプリングを可能にする。動作に際して、オーディオ・クリップ（たとえば、メルスペクトログラム２０２）とテキスト（たとえば、入力テキスト２１０）との間の時間的アライメントが開発される。アライメントは、

【数3】

として表されてもよい。したがって、条件付き分布は、方程式（１）によって表されてもよい。
Ｐ（Ｘ，Ａ，Ｆ_０，Ｅ｜Φ，ξ）＝Ｐ_ｍｅｌ（Ｘ｜Φ，ξ，Ａ，Ｆ_０，Ｅ）Ｐ_ｄｕｒ（Ａ｜Φ，ξ）Ｐ_{ｐｉｔｃｈ}（Ｆ_０｜Φ，ξ）Ｐ_{ｅｎｅｒｇｙ}（Ｅ｜Φ，ξ）（１）

【0019】

前述のように、条件付き表現では、Ｘはメルスペクトログラム・テンソルを表し、Ａはアライメントを表し、Ｆ_０はピッチを表し、Ｅはエネルギーを表す。したがって、以下で説明するように、様々な実施例は、継続長、ピッチ、エネルギー、並びに、イントネーション、強勢、テンポ、リズムなどであるがこれらに限定されない、継続長、ピッチ、及びエネルギーによって捕捉されない音声の他の特性を含み得る様々な分布にわたるサンプリングを可能にすることができる。

【0020】

様々な実施例では、方程式（１）の少なくとも一部を実行するための命令（たとえば、ソフトウェア命令）の１つ又は複数の部分が並列であり得ることを認識すべきである。例として、Ｐ_ｍｅｌは並列である可能性がある。しかし、方程式（１）の１つ若しくは複数の他の部分、又は部分の構成要素は、継続長、ピッチ、エネルギー、及びテキストなどの１つ又は複数の自己回帰構成要素を含み得る。したがって、様々な実施例の異なる構成要素は、費用のかかる訓練ステップのバランスをとることができる。

【0021】

動作に際して、ＴＴＳにおけるメル符号化に正規化フローが適用される。分布は、分布の各時間ステップを単純な分布からサンプリングできるようにモデル化されてもよい。様々な実施例では、同一に分布した単独の確率変数が想定される。したがって、データ・サンプルｘに関するＭＬＥ２１２は、方程式（２）
ｌｏｇ□ｐ_ｘ（ｘ）＝ｌｏｇ□ｐ_ｚ（ｇ^－１（ｘ））＋ｌｏｇ｜ｄｅｔ□Ｊ（ｇ^－１（ｘ））｜（２）
によって表されてもよい。

【0022】

ここで、ｐ_ｘ（ｘ）は各メル・フレームＰ_ｍｅｌ（）の未知の尤度関数を表し、ｐ_ｚ（ｚ）はガウス尤度関数を表し、Ｊはｚ＝ｇ^－１（ｘ）であるような可逆変換ｇのヤコビアンである。

【0023】

１つ又は複数の実施例では、推論は、方程式（３）で表されるように実行されてもよい。
ｚ～Ｎ（Ｏ，Ｉ）であり、ｘ＝ｇ（ｚ）（３）

【0024】

推論中、音素フローを利用して、アライメントＡに対応し得る音素ごとの継続長を得ることができ、継続長は、Ｐ_ｍｅｌ（）をモデル化する並列のメル・デコーダ・フローへの入力を準備するために使用される。このデコーダは、本明細書に記載のように、ＭＬＥ２１２などからの潜在ベクトルをサンプリングし、次いで、潜在ベクトルを尤もらしく聞こえるメル・フレームにマッピングしてもよい。外部アライナに依存しないテキストと音声との間のアライメントは、エンド・ツー・エンドのＴＴＳシステムを提供するための重要なプロセスである。本開示の様々な実施例は、スケール・パラメータ及び並進パラメータの推測に使用するために、１つ又は複数のアフィン結合層を利用して入力データを分割することができる。様々な実施例では、入力は、時間次元に関連し得るコンテキスト上の条件であってもよい。アフィン結合層を使用して、１つ又は複数のコンテキスト行列を生成することができる。話者依存の情報を提供するだけでなくテキスト情報とメルスペクトログラム・フレームとの間の時間的アライメントを伴う行列を提供するために、コンテキスト行列は話者埋込みベクトルとともに使用されてもよい。最近の研究では、フロー・ベースのモデルを利用して、メルスペクトログラム・フレームを潜在ベクトルにマッピングすることができる。この方法では安定した結果が得られる可能性があるが、非可逆アーキテクチャでは、多くの場合、注意が自明な解に陥ることになり、他のモデルへの転換性が制限される可能性がある。さらに上記のように、フロー・ベースのモデルは、推論の多様性における損失を考慮しない。したがって、本開示のシステム及び方法は、既存のモデルよりも優れた改善を引き続き示している。

【0025】

図２Ｃに、本開示の実施例で利用され得る機械学習システムの１つ又は複数の部分を形成し得るアライメント・アーキテクチャ２７０を示す。この実例では、入力テキスト２１０と、メルスペクトログラム２０２に少なくとも部分的に対応し得るメル・フレーム２７２との両方が、エンコーダ２７４において符号化され、エンコーダ２７４は、メル・フレーム用と入力テキスト２１０用の別個のエンコーダを含んでもよい。たとえば、テキスト・エンコーダは、テキスト・トークン（たとえば、音素埋込み）を評価してもよい。少なくとも一実施例では、入力２１０及びフレーム２７２はそれぞれ、局所的なコンテキストを組み込むための限定された受容野を有する１Ｄ畳込みニューラル・ネットワーク（ｃｏｎｖｎｅｔ）を用いて符号化される。エンコーダ２７４は、ソフトマックス関数２７６への入力を提供する出力を生成し、ソフトマックス関数２７６は、テキスト及びメル・フレームの確率の１つ又は複数のベクトルを含む確率行列２７８を生成することができ、本明細書に記載のように、確率行列２７８を利用して、１つ又は複数の視覚化を生成することができる。

【0026】

様々な実施例が、教師なし又は部分的に教師なしのアライメント学習を可能にすることができる。外部アライナに依存せずに、アライメントを開発することができる。少なくとも一実施例では、ハード・アライメントとソフト・アライメントの両方をそれぞれ学習するために、隠れマルコフ・モデル（ＨＭＭ：ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ）で使用されるビタビ・アルゴリズムと順方向逆方向アルゴリズムとの組合せが利用されてもよい。上記のように、アライメントは、

【数4】

として表されてもよく、異なるアライメントは、「ハード」アライメント又は「ソフト」アライメントとして指定されてもよい。Ａ_ｓｏｆｔは、Ａ_ｓｏｆｔのすべての列が確率分布に正規化されるように、それぞれ長さＮのテキストΦと長さＴのメル・フレームＸとの間のアライメントを表してもよい。Ａ_ｓｏｆｔは、すべてのフレームについて確率質量が単一の記号に集中するような単調な２値化されたアライメント行列Ａ_ｈａｒｄを抽出するように処理されてもよく、

【数5】

は、あらゆる記号の継続長のベクトルを生み出す。

【0027】

ソフト・アライメントは、すべてのテキスト・トークンφ∈Φとメル・フレームｘ∈Ｘと間の学習済みの対での類似度に基づいてもよく、これは、方程式（４）及び方程式（５）において表されるテキスト次元全体でソフトマックスを用いて正規化されてもよい。

【数6】

Ａ_ｓｏｆｔ＝ｓｏｆｔｍａｘ（－Ｄ，ｄｉｍ＝０）（５）

【0028】

方程式（４）及び方程式（５）に関して、ｘ^ｅｎｃ及びφ^ｅｎｃは、ｘ及びφの、それぞれ２層又は３層の１Ｄ畳込み層を使用して符号化されたバリアントである。様々な実施例では、損失モジュールを利用して、それぞれ最初のテキスト・トークンで開始し最後のテキスト・トークンで終了し、各テキスト・トークンを１回使用し、メル・フレームの前進ごとに０個又は１個のテキスト・トークンだけ前進を可能にする、単調シーケンスを開発することができる。

【0029】

様々な実施例が、対角に近い経路上の要素を進行させる事前分布（ｐｒｉｏｒ）を使用して、アライメント学習の加速を可能にする。ベータ二項分布を使用して、注意メカニズムの順方向移動を促進することができる。このベータ二項分布を使用して、行列の中心で広がり角に向かって狭くなる葉巻形状の２Ｄ事前分布をＡ_ｓｏｆｔの対角線上に構築することができる。事前分布は、重み付け又はスケーリングされてもよく、重みが小さいほど事前分布の幅が広がる可能性がある。

【0030】

継続長予測によって生成されるアライメントは本質的に２値であるので、訓練テストのドメイン・ギャップの作成を回避するために、モデルには、２値化されたアライメント行列が条件付けられてもよい。これは、単調なアライメントに同じ制約を適用しながら、ビタビ・アルゴリズムを使用して実現することができ、これにより、単調な経路上の分布から最尤の単調なアライメントを提供することができる。さらに、損失を最小限に抑えることによって、Ａ_ｓｏｆｔがＡ_ｈａｒｄと可能な限り一致するように結果を管理することができる。

【0031】

図３に、ベータ二項事前分布の視覚化３０２、事前分布の視覚化とのソフト・アライメント３０４、及びハード・アライメント３０６とともに、ソフト・アライメントの視覚化３００を示す。これらの実例では、メル・フレームをｘ軸３０８上で表し、テキスト・トークンをｙ軸３１０上で表している。ソフト・アライメント３００は、時間期間にわたる様々な異なる潜在的なアライメントを示し、最尤のアライメントは、オーディオ・クリップの開始時間及び終了時間に対応する角（たとえば、左下角及び右上角）の近くのより明るい陰影として示されている。事前分布３１２の適用は視覚化３０２に示されており、事前分布３１２は葉巻形状であり（たとえば、縁よりも中央が広い）、左下から右上まで実質的に対角線に沿って延在する。上記のように、この構成は、開始（左下）及び終了（右上）など、アライメントされる可能性が高い部分でのアライメントの制限を可能にし、それによって潜在的に精度を向上させることができる。事前分布３１２は、視覚化３０４に示すように、分布の最も可能性の高い部分にわたってサンプリングを制限するために境界を適用することができ、最も可能性の高い部分ではソフト・アライメントが改善されており、事前分布３１２によって表される対角線に沿って示されたより明るい陰影によって示され得る。視覚化３０６は、事前分布３１２の角度及びサイズに実質的に一致するさらに改善されたアライメントを示す。したがって、合成済み音声は、合成済み音声を生成するためにサンプリングされた音素継続長をどのように適用するかを決定するために、事前分布を使用して開発されたアライメントを利用することができる。

【0032】

図４Ａに、サンプルの音素レベルの継続長分布４００を示す。この実例では、「気候（ｃｌｉｍａｔｅ）」という単語を形成する音素が示されている。図示のように、ｘ軸４０２は「気候」という単語を形成する音素４０４を表し、この場合、音素は「ｋ」、「ｌ」、「ａｙｉ」、「ｍ」、「ａｈｄ」、及び「ｔ」に対応する。これらの音素４０４Ａ～４０４Ｆはそれぞれ、ｙ軸４０８で表される、継続長に対応する分布４０６Ａ～４０６Ｆのそれぞれのセットを含む。これらの分布は、「気候」という単語を話している一連の話者の、各音素を朗読するのにかかる時間を決定するための評価に基づいて生成されてもよい。図示のように、音素４０４Ａ～４０４Ｆはそれぞれ、わずかに異なる継続長を有する可能性があり、その結果、固定された継続長を使用してテキストと音声との間のアライメントを強制しようとすると、不自然な響きのオーディオ出力につながる。すなわち、「ａｙｉ」の継続長は「ｋ」の約２倍である可能性があり、各音素の継続長が固定されると、「ｋ」の後の休止若しくは遅延、又は「ａｙｉ」のクリッピング又は急いだ応答のいずれかにつながることになる。前述のように、本開示の様々な実施例は、様々な音素の異なる分布にわたってサンプリングすることによって、多様性の向上を可能にすることができる。例として、この実例では、「ｋ」に対応する音素４０４Ａは、３つの異なる分布４０６Ａ（たとえば、わずかに異なる継続長を有する分布のセット）を有する。したがって、推論時に、分布のうちの１つが選択されてもよく、その分布内で、継続長が選択されてもよい。別の実例では、同様の音を使用して、異なる分布及び継続長が選択されてもよい。このように、合成済み音声の多様性の向上は、推論時に異なる音素継続長を提供することによって、又は少なくとも、異なる継続長が選択される可能性を提供することによって可能になる。

【0033】

図４Ｂに、本明細書に記載のように合成音声に関する多様性を向上させるために利用できるピッチ分布４２０を示す。図示のように、ｘ軸４２２は時間に対応し、ｙ軸４２４は相対的なピッチに対応する。この実例では、分布４２０は、たとえば、１つ又は複数の訓練段階中に文又は単語のグループを評価することによって計算されてもよい。合成済み音声のさらなる多様性を提供するために、推論中に分布４２０からピッチもサンプリングされてよい。すなわち、同じ単語を合成するための異なる試みが、異なるピッチが提示される多様な結果のセットにつながる可能性がある。さらに図４Ａの音素継続長の選択と組み合わせると、同じ単語を、全く異なる話者からのように異なって聞こえるようにしながら合成することができる。

【0034】

図５に、本明細書で前述した１つ又は複数の構成要素を含み得る合成音声システム５００を示す。説明の目的で構成要素はグループ化される場合があるが、１つ又は複数のシステムがシステム５００の異なる構成要素に統合されるか又は異なる要素とともに使用されてもよいことを認識すべきである。さらに、１つ又は複数のシステムは、１つ又は複数の機械学習システムに関連するアーキテクチャを利用するか又は共有してもよい。したがって、異なる構成要素が、１つ又は複数の機能に基づく別個のモジュール又はシステムとして説明される場合があるが、単一の統合システムの一部であってもよい。この実例では、ＴＴＳシステム５０２を利用して、テキスト入力５０４及び話者ベクトル５０６に少なくとも部分的に基づいて合成音声を生成することができる。少なくとも一実施例では、話者ベクトル５０６は、所望のピッチ、エネルギー、トーン、アクセントなどの１つ又は複数の話者特性を含む。様々な実施例では、話者ベクトル５０６は、合成して生成された音声に適用され得る、音声の様々な部分に対応する重み付け特性を含んでもよい。さらに、話者ベクトル５０６は、他の特徴のなかでもとりわけ、声変換を可能にするための調整可能な構成要素であってもよい。さらに、少なくとも一実施例では、話者ベクトル５０６は、話者ベクトルの分布又はデータベースから選択されてもよい。さらに、少なくとも一実施例では、分布から、話者ベクトル５０６の異なる成分がサンプリングされてもよく、又は別の方法で取得されてもよい。

【0035】

この実例では、入力テキスト５０４及び話者ベクトル５０６は、ＴＴＳシステム５０２への入力として提供され、ここで入力テキスト５０４を評価して、継続長を少なくとも部分的に決定することができる。たとえば、入力テキスト５０４を形成する個々の音素のそれぞれの継続長を決定するために、継続長モジュール５０８（たとえば、継続長システム）を使用して、１つ又は複数の分布にわたってサンプリングしてもよい。前述のように、訓練データを利用して音素分布を生成することができ、それぞれの長さを決定するために、分布から入力テキスト５０４を形成する個々の音素がサンプリングされてもよい。少なくとも一実施例では、音素が評価されるたびに長さが異なる可能性があり、これによって、出力される合成済み音声の多様性が向上する。次いで、本明細書に記載するように、継続長の決定はアライメント中に利用されてもよい。

【0036】

入力テキスト５０４を形成する異なる音素のピッチ（たとえば、基本周波数）及びエネルギー（たとえば、振幅）を取得するためにそれぞれの分布をサンプリングするために利用することができるピッチ・モジュール５１０及びエネルギー・モジュール５１２がさらに示されている。少なくとも一実施例では、ピッチ及びエネルギーの少なくとも一部は、話者ベクトル５０６によって少なくとも部分的に決定されてもよい。たとえば、話者ベクトル５０６は、ピッチ及びエネルギーに影響を与える重みを提供してもよい。一定の実施例では、ピッチ及びエネルギーは、声変換を目的とする試みなど、話者ベクトル５０６によって決定されてもよい。様々な実施例では、継続長、エネルギー、及びピッチの分布は、推論時にアクセスすることができる分布データ・ストア５１４に記憶されてもよい。認識されるように、分布は、言語又はアルファベットに基づいて変化する可能性があり、さらに、１つ又は複数の訓練プロセスを使用して更新されてもよい。継続長、ピッチ、及びエネルギーは、サンプリングに使用される成分として説明される場合があるが、他の様々なデータ点及び分布がサンプリングに利用されてもよいことを認識すべきである。単に一例として、強調、コントラスト、フォーカス、又は他の方法では話者による文法上の選択で表現されない１つ又は複数の要素など、韻律に関連する様々な特徴も同様にサンプリングに使用することができる。さらに、評価の追加の因子には、イントネーション、強勢、テンポ、リズム、休止などが含まれ得る。

【0037】

少なくとも一実施例では、入力テキストと出力オーディオとの間のアライメントは、１つ又は複数のアライメント・モジュール５１６を介して実行されてもよく、アライメント・モジュール５１６は、入力テキスト５０４を形成する異なる音素間の最尤の又は最も確率が高いアライメントを決定するために確率のセットに対して再帰的な計算を部分的に可能にする様々な機械学習システムを含んでもよい。（テキストからの）音素と（オーディオ訓練データからの）メル・サンプルとの間のアライメント尤度は、Ｌ２距離に基づいており、本明細書に記載のように、Ｌ２距離はガウス尤度に比例すると解釈することができる。この実例では、オーディオ長モジュール５２０は、入力テキスト５０４及び／又は入力テキストを形成する音素の継続長に少なくとも部分的に基づいてオーディオ長を決定してもよい。さらに、テキスト長モジュール５２２はテキスト長を決定してもよく、次いで、テキスト長は、オーディオ長に相関され、行列生成モジュール５２４によって形成され得る行列として提示されてもよい。少なくとも一実施例では、行列生成モジュール５２４を利用して、音素の位置に対する潜在的な音素継続長の行列を生成することができ、次いで、事前分布モジュール５１８は、評価を最尤の位置に拘束するか又は別の方法で制限するために、行列に事前分布を適用してもよい。例として、方程式（６）に示すように、ベータ二項分布から葉巻形状の事前分布が構築されてもよい。
Ｐ（ｍｅｌ，ｔｅｘｔ，ａｌｉｇｎｍｅｎｔ）＝Ｐ（ｍｅｌ_ｔｔｅｘｔ_ｎ｜ａｌｉｇｎｍｅｎｔ）Ｐ（ａｌｉｇｎｍｅｎｔ）（６）

【0038】

ここで、Ｐ（ａｌｉｇｎｍｅｎｔ）は、ベータ二項による葉巻形状の事前分布であり、Ｐ（ｍｅｌ，ｔｅｘｔ｜ａｌｉｇｎｍｅｎｔ）は、時間ステップｔでのメル・サンプルとシーケンス内のｎ番目のテキスト音素との間のＬ２距離である。本明細書に記載のように、事前分布は、境界を含んでもよく、左下角から右上角まで伸びる対角線上に配置されてもよい。事前分布は異なる境界を利用できるように調整可能であってもよいことを認識すべきである。したがって、入力テキスト５０４とオーディオ継続長との間のアライメントを生成することができる。

【0039】

少なくとも一実施例では、オーディオ生成モジュール５２６は、話者ベクトル５０６及び／又はピッチ、エネルギーなどの他の特徴のなかでもとりわけ、アライメント並びに入力テキスト５０４に少なくとも部分的に基づいて、出力オーディオを生成してもよい。様々な実施例では、推論時の様々な分布からのサンプリングは、異なる音素継続長を変更又は修正することができ、この変更又は修正が、異なるアライメント、したがって異なる出力音声につながるので、オーディオ生成の多様性が向上する可能性がある。さらに、ピッチ又はエネルギーへのサンプリングの変更は、出力の多様性をさらに向上させる可能性がある。

【0040】

様々な実施例は、ＴＴＳシステム５０２を改善する際に使用するための合成訓練データの生成を可能にし得る、１つ又は複数の訓練システム５２８も含んでよい。様々な実施例では、訓練システム５２８は、分布を考慮した拡張を可能にすることができ、合成訓練情報を生成し、訓練で使用し、次いで推論時に除去することができる。例として、合成音声生成５３０は、サンプル・データ・ストア５３２からサンプルを取得し、他の可能性のなかでもとりわけ、ピッチ若しくはエネルギーを変更すること、又は様々な音素長を修正することなどによって、音声の１つ又は複数の特性を修正してもよい。この合成音声は、後の識別のためにメタデータなどの情報を合成音声に添付することができるラベル・モジュール５３４を使用してラベル付されてもよく、又は他の方法で識別されてもよい。この識別はすべての合成音声に適用されてもよく、実際のグラウンド・トゥルース訓練データと比較した場合、合成音声は「ダーティ（ｄｉｒｔｙ）」又は「アンクリーン（ｕｎｃｌｅａｎ）」と見なされることがある。他の実施例では、閾値と比較するための１つ又は複数の特徴の識別など、１つ又は複数の特性を評価して、データがクリーンと見なされるかダーティと見なされるかを判定してもよい。次いで、分布生成器５３６は、合成音声からの情報を使用して１つ又は複数の分布を修正又は生成してもよい。次いで、これらの生成された分布は、訓練目的で使用されてもよいが、推論中、ラベルを使用するなどして合成音声が識別され、次いで除去されてもよい。このようにして、モデルを改善するために追加の訓練データを生成することができるが、推論時は、グラウンド・トゥルース情報を形成するデータのみが、ユーザ入力に応答する合成音声の生成に使用される。

【0041】

図６Ａは、合成済み音声を生成するための実例プロセス６００を示す。本明細書で提示する上記のプロセス及び他のプロセスについて、同様の順番で、若しくは代替的な順番で、又は少なくとも一部が並行して実行される追加の、より少ない、又は代替的なステップが、別段の記載のない限り様々な実施例の範囲内で存在してもよいことが理解されるべきである。この実例では、複数のオーディオ・セグメントが受信される６０２。オーディオ・セグメントは、音声の異なる部分の異なる態様を決定するために評価される訓練データのセットの少なくとも一部を形成してもよい。様々な実施例では、オーディオ・セグメントは、単語、ピッチ、エネルギーなどを形成する音素など、オーディオ・セグメントの異なる部分を抽出するための１つ又は複数の前処理ステップ又は処理ステップの対象となってもよい。少なくとも一実施例では、複数のオーディオ・セグメントから、音素継続長、音素ピッチ、及び音素エネルギーが決定される６０４。次いで、複数の音素から抽出された情報を利用して、オーディオ・セグメントにおいて見出される特定の特徴を示す１つ又は複数の分布を生成してもよい。たとえば、音素継続長を使用して第１の分布を生成してもよく６０６、音素ピッチを使用して第２の分布を生成してもよく６０８、音素エネルギーを使用して第３の分布を生成してもよい６１０。音声の他の部分又はオーディオ・セグメントの特徴を捕捉するための追加の分布が生成されてもよいことを認識すべきである。

【0042】

様々な実施例では、分布を利用して、会話型ＡＩに関連するような合成音声を生成することができる。システムは、テキスト・シーケンスとして表されるテキスト入力を受信し、テキスト・シーケンスとオーディオ長との間のアライメントを決定してもよい６１２。アライメントは、テキスト入力を形成する異なる音素を音素のそれぞれの継続長に相関させる第１の分布に少なくとも部分的に基づいてもよい。様々な実施例では、音素継続長を選択するために、分布はそれぞれの音素についてサンプリングされる。推論時にサンプリングすることによって、たとえば他の要因のなかでもとりわけ音素継続長の違いに起因して、同じテキスト入力が異なる出力オーディオとして提示される可能性があるので、このタイプの確率的サンプリングは生成された合成音声の多様性を向上させる可能性があることを認識すべきである。したがって、アライメント、第２の分布、及び第３の分布に少なくとも部分的に基づいて、合成済み音声が生成されてもよい６１４。さらに、上記のように、様々な実施例では、１つ又は複数の追加の分布を利用して、合成済み音声を生成することもできる。

【0043】

図６Ｂは、合成済み音声を生成するための実例プロセス６２０を示す。この実例では、複数のオーディオ・セグメントのテキストと複数のオーディオ・セグメントの継続長との間のそれぞれのアライメントが決定される６２２。たとえば、複数のオーディオ・セグメントは、異なる単語又は句の音素長の分布を決定するために決定される訓練情報に対応してもよい。アライメント分布が生成されてもよく、アライメント分布は、それぞれのアライメントに少なくとも部分的に基づいてもよい６２４。アライメント分布は、特定の音素がテキストサンプルの特定の部分とアライメントする確率的尤度を示す行列の形式で提示されてもよい。少なくとも一実施例では、アライメント分布から、１つ又は複数のベクトルが決定される６２６。１つ又は複数のベクトルは、１つ又は複数の話者特性に対応してもよい。

【0044】

前述のように、様々な実施例を使用して合成済み音声を生成することができ、ここで、テキスト・シーケンスが受信される６２８。テキスト・シーケンスは、他の選択肢のなかでも、ユーザによって入力されるか、又は画像から抽出されてもよい。合成オーディオ・クリップは、テキスト・シーケンス及び１つ又は複数のベクトルに少なくとも部分的に基づいて生成されてもよく、合成オーディオ・クリップはテキスト・シーケンスに対応する６３０。

【0045】

図６Ｃは、ＴＴＳシステムを訓練するための実例プロセス６５０を示す。この実例では、１つ又は複数の合成訓練クリップが生成される６５２。合成訓練クリップは、他の選択肢のなかでもとりわけ、ＴＴＳシステムを訓練するために提供されるグラウンド・トゥルース訓練データに対応し得る１つ又は複数のサンプル・オーディオ・セグメントに少なくとも部分的に基づいて生成されてもよい。少なくとも一実施例では、合成訓練クリップは、音声のピッチ又は速度を変更するなど、サンプル・オーディオ・セグメントの１つ又は複数の特性を修正する。合成訓練クリップは、分布内の合成訓練クリップの位置を特定すること又はメタデータをクリップに関連付けることなどによってラベル付けされてもよい６５４。次いで、サンプル・オーディオ・セグメントの少なくともいくつか及び１つ又は複数の合成訓練クリップの少なくともいくつかを使用して、１つ又は複数の機械学習システムが訓練されてもよい６５６。合成訓練クリップによって、より大きい訓練セットが使用可能になり、より大きい訓練セットによって、その後の推論を改善することができる。

【0046】

少なくとも一実施例では、訓練済み機械学習システムを利用して、合成オーディオ・クリップを生成する。合成音声を生成するよう求める要求が受信されてもよい６５８。この音声は、ＴＴＳシステムを使用してテキスト入力を処理することによって生成されてもよく、ＴＴＳは、出力オーディオを生成するために音声の一部を異なる継続長にアライメントすることができる。少なくとも一実施例では、合成訓練クリップに関連する、分布内の１つ又は複数の位置が識別され６６０、これらの位置は、合成音声の生成中に回避されるか又はサンプリングされない６６２。このように、合成訓練クリップは、データ・セットを増加させることによってモデル化を改善するために使用することができるが、推論中には使用することができない。

【0047】

データ・センタ
図７は、少なくとも一実施例が使用されてもよい例示的なデータ・センタ７００を示す。少なくとも一実施例では、データ・センタ７００は、データ・センタ・インフラストラクチャ層７１０、フレームワーク層７２０、ソフトウェア層７３０、及びアプリケーション層７４０を含む。

【0048】

図７に示すように、少なくとも一実施例では、データ・センタ・インフラストラクチャ層７１０は、リソース・オーケストレータ７１２と、グループ化済みコンピューティング・リソース７１４と、ノード・コンピューティング・リソース（「ノードＣ．Ｒ．」）７１６（１）～７１６（Ｎ）とを含んでもよく、ここで「Ｎ」は任意の正の整数を表す。少なくとも一実施例では、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）は、任意の数の中央処理装置（「ＣＰＵ」）又は（アクセラレータ、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、グラフィックス・プロセッサなどを含む）他のプロセッサ、メモリ・デバイス（たとえば、ダイナミック読取り専用メモリ）、ストレージ・デバイス（たとえば、半導体ドライブ又はディスク・ドライブ）、ネットワーク入力／出力（「ＮＷＩ／Ｏ」：ｎｅｔｗｏｒｋｉｎｐｕｔ／ｏｕｔｐｕｔ）デバイス、ネットワーク・スイッチ、仮想機械（「ＶＭ」：ｖｉｒｔｕａｌｍａｃｈｉｎｅ）、電源モジュール、及び冷却モジュールを含んでもよいが、これらに限定されない。少なくとも一実施例では、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）のうち１つ又は複数のノードＣ．Ｒ．は、上述したコンピューティング・リソースのうちの１つ又は複数を有するサーバであってもよい。

【0049】

少なくとも一実施例では、グループ化済みコンピューティング・リソース７１４は、１つ若しくは複数のラック（図示せず）内に収容されたノードＣ．Ｒ．の別々のグループ、又は様々なグラフィカル・ロケーション（同じく図示せず）においてデータ・センタに収容された多数のラックを含んでもよい。グループ化済みコンピューティング・リソース７１４内のノードＣ．Ｒ．の別々のグループは、１つ若しくは複数のワークロードをサポートするように構成又は配分されてもよいグループ化済みのコンピュート・リソース、ネットワーク・リソース、メモリ・リソース、又はストレージ・リソースを含んでもよい。少なくとも一実施例では、ＣＰＵ又はプロセッサを含むいくつかのノードＣ．Ｒ．は、１つ又は複数のラック内でグループ化されて、１つ又は複数のワークロードをサポートするためのコンピュート・リソースが提供されてもよい。少なくとも一実施例では、１つ又は複数のラックはまた、任意の数の電源モジュール、冷却モジュール、及びネットワーク・スイッチを任意の組合せで含んでもよい。

【0050】

少なくとも一実施例では、リソース・オーケストレータ７１２は、１つ又は複数のノードＣ．Ｒ．７１６（１）～７１６（Ｎ）及び／若しくはグループ化済みコンピューティング・リソース７１４を構成してもよく、又は他のやり方で制御してもよい。少なくとも一実施例では、リソース・オーケストレータ７１２は、データ・センタ７００用のソフトウェア設計インフラストラクチャ（「ＳＤＩ」：ｓｏｆｔｗａｒｅｄｅｓｉｇｎｉｎｆｒａｓｔｒｕｃｔｕｒｅ）管理エンティティを含んでもよい。少なくとも一実施例では、リソース・オーケストレータは、ハードウェア、ソフトウェア、又はこれらの何らかの組合せを含んでもよい。

【0051】

図７に示す少なくとも一実施例では、フレームワーク層７２０は、ジョブ・スケジューラ７２２、構成マネージャ７２４、リソース・マネージャ７２６、及び分配ファイル・システム７２８を含む。少なくとも一実施例では、フレームワーク層７２０は、ソフトウェア層７３０のソフトウェア７３２、及び／又はアプリケーション層７４０の１つ若しくは複数のアプリケーション７４２をサポートするためのフレームワークを含んでもよい。少なくとも一実施例では、ソフトウェア７３２又はアプリケーション７４２はそれぞれ、アマゾン・ウェブ・サービス、グーグル・クラウド、及びマイクロソフト・アジュールによって提供されるものなど、ウェブ・ベースのサービス・ソフトウェア又はアプリケーションを含んでもよい。少なくとも一実施例では、フレームワーク層７２０は、大規模なデータ処理（たとえば「ビック・データ」）のために分配ファイル・システム７２８を使用することができるＡｐａｃｈｅＳｐａｒｋ（登録商標）（以下「Ｓｐａｒｋ」）など、無料でオープン・ソースのソフトウェア・ウェブ・アプリケーション・フレームワークの一種であってもよいが、これに限定されない。少なくとも一実施例では、ジョブ・スケジューラ７２２は、データ・センタ７００の様々な層によってサポートされるワークロードのスケジューリングを容易にするために、Ｓｐａｒｋドライバを含んでもよい。少なくとも一実施例では、構成マネージャ７２４は、ソフトウェア層７３０、並びに大規模なデータ処理をサポートするためのＳｐａｒｋ及び分配ファイル・システム７２８を含むフレームワーク層７２０などの異なる層を構成することが可能であってもよい。少なくとも一実施例では、リソース・マネージャ７２６は、分配ファイル・システム７２８及びジョブ・スケジューラ７２２をサポートするようにマッピング若しくは配分されたクラスタ化済み又はグループ化済みのコンピューティング・リソースを管理することが可能であってもよい。少なくとも一実施例では、クラスタ化済み又はグループ化済みのコンピューティング・リソースは、データ・センタ・インフラストラクチャ層７１０にあるグループ化済みコンピューティング・リソース７１４を含んでもよい。少なくとも一実施例では、リソース・マネージャ７２６は、リソース・オーケストレータ７１２と連携して、これらのマッピング又は配分されたコンピューティング・リソースを管理してもよい。

【0052】

少なくとも一実施例では、ソフトウェア層７３０に含まれるソフトウェア７３２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）、グループ化済みコンピューティング・リソース７１４、及び／又はフレームワーク層７２０の分配ファイル・システム７２８のうちの少なくとも一部分によって使用されるソフトウェアを含んでもよい。１つ又は複数のタイプのソフトウェアは、インターネット・ウェブ・ページ検索ソフトウェア、電子メール・ウイルス・スキャン・ソフトウェア、データベース・ソフトウェア、及びストリーミング・ビデオ・コンテンツ・ソフトウェアを含んでもよいが、これらに限定されない。

【0053】

少なくとも一実施例では、アプリケーション層７４０に含まれるアプリケーション７４２は、ノードＣ．Ｒ．７１６（１）～７１６（Ｎ）、グループ化済みコンピューティング・リソース７１４、及び／又はフレームワーク層７２０の分配ファイル・システム７２８のうちの少なくとも一部分によって使用される１つ若しくは複数のタイプのアプリケーションを含んでもよい。１つ若しくは複数のタイプのアプリケーションは、任意の数のゲノム学アプリケーション、認識コンピュート、並びに訓練若しくは推論のソフトウェア、機械学習フレームワーク・ソフトウェア（たとえば、ＰｙＴｏｒｃｈ、ＴｅｎｓｏｒＦｌｏｗ、Ｃａｆｆｅなど）を含む機械学習アプリケーション、又は１つ若しくは複数の実施例と併せて使用される他の機械学習アプリケーションを含んでもよいが、これらに限定されない。

【0054】

少なくとも一実施例では、構成マネージャ７２４、リソース・マネージャ７２６、及びリソース・オーケストレータ７１２のうちのいずれかは、任意の技術的に実行可能なやり方で取得された任意の量及びタイプのデータに基づき、任意の数及びタイプの自己修正措置を実装してもよい。少なくとも一実施例では、自己修正措置は、データ・センタ７００のデータ・センタ演算子が、不良の恐れのある構成を決定しないようにし、十分に利用されていない且つ／又は性能の低いデータ・センタの部分をなくせるようにしてもよい。

【0055】

少なくとも一実施例では、データ・センタ７００は、１つ若しくは複数の機械学習モデルを訓練し、又は本明細書に記載の１つ若しくは複数の実施例による１つ若しくは複数の機械学習モデルを使用して情報を予測若しくは推論するためのツール、サービス、ソフトウェア、又は他のリソースを含んでもよい。たとえば、少なくとも一実施例では、機械学習モデルは、データ・センタ７００に関して上述したソフトウェア及びコンピューティング・リソースを使用して、ニューラル・ネットワーク・アーキテクチャに従って重みパラメータを計算することによって、訓練されてもよい。少なくとも一実施例では、１つ又は複数のニューラル・ネットワークに対応する訓練済み機械学習モデルは、本明細書に記載の１つ又は複数の技法によって計算された重みパラメータを使用することにより、データ・センタ７００に関して上述したリソースを使用して、情報を推論又は予測するために使用されてもよい。

【0056】

少なくとも一実施例では、データ・センタは、上述したリソースを使用して訓練及び／又は推論を実行するために、ＣＰＵ、特定用途向け集積回路（ＡＳＩＣ）、ＧＰＵ、ＦＰＧＡ、又は他のハードウェアを使用してもよい。さらに、上述した１つ又は複数のソフトウェア及び／又はハードウェアのリソースは、画像認識、音声認識、又は他の人工知能サービスなどの情報の訓練又は推論の実行を、ユーザが行えるようにするためのサービスとして構成されてもよい。

【0057】

こうした構成要素を使用して、合成音声を生成することができる。

【0058】

コンピュータ・システム
図８は、例示的なコンピュータ・システムを示すブロック図であり、このコンピュータ・システムは、少なくとも一実施例による、命令を実行するための実行ユニットを含んでもよいプロセッサとともに形成された、相互接続されたデバイス及び構成要素、システム・オン・チップ（ＳｏＣ）、又はこれら８００の何らかの組合せを有するシステムであってもよい。少なくとも一実施例では、コンピュータ・システム８００は、本明細書に記載の実施例などにおいて本開示に従ってデータを処理するためのアルゴリズムを実行する論理を含む実行ユニットを使用するための、プロセッサ８０２などの構成要素を、限定することなく含んでもよい。少なくとも一実施例では、コンピュータ・システム８００は、カリフォルニア州サンタクララのインテルコーポレーションから入手可能なＰＥＮＴＩＵＭ（登録商標）プロセッサ・ファミリー、ＸｅｏｎＴＭ、Ｉｔａｎｉｕｍ（登録商標）、ＸＳｃａｌｅＴＭ及び／又はＳｔｒｏｎｇＡＲＭＴＭ、Ｉｎｔｅｌ（登録商標）Ｃｏｒｅ（商標）、又はＩｎｔｅｌ（登録商標）Ｎｅｒｖａｎａ（商標）マイクロプロセッサなどのプロセッサを含んでもよいが、（他のマイクロプロセッサ、エンジニアリング・ワークステーション、セット・トップ・ボックスなどを有するＰＣを含め）他のシステムが使用されてもよい。少なくとも一実施例では、コンピュータ・システム８００は、ワシントン州、レドモンドのマイクロソフトコーポレーションから入手可能なＷＩＮＤＯＷＳ（登録商標）のオペレーティング・システムのあるバージョンを実行してもよいが、他のオペレーティング・システム（たとえば、ＵＮＩＸ（登録商標）及びＬｉｎｕｘ（登録商標））、組み込みソフトウェア、及び／又はグラフィカル・ユーザ・インターフェースが使用されてもよい。

【0059】

実施例は、携帯型デバイス及び組み込みアプリケーションなど、他のデバイスで使用されてもよい。携帯型デバイスのいくつかの例は、セルラー・フォン、インターネット・プロトコル・デバイス、デジタル・カメラ、パーソナル・デジタル・アシスタント（「ＰＤＡ」：ｐｅｒｓｏｎａｌｄｉｇｉｔａｌａｓｓｉｓｔａｎｔｓ）、及び携帯型ＰＣを含む。少なくとも一実施例では、組み込みアプリケーションは、マイクロコントローラ、デジタル信号プロセッサ（「ＤＳＰ」：ｄｉｇｉｔａｌｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ）、システム・オン・チップ、ネットワーク・コンピュータ（「ＮｅｔＰＣ」：ｎｅｔｗｏｒｋｃｏｍｐｕｔｅｒｓ）、エッジ・コンピューティング・デバイス、セット・トップ・ボックス、ネットワーク・ハブ、広域ネットワーク（「ＷＡＮ」：ｗｉｄｅａｒｅａｎｅｔｗｏｒｋ）スイッチ、又は少なくとも一実施例による１つ又は複数の命令を実行することができる任意の他のシステムを含んでもよい。

【0060】

少なくとも一実施例では、コンピュータ・システム８００は、限定することなくプロセッサ８０２を含んでもよく、このプロセッサ８０２は限定することなく、本明細書に記載の技法による機械学習モデルの訓練及び／又は推論を実行するための１つ又は複数の実行ユニット８０８を含んでもよい。少なくとも一実施例では、コンピュータ・システム８００は、シングル・プロセッサのデスクトップ又はサーバ・システムであるが、別の実施例では、コンピュータ・システム８００はマルチプロセッサ・システムであってもよい。少なくとも一実施例では、プロセッサ８０２は、限定することなく、複合命令セット・コンピュータ（「ＣＩＳＣ」：ｃｏｍｐｌｅｘｉｎｓｔｒｕｃｔｉｏｎｓｅｔｃｏｍｐｕｔｅｒ）マイクロプロセッサ、縮小命令セット・コンピューティング（「ＲＩＳＣ」）マイクロプロセッサ、超長命令語（「ＶＬＩＷ」）マイクロプロセッサ、命令セットの組合せを実装するプロセッサ、又は任意の他のプロセッサ・デバイス、たとえばデジタル信号プロセッサなどを含んでもよい。少なくとも一実施例では、プロセッサ８０２は、プロセッサ・バス８１０に結合されてもよく、このプロセッサ・バスは、プロセッサ８０２とコンピュータ・システム８００内の他の構成要素との間でデータ信号を送信してもよい。

【0061】

少なくとも一実施例では、プロセッサ８０２は、限定することなく、レベル１（「Ｌ１」）の内部キャッシュ・メモリ（「キャッシュ」）８０４を含んでもよい。少なくとも一実施例では、プロセッサ８０２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有してもよい。少なくとも一実施例では、キャッシュ・メモリは、プロセッサ８０２の外部にあってもよい。他の実施例は、特定の実装形態及び必要性に応じて、内部キャッシュと外部キャッシュの両方の組合せも含んでよい。少なくとも一実施例では、レジスタ・ファイル８０６は、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタを限定することなく含む様々レジスタに、異なるタイプのデータを記憶してもよい。

【0062】

少なくとも一実施例では、整数及び浮動小数点の演算を実行するための論理を限定することなく含む実行ユニット８０８も、プロセッサ８０２にある。少なくとも一実施例では、プロセッサ８０２は、ある一定のマクロ命令のためのマイクロコードを記憶するマイクロコード（「ｕコード」）読取り専用メモリ（「ＲＯＭ」：ｒｅａｄｏｎｌｙｍｅｍｏｒｙ）も含んでよい。少なくとも一実施例では、実行ユニット８０８は、パック命令セット８０９に対処する論理を含んでもよい。少なくとも一実施例では、パック命令セット８０９を、命令を実行する関連回路とともに汎用プロセッサの命令セットに含めることにより、多くのマルチメディア・アプリケーションによって使用される演算を、汎用プロセッサ８０２のパック・データを使用して実行することができる。１つ又は複数の実施例では、プロセッサのデータ・バスの全幅を使用してパック・データの演算を実行することによって、多くのマルチメディア・アプリケーションを加速し、より効率的に実行することができ、これにより、１度に１つのデータ要素に対して１つ又は複数の演算を実行するためにプロセッサのデータ・バス間でより小さい単位のデータを転送する必要をなくすことができる。

【0063】

少なくとも一実施例では、実行ユニット８０８はまた、マイクロコントローラ、組み込みプロセッサ、グラフィックス・デバイス、ＤＳＰ、及び他のタイプの論理回路において使用されてもよい。少なくとも一実施例では、コンピュータ・システム８００は、限定することなくメモリ８２０を含んでもよい。少なくとも一実施例では、メモリ８２０は、ダイナミック・ランダム・アクセス・メモリ（「ＤＲＡＭ」）デバイス、スタティック・ランダム・アクセス・メモリ（「ＳＲＡＭ」）デバイス、フラッシュ・メモリ・デバイス、又は他のメモリ・デバイスとして実装されてもよい。少なくとも一実施例では、メモリ８２０は、プロセッサ８０２によって実行されてもよいデータ信号によって表される命令８１９、及び／又はデータ８２１を記憶してもよい。

【0064】

少なくとも一実施例では、システム論理チップが、プロセッサ・バス８１０及びメモリ８２０に結合されてもよい。少なくとも一実施例では、システム論理チップは、限定することなく、メモリ・コントローラ・ハブ（「ＭＣＨ」：ｍｅｍｏｒｙｃｏｎｔｒｏｌｌｅｒｈｕｂ）８１６を含んでもよく、プロセッサ８０２は、プロセッサ・バス８１０を介してＭＣＨ８１６と通信してもよい。少なくとも一実施例では、ＭＣＨ８１６は、命令及びデータを記憶するため、及びグラフィックス・コマンド、データ、及びテクスチャを記憶するために、高帯域幅メモリ経路８１８をメモリ８２０に提供してもよい。少なくとも一実施例では、ＭＣＨ８１６は、プロセッサ８０２と、メモリ８２０と、コンピュータ・システム８００の他の構成要素との間でデータ信号を導き、プロセッサ・バス８１０と、メモリ８２０と、システムＩ／Ｏインターフェース８２２との間でデータ信号をブリッジしてもよい。少なくとも一実施例では、システム論理チップは、グラフィックス・コントローラに結合するためのグラフィックス・ポートを提供してもよい。少なくとも一実施例では、ＭＣＨ８１６は、高帯域幅メモリ経路８１８を介してメモリ８２０に結合されてもよく、グラフィックス／ビデオカード８１２は、アクセラレーテッド・グラフィックス・ポート（「ＡＧＰ」：ＡｃｃｅｌｅｒａｔｅｄＧｒａｐｈｉｃｓＰｏｒｔ）相互接続８１４を介してＭＣＨ８１６に結合されてもよい。

【0065】

少なくとも一実施例では、コンピュータ・システム８００は、ＭＣＨ８１６をＩ／Ｏコントローラ・ハブ（「ＩＣＨ」：Ｉ／Ｏｃｏｎｔｒｏｌｌｅｒｈｕｂ）８３０に結合するためのプロプライエタリ・ハブ・インターフェース・バスであるシステムＩ／Ｏ８２２を使用してもよい。少なくとも一実施例では、ＩＣＨ８３０は、ローカルのＩ／Ｏバスを介していくつかのＩ／Ｏデバイスに直接接続を提供してもよい。少なくとも一実施例では、ローカルＩ／Ｏバスは、周辺装置をメモリ８２０、チップセット、及びプロセッサ８０２に接続するための高速Ｉ／Ｏバスを、限定することなく含んでもよい。例としては、オーディオ・コントローラ８２９、ファームウェア・ハブ（「フラッシュＢＩＯＳ」）８２８、ワイヤレス・トランシーバ８２６、データ・ストレージ８２４、ユーザ入力及びキーボードのインターフェース８２５を含むレガシーＩ／Ｏコントローラ８２３、ユニバーサル・シリアル・バス（「ＵＳＢ」：ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）などのシリアル拡張ポート８２７、及びネットワーク・コントローラ８３４が、限定することなく含まれてもよい。データ・ストレージ８２４は、ハード・ディスク・ドライブ、フロッピー（登録商標）・ディスク・ドライブ、ＣＤ－ＲＯＭデバイス、フラッシュ・メモリ・デバイス、又は他の大容量ストレージ・デバイスを備えてもよい。

【0066】

少なくとも一実施例では、図８は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示すが、一方他の実施例では、図８は例示的なシステム・オン・チップ（「ＳｏＣ」）を示してもよい。少なくとも一実施例では、デバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はこれらの何らかの組合せで相互接続されてもよい。少なくとも一実施例では、コンピュータ・システム８００の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（ＣＸＬ：ｃｏｍｐｕｔｅｅｘｐｒｅｓｓｌｉｎｋ）相互接続を使用して相互接続されてもよい。

【0067】

こうした構成要素を使用して、合成音声を生成することができる。

【0068】

図９は、少なくとも一実施例による、プロセッサ９１０を利用するための電子デバイス９００を示すブロック図である。少なくとも一実施例では、電子デバイス９００は、たとえば限定することなく、ノートブック、タワー・サーバ、ラック・サーバ、ブレード・サーバ、ラップトップ、デスクトップ、タブレット、モバイル・デバイス、電話、組み込みコンピュータ、又は任意の他の好適な電子デバイスであってもよい。

【0069】

少なくとも一実施例では、システム９００は、任意の好適な数又は種類の構成要素、周辺装置、モジュール、若しくはデバイスに通信可能に結合されたプロセッサ９１０を、限定することなく含んでもよい。少なくとも一実施例では、プロセッサ９１０は、Ｉ°Ｃバス、システム・マネージメント・バス（「ＳＭＢｕｓ」：ＳｙｓｔｅｍＭａｎａｇｅｍｅｎｔＢｕｓ）、ロー・ピン・カウント（ＬＰＣ：ＬｏｗＰｉｎＣｏｕｎｔ）バス、シリアル・ペリフェラル・インターフェース（「ＳＰＩ」：ＳｅｒｉａｌＰｅｒｉｐｈｅｒａｌＩｎｔｅｒｆａｃｅ）、ハイ・デフィニション・オーディオ（「ＨＤＡ」：ＨｉｇｈＤｅｆｉｎｉｔｉｏｎＡｕｄｉｏ）バス、シリアル・アドバンス・テクノロジー・アタッチメント（「ＳＡＴＡ」：ＳｅｒｉａｌＡｄｖａｎｃｅＴｅｃｈｎｏｌｏｇｙＡｔｔａｃｈｍｅｎｔ）バス、ユニバーサル・シリアル・バス（「ＵＳＢ」）（バージョン１、２、３）、又はユニバーサル非同期レシーバ／トランスミッタ（「ＵＡＲＴ」：ＵｎｉｖｅｒｓａｌＡｓｙｎｃｈｒｏｎｏｕｓＲｅｃｅｉｖｅｒ／Ｔｒａｎｓｍｉｔｔｅｒ）バスなどのバス若しくはインターフェースを使用して結合される。少なくとも一実施例では、図９は、相互接続されたハードウェア・デバイス又は「チップ」を含むシステムを示すが、一方他の実施例では、図９は例示的なシステム・オン・チップ（「ＳｏＣ」）を示してもよい。少なくとも一実施例では、図９に示すデバイスは、プロプライエタリ相互接続、標準相互接続（たとえば、ＰＣＩｅ）、又はこれらの何らかの組合せで相互接続されてもよい。少なくとも一実施例では、図９の１つ又は複数の構成要素は、コンピュート・エクスプレス・リンク（ＣＸＬ）相互接続を使用して相互接続されてもよい。

【0070】

少なくとも一実施例では、図９は、ディスプレイ９２４、タッチ画面９２５、タッチ・パッド９３０、近距離無線通信ユニット（「ＮＦＣ」：ＮｅａｒＦｉｅｌｄＣｏｍｍｕｎｉｃａｔｉｏｎｓｕｎｉｔ）９４５、センサ・ハブ９４０、熱センサ９４６、エクスプレス・チップセット（「ＥＣ」：ＥｘｐｒｅｓｓＣｈｉｐｓｅｔ）９３５、トラステッド・プラットフォーム・モジュール（「ＴＰＭ」：ＴｒｕｓｔｅｄＰｌａｔｆｏｒｍＭｏｄｕｌｅ）９３８、ＢＩＯＳ／ファームウェア／フラッシュ・メモリ（「ＢＩＯＳ、ＦＷフラッシュ」：ＢＩＯＳ／ｆｉｒｍｗａｒｅ／ｆｌａｓｈｍｅｍｏｒｙ）９２２、ＤＳＰ９６０、ソリッド・ステート・ディスク（「ＳＳＤ」：ＳｏｌｉｄＳｔａｔｅＤｉｓｋ）若しくはハード・ディスク・ドライブ（「ＨＤＤ」：ＨａｒｄＤｉｓｋＤｒｉｖｅ）などのドライブ９２０、ワイヤレス・ローカル・エリア・ネットワーク・ユニット（「ＷＬＡＮ」：ｗｉｒｅｌｅｓｓｌｏｃａｌａｒｅａｎｅｔｗｏｒｋｕｎｉｔ）９５０、Ｂｌｕｅｔｏｏｔｈユニット９５２、ワイヤレス広域ネットワーク・ユニット（「ＷＷＡＮ」：ＷｉｒｅｌｅｓｓＷｉｄｅＡｒｅａＮｅｔｗｏｒｋｕｎｉｔ）９５６、全地球測位システム（ＧＰＳ：ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）ユニット９５５、ＵＳＢ３．０カメラなどのカメラ（「ＵＳＢ３．０カメラ」）９５４、及び／又は、たとえばＬＰＤＤＲ３規格に実装された低電力ダブル・データ・レート（「ＬＰＤＤＲ」：ＬｏｗＰｏｗｅｒＤｏｕｂｌｅＤａｔａＲａｔｅ）メモリ・ユニット（「ＬＰＤＤＲ３」）９１５を含んでもよい。これらの構成要素は、それぞれ任意の好適なやり方で実装されてもよい。

【0071】

少なくとも一実施例では、上述した構成要素を介して、他の構成要素がプロセッサ９１０に通信可能に結合されてもよい。少なくとも一実施例では、加速度計９４１、周囲光センサ（「ＡＬＳ」：ＡｍｂｉｅｎｔＬｉｇｈｔＳｅｎｓｏｒ）９４２、コンパス９４３、及びジャイロスコープ９４４が、センサ・ハブ９４０に通信可能に結合されてもよい。少なくとも一実施例では、熱センサ９３９、ファン９３７、キーボード９４６、及びタッチ・パッド９３０が、ＥＣ９３５に通信可能に結合されてもよい。少なくとも一実施例では、スピーカ９６３、ヘッドフォン９６４、及びマイクロフォン（「ｍｉｃ」）９６５が、オーディオ・ユニット（オーディオ・コーデック及びクラスｄアンプ）９６２に通信可能に結合されてもよく、このオーディオ・ユニットが、ＤＳＰ９６０に通信可能に結合されてもよい。少なくとも一実施例では、オーディオ・ユニット９６４は、たとえば限定することなく、オーディオ・コーダ／デコーダ（「コーデック」）及びクラスＤアンプリファイアを含んでもよい。少なくとも一実施例では、ＳＩＭカード（「ＳＩＭ」）９５７は、ＷＷＡＮユニット９５６に通信可能に結合されてもよい。少なくとも一実施例では、ＷＬＡＮユニット９５０及びＢｌｕｅｔｏｏｔｈユニット９５２などの構成要素、並びにＷＷＡＮ９５６は、次世代フォーム・ファクタ（「ＮＧＦＦ」：ＮｅｘｔＧｅｎｅｒａｔｉｏｎＦｏｒｍＦａｃｔｏｒ）に実装されてもよい。

【0072】

こうした構成要素を使用して、合成音声を生成することができる。

【0073】

図１０は、少なくとも一実施例による処理システムのブロック図である。少なくとも一実施例では、システム１０００は、１つ又は複数のプロセッサ１００２、及び１つ又は複数のグラフィックス・プロセッサ１００８を含み、単一プロセッサのデスクトップ・システム、マルチプロセッサのワークステーション・システム、又は多数の一括で若しくは別々に管理されるプロセッサ１００２若しくはプロセッサ・コア１００７を有するサーバ・システム若しくはデータ・センタであってもよい。少なくとも一実施例では、システム１０００は、モバイル・デバイス、携帯型デバイス、又は組み込みデバイスで使用するためのシステム・オン・チップ（ＳｏＣ）集積回路内に組み込まれた処理プラットフォームである。

【0074】

少なくとも一実施例では、システム１０００は、サーバ・ベースのゲーミング・プラットフォーム、クラウド・コンピューティング・ホスト・プラットフォーム、仮想化コンピューティング・プラットフォーム、ゲーム及びメディアのコンソールを含むゲーム・コンソール、携帯型ゲーム・コンソール、ハンドヘルド・ゲーム・コンソール、若しくはオンライン・ゲーム・コンソールを含んでもよく、又はそれらに組み込まれてもよい。少なくとも一実施例では、システム１０００は、モバイル・フォン、スマート・フォン、タブレット・コンピューティング・デバイス、又はモバイル・インターネット・デバイスである。少なくとも一実施例では、処理システム１０００はまた、スマート・ウォッチ・ウェアラブル・デバイス、スマート・アイウェア・デバイス、拡張現実デバイス、エッジデバイス、モノのインターネット（「ＩｏＴ：ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ」）デバイス、若しくは仮想現実デバイスなどのウェアラブル・デバイスを含んでもよく、それらに結合されてもよく、又はそれらのなかに一体化されてもよい。少なくとも一実施例では、処理システム１０００は、１つ又は複数のプロセッサ１００２と、１つ又は複数のグラフィックス・プロセッサ１００８によって生成されるグラフィカル・インターフェースとを有するテレビ又はセット・トップ・ボックス・デバイスである。

【0075】

少なくとも一実施例では、１つ又は複数のプロセッサ１００２はそれぞれ、実行されたときにシステム及びユーザ・ソフトウェアのための動作を実行する命令を処理するための１つ又は複数のプロセッサ・コア１００７を含む。少なくとも一実施例では、１つ又は複数のプロセッサ・コア１００７のそれぞれは、特定の命令セット１００９を処理するように構成される。少なくとも一実施例では、命令セット１００９は、複合命令セット・コンピューティング（ＣＩＳＣ）、縮小命令セット・コンピューティング（ＲＩＳＣ）、又は超長命令語（ＶＬＩＷ）を介したコンピューティングを容易にしてもよい。少なくとも一実施例では、プロセッサ・コア１００７はそれぞれ、異なる命令セット１００９を処理してもよく、この命令セットは、他の命令セットのエミュレーションを容易にする命令を含んでもよい。少なくとも一実施例では、プロセッサ・コア１００７はまた、デジタル信号プロセッサ（ＤＳＰ）などの他の処理デバイスを含んでもよい。

【0076】

少なくとも一実施例では、プロセッサ１００２はキャッシュ・メモリ１００４を含む。少なくとも一実施例では、プロセッサ１００２は、単一の内部キャッシュ又は複数レベルの内部キャッシュを有してもよい。少なくとも一実施例では、キャッシュ・メモリは、プロセッサ１００２の様々な構成要素間で共有される。少なくとも一実施例では、プロセッサ１００２はまた、外部キャッシュ（たとえば、レベル３（Ｌ３）キャッシュ又はラスト・レベル・キャッシュ（ＬＬＣ））（図示せず）を使用し、このキャッシュは、知られているキャッシュ・コヒーレンス技法を使用して、プロセッサ・コア１００７間で共有されてもよい。少なくとも一実施例では、さらにレジスタ・ファイル１００６がプロセッサ１００２に含まれ、このレジスタ・ファイルは、異なるタイプのデータを記憶するための異なるタイプのレジスタ（たとえば、整数レジスタ、浮動小数点レジスタ、状態レジスタ、及び命令ポインタ・レジスタ）を含んでもよい。少なくとも一実施例では、レジスタ・ファイル１００６は、汎用レジスタ又は他のレジスタを含んでもよい。

【0077】

少なくとも一実施例では、１つ又は複数のプロセッサ１００２は、１つ又は複数のインターフェース・バス１０１０に結合されて、アドレス、データ、又は制御信号などの通信信号を、プロセッサ１００２とシステム１０００内の他の構成要素との間で送信する。少なくとも一実施例では、インターフェース・バス１０１０は、一実施例では、ダイレクト・メディア・インターフェース（ＤＭＩ）バスのバージョンなどのプロセッサ・バスとすることができる。少なくとも一実施例では、インターフェース１０１０は、ＤＭＩバスに限定されず、１つ又は複数のペリフェラル・コンポーネント・インターコネクト・バス（たとえば、ＰＣＩ、ＰＣＩエクスプレス）、メモリ・バス、又は他のタイプのインターフェース・バスを含んでもよい。少なくとも一実施例では、プロセッサ１００２は、統合メモリ・コントローラ１０１６、及びプラットフォーム・コントローラ・ハブ１０３０を含む。少なくとも一実施例では、メモリ・コントローラ１０１６は、メモリ・デバイスとシステム１０００の他の構成要素との間の通信を容易にし、一方でプラットフォーム・コントローラ・ハブ（ＰＣＨ）１０３０は、ローカルＩ／Ｏバスを介してＩ／Ｏデバイスへの接続を提供する。

【0078】

少なくとも一実施例では、メモリ・デバイス１０２０は、ダイナミック・ランダム・アクセス・メモリ（ＤＲＡＭ）デバイス、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）デバイス、フラッシュ・メモリ・デバイス、相変化メモリ・デバイス、又はプロセス・メモリとしての役割を果たすのに好適な性能を有する何らかの他のメモリ・デバイスとすることができる。少なくとも一実施例では、メモリ・デバイス１０２０は、システム１０００のためのシステム・メモリとして動作して、１つ又は複数のプロセッサ１００２がアプリケーション若しくはプロセスを実行するときに使用するためのデータ１０２２及び命令１０２１を記憶することができる。少なくとも一実施例では、メモリ・コントローラ１０１６はまた、任意選択の外部グラフィックス・プロセッサ１０１２と結合しており、このグラフィックス・プロセッサは、プロセッサ１００２内の１つ又は複数のグラフィックス・プロセッサ１００８と通信して、グラフィックス及びメディアの動作を実行してもよい。少なくとも一実施例では、ディスプレイ・デバイス１０１１は、プロセッサ１００２に接続することができる。少なくとも一実施例では、ディスプレイ・デバイス１０１１は、モバイル電子デバイス又はラップトップ・デバイスのような内部ディスプレイ・デバイス、又はディスプレイ・インターフェース（たとえば、ディスプレイ・ポートなど）を介して取り付けられる外部ディスプレイ・デバイスのうちの１つ又は複数を含むことができる。少なくとも一実施例では、ディスプレイ・デバイス１０１１は、仮想現実（ＶＲ）アプリケーション又は拡張現実（ＡＲ）アプリケーションで使用するための立体ディスプレイ・デバイスなどの頭部装着型ディスプレイ（ＨＭＤ）を含むことができる。

【0079】

少なくとも一実施例では、プラットフォーム・コントローラ・ハブ１０３０は、周辺装置が高速Ｉ／Ｏバスを介してメモリ・デバイス１０２０及びプロセッサ１００２に接続できるようにする。少なくとも一実施例では、Ｉ／Ｏ周辺装置は、オーディオ・コントローラ１０４６、ネットワーク・コントローラ１０３４、ファームウェア・インターフェース１０２８、ワイヤレス・トランシーバ１０２６、タッチ・センサ１０２５、データ・ストレージ・デバイス１０２４（たとえば、ハード・ディスク・ドライブ、フラッシュ・メモリなど）を含むが、これらに限定されない。少なくとも一実施例では、データ・ストレージ・デバイス１０２４は、ストレージ・インターフェース（たとえば、ＳＡＴＡ）を介して、又はペリフェラル・コンポーネント・インターコネクト・バス（たとえば、ＰＣＩ、ＰＣＩエクスプレス）などのペリフェラル・バスを介して、接続することができる。少なくとも一実施例では、タッチ・センサ１０２５は、タッチ画面センサ、圧力センサ、又は指紋センサを含むことができる。少なくとも一実施例では、ワイヤレス・トランシーバ１０２６は、ＷｉＦｉトランシーバ、Ｂｌｕｅｔｏｏｔｈトランシーバ、又は３Ｇ、４Ｇ、若しくはＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ（ＬＴＥ）トランシーバなどのモバイル・ネットワーク・トランシーバとすることができる。少なくとも一実施例では、ファームウェア・インターフェース１０２８は、システム・ファームウェアとの通信を可能にし、たとえば、ユニファイド・エクステンシブル・ファームウェア・インターフェース（ＵＥＦＩ）とすることができる。少なくとも一実施例では、ネットワーク・コントローラ１０３４は、有線ネットワークへのネットワーク接続を可能にすることができる。少なくとも一実施例では、高性能ネットワーク・コントローラ（図示せず）は、インターフェース・バス１０１０と結合する。少なくとも一実施例では、オーディオ・コントローラ１０４６は、多チャネル・ハイ・デフィニション・オーディオ・コントローラである。少なくとも一実施例では、システム１０００は、レガシー（たとえば、パーソナル・システム２（ＰＳ／２））デバイスをシステムに結合するための任意選択のレガシーＩ／Ｏコントローラ１０４０を含む。少なくとも一実施例では、プラットフォーム・コントローラ・ハブ１０３０は、キーボードとマウス１０４３の組合せ、カメラ１０４４、又は他のＵＳＢ入力デバイスなど、１つ又は複数のユニバーサル・シリアル・バス（ＵＳＢ）コントローラ１０４２の接続入力デバイスにも接続することができる。

【0080】

少なくとも一実施例では、メモリ・コントローラ１０１６及びプラットフォーム・コントローラ・ハブ１０３０のインスタンスは、外部グラフィックス・プロセッサ１０１２などの個別の外部グラフィックス・プロセッサに一体化されてもよい。少なくとも一実施例では、プラットフォーム・コントローラ・ハブ１０３０及び／又はメモリ・コントローラ１０１６は、１つ又は複数のプロセッサ１００２の外部にあってもよい。たとえば、少なくとも一実施例では、システム１０００は、外部のメモリ・コントローラ１０１６及びプラットフォーム・コントローラ・ハブ１０３０を含むことができ、これらは、プロセッサ１００２と通信するシステム・チップセット内のメモリ・コントローラ・ハブ及び周辺装置コントローラ・ハブとして構成されてもよい。

【0081】

こうした構成要素を使用して、合成音声を生成することができる。

【0082】

図１１は、少なくとも一実施例による、１つ又は複数のプロセッサ・コア１１０２Ａ～１１０２Ｎ、統合メモリ・コントローラ１１１４、及び統合グラフィックス・プロセッサ１１０８を有するプロセッサ１１００のブロック図である。少なくとも一実施例では、プロセッサ１１００は、破線の四角によって表される追加コア１１０２Ｎを含むそれ以下の数の追加コアを含むことができる。少なくとも一実施例では、プロセッサ・コア１１０２Ａ～１１０２Ｎのそれぞれは、１つ又は複数の内部キャッシュ・ユニット１１０４Ａ～１１０４Ｎを含む。少なくとも一実施例では、各プロセッサ・コアはまた、１つ又は複数の共有キャッシュ・ユニット１１０６にアクセスできる。

【0083】

少なくとも一実施例では、内部キャッシュ・ユニット１１０４Ａ～１１０４Ｎ、及び共有キャッシュ・ユニット１１０６は、プロセッサ１１００内のキャッシュ・メモリ階層を表す。少なくとも一実施例では、キャッシュ・メモリ・ユニット１１０４Ａ～１１０４Ｎは、各プロセッサ・コア内の命令及びデータのキャッシュの少なくとも１つのレベル、並びにレベル２（Ｌ２）、レベル３（Ｌ３）、レベル４（Ｌ４）などの共有中間レベル・キャッシュの１つ又は複数のレベル、又はキャッシュの他のレベルを含んでもよく、ここで外部メモリの前の最高レベルのキャッシュは、ＬＬＣとして分類される。少なくとも一実施例では、キャッシュ・コヒーレンス論理は、様々なキャッシュ・ユニット１１０６及び１１０４Ａ～１１０４Ｎ間でコヒーレンスを維持する。

【0084】

少なくとも一実施例では、プロセッサ１１００はまた、１つ又は複数のバス・コントローラ・ユニット１１１６とシステム・エージェント・コア１１１０のセットを含んでもよい。少なくとも一実施例では、１つ又は複数のバス・コントローラ・ユニット１１１６は、１つ又は複数のＰＣＩ若しくはＰＣＩエクスプレス・バスなどのペリフェラル・バスのセットを管理する。少なくとも一実施例では、システム・エージェント・コア１１１０は、様々なプロセッサ構成要素のための管理機能を提供する。少なくとも一実施例では、システム・エージェント・コア１１１０は、様々な外部メモリ・デバイス（図示せず）へのアクセスを管理するための１つ又は複数の統合メモリ・コントローラ１１１４を含む。

【0085】

少なくとも一実施例では、プロセッサ・コア１１０２Ａ～１１０２Ｎの１つ又は複数は、同時マルチスレッディングのサポートを含む。少なくとも一実施例では、システム・エージェント・コア１１１０は、マルチスレッドの処理中にコア１１０２Ａ～１１０２Ｎを調整し動作させるための構成要素を含む。少なくとも一実施例では、システム・エージェント・コア１１１０はさらに、電力制御ユニット（ＰＣＵ）を含んでもよく、このユニットは、プロセッサ・コア１１０２Ａ～１１０２Ｎ及びグラフィックス・プロセッサ１１０８の１つ又は複数の電力状態を調整するための論理及び構成要素を含む。

【0086】

少なくとも一実施例では、プロセッサ１１００はさらに、グラフィックス処理動作を実行するためのグラフィックス・プロセッサ１１０８を含む。少なくとも一実施例では、グラフィックス・プロセッサ１１０８は、共有キャッシュ・ユニット１１０６と、１つ又は複数の統合メモリ・コントローラ１１１４を含むシステム・エージェント・コア１１１０とに結合する。少なくとも一実施例では、システム・エージェント・コア１１１０はまた、１つ又は複数の結合されたディスプレイに対してグラフィックス・プロセッサの出力を行わせるためのディスプレイ・コントローラ１１１１を含む。少なくとも一実施例では、ディスプレイ・コントローラ１１１１はまた、少なくとも１つの相互接続を介してグラフィックス・プロセッサ１１０８に結合された別個のモジュールであってもよく、又はグラフィックス・プロセッサ１１０８内に一体化されていてもよい。

【0087】

少なくとも一実施例では、プロセッサ１１００の内部構成要素を結合するために、リング・ベースの相互接続ユニット１１１２が使用される。少なくとも一実施例では、ポイントツーポイント相互接続、スイッチ相互接続、又は他の技法などの代替的な相互接続ユニットが使用されてもよい。少なくとも一実施例では、グラフィックス・プロセッサ１１０８は、Ｉ／Ｏリンク１１１３を介してリング相互接続１１１２と結合する。

【0088】

少なくとも一実施例では、Ｉ／Ｏリンク１１１３は、様々なプロセッサ構成要素と、ｅＤＲＡＭモジュールなどの高性能組み込みメモリ・モジュール１１１８との間の通信を容易にするオン・パッケージＩ／Ｏ相互接続を含む多様なＩ／Ｏ相互接続のうちの少なくとも１つを表す。少なくとも一実施例では、プロセッサ・コア１１０２Ａ～１１０２Ｎのそれぞれ及びグラフィックス・プロセッサ１１０８は、共有ラスト・レベル・キャッシュとして組み込みメモリ・モジュール１１１８を使用する。

【0089】

少なくとも一実施例では、プロセッサ・コア１１０２Ａ～１１０２Ｎは、共通の命令セット・アーキテクチャを実行する同種のコアである。少なくとも一実施例では、プロセッサ・コア１１０２Ａ～１１０２Ｎは、命令セット・アーキテクチャ（ＩＳＡ）の観点から見れば異種であり、ここでプロセッサ・コア１１０２Ａ～１１０２Ｎのうちの１つ又は複数は、共通の命令セットを実行するが、プロセッサ・コア１１０２Ａ～１１０２Ｎのうちの１つ又は複数の他のコアは、共通の命令セットのサブセット、又は異なる命令セットを実行する。少なくとも一実施例では、プロセッサ・コア１１０２Ａ～１１０２Ｎは、マイクロ・アーキテクチャの観点から見れば異種であり、ここで電力消費量が相対的に高い１つ又は複数のコアは、電力消費量がより低い１つ又は複数のコアと結合する。少なくとも一実施例では、プロセッサ１１００は、１つ又は複数のチップ上に、又はＳｏＣ集積回路として実装することができる。

【0090】

こうした構成要素を使用して、合成音声を生成することができる。

【0091】

他の変形形態は、本開示の範囲内にある。したがって、開示した技法は、様々な修正及び代替的な構成が可能であるが、それらのうち一定の例示的な実施例が図面に示され、上で詳細に説明されてきた。しかし、特定の１つ又は複数の開示された形に本開示を限定する意図はなく、その反対に、特許請求の範囲に定義される開示の趣旨及び範囲に入るすべての修正形態、代替的な構成、及び等価物を網羅することを意図している。

【0092】

開示される実施例を説明する文脈において（特に、以下の特許請求の範囲の文脈において）「ａ」及び「ａｎ」及び「ｔｈｅ」という用語、並びに同様の指示語を使用することは、本明細書に別段の記載のない限り、又は文脈によって明らかに否定されない限り、単数と複数の両方を網羅すると解釈されるべきであり、用語の定義であると解釈されるべきではない。「備える（ｃｏｍｐｒｉｓｉｎｇ）」、「有する（ｈａｖｉｎｇ）」、「含む（ｉｎｃｌｕｄｉｎｇ）」、「収容する（ｃｏｎｔａｉｎｉｎｇ）」という用語は、別段の記載のない限り、オープンエンドの用語（「含むが、これに限定されない」を意味する）と解釈される。「接続される」という用語は、修飾されずに物理的接続を指している場合には、何か介在するものがあったとしても、部分的に又は完全に中に収容される、取り付けられる、又は互いに接合されるものとして解釈される。本明細書において値の範囲を詳述することは、本明細書において別段の記載がない限り、またそれぞれ別々の値が、本明細書に個々に詳述されているかのように明細書に組み込まれていない限り、範囲内に含まれるそれぞれ別々の値を個々に参照する簡潔な方法として機能することを単に意図しているにすぎない。「セット」（たとえば、「アイテムのセット」）又は「サブセット」という用語の使用は、文脈によって別段の記載がない、又は否定されていない限り、１つ又は複数の部材を備える空ではない集合として解釈されるべきである。さらに、文脈によって別段の記載がない、又は否定されていない限り、対応するセットの「サブセット」という用語は、対応するセットの厳密なサブセットを必ずしも指すのではなく、サブセットと対応するセットは等しくてもよい。

【0093】

「Ａ、Ｂ、及びＣのうちの少なくとも１つ」又は「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という形の言い回しなどの結合語は、別段の具体的な記載のない限り、又は文脈によって明確に否定されていない限り、項目、用語などが、ＡかＢかＣである、又はＡとＢとＣのセットのいずれかの空でないサブセットであることを提示するために一般に使用される文脈で理解される。たとえば、３つの部材を有するセットの説明的な例では、「Ａ、Ｂ、及びＣのうちの少なくとも１つ」並びに「Ａ、Ｂ、及びＣのうちの少なくとも１つ」という結合句は、次のセットのうちのいずれかを指す：｛Ａ｝、｛Ｂ｝、｛Ｃ｝、｛Ａ、Ｂ｝、｛Ａ、Ｃ｝、｛Ｂ、Ｃ｝、｛Ａ、Ｂ、Ｃ｝。したがって、こうした結合語は、ある一定の実施例が、少なくとも１つのＡ、少なくとも１つのＢ、及び少なくとも１つのＣのそれぞれの存在を必要とすることを全体的に暗示するものではない。さらに、別段の記載のない、又は文脈によって否定されていない限り、「複数」という用語は、複数である状態を示す（たとえば、「複数の項目（ａｐｌｕｒａｌｉｔｙｏｆｉｔｅｍｓ）」は複数の項目（ｍｕｌｔｉｐｌｅｉｔｅｍｓ）を示す）。複数とは、少なくとも２つの項目であるが、明示的に、又は文脈によって示されている場合にはそれより多くてもよい。さらに、別段の記載のない、又は文脈からそうでないことが明らかでない限り、「～に基づく」という言い回しは、「少なくとも部分的に～に基づく」を意味し、「～だけに基づく」を意味しない。

【0094】

本明細書に記載のプロセスの動作は、本明細書に別段の記載のない、又は文脈によって明確に否定されない限り、任意の好適な順序で実行することができる。少なくとも一実施例では、本明細書に記載のプロセス（又はその変形及び／又は組合せ）などのプロセスは、実行可能命令で構成された１つ又は複数のコンピュータ・システムの制御下で実行され、１つ又は複数のプロセッサ上で、ハードウェアによって、又はそれらの組合せによって集合的に実行されるコード（たとえば、実行可能な命令、１つ若しくは複数のコンピュータ・プログラム、又は１つ若しくは複数のアプリケーション）として実装される。少なくとも一実施例では、コードは、たとえば１つ又は複数のプロセッサによって実行可能な複数の命令を備えるコンピュータ・プログラムの形で、コンピュータ読取り可能ストレージ媒体に記憶される。少なくとも一実施例では、コンピュータ読取り可能ストレージ媒体は、一時的な信号（たとえば、伝播する一時的な電気若しくは電磁送信）を除外するが、一時的な信号のトランシーバ内の非一時的なデータ・ストレージ回路（たとえば、バッファ、キャッシュ、及びキュー）を含む非一時的なコンピュータ読取り可能ストレージ媒体である。少なくとも一実施例では、コード（たとえば、実行可能コード又はソース・コード）は、１つ又は複数の非一時的なコンピュータ読取り可能ストレージ媒体のセットに記憶され、このストレージ媒体には、コンピュータ・システムの１つ又は複数のプロセッサによって実行されたときに（すなわち、実行された結果として）、コンピュータ・システムに本明細書に記載の動作を実行させる実行可能命令が記憶されている（又は、実行可能命令を記憶するための他のメモリを有する）。非一時的なコンピュータ読取り可能ストレージ媒体のセットは、少なくとも一実施例では、複数の非一時的なコンピュータ読取り可能ストレージ媒体を備え、複数の非一時的なコンピュータ読取り可能ストレージ媒体の個々の非一時的なストレージ媒体のうちの１つ又は複数には、すべてのコードがないが、複数の非一時的なコンピュータ読取り可能ストレージ媒体は、集合的にすべてのコードを記憶している。少なくとも一実施例では、実行可能命令は、異なる命令が異なるプロセッサによって実行されるように実行され、たとえば、非一時的なコンピュータ読取り可能ストレージ媒体は命令を記憶し、メインの中央処理装置（「ＣＰＵ」）は一部の命令を実行し、グラフィックス・プロセッシング・ユニット（「ＧＰＵ」）及び／又はデータ・プロセッシング・ユニット（「ＤＰＵ」）は他の命令を実行する。少なくとも一実施例では、コンピュータ・システムの異なる構成要素は、別々のプロセッサを有し、異なるプロセッサは、命令の異なるサブセットを実行する。

【0095】

したがって、少なくとも一実施例では、コンピュータ・システムは、本明細書に記載のプロセスの動作を単独で又は集合的に実行する１つ又は複数のサービスを実装するように構成され、こうしたコンピュータ・システムは、動作の実行を可能にする適用可能なハードウェア及び／又はソフトウェアで構成される。さらに、本開示の少なくとも一実施例を実装するコンピュータ・システムは、単一のデバイスであり、別の実施例では、異なるやり方で動作する複数のデバイスを備える分散型のコンピュータ・システムであり、それにより単一のデバイスがすべての動作を実行しないように分散型のコンピュータ・システムが本明細書に記載の動作を実行する。

【0096】

本明細書に提供されるあらゆる例、又は例示的な言葉（たとえば、「など」）の使用は、本開示の実施例をより明らかにすることだけを意図しており、別段の主張のない限り、本開示の範囲に制限を加えるものではない。本明細書のいかなる言葉も、特許請求されていない任意の要素を、本開示の実践に不可欠なものとして示すと解釈されるべきではない。

【0097】

本明細書に引用される出版物、特許出願、及び特許を含むすべての参考文献は、各参考文献が参照により組み込まれることがあたかも個別に明確に示され、その全体が本明細書に記載されたかのように、それと同程度まで参照により本明細書に組み込まれる。

【0098】

明細書及び特許請求の範囲において、「結合される」及び「接続される」という用語が、その派生語とともに使用されてもよい。これらの用語は、互いに同義語として意図されていない場合があることを理解すべきである。むしろ、特定の例では、「接続される」又は「結合される」は、２つ以上の要素が物理的又は電気的に互いに直接又は間接的に接触していることを示すために使用されてもよい。また「結合される」は、２つ以上の要素が直接互いに接触していないが、なお互いに連動又は相互作用することを意味してもよい。

【0099】

別段の具体的な記載のない限り、明細書全体を通して「処理する」、「コンピューティング」、「計算する」、又は「判定する」などの用語は、コンピューティング・システムのレジスタ及び／又はメモリ内の、電子的などの物理的な量として表されるデータをコンピューティング・システムのメモリ、レジスタ、又は他のそのような情報ストレージ・デバイス、送信デバイス、若しくはディスプレイ・デバイス内の物理的な量として同様に表される他のデータになるよう操作及び／又は変換するコンピュータ若しくはコンピューティング・システム、又は同様の電子コンピューティング・デバイスの行為及び／又はプロセスを指す。

【0100】

同様に、「プロセッサ」という用語は、レジスタ及び／又はメモリからの電子データを処理し、その電子データを、レジスタ及び／又はメモリに記憶することができる他の電子データに変換する任意のデバイス、又はデバイスの一部分を指してもよい。非限定的な例として、「プロセッサ」は、ＣＰＵ、ＧＰＵ、又はＤＰＵなどの汎用処理が可能な任意のプロセッサであってもよい。非限定的な例として、「プロセッサ」は、任意のマイクロコントローラ、又はＤＳＰ、画像信号プロセッサ（「ＩＳＰ：ｉｍａｇｅｓｉｇｎａｌｐｒｏｃｅｓｓｏｒ」）、算術論理装置（「ＡＬＵ：ａｒｉｔｈｍｅｔｉｃｌｏｇｉｃｕｎｉｔ」）、視覚処理装置（「ＶＰＵ：ｖｉｓｉｏｎｐｒｏｃｅｓｓｉｎｇｕｎｉｔ」）、ツリー・トラバーサル・ユニット（「ＴＴＵ：ｔｒｅｅｔｒａｖｅｒｓａｌｕｎｉｔ」）、レイ・トレーシング・コア、テンソル・トレーシング・コア、テンソル処理装置（「ＴＰＵ：ｔｅｎｓｏｒｐｒｏｃｅｓｓｉｎｇｕｎｉｔ」）、組み込み制御ユニット（「ＥＣＵ：ｅｍｂｅｄｄｅｄｃｏｎｔｒｏｌｕｎｉｔ」）などの専用処理装置であってもよい。非限定的な例として、「プロセッサ」は、ＰＶＡ：ｐｒｏｇｒａｍｍａｂｌｅｖｉｓｉｏｎａｃｃｅｌｅｒａｔｏｒ（プログラマブル・ビジョン・アクセラレータ）、ＤＬＡ：ｄｅｅｐｌｅａｒｎｉｎｇａｃｃｅｌｅｒａｔｏｒ（深層学習アクセラレータ）などのハードウェア・アクセラレータであってもよい。非限定的な例として、「プロセッサ」はまた、１つ又は複数の仮想マシンを実行する基礎となるハードウェア構成要素上でホストされる、ＣＰＵ、ＧＰＵなどの１つ又は複数の仮想インスタンスを含んでもよい。「コンピューティング・プラットフォーム」は、１つ又は複数のプロセッサを備えてもよい。本明細書で使用する「ソフトウェア」プロセスは、たとえば、タスク、スレッド、及び知的エージェントなど、経時的にワークを実行するソフトウェア及び／又はハードウェアのエンティティを含んでもよい。また、各プロセスは、命令を直列で又は並列で連続的に又は断続的に実行するための複数のプロセスを指してもよい。「システム」及び「方法」という用語は、１つ又は複数の方法をシステムが具体化することができ、方法がシステムと考えられてもよい場合に限り、本明細書において交換可能に使用される。

【0101】

本明細書では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又はそれらをサブシステム、コンピュータ・システム、又はコンピュータ実装機械に入力することに言及することができる。アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力することは、関数呼出し、又はアプリケーション・プログラミング・インターフェースへの呼出しのパラメータとしてデータを受信するなど、様々なやり方で実現することができる。いくつかの実装形態では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力するプロセスは、直列又は並列のインターフェースを介してデータを転送することによって実現することができる。別の実装形態では、アナログ・データ又はデジタル・データを得る、取得する、受信する、又は入力するプロセスは、提供するエンティティから取得するエンティティにコンピュータ・ネットワークを介してデータを転送することによって実現することができる。また、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送る、又は提示することにも言及することができる。様々な例では、アナログ・データ又はデジタル・データを提供する、出力する、送信する、送る、又は提示するプロセスは、関数呼出しの入力又は出力のパラメータ、アプリケーション・プログラミング・インターフェース若しくはプロセス間通信機構のパラメータとしてデータを転送することによって実現することができる。

【0102】

上の議論は、説明した技法の例示的な実装形態について述べているが、記載した機能を実装するために他のアーキテクチャが使用されてもよく、この他のアーキテクチャは、本開示の範囲内にあることが意図される。さらに、議論を目的として、役割の具体的な分配が定義されているが、様々な機能及び役割は、状況に応じて異なるやり方で分配及び分割されてもよい。

【0103】

さらに、主題は、構造的特徴及び／又は方法論的動作に特有の言語で説明されてきたが、添付の特許請求の範囲で特許請求される主題は、説明した特有の特徴又は動作に必ずしも限定されないことが理解されるべきである。むしろ、特有の特徴及び動作は、特許請求の範囲を実装する例示的な形として開示されている。

【図1】