(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-05-10
(45)【発行日】2024-05-20
(54)【発明の名称】音声合成の学習可能な速度制御
(51)【国際特許分類】
G10L 13/10 20130101AFI20240513BHJP
G10L 13/047 20130101ALI20240513BHJP
G10L 25/30 20130101ALI20240513BHJP
【FI】
G10L13/10 111F
G10L13/10 113Z
G10L13/047 Z
G10L25/30
(21)【出願番号】P 2022552959
(86)(22)【出願日】2021-02-18
(86)【国際出願番号】 US2021018499
(87)【国際公開番号】W WO2021178140
(87)【国際公開日】2021-09-10
【審査請求日】2022-09-02
(32)【優先日】2020-03-03
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520353802
【氏名又は名称】テンセント・アメリカ・エルエルシー
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100150197
【氏名又は名称】松尾 直樹
(72)【発明者】
【氏名】チェンズ・ユ
(72)【発明者】
【氏名】ドン・ユ
【審査官】大野 弘
(56)【参考文献】
【文献】Chengzhu Yu et al.,DurIAN: Duration Informed Attention Network for Multimodal Synthesis,arXiv:1909.01700v1[cs.CL] 4 Sep 2019,2019年09月04日,https://arxiv.org/pdf/1909.01700v1.pdf
【文献】Yuxuan Wang et al.,Tacotron: Towards End-to-End Speech Synthesis,arXiv:1703.10135v2[cs.CL] 6 Apr 2017,2017年04月06日,pp.1-9,https://arxiv.org/pdf/1703.10135.pdf
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/10
G10L 13/047
(57)【特許請求の範囲】
【請求項1】
所与の速度で音声を合成する方法であって、
発話する声に対応す
る複数の音素
を含む音素シーケンスをコンピュータによって符号化するステップと、
前記符号化された
音素シーケンスに基づいて、前記コンピュータによって前
記複数の音素
を複数
の音響フレームに整列させるステップと、
前記整列された音素および前
記音響フレームから
、前記コンピュータに
より実装される再帰的ニューラルネットワークによって
、複数のメルスペクトログラム特徴を再帰的に生成するステップ
であって、前記再帰的ニューラルネットワークへの入力は、前記音素シーケンス、および前記複数の音素の各々に関連付けられた音素速度を含む、ステップと、
前記生成されたメルスペクトログラム特徴を使用して、前記コンピュータによって前記発話する声に対応する
前記所与の速度で声のサンプルを合成するステップと
を含む方法。
【請求項2】
符号化する前記ステップは、
前
記複数の音素
を含む前記音素シーケンスを受信するステップと、
前記音素シーケンスの表現を含む1つまたは複数の隠れ状態の
出力シーケンスを出力するステップと
を含む、請求項1に記載の方法。
【請求項3】
前
記複数の音素
を複数
の音響フレームに整列させる前記ステップは、
前記隠れ状態の前記出力シーケンスを前記発話する声に対応する
話者情報と連結するステップと、
完全結合層を使用して、前記連結された出力シーケンスに次元削減を適用するステップと、
前記複数の音素
の各々に関連付けられた
音素速度に基づいて前記次元削減された出力シーケンスを拡張するステップと、
前記拡張された出力シーケンスを前
記音響フレームに整列させるステップと
を含む、請求項2に記載の方法。
【請求項4】
1つまたは複数のフレーム整列された隠れ状態を、フレームレベル、二乗平均平方根誤差値、およびすべてのフレームに関連付けられた相対位置と連結するステップをさらに含む、請求項3に記載の方法。
【請求項5】
前記整列されたフレームに基づいて前
記複数のメルスペクトログラム特徴を生成する前記ステップは、
前
記複数の音響フレームと整列された1つまたは複数の符号化された隠れ状態からアテンションコンテキストを計算するステップと、
CBHG技術を前記計算されたアテンションコンテキストに適用するステップと
を含む、請求項1に記載の方法。
【請求項6】
前記メルスペクトログラム特徴に関連付けられた損失値が最小化される、請求項
5に記載の方法。
【請求項7】
前記再帰的ニューラルネットワークへの入力
が、二乗平均平方根誤差値、および話者に関連付けられた識別情報を
さらに含む、請求項
6に記載の方法。
【請求項8】
1つまたは複数の速度で音声を合成するためのコンピュータシステムであって、前記コンピュータシステムは、
コンピュータプログラムコードを記憶するように構成された1つまたは複数のコンピュータ可読非一時的記憶媒体と、
前記コンピュータプログラムコードにアクセスし、前記コンピュータプログラムコードによって命令されるように動作するよう構成された1つまたは複数のコンピュータプロセッサであって、前記コンピュータプログラムコードは、前記1つまたは複数のコンピュータプロセッサに、請求項1~
7のいずれか一項に記載の方法を行わせるためのコンピュータプログラムコードである、1つまたは複数のコンピュータプロセッサと
を備える、コンピュータシステム。
【請求項9】
1つまたは複数のコンピュータプロセッサに、請求項1~
7のいずれか一項に記載の方法を行わせるためのコンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年3月3日に出願された米国特許出願第16/807,801号の優先権を主張し、その全体が参照により本明細書に明示的に組み込まれる。
【背景技術】
【0002】
本開示は、一般に、コンピューティングの分野に関し、より詳細には、データ処理に関する。
【0003】
音声合成方法は、音声生成中の各音素の持続時間を制御するための電話持続時間予測モデルに依存する。そのようなシステムでは、生成される音声の速度は、通常、予測された持続時間に制御係数を乗算してそれをより速くまたはより遅くすることによって制御される。
【発明の概要】
【課題を解決するための手段】
【0004】
実施形態は、1つまたは複数の速度で音声を合成するための方法、システム、およびコンピュータ可読媒体に関する。1つの態様によれば、1つまたは複数の速度で音声を合成するための方法が提供される。方法は、発話する声に対応する1つまたは複数の音素に関連付けられたコンテキストをコンピュータによって符号化するステップを含むことができる。1つまたは複数の音素は、符号化されたコンテキストに基づいて1つまたは複数のターゲット音響フレームに整列されてもよい。整列された音素およびターゲット音響フレームから1つまたは複数のメルスペクトログラム特徴を再帰的に生成することができ、生成されたメルスペクトログラム特徴を使用して、発話する声に対応する所与の速度で声のサンプルを合成することができる。
【0005】
別の態様によれば、1つまたは複数の速度で音声を合成するためのコンピュータシステムが提供される。コンピュータシステムは、1つまたは複数のプロセッサと、1つまたは複数のコンピュータ可読メモリと、1つまたは複数のコンピュータ可読有形記憶デバイスと、1つまたは複数のメモリのうちの少なくとも1つを介して1つまたは複数のプロセッサのうちの少なくとも1つによって実行するために1つまたは複数の記憶デバイスのうちの少なくとも1つに記憶されたプログラム命令とを含んでよく、これにより、コンピュータシステムは方法を実行することが可能である。方法は、発話する声に対応する1つまたは複数の音素に関連付けられたコンテキストをコンピュータによって符号化するステップを含むことができる。1つまたは複数の音素は、符号化されたコンテキストに基づいて1つまたは複数のターゲット音響フレームに整列されてもよい。整列された音素およびターゲット音響フレームから1つまたは複数のメルスペクトログラム特徴を再帰的に生成することができ、生成されたメルスペクトログラム特徴を使用して、発話する声に対応する所与の速度で声のサンプルを合成することができる。
【0006】
さらに別の態様によれば、1つまたは複数の速度で音声を合成するためのコンピュータ可読媒体が提供される。コンピュータ可読媒体は、1つまたは複数のコンピュータ可読記憶デバイスと、1つまたは複数の有形記憶デバイスのうちの少なくとも1つに記憶されたプログラム命令とを含んでよく、プログラム命令はプロセッサによって実行可能である。プログラム命令は、発話する声に対応する1つまたは複数の音素に関連付けられたコンテキストをコンピュータによって符号化するステップを含み得る方法を実行するためにプロセッサによって実行可能である。1つまたは複数の音素は、符号化されたコンテキストに基づいて1つまたは複数のターゲット音響フレームに整列されてもよい。整列された音素およびターゲット音響フレームから1つまたは複数のメルスペクトログラム特徴を再帰的に生成することができ、生成されたメルスペクトログラム特徴を使用して、発話する声に対応する所与の速度で声のサンプルを合成することができる。
【0007】
これらおよび他の目的、特徴、および利点は、添付の図面に関連して読まれるべき、例示的な実施形態の以下の詳細な説明から明らかになるであろう。図は、詳細な説明と併せて当業者の理解を容易にする際に明確にするためのものであるため、図面の様々な特徴は一定の縮尺ではない。
【図面の簡単な説明】
【0008】
【
図1】少なくとも1つの実施形態によるネットワーク化されたコンピュータ環境を示す図である。
【
図2】少なくとも1つの実施形態による、1つまたは複数の速度で音声を合成するプログラムのブロック図である。
【
図3】少なくとも1つの実施形態による、1つまたは複数の速度で音声を合成するプログラムによって実行されるステップを示す動作フローチャートである。
【
図4】少なくとも1つの実施形態による、
図1に示されているコンピュータおよびサーバの内部構成要素および外部構成要素のブロック図である。
【
図5】少なくとも1つの実施形態による、
図1に示されているコンピュータシステムを含む例示的なクラウドコンピューティング環境のブロック図である。
【
図6】少なくとも1つの実施形態による、
図5の例示的なクラウドコンピューティング環境の機能層のブロック図である。
【発明を実施するための形態】
【0009】
特許請求される構造および方法の詳細な実施形態が本明細書に開示されているが、開示された実施形態は、様々な形態で具現化され得る特許請求される構造および方法の例示にすぎないことが理解され得る。しかしながら、これらの構造および方法は、多くの異なる形態で具現化され得、本明細書に記載された例示的な実施形態に限定されると解釈されるべきではない。逆に、これらの例示的な実施形態は、本開示が徹底的かつ完全であり、当業者にその範囲を十分に伝えるように提供されている。この説明では、提示された実施形態を不必要に不明瞭にすることを避けるために、周知の特徴および技術の詳細は省略されている場合がある。
【0010】
実施形態は、一般に、コンピューティングの分野に関し、より詳細には、データ処理に関する。以下に説明する例示的な実施形態は、とりわけ、条件付き入力として発話速度を使用して1つまたは複数の速度で音声を合成するためのシステム、方法、およびプログラム製品を提供する。したがって、いくつかの実施形態は、ディープニューラルネットワークを使用して、並列データなしで異なる速度で音声を合成することを可能にすることによってデータ処理の分野を改善する能力を有する。
【0011】
前述したように、音声合成方法は、音声生成中の各音素の持続時間を制御するための電話持続時間予測モデルに依存する。そのようなシステムでは、生成される音声の速度は、通常、予測された持続時間に制御係数を乗算してそれをより速くまたはより遅くすることによって制御される。しかしながら、音素の識別情報やコンテキストに関わらず、すべての音素が同じ要素で制御されるため、生成される音声が不自然になる場合がある。さらに、明示的な持続時間制御なしでは、現在のエンドツーエンドモデルでは合成された音声の速度を制御することができない。音声合成のための既存の速度制御方法は、人間が自分たちの話し方の速度をどのように制御するかの理解が欠けている可能性があるため、自然な音声を生成しない可能性がある。したがって、より自然な音声生成のための音声合成のための学習可能な速度制御手法において機械学習およびニューラルネットワークを使用することが有利であり得る。本明細書に記載の生成された音声の速度を制御するための手法は、データから完全に学習され、人間の音声が話し方の速度の変化と共にどのように変化するかを学習する。記載された方法、システム、およびコンピュータプログラムで生成された音声は、訓練データが追加の速度正規化に起因して様々なレベルの速度を有する音声を含む場合であっても、よりロバストであり得る。
【0012】
様々な実施形態による方法、装置(システム)、およびコンピュータ可読媒体のフローチャート図および/またはブロック図を参照して、態様を本明細書で説明する。フローチャート図および/またはブロック図の各ブロック、ならびにフローチャート図および/またはブロック図のブロックの組み合わせは、コンピュータ可読プログラム命令によって実施され得ることが理解されよう。
【0013】
以下に説明する例示的な実施形態は、1つまたは複数の速度で音声を合成するシステム、方法、およびプログラム製品を提供する。本実施形態によれば、この教師なし音声合成は、いかなる並列データも必要とせず、条件入力として発話速度を受信して実現することができる。したがって、システムは、異なる速度で音声を合成するために、全音素の数を音声フレームの全長で除算することができる。
【0014】
ここで
図1を参照すると、1つまたは複数の速度での音声の合成を改善するための音声合成システム100(以下「システム」)を示すネットワーク化されたコンピュータ環境の機能ブロック図が示されている。
図1は、一実装形態の例示のみを提供しており、異なる実施形態が実施され得る環境に関していかる限定も含意しないことを理解されたい。図示された環境に対する多くの修正は、設計および実施要件に基づいて行われ得る。
【0015】
システム100は、コンピュータ102およびサーバコンピュータ114を含み得る。コンピュータ102は、通信ネットワーク110(以下「ネットワーク」)を介してサーバコンピュータ114と通信し得る。コンピュータ102は、プロセッサ104と、ユーザとインターフェースし、サーバコンピュータ114と通信することが可能な、データ記憶デバイス106に記憶されたソフトウェアプログラム108とを含み得る。
図4を参照して以下で述べられるように、コンピュータ102は、それぞれ内部構成要素800Aおよび外部構成要素900Aを含んでよく、サーバコンピュータ114は、それぞれ内部構成要素800Bおよび外部構成要素900Bを含んでよい。コンピュータ102は、例えば、モバイルデバイス、電話、携帯情報端末、ネットブック、ラップトップコンピュータ、タブレットコンピュータ、デスクトップコンピュータ、またはプログラムを実行し、ネットワークにアクセスし、データベースにアクセスすることが可能な任意のタイプのコンピューティングデバイスであってもよい。
【0016】
サーバコンピュータ114はまた、
図5および
図6に関して以下で述べられるように、サービスとしてのソフトウェア(SaaS:Software as a Service)、サービスとしてのプラットフォーム(PaaS:Platform as a Service)、またはサービスとしてのインフラストラクチャ(laaS:Infrastructure as a Service)などのクラウドコンピューティングサービスモデルで動作してもよい。サーバコンピュータ114はまた、プライベートクラウド、コミュニティクラウド、パブリッククラウド、またはハイブリッドクラウドなどのクラウドコンピューティング展開モデルに配置されてもよい。
【0017】
1つまたは複数の速度で音声を合成するために使用され得るサーバコンピュータ114は、データベース112と対話し得る音声合成プログラム116(以下、「プログラム」)を実行することが可能である。音声合成プログラム方法は、
図3に関して以下でより詳細に説明される。一実施形態では、コンピュータ102は、ユーザインターフェースを含む入力デバイスとして動作してよく、プログラム116は、主にサーバコンピュータ114上で動作してよい。代替の実施形態では、プログラム116は、主に1つまたは複数のコンピュータ102上で動作してもよく、サーバコンピュータ114は、プログラム116によって使用されるデータの処理および記憶に使用されてもよい。プログラム116は、スタンドアロンプログラムであってもよいし、より大きな音声合成プログラムに統合されてもよいことに留意されたい。
【0018】
しかしながら、プログラム116の処理は、場合によっては、コンピュータ102とサーバコンピュータ114との間で任意の比率で共有されてもよいことに留意されたい。別の実施形態では、プログラム116は、1つより多くのコンピュータ、サーバコンピュータ、またはコンピュータとサーバコンピュータとの何らかの組み合わせ、例えば、ネットワーク110を介して単一のサーバコンピュータ114と通信する複数のコンピュータ102上で動作し得る。別の実施形態では、例えば、プログラム116は、ネットワーク110を介して複数のクライアントコンピュータと通信する複数のサーバコンピュータ114上で動作し得る。代替として、プログラムは、ネットワークを介してサーバおよび複数のクライアントコンピュータと通信するネットワークサーバ上で動作してもよい。
【0019】
ネットワーク110は、有線接続、無線接続、光ファイバ接続、またはこれらの何らかの組み合わせを含み得る。一般に、ネットワーク110は、コンピュータ102とサーバコンピュータ114との間の通信をサポートする接続およびプロトコルの任意の組み合わせであり得る。ネットワーク110は、例えば、ローカルエリアネットワーク(LAN:local area network)、インターネットなどのワイドエリアネットワーク(WAN:wide area network)、公衆交換電話網(PSTN:Public Switched Telephone Network)などの電気通信ネットワーク、無線ネットワーク、公衆交換網、衛星ネットワーク、セルラーネットワーク(例えば、第5世代(5G)ネットワーク、ロングタームエボリューション(LTE:long-term evolution)ネットワーク、第3世代(3G)ネットワーク、符号分割多元接続(CDMA:code division multiple access)ネットワークなど)、公衆陸上移動体ネットワーク(PLMN:public land mobile network)、メトロポリタンエリアネットワーク(MAN:metropolitan area network)、プライベートネットワーク、アドホックネットワーク、イントラネット、もしくは光ファイバベースのネットワークなど、および/またはこれらもしくは他のタイプのネットワークの組み合わせなどの様々なタイプのネットワークを含み得る。
【0020】
図1に示すデバイスおよびネットワークの数および配置は、一例として提供されている。実際には、
図1に示すものに比べて、さらなるデバイスおよび/もしくはネットワーク、少ないデバイスおよび/もしくはネットワーク、異なるデバイスおよび/もしくはネットワーク、または異なる配置のデバイスおよび/もしくはネットワークが存在してもよい。さらに、
図1に示す2つ以上のデバイスは、単一のデバイス内に実装されてもよく、または
図1に示す単一のデバイスは、複数の分散型デバイスとして実装されてもよい。追加として、または代替として、システム100のデバイスのセット(例えば、1つまたは複数のデバイス)が、システム100のデバイスの別のセットによって実行されるものとして説明されている1つまたは複数の機能を実行してもよい。
【0021】
図2を参照すると、
図1の音声合成プログラム116のブロック
図200が示されている。
図2は、
図1に示す例示的な実施形態の助けを借りて説明することができる。したがって、音声合成プログラム116は、とりわけ、エンコーダ202、アライメントモジュール204、およびデコーダ206を含むことができる。一実施形態によれば、音声合成プログラム116は、コンピュータ102(
図1)上に配置されてもよい。代替の実施形態によれば、音声合成プログラム116は、サーバコンピュータ114(
図1)上に配置されてもよい。
【0022】
したがって、エンコーダ202は、埋め込みモジュール208、完全結合層210、およびCBHG(1-D畳み込みバンク+ハイウェイネットワーク+双方向ゲート付きリカレントユニット)モジュール212を含むことができる。埋め込みモジュール208は、両方の音声合成のためにデータリンク224を介して入力された音素列を受信することができる。エンコーダ202は、入力音素に関連付けられた逐次表現を含む隠れ状態のシーケンスを出力することができる。
【0023】
アライメントモジュール204は、完全結合層214と、状態拡張モジュール216とを含むことができる。状態拡張モジュール216は、データリンク226を介して入力される音素速度およびデータリンク228を介して入力される二乗平均平方根誤差(RMSE)を受信することができる。アライメントモジュール204は、データリンク232によってエンコーダ202に結合され得る。アライメントモジュールは、自己回帰生成のための入力として使用することができる1つまたは複数のフレーム整列された隠れ状態を生成することができる。エンコーダ202からの出力隠れシーケンスは、埋め込まれたスピーカ情報と連結されてもよい。完全結合層214は、寸法縮小のために使用されてもよい。次元削減後の出力隠れ状態は、データリンク226を介して受信した各音素の発話速度データに応じて拡張されてもよい。状態拡張は、例えば、受信した音素速度に応じた隠れ状態の複製であってもよい。各音素の発話速度は、入力された音素と音響特徴に対して行われる強制アライメントから得られてもよい。次に、フレーム整列された隠れ状態は、フレームレベル、RMSE、および各音素内のすべてのフレームの相対位置と連結される。したがって、入力は、音素列、音素速度、RMSE、および話者の識別情報を含むことができる。
【0024】
デコーダ206は、完全結合層218、再帰的ニューラルネットワーク220、およびメルスペクトログラム生成モジュール222を含むことができる。完全結合層218は、データリンク230を介してフレーム入力を受信することができる。デコーダ206は、データリンク234によってアライメントモジュール204に結合され得る。再帰的ニューラルネットワーク220は、2つの自己回帰型RNN層で構成されてもよい。アテンション値は、ターゲットフレームと整列され得る少数の符号化された隠れ状態から計算されてよく、これにより、エンドツーエンドシステムで観察され得るアーチファクトが低減され得る。一実施形態によれば、時間ステップあたり2つのフレームを復号することができる。しかしながら、利用可能な計算能力に基づいて、時間ステップあたり任意の数のフレームを復号することができることが理解されよう。再帰的ニューラルネットワーク220の各再帰からの出力は、とりわけ、予測されるメルスペクトログラムの品質を改善するためにCBHG後技術を実行することができるメルスペクトログラム生成モジュール222を通過することができる。デコーダは、メルスペクトログラムを再構成するように訓練されてもよい。訓練段階では、1人または複数の話者の音声サンプルに対応する埋め込まれたデータが一緒に最適化されてもよい。デコーダ206は、CBHG後ステップの前後のメルスペクトログラムに関連する予測損失値を最小にするように訓練することができる。モデルが訓練された後、モデルは、元の話者の話し方の速度に基づいて異なる速度で音声を合成するために使用され得る。変換後のモデルから生成されたメルスペクトログラムは、合成音声の波形生成のモデルとして用いられてもよい。
【0025】
ここで
図3を参照すると、1つまたは複数の速度で音声を合成するプログラムによって実行されるステップを示す動作フローチャート400が示されている。
図3は、
図1および
図2を用いて説明することができる。前述したように、音声合成プログラム116(
図1)は、発話速度を入力として使用して、1つまたは複数の速度で音声を迅速かつ効果的に合成することができる。
【0026】
302において、1つまたは複数の音素に関連付けられ、発話する声に対応するコンテキストがコンピュータによって符号化される。エンコーダの出力は、入力音素の逐次表現を含む隠れ状態のシーケンスであってもよい。動作中、エンコーダ202(
図2)は、データリンク224(
図2)を介して音素列データを受信することができ、埋め込みモジュール208(
図2)、完全結合層210(
図2)、およびCBHGモジュール212(
図2)を介してデータを渡すことができる。
【0027】
304において、符号化されたコンテキストに基づいて、1つまたは複数の音素が1つまたは複数のターゲット音響フレームに整列される。整列モジュールは、自己回帰生成のための入力として使用されるフレーム整列された隠れ状態を生成することができる。これは、とりわけ、ソース音素がそれらの意図されたターゲット音素と一致し得ることを保証することができる。動作中、アライメントモジュール204(
図2)は、データリンク232(
図2)を介してエンコーダ202(
図2)から音素データを受信することができる。完全結合層214(
図2)は、音素データの次元性を低減することができる。状態拡張モジュール216(
図2)は、データリンク226および228(
図2)を介してそれぞれ音素速度データおよびRMSEデータを受信することができ、音素データを処理するためのいくつかの隠れ状態を作成することができる。
【0028】
306において、整列された音素およびターゲット音響フレームから、1つまたは複数のメルスペクトログラム特徴が再帰的に生成される。メルスペクトログラム特徴の生成は、1つまたは複数のターゲット音響フレームと整列された1つまたは複数の符号化された隠れ状態からアテンションコンテキストを計算することと、CBHG技術を計算されたアテンションコンテキストに適用することとを含むことができる。動作中、デコーダ206(
図2)は、データリンク234(
図2)を介してアライメントモジュール204(
図2)から音素を受信してよい。このデータは、再帰的ニューラルネットワーク220(
図2)に渡すことができる。フレーム入力データは、データリンク230(
図2)を介して完全結合層218(
図2)によって受信されてよい。フレーム入力データおよび音素データは、再帰的ニューラルネットワーク220および完全結合層218によって再帰的に処理されてもよい。各再帰の結果は、メルスペクトログラム生成モジュール222(
図2)に渡されてもよく、メルスペクトログラムを生成するために、各再帰の結果を集約し、CBHG演算を実行してもよい。
【0029】
308において、生成されたメルスペクトログラム特徴を使用して、コンピュータによって発話する声に対応する声のサンプルが合成される。音声合成方法は、訓練のために並列データを必要とせず、ロバストで自然な発音の発話する声を生成することができる自己回帰生成モジュールを含むことができる。動作中、音声合成プログラム116(
図1)は、生成されたメルスペクトログラムを使用して、発話する声の音素速度に基づいて所与の速度で発話する声を合成する。音声合成プログラム116は、任意で、合成された音声を通信ネットワーク110(
図1)を介してコンピュータ102(
図1)に送信してもよい。
【0030】
図3は、一実施態様の例示のみを提供しており、異なる実施形態がどのように実施され得るかに関していかなる限定も含意しないことが理解され得る。図示された環境に対する多くの修正は、設計および実施要件に基づいて行われ得る。
【0031】
図4は、例示的な実施形態による、
図1に示されているコンピュータの内部構成要素および外部構成要素のブロック
図400である。
図4は、一実施態様の例示のみを提供しており、異なる実施形態が実施され得る環境に関していかる限定も含意しないことを理解されたい。図示された環境に対する多くの修正は、設計および実施要件に基づいて行われ得る。
【0032】
コンピュータ102(
図1)およびサーバコンピュータ114(
図1)は、
図4に示されている内部構成要素800A、800Bおよび外部構成要素900A、900Bのそれぞれのセットを含み得る。内部構成要素800のセットの各々は、1つまたは複数のバス826上の1つまたは複数のプロセッサ820、1つまたは複数のコンピュータ可読RAM822、および1つまたは複数のコンピュータ可読ROM824と、1つまたは複数のオペレーティングシステム828と、1つまたは複数のコンピュータ可読有形記憶デバイス830とを含む。
【0033】
プロセッサ820は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせで実施される。プロセッサ820は、中央処理装置(CPU:central processing unit)、グラフィック処理装置(GPU:graphics processing unit)、加速処理装置(APU:accelerated processing unit)、マイクロプロセッサ、マイクロコントローラ、デジタル信号プロセッサ(DSP:digital signal processor)、フィールドプログラマブルゲートアレイ(FPGA:field-programmable gate array)、特定用途向け集積回路(ASIC:application-specific integrated circuit)、または別のタイプの処理構成要素である。一部の実施態様では、プロセッサ820は、機能を実行するようにプログラムされ得る1つまたは複数のプロセッサを含む。バス826は、内部構成要素800A、800B間の通信を可能にする構成要素を含む。
【0034】
1つまたは複数のオペレーティングシステム828、ソフトウェアプログラム108(
図1)、およびサーバコンピュータ114(
図1)上の音声合成プログラム116(
図1)は、それぞれのRAM822(通常はキャッシュメモリを含む)のうちの1つまたは複数を介してそれぞれのプロセッサ820のうちの1つまたは複数によって実行するために、それぞれのコンピュータ可読有形記憶デバイス830のうちの1つまたは複数に記憶される。
図4に示されている実施形態では、コンピュータ可読有形記憶デバイス830の各々は、内蔵ハードドライブの磁気ディスク記憶デバイスである。代替として、コンピュータ可読有形記憶デバイス830の各々は、ROM824、EPROM、フラッシュメモリなどの半導体記憶デバイス、光ディスク、光磁気ディスク、ソリッドステートディスク、コンパクトディスク(CD:compact disc)、デジタル多用途ディスク(DVD:digital versatile disc)、フロッピーディスク、カートリッジ、磁気テープ、ならびに/またはコンピュータプログラムおよびデジタル情報を記憶し得る別のタイプの非一時的コンピュータ可読有形記憶デバイスである。
【0035】
内部構成要素800A、800Bの各セットはまた、CD-ROM、DVD、メモリスティック、磁気テープ、磁気ディスク、光ディスク、または半導体記憶デバイスなどの1つまたは複数のポータブルコンピュータ可読有形記憶デバイス936から読み書きするためのR/Wドライブまたはインターフェース832を含む。ソフトウェアプログラム108(
図1)および音声合成プログラム116(
図1)などのソフトウェアプログラムは、それぞれのポータブルコンピュータ可読有形記憶デバイス936のうちの1つまたは複数に記憶され、それぞれのR/Wドライブまたはインターフェース832を介して読み出され、それぞれのハードドライブ830にロードされ得る。
【0036】
内部構成要素800A、800Bの各セットはまた、TCP/IPアダプタカード、無線Wi-Fiインターフェースカード、または3G、4G、もしくは5G無線インターフェースカードまたは他の有線もしくは無線通信リンクなどのネットワークアダプタまたはインターフェース836を含む。ソフトウェアプログラム108(
図1)およびサーバコンピュータ114(
図1)上の音声合成プログラム116(
図1)は、ネットワーク(例えば、インターネット、ローカルエリアネットワーク、または他のワイドエリアネットワーク)およびそれぞれのネットワークアダプタまたはインターフェース836を介して外部コンピュータからコンピュータ102(
図1)およびサーバコンピュータ114にダウンロードされ得る。ネットワークアダプタまたはインターフェース836から、サーバコンピュータ114上のソフトウェアプログラム108および音声合成プログラム116がそれぞれのハードドライブ830にロードされる。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および/またはエッジサーバを含み得る。
【0037】
外部構成要素900A、900Bのセットの各々は、コンピュータディスプレイモニタ920、キーボード930、およびコンピュータマウス934を含み得る。外部構成要素900A、900Bはまた、タッチスクリーン、仮想キーボード、タッチパッド、ポインティングデバイス、および他のヒューマンインターフェースデバイスを含み得る。内部構成要素800A、800Bのセットの各々はまた、コンピュータディスプレイモニタ920、キーボード930、およびコンピュータマウス934にインターフェースするためのデバイスドライバ840を含む。デバイスドライバ840、R/Wドライブまたはインターフェース832、およびネットワークアダプタまたはインターフェース836は、ハードウェアならびにソフトウェア(記憶デバイス830および/またはROM824に記憶された)を含む。
【0038】
本開示はクラウドコンピューティングに関する詳細な説明を含むが、本明細書に記載された教示の実施態様はクラウドコンピューティング環境に限定されないことが事前に理解される。それどころか、一部の実施形態は、現在知られているまたは後に開発される任意の他のタイプのコンピューティング環境と併せて実施され得る。
【0039】
クラウドコンピューティングは、設定可能なコンピューティングリソース(ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、サービスなど)の共有プールへの、簡単にオンデマンドネットワークアクセスを可能にするサービス提供モデルであり、最小限の管理作業やサービスプロバイダとのやりとりで迅速に準備かつリリースすることができる。このクラウドモデルは、少なくとも5つの特性、少なくとも3つのサービスモデル、および少なくとも4つの展開モデルを含み得る。
【0040】
特性は以下の通りである。
オンデマンドセルフサービス:クラウド消費者は、サービスのプロバイダとの人間の対話を必要とせずに、必要に応じてサーバタイムおよびネットワークストレージなどのコンピューティング機能を一方的にプロビジョニングできる。
広範なネットワークアクセス:機能は、ネットワークを介して利用可能であり、異種のシンまたはシックなクライアントプラットフォーム(例えば、携帯電話、ラップトップ、およびPDA)による使用を促進する標準的な機構を介してアクセスされる。
リソースプーリング:プロバイダのコンピューティングリソースは、マルチテナントモデルを使用して複数の消費者にサービスを提供するためにプールされ、異なる物理リソースおよび仮想リソースは、需要に応じて動的に割り当ておよび再割り当てされる。消費者は、一般に、提供されたリソースの正確な位置に対する制御または知識を持たないが、より高い抽象化レベル(例えば、国、州、またはデータセンタ)で位置を指定することができるという点で、位置独立性の感覚がある。
迅速な柔軟性(elasticity):機能は、素早くスケールアウトするために迅速かつ柔軟に、場合によっては自動的に、プロビジョニングされ、素早くスケールインするために迅速にリリースされ得る。消費者には、プロビジョニングに利用可能な機能は、多くの場合、無制限であるように見え、いつでも任意の量で購入され得る。
測定されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、およびアクティブユーザアカウント)に適したある抽象化レベルで計測機能を活用することによって、リソース使用を自動的に制御および最適化する。リソース使用は、利用されるサービスのプロバイダおよび消費者の両方に透明性を提供するように監視、制御、および報告され得る。
【0041】
サービスモデルは次の通りである。
サービスとしてのソフトウェア(SaaS):消費者に提供される能力は、クラウドインフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインターフェースを介して様々なクライアントデバイスからアクセス可能である。消費者は、限定されたユーザ固有のアプリケーション構成設定を可能な例外として、ネットワーク、サーバ、オペレーティングシステム、ストレージ、または個々のアプリケーション機能さえも含む基盤となるクラウドインフラストラクチャを管理または制御しない。
サービスとしてのプラットフォーム(PaaS):消費者に提供される機能は、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者が作成または取得したアプリケーションをクラウドインフラストラクチャ上に展開することである。消費者は、ネットワーク、サーバ、オペレーティングシステム、またはストレージを含む基盤となるクラウドインフラストラクチャを管理または制御しないが、展開されたアプリケーションおよび場合によってはアプリケーションホスティング環境構成を制御する。
サービスとしてのインフラストラクチャ(laaS):消費者に提供される機能は、処理、ストレージ、ネットワーク、および他の基本的なコンピューティングリソースをプロビジョニングすることであり、消費者は、オペレーティングシステムおよびアプリケーションを含み得る任意のソフトウェアを展開および実行し得る。消費者は、基盤となるクラウドインフラストラクチャを管理も制御もしないが、オペレーティングシステム、ストレージ、展開されたアプリケーション、および場合によっては選択ネットワーキング構成要素(例えば、ホストファイアウォール)の限定された制御を制御する。
【0042】
展開モデルは次の通りである。
プライベートクラウド:クラウドインフラストラクチャは、組織のためだけに運用される。クラウドインフラストラクチャは、当該組織またはサードパーティーによって管理されてもよく、また、オンプレミスで存在してもよいし、オフプレミスで存在してもよい。
コミュニティクラウド:クラウドインフラストラクチャは、いくつかの組織によって共有され、共有された関心事項(例えば、ミッション、セキュリティ要件、ポリシー、およびコンプライアンスの考慮事項)を有する特定のコミュニティをサポートする。それは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスで存在してもよい。
パブリッククラウド:クラウドインフラストラクチャは、一般の市民または大規模な業界グループに利用可能にされ、クラウドサービスを販売する組織によって所有される。
ハイブリッドクラウド:クラウドインフラストラクチャは、独自のエンティティのままであるが、データおよびアプリケーションの可搬性(例えば、クラウド間の負荷分散のためのクラウドバースト)を可能にする標準化されたまたは独自の技術によって互いに結び付けられた2つ以上のクラウド(プライベート、コミュニティ、またはパブリック)の複合である。
【0043】
クラウドコンピューティング環境は、無国籍、低結合、モジュール性、およびセマンティック相互運用性に焦点を合わせたサービス指向である。クラウドコンピューティングの中心には、相互接続されたノードのネットワークを含むインフラストラクチャがある。
【0044】
図5を参照すると、例示的なクラウドコンピューティング環境500が示されている。図示するように、クラウドコンピューティング環境500は、例えば、携帯情報端末(PDA)または携帯電話54A、デスクトップコンピュータ54B、ラップトップコンピュータ54C、および/または自動車コンピュータシステム54Nなどの、クラウド消費者によって使用されるローカルコンピューティングデバイスが通信し得る1つまたは複数のクラウドコンピューティングノード10を含む。クラウドコンピューティングノード10は、互いに通信し得る。それらは、上述のプライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウド、またはそれらの組み合わせなどの1つもしくは複数のネットワークにおいて、物理的または仮想的にグループ化(図示せず)されてもよい。これは、クラウドコンピューティング環境500が、クラウド消費者がローカルコンピューティングデバイス上のリソースを維持する必要がないサービスとしてのインフラストラクチャ、プラットフォーム、および/またはソフトウェアを提供することを可能にする。
図5に示されているコンピューティングデバイス54A~54Nのタイプは例示にすぎないことが意図されており、クラウドコンピューティングノード10およびクラウドコンピューティング環境500は、任意のタイプのネットワークおよび/またはネットワークアドレス指定可能な接続(例えば、ウェブブラウザを使用する)を介して任意のタイプのコンピュータ化されたデバイスと通信し得ることが理解される。
【0045】
図6を参照すると、クラウドコンピューティング環境500(
図5)によって提供される機能抽象化層600のセットが示されている。
図6に示されている構成要素、層、および機能は例示にすぎないことが意図されており、実施形態はこれに限定されないことを事前に理解されたい。図示のように、以下の層および対応する機能が提供される。
【0046】
ハードウェアおよびソフトウェア層60は、ハードウェアおよびソフトウェア構成要素を含む。ハードウェア構成要素の例は、メインフレーム61、RISC(縮小命令セットコンピュータ)アーキテクチャベースのサーバ62、サーバ63、ブレードサーバ64、記憶デバイス65、ならびにネットワークおよびネットワーキング構成要素66を含む。一部の実施形態では、ソフトウェア構成要素は、ネットワークアプリケーションサーバソフトウェア67およびデータベースソフトウェア68を含む。
【0047】
仮想化層70は、仮想エンティティの以下の例、すなわち、仮想サーバ71、仮想ストレージ72、仮想プライベートネットワークを含む仮想ネットワーク73、仮想アプリケーションおよびオペレーティングシステム74、ならびに仮想クライアント75が提供され得る抽象化層を提供する。
【0048】
一例では、管理層80は、以下で説明される機能を提供し得る。リソースプロビジョニング81は、クラウドコンピューティング環境内でタスクを実行するために利用されるコンピューティングリソースおよび他のリソースの動的な調達を提供する。計測および価格設定82は、リソースがクラウドコンピューティング環境内で利用されるときのコスト追跡、およびこれらのリソースの消費に対する請求または請求書発行を提供する。一例では、これらのリソースは、アプリケーションソフトウェアライセンスを含み得る。セキュリティは、クラウド消費者およびタスクのための識別検証、ならびにデータおよび他のリソースのための保護を提供する。ユーザポータル83は、消費者およびシステム管理者にクラウドコンピューティング環境へのアクセスを提供する。サービスレベル管理84は、必要なサービスレベルが満たされるようにクラウドコンピューティングリソースの割り当ておよび管理を提供する。サービスレベル合意(SLA:Service Level Agreement)の計画および履行85は、将来の要件がSLAに従って予想されるクラウドコンピューティングリソースの事前配置および調達を提供する。
【0049】
作業負荷層90は、クラウドコンピューティング環境が利用され得る機能の例を提供する。この層から提供され得る作業負荷および機能の例は、マッピングおよびナビゲーション91、ソフトウェア開発およびライフサイクル管理92、仮想教室教育配信93、データ解析処理94、取引処理95、ならびに音声合成96を含む。音声合成96は、条件入力として発話速度を使用して、1つまたは複数の速度で音声を合成してもよい。
【0050】
一部の実施形態は、任意の可能な技術的詳細の統合レベルでシステム、方法、および/またはコンピュータ可読媒体に関し得る。コンピュータ可読媒体は、プロセッサに動作を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読非一時的記憶媒体を含み得る。
【0051】
コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持および記憶し得る有形デバイスであり得る。コンピュータ可読記憶媒体は、例えば、電子記憶デバイス、磁気記憶デバイス、光記憶デバイス、電磁記憶デバイス、半導体記憶デバイス、または上記の任意の適切な組み合わせであってもよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストは、以下を、すなわち、ポータブルコンピュータディスケット、ハードディスク、ランダムアクセスメモリ(RAM:random access memory)、読み出し専用メモリ(ROM:read-only memory)、消去可能プログラマブル読み出し専用メモリ(EPROM:erasable programmable read-only memoryまたはフラッシュメモリ)、スタティックランダムアクセスメモリ(SRAM:static random access memory)、ポータブルコンパクトディスク読み出し専用メモリ(CD-ROM:compact disc read-only memory)、デジタル多用途ディスク(DVD)、メモリスティック、フロッピーディスク、命令が記録されたパンチカードまたは溝内の隆起構造などの機械的に符号化されたデバイス、および上記の任意の適切な組み合わせを含む。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を伝搬する電磁波(例えば、光ファイバケーブルを通過する光パルス)、または電線を介して伝送される電気信号などの一時的な信号自体であると解釈されるべきではない。
【0052】
本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング/処理デバイスにダウンロードされ得るし、またはネットワーク、例えばインターネット、ローカルエリアネットワーク、ワイドエリアネットワーク、および/もしくは無線ネットワークを介して外部コンピュータもしくは外部記憶デバイスにダウンロードされ得る。ネットワークは、銅製伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイコンピュータ、および/またはエッジサーバを含み得る。各コンピューティング/処理デバイス内のネットワークアダプタカードまたはネットワークインターフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、それぞれのコンピューティング/処理デバイス内のコンピュータ可読記憶媒体に記憶するためにコンピュータ可読プログラム命令を転送する。
【0053】
動作を実行するためのコンピュータ可読プログラムコード/命令は、アセンブラ命令、命令セットアーキテクチャ(ISA:instruction-set-architecture)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路の構成データ、またはSmalltalkもしくはC++などのオブジェクト指向プログラミング言語、および「C」プログラミング言語もしくは同様のプログラミング言語などの手続き型プログラミング言語を含む1つまたは複数のプログラミング言語の任意の組み合わせで記述されたソースコードもしくはオブジェクトコードのいずれかであってもよい。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、スタンドアロンソフトウェアパッケージとして、部分的にユーザのコンピュータ上で部分的にリモートコンピュータ上で、または完全にリモートコンピュータもしくはサーバ上で実行され得る。後者のシナリオでは、リモートコンピュータは、ローカルエリアネットワーク(LAN)もしくはワイドエリアネットワーク(WAN)を含む任意のタイプのネットワークを介してユーザのコンピュータに接続されてもよいし、または(例えば、インターネットサービスプロバイダを使用してインターネットを介して)外部コンピュータへの接続がなされてもよい。一部の実施形態では、例えばプログラマブル論理回路、フィールドプログラマブルゲートアレイ(FPGA)、またはプログラマブル論理アレイ(PLA:programmable logic array)を含む電子回路が、態様または動作を実行するために、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることによってコンピュータ可読プログラム命令を実行し得る。
【0054】
これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブルデータ処理装置のプロセッサによって実行される命令が、フローチャートおよび/またはブロック図のブロックで指定された機能/動作を実施するための手段を作成するように、マシンを生成するために汎用コンピュータ、専用コンピュータ、または他のプログラマブルデータ処理装置のプロセッサに提供されてもよい。これらのコンピュータ可読プログラム命令はまた、記憶された命令を有するコンピュータ可読記憶媒体が、フローチャートおよび/またはブロック図のブロックで指定された機能/動作の態様を実施する命令を含む製品を含むように、コンピュータ、プログラマブルデータ処理装置、および/または他のデバイスに特定の方法で機能するように指示し得るコンピュータ可読記憶媒体に記憶されてもよい。
【0055】
コンピュータ可読プログラム命令はまた、コンピュータ、他のプログラマブル装置、または他のデバイス上で実行される命令がフローチャートおよび/またはブロック図のブロックで指定された機能/動作を実施するように、コンピュータ実施プロセスを生成するために一連の動作ステップがコンピュータ、他のプログラマブル装置、または他のデバイス上で実行されるよう、コンピュータ、他のプログラマブルデータ処理装置、または他のデバイス上にロードされてもよい。
【0056】
図のフローチャートおよびブロック図は、様々な実施形態によるシステム、方法、およびコンピュータ可読媒体の可能な実装形態のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図の各ブロックは、指定された論理機能を実施するための1つまたは複数の実行可能命令を含むモジュール、セグメント、または命令の一部を表し得る。方法、コンピュータシステム、およびコンピュータ可読媒体は、図に示されているものと比べて、追加のブロック、より少ないブロック、異なるブロック、または異なる配置のブロックを含んでもよい。一部の代替の実施態様では、ブロックに記載された機能は、図に記載されているのとは異なる順序で実行されてもよい。例えば、連続して示されている2つのブロックは、実際には、同時にまたは実質的に同時に実行されてもよいし、またはブロックは、関連する機能に応じて、場合によっては逆の順序で実行されてもよい。ブロック図および/またはフローチャート図の各ブロック、ならびにブロック図および/またはフローチャート図のブロックの組み合わせは、指定された機能もしくは動作を実行する、または専用ハードウェアとコンピュータ命令との組み合わせを実現する、専用ハードウェアベースのシステムによって実施され得ることにも留意されたい。
【0057】
本明細書に記載のシステムおよび/または方法は、ハードウェア、ファームウェア、またはハードウェアとソフトウェアとの組み合わせの異なる形態で実装されてもよいことは明らかであろう。これらのシステムおよび/または方法を実装するために使用される実際の専用の制御ハードウェアまたはソフトウェアコードは、実装形態を限定するものではない。したがって、システムおよび/または方法の動作および挙動は、特定のソフトウェアコードを参照することなく本明細書に記載されており、ソフトウェアおよびハードウェアは、本明細書の記載に基づいてシステムおよび/または方法を実装するように設計され得ることが理解される。
【0058】
本明細書で使用される要素、動作、または命令は、不可欠なまたは必須のものとして明示的に記載されていない限り、不可欠なまたは必須のものとして解釈されるべきではない。また、本明細書で使用される場合、冠詞「a」および「an」は、1つまたは複数のものを含むことを意図されており、「1つまたは複数」と交換可能に使用され得る。さらに、本明細書で使用される「セット」という用語は、1つまたは複数の項目(例えば、関連項目、非関連項目、関連項目と非関連項目の組み合わせなど)を含むものであり、「1つまたは複数」と同じ意味で使用されてもよい。1つの項目のみが対象とされる場合、「1つ」という用語または同様の言葉が使用される。また、本明細書で使用される「有する(has)」、「有する(have)」、「有する(having)」などの用語は、オープンエンド用語であることが意図される。さらに、「に基づいて」という語句は、特に明記されない限り、「に少なくとも部分的に基づいて」を意味するものである。
【0059】
様々な態様および実施形態の説明は、例示の目的で提示されているが、網羅的であること、または開示された実施形態に限定されることを意図されていない。特徴の組み合わせが特許請求の範囲に記載され、および/または本明細書に開示されているが、これらの組み合わせは、可能な実施態様の開示を限定することを意図されていない。実際には、これらの特徴の多くは、特許請求の範囲に具体的に列挙されていない、および/または本明細書に開示されていない方法で組み合わされてもよい。以下に列挙されている各従属請求項は1つの請求項のみに直接従属し得るが、可能な実施態様の開示は、請求項セット内の他のすべての請求項との組み合わせにおいて各従属請求項を含む。記載された実施形態の範囲から逸脱することなく、多くの修正および変形が当業者に明らかになるであろう。本明細書で使用される用語は、実施形態の原理、実際の用途、もしくは市場で見られる技術に対する技術的改善を最もよく説明するために、または当業者が本明細書に開示されている実施形態を理解することを可能にするために選択された。
【符号の説明】
【0060】
10 クラウドコンピューティングノード
54A 携帯情報端末(PDA)または携帯電話、コンピューティングデバイス
54B デスクトップコンピュータ
54C ラップトップコンピュータ
54N 自動車コンピュータシステム
60 ハードウェアおよびソフトウェア層
61 メインフレーム
62 RISCアーキテクチャベースのサーバ
63 サーバ
64 ブレードサーバ
65 記憶デバイス
66 ネットワークおよびネットワーキング構成要素
67 ネットワークアプリケーションサーバソフトウェア
68 データベースソフトウェア
70 仮想化層
71 仮想サーバ
72 仮想ストレージ
73 仮想プライベートネットワークを含む仮想ネットワーク
74 仮想アプリケーションおよびオペレーティングシステム
75 仮想クライアント
80 管理層
81 リソースプロビジョニング
82 計測および価格設定
83 ユーザポータル
84 サービスレベル管理
85 サービスレベル合意の計画および履行
90 作業負荷層
91 マッピングおよびナビゲーション
92 ソフトウェア開発およびライフサイクル管理
93 仮想教室教育配信
94 データ解析処理
95 取引処理
96 音声合成
100 音声合成システム
102 コンピュータ
104 プロセッサ
106 データ記憶デバイス
108 ソフトウェアプログラム
110 通信ネットワーク
112 データベース
114 サーバコンピュータ
116 音声合成プログラム
200 音声合成プログラムのブロック図
202 エンコーダ
204 アライメントモジュール
206 デコーダ
208 埋め込みモジュール
210 完全結合層
212 CBHGモジュール
214 完全結合層
216 状態拡張モジュール
218 完全結合層
220 再帰的ニューラルネットワーク
222 メルスペクトログラム生成モジュール
224、226、228、230、232,234 データリンク
400 動作フローチャート、ブロック図
500 クラウドコンピューティング環境
600 機能抽象化層
800A、800B 内部構成要素
820 プロセッサ
822 コンピュータ可読RAM
824 コンピュータ可読ROM
826 バス
828 オペレーティングシステム
830 コンピュータ可読有形記憶デバイス
832 R/Wドライブまたはインターフェース
836 ネットワークアダプタまたはインターフェース
840 デバイスドライバ
900A、900B 外部構成要素
920 コンピュータディスプレイモニタ
930 キーボード
934 コンピュータマウス
936 ポータブルコンピュータ可読有形記憶デバイス