特許7517778 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特許7517778結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-07-08

(45)【発行日】2024-07-17

(54)【発明の名称】結合された韻律情報を用いたニューラル・ネットワークを介した音響シーケンスの生成

(51)【国際特許分類】

G10L 13/10 20130101AFI20240709BHJP

G10L 25/30 20130101ALI20240709BHJP

【ＦＩ】

G10L13/10 110

G10L25/30

G10L13/10 111Z

G10L13/10 111A

G10L13/10 111E

【請求項の数】 21

(21)【出願番号】P 2022515917

(86)(22)【出願日】2020-09-07

(65)【公表番号】

(43)【公表日】2022-11-15

(86)【国際出願番号】 IB2020058313

(87)【国際公開番号】W WO2021048727

(87)【国際公開日】2021-03-18

【審査請求日】2023-02-24

(31)【優先権主張番号】16/568,289

(32)【優先日】2019-09-12

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(72)【発明者】

【氏名】シェヒトマン・ヴャチェスラフ

【審査官】大野弘

(56)【参考文献】

【文献】特開２０１２－０３７７２２（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１８／００７５３４３（ＵＳ，Ａ１）

【文献】特開平０９－１４６５７６（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１３／１０

Ｇ１０Ｌ２５／３０

(57)【特許請求の範囲】

【請求項1】

言語シーケンスおよび韻律情報オフセットを受信することと、
訓練された韻律情報予測器を介して、前記言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、
訓練されたニューラル・ネットワークを介して、前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成することと
を行うためのプロセッサを備えるシステム。

【請求項2】

前記プロセッサは、ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、前記韻律情報予測器を訓練するように動作可能である、請求項１に記載のシステム。

【請求項3】

前記プロセッサは、前記観測された韻律情報で訓練されたシステムによって生成された埋め込み言語シーケンスに基づいて、前記韻律情報予測器を訓練するように動作可能である、請求項１に記載のシステム。

【請求項4】

前記プロセッサは、訓練中、レコーディングから抽出された観測スペクトルに基づいてニューラル・ネットワークを訓練するように動作可能であり、前記ニューラル・ネットワークは、韻律情報エンコーダ、言語エンコーダおよび音響デコーダを含むシーケンス・ツー・シーケンス・ニューラル・ネットワークを備える、請求項１～３のいずれか１項に記載のシステム。

【請求項5】

前記プロセッサは、特定の所定のやり方で前記音響シーケンスの韻律を調整するために、前記韻律情報オフセットに基づいて前記複数の観測を修正するように動作可能である、請求項１～４のいずれか１項に記載のシステム。

【請求項6】

前記プロセッサは、言語エンコーダを介して、前記言語シーケンスに基づいて、埋め込み言語シーケンスを生成するように動作可能である、請求項１～５のいずれか１項に記載のシステム。

【請求項7】

前記韻律成分が、ペース成分、ピッチ成分、ラウドネス成分またはそれらの任意の組み合わせを含む、請求項１～６のいずれか１項に記載のシステムであって、システム。

【請求項8】

コンピュータ実装方法であって、
言語シーケンスおよび韻律情報オフセットを受信するステップと、
訓練された韻律情報予測器を介して、前記言語シーケンスに基づいておよび整列して、複数の観測を含む結合された韻律情報を生成するステップであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成するステップと、
訓練されたニューラル・ネットワークを介して、前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成するステップと
を含む、コンピュータ実装方法。

【請求項9】

訓練されたエンコーダを介して、前記言語シーケンスに基づいて、埋め込み言語シーケンスを生成するステップと、
前記複数の観測を総和または連結により結合し、エンコードし、埋め込まれた韻律情報を生成し、前記埋め込まれた韻律情報を、前記埋め込み言語シーケンスと連結するステップと
を含む、請求項８に記載のコンピュータ実装方法。

【請求項10】

前記韻律情報オフセットに基づいて、前記複数の観測を修正するステップを含む、
請求項８に記載のコンピュータ実装方法。

【請求項11】

前記複数の観測を修正するステップは、対応する観測に前記韻律情報オフセットを加算するステップを含む、請求項１０に記載のコンピュータ実装方法。

【請求項12】

前記複数の観測は、発話レベルで評価される、請求項８～１１のいずれか１項に記載のコンピュータ実装方法。

【請求項13】

前記複数の観測は、異なる時間スパンにおいて局所的かつ階層的に評価される、請求項８～１１のいずれか１項に記載のコンピュータ実装方法。

【請求項14】

前記音響シーケンスに基づいてオーディオを生成するステップを含む、請求項８～１３のいずれか１項に記載のコンピュータ実装方法。

【請求項15】

韻律を自動的に制御するためのプログラムコードが具現化されたコンピュータ可読記憶媒体であって、前記コンピュータ可読記憶媒体は、それ自体が一時的な信号自体ではなく、前記プログラムコードは、プロセッサに、
言語シーケンスおよび韻律情報オフセットを受信することと、
訓練された韻律情報予測器を介して、前記言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、前記複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、
前記結合された韻律情報、前記韻律情報オフセットおよび前記言語シーケンスに基づいて、音響シーケンスを生成することと
を行うようにプロセッサによって実行可能である、コンピュータ可読記憶媒体。

【請求項16】

前記言語シーケンスに基づいて埋め込み言語シーケンスを生成し、前記複数の観測を整列し、結合し、埋め込み、埋め込まれた韻律情報を生成し、前記埋め込まれた韻律情報を、前記埋め込み言語シーケンスと連結するように前記プロセッサが実行可能なプログラムコードをさらに含む、請求項１５に記載のコンピュータ可読記憶媒体。

【請求項17】

前記韻律情報オフセットに基づいて、前記複数の観測を修正するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項１５に記載のコンピュータ可読記憶媒体。

【請求項18】

前記韻律情報の対応する観測に前記韻律情報オフセットを加算するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項１５に記載のコンピュータ可読記憶媒体。

【請求項19】

ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、前記韻律情報予測器を訓練するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項１５に記載のコンピュータ可読記憶媒体。

【請求項20】

前記音響シーケンスに基づいてオーディオを生成するように前記プロセッサによって実行可能なプログラムコードをさらに含む、請求項１５～１９のいずれか１項に記載のコンピュータ可読記憶媒体。

【請求項21】

コンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されるとき、請求項８～１４のいずれか１項に記載の方法を実行するように適合されたプログラムコード手段を含む、コンピュータ・プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本技術は、韻律を制御することに関する。より詳細には、本技術は、ニューラル・ネットワークを介して韻律を制御することに関する。

【発明の概要】

【0002】

本明細書に記載される実施形態によれば、システムは、言語シーケンスおよび韻律情報オフセットを受信するためのプロセッサを含んでもよい。プロセッサは、また、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成してもよい。複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。プロセッサは、また、訓練されたニューラル・ネットワークを介して、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成してもよい。

【0003】

本明細書に記載される別の実施形態によれば、方法は、言語シーケンスおよび韻律情報オフセットを受信するステップを含んでもよい。方法は、さらに、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成するステップを含んでもよい。複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。方法は、また、訓練されたニューラル・ネットワークを介して、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成するステップを含む。

【0004】

本明細書に記載の他の実施形態によれば、韻律を自動的に制御するためのコンピュータ・プログラム製品は、プログラムコードが具現化されたコンピュータ可読記憶媒体を含む。コンピュータ可読記憶媒体は、それ自体が一時的な信号自体ではない。プログラムコードは、プロセッサに、言語シーケンスおよび韻律情報オフセットを受信するようにプロセッサによって実行可能であってよい。プログラムコードは、また、プロセッサに、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成するようにすることができる。複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。プログラムコードは、また、プロセッサに、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成するようにすることができる。

【0005】

一側面によれば、言語シーケンスおよび韻律情報オフセットを受信することと、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、訓練されたニューラル・ネットワークを介して、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成することとを行うためのプロセッサを備えるシステムが提供される。

【0006】

別の態様によれば、言語シーケンスおよび韻律情報オフセットを受信するステップと、言語シーケンスに基づいておよび整列して、訓練された韻律情報予測器を介して、複数の観測を含む結合された韻律情報を生成するステップであって、複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成するステップと、訓練されたニューラル・ネットワークを介して、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成するステップとを含む、コンピュータ実装方法が提供される。

【0007】

別の側面によれば、韻律を自動的に制御するためのコンピュータ・プログラム製品であって、コンピュータ・プログラム製品は、プログラムコードが具現化されたコンピュータ可読記憶媒体を含み、コンピュータ可読記憶媒体は、それ自体が一時的な信号自体ではなく、プログラムコードは、プロセッサに、言語シーケンスおよび韻律情報オフセットを受信することと、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む結合された韻律情報を生成することであって、複数の観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む、生成することと、結合された韻律情報、韻律情報オフセットおよび言語シーケンスに基づいて、音響シーケンスを生成することとを行うようにプロセッサによって実行可能である、コンピュータ・プログラム製品が提供される。

【0008】

以下、本発明の実施形態について、単なる一例として、図面を参照しながら説明する。

【図面の簡単な説明】

【0009】

【図1】図１は、韻律情報を用いて韻律を自動的に制御するためのニューラル・ネットワークを訓練するための一例のシステムのブロック図である。

【図2】図２は、埋め込まれた韻律情報を生成するための一例のシステムのブロック図である。

【図3】図３は、韻律情報を用いて韻律を自動的に制御するためのニューラル・ネットワークを訓練することができる一例の方法のブロック図である。

【図4】図４は、自動的に制御された韻律で音響シーケンスを生成することができる一例の方法のブロック図である。

【図5】図５は、韻律情報を用いて韻律を自動的に制御することができる一例のコンピューティング・デバイスのブロック図である。

【図6】図６は、本明細書に記載の実施形態による一例のクラウド・コンピューティング環境の図である。

【図7】図７は、本明細書に記載の実施形態による一例の抽象化モデル層の図である。

【図8】図８は、韻律情報を用いて韻律を自動的に制御することができる、一例の有形非一時的コンピュータ可読媒体である。

【発明を実施するための形態】

【0010】

シーケンス・ツー・シーケンス（seq2seq）ニューラルＴＴＳシステムのようなテキス・ツー・スピーチ（ＴＴＳ）システムは、入力言語シーケンスを受信し、音声音響シーケンスを出力することができる。例えば、音声音響シーケンスは、フレーム単位の音声パラメータによってまたは音声波形によって表され得る。このようなシステムは、韻律（prosody）に多少の変化を伴って自然に近い音声品質を有する音声を生成することができる。韻律は、音素持続時間、イントネーションおよび音量を含むことができる。しかしながら、このようなシステムは、暗黙的に音声韻律を生成し、したがって、このようなシステムにおける韻律制御は、非常に限定的である可能性がある。例えば、ガイドが無い場合には、そのようなシステムは、ランダムな発話スタイルおよび韻律的特性で発話された出力を生成する可能性がある。

【0011】

また、多くの応用では、推論時に、発話スタイル、感情状態、発話速度、表現豊かさ（expressiveness）を含む韻律を制御する要求が存在する可能性がある。半教師有りアプローチは、韻律／発話スタイルのラベル付けを利用するが、これは、部分的にまたは完全に人主体で生成され得る。しかしながら、人間によるラベル付けは、高価であり、誤りが発生しやすく、時間がかかる。加えて、音声合成のための非常に少ないラベル付けされたリソースしか存在しない。規範ベースの韻律制御アプローチでは、適切な潜在空間表現を使用して、任意の話者による所与の発話例から音声の音響／韻律の実現が伝達され得る。しかしながら、これらのアプローチは、ほとんどの現実のＴＴＳアプリケーションでは実現不可能である。教師なしアプローチでは、音声音響潜在空間が自動的に訓練され得る。潜在的なパラメータは、推論時にそれらの独立した操作を可能にするように解放され（disentangled）得る。しかしながら、自動的に訓練された潜在的表現は、しばしば、解釈不可能でデータ依存性が高いことが多い。さらに、それらの制御性および合成された音声品質もまた整合しない可能性がある。

【0012】

本開示の実施形態によれば、システムは、言語シーケンスおよび韻律情報オフセットを受信するプロセッサを含んでもよい。プロセッサは、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、複数の観測を含む、結合された韻律情報を生成してもよい。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合であってもよい。プロセッサは、また、結合された韻律情報と、韻律情報オフセットと、言語シーケンスとに基づいて、訓練されたニューラル・ネットワークを介して、音響シーケンスを生成してもよい。これにより、本開示の実施形態は、システム内で韻律を明示的にモデル化し、連続スケール上で文単位の発話ペースおよび表現豊かさの制御を可能とする全自動の方法を提供する。本明細書に記載の技術は、また、合成された音声の全体的な品質および表現豊かさを改善する。

【0013】

図１を参照すると、ブロック図は、埋め込まれた韻律情報を用いて韻律を自動的に制御するためのニューラル・ネットワークを訓練するための例示的なシステムを示す。システム１００は、方法３００および４００を実装するために使用されてもよく、図５のコンピューティング・デバイス５００または図８のコンピュータ可読媒体８００を使用して実装してもよい。一例として、システム１００は、アテンションを有するニューラル・シーケンス・ツー・シーケンス・ネットワークであってもよい。図１のシステム１００は、言語エンコーダ１０２を含む。例えば、言語エンコーダ１０２は、線形埋め込み層、それに続く一次元畳み込み層および長短期記憶（ＬＳＴＭ）層を含んでもよい。本明細書で使用されるように、エンコーダの出力は、埋め込みベクトルのシーケンス、すなわち離散的な入力ベクトルの学習された連続ベクトル表現のシーケンスを含む。長短期記憶は、人口の再帰型ニューラル・ネットワーク・アーキテクチャである。ＬＳＴＭは、フィードバック接続を有し、データのシーケンスを処理することを意図している。システム１００は、言語エンコーダ１０２に通信可能に結合された韻律情報予測器１０４を含む。例えば、韻律情報予測器１０４は、スタックされ、線形全結合（ＦＣ）層が後続するＬＳＴＭ（１２８×３）に供給される埋め込み言語シーケンスを有ことができる。システム１００は、また、韻律情報予測器１０４に通信可能に結合された連結器１０６を含む。システム１００は、さらに、韻律情報予測器１０４に通信可能に結合された結合器１０８を含む。システム１００は、韻律情報予測器１０４および連結器１０６に通信可能に結合された韻律情報エンコーダ１１０を含む。例えば、韻律情報エンコーダ１１０は、ＦＣ層と後続する双曲線正接（Ｔａｎｈ）の非線形性とを含んでもよい。システム１００は、さらに、連結器１０６に通信可能に結合された音響デコーダ１１２を含む。例えば、音響デコーダ１１２は、自己回帰型メル・スペクトル予測器を含んでもよい。いくつかの例では、音響デコーダ１１２は、アテンション機構を有するスタックされた２つのＬＳＴＭ層を含んでもよい。種々の例では、音響デコーダ１１２の最終層は、８０次元メル・スペクトログラム・シーケンスおよび１次元のストップビットのシーケンスを出力する全結合（ＦＣ）層である。システム１００は、言語シーケンス１１４を受信し、音響シーケンス１１６を出力することが示されている。言語エンコーダ１０２は、埋め込み言語シーケンス１１８を生成することが示されている。韻律情報予測器１０４は、結合された韻律情報１１９を生成することが示されている。結合器１０８は、結合された韻律情報１１９と、韻律情報オフセット１２０のセットとを受信することが示されている。韻律情報エンコーダ１１０は、埋め込まれた韻律情報１２１を生成することが示されている。システム１００は、観測韻律情報生成器１２２を含み、これは、訓練ターゲット１２４を韻律情報予測器１０４および韻律情報エンコーダ１１０に送信することが示されている。システム１００は、また、観測スペクトル発生器１２６を含み、これは、訓練ターゲット１２８を音響デコーダ１１２に送信することが示されている。

【0014】

図１の例では、システム１００は、言語シーケンス１１４を受信し、音響シーケンス１１６を出力するように訓練されてもよい。特に、シーケンス・ツー・シーケンス（sec2seq）ニューラルＴＴＳシステムに入力される言語シーケンス１１４は、韻律情報で拡張されてもよい。韻律情報は、本明細書で使用されるように、解釈可能な時間的観測のセットを参照する。例えば、観測は、大域的もしくは局所的またはその両方並びに階層的に異なる時間スパンで評価されてもよい。各観測は、統計的尺度の線形結合または線形結合のセットであり、所定の時間にわたって韻律成分を評価する。人間の音声では、同じ言語情報が、多くのやり方で伝達される可能性がある。言語埋め込みのシーケンス１１８は、システムで使用される全ての言語情報をカプセル化し、一方、訓練中にレコーディングから抽出された訓練ターゲット１２４の形態における韻律情報観測は、その言語情報をどのように伝達するかについての追加のヒントを提供する。種々の例では、韻律情報に含まれる観測が、解放され（disentangled）、容易に解釈可能となる可能性がある。例えば、ペース、ピッチおよびラウドネスについての別個の成分を有する。いくつかの例では、任意の数の成分が観測のために使用される。例えば、声コーパスが均一なラウドネスを有し、ペースおよびピッチ制御が使用される２つの成分として残される場合、ラウドネス制御が省略されてもよい。

【0015】

種々の例において、言語シーケンス１１４は、入力音素を記述する、ワンホットまたは疎なバイナリベクトルによって表されるシンボルの表音シーケンスであってもよい。一例として、言語シーケンス１１４は、音素の個別のアルファベットに対応したインデックスの表音シーケンスであってもよい。種々の例において、音響シーケンス１１６は、音響パラメータのシーケンスであってもよい。例えば、音響シーケンス１１６は、フレーム幅のスペクトログラムまたは一定のフレームスペクトログラムを含んでもよい。種々の例において、スペクトログラムは、ヴォコーディング（vocoding）を使用して音声に変換可能であってもよい。一例として、音響シーケンス１１６は、任意の適切なヴォコーダ（vocoder）を用いて音声に変換されてもよい。ヴォコーダは、オーディオ・データ圧縮、多重化、声暗号化、声変換などのために人間の声信号を分析し、合成するために使用されるコーデックである。一例として、ヴォコーダは、ニューラル・ネットワーク・ヴォコーダであってもよい。

【0016】

さらに、図１を参照すると、訓練および推論段階において、言語エンコーダ１０２は、言語シーケンス１１４を受信し、言語埋め込みのシーケンス１１８を生成することができる。埋め込みは、ある表音コンテキストにおける音素のベクトル表現であってもよい。例えば、ベクトル表現は、１２８数の形態であってもよい。種々の例において、ベクトル表現の形態は、ニューラル・ネットワーク１００の統合訓練（Joint Training）中に学習可能である。言語埋め込みのシーケンス１１８は、連結器１０６および韻律情報予測器１０４の両方に送信されてもよい。

【0017】

訓練段階では、システム１００は、観測韻律情報生成器１２２および観測スペクトル発生器１２６から、それぞれ、訓練ターゲット１２４，１２８をそれぞれ受信することができる。例えば、観測された韻律情報ベクトルがシステムに供給されてもよい。種々の例において、韻律情報ベクトル・シーケンスは、入力発話の訓練セットについて自動的に計算される。発話は、レコーディングと、レコーディングに対する書き起こしの両方を含むことができる。いくつかの例では、書き起こしは、自動的に生成されてもよい。例えば、ピッチおよびエネルギー推定器を用いてピッチおよびエネルギー軌跡（trajectory）を計算し、自動音声アライメントを適用し、時間信号を音素、音節、単語および句のセグメントに分割することができる。ピッチ、持続時間およびエネルギー観測が、次いで、種々の時間スパンについて導出されてもよい。観測は、次いで、相互に整列され、結合されて、結合された韻律情報ベクトル・シーケンスを生成することができる。いくつかの例では、訓練の初期ステップでのアライメントの収束を容易にするために、訓練の最初の５エポックについて韻律情報がゼロに設定されてもよい。一例として、韻律情報は、約１５００ミニバッチステップについてゼロに設定されてもよい。

【0018】

種々の例では、訓練が完了した後、韻律情報予測器１０４は、平均二乗誤差（ＭＳＥ）損失を最小にすることによって、個別に訓練されてもよい。例えば、韻律情報予測器１０４は、言語埋め込みのシーケンス１１８の供給を受けて、言語埋め込みシーケンス１１８から離れて、結合された韻律情報を予測することができる。いくつかの例では、予測は、各層１２８セルを有する３層スタックＬＳＴＭおよび出力サイズ２を有する韻律情報ベクトルを生成する後続の線形層を用いてなされる。いくつかの例では、韻律情報予測器１０４は、マルチターゲット訓練を用いてサブネットワークとして、システム１００の残りと統合的に訓練することができる。例えば、訓練ターゲットの両方のセット１２４，１２８を使用して、韻律情報予測器１０４およびシステム１００を統合的に訓練してもよい。種々の例では、出力音響シーケンス損失に関連する損失に追加の損失を加えて、韻律情報予測器１０４を統合的に訓練することができる。いくつかの例では、韻律情報予測器１０４を別個に訓練してもよい。例えば、韻律情報予測器１０４は、言語シーケンス１１４からの結合された韻律情報を予測するために、シーケンス・ツー・シーケンス（seq2seq）音響ニューラル・ネットワークに対し別個に訓練されてもよい。いくつかの例では、韻律情報観測は、また、音響観測を含んでもよい。例えば、音響観測は、音声の息づかい、嗄声、発声努力などの発話スタイルと相関する可能性がある音声音響の他の非言語的要素の観測を含んでもよい。

【0019】

推論段階において、韻律情報予測器１０４は、言語埋め込みのシーケンス１１８を受信し、結合された韻律情報１１９を生成する。例えば、結合された韻律情報１１９は、複数の観測を含む。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。種々の例では、観測は、大域的または局所的におよび階層的に異なる時間スパンで評価されてもよい。例えば、大域的観測は、発話レベルであってもよい。階層的・局所的に評価された観測は、各段落、文、句、単語、音節または音素セグメントのレベルであってもよい。本明細書で使用するセグメントは、段落／文／語句／単語／音節／音素のこの階層的・時間的な構造内の時間スパンを参照する。観測は、次いで、互いに整列され、連結または総和により結合されて、結合された韻律情報を生成することができる。結合された韻律情報１１９は、次いで、韻律情報エンコーダ１１０を介して埋め込まれて、埋め込まれた韻律情報１２１を生成することができる。

【0020】

種々の例において、観測セットは、セグメント内の少なくとも対数ピッチ観測、セグメント内のサブセグメント対数持続時間観測、セグメント内の対数エネルギー観測またはそれらの任意の組み合わせを含んでもよい。例えば、対数ピッチ観測は、発話対数ピッチ軌跡の０．９５－分位点マイナス０．０５－分位点として評価される対数ピッチのスパンであってもよい。本明細書において使用されるように、サブセグメントは、その階層において他のセグメントと比較してより深いセグメントをいう。例えば、対数持続時間観測は、発話のペース測量としての平均音素持続時間（無音を除く）の対数であってもよい。いくつかの例では、サブセグメント対数持続時間観測は、句内の単語の持続時間を測定することができる。種々の例では、観測の各々は、統計的尺度の線形結合であってもよい。観測の各々は、平均、分位点のセット、スパン、標準偏差、分散またはそれらの任意の組み合わせのような、少なくともいくつかの形態の統計的尺度を含んでもよい。種々の例では、観測は、話者毎に正規化される。観測については、図２に関して、より詳細に説明される。

【0021】

このように、韻律情報予測器１０４は、入力言語シーケンスに対する種々の韻律パラメータを記述するために使用される観測のセットを生成する。これらの観測が正規化され、追跡可能であるので、推論時に１以上の韻律情報オフセット１２０が適用されて、最終的な音響シーケンス１１６の韻律を調整することができる。韻律情報は、範囲［－１，１］内の成分単位の（component-wise）オフセットを加算することによって意図的に変更されてもよい。例えば、発話、段落、文、句または単語は、対応するサブセグメントの対数持続時間観測を－１に向かって調整することによってより遅くされてもよく、または、１に向かって調整することによってより早くされてもよい。同様に、発話の全体、任意の段落、文、句または単語のピッチまたはラウドネスにおける変動は、対応する対数ピッチ観測または対数エネルギー観測を－１または１に向けて修正することによって、それぞれ、出力音響シーケンス１１６をより単調にまたは表現豊かにすることができる。

【0022】

種々の例では、結合された韻律情報ベクトルは、２次元の潜在空間に埋め込まれ、言語エンコーダ出力シーケンスにおいて各ベクトルと連結される。例えば、韻律情報ベクトルは、双曲線正接（Ｔａｎｈ）非線形性を有する単一の全結合非バイアス層によって埋め込まれてもよい。結果として、デコーダは、入力コンテキストベクトルを通して韻律情報に公開される。

【0023】

結合された韻律情報観測は、次いで、主となるシーケンス・ツー・シーケンス（seq2seq）音響ニューラル・ネットワークにさらに供給される。音響デコーダ１１２は、連結器１０６からの連結されたシーケンスを受信し、音響シーケンス１１６を生成するニューラル・ネットワークであってもよい。

【0024】

一例として、システム１００は、２次元の大域的（発話単位（utterance-wise））観測：対数ピッチスパンおよび２次元の単語レベル観測に連結された中央値音素対数持続時間：対数ピッチスパンおよび中央値対数持続時間を有していてもよい。全ての観測は、［－１，１］に正規化されてもよい。大域的な観測に起因して、システムのユーザは、大域的な音声ペースおよび表現豊かさを制御することができる。例えば、ユーザは、正の大域的持続時間変更因子（global duration modifier）を加えて音声をスローダウンまたは音声をよりはっきりと発音されたものとすることができる。さらに、ユーザは、正の大域的ピッチスパン変更因子（global pitch-span modifier）を加えて音声の表現豊かさを増大させることができる。結合された韻律情報において単語レベル観測を用いて、システム１００は、所望の単語強調を制御することができる。例えば、このような単語強調は、対話アプリケーションにおいて有用である可能性がある。いくつかの例では、ユーザは、所望のワードに対応する観測のサブシーケンスに、正の持続時間変更因子（duration modifier）および正のピッチスパン変更因子（pitch span modifier）を意図的に適用してもよい。いくつかの声コーパス上での提案された韻律情報制御を用いた実験では、一例のシステムは、成分単位の韻律情報推論時変更に応答し、成功裏に、ペース成分変更への応答として減速または高速化し、あるいはピッチ成分変更への応答として表現豊かさを増加または減少させた。

【0025】

図１のブロック図は、システム１００が図１に示された全ての構成要素を含むものであることを示すことを意図するものではないことを理解されたい。むしろ、システム１００は、より少ない、または図１にしめされていない追加の構成要素（例えば、追加のクライアント・デバイスまたは追加のリソース・サーバなど）を含んでもよい。

【0026】

図２を参照すると、ブロック図は、韻律情報をエンコードするための一例のシステムを示す。一例のシステム２００は、図３の方法を実装する際に使用してもよく、図５のコンピューティング・デバイス５００または図８のコンピュータ可読媒体８００を使用して実装してもよい。

【0027】

図２のシステム２００は、観測韻律情報生成器１２２に結合された韻律情報エンコーダ１１０を含む。システム２００は、入力発話２０２を受信し、埋め込まれた韻律情報２０４を出力することができる。例えば、入力発話２０２は、埋め込まれた韻律情報２０４を用いて図１のシステム１００を訓練するために使用される訓練データであってもよい。種々の例では、入力発話２０２は、記録された段落、文、単語などを含んでもよい。

【0028】

図２の例では、観測韻律情報生成器１２２は、入力発話を受信し、韻律観測のセットを生成する。図２に示すように、韻律観測は、可能な韻律観測の他のレベルの中でも、文韻律観測２０６、句韻律観測２０８および単語韻律観測２１０を含む種々のレベルの観測を含むことができる。種々の例では、韻律観測２０６，２０８，２１０の種類の各々は、セグメント内の対数ピッチ観測、セグメント内のサブセグメント対数持続時間観測およびセグメント内の対数エネルギー観測のうちの少なくともいくつかを含んでもよい。例えば、他の種類の韻律観測は、息づかい、雑音レベル、鼻音性、声質などであってもよい。例えば、息づかいは、有声化された音声部分における高調波対雑音比によって評価されてもよい。いくつかの例では、雑音レベルは、無音でのＳＮＲ推定によって評価されてもよい。種々の例では、鼻音性は、平均フォルマント解析を用いて評価されてもよい。いくつかの例において、声質は、有声化された音声部分について声門脈波モデリングおよび声門開閉間隔の解析を用いて評価されてもよい。例えば、使用される声門脈波モデルは、Ｌｉｌｊｅｎｃｒａｎｔｓ－Ｆａｎｔ声門脈波モデルであってもよい。概して、観測の各々は、統計的尺度の線形結合であってもよい。各観測は、平均、分位点のセット、標準偏差、分散またはそれらの任意の組み合わせのような統計的尺度を含んでもよい。例えば、分位点のセットは、［０．１，０．５，０．９］の形式であってもよい。上述したように、観測は、話者毎に適切に正規化されてもよい。例えば、観測の各々についての有効スパンを［－１，１］に正規化してもよい。有効スパンは、［中央値－３＊ｓｔｄ，中央値＋３＊ｓｔｄ］として計算することができ、ここでｓｔｄは、セットの標準偏差である。いくつかの例では、スパンは、０．９５－分位点マイナス０．０５－分位点のような分位点を用いて表現されてもよい。

【0029】

種々の例では、整列器および結合器２１２は、階層的観測２０６，２０８，２１０を整列し、結合することができる。例えば、整列器および結合器２１２は、階層的観測２０６，２０８，２１０を整列し、総和または連結によって結合し、結合された韻律情報を生成することができ、結合された韻律情報は、入力言語シーケンスと同期した観測ベクトルのシーケンスを含み得る。

【0030】

さらに図２を参照すると、埋込器２１４は、整列器および結合器２１２からの結合された韻律情報を埋め込み、埋め込まれた韻律情報２０４を生成することができる。例えば、埋め込まれた韻律情報２０４は、１発話につき単一の埋め込みベクトルまたは入力言語シーケンスに同期した埋め込みベクトルのシーケンスを含むことができる。種々の例において、埋め込まれた韻律情報２０４は、図１に説明されているように、音響デコーダを訓練するために使用されてもよい。

【0031】

図２のブロック図は、システム２００が図２に示される全ての構成要素を含むことを示すことを意図するものではないことを理解すべきである。むしろ、システム２００は、より少ない、または、図２に示されていない追加の構成要素（例えば、追加の入力、観測された韻律情報の種類、または追加の埋め込まれた韻律情報など）を含んでもよい。例えば、推論の間、観測韻律情報生成器１２２の代わりに、韻律情報予測器が、韻律情報エンコーダ１１０へまたは埋込器２１４へ供給されてもよい。

【0032】

図３は、埋め込まれた韻律情報を用いて韻律を自動的に制御するためにニューラル・ネットワークを訓練することができる例示的な方法のプロセスフロー図である。方法３００は、図５のコンピューティング・デバイス５００のような任意の適切なコンピューティング・デバイスを用いて実装することができ、例えば、図１および図２のシステム１００および２００を参照して説明される。例えば、方法３００は、図５のコンピューティング・デバイス５００の訓練モジュール５３６または図８のコンピュータ可読媒体８００の訓練モジュール８１８によって実装されてもよい。

【0033】

ブロック３０２においては、言語シーケンスおよび対応する音響シーケンスが受信される。例えば、言語シーケンスは、訓練のために使用される入力発話に対応してもよい。

【0034】

ブロック３０４においては、観測された結合された韻律情報が、言語シーケンスおよび対応する音響シーケンスに基づいて生成される。例えば、観測された結合された韻律情報は、訓練のために使用される入力発話から自動的に計算され、入力発話に対応する、種々の時間スパンについての観測された韻律情報のシーケンスであってもよい。観測された韻律情報は、時間的に整列され、例えば連結または総和を用いて結合され、観測された結合された韻律情報のシーケンスを取得することができる。種々の例において、観測された韻律情報は、セグメント内の対数ピッチ観測、セグメント内のサブセグメント対数持続時間観測、セグメント内の対数エネルギー観測またはこれらの任意の組み合わせなどの入力発話に関連付けられる統計的尺度を含む、観測の任意の組み合わせを含んでもよい。

【0035】

ブロック３０６においては、観測された結合された韻律情報は、言語シーケンスおよび音響シーケンスと共に、音響シーケンスを予測するためにニューラル・ネットワークを訓練するために使用される。例えば、ニューラル・ネットワークは、韻律情報エンコーダと、言語エンコーダと、音響デコーダとを含んでもよい。一例として、埋め込まれた韻律情報および埋め込まれた言語シーケンスが、音響デコーダに供給され、音響デコーダは、メル・スペクトログラム・シーケンスを出力する。例えば、ニューラル・ネットワークは、メル・スペクトルの平均二乗誤差（ＭＳＥ）損失を用いて訓練されてもよい。

【0036】

ブロック３０８においては、言語シーケンスを用いて、結合された韻律情報観測を予測するために韻律情報予測器が訓練される。いくつかの例では、韻律情報予測器は、階層的韻律情報観測を予測するように訓練されてもよく、階層的韻律情報観測は、さらに整列され、結合されて、結合された韻律情報を生成することができる。種々の例において、あるいは、韻律情報予測器は、結合された韻律情報観測を直接予測するように訓練されてもよい。種々の例では、韻律情報予測器は、デコーダとは別個にまたは統合的に訓練されてもよい。一例として、デコーダは、ブロック３０６において別個に訓練されてもよい。韻律情報予測器は、次いで、言語シーケンスおよび訓練ターゲットに基づいて訓練されてもよい。いくつかの例では、韻律情報予測器は、訓練された言語エンコーダからの埋め込み言語シーケンスに基づいて訓練されてもよい。

【0037】

一例として、韻律情報予測器は、シーケンス・ツー・シーケンスのメル・スペクトル特徴予測モジュールと組み合わされてもよい。例えば、メル・スペクトル特徴予測モジュールは、双方向ＬＳＴＭを使用して実装され得る末端再帰層（terminal recurrent layer）を有する畳み込みエンコーダを含み、２０１８年にリリースされたＴａｃｏｔｒｏｎ２アーキテクチャに基づくものであってもよい。メル・スペクトル特徴予測モジュールは、言語シーケンスを埋め込み言語シーケンスにエンコードし、埋め込み言語シーケンスを固定フレームのメル・スペクトル特徴ベクトルのシーケンスに拡張する自己回帰式注意デコーダとカスケード接続される。

【0038】

特に、Ｔａｃｏｔｒｏｎ２デコーダは、注意モジュールによって生成された入力コンテキストベクトルｘ_ｃの条件の下、プレネット処理（pre-net-processed）された以前のスペクトル・フレームｓ_ｐから一度に１つのスペクトル・フレームを予測する。デコーダは、２層スタックのＬＳＴＭネットワークを用いてその隠れ状態ベクトルｈ_ｃを生成する。入力コンテキストベクトルｘ_ｃと組み合わされた隠れ状態ベクトルｈ_ｃは、最終線形層に供給されて、現在のメル・スペクトルおよびシーケンス終端フラグを生成する。最後に、忠実度を向上させるために、全発話メル・スペクトログラムをリファインする畳み込みポスト・ネットがあってもよい。

【0039】

Ｔａｃｏｔｒｏｎ２モデルは、テキスト文字を直接消費することができる。しかしながら、いくつかの例では、システムは、訓練の簡単化のために、拡張された表音辞書からの記号のシーケンスの供給を受けてもよい。例えば、拡張された表音辞書は、音素識別子、語彙強勢および句の種類を含むことができ、別個の単語の切れ目と無音シンボルで富化される。語彙強勢は、一次、二次、無強勢を含む三段階（3-way）のパラメータであってもよい。句の種類は、肯定、疑問、感嘆および”他”の値を含む４段階（4-way）のパラメータであってもよい。いくつかの例では、この言語入力シーケンスは、２００６年にリリースされた素片選択型ＴＴＳのような、外部の書記素ツー音素（grapheme to phoneme）のルールベースのＴＴＳフロントエンド・モジュールによって生成されてもよい。

【0040】

いくつかの例では、現在のメル・スペクトルと以前のメル・スペクトルとの間の差分に適用される平均二乗誤差（ＭＳＥ）を最終的なシステムの損失に組み込むことによって、より良い合成音声品質を取得することができる。例えば、ポスト・ネット前の時刻ｔにおける予測されたメル・スペクトルｙ_ｔ、時刻ｔにおける最終的な予測メル・スペクトルｚ_ｔおよび時刻ｔにおけるメル・スペクトル・ターゲットｑ_ｔが与えられると、スペクトル損失は、下記式（１）を用いて計算することができる。

【数1】

【0041】

種々の例において、訓練手順は、予測が自己回帰的である推論手順とは対照的に、教師強制アプローチに従うことができる。例えば、現在のメル・スペクトルの予測は、現実の以前のメル・スペクトルに基づいて実行され、プレネットによって処理される。いくつかの例では、訓練中に二重供給が適用されてもよい。例えば、デコーダのプレネットは、真の以前のメル・スペクトルと予測されたものの両方を共に連結して供給を受けてもよい。推論時には、真のフレームが利用できない場合には、予測されたメル・スペクトルが単純に複製されてもよい。全体のネットワークサイズをわずか０．１％増加させる一方で、この変更により、２つの専門的に記録された米国英語音声コーパスの１３時間および２２時間でテストした場合、合計モデル回帰損失が約１５％減少される。

【0042】

図３のプロセスフロー図は、方法３００の動作が任意の特定の順序で実行されるべきことまたは全ての場合において方法３００の全ての動作が含まれるべきことを示すことを意図するものではない。加えて、方法３００は、任意の適切な数の追加動作を含んでもよい。

【0043】

図４は、自動的に制御された韻律を有するシーケンスを生成することができる一例の方法のプロセスフロー図である。方法４００は、図５のコンピューティング・デバイス５００のような任意の適切なコンピューティング・デバイスで実装することができ、図１および図２のシステム１００および２００を参照して説明される。例えば、方法４００は、図５のコンピューティング・デバイス５００および図８のコンピュータ可読媒体８００によって実装されてもよい。

【0044】

ブロック４０２においては、言語シーケンスおよび韻律情報オフセットが受信される。例えば、言語シーケンスは、テキストのシーケンスであってもよい。韻律情報オフセットは、合成音声の韻律的特性を意図的にシフトするために使用される外部の成分ごとの修正のセットであってもよい。例えば、韻律情報オフセットが、音声ペース、ピッチ変動、音量変動などを変化させるために用いられてもよい。

【0045】

ブロック４０４においては、訓練された韻律情報予測器を介して、言語シーケンスに基づいて、結合された韻律情報が生成される。例えば、結合された韻律情報は、複数の観測を含んでもよい。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。例えば、観測は、発話レベルで評価されてもよい。いくつかの例では、観測は、異なる時間スパンで局所的かつ階層的に評価される。種々の例において、観測は、さらに時間的に整列され、結合されて、結合された韻律情報観測を取得することができる。あるいは、結合された韻律情報は、言語シーケンスから直接予測されてもよい。いくつかの例では、韻律情報は、埋め込まれた言語シーケンスに基づいて生成されてもよい。いくつかの例では、埋め込まれた言語シーケンスは、連続埋め込み空間にマッピングされる、離散変数の埋め込みシーケンス、すなわち、離散的な言語シーケンスであってもよい。

【0046】

ブロック４０６においては、訓練されたニューラル・ネットワークを介して、結合された韻律情報と、韻律情報オフセットと、言語シーケンスとに基づいて、音響シーケンスが生成される。例えば、訓練されたニューラル・ネットワークは、韻律情報エンコーダと、言語エンコーダと、音響デコーダとを含んでもよい。いくつかの例では、結合された韻律情報成分は、韻律情報オフセットに基づいて修正される。例えば、韻律情報オフセットが、対応する観測に加算されてもよい。いくつかの例では、結合された韻律情報は、韻律情報埋込器を通過し、埋め込まれた韻律情報を生成する。例えば、韻律情報埋込器は、観測を整列し、結合し、埋込み、埋め込まれた韻律情報を生成することができる。埋め込まれた韻律情報は、次いで、言語シーケンスまたは埋め込み言語シーケンスと連結され、デコーダによって音響シーケンスを生成するために使用される。

【0047】

図４のプロセスフロー図は、方法４００の動作が任意の特定の順序で実行されるべきこと、または、全ての場合に方法４００の全ての動作が含まれるべきことを示すことを意図するものではない。加えて、方法４００は、任意の適切な数の追加動作を含んでもよい。例えば、方法４００は、音響シーケンスに基づいてオーディオを生成することを含んでもよい。

【0048】

いくつかのシナリオでは、本明細書で説明される技術は、クラウド・コンピューティング環境において実装されてもよい。以下、少なくとも図５～図８を参照しながら詳細を議論するように、埋め込まれた韻律情報を用いて韻律を自動的に制御するよう構成されたコンピューティング・デバイスは、クラウド・コンピューティング環境において実装されてもよい。この開示は、クラウド・コンピューティングについての説明を含み得るが、本明細書で詳述される教示の実装は、クラウド・コンピューティング環境に限定されないことに理解されたい。むしろ、本発明の実施形態は、現時点で知られた、またはこれから開発される他の任意のタイプのコンピューティング環境と併せて実装可能である。

【0049】

クラウド・コンピューティングは、最小の管理労力またはサービス・プロバイダとの対話で迅速にプロビジョニングおよびリリースされ得る、構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシンおよびサービス）の共有プールへの便利なオンデマンドのネットワーク・アクセスを可能とする、サービス配布のモデルである。このクラウド・モデルは、少なくとも５つの特性、少なくとも３つのサービス・モデルおよび少なくとも４つのデプロイメント・モデルを含む可能性がある。

【0050】

特性は、以下の通りである。
オンデマンド・セルフ・サービス：クラウド・コンシューマは、サービス・プロバイダとの人的な対話を必要とせずに自動的に必要なだけ、サーバ時間およびネットワーク・ストレージなどのコンピュータ能力を一方的にプロビジョニングすることができる。
広帯域ネットワーク・アクセス：能力は、ネットワーク越しに利用可能であり、異種シン・クライアントまたはシック・クライアント・プラットフォーム（例えば、モバイルフォン、ラップトップ、ＰＤＡ）による使用を促進する標準的なメカニズムを介して、アクセスされる。
リソース・プーリング：プロバイダのコンピューティング・リソースは、マルチ・テナント・モデルを用いて複数のコンシューマに提供するためにプールされ、種々の物理的および仮想的リソースが需要に従って動的に割り当てられ、また、再割り当てられる。コンシューマは、一般的に、提供されるリソースの正確な場所を管理したり、知識を有したりせず、しかし、より高度な抽象レベル（例えば国、州、またはデータセンタ）にて場所を指定することが可能であるという意味で、場所の独立感がある。
迅速な弾力性：能力は、迅速かつ柔軟に、いくつかの場合では自動的に、プロビジョニングされて素早くスケール・アウトすることができ、また、迅速にリリースされて素早くスケール・インすることができる。コンシューマにとって、プロビジョニング利用可能な能力は、しばしば外面的には無制限のように見え、任意の時間に任意の量を購入することができる。
測量されたサービス：クラウドシステムは、サービスのタイプにとって適切なある抽象レベル（例えば、ストレージ、処理、帯域幅、アクティブ・ユーザ数）での計量能力を利用することによって、自動的にリソース使用を制御し、また最適化する。リソース使用量は、監視され、制御されおよび報告されて、利用サービスのプロバイダおよびコンシューマの双方に対する透明性を提供する。

【0051】

サービス・モデルは、以下の通りである。
ソフトウェア・アズ・ア・サービス（ＳａａＳ）：コンシューマに提供される能力は、クラウド・インフラストラクチャ上で稼働するプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ（例えばウェブベースの電子メール）などのシン・クライアント・インタフェースを介して種々のクライアント・デバイスからアクセス可能である。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または、限定されたユーザ固有のアプリケーション構成設定の潜在的な例外を除いて個々のアプリケーション能力すらも含む下層のインフラストラクチャを管理または制御しない。
プラットフォーム・アズ・ア・サービス（ＰａａＳ）：コンシューマに提供される能力は、プロバイダによってサポートされるプログラミング言語およびツールを用いて作成された、コンシューマ作成または獲得のアプリケーションをクラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システムまたはストレージを含む下層のクラウド・インフラストラクチャを管理または制御しないが、デプロイされたアプリケーションおよび場合によってはアプリケーション・ホスティング環境の構成への制御を有する。
インフラストラクチャ・アズ・ア・サービス（ＩａａＳ）：コンシューマに提供される能力は、処理、ストレージ、ネットワーク、および、コンシューマが、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアをデプロイし、稼働させることができる他の基本的なコンピューティング・リソースを提供することである。コンシューマは、下層のクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、および、場合によっては、選択したネットワーキング・コンポーネント（例えば、ホストファイアウォール）の限定された制御を有する。

【0052】

デプロイメント・モデルは、以下の通りである。
プライベート・クラウド：クラウド・インフラストラクチャは、１つの組織のためだけに使用される。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
コミュニティ・クラウド：クラウド・インフラストラクチャは、いくつかの組織により共有され、共通の懸念（例えば、ミッション、セキュリティ要件、ポリシーおよびコンプライアンスに関する考慮事項）を有する特定のコミュニティをサポートする。これは、組織または第三者によって管理されてもよく、オンプレミスまたはオフプレミスが存在し得る。
パブリック・クラウド：クラウド・インフラストラクチャは、一般公衆、または、大きな業界団体が利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド：クラウド・インフラストラクチャは、２以上のクラウド（プライベート、コミュニティまたはパブリック）の混成であり、これらのクラウドは、固有のエンティティのままであるが、しかし、データおよびアプリケーションのポータビリティを可能とする標準化されたまたは独自の技術（例えばクラウド間の負荷分散のためのクラウド・バースティング）によって結合される。

【0053】

クラウド・コンピューティング環境は、ステートレス性、低結合、モジュール性および意味論的な相互運用性に重点を置いたサービス指向である。クラウド・コンピューティングの核心は、相互接続された複数のノードのネットワークを含むインフラストラクチャである。

【0054】

図５は、埋め込まれた韻律情報を用いて韻律を自動的に制御することができる一例のコンピューティング・デバイスのブロック図である。コンピューティング・デバイス５００は、例えば、サーバ、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・コンピュータまたはスマートフォンであってもよい。いくつかの例では、コンピューティング・デバイス５００は、クラウド・コンピューティング・ノードであってもよい。コンピューティング・デバイス５００は、コンピュータ・システムによって実行されるプログラム・モジュールのようなコンピュータ・システム実行可能命令の一般的な文脈において説明され得る。一般に、プログラム・モジュールは、特定のタスクを実行するかまたは特定の抽象データタイプを実装する、ルーチン、プログラム、オブジェクト、コンポーネント、ロジック、データ構造などを含む。コンピューティング・デバイス５００は、通信ネットワークを介してリンクされた遠隔処理装置によってタスクが実行される分散型クラウド・コンピューティング環境で実施してもよい。分散型クラウド・コンピューティング環境では、プログラム・モジュールは、メモリ・ストレージ・デバイスを含むローカルおよび遠隔のコンピュータ・システム・ストレージ媒体の両方に配置されてもよい。

【0055】

コンピューティング・デバイス５００は、格納された命令を実行するためのプロセッサ５０２と、動作中に前記命令の動作のための一時的メモリ空間を提供するためのメモリデバイス５０４とを含んでもよい。プロセッサは、シングルコアプロセッサ、マルチコアプロセッサ、コンピューティング・クラスタ、または任意の数の他の構成とすることができる。メモリ５０４は、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ、フラッシュメモリまたは他の適切なメモリシステムを含んでもよい。

【0056】

プロセッサ５０２は、コンピューティング・デバイス５００を１以上のＩ／Ｏデバイス５１０に接続するように適合された入出力（Ｉ／Ｏ）デバイス・インターフェース５０８にシステム相互接続５０６（例えば、ＰＣＩ（登録商標）、ＰＣＩ－Ｅｘｐｒｅｓｓ（登録商標）など）を介して接続されてもよい。Ｉ／Ｏデバイス５１０は、例えば、キーボードおよびポインティング・デバイスを含むことができ、ポインティング・デバイスは、これらの中でも、タッチパッドまたはタッチスクリーンを含んでもよい。Ｉ／Ｏデバイス５１０は、コンピューティング・デバイス５００の内蔵のコンポーネントであってもよいし、コンピューティング・デバイス５００に外部接続されたデバイスであってもよい。

【0057】

プロセッサ５０２は、また、コンピューティング・デバイス５００をディスプレイ・デバイス５１４に接続するように適合されたディスプレイ・インターフェース５１２にシステム相互接続５０６を介してリンクされてもよい。ディスプレイ・デバイス５１４は、コンピューティング・デバイスの内蔵コンポーネントである表示スクリーンを備える。ディスプレイ・デバイス５１４は、コンピューティング・デバイスに外部接続されたコンピュータ・モニタ、テレビジョンまたはプロジェクタを含んでいてもよい。加えて、ネットワーク・インターフェース・コントローラ（ＮＩＣ）５１６は、システム相互接続５０６を介してコンピューティング・デバイス５００をネットワーク５１８に接続するように適合されてもよい。いくつかの実施形態では、ＮＩＣ５１６は、中でもインターネット・スモール・コンピュータ・システム・インターフェースのような任意の適切なインターフェースまたはプロトコルを使用してデータを送信することができる。ネットワーク５１８は、セルラー・ネットワーク、無線ネットワーク、ワイド・エリア・ネットワーク（ＷＡＮ）、ローカル・エリア・ネットワーク（ＬＡＮ）、またはインターネットであってもよい。外部コンピューティング・デバイス５２０は、ネットワーク５１８を介してコンピューティング・デバイス５００に接続してもよい。いくつかの例では、外部コンピューティング・デバイス５２０は、外部ウェブ・サーバ５２０であってもよい。いくつかの例では、外部コンピューティング・デバイス５２０は、クラウド・コンピューティング・ノードであってもよい。

【0058】

プロセッサ５０２は、また、ハードドライブ、光学ドライブ、ＵＳＢフラッシュドライブ、ドライブのアレイ、またはそれらの任意の組み合わせを含んでよいストレージ・デバイス５２２にシステム相互接続５０６を介してリンクされてもよい。いくつかの例では、ストレージ・デバイスは、受信モジュール５２４と、言語エンコーダモジュール５２６と、予測モジュール５２８と、韻律エンコーダモジュール５３０と、連結モジュール５３２と、音響デコーダモジュール５３４と、訓練モジュール５３６とを含んでもよい。受信モジュール５２４は、言語シーケンスおよび韻律情報オフセットを受信することができる。例えば、言語シーケンスは、テキストのシーケンスであってもよい。言語エンコーダモジュール５２６は、受信された言語シーケンスに基づいて埋め込み言語シーケンスを生成することができる。予測モジュール５２８は、言語シーケンスまたは埋め込み言語シーケンスに基づいて、種々の時間にわたる複数の観測を含む、結合された韻律情報を生成することができる。観測は、言語シーケンスと整列され、総和または連結によって結合されてもよい。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。例えば、観測は、ペース成分、ピッチ成分、ラウドネス成分またはそれらの任意の組み合わせを評価する統計的尺度の線形結合または線形結合のセットであってもよい。いくつかの例では、観測は、文韻律観測、句韻律観測および単語韻律観測またはそれらの任意の組み合わせを含でもよい。韻律エンコーダモジュール５３０は、韻律情報オフセットに基づいて観測を修正し、特定の所定のやり方で音響シーケンスの韻律を調整してもよい。韻律エンコーダモジュール５３０は、また、観測を埋め込み、埋め込まれた韻律情報を生成してもよい。連結モジュール５３２は、埋め込まれた韻律情報を、埋め込み言語シーケンスと連結してもよい。音響デコーダモジュール５３４は、結合された韻律情報と、韻律情報オフセットと、言語シーケンスとに基づいて、音響シーケンスを生成してもよい。例えば、デコーダモジュール５３４は、結合された韻律情報観測および韻律情報オフセットに基づいて、音響シーケンスを生成することができる。訓練モジュール５３６は、ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、韻律情報予測器を訓練してもよい。例えば、訓練モジュール５３６は、訓練中、レコーディングから抽出された、観測されたスペクトルに基づいて、言語エンコーダモジュール５２６および音響デコーダモジュール５３４を訓練してもよい。いくつかの例では、訓練モジュール５３６は、観測された韻律情報を用いて訓練されたシステムによって生成された埋め込み言語シーケンスに基づいて、韻律情報予測器を訓練してもよい。

【0059】

図５のブロック図は、コンピューティング・デバイス５００が、図５に示された全ての構成要素を含むものであることを示すことを意図するものではない。むしろ、コンピューティング・デバイス５００は、より少ない、または、図５に示されていない追加の構成要素（例えば、追加のメモリ・コンポーネント、組み込みコントローラ、モジュール、追加のネットワーク・インタフェースなど）を含んでもよいことを理解すべきである。さらに、受信器５２４、言語エンコーダモジュール５２６、予測モジュール５２８、韻律エンコーダモジュール５３０、連結モジュール５３２、音響デコーダモジュール５３４および訓練モジュール５３６の任意の機能は、部分的または完全に、ハードウェアもしくはプロセッサ５０２またはその両方内で実装されてもよい。例えば、機能は、特定用途向け集積回路、組み込みコントローラで実現されるロジック、またはプロセッサ５０２内で実現されるロジックによって実現されてもよい。いくつかの実施形態では、受信モジュール５２４、言語エンコーダモジュール５２６および予測モジュール５２８、韻律エンコーダモジュール５３０、連結モジュール５３２、音響デコーダモジュール５３４および訓練モジュール５３６の機能は、ロジックで実装することができ、ロジックは、本明細書で参照されるように、任意の適切なハードウェア（例えば、プロセッサなど）、ソフトウェア（例えば、アプリケーションなど）、ファームウェア、または、ハードウェア、ソフトウェアおよびファームウェアの任意の適切な組み合わせを含んでもよい。

【0060】

ここで、図６を参照すると、例示的なクラウド・コンピューティング環境６００が示されている。図示するように、クラウド・コンピューティング環境６００は、１以上のクラウド・コンピューティング・ノード６０２を含み、これと、例えば、ＰＤＡまたは携帯電話６０２Ａ、デスクトップ・コンピュータ６０２Ｂ、ラップトップ・コンピュータ６０２Ｃもしくは自動車コンピュータ・システム６０２Ｎまたはその組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信してもよい。ノード６０２は、互いに通信してもよい。これらは、プライベート、コミュニティ、パブリックもしくはハイブリッド・クラウドなど上述したような、またはその組み合わせなどの１以上のネットワークにおいて、物理的にまたは仮想的にグループ化（図示しない）されてもよい。これは、クラウド・コンピューティング環境６００が、インフラストラクチャ、プラットフォームもしくはソフトウェアまたはその組み合わせをサービスとして提供することを可能とし、これらについては、クラウド・コンシューマは、リソースをローカル・コンピューティング・デバイス上で維持する必要がない。図６に示されるコンピューティング・デバイス６０２Ａ～６０２Ｎのタイプは、説明する目的のみであり、コンピューティング・ノード６０２およびクラウド・コンピューティング環境６００が、任意のタイプのネットワーク、ネットワークアドレス可能な接続（例えば、ウェブ・ブラウザを使用して）またはこれらの両方を介して、任意のタイプのコンピュータ化されたデバイスと通信することができることが理解される。

【0061】

ここで、図７を参照すると、クラウド。コンピューティング環境６００（図６）によって提供される機能抽象層のセットが示される。図７に示すコンポーネント、層および機能が、説明する目的のみであり、本発明の実施形態は、これらに限定されないことを事前に理解されるである。示すように、以下の層および対応する機能が提供される。

【0062】

ハードウェアおよびソフトウェア・レイヤ７００は、ハードウェアおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例には、メインフレーム、一例ではＩＢＭ（登録商標）ｚＳｅｒｉｅｓ（登録商標）Ｓｙｓｔｅｍｓ、ＲＩＳＣ（縮約命令セットコンピュータ）アーキテクチャに基づくサーバ、一例においてはＩＢＭ（登録商標）ｐＳｅｒｉｅｓ（登録商標）Ｓｙｓｔｅｍｓ，ＩＢＭ（登録商標）ｘＳｅｒｉｅｓ（登録商標）Ｓｙｓｔｅｍｓ，ＩＢＭ（登録商標）ＢｌａｄｅＣｅｎｔｅｒ（登録商標）Ｓｙｓｔｅｍｓ、ストレージ・デバイス、ネットワークおよびネットワーキング・コンポーネントを含む。ソフトウェア・コンポーネントの例は、一例では、ＩＢＭ（登録商標）ＷｅｂＳｐｈｅｒｅ（登録商標）アプリケーション・サーバ・ソフトウェアおよびデータベース・ソフトウェア、一例では、ＩＢＭ（登録商標）ＤＢ２（登録商標）データベース・ソフトウェアを含み得る（ＩＢＭ，ｚＳｅｒｉｅｓ，ｐＳｅｒｉｅｓ，ｘＳｅｒｉｅｓ，ＢｌａｄｅＣｅｎｔｅｒ，ＷｅｂＳｐｈｅｒｅおよびＤＢ２は、世界中の多くの管轄地域で登録されたインターナショナル・ビジネス・マシーンズ・コーポレーションの商標である。）

【0063】

仮想化レイヤ７０２は、抽象化レイヤを提供し、そこから仮想化サーバ、仮想化ストレージ、バーチャル・プライベート・ネットワークを含む仮想化ネットワーク、仮想化アプリケーションおよびオペレーティング・システムおよび仮想クライアントなどの仮想化エンティティの例が提供される。一例においては、管理レイヤ７０４は、以下に説明する機能を提供してもよい。リソース・プロビショニングは、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的な調達を提供する。メータリングおよびプライシングは、リソースがクラウド・コンピューティング環境内で利用されるコストの追跡およびこれらのソースの消費に対する請求またはインボイスの送付を提供する。一例においては、これらのリソースは、アプリケーション・ソフトウェアのライセンスを含んでもよい。セキュリティは、クラウド・コンシューマおよびタスクについての本人確認、並びに、データおよび他のリソースに対する保護を提供する。ユーザポータルは、コンシューマおよびシステム管理者に対しクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル・マネジメントは、要求されるサービス・レベルを満たすようにクラウド・コンピューティング・リソースの割り当ておよび管理を提供する。サービス・レベル合意（ＳＬＡ）の計画と履行は、ＳＬＡに従って、将来の要求が予期されるクラウド・コンピューティグ・リソースの事前配置および調達を提供する。

【0064】

ワークロード・レイヤ７０６は、クラウド・コンピューティング環境が利用される機能性の例を提供する。ワークロードおよびこのレイヤから提供される機能の例には、マッピングおよびナビゲーション、ソフトウェア開発およびライフサイクル管理、仮想クラスルーム教育配信、データ・アナリティクス処理、トランザクション処理、自動韻律制御が含まれる。

【0065】

本技術は、システム、方法またはコンピュータ・プログラム製品であってよい。コンピュータ・プログラム製品は、プロセッサに本発明の側面を実行させるためのコンピュータ可読プログラム命令をその上に有するコンピュータ可読ストレージ媒体を含んでもよい。

【0066】

コンピュータ可読ストレージ媒体は、命令実行デバイスによって使用するための命令を保持し格納する有形のデバイスであってよい。コンピュータ可読ストレージ媒体は、例えば、これに限定されるものではないが、電子的ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイスまたは上記の任意の適切な組み合わせであってよい。コンピュータ可読ストレージ媒体のより具体的な例示の非網羅的リストとしては、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ（ＲＡＭ）、リード・オンリー・メモリ（ＲＯＭ）、消去可能プログラマブル・リード・オンリー・メモリ（ＥＰＲＯＭまたはフラッシュメモリ）、スタティック・ランダム・アクセス・メモリ（ＳＲＡＭ）、ポータブル・コンパクト・ディスク・リード・オンリー・メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリースティック、フロッピーディスク（登録商標）、パンチカードまたは記録された命令を有する溝内の隆起構造のような機械的エンコードされたデバイス、および上記の任意の適切な組み合わせが含まれる。コンピュータ可読ストレージ媒体は、本明細書で使用されるように、電波、自由伝搬する電磁波、導波路または他の伝送媒体を伝搬する電磁波（たとえば、ファイバ光ケーブルを通過する光パルス）または、ワイヤを通して伝送される電気信号のような、それ自体が一時的な信号として解釈されるものではない。

【0067】

本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピュータ／処理デバイスに、または、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワークもしくは無線ネットワークまたはその組み合わせといったネットワークを介して外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジサーバまたはその組み合わせを含んでもよい。各コンピュータ／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インタフェースは、ネットワークからコンピュータ可読プログラム命令を受信し、コンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読ストレージ媒体に格納するために転送する。

【0068】

本技術の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ（ＩＳＡ）命令、機械語命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、または、１以上のプログラミング言語の任意の組み合わせで書かれたコードあるいはオブジェクト・コードであってよく、１以上のプログラミング言語は、Ｓｍａｌｌｔａｌｋ（登録商標）、Ｃ＋＋またはこれらに類するもなどのオブジェクト指向言語、Ｃプログラミング言語または類似のプログラミング言語などの従来型の手続型言語を含む。コンピュータ可読プログラム命令は、スタンド・アローンのソフトウェア・パッケージとして、全体としてユーザのコンピュータ上で、部分的にユーザのコンピュータ上で、部分的にユーザのコンピュータ上かつ部分的に遠隔のコンピュータ上で、または、完全に遠隔のコンピュータまたはサーバ上で実行されてもよい。後者のシナリオでは、遠隔のコンピュータは、ユーザのコンピュータに、ローカル・エリア・ネットワーク（ＬＡＮ）またはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意のタイプのネットワークを通じて接続されてもよく、あるいは接続は、（例えば、インターネット・サービス・プロバイダを用いてインターネットを通じて）外部コンピュータになされてもよい。いくつかの実施形態においては、電気的回路は、本技術の側面を実行するために、コンピュータ可読プログラム命令の状態情報を利用して、電気的回路を個別化することによって、コンピュータ可読プログラム命令を実行してもよく、この電気的回路は、例えば、プログラマブル・ロジック回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む。

【0069】

本技術の側面は、本明細書において、本技術の実施形態に従った方法、装置（システム）およびコンピュータ・プログラム製品のフローチャート図もしくはブロック図またはその両方を参照しながら、説明される。フローチャート図もしくはブロック図またはその両方の各ブロック、および、フローチャート図もしくはブロック図またはその両方における複数のブロックの組み合わせは、コンピュータ可読プログラム命令によって実装されてもよいことが理解されよう。

【0070】

これらのコンピュータ可読プログラム命令は、汎用コンピュータ、特定目的コンピュータのプロセッサまたは他のプログラマブル・データ処理装置に提供され、コンピュータのプロセッサまたは他のプログラマブル・データ処理装置を介して実行される命令が、フローチャート図もしくはブロックまたはその両方のブロックまたは複数のブロックにおいて特定される機能／作用を実装するための手段を作成するように、マシンを生成する。これらのコンピュータ可読プログラム命令は、また、コンピュータ、プログラマブル・データ処理装置もしくは他のデバイスまたはその組み合わせに特定のやり方で機能するよう指示できるコンピュータ可読ストレージ媒体に格納され、それに格納された命令を有するコンピュータ可読ストレージ媒体に、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能／作用の側面を実装する命令を含む製品が含まれるようにする。

【0071】

コンピュータ可読プログラム命令は、また、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で一連の動作ステップを実行させて、コンピュータ、他のプログラマブル・データ処理装置または他のデバイス上で実行される命令が、フローチャートもしくはブロックまたはその両方のブロックまたは複数のブロックで特定される機能／作用の側面を実装するように、コンピュータ実装処理を生成することもできる。

【0072】

図８を参照すると、埋め込まれた韻律情報を用いて韻律を自動的に制御することができる一例の有形の非一時的なコンピュータ可読媒体８００のブロック図が示されている。有形の非一時的なコンピュータ可読媒体８００は、プロセッサ８０２によってコンピュータ相互接続８０４を介してアクセスされてもよい。さらに、有形の非一時的なコンピュータ可読媒体８００は、プロセッサ８０２に、図３および図４の方法３００および４００の動作を実行させるように指示するコードを含んでもよい。

【0073】

本明細書で説明する種々のソフトウェア・コンポーネントは、例えば、図８に示すように、有形の非一時的なコンピュータ可読媒体８００に格納されてもよい。例えば、受信モジュール８０６は、言語シーケンスおよび韻律情報オフセットを受信するためのコードを含む。言語エンコーダモジュール８０８は、言語シーケンスに基づいて埋め込み言語シーケンスを生成するためのコードを含む。予測モジュール８１０は、また、言語シーケンスに基づいて、種々の時間にわたる観測を含む結合された韻律情報を生成するためのコードを含む。観測は、言語シーケンスと整列され、総和または連結によって結合されてもよい。観測は、所定の期間にわたって韻律成分を評価する統計的尺度の線形結合を含む。韻律エンコーダモジュール８１２は、観測をエンコードし、埋め込まれた韻律情報を生成するためのコードを含む。いくつかの例では、韻律エンコーダモジュール８１２は、韻律情報オフセットに基づいて観測を修正するためのコードを含む。例えば、韻律エンコーダモジュール８１２は、対応する観測に韻律情報オフセットを加算するためのコードを含む。連結モジュール８１４は、埋め込まれた韻律情報を埋め込み言語シーケンスと連結するためのコードを含む。音響デコーダモジュール５３４は、埋め込まれた韻律情報と、韻律情報オフセットと、言語シーケンスまたは埋め込み言語シーケンスとに基づいて、音響シーケンスを生成するためのコードを含む。訓練モジュール８１８は、ラベル無し訓練データから抽出された、観測された韻律情報に基づいて、韻律情報予測器を訓練するコードを含む。特定の用途に応じて、図８に示されない任意の数の追加のソフトウェア・コンポーネントが、有形の非一時的なコンピュータ可読媒体８００内に含まれてもよいことを理解されたい。

【0074】

図面におけるフローチャートおよびブロック図は、本開示の種々の実施形態に従ったシステム、方法およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能および動作を示す。この点に関して、フローチャートまたはブロック図の各ブロックは、特定の論理機能を実装するための１以上の実行可能な命令を含む、モジュール、セグメントまたは命令の部分を表す可能性がある。いくつかの代替の実装では、ブロックにおいて言及された機能は、図面に示された順序から外れて生じる可能性がある。例えば、連続して示される２つのブロックは、実際には、実質的に同時に実行されてもよく、あるいは、複数のブロックは、関与する機能性に応じて逆の順序で実行されてもよい。ブロック図もしくはフローチャート図またはその両方の各ブロックおよびブロック図もしくはフローチャート図またはその両方の複数のブロックの組み合わせが、特定の機能または作用を実行し、または、特別な目的のハードウェアおよびコンピュータ命令の組み合わせを実施する、特定目的ハードウェアベースのシステムによって実装されてもよいことに留意されたい。特定の用途に応じて、図８に示されない任意の数の追加のソフトウェア・コンポーネントが、有形の非一時的なコンピュータ可読媒体８００内に含まれてもよいことを理解されたい。例えば、コンピュータ可読媒体８００は、また、音響シーケンスに基づいてオーディオを生成するコードを含んでもよい。

【0075】

本技術の種々の実施形態の説明が、説明のために提示されたが、しかしながら、網羅的であること、または、開示される実施形態に限定されることを意図するものではない。説明される実施形態の範囲および精神を逸脱することなく、多くの変更および変形が当業者にとって明らかであろう。本明細書で使用される用語は、実施形態の原理、実際の応用または市場で発見される技術に対する技術的改善を最もよく説明するために、あるいは、他の当業者が、本明細書で開示される実施形態を理解できるように選ばれたものである。

【図1】