特許7367223 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グーグル　インコーポレイテッドの特許一覧

特許7367223生成モデル推論における動的テンパリング処理サンプリング

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-13

(45)【発行日】2023-10-23

(54)【発明の名称】生成モデル推論における動的テンパリング処理サンプリング

(51)【国際特許分類】

G10L 19/005 20130101AFI20231016BHJP

【ＦＩ】

G10L19/005

【請求項の数】 20

(21)【出願番号】P 2022537704

(86)(22)【出願日】2020-12-17

(65)【公表番号】

(43)【公表日】2023-03-13

(86)【国際出願番号】 US2020065638

(87)【国際公開番号】W WO2021127197

(87)【国際公開日】2021-06-24

【審査請求日】2022-08-09

(31)【優先権主張番号】16/718,333

(32)【優先日】2019-12-18

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】502208397

【氏名又は名称】グーグルエルエルシー

【氏名又は名称原語表記】ＧｏｏｇｌｅＬＬＣ

【住所又は居所原語表記】１６００ＡｍｐｈｉｔｈｅａｔｒｅＰａｒｋｗａｙ９４０４３ＭｏｕｎｔａｉｎＶｉｅｗ，ＣＡＵ．Ｓ．Ａ．

(74)【代理人】

【識別番号】100142907

【弁理士】

【氏名又は名称】本田淳

(72)【発明者】

【氏名】ゴンザレス、パブロバレラ

【審査官】堀洋介

(56)【参考文献】

【文献】国際公開第２０１９／２１３０２１（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１９／００５１３１０（ＵＳ，Ａ１）

【文献】特開２００３－２２３１９３（ＪＰ，Ａ）

【文献】Reza Lotfidereshgi, et al.，Speech Prediction Using an Adaptive Recurrent Neural Network with Application to Packet Loss Concealment，2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)，IEEE，2018年08月15日，pp. 5394-5398

【文献】Jean-Marc Valin, et al.，LPCNET: Improving Neural Speech Synthesis through Linear Prediction，2019 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP)，IEEE，2019年05月12日，pp. 5891-5895

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１０Ｌ１９／００５

Ｇ１０Ｌ２５／３０

Ｇ１０Ｌ１３／００

(57)【特許請求の範囲】

【請求項1】

複数の出力オーディオサンプル（２２）をサンプリングするための方法（８００）であって、
アクティブな音声通信セッションでのパケット損失隠蔽イベントにおいて、
データ処理ハードウェア（１４４）が、開始時刻と、前記パケット損失隠蔽イベントが開始したときに発生する終了時刻とを有する時間ウィンドウの間の前の出力オーディオサンプル（２２）のシーケンスを取得すること、
前記パケット損失隠蔽イベント中の複数の時間ステップ（３２２）の各時間ステップにおいて、
前記データ処理ハードウェア（１４４）が、音声合成モデル（１６０）を用いて、対応する時間ステップについての可能性のある複数の出力オーディオサンプル（２２）に対する確率分布（１６４，３４２）を生成することであって、前記確率分布（１６４，３４２）における可能性のある各出力オーディオサンプル（２２）は、対応する可能性のある出力オーディオサンプル（２２）が対応する時間ステップにおける発話の一部を表す尤度を示すそれぞれの確率を有する、前記確率分布（１６４，３４２）を生成すること、
前記データ処理ハードウェア（１４４）が、前記対応する時間ステップに先行する前記複数の時間ステップ（３２２）の時間ステップ（３２２）の数の関数、初期温度サンプリング値（３２４）、最小温度サンプリング値（３２６）、および最大温度サンプリング値（３２８）に基づいて温度サンプリング値（３３２）を決定すること、
前記データ処理ハードウェア（１４４）が、前記温度サンプリング値（３３２）を前記確率分布（１６４，３４２）に適用して前記確率分布（１６４，３４２）から可能性のある複数の出力オーディオサンプル（２２）を選択する確率を調整すること、
前記データ処理ハードウェア（１４４）が、前記可能性のある複数の出力オーディオサンプル（２２）の各々に関連付けられた調整された確率に基づいて、前記確率分布（１６４，３４２）の前記可能性のある複数の出力オーディオサンプル（２２）のうちの１つをランダムに選択すること、
前記データ処理ハードウェア（１４４）が、前記ランダムに選択された出力オーディオサンプル（２２）を用いて合成された音声（１７２）を生成すること、を備える方法（８００）。

【請求項2】

前記関数は、線形関数である、請求項１に記載の方法（８００）。

【請求項3】

前記最大温度サンプリング値（３２８）は、０．８５である、請求項２に記載の方法（８００）。

【請求項4】

前記最小温度サンプリング値（３２６）は、０．２５である、請求項１～３のいずれか一項に記載の方法（８００）。

【請求項5】

前記初期温度サンプリング値（３２４）は、前記最小温度サンプリング値（３２６）と同じである、請求項１～４のいずれか一項に記載の方法（８００）。

【請求項6】

前記温度サンプリング値を決定することは、
前記パケット損失隠蔽イベント中に、前記対応する時間ステップに先行する前記複数の時間ステップ（３２２）の時間ステップ（３２２）の数を決定すること、
前記時間ステップ（３２２）の数が閾値を満たした場合、前記温度サンプリング値を設定量だけ上げること、を含む、請求項１～５のいずれか一項に記載の方法（８００）。

【請求項7】

前記閾値は、１０個の時間ステップの倍数を含む、請求項６に記載の方法（８００）。

【請求項8】

前記設定量は、０．１である、請求項６または７に記載の方法（８００）。

【請求項9】

前記温度サンプリング値（３３２）を決定することは、
前記パケット損失隠蔽イベント中に、前記対応する時間ステップに先行する前記複数の時間ステップ（３２２）の前記時間ステップ（３２２）の数に基づいて前記温度サンプリング値（３３２）を上げることを含む、請求項１～８のいずれか一項に記載の方法（８００）。

【請求項10】

前記温度サンプリング値（３３２）を決定することは、
前記温度サンプリング値（３３２）が前記最大温度サンプリング値（３２８）に等しくなると、前記温度サンプリング値（３３２）を前記最大温度サンプリング値（３２８）に維持することをさらに含む、請求項１～９のいずれか一項に記載の方法（８００）。

【請求項11】

システム（１００）であって、
データ処理ハードウェア（１４４）と、
前記データ処理ハードウェア（１４４）と通信するメモリハードウェア（１４６）であって、前記データ処理ハードウェア（１４４）上で実行されたとき、前記データ処理ハードウェア（１４４）に複数の動作を実行させる複数の命令を記憶する前記メモリハードウェア（１４６）と、を備え、前記複数の動作は、
アクティブな音声通信セッションでのパケット損失隠蔽イベントにおいて、
開始時刻と、前記パケット損失隠蔽イベントが開始したときに発生する終了時刻とを有する時間ウィンドウの間の前の出力オーディオサンプル（２２）のシーケンスを取得すること、
前記パケット損失隠蔽イベント中の複数の時間ステップ（３２２）の各時間ステップにおいて、
音声合成モデル（１６０）を用いて、対応する時間ステップについての可能性のある複数の出力オーディオサンプル（２２）に対する確率分布（１６４，３４２）を生成することであって、前記確率分布（１６４，３４２）における可能性のある各出力オーディオサンプル（２２）は、対応する可能性のある出力オーディオサンプル（２２）が対応する時間ステップにおける発話の一部を表す尤度を示すそれぞれの確率を有する、前記確率分布（１６４，３４２）を生成すること、
前記対応する時間ステップに先行する前記複数の時間ステップ（３２２）の時間ステップ（３２２）の数の関数、初期温度サンプリング値（３２４）、最小温度サンプリング値（３２６）、および最大温度サンプリング値（３２８）に基づいて温度サンプリング値（３３２）を決定すること、
前記温度サンプリング値（３３２）を前記確率分布（１６４，３４２）に適用して前記確率分布（１６４，３４２）から可能性のある複数の出力オーディオサンプル（２２）を選択する確率を調整すること、
前記可能性のある複数の出力オーディオサンプル（２２）の各々に関連付けられた調整された確率に基づいて、前記確率分布（１６４，３４２）の前記可能性のある複数の出力オーディオサンプル（２２）のうちの１つをランダムに選択すること、
前記データ処理ハードウェア（１４４）が、前記ランダムに選択された出力オーディオサンプル（２２）を用いて合成された音声（１７２）を生成すること、を含む、システム（１００）。

【請求項12】

前記関数は、線形関数である、請求項１１に記載のシステム（１００）。

【請求項13】

前記最大温度サンプリング値（３２８）は、０．８５である、請求項１２に記載のシステム（１００）。

【請求項14】

前記最小温度サンプリング値（３２６）は、０．２５である、請求項１１～１３のいずれか一項に記載のシステム（１００）。

【請求項15】

前記初期温度サンプリング値（３２４）は、前記最小温度サンプリング値（３２６）と同じである、請求項１１～１４のいずれか一項に記載のシステム（１００）。

【請求項16】

前記温度サンプリング値（３３２）を決定することは、
前記パケット損失隠蔽イベント中に、前記対応する時間ステップに先行する前記複数の時間ステップ（３２２）の時間ステップ（３２２）の数を決定すること、
前記時間ステップ（３２２）の数が閾値を満たした場合、前記温度サンプリング値（３３２）を設定量だけ上げること、を含む、請求項１１～１５のいずれか一項に記載のシステム（１００）。

【請求項17】

前記閾値は、１０個の時間ステップの倍数を含む、請求項１６に記載のシステム（１００）。

【請求項18】

前記設定量は、０．１である、請求項１６または１７に記載のシステム（１００）。

【請求項19】

前記温度サンプリング値（３３２）を決定することは、
前記パケット損失隠蔽イベント中に、前記対応する時間ステップに先行する前記複数の時間ステップ（３２２）の前記時間ステップ（３２２）の数に基づいて前記温度サンプリング値（３３２）を上げることを含む、請求項１１～１８のいずれか一項に記載のシステム（１００）。

【請求項20】

前記温度サンプリング値（３３２）を決定することは、
前記温度サンプリング値（３３２）が前記最大温度サンプリング値（３２８）に等しくなると、前記温度サンプリング値（３３２）を前記最大温度サンプリング値（３２８）に維持することをさらに含む、請求項１１～１９のいずれか一項に記載のシステム（１００）。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、生成モデル推論における動的テンパリング処理サンプリングに関する。

【背景技術】

【0002】

複数の回帰生成モデルは、ＶｏＩＰ（voice over Internet Protocol）通信におけるパケット損失隠蔽（packet loss concealment）の影響をマスクする手法であるパケット損失隠蔽に使用できる。これらのモデルは、オーディオサンプルのシーケンスを受信し、シーケンス内の次のオーディオサンプルを直接推論するか、あるいは、複数のオーディオサンプルのそれぞれについて、対応するオーディオサンプルがシーケンス内の次のオーディオサンプルである相対的な尤度を提供する確率密度関数を推論することができる。確率密度関数は、直接サンプリング、平均サンプリング、最頻値サンプリング（mode sampling）、及びテンパリング処理サンプリング（tempered sampling）を含むさまざまな方法でサンプリングできる。

【発明の概要】

【0003】

本開示の一態様は、複数の出力オーディオサンプル（複数の出力音声サンプル：output audio samples）をサンプリングするための方法を提供する。方法は、アクティブな（活性化した：active）音声通信セッションにおけるパケット損失隠蔽イベントの間に、データ処理ハードウェアが、開始時刻および終了時刻を有する時間ウィンドウの間の前の出力オーディオサンプルのシーケンスを取得することを含む。終了時刻は、パケット損失隠蔽イベントが開始したときに発生する。パケット損失隠蔽イベントの間の複数の時間ステップの各時間ステップにおいて、方法は、データ処理ハードウェアが、音声合成モデルを使用して、対応する時間ステップについての可能性のある複数の出力オーディオサンプルに対する確率分布を生成することを含む。確率分布における可能性のある各出力オーディオサンプルは、対応する可能性のある出力オーディオサンプルが対応する時間ステップにおける発話の一部を表す尤度を示すそれぞれの確率を含む。また方法は、データ処理ハードウェアが、対応する時間ステップに先行する複数の時間ステップの時間ステップの数の関数、初期温度サンプリング値、最小温度サンプリング値、および最大温度サンプリング値に基づいて温度サンプリング値を決定することを含む。また方法は、データ処理ハードウェアが、温度サンプリング値を確率分布に適用して確率分布から可能性のある複数の出力オーディオサンプルを選択する確率を調整することを含む。また方法は、データ処理ハードウェアが、可能性のある複数の出力オーディオサンプルの各々に関連付けられた調整された確率に基づいて、確率分布の可能性のある複数の出力オーディオサンプルのうちの１つをランダムに選択すること、およびデータ処理ハードウェアが、ランダムに選択された出力オーディオサンプルを用いて合成された音声を生成することを含む。

【0004】

本開示の複数の実装形態は、以下の任意選択的な複数の特徴のうちの１つまたは複数を含み得る。いくつかの実施形態では、関数は線形関数である。いくつかの例では、最大温度サンプリング値は０．８５である。任意選択的には、最小温度サンプリング値は０．２５である。初期温度サンプリング値は、最小温度サンプリング値と同じであり得る。

【0005】

温度サンプリング値を決定することは、パケット損失隠蔽イベント中に、対応する時間ステップに先行する複数の時間ステップの時間ステップの数を決定すること、および時間ステップの数が閾値を満たした場合、温度サンプリング値を設定量だけ上げることを含み得る。いくつかの実施形態では、閾値は、１０個の時間ステップの倍数である。設定量は０．１であり得る。温度サンプリング値を決定することは、いくつかの例では、パケット損失隠蔽イベント中に、対応する時間ステップに先行する複数の時間ステップの時間ステップの数に基づいて温度サンプリング値を上げることを含む。任意選択的には、温度サンプリング値を決定することは、温度サンプリング値が最大温度サンプリング値に等しくなると、温度サンプリング値を最大温度サンプリング値に維持することをさらに含む。

【0006】

本開示の他の態様は、複数の出力オーディオサンプルをサンプリングするシステムを提供する。このシステムは、データ処理ハードウェアと、データ処理ハードウェアと通信するメモリハードウェアと、を含む。メモリハードウェアは、データ処理ハードウェア上で実行されたときにデータ処理ハードウェアに複数の動作を実行させる複数の命令を記憶する。複数の動作は、アクティブな音声通信セッションにおけるパケット損失隠蔽イベントの間に、開始時刻および終了時刻を有する時間ウィンドウの間の前の出力オーディオサンプルのシーケンスを取得することを含む。終了時刻は、パケット損失隠蔽イベントが開始したときに発生する。パケット損失隠蔽イベントの間の複数の時間ステップの各時間ステップにおいて、複数の動作は、音声合成モデルを使用して、対応する時間ステップについての可能性のある複数の出力オーディオサンプルに対する確率分布を生成することを含む。確率分布における可能性のある各出力オーディオサンプルは、対応する可能性のある出力オーディオサンプルが対応する時間ステップにおける発話の一部を表す尤度を示すそれぞれの確率を含む。また複数の動作は、対応する時間ステップに先行する複数の時間ステップの時間ステップの数の関数、初期温度サンプリング値、最小温度サンプリング値、および最大温度サンプリング値に基づいて温度サンプリング値を決定することを含む。また複数の動作は、温度サンプリング値を確率分布に適用して確率分布から可能性のある複数の出力オーディオサンプルを選択する確率を調整することを含む。また複数の動作は、可能性のある複数の出力オーディオサンプルの各々に関連付けられた調整された確率に基づいて、確率分布の可能性のある複数の出力オーディオサンプルのうちの１つをランダムに選択すること、および、ランダムに選択された出力オーディオサンプルを用いて合成された音声を生成することを含む。

【0007】

この態様は、以下の任意選択的な複数の特徴のうちの１つまたは複数を含み得る。いくつかの実施形態では、関数は線形関数である。いくつかの例では、最大温度サンプリング値は０．８５である。任意選択的には、最小温度サンプリング値は０．２５である。初期温度サンプリング値は、最小温度サンプリング値と同じであり得る。

【0008】

【0009】

本開示の１つまたは複数の実施の詳細は、添付の図面および以下の詳細な説明に記載されている。他の態様、特徴、および利点は、詳細な説明および図面、ならびに特許請求の範囲から明らかになる。

【図面の簡単な説明】

【0010】

【図1】図１は、複数の出力オーディオサンプルをサンプリングする例示的なシステムの概略図である。

【図2】図２は、音声がない場合にバブリング出力を生成する音声合成モデルのプロットである。

【図3】図３は、動的テンパリング処理サンプリング器の例示的な複数の構成要素の概略図である。

【図4】図４は、サンプリング温度値を上げる線形関数のプロットの概略図である。

【図5】図５は、確率分布と調整された確率分布とのプロットの概略図である。

【図6】図６は、音声がない場合の固定サンプリング温度出力および動的サンプリング温度出力のプロットの概略図である。

【図7】図７は、大きく調整された音声での固定サンプリング温度出力および動的サンプリング温度出力のプロットの概略図である。

【図8】図８は、出力オーディオサンプルをサンプリングするための方法の複数の動作の例示的な構成のフローチャートである。

【図9】図９は、本明細書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイスの概略図である。

【発明を実施するための形態】

【0011】

様々な図面の同様の参照記号は、同様の構成要素を示す。
パケット損失隠蔽（packet loss concealment）は、ＶｏＩＰ（voice over Internet Protocol）通信におけるパケット損失隠蔽の影響をマスクする手法である。ＶｏＩＰ通信では、オーディオデータ（すなわち、当事者間の通信の音声データ）は、典型的には、ＴＣＰ／ＩＰ（Transmission Control Packet/Internet Protocol）および／またはＵＤＰ（User Datagram Protocol）ネットワークを介して複数のパケットとして送信される。これらのパケットは通常、失われたり、遅延したり、破損したりする。これが発生すると、当事者は、オーディオ品質の低下を経験する。このパケット損失を補償することを試みるさまざまなパケット損失隠蔽技術が存在する。たとえば、ゼロ挿入技術は、単に、欠落している複数のパケットをすべてゼロに置き換える。この場合、受信する当事者には、失った複数のパケットの代わりに無音が聞こえる。もう１つの一般的な手法は、以前に受信した音声の一部を繰り返すことによって、欠落しているオーディオデータを埋める波形置換である。例えば、波形置換は、最後に受信したフレームを繰り返すだけかもしれない。この手法は通常、短い損失イベント（例えば、単一のパケットの損失）には効果的であるが、損失イベントの長さが長くなると、波形置換はロボットのような音声となる傾向がある。

【0012】

回帰生成モデルなどのモデルベースの手法は、パケット損失隠蔽にますます使用されている。これらのモデルは、オーディオサンプルのシーケンスを受信し、シーケンス内の次のオーディオサンプルを直接推論するか、あるいは、複数のオーディオサンプルのそれぞれについて、対応するオーディオサンプルがシーケンス内の次のオーディオサンプルである相対的な尤度を提供する確率密度関数を推論することができる。確率密度関数は、直接サンプリング、平均サンプリング、最頻値サンプリング（mode sampling）、及びテンパリング処理サンプリング（tempered sampling）を含むさまざまな方法でサンプリングできる。サンプリング手法が異なれば、欠点も異なる。例えば、直接的なサンプリングでは、確率密度関数の平滑（smoothness）または集中（focus）が不足しているため、多くの場合にアーティファクトが発生する。

【0013】

テンパリング処理サンプリングは、確率密度関数がサンプリング温度値（sampling temperature value）によって重み付けまたは補正された場合に実施する。サンプリング温度（Sampling temperature）によって、確率密度関数のより良い表現（representation）を可能にするために、確率密度関数が変更または調整される。つまり、テンパリング処理サンプリングは、最も可能性の高い領域でサンプリングを平滑で且つ集中させる傾向がある。例えば、テンパリング処理サンプリングは、式（１）を使用して確率密度関数ｐ（ｘ）に重みを付けることができ、ここで、

【0014】

【数1】

はｘにおける修正された確率、Ｚは（

【0015】

【数2】

が合計で「１」になることを保証するための）修正係数、ｔは温度サンプリング値（temperature sampling value）である。

【0016】

【数3】

式（１）の結果は、温度サンプリング値が高いほど、調整された確率密度関数

【0017】

【数4】

が元の確率密度関数ｐ（ｘ）に近くなる。逆に、温度サンプリング値が小さいほど、高い確率値の確率が高くなり、低い確率値の確率が低くなる。つまり、低い温度サンプリング値は、サンプリングを高い確率値のみにさらに制限する傾向がある。

【0018】

静的または固定のテンパリング処理サンプリング（つまり、温度サンプリング値が固定である）は、特にパケット損失隠蔽に適用される場合に大きな制限を有する。例えば、低い温度サンプリング値は、最終的にモデルの出力を無出力状態（silence）に崩壊させる（collapse）傾向がある。つまり、多くの場合、無出力状態は高い確率のオプションとなり、サンプリング温度が低いと、無出力状態が確率密度関数からサンプリングされる尤度が高くなる。サンプリングされた値は自己回帰モデルにフィードバックされ、次の時間ステップの確率密度関数に影響を与えるため、典型的には、無出力状態は、引き続き、高い確率のオプションである。これにより、無出力状態が継続的にサンプリングされ、このことは、多くの場合に音声が存在する場合のパケット損失隠蔽には望ましくない。

【0019】

逆に、高い温度サンプリング値は、出力に「バブリング（babbling）」を引き起こす傾向がある。つまり、モデルは、無出力状態で音声の生成（つまり、会話）を開始する傾向がある（図２）。予想されるように、このことはパケット損失隠蔽の手法でも望ましくない。

【0020】

本明細書における複数の実施形態は、音声通信セッション中に着信オーディオデータがない場合または遅延した場合にオーディオを生成するパケット損失隠蔽器（packet loss concealer）を対象としている。パケット損失隠蔽器は、パケット損失隠蔽イベントの各時間ステップの確率密度関数を生成する音声合成モデルを含む。パケット損失隠蔽器はまた、サンプリング温度に基づいて確率密度関数をサンプリングし、モデルが無出力状態に崩壊する可能性を最小限にするとともに、音声がない間にモデルがバブリングする可能性を最小限にするために、サンプリング温度を経時的に動的に変化させる動的テンパリング処理サンプリング器（dynamic tempered sampler）を含む。

【0021】

図１を参照すると、いくつかの実装形態では、例示的なシステム１００は、２つ以上のユーザーデバイス１０、１０ａ～ｎを含み、それぞれが対応するユーザー１２、１２ａ～ｎに関連付けられており、それぞれがネットワーク１１２、１１２ａ～ｎを介してリモートシステム１４０と通信する。ユーザーデバイス１０は、デスクトップワークステーション、ラップトップワークステーション、またはモバイルデバイス（すなわち、スマートフォン）などの任意のコンピューティングデバイスに対応し得る。ユーザーデバイス１０は、複数のコンピューティングリソース１８（例えば、データ処理ハードウェア）および／またはストレージリソース１６（例えば、メモリハードウェア）を含む。

【0022】

リモートシステム１４０は、スケーラブル（scalable）／弾性（エラスティック）コンピューティングリソース１４４（例えば、データ処理ハードウェア）および／またはストレージリソース１４２（例えば、メモリハードウェア）を有する単一のコンピュータ、複数のコンピュータ、または分散型システム（例えば、クラウド環境）であり得る。データストア１４６（すなわち、リモートストレージデバイス１４６）は、複数のストレージリソース１４２上にオーバーレイされて（overlain）、複数のクライアントまたはコンピューティングリソース１４４のうちの１つまたは複数による複数のストレージリソース１４２のスケーラブルな使用を可能にすることができる。リモートシステム１４０は、ネットワーク１１２、１１２ａ～ｂを介して、ユーザーデバイス１０、１０ａ～ｂ間で、ＶｏＩＰ（Voice over Internet Protocol）通話またはキャリアネットワーク音声通話に関連するものなどの音声データ信号を送受信するように構成されている。したがって、第１のユーザーデバイス１０ａを使用する第１の発信者（caller）１２ａは、リモートシステム１４０を介して第２のユーザーデバイス１０ｂに電話またはビデオ通話を実施し得る。ユーザーデバイス１０、１０ａ～ｂは、ネットワーク１１２、１１２ａ～ｂを介してリモートシステム１４０に音声データ信号を送信することによって通信する。音声データ信号は、例えば、ＴＣＰ／ＩＰまたはＵＤＰプロトコルを用いて一連のパケット２０に分割され、各パケット２０は、対応するユーザーデバイス１０、１０ａ～ｂからのオーディオ信号の１つまたは複数のオーディオサンプル２２を含む。

【0023】

リモートシステム１４０は、パケット損失隠蔽器１５０を動作させる。第１のユーザーデバイス１０ａと第２のユーザーデバイス１０ｂとの間のアクティブな音声通信セッションにおける（すなわち、１つまたは複数のパケット２０が失われた、遅延された、または破損した）パケット損失隠蔽イベント中に、パケット損失隠蔽器１５０は、開始時刻Ｔ_ｉおよび終了時刻Ｔ_ｆを有する時間ウィンドウの間の前の出力オーディオサンプル２２のシーケンスを受信する。終了時刻Ｔ_ｆは、パケット損失隠蔽イベントが開始したときに発生する。開始時刻Ｔ_ｉは、終了時刻Ｔ_ｆより前の任意の時間であり得る。例えば、開始時刻Ｔ_ｉは、終了時刻Ｔ_ｆの２８０ミリ秒前である。開始時刻Ｔ_ｉは、システム１００の複数のパラメータに基づいて調整され得る。開始時刻Ｔ_ｉが終了時刻Ｔ_ｆから大きく離れるほど、いくつかの例では、パケット損失隠蔽器１５０がより効果的となり、パケット損失隠蔽器１５０が必要とする計算リソースが大きくなる。したがって、開始時刻Ｔ_ｉは、有効性とパケット損失隠蔽器１５０に必要なコンピューティングリソースとのバランスをとるために最適化され得る。

【0024】

音声合成モデル１６０は、前の出力オーディオサンプル２２のシーケンスを受信する。各サンプルは、時間ステップ（たとえば、１０ミリ秒）に対応し得る。モデル１６０は、ニューラルネットワーク、例えば、リカレントニューラルネットワーク（recurrent neural network : RNN）であり得る。モデル１６０は、前の出力オーディオサンプル２２のシーケンスに基づいて、シーケンス内の次のサンプル２２（すなわち、次の時間ステップのオーディオサンプル２２）についての可能性のあるすべての出力オーディオサンプルに対する確率分布１６４を生成する自己回帰生成モデルであり得る。確率分布１６４における可能性のある各出力オーディオサンプルは、対応する可能性のある出力オーディオサンプル２２が次の時間ステップにおける発話（utterance）の一部を表す尤度（likelihood）を示すそれぞれの確率を含む。すなわち、前の出力オーディオサンプル２２のシーケンスに基づいて、音声合成モデル１６０は、可能性のある各オーディオサンプル２２について、対応するオーディオサンプル２２がオーディオサンプル２２のシーケンスにおいて次に現れる確率を予測する。換言すれば、モデル１６０は、通信中のユーザー１２間の前の音声（スピーチ）の履歴に基づいて、（パケット損失隠蔽イベントに起因して利用できない）将来の音声（スピーチ）を予測する。発話は、連続して再生される多数（例えば、数百から数千）のオーディオサンプル２２を含むことができる。

【0025】

前の出力オーディオサンプル２２のシーケンスは、最近の使用可能なオーディオサンプル２２を示し得る。すなわち、パケット損失隠蔽イベント（すなわち、１つまたは複数のパケット２０およびそれらの対応するオーディオサンプル２２は利用不可能である）中に、音声合成モデル１６０は、最初の損失パケット２０の直前のオーディオサンプル２２を受信し得る。

【0026】

引き続き図１を参照すると、動的テンパリング処理サンプリング器３００は、音声合成モデル１６０から確率分布１６４を受け取る。図３に関してより詳細に説明されるように、動的テンパリング処理サンプリング器３００は、確率分布１６４の可能性のある複数のオーディオ出力サンプル３１０のうちの１つをランダムに選択し、選択されたサンプル３１０を音声合成器１７０に供給する。音声合成器１７０は、ランダムに選択されたオーディオ出力サンプル３１０を用いて合成された音声１７２を生成する。合成された音声１７２は、パケット損失隠蔽イベントを誘発した利用不可能なパケット２０およびオーディオサンプル２２の代わりに、オーディオサンプル２２のシーケンスにおける次のオーディオサンプルとして再生され得る。ランダムに選択されたオーディオ出力サンプル３１０はまた、音声合成モデル１６０に戻され、後続の時間ステップにおけるオーディオサンプルの予測に使用される。すなわち、音声合成モデル１６０は、同じパケット損失隠蔽イベント中に、前のオーディオサンプル２２のシーケンスと、前の確率分布１６４から任意のランダムに選択されたオーディオ出力サンプル３１０とに基づいて、時間ステップごとに確率分布１６４を生成する。いくつかの例において、動的テンパリング処理サンプリング器３００は、可能性のある複数のオーディオ出力サンプル３１０のうちの１つを（例えば、固定された種（シード）を使用することによって）擬似乱数的に（pseudo-randomly）選択し得る。

【0027】

ここで図２を参照すると、確率分布１６４が低い静的なサンプリング温度（すなわち、サンプリング温度は変化しない）でサンプリングされる場合、モデル１６０が無出力状態に崩壊する可能性が高い。逆に、確率分布１６４が高い静的なサンプリング温度でサンプリングされる場合、モデル１６０は、音声がない場合にバブリングする（babble）可能性が高い。プロット２００は、バブリング（babbling）の複数の期間２１０を除いて無出力状態であるモデル（例えば、音声合成モデル１６０）によって出力されるオーディオ信号２０２を示す。これらの期間２１０は望ましくなく、ユーザー１２間の通信の品質を大幅に低下させる。

【0028】

ここで図３を参照すると、静的な温度の制限を克服するために、動的テンパリング処理サンプリング器３００は、パケット損失隠蔽イベントの開始以降の現在の時間ステップに先行する複数の時間ステップの時間ステップ３２２の数の関数に基づいて、温度サンプリング値３３２を決定する。温度サンプリング値３３２は、後述されるように、初期温度サンプリング値３２４、最小温度サンプリング値３２６、および最大温度サンプリング値３２８にも基づいている。

【0029】

いくつかの例では、時間ステップカウンタ（time step counter）３２０は、パケット損失隠蔽イベントの開始から経過した時間ステップ３２２の数をカウントまたは判定する。例えば、パケット損失隠蔽イベントが始まると、時間ステップカウンタ３２０は、カウント「０」（すなわち、時間ステップ３２２の数は「０」に等しい）で初期化され、以降の各時間ステップの開始時に時間ステップ３２２の数を１つずつ増加させる。いくつかの実施形態では、温度生成器（temperature generator）３３０は、初期温度サンプリング値３２４、最小温度サンプリング値３２６、および最大温度サンプリング値３２８とともに、時間ステップカウンタ３２０から現在の時間ステップ３２２の数を受け取る。初期、最大及び最小の温度サンプリング値３２４，３２６，３２８は、パケット損失隠蔽器１５０の複数のパラメータ（例えば、コンピューティングリソースの量）に基づいて予め設定されているか又は調整されてもよいし、又はユーザー１２間のオーディオ通信の複数のパラメータ（例えば、オーディオ信号の周波数、オーディオ信号の振幅など）に基づいて調整されてもよい。

【0030】

温度生成器３３０は、時間ステップ３２２の数の関数と、初期、最大及び最小の温度サンプリング値３２４，３２６，３２８とに基づいて温度サンプリング値を決定し得る。いくつかの例では、関数は線形関数である。すなわち、いくつかの実施形態では、温度生成器３３０は、パケット損失隠蔽イベント中の現在の時間ステップに先行する時間ステップ３２２の数に基づいて温度サンプリング値３３２を上げる。図４のプロット４００は、時間ステップ３２２の数を表すｘ軸および生成された温度サンプリング値３３２を表すｙ軸を有する例示的な線形関数４１０を示している。ここで、温度生成器３３０は、時間ステップの数が閾値を満たすと、温度サンプリング値３３２を設定量だけ上げる。たとえば、閾値は１０個の時間ステップの倍数であり、設定量は０．１である。すなわち、いくつかの実施形態では、温度生成器３３０は、温度サンプリング値３３２を１０個の時間ステップごとに０．１ずつ上げる。

【0031】

温度生成器３３０は、温度サンプリング値３３２を初期温度サンプリング値３２４に初期化し得る。初期温度サンプリング値３２４は、最小温度サンプリング値３２６と同じであり得る。例えば、最小および初期の温度サンプリング値３２４、３２６は、０．２５であり得る。プロット４００は、初期サンプリング値が０．２５であるときを例示している。この例では、温度生成器３３０は、温度サンプリング値３３２を０．２５に初期化し、最初の１０個の時間ステップの間、０．２５の値を維持する。最初の１０個の時間ステップの後、温度生成器３３０は、温度サンプリング値３３２を０．１だけ上げて０．３５の値にすることができる。温度生成器３３０は、温度サンプリング値３３２が最大温度サンプリング値３２８に到達するまで、１０個の時間ステップごとに温度サンプリング値３３２を０．１ずつ上げ続けることができる。いくつかの例では、最大温度サンプリング値３２８は０．８５である。温度サンプリング値３３２が最大温度サンプリング値３２８に等しくなると、温度生成器３３０は、パケット損失隠蔽イベントが終了するまで、温度サンプリング値３３２を最大温度サンプリング値３２８に維持し得る。

【0032】

本明細書で使用される関数および値は単なる例示であり、多くの異なる動的サンプリング温度の関数および値（例えば、初期、最小、および最大値３２４、３２６、３２８、ステップサイズなど）が使用され得ることが理解される。たとえば、線形関数の代わりに二次関数または指数関数が使用されてもよい。この関数は、サンプル数が増えると、温度サンプリング値を低下させることができる。関数は、周期的なものであってもよい。つまり、この関数は、さまざまなポイントで温度サンプリング値を増減し得る。

【0033】

図３を引き続き参照すると、温度値適用器（温度値アプライヤー：temperature value applier）３４０は、生成された温度サンプリング値３３２を受け取る。温度値適用器３４０は、現在の時間ステップについての確率分布１６４も受け取る。温度値適用器３４０は、温度サンプリング値３３２を確率分布１６４に適用して、確率分布１６４から可能性のある複数の出力オーディオサンプル２２を選択またはサンプリングする確率を調整する。すなわち、温度値適用器３４０は、調整された確率分布３４２を生成するために、温度サンプリング値３３２に基づいて確率分布１６４を調整する。

【0034】

図５のプロット５００は、温度サンプリング値（ｔ）が０．５に等しいときに、例示的な調整された確率分布３４２とともにプロットされた例示的な確率分布１６４を示す。ここで、ｘ軸は可能性のある出力オーディオサンプル２２を表し、ｙ軸は、対応する可能性のある出力オーディオサンプル２２がサンプリングされるか、または確率分布１６４，３４２からランダムに選択される確率を表す。ここで、０．５に等しい温度サンプリング値（ｔ）を用いたテンパリング処理サンプリングは、確率がより低い領域５２０を低下させるとともに、確率がより高い領域５１０を上昇させる。すなわち、確率分布１６４において高い確率を有する領域５１０（すなわち、ｘ軸上で約４００から６００の間の値）は、調整された確率分布３４２において上昇したそれぞれの確率を有する。反対に、確率分布１６４において低い確率を有する領域５２０（すなわち、ｘ軸上で約４００よりも低い値および約６００よりも大きい値）は、調整された確率分布３４２において低下したそれぞれの確率を有する。その結果、高い確率の領域５１０は、調整された確率分布３４２対確率分布１６４からランダムに選択される可能性がさらに高くなり、低い確率の領域５２０は、調整された確率分布３４２対確率分布１６４からランダムに選択される可能性がさらに低くなる。

【0035】

図３を再び参照すると、調整された確率分布３４２がサンプリング器３５０に渡される。サンプリング器３５０は、可能性のあるオーディオ出力サンプル３１０ごとの対応する確率に基づいて、調整された確率分布３４２の可能性のある複数のオーディオ出力サンプル３１０のうちの１つをランダムに選択する。すなわち、選択可能な出力オーディオサンプル２２がランダムに選択される確率は、それぞれの可能性のある出力オーディオサンプル２２に関連付けられた調整された確率に基づいている。したがって、高い確率を有する可能性のある出力オーディオサンプル２２は、サンプリング器３５０によってランダムに選択される確率が高い。サンプリング器３５０は、ランダムに選択されたオーディオ出力サンプル３１０を音声合成器１７０に渡し、音声合成モデル１６０にも戻す。パケット損失隠蔽器１５０は、パケット損失隠蔽イベントが完了するまで、前の出力オーディオサンプル２２のシーケンスおよび前に生成された各選択オーディオ出力サンプル３１０に基づいて、選択されたオーディオ出力サンプル３１０を生成し続けることができる。

【0036】

いくつかの実施形態において、音声合成モデル１６０は、一組の制約（constraint）（例えば、テキスト）を音声合成モデル１６０のための新しい入力に変換する調整ネットワーク（conditioning network）を含み、これにより、パケット損失隠蔽イベントの間、モデル１６０がいかなる可能性のある音声でも継続する（すなわち、予測する）ことを制限し、その代わりに、パケット損失隠蔽イベントが開始されたときに中断されたものと全く同じ音素（ｐｈｏｎｅｍｅ）のみを継続するようにモデル１６０を制限する。調整ネットワークから出力された調整ベクトルは、選択されたオーディオ出力サンプル３１０と組み合わされて、モデル１６０の出力を正しい話者（speaker）および言葉（words）に向けるために、モデルのすべての層のバイアス効果を生成することができる。いくつかの例では、調整ネットワークは、パケット損失隠蔽イベント中にその状態を展開（evolving）または更新することが禁止され、代わりに同じ調整ベクトルを繰り返すように強制される。これは、無出力状態に減衰する（fading）前に選択されるオーディオ出力サンプル３１０の数を制限すること（例えば、選択されたオーディオ出力サンプル３１０の１３０ミリ秒）と組み合わされて、パケット損失隠蔽器１５０が、ユーザー１２間の通信における次の音素を予測することを制限し、代わりに現在の音素のみを完了させることができる。

【0037】

ここで図６および図７を参照すると、動的テンパリング処理サンプリング器３００は、音声（スピーチ）中にモデル１６０が崩壊して無出力状態になる尤度を低下させるとともに、音声（スピーチ）がない間にモデル１６０が「バブリングする」（すなわち、望ましくない音声を生成する）尤度を低下させる。図６のプロット６００は、ノイズのあるプライミング信号（priming signal）６１０と、例示的な静的または固定のサンプリング温度モデル出力６２０と、動的サンプリング温度モデル出力６３０とを示している。この例では、ｘ軸は時間ステップの数を表し、ｙ軸は信号６１０、６２０、６３０の振幅を表す。ここでは、固定サンプリング温度出力６２０は、大音量の「バブリング」（すなわち、期待されない音声）を生成するが、動的サンプリング温度モデル出力６３０は、期待される無出力状態を維持する。

【0038】

図７のプロット７００は、大きな音声信号７１０と、例示的な固定サンプリング温度モデル出力７２０と、動的サンプリング温度モデル出力７３０とを示している。この例では、再び、ｘ軸は時間ステップの数を表し、ｙ軸は信号７１０、７２０、７３０の振幅を表す。ここでは、固定サンプリング温度出力７２０および動的サンプリング温度出力７３０の両方が所望したように動作し、大きく調整された音声信号を複製する。

【0039】

したがって、パケット損失隠蔽器１５０は、パケット損失隠蔽イベント中に可能性のある出力オーディオサンプルをサンプリングするときにサンプリング温度値を動的に制御する。モデルが「話す（talk）」（つまり、無出力状態ではない出力を予測する）意志（willingness）は、サンプリング温度及び調整ベクトルの２つの要因に基づいている。調整ベクトルは、生成された音声に関するコンテキスト情報を伝達する。調整ネットワークは、音声合成モデル１６０よりも広いアテンション時間（attention span）を有することができ、したがって、モデルをバイアスして、正しい音声、音素、または抑揚を有する音声を生成することができる。調整が大きい場合、調整バイアスにより、モデルはサンプリング温度が低くても話すことができる。反対に、調整が小さい場合、サンプリング温度は音声の開始または停止にとって非常に重要である。したがって、大きな調整ベクトルを使用して、モデル１６０にバイアスをかけて、話したり話し続けたりする傾向を有する偏った確率密度関数（skewed probability density function）を生成することができ、低いサンプリング温度でも、大きな調整ベクトルは、音声を生成する効果を有することができる。

【0040】

動的温度によって、これら２つの要因のバランスがとられる。パケット損失隠蔽イベントの開始時に、動的サンプリング温度が低いと、小さい調整でモデルが崩壊する。逆に、大きな調整の場合、モデルは崩壊せず、代わりに音声を生成し続ける。調整が小さい場合、モデルはすでに崩壊している可能性があるため、サンプリング温度をどれだけ上昇させても音声を復元することはできない。さらに、大きく調整されたモデルは、最終的には無出力状態に崩壊する。サンプリング温度が高いほど、この崩壊が発生する可能性は低くなる。そのため、サンプリング温度を動的に上昇させることにより、調整ベクトルまたはプライミング信号（すなわち、前の出力オーディオサンプルのシーケンス２２）の分析を必要とせずに、期待されない音声および無出力状態への崩壊を最小限にする。すなわち、パケット損失隠蔽器１５０は、音声があるかどうかを決定するために、かなりの複雑さと追加のエラーの機会を追加する可能性がある入力された履歴を分析する必要がない。動的テンパリング処理サンプリング器３００はまた、音声合成モデル１６０のトレーニングにおいていかなる変更も必要としない。

【0041】

本明細書における複数の例は、パケット損失隠蔽イベント中にパケット損失隠蔽器１５０のサンプリング温度を動的に変更することに向けられている。しかしながら、サンプリング温度を動的に変化させることは、確率密度関数からのサンプリングを含む他の状況にも適用可能であることが理解される。たとえば、動的温度サンプリングは、モデルによって生成される出力を改善するために、一般的に生成モデルでも使用できる。

【0042】

図８は、出力オーディオサンプルをサンプリングするための方法８００の複数の動作の例示的な構成のフローチャートである。方法８００は、アクティブな音声通信セッションにおけるパケット損失隠蔽イベントの間に、ステップ８０２において、データ処理ハードウェア１４４が、開始時刻および終了時刻を有する時間ウィンドウの間の前の出力オーディオサンプル２２のシーケンスを取得することを含む。終了時刻は、パケット損失隠蔽イベントが開始したときに発生する。パケット損失隠蔽イベントの間の複数の時間ステップの各時間ステップにおいて、方法８００は、ステップ８０４において、データ処理ハードウェア１４４が、音声合成モデル１６０を用いて、対応する時間ステップについての可能性のある複数の出力オーディオサンプル２２に対する確率分布１６４を生成することを含む。確率分布における可能性のある各出力オーディオサンプル２２は、対応する可能性のある出力オーディオサンプル２２が対応する時間ステップにおける発話の一部を表す尤度を示すそれぞれの確率を含む。方法は、ステップ８０６において、データ処理ハードウェア１４４が、対応する時間ステップに先行する複数の時間ステップにおける時間ステップ３２２の数の関数、初期温度サンプリング値３２４、最小温度サンプリング値３２６、および最大温度サンプリング値３２８に基づいて温度サンプリング値３３２を決定することを含む。方法は、ステップ８０８において、データ処理ハードウェア１４４が、温度サンプリング値３３２を確率分布１６４に適用して確率分布１６４から可能性のある複数の出力オーディオサンプル２２を選択する確率を調整することを含む。ステップ８１０において、方法８００は、データ処理ハードウェア１４４が、可能性のある複数のオーディオサンプル２２の各々に関連付けられた調整された確率に基づいて、確率分布３４２の可能性のある複数の出力オーディオサンプル３１０のうちの１つをランダムに選択することを含む。ステップ８１２において、方法８００は、データ処理ハードウェア１４４が、ランダムに選択された出力オーディオサンプル３１０を用いて合成された音声１７２を生成することを含む。

【0043】

図９は、本明細書で説明されるシステムおよび方法を実施するために使用され得る例示的なコンピューティングデバイス９００の概略図である。コンピューティングデバイス９００は、ラップトップ、デスクトップ、ワークステーション、パーソナルデジタルアシスタント、サーバ、ブレードサーバ、メインフレーム、および他の適切なコンピュータなどの様々な形態のデジタルコンピュータを代表することが意図されている。本明細書に示された構成要素、それらの接続および関係、およびそれらの機能は、例示的なものに過ぎず、本明細書に記載および／または特許請求の範囲に記載される本発明の実施形態を限定するものではない。

【0044】

コンピューティングデバイス９００は、プロセッサ９１０、メモリ９２０、ストレージデバイス９３０、メモリ９２０および高速拡張ポート９５０に接続する高速インタフェース／コントローラ９４０、および低速バス９７０およびストレージデバイス９３０に接続する低速インタフェース／コントローラ９６０を含む。構成要素９１０、９２０、９３０、９４０、９５０、および９６０の各々は、様々なバスを使用して相互接続され、かつ共通のマザーボード上に、または適切な他の方法で搭載され得る。プロセッサ９１０は、メモリ９２０またはストレージデバイス９３０に格納された命令を含むコンピューティングデバイス９００内での実行のための命令を処理して、高速インタフェース９４０に接続されたディスプレイ９８０などの外部入力／出力デバイス上にグラフィカルユーザインタフェース（ＧＵＩ）用のグラフィカル情報を表示する。他の実施形態では、複数のメモリおよび複数のタイプのメモリと共に、複数のプロセッサおよび／または複数のバスが適宜使用されてもよい。また、複数のコンピューティングデバイス９００が接続され、各デバイスが（例えば、サーババンク、ブレードサーバのグループ、またはマルチプロセッサシステムとして）必要な処理の一部を提供してもよい。

【0045】

メモリ９２０は、コンピューティングデバイス９００内に非一時的に情報を記憶する。メモリ９２０は、コンピュータ可読媒体、揮発性メモリユニット、または不揮発性メモリユニットであってもよい。非一時的メモリ９２０は、コンピューティングデバイス９００による使用のための一時的または永久的な基準でプログラム（例えば、命令のシーケンス）またはデータ（例えば、プログラム状態情報）を格納するために使用される物理的デバイスであってもよい。不揮発性メモリの例には、これらに限定されないが、フラッシュメモリおよび読み出し専用メモリ（ＲＯＭ）／プログラム可能読み出し専用メモリ（ＰＲＯＭ）／消去可能プログラム可能読み出し専用メモリ（ＥＰＲＯＭ）／電子消去可能プログラム可能読み出し専用メモリ（ＥＥＰＲＯＭ）（例えば、通常、ブートプログラムなどのファームウェアに使用される）が含まれる。揮発性メモリの例には、これらに限定されないが、ランダムアクセスメモリ（ＲＡＭ）、ダイナミックランダムアクセスメモリ（ＤＲＡＭ）、スタティックランダムアクセスメモリ（ＳＲＡＭ）、相変化メモリ（ＰＣＭ）、およびディスクまたはテープが含まれる。

【0046】

ストレージデバイス９３０は、コンピューティングデバイス９００の大容量ストレージデバイスを提供することができる。いくつかの実施形態では、ストレージデバイス９３０は、コンピュータ可読媒体である。種々の異なる実施形態では、ストレージデバイス９３０は、フロッピーディスク（登録商標）デバイス、ハードディスクデバイス、光ディスクデバイス、またはテープデバイス、フラッシュメモリまたは他の同様のソリッドステートメモリデバイス、またはストレージエリアネットワークまたはその他の構成におけるデバイスを含むデバイスのアレイであり得る。追加の実施形態では、コンピュータプログラム製品は、情報媒体に有形的に具体化される。コンピュータプログラム製品は、実行時に、上記したような１つまたは複数の方法を実行する命令を含む。情報媒体は、メモリ９２０、ストレージデバイス９３０、またはプロセッサ９１０上のメモリなどの、コンピュータ可読媒体または機械可読媒体である。

【0047】

高速コントローラ９４０は、コンピューティングデバイス９００の帯域幅を大量に使用する処理を管理し、低速コントローラ９６０は、より低い帯域幅を大量に使用する処理を管理する。このような役割の配分は、例示的なものに過ぎない。いくつかの実施形態では、高速コントローラ９４０は、メモリ９２０、ディスプレイ９８０（例えば、グラフィックプロセッサまたはアクセラレータを介する）、および各種拡張カード（図示せず）を受け入れる高速拡張ポート９５０に接続される。いくつかの実施形態では、低速コントローラ９６０は、ストレージデバイス９３０および低速拡張ポート９９０に接続される。様々な通信ポート（例えば、ＵＳＢ、ブルートゥース（登録商標）、イーサネット（登録商標）、無線イーサネット（登録商標））を含む低速拡張ポート９９０は、キーボード、ポインティングデバイス、スキャナ、または例えばネットワークアダプターを介するスイッチまたはルータなどのネットワークデバイスなどの１つまたは複数の入力／出力デバイスに接続され得る。

【0048】

コンピューティングデバイス９００は、図面に示されるように、いくつかの異なる形態で実施することができる。例えば、標準サーバ９００ａとして、またはそのようなサーバ９００ａのグループ内で複数回、ラップトップコンピュータ９００ｂとして、またはラックサーバシステム９００ｃの一部として実施することができる。

【0049】

本明細書に記載のシステムおよび技術の様々な実施形態は、デジタル電子回路および／または光回路、集積回路、特別に設計されたＡＳＩＣ（特定用途向け集積回路）、コンピュータハードウェア、ファームウェア、ソフトウェア、および／またはそれらの組み合わせにおいて実現することができる。これらの様々な実施形態は、ストレージシステム、少なくとも１つの入力デバイス、および少なくとも１つの出力デバイスからデータおよび命令を受信し、それらにデータおよび命令を送信するように接続された、特別または一般的な目的であってもよい、少なくとも１つのプログラム可能なプロセッサを含むプログラム可能なシステム上で実行可能および／または解釈可能な１つまたは複数のコンピュータプログラムにおける実施形態を含むことができる。

【0050】

ソフトウェアアプリケーション（すなわち、ソフトウェアリソース）は、コンピューティングデバイスにタスクを実行させるコンピュータソフトウェアを指す。いくつかの例では、ソフトウェアアプリケーションは、「アプリケーション」、「アプリ」、または「プログラム」と呼称される。例示的なアプリケーションは、システム診断アプリケーション、システム管理アプリケーション、システムメンテナンスアプリケーション、ワードプロセッシングアプリケーション、スプレッドシートアプリケーション、メッセージングアプリケーション、メディアストリーミングアプリケーション、ソーシャルネットワーキングアプリケーション、およびゲームアプリケーションを含むが、これらに限定されない。

【0051】

これらのコンピュータプログラム（プログラム、ソフトウェア、ソフトウェアアプリケーション、またはコードとしても知られている）は、プログラマブルプロセッサ用の機械命令を含み、高水準の手続き型言語および／またはオブジェクト指向のプログラミング言語、および／またはアセンブリ言語／機械語で実施することができる。本明細書で使用する場合、「機械可読媒体」および「コンピュータ可読媒体」という用語は、任意のコンピュータプログラム製品、非一時的なコンピュータ可読媒体、機械命令を機械可読信号として受け取る機械可読媒体を含む、プログラマブルプロセッサに機械命令および／またはデータを提供するために使用される装置および／またはデバイス（例えば、磁気ディスク、光ディスク、メモリ、プログラマブルロジックデバイス（ＰＬＤ））を指す。「機械可読信号」という用語は、機械命令および／またはデータをプログラマブルプロセッサに提供するために使用される任意の信号を指す。

【0052】

本明細書で説明するプロセスおよび論理フローは、入力データを処理して出力を生成することによって機能を実行する１つまたは複数のコンピュータプログラムを実行する、データ処理ハードウェアとも呼称される１つまたは複数のプログラマブルプロセッサによって実行することができる。プロセスおよび論理フローは、ＦＰＧＡ（フィールドプログラマブルゲートアレイ）またはＡＳＩＣ（特定用途向け集積回路）などの特定用途論理回路によっても実行することができる。コンピュータプログラムの実行に適したプロセッサは、一例として、汎用マイクロプロセッサおよび専用マイクロプロセッサの両方、および任意の種類のデジタルコンピュータの任意の１つまたは複数のプロセッサを含む。一般に、プロセッサは、読み出し専用メモリまたはランダムアクセスメモリ、あるいはその両方から命令およびデータを受信する。コンピュータの必須要素は、命令を実行するプロセッサと、命令およびデータを格納するための１つまたは複数のメモリデバイスとである。一般に、コンピュータは、データを格納するための１つまたは複数の大容量ストレージデバイス（例えば、磁気ディスク、光磁気ディスク、または光ディスク）からのデータを受信するか、またはデータを転送するか、あるいはその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。コンピュータプログラム命令およびデータを格納するのに適したコンピュータ可読媒体には、半導体メモリデバイス（例えば、ＥＰＲＯＭ、ＥＥＰＲＯＭ、およびフラッシュメモリデバイス）、磁気ディスク（例えば、内蔵ハードディスクまたはリムーバブルディスク）、光磁気ディスク、およびＣＤＲＯＭおよびＤＶＤ－ＲＯＭディスクを含む全ての形態の不揮発性メモリ、媒体およびメモリデバイスが含まれる。プロセッサおよびメモリは、特定用途論理回路によって補完または特定用途論理回路に組み込むことができる。

【0053】

ユーザーとのインタラクションを提供するために、本開示の１つまたは複数の態様は、例えば、ＣＲＴ（陰極線管）、ＬＤＣ（液晶ディスプレイ）モニタ、またはタッチスクリーンなどのユーザーに情報を表示するためのディスプレイデバイスと、任意選択でユーザーがコンピュータに入力を提供するキーボードおよびポインティングデバイス（例えば、マウスやトラックボール）とを有するコンピュータ上で実施することができる。他の種類の装置を使用して、例えば、任意の形態の感覚フィードバック（例えば、視覚フィードバック、聴覚フィードバック、または触覚フィードバック）であり得るユーザーに提供されるフィードバックとともにユーザーとのインタラクションを提供することもでき、ユーザーからの入力は、音響、音声、または触覚入力を含む任意の形態で受信することができる。さらに、コンピュータは、ユーザーによって使用されるデバイスとの間でドキュメントを送受信することによって（例えば、ウェブブラウザから受信した要求に応答してユーザーのクライアントデバイス上のウェブブラウザにウェブページを送信することによって）、ユーザーとインタラクションすることができる。

【0054】

いくつかの実施形態が説明されている。それにもかかわらず、本開示の技術思想および範囲から逸脱することなく、様々な変更がなされ得ることが理解されるであろう。従って、他の実施形態も以下の特許請求の範囲内にある。

【図1】