(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2025-07-11
(45)【発行日】2025-07-22
(54)【発明の名称】発話障害のあるユーザのための人工知能音声応答システム
(51)【国際特許分類】
G10L 15/24 20130101AFI20250714BHJP
G10L 15/16 20060101ALI20250714BHJP
G06F 3/01 20060101ALI20250714BHJP
G06F 3/16 20060101ALI20250714BHJP
G16Y 40/30 20200101ALI20250714BHJP
G10L 15/22 20060101ALI20250714BHJP
G10L 15/00 20130101ALI20250714BHJP
G10L 13/00 20060101ALI20250714BHJP
【FI】
G10L15/24 Z
G10L15/16
G06F3/01 510
G06F3/16 630
G06F3/16 650
G16Y40/30
G10L15/22 300Z
G10L15/00 200A
G10L15/00 200Z
G10L13/00 100M
(21)【出願番号】P 2023512417
(86)(22)【出願日】2021-09-06
(86)【国際出願番号】 IB2021058096
(87)【国際公開番号】W WO2022053926
(87)【国際公開日】2022-03-17
【審査請求日】2024-02-15
(32)【優先日】2020-09-11
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】390009531
【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション
【氏名又は名称原語表記】INTERNATIONAL BUSINESS MACHINES CORPORATION
【住所又は居所原語表記】New Orchard Road, Armonk, New York 10504, United States of America
(74)【代理人】
【識別番号】100112690
【氏名又は名称】太佐 種一
(74)【代理人】
【識別番号】100120710
【氏名又は名称】片岡 忠彦
(72)【発明者】
【氏名】クワトラ、シカール
(72)【発明者】
【氏名】エリス、ローラ、グレース
(72)【発明者】
【氏名】マクゴールドリック、ケイトリン
(72)【発明者】
【氏名】ラクシット、サルバジット
【審査官】大野 弘
(56)【参考文献】
【文献】国際公開第2019/204651(WO,A1)
【文献】特表2020-533628(JP,A)
【文献】特開2017-211608(JP,A)
【文献】特表2018-505455(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G10L 13/00
G10L 15/24
G10L 15/16
G06F 3/01
G06F 3/16
G16Y 40/30
(57)【特許請求の範囲】
【請求項1】
コンピュータの情報処理により実行される、音声応答のための方法であって、
少なくとも1つの接続されたデバイスからユーザ・データを収集することと、
前記収集されたユーザ・データに基づいて音声応答システムを訓練することと、
前記訓練された音声応答システムに基づいて
、接続されたモノのインターネット(IoT)デバイス上に記録されたバイオメトリック・パラメータの変化であるウェイクアップ信号を識別することと、
前記ウェイクアップ信号を識別することに基づいて、ユーザ・エンゲージメントが意図されると判断することと、
前記少なくとも1つの接続されたデバイスを通じて前記ユーザとエンゲージすることと、
を含む、方法。
【請求項2】
前記少なくとも1つの接続されたデバイスは、補助・代替コミュニケーション・デバイスである、請求項1に記載の方法。
【請求項3】
前記収集されたユーザ・データに基づいて前記音声応答システムを訓練することは、
長短期メモリ再帰型ニューラル・ネットワークを用いて音声要求のトピックを予測すること
をさらに含む、請求項1に記載の方法。
【請求項4】
前記ユーザ・エンゲージメントが意図されると判断することは、
ランダム・フォレスト・アルゴリズムを用いて、前記収集されたユーザ・データの二項分類を実行すること
をさらに含む、請求項1に記載の方法。
【請求項5】
コンピュータの情報処理により実行される、音声応答のための方法であって、
少なくとも1つの接続されたデバイスからユーザ・データを収集することと、
前記収集されたユーザ・データに基づいて音声応答システムを訓練することと、
前記訓練された音声応答システムに基づいてウェイクアップ信号を識別することと、
前記ウェイクアップ信号を識別することに基づいて、ユーザ・エンゲージメントが意図されると判断することと、
前記少なくとも1つの接続されたデバイスを通じて前記ユーザとエンゲージすることと
を含み、
前記少なくとも1つの接続されたデバイスを通じて前記ユーザとエンゲージすることは、
前記ユーザ・データに基づいてカスタマイズされたメニューを前記ユーザに提供することと、
ユーザ・フィードバックを分析することと、
ユーザ・トピックを予測することと
をさらに含む
、方法。
【請求項6】
コンピュータの情報処理により実行される、音声応答のための方法であって、
少なくとも1つの接続されたデバイスからユーザ・データを収集することと、
前記収集されたユーザ・データに基づいて音声応答システムを訓練することと、
前記訓練された音声応答システムに基づいてウェイクアップ信号を識別することと、
前記ウェイクアップ信号を識別することに基づいて、ユーザ・エンゲージメントが意図されると判断することと、
前記少なくとも1つの接続されたデバイスを通じて前記ユーザとエンゲージすることと
を含み、
前記ユーザ・データはデータベースに格納され、前記データベースは、前記ユーザ・データを長短期メモリ再帰型ニューラル・ネットワークにより予測されるユーザ・トピックと相関させるように、前記ユーザとのエンゲージメントに基づいて更新される
、方法。
【請求項7】
音声メニューは、前記データベースにおいて予め定められる、請求項
6に記載の方法。
【請求項8】
音声応答のためのコンピュータ・システムであって、
1つ又は複数のプロセッサと、1つ又は複数のコンピュータ可読メモリとを備え、前記コンピュータ・システムは、
請求項1から請求項
7までのいずれかに記載の方法を実行するように構成される、コンピュータ・システム。
【請求項9】
音声応答のためのコンピュータ・プログラムであって、
プロセッサにより実行可能であり、前記プロセッサに、請求項1から請求項
7までのいずれかに記載の方法を実行させる、コンピュータ・プログラム。
【請求項10】
請求項
9に記載のコンピュータ・プログラムを格納した、コンピュータ可読ストレージ媒体。
【請求項11】
コンピュータの情報処理により実行される、音声応答のための方法であ
って、
少なくとも1つの接続されたデバイスからユーザ・データを収集することと、
前記収集されたユーザ・データに基づいて音声応答システムを訓練することと、
前記訓練された音声応答システムに基づいて、接続されたモノのインターネット(IoT)デバイス上に記録されたバイオメトリック・パラメータの変化であるウェイクアップ信号を識別することと、
前記ウェイクアップ信号を識別することに基づいて、ユーザ・エンゲージメントが意図されると判断することと、
前記少なくとも1つの接続されたデバイスを通じて前記ユーザとエンゲージすることと
を含み、
前記少なくとも1つの接続されたデバイスを通じて前記ユーザとエンゲージすることは、
前記ユーザから
受け取った非ルーチン
・イベントを理解する際に前記音声応答システムを支援できる生きている人への電話呼び出しを開始すること
を含む、方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、一般に、コンピューティングの分野に関し、より詳細には、仮想アシスタントに関する。
【背景技術】
【0002】
発話機能障害(speech impediment)もしくは他の発話構音障害(speech articulation disorder)又はその両方を含む発話障害(speech disorder)によって、人工知能(AI)音声応答システムにより理解可能な音声コマンドを形成するために、言語を構築すること、もしくは適切な語を利用すること、又はその両方を行うことができないことがある。疲労もしくは他の体調、又はその両方をもたらす病気によっても、個人が、音声コマンドをサブミットすること、もしくはAI音声応答システムに手の込んだ要求を話すこと、又はその両方ができなくなることがある。
【発明の概要】
【0003】
本発明の実施形態は、音声応答のための方法、コンピュータ・システム、及びコンピュータ・プログラム製品を開示する。本発明は、少なくとも1つの接続されたデバイスからユーザ・データを収集することを含むことができる。本発明は、収集されたユーザ・データに基づいて音声応答システムを訓練することを含むことができる。本発明は、訓練された音声応答システムに基づいてウェイクアップ信号を識別することを含むことができる。本発明は、ウェイクアップ信号を識別することに基づいて、ユーザ・エンゲージメントが意図されると判断することを含むことができる。本発明は、少なくとも1つの接続されたデバイスを通じてユーザとエンゲージすることを含むことができる。
【図面の簡単な説明】
【0004】
本発明のこれら及び他の目的、特徴及び利点は、添付の図面に関連して読まれる、その例示的な実施形態の以下の詳細な説明から明らかになるであろう。図面の様々な特徴は、当業者が詳細な説明と併せて本発明を理解するのを容易にすることを明確にするためのものであるため、縮尺通りではない。
【0005】
【
図1】少なくとも1つの実施形態による、ネットワーク化されたコンピュータ環境を示す。
【
図2】少なくとも1つの実施形態による、音声応答のためのプロセスを示す動作フローチャートである。
【
図3】少なくとも1つの実施形態による、
図1に示されるコンピュータ及びサーバの内部及び外部コンポーネントのブロック図である。
【
図4】本開示の一実施形態による、
図1に示されるコンピュータ・システムを含む例示的なクラウド・コンピューティング環境のブロック図である。
【
図5】本開示の一実施形態による、
図4の例示的なクラウド・コンピューティング環境の機能層のブロック図である。
【発明を実施するための形態】
【0006】
特許請求される構造及び方法の詳細な実施形態が本明細書で開示されるが、開示される実施形態は、様々な形態で具体化することができる特許請求される構造及び方法の単なる例示に過ぎないことを理解することができる。しかしながら、本発明は、多くの異なる形で具体化することができ、本明細書で説明される例示的な実施形態に限定されると解釈されるべきではない。むしろ、これらの例示的な実施形態は、本開示が完璧かつ完全であり、本発明の範囲を当業者に十分に伝えるように提供されている。説明においては、周知の特徴及び技術の詳細は、提示される実施形態を不必要に曖昧にしないように省略されることがある。
【0007】
本発明は、システム、方法もしくはコンピュータ・プログラム製品又はそれらの組み合わせを、いずれかの可能な技術的詳細レベルで統合したものとすることができる。コンピュータ・プログラム製品は、プロセッサに本発明の態様を実行させるためのコンピュータ可読プログラム命令を有するコンピュータ可読ストレージ媒体(単数又は複数)を含むことができる。
【0008】
コンピュータ可読ストレージ媒体は、命令実行デバイスにより使用される命令を保持及び格納できる有形デバイスとすることができる。コンピュータ可読ストレージ媒体は、例えば、これらに限定されるものではないが、電子ストレージ・デバイス、磁気ストレージ・デバイス、光ストレージ・デバイス、電磁気ストレージ・デバイス、半導体ストレージ・デバイス、又は上記のいずれかの適切な組み合わせとすることができる。コンピュータ可読ストレージ媒体のより具体的な例の非網羅的なリストとして、以下のもの、すなわち、ポータブル・コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ(RAM)、読み出し専用メモリ(ROM)、消去可能プログラム可能読み出し専用メモリ(EPROM又はフラッシュ・メモリ)、スタティック・ランダム・アクセス・メモリ(SRAM)、ポータブル・コンパクト・ディスク読み出し専用メモリ(CD-ROM)、デジタル多用途ディスク(DVD)、メモリ・スティック、フロッピー・ディスク、パンチカードもしくは命令がそこに記録された溝内の隆起構造のような機械的にエンコードされたデバイス、及び上記のいずれかの適切な組み合わせが挙げられる。本明細書で使用される場合、コンピュータ可読ストレージ媒体は、電波、又は他の自由に伝搬する電磁波、導波管もしくは他の伝送媒体を通じて伝搬する電磁波(例えば、光ファイバ・ケーブルを通る光パルス)、又はワイヤを通して送られる電気信号などの、一時的信号自体として解釈されない。
【0009】
本明細書で説明されるコンピュータ可読プログラム命令は、コンピュータ可読ストレージ媒体からそれぞれのコンピューティング/処理デバイスに、又は、例えばインターネット、ローカル・エリア・ネットワーク、広域ネットワークもしくは無線ネットワーク、又はそれらの組み合わせなどのネットワークを介して外部コンピュータ又は外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータもしくはエッジ・サーバ、又はそれらの組み合わせを含むことができる。各コンピューティング/処理デバイスにおけるネットワーク・アダプタ・カード又はネットワーク・インターフェースは、ネットワークからコンピュータ可読プログラム命令を受け取り、コンピュータ可読プログラム命令を転送して、それぞれのコンピューティング/処理デバイス内のコンピュータ可読ストレージ媒体内に格納する。
【0010】
本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セットアーキテクチャ(ISA)命令、機械命令、機械依存命令、マイクロコード、ファームウェア命令、状態設定データ、集積回路のための構成データ、又は、Smalltalk、C++などのオブジェクト指向プログラミング言語、及び、「C」プログラミング言語もしくは類似のプログラミング言語などの手続き型プログラミング言語を含む1つ又は複数のプログラミング言語の任意の組み合わせで記述されるソース・コード又はオブジェクト・コードとすることができる。コンピュータ可読プログラム命令は、完全にユーザのコンピュータ上で実行される場合もあり、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして実行される場合もあり、一部がユーザのコンピュータ上で実行され、一部が遠隔コンピュータ上で実行される場合もあり、又は完全に遠隔コンピュータもしくはサーバ上で実行される場合もある。最後のシナリオにおいて、遠隔コンピュータは、ローカル・エリア・ネットワーク(LAN)もしくは広域ネットワーク(WAN)を含むいずれかのタイプのネットワークを通じてユーザのコンピュータに接続される場合もあり、又は外部コンピュータへの接続がなされる場合もある(例えば、インターネットサービス・プロバイダを用いたインターネットを通じて)。幾つかの実施形態において、例えば、プログラム可能論理回路、フィールド・プログラマブル・ゲート・アレイ(FPGA)、又はプログラム可能論理アレイ(PLA)を含む電子回路は、本発明の態様を実施するために、コンピュータ可読プログラム命令の状態情報を利用することによってコンピュータ可読プログラム命令を実行して、電子回路を個別化することができる。
【0011】
本発明の態様は、本発明の実施形態による方法、装置(システム)及びコンピュータ・プログラム製品のフローチャート図もしくはブロック図又はその両方を参照して説明される。フローチャート図もしくはブロック図又はその両方の各ブロック、並びにフローチャート図もしくはブロック図又はその両方におけるブロックの組み合わせは、コンピュータ可読プログラム命令によって実装できることが理解されるであろう。
【0012】
これらのコンピュータ可読プログラム命令を、汎用コンピュータ、専用コンピュータ、又は他のプログラム可能データ処理装置のプロセッサに与えて機械を製造し、それにより、コンピュータ又は他のプログラム可能データ処理装置のプロセッサによって実行される命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロック内で指定された機能/動作を実施するための手段を作り出すようにすることができる。コンピュータ、プログラム可能データ処理装置もしくは他のデバイス又はそれらの組み合わせを特定の方式で機能させるように指示することができるこれらのコンピュータ・プログラム命令を、コンピュータ可読媒体内に格納することもでき、それにより、そのコンピュータ可読媒体内に格納された命令が、フローチャートもしくはブロック図又はその両方の1つ又は複数のブロックにおいて指定された機能/動作の態様を実施する命令を含む製品を含むようにすることもできる。
【0013】
コンピュータ可読プログラム命令を、コンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上にロードして、一連の動作ステップをコンピュータ、他のプログラム可能データ処理装置、又は他のデバイス上で行わせてコンピュータ実施のプロセスを生産し、それにより、コンピュータ又は他のプログラム可能装置上で実行される命令が、フローチャートもしくはブロック図又は両方の1つ又は複数のブロックにおいて指定された機能/動作を実行するためのプロセスを提供するようにすることもできる。
【0014】
図面内のフローチャート及びブロック図は、本発明の様々な実施形態による、システム、方法、及びコンピュータ・プログラム製品の可能な実装の、アーキテクチャ、機能及び動作を示す。この点に関して、フローチャート内の各ブロックは、指定された論理機能を実装するための1つ又は複数の実行可能命令を含む、モジュール、セグメント、又はコードの一部を表すことができる。幾つかの代替的な実装において、ブロック内に示される機能は、図に示される順序とは異なる順序で生じることがある。例えば、連続して示される2つのブロックは、関与する機能に応じて、実際には実質的に同時に実行されることもあり、又はこれらのブロックはときとして逆順で実行されることもある。ブロック図もしくはフローチャート図又は両方の各ブロック、及びブロック図もしくはフローチャート図又はその両方におけるブロックの組み合わせは、指定された機能又は動作を実行する、又は専用のハードウェアとコンピュータ命令との組み合わせを実行する、専用ハードウェア・ベースのシステムによって実装できることにも留意されたい。
【0015】
以下に説明される例示的な実施形態は、音声応答のためのシステム、方法、及びプログラム製品を提供する。従って、本実施形態は、発話障害のある(speech impaired)ユーザが、補助・代替(augmentative and alternative)コミュニケーション・デバイスを含む1つ又は複数の接続されたデバイスを用いて音声応答システムと通信することを可能にすることによって、音声応答システムの技術分野を向上させる能力を有する。より具体的には、本発明は、少なくとも1つの接続されたデバイスからユーザ・データを収集することを含むことができる。本発明は、収集されたユーザ・データに基づいて音声応答システムを訓練することを含むことができる。本発明は、訓練された音声応答システムに基づいてウェイクアップ信号(wakeup signal)を識別することを含むことができる。本発明は、ウェイクアップ信号を識別することに基づいて、ユーザ・エンゲージメントが意図されると判断することを含むことができる。本発明は、少なくとも1つの接続されたデバイスを介して、ユーザにエンゲージすることを含むことができる。
【0016】
前述のように、発話機能障害もしくは他の発話構音障害又はその両方を含む発話障害によって、人工知能(AI)音声応答システムにより理解可能な音声コマンドを形成するために、言語を構築すること、もしくは適切な語を利用すること、又はその両方を行うことができないことがある。疲労もしくは他の体調、又はその両方をもたらす病気によっても、個人が、音声コマンドをサブミットすること、もしくはAI音声応答システムに手の込んだ要求を話すこと、又はその両方ができなくなることがある。
【0017】
従って、特に、人工知能(AI)システムが、これに限定されるものではないが、周囲の会話を含む人間の会話を観察し、行動信号もしくはバイオメトリック信号又はその両方を利用してメニューの選択肢を学習し、意図した音声応答又は音声コマンドを実行する際に発話障害のあるユーザを支援することができるカスタマイズされた音声メニューを生成することができる手段を提供することが有利であり得る。
【0018】
少なくとも1つの実施形態によれば、人工知能(AI)システムは、ユーザが音声コマンドをいつサブミットするか及びサブミットしたいと望むかどうか、もしくは音声コマンドをサブミットできない可能性があること、又はその両方を予測することができる。
【0019】
少なくとも1つの実施形態によれば、ユーザが音声コマンドをいつサブミットするか及びサブミットしたいと望むかどうか、もしくは音声コマンドをサブミットできない可能性があること、又はその両方を予測する際に、ユーザの経験則もしくは健康状態又はその両方を考慮に入れることができる。ユーザの経験則もしくは健康状態又はその両方を用いて、音声コマンドもしくは音声要求又はその両方のトピックを予測し、随意的に、そこから少なくとも1つの適切な音声コマンドを選択することができる音声メニュー(spoken menu)をユーザに提供することもできる。
【0020】
少なくとも1つの実施形態によれば、音声応答プログラムは、ユーザの音声応答データもしくは統合されたデータ・ソース又はその両方が、ユーザの十分な知識及び承認なしにいずれの他のシステムにも使用され得ないことを保証することができる。システム統合を通じて、音声応答プログラムのユーザは、IoTバイオメトリック・センサ、補助・代替コミュニケーション・デバイス(AACデバイス)、及び/又はビデオ・ストリームなどのツールを統合して、強化された機能を提供し、音声応答プログラムのユーザ自身のインスタンスをさらに訓練するための選択肢を与えることができる。音声応答プログラムとの統合プロセスは、明示的にオプトインすることができ、あらゆる収集されたデータを、音声応答プログラムのユーザ自身の個人的インスタンスの外部で共有することはできない。
【0021】
図1を参照すると、1つの実施形態による例示的なネットワーク化されたコンピュータ環境100が示される。ネットワーク化されたコンピュータ環境100は、ソフトウェア・プログラム108及び音声応答プログラム110aを実行することが可能である、プロセッサ104及びデータ・ストレージ・デバイス106を備えたコンピュータ102を含むことができる。ネットワーク化されたコンピュータ環境100はまた、データベース114及び通信ネットワーク116と対話することができる音声応答プログラム110bを実行することが可能なサーバ112を含むこともできる。ネットワーク化されたコンピュータ環境100は、複数のコンピュータ102及びサーバ112を含むことができ、そのうちの1つのみが示されている。通信ネットワーク116は、広域ネットワーク(WAN)、ローカル・エリア・ネットワーク(LAN)、電気通信ネットワーク、無線ネットワーク、公共交換ネットワーク、もしくは衛星ネットワーク、又はそれらの組み合わせなどの様々なタイプの通信ネットワークを含むことができる。接続されたデバイス118は、それ自体別個のエンティティとして示されるが、コンピュータ・ネットワーク環境の別の部分に統合することができる。
図1は、1つの実装の例示のみを提供し、異なる実施形態を実装できる環境に関していかなる限定も意味しないことを理解されたい。設計及び実装の要件に基づいて、示される環境に対する多くの修正を行うことができる。
【0022】
クライアント・コンピュータ102は、通信ネットワーク116を介して、サーバ・コンピュータ112と通信することができる。通信ネットワーク116は、有線、無線通信リンク、又は光ファイバ・ケーブルなどの接続を含むことができる。
図3を参照して説明されるように、サーバ・コンピュータ112は、それぞれ内部コンポーネント902a及び外部コンポーネント904aを含むことができ、クライアント・コンピュータ102は、それぞれ内部コンポーネント902b及び外部コンポーネント904bを含むことができる。サーバ・コンピュータ112はまた、Software as a Service(SaaS)、Platform as a Service(PaaS)、又はInfrastructure as a Service(IaaS)などのクラウド・コンピューティング・サービス・モデルで動作することもできる。サーバ112はまた、プライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、又はハイブリッド・クラウドなどのクラウド・コンピューティング・デプロイメント・モデルに配置することもできる。クライアント・コンピュータ102は、例えば、モバイル・デバイス、電話、携帯端末、ネットブック、ラップトップ・コンピュータ、タブレット・コンピュータ、デスクトップ・コンピュータ、又はプログラムの実行、ネットワークへのアクセス、及びデータベース114へのアクセスが可能な任意のタイプのコンピューティング・デバイスとすることができる。本実施形態の様々な実装によれば、音声応答プログラム110a、110bは、これらに限定されるものではないが、コンピュータ/モバイル・デバイス102、ネットワーク化されたサーバ112、又はクラウド・ストレージ・サービスなどの、様々なストレージ・デバイスに組み込むことができるデータベース114と対話することができる。
【0023】
本実施形態によれば、クライアント・コンピュータ102又はサーバ・コンピュータ112を用いるユーザは、(それぞれ)音声応答プログラム110a、110bを用いて、発話障害のあるユーザが、補助・代替コミュニケーション・デバイスを含む1つ又は複数の接続されたデバイス(例えば、接続されたデバイス118)を用いて、音声応答システムと通信するのを可能にすることができる。音声応答方法は、
図2に関連して以下でより詳細に説明される。
【0024】
ここで
図2を参照すると、少なくとも1つの実施形態による、音声応答プログラム110a及び110bにより使用される例示的な音声応答プロセス200を示す動作フローチャートが示される。
【0025】
202において、音声応答プログラム110a、110bは、ユーザ・データを収集する。音声応答プログラム110a、110bのデータ収集モジュールは、これらに限定されるものではないが、過去の行動データ及び/又は会話データ、並びに、ユーザの接続されたデバイス(例えば、接続されたデバイス118)により供給され、リアルタイムで収集された新しいデータを含むデータを収集することができる。
【0026】
データ収集モジュールは、発話障害のあるユーザもしくはいずれかの他のユーザ、又はその両方から行動パターン・データ、バイオメトリック・パターン・データ、もしくは移動パターン・データ、又はそれらの組み合わせを取り込むことができ、取り込まれた(すなわち、収集された)データを知識コーパス(例えば、データベース114)に格納することができる。
【0027】
特に、モノのインターネット(Internet of Things、IoT)接続されたリング、メガネ、衣類(例えば、心臓センサもしくは呼吸センサ、又はその両方を備えた)、腕時計、靴、及び/又はフィットネス・トラッカーを含むウェアラブル・デバイスは、データをデータ収集モジュールに供給することができ、このデータは、カメラ供給データもしくはいずれかの他のIoTバイオメトリック・センサのデバイス・データ、又はその両方を含むことができる。
【0028】
データは、様々な補助・代替コミュニケーション(AAC)デバイス(例えば、その組み合わせ)から収集することもできる。AACデバイスは、表現コミュニケーション障害をもつ個人により表示される、機能障害(impairment)パターン及び/又は能力障害(disability)パターンのための通信を可能にする及び/又は容易にするデバイスとすることができる。補助コミュニケーション・デバイスは、いくらか発話するが、理解することができないか、又は話す能力が限られている個人によって使用することができる。代替コミュニケーション・デバイスは、発話せず、自分の考え(例えば、特に、欲求及び要求)を表現するために、別の通信方法に頼り得る人によって使用することができる。
【0029】
データは、ビデオ・デバイスもしくは音声ストリーミング・デバイス、又はその両方から収集することができる。データの生のビデオ・ストリームは、ひとたび収集されると、モデル入力のためのエンゲージメントのインジケータを分類する(例えば、手を挙げる、目の瞬きなどを識別する)ために、画像処理システムもしくはビデオ処理システム、又はその両方を経ることができる。画像処理システムもしくはビデオ処理システム、又はその両方は、他のソリューションの中でも、IBMのWatson(商標)(Watson及び全てのWatsonベースの商標は、米国もしくは他の国又はその両方におけるInternational Business Machines Corporationの商標又は登録商標である)視覚認識ソリューションとすることができる。Watson(商標)視覚認識ソリューションは、深層学習アルゴリズムを使用して、顔(例えば、顔認識)、シーン、オブジェクト、もしくはいずれかの他のコンテンツ、又はそれらの組み合わせについて画像を分析し、分析された視覚コンテンツにタグ付けし、それを分類及び検索することができる。
【0030】
自然言語処理(NLP)アルゴリズムでコンテンツを分析できるように、音声ストリーミング・デバイスから収集された生の音声ストリーム・データを、Watson(商標)音声-テキスト化などの音声・テキスト化プロセッサに渡すことができる。Watson(商標)トーン分析器(例えば、ユーザの満足度又は不満度を動的に判断する)、及び感情分析(特に、ユーザが神経質である、怒っている、失望している、悲しい、幸せであるかどうかなどを判断する)アプリケーション・プログラミング・インターフェース(API)、並びにWatson(商標)自然言語分類器(例えば、音声コンテンツ及びキーワード・インジケータ・データを収集する)などのNLPアルゴリズムを使用することができる。
【0031】
例えば、音声応答プログラム110a、110bの少なくとも1人のユーザに発話障害があり、音声コマンドを表出することができない場合、医療施設において、音声応答プログラム110a、110bを利用し、訓練することができる。この例では、音声応答プログラム110a、110bによって収集されたデータは、発話障害のあるユーザにより話されるコマンド及び/又は医療支援チームのいずれかの部分により話されるコマンド、並びに、接続されたデバイスもしくはウェアラブル・デバイス又はその両方によって識別される行動パラメータ及び/又はバイオメトリック・パラメータの結果として生じる変化の両方を含むことができる。
【0032】
204において、音声応答システムは、収集されたデータに基づいて訓練される。時系列シーケンシングのための(例えば、発話などの接続されたシーケンシング・パターンのための)長短期メモリ(LSTM)再帰型ニューラル・ネットワーク(RNN)を使用して、他のユーザの中で、発話障害のあるユーザの音声要求の意図したトピック(すなわち、トピック、ユーザ・トピック)を予測することができる。
【0033】
上記のステップ202に関して前述したように、データ収集モジュールによって収集されたデータを解釈し、ユーザ(例えば、発話障害のあるユーザもしくは音声応答プログラム110a、110bの任意の他のユーザ、又はその両方)の行動パターン・データ、バイオメトリック・パターン・データ、もしくは移動パターン・データ又はそれらの組み合わせを識別し、ユーザの意図したトピックもしくは要求又はその両方を予測することができる。これは、LSTM-RNNモデルを用いてさらに行うことができ、このLSTM-RNNモデルは、以下のステップ208に関してより詳細に説明される。
【0034】
206において、ウェイクアップアップ信号が識別される。ひとたび知識コーパス(例えば、データベース114)が完成すると(例えば、将来の結果に関する知識ベースの予測を行うのに十分なデータが収集されると)、発話障害のあるユーザの行動パラメータもしくはバイオメトリック・パラメータ又はその両方の変化を追跡する接続されたデバイス(例えば、特に、接続されたウェアラブル・デバイス、IoTセンサ、カメラ)によって収集されたあらゆるデータが、人工知能(AI)デバイスをアウェイクさせ、ユーザとのデバイス・エンゲージメントをトリガすることができる。
【0035】
接続されたIoTデバイスは、ウェイクアップ信号が識別されるまではユーザの会話を受動的にリッスンすることができ、ひとたびウェイクアップ信号が識別されたときにのみデータの格納を開始することができる。しかしながら、音声応答プログラム110a、110bのユーザは、リスニング機能をオフにし、コマンドが発行された場合にのみ、リスニングを開始するように、接続されたIoTデバイスをトリガすることができる。
【0036】
208において、音声応答プログラム110a、110bは、ユーザが接続されたデバイスとエンゲージしたいと望むと判断する。人工知能(AI)デバイスのウェイクアップ時に、接続されたデバイスによって収集された全てのデータを、ランダム・フォレスト・アルゴリズムに渡して、二項分類を実行することができる(例えば、分類規則に基づいて、ユーザがシステムとエンゲージすることを望むか又は望まないかを解釈するために、データを分類する)。例えば、音声応答プログラム110a、110bは、データ収集モジュールからの全ての入力を取得し、ランダム・フォレスト・モデルを通じて入力を実行し、二項分類(例えば、0は、必要とされず、ユーザがエンゲージしたいと望まないデータを表し、1は必要とされ、ユーザがエンゲージしたいと望むデータを表す)を用いて、入力が必要とされるかどうか(例えば、ユーザがエンゲージしたいと望むかどうか)を決定することができる。
【0037】
音声応答プログラム110a、110bが、分類規則に基づいて、ユーザがシステムとエンゲージしたいと望むと判断した場合、収集されたデータを深層強化学習モデル(すなわち、LSTM-RNNモデル)に渡して、ユーザとのエンゲージメントをどのように進めるかを決定することができる。
【0038】
音声応答プログラム110a、110bとエンゲージするためのユーザの諾否を、深層供花学習モデルにフィードバックして、モデルをさらに調整することができる。否定的ユーザ・フィードバックは、ペナルティとして作用し、肯定的ユーザ・フィードバックは、報酬として作用し得る。深層強化学習モデルは、フィードバック・ループとして作用することができ、所望の結果に向けてモデルをさらに調整するために、データを肯定的又は否定的として分類することができる。このことは、現在の状態を調整し、音声応答プログラム110a、110bとのエンゲージメントのための将来のアクションを決定する際に、深層強化学習モデルを支援することができる。
【0039】
210において、音声応答プログラム110a、110bは、ユーザとエンゲージする。発話障害のあるユーザ(すなわち、ユーザ)とエンゲージするために、音声応答プログラム110a、110bは、予測されたトピックに関連するカスタマイズされたメニューをユーザに提供することができる。音声応答プログラムは、上記のステップ202に関して前述したように、データ収集モジュールによって収集された行動信号もしくはバイオメトリック信号又はその両方を考慮して、実行することができる音声要求を決定することができる。音声メニューをナビゲートしている間、同意フィードバックもしくは不同意フィードバック、又はその両方を含むフィードバック(例えば、与えられた質問の結果として受け取った肯定的もしくは否定的、又はその両方のバイオメトリック・データ及び/又は行動データ)を含むユーザ・フィードバックを分析することができる。音声メニューは、予測されたトピックに関連するカスタマイズされたメニューを決定し、それに応じて音声コマンドを実行できるまで、音声応答プログラム110a、110bによってナビゲートされ得る。
【0040】
上記の202からの例を続けると、医療施設にいる発話障害のあるユーザが、「お腹が空いていますか」及び「喉が渇いていますか」と尋ねられることがある。「喉が渇いていますか」という質問の後に視覚信号を識別することができ(例えば、ユーザによってなされる顔の表情)、次の質問のセットは、「水が欲しいですか」及び「お茶が欲しいですか」を含むことができる。音声応答プログラム110a、110bの接続されたデバイスもしくはウェアラブル・デバイス又はその両方によって観測されたこのデータ(例えば、ビデオ・データ)を用いて、知識コーパスを生成し、意図されたトピック、並びに関連付けられた階層的音声メニューを識別することができる。
【0041】
ここでは、LSTM-RNNモデルは、ユーザの発話を処理し、ユーザの発話に基づいてどのように進めるかを決定するために使用することができる。LSTM-RNNモデルは、深層学習の分野で用いられる人工再帰型ニューラル・ネットワーク・アーキテクチャとすることができ、それは、標準的なフィードフォワード・ニューラル・ネットワークとは異なり、フィードバック接続に基づいて機能する。LSTM-RNNモデルは、単一のデータ点(例えば、接続されたデバイスによって取得されたユーザの画像)を処理するだけでなく、データのシーケンス全体(例えば、ユーザとデバイスとの対話の発話又はビデオ)を処理することもできる。例えば、LSTM-RNNモデルは、セグメント化されていない音声認識(speech recognition)、手書き文字認識、及びネットワーク・トラフィック又は侵入検出システムにおける異常検出などのタスクに適用することができる。
【0042】
本出願では、LSTM-RNNモデルは、発話の観測された部分を連続した従属入力に分解し、ユーザの意図したトピックを予測することによって、ユーザの音声要求を処理するために使用することができる。この音声-テキスト化(speech-to-text)機能は、入力された音声を連続した従属入力とし、予測される意図したトピックをLSTM-RNNモデルに基づいた結果出力とすることができるように機能することができる。
【0043】
ここで、LSTM-RNNモデルは、収集された行動入力、ボディ・ランゲージ、もしくはバイオメトリック信号又はそれらの組み合わせを、意図したトピックもしくは意図したトピックに関連する階層的音声メニューと相関させることによって、知識コーパス(例えば、データベース114)を改善するために使用することができる。
【0044】
データを音声メニューの特定の態様と相関させるために、音声メニューを、知識コーパス(例えば、データベース114)において定義する、もしくは識別する、又はその両方を行うことができる。音声応答プログラム110a、110bは、例えば、受け取られるデータのタイプを考慮して(例えば、特に、特定の行動入力もしくはバイオメトリック信号、又はその両方に基づいて)最も一般的であるコマンドを識別することによって、収集されたデータに基づいて適切な音声メニューを識別することができる。
【0045】
少なくとも1つの実施形態によれば、ユーザとのエンゲージメントに基づいて、音声応答プログラム110a、110bは、時間の経過と共に音声メニューを動的に作成することができ、接続されたIoTデバイス上の特定のドメインと関連付けられた既存の音声メニューを使用することによって開始することができる。例えば、ユーザが「Alexaタイマーを設定して」と言った場合、IoTデバイスは、「タイマーを何と呼んで欲しいですか」、及び特に「どのくらいの時間ですか」と尋ねることによって、関連する既存の「タイマー」の階層的音声メニューをユーザが下り始めることによって応答することができる。音声応答プログラム110a、110bは、特に、「時間を設定して」、「停止点を設定して」、「私に思い出させて」、又は「私が忘れないようにして」などのユーザのさらなるコマンドに基づいて、既存の音声メニューと対話するように学習することができる。これらの関連コマンドを受け取ることに基づいて、上述のように、音声応答プログラム110a、110bは、ユーザを「タイマー」の階層的音声メニューに入れることを知ることができる。
【0046】
話されたテクスチャもしくは音又はその両方を含む行動データもしくはバイオメトリック・データ又はその両方は、ユーザの活動(例えば、他の多くのものの中でも、食べる、飲む、テレビを観る、もしくは歌を聴く、又はそれらの組み合わせ)に関連していると解釈することができ、それに応じて、メニューをカスタマイズすることができる。ユーザの行動におけるパターン(すなわち、行動パターン)は、上記のステップ202に関して前述したように、意図したトピックを識別するのを支援することができ、音声応答プログラム110a、110bは、障害のあるユーザと人工知能(AI)デバイスとの観察された対話又は対話のセットに基づいて、質問の階層的セットを作成することができる。
【0047】
少なくとも1つの実施形態によれば、音声応答プログラム110a、110bは、非ルーチン・イベント(例えば、音声応答プログラム110a、110b及び/又はいずれかの接続されたデバイスによって判断されるような、ユーザの通常の身体運動とは異なる観察された身体運動、又は音声応答プログラム110a、110bによって使用することができるユーザの要求に関連する先行データが存在しないイベント)を、既存の(例えば、IoTデバイス上で予め構成された)、又はユーザとの対話及び/又は観察された行動に基づいて学習されたパターンのセット(例えば、ユーザの現在の健康状態もしくは経験測又はその両方)から開始することによって処理することができる、及び/又は、非ルーチン・イベントを理解する際に音声応答プログラム110a、110bを支援できる、生きている人(例えば、音声応答プログラム110a、110bのユーザのプロファイルで構成されている人)への電話呼び出しを開始することができる。
【0048】
208において、音声応答プログラム110a、110bが、ユーザがエンゲージしたいと望まなかったと判断した場合、プログラムは終了する。
【0049】
図2は、1つの実施形態の例示のみを提供し、異なる実施形態をどのように実装できるかに関していかなる限定も意味しないことを理解することができる。設計及び実装要件に基づいて、示される実施形態に対する多くの修正を行うことができる。
【0050】
図3は、本発明の例示的な実施形態による、
図1に示されるコンピュータの内部及び外部コンポーネントのブロック
図900である。
図3は、1つの実装の例示のみを提供し、異なる実施形態を実装することができる環境に関していかなる限定も意味しないことを理解されたい。設計及び実装の要件に基づいて、示される環境に対する多くの修正を行うことができる。
【0051】
データ処理システム902、904は、機械可読プログラム命令を実行できる任意の電子デバイスを表す。データ処理システム902、904は、スマートフォン、コンピュータ・システム、PDA、又は他の電子デバイスを表すことができる。データ処理システム902、904によって表すことができるコンピューティング・システム、環境、もしくは構成、又はそれらの組み合わせの例は、これらに限定されるものではないが、パーソナル・コンピュータ・システム、サーバ・コンピュータ・システム、シン・クライアント、シック・クライアント、手持ち式又はラップトップ・デバイス、マルチプロセッサ・システム、マイクロプロセッサ・ベースのシステム、ネットワークPC、ミニコンピュータ・システム、及び上記のシステムもしくはデバイスのいずれかを含む分散型クラウド・コンピューティング環境を含む。
【0052】
ユーザ・クライアント・コンピュータ102及びネットワーク・サーバ112は、
図3に示される内部コンポーネント902a、b及び外部コンポーネント904a、bのそれぞれのセットを含むことができる。内部コンポーネント902a、bのセットの各々は、1つ又は複数のバス912上の、1つ又は複数のプロセッサ906、1つ又は複数のコンピュータ可読RAM908、及び1つ又は複数のコンピュータ可読ROM910と、1つ又は複数のオペレーティング・システム914と、1つ又は複数のコンピュータ可読有形ストレージ・デバイス916とを含む。クライアント・コンピュータ102内の1つ又は複数のオペレーティング・システム914、ソフトウェア・プログラム108、及び音声応答プログラム110a、並びにネットワーク・サーバ112内の音声応答プログラム110bは、1つ又は複数のRAM908(典型的には、キャッシュ・メモリを含む)を介して1つ又は複数のプロセッサ906による実行のために、1つ又は複数のコンピュータ可読有形ストレージ・デバイス916上に格納することができる。
図3に示す実施形態では、コンピュータ可読有形ストレージ・デバイス916の各々は、内蔵ハード・ドライブの磁気ディスク・ストレージ・デバイスである。或いは、コンピュータ可読有形ストレージ・デバイス916の各々は、ROM910、EPROM、フラッシュ・メモリ、又はコンピュータ・プログラム及びデジタル情報を格納できるいずれかの他のコンピュータ可読有形ストレージ・デバイスなどの半導体ストレージ・デバイスである。
【0053】
内部コンポーネント902a、bの各セットはまた、CD-ROM、DVD、メモリ・スティック、磁気テープ、磁気ディスク、光ディスク、又は半導体ストレージ・デバイスなどの、1つ又は複数の携帯型コンピュータ可読有形ストレージ・デバイス920との間で読み書きを行うためのR/Wドライブ又はインターフェース918も含む。ソフトウェア・プログラム108及び音声応答プログラム110a及び110bなどのソフトウェア・プログラムを、それぞれの携帯型コンピュータ可読有形ストレージ・デバイス920の1つ又は複数に格納し、それぞれのR/Wドライブ又はインターフェース918を介して読み取り、それぞれのハード・ドライブ916にロードすることができる。
【0054】
内部コンポーネント902a、bの各セットはまた、TCP/IPアダプタ・カード、無線wi-fiインターフェース・カード、又は3Gもしくは4G無線インターフェース・カード、又は他の有線もしくは無線通信リンクなどのネットワーク・アダプタ(又は、スイッチ・ポート・カード)又はインターフェース922を含むこともできる。クライアント・コンピュータ102内のソフトウェア・プログラム108及び音声応答プログラム110a、及びネットワーク・サーバ・コンピュータ112内の音声応答プログラム110bは、ネットワーク(例えば、インターネット、ローカル・エリア・ネットワーク又は他の広域ネットワーク)、及びそれぞれのネットワーク・アダプタ又はインターフェース922を介して、外部コンピュータ(例えば、サーバ)からダウンロードすることができる。ネットワーク・アダプタ(又は、スイッチ・ポート・アダプタ)又はインターフェース922から、クライアント・コンピュータ102内のソフトウェア・プログラム108及び音声応答プログラム110a、並びにネットワーク・サーバ・コンピュータ112内の音声応答プログラム110bが、それぞれのハード・ドライブ916にロードされる。ネットワークは、銅線、光ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、もしくはエッジ・サーバ、又はそれらの組み合わせを含むことができる。
【0055】
外部コンポーネント904a、bのセットの各々は、コンピュータ・ディスプレイ・モニタ924、キーボード926、及びコンピュータ・マウス928を含むことができる。外部コンポーネント904a、bはまた、タッチスクリーン、仮想キーボード、タッチパッド、ポインティング・デバイス、及び他のヒューマン・インターフェース・デバイスを含むこともできる。内部コンポーネント902a、bのセットの各々はまた、コンピュータ・ディスプレイ・モニタ924、キーボード926、及びコンピュータ・マウス928へインターフェース接続するためのデバイス・ドライバ930も含む。デバイス・ドライバ930、R/Wドライブ又はインターフェース918、及びネットワーク・アダプタ又はインターフェース922は、ハードウェア及びソフトウェア(ストレージ・デバイス916もしくはROM910、又はその両方に格納される)も含む。
【0056】
本開示は、クラウド・コンピューティングについての詳細な説明を含むが、本明細書に詳述される教示の実装は、クラウド・コンピューティング環境に限定されるものではないことが予め理解される。むしろ、開示される技術の実施形態は、現在周知の又は後で開発される任意の他のタイプのコンピューティング環境と併せて実装することもできる。
【0057】
クラウド・コンピューティングは、最小限の管理労力又はサービスプロバイダとの対話で迅速にプロビジョニングされ、かつ解放されることが可能である構成可能なコンピューティング・リソース(例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、及びサービス)の共有プールへの、便利なオンデマンドのネットワークアクセスを可能にするためのサービス配信のモデルである。このクラウドモデルは、少なくとも5つの特徴、少なくとも3つのサービス・モデル、及び少なくとも4つのデプロイメント・モデルを含むことができる。
【0058】
特徴は、以下の通りである。
オンデマンド・セルフ・サービス:クラウド・コンシューマは、必要に応じて、サーバ時間及びネットワーク・ストレージ等のコンピューティング機能を、人間がサービスのプロバイダと対話する必要なく自動的に、一方的にプロビジョニングすることができる。
広範なネットワークアクセス:機能は、ネットワーク上で利用可能であり、異種のシン又はシック・クライアント・プラットフォーム(例えば、携帯電話、ラップトップ、及びPDA)による使用を促進する標準的な機構を通じてアクセスされる。
リソース・プール化:プロバイダのコンピューティング・リソースは、マルチテナントモデルを用いて複数のコンシューマにサービスを提供するためにプールされ、異なる物理及び仮想リソースが要求に応じて動的に割り当て及び再割り当てされる。コンシューマは、一般に、提供されるリソースの正確な位置についての制御又は知識を持たないという点で、位置とは独立しているといえるが、より抽象化レベルの高い位置(例えば、国、州、又はデータセンタ)を特定できる場合がある。
迅速な弾力性:機能を、迅速かつ弾力的に、場合によっては自動的に、プロビジョニングしてすばやくスケールアウトし、迅速に解放して素早くスケールインすることができる。コンシューマにとって、プロビジョニングに利用可能な機能は、多くの場合、無制限であるように見え、いつでもどんな量でも購入できる。
計測されるサービス:クラウドシステムは、サービスのタイプ(例えば、ストレージ、処理、帯域幅、及びアクティブなユーザアカウント)に適した何らかの抽象化レベルでの計量機能を用いることによって、リソースの使用を自動的に制御及び最適化する。リソース使用を監視し、制御し、報告して、利用されるサービスのプロバイダとコンシューマの両方に対して透明性をもたらすことができる。
【0059】
サービス・モデルは、以下の通りである。
Software as a Service(SaaS):コンシューマに提供される機能は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。これらのアプリケーションは、ウェブブラウザ(例えば、ウェブベースの電子メール)などのシンクライアントインターフェースを通じて、種々のクライアントデバイスからアクセス可能である。コンシューマは、限定されたユーザ固有のアプリケーション構成設定を想定される例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、又は個々のアプリケーション能力機能をも含めて、基礎をなすクラウド・インフラストラクチャを管理又は制御しない。
Platform as a Service(PaaS):コンシューマに提供される機能は、プロバイダによってサポートされるプログラミング言語及びツールを用いて作成された、コンシューマが作成又は取得したアプリケーションを、クラウド・インフラストラクチャ上にデプロイすることである。コンシューマは、ネットワーク、サーバ、オペレーティング・システム、又はストレージを含む基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、デプロイされたアプリケーション、及び場合によってはアプリケーションをホストする環境構成を制御する。
Infrastructure as a Service(IaaS):コンシューマに提供される機能は、コンシューマが、オペレーティング・システム及びアプリケーションを含み得る任意のソフトウェアをデプロイして実行させることができる、処理、ストレージ、ネットワーク、及び他の基本的なコンピューティング・リソースをプロビジョニングすることである。コンシューマは、基礎をなすクラウド・インフラストラクチャを管理又は制御しないが、オペレーティング・システム、ストレージ、デプロイされたアプリケーションに対する制御、及び場合によってはネットワークコンポーネント(例えば、ホストのファイアウォール)選択に対する限定された制御を有する。
【0060】
デプロイメント・モデルは以下の通りである。
プライベート・クラウド:クラウド・インフラストラクチャは、ある組織のためだけに運営される。これは、その組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。
コミュニティ・クラウド:クラウド・インフラストラクチャは、幾つかの組織によって共有され、共通の関心事項(例えば、ミッション、セキュリティ要件、ポリシー、及びコンプライアンス上の考慮事項)を有する特定のコミュニティをサポートする。これは、それらの組織又は第三者によって管理することができ、オンプレミス又はオフプレミスに存在することができる。
パブリック・クラウド:クラウド・インフラストラクチャは、一般公衆又は大規模な業界グループによって利用可能であり、クラウド・サービスを販売する組織によって所有される。
ハイブリッド・クラウド:クラウド・インフラストラクチャは、固有のエンティティのままであるが、データ及びアプリケーションのポータビリティを可能にする標準化技術又は専用技術(例えば、クラウド間の負荷平衡のためのクラウドバースティング)によって互いに結び付けられた、2つ又はそれより多いクラウド(プライベート、コミュニティ、又はパブリック)の混成物である。
【0061】
クラウド・コンピューティング環境は、サービス指向であり、ステートレス性、低結合性、モジュール性、及びセマンティック相互運用性に焦点を置く。クラウド・コンピューティングの中心は、相互接続されたノードのネットワークを含むインフラストラクチャである。
【0062】
ここで
図4を参照すると、例示的なクラウド・コンピューティング環境1000が示される。図示のように、クラウド・コンピューティング環境1000は、例えば、携帯情報端末(PDA)もしくはセルラ電話1000A、デスクトップ・コンピュータ1000B、ラップトップ・コンピュータ1000C、もしくは自動車コンピュータ・システム1000N又はその組み合わせなどの、クラウド・コンシューマによって使用されるローカル・コンピューティング・デバイスが通信することができる、1つ又は複数のクラウド・コンピューティングノード100を含む。ノード100は、互いに通信することができる。ノード100は、上述されるプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、又はハイブリッド・クラウド、又はその組み合わせなどの、1つ又は複数のネットワークにおいて物理的に又は仮想的にグループ化することができる(図示せず)。このことは、クラウド・コンピューティング環境1000が、クラウド・コンシューマがローカル・コンピューティング・デバイス上にリソースを保持する必要のないInfrastructure as a Service、Platform as a ServiceもしくはSoftware as a Service又はその組み合わせを提供することを可能にする。
図4に示されるコンピューティング・デバイス1000A~Nのタイプは、単に例示的であることが意図され、コンピューティングノード100及びクラウド・コンピューティング環境1000は、任意のタイプのネットワークもしくはネットワーク・アドレス指定可能な接続又はその両方を介して任意のタイプのコンピュータ化されたデバイスと通信することが可能である(例えば、ウェブブラウザを用いて)ことが理解される。
【0063】
ここで
図5を参照すると、クラウド・コンピューティング環境1000によって提供される機能抽象化層1100のセットが示される。
図5に示されるコンポーネント、層及び機能は単に例示であることを意図し、本発明の実施形態はそれらに限定されないことを予め理解されたい。図示されるように、以下の層及び対応する機能が提供される。
【0064】
ハードウェア及びソフトウェア層1102は、ハードウェア・コンポーネント及びソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、メインフレーム1104、RISC(Reduced Instruction Set Computer(縮小命令セットコンピュータ))アーキテクチャ・ベースのサーバ1106、サーバ1108、ブレード・サーバ1110、ストレージ・デバイス1112、並びにネットワーク及びネットワーキング・コンポーネント1114が含まれる。幾つかの実施形態において、ソフトウェア・コンポーネントは、ネットワーク・アプリケーション・サーバ・ソフトウェア1116と、データベース・ソフトウェア1118とを含む。
【0065】
仮想化層1120は、抽象化層を提供し、この層により、仮想エンティティの以下の例、すなわち、仮想サーバ1122、仮想ストレージ1124、仮想プライベート・ネットワークを含む仮想ネットワーク1126、仮想アプリケーション及びオペレーティング・システム1128、並びに仮想クライアント1130を提供することができる。
【0066】
一例において、管理層1132は、以下で説明される機能を提供することができる。リソース・プロビジョニング1134が、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソース及び他のリソースの動的な調達を提供する。計量及び価格決定1136は、クラウド・コンピューティング環境内でリソースが利用されたときの費用追跡と、これらのリソースの消費に対する課金又は請求とを提供する。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含み得る。セキュリティは、クラウド・コンシューマ及びタスクについての識別検証、並びにデータ及び他のリソースに対する保護を提供する。ユーザポータル1138は、コンシューマ及びシステム管理者に対して、クラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理1140は、必要なサービス・レベルが満たされるように、クラウド・コンピューティング・リソースの割当て及び管理を提供する。サービス・レベル・アグリーメント(Service Level Agreement、SLA)の計画及び履行1142は、SLAに従って将来的な必要性が予測されるクラウド・コンピューティング・リソースの事前配置及び調達を提供する。
【0067】
ワークロード層1144は、クラウド・コンピューティング環境を利用することができる機能の例を提供する。この層から提供することができるワークロード及び機能の例として、マッピング及びナビゲーション1146、ソフトウェア開発及びライフサイクル管理1148、仮想教室教育配信1150、データ分析処理1152、トランザクション処理1154、及び音声応答1156が挙げられる。音声応答プログラム110a、110bは、発話障害のあるユーザが、補助・代替コミュニケーション・デバイスを含む1つ又は複数の接続されたデバイスを用いて、音声応答システムと通信するのを可能にするための方法を提供する。
【0068】
本開示の種々の実施形態の説明は、例証の目的のために提示されたが、これらは、網羅的であること、又は開示した実施形態に限定することを意図するものではない。当業者には、説明される実施形態の範囲から逸脱することなく、多くの修正及び変形が明らかであろう。本明細書で用いられる用語は、実施形態の原理、実際の適用、又は市場に見られる技術に優る技術的改善を最もよく説明するため、又は、当業者が、本明細書に開示される実施形態を理解するのを可能にするために選択された。