特許7290708 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ バイドゥ　ユーエスエイ　エルエルシーの特許一覧

特許7290708仮想化環境内の人工知能アクセラレータ・ステータス確認を用いる仮想マシン移行のための方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2A
2B
3
4A
4B
5A
5B
6
7
8
9
10

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-05

(45)【発行日】2023-06-13

(54)【発明の名称】仮想化環境内の人工知能アクセラレータ・ステータス確認を用いる仮想マシン移行のための方法

(51)【国際特許分類】

G06F 9/50 20060101AFI20230606BHJP

G06F 9/455 20180101ALI20230606BHJP

【ＦＩ】

G06F9/50 150Z

G06F9/455 150

【請求項の数】 19

(21)【出願番号】P 2021214735

(22)【出願日】2021-12-28

(65)【公開番号】P2022043279

(43)【公開日】2022-03-15

【審査請求日】2021-12-28

(31)【優先権主張番号】17/142,946

(32)【優先日】2021-01-06

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】516357421

【氏名又は名称】バイドゥユーエスエイエルエルシー

【氏名又は名称原語表記】ＢａｉｄｕＵＳＡＬＬＣ

(74)【代理人】

【識別番号】110000578

【氏名又は名称】名古屋国際弁理士法人

(72)【発明者】

【氏名】チャオジュビョウ

(72)【発明者】

【氏名】チョンユエチャン

【審査官】坂庭剛史

(56)【参考文献】

【文献】国際公開第２０２０／１４０２６８（ＷＯ，Ａ１）

【文献】米国特許出願公開第２０１８／０２３２２５４（ＵＳ，Ａ１）

【文献】特開２０１６－０８５６６３（ＪＰ，Ａ）

【文献】特開２００９－１４００５３（ＪＰ，Ａ）

【文献】国際公開第２０２０／１５７５９９（ＷＯ，Ａ１）

【文献】国際公開第２０１８／０２０６０３（ＷＯ，Ａ１）

【文献】特開２０１８－００５５７６（ＪＰ，Ａ）

【文献】特表２０１６－５２９６３３（ＪＰ，Ａ）

【文献】国際公開第２００９／１０７３５１（ＷＯ，Ａ１）

【文献】特表２００９－５３０７４３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ９／５０

Ｇ０６Ｆ９／４５５

(57)【特許請求の範囲】

【請求項1】

人工知能（ＡＩ）アクセラレータの仮想機能にアクセスするアプリケーションを実行中のソース仮想マシン（ＶＭ－Ｓ）を移行するコンピュータ実装方法であって、
前記ＶＭ－Ｓおよび前記仮想機能を移行するコマンドを受信し、前記移行を実施する際に使用する前記ＶＭ－Ｓおよび前記仮想機能のチェックポイントの選択を受信したことに応答して、
前記アプリケーションの１つまたは複数の実行中のＡＩタスクを記録し、次いで停止すること、
前記仮想機能に関連するＡＩアクセラレータ・ステータスを生成または選択すること、ならびに
前記チェックポイントおよび前記ＡＩアクセラレータ・ステータスをターゲット・ホストのハイパーバイザに送信して、移行後ターゲット仮想マシン（ＶＭ－Ｔ）を生成すること、
前記ターゲット・ホストが前記チェックポイントおよび前記ＡＩアクセラレータ・ステータスを確認し、前記ＶＭ－Ｔを生成するためのリソースを生成および構成し、前記ターゲット・ホストの前記ＡＩアクセラレータに、前記ＡＩアクセラレータ・ステータスからのデータをロードしたという通知を受信したことに応答して、
前記ＶＭ－Ｓおよび前記仮想機能を前記ＶＭ－Ｔに移行すること、
を含み、
前記ＡＩアクセラレータ・ステータスのシグナチャおよびフレッシュネスを確認することが、
前記ＶＭ－Ｓの公開鍵を使用して前記ＡＩアクセラレータ・ステータスの前記シグナチャを解読すること、
前記ＡＩアクセラレータ・ステータスの日付およびタイム・スタンプが規定日付および時刻範囲内にあると判定すること、
前記ＡＩアクセラレータ・ステータスのハッシュを確認すること、
を含む、
コンピュータ実装方法。

【請求項2】

前記ＶＭ－Ｔが前記アプリケーションおよび前記ＡＩタスクを再始動したという通知を受信したことに応答して、前記ＶＭ－Ｓおよび前記仮想機能の移行後クリーンアップを実施することであって、
セキュア計算の任意のＡＩ推論、ＡＩモデル、中間結果、またはその部分を含む、前記ＡＩアクセラレータの少なくともセキュア・メモリを消去すること、ならびに
前記仮想機能に関連する前記ＶＭ－Ｓのメモリ、および前記アプリケーションによる前記仮想機能に対する任意の呼出しを消去すること、
を含むこと、
をさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記ＶＭ－Ｓの複数のチェックポイントのストレージ内に、前記ＶＭ－Ｓおよび前記仮想機能の状態のチェックポイントを記憶することであって、前記ＶＭ－Ｓの各チェックポイントが、前記ＶＭ－Ｓの前記リソースの状態、前記アプリケーションの状態、および前記ＡＩアクセラレータの前記リソースに関連する前記仮想機能の状態を含むこと、
をさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項4】

前記チェックポイントが、
１つまたは複数の実行中のＡＩタスクの記録と、
前記ＶＭ－Ｓに通信可能に結合された前記ＡＩアクセラレータ内の前記リソースの構成情報と、
１つまたは複数の前記ＡＩアクセラレータ内の仮想機能スケジューリング情報および通信バッファを含む前記ＶＭ－Ｓのメモリのスナップショットと、
前記チェックポイントの日付およびタイム・スタンプと、
をさらに含む、請求項３に記載のコンピュータ実装方法。

【請求項5】

前記ＡＩアクセラレータ・ステータスを生成することが、
前記ＡＩアクセラレータ・ステータス内に前記ＡＩアクセラレータ・ステータスの日付およびタイム・スタンプを記憶すること、
前記ＡＩアクセラレータのプロセッサに関連する１つまたは複数のレジスタと、前記ＡＩアクセラレータによって処理すべき保留中の命令のキャッシュ、キュー、またはパイプラインとを含む、前記ＡＩアクセラレータ内のメモリの内容を前記ＡＩアクセラレータ・ステータス内に記憶すること、および
前記ＡＩアクセラレータ・ステータスのハッシュを生成し、前記ＡＩアクセラレータ・ステータスと、ハッシュと、日付およびタイム・スタンプとにデジタル署名すること、
を含む、請求項１に記載のコンピュータ実装方法。

【請求項6】

前記ＡＩアクセラレータ・ステータスが、前記ＡＩアクセラレータが通信するように構成されるＡＩアクセラレータのクラスタ内の１つまたは複数の他のＡＩアクセラレータを示す１つまたは複数のレジスタ設定をさらに含む、請求項５に記載のコンピュータ実装方法。

【請求項7】

人工知能（ＡＩ）プロセッサに通信可能に結合される少なくとも１つのハードウェア・プロセッサを有する処理システムによって実行されるとき、前記処理システムの人工知能（ＡＩ）アクセラレータの仮想機能にアクセスするアプリケーションを実行中のソース仮想マシン（ＶＭ－Ｓ）を移行する動作を実施する実行可能命令でプログラムするコンピュータ可読媒体であって、前記動作が、
前記ＶＭ－Ｓおよび前記仮想機能を移行するコマンドを受信し、前記移行を実施する際に使用する前記ＶＭ－Ｓおよび前記仮想機能のチェックポイントの選択を受信したことに応答して、
前記アプリケーションの１つまたは複数の実行中のＡＩタスクを記録し、次いで停止すること、
前記仮想機能に関連するＡＩアクセラレータ・ステータスを生成または選択すること、ならびに
前記チェックポイントおよび前記ＡＩアクセラレータ・ステータスをターゲット・ホストのハイパーバイザに送信して、移行後ターゲット仮想マシン（ＶＭ－Ｔ）を生成すること、
前記ターゲット・ホストが前記チェックポイントおよび前記ＡＩアクセラレータ・ステータスを確認し、前記ＶＭ－Ｔを生成するためのリソースを生成および構成し、前記ターゲット・ホストの前記ＡＩアクセラレータに、前記ＡＩアクセラレータ・ステータスからのデータをロードしたという通知を受信したことに応答して、
前記ＶＭ－Ｓおよび前記仮想機能を前記ＶＭ－Ｔに移行すること、
を含み、
前記ＡＩアクセラレータ・ステータスのシグナチャおよびフレッシュネスを確認することが、
前記ＶＭ－Ｓの公開鍵を使用して前記ＡＩアクセラレータ・ステータスの前記シグナチャを解読すること、
前記ＡＩアクセラレータ・ステータスの日付およびタイム・スタンプが規定日付および時刻範囲内にあると判定すること、および
前記ＡＩアクセラレータ・ステータスのハッシュを確認すること、
を含む、コンピュータ可読媒体。

【請求項8】

前記動作が、
前記ＶＭ－Ｔが前記アプリケーションおよび前記ＡＩタスクを再始動したという通知を受信したことに応答して、前記ＶＭ－Ｓおよび前記仮想機能の移行後クリーンアップを実施することであって、
セキュア計算の任意のＡＩ推論、ＡＩモデル、中間結果、またはその部分を含む、前記ＡＩアクセラレータの少なくともセキュア・メモリを消去すること、ならびに
前記仮想機能に関連する前記ＶＭ－Ｓのメモリ、および前記アプリケーションによる前記仮想機能に対する任意の呼出しを消去すること
を含むこと、
を含む、請求項７に記載のコンピュータ可読媒体。

【請求項9】

前記動作が、
前記ＶＭ－Ｓの複数のチェックポイントのストレージ内に、前記ＶＭ－Ｓおよび前記仮想機能の状態のチェックポイントを記憶することであって、前記ＶＭ－Ｓの各チェックポイントが、前記ＶＭ－Ｓの前記リソースの状態、前記アプリケーションの状態、および前記ＡＩアクセラレータの前記リソースに関連する前記仮想機能の状態を含むこと、
をさらに含む、請求項７に記載のコンピュータ可読媒体。

【請求項10】

【請求項11】

【請求項12】

前記ＡＩアクセラレータ・ステータスが、前記ＡＩアクセラレータが通信するように構成されるＡＩアクセラレータのクラスタ内の１つまたは複数の他のＡＩアクセラレータを示す１つまたは複数のレジスタ設定をさらに含む、請求項１１に記載のコンピュータ可読媒体。

【請求項13】

少なくとも１つのハードウェア・プロセッサによって実行されるとき、人工知能（ＡＩ）アクセラレータの仮想機能にアクセスするアプリケーションを実行中のソース仮想マシン（ＶＭ－Ｓ）を移行するための動作をシステムに実施させる命令でプログラムされたメモリに結合された少なくとも１つのハードウェア処理を備えるシステムであって、前記動作が、
前記ＶＭ－Ｓおよび前記仮想機能を移行するコマンドを受信し、前記移行を実施する際に使用する前記ＶＭ－Ｓおよび前記仮想機能のチェックポイントの選択を受信したことに応答して、
前記アプリケーションの１つまたは複数の実行中のＡＩタスクを記録し、次いで停止すること、
前記仮想機能に関連するＡＩアクセラレータ・ステータスを生成または選択すること、ならびに
前記チェックポイントおよび前記ＡＩアクセラレータ・ステータスをターゲット・ホストのハイパーバイザに送信して、移行後ターゲット仮想マシン（ＶＭ－Ｔ）を生成すること、
前記ターゲット・ホストが前記チェックポイントおよびＡＩアクセラレータ・ステータスを確認し、前記ＶＭ－Ｔを生成するためのリソースを生成および構成し、前記ターゲット・ホストの前記ＡＩアクセラレータに、前記ＡＩアクセラレータ・ステータスからのデータをロードしたという通知を受信したことに応答して、
前記ＶＭ－Ｓおよび前記仮想機能を前記ＶＭ－Ｔに移行すること、
を含み、
前記ＡＩアクセラレータ・ステータスのシグナチャおよびフレッシュネスを確認することが、
前記ＶＭ－Ｓの公開鍵を使用して前記ＡＩアクセラレータ・ステータスの前記シグナチャを解読すること、
前記ＡＩアクセラレータ・ステータスの日付およびタイム・スタンプが規定日付および時刻範囲内にあると判定すること、および
前記ＡＩアクセラレータ・ステータスのハッシュを確認すること、
を含む、システム。

【請求項14】

前記動作が、
前記ＶＭ－Ｔが前記アプリケーションおよび前記ＡＩタスクを再始動したという通知を受信したことに応答して、前記ＶＭ－Ｓおよび前記仮想機能の移行後クリーンアップを実施することであって、
セキュア計算の任意のＡＩ推論、ＡＩモデル、中間結果、またはその部分を含む、前記ＡＩアクセラレータの少なくともセキュア・メモリを消去すること、ならびに
前記仮想機能に関連する前記ＶＭ－Ｓのメモリ、および前記アプリケーションによる前記仮想機能に対する任意の呼出しを消去すること、
を含むこと、
をさらに含む請求項１３に記載のシステム。

【請求項15】

【請求項16】

前記チェックポイントが、
１つまたは複数の実行中のＡＩタスクの記録と、
前記ＶＭ－Ｓに通信可能に結合された前記ＡＩアクセラレータ内の前記リソースの構成情報と、
１つまたは複数のＡＩアクセラレータ内の仮想機能スケジューリング情報および通信バッファを含む前記ＶＭ－Ｓのメモリのスナップショットと、
前記チェックポイントの日付およびタイム・スタンプと、
をさらに含む、請求項１５に記載のシステム。

【請求項17】

前記ＡＩアクセラレータ・ステータスを生成することが、
前記ＡＩアクセラレータ・ステータス内に前記ＡＩアクセラレータ・ステータスの日付およびタイム・スタンプを記憶すること、
前記ＡＩアクセラレータのプロセッサに関連する１つまたは複数のレジスタと、前記ＡＩアクセラレータによって処理すべき保留中の命令のキャッシュ、キュー、またはパイプラインとを含む、前記ＡＩアクセラレータ内のメモリの内容を前記ＡＩアクセラレータ・ステータス内に記憶すること、
前記ＡＩアクセラレータ・ステータスのハッシュを生成し、前記ＡＩアクセラレータ・ステータスと、ハッシュと、日付およびタイム・スタンプとにデジタル署名すること、
を含む、請求項１３に記載のシステム。

【請求項18】

前記ＡＩアクセラレータ・ステータスが、前記ＡＩアクセラレータが通信するように構成されるＡＩアクセラレータのクラスタ内の１つまたは複数の他のＡＩアクセラレータを示す１つまたは複数のレジスタ設定をさらに含む、
請求項１７に記載のシステム。

【請求項19】

コンピュータ上で動作しているときに、請求項１～６のいずれか１項に記載のコンピュータ実装方法を前記コンピュータに実行させるためのコンピュータプログラム。

【発明の詳細な説明】

【0001】

［技術分野］
本開示の実施形態は、一般的には、仮想マシンのホストに結合された１つまたは複数の人工知能アクセラレータに関する。より詳細には、本開示の実施形態は、人工アクセラレータを使用する仮想マシンを移行することに関する。

【0002】

［背景］
人工知能（ＡＩ）技術がイメージ分類、医学的診断、自動運転などの様々な分野で導入されており、最近ではＡＩモデル（「機械学習モデル」とも呼ばれる）が広く利用されている。ソフトウェア・アプリケーションの実行可能イメージまたはバイナリ・イメージと同様に、ＡＩモデルは、トレーニングされるとき、特徴として分類するための属性のセットに基づいて推論を実施し得る。ＡＩモデルのトレーニングは、有用な予測を生み出すＡＩモデルを生成するためにデータを収集、照合、およびフィルタリングする際にかなりの投資を必要とし得る。さらには、ＡＩモデルを使用した結果として得られる予測は、ユーザが保護を望む個人的な機密データを含み得る。

【0003】

ＡＩモデルから予測を生成することは、計算集約的なプロセスであり得る。１つまたは複数のユーザに対して十分な計算能力を提供するために、１つまたは複数のＡＩアクセラレータが１つまたは複数の仮想マシンのホスト・マシンに結合され得る。ＡＩモデルをトレーニングすることなどの計算集約的なタスクに対して十分な計算機能力を提供するために、ＡＩアクセラレータがクラスタで編成され、次いで複数のグループで編成され得、各グループが単一の仮想マシンに割り当てられ得る。あまり集約的ではないタスクでは、単一の仮想マシンが、それに割り当てられたＡＩアクセラレータを有し得る。

【0004】

いくつかの周知の理由で、仮想マシンが異なるホストに移行される必要があり得る。従来技術の仮想マシン移行では、移行中に１つまたは複数のＡＩアクセラレータのステータスが保護されない。少なくともその一部がＡＩアクセラレータ上で実施される１つまたは複数の人工知能タスクを生成するＡＩアプリケーションに、別のホストへの移行後に障害が発生し、またはＡＩアプリケーションが中断され得る。障害には、ＡＩアクセラレータの構成、メモリ内容、およびコンピューティング状態を取り込むことに失敗すること、およびＶＭ内のＡＩタスクのコンピューティング状態を取り込むことに失敗することが含まれ得る。

【発明の概要】

【課題を解決するための手段】

【0005】

本開示の一態様は、人工知能（ＡＩ）アクセラレータの仮想機能にアクセスするアプリケーションを実行中のソース仮想マシン（ＶＭ－Ｓ）を移行するコンピュータ実装方法であって、前記ＶＭ－Ｓおよび前記仮想機能を移行するコマンドを受信し、前記移行を実施する際に使用する前記ＶＭ－Ｓおよび仮想機能のチェックポイントの選択を受信したことに応答して、前記アプリケーションの１つまたは複数の実行中のＡＩタスクを記録し、次いで停止すること、前記仮想機能に関連する前記ＡＩアクセラレータのステータスを生成または選択すること、ならびに前記ＡＩアクセラレータの前記チェックポイントおよび前記ステータスをターゲット・ホストのハイパーバイザに送信して、移行後ターゲット仮想マシン（ＶＭ－Ｔ）を生成すること、前記ターゲット・ホストが前記チェックポイントおよびＡＩステータスを確認し、ＶＭ－Ｔを生成するためのリソースを生成および構成し、前記ターゲット・ホストの前記ＡＩアクセラレータに、前記ＡＩアクセラレータ・ステータスからのデータをロードしたという通知を受信したことに応答して、前記ＶＭ－Ｓおよび仮想機能を前記ＶＭ－Ｔに移行することを含む方法である。

【0006】

本開示の実施形態が、限定ではなく例として、同様の参照が同様の要素を示す添付の図面の図で示される。

【図面の簡単な説明】

【0007】

【図1】一実施形態による、チェックポイント認証および／または人工知能（ＡＩ）アクセラレータ・ステータス確認を用いて仮想マシンを移行し得るセキュア処理システムを示すブロック図である。

【図2A】一実施形態による、１つまたは複数のホストと１つまたは複数の人工知能アクセラレータとの間のセキュア・コンピューティング環境を示すブロック図である。

【図2B】一実施形態による、１つまたは複数のホストと１つまたは複数の人工知能アクセラレータとの間のセキュア・コンピューティング環境を示すブロック図である。

【図3】一実施形態による、各クラスタがクラスタ内のＡＩアクセラレータのグループのリソースを仮想マシンにマッピングする仮想機能を有し、各人工知能アクセラレータがセキュア・リソースおよび非セキュア・リソースを有する、人工知能アクセラレータのクラスタを制御するホストを示すブロック図である。

【図4A】一実施形態による、仮想化環境内のチェックポイント認証を用いる仮想マシン移行のための方法を実装する人工知能（ＡＩ）アクセラレータを有するデータ処理システムの構成要素を示すブロック図である。

【図4B】一実施形態による、仮想化環境内のＡＩアクセラレータ・ステータス確認を用いる仮想マシン移行のための方法を実装するための人工知能（ＡＩ）アクセラレータを有するデータ処理システムの構成要素を示すブロック図である。

【図5A】一実施形態による、移行すべきソース仮想マシンのホストのハイパーバイザの観点からの、仮想化環境内のチェックポイント認証を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシン移行のための方法である。

【図5B】一実施形態による、移行すべきソース仮想マシンのホストのハイパーバイザの観点からの、仮想化環境内のＡＩアクセラレータ・ステータス確認を使用するＡＩアクセラレータを有するデータ処理システムの仮想マシン移行のための方法を示す図である。

【図6】一実施形態による、移行すべき仮想マシンのホスト上のソース・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証を用いる仮想マシン移行のための方法で使用するためのチェックポイントを生成する方法を示す図である。

【図7】一実施形態による、移行すべき仮想マシンをホストするソース・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシンを移行するかどうかを判定する方法を示す図である。

【図8】一実施形態による、移行すべき仮想マシンをホストするソース・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシンを移行する方法を示す図である。

【図9】一実施形態による、仮想化環境内のチェックポイント認証を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシンを移行した後に、ソース・ホスト・コンピューティング・デバイスの移行後クリーンアップを実施する方法を示す図である。

【図10】いくつかの実施形態による、移行後仮想マシンに対するホスト上のターゲット・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証および任意選択でＡＩアクセラレータ・ステータス確認を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシンを移行する方法を示す図である。

【発明を実施するための形態】

【0008】

［詳細な説明］
以下で論じられる詳細を参照して本開示の様々な実施形態および態様が説明され、添付の図面は様々な実施形態を示す。以下の説明および図面は本開示の例であり、本開示を限定すると解釈されるべきではない。本開示の様々な実施形態の完全な理解を与えるために、多数の特定の詳細が説明される。しかしながら、いくつかの例では、本開示の実施形態の簡潔な議論を与えるために、周知または従来の詳細は説明されない。

【0009】

本明細書での「一実施形態」に対する参照は、実施形態に関連して説明される特定の特徴、構造、または特性が本開示の少なくとも１つの実施形態に含まれ得ることを意味する。本明細書の様々な場所での「一実施形態では」という語句の出現は、必ずしもすべて同一の実施形態を参照するわけではない。

【0010】

以下の実施形態は、ホスト・デバイスからＡＩアクセラレータにオフロード（または委任）され得るいくつかのタイプの動作の処理スループットを向上させるための人工知能（ＡＩ）アクセラレータの使用に関する。ホスト・デバイスは１つまたは複数の仮想マシン（ＶＭ）をホストする。ホスト上の少なくとも１つのＶＭが、仮想機能を介してＡＩアクセラレータのリソースをＶＭにマッピングする仮想機能に関連付けられ得る。仮想機能は、ＶＭにマッピングされるＡＩアクセラレータ内のリソースと、アクセラレータ内のそれらのリソースの構成とを列挙する。ＶＭ内のドライバが、ＡＩアクセラレータによって処理されるべきタスクのスケジューリングおよびコンピューティング・ステータスを追跡し得る。ドライバはまた、ＶＭにマッピングされるＡＩアクセラレータのコード、データ、およびメモリを取得する。

【0011】

本明細書での「仮想機能」は、人工知能（ＡＩ）アクセラレータ内の、またはＡＩアクセラレータのクラスタ内のＡＩアクセラレータのグループ内の、リソースのセットの、１つの仮想マシンへのマッピングである。本明細書では、リソースのセットは、個々に、および集合的に「ＡＩリソース」と呼ばれる。本明細書では、ＡＩアクセラレータまたはＡＩアクセラレータのクラスタは、１つのＡＩアクセラレータとＡＩアクセラレータのクラスタとの間の区別が説明されていない限り「ＡＩアクセラレータ」と呼ばれる。

【0012】

ＡＩアクセラレータは、汎用処理装置（ＧＰＵ）、人工知能（ＡＩ）アクセラレータ、数学コプロセッサ、デジタル信号プロセッサ（ＤＳＰ）、または他のタイプのプロセッサであり得る。ＡＩアクセラレータは、Ｂａｉｄｕ（登録商標）ＡＩアクセラレータなどの知的所有権のある設計、または別のＧＰＵなどであり得る。１つまたは複数のＡＩアクセラレータにセキュアに結合されたホスト・デバイスと共に実施形態が図示され、説明されるが、本明細書で説明される概念は、より一般に分散処理システムとして実装され得る。

【0013】

複数のＡＩアクセラレータが、アプリケーション・プログラム処理要求を、ＡＩアクセラレータのうちの１つまたは複数についての処理タスクに変換するドライバを有するホスト・デバイスによって管理されるクラスタ内でリンクされ得る。ホスト・デバイスは、対応する仮想マシン（ＶＭ）に関連付けられるユーザをそれぞれ有する１つまたは複数のＶＭをサポートし得る。ドライバは、ＡＩアクセラレータのリソースをＶＭにマッピングする仮想機能を実装し得る。ドライバは、ＡＩアクセラレータのうちの１つまたは複数による処理を求める複数のＶＭからのアプリケーション処理要求をスケジューリングするスケジューラを含み得る。一実施形態では、ドライバは、スケジューラ内の処理要求を解析して、クラスタ内の１つまたは複数のＡＩアクセラレータをどのようにグループ化するか、および１つまたは複数のＡＩアクセラレータに、熱を削減し、エネルギーを節約するためにグループからリンク解除し、低電力状態に入るように命令するかどうかを決定し得る。

【0014】

ホスト・デバイスとＡＩアクセラレータとは、ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ（ＰＣＩｅ）や他の高速バスなどの高速バスを介して相互接続され得る。ホスト・デバイスとＡＩアクセラレータとは、以下で説明される本発明の態様の動作を実施する前に、鍵を交換し、ＰＣＩｅバスを介してセキュア・チャネルを開始し得る。動作のうちの一部は、ＡＩアクセラレータが、人工知能（ＡＩ）モデルを使用して、ホスト・デバイスによって提供されるデータを使用して推論を実施することを含む。ＡＩモデル推論がホスト・デバイスによって信頼される前に、ホスト・デバイスは、ＡＩアクセラレータに、ＡＩモデルのウォーターマークを決定することを含む、以下で説明される１つまたは複数の確認テストを実施させ得る。いくつかの実施形態および動作では、ＡＩアクセラレータは、ホスト・デバイスがＡＩアクセラレータによって生成された結果の有効性をテストしていることを認識していない。

【0015】

ホスト・デバイスは、１つまたは複数のＡＩアクセラレータに結合された中央演算処理装置（ＣＰＵ）を含み得る。各ＡＩアクセラレータは、バスまたは相互接続を介してＣＰＵに結合され得る。ＡＩアクセラレータは、特定用途向け集積回路（ＡＳＩＣ）、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）デバイスの形態、または他の形態の集積回路（ＩＣ）で実装され得る。代替として、ホスト・プロセッサは１次データ処理システムの一部であり得、ＡＩアクセラレータは、１次システムがネットワークを介してリモートにそのデータ処理タスクをオフロードし得る２次システム（たとえば、ｓｏｆｔｗａｒｅａｓａｓｅｒｖｉｃｅ（ＳａａＳ）システムやｐｌａｔｆｏｒｍａｓａｓｅｒｖｉｃｅ（ＰａａＳ）システムなどのクラウド・コンピューティング・システム）としての多くの分散システムのうちの１つであり得る。ホスト・プロセッサとＡＩアクセラレータとの間のリンクは、ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ（ＰＣＩｅ）リンク、またはイーサネット接続などのネットワーク接続であり得る。各ＡＩアクセラレータは、別のＡＩアクセラレータとの間の通信リンクを使用可能（リンクアップ）または使用不能（リンクダウン）にする１つまたは複数のリンク・レジスタを含み得る。

【0016】

第１の態様では、人工知能（ＡＩ）アクセラレータの仮想機能にアクセスするアプリケーションを実行中のソース仮想マシン（ＶＭ－Ｓ）を移行するコンピュータ実装方法が、ＶＭ－Ｓの状態のチェックポイントをＶＭ－Ｓの複数の状態のストレージ内に記憶することを含み得る。ＶＭ－Ｓの各状態は、ＶＭ－Ｓのリソースの状態、アプリケーションの状態、およびＡＩリソースをＶＭ－ＳにマッピングするＡＩアクセラレータの仮想機能の状態を含み得る。ＶＭ－Ｓおよび仮想機能を移行するコマンドを受信し、移行を実施する際に使用するＶＭ－Ｓの状態のチェックポイントの選択を受信したことに応答して、方法は、１つまたは複数の実行中のＡＩタスクを記録し、次いで停止すること、ならびに選択されたチェックポイントを使用して、ＶＭ－Ｓ、アプリケーション、１つまたは複数のＡＩタスク、および仮想機能をターゲット・ホスト上のターゲットＶＭ（ＶＭ－Ｔ）に移行することをさらに含み得る。チェックポイントがターゲット・ハイパーバイザによって首尾よく確認され、移行が首尾よく完了したという通知をターゲット・ハイパーバイザから受信したことに応答して、記録済みの１つまたは複数のＡＩタスクおよびアプリケーションが、ＶＭ－Ｔ上で再始動され得る。仮想機能は、ＡＩアクセラレータのリソースをＶＭ－Ｓにマッピングし、ＶＭ－Ｓのユーザは、そのリソースが仮想機能によってＶＭ－ＳにマッピングされるＡＩアクセラレータのリソースにアクセスし得る唯一のユーザである。一実施形態では、仮想機能は、複数のＡＩアクセラレータのリソースをＶＭ－Ｓにマッピングし、チェックポイントは複数のＡＩアクセラレータ間の通信構成を含み、ＶＭ－Ｓのユーザは、仮想機能によってＶＭ－Ｓにマッピングされる複数のＡＩアクセラレータのリソースにアクセスし得る唯一のユーザである。一実施形態では、方法は、ＶＭ－Ｓの移行が完了し、１つまたは複数の記録済みＡＩタスクが首尾よく再始動されたという通知をターゲット・ハイパーバイザから受信することをさらに含む。通知に応答して、ＶＭ－Ｓの移行後クリーンアップが実施され得る。移行後クリーンアップは、任意のＡＩ推論、ＡＩモデル、セキュア計算、またはその部分を含む、ＡＩアクセラレータの少なくともセキュア・メモリを消去すること、ならびにＡＩ仮想機能に関連するＶＭ－Ｓのメモリ、およびアプリケーションによる仮想機能に対する任意の呼出しを消去することを含み得る。チェックポイントのシグナチャおよびフレッシュネス日付を確認することは、ＶＭ－Ｓの公開鍵を使用してチェックポイントのシグナチャを解読すること、チェックポイントの日付およびタイム・スタンプが規定日付および時刻範囲内にあると判定すること、およびＶＭ－Ｓのチェックポイントのハッシュを確認することを含み得る。一実施形態では、チェックポイントは、１つまたは複数の実行中のＡＩタスクの記録と、ＶＭ－Ｓに通信可能に結合された１つまたは複数のＡＩアクセラレータ内のリソースの構成情報と、チェックポイントの日付およびタイム・スタンプと、１つまたは複数のＡＩアクセラレータ内の仮想機能、スケジューリング情報、および通信バッファを含むＶＭ－Ｓのメモリのスナップショットとを含み得る。

【0017】

第２の態様では、人工知能（ＡＩ）アクセラレータの仮想機能（ＶＦ）にアクセスするアプリケーションを実行中のソース仮想マシン（ＶＭ－Ｓ）を移行する方法が、ターゲット・ホストのハイパーバイザによって、人工知能（ＡＩ）プロセッサ・リソースをＶＭ－Ｓにマッピングする仮想機能（ＶＦ）に関連するソース仮想マシン（ＶＭ－Ｓ）からチェックポイントを受信すること、およびＶＭ－Ｓをターゲット仮想マシン（ＶＭ－Ｔ）としてホストする要求を受信することを含む。ターゲット・ホストのハイパーバイザは、チェックポイントに従ってＶＭ－ＳおよびＶＭ－ＳのＶＦをＶＭ－Ｔとしてホストするためのリソースを割り振り、構成する。ターゲット・ホストのハイパーバイザは、ＶＭ－Ｓのデータのフレームを受信し、データのフレームを記憶してＶＭ－Ｔを生成する。ターゲット・ホストのハイパーバイザは、ＶＭ－Ｓの未終了のＡＩタスクの記録された状態を受信し、ＶＭ－Ｔ上で未終了のＡＩタスクを再始動する。一実施形態では、ＶＭ－ＳおよびＶＦのチェックポイントを確認することは、ＶＭ－Ｓの公開鍵を用いてチェックポイントのシグナチャを解読すること、チェックポイントの日付およびタイム・スタンプが所定の範囲内にあると判定すること、およびチェックポイントのハッシュを再計算し、再計算したハッシュがチェックポイント内に記憶されたハッシュに合致するかどうかを判定することを含む。チェックポイントが首尾よく確認されたことに応答して、ＶＭ－Ｓをターゲット・ホストのハイパーバイザに移行することが続行され、ターゲット・ホストでＶＭ－Ｔが生成される。

【0018】

第３の態様では、人工知能（ＡＩ）アクセラレータの仮想機能にアクセスするアプリケーションを実行中のソース仮想マシン（ＶＭ－Ｓ）を移行するコンピュータ実装方法が、ＶＭ－Ｓおよび仮想機能を移行するコマンドを受信したことに応答して、かつ移行を実施する際に使用するＶＭ－Ｓおよび仮想機能のチェックポイントの選択を受信したことに応答して、アプリケーションの１つまたは複数の実行中のＡＩタスクを記録し、次いで停止することを含む。方法は、仮想機能に関連するＡＩアクセラレータのステータスを生成または選択し、次いでＡＩアクセラレータのチェックポイントおよびステータスをターゲット・ホストのハイパーバイザに送信して、移行後ターゲット仮想マシン（ＶＭ－Ｔ）を生成することをさらに含む。

【0019】

ターゲット・ホストがチェックポイントおよびＡＩアクセラレータ・ステータスを確認し、ターゲット・ホストがＶＭ－Ｔを生成するためのリソースを生成および構成したという通知を受信したことに応答して、ターゲット・ホストは、ＶＭ－Ｓおよび仮想機能をＶＭ－Ｔに移行する。移行は、ターゲット・ホストがＡＩアクセラレータ・ステータス・フレームからのデータをＡＩアクセラレータにロードすることを含む。一実施形態では、方法は、ＶＭ－ＴがアプリケーションおよびＡＩタスクを再始動したという通知を受信したことに応答して、ＶＭ－Ｓおよび仮想機能の移行後クリーンアップを実施することをさらに含む。ＶＭ－Ｓでの移行後クリーンアップは、（１）セキュア計算の任意のＡＩ推論、ＡＩモデル、中間結果、またはその部分を含む、ＡＩアクセラレータの少なくともセキュア・メモリを消去すること、ならびに（２）仮想機能に関連するＶＭ－Ｓのメモリ、およびアプリケーションによる仮想機能に対する任意の呼出しを消去することを含み得る。一実施形態では、ＶＭ－Ｓおよび仮想機能の状態のチェックポイントを記憶することは、ＶＭ－ＳおよびＶＦの状態のチェックポイントをＶＭ－Ｓの複数のチェックポイントのストレージ内に記憶することを含み得る。ＶＭ－Ｓの各チェックポイントは、ＡＩアクセラレータのリソースに関連するＶＭ－Ｓのリソースの状態、アプリケーションの状態、および仮想機能の状態を含み得る。一実施形態では、チェックポイントは、１つまたは複数の実行中のＡＩタスクの記録、ＶＭ－Ｓに通信可能に結合されるＡＩアクセラレータ内のリソースの構成情報、ＶＭ－Ｓのメモリのスナップショットをさらに含み得る。チェックポイントは、１つまたは複数のＡＩアクセラレータ内の仮想機能スケジューリング情報および通信バッファと、チェックポイントの日付およびタイム・スタンプとをさらに含み得る。一実施形態では、ＡＩアクセラレータのステータスを生成することは、ＡＩアクセラレータ・ステータス内にステータスの日付およびタイム・スタンプを記憶すること、（２）ＡＩアクセラレータのプロセッサに関連する１つまたは複数のレジスタと、ＡＩアクセラレータによって処理すべき保留中の命令のキャッシュ、キュー、またはパイプラインとを含む、ＡＩアクセラレータ内のメモリの内容をＡＩアクセラレータ・ステータス内に記憶すること、ならびに（３）ＡＩアクセラレータのステータスのハッシュを生成し、ステータスと、ハッシュと、日付およびタイム・スタンプとにデジタルに署名することを含み得る。一実施形態では、ＡＩアクセラレータ・ステータスは、ＡＩアクセラレータが通信するように構成されるＡＩアクセラレータのクラスタ内の１つまたは複数の他のＡＩアクセラレータを示す１つまたは複数のレジスタ設定をさらに含み得る。一実施形態では、ＡＩアクセラレータ・ステータスのシグナチャおよびフレッシュネスを確認することは、ＶＭ－Ｓの公開鍵を使用してＡＩステータスのシグナチャを解読すること、ＡＩアクセラレータ・ステータスの日付およびタイム・スタンプが規定日付および時刻範囲内にあると判定すること、およびＡＩアクセラレータ・ステータスのハッシュを確認することを含み得る。

【0020】

上記の機能のいずれかは、１つまたは複数の非一時的コンピュータ可読媒体上に実行可能命令としてプログラムされ得る。実行可能命令が少なくとも１つのハードウェア・プロセッサを有する処理システムによって実行されるとき、処理システムは機能を実装させる。上記の機能のいずれかは、実行されるときに処理システムに機能を実装させる実行可能命令でプログラムされたメモリに結合された、少なくとも１つのハードウェア・プロセッサを有する処理システムによって実装され得る。

【0021】

図１は、一実施形態による、チェックポイント認証および／または人工知能（ＡＩ）アクセラレータ・ステータス確認を用いて仮想マシンを移行し得るセキュア処理システム１００を示すブロック図である。図１を参照すると、システム構成１００は、限定はしないが、ネットワーク１０３を介してソース・データ処理（ＤＰ）サーバ１０４－Ｓ（たとえばホスト）およびターゲットＤＰサーバ１０４－Ｔに通信可能に結合された１つまたは複数のクライアント・デバイス１０１～１０２を含む。ＤＰサーバ１０４－Ｓは１つまたは複数のクライアントをホストし得る。１つまたは複数のクライアントは仮想マシンであり得る。本明細書で説明されるように、ＤＰサーバ１０４－Ｓ上の任意の仮想マシンがターゲットＤＰサーバ１０４－Ｔに移行され得る。

【0022】

クライアント・デバイス１０１～１０２は、パーソナル・コンピュータ（たとえば、デスクトップ、ラップトップ、およびタブレット）、「シン」クライアント、携帯情報端末（ＰＤＡ）、ウェブ対応アプライアンス、スマート・ウォッチ、携帯電話（たとえば、スマートフォン）などの任意のタイプのクライアント・デバイスであり得る。代替として、クライアント・デバイス１０１～１０２は、ＤＰサーバ１０４－Ｓまたは１０４－Ｔ上の仮想マシンであり得る。ネットワーク１０３は、ワイヤードまたはワイヤレスの、ローカル・エリア・ネットワーク（ＬＡＮ）、インターネットなどの広域ネットワーク（ＷＡＮ）、高速バス、またはそれらの組合せなどの任意のタイプのネットワークであり得る。

【0023】

サーバ（たとえば、ホスト）１０４－Ｓおよび１０４－Ｔ（別段の記載がない限り、集合的にＤＰサーバ１０４）は、ウェブまたはクラウド・サーバ、アプリケーション・サーバ、バック・エンドサーバ、またはそれらの組合せなどの任意の種類のサーバまたはサーバのクラスタであり得る。サーバ１０４は、クライアント・デバイス１０１～１０２などのクライアントが、サーバ１０４によって提供されるリソースまたはサービス（サーバ１０４を介してＡＩアクセラレータによって提供されるリソースおよびサービスなど）にアクセスすることを可能にするインターフェース（図示せず）をさらに含む。たとえば、サーバ１０４は、たとえばクラウド・ストレージ、クラウド・コンピューティング・サービス、人工知能トレーニング・サービス、データ・マイニング・サービスなどの様々なクラウド・サービスをクライアントに提供するクラウド・サーバまたはデータ・センタのサーバであり得る。サーバ１０４は、クラウドを介してｓｏｆｔｗａｒｅ－ａｓ－ａ－ｓｅｒｖｉｃｅ（ＳａａＳ）またはｐｌａｔｆｏｒｍ－ａｓ－ａ－ｓｅｒｖｉｃｅ（ＰａａＳ）システムの一部として構成され得、クラウドは、プライベート・クラウド、パブリック・クラウド、またはハイブリッド・クラウドであり得る。インターフェースは、ウェブ・インターフェース、アプリケーション・プログラミング・インターフェース（ＡＰＩ）、および／またはコマンド・ライン・インターフェース（ＣＬＩ）を含み得る。

【0024】

たとえば、クライアントは、クライアント・デバイス１０１のユーザ・アプリケーション（たとえば、ウェブ・ブラウザ、アプリケーション）であり得る。クライアントは、サーバ１０４に実行用の命令（たとえば、ＡＩトレーニング、ＡＩ推論命令など）を送り、または送信し得、命令は、ネットワーク１０３を介して、インターフェースを経由してサーバ１０４によって受信される。命令に応答して、サーバ１０４は、命令の実行を履行するためにＡＩアクセラレータ１０５～１０７と通信する。ソースＤＰサーバ１０４－Ｓは、１つまたは複数のＡＩアクセラレータに通信可能に結合され得る。ＡＩアクセラレータ１０５－Ｔ．．１０７－Ｔのうちの１つまたは複数を使用するアプリケーションを実行するＤＰサーバ１０４－Ｔによってホストされるクライアント仮想マシンが、ターゲットＤＰサーバ１０４－Ｔに移行され、対応するＡＩアクセラレータ１０５－Ｔ．．１０７－Ｔ上で実行され得る。いくつかの実施形態では、命令は機械学習型の命令であり、専用マシンまたはプロセッサとしてのＡＩアクセラレータが、汎用プロセッサによる実行よりも何倍も高速に命令を実行し得る。したがって、サーバ１０４は、１つまたは複数のＡＩアクセラレータについての実行ジョブを分散式に制御／管理し得る。次いで、サーバ１０４は、クライアント・デバイス１０１～１０２またはサーバ１０４上の仮想マシンに実行結果を返す。ＡＩアクセラレータは、Ｂａｉｄｕ，Ｉｎｃ．（登録商標）から入手可能なＢａｉｄｕ（登録商標）人工知能（ＡＩ）チップセットなどの１つまたは複数の専用プロセッサを含み得、または代替として、ＡＩアクセラレータは、別のＡＩチップセット・プロバイダからのＡＩチップセットであり得る。

【0025】

一実施形態によれば、データ処理サーバ１０４（ホストとも呼ばれる）によってホストされるＡＩアクセラレータ１０５－Ｓ．．１０７－Ｓまたは１０５－Ｔ．．１０７－Ｔ（別段に示されていない限り、集合的に１０５．．１０７）のいずれかにアクセスするアプリケーションのそれぞれが、信頼できるソースまたはベンダによってアプリケーションが提供されることを検証し得る。アプリケーションのそれぞれは、ユーザ・メモリ空間内で起動および実行され、ホスト１０４の中央演算処理装置（ＣＰＵ）によって実行され得る。アプリケーションがＡＩアクセラレータ１０５～１０７のいずれか１つにアクセスするように構成されるとき、ホスト１０４と、ＡＩアクセラレータ１０５～１０７のうちの対応する１つとの間で、曖昧にされた接続が確立され得、それによって、ホスト１０４とＡＩアクセラレータ１０５～１０７との間で交換されるデータが、マルウェア／侵入からの攻撃に対して保護される。

【0026】

図２Ａは、いくつかの実施形態による、１つまたは複数のホストと１つまたは複数の人工知能（ＡＩ）アクセラレータとの間のセキュア・コンピューティング環境２００を示すブロック図である。一実施形態では、システム２００は、ＡＩアクセラレータ１０５～１０７に対するハードウェア修正を伴う、または伴わない、ホスト１０４とＡＩアクセラレータ１０５～１０７との間の曖昧にされた通信についての保護方式を提供する。ホスト・マシンまたはサーバ１０４は、ユーザ・アプリケーション２０５、ランタイム・ライブラリ２０６、ドライバ２０９、オペレーティング・システム２１１、ハイパーバイザ２１２、ハードウェア２１３（たとえば、中央演算処理装置（ＣＰＵ）２０１およびストレージ・デバイス２０４）などの、侵入から保護すべき１つまたは複数の層を有するシステムとして示され得る。アプリケーション２０５およびランタイム・ライブラリ２０６の下で、１つまたは複数のドライバ２０９が、ハードウェア２１３および／またはＡＩアクセラレータ１０５～１０７にインターフェースするようにインストールされ得る。

【0027】

ドライバ２０９は、１つまたは複数のユーザ・アプリケーション２０５によって要求された処理タスクをスケジューリングするスケジューラ２０９Ａを含み得る。ドライバ２０９は、ＡＩアクセラレータ１０５～１０７上で実行するようにスケジューリングされる処理タスクを解析して、処理スループット、エネルギー消費、ＡＩアクセラレータによって生成される熱などのスケジューリング基準に基づいてＡＩアクセラレータ１０５～１０７をどのように最良に構成するかを決定する論理機構を有するアナライザ２０９Ｂをさらに含み得る。ドライバ２０９は、スケジューリング基準を達成するようにＡＩアクセラレータを構成することを対象とする１つまたは複数のポリシーをさらに含み得る。ＡＩアクセラレータを構成することは、ＡＩアクセラレータを１つまたは複数のグループにグループ化すること、１つまたは複数のグループから１つまたは複数のＡＩアクセラレータを除去することを含み得る。ドライバ２０９はチェックポインタ２０９Ｃをさらに含み得る。チェックポインタ２０９Ｃは、ユーザ・アプリケーション２０５の状態、ＶＭ２０１内のメモリ、スケジューラ２０９Ａ状態、アナライザ２０９Ｂ状態、およびＶＭ２０１内の仮想機能の構成をスナップショットし得る。本明細書では、仮想機能は、人工知能（ＡＩ）アクセラレータ、たとえば１０５内、またはＡＩアクセラレータ１０５．．１０７のクラスタ内のリソースのセットの、仮想マシンへのマッピングである。図３、４Ａ、および４Ｂを参照して、仮想機能が以下で説明される。

【0028】

ＡＩアクセラレータのクラスタ内のＡＩアクセラレータのグループに割り当てられないＡＩアクセラレータは、エネルギーを節約し、熱を削減するために低電力状態に設定され得る。低電力状態は、ＡＩアクセラレータのクロック速度を低減すること、またはＡＩアクセラレータがホスト・デバイスに依然として通信可能に結合されるスタンドバイ状態に入ることを含み得、ＡＩアクセラレータがホスト・デバイスから処理タスクを受信する準備ができている実行状態にされ得る。代替として、クラスタ内のグループに割り当てられないＡＩアクセラレータが、電源投入状態のままにされ得、それによって、ドライバ２０９は、ＡＩアクセラレータのグループのメンバではない単一のＡＩアクセラレータに作業を割り当て得る。

【0029】

ＡＩアクセラレータを構成することは、１つまたは複数のＡＩアクセラレータに、１つまたは複数の他のＡＩアクセラレータとの間の通信リンクを生成（リンクアップ）して、ＡＩアクセラレータのクラスタ内のＡＩアクセラレータのグループを形成するように命令することをさらに含み得る。ＡＩアクセラレータを構成することは、１つまたは複数のＤＰアクセラレートに、ＡＩアクセラレータと１つまたは複数の他のＡＩアクセラレータとの間の通信リンクを切断（リンクダウン）するように命令することをさらに含み得る。ＡＩアクセラレータのリンクアップおよびリンクダウンは、各ＡＩアクセラレータ内の１つまたは複数のリンク・レジスタによって管理され得る。

【0030】

ポリシー・ベースのパーティション実施形態では、ＡＩアクセラレータ構成ポリシーは、各ＡＩアクセラレータについての通信リンク（アップまたはダウン）を記述する単一のポリシーである。各ＡＩアクセラレータの構成は他のＡＩアクセラレータとは異なり得る（通常は異なることになる）が、各ＡＩアクセラレータの構成が単一のポリシー内に含まれ、クラスタ内の各ＡＩアクセラレータは同一のポリシーを受け取る。次いで、各ＡＩアクセラレータは、ＡＩアクセラレータを構成することを記述するポリシーの部分に従って、それ自体を構成する。ポリシー・ベースのパーティションは、スケジューラ２０９Ａ内の処理タスクの解析に基づき得る。解析は、グループへのＡＩアクセラレータの最適な割振りを決定し得る。一実施形態では、スループットを最適化するための、プロセッサのグループ内の、またはプロセッサの複数のグループにわたるタイム・シェア処理タスクが、エネルギー消費および生成される熱を最小限に抑える。グループへのＡＩアクセラレータのポリシー・ベースの区分化の利点は、ＡＩアクセラレータの高速な区分化、各グループ内の、または各グループにわたる処理タスクの柔軟なスケジューリング、ＡＩアクセラレータのタイム・シェアリング、およびグループのタイム・シェアリングを含む。

【0031】

動的パーティション実施形態では、ＡＩアクセラレータ・ポリシーが各ＡＩアクセラレータについて生成される。ドライバ２０９は、ＡＩアクセラレータのグループを再編成すること、すべてのグループから１つまたは複数のＡＩアクセラレータを除去すること、およびそれらのＡＩアクセラレータを低電力状態に設定することを含めて、各ＡＩアクセラレータの構成を動的に変更し得る。動的パーティション実施形態では、ユーザ間でＡＩアクセラレータをタイム・シェアリングするのではなく、ＡＩアクセラレータの各グループが単一のユーザに割り当てられる。ドライバ２０９は、スケジューラ２０９Ａ内の処理タスクを解析して、ＡＩアクセラレータの最適なグループ化を決定するアナライザ２０９Ｂを含み得る。解析は、１つまたは複数のＡＩアクセラレータについての構成を生成し得、構成が、再構成すべきそれぞれのそのようなＡＩアクセラレータに配置され得る。動的区分化の利点は、１つまたは複数のプロセッサを低電力状態に設定することによる省エネルギー、ユーザ間のタイム・スライシングではなく、ＡＩアクセラレータまたはＡＩアクセラレータのグループについてのユーザ専用の処理を含む。

【0032】

ハードウェア２１３は、１つまたは複数のプロセッサ２０１を有する処理システム２０１を含み得る。ハードウェア２１３はストレージ・デバイス２０４をさらに含み得る。ストレージ・デバイス２０４は、１つまたは複数の人工知能（ＡＩ）モデル２０２と、１つまたは複数のカーネル２０３とを含み得る。カーネル２０３は、シグナチャ・カーネル、ウォーターマーク対応カーネル、暗号化および／または解読カーネルなどを含み得る。シグナチャ・カーネルは、実行されるときに、カーネルのプログラミングに従って任意の入力にデジタルに署名し得る。ウォーターマーク対応カーネルは、データ・オブジェクト（たとえば、ＡＩモデルまたは他のデータ・オブジェクト）からウォーターマークを抽出し得る。ウォーターマーク対応カーネルはまた、ＡＩモデル、推論出力、または他のデータ・オブジェクト内にウォーターマークを埋め込み得る。

【0033】

ウォーターマーク・カーネル（たとえば、ウォーターマーク継承カーネル）は、別のデータ・オブジェクトからウォーターマークを継承し、推論出力やＡＩモデルなどの異なるオブジェクト内にそのウォーターマークを埋め込み得る。本明細書では、ウォーターマークは、ＡＩモデルまたはＡＩモデルによって生成された推論に関連する識別子であり、ＡＩモデルまたはＡＩモデルによって生成された推論内に埋め込まれ得る。たとえば、ウォーターマークは、１つまたは複数の重み変数または偏り変数内に埋め込まれ得る。代替として、１つまたは複数のノード（たとえば、人工知能モデルによって使用されない、または使用されない可能性が高いフェイク・ノード）が、ウォーターマークを埋め込み、または記憶するために作成され得る。

【0034】

ホスト・マシン１０４は、ホスト・マシン１０４および／またはＡＩアクセラレータ１０５～１０７上のジョブの実行を制御および管理し得るＣＰＵシステムであり得る。ＡＩアクセラレータ１０５～１０７とホスト・マシン１０４との間の通信チャネル２１５を保護する／曖昧にする目的で、データ侵入または攻撃を受けやすいホスト・システムの異なる層を保護するために、異なる構成要素が必要とされ得る。

【0035】

システム２００は、いくつかの実施形態に従ってホスト・システム１０４およびＡＩアクセラレータ１０５～１０７を含む。任意の数のＡＩアクセラレータがあり得る。ＡＩアクセラレータは、Ｂａｉｄｕ（登録商標）ＡＩチップセット、または人工知能（ＡＩ）集約的コンピューティング・タスクを実施し得るグラフィカル処理装置（ＧＰＵ）などの別のＡＩチップセットを含み得る。一実施形態では、ホスト・システム１０４は、ホスト・マシン１０４内にセキュリティ・モジュール（任意選択のトラステッド・プラットフォーム・モジュール（ＴＰＭ）など）を任意選択で備える１つまたは複数のＣＰＵ２１３を有するハードウェアを含む。任意選択のＴＰＭは、ハードウェア認証のためのホスト・システムに特有の暗号鍵（たとえば、ＲＳＡ暗号鍵）を記憶するエンドポイント・デバイス上の専用チップである。各ＴＰＭチップは、承認鍵（ＥＫ）または承認証明（ＥＣ）、すなわちルート鍵と呼ばれる１つまたは複数のＲＳＡ鍵ペア（たとえば、公開鍵と秘密鍵のペア）を含み得る。鍵ペアは、任意選択のＴＰＭチップ内で維持され、ソフトウェアによってアクセスすることはできない。次いで、ファームウェアおよびソフトウェアの重要なセクションが、許可されないファームウェアおよびソフトウェア修正に対してシステムを保護するために実行される前に、ＥＫまたはＥＣによってハッシュされ得る。したがって、ホスト・マシン上の任意選択のＴＰＭチップは、セキュア・ブートのための信頼の起点として使用され得る。

【0036】

任意選択のＴＰＭチップはまた、ＡＩアクセラレータ１０５～１０７と通信するための作業カーネル・スペース内でドライバ２０９およびオペレーティング・システム（ＯＳ）２１１を保護し得る。ここで、ドライバ２０９はＡＩアクセラレータ・ベンダによって提供され、ホストとＡＩアクセラレータとの間の通信チャネル２１５をユーザ・アプリケーション２０５が制御するためのドライバ２０９として働き得る。任意選択のＴＰＭチップおよびセキュア・ブート・プロセッサは、そのカーネル・スペース内でＯＳ２１１およびドライバ２０９を保護するので、ＴＰＭも実質的にドライバ２０９およびＯＳ２１１を保護する。

【0037】

ＡＩアクセラレータ１０５～１０７のための通信チャネル２１５はＯＳ２１１およびドライバ２０９によって排他的に使用され得るので、通信チャネル２１５は任意選択のＴＰＭチップを通じて保護され得る。一実施形態では、通信チャネル２１５は、ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔ（ＰＣＩ）またはｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ（ＰＣＩＥ）チャネルを含む。一実施形態では、通信チャネル２１５は曖昧にされた通信チャネルである。

【0038】

ランタイム・ライブラリ２０６は、アプリケーション・プログラミング・インターフェース（ＡＰＩ）呼出しを、ＡＩアクセラレータの実行、構成、および／または制御のためのコマンドに変換し得る。一実施形態では、ランタイム・ライブラリ２０６は、ユーザ・アプリケーションによる実行のための（たとえば、事前定義された）カーネルの所定のセットを提供する。一実施形態では、カーネルは、ストレージ・デバイス２０４内にカーネル２０３として記憶され得る。

【0039】

オペレーティング・システム２１１は、任意のＬｉｎｕｘ（登録商標）ディストリビューション、ＵＮＩＸ（登録商標）、Ｗｉｎｄｏｗｓ（登録商標）ＯＳ、Ｍａｃ（登録商標）ＯＳ、または他のオペレーティング・システムであり得る。

【0040】

システムは、任意選択のＴＰＭベースのセキュア・ブートを通じてブートアップし得る。任意選択のＴＰＭセキュア・ブートは、署名／認証されたオペレーティング・システム２１１およびアクセラレータ・ドライバ２０９のみがアクセラレータ・サービスを提供するカーネル・スペース内で起動されることを保証する。一実施形態では、オペレーティング・システム２１１はハイパーバイザ（２１２）を通じてロードされ得る。ハイパーバイザまたは仮想マシン・マネージャ２１２は、仮想マシンを作成および実行するコンピュータ・ソフトウェア、ファームウェア、またはハードウェアである。カーネル・スペースは、ユーザ・アプリケーションに機能およびサービスを提供するためにカーネル（すなわち、実行のための（たとえば、事前定義された）機能の所定のセット）が識別される宣言領域またはスコープである。システムの完全性が損なわれる場合、任意選択のＴＰＭセキュア・ブートがブートアップに失敗し、その代わりにシステムをシャットダウンし得る。

【0041】

ブーティング後に、ランタイム・ライブラリ２０６がユーザ・アプリケーション２０５を実行する。一実施形態では、ユーザ・アプリケーション２０５とランタイム・ライブラリ２０６は静的にリンクされ、一緒に起動される。別の実施形態では、ランタイム・ライブラリ２０６がまず起動され、次いでユーザ・アプリケーション２０５が動的にロードされる。静的にリンクされたライブラリは、コンパイル時にアプリケーションにリンクされたライブラリである。動的ローディングは動的リンカによって実施され得る。動的リンカは、実行時にユーザ・アプリケーションを実行するための共有ライブラリをロードし、リンクする。ここで、ユーザ・アプリケーション２０５およびランタイム・ライブラリ２０６は、実行時に互いに可視であり、たとえば、すべてのプロセス・データが互いに可視である。

【0042】

一実施形態では、ユーザ・アプリケーション２０５は、ランタイム・ライブラリ２０６によって事前に決定されたカーネルのセットからカーネルを呼び出し得るだけである。別の態様では、ユーザ・アプリケーション２０５およびランタイム・ライブラリ２０６は、キャッシュ・ベースのサイド・チャネル攻撃などのサイド・チャネル攻撃から防御するために、サイド・チャネル・フリー・アルゴリズムで強化される。サイド・チャネル攻撃は、実装されたアルゴリズム自体の弱点（たとえば、暗号解析およびソフトウェア・バグ）ではなく、コンピュータ・システムの実装から得られる情報に基づく任意の攻撃である。サイド・チャネル攻撃の例には、仮想化環境またはクラウド環境内の共有物理システムのキャッシュを監視する攻撃者の能力に基づく攻撃であるキャッシュ攻撃が含まれる。強化は、キャッシュ、キャッシュ上に配置される、アルゴリズムによって生成された出力のマスキングを含み得る。次に、ユーザ・アプリケーションが実行を終了したとき、ユーザ・アプリケーションはその実行を終了して退出する。

【0043】

一実施形態では、カーネル２０３のセットは難読化カーネル・アルゴリズムを含む。一実施形態では、難読化カーネル・アルゴリズムは対称または非対称アルゴリズムであり得る。対称難読化アルゴリズムは、同一のアルゴリズムを使用してデータ通信を難読化および難読化解除し得る。非対称難読化アルゴリズムは１対のアルゴリズムを必要とし、対の第１のものが難読化のために使用され、対の第２のものが難読化解除のために使用され、またはその逆である。別の実施形態では、非対称難読化アルゴリズムは、データ・セットを難読化するために使用される単一の難読化アルゴリズムを含むが、データ・セットは難読化解除されることが意図されず、たとえば、対応する難読化解除アルゴリズムが存在しない。

【0044】

難読化とは、通常は紛らわしく曖昧な言い回しで、通信メッセージを理解しにくくすることによって通信の所期の意味を曖昧にすることを指す。曖昧にされたデータは、リバース・エンジニアリングがより難しく、複雑になる。難読化アルゴリズムは、データ通信を曖昧にする（暗号化／解読する）ために、データが通信される前に適用され得、盗聴の機会が低減される。一実施形態では、難読化アルゴリズムは、追加の保護層のために、難読化されたデータをさらに暗号化するための暗号化方式をさらに含み得る。計算集約的であり得る暗号化とは異なり、難読化アルゴリズムは計算を簡略化し得る。

【0045】

いくつかの難読化技法は、限定はしないが、文字難読化、名前難読化、データ難読化、制御フロー難読化などを含み得る。文字難読化は、データ内の１つまたは複数の文字を特定の代替文字で置き換え、データを無意味にするプロセスである。文字難読化の例には、アルファベットに沿って所定の数の場所だけ各文字がシフトされ、または循環される、文字循環機能が含まれる。別の例は、特定のパターンに基づいて文字を並べ直し、または混乱させることである。名前難読化は、特定のターゲット文字列を無意味な文字列で置き換えるプロセスである。制御フロー難読化は、追加のコード（無効なコードの挿入、制御されないジャンプの挿入、代替構造の挿入）でプログラム内の制御フローの順序を変更して、アルゴリズム／ＡＩモデルの真の制御フローを隠し得る。

【0046】

要約すれば、システム２００は、データ機密性および完全性の損失からの、ＡＩアクセラレータのための（機械学習モデル、トレーニング・データ、および推論出力を含むデータ伝送のための）複数の保護層を提供する。システム２００は、任意選択のＴＰＭベースのセキュア・ブート保護層およびカーネル確認／検証層を含み得る。システム２００は、キャッシュ・ベースのサイド・チャネル攻撃などのサイド・チャネル攻撃から防御するように、サイド・チャネル・フリー・アルゴリズムを使用するアプリケーションを含み得る。

【0047】

ランタイム２０６は、ホスト１０４とＡＩアクセラレータ１０５～１０７との間のデータ通信を難読化するために難読化カーネル・アルゴリズムを提供し得る。一実施形態では、難読化は暗号方式と対にされ得る。別の実施形態では、難読化は単独の保護方式であり、ＡＩアクセラレータについて暗号ベースのハードウェアが不要となる。

【0048】

図２Ｂは、一実施形態による、１つまたは複数のホストと１つまたは複数の人工知能（ＡＩ）アクセラレータとの間のセキュア・コンピューティング環境を示すブロック図である。一実施形態では、ホスト・チャネル・マネージャ（ＨＣＭ）２５０は任意選択の認証モジュール２５１、任意選択の終了モジュール２５２、任意選択の鍵マネージャ２５３、任意選択の鍵ストア２５４、および任意選択の暗号エンジン２５５を含む。任意選択の認証モジュール２５１は、ＡＩアクセラレータ１０５のリソースにアクセスし、またはリソースを使用することを許可するために、ホスト・サーバ１０４上で実行中のユーザ・アプリケーションを認証し得る。ＨＣＭ２５０は、通信チャネル２１５を介してＡＩアクセラレータ２１５のアクセラレータ・チャネル・マネージャ（ＡＣＭ）２８０と通信し得る。

【0049】

任意選択の終了モジュール２５２は接続を終了し得る（たとえば、接続に関連するチャネルが終了される）。任意選択の鍵マネージャ２５３は、異なるセキュア・データ交換チャネルについての１つまたは複数のデータ・パケットの暗号化／解読のための非対称鍵ペアまたは対称鍵を管理（たとえば、作成または破壊）し得る。ここで、（図２Ａのユーザ・アプリケーション２０５の部分としての）各ユーザ・アプリケーションは、異なるセキュア・データ交換チャネルに対応し、または１対多関係でマッピングされ得、各データ交換チャネルはＡＩアクセラレータ１０５に対応し得る。各アプリケーションは複数のセッション鍵を利用し得、各セッション鍵は、ＡＩアクセラレータ（たとえば、アクセラレータ１０５～１０７）に対応するセキュア・チャネルのためのものである。任意選択の鍵ストア２５４は暗号化非対称鍵ペアまたは対称鍵を記憶し得る。任意選択の暗号エンジン２５５は、セキュア・チャネルのいずれかを通じて交換されるデータについてのデータ・パケットを暗号化または解読し得る。これらのモジュールのうちのいくつかは、より少数のモジュールに統合され得ることに留意されたい。

【0050】

一実施形態では、ＡＩアクセラレータ１０５は、ＡＣＭ２８０、非機密リソース２９０、および機密リソース２７０を含む。ＡＣＭ２８０は、たとえばリソース・アクセス制御などの、ホスト１０４とＡＩアクセラレータ１０５との間の通信を管理する役割を果たすＨＣＭ２５０に対応するモジュールである。ＡＣＭ２８０は、ホスト・サーバ１０４とＡＩアクセラレータ１０５との間の通信チャネル２１５を確立するためにホスト・サーバ１０４のＨＣＭ２５０と協働するリンク構成モジュール２８１を含む。ＡＣＭ２８０はリソース・マネージャ２８２をさらに含む。リソース・マネージャ２８２は、機密リソース２７０および非機密リソース２９０への制限付きアクセスを実施する。一実施形態では、機密リソース２７０は、ＡＩアクセラレータ１０５内の第１の範囲のアドレス空間を占有する。非機密リソース２９０は、ＡＩアクセラレータ１０５内の第２の範囲のアドレス空間を占有する。一実施形態では、第１および第２のアドレス空間は相互に排他的であり、重複しない。一実施形態では、リソース・マネージャ２８２は、機密リソース２７０と非機密リソース２８０の両方に対するホスト・サーバ１０４によるアクセスを許可する論理機構（たとえば、アクセス制御論理機構）をさらに含む。一実施形態では、リソース・マネージャ２８２は、以下でさらに説明されるように、ホスト・サーバ１０４から受信したアクセスおよび構成ポリシーを実施する。

【0051】

機密リソース２７０は、任意選択の鍵マネージャ２７１、任意選択の鍵ストア２７２、真の乱数発生器２７３、任意選択の暗号エンジン２７４、およびメモリ／ストレージ２７７を含み得る。任意選択の鍵マネージャ２７１は非対称鍵ペアまたは対称鍵を管理（たとえば、生成、保護、および／または破壊）し得る。任意選択の鍵ストア２７２は、機密リソース２７０内のセキュア・ストレージ内に暗号非対称鍵ペアまたは対称鍵を記憶し得る。真の乱数発生器２７３は、鍵生成と、リンクされたＡＩアクセラレータを認証することなどの暗号エンジン２７４での使用のためのシードを生成し得る。任意選択の暗号エンジン２７４は、データ交換のために鍵の情報またはデータ・パケットを暗号化または解読し得る。メモリ／ストレージ２７７は、ＡＩモデル２７５およびカーネル２７６のためのストレージを含み得る。カーネル２７６は、ウォーターマーク・カーネル（継承ウォーターマーク・カーネル、ウォーターマーク対応カーネル、ウォーターマーク・シグナチャ・カーネルなどを含む）、暗号化および解読カーネル、および関連データを含み得る。

【0052】

ＡＩアクセラレータ１０５は非機密リソース２９０をさらに含み得る。非機密リソース２９０は、１つまたは複数のプロセッサまたは処理論理機構２９１、およびメモリ／ストレージ２９２を含み得る。プロセッサまたは処理論理機構１９２は、ＡＩタスク（たとえば、機械学習プロセス）などの様々な処理タスクを実施するために命令またはプログラムを実行することができる。

【0053】

リンク構成モジュール２８１は、ＡＩアクセラレータから他のＡＩアクセラレータへのリンクまたは経路を確立または接続し、あるいはＡＩアクセラレータから別のＡＩアクセラレータへのリンクまたは経路を終了または切断する役割を果たす。一実施形態では、ＡＩアクセラレータのグループに加わる（たとえば、ホストからの）要求に応答して、リンク構成モジュール２８１は、対応するＡＩアクセラレータからグループまたはクラスタ内のＡＩアクセラレータのうちの少なくともいくつかへのリンクまたは経路を確立し、それによって、ＡＩアクセラレータは、他のＡＩアクセラレータと通信し得、たとえば、ＡＩ処理のために他のＡＩアクセラレータのリソースにアクセスする。同様に、ＡＩアクセラレータの第１のグループからＡＩアクセラレータの第２のグループに切り換える要求に応答して、リンク構成モジュール２８１は、第１のグループからの対応するＡＩアクセラレータの既存のリンクを終了し、ＡＩアクセラレータの第２のグループへの新しいリンクを確立する。

【0054】

一実施形態では、ＡＩアクセラレータ１０５はＡＩ処理装置（図示せず）をさらに含み、ＡＩ処理装置はＡＩトレーニング・ユニットおよびＡＩ推論ユニットを含み得る。ＡＩトレーニングおよび推論ユニットは、機密リソース２７０内の単一のユニットに統合され得る。ＡＩトレーニング・モジュールは、トレーニング・データのセットを使用してＡＩモデルをトレーニングするように構成される。トレーニングされるＡＩモデルおよびトレーニング・データは、ホスト・システム１０４から通信リンク２１５を介して受信され得る。一実施形態では、トレーニング・データは非機密リソース２９０内に記憶され得る。ＡＩモデル推論ユニットは、入力データのセット（たとえば、入力特徴のセット）に関してトレーニング済み人工知能モデルを実行して、入力データを推論および分類するように構成され得る。たとえば、イメージがＡＩモデルに入力され、イメージが人、風景などを含むかどうかが識別され得る。トレーニング済みＡＩモデルおよび入力データはまた、ホスト・システム１０４から通信リンク２１５を介してインターフェース１４０を経由して受信され得る。

【0055】

一実施形態では、機密リソース２７０内のウォーターマーク・ユニット（図示せず）が、ウォーターマーク・ジェネレータおよびウォーターマーク・インスクライバ（「ウォーターマーク・インプランタ」とも呼ばれる）を含み得る。ウォーターマーク・ユニット（図示せず）は、カーネル２７６を実行するための機密リソース２７０のウォーターマーク・カーネル・エグゼキュータまたはカーネル・プロセッサ（図示せず）を含み得る。一実施形態では、カーネルがホスト１０４から受信され、または永続的または非永続的ストレージから検索され、ＡＩアクセラレータ１０５の機密リソース２７０内のカーネル・メモリ２７６内で実行され得る。ウォーターマーク・ジェネレータは、所定のウォーターマーク・アルゴリズムを使用してウォーターマークを生成するように構成される。代替として、ウォーターマーク・ジェネレータは、既存のウォーターマークからウォーターマークを継承し、またはホスト・システム１０４から受信され得る、人工知能モデルや入力データのセットなどの別のデータ構造またはデータ・オブジェクトからウォーターマークを抽出し得る。ウォーターマーク・インプランタは、人工知能モデルや人工知能モデルによって生成された出力データなどのデータ構造内にウォーターマークを記し、または埋め込むように構成される。ウォーターマークが埋め込まれた人工知能モデルまたは出力データは、通信リンク２１５を介してＡＩアクセラレータ１０５からホスト・システム１０４に返され得る。ＡＩアクセラレータ１０５～１０７は同一または同様の構造または構成要素を有し、ＡＩアクセラレータに関する説明は、本願全体にわたってすべてのＡＩアクセラレータに適用可能となることに留意されたい。

【0056】

図３は、一実施形態による、各クラスタがクラスタ内のＡＩアクセラレータのグループ３１１のリソースをホスト上の仮想マシンにマッピングする仮想機能を有し、各人工知能アクセラレータがセキュア・リソースおよび非セキュア・リソースを有する、人工知能アクセラレータのクラスタ３１０を制御するホスト１０４を示すブロック図である。

【0057】

ホスト１０４は、アプリケーション２０５、たとえば人工知能（ＡＩ）アプリケーション、ランタイム・ライブラリ２０６、１つまたは複数のドライバ２０９、オペレーティング・システム２１１、およびハードウェア２１３を含み得、それぞれは、図２Ａおよび２Ｂを参照して上記で説明されたものであり、ここでは繰り返さない。仮想コンピューティング実施形態では、ホスト１０４は、ＶＭｗａｒｅ（登録商標）ｖＳｐｈｅｒｅ／ＥＳＸｉ（登録商標）やＭｉｃｒｏｓｏｆｔ（登録商標）Ｈｙｐｅｒ－Ｖ（登録商標）などのハイパーバイザ２１２をさらに含み得る。ハイパーバイザ２１２は、物理サーバ上で直接実行されるタイプ１「ベア・メタル」または「ネイティブ」ハイパーバイザであり得る。一実施形態では、ハイパーバイザ２１２は、任意の他のアプリケーションのようにオペレーティング・システム２１１内部にロードされ、オペレーティング・システム２１１によって管理されるタイプ２ハイパーバイザであり得る。どちらのケースでも、ハイパーバイザ２１２は、ホスト１０４上の１つまたは複数の仮想マシン（図示せず）をサポートし得る。そのような一態様では、仮想マシン（図示せず）は、図１のクライアント・デバイス１０１および１０２として扱われ得る。

【0058】

人工知能（ＡＩ）アクセラレータ・クラスタ３１０は、図２Ａおよび２Ｂを参照して上記で説明されたＡＩアクセラレータ１０５～１０７を備え得る。図３を参照すると、ＡＩアクセラレータ・クラスタ３１０は、たとえば、ＡからＨと符号が付けられた８つのＡＩアクセラレータを含み得る。アクセラレータ・クラスタ３１０内の各ＡＩアクセラレータは、アクセラレータ・クラスタ３１０内の１つまたは複数の他のＡＩアクセラレータに対する１つまたは複数の通信リンク２１５を有し得る。ＡＩアクセラレータ通信リンク２１５は、図２Ａおよび２Ｂを参照して上記で説明される。クラスタ３１０内の各ＡＩアクセラレータは、ホスト１０４のドライバ２０９から受信したポリシーに従って構成される。クラスタ３１０内の各ＡＩアクセラレータは、機密リソース２７０および非機密２９０リソースを有し得る。

【0059】

図３に示される例では、ＡＩアクセラレータＡ～Ｄは、４つのＡＩアクセラレータの第１のグループ３１１として構成される。第１のグループ３１１内のＡＩアクセラレータのリソースは、仮想機能ＶＦ１によって構成および管理され、第１の仮想マシンに関連付けられる。ＡＩアクセラレータＥ～Ｈは、４つのＡＩアクセラレータの第２のグループ３１２として構成される。第２のグループ３１２内のＡＩアクセラレータのリソースは、仮想機能ＶＦ２によって構成および管理され、第２の仮想マシンに関連付けられる。２つのグループ３１１および３１２のリソースは相互に排他的であり、２つのグループのどちらかのユーザは、２つのグループの他方のリソースにアクセスすることはできない。ＡＩアクセラレータの第１のグループ３１１では、各ＡＩアクセラレータは、別のアクセラレータに対する直接的な通信リンク、たとえばＡ－Ｂ、Ａ－Ｃ、Ｂ－Ｄ、およびＣ－Ｄを有し、または１つまたは複数の介在アクセラレータを介する、別のアクセラレータに対する通信経路、たとえばＡ－Ｂ－Ｄ、Ａ－Ｃ－Ｄなどを有する。第２のグループ３１２は、第２のグループ３１２内の各ＡＩアクセラレータ間、および第２のグループ３１２内の互いのＡＩアクセラレータ間の直接的通信リンクを有するものとして示されている。ドライバ２０９はポリシーを生成し得、グループ内の各ＡＩアクセラレータは、グループ内の他のＡＩアクセラレータのそれぞれまたはいくつかとの間の直接的通信リンクを有する。第１のグループ３１１のケースでは、ドライバ２０９は、たとえばＡＩアクセラレータＡおよびＤが互いの間の通信リンクを生成し、ＡＩアクセラレータＢおよびＣが互いの間の通信リンクを生成するための命令をさらに含むポリシーを生成し得る。任意の数のグループ内に構成された、クラスタ３１０内の任意の数のＡＩアクセラレータが存在し得る。

【0060】

静的ポリシー・ベースの実施形態では、ＡＩアクセラレータのそれぞれについての構成を定義し、ドライバ２０９からクラスタ３１０内のすべてのＡＩアクセラレータに送信される単一のポリシー。一実施形態では、ドライバ２０９は、クラスタ内のすべてのＡＩアクセラレータに、単一のブロードキャスト・メッセージでポリシーを送信し得る。各ＡＩアクセラレータはポリシーを読み取り、クラスタ３１０内の１つまたは複数のＡＩアクセラレータとの間の通信リンクを作成（リンクアップ）または切断（リンクダウン）し、それによって、ＡＩアクセラレータを１つまたは複数のグループに構成する。図３では、４つのＡＩアクセラレータの２つのグループとして構成された８つのＡＩアクセラレータがある。グループ内の各ＡＩアクセラレータは、グループ内の各ＡＩアクセラレータに対する直接的通信リンクを有し、あるいはＡＩアクセラレータがそれに対する直接的通信リンクを有する１つまたは複数のＡＩアクセラレータを介する、グループ内の各ＡＩアクセラレータに対する間接的通信経路を有する。静的ポリシー・ベースの環境では、ドライバ２０９のスケジューラ２０９Ａは、アプリケーション２０５および／または仮想マシンのユーザの間のタイム・スライシングを使用して、クラスタ３１０の１つまたは複数のグループに関する処理タスクをスケジューリングし得る。一実施形態では、アクセラレータ・クラスタ３１０内のアクセラレータの各グループは、異なる別々のスケジューラ２０９Ａを有し得る。静的ポリシーはドライバ２０９によって変更され得、クラスタ３１０内のＡＩアクセラレータのそれぞれについての構成を記述する新しいポリシーが生成される。

【0061】

クラスタ３１０内の各ＡＩアクセラレータ（たとえば、リンク構成モジュール２８１および／またはリソース・マネージャ２８２）は、ポリシーに従ってそれ自体を再構成し、ＡＩアクセラレータと、クラスタ３１０内の１つまたは複数の他のＡＩアクセラレータとの間の通信リンクを作成（リンクアップ）または切断（リンクダウン）する。静的ポリシー・ベースの構成は、構成が単一のメッセージ、たとえばブロードキャスト・メッセージで送信され、各ＡＩアクセラレータがクラスタ３１０内の他のＡＩアクセラレータとほぼ並列にそれ自体を構成するという点で高速である。すべてのＡＩアクセラレータについてのポリシーがすべてのＡＩアクセラレータに同時に送信されるので、構成が非常に迅速に行われ得る。たとえば、ポリシーが、ＡＩアクセラレータ「Ｂ」に対するリンクを生成する、ＡＩアクセラレータ「Ａ」に対する命令を含む場合、ポリシーはまた、ＡＩアクセラレータＢがＡＩアクセラレータＡに対するリンクを生成すべきであるという命令を有する。各ＡＩアクセラレータは、リンクのそれ自体の端部をほぼ同時に開き得、それによって、ＡＩアクセラレータＡとＡＩアクセラレータＢとの間のリンクを非常に迅速に開く。一実施形態では、単一のポリシーはＡＩアクセラレータの隣接テーブルとして表現され得る。

【0062】

静的ポリシー・ベースの構成はまた、異なるユーザ間のタイム・スライス・スケジューリングをサポートし、ユーザの処理タスクをクラスタ３１０内の複数のＡＩアクセラレータ・グループに割り振ることをサポートするという点でも効率的である。静的ポリシーは、スケジューラ２０９Ａ内の処理タスクの特性を決定するアナライザ２０９Ｂから生成され得る。たとえば、スケジューラ２０９Ａは、推論を実施し、またはＡＩモデルをさらにトレーニングするために同一のＡＩモデルを使用する多数のタスクを含み得る。アナライザは、ＡＩモデルに関する推論またはトレーニングを実施する準備をするようにいくつかのＡＩアクセラレータを構成するポリシーを生成し得る。構成は、ＡＩアクセラレータのグループ化を識別すること、およびスケジューラ２０９Ａ内の処理タスクに備えて、１つまたは複数のＡＩモデルをＡＩアクセラレータのうちの１つまたは複数の機密メモリ内にロードすることを含み得る。

【0063】

動的ポリシー・ベースの実施形態では、ドライバ２０９は、ＡＩアクセラレータの構成を達成するように、クラスタ３１０内の各ＡＩアクセラレータを個々に構成し得る。ポリシーは、各ＡＩアクセラレータに別々に送信される。実際には、動的ポリシー・ベースの実施形態では、各ＡＩアクセラレータに送信されるポリシーは、通常は互いに異なる。ＡＩアクセラレータはポリシーを受信し、ポリシーに従ってそれ自体を構成する。構成は、ＡＩアクセラレータがそれ自体をクラスタ３１０内のグループ内に、またはグループ外に構成することを含む。ＡＩアクセラレータは、ポリシーに従って、グループ内の少なくとも１つのＡＩアクセラレータとの間の通信リンクを作成する（リンクアップ）ことによってそれ自体をグループ内に構成する。ＡＩアクセラレータは、ＡＩアクセラレータとグループ内のすべてのＡＩアクセラレータとの間の通信リンクを切断する（リンクダウン）ことによってグループから出る。構成後、ＡＩアクセラレータがＡＩアクセラレータのどのグループのメンバでもない場合、ＡＩアクセラレータは、熱を削減し、エネルギーを節約するために低電力モードに設定され得る。一実施形態では、スケジューラ２０９Ａは、スケジューラ２０９Ａがそれに関してクラスタ３１０に対する処理タスクをスケジューリングしている各ユーザまたはアプリケーションに、ＡＩアクセラレータまたはＡＩアクセラレータ・グループを割り当てる。

【0064】

図４Ａは、一実施形態による、仮想化環境内のチェックポイント認証を用いる仮想マシン移行のための方法を実装する人工知能（ＡＩ）アクセラレータを有するデータ処理システムの構成要素を示すブロック図である。

【0065】

ソース・ホスト（ＨＯＳＴ－Ｓ）４０１は、ネットワーク１０３を介してターゲット・ホスト（ＨＯＳＴ－Ｔ）４５１に移行すべき第１の（ソース）ＶＭ（ＶＭ１－Ｓ）などの複数の仮想マシン（ＶＭ）をサポートし得る。ネットワーク１０３は、上記で図１を参照して説明されたように、任意のネットワークであり得る。ＨＯＳＴ－Ｓ４０１はまた、ＶＭ２やＶＭ３などの追加のＶＭをサポートし得る。仮想マシンＶＭ１－Ｓ、ＶＭ２、およびＶＭ３（それぞれ「４０２」と符号が付けられる）はそれぞれ、少なくとも１つのアプリケーション４０３および少なくとも１つのドライバ４０４を含み得る。ドライバ４０４は、ドライバ４０４を含むＶＭ４０２がハイパーバイザ４０５、ＣＰＵ４０６、およびバス４０７を介してＶＭ４０２に通信可能に結合される１つまたは複数の人工知能（ＡＩ）アクセラレータ４１０と通信することを可能にする１つまたは複数の機能ライブラリおよびアプリケーション・プログラミング・インターフェース（ＡＰＩ）を含み得る。

【0066】

ハイパーバイザＸ４０５は、ＨＯＳＴ－Ｓ４０１のハードウェア上で実行中の「ベア・メタル」ハイパーバイザを含む任意のタイプのハイパーバイザであり得、またはハイパーバイザは、ＣＰＵ４０６やメモリ（図示せず）などのホストのハードウェア上で実行中のＨＯＳＴ－Ｓ４０１のオペレーティング・システム（図示せず）を実行し得る。ＣＰＵ４０６は、汎用プロセッサ、マルチコア・プロセッサ、パイプライン型プロセッサ、並列プロセッサなどの任意のタイプのＣＰＵであり得る。バス４０７は、ｐｅｒｉｐｈｅｒａｌｃｏｍｐｏｎｅｎｔｉｎｔｅｒｃｏｎｎｅｃｔｅｘｐｒｅｓｓ（ＰＣＩｅ）、光ファイバ・バス、他のタイプの高速バスなどの任意のタイプの高速バスであり得る。図２Ａ、２Ｂ、および３を参照して上記で説明されたように、通信チャネル２１５、バス４０７を介する通信は暗号化され得る。バス４０７は、１つまたは複数の人工知能（ＡＩ）アクセラレータ４１０にＣＰＵ４０６を通信可能に結合する。各ＶＭは、他のＶＭのそれぞれの暗号化通信チャネル２１５とは異なる１つまたは複数の鍵を使用する、別々に暗号化された通信チャネル２１５を有し得る。

【0067】

各ＡＩアクセラレータ４１０は、図４では参照番号４１１とそれぞれ符号が付けられたＶＦ１、ＶＦ２、．．．ＶＦｎなどの１つまたは複数の仮想機能をホストし得る。仮想機能４１１は、アクセラレータＡＣＣ１４１０のリソース４１２、たとえばＲＥＳ１、ＲＥＳ２、．．．ＲＥＳｎを特定のホスト仮想マシン４０２にマッピングする。各仮想マシン４０２はユーザを有する。特定のＶＭ４０２（たとえばＶＭ１－Ｓ）に関連する仮想機能４１１は、特定のＶＭ４０２（たとえばＶＭ１－Ｓ）のユーザのみによってアクセスされ得る。仮想マシン・リソースはそれぞれ、図４では参照番号４１２と符号が付けられる。仮想マシン・リソース４１２は、図２Ｂを参照して上記で説明され、非機密リソース２９０（処理論理機構２９１およびメモリ／ストレージ２９２を含む）、アクセラレータ・チャネル・マネージャ２８０（リンク構成２８１およびリソース・マネージャ２８２を含む）、機密リソース２７０（ＡＩモデル２７５、カーネル２７６、メモリ／ストレージ２７７、および鍵マネージャ２７１、鍵ストア２７２、真の乱数発生器２７３、および暗号エンジン２７４を含む）のようなリソースを含む。以下でより完全に説明されるように、仮想マシン、たとえばＶＭ１－Ｓがターゲット・ホスト、たとえばＨＯＳＴ－Ｔ４５１に移行された後、少なくとも機密リソースが消去されるべきであり、その結果、ＶＭ１－Ｓの移行後仮想機能がターゲット・ホストＨＯＳＴ－Ｔ４５１に移行され、ＶＭ１－Ｓの移行後仮想機能の今や未使用のリソースが新しいＶＭに割り当てられた後、移行後ＶＭ１－Ｓの機密データおよびＶＭ１－Ｓに関連する仮想機能に関連する機密データが、新しいＶＭにとってアクセス可能とはならない。

【0068】

ターゲット・ホスト、たとえばＨＯＳＴ－Ｔ４５１は、ＨＯＳＴ－Ｓ４０１と同一または類似のハードウェアおよびソフトウェア構成であり得る。アクセラレータ４１０およびアクセラレータ４６０は、それぞれのプロセッサについて互換命令セットを有するなど、同一または類似のタイプであるべきである。ＨＯＳＴ－Ｔ４５１は、ＶＭ１－ＳがＶＭ１－Ｔに移行され得るように、ＶＭ－Ｓによって必要とされ得る、利用可能な十分なリソースを量的に有するべきである。質的に、ＨＯＳＴ－Ｓ４０１およびＨＯＳＴ－Ｔ４５１は、互換オペレーティング・ハードウェアおよびソフトウェアを有するべきである。たとえば、ＨＯＳＴ－Ｓ４０１のアクセラレータ４１０は、ＨＯＳＴ－Ｔ４５１上のアクセラレータＡＣＣ２４６０と同一の製造業者、および互換モデルであり得、そうでない場合、移行が成功しないことがある。

【0069】

チェックポイント４２０は、ＨＯＳＴ－Ｓ４０１からＨＯＳＴ－Ｔ４５１へのＶＭ１－Ｓの移行の一部として移行されている仮想機能４１１（たとえばＶＦ１）までの、その仮想機能４１１を含む、ＶＭ１－Ｓの状態のスナップショットである。ＶＭ１－Ｓのチェックポイント、および関連する仮想機能は、以下の情報を含み得る。一実施形態では、チェックポイントは、アクセラレータ４１０内部のリソース４１２内に含まれる情報を含まない。チェックポイント内に含まれる以下の情報のリストは、例としてのものであり、限定ではない。移行すべき仮想マシンおよび仮想機能のチェックポイント４２０についての以下の情報の表に当業者は追加し、または表から削除し得る。

【0070】

【表1】

【0071】

チェックポインタ２０９Ｃは、図６で説明されるイベントに従ってチェックポイント・フレーム４２０を生成し得る。チェックポイント・フレーム４２０は、たとえば指定の時間の増分で、システム例外または障害の検出時に、またはチェックポイント・フレーム４２０を取得する命令の受信時に生成され得る。そのような命令は、管理者やエンド・ユーザなどのユーザから来ることがある。各チェックポイント・フレーム４２０は、たとえば１ギガバイト（ＧＢ）程度のサイズであり得る。一実施形態では、チェックポインタ２０９は、チェックポイント・フレーム４２０を指定の数ｋまで記憶する環状バッファを含み得る。バッファが満杯であるとき、次に追加されるフレームが、最も古いチェックポイント・フレーム４２０を上書きする。仮想マシンおよび仮想機能を移行するとき、ユーザは、ユーザが移行のために望む実行中のアプリケーション４０３の既知の状態を表す、移行を実施するために使用する特定のチェックポイント・フレーム４２０を選択し得る。実施形態では、移行は、デフォルトで最新のチェックポイント・フレーム４２０を使用する。一実施形態では、ソースＶＭ１－Ｓの移行中にソースＶＭ１－Ｓからターゲット・ホストＨＯＳＴ－Ｔ４５１のハイパーバイザにチェックポイント・フレーム４２０を送信する前に、チェックポイント・フレーム４２０、チェックポイント・フレーム４２０のハッシュ、およびチェックポイント・フレーム４２０の日付およびタイム・スタンプがデジタルに署名され得る。

【0072】

ターゲット・ホストＨＯＳＴ－Ｔ４５１のハイパーバイザ４５５がチェックポイント・フレーム４２０を受信したとき、ハイパーバイザ４５５は、ＶＭ１－Ｓの公開鍵を使用してチェックポイント・フレーム４２０を解読し、日付およびタイム・スタンプが所定の時間ウィンドウ内にあることを確認し、チェックポイント・フレームのハッシュを検証し得る。日付およびタイム・スタンプを検証することは、チェックポイント・フレーム４２０のフレッシュネスを確認する。ターゲット・ＨＯＳＴ－Ｔ４５１のハイパーバイザ４５５がチェックポイント・フレーム４２０を確認した場合、ＨＯＳＴ－Ｔ４５１のハイパーバイザ４５５は、ＨＯＳＴ－Ｔ４５１のソースＶＭ１－Ｓについてのリソースを割り振って、ＶＭ１－Ｔ４５２を生成する。

【0073】

次に図４Ｂを参照すると、チェックポインタ２０９はＡＩアクセラレータ・ステータス・フレーム４２１をさらに取得する。ＡＩアクセラレータ・ステータス・フレーム４２１がＡＩアクセラレータ４１０内部の情報を取り込むという点で、ＡＩアクセラレータ・ステータス・フレーム４２１はチェックポイント・フレーム４２０とは異なる。ＡＩアクセラレータ・ステータス・フレームの取り込まれた内容は、ＡＩアクセラレータ内部の１つまたは複数のレジスタの内容、たとえばＡＩモデル、カーネル、中間推論計算などを含むセキュア・メモリおよび非セキュア・メモリの内容を含み得る。ＡＩアクセラレータ・ステータス・フレーム４２１はチェックポイント・フレーム４２０と同時に取得され得、その結果、ＡＩアクセラレータ・ステータス・フレーム４２１から得られる情報は、移行すべきＶＭ１－Ｓの最新のチェックポイント・フレーム４２０と、仮想マシン、たとえばＶＭ１－Ｓに対するＡＩアクセラレータ４１０のリソースの割振りをマッピングする、関連する仮想機能とに関して「フレッシュ」（現行）である。一実施形態では、チェックポイント・フレーム４２０の後、および実行中のアプリケーション４０３の保留中のＡＩタスクが停止した後に、ＡＩアクセラレータ・ステータス・フレーム４２１が取得され得る。そのような実施形態は、ＡＩアクセラレータ・ステータス・フレーム４２１が、移行後に確実に再始動することが難しいことがある部分的な進行中プロセスまたはスレッドに対応するＡＩアクセラレータのステータスを記憶することを回避する。

【0074】

ＡＩアクセラレータ・ステータス・フレーム４２１は以下の情報を含み得る。以下の情報は、例としてのものであり、限定ではない。特定のシステム・インストールについての表内の情報に当業者は追加し、または表から削除し得る。ＶＭ１－Ｓの移行中にターゲット・ホストＨＯＳＴ－Ｔ４５１のハイパーバイザ４５５にフレームを送信する前に、ＡＩアクセラレータ・ステータス・フレーム４２１、フレームのハッシュ、ならびにフレームのデータおよびタイム・スタンプが、ＡＩアクセラレータ４１０の秘密鍵、または仮想マシンＶＭ１－Ｓの秘密鍵でデジタルに署名され得る。仮想マシンＶＭ１－Ｓおよび仮想機能を移行するとき、ユーザは特定のＡＩアクセラレータ・ステータス・フレーム４２１を選択し得、またはチェックポイント・フレーム４２０の選択に応答して、かつソースＶＭ１－Ｓをターゲット・ＨＯＳＴ－Ｔ４５１に移行する命令を受信したことに応答して、フレーム４２１が生成され得る。実施形態では、移行は、デフォルトで最新のチェックポイント・フレーム４２０に関連するＡＩアクセラレータ・ステータス・フレーム４２１を使用する。一実施形態では、ソースＶＭ１－Ｓの移行中にソースＶＭ１－Ｓからターゲット・ホストＨＯＳＴ－Ｔ４５１のハイパーバイザ４５５にＡＩアクセラレータ・ステータス・フレーム４２１を送信する前に、ＡＩアクセラレータ・ステータス・フレーム４２１、ＡＩアクセラレータ・ステータス・フレーム４２１のハッシュ、ならびにＡＩアクセラレータ・ステータス・フレーム４２１の日付およびタイム・スタンプがデジタルに署名され得る。

【0075】

ターゲット・ホストのハイパーバイザ４５５がＡＩアクセラレータ・ステータス・フレーム４２１を受信したとき、ハイパーバイザは、ＶＭ１－Ｓの公開鍵、または一実施形態ではＶＭ１－ＳのＡＩアクセラレータ４１０の公開鍵を使用して、ＡＩアクセラレータ・ステータス・フレーム４２１を解読し得、日付およびタイム・スタンプが所定の時間ウィンドウ内にあることを確認し、ＡＩアクセラレータ・ステータス・フレーム４２１のハッシュを検証する。日付およびタイム・スタンプに関するチェックは、ＡＩアクセラレータ・ステータス・フレーム４２１のフレッシュネスを確認する。ターゲット・ＨＯＳＴ－Ｔ４５１のハイパーバイザ４５５がＡＩアクセラレータ・ステータス・フレーム４２１を確認した場合、ＨＯＳＴ－Ｔ４５１のハイパーバイザ４５５は、ＡＩアクセラレータ・ステータス・フレームの内容をＶＭ１－Ｔ４５２上のＡＩアクセラレータＡＣＣ２４６０にコピーし得る。

【0076】

【表2】

【0077】

図５Ａは、一実施形態による、移行すべき仮想マシンをホストするソース・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシン移行のための方法５００を示す。方法５００は、ターゲット・ホスト、たとえばＨＯＳＴ－Ｔ４５１に、移行後仮想マシンＶＭ１－Ｔとして移行すべきソース仮想マシン、たとえばＶＭ１－Ｓ上で実施され得る。

【0078】

動作６００では、ＶＭ１－Ｓの論理機構が、１つまたは複数の人工知能（ＡＩ）アクセラレータ、たとえばＡＣＣ１４１０を利用するアプリケーション４０３を実行中のＶＭ１－Ｓのチェックポイント・フレーム４２０を記憶するかどうかを決定し得る。図４Ａを参照して上記で説明されたように、チェックポイント・フレーム４２０は、アプリケーション４０３、アプリケーションを実行中のスレッド、実行中スレッドを含むスケジューラ２０９Ａ、アプリケーションに関するＶＭ１－Ｓによって割り振られるメモリ、および１つまたは複数のＡＩアクセラレータのリソースをＶＭ１－Ｓにマッピングする仮想機能を含むＶＭ１－Ｓのスナップショットを含む。一実施形態では、任意選択で、チェックポイント・フレーム４２０を生成することはまた、ＡＩアクセラレータ・ステータス・フレーム４２１を取得することをトリガし得る。一実施形態では、以下の動作８００でアプリケーション４０３に関連する１つまたは複数のＡＩタスクが休止または停止した後に、ＡＩアクセラレータ・ステータス・フレーム４２１が生成および記憶され得る。動作６００は、図６を参照して以下で詳細に説明される。

【0079】

動作７００では、ＶＭ１－Ｓは、ＶＭ１－Ｓを移行するかどうかを決定し得る。決定は、管理者やエンド・ユーザなどからのユーザ・コマンドの受信に基づき得る。一実施形態では、ＶＭ１－Ｓを移行する決定は、例外または障害規定値が規定値より上であることに基づき得る。動作７００は、図７を参照して以下で詳細に説明される。

【0080】

動作８００では、ＶＭ１－Ｓ、アプリケーション、および関連するＡＩアクセラレータについての仮想機能をターゲット・ホスト４５１に移行するコマンドを受信したことに応答して、かつ移行を実施する際に使用するチェックポイント・フレーム４２０の選択を受信したことに応答して、チェックポインタ２０９Ｃは、実行中のアプリケーションに関する１つまたは複数の実行中のＡＩタスクの状態を記録し、次いで１つまたは複数の実行中のＡＩタスクを停止または休止する。次いでＶＭ１－Ｓは、ＶＭ１－Ｓおよび仮想機能をターゲット・ホストに移行するためのプロセス８００を開始する。動作８００は、図８を参照して以下で説明される。

【0081】

動作９００では、ＶＭ１－Ｓが、ターゲット・ホスト４５１のハイパーバイザ４５５から、ハイパーバイザ４５５がチェックポイント４２０を首尾よく確認し、移行が完了したという通知を受信したことに応答して、ソース・ホストのハイパーバイザは、ターゲット・ホスト４５１上のハイパーバイザ４５５に、ＶＭ１－Ｔ内の移行後アプリケーションおよび記録済みタスクを再始動するように命令する。任意選択で、ＶＭ１－Ｓは、仮想機能を通じて、ＶＭ１－Ｓ、およびＶＭ１－Ｓに関連する１つまたは複数のＡＩアクセラレータの移行後クリーンアップを実施する。方法９００は、図９を参照して以下で説明される。方法５００は終了する。

【0082】

図５Ｂは、一実施形態による、移行すべきソース仮想マシンをホストするソース・ハイパーバイザの観点からの、仮想化環境内のＡＩアクセラレータ・ステータス確認を使用するＡＩアクセラレータを有するデータ処理システム上の仮想マシン移行のための方法５５０を示す。方法５５０は、ターゲット・ホスト、たとえばＨＯＳＴ２４５１に、移行後仮想マシンＶＭ１－Ｔとして移行すべきソース仮想マシン、たとえばＶＭ１－Ｓ上で実施され得る。

【0083】

動作８００では、ＶＭ１－Ｓ、ＶＭ１－Ｓ上で実行中のアプリケーション、および関連するＡＩアクセラレータについての仮想機能をターゲット・ホスト４５１に移行するコマンドを受信したことに応答して、かつ移行を実施する際に使用するチェックポイント・フレーム４２０の選択を受信したことに応答して、チェックポインタ２０９Ｃは、実行中のアプリケーションに関する１つまたは複数の実行中のＡＩタスクの状態を記録し、次いで１つまたは複数の実行中のＡＩタスクを停止または休止する。次いでＶＭ１－Ｓは、ＶＭ１－Ｓおよび仮想機能をターゲット・ホストに移行するためのプロセス８００を開始する。動作８００は、図８を参照して以下で説明される。

【0084】

動作５５１では、チェックポイント・フレーム４２０が選択された後、次いでＶＭ１－Ｓは、ＶＭ１－Ｓの仮想機能に関連するＡＩアクセラレータ４２１のステータス・フレームを生成または選択する。ＡＩアクセラレータ・ステータス・フレーム４２１は図４Ｂを参照して上記で説明される。ＡＩアクセラレータ・ステータス・フレーム４２１のハッシュが生成され、ＡＩアクセラレータ・ステータス・フレーム４２１のデータおよびタイム・スタンプが生成され、ＡＩアクセラレータ・ステータス・フレーム４２１、ハッシュ、ならびに日付およびタイム・スタンプが、ＶＭ１－Ｓの秘密鍵、または一実施形態ではＡＩリソースをＶＭ１－Ｓにマッピングする仮想機能に関連するＡＩアクセラレータ４１０の秘密鍵でデジタルに署名される。デジタルに署名されたＡＩアクセラレータ・ステータス・フレーム４２１は、ターゲット・ホスト４５１のハイパーバイザ４５５に送信される。

【0085】

動作９００では、ターゲット・ホスト４５１のハイパーバイザ４５５から、チェックポイント・フレーム４２０およびＡＩアクセラレータ・ステータス・フレーム４２１が首尾よく確認され、移行が完了したという通知を受信したことに応答して、ターゲット・ホスト５４１上のハイパーバイザ４５５は、移行後仮想マシンＶＭ１－Ｔ内のアプリケーションおよび記録済みＡＩタスクを再始動する。任意選択で、ＶＭ１－Ｓは移行後クリーンアップを実施し得る。仮想機能を通じた、ＶＭ１－Ｓ、およびＶＭ１－Ｓに関連する１つまたは複数のＡＩアクセラレータの移行後クリーンアップを含む動作９００は、図９を参照して以下で詳細に説明される。方法５５０は終了する。

【0086】

図６は、一実施形態による、移行すべき仮想マシンをホストするソース・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証を用いる仮想マシン移行のための方法で使用するためのチェックポイント・フレームを生成する方法６００を示す。

【0087】

動作６０１では、ホスト４０１内のハイパーバイザ４０５が、ソース仮想マシン（たとえばＶＭ１－Ｓ）の状態、ネットワーク・ステータス、ＡＩアクセラレータ・ステータス、およびジョブ完了進行を監視する。

【0088】

動作６０２では、チェックポイント・フレーム４２０を生成するための時間増分が満了したかどうかが判定される。時間増分は、ユーザまたは管理者によって設定され得、条件に基づいて動的に調節され得る。一実施形態では、ユーザは、ＶＭ１－Ｓを移行する必要を予期してなど、ＶＭ１－Ｓ上で実行中のアプリケーションが十分な進行を行っていない場合など、または他の理由で、時間増分を調節する。一実施形態では、時間増分が固定される。一実施形態では、障害が増加している場合、チェックポイント・フレーム４２０がより頻繁に生成され、障害が減少している場合、より低い頻度で生成されるように、障害の頻度、または障害の欠如に関して時間増分が動的に増加または減少する。チェックポイント・フレーム４２０を生成するときである場合、方法６００は動作６０５に進み、そうでない場合、方法６００は動作６０３に進む。

【0089】

動作６０３では、例外または障害が発生したかどうかが判定される。障害カウンタが構成され得、１つまたは複数の異なるタイプの障害が異なる重大性を有する。プロセッサ例外は、たとえば、失敗した送信または受信の再試行をサポートするネットワーク内のネットワーク障害よりもずっと重大である。したがって、プロセッサ障害は、ネットワーク障害カウントよりも低いカウントでチェックポイント・フレーム４２０の生成をトリガし得る。例外または障害が、例外または障害タイプについての構成された障害カウントを超えて発生した場合、方法６００は動作６０５に進み、そうでない場合、方法６００は動作６０４に進む。

【0090】

動作６０４では、ジョブ進行が完了の規定進行パーセント未満であるかどうかが判定される。一実施形態では、ジョブ進行は、複数のタイプのジョブ進行カウンタを有し得る。各ジョブ進行カウンタ・タイプは、たとえば、特定のソース・コードの呼出しによって、またはＡＩモデルをトレーニングするためのジョブ進行カウンタや、ＡＩ推論のためのカウンタなどの、ＡＩアクセラレータ内の特定のＡＩ機能に対する呼出しによってトリガされ得る。カウンタは、予想実行時間と実際の実行時間との関係、または他の尺度に基づき得る。進行が進行カウンタ・タイプについての規定パーセント未満であることをジョブ進行カウンタが示す場合、方法６００は動作６０５に進み、そうでない場合、方法６００は終了する。

【0091】

動作６０５では、ＶＭ１－Ｓが、ＶＭ１－Ｓ、実行中のアプリケーション、およびＡＩアクセラレータ・リソースをＶＭ１－Ｓにマッピングする仮想機能のチェックポイント・フレーム４２０を生成する。

【0092】

動作６０６では、任意選択で、チェックポイント・フレーム４２０が生成された後、ＡＩアクセラレータ・ステータス・フレーム４２１が生成され得る。方法６００は終了する。

【0093】

図７は、一実施形態による、移行すべき仮想マシンをホストするソース・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証および／またはＡＩアクセラレータ・ステータス確認を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシンを移行するかどうかを判定する方法７００を示す。

【0094】

動作７０１では、仮想マシン（ＶＭ）を移行するかどうかを示すフラグが偽にセットされる。

【0095】

動作７０２では、ＶＭ論理機構がＶＭを移行するユーザ・コマンドを受信したかどうかが判定される。一実施形態では、移行するコマンドは、実行中のＡＩアプリケーションの進行を監視中であり得るＶＭのユーザから生じ得る。ユーザがＶＭを移行することを選び得る理由は、当技術分野で周知のように、たとえば、プロセスが予想され得るように十分な進行を行っていないこと、特定のホスト・マシンに重い負荷がかけられ、または限られたリソースを有し、進行の欠如に寄与していることなどであり得る。ＶＭを移行するユーザ・コマンドが受信された場合、方法７００は動作７０５に進み、そうでない場合、方法７００は動作７０３に進む。

【0096】

動作７０３では、ＶＭを移行するコマンドが管理者から受信されたかどうかが判定され得る。管理者は、サーバに対する負荷、１つまたは複数のアプリケーションの進行、および利用可能なリソース・レベルを定期的に監視し得る。管理者は、ユーザ要求に応答して、または管理者自身の判断で、移行コマンドを送ることを選び得る。管理者がＶＭを移行するコマンドを発行した場合、方法７００は動作７０５に進み、そうでない場合、方法７００は動作７０４に進む。

【0097】

動作７０４では、例外または障害のタイプのカウントが規定量を超過したかどうかが判定され得る。異なるタイプの障害について異なる規定値が存在し得る。たとえば、障害カウントに基づいて自動移行がトリガされる前に、プロセッサ例外のカウントは非常に低いことがあり、ネットワーク障害のカウントは、プロセッサ障害と比べてずっと高いことがある。一実施形態では、自動的に検出された条件に基づいてＶＭの移行を自動的に開始するのではなく、検出された障害に基づいてＶＭを移行することをアドバイスする通知が管理者に送られ得る。任意のタイプの障害または例外が、その障害または例外タイプに関連する規定値よりも多く発生する場合、方法７００は動作７０５に進み、そうでない場合、方法７００は終了する。

【0098】

動作７０５では、移行フラグが真にセットされる。移行のために使用するチェックポイントの選択も受信される。移行を開始するユーザ・コマンドまたは管理者コマンドのケースでは、コマンドは、移行のために使用するチェックポイント・フレーム４２０も含み得る。自動的に開始された移行コマンドのケースでは、チェックポイント・フレーム４２０が自動的に生成され得、または最新のチェックポイント・フレーム４２０が選択され得る。一実施形態では、最新の記憶されたチェックポイント・フレーム４２０が規定時間量よりも古い場合、新しいチェックポイント・フレーム４２０が生成される。

【0099】

動作７０６では、任意選択で、ＡＩアクセラレータ・ステータス・フレーム４２１が生成され得る。障害条件に基づいて、自動的に生成された移行コマンドのケースでは、ＡＩアクセラレータ・ステータス・フレーム４２１が自動的に生成され得、移行と共に使用され得る。ＡＩアクセラレータ・ステータス・フレームが選択または生成される場合、方法５５０（図５Ｂ）が実施され得る。そうでない場合、方法５００（図５Ａ）が実施される。方法７００は終了する。

【0100】

図８は、一実施形態による、移行すべき仮想マシンをホストするソース・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシンを移行する方法８００を示す。

【0101】

動作８０１では、移行中の仮想マシン、たとえばＶＭ１－Ｓをホストするターゲット（宛先）サーバ、たとえばホスト４５１の選択が受信される。

【0102】

動作８０２では、ＶＭ１－Ｓ上で実行中のアプリケーションの１つまたは複数の実行中のＡＩタスクが停止または休止される。一実施形態では、実行中のＡＩタスクのうちの１つまたは複数が終了することを許可され、それ以外は休止または停止される。

【0103】

動作８０３では、選択されたチェックポイント・フレーム４２０がターゲット・ホスト４５１に転送される。ＶＭ１－Ｓのハイパーバイザ４０５は、チェックポイント・フレーム４２０のシグナチャ、日付およびタイム・スタンプ、およびハッシュが確認されたというターゲット・ホストからの応答を待機する。

【0104】

動作８０４では、ハイパーバイザ４０５またはドライバ２０９が、ＶＭ１－Ｓ上で実行中のＡＩアプリケーションを記録し、任意の関連する未終了のＡＩタスク、およびすべての未終了のＡＩタスクが停止される。

【0105】

動作８０５では、ＶＭ１－Ｓハイパーバイザ４０５は、未終了のＡＩジョブの記録済みの状態をターゲット・ホスト４５１のハイパーバイザ４５５に送る。方法８００は終了する。

【0106】

図９は、一実施形態による、仮想化環境内のチェックポイント認証を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシンを移行した後に、ソース仮想マシンの移行後クリーンアップを実施する方法９００を示す。

【0107】

動作９０１では、ソース仮想マシン（ＶＭ１－Ｓ）のハイパーバイザ４０５は、ターゲット・ホスト４５１のハイパーバイザ４５５から、チェックポイント・フレーム４２０のシグナチャ、日付およびタイム・スタンプ、ならびにハッシュがすべて確認されたという通知を受信する。一実施形態では、通知は、ＡＩアクセラレータ・ステータス・フレーム４２１のシグナチャ、日付およびタイム・スタンプ、ならびにハッシュが確認されたという指示も含み得る。通知は、ターゲット・ホスト４５１へのＶＭ１－Ｓ移行が完了し、アプリケーションおよび未終了のＡＩタスクがＶＭ１－Ｔとしてのターゲット・ホスト４５１上の移行後仮想マシンで再始動されたことをさらに示し得る。

【0108】

動作９０２では、ソース・ホスト４０１のハイパーバイザ４０５および／またはドライバ４０４が、ソースＶＭ１－Ｓによって使用されたＡＩアクセラレータの少なくともセキュア・メモリを消去し得る。ハイパーバイザ４０５および／またはドライバ４０４はまた、ＶＭ１－Ｓに関連する仮想機能を介してアプリケーションに関連するＡＩアクセラレータを使用するＡＰＩまたはドライバに呼出しを行ったＶＭ１－Ｓ上のアプリケーションによって使用されたメモリを消去し得る。

【0109】

動作９０３では、ソース・ホスト４０１のハイパーバイザ４０５が、ＶＭ１－Ｓによって使用され、ＡＩアクセラレータ・リソースをＶＭ－Ｓにマッピングする仮想機能に関連するＡＩアクセラレータ・リソースを割振り解除することを含めて、ＶＭ１－Ｓのリソースを割振り解除し得る。方法９００は終了する。

【0110】

図１０は、いくつかの実施形態による、移行後仮想マシンをホストするホストのターゲット・ハイパーバイザの観点からの、仮想化環境内のチェックポイント認証を用いるＡＩアクセラレータを有するデータ処理システムの仮想マシンを移行する方法１０００を示す。

【0111】

動作１００１では、ターゲット・ホスト・マシン４５１のハイパーバイザ４５５が、ＡＩプロセッサ・リソースをＶＭ１－Ｓにマッピングする仮想機能に関連するソース仮想マシン、たとえばＶＭ１－Ｓから、チェックポイント・フレーム４２０を受信する。ハイパーバイザ４５５はまた、ＶＭ１－Ｓをターゲット・ホスト４５１上の移行後仮想マシン（ＶＭ１－Ｔ）としてホストする要求を受信する。

【0112】

動作１００２では、ホスト４５１上のハイパーバイザ４５５が、ホスト４５１上のＶＭ１－ＳをＶＭ１－Ｔとして生成するためのリソースを計算し、予約する。ハイパーバイザ４５５は、受信したチェックポイント・フレーム４２０に従って、ＶＭ１－Ｓおよび関連する仮想機能をホストするためのリソースを割り振り、構成する。

【0113】

動作１００３では、ターゲット・ホスト４５１のハイパーバイザ４５５は、ＶＭ１－ＳをＶＭ１－Ｔに移行する一部として受信したデータのフレームを受信し、ソース・ホスト４０１のハイパーバイザ４０５に対して肯定応答する。ハイパーバイザ４５５は、ハイパーバイザ４５５がＶＭ１－Ｔを生成し得るように、受信したフレームをホスト４５１上に記憶する。

【0114】

動作１００４では、任意選択で、ターゲット・ホスト４５１のハイパーバイザ４５５は、ソース・ホスト４０１のハイパーバイザ５０５から、署名されたＡＩアクセラレータ・ステータス・フレーム４２１を受信する。ハイパーバイザ４５５は、ＶＭ１－Ｓの公開鍵、またはＶＭ１－Ｓのアクセラレータの公開鍵を使用して、署名されたＡＩアクセラレータ・フレーム４２１を解読する。ハイパーバイザ４５５は、フレーム４２１内の日付およびタイム・スタンプを確認し、フレーム４２１のダイジェストを確認する。署名されたＡＩアクセラレータ・ステータス・フレーム４２１が首尾よく確認された場合、次いでハイパーバイザ４５５は、ＡＩアクセラレータ・ステータス・フレーム４２１からのデータをＡＩアクセラレータ内にロードし、ＡＩアクセラレータ・ステータス・フレーム４２１内のデータに従ってＡＩアクセラレータを構成する。

【0115】

動作１００５では、ターゲット・ホスト４５１のハイパーバイザ４５５は、ＶＭ１－Ｓ上で実行中のアプリケーションの未終了のＡＩタスクの記録済み状態を受信する。ＶＭ１－Ｔは、ＶＭ１－Ｔ上のアプリケーションおよび未終了のＡＩタスクを再始動する。

【0116】

動作１００６では、ターゲット・ホスト４５１上のハイパーバイザ４５５は、ソース・ホスト４０１上のソース・ハイパーバイザ４０５に、アプリケーションおよび未終了のＡＩタスクの再始動に成功し、ＶＭ１－ＳのＶＭ１－Ｔへの移行に成功したことを示す通知を送る。

【0117】

先行する詳細な説明のいくつかの部分は、コンピュータ・メモリ内のデータ・ビットに対する動作のアルゴリズムおよび記号表現によって提示された。これらのアルゴリズム記述および表現は、データ処理技術分野の当業者の作業を他の当業者に最も効果的に伝達するために当業者によって使用される方式である。アルゴリズムは、ここでは、一般に、所望の結果に至る、動作の首尾一貫したシーケンスであると理解される。動作は、物理量の物理的操作を必要とするものである。

【0118】

しかしながら、これらの用語および類似の用語のすべては適切な物理量に関連付けられるべきであり、これらの量に適用される好都合な符号に過ぎないことに留意されたい。別段に明記されていない限り、上記の議論から明らかなように、説明全体にわたって、以下の特許請求の範囲に記載されているような用語を使用する議論は、コンピュータ・システムのレジスタおよびメモリ内の物理（電子）量として表現されるデータを操作して、コンピュータ・システム・メモリまたはレジスタあるいは他のそのような情報ストレージ、送信デバイス、またはディスプレイ・デバイス内の物理量として同様に表現される他のデータに変換するコンピュータ・システムまたは類似の電子コンピューティング・デバイスの動作およびプロセスを指すことを理解されたい。

【0119】

本開示の実施形態はまた、本明細書の動作を実施するための装置に関する。そのようなコンピュータプログラムは非一時的コンピュータ可読媒体内に記憶される。機械可読媒体は、マシン（たとえば、コンピュータ）によって読取り可能な形式で情報を記憶するための任意の機構を含む。たとえば、機械可読（たとえば、コンピュータ可読）媒体は、マシン（たとえば、コンピュータ）読取り可能ストレージ媒体（たとえば、読取り専用メモリ（「ＲＯＭ」）、ランダム・アクセス・メモリ（「ＲＡＭ」）、磁気ディスク・ストレージ媒体、光ストレージ媒体、フラッシュメモリ・デバイス）を含む。

【0120】

先行する図に示されるプロセスまたは方法は、ハードウェア（たとえば回路、専用論理回路など）、（たとえば、非一時的コンピュータ可読媒体上で実施される）ソフトウェア、またはそれらの組合せを含む処理論理機構によって実施され得る。プロセスまたは方法がいくつかの順次的な動作によって上記で説明されるが、動作の一部は異なる順序で実施され得ることを理解されたい。さらに、いくつかの動作は、順次的ではなく並列に実施され得る。

【0121】

本開示の実施形態はまた、コンピュータ上で動作しているときに、先行する図に示されるプロセスまたは方法を前記コンピュータに実行させるためのコンピュータプログラムに関する。

【0122】

本開示の実施形態は、何らかの特定のプログラミング言語を参照して説明されない。本明細書で説明されるように本開示の実施形態の教示を実装するために様々なプログラミング言語が使用され得ることを理解されよう。

【0123】

上記の明細書では、本開示の実施形態が、その特定の例示的実施形態を参照して説明された。以下の特許請求の範囲に記載の本開示のより広い趣旨および範囲から逸脱することなく、それに対して様々な修正が行われ得ることは明らかであろう。したがって、本明細書および図面は、制限的な意味ではなく、例示的な意味でとらえられるべきである。

【図1】