IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ウェカ.アイオー リミテッドの特許一覧

<>
  • 特許-分散型ファイルシステムのための暗号化 図1
  • 特許-分散型ファイルシステムのための暗号化 図2
  • 特許-分散型ファイルシステムのための暗号化 図3
  • 特許-分散型ファイルシステムのための暗号化 図4
  • 特許-分散型ファイルシステムのための暗号化 図5
  • 特許-分散型ファイルシステムのための暗号化 図6
  • 特許-分散型ファイルシステムのための暗号化 図7
  • 特許-分散型ファイルシステムのための暗号化 図8
  • 特許-分散型ファイルシステムのための暗号化 図9
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-16
(45)【発行日】2024-07-24
(54)【発明の名称】分散型ファイルシステムのための暗号化
(51)【国際特許分類】
   G06F 21/62 20130101AFI20240717BHJP
   G06F 3/06 20060101ALI20240717BHJP
   H04L 9/08 20060101ALI20240717BHJP
   H04L 9/14 20060101ALI20240717BHJP
【FI】
G06F21/62 309
G06F3/06 305C
G06F3/06 540
H04L9/08 A
H04L9/14
【請求項の数】 8
【外国語出願】
(21)【出願番号】P 2023031014
(22)【出願日】2023-03-01
(62)【分割の表示】P 2021517925の分割
【原出願日】2019-06-04
(65)【公開番号】P2023071843
(43)【公開日】2023-05-23
【審査請求日】2023-03-10
(31)【優先権主張番号】62/682,198
(32)【優先日】2018-06-08
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】16/274,541
(32)【優先日】2019-02-13
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】520483279
【氏名又は名称】ウェカ.アイオー リミテッド
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100195408
【弁理士】
【氏名又は名称】武藤 陽子
(72)【発明者】
【氏名】ベン ダヤン,マオール
(72)【発明者】
【氏名】パルモン,オムリ
(72)【発明者】
【氏名】ズビベル,リラン
(72)【発明者】
【氏名】アルディッティ,カナエル
(72)【発明者】
【氏名】ペレグ,オリ
【審査官】小林 秀和
(56)【参考文献】
【文献】特開2008-077366(JP,A)
【文献】特開平09-179768(JP,A)
【文献】特開2016-057811(JP,A)
【文献】米国特許第05737549(US,A)
【文献】特開2010-079886(JP,A)
【文献】特表2014-529238(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
G06F 3/06
H04L 9/08
H04L 9/14
(57)【特許請求の範囲】
【請求項1】
フロントエンドおよびバックエンドを備えるコンピューティングデバイスであって、前記フロントエンドが、データがシステムに入るときに前記データを暗号化するように動作可能であり、前記バックエンドが、複数のバケットを備える、コンピューティングデバイスと、
複数のストレージデバイスであって、
前記複数のバケットの各バケットが、複数のストレージブロックを備える障害保護されたストライプを構築するように動作可能であり、
障害保護されたストライプの各ストレージブロックが、前記複数のストレージデバイスのストレージデバイス内にあり、
前記複数のストレージデバイスが分散されることで、複数のノードのうちのどの特定のノードにおいても、許容される数のストレージデバイスが最大でも存在し、
前記暗号化されたデータが、前記複数のバケットのうちの1つまたは複数のバケットによって構築された1つまたは複数の障害保護されたストライプ内のファイルに記憶され、
前記フロントエンドが、ファイル鍵に従って前記データを暗号化および/または復号化するように動作可能であり、
前記ファイル鍵が、前記ファイルがコピーされたときにローテーションされ、
ファイルシステム鍵がローテーションされたときに、前記ファイル鍵が暗号化される、システム。
【請求項2】
前記ファイル鍵が、ファイルシステム鍵で暗号化される、請求項に記載のシステム。
【請求項3】
前記コンピューティングデバイスが、複数のコンピューティングデバイスのクラスタ内にあり、
前記複数のコンピューティングデバイスの前記クラスタに前記コンピューティングデバイスが加わったときに、前記コンピューティングデバイスが、前記クラスタのリーダに長期鍵を登録する、請求項1に記載のシステム。
【請求項4】
前記データの転送の前に、前記長期鍵で署名された一過性鍵ペアを使用して、セッション鍵が交渉される、請求項に記載のシステム。
【請求項5】
コンピューティングデバイスのプロセッサが、前記コンピューティングデバイス上のファイルシステムへの書込みアクセスのためにデータファイルを開くステップであって、
前記コンピューティングデバイスが、フロントエンド、バックエンド、および複数のストレージデバイスを備え
前記バックエンドが、複数のバケットを備え、
前記複数のバケットの各バケットが、複数のストレージブロックを備える障害保護されたストライプを構築するように動作可能であり、
前記複数のストレージデバイスが分散されることで、複数のノードのうちのどの特定のノードにおいても、許容される数のストレージデバイスが最大でも存在し、
障害保護されたストライプ内の前記複数のストレージブロックの各ストレージブロックが、前記複数のストレージデバイスのストレージデバイス内にある、
ステップと、
前記フロントエンドデータを暗号化するステップと、
前記バックエンドが、前記複数のバケットのうちの1つまたは複数のバケットによって構築された1つまたは複数の障害保護されたストライプ内の前記データファイルに前記暗号化されたデータを書き込むステップと、
前記コンピューティングデバイスの前記プロセッサが、前記データファイルを閉じるステップと
を含
さらに、前記フロントエンドが、ファイル鍵に従って前記データを暗号化および/または復号化するステップと、
前記データファイルがコピーされたときに、前記フロントエンドが、前記ファイル鍵をローテーションするステップと、
ファイルシステム鍵がローテーションされたときに、前記フロントエンドが、前記ファイル鍵を暗号化するステップと
を含む方法。
【請求項6】
前記フロントエンドが、前記ファイル鍵を、ファイルシステム鍵で暗号化するステップを含む、請求項に記載の方法。
【請求項7】
前記コンピューティングデバイスが、複数のコンピューティングデバイスのクラスタ内にあり、
前記複数のコンピューティングデバイスの前記クラスタに前記コンピューティングデバイスが加わったときに、前記コンピューティングデバイスが、前記クラスタのリーダに長期鍵を登録するステップを含む、請求項に記載の方法。
【請求項8】
前記コンピューティングデバイスが、前記データの転送の前に、前記長期鍵で署名された一過性鍵ペアを使用してセッション鍵を交渉するステップを含む、請求項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
優先権の主張
[0001]本出願は、2018年6月8日に出願の「Encryption for a Distributed Filesystem」と題する米国仮特許出願第62/682,198号、および2019年2月13日に出願の「Encryption for a Distributed Filesystem」と題する米国特許出願第16/274,541号の優先権を主張する。
【背景技術】
【0002】
[0002]データストレージへの従来のアプローチの限界および短所は、図面を参照しながら本開示の以降で示される本方法およびシステムのいくつかの態様と、このようなアプローチとの比較を通じて、当業者には明らかになるであろう。
【0003】
参照による組込み
[0003]「Distributed Erasure Coded Virtual Filesystem」と題する米国特許出願第15/243,519号が、本明細書によって全体として参照により本明細書に組み込まれる。
【発明の概要】
【発明が解決しようとする課題】
【0004】
[0004]特許請求の範囲でより完全に示されるように、図の少なくとも1つによって実質的に示されるような、および/または、図の少なくとも1つに関連して説明されるような、分散型ファイルシステムにおける暗号化のための方法およびシステムが提供される。
【図面の簡単な説明】
【0005】
図1】本開示の態様による分散型ファイルシステムの様々な実例の構成を示す図である。
図2】本開示の態様による分散型ファイルシステムノードの実例の構成を示す図である。
図3】本開示の実例の実装形態による分散型ファイルシステムの別の表現を示す図である。
図4】本開示の1つまたは複数の実施形態による暗号化されたファイルシステムにおけるコンピューティングデバイスの例を示す図である。
図5】本開示の1つまたは複数の実施形態によるコンピューティングデバイスのクラスタの例を示す図である。
図6】暗号化されたファイルシステムにおけるクライアントから読み込むための実例の方法を示す流れ図である。
図7】暗号化されたファイルシステムにおけるクライアントに書き込むための実例の方法を示す流れ図である。
図8】2つの分散型耐障害性(failure resilient)アドレス空間が複数のソリッドステートストレージディスク上に常駐する実例の実装形態を示す図である。
図9】本開示の実例の実装形態による仮想ファイルシステムの不揮発性メモリに記憶されたデータを保護するために使用することができる前方誤り訂正方式を示す図である。
【発明を実施するための形態】
【0006】
[0014]従来、ファイルシステムは、メタデータ構造(例えば、ディレクトリ、ファイル、属性、ファイル内容)に対して集中型制御を使用する。ローカルファイルシステムが単一のサーバからアクセス可能であり、このサーバが故障した場合、さらなる保護がない場合、ファイルシステムのデータは失われる可能性がある。保護を追加するために、いくつかのファイルシステムは(例えば、ネットワークアプライアンス(NetApp)によって提供されるように)、能動的-受動的手法でコントローラの1つまたは複数のペアを使用して、2つ以上のコンピュータにまたがるメタデータを複製してきた。他の解決策は、(例えば、IBM GPFS、Dell EMC Isilon、Lustre、等によって提供されるような)クラスタ方式で複数のメタデータサーバを使用してきた。それでも、従来のクラスタ型システムにおけるメタデータサーバの数は少数に限定されるので、このようなシステムは、規模を変更することができない。
【0007】
[0015]本開示におけるシステムは、小さいクラスタに適用可能であり、数千ものノードまで規模を変更することもできる。例えば、ソリッドステートドライブ(SSD:solid-state drive)の形で入手できるフラッシュメモリといった、不揮発性メモリ(NVM:non-volatile memory)に関して実施形態の例が論じられる。NVMは、4kBのブロックおよび128MBのチャンクに分割されてもよい。大きさ(extent)は、例えば、高速アクセスのためのRAMといった、揮発性メモリに記憶することができ、NVMストレージによってバックアップも行われる。大きさは、例えば、ブロックに記憶されたデータのうちの1MBに対して256個のポインタといった、ブロックに対するポインタを記憶することができる。他の実施形態では、より大きいまたは小さいメモリ分割が使用されてもよい。本開示におけるメタデータの機能は、多くのサーバにわたって効果的に拡散されてもよい。例えば、ファイルシステムの名前空間の特定の部分に大きい負荷が向けられる「ホットスポット」の場合、この負荷は、複数のノードにわたって分散されることが可能である。
【0008】
[0016]図1は、本開示の態様による分散型ファイルシステムの様々な実例の構成を示す。ローカルエリアネットワーク(LAN)102が図1に示され、(j≧1のとき、1からJまでの整数でインデックスをつけられた)1つまたは複数のノード120を備え、任意選択として、(断続線によって示された)(M≧1のとき、1からMまでの整数でインデックスをつけられた)1つもしくは複数の専用ストレージノード106、(N≧1のとき、1からNまでの整数でインデックスをつけられた)1つもしくは複数の計算ノード104、および/または、リモートネットワーク118にLAN102を接続するエッジルータを備える。リモートネットワーク118は、任意選択として、(K≧1のとき、1からKまでの整数でインデックスをつけられた)1つもしくは複数のストレージサービス114、および/または(L≧1のとき、1からLまでの整数でインデックスをつけられた)1つもしくは複数の専用ストレージノード115を備える。
【0009】
[0017]各ノード120(jは整数であり、ここで、1≦j≦Jである)は、ネットワーク型コンピューティングデバイス(例えば、サーバ、パーソナルコンピュータ、または同様のもの)であり、デバイス104のオペレーティングシステム上で直接的に、および/または、デバイス104で動く1つもしくは複数の仮想マシンにおいて、プロセス(例えば、クライアントプロセス)を動かすための回路機器を備える。
【0010】
[0018]計算ノード104は、ネットワーク型デバイスであり、仮想バックエンドなしで仮想フロントエンドを動かすことができる。計算ノード104は、単一ルート入出力仮想化(SR-IOV:single root input/output virtualization)をネットワークインターフェースカード(NIC:network interface card)に取り入れること、および、全てのプロセッサコアを使い尽くすことによって、仮想フロントエンドを動かすことができる。代替として、計算ノ
ード104は、Linux(登録商標、以下同様)カーネルのネットワーキングスタックを通じたネットワーク形成を迂回させること(routing)、および、カーネルのプロセススケジューリングを使用することによって仮想フロントエンドを動かすことができ、したがって、全コアを要求しない。これは、ユーザが全てのコアをファイルシステムにアロケートしたくない場合、または、ネットワーキングハードウェアがファイルシステム要件と互換性がない場合に有用である。
【0011】
[0019]図2は、本開示の態様によるノードの実例の構成を示す。ノードは、フロントエンド202およびドライバ208、メモリコントローラ204、バックエンド206、ならびにSSDエージェント214を備える。フロントエンド202は、仮想フロントエンドであってもよく、メモリコントローラ204は、仮想メモリコントローラであってもよく、バックエンド206は、仮想バックエンドであってもよく、ドライバ208は、仮想ドライバであってもよい。本開示で使用されるように、仮想ファイルシステム(VFS:virtual filesystem)プロセスは、フロントエンド202、メモリコントローラ204、バックエンド206、およびSSDエージェント214の1つまたは複数を実装するプロセスである。したがって、1つの実例の実装形態では、ノードのリソース(例えば、プロセスリソースおよびメモリリソース)は、クライアントプロセスとVFSプロセスの間で共有されてもよい。VFSのプロセスは、クライアントアプリケーションの性能への影響を最小化するために、比較的少量のリソースを要求するように構成されてもよい。フロントエンド202、メモリコントローラ204、ならびに/または、バックエンド206および/もしくはSSDエージェント214は、ホスト201のプロセッサ上で、またはネットワークアダプタ218のプロセッサ上で動くことができる。マルチコアプロセッサについて、異なるVFSプロセスが、異なるコア上で動くことができ、サービスの異なるサブセットを動かすことができる。クライアントプロセス212の観点から、仮想ファイルシステムとのインターフェースは、VFSプロセスが動いている特定の物理マシンから独立している。クライアントプロセスは、ドライバ208およびフロントエンド202の役割を果たすために、ドライバ208およびフロントエンド202が存在することしか必要としない。
【0012】
[0020]ノードは、オペレーティングシステム上で直接的に動く単一のテナントサーバ(例えば、ベアメタル)として、または、ベアメタルサーバ内の仮想マシン(VM:virtual machine)および/もしくはコンテナ(例えば、Linuxコンテナ(LXC:Linux container))として実装することができる。VFSは、VM環境としてLXCコンテナ内で動くことができる。したがって、VMの内部では、動くことができるものだけがVFSを備えるLXCコンテナである。代表的なベアメタル環境には、ユーザ空間アプリケーションがあり、VFSがLXCコンテナ内で動く。他のコンテナ型アプリケーションをサーバが動かしている場合、VFSは、コンテナ導入環境(例えばDocker)の管理範囲外のLXCコンテナの内部で動くことができる。
【0013】
[0021]ノードは、オペレーティングシステムおよび/または仮想マシンモニタ(VMM:virtual machine monitor)(例えば、ハイパーバイザ)によってサービスされてもよい。VMMは、ホスト201上でノードを作り出し、動かすために使用されてもよい。複数のコアが、VFSを動かしている単一のLXCコンテナの内部に常駐することができ、VFSは、単一のLinuxカーネルを使用して、単一のホスト201上で動くことができる。したがって、単一のホスト201は、複数のフロントエンド202、複数のメモリコントローラ204、複数のバックエンド206、および/または、1つもしくは複数のドライバ208を備えることができる。ドライバ208は、LXCコンテナの範囲外のカーネル空間で動くことができる。
【0014】
[0022]ユーザ空間222でネットワーキングスタック210を動かすために、SR-I
OV PCIe仮想機能が使用されてもよい。SR-IOVは、PCI Expressの分離を可能にし、その結果、単一の物理的なPCI Expressが仮想環境で共有されることが可能になり、単一の物理サーバマシン上の異なる仮想構成要素に、異なる仮想機能が提供されることが可能になる。I/Oスタック210は、VFSノードが標準的なTCP/IPスタック220をバイパスし、ネットワークアダプタ218と直接的に通信することを可能にする。VFSドライバ208へのロックレス・キューを通じて、ポータブルオペレーティングシステムインターフェースフォーUNIX(登録商標)(POSIX)のVFS機能が提供されてもよい。また、SR-IOVまたは完全なPCIe物理機能アドレスが、ユーザ空間222で不揮発性メモリエクスプレス(NVMe:non-volatile memory express)ドライバ214を動かすために使用されてもよく、したがって、Linux IOスタックを完全にバイパスする。NVMeは、PCI Express(PCIe)バスを介して取り付けられた不揮発性ストレージ媒体216にアクセスために使用されてもよい。不揮発性ストレージ媒体220は、例えば、ソリッドステートドライブ(SSD)の形で入手できるフラッシュメモリ、または、SSDもしくはメモリモジュール(DIMM)の形で入手できる可能性があるストレージクラスメモリ(SCM)であってもよい。他の例は、3D-XPointなどのストレージクラスメモリ技術を含むことができる。
【0015】
[0023]SSDは、SSDエージェント214およびネットワーキング210と、物理的なSSD216を連結することによって、ネットワーク型デバイスとして実装されてもよい。代替として、SSDは、NVMe-oF(NVMe over Fabrics)などの、ネットワークプロトコルを使用することによって、ネットワーク接続型NVMe SSD222または224として実装されてもよい。NVMe-oFは、冗長なネットワークリンクを使用して、NVMeデバイスへのアクセスを可能にすることができ、このことにより、より高いレベルまたは回復力をもたらす。ネットワークアダプタ226、228、230および232は、NVMe SSD222および224を、サーバを使用しないネットワーク型NVMe-oFデバイスに変換するために、NVMe SSD222および224への接続のためのハードウェアアクセラレーションを備えることができる。NVMe SSDs222および224は、それぞれ、2つの物理ポートを備えることができ、データ全てが、これらのポートのいずれかを通じてアクセスされる可能性がある。
【0016】
[0024]各クライアントプロセス/アプリケーション212は、オペレーティングシステム上で直接動くことができるか、または、オペレーティングシステムおよび/もしくはハイパーバイザによってサービスされた仮想マシンおよび/もしくはコンテナ内で動くことができる。クライアントプロセス212は、その基本機能の実施中に、ストレージからデータを読み込むこと、および/または、ストレージにデータを書き込むことができる。それでも、クライアントプロセス212の基本機能は、ストレージ関連のものではない(すなわち、プロセスは、そのデータが確実に記憶され、必要なときに検索可能であることにしか関心がなく、どこで、いつ、またはどのようにデータが記憶されるかには関心がない)。このようなプロセスを生じる実例のアプリケーションは、eメールサーバ、ウェブサーバ、オフィス生産性アプリケーション、顧客関係管理(CRM)、アニメーテッドビデオレンダリング、ゲノミクス計算、チップデザイン、ソフトウェアビルド、およびエンタープライズリソースプラニング(ERP)を含む。
【0017】
[0025]クライアントアプリケーション212は、VFSドライバ208と通信する、カーネル224へのシステムコールを行うことができる。VFSドライバ208は、VFSフロントエンド202のキューに、対応するリクエストを入れる。いくつかのVFSフロントエンドが存在する場合、ドライバは、異なるフロントエンドにアクセスを負荷分散させることができ、確実に、単一のファイル/ディレクトリが同じフロントエンドを介して常にアクセスされるようにする。これは、ファイルまたはディレクトリのIDに基づいて、フロントエンドをシャーディングする(shard)ことによって行うことができる。VFSフロントエンド202は、その動作を担当するバケットに基づいて、適切なVFSバックエンドにファイルシステムリクエストをルートするためのインターフェースを提供する。適切なVFSバックエンドは、同じホスト上にあってもよく、または別のホスト上にあってもよい。
【0018】
[0026]VFSバックエンド206は、いくつかのバケットをホストし、バケットのうちの各1つが、仮想ファイルシステムを別のやり方で管理するためのタスク(例えば、負荷分散、ジャーナリング、メタデータの維持、キャッシング、階層間のデータの移動、古くなったデータの削除、破損したデータの訂正、等)を受け取り、実行するというファイルシステムリクエストをサービスする。
【0019】
[0027]VFS SSDエージェント214は、それぞれのストレージデバイス216との対話を遂行する。これは、例えば、アドレスを翻訳すること、および、(例えば、SATA、SAS、PCIe、または他の適切なバス上の)ストレージデバイスに発行されるコマンドを生成することを含むことができる。したがって、VFS SSDエージェント214は、ストレージデバイス216と、仮想ファイルシステムのVFSバックエンド206との間の中間体として動作する。SSDエージェント214は、NVMe-oF(NVMe over Fabrics)などの、標準プロトコルをサポートする標準的なネットワークストレージデバイスと通信することもできる。
【0020】
[0028]図3は、本開示の実例の実装形態による分散型ファイルシステムの別の表現を示す。図3では、要素302は、上記の図2について説明されたものなどの、仮想ファイルシステムを常駐させる様々なノード(計算、ストレージ、および/またはVFS)の、メモリリソース(例えば、DRAMおよび/または他の短期メモリ)、ならびに処理リソース(例えば、x86プロセッサ、ARMプロセッサ、NIC、ASIC、FPGA、および/または同様のもの)を表す。要素308は、仮想ファイルシステムの長期ストレージを提供する1つまたは複数の物理ストレージデバイス216を表す。
【0021】
[0029]図3に示されるように、物理ストレージは、複数の分散型耐障害性アドレス空間(DFRAS:distributed failure resilient address space)518に編成される。これらのそれぞれは、複数のチャンク310を含み、複数のチャンク310は、複数のブロック312を含む。チャンク310へのブロック312の編成は、いくつかの実装形態で利便性があるだけであり、全ての実装形態で行われなくてもよい。各ブロック312は、コミットされたデータ316(これは、様々な状態を呈することができ、下記で論じられる)、および/または、コミットされたデータ316を説明または参照するメタデータ314を記憶する。
【0022】
[0030]複数のDFRASへのストレージ308の編成は、仮想ファイルシステムのノードの多く(おそらく全て)からの高性能並行コミットを可能にする(例えば、図1の全てのノード104~104、106~106、および120~120が、同時コミットを並行に実施することができる)。1つの実例の実装形態では、仮想ファイルシステムのノードのそれぞれは、複数のDFRASのうちのそれぞれの1つまたは複数を所有し、ノードが所有するDFRASへの排他的な読込み/コミットアクセス権を有することができる。
【0023】
[0031]各バケットは、DFRASを所有し、したがって、DFRASに書き込むときに、他のどのノードとも協調する必要はない。各バケットは、多くの異なるSSD上の多くの異なるチャンクにまたがってストライプを構築することができ、したがって、バケットのDFRASを有する各バケットは、多くのパラメータに現在基づいて、どの「チャンクストライプ」に書き込むべきかを選ぶことができ、このバケットにチャンクがアロケートされると、そうするために必要な協調はない。全てのバケットは、なにも協調する必要なく、全てのSSDに効果的に書き込むことができる。
【0024】
[0032]各DFRASが、特定のノード上で動くDFRASの所有者バケットだけに所有され、アクセス可能であることは、(ストレージ308への実際の読込み/コミットに対して非同期的に実施されることが可能な、例えば、初期化中、またはノードの故障後の、DFRASを保持するバケットの(再)割当て中を除いて)VFSのノードのそれぞれが、他のどのノードとも協調する必要なく、ストレージ308の一部を制御することを可能にする。したがって、このような実装形態では、各ノードは、他のノードが何をしているかに関わらず、ノードのバケットのDFRASに対して読込み/コミットを行うことができ、ストレージ308への読込みおよびコミットの際に、どのようなコンセンサスにも達する必要はない。さらに、特定のノードの故障の場合には、特定のノードが複数のバケットを所有するということが、他のノードへのノードの作業負荷の、よりインテリジェントかつ効率的な再配分を可能にする(ある程度、全作業負荷を単一のノードに割り当てなければならず、これは、「ホットスポット」作り出す可能性がある)。この点に関して、いくつかの実装形態では、バケットの数は、任意の1つのバケットが、別のノードにかけることになる負荷を比較的小さくすることができるように、システムにおけるノードの数に比べて大きくてもよい。これは、他のノードの能力および容量に応じた、故障したノードの負荷のきめ細かい再配分を可能にする(例えば、能力および容量が大きいノードには、より大きい割合の故障したノードバケットが与えられてもよい)。
【0025】
[0033]このような動作を可能にするために、ストレージ308への読込みおよびコミットが、適切なノードにリダイレクトされることが可能になるように、バケットの現在の所有ノードに各バケットをマッピングするメタデータが維持されてもよい。
【0026】
[0034]全ファイルシステムのメタデータ空間(例えば、ディレクトリ、ファイル属性、ファイル内の内容範囲、等)が、小さく一様な断片(例えば「シャード(shard)」)に分解される(例えば、細断される、またはシャーディングされる)ことが可能なので、負荷分散は可能である。例えば、30k個のサーバを有する大きいシステムは、128k個または256k個のシャードにメタデータ空間を細断することができる。
【0027】
[0035]それぞれのこのようなメタデータのシャードは、「バケット」内に維持されてもよい。各VFSノードは、いくつかのバケットにまたがって担当することができる。所与のバックエンド上でバケットがメタデータのシャードをサーブしているとき、バケットは、「アクティブ」であるか、または、このバケットの「リーダ(leader)」であるとみなされる。典型的には、VFSノードよりはるかに多くのバケットがある。例えば、6個のノードを有する小さいシステムは、120個のバケットを有することができ、1,000個のノードを有するより大きいシステムは、8k個のバケットを有することができる。
【0028】
[0036]各バケットは、ノードが、ノードのバケットに対してペンタグループを形成する典型的には5つのノードといった、ノードの小さいセット上に対してアクティブであってもよい。クラスタ構成は、各バケットへのペンタグループの割当てについて、全ての参加ノードを最新に保つ。
【0029】
[0037]各ペンタグループは、それ自体を監視する。例えば、クラスタが10k個のサーバを有し、各サーバが6個のバケットを有する場合、各サーバは、そのバケットのステータスを維持するために、30個の異なるサーバと会話する必要しかなくなる(6個のバケットは、6個のペンタグループを有することになるので、6×5=30である)。これは、集中型エンティティが全てのノードを監視し、クラスタ全体の状態を保たなければならない場合より、はるかに少ない数である。ペンタグループの使用は、クラスタサイズが大きくなったときでも、より多くの作業をノードが実施しないので、より大きいクラスタで性能の規模を変更することを可能にする。これは、「ダム(dumb)」モードでは、小さいクラスタが、物理ノードが存在するよりも多くの通信を実際に生成する可能性があるという短所を課す可能性があるが、この短所は、サーバが共有するバケット全てを有する2つのサーバ間で、ただ1つのハートビートを送ることによって克服される(クラスタが大きくなるにつれて、これは、ただ1つのバケットに変化することになるが、小さい5つのサーバクラスタを有している場合、クラスタは、全てのメッセージに全てのバケットを含むだけになり、各サーバは、他の4つと会話するだけになる)。ペンタグループは、Raftコンセンサスアルゴリズムに似たアルゴリズムを使用して、決定する(すなわち、コンセンサスに達する)ことができる。
【0030】
[0038]各バケットは、バケットを動かすことができる計算ノードのグループを有することができる。例えば、5つのVFSノードは、1つのバケットを動かすことができる。それでも、グループ内のノードのただ1つが、任意の与えられた瞬間におけるコントローラ/リーダである。さらに、2つのバケットは、十分大きいクラスタのために同じグループを共有しない。クラスタ内に5つまたは6つのノードしかない場合、ほとんどのバケットは、バックエンドを共有することができる。適度に大きいクラスタには、多くの別個のノードグループがある。例えば、26個のノードで、
【数1】
より多くの可能な5ノードグループ(すなわち、ペンタグループ)がある。
【0031】
[0039]グループ内の全てのノードは、ノードがこのバケットの実際のアクティブコントローラ(すなわち、リーダ)であることについて、知っており、同意する(すなわち、コンセンサスに達する)。バケットにアクセスするノードは、グループの(例えば、5つの)メンバから、このバケットに対するリーダだった最後のノードを覚えていること(「キャッシュすること」)ができる。ノードが、バケットリーダにアクセスする場合、バケットリーダは、リクエストされた動作を実施する。現在のリーダではないノードにバケットがアクセスする場合、このノードは、アクセスを「リダイレクトする」ようにリーダに指示する。キャッシュされたリーダノードにアクセスするタイムアウトがある場合、接触するノードは、同じペンタグループの異なるノードを試行することができる。クラスタ内のノード全てがクラスタの共通「構成」を共有し、これにより、ノードは、どのサーバが各バケットを動かすことができるかについて知ることができる。
【0032】
[0040]各バケットは、ファイルシステム上で動いているアプリケーションによってどれだけ激しくバケットが使用されているかを示す負荷値/使用量値を有することができる。例えば、11個の軽く使用されるバケットを有するサーバノードは、使用されるバケットの数に不均衡がある場合でも、9個の激しく使用されるバケットを有するサーバの前に動かすために、メタデータの別のバケットを受け取ることができる。負荷値は、平均レスポンスレイテンシ、同時に動く動作の数、消費されるメモリ、または他の基準値に従って決定されてもよい。
【0033】
[0041]再配分は、VFSノードが故障していないときでも同様に発生させることができる。追跡した負荷基準値に基づいて、1つのノードが、他よりもビジー状態であることをシステムが識別した場合、システムは、あまりビジー状態ではない別のサーバに、システムのバケットのうちの1つを移動させる(すなわち、「フェールオーバー」させる)こと
ができる。それでも、異なるホストにバケットを実際に移す前に、書込みと読込みをそらすことによって、負荷分散が達成されてもよい。それぞれの書込みは、最終的に、DFRASによって判定されたノードの異なるグループで終わる可能性があるので、より高い負荷を有するノードが、データが書き込まれているストライプの中にあるように選択される可能性はない。また、システムは、非常に負荷の高いノードからの読込みをサーブしないように選ぶこともできる。例えば、「劣化モード読込み(degraded mode read)」が実施されてもよく、非常に負荷の高いノードにおけるブロックは、同じストライプの他のブロックから再現される。劣化モード読込みは、同じストライプ内の残りのノードによって実施される読込みであり、データは、障害保護を介して再現される。劣化モード読込みは、このノードがダウンしていることを、読込みのイニシエータが仮定することができるので、読込みレイテンシがとても高いときに実施されてもよい。より高い読込みレイテンシを作り出すのに十分、負荷が高い場合、クラスタは、他のノードからこのデータを読み込むこと、および、劣化モード読込みを使用して、必要なデータを再現することに戻ることができる。
【0034】
[0042]各バケットは、独自の分散型イレイジャコーディングインスタンス(すなわち、DFRAS518)を管理し、他のバケットと連携して、読込みまたは書込み動作を実施する必要がない。異なるバケットに対してそれぞれ、同時に作業する何千もの同時の分散型イレイジャコーディングインスタンスが潜在的に存在する。これは、任意の大きいファイルシステムが、協調される必要がない独立した断片に分割されることを効果的に可能にするので、スケーリング性能の切り離せない部分であり、したがって、スケールに関わらず高性能をもたらす。
【0035】
[0043]各バケットは、そのシャードに属するファイルシステム動作全体を遂行する。例えば、ディレクトリ構造、ファイル属性、およびファイルデータ範囲は、特定のバケットの管轄区域に属することになる。
【0036】
[0044]任意のフロントエンドから行われる動作は、どのバケットがこの動作を所有しているかを見つけ出すことによってスタートする。次に、このバケットに対するバックエンドリーダ、およびノードが決定される。この決定は、既知の最新のリーダを試行することによって実施されてもよい。既知の最新のリーダが現在のリーダではない場合、このノードは、どのノードが現在のリーダであるかを知ることができる。既知の最新のリーダが、もはやバケットのペンタグループの一部ではない場合、このバックエンドは、フロントエンドが構成に戻って、バケットのペンタグループのメンバを見つけるべきであることをフロントエンドに知らせることになる。動作の分散は、標準システム内の単一のコンピュータによってではなく、複数のサーバによって、複雑な動作が遂行されることを可能にする。
【0037】
[0045]クラスタのサイズが小さく(例えば、5)、ペンタグループが使用される場合、同じグループを共有するバケットが存在することになる。クラスタサイズが大きくなると、2つのグループが同一にならないように、バケットが再分散される。
【0038】
[0046]暗号化されたストレージは、多くの異なるアプリケーションに重要である。例えば、財務アプリケーションは、連邦情報処理規格(FIPS:Federal Information Processing Standard)に従ってセキュアにされなければならず、ヘルスケアアプリケーションは、医療保険の携行性と責任に関する法律(HIPPA:Health Insurance Portability and Accountability Act)に従ってセキュアにされなければならない。
【0039】
[0047]暗号化は、記憶されたデータに対して必要とされることもある。例えば、1つま
たは複数のストレージデバイスが危険にさらされる場合、記憶されたデータの暗号化が、平文データの回復を防ぐ。
【0040】
[0048]また、暗号化は、ネットワーク上で伝送されるデータに対して「オンザフライ」で必要とされることもある。例えば、「オンザフライ」に対する暗号化は、盗聴すること、および中間者がデータに触れようとすることを防ぐ。
【0041】
[0049]図4は、暗号化されたファイルシステム400におけるコンピューティングデバイス401の例を示す。コンピューティングデバイスは、フロントエンド403およびバックエンド405を備える。フロントエンド403は、クライアント側がシステムに出入りするとき、クライアント側でデータの暗号化および復号を行うことができる。フロントエンド403は、システム400内のデータファイルにデータが書き込まれるときに、データを暗号化するように動作可能である。また、フロントエンド403は、システム400内のデータファイルからデータが読み込まれるときに、データを復号するように動作可能である。
【0042】
[0050]フロントエンド403は、ファイル鍵413に少なくとも従ってデータを暗号化する。このファイル鍵413は、データファイルをコピーすることによってローテーションされることが可能である。ファイル鍵413(例えば、ファイルあたり1つの鍵)は、フロントエンドの暗号化および復号のためにクライアントに提供されてもよい。このファイル鍵413は、FIPSが承認したセキュア乱数発生器を用いてファイルシステム401によって生成されてもよい。ファイル鍵413が保存されることになる場合、ファイル鍵413は、ファイルシステム鍵415で暗号化することができる。追加として、ファイルシステムidおよびノードidが、ファイル鍵413のための認証されたデータとして使用されてもよい。ファイル鍵は、ファイルをコピーすることによってローテーションされることが可能である。ファイルがコピーされると、新たに生成されたファイル鍵で内容が再暗号化されることになる。
【0043】
[0051]ファイルシステム鍵415(例えば、各ファイルシステムあたり1つの鍵)は、ファイルシステムの境界を決して離れるべきではない。ファイルシステム鍵415は、鍵管理システム/サーバ(KMS:key management system/server)で生成されてもよい。ファイルシステム鍵415が保存されることになる場合、ファイルシステム鍵は、クラスタ鍵417で暗号化されてもよい。追加として、クラスタidおよびファイルシステムidが、ファイルシステム鍵415のための認証されたデータとして使用されてもよい。ファイルシステム鍵415は、ファイルシステム400によって即座にローテーションされてもよい。例えば、ファイルシステム400は、指定のファイルシステムのために新しい鍵をKMSが生成することをリクエストすることができる。新たに作り出されたファイルは、最新のファイルシステム鍵415で暗号化された、これらのファイルのファイル鍵413を有することになり、更新されたファイルは、最新のファイルシステム鍵415で再暗号化された、これらのファイルのファイル鍵413を有することができる。
【0044】
[0052]ファイル鍵413は、ファイルシステム鍵415で暗号化されてもよい。さらに、ファイルシステム鍵415は、クラスタ鍵417で暗号化されてもよい。ファイル鍵413は、ファイルシステム鍵415がローテーションされるときに再暗号化されてもよく、ファイルシステム鍵415は、クラスタ鍵417がローテーションされるときに再暗号化されてもよい。
【0045】
[0053]バックエンドは、複数のバケット407a、407b~407mを備える。コンピューティングデバイス401は、例えば、SSDの、複数のストレージデバイス409
a、409b、409c、409d~407nに動作可能なように連結される。バケットの数は、ストレージデバイスの数より小さくても、大きくても、等しくてもよい。
【0046】
[0054]複数のバケット407a、407b~407mの各バケット407xは、複数のストレージブロック(例えば、ブロックx1、ブロックx2、およびブロックx3)を備える障害保護されたストライプ411xを構築するように動作可能である。複数のストレージブロックは、暗号化されたデータ、ならびに、エラー検出および/またはエラー訂正コーディングを含む。例証として、ストライプ411aは、ブロックa1、ブロックa2、およびブロックa3を含み、ストライプ411bは、ブロックb1、ブロックb2、およびブロックb3を含み、ストライプ411cは、ブロックc1、ブロックc2、およびブロックc3を含む。ストライプ内のブロックの数は、3より小さくても、大きくても、等しくてもよい。特定のストライプの各ストレージブロックは、複数のストレージデバイスの異なるストレージデバイス内にある。バックエンド405において複数のバケット407によって構築された全ての障害保護されたストライプ411は、ファイルシステム鍵415と関連付けられた共通のファイルシステム400内にある。
【0047】
[0055]図5は、コンピューティングデバイス401a、401b、401c~401pのクラスタ501の例を示す。コンピューティングデバイスのクラスタ501は、クラスタ鍵417と関連付けられる。クラスタ鍵417(例えば、各クラスタあたり1つの鍵)は、クラスタの境界を決して離れるべきではない。クラスタ鍵417は、KMSによって生成されてもよい。クラスタ鍵は、KMSによって即座にローテーションされることが可能である。ローテーションされると、KMSは、各ファイルシステム鍵415を再暗号化し、古いクラスタ鍵は破壊されることが可能である。ファイルシステムは、ローテーションを認識している必要はない。クライアント(例えば、コンピューティングデバイス401bまたは401c)がクラスタ501に加わると、クラスタ501は、リーダに公開鍵503を登録する。各クライアントノードは、始動時に長期公開鍵/秘密鍵のペア503を生成する。
【0048】
[0056]ネットワーク暗号鍵は、2つのノード間の通信を暗号化するために、2つのノード(例えば、コンピューティングデバイス401bまたは401c)によって交渉されてもよい。システムノードおよびクライアントノードを含むノード間のネットワーク対話は、リモートプロシージャコール(RPC:remote procedure call)と呼ばれる。RPCは、これらの引数をマークすること、パラメータを出力すること、および、暗号化されたものとして値を返すことができる。RPCは、2つのRPCのエンドポイント(例えば、ノード)にのみ知られている予め交渉された鍵を使用して、これらの引数ペイロードを暗号化することができる。要求に応じて、各クライアントは、各クライアントが接続する各システムノードと、セッション鍵507を交渉することができる。セッション鍵は、各ノードがクラスタ501に追加されたときに、各ノード(例えば、コンピューティングデバイス401bまたは401c)によって生成された長期鍵ペア(例えば、長期鍵503bおよび503c)で署名された、(例えば、一過性鍵ペア生成器505を使用して)一過性鍵ペアを使用して、完全なフォワードセキュリティと交渉することができる。
【0049】
[0057]新たにスタートしたサーバが他のサーバに接続できるまでの時間を減らすためにシステムツーシステム鍵が使用されてもよい。加わると、新たにスタートしたサーバは、ファイルシステムリーダから鍵を受け取ることができる。このシステムツーシステム鍵は暗号化され、構成に保存される。サーバからサーバAへのRPCは、例えば、「config.serverkeys[A]」と表された構成を使用することができる。
【0050】
[0058]クライアントを認証するために、アドミニストレータは、クラスタに加わるため
にクライアントによって使用されることが可能なトークンまたは証明書を生成することができる。トークンは、チャレンジレスポンスメカニズムに基づいて、アドミニストレータによって時間制限され、構成可能であってもよい。トークンは、特定のマシン(例えば、マイIPアドレスまたはインスタンスID)を識別することができる。トークンは、クライアントクラスを識別することができ、このことにより、同じトークンを使用して、多くのマシンが加わることを可能にする。トークンは、アドミニストレータによって破棄されてもよい。トークンが破棄されると、新しいクライアントがトークンを使用して加わることができなくなり、トークンを使用して加わった既存のクライアントは、更新された有効なトークンを既存のクライアントが有していない限り、切断されることになる。
【0051】
[0059]マウントに権限付与するために、アドミニストレータは、どのクライアント(特定のマシン、またはマシンのグループ)が、どのファイルシステムをマウントできるかについて構成することができる。この権限付与は、クライアントがファイルシステムをマウントしようとするときに検証される。ファイルシステムをマウントしたことがないクライアントは、ファイルシステムへのアクセスを妨げられることもある。アドミニストレータは、許可されたアクセスがリードオンリであるか、ライトオンリであるか、またはリード/ライトであるかを指定することができる。アドミニストレータは、ルート(例えば、rootsquashまたは非rootsquash)としてクライアントがマウントすることを可能にすることもできる。
【0052】
[0060]各ファイルシステムは、ファイルシステム鍵から導出されることが可能なファイル名暗号鍵を有することができる。クライアントがファイルシステムをマウントすると、クライアントは、ファイル名暗号鍵を受け取ることができる。クライアントは、対称暗号化を使用して、暗号化されたファイル名をもつファイルを作り出すことができる。
【0053】
[0061]オブジェクトストレージ内のファイルデータ(例えば、バックアップおよび復元のための階層化されたデータ)は、ディスク上のデータと同様に暗号化されてもよい。オブジェクトストレージにアップロードするとき、ファイルデータは、暗号化されたファイルシステム鍵などのファイルシステムパラメータを収めることができる。例えば、ファイルシステム鍵は、KMSを介して利用可能な、特殊な「バックアップ固有クラスタ鍵」で暗号化されてもよい。
【0054】
[0062]クラスタが放棄され、オブジェクトストアからファイルシステムをダウンロードすることによって、新しいクラスタが作り出されると、ダウンロードされたファイルシステムは、バックアップ固有鍵とともにファイルシステム鍵で復号され、クラスタの新しいクラスタ鍵で再暗号化されてもよい。
【0055】
[0063]単純なストレージサービス(S3)にスナップショットを積み込む(stow)と、ファイルシステム鍵は、新しいクラスタ鍵を使用して再暗号化されてもよい。「stow」コマンドは、KMSから、「stow」コマンドにアクセスするための新しいクラスタ鍵IDおよび資格証明書を収めることができる。既存のファイルシステム鍵は、新しいクラスタ鍵で再暗号化され、残りのファイルシステムメタデータとともにS3に保存することができる。積み込んだスナップショットを復元するには、積み込む際に指定された同じクラスタ鍵にアクセスする必要がある。
【0056】
[0064]メモリ(例えば、カーネルメモリ)が別のプロセスによってアクセスされる可能性を減らすために、システムページキャッシュが暗号化されてもよい。この不正アクセスに立ち向かうために、カーネルページキャッシュによって受け取られた暗号化されたデータは、ネットワーク内で受け取られても、すぐに復号されなくてもよい。カーネルは暗号化されたデータを記憶することになるので、不正を働くアプリケーションは、データにア
クセスできなくなる。ファイルを実際に所有するプロセスが、暗号化されたデータにアクセスすると、カーネルドライバは、フロントエンドの支援により、このプロセスのメモリ空間にデータをコピーしつつ、データを復号することになる。したがって、システムメモリは、合法的にアクセスされるまで、暗号化されることになる。
【0057】
[0065]暗号化および復号プロセスは、ハードウェアアクセラレーションを活用することができる。暗号化を実行するとき、ファイルシステムは、暗号化プロセスを加速させることができるハードウェアを探すことができる。ファイルシステムは、どのハードウェアがより効率的であるか(例えば、標準的なCPUオペコード、CPU内のアクセラレーション、ネットワークカード上の暗号化コプロセッサ)についてランクをつけ、復号されたデータを暗号化する最も効率的な方式を使用することができる。
【0058】
[0066]前述の暗号化に加えて、セルフ暗号化ドライブ(SED:self-encrypting drive)が使用されてもよい。ファイルシステムにおける標準暗号化コードに加えて、SEDは、受け取られつつある既に暗号化されたデータを暗号化することができる。
【0059】
[0067]記憶されたデータの暗号化は、対称暗号鍵を使用することができ、この場合、データの暗号化および復号のために同じ鍵が使用される。ファイルシステム構成に基づいて、鍵管理のいくつかのオプションがある。
【0060】
[0068](例えば、SSDの)ドライブ全てに対して、同じ鍵が使用されてもよい。この鍵が危険にさらされた場合、それでも、ドライブの全てが読み込まれることが可能である。
【0061】
[0069]各SSD対して、異なる鍵が使用されてもよい。これらの鍵は、ファイルシステムが各SSDのための異なる暗号鍵をランダムに採取して、記憶することによって管理されてもよい。代替として、これらの鍵は、暗号鍵の作成および記憶を遂行するクライアント自体の鍵管理システムによって管理されてもよい。ファイルシステムは、クライアントのKSMでこれらの鍵を認証し、各SSDのための正しい鍵をリクエストすることができる。次のリブートまで、SSDは鍵を保持し、鍵を使用することができる。
【0062】
[0070]鍵管理の別のオプションは、SSD上の各チャンクのための異なる鍵を有することである。これは、同じファイルシステムで数人の顧客をサポートすることを可能にする。分散型耐障害性アドレス空間が異なるファイルシステムは、同じSSDエージェントにアクセスすることができる。各ファイルシステムは、各DFRASに対して異なる鍵を設定することができる。SSDは、ブート時に基本鍵を交換することができない。むしろ、ブート時に、異なる鍵がSSDに登録されてもよい。各IOに対して暗号鍵が与えられることをドライブが要求すると、各鍵は、各IOによって使用されるインデックスを有することができる。DFRASがSSDにアクセスするとき、DFRASは、DFRASのSSDに対するDFRASの暗号鍵のインデックスを覚え、このインデックスをIOリクエストとともに転送することができる。したがって、ファイルシステムは、セキュリティを損なうことなく、いくつかの作業負荷、および同じSSD上で動く異なるDFRASを共有することができる。
【0063】
[0071]HIPPAは、データの3つの独立したコピー、および休止状態の(at-rest)暗号化を要求する。3つの独立したコピーは、2つの独立したオブジェクトストレージに書き込むコンパウンドオブジェクトストレージバックエンドを使用することによって達成されてもよい。オブジェクトストレージに送られたデータが、最初に暗号化されてもよい。ファイルシステムは、アプリケーションによって定義された所定の時間(例えば、30分ごと)に、スナップショットを撮り、スナップショットをオブジェクトストレージに転送するように構成されてもよい。クラスタは、セルフ暗号化SSDドライブをKSMと統合することによって休止状態の暗号化を行うことができる。
【0064】
[0072]図6は、暗号化されたファイルシステムにおけるクライアントから読み込むための実例の方法を示す流れ図である。ブロック601では、クライアントが、読込みアクセスのためにファイルを開く。ブロック603では、検証後、クライアントは、このファイルシステムにアクセスすることができ、システムは、クライアントのコンピューティングデバイスにファイル鍵をセキュアに送る。ブロック605では、クライアントのフロントエンドがファイル鍵を使用して、ファイルから読み込まれたデータを復号する。
【0065】
[0073]ブロック607では、クライアントのコンピューティングデバイスおよび別のコンピューティングデバイスからの長期鍵で署名された一過性鍵ペアを使用して、セッション鍵が交渉される。ブロック609では、セッション鍵を使用してデータが暗号化される。ブロック611では、クライアントのコンピューティングデバイスから他のコンピューティングデバイスに、(セッション鍵で暗号化された)データを転送する。
【0066】
[0074]ブロック613では、ファイルが閉じられる。ブロック615では、ファイル鍵およびセッション鍵がメモリから消去される。
【0067】
[0075]図7は、暗号化されたファイルシステムにおけるクライアントに書き込むための実例の方法を示す流れ図である。ブロック701では、クライアントのコンピューティングデバイスおよび別のコンピューティングデバイスからの長期鍵で署名された一過性鍵ペアを使用して、セッション鍵が交渉される。ブロック703では、データが、セッション鍵を使用して暗号化される。ブロック705では、他のコンピューティングデバイスからクライアントのコンピューティングデバイスに、(セッション鍵で暗号化された)データが転送される。
【0068】
[0076]ブロック707では、クライアントが、書込みアクセスのためにファイルを開く。ブロック709では、検証後、クライアントは、このファイルシステムにアクセスすることができ、システムは、クライアントのコンピューティングデバイスにファイル鍵をセキュアに送る。ブロック711では、クライアントのフロントエンドがセッション鍵を使用して、受け取られたデータを復号する。
【0069】
[0077]ブロック713では、クライアントフロントエンドがファイル鍵を使用して、復号されたデータを暗号化する。ブロック715では、クライアントのコンピューティングデバイス上で開いたファイルに、(ファイル鍵で暗号化された)データが書き込まれる。
【0070】
[0078]ブロック717では、ファイルが閉じられる。ブロック719では、ファイル鍵およびセッション鍵がメモリから消去される。
【0071】
[0079]図8は、複数のソリッドステートストレージディスク上に2つの分散型耐障害性アドレス空間が常駐する実例の実装形態を示す。
【0072】
[0080]チャンク9101,1~910D,Cは、複数のチャンクストライプ920~920(Sは整数である)に編成されてもよい。1つの実例の実装形態では、各チャンクストライプ920(sは整数であり、ここで、1≦s≦Sである)は、前方誤り訂正(例えば、イレイジャコーディング)を使用して別々に保護される。したがって、任意の特定のチャンクストライプ920sにおけるチャンク910d,cの数は、所望のレベルのデータ保護に基づいて決定されてもよい。
【0073】
[0081]例証のために、各チャンクストライプ920が、N=M+K(ここで、N、M、およびKのそれぞれは整数である)個のチャンク910d,cを含むと仮定すると、N個のチャンク910d,cのうちのM個は、データディジット(典型的には、現在のストレージデバイスのためのバイナリディジットまたは「ビット」)を記憶することができ、N個のチャンク910d,cのうちのK個は、保護ディジット(やはり、典型的には、ビット)を記憶することができる。各ストライプ920について、次に、仮想ファイルシステムは、N個の異なる故障ドメインからN個のチャンク910d,cを割り当てることができる。
【0074】
[0082]本明細書で使用されるように、「故障ドメイン」は、構成要素のうちの任意のただ1つの故障(構成要素が電力を喪失すること、反応しなくなること、および/または同様のもの)が、構成要素全ての故障を生じる可能性がある構成要素のグループを指す。例えば、ラックが、単一のトップオブザラックスイッチを有する場合、このスイッチの故障が、このラック上の(例えば、計算、ストレージ、および/またはVFSノードといった)構成要素全てへの接続をダウンさせることになる。したがって、残りのシステムに対して、これは、このラック上の構成要素全てが一緒に故障した場合に等しい。本開示による仮想ファイルシステムは、チャンク910より少ない故障ドメインを含むことができる。
【0075】
[0083]仮想ファイルシステムのノードが、このようなノードあたり1つのストレージデバイス906しかないという完全に冗長な方式で接続され、電力供給される1つの実例の実装形態では、故障ドメインは、この単一のストレージデバイス906だけになる可能性がある。したがって、1つの実例の実装形態では、各チャンクストライプ920は、ストレージデバイス906~906のうちのN個のそれぞれに常駐する複数のチャンク910d,cを含む(したがって、DはNより大きいか、または等しい)。このような実装形態の例が図9に示される。
【0076】
[0084]図8では、D=7、N=5、M=4、K=1であり、ストレージは、2つのDFRASに編成される。これらの数は例証にすぎず、限定することを意図するものではない。第1のDFRASの3つのチャンクストライプ920が、例証として任意にコールアウトされる。第1のチャンクストライプ920は、チャンク9101,1、9102,2、9103,3、9104,5、および9105,6からなり、第2のチャンクストライプ920は、チャンク9103,2、9104,3、9105,3、9106,2、および9107,3からなり、第3のチャンクストライプ920は、チャンク9101,4、9102,4、9103,5、9105,7、および9107,5からなる。
【0077】
[0085]図8の単純な例ではD=7かつN=5であるが、実際の実装形態では、Dは、(例えば、1より大きい整数の倍数による、および場合によっては、多くの桁数による)Nよりはるかに大きくてもよく、2つの値は、N個のストレージデバイス906の同じセットに(または、より一般には、N個の故障ドメインの同じセットに)常駐する単一のDFRASの任意の2つのチャンクストライプ920の確率が所望の閾値を下回るように選ばれてもよい。このように、任意の単一のストレージデバイス906(または、より一般には、任意の単一の故障ドメイン)の故障は、(DおよびNの選ばれた値、N個のストレージデバイス906のサイズ、ならびに故障ドメインの配置に基づいて決定された所望の統計学的確率で)任意の特定のストライプ920の多くても1つのチャンク910b,cの喪失を生じることになる。さらに、2重の故障により、圧倒的多数のストライプが、多くても1つのチャンク910b,cを喪失することになり、(DおよびNの値に基づいて決定された)少数のストライプだけが、任意の特定のストライプ920から2つのチャンクを喪失することになる(例えば、2つの故障ストライプの数は、1つの故障ストライプの数より指数関数的に小さくなる可能性がある)。
【0078】
[0086]例えば、各ストレージデバイス906が1TBであり、各チャンクが128MBである場合、ストレージデバイス906の故障により、(DおよびNの選ばれた値、N個のストレージデバイス906のサイズ、ならびに故障ドメインの配置に基づいて決定された所望の統計学的確率で)7812(=1TB/128MB)個のチャンクストライプ920が1つのチャンク910を喪失することになる。それぞれのこのような影響を受けたチャンクストライプ920について、喪失チャンク910d,cは、適切な前方誤り訂正アルゴリズム、およびチャンクストライプ920の他のN-1個のチャンクを使用して、素早く再現されることが可能である。さらに、影響を受けた7812個のチャンクストライプが、ストレージデバイス906~906の全てにわたって一様に分散されるので、喪失した7812個のブロック910d,cを再現することは、(DおよびNの選ばれた値、N個のストレージデバイス906のサイズ、ならびに故障ドメインの配置に基づいて決定された所望の統計学的確率で)ストレージデバイス906~906のそれぞれから同じ量のデータを読み込むことを伴うことになる(すなわち、喪失データを再現する負担は、故障からの非常に素早い回復をもたらすように、ストレージデバイス906~906の全てにわたって一様に分散される)。
【0079】
[0087]次に、ストレージデバイス906~906のうちの2つの同時故障(または、より一般には、2つの故障ドメインの同時故障)のケースに移ると、ストレージデバイス906~906の全てにわたる各DFRASのチャンクストライプ920~920の一様な分散により、非常に少数のチャンクストライプ920~920だけが、これらのN個のチャンクのうちの2つを喪失していることになる。仮想ファイルシステムは、チャンクストライプ920~920とストレージデバイス906~906との間のマッピングを示すメタデータに基づいて、このような2つの喪失チャンクストライプを素早く識別するように動作可能であってもよい。このような2つの喪失チャンクストライプが識別されると、仮想ファイルシステムは、1つの喪失チャンクストライプの再現を始める前に、これらの2つの喪失チャンクストライプの再現を優先させることができる。残りのチャンクストライプは、単一の喪失チャンクだけを有することになり、これら(影響を受けたチャンクストライプの大半)について、2つのストレージデバイス906の同時故障は、ただ1つのストレージデバイス906の故障と同じである。類似の原理は、第3の同時故障などに適用される(3つの故障ブロックを有するチャンクストライプの数は、2つの同時故障シナリオにおける2つの故障ブロックを有する数よりむしろ小さくなる)。1つの実例の実装形態では、チャンクストライプ920の再現が実施される比率は、チャンクストライプ920内の喪失の数に基づいて制御されてもよい。これは、例えば、再現のための読込みおよびコミットが実施される比率、再現のためのFEC計算が実施される比率、再現のためのネットワークメッセージが通信される比率、等を制御することによって達成されてもよい。
【0080】
[0088]図9は、本開示の実例の実装形態による仮想ファイルシステムの不揮発性メモリに記憶されたデータを保護するために使用されることが可能な前方誤り訂正方式を示す。DFRASのブロックストライプ930~930のストレージブロック9021,1~9027,7が示される。図9の保護方式では、各ストライプの5つのブロックが、データディジットのストレージのためのものであり、各ストライプの2つのブロックが、保護ディジットのデータストレージのためのものである(すなわち、M=5かつK=2である)。図9では、以下の方程式(1)~(9)を使用して、保護ディジットが計算される。
【数2】
【0081】
[0089]したがって、図9における4つのストライプ930~930は、マルチストライプ(この場合、4つのストライプ)FEC保護ドメインの一部であり、ブロックストライプ930~930のいずれかにおける任意の2つ以下のブロックの喪失は、上記の方程式(1)~(9)の様々な組合せを使用することによって回復されることが可能である。比較として、単一のストライプ保護ドメインの例は、D1、D2、D3、D4、D5がP1によってのみ保護され、D1、D2、D3、D4、D5、およびP1が、ストライプ930に全て書き込まれる場合である(930は、単一のストライプFEC保護ドメインである)。
【0082】
[0090]本開示の実例の実装形態によれば、複数のコンピューティングデバイスは、ネットワークを介して互いに通信連結され、複数のコンピューティングデバイスのそれぞれは、複数のストレージデバイスの1つまたは複数を備える。複数の耐障害性アドレス空間は、複数の耐障害性アドレス空間のそれぞれが複数のストレージデバイスに及ぶように、複数のストレージデバイスにわたって分散される。複数の耐障害性アドレス空間のうちのそれぞれの1つは、複数のストライプ(例えば、図8および図9におけるような複数の930)に編成される。複数のストライプのそれぞれの1つまたは複数のストライプは、複数の前方誤り訂正(FEC)保護ドメイン(例えば、図8などにおけるマルチストライプFECドメイン)のうちのそれぞれの1つの一部である。複数のストライプのそれぞれは、複数のストレージブロック(例えば、複数の912)を含むことができる。複数のストライプのうちの特定の1つの各ブロックは、複数のストレージデバイスのうちの異なる1つに常駐することができる。複数のストレージブロックの第1の部分(例えば、図9のストライプ930の9021,2~9021,6からなる5つの量)は、データディジットの記憶のためのものであってもよく、複数のストレージブロックの第2の部分(例えば、図9のストライプ930の9021,1および9021,7の2つの量)は、データディジットに少なくとも部分的に基づいて計算された保護ディジットの記憶のためのものであってもよい。
【0083】
[0091]複数のコンピューティングデバイスは、複数のストライプにランクをつけるよう
に動作可能であってもよい。ランクは、複数の耐障害性アドレス空間のうちの1つへの次のコミット動作のために、複数のストライプのどれを使用するべきかを選択するために使用されてもよい。ランクは、保護されたおよび/または保護されていないストレージブロックが、どれだけ複数のストライプのそれぞれにあるかに基づくことができる。複数のストライプのうちの任意の特定の1つについて、ランクは、複数のストライプのうちの特定の1つを有する複数のストレージデバイス上に記憶されたビットマップに基づくことができる。ランクは、データを現在記憶しているどれだけのブロックが、複数のストライプのそれぞれにあるかに基づくことができる。ランクは、複数のストライプのそれぞれにコミットするための、読込みおよび書込みのオーバヘッドに基づくことができる。耐障害性アドレス空間のそれぞれは、複数のコンピューティングデバイスのうちのただ1つによって、いつでも所有されてよく、複数の耐障害性アドレス空間のうちのそれぞれの1つは、その所有者によってのみ、読込みおよび書込みが行われてもよい。コンピューティングデバイスのそれぞれは、耐障害性アドレス空間の複数を所有することができる。複数のストレージデバイスは、複数の故障ドメインに編成されてもよい。複数のストライプのうちのそれぞれの1つが、複数の故障ドメインに及んでもよい。耐障害性アドレス空間のそれぞれは、複数の故障ドメインの全てに及んでもよく、これにより、複数の故障ドメインのうちの任意の特定の1つの故障時に、喪失データを再現するための作業負荷が、複数の故障ドメインの他のそれぞれの間に分散される。複数のストライプは、複数の故障ドメインのうちの2つの同時故障の場合、複数の故障ドメインの故障した2つに常駐する複数のストライプのうちの任意の特定の1つの2つのブロックの機会が、複数の故障ドメインの故障した2つに常駐する複数のストライプのうちの任意の特定の1つのただ1つのブロックの機会より指数関数的に小さくなるように、複数の故障ドメインにわたって分散されてもよい。
【0084】
[0092]複数のコンピューティングデバイスは、2つの故障ブロックを有する複数のストライプのいずれかを最初に再現し、次に、ただ1つの故障ブロックを有する複数のストライプのいずれかを再現するように動作可能であってもよい。複数のコンピューティングデバイスは、ただ1つの故障ブロックを有する複数のストライプの再現の比率より(例えば、より大きい割合の再現専用のCPUクロックサイクル、より大きい割合の再現専用のネットワーク伝送機会、および/または同様のものによる)高い比率で、2つの故障ブロックを有する複数のストライプの再現を実施するように動作可能であってもよい。複数のコンピューティングデバイスは、故障ドメインの1つまたは複数の故障の場合、複数のストライプのうちの同じ1つの他のブロックがどれだけ失われたかに基づいて、任意の特定の喪失ブロックが再現される比率を決定するように動作可能であってもよい。複数の故障ドメインの1つまたは複数は、複数のストレージデバイスを含む。複数のFEC保護ドメインのそれぞれは、複数のストライプのうちの複数のストライプに及んでもよい。
【0085】
[0093]複数のストライプは、複数のグループ(例えば、図8におけるようなチャンクストライプ920~920)に編成されてもよく、ここで、複数のグループのそれぞれは、複数のストライプの1つまたは複数を含み、複数のコンピューティングデバイスは、グループのそれぞれについて、グループの複数のストライプの1つまたは複数にランクをつけるように動作可能である。複数のコンピューティングデバイスは、グループの複数のストライプの1つまたは複数が、決定された尺度をもはや満たさなくなるまで、複数のグループのうちの選択された1つへの連続コミット動作を実施すること、および、複数のグループのうちの選択された1つが、決定された尺度をもはや満たさなくなると、複数のグループのうちの異なる1つを選択することを行うように動作可能であってもよい。尺度は、新しいデータが書き込まれるのに、どれだけのブロックが利用可能であるかに基づくことができる。
【0086】
[0094]一定の実装形態を参照しつつ、本方法および/またはシステムが説明されてきた
が、本方法および/またはシステムの範囲から逸脱することなく、様々な変更が行われてもよく、同等物が代用されてもよいということが当業者によって理解されよう。さらに、本開示の範囲から逸脱することなく、本開示の教示に、特定の状況または材料を適合させるために、多くの修正が行われてもよい。したがって、本方法および/またはシステムが、開示された特定の実装形態に限定されるのではなく、本方法および/またはシステムが、添付の特許請求の範囲に入る全ての実装形態を含むことになるということを意図するものである。
【0087】
[0095]本明細書で利用されるように、用語「回路」および「回路機器」は、物理的な電子構成要素(すなわちハードウェア)、ならびに、ハードウェアを構成するか、ハードウェアによって実行されるか、またはそうでなければ、ハードウェアと関連付けられる可能性のある任意のソフトウェアおよび/またはファームウェア(「コード」)を指す。本明細書で使用されるように、例えば、特定のプロセッサおよびメモリは、コードの第1の1つまたは複数のラインを実行するときの第1の「回路機器」を備えることができ、コードの第2の1つまたは複数のラインを実行するときの第2の「回路機器」を備えることができる。本明細書で利用されるように、「および/または」は、リスト内の項目の任意の1つまたは複数が「および/または」によって結合されることを意味する。例として、「xおよび/またはy」は、3要素のセット{(x),(y),(x,y)}のうちのいずれかの要素を意味する。言い換えれば、「xおよび/またはy」は、「xおよびyの1つまたは両方」を意味する。別の例として、「x、y、および/またはz」は、7要素のセット{(x),(y),(z),(x,y),(x,z),(y,z),(x,y,z)}のうちのいずれかの要素を意味する。言い換えれば、「x、y、および/またはz」は、「x、y、およびzの1つまたは複数」を意味する。本明細書で利用されるように、用語「例示的な」は、非限定的な例、事例、または例証として機能することを意味する。本明細書で利用されるように、用語「例えば(e.g.,)」および「例えば(for example)」は、1つまたは複数の非限定的な例、事例、または例証のリストを設定する。本明細書で利用されるように、回路機器は、(例えば、ユーザ構成可能設定、工場での調整(factory trim)、等によって)機能の実施が無効にされるか、有効にされないかに関わらず、機能を実施するのに必要なハードウェアおよびコードを(いずれかが必要な場合)回路機器が備えるときはいつでも、機能を実施するように「動作可能」である。
図1
図2
図3
図4
図5
図6
図7
図8
図9