【文献】
Mark Reitblatt 'Consistent Updates for Software -Defined Networks: Change You Can Believe in!',Cambridge, MA, USA.,2011年11月15日,URL,http://frentic-lang.org/publications/consistent-updates-hotnets11.pdf
(58)【調査した分野】(Int.Cl.,DB名)
前記フローエントリの第1セットを受信した後、前記フローエントリの第3および第4セットを削除するよう前記管理転送要素セットにコマンドを送信するステップをさらに有することを特徴とする請求項11に記載の方法。
【発明を実施するための形態】
【0009】
以下の本発明の詳細な説明においては、本発明のさまざまな詳細、例、および実施形態が記載ならびに説明される。しかし、本技術分野に属する当業者には自明であろうが、本発明は説明される実施形態に限定されず、また、本発明は説明される具体的な詳細および例の一部を用いずに実施されうる。
【0010】
一部の実施形態は、管理転送要素セットの転送動作を規定するために、管理転送要素セットにプッシュするための転送状態情報をネットワークコントローラが算出するネットワーク制御システムを提供する。コントローラはさらに、管理転送要素の動作を変更するため、転送状態情報を更新する。転送状態情報を更新する際、ネットワークコントローラは、管理転送要素が(例えばデータパケットの形態を有する)データを更新された転送状態情報に従ってネットワーク内で転送するよう、更新された転送状態情報を管理転送要素にプッシュする。
【0011】
一部の実施形態において、コントローラは、パケットの経路中にある全ての管理転送要素が更新された転送状態情報を適用するような方法で、更新された転送状態情報を管理転送要素にプッシュする。例えば、一部の実施形態において、コントローラは、経路中の他の転送要素は単にパケットを宛先に転送するファブリックとして機能するよう、パケット経路の第1ホップ転送要素が全ての論理転送決定を実行するように設定する。これら実施形態において、コントローラは更新された転送状態情を第1ホップ転送要素だけに送信する。この方法により、パケットを宛先へ向けて転送するために、パケットを更新された転送情報で処理されなければならないことを第1ホップ転送要素以外の転送要素に示すためのバージョン情報をパケットに含める必要がなくなる。
【0012】
一部の実施形態においてコントローラは、第1ホップ転送要素だけでなく、パケット経路の他の転送要素によっても論理転送決定を行うように転送要素を設定する。これらの実施形態のいくつかにおいて、コントローラはまず更新された転送状態情報をパケット経路(すなわち、パケットの入口点と出口点との間の経路)中の1つの管理転送要素(そのパケットに関する第1ホップ転送要素)を除く全ての管理転送要素に送信する。そのパケットに関する第1ホップ転送要素は、パケットを送信元の装置から直接受信する。すなわち、そのパケットに関する第1ホップ転送要素は、経路の最初に位置する。
【0013】
そして、コントローラは更新された転送状態情報を第1ホップ管理転送要素に送信する。一部の実施形態において、第1ホップ管理転送要素は、パケットを次のホップの転送要素に転送する際、パケットにバージョン情報を含める。このバージョン情報は、そのパケットが古い転送状態情報ではなく、更新された転送状態情報に基づいて転送されなければならないことを示す。このようにして、更新された転送状態情報を用いる第1ホップ管理転送要素で受信並びに転送されるパケットは、更新された転送状態情報を用いるように準備ができているパケット経路中の他のホップ管理転送要素によってさらに転送される。
【0014】
以下のセクションにおいて、さらに詳細な実施形態を説明する。具体的には、セクションIで、論理および物理ネットワークを制御するための、一部の実施形態に係るネットワーク制御システムをまず説明する。次にセクションIIで、本発明の一部の実施形態に従って転送状態情報を生成、更新、およびプッシュするネットワークコントローラを説明する。セクションIIIでは、コントローラから転送状態情報を受信するためにいくつかの通信チャネルを用いる管理転送要素を説明する。最後にセクションIVで、本発明の一部の実施形態を実施することのできる電子システムを説明する。
【0015】
I.ネットワーク制御システム
図1は、管理転送要素セットの転送動作を規定するために、管理転送要素セットにプッシュするための転送状態情報をネットワークコントローラが算出するネットワーク制御システム100を示している。ネットワーク制御システム100は、コントローラ群105および3つの管理転送要素125-135を有している。ネットワークコントローラ群105は3つのネットワークコントローラ(1つの論理コントローラ110と2つの物理コントローラ115,120)を有している。ネットワーク制御システム100は、3つの管理転送要素に状態をプッシュする1つのコントローラ群105を有する単純な例を表している。多くの場合、一部の実施形態に係るネットワーク制御システムは、各群が多数のコントローラを含んだ多数のコントローラ群と、数百または数千の管理転送要素を有するであろう。
【0016】
一部の実施形態において、ネットワークコントローラ群105は、転送状態の算出を実行し、算出した転送状態をフローエントリの形式で管理転送要素にプッシュする。一部の実施形態に係るネットワークコントローラ群は、論理ネットワークを規定する論理制御プレーン(LCP)データを受信し、このLCPデータを管理転送要素125-135へ送信するための物理制御プレーン(PCP)データに変換する。一部の実施形態において、論理ネットワークの論理制御プレーンは、論理ネットワーク内のエンドマシン(例えば仮想マシン)を接続する1つ以上の論理転送要素(例えば論理スイッチ、論理ルータ)を規定する。論理転送要素は、送信元装置からのパケットを、論理空間内で宛先装置までどのように転送すべきかを規定する(例えば仮想マシンMACアドレスと論理ポートとの結び付け)。さらに、一部の実施形態においてLCPは、論理転送要素で実施される論理ポリシ(例えばアクセス制御リスト)を規定する。LCPおよびその構造は、それが実装される物理ネットワークには依存しない。
【0017】
一部の実施形態に係るネットワークコントローラ群は、LCPデータを管理転送要素にプッシュされるPCPデータにするための独特な変換を実行する。一部の実施形態において、コントローラ群はLCPデータを論理転送プレーン(LFP)データに変換し、次いでLFPデータをPCPデータに変換する。LFPデータは論理空間内でパケットを転送するための転送エントリを規定する。すなわち、単にアドレスを論理ポートと結びつけるのではなく、LFPデータは、アドレスが一致したらパケットを論理ポートへ転送することを記述するエントリを含んでいる。
【0018】
LFPデータからPCPデータへの変換は、論理転送エントリを物理ネットワークへ統合する。PCPエントリは物理ネットワーク内の論理アドレス空間内で転送を実行するための情報を含んでいる(例えば、論理ポートから物理ポートへのマッピングなど)。
【0019】
一部の実施形態において、管理転送要素にプッシュするためのPCPの算出は、コントローラ群の異なるコントローラレイヤ間に分散されている。例えば、一部の実施形態において、論理コントローラ110は少なくとも1つの論理転送要素を管理している。
図1の右半分に示されるように、論理コントローラ110はLCPからLFPへの変換に引き続き、LFPからユニバーサルPCP(UPCP)への変換を実行する。UPCPデータが有するフローエントリは、いずれかの管理転送要素に特有なデータを含むようにカスタマイズされておらず、代わりに、特定の物理的実装(例えばポート番号、トンネル識別子など)に特有なデータについての抽象化物(abstraction)だけを含んでいる。
【0020】
一部の実施形態において、特定の論理転送要素を管理する論理コントローラは、任意数の物理コントローラにUPCPデータを送信する。例えば、論理コントローラ110は2つの物理コントローラ115,120にUPCPデータを送信する。管理転送要素の各々は、マスタ物理コントローラによって管理される。
【0021】
従って、いくつかの管理転送要素にわたって実施される論理転送要素に関するUPCPデータは、そのいくつかの転送要素を管理するいくつかの異なるマスタ物理コントローラに送信されてよい。図示の通り、物理コントローラ115は2つの管理転送要素125,135を管理するマスタコントローラである。物理コントローラ120は管理転送要素135を管理するマスタコントローラである。
【0022】
管理転送要素と同じ物理マシン内の物理コントローラ又は(不図示の)シャーシコントローラのいずれかにおいて、UPCPデータは、カスタマイズされたPCP(CPCP)データに変換される。CPCPデータは、特定の管理転送要素に特有のカスタマイズデータを含んだ物理制御プレーンデータである。上述の通り、一部の実施形態において物理コントローラは、管理転送要素から受信した情報を用いてこの変換を実行する。他の実施形態において物理コントローラはUPCPデータを管理転送要素が存在するホストマシンへ送信するためのパススルーとして振る舞い、コントローラロジック(シャーシコントローラ)がUPCPからCPCPへの変換を実行する。
【0023】
管理転送要素125-135はネットワークコントローラによって(例えば転送状態情報をネットワークから受信することによって)管理されるソフトウェアまたはハードウェア転送要素である。一部の実施形態において、管理転送要素はホストマシン上(例えば、ユーザ空間および/またはホストマシンのカーネル内)で稼働するソフトウェア転送要素である。これらの管理転送要素はパケットをエンドマシン140-160から受信し、それらのパケットに論理的な処理を適用して、パケットをその宛先まで、物理ネットワークにわたって送信する(例えば、別のエンドマシンが異なる管理転送要素に接続されてもよい。)
【0024】
エンドマシン140-160は、物理マシンでも仮想マシンでもよい。一部の実施形態において、仮想マシンとしてのエンドマシンは、それらにパケットを転送する管理転送要素を有するホストと同じホスト内で稼働する。複数の物理ネットワークに属する仮想マシンは1つのホストマシン内に配置されてよい(例えばエンドマシン140,145は管理転送要素125が配置されるホストマシンと同じホストマシンに配置されてよい)ため、管理転送要素の各々は、複数の異なる論理転送要素を実現することができる。さらに、上述したように、1つの論理転送要素は多数の管理転送要素にわたって実現されるのが一般的であろう。
【0025】
ネットワークの縁部(edge)に配置される管理転送要素に加え、一部の実施形態においては、仮想マシンを有するホスト上に第2レベルの非縁部(non-edge)管理転送要素(プールノードもしくはサービスノードと呼ばれることもある)をさらに有する。(例えば論理ポートに宛先MACアドレスを結びつけるためのフローエントリを有さないことにより)縁部管理転送要素があるパケットに関する処理を全く実行することができない場合、縁部管理転送要素はそのパケットをプールノードが処理して宛先に送信するために、そのパケットをプールノードに送信する。
【0026】
図2は、一部の実施形態に係るネットワークコントローラ200の例示的なアーキテクチャを概念的に示している。ネットワークコントローラ200は、取り扱うデータのタイプに応じて、論理コントローラ、物理コントローラ、またはシャーシコントローラとして機能することができる。
【0027】
論理コントローラとしてのネットワークコントローラ200は、入力としてLCPデータを取得する。一部の実施形態においてネットワークコントローラ200は、LCPデータをLFPデータに変換し、その後UPCPデータに変換する。ネットワークコントローラ200はUPCPデータを、論理コントローラとしてのネットワークコントローラ200が管理する論理転送要素を実現する管理転送要素、のマスタである物理コントローラセットにプッシュする。
【0028】
一部の実施形態に係る物理コントローラとして、ネットワークコントローラ200はUPCPデータを入力とし、UPCPデータをCPCPデータに変換する。そしてネットワークコントローラ200はCPCPデータを、自身がマスタである管理転送要素セットへプッシュする。他の実施形態において物理コントローラとしてのネットワークコントローラ200は、UPCPデータを、管理転送要素セットが稼動するホストで稼動するシャーシコントローラセットへ中継する。ネットワークコントローラ200はこれら実施形態において、この管理転送要素セットのマスタである。
【0029】
シャーシコントローラとしてのネットワークコントローラ200は、物理コントローラセットからのUPCPデータを入力とする。ネットワークコントローラ200はUPCPデータを、シャーシコントローラが管理する管理転送要素のためのCPCPデータに変換し、CPCPデータを管理転送要素へ送信する。
【0030】
図2に示すように、ネットワークコントローラ200はルールエンジン入力テーブルセット210、関数および定数テーブルセット215、インポータ220、ルールエンジン225、ルールエンジン出力テーブルセット245、変換器250、エクスポータ255、持続性トランザクションデータベース(PTD)260、およびコンパイラ235を有している。コンパイラ235はコントローラの1構成要素であり、コントローラの他の構成要素とは時間的に異なるインスタンスで動作する。コンパイラは開発者が特定のネットワークコントローラおよび/または仮想化環境に関してルールエンジンを指定する必要がある際に動作し、一方でコントローラの残りのモジュールはコントローラが他のコントローラまたは管理転送要素と相互動作(interface)する際にランタイムで動作する。
【0031】
一部の実施形態において、コンパイラ235は、宣言型言語で指定されている比較的小さい(例えば数百行の)宣言命令(declarative instructions)240を取得し、それらをコントローラのテーブルマッピングを実行するルールエンジン225の動作を指定する、大きな(例えば数千行の)コード(すなわちオブジェクトコード)セットに変換する。従って、コンパイラは、ネットワークコントローラを規定ならびに更新するネットワークコントローラ開発者の処理を大幅に単純化する。それは、コンパイラにより開発者が高レベルプログラミング言語を用いることが可能になるからである。高レベルプログラミング言語は、ネットワークコントローラの複雑なマッピングをコンパクトに規定すること、そして、その後、(例えば、ネットワークコントローラがサポートする論理的なネットワーキング機能の変更、ネットワークコントローラの望ましい振る舞いの変更など)任意数の変更に応答してこのマッピングを更新することを可能にする。さらに、コンパイラは、開発者がマッピング動作を規定する際に、ネットワークコントローラでイベントが発生するであろう順番を考慮する労力を軽減する。また、開発者はネットワークコントローラ200を論理コントローラ、物理コントローラ、またはシャーシコントローラとして機能させるため、異なるルールセットを用いてネットワークコントローラ200をプログラミングする。
【0032】
一部の実施形態において、ルールエンジン(RE)入力テーブル210は、ネットワークコントローラ200が動作するネットワークコントローラのタイプに基づいた、異なるタイプのデータを有する複数のテーブルを有する。ネットワークコントローラ200が論理コントローラとして動作する場合、入力テーブル210はLFPデータにマッピングされるのに必要なLCPデータと、UPCPデータにマッピングされるのに必要なLFPデータとを含む。ネットワークコントローラ200が物理コントローラまたはシャーシコントローラとして動作する場合、入力テーブル210はCPCPデータにマッピングされるために必要なUPCPデータを含む。
【0033】
RE入力テーブル210に加え、ネットワークコントローラ200は、ルールエンジン225が自身のテーブルマッピング動作に関する入力をまとめるために用いる、他の様々なテーブル215を有している。これらのテーブル215は、ルールエンジン225がテーブルマッピング動作を実行するために必要な定数の規定値を格納する定数テーブルを含む。例えば、定数テーブル215は、値0として規定される定数「ゼロ」、値4000として規定される定数「dispatch_port_no」、および、値0xFF:FF:FF:FF:FF:FFとして規定される定数「broadcast MAC addr」を含んでよい。
【0034】
ルールエンジン225が定数を参照すると、その定数について規定されている対応値が実際に読み出されて用いられる。さらに、定数テーブル215内で定数に対して規定される値は変更および/または更新されてもよい。このようにして、定数テーブル215は、ルールエンジン225の動作を規定するコードを書き直したり再コンパイルしたりする必要なしに、ルールエンジン225が参照する定数に対して規定される値を変更する能力を提供する。テーブル215はさらに、出力テーブル245にデータを追加する(populate)ために必要な値を算出するためにルールエンジン225が必要とする関数を格納する関数テーブルを含む。
【0035】
ルールエンジン225は入力データを出力データに変換するための1方法を指定するテーブルマッピング動作を実行する。ルールエンジン(RE)入力テーブルの1つが変更される都度、ルールエンジンは一連のテーブルマッピング動作を実行し、それによって1つ以上のRE出力テーブル内の1つ以上のデータタプルが変更されうる。一部の実施形態において、ネットワーク制御システムはルールエンジン225を作成するために、nLogと呼ばれる、データログデータベース言語の派生物を用いる。データログと同様、nLogは、様々なイベントの発生に応じて実行されるべき様々な動作を開発者が指定することを可能にする、2、3の宣言的ルールと演算子を提供する。一部の実施形態において、nLogは、実行速度を向上させるため、データログが提供する演算子の限定的なサブセットを提供する。例えば、一部の実施形態において、nLogは宣言的ルールにおいて使用可能な演算子をANDに限定する。
【0036】
図2に示すように、ルールエンジン225はイベントプロセッサ222と、いくつかのクエリ実行計画(query plan)227と、テーブルプロセッサ230とを有している。クエリ実行計画の各々は、RE入力テーブルの1つに対する変更が生じた際に実行されるべき結合(join)動作セットを規定するルールセットである。以下の説明では、このような変更を入力テーブルイベントと呼ぶ。各クエリ実行計画は、宣言セット240内の1つの宣言的ルールからコンパイラ235によって生成される。一部の実施形態において、1つの宣言的ルールから複数のクエリ実行計画が生成される。例えば1つの宣言的ルールによって結合される複数のテーブルの各々に対して1つのクエリ実行計画が生成される。すなわち、宣言的ルールが4つのテーブルの結合を規定する場合、4つの異なるクエリ実行計画が1つの宣言から生成されることになる。一部の実施形態において、クエリ実行計画は、nLog宣言型言語を用いて規定される。
【0037】
ルールエンジン225のイベントプロセッサ222は、入力テーブルイベントの各々の発生を検出する。別の実施形態におけるイベントプロセッサは、別の入力テーブルイベントの発生を検出する。一部の実施形態においてイベントプロセッサは、RE入力テーブルのレコードに対する変更を通知するために、RE入力テーブルとともにコールバックを登録する。そのような実施形態において、イベントプロセッサ222は、RE入力テーブルから、そのレコードの1つが変更されたことの通知を受信すると、入力テーブルイベントを検出する。
【0038】
検出された入力テーブルイベントに応答して、イベントプロセッサ222は(1)検出されたテーブルイベントに対して適切なクエリ実行計画を選択し、(2)テーブルプロセッサ230にそのクエリ実行計画を実行するように命令する。クエリ実行計画を実行するため、一部の実施形態においてテーブルプロセッサ230は、入力テーブル210および雑テーブル215の少なくとも一方からのデータ値セットの1つ以上を表す1つ以上のレコードを生成するために、クエリ実行計画によって規定された結合動作を実行する。一部の実施形態に係るテーブルプロセッサ230は、そして(1)結合動作によって生成された1以上のレコードからのデータ値のサブセットを選択するための選択動作を実行し、(2)選択されたデータ値のサブセットを1つ以上のRE出力テーブル245に書き込む。
【0039】
一部の実施形態において、RE出力テーブル245は論理および物理ネットワーク要素データ属性の両方を格納する。テーブル245は、ルールエンジン225のテーブルマッピング動作の出力を格納するため、RE出力テーブル245と呼ばれる。一部の実施形態において、RE出力テーブルはいくつかの異なるカテゴリにグループ化されてもよい。例えば、一部の実施形態においてこれらテーブルは、RE入力テーブルおよび/またはコントローラ出力テーブルであってもよい。テーブル内の変更が、クエリ実行計画の実行を必要とする入力イベントをルールエンジンに検出させる場合、そのテーブルはRE入力テーブルである。RE出力テーブル245は同時に、ルールエンジンに別のクエリ実行計画を実行させるイベントを発生するRE入力テーブル210であってもよい。そのようなイベントは内部入力イベントと呼ばれ、インポータ220によるRE入力テーブル変更が引き起こすイベントである外部入力イベントとは大きく異なる。
【0040】
あるテーブル内の変更が、エクスポータ255に別の1つ以上のコントローラまたは1つ以上の管理転送要素に変更をエクスポートさせる場合、そのテーブルはコントローラ出力テーブルである。RE出力テーブル245内のテーブルはRE入力テーブルであっても、コントローラ出力テーブルであっても、RE入力テーブル兼コントローラ出力テーブルであってもよい。一部の実施形態において、RE入力テーブルおよびRE出力テーブルは、リレーショナルデータベース管理システム(RDBMS)のテーブルである。これらのテーブルは、ネットワークコントローラの主データ記憶構造であるリレーショナルデータ構造として格納される。
【0041】
エクスポータ255はRE出力テーブル245のコントローラ出力テーブルに対する変更を検出する。別の実施形態におけるエクスポータは、別のコントローラ出力テーブルイベントの発生を検出する。一部の実施形態において、エクスポータはコントローラ出力テーブルのレコードに対する変更を通知するため、コントローラ出力テーブルとともにコールバックを登録する。そのような実施形態において、エクスポータ255は、コントローラ出力テーブルから、そのレコードの1つが変更されたとの通知を受信すると、出力テーブルイベントを検出する。
【0042】
検出された出力テーブルイベントに応答して、エクスポータ255は変更されたコントローラ出力テーブル内で変更されたデータタプルの一部または全部を取得し、この変更されたデータタプルを他のコントローラまたは管理転送要素に伝達する。具体的には、ネットワークコントローラ200が論理コントローラとして動作する場合、エクスポータ255は、物理コントローラとの間で確立されている通信チャネルセット(例えば遠隔手続呼び出し(RPC)チャネル)を通じてUPCPデータを物理コントローラセットに伝達する。ネットワークコントローラ200が物理コントローラとして動作する場合、一部の実施形態に係るエクスポータ255は、シャーシコントローラとの間で確立されている通信チャネルセットを通じてUPCPデータをシャーシコントローラセットに伝達する。他の実施形態に係るエクスポータ255は、管理転送要素の各々との間で確立されている通信チャネルペア(例えば1つのOpenFlowチャネルおよび1つの設定チャネル)を通じてCPCPデータを管理転送要素セットに伝達する。ネットワークコントローラ200がシャーシコントローラとして動作する場合、一部の実施形態に係るエクスポータ255は、管理転送要素の各々との間で確立されている通信チャネルペア(例えば1つのOpenFlowチャネルおよび1つの設定チャネル)を通じてCPCPデータを管理転送要素セットに伝達する。
【0043】
一部の実施形態においてネットワークコントローラは、自身が管理する必要のないデータを出力テーブル245に保持しない。しかし、そのようなデータは変換器250によってPTDに格納可能な形式に変換され、PTD260に格納される。PTDはネットワークコントローラの二次記憶構造体である。ネットワークコントローラ200のPTDは、そのデータの管理を受け持つ他のネットワークコントローラがそのデータを管理できるよう、そのデータを1つ以上の他のネットワークコントローラに伝達する。
【0044】
一部の実施形態において、ネットワークコントローラはさらに、出力テーブル245内に格納されているデータ(すなわち、自身が管理を受け持っているデータ)を、データの耐障害性を高めるため、PTDへも格納してもよい。そのようなデータもまた変換器250によって変換され、PTDに格納され、他のコントローラインスタンスの他のPTDに伝達される。従って、これらの実施形態において、コントローラインスタンスのPTDはネットワーク制御システムによって管理される全データに対する全ての設定データを有する。すなわち、一部の実施形態において、各PTDは、論理および物理ネットワークの構成についての全体的な知見(global view)を格納している。
【0045】
インポータ220は複数の入力データ源と相互動作し、入力テーブル210を変更または生成するために入力データを用いる。一部の実施形態に係るインポータ220は、ネットワークコントローラ200が論理コントローラとして動作する際にユーザ入力をLCPデータに変換する入力変換コントローラ(不図示)を通じて、入力データをユーザ(賃借人(tenant))から受信する。インポータ220は一部の実施形態において、LCPデータを通信チャネルを通じて受信する。
【0046】
インポータ220はさらに、PTDを通じて他のコントローラインスタンスから受信したデータを入力テーブル210の変更または生成に用いることができるよう、PTD260とも相互動作する。さらに、インポータ220はRE入力テーブルおよびRE出力テーブル245のコントローラ出力テーブルにおける変化を検出する。生成され出力テーブル245に格納されるLFPデータは、ルールエンジン225によるUPCPデータ生成のために、インポータ220によってルールエンジン225にフィードバックされる。
【0047】
ネットワークコントローラ200が物理コントローラとして動作する場合、インポータ220は、論理コントローラセットとの間で確立されている通信チャネルセットを通じてUPCPデータを論理コントローラセットから取得する。ネットワークコントローラ200がシャーシコントローラとして動作する場合、インポータ220は、物理コントローラセットとの間で確立されている通信チャネルセットを通じてUPCPデータを物理コントローラセットから取得する。
【0048】
図3は、管理転送要素310-330にわたって実現される論理転送要素380および390を概念的に示している。図の上半分は3つの管理転送要素310-330およびエンドマシン340-365を示している。図示するように、マシン340,350および360はユーザAに属し、マシン345,355および365はユーザBに属している。図示および説明を簡単にするため、本図では、論理転送要素が少数のエンドマシンに接続され、少数の管理転送要素で実現される構成を示している。上述の通り、論理転送要素は多数のエンドマシンに接続され、多数の管理転送要素で実現されてよい。
【0049】
一部の実施形態に係る管理転送要素310-330は、ネットワークデータ(例えばパケット、フレームなど)を、管理転送要素310-330に接続されるネットワーク内のネットワーク要素間で転送する。図示の通り、管理転送要素310はマシン340、345と、転送要素320との間でネットワークデータを転送する。同様に、転送要素320はマシン350と管理転送要素310,330との間でネットワークデータを転送し、転送要素330はマシン355-365と転送要素320との間でネットワークデータを転送する。
【0050】
さらに、管理転送要素310-330の各々は、一部の実施形態においてテーブルの形式を有する、転送要素の転送ロジックに基づいて、ネットワークデータを転送する。一部の実施形態において転送テーブルは、ネットワークデータをどこへ転送するか(例えば転送要素上のポート)を、転送条件に従って決定する。例えば、レイヤ2転送要素の転送テーブルは、ネットワークデータをどこへ転送するかを、MACアドレス(例えば送信元MACアドレスおよび/または宛先MACアドレス)に基づいて決定してよい。別の例として、レイヤ3転送要素の転送テーブルは、ネットワークデータをどこへ転送するかを、IPアドレス(例えば送信元IPアドレスおよび/または宛先IPアドレス)に基づいて決定してよい。他の多数の転送条件が考えられる。
【0051】
図示の通り、管理転送要素310-330の各々における転送テーブルは数個のレコードを有している。一部の実施形態において、各レコードは転送条件に基づくネットワークデータの転送動作を規定する。レコードは管理転送要素310-330を通じたデータの「流れ」を制御するため、一部の実施形態においてフローエントリと呼ばれてよい。
【0052】
図3の下半分はユーザの論理ネットワークの概念的な表現を示している。図示の通り、ユーザAの論理ネットワーク380は、ユーザAのマシン340,350および360が接続された論理転送要素385を有している。ユーザBの論理ネットワーク390は、ユーザBのマシン345,355および365が接続された論理転送要素395を有している。従って、ユーザAの観点からすると、ユーザAはユーザAのマシンだけが接続された転送要素を有し、ユーザBの観点からすると、ユーザBはユーザBのマシンだけが接続された転送要素を有している。換言すれば、各ユーザは、自身のマシンだけを有する自身のネットワークを有している。
【0053】
以下、マシン340からマシン350へ宛てて送信されたネットワークデータおよびマシン340からマシン360へ宛てて送信されたネットワークデータのフローを実現するための概念的なフローエントリについて説明する。まず、マシン340からマシン350へ宛てて送信されたネットワークデータを転送するためのフローエントリについて説明した後、マシン340からマシン360へ宛てて送信されたネットワークデータを転送するためのフローエントリについて説明する。
【0054】
管理転送要素310の転送テーブル内のフローエントリ「A1からA2」は、管理転送要素310に、マシン310を送信元としたマシン350宛のネットワークデータを転送要素320に転送するよう命令する。管理転送要素320の転送テーブル内のフローエントリ「A1からA2」は、管理転送要素320に、マシン310を送信元としたマシン350宛のネットワークデータをマシン350に転送するよう命令する。
【0055】
管理転送要素310の転送テーブル内のフローエントリ「A1からA2」は、管理転送要素310に、マシン310を送信元としたマシン350宛のネットワークデータを転送要素320に転送するよう命令する。管理転送要素320の転送テーブル内のフローエントリ「A1からA3」は、管理転送要素320に、マシン340を送信元としたマシン360宛のネットワークデータを転送要素330に転送するよう命令する。管理転送要素330の転送テーブル内のフローエントリ「A1からA3」は、管理転送要素330に、マシン340を送信元としたマシン360宛のネットワークデータをマシン360に転送するよう命令する。
【0056】
マシン340を送信元としたマシン350宛のネットワークデータと、マシン340を送信元としたマシン360宛のネットワークデータを転送させるための概念的なフローエントリについて説明したが、ユーザAの論理ネットワーク380内の他のマシン間でネットワークデータを転送するために、同様のフローエントリが管理転送要素310-330の転送テーブルに含まれるであろう。さらに、同様のフローエントリが、ユーザBの論理ネットワーク390内のマシン間でネットワークデータを転送するために、管理転送要素310-330の転送テーブルに含まれるであろう。
【0057】
図3に示した概念的なフローエントリは、パケットを送信すべき次ホップの転送要素を管理転送要素が解明するために、送信元および宛先情報の両方を含んでいる。しかし、一部の実施形態に係る管理転送要素は宛先情報(例えば宛先アドレスなど)だけを用いて次ホップの転送要素を解明することができるため、送信元情報はフローエントリに含まれなくてもよい。
【0058】
一部の実施形態において、管理転送要素310-330にわたる論理転送要素385および395の実装を容易にするため、トンネリングプロトコル(例えばCAPWAP (control and provisioning of wireless access points)、GRE (generic forward encapsulation)、IPsec (GRE Internet Protocol Security)など)によって提供されるトンネルが用いられてよい。トンネリングによりパケットは、転送要素を通じ、別のパケットのペイロードとして送信される。すなわち、トンネリングされたパケットは、それをカプセル化している外側パケットのヘッダに含まれるアドレスに基づいて転送されるため、自身のアドレス(例えば送信元および宛先MACアドレス)をさらす必要がない。従って、外側パケットが物理アドレス空間内のアドレスに基づいて転送される間、トンネリングされたパケットは論理アドレス空間において意味のあるアドレスを有することができるため、トンネリングは論理アドレス空間と物理アドレス空間とを分離することを可能にする。このように、トンネルは論理転送要素385および395を実現するために管理転送要素を接続する「論理配線」として見ることができる。
【0059】
転送要素セットにわたって複数の論理転送要素を実現するために上述した様々な方法で転送要素を設定することにより、複数のユーザが実際には同じ転送要素セットおよび/または転送要素セット間のコネクション(例えばトンネル、物理的配線)を共有しながら、個々のユーザの観点からはそれぞれが独立したネットワークおよび/または転送要素を有することが可能になる。
【0060】
図3は論理転送要素を管理転送要素セットで実現する例を示したが、管理転送要素の転送テーブルを設定することにより、(例えばいくつかの論理的L3転送要素を含むような)より複雑な論理ネットワークを実現することも可能である。
図4は、より複雑な論理ネットワークの一例を概念的に示している。
図4は、3つの論理転送要素、論理ルータ425および論理スイッチ420,430を実現する、一部の実施形態に係るネットワークアーキテクチャ400を示している。具体的には、ネットワークアーキテクチャ400は論理ルータ425および論理スイッチ420,430によってデータパケットが転送される論理ネットワークを実現する物理ネットワークを表している。図の上半分は論理ルータ425および論理スイッチ420,430を示している。また、図の下半分は管理転送要素455,460を示している。さらに、上半分および下半分の両方に、エンドマシン(例えば仮想マシン(VM))1-4を示している。
【0061】
この例において、論理スイッチ要素420は論理ルータ425,エンドマシン1、およびエンドマシン2の間でデータパケットを転送する。論理スイッチ要素430は論理ルータ425,エンドマシン3、およびエンドマシン4の間でデータパケットを転送する。上述の通り、論理ルータ425は、論理スイッチ420,430と他の論理ルータ並びにスイッチ(不図示)との間でデータパケットをルーティングする。論理スイッチ420,430および論理ルータ425は論理ポート(不図示)を通じて論理的に接続され、論理ポートを通じてデータパケットを交換する。これらの論理ポートは管理転送要素455および460の物理ポートにマッピングまたはアタッチされている。
【0062】
一部の実施形態において、論理ルータは管理ネットワーク内の各管理スイッチ要素で実現される。管理スイッチ要素が自身に接続されたマシンからパケットを受信すると、管理スイッチ要素は論理ルーティングを実行する。つまり、これらの実施形態では、あるパケットに関する第1ホップスイッチ要素である管理スイッチ要素が、論理ルーティングを実行する。
【0063】
本例において、管理転送要素455および460はそれぞれホスト465および470で稼動するソフトウェアスイッチである。管理転送要素455および460は、それらがエンドマシン1-4から受信するパケットを転送及びルーティングするための論理スイッチ420および430を実現するフローエントリを有する。このフローエントリは論理ルータ425も実現する。これらのフローエントリを用いて、管理転送要素455および460は、ネットワーク内のネットワーク要素であって、自身に接続されているネットワーク要素間でパケットを転送およびルーティングすることができる。
【0064】
図示の通り、管理転送要素455および460の各々は、自身に接続されているネットワーク要素とデータパケットを交換するための3つのポート(例えば仮想インタフェース(VIF))を有している。これら実施形態におけるデータパケットは、管理転送要素455と460との間で確立されているトンネル(例えば、管理スイッチ要素455のポート3と管理スイッチ要素460のポート6とを端点とするトンネル)を通じてやりとりされることもある。このトンネルは、論理空間内のアドレスと物理空間内のアドレスとを分離することを可能にする。
【0065】
本例において、ホスト465および470は1つの管理スイッチ要素といくつかのエンドマシンを有している。エンドマシン1-4のそれぞれにはネットワークアドレスセット(例えば、L2用のMACアドレス、L3用のIPアドレスなど)が割り当てられており、他のネットワーク要素との間でネットワークデータを送受信することができる。エンドマシンはホスト465および470で稼動するハイパーバイザ(不図示)によって管理される。エンドマシン1および2は、同じ論理スイッチ420の論理ポート1および2にそれぞれ関連付けられている。しかし、マシン1は管理スイッチ要素455のポート4に関連付けられており、マシン2は管理スイッチ要素460のポート7に関連付けられている。そのため、論理ポート1および2はそれぞれポート4および7にマッピングされるが、このマッピングはネットワーク内のどのネットワーク要素(不図示)にも開示しなくてよい。これは、このマッピング情報を含んだパケットが、そのパケットをペイロードとして搬送する外側パケットの外側ヘッダに基づき、トンネルを通じてエンドマシン1と2の間で交換されるからである。
【0066】
ネットワーク制御システムおよび、物理的インフラストラクチャにおける論理ネットワークの実現について説明してきた。以下のセクションIIでは、更新された転送状態の管理転送要素へのトランザクション的な伝達について説明する。
【0067】
II.トランザクション性の利用
ネットワーク構成が変化した後、転送状態を更新(すなわち、以前算出した状態から新たに算出した状態へ移行)するためには解決すべきいくつかの課題がある。いくつかの解決策を以下に説明する。これらの解決策は問題を2つの次元、正確さと効率、という観点で検討している。すなわち、これら解決策は、更新前後だけでなく更新中においても、その時点でネットワークに存在する状態が、ネットワークポリシに正しく準拠することをどのようにして保証できるのか、を検討している。効率という点に関し、これらの解決策は、潜在的に大きな状態更新のコストをどのようにして最小限に抑えることができるかを検討している。
【0068】
以下の議論において、ネットワーク制御システムは、ネットワーク転送要素を管理するために、転送要素に関する転送状態を算出する中央集中型のコントローラ群を有している。さらに、以下の議論において「ネットワークポリシ」は、セキュリティポリシに限らず、ネットワークトラフィックをどのようにルーティングするかに関するポリシや、物理(または論理)ネットワーク構成など、設定や構成に関する任意の観点を含む。従って、この議論において、「ポリシ」はユーザ設定入力に関する全てについて用いられる。
【0069】
A.トランザクションの要件
転送状態はパケットに対して作用する。1つのパケットは、新旧のポリシを表す状態が混在したものではなく、1つの一貫したポリシに従って転送されることが必須である。1つのパケットが新旧両方のポリシで取り扱われないように旧バージョンから新バージョンへの遷移が起こる以上、後続のパケットは別バージョンのポリシで処理されうる。
【0070】
新しいポリシへのアトミック遷移の要件は、転送状態に対する更新がトランザクション的に行われなければならないことを暗に示す。しかし、上述の通り、ネットワーク転送状態の全てを同時にアトミック的に更新しなければならないということではない。特に、一部の実施形態に係るネットワーク制御システムは、この要件を2つの観点において緩和している。第1に、ある送信元(ソース)から1つ以上の宛先へのパケットストリームに関しては、どの時点で古いポリシから新しいポリシに変化するかを指定することはあまり重要でない。古いポリシと新しいポリシの両方に従って転送されるパケットが存在しないことだけが必須である。各パケットは、古いポリシまたは新しいポリシのいずれかに従って転送されねばならない。第2に、一部の実施形態に係るネットワーク制御システムは、異なる場所からネットワークに入る異なるパケットストリームに対し、過渡的に異なるポリシが適用されることを許容する。繰り返すが、これらの実施形態では1つのパケットには1つのポリシだけが適用され、新旧ポリシの両方が適用されないことだけが要求される。
【0071】
B.トランザクション的更新の実現
これら要件と緩和の条件下におけるトランザクション的更新の実現について検討する。M. Reitblattらの”Consistent Updates for Software -Defined Networks: Change You Can Believe in!” Proceedings of the 10th ACM Workshop on Hot Topics in Networks, p.1-6, 2011年11月14-15日, ケンブリッジ, マサチューセッツ(以下、Reitblatt文献と呼ぶ)には、ネットワークの入口において、そこで使われている転送状態のバージョンを用いてパケットにタグ付けすることが提案されている。従って、パケットがネットワーク内を進行する際、後続のネットワーク要素はどのバージョンが用いられているかを知ることになる。これにより、トランザクション的な、ネットワーク全体にわたるネットワーク転送状態の更新が効率的に実現される。
【0072】
しかし、この手法にはいくつかの実現上の課題が存在する。第1に、ネットワークのスライシングを想定しないと、ネットワークに対する更新を数回に分けて行う(serialize)必要がある。つまり、ネットワーク全体を特定のバージョンのために準備する必要があり、その後、準備が完了したバージョンを用いるように入口を更新した後でないと、次のバージョンへの準備を開始できない。
【0073】
第2に、パケットが明示的なバージョンタグを有する必要があるため、タグを割り当てるための十分なビット数がパケットヘッダのどこかに必要となる。従前のトンネリングプロトコルを用いてネットワークが動作する必要がある場合、ヘッダにそのようなタグ用の空きビットを見つけるのは困難であろう。
【0074】
従って、Reitblatt文献に記載されるようなネットワーク全体にわたるトランザクション的な更新は強力ではあるが、理想的には回避すべき実用上の課題を有している。従って、Reitblatt文献に記載されているこの手法の代わりに、一部の実施形態に係るネットワーク制御システムは管理転送要素のネットワーク縁部への配置を活用する。セクションIで説明したように、一部の実施形態に係るネットワーク制御システムは、論理転送の決定(すなわち、どの1以上の論理ポートがパケットを受信すべきかの決定)を第1ホップで実行する。その後の段階は、この転送決定に基づいて、選択された宛先へ向けて単にパケットを転送するに過ぎない。
【0075】
図5は、第1ホップで論理転送の決定を行う、ネットワーク制御システムのネットワークコントローラ群505を概念的に示している。具体的には、この図はネットワークコントローラ群505が転送状態更新を第1ホップ管理転送要素にのみ送信することを、4つの異なる段階501-504で示している。ネットワークコントローラ群505は、転送状態を生成し、更新し、管理転送要素(MFE)510に伝達する論理コントローラおよび物理コントローラ(不図示)を有する点において
図1を参照して説明したネットワークコントローラ群105と類似している。管理転送要素510は、エンドマシン540を送信元とするデータに関する第1ホップ転送要素である。つまり、管理転送要素510はエンドマシン540と直接相互動作し、エンドマシン540からのデータをその宛先へ向けて転送する。転送要素515-535は1組のエンドマシン540-550の間でデータを転送する。
【0076】
第1段階501で管理転送要素510は、エンドマシン540からのネットワークデータ(不図示)を、転送要素が有する現在の転送状態(古い状態)に基づいて転送する。具体的には、エンドマシン540からエンドマシン545に送信されたパケットについてコントローラ群が規定した経路は、図に実線で示すように、転送要素(FE)510,515,および520にまたがっている。また、段階501において、コントローラ群505は(例えば不図示の入力トランザクションコントローラを通じて)ユーザから転送状態に対する更新を受信する。この更新は新しいネットワークポリシ(例えば、異なる許容帯域幅を規定する新たなQoSポリシや、ある仮想マシン(VM)から、新たに提供された他の仮想マシンへの新しい経路など)を表している。
【0077】
第2段階502において、コントローラ群505は(例えば入力LCPデータをUPCPまたはCPCPデータに変換することにより)転送状態更新を算出する。一部の実施形態において、コントローラ群505は論理転送要素を実現する全ての管理転送要素を特定する。具体的には、論理転送要素の論理入口ポートおよび論理出口ポートにマッピングされている第1の物理ポートから第2の物理ポートへ転送されようとしているパケットの経路について、コントローラ群505は第1の物理ポートを有する転送要素(例えば第1ホップ転送要素)および第2の物理ポートを有する転送要素(例えば最終ホップ転送要素)を特定する。
【0078】
段階502において、更新された転送状態は、エンドマシン540から送信されたエンドマシン550宛のパケットに関する新たな経路を有している。ここで、エンドマシン550は、古い転送状態が算出されてそのネットワーク転送要素に伝達された後にネットワークに追加されたエンドマシンである。この新しい経路に関し、管理転送要素510は第1ホップ管理転送要素であり、転送要素520は最終ホップ転送要素である。転送要素515は、パケットを最終ホップ管理転送要素535へ向けて転送する複数の「中間」管理または非管理転送要素の1つである。
【0079】
コントローラ群505はユーザによる更新の影響を受ける全ての経路について、更新された転送状態情報を算出し、それら経路の各々について、第1ホップ管理転送要素を特定する。段階502において、コントローラ群505は管理転送要素に、経路の第1ホップ管理転送要素についての更新された転送状態情報を送信する。図を簡単にするため、段階502では、管理転送要素510から始まる経路についての新旧の転送状態を示している。管理転送要素510はそれら経路に関する新旧の転送状態を有している。管理転送要素510は新しい転送状態をまだ用いず、古い転送状態に基づいてパケットを転送する。
【0080】
一部の実施形態において、第1ホップ転送要素である管理転送要素は、新しい転送状態を受信すると新しい転送状態を使い始める。しかし、一部の実施形態においてコントローラ群505は管理転送要素に、第1ホップ転送要素としてパケットを転送するために更新された転送状態を用いるようにコマンドを送信する。第3段階503において、コントローラ群505はそのようなコマンドを管理転送要素510に送信する。管理転送要素510は自身を基点とする経路についての第1ホップ転送要素として、新しい転送状態を用いる。エンドマシン540からエンドマシン550へ送信されたパケットに対する新しい経路について、管理転送要素510はそのパケットを新しい転送状態に基づいて転送できるようになる。非第1ホップ転送要素は新しい転送状態を必要とせず、取得しないので、これら実施形態におけるパケットは、非第1ホップ転送要素が新しい転送状態を用いなければならないことを通知するためのバージョン情報を搬送する必要がない。
【0081】
第4段階504において、管理転送要素510-535は古い転送状態を削除する。一部の実施形態においてコントローラ群505は、新しい転送状態を受信してから所定時間経過後に古い転送状態を削除するように管理転送要素を設定する。別の実施形態においてコントローラ群505は、古い転送状態を削除するよう、管理転送要素にコマンドを送信する。
【0082】
図6は、一部の実施形態が、転送状態を更新し、管理転送要素へ送信するために実行する手順600を概念的に示す図である。具体的には、手順600は、全ての論理転送の決定が第1ホップ管理転送要素で実行される実施形態に関するものである。一部の実施形態において手順600は
図1および
図5のコントローラ群105および505のようなコントローラ群(不図示)によって実行される。
【0083】
手順600は、コントローラ群によって管理される管理転送要素の転送状態を更新する入力を(605で)受信することによって開始する。転送状態に対するこれらの更新は少なくとも3つの理由により発生しうる。第1に、論理パイプラインによって実行されるネットワークポリシが(例えばアクセス制御リストを更新することにより)ユーザによって再設定されたことによって論理ポリシが変化する場合、転送状態が変化する。第2に、処理負荷の運用変更によって転送状態が変化する。例えば、仮想マシンが第1ノードから第2ノードに移転した場合、論理的ビューは不変のままである。しかし、仮想マシンがアタッチしている論理ポートの物理的位置が変わるため、この移転により、転送状態は更新が必要となる。第3に、管理転送要素の追加、除去、アップグレードおよび再構成といった、物理的な再構成イベントによって転送状態が変化する場合がある。
【0084】
次に、手順600は受信した入力に基づいて、更新された転送状態を算出(610)する。この算出には、LCPデータからLFPデータへの変換および、LFPデータからUPCPまたはCPCPデータへの変換が含まれる。更新されたLCPデータはいくつかの論理転送要素に影響しうる。つまり、論理的経路(すなわち、影響を受ける論理転送要素の論理ポートの多数の対間の多数の論理的経路)が削除されたり、追加されたり、変更されたりすると、それらの影響をうける論理的経路を実現するための物理的経路もまた除去されたり、追加されたり、変更されたりする。
【0085】
一部の実施形態において、これら影響を受ける論理転送要素の論理転送動作は、第1ホップ管理転送要素によってのみ実行される。例えば、第1論理スイッチの論理的L2転送動作と、論理ルータの論理的L3ルーティングと、論理ルータによってルーティングされたパケットを取得する第2論理スイッチの論理的L2転送動作とを実行するように、コントローラ群が、第1ホップ管理転送要素を設定する。従って、これら実施形態における手順600が算出する転送状態は、第1ホップ転送要素に関するものだけである。これら経路についての中間および最終ホップ転送要素は、パケットを宛先マシンへ転送する構成として用いられる。従って、転送状態が、管理転送要素でパケットにバージョン情報を追加させることはない。
【0086】
次に手順600は管理転送要素が第1ホップ転送要素として動作するための更新された転送状態を算出(610)する。そして手順600は、更新された転送状態を管理転送要素に送信(615)する。これにより、管理転送要素は、古い転送状態と更新された転送状態の両方を有するようになる。
【0087】
必要に応じて手順600は、管理転送要素から古い転送状態を削除するよう、管理転送要素にコマンドを送信(625)する。一部の実施形態では、新しい転送状態へ切り替えるための明示的なコマンドを送信する代わりに、コントローラ群は、管理転送要素が新しい転送状態を受信するとすぐに古い転送状態を新しい転送状態で置き換えるか、古い転送状態を削除するように管理転送要素を設定する。あるいは、またはそれと組み合わせて、コントローラ群は、管理転送要素にコマンドを送信する代わりに、新しい転送状態を受信してから所定時間経過後に古い転送状態を削除するように管理転送要素を設定する。そして、手順は終了する。
【0088】
図6は一部の実施形態に係るネットワークコントローラ群が実行する手順600を示したが、
図7は、一部の実施形態に係る管理転送要素が実行する手順を示している。
図7は、一部の実施形態がデータを転送するために実行する手順700を概念的に示している。手順700は、第1ホップ転送要素として動作するための転送状態を用いる管理転送要素によって実行される。
【0089】
手順は、現在の転送状態(古い転送状態)を用いて入来パケットを転送する(705)ことによって開始される。入来パケットは、管理転送要素が直接相互動作するエンドマシンからのものである。転送状態はコントローラ群または管理転送要素を管理しているシャーシコントローラから転送状態を管理転送要素に送信することにより、受信される。
【0090】
次に、手順700は、更新された転送状態をコントローラ群から受信(710)する。この転送状態はコントローラ群によって更新されており、LCPデータから変換されたCPCPデータを含んでいる。一部の実施形態においてコントローラは、非第1ホップ転送要素として動作する管理転送要素が更新された転送状態を受信した後で、第1ホップ管理転送要素に更新された転送状態を送信する。これにより、管理転送要素は、古い転送状態と更新された転送状態の両方を有するようになる。
【0091】
そして、手順700は、入来データの転送に、更新された転送状態の使用を開始するように、コントローラ群からコマンドを受信(715)する。コマンドを受信すると、一部の実施形態に係る第1ホップ管理転送要素は、古い転送状態を更新された転送状態に切り替える。一部の実施形態において、このコマンドは暗示的なものであってよい。つまり、第1ホップ管理転送要素は、新しい転送状態へ切り替えるための明示的なコマンドを受信することなく、新しい転送状態が第1ホップ管理転送要素にインストールされるとすぐに新しい転送状態を使用する。
【0092】
そして手順700は、更新された転送状態を用いて入来パケットを転送(720)する。第1ホップ管理転送要素からパケットを取得した非第1ホップ管理転送要素は、それらパケットを転送するために更新された転送状態を用いるであろう。一部の実施形態において、手順700は、非第1ホップ管理転送要素が第1ホップ管理転送要素からのパケットを転送するために新しい転送状態を選択できるよう、バージョン情報をパケットに追加する。
【0093】
725において手順700は、古い転送状態を削除するためのコマンドをコントローラ群から必要に応じて受信する。一部の実施形態において、管理転送要素は古い転送状態を削除するための明示的なコマンドを受信しない。代わりに、管理転送要素はコントローラ群によって、更新された転送状態を受信してから所定時間経過後に古い転送状態を削除するように設定される。そして手順700は古い転送状態を削除(730)する。そして、手順は終了する。
【0094】
セクションIで説明したように、一部の実施形態に係るネットワーク制御システムは、論理転送の決定(すなわち、どの1以上の論理ポートがパケットを受信すべきかの決定)を第1ホップならびに非第1ホップで実行させる。これら実施形態の一部において、ネットワークにわたるトランザクション的な更新は、(1)第1ホップ管理転送要素のトランザクション的な更新と、(2)第1ホップ管理転送要素から最終ホップ管理転送要素への、ネットワークを通じた経路のトランザクション的更新とに分かれる。これら2つが実現できれば、全体的なトランザクションが提供できる。つまり、第1ホップを新しいポリシによって更新する前に、新たに必要となる経路を準備することにより、全体的な状態更新がアトミックになる。これら2つのステップの後、新たな第1ホップ状態設定に不要なネットワーク経路を削除することができる。
【0095】
図8はこの2段階手法を採用したネットワーク制御システムのネットワークコントローラ群を概念的に示している。具体的には、この図はネットワークコントローラ群805が転送状態更新を管理転送要素の2つのグループに2パートで送信することを、4つの異なる段階801-804で示している。ネットワークコントローラ群805は、転送状態を生成し、更新し、管理転送要素セット810-835に伝達する論理コントローラおよび物理コントローラ(不図示)を有する点において
図1を参照して説明したネットワークコントローラ群105と類似している。管理転送要素810-835はネットワークデータ(不図示)を、ネットワークコントローラ群805から受信した転送状態に基づいて、エンドマシンセット840-850の間で転送する。
【0096】
第1段階801で管理転送要素810-835は、ネットワークデータ(不図示)を、管理転送要素が有する現在の転送状態(古い状態)に基づいて転送する。具体的には、エンドマシン840からエンドマシン845に送信されたパケットについてコントローラ群が規定した経路は、図に実線で示すように、管理転送要素(MFE)810,815,および820にまたがっている。また、段階801において、コントローラ群805は(例えば不図示の入力トランザクションコントローラを通じて)ユーザから転送状態に対する更新を受信する。この更新は新しいネットワークポリシ(例えば、異なる許容帯域幅を規定する新たなQoSポリシや、ある仮想マシン(VM)から、新たに提供された他の仮想マシンへの新しい経路など)を表している。
【0097】
第2段階802において、コントローラ群805は(例えば入力LCPデータをUPCPまたはCPCPデータに変換することにより)転送状態更新を算出する。一部の実施形態において、コントローラ群805は論理転送要素を実現する全ての管理転送要素を特定する。具体的には、論理転送要素の論理入口ポートおよび論理出口ポートにマッピングされている第1の物理ポートから第2の物理ポートへ転送されようとしているパケットの経路について、コントローラ群805は第1の物理ポートを有する転送要素(例えば第1ホップ転送要素)および第2の物理ポートを有する転送要素(例えば最終ホップ転送要素)を特定する。そして、この経路についてコントローラ群805は、第1ホップ管理転送要素を1つのグループに、最終ホップ管理転送要素とこのパケット経路中に存在する他の管理転送要素とを別のグループに分類する。
【0098】
例えば、更新された転送状態は、エンドマシン840から送信されたエンドマシン850宛のパケットに関する新たな経路を有している。ここで、エンドマシン550は、古い転送状態が算出されてそのネットワーク転送要素に伝達された後にネットワークに追加されたエンドマシンである。この新しい経路に関し、管理転送要素810は第1ホップ管理転送要素であり、管理転送要素820は最終ホップ転送要素である。管理転送要素815は、パケットを最終ホップ管理転送要素835へ向けて転送する複数の「中間」管理または非管理転送要素(不図示)の1つである。
【0099】
コントローラ群805はユーザによる更新の影響を受ける全ての経路について、更新された転送状態情報を算出し、それら経路の各々について、第1ホップ管理転送要素と非第1ホップ管理転送要素を特定する。段階802において、コントローラ群805は非第1ホップ管理転送要素に、更新された転送状態を送信する。図を簡単にするため、段階802では、管理転送要素810から始まる経路についての新旧の転送状態を示している。従って、これら経路に関し、管理転送要素810は古い転送状態のみを有し、他の管理転送要素は古い転送状態と新しい転送状態の両方を有している。管理転送要素820は宛先マシン850に向けてパケットを転送するための転送状態を有していない(すなわち、論理出口ポートおよび管理転送要素850の物理ポートとの間のマッピングが、第1ホップ転送要素810に存在しない)ため、エンドマシン840からエンドマシン850へ送信されるパケットに関する新たな経路について、第1ホップ管理転送要素820はまだパケットを正しく転送することができない。
【0100】
第3段階803において、コントローラ群805は全経路について第1ホップ転送要素用に算出された更新を送信する。これにより、管理転送要素810は自身を基点とする経路についての第1ホップ転送要素として機能するための新しい転送状態を有するようになる。そして、エンドマシン840からエンドマシン850へ送信されたパケットに対する新しい経路について、管理転送要素810はそのパケットを新しい転送状態に基づいて正しく転送できるようになる。
【0101】
一部の実施形態において、第1ホップ転送要素である管理転送要素は、新しい転送状態を受信すると新しい転送状態を使い始める。しかし、一部の実施形態においてコントローラ群805は管理転送要素に、第1ホップ転送要素としてパケットを転送するために更新された転送状態を用いるようにコマンドを送信する。
【0102】
一部の実施形態において、送信元マシンから直接受信するパケットに対して第1ホップ転送要素として動作する管理転送要素は、バージョン情報をそれらパケットに付加する。一部の実施形態において管理転送要素は、パケットの特定のバイナリビットをバージョンインジケータとして用いるか、バージョン情報を格納するために各パケットに2ビット以上追加する。これら実施形態の一部において、このバージョンビットは、管理転送要素が転送状態更新の新しいバージョンに切り替わるたびにその値が入れ替わる。そして、非第1ホップ管理転送要素は、パケットが搬送するバージョン情報に基づいて、古い転送状態または新しい転送状態を用いる。このようにして、特定のパケットは、新旧両方の転送状態に基づいてではなく、古い転送状態と新しい転送状態の一方に基づいて転送される。
【0103】
第4段階804において、管理転送要素810-835は古い転送状態を削除する。一部の実施形態においてコントローラ群805は、新しい転送状態を受信してから所定時間経過後に古い転送状態を削除するように管理転送要素を設定する。別の実施形態においてコントローラ群805は、古い転送状態を削除するよう、管理転送要素にコマンドを送信する。
【0104】
図8における4つの段階801-804は、古い経路1つと新しい経路1つの更新について示されている。論理転送要素を実現するために他の多くの経路が規定されうるため、コントローラ群805および管理転送要素810-835は4つの段階801-804に関して説明した2段階処理を、ユーザの更新による影響を受ける全ての経路について実行する。次の図である
図9は、一部の実施形態が、更新または生成された全ての経路に関する管理転送要素へ更新を送信するために実行する手順900を概念的に示す図である。一部の実施形態において手順900は
図1および
図8のコントローラ群105および805のようなコントローラ群(不図示)によって実行される。
【0105】
手順900は、コントローラ群によって管理される管理転送要素の転送状態を更新する入力を受信(905)することによって開始する。転送状態に対するこれらの更新は、上述した3つの理由によって発生しうる。
【0106】
次に、手順900は受信した入力に基づいて、更新された転送状態を算出(910)する。この算出には、LCPデータからLFPデータへの変換および、LFPデータからUPCPまたはCPCPデータへの変換が含まれる。更新されたLCPデータは、論理的L2スイッチおよび論理的L3ルータを含む、いくつかの論理転送要素に影響を与えうる。つまり、論理的経路(すなわち、影響を受ける論理転送要素の論理ポートの多数の対間の多数の論理的経路)が削除されたり、追加されたり、変更されたりすると、それらの影響をうける論理的経路を実現するための物理的経路もまた除去されたり、追加されたり、変更されたりする。従って、更新された転送状態は、影響を受ける全ての物理的経路に関する第1ホップ転送要素および非第1ホップ管理転送要素の両方に対するものである。
【0107】
そして手順900は、管理転送要素用が非第1ホップ管理転送要素として動作するための新しい転送状態を特定(915)する。この転送状態は、入力によって影響を受ける経路中に存在するが、その経路の第1ホップ管理転送要素ではない管理転送要素用である。
【0108】
一部の実施形態においては、第1ホップ管理転送要素と最終ホップ管理転送要素だけが転送状態の更新を必要とする。これら実施形態の一部において、入力によって影響を受ける論理転送要素は、第1ホップ管理転送要素と最終ホップ管理転送要素だけで実現される。例えば、第1論理スイッチの論理的L2転送動作(例えばパケットをそのMACアドレスに基づいて論理的に転送する)と、論理ルータの論理的L3ルーティング(例えばパケットをそのIPアドレスに基づいて論理的にルーティングする)とを実行するように、コントローラ群が、第1ホップ管理転送要素を設定する。コントローラ群は、論理ルータによってルーティングされたパケットを取得する第2論理スイッチの論理的L2転送動作を実行するように最終ホップ管理転送要素を設定する。これらの実施形態において、(915で)特定される新しい転送状態は、影響を受ける経路の最終ホップ管理転送要素用である。これら経路の中間に存在する転送要素は、第1ホップ管理転送要素と最終ホップ管理転送要素とを接続する構成して用いられる。915で手順900はさらに、非第1ホップ管理転送要素用に特定された転送状態を非第1ホップ管理転送要素に送信する。
【0109】
そして手順900は、管理転送要素用が第1ホップ管理転送要素として動作するための新しい転送状態を特定(920)する。この転送状態は、入力によって影響を受ける経路中の第1ホップ管理転送要素である管理転送要素用である。920で手順900はさらに、第1ホップ管理転送要素用に特定された転送状態を第1ホップ管理転送要素に送信する。
【0110】
一部の実施形態において、転送状態の更新は全体的に順序立てて行われなくてもよい。第1ホップ要素ごとの更新が順次行われることだけが必要である。すなわち、転送状態の更新を必要とする第1ホップ要素が複数存在する場合、それらの更新は並列かつ独立して進めることができる。算出だけがトランザクション的に行われればよい。
【0111】
一部の実施形態において、ネットワーク制御システムは、経路の非第1ホップ転送要素用の転送状態があまりにも変化し、新旧の経路が混ざってしまうかもしれないような場合には、ネットワーク全体の状態を更新するためにReitblatt文献に記載された手法を用いる。例えば、経路ラベルのアドレス指定方法が(ネットワークコントローラの)ソフトウェアバージョン間で変わった場合にこのようなことが起こりうる。この種の状況のためにコントローラ群は、経路アドレス指定の構造を必要に応じて変更できるよう、経路ラベル/アドレスの先頭の1ビット(または数ビット)をネットワーク全体のバージョンビットとして確保しておく。しかしながら、ラベル/アドレス構造が変化しない限り、新しい経路を追加し、経路の残りの準備ができてから第1ホップ管理転送要素を移行させることにより、上述した手順によってネットワーク全体の更新が実施可能であることに留意されたい。
【0112】
管理転送要素に第1ホップ管理転送および非第1ホップ転送要素用の更新された転送状態を送信し終えると、手順900は、更新された転送状態を送信した全ての管理転送要素から確認応答(confirmation)を受信したかどうかを判定(925)する。確認応答は管理転送要素が更新された転送状態をコントローラ群から受信したことを示す。一部の実施形態において、手順900は、非第1ホップ転送要素用の更新された転送状態を受信した管理転送要素のそれぞれが確認応答を返送した後でのみ、第1ホップ転送要素用の転送状態を管理転送要素に送信する。そしてこれら実施形態の手順900は、非第1ホップ管理転送要素用の更新された転送状態を受信した管理転送要素の各々からの確認応答を待機する。
【0113】
手順900が更新された転送状態を受信した管理転送要素のうち、確認応答を返送してきていないものがあると判定(925)した場合、手順900は925へ戻って確認応答を待機する。しかし、一部の実施形態において手順900は、管理転送要素に更新された転送状態を送信してから所定時間経過後に930へ進んでもよい。
【0114】
更新された転送状態を受信した管理転送要素の全てが確認応答を返送してきたと手順900が判定(925)した場合、一部の実施形態に係る手順900は、第1ホップ転送要素用の更新された転送状態を適用するように管理転送要素にコマンドを送信(930)する。一部の実施形態において、管理転送要素が更新された転送状態を用いてパケットを転送する際、管理転送要素は、非第1ホップ管理転送要素がそれらのパケットを更新された転送状態を用いて転送するように、パケットにバージョン情報(例えばバージョンビット)を含める。
【0115】
必要に応じて手順900は、管理転送要素から古い転送状態を削除するよう、管理転送要素にコマンドを送信(935)する。一部の実施形態においてコントローラ群は、管理転送要素にコマンドを送信する代わりに、新しい転送状態を受信してから所定時間経過後に古い転送状態を削除するように管理転送要素を設定する。そして、手順は終了する。
【0116】
図9は一部の実施形態に係るネットワークコントローラ群が実行する手順900を示したが、次の図である
図7は、一部の実施形態に係る管理転送要素が実行する手順を示している。
図10は、一部の実施形態がデータを転送するために実行する手順1000を概念的に示している。手順1000は、非第1ホップ転送要素として動作するための転送状態を用いる管理転送要素によって実行される。
【0117】
手順1000は、現在の転送状態(古い転送状態)を用いて入来パケットを転送する(1005)ことによって開始される。入来パケットは、管理転送要素が直接相互動作するエンドマシンからのものではない。すなわち、管理転送要素はこれらパケットの経路中に存在するが、それらパケットに関する第1ホップ転送要素ではない。転送状態はコントローラ群または管理転送要素を管理しているシャーシコントローラから転送状態を管理転送要素に送信することにより、受信される。
【0118】
次に、手順1000は、更新された転送状態をコントローラ群から受信(1010)する。この転送状態はコントローラ群によって更新されており、一部の実施形態においては、LCPデータから変換されたCPCPデータを含んでいる。これにより、管理転送要素は、古い転送状態と更新された転送状態の両方を有するようになる。
【0119】
そして手順1000は、更新された転送状態を用いて入来パケットを転送(1015)する。一部の実施形態において、手順1000は、入来パケットが搬送するバージョン情報に基づいて、その入来パケットを転送するために古い転送状態または新しい転送状態を選択する。つまり、このバージョン情報は、その管理転送要素にインストールされている古い転送状態と更新された転送状態が有するバージョン情報と照合するために用いられる。
【0120】
1025において手順1000は、古い転送状態を削除するためのコマンドをコントローラ群から必要に応じて受信する。一部の実施形態において、管理転送要素は古い転送状態を削除するための明示的なコマンドを受信しない。代わりに、管理転送要素はコントローラ群によって、更新された転送状態を受信してから所定時間経過後に古い転送状態を削除するように設定される。そして手順1000は古い転送状態を削除(1025)する。そして、手順は終了する。
【0121】
C.外部依存性のモデリング
上述の議論では、ネットワーク制御システムにおけるトランザクション性に適用される要件と、(例えば第1ホップ処理の更新と非第1ホップ処理の更新とを分離することによる)ネットワークにわたるトランザクション更新の実現について検討した。ネットワーク制御システムはまた、ネットワーク転送状態の更新をトランザクション的に算出する。
【0122】
もしポリシが変われば、明らかにネットワーク制御システムは、何かをトランザクション的に更新する前に算出を収束させる。上述したように、一部の実施形態に係るネットワーク制御システムは、システムのネットワークコントローラを実現するためにnLogテーブルマッピングエンジンを用いる。一部の実施形態におけるnLogエンジンは、算出をその確定点(fixed point)に到達させる。すなわち、nLogエンジンはそれまでに受信した入力変化に基づいて、転送状態に対する変更の全てを算出する。
【0123】
高レベルにおいて、局所的な確定点に到達するのは簡単であり、計算エンジン(すなわちnLogエンジン)に新たな更新を供給するのを止め、エンジンが処理すべきものが無くなるまで待てば十分である。しかし、ネットワーク環境において、確定点の定義はもう少し広く解される。計算は確定点に到達しうるが、それをもって管理転送要素に宛ててプッシュできる結果に到達したことにはならない。例えば、トンネルの宛先ポートを変更する場合、UPCPデータは宛先ポートがマッピングされる物理ポート用のプレースホルダしか有さないであろう。
【0124】
結局、計算は、計算を完了し、使用可能でプッシュ可能な転送状態に対応する確定点に到達することが可能になる前に適用されなければならない外部変化に依存しうることが分かる。同じ例について引き続き述べると、フローエントリ内のポート番号用のプレースホルダは、ポート番号をもたらすであろうトンネルポートの設定が終わってからでないと埋まらないであろう。この場合、UPCPの算出は何らかの新たな外部状態(例えばトンネルが生成されたことによるポート番号)に対する依存性が解決されるまでは完了したと見なすことができない。
【0125】
従って、計算にはこれらの外部依存性を考慮する必要があり、確定点の判断に含めなければならない。すなわち、計算が局所的に完了し、かつ解決されていない外部依存性が無くなるまでは、確定点に到達していない。一部の実施形態において、nLog計算は中間結果の加算および除去で成り立っており、構成や外部状態の変更はすべて、算出された状態の加算および除去につながる。
【0126】
UPCP算出における外部依存性を考慮するため、nLog算出エンジンは以下の要件を満たす必要がある。
【0127】
(1)変更結果が、新しいUPCPデータがプッシュ可能になる前に加算すべきものである場合(例えば、UPCPフローエントリを完成させるためにトンネルを生成しなければならない場合)、その変更を直ちに適用させる。nLog算出エンジンは、変更の結果(例えば新しいポート番号)がnLog算出エンジンに返されるまで、確定点に到達不能であると見なさなければならない。
【0128】
(2)変更結果が、現在のUPCPデータに影響を与えるかもしれないが(例えば、古いトンネルの削除)、トランザクションがコミットされる(すなわち、新しいネットワーク転送状態が実施される)前に更新を完了させることができない場合、その変更はトランザクションがコミットされた後にのみ適用されなければならない。さもなければ、ネットワーク転送はトランザクションがコミットされる前に変化するかもしれない。上述の規則が適用されている場合、外部リソースのアトミック変更はサポートできない。幸いなことに、リソース変更のほとんどは、追加/除去としてモデル化することができる。例えば、特定の宛先に向かうトンネルを表すポートの設定を変更する場合、新しい設定を、古いポートと一時的に共存する、新しいポートとみなすことができる。
【0129】
そのため、高レベルにおいて、上述の手法は、古い設定の隣に新しい設定を追加する機能で成り立っている。これは、経路内に存在するネットワーク管理リソースの場合に典型的に当てはまる。制約条件が存在する場合(例えば、何らかの理由で、同じIPへ向かう2つのトンネルが存在できない場合)、この手法は機能せず、従ってそのような変更のアトミック性は提供できない。
【0130】
図11は、一部の実施形態が、転送状態をトランザクション的に算出し、管理転送要素セットへ送信するために実行する手順1100を概念的に示す図である。一部の実施形態において手順1100は、物理コントローラまたは、UPCPデータを受信してCPCPデータに変換するシャーシコントローラによって実行される。手順は、論理コントローラまたは物理コントローラから、UPCPデータを含む転送状態変化セット(例えば、データタプル)を受信(1105)することから始まる。
【0131】
そして手順1100は、受信した変更が外部依存関係を有するかどうかを判定(1105)する。一部の実施形態において、変更を処理するコントローラがその変更を処理するための完全な情報を有しておらず、不足している情報を別のコントローラまたは管理転送要素から取得しなければならない場合、その変更は外部依存性を有する。例えば、管理転送要素が自身のポートからトンネルを確立しなければならないことを規定するUPCP変更をCPCP変更に変換するためには、そのCPCP変更の中にポートの実際のポート番号が必要である。つまり、実際のポート番号が管理転送要素から受信されるまで、CPCP変更を生成することができない。
【0132】
受信した変更が外部依存関係を持っていないと手順1100が判定(1105)した場合、手順1100は後述する1115まで進む。変更が外部依存性を有すると手順1100が判定(1105)した場合、手順1100は外部依存性を有する、受信した変更に基づいて、出力変更のセットを算出し、算出した変更を管理転送要素に送信する。この出力変更セットは、不足している情報を管理転送要素に要求する。そして手順1100は、論理コントローラまたは物理コントローラから、または外部依存性を解決するために不足している情報を返送しうる管理転送要素から、さらなる変更を受信するために1105に戻る。
【0133】
受信した変更が外部依存性を有さないと手順1100が判定(1105)した場合、手順1100は(例えばUPCP変更をCPCP変更に変換することにより)出力変更セットを算出(1110)し、手順1100が、出力変更のトランザクション的算出の終了を意味するであろう確定点に到達しているかどうかを判定(1115)する。換言すれば、手順1100は、受信した変更が完全に処理され、手順1100が現在処理すべき入力変更を有していないかどうかを判断する。
【0134】
手順がまだ確定点に到達していないと手順1100が判定(1115)した場合、手順1100は入力変更に基づく出力変更を算出し続けるために1115に戻る。そうでなければ、手順1125は管理転送要素へ出力変更を送信する。そして、手順は終了する。
【0135】
D.トランザクション的更新のための通信要件
上記の議論は、トランザクション的方法で更新を計算し、それらを第1ホップエッジ転送要素にプッシュすれば足りることを示している。したがって、算出に加えて1つ以上の追加の要件がシステムに課される。トランザクション的な通信チャネルである。
【0136】
したがって、一部の実施形態では、転送要素へ向かう通信チャネル(例えば入力変換コントローラから論理コントローラへ、論理コントローラから物理コントローラへ、物理コントローラからシャーシコントローラまたは管理転送要素へ、および/またはシャーシコントローラから管理転送要素へ、の通信チャネル)が、完全に適用されるか、全く適用されない、ユニットに対するバッチ変更をサポートする。これらの実施形態のいくつかにおいて、通信チャネルは、トランザクションの終了に関してレシーバに通知する「バリア」の概念(すなわち、開始タグと終了タグ)だけをサポートする。上述の通り、受信コントローラまたは管理転送要素は、バリアを受信するまで、単に更新を待ち行列に入れておく。また、チャネルは、送信された更新の順序を維持するか、少なくともバリアの前に送信された更新がバリアの後に到達しないことを保証するかしなければならない。
【0137】
このようにして、送信コントローラは、計算の進行とともに状態への更新を送信し続けることができ、一旦確定点に到達したと判断されれば、受信第1ホップ転送要素にトランザクションの終了に関して通知する。以下にさらに説明するように、送信コントローラがトランザクションが処理された(確定点に到達するまで算出された)時点を知り、(必要なら)さらにプッシュするよう、一部の実施形態における通信チャネルは同期コミットをサポートする。以下に説明するように、ネストされたトランザクションの場合、同期コミットがネットワーク制御システムの下位層で、内部的にさらなる同期コミットをもたらしうることに留意すべきである。
【0138】
ネットワーク全体のトランザクションの実現について説明してきた。以下のセクションIIIでは管理転送要素へ向かういくつかのチャネル上のトランザクションの実現について説明する。
【0139】
III.トランザクションのネスティング
図5-
図10を参照して上述したように、転送状態の更新に関してネットワークの始めを残りの部分と分離することにより、一部の実施形態に係るネットワーク制御システムは、ネスティングされたトランザクション構造を効率的に生成する。1つの全体的(global)なトランザクションは、第1ホップポート用と非第1ホップポート用の2つのサブトランザクションを含んでいると考えることができる。解決策が(ネットワークの中間にあるすべての物理ホップを知り、必要な状態を確立することにより)非第1ホップポートを最も細かい粒度で管理しているか、解決策がトランザクション的な方法でネットワークを横断する接続性を確立可能であると仮定しているかに関わらず、この手法は同じままである。
【0140】
一部の実施形態において、これは、より粒度の細かなトランザクションのセットから、基本的な分散トランザクションを作成することを可能とする原理に一般化される。具体的には、各チャネルはトランザクション性を提供するが、複数チャネルにまたがったトランザクションはサポートしない、コントローラに向かう複数の通信チャネルを有する管理転送要素を考える。つまり、これらのチャネルは、分散トランザクションをサポートしない。このような状況でも、全く同じ構成の手法が機能する。複数のチャネルのうちの1つを、トランザクションが適用される主チャネルであると見なせる限り、他のチャネルの状態はいずれであれ用いられない。この種の構成を用いることで、(非第1ホップ管理転送要素が第1ホップ管理転送要素が自身のトランザクションをコミットされるより前に準備されるのと同様に)主チャネルがトランザクションをコミットする前に、副チャネルを再び「準備」することができる。このようにして、最終的な結果は、第1ホップ管理転送要素でのトランザクションがコミットされると、コミットされる単一のグローバルトランザクションとなる。
【0141】
図12は、コントローラ1210が管理転送要素1205に更新を送信するために管理転送要素1205と2つのチャネル1215,1220を確立している状態を示している。具体的には、この図は、チャネル1215からの更新が到来するまで管理転送要素1205が複数のチャネルを通じて受信した更新を使用しないことを、4つの異なる段階1201-1204でを示している。
【0142】
コントローラ1210は、
図2のコントローラ200と同様である。一部の実施形態において、コントローラ1210はUPCPデータをCPCPデータに変換する物理コントローラである。他の実施形態では、コントローラ1210は物理コントローラから受信したのUPCPデータをCPCPデータに変換するシャーシコントローラである。
【0143】
一部の実施形態においてコントローラ1210は、管理転送要素1205と2つのチャネル1215,1220を確立する。チャネル1215は、管理転送要素1205の転送プレーン(例えば、転送テーブル)を制御するための通信プロトコルを用いて確立される。例えば、OpenFlowプロトコルは、管理転送要素1205内のフローエントリにフローエントリを追加したり、管理転送要素1205内のフローエントリからフローエントリを削除したり、管理転送要素1205内のフローエントリを変更したりするためのコマンドを提供する。チャネル1220はコンフィギュレーションプロトコルを用いて確立される。管理転送要素1205はチャネル1220を通じて設定情報を受信する。一部の実施形態において管理転送要素1205は、設定情報を設定データベース(不図示)に保存する。一部の実施形態において、設定情報は、入口ポート、出口ポートポートに関するQoS設定などに関する情報のような、管理転送要素1205を設定するための情報を含んでいる。図および説明を簡単にするため、フローエントリおよび設定情報は転送情報として図示している。
【0144】
管理転送要素1205は、いくつかのエンドマシン(不図示)と直接相互動作し、2つのチャネルを通じてコントローラ1205から受信した転送状態を用いてエンドマシンとデータを送受信する。これらの2つのチャネルはいずれも分散トランザクションをサポートしていないが、管理転送要素1205は、チャネル1220からのトランザクションをチャネル1215へのトランザクションにネスティング(バッチ処理化)することにより、これら2つのチャネルにわたる分散トランザクションを実現する。例えば、一部の実施形態において、管理転送要素1205はチャネル1215を主チャネル、チャネル1220を副チャネルとする。管理転送要素1205は、複数のチャネルを通じて受信した転送状態の適用を、管理転送要素1205が主チャネルからトランザクションを受信するまで保留する。
【0145】
第1段階1201で管理転送要素1205は、チャネル1215および1220を通じてコントローラ1210から変更セット(例えば、データタプル)を受信したところである。チャネル1215を通じて受信したこれらの変更は、フローエントリを含んでいる。チャネル1220を通じて受信した変更は設定情報を含んでいる。
【0146】
段階1201において、変更1-1は主チャネル1215を通じて受信されている。変更2-1および2-2は副チャネル1220を通じて受信している。管理転送要素は記憶構造体1230にこれらの変更を保存しているが、管理転送要素1205はまだ主チャネル1215を通じてトランザクションの全部を受信していないため、入来パケット(図示せず)の転送にこれらの変更をまだ使用し始めていない。管理転送要素は、現在の転送状態を使用して入来パケットを転送している。
【0147】
第1段階1201はまた、変更1-2が主チャネル1215を通じて到来し、変化2-3が副チャネル1220を通じて管理転送要素1220に到来していることを示している。変更2-3は、副チャネル1220を通じて受信した、変更2-1,2-2,2-3を含むトランザクションにおける最後の変更であることを示す太枠による平行四辺形として図示されている。
【0148】
第2段階1202で管理転送要素1205は、主チャネル125および副チャネル1220を通じて変更1-2および2-3をそれぞれ受信している。管理転送要素1205は記憶構造体1230に変更1-2および2-3を保存しているが、主チャネル1215からトランザクションの全部をまだ受信していないため、入来パケットの転送ならびに管理転送要素1205の設定にはこれらの変更を用いていない。
【0149】
第2段階1202はさらに、主チャネル1215を通じて変更1-3が管理転送要素1205に到来していることを示している。変更1-3は、主チャネル1215を通じて受信した、変更1-1,1-2,1-3を含むトランザクションにおける最後の変更であることを示す太枠による平行四辺形として図示されている。
【0150】
第3段階1203で、管理転送要素1205は、主チャネル1215を通じて変更1-3を受信しているため、主チャネル1215からのトランザクションを全て受信している。従って、管理転送要素1205は、2つのトランザクションでチャネル1215および1220を通じて受信した変更を用いて転送状態を更新する。
【0151】
第4段階1204は、管理転送要素1205によって変更がコミットされた状態を示している。つまり、管理転送要素1205は入来パケットの転送ならびに管理転送要素1205の設定に、更新された転送状態を用いている。このようにして、管理転送要素1205は、2つのチャネル間のグローバルトランザクションを実現するため、主チャネルを通じて受信したトランザクションに副チャネルを通じて受信したトランザクションをネスティングする。
【0152】
図13は、一部の実施形態が、主チャネルを通じて受信したトランザクションに副チャネルを通じて受信した複数のトランザクションをまとめるために実行する手順1300を概念的に示す図である。一部の実施形態に係る手順1300は、コントローラとの間に確立されたいくつかのチャネルを通じてコントローラから転送状態を受信する管理転送要素(例えば、
図12の管理転送要素1205)によって実行される。コントローラは、管理転送要素のマスタである物理コントローラであってもよいし、管理転送要素が稼動するホストと同じホストで稼動するシャーシコントローラであってもよい。一部の実施形態では、複数のチャネルの1つが主チャネルとして指定され、他のチャネルは副チャネルとして指定される。
【0153】
手順1300は、主チャネルおよび副チャネルを通じて転送状態を受信(1305)することから始まる。一部の実施形態において、コントローラから複数のチャネルを通じて受信する転送状態はCPCPデータを含んでいる。具体的には、主チャネルを通じて到来する転送状態は、管理転送要素の制御プレーンに送られる制御データを含んでいる。副チャネルを通じて入来する転送状態は、設定データ(例えば、入口ポート、出口ポート、ポート用のQoS設定、middleboxインスタンスなどを設定するためのデータ)を含んでいる。しかし、一部の実施形態では、複数のチャネルの1つが主チャネルとして指定され、他のチャネルが副チャネルとして指定されさえすれば、主および副チャネルの指定は、それらチャネルを通じて受信するデータのタイプに依存する必要はない。
【0154】
次に、手順1300は、手順1300が主チャネルを通じてバリアを受信したか否かを判定(1310)する。上述のように、バリアは、受信装置で受信されると、入力の1つのトランザクションが完全に受信装置で受信されたことを示す。一部の実施形態においてバリアは、変更に付加される情報である。他の実施形態に係るバリアは、変更の送信側がトランザクション入力セットを完全に送信し終えたことを示す、変更そのものである。
【0155】
バリアが主チャネルを通じて受信されていないと手順1300が判定(1310)した場合、手順はそれまでに受信した転送状態を記憶構造体に保存(1320)する。記憶構造体に記憶された転送状態は、管理転送要素によって使用されない。手順1300は複数のチャネルを通じてコントローラ群からさらなる転送状態を受信するため、1305に戻る。
【0156】
主チャネルを通じてバリアが受信されていると手順1300が判定(1310)した場合、手順はそれまでに受信している転送状態を用いて管理転送要素の転送テーブルおよび設定データベースを更新する。そして管理転送要素は、設定データを用いて自身を設定し、転送テーブル内の更新されたフローエントリに基づいた入来パケットの転送を開始する。そして手順1300は終了する。
【0157】
この一般化は、必要であれば任意の深さまでトランザクションをネスティングすることを可能にすることに留意されたい。具体的には、トランザクション的なシステムは、自身のトランザクション性を、ネスティングされたトランザクションから構築することができる。ネスティングされたトランザクションからトランザクション性を構築する能力は、複数のコントローラが形成しうる階層構造において有用なだけでなく、複数の転送要素を管理する複数のコントローラに対するトランザクション的なインタフェースをこれら転送要素が内部的にどのように提供しうるかをを検討する際にも有用である。
【0158】
一部の実施形態に係るネットワーク制御システムは、ここでも同じネスティングの原理を用いることで、基礎となる管理リソースにおけるトランザクション性のための明示的なサポートなしに、通信チャネルにトランザクション性を導入する。簡単に拡張可能なテーブルパイプラインを用いた経路を考える。フローテーブルの更新がトランザクションをサポートしていない場合でも、既存のパイプラインの手前にステージを1つ追加し、どのバージョンの状態を使用すべきかを1つのフローエントリに決定させることは容易である。従って、それから1つのフローエントリを更新する(これはトランザクショナルである)ことにより、フローテーブルの全体をトランザクション的に更新することができる。この手法の詳細は、上層のコントローラに見せる必要はない。しかし、事実上、複数のトランザクションの階層が存在する。
【0159】
上述の実施形態のユースケースとして、あるコントローラバージョンから別のコントローラバージョン(つまり、ソフトウェアバージョン)への移行は、システム内のトランザクションおよび確定点算出サポートの恩恵を受ける。このユースケースにおいては、あるコントローラバージョンから別のコントローラバージョンへのアップグレード処理全体を外部のアップグレードドライバが実行する。パケットロスが発生しないような方法でアップグレードが行われるように調整するのは、そのドライバの責任である。
【0160】
より小さな複数のサブトランザクションからなる単一のグローバルトランザクションを構成するために、ドライバが実行する手順の全体は以下の通りである。
【0161】
(1)転送状態のアップグレードが必要になると、ドライバはネットワークミドル(ファブリック)用の新しい状態の算出開始を要求する。これは、ネットワークミドルの状態を管理するすべてのコントローラについて実施され、新しいミドル状態は、古いミドル状態と共存することが想定されている。
【0162】
(2)そしてドライバは、各コントローラが確定点に達するのを待ち、受信コントローラ/スイッチング要素へ下り方向に同期させてトランザクションをコミットする。状態がスイッチング要素でアクティブであり、パケットで利用可能であることをドライバが知るのはコミット後であるため、ドライバは同期的な方法でコミットを実行する。
【0163】
(3)この後ドライバは、ネットワークの途中部分について(1)で確立される新しい経路にも用いられるであろう、新しいエッジ転送状態へ更新するようにコントローラに要求する。
【0164】
(4)ここでもドライバは、すべてのコントローラが確定点に到達することを要求し、確定点に到達したら、更新を同期的にコミットする。
【0165】
(5)ドライバが古いネットワークミドル状態の除去を要求すると、更新が終了される。ここでは確定点に到達するのを待ってコミットする必要はない。除去はコントローラが、最終的にプッシュする任意の他の変更とともにプッシュされるであろう。
【0166】
IV.電子システム
上述した機能およびアプリケーションの多くは、コンピュータが読み取り可能な記憶媒体(コンピュータ可読媒体とも呼ばれる)に記録された命令セットとして規定されるソフトウェアプロセスとして実現される。これらの命令は、1つ以上の処理装置(例えば、プロセッサ、プロセッサコア、または他の処理ユニットの1つ以上)によって実行されるとき、1つ以上の処理装置に、命令に示された動作を実行させる。コンピュータ可読媒体の例としては、限定されないが、CD-ROM、フラッシュドライブ、RAMチップ、ハードディスクドライブ、EPROM等を含む。コンピュータ可読媒体は、無線または有線接続を介して通過する搬送波や電子信号を含まない。
【0167】
本明細書において、用語「ソフトウェア」の意味は、読み出し専用メモリに存在するファームウェアや、磁気記憶装置に記憶されたアプリケーションのようなプロセッサによる処理のためにメモリに読み込むことが可能なものを含む。また、一部の実施形態では、複数のソフトウェア発明が、識別可能なソフトウェア発明を維持したまま、1つのより大きなプログラムの複数のサブパーツとして実施されうる。一部の実施形態では、複数のソフトウェア発明が別個のプログラムとして実施されてもよい。最後に、本明細書に記載されたソフトウェア発明を共同して実現する個別プログラムの任意の組み合わせもまた本発明の範囲内である。一部の実施形態において、それらのソフトウェアプログラムは、1つ以上の電子システム上で動作するようにインストールされた際、それらソフトウェアプログラムの動作を実行する1つ以上の具体的なハードウェア実装を規定する。
【0168】
図14は本発明の一部の実施形態を実施するために用いることのできる電子システム1400を概念的に示す図である。電子システム1400は、上述した制御、仮想化、またはオペレーティングシステムアプリケーションの任意のものを実行するために使用することができる。電子システム1400は、コンピュータ(例えば、デスクトップコンピュータ、パーソナルコンピュータ、タブレットコンピュータ、サーバコンピュータ、メインフレーム、ブレードコンピュータなど)、電話機、PDA、または他の任意の種類の電子デバイスであってよい。このような電子システムは、様々なタイプのコンピュータ可読媒体および、様々な他のタイプのコンピュータ可読媒体のためのインタフェースを含む。電子システム1400は、バス1405、1つ以上の処理ユニット1410、システムメモリ1425、読み出し専用メモリ1430、恒久的記憶装置1435、入力デバイス1440、および出力デバイス1445を含む。
【0169】
バス1405は、電子システム1400の多数の内部デバイスを通信可能に接続するシステムバス、周辺機器バス、チップセットバスをまとめて表している。例えば、バス1405は、1つ以上の処理ユニット1410を、読み出し専用メモリ1430、システムメモリ1425、および恒久的記憶装置1435と通信可能に接続する。
【0170】
これらの様々なメモリユニットから、1つ以上の処理ユニット1410は、本発明の処理を実行するために、実行する命令や処理するデータを読み出す。1つ以上の処理ユニットは、実施形態に応じて、単一のプロセッサであってもマルチコアプロセッサであってもよい。
【0171】
読み出し専用メモリ(ROM)1430は、1つ以上の処理ユニット1410および電子システムの他のモジュールが必要とする静的データおよび命令を格納する。一方、恒久的記憶装置1435は、読み書き可能な記憶装置である。この装置は、電子システム1400がオフのときも命令およびデータを記憶する不揮発性記憶装置である。本発明の一部の実施形態は、恒久的記憶装置1435として(例えば、磁気又は光ディスクと、対応するディスクドライブのような)大容量記憶装置を用いる。
【0172】
他の実施形態は、恒久的記憶装置として(例えば、フレキシブルディスク、フラッシュドライブのような)リムーバブル記憶装置を用いる。恒久的記憶装置1435と同様、システムメモリ1425は、読み書き可能な記憶装置である。ただし、記憶装置1435とは異なり、システムメモリは、ランダムアクセスメモリのような揮発性の読み書き可能メモリである。システムメモリは、プロセッサが実行時に必要とする命令とデータの一部を格納する。一部の実施形態において、本発明の手順はシステムメモリ1425、恒久的記憶装置1435、および/または読み出し専用メモリ1430に記憶される。これらの様々なメモリユニットから、1つ以上の処理ユニット1410は、一部の実施形態に係る処理を実行するために、実行する命令や処理するデータを読み出す。
【0173】
バス1405はまた、入力および出力デバイス1440および1445を接続する。入力装置は、ユーザが電子システムに情報を伝えたりコマンドを選択することを可能にする。入力装置1440は、英数字キーボードおよびポインティングデバイス(「カーソル制御デバイス」とも呼ばれる)を含む。出力デバイス1445は、電子システムによって生成された画像を表示する。出力デバイスは、プリンタおよび、陰極線管(CRT)または液晶ディスプレイ(LCD)などの表示装置を含む。一部の実施形態は、入力デバイスおよび出力デバイスの両方として機能する、タッチスクリーンのようなデバイスを含む。
【0174】
最後に、
図14に示すように、バス1405はさらに電子システム1400を、ネットワークアダプタ(図示せず)を通じてネットワーク1465にも接続する。このようにコンピュータは、コンピュータネットワーク(ローカルエリアネットワーク(「LAN」)、広域ネットワーク(「WAN」)、もしくはイントラネット、又はインターネットのような、複数のネットワークからなるネットワークなど)の一部であってよい。電子システム1400のいずれかまたは全ての構成要素を本発明に関連して使用することができる。
【0175】
一部の実施形態は、マイクロプロセッサおよび、装置が読み取り可能な、あるいはコンピュータが読み取り可能な媒体(コンピュータ可読記憶媒体、機械可読媒体、または装置可読記憶媒体とも呼ばれる)にコンピュータプログラム命令を格納した記憶装置およびメモリ等の電子部品を含む。そのようなコンピュータ可読媒体の例の一部は、RAM、ROM、読み取り専用コンパクトディスク(CD-ROM)、追記型コンパクトディスク(CD-R)、書き換え可能コンパクトディスク(CD-RW)、読み出し専用デジタル多用途ディスク(例えば、DVD-ROM、2層DVD-ROM)、様々な追記型/書き換え可能DVD(例えば、DVD-RAM、DVD-RW、DVD+RWなど)、フラッシュメモリ(例えば、SDカード、ミニSDカード、マイクロSDカードなど)、磁気および/または半導体ハードドライブ、読み取り専用および記録可能ブルーレイ(登録商標)ディスク、超高密度光ディスク、他の任意の光学または磁気記録媒体、およびフレキシブルディスクを含む。コンピュータ可読媒体は、少なくとも1つの処理ユニットによって実行可能であり、様々な動作を実行するための命令セットを含むコンピュータプログラムを記憶することができる。コンピュータプログラムまたはコンピュータコードの例は、コンパイラによって生成されるようなマシンコード、およびインタープリタを用いてコンピュータ、電子部品、またはマイクロプロセッサによって実行される高レベルコードを含むファイルを含む。
【0176】
上記の議論は、主にソフトウェアを実行するマイクロプロセッサまたはマルチコアプロセッサに言及しているが、一部の実施形態では、例えば、特定用途向け集積回路(ASIC)又はフィールドプログラマブルゲートアレイ(FPGA)などの1つ以上の集積回路によって実行される。一部の実施形態においてこれらの集積回路は、回路自体に格納された命令を実行する。
【0177】
用語「コンピュータ」、「サーバ」、「プロセッサ」、及び「メモリ」は、本明細書において使用される際、電子的あるいは他の技術的機器の全てを包含する。これらの用語は、人間やそのグループを除外する。明示目的により、「表示」という用語は、電子デバイスでの表示を意味する。本明細書で使用される用語「コンピュータ可読媒体」、「コンピュータ可読媒体」及び「機械可読媒体」は、コンピュータによって読み取り可能な形式で情報を格納する、有形かつ物理的な物体に完全に制限される。これらの用語は、いかなる無線信号、有線のダウンロード信号、およびその他の一時的な信号も除外する。
【0178】
本発明を多数の特定の詳細を参照して説明したが、当業者は、本発明がその精神から逸脱することなく他の特定の形態で実施できることを認識するであろう。また、いくつかの図面(
図9,6,10,7,11,および13を含む)は、手順を概念的に示したものである。これらの手順の具体的な動作は、図示ならびに記載された通りの順序で実行されなくてもよい。具体的な動作は、1つの連続した動作として実行されなくてよく、別の実施形態においては別の具体的な動作が実行されてもよい。さらに、手順は、いくつかのサブプロセスを用いたり、またはより大きなマクロプロセスの一部として実施されてもよい。