特開2024-165412 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日立ヴァンタラ株式会社の特許一覧

特開2024-165412ストレージシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7A
7B
8
9A
9B
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024165412

(43)【公開日】2024-11-28

(54)【発明の名称】ストレージシステム

(51)【国際特許分類】

G06F 3/06 20060101AFI20241121BHJP

G06F 13/10 20060101ALI20241121BHJP

【ＦＩ】

G06F3/06 301W

G06F3/06 301X

G06F3/06 301N

G06F13/10 340A

【審査請求】未請求

【請求項の数】14

【出願形態】ＯＬ

(21)【出願番号】P 2023081593

(22)【出願日】2023-05-17

(71)【出願人】

【識別番号】524132520

【氏名又は名称】日立ヴァンタラ株式会社

(74)【代理人】

【識別番号】110001678

【氏名又は名称】藤央弁理士法人

(72)【発明者】

【氏名】水島永雅

(57)【要約】

【課題】ストレージシステムの応答性能の悪化を抑制する。
【解決手段】複数ストレージノードの各ストレージノードは、外部からの命令を処理するプロセッサと、データを格納するドライブと、他のストレージノードにデータを送信、または前記他のストレージノードからデータを受信する通信器とを含む。通信器は、データを送信する前に可逆圧縮する圧縮回路と、圧縮されたデータを受信後に伸張する伸張回路とを含む。指定サイズのデータを外部に読み出すための読み出し命令に応じて、第１ストレージノードの通信器は、所定の条件が満たされる場合、第１ストレージノードのドライブに格納されたデータを圧縮回路で圧縮して、第２ストレージノードの通信器へ送信する。第２ストレージノードの通信器は、受信したデータを伸張回路で伸張する。第２ストレージノードは、伸張したデータを外部に出力する。
【選択図】図８

【特許請求の範囲】

【請求項1】

複数ストレージノードを含むストレージシステムであって、
前記複数ストレージノードの各ストレージノードは、
外部からの命令を処理するプロセッサと、
データを格納するドライブと、
他のストレージノードにデータを送信、または前記他のストレージノードからデータを受信する通信器と、を含み、
前記通信器は、データを送信する前に可逆圧縮する圧縮回路と、圧縮されたデータを受信後に伸張する伸張回路と、を含み、
指定サイズのデータを外部に読み出すための読み出し命令に応じて、第１ストレージノードの前記通信器は、所定の条件が満たされる場合、前記第１ストレージノードの前記ドライブに格納されたデータを前記圧縮回路で圧縮して、第２ストレージノードの前記通信器へ送信し、
前記第２ストレージノードの前記通信器は、受信した前記データを前記伸張回路で伸張し、
前記第２ストレージノードは、伸張した前記データを外部に出力する、ストレージシステム。

【請求項2】

請求項１に記載のストレージシステムであって、
前記条件は、前記読み出し命令で指定された前記サイズが閾値以上であることを含む、ストレージシステム。

【請求項3】

請求項１に記載のストレージシステムであって、
前記条件は、前記読み出し命令が指示する前記データが、圧縮されていない状態で前記ドライブに格納されていることを含む、ストレージシステム。

【請求項4】

請求項１に記載のストレージシステムであって、
前記条件は、前記第２ストレージノードの前記プロセッサの稼働率が閾値を上回っていることを含む、ストレージシステム。

【請求項5】

請求項１に記載のストレージシステムであって、
前記条件は、前記第１ストレージノードの前記通信器から前記第２ストレージノードの前記通信器へのデータの送信出力速度から、前記読み出し命令の前記第２ストレージノードの前記プロセッサによる処理性能を引いた差分が、閾値を下回っていることを含む、ストレージシステム。

【請求項6】

複数のストレージノードを含むストレージシステムであって、
前記複数のストレージノードの各ストレージノードは、
外部からの命令を処理するプロセッサと、
データを格納するドライブと、
キャッシュメモリと、
他のストレージノードにデータを送信、または前記他のストレージノードからデータを受信する通信器と、を含み、
前記通信器は、データを送信前に可逆圧縮する圧縮回路と、圧縮されたデータを受信後に伸張する伸張回路とを含み、
指定サイズの受領データを外部から書き込むための書き込み命令に応じて、第１ストレージノードの前記通信器は、所定の条件が満たされる場合、前記第１ストレージノードの前記キャッシュメモリのデータを前記圧縮回路で圧縮して、第２ストレージノードの前記通信器へ送信し、
前記第２ストレージノードの前記通信器は、受信した前記データを前記伸張回路で伸張し、前記第２ストレージノードは伸張した前記データを前記第２ストレージノードの前記キャッシュメモリに格納する、ストレージシステム。

【請求項7】

請求項６に記載のストレージシステムであって、
前記条件は、前記書き込み命令で指定した前記サイズが閾値以上であることを含む、ストレージシステム。

【請求項8】

請求項６に記載のストレージシステムであって、
前記条件は、前記キャッシュメモリのデータが、前記受領データから算出したＲＡＩＤパリティではないことを含む、ストレージシステム。

【請求項9】

請求項６に記載のストレージシステムであって、
前記条件は、前記第１ストレージノードの前記プロセッサの稼働率が閾値を上回っていることを含む、ストレージシステム。

【請求項10】

請求項６に記載のストレージシステムであって、
前記条件は、前記第１ストレージノードの前記通信器から前記第２ストレージノードへのデータの送信出力速度から、前記書き込み命令の前記第１ストレージノードの前記プロセッサによる処理性能を引いた差分が、閾値を下回っていることを含む、ストレージシステム。

【請求項11】

複数のストレージノードを含むストレージシステムであって、
前記複数のストレージノードの各ストレージノードは、
キャッシュメモリと、
他のストレージノードにデータを送信、または前記他のストレージノードからデータを受信する通信器と、を含み、
前記通信器は、データを送信前に可逆圧縮する圧縮回路と、圧縮されたデータを受信後に伸張する伸張回路とを含み、
第１ストレージノードの前記通信器は、前記通信器から前記キャッシュメモリへのライトパケットの最大ペイロードサイズを分割単位として、データを複数の部分データに分割し、前記部分データを前記圧縮回路により圧縮したものをペイロードとするパケットを、第２ストレージノードの前記通信器に送信し、
前記パケットを受信した前記第２ストレージノードの前記通信器は、前記伸張回路により受信した前記パケットのペイロードを伸張し、伸張した前記ペイロードを含むライトパケットを構成して前記第２ストレージノードの前記キャッシュメモリへ転送する、ストレージシステム。

【請求項12】

請求項１１に記載のストレージシステムであって、
前記圧縮回路による圧縮アルゴリズムは辞書圧縮であって、前記辞書圧縮で参照する辞書の範囲は、前記圧縮回路が圧縮した複数の前記部分データを含む、ストレージシステム。

【請求項13】

請求項１１に記載のストレージシステムであって、
前記通信器は、複数の圧縮回路及び複数の伸長回路を含み、
前記第１ストレージノードの前記通信器は、前記第２ストレージノードの前記通信器に送信するパケットに使用した圧縮回路の識別子を付加し、
前記第２ストレージノードの前記通信器は、前記識別子を含む複数パケットに対して前記複数の伸長回路における一つの共通伸張回路を選択する、ストレージシステム。

【請求項14】

請求項１１に記載のストレージシステムであって、
前記第１ストレージノードの前記通信器は、前記第２ストレージノードの前記通信器に送信するパケットに、前記ペイロードが圧縮状態である旨を示すフラグを付加し、
前記第２ストレージノードの通信器は、前記フラグに応じて前記ペイロードを前記伸張回路で伸張するかを判定する、ストレージシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、ストレージシステムに関する。

【背景技術】

【0002】

大量のデータを蓄積・管理するための情報機器であるストレージシステムでは、より多くのデータを格納する必要が生じた場合に、データ容量の拡張を容易に実現できることが好ましい。そこで、複数のストレージノードを相互接続できる構成にして、接続するストレージノードの数を後から必要な数だけ増やせるように設計されたストレージシステムがある。これをマルチノード接続構成ストレージシステムと呼ぶ。

【0003】

そのようなストレージシステムでは各ストレージノードに、データの読み書きを指示するホストが接続されている。ここで、ホストからのリードコマンドによってデータの読み出しを行う時に、そのデータがそのホストが接続していないストレージノード内に格納されている場合はストレージノード間でデータ転送を行う必要がある。また、ホストからライトコマンドによってデータの書き込みを行う時に、そのホストが接続しているストレージノードの故障に備えてその他のストレージノードにバックアップするためのデータ転送を行う必要がある。

【0004】

マルチノード接続構成ストレージシステムでは、ストレージノード間の通信帯域が十分大きくなければ、ホストがデータを読み書きする性能はその帯域がボトルネックになる。そこで、ストレージノード間の通信帯域を拡げることが望ましい。その実現手段には２つあり、１つはストレージノード間の通信を行う通信デバイスの搭載数を増やすこと、もう１つはストレージノード間の通信データを圧縮して量を減らすことである。

【0005】

前者の手段のデメリットは、通信デバイスの搭載によってシステムの原価コストが増えるという点である。後者の手段のデメリットは、圧縮・伸張する処理の分だけコマンド処理にかかる時間が増えて応答性能が悪化するという点である。圧縮・伸張する処理にかかる時間を小さくできるならば、後者の手段を選択するほうが低コストで望ましい。

【0006】

ストレージノード間の接続方式の例として、イーサネットやＰＣＩｅｘｐｒｅｓｓといった接続方式がある。そこでの通信手段としては、データを複数に分割し、それらをＩＰパケットやＴＬＰ（ＴｒａｎｓａｃｔｉｏｎＬａｙｅｒＰａｃｋｅｔ）のペイロードに埋め込んで送受信する方法がある。

【0007】

従来技術として、非特許文献１は、イーサネット上のＩＰパケットの伝送量を削減するためにペイロードデータを圧縮する際のプロトコルを規定したものである。この技術は以下の特徴を持つ：辞書圧縮アルゴリズムにより各ペイロードを単独で圧縮する。圧縮を適用する条件は「圧縮によってペイロードサイズが増えない場合」のみを規定する。ペイロードサイズの決め方は規定しない。

【先行技術文献】

【非特許文献】

【0008】

【非特許文献1】ＲＦＣ－３１７３（ＩＰＰａｙｌｏａｄＣｏｍｐｒｅｓｓｉｏｎＰｒｏｔｏｃｏｌ）

【発明の概要】

【発明が解決しようとする課題】

【0009】

非特許文献１をはじめとする通信データ圧縮に関する従来技術では、ストレージシステムにおけるストレージノード間の通信データを圧縮して量を減らす際に、圧縮・伸張処理にかかる時間を小さくしてストレージシステムの応答性能の悪化を抑制する方法は開示されていない。

【課題を解決するための手段】

【0010】

本発明の一態様は、複数ストレージノードを含むストレージシステムであって、前記複数ストレージノードの各ストレージノードは、外部からの命令を処理するプロセッサと、データを格納するドライブと、他のストレージノードにデータを送信、または前記他のストレージノードからデータを受信する通信器と、を含み、前記通信器は、データを送信する前に可逆圧縮する圧縮回路と、圧縮されたデータを受信後に伸張する伸張回路と、を含み、指定サイズのデータを外部に読み出すための読み出し命令に応じて、第１ストレージノードの前記通信器は、所定の条件が満たされる場合、前記第１ストレージノードの前記ドライブに格納されたデータを前記圧縮回路で圧縮して、第２ストレージノードの前記通信器へ送信し、前記第２ストレージノードの前記通信器は、受信した前記データを前記伸張回路で伸張し、前記第２ストレージノードは、伸張した前記データを外部に出力する。

【0011】

本発明の一態様は、複数のストレージノードを含むストレージシステムであって、前記複数のストレージノードの各ストレージノードは、外部からの命令を処理するプロセッサと、データを格納するドライブと、キャッシュメモリと、他のストレージノードにデータを送信、または前記他のストレージノードからデータを受信する通信器と、を含み、前記通信器は、データを送信前に可逆圧縮する圧縮回路と、圧縮されたデータを受信後に伸張する伸張回路とを含み、指定サイズの受領データを外部から書き込むための書き込み命令に応じて、第１ストレージノードの前記通信器は、所定の条件が満たされる場合、前記第１ストレージノードの前記キャッシュメモリのデータを前記圧縮回路で圧縮して、第２ストレージノードの前記通信器へ送信し、前記第２ストレージノードの前記通信器は、受信した前記データを前記伸張回路で伸張し、前記第２ストレージノードは伸張した前記データを前記第２ストレージノードの前記キャッシュメモリに格納する。

【0012】

本発明の一態様は、複数のストレージノードを含むストレージシステムであって、前記複数のストレージノードの各ストレージノードは、キャッシュメモリと、他のストレージノードにデータを送信、または前記他のストレージノードからデータを受信する通信器と、を含み、前記通信器は、データを送信前に可逆圧縮する圧縮回路と、圧縮されたデータを受信後に伸張する伸張回路とを含み、第１ストレージノードの前記通信器は、前記通信器から前記キャッシュメモリへのライトパケットの最大ペイロードサイズを分割単位として、データを複数の部分データに分割し、前記部分データを前記圧縮回路により圧縮したものをペイロードとするパケットを、第２ストレージノードの前記通信器に送信し、前記パケットを受信した前記第２ストレージノードの前記通信器は、前記伸張回路により受信した前記パケットのペイロードを伸張し、伸張した前記ペイロードを含むライトパケットを構成して前記第２ストレージノードの前記キャッシュメモリへ転送する。

【発明の効果】

【0013】

本発明の一態様によれば、ストレージノード間の通信データの圧縮機能を有するストレージシステムにおいて、応答性能の悪化を抑制できる。

【図面の簡単な説明】

【0014】

【図1】本発明を適用したストレージシステムの構成を示す。

【図2】ノード間通信器の構成を示す。

【図3】非圧縮状態で格納されたデータのリードコマンドのフローチャートを示す。

【図4】非圧縮状態で格納するデータのライトコマンドのフローチャートの前半を示す。

【図5】非圧縮状態で格納するデータのライトコマンドのフローチャートの後半を示す。

【図6】圧縮状態で格納されたデータのリードコマンドのフローチャートを示す。

【図7A】最大リード性能の算出方法を示す。

【図7B】ＣＰＵ稼働率に対するリード性能の変化を示す。

【図8】ノード間転送の圧縮条件を判定するフローチャートを示す。

【図9A】ノード間通信器による圧縮・伸張のデータフローを示す。

【図9B】辞書圧縮の例を示す。

【図10】ノード間転送データの分割圧縮を示す。

【図11】ノード間通信器が送受信するパケットの構成を示す。

【図12】圧縮回路が行う処理のフローチャートを示す。

【図13】ノード間通信器が受信パケットに行う処理のフローチャートを示す。

【図14】第２の実施形態におけるノード間通信器からの送信出力速度の変化を示す。

【発明を実施するための形態】

【0015】

以下、図面を用いて実施例を説明する。なお、実施例は本発明を実現するための一例に過ぎず、本発明の技術的範囲を限定するものではなく、また実施例の中で説明されている特徴の組み合わせの全てが発明の解決手段に必須であるとは限らない。

【0016】

以下の説明では、「ｘｘｘテーブル」の表現にて各種情報を説明することがあるが、各種情報は、テーブル以外のデータ構造で表現されていてもよい。データ構造に依存しないことを示すために「ｘｘｘテーブル」を「ｘｘｘ情報」と呼ぶことができる。また、以下の説明では、要素の識別情報として番号が使用されるが、他種の識別情報（例えば名前、識別子）が使用されてよい。

【0017】

また、以下の説明では、同種の要素を区別しないで説明する場合には、参照符号における共通符号（又は参照符号）を使用し、同種の要素を区別して説明する場合は、参照符号（又は要素のＩＤ）を使用することがある。

【0018】

プログラムは、ストレージコントローラに含まれるプロセッサ（例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ））によって実行されることで、定められた処理を、適宜に記憶資源（例えば主記憶）及び／又は通信インタフェース装置を用いながら行うため、処理の主語がストレージコントローラ或いはプロセッサとされてもよい。また、ストレージコントローラは、処理の一部又は全部を行うハードウェア回路を含んでもよい。コンピュータプログラムは、プログラムソースからインストールされてもよい。プログラムソースは、例えば、プログラム配布サーバ、又は、コンピュータ読取可能な記憶メディアであってもよい。

【0019】

（１）システム構成
本明細書の実施形態として、マルチノード接続構成のストレージシステムを説明する。図１は、マルチノード接続構成のストレージシステム１００の内部構成を示す。本システムは複数のストレージノード１０１Ａ、１０１Ｂがハブ装置１１０を介して互いにデータ通信可能なように接続されており、ストレージノード１０１Ａ、１０１Ｂには、リード／ライトコマンドによってストレージシステム１００に格納するデータの読み書きを要求するホスト１０８Ａ、１０８Ｂがそれぞれ接続されている。

【0020】

なお、ストレージノードの個数は図１に示した２個に限定されるものではなく、２以上であればより。例えば個数が４の場合、ハブ装置１１０には４個のストレージノードが接続され、そのうち任意の２個の間でデータ通信が可能となる。ストレージノード間の通信装置は、ハブ装置１１０に限定されず、ハブ装置１１０に追加して又は代えて、他の通信装置が使用されてもよい。

【0021】

以下に説明する実施形態において各ストレージノードの内部構成は同じであり、以下ではその構成要素の詳細を番号末尾のＡやＢを略して説明する。

【0022】

ストレージノード１０１は、ホストＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）１０２、プロセッサであるＣＰＵ１０３、ノード間通信器１０４、データ記憶媒体１０５、キャッシュメモリ１０６、格納データ圧縮伸張器１０７を含む。

【0023】

ホストＩ／Ｆ１０２は、ホスト１０８と接続するためのインタフェース機構であり、データをホストに送信したり、データをホストから受信したりするために、ホストからのリード／ライトコマンドに応答する。ホストＩ／Ｆ１０２の機構およびコマンドやデータの送受信のプロトコルは、標準的なインタフェース規格、例えばＦｉｂｒｅＣｈａｎｎｅｌ規格に準拠する。

【0024】

データ記憶媒体１０５は、例えばＨＤＤ（ＨａｒｄＤｉｓｋＤｒｉｖｅ）、不揮発性半導体メモリであるＮＡＮＤ型フラッシュメモリを搭載したＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）であり、大きな容量を持ち、ホストから受信したデータを永続的に格納する。データ記憶媒体１０５は、記憶ドライブ又は単にドライブとも呼ぶ。

【0025】

キャッシュメモリ１０６は、例えばＤＲＡＭ（ＤｙｎａｍｉｃＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）などの揮発性メモリを媒体とし、ホスト１０８から受信したデータ又はデータ記憶媒体１０５から読み出したデータを一時的に保持する。

【0026】

格納データ圧縮伸張器１０７は、データ記憶媒体１０５に格納するデータ量を削減するため、ライトコマンドに応じて受信したライトデータを可逆的に圧縮し、圧縮データを生成する。また、リードコマンドに応じて元の平文データをホスト１０８に送信するため、データ記憶媒体１０５から読み出した圧縮データを伸張して平文データを生成する。格納データ圧縮伸張器１０７による圧縮をデータ記憶媒体１０５への格納データに適用するか否かは、ストレージノード１０１の初期設定により変更可能である。

【0027】

ＣＰＵ１０３は、ホストＩ／Ｆ１０２、ノード間通信器１０４、データ記憶媒体１０５、キャッシュメモリ１０６、格納データ圧縮伸張器１０７と接続され、それらを制御する複数のマイクロプロセッサを含む。ＣＰＵ１０３は、ノード間通信器１０４やデータ記憶媒体１０５と、キャッシュメモリ１０６との間のデータ転送を実行する。

【0028】

そのデータ転送のプロトコルは、標準的なインタフェース規格、例えばＰＣＩｅｘｐｒｅｓｓ規格に準拠する。この場合、ＣＰＵ１０３はＲｏｏｔＣｏｍｐｌｅｘ（親）として機能し、ノード間通信器１０４やデータ記憶媒体１０５はＥｎｄＰｏｉｎｔ（子）として機能する。ＰＣＩｅｘｐｒｅｓｓ規格では転送するデータを所定サイズに分割し、パケットと呼ばれる転送様式のペイロード部分に埋め込んで転送する。ＣＰＵ１０３がサポートする最大のペイロードサイズは、例えば５１２バイトである。

【0029】

ＣＰＵ１０３は、ホスト１０８からのリード／ライトコマンドの内容を解釈する。また、格納データ圧縮伸張器１０７によるデータ圧縮・伸張の指示を行う。さらに、ノード間通信器１０４やデータ記憶媒体１０５と、キャッシュメモリ１０６との間のデータ転送の指示を行う。

【0030】

各ストレージノード１０１において、ホスト１０８からのライトデータは、まずキャッシュメモリ１０６に一時的に格納される。そのデータを非圧縮状態でデータ記憶媒体１０５に格納するように初期設定されている場合、データはそのままデータ記憶媒体１０５にライトされる。一方、そのデータを圧縮状態でデータ記憶媒体１０５に格納するように初期設定されている場合、格納データ圧縮伸張器１０７を通じて圧縮データへと変換され、圧縮データはキャッシュメモリ１０６に一時的に格納される。そして圧縮データはデータ記憶媒体１０５にライトされる。

【0031】

各ストレージノードにおいて、ホスト１０８へのリードデータは、データ記憶媒体１０５から非圧縮状態または圧縮状態でリードされ、まずキャッシュメモリ１０６に一時的に格納される。非圧縮状態である場合、データはそのままホスト１０８に送信される。一方、圧縮状態である場合、格納データ圧縮伸張器１０７を通じて平文データへと変換され、平文データはキャッシュメモリ１０６に一時的に格納される。そして平文データはホスト１０８に送信される。

【0032】

ノード間通信器１０４は、ホスト１０８からのリード／ライトコマンドに応じた処理を行う中で、ストレージノード間でデータ転送する必要がある場合に用いられる。例えば、ホスト１０８Ａが、自身の接続されているストレージノード１０１Ａ以外のストレージノード１０１Ｂ内のデータ記憶媒体１０５Ｂに格納されているデータのリードを、ストレージノード１０１Ａに要求する。当該データは、ストレージノード１０１Ｂからホスト１０８Ａの接続されているストレージノード１０１Ａに転送される。その他の場合も含め、詳細については後述する。

【0033】

ノード間通信器１０４によるストレージノード間のデータ転送のプロトコルは、標準的なインタフェース規格、例えばＰＣＩｅｘｐｒｅｓｓ規格に準拠する。この場合、ハブ装置１１０はＲｏｏｔＣｏｍｐｌｅｘ（親）として機能し、ノード間通信器１０４はＥｎｄＰｏｉｎｔ（子）として機能する。
（２）ノード間通信器

【0034】

ノード間通信器１０４の内部構成について説明する。図２は、ノード間通信器１０４の内部構成を示す。ノード間通信器１０４は、ＣＰＵ１０３と接続するＰＣＩｅｘｐｒｅｓｓ準拠インタフェース（以下ＰＣＩｅＩ／Ｆ）２０１、ハブ装置１１０と接続するＰＣＩｅＩ／Ｆ２０２を備える。例えば、ストレージノード１０１Ａから１０１Ｂへデータ転送を行う場合、ノード間通信器１０４ＡはＰＣＩｅＩ／Ｆ２０１を通じてＣＰＵ１０３Ａからデータを入力し、ＰＣＩｅＩ／Ｆ２０２からハブ装置１１０を介してノード間通信器１０４Ｂにデータを送出する。そして、ノード間通信器１０４ＢはＰＣＩｅＩ／Ｆ２０２を通じてデータを受領し、ＰＣＩｅＩ／Ｆ２０１からＣＰＵ１０３Ｂにデータを出力する。

【0035】

ノード間通信器１０４は、ＰＣＩｅＩ／Ｆ２０１とＰＣＩｅＩ／Ｆ２０２との間で転送データを中継するための４種類のバッファ２１０、２１３、２２０、２２３を備える。送信入力バッファ２１０はデータをＣＰＵ１０３から受信するためのバッファメモリである。送信出力バッファ２１３は他のストレージノードへ送信するデータを待機させるためのバッファメモリである。受信入力バッファ２２０は他のストレージノードから受信したデータを保持するためのバッファメモリである。受信出力バッファ２２３はＣＰＵ１０３へ送信するデータを待機させるためのバッファメモリである。

【0036】

ノード間通信器１０４は、送信入力バッファ２１０から送信出力バッファ２１３にデータを転送する際に、ＣＰＵ１０３の指示によりデータを無加工で転送することも、可逆圧縮して転送することもできる。後者の可逆圧縮のために圧縮回路２１２が複数備えられている。可逆圧縮して転送する場合には複数の圧縮回路２１２が並列的に圧縮処理を実行する。圧縮用バッファ２１１は圧縮回路２１２毎に備えられたバッファメモリである。

【0037】

転送データは所定サイズに分割されて各圧縮回路２１２に振り分けられる。圧縮用バッファ２１１はそれら分割データを一時的に保持する。圧縮回路２１２から得られた複数の圧縮結果は送信出力バッファ２１３に転送されて再びまとめられる。一方、無加工で転送する場合には、データは圧縮用バッファ２１１や圧縮回路２１２を経由せずに送信出力バッファ２１３に転送される。

【0038】

ノード間通信器１０４は、受信入力バッファ２２０から受信出力バッファ２２３にデータを転送する際に、データが送信元のノード間通信器１０４で圧縮された状態か否かに応じてそのデータを無加工で転送することも、伸張して転送することもできる。後者の伸張のために伸張回路２２２が複数備えられている。伸張して転送する場合には複数の伸張回路２２２が並列的に伸張処理を実行する。伸張用バッファ２２１は伸張回路２２２毎に備えられたバッファメモリである。

【0039】

転送データは分割されて各伸張回路２２２に振り分けられる。伸張用バッファ２２１はそれら分割データを一時的に保持する。伸張回路２２２から得られた複数の伸張結果はいずれも可逆圧縮前に分割した際の所定サイズとなっており、受信出力バッファ２２３に転送されて再びまとめられて可逆圧縮前のサイズに戻る。一方、無加工で転送する場合には、データは伸張用バッファ２２１や伸張回路２２２を経由せずに受信出力バッファ２２３に転送される。

【0040】

例えばノード間通信器１０４に圧縮回路２１２が３２個備えられていて、２５６ＫＢのデータを可逆圧縮して他のストレージノードに転送する場合、データは８ＫＢに分割され、１つの圧縮回路２１２は８ＫＢの可逆圧縮を実行する。圧縮回路２１２による可逆圧縮の圧縮率が平均５０％の場合、各圧縮結果サイズは平均４ＫＢとなる。送信出力バッファ２１３にまとめられる圧縮データサイズは１２８ＫＢとなる。この圧縮データが他のストレージノードのノード間通信器１０４に送られる。

【0041】

受信側のノード間通信器１０４は受信データを複数の伸張回路２２２によって並列的に伸張して元データを復元し、ＣＰＵ１０３に転送する。この時、伸張回路２２２による各伸張結果サイズはいずれも８ＫＢである。そして、受信出力バッファ２２３に３２個がまとめられ、元の２５６ＫＢデータが得られる。

【0042】

ノード間通信器１０４は、備えられた圧縮回路２１２や伸張回路２２２を用いて、ストレージノード間の転送データのサイズを削減することができる。圧縮回路２１２による可逆圧縮の圧縮率が５０％の場合、これはストレージノード間の転送帯域を見かけ上２倍に拡大することを意味する。ストレージシステム１００の性能のボトルネックがストレージノード間の転送帯域である場合、この圧縮の適用はボトルネックの改善となり、システム性能の向上をもたらす。

【0043】

（３）リード／ライトコマンド
ストレージノード１０１が行うリード／ライトコマンド処理について図３、図４、図５を用いて説明する。

【0044】

図３は、ストレージノード１０１Ａが、ホスト１０８Ａからのリードコマンドに応じて、ストレージノード１０１Ｂ内のデータ記憶媒体１０５Ｂに非圧縮状態で格納されているデータを読み出してホスト１０８Ａに返す処理のフローチャートを示している。

【0045】

まず、ストレージノード１０１Ａはホスト１０８Ａからデータリードコマンドを受信する（３０１）。要求されたデータがストレージノード１０１Ｂにあるため、ノード間通信器１０４Ａと１０４Ｂを通じてストレージノード１０１Ｂにデータ読み出しを要求する（３０２）。

【0046】

次に、ストレージノード１０１Ｂはデータ記憶媒体１０５Ｂから要求されたデータをリードし（３０３）、そのデータをキャッシュメモリ１０６Ｂに保持する（３０４）。そしてＣＰＵ１０３Ｂは、ノード間通信中にそのデータを圧縮するための条件を満たすか判定する（３０５）。本条件の詳細については後述する。ＣＰＵ１０３Ｂは、条件を満たさない（ＮＯ）場合はノード間通信器１０４Ｂにストレージノード１０１Ａへの非圧縮（無加工）でのデータ転送を指示し（３０７）、ノード間通信器１０４Ｂはそのままストレージノード１０１Ａへデータを送信する（３０９）。

【0047】

ＣＰＵ１０３Ｂは、ステップ３０５で条件を満たす（ＹＥＳ）場合はノード間通信器１０４Ｂにストレージノード１０１Ａへの圧縮でのデータ転送を指示し（３０６）、ノード間通信器１０４Ｂはそのデータを図２の圧縮回路２１２により圧縮してから（３０８）、データを送信する（３０９）。

【0048】

次に、ストレージノード１０１Ａのノード間通信器１０４Ａはそのデータを受信する（３１０）。ノード間通信器１０４Ａは、その受信データがノード間通信器１０４Ｂで圧縮されているか判定する（３１１）。転送データは、圧縮の有無を示すデータを含む。圧縮されていない（無加工）場合はそのままキャッシュメモリ１０６Ａに保持する（３１３）が、圧縮されていた場合は図２の伸張回路２２２により伸張してから（３１２）、キャッシュメモリ１０６Ａに保持する（３１３）。ストレージノード１０１Ａは最後にそのデータをリードコマンドへの応答としてホスト１０８Ａに返す（３１４）。

【0049】

図４と図５は、ストレージノード１０１Ａが、ホスト１０８Ａからのライトコマンドに応じて、ストレージノード１０１Ａ内のデータ記憶媒体１０５Ａにデータを書き込む処理のフローチャートを示している。

【0050】

まず図４において、ストレージノード１０１Ａはホスト１０８Ａからデータライトコマンドとライトするデータを受信し（４０１）、そのデータをキャッシュメモリ１０６Ａに保持する（４０２）。ストレージノード１０１Ａ（データ記憶媒体１０５Ａを除く）の故障によるライトデータの喪失を防ぐため、本ライトデータをストレージノード１０１Ｂ内のキャッシュメモリ１０６Ｂにもバックアップとして保持する。以下のステップ４０３～４１２は、ライトデータをノード間通信器１０４Ａと１０４Ｂを通じてストレージノード１０１Ｂに転送し、キャッシュメモリ１０６Ｂに保持する手順である。

【0051】

ＣＰＵ１０３Ａは、ノード間通信中にそのデータを圧縮するための条件を満たすか判定する（４０３）。本条件の詳細については後述する。ＣＰＵ１０３Ａは、条件を満たさない（ＮＯ）場合はノード間通信器１０４Ａにストレージノード１０１Ｂへの非圧縮（無加工）でのデータ転送を指示し（４０５）、ノード間通信器１０４Ａはそのままストレージノード１０１Ｂへデータを送信する（４０７）。

【0052】

ＣＰＵ１０３Ａは、ステップ４０３で条件を満たす（ＹＥＳ）場合はノード間通信器１０４Ａにストレージノード１０１Ｂへの圧縮でのデータ転送を指示し（４０４）、ノード間通信器１０４Ａはそのデータを図２の圧縮回路２１２により圧縮してから（４０６）、データを送信する（４０７）。

【0053】

次に、ストレージノード１０１Ｂのノード間通信器１０４Ｂはそのデータを受信する（４０８）。ノード間通信器１０４Ｂは、その受信データがノード間通信器１０４Ａで圧縮されているか判定する（４０９）。転送データは、圧縮の有無を示すデータを含み、それが参照される。圧縮されていない（無加工）場合はそのままキャッシュメモリ１０６Ｂに保持する（４１１）が、圧縮されていた場合は図２の伸張回路２２２により伸張してから（４１０）、キャッシュメモリ１０６Ｂに保持する（４１１）。ストレージノード１０１Ｂは、ノード間通信器１０４Ｂと１０４Ａを通じてライトデータの保持を完了したことをストレージノード１０１Ａに通知する（４１２）。

【0054】

次に、ストレージノード１０１Ａはホスト１０８Ａにデータライト完了応答を送信する（４１３）。実際にはデータ記憶媒体１０５Ａへのデータ格納は完了していないが、ホスト１０８Ａが次のコマンドを早期に準備できるようにこの時点で応答する。

【0055】

引き続き図５において、ストレージノード１０１ＡのＣＰＵ１０３ＡはライトデータからＲＡＩＤパリティを計算する（５０１）。データ記憶媒体１０５Ａに格納するライトデータは、媒体故障によるデータ損失を防ぐために、ＲＡＩＤ（ＲｅｄｕｎｄａｎｔＡｒｒａｙｓｏｆＩｎｄｅｐｅｎｄｅｎｔＤｉｓｋｓ）技術に基づく、冗長化を施してから記録する。

【0056】

具体的には、データ記憶媒体１０５Ａの数がＮ台であれば、ＣＰＵ１０３Ａはライトデータを（Ｎ－１）台に均等に配分して記録し、このデータの排他的論理和を計算して作ったパリティを残りの１台に記録する。これによりＮ台のうち１台が故障してもデータ回復が可能となる。

【0057】

例えば、Ｎ＝４のとき、ＣＰＵ１０３Ａは３台に同じサイズのデータＤ１、Ｄ２、Ｄ３を記録して、残りの１台にＰ＝Ｄ１＋Ｄ２＋Ｄ３（＋は排他的論理和を示す）により計算されるＲＡＩＤパリティＰを記録する。例えば、Ｄ２の記録先媒体が故障した場合は、ＣＰＵ１０３ＡはＰ＋Ｄ１＋Ｄ３＝Ｄ２の性質を利用してＤ２を回復する。パリティＰは異なるデータの排他的論理和で作られるため、一般にその内容は無意味で乱数的である。ステップ５０２で、ＣＰＵ１０３Ａは算出したパリティをキャッシュメモリ１０６Ａに保持する。

【0058】

ストレージノード１０１Ａ（データ記憶媒体１０５Ａを除く）の故障によるパリティの喪失を防ぐため、本パリティをストレージノード１０１Ｂ内のキャッシュメモリ１０６Ｂにもバックアップとして保持する。以下のステップ５０３～５０８は、パリティをノード間通信器１０４Ａと１０４Ｂを通じてストレージノード１０１Ｂに転送し、キャッシュメモリ１０６Ｂに保持する手順である。

【0059】

ＣＰＵ１０３Ａは、ノード間通信器１０４Ａに非圧縮（図２の圧縮回路２１２不使用）でのストレージノード１０１Ｂへのパリティ転送を指示する（５０３）。この転送を非圧縮にする判定については後述する。ノード間通信器１０４Ａは、そのままパリティをストレージノード１０１Ｂへ送信する（５０４）。

【0060】

次に、ストレージノード１０１Ｂのノード間通信器１０４Ｂはそのパリティを受信する（５０５）。ノード間通信器１０４Ｂは、そのパリティがノード間通信器１０４Ａで圧縮されているか判定する（５０６）。転送データは、圧縮の有無を示すデータを含み、それが参照される。本ケースではノード間通信器１０４Ａでは圧縮されていないため、そのままキャッシュメモリ１０６Ｂに保持する（５０７）。ストレージノード１０１Ｂは、ノード間通信器１０４Ｂと１０４Ａを通じてパリティの保持を完了したことをストレージノード１０１Ａに通知する（５０８）。

【0061】

最後に、ストレージノード１０１Ａは、キャッシュメモリ１０６Ａに保持しているライトデータとパリティをデータ記憶媒体１０５Ａに格納する（５０９）。これ以降、ライトデータが喪失する可能性はないため、キャッシュメモリ１０６Ｂに保持しているバックアップは無効化される。

【0062】

図６は、ストレージノード１０１Ａが、ホスト１０８Ａからのリードコマンドに応じて、ストレージノード１０１Ｂ内のデータ記憶媒体１０５Ｂに格納データ圧縮伸張器１０７Ｂで圧縮された状態で格納されているデータを読み出し、伸張して平文状態に復元してホスト１０８Ａに返す処理のフローチャートを示している。

【0063】

まず、ストレージノード１０１Ａはホスト１０８Ａからデータリードコマンドを受信する（６０１）。要求されたデータがストレージノード１０１Ｂにあるため、ノード間通信器１０４Ａと１０４Ｂを通じてストレージノード１０１Ｂにデータ読み出しを要求する（６０２）。

【0064】

次に、ストレージノード１０１Ｂはデータ記憶媒体１０５Ｂから要求された既圧縮データをリードし（６０３）、その既圧縮データをキャッシュメモリ１０６Ｂに保持する（６０４）。そして、ＣＰＵ１０３Ｂは、ノード間通信器１０４Ｂに非圧縮（図２の圧縮回路２１２不使用）でのストレージノード１０１Ａへのデータ転送を指示する（６０５）。この転送を非圧縮にする判定については後述する。ノード間通信器１０４Ｂは、そのまま既圧縮データをストレージノード１０１Ａへ送信する（６０６）。

【0065】

次に、ストレージノード１０１Ａのノード間通信器１０４Ａはその既圧縮データを受信する（６０７）。ノード間通信器１０４Ａは、そのデータがノード間通信器１０４Ｂで圧縮されているか判定する（６０８）。転送データは、圧縮の有無を示すデータを含み、それが参照される。本ケースではノード間通信器１０４Ｂでは圧縮されていないため、そのままキャッシュメモリ１０６Ａに保持する（６０９）。ストレージノード１０１Ａは格納データ圧縮伸張器１０７Ａによりその既圧縮データを伸張して平文状態に復元してキャッシュメモリ１０６Ａに保持する（６１０）。最後にそのデータをリードコマンドへの応答としてホスト１０８Ａに返す（６１１）。

【0066】

（４）ノード間通信器による圧縮の効果と制御
図７Ａ、図７Ｂ、図８を参照しながら、ストレージノード間通信を圧縮する効果、その圧縮の有効化・無効化の制御について説明する。

【0067】

図７Ａは、ストレージノード１０１がホスト１０８から受信したリードコマンドに対してデータを返す際の最大性能（最大リード性能。単位はＧＢ／ｓ）の算出方法を示す表である。最大リード性能は１リードコマンド当たりの要求データサイズｄ（ｋＢ）によって異なる。１リードコマンドをＣＰＵ１０３内の１マイクロプロセッサが処理する時間Ｔ（ｓ）は、例えばｄ＝８の時にＴ＝８０、ｄ＝３２の時にＴ＝２００、ｄ＝２５６の時にＴ＝８００である。

【0068】

ＣＰＵ１０３に含まれるマイクロプロセッサのコア数ｃを４０個とすると、ＣＰＵ１０３のリードコマンド処理性能は全コアが稼働している時に最大となり、その性能（最大ＣＰＵ性能。単位はＧＢ／ｓ）はｄｃ／Ｔで求められる。例えばｄ＝８の時に４．０ＧＢ／ｓ、ｄ＝３２の時に６．４ＧＢ／ｓ、ｄ＝２５６の時に１２．８ＧＢ／ｓである。ＣＰＵ１０３がこのような処理性能を持っていても、リードデータをホスト１０８に送出する際に通過する経路の転送帯域が最大ＣＰＵ性能に満たないならば、最大リード性能はその転送帯域がボトルネックになって最大ＣＰＵ性能よりも低くなる。

【0069】

今、ホスト１０８からのリードコマンド全てが、自身が接続されていない別のストレージノード１０１内のデータ記憶媒体１０５にあるデータを要求するものである場合、そのデータは全てノード間通信器１０４を通じて転送される。リードデータが通過する経路の中でこの転送帯域（ノード間帯域）が最も低く、例えば５．０ＧＢ／ｓであるとする。その場合の最大リード性能を算出する。ｄ＝８の時は最大ＣＰＵ性能が４．０ＧＢ／ｓであるのでノード間帯域はボトルネックとならず、４．０ＧＢ／ｓとなる。ｄ＝３２や２５６の時は最大ＣＰＵ性能が６．４ＧＢ／ｓや１２．８ＧＢ／ｓであるのでノード間帯域がボトルネックとなり、ともに５．０ＧＢ／ｓに抑えられる。

【0070】

これに対して、ｄ＝３２や２５６の時にノード間通信器１０４が転送データを可逆圧縮して見かけの帯域を２倍の１０．０ＧＢ／ｓに拡げた場合の最大リード性能を算出する。ｄ＝３２の時はノード間帯域がボトルネックとならず、最大リード性能は６．４ＧＢ／ｓに向上する。ｄ＝２５６の時はノード間帯域が依然ボトルネックだが、最大リード性能は１０．０ＧＢ／ｓに向上する。

【0071】

図７ＢはＣＰＵ１０３の稼働率（稼働コア数／全コア数）に対するストレージノード１０１のリード性能の変化を示している。図７Ｂを用いてＣＰＵ１０３がノード間通信器１０４による圧縮を有効化・無効化する制御方法を説明する。参照されるＣＰＵ稼働率は、ホスト１０８からリードコマンド又はライトコマンドを受信したストレージノード１０１のＣＰＵ１０３の稼働率である。稼働コア数は、消費電力やその他の観点で制御され得る。この点は広く知られた技術であり詳細を省略する。

【0072】

まず、ｄ＝８の時、ＣＰＵ稼働率が上がってもノード間帯域がリード性能のボトルネックとならないため、ＣＰＵ１０３はノード間通信器１０４に非圧縮でデータ転送するように指示する。リード性能は最大ＣＰＵ性能の４．０ＧＢ／ｓまで向上可能である。

【0073】

ｄ＝３２の時、ＣＰＵ稼働率が７８％（境界線７１１）以下ならば、ノード間帯域がリード性能のボトルネックとならないため、ＣＰＵ１０３はノード間通信器１０４に非圧縮でデータ転送するように指示するが、ＣＰＵ稼働率が７８％（境界線７１１）より大きければ、ＣＰＵ１０３はノード間帯域がリード性能のボトルネックになるのを回避するためにノード間通信器１０４に圧縮してデータ転送するように指示する。ノード間通信の圧縮によりリード性能は最大ＣＰＵ性能の６．４ＧＢ／ｓまで向上可能になる。

【0074】

ｄ＝２５６の時、ＣＰＵ稼働率が３９％（境界線７１２）以下ならば、ノード間帯域がリード性能のボトルネックとならないため、ＣＰＵ１０３はノード間通信器１０４に非圧縮でデータ転送するように指示するが、ＣＰＵ稼働率が３９％（境界線７１２）より大きければ、ＣＰＵ１０３はノード間帯域がリード性能のボトルネックになるのを回避するためにノード間通信器１０４に圧縮してデータ転送するように指示する。ノード間通信の圧縮によりリード性能はノード間帯域（見かけ帯域）の１０．０ＧＢ／ｓまで向上可能になる。

【0075】

上述のように、要求データサイズｄに応じて、異なるＣＰＵ稼働率の閾値を設定することで、より適切な判定が可能となる。なお、異なる要求データサイズｄに共通のＣＰＵ稼働率の閾値が設定されてもよい。以上の制御方法により、ノード間通信器１０４による圧縮・伸張処理がリード性能向上に効果がない時は、それらの処理にかかる時間を節約することができ、リードデータをホスト１０８に返すまでの応答時間の無駄な増加を抑えることができる。

【0076】

図７Ａ及び７Ｂを参照した説明は、ストレージノード１０１がホスト１０８から受信したライトコマンドに対してデータライト完了応答を返す場合に適用され得る。図４を参照して説明したように、ホスト１０８から受信したデータは、ノード間通信器１０４を介して、他のストレージノード１０１に転送される。ノード間帯域がライト性能のボトルネックとならないように、ノード間通信器１０４での圧縮の有無が判定される。ホスト１０８からライトコマンドを受けたストレージノード１０１のＣＰＵ１０３は、その稼働率と規定の閾値との関係から、ノード間通信器１０４での圧縮の有無を判定する。上述のように、１又は複数閾値が設定される。

【0077】

図８は、図３～６に示したリード／ライトコマンド処理において、ＣＰＵ１０３がノード間通信の圧縮を有効にする条件（圧縮条件）を判定するステップ（すなわち３０５、４０３、５０３、６０５）のフローチャートを示している。

【0078】

ＣＰＵ１０３は、転送対象がＲＡＩＤパリティであるかを調べ（８０１）、真ならば圧縮条件を満たさない（８０６）として判定を終える。ステップ８０１が偽ならば、転送対象が既圧縮データであるかを調べ（８０２）、真ならば圧縮条件を満たさない（８０６）として判定を終える。ステップ８０２が偽ならば、コマンドでリード／ライトが要求されたデータのサイズが閾値以上であるかを調べ（８０３）る。ここでは例として３２ｋＢ以上を条件とする。ステップ８０３が、偽ならば圧縮条件を満たさない（８０６）として判定を終える。

【0079】

ステップ８０３が真ならば、ホスト１０８からリード／ライトコマンドを受けたストレージノード１０１のＣＰＵ稼働率が所定の閾値より大きいかを調べる（８０４）。偽ならば圧縮条件を満たさない（８０６）として判定を終える。８０４が真ならば、圧縮条件を満たす（８０５）として判定を終える。

【0080】

ステップ８０１や８０２の判定は、ＲＡＩＤパリティや既圧縮データは無意味で乱数的な内容であって圧縮率が小さいため、圧縮・伸張に時間をかけてもノード間帯域の拡張に効果がなく、応答時間の増加にしかならないことを根拠にしている。ステップ８０３の判定は、データサイズが小さいときはノード間帯域がリード／ライト性能のボトルネックにならず、ノード間帯域の拡張は不要であることを根拠にしている。ステップ８０４の判定は、ＣＰＵ稼働率が閾値（図７Ｂの７１１や７１２）以下である時は、ノード間帯域がリード／ライト性能のボトルネックにならず、ノード間帯域の拡張は不要であることを根拠にしている。なお、図８に示す条件の一部のみが判定されてよく、全ての条件が判定されなくてもよい。

【0081】

（５）ノード間通信器による圧縮・伸張方法
図９Ａは、ノード間通信器１０４によるデータの圧縮・伸張方法の概要を示す。転送元ストレージノード１０１内のノード間通信器１０４で行う圧縮処理では、圧縮前の平文データ９０１は、最初に辞書圧縮処理９０２にかけられる。その後、辞書圧縮結果はビット列への符号化処理９０３にかけられる。これによりノード間通信器１０４から転送先ストレージノード１０１に出力される圧縮データ９０４が生成される。

【0082】

一方、転送先ストレージノード１０１内のノード間通信器１０４で行う伸張処理では、圧縮データ９０４は、最初にビット列の復号処理９０５にかけられる。その後、復号結果は平文展開処理９０６にかけられる。これにより元の平文データ９０１が生成される。

【0083】

図９Ｂは、辞書圧縮処理９０２の具体例を示す。平文データ９０１の文字列ストリームにおいて、同じ文字列が再び出現するかどうかを順番に調べていく。その中で、ある文字列が、その先頭文字を起点にしてＪ文字前からＬ文字連続で一致している場合、この文字列をコピー記号［Ｊ，Ｌ］に変換する。

【0084】

例えば、「ａ，ｂ，ｃ，ｄ，ｅ」の５文字の文字列９１１は、先頭の文字「ａ」を起点にして６文字前から５文字連続で一致している。この場合、文字列９１１をコピー記号［６，５］に変換する。同様に、「ａ，ｂ，ａ，ｂ」の４文字の文字列９１２は、先頭の文字「ａ」を起点にして２文字前から（互いに重なる部分も含めて）４文字連続で一致している。この場合、文字列９１２をコピー記号［２，４］に変換する。同様に、「ｃ，ｄ，ｅ，ｆ」の４文字の文字列９１３は、先頭の文字「ｃ」を起点にして１５文字前から５文字連続で一致している。この場合、文字列９１３をコピー記号［１５，５］に変換する。

【0085】

これらのコピー記号のデータ量は元の文字列の持つデータ量よりも少ないので、この変換によってデータ量を減らすことができる。一致検索で参照する文字列ストリーム（以下、辞書と呼ぶ）の範囲は、１文字前から所定文字数前までの範囲とする。辞書範囲が検索の度に後方へスライドしていくので、この圧縮技術はスライド辞書型圧縮とも呼ばれる。なお、一致する文字列が辞書範囲内に複数存在する場合は、連続で最も長く一致する文字列をコピー記号に変換する。これは、データ量をより多く減らせる効果がある。

【0086】

後段の符号化処理９０３では、コピー記号に変換されなかった文字（以下、リテラル文字と呼ぶ）とコピー記号とを規定のビットパタンで符号化し、それらを連結してビットストリームにする。図９Ｂのビットストリームは、ＲＦＣ－２３９５で規定されているＬＺＳ（Ｌｅｍｐｅｌ－Ｚｉｖ－Ｓｔａｃ）圧縮アルゴリズムの仕様に従って符号化した結果である。コピー記号は１ビットの“１”の後に、コピー元までの距離Ｊとコピー長Ｌを表すビットパタンを連結して符号化する。

【0087】

例えば、ビットパタン９２１は１３ビット長でコピー記号［６，５］を表す。ビットパタン９２２は１１ビット長でコピー記号［２，４］を表す。ビットパタン９２３は１３ビット長でコピー記号［１５，５］を表す。コピー記号に対応する符号のビット長は固定ではない。一方、リテラル文字は、その文字の８ビット値の先頭に“０”を１ビット付加した９ビット長のビットパタンによって表される。

【0088】

復号処理９０５は、このようなビットストリームを解釈してコピー記号やリテラル文字を出力する。また、平文展開処理９０６では、それらコピー記号やリテラル文字から、平文データ９０１の文字列を先頭から順に復元する。コピー記号を文字列に展開する際には復元済みの文字列を辞書として参照する。コピー記号[Ｊ，Ｌ]の展開では、辞書の末尾からＪ文字戻った場所からＬ文字を抽出し、そのＬ文字を辞書の末尾に追記したものを次に参照する辞書とする。リテラル文字の展開では、その１文字を辞書の末尾に追記したものを次に参照する辞書とする。

【0089】

図１０を用いて、ノード間通信器１０４がノード間転送データを圧縮しないで転送する時に比べて圧縮して転送することで増える処理時間（以下、圧縮オーバーヘッド時間と呼ぶ）を、できるだけ小さくするための方法を説明する。

【0090】

図２を用いて説明したように、ノード間通信器１０４はノード間転送データを所定サイズに分割し、複数の圧縮回路２１２により並列的に圧縮する。ノード間転送データ１０００のサイズを２５６ｋＢとし、所定サイズを８ｋＢとすると、ノード間転送データ１０００は３２個の８ｋＢ部分１００１に分割される。１つの８ｋＢ部分１００１が１つの圧縮回路２１２で可逆圧縮される。ノード間通信器１０４に圧縮回路２１２が３２個搭載されている場合、３２並列で圧縮処理が可能であるため、２５６ｋＢ転送データ１０００が圧縮されるのにかかる時間は、１つの８ｋＢ部分１００１が圧縮されるのにかかる時間で済む。すなわち、圧縮回路２１２を複数備えて並列動作させることで圧縮オーバーヘッド時間を小さくすることができる。

【0091】

また、ノード間通信器１０４はその８ｋＢ部分１００１を、１６個の５１２Ｂ部分１００２に分割し、５１２Ｂ部分１００２を個別に可逆圧縮する。例えば、図１０の１００３はそれを示している。各５１２Ｂ部分１００２の圧縮が完了したらすぐにその圧縮結果をペイロードとするＰＣＩｅｘｐｒｅｓｓパケットを形成して、送信先のノード間通信器１０４へ送信する。これにより、８ｋＢ部分１００１を圧縮したデータが送出されるまでの待ち時間は、１つの５１２Ｂ部分１００２が圧縮されるのにかかる時間で済む。すなわち、圧縮処理の途中で部分的な結果を逐次送出することで圧縮オーバーヘッド時間を小さくすることができる。

【0092】

なお、５１２Ｂ部分１００２を図９Ｂに示した方法で可逆圧縮する時に参照する辞書範囲は、自身が含まれる８ｋＢ部分１００１の先頭から自身までの範囲（図１０の１００４で示した範囲）とする。これは、５１２Ｂ部分１００２のみを辞書範囲とするよりも辞書として使用可能な文字列の候補が増えるため、圧縮率が向上してデータ量をより小さく圧縮する（見かけ転送帯域をより拡げる）効果がある。

【0093】

また、５１２Ｂ部分１００２を個別に可逆圧縮した結果が５１２Ｂより大きくなった場合は、圧縮結果をペイロードとするパケットを送出する代わりに圧縮前の５１２Ｂ部分をペイロードとするパケットを送出する。これは、圧縮することで逆に転送データ量が増えて見かけ転送帯域を小さくしてしまう問題を防止する効果がある。例えば、図１０の１００５や１００６はそれを示している。図９Ｂに示したように、リテラル文字は９ビット長のパタンに符号化されて９／８倍にデータ量が増えるため、コピー記号の頻度が非常に少ない５１２Ｂ部分１００２は、圧縮することで５１２Ｂを超える可能性が高い。

【0094】

図１１は、ノード間転送データを圧縮して転送する条件である時に、ノード間通信器１０４が送受信するＰＣＩｅｘｐｒｅｓｓパケットの構成を示す図である。

【0095】

ＰＣＩｅｘｐｒｅｓｓパケットは一般にＴＬＰヘッダとペイロードからなる。ＴＬＰヘッダにはペイロードのバイト長を示すＬｅｎｇｔｈフィールドと、送信先アドレスなどを含むＡｄｄｒｅｓｓフィールドが含まれる。ペイロードは送信対象のデータ本体である。図１０で説明したように５１２Ｂ部分が可逆圧縮で小さくなる場合は圧縮状態で、小さくならない場合は平文状態でデータを転送する。

【0096】

平文状態で５１２Ｂのデータを送る時のパケットを平文パケット、圧縮状態で５１２Ｂ未満のデータを送る時のパケットを圧縮パケットと呼ぶ。平文パケットのペイロードには５１２Ｂの平文データ１１０３（図１０の１００５や１００６に相当）を設定し、ＴＬＰヘッダのＬｅｎｇｔｈフィールド１１０１には“５１２”を設定する。圧縮パケットのペイロードには５０８Ｂ以下の圧縮データ１１０６（図１０の１００３に相当）を設定し、ＴＬＰヘッダのＬｅｎｇｔｈフィールド１１０４には１１０６のバイト長を設定する。圧縮データ１１０６のサイズを５０８バイト以下としている理由は、ＰＣＩｅｘｐｒｅｓｓパケットのペイロードサイズが原則として４の倍数と規定されているからである。したがって、圧縮結果が５０９～５１１バイトの場合は平文パケットで転送する。

【0097】

平文パケットと圧縮パケットにおいて、ＴＬＰヘッダのＡｄｄｒｅｓｓフィールド１１０２や１１０５は以下の項目を含む。すなわち、送信先メモリアドレス１１１４、デバイス番号１１１１、圧縮回路ＩＤ１１１２、圧縮状態判別フラグ１１１３を含む。

【0098】

送信先メモリアドレス１１１４は、送信先のストレージノード１０１内のキャッシュメモリ１０６にペイロードのデータを格納する際の宛先アドレスである。圧縮パケットの場合は伸張後の５１２Ｂデータを格納するアドレスである。つまり、８ｋＢ部分を１６個のパケットで送る時、それらに含まれる１６個の送信先メモリアドレス１１１４は５１２Ｂ間隔の値が振られる。

【0099】

デバイス番号１１１１は、平文・圧縮パケットを転送する先のストレージノード１０１に搭載されたノード間通信器１０４を識別するためのユニークな番号である。図１のハブ装置１１０は、受信したパケットのＴＬＰヘッダのＡｄｄｒｅｓｓに含まれるデバイス番号１１１１を検知してそのパケットの転送先をスイッチする。圧縮回路ＩＤ１１１２は、圧縮回路の識別子である。圧縮回路ＩＤ１１１２は、パケットを送信したノード間通信器１０４にある複数の圧縮回路２１２のうちどの圧縮回路でそのパケットのペイロードの圧縮処理を実行したかを識別するためのユニークな番号である。

【0100】

パケットを受信したノード間通信器１０４は、同じ圧縮回路ＩＤ１１１２をＴＬＰヘッダのＡｄｄｒｅｓｓに含むパケットに対して、そのペイロードの伸張処理を、共通の伸張回路２２２を用いて実行する。図１０の１００４で示したように、８ｋＢ部分１００１の圧縮処理で参照する辞書範囲は複数の５１２Ｂ部分１００２で共有されるため、これらを圧縮したデータを正しく伸張するには同じ伸張回路２２２を用いる必要があるからである。

【0101】

圧縮状態判別フラグ１１１３は、そのパケットが平文パケットか圧縮パケットかを伸張回路２２２が識別するための情報である。このフラグが“１”の時は圧縮パケットとしてペイロードの伸張処理を実行するが、このフラグが“０”の時は平文パケットとしてペイロードの伸張処理をバイパスする。

【0102】

本実施形態において、平文パケットのペイロードからは５１２Ｂのデータが得られ、圧縮パケットのペイロードを伸張回路２２２で伸張することで５１２Ｂのデータが得られる。すなわち、図２の受信出力バッファ２２３には必ず５１２Ｂ単位でデータが転送される。図１の説明で述べたように、ＣＰＵ１０３をＲｏｏｔＣｏｍｐｌｅｘ、ノード間通信器１０４をＥｎｄＰｏｉｎｔとするＰＣＩｅｘｐｒｅｓｓ接続において、キャッシュメモリ１０６へのライト転送パケットの最大ペイロードサイズは５１２Ｂである。

【0103】

受信出力バッファ２２３に５１２Ｂ単位で保持されているデータのそれぞれにＴＬＰヘッダ（Ａｄｄｒｅｓｓフィールドにキャッシュメモリ１０６のアドレスを設定したもの）を付けるだけで、そのままキャッシュメモリ１０６へのライト転送が可能なパケットが形成できるため、ＰＣＩｅｘｐｒｅｓｓの伝送処理が効率化される。５１２Ｂ以外の単位で保持されている場合は、データサイズカウンタやデータ分割・連結回路が必要になるが、本実施形態はそれを省くことができる。

【0104】

図１２は、ノード間転送データを圧縮して転送する条件である時に、ノード間通信器１０４の圧縮回路２１２が８ｋＢ部分の圧縮処理を実行する際のフローチャートである。まず、インデックスＮを０に初期化し（１２０１）、ステップ１２０２に遷移する。

【0105】

ステップ１２０２では、圧縮する８ｋＢ部分を構成する１６個の５１２Ｂのうち、Ｎ番目（最初を０とする）の５１２Ｂを選択する。そして、選択した５１２Ｂについて、履歴範囲（５１２ＢｘＮ個）を辞書に含めて辞書圧縮を行う（１２０３）。その圧縮結果のサイズが５０８Ｂ以下か調べる（１２０４）。これが真ならば、圧縮結果をペイロードとするために送信出力バッファ２１３に転送する（１２０５）。ステップ１２０４が偽ならば、元の平文（５１２Ｂ）をペイロードとするために送信出力バッファ２１３に転送する（１２０６）。

【0106】

ステップ１２０５または１２０６の後、Ｎを１加算する（１２０７）。Ｎが１６かを調べる（１２０８）。Ｎが１６ならば圧縮処理を完了する。Ｎが１６でないならばステップ１２０２に戻り、次の５１２Ｂについて圧縮処理を継続する。その際、ステップ１２０３の辞書圧縮で用いる辞書範囲はそれまでに処理した（Ｎ－１）個の５１２Ｂを含む。

【0107】

図１３は、ノード間通信器１０４が、圧縮回路２１２で圧縮された８ｋＢ部分を伸張回路２２２により伸張し、キャッシュメモリ１０６に転送する際のフローチャートである。

【0108】

まず、ノード間通信器１０４はパケットを受信し（１３０１）、受信パケットのＴＬＰヘッダ内の圧縮回路ＩＤに伸張回路２２２の一つが割り当て済みかを調べる（１３０２）。割り当て済みならばステップ１３０４に遷移する。未割り当てならば伸張回路２２２の一つを割り当て（１３０３）、ステップ１３０４に遷移する。

【0109】

ステップ１３０４では、割り当てた伸張回路２２２に受信パケットのペイロードを入力する。そして、受信パケットのＴＬＰヘッダ内の圧縮状態判別フラグがＯＮ（圧縮状態）かを調べる（１３０５）。ＯＦＦ（平文状態）ならばステップ１３０７に遷移する。ＯＮならば伸張回路２２２でペイロードを伸張（復号と辞書参照による平文展開）して５１２Ｂの平文を復元し（１３０６）、ステップ１３０７に遷移する。

【0110】

ステップ１３０７では、５１２Ｂの平文（復元結果またはペイロードそのもの）でメモリライトのためのパケットを構成し、キャッシュメモリ１０６に転送する。そして、この圧縮回路ＩＤが付された受信パケットから得られた平文が通算で８ｋＢ転送済みかを調べる（１３０８）。８ｋＢ転送済みならば、伸張回路２２２の割り当てを解除して処理を完了する。８ｋＢ未転送ならば、後続パケットの受信（１３０１）に戻って処理を継続する。その際、ステップ１３０６の平文展開において参照する辞書範囲は、その伸張回路の割り当て以降に展開した平文全てを含む。

【0111】

上述のように、本実施形態によれば、ストレージノード間の通信帯域が、ストレージシステムにおけるデータ読み出しまたはデータ書き込みの性能のボトルネックになる時にのみ通信データの圧縮・伸張を実行することで、圧縮・伸張の処理時間が無駄にかかることを回避することができる。また、圧縮可能な通信データ（ＲＡＩＤパリティや既圧縮データ以外のデータ）のみに圧縮・伸張を実行することで、圧縮・伸張の処理時間が無駄にかかることを回避することができる。

【0112】

本実施形態によれば、通信器からキャッシュメモリへのライトパケットの最大ペイロードサイズでデータを分割して圧縮することで、ライトパケットを容易に構成することができ、データ転送を効率化することができる。また、複数の分割データの辞書圧縮において辞書範囲を共有することで圧縮率を改善（データ量をより削減）してストレージノード間の見かけ上の通信帯域をより拡大し、データ読み出し／書き込み性能を向上させることができる。

【0113】

（６）その他の実施形態
図１４を用いて、ＣＰＵ１０３がノード間通信器１０４による圧縮を有効化・無効化する制御方法の別例を説明する。本例は図８のフローチャートにおいてステップ８０４を「ノード間通信器による送信出力速度－ＣＰＵ性能＜閾値か？」という条件式に変えることによって実現する。ここで、送信出力元はリードデータを格納しているストレージノードのノード間通信器、送信出力先はリードコマンドを受信したストレージノードのノード間通信器である。なお、上記ステップ８０４を変えることなく、この条件をさらに追加してもよい。図１４は、本例におけるノード間通信器１０４による送信出力速度とストレージノード１０１のリード性能の変化を示している。ＣＰＵ性能は、ＣＰＵ稼働率から規定の数式に従って計算できる。

【0114】

ホスト１０８からのリードコマンドの発行頻度が増えるとＣＰＵ稼働率の上昇に伴いＣＰＵ性能は上昇するが、ノード間通信器１０４による転送データの圧縮が無効化されていると送信出力速度の上限は５．０ＧＢ／ｓであるため、ＣＰＵ性能との差は縮小していく。それが閾値を下回ったならばステップ８０５に遷移し、圧縮を有効化する転送データの割合が増えることで、送信出力速度は増える。その結果ＣＰＵ性能との差が拡がれば、閾値以上になってステップ８０６に遷移し、圧縮を有効化する転送データの割合が減る。つまり、この条件式に変えることによって、ノード間通信器１０４による送信出力速度はＣＰＵ性能から閾値分だけ高い速度を維持するようになる。

【0115】

図１４の太線１４１１や太線１４１２は本例による送信出力速度の変化である。送信出力速度が、転送データ圧縮が常に有効な時の１０ＧＢ／ｓに達するまで、リード性能のボトルネックはＣＰＵ性能となる。この制御方法では、ノード間通信器１０４が転送データの圧縮を必要以上に有効化しないため、圧縮オーバーヘッド時間の発生を前例の制御方法よりも少なくすることができ、リードデータをホスト１０８に返すまでの応答時間の無駄な増加をさらに抑えることができる。

【0116】

なお、上記説明はライトコマンドの処理に対しても適用され得る。ステップ８０４において、「ノード間通信器による送信出力速度－ＣＰＵ性能＜閾値か？」という条件式は、ライトコマンドの処理に対しても設定される。ここで、送信出力元はライトコマンドを受信したストレージノードのノード間通信器、送信出力先はそれ以外のストレージノードのノード間通信器である。本例の制御方法で圧縮を有効化する転送データの割合を増やす際には、以下の優先コマンド制御を行ってもよい。例えば、ホスト１０８からのリード・ライトコマンドの中に応答時間の増加を許可するか否かを意味するパラメータを付加し、そのパラメータが「否」に設定されているコマンドの処理で発生するノード間通信データは、圧縮の有効化対象として極力選択しないようにする。これにより、ホスト１０８が応答時間を悪化させたくないコマンドについて、応答時間の悪化を最小化することができる。

【0117】

なお、本発明は上記した実施形態に限定されるものではなく、様々な変形例が含まれる。例えば、上記した実施形態は本発明を分かりやすく説明するために詳細に説明したものであり、必ずしも説明したすべての構成を備えるものに限定されるものではない。また、ある実施形態の構成の一部を他の実施形態の構成に置き換えることが可能であり、また、ある実施形態の構成に他の実施形態の構成を加えることも可能である。また、各実施形態の構成の一部について、他の構成の追加・削除・置換をすることが可能である。

【0118】

また、上記の各構成・機能・処理部等は、それらの一部又は全部を、例えば集積回路で設計する等によりハードウェアで実現してもよい。また、上記の各構成、機能等は、プロセッサがそれぞれの機能を実現するプログラムを解釈し、実行することによりソフトウェアで実現してもよい。各機能を実現するプログラム、テーブル、ファイル等の情報は、メモリや、ハードディスク、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）等の記録装置、または、ＩＣカード、ＳＤカード等の記録媒体に置くことができる。

【0119】

また、制御線や情報線は説明上必要と考えられるものを示しており、製品上必ずしもすべての制御線や情報線を示しているとは限らない。実際には殆どすべての構成が相互に接続されていると考えてもよい。

【符号の説明】

【0120】

１００…ストレージシステム、１０１Ａ、１０１Ｂ…ストレージノード、１０３Ａ、１０３Ｂ…ＣＰＵ、１０４Ａ、１０４Ｂ…ノード間通信器、１０５Ａ、１０５Ｂ…データ記憶媒体、１０６Ａ、１０６Ｂ…キャッシュメモリ、１０８Ａ、１０８Ｂ…ホスト、１１０…ハブ装置、２１２…圧縮回路、２２２…伸張回路。

【図1】