特許7295422 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7295422情報処理装置および情報処理プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-06-13

(45)【発行日】2023-06-21

(54)【発明の名称】情報処理装置および情報処理プログラム

(51)【国際特許分類】

G06F 16/174 20190101AFI20230614BHJP

G06F 3/06 20060101ALI20230614BHJP

G06F 11/14 20060101ALI20230614BHJP

【ＦＩ】

G06F16/174

G06F3/06 301W

G06F11/14

【請求項の数】 7

(21)【出願番号】P 2019164546

(22)【出願日】2019-09-10

(65)【公開番号】P2021043642

(43)【公開日】2021-03-18

【審査請求日】2022-05-17

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】古田智徳

(72)【発明者】

【氏名】宇納知寛

【審査官】齊藤貴孝

(56)【参考文献】

【文献】特開２０１２－０１８５４９（ＪＰ，Ａ）

【文献】特開２０１１－０７６４２１（ＪＰ，Ａ）

【文献】特開２０１８－０４１２４５（ＪＰ，Ａ）

【文献】特表２０１２－５１３０６９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０１５／０２９３８１７（ＵＳ，Ａ１）

【文献】米国特許出願公開第２０１４／０１１４９３４（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ３／０６

Ｇ０６Ｆ１１／１４

(57)【特許請求の範囲】

【請求項1】

書き込みデータの書き込み要求を受けるたびに、前記書き込みデータを一定サイズの複数の単位ビット列に分割し、前記複数の単位ビット列のそれぞれが示すデータ値の複雑度を計算し、前記複雑度の変動量に基づいて前記書き込みデータにおける分割位置を決定し、前記書き込みデータを前記分割位置で分割することで前記書き込みデータを複数のチャンクに分割する分割処理部と、
前記複数のチャンクのデータを重複を排除して記憶装置に格納する重複排除部と、
を有する情報処理装置。

【請求項2】

前記分割処理部は、前記変動量が極値をとる位置に基づいて前記分割位置を決定する、
請求項１記載の情報処理装置。

【請求項3】

前記分割処理部は、前記変動量が極値をとる位置と平均チャンクサイズの目標値とに基づいて前記分割位置を決定する、
請求項１記載の情報処理装置。

【請求項4】

前記分割処理部は、前記変動量が極値をとる第１の位置を検出したとき、最大チャンクサイズと平均チャンクサイズの目標値とに基づいて極値の探索範囲を設定し、前記第１の位置を起点とした前記探索範囲内から前記変動量の次の極値が検出されなかった場合、前記第１の位置を前記分割位置に決定する、
請求項１記載の情報処理装置。

【請求項5】

前記分割処理部は、前記第１の位置を検出したとき、前記探索範囲の長さが、直近に決定された前記分割位置からの距離が遠くなるほど短くなり、かつ、前記平均チャンクサイズ以下になるように、前記探索範囲を設定する、
請求項４記載の情報処理装置。

【請求項6】

前記分割処理部は、前記複雑度の増加量または減少量を、前記データ値の連続性を示す指標で補正した値に基づいて、前記分割位置を決定する、
請求項１乃至５のいずれか１つに記載の情報処理装置。

【請求項7】

コンピュータに、
書き込みデータの書き込み要求を受けるたびに、前記書き込みデータを一定サイズの複数の単位ビット列に分割し、前記複数の単位ビット列のそれぞれが示すデータ値の複雑度を計算し、前記複雑度の変動量に基づいて前記書き込みデータにおける分割位置を決定し、前記書き込みデータを前記分割位置で分割することで前記書き込みデータを複数のチャンクに分割し、
前記複数のチャンクのデータを重複を排除して記憶装置に格納する、
処理を実行させる情報処理プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、情報処理装置および情報処理プログラムに関する。

【背景技術】

【0002】

ストレージ装置に保存されるデータ量を削減する技術として、保存されるデータをチャンクに分割し、チャンク単位で同一データが重複して保存されないように書き込み動作を制御する重複排除技術がある。この重複排除技術では、固定長のチャンクを用いる場合と可変長のチャンクを用いる場合とがあり、一般的には後者の方が重複排除効率が高い。

【0003】

可変長チャンクを生成する技術としては、例えば、書き込みデータ上で一定サイズのウィンドウを移動させ、各ウィンドウ内のデータのハッシュ値に基づいてチャンクの分割位置を決定する技術が知られている。また、重複排除技術に関して、チャンクの切り出し点を求めるために用いられたハッシュ値を、重複検出のために用いることができるようにしたストレージシステムが提案されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特表２０１４－５１４６１８号公報

【文献】特開２０１１－６５２６８号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

ところで、移動させたウィンドウ内のデータのハッシュ値に基づいてチャンクの分割位置を決定する上記技術では、ウィンドウ内のビット列の内容に基づいて分割位置が決定される。この技術は、分割されたチャンク内のビット列全体でなく、そのビット列の一部（すなわち、ウィンドウ内のビット列）だけに基づいてチャンクが生成される。このため、必ずしも、重複排除効率が高まるような適切な区間が個々のチャンクとして分割されるとは限らないという問題がある。

【0006】

１つの側面では、本発明は、データの重複排除効率を向上させることが可能な情報処理装置および情報処理プログラムを提供することを目的とする。

【課題を解決するための手段】

【0007】

１つの案では、分割処理部と重複排除部とを有する次のような情報処理装置が提供される。この情報処理装置において、分割処理部は、書き込みデータの書き込み要求を受けるたびに、書き込みデータを一定サイズの複数の単位ビット列に分割し、複数の単位ビット列のそれぞれが示すデータ値の複雑度を計算し、複雑度の変動量に基づいて書き込みデータにおける分割位置を決定し、書き込みデータを分割位置で分割することで書き込みデータを複数のチャンクに分割する。重複排除部は、複数のチャンクのデータを重複を排除して記憶装置に格納する。

【0008】

また、１つの案では、上記の情報処理装置と同様の処理をコンピュータに実行させる情報処理プログラムが提供される。

【発明の効果】

【0009】

１つの側面では、データの重複排除効率を向上させることができる。

【図面の簡単な説明】

【0010】

【図1】第１の実施の形態に係る情報処理装置の構成例および処理例を示す図である。

【図2】第２の実施の形態に係る情報処理システムの構成例を示す図である。

【図3】クラウドストレージゲートウェイのハードウェア構成例を示すブロック図である。

【図4】クラウドストレージゲートウェイが備える処理機能の構成例を示すブロック図である。

【図5】チャンクマップテーブルの構成例を示す図である。

【図6】チャンクメタテーブルおよびチャンクデータテーブルの構成例を示す図である。

【図7】チャンクグループの構成例を示す図である。

【図8】実データの格納量と管理データの容量との関係を示すグラフの例である。

【図9】可変長でのチャンク分割方法の例を示す図である。

【図10】チャンクの平均サイズとデータ量削減率との関係の例を示す第１の図である。

【図11】チャンクの平均サイズとデータ量削減率との関係の例を示す第２の図である。

【図12】書き込みデータにおけるデータ値の分布の例を示す図である。

【図13】エネルギー場の計算例を示す図である。

【図14】エネルギー場の一例を示すグラフである。

【図15】チャンクの分割位置決定処理の例を示す図である。

【図16】チャンキング処理の例を示すフローチャートである。

【図17】重みテーブルの構成例を示す図である。

【図18】エネルギー場計算処理の例を示すフローチャートである。

【図19】連続性カウンタ更新処理の例を示すフローチャートである。

【図20】エネルギー場における最小点探索について説明するための図である。

【図21】分割位置判定処理の例を示すフローチャートである。

【図22】ファイル書き込み処理の例を示すフローチャート（その１）である。

【図23】ファイル書き込み処理の例を示すフローチャート（その２）である。

【図24】クラウド転送処理の例を示すフローチャートである。

【発明を実施するための形態】

【0011】

以下、本発明の実施の形態について図面を参照して説明する。
〔第１の実施の形態〕
図１は、第１の実施の形態に係る情報処理装置の構成例および処理例を示す図である。図１に示す情報処理装置１０は、分割処理部１１と重複排除部１２を有する。分割処理部１１および重複排除部１２の処理は、例えば、情報処理装置１０が備える図示しないプロセッサがプログラムを実行することで実現される。また、情報処理装置１０には、記憶装置２０が接続されている。なお、記憶装置２０は、情報処理装置１０の内部に搭載されていてもよい。

【0012】

分割処理部１１は、記憶装置２０に対する書き込みデータの書き込み要求を受けるたびに、書き込みデータを複数のチャンクに分割する。この分割処理においては、可変長のチャンクが生成される。重複排除部１２は、各書き込みデータから分割された複数のチャンクのそれぞれのデータを、重複を排除して記憶装置２０に格納する。

【0013】

以下、分割処理部１１の処理についてさらに説明する。図１の例では、書き込みデータＷＤ１，ＷＤ２，ＷＤ３，・・・の書き込みが順に要求されたとする。分割処理部１１は、書き込みデータＷＤ１，ＷＤ２，ＷＤ３，・・・のそれぞれをチャンクに分割する際、まず、書き込みデータＷＤ１，ＷＤ２，ＷＤ３，・・・のそれぞれを一定サイズの単位ビット列に分割する。単位ビット列は、例えば、１バイトのビット列である。

【0014】

図１の例では、書き込みデータＷＤ１が単位ビット列ＤＴ１～ＤＴ１０に分割されたとする。分割処理部１１は、単位ビット列ＤＴ１～ＤＴ１０のそれぞれのデータ値に基づき、データ値の複雑度を計算する。データ値とは、単位ビット列が表す数値である。図１のグラフ１は、単位ビット列ＤＴ１～ＤＴ１０のそれぞれのデータ値の複雑度についての分布例を示している。

【0015】

分割処理部１１は、算出された複雑度の変動量に基づいて、書き込みデータをチャンクに分割するための分割位置を決定する。例えば、複雑度の分布範囲が大きく異なる２つの領域がある場合、各領域のビット列は異なるデータパターンを有すると推定される。そこで、分割処理部１１は例えば、複雑度が大きく変動する位置（例えば、複雑度の傾きの絶対値が極値となる位置）を、分割位置として決定する。

【0016】

図１の例では、単位ビット列ＤＴ３と単位ビット列ＤＴ４との間で複雑度が大きく変動しており、単位ビット列ＤＴ７と単位ビット列ＤＴ８との間でも複雑度が大きく変動している。この場合、単位ビット列ＤＴ３と単位ビット列ＤＴ４との間の位置２ａと、単位ビット列ＤＴ７と単位ビット列ＤＴ８との間の位置２ｂが、分割位置として決定される。この場合、分割処理部１１は、書き込みデータＷＤ１を位置２ａ，２ｂで分割することにより、書き込みデータＷＤ１をチャンクＣＫ１，ＣＫ２，ＣＫ３に分割する。

【0017】

書き込みデータＷＤ２，ＷＤ３，・・・についても同様の手順でチャンクに分割される。
以上の分割処理部１１の処理では、単位ビット列のデータ値の複雑度が計算され、複雑度の変動量に基づいてチャンクの分割位置が決定される。これにより、書き込みデータのビット列から、何らかの規則性を有する特定のデータパターンの範囲を特定し、その範囲の開始位置と終端位置とをチャンクの分割位置に決定できる。

【0018】

ここで、例えば、移動させたウィンドウ内のデータのハッシュ値に基づいてチャンクの分割位置を決定する方法では、ウィンドウ内のビット列だけに基づいて分割位置が決定される。このため、書き込みデータのビット列に特定のビットパターンの範囲が存在した場合、その範囲の終端位置を分割位置に決定できたとしても、その範囲の開始位置を分割位置に決定できるとは限らない。

【0019】

これに対して、分割処理部１１の処理によれば、このような特定のデータパターンの範囲における開始位置と終端位置の両方を、チャンクの分割位置として決定できる可能性が高まる。このため、このような方法で複数の書き込みデータをチャンクに分割し、分割されたチャンクのデータを重複を排除して記憶装置２０に格納することで、同じデータパターンを含む箇所を検出して重複を排除できる可能性が高まる。これにより、重複排除効率を高めることができ、記憶装置２０に格納されるデータの容量を削減できる。

【0020】

特に、書き込みデータの一部に挿入や変更が行われることで書き込みデータが更新された場合に、挿入や変更が行われた範囲の開始位置と終端位置とを分割位置として決定できる可能性が高まる。このため、開始位置の直前のビット列と終端位置の直後のビット列が、記憶装置２０に格納済みのビット列と重複していると判定される可能性が高まり、重複排除効率が向上する。

【0021】

〔第２の実施の形態〕
図２は、第２の実施の形態に係る情報処理システムの構成例を示す図である。図２に示す情報処理システムは、クラウドストレージゲートウェイ１００、ＮＡＳ（Network Attached Storage）クライアント２１０およびストレージシステム２２０を有する。クラウドストレージゲートウェイ１００は、ネットワーク２３１を介してＮＡＳクライアント２１０と接続し、また、ネットワーク２３２を介してストレージシステム２２０と接続する。ネットワーク２３１は、例えばＬＡＮ（Local Area Network）であり、ネットワーク２３２は、例えばＷＡＮ（Wide Area Network）である。

【0022】

ストレージシステム２２０は、ネットワーク２３２を介してクラウドストレージサービスを提供する。以下の説明では、ストレージシステム２２０が提供するクラウドストレージサービスによってサービス利用者（ここではクラウドストレージゲートウェイ１００）が利用可能な記憶領域を、「クラウドストレージ」と記載する場合がある。

【0023】

また、本実施の形態では例として、ストレージシステム２２０は、データがオブジェクト単位で管理されるオブジェクトストレージによって実現される。例えば、ストレージシステム２２０は、制御サーバ２２１ａとストレージ装置２２１ｂとをそれぞれ含むストレージノード２２１を複数有する、分散型のストレージシステムとして実現される。この場合、各ストレージノード２２１において、制御サーバ２２１ａはストレージ装置２２１ｂに対するアクセスを制御し、ストレージ装置２２１ｂの記憶領域によってクラウドストレージの一部が実現される。また、サービス利用者（クラウドストレージゲートウェイ１００）からのオブジェクトの格納先とされるストレージノード２２１は、オブジェクト固有の情報に基づいて決定される。

【0024】

一方、ＮＡＳクライアント２１０は、クラウドストレージゲートウェイ１００を、ファイルシステムによって管理される記憶領域を提供するＮＡＳサーバとして認識する。この記憶領域とは、ストレージシステム２２０によって提供されるクラウドストレージによる記憶領域である。そして、ＮＡＳクライアント２１０は、例えばＮＦＳ（Network File System）プロトコルやＣＩＦＳ（Common Internet File System）プロトコルにしたがって、クラウドストレージゲートウェイ１００に対してファイル単位でデータの読み書きを要求する。すなわち、ＮＡＳクライアント２１０は、クラウドストレージゲートウェイ１００のＮＡＳサーバ機能により、クラウドストレージを大容量の仮想的なネットワークファイルシステムとして利用できるようになる。

【0025】

ＮＡＳクライアント２１０は、例えば、データバックアップのためのバックアップソフトウェアを実行する。この場合ＮＡＳクライアント２１０は、ＮＡＳクライアント２１０に記憶されたファイル、またはＮＡＳクライアント２１０に接続されたサーバ（例えば業務サーバ）に記憶されたファイルを、ＮＡＳサーバから提供される記憶領域にバックアップする。

【0026】

クラウドストレージゲートウェイ１００は、図１に示した情報処理装置１０の一例である。クラウドストレージゲートウェイ１００は、ＮＡＳクライアント２１０とクラウドストレージとの間で転送されるデータを中継する。

【0027】

例えば、クラウドストレージゲートウェイ１００は、ＮＡＳサーバ機能により、ＮＡＳクライアント２１０からファイルの書き込み要求を受信し、書き込みが要求されたファイルを内部にキャッシュする。クラウドストレージゲートウェイ１００は、書き込みが要求されたファイルをチャンク単位に分割し、チャンク内の実データ（以下、「チャンクデータ」と記載する）をクラウドストレージに格納する。このとき、合計サイズが一定サイズを超える複数のチャンクデータが「チャンクグループ」としてグループ化され、チャンクグループがオブジェクトとしてクラウドストレージに転送される。

【0028】

また、クラウドストレージゲートウェイ１００は、ファイルをキャッシュする時点で、ファイルをチャンク単位に分割し、同一内容のチャンクデータが重複して保存されないようにする「重複排除」を行う。さらに、チャンクデータは圧縮された状態で格納されてもよい。例えば、クラウドストレージサービスでは、格納されるデータ量に応じて課金が行われる場合がある。重複排除やデータ圧縮を行うことで、クラウドストレージに格納されるデータ量を削減し、サービス利用コストを抑制することができる。

【0029】

図３は、クラウドストレージゲートウェイのハードウェア構成例を示すブロック図である。クラウドストレージゲートウェイ１００は、例えば、図３に示すようなコンピュータとして実現される。

【0030】

クラウドストレージゲートウェイ１００は、プロセッサ１０１、ＲＡＭ（Random Access Memory）１０２、ＨＤＤ（Hard Disk Drive）１０３、グラフィックインタフェース（Ｉ／Ｆ）１０４、入力インタフェース（Ｉ／Ｆ）１０５、読み取り装置１０６および通信インタフェース（Ｉ／Ｆ）１０７を備える。

【0031】

プロセッサ１０１は、クラウドストレージゲートウェイ１００全体を統括的に制御する。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、ＤＳＰ（Digital Signal Processor）、ＡＳＩＣ（Application Specific Integrated Circuit）、またはＰＬＤ（Programmable Logic Device）である。また、プロセッサ１０１は、ＣＰＵ、ＭＰＵ、ＤＳＰ、ＡＳＩＣ、ＰＬＤのうちの２以上の要素の組み合わせであってもよい。

【0032】

ＲＡＭ１０２は、クラウドストレージゲートウェイ１００の主記憶装置として使用される。ＲＡＭ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）プログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、ＲＡＭ１０２には、プロセッサ１０１による処理に必要な各種データが格納される。

【0033】

ＨＤＤ１０３は、クラウドストレージゲートウェイ１００の補助記憶装置として使用される。ＨＤＤ１０３には、ＯＳプログラム、アプリケーションプログラム、および各種データが格納される。なお、補助記憶装置としては、ＳＳＤ（Solid State Drive）などの他の種類の不揮発性記憶装置を使用することもできる。

【0034】

グラフィックインタフェース１０４には、表示装置１０４ａが接続されている。グラフィックインタフェース１０４は、プロセッサ１０１からの命令にしたがって、画像を表示装置１０４ａに表示させる。表示装置としては、液晶ディスプレイや有機ＥＬ（Electroluminescence）ディスプレイなどがある。

【0035】

入力インタフェース１０５には、入力装置１０５ａが接続されている。入力インタフェース１０５は、入力装置１０５ａから出力される信号をプロセッサ１０１に送信する。入力装置１０５ａとしては、キーボードやポインティングデバイスなどがある。ポインティングデバイスとしては、マウス、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

【0036】

読み取り装置１０６には、可搬型記録媒体１０６ａが脱着される。読み取り装置１０６は、可搬型記録媒体１０６ａに記録されたデータを読み取ってプロセッサ１０１に送信する。可搬型記録媒体１０６ａとしては、光ディスク、半導体メモリなどがある。

【0037】

通信インタフェース１０７は、ネットワーク１０７ａを介して他の装置との間でデータの送受信を行う。
以上のようなハードウェア構成によって、クラウドストレージゲートウェイ１００の処理機能を実現することができる。なお、ＮＡＳクライアント２１０や制御サーバ２２１ａも、図３と同様のハードウェア構成を有するコンピュータとして実現可能である。

【0038】

図４は、クラウドストレージゲートウェイが備える処理機能の構成例を示すブロック図である。クラウドストレージゲートウェイ１００は、記憶部１１０、ＮＡＳサービス処理部１２０およびクラウド転送処理部１３０を備える。

【0039】

なお、記憶部１１０は、例えば、ＲＡＭ１０２やＨＤＤ１０３など、クラウドストレージゲートウェイ１００が備える記憶装置の記憶領域として実現される。また、ＮＡＳサービス処理部１２０およびクラウド転送処理部１３０の処理は、例えば、プロセッサ１０１が所定のプログラムを実行することで実現される。

【0040】

記憶部１１０には、ディレクトリテーブル１１１、チャンクマップテーブル１１２、チャンクメタテーブル１１３、チャンクデータテーブル１１４および重みテーブル１１５が記憶される。

【0041】

ディレクトリテーブル１１１は、ファイルシステムにおけるディレクトリ構造を表現するための管理テーブルである。ディレクトリテーブル１１１には、ディレクトリ構造上のディレクトリ（フォルダ）、またはディレクトリ内のファイルに対応するレコードが登録される。各レコードには、ディレクトリまたはファイルを識別するためのｉｎｏｄｅ番号が登録されている。また、例えば、各レコードに親ディレクトリのｉｎｏｄｅ番号が登録されることで、ディレクトリ間、およびディレクトリとファイルとの関係が表現される。

【0042】

チャンクマップテーブル１１２およびチャンクメタテーブル１１３は、ファイルとチャンクデータとの関係や、チャンクデータとチャンクグループとの関係を管理するための管理テーブルである。チャンクグループは、合計サイズが所定サイズ以上となる複数のチャンクデータを含み、チャンクデータをクラウドストレージ２４０に転送する際の転送単位となる。チャンクデータテーブル１１４は、チャンクデータを保持する。すなわち、チャンクデータテーブル１１４は、ファイルの実データのキャッシュ領域となる。

【0043】

重みテーブル１１５は、ファイルをチャンク単位に分割するチャンキング処理において参照される管理テーブルである。重みテーブル１１５には、データ列の複雑度を計算するために利用される重みがあらかじめ登録される。

【0044】

ＮＡＳサービス処理部１２０は、ＮＡＳサーバとしてのインタフェース処理を実行する。すなわち、ＮＡＳサービス処理部１２０は、ＮＡＳクライアント２１０からのファイルの読み書き要求を受け付け、要求された内容に応じた処理を実行して、ＮＡＳクライアント２１０に応答する。

【0045】

ＮＡＳサービス処理部１２０は、チャンキング処理部１２１と重複排除処理部１２２を備える。なお、チャンキング処理部１２１は図１に示した分割処理部１１の一例であり、重複排除処理部１２２は、図１に示した重複排除部１２の一例である。

【0046】

チャンキング処理部１２１は、書き込みが要求されたファイルの実データをチャンク単位に分割する。重複排除処理部１２２は、チャンク単位に分割された実データを、重複を排除しながら記憶部１１０に格納する。

【0047】

クラウド転送処理部１３０は、ＮＡＳサービス処理部１２０による記憶部１１０へのデータ書き込み処理とは非同期に、記憶部１１０に書き込まれたチャンクデータをクラウドストレージ２４０に転送する。前述のように、クラウドストレージ２４０に対してはオブジェクト単位でデータが転送される。本実施の形態において、クラウド転送処理部１３０は、１つのチャンクグループに含まれるチャンクデータを用いて１つのチャンクグループオブジェクト１３１を生成し、クラウドストレージ２４０に送信する。

【0048】

次に、重複排除処理で利用される管理テーブルについて、図５～図７を用いて説明する。
図５は、チャンクマップテーブルの構成例を示す図である。チャンクマップテーブル１１２は、ファイルとチャンクデータとを関連付けるための管理テーブルである。チャンクマップテーブル１１２には、「ｉｎｏ」「ｏｆｆｓｅｔ」「ｓｉｚｅ」「ｇｎｏ」「ｇｉｎｄｅｘ」の各項目を有するレコードが登録される。各レコードは、ファイルの実データを分割して生成された１つのチャンクに対応付けられている。

【0049】

「ｉｎｏ」は、チャンクが含まれるファイルのｉｎｏｄｅ番号を示す。「ｏｆｆｓｅｔ」は、ファイルの実データの先頭からチャンクの先頭までのオフセット量を示す。「ｉｎｏ」と「ｏｆｆｓｅｔ」との組み合わせによって、ファイル内のチャンクが一意に識別される。

【0050】

「ｓｉｚｅ」は、チャンクのサイズを示す。本実施の形態では、チャンクのサイズは可変であるものとする。後述するように、チャンキング処理部１２１は、同一データを含むチャンクが生成されやすいようにファイルの実データの分割位置を決定する。これにより、可変長のチャンクが生成される。

【0051】

「ｇｎｏ」は、チャンクに含まれるチャンクデータが属するチャンクグループのグループ番号を示し、「ｇｉｎｄｅｘ」は、チャンクグループにおけるチャンクデータのインデックス番号を示す。レコードに「ｉｎｏ」および「ｏｆｆｓｅｔ」と「ｇｎｏ」および「ｇｉｎｄｅｘ」とが登録されることで、ファイル内のチャンクとチャンクデータとが関連付けられる。

【0052】

図５の例では、ｉｎｏｄｅ番号「ｉ１」のファイルは２つのチャンクに分割されており、ｉｎｏｄｅ番号「ｉ２」のファイルは４つのチャンクに分割されている。また、前者のファイルに含まれる２つのチャンクのデータと、後者のファイルに含まれるチャンクのうち先頭から２つのチャンクのデータとが、グループ番号「ｇ１」のチャンクグループに属するチャンクデータとして記憶部１１０に格納されている。さらに、後者のファイルに含まれるチャンクのうち先頭から３番目および４番目のチャンクのデータは、グループ番号「ｇ２」のチャンクグループに属するチャンクデータとして記憶部１１０に格納されている。

【0053】

図６は、チャンクメタテーブルおよびチャンクデータテーブルの構成例を示す図である。
チャンクメタテーブル１１３は、主として、チャンクデータとチャンクグループとを関連付けるための管理テーブルである。チャンクメタテーブル１１３には、「ｇｎｏ」「ｇｉｎｄｅｘ」「ｏｆｆｓｅｔ」「ｓｉｚｅ」「ｈａｓｈ」「ｒｅｆｃｎｔ」の各項目を有するレコードが登録される。各レコードは、１つのチャンクデータに対応付けられている。

【0054】

「ｇｎｏ」は、チャンクデータが属するチャンクグループの番号を示す。「ｇｉｎｄｅｘ」は、チャンクグループにおけるチャンクデータのインデックス番号を示す。「ｏｆｆｓｅｔ」は、チャンクグループの先頭からチャンクデータの先頭までのオフセット量を示す。「ｇｎｏ」と「ｇｉｎｄｅｘ」との組み合わせにより１つのチャンクデータが識別され、「ｇｎｏ」と「ｏｆｆｓｅｔ」との組み合わせにより１つのチャンクデータの格納位置が特定される。「ｓｉｚｅ」は、チャンクデータのサイズを示す。

【0055】

「ｈａｓｈ」は、チャンクデータを基に算出されたハッシュ値を示す。このハッシュ値は、書き込みが要求されたファイル内のチャンクのデータと同一のチャンクデータを検索するために利用される。「ｒｅｆｃｎｔ」は、チャンクデータに対応する参照カウンタの値を示す。参照カウンタの値は、チャンクデータがいくつのチャンクから参照されているかを示す。すなわち、この値は、チャンクデータがいくつのチャンクの間で重複しているかを示す。例えば、ある「ｇｎｏ」「ｇｉｎｄｅｘ」の値に対応する参照カウンタの値が「２」の場合、同じ「ｇｎｏ」「ｇｉｎｄｅｘ」の値が登録された２つのレコードが、チャンクマップテーブル１１２に存在することになる。

【0056】

チャンクデータテーブル１１４には、「ｇｎｏ」「ｇｉｎｄｅｘ」「ｄａｔａ」の各項目を有するレコードが登録される。「ｄａｔａ」には、「ｇｎｏ」「ｇｉｎｄｅｘ」によって識別されるチャンクデータが格納される。

【0057】

図７は、チャンクグループの構成例を示す図である。この図７を用いて、チャンクグループの生成方法について説明する。
なお、図７に示すテーブル１１４ａは、チャンクデータテーブル１１４から、グループ番号「１」のチャンクグループに属するチャンクデータに対応するレコードを抽出したものである。同様に、図７に示すテーブル１１４ｂは、チャンクデータテーブル１１４から、グループ番号「２」のチャンクグループに属するチャンクデータに対応するレコードを抽出したものである。また、図７に示すテーブル１１４ｃは、チャンクデータテーブル１１４から、グループ番号「３」のチャンクグループに属するチャンクデータに対応するレコードを抽出したものである。

【0058】

ＮＡＳクライアント２１０から新規のファイルの書き込みや既存のファイルの更新が要求されると、チャンキング処理部１２１は、ファイルの実データをチャンク単位に分割する。図７の例では、ファイルの実データが１３個のチャンクに分割されたものとする。各チャンクのデータを先頭から順にデータＤ１～Ｄ１３と表す。なお、ここでは説明を簡単にするために、データＤ１～Ｄ１３の内容はすべて異なる（すなわち、重複していない）ものとする。この場合、重複排除処理部１２２により、データＤ１～Ｄ１３にそれぞれ対応するチャンクデータが記憶部１１０に対して個別に格納される。

【0059】

各チャンクデータには、グループ番号（ｇｎｏ）と、その番号が示すチャンクグループにおけるインデックス番号（ｇｉｎｄｅｘ）とが割り当てられる。インデックス番号は、ファイルの分割によって重複していないチャンクデータが生成された順に割り当てられる。また、同じグループ番号に割り当てられたチャンクデータの合計サイズが一定量に達すると、グループ番号がカウントアップされ、次のチャンクデータにはカウントアップ後のグループ番号が割り当てられる。

【0060】

なお、チャンクデータの合計サイズが一定量に達していないチャンクグループの状態を、次のチャンクデータを受け入れ可能な「アクティブ」と呼ぶことにする。また、チャンクデータの合計サイズが一定量に達したチャンクグループの状態を、次のチャンクデータを受け入れ不可能な「非アクティブ」と呼ぶことにする。

【0061】

図７の例では、まず、データＤ１～Ｄ５がグループ番号「１」のチャンクグループに割り当てられる。そして、この段階で、グループ番号「１」のチャンクグループのサイズが一定量に達し、このチャンクグループが非アクティブになったとする。すると、次のデータＤ６には、新たなグループ番号「２」が割り当てられる。

【0062】

この後、データＤ６～Ｄ１１が、グループ番号「２」のチャンクグループに割り当てられ、この段階でこのチャンクグループが非アクティブになったとする。すると、次のデータＤ１２には、新たなグループ番号「３」が割り当てられる。図７の例では、データＤ１２，Ｄ１３がグループ番号「３」のチャンクグループに割り当てられるが、この段階ではこのチャンクグループはアクティブの状態である。この場合、次に生成されるチャンクデータ（図示せず）には、グループ番号「３」とインデックス番号「３」とが割り当てられることになる。

【0063】

非アクティブ化されたチャンクグループは、ファイル内の実データがクラウドストレージ２４０に転送される際のデータ単位となる。あるチャンクグループが非アクティブになると、そのチャンクグループから１つのチャンクグループオブジェクト１３１がクラウド転送処理部１３０によって生成される。チャンクグループオブジェクト１３１においては、例えば、対応するチャンクグループのグループ番号がオブジェクト名として設定され、オブジェクト値として、チャンクグループに含まれる各チャンクデータが設定される。このように生成されたチャンクグループオブジェクト１３１は、クラウド転送処理部１３０からクラウドストレージ２４０に対して転送される。

【0064】

以上の図７では、データの重複がない場合について説明した。例えば、この後に書き込みが要求されたファイル内のチャンクに、データＤ１～Ｄ１３のいずれかと同じ内容のデータを含むチャンクが存在した場合、そのチャンクのデータはチャンクデータテーブル１１４に新たに格納されず、クラウドストレージ２４０にも転送されない。すなわち、このチャンクについては実データの書き込みが行われず、チャンクとチャンクデータとを対応付けるためのメタデータのみがチャンクマップテーブル１１２に書き込まれる。このようにして、重複するデータが記憶されないようにする「重複排除処理」が実行される。

【0065】

ところで、上記の例のように、重複排除処理では、実データの格納量が削減される代わりに、多くの管理データを保持する必要がある。特に、管理データの中には実データに対応するフィンガープリント（ハッシュ値）が含まれる。フィンガープリントは格納されるチャンクごとに生成されるので、そのようなフィンガープリントを保持しておくためには大容量の記憶領域が必要になる。また、重複データを効率よく検索するための技術として、ブルームフィルタを用いる方法がある。しかし、ブルームフィルタのデータ構造を保持するためにも大容量の記憶領域が必要になる。

【0066】

図８は、実データの格納量と管理データの容量との関係を示すグラフの例である。図８では、保持される管理データをチャンク管理用データとその他のデータとに分けて示している。チャンク管理用データには、前述のチャンクマップテーブル１１２およびチャンクメタテーブル１１３が含まれ、チャンクメタテーブル１１３にはフィンガープリント（ハッシュ値）が含まれる。

【0067】

図８の例のように、チャンク管理用データは、保持される管理データの大半を占める。例えば、６４ＴＢ（テラバイト）のデータを１６ＫＢ（キロバイト）のチャンクに分割した場合、４０億個のチャンクが生成される。この場合、各チャンクに対応する１６０ビットのフィンガープリントを保持するためには、８０ＧＢ（ギガバイト）の記憶領域が必要になる。

【0068】

ここで、チャンク管理用データの容量とチャンクのサイズとの間には関連性がある。同じ重複排除率でチャンクの平均サイズを２倍にすることができれば、チャンクの数が半減し、その分だけチャンク管理用データの容量を削減できる。例えば、フィンガープリントのサイズが同じであれば、チャンク管理用データの容量を半減させることができる。

【0069】

一方、重複排除処理における他の技術的な注目点として、チャンクの分割位置をどのように決定するか、という点がある。この点に関し、チャンクの分割方法としては、固定長での分割と可変長での分割とがある。固定長での分割には、処理が簡単で負荷が小さいというメリットがある。一方、可変長での分割には、重複排除率を高められるというメリットがある。

【0070】

図９は、可変長でのチャンク分割方法の例を示す図である。この図９では、一例としてRabin-KarpのRolling-Hash（ＲＨ）法を用いた可変長チャンキングを示す。
ＲＨ法では、書き込みが要求されたデータ（書き込みデータ）の先頭から、所定サイズのウィンドウが１バイトずつずらして設定されて、ウィンドウ内のデータのハッシュ値が計算される。算出されたハッシュ値が特定のパターンと一致した場合に、そのウィンドウの末尾がチャンクの分割位置に決定される。

【0071】

図１０は、チャンクの平均サイズとデータ量削減率との関係の例を示す第１の図である。また、図１１は、チャンクの平均サイズとデータ量削減率との関係の例を示す第２の図である。図１０および図１１の横軸は、ＲＨ法により可変長で分割されたチャンクの平均サイズを示す。また、図１０および図１１の縦軸は、元のデータ量に対する重複排除後のデータ量の割合を示す。

【0072】

図１０は、文書作成ソフトウェアにより生成された文書データを格納した場合の例を示している。一方、図１１は、ＶＭ（Virtual Machine）イメージのデータを格納した場合の例を示している。これらのいずれの場合も、固定長より可変長の方が重複排除率が高くなっている。特に、文書データが更新された場合、文書データのビット列内の特定の位置にバイト単位のビット列が挿入されるケースが多く見られる。このようなケースでは、文書データのビット列の一部がバイト単位でずれる。ＲＨ法は、このようなビット列の位置ズレが発生した場合に、ズレが生じた範囲のビット列の区切りを正確に検出しやすいという特徴があり、図１０の例のように重複排除率が高まりやすいという傾向がある。

【0073】

ここで、前述のように、重複排除率を低下させずにチャンクの平均サイズを大きくすることができれば、チャンク管理用データの容量を削減できる。一方、図１０および図１１の例のように、チャンクの平均サイズが大きくなるほどデータ量削減率は低下する。特に図１０の例では、チャンクの平均サイズが６４ＫＢ程度にまで達すると、データ量削減率は６０％を超えてしまい、重複排除率は非常に悪くなる。このように、チャンクの平均サイズが小さいほど重複排除率を高めることができるが、チャンク管理用データの容量が大きくなってしまう。一方、チャンクの平均サイズが大きいほど重複排除率が低下してしまう。

【0074】

また、重複排除率を高める方法としては、書き込みデータの種別に応じて文脈を解析し、その解析結果に基づいてチャンクの分割位置を決定する方法がある。しかし、この方法は書き込みデータの種別がわかっている場合には効果を発揮するものの、未知の種別の書き込みデータに対しては効果を発揮しない。

【0075】

以下で説明する本実施の形態でのチャンキング処理では、チャンクの平均サイズが大きくなっても重複排除率が低下しにくくする。例えば、文書データを格納した場合に、平均チャンクサイズが６４ＫＢ程度でも、図１０において平均チャンクサイズが１６ＫＢ程度での重複排除率が達成されるようにする。また、本実施の形態でのチャンキング処理では、上記のＲＨ法を用いた可変長チャンキングと同様に、ビット列の位置ズレが発生した場合に効率的に重複排除できるようにする。さらに、本実施の形態でのチャンキング処理では、これらの効果を書き込みデータの種別に依存せずに発揮できるようにする。

【0076】

ここで、書き込みデータから変更が発生しやすい場所を検出する方法について考察する。上記のＲＨ法を用いた可変長チャンキングは、書き込みデータの文脈を解釈せずに、そのビット列の内容に基づいてチャンクの分割位置を決定するものである。このため、データの種別に依存せずに重複排除を行う方法といえる。しかし、基本的に、ウィンドウに含まれるビット列の内容だけに基づいて分割位置が決定される。このため、ビット列の位置ズレが発生した可能性の高い箇所を検出しやすいものの、ビット列が変更された可能性の高い範囲自体を（すなわち、その範囲の起点と終点とを）検出できる訳ではない。

【0077】

本実施の形態では、ビット列が変更された可能性の高い範囲自体を検出できるようにする。そのために、高分子解析の考え方を利用する。例えば、試料に対して分解酵素を与えた場合、分子配列における分子の結合エネルギーが低い場所において高分子の結合が切り離される。これを利用して、書き込みデータのビット列を解析して、結合エネルギーが低く、切れやすい場所を探索することで、ビット列が変更された可能性の高い範囲を検出する。

【0078】

図１２は、書き込みデータにおけるデータ値の分布の例を示す図である。図１２の横軸に示すオフセットｘとは、書き込みデータのビット列を先頭から一定サイズの単位ビット列に分割したときに、各単位ビット列の先頭からの番号（アドレス）を示す。本実施の形態では例として、単位ビット列のサイズを１バイトとする。そこで、これ以後、単位ビット列を「バイト列」と記載する。

【0079】

また、各バイト列が示す数値をバイト列の「データ値」と記載する。図１２の縦軸に示すデータ値関数ｆ（ｘ）は、バイト列のオフセットｘに対するバイト列のデータ値を示す関数である。このようなデータ値関数ｆ（ｘ）に対して切れやすさを示す関数、すなわちポテンシャルエネルギー（位置エネルギー）を示す関数Ｐｏｔ（ｘ）を対応付ける作用素を生成できれば、書き込みデータのビット列から結合エネルギーの低い箇所を検出できる。

【0080】

書き込みデータのビット列における変更範囲（例えば、ビット列が挿入された範囲）の両端は、データパターンが変わる位置であると推定される。このため、作用素としては、データ値の分散度合いの変化を導出するものが好ましい。そこで、本実施の形態では、データ値関数ｆ（ｘ）の複雑度を示すエントロピーの関数Ｅｎｔ（ｘ）が算出され、この関数Ｅｎｔ（ｘ）を以下の式（１）のように微分することで、関数Ｐｏｔ（ｘ）が算出される。なお、関数Ｐｏｔ（ｘ）は、データ値関数ｆ（ｘ）についてのポテンシャルエネルギーの場（エネルギー場）を示す。
Ｐｏｔ（ｘ）＝－｜ｄＥｎｔ（ｘ）／ｄｘ｜・・・（１）
図１３は、エネルギー場の計算例を示す図である。図１３において、グラフ１５１は、バイト列に対するデータ値関数ｆ（ｘ）の例を示している。グラフ１５２は、グラフ１５１のデータ値関数ｆ（ｘ）に基づいて算出されるエントロピーの関数Ｅｎｔ（ｘ）を示している。グラフ１５３は、グラフ１５２の関数Ｅｎｔ（ｘ）に基づき、式（１）を用いて算出された関数Ｐｏｔ（ｘ）の正負を逆転した関数－Ｐｏｔ（ｘ）を示している。

【0081】

グラフ１５２から、グラフ１５１における領域１５１ｂのデータ値のエントロピーは、グラフ１５１における領域１５１ａ，１５１ｃと比較して顕著に高くなっていることがわかる。このような場合、書き込みデータにおいては、領域１５１ａと領域１５１ｂとの間でデータ値の複雑度が大きく異なり、領域１５１ｂと領域１５１ｃとの間でもデータ値の複雑度が大きく異なっている。このため、書き込みデータにおける領域１５１ａ，１５１ｂ，１５１ｃのそれぞれのビットパターンが異なっていることが推定される。その理由として、例えば、領域１５１ａのビット列と領域１５１ｃのビット列との間に領域１５１ｂのビット列が挿入された可能性が推定される。また、例えば領域１５１ａ，１５１ｃのデータ値が近い場合には、領域１５１ｂの範囲のビット列が変更された可能性も推定される。

【0082】

そこで、本実施の形態において、チャンキング処理部１２１は基本的に、バイト列のオフセット位置ごとのデータ値のエネルギー場を示す関数Ｐｏｔ（ｘ）を計算する。そしてチャンキング処理部１２１は、この関数Ｐｏｔ（ｘ）に基づいてデータ値のエントロピーの変動量が大きい位置をチャンクの分割位置に決定する。例えば、チャンキング処理部１２１は、関数Ｐｏｔ（ｘ）の区間最小値（極小値）（－Ｐｏｔ（ｘ）の極大値）の位置を分割位置に決定する。これにより、データが挿入された範囲やデータが変更された範囲を１つのチャンクの範囲とすることができる可能性が高まる。図１３の例では、グラフ１５３に示す矢印１５３ａ，１５３ｂの位置がチャンクの分割位置に決定される。

【0083】

図１４は、エネルギー場の一例を示すグラフである。図１３で説明したチャンクの分割位置決定方法によれば、書き込みデータの文脈を解釈せず、ビット列の内容の解析のみによって、ビット列が挿入された範囲やビット列が変更された範囲の前後をチャンクの分割位置に決定できる可能性が高まる。ビット列全体の解析結果から分割位置が決定されることで、ウィンドウ内のビット列だけに依存する前述のＲＨ法と比較して、重複排除率を高めることができる。

【0084】

しかしながら、前述のように、チャンク管理用データの容量を削減するためには、チャンクの長さをある程度長く、かつ同等にできることが望ましい。例えば、図１４に丸印で示す位置のように、バイト列のオフセットの間隔がある程度空いており、かつ同等になる位置を、チャンクの分割位置に決定することが望ましい。しかし、単純にエネルギー場の区間最小値（極小値）を選択するだけでは、このような条件が満たされるとは限らない。そこで、次の図１５に示すような方法が採用されてもよい。

【0085】

図１５は、チャンクの分割位置決定処理の例を示す図である。なお、図１５のグラフ１６１～１６３は、図１４と同様のエネルギー場を示している。
チャンクの分割位置をできるだけ等間隔にするために、互いに斥力が働く荷電粒子を用いた次のような考え方を用いて、チャンクの分割位置が決定される。まず、グラフ１６１に示すように、荷電粒子が等間隔で配置される。図１５において、荷電粒子は丸印によって示されている。荷電粒子の間隔は、チャンクの平均サイズの目標値に設定される。そして、これらの荷電粒子がエネルギー場に落とされると、グラフ１６２に示すように荷電粒子は位置エネルギーの低い位置に移動する。さらに、グラフ１６３に示すように、荷電粒子にトンネル効果のような運動を行わせて、局所最適解に陥らないようにする。グラフ１６３に示すような荷電粒子の位置をチャンクの分割位置に決定することで、チャンクのサイズが目標とするサイズに近づくようにチャンクの分割位置を決定できる。

【0086】

次に、チャンキング処理の具体例についてさらに説明する。
図１６は、チャンキング処理の例を示すフローチャートである。図１６に示すように、チャンキング処理部１２１によるチャンキング処理は、エネルギー場計算処理（ステップＳ１１）とチャンクの分割位置判定処理（ステップＳ１２）とに大別される。

【0087】

バイト列のオフセット位置ごとにデータ値のエントロピー（複雑度）およびエネルギー場の値を計算する処理には、その処理負荷が高いという課題がある。そこで、チャンキング処理部１２１は、複雑度Ｅの計算に用いるバイト列を処理対象のオフセット位置の近傍に限定することで、計算を局所化し、計算処理負荷を低減する。具体的には、チャンキング処理部１２１は、疑似正規分布に応じた重み係数を用いて、処理対象のオフセット位置の近傍のバイト列のみを用いて複雑度Ｅを計算する。この方法により、複雑度Ｅの計算精度の低下を抑制しつつ、その計算負荷を低減できる。その結果、エネルギー場の計算負荷を軽減できる。

【0088】

また、複雑度Ｅの変動状況を基に分割位置を決定する際、複雑度Ｅが急上昇する位置と急下降する位置の両方を分割位置として選択しなくても、十分な間隔で分割位置を決定できればそれらの一方の位置のみが分割位置として選択されればよい。そこで、チャンキング処理部１２１は、複雑度Ｅの微分を計算せず、複雑度Ｅの増分のみを計算することでエネルギー場の値を求める。これにより、エネルギー場の計算負荷を軽減する。なお、本実施の形態では複雑度の増分を計算するものとするが、その代わりに複雑度の減少分を計算してもよい。

【0089】

ただし、上記のように重み係数を用いて複雑度Ｅの計算を局所化すると、１つの長いデータパターンが出現した場合（例えば、何らかの規則性を有する１つのデータパターンが出現した場合）に、そのデータパターンの出現を認識できない可能性がある。そこで、チャンキング処理部１２１は、データ値の連続性Ｃを考慮してエネルギー場の値を計算する。この連続性Ｃは、データパターンの連続性（特定のデータパターンが続いているか）を示す指標である。すなわち、複雑度Ｅの増分が大きい場合でも、データ値の連続性Ｃが高いと判定される場合、データパターンの途中であると推定して分割位置と判定しないような計算方法が利用される。そこで、チャンキング処理部１２１は、－（Ｅ_i－Ｅ_i-1）＋Ｃ_iによりオフセット番号ｉでのエネルギー場の値（エネルギー値）Ｐ_iの値を計算する。

【0090】

以下、図１７および図１８を用いて、ステップＳ１１のエネルギー場計算処理の例を説明する。
図１７は、重みテーブルの構成例を示す図である。図１７に示す重みテーブル１１５において、列番号ｊは重みテーブル１１５における列の番号を示し、各列にオフセット値ｏｆｆと重みＷとが対応付けてあらかじめ登録されている。

【0091】

オフセット値ｏｆｆは、処理対象のオフセット位置（処理位置）に対して前側のオフセット番号を示す。処理位置のバイト列のオフセット番号をｉとすると、ｏｆｆ＝１はオフセット番号（ｉ－１）のバイト列を示し、ｏｆｆ＝２はオフセット番号（ｉ－２）のバイト列を示す。本実施の形態では例として、処理位置の近傍のバイト列として、処理位置に対応するオフセット番号ｉに加えてオフセット番号（ｉ－１），（ｉ－２），（ｉ－３），（ｉ－５），（ｉ－７），（ｉ－１１）の各バイト列を用いて複雑度Ｅ_iが計算されるものとする。また、重みＷは、オフセット番号ｉを中心とした疑似正規分布の確立変数に応じた重み係数である。

【0092】

図１８は、エネルギー場計算処理の例を示すフローチャートである。この図１８の処理は、図１６のステップＳ１１の処理に対応する。また、図１８の処理は、図１７の重みテーブル１１５を参照しながら実行される。

【0093】

［ステップＳ２１］チャンキング処理部１２１は、書き込みが要求されたファイルを１バイトごとの単位ビット列（バイト列）Ｄ₀，Ｄ₁，・・・に分割する。
［ステップＳ２２］チャンキング処理部１２１は、処理位置を示すオフセット番号ｉを初期化する。図１７の重みテーブル１１５が用いられる場合、初期状態ではオフセット番号「０」からオフセット番号「１１」までのバイト列が計算に用いられるので、オフセット番号ｉの初期値として「１１」が設定される。

【0094】

［ステップＳ２３］チャンキング処理部１２１は、連続性の指標である連続性カウンタの値を初期化する。本実施の形態では例として、連続性カウンタの値としてカウント値ｃ０，ｃ１が用いられるものとし、チャンキング処理部１２１はカウント値ｃ０，ｃ１のいずれも「０」に設定する。カウント値ｃ０，ｃ１は、それぞれ異なる規則性を有するデータパターンの連続性を判定するための値である。後述するように、カウント値ｃ０はデータ値「０」のバイト列が連続している可能性の高さを示し、カウント値ｃ１はデータ値「１２７」以下のバイト列が連続している可能性の高さを示す。

【0095】

［ステップＳ２４］チャンキング処理部１２１は、次の式（２）を用いてオフセット番号ｉにおける複雑度Ｅ_iを計算する。

【0096】

【数1】

【0097】

式（２）において、ｏｆｆ_j，Ｗ_jは、図１７の重みテーブル１１５において列番号ｊに対応付けられたオフセット値ｏｆｆおよび重みＷをそれぞれ示す。したがって複雑度Ｅ_iは、オフセット番号ｉのデータ値とオフセット番号（ｉ－１），（ｉ－２），（ｉ－３），（ｉ－５），（ｉ－７），（ｉ－１１）の各データ値との差分の絶対値に対して、対応する重みＷが乗算された値をすべて加算することで算出される。

【0098】

なお、式（２）は複雑度Ｅ_iの計算式の一例であり、他の計算式によって複雑度Ｅ_iが計算されてもよい。
［ステップＳ２５］チャンキング処理部１２１は、処理位置のオフセット番号ｉを「１」だけインクリメントして、処理対象のバイト列を次のバイト列に移動させる。また、チャンキング処理部１２１は、直近に計算された複雑度Ｅ_iをオフセット番号（ｉ－１）に対応する複雑度Ｅ_i-1として設定する。

【0099】

［ステップＳ２６］チャンキング処理部１２１は、処理位置のバイト列Ｄ_iがファイルの終端であるかを判定する。処理位置のバイト列Ｄ_iがファイルの終端である場合、チャンキング処理部１２１は、処理位置のバイト列Ｄ_iの終端をチャンクの分割位置に設定して、チャンキング処理を終了する。一方、処理位置のバイト列Ｄ_iがファイルの終端でない場合、チャンキング処理部１２１はステップＳ２７の処理を実行する。

【0100】

［ステップＳ２７］チャンキング処理部１２１は、前述の式（２）を用いて現在のオフセット番号ｉにおける複雑度Ｅ_iを計算する。
［ステップＳ２８］チャンキング処理部１２１は、連続性カウンタのカウント値ｃ０，ｃ１についての更新処理を実行する。この処理については、後の図１９を用いて詳述する。

【0101】

［ステップＳ２９］チャンキング処理部１２１は、次の式（３）を用いてオフセット番号ｉにおけるエネルギー場の値（エネルギー値）Ｐ_iを計算する。
Ｐ_i＝－（Ｅ_i－Ｅ_i-1）＋ａ０×ｃ０＋ａ１×ｃ１・・・（３）
式（３）において、ａ０，ａ１はそれぞれカウント値ｃ０，ｃ１に対応する重み係数である。例えば、ａ０＝１００，ａ１＝１０に設定される。この場合、データ値「０」のバイト列が連続しているデータパターンの方が、データ値「１２７」以下のバイト列が連続しているデータパターンより、１つのチャンクに含まれるデータパターンとして重要視して検出されることを示す。

【0102】

ステップＳ２９の処理が完了すると、処理がステップＳ２５に進められ、処理対象のバイト列が次のバイト列に移動される。
図１９は、連続性カウンタ更新処理の例を示すフローチャートである。この図１９の処理は、図１８のステップＳ２８の処理に対応する。

【0103】

まず、ステップＳ３１～Ｓ３３ではカウント値ｃ０の更新処理が実行される。
［ステップＳ３１］チャンキング処理部１２１は、処理位置のバイト列Ｄ_iのデータ値が「０」であるかを判定する。チャンキング処理部１２１は、データ値が「０」の場合はステップＳ３２の処理を実行し、データ値が「０」でない場合はステップＳ３３の処理を実行する。

【0104】

［ステップＳ３２］チャンキング処理部１２１は、カウント値ｃ０を「１」だけインクリメントする。
［ステップＳ３３］チャンキング処理部１２１は、カウント値ｃ０を「０」に初期化する。

【0105】

以上のステップＳ３１～Ｓ３３の処理により、カウント値ｃ０はデータ値「０」のバイト列が連続している可能性の高さを示すようになる。続いて、ステップＳ３４～Ｓ３６ではカウント値ｃ１の更新処理が実行される。

【0106】

［ステップＳ３４］チャンキング処理部１２１は、処理位置のバイト列Ｄ_iのデータ値が「１２７」以下であるかを判定する。チャンキング処理部１２１は、データ値が「１２７」以下の場合はステップＳ３５の処理を実行し、データ値が「１２７」より大きい場合はステップＳ３６の処理を実行する。

【0107】

［ステップＳ３５］チャンキング処理部１２１は、カウント値ｃ１を「１」だけインクリメントする。
［ステップＳ３６］チャンキング処理部１２１は、カウント値ｃ１を「０」に初期化する。

【0108】

以上のステップＳ３４～Ｓ３６の処理により、カウント値ｃ１はデータ値「１２７」以下のバイト列が連続している可能性の高さを示すようになる。
なお、カウント値ｃ０，ｃ１は、ビット列が何らかの規則性を有する可能性を示す指標の一例であり、これに限定されるものではなく、他の指標を用いることも可能である。

【0109】

以上説明した図１８、図１９の処理により、複雑度（エントロピー）の計算精度の低下を抑制しつつ、その計算負荷を低減できる。そして、そのような効果を、書き込みデータの文脈を解釈せず、ビット列の解析によって得ることができる。

【0110】

次に、図１６のステップＳ１２に示した分割位置判定処理について説明する。
分割位置判定処理では、図１５で説明したように、チャンクの分割位置の間隔ができるだけ一定の大きさ以上、かつ等しくなるように、チャンクの平均サイズの目標値を考慮した処理が行われる。また、エネルギー場の区間最小値（極値）に基づいて分割位置を決定する際に、トンネル効果が生じるような処理を行うことで、区間最小値の算出結果が局所最適解とならないようにする。このための１つの方法としては、例えば、区間最小値が検出された後、その位置の後の区間においてさらに小さい値となる位置が検出された場合に、位置の差に対して値の差が十分大きければ区間最小値を後の位置における値に更新する方法がある。

【0111】

本実施の形態ではこの方法を応用した別の方法が用いられる。以下、図２０、図２１を用いて別の方法を説明する。
図２０は、エネルギー場における最小点探索について説明するための図である。図２０では、エネルギー場の値（エネルギー値）Ｐがチャンク起点側から走査されて最小値（極小値）が探索される。チャンク起点とは、現在終端位置（分割点）を決定しようとしているチャンクの開始位置であり、書き込みデータ（ファイル）の先頭位置、または直前のチャンク分割位置を示す。

【0112】

探索により最小値が見つかった場合、その位置を起点として最小値の探索範囲をどれだけ延長するかを示す延長探索距離が設定される。最小値が見つかった位置から延長探索距離だけ進んだ位置までの範囲（延長探索範囲）において新たな最小値が見つからなかった場合には、元の最小値の位置がチャンクの分割位置に決定される。

【0113】

延長探索距離は、チャンク起点から最小値が見つかった位置までの距離と、平均チャンクサイズの目標値とに応じて設定される。延長探索範囲はチャンク起点からの距離が長いほど短く設定され、チャンク起点からの距離が規定の最大チャンクサイズに達すると、探索の延長は行われない。これにより、最小値の探索範囲が最大チャンクサイズ以下の長さの範囲に制限される。

【0114】

また、延長探索距離の最大値が平均チャンクサイズの目標値に設定される。これにより、最小値の探索範囲は、目標とする平均チャンクサイズ以上の長さになるように確保される。そして、チャンク起点からの距離が短く、目標とする平均チャンクサイズに満たない小さなチャンクが生成されそうになると、目標とする平均チャンクサイズに近い長さの分だけ探索範囲が延長される。これにより、生成されるチャンクサイズの平均が目標値に近づくようにチャンクの分割位置が決定される。

【0115】

図２０において、ｉ₀は、チャンク起点のオフセット番号を示し、ｉ_minは、現在の最小点（最小値が検出された位置）のオフセット番号を示し、ｉは、現在の処理位置のオフセット番号を示す。Ｓ_minは最小チャンクサイズであり、例えば１６ＫＢに設定される。Ｓ_maxは最大チャンクサイズであり、例えば２５６ＫＢに設定される。Ｓ_aveは平均チャンクサイズの目標値であり、例えば６４ＫＢに設定される。

【0116】

図２０のグラフ１７１は、ｉ₀，ｉ_min，ｉ，Ｓ_min，Ｓ_aveの関係を示している。延長探索範囲の長さ（延長探索距離）は、（ｉ－ｉ_min）となる。なお、グラフ１７１の横軸のｘ’は、チャンク起点からのバイト列のオフセット番号を示す。

【0117】

最新の最小点をチャンクの分割位置とするか否かの判定は、例えば、次の式（４）に示す条件を用いて行われる。
ｉ－ｉ_min≧Ｓ_ave－（ｉ－ｉ₀）×Ｓ_ave／Ｓ_max ・・・（４）
図２０のグラフ１７２は、チャンク起点からの距離と、式（４）の右辺によって示される延長探索距離の最大値との関係を示している。すなわち、最新の最小点からの延長探索距離が式（４）の右辺によって示される値に達した場合に、最新の最小点がチャンクの分割点に決定される。

【0118】

図２１は、分割位置判定処理の例を示すフローチャートである。この図２１の処理は、図１６のステップＳ１２の処理に対応する。
［ステップＳ４１］チャンキング処理部１２１は、図１６のステップＳ１１で算出された、バイト列ごとのエネルギー値Ｐ₀，Ｐ₁，・・・を取得する。

【0119】

［ステップＳ４２］チャンキング処理部１２１は、処理の開始位置（チャンク起点）を示すオフセット番号ｉ₀を「０」に初期化する。また、チャンキング処理部１２１は、現在の処理位置を示すオフセット番号ｉを、最小チャンクサイズＳ_minに設定して初期化する。これにより、チャンク起点から最小チャンクサイズ分だけ進んだ位置から最小値の探索が開始される。

【0120】

［ステップＳ４３］チャンキング処理部１２１は、エネルギー値の最小値Ｐ_minを、処理位置ｉのエネルギー値Ｐ_iに設定する。また、チャンキング処理部１２１は、最小値Ｐ_minが検出された位置（最小点）を示すオフセット番号ｉ_minをｉに設定する。

【0121】

［ステップＳ４４］チャンキング処理部１２１は、処理位置ｉがファイル終端のバイト列を示すかを判定する。チャンキング処理部１２１は、処理位置ｉがファイル終端のバイト列を示さない場合、ステップＳ４５の処理を実行し、処理位置ｉがファイル終端のバイト列を示す場合、処理を終了する。なお、後者のケースでは、ステップＳ４９で決定された分割位置と、ファイルの終端位置とが、チャンクの分割位置として最終的に決定される。

【0122】

［ステップＳ４５］チャンキング処理部１２１は、処理位置のエネルギー値Ｐ_iが現在の最小値Ｐ_minより小さいかを判定する。チャンキング処理部１２１は、エネルギー値Ｐ_iが現在の最小値Ｐ_minより小さい場合、ステップＳ４６の処理を実行し、エネルギー値Ｐ_iが現在の最小値Ｐ_min以上である場合、ステップＳ４７の処理を実行する。

【0123】

［ステップＳ４６］チャンキング処理部１２１は、最小値Ｐ_minを処理位置のエネルギー値Ｐ_iによって更新する。また、チャンキング処理部１２１は、最小点を示すオフセット番号ｉ_minを現在の処理位置を示すオフセット番号ｉに更新する。

【0124】

［ステップＳ４７］チャンキング処理部１２１は、延長探索距離（ｉ－ｉ_min）が前述の式（４）の条件を満たすかを判定する。チャンキング処理部１２１は、条件を満たす場合、ステップＳ４９の処理を実行し、条件を満たさない場合、ステップＳ４８の処理を実行する。

【0125】

［ステップＳ４８］チャンキング処理部１２１は、処理位置のオフセット番号ｉを「１」だけインクリメントして、処理位置を次のオフセット番号の位置に進める。このケースでは、最小値の探索が継続される。

【0126】

［ステップＳ４９］チャンキング処理部１２１は、オフセット番号ｉ_minが示すバイト列の後端をチャンクの分割位置に決定する。
［ステップＳ５０］チャンキング処理部１２１は、処理の開始位置（チャンク起点）を示すオフセット番号ｉ₀を、オフセット番号ｉ_minに更新する。また、チャンキング処理部１２１は、現在の処理位置を示すオフセット番号ｉを、（ｉ_min＋Ｓ_min）に更新する。この後、処理がステップＳ４３に進められる。これにより、ステップＳ４９で決定されたチャンクの分割点から最小チャンクサイズ分だけ進んだ位置から、最小値の探索が再度開始される。

【0127】

次に、ファイルの書き込みが要求された際のクラウドストレージゲートウェイ１００の処理について、フローチャートを用いて説明する。
図２２、図２３は、ファイル書き込み処理の例を示すフローチャートである。ＮＡＳサービス処理部１２０は、ＮＡＳクライアント２１０からファイルの書き込み要求を受信すると、図１６の処理を実行する。なお、この書き込み要求は、新規ファイルの書き込み要求または既存ファイルの更新要求である。

【0128】

［ステップＳ６１］新規ファイルの書き込み要求の場合、ＮＡＳサービス処理部１２０のチャンキング処理部１２１は、ディレクトリテーブル１１１に、書き込みが要求されたファイルのディレクトリ情報を示すレコードを追加する。このとき、ファイルにｉｎｏｄｅ番号が付与される。なお、既存ファイルの更新要求の場合、ディレクトリテーブル１１１にはすでに該当レコードが登録されている。

【0129】

また、チャンキング処理部１２１は、図１６に示した手順で、書き込みが要求されたファイルに対するチャンキング処理を実行する。すなわち、チャンキング処理部１２１は、書き込みが要求されたファイルの実データを可変長チャンクに分割する。

【0130】

［ステップＳ６２］ＮＡＳサービス処理部１２０の重複排除処理部１２２は、ファイルの先頭側から順に、処理対象のチャンクを１つ選択する。重複排除処理部１２２は、選択されたチャンクのチャンクデータ（以下、「選択されたチャンクデータ」と略称する）に基づくハッシュ値を算出する。

【0131】

［ステップＳ６３］重複排除処理部１２２は、チャンクマップテーブル１１２にレコードを追加し、このレコードに次のような情報を登録する。「ｉｎｏ」には、書き込みが要求されたファイルのｉｎｏｄｅ番号が登録され、「ｏｆｆｓｅｔ」および「ｓｉｚｅ」には、処理対象のチャンクについての情報が登録される。

【0132】

［ステップＳ６４］重複排除処理部１２２は、チャンクメタテーブル１１３を参照し、「ｈａｓｈ」の項目にステップＳ６２で算出されたハッシュ値が登録されたレコードが存在するかを判定する。これにより、選択されたチャンクデータがすでに存在するか（重複しているか）が判定される。重複排除処理部１２２は、該当するレコードが見つかった場合、ステップＳ６５の処理を実行し、該当するレコードが存在しない場合、図２３のステップＳ７１の処理を実行する。

【0133】

［ステップＳ６５］重複排除処理部１２２は、ステップＳ６４でチャンクメタテーブル１１３から検索されたレコードの情報に基づいて、ステップＳ６３でチャンクマップテーブル１１２に追加したレコードを更新する。具体的には、重複排除処理部１２２は、チャンクメタテーブル１１３の該当レコードから「ｇｎｏ」および「ｇｉｎｄｅｘ」の設定値を読み出す。重複排除処理部１２２は、読み出した「ｇｎｏ」および「ｇｉｎｄｅｘ」の設定値を、チャンクマップテーブル１１２に追加したレコードの「ｇｎｏ」および「ｇｉｎｄｅｘ」にそれぞれ登録する。

【0134】

［ステップＳ６６］重複排除処理部１２２は、ステップＳ６４でチャンクメタテーブル１１３から検索されたレコードの「ｒｅｆｃｎｔ」に登録された参照カウンタの値をカウントアップする。

【0135】

［ステップＳ６７］重複排除処理部１２２は、ステップＳ６１で分割されたすべてのチャンクについて処理済みかを判定する。重複排除処理部１２２は、未処理のチャンクがある場合は処理をステップＳ６２に進め、未処理のチャンクを先頭側から１つ選択して処理を継続する。一方、重複排除処理部１２２は、すべてのチャンクを処理済みの場合、処理を終了する。

【0136】

以下、図２３を用いて説明を続ける。
［ステップＳ７１］重複排除処理部１２２は、チャンクデータテーブル１１４を参照し、最後尾のレコードに登録されたグループ番号（すなわち、現時点で最大のグループ番号）を取得する。

【0137】

［ステップＳ７２］重複排除処理部１２２は、ステップＳ７１で取得されたグループ番号のチャンクグループに含まれるチャンクデータの合計サイズが、所定値以上であるかを判定する。重複排除処理部１２２は、合計サイズが所定値以上である場合、ステップＳ７３の処理を実行し、合計サイズが所定値未満である場合、ステップＳ７４の処理を実行する。

【0138】

［ステップＳ７３］重複排除処理部１２２は、ステップＳ７１で取得されたグループ番号をカウントアップすることで、新たなグループ番号を生成する。
［ステップＳ７４］重複排除処理部１２２は、ステップＳ６３でチャンクマップテーブル１１２に追加したレコードを次のように更新する。ステップＳ７２でＹｅｓと判定された場合、「ｇｎｏ」にはステップＳ７３で生成されたグループ番号が登録され、「ｇｉｎｄｅｘ」には先頭のチャンクを示すインデックス番号が登録される。一方、ステップＳ７２でＮｏと判定された場合、「ｇｎｏ」にはステップＳ７１で取得されたグループ番号が登録される。また、「ｇｉｎｄｅｘ」の項目には、このグループ番号に対応するチャンクグループに含まれている最後尾のチャンクデータの次の順番を示すインデックス番号が登録される。

【0139】

［ステップＳ７５］重複排除処理部１２２は、チャンクメタテーブル１１３に新たなレコードを追加し、このレコードに対して次のような情報を登録する。「ｇｎｏ」および「ｇｉｎｄｅｘ」には、ステップＳ７４と同様の情報が登録される。「ｏｆｆｓｅｔ」および「ｓｉｚｅ」には、処理対象のチャンクについての情報が登録される。「ｈａｓｈ」には、ステップＳ６２で算出されたハッシュ値が登録される。「ｒｅｆｃｎｔ」には、初期値「１」が登録される。

【0140】

［ステップＳ７６］重複排除処理部１２２は、チャンクデータテーブル１１４に新たなレコードを追加し、このレコードに対して次のような情報を登録する。「ｇｎｏ」および「ｇｉｎｄｅｘ」には、ステップＳ７４と同様の情報が登録される。「ｄａｔａ」には、チャンクデータが登録される。

【0141】

［ステップＳ７７］重複排除処理部１２２は、ステップＳ７４～Ｓ７６で各レコードに記録したグループ番号のチャンクグループに含まれるチャンクデータの合計サイズが、所定値以上であるかを判定する。重複排除処理部１２２は、合計サイズが所定値以上である場合、ステップＳ７８の処理を実行し、合計サイズが所定値未満である場合、図２２のステップＳ６７の処理を実行する。

【0142】

［ステップＳ７８］重複排除処理部１２２は、ステップＳ７４～Ｓ７６で各レコードに記録したグループ番号のチャンクグループを非アクティブ化して、このチャンクグループをクラウド転送処理部１３０による転送対象に設定する。例えば、このチャンクグループを示すグループ番号が図示しない転送キューに登録されることで、このチャンクグループが転送対象に設定される。この後、図２２のステップＳ６７に処理が進められる。

【0143】

なお、図示しないが、既存ファイルの更新要求の場合、図２２、図２３の処理に続いて、更新された旧ファイルのチャンクに対応する参照カウンタがカウントダウンされる。
図２４は、クラウド転送処理の例を示すフローチャートである。なお、クラウド転送処理部１３０による図２４の処理は、図２３、図２４に示したＮＡＳサービス処理部１２０の処理とは非同期で実行される。

【0144】

［ステップＳ８１］クラウド転送処理部１３０は、チャンクデータテーブル１１４に登録されたチャンクグループの中から、図２３のステップＳ７８の処理により転送対象に設定されたチャンクグループを特定する。例えば、転送対象のチャンクグループを示すグループ番号が転送キューに登録されている場合、クラウド転送処理部１３０は、この転送キューからグループ番号を１つ抽出する。

【0145】

［ステップＳ８２］クラウド転送処理部１３０は、チャンクグループオブジェクト１３１を生成する。
［ステップＳ８３］クラウド転送処理部１３０は、生成されたチャンクグループオブジェクト１３１をクラウドストレージ２４０に送信して、チャンクグループオブジェクト１３１の格納を要求する。

【0146】

以上説明した図２２～図２４の処理により、書き込みが要求されたファイルが可変長のチャンクに分割され、チャンクのデータが重複を排除した状態でチャンクデータテーブル１１４やクラウドストレージ２４０に格納される。前述のように図２２のステップＳ６１では、追加や変更が発生した可能性の高い範囲の先頭および末尾の位置でチャンクが分割されるようになり、しかもチャンクの平均サイズの目標値を設定してある程度長いチャンクが生成されやすくなる。このため、重複排除処理における重複排除率を高めつつ、チャンクメタテーブル１１３などのチャンク管理用データの容量を削減できる。

【0147】

なお、上記の各実施の形態に示した装置（例えば、情報処理装置１０およびクラウドストレージゲートウェイ１００）の処理機能は、コンピュータによって実現することができる。その場合、各装置が有すべき機能の処理内容を記述したプログラムが提供され、そのプログラムをコンピュータで実行することにより、上記処理機能がコンピュータ上で実現される。処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、磁気記憶装置、光ディスク、光磁気記録媒体、半導体メモリなどがある。磁気記憶装置には、ハードディスク装置（ＨＤＤ）、磁気テープなどがある。光ディスクには、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disc）、ブルーレイディスク（Blu-ray Disc：ＢＤ、登録商標）などがある。光磁気記録媒体には、ＭＯ（Magneto-Optical disk）などがある。

【0148】

プログラムを流通させる場合には、例えば、そのプログラムが記録されたＤＶＤ、ＣＤなどの可搬型記録媒体が販売される。また、プログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することもできる。

【0149】

プログラムを実行するコンピュータは、例えば、可搬型記録媒体に記録されたプログラムまたはサーバコンピュータから転送されたプログラムを、自己の記憶装置に格納する。そして、コンピュータは、自己の記憶装置からプログラムを読み取り、プログラムにしたがった処理を実行する。なお、コンピュータは、可搬型記録媒体から直接プログラムを読み取り、そのプログラムにしたがった処理を実行することもできる。また、コンピュータは、ネットワークを介して接続されたサーバコンピュータからプログラムが転送されるごとに、逐次、受け取ったプログラムにしたがった処理を実行することもできる。

【0150】

以上の各実施の形態に関し、さらに以下の付記を開示する。
（付記１）書き込みデータの書き込み要求を受けるたびに、前記書き込みデータを一定サイズの複数の単位ビット列に分割し、前記複数の単位ビット列のそれぞれが示すデータ値の複雑度を計算し、前記複雑度の変動量に基づいて前記書き込みデータにおける分割位置を決定し、前記書き込みデータを前記分割位置で分割することで前記書き込みデータを複数のチャンクに分割する分割処理部と、
前記複数のチャンクのデータを重複を排除して記憶装置に格納する重複排除部と、
を有する情報処理装置。

【0151】

（付記２）前記分割処理部は、前記変動量が極値をとる位置に基づいて前記分割位置を決定する、
付記１記載の情報処理装置。

【0152】

（付記３）前記分割処理部は、前記変動量が極値をとる位置と平均チャンクサイズの目標値とに基づいて前記分割位置を決定する、
付記１記載の情報処理装置。

【0153】

（付記４）前記分割処理部は、前記変動量が極値をとる第１の位置を検出したとき、最大チャンクサイズと平均チャンクサイズの目標値とに基づいて極値の探索範囲を設定し、前記第１の位置を起点とした前記探索範囲内から前記変動量の次の極値が検出されなかった場合、前記第１の位置を前記分割位置に決定する、
付記１記載の情報処理装置。

【0154】

（付記５）前記分割処理部は、前記第１の位置を検出したとき、前記探索範囲の長さが、直近に決定された前記分割位置からの距離が遠くなるほど短くなり、かつ、前記平均チャンクサイズ以下になるように、前記探索範囲を設定する、
付記４記載の情報処理装置。

【0155】

（付記６）前記分割処理部は、前記複雑度の増加量または減少量を、前記データ値の連続性を示す指標で補正した値に基づいて、前記分割位置を決定する、
付記１乃至５のいずれか１つに記載の情報処理装置。

【0156】

（付記７）コンピュータに、
書き込みデータの書き込み要求を受けるたびに、前記書き込みデータを一定サイズの複数の単位ビット列に分割し、前記複数の単位ビット列のそれぞれが示すデータ値の複雑度を計算し、前記複雑度の変動量に基づいて前記書き込みデータにおける分割位置を決定し、前記書き込みデータを前記分割位置で分割することで前記書き込みデータを複数のチャンクに分割し、
前記複数のチャンクのデータを重複を排除して記憶装置に格納する、
処理を実行させる情報処理プログラム。

【0157】

（付記８）前記分割位置の決定では、前記変動量が極値をとる位置に基づいて前記分割位置を決定する、
付記７記載の情報処理プログラム。

【0158】

（付記９）前記分割位置の決定では、前記変動量が極値をとる位置と平均チャンクサイズの目標値とに基づいて前記分割位置を決定する、
付記７記載の情報処理プログラム。

【0159】

（付記１０）前記分割位置の決定では、前記変動量が極値をとる第１の位置を検出したとき、最大チャンクサイズと平均チャンクサイズの目標値とに基づいて極値の探索範囲を設定し、前記第１の位置を起点とした前記探索範囲内から前記変動量の次の極値が検出されなかった場合、前記第１の位置を前記分割位置に決定する、
付記７記載の情報処理プログラム。

【0160】

（付記１１）前記分割位置の決定では、前記第１の位置を検出したとき、前記探索範囲の長さが、直近に決定された前記分割位置からの距離が遠くなるほど短くなり、かつ、前記平均チャンクサイズ以下になるように、前記探索範囲を設定する、
付記１０記載の情報処理プログラム。

【0161】

（付記１２）前記分割位置の決定では、前記複雑度の増加量または減少量を、前記データ値の連続性を示す指標で補正した値に基づいて、前記分割位置を決定する、
付記７乃至１１のいずれか１つに記載の情報処理プログラム。

【符号の説明】

【0162】

１グラフ
２ａ，２ｂ位置
１０情報処理装置
１１分割処理部
１２重複排除部
２０記憶装置
ＣＫ１～ＣＫ３チャンク
ＤＴ１～ＤＴ１０単位ビット列
ＷＤ１～ＷＤ３書き込みデータ

【図1】