特開2024-122148 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社日立製作所の特許一覧

特開2024-122148データ圧縮システム、データ圧縮方法、及びデータ圧縮プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024122148

(43)【公開日】2024-09-09

(54)【発明の名称】データ圧縮システム、データ圧縮方法、及びデータ圧縮プログラム

(51)【国際特許分類】

H03M 7/30 20060101AFI20240902BHJP

H03M 7/40 20060101ALI20240902BHJP

【ＦＩ】

H03M7/30 Z

H03M7/40

【審査請求】未請求

【請求項の数】19

【出願形態】ＯＬ

(21)【出願番号】P 2023029527

(22)【出願日】2023-02-28

(71)【出願人】

【識別番号】000005108

【氏名又は名称】株式会社日立製作所

(74)【代理人】

【識別番号】110000279

【氏名又は名称】弁理士法人ウィルフォート国際特許事務所

(72)【発明者】

【氏名】圷弘明

(72)【発明者】

【氏名】新井滉

(72)【発明者】

【氏名】成子貴洋

【テーマコード（参考）】

5J064

【Ｆターム（参考）】

5J064BA09

5J064BB03

5J064BC28

(57)【要約】

【課題】圧縮処理の処理速度を向上することができるようにする。
【解決手段】データを圧縮する計算機１０１Ｂにおいて、圧縮対象データを複数の部分データに分割し、それぞれの前記部分データに対して圧縮処理を並行して行う圧縮器７０Ｂを有し、圧縮器７０Ｂを、ニューラルネットワークを含み、前記部分データの所定のデータ単位ごとの出現確率を算出する確率算出部と、前記データ単位のそれぞれに対して、前記データ単位と前記出現確率とに基づいて、エントロピー符号化したビット列である符号化ビット列を出力するエントロピー符号化部とを備えるように構成する。
【選択図】図１

【特許請求の範囲】

【請求項1】

データを圧縮するデータ圧縮システムであって、
圧縮対象データを複数の部分データに分割する分割部と、
それぞれの前記部分データに対して圧縮処理を並行して行う複数の圧縮処理部と、を有し、
前記圧縮処理部は、
ニューラルネットワークを含み、前記部分データの所定のデータ単位ごとの出現確率を算出する確率算出部と、
前記データ単位のそれぞれに対して、前記データ単位と前記出現確率とに基づいて、エントロピー符号化したビット列である符号化ビット列を出力するエントロピー符号化部と、を有する
データ圧縮システム。

【請求項2】

前記確率算出部は、前記データ単位ごとの予測情報を算出する予測モデルを含み、予測モデルはニューラルネットワークにより構成される
請求項１に記載のデータ圧縮システム。

【請求項3】

前記予測モデルは、長さ方向を削減する処理を含むニューラルネットワークにより構成される
請求項２に記載のデータ圧縮システム。

【請求項4】

前記確率算出部は、前記データ単位ごとの予測情報を算出する複数の予測モデルにより構成され、複数の予測モデルにより出力された予測情報に基づいて前記データ単位ごとの出現確率を確定する統合モデルを有する
請求項１に記載のデータ圧縮システム。

【請求項5】

前記統合モデルは、複数の予測モデルによる出力に対する重みを有しており、
前記統合モデルに対する学習処理を行うことにより、前記予測モデルに対する重みを決定する学習部と、
前記重みに基づいて、前記確率算出部が使用する予測モデルを選択するモデル選択部と、をさらに有する
請求項４に記載のデータ圧縮システム。

【請求項6】

前記データ単位の出現確率の算出に用いたデータである算出時使用データを識別する識別情報と、算出された出現確率との履歴情報を記憶部に格納する履歴管理部を更に有し、
前記確率算出部は、前記履歴情報に基づいて、出現確率を算出する
請求項１に記載のデータ圧縮システム。

【請求項7】

前記履歴管理部は、前記識別情報として、前記算出時使用データに対応するＬＳＨ（ＬｏｃａｌｉｔｙＳｅｎｓｉｔｉｖｅＨａｓｈｉｎｇ）を算出する
請求項６に記載のデータ圧縮システム。

【請求項8】

前記圧縮処理部は、
圧縮対象データのそれぞれのデータ単位に対してワンホットエンコーディングを行って得られるビット列であるビット列を、前記確率算出部に入力する変換部を有する
請求項１に記載のデータ圧縮システム。

【請求項9】

前記圧縮対象データの圧縮に関わる命令識別符号とデータを受け付ける受付部を更に有し、
前記圧縮処理部は、前記命令識別符号とデータに基づいてデータを圧縮する
請求項１に記載のデータ圧縮システム。

【請求項10】

前記圧縮対象データの圧縮に関わるヒント情報を受け付ける受付部を更に有し、
前記確率算出部は、前記ヒント情報に基づいて、前記データ単位ごとの確率分布を算出する
請求項９に記載のデータ圧縮システム。

【請求項11】

複数の前記部分データに対応する符号化ビット列を、各部分データに対応する符号化ビット列を識別可能に格納する格納処理部を更に有する
請求項１に記載のデータ圧縮システム。

【請求項12】

前記圧縮処理部は、
前記各部分データの一部に対応する符号化ビット列について、
前記各部分データの一部に対応する更新データのみに対して、前記確率算出部が前記各部分データの所定のデータ単位ごとの出現確率を算出し、エントロピー符号化部により符号化ビット列を出力する、
請求項１１に記載のデータ圧縮システム。

【請求項13】

前記圧縮対象データは、所定のメディアデータであり、
前記圧縮対象データのデータ量を削減するデータ削減部を更に有し、
前記分割部は、前記データ削減部によりデータ量が削減されたデータ削減後圧縮対象データを分割する
請求項１に記載のデータ圧縮システム。

【請求項14】

複数の前記部分データに対応する符号化ビット列のそれぞれに対して伸張処理を行う複数の伸張処理部を更に有し、
前記伸張処理部は、
ニューラルネットワークを含み、前記部分データの所定のデータ単位ごとの出現確率を算出する第２確率算出部と、
前記符号化ビット列と前記出現確率とに基づいて、エントロピー復号化したデータ単位を出力するエントロピー復号部と、を有する
請求項１に記載のデータ圧縮システム。

【請求項15】

所定の第１サイズのブロック単位で圧縮され、前記第１サイズの第１ブロック単位で保障コードが対応付けられた第１圧縮データを伸張する伸張部を更に有し、
前記分割部は、前記伸張部により伸張された伸張データを分割し、
前記圧縮処理部により得られた複数の符号化ビット列について、第２サイズの第２ブロック単位に対して保障コードを作成して、前記保障コードを前記第２ブロック単位に対応する符号化ビット列である第２ブロック対応ビット列群に対応付けて記憶する第２ブロック対応保障コード作成部を更に有する
請求項１に記載のデータ圧縮システム。

【請求項16】

前記第２ブロック対応ビット列群における複数の前記部分データに対応する符号化ビット列に対して伸張処理を並行して行う複数の伸張処理部を更に有し、
前記伸張処理部は、
ニューラルネットワークを含み、前記部分データの所定のデータ単位ごとの出現確率を算出する第２確率算出部と、
前記符号化ビット列と前記出現確率とに基づいて、エントロピー復号化したデータ単位を出力するエントロピー復号部と、
前記第１サイズの前記第１ブロック単位に含まれる複数のデータ単位に基づいて、前記第１ブロック単位ごとの保障コードを作成する第１ブロック対応保障コード作成部と、を有する
請求項１５に記載のデータ圧縮システム。

【請求項17】

前記圧縮処理部は、
過去に処理した部分データと前記部分データとの重複を検出した場合に、前記部分データへの参照情報を圧縮結果とする、
請求項１に記載のデータ圧縮システム。

【請求項18】

データを圧縮するデータ圧縮システムによるデータ圧縮方法であって、
圧縮対象データを複数の部分データに分割し、
それぞれの前記部分データに対する圧縮処理を複数の圧縮処理部により並行して行い、
前記圧縮処理部は、
ニューラルネットワークを用いて、前記部分データの所定のデータ単位ごとの出現確率を算出し、
前記データ単位のそれぞれに対して、前記データ単位と前記出現確率とに基づいて、エントロピー符号化したビット列である符号化ビット列を出力する
データ圧縮方法。

【請求項19】

データを圧縮する処理をコンピュータに実行させるデータ圧縮プログラムであって、
前記コンピュータを、
圧縮対象データを複数の部分データに分割する分割部と、
それぞれの前記部分データに対して圧縮処理を並行して行う複数の圧縮処理部と、して機能させ、
前記圧縮処理部を、
ニューラルネットワークを含み、前記部分データの所定のデータ単位ごとの出現確率を算出する確率算出部と、
前記データ単位のそれぞれに対して、前記データ単位と前記出現確率とに基づいて、エントロピー符号化したビット列である符号化ビット列を出力するエントロピー符号化部と、して機能させる
データ圧縮プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、データを圧縮する技術に関する。

【背景技術】

【0002】

ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）の進展で、データ生成量は、大幅に増加し、ハイブリッドクラウドにおけるデータ格納量が増加している。ストレージコストは低下しているが、データ量の伸びをカバーできない。したがって、ストレージに格納するデータ量を低減することが重要となっている。

【0003】

関連する技術として、例えば、特許文献１には、圧縮に不向きなデータであってもデータ量を削減することのできる技術が開示されている。

【先行技術文献】

【特許文献】

【0004】

【特許文献1】特開２０１９－９５９１３号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかし、圧縮処理によりデータ量を削減することができるが、圧縮処理に長時間要してしまうという問題もある。このように圧縮処理に長時間を要してしまうと、計算資源のコスト増加や他の処理に影響を及ぼしてしまう虞がある。

【0006】

本発明は、上記事情に鑑みなされたものであり、その目的は、圧縮処理の処理速度を向上することのできる技術を提供することにある。

【課題を解決するための手段】

【0007】

上記目的を達成するため、一観点に係るデータ圧縮システムは、データを圧縮するデータ圧縮システムであって、圧縮対象データを複数の部分データに分割する分割部と、それぞれの前記部分データに対して圧縮処理を並行して行う複数の圧縮処理部と、を有し、前記圧縮処理部は、ニューラルネットワークを含み、前記部分データの所定のデータ単位ごとの出現確率を算出する確率算出部と、前記データ単位のそれぞれに対して、前記データ単位と前記出現確率とに基づいて、エントロピー符号化したビット列である符号化ビット列を出力するエントロピー符号化部と、を有する。

【発明の効果】

【0008】

本発明によれば、圧縮処理の処理速度を向上することができる。

【図面の簡単な説明】

【0009】

【図1】図１は、第１実施形態に係る計算機システムの全体構成図である。

【図2】図２は、第１実施形態に係る論物変換テーブルの構成図である。

【図3】図３は、第１実施形態に係るブロックデータ格納情報の構成図である。

【図4】図４は、第１実施形態に係る履歴情報の構成図である。

【図5】図５は、第１実施形態に係る計算機システムにおけるバックアップ処理及びリストア処理の概要を説明する図である。

【図6】図６は、第１実施形態に係る圧縮器を説明する図である。

【図7】図７は、第１実施形態に係る伸張器を説明する図である。

【図8】図８は、第１実施形態に係る圧縮器による圧縮処理のフローチャートである。

【図9】図９は、第１実施形態に係る伸張器による伸張処理のフローチャートである。

【図10】図１０は、第１実施形態に係るバックアップ処理のフローチャートである。

【図11】図１１は、第１実施形態に係るリストア処理のフローチャートである。

【図12】図１２は、第１実施形態に係る予測モデル処理を説明する図である。

【図13】図１３は、第１実施形態に係る予測モデル処理および統合モデル処理のデータフローを説明する図である。

【図14】図１４は、第１実施形態に係る予測モデル処理のアルゴリズムを説明する図である。

【図15】図１５は、第１実施形態に係る履歴情報を用いた予測モデル処理を説明する図である。

【図16】図１６は、第１実施形態に係る履歴情報を用いたメモリモデル処理を説明する図である。

【図17】図１７は、第１実施形態に係る指数移動平均を用いたメモリモデル処理を説明する図である。

【図18】図１８は、変形例に係る計算機システムを説明する図である。

【図19】図１９は、第２実施形態に係る計算機システムの圧縮器を説明する図である。

【図20】図２０は、第２実施形態に係る計算機システムの伸張器を説明する図である。

【発明を実施するための形態】

【0010】

実施形態について、図面を参照して説明する。なお、以下に説明する実施形態は特許請求の範囲に係る発明を限定するものではなく、また実施形態の中で説明されている諸要素及びその組み合わせの全てが発明の解決手段に必須であるとは限らない。

【0011】

以下の説明では、「ＡＡＡテーブル」の表現にて情報を説明することがあるが、情報は、どのようなデータ構造で表現されていてもよい。すなわち、情報がデータ構造に依存しないことを示すために、「ＡＡＡテーブル」を「ＡＡＡ情報」と呼ぶことができる。

【0012】

図１は、第１実施形態に係る計算機システムの全体構成図である。

【0013】

計算機システム１は、入力装置４０と、ユーザ端末８０と、計算機１０１Ａと、計算機１０１Ｂとを有する。計算機１０１Ａ，１０１Ｂとは、それぞれデータ圧縮システムの一例である。なお、計算機システム１をデータ圧縮システムの一例ということもできる。計算機１０１Ａと計算機１０１Ｂとは、ネットワーク１５０を介して接続されている。ネットワーク１５０は、例えば、有線ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、無線ＬＡＮ、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、専用線などの通信路である。計算機１０１Ａは入力装置４０と接続されている。計算機１０１Ｂはユーザ端末８０と接続されている。なお、計算機１０１Ａと、計算機１０１Ｂは、クラウド環境における仮想的な計算リソース（例えば、仮想マシンやコンテナなど）であってもよい。

【0014】

入力装置４０は、例えば、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）等のコンピュータにより構成され、ユーザからの入力を受け付けたり、データを使用しての各種処理を実行したりする。入力装置４０は、処理に利用するデータを計算機１０１Ａに格納したり、計算機１０１Ａから取得したりする。なお、入力装置４０は、クラウド環境における仮想的な計算リソース（例えば、仮想マシンやコンテナなど）であってもよい。

【0015】

ユーザ端末８０は、例えば、例えば、ＰＣ等のコンピュータにより構成され、ユーザからの指示を受け付けて計算機１０１Ｂの設定等を行う。なお、ユーザ端末８０は、クラウド環境における仮想的な計算リソース（例えば、仮想マシンやコンテナなど）であってもよい。

【0016】

計算機１０１Ａは、入力装置４０で使用されるデータを格納して管理する。計算機１０１Ａは、データを計算機１０１Ｂにバックアップする処理や、計算機１０１Ｂからデータをリストアする処理を行う。計算機１０１Ａは、例えば、ＰＣやサーバ装置等のコンピュータで構成され、プロセッサ５３Ａと、メモリ５２Ａと、ＩＦ（インターフェース）５Ａ１，５Ａ２と、並列処理デバイス６１Ａと、永続記憶装置５４Ａと、これら構成を接続するバス１０Ａとを備える。

【0017】

ＩＦ５Ａ１、５Ａ２は、例えば、有線ＬＡＮカードや無線ＬＡＮカードなどのインターフェースであり、ネットワーク１５０や通信線を介して他の装置と通信する。

【0018】

プロセッサ５３Ａは、メモリ５２Ａに格納されているプログラムに従って各種処理を実行する。プロセッサ５３Ａは、プログラムを実行することにより、圧縮器７２Ａと伸張器７３Ａを構成する。また、プロセッサ５３Ａは、プログラムを実行することにより、第１ブロック対応保障コード作成部及び第２ブロック対応保障コード作成部を構成する。圧縮器７２Ａは、例えば、データに対する圧縮処理を行う。圧縮器７２Ａによる圧縮処理のアルゴリズムとしては、ｇｚｉｐやＬＺＭＡ（Ｌｅｍｐｅｌ－Ｚｉｖ－Ｍａｒｋｏｖｃｈａｉｎ－Ａｌｇｏｒｉｔｈｍ）等であってもよい。伸張器７３Ａは、圧縮されたデータを伸張する。伸張器７３Ａによる伸張処理のアルゴリズムは、圧縮器７２Ａの圧縮処理に対応するアルゴリズムであってもよい。

【0019】

メモリ５２Ａは、例えば、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）であり、プロセッサ５３Ａで実行されるプログラムや、必要な情報を記憶する。本実施形態では、メモリ５２Ａは、例えば、論物変換テーブル１１０（図２参照）を格納する。

【0020】

永続記憶装置５４Ａは、例えば、ハードディスクやフラッシュメモリなどであり、プロセッサ５３Ａで実行するためにメモリ５２Ａに読み出されるプログラムや、プロセッサ５３Ａに利用される各種データを記憶する。本実施形態では、永続記憶装置５４Ａは、プログラムとしてデータ圧縮プログラムを記憶し、データとしてブロックデータ格納情報１２０（図３参照）や論物変換テーブル１１０（図２参照）を格納する。なお、永続記憶装置５４Ａに代えて又は加えて、ネットワークを介して接続されたクラウド上のストレージを利用するようにしてもよい。なお、永続記憶装置５４Ａやクラウド上のストレージは、ブロックストレージ、ファイルストレージ、オブジェクトストレージ、データベースなどで構成してもよい。

【0021】

並列処理デバイス６１Ａは、例えば、ＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）、ＡＳＩＣ（Ａｐｐｌｉｃａｔｉｏｎｓｐｅｃｉｆｉｃｉｎｔｅｇｒａｔｅｄｃｉｒｃｕｉｔ）、ＦＰＧＡ（ＦｉｅｌｄＰｒｏｇｒａｍｍａｂｌｅＧａｔｅＡｒｒａｙ）、マルチコアＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）等の並列して処理を実行可能なデバイスであり、複数のコア６２Ａと、メモリ６３Ａとを有する。コア６２Ａは、メモリ６３Ａに格納されたプログラムに従って処理を実行する。メモリ６３Ａは、記憶部の一例であり、コア６２Ａが実行するプログラムや、コア６２Ａで使用するデータを格納する。メモリ６３Ａは、例えば、履歴情報１３０（図４参照）を格納する。複数のコア６２Ａは、メモリ６３Ａを利用して並列して各種処理を実行することができる。本実施形態では、並列処理デバイス６１Ａは、プログラムを実行することにより、圧縮器７０Ａと、伸張器７１Ａとを構成する。本実施形態では、圧縮器７０Ａによる圧縮は、圧縮器７２Ａによる圧縮よりも高圧縮が可能となっている。

【0022】

計算機１０１Ｂは、計算機１０１Ａで管理されているデータを格納して管理する。計算機１０１Ｂは、例えば、ＰＣやサーバ装置等のコンピュータで構成され、プロセッサ５３Ｂと、メモリ５２Ｂと、ＩＦ５Ｂ１，５Ｂ２と、並列処理デバイス６１Ｂと、永続記憶装置５４Ｂと、これら構成を接続するバス１０Ｂとを備える。プロセッサ５３Ｂは、圧縮器７２Ｂと、伸張部の一例としての伸張器７３Ｂとを構成する。並列処理デバイス６１Ｂは、複数のコア６２Ｂと、メモリ６３Ｂとを有し、圧縮器７０Ｂと、伸張器７１Ｂとを構成する。計算機１０１Ｂの各構成は、符号の前半の数字が同じ計算機１０１Ａにおける各構成と同様な構成となっている。なお、計算機１０１Ａと、計算機１０１Ｂとの構成は上記に限られず、実行する処理に応じて一部の構成を備えなくてもよい。

【0023】

次に、論物変換テーブル１１０について説明する。

【0024】

図２は、第１実施形態に係る論物変換テーブルの構成図である。

【0025】

論物変換テーブル１１０は、データの格納先である論理アドレスに対応する物理アドレスを管理するテーブルであり、所定のサイズの領域（例えば、ブロック）毎のエントリを格納する。論物変換テーブル１１０のエントリは、論理アドレス１１０ａと、物理アドレス１１０ｂと、ブロックサイズ１１０ｃとのフィールドを含む。論理アドレス１１０ａには、エントリに対応する領域を示す論理アドレスが格納される。物理アドレス１１０ｂには、エントリに対応する領域に対応する物理アドレスが格納される。ブロックサイズ１１０ｃには、エントリに対応する領域のブロックのサイズが格納される。

【0026】

次に、ブロックデータ格納情報１２０について説明する。

【0027】

図３は、第１実施形態に係るブロックデータ格納情報の構成図である。

【0028】

ブロックデータ格納情報１２０は、ブロックデータを管理する情報であり、ブロックデータごとのエントリを含む。ブロックデータ格納情報１２０のエントリは、圧縮後データ１２０ａと、保障コード１２０ｂと、圧縮後サイズ１２０ｃとのフィールドを含む。圧縮後データ１２０ａには、ブロックデータが圧縮された後の圧縮後データが格納される。保障コード１２０ｂには、ブロックデータに対する保障コードが格納される。圧縮後サイズ１２０ｃには、圧縮後データのデータサイズが格納される。圧縮対象データは、複数の部分データに分割して圧縮するため、部分データごとに圧縮後サイズを持つことで、部分的な再圧縮や伸張対象のデータ位置に含まれない部分データを複合化することなく、部分的な再圧縮や伸張を可能とできる。モデル情報１２０ｄには、全体学習したモデル（予測モデルや統合モデルの初期状態となるモデル）が格納される。または対応する他のモデル（すでに学習した他のブロックデータに対応するモデル）の参照情報を格納して、ブロックデータ格納情報のデータ量削減してもよい。

【0029】

次に、履歴情報１３０について説明する。

【0030】

図４は、第１実施形態に係る履歴情報の構成図である。

【0031】

履歴情報１３０は、データ単位について出現確率を算出する際に使用したデータ（算出時使用データ）に対応する確率分布を管理する情報であり、算出時使用データごとのエントリを含む。履歴情報１３０のエントリは、コード１３０ａと、確率分布情報１３０ｂとのフィールドを含む。コード１３０ａには、エントリに対応する算出時使用データについての所定のコード（識別情報）が格納される。コードとしては、算出時使用データに対するハッシュ値や、ＬＳＨ（ＬｏｃａｌｉｔｙＳｅｎｓｉｔｉｖｅＨａｓｈｉｎｇ）であってもよい。また、後述の図１５、図１６に示す学習型のＬＳＨを用いてもよい。確率分布情報１３０ｂには、エントリに対応する算出時使用データにより算出された確率分布に関する情報が格納される。確率分布に関する情報としては、対象となるデータ単位の出現頻度や、ＤＮＮ（ＤｅｅｐＮｅｕｒａｌＮｅｔｗｏｒｋ）による学習型符号であってもよい。履歴情報１３０は、例えば、コア６２Ｂがプログラムを実行することにより、格納される。このコア６２Ｂによる機能は、履歴管理部に相当する。履歴情報１３０の生成と利用方法の一例について、後述の図１５で説明する。

【0032】

次に、計算機システム１におけるバックアップ処理とリストア処理との概要について説明する。

【0033】

図５は、第１実施形態に係る計算機システムにおけるバックアップ処理及びリストア処理の概要を説明する図である。

【0034】

まず、バックアップ処理について説明する。バックアップ処理においては、バックアップ対象データが、計算機１０１Ａの圧縮器７２Ａにより圧縮され、所定のブロックサイズ（第１サイズ）を単位として保障コードが作成されて対応付けられて、メモリ５２Ａ又は永続記憶装置５４Ａに格納されているものとして説明する。

【0035】

計算機１０１Ａは、論物変換テーブル１１０Ａを参照し、バックアップ対象データのメモリ５２Ａ又は永続記憶装置５４Ａにおける格納位置を特定し、バックアップ対象データ及び保障コードを取得し、バックアップ先となる計算機１０１Ｂに送信する。

【0036】

計算機１０１Ｂは、受信したバックアップ対象データ及び保障コードを、メモリ５２Ｂ又は永続記憶装置５４Ｂに格納し、伸張器７３Ｂによりバックアップ対象データに対して伸張処理を行う。この伸張処理においては、保障コードにより、バックアップ対象データについての誤り検出や訂正等を行う。次いで、圧縮器７０Ｂは、伸張されたバックアップ対象データを圧縮し、所定のブロックサイズ（第２サイズ）のブロックを単位として保障コードを作成して、メモリ５２Ｂ又は永続記憶装置５４Ｂに格納し、格納先を論物変換テーブル１１０Ｂに登録する。但し、部分更新（ブロック全体を伸長することなく更新する部分のみ圧縮する）のために、例えばＸＯＲパリティのような部分更新が可能な保障コードをブロックの単位で用いる方法を取っても良い。または、部分更新に対応するために、部分データごとに保障コードを作成してもよい。

【0037】

このバックアップ処理によると、圧縮器７０Ｂによりバックアップ対象データを高圧縮した状態で保存しておくことができる。また、第１サイズより第２サイズを大きなサイズとし、第２サイズをデータの単位として保障コードを作成するようにした場合、全体としてのデータ量を低減することができる。なお、計算機１０１Ｂの伸張器７３Ｂによる伸張処理を計算機１０１Ａの伸張器７３Ａで実行し、伸張したデータを計算機１０１Ｂに送信するようにしてもよい。

【0038】

次に、リストア処理について説明する。リストア処理においては、計算機１０１Ｂが計算機１０１Ａからバックアップ処理によりバックアップされているデータをリストア対象データとして指示された場合について説明する。まず、計算機１０１Ｂの伸張器７１Ｂは、論物変換テーブル１１０Ｂを参照し、バックアップ対象データのメモリ５２Ｂ又は永続記憶装置５４Ｂにおける格納位置を特定し、リストア対象データ及び保障コードを取得し、伸張処理を行う。この伸張処理においては、保障コードにより、リストア対象データについての誤り検出や訂正等を行う。

【0039】

次いで、圧縮器７２Ｂは、伸張されたリストア対象データを、計算機１０１Ａの伸張器７３Ａで伸張可能なアルゴリズムにより圧縮し、第１サイズを単位として保障コードを作成して、メモリ５２Ｂ又は永続記憶装置５４Ｂに格納し、リストア先となる計算機１０１Ａに圧縮されたリストア対象データと保障コードとを送信する。

【0040】

計算機１０１Ａは、受信したリストア対象データ及び保障コードを、メモリ５２Ａ又は永続記憶装置５４Ａに格納し、格納先を論物変換テーブル１１０Ａに登録する。次いで、伸張器７３Ａは、リストア対象データに対して伸張処理を行う。この伸張処理においては、保障コードにより、リストア対象データについての誤り検出や訂正等を行う。これにより、計算機１０１Ａでは、リストア対象データを利用できるようになる。

【0041】

次に、圧縮器７０（７０Ａ，７０Ｂ）についての構成及び処理について説明する。

【0042】

図６は、第１実施形態に係る圧縮器を説明する図である。

【0043】

圧縮器７０は、データ分割部７０１と、複数の圧縮処理部７０２（７０２Ａ，７０２Ｂ等）と、を有する。それぞれの圧縮処理部７０２は、並列処理デバイス６１（６１Ａ，６１Ｂ）のそれぞれのコア６２（６２Ａ，６２Ｂ）がメモリ６３（６３Ａ，６３Ｂ）のプログラムを実行することにより構成される。ここで、学習部及びモデル選択部は、圧縮処理部７０２がプログラムを実行することにより構成される。

【0044】

データ分割部７０１は、圧縮対象データを複数の部分データ（例：１ＫＢ）に分割する。本実施形態では、データ分割部７０１は、並列して実行するバッチ数Ｂだけの部分データに分割する。なお、圧縮器７０においては、バッチ数Ｂと同数の圧縮処理部７０２が処理に利用され、各圧縮処理部７０２は、それぞれ部分データを対象に圧縮処理を行う。また、圧縮対象データは、複数のブロックデータを纏めて同時に処理することで分割する部分データの数をさらに増やし、例えば並列処理デバイス６１Ｂ上で処理の並列度を高めて高速化することができる。

【0045】

圧縮処理部７０２は、変換部の一例としての事前符号化部７０３と、確率算出部７０４と、エントロピー符号化部７０５とを含む。

【0046】

事前符号化部７０３は、圧縮対象の部分データがバイナリデータである場合、部分データに含まれる所定のサイズ（ｕビット）のデータ単位ごとにワンホットエンコーディングを行う。事前符号化部７０３によると、１データ単位は、２^ｕのビットに変換される。事前符号化部７０３により符号化後のデータが確率算出部７０４に入力されるチャネル数（Ｃ）となる。なお、ワンホットエンコーディングを行った場合には、１データ単位についての符号化後のデータの所定の１ビットについては、残りのビットの値に応じて値を特定することができるという性質をもっているので、符号化後のデータの所定の１ビットを削除し、チャネル数Ｃ＝２^ｕ－１としてもよい。このようにチャネル数を減らすことにより、確率算出部７０４に入力されるデータ量を低減することができる。なお、複数の確率算出部７０４の入力に利用されるデータは、部分データのバッチ数（Ｂ）×チャネル数（Ｃ）×長さ（Ｎ）の配列となる。なお、入力に利用するデータのチャネルの次元に、さらに補助的な情報を付加してもよい。例えば、部分データに対応するビット単位の論理アドレス１１０ａをビットエンコードして付加（前記２^ｕのビットに加えて、論理アドレスの最大値に相当するビット数のビットを付加）することで、対象データに対する予測モデルの精度を向上させ、圧縮率の向上させることができる。また、事前符号化部７０３は、圧縮対象の部分データが数値データである場合やバイナリデータであるが数値として表現できる場合（センサデータや画像データなど）、数値のデータとして確率算出部７０４に入力してもよい。一般に、ストレージ上のデータなどでは、数値のデータファイルとテキストやバイナリデータファイルなどが混在することが想定されるため、より効率的な圧縮のために、数値のデータ用の予測モデル７０４ａとテキストやバイナリデータ用の予測モデル７０４ａなど、複数個のモデルを用意してもよい。

【0047】

さらに事前符号化部７０３は、圧縮対象の部分データのハッシュ値を計算し、そのハッシュ値を比較することで、過去に処理した部分データとの重複を検出し、重複したデータについては、過去に処理した部分データへの参照情報のみを論物テーブル１１０やブロックデータ格納情報１２０に保存することで、同じデータの再圧縮と保存をしなくてすみ、圧縮率を高めることができる。その場合は、以降の圧縮処理を省略し、処理を高速化してもよい。

【0048】

確率算出部７０４は、複数の種類の予測モデル７０４ａと、統合モデル７０４ｂとを有する。

【0049】

予測モデル７０４ａは、出現確率の予測対象となるデータ単位（予測対象データ単位）の予測に利用するデータ（予測用データ）と、履歴情報１３０の確率分布情報とを入力することにより、予測対象データ単位の予測情報Ｑｂ，ｉを出力する。ここで、予測用データは、例えば、予測対象データ単位をＤｂ，ｉ（ｉは、部分データにおける予測データ単位の位置）とすると、データ単位Ｄｂ，ｉ－ｒ～Ｄｂ，ｉ―１のデータ単位、すなわち、予測対象データ単位の直前のｒ個のデータ単位としてもよい。なお、Ｄｂ，ｉの直前にｒ個のデータ単位が存在しない場合には、存在しないデータ単位については所定の値であるとして処理を行うこととしている。予測モデル７０４ａは、ニューラルネットワークなどの複数の学習可能な重みで構成されたモデルでもよく、予め定義された特定の処理を実行するように構成されたモデルであってもよい。また、予測モデル７０４ａは、予測情報Ｑｂ，ｉとして出現確率を出力してもよいし、予測対象データ単位に対応する位置の特徴量マップなどを出力してもよい。また、予測情報Ｑｂ，ｉとして出現確率を出力する場合は、シンボル毎の出現確率として離散的な確率（カテゴリカル分布など）を出力してもよいし、ガウス分布などの連続的な確率密度関数のパラメータ（平均、分散など）を出力してもよいし、連続的な確率密度関数の累積分布関数からシンボル毎の出現確率に対応する離散的な確率を算出した結果を出力してもよい。予測モデル７０４ａの構成の一例については、後述の図１２～１４で説明する。

【0050】

統合モデル７０４ｂは、複数種類の予測モデル７０４ａから出力された予測情報と、履歴情報１３０の確率分布情報とを入力することにより、予測対象データ単位の出現確率Ｐｂ，ｉを出力（算出）する。出現確率Ｐｂ，ｉは、データ単位のシンボル毎の出現確率の分布であり、離散的な確率（カテゴリカル分布など）を出力してもよいし、ガウス分布などの連続的な確率密度関数のパラメータ（平均、分散など）を出現確率として出力し、エントロピー符号化時に累積分布関数からシンボル毎の出現確率に対応する離散的な確率を算出した結果を利用してもよい。つまり、ワンホットエンコーディングを行った場合には、確率算出部７０４に入力されるチャネル数（Ｃ＝２^ｕまたは２^ｕ－１）と同じ要素数を持つ。統合モデル７０４ｂは、ニューラルネットワークなどのモデルであり、例えば、各予測モデル７０４ａから入力される値に対して学習されている重みを用いて統合するＧａｔｅｄＬｉｎｅａｒＮｅｔｗｏｒｋｓであってもよいし、パーセプトロンで構成してもよい。また、予測モデルの出力結果を基にしたアテンション処理（統合モデル７０４ｂ内で処理するデータに対して、予測モデルの出力結果から算出した重要度にあたる値の乗算処理を行う）を含めてもよい。本実施形態では、確率算出部７０４は、統合モデル７０４ｂにおける各予測モデル７０４ａに対する重みに基づいて、複数種類の予測モデル７０４ａの中から処理に利用する予測モデルを選択する。なお、履歴情報１３０は、それぞれの圧縮処理部７０２に対して設けられてもよく、複数の圧縮処理部７０２で共有してもよい。特にそれぞれのデータ単位についてローカリティがある場合、履歴情報１３０を共有することにより、確率分布の統計的なサンプル数を増やすことができるため、予測精度が向上し圧縮率を高めることができ、さらに例えばメモリ６３Ｂの使用量を節約することができる。統合モデル７０４ｂの構成の一例については、後述の図１３で説明する。

【0051】

エントロピー符号化部７０５は、確率算出部７０４から出力された出現確率Ｐｂ，ｉと、データ単位Ｄｂ，ｉと、を入力として、データ単位Ｄｂ，ｉをエントロピー符号化したビット列（符号化ビット列）を出力する。

【0052】

それぞれの圧縮処理部７０２は、部分データにおけるデータ単位を単位として、例えば先頭のデータ単位から順次圧縮対象を変えて処理を繰り返し実行することにより、部分データの全体をエントロピー符号化する。それぞれの圧縮処理部７０２による処理は、例えばバッチ数（Ｂ）の次元において並列して実行されることとなるので、圧縮処理の効率を向上することができる。また、複数の予測モデルの結果を統合して出現確率を算出するようにしているので、精度の高い出現確率を算出でき、圧縮効率を向上することができる。

【0053】

圧縮器７０は、複数の圧縮処理部７０２により得られたそれぞれの部分データに対するビットストリーム（第２ブロック対応ビット列群）を、それぞれの部分データに対応するデータ範囲を識別可能な状態としてまとめて圧縮対象データの圧縮後データとする。ここで、格納処理部は、圧縮器７０により構成される。

【0054】

次に、伸張器７１（７１Ａ，７１Ｂ）についての構成及び処理について説明する。

【0055】

図７は、第１実施形態に係る伸張器を説明する図である。

【0056】

伸張器７１は、圧縮器７０により圧縮された圧縮後データを伸張する。伸張器７１は、データ合成部７１１と、複数の伸張処理部７１２（７１２Ａ，７１２Ｂ等）と、を有する。
。それぞれの伸張処理部７１２は、並列処理デバイス６１（６１Ａ，６１Ｂ）のそれぞれのコア６２（６２Ａ，６２Ｂ）がメモリ６３（６３Ａ，６３Ｂ）のプログラムを実行することにより構成される。ここで、第１ブロック対応保障コード作成部は、伸張器７１がプログラムを実行することにより構成される。

【0057】

データ合成部７１１は、各伸張処理部７１２で伸張されたデータ単位により構成される部分データを合成して圧縮前のデータを生成する。本実施形態では、データ合成部７１１は、圧縮後データの圧縮時におけるバッチ数Ｂの部分データを合成する。なお、伸張器７１においては、バッチ数Ｂと同数の伸張処理部７１２が処理に利用され、各伸張処理部７１２は、それぞれ部分データについての伸張処理を行う。

【0058】

伸張処理部７１２は、事前符号化部７１３と、第２確率算出部の一例としての確率算出部７１４と、エントロピー復号部７１５とを含む。

【0059】

事前符号化部７１３は、事前符号化部７０３と同様の処理を行う。また、確率算出部７１４は、確率算出部７０４と同様の処理を行う。

【0060】

エントロピー復号部７１５は、確率算出部７１４から出力された出現確率Ｐｂ，ｉと、圧縮後データの復号対象のデータ単位Ｄｂ，ｉに対応するビット列と、を入力すると、ビット列を復号して、データ単位Ｄｂ，ｉを出力する。

【0061】

それぞれの伸張処理部７１２は、部分データにおけるデータ単位ごとに、例えば先頭のデータ単位から順次伸張対象を変えて処理を繰り返し実行することにより、エントロピー符号化された部分データのビット列全体をエントロピー復号する。それぞれの伸張処理部７１２による処理は、例えばバッチ数（Ｂ）の次元において並列して実行されることとなるので、伸張処理の効率を向上することができる。

【0062】

次に、圧縮器７０による圧縮処理の処理動作について説明する。

【0063】

図８は、第１実施形態に係る圧縮器による圧縮処理のフローチャートである。なお、図８に示す圧縮処理は、圧縮器７０の各圧縮処理部７０２により実行される処理であり、例えば、並列処理デバイス６１Ｂのコア６２Ｂで動作するスレッドにより実現できる。

【0064】

圧縮器７０の圧縮処理部７０２は、全体学習が必要かどうか判定を行う（Ｓ１１）。全体学習が必要かどうかは、例えば、圧縮対象データが、新たなモデルを全体学習することにより高圧縮される効果と、新たに学習したモデルを保存するための記憶容量のオーバヘッドを合わせて、トータルでの圧縮効果を元に判定する。

【0065】

この結果、予測モデル７０４ａや統合モデル７０４ｂの全体学習が必要であると判定した場合（Ｓ１１：Ｙ）には、圧縮処理部７０２は、全体学習処理を行い（Ｓ１２）、以降の処理で用いられる予測モデル処理と統合モデル処理において、このモデルを使用する。全体学習処理は、論理アドレス空間上で近い距離にあるデータはデータのシンボルの出現確率の特性が近いという仮説を元に、論理アドレス空間上で近い距離にあるデータを学習に用いて学習し、学習したモデルを保存する処理である。この学習データは、本処理フローの起動時に指定される圧縮対象データの部分データであってもよいし、その他のデータを用いてもよい。例えば、学習データを、ストレージの格納データから所定のルールに基づきランダムサンプルしてもよい。また、学習したモデルはブロックデータ格納情報１２０のモデル情報１２０ｄとして、圧縮したデータと対応付けて保存する。または対応する他のモデル（すでに学習した他のブロックデータに対応するモデル）の参照情報を格納して（つまり、既に学習したモデルを再利用する）、全体学習の処理時間やブロックデータ格納情報のデータ量削減してもよい。学習においては、転移学習やメタ学習などの技法を用いて高速化してもよい。

【0066】

一方、全体学習が必要でないと判定した場合（Ｓ１１：Ｎ）には、圧縮処理部７０２は、処理をステップＳ１３に進める。この場合は、以降の処理で用いられる予測モデル処理と統合モデル処理において、そのパラメータの初期値を数学的な式により生成できる値（例えばガウス分布に基づく疑似乱数など）を用いて初期化する。

【0067】

次いで、圧縮処理部７０２は、自身が担当する部分データの圧縮対象のデータ単位（圧縮対象データ単位：最初は、先頭のデータ単位であり、それ以降は、次のデータ単位である）の出現確率の算出に使用するデータに対して必要に応じてワンホットエンコーディングを行い、複数の予測モデル７０４ａに入力して、複数の予測モデルにより複数の出現確率を算出する予測モデル処理を行う（Ｓ１３）。

【0068】

次いで、圧縮処理部７０２は、予測モデル処理で算出された複数の予測情報を統合モデル７０４ｂに入力して、圧縮対象データ単位の出現確率を算出する統合モデル処理を行う（Ｓ１４）。

【0069】

次いで、圧縮処理部７０２は、予測モデル７０４ａおよび統合モデル７０４ｂの学習が必要であるか否かを判定する（Ｓ１５）。例えば、ステップＳ１５の判定を所定の回数行った場合に、学習が必要であると判定してもよい。

【0070】

この結果、統合モデル７０４ｂの学習が必要であると判定した場合（Ｓ１５：Ｙ）には、圧縮処理部７０２は、予測モデル７０４ａおよび統合モデル７０４ｂの学習処理を行い（Ｓ１６）、その後、処理をステップＳ１５に進める。学習に使用するデータとしては、伸張時を想定したときに、この時点で復号済みとなるデータであり、予め用意されたデータ及び又は履歴のデータを用いてもよい。この学習処理によると、複数の予測モデル７０４ａおよび統合モデル７０４ｂで保持する重みが修正されることとなる。

【0071】

一方、この結果、統合モデル７０４ｂの学習が必要でないと判定した場合（Ｓ１５：Ｎ）には、圧縮処理部７０２は、処理をステップＳ１７に進める。

【0072】

ステップＳ１７では、圧縮処理部７０２は、複数の予測モデルの中の実際に利用する予測モデルをアップデートする必要があるか否かを判定する。例えば、統合モデル７０４ｂの学習により、各予測モデルに対する重みが変更されたことにより、予測モデルに対する重みが所定の閾値以下となった場合に、利用する予測モデルをアップデートする必要があると判定してもよい。

【0073】

この結果、利用する予測モデルをアップデートする必要があると判定した場合（Ｓ１７：Ｙ）には、圧縮処理部７０２は、各予測モデルのうち、対応する重みが所定値以下の予測モデルについては使用しないと設定する利用予測モデルのアップデート処理（Ｓ１８）を実行し、処理をステップＳ１９に進める。

【0074】

一方、利用する予測モデルをアップデートする必要がないと判定した場合（Ｓ１７：Ｎ）には、圧縮処理部７０２は、処理をステップＳ１９に進める。

【0075】

ステップＳ１９では、圧縮処理部７０２は、ステップＳ１４で出力された出現確率と、圧縮対象データ単位とを用いてエントロピー符号化処理を行うことにより、圧縮対象データ単位をエントロピー符号化されたビット列に変換する。

【0076】

次いで、圧縮処理部７０２は、部分データの全てのデータ単位が符号化済みであるか否かを判定し（Ｓ２０）、全てのデータ単位が符号化済みでない場合（Ｓ２０：Ｎ）には、次のデータ単位の処理をするために処理をステップＳ１３に進める。

【0077】

一方、全てのデータ単位が符号化済みである場合（Ｓ２０：Ｙ）には、処理を終了する。なお、この後、圧縮器７０は、各圧縮処理部７０２で変換された部分データを符号化したビット列をまとめて、圧縮データとして、所定の格納場所に格納する。

【0078】

以上の説明では、データ単位ごとに、予測モデル処理、統合モデル処理、学習処理、エントロピー符号化処理を順番にイテレーション実行する例を示したが、それらは実行の単位とタイミングをそれぞれ変更することができる。例えば、予測モデル処理、統合モデル処理においては、圧縮時には元データがすべて存在することから、例えば図１２に示すように長さ（Ｎ）方向でまとめて処理を並列に実行することができる。また、エントロピー符号化処理（Ｓ１９）において、ＡＮＳ（ＡｓｙｍｍｅｔｒｉｃＮｕｍｅｒａｌＳｙｓｔｅｍｓ）などの方法を用いる場合、復号時において符号化時と逆順で処理を実行する必要があることから、圧縮時には、予測モデル処理、統合モデル処理において予測した結果の出現確率を、長さ（Ｎ）方向で保存しておき、長さ（Ｎ）方向での一連の計算が完了したら、その保存しておいた出現確率について、逆順でエントロピー符号化処理を纏めて実行するという処理となる。また、学習処理においては、長さ（Ｎ）方向で実行をする（長さ（Ｎ）方向のイテレーションの現時点より前のデータにより学習する）方法以外にも、例えば圧縮対象の複数のデータブロックをサンプリングして学習対象のデータとするように構成してもよい。この場合、学習対象のデータが一意に特定でき、かつ伸張前のデータに含まれないように、決定性のある疑似乱数等を用いてサンプリングを実施して圧縮時の学習用のデータおよびスケジュールを決定するように構成してもよい。さらに言うと、長さ（Ｎ）方向でのデータ単位の処理順序は、もともとの順序である必要はなく、可逆的なアルゴリズムによって変更された状態で処理してもよい。また、拡散モデルのようにノイズの状態から元のデータを復元するような方法を用い、イテレーションの単位を、拡散モデルの１ステップに相当するように構成してもよい。以上で説明した実行の単位とタイミングをそれぞれ変更する場合においては、いずれの場合においても、伸張時にはそれと同じ実行の単位とタイミングで実施することにより、予測した結果の出現確率を同一の結果とすることで、復号可能な形とする。

【0079】

次に、伸張器７１による伸張処理の処理動作について説明する。

【0080】

図９は、第１実施形態に係る伸張器による伸張処理のフローチャートである。なお、図９に示す伸張処理は、伸張器７１の各伸張処理部７１２により実行される処理であり、例えば、並列処理デバイス６１Ｂのコア６２Ｂで動作するスレッドにより実現できる。

【0081】

伸張器７１の伸張処理部７１２は、モデルロードが必要かどうか判定を行う（Ｓ２１）。モデルロードが必要かどうかは、例えば、ブロックデータ格納情報１２０のモデル情報１２０ｄとして、圧縮したデータと対応付けてモデル自体のパラメータや参照が保存されている場合は、モデルロードが必要と判定し、そうでない場合は不要と判定する。

【0082】

この結果、予測モデル７０４ａや統合モデル７０４ｂのモデルロードが必要であると判定した場合（Ｓ２１：Ｙ）には、並列処理デバイス６１Ｂのメモリ６３Ｂに、モデル情報１２０ｄとして、圧縮したデータと対応したモデル自体のパラメータや参照を元に、モデルを配置する。さらに、並列処理デバイス６１Ｂのメモリ６３Ｂをキャッシュのように用いてもよい。その場合は、Ｓ２１の判定で、キャッシュとして用いているメモリ６３Ｂに既にモデルがロードされている場合（キャッシュのように、高頻度で用いられるモデルをメモリ６３Ｂに配置しておいてもよい）は、モデルのロードを省略することができるため、モデルロード不要と判定することができ、モデルのロードにかかる時間を効率的に削減できる。

【0083】

一方、モデルロードが必要でないと判定した場合（Ｓ２１：Ｎ）には、伸張処理部７１２は、処理をステップＳ２３に進める。この場合は、以降の処理で用いられる予測モデル処理と統合モデル処理において、前述の圧縮処理部７０２の全体モデル学習をしない場合（Ｓ１１：Ｎの場合）で用いた方法と同じ方法で、そのパラメータの初期値を数学的な式により生成できる値（例えばガウス分布に基づく疑似乱数など）を用いて初期化する。

【0084】

次いで、伸張処理部７１２は、自身が担当する部分データの伸張対象のデータ単位（伸張対象データ単位：最初は、先頭のデータ単位であり、それ以降は、次のデータ単位である）の出現確率の算出に使用するデータに対してワンホットエンコーディングを行い、複数の予測モデル７１４ａに入力して、複数の予測モデルにより複数の予測情報を算出する予測モデル処理を行う（Ｓ２３）。

【0085】

次いで、伸張処理部７１２は、予測モデル処理で算出された複数の予測情報を統合モデル７１４ｂに入力して、伸張対象データ単位の出現確率を算出する統合モデル処理を行う（Ｓ２４）。

【0086】

次いで、伸張処理部７１２は、予測モデル７１４ａおよび統合モデル７１４ｂの学習が必要であるか否かを判定する（Ｓ２５）。例えば、ステップＳ２５の判定を所定の回数行った場合に、学習が必要であると判定してもよい。

【0087】

この結果、予測モデル７１４ａおよび統合モデル７１４ｂの学習が必要であると判定した場合（Ｓ２５：Ｙ）には、伸張処理部７１２は、予測モデル７１４ａおよび統合モデル７１４ｂの学習処理を行い（Ｓ２６）、その後、処理をステップＳ２７に進める。学習処理に使用するデータとしては、この時点で復号済みとなるデータであり、予め用意されたデータ及び又は履歴のデータを用いてもよい。この学習処理によると、予測モデル７１４ａおよび統合モデル７１４ｂで保持する重みが修正されることとなる。

【0088】

一方、この結果、予測モデル７１４ａおよび統合モデル７１４ｂの学習が必要でないと判定した場合（Ｓ２５：Ｎ）には、伸張処理部７１２は、処理をステップＳ２７に進める。

【0089】

ステップＳ２７では、伸張処理部７１２は、複数の予測モデルの中の実際に利用する予測モデルをアップデートする必要があるか否かを判定する。例えば、統合モデル７１４ｂの学習により、各予測モデルに対する重みが変更されたことにより、予測モデルに対する重みが所定の閾値以下となった場合に、利用する予測モデルをアップデートする必要があると判定してもよい。

【0090】

この結果、利用する予測モデルをアップデートする必要があると判定した場合（Ｓ２７：Ｙ）には、伸張処理部７１２は、各予測モデルのうち、対応する重みが所定値以下の予測モデルについては使用しないと設定する利用予測モデルのアップデート処理（Ｓ２８）を実行し、処理をステップＳ２９に進める。

【0091】

一方、利用する予測モデルをアップデートする必要がないと判定した場合（Ｓ２７：Ｎ）には、伸張処理部７１２は、処理をステップＳ２９に進める。

【0092】

ステップＳ２９では、伸張処理部７１２は、ステップＳ２４で出力された出現確率と、伸張対象データ単位に対応するエントロピー符号化されたビット列とを用いてエントロピー復号処理を行うことにより、エントロピー符号化されたビット列を符号化前のデータ単位に復号する。

【0093】

次いで、伸張処理部７１２は、部分データの全てのデータ単位が復号済みであるか否かを判定し（Ｓ３０）、全てのデータ単位が復号済みでない場合（Ｓ３０：Ｎ）には、次のデータ単位の処理をするために処理をステップＳ２３に進める。

【0094】

一方、全てのデータ単位が復号済みである場合（Ｓ３０：Ｙ）には、伸張処理部７１２は、処理を終了する。なお、この後、伸張器７１は、各伸張処理部７１２で変換された部分データをまとめて、伸張後のデータとして、所定の格納場所に格納する。

【0095】

以上のようにして、伸張処理部７１２の複数のデータ単位に対する伸張に必要な各処理を一貫して例えば並列処理デバイス６１Ｂのコア６２Ｂで動作するスレッド上でループ実行することにより、プロセッサ５３Ｂと並列処理デバイス６１Ｂのコア６２Ｂとの命令送信などに必要な通信やスレッド起動に要する処理時間を削減でき、高速処理が可能となる。なお、ステップＳ２３～Ｓ３０におけるデータ単位の出現確率の算出や学習処理、利用モデルのアップデート処理、その他判定処理などは、圧縮処理におけるデータ単位の出現確率の算出と同じ動きとなっているので、同じデータ単位に対して、同じ出現確率を算出することができ、適切に復号することができる。

【0096】

さらに、図８と図９でそれぞれ説明した圧縮処理と伸張処理は、Ｓ１６、Ｓ１８、Ｓ２４、Ｓ２６の学習や利用予測モデルのアップデート処理を動作させない場合、または各部分データにおいて独立に状態管理されて動作する場合には、ブロックデータ格納情報１２０の圧縮後サイズ１２０ｃに基づき、圧縮や伸張対象のデータの部分データごとに、データ更新のための再圧縮や伸張処理が可能である。これにより、大きなブロック（例：数ＭＢ～数ＧＢ）としてすでに高圧縮した場合において、ブロック内のすべてのデータを伸張することなく部分的に、部分データの単位で更新・伸張が可能であるため、必要な計算リソースの量を削減できる。

【0097】

次に、計算機１０１Ｂにおけるバックアップ処理の処理動作について説明する。

【0098】

図１０は、第１実施形態に係るバックアップ処理のフローチャートである。

【0099】

このバックアップ処理は、計算機１０１Ｂのプロセッサ５３Ｂが、計算機１０１Ａから、圧縮器７２Ａにより圧縮されたバックアップ対象のデータブロック群（第１圧縮データ）及び保障コード群を付加した圧縮命令を受信した場合に実行される。プロセッサ５３Ｂは、伸張器７３Ｂにより、バックアップ対象の１つのデータブロック（第１ブロック単位）に対して、伸張処理を実行させる（Ｓ１０１）。なお、圧縮器７２Ａによる圧縮は、圧縮器７０Ｂによる圧縮よりも低圧縮である。

【0100】

次いで、プロセッサ５３Ｂは、付加されていた保障コードにより、伸張したデータ（伸張データ）をチェックし、誤り検出や訂正等する処理を行う（Ｓ１０２）。

【0101】

次いで、プロセッサ５３Ｂは、次の圧縮処理で圧縮する所定のサイズ（第２サイズ）分のブロック数（対象ブロック数）のブロックについて伸張処理をしたか否かを判定する（Ｓ１０３）。

【0102】

この結果、対象ブロック数のブロックに対して伸張処理を実行していない場合（Ｓ１０３：Ｎ）には、プロセッサ５３Ｂは、処理をステップＳ１０１に進めて、次のデータブロックに対する処理を実行する。

【0103】

一方、対象ブロック数のブロックに対して伸張処理を実行している場合（Ｓ１０３：Ｙ）には、プロセッサ５３Ｂは、対象ブロック数分のブロック（第２ブロック単位）のデータに対して、圧縮器７０Ｂにより圧縮処理を実行させる（Ｓ１０４）。圧縮器７０Ｂによる圧縮処理は、図８に示す圧縮処理であり、圧縮器７０Ｂによる圧縮は、圧縮器７２による圧縮よりも高圧縮である。なお、対象ブロック数のデータを複数のデータ単位に分割し、例えば、並列処理デバイス６１Ｂのコア６２Ｂで纏めて並列に圧縮処理することにより、圧縮処理のスループットを向上することができる。また、圧縮するデータのサイズ（第２サイズ）を圧縮器７２によるデータを圧縮するサイズ（第１サイズ）よりも大きくしているので圧縮効率が良い。

【0104】

次いで、プロセッサ５３Ｂは、対象ブロック数分のブロック（第２ブロック単位）のデータに対して、保障コードを生成し（Ｓ１０５）、圧縮後データ１２０ａ、保障コード１２０ｂ、圧縮後サイズ１２０ｃ、モデル情報１２０ｄをブロックデータ格納情報１２０として、永続記憶装置５４Ｂに格納し、格納した内容に従って論物変換テーブル１１０を更新する（Ｓ１０６）。ここで、保障コードを第２サイズのデータに対して生成するようにしているので、保障コードの格納に必要となる記憶領域を低減することができる。また、第１ブロック単位のデータブロックを複数あつめて第２ブロック単位とする際に、第１ブロック単位でもともと物理アドレスが割り当たっていなかった領域に対しては、ゼロ埋めデータを用意してもよいし、第１ブロック単位の論物変換テーブル１１０相当の復元に必要なデータをブロックデータ格納情報と一緒に保存してもよい。論物変換テーブル１１０を永続記憶装置５４に保存する必要がある場合に、論物変換テーブル１１０自体も圧縮処理（Ｓ１０４）の対象として同様の方法で圧縮することで、永続記憶装置５４の使用容量を節約して効率化してもよい。さらに、保障コード１２０ｂ、モデル情報１２０ｄ自体についても、も圧縮処理（Ｓ１０４）の対象として同様の方法で圧縮してもよい。圧縮後サイズ１２０ｃについては、圧縮処理（Ｓ１０４）の結果として得られるので、圧縮処理（Ｓ１０４）と同様の処理を再度実施したり、他の一般的な圧縮方法により圧縮したりして、圧縮効率を高めてもよい。

【0105】

次いで、プロセッサ５３Ｂは、圧縮対象の全てのデータブロックについて処理済みか否かを判定する（Ｓ１０７）。この結果、圧縮対象の全てのデータブロックについて処理済みでない場合（Ｓ１０７：Ｎ）には、プロセッサ５３Ｂは、処理をステップＳ１０１に進め、残りのデータブロックに対する処理を実行する。

【0106】

一方、圧縮対象の全てのデータブロックについて処理済みである場合（Ｓ１０７：Ｙ）には、プロセッサ５３Ｂは、バックアップが終了したことを、要求元の計算機１０１Ａに通知し、処理を終了する。

【0107】

次に、計算機１０１Ｂにおけるリストア処理の処理動作について説明する。

【0108】

図１１は、第１実施形態に係るリストア処理のフローチャートである。

【0109】

このリストア処理は、計算機１０１Ｂのプロセッサ５３Ｂが計算機１０１Ａからリストア対象のデータブロック群を示す情報が付加されたリストア命令を受信した場合に実行される。なお、このデータブロック群のデータブロックは、第１サイズのデータを圧縮したブロックである。

【0110】

まず、プロセッサ５３Ｂは、伸張器７１Ｂにより、リストア命令に対応するリストア対象のデータブロック群が含まれる第２サイズの１つのデータブロックに対して、伸張処理を実行させる（Ｓ１１１）。なお、圧縮時と同様に、対象ブロック数のデータを複数のデータ単位に分割し、例えば、並列処理デバイス６１Ｂのコア６２Ｂで纏めて並列に伸張処理することにより、伸張処理のスループットを向上することができる。

【0111】

次いで、プロセッサ５３Ｂは、付加されていた保障コードにより、伸張したデータをチェックし、誤り検出や訂正等する処理を行う（Ｓ１１２）。

【0112】

次いで、プロセッサ５３Ｂは、圧縮器７２Ｂにより、伸張されたデータにおける第１サイズのブロックデータに対して、圧縮処理を実行させる（Ｓ１１３）。

【0113】

次いで、プロセッサ５３Ｂは、第１サイズのブロックデータに対して、保障コードを生成し（Ｓ１１４）、ブロックデータと保障コードとを永続記憶装置５４Ｂに格納し、格納した内容に従って第１サイズのブロックについての論物変換テーブル１１０を更新する（Ｓ１１５）。

【0114】

次いで、プロセッサ５３Ｂは、第２サイズのブロックデータに含まれる第１サイズのブロック数（対象ブロック数）のブロックについて圧縮処理をしたか否かを判定する（Ｓ１１６）。

【0115】

この結果、対象ブロック数のブロックに対して圧縮処理を実行していない場合（Ｓ１１６：Ｎ）には、プロセッサ５３Ｂは、処理をステップＳ１１３に進めて、残りの第１サイズのブロックデータに対する処理を続ける。

【0116】

一方、対象ブロック数のブロックに対して圧縮処理を実行している場合（Ｓ１１６：Ｙ）には、プロセッサ５３Ｂは、リストア対象のデータブロック群が含まれる全てのデータブロックに対して処理済みであるか否かを判定する（Ｓ１１７）。

【0117】

この結果、リストア対象のデータブロック群が含まれる全てのデータブロックに対して処理済みでない場合（Ｓ１１７：Ｎ）には、プロセッサ５３Ｂは、処理をステップＳ１１１に進め、残りのデータブロックに対する処理を実行する。

【0118】

一方、リストア対象のデータブロック群が含まれる全てのデータブロックに対して処理済みである場合（Ｓ１１７：Ｙ）には、プロセッサ５３Ｂは、第１サイズのブロックデータごと（第１ブロック単位ごと）の圧縮データを集めた圧縮データ群と、対応する保障コードを集めた保障コード群とを、要求元の計算機１０１Ａに送信し、処理を終了する。

【0119】

次に、計算機１０１Ｂにおける予測モデル処理の処理動作について説明する。

【0120】

図１２は、第１実施形態に係る予測モデル処理を説明する図である。

【0121】

本処理は、予測モデル７０４ａおよび予測モデル７１４ａ（圧縮処理部７０２および伸張処理部７１２で実行）（単に予測モデルという）の一例である。この予測モデル処理は、予測モデルの処理をニューラルネットワークで構成する場合の一例であり、出現確率の予測対象となるデータ単位（予測対象データ単位）の予測に利用するデータ（予測用データ）を入力することにより、予測対象データ単位に対応する位置の特徴量マップ（統合モデルに入力するデータ）を出力する。本処理は、例えば、並列処理デバイス６１Ｂのコア６２Ｂで動作するバッチ数（Ｂ）の次元ごとにスレッドとして並列実行が可能である。

【0122】

ここで入力するデータは、バッチ数（Ｂ）×チャネル数（Ｃ）×部分データの長さ（Ｎ）の配列となる。なお、予測モデルの学習時や圧縮時においては、圧縮対象のデータのすべてを保持しているため、複数の予測対象データ（Ｎ方向）を、それぞれの因果関係を整合させたうえで、まとめて並列に処理することができる。図１２の説明は、このまとめて処理する場合の説明である。一方、伸張（復号）時には、復号が済んでいないデータを保持しないため、その場合の動作は、図１３で説明する。

【0123】

この予測モデル処理は、主に、入力するデータのシフト処理（Ｓ１２１）と、ダウンスケールブロック（ＤＢ）（Ｓ１２２）と、残差ブロック（ＲＢ）（Ｓ１２３）と、アップスケールブロック（ＵＢ）（Ｓ１２４）という機能部品（総合的には、以降これらのコンポーネントをＳｃａｌｅＣａｕｓａｌＢｌｏｃｋｓ（ＳＣＢ）と呼ぶ）によって構成される。

【0124】

入力するデータのシフト処理（Ｓ１２１）は、入力データを長さ（Ｎ）方向の先頭に１個パディングを実施し、後端を1個削除する処理である。この処理により、入力データを長さ（Ｎ）方向に１個過去に移すことで、以降の処理を、過去のデータから、次の入力データを予測する処理とする。

【0125】

ダウンスケールブロック（Ｓ１２２）は、入力するデータを畳み込みニューラルネットワークで処理し、データをチャネル次元方向（Ｃ方向）で分割した上で、長さ（Ｎ）方向を縮小する処理である。具体的には、まず処理中データを長さ（Ｎ）方向の先頭に所定のサイズで（例：Ｋ－１個）パディングしたうえで（図１２では黒塗りの“０”で示している）、畳み込みニューラルネットワーク（図中のＣｏｎｖｏｌｕｔｉｏｎ）を処理する。この例では、長さ（Ｎ）方向が一次元であるため、一次元の畳み込みニューラルネットワークを適用する。なお、畳み込みニューラルネットワークのカーネルサイズはＫで、ストライド幅は１である。カーネルサイズは、ニューラルネットワークの重みの個数に対するレセプティブフィールドの範囲を広さの観点から、例えばＫ＝２とすることが考えられる。その後、処理中データ（畳み込みニューラルネットワークの出力結果）に、アクティベーション関数（図中のＡｃｔｉｖａｔｉｏｎ）を適用する。アクティベーション関数は、ＳＥＬＵ（ＳｃａｌｅｄＥｘｐｏｎｅｎｔｉａｌＬｉｎｅａｒＵｎｉｔ）やＲｅＬＵ（ＲｅｃｔｉｆｉｅｄＬｉｎｅａｒＵｎｉｔ）などの関数を用いてもよい。その後、処理中データをチャネル次元方向（Ｃ方向）で分割（図中のＳｐｌｉｔ）する。この分割したデータの一部を、以降のダウンスケールブロック（Ｓ１２２）の処理を介さずに、その後の対応するアップスケールブロック（Ｓ１２４）の直接的な入力として用いる。このようにすることで、ダウンスケールブロック（Ｓ１２２）による長さ（Ｎ）方向を縮小する処理による粒度の細かい情報の欠落を防ぎ、より予測モデル処理の精度を向上させることができる。さらに、この分割したデータの一部に、メモリモデル（図中のＭｅｍ．）の処理を適用してもよい。メモリモデルは、後述する図１６や図１７を例とする処理であり、長さ方向の履歴情報を記憶することにより、確率の予測精度を向上させるための処理である。メモリモデルは、ダウンスケールブロック（Ｓ１２２）の図で示すように、残差ブロックのような形で構成してもよい。その後、処理中データの長さ（Ｎ）方向を縮小する処理（図中のＤｏｗｎ）を実行する。この縮小する処理は、例えば、図１２で示したように、長さ（Ｎ）方向に連続する２個のデータをチャネル（Ｃ）方向に置き換えることで、処理してもよい。また、その他の方法として、ストライド幅を広げた畳み込みニューラルネットワークで処理してもよいし、Ｐｏｏｌｉｎｇのような方法を用いてもよい。図１２のＳ１２２において、以上の処理の概要を示しているが、図中の数字は、入力されたデータ単位の長さ（Ｎ）方向の順番に対応する数字を表しており、またＣｏｎｖｏｌｕｔｉｏｎ以降の処理においては、入力されたデータの順番の数字と、その数字に対応した処理結果の因果関係（処理に用いた情報に対応する前記数字における最大値）を表している。以上の処理では、入力されたデータの長さ（Ｎ）方向の因果関係が保存されている。つまり、ある対象となるデータ単位より後の情報が処理に用いられることは無いため、予測処理として成り立っていることが分かる。

【0126】

残差ブロック（Ｓ１２３）は、前段の機能部品から出力されたデータを膨張畳み込みニューラルネットワークで処理し、処理したデータと処理前のデータを加算する処理である。具体的には、まず処理中データを長さ（Ｎ）方向の先頭に所定のサイズで（例：ｄ＊（Ｋ－１）個）パディングしたうえで、膨張畳み込みニューラルネットワークを処理する。この例では、長さ（Ｎ）方向が一次元であるため、一次元の畳み込みニューラルネットワークを適用する。なお、膨張畳み込みニューラルネットワークのカーネルサイズはＫ（例えばＫ＝２）で、ストライド幅は１、膨張サイズｄはＫ^ｘ―１である。ここでｘは、残差ブロックのレベルであり、図１２のようにｒ個の残差ブロックを構成する場合、処理の順番に１～ｒの自然数で指定される。以上のように階層のレベルごとに膨張サイズを大きくすることで、長さ（Ｎ）方向のレセプティブフィールドを効率的に広げることができる。その後、ダウンスケールブロック（Ｓ１２２）と同様にアクティベーション関数を適用する。その後、処理したデータと処理前のデータを加算し、残差ブロック（Ｓ１２３）の出力結果とする。また、この加算処理に加えて、アテンション処理（セルフアテンション等）を導入してもよい。なお、以上の処理では、図１２のＳ１２３に示す通り、ダウンスケールブロック（Ｓ１２２）と同様に入力されたデータの長さ（Ｎ）方向の因果関係が保存されており、予測処理として成り立っていることが分かる。

【0127】

アップスケールブロック（Ｓ１２４）は、前段の機能部品から出力されたデータを長さ（Ｎ）方向で拡大し、前段の対応するダウンスケールブロック（Ｓ１２４）で分割されたデータを結合し、畳み込みニューラルネットワークで処理したデータを出力する。具体的には、まず処理中データを長さ（Ｎ）方向の先頭に所定のサイズで（例：Ｋ－１個）パディングしたうえで、長さ（Ｎ）方向に拡大する（図中のＵｐ）。例えば、ダウンスケールブロック（Ｓ１２２）のＤｏｗｎとは逆の処理で、図１２で示したように、チャネル（Ｃ）方向で２個に分割し、長さ（Ｎ）方向に連続する２個のデータに置き換えることで、処理してもよい。また、その他の方法として、ストライド幅を広げた転置畳み込みニューラルネットワークなどで処理してもよい。また、長さ（Ｎ）方向で同じ長さを持つ、対応するダウンスケールブロック（ＤＢｘ）での分割した処理中データについても、データを長さ（Ｎ）方向の先頭に所定のサイズで（例：Ｋ－１個）パディングし、前述した長さ（Ｎ）方向に拡大した処理中データとチャネル（Ｃ）方向に結合したデータを作成する。このデータを、畳み込みニューラルネットワークで処理する。この例では、長さ（Ｎ）方向が一次元であるため、一次元の畳み込みニューラルネットワークを適用する。なお、畳み込みニューラルネットワークのカーネルサイズはＫ（例：Ｋ＝２）で、ストライド幅は１である。その後、処理中データ（畳み込みニューラルネットワークの出力結果）に、ダウンスケールブロック（Ｓ１２２）と同様に、アクティベーション関数を適用し、結果のデータを得る。なお、以上の処理では、図１２のＳ１２４に示す通り、ダウンスケールブロック（Ｓ１２２）と同様に入力されたデータの長さ（Ｎ）方向の因果関係が保存されており、予測処理として成り立っていることが分かる。

【0128】

以上で説明した機能部品の構成方法として、例えば図１２のように、まずダウンスケールブロック（Ｓ１２２）を複数個（ｓ個）（ＤＢ１～ＤＢｓ）処理し、その後残差ブロック（Ｓ１２３）を複数個（ｒ個）（ＲＢ１～ＲＢｒ）処理した上で、アップスケールブロック（Ｓ１２４）を複数個（ｓ個）（ＵＢ１～ＵＢｓ）処理してもよい。このように処理することにより、Ｂ×Ｃ×Ｎの入力データを、Ｂ×Ｃ１×Ｎ／２、Ｂ×Ｃ２×Ｎ／４と長さ（Ｎ）方向で要素数を削減することができ、内部のチャネル数Ｃ１～Ｃｓを効率的に大きくすることができるため、予測モデルの処理を効率化・高速化することができる。なお、Ｃ１～Ｃｓは、ダウンスケールブロック（Ｓ１２２）処理時は、長さ（Ｎ）方向の削減と併せて大きくし、アップスケールブロック（Ｓ１２４）処理時は、長さ（Ｎ）方向の増加と併せて小さくするようにしてもよい。また、ダウンスケールブロック（Ｓ１２２）と残差ブロック（Ｓ１２３）とアップスケールブロック（Ｓ１２４）を組み合わせることにより、Ｋ^ｓ＋ｒの長さの広いレセプティブフィールドを持つことができる。つまり、出現確率の予測対象となるデータ単位（予測対象データ単位）の予測に利用するデータ（予測用データ）の量を効率的に増加させることができるため、所定の処理量に対する予測精度を向上させることができる。また、残差ブロック（Ｓ１２３）は、複数のダウンスケールブロック（Ｓ１２４）の間や、複数のアップスケールブロック（Ｓ１２４）の間で処理するようにしてもよい。

【0129】

また、s個のダウンスケールブロック（Ｓ１２２）と、ｓ個のアップスケールブロック（Ｓ１２４）を用いる構成において、それぞれｗ個のブロック（ＲＢｓ－ｗ～ＲＢｓとＵＢｓ－ｗ～ＵＢｓ）のコンボリューション層を、それぞれ重み共有する（ＲＢｓ－ｗ～ＲＢｓのコンボリューション層は、ＲＢｓ－ｗのコンボリューション層のパラメータと同一化し、ＵＢｓ－ｗ～ＵＢｓのコンボリューション層は、ＵＢｓ－ｗコンボリューション層のパラメータと同一化する）ことで、予測モデルのパラメータ数を削減してもよい。予測モデルのパラメータ数を削減することは、ブロックデータ格納情報１２０のモデル情報１２０ｄのデータ量を削減することが出来るため、適切なｗの設定により、圧縮効率の向上が可能となる。

【0130】

また、ダウンスケールブロック（Ｓ１２２）やアップスケールブロック（Ｓ１２４）の層の深度（ｓ）に応じて、カーネルサイズ（Ｋ）を増加させることで、レセプティブフィールドをさらに広範にするようにしてもよい。

【0131】

また、画像データなど多次元のデータ向けに、長さ（Ｎ）方向を多次元としてもよい。その場合、対応する次元の畳み込みニューラルネットワークで同様に処理してもよい。

【0132】

次に、計算機１０１Ｂにおける予測モデル処理および統合モデル処理のデータフローについて説明する。

【0133】

図１３は、第１実施形態に係る予測モデル処理および統合モデル処理のデータフローを説明する図である。

【0134】

本処理１３００は、予測モデル７０４ａおよび予測モデル７１４ａ（圧縮処理部７０２および伸張処理部７１２で実行）（単に予測モデルという）と、統合モデル７０４ｂおよび統合モデル７１４ｂ（圧縮処理部７０２および伸張処理部７１２で実行）（単に統合モデルという）の実装方法の一例である。この予測モデル処理および統合モデル処理は、図１２で述べた予測モデルの処理と、統合モデルの処理であり、それらの内部においてどのようにデータが処理されていくか、全体概要を含め説明する。最初に入力するデータは、図１２と同様に、バッチ数（Ｂ）×チャネル数（Ｃ）×部分データの長さ（Ｎ）の配列となるが、この図ではバッチ数（Ｂ）の次元を省略して記載しており、横軸が部分データの長さ（Ｎ）で、縦に各処理の順序を表し、各処理における縦軸がチャネル数（Ｃ）を表す。本処理は、例えば、並列処理デバイス６１Ｂのコア６２Ｂで動作するバッチ数（Ｂ）の次元ごとにスレッドとして並列実行が可能である。

【0135】

この例では、教師データにおける前から順に８番目のデータを予測する処理を示している。その場合、８番目のデータ単位が、出現確率の予測対象となるデータ単位（予測対象データ単位）であり、その予測に利用するデータ（予測用データ）が、図中の計算部分１３０１と参照部分１３０２に相当する。参照部分１３０２は、過去に（既に予測したデータ単位において）計算した結果（例えばキャッシュとして保持）も含む。

【0136】

また、この例では、予測モデル処理を、ダウンスケールブロック（Ｓ１２２）が２個（ＤＢ１、ＤＢ２）と残差ブロック（Ｓ１２３）が1個（ＲＢ１）とアップスケールブロック（Ｓ１２４）が２個（ＵＢ１、ＵＢ２）で構成し、統合モデル処理を、Ｌｉｎｅａｒ型のニューラルネットワーク（Ｋ＝１の畳み込みコンボリューションと同様）と、Ｓｏｆｔｍａｘ関数により構成している。予測モデル処理においては、予測対象データ単位に対応する位置の特徴量マップ（統合モデルに入力するデータ）を出力し、統合モデル処理において、最終的に予測対象データ単位の出現確率の予測結果を出力する。

【0137】

なお、図中の数字は、入力されたデータ単位の長さ（Ｎ）方向の順番に対応する数字を表しており、また各処理においては、入力されたデータの順番の数字と、その数字に対応した処理結果の因果関係（処理に用いた情報に対応する前記数字における最大値）を表している。統合モデル処理の結果として、入力されたデータの長さ（Ｎ）方向の因果関係が保存されている。つまり、ある対象となるデータ単位より後の情報が処理に用いられることは無いため、予測処理として成り立っていることが分かる。

【0138】

予測モデル処理については、図１２で既に説明した方法と同様に処理を進めるが、この例では、図中の計算部分１３０１について計算を進めるために、参照部分１３０２のデータを過去（７番目以前）の出現確率の計算時に重複を除いた状態でキャッシュしておき、それを用いることで、効率的に計算部分１３０１の計算を進めることを示している。このようにして、長さ（Ｎ）方向にまとめて計算することが困難な復号時においても、計算の重複を防いだ効率的なイテレーション処理により、高速に処理することができる。

【0139】

統合モデル処理については、この例では、１個の予測モデルを用いる場合の説明となっているが、同様に複数個の予測モデルを用いてもよい。その場合、統合モデルのニューラルネットワークの入力次元が増加する。また、この例では、Ｓｏｆｔｍａｘ関数により１ビットの場合（＝２^１）の出現確率を算出しているが、例えば出力をチャネル方向に１個として、Ｓｉｇｍｏｉｄ関数などにより０～１の値に変換し、シンボル“１”を出力する確率、として扱うようにしてもよい。その場合は、その確率を１から減算した値がシンボル“０”を出力する確率、となる。

【0140】

また、予測モデル処理および統合モデル処理におけるニューラルネットワークの重みを学習する方法として、以上の説明では、予測モデル処理および統合モデル処理は、微分可能な処理で構成しているため、統合モデルにより最終的に出力されたシンボル毎の出現確率と、教師データ（例えばワンホット形式で表現されたシンボル毎の出現確率に相当する値）とで相対エントロピー（又はＮｅｇａｔｉｖｅＬｏｇＬｉｋｅｌｉｈｏｏｄなど）を算出し、その値を最小化するようにモデルを誤差逆伝搬法などによりエンドツーエンドで学習することで、予測精度を向上するようにしてもよい。この学習のタイミングとしては、図８や図９で示したようにデータ単位の予測処理の進捗とともに学習を実施してもよいし、事前にトレーニングされた状態のモデルを用いてもよい。また、全体学習処理（Ｓ１２）のように、定期的に計算機１０１Ｂのメモリ５２Ｂやメモリ６３Ｂ、永続記憶装置５４Ｂなどに蓄積されたデータをもとに予測モデルおよび統合モデルを学習してもよい。その場合は、学習したモデルを永続記憶装置５４Ｂなどに保存しておき、モデルとそれにより圧縮したデータとの対応関係を、ブロックデータ格納情報１２０の圧縮後データ１２０ａとともに記録する（モデル情報１２０ｄ）ことで復元可能とする。また、データの特徴を表す識別情報（コード）を元に、使用するモデルを区別することで、類似のデータに対して専用の学習したモデルを用意し、圧縮効率を高めてもよい。

【0141】

次に、計算機１０１Ｂにおける予測モデル処理のアルゴリズムについて説明する。

【0142】

図１４は、第１実施形態に係る予測モデル処理のアルゴリズムを説明する図である。

【0143】

図１２では、予測モデルを構成するＳＣＢのコンポーネント（ダウンスケールブロック、アップスケールブロック等）について説明した。図１２のモジュールの説明では、ニューラルネットワークとしてコンボリューションカーネルを用いており、一般に長さ（Ｎ）方向で並列化（カーネルサイズごとにデータを分割して処理）して学習処理を実施する。この場合、長さ（Ｎ）方向に多数のデータをニューラルネットワークに入力するため、バッチ（Ｂ）方向の多重度は比較的小さく（例：１６個）設定する。これは、圧縮処理における全体学習処理（Ｓ１２）において、好適な処理方法となる。ただし、予測モデル処理（Ｓ１３およびＳ２３）などの推論（インフェレンス）処理として動作させる場合には、シンボル単位のイテレーション処理となるため、よりバッチの多重度を高く設定（例：数千以上）するため、図１３で説明したように、各コンポーネントの出力する中間的データのキャッシュを用いることで、長さ（Ｎ）方向で部分的に計算処理を進めることで、メモリ使用効率を改善し、バッチ（Ｂ）方向の多重度を各段に向上（例：数千以上）させることができる。以降では、図１４にそのインフェレンスの処理を、アルゴリズムの手続きとして具体的に示して説明する。

【0144】

まず、ＳＣＢの全体のアルゴリズム１４０１について、大きく初期化処理（図中のｉｎｉｔｉａｌｉｚｅ）と、インフェレンス処理（図中のｉｎｆｅｒｅｎｃｅ）がある。初期化処理は、圧縮対象データを複数の部分データに分割した処理対象のデータ（Ｂ×Ｃ×Ｎの配列）に対して、予測モデル処理（Ｓ１３およびＳ２３）を実行するにあたり、初回実行時にのみ実行する処理である。また、インフェレンス処理は、処理対象のデータを長さ（Ｎ）方向で１個取得したもの（図中のｘで表現、Ｂ×Ｃの配列）を入力とし、予測モデル処理（Ｓ１３およびＳ２３）としてイテレーションごとに毎回実行する処理（Ｎ回実行）である。なお、図中の［Ｘ、Ｙ］という表記は、Ｘ×Ｙの配列（テンソル）の形状を表し、［］は空のリスト構造を表す。初期化処理においては、ＳＣＢの全体のコンポーネント構成（図中のｂｌｏｃｋｓで表現され、ＤＢ１、ＤＢ２、ＵＢ２、ＵＢ１などの各コンポーネントを処理順にリスト形式としたもの）における各コンポーネントごと（図中のｂｌｏｃｋ）に初期化処理を実行する。また、インフェレンス処理においても、図のアルゴリズム１４０１で示した通り、各コンポーネントごとに順番にインフェレンス処理を実行する。

【0145】

次に、ダウンスケールブロックのアルゴリズム１４０２について説明する。本図では、カーネルサイズＫ＝２の場合についてのアルゴリズムを例として記載している。大きく初期化処理（図中のｉｎｉｔｉａｌｉｚｅ）と、インフェレンス処理（図中のｉｎｆｅｒｅｎｃｅ）がある。初期化処理は、２種類のキャッシュとして用いる変数（ｘ_ｐとｓ_ｐ）について、それぞれ初期値を設定する。なお、図中の太字の“０”は、ゼロで初期化した配列を表す。また、インフェレンス処理は、Ｂ×Ｃ＿ｉｎの処理対象のデータの配列（ｘ）と後段の各アップスケールブロックに入力するデータの配列のリスト（ｓ）を入力とし、Ｂ×Ｃ＿оｕｔの配列を出力とする（Ｃ＿ｉｎとＣ＿оｕｔの値は、各コンポーネントごとに異なっていてもよい）。インフェレンス処理の基本的な動作は図１４に記載のアルゴリズムの通りであり、既に図１３でも動作の概要を説明しているため、詳細は割愛するが、インフェレンス処理の特徴的な部分のみを以降で説明する。図中のｌｉｎｅａｒ＿ｆｒｏｍ＿ｃｏｎｖは、図１２で説明したコンボリューションの処理を全結合層に置き換えた処理である。具体的には、コンボリューションの処理は、Ｋ×Ｃ＿ｉｎを入力とし、Ｃ＿оｕｔを出力とする全結合層と捉えることができるため、コンボリューションカーネルのパラメータを全結合層のパラメータに変換したうえで処理を実行する。これにより、途中の配列の次元変換などの処理を省略し、高速に処理することができる。また、アルゴリズム１４０２で示したように、メモリモデルの処理（図中のｍｅｍｏｒｙ）を実行してもよい。

【0146】

次に、アップスケールブロックのアルゴリズム１４０３について説明する。本図では、カーネルサイズＫ＝２の場合についてのアルゴリズムを例として記載している。大きく初期化処理（図中のｉｎｉｔｉａｌｉｚｅ）と、インフェレンス処理（図中のｉｎｆｅｒｅｎｃｅ）がある。初期化処理は、２種類のキャッシュとして用いる変数（ｘ_ｐ1、ｘ_ｐ2とｓ_ｐ）について、それぞれ初期値を設定する。また、インフェレンス処理は、Ｂ×Ｃ＿ｉｎの処理対象のデータの配列（ｘ）と各アップスケールブロックに入力するデータの配列のリスト（ｓ）を入力とし、Ｂ×Ｃ＿оｕｔの配列を出力とする。

【0147】

以上のようにして、各コンポーネントの出力する中間的データのキャッシュを用いることで、長さ（Ｎ）方向で部分的に計算処理を進める（Ｂ×Ｃの配列単位で処理）とで、メモリ使用効率を改善し、バッチ（Ｂ）方向の多重度を各段に向上（例：数千以上）させることができ、高速な処理を可能とする。

【0148】

次に、計算機１０１Ｂにおける履歴情報を用いた予測モデル処理の処理動作について説明する。

【0149】

図１５は、第１実施形態に係る履歴情報を用いた予測モデル処理を説明する図である。

【0150】

本処理は、予測モデル７０４ａおよび予測モデル７１４ａ（圧縮処理部７０２および伸張処理部７１２で実行）（単に予測モデルという）の実装方法の一例であり、入力データからコードを生成し、そのコードを用いて履歴情報を生成して、履歴情報を元に、予測確率を生成する。本処理は、例えば、並列処理デバイス６１Ｂのコア６２Ｂで動作するバッチ数（Ｂ）の次元ごとにスレッドとして並列実行が可能である。

【0151】

予測モデルに入力するデータは、図１２と同様に、バッチ数（Ｂ）×チャネル数（Ｃ）×部分データの長さ（Ｎ）の配列となるが、この図ではバッチ数（Ｂ）の次元を省略して記載しており、横軸が部分データの長さ（Ｎ）で、チャネルとして２種類の軸を持ち、縦が部分データのシンボル数（Ｄ＝２^ｕ）、奥行きがコードの長さ（Ｈ）を表す。入力された時点では、コードの長さ（Ｈ）という軸は無いため、１とする。

【0152】

なお、予測モデルの学習時や圧縮時においては、圧縮対象のデータのすべてを保持しているため、複数の予測対象データ（Ｎ方向）を、それぞれの因果関係を整合させたうえで、まとめて並列に処理することができる（例えば、図８の全体学習処理（Ｓ１２）に相当）。図１５の説明は、このまとめて処理する場合の説明である。バッチ方向で並列化するケース（例えば、予測モデル処理（Ｓ１３、Ｓ２３）に相当）においても、図１４の説明と同様に、長さ（Ｎ）方向で適切に過去の計算データをキャッシュすることにより、高速なイテレーション処理として実装することができる。

【0153】

まず、予測モデル処理において、入力データのシフト処理を実行する（Ｓ１５１）。入力データを長さ（Ｎ）方向の先頭に１個パディングを実施し、後端を1個削除する処理である。この処理により、入力データを長さ（Ｎ）方向に１個過去に移すことで、以降の処理を、過去のデータから、次の入力データを予測する処理とする。

【0154】

次に、Ｓ１５１の結果の入力データ１５０１について、長さ（Ｎ）方向の先頭にＫ個パディングを実施し（Ｓ１５２）、その後、畳み込みニューラルネットワーク（図中のＣｏｎｖｏｌｕｔｉｏｎ）を処理し（Ｓ１５３）、コードの長さ（Ｈ）方向の次元でＳｏｆｔｍａｘ関数を処理することで（Ｓ１５４）、コード１５０２を得る。この例では、長さ（Ｎ）方向が一次元であるため、一次元の畳み込みニューラルネットワークを適用する。なお、畳み込みニューラルネットワークの入力チャネル数はＤで、出力チャネル数はＨで、カーネルサイズはＫ（例えばＫ＝２５６）で、ストライド幅は１である。その結果、コード１５０２のサイズは、Ｂ×１×Ｈ×Ｎ＋１となる。この例では、１個の畳み込みニューラルネットワークにより構成しているが、多層の構成としてもよい。その場合は、多層ネットワークにおけるレセプティブフィールドの大きさを考慮した上で、適切にＳ１５２でパディング処理を実施する。

【0155】

次に、入力データ１５０１（サイズＢ×Ｄ×１×Ｎ）とコード１５０２の要素ごとの積を計算する（Ｓ１５５）。この際に、コード１５０２の長さ（Ｎ）方向の先頭からＮ個の要素（サイズＢ×１×Ｈ×Ｎ）を取得し積の計算に用いる。これは、コード１５０２の過去値に相当する。また、要素ごとの積の計算にあたっては、要素数が１の次元に関しては、積の演算対象それぞれで数を合わせるために、次元拡張（コピー）を実施する。したがって、Ｓ１５５の結果のサイズは、Ｂ×Ｄ×Ｈ×Ｎとなる。この結果のテンソルを長さ（Ｎ）方向に、累積加算したテンソル（サイズＢ×Ｄ×Ｈ×Ｎ）を計算する（図中のＣｕｍｓｕｍ）（Ｓ１５６）。この結果を、履歴情報１５０３とする。この履歴情報１５０３の意味としては、各コード（次元：Ｈ）に対応した各シンボル（次元：Ｄ）の出現頻度の時間的進展（次元：Ｎ）を表していると考えることができる。

【0156】

次に、履歴情報１５０３と、コード１５０２の要素ごとの積を計算する（Ｓ１５７）。この際に、コード１５０２の長さ（Ｎ）方向の先頭から２番目からＮ個の要素（サイズＢ×１×Ｈ×Ｎ）を取得し積の計算に用いる。これは、コード１５０２の現在値に相当する。また、要素ごとの積の計算にあたっては、要素数が１の次元に関しては、積の演算対象それぞれで数を合わせるために、次元拡張（コピー）を実施する。したがって、Ｓ１５７の結果のサイズは、Ｂ×Ｄ×Ｈ×Ｎとなる。次に、この結果のテンソルをコードの長さ（Ｈ）方向の次元で合計した結果を出力する（サイズはＢ×Ｄ×１×Ｎとなる）（Ｓ１５８）。その後、次元Ｄで合計値が１となるように、ノーマライズ処理を実施する（Ｓ１５９）。例えば、次元Ｄの合計値にゼロとならないように微小な値Ｅを足した値を計算し、その値で次元Ｄの各値の要素を除算することで計算する。その結果、サイズがＢ×Ｄ×１×Ｎのテンソルを予測確率１５０４として得ることができる。コードの長さ（Ｈ）方向の次元は入力データと同じく１であり、無視でき、サイズがＢ×Ｄ×Ｎの予測確率を表すテンソルとして、統合モデルに入力する。

【0157】

なお、この畳み込みニューラルネットワーク（Ｓ１５３）が乱数で生成された値である場合は、ＬＳＨであるとみなすこともできる。したがって、この例で示す方法は、その乱数を初期値として学習するため、学習型のＬＳＨという位置づけとなり、学習によって、ＬＳＨより効率的に予測確率を高精度に生成することができる。また、この例では、データ単位毎のコードは、合計が１の要素数がＨの離散的なベクトルにより表現されるが、ガウス分布などの連続的な確率密度関数によりコードを表現し、予測確率１５０４を計算するように構成してもよい。例えばガウス分布でコードを表現する場合は、平均と分散の要素数が２のベクトルにより表現できる。

【0158】

次に、計算機１０１Ｂにおける履歴情報を用いたメモリモデル処理の処理動作について説明する。

【0159】

図１６は、第１実施形態に係る履歴情報を用いたメモリモデル処理を説明する図である。

【0160】

本処理は、図１２のダウンスケールブロックＳ１２２におけるメモリモデルに相当する処理である。図１５で説明した履歴情報を用いた予測モデル処理と重複部分を多く含むので、主に重複しない部分について説明する。

【0161】

本処理では、入力データ１６０１をパディング（Ｓ１６１）し、コンボリューション処理（Ｓ１６２、コンボリューションの設定例は、Ｋ＝１、入力チャネル＝Ｃ、出力チャネル＝Ｃｖ）を実行した上で、チャネル次元についてソフトマックス関数を実行（Ｓ１６３）することで、値データ１６０２を得る。以降の処理（Ｓ１６４～Ｓ１６１０）は、基本的に図１５で説明した処理（Ｓ１５２～Ｓ１５９）と同等の処理である。その次の処理として、コンボリューション処理（Ｓ１６１１、コンボリューションの設定例は、Ｋ＝１、入力チャネル＝Ｃｖ、出力チャネル＝Ｃ）を実行し、出力データ１６０５を得る。

【0162】

以上のようにして、長さ（Ｎ）方向の履歴情報を記憶することにより、確率の予測精度を向上させることができる。また、値データのＣｖとコードのＨの次元をそれぞれ所定数に分割して以降の処理を実施してもよい。この分割により、履歴情報のメモリ量や計算量を効率的に削減できる。

【0163】

次に、計算機１０１Ｂにおける指数移動平均を用いたメモリモデル処理の処理動作について説明する。

【0164】

図１７は、第１実施形態に係る指数移動平均を用いたメモリモデル処理を説明する図である。

【0165】

本処理は、図１２のダウンスケールブロックＳ１２２におけるメモリモデルに相当する処理であり、図１６で説明した履歴情報を用いたメモリモデル処理の代わりに実装してもよいし、それら双方を並列または直列で実装してもよい。

【0166】

メモリモデルに入力する入力情報１７０１は、バッチ数（Ｂ）×チャネル数（Ｃ）×部分データの長さ（Ｎ）の配列となるが、この図ではバッチ数（Ｂ）の次元を省略して記載している。

【0167】

なお、予測モデルの学習時や圧縮時においては、圧縮対象のデータのすべてを保持しているため、複数の予測対象データ（Ｎ方向）を、それぞれの因果関係を整合させたうえで、まとめて並列に処理することができる（例えば、図８の全体学習処理（Ｓ１２）に相当）。図１７の説明は、このまとめて処理する場合の説明である。本処理は、バッチ方向で並列化するケース（例えば、予測モデル処理（Ｓ１３、Ｓ２３）に相当）においても、図１４の説明と同様に、長さ（Ｎ）方向のイテレーションにおいて、最新の指数移動平均の結果を保持して次の計算に用いることにより、高速な高多重のイテレーション処理として実装することができる。

【0168】

本処理は、入力情報１７０１に対し、コンボリューション処理（Ｓ１７１、コンボリューションの設定例は、Ｋ＝１、入力チャネル＝Ｃ、出力チャネル＝Ｃｅ）を実行し、中間情報１７０２を得る。

【0169】

次に、中間情報（Ｍ_１～Ｎ）１７０２を、チャネル次元Ｃｅごとのパラメータαを用いて、長さ（Ｎ）次元方向の指数移動平均を算出し（Ｓ１７２）、指数移動平均情報１７０３を得る。具体的には、長さ（Ｎ）次元方向の各指数移動平均（Ｅ_１～Ｎ）は、次式で与えられる。
Ｅ_ｉ＝（１－α）× Ｅ_ｉ-1＋α×Ｍ_ｉ
ここで、iは１～Ｎであり、Ｅ_oは例えばゼロで初期化した行列とする。また演算×は、チャネル次元以外を拡張したエレメントワイズの積演算である。また、パラメータαは、予測モデルの学習時の学習対象のパラメータ（微分可能）とすることができ、この効果として、効率的な指数移動平均のパラメータをデータからの学習により決定することができる。

【0170】

次に、指数移動平均情報１７０３に対し、コンボリューション処理（Ｓ１７３、コンボリューションの設定例は、Ｋ＝１、入力チャネル＝Ｃｅ、出力チャネル＝Ｃ）を実行し、出力情報１７０４を得る。

【0171】

以上のようにして、メモリモデルの僅かな追加の計算処理により、予測モデルを構成するニューラルネットワーク全体のレセプティブフィールドを階層数やカーネルサイズに依存せず、長さ（Ｎ）方向全体に広げることができ、効率的に確率の予測精度を向上させることができる。

【0172】

次に、変形例に係る計算機システムについて説明する。

【0173】

図１８は、変形例に係る計算機システムを説明する図である。

【0174】

変形例に係る計算機システム１Ａにおいては、入力装置４０は、計算機１０１Ａに格納するデータを処理する上位システム４１を稼働している。上位システム４１は、例えば、ファイルシステム、オブジェクトシステム、データベースシステム、Ｗｅｂアプリケーション等である。上位システム４１は、格納対象の複数のブロックデータ（ブロックデータ群）を計算機１０１Ａに送信する。この際、上位システム４１は、ブロックデータ群（またはその参照情報）と、命令識別符号（例えば、書き込み、読み込み、破棄など）と、オプショナルな情報としてブロックデータに対する圧縮に関わるヒント情報とを含めた、ＩＦを用いて、計算機１０１Ａへブロックデータ群を送信する。ここで、ヒント情報としては、ブロックデータについてのデータ種別や、ブロックデータにおけるコンテキストの切り替わりを示す情報等がある。

【0175】

計算機１０１Ａのプロセッサ５３Ａは、入力装置４０から受信したブロックデータ群をメモリ５２Ａ又は永続記憶装置５４Ａに格納するとともに、このブロックデータ群に対応するヒント情報１４０があれば、メモリ５２Ａ又は永続記憶装置５４Ａに格納する。ここで、プロセッサ５３Ａが上記処理を実行する機能部が受付部に相当する。

【0176】

次に、計算機１０１Ａは、このブロックデータ群に対する圧縮および伸張にかかわる処理を実行するにあたり、ブロックデータ群（またはその参照情報）と、命令識別符号（例えば、圧縮、伸張、部分更新、部分伸長の４種類を識別する符号）と、アドレスに関する情報と、オプショナルな情報としてブロックデータに対する圧縮に関わるヒント情報とを含めた、ＩＦを用いて、計算機１０２Ａへ命令を送信する。

【0177】

計算機１０１Ａは、このブロックデータ群を圧縮する際には、圧縮命令に、圧縮対象のブロックデータ群（またはその参照情報）と、オプショナルでヒント情報とを付加して計算機１０１Ｂに送信する。計算機１０１Ｂは、並列処理デバイス６１Ｂにより構成される圧縮器７０Ｃがブロックデータ群を圧縮し（ヒント情報が指定された場合、ヒント情報に基づいて圧縮）、圧縮後のブロックデータ群（対応するブロックデータ格納情報１２０のセット、またはその参照情報）として計算機１０１Ａに送信する。例えば、圧縮器７０Ｃは、圧縮器７０Ｂにおいて、予測モデル７０４ａ及び／又は統合モデル７０４ｂに対してさらにヒント情報が入力され、ヒント情報に基づいて出現確率を算出する構成となっている。

【0178】

また、計算機１０１Ａは、圧縮されたブロックデータ群を伸張する際には、伸張命令に、圧縮後のブロックデータ群（またはその参照情報）と、オプショナルでヒント情報とを付加して計算機１０１Ｂに送信する。計算機１０１Ｂは、並列処理デバイス６１Ｂにより構成される伸張器７１Ｃがヒント情報に基づいてブロックデータ群を伸張し（ヒント情報が指定された場合、ヒント情報に基づいて伸張）、伸張したブロックデータ群（またはその参照情報）を計算機１０１Ｂに送信する。例えば、伸張器７１Ｃは、伸張器７１Ｂにおいて、予測モデル７１４ａ及び／又は統合モデル７１４ｂに対してさらにヒント情報が入力され、ヒント情報に基づいて出現確率を算出する構成となっている。

【0179】

また、計算機１０１Ａは、圧縮されたブロックデータ群を部分更新する際には、部分更新命令に、圧縮後のブロックデータ群（またはその参照情報）と、部分更新する領域を表すアドレス情報と、部分更新するデータと、オプショナルでヒント情報とを付加して計算機１０１Ｂに送信する。計算機１０１Ｂは、並列処理デバイス６１Ｂにより構成される圧縮器７０Ｃが部分更新領域アドレスに対応する部分更新データ（部分データ）のみを圧縮し（ヒント情報が指定された場合、ヒント情報に基づいて圧縮）、部分更新領域アドレスに対応するブロックデータ格納情報１２０の圧縮後データ１２０ａ、保障コード１２０ｂ、圧縮後サイズ１２０ｃを更新し、圧縮後のブロックデータ群（対応するブロックデータ格納情報１２０のセット、またはその参照情報）として計算機１０１Ａに送信する。また、この部分更新処理においては、圧縮処理における全体学習処理（Ｓ１２）の実行は不要である。以上のようにして、大きなブロックサイズ（例：数ＭＢ～数ＧＢ）でのデータ傾向に基づいて全体学習した予測モデルを用いながらも、部分データの単位（例：１ＫＢ）での部分更新を可能とすることができ、全体を伸長して再圧縮する必要がないため、部分更新の処理効率を高めることができる。

【0180】

また、計算機１０１Ａは、圧縮されたブロックデータ群を部分伸張する際には、部分伸張命令に、圧縮後のブロックデータ群（またはその参照情報）と、部分伸長する領域を表すアドレス情報と、オプショナルでヒント情報とを付加して計算機１０１Ｂに送信する。計算機１０１Ｂは、並列処理デバイス６１Ｂにより構成される伸張器７１Ｃが部分伸長する領域を表すアドレス情報に対応する部分データ群を伸張し（ヒント情報が指定された場合、ヒント情報に基づいて伸張）、伸張した部分データ群（またはその参照情報）を計算機１０１Ｂに送信する。以上のようにして、必要な部分のみを伸張することで、処理効率を高めることができる。

【0181】

また、計算機１０１Ｂは、以上の構成において、メモリ５２Ｂやメモリ６３Ｂや永続記憶装置５４Ｂにブロックデータ格納情報１２０と論物変換テーブル１１０を保持するようにしてもよい。その場合は、事前符号化部７０３において、圧縮対象の部分データのハッシュ値を計算し、そのハッシュ値を比較することで、過去に処理した部分データとの重複を検出し、重複したデータについては、過去に処理した部分データへの参照情報のみを論物テーブル１１０やブロックデータ格納情報１２０に保存し、圧縮率を高める場合（重複排除を実施する場合）に、上述のＩＦ（圧縮命令、部分更新命令）においては、圧縮後のデータそのものを出力する代わりに、過去に処理した部分データへの参照情報のみを出力するようにする。

【0182】

また、計算機１０１Ａおよび計算機１０１Ｂは、以上の構成において、ＩＦの送信内容や受信内容について、暗号化を施すことで、データを安全に通信、保存することができる。

【0183】

計算機システム１Ａによると、計算機１０１Ａは、ＩＦを用いて計算機１０１Ｂの計算資源を用いて圧縮伸張処理を実行できるため、計算機１０１Ａでその他実行すべき各種処理（ストレージ制御プログラムなど）を圧縮伸張処理により計算資源を消費することなく、実行することができる。特にクラウドなどの環境下においては、効率的な圧縮を実現するうえで必要となる並列処理デバイス６１を持たない低価格な計算機環境を、計算機１０１Ａとして使用することができるため、システム全体としてコストの低減が可能となる。また、ヒント情報を用いてデータ単位の出現確率を算出するようにしているので、より高精度に出現確率を算出することができ、圧縮効率を向上することができる。

【0184】

次に、第２実施形態に係る計算機システムについて説明する。第２実施形態に係る計算機システムは、例えば、動画、静止画、点群等のメディアデータを対象として、非可逆圧縮、伸張を行う計算機システムである。第２実施形態に係る計算機システムは、第１実施形態に係る計算機システム１における圧縮器７０（７０Ａ，７０Ｂ）に代えて圧縮器７４（７４Ａ，７４Ｂ）（図１６参照）を備え、伸張器７１（７１Ａ，７１Ｂ）に代えて伸張器７５（７５Ａ，７５Ｂ）（図１７参照）を備えている。

【0185】

次に、圧縮器７４（７４Ａ，７４Ｂ）についての構成及び処理について説明する。

【0186】

図１９は、第２実施形態に係る計算機システムの圧縮器を説明する図である。

【0187】

圧縮器７４（７４Ａ，７４Ｂ）は、圧縮器７０（７０Ａ，７０Ｂ）に対して、エンコードフィルタ７４２をさらに備える。エンコードフィルタ７４２は、例えば、データ削減部の一例であり、画像データ７４１に対してデータ量を削減する処理を行ってデータ削減後のデータ（データ削減後圧縮対象データ）を出力する。例えば、エンコードフィルタ７４２は、ＣＮＮ（ＣｏｎｖｏｌｕｔｉｏｎａｌＮｅｕｒａｌＮｅｔｗｏｒｋｓ）で構成されてもよい。

【0188】

この構成によると、複数の確率算出部７０４の入力に利用されるデータは、高さのピクセル数（Ｈ）×幅のピクセル数（Ｗ）×チャネル数（Ｃ：画像の場合には、例えば、ＲＧＢの３）×バッチ数（Ｂ）の配列となる。

【0189】

次に、伸張器７５（７５Ａ，７５Ｂ）についての構成及び処理について説明する。

【0190】

図２０は、第２実施形態に係る計算機システムの伸張器を説明する図である。

【0191】

伸張器７５（７５Ａ，７５Ｂ）は、伸張器７１（７１Ａ，７１Ｂ）に対して、伸張されたデータから画像７５１を生成するデコードフィルタ７５２をさらに備える。デコードフィルタ７５２は、データ量を増加させて、元の画像７４１とほぼ同様な画像７５１を生成する。デコードフィルタ７５２は、例えば、ＣＮＮで構成されてもよい。

【0192】

この構成によると、複数の伸張処理部７１２から出力されるデータは、高さのピクセル数（Ｈ）×幅のピクセル数（Ｗ）×チャネル数（Ｃ：画像の場合には、例えば、ＲＧＢの３）×バッチ数（Ｂ）の配列となる。

【0193】

なお、上記した例では、メディアデータとして静止画を例に挙げていたが、例えば、動画の場合には、複数の確率算出部７０４の入力に利用されるデータは、静止画の場合のテンソルに、時間の成分を加えた５次元のテンソルとしてもよい。

【0194】

なお、本発明は、上述の実施形態に限定されるものではなく、本発明の趣旨を逸脱しない範囲で、適宜変形して実施することが可能である。

【0195】

例えば、上記実施形態においては、並列処理デバイスをプロセッサ５３（５３Ａ、５３Ｂ）と違う例を示していたが、プロセッサ５３が複数のコアを有する場合には、プロセッサ５３を並列処理デバイスとして利用してもよい。

【0196】

また、上記実施形態において、プロセッサが行っていた処理の一部又は全部を、ハードウェア回路で行うようにしてもよい。また、上記実施形態におけるプログラムは、プログラムソースからインストールされてよい。プログラムソースは、プログラム配布サーバ又は記録メディア（例えば可搬型の記録メディア）であってもよい。

【符号の説明】

【0197】