特許7562440 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 東芝メモリ株式会社の特許一覧

特許7562440文字列検索装置及びメモリシステム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-09-27

(45)【発行日】2024-10-07

(54)【発明の名称】文字列検索装置及びメモリシステム

(51)【国際特許分類】

H03M 7/42 20060101AFI20240930BHJP

G06F 12/04 20060101ALI20240930BHJP

G06F 12/00 20060101ALI20240930BHJP

G06F 16/30 20190101ALI20240930BHJP

【ＦＩ】

H03M7/42

G06F12/04 530

G06F12/00 597U

G06F16/30

【請求項の数】 11

(21)【出願番号】P 2021019009

(22)【出願日】2021-02-09

(65)【公開番号】P2022121983

(43)【公開日】2022-08-22

【審査請求日】2023-09-11

(73)【特許権者】

【識別番号】318010018

【氏名又は名称】キオクシア株式会社

(74)【代理人】

【識別番号】110001737

【氏名又は名称】弁理士法人スズエ国際特許事務所

(72)【発明者】

【氏名】八島大亮

(72)【発明者】

【氏名】及川恒平

(72)【発明者】

【氏名】小玉翔

(72)【発明者】

【氏名】中西圭里

(72)【発明者】

【氏名】住吉正人

(72)【発明者】

【氏名】深澤洋平

(72)【発明者】

【氏名】王哲也

(72)【発明者】

【氏名】三浦貴

【審査官】鉢呂健

(56)【参考文献】

【文献】特開２００５－１６５５９８（ＪＰ，Ａ）

【文献】米国特許出願公開第２００５／０１２００１７（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｈ０３Ｍ３／００－９／００

Ｇ０６Ｆ１２／００

Ｇ０６Ｆ１２／０４

Ｇ０６Ｆ１６／３０

(57)【特許請求の範囲】

【請求項1】

過去に入力された第１文字列に含まれる連続する複数の文字の各々に対応する第１ハッシュ値及び前記第１ハッシュ値を前記文字に変換するための前記第１ハッシュ値に対応する第１補完データを、前記文字毎に格納する格納部と、
入力された第２文字列に含まれる連続する複数の文字の各々を、前記文字に対応する第２ハッシュ値及び前記第２ハッシュ値を前記文字に変換するための前記第２ハッシュ値に対応する第２補完データに変換する第１変換部と、
前記変換された連続する第２ハッシュ値の少なくとも一部と一致する連続する第１ハッシュ値を前記格納部から検索し、前記連続する第１ハッシュ値が格納されている前記格納部内の位置を示すポインタを出力する検索部と、
前記ポインタに基づいて、連続する第１ハッシュ値及び前記連続する第１ハッシュ値の各々に対応する複数の第１補完データを前記格納部から選択する選択部と、
前記選択された複数の第１補完データを用いて、前記選択された連続する第１ハッシュ値を連続する文字を含む第３文字列に変換する第２変換部と、
前記第２文字列及び前記第３文字列を比較し、一致する文字の長さを示す一致長を取得する比較部と、
前記一致長を前記ポインタとともに出力する出力部と
を具備する文字列検索装置。

【請求項2】

過去に入力された第１文字列に含まれる連続する複数の文字の各々に対応する第１ハッシュ値及び前記第１ハッシュ値を前記文字に変換するための前記第１ハッシュ値に対応する第１補完データを、前記文字毎に格納する格納部と、
入力された第２文字列に含まれる連続する複数の文字の各々を、前記文字に対応する第２ハッシュ値及び前記第２ハッシュ値を前記文字に変換するための前記第２ハッシュ値に対応する第２補完データに変換する第１変換部と、
前記変換された連続する第２ハッシュ値の少なくとも一部と一致する連続する第１ハッシュ値を前記格納部から検索し、前記連続する第１ハッシュ値が格納されている前記格納部内の位置を示すポインタを出力する検索部と、
前記ポインタに基づいて、連続する第１ハッシュ値及び前記連続する第１ハッシュ値の各々に対応する複数の第１補完データを前記格納部から選択する選択部と、
前記変換された連続する第２ハッシュ値及び前記連続する第２ハッシュ値の各々に対応する複数の第２補完データと、前記選択された連続する第１ハッシュ値及び前記連続する第１ハッシュ値の各々に対応する複数の第１補完データとを比較し、一致する文字の長さを示す一致長を取得する比較部と、
前記一致長を前記ポインタとともに出力する出力部と
を具備する文字列検索装置。

【請求項3】

第３変換部を更に具備し、
前記変換された連続する第２ハッシュ値及び前記連続する第２ハッシュ値の各々に対応する複数の第２補完データは、前記格納部に格納され、
前記第３変換部は、前記格納部に格納された複数の第２補完データを用いて、前記連続する第２ハッシュ値を前記第２文字列に変換して出力する
請求項１または２記載の文字列検索装置。

【請求項4】

前記入力された第２文字列を、前記一致長及び前記ポインタが出力されるまで保持して出力するデータ遅延部を更に具備する請求項２記載の文字列検索装置。

【請求項5】

前記選択部は、
前記ポインタに基づいて選択される連続する第１ハッシュ値のうち、前記変換された連続する第２ハッシュ値の少なくとも一部と一致する連続する第１ハッシュ値については前記連続する第１ハッシュ値に対応する複数の第１補完データを選択し、
前記ポインタに基づいて選択される連続する第１ハッシュ値のうち、前記変換された連続する第２ハッシュ値の少なくとも一部と一致する連続する第１ハッシュ値以外の第１ハッシュ値については前記第１ハッシュ値及び前記第１ハッシュ値に対応する第１補完データを選択し、
前記比較部は、前記選択された複数の第１補完データと、前記選択された第１ハッシュ値及び第１補完データとを用いて、前記一致長を取得する
請求項２または４記載の文字列検索装置。

【請求項6】

前記第１ハッシュ値及び前記第２ハッシュ値の各々のビット数は、前記文字のビット数よりも小さい請求項１～５のいずれか一項に記載の文字列検索装置。

【請求項7】

前記第１ハッシュ値及び前記第１ハッシュ値に対応する第１補完データの合計ビット数と、前記第２ハッシュ値及び前記第２ハッシュ値に対応する第２補完データの合計ビット数とは、それぞれ前記文字のビット数と同一である請求項６記載の文字列検索装置。

【請求項8】

前記比較部は、前記連続する第２ハッシュ値の少なくとも一部と一致する複数の連続する第１ハッシュ値が検索された場合、前記連続する第１ハッシュ値毎に一致長を取得し、
前記出力部は、前記取得された一致長のうちの最大の一致長を、当該一致長が最大である連続する第１ハッシュ値が格納されている前記格納部内の位置を示すポインタとともに出力する
請求項１～７のいずれか一項に記載の文字列検索装置。

【請求項9】

前記格納部は、フリップフロップ回路及びメモリを含み、
前記第１ハッシュ値は、前記フリップフロップ回路に格納され、
前記第１補完データは、前記メモリに格納される
請求項１～８のいずれか一項に記載の文字列検索装置。

【請求項10】

不揮発性メモリと、
前記不揮発性メモリと接続される文字列検索装置と
を具備し、
前記文字列検索装置は、
過去に入力された第１文字列に含まれる連続する複数の文字の各々に対応する第１ハッシュ値及び前記第１ハッシュ値を前記文字に変換するための前記第１ハッシュ値に対応する第１補完データを、前記文字毎に格納する格納部と、
入力された第２文字列に含まれる連続する複数の文字の各々を、前記文字に対応する第２ハッシュ値及び前記第２ハッシュ値を前記文字に変換するための前記第２ハッシュ値に対応する第２補完データに変換する第１変換部と、
前記変換された連続する第２ハッシュ値の少なくとも一部と一致する連続する第１ハッシュ値を前記格納部から検索し、前記連続する第１ハッシュ値が格納されている前記格納部内の位置を示すポインタを出力する検索部と、
前記ポインタに基づいて、連続する第１ハッシュ値及び前記連続する第１ハッシュ値の各々に対応する複数の第１補完データを前記格納部から選択する選択部と、
前記選択された複数の第１補完データを用いて、前記選択された連続する第１ハッシュ値を連続する文字を含む第３文字列に変換する第２変換部と、
前記第２文字列及び前記第３文字列を比較し、一致する文字の長さを示す一致長を取得する比較部と、
前記一致長を前記ポインタとともに第１データとして出力する出力部と
を含み、
前記出力部から出力された前記第１データに基づく第２データが前記不揮発性メモリに書き込まれる
メモリシステム。

【請求項11】

不揮発性メモリと、
前記不揮発性メモリと接続される文字列検出装置と
を備え、
前記文字列検出装置は、
過去に入力された第１文字列に含まれる連続する複数の文字の各々に対応する第１ハッシュ値及び前記第１ハッシュ値を前記文字に変換するための前記第１ハッシュ値に対応する第１補完データを、前記文字毎に格納する格納部と、
入力された第２文字列に含まれる連続する複数の文字の各々を、前記文字に対応する第２ハッシュ値及び前記第２ハッシュ値を前記文字に変換するための前記第２ハッシュ値に対応する第２補完データに変換する第１変換部と、
前記変換された連続する第２ハッシュ値の少なくとも一部と一致する連続する第１ハッシュ値を前記格納部から検索し、前記連続する第１ハッシュ値が格納されている前記格納部内の位置を示すポインタを出力する検索部と、
前記ポインタに基づいて、連続する第１ハッシュ値及び前記連続する第１ハッシュ値の各々に対応する複数の第１補完データを前記格納部から選択する選択部と、
前記変換された連続する第２ハッシュ値及び前記連続する第２ハッシュ値の各々に対応する複数の第２補完データと、前記選択された連続する第１ハッシュ値及び前記連続する第１ハッシュ値の各々に対応する複数の第１補完データとを比較し、一致する文字の長さを示す一致長を取得する比較部と、
前記一致長を前記ポインタとともに第１データとして出力する出力部と
を含み、
前記出力部から出力された前記第１データに基づく第２データが前記不揮発性メモリに書き込まれる
メモリシステム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明の実施形態は、文字列検索装置及びメモリシステムに関する。

【背景技術】

【0002】

近年では、記憶領域を有効に活用するために、データを圧縮する機能を有するメモリシステムが知られている。このようなメモリシステムにおいて、当該メモリシステムと接続されるホストから書き込みコマンドが発行された場合には、当該書き込みコマンドにおいて指定されているデータを圧縮して不揮発性メモリに書き込むことができる。

【0003】

データの圧縮に用いられる符号化手法として、辞書式符号化が知られている。この辞書式符号化においては、辞書と称される過去のデータ（文字列）が一定期間格納されるバッファを用い、入力データ（文字列）の少なくとも一部と一致する過去のデータがバッファから検索される。入力データの少なくとも一部と一致する過去のデータがバッファ内に存在する場合、当該バッファ内における当該過去のデータの位置（以下、ポインタと表記）及び当該入力データと過去のデータとの一致した長さ（以下、一致長と表記）が出力される。辞書式符号化は、入力データを、このようにポインタ及び一致長に置き換えることで符号量を削減する手法である。

【先行技術文献】

【特許文献】

【0004】

【文献】米国特許第７２３３２６５号明細書

【文献】米国特許第５１４０３２１号明細書

【発明の概要】

【発明が解決しようとする課題】

【0005】

そこで、本発明が解決しようとする課題は、高い検索性能を小さな回路規模で実現することが可能な文字列検索装置及びメモリシステムを提供することにある。

【課題を解決するための手段】

【0006】

実施形態に係る文字列検索装置は、格納部と、第１変換部と、検索部と、選択部と、第２変換部と、比較部と、出力部とを具備する。前記格納部は、過去に入力された第１文字列に含まれる連続する複数の文字の各々に対応する第１ハッシュ値及び前記第１ハッシュ値を前記文字に変換するための前記第１ハッシュ値に対応する第１補完データを、前記文字毎に格納する。前記第１変換部は、入力された第２文字列に含まれる連続する複数の文字の各々を、前記文字に対応する第２ハッシュ値及び前記第２ハッシュ値を前記文字に変換するための前記第２ハッシュ値に対応する第２補完データに変換する。前記検索部は、前記変換された連続する第２ハッシュ値の少なくとも一部と一致する連続する第１ハッシュ値を前記格納部から検索し、前記連続する第１ハッシュ値が格納されている前記格納部内の位置を示すポインタを出力する。前記選択部は、前記ポインタに基づいて、連続する第１ハッシュ値及び前記連続する第１ハッシュ値の各々に対応する複数の第１補完データを前記格納部から選択する。前記第２変換部は、前記選択された複数の第１補完データを用いて、前記選択された連続する第１ハッシュ値を連続する文字を含む第３文字列に変換する。前記比較部は、前記第２文字列及び前記第３文字列を比較し、一致する文字の長さを示す一致長を取得する。前記出力部は、前記一致長を前記ポインタとともに出力する。

【図面の簡単な説明】

【0007】

【図1】第１実施形態におけるメモリシステムのハードウェア構成の一例を概略的に示すブロック図。

【図2】比較例のメモリシステムにおける圧縮方式で用いられる辞書式符号化の概略について説明するための図。

【図3】第１実施形態に係る文字列検索装置の構成の一例を示すブロック図。

【図4】第１実施形態におけるハッシュ変換及び補完データ変換の概要を示す図。

【図5】第１実施形態におけるハッシュ変換の一例を示す図。

【図6】第１実施形態における補完データ変換の一例を示す図。

【図7】第１実施形態における逆ハッシュ変換の概要を示す図。

【図8】第１実施形態における逆ハッシュ変換の一例を示す図。

【図9】第１実施形態の第１比較例について説明するための図。

【図10】第１実施形態の第２比較例について説明するための図。

【図11】第１実施形態と第２比較例との回路規模について説明するための図。

【図12】第２実施形態に係る文字列検索装置の構成の一例を示すブロック図。

【図13】第３実施形態に係る文字列検索装置の構成の一例を示すブロック図。

【発明を実施するための形態】

【0008】

以下、図面を参照して、各実施形態について説明する。
（第１実施形態）
まず、第１実施形態について説明する。図１は、第１実施形態におけるメモリシステムのハードウェア構成の一例を概略的に示すブロック図である。

【0009】

図１に示すメモリシステム１は、不揮発性メモリにデータ（ユーザデータ）を書き込み、当該不揮発性メモリからデータを読み出すように構成された半導体ストレージデバイスである。このメモリシステム１は、例えばソリッドステートドライブ（ＳＳＤ：Solid State Drive）として実現されることができる。

【0010】

メモリシステム１は、例えばＰＣＩＥｘｐｒｅｓｓバスのようなシステムバスを介してホストに接続可能に構成されている。図１に示すように、メモリシステム１は、コントローラ２、ＮＡＮＤ型フラッシュメモリ３及びＤＲＡＭ（Dynamic Random Access Memory）４を備える。

【0011】

コントローラ２は、メモリシステム１の動作を司る機能を有する。コントローラ２は、ホストインタフェース（Ｉ／Ｆ）２ａ、ＣＰＵ２ｂ、ＮＡＮＤインタフェース（Ｉ／Ｆ）２ｃ及びＤＲＡＭインタフェース（Ｉ／Ｆ）２ｄ等を含む。なお、ホストインタフェース２ａ、ＣＰＵ２ｂ、ＮＡＮＤインタフェース２ｃ及びＤＲＡＭインタフェース２ｄは、例えばバスを介して互いに接続されている。

【0012】

ホストインタフェース２ａは、メモリシステム１の外部に配置されるホストとの通信を実行するように構成されたホストインタフェース回路である。このホストインタフェース２ａは、例えばＰＣＩＥｘｐｒｅｓｓコントローラ等であってもよい。ホストインタフェース２ａは、ホストから様々なコマンド（要求）を受信する。

【0013】

ＣＰＵ２ｂは、ホストインタフェース２ａ、ＮＡＮＤインタフェース２ｃ及びＤＲＡＭインタフェース２ｄを制御するように構成されたプロセッサである。ＣＰＵ２ｂは、メモリシステム１の電源オンに応答してＮＡＮＤ型フラッシュメモリ３または図示しないＲＯＭ（Read Only Memory）から制御プログラム（ファームウェア）をＤＲＡＭ４にロードし、当該制御プログラムを実行することによって様々な処理を行う。具体的には、ＣＰＵ２ｂは、ホストから発行される様々なコマンドに対する処理を実行する。なお、ホストから発行されるコマンドに対する処理の一部または全部は、コントローラ２内の専用ハードウェアによって実行されてもよい。

【0014】

ＮＡＮＤインタフェース２ｃは、ＣＰＵ２ｂの制御の下、ＮＡＮＤ型フラッシュメモリ３を制御するように構成されたメモリ制御回路である。

【0015】

更に、コントローラ２は、圧縮装置（圧縮器）２ｅ及び伸張装置（伸張器）２ｆを備える。

【0016】

圧縮装置２ｅは、例えばホストから書き込みコマンドが発行された場合に、当該書き込みコマンドにおいて指定されているデータを入力し、当該データを圧縮するために用いられる。なお、圧縮装置２ｅは、例えば辞書式符号化とエントロピー符号化とを組み合わせた圧縮方式でデータを圧縮する。圧縮装置２ｅにおいて圧縮されたデータ（以下、圧縮データと表記）は、圧縮装置２ｅから出力された後、誤り訂正処理やランダマイズ処理等の所定の処理が実行される。ＣＰＵ２ｂは、圧縮データに対して当該所定の処理が実行されたデータをＮＡＮＤインタフェース２ｃ経由でＮＡＮＤ型フラッシュメモリ３に書き込む。すなわち、ＣＰＵ２ｂは、圧縮装置２ｅから出力された圧縮データに基づくデータをＮＡＮＤ型フラッシュメモリ３に書き込む。

【0017】

ＣＰＵ２ｂは、例えばホストからホストインタフェース２ａ経由で受信した読み出しコマンドに基づいてＮＡＮＤ型フラッシュメモリ３から圧縮データを読み出す際に、当該読み出しコマンドに基づくデータをＮＡＮＤインタフェース２ｃ経由でＮＡＮＤ型フラッシュメモリ３から読み出す。読み出されたデータは、読み出されたデータに対する誤り訂正処理、ランダマイズの解除処理等の所定の処理が実行された後、圧縮データとしてＣＰＵ２ｂにより伸張装置２ｆへ入力され、伸張装置２ｆは入力された圧縮データを伸張する。すなわち、伸張装置２ｆは、ＮＡＮＤ型フラッシュメモリ３から読み出されたデータに基づく圧縮データを伸張する。

【0018】

ＮＡＮＤ型フラッシュメモリ３は、不揮発性メモリであり、マトリクス状に配置された複数のメモリセルを含むメモリセルアレイを有する。ＮＡＮＤ型フラッシュメモリ３は、２次元構造のＮＡＮＤ型フラッシュメモリであってもよいし、３次元構造のＮＡＮＤ型フラッシュメモリであってもよい。

【0019】

ＮＡＮＤ型フラッシュメモリ３のメモリセルアレイは、複数のブロックＢＬＫ０～ＢＬＫｍ－１を含む。ブロックＢＬＫ０～ＢＬＫｍ－１の各々は多数のページ（ここでは、ページＰ０～Ｐｎ－１）によって編成される。ブロックＢＬＫ０～ＢＬＫｍ－１は、消去単位として機能する。ページＰ０～Ｐｎ－１の各々は、同一ワード線に接続された複数のメモリセルを含む。ページＰ０～Ｐｎ－１は、データ書き込み動作及びデータ読み出し動作の単位である。

【0020】

ここでは、メモリシステム１がＮＡＮＤ型フラッシュメモリ３を備えるものとして説明したが、当該メモリシステム１は、不揮発性メモリとして例えばＰＣＭ（Phase Change Memory）またはＭＲＡＭ（Magnetoresistive random Access Memory）等を備える構成であってもよい。

【0021】

ＤＲＡＭ４は、揮発性メモリであり、例えばコントローラ２（ＣＰＵ２ｂ）において実行されるソフトウェアの一時的なバッファまたはＮＡＮＤ型フラッシュメモリ３に対する一時的なバッファ等として機能する。

【0022】

ここでは、メモリシステム１がＤＲＡＭ４を備えるものとして説明したが、当該メモリシステム１は、揮発性メモリとして例えばＳＲＡＭ（Static Random Access Memory）等を備える構成であってもよい。

【0023】

なお、図１においては圧縮装置２ｅ及び伸張装置２ｆがコントローラ２に組み込まれているものとして説明したが、当該圧縮装置２ｅ及び伸張装置２ｆのうちの一方または両方はメモリシステム１またはコントローラ２の外部に設けられていてもよい。

【0024】

以下、図２を参照して、比較例のメモリシステムにおける圧縮方式で用いられる辞書式符号化の概略について説明する。ここでは、辞書式符号化の対象として入力されるデータを入力データと称し、当該入力データが複数の連続する文字を含む文字列（テキストデータ）であるものとして説明する。

【0025】

ここで、辞書式符号化は、入力データを、当該入力データよりも前に辞書式符号化の対象として入力されたデータ（つまり、過去に入力されたデータ）の相対参照に変換する符号化手法である。

【0026】

このため、辞書式符号化においては、過去に入力されたデータ（文字列）が辞書と称される格納部（以下、辞書バッファと表記）に格納されており、入力データの全部または一部と一致するデータ（前方データ）が当該辞書バッファ中に存在するか否かを探索（検索）する。入力データと全部または一部と一致するデータが辞書バッファ中に存在する場合、辞書バッファ内の当該データの位置を示すポインタ及び入力データと辞書バッファから探索されたデータとにおいて一致する文字の長さを示す一致長が出力される。

【0027】

ここで、図２においては、入力データ（文字列）が「ｃａｂａ」であり、辞書バッファには過去に入力されたデータ（文字列）として「…ｃａｃａｂｅ…」が格納されていることが示されている。この図２に示す例によれば、入力データ「ｃａｂａ」（の一部）はヒストリバッファ内の「ｃａ」の２文字及び「ｃａｂ」の３文字と一致する。入力データのうちのより長い部分を相対参照に置き換えることができれば符号化効率が高くなるため、ここでは辞書バッファ内の「ｃａｂ」が入力データの一部と一致するデータ（以下、辞書データと表記）として選択される。

【0028】

このように選択された辞書データ（「ｃａｂ」）の辞書バッファ内の位置を示すポインタ（アドレス）が「１００」であるものとする。また、入力データと辞書データとは「ｃａｂ」が一致しているため、上記した一致長は「３（文字）」となる。

【0029】

この場合、入力データ「ｃａｂａ」に対する辞書式符号化の結果としては、一致長及びポインタの組（３，１００）が後段に出力される。

【0030】

なお、上記した入力データは例えばホストから発行される書き込みコマンドにおいて指定されているデータ（以下、書き込みデータと表記）を構成する一部のデータ（所定のサイズのデータ）に相当し、辞書式符号化においては、当該書き込みデータを構成するデータの各々が当該書き込みデータの先頭から連続的に入力され、当該入力されたデータが順次符号化されるような処理が実行される。

【0031】

上記した図２に示す例において、入力データ「ｃａｂａ」のうちの辞書データと一致していない末尾の「ａ」については、後続のデータとともに次の入力データとして扱われ、処理が繰り返される。

【0032】

図２においては入力データの全部または一部（つまり、少なくとも一部）と一致する辞書データが辞書バッファ内に存在する場合について説明したが、当該辞書データが存在しない場合には、当該入力データ（ローデータ）が辞書式符号化の結果として後段に出力される。

【0033】

以下の説明においては、辞書式符号化の結果として出力される一致長及びポインタの組を一致文字データ、当該辞書式符号化の結果として出力されるローデータを不一致文字データと称する。

【0034】

ところで、上記した辞書式符号化は、新たに入力されたデータ（文字列）を辞書バッファに格納されている過去のデータ（文字列）から検索し、当該検索されたデータの位置（ポインタ）及び当該入力されたデータと過去のデータとにおいて一致する文字の長さ（一致長）に置き換えることで符号量を削減する符号化手法である。このため、辞書式符号化においては、辞書バッファに格納されているデータの中から入力データの少なくとも一部と一致する過去のデータを効率的に検索する技術が重要である。

【0035】

しかしながら、例えばメモリシステム１を備える情報処理システム（ホスト）から高いスループットが要求される場合において、上記した検索性能を向上させるためには、並列に動作する回路を用意する必要があるため、回路規模が大きくなる。一方、回路規模を抑制しようとすると検索性能（及びスループット）が低下する。すなわち、検索性能と回路規模とはトレードオフの関係にあり、高い検索性能を小さな回路規模で実現することが困難である。

【0036】

そこで、本実施形態においては、辞書式符号化を行うための高い検索性能を小さな回路規模で実現するための構成を採用する。

【0037】

なお、上記したように本実施形態における圧縮装置２ｅにおいては例えば辞書式符号化とエントロピー符号化とを組み合わせた圧縮方式によりデータが圧縮されるが、当該圧縮装置２ｅは、辞書バッファから文字列を検索して辞書式符号化を行う装置（以下、文字列検索装置と表記）及び等が辞書式符号化の結果に対してエントロピー符号化を行う装置（以下、エントロピー符号化装置と表記）を備えているものとする。

【0038】

エントロピー符号化は、データの出現頻度の違いを利用して異なる符号長の符号を当該データに割り当てることで全体として符号量を削減する（つまり、圧縮する）符号化手法であり、当該辞書式符号化の後段として実行される。この場合、例えば出現頻度の高い一致文字データ及び不一致文字データに対して短い符号を割り当て、当該出現頻度の低い一致文字データ及び不一致文字データに対して長い符号を割り当てるような処理が実行される。

【0039】

なお、エントロピー符号化としては例えばハフマン符号化が用いられる。エントロピー符号化としてハフマン符号化が用いられる場合、当該ハフマン符号化は、予め構築された符号木を用いて符号化を行う静的ハフマン符号化であってもよいし、ハフマン符号化の対象として入力される一致文字データ及び不一致文字データにより符号木を変更する動的ハフマン符号化であってもよい。エントロピー符号化としては、例えば算術符号化等が用いられても構わない。

【0040】

以下、本実施形態に係る文字列検索装置について詳細に説明する。図３は、本実施形態に係る文字列検索装置の構成の一例を示すブロック図である。

【0041】

図３に示すように、文字列検索装置１０は、辞書バッファ（辞書部）１１、ハッシュ変換部１２、ハッシュ全探索部１３、辞書データ選択部１４、第１逆ハッシュ変換部１５、辞書比較部１６、最大一致長判定部１７及び第２逆ハッシュ変換部１８を含む。

【0042】

辞書バッファ１１は、過去に文字列検索装置１０（圧縮装置２ｅ）に入力された文字列（過去の文字列データ）に含まれる連続する複数の文字の各々に対応するハッシュ値及び当該ハッシュ値に対応する補完データを、当該文字毎に格納する。本実施形態において、補完データは、対応するハッシュ値を文字に逆変換する（つまり、当該ハッシュ値から当該文字を復元する）ために用いられる逆ハッシュ変換用データに相当する。

【0043】

なお、以下の説明において、所定の文字に対応するハッシュ値及び当該ハッシュ値に対応する補完データの組を便宜的に変換文字データと称する。すなわち、辞書バッファ１１には、過去の変換文字データ（過去に入力された文字列に含まれる文字に対応する変換文字データ）が格納されている。また、各文字に対応する変換文字データは、当該文字が文字列検索装置１０に入力された順に辞書バッファ１１に格納されているものとする。

【0044】

ハッシュ変換部１２は、文字列検索装置１０に新たに入力された文字列（以下、入力文字列と表記）を入力データとして受け取る。なお、入力文字列は連続する複数の文字から構成されるが、当該文字の各々は、例えば８ビット（１バイト）で表現されるものとする。また、入力文字列を構成する文字の数は、例えば８、１６または３２等であるが、他の数であってもよい。

【0045】

ハッシュ変換部１２は、入力文字列に含まれる文字単位でハッシュ変換を適用する（つまり、ハッシュ変換処理を実行する）。これにより、ハッシュ変換部１２は、入力文字列に含まれる連続する複数の文字の各々を、当該文字に対応するハッシュ値に変換する（つまり、当該文字からハッシュ値を生成する）。

【0046】

なお、ハッシュ変換部１２によって変換されるハッシュ値は、当該ハッシュ値に変換される文字のビット幅（ビット数）よりも小さいビット幅であるものとする。また、ハッシュ変換は一定の演算によって行われ、ハッシュ値（を構成する各ビットの値）には、当該ハッシュ値に変換される文字の全ビットの値が反映されているものとする。

【0047】

同時に、ハッシュ変換部１２は、入力文字列に含まれる文字単位で補完データ変換を適用する（つまり、補完データ変換処理を実行する）。これにより、ハッシュ変換部１２は、入力文字列に含まれる連続する複数の文字の各々を、補完データに変換する（つまり、文字から補完データを生成する）。

【0048】

なお、補完データは当該補完データに変換される文字のビット幅（ビット数）よりも小さいビット幅として定義可能であり、例えば１つの文字からハッシュ変換部１２によって変換されるハッシュ値及び補完データの合計ビット幅を当該文字のビット幅と同じとすることが好ましい。

【0049】

ここで、図４は、上記したハッシュ変換及び補完データ変換の概要を示している。図４に示す例では、文字（データ）が８ビット（１バイト）で表現される場合を想定しており、当該８ビットの文字（データ）が３ビットのハッシュ値に変換されるとともに、当該８ビットの文字が５ビットの補完データに変換されることが示されている。

【0050】

なお、図５は、ハッシュ変換の一例を示している。ここで、ハッシュ値に変換される文字が「Ｄ０Ｄ１Ｄ２Ｄ３Ｄ４Ｄ５Ｄ６Ｄ７」の８ビットで表現される場合を想定する。なお、Ｄ０～Ｄ７の各々は、文字を構成する８ビットのうちの１つ（０または１）に相当する。

【0051】

このような文字にハッシュ変換が適用された場合、図５に示す「Ｈ０Ｈ１Ｈ２」の３ビットのハッシュ値が生成されるものとする。なお、Ｈ０～Ｈ２の各々は、ハッシュ値を構成する３ビットのうちの１つに相当する。

【0052】

具体的には、「Ｈ０（ハッシュ値の先頭の１ビット）」は、文字を構成する「Ｄ１」と「Ｄ２」と「Ｄ３」との排他的論理和によって算出（決定）される。また、「Ｈ１（ハッシュ値の２番目の１ビット）」は、文字を構成する「Ｄ４」と「Ｄ５」と「Ｄ６」との排他的論理和によって算出（決定）される。同様に、「Ｈ２（ハッシュ値の最後の１ビット）」は、文字を構成する「Ｄ０」と「Ｄ４」と「Ｄ７」との排他的論理和によって算出（決定）される。

【0053】

これによれば、「Ｄ０Ｄ１Ｄ２Ｄ３Ｄ４Ｄ５Ｄ６Ｄ７」の８ビットで表現される文字を３ビットのハッシュ値「Ｈ０Ｈ１Ｈ２」に変換することができる。なお、このハッシュ値には、文字を構成する全ビット（Ｄ０～Ｄ７）の値が反映されている。

【0054】

一方、図６は、補完データ変換の一例を示している。上記したように文字が「Ｄ０Ｄ１Ｄ２Ｄ３Ｄ４Ｄ５Ｄ６Ｄ７」の８ビットで表現され、このような文字に補完データ変換が適用された場合、図６に示す「Ｉ０Ｉ１Ｉ２Ｉ３Ｉ４」の５ビットのハッシュ値が生成されるものとする。なお、Ｉ０～Ｉ４各々は、補完データを構成する５ビットのうちの１つに相当する。

【0055】

具体的には、「Ｉ０（補完データの先頭の１ビット）」は、文字を構成する「Ｄ４」と「Ｄ７」との排他的論理和によって算出（決定）される。また、「Ｉ１（補完データの２番目の１ビット）」は、文字を構成する「Ｄ２」と同一とする。更に、「Ｉ２（補完データの３番目の１ビット）」は、文字を構成する「Ｄ３」と同一とする。また、「Ｉ３（補完データの４番目の１ビット）」は、文字を構成する「Ｄ６」と同一する。同様に、「Ｉ４（補完データの最後の１ビット）」は、文字を構成する「Ｄ７」と同一とする。

【0056】

これによれば、「Ｄ０Ｄ１Ｄ２Ｄ３Ｄ４Ｄ５Ｄ６Ｄ７」の８ビットで表現される文字を５ビットの補完データ「Ｉ０Ｉ１Ｉ２Ｉ３Ｉ４」に変換することができる。

【0057】

ここでは文字から変換（生成）されるハッシュ値及び補完データの合計ビット幅（つまり、変換文字データのビット幅）が文字のビット幅と一致する場合について説明したが、ハッシュ値及び補完データの各々が当該文字よりも小さいビット幅で生成されるのであれば、当該ハッシュ値及び補完データの合計ビット幅は、文字のビット幅よりも大きくても構わない。

【0058】

再び図３に戻ると、ハッシュ変換部１２は、入力文字列に含まれる文字の各々から変換されたハッシュ値及び補完データ（変換文字データ）を辞書バッファ１１に出力する。この変換文字データは、過去の変換文字データとして辞書バッファ１１に格納される。また、このように辞書バッファ１１に格納された変換文字データは第２逆ハッシュ変換部１８に出力される。

【0059】

なお、辞書バッファ１１には入力文字列に含まれる文字毎に変換文字データが格納されるが、当該辞書バッファ１１に格納される変換文字データの数は、辞書バッファ１１に割り当てられている領域のサイズに応じて一定の値に制限されている。換言すれば、辞書バッファ１１は、一定の数の変換文字データが格納されるように構成されている。このため、既に一定の数の変換文字データが格納されている状態で、新たな変換文字データが辞書バッファ１１に格納される場合には、古い変換文字データが破棄または上書きされるものとする。

【0060】

また、ハッシュ変換部１２は、入力文字列に含まれる文字の各々から変換された連続するハッシュ値（３ビット）をハッシュ全探索部１３に出力する。

【0061】

ここで、辞書バッファ１１に格納されている全てのハッシュ値が当該辞書バッファ１１からハッシュ全探索部１３に出力され、ハッシュ全探索部１３は、ハッシュ変換部１２から出力された連続するハッシュ値の各々と、辞書バッファ１１から出力されたハッシュ値の各々とが一致するか否かを判定する。この場合、ハッシュ全探索部１３は、辞書バッファ１１から出力されたハッシュ値の中から、ハッシュ変換部１２から出力されたハッシュ値の各々と一致するハッシュ値を全て探索する総当たりの一致判定（比較）を行う。

【0062】

上記したように辞書バッファ１１には過去に入力された文字列に含まれる文字が変換された変換文字データ（ハッシュ値及び補完データ）が当該入力された順に格納されている（つまり、辞書バッファ１１から連続するハッシュ値が出力される）ところ、ハッシュ全探索部１３は、上記した一致判定の結果に基づいて、ハッシュ変換部１２から出力された連続するハッシュ値の少なくとも一部と一致する辞書バッファ１１から出力された連続するハッシュ値（つまり、辞書バッファ１１から出力された連続するハッシュ値のうち、ハッシュ変換部１２から出力された連続するハッシュ値の少なくとも一部と一致する部分）を検索することができる。なお、「ハッシュ変換部１２から出力された連続するハッシュ値の少なくとも一部と一致する」とは、ハッシュ変換部１２から出力された連続するハッシュ値と同一の並び順で、当該連続するハッシュ値のうちの予め定められた数以上のハッシュ値（文字）が一致していることをいう。

【0063】

このように検索された連続するハッシュ値は、入力文字列と一致する可能性が高い文字列（つまり、一致候補）に対応するハッシュ値であると考えられる。このため、ハッシュ全探索部１３は、検索された連続するハッシュ値の辞書バッファ１１内の位置を示すポインタを辞書データ選択部１４に出力する。

【0064】

なお、ハッシュ全探索部１３によって検出された連続するハッシュ値の辞書バッファ１１内の位置を示すポインタは、当該ハッシュ値が辞書バッファ１１から出力された順番等によって判別可能である。また、連続するハッシュ値の辞書バッファ１１内の位置を示すポインタとは、例えば連続するハッシュ値のうちの先頭のハッシュ値が格納されている辞書バッファ１１のアドレスである。

【0065】

また、ハッシュ全探索部１３によって連続するハッシュ値（予め定められた数以上のハッシュ値が一致する部分）が複数検索された場合には、当該連続するハッシュ値毎のポインタ（つまり、複数のポインタ）がハッシュ全探索部１３から辞書データ選択部１４に出力される。

【0066】

ここで、辞書バッファ１１に格納されている全ての変換文字データ（ハッシュ値及び補完データ）が当該辞書バッファ１１から辞書データ選択部１４に出力され、辞書データ選択部１４は、当該辞書バッファ１１から出力された変換文字データの中から、ハッシュ全探索部１３から出力されたポインタに基づいて連続する変換文字データ（連続するハッシュ値及び当該連続するハッシュ値の各々対応する複数の補完データ）を選択する。

【0067】

なお、ハッシュ全探索部１３から出力されたポインタは例えば上記したようにハッシュ全探索部１３によって検出された連続するハッシュ値のうちの先頭のハッシュ値が格納されている辞書バッファ１１内の位置（アドレス）を示すが、辞書データ選択部１４は、当該ポインタによって示される位置から最大一致長に相当する数の連続する変換文字データを選択する。なお、最大一致長（に相当する数）とは、例えば入力文字列に含まれる文字の数であるが、当該入力文字列に含まれる文字の数以外であってもよい。また、ここではポインタによって示される位置から最大一致長に相当する数の連続する変換文字データが選択されるものとして説明したが、例えばハッシュ全探索部１３によって検索された連続するハッシュ値を含む変換文字データ（つまり、ハッシュ変換部１２によって変換された連続するハッシュ値と一致する部分）のみが選択されてもよい。

【0068】

辞書データ選択部１４は、選択された連続する変換文字データ（変換文字データ列）を、ハッシュ全探索部１３から出力されたポインタとともに第１逆ハッシュ変換部１５に出力する。

【0069】

なお、ここでは辞書バッファ１１から辞書データ選択部１４に全ての変換文字データが出力され、辞書データ選択部１４がハッシュ全探索部１３から出力されたポインタに基づいて変換文字データを選択するものとして説明したが、当該ポインタがハッシュ全探索部１３から辞書バッファ１１に出力され、辞書バッファ１１から第１逆ハッシュ変換部１５に当該ポインタに基づく変換文字データが出力されるような構成であってもよい。このような構成の場合には辞書データ選択部１４は省略されても構わない。

【0070】

第１逆ハッシュ変換部１５は、辞書データ選択部１４から出力された連続する変換文字データの各々に対して逆ハッシュ変換を適用する（つまり、逆ハッシュ変換処理を実行する）。逆ハッシュ変換においては、上記したように変換文字データに含まれるハッシュ値が、当該変換文字データに含まれる補完データを用いて文字に変換される。これにより、第１逆ハッシュ変換部１５は、辞書データ選択部１４から出力された連続する変換文字データを、連続する文字を含む文字列（以下、変換文字列と表記）に変換する。

【0071】

ここで、図７は、逆ハッシュ変換の概要を示している。図７に示す例では、上記した図４等において説明した５ビットの補完データを用いて３ビットのハッシュ値を８ビットの文字（データ）に変換することが示されている。

【0072】

なお、図８は、逆ハッシュ変換の一例を示している。図８においては、図６において説明した補完データを用いて図５において説明したハッシュ値を文字に変換する例が示されている。

【0073】

具体的には、上記したように文字が「Ｄ０Ｄ１Ｄ２Ｄ３Ｄ４Ｄ５Ｄ６Ｄ７」の８ビットで表現される場合、「Ｄ０」は、ハッシュ値を構成する「Ｈ２」と補完データを構成する「Ｉ０」との排他的論理和によって算出される。また、「Ｄ１」は、ハッシュ値を構成する「Ｈ０」と補完データを構成する「Ｉ１」と「Ｉ２」との排他的論理和によって算出される。更に、「Ｄ２」は、補完データを構成する「Ｉ１」と同一とする。また、「Ｄ３」は、補完データを構成する「Ｉ２」と同一とする。また、「Ｄ４」は、補完データを構成する「Ｉ０」と「Ｉ４」との排他的論理和によって算出される。更に、「Ｄ５」は、ハッシュ値を構成する「Ｈ１」と補完データを構成する「Ｉ０」と「Ｉ３」と「Ｉ４」との排他的論理和によって算出される。また、「Ｄ６」は、補完データを構成する「Ｉ３」と同一とする。更に、「Ｄ７」は、補完データを構成する「Ｉ４」と同一とする。

【0074】

これによれば、５ビットの補完データ「Ｉ０Ｉ１Ｉ２Ｉ３Ｉ４」を用いて、３ビットのハッシュ値「Ｈ０Ｈ１Ｈ２」を８ビットの文字「Ｄ０Ｄ１Ｄ２Ｄ３Ｄ４Ｄ５Ｄ６Ｄ７」に変換することができる。

【0075】

再び図３に戻ると、第１逆ハッシュ変換部１５は、連続する変換文字データから変換された変換文字列を、辞書データ選択部１４から当該変換文字データとともに出力されたポインタとともに辞書比較部１６に出力する。

【0076】

なお、上記したようにハッシュ全探索部１３から複数のポインタが出力されている場合には、辞書データ選択部１４からは当該ポインタ毎の連続する変換文字データが出力され、第１逆ハッシュ変換部１５は、当該連続する変換文字データ毎の複数の変換文字列を出力する。この場合、第１逆ハッシュ変換部１５は、辞書データ選択部１４から出力された変換文字データ列の数（つまり、一致候補の数）×最大一致長（つまり、当該変換文字データ列における変換文字データの数）に準じた変換スループットで動作する。

【0077】

辞書比較部１６は、入力文字列を取得（入力）し、第１逆ハッシュ変換部１５から出力された変換文字列を当該入力文字列と比較する。これにより、辞書比較部１６は、入力文字列と変換文字列とにおいて一致する文字を判定し、当該一致する文字の長さを示す一致長を取得する。

【0078】

辞書比較部１６は、取得された一致長を、変換文字列とともに第１逆ハッシュ変換部１５から出力されたポインタとともに最大一致長判定部１７に出力する。なお、第１逆ハッシュ変換部１５から複数の変換文字列が出力されている場合には、当該変換文字列毎に一致長及びポインタが出力される。

【0079】

最大一致長判定部１７は、上記したように変換文字列毎に出力された一致長の中から最大の一致長を判定する。最大一致長判定部１７は、最大の一致長として判定された一致長及び当該一致長とともに辞書比較部１６から出力されたポインタを選択し、当該選択された一致長及びポインタを一致文字データとして出力する。

【0080】

また、上記したように辞書バッファ１１に格納された変換文字データは第２逆ハッシュ変換部１８に出力されるが、第２逆ハッシュ変換部１８は、当該変換文字データに対して逆ハッシュ変換を適用する。なお、第２逆ハッシュ変換部１８によって変換文字データに適用される逆ハッシュ変換は、上記した第１逆ハッシュ変換部１５における逆ハッシュ変換と同様であるため、ここではその詳しい説明を省略する。

【0081】

なお、辞書バッファ１１は入力文字列に含まれる複数の文字の各々に対応する変換文字データ（つまり、連続する変換文字データ）を第２逆ハッシュ変換部１８に出力するため、第２逆ハッシュ変換部１８は、当該連続する変換文字データの各々に対して逆ハッシュ変換を適用することにより、入力文字列（に相当する文字列）を不一致文字データとして出力する。

【0082】

上記したように本実施形態に係る文字列検索装置１０からは一致文字データ及び不一致文字データが出力されるが、当該一致文字データ及び不一致文字データは、文字列検索装置１０（圧縮装置２ｅ）に対して要求されるスループットに準じて出力される。

【0083】

また、図３に示す構成によれば、入力文字列の全てが不一致文字データとして出力されるが、文字列検索装置１０の後段には、例えば上記した一致文字データ（一致長及びポインタ）及び不一致文字データ（入力文字列）の一方を選択するセレクタ等が設けられているものとする。

【0084】

これによれば、例えば最大一致長判定部１７から一致文字データが出力された（つまり、入力文字列が一致文字データに置き換えられた）場合には、当該一致文字データがセレクタによって選択され、当該一致文字データが上記したエントロピー符号化装置に渡される。一方、例えばハッシュ変換部１２から出力された連続するハッシュ値の少なくとも一部と一致する連続するハッシュ値が辞書バッファ１１内に存在しない場合には、入力文字列を一致文字データに置き換えることができないが、この場合には不一致文字データがセレクタによって選択され、当該不一致文字データがエントロピー符号化装置に渡される。

【0085】

なお、上記したセレクタは、文字列検索装置１０外に設けられている場合を想定しているが、文字列検索装置１０内に設けられていてもよい。すなわち、本実施形態に係る文字列検索装置１０は、入力文字列が一致文字データに置き換えられたか否かに応じて一致文字データ及び一致文字データの一方を出力するように構成されていてもよい。更に、例えば最大一致長判定部１７から一致文字データが出力される（つまり、入力文字列が一致文字データに置き換えられる）場合には、第２逆ハッシュ変換部１８の処理が省略されるような構成であってもよい。

【0086】

文字列検索装置１０とともに圧縮装置２ｅに備えられるエントロピー符号化装置は、上記した一致文字データ及び不一致文字データに対してエントロピー符号化を行う。エントロピー符号化が行われた結果（つまり、一致文字データ及び不一致文字データに基づく圧縮データ）は、ＮＡＮＤ型フラッシュメモリ３に書き込まれる。なお、ＮＡＮＤ型フラッシュメモリ３に書き込まれる圧縮データには、例えば誤り訂正用のパリティ（ＥＣＣパリティ）が付与されていてもよい。

【0087】

ここでは圧縮装置２ｅ（文字列検索装置１０及びエントロピー符号化装置）について説明した。一方で、読み出しコマンドがホストから発行された場合には、伸張装置２ｆが圧縮データに対して処理を実行する。読み出しコマンドがホストから発行された場合には、当該読み出しコマンドに基づいてＮＡＮＤ型フラッシュメモリ３から読み出されたデータが、当該読み出されたデータに対する誤り訂正処理、ランダマイズの解除処理等の所定の処理が実行された後に、圧縮データとしてＣＰＵ２ｂにより伸張装置２ｆへ入力される。そして、伸張装置２ｆは、入力された圧縮データに対して、エントロピー復号及び辞書式復号を実行する。

【0088】

上記したように本実施形態においては、過去に入力された文字列（第１文字列）に含まれる連続する複数の文字の各々に対応するハッシュ値（第１ハッシュ値）及び当該ハッシュ値を文字に変換するための補完データ（第１補完データ）が辞書バッファ１１（格納部）に格納されており、入力文字列（第２文字列）に含まれる連続する複数の文字の各々を、当該文字に対応するハッシュ値（第２ハッシュ値）及び当該ハッシュ値を文字に変換するための補完データ（第２補完データ）に変換し、当該変換された連続するハッシュ値の少なくとも一部と一致する連続するハッシュ値を辞書バッファ１１から検索し、当該連続するハッシュ値が格納されている当該辞書バッファ１１内の位置を示すポインタを出力する。また、本実施形態においては、ポインタに基づいて連続するハッシュ値及び当該連続するハッシュ値の各々に対応する複数の補完データを辞書バッファ１１から選択し、当該選択された複数の補完データを用いて当該選択された連続するハッシュ値を変換文字列（第３文字列）に変換する。更に、本実施形態においては、入力文字列及び変換文字列を比較することによって一致する文字の長さを示す一致長を取得し、当該一致長を上記したポインタとともに出力する。

【0089】

本実施形態においては、このような構成により、高い検索性能を小さい回路規模で実現することができる。

【0090】

ここで、本実施形態に係る文字列検索装置１０の回路規模及び検索性能について本実施形態に係る文字列検索装置に対する比較例を用いて説明する。

【0091】

まず、第１比較例の文字列検索装置の概要を説明する。図９は、「全探索」と称される方式（以下、「全探索」方式と表記）で文字列検索（辞書式符号化）を行う装置（以下、第１比較例の文字列検索装置と表記）の構成の一例を示している。

【0092】

図９に示すように、第１比較例の文字列検索装置１００は、辞書バッファ１０１、文字列全探索部１０２及び最大一致長判定部１０３を含む。

【0093】

第１比較例の文字列検索装置１００における辞書バッファ１０１には、本実施形態における辞書バッファ１１とは異なり、過去に入力された文字列（に含まれる連続する複数の文字の各々）が格納される。

【0094】

文字列全探索部１０２は、辞書バッファ１０１から出力された文字列に含まれる文字の中から、入力文字列に含まれる文字の各々と一致する文字を全て探索する総当たりの一致判定（比較）を行う。

【0095】

最大一致長判定部１０３は、入力文字列に含まれる連続する文字と同一の並び順で、予め定められた数以上の文字が一致している部分のうち、一致長が最大となる部分（連続する文字を含む文字列）を特定し、当該一致長及び当該文字列が格納されている辞書バッファ１０１内の位置を示すポインタを一致文字データとして出力する。

【0096】

なお、入力文字列は、辞書バッファ１０１に格納されるとともに、当該辞書バッファ１０１から不一致文字データとして出力される。

【0097】

ここで、本実施形態において説明したように入力文字列（及び辞書バッファ１０１に格納されている文字列）に含まれる複数の文字の各々が８ビット（１バイト）で表現されるものとすると、上記した文字列全探索部１０２は、入力文字列に含まれる文字と辞書バッファ１０１に格納されている文字列に含まれる文字とを比較するために、「入力データサイズ（つまり、入力文字列に含まれる文字数）×辞書データサイズ（つまり、辞書バッファ１０１に格納されている文字列に含まれる文字数）」の数の８ビット比較器を備えている。このような構成の場合、第１比較例の文字列検索装置１００の回路規模は、入力データサイズ（入力スループット）と辞書データサイズとの両方に比例して増大する。

【0098】

なお、一般に辞書バッファ１１に割り当てられている領域のサイズが大きい方がより多くの文字が一致する（つまり、一致長の長い）文字列を検索することができるため、符号化性能が高くなる。しかしながら、辞書バッファ１１に割り当てられている領域のサイズを大きくすることは回路規模の増大の要因となる。

【0099】

これに対して、本実施形態においては、入力文字列に含まれる文字に対応するハッシュ値と辞書バッファ１１に格納されているハッシュ値とを比較する構成であり、当該ハッシュ値のビット数は、例えば文字のビット数（例えば、８ビット）よりも小さい３ビットである。これによれば、本実施形態においてはハッシュ値を比較するために３ビット比較器を用いることができるため、本実施形態に係る文字列検索装置１０に含まれるハッシュ全探索部１３の回路規模は、上記した第１比較例の文字列検索装置１００に含まれる文字列全探索部１０２よりも小さくなる。上記した比較器が回路規模に与える影響は大きいため、結果として、本実施形態に係る文字列検索装置１０の回路規模も同様に、第１比較例の文字列検索装置１００よりも小さくなる。

【0100】

また、上記した第１比較例の文字列検索装置１００のように回路規模が増大することを回避するために、ハッシュテーブルを使用する方式（以下、「ハッシュテーブル」方式と表記）で文字列検索（辞書式符号化）を行う装置（以下、第２比較例の文字列検索装置と表記）が知られている。

【0101】

図１０は、第２比較例の文字列検索装置１１０の構成の一例を示している。図１０に示すように、第２比較例の文字列検索装置１１０は、辞書バッファ１１１、ハッシュテーブル部１１２、ハッシュ変換部１１３、ハッシュ読み出し部１１４、辞書データ選択部１１５、辞書比較部１１６及び最大一致長判定部１１７を含む。

【0102】

第２比較例の文字列検索装置１１０における辞書バッファ１１１には、上記した第１比較例と同様に、過去に入力された文字列（に含まれる連続する複数の文字列の各々）が格納される。なお、入力文字列は、辞書バッファ１１に格納されるとともに、当該辞書バッファ１１１から不一致文字データとして出力される。

【0103】

ハッシュテーブル部１１２には、過去に入力された文字列（予め定められた数の文字）に対応するハッシュ値をインデックスとして、当該文字列が格納されている辞書バッファ１１１内の位置を示すポインタが書き込まれている。

【0104】

ハッシュ変換部１１３は、数バイトの入力文字列（入力データ）をハッシュ値に変換し、当該ハッシュ値をハッシュテーブル部１１２及びハッシュ読み出し部１１４に出力する。

【0105】

ハッシュ変換部１１３からハッシュテーブル部１１２に出力されたハッシュ値に変換された数バイトの入力文字列が格納されている辞書バッファ１１１内の位置を示すポインタは、当該ハッシュ値によって指定されるインデックスによって参照される当該ハッシュテーブル部１１２のテーブルエントリに書き込まれる。なお、このハッシュテーブル部１１２においてハッシュ変換部１１３から出力されたハッシュ値をインデックスとするテーブルエントリにポインタが既に保持されている場合、当該テーブルエントリには、最新のポインタが保持される。また、ハッシュテーブル部１１２においては、１つのハッシュ値をインデックスとする複数のポインタが保持されていてもよい。

【0106】

ハッシュ読み出し部１１４は、ハッシュ変換部１１３から出力されたハッシュ値をインデックスとしてハッシュテーブル部１１２に書き込まれているポインタ（つまり、テーブルエントリ内のポインタ）を全て読み出す。

【0107】

辞書データ選択部１１５は、ハッシュ読み出し部１１４によってハッシュテーブル部１１２から読み出されたポインタに従って、辞書バッファ１１１に格納されている文字列（辞書データ）を選択する。

【0108】

辞書比較部１１６は、入力文字列を入力し、辞書データ選択部１１５によって選択された文字列を当該入力文字列と比較する。これにより、辞書比較部１１６は、入力文字列と辞書データ選択部１１５によって選択された文字列とにおいて一致する文字の長さを示す一致長を取得する。

【0109】

最大一致長判定部１１７は、辞書データ選択部１１５によって選択された文字列毎に辞書比較部１１６によって取得された一致長の中から最大の一致長を判定し、当該最大の一致長と判定された一致長及び当該一致長に対応するポインタ（一致長が最大の文字列の辞書バッファ１１１内の位置を示すポインタ）を一致文字データとして出力する。

【0110】

ここで、上記した第１比較例（「全探索」方式）の文字列検索装置１００と、第２比較例（「ハッシュテーブル」方式）の文字列検索装置１１０とを比べた場合、入力文字列と辞書バッファ内の文字列との一致長を生成するという観点によれば、第１比較例の文字列全探索部１０２と第２比較例の辞書比較部１１６とが対応する構成であるといえる。

【0111】

しかしながら、第１比較例の文字列全探索部１０２においては辞書バッファ１０１に格納されている文字列に含まれる全ての文字に対して探索（比較）処理を実行する必要があるのに対して、第２比較例の辞書比較部１１６においてはハッシュテーブル部１１２に書き込まれているポインタの中でハッシュ値が示したポインタについてのみ読み出し処理（探索処理）が実行される。すなわち、第２比較例の文字列検索装置１１０においては探索処理の対象（候補）が絞られているため、第１比較例の文字列全探索部１０２に備えられる比較器の数よりも第２比較例の辞書比較部１１６に備えられる比較器の数は少なくてよい。よって、第２比較例の文字列検索装置１１０は、第１比較例の文字列検索装置１００と比較して、回路規模（比較器の数）を低減し、かつ、効率的な動作を実現することができる。

【0112】

なお、第２比較例の文字列検索装置１１０は、第１比較例の文字列検索装置１００の構成と比較して、例えばハッシュテーブル部１１２を更に備える必要があるが、当該ハッシュテーブル部１１２自体のサイズは、辞書データサイズのｌｏｇ_２（底が２の対数）に比例する程度の回路規模となる。具体的には、ハッシュテーブル部１１２は、辞書データサイズの対数であるポインタビット幅とポインタ数を掛けたものに対応する回路規模となる。この場合、ポインタ数を制限することで、第２比較例の文字列検索装置１１０は、第１比較例の文字列検索装置１００よりも回路規模を小さくし得る。

【0113】

一方、上記した第１比較例（「全探索」方式）の文字列検索装置１００は、データ履歴（過去に入力された文字列）を漏れなく検索（探索）する構成であるため、検索性能は高い。これに対して、第２比較例（「ハッシュテーブル」方式）の文字列検索装置１１０は、ハッシュ値を用いて辞書バッファ１１１内の候補を絞り込む構成であるため、「全探索」方式と比較すると検索性能は低下する。具体的には、「ハッシュテーブル」方式においてはハッシュ衝突が生じる可能性があるが、当該ハッシュ衝突が生じると辞書バッファ１１１から適切な文字列を選択することができず、「全探索」方式と比べると検索性能を妥協しているといえる。

【0114】

なお、このような「ハッシュテーブル」方式における検索性能の低下の原因であるハッシュ衝突はハッシュ値のビット幅を大きくすることで緩和することが可能であるが、当該ビット幅を大きくした（増加させた）場合には、ハッシュテーブル部１１２のテーブルエントリ数は当該ビット幅の増分の２のべき乗倍で増加するため、当該ハッシュテーブル部１１２の回路規模が飛躍的に大きくなる。

【0115】

更に、ハッシュ衝突に対応するためにハッシュテーブル部１１２において１つのインデックス（ハッシュ値）に対応づけて複数のポインタを書き込むことが考えられるが、このような場合においてもハッシュテーブル１１２のサイズが増加するため、回路規模の増大の要因となる。

【0116】

これに対して、本実施形態においては、過去に入力された文字列に含まれる連続する複数の文字の各々に対応するハッシュ値及び補完データを辞書バッファ１１に格納しておき、このような辞書バッファ１１の中から入力文字列に含まれる文字の各々に対応するハッシュ値と一致するハッシュ値を探索（検索）する構成であるため、ハッシュ値をインデックスとして用いる第２比較例（「ハッシュテーブル」方式）の文字列検索装置１１０と比較して、ハッシュ衝突の影響を緩和することができる。これにより、本実施形態に係る文字列検索装置１０は、第２比較例の文字列検索装置１１０よりも高い検索性能を実現することができる。

【0117】

すなわち、本実施形態によれば、「ハッシュテーブル」方式を超える高い検索性能を、「全探索」方式よりも小さい回路規模で実現することができる。

【0118】

なお、本実施形態に係る文字列検索装置１０と第２比較例の文字列検索装置１１０との回路規模についても簡単に説明する。まず、辞書バッファ１１と辞書バッファ１１１とでは格納されるデータの形式は異なるものの、当該データのサイズは同じであるため、辞書バッファ１１の回路規模と辞書バッファ１１１の回路規模とは同等である。また、辞書データ選択部１４及び辞書データ選択部１１５において選択される一致候補（辞書データ選択部１４によって選択される変換文字データ及び辞書データ選択部１１５によって選択される文字列）の数が同一であれば、本実施形態に係る文字列検索装置１０の辞書データ選択部１４、辞書比較部１６及び最大一致長判定部１７の回路規模と、第２比較例の文字列検索装置１１０の辞書データ選択部１１５、辞書比較部１１６及び最大一致長判定部１１７の回路規模とは同等である。また、本実施形態に係る文字列検索装置１０のハッシュ変換部１２、第１逆ハッシュ変換部１５及び第２逆ハッシュ変換部１８は、他部（他の回路）に比べて極めて小さい規模の回路で構成することができる。

【0119】

このため、本実施形態に係る文字列検索装置１０と第２比較例の文字列検索装置１１０との回路規模の大小は、図３に示すハッシュ全探索部１３の回路規模と、図１０に示すハッシュテーブル部１１２及びハッシュ読み出し部１１４の回路規模との比較結果に依存する。

【0120】

ここで、本実施形態においては３ビットのハッシュ値を用いるものとして説明したが、この場合において、例えば４文字以上一致した部分（４文字分以上の連続するハッシュ値）が一致候補としてハッシュ全探索部１３によって検索されるものとすると、当該一致候補は３ビット×４文字分＝１２ビットのハッシュ値で検出（選択）されることになる。検索性能を揃える簡易的な指標として第２比較例におけるハッシュテーブル部１１２に書き込まれるハッシュ値のビット幅を用いるものとすると、当該ハッシュテーブル部１１２においては、４文字を含む入力文字列から変換される１２ビットのハッシュ値をインデックスとすることが考えられる。

【0121】

以下、このときのハッシュ全探索部１３とハッシュテーブル部１１２及びハッシュ読み出し部１１４との回路規模の比較を行うが、ここでは図１１のように入力文字列の各文字を先頭とする文字列探索を並列に行う構成を想定する。この場合、（スループット文字数（例えば、８）＋一致判定文字数（例えば、４）－１）の文字数で構成される文字列の各文字のハッシュ値と辞書バッファ１１内のハッシュ値とを総当たりで一致判定する。これにより、例えば入力文字列が８文字から構成されている場合、図１１に示すように、８種の４文字の文字列が並列に探索される。なお、探索される文字列間で重複している文字については、当該文字のハッシュ値を共有してもよい。

【0122】

この構成はハッシュ全探索方式（本実施形態に係る文字列検索装置１０において採用される方式）にとって好適なものであるが、２文字以上の入力スループットに対応したハッシュテーブル方式においても使用されるものである。

【0123】

なお、以下の説明においては、辞書サイズが４０９６バイトであり、入力文字列のスループット（スループット文字数）が８文字（８バイト）であるものとする。また、上記したように一致判定文字列文字数（つまり、一致候補として探索される最小の文字数）は４であるものとする。

【0124】

まず、ハッシュ全探索部１３の回路規模について説明する。ここでは、ハッシュ全探索部１３の主要な構成要素についてのみ考慮する。ハッシュ全探索部１３の主要な構成要素としては、入力文字列をハッシュ変換部１２でハッシュ変換したハッシュ値と辞書バッファ１１のハッシュ値の一致を判定する比較器、文字単位のハッシュ一致結果を文字列単位のハッシュ一致フラグに統合するＡＮＤ素子、文字列単位のハッシュ一致フラグをポインタに変換する回路（以下、ポインタ変換回路と表記）である。

【0125】

比較器は排他的論理和（ＸＯＲ）素子で構成され、当該比較器の個数は「辞書サイズ＊（スループット文字数＋一致判定文字列文字数－１）＊文字単位ハッシュビット幅」により算出される。なお、本実施形態における文字単位ハッシュビット幅は、３ビットである。上記したように辞書サイズが４０９６バイトであり、スループット文字数が８（文字）であるものとすると、比較器の個数として１３５１６８が算出される。また、１つの比較器（１ビット当たり）のゲート数が例えば４ゲートであるものとすると、全ての比較器における合計ゲート数は、４×１３５１６８＝５４０６７２となる。

【0126】

文字列統合用ＡＮＤ素子の個数は、「辞書サイズ＊スループット文字数＊（一致判定文字列文字数－１）」により算出される。ここでは、文字列統合用ＡＮＤ素子の個数として９８３０４が算出される。なお、１つの文字列統合用ＡＮＤ素子（１ビット当たり）のゲート数が例えば１ゲートであるものとすると、全ての文字列統合用ＡＮＤ素子における合計ゲート数は、１×９８３０４＝９８３０４となる。

【0127】

ポインタ変換回路はＯＲ素子とＭＵＸ素子で構成され、当該ポインタ変換回路の個数は、「辞書サイズ＊スループット文字数」により算出される。ここでは、ポインタ変換回路の個数として３２７６８が算出される。なお、１つのポインタ変換回路（１ビット当たり）のゲート数が例えば４ゲートであるものとすると、全てのポインタ変換回路における合計ゲート数は、４×３２７６８＝１３１０７２となる。

【0128】

ハッシュ全探索部１３の回路規模を当該ハッシュ全探索部１３の主要な構成要素（比較器、文字列統合用ＡＮＤ素子及びポインタ変換回路）の総ゲート数で表すものとすると、当該ハッシュ全探索部１３の回路規模は、５４０６７２（比較器の合計ゲート数）＋９８３０４（文字列統合用ＡＮＤ素子の合計ゲート数）＋１３１０７２（ポインタ変換回路の合計ゲート数）＝７７００４８と表現できる。

【0129】

次に、ハッシュテーブル部１１２及びハッシュ読み出し部１１４の回路規模について説明する。ここでは、ハッシュテーブル部１１２及びハッシュ読み出し部１１４の主要な構成要素についてのみ考慮する。

【0130】

ハッシュテーブル部１１２においてはテーブルを構成するフリップフロップが必要であり、ハッシュテーブル部１１２のエントリ（ハッシュテーブルエントリ）毎に１つのポインタを格納する場合、ハッシュテーブルエントリ数と格納する辞書ポインタサイズで総ビット数が決まる。すなわち、フリップフロップ（テーブルＦ／Ｆ）の個数は、「ハッシュテーブルエントリ数＊辞書ポインタサイズ」により算出される。ハッシュテーブルエントリ数が４０９６であり、辞書ポインタサイズが１２ビットであるものとすると、フリップフロップの個数として４９１５２が算出される。また、１つのフリップフロップ（１ビット当たり）のゲート数が例えば８ゲートであるものとすると、全てのフリップフロップにおける合計ゲート数は、８×４９１５２＝３９３２１６となる。

【0131】

ハッシュテーブルエントリの各々には書き込み制御（テーブルライト制御）の回路が付随し、ハッシュ値に対する固定値（ハッシュテーブルエントリのインデックス）との一致判定として処理されるので、当該書き込み制御の回路の個数は、「ハッシュテーブルエントリ数＊ハッシュビット幅」により算出される。ここでは上記したように４文字を含む入力文字列から変換される１２ビットのハッシュ値をインデックスとする（つまり、ハッシュビット幅が１２である）場合を想定しているため、書き込み制御の回路の個数としては４９１５２が算出される。なお、１つの書き込み制御の回路（１ビット当たり）のゲート数が例えば１ゲートであるものとすると、全ての書き込み制御の回路における合計ゲート数は、１×４９１５２＝４９１５２となる。

【0132】

ハッシュ読み出し部１１４はハッシュ値に応じたポインタ値を読み出すためにＭＵＸ回路（テーブルリードＭＵＸ）で構成され、当該ＭＵＸ回路の個数は、「ハッシュテーブルエントリ数＊スループット文字数＊辞書ポインタサイズ」により算出される。ここでは、ＭＵＸ回路の個数として３９３２１６が算出される。なお、１つのＭＵＸ回路（１ビット当たり）のゲート数が例えば３ゲートであるものとすると、全てのＭＵＸ回路における合計ゲート数は、３×３９３２１６＝１１７９６４８となる。

【0133】

ハッシュテーブル部１１２及びハッシュ読み出し部１１４の回路規模を当該ハッシュテーブル部１１２及びハッシュ読み出し部１１４の主要な構成要素（フリップフロップ、書き込み制御の回路及びＭＵＸ回路）の総ゲート数で表すものとすると、ハッシュテーブル部１１２及びハッシュ読み出し部１１４の回路規模は、３９３２１６（フリップフロップの合計ゲート数）＋４９１５２（書き込み制御の回路の合計ゲート数）＋１１７９６４８（ＭＵＸ回路の合計ゲート数）＝１６２２０１６と表現できる。

【0134】

このようなハッシュテーブル部１１２及びハッシュ読み出し部１１４の回路規模（総ゲート数）を上記したハッシュ全探索部１３の回路規模（総ゲート数）と比較すると、ハッシュ全探索部１３の回路規模がハッシュテーブル部１１２及びハッシュ読み出し部１１４の回路規模よりも小さくなることがわかる。すなわち、例えば同程度の検索性能を有するように構成した場合、第２比較例に対して本実施形態の方が回路規模に関して優位性があるといえる。

【0135】

なお、本実施形態に係る文字列検索装置１０と第２比較例の文字列検索装置１１０との回路規模の大小関係は、ハッシュ値のビット幅や一致候補として検索されるための最小の一致文字数等によって変動するが、第２比較例の文字列検索装置１１０の検索性能を本実施形態に係る文字列検索装置１０よりも向上させる（例えば、ハッシュ値のビット幅を大きくする等）場合には、更に本実施形態に係る文字列検索装置１０における回路規模に関する優位性が向上すると考えられる。詳細な説明については省略するが、例えばハッシュビット幅を１６ビット（文字単位のハッシュ値のビット幅を４ビット）、ハッシュテーブルエントリ数を６５５３６とした場合には、ハッシュ全探索部１３の回路規模（総ゲート数）は９５０２７２、ハッシュテーブル部１１２及びハッシュ読み出し部１１４の回路規模（総ゲート数）は２６２１４４００となり、回路規模に関する本実施形態の優位性が向上する。

【0136】

更に、本実施形態においては、ハッシュ変換部１２によって入力文字列から変換された連続するハッシュ値及び当該連続するハッシュ値の各々に対応する複数の補完データが辞書バッファ１１に格納され、当該辞書バッファ１１に格納されたハッシュ値が当該補完データを用いて入力文字列に変換されて出力される。このような構成によれば、上記したように辞書バッファ１１に入力文字列が格納されない構成であっても、辞書式符号化の結果として用いられる不一致文字データ（入力文字列）を後段に出力することが可能となる。

【0137】

また、本実施形態においては、辞書バッファ１１に格納されるハッシュ値及びハッシュ変換部１２によって変換されるハッシュ値の各々のビット数（例えば、３ビット）が文字のビット数（例えば、８ビット）よりも小さいものとして説明したが、当該ハッシュ値と当該ハッシュ値に対応する補完データの合計ビット数を、文字のビット数と同一としてもよい。このような構成によれば、ハッシュ値に補完データを加えた変換文字データを辞書バッファ１１に格納したとしても、例えば第１比較例における辞書バッファ１０１及び第２比較例における辞書バッファ１１１と比較して辞書バッファ１１のサイズを大きくする必要がないため、本実施形態に係る文字列検索装置１０における回路規模の抑制に寄与することができる。

【0138】

また、本実施形態においては、ハッシュ変換部１２によって変換された連続するハッシュ値の少なくとも一部と一致する複数の連続するハッシュ値（つまり、複数の一致候補）が検索された場合には、当該連続するハッシュ値毎の一致長のうちの最大の一致長を、当該一致長が最大である連続するハッシュ値が格納されている辞書バッファ１１内の位置を示すポインタとともに出力する。本実施形態においては、このような構成により、入力文字列のより一致長が大きい部分を一致文字データ（相対参照）に置き換えることができるため、符号化効率を向上させることが可能となる。

【0139】

なお、本実施形態においては、過去に入力された文字列に含まれる複数の文字の各々に対応するハッシュ値及び当該ハッシュ値に対応する補完データが辞書バッファ１１（に割り当てられている領域）に格納されるものとして説明したが、当該ハッシュ値及び補完データには異なる領域が割り当てられていてもよい。

【0140】

具体的には、本実施形態において辞書バッファ１１に格納されているハッシュ値は、ハッシュ全探索部１３、辞書データ選択部１４及び逆ハッシュ変換部１８に出力される（つまり、ハッシュ全探索部１３、辞書データ選択部１４及び逆ハッシュ変換部１８によって頻繁に読み出される）ため、高速に読み出すことが可能な領域に格納されることが好ましい。この場合、ハッシュ値は、例えばフリップフロップ回路等に格納される（つまり、ハッシュ値にはフリップフロップ回路の領域が割り当てられる）ようにしてもよい。一方、補完データはハッシュ値よりも読み出される頻度が少ないため、当該補完データは、例えばＳＲＡＭ等のメモリに格納される（つまり、メモリの領域が割り当てられる）ようにしてもよい。すなわち、本実施形態における辞書バッファ１１は、ハッシュ値を格納するためのフリップフロップ回路の領域及び補完データを格納するためのメモリの領域から構成されていてもよい。

【0141】

（第２実施形態）
次に、第２実施形態について説明する。なお、本実施形態においては、前述した第１実施形態と同様の部分についての詳しい説明を省略し、当該第１実施形態とは異なる部分について主に説明する。また、本実施形態におけるメモリシステムのハードウェア構成については前述した第１実施形態と同様であるため、適宜、図１を用いて説明する。

【0142】

本実施形態におけるメモリシステム１が備える圧縮装置２ｅは前述した第１実施形態と同様に文字列検索装置及びエントロピー符号化装置を備えるが、以下、本実施形態に係る文字列検索装置について説明する。

【0143】

図１２は、本実施形態に係る文字列検索装置の構成の一例を示すブロック図である。なお、図１２においては、前述した図３と同一の部分には同一参照符号を付してその詳しい説明を省略し、当該図３と異なる部分について説明する。

【0144】

図１２に示すように、文字列検索装置１０は、辞書バッファ１１、ハッシュ変換部１２、ハッシュ全探索部１３、辞書データ選択部１４、辞書比較部１６、最大一致長判定部１７及び逆ハッシュ変換部１８を含む。

【0145】

すなわち、本実施形態は、前述した第１実施形態における第１逆ハッシュ変換部１５が省略されている点で、当該第１実施形態とは異なる。なお、図１２に示す逆ハッシュ変換部１８は、前述した第１実施形態における第２逆ハッシュ変換部１８に相当する。

【0146】

本実施形態において、辞書比較部１６は、前述した第１実施形態とは異なり、ハッシュ変換部１２から出力された連続する変換文字データ（以下、第１変換文字データと表記）を入力し、辞書データ選択部１４から出力された連続する変換文字データ（以下、第２変換文字データと表記）を当該連続する第１変換文字データと比較する。これにより、辞書比較部１６は、連続する第１変換文字データと連続する第２変換文字データとにおいて一致する変換文字データを判定し、当該一致する変換文字データの数を一致長として取得する。

【0147】

なお、図１２に示す辞書比較部１６以外の辞書バッファ１１、ハッシュ変換部１２、ハッシュ全探索部１３、辞書データ選択部１４、最大一致長判定部１７及び逆ハッシュ変換部１８は、前述した第１実施形態において説明した通りであるため、ここではその詳しい説明を省略する。

【0148】

上記したように本実施形態においては、入力文字列に含まれる複数の連続する文字から変換された連続するハッシュ値（第２ハッシュ値）及び当該連続するハッシュ値の各々に対応する複数の補完データ（第１補完データ）と、辞書データ選択部１４から出力される連続するハッシュ値（第１ハッシュ値）及び当該連続するハッシュ値の各々に対応する複数の補完データ（第２補完データ）とを比較し、一致長を取得する構成により、前述した第１と同様に高い検索性能を小さい回路規模で実現することができる。

【0149】

なお、本実施形態においては、ハッシュ変換及び逆ハッシュ変換が１対１の可逆変換となるように変換文字データが生成されるものとする。具体的には、例えば入力文字列に含まれる複数の文字の各々から変換された変換文字データのビット幅（ハッシュ値及び補完データの合計ビット幅）が、当該変換文字データに変換された文字のビット幅（入力ビット幅）よりも小さい場合には、文字と変換文字データとが多対１となり、文字と変換文字データとが１対１の可逆変換となる関係（つまり、当該変換文字データに変換された文字と、当該変換文字データから逆変換される文字とが同一となる関係）を担保することができない。このため、本実施形態においては、変換文字データのビット幅と文字のビット幅とが一致するように、変換文字データが生成される。このような変換文字データによれば、文字と変換文字データとが１対１の可逆変換となる関係を担保することができる。なお、入力文字列に含まれる複数の文字の各々から変換された変換文字データのビット幅が文字のビット幅よりも大きい場合であっても可逆変換となる関係を担保することはできるが、この場合には辞書比較部１６で用いる比較器のサイズが大きくなる（つまり、回路規模が大きく）なるため、変換文字データのビット幅と文字のビット幅とを一致させることが好ましい。

【0150】

このように文字と変換文字データとが１対１の可逆変換となる関係である場合には、前述した第１実施形態において説明したように逆ハッシュ変換を行う（つまり、変換文字列を入力文字列と比較する）ことなく、変換文字データの形式での比較で正確な一致長を取得することが可能となる。

【0151】

また、本実施形態においては、第１実施形態と比較して第１逆ハッシュ変換部１５が省略された構成であるが、当該第１逆ハッシュ変換部１５の省略による回路規模の縮小率（縮小幅）は大きくはない。しかしながら、本実施形態においては、第１逆ハッシュ変換部１５による逆ハッシュ変換処理が実行されないことにより、辞書比較処理（つまり、辞書バッファ１１から辞書比較部１６へのクリティカルパス）が短縮され、当該逆ハッシュ変換処理による遅延（ハードウェア実装のゲート遅延）が軽減されるという副次的な効果が期待できる。

【0152】

なお、辞書データ選択部１４はハッシュ全探索部１３から出力されたポインタによって示される位置から最大一致長に相当する数の連続する変換文字データを選択し、当該選択された変換文字データを出力するが、本実施形態においては、当該変換文字データのうちハッシュ全探索部１３によってハッシュ変換部１２から出力されたハッシュ値（つまり、入力文字列に含まれる文字に対応するハッシュ値）と一致すると判定された変換文字データに代えて補完データを選択及び出力する（つまり、ハッシュ値を選択及び出力しない）構成としてもよい。このような構成の場合、ハッシュ値の一致についてはハッシュ全探索部１３で既に判定されているとみなし、辞書比較部１６においては、辞書データ選択部１４から出力された補完データとハッシュ変換部１２から出力された補完データとを比較するのみで一致長を取得することができる。

【0153】

一方、変換文字データのうちハッシュ変換部１２から出力されたハッシュ値と一致するとハッシュ全探索部１３によって判定されていない変換文字データについては、当該変換文字データが辞書データ選択部１４において選択及び出力され、辞書比較部１６においては当該辞書データ選択部１４から出力された変換文字データとハッシュ変換部１２から出力された変換文字データを比較すればよい。

【0154】

すなわち、本実施形態においては、ハッシュ全探索部１３において一致を確認した文字数分はハッシュ値を選択せず、補完データのみの比較を行い、ハッシュ全探索部１３において一致を確認していない文字数分はハッシュ値及び補完データを選択し、ハッシュ値及び補完データの比較を行う（つまり、一致が確認された文字に応じて選択された補完データと、一致が確認されていない文字に応じて選択されたハッシュ値及び補完データとを用いて一致長を取得する）構成としてもよい。

【0155】

このような構成によれば、辞書比較部１６に備えられる比較器の数を低減し、回路規模を小さくすることができる。

【0156】

ここでは本実施形態に係る文字列検索装置１０においては辞書データ選択部１４が変換文字データに代えて補完データを選択及び出力するように構成されていてもよいことについて説明したが、前述した第１実施形態においては、逆ハッシュ変換処理を実行する必要があるため、辞書データ選択部１４は変換文字データを選択及び出力する必要がある。

【0157】

（第３実施形態）
次に、第３実施形態について説明する。なお、本実施形態においては、前述した第１及び第２実施形態と同様の部分についての詳しい説明を省略し、当該第１及び第２実施形態とは異なる部分について主に説明する。また、本実施形態におけるメモリシステムのハードウェア構成については前述した第１実施形態と同様であるため、適宜、図１を用いて説明する。

【0158】

本実施形態におけるメモリシステム１が備える圧縮装置２ｅは前述した第１及び第２実施形態と同様に文字列検索装置及びエントロピー符号化装置を備えるが、以下、本実施形態に係る文字列検索装置について説明する。

【0159】

図１３は、本実施形態に係る文字列検索装置の構成の一例を示すブロック図である。なお、図１３においては、前述した図３及び図１２と同一の部分は同一参照符号を付してその詳しい説明を省略し、当該図３及び図１２と異なる部分について説明する。

【0160】

図１３に示すように、文字列検索装置１０は、辞書バッファ１１、ハッシュ変換部１２、ハッシュ全探索部１３、辞書データ選択部１４、辞書比較部１６、最大一致長判定部１７及びデータ遅延部１９を含む。

【0161】

すなわち、本実施形態は、前述した第２実施形態における第２逆ハッシュ変換部１８が省略され、データ遅延部１９が追加されている点で、当該第２実施形態とは異なる。

【0162】

データ遅延部１９は、入力文字列を受け取り、当該入力文字列を文字列検索装置１０に対して要求されるスループットに応じて保持する。換言すれば、データ遅延部１９は、最大一致長判定部１７から一致文字データが出力されるまでのレイテンシに相当するデータ遅延を行う。データ遅延部１９は、このようなデータ遅延の後に入力文字列を不一致文字データとして出力する。

【0163】

なお、図１３に示すデータ遅延部１９以外の辞書バッファ１１、ハッシュ変換部１２、ハッシュ全探索部１３、辞書データ選択部１４、辞書比較部１６及び最大一致長判定部１７は、前述した第２実施形態において説明した通りであるため、ここではその詳しい説明を省略する。

【0164】

本実施形態においては、上記したように入力文字列（第２文字列）を、最大一致長判定部１７から一致文字データ（一致長及びポインタ）が出力されるまで保持して出力する構成により、文字列検索装置１０の回路規模を更に抑制することができる可能性がある。

【0165】

具体的には、文字列検索装置１０の処理レイテンシが大きい場合、データ遅延部１９が備える遅延用回路は前述した第２実施形態における逆ハッシュ変換部１８（第１実施形態における第２逆ハッシュ変換部１８）と比べて小さい回路規模とはならない。しかしながら、例えば辞書バッファ１１の構成としてアクセスデータ数に制約が生じるＳＲＡＭ等を実装するような場合、前述した第１及び第２実施形態のように辞書バッファ１１が不一致文字データを出力する構成が回路規模の増加につながる可能性がある。このような場合には、辞書バッファ１１に不一致文字データを出力させることなく、レイテンシ相当のデータ遅延部１９を備える構成とすることにより、文字列検索装置１０の回路規模を抑制することが期待できる。

【0166】

また、前述した第１及び第２実施形態においては変換文字データに基づいて逆ハッシュ変換処理を実行する必要があるため、ハッシュ変換部１２が逆ハッシュ変換処理の複雑さまたは処理遅延（ゲート遅延段数）等を考慮した変換文字データを生成する必要がある。しかしながら、本実施形態においては逆ハッシュ変換処理を実行する必要がないため、当該変換文字データに関してより自由度の高い設計を行う（つまり、ハッシュ変換部１２による演算をより単純化する）ことができる。

【0167】

なお、詳しい説明を省略するが、前述した第２実施形態において説明した辞書データ選択部１４が変換文字データに代えて補完データを選択及び出力する構成は、本実施形態に適用されても構わない。

【0168】

以上述べた少なくとも１つの実施形態によれば、高い検索性能を小さな回路規模で実現することが可能な文字列検索装置及びメモリシステムを提供することができる。

【0169】

本発明のいくつかの実施形態を説明したが、これらの実施形態は、例として提示したものであり、発明の範囲を限定することは意図していない。これら実施形態は、その他の様々な形態で実施されることが可能であり、発明の要旨を逸脱しない範囲で、種々の省略、置き換え、変更を行うことができる。これら実施形態やその変形は、発明の範囲や要旨に含まれると同様に、特許請求の範囲に記載された発明とその均等の範囲に含まれるものである。

【符号の説明】

【0170】

１…メモリシステム、２…コントローラ、２ａ…ホストインタフェース、２ｂ…ＣＰＵ、２ｃ…ＮＡＮＤインタフェース、２ｄ…ＤＲＡＭインタフェース、２ｅ…圧縮装置、２ｆ…伸張装置、３…ＮＡＮＤ型フラッシュメモリ、４…ＤＲＡＭ、１０…文字列検索装置、１１…辞書バッファ、１２…ハッシュ変換部（第１変換部）、１３…ハッシュ全探索部（検索部）、１４…辞書データ選択部、１５…第１逆ハッシュ変換部（第２変換部）、１６…辞書比較部、１７…最大一致長判定部（出力部）、１８…第２逆ハッシュ変換部（第３変換部）、１９…データ遅延部。

【図1】