特許7526538 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 三水　明男の特許一覧

特許7526538検索装置、検索方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4A
4B
5
6A
6B
7
8
9
10A
10B
11
12
13A
13B
14
15A
15B
16
17
18A
18B
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B1)

(11)【特許番号】

(24)【登録日】2024-07-24

(45)【発行日】2024-08-01

(54)【発明の名称】検索装置、検索方法、及びプログラム

(51)【国際特許分類】

G06F 16/901 20190101AFI20240725BHJP

【ＦＩ】

G06F16/901

【請求項の数】 17

(21)【出願番号】P 2024040635

(22)【出願日】2024-03-15

【審査請求日】2024-03-15

【早期審査対象出願】

(73)【特許権者】

【識別番号】521416409

【氏名又は名称】三水明男

(74)【代理人】

【識別番号】100103894

【弁理士】

【氏名又は名称】家入健

(72)【発明者】

【氏名】三水明男

【審査官】松尾真人

(56)【参考文献】

【文献】特開平０３－１２２７６６（ＪＰ，Ａ）

【文献】特開昭６２－０９５６２８（ＪＰ，Ａ）

【文献】特開昭６２－１５４１３４（ＪＰ，Ａ）

【文献】特開平０５－１７３７５９（ＪＰ，Ａ）

【文献】米国特許出願公開第２０２１／０１３２９０２（ＵＳ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

(57)【特許請求の範囲】

【請求項1】

可変長の登録文字列と、複数のノードから構成されるデータツリーとを格納する格納部であって、前記ノードは、前記登録文字列を指し示す直列文字列情報と、当該ノードの下位の遷移先に関するブランチ情報とを含む、格納部と、
前記ノードの前記直列文字列情報及び前記ブランチ情報に基づいて、検索文字列を含む前記登録文字列を検索する検索部と、
を備え、
前記ブランチ情報は、前記直列文字列情報が指し示す登録文字列に続く複数のブランチ文字と、前記複数のブランチ文字のそれぞれに対応する遷移先情報と、を含み、
前記ノードは、前記登録文字列及び前記検索文字列における前記ブランチ文字の位置を示すブランチ位置を含み、
前記直列文字列情報は、前記遷移先情報が指し示す複数の登録文字列に共通する文字列と終端同士が一致する前記登録文字列が存在する場合、前記登録文字列を単独で指し示し、
前記直列文字列情報は、前記遷移先情報が指し示す複数の登録文字列に共通する文字列と終端同士が一致する前記登録文字列が存在しない場合、当該ノードの前記遷移先情報が指し示す遷移先の前記登録文字列を、前記遷移先情報と共に指し示し、
前記検索部は、前記ノードに含まれる前記直列文字列情報が指し示す登録文字列と前記検索文字列との比較範囲を、前記ノードに含まれる前記ブランチ位置と前記データツリーにおける前記ノードの直前のノードに含まれる前記ブランチ位置との差に基づいて動的に決定する、
検索装置。

【請求項2】

前記ノードは、前記直列文字列情報が前記登録文字列を単独で指し示すか否かを示すフラグを含む、
請求項１に記載の検索装置。

【請求項3】

前記検索部は、前記ノードに含まれる前記直列文字列情報が指し示す登録文字列及び前記検索文字列の比較結果と、前記ノードに含まれる前記フラグとに基づいて、前記検索を行う、
請求項２に記載の検索装置。

【請求項4】

前記検索部は、前記ノードに含まれる前記直列文字列情報が指し示す登録文字列と前記検索文字列とを、並列処理可能なデータ単位で比較する、
請求項１乃至３のいずれか一項に記載の検索装置。

【請求項5】

前記検索部は、前記ノードに含まれる前記直列文字列情報が指し示す登録文字列と前記検索文字列とを、ＳＩＭＤ（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ／ＭｕｌｔｉｐｌｅＤａｔａ）命令により比較する、
請求項４に記載の検索装置。

【請求項6】

前記遷移先情報は、前記複数のブランチ文字の後に連続して格納される、
請求項１乃至３のいずれか一項に記載の検索装置。

【請求項7】

前記検索部は、前記ノードに含まれる前記複数のブランチ文字と前記検索文字列における前記ブランチ位置に対応する文字とを、並列処理可能なデータ単位で比較する、
請求項１乃至３のいずれか一項に記載の検索装置。

【請求項8】

前記検索部は、前記ノードに含まれる前記複数のブランチ文字と前記検索文字列における前記ブランチ位置に対応する文字とを、ＳＩＭＤ命令により比較する、
請求項７に記載の検索装置。

【請求項9】

新たに登録する前記登録文字列に基づいて前記ノードを割り当て、前記割り当てたノードに前記直列文字列情報及び前記ブランチ情報を設定する登録部を備える、
請求項１乃至３のいずれか一項に記載の検索装置。

【請求項10】

前記登録部は、前記データツリーを構成している前記ノードに含まれる前記直列文字列情報が指し示す登録文字列と前記新たに登録する登録文字列とを、並列処理可能なデータ単位で比較し、前記比較した結果に基づいて、前記割り当てたノードに前記直列文字列情報及び前記ブランチ情報を設定する、
請求項９に記載の検索装置。

【請求項11】

前記登録部は、前記データツリーを構成している前記ノードに含まれる前記直列文字列情報が指し示す登録文字列と前記新たに登録する登録文字列とを、ＳＩＭＤ命令により比較し、前記比較した結果に基づいて、前記割り当てたノードに前記直列文字列情報及び前記ブランチ情報を設定する、
請求項１０に記載の検索装置。

【請求項12】

前記登録文字列は、数値データを含み、
前記登録部は、前記数値データに含まれる符号あり固定小数点数値の先頭ビットを反転して、符号なし固定小数点数値に変換し、前記変換後の数値を前記格納部に格納する、
請求項９に記載の検索装置。

【請求項13】

前記登録文字列は、数値データを含み、
前記登録部は、前記数値データに含まれる浮動小数点数値の符号ビットが０の場合は前記符号ビットを反転して、前記反転後の数値を前記格納部に格納し、前記浮動小数点数値の符号ビットが１の場合は全ビットを反転して、前記反転後の数値を前記格納部に格納する、
請求項９に記載の検索装置。

【請求項14】

前記登録文字列は、可変長の文字列と前記数値データを組み合わせた複合キーである、
請求項１２に記載の検索装置。

【請求項15】

前記登録部は、前記登録文字列に含まれるリトルエンディアン形式のデータをビックエンディアン形式のデータに変換し、前記変換後のデータを前記格納部に格納する、
請求項９に記載の検索装置。

【請求項16】

検索装置により実行される検索方法であって、
可変長の登録文字列と、複数のノードから構成されるデータツリーとを格納し、前記ノードは、前記登録文字列を指し示す直列文字列情報と、当該ノードの下位の遷移先に関するブランチ情報とを含み、
前記ノードの前記直列文字列情報及び前記ブランチ情報に基づいて、検索文字列を含む前記登録文字列を検索し、
前記ブランチ情報は、前記直列文字列情報が指し示す登録文字列に続く複数のブランチ文字と、前記複数のブランチ文字のそれぞれに対応する遷移先情報と、を含み、
前記ノードは、前記登録文字列及び前記検索文字列における前記ブランチ文字の位置を示すブランチ位置を含み、
前記直列文字列情報は、前記遷移先情報が指し示す複数の登録文字列に共通する文字列と終端同士が一致する前記登録文字列が存在する場合、前記登録文字列を単独で指し示し、
前記直列文字列情報は、前記遷移先情報が指し示す複数の登録文字列に共通する文字列と終端同士が一致する前記登録文字列が存在しない場合、当該ノードの前記遷移先情報が指し示す遷移先の前記登録文字列を、前記遷移先情報と共に指し示し、
前記検索では、前記ノードに含まれる前記直列文字列情報が指し示す登録文字列と前記検索文字列との比較範囲を、前記ノードに含まれる前記ブランチ位置と前記データツリーにおける前記ノードの直前のノードに含まれる前記ブランチ位置との差に基づいて動的に決定する、
検索方法。

【請求項17】

可変長の登録文字列と、複数のノードから構成されるデータツリーとを格納し、前記ノードは、前記登録文字列を指し示す直列文字列情報と、当該ノードの下位の遷移先に関するブランチ情報とを含み、
前記ノードの前記直列文字列情報及び前記ブランチ情報に基づいて、検索文字列を含む前記登録文字列を検索し、
前記ブランチ情報は、前記直列文字列情報が指し示す登録文字列に続く複数のブランチ文字と、前記複数のブランチ文字のそれぞれに対応する遷移先情報と、を含み、
前記ノードは、前記登録文字列及び前記検索文字列における前記ブランチ文字の位置を示すブランチ位置を含み、
前記直列文字列情報は、前記遷移先情報が指し示す複数の登録文字列に共通する文字列と終端同士が一致する前記登録文字列が存在する場合、前記登録文字列を単独で指し示し、
前記直列文字列情報は、前記遷移先情報が指し示す複数の登録文字列に共通する文字列と終端同士が一致する前記登録文字列が存在しない場合、当該ノードの前記遷移先情報が指し示す遷移先の前記登録文字列を、前記遷移先情報と共に指し示し、
前記検索では、前記ノードに含まれる前記直列文字列情報が指し示す登録文字列と前記検索文字列との比較範囲を、前記ノードに含まれる前記ブランチ位置と前記データツリーにおける前記ノードの直前のノードに含まれる前記ブランチ位置との差に基づいて動的に決定する、
処理をコンピュータに実行させるためのプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、検索装置、検索方法、及びプログラムに関する。

【背景技術】

【0002】

近年のＩＴ（Information Technology）技術の発達及び世界的な普及に伴い、コンピュータにおけるデータ処理は、企業の競争力をも左右する最も重要な要素に成っている。特にＩｏＴ（Intern et of Things）の推進や５Ｇの普及等により、全世界のデータ量はさらに爆発的に増加すると予測されている。このため、データ処理技術の飛躍的な向上が望まれている。

【0003】

データ処理技術として、例えば、データ検索に関連する技術として、特許文献１、非特許文献１～４が知られている。特許文献１には、Ｐａｔｒｉｃｉａ－Ｔｒｅｅを用いた情報検索方法が記載されている。非特許文献１には、Ｔｒｉｅ（Ｐｒｅｆｉｘ-Ｔｒｅｅ)による効率的なインデックス作成方法が記載されている。非特許文献２には、ＶＡＳＴ木を用いたＳＩＭＤ命令（ＳｉｎｇｌｅＩｎｓｔｒｕｃｔｉｏｎ／ＭｕｌｔｉｐｌｅＤａｔａ）による大規模データ探索方法が記載されている。非特許文献３には、Ｔｒｉｅの高さを最適化する方法が記載されている。非特許文献４には、ＳＩＭＤ命令を使用してツリーベースのインデックス構造の処理を高速化する方法が記載されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２００１－３５７０７０号公報

【非特許文献】

【0005】

【文献】Matthias Boehm, Benjamin Schlegel, Peter Benjamin Volk, Ulrike Fischer, Dirk Habich, Wolfgang Lehner, "Efficient In-Memory Indexing with Generalized Prefix Trees", Datenbanksysteme fur Business, Technologie und Web (BTW), pp. 227-246, 2011年3月, [令和５年１２月１８日検索], インターネット<URL:https://dl.gi.de/bitstreams/4acd192a-e10b-4fa5-bb29-af8907b0a1ae/download>

【文献】山室健, 鬼塚真, 日高東潮, 山室雅司, "VAST木: 木構造索引の圧縮を用いたSIMD命令による大規模データ探索の高速化", 情報処理学会論文誌データベース, Vol.8，No.2，pp.30-42, 2015年6月, [令和５年１２月１８日検索], インターネット<URL:https://db-event.jpn.org/deim2011/proceedings/pdf/e2-1.pdf>

【文献】Robert Binna, Eva Zangerle, Martin Pichl, Gunther Specht, Viktor Leis, "HOT: A Height Optimized Trie Index for Main-Memory Database Systems", SIGMOD '18: Proceedings of the 2018 International Conference on Management of Data, 2018年5月, pp.521-534, [令和５年１２月１８日検索], インターネット<URL:https://15721.courses.cs.cmu.edu/spring2020/papers/07-oltpindexes2/p521-binna.pdf>

【文献】Steffen Zeuch, Frank Huber, Johann-Christoph Freytag, "Adapting Tree Structures for Processing with SIMD Instructions", 17th International Conference on Extending Database Technology(EDBT), p.97-108, 2014年3月, [令和５年１２月１８日検索], インターネット<URL:https://openproceedings.org/2014/conf/edbt/ZeuchFH14.pdf>

【発明の概要】

【発明が解決しようとする課題】

【0006】

しかしながら、上記のような関連する技術では、可変長の文字列を検索することが考慮されていないため、効率よく検索することができない場合がある。

【0007】

本発明は、このような事情に鑑みてなされたものであって、効率よく文字列を検索することが可能な検索装置、検索方法、及びプログラムを提供することを目的とする。

【課題を解決するための手段】

【0008】

本発明に係る検索装置は、可変長の登録文字列と、複数のノードから構成されるデータツリーとを格納する格納部であって、前記ノードは、前記登録文字列の少なくとも一部の文字列を示す直列文字列情報と、当該ノードの下位の遷移先に関するブランチ情報とを含む、格納部と、前記ノードの前記直列文字列情報及び前記ブランチ情報に基づいて、検索文字列を含む前記登録文字列を検索する検索部と、を備え、前記直列文字列情報は、前記直列文字列情報が示す文字列と終端同士が一致する前記登録文字列が存在する場合、前記登録文字列の実体を保持し、前記直列文字列情報が示す文字列と終端同士が一致する前記登録文字列が存在しない場合、当該ノードの前記ブランチ情報が示す遷移先の前記登録文字列を共用参照するものである。

【0009】

本発明に係る検索方法は、可変長の登録文字列と、複数のノードから構成されるデータツリーとを格納し、前記ノードは、前記登録文字列の少なくとも一部の文字列を示す直列文字列情報と、当該ノードの下位の遷移先に関するブランチ情報とを含み、前記ノードの前記直列文字列情報及び前記ブランチ情報に基づいて、検索文字列を含む前記登録文字列を検索し、前記直列文字列情報は、前記直列文字列情報が示す文字列と終端同士が一致する前記登録文字列が存在する場合、前記登録文字列の実体を保持し、前記直列文字列情報が示す文字列と終端同士が一致する前記登録文字列が存在しない場合、当該ノードの前記ブランチ情報が示す遷移先の前記登録文字列を共用参照するものである。

【0010】

本発明に係るプログラムは、可変長の登録文字列と、複数のノードから構成されるデータツリーとを格納し、前記ノードは、前記登録文字列の少なくとも一部の文字列を示す直列文字列情報と、当該ノードの下位の遷移先に関するブランチ情報とを含み、前記ノードの前記直列文字列情報及び前記ブランチ情報に基づいて、検索文字列を含む前記登録文字列を検索し、前記直列文字列情報は、前記直列文字列情報が示す文字列と終端同士が一致する前記登録文字列が存在する場合、前記登録文字列の実体を保持し、前記直列文字列情報が示す文字列と終端同士が一致する前記登録文字列が存在しない場合、当該ノードの前記ブランチ情報が示す遷移先の前記登録文字列を共用参照する、処理をコンピュータに実行させるためのプログラムである。

【発明の効果】

【0011】

本発明によれば、効率よく文字列を検索することが可能な検索装置、検索方法、及びプログラムを提供することができる。

【図面の簡単な説明】

【0012】

【図1】実施の形態１に係るデータツリーの構成例を示す構成図である。

【図2】実施の形態１に係るデータツリーの具体例を示す図である。

【図3】実施の形態１に係る検索装置を示す構成図である。

【図4A】実施の形態１に係る完全一致検索処理の動作例を示すフローチャートである。

【図4B】実施の形態１に係る完全一致検索処理の動作例を示すフローチャートである。

【図5】実施の形態１に係る完全一致検索処理の具体例を説明するための図である。

【図6A】実施の形態１に係る直列文字列比較処理の動作例を示すフローチャートである。

【図6B】実施の形態１に係る直列文字列比較処理の動作例を示すフローチャートである。

【図7】実施の形態１に係るブランチバイト列比較処理の動作例を示すフローチャートである。

【図8】実施の形態１に係る差異位置インデックス取得処理の動作例を示す図である。

【図9】実施の形態１に係る一致位置インデックス取得処理の動作例を示す図である。

【図10A】実施の形態１に係る検索区間インデックス取得処理の動作例を示す図である。

【図10B】実施の形態１に係る検索区間インデックス取得処理の動作例を示す図である。

【図11】実施の形態１に係るバイト最上位ビット集約処理の動作例を示す図である。

【図12】実施の形態１に係るノードデータのメモリ配置例を示す図である。

【図13A】実施の形態２に係る前方一致検索処理の動作例を示すフローチャートである。

【図13B】実施の形態２に係る前方一致検索処理の動作例を示すフローチャートである。

【図14】実施の形態２に係る前方一致検索処理の具体例を説明するための図である。

【図15A】実施の形態２に係る反復取得処理の動作例を示すフローチャートである。

【図15B】実施の形態２に係る反復取得処理の動作例を示すフローチャートである。

【図16】実施の形態２に係る反復取得処理の具体例を説明するための図である。

【図17】実施の形態３に係る検索装置を示す構成図である。

【図18A】実施の形態３に係る登録処理の動作例を示すフローチャートである。

【図18B】実施の形態３に係る登録処理の動作例を示すフローチャートである。

【図19】実施の形態３に係る登録処理の具体例を説明するための図である。

【図20】実施の形態３に係る登録処理の具体例を説明するための図である。

【図21】実施の形態３に係る登録処理の具体例を説明するための図である。

【図22】実施の形態３に係る登録処理の具体例を説明するための図である。

【図23】実施の形態３に係る登録処理の具体例を説明するための図である。

【図24】実施の形態３に係る登録処理の具体例を説明するための図である。

【図25】実施の形態３に係る登録処理の具体例を説明するための図である。

【図26】実施の形態４に係るデータ変換規則例の表を示す図である。

【図27】実施の形態４に係る符号なし整数値の比較結果を示す図である。

【図28】実施の形態４に係る符号付き整数値の比較結果を示す図である。

【図29】実施の形態４に係る浮動小数点数値のフォーマット例を示す図である。

【図30】実施の形態４に係る２つのエンディアンのデータ例を示す図である。

【図31】実施の形態５に係るマルチキーの構成例の構成例を示す図である。

【図32】一般的なマルチキーの比較回数を説明するための図である。

【図33】実施の形態５におけるマルチキーの比較回数を説明するための図である。

【発明を実施するための形態】

【0013】

以下、図面を参照して本発明の実施の形態について説明する。ただし、本発明が以下の実施の形態に限定される訳ではない。また、説明を明確にするため、以下の記載および図面は、適宜、省略、および簡略化がなされている。なお、各図面において、同一の要素には同一の符号が付されており、必要に応じて重複説明は省略されている。

【0014】

（関連する技術の検討）
実施の形態の理解を助けるため、コンピュータにおけるデータ処理について説明する。コンピュータの中で扱うデータには、様々なものが存在するが、その基本は、固定小数点（Ｉｎｔ）や浮動小数点（Ｆｌｏａｔ）などの数値データと、文字コードを連結した文字列になる。イメージや音声などのデータは、この両者のハイブリッド的な位置付で、数値データを連結した数値列と考えることができる。

【0015】

この中の数値データのサイズは８ｂｉｔ，１６ｂｉｔ，３２ｂｉｔ，６４ｂｉｔなどの固定サイズで構成される。一方、現在のコンピュータの処理サイズは６４ｂｉｔ化が進んでいる。このため、６４ｂｉｔ（８バイト）以下である数値型のデータはＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）の持つ命令（ＩｎｓｔｒｕｃｔｉｏｎＳｅｔ）を使い、一つのデータに対し、論理演算（Ａｎｄ，Ｏｒ，Ｎｏｔなど）や算術演算（Ａｄｄ，Ｓｕｂ，Ｍｕｌ，Ｄｉｖなど）を一回の命令操作で完結することが出来る。このことから、数値データはコンピュータにとって、扱うのが容易なデータ形式と言える。

【0016】

これに対し、文字列は、氏名や、会社名、商品名、住所、説明文など最短１バイトから長いものでは数千バイトを超えるものもあり、これら長さの異なるデータを一つの文字列データとして扱う必要がある。このように、文字列は可変サイズで、多くの場合、６４ｂｉｔ（８バイト）より大きなサイズになるため、その操作は、ＣＰＵによる一回の命令操作では完結せず、長さやサイズに合わせて、複数の命令を組み合わせて行うことになる。このことから、文字列データは数値データに比べると、処理に手間がかかるデータ形式と言える。

【0017】

しかしながら、文字列は人間が直接認識できる文字の組み合わせで構成され、アルファベットや数字、さらには漢字やひらがななども自由に連結して構成できるため、商品コードや、各種分類コード、商品名、住所表記などのように、数値データに比べ、様々なデータの表現に幅広く利用される。このように、文字列は前記のように様々な意味を持つデータに使われ、その応用範囲も広い。従ってデータベースシステムにおいても、最も基本的なデータ型の一つ（一般にはＶａｒＣｈａｒと呼ばれる場合が多い。）として扱われる。

【0018】

コンピュータシステム上で文字列を扱う場合、基本操作として、文字列データの登録、削除ならびに検索の機能が必要になる。数値データのような、単独のデータと異なり、文字列は複数の文字を繋げた一連のデータを一つのデータとして扱う。このため、文字列に対する検索の種類は複数あり、大きく分けて完全一致検索、前方一致検索、範囲検索（大小検索）、後方一致検索、中間一致検索の５つがある。

【0019】

完全一致検索は、その名の通り、検索キーと対象データが完全に一致したものを検索する。前方一致検索は、対象データの先頭側が検索キーと一致したものを検索する。この場合、対象の文字列の検索キーより後の部分は何であっても良い。

【0020】

範囲検索（大小検索）は、文字列を辞書順の並びとした場合に、開始位置と終了位置の文字列を与え、その区間に該当するものを検索する。開始位置や終了位置は、完全一致、前方一致のいずれかの検索キーを使うことが出来る。また、検索キーの指定は、開始位置、終了位置のいずれか一方のみでも良い。

【0021】

後方一致検索は前方一致の逆で、対象データの後方側が検索キーと一致したものを検索する。この場合、対象の文字列の検索キーより前の部分は何であっても良い。中間一致検索は対象データのいずれかの位置に検索キーと一致した文字列が存在するものを検索する。

【0022】

発明者は、文字列の検索を効率よく行うため、データ検索に関連する技術について検討した。コンピュータ上で扱うデータ量は近年のＢｉｇＤａｔａの流れもあり、非常に多くなっている。しかし、単純にデータを入力順に格納し、その格納済みデータを先頭から順次チェックしていく方式では、データの検索に多大な時間とコストがかかってしまう。このため、大量データを効率よく扱うための技術は従来から様々な手法が提案されている。特に、「コンピュータに大量のデータを登録し、その中から所定のデータを高速に検索する技術」はデータを扱う上での重要な機能で、関連する技術として、特許文献１、非特許文献１～４などの様々な処理方式が提案されている。

【0023】

Ｐａｔｒｉｃｉａ－Ｔｒｅｅは、広く知られた２分ツリー探索の１種であり、例えば、特許文献１に記載されている。Ｐａｔｒｉｃｉａ－Ｔｒｅｅを用いてデータを検索する場合、ツリーの上位から、比較位置のビットの０，１により、２分木の０と１に対応するノードに遷移を繰り返し、最終的にリーフにたどり着いた場合に、検索キーと検索データの比較を行う。これにより、検索キー全体の比較を、実質１回に抑えることができるため、効率よく検索が出来る。

【0024】

一方、Ｔｒｉｅも広く知られたツリー構造である。ＴｒｉｅはＰａｔｒｉｃｉａ－Ｔｒｅｅの元となる考え方であり、このＴｒｉｅをベースとした処理方式も様々なものが提案されている。非特許文献１の４．１には、先行するゼロ部分の長さに従って、Ｔｒｉｅの検索開始位置を途中から開始することで、ツリーの遷移回数を減らす"ＢｙｐａｓｓＪｕｍｐｅｒＡｒｒａｙ"と呼ぶ方式が示されている。非特許文献２にも、ツリーにおける対象データを非可逆圧縮した、ＶＡＳＴ（ＶｅｃｔｏｒＡｄｖａｎｃｅｄＳｔｒｕｃｔｕｒｅ）と呼ぶツリー構造を使った方式が示されている。また、非特許文献３には、ツリーの高さを最適化するために、キーの分岐に使うビット（スパンビット）の長さを可変にすることで、Ｔｒｉｅのツリーにおける分岐数を確保し、ツリーの高さを抑えることで、検索を効率化しうる処理方式が示されている。さらに、非特許文献４にも、ＳＩＭＤ命令を使った効率化の手法として、Ｂ－ＴｒｅｅをベースとしたＳｅｇ－Ｔｒｅｅならびに、ＴｒｉｅをベースにしたＳｅｇ－Ｔｒｉｅを使った処理方式が示されている。

【0025】

これらの関連する技術によれば、いずれの処理方式もビット単位やバイト単位による遷移を活用することで、データサイズが小さい数値系のデータに対しては効率よく動作を行うことが出来る。しかしながら、文字列のように、データの長さが１～１０００バイト以上にも及ぶ大きな変化を伴い、かつ、そのサイズ自体も大きくなるものを対象とした検索に対しては、効率良く処理できない場合が有る。

【0026】

そこで、実施の形態では、バイナリデータを含む可変長の文字列に対する効率的な検索処理を可能とする。

【0027】

（実施の形態の概要）
次に、実施の形態の概要について説明する。実施の形態では、例えば、可変長文字列を対象とした完全一致検索、前方一致検索、または、範囲検索を行う検索装置を提供する。

【0028】

検索装置では、マルチノードツリー構造を使用して、可変長文字列を登録し、検索可能とする。マルチノードツリー構造を構成するノードは、可変長文字列の部分一致文字列となる直列文字列と、それに続く、次の１バイトを持つブランチの集合と、それに一致した場合の遷移先情報を一組として格納する。例えば、ノードの直列文字列は、文字列の終端が一致する登録文字列が存在する場合は、その文字列の実体を保持し、存在しない場合は、該当ノードより下の登録文字列のいずれかを共用参照してもよい。これにより、可変長の文字列を適切にノードに保持あるいはノードから参照できるため、効率よく文字列を検索することが可能となる。

【0029】

また、検索装置は、マルチノードツリー構造のノードにおいて、直列文字列部分が検索文字列の一部と一致し、次の１バイトがブランチのいずれかに一致した場合、ブランチに対応する次のノードへの遷移を繰り返してもよい。

【0030】

また、検索装置は、ノードの直列文字列と検索文字列の一部を比較する際、比較するバイト数がＳＩＭＤのサイズ（２５６ｂｉｔ，１２８ｂｉｔ）以上の部分については、ＳＩＭＤ命令を使い、ＳＩＭＤのサイズ以下の部分については、サイズに応じた一般命令（６４ｂｉｔ，３２ｂｉｔ，１６ｂｉｔ，８ｂｉｔ）を組み合わせて使うことで、長い文字列に対して少ない比較回数で同一判定を行ってもよい。

【0031】

また、検索装置は、ノードのブランチの集合から検索文字列の該当する文字と一致する同値のブランチの位置検出を、ＣＰＵのパイプライン処理を乱すループや条件分岐によらず、ＳＩＭＤ命令による並列比較と、その結果に対するビット操作を含む計算処理で実施してもよい。また、ブランチ数が一回のＳＩＭＤの処理できるバイト数より多くなる場合、ＳＩＭＤによる範囲特定と、特定した範囲におけるＳＩＭＤを使った同値検出に分けて行うことで、一回のＳＩＭＤの処理できるバイト数より多くのブランチに対する同値検出を行ってもよい。この場合、一回目のＳＩＭＤによる範囲特定のために、ブランチの中からＳＩＭＤのバイト数の倍数位置のブランチを抽出したスーパーＩｎｄｅｘをノードに持たせてもよい。

【0032】

また、ノードのデータ構造において、ノードにおけるブランチの集合（例えば１～２５６個のバイト列）の後にブランチに対応する遷移先情報を詰めて格納することで、ブランチの数がＳＩＭＤの基本サイズである１２８ｂｉｔや２５６ｂｉｔのサイズに満たない場合にメモリ参照違反を起こさず、メモリ容量を削減するとともに、次にアクセスする遷移先情報のキャッシュヒット確立を高めてもよい。

【0033】

また、検索装置は、可変長文字列を含むデータを登録し格納する際、特定の変換規則に従って変換したデータを格納してもよい。例えば、符号あり／符号なしの固定小数点数値（８ｂｉｔ，１６ｂｉｔ，３２ｂｉｔ，６４ｂｉｔ）、並びに、浮動小数点数値（３２ｂｉｔ，６４ｂｉｔ）を文字列と同じロジックで処理できるように、データを変換し格納してもよい。また、検索装置は、このように変換されたデータを含む、文字列、固定小数点、浮動小数点を任意の順序で結合した複合キーに対して、キー境界を意識せずに、文字列と同様なロジックを使って処理を行ってもよい。

【0034】

例えば、数値の場合は大きくても６４ｂｉｔ程度、非特許文献４に示すＳｅｇ－Ｔｒｉｅに展開しても８バイトにしかならない、一方、文字列は商品名などの名称については２０～１００バイト程度、住所や説明文などでは、１００から１０００文字以上に成る場合も有る。対象が可変長で、このように多くのバイトで構成される場合は、関連する技術では効率的な処理ができない。

【0035】

実施の形態では、関連する技術であるＳｅｇ－Ｔｒｉｅと異なり、ノードが直列文字列と並列ブランチをペアで持っている。直列文字列と並列ブランチをペアで持つことにより、“株式会社”や“Ｃｏｒｐｏｒａｔｉｏｎ”のような固定ワードに対応する複数文字の並びを、直列文字列を使って、効率よく表すことができる。また、直列文字列を使うことで、長さの異なる文字列を一つのツリーの中で表すことができる。更に、数値キーについても、種類に従った変換を行うことで、キーの一部に数値データを取り込むことが出来、この拡張により、文字列と数値データを連結した複合キーについても、同じ処理方式で扱うことが可能となる。

【0036】

実施の形態では、関連する技術であるＶＡＳＴやＢ－Ｔｒｅｅに基づいたツリー構造による検索と異なり、大小比較による対象区間の絞り込みではなく、同一値（ブランチ）検索による一致位置の検出によりツリーの下降を行う。そして、この同一値の検出にＳＩＭＤを使い、その比較結果を、ビットマスク変換とビットスキャン命令を使ってインデックスに変換する。これにより、同一値のブランチが無い場合は、その時点で検索の失敗を検出できる。また、実施の形態では、ブランチバイト数は、固定サイズではなく、ノードごとに１～２５６までの異なったサイズでもよい。更に、実施の形態では、事前に全データを用意し、固定的なインデックス構造を作ってから検索を行う形態をとらず、動的にデータの追加を行いつつ、検索が可能なインデックス構造を生成してもよい。

【0037】

（実施の形態１）
次に、実施の形態１について説明する。本実施の形態では、マルチノードツリー構造を用いて、完全一致検索を行う例について説明する。

【0038】

＜データツリーの構成例＞
図１は、本実施の形態に係るデータツリー１１１の構成例を示している。データツリー１１１は、マルチノードツリー構造であり、ツリー状に連結される複数のノード（ノード情報）２００と、ノード２００から参照される文字列（文字列情報）３００を含む。文字列３００は、データツリー１１１に登録される文字列（登録文字列）であり、検索時に検索対象となる文字列である。文字列３００は、１バイト～数１０００バイト以上に及ぶ可変長の文字列である。なお、文字列は終端にターミネータ（０ｘ００）を持つ。

【0039】

図１に示すように、ノード２００は、ブランチサイズ２０１、ａｌｌｏｃサイズ２０２、実体フラグ２０３、ブランチ位置２０４、直列文字列２０５、ブランチバイト列２０６、遷移先情報２０７を含む。本実施の形態では、直列文字列２０５（縦方向）とブランチバイト列２０６（横方向）の対で一つのノード２００を構成する。

【0040】

ブランチサイズ２０１、ａｌｌｏｃサイズ２０２は、ノード２００の管理情報である。ブランチサイズ２０１は、ブランチバイト列２０６に格納したブランチバイト（ブランチ文字）の数である。また、ブランチサイズ２０１は、ノード２００から分岐した（ノード２００の配下（下位）に連結された）ブランチの数でもある。なお、ノード２００から分岐（遷移）するブランチは、ノード２００または文字列３００（リーフ）のいずれかが混在した形に成る。

【0041】

ａｌｌｏｃサイズ２０２は、アロケート済みブランチの数を示す。ａｌｌｏｃサイズ２０２は、ノード２００がブランチを格納するためにアロケートしたサイズを示す。例えば、ａｌｌｏｃサイズ２０２は、４，８，１６，３２・・・２５６個である。

【0042】

実体フラグ２０３、ブランチ位置２０４、直列文字列２０５は、ノード２００のヘッダ情報である。実体フラグ２０３は、当該ノード２００の持つ直列文字列２０５が実体を参照（保持）するか否かを示すフラグである。実体フラグ２０３は、直列文字列２０５の終端で丁度終了する文字列３００が存在する場合、すなわち、直列文字列２０５の終端と直列文字列２０５が参照する文字列３００の終端が一致する場合、ＯＮにセットされる。実体フラグ２０３は、直列文字列２０５の終端と直列文字列２０５が参照する文字列３００の終端が一致しない場合、ＯＦＦにセットされる。

【0043】

ブランチ位置２０４は、ノード２００が保持するブランチバイト（ブランチ文字）の文字列の先頭からのオフセット位置を示す。換言すると、ブランチ位置２０４は、検索する文字列のどの位置のバイトとブランチバイトを照合するかの位置を示す。

【0044】

直列文字列２０５（直列文字列情報）は、登録される文字列３００のうち当該ノード２００が参照（保持）する文字列を示す。直列文字列２０５は、文字列３００を指し、この文字列のブランチ位置２０４の前までの部分を使って、ツリーにおける同一文字列部分（一種類）を示す。さらに、実体フラグ２０３がＯＮの場合、すなわち、直列文字列２０５の終端と文字列３００の終端が一致する場合、直列文字列２０５は、登録された文字列３００の実体を保持（実体保持）する。実体保持とは、格納部（データベース）に格納されている文字列３００を単独で指し示すことである。換言すると、実体フラグがＯＮの場合は、直列文字列の指す文字列が、登録済みの文字列として単独で存在することを示す。一方、実体フラグ２０３がＯＦＦの場合、直列文字列２０５は、当該ノード２００より下位に位置する、いずれかの文字列３００を参照（共用参照）する。共用参照とは、当該ノード２００の遷移先情報２０７が示す遷移先のいずれかの文字列３００を、直列文字列２０５が共用して参照することである。

【0045】

ブランチバイト列２０６は、ノード２００から分岐するブランチのブランチバイト（ブランチ文字）を含む。ブランチバイト列２０６は、複数のブランチ文字を含むブランチ文字の集合でもある。ブランチバイトは、直列文字列２０５に続く文字の１バイトの値を示し、ブランチ位置２０４における分岐先（多種類）を決めるキーになる。ブランチバイトの要素サイズは１バイトで、値の範囲は０～２５５までの２５６種類になる。従って、ブランチバイト列２０６は、１～２５６個までのブランチバイトを格納する可変長配列に成る。そして、ブランチバイト列２０６は、このブランチバイトを符号なし整数の昇順に格納する。

【0046】

ブランチバイト列２０６及び遷移先情報２０７は、当該ノード２００の下位の遷移先に関するブランチ情報でもある。遷移先情報２０７は、ブランチバイト列２０６の各ブランチバイトに対応した遷移先（ブランチ先）を示す情報である。遷移先情報２０７は、遷移先のノード／リーフ（文字列）の別と、その位置（アドレス）を示す。

【0047】

＜データツリーの具体例＞
図２は、本実施の形態に係るデータツリー１１１の具体例を示している。図２の例では、文字列３００－１～３００－５が、ノード２００－１～２００－２を含むデータツリー１１１に登録されている。

【0048】

文字列３００－１～３００－５では、０～１文字目の“ＤＧ”が共通する。このため、最初のノード２００－１の直列文字列２０５は“ＤＧ”となる。そして、“ＤＧ”を持つ実際の文字列３００－１が存在するため、ノード２００－１の実体フラグ２０３はＯＮになる。

【0049】

ノード２００－１のブランチ位置２０４は、“ＤＧ”の次である２を指し、文字列３００－２～３００－５から、その位置におけるユニークな値は“Ｈ”，“Ｋ”，“Ｌ”の３文字（バイト）となる。このため、ノード２００－１のブランチバイト列２０６には、それらの３文字（バイト）がブランチバイトとして格納され、ブランチサイズ２０１には、３が入る。

【0050】

ノード２００－１の遷移先情報２０７には、ブランチバイト列２０６の“Ｈ”，“Ｋ”，“Ｌ”に対応する遷移先が格納される。文字列３００－２，３００－３より、“Ｈ”,“Ｋ”の下には各々該当する文字列がそれぞれ１つしかないため、ノード２００－１の遷移先情報２０７は、“Ｈ”,“Ｋ”の遷移先としてリーフ（各々の文字列３００－２，３００－３）を指す。一方、文字列３００－４，３００－５より、“Ｌ”の下には複数の文字列があるため、ノード２００－１の遷移先情報２０７は、“Ｌ”の遷移先としてノード２００－２を指す。

【0051】

文字列３００－４～３００－５では、“Ｌ”の次の３文字目の“Ｅ”が共通する。このため、ノード２００－２では、直列文字列２０５は、“Ｅ”となる。この場合“Ｅ”を終端とする文字列の実体が存在しないため、ノード２００－２の直列文字列２０５は、下位のリーフの文字列３００－４～３００－５のいずれか一つを共用参照し、ノード２００－２の実体フラグ２０３はＯＦＦとなる。この例では、ノード２００－２の直列文字列２０５は、文字列３００－５を指す。ノード２００－２のブランチ位置２０４は、“Ｅ”の次である４を指し、文字列３００－４～３００－５から、その位置におけるユニークな値は“Ａ”，“Ｂ”の２文字（バイト）となる。このため、ノード２００－２のブランチバイト列２０６には、それらの２文字（バイト）がブランチバイトとして格納され、ブランチサイズ２０１には、２が入る。

【0052】

ノード２００－２の遷移先情報２０７には、ブランチバイト列２０６の“Ａ”，“Ｂ”に対応する遷移先が格納される。文字列３００－４，３００－５より、“Ａ”，“Ｂ”の下には各々該当する文字列が１つしかないため、ノード２００－２の遷移先情報２０７は、“Ａ”,“Ｂ”の遷移先としてリーフ（各々の文字列３００－４，３００－５）を指す。

【0053】

ノード２００－１及び２００－２のａｌｌｏｃサイズ２０２は、２つのノードのブランチサイズ２０１が、いずれも４以下のため、アロケートサイズの最小である４が入る。

【0054】

＜検索装置の構成＞
図３は、本実施の形態に係る検索装置１００の構成例を示している。検索装置１００は、データツリー１１１ならびに登録文字列１１２から文字列を検索する。検索装置１００は、完全一致検索、前方一致検索、範囲検索（大小検索）のいずれかの検索を行ってもよい。ここでは、一例として、完全一致検索を行う例について説明する。なお、後方一致検索については、文字を後端から、前方一致と同様の方式により検索を行うことで対応することが出来る。この場合、マルチノードのデータツリー１１１のみを後方一致用に作成し、登録文字列１１２の持つ文字列３００、例えば文字列３００－１～３００－５は共用しても良い。

【0055】

図３に示すように、検索装置１００は、データベース１１０、入力部１２０、検索部１３０、出力部１４０を備えている。なお、後述の本実施の形態に係る動作が可能であれば、その他の構成でもよい。

【0056】

データベース１１０は、検索装置１００が検索する検索対象のデータを格納する格納部である。データベース１１０は、検索対象として、上記のマルチノードツリー構造のデータツリー１１１と、登録文字列１１２を格納する。登録文字列１１２には登録された文字列３００を格納する。

【0057】

入力部１２０は、検索装置１００の処理に必要な情報等を入力する。例えば、入力部１２０は、ユーザが入力可能なキーボード等の入力装置でもよい。例えば、入力部１２０には、ユーザから検索する検索文字列（検索キーとなる入力文字列）が入力される。入力部１２０は、データツリー１１１から検索する検索文字列を取得する取得部でもある。

【0058】

検索部１３０は、入力部１２０に入力された検索文字列をデータツリー１１１から検索する検索処理を実行する。例えば、検索部１３０は、完全一致検索を行い、データツリー１１１と登録文字列１１２から検索文字列と完全一致する文字列を検索する。完全一致検索は、検索文字列と全く同じ文字列を検索する処理の一例である。

【0059】

例えば、検索部１３０は、検索制御部１３１、文字列比較部１３２、ブランチ比較部１３３を含む。検索制御部１３１は、データツリー１１１のノード２００をルートから順に選択し、選択したノード２００の情報と検索文字列の比較結果に基づいて、検索処理を制御する。検索制御部１３１は、文字列比較部１３２による直列文字列比較の結果及びブランチ比較部１３３によるブランチバイト列比較の結果に基づいて、検索結果の判定やノードの遷移制御を行う。検索制御部１３１は、直列文字列比較の結果及びブランチバイト列比較の結果に応じて、選択されたノード２００が示すブランチノードを、遷移先のノード（次に比較を行うノード）として選択する選択部（第１の選択部）でもある。実体フラグ２０３のＯＮ／ＯＦＦにより直列文字列２０５が文字列の実体を保持するか否か分かるため、検索制御部１３１は、直列文字列比較の結果及び実体フラグ２０３に基づいて、検索結果の判定等を行ってもよい。

【0060】

文字列比較部（第１の文字列比較部）１３２は、選択されたノード２００の直列文字列２０５と検索文字列とを比較する直列文字列比較処理を行う。文字列比較部１３２は、リーフの文字列が選択された場合、リーフの文字列と検索文字列とを比較する。直列文字列比較処理では、ＳＩＭＤ命令並びに一般命令により２つの文字列を比較する。なお、ＳＩＭＤ命令は、並列処理可能な所定のデータ単位で比較処理を行う命令の一例であり、同様に処理可能ならば、その他の命令を組み合わせて使用してもよい。以下のブランチバイト列比較処理でも同様である。

【0061】

ブランチ比較部（第１のブランチ比較部）１３３は、選択されたノード２００のブランチバイト列２０６のブランチバイトと、検索文字列のブランチ位置２０４における文字を比較するブランチバイト列比較処理を行う。ブランチ比較部１３３は、ブランチバイト列比較処理により、ブランチバイト列２０６から、検索文字列のブランチ位置２０４における文字と一致するブランチバイト（ブランチ文字）を特定する。ブランチバイト列比較処理では、ＳＩＭＤ命令ならびに一般命令によりブランチバイト列２０６と検索文字列の該当する文字を比較する。

【0062】

出力部１４０は、検索装置１００の処理結果等を出力する。例えば、出力部１４０は、液晶ディスプレイ等の表示装置でもよい。出力部１４０は、検索部１３０により検索処理の結果を表示してもよい。例えば、出力部１４０は、検索成功または検索失敗、検索文字列と一致した文字列等を表示してもよい。出力部１４０は、データベース１１０に格納されているデータツリー１１１のツリー構造や登録文字列１１２を表示してもよい。

【0063】

＜完全一致検索処理の動作例＞
図４Ａ及び図４Ｂは、本実施の形態に係る検索装置１００における完全一致検索処理の動作例を示している。なお、完全一致検索では、検索成功した場合、常に１件の文字列のみが該当する文字列となる（Ｓ１３２、Ｓ１５１）。

【0064】

図４Ａ及び図４Ｂに示すように、検索制御部１３１は、データが未登録か否か、すなわち、初期状態か否か判定する（Ｓ１０１）。入力部１２０に入力文字列（検索文字列）が入力されると、検索制御部１３１は、データベース１１０を参照し、データベース１１０のデータツリー１１１にデータ（文字列）が登録されているか否か判定する。Ｓ１０１においてデータが未登録であると判定された場合、検索制御部１３１は、検索結果を検索失敗として処理を終了する（Ｓ１２０）。

【0065】

Ｓ１０１においてデータが登録されていると判定された場合、検索制御部１３１は、バイトチェック位置に０をセットし、カレントノードにデータツリー１１１のルートノードをセットする（Ｓ１０２）。この結果、カレントノードには、ノード２００またはリーフ（文字列３００）のいずれかがセットされる。

【0066】

続いて、検索制御部１３１は、カレントノードが文字列か否か、すなわち、リーフに到達したか否か判定する（Ｓ１０３）。検索制御部１３１は、カレントノードがノード２００と文字列３００のいずれであるかを判定する。

【0067】

Ｓ１０３においてカレントノードが文字列であると判定された場合、文字列比較部１３２は、直列文字比較を行う（Ｓ１３０）。この場合、直列文字列比較では、カレントノードであるリーフ文字列と、入力文字列のうちバイトチェック位置から入力文字列終端までの文字列とを比較し、同一か否かチェックする。

【0068】

続いて、検索制御部１３１は、直列文字列比較の結果、比較した２つの文字列に差異があるか、または、２つの文字列のサイズが違うか否か判定する（Ｓ１３１）。Ｓ１３１において、比較した２つの文字列に差異がある、または、２つの文字列のサイズが違うと判定された場合、検索制御部１３１は、検索結果を検索失敗として処理を終了する（Ｓ１３３）。

【0069】

Ｓ１３１において、比較した２つの文字列が一致し、かつ、２つの文字列が同じであると判定された場合、検索制御部１３１は、検索結果を検索成功（入力文字列とリーフ文字列が同一である）として処理を終了する（Ｓ１３２）。

【0070】

Ｓ１０３においてカレントノードが文字列ではない、すなわちノードであると判定された場合、検索制御部１３１は、比較サイズに“ｍｉｎ（カレントノードのブランチ位置，入力文字列長＋１）－バイトチェック位置”の結果をセットする（Ｓ１０４）。すなわち、検索制御部１３１は、カレントノードであるノード２００のブランチ位置２０４と入力文字列にターミネータ１バイト分を加えた長さのうち小さい方の値から、バイトチェック位置を差し引いた値を比較サイズとする。ここでは、入力文字列長に1を加えてターミネータまでを比較範囲に含めることで、入力文字列がカレントノードのブランチ位置より短い場合、最長でも入力文字列のターミネータ位置で差異を検出するよう設定している。

【0071】

続いて、文字列比較部１３２は、直列文字比較を行う（Ｓ１０５）。この場合、直列文字列比較では、カレントノードであるノード２００の直列文字列２０５と、入力文字列のうちバイトチェック位置から比較サイズ分の文字列とを比較し、同一か否かチェックする。

【0072】

続いて、検索制御部１３１は、直列文字列比較の結果、比較した２つの文字列に差異があるか否か判定する（Ｓ１０６）。Ｓ１０６において、比較した２つの文字列に差異があると判定された場合、検索制御部１３１は、検索結果を検索失敗として処理を終了する（Ｓ１４０）。

【0073】

Ｓ１０６において、比較した２つの文字列が一致すると判定された場合、検索制御部１３１は、バイトチェック位置にカレントノードであるノード２００のブランチ位置２０４をセットする（Ｓ１０７）。

【0074】

続いて、検索制御部１３１は、バイトチェック位置が入力文字列長以上か、すなわち、入力文字チェックが完了したか否か判定する（Ｓ１０８）。Ｓ１０８において、バイトチェック位置が入力文字列長以上であると判定された場合、検索制御部１３１は、カレントノードであるノード２００の直列文字列２０５が実体であり（実体フラグがＯＮ）、かつ、入力文字列と直列文字列２０５のサイズが同じか否か判定する（Ｓ１５０）。

【0075】

Ｓ１５０において、カレントノードであるノード２００の直列文字列２０５が実体であり（実体フラグがＯＮであり）、かつ、入力文字列と直列文字列２０５のサイズが同じであると判定された場合、検索制御部１３１は、検索結果を検索成功（入力文字列とカレントノードの直列文字列２０５が同一である）として、処理を終了する（Ｓ１５１）。

【0076】

Ｓ１５０において、カレントノードであるノード２００の直列文字列２０５が実体ではなく（実体フラグがＯＦＦである）、または、入力文字列と直列文字列２０５のサイズが異なると判定された場合、検索制御部１３１は、検索結果を検索失敗として処理を終了する（Ｓ１５２）。

【0077】

Ｓ１０８において、バイトチェック位置が入力文字列長より小さいと判定された場合、ブランチ比較部１３３は、ブランチバイト列比較を行う（Ｓ１０９）。この場合、ブランチバイト列比較では、カレントノードであるノード２００のブランチバイト列２０６と入力文字列［バイトチェック位置］とを比較し、カレントノードのブランチバイト列２０６に入力文字列［バイトチェック位置］と同じ値があるかチェックする。なお、入力文字列におけるバイトチェック位置のバイト（文字）を“入力文字列［バイトチェック位置］”と示す場合がある。

【0078】

続いて、検索制御部１３１は、ブランチバイト列比較の結果、カレントノードであるノード２００のブランチバイト列２０６に同じ値があるか否か判定する（Ｓ１１０）。Ｓ１１０において、カレントノードであるノード２００のブランチバイト列２０６に同じ値がないと判定された場合、検索制御部１３１は、検索結果を検索失敗として処理を終了する（Ｓ１６０）。

【0079】

Ｓ１１０において、カレントノードであるノード２００のブランチバイト列２０６に同じ値があると判定された場合、検索制御部１３１は、バイトチェック位置に１を加え、更に、カレントノードに一致したブランチバイトに対応する遷移先情報２０７をセットする（Ｓ１１１）。その後、Ｓ１０３以降の処理を繰り返す。

【0080】

＜完全一致検索処理の具体例＞
図５を用いて、図４Ａ及び図４Ｂの完全一致検索処理の具体例について説明する。図５の例では、文字列３００－１～３００－８が、ノード２００－１～２００－４を含むデータツリー１１１に登録されている。この例では、図５のデータツリー１１１から完全一致検索で入力文字列“ＤＧＨＫＰＳ”（６文字）を検索する場合の動作について説明する。なお、図５に示すノード２００の表記は、以降の具体例を示す各図でも同様である。

【0081】

（１）初回ループ
検索制御部１３１は、最初にデータツリー１１１のデータ登録を確認し（Ｓ１０１）、図５のようにデータが登録されているため、初期化に進む。初期化では、検索制御部１３１は、バイトチェック位置に０をセットし、カレントノードにルートノードをセットする（Ｓ１０２）。この場合、カレントノードは、最上位のノード２００－１を指すようになる。

【0082】

続いて、１回目のループとして、検索制御部１３１は、カレントノードであるノード２００－１が文字列（リーフ）か否かチェックし（Ｓ１０３）、文字列ではないため、ループ処理を続行する。

【0083】

続いて、検索制御部１３１は、比較サイズを計算する（Ｓ１０４）。この場合、比較サイズは、カレントノードであるノード２００－１のブランチ位置２０４＝１と入力文字列“ＤＧＨＫＰＳ”の文字列長＋１＝７の小さい方の値である１から、バイトチェック位置である０を減算し、結果は１となる。

【0084】

続いて、文字列比較部１３２は、直列文字列比較を行う（Ｓ１０５）。この場合、直列文字列比較では、カレントノードであるノード２００－１の直列文字列２０５の指す文字列“ＤＢＸＰＮ”と入力文字列“ＤＧＨＫＰＳ”とを使い、バイトチェック位置である０バイト目から比較サイズである１バイト分の文字列が同一か否かをチェックする。直列文字列比較の結果、２つの文字列の０バイト目はいずれも“Ｄ”であり、文字列に差異はないため（Ｓ１０６）、検索制御部１３１は、ループ処理を続行する。

【0085】

続いて、検索制御部１３１は、バイトチェック位置にカレントノードであるノード２００－１のブランチ位置２０４である１をセットする（Ｓ１０７）。

【0086】

続いて、検索制御部１３１は、バイトチェック位置である１が入力文字列長である６以上、つまり入力文字チェックが完了したか否かをチェックし（Ｓ１０８）、バイトチェック位置が入力文字列長を超えていないため、ループ処理を続行する。

【0087】

続いて、ブランチ比較部１３３は、ブランチバイト列比較を行う（Ｓ１０９）。この場合、ブランチバイト列比較では、カレントノードであるノード２００－１のブランチバイト列２０６＝（“Ｂ”，“Ｇ”，“Ｒ”）の中に、入力文字列“ＤＧＨＫＰＳ”のバイトチェック位置＝１の文字である“Ｇ”と同じ値があるか否かをチェックする。ブランチバイト列比較の結果、ノード２００－１のブランチバイト列２０６のインデックス１番目に同じ値があるため（Ｓ１１０）、検索制御部１３１は、ループ処理を続行する。

【0088】

続いて、検索制御部１３１は、バイトチェック位置である１に、１を加えて２とし、カレントノードに、一致したブランチバイト列２０６のインデックス１番目＝“Ｇ”に対応する遷移先情報２０７をセットする（Ｓ１１１）。この場合、カレントノードは、上位から２番目のノード２００－２を指すようになる。

【0089】

（２）２回目ループ
２回目のループでも同様に、検索制御部１３１は、カレントノードであるノード２００－２が文字列（リーフ）でないため（Ｓ１０３）、比較サイズを計算する（Ｓ１０４）。この場合、比較サイズは、カレントノードであるノード２００－２のブランチ位置２０４＝２と入力文字列“ＤＧＨＫＰＳ”の文字列長＋１＝７の小さい方の値である２から、バイトチェック位置である２を減算し、結果は０となる。

【0090】

続いて、文字列比較部１３２は、直列文字列比較を行う（Ｓ１０５）。この場合、直列文字列比較では、カレントノードであるノード２００－２の直列文字列２０５の指す文字列“ＤＧ”と入力文字列“ＤＧＨＫＰＳ”とを比較し、バイトチェック位置である２バイト目から比較サイズである０バイト分の文字列が同一か否かをチェックする。直列文字列比較の結果、比較サイズが０のため差は検出されず（Ｓ１０６）、検索制御部１３１は、ループ処理を続行する。

【0091】

続いて、検索制御部１３１は、バイトチェック位置にカレントノードであるノード２００－２のブランチ位置２０４である２をセットする（Ｓ１０７）。

【0092】

続いて、検索制御部１３１は、バイトチェック位置である２が入力文字列長である６以上、つまり入力文字チェックが完了したかどうかをチェックし（Ｓ１０８）、入力文字チェックが完了していないため、ループ処理を続行する。

【0093】

続いて、ブランチ比較部１３３は、ブランチバイト列比較を行う（Ｓ１０９）。この場合、ブランチバイト列比較では、カレントノードであるノード２００－２のブランチバイト列２０６＝（“Ｈ”，“Ｋ”，“Ｌ”）の中に、入力文字列“ＤＧＨＫＰＳ”のバイトチェック位置＝２の文字である“Ｈ”と同じ値があるか否かをチェックする。ブランチバイト列比較の結果、ノード２００－２のブランチバイト列２０６のインデックス０番目に同じ値があるため（Ｓ１１０）、検索制御部１３１は、ループ処理を続行する。

【0094】

続いて、検索制御部１３１は、バイトチェック位置である２に、１を加えて３とし、カレントノードに、一致したブランチバイト列２０６のインデックス０番目＝“Ｈ”に対応する遷移先情報２０７をセットする（Ｓ１１１）。この場合、カレントノードは、上位から３番目の左側のノード２００－３を指すようになる。

【0095】

（３）３回目ループ
３回目ループでも同様に、検索制御部１３１は、カレントノードであるノード２００－３が文字列（リーフ）でないため（Ｓ１０３）、比較サイズを計算する（Ｓ１０４）。この場合、比較サイズは、カレントノードであるノード２００－３のブランチ位置２０４＝５と入力文字列“ＤＧＨＫＰＳ”の文字列長＋１＝７の小さい方の値である５からバイトチェック位置である３を減算し、結果は２となる。

【0096】

続いて、文字列比較部１３２は、直列文字列比較を行う（Ｓ１０５）。この場合、直列文字列比較では、カレントノードであるノード２００－３の直列文字列２０５の指す文字列“ＤＧＨＫＰ”と入力文字列“ＤＧＨＫＰＳ”とを比較し、バイトチェック位置である３バイト目から比較サイズである２バイト分の文字列が同一かをチェックする。直列文字列比較の結果、２つの文字列のうち３バイト目から２バイト分の文字列はいずれも“ＫＰ”であり、同一のため（Ｓ１０６）、検索制御部１３１は、ループ処理を続行する。

【0097】

続いて、検索制御部１３１は、バイトチェック位置にカレントノードであるノード２００－３のブランチ位置２０４である５をセットする（Ｓ１０７）。

【0098】

続いて、検索制御部１３１は、バイトチェック位置である５が入力文字列長である６以上、つまり入力文字チェックが完了したかどうかをチェックし（Ｓ１０８）、入力文字チェックが完了していないため、ループ処理を続行する。

【0099】

続いて、ブランチ比較部１３３は、ブランチバイト列比較を行う（Ｓ１０９）。この場合、ブランチバイト列比較では、カレントノードであるノード２００－３のブランチバイト列２０６＝（“Ｓ”）の中に、入力文字列“ＤＧＨＫＰＳ”のバイトチェック位置＝５の文字である“Ｓ”と同じ値があるか否かをチェックする。ブランチバイト列比較の結果、ノード２００－３のブランチバイト列２０６のインデックス０番目に同じ値があるため（Ｓ１１０）、検索制御部１３１は、ループ処理を続行する。

【0100】

続いて、検索制御部１３１は、バイトチェック位置である５に、１を加えて６とし、カレントノードに、一致したブランチバイト列２０６のインデックス０番目＝“Ｓ”に対応する遷移先情報２０７をセットする（Ｓ１１１）。この場合、カレントノードは、文字列３００－４（リーフ）である“ＤＧＨＫＰＳ”を指すようになる。

【0101】

（４）４回目(終了)ループ
４回目ループでは、検索制御部１３１は、カレントノードである文字列３００－４が文字列であり、リーフにたどり着いたため（Ｓ１０３）、ループを抜け、最終判定に移る。

【0102】

最終判定では、まず、文字列比較部１３２は、直列文字比較を行う（Ｓ１３０）。この場合、直列文字列比較では、リーフの文字列“ＤＧＨＫＰＳ”と入力文字列“ＤＧＨＫＰＳ”とを比較し、バイトチェック位置の６バイト目から入力文字列の終端までの文字列が同一か否かチェックする。

【0103】

直列文字列比較の結果、入力文字列は既に終端に達しているため、差異は検出されない。リーフの文字列と入力文字列は、差異が無く、文字列サイズも同じであるため（Ｓ１３１）、完全一致と判断され、検索制御部１３１は、結果の返却に移る。結果の返却では、検索制御部１３１は、最終結果として、検索成功（リーフ文字列同一）をリターンして処理を終了する(Ｓ１３２）。

【0104】

＜直列文字列比較処理の動作例＞
図６Ａ及び図６Ｂは、本実施の形態に係る直列文字列比較処理の動作例を示している。図６Ａ及び図６Ｂは、図４のＳ１０５及びＳ１３０の直列文字列比較処理の動作例である。直列文字列比較処理では、直列文字列と入力文字列、または、リーフ文字列と入力文字列を比較し、２つの文字列の差異位置のインデックスを取得する。

【0105】

図６Ａ及び図６Ｂに示すように、文字列比較部１３２は、オフセットを０に初期化する（Ｓ２０１）。この例では、オフセットの単位はバイトである。

【0106】

続いて、文字列比較部１３２は、オフセットに１６を加えた値が比較サイズ以下であるか否か判定する（Ｓ２０２）。Ｓ２０２において、オフセットに１６を加えた値が比較サイズ以下であると判定された場合、文字列比較部１３２は、オフセット位置を指定して差異位置インデックス取得を行う（Ｓ２２０）。差異位置インデックス取得では、ＳＩＭＤ命令を使用して、直列文字列と入力文字列、または、リーフ文字列と入力文字列と比較し、差異のあるインデックス位置を取得する。すなわち、比較する文字列のサイズがＳＩＭＤサイズ以上の場合、ＳＩＭＤ命令を使用して１６バイト分の文字列を一挙に比較する。

【0107】

続いて、文字列比較部１３２は、差異位置インデックス取得の結果、２つの文字列に違いが見つかったか否か判定する（Ｓ２２１）。Ｓ２２１において、２つの文字列が同じであると判定された場合、文字列比較部１３２は、オフセットに１６を加えて（Ｓ２２２）、Ｓ２０２以降の処理を繰り返す。

【0108】

Ｓ２２１において、２つの文字列に違いが見つかったと判定された場合、文字列比較部１３２は、オフセットにＳ２２０で取得した差異位置インデックスを加えて、求めた値を差異位置にセットし（Ｓ２２３）、セットした差異位置をリターンして、処理を終了する（Ｓ２２４）。

【0109】

Ｓ２０２において、オフセットに１６を加えた値が比較サイズより大きいと判定された場合、文字列比較部１３２は、オフセットに８を加えた値が比較サイズ以下であるか否か判定する（Ｓ２０３）。すなわち、比較する文字列のサイズがＳＩＭＤサイズより小さい場合、Ｓ２０３以降で、比較する文字列のサイズに応じた通常の命令を使用して文字列を比較する。Ｓ２０３において、オフセットに８を加えた値が比較サイズ以下であると判定された場合、文字列比較部１３２は、ｕｉｎｔ６４＿ｔ型（符号なし６４ビット整数型）でオフセット位置をｘｏｒ（exclusive or）比較する（Ｓ２０４）。

【0110】

続いて、文字列比較部１３２は、２つの文字列のｘｏｒ比較結果が０以外か否か判定する（Ｓ２０５）。Ｓ２０５において、２つの文字列のｘｏｒ比較結果が０である、すなわち、２つの文字列が同じであると判定された場合、文字列比較部１３２は、オフセットに８を加える（Ｓ２０６）。

【0111】

Ｓ２０３において、オフセットに８を加えた値が比較サイズより大きいと判定された場合、または、Ｓ２０６を経由して、オフセットに８を加えた後、文字列比較部１３２は、オフセットに４を加えた値が比較サイズ以下であるか否か判定する（Ｓ２０７）。

【0112】

Ｓ２０７において、オフセットに４を加えた値が比較サイズ以下であると判定された場合、文字列比較部１３２は、ｕｉｎｔ３２＿ｔ型（符号なし３２ビット整数型）でオフセット位置をｘｏｒ比較する（Ｓ２０８）。

【0113】

続いて、文字列比較部１３２は、２つの文字列のｘｏｒ比較結果が０以外か否か判定する（Ｓ２０９）。Ｓ２０９において、２つの文字列のｘｏｒ比較結果が０である、すなわち、２つの文字列が同じであると判定された場合、文字列比較部１３２は、オフセットに４を加える（Ｓ２１０）。

【0114】

Ｓ２０７において、オフセットに４を加えた値が比較サイズより大きいと判定された場合、または、Ｓ２１０を経由して、オフセットに４を加えた後、文字列比較部１３２は、オフセットに２を加えた値が比較サイズ以下であるか否か判定する（Ｓ２１１）。

【0115】

Ｓ２１１において、オフセットに２を加えた値が比較サイズ以下であると判定された場合、文字列比較部１３２は、ｕｉｎｔ１６＿ｔ型（符号なし１６ビット整数型）でオフセット位置をｘｏｒ比較する（Ｓ２１２）。

【0116】

続いて、文字列比較部１３２は、２つの文字列のｘｏｒ比較結果が０以外か否か判定する（Ｓ２１３）。Ｓ２０５、Ｓ２０９、Ｓ２１３において、２つの文字列のｘｏｒ比較結果が０以外である、すなわち、２つの文字列に差異があると判定された場合、文字列比較部１３２は、比較結果から先頭のＯＮビット位置を取得する（Ｓ２３０）。具体的には、＿ＢｉｔＳｃａｎＦｏｒｗａｒｄ（比較結果）を実行し、ｘｏｒ比較結果から先頭のＯＮビット位置を求める。

【0117】

続いて、文字列比較部１３２は、オフセット（バイト位置）に先頭のＯＮビット位置を３ビット右シフトすることでバイト位置に変換した値を加えて、求めた値を差異位置にセットし（Ｓ２３１）、セットした差異位置をリターンして、処理を終了する（Ｓ２３２）。

【0118】

Ｓ２１３において、２つの文字列のｘｏｒ比較結果が０である、すなわち、２つの文字列が同じであると判定された場合、文字列比較部１３２は、オフセットに２を加える（Ｓ２１４）。

【0119】

Ｓ２１１において、オフセットに２を加えた値が比較サイズより大きいと判定された場合、または、Ｓ２１４を経由して、オフセットに２を加えた後、文字列比較部１３２は、オフセットが比較サイズより小さいか否か判定する（Ｓ２１５）。

【0120】

Ｓ２１５において、オフセットが比較サイズより小さいと判定された場合、文字列比較部１３２は、ｕｉｎｔ８＿ｔ型（符号なし８ビット整数型）でオフセット位置を比較する（Ｓ２１６）。

【0121】

続いて、文字列比較部１３２は、２つの文字列の比較結果で差異があるか否か判定する（Ｓ２１７）。Ｓ２１７において、２つの文字列の比較結果で差異があると判定された場合、文字列比較部１３２は、差異位置にオフセットをセットし（Ｓ２４０）、セットした差異位置をリターンして、処理を終了する（Ｓ２４１）。一方、Ｓ２１５において、オフセットが比較サイズ以上と判定された場合、ならびに、Ｓ２１７において、２つの文字列の比較結果で差異がないと判定された場合、文字列比較部１３２は、差異なしをリターンして、処理を終了する（Ｓ２１８）。

【0122】

＜ブランチバイト列比較処理の動作例＞
図７は、本実施の形態に係るブランチバイト列比較処理の動作例を示している。図７は、図４のＳ１０９のブランチバイト列比較処理の動作例である。ブランチバイト列比較処理では、ノード２００のブランチバイト列２０６と比較バイトとを比較し、ブランチバイト列２０６から比較バイトと一致する位置のインデックスを取得する。

【0123】

図７に示すように、ブランチ比較部１３３は、ノード２００のブランチサイズ２０１（ブランチ数）が１６以下であるか否か判定する（Ｓ３０１）。Ｓ３０１において、ブランチサイズ２０１が１６以下であると判定された場合、ブランチ比較部１３３は、ブランチバイト列を指定して一致位置インデックス取得を行う（Ｓ３０２）。一致位置インデックス取得では、ＳＩＭＤ命令を使用して、ブランチバイト列２０６の中から比較バイトと一致する文字の位置を示すインデックスを取得する。

【0124】

続いて、ブランチ比較部１３３は、一致位置インデックス取得の結果、ブランチバイト列２０６の中から比較バイトと一致する一致位置が見つかったか否か判定する（Ｓ３０３）。Ｓ３０３において、ブランチバイト列２０６の中から比較バイトと一致する一致位置が見つからなかったと判定された場合、ブランチ比較部１３３は、一致なしをリターンして、処理を終了する（Ｓ３０６）。

【0125】

Ｓ３０３において、ブランチバイト列２０６の中から比較バイトと一致する一致位置が見つかったと判定された場合、ブランチ比較部１３３は、一致位置を示すインデックスを、一致位置にセットし（Ｓ３０４）、セットした一致位置をリターンして、処理を終了する（Ｓ３０５）。

【0126】

Ｓ３０１において、ブランチサイズ２０１が１６より大きいと判定された場合、ブランチ比較部１３３は、まず、ブランチバイト列を指定して検索区間インデックス取得を行う（Ｓ３０７）。ブランチバイト列の並びは、図１で示したように、符号なし整数の昇順に配置されているため、検索区間インデックス取得では、ＳＩＭＤのサイズ（１６バイト）の整数倍位置のバイトを抽出し、比較バイトがその抽出したバイト群のどこに位置するかを調べることで、次の一致判定で使う１６バイトの検索区間（比較位置）を特定する。なお、ブランチバイトは１バイトのため、その種類は最大でも２５６となり、長さも最長で２５６バイトとなる。従って、２５６÷１６＝１６となり、この検索区間の特定操作は１６バイトのＳＩＭＤを使って、一回処理するだけで、目的とする検索区間を絞り込むことが出来る。

【0127】

続いて、ブランチ比較部１３３は、検索区間インデックス取得の結果、ブランチバイト列２０６の中から検索区間が見つかったか否か判定する（Ｓ３０８）。Ｓ３０８において、ブランチバイト列２０６の中から検索区間が見つからなかったと判定された場合、ブランチ比較部１３３は、一致なしをリターンして、処理を終了する（Ｓ３０６）。

【0128】

Ｓ３０８において、ブランチバイト列２０６の中から検索区間が見つかったと判定された場合、ブランチ比較部１３３は、検索区間を指定して一致位置インデックス取得を行う（Ｓ３０９）。一致位置インデックス取得では、Ｓ３０２同様、ＳＩＭＤ命令を使用して、ブランチバイト列２０６の検索区間の中から比較バイトと一致する一致位置を示すインデックスを取得する。

【0129】

続いて、ブランチ比較部１３３は、一致位置インデックス取得の結果、ブランチバイト列２０６の検索区間の中から比較バイトと一致する一致位置が見つかったか否か判定する（Ｓ３１０）。Ｓ３１０において、ブランチバイト列２０６の検索区間の中から比較バイトと一致する一致位置が見つからなかったと判定された場合、ブランチ比較部１３３は、一致なしをリターンして、処理を終了する（Ｓ３０６）。

【0130】

Ｓ３１０において、ブランチバイト列２０６の検索区間の中から比較バイトと一致する一致位置が見つかったと判定された場合、ブランチ比較部１３３は、検索区間の先頭位置に一致位置を示すインデックスを加えた値を、ブランチバイト全体におけるインデックスとして、一致位置にセットし（Ｓ３１１）、セットした一致位置をリターンして、処理を終了する（Ｓ３１２）。

【0131】

＜差異位置インデックス取得処理の動作例＞
図８は、本実施の形態に係る差異位置インデックス取得処理の動作例を示している。図８は、図６のＳ２２０の差異位置インデックス取得処理の動作例である。差異位置インデックス取得処理では、直列文字列と入力文字列、または、リーフの文字列と入力文字列を比較して、２つの文字列の違いをチェックし、差異のあるインデックス位置を取得する。図８の例では、比較対象文字数は１６（ＳＩＭＤ１２８ｂｉｔサイズ）である。なお、この例（図９から図１１を含む）では、Ｘ８６アーキテクチャのＳＩＭＤ命令を例に、ＳＩＭＤのデータサイズは１２８ｂｉｔ（１６Ｂｙｔｅ）としているが、これに限らず、２５６ｂｉｔ（３２Ｂｙｔｅ）やそれ以上のＳＩＭＤ命令を使うことで、更に広いデータ幅に対して同様の処理を行ってもよい。

【0132】

図８に示すように、比較する２つの文字列が、１６バイトのＳＩＭＤレジスタＳｒｃ１及びＳｒｃ２にそれぞれ格納されている。差異位置インデックス取得処理では、まず、文字列比較部１３２は、ＳＩＭＤ命令を使用して、Ｓｒｃ１とＳｒｃ２を比較する（Ｓ４０１）。具体的には、「Ｃ＝＿ｍｍ＿ｃｍｐｅｑ＿ｅｐｉ８（Ｓｒｃ１，Ｓｒｃ２）」を実行し、Ｓｒｃ１とＳｒｃ２に対し、ＳＩＭＤバイト単位同値比較を行って、比較結果を１６バイトの変数Ｃにセットする。＿ｍｍ＿ｃｍｐｅｑ＿ｅｐｉ８では、１６バイトのデータをまとめて１度にバイト単位比較を行い、同じ値のバイトには“ＦＦ”、異なる値のバイトには“００”がセットされる。この例では、Ｓｒｃ１及びＳｒｃ２の６バイト目の文字と１１バイト目の文字が異なるため、変数Ｃの６バイト目と１１バイト目が“００”となり、その他の各バイトが“ＦＦ”となる。

【0133】

続いて、文字列比較部１３２は、ＳＩＭＤ命令を使用して、比較結果がセットされた変数Ｃのビットを集約する（Ｓ４０２）。具体的には、「Ｄ＝＿ｍｍ＿ｍｏｖｅｍａｓｋ＿ｅｐｉ８（Ｃ）」を実行し、１６バイトの変数Ｃに対し、各バイトの最上位ビットを集約してｉｎｔ１６型（符号付き１６ビット整数型）の変数Ｄにセットする。＿ｍｍ＿ｍｏｖｅｍａｓｋ＿ｅｐｉ８では、１６バイトのデータをアセンブラの一つの命令のみで集約し、１６ビットに変換する。この例では、変数Ｄの６ビット目と１１ビット目が“０”となり、その他の各ビットが“１”となる。

【0134】

続いて、文字列比較部１３２は、比較結果を集約した変数Ｄの全ビットを反転する（Ｓ４０３）。具体的には、「Ｅ＝~Ｄ」を実行し、変数Ｄの全ビット反転した結果を、ｉｎｔ１６型の変数Ｅにセットする。この例では、変数Ｅの６ビット目と１１ビット目が“１”となり、その他の各ビットが“０”となる。

【0135】

続いて、文字列比較部１３２は、全ビット判定した変数Ｅをもとに、Ｓｒｃ１とＳｒｃ２に違いが見つかったか否かを判定する（Ｓ４０４）。具体的には、「ｉｆ（Ｅ！＝０）」を実行し、変数Ｅが０以外か否か判定する。この例では、変数Ｅが０以外であるため、違いが見つかったと判定される。

【0136】

続いて、文字列比較部１３２は、Ｓｒｃ１とＳｒｃ２に違いが見つかったと判定された場合、変数Ｅから差異のある最初のインデックス位置を取得する（Ｓ４０５）。具体的には、「ｄｉｆｆ＿ｉｄｘ＝＿ＢｉｔＳｃａｎＦｏｒｗａｒｄ（Ｅ）」を実行し、変数Ｅから先頭のＯＮビット位置を取得し、取得したビット位置を変数ｄｉｆｆ＿ｉｄｘにセットし、差異のあるインデックス位置を特定する。この例では、差異のあるインデックス位置は、“６”となる。最初の差異位置が求まったため、文字列の辞書順でのキーの大小結果は、この差異位置［６］の１バイトを符号なし数値として比較することで得られる。なお、＿ＢｉｔＳｃａｎＦｏｒｗａｒｄ（）は、コンパイルの結果ＣＰＵの持つアセンブラ命令である、ビット位置インデックス取得命令（ＢＳＦやＣＬＺ）にインラインで直接展開されるため、関数コールなどのオーバーヘッドなしに高速に実行される（＿ＢｉｔＳｃａｎＲｅｖｅｒｓｅ（）も同様）。

【0137】

＜一致位置インデックス取得処理の動作例＞
図９は、本実施の形態に係る一致位置インデックス取得処理の動作例を示している。図９は、図７のＳ３０２、Ｓ３０９の一致位置インデックス取得処理の動作例である。一致位置インデックス取得処理では、ノード２００のブランチバイト列２０６、または、ブランチバイト列２０６の検索区間の中から比較バイトと同じバイト値のものがあるかチェックし、一致位置を示すインデックスを取得する。

【0138】

図９の例では、検索文字（比較バイト）は“Ｅ”であり、各バイトの値はＡＳＣＩＩ表記で表され、検索対象文字数は７文字であり、“？”は不定値を示し、ブランチバイト列アロケートサイズは８である。

【0139】

図９に示すように、検索対象（ブランチバイト列、または、ブランチバイト列の検索区間）の文字列が、１６バイトのＳＩＭＤレジスタＳｒｃ１に格納されている。この例では、ブランチバイト列のアロケートサイズが８バイトであり（図９（ａ））、Ｓｃｒ１の０バイト目から６バイト目にブランチ文字が格納されている。残りの７バイト目から１５バイト目までの値は不定となる。例えば、残りのバイトには、後述のように、遷移先情報が格納される（図９（ｂ））。

【0140】

一致位置インデックス取得処理では、まず、ブランチ比較部１３３は、ＳＩＭＤ命令を使用して、検索文字（比較バイト）を展開した文字列を生成する（Ｓ５０１）。具体的には、「Ａ＝＿ｍｍ＿ｓｅｔ１＿ｅｐｉ８（'Ｅ'）」を実行し、検索文字“Ｅ”を１６バイトの変数Ａの全バイトに展開する。

【0141】

続いて、ブランチ比較部１３３は、図８のＳ４０１と同様、ＳＩＭＤ命令を使用して、検索対象のＳｒｃ１と検索文字の変数Ａを比較する（Ｓ５０２）。具体的には、「Ｃ＝＿ｍｍ＿ｃｍｐｅｑ＿ｅｐｉ８（Ｓｒｃ１，Ａ）」を実行し、Ｓｒｃ１とＡに対し、ＳＩＭＤバイト単位同値比較を行って、比較結果を１６バイトの変数Ｃにセットする。この例では、Ｓｒｃ１の４バイト目が検索文字“Ｅ”であるため、変数Ｃの０バイト目から３バイト目が“００”、４バイト目が“ＦＦ”、５バイト目から６バイト目が“００”、７バイト目～１５バイト目が不定となる。

【0142】

続いて、ブランチ比較部１３３は、図８のＳ４０２と同様、ＳＩＭＤ命令を使用して、比較結果がセットされた変数Ｃのビットを集約する（Ｓ５０３）。具体的には、「Ｄ＝＿ｍｍ＿ｍｏｖｅｍａｓｋ＿ｅｐｉ８（Ｃ）」を実行し、１６バイトの変数Ｃに対し、各バイトの最上位ビット集約を行って、集約したビットをｉｎｔ１６型の変数Ｄにセットする。
この例では、変数Ｄの０ビット目から３ビット目が“０”、４ビット目が“１”、５ビット目から６ビット目が“０”、７ビット目から１５ビット目が不定となる。

【0143】

続いて、ブランチ比較部１３３は、比較結果を集約した変数Ｄの不定ビットをクリアする（Ｓ５０４）。例えば、図９に示すように、有効文字数に合わせたマスクとして、ｍａｓｋ［０］～［１６］を用意しておく。そして、「Ｅ＝Ｄ＆ｍａｓｋ[有効文字数］」を実行し、変数Ｄに対し有効文字数に合わせたマスクをかけて、有効文字数以外のビットをクリアした結果を、変数Ｅにセットする。この例では、検索対象文字数は７文字であるため、０ビット目から６ビット目までのビットが“１”のｍａｓｋ［７］を使用して、７ビット目から１５ビット目の不定ビットを“０”にクリアする。

【0144】

続いて、ブランチ比較部１３３は、図８のＳ４０４と同様、不定ビットをクリアした変数Ｅから、検索文字が見つかったか否か判定する（Ｓ５０５）。具体的には、「ｉｆ（Ｅ！＝０）」を実行し、変数Ｅが０以外か否か判定する。この例では、変数Ｅが０以外であるため、検索文字が見つかったと判定される。

【0145】

続いて、ブランチ比較部１３３は、検索文字が見つかったと判定された場合、図８のＳ４０５と同様、変数Ｅから検索文字のあるインデックス位置を取得する（Ｓ５０６）。具体的には、「ｍａｔｃｈ＿ｉｄｘ＝＿ＢｉｔＳｃａｎＦｏｒｗａｒｄ（Ｅ）」を実行し、変数Ｅから先頭のＯＮビット位置を取得し、取得したビット位置を変数ｍａｔｃｈ＿ｉｄｘにセットし、検索文字と同値のインデックス位置を特定する。この例では、検索文字のあるインデックス位置は、“４”となる。

【0146】

＜検索区間インデックス取得処理の動作例＞
図１０Ａ及び図１０Ｂは、本実施の形態に係る検索区間インデックス取得処理の動作例を示している。図１０Ａ及び図１０Ｂは、図７のＳ３０７の検索区間インデックス取得処理の動作例である。

【0147】

ブランチバイトの数は最大で２５６個になるため、１６バイトを超えるブランチサイズの場合は、最初に検索区間インデックス取得処理を行う。検索区間インデックス取得処理では、１６より大きいサイズのブランチバイト列２０６の中から、検索区間を取得する。その結果を使ってさらに、上記の一致位置インデックス取得を行うことで、最終的な一致位置を確定する。

【0148】

図１０Ａ及び図１０Ｂの例では、検索文字は、０ｘ６ｄ（ＡＳＣＩＩ“ｍ”）であり、各バイトの値はＨｅｘ表記で表され、検索対象文字数は７１であり、“？”は不定値を示す。

【0149】

図１０Ａに示すように、検索対象（ブランチバイト列）の文字列が８０バイト（［０］～［７９］）であり、この文字列を１６バイト毎に５つのセグメントに分割する。セグメント［０］は、０バイト目から１５バイト目の文字列、セグメント［１］は、１６バイト目から３１バイト目の文字列、セグメント［２］は、３２バイト目から４７バイト目の文字列、セグメント［３］は、４８バイト目から６３バイト目の文字列、セグメント［４］は、６４バイト目から７９バイト目の文字列となる。また、７１バイト目から７９バイト目の値は不定となる。

【0150】

検索区間インデックス取得処理では、まず、ブランチ比較部１３３は、各セグメントの先頭バイトの文字を取得する（Ｓ６０１）。具体的には、「Ａ＝＿ｍｍ＿ｓｅｔｒ＿ｅｐｉ８（１６の倍数位置のバイト）」を実行し、検索対象からＳＩＭＤの処理幅毎に先頭バイトを検索対象文字数までロードし、１６バイトの変数Ａにセットする。この例では、変数Ａの０バイト目に、検索対象の０バイト目の文字がセットされ、変数Ａの１バイト目に、検索対象の１６バイト目の文字がセットされ、変数Ａの２バイト目に、検索対象の３２バイト目の文字がセットされ、変数Ａの３バイト目に、検索対象の４８バイト目の文字がセットされ、変数Ａの４バイト目に、検索対象の６４バイト目の文字がセットされる。変数Ａの５バイト目から１５バイト目は不定となる。

【0151】

続いて、ブランチ比較部１３３は、変数Ａを符号あり演算用に変換する（Ｓ６０２）。例えば、全バイトに“８０”がセットされた１６バイトの変数Ｎを使用する。具体的には、「Ａ＝＿ｍｍ＿ｘｏｒ＿ｓｉ１２８（Ａ，Ｎ）」を実行し、変数Ａの各バイトの０～２５５の値を－１２８～＋１２７の値に変換する。なお、Ｘ８６ＣＰＵのＳＩＭＤ整数比較は、符号ありの大なり（ｇｔ）比較にのみ対応しているため、符号あり数値への変換を行うが、処理系が異なり、符号なし数値のままＳＩＭＤ比較できる場合は、変換を行わず、符号なし数値のまま比較を行ってもよい。

【0152】

続いて、ブランチ比較部１３３は、ＳＩＭＤ命令を使用して、変換された変数Ａをバイト単位に符号ありで大なり比較する（Ｓ６０３）。例えば、全バイトに検索文字０ｘ６ｄをＳ６０２と同じ手法で符号あり演算用に変換した“ｅｄ”（－１９）がセットされた１６バイトの変数Ｂを使用する。具体的には、「Ｃ＝＿ｍｍ＿ｃｍｐｇｔ＿ｅｐｉ８（Ａ，Ｂ）」を実行し、変数Ａ及びＢに対し、ＳＩＭＤバイト単位符号あり比較を行って、比較結果を１６バイトの変数Ｃにセットする。この例では、変数Ａの４バイト目が“ｆ７”（－９）で“ｅｄ”（－１９）よりも大きいため、０バイト目から３バイト目が“００”、４バイト目が“ＦＦ”、５バイト目から１５バイト目が不定となる。

【0153】

続いて、ブランチ比較部１３３は、図８のＳ４０２と同様、ＳＩＭＤ命令を使用して、比較結果がセットされた変数Ｃのビットを集約する（Ｓ６０４）。具体的には、「Ｄ＝＿ｍｍ＿ｍｏｖｅｍａｓｋ＿ｅｐｉ８（Ｃ）」を実行し、１６バイトの変数Ｃに対し、各バイトの最上位ビット集約を行って、集約したビットをｉｎｔ１６型の変数Ｄにセットする。この例では、変数Ｄの０ビット目から３ビット目が“０”、４ビット目が“１”、５ビット目から１５ビット目が不定となる。

【0154】

続いて、ブランチ比較部１３３は、図８のＳ４０３と同様、比較結果を集約した変数Ｄの全ビットを反転する（Ｓ６０５）。具体的には、「Ｅ＝~Ｄ」を実行し、変数Ｄの全ビット反転した結果を、ｉｎｔ１６型の変数Ｅにセットする。この全ビット反転操作により、大なり比較（ｇｔ）の結果を小なりイコール比較（ｌｅ）の結果に変換する。この例では、変数Ｅの０ビット目から３ビット目が“１”、４ビット目が“０”、５ビット目から１５ビット目が不定となる。

【0155】

続いて、ブランチ比較部１３３は、検索文字数を元に、図９と同様にマスクを使用して、変数Ｄの不定ビットをクリアする（Ｓ６０６）。具体的には、「Ｆ＝Ｅ＆ｍａｓｋ［（（７１－１）＞＞４）＋１］」を実行し、不定ビットをクリアした結果を変数Ｆにセットする。検索文字数７０から１引いた値を４ビット右にシフトし、シフトした結果に１を加えた値は５となる。従って、０ビット目から４ビット目までの５ビットが“１”の、ｍａｓｋ［５］を使用して、５ビット目から１５ビット目の不定ビットを“０”にクリアする。

【0156】

続いて、ブランチ比較部１３３は、図８のＳ４０４と同様、不定ビットをクリアした変数Ｆから、検索区間が見つかったか否か判定する（Ｓ６０７）。具体的には、「ｉｆ（Ｆ！＝０）」を実行し、変数Ｆが０以外か否か判定する。この例では、変数Ｆが０以外であるため、検索区間が見つかったと判定される。

【0157】

続いて、ブランチ比較部１３３は、変数Ｆから検索範囲を特定するインデックス位置を取得する（Ｓ６０８）。具体的には、「ｓｅｇｍｅｎｔ＿ｉｄｘ＝＿ＢｉｔＳｃａｎＲｅｖｅｒｓｅ（Ｆ）」を実行し、変数Ｆから最後尾のＯＮビット位置を取得し、取得した位置である３を変数ｓｅｇｍｅｎｔ＿ｉｄｘにセットし、検索範囲を特定する。この結果、セグメント［３］（４８バイト目から６３バイト目）が最終的に特定された検索範囲となる。この後、求めた検索範囲［３］のセグメントを使って、上記の一致位置インデックス取得を実行することで、最終インデックス位置の５４を確定する。

【0158】

なお、Ｓ６０１のＳＩＭＤの処理幅毎に先頭バイトを集める処理は、比較的広範囲のメモリを散発的にアクセスするため、キャッシュ効率の低下を招く。このため、これらの各バイトを事前に集め、ブランチバイト列の先頭１６バイトに格納することで、範囲検索用のインデックス(スーパーインデックス)を配置してもよい。
＜バイト最上位ビット集約処理の動作例＞

【0159】

図１１は、本実施の形態に係るバイト最上位ビット集約のエミュレーションの例を示している。図１１は、図８のＳ４０２、図９のＳ５０３、図１０ＢのＳ６０４のバイト最上位ビット集約（＿ｍｍ＿ｍｏｖｅｍａｓｋ＿ｅｐｉ８（ａ））のエミュレーションの例である。バイト最上位ビット集約命令はＸ８６系以外のＣＰＵでは利用できないため、図１１に示すように、同等な機能をエミュレーションする。図１１は、水平加算を使ったＡｒｍＣＰＵにおける例である。例えば、文字列比較部１３２またはブランチ比較部１３３に含まれるエミュレータが図１１の動作を実行する。

【0160】

図１１の例では、集約対象を１６バイトの変数ａとする。変数ａの各バイトには、上記のように、比較結果の０ｘＦＦまたは０ｘ００がセットされている。この例では、６バイト目と１１バイト目が００、その他の各バイトがＦＦである。

【0161】

図１１に示すように、まず、エミュレータは、集約対象の変数ａから、ビットマスクを使用してビットを抽出する（Ｓ７０１）。例えば、０ｘ０１、０ｘ０２、０ｘ０４、０ｘ０８、０ｘ１０、０ｘ２０、０ｘ４０、０ｘ８０と、バイトごとに、１ビットずつ左にシフトした値を持つビットマスクＭを使用する。具体的には、「Ｂ＝ｖａｎｄｑ＿ｕ８（ａ，Ｍ）」を実行し、変数ａとビットマスクＭとのＡＮＤを取ってビットを抽出し、抽出した結果を１６バイトの変数Ｂにセットする。この例では、変数Ｂの６バイト目と１１バイト目が０となり、その他の各バイトがビットマスクＭの値となる。

【0162】

続いて、エミュレータは、変数Ｂを２つに分割し、分割した８バイトのデータを８ビットのデータに変換する（Ｓ７０２）。例えば、変数Ｂを０バイト目から７バイト目と、８バイト目から１５バイト目の２つ（上下）に分けて水平加算する。具体的には、「ＣＬ＝ｖａｄｄｖ＿ｕ８（ｖｇｅｔ＿Ｌｏｗ＿ｕ８（Ｂ））」を実行し、変数Ｂの０バイト目から７バイト目の各バイトを水平加算し、水平加算した結果を８ビットの変数ＣＬにセットする。この例では、変数ＣＬの６ビット目が０、その他のビットが１となる。同様に「ＣＨ＝ｖａｄｄｖ＿ｕ８（ｖｇｅｔ＿ｈｉｇｈ＿ｕ８（Ｂ））」を実行し、変数Ｂの８バイト目から１５バイト目の各バイトを水平加算し、水平加算した結果を８ビットの変数ＣＨにセットする。この例では、変数ＣＨの３ビット目が０、その他のビットが１となる。

【0163】

続いて、エミュレータは、変換した２つの８ビットのデータを結合する（Ｓ７０３）。具体的には、「Ｒｅｓ＝ＣＬ | （ＣＨ＜＜８）」を実行して、変数ＣＬと、変数ＣＨを８ビット左にシフトした値とを結合（上下を結合）し、結合した結果を変数Ｒｅｓにセットし、集約完了する。この例では、６ビット目と１１ビット目が０、その他の各ビットが０となる。

【0164】

＜ノードデータのメモリ配置例＞
図１２は、本実施の形態に係るノード２００のデータのメモリ配置例を示している。図１２に示すように、ノード２００の各要素は、実体フラグ２０３、ブランチ位置２０４、直列文字列２０５、ブランチバイト列２０６、遷移先情報２０７の順にメモリに配置される。すなわち、ブランチバイト列２０６の後に連続して遷移先情報２０７が格納される。本実施の形態では、実体フラグ２０３、ブランチ位置２０４、直列文字列２０５に対して、通常の命令を使用して参照し、次に、ブランチバイト列２０６に対して、ＳＩＭＤ命令を使用して参照し、次に、遷移先情報２０７に対して、通常命令を使用して参照する。

【0165】

ブランチバイト列は１バイトから最大で２５６バイトまで可変のサイズを取る。一方ＳＩＭＤによる処理は、ＳＩＭＤのサイズ（１２８ｂｉｔ＝１６Ｂｙｔｅ、２５６ｂｉｔ＝３２Ｂｙｔｅ）に従った連続するメモリアドレスに対して行われる。このため、一般にはＳＩＭＤのサイズに満たないデータを扱う場合、データの後ろ側にメモリ参照違反を避けるために緩衝用のメモリエリアを設ける。しかしながら、この方法では、ブランチバイトが少ない場合に、緩衝用のメモリのための無駄が増え、特に近年のキャッシュの効果が大きいＣＰＵでは性能劣化を同時に招くことに成る。このため、本実施形態ではブランチバイト列（図９（ａ））の直後に遷移先情報（図９（ｂ））を詰めて配置することで、アロケート数が４や８のようなノードの場合でも緩衝用のメモリの確保によるメモリ使用効率の低下を起こさないようにするとともに、ブランチバイトのアクセス直後に使う遷移先情報が、事前にキャッシュに読み込まれる確率を上げている。

【0166】

＜効果＞
以上のように、本実施の形態では、マルチノードツリーのノード情報は、文字列情報の参照による直列文字列と、それに続く、次の１バイトの値を示すブランチバイトのバイト列と、そのブランチバイトに対応した遷移先情報を一組として格納する。更に、ノード情報にはこの情報を補完する情報として、直列文字列の指す文字列が、文字列の実体であることを示す実体フラグと、文字列のどの位置のバイトとブランチバイトを照合するかを示す、ブランチ位置の情報を持つ。

【0167】

本実施の形態では、直列文字列とブランチバイトの対を持つノードと、文字列情報であるリーフをマルチノードのツリーとして構成し、更に、直列文字列とブランチバイトの双方の操作に並列比較（ＳＩＭＤ命令）を組み合わせることで、可変長の文字列を効率よく検索することができる。

【0168】

本実施の形態では、完全一致検索を行う際、入力文字列に対し、直列文字列比較、ブランチバイト列比較の２つの比較操作を使いながら、ノードを上位からたどることで、検索を行っていく。文字列は“株式会社”や“Ｃｏｒｐｏｒａｔｉｏｎ”、更には“Ｃａｒｉｆｏｒｎｉａ”などの特定の単語や地名などの結合と組み合わせで構成されることが多いため、同一の文字列が長く出現するような状態では、内部でＳＩＭＤによる広範囲比較を行う、直列文字列比較の効果が大きくなる。同様に、文字列自体の長さが１００バイトや１０００バイトを超えるようなケースでもＳＩＭＤを使った広範囲比較により、比較回数の削減効果を期待できる。また、上記の例では説明を簡潔にするため、ブランチバイトの数を数個としているが、この部分は最大の場合、２５６個に成るため、個数が多くなると、ブランチバイト列比較の内部におけるＳＩＭＤを使った並列比較操作とインデクス変換の効果が大きくなる。

【0169】

また、近年のＣＰＵは命令を複数段に分けて順次実行するパイプライン動作を行うことで、命令の処理時間の短縮を図っている。しかしながら、このパイプライン動作は条件分岐を行うことで乱れが生じ、処理効率が低下する。このため、本実施の形態では、直列文字列比較及びブランチバイト列比較で、差異位置インデックス取得、一致位置インデックス取得、及び検索区間インデックス取得を行う際に、ＳＩＭＤ命令を使用するとともに、各々の処理シーケンスの中で条件分岐は各一回しか使わない（図８、図９、図１０Ｂのｉｆ文）。これにより、条件分岐を行うことによる、ＣＰＵ内部のパイプラインの乱れを抑え、効率的な処理を行える。

【0170】

更に近年のＣＰＵでは、その動作速度が、一般的に主記憶に使われるＤＲＡＭのメモリアクセス速度に足を引っ張られないように、比較的大きなキャッシュメモリを持っている。本実施の形態では、ノードにおけるブランチバイト列の後にブランチに対応するノード／リーフの遷移先情報を格納することで、ブランチの数がＳＩＭＤの基本サイズである１２８ｂｉｔや２５６ｂｉｔのサイズに満たない場合にＳＩＭＤによるメモリ参照違反を起こさず、メモリ利用効率を上げるともに、次にアクセスする遷移先情報を同時にキャッシュに読み込むことで、キャッシュヒット率を上げ処理の効率化を図っている。
なお、同じ値が登録済みかを調べる検索処理については、検索ノードのツリーを下降する際の直列文字列の比較にかかわる処理（Ｓ１０５～Ｓ１０６）を省略し、最終のリーフ文字列との同一チェック（Ｓ１３０）ならびに、直列文字列の同一チェック（Ｓ１５０）の際に該当文字列と入力文字列の全体が一致するかを判定してもよい。ただし、以降で説明する（実施の形態３）の登録処理においては、この省略はできない。

【0171】

（実施の形態２）
次に、実施の形態２について説明する。本実施の形態では、実施の形態１で示した検索装置１００において、前方一致検索を行う例について説明する。検索装置１００の構成は、実施の形態１と同様である。

【0172】

＜前方一致検索の動作例＞
図１３Ａ及び図１３Ｂは、本実施の形態に係る検索装置１００における前方一致検索処理の動作例を示している。図１３Ａ及び図１３Ｂの前方一致検索処理では、図４Ａ及び図４Ｂの完全一致検索処理に対して、Ｓ１３１、Ｓ１５０、Ｓ１５１の処理が異なる。

【0173】

完全一致検索の場合、入力文字列とリーフ文字列の比較結果を判定するＳ１３１で、入力文字列とリーフ文字列における内容及び長さが同一の場合に検索成功と判定する。これに対し、前方一致検索の場合、Ｓ１３１ａで、入力文字列の長さ分の文字がリーフ文字列と同じであるか否か判定し、入力文字列の長さ分の文字がリーフ文字列と同じであれば、以降の文字列の内容は問わずに検索成功と判定する。なお、Ｓ１３２では、リーフで一致となるため、文字列１件のみが返却される。

【0174】

また、完全一致検索の場合、ノードの途中でループを外れるＳ１５０、Ｓ１５１では、当該ノードの直列文字列のみが検索結果となる。これに対し、前方一致検索の場合、Ｓ１５０ａ、Ｓ１５１ａでは、該当ノードの下位にある複数のリーフ文字列すべてが検索結果に該当する。このため、Ｓ１５０ａで、反復取得（イテレータ）に必要な初期化を行う。具体的には、スタックレベルに０をセットし、スタック［０］.ノードにカレントノードをセットし、スタック［０］．ブランチ番号に－１をセットする。続いて、Ｓ１５１ａで反復取得（イテレータ）に向けた情報をリターンする。

【0175】

＜前方一致検索処理の具体例＞
図１４を用いて、図１３Ａ及び図１３Ｂの前方一致検索処理の具体例について説明する。図１４の例では、図５と同様、文字列３００－１～３００－８が、ノード２００－１～２００－４を含むデータツリー１１１に登録されている。この例では、図１４のデータツリー１１１から前方一致検索で入力文字列“ＤＧ”（２文字）を検索する場合の動作について説明する。

【0176】

（１）初回ループ
検索制御部１３１は、最初にデータツリー１１１のデータ登録を確認し（Ｓ１０１）、図１４のようにデータが登録されているため、初期化に進む。初期化では、検索制御部１３１は、バイトチェック位置に０をセットし、カレントノードにルートノードをセットする（Ｓ１０２）。この場合、カレントノードは、最上位のノード２００－１を指すようになる。

【0177】

【0178】

続いて、検索制御部１３１は、比較サイズを計算する（Ｓ１０４）。この場合、比較サイズは、カレントノードであるノード２００－１のブランチ位置２０４＝１と入力文字列“ＤＧ”の文字列長＋１＝３の小さい方の値である１から、バイトチェック位置である０を減算し、結果は１となる。

【0179】

続いて、文字列比較部１３２は、直列文字列比較を行う（Ｓ１０５）。この場合、直列文字列比較では、カレントノードであるノード２００－１の直列文字列２０５の指す文字列“ＤＢＸＰＮ”と入力文字列“ＤＧ”とを使い、バイトチェック位置である０バイト目から比較サイズである１バイト分の文字が同一か否かをチェックする。直列文字列比較の結果、２つの文字列の０バイト目はいずれも“Ｄ”であり、文字列に差異はないため（Ｓ１０６）、検索制御部１３１は、ループ処理を続行する。

【0180】

【0181】

続いて、検索制御部１３１は、バイトチェック位置である１が入力文字列長である２以上、つまり入力文字チェックが完了したか否かをチェックし（Ｓ１０８）、バイトチェック位置が入力文字列長を超えていないため、ループ処理を続行する。

【0182】

続いて、ブランチ比較部１３３は、ブランチバイト列比較を行う（Ｓ１０９）。この場合、ブランチバイト列比較では、カレントノードであるノード２００－１のブランチバイト列２０６＝（“Ｂ”，“Ｇ”，“Ｒ”）の中に、入力文字列“ＤＧ”のバイトチェック位置＝１の文字である“Ｇ”と同じ値があるか否かをチェックする。ブランチバイト列比較の結果、ノード２００－１のブランチバイト列２０６のインデックス１番目に同じ値があるため（Ｓ１１０）、検索制御部１３１は、ループ処理を続行する。

【0183】

【0184】

（２）２回目ループ
２回目のループでも同様に、検索制御部１３１は、カレントノードであるノード２００－２が文字列（リーフ）でないため（Ｓ１０３）、比較サイズを計算する（Ｓ１０４）。この場合、比較サイズは、カレントノードであるノード２００－２のブランチ位置２０４＝２と入力文字列“ＤＧ”の文字列長＋１＝３の小さい方の値である２から、バイトチェック位置である２を減算し、結果は０となる。

【0185】

続いて、文字列比較部１３２は、直列文字列比較を行う（Ｓ１０５）。この場合、直列文字列比較では、カレントノードであるノード２００－２の直列文字列２０５の指す文字列“ＤＧ”と入力文字列“ＤＧ”とを比較し、バイトチェック位置である２バイト目から比較サイズである０バイト分の文字が同一か否かをチェックする。直列文字列比較の結果、比較サイズが０のため差は検出されず（Ｓ１０６）、検索制御部１３１は、ループ処理を続行する。

【0186】

【0187】

続いて、検索制御部１３１は、バイトチェック位置である２が入力文字列長である２以上、つまり入力文字チェックが完了したかどうかをチェックし（Ｓ１０８）、バイトチェック位置が入力文字列長以上となったため、ループを脱出する。

【0188】

（３）ループ終了
Ｓ１０８でループを抜けた場合、リーフでない位置で検索処理が終了することになる。この場合、検索制御部１３１は、次に説明する反復取得（イテレータ）に向けた情報をリターンし、その後、改めて反復取得（イテレータ）を使うことで、ノード以下の複数のリーフ文字列を順次出力する。具体的には、反復取得（イテレータ）用に、スタックレベルを０に初期化し、先頭のスタックのノードに現在のノード（上位から２番目のノード２００－２）をセットし、ブランチ番号に－１をセットする（Ｓ１５０ａ）。続いて、検索制御部１３１は、反復取得（イテレータ）に向けた情報を返却する（Ｓ１５１ａ）。

【0189】

＜反復取得処理の動作例＞
図１５Ａ及び図１５Ｂは、本実施の形態に係る反復取得処理の動作例を示している。図１５Ａ及び図１５Ｂは、図１３ＢのＳ１５１ａで返却された反復取得（イテレータ）情報を利用した、反復出力処理の動作例である。

【0190】

反復取得を昇順に行う場合（イテレータ）、登録済みデータを、特定の文字列から反復取得し、結果は、文字列の辞書順に得られる。昇順の場合、ノード内を、直列文字列（実体）、ブランチリーフ（小さいほうから）の順に取得し、ブランチがノードを指している場合は、そのノードに移り同様の手順を繰り返す。

【0191】

反復取得を降順に行う場合、昇順の動作から、取得方向を逆順にして処理する。降順の場合、ノード内を、ブランチリーフ（大きいほうから）、直列文字列（実体）の順に取得し、ブランチがノードを指している場合は、そのノードに移り同様の手順を繰り返す。

【0192】

反復取得の処理を、ソート、範囲検索へ応用してもよい。反復取得は指定のノードから、順番にリーフノードを返却できるため、最上位のノードを対象にすることで、登録データ全体を昇順（降順）に取得できる。これは登録データを辞書順にソートした結果と同様になる。また、検索などの手段により、任意のノードを開始位置として反復取得を行うことで昇順（降順）の範囲検索や指定個数のデータ取得にも応用できる。

【0193】

図１５Ａ及び図１５Ｂは、反復取得を昇順に行う場合の動作例である。図１５Ａ及び図１５Ｂに示すように、検索制御部１３１は、出力リストをクリアする（Ｓ８０１）。続いて、検索制御部１３１は、出力リストに空きがあり、かつ、スタックレベルが０以上であるか否か判定する（Ｓ８０２）。Ｓ８２０において、出力リストに空きがない、または、スタックレベルが０より小さいと判定された場合、検索制御部１３１は、現在の結果リストをリターンし（Ｓ８２０）、処理を終了する。

【0194】

Ｓ８２０において、出力リストに空きがあり、かつ、スタックレベルが０以上であると判定された場合、検索制御部１３１は、カレントノードにスタック［スタックレベル］．ノードをセットし、カレントブランチにスタック［スタックレベル］．ブランチ番号をセットする（Ｓ８０３）。

【0195】

続いて、検索制御部１３１は、カレントブランチがカレントノードのブランチサイズ２０１以上か、すなわち、全ブランチ処理済みか否か判定する（Ｓ８０４）。Ｓ８０４において、カレントブランチがカレントノードのブランチサイズ２０１以上であると判定された場合、検索制御部１３１は、スタックレベルをデクリメントし（Ｓ８１０）、Ｓ８０２以降の処理を繰り返す。

【0196】

Ｓ８０４において、カレントブランチがカレントノードのブランチサイズ２０１より小さいと判定された場合、検索制御部１３１は、スタック［スタックレベル］．ブランチ番号をインクリメントする（Ｓ８０５）。

【0197】

続いて、検索制御部１３１は、カレントブランチが－１であるか否か、すなわち直列文字列位置であるかチェックする（Ｓ８０６）。Ｓ８０６において、カレントブランチが－１であると判定された場合、検索制御部１３１は、カレントノードの直列文字列が実体か否か判定する（Ｓ８２１）。

【0198】

Ｓ８２１において、カレントノードの直列文字列が実体ではないと判定された場合、検索制御部１３１は、Ｓ８０２以降を繰り返す。Ｓ８２１において、カレントノードの直列文字列が実体であると判定された場合、出力リストにカレントノードの直列文字列を追加し（Ｓ８２２）、Ｓ８０２以降を繰り返す。

【0199】

Ｓ８０６において、カレントブランチが－１ではないと判定された場合、検索制御部１３１は、カレントブランチが指すのがノードか否か判定する（Ｓ８０７）。Ｓ８０７において、カレントブランチが指すのはノードではないと判定された場合、検索制御部１３１は、出力リストにカレントブランチに対応するリーフの文字列を追加し（Ｓ８２３）、Ｓ８０２以降を繰り返す。

【0200】

Ｓ８０７において、カレントブランチが指すのはノードであると判定された場合、検索制御部１３１は、スタックレベルをインクリメントする（Ｓ８０８）。続いて、検索制御部１３１は、スタック［スタックレベル］．ノードにカレントブランチが指すノードをセットし、スタック［スタックレベル］．ブランチ番号に－１をセットし（Ｓ８０９）、Ｓ８０２以降の処理を繰り返す。

【0201】

＜反復取得処理の具体例＞
図１６を用いて、図１５Ａ及び図１５Ｂの反復取得処理の具体例について説明する。図１６の例では、図１４と同様、文字列３００－１～３００－８が、ノード２００－１～２００－４を含むデータツリー１１１に登録されている。この例では、図１４と同様にデータツリー１１１から前方一致検索で入力文字列“ＤＧ”（２文字）を検索し、出力リスト格納容量３個で“ＤＧ”より下の集合を取得（昇順）する場合の動作について説明する。

【0202】

なお、図１４で説明したように、反復取得処理の前に、前方一致検索のＳ１５０ａで、スタックレベルに０をセットし、スタック［０］.ノードにカレントノード（ノード２００－２）をセットし、スタック［０］．ブランチ番号に－１がセットされている。

【0203】

（１）初回ループ
検索制御部１３１は、最初に出力リストをクリアして初期化する(Ｓ８０１)。続いて、１回目のループとして、検索制御部１３１は、出力リストの空き及びスタックレベルをチェックし（Ｓ８０２)、出力リストに空きがあり、かつ、スタックレベルが０であるため、処理を続行する。

【0204】

続いて、検索制御部１３１は、前方一致検索のＳ１５０ａで初期セットされた、スタックレベル＝０のスタック［０］から、ノード（ノード２００－２）とブランチ番号＝－１を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0205】

続いて、検索制御部１３１は、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチ＝－１はカレントノードのブランチサイズ２０１＝３より小さいため、そのまま処理を続行する。続いて、検索制御部１３１は、スタックレベル＝０のスタック［０］のブランチ番号である－１をインクリメントし、０にする（Ｓ８０５）。

【0206】

続いて、検索制御部１３１は、カレントブランチが－１であるか否かをチェックする（Ｓ８０６）。この場合、カレントブランチが－１であるため、検索制御部１３１は、カレントノード（ノード２００－２）の直列文字列２０５＝“ＤＧ”が実体か否かチェックする（Ｓ８２１）。そして、カレントノードの直列文字列２０５は実体であるため、検索制御部１３１は、カレントノードの直列文字列２０５＝“ＤＧ”（文字列３００－２）を出力リストに追加し（Ｓ８２２）、次のループに移る。

【0207】

（２）２回目ループ
２回目のループとして、検索制御部１３１は、出力リストの空き及びスタックレベルをチェックし（Ｓ８０２)、出力リストの格納数はまだ１であり、格納容量＝３より小さく、かつ、スタックレベルが０であるため、処理を続行する。

【0208】

続いて、検索制御部１３１は、スタックレベル＝０のスタック［０］からノード（ノード２００－２）とブランチ番号＝０を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0209】

続いて、検索制御部１３１は、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチは０であり、カレントノードのブランチサイズ２０１＝３より小さいため、そのまま処理を続行する。続いて、検索制御部１３１は、スタックレベル＝０のスタック［０］のブランチ番号である０をインクリメントし、１にする（Ｓ８０５）。

【0210】

続いて、検索制御部１３１は、カレントブランチが－１であるか否かチェックし（Ｓ８０６）、カレントブランチは０であり、－１と異なるため、そのまま処理を継続する。続いて、検索制御部１３１は、カレントブランチが指すのがノードか否かチェックし（Ｓ８０７）、カレントブランチの０が指すのは、ノードのため、処理を続行する。

【0211】

続いて、検索制御部１３１は、スタックレベルである０をインクリメントして、１にする（Ｓ８０８）。続いて、検索制御部１３１は、スタックレベル＝１のスタック［１］に対し、ノードとして、カレントブランチの０に対応する遷移先のノード情報（ノード２００－３）をセットし、ブランチ番号として－１をセットして（Ｓ８０９）、次のループに移る。

【0212】

（３）３回目ループ
以降では、前記と同様な動作を行う部分が多いため、記述を少々簡略化する。なお、動作は検索制御部１３１において行われる。
３回目のループとして、出力リストの格納数がまだ１で、格納可能数＝３より小さく、かつ、スタックレベルが１であるため、処理を続行する（Ｓ８０２)。

【0213】

続いて、スタックレベル＝１のスタック［１］からノード（ノード２００－３）とブランチ番号＝－１を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0214】

続いて、カレントブランチが－１であり、カレントノードのブランチサイズ２０１＝１より小さいため、そのまま処理を続行し（Ｓ８０４）、続いて、スタックレベル＝１のスタック［１］のブランチ番号である－１をインクリメントし、０にする（Ｓ８０５）。

【0215】

続いて、カレントブランチが－１であるかチェックし（Ｓ８０６）、カレントブランチが－１であるため、続いてカレントノード（ノード２００－３）の直列文字列２０５＝“ＤＧＨＫＰ”が実体か否かチェックする（Ｓ８２１）。その結果、カレントノードの直列文字列２０５は実体であるため、カレントノードの直列文字列２０５＝“ＤＧＨＫＰ”（文字列３００－３）を出力リストに追加し（Ｓ８２２）、次のループに移る。

【0216】

（４）４回目ループ
４回目のループとして、出力リストの格納数はまだ２であり、格納可能数＝３より小さく、かつ、スタックレベルが１であるため、処理を続行する（Ｓ８０２)。

【0217】

続いて、スタックレベル＝１のスタック［１］からノード（ノード２００－３）とブランチ番号＝０を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0218】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチは０であり、カレントノードのブランチサイズ２０１＝１より小さいため、そのまま処理を続行する。続いて、スタックレベル＝１のスタック［１］のブランチ番号である０をインクリメントし、１にする（Ｓ８０５）。

【0219】

続いて、カレントブランチが－１であるか否かをチェックし（Ｓ８０６）、カレントブランチは０であり、－１と異なるため、そのまま処理を継続する。続いて、カレントブランチが指すのがノードか否かチェックし（Ｓ８０７）、カレントブランチの０が指すのは、ノードではなく、文字列のため、カレントブランチの０に対応するリーフの文字列“ＤＧＨＫＰＳ”（文字列３００－４）を出力リストに追加し（Ｓ８２３）、次のループに移る。

【0220】

（５）５回目ループ
５回目のループとして、出力リストの空き及びスタックレベルをチェックし（Ｓ８０２)、出力リストの格納数が３であり、格納可能数に達したため、ループを脱出し、現在の出力リストの内容(“ＤＧ”，“ＤＧＨＫＰ”，“ＤＧＨＫＰＳ”の３要素）を返却し（Ｓ８２０）、処理を終了する。

【0221】

（６）６回目ループ
データ取得の継続として、再度、反復取得がコールされる。すると、検索制御部１３１は、最初に出力リストをクリアして初期化する（Ｓ８０１）。

【0222】

続いて、６回目のループとして、出力リストの空き及びスタックレベルをチェックし（Ｓ８０２)、出力リストに空きがあり、かつ、スタックレベルが１であるため、処理を続行する。

【0223】

続いて、スタックレベル＝１のスタック［１］からノード（ノード２００－３）とブランチ番号＝１を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0224】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチは１であり、カレントノードのブランチサイズ２０１＝１と同じであるため、カレントノードの処理が終了したことになり、検索制御部１３１は、スタックレベルの１をデクリメントして、０とし（Ｓ８１０）、次のループに移る。

【0225】

（７）７回目ループ
７回目のループとして、出力リストの格納数はまだ０であり、格納可能数＝３より小さく、かつ、スタックレベルが０であるため、処理を続行する（Ｓ８０２)。

【0226】

続いて、スタックレベル＝０のスタック［０］からノード（上位から２番目のノード２００－２）とブランチ番号＝１を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0227】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチは１であり、カレントノードのブランチサイズ２０１＝３より小さいため、そのまま処理を続行する。続いて、スタックレベル＝０のスタック［０］のブランチ番号である１をインクリメントし、２にする（Ｓ８０５）。

【0228】

続いて、カレントブランチが－１であるか否かチェックし、（Ｓ８０６）、カレントブランチは１であり、－１と異なるため、そのまま処理を継続する。続いて、カレントブランチが指すのがノードか否かチェックする（Ｓ８０７）。この場合、カレントブランチの１が指すのは、ノードではなく、文字列のため、カレントブランチに対応するリーフの文字列“ＤＧＫ”（文字列３００－５）を出力リストに追加し（Ｓ８２３）、次のループに移る。

【0229】

（８）８回目ループ
８回目のループとして、出力リストの格納数はまだ１であり、格納可能数＝３より小さく、かつ、スタックレベルが０であるため、処理を続行する（Ｓ８０２）。

【0230】

続いて、スタックレベル＝０のスタック［０］からノード（ノード２００－２）とブランチ番号＝２を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0231】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチは２であり、カレントノードのブランチサイズ２０１＝３より小さいため、そのまま処理を続行する。続いて、検索制御部１３１は、スタックレベル＝０のスタック［０］のブランチ番号である２をインクリメントし、３にする（Ｓ８０５）。

【0232】

続いて、カレントブランチが－１であるか否かチェックし（Ｓ８０６）、カレントブランチは２であり、－１と異なるため、そのまま処理を継続する。続いて、カレントブランチが指すのがノードか否かチェックし（Ｓ８０７）、カレントブランチの２が指すのは、ノードのため、処理を続行する。

【0233】

続いて、スタックレベルである０をインクリメントして、１にする（Ｓ８０８）。続いて、スタックレベル＝１のスタック［１］に対し、ノードとして、カレントブランチの２に対応する遷移先のノード情報（ノード２００－４）をセットし、ブランチ番号として－１をセットして（Ｓ８０９）、次のループに移る。

【0234】

（９）９回目ループ
９回目のループとして、出力リストの格納数はまだ１であり、格納可能数＝３より小さく、かつ、スタックレベルが１であるため、処理を続行する（Ｓ８０２)。

【0235】

続いて、スタックレベル＝１のスタック［１］からノード（ノード２００－４）とブランチ番号＝－１を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0236】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチは－１であり、カレントノードのブランチサイズ２０１＝２より小さいため、そのまま処理を続行する。続いて、スタックレベル＝１のスタック［１］のブランチ番号である－１をインクリメントし、０にする（Ｓ８０５）。

【0237】

続いて、カレントブランチが－１であるか否かチェックし（Ｓ８０６）、カレントブランチが－１であるため、カレントノード（２００－４）の直列文字列２０５＝“ＤＧＬＥＢＧ”が実体か否かチェックする（Ｓ８２１）。この場合、カレントノードの直列文字列２０５は実体ではないため、文字列を出力リストに追加せず、次のループに移る。

【0238】

（１０）１０回目ループ
１０回目のループとして、出力リストに空きがあり、かつ、スタックレベルが１であるため、処理を続行する（Ｓ８０２)。

【0239】

続いて、スタックレベル＝１のスタック［１］からノード（ノード２００－４）とブランチ番号＝０を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0240】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチは０であり、カレントノードのブランチサイズ２０１＝２より小さいため、そのまま処理を続行する。続いて、スタックレベル１のスタック［１］のブランチ番号である０をインクリメントし、１にする（Ｓ８０５）。

【0241】

続いて、カレントブランチが－１であるか否かをチェックし（Ｓ８０６）、カレントブランチは０であり、－１と異なるため、そのまま処理を継続する。続いて、カレントブランチが指すのがノードか否かチェックする（Ｓ８０７）。この場合、カレントブランチの０が指すのは、ノードではなく、文字列のため、カレントブランチの０に対応するリーフの文字列“ＤＧＬＥＡ”（文字列３００－６）を出力リストに追加し（Ｓ８２３）、次のループに移る。

【0242】

（１１）１１回目ループ
１１回目のループとして、出力リスト格納数が２で、まだ空きがあり、かつ、スタックレベルが１であるため、処理を続行する（Ｓ８０２)。

【0243】

続いて、スタックレベル＝１のスタック［１］からノード（ノード２００－４）とブランチ番号＝１を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0244】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較し（Ｓ８０４）、カレントブランチは１であり、カレントノードのブランチサイズ２０１＝２より小さいため、そのまま処理を続行する。続いて、スタックレベル＝１のスタック［１］のブランチ番号である１をインクリメントし、２にする（Ｓ８０５）。

【0245】

続いて、カレントブランチが－１であるか否かチェックし、（Ｓ８０６）、カレントブランチは１であり、－１と異なるため、そのまま処理を継続する。続いて、カレントブランチが指すのがノードか否かチェックし（Ｓ８０７）、カレントブランチの１が指すのは、ノードではなく、文字列のため、カレントブランチの１に対応するリーフの文字列“ＤＧＬＥＢＧ”（文字列３００－７）を追加し（Ｓ８２３）、次のループに移る。

【0246】

（１２）１２回目ループ
１２回目のループとして、出力リストの空き及びスタックレベルをチェックし（Ｓ８０２)、出力リストの格納数が３であり、格納可能数に達したため、ループを脱出し、現在の出力リストの内容(“ＤＧＫ”，“ＤＧＬＥＡ”，“ＤＧＬＥＢＧ”の３要素）を返却し（Ｓ８２０）、処理を終了する。

【0247】

（１３）１３回目ループ
データ取得の継続として、再度、反復取得がコールされる。すると、検索制御部１３１は、最初に出力リストをクリアして初期化する（Ｓ８０１）。

【0248】

続いて、１３回目のループとして、出力リストの空き及びスタックレベルをチェックし（Ｓ８０２)、出力リストに空きがあり、かつ、スタックレベルが１であるため、処理を続行する。

【0249】

続いて、スタックレベル＝１のスタック［１］からノード（ノード２００－４）とブランチ番号＝２を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0250】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較する（Ｓ８０４）。この場合、カレントブランチは２であり、カレントノードのブランチサイズ２０１＝２と同じであるため、カレントノードの処理が終了したことになり、スタックレベルの１をデクリメントして、０とし（Ｓ８１０）、次のループに移る。

【0251】

（１４）１４回目ループ
１４回目のループとして、出力リストに空きがあり、かつ、スタックレベルが０であるため、処理を続行する（Ｓ８０２)。

【0252】

続いて、スタックレベル＝０のスタック［０］からノード（上位から２番目のノード２００－２）とブランチ番号＝３を取り出し、カレントノードとカレントブランチにセットする（Ｓ８０３）。

【0253】

続いて、カレントブランチとカレントノードのブランチサイズ２０１を比較する（Ｓ８０４）。この場合、カレントブランチは３であり、カレントノードのブランチサイズ２０１＝３と同じであるため、カレントノードの処理が終了したことになり、スタックレベルの０をデクリメントして、－１とし（Ｓ８１０）、次のループに移る。

【0254】

（１５）最終（１５回目）ループ
最終（１５回目）ループとして、検索制御部１３１は、出力リストの空き及びスタックレベルをチェックする（Ｓ８０２)。この場合、出力リストに空きはあるが、スタックレベルが－１であるため、ループを脱出し、結果数０（取得データ無し）を返却し（Ｓ８２０）、処理を終了する。

【0255】

以上のように、実施の形態１で示した検索装置１００において、完全一致検索と同様に前方一致検索を行ってもよい。前方一致検索を行った場合でも、実施の形態１と同様、可変長の文字列を効率よく検索することができる。また、前方一致や範囲検索、ソートの結果は、返却するデータ数が非常に多くなることがあるため、反復取得に対応することで、任意の取得数に分割して効率よく返却することが出来る。

【0256】

（実施の形態３）
次に、実施の形態３について説明する。本実施の形態では、実施の形態１または２で示した検索装置１００において、登録処理を行う例について説明する。

【0257】

＜検索装置の構成＞
図１７は、本実施の形態に係る検索装置１００の構成例を示している。図１７に示すように、検索装置１００は、図３の構成に加えて、さらに登録部１５０を備えている。なお、検索装置１００は、検索部１３０と登録部１５０の両方を備えた情報処理装置でもよいし、いずれか一方のみを備えた情報処理装置でもよい。例えば、登録部１５０のみを備える登録装置を構成してもよい。

【0258】

登録部１５０は、入力部１２０に入力された文字列（登録文字列）を、データツリー１１１に登録する登録処理を実行する。登録部１５０は、新たに登録する文字列に基づいて、データツリー１１１を構成しているノード２００、あるいは、新規に割り当てる（生成する）ノード２００に必要な情報（直列文字列やブランチの情報等）を設定することで、文字列をデータツリー１１１に登録する。例えば、登録部１５０は、登録制御部１５１、文字列比較部１５２、ブランチ比較部１５３を含む。

【0259】

登録制御部１５１は、データツリー１１１のノード２００をルートから順に選択し、選択したノード２００の情報と登録文字列の比較結果に基づいて、登録処理を制御する。登録制御部１５１は、文字列比較部１５２による直列文字列比較の結果及びブランチ比較部１５３によるブランチバイト列比較の結果に基づいて、登録文字列の登録やノードの遷移制御を行う。登録制御部１５１は、直列文字列比較の結果及びブランチバイト列比較の結果に応じて、選択されたノード２００が示すブランチノードを、遷移先のノード（次に比較を行うノード）として選択する選択部（第２の選択部）でもある。

【0260】

文字列比較部（第２の文字列比較部）１５２は、検索部１３０の文字列比較部１３２と同様の直列文字列比較処理を行う。文字列比較部１５２と文字列比較部１３２は、１つのブロックでもよい。文字列比較部１５２は、選択されたノード２００の直列文字列と登録文字列とを比較する直列文字列比較処理を行う。文字列比較部１５２は、リーフの文字列が選択された場合、リーフの文字列と登録文字列とを比較する。検索部１３０の文字列比較部１３２と同様、直列文字列比較処理では、ＳＩＭＤ命令並びに一般命令により２つの文字列を比較する。

【0261】

ブランチ比較部（第２のブランチ比較部）１５３は、検索部１３０のブランチ比較部１３３と同様のブランチバイト列比較処理を行う。ブランチ比較部１５３とブランチ比較部１３３は、１つのブロックでもよい。ブランチ比較部１５３は、選択されたノード２００のブランチバイト列２０６のブランチバイトと、登録文字列のブランチ位置２０４における文字を比較するブランチバイト列比較処理を行う。ブランチ比較部１５３は、ブランチバイト列比較処理により、ブランチバイト列２０６から、登録文字列のブランチ位置２０４における文字と一致するブランチバイト（ブランチ文字）を特定する。検索部１３０のブランチ比較部１３３と同様、ブランチバイト列比較処理では、ＳＩＭＤ命令並びに一般命令によりブランチバイト列２０６と登録文字列の該当する文字とを比較する。

【0262】

＜登録処理の動作例＞
図１８Ａ及び図１８Ｂは、本実施の形態に係る検索装置１００における登録処理の動作例を示している。図１８の登録処理では、図４の完全一致検索処理で検索失敗となる部分（Ｓ１２０、Ｓ１３３、Ｓ１４０、Ｓ１５２、Ｓ１６０）において、各登録処理を行う。各登録処理は、以下に示す初期登録、リーフ分割、ヘッダ分割、直列文字列交換、ブランチ追加の基本５操作を含む。その他の処理は、図４Ａ及び図４Ｂと同様である。なお、図１８Ａ及び図１８Ｂでは、入力文字列は登録する文字列である。

【0263】

（１）初期登録
Ｓ１０１においてデータが未登録であると判定された場合、登録制御部１５１は、初期登録を行い（Ｓ９００）、データ登録成功として、処理を終了する（Ｓ９０１）。

【0264】

初期登録（Ｓ９００）では、登録制御部１５１は、データツリー１１１に、入力文字列を最初のリーフ（文字列３００）として登録する。登録制御部１５１は、入力文字列を登録文字列１１２に新規登録し、その文字列をルートノードにセットする。

【0265】

（２）リーフ分割
Ｓ１３１において、入力文字列のうちバイトチェック位置から入力文字列終端までの文字列と、リーフ文字列に差異がある、または、入力文字列とリーフ文字列のサイズが違うと判定された場合、登録制御部１５１は、リーフ分割を行い（Ｓ９１０）、データ登録成功として、処理を終了する（Ｓ９１１）。

【0266】

Ｓ１３１において、入力文字列のうちバイトチェック位置から入力文字列終端までの文字列と、リーフ文字列に差異がない（同一である）、かつ、入力文字列とリーフ文字列のサイズが同じであると判定された場合、登録制御部１５１は、入力文字列は登録済みであるとして、リーフ文字列を返却し、処理を終了する（Ｓ９１２）。

【0267】

リーフ分割（Ｓ９１０）では、登録制御部１５１は、対象リーフ文字列と入力文字列の比較で差異がある場合は、対象リーフ文字列の上位に新規ノード２００を挿入し、対象リーフ文字列を分割する。まず、登録制御部１５１は、入力文字列を登録文字列１１２に新規登録し、更に新規ノード２００を割り当てる。登録制御部１５１は、差異位置（差異のある文字の位置）が、既リーフ文字列と入力文字列のいずれかの文字列の終端の場合は、終端に当たる文字列を新規ノード２００の直列文字列２０５に登録するとともに実体フラグ２０３をＯＮにする。登録制御部１５１は、もう一方の文字列の差異位置のバイトを新規ノード２００のブランチバイト列２０６にブランチバイトとして登録し、ブランチサイズ２０１を１にセットする。登録制御部１５１は、更にその文字列を新規ノード２００の遷移先情報２０７にリーフとして登録する。

【0268】

登録制御部１５１は、差異位置が、対象リーフ文字列と入力文字列の、いずれにおいても中間位置の場合は、いずれかの文字列（差異の前の部分はどちらでも同じなので、いずれでも良い）を新規ノード２００の直列文字列２０５に登録するとともに実体フラグ２０３をＯＦＦにする。登録制御部１５１は、対象リーフ文字列と入力文字列の差異位置から各々のバイトを抽出し、符号なし数値の昇順に新規ノード２００のブランチバイト列２０６にブランチバイトとして登録し、ブランチサイズ２０１を２にセットする。登録制御部１５１は、ブランチバイトの登録順に合わせて、該当する２つの文字列を新規ノード２００の遷移先情報２０７にリーフとして登録する。

【0269】

（３）ヘッダ分割
Ｓ１０６において、入力文字列のうちのバイトチェック位置から比較サイズ分の文字列とカレントノード（対象ノード）の直列文字列２０５に差異があると判定された場合、登録制御部１５１は、ヘッダ分割を行い（Ｓ９２０）、データ登録成功として、処理を終了する（Ｓ９２１）。

【0270】

ヘッダ分割（Ｓ９２０）では、登録制御部１５１は、対象ノード２００の直列文字列２０５と入力文字列の比較で差異がある場合、対象ノード２００の直列文字列２０５を差異部分で、新規ノード２００と対象ノード２００に分割する。その際、対象ノード２００が新規ノード２００の下位となるように、新規ノード２００を追加する。換言すると、データツリー１１１において対象ノード２００の上位に新規ノード２００を挿入する。登録制御部１５１は、入力文字列を登録文字列１１２に新規登録し、更に新規ノード２００を割り当てる。登録制御部１５１は、差異位置が、入力文字列の終端の場合は、入力文字列を新規ノード２００の直列文字列２０５に登録するとともに実体フラグ２０３をＯＮにする。登録制御部１５１は、対象ノード２００の直列文字列の差異位置のバイトを新規ノード２００のブランチバイト列２０６にブランチバイトとして登録し、ブランチサイズ２０１を１にセットする。登録制御部１５１は、更に対象ノード２００を新規ノード２００の遷移先情報２０７にノードとして登録する。

【0271】

登録制御部１５１は、差異位置が、対象ノード２００の直列文字列２０５と入力文字列の、いずれにおいても中間位置の場合は、いずれかの文字列（差異の前の部分はどちらでも同じなので、いずれでも良い）を新規ノード２００の直列文字列２０５に登録するとともに実体フラグをＯＦＦにする。登録制御部１５１は、対象ノード２００の直列文字列２０５と入力文字列の差異位置から各々のバイトを抽出し、符号なし数値の昇順に新規ノード２００のブランチバイト列２０６にブランチバイトとして登録し、ブランチサイズ２０１を２にセットする。登録制御部１５１は、ブランチバイトの登録順に合わせて、対象ノード２００と入力文字列を新規ノード２００の遷移先情報２０７にノードとリーフとして登録する。

【0272】

（４）直列文字列交換
Ｓ１５０において、カレントノード（対象ノード）の直列文字列２０５が文字列の実体を参照し、かつ、入力文字列と直列文字列２０５のサイズが同じであると判定された場合、登録制御部１５１は、入力文字列は登録済みであるとして、直列文字列を返却し、処理を終了する（Ｓ９３２）。

【0273】

Ｓ１５０において、カレントノードの直列文字列２０５が文字列の実体を参照していない、または、入力文字列と直列文字列２０５のサイズが異なると判定された場合、登録制御部１５１は、直列文字列変換を行い（Ｓ９３０）、データ登録成功として、処理を終了する（Ｓ９３１）。

【0274】

直列文字列交換（Ｓ９３０）では、登録制御部１５１は、対象ノード２００の直列文字列２０５を入力文字列に置き換える。登録制御部１５１は、入力文字列を登録文字列１１２に新規登録し、その文字列を、対象ノード２００の直列文字列２０５に登録するとともに実体フラグ２０３をＯＮにする。

【0275】

（５）ブランチ追加
Ｓ１１０において、カレントノード（対象ノード）のブランチバイト列２０６に入力文字列のバイトチェック位置と同じ値がないと判定された場合、登録制御部１５１は、ブランチ追加を行い（Ｓ９４０）、データ登録成功として、処理を終了する（Ｓ９４１）。

【0276】

ブランチ追加（Ｓ９４０）では、登録制御部１５１は、入力文字列における、対象ノード２００のブランチ位置２０４が指す１バイトが、対象ノード２００のブランチバイト列２０６のいずれとも一致しない場合、対象ノード２００に入力文字列に対応したブランチバイトとリーフ（文字列）を挿入する。登録制御部１５１は、入力文字列を登録文字列１１２に新規登録する。登録制御部１５１は、対象ノード２００のブランチが満杯の場合は、まず、ブランチバイト列２０６と遷移先情報２０７のノード／リーフ格納エリアを拡張する。登録制御部１５１は、入力文字列から、対象ノード２００のブランチ位置２０４が指す１バイトを抽出し、対象ノード２００のブランチバイト列２０６が符号なし数値の昇順になるように、この１バイトをブランチバイト列２０６に挿入し、更に、ブランチバイトの挿入位置に対応する遷移先情報２０７に新規登録した入力文字列をリーフとして挿入する。登録制御部１５１は、対象ノード２００のブランチサイズ２０１を１カウントアップする。

【0277】

＜登録処理の具体例＞
図１９～図２５を用いて、図１８Ａ及び図１８Ｂの登録処理の具体例について説明する。図１９～図２５は、実施の形態１の図５の文字列３００－１～３００－７をデータツリー１１１に登録する例である。なお、図１９～図２５では、文字列およびノードに図５と同じ符号を使用する。

【0278】

（１）初期登録（Ｓ９００）
図１９は、最初に行われる初期登録（Ｓ９００）の具体例を示している。図１９に示すように、データ未登録の状態で、文字列“ＤＧＨＫＰ”が入力される。

【0279】

登録制御部１５１は、データツリー１１１をチェックし（Ｓ１０１）、初期状態でデータ未登録のため、初期登録を行う（Ｓ９００）。この場合、登録制御部１５１は、入力文字列“ＤＧＨＫＰ”を登録文字列１１２に文字列３００－３として新規登録し、その文字列をルートノードにセットする。

【0280】

（２）リーフ分割（Ｓ９１０）
図２０は、図１９の後に行われるリーフ分割（Ｓ９１０）の具体例を示している。図２０に示すように、図１９で文字列“ＤＧＨＫＰ”（文字列３００－３）を登録した後、文字列“ＤＧＨＫＰＳ”が入力される。

【0281】

登録制御部１５１は、データツリー１１１をたどって、入力文字列“ＤＧＨＫＰＳ”と既登録のリーフ文字列“ＤＧＨＫＰ”に対し、直列文字列比較を行う（Ｓ１３０）。直列文字列比較の結果、入力文字列“ＤＧＨＫＰＳ”はリーフ文字列“ＤＧＨＫＰ”と異なるため、登録制御部１５１は、リーフ分割を行う（Ｓ９１０）。

【0282】

この場合、登録制御部１５１は、入力文字列“ＤＧＨＫＰＳ”を登録文字列１１２に文字列３００－４として新規登録し、更に新規ノード２００－３を割り当てる。ここでは、入力文字列“ＤＧＨＫＰＳ”とリーフ文字列“ＤＧＨＫＰ”の差異位置は５である。

【0283】

登録制御部１５１は、差異位置＝５が既リーフ文字列“ＤＧＨＫＰ”の終端のため、既リーフ文字列“ＤＧＨＫＰ”を新規ノード２００－３の直列文字列２０５に登録するとともに実体フラグ２０３をＯＮにする。登録制御部１５１は、差異位置＝５を新規ノード２００－３のブランチ位置２０４にセットし、入力文字列“ＤＧＨＫＰＳ”の差異位置＝５のバイト“Ｓ”を新規ノード２００－３のブランチバイト列２０６にブランチバイトとして登録し、新規ノード２００－３のブランチサイズ２０１に１をセットする。

【0284】

登録制御部１５１は、新規登録した入力文字列“ＤＧＨＫＰＳ”（文字列３００－４）を新規ノード２００－３の遷移先情報２０７にリーフとして登録する。

【0285】

（３）ヘッダ分割（Ｓ９２０）
図２１は、図２０の後に行われるヘッダ分割（Ｓ９２０）の具体例を示している。図２１に示すように、図２０で文字列“ＤＧＨＫＰＳ”（文字列３００－４）を登録した後、文字列“ＤＧＬＥＢＧ”が入力される。

【0286】

登録制御部１５１は、データツリー１１１をたどって、入力文字列“ＤＧＬＥＢＧ”とノード２００－３の直列文字列２０５である“ＤＧＨＫＰ”"とに対し、直列文字列比較を行う（Ｓ１０５）。直列文字列比較の結果、入力文字列“ＤＧＬＥＢＧ”はノード２００－３の直列文字列２０５である“ＤＧＨＫＰ”の中間位置で異なるため、登録制御部１５１は、ヘッダ分割を行う（Ｓ９２０）。

【0287】

この場合、登録制御部１５１は、入力文字列“ＤＧＬＥＢＧ”を登録文字列１１２に文字列３００－７として新規登録し、更に新規ノード２００－２を割り当てる。ここでは、入力文字列“ＤＧＬＥＢＧ”と直列文字列“ＤＧＨＫＰ”の差異位置は２である。

【0288】

登録制御部１５１は、差異位置＝２が、対象ノード２００－３の直列文字列２０５と入力文字列の、いずれにおいても中間位置に当たるため、いずれかの文字列（例では既ノード２００－３の直列文字列２０５である“ＤＧＨＫＰ”）を新規ノード２００－２の直列文字列２０５に登録するとともに実体フラグ２０３をＯＦＦにする。登録制御部１５１は、既ノード２００－３の直列文字列２０５である“ＤＧＨＫＰ”と入力文字列“ＤＧＬＥＢＧ”から差異位置＝２の各々のバイト（“Ｈ”，“Ｌ”）を抽出し、符号なし数値の昇順（“Ｈ”，“Ｌ”の順）に新規ノード２００－２のブランチバイト列２０６にブランチバイトとして登録し、新規ノード２００－２のブランチサイズ２０１を２にセットする。

【0289】

登録制御部１５１は、新規ノード２００－２の遷移先情報２０７にブランチバイトの登録順に合わせて、既ノード２００－３のノード情報と新規登録した入力文字列“ＤＧＬＥＢＧ”（文字列３００－７）を登録する。

【0290】

（４）直列文字列交換（Ｓ９３０）
図２２は、図２１の後に行われる直列文字列交換（Ｓ９３０）の具体例を示している。図２２に示すように、図２１で文字列“ＤＧＬＥＢＧ”（文字列３００－７）を登録した後、文字列“ＤＧ”が入力される。

【0291】

登録制御部１５１は、データツリー１１１をたどって、入力文字列“ＤＧ”とノード２００－２の直列文字列２０５である“ＤＧ”"とに対し、直列文字列比較を行う（Ｓ１０５）。直列文字列比較の結果、入力文字列“ＤＧ”はノード２００－２の直列文字列２０５である“ＤＧ”と内容、長さともに一致し、かつ、ノード２００－２の実体フラグ２０３がＯＦＦのため、登録制御部１５１は、直列文字列交換を行う（Ｓ９３０）。

【0292】

この場合、登録制御部１５１は、入力文字列“ＤＧ”を登録文字列１１２に文字列３００－２として新規登録する。登録制御部１５１は、新規登録した入力文字列“ＤＧ”（文字列３００－２）を、対象ノード２００－２の直列文字列２０５に登録（上書き交換）するとともに実体フラグ２０３をＯＮにする。

【0293】

（５）ブランチ追加（Ｓ９４０）
図２３は、図２２の後に行われるブランチ追加（Ｓ９４０）の具体例を示している。図２３に示すように、図２２で文字列“ＤＧ”（文字列３００－２）を登録した後、文字列“ＤＧＫ”が入力される。

【0294】

登録制御部１５１は、データツリー１１１をたどって、入力文字列“ＤＧＫ”とノード２００－２の直列文字列２０５である“ＤＧ”"とに対し、直列文字列比較を行う（Ｓ１０５）。直列文字列比較の結果、入力文字列“ＤＧＫ”はノード２００－２の直列文字列２０５である“ＤＧ”と差異がないため、登録制御部１５１は、ノード２００－２のブランチバイト列２０６と入力文字列“ＤＧＫ”のブランチバイトに対し、ブランチバイト列比較を行う（Ｓ１０９）。ブランチバイト列比較の結果、入力文字列“ＤＧＫ”はブランチ位置＝２のブランチバイト“Ｋ”が、ノード２００－２のブランチバイト列２０６（“Ｈ”，“Ｌ”）に無いため、登録制御部１５１は、ブランチ追加を行う（Ｓ９４０）。

【0295】

この場合、登録制御部１５１は、入力文字列“ＤＧＫ”を登録文字列１１２に文字列３００－５として新規登録する。登録制御部１５１は、対象ノード２００－２のブランチバイト列２０６に余裕（４－２＝２）があるため、ブランチバイト列２０６と遷移先情報２０７のノード／リーフ格納エリアの拡張（４、８、１６、３２・・・、２５６の順の拡張）は行わない。

【0296】

登録制御部１５１は、入力文字列“ＤＧＫ”から、対象ノード２００－２のブランチ位置＝２が指すバイト“Ｋ”を抽出し、対象ノード２００－２のブランチバイト列２０６が符号なし数値の昇順に成るように、この“Ｋ”'をブランチバイト列２０６に挿入し、更に、ブランチバイトの挿入位置に対応する遷移先情報２０７に新規登録した入力文字列“ＤＧＫ”（文字列３００－５）をリーフとして登録する。登録制御部１５１は、対象ノード２００－２のブランチサイズ２０１を１カウントアップして、３にする。

【0297】

（６）リーフ分割（Ｓ９１０）
図２４は、図２３の後に行われるリーフ分割（Ｓ９１０）の具体例を示している。図２４に示すように、図２３で文字列“ＤＧＫ”（文字列３００－５）を登録した後、文字列“ＤＧＬＥＡ”が入力される。

【0298】

登録制御部１５１は、データツリー１１１をたどって、入力文字列“ＤＧＬＥＡ”と既登録のリーフ文字列“ＤＧＬＥＢＧ”に対し、直列文字列比較を行う（Ｓ１３０）。直列文字列比較の結果、入力文字列“ＤＧＬＥＡ”は既リーフ文字列“ＤＧＬＥＢＧ”と異なるため、登録制御部１５１は、リーフ分割を行う（Ｓ９１０）。

【0299】

この場合、登録制御部１５１は、入力文字列“ＤＧＬＥＡ”を登録文字列１１２に文字列３００－６として新規登録し、更に新規ノード２００－４を割り当てる。ここでは、入力文字列“ＤＧＬＥＡ”と既リーフ文字列“ＤＧＬＥＢＧ”の差異位置は４である。

【0300】

登録制御部１５１は、差異位置＝４が、既リーフ文字列“ＤＧＬＥＢＧ”と入力文字列“ＤＧＬＥＡ”のいずれにおいても中間位置に当たるため、いずれかの文字列（例では既リーフ文字列“ＤＧＬＥＢＧ”）を新規ノード２００－４の直列文字列２０５に登録するとともに実体フラグ２０３をＯＦＦにする。登録制御部１５１は、差異位置＝４を新規ノード２００－４のブランチ位置２０４にセットし、既リーフ文字列“ＤＧＬＥＢＧ”と入力文字列“ＤＧＬＥＡ”から差異位置＝４の各々のバイト（“Ｂ”，“Ａ”）を抽出し、符号なし数値の昇順（“Ａ”，“Ｂ”の順）に、新規ノード２００－４のブランチバイト列２０６に登録し、新規ノード２００－４のブランチサイズ２０１を２にセットする。

【0301】

登録制御部１５１は、新規ノード２００－４の遷移先情報２０７にブランチバイトの登録順に合わせて、新規登録した入力文字列“ＤＧＬＥＡ”（文字列３００－６）と既リーフ文字列“ＤＧＬＥＢＧ”（文字列３００－７）を登録する。

【0302】

（７）ヘッダ分割（Ｓ９２０）
図２５は、図２４の後に行われるヘッダ分割（Ｓ９２０）の具体例を示している。図２５に示すように、図２４で文字列“ＤＧＬＥＡ”（文字列３００－６）を登録した後、文字列“ＤＢＸＰＮ”が入力される。

【0303】

登録制御部１５１は、データツリー１１１をたどって、入力文字列“ＤＢＸＰＮ”とノード２００－２の直列文字列２０５である“ＤＧ”"とに対し、直列文字列比較を行う（Ｓ１０５）。直列文字列比較の結果、入力文字列“ＤＢＸＰＮ”はノード２００－２の直列文字列２０５である“ＤＧ”の中間位置で異なるため、登録制御部１５１は、ヘッダ分割を行う（Ｓ９２０）。

【0304】

この場合、登録制御部１５１は、入力文字列“ＤＢＸＰＮ”を登録文字列１１２に文字列３００－１として新規登録し、更に新規ノード２００－１を割り当てる。ここでは、入力文字列“ＤＢＸＰＮ”と直列文字列“ＤＧ”の差異位置は１である。

【0305】

登録制御部１５１は、差異位置＝１が、対象ノード２００－２の直列文字列２０５と入力文字列の、いずれにおいても中間位置に当たるため、いずれかの文字列（例では新規登録した入力文字列“ＤＢＸＰＮ”）を新規ノード２００－１の直列文字列２０５に登録するとともに実体フラグ２０３をＯＦＦにする。登録制御部１５１は、既ノード２００－２の直列文字列２０５である“ＤＧ”と入力文字列“ＤＢＸＰＮ”から差異位置＝１の各々のバイト（“Ｇ”，“Ｂ”）を抽出し、符号なし数値の昇順（“Ｂ”，“Ｇ”の順）に新規ノード２００－１のブランチバイト列２０６にブランチバイトとして登録し、新規ノード２００－１のブランチサイズ２０１を２にセットする。

【0306】

登録制御部１５１は、新規ノード２００－１の遷移先情報２０７にブランチバイトの登録順に合わせて、新規登録した入力文字列“ＤＢＸＰＮ”（文字列３００－１）と既ノード２００－２のノード情報を登録する。

【0307】

以上のように、実施の形態１または２で示した検索装置１００において、登録処理を行ってもよい。登録処理は、完全一致検索と同様に、ＳＩＭＤ命令を使用して直列文字列比較及びブランチバイト列比較を行うことで実現できる。このため、実施の形態１と同様に、可変長の文字列を効率よく登録することができる。

【0308】

（実施の形態４）
次に、実施の形態４について説明する。本実施の形態では、実施の形態１～３で示した検索装置１００において、データを格納する際に数値データを変換し、また、統合型マルチキーを使用する例について説明する。検索装置１００の構成は、実施の形態１～３と同様である。

【0309】

一般的には、文字列の比較と数値の比較はそのデータ型に応じた異なる比較操作になる。これに対し、本実施の形態では、固定小数点や浮動小数点などの数値データに対しても、以降で説明する変換を行って格納することで、データ型による内部操作の切り替えオーバーヘッドを無くし、文字列と同じ統一した操作によって効率よく処理を行うことが可能となる。

【0310】

図２６の表は、本実施の形態に係る数値データ格納時の変換規則の例を示している。例えば、検索装置１００は、データツリー１１１に数値データを登録し、データベース１１０に格納する際に、図２６の変換規則にしたがって数値データを変換し、変換したデータを登録文字列１１２に格納する。なお、格納場所は、登録文字列１１２とは別に格納場所を設け、そこに格納してもよい。

【0311】

図２６の例では、対象データのデータ型ごとに、変換条件、データ変換方法、エンディアン変換対象が対応付けられている。検索装置１００は、対象データのデータ型を判定し、データ型に対応するデータ変換方法で、対象データを変換する。変換条件が定義されているデータ型（浮動小数点型）の場合、検索装置１００は、対象データに応じて変換条件を判断し、判断した結果に対応するデータ変換方法で、対象データを変換する。さらに、検索装置１００は、データ変換方法で変換した対象データの各バイトに対し、エンディアン変換を行い、エンディアン変換後のデータを格納する。

【0312】

なお、図２６は、Ｌｉｔｔｌｅ－Ｅｎｄｉａｎアーキテクチャの場合の例であり、Ｂｉｇ－Ｅｎｄｉａｎアーキテクチャの場合は、エンディアン変換は不要である。また、図２６の変換は完全な可逆変換が可能であり、逆の操作を行うことで、簡単に元の値に戻すことが出来る。

【0313】

図２６における数値のデータ変換規則は、各データ型において数値を比較したときの大小関係の特性に依存する。すなわち、文字列は基本的にバイトコードの集まりで、大小関係はバイト列を辞書式順序の配列として扱う。この大小関係は、符号なし固定小数点を上位桁から順に配列にした場合と同じになる。一方、数値は、固定小数点や浮動小数点のように内部形式の異なるものが存在する。そして、固定小数点には、符号あり（Ｓｉｇｎｅｄ)と符号なし（Ｕｎｓｉｇｎｅｄ)の型があり、浮動小数点にも正と負の符号概念が存在する。

【0314】

＜符号付き整数値の変換原理＞
図２７は、符号なし整数値の比較結果の大小関係、図２８は、符号付き整数値の比較結果の大小関係を示している。図２７と図２８を比べると、太枠で示した部分で比較結果の大小関係が異なり、その他の部分では比較結果の大小関係は同じである。従って、符号付き整数の比較を符号なし整数の比較に変えるには、次の方法で良いことが判る。
・同値の比較は変更なし。
・大なり、小なりの比較の場合は比較値同士の先頭ｂｉｔが違う部分で、比較結果を反転させる。

【0315】

この結果から、符号付き固定小数点数値の場合、「データの先頭ビットを反転して、符号なし固定小数点数値に変換して格納」とすることで、文字列の場合と同じ符号なし固定小数点比較に統一して処理することが出来る。例えば、図２６に示したように、対象データがｓｉｇｎｅｄｉｎｔ８型の場合、対象データに対し０ｘ８０をｘｏｒ演算することで、先頭ビットを反転させる。

【0316】

＜浮動小数点数値の変換原理＞
図２９は、浮動小数点数値（ＩＥＥＥ７５４形式）のフォーマットを示している。図２９に示すように、浮動小数点数値（ＩＥＥＥ７５４形式）は、符号ビット(ｓｉｇｎ)、指数部（ｅｘｐｏｎｅｎｔ）、仮数部（ｆｒａｃｔｉｏｎ）から構成されているため、一見すると符号なしの固定小数点比較には適用できそうにない。しかし、注意深く観察すると、符号ビットを除いた他のビットの配置は、より上位のビットが立っている数値は、ビットが立っていない数値に対して大きい値になるように設計されていることが判る。

【0317】

更に、先頭の符号ビットの値によって、浮動小数点数値の比較結果は以下のようになる。
・０，０：符号ビットが両方とも０（正）の場合の比較は、ｉｎｔの符号なしの比較と同じ。
・０，１：符号ビットが異なる場合の比較は、符号ビットが０（正）の方が大きい。
・１，１：符号ビットが両方とも１（負）の場合の比較は、ｉｎｔの符号なしの結果を反転させたものと同じ（負の値は、絶対値が小さい方が大きい）。

【0318】

この結果から、浮動小数点数値の場合、次のように格納することで、符号なし固定小数点比較に統一して処理することが出来る。
・符号ビットが０の場合は先頭の符号ビットのみ反転して格納する。
・符号ビットが１の場合は先頭の符号ビットを含め、全ビットを反転して格納する。

【0319】

例えば、図２６に示したように、対象データがｆｌｏａｔ（３２ｂｉｔ）型の場合、対象データに対して０ｘ８０００００００のマスクをかけて、先頭ビットを判定し、先頭ビットがＯＮの場合、対象データをｎｏｔ演算することで、全ビット反転させ、先頭ビットがＯＦＦの場合、対象データに対し０ｘ８０００００００をｘｏｒ演算することで、先頭ビットを反転させる。

【0320】

＜エンディアン（バイトオーダー）変換原理＞
コンピュータの扱うデータは文字列や固定小数点、浮動小数点などの種類があるが、これらのデータをコンピュータで扱う場合、その扱いはハードウェアアーキテクチャの一種であるエンディアン（バイトオーダー）の影響を受ける。

【0321】

図３０は、Ｂｉｇ－ＥｎｄｉａｎとＬｉｔｔｌｅ－Ｅｎｄｉａｎのアーキテクチャで文字列と数値を格納した場合のメモリ配置の例を示している。例えば、文字列の“ＡＢＣＤＥＦ”と、４バイト数値の１２３４５６７８（Ｈｅｘ）をＢｉｇ－ＥｎｄｉａｎとＬｉｔｔｌｅ－Ｅｎｄｉａｎのアーキテクチャで格納した場合、図３０に示すように、実際のメモリ上での配置は、文字列の配置は同じだが、数値は上位バイトと下位バイトの順序が逆になる。

【0322】

従って、Ｌｉｔｔｌｅ－Ｅｎｄｉａｎのアーキテクチャでは、複数のバイトで構成する数値の場合は上位と下位のバイトを逆順にして格納することで、文字列の比較順序と同じにできる。ＴＣＰ／ＩＰなどの通信時には、バイトオーダーを標準規則（Ｂｉｇ－Ｅｎｄｉａｎ）にそろえる必要がある。このため、一般的に、ＣＰＵにはこの変換に対応するための命令が用意されており、Ｘ８６ではＢＳＷＡＰ命令、ＡｒｍではＲＥＶ命令などを使うことで高速に変換できる。図２６に示したように、対象データが、１６ビットから６４ビット型の数値の場合、これらのエンディアン変換用の命令を使用して、対象データを変換する。

【0323】

＜統合型マルチキーの構成例＞
一般的に、複数のデータを結合したマルチキーに対する検索や大小比較の操作を行う場合には、先頭のキーから順番に一つずつ比較を行い、キーが同一だった場合に、次のキーの比較を行う、という動作を繰り返すことで処理を行う。

【0324】

しかし、この方式では、キーの比較と判定を繰り返すため、マルチキーのすべてのキーが同一かをチェックするような場合には、比較操作と判定操作を、マルチキーを構成するキーの数だけ行うことになり効率が悪い。また、大小比較の場合でも、違いが後方のキーで発生するほどキーの比較回数が増えることになる。

【0325】

これに対し、本実施の形態におけるマルチキーの対応では、最初に一度変換をすることで、全てのデータ型に対し、文字列と同じ符号なしバイト列として統一した処理が可能となる。すなわち、予め上記のように数値データを変換して格納しておく。これにより、検索装置１００は、実施の形態１で示した直列文字列比較やブランチバイト列比較を行う際に、マルチキーのキー境界を意識せずに、効率よく比較処理を行うことが出来る。

【0326】

図３１は、マルチキーの構成例を示している。図３１の例では、マルチキーは、５つのキーを含む３２バイトの長さである。図３１のマルチキーを比較する場合、一般的には図３２に示すように、マルチキーに含まれるキーを先頭から要素ごとに比較する必要がある。例えば、文字列を１バイトずつ比較すると、比較回数は１８回となる。これに対し、本実施の形態では、図３３に示すように、マルチキーを３２バイト一括で比較することができる。例えば、検索装置１００では、トータルサイズが３２バイトのマルチキーに対し、ＳＩＭＤによる２５６ｂｉｔ処理の場合で１回、１２８ｂｉｔの場合でも２回の比較動作と判定操作で処理を行うことが出来る。

【0327】

また、上記の数値データ変換で示したように、格納時の変換の効果により、符号なし固定小数点比較による統一した比較操作としながら、元のデータの持つ大小関係は、そのまま保持できるようになっている。従って、マルチキーの大小関係は、キーの境界を気にせず、単純に、差が発生した最初のバイト位置の値を比較することで得ることが出来る。

【0328】

更に、格納するデータの加工は論理操作とバイトオーダーの変更のみで、データの位置やサイズは変化を起こさない。このため、違いが生じたキーについても、差異位置をオリジナルのキー位置(オフセット位置）と照合するだけで、容易に特定することが出来る。

【0329】

以上のように、実施の形態１～３で示した検索装置１００において、データを格納する際に、図２６のような変換規則でデータを変換してもよい。このように、固定小数点や浮動小数点のデータについて、簡単なデータ変換を行って格納することで、文字列と同様な符号なしバイト列に対するロジックを使って検索することが可能になる。

【0330】

さらに、文字列と数値データを同様に検索できるため、文字列と固定小数点、浮動小数点のデータを任意の順序で連結した、異種データで構成するマルチキーデータに対してもまとめて処理することができ、効率よく検索することが可能となる。

【0331】

なお、本発明は上記実施の形態に限られたものではなく、趣旨を逸脱しない範囲で適宜変更することが可能である。

【0332】

上述の実施形態における各構成は、ハードウェア又はソフトウェア、もしくはその両方によって構成され、１つのハードウェア又はソフトウェアから構成してもよいし、複数のハードウェア又はソフトウェアから構成してもよい。各装置の機能（処理）を、ＣＰＵやメモリ等を有するコンピュータにより実現してもよい。例えば、記憶装置に実施形態における方法を行うためのプログラムを格納し、各機能を、記憶装置に格納されたプログラムをＣＰＵで実行することにより実現してもよい。

【0333】

これらのプログラムは、コンピュータに読み込まれた場合に、実施形態で説明された１又はそれ以上の機能をコンピュータに行わせるための命令群（又はソフトウェアコード）を含む。プログラムは、非一時的なコンピュータ可読媒体又は実体のある記憶媒体に格納されてもよい。限定ではなく例として、コンピュータ可読媒体又は実体のある記憶媒体は、random-access memory（RAM）、read-only memory（ROM）、フラッシュメモリ、solid-state drive（SSD）又はその他のメモリ技術、CD-ROM、digital versatile disc（DVD）、Blu-ray（登録商標）ディスク又はその他の光ディスクストレージ、磁気カセット、磁気テープ、磁気ディスクストレージ又はその他の磁気ストレージデバイスを含む。プログラムは、一時的なコンピュータ可読媒体又は通信媒体上で送信されてもよい。限定ではなく例として、一時的なコンピュータ可読媒体又は通信媒体は、電気的、光学的、音響的、またはその他の形式の伝搬信号を含む。

【符号の説明】

【0334】

１００検索装置
１１０データベース
１１１データツリー
１１２登録文字列
１２０入力部
１３０検索部
１３１検索制御部
１３２文字列比較部
１３３ブランチ比較部
１４０出力部
１５０登録部
１５１登録制御部
１５２文字列比較部
１５３ブランチ比較部
２００ノード
２０１ブランチサイズ
２０２ａｌｌｏｃサイズ
２０３実体フラグ
２０４ブランチ位置
２０５直列文字列
２０６ブランチバイト列
２０７遷移先情報
３００文字列

【要約】

【課題】効率よく文字列を検索することが可能な検索装置、検索方法、及びプログラムを提供する。
【解決手段】検索装置１００は、可変長の登録文字列１１２と、複数のノード２００から構成されるデータツリー１１１とを格納するデータベース１１０を備える。ノード２００は、登録文字列１１２の少なくとも一部の文字列を示す直列文字列と、当該ノード２００の下位の遷移先に関するブランチ情報とを含む。検索装置１００は、ノード２００の直列文字列及びブランチ情報に基づいて、検索文字列を含む登録文字列１１２を検索する検索部１３０を備える。直列文字列は、直列文字列が示す文字列と終端同士が一致する登録文字列１１２が存在する場合、登録文字列１１２の実体を保持し、直列文字列が示す文字列と終端同士が一致する登録文字列１１２が存在しない場合、当該ノード２００のブランチ情報が示す遷移先の登録文字列１１２を共用参照する。
【選択図】図３