IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 株式会社インフォメックスの特許一覧

特開2023-24224検索装置、検索方法、およびプログラム
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2023024224
(43)【公開日】2023-02-16
(54)【発明の名称】検索装置、検索方法、およびプログラム
(51)【国際特許分類】
   G06F 16/2458 20190101AFI20230209BHJP
   G06F 16/22 20190101ALI20230209BHJP
【FI】
G06F16/2458
G06F16/22
【審査請求】未請求
【請求項の数】1
【出願形態】OL
(21)【出願番号】P 2021150903
(22)【出願日】2021-09-16
(62)【分割の表示】P 2021128808の分割
【原出願日】2021-08-05
(71)【出願人】
【識別番号】398035970
【氏名又は名称】株式会社インフォメックス
(74)【代理人】
【識別番号】100115749
【弁理士】
【氏名又は名称】谷川 英和
(72)【発明者】
【氏名】佐伯 譲二
(72)【発明者】
【氏名】佐伯 卓也
(72)【発明者】
【氏名】佐伯 慎也
【テーマコード(参考)】
5B175
【Fターム(参考)】
5B175AA01
5B175EA03
5B175HA01
(57)【要約】
【課題】従来、バリエーションのある各検索条件に対して、高速に情報検索を行うことが困難であった。
【解決手段】異なるキー項目の組み合わせに対応する2以上のレコード・インデックスが格納されるレコード・インデックス格納部4113と、キー項目値を有する検索条件を受け付ける条件受付部121と、2以上のレコード・インデックスから、検索条件が有するキー項目値に対応するキー項目を含む1以上のキー項目の組み合わせに対応する一のレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得し、当該レコード位置情報が特定する位置に対応するレコードの中の属性値をデータソースから取得する検索部432と、検索部432が取得した属性値を含む検索結果を出力する結果出力部441とを具備する検索装置4により、バリエーションのある各検索条件に対して、情報検索を高速に行える。
【選択図】図17
【特許請求の範囲】
【請求項1】
2以上の各キー項目に対応するキー項目値と1以上の各属性識別子に対応する属性値とを有する2以上のレコードを含むデータソースのレコードに対応するインデックスであり、1以上のキー項目の組み合わせに対応する1以上のキー項目値と当該1以上のキー項目値を含むレコードの位置を特定するレコード位置情報の組の集合である2以上のレコード・インデックスであり、各々、異なるキー項目の組み合わせに対応する2以上のレコード・インデックスが格納されるレコード・インデックス格納部と、
キー項目値を有する検索条件を受け付ける条件受付部と、
前記2以上のレコード・インデックスから、前記検索条件が有するキー項目値に対応するキー項目を含む1以上のキー項目の組み合わせに対応する一のレコード・インデックスを選択し、当該選択したレコード・インデックスから、前記検索条件が有する前記キー項目値と対になるレコード位置情報を取得し、当該レコード位置情報が特定する位置に対応するレコードの中の属性値を前記データソースから取得する検索部と、
前記検索部が取得した前記属性値を含む検索結果を出力する結果出力部とを具備する検索装置。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報を検索する検索装置等に関するものである。
【背景技術】
【0002】
従来、インデックスを用いて、高速な検索を実現することを目的とした検索システムがあった(例えば、特許文献1参照)。
【先行技術文献】
【特許文献】
【0003】
【特許文献1】特開2006-99427号公報
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来技術においては、バリエーションのある各検索条件に対して、高速に情報検索を行うことが困難であった。
【課題を解決するための手段】
【0005】
本第一の発明の検索装置は、2以上の各キー項目に対応するキー項目値と1以上の各属性識別子に対応する属性値とを有する2以上のレコードを含むデータソースのレコードに対応するインデックスであり、1以上のキー項目の組み合わせに対応する1以上のキー項目値と1以上のキー項目値を含むレコードの位置を特定するレコード位置情報の組の集合である2以上のレコード・インデックスであり、各々、異なるキー項目の組み合わせに対応する2以上のレコード・インデックスが格納されるレコード・インデックス格納部と、キー項目値を有する検索条件を受け付ける条件受付部と、2以上のレコード・インデックスから、検索条件が有するキー項目値に対応するキー項目を含む1以上のキー項目の組み合わせに対応する一のレコード・インデックスを選択し、選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得し、レコード位置情報が特定する位置に対応するレコードの中の属性値をデータソースから取得する検索部と、検索部が取得した属性値を含む検索結果を出力する結果出力部とを具備する検索装置である。
【0006】
かかる構成により、バリエーションのある各検索条件に対して、情報検索を高速に行える。
【0007】
また、本第二の発明の検索装置は、第一の発明に対して、2以上のレコードのうちの1以上の各レコードごと、および各レコードの1以上の各属性ごとに、属性値が存在する位置を特定する属性位置情報を有する配列インデックスが格納される配列インデックス格納部をさらに具備し、検索条件は、属性識別子をさらに有し、検索部は、検索条件が有する属性識別子に対応する属性位置情報を、配列インデックスから取得し、属性位置情報を用いて、検索条件が有する属性識別子に対応する属性値を、データソースから取得する、検索装置である。
【0008】
かかる構成により、バリエーションのある各検索条件に対して、情報検索をより高速に行える。
【0009】
また、本第三の発明の検索装置は、第一または第二の発明に対して、2以上の各レコード・インデックスにおいて、1以上のキー項目値とレコード位置情報の2以上の組は、1以上のキー項目値の組み合わせをキーとしてソートされており、検索部は、2以上のレコード・インデックスから、レコード・インデックスの先頭のキー項目が、検索条件が有するキー項目値に対応するキー項目と一致する場合には、レコード・インデックスを選択し、選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得し、レコード位置情報が特定する位置に対応するレコードの中の属性値をデータソースから取得する、検索装置である。
【0010】
かかる構成により、バリエーションのある各検索条件に対して、情報検索を高速に行える。
【0011】
また、本第四の発明の検索装置は、第三の発明に対して、検索部は、レコード・インデックスの先頭のキー項目が検索条件が有するキー項目値に対応するキー項目と一致する2以上のレコード・インデックスが存在する場合、2以上のレコード・インデックスの次のキー項目が検索条件が有するキー項目と一致するかどうかを判定して、レコード・インデックスの先頭から最も多くのキー項目が検索条件が有するキー項目に含まれる一のレコード・インデックスを選択し、選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得し、レコード位置情報が特定する位置に対応するレコードの中の属性値をデータソースから取得する、検索装置である。
【0012】
かかる構成により、バリエーションのある各検索条件に対して、情報検索を高速に行える。
【0013】
また、本第五の発明の検索装置は、第一から第四いずれか1つの発明に対して、データソースを参照し、データソースの2以上の各レコードのキー項目値とレコード位置情報との組である2以上のレコード・インデックスであり、各々、異なる1以上のキー項目の組み合わせに対応する2以上のレコード・インデックスを生成し、レコード・インデックス格納部に蓄積するレコード・インデックス生成部をさらに具備する検索装置である。
【0014】
かかる構成により、バリエーションのある各検索条件に対して、情報検索を高速に行うためのインデックスを生成できる。
【0015】
また、本第六の発明の検索装置は、第五の発明に対して、レコード・インデックス生成部は、選択条件を満たす1以上のキー項目の組み合わせを、2組以上、決定し、2組以上の各組の1以上のキー項目の組み合わせに対応する2以上の各レコードのキー項目値とレコード位置情報との組であるレコード・インデックスを生成し、レコード・インデックス格納部に蓄積する、検索装置である。
【0016】
かかる構成により、バリエーションのある各検索条件に対して、情報検索を高速に行うための適切なインデックスを生成できる。
【0017】
また、本第七の発明の検索装置は、第六の発明に対して、選択条件は、データソースの2以上の各レコードに含まれる属性値の分散が閾値以上または閾値より大きい属性値に対応するキー項目を含む1以上のキー項目の組み合わせであること、または過去の1以上の検索条件において閾値以上または閾値より多い頻度で含まれている属性値に対応するキー項目を含む1以上のキー項目の組み合わせであることである、検索装置である。
【0018】
かかる構成により、バリエーションのある各検索条件に対して、情報検索を高速に行うための適切なインデックスを生成できる。
【発明の効果】
【0019】
本発明による検索装置によれば、バリエーションのある各検索条件に対して、情報検索を高速に行える。
【図面の簡単な説明】
【0020】
図1】実施の形態1における検索システムAの概念図
図2】同検索システムAのブロック図
図3】同検索システムAを構成する検索装置1のブロック図
図4】同検索装置1の動作例について説明するフローチャート
図5】同インデックス生成処理の例について説明するフローチャート
図6】同ソース・インデックス生成処理の例について説明するフローチャート
図7】同配列ラベル・インデックス生成処理の例について説明するフローチャート
図8】同配列インデックス生成処理の例について説明するフローチャート
図9】同レコード・インデックス生成処理の例について説明するフローチャート
図10】同2次インデックス生成処理の例について説明するフローチャート
図11】同検索処理の例について説明するフローチャート
図12】同データソースの例を示す図
図13】同インデックスの生成処理例、検索処理例を説明する図
図14】同検索処理例を説明する図
図15】実施の形態2における検索システムBの概念図
図16】同検索システムBのブロック図
図17】同検索装置4のブロック図
図18】同検索装置4の動作例について説明するフローチャート
図19】同インデックス生成処理の例について説明するフローチャート
図20】同レコード・インデックス生成処理の例について説明するフローチャート
図21】同キー項目集合決定処理の例について説明するフローチャート
図22】同検索条件利用処理の例について説明するフローチャート
図23】同分散利用処理の例について説明するフローチャート
図24】同検索処理の第一の例について説明するフローチャート
図25】同検索処理の第二の例について説明するフローチャート
図26】同レコード・インデックス決定処理の例について説明するフローチャート
図27】同データソースの例を示す図
図28】同検索処理例を説明する図
図29】上記実施の形態におけるコンピュータシステムの概観図
図30】同コンピュータシステムのブロック図
【発明を実施するための形態】
【0021】
以下、検索装置等の実施形態について図面を参照して説明する。なお、実施の形態において同じ符号を付した構成要素は同様の動作を行うので、再度の説明を省略する場合がある。
【0022】
(実施の形態1)
本実施の形態において、1種類以上のインデックスを用いて、データソースに対して情報検索を行う検索装置を具備する検索システムについて説明する。なお、1種類以上のインデックスは、例えば、後述する配列インデックス、後述する配列ラベル・インデックス、後述するレコード・インデックス、後述する2次インデックス、後述するソース・インデックスである。
【0023】
また、本実施の形態において、データソースを用いて、当該データソースに対応する1種類以上のインデックスを生成する検索装置を具備する検索システムについて説明する。
【0024】
さらに、本実施の形態において、インデックスを自動更新する検索装置を具備する検索システムについて説明する。
【0025】
図1は、本実施の形態における検索システムAの概念図である。検索システムAは、例えば、検索装置1、1または2以上のデータソース管理装置2、1または2以上の端末装置3を備える。
【0026】
検索装置1は、データソースから情報を検索する装置である。データソース管理装置2は、1または2以上のデータソースが格納されている装置である。端末装置3は、情報を検索するユーザが使用する端末である。
【0027】
検索装置1、データソース管理装置2は、例えば、いわゆるサーバであり、例えば、クラウドサーバ、ASPサーバ等である。なお、検索装置1、データソース管理装置2の種類は問わない。また、検索装置1は、スタンドアロンの装置でも良い。かかる場合、検索システムAは、データソース管理装置2や端末装置3を有さなくても良い。また、かかる場合、データソースは、検索装置1に格納されている。
【0028】
図2は、本実施の形態における検索システムAのブロック図である。図3は、検索システムAを構成する検索装置1のブロック図である。
【0029】
検索装置1は、格納部11、受付部12、処理部13、および出力部14を備える。格納部11は、データソース格納部111、インデックス格納部112を備える。インデックス格納部112は、配列インデックス格納部1121、配列ラベル・インデックス格納部1122、レコード・インデックス格納部1123、2次インデックス格納部1124、およびソース・インデックス格納部1125を備える。受付部12は、条件受付部121を備える。処理部13は、インデックス生成部131、検索部132、およびインデックス更新部133を備える。インデックス生成部131は、配列インデックス生成部1311、配列ラベル・インデックス生成部1312、レコード・インデックス生成部1313、2次インデックス生成部1314、およびソース・インデックス生成部1315を備える。出力部14は、結果出力部141を備える。
【0030】
データソース管理装置2は、データソース格納部111を備える。
【0031】
端末装置3は、端末格納部31、端末受付部32、端末処理部33、端末送信部34、端末受信部35、および端末出力部36を備える。
【0032】
検索装置1を構成する格納部11には、各種の情報が格納される。各種の情報は、例えば、後述するデータソース、後述する1以上の種類のインデックスである。
【0033】
データソース格納部111には、1または2以上のデータソースが格納される。なお、検索装置1は、データソース格納部111が存在しなくても良い。かかる場合、検索対象のデータソースは、データソース管理装置2に格納されている。
【0034】
データソースは、検索対象のデータの集合である。データは、情報と言っても良い。データソースは、通常、一つのファイルである。ただし、データソースは、例えば、一つのデータベース、データベース内の一つの表などでも良い。データソースは、通常、1または2以上のレコードを有する。レコードは、例えば、行やタップル等と言っても良い。レコード間は、例えば、第一デリミタにより区切られているなど、その区切りは認識可能である。第一デリミタは、例えば、リターンコード、TABコード、スペース等であるが、問わない。データソースは、検索対象以外のデータを有しても良い。検索対象以外のデータは、例えば、項目ラベル、属性識別子である。項目ラベルは、項目のラベルであるが、項目名でも良い。項目は、例えば、キー項目と明細項目とを有する。キー項目は、キー項目値に対する識別子である。また、1レコード内に、2以上のキー項目が存在しても良い。明細項目は、キー項目を含む項目である。なお、キー項目や明細項目も、属性識別子である、と考えても良い。つまり、キー項目値や明細項目値も、レコードを構成する属性値である、と考えても良い。属性識別子は、属性を識別する情報である。属性識別子は、例えば、属性名、属性のIDである。レコードは、通常、2以上の属性値を有する。レコードは、キー項目値や明細項目値も有しても良い。ただし、レコードは、一つの属性値でも良い。レコードにおける属性値の間は、例えば、第二デリミタにより区切られているなど、その区切りは認識可能である。第二デリミタは、例えば、カンマ「,」、コロン「:」、セミコロン「;」、スペース、TABコード等であるが、問わない。データソースは、ソース識別子に対応付いている。ソース識別子は、データソースを識別する情報であり、例えば、ファイル名、ファイルのIDである。なお、キー項目値は、例えば、予め決められている。なお、予め決められていることは、通常、ユーザの指定により、インデックスの生成時には、決まっていることを意味する。
【0035】
データソースの中の属性値は、通常、固定長ではなく、可変長である。また、データソースの中のレコードも、通常、固定長ではなく、可変長である。ただし、データソースの中の属性値やレコードは、固定長でも良い。
【0036】
データソースは、1以上のソース属性値に対応付いていることは好適である。ソース属性値は、データソースの属性値である。ソース属性値は、例えば、最終更新時情報、更新者識別子、サイズ、種類識別子である。最終更新時情報は、データソースの最終更新時を特定する情報であり、例えば、年月日時分秒、月日時分である。更新者識別子は、データソースの更新者(通常、最終更新者)を識別する情報である。サイズは、データソースのデータサイズであり、例えば、バイト数、ビット数である。種類識別子は、データソースの種類を特定する情報であり、例えば、「ファイル」「RDB」「表」である。「ファイル」はデータソースがファイルであることを示す。「RDB」はデータソースがRDB(リレーショナルデータベース)であることを示す。「表」はデータソースが表形式の情報であることを示す。
【0037】
インデックス格納部112には、1または2以上の種類のインデックスが格納される。インデックスとは、データソースから所望の情報を検索するために参照される情報(通常、索引)である。インデックスは、例えば、後述する配列インデックス、後述する配列ラベル・インデックス、後述するレコード・インデックス、後述する2次インデックス、後述するソース・インデックスである。
【0038】
1種類以上の各インデックスは、例えば、ファイルである。ただし、インデックスは、RDB等のデータベース内の情報でも良く、その物理的な構造は問わない。データベース内の情報は、例えば、表である。
【0039】
なお、インデックスには、生成時情報が対応付いていることは好適である。生成時情報は、インデックスが生成された時を特定する情報であり、例えば、年月日時分秒、月日時分である。
【0040】
配列インデックス格納部1121には、配列インデックスが格納される。配列インデックス格納部1121には、通常、データソースごとに、配列インデックスが格納される。つまり、配列インデックスは、通常、データソースを識別するソース識別子に対応付いている。なお、検索対象のデータソースが一つである場合、配列インデックスは、ソース識別子に対応付いている必要はない。
【0041】
配列インデックスは、レコード内の属性値の位置を特定するための情報であるである。 配列インデックスは、データソースが有するレコードごとの情報である1以上の配列インデックスレコードを有する。配列インデックスレコードは、各レコードの各属性ごとの属性位置情報を有する。属性位置情報は、属性値が存在する位置を特定する情報である。属性位置情報は、通常、属性値のレコード内におけるオフセットである。ただし、属性位置情報は、データソース内におけるオフセット等でも良い。属性位置情報は、例えば、レコードを識別するレコード識別子、および属性識別子に対応付いている。
【0042】
配列インデックスは、すべてのレコードに対応する一部の属性値の属性位置情報を有することは好適であるが、データソースが有するすべてのレコードに対応するすべての属性値の属性位置情報を有しても良いし、一部のレコードに対応するすべての属性値の属性位置情報を有しても良いし、一部のレコードに対応する一部の属性値の属性位置情報を有しても良い。
【0043】
配列インデックスが、一部の属性値の属性位置情報のみを有する場合、データソースのレコード内の属性値の並びの順に、配列インデックスは属性位置情報を有する。
【0044】
配列ラベル・インデックス格納部1122には、配列ラベル・インデックスが格納される。配列ラベル・インデックス格納部1122には、通常、データソースごとに、配列ラベル・インデックスが格納される。つまり、配列ラベル・インデックスは、通常、ソース識別子に対応付いている。なお、検索対象のデータソースが一つである場合、配列ラベル・インデックスは、ソース識別子に対応付いている必要はない。
【0045】
配列ラベル・インデックスは、データソースのレコードにおける属性の順番を特定するための情報である。配列ラベル・インデックスは、データソースが有するレコードごとの情報である1以上の配列ラベル・インデックスレコードを有する。配列ラベル・インデックスレコードは、レコード内における属性の順番を示す情報である。配列ラベル・インデックスレコードは、例えば、属性識別子と属性順番情報との組である。2以上の各配列ラベル・インデックスレコードは、例えば、レコード内の順番に配置された属性識別子でも良い。配列ラベル・インデックスは、レコードにおけるすべての属性の順番を特定する情報であることは好適である。配列ラベル・インデックスにおいて、属性識別子はソートされていることは好適である。
【0046】
レコード・インデックス格納部1123には、レコード・インデックスが格納される。レコード・インデックス格納部1123には、通常、データソースごとに、レコード・インデックスが格納される。つまり、レコード・インデックスは、通常、ソース識別子に対応付いている。なお、検索対象のデータソースが一つである場合、レコード・インデックスは、ソース識別子に対応付いている必要はない。
【0047】
レコード・インデックスは、データソースのレコードに対応するインデックスである。レコード・インデックスは、データソースのレコードの位置を特定するための1以上のレコード・インデックスレコードを有する。レコード・インデックスレコードは、キー項目値あるいは2以上のキー項目値の組合せと、レコード位置情報とを有する。レコード・インデックスレコードは、キー項目値とレコード位置情報とレコード・インデックスレコード位置情報の組でも良い。
また、同じレコード内の異なるキー項目値、あるいはキー項目値の組合せとレコード位置情報とを有する、別のレコード・インデックスを有することは好適である。
【0048】
キー項目値は、レコードに含まれる属性値であり、キーとなる属性値である。キー項目値は、レコードを識別可能なユニークな情報であることは好適であるが、ユニークな情報でなくても良い。
【0049】
レコード位置情報は、キー項目値を含むレコードの位置を特定する情報である。レコード位置情報は、例えば、レコードの位置を特定するデータソースの中のオフセットである。レコード位置情報は、例えば、レコードの先頭のオフセットである。レコード位置情報は、例えば、レコードの最後の情報のオフセットでも良い。
【0050】
レコード・インデックスレコード位置情報は、レコード・インデックスにおけるレコード・インデックスレコードの位置を特定する情報である。レコード・インデックスレコード位置情報は、例えば、レコード・インデックスにおけるレコード・インデックスレコードのオフセットである。
【0051】
なお、レコード・インデックスにおいて、キー項目値がソートされていることは好適である。
【0052】
また、レコード・インデックスレコードと配列インデックスレコードとは、対応付いていることは好適である。レコード・インデックスレコードと配列インデックスレコードとは、例えば、キー項目値により対応付いている。
【0053】
2次インデックス格納部1124には、2次インデックスが格納される。2次インデックス格納部1124には、通常、データソースごとに、2次インデックスが格納される。つまり、2次インデックスは、通常、ソース識別子に対応付いている。なお、検索対象のデータソースが一つである場合、2次インデックスは、ソース識別子に対応付いている必要はない。
【0054】
2次インデックスは、レコード・インデックスに高速にアクセスするためのインデックスである。2次インデックスは、データソースが有する2以上のレコードのうちの一部である1以上の各レコードに対応する情報である。2次インデックスは、レコードごとの2次インデックスレコードを有する。2次インデックスレコードは、キー項目値とレコード・インデックスレコード位置情報との組である。レコード・インデックスレコード位置情報は、レコード・インデックス内における箇所であり、レコード位置情報が存在する箇所を特定する情報である。キー項目値は、レコードが有するキー項目値である。
【0055】
なお、2次インデックスにおけるキー項目値は、ソートされていることは好適である。
【0056】
ソース・インデックス格納部1125には、ソース・インデックスが格納される。ソース・インデックスは、データソースごとのインデックスである。ソース・インデックスは、例えば、データソースごとのソース・インデックスレコードの集合である。
【0057】
ソース・インデックスレコードは、例えば、ソース識別子と最小キー項目値と最大キー項目値との組である。最小キー項目値は、ソース識別子で識別されるデータソースが有する最小のキー項目値である。最大キー項目値は、ソース識別子で識別されるデータソースが有する最大のキー項目値である。かかる場合、通常、2以上の各データソースに、異なるレコードが格納されている。
【0058】
ソース・インデックスレコードは、例えば、ソース識別子と最小属性識別子と最大属性識別子との組である。最小属性識別子は、ソース識別子で識別されるデータソースが有する最小の属性識別子である。最大属性識別子は、ソース識別子で識別されるデータソースが有する最大の属性識別子である。かかる場合、通常、2以上の各データソースに、異なる属性の属性値が格納されている。
【0059】
ソース・インデックスレコードは、例えば、ソース識別子と最小キー項目値と最大キー項目値と最小属性識別子と最大属性識別子との組である。かかる場合、通常、2以上の各データソースに、一部のレコードの一部の属性の属性値が格納されている。
【0060】
受付部12は、各種の指示や情報を受け付ける。各種の指示や情報とは、例えば、後述する検索条件、データソース、データソースを構成する一部の情報である。
【0061】
ここで、受け付けとは、通常、端末装置3からの受信であるが、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念であっても良い。
【0062】
条件受付部121は、検索条件を受け付ける。検索条件は、例えば、1または2以上の属性識別子を含む。検索条件は、例えば、1または2以上のキー項目値を含む。検索条件は、例えば、1以上の属性識別子および1以上のキー項目値を含む。
【0063】
処理部13は、各種の処理を行う。各種の処理は、例えば、インデックス生成部131、検索部132、インデックス更新部133が行う処理である。
【0064】
処理部13は、受付部12がデータソースを受け付けた場合に、当該データソースをデータソース格納部111に蓄積する。その際、処理部13は、図示しない時計から最終更新時情報を取得し、当該最終更新時情報を当該データソースに対応付ける。
【0065】
処理部13は、受付部12がデータソースを構成する一部の情報を受け付けた場合、当該一部の情報を用いて、データソースを更新する。その際、処理部13は、図示しない時計から最終更新時情報を取得し、当該最終更新時情報を当該データソースに対応付ける。
【0066】
インデックス生成部131は、1または2以上の各データソースからインデックスを生成する。
【0067】
配列インデックス生成部1311は、1以上の各データソースごとに、配列インデックスを生成し、配列インデックス格納部1121に蓄積する。
【0068】
配列インデックス生成部1311は、データソースにおけるレコードごと、および1以上の属性値ごとに、属性位置情報を取得する。
【0069】
配列インデックス生成部1311は、データソースにおけるすべての各レコードごとに、一部の各属性値の属性位置情報を有する配列インデックスレコードを取得し、当該1以上の配列インデックスレコードを有する配列インデックスを構成し、配列インデックス格納部1121に蓄積することは好適である。ただし、配列インデックス生成部1311は、データソースにおけるすべての各レコードごとに、すべての各各属性値の属性位置情報を有する配列インデックスレコードを取得し、当該1以上の配列インデックスレコードを有する配列インデックスを構成し、配列インデックス格納部1121に蓄積しても良い。
【0070】
配列インデックスレコードは、レコードにおけるすべての属性値のうちの一部の属性値の属性位置情報のみを有する情報であることは好適である。なお、かかる一部の属性値の選択方法は問わない。一部の属性値は、例えば、所定の値ごと(例えば、1番目、5番目、9番目等の4つごと)に選択されることは好適であるが、ランダムに所定数だけ選択されても良い。
【0071】
配列インデックス生成部1311は、データソースにおける2以上のレコードのうちの1以上の各レコードごと、および1以上の各属性値ごとに、属性位置情報を取得する。そして、配列インデックス生成部1311は、レコードごと、および属性値ごとの属性位置情報を有する配列インデックスを生成し、配列インデックス格納部1121に蓄積する。
【0072】
配列インデックス生成部1311は、例えば、取得した属性位置情報を、レコード識別子またはキー項目値、および属性値識別子に対応付くように、配列インデックス格納部1121に蓄積する。
【0073】
配列インデックス生成部1311は、通常、データソースを走査し、第一デリミタごとにレコードを認識し、当該レコードを走査し、第二デリミタごとに属性値を認識し、例えば、当該レコードの先頭から、各第二デリミタの次の位置を、各属性値の属性位置情報として取得する。
【0074】
配列ラベル・インデックス生成部1312は、1以上の各データソースごとに、配列ラベル・インデックスを生成し、配列ラベル・インデックス格納部1122に蓄積する。
【0075】
配列ラベル・インデックス生成部1312は、例えば、データソースから、2以上の各属性ごとに、属性値識別子と属性順番情報とを取得し、当該属性値識別子と属性順番情報との組である配列ラベル・インデックスレコードを取得し、当該2以上の配列ラベル・インデックスレコードを有する配列ラベル・インデックスを構成し、当該配列ラベル・インデックスを配列ラベル・インデックス格納部1122に蓄積する。
【0076】
なお、配列ラベル・インデックス生成部1312は、属性値識別子キーとして配列ラベル・インデックスレコードをソートし、配列ラベル・インデックスを構成することは好適である。
【0077】
また、配列インデックスレコードが、すべての属性値の属性位置情報を有する場合、配列ラベル・インデックスは不要である。
【0078】
レコード・インデックス生成部1313は、データソースを参照し、データソースの2以上の各レコードのキー項目値とレコード位置情報とを有するレコード・インデックスレコードを、レコードごとに取得する。そして、レコード・インデックス生成部1313は、レコードごとのレコード・インデックスレコードの集合を有するレコード・インデックスを生成し、レコード・インデックス格納部1123に蓄積する。
【0079】
レコード・インデックス生成部1313は、1以上の各レコード・インデックスレコードに、レコード・インデックス内におけるレコード・インデックスレコードの位置を特定するレコード・インデックスレコード位置情報を取得し、当該レコード・インデックスレコード位置情報を有するレコード・インデックスレコードを構成することは好適である。
【0080】
なお、レコード・インデックス生成部1313は、キー項目値をキーとして該レコード・インデックスレコードをソートし、レコード・インデックスを構成することは好適である。
【0081】
2次インデックス生成部1314は、データソースごとに、データソースが有する2以上のレコードのうちの一部である1以上の各レコードごとに、レコード・インデックスレコード位置情報とレコードのキー項目値との組である2次インデックスレコードを取得し、当該1以上の2次インデックスレコードを有する2次インデックスを構成し、2次インデックス格納部1124に蓄積する。
【0082】
また、配列インデックスの属性値位置情報がデータソース内における位置を特定する情報である場合、レコード・インデックスは無くても良い。
【0083】
2次インデックス生成部1314は、例えば、データソースごとに、データソースに対応するレコード・インデックスを参照し、当該レコード・インデックスが有する一部のレコードであり、2以上の各レコードが有するレコード・インデックスレコード位置情報とキー項目値との組である2次インデックスレコードを取得し、2以上の2次インデックスレコードを有する2次インデックスを生成し、2次インデックス格納部1124に蓄積する。
【0084】
2次インデックスレコードは、一部のレコード・インデックスレコードに対応するが、その一部のレコード・インデックスレコードの選択方法は問わない。一部のレコード・インデックスレコードは、例えば、所定の値ごと(例えば、1番目、5番目、9番目等の4つごと)に選択されることは好適であるが、ランダムに所定数だけ選択されても良い。
【0085】
なお、2次インデックスは、レコードの検索を高速にするが、無くても良い。
【0086】
ソース・インデックス生成部1315は、2以上の各データソースごとに、ソース・インデックスレコードを取得し、2以上のソース・インデックスレコードを有するソース・インデックスを生成し、ソース・インデックス格納部1125に蓄積する。なお、ソース・インデックスレコードは、例えば、ソース識別子と最小キー項目値と最大キー項目値との組である。ソース・インデックスレコードは、例えば、ソース識別子と最小属性識別子と最大属性識別子との組である。ソース・インデックスレコードは、例えば、ソース識別子と最小キー項目値と最大キー項目値と最小属性識別子と最大属性識別子との組である。
【0087】
なお、データソースが一つである場合、ソース・インデックス生成部1315は、不要である。
【0088】
検索部132は、検索条件が有する属性識別子に対応する属性位置情報を、配列インデックスから取得し、当該属性位置情報を用いて、検索条件が有する属性識別子に対応する属性値を、キー項目値と2以上の属性値とを有する1または2以上のレコードを含むデータソースから取得する。
【0089】
検索部132は、例えば、条件受付部121が受け付けた検索条件が有する属性識別子で識別される属性値の前に配置されている属性値を識別する属性識別子に対応する第一の属性位置情報と、検索条件が有する属性識別子で識別される属性値の後に配置されている属性値を識別する属性識別子に対応する第二の属性位置情報とを、配列インデックスから取得する。次に、検索部132は、当該第一の属性位置情報が特定する位置と、当該第二の属性位置情報が特定する位置の間に存在する属性値であり、検索条件が有する属性識別子に対応する属性値を、データソースから取得する。
【0090】
検索部132は、例えば、条件受付部121が受け付けた検索条件が有する属性識別子に対応する属性順番情報を配列ラベル・インデックスから取得する。次に、検索部132は、当該属性順番情報を用いて、検索条件が有する属性識別子に対応する属性位置情報を、配列インデックスから取得する。次に、検索部132は、当該属性位置情報を用いて、検索条件が有する属性識別子に対応する属性値を、データソースから取得する。
【0091】
検索部132は、例えば、条件受付部121が受け付けた検索条件が有する属性識別子に対応する属性順番情報を配列ラベル・インデックスから取得する。検索部132は、当該属性順番情報が示す順番の前に配置されている属性値を識別する属性識別子に対応する第一の属性位置情報と、当該属性順番情報が示す順番の後に配置されている属性値を識別する属性識別子に対応する第二の属性位置情報とを、配列インデックスから取得する。次に、検索部132は、当該第一の属性位置情報が特定する位置と、当該第二の属性位置情報が特定する位置の間に存在する属性値であり、検索条件が有する属性識別子に対応する属性値を、データソースから取得する。
【0092】
検索部132は、例えば、検索条件が有するキー項目値と対になるレコード位置情報をレコード・インデックスから取得する。次に、検索部132は、当該レコード位置情報が特定する位置に対応するレコードを決定し、当該レコードの中の属性値であり、検索条件が有する属性識別子に対応する属性値を、データソースから取得する。なお、検索条件において属性識別子が示されない場合、検索条件が有する属性識別子は、すべての属性識別子である、と考えても良い。
【0093】
検索部132は、例えば、検索条件が有するキー項目値を挟む2つのキー項目値を2次インデックスから取得する。次に、検索部132は、取得した2つの各キー項目値と対になる第一のレコード・インデックスレコード位置情報と第二のレコード・インデックスレコード位置情報とを、2次インデックスから取得する。次に、検索部132は、当該第一のレコード・インデックスレコード位置情報と当該第二のレコード・インデックスレコード位置情報との間のレコード・インデックスレコードを検索し、検索条件が有するキー項目値を含むレコード・インデックスレコードを決定し、当該レコード・インデックスレコードの中のレコード位置情報を取得する。次に、検索部132は、当該レコード位置情報が特定する位置に対応するレコードの中の属性値であり、検索条件が有する属性識別子に対応する属性値を、データソースから取得する。なお、検索部132は、検索条件が有する属性識別子に対応する属性値の属性位置情報を、配列インデックスを用いて取得し、当該属性位置情報が特定する位置の属性値をデータソースから取得することは好適である。
【0094】
また、レコード・インデックスにおいて、キー項目値がソートされている場合、検索部132は、二分探索により、検索条件が有するキー項目値を含むレコード・インデックスレコードを決定することは好適であるが、シーケンシャルサーチでも良い。
【0095】
検索部132は、例えば、検索条件が有するキー項目値と一致する、またはキー項目値を間に挟む最小キー項目値と最大キー項目値と対になるソース識別子を、ソース・インデックスから取得する。次に、検索部132は、当該ソース識別子により識別されるデータソースから、検索条件が有する属性識別子に対応する属性位置情報を、配列インデックスから取得する。次に、検索部132は、当該属性位置情報を用いて、レコードの中の属性値であり、検索条件が有する属性識別子に対応する属性値を取得する。
【0096】
検索部132は、例えば、検索条件が有する属性識別子と一致する、または属性識別子を間に挟む最小属性識別子と最大属性識別子と対になるソース識別子を、ソース・インデックスから取得する。検索部132は、当該ソース識別子により識別されるデータソースに対応する配列インデックスから、検索条件が有する属性識別子に対応する属性位置情報を取得する。検索部132は、当該属性位置情報を用いて、当該ソース識別子により識別されるデータソースの中のレコードの中の属性値であり、検索条件が有する属性識別子に対応する属性値を取得する。
【0097】
検索部132は、例えば、検索条件が有するキー項目値と検索条件が有する属性識別子とに対応するソース識別子を、ソース・インデックスから取得する。検索部132は、当該ソース識別子により識別されるデータソースに対応する2次インデックスから、検索条件が有するキー項目値を挟む2つのキー項目値を2次インデックスから取得する。次に、検索部132は、取得した2つの各キー項目値と対になる第一のレコード・インデックスレコード位置情報と第二のレコード・インデックスレコード位置情報とを、2次インデックスから取得する。次に、検索部132は、当該第一のレコード・インデックスレコード位置情報と当該第二のレコード・インデックスレコード位置情報との間のレコード・インデックスレコードを検索し、検索条件が有するキー項目値を含むレコード・インデックスレコードを決定し、当該レコード・インデックスレコードの中のレコード位置情報を取得する。また、検索部132は、検索条件が有する属性識別子に対応する属性順番情報を配列ラベル・インデックスから取得する。次に、検索部132は、当該属性順番情報を用いて、検索条件が有する属性識別子に対応する属性位置情報を、配列インデックスから取得する。次に、検索部132は、取得したレコード位置情報により特定されるレコードの中の属性値であり、当該属性位置情報が特定する属性値をデータソースから取得する。
【0098】
インデックス更新部133は、予め決められた条件を満たす場合に、データソースから取得した最終更新時情報が示す最終更新時が、1以上の各種類のインデックスに対応する生成時情報が示す生成時より後か否かを判断し、後である場合に、インデックス生成部131を動作させて、1以上の各種類のインデックスを構成する。また、インデックス更新部133は、通常、構成した1以上の各種類のインデックスを、インデックス格納部112の古いインデックスに上書きする。なお、1以上の各種類のインデックスは、配列インデックス、配列ラベル・インデックス、レコード・インデックス、2次インデックス、ソース・インデックスのうちの1種類以上である。また、予め決められた条件は、例えば、ユーザからの指示を受け付けたこと、予め決められた時刻になったこと、データソースが更新されたことである。
【0099】
出力部14は、各種の情報を取得する。各種の情報は、例えば、後述する検索結果である。なお、ここでの出力とは、通常、端末装置3への送信であるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念であっても良い。
【0100】
結果出力部141は、検索部132が取得した属性値を含む検索結果を出力する。検索結果は、通常、属性値を有する。
【0101】
データソース管理装置2は、1以上のデータソースを管理する。データソース管理装置2は、データソース格納部111を具備する。
【0102】
端末装置3を構成する端末格納部31には、各種の情報が格納される。各種の情報は、例えば、検索条件、データソースである。
【0103】
端末受付部32は、各種の指示や情報を受け付ける。各種の指示や情報は、例えば、検索条件、データソース、データソースの一部の情報である。
【0104】
なお、ここでの受け付けとは、キーボードやマウス、タッチパネルなどの入力デバイスから入力された情報の受け付け、有線もしくは無線の通信回線を介して送信された情報の受信、光ディスクや磁気ディスク、半導体メモリなどの記録媒体から読み出された情報の受け付けなどを含む概念である。
【0105】
端末処理部33は、各種の処理を行う。各種の処理とは、例えば、端末受付部32が受け付けた指示や情報を、送信するデータ構造の指示や情報にする処理である。各種の処理とは、例えば、端末受信部35が受信した情報を、出力するデータ構造の情報にする処理である。
【0106】
端末送信部34は、各種の情報や指示を送信する。端末送信部34は、通常、各種の情報や指示を検索装置1に送信する。各種の情報や指示は、例えば、検索条件、データソースである。
【0107】
端末受信部35は、各種の情報を受信する。端末受信部35は、各種の情報を検索装置1から受信する。各種の情報は、例えば、検索結果である。
【0108】
端末出力部36は、各種の情報を出力する。各種の情報は、例えば、検索結果である。
【0109】
格納部11、データソース格納部111、インデックス格納部112、配列インデックス格納部1121、配列ラベル・インデックス格納部1122、レコード・インデックス格納部1123、2次インデックス格納部1124、ソース・インデックス格納部1125、および端末格納部31は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0110】
格納部11等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部11等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部11等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
【0111】
受付部12、条件受付部121、および端末受信部35は、通常、無線または有線の通信手段で実現されるが、放送を受信する手段で実現されても良い。
【0112】
処理部13、インデックス生成部131、検索部132、インデックス更新部133、配列インデックス生成部1311、配列ラベル・インデックス生成部1312、レコード・インデックス生成部1313、2次インデックス生成部1314、ソース・インデックス生成部1315、および端末処理部33は、通常、プロセッサやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
【0113】
出力部14、結果出力部141、および端末送信部34は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
【0114】
端末受付部32は、タッチパネルやキーボード等の入力手段のデバイスドライバーや、メニュー画面の制御ソフトウェア等で実現され得る。
【0115】
端末出力部36は、ディスプレイやスピーカー等の出力デバイスを含むと考えても含まないと考えても良い。端末出力部36は、出力デバイスのドライバーソフトまたは、出力デバイスのドライバーソフトと出力デバイス等で実現され得る。
【0116】
次に、検索システムAの動作例について説明する。まず、検索装置1の動作例について、図4のフローチャートを用いて説明する。
【0117】
(ステップS401)インデックス生成部131は、インデックスを生成するタイミングであるか否かを判断する。インデックスを生成するタイミングであればステップS402に行き、インデックスを生成するタイミングでなければステップS406に行く。
【0118】
(ステップS402)インデックス生成部131は、カウンタiに1を代入する。
【0119】
(ステップS403)インデックス生成部131は、インデックスを生成する対象のi番目のデータソースが存在するか否かを判断する。i番目のデータソースが存在する場合はステップS404に行き、i番目のデータソースが存在しない場合はステップS401に戻る。
【0120】
(ステップS404)インデックス生成部131は、i番目のデータソースに対応するインデックスを生成する。インデックス生成処理の例について、図5のフローチャートを用いて説明する。
【0121】
(ステップS405)インデックス生成部131は、カウンタiを1、インクリメントする。ステップS403に戻る。
【0122】
(ステップS406)インデックス更新部133は、インデックスを更新するタイミングであるか否かを判断する。インデックスを更新するタイミングであればステップS407に行き、インデックスを更新するタイミングでなければステップS414に行く。
【0123】
(ステップS407)インデックス更新部133は、カウンタiに1を代入する。
【0124】
(ステップS408)インデックス更新部133は、i番目のデータソースが存在するか否かを判断する。i番目のデータソースが存在する場合はステップS409に行き、i番目のデータソースが存在しない場合はステップS401に戻る。
【0125】
(ステップS409)インデックス更新部133は、i番目のデータソースの属性値である最終更新時情報を取得する。
【0126】
(ステップS410)インデックス更新部133は、i番目のデータソースに対応するインデクス(例えば、配列インデックス)の生成時情報を配列インデックス格納部1121から取得する。
【0127】
(ステップS411)インデックス更新部133は、ステップS409で取得した最終更新時情報が示す時が、ステップS410で取得した生成時情報が示す時より新しいか否かを判断する。新しい場合はステップS412に行き、新しくない場合はステップS413に行く。
【0128】
(ステップS412)インデックス更新部133は、インデックス生成部131に動作の指示をする。その結果、インデックス生成部131は、インデックスを生成し、i番目のデータソースに対応付けて、インデックスを蓄積する。かかる処理により、i番目のデータソースに対応するインデックスが更新される。なお、インデックス生成処理の例は、図5のフローチャートである。
【0129】
(ステップS413)カウンタiを1、インクリメントする。ステップS408に戻る。
【0130】
(ステップS414)条件受付部121は、検索条件を受け付けたか否かを判断する。検索条件を受け付けた場合はステップS415に行き、検索条件を受け付けなかった場合はステップS401に戻る。
【0131】
(ステップS415)検索部132は、検索条件を用いて検索を行う。かかる検索処理の例について、図11フローチャートを用いて説明する。
【0132】
(ステップS416)結果出力部141は、ステップS415で取得された検索結果を出力する。ステップS401に戻る。
【0133】
なお、図4のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0134】
次に、ステップS404のインデックス生成処理の例について、図5のフローチャートを用いて説明する。
【0135】
(ステップS501)ソース・インデックス生成部1315は、ソース・インデックスを生成する。かかるソース・インデックス生成処理の例について、図6フローチャートを用いて説明する。
【0136】
(ステップS502)配列ラベル・インデックス生成部1312は、配列ラベル・インデックスを生成する。かかる配列ラベル・インデックス生成処理の例について、図7フローチャートを用いて説明する。
【0137】
(ステップS503)配列インデックス生成部1311は、配列インデックスを生成する。かかる配列インデックス生成処理の例について、図8フローチャートを用いて説明する。
【0138】
(ステップS504)レコード・インデックス生成部1313は、レコード・インデックスを生成する。かかるレコード・インデックス生成処理の例について、図9フローチャートを用いて説明する。
【0139】
(ステップS505)2次インデックス生成部1314は、2次インデックスを生成する。かかる2次インデックス生成処理の例について、図10フローチャートを用いて説明する。
【0140】
なお、図5のフローチャートにおいて、例えば、レコード・インデックスと配列インデックスとは、レコードごとに、一緒に生成されても良い。つまり、各種のインデックスの生成の手順や順序等は問わない。
【0141】
次に、ステップS501のソース・インデックス生成処理の例について、図6フローチャートを用いて説明する。
【0142】
(ステップS601)ソース・インデックス生成部1315は、2以上の各データソースに、異なるレコードが存在するか否かを判断する。異なるレコードが存在する場合はステップS602に行き、異なるレコードが存在しない場合はステップS604に行く。
【0143】
(ステップS602)ソース・インデックス生成部1315は、インデックスの生成の対象のデータソースを参照し、当該データソースの最小キー項目値を取得する。
【0144】
(ステップS603)ソース・インデックス生成部1315は、インデックスの生成の対象のデータソースを参照し、当該データソースの最大キー項目値を取得する。
【0145】
(ステップS604)ソース・インデックス生成部1315は、2以上の各データソースに、異なる属性の属性値が存在するか否かを判断する。異なる属性の属性値が存在する場合はステップS605に行き、異なる属性の属性値が存在しない場合はステップS607に行く。
【0146】
(ステップS605)ソース・インデックス生成部1315は、インデックスの生成の対象のデータソースを参照し、当該データソースの最小属性識別子取得する。
【0147】
(ステップS606)ソース・インデックス生成部1315は、インデックスの生成の対象のデータソースを参照し、当該データソースの最大属性識別子取得する。
【0148】
(ステップS607)ソース・インデックス生成部1315は、インデックスの生成の対象のデータソースのソース識別子を取得する。
【0149】
(ステップS608)ソース・インデックス生成部1315は、ソース・インデックスレコードを構成する。ソース・インデックスレコードは、例えば、最小キー項目値と最大キー項目値とを有する。ソース・インデックスレコードは、例えば、最小属性識別子と最大属性識別子とを有する。ソース・インデックスレコードは、例えば、最小キー項目値と最大キー項目値と最小属性識別子と最大属性識別子とを有する。ソース・インデックスレコードは、ソース識別子に対応している。なお、ソース識別子に対応していることは、ソース識別子を有することでも良いことは言うまでもない。
【0150】
(ステップS609)ソース・インデックス生成部1315は、ステップS608で構成したソース・インデックスレコードをソース・インデックス格納部1125に追記する。上位処理にリターンする。
【0151】
次に、ステップS502の配列ラベル・インデックス生成処理の例について、図7フローチャートを用いて説明する。
【0152】
(ステップS701)配列ラベル・インデックス生成部1312は、カウンタiに1を代入する。
【0153】
(ステップS702)配列ラベル・インデックス生成部1312は、インデックスの生成の対象のデータソースのi番目の属性の属性識別子を取得する。
【0154】
なお、配列ラベル・インデックス生成部1312は、例えば、インデックスの生成の対象のデータソースの中の1行目のレコードのi番目の属性の属性識別子を取得する。配列ラベル・インデックス生成部1312は、例えば、格納部11に格納されているデータソーススキーマ情報からi番目の属性の属性識別子を取得しても良い。なお、データソーススキーマ情報とは、データソースの構造を特定する情報であり、例えば、2以上の属性識別子を有する。
【0155】
(ステップS703)配列ラベル・インデックス生成部1312は、ステップS702でi番目の属性の属性識別子を取得できたか否かを判断する。取得できた場合はステップS704に行き、取得できなかった場合は上位処理にリターンする。
【0156】
(ステップS704)配列ラベル・インデックス生成部1312は、ステップS702で取得したi番目の属性の属性識別子と、i(属性順番情報)とを有する配列ラベル・インデックスレコードを構成する。なお、配列ラベル・インデックスレコードは、配列ラベル・インデックスを構成する情報である。
【0157】
(ステップS705)配列ラベル・インデックス生成部1312は、ステップS704で構成した配列ラベル・インデックスレコードを、インデックスの生成の対象のデータソースに対応付けて、配列ラベル・インデックス格納部1122に追記する。
【0158】
(ステップS706)配列ラベル・インデックス生成部1312は、カウンタiを1、インクリメントする。ステップS702に戻る。
【0159】
なお、図7のフローチャートにおいて、配列ラベル・インデックスレコードを、属性識別子をキーとしてソートし、配列ラベル・インデックスを構成することは好適である。
【0160】
次に、ステップS503の配列インデックス生成処理の例について、図8フローチャートを用いて説明する。
【0161】
(ステップS801)配列インデックス生成部1311は、カウンタiに1を代入する。
【0162】
(ステップS802)配列インデックス生成部1311は、インデックスの生成の対象のデータソースの中に、i番目のレコードが存在するか否かを判断する。i番目のレコードが存在する場合はステップS803に行き、i番目のレコードが存在しない場合は上位処理にリターンする。
【0163】
(ステップS803)配列インデックス生成部1311は、カウンタjに1を代入する。
【0164】
(ステップS804)配列インデックス生成部1311は、インデックスの生成の対象のデータソースに、j番目の属性が存在するか否かを判断する。j番目の属性が存在する場合はステップS805に行き、j番目の属性が存在しない場合はステップS809に行く。
【0165】
(ステップS805)配列インデックス生成部1311は、j番目の属性を配列インデックスに使用するか否かを判断する。j番目の属性を配列インデックスに使用する場合はステップS806に行き、使用しない場合はステップS808に行く
【0166】
(ステップS806)配列インデックス生成部1311は、i番目のレコードのj番目の属性の属性値の属性位置情報を、インデックスの生成の対象のデータソースから取得する。
【0167】
(ステップS807)配列インデックス生成部1311は、ステップS806で取得した属性位置情報を、配列インデックスレコードのバッファに追記する。
【0168】
(ステップS808)配列インデックス生成部1311は、カウンタjを1、インクリメントする。ステップS804に戻る。
【0169】
(ステップS809)配列インデックス生成部1311は、配列インデックスレコードのバッファの配列インデックスレコードを、配列インデックス格納部1121に追記する。
【0170】
(ステップS810)配列インデックス生成部1311は、カウンタiを1、インクリメントする。ステップS802に戻る。
【0171】
次に、ステップS504のレコード・インデックス生成処理の例について、図9フローチャートを用いて説明する。
【0172】
(ステップS901)レコード・インデックス生成部1313は、カウンタiに1を代入する。
【0173】
(ステップS902)レコード・インデックス生成部1313は、インデックスの生成の対象のデータソースの中に、i番目のレコードが存在するか否かを判断する。i番目のレコードが存在する場合はステップS903に行き、i番目のレコードが存在しない場合は上位処理にリターンする。
【0174】
(ステップS903)レコード・インデックス生成部1313は、インデックスの生成の対象のデータソースを参照し、i番目のレコードのレコード位置情報を取得する。
【0175】
(ステップS904)レコード・インデックス生成部1313は、インデックスの生成の対象のデータソースを参照し、i番目のレコードのキー項目値を取得する。
【0176】
(ステップS905)レコード・インデックス生成部1313は、i番目のレコード・インデックスレコードの、レコード・インデックス内における位置情報であるレコード・インデックスレコード位置情報を取得する。
【0177】
(ステップS906)レコード・インデックス生成部1313は、ステップS903で取得したレコード位置情報、ステップS904で取得したキー項目値、およびステップS905で取得したレコード・インデックスレコード位置情報を有するi番目のレコード・インデックスレコードを構成する。
【0178】
(ステップS907)レコード・インデックス生成部1313は、ステップS906で構成したレコード・インデックスレコードを、レコード・インデックス格納部1123に追記する。
【0179】
(ステップS908)レコード・インデックス生成部1313は、カウンタiを1、インクリメントする。ステップ902に戻る。
【0180】
なお、図9のフローチャートにおいて、レコード・インデックス生成部1313は、キー項目値をキーとして、レコード・インデックスレコードをソートすることは好適である。かかる場合、レコード・インデックス生成部1313は、レコード・インデックスレコードごとに、ソートされた状態のレコード・インデックスレコード位置情報を取得することは言うまでもない。
【0181】
次に、ステップS505の2次インデックス生成処理の例について、図10フローチャートを用いて説明する。
【0182】
(ステップS1001)2次インデックス生成部1314は、カウンタiに1を代入する。
【0183】
(ステップS1002)2次インデックス生成部1314は、レコード・インデックスの中に、i番目のレコード・インデックスレコードが存在するか否かを判断する。i番目のレコード・インデックスレコードが存在する場合はステップS1003に行き、存在しない場合は上位処理にリターンする。
【0184】
(ステップS1003)2次インデックス生成部1314は、i番目のレコード・インデックスレコードを、2次インデックスに使用するか否かを判断する。2次インデックスに使用する場合はステップS1004に行き、2次インデックスに使用しない場合はステップS1006に行く。
【0185】
なお、2次インデックス生成部1314は、すべてのレコード・インデックスレコードのうちの一部のレコード・インデックスレコードを使用する。2次インデックス生成部1314は、例えば、すべてのレコード・インデックスレコードの番号をN(Nは2以上の自然数)で割った場合の余りの値がM(Mは整数,0<=M<N-1)の番号に対応するレコード・インデックスレコードを使用する、と判断する。また、2次インデックス生成部1314は、例えば、予め決められている一部のレコード・インデックスレコードを使用する、と判断する。
【0186】
(ステップS1004)2次インデックス生成部1314は、i番目のレコード・インデックスレコードから、キー項目値とレコード・インデックスレコード位置情報とを取得し、当該情報を有する2次インデックスレコードを構成する。
【0187】
(ステップS1005)2次インデックス生成部1314は、ステップS1004で構成した2次インデックスレコードを2次インデックス格納部1124に追記する。
【0188】
(ステップS1006)2次インデックス生成部1314は、カウンタiを1、インクリメントする。ステップ1002に戻る。
【0189】
なお、図10のフローチャートにおいて、2次インデックスレコードは、キー項目値をキーとしてソートされていることは好適である。
【0190】
次に、ステップS415の検索処理の例について、図11フローチャートを用いて説明する。
【0191】
(ステップS1101)検索部132は、受け付けられた検索条件に対応する1以上の属性識別子と1以上のキー項目値を取得する。なお、1以上の属性識別子は、検索結果として取得する属性値を特定する。1以上のキー項目値は、検索結果として情報を取得する対象のレコードを特定する。つまり、検索部132は、ここで取得した1以上のキー項目値のレコードの中の属性値であり、ここで取得した1以上の各属性識別子で識別される属性値を取得することとなる。
【0192】
(ステップS1102)検索部132は、ソース・インデックスを参照し、ステップS1101で取得した1以上の属性識別子と1以上のキー項目値に対応する1以上のソース識別子を取得する。ここで、検索部132は、取得した1以上の各ソース識別子に、当該ソース識別子で識別されるデータソースに含まれる属性値の1以上の属性識別子と、当該ソース識別子で識別されるデータソースに含まれるレコードの1以上のキー項目値とを対応付ける。
【0193】
(ステップS1103)検索部132は、カウンタiに1を代入する。
【0194】
(ステップS1104)検索部132は、ステップS1102で取得した1以上のソース識別子の中に、i番目のソース識別子が存在するか否かを判断する。i番目のソース識別子が存在する場合はステップS1105に行き、存在しない場合はステップS1118に行く。
【0195】
(ステップS1105)検索部132は、カウンタjに1を代入する。
【0196】
(ステップS1106)検索部132は、ステップS1102でi番目のソース識別子に対応付けられた1以上のキー項目値の中に、j番目のキー項目値が存在するか否かを判断する。j番目のキー項目値が存在する場合はステップS1107に行き、存在しない場合はステップS1117に行く。
【0197】
(ステップS1107)検索部132は、i番目のソース識別子に対応する2次インデックスを参照し、j番目のキー項目値に対応する第一のレコード・インデックスレコード位置情報と第二のレコード・インデックスレコード位置情報とを取得する。なお、第一のレコード・インデックスレコード位置情報は、j番目のキー項目値より小さなキー項目値のうちの最大のキー項目値と対になるレコード・インデックスレコード位置情報である。第二のレコード・インデックスレコード位置情報が、j番目のキー項目値より大きなキー項目値のうちの最小のキー項目値と対になるレコード・インデックスレコード位置情報である。また、ここで、検索部132は、j番目のキー項目値と対になる一つのレコード・インデックスレコード位置情報を2次インデックスから取得する場合もあり得る。
【0198】
(ステップS1108)ステップS1107で第一のレコード・インデックスレコード位置情報と第二のレコード・インデックスレコード位置情報とを取得した場合、検索部132は、当該第一のレコード・インデックスレコード位置情報と第二のレコード・インデックスレコード位置情報との間のレコード・インデックスレコードを検索し(例えば、二分探索、またはシーケンシャルサーチ)、j番目のキー項目値を検出する。次に、検索部132は、当該j番目のキー項目値と対になるレコード位置情報を、レコード・インデックスから取得する。
【0199】
また、ステップS1107で一つのレコード・インデックスレコード位置情報を取得した場合、検索部132は、当該レコード・インデックスレコード位置情報と対になるレコード位置情報を、レコード・インデックスから取得する。
【0200】
(ステップS1109)検索部132は、カウンタkに1を代入する。
【0201】
(ステップS1110)検索部132は、i番目のソース識別子に対応するk番目の属性識別子が存在するか否かを判断する。k番目の属性識別子が存在する場合はステップS1111に行き、存在しない場合はステップS1116に行く。
【0202】
(ステップS1111)検索部132は、i番目のソース識別子に対応する配列ラベル・インデックスを参照し、k番目の属性識別子と対になる属性順番情報を、当該配列ラベル・インデックスから取得する。
【0203】
(ステップS1112)検索部132は、i番目のソース識別子に対応する配列インデックスを参照し、当該配列インデックス内に、ステップS1111で取得した属性順番情報と一致する属性順番情報が存在するか否かを判断する。属性順番情報と一致する属性順番情報が存在する場合は、検索部132は、当該属性順番情報と対になり、かつj番目のキー項目値と対になる属性位置情報を当該配列インデックスから取得する。
【0204】
属性順番情報と一致する属性順番情報が存在しない場合は、検索部132は、当該属性順番情報を挟む2つの属性順番情報を取得する。つまり、検索部132は、当該属性順番情報より小さい値の属性順番情報であり、当該属性順番情報との差が最も小さい第一の属性順番情報を取得する。また、検索部132は、当該属性順番情報より大きい値の属性順番情報であり、当該属性順番情報との差が最も小さい第二の属性順番情報を取得する。なお、第一の属性順番情報と第二の属性順番情報とは、当該属性順番情報を挟む情報である。次に、検索部132は、第一の属性順番情報と対になり、かつj番目のキー項目値と対になる属性位置情報を当該配列インデックスから取得する。また、検索部132は、第二の属性順番情報と対になり、かつj番目のキー項目値と対になる属性位置情報を当該配列インデックスから取得する。
【0205】
(ステップS1113)ステップS1112で一つの属性位置情報を取得した場合は、検索部132は、ステップS1108で取得したj番目のキー項目値と対になるレコード位置情報が示す位置のレコードの中から、ステップS1112で取得した一つの属性位置情報が示す位置の属性値を、i番目のソース識別子で識別されるデータソースから取得する。
【0206】
また、ステップS1112で2つの属性位置情報を取得した場合は、検索部132は、ステップS1108で取得したj番目のキー項目値と対になるレコード位置情報が示す位置のレコードの中から、2つの各属性位置情報が特定する位置の属性値を、例えば、シーケンシャルサーチにより検査し、k番目の属性識別子と対になる属性順番情報の順番に存在する属性値を、i番目のソース識別子で識別されるデータソースから取得する。
【0207】
(ステップS1114)検索部132は、j番目のキー項目値とk番目の属性識別子とに対応付けて、ステップS1113で取得した属性値を、図示しないバッファに一時蓄積する。
【0208】
(ステップS1115)検索部132は、カウンタkを1、インクリメントする。ステップ1110に戻る。
【0209】
(ステップS1116)検索部132は、カウンタjを1、インクリメントする。ステップ1106に戻る。
【0210】
(ステップS1117)検索部132は、カウンタiを1、インクリメントする。ステップ1104に戻る。
【0211】
(ステップS1118)検索部132は、図示しないバッファに一時蓄積された1以上の属性値を含む検索結果を構成する。上位処理にリターンする。なお、検索結果の構成方法は問わない。検索結果に含まれる属性値に対応する属性識別子は、属性値に対応付くことが明示される態様で、検索結果に含まれることは好適である。また、検索結果は、j番目のキー項目値を含むことは好適である。
【0212】
次に、データソース管理装置2の動作例について説明する。データソース管理装置2は、検索装置1からのアクセスに応じて、データソース格納部111のデータソースを読み出し、検索装置1に送信する。なお、かかる場合、データソース管理装置2は、データソースの一部のみを読み出し、送信しても良い。
【0213】
次に、端末装置3の動作例について説明する。端末装置3の端末受付部32は、検索条件を受け付ける。次に、端末処理部33は、送信する検索条件を構成する。次に、端末送信部34は、当該検索条件を検索装置1に送信する。そして、検索条件の送信に応じて、端末受信部35は、検索結果を受信する。次に、端末処理部33は、受信された検索結果を用いて、出力する検索結果を構成する。次に、端末出力部36は、当該検索結果を出力する。
【0214】
以下、本実施の形態における検索システムAの具体的な動作例について説明する。
【0215】
今、検索装置1のデータソース格納部111、またはデータソース管理装置2のデータソース格納部111に、図12に示す3つのデータソース(1201、1202、1203)を含む3以上のデータソースが格納されている、とする。なお、3つの各データソースは、ここでは、1つのファイルである、とする。
【0216】
そして、図12のデータソースは、ヘッダー・レコード、ラベル・レコード、多数のレコードを有する。ラベル・レコード、および各レコードは、第一デリミタにより区切られている。また、第一デリミタは、ここでは、例えば、リターンコードである。
【0217】
ヘッダー・レコードは、ファイルのいわゆるヘッダーであり、1以上のソース属性値を有する。ソース属性値は、ここでは、ソース識別子、レポート番号、最終更新時情報である。ソース識別子は、図12では、File Nameであり、値は「File1」である。レポート番号は、当該データソースの出所を識別するための番号で、値は「A12345」である。最終更新時情報は、図12では、Dateであり、値は「XXXX-XX-XX」である。
【0218】
ラベル・レコードは、例えば、ファイルの1行目である。なお、ヘッダー・レコードがファイルの1行目である場合は、ラベル・レコードは、ファイルの2行目である。ラベル・レコードは、項目ラベルの集合と、属性識別子の集合である。項目ラベルは、キー項目のラベルまたは明細項目のラベルである。キー項目は、レコードのキーとなる属性であり、ここでは「PID(パーソナルID)」である。「PID」は、ユーザを識別するIDである。明細項目は、「PID」に対応するユーザの属性値で、ここでは、明細項目は、「No.」「Age」を含む。「No.」は、レコードIDであり、その値は、図12の1201の[1][2][3]等である。また、「No.」の下の(Pos.)は、各レコードのレコード位置情報(ここでは、データソース内のレコードの先頭のオフセット)である。「Age」は、ユーザの年齢である。属性識別子は、図12では、「TestB」「TestE」「TestC」等である。図12では、属性識別子の下に属性順番情報が記載されている。属性順番情報は、属性識別子の下の[1][2][3]等である。
【0219】
図12の各レコードは、キー項目値、明細項目値、属性値を有する。キー項目値は、キー項目の値であり、ここでは、各ユーザのPID(例えば、236,029)である。なお、どの値をキー項目値とするかはインデックス生成のためのパラメータとして指定できることが好適であり、他の値(例えば、「Age」「PIDとAgeの組」)でも良く、また2以上のキー項目値を持つことも可能である。明細項目値は、ここでは、例えば、「No.」の値、「Age」の値である。「No.」の値は、ここでは、[1][2]等である。「No.」の値([1][2][3]等)の下に存在する値(例えば、(1)(121)(241)等)は、各レコードのレコード位置情報である。
【0220】
レコード識別子[1]に対応するレコードの属性値は、0.11、0.4、0.57等である。また、図12において、属性値(0.11、0.4、0.57等)の下には、各属性値の属性値位置情報((57)(62)(73)等)が表記されている。
【0221】
ここでのデータソースは、遺伝子・ゲノム情報の集合を含む、とする。また、一般的な遺伝子・ゲノム情報を取り扱うデータでは、遺伝子の塩基配列やタンパク質のアミノ酸配列などのデータが含むまれ、1レコードの長さが、例えば、数GBになることもある。また、1レコードの中の属性値の数が膨大になり、データサイズは巨大になる場合が多い。また、遺伝子・ゲノム情報を取り扱うデータは、フラットファイル(一般的なテキストファイル)に比較的単純なレイアウトで保存・流通されているケースが多く、本具体例におけるデータソース(図12参照)は、その例である。
【0222】
かかる状況で、以下の3つの具体例について説明する。具体例1は、インデックスの生成処理の例である。具体例2は、ソース・インデックスが最小キー項目値と最大キー項目値との組を有し、最小属性識別子と最大属性識別子との組を有さない場合における検索処理の例である。具体例3は、ソース・インデックスが最小キー項目値と最大キー項目値と最小属性識別子と最大属性識別子との組を有する場合における検索処理の例である。
【0223】
(具体例1)
検索装置1のインデックス生成部131が、各種のインデックスの生成処理の例について、図13を用いて説明する。ここでは、キー項目は「PID」である、とする。
(1)ソース・インデックス生成処理
【0224】
ソース・インデックス生成部1315は、ファイル「データソース1301」にアクセスし、データソース1301のソース識別子(ここでは、ファイル名)「file1」を取得する。また、ソース・インデックス生成部1315は、データソース1301をオープンする。次に、ソース・インデックス生成部1315は、データソース1301のPIDの中の最小のPIDである最小キー項目値「029」と最大のPIDである最大キー項目値「451」とを取得する。なお、データソース1301において、PIDがソートされている場合は、ソース・インデックス生成部1315は、最初のPIDと最後のPIDとを取得する。PIDがソートされていない場合は、ソース・インデックス生成部1315は、シーケンシャルにPIDを検査し、最小キー項目値と最大キー項目値とをデータソース1301から取得する。
【0225】
また、ソース・インデックス生成部1315は、データソース1301のラベル・レコードの属性値識別子の中の最小属性識別子「TestA」と最大属性識別子「TestE」とを取得する。なお、データソース1301において、属性識別子がソートされている場合は、ソース・インデックス生成部1315は、ラベル・レコードから、最初の属性識別子と最後の属性識別子とを取得する。属性識別子がソートされていない場合は、ソース・インデックス生成部1315は、シーケンシャルに属性識別子を検査し、最小属性識別子と最大属性識別子とをラベル・レコードから取得する。
【0226】
次に、ソース・インデックス生成部1315は、取得したソース識別子、最小キー項目値、最大キー項目値、最小属性識別子、および最大属性識別子から、ソース・インデックスレコード「file1,029,451,TestA,TestE」を構成し、ソース・インデックス格納部1125に蓄積する。
【0227】
ソース・インデックス生成部1315は、他のデータソース(ファイル「file2」「file3」等)に対しても、同様に、ソース・インデックスレコードを構成し、ソース・インデックス格納部1125に蓄積する。
【0228】
以上の処理により、図13の1302のソース・インデックスがソース・インデックス格納部1125に蓄積される。
(2)配列ラベル・インデックス生成処理
【0229】
配列ラベル・インデックス生成部1312は、ファイル「データソース1301」にアクセスし、データソース1301のソース識別子(ファイル名)「file1」を取得する。また、ソース・インデックス生成部1315は、データソース1301をオープンする。
【0230】
次に、配列ラベル・インデックス生成部1312は、データソース1301のラベル・インデックス内に配置されている順に、属性識別子をその順番である属性順番情報と共に取得する。そして、属性識別子ごとに、属性識別子と属性順番情報との組である配列ラベル・インデックスレコードを構成する。
【0231】
次に、配列ラベル・インデックス生成部1312は、属性識別子をキーとして配列ラベル・インデックスレコードを、例えば、昇順にソートする。そして、配列ラベル・インデックス生成部1312は、ソートされた配列ラベル・インデックスレコードを、配列ラベル・インデックス格納部1122に蓄積する。
【0232】
配列ラベル・インデックス生成部1312は、他のデータソース(ファイル「file2」「file3」等)に対しても、同様に、配列ラベル・インデックスを構成し、配列ラベル・インデックス格納部1122に蓄積する。
【0233】
以上の処理により、図13の1303の配列ラベル・インデックスが配列ラベル・インデックス格納部1122に蓄積される。
(3)配列インデックス生成処理
【0234】
配列インデックス生成部1311は、ファイル「データソース1301」にアクセスし、データソース1301のソース識別子(ファイル名)「file1」を取得する。また、ソース・インデックス生成部1315は、データソース1301をオープンする。
【0235】
配列インデックス生成部1311は、例えば、1番目、4番目、7番目といった具合に、所定数(ここでは、3つ)飛ばしで、データソース1301の属性順番情報を取得する。また、配列インデックス生成部1311は、例えば、レコードごとに、第二デリミタを検出しながら、取得した各属性順番情報の順番の属性値まで、ファイルポインタを進め、例えば、その順番の属性値のレコード内でのオフセットである属性位置情報を取得する。次に、配列インデックス生成部1311は、データソース1301のレコードごとに、レコードのPIDに対応付けて、属性順番情報が示す順番に、取得した属性位置情報を連結し、配列インデックスレコードを構成する。
【0236】
次に、配列インデックス生成部1311は、例えば、対応するPIDをキーとして、配列インデックスレコードを、例えば、昇順にソートし、配列インデックスを構成し、配列インデックス格納部1121に蓄積する。
【0237】
また、配列インデックス生成部1311は、他のデータソース(ファイル「file2」「file3」等)に対しても、同様に、配列インデックスを構成し、配列インデックス格納部1121に蓄積する。
【0238】
以上の処理により、図13の1304の配列インデックスが配列インデックス格納部1121に蓄積される。
(4)レコード・インデックス生成処理
【0239】
レコード・インデックス生成部1313は、ファイル「データソース1301」にアクセスし、データソース1301のソース識別子(ファイル名)「file1」を取得する。また、ソース・インデックス生成部1315は、データソース1301をオープンする。
【0240】
レコード・インデックス生成部1313は、データソース1301におけるレコードごとに、キー項目値と、データソース1301内におけるレコードのオフセットであるレコード位置情報とを、データソース1301から取得し、レコード・インデックスレコードを構成する。
【0241】
そして、レコード・インデックス生成部1313は、キー項目値をキーとして、例えば、昇順に、キー項目値とレコード位置情報との組をソートする。次に、レコード・インデックス生成部1313は、レコード・インデックスにおける各レコード・インデックスレコードの位置情報(Pos.)を取得する。かかる位置情報(Pos.)は、レコード・インデックスレコード位置情報である。
【0242】
なお、ここで、レコード・インデックスレコード位置情報(Pos.)は、当該位置情報(Pos.)とキー項目値とレコード位置情報との組と配列インデックスレコードとを有するレコードの位置情報(Pos.)であることは好適である。つまり、レコード・インデックスレコードと配列インデックスレコードとは、データソースのレコードごとに、連絡されていることは好適である。
【0243】
次に、レコード・インデックス生成部1313は、データソース1301におけるレコードごとのレコード・インデックスレコードをレコード・インデックス格納部1123に蓄積する。
【0244】
また、レコード・インデックス生成部1313は、他のデータソース(ファイル「file2」「file3」等)に対しても、同様に、レコード・インデックスを構成し、レコード・インデックス格納部1123に蓄積する。
【0245】
以上の処理により、図13の1305のレコード・インデックスがレコード・インデックス格納部1123に蓄積される。
(5)2次インデックス生成処理
【0246】
2次インデックス生成部1314は、レコード・インデックス格納部1123のレコード・インデックスを読み出す。
【0247】
次に、2次インデックス生成部1314は、例えば、1番目、4番目、7番目といった具合に、所定数(ここでは、3つ)飛ばしで、レコード・インデックスレコードに含まれるキー項目値(ここでは、PID)とレコード・インデックスレコード位置情報(Pos.)との組である2次インデックスレコードを取得する。
【0248】
次に、2次インデックス生成部1314は、取得した2次インデックスレコードを2次インデックス格納部1124に追記する。なお、2次インデックスにおいて、PIDをキーとして、2次インデックスレコードはソートされている。
【0249】
また、2次インデックス生成部1314は、他のデータソース(ファイル「file2」「file3」等)に対しても、同様に、2次インデックスを構成し、2次インデックス格納部1124に蓄積する。
【0250】
以上の処理により、図13の1306の2次インデックスが2次インデックス格納部1124に蓄積される。
【0251】
(具体例2)
今、データソース管理装置2のデータソース格納部111、または検索装置1のデータソース格納部111に、図14の1401のデータソースが格納されている、とする。
【0252】
かかる場合、ユーザは、端末装置3に、検索条件「Select PID,Age,Test,TestValue from データソース where PID=155 AND Test=TestC」を入力した、とする。なお、「PID,Age,Test,TestValue」の「Test」は属性値識別子であり、「TestValue」は属性値である、とする。
【0253】
すると、端末装置3の端末受付部32は、かかる検索条件を受け付ける。次に、端末処理部33は、送信する検索条件を構成する。次に、端末送信部34は、当該検索条件を検索装置1に送信する。
【0254】
次に、検索装置1の条件受付部121は、検索条件「Select PID,Age,Test,TestValue from データソース where PID=155 AND Test=TestC」を受信する。
【0255】
次に、検索装置1の検索部132は、以下のように「PID=155 AND Test=TestC」に合致するレコードの中の「PID」、「Age」、属性識別子「TestC」、およびTestCの属性値を取得する。
【0256】
つまり、まず、検索部132は、検索条件に含まれる「PID=155」を取得する。また、検索部132は、検索条件に含まれる属性値識別子「TestC」を取得する(図14の1406)。
【0257】
次に、検索部132は、ソース・インデックス(1402)を参照し、取得した「PID=155」を、Min(最小キー項目値)とMax(最大キー項目値)の間に挟む、ソース・インデックスレコードを検知し、当該ソース・インデックスレコードが有するソース識別子「File1」を取得する。
【0258】
また、検索部132は、ソース識別子「File1」に対応する2次インデックス(1403)を参照し、「PID=155」を間に挟むPID「029」と「236」とを検知し、当該PID「029」と「236」と対になるレコード・インデックスレコード位置情報(1)と(151)とを、2次インデックス(1403)から取得する。
【0259】
次に、検索部132は、ソース識別子「File1」に対応するレコード・インデックス(1404)を参照し、レコード・インデックスレコード位置情報(1)と(151)の間を、例えば、「PID=155」をキーとして二分探索し、「PID=155」を含むレコード・インデックスレコードを検出する。そして、検索部132は、当該レコード・インデックスレコードから、「PID=155」と対になるレコード位置情報(241)を取得する。なお、検索部132は、二分探索ではなく、シーケンシャルサーチして、「PID=155」を含むレコード・インデックスレコードを検出しても良い。
【0260】
次に、検索部132は、取得したレコード位置情報(241)と、レコード・インデックスレコード位置情報(101)とを、図示しないバッファに一時蓄積する。
【0261】
次に、検索部132は、ソース識別子「File1」に対応する配列ラベル・インデックス(1405)を参照し、検索条件に含まれる属性識別子「TestC」をキーとして、当該配列ラベル・インデックスを二分探索し、属性識別子「TestC」を検知し、当該属性識別子「TestC」と対になる属性順番情報(3)を取得する。なお、ここで、検索部132は、二分探索ではなく、シーケンシャルサーチして、属性順番情報(3)を取得しても良い。
【0262】
次に、検索部132は、ソース識別子「File1」に対応する配列インデックスを参照し、配列インデックスの中の、属性順番情報(3)を間に挟む、第一の属性順番情報(1)と第二の属性順番情報(4)とを取得する。
【0263】
次に、検索部132は、図示しないバッファのレコード・インデックスレコード位置情報(101)に対応し、第一の属性順番情報(1)に対応する属性値位置情報(54)をレコード・インデックスから取得し、図示しないバッファに一時蓄積する。また、検索部132は、当該レコード・インデックスレコード位置情報(101)に対応し、第二の属性順番情報(4)に対応する属性値位置情報(84)をレコード・インデックスから取得し、図示しないバッファに一時蓄積する。
【0264】
次に、検索部132は、ソース識別子「File1」で識別されるデータソースにアクセスし、当該ファイルをオープンする。
【0265】
次に、検索部132は、図示しないバッファから、レコード位置情報(241)と属性値位置情報(54)と属性値位置情報(84)とを取得し、当該レコード位置情報(241)が特定する位置のレコードの中の、属性値位置情報(54)と属性値位置情報(84)との間の属性値であり、属性順番情報(3)に対応する属性値「0.381」を、当該ファイルから取得する。また、検索部132は、レコード位置情報(241)が特定する位置のレコードの中の、Age「62」を当該ファイルから取得する。
【0266】
そして、検索部132は、PID「155」、Age「62」、属性値識別子「TestC」、属性値「0.381」を有する検索結果を構成する。
【0267】
次に、結果出力部141は、構成された検索結果を、端末装置3に送信する。なお、かかる検索結果は、例えば、図14の1407である。
【0268】
次に、端末装置3の端末受信部35は、検索結果を受信する。次に、端末処理部33は、受信された検索結果を用いて、出力する検索結果を構成する。次に、端末出力部36は、当該検索結果を出力する。
【0269】
(具体例3)
今、データソース管理装置2のデータソース格納部111、または検索装置1のデータソース格納部111に、図13の1301のデータソースが格納されている、とする。
【0270】
かかる場合、ユーザは、端末装置3に、検索条件「Select PID,Age,Test,TestValue from データソース where PID=155 AND Test=TestC」を入力した、とする。
【0271】
すると、端末装置3の端末受付部32は、かかる検索条件を受け付ける。次に、端末処理部33は、送信する検索条件を構成する。次に、端末送信部34は、当該検索条件を検索装置1に送信する。
【0272】
次に、検索装置1の条件受付部121は、検索条件「Select PID,Age,Test,TestValue from データソース where PID=155 AND Test=TestC」を受信する。
【0273】
次に、検索装置1の検索部132は、以下のように「PID=155 AND Test=TestC」に合致するレコードの中の「PID」、「Age」、属性識別子「TestC」、およびTestCの属性値を取得する。
【0274】
つまり、まず、検索部132は、検索条件に含まれる「PID=155」を取得する。また、検索部132は、検索条件に含まれる属性値識別子「TestC」を取得する。
【0275】
次に、検索部132は、ソース・インデックス(1302)を参照し、取得した「PID=155」および「TestC」に対応するソース識別子「File1」を取得する。
【0276】
その後、検索部132は、具体例2で説明した処理と同様の処理により、検索結果を得る。
【0277】
次に、結果出力部141は、構成された検索結果を、端末装置3に送信する。なお、かかる検索結果は、例えば、図13の1307である。
【0278】
次に、検索条件の送信に応じて、端末受信部35は、検索結果を受信する。次に、端末処理部33は、受信された検索結果を用いて、出力する検索結果を構成する。次に、端末出力部36は、当該検索結果を出力する。
【0279】
以上、本実施の形態によれば、大きいデータサイズのデータソースから、所望の属性値を高速に検索できる。
【0280】
また、本実施の形態によれば、特に、1レコードの長さが非常に長いデータソースに対して、所望の属性値を高速に検索できる。
【0281】
また、本実施の形態によれば、情報検索を高速に行うためのインデックスを自動生成できる。
【0282】
また、本実施の形態によれば、特に、1レコードの長さが非常に長いデータソースに対して、情報検索を高速に行うためのインデックスを自動生成できる。
【0283】
さらに、本実施の形態によれば、最新の状態のインデックスを保持できる。
【0284】
さらに、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における検索装置1を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、キー項目値と2以上の属性値とを有する2以上のレコードを含むデータソースが格納されるデータソース格納部と、2以上のレコードのうちの1以上の各レコードごと、および各レコードの1以上の各属性ごとに、属性値が存在する位置を特定する属性位置情報を有する配列インデックスが格納される配列インデックス格納部とにアクセス可能なコンピュータを、属性識別子を含む検索条件を受け付ける条件受付部と、前記検索条件が有する属性識別子に対応する属性位置情報を、前記配列インデックスから取得し、当該属性位置情報を用いて、前記検索条件が有する前記属性識別子に対応する属性値を、前記データソースから取得する検索部と、前記検索部が取得した前記属性値を含む検索結果を出力する結果出力部として機能させるためのプログラムである。
【0285】
(実施の形態2)
本実施の形態において、複数のレコード・インデックスを用いて、データソースに対して情報検索を行う検索装置を具備する検索システムについて説明する。
【0286】
また、本実施の形態において、レコード・インデックスを含む2種類以上のインデックスを用いて、データソースに対して情報検索を行う検索装置を具備する検索システムについて説明する。なお、2種類以上のインデックスは、レコード・インデックスに加えて、例えば、配列インデックス、配列ラベル・インデックス、2次インデックス、ソース・インデックスのうちの1種類以上である。
【0287】
さらに、本実施の形態において、複数のレコード・インデックスを生成する検索装置を具備する検索システムについて説明する。
【0288】
図15は、本実施の形態における検索システムBの概念図である。検索システムBは、検索装置4、1または2以上のデータソース管理装置2、および1または2以上の端末装置3を備える。
【0289】
検索装置4は、データソースから情報を検索する装置である。検索装置4は、例えば、いわゆるサーバであり、例えば、クラウドサーバ、ASPサーバ等である。なお、検索装置4の種類は問わない。検索装置4は、外部の装置であるデータソース管理装置2に格納されているデータソースから情報を検索しても良いし、検索装置4内部のデータソースから情報を検索しても良い。なお、1または2以上の各データソース管理装置2は、通常、検索装置4とは異なる装置である。
【0290】
さらに、検索装置4と1以上のデータソース管理装置2とは、インターネットやLAN等のネットワークにより、通信可能である。また、検索装置4と端末装置3とは、インターネットやLAN等のネットワークにより、通信可能である。
【0291】
図16は、本実施の形態における検索システムBのブロック図である。図17は、検索装置4のブロック図である。
【0292】
検索装置4は、格納部41、受付部12、処理部43、および出力部44を備える。格納部41は、インデックス格納部411を備える。格納部41は、データソース格納部111を備えても良い。インデックス格納部411は、配列インデックス格納部1121、配列ラベル・インデックス格納部1122、レコード・インデックス格納部4113、2次インデックス格納部1124、およびソース・インデックス格納部1125を備える。受付部12は、条件受付部121を備える。処理部43は、インデックス生成部431、検索部432、およびインデックス更新部433を備える。インデックス生成部431は、配列インデックス生成部1311、配列ラベル・インデックス生成部1312、レコード・インデックス生成部4313、2次インデックス生成部1314、およびソース・インデックス生成部1315を備える。検索部432は、ソース決定手段4321、レコード・インデックス決定手段4322、検索手段4323を備える。出力部44は、および結果出力部441を備える。
【0293】
なお、検索装置4は、複数のレコード・インデックスを生成したり、複数のレコード・インデックスを用いて情報を検索したりできる以外、検索装置1と同様の機能を有することは好適である。
【0294】
データソース管理装置2は、データソース格納部111を備える。
【0295】
端末装置3は、端末格納部31、端末受付部32、端末処理部33、端末送信部34、端末受信部35、および端末出力部36を備える。
【0296】
検索装置4を構成する格納部41には、各種の情報が格納される。各種の情報は、例えば、上述した1以上の種類のインデックス、データソース、1以上の検索条件である。
【0297】
なお、1以上の検索条件は、データソースに対応付いている。1以上の検索条件は、ユーザが、情報の検索のために入力した検索条件である。
【0298】
インデックス格納部411には、上述した1以上の種類のインデックスが格納される。なお、インデックス格納部411には、2以上のレコード・インデックスが格納される。また、インデックス格納部411の各インデックスは、2次インデックス、BTREE、転置インデックス等のインデックス構造を有していても良い。
【0299】
配列インデックス格納部1121には、配列インデックスが格納される。配列インデックスは、2以上の各レコード・インデックスごとに存在していても良い。つまり、配列インデックス格納部1121には、2以上の配列インデックスが格納されていても良い。ただし、配列インデックス格納部1121には、一つの配列インデックスのみが格納されていることは好適である。かかる一つの配列インデックスは、2以上のいずれのレコード・インデックスにも対応する情報である。
【0300】
レコード・インデックス格納部4113には、2以上のレコード・インデックスが格納される。レコード・インデックス格納部1123には、通常、データソースごとに、1または2以上のレコード・インデックスが格納される。一のデータソースに対応するレコード・インデックスが2以上、存在する場合、かかる2以上の各レコード・インデックスは、各々、異なるキー項目の組み合わせに対応するレコード・インデックスである。
【0301】
2以上の各レコード・インデックスは、1以上のレコード・インデックスレコードを有する。レコード・インデックスレコードは、1以上のキー項目値とレコード位置情報の組の集合である。
2以上のレコード・インデックスが一つの配列インデックスに対応する場合には、レコード・インデックスレコードは、1以上のキー項目値と配列インデックスのレコードの位置情報の組の集合とし、配列インデックスの各レコードがデータソースのレコードに対応するようにレコード位置情報と持つように構成しても良い。かかる場合も、レコード・インデックスレコードには、データソースのレコード位置情報が対応付いているので、レコード・インデックスレコードがレコード位置情報を有する、と考えても良い。
また、レコード・インデックスレコードは、データソースのレコードに対応する。かかるレコード・インデックスレコードが有する1以上のキー項目値は、1以上のキー項目の組み合わせに対応する。1以上のキー項目の組み合わせとは、一つのキー項目、または2以上のキー項目の組み合わせである。
【0302】
レコード・インデックスの中のレコード・インデックスレコードは、1以上のキー項目をキーとして、昇順または降順にソートされていることは好適である。また、レコード・インデックスの中のレコード・インデックスレコードは、対応するデータソースが有する全レコードの数だけ存在することは好適である。さらに、レコード・インデックスが2以上のキー項目に対応する場合、当該2以上のキー項目は順序性を有する。
【0303】
レコード・インデックス格納部4113には、2以上の各レコード・インデックスに対応するレコード・インデックスのスキーマ情報が格納されていることは好適である。かかるレコード・インデックスのスキーマ情報は、通常、レコード・インデックスが有する1以上の各キー項目値に対応するキー項目識別子(属性識別子)を有する。
【0304】
レコード・インデックス格納部4113における各レコード・インデックスは、2次インデックス、BTREE、転置インデックス等のインデックス構造を有していても良い。
【0305】
処理部43は、各種の処理を行う。各種の処理は、例えば、インデックス生成部431、検索部432、インデックス更新部433が行う処理である。
【0306】
インデックス生成部431は、1または2以上の各データソースからインデックスを生成する。インデックス生成部431が生成するインデックスは、2以上のレコード・インデックスを含む。インデックス生成部431が生成するインデックスは、配列インデックス、配列ラベル・インデックス、2次インデックス、ソース・インデックスを含むことは好適である。
【0307】
レコード・インデックス生成部4313は、データソースごとに、1または2以上のレコード・インデックスを生成する。レコード・インデックス生成部4313が、一のデータソースに対して、1つのレコード・インデックスを生成する場合の処理は、レコード・インデックス生成部1313の処理と同じであるので、ここでの説明は省略する。
【0308】
ここでは、レコード・インデックス生成部4313が、1以上の各データソースに対して、2以上のレコード・インデックスを生成する場合について説明する。
【0309】
レコード・インデックス生成部4313は、データソースを参照し、2以上のレコード・インデックスを生成し、レコード・インデックス格納部4113に蓄積する。かかる2以上のレコード・インデックスは、各々、異なる1以上のキー項目の組み合わせに対応する2以上のレコード・インデックスである。
【0310】
さらに具体的には、レコード・インデックス生成部4313は、1以上のキー項目の組み合わせを特定する2以上の組の情報を取得する。次に、レコード・インデックス生成部4313は、2以上の各組に対して、データソースのレコードごとに、各組に対応する1以上の各キー項目に対応するキー項目値(属性値)と、レコード位置情報とを有するレコード・インデックスレコードを取得する。そして、レコード・インデックス生成部4313は、2以上の各組に対して、1以上のキー項目をキーとして、レコード・インデックスレコードをソートし、ソートされたレコード・インデックスレコードの集合であるレコード・インデックスを構成し、レコード・インデックス格納部4113に蓄積する。
【0311】
つまり、例えば、レコード・インデックス生成部4313は、選択条件を満たす1以上のキー項目の組み合わせを、2組以上、決定し、当該2組以上の各組の1以上のキー項目の組み合わせに対応する2以上の各レコードのキー項目値とレコード位置情報との組であるレコード・インデックスを生成し、レコード・インデックス格納部4113に蓄積する。なお、選択条件は、自動的にキー項目の組を決定するための条件である。選択条件の具体例については、後述する。
【0312】
なお、レコード・インデックス生成部4313が、上記の1以上のキー項目の組み合わせの情報を取得する方法として、(1)ユーザ指定による方法、(2)自動取得による方法がある。また、(2)自動取得による方法において、例えば、(2-1)検索条件を利用する方法、(2-2)分散を利用する方法等がある。以下、各々の方法について説明する。
(1)ユーザ指定による方法
【0313】
レコード・インデックス生成部4313は、ユーザにより指定された1以上のキー項目識別子の組み合わせを、2組以上、取得する。なお、2以上の組の情報は、ユーザが入力したインデックス生成指示に含まれている。2以上の各組の情報は、1つのキー項目識別子、または2以上のキー項目識別子の集合である。
(2)自動取得による方法
【0314】
レコード・インデックス生成部4313は、選択条件を満たす2以上の組の情報を取得する。
(2-1)検索条件を利用する方法
【0315】
レコード・インデックス生成部4313は、例えば、過去の1以上の検索条件において、出現頻度が選択条件を満たす属性識別子を、キー項目識別子として取得する。なお、出現頻度は、過去の1以上の検索条件における出現回数でも良いし、出現割合でも良い。選択条件は、例えば、出現頻度が閾値以上または閾値より大きいことである。
【0316】
レコード・インデックス生成部4313は、例えば、過去の1以上の検索条件において、共起頻度が選択条件を満たす2以上の属性識別子の組を、キー項目識別子の組として取得する。共起頻度は、過去の1以上の検索条件において共起する回数でも良いし、共起する割合でも良い。選択条件は、例えば、共起頻度が閾値以上または閾値より大きいことである。
(2-2)分散を利用する方法
【0317】
レコード・インデックス生成部4313は、例えば、インデックスの生成対象のデータソースの2以上の各レコードに含まれる属性値の分散が選択条件を満たす2以上の各属性の属性識別子を、キー項目識別子として取得する。選択条件は、分散が閾値以上または閾値より大きい属性値であることである。
【0318】
レコード・インデックス生成部4313は、例えば、インデックスの生成対象のデータソースの2以上の各レコードに含まれる属性値の分散が選択条件を満たす2以上の各属性の属性識別子のうち、N(Nは1以上の自然数)個以下の組み合わせを、1以上のキー項目識別子の組み合わせとして取得する。
【0319】
検索部432は、条件受付部121が受け付けた検索条件を用いて、2以上のレコード・インデックスから、一のレコード・インデックスを選択し、当該選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得し、当該レコード位置情報が特定する位置に対応するレコードの中の属性値をデータソースから取得する。なお、取得される属性値は、例えば、検索条件で指定された属性識別子に対応する属性値、またはレコード内のすべての属性値である。また、キー項目値も属性値である、と考えても良い。
【0320】
なお、検索部432が検索条件を用いて検索する方法は以下である。つまり、検索部432は、検索条件が有するキー項目値に対応するキー項目を含む1以上のキー項目の組み合わせに対応する一のレコード・インデックスを選択する。なお、一のレコード・インデックスを選択する処理の詳細は、レコード・インデックス決定手段4322の処理として、後述する。
【0321】
検索部432は、例えば、検索条件が有する属性識別子に対応する属性位置情報を、配列インデックスから取得し、当該属性位置情報を用いて、検索条件が有する属性識別子に対応する属性値を、データソースから取得する。
【0322】
検索部432は、例えば、2以上のレコード・インデックスから、条件受付部121が受け付けた検索条件が有するキー項目値に対応するキー項目を含む1以上のキー項目の組み合わせに対応する一のレコード・インデックスを選択し、当該選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得し、当該レコード位置情報が特定する位置に対応するレコードを決定する。次に、検索部432は、検索条件が有する属性識別子に対応する属性位置情報を、配列インデックスから取得し、当該属性位置情報を用いて、検索条件が有する属性識別子に対応する属性値を、決定したレコードから取得する。
【0323】
検索部432は、例えば、2以上のレコード・インデックスから、レコード・インデックスの先頭のキー項目が、検索条件が有するキー項目値に対応するキー項目と一致する場合には、当該レコード・インデックスを選択し、当該選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得し、当該レコード位置情報が特定する位置に対応するレコードの中の属性値をデータソースから取得する。
【0324】
検索部432は、レコード・インデックスの先頭のキー項目が検索条件が有するキー項目値に対応するキー項目と一致する2以上のレコード・インデックスが存在する場合、当該2以上のレコード・インデックスの次のキー項目が検索条件が有するキー項目と一致するかどうかを判定して、レコード・インデックスの先頭から最も多くのキー項目が検索条件が有するキー項目に含まれる一のレコード・インデックスを選択し、当該選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得し、当該レコード位置情報が特定する位置に対応するレコードの中の属性値をデータソースから取得する。
【0325】
ソース決定手段4321は、検索条件が有するキー項目値と一致する、またはキー項目値を間に挟む最小キー項目値と最大キー項目値と対になるソース識別子を、ソース・インデックスから取得する。
【0326】
レコード・インデックス決定手段4322は、2以上のレコード・インデックスから、検索処理のために使用する一のレコード・インデックスを決定する。レコード・インデックス決定手段4322は、例えば、ソース決定手段4321が取得したソース識別子と対になる2以上のレコード・インデックスから、一のレコード・インデックスを決定する。
【0327】
レコード・インデックス決定手段4322は、例えば、2以上のレコード・インデックスから、条件受付部121が受け付けた検索条件が有するキー項目を含む1以上のキー項目の組み合わせに対応する一のレコード・インデックスを選択する。なお、検索条件が有するキー項目とは、検索条件が有するキー項目値に対応するキー項目と考えても良い。また、検索条件が有するキー項目とは、検索条件が有するキー項目識別子と考えても良い。
【0328】
レコード・インデックス決定手段4322は、例えば、一のレコード・インデックスの先頭のキー項目が、検索条件が有するキー項目と一致する場合には、当該レコード・インデックスを、2以上のレコード・インデックスから選択する。レコード・インデックス決定手段4322は、例えば、レコード・インデックスの先頭のキー項目が、検索条件が有するキー項目と一致する2以上のレコード・インデックスが存在する場合、当該2以上のレコード・インデックスの次のキー項目が、検索条件が有するキー項目と一致するかどうかを判定して、レコード・インデックスの先頭から最も多くのキー項目が、検索条件が有するキー項目に含まれる一のレコード・インデックスを、2以上のレコード・インデックスから選択する。
【0329】
検索手段4323は、レコード・インデックス決定手段4322が選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得する。次に、検索手段4323は、当該レコード位置情報が特定する位置に対応するレコードの中の1以上の属性値をデータソースから取得する。なお、かかる1以上の属性値は、検索条件に含まれる属性識別子に対応する属性値でも良いし、レコード位置情報が特定する位置のレコードのすべての属性値等でも良い。
【0330】
なお、検索手段4323がレコード・インデックスから検索条件が有するキー項目値と対になるレコード位置情報を取得する場合、検索手段4323は、例えば、当該レコード・インデックスを二分検索してレコード位置情報を取得しても良い。また、検索手段4323は、例えば、インデックス構造を有するレコード・インデックスから、当該インデックス構造を利用したレコード位置情報の検索を行っても良い。
【0331】
検索手段4323は、レコード・インデックス決定手段4322が選択したレコード・インデックスから、検索条件が有するキー項目値と対になるレコード位置情報を取得する。次に、検索手段4323は、例えば、検索条件が有する属性識別子に対応する属性位置情報を、配列インデックスから取得する。そして、検索手段4323は、例えば、当該レコード位置情報が特定する位置のレコードの中の属性値であり、当該属性位置情報が特定する位置の属性値を取得する。
なお、検索手段4323は、レコード・インデックス決定手段4322が選択したレコード・インデックスから、配列インデックスのレコードの位置情報を取得し、当該配列インデックスのレコードの位置情報が示すレコードからデータソースのレコード位置情報を取得し、当該レコード位置情報が特定する位置のレコードの中の属性値であり、検索条件が有する属性識別子に対応する属性位置情報が特定する位置の属性値を取得する構成としても良い。
【0332】
なお、レコード・インデックス決定手段4322がレコード・インデックスを選択しなかった場合、検索手段4323は、通常、検索対象のデータソースをシーケンシャルサーチし、検索条件に対応する1以上の属性値を取得する。
【0333】
また、いずれのレコード・インデックスの先頭のキー項目が検索条件に含まれず、2番目以降のキー項目が検索条件に含まれている場合には、検索手段4323は、当該レコード・インデックス全体を走査することにより、検索条件に合致するレコード位置情報を取得することは好適である。かかる場合でも、データソースの全体をシーケンシャルサーチするよりは、通常、高速検索が可能である。
【0334】
インデックス更新部433は、予め決められた条件を満たす場合に、データソースから取得した最終更新時情報が示す最終更新時が、1以上の各種類のインデックスに対応する生成時情報が示す生成時より後か否かを判断し、後である場合に、インデックス生成部431を動作させて、1以上の各種類のインデックスを構成する。また、インデックス更新部433は、通常、構成した1以上の各種類のインデックスを、インデックス格納部411の古いインデックスに上書きする。なお、1以上の各種類のインデックスは、配列インデックス、配列ラベル・インデックス、レコード・インデックス、2次インデックス、ソース・インデックスのうちの1種類以上である。また、予め決められた条件は、例えば、ユーザからの指示を受け付けたこと、予め決められた時刻になったこと、データソースが更新されたことである。
【0335】
インデックス更新部433は、例えば、一のデータソースが予め決められた条件を満たす場合に、当該データソースの2以上のレコード・インデックスを更新する。
【0336】
出力部44は、各種の情報を出力する。各種の情報は、例えば、後述する検索結果である。なお、ここでの出力とは、通常、端末装置3への送信であるが、ディスプレイへの表示、プロジェクターを用いた投影、プリンタでの印字、記録媒体への蓄積、他の処理装置や他のプログラムなどへの処理結果の引渡しなどを含む概念であっても良い。
【0337】
結果出力部441は、検索部432が取得した1以上の属性値を含む検索結果を出力する。
【0338】
格納部41、インデックス格納部411、およびレコード・インデックス格納部4113は、不揮発性の記録媒体が好適であるが、揮発性の記録媒体でも実現可能である。
【0339】
格納部41等に情報が記憶される過程は問わない。例えば、記録媒体を介して情報が格納部41等で記憶されるようになってもよく、通信回線等を介して送信された情報が格納部41等で記憶されるようになってもよく、あるいは、入力デバイスを介して入力された情報が格納部11等で記憶されるようになってもよい。
【0340】
処理部43、インデックス生成部431、検索部432、インデックス更新部433、レコード・インデックス生成部4313、ソース決定手段4321、レコード・インデックス決定手段4322、および検索手段4323は、通常、プロセッサやメモリ等から実現され得る。処理部13等の処理手順は、通常、ソフトウェアで実現され、当該ソフトウェアはROM等の記録媒体に記録されている。但し、ハードウェア(専用回路)で実現しても良い。なお、プロセッサは、CPU、MPU、GPU等であり、その種類は問わない。
【0341】
出力部44、および結果出力部441は、通常、無線または有線の通信手段で実現されるが、放送手段で実現されても良い。
【0342】
次に、検索システムBの動作例について説明する。まず、検索装置4の動作例について、図18のフローチャートを用いて説明する。図18のフローチャートにおいて、図4のフローチャートと同一のステップについて、説明を省略する。
【0343】
(ステップS1801)インデックス生成部431は、i番目のデータソースに対応するインデックスを生成する。インデックス生成処理の例について、図19のフローチャートを用いて説明する。
【0344】
(ステップS1802)インデックス更新部433は、インデックス生成部431に動作の指示をする。その結果、インデックス生成部431は、インデックスを生成し、i番目のデータソースに対応付けて、インデックスを蓄積する。かかる処理により、i番目のデータソースに対応するインデックスが更新される。なお、インデックス生成処理の例は、図19のフローチャートである。
【0345】
(ステップS1803)検索部432は、検索条件を用いて検索を行う。かかる検索処理の例について、図24および図25のフローチャートを用いて説明する。
【0346】
なお、図18のフローチャートにおいて、ステップS414で受け付けられた検索条件を、検索対象のデータソースに対応付けて、格納部41に蓄積することは好適である。
【0347】
また、図18のフローチャートにおいて、電源オフや処理終了の割り込みにより処理は終了する。
【0348】
次に、ステップS1801、ステップS1802のインデックス生成処理の例について、図19のフローチャートを用いて説明する。なお、図19のフローチャートにおいて、図5のフローチャートと同一のステップについて、説明を省略する。
【0349】
(ステップS1901)レコード・インデックス生成部4313は、1または2以上のレコード・インデックスを生成する。かかるレコード・インデックス生成処理の例について、図20のフローチャートを用いて説明する。
【0350】
次に、ステップS1901のレコード・インデックス生成処理の例について、図20のフローチャートを用いて説明する。なお、図20のフローチャートにおいて、図4のフローチャートと同一のステップについて、説明を省略する。
【0351】
(ステップS2001)レコード・インデックス生成部4313は、生成するレコード・インデックスに対応する1以上のキー項目集合を決定する。かかるキー項目集合決定処理の例について、図21のフローチャートを用いて説明する。なお、キー項目集合は、1または2以上のキー項目である。キー項目集合を決定する処理は、通常、1または2以上のキー項目識別子を取得する処理である。
【0352】
(ステップS2002)レコード・インデックス生成部4313は、カウンタiに1を代入する。
【0353】
(ステップS2003)レコード・インデックス生成部4313は、ステップS2001で取得したキー項目集合の中で、i番目のキー項目集合が存在するか否かを判断する。i番目のキー項目集合が存在する場合はステップS2004に行き、存在しない場合は上位処理にリターンする。
【0354】
(ステップS2004)レコード・インデックス生成部4313は、カウンタjに1を代入する。
【0355】
(ステップS2005)レコード・インデックス生成部4313は、対象のデータソースの中に、j番目のレコードが存在するか否かを判断する。j番目のレコードが存在する場合はステップS2006に行き、存在しない場合はステップS2012に行く。
【0356】
(ステップS2006)レコード・インデックス生成部4313は、j番目のレコードのレコード位置情報を取得する。
【0357】
(ステップS2007)レコード・インデックス生成部4313は、j番目のレコードの1以上のキー項目値であり、i番目のキー項目集合が有する1以上の各キー項目の値(属性値)であるキー項目値を取得する。
【0358】
(ステップS2008)レコード・インデックス生成部4313は、j番目のレコード・インデックスレコードの位置情報を取得する。
【0359】
(ステップS2009)レコード・インデックス生成部4313は、レコード位置情報、1以上のキー項目値、レコード・インデックスレコードの位置情報を有するj番目のレコード・インデックスレコードを構成する。
【0360】
(ステップS2010)レコード・インデックス生成部4313は、ステップS2009で構成したj番目のレコード・インデックスレコードを、i番目のレコード・インデックスに追記する。
【0361】
(ステップS2011)レコード・インデックス生成部4313は、カウンタjを1、インクリメントする。ステップS2005に戻る。
【0362】
(ステップS2012)レコード・インデックス生成部4313は、i番目のレコード・インデックスのスキーマ情報を取得し、蓄積する。スキーマ情報は、i番目のキー項目集合が有する1以上のキー項目識別子(属性識別子)を有する。
【0363】
(ステップS2013)レコード・インデックス生成部4313は、i番目のレコード・インデックスを、レコード・インデックス格納部4113に蓄積する。なお、ここで、レコード・インデックス生成部4313は、i番目のレコード・インデックスのスキーマ情報も、i番目のレコード・インデックスに対応付けて蓄積することは好適である。
【0364】
(ステップS2014)レコード・インデックス生成部4313は、カウンタiを1、インクリメントする。ステップS2003に戻る。
なお、図20のフローチャートにおいて、2次インデックスが存在しない場合には、ステップS2008は不要であり、かつステップS2009において、レコード・インデックス生成部4313は、レコード位置情報、1以上のキー項目値を有するj番目のレコード・インデックスレコードを構成する。
【0365】
次に、ステップS2001のキー項目集合決定処理の例について、図21のフローチャートを用いて説明する。
【0366】
(ステップS2101)レコード・インデックス生成部4313は、ユーザが指定した1以上のキー項目集合が存在するか否かを判断する。ユーザが指定した1以上のキー項目集合が存在する場合はステップS2102に行き、存在しない場合はステップS2103に行く。
【0367】
(ステップS2102)レコード・インデックス生成部4313は、ユーザが指定した1以上のキー項目集合を取得し、図示しないバッファに一時蓄積する。上位処理にリターンする。
【0368】
(ステップS2103)レコード・インデックス生成部4313は、格納部41に格納されている過去の検索条件であり、対象となるデータソースに対する過去の検索条件の数が、条件を満たすほど多いか否かを判断する。条件を満たす場合はステップS2104に行き、条件を満たさない場合はステップS2105に行く。なお、かかる条件は、例えば、検索条件の数が閾値以上、または閾値より多いことである。
【0369】
(ステップS2104)レコード・インデックス生成部4313は、格納部41の検索条件を利用して、1または2以上のキー項目集合を決定する。なお、かかる検索条件利用処理の例について、図22のフローチャートを用いて説明する。
【0370】
(ステップS2105)レコード・インデックス生成部4313は、データソースの属性ごとの属性値の分散を利用して、1または2以上のキー項目集合を決定する。上位処理にリターンする。なお、かかる分散利用処理の例について、図23のフローチャートを用いて説明する。
【0371】
なお、図21のフローチャートにおいて、ユーザ指定の1以上のキー項目集合を取得する処理、過去の検索条件を利用して1以上のキー項目集合を取得する処理、および属性値の分散を利用して1以上のキー項目集合を取得する処理について説明した。図21において、上記の3つの処理のうち、2以上の処理を行い、1以上のキー項目集合を取得しても良い。なお、かかる場合、同じキー項目集合は、重複しては取得されない。
【0372】
次に、ステップS2104の検索条件利用処理の例について、図22のフローチャートを用いて説明する。
【0373】
(ステップS2201)レコード・インデックス生成部4313は、カウンタiに1を代入する。
【0374】
(ステップS2202)レコード・インデックス生成部4313は、i番目の属性識別子が存在するか否かを判断する。対象のデータソースの1以上の属性識別子の中に、i番目の属性識別子が存在する場合はステップS2203に行き、存在しない場合はステップS2207に行く。なお、データソースの1以上の属性識別子は、キー項目識別子であっても良い。
【0375】
(ステップS2203)レコード・インデックス生成部4313は、対象のデータソースのi番目の属性識別子の、格納部41の中の検索条件における出現頻度を取得する。なお、出現頻度は、出現回数でも良いし、出現割合でも良い。
【0376】
(ステップS2204)レコード・インデックス生成部4313は、ステップS2203で取得した出現頻度が、選択条件1を満たすか否かを判断する。選択条件1を満たす場合はステップS2205に行き、選択条件1を満たさない場合はステップS2206に行く。なお、選択条件1は、例えば、出現頻度が閾値以上、または閾値より大きいことである。
【0377】
選択条件1は、例えば、出現頻度が、2以上の属性識別子の中で、上位N(Nは、1以上の自然数)以内であること等でも良い。かかる条件の場合、レコード・インデックス生成部4313は、すべての属性識別子の出現頻度を取得した後に、図示しないバッファに蓄積する属性識別子を決定する。
【0378】
(ステップS2205)レコード・インデックス生成部4313は、i番目の属性識別子を図示しないバッファに蓄積する。なお、かかるi番目の属性識別子は、レコード・インデックスを構成する対象のキー項目集合である。ここでのキー項目集合は、一つの属性識別子である。
【0379】
(ステップS2206)レコード・インデックス生成部4313は、カウンタiを1、インクリメントする。ステップS2202に戻る。
【0380】
(ステップS2207)レコード・インデックス生成部4313は、カウンタjに1を代入する。
【0381】
(ステップS2208)レコード・インデックス生成部4313は、j番目の2以上の属性識別子の組み合わせが存在するか否かを判断する。j番目の2以上の属性識別子の組み合わせが存在する場合はステップS2209に行き、存在しない場合は上位処理にリターンする。
【0382】
(ステップS2209)レコード・インデックス生成部4313は、j番目の2以上の属性識別子の組み合わせの検索条件における共起頻度を取得する。なお、共起頻度は、2以上のすべての属性識別子が含まれる検索条件の数または割合である。
【0383】
(ステップS2210)レコード・インデックス生成部4313は、ステップS2209で取得した共起頻度が、選択条件2を満たすか否かを判断する。選択条件2を満たす場合はステップS2211に行き、選択条件2を満たさない場合はステップS2212に行く。なお、選択条件2は、例えば、共起頻度が閾値以上、または閾値より大きいことである。
【0384】
選択条件2は、例えば、共起頻度が、属性識別子の組み合わせの2以上の組の中で、上位N(Nは、1以上の自然数)以内であること等でも良い。かかる条件の場合、レコード・インデックス生成部4313は、すべての属性識別子の組み合わせの共起頻度を取得した後に、図示しないバッファに蓄積する属性識別子の組み合わせを決定する。
【0385】
(ステップS2211)レコード・インデックス生成部4313は、j番目の2以上の属性識別子の組み合わせを図示しないバッファに蓄積する。なお、かかるj番目の2以上の属性識別子の組み合わせは、レコード・インデックスを構成する対象のキー項目集合である。ここでのキー項目集合は、2以上の属性識別子である。
【0386】
(ステップS2212)レコード・インデックス生成部4313は、カウンタjを1、インクリメントする。ステップS2208に戻る。
【0387】
次に、ステップS2105の分散利用処理の例について、図23のフローチャートを用いて説明する。
【0388】
(ステップS2301)レコード・インデックス生成部4313は、カウンタiに1を代入する。
【0389】
(ステップS2302)レコード・インデックス生成部4313は、i番目の属性識別子が存在するか否かを判断する。対象のデータソースの1以上の属性識別子の中に、i番目の属性識別子が存在する場合はステップS2303に行き、存在しない場合はステップS2308に行く。なお、データソースの1以上の属性識別子は、キー項目識別子であっても良い。
【0390】
(ステップS2303)レコード・インデックス生成部4313は、対象のデータソースの各レコードのi番目の属性識別子に対応する属性値を取得する。
【0391】
(ステップS2304)レコード・インデックス生成部4313は、ステップS2303で取得した2以上の属性値の分散を算出する。
【0392】
(ステップS2305)レコード・インデックス生成部4313は、ステップS2304で算出した分散が選択条件3を満たすか否かを判断する。選択条件3を満たす場合はステップS2306に行き、満たさない場合はステップS2307に行く。なお、選択条件3は、例えば、分散が閾値以上または閾値より大きいことである。また、選択条件3は、例えば、分散が上位N(Nは1以上の自然数)以内であること等でも良い。
【0393】
(ステップS2306)レコード・インデックス生成部4313は、i番目の属性識別子を図示しないバッファに蓄積する。なお、かかるi番目の属性識別子は、レコード・インデックスを構成する対象のキー項目集合である。ここでのキー項目集合は、一つの属性識別子である。
【0394】
(ステップS2307)レコード・インデックス生成部4313は、カウンタiを1、インクリメントする。ステップS2302に戻る。
【0395】
(ステップS2308)レコード・インデックス生成部4313は、カウンタjに1を代入する。
【0396】
(ステップS2309)レコード・インデックス生成部4313は、ステップS2306で蓄積した属性識別子の集合の中で、N(Nは2以上の自然数)個以内のj番目の属性識別子の組み合わせが存在するか否かを判断する。j番目の属性識別子の組み合わせが存在する場合はステップS2310に行き、存在しない場合は上位処理にリターンする。
【0397】
(ステップS2310)レコード・インデックス生成部4313は、j番目の属性識別子の組み合わせを図示しないバッファに蓄積する。なお、かかるj番目の2以上の属性識別子の組み合わせは、レコード・インデックスを構成する対象のキー項目集合である。ここでのキー項目集合は、2以上の属性識別子である。
【0398】
(ステップS2311)レコード・インデックス生成部4313は、カウンタjを1、インクリメントする。ステップS2309に戻る。
【0399】
次に、ステップS1803の検索処理の第一の例について、図24のフローチャートを用いて説明する。なお、図24のフローチャートにおいて、図11のフローチャートと同一のステップについて、説明を省略する。
【0400】
(ステップS2401)レコード・インデックス決定手段4322は、検索に使用するレコード・インデックスを決定する。かかるレコード・インデックスを決定処理の例について、図26のフローチャートを用いて説明する。
【0401】
なお、図26のフローチャートにおいて、ステップS1108において、検索部432は、ステップS2401で決定されたレコード・インデックスを用いて、レコード位置情報を取得する。
【0402】
次に、ステップS1803の検索処理の第二の例について、図25のフローチャートを用いて説明する。なお、図25のフローチャートにおいて、図11図24のフローチャートと同一のステップについて、説明を省略する。
【0403】
(ステップS2501)検索手段4323は、ステップS2401で決定されたレコード・インデックスを検索し、検索条件が有するキー項目値に対応するレコード・インデックスレコードを決定し、当該レコード・インデックスレコードが有するレコード位置情報を取得する。
【0404】
(ステップS2502)検索手段4323は、検索対象のデータソースに対応する配列インデックスが存在するか否かを判断する。配列インデックスが存在する場合はステップS2503に行き、存在しない場合はステップS2510に行く。
【0405】
(ステップS2503)検索手段4323は、カウンタiに1を代入する。
【0406】
(ステップS2504)検索手段4323は、検索条件に含まれる(検索で取得する)i番目の属性識別子が存在するか否かを判断する。i番目の属性識別子が存在する場合はステップS2504に行き、存在しない場合はステップS2509に行く。
【0407】
(ステップS2505)検索手段4323は、i番目の属性識別子に対応する属性位置情報を配列インデックスから取得する。
【0408】
(ステップS2506)検索手段4323は、ステップS2501で取得したレコード位置情報で特定されるレコードの中の、ステップS2505で取得した属性位置情報で特定される属性値を、データソースから取得する。
【0409】
(ステップS2507)検索手段4323は、i番目の属性識別子に対応付けて、ステップS2506で取得した属性値を、図示しないバッファに一時蓄積する。
【0410】
(ステップS2508)検索手段4323は、カウンタiを1、インクリメントする。ステップS2504に戻る。
【0411】
(ステップS2509)検索手段4323は、図示しないバッファに一時蓄積された属性値等を用いて、検索結果を構成する。上位処理にリターンする。
【0412】
(ステップS2510)検索手段4323は、カウンタiに1を代入する。
【0413】
(ステップS2511)検索手段4323は、検索条件に含まれる(検索で取得する)i番目の属性識別子が存在するか否かを判断する。i番目の属性識別子が存在する場合はステップS2512に行き、存在しない場合はステップS2509に行く。
【0414】
(ステップS2512)検索手段4323は、i番目の属性識別子の、データソース内における属性の順番を取得する。なお、かかる順番は、i番目の属性識別子に対応する属性値が格納されている順番であり、レコード内の属性値の順番である。かかる順番の情報は、データソース内に存在しても良いし、格納部41に存在しても良い。
【0415】
(ステップS2513)検索手段4323は、ステップS2501で取得したレコード位置情報で特定されるレコードの中の、ステップS2512で取得した順番の位置に存在する属性値を取得する。
【0416】
(ステップS2514)検索手段4323は、i番目の属性識別子に対応付けて、ステップS2513で取得した属性値を、図示しないバッファに一時蓄積する。
【0417】
(ステップS2515)検索手段4323は、カウンタiを1、インクリメントする。ステップS2511に戻る。
【0418】
次に、ステップS2401のレコード・インデックスを決定処理の例について、図26のフローチャートを用いて説明する。
【0419】
(ステップS2601)レコード・インデックス決定手段4322は、検索条件が有するキー項目属性値に対応する1以上のキー項目識別子を取得する。なお、1以上のキー項目識別子は、検索条件が有しても良い。
【0420】
(ステップS2602)レコード・インデックス決定手段4322は、カウンタiに1を代入する。
【0421】
(ステップS2603)レコード・インデックス決定手段4322は、i番目のレコード・インデックスが存在するか否かを判断する。i番目のレコード・インデックスが存在する場合はステップS2604に行き、存在しない場合はステップS2613に行く。
【0422】
(ステップS2604)レコード・インデックス決定手段4322は、カウンタjに1を代入する。
【0423】
(ステップS2605)レコード・インデックス決定手段4322は、i番目のレコード・インデックスに対するスコアに0(初期値)を代入する。
【0424】
(ステップS2606)レコード・インデックス決定手段4322は、i番目のレコード・インデックスのスキーマ情報を参照し、当該スキーマ情報が有するj番目のキー項目識別子が、ステップS2601で取得したキー項目識別子の中に含まれるか否かを判断する。含まれる場合はステップS2607に行き、含まれない場合はステップS2611に行く。
【0425】
(ステップS2607)レコード・インデックス決定手段4322は、i番目のレコード・インデックスに対するスコアに1を加算する。
【0426】
(ステップS2608)レコード・インデックス決定手段4322は、ステップS2601で取得したすべてのキー項目識別子が、i番目のレコード・インデックスのスキーマ情報の中に含まれると判定できたか否かを判断する。かかる判定ができた場合はステップS2609に行き、できなかった場合はステップS2610に行く。
【0427】
(ステップS2609)レコード・インデックス決定手段4322は、i番目のレコード・インデックスを検索に使用するレコード・インデックスとして決定する。上位処理にリターンする。なお、かかる決定は、例えば、i番目のレコード・インデックスの読み込み、i番目のレコード・インデックスの識別子の取得等である。
【0428】
(ステップS2610)レコード・インデックス決定手段4322は、カウンタjを1、インクリメントする。ステップS2606に戻る。
【0429】
(ステップS2611)レコード・インデックス決定手段4322は、i番目のレコード・インデックスのスコアを、i番目のレコード・インデックスに対応付けて、図示しないバッファに一時蓄積する。
【0430】
(ステップS2612)レコード・インデックス決定手段4322は、カウンタiを1、インクリメントする。ステップS2603に戻る。
【0431】
(ステップS2613)レコード・インデックス決定手段4322は、図示しないバッファを参照し、最大のスコアに対応するレコード・インデックスを検索に使用するレコード・インデックスとして決定する。上位処理にリターンする。
【0432】
以下、本実施の形態における検索システムBの具体的な動作例について説明する。
【0433】
今、データソース管理装置2のデータソース格納部111に、図27に示す1つのデータソース(X)が格納されている、とする。図27のデータソースの構造は、図12のデータソースの構造と比較して、ラベル・レコードにおける「Region」の有無が異なるが、概ね同様である。
ラベル・レコードは、ここでは、ファイルの1行目である。ラベル・レコードは、属性識別子の集合である。属性識別子の集合のうちの一部の属性識別子は、キー項目識別子になり得る。図27において、[No.]は、レコードIDであり、その値は、図27の[1][2][3]等である。また、[No.]の下の(Pos.)は、各レコードのレコード位置情報(ここでは、データソース内のレコードの先頭のオフセット)である。「PID」は、ユーザ識別子である。「Age」は、ユーザの年齢である。「Region」は、ユーザが住む地域(ここでは、都道府県)である。
【0434】
かかる状況において、2つの具体例について説明する。具体例1は、2以上のレコード・インデックスを生成する処理の例である。具体例2は、2以上のレコード・インデックスから一のレコード・インデックスを選択し、当該レコード・インデックスを用いて検索する処理の例である。
【0435】
(具体例1)
検索装置4の管理者は、インデックス生成指示を端末装置3に入力した、とする。なお、かかるインデックス生成指示は、データソース(X)を特定する情報と、1以上のキー項目の集合を特定する情報とを含む、とする。具体的には、インデックス生成指示は、「<データソース>X <キー項目集合>(Age,PID) <キー項目集合>(Region,Age) <キー項目集合>(PID)」を含むとする。
【0436】
次に、端末装置3は、当該インデックス生成指示を受け付け、当該インデックス生成指示を検索装置4に送信する。
【0437】
次に、検索装置4の受付部12は、当該インデックス生成指示を端末装置3から受信する。次に、インデックス生成部131は、以下のようにデータソース(X)のレコード・インデックスを生成する。
【0438】
つまり、レコード・インデックス生成部4313は、インデックス生成指示が有するキー項目集合「<キー項目集合>(Age,PID) <キー項目集合>(Region,Age) <キー項目集合>(PID)」を取得する。
【0439】
次に、レコード・インデックス生成部4313は、「<データソース>X」と「<キー項目集合>(Age,PID)」とを用いて、データソース(X)が格納されているデータソース管理装置2にアクセスし、データソース(X)を読み込む。次に、レコード・インデックス生成部4313は、データソース(X)の各レコードの属性値「Age」と属性値「PID」とレコード位置情報とを含むレコード・インデックスレコードを、データソース(X)のレコードごとに取得する。次に、レコード・インデックス生成部4313は、レコード・インデックスレコードを、「Age」と「PID」との2つの属性値をキーとして、ソートして、蓄積するレコード・インデックスを構成する。そして、レコード・インデックス生成部4313は、当該レコード・インデックスを、レコード・インデックス格納部4113に蓄積する。
【0440】
なお、かかるレコード・インデックスにおいて、第一キー「Age」、第二キー「PID」の2つの属性値をキーとして、昇順または降順にソートされている。また、レコード・インデックス生成部4313は、当該レコード・インデックスのスキーマ情報(Age,PID)を、当該レコード・インデックスに対応付けて、レコード・インデックス格納部4113に蓄積する。なお、ここでは、スキーマ情報は、1以上の属性識別子を含む。また、スキーマ情報が2以上の属性識別子を有する場合、2以上の属性識別子には順序がある。また、ここで蓄積されたレコード・インデックスを、レコード・インデック(1)とする(図28参照)。
【0441】
次に、レコード・インデックス生成部4313は、「<データソース>X」と「<キー項目集合>(Region,Age)」とを用いて、データソース(X)が格納されているデータソース管理装置2にアクセスし、データソース(X)の各レコードの属性値「Region」と属性値「Age」とレコード位置情報とを含むレコード・インデックスレコードを、データソース(X)のレコードごとに取得する。次に、レコード・インデックス生成部4313は、レコード・インデックスレコードを、「Region」と「Age」との2つの属性値をキーとして、ソートして、蓄積するレコード・インデックスを構成する。そして、レコード・インデックス生成部4313は、当該レコード・インデックスを、レコード・インデックス格納部4113に蓄積する。
【0442】
なお、かかるレコード・インデックスにおいて、第一キー「Region」、第二キー「Age」の2つの属性値をキーとして、昇順または降順にソートされている。また、レコード・インデックス生成部4313は、当該レコード・インデックスのスキーマ情報(Region,Age)を、当該レコード・インデックスに対応付けて、レコード・インデックス格納部4113に蓄積する。また、ここで蓄積されたレコード・インデックスを、レコード・インデックス(2)とする(図28参照)。
【0443】
次に、レコード・インデックス生成部4313は、「<データソース>X」と「<キー項目集合>(PID)」とを用いて、データソース(X)が格納されているデータソース管理装置2にアクセスし、データソース(X)の各レコードの属性値「PID」とレコード位置情報とを含むレコード・インデックスレコードを、データソース(X)のレコードごとに取得する。次に、レコード・インデックス生成部4313は、レコード・インデックスレコードを、「PID」の属性をキーとして、ソートして、蓄積するレコード・インデックスを構成する。そして、レコード・インデックス生成部4313は、当該レコード・インデックスを、レコード・インデックス格納部4113に蓄積する。
【0444】
また、レコード・インデックス生成部4313は、当該レコード・インデックスのスキーマ情報(PID)を、当該レコード・インデックスに対応付けて、レコード・インデックス格納部4113に蓄積する。また、ここで蓄積されたレコード・インデックスを、レコード・インデックス(3)とする(図28参照)。
【0445】
以上の処理により、図28のレコード・インデックス(1)(2)(3)、およびレコード・インデックススキーマ情報2801が、レコード・インデックス格納部4113に蓄積された。
【0446】
(具体例2)
検索装置4のユーザは、検索条件「Select PID,Region,Age,TestA,TestB where Region=Tokyo AND Age=30 from データソース(X)」を端末装置3に入力した、とする。なお、検索条件のうちのwhere句を表した情報は、図28の2802である。
【0447】
そして、端末装置3は、当該検索条件を受け付け、当該検索条件を検索装置4に送信する。
【0448】
次に、検索装置4の条件受付部121は、当該検索条件を端末装置3から受信する。
【0449】
次に、レコード・インデックス決定手段4322は、検索条件が有する「Region=Tokyo AND Age=30」を用いて、レコード・インデックスのスキーマ情報(図28の2801)を検査し、属性識別子「Region」と「Age」の両方を含むレコード・インデックス(2)を、検索に使用するレコード・インデックスとして決定する。
【0450】
次に、検索手段4323は、where句「Region=Tokyo AND Age=30」に合致するレコード・インデックスレコード2803を、レコード・インデックス(2)から検索する。そして、検索手段4323は、レコード2803が有するレコード位置情報(Record Pos)「241」を、レコード・インデックス(2)から取得する。
【0451】
次に、検索手段4323は、データソース(X)を読み込み、レコード位置情報「241」に対応するレコードの位置までファイルポインタを移動させる(図28の2804参照)。次に、検索手段4323は、検索条件に含まれる検索対象となる属性識別子「PID,Region,Age,TestA,TestB」を、2804のレコードから取得する。次に、検索手段4323は、データソース(X)のスキーマ情報(図示しない)を参照し、属性識別子「PID」の順番「1」、属性識別子「Region」の順番「3」、属性識別子「Age」の順番「2」、属性識別子「TestA」の順番「Y(Yは4以上の自然数)」、属性識別子「TestB」の順番「Y+1」を取得する。そして、検索手段4323は、レコード位置情報「241」により特定されるレコードの属性値を順番に走査し、属性識別子ごとに、順番が示す属性値を取得し、当該属性値を属性識別子に対応付けて蓄積する。そして、検索手段4323は、検索結果「<PID>155 <Region>Tokyo <Age>を30 <TestA>0.2 <TestB>0.24」を得る。
【0452】
次に、結果出力部141は、取得された検索結果をユーザの端末装置3に送信する。
【0453】
次に、端末装置3は、かかる検索結果を受信し、出力する。かかる検索結果の出力例は、図28の2805である。
【0454】
以上、本実施の形態によれば、2以上のレコード・インデックスを用いて、データソースから情報を検索することにより、バリエーションのある各検索条件に対して、情報検索を高速に行える。
【0455】
また、本実施の形態によれば、適切な2以上のレコード・インデックスを生成できる。
【0456】
なお、本実施の形態における処理は、ソフトウェアで実現しても良い。そして、このソフトウェアをソフトウェアダウンロード等により配布しても良い。また、このソフトウェアをCD-ROMなどの記録媒体に記録して流布しても良い。なお、このことは、本明細書における他の実施の形態においても該当する。なお、本実施の形態における検索装置4を実現するソフトウェアは、以下のようなプログラムである。つまり、このプログラムは、2以上の各キー項目に対応するキー項目値と1以上の各属性識別子に対応する属性値とを有する2以上のレコードを含むデータソースのレコードに対応するインデックスであり、1以上のキー項目の組み合わせに対応する1以上のキー項目値と当該1以上のキー項目値を含むレコードの位置を特定するレコード位置情報の組の集合である2以上のレコード・インデックスであり、各々、異なるキー項目の組み合わせに対応する2以上のレコード・インデックスが格納されるレコード・インデックス格納部にアクセス可能なコンピュータを、キー項目値を有する検索条件を受け付ける条件受付部と、前記2以上のレコード・インデックスから、前記検索条件が有するキー項目値に対応するキー項目を含む1以上のキー項目の組み合わせに対応する一のレコード・インデックスを選択し、当該選択したレコード・インデックスから、前記検索条件が有する前記キー項目値と対になるレコード位置情報を取得し、当該レコード位置情報が特定する位置に対応するレコードの中の属性値を前記データソースから取得する検索部と、前記検索部が取得した前記属性値を含む検索結果を出力する結果出力部として機能させるためのプログラムである。
【0457】
また、図29は、本明細書で述べたプログラムを実行して、上述した種々の実施の形態の検索装置4等を実現するコンピュータの外観を示す。上述の実施の形態は、コンピュータハードウェア及びその上で実行されるコンピュータプログラムで実現され得る。図29は、このコンピュータシステム300の概観図であり、図30は、システム300のブロック図である。
【0458】
図29において、コンピュータシステム300は、CD-ROMドライブを含むコンピュータ301と、キーボード302と、マウス303と、モニタ304とを含む。
【0459】
図30において、コンピュータ301は、CD-ROMドライブ3012に加えて、MPU3013と、CD-ROMドライブ3012等に接続されたバス3014と、ブートアッププログラム等のプログラムを記憶するためのROM3015と、MPU3013に接続され、アプリケーションプログラムの命令を一時的に記憶するとともに一時記憶空間を提供するためのRAM3016と、アプリケーションプログラム、システムプログラム、及びデータを記憶するためのハードディスク3017とを含む。ここでは、図示しないが、コンピュータ301は、さらに、LANへの接続を提供するネットワークカードを含んでも良い。
【0460】
コンピュータシステム300に、上述した実施の形態の検索装置4等の機能を実行させるプログラムは、CD-ROM3101に記憶されて、CD-ROMドライブ3012に挿入され、さらにハードディスク3017に転送されても良い。これに代えて、プログラムは、図示しないネットワークを介してコンピュータ301に送信され、ハードディスク3017に記憶されても良い。プログラムは実行の際にRAM3016にロードされる。プログラムは、CD-ROM3101またはネットワークから直接、ロードされても良い。
【0461】
プログラムは、コンピュータ301に、上述した実施の形態の検索装置4等の機能を実行させるオペレーティングシステム(OS)、またはサードパーティープログラム等は、必ずしも含まなくても良い。プログラムは、制御された態様で適切な機能(モジュール)を呼び出し、所望の結果が得られるようにする命令の部分のみを含んでいれば良い。コンピュータシステム300がどのように動作するかは周知であり、詳細な説明は省略する。
【0462】
なお、上記プログラムにおいて、情報を送信するステップや、情報を受信するステップなどでは、ハードウェアによって行われる処理、例えば、送信ステップにおけるモデムやインターフェースカードなどで行われる処理(ハードウェアでしか行われない処理)は含まれない。
【0463】
また、上記プログラムを実行するコンピュータは、単数であってもよく、複数であってもよい。すなわち、集中処理を行ってもよく、あるいは分散処理を行ってもよい。
【0464】
また、上記各実施の形態において、一の装置に存在する2以上の通信手段は、物理的に一の媒体で実現されても良いことは言うまでもない。
【0465】
また、上記各実施の形態において、各処理は、単一の装置によって集中処理されることによって実現されてもよく、あるいは、複数の装置によって分散処理されることによって実現されてもよい。
【0466】
本発明は、以上の実施の形態に限定されることなく、種々の変更が可能であり、それらも本発明の範囲内に包含されるものであることは言うまでもない。
【産業上の利用可能性】
【0467】
以上のように、本発明にかかる検索装置4は、バリエーションのある各検索条件に対して、情報検索を高速に行えるという効果を有し、検索サーバ等として有用である。
【符号の説明】
【0468】
1、4 検索装置
2 データソース管理装置
3 端末装置
11、41 格納部
12 受付部
13、43 処理部
14、44 出力部
31 端末格納部
32 端末受付部
33 端末処理部
34 端末送信部
35 端末受信部
36 端末出力部
111 データソース格納部
112、411 インデックス格納部
121 条件受付部
131、431 インデックス生成部
132、432 検索部
133、433 インデックス更新部
141、441 結果出力部
1121 配列インデックス格納部
1122 配列ラベル・インデックス格納部
1123、4123 レコード・インデックス格納部
1125 ソース・インデックス格納部
1311 配列インデックス生成部
1312 配列ラベル・インデックス生成部
1313、4313 レコード・インデックス生成部
1315 ソース・インデックス生成部
4321 ソース決定手段
4322 レコード・インデックス決定手段
4323 検索手段
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
図25
図26
図27
図28
図29
図30