【実施例1】
【0016】
図1は、本実施例の全文検索システムの全体の構成例を示すブロック図である。全文検索システム100は、インデックス型の全文検索を実行するシステムであり、例えば、互いに接続された検索エンジンサーバ120とインデックス生成サーバ110とを含む。なお、インデックス生成サーバ110と検索エンジンサーバ120は、1つの計算機上に構成されていてもよい。
【0017】
全文検索システム100と、ユーザが利用するユーザ端末130と、ユーザの暗号鍵を保管する鍵サーバ140と、はネットワーク150を介して互いに接続されている。ユーザ端末130は、ユーザの暗号鍵情報を保持する。ユーザの暗号鍵情報は、当該ユーザのデータ暗号鍵を特定可能な情報(例えば、当該ユーザの暗号鍵、関数値暗号鍵、及び関数値復号鍵の識別子等)を含む。データ暗号鍵、関数値暗号鍵、関数値復号鍵、乱数用秘密鍵については後述する。
【0018】
鍵サーバ140は、ユーザのデータ暗号鍵、関数値暗号鍵、及び関数値復号鍵と、を保持する。ネットワーク150は、例えば、インターネットであるが、所定の組織内のネットワーク(例えば、イントラネット)でもよい。
【0019】
検索エンジンサーバ120は、非決定性暗号方式を用いて暗号化されたドキュメントの検索インデックス情報を保持する。検索エンジンサーバ120は、例えばユーザに指定されたキーワードを含むドキュメントを、後述するインデックス格納部113に格納されたインデックスを用いて、検索する。
【0020】
なお、インデックス格納部113に格納された検索インデックスに含まれるキーワードは、検索可能暗号処理によって暗号化されている。検索可能暗号処理とは、暗号化したキーワードを含む検索インデックスを生成し、当該検索インデックスに含まれる暗号化されたキーワードを復号することなく、当該検索インデックスを用いたドキュメント検索を実行する、一連の処理である。なお、本実施例における検索可能暗号処理では、非決定性暗号が用いられているものとする。即ち、検索インデックスに登録されるキーワードの暗号化に非決定性暗号が用いられている。また、検索可能暗号処理では、暗号化されたキーワードである暗号キーワードを検索インデックスから検索する際に、ユーザが検索用に指定したキーワードを暗号化した暗号クエリが生成されるが、暗号クエリの生成においても、非決定性暗号が用いられる。本実施例において、例えば、特許文献1に記載の検索可能暗号処理を用いることができる。
【0021】
検索エンジンサーバ120は、ユーザに指定されたキーワードを含むドキュメントを検索する際、検索可能暗号処理によって、当該キーワードに対応する暗号クエリを生成する。検索エンジンサーバ120は、生成した暗号クエリと、検索インデックスに含まれる暗号キーワードと、を比較することで、暗号クエリの元となったキーワードと同一のキーワードから生成された暗号キーワードを特定して、当該キーワードを含むドキュメントを検索する。
【0022】
検索可能暗号処理における、暗号キーワード生成方法と暗号クエリ生成方法との違いの詳細、暗号キーワードと暗号クエリとの比較処理の詳細、及びドキュメント検索方法の詳細については、後述する。
【0023】
インデックス生成サーバ110は、例えば、インデックス生成部111、インデックスマージ部112、インデックス格納部113、及び検索可能暗号化部114を含む。インデックス生成部111は、暗号化前のドキュメントを用いて、当該ドキュメントを検索するための検索インデックスを生成する。
【0024】
インデックスマージ部112は、複数の検索インデックスをマージして、1つの検索インデックスを生成する。インデックス格納部113は、1以上の検索インデックスを格納する。検索インデックスそれぞれは、ドキュメント内のキーワードから生成された暗号キーワードと暗号クエリを含む。検索インデックスの詳細については後述する。
【0025】
検索可能暗号化部114は、暗号処理を実施する。検索可能暗号化部114は、例えば、暗号キーワード生成部115、暗号クエリ生成部116、及び一致判定部117を含む。暗号キーワード生成部115は、インデックス生成部111がドキュメントから抽出したキーワードそれぞれから、暗号キーワードを生成する。暗号クエリ生成部116は、当該キーワードそれぞれから、暗号クエリを生成する。一致判定部117は、暗号キーワードと暗号クエリとが、同一のキーワードから生成されたか否かを判定する。
【0026】
図2は、インデックス生成サーバ110の物理的な構成例を示すブロック図である。なお、
図2には、インデックス生成サーバ110の構成を示すが、検索エンジンサーバ120、ユーザ端末130、及び鍵サーバ140も同様の構成を有すればよい。
【0027】
本実施例のインデックス生成サーバ110は、プロセッサ(CPU)1、メモリ2、補助記憶装置3及び通信インターフェース4を有する計算機によって構成される。
【0028】
プロセッサ1は、メモリ2に格納されたプログラムを実行する。メモリ2は、不揮発性の記憶素子であるROM及び揮発性の記憶素子であるRAMを含む。ROMは、不変のプログラム(例えば、BIOS)などを格納する。RAMは、DRAM(Dynamic Random Access Memory)のような高速かつ揮発性の記憶素子であり、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを一時的に格納する。
【0029】
補助記憶装置3は、例えば、磁気記憶装置(HDD)、フラッシュメモリ(SSD)等の大容量かつ不揮発性の記憶装置によって構成され、プロセッサ1が実行するプログラム及びプログラムの実行時に使用されるデータを格納する。すなわち、プログラムは、補助記憶装置3から読み出されて、メモリ2にロードされて、プロセッサ1によって実行される。
【0030】
通信インターフェース4は、所定のプロトコルに従って、他の装置(検索エンジンサーバ120、ユーザ端末130、鍵サーバ140など)との通信を制御するネットワークインターフェース装置である。
【0031】
インデックス生成サーバ110は、入力インターフェース5及び出力インターフェース8を有してもよい。入力インターフェース5は、キーボード6やマウス7などが接続され、オペレータからの入力を受けるインターフェースである。出力インターフェース8は、ディスプレイ装置9やプリンタなどが接続され、プログラムの実行結果をオペレータが視認可能な形式で出力するインターフェースである。
【0032】
プロセッサ1が実行するプログラムは、リムーバブルメディア(CD−ROM、フラッシュメモリなど)又はネットワークを介してインデックス生成サーバ110に提供され、非一時的記憶媒体である不揮発性の補助記憶装置3に格納される。このためインデックス生成サーバ110は、リムーバブルメディアからデータを読み込むインターフェースを有するとよい。
【0033】
インデックス生成サーバ110は、物理的に一つの計算機上で、又は、論理的又は物理的に構成された複数の計算機上で構成される計算機システムであり、同一の計算機上で別個のスレッドで動作してもよく、複数の物理的計算機資源上に構築された仮想計算機上で動作してもよい。
【0034】
図3は、インデックス格納部113に格納された検索インデックスのマージ処理の一例を示す説明図である。
図3は、インデックス格納部113に格納されたマージ対象の検索インデックス301及び検索インデックス302がマージされて、マージ結果である検索インデックス303が生成される例を示す。
【0035】
検索インデックス301は、例えば、キーワード辞書311とメタデータ321とを含む。キーワード辞書311は、暗号キーワードと暗号クエリからなる1以上の組み合わせからなる。以下、当該1以上の組み合わせそれぞれを暗号セットと呼ぶ。メタデータ321は、各暗号セットに紐づくメタデータを含む。暗号セットに紐づくメタデータは、例えば、当該暗号セットの暗号化される前のキーワードが含まれるドキュメント、当該ドキュメントにおける当該キーワードの出現頻度、及び当該ドキュメントにおける当該キーワードの出現場所を示す情報等を含む。
【0036】
同様に、検索インデックス302は、キーワード辞書312とメタデータ322とを含み、検索インデックス303は、キーワード辞書312とメタデータ322とを含む。例えば、自然数Xに対して、
図3における「EnckeywordX」は、キーワードである「keywordX」を暗号化した暗号キーワードであり、「EncqueryX」は、「keywordX」を暗号化した暗号クエリである。
【0037】
インデックス生成サーバ110は、同一のキーワードから生成された暗号セットを特定し、キーワード辞書311の暗号セットとメタデータ321のメタデータ、及びキーワード辞書312の暗号セットとメタデータ322とのメタデータを、キーワード辞書313及びメタデータ323に格納する。
【0038】
なお、同一のキーワードから生成された暗号セットがキーワード辞書311及びキーワード辞書312に含まれている場合、インデックス生成サーバ110は、当該暗号セット及び当該暗号セットそれぞれに紐づくメタデータを集約して検索インデックス303に格納する。
【0039】
具体的には、
図3の例では、「keyword1」から生成された「Enckeyword1」と「Encquery1」からなる暗号セットがキーワード辞書311及びキーワード辞書312に含まれている。このときインデックス生成サーバ110は、キーワード辞書311又はキーワード辞書312の「Enckeyword1」と、キーワード辞書311又はキーワード辞書312の「Encquery1」と、からなる暗号セットを、キーワード辞書313に格納する。また、インデックス生成サーバ110は、キーワード辞書311において「Enckeyword1」に紐づくメタデータである「MetaA」と、キーワード辞書312において「Enckeyword1」に紐づくメタデータである「MetaD」と、をメタデータ323に格納し、キーワード辞書313の当該暗号セットと紐づける。
【0040】
なお、前述した通り、暗号キーワードは、非決定性暗号を用いて生成されるため、例えば、キーワード辞書311内の「Enckeyword1」とキーワード辞書312の「Enckeyword1」とは互いに異なる値である。同様に、暗号クエリも非決定性暗号を用いて生成されるため、例えば、キーワード辞書311内の「Encquery1」とキーワード辞書312の「Encquery1」とは互いに異なる値である。これらの暗号セットが同じキーワードから生成されたか否かを判定する処理の詳細については後述する。
【0041】
図4は、ドキュメントの追加又は更新に伴う検索インデックス作成処理の一例を示す。ユーザ端末130は、例えばユーザからの指示に従って、検索エンジンサーバ120にログインし、ユーザの暗号鍵情報及びドキュメント追加・更新リクエストを検索エンジンサーバ120に送信する(S401)。ドキュメント追加・更新リクエストは、ドキュメント内のテキストを特定できるドキュメント情報(例えば、ドキュメントそのもの又はドキュメントのURL等)を含む。
【0042】
検索エンジンサーバ120は、ドキュメント情報と暗号鍵情報とをインデックス生成部111に送信する(S402)。インデックス生成部111は、ドキュメント情報が示すドキュメント内のテキストから、暗号化前キーワードとメタデータとを抽出する(S403)。
【0043】
具体的には、インデックス生成部111は、例えば、形態素解析又はNグラム法等のアルゴリズムを用いて、当該テキストから1以上のキーワードを抽出し、さらに抽出したキーワードそれぞれに対応するメタデータを抽出する(S403)。インデックス生成部111は、暗号鍵情報と抽出したキーワードとを検索可能暗号化部114に送信する(S404)。
【0044】
検索可能暗号化部114は、暗号鍵情報を鍵サーバ140に送信する(S405)。鍵サーバ140は、暗号鍵情報が示すユーザのデータ暗号鍵と関数値暗号鍵と関数値復号鍵と乱数用秘密鍵とを検索可能暗号化部114に送信する(S406)。なお、関数値復号鍵は、
図4の処理には使用されないため(後述する
図9の処理において使用される)、関数値復号鍵のやりとりはステップS405〜S406において、実施されなくてもよい。
【0045】
検索可能暗号化部114は、受信したデータ暗号鍵と抽出したキーワードとを用いて、抽出したキーワードそれぞれに対応する暗号キーワードを生成する(S407)。ステップS407における暗号キーワード生成処理の詳細は後述する。
【0046】
検索可能暗号化部114は、受信したデータ暗号鍵及び関数値暗号鍵と、抽出したキーワードと、を用いて、抽出したキーワードそれぞれに対応する暗号クエリを生成する(S408)。ステップS408における暗号クエリ生成処理の詳細は後述する。
【0047】
検索可能暗号化部114は、抽出したキーワードそれぞれについて、当該キーワードに対応する暗号キーワードと暗号クエリとの組み合わせである暗号セットを生成し、生成した暗号セットからなる暗号キーワード辞書をインデックス生成部111に送信する(S409)。なお、検索可能暗号化部114は、ステップS409において、暗号キーワード辞書に含まれる暗号セットそれぞれに対応するキーワードを特定する情報を併せて、インデックス生成部111に送信する。
【0048】
インデックス生成部111は、同一のキーワードから生成された、暗号キーワード辞書内の暗号セットとメタデータとを対応付けて、暗号キーワード辞書とメタデータとからなる検索インデックスを生成し、生成した検索インデックスをインデックス格納部113に格納する(S410)。インデックス生成部111は、検索エンジンサーバ120に対して、検索インデックス生成完了通知を送信する(S411)。検索エンジンサーバ120は、インデックス格納部113に格納された検索インデックスを読み込む(S412)。
【0049】
以下、暗号キーワードと暗号クエリの生成処理の一例を説明する。以下では、1つのキーワードから1つの暗号キーワードと1つの暗号クエリを生成する例を説明する。
【0050】
<暗号キーワードの生成方法>
ステップS407における暗号キーワードの生成処理の一例を
図6と
図7を用いて示す。
【0051】
暗号キーワード生成部115は、キーワードを、検索可能暗号化部114が処理可能な所定のサイズに分割する。例えば、検索可能暗号化部114が共通鍵暗号AESを実装している場合、
図5Bに示すように、暗号キーワード生成部115はキーワードをM1、M2、……Mnの128ビット毎のブロックに分割する。
【0052】
暗号キーワード生成部115は、所定の初期ベクトルとデータ暗号鍵とを用いて、分割されたキーワードそれぞれを暗号化した、中間暗号キーワードの各ブロックC1、C2、……Cnを生成する。
【0053】
暗号キーワード生成部115は、中間暗号キーワードの各ブロックの作成において、中間暗号キーワードの生成済のブロックを利用し、当該ブロックを作成する。暗号キーワード生成部115は、例えば、
図5Bに示すように中間暗号化キーワードの生成済のブロックとキーワードのブロックとの排他的論理和(xor算)を計算したデータを暗号化し、次の中間暗号キーワードを作成する。従って、ブロックMnに対応する中間暗号化キーワードのブロックCnには、ブロックMnの内容だけでなく、他のブロックM1、M2、…、Mn−1の内容も反映されている。
【0054】
暗号キーワード生成部115は、中間暗号キーワードの各ブロックに対する乱数を生成する。具体的には、例えば、暗号キーワード生成部115は、擬似乱数生成器を用いて中間暗号キーワードのn個のブロックそれぞれに対する乱数を生成する。インデックス生成サーバ110は、例えば、擬似乱数生成器を予め保持している。
【0055】
例えば、
図5Aに示すように、暗号キーワード生成部115は、初期ベクトルと定数を連結したデータを、乱数用秘密鍵K2とともに擬似乱数生成器(RNG)に入力し、128ビット毎のn個分の乱数R1、R2、……Rnを生成する。
【0056】
暗号キーワード生成部115は、所定の準同型関数にn個目の乱数Rnを入力し、出力されたデータを関数値Xとして取得する。例えば、
図7に示すように、暗号キーワード生成部115は、128ビットの乱数を当該準同型関数に入力し、96ビットの関数値を得る。
【0057】
なお、準同型関数Fとは、入力変数x、入力変数yに対し、以下の数1が成り立つ関数を指す。
(数1) F(x・y)=F(x)?F(y)
【0058】
ただし、「・」と「?」は、二項演算の演算記号を表わし、加算用の演算記号+、乗算用の演算記号*、ビット毎の排他的論理和であるXOR(eXclusive OR)演算用の演算記号xor等が入る。このとき、数1において、「・」と「?」にXOR演算記号xorが入る場合、以下の数2が成り立つ。
(数2) F(x xor y)=F(x)xor F(y)
【0059】
暗号キーワード生成部115は、関数値Xに対し所定の不可逆変換を実行し、不可逆変換実行後の値を不可逆変換値Hとして取得する。例えば、当該不可逆変換がハッシュ関数SHA256である場合、暗号キーワード生成部115は、96ビットの関数値Xを256ビットのハッシュ値(不可逆変換値)に変換する。
【0060】
例えば、
図6に示すように、暗号キーワード生成部115は、256ビットのハッシュ値のうち、最下位32ビットを抽出し、暗号キーワード用の検索タグDn+1を得る。その結果、元のデータよりもデータサイズが小さい検索用のデータが得られる。
【0061】
暗号キーワード生成部115は、不可逆変換値Hから、所定のタグ長が示すビット長を暗号キーワード用の検索タグDn+1として取得する。例えば、
図6に示すように、256ビットのハッシュ値のうち、最下位32ビットを暗号キーワード生成部115が抽出し、照合データD'n+1を得る。なお、不可逆変換値Hから、抽出するビットは最下位ビットからに限らず、最上位ビットから抽出してもよく、既定のビットを抽出、あるいはランダムに各ビットを抽出してもよい。また、選択するビット長も任意である。
【0062】
暗号キーワード生成部115は、中間暗号キーワードのn個のブロックと乱数とに対して、以下の数1に示すように、それぞれの排他的論理和(XOR算)を計算し、出力結果D1、D2、……Dnを暗号文本体(即ち、暗号化されたキーワードに相当する部分)として取得する。
(数3) Di=Ci xor Ri(i=1、・・・n)
【0063】
暗号キーワード生成部115は、初期ベクトルとD1、D2、……Dnからなる暗号文本体と、検察タグDn+1を連結し、これを暗号キーワードに決定する。
【0064】
なお、上記の秘匿データを作成する手順は、必ずしも上記に記述された通りの順序で処理する必要はなく、異なる順序で実施してもよい。
【0065】
<暗号クエリの生成方法>
ステップS407における暗号化クエリ生成処理の一例を、
図7を用いて示す。
【0066】
暗号クエリ生成部116は、キーワードを取得し、検索可能暗号化部114が処理可能な所定のサイズに分割する。暗号クエリ生成部116は、例えば、
図5Bの例におけるキーワードの分割と同様、128ビット毎にキーワードをM1、M2、……Mnに分割する。
【0067】
暗号クエリ生成部116は、所定の初期ベクトルとデータ暗号鍵とを用いて、分割されたキーワードそれぞれを暗号化することにより、n個のブロックC1、C2、……Cnからなる中間暗号クエリを生成する。
【0068】
暗号クエリ生成部116は、暗号キーワードの生成時と同様に、中間暗号クエリの作成済のブロックを利用し、次の中間暗号クエリのブロックを作成する。例えば、
図5Bに示すように、暗号クエリ生成部116は、中間暗号クエリの作成済のブロックとキーワードのブロックをxorしたデータを暗号化し、次の中間暗号クエリのブロックを作成する。
【0069】
暗号クエリ生成部116は、例えば、擬似乱数生成器に初期ベクトル(W0)と乱数用秘密鍵(K2)を入力し、n番目の中間暗号クエリのブロックCnとのxorに用いる1個分の乱数R'nを生成する。
【0070】
暗号クエリ生成部116は、準同型関数に乱数R'nを入力し、出力されたデータを関数値Xとして取得する。当該準同型関数は、例えば、暗号キーワードの生成に用いた準同型関数と同じである必要がある。暗号クエリ生成部116は、例えば、
図7に示すように、128ビットの乱数R'nを当該準同型関数に入力し、96ビットの関数値Xを得る。
【0071】
暗号クエリ生成部116は、関数値暗号鍵(K3)を用いて関数値Xを暗号化することにより得られたデータを、暗号クエリ用の検索タグWn+1として取得する。例えば、
図7に示すように、暗号クエリ生成部116は96ビットの関数値Xを関数値暗号鍵(K3)と初期ベクトル(W0)を用いて暗号化することにより、128ビットの暗号文を出力し、それを暗号クエリ用の検索タグWn+1とする。
【0072】
暗号クエリ生成部116は、中間暗号化キーワードのn個目のブロックCnと乱数R'nとの排他的論理和(XOR算)を計算し、出力結果Wnをクエリ用に暗号化された暗号文本体として取得する。
【0073】
暗号クエリ生成部116は、初期ベクトルW0、暗号文本体Wn、及び暗号クエリ用の検察タグWn+1を連結し、これを暗号クエリに決定する。なお、上記の暗号クエリを作成する手順は、必ずしも上記に記述された通りの順序で処理する必要はなく、異なる順序で実施してもよい。
【0074】
図8は、複数の検索インデックスのマージ処理の一例を示す。まず検索エンジンサーバ120は、所定のポリシーに従って、インデックス格納部113に格納された検索インデックスから、マージ対象の複数の検索インデックスを選定する(S801)。
【0075】
具体的には、検索エンジンサーバ120は、例えば、インデックス格納部113に格納された検索インデックスが所定数以上であると判定した場合、前回のマージ処理から所定時間が経過した場合、又は検索エンジンサーバ120の管理者が直接サーバにインデックスマージを指示した場合、にステップS801の処理を開始する。また、検索エンジンサーバ120は、新たな検索インデックスが生成されたと判定した場合にステップS801の処理を開始してもよい。
【0076】
また、検索エンジンサーバ120は、例えば、インデックス格納部113に格納された全ての検索インデックスをマージ対象に選定する。また、例えば、検索エンジンサーバ120は、選定した複数の検索インデックスのキーワード辞書に含まれる暗号キーワードの合計数が所定数以上となるように、複数の検索インデックスをマージ対象に選定してもよい。
【0077】
続いて、検索エンジンサーバ120は、選定したマージ対象の検索インデックスを示す情報をインデックスマージ部112に送信する(S802)。インデックスマージ部112は、受信した情報が示すマージ対象の検索インデックスをインデックス格納部113から取得し、取得した検索インデックスのキーワード辞書を検索可能暗号化部114に送信する(S803)。
【0078】
一致判定部117は、受信したキーワード辞書に含まれる暗号セットから、同じキーワードから生成された暗号セットを特定する(S804)。なお、一致判定部117は、第1暗号セットに含まれる第1暗号キーワードと、第2暗号セットに含まれる暗号クエリと、を比較することにより、第1暗号セット対応する暗号化前キーワードと第2暗号セットに対応する暗号化前キーワードとが一致するか否かを判定する。
【0079】
例えば、一致判定部117は、受信したキーワード辞書に含まれる全ての暗号セットについて、当該暗号セットが属していない他のキーワード辞書に含まれる暗号セットと当該比較処理を行うことにより、ステップS804の処理を実行する。なお、当該比較処理の詳細については後述する。
【0080】
一致判定部117は、ステップS804における判定結果をインデックスマージ部112に送信する(S805)。インデックスマージ部112は、受信した判定結果に基づいて、マージ対象の検索インデックスをマージしてマージ結果である1つの検索インデックスを生成し、生成した検索インデックスをインデックス格納部113に格納し、マージ対象の検索インデックスをインデックス格納部113から削除する(S806)。
【0081】
ステップS806のマージ処理について説明する。インデックスマージ部112は、判定結果を参照して、同じキーワードから生成された暗号セットからなる暗号セット群を特定し、各暗号セット群に対して以下の処理を行う。
【0082】
インデックスマージ部112は、1つの暗号セットからなる暗号セット群に対して、当該1つの暗号セットをマージ結果のインデックス辞書に格納し、当該1つの暗号セットに紐づくマージ対象のメタデータをマージ結果のメタデータに格納し、マージ結果において当該暗号セットと当該メタデータとを紐づける。
【0083】
図3の例では、「keyword2」から生成された「Enckeyword2」と「Encquery2」とからなる暗号セットは検索インデックス301にのみ含まれる、即ち「keyword2」から生成された暗号セットは1つであるため、当該暗号セットと当該暗号セットに紐づくメタデータである「MetaB」は、そのまま検索インデックス303に格納される。
【0084】
インデックスマージ部112は、複数の暗号セットからなる暗号セット群に対して、例えば、当該複数の暗号セットからランダムに選択した暗号キーワードと暗号クエリとからなる暗号セットを、マージ結果のキーワード辞書に格納する。また、インデックスマージ部112は、当該複数の暗号セットそれぞれに紐づくメタデータを取得し、取得したメタデータをマージ結果のメタデータに格納する。インデックスマージ部112は、マージ結果において、当該1つの暗号セットと、当該メタデータとを紐づける。
【0085】
図3の例では、検索インデックス301及び検索インデックス302それぞれが、「keyword1」から生成された暗号セットを含んでいる。従って、インデックスマージ部112は、当該暗号セットからランダムに選択した暗号キーワードと暗号クエリとからなる暗号セットを、検索インデックス303のキーワード辞書に格納する。また、インデックスマージ部112は、検索インデックス301において当該暗号セットに紐づくメタデータである「MetaA」と、検索インデックス302において当該暗号セットに紐づくメタデータである「MetaD」と、を検索インデックス303のメタデータに格納し、検索インデックス303において、当該暗号セットと当該メタデータとを紐づける。
【0086】
続いて、インデックスマージ部112は、検索エンジンサーバ120に対して、検索インデックスマージ完了通知を送信する(S807)。検索エンジンサーバ120は、インデックス格納部113に格納された検索インデックスを読み込む(S808)。
【0087】
以下、一致判定部117による、ステップS804における暗号セットの比較処理の一例を、
図9を用いて示す。具体的には、一致判定部117が、第1暗号セットに含まれる第1暗号キーワードと、第2暗号セットに含まれる第2クエリとを比較して、第1暗号セットと第2暗号セットが同一のキーワードから生成されたか否かを判定する処理の一例を示す。
【0088】
ステップS405〜S406においてインデックス生成サーバ110が関数値復号鍵を取得していない場合、一致判定部117は、第2暗号セットが含まれる検索インデックスのユーザの関数値復号鍵を、鍵サーバ140から取得する。
【0089】
一致判定部117は、第1暗号キーワードにおける暗号文本体を取得し、暗号キーワード生成部115が処理したサイズに分割されたブロックのうち、n番目のブロックを取り出す。一致判定部117は、例えば、第1暗号キーワードDをD0、D1、D2、……Dn、Dn+1と分割されたブロックの集合とみなし、データDnを取り出す。
【0090】
一致判定部117は、第2暗号クエリにおける暗号文本体を取得する。一致判定部117は、例えば、第2暗号クエリWをW0、Wn、Wn+1と3分割されたブロックの集合とみなし、2番目のデータWnを取り出す。
【0091】
一致判定部117は、第1暗号キーワードの暗号文本体に含まれるブロックDnと第2暗号クエリの暗号文本体Wnとの排他的論理和(XOR算)を、下記の数4に従って計算する。
(数4) Dn xor Wn=(Cn xor Rn)xor(Cn xor R'n)
【0092】
ここで、第1暗号キーワードの暗号化前のキーワードと、第2暗号クエリの暗号化前のキーワードの値が同じである場合、それらを暗号化した中間暗号キーワードと中間暗号クエリの値が等しいため、以下の数5が導ける。
(¬(A xor B)=A・B+¬A・¬Bより、但し¬は否定又は補集合)
(数5) Dn xor Wn = Rn xor R'n
即ち、乱数(RnとR'n)の情報のみが数5に残される。
【0093】
一致判定部117は、当該排他的論理和の計算結果を準同型関数に入力し、関数値Yを取得する。なお、例えば、当該準同型関数は、
図6の暗号キーワード生成処理及び
図7の暗号クエリの生成処理に用いられた準同型関数と同じである必要がある。
【0094】
例えば、
図9に示すように、一致判定部117は、第1暗号キーワードの暗号文本体のn番目の128ビットのブロックDnと、第2暗号クエリの128ビットの暗号文本体との排他的論理和(XOR)を、準同型関数に入力し、以下の数6に示すように、例えば96ビットの関数値Yを得る。
(数6) Y=F(Dn xor Wn)
数5が成り立つ場合、数6から以下の数7が導ける。
(数7) Y=F(Rn xor R'n)
【0095】
一致判定部117は、第2暗号クエリの検索タグを取得する。一致判定部117は、例えば、第2暗号クエリWをW0、Wn、Wn+1と3分割されたブロックの集合とみなし、3番目のデータWn+1を取り出す。
【0096】
一致判定部117は、第2暗号セットに対応するユーザの関数値復号鍵を用いて第2暗号クエリの検索タグWn+1を復号し、復号結果である関数値Xを取得する。関数値Xは、乱数Rnと数2における準同型関数Fを用い、以下の数8で表わされる。
(数8) X=F(Rn)
【0097】
一致判定部117は、関数値Xと関数値Yの排他的論理和(XOR算)を計算し、計算結果である関数値Zを取得する。関数値Zに対しては以下に示す数9が成り立つ。
(A xor (A xor B)=A・¬(A xor B)+¬A・(A xor B)=A・B+¬A・B=Bより、データ(B)に他のデータ(A)による排他的論理和の演算を2度施すと元のデータ(B)が得られる)
(数9)
Z= X xor Y
= F(Rn)xor(F(Rn xor R'n))
= F(Rn)xor(F(Rn)xor F(R'n)) (数2より)
= F(R'n)
【0098】
一致判定部117は、関数値Zに不可逆変換を実行し、実行結果である不可逆変換値Hとして取得する。なお、当該不可逆変換は、例えば、
図6の暗号キーワード生成処理に用いられた不可逆変換と同一である必要がある。例えば、
図9に示すように、当該不可逆変換がハッシュ関数SHA256である場合、96ビットの関数値Xと関数値Yの排他的論理和の値を256ビットのハッシュ値(不可逆変換値)に変換する。
【0099】
一致判定部117は、不可逆変換値Hから、
図6の暗号キーワード生成処理における所定のタグ長が示すビット長を照合データDとして取得する。一致判定部117は、例えば、
図9に示すように、256ビットのハッシュ値のうち、最下位32ビットを抽出し、照合データD'n+1を得る。なお、不可逆変換値Hから、抽出するビットは最下位ビットからに限らず、最上位ビットから抽出してもよく、既定のビットを抽出、あるいはランダムに各ビットを抽出してもよい。また、選択するビット長も任意である。
【0100】
一致判定部117は、第1暗号キーワードの検索タグを取得する。一致判定部117は、例えば、第1暗号キーワードDにおけるデータDn+1を取り出す。
【0101】
一致判定部117は、照合データDと第1暗号キーワードの検索タグとを比較、同一であれば、第1暗号セットと第2暗号セットが同一のキーワードから生成されたと判定し、同一でなければ、第1暗号セットと第2暗号セットは異なるキーワードから生成されたと判定する。
【0102】
一致判定部117は、例えば、
図9に示すように、第1暗号キーワードの検索タグDn+1と照合データD'n+1を比較し、同一であれば、第1暗号セットと第2暗号セットが同一のキーワードから生成されたと判定し、同一でなければ、第1暗号セットと第2暗号セットは異なるキーワードから生成されたと判定する。なお、一致判定部117は、例えば、特許文献1に記載の誤検索の検知をさらに実施することにより、同一のキーワードから生成されたと誤って判定されてしまった暗号セットの組み合わせを特定し、特定した組み合わせにおける一致判定の結果を変更してもよい。
【0103】
上記処理によって、一致判定部117は、第1暗号セット及び第2暗号セットに含まれる暗号キーワード及び暗号クエリを復号することなく、第1暗号セットと第2暗号セットが同一のキーワードから生成されたか否かを判定することができる。なお、上記の秘匿データを検索する手順は、必ずしも上記に記述された通りの順序で処理する必要はなく、異なる順序で実施してもよい。
【0104】
以上、本実施例の全文検索システム100は、複数の検索インデックスに含まれる暗号キーワードを復号することなく、当該複数の検索インデックスをマージすることができる。ひいては、本実施例の全文検索システム100は、セキュリティを確保しつつ、検索処理速度等の検索性能を維持することができる。
【0105】
なお、本実施例の暗号セットそれぞれは暗号キーワードと暗号クエリとを含むが、暗号クエリの代わりに、復号せずに暗号キーワードと比較して平文が一致することが判定可能な他の暗号文を含んでもよい。
【0106】
以下、本実施例のドキュメント検索処理の一例を説明する。検索エンジンサーバ120は、ユーザ端末130から、検索クエリを受信する。検索エンジンサーバ120は、検索クエリをインデックス生成サーバ110に送信する。暗号クエリ生成部116は、ステップS408の方法を用いて、検索クエリから暗号クエリを生成する。
【0107】
一致判定部117は、暗号クエリ生成部116が生成した暗号クエリと、インデックス格納部113に含まれる検索インデックスの暗号キーワードそれぞれと、の一致判定(S804)を実施する。つまり、一致判定部117は、検索エンジンサーバ120が受け付けた検索クエリと同一のキーワードから生成された暗号キーワードを特定する。
【0108】
一致判定部117は、特定した暗号キーワードを示す情報を、検索エンジンサーバ120に送信する。検索エンジンサーバ120は、読み込み済みの検索インデックスから、当該情報が示す暗号キーワードに紐づくメタデータを抽出し、抽出したメタデータ及び/又は抽出したメタデータが示すドキュメントをユーザ端末130に送信する。