特許7656234 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7656234判定方法、情報処理装置および判定プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2025-03-26

(45)【発行日】2025-04-03

(54)【発明の名称】判定方法、情報処理装置および判定プログラム

(51)【国際特許分類】

G06F 16/33 20250101AFI20250327BHJP

【ＦＩ】

G06F16/33

【請求項の数】 9

(21)【出願番号】P 2023572304

(86)(22)【出願日】2022-01-07

(86)【国際出願番号】 JP2022000314

(87)【国際公開番号】W WO2023132046

(87)【国際公開日】2023-07-13

【審査請求日】2024-04-24

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】西垣雅樹

【審査官】松尾真人

(56)【参考文献】

【文献】特開平０８－０７７１８７（ＪＰ，Ａ）

【文献】中国特許出願公開第１１２５２８１０１（ＣＮ，Ａ）

【文献】国際公開第２００７／１０５２７３（ＷＯ，Ａ１）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ１６／００－１６／９５８

Ｇ０６Ｆ１２／１４

Ｇ０６Ｆ２１／１０

Ｇ０６Ｆ２１／６０－２１／８８

(57)【特許請求の範囲】

【請求項1】

第１のデータリストに含まれる複数の第１の文字列データに含まれる各第１の文字について、第２のデータリストに含まれる複数の第２の文字列データに含まれる複数の第２の文字の中に、前記各第１の文字と同一の第２の文字が含まれるか判定し、
前記同一の第２の文字が含まれる場合、前記複数の第２の文字列データの順序および各第２の文字列データ内での第２の文字の順序に応じて前記複数の第２の文字に対応付けられる連続した異なる序数のうち、前記同一の第２の文字に対応付けられる序数を特定し、
前記複数の第１の文字列データの順序と、各第１の文字列データ内での第１の文字の順序と、前記特定された序数とに基づいて、前記複数の第１の文字列データと前記複数の第２の文字列データとの間に同一の文字列データが存在するか判定する、
処理をコンピュータが実行する判定方法。

【請求項2】

前記同一の文字列データの判定は、１つの第１の文字列データに含まれる全ての第１の文字に対して連続する序数が特定された場合、前記１つの第１の文字列データと同一の第２の文字列データが存在すると判定する処理を含む、
請求項１記載の判定方法。

【請求項3】

前記同一の文字列データの判定は、少なくとも１つの第１の文字について、前記特定された序数が対応付けられる１つの第２の文字を含む第２の文字列データ内での前記１つの第２の文字の位置を示す位置情報を特定し、前記特定された位置情報を更に用いて、前記同一の文字列データが存在するか判定する処理を含む、
請求項１記載の判定方法。

【請求項4】

前記同一の第２の文字の判定は、前記複数の第１の文字列データに含まれる複数の第１の文字を並べ替え、並べ替え後の順序で前記各第１の文字について、前記複数の第２の文字列データの中から前記同一の第２の文字を検索する処理を含む、
請求項１記載の判定方法。

【請求項5】

前記序数の特定は、前記複数の第２の文字列データの読み出しを制限し、前記各第１の文字を受け付けて前記同一の第２の文字に対応付けられる序数を出力するプロシジャを実行するデータベース管理プログラムを実行する処理を含む、
請求項１記載の判定方法。

【請求項6】

前記同一の文字列データの判定は、前記複数の第１の文字列データの読み出しを制限し、前記特定された序数を取得して前記同一の文字列データの有無を出力するプロシジャを実行するデータベース管理プログラムを実行する処理を含む、
請求項１記載の判定方法。

【請求項7】

前記複数の第１の文字列データは複数の第１のハッシュ値であり、前記複数の第２の文字列データは複数の第２のハッシュ値であり、
前記各第１の文字は前記複数の第１のハッシュ値それぞれを分割することで得られる第１の単位データであり、前記複数の第２の文字は前記複数の第２のハッシュ値それぞれを分割することで得られる第２の単位データである、
請求項１記載の判定方法。

【請求項8】

複数の第１の文字列データを含む第１のデータリストを記憶する記憶部と、
前記複数の第１の文字列データに含まれる各第１の文字について、第２のデータリストに含まれる複数の第２の文字列データに含まれる複数の第２の文字の中に、前記各第１の文字と同一の第２の文字が含まれるか判定し、前記同一の第２の文字が含まれる場合、前記複数の第２の文字列データの順序および各第２の文字列データ内での第２の文字の順序に応じて前記複数の第２の文字に対応付けられる連続した異なる序数のうち、前記同一の第２の文字に対応付けられる序数を特定し、前記複数の第１の文字列データの順序と、各第１の文字列データ内での第１の文字の順序と、前記特定された序数とに基づいて、前記複数の第１の文字列データと前記複数の第２の文字列データとの間に同一の文字列データが存在するか判定する処理部と、
を有する情報処理装置。

【請求項9】

【発明の詳細な説明】

【技術分野】

【0001】

本発明は判定方法、情報処理装置および判定プログラムに関する。

【背景技術】

【0002】

情報処理システムは、秘密情報に関する２つの文字列データを比較して、それら２つの文字列データが同一であるか否か判定することがある。秘密情報は、個人の氏名や属性などの個人情報であることがある。文字列データは、不可逆性のハッシュ関数を用いて秘密情報から算出されるハッシュ値であることがある。例えば、情報処理システムは、受け付けた文字列データと登録された文字列データとが同一であることを確認して、通信相手の真正性を検証することがある。また、例えば、情報処理システムは、異なる通信相手から受け付けた文字列データが同一である場合に警告を出力することがある。

【0003】

なお、個人情報のハッシュ値をブロックチェーンに登録し、その後、ユーザから開示された個人情報の正当性をブロックチェーンを参照して検証し、検証結果をブロックチェーンに登録する個人情報管理システムが提案されている。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１９－２１９７８０号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

情報処理システムは、秘密情報に関する複数の文字列データをそれぞれ含む２つのデータリストの中に、同一の文字列データが存在するか否か判定する場合が考えられる。しかし、文字列データは秘密情報に関するものであるため、異なるデータリストに含まれる２つの文字列データの全体を単純に比較する方法では、判定プロセスを通じて秘密情報が漏洩するリスクがある。文字列データがハッシュ値のように秘密情報から変換されたデータであったとしても、レインボーテーブル攻撃などのセキュリティ攻撃によって、文字列データから元の秘密情報が推定されるリスクがある。そこで、１つの側面では、本発明は、文字列データの一致性を判定する際のデータ開示を抑制することを目的とする。

【課題を解決するための手段】

【0006】

１つの態様では、以下の処理をコンピュータが実行する判定方法が提供される。第１のデータリストに含まれる複数の第１の文字列データに含まれる各第１の文字について、第２のデータリストに含まれる複数の第２の文字列データに含まれる複数の第２の文字の中に、各第１の文字と同一の第２の文字が含まれるか判定する。同一の第２の文字が含まれる場合、複数の第２の文字列データの順序および各第２の文字列データ内での第２の文字の順序に応じて複数の第２の文字に対応付けられる連続した異なる序数のうち、同一の第２の文字に対応付けられる序数を特定する。複数の第１の文字列データの順序と、各第１の文字列データ内での第１の文字の順序と、特定された序数とに基づいて、複数の第１の文字列データと複数の第２の文字列データとの間に同一の文字列データが存在するか判定する。また、１つの態様では、記憶部と処理部とを有する情報処理装置が提供される。また、１つの態様では、コンピュータに実行させる制御プログラムが提供される。

【発明の効果】

【0007】

１つの側面では、文字列データの一致性を判定する際のデータ開示が抑制される。
本発明の上記および他の目的、特徴および利点は本発明の例として好ましい実施の形態を表す添付の図面と関連した以下の説明により明らかになるであろう。

【図面の簡単な説明】

【0008】

【図1】第１の実施の形態の情報処理装置を説明するための図である。

【図2】第２の実施の形態の情報処理システムの例を示す図である。

【図3】サーバ装置のハードウェア例を示すブロック図である。

【図4】データカプセルの構造例を示すブロック図である。

【図5】ハッシュ値の分割の第１の例を示す図である。

【図6】序数を用いた同一性判定の第１の例を示す図である。

【図7】ハッシュ値の分割の第２の例を示す図である。

【図8】序数を用いた同一性判定の第２の例を示す図である。

【図9】プロシジャ定義の例を示す図である。

【図10】監視設定テーブルの例を示す図である。

【図11】サーバ装置の機能例を示すブロック図である。

【図12】同一性判定の手順例を示すフローチャートである。

【図13】通信不能検出の手順例を示すフローチャートである。

【図14】不正ログイン検出の手順例を示すフローチャートである。

【発明を実施するための形態】

【0009】

以下、本実施の形態を図面を参照して説明する。
［第１の実施の形態］
第１の実施の形態を説明する。

【0010】

図１は、第１の実施の形態の情報処理装置を説明するための図である。第１の実施の形態の情報処理装置１０は、２つのデータリストを比較して同一の文字列データが存在するか否か判定する。情報処理装置１０は、クライアント装置でもよいしサーバ装置でもよい。情報処理装置１０が、コンピュータまたは判定装置と呼ばれてもよい。

【0011】

情報処理装置１０は、記憶部１１および処理部１２を有する。記憶部１１は、ＲＡＭ（Random Access Memory）などの揮発性半導体メモリでもよいし、ＨＤＤ（Hard Disk Drive）やフラッシュメモリなどの不揮発性ストレージでもよい。処理部１２は、例えば、ＣＰＵ（Central Processing Unit）、ＧＰＵ（Graphics Processing Unit）、ＤＳＰ（Digital Signal Processor）などのプロセッサである。ただし、処理部１２が、ＡＳＩＣ（Application Specific Integrated Circuit）やＦＰＧＡ（Field Programmable Gate Array）などの電子回路を含んでもよい。プロセッサは、例えば、ＲＡＭなどのメモリ（記憶部１１でもよい）に記憶されたプログラムを実行する。プロセッサの集合が、マルチプロセッサまたは単に「プロセッサ」と呼ばれてもよい。

【0012】

記憶部１１は、データリスト１３を記憶する。データリスト１３は、文字列データ１３－１，１３－２などの複数の文字列データを含む。各文字列データは、特定の順序で並べられた２以上の文字を含む。文字列データ１３－１は、文字１３ａ，１３ｂを順に含む。文字１３ａは「４」、文字１３ｂは「５」である。文字列データ１３－２は、文字１３ｃ，１３ｄを順に含む。文字１３ｃは「５」、文字１３ｄは「６」である。

【0013】

文字列データ１３－１，１３－２は、不可逆性のハッシュ関数を用いて秘密情報から算出されるハッシュ値でもよい。秘密情報は個人情報でもよい。個人情報は、氏名を含んでもよく、生年月日などの個人の属性を含んでもよく、銀行口座番号や運転免許番号などの個人が所有する資産または資格の識別番号を含んでもよい。ハッシュ値は文字列で表現され得る。文字列データ１３－１，１３－２がハッシュ値である場合、文字１３ａ，１３ｂ，１３ｃ，１３ｄは、一定の長さ（例えば、１バイト）の単位データを表す。

【0014】

記憶部１１は、データリスト１３と比較されるデータリスト１４を記憶してもよい。データリスト１４は、文字列データ１４－１，１４－２などの複数の文字列データを含む。文字列データ１４－１は、文字１４ａ，１４ｂを順に含む。文字１４ａは「６」、文字１４ｂは「９」である。文字列データ１４－２は、文字１４ｃ，１４ｄを順に含む。文字１４ｃは「５」、文字１４ｄは「６」である。

【0015】

ただし、データリスト１４は、情報処理装置１０と異なる情報処理装置に記憶されてもよい。データリスト１４が記憶部１１に記憶される場合、データリスト１４は、文字列データ１４－１，１４－２の読み出しが制限されるように保護されることが好ましい。例えば、暗号化されたデータベースにデータリスト１４が格納され、文字列データ１４－１，１４－２の読み出しを制限するデータベース管理プログラムによってデータリスト１４が保護される。データリスト１４が他の情報処理装置に記憶される場合、情報処理装置１０から文字列データ１４－１，１４－２へのアクセスが制限されることが好ましい。

【0016】

処理部１２は、データリスト１３に含まれる文字１３ａ，１３ｂ，１３ｃ，１３ｄそれぞれについて、データリスト１４の中に同一文字が含まれるか判定する。処理部１２は、文字１３ａ，１３ｂ，１３ｃ，１３ｄそれぞれをデータベース管理プログラムに渡し、同一文字の有無を示す応答を取得してもよい。これにより、処理部１２は、文字列データ１４－１，１４－２自体を読み出さなくてよい。また、処理部１２は、文字１３ａ，１３ｂ，１３ｃ，１３ｄを、元の順序と異なる順序に並び替えて、同一文字の有無を判定してもよい。これにより、一連の問い合わせから文字列データが推定されるリスクが低下する。図１の例では、文字１３ａと同一の文字はデータリスト１４に含まれておらず、文字１３ｂ，１３ｃ，１３ｄと同じ文字がデータリスト１４に含まれている。

【0017】

処理部１２は、データリスト１４に同一の文字が１つ以上存在するデータリスト１３の文字について、当該１以上の同一の文字に対応付けられる１以上の序数を特定する。ここで、データリスト１４に含まれる文字１４ａ，１４ｂ，１４ｃ，１４ｄには、文字列データ１４－１，１４－２を通して連続する異なる序数が対応付けられる。序数は、文字の順序を示す自然数である。序数は、データリスト１４における複数の文字列データの順序および各文字列データ内での２以上の文字の順序に従って決定される。

【0018】

文字１４ａに対しては序数１５ａ（＃１）、文字１４ｂに対しては序数１５ｂ（＃２）、文字１４ｃに対しては序数１５ｃ（＃３）、文字１４ｄに対しては序数１５ｄ（＃４）が対応付けられる。データリスト１３の文字１３ｂは文字１４ｃと同一であるため、処理部１２は、文字１３ｂについて序数１５ｃを特定する。データリスト１３の文字１３ｃは文字１４ｃと同一であるため、処理部１２は、文字１３ｃについて序数１５ｃを特定する。データリスト１３の文字１３ｄは文字１４ａ，１４ｄと同一であるため、処理部１２は、文字１３ｄについて序数１５ａ，１５ｄを特定する。

【0019】

このとき、処理部１２は、文字１３ｂ，１３ｃ，１３ｄそれぞれをデータベース管理プログラムに渡し、同一文字の序数を示す応答を取得してもよい。これにより、処理部１２は、文字列データ１４－１，１４－２自体を読み出さなくてよい。また、処理部１２は、文字１３ｂ，１３ｃ，１３ｄを、元の順序と異なる順序に並び替えて、同一文字の序数を特定してもよい。これにより、一連の問い合わせから文字列データが推定されるリスクが低下する。なお、同一文字の有無の判定と序数の特定とは、一体的に実行されてもよい。例えば、処理部１２は、文字１３ａ，１３ｂ，１３ｃ，１３ｄそれぞれをデータベース管理プログラムに渡し、同一文字の有無および同一文字の序数を示す応答を取得する。

【0020】

処理部１２は、データリスト１３における複数の文字列データの順序および各文字列データ内での２以上の文字の順序と、特定された上記の序数とに基づいて、データリスト１３，１４の間に同一の文字列データが存在するか判定する。例えば、処理部１２は、データリスト１３の文字列データ毎に先頭文字から末尾文字に向かって序数を走査し、全ての文字について連続する序数が特定された文字列データを検出する。検出された文字列データと同じ文字列データが、データリスト１４に存在し得る。

【0021】

図１の例では、文字列データ１３－１の文字１３ａについては序数が特定されていない。このため、文字列データ１３－１と同一の文字列データはデータリスト１４に存在しない。一方、文字列データ１３－１の文字１３ｃ，１３ｄについては連続する序数＃３，＃４を示す序数１５ｃ，１５ｄが特定されている。このため、文字列データ１３－２と同一の文字列データがデータリスト１４に存在し得る。実際、データリスト１３の文字列データ１３－２とデータリスト１４の文字列データ１４－２とは同一である。

【0022】

なお、処理部１２は、特定された何れか１つの序数が示すデータリスト１４の文字について、その文字を含む文字列データにおける当該文字の位置を示す位置情報を更に取得してもよい。位置情報は、同じ文字列データの中で当該文字より前方に存在する文字の個数および後方に存在する文字の個数を示すものであってもよい。何れか１つの序数は、上記の検出された文字列データに含まれる何れか１つの文字の序数であってもよい。

【0023】

処理部１２は、位置情報がデータリスト１３と整合している場合、上記の検出された文字列データと同じ文字列データがデータリスト１４に存在すると判定してもよい。一方、処理部１２は、位置情報がデータリスト１３と整合していない場合、上記の検出された文字列データと同じ文字列データがデータリスト１４に存在しないと判定してもよい。例えば、処理部１２は、序数１５ｃが対応付けられた文字１４ｃについて、前文字が０個かつ後文字が１個であることを示す位置情報を取得する。序数１５ｃが特定されたデータリスト１３の文字１３ｃは、前文字が０個かつ後文字が１個という条件を満たす。そこで、処理部１２は、文字列データ１３－２と同一の文字列データが存在すると判定する。

【0024】

以上説明したように、第１の実施の形態の情報処理装置１０は、データリスト１３の各文字について、データリスト１４の中に同一文字が含まれるか判定し、同一文字が含まれる場合は当該同一文字に対応付けられる序数を特定する。情報処理装置１０は、データリスト１３での元の文字の並びに対応する序数の並びに基づいて、データリスト１３，１４が同一の文字列データを含むか判定する。これにより、データリスト１３の所有者とデータリスト１４の所有者との間の相互のデータ開示を抑制しつつ同一性判定が行われる。その結果、個人情報などの秘密情報が漏洩するリスクが低下する。

【0025】

なお、前述の位置情報を更に用いることで、同一性判定の精度が向上する。また、データリスト１３に含まれる文字を並べ替えて同一文字の有無および序数を問い合わせることで、元の文字列データが推定されるリスクが低下する。また、機能が制限されたデータベース管理プログラムによって保護されるデータベースにデータリスト１３を格納することで、データリスト１３の読み出しを制限しつつ同一性判定が行われる。また、機能が制限されたデータベース管理プログラムによって保護されるデータベースにデータリスト１４を格納することで、データリスト１４の読み出しを制限しつつ同一性判定が行われる。また、文字列データをハッシュ値とすることで、秘密情報の漏洩リスクが低下する。

【0026】

［第２の実施の形態］
次に、第２の実施の形態を説明する。
図２は、第２の実施の形態の情報処理システムの例を示す図である。

【0027】

第２の実施の形態の情報処理システムは、ネットワーク３０に接続されたデータ処理サーバ３１および利用者サーバ３２，３３を有する。ネットワーク３０は、ＬＡＮ（Local Area Network）を含んでもよく、インターネットを含んでもよい。利用者サーバ３２は、第１の実施の形態の情報処理装置１０に対応する。

【0028】

データ処理サーバ３１は、利用者サーバ３２，３３からの要求に応じて、後述するデータカプセルを生成するサーバコンピュータである。データ処理サーバ３１は、データセンタに配置されてもよく、いわゆるクラウドサーバでもよい。

【0029】

データ処理サーバ３１は、ある利用者サーバからデータカプセル作成要求を受信する。データカプセル作成要求では、データカプセルに格納されるデータと、データにアクセスできる利用者やアクセス方法の制限などを示す管理情報とが指定される。データ処理サーバ３１は、データカプセル作成要求に従って、データを保護された状態で受け渡すためのデータカプセルを生成して当該利用者サーバに返信する。データカプセルは、暗号化されたデータベースと、データベースへの限定されたアクセスを提供するデータベース管理プログラム（ＤＢＭＳ（Database Management System）プログラム）とを含む。

【0030】

利用者サーバ３２，３３は、データ処理サーバ３１が提供するサービスを利用する利用者のサーバコンピュータである。利用者は参加者またはメンバと呼ばれてもよく、個人でも企業でもよい。利用者サーバ３２，３３は、データセンタに配置されてもよく、いわゆるクラウドサーバでもよい。また、利用者サーバ３２，３３として、サーバコンピュータに代えてクライアントコンピュータが使用されてもよい。

【0031】

利用者サーバ３２，３３はそれぞれ、データカプセル作成要求をデータ処理サーバ３１に送信し、生成されたデータカプセルをデータ処理サーバ３１から受信する。利用者サーバ３２，３３はそれぞれ、業務上の要求に従って、データカプセルを他の利用者サーバに送信することがある。例えば、利用者サーバ３３が、データ処理サーバ３１から受信したデータカプセルを利用者サーバ３２に転送する。

【0032】

利用者サーバ３２，３３はそれぞれ、取得したデータカプセルに含まれるＤＢＭＳプログラムを起動することで、そのデータカプセルに格納された初期データに関するデータ処理を実行する。ただし、ＤＢＭＳプログラムは、データカプセルから初期データ自体が読み出されないようにデータアクセスを制限する。その代わりに、ＤＢＭＳプログラムは、初期データを一定の処理手順で加工したデータ処理結果を出力する。

【0033】

第２の実施の形態では、データカプセルは、利用者サーバ３２，３３が同一の個人情報を保持しているか否か判定するために用いられる。個人情報は、ある業務に従事する担当者の氏名を含む。例えば、利用者サーバ３２が、情報処理システムのプラットフォームを管理するシステム管理者の氏名を保持する。一方、利用者サーバ３３が、情報処理システムを利用するアプリケーションのデータを管理するデータ管理者の氏名を保持する。

【0034】

管理者によるデータの不正使用を抑止するため、システム管理者とデータ管理者とは同一人物でないことが好ましい。そこで、利用者サーバ３２，３３は、システム管理者リストとデータ管理者リストとを照合して、同一の氏名が含まれていないことを確認する。ただし、システム管理者の氏名およびデータ管理者の氏名自体は、秘密情報である。そこで、利用者サーバ３２，３３は、データカプセルを使用して、システム管理者リストおよびデータ管理者リストを秘匿化しつつ、同一性判定を実行する。

【0035】

個人情報の漏洩リスクを下げるため、データカプセルには、個人情報そのものではなく個人情報のハッシュ値が格納される。利用者サーバ３２，３３は、データ処理サーバ３１を介して、ハッシュ値を算出するためのパラメータを合意する。パラメータには、ハッシュ関数の種類、個人情報に付加するペッパーと呼ばれる文字、および、ハッシュ演算の反復回数を示すストレッチング回数が含まれる。

【0036】

利用者サーバ３２，３３は、合意されたパラメータに従って個人情報をハッシュ値に変換し、データ処理サーバ３１にハッシュ値を送信する。ただし、データ処理サーバ３１が個人情報をハッシュ値に変換してもよい。データ処理サーバ３１は、ハッシュ値をデータベースに格納し、ハッシュ値の同一性を判定するためのストアドプロシジャをＤＢＭＳプログラムに登録することで、データカプセルを生成する。

【0037】

図３は、サーバ装置のハードウェア例を示すブロック図である。
利用者サーバ３２は、バスに接続されたＣＰＵ１０１、ＲＡＭ１０２、ＨＤＤ１０３、ＧＰＵ１０４、入力インタフェース１０５、媒体リーダ１０６および通信インタフェース１０７を有する。データ処理サーバ３１や利用者サーバ３３が、利用者サーバ３２と同様のハードウェアを有してもよい。ＣＰＵ１０１は、第１の実施の形態の処理部１２に対応する。ＲＡＭ１０２またはＨＤＤ１０３は、第１の実施の形態の記憶部１１に対応する。

【0038】

ＣＰＵ１０１は、プログラムの命令を実行するプロセッサである。ＣＰＵ１０１は、ＨＤＤ１０３に記憶されたプログラムやデータの少なくとも一部をＲＡＭ１０２にロードし、プログラムを実行する。利用者サーバ３２は、複数のプロセッサを有してもよい。

【0039】

ＲＡＭ１０２は、ＣＰＵ１０１で実行されるプログラムおよびＣＰＵ１０１で演算に使用されるデータを一時的に記憶する揮発性半導体メモリである。利用者サーバ３２は、ＲＡＭ以外の種類の揮発性メモリを有してもよい。

【0040】

ＨＤＤ１０３は、ＯＳ（Operating System）、ミドルウェア、アプリケーションソフトウェアなどのソフトウェアのプログラム、および、データを記憶する不揮発性ストレージである。利用者サーバ３２は、フラッシュメモリやＳＳＤ（Solid State Drive）などの他の種類の不揮発性ストレージを有してもよい。

【0041】

ＧＰＵ１０４は、ＣＰＵ１０１と連携して画像処理を行い、利用者サーバ３２に接続された表示装置１１１に画像を出力するプロセッサである。表示装置１１１は、例えば、ＣＲＴ（Cathode Ray Tube）ディスプレイ、液晶ディスプレイ、有機ＥＬ（Electro Luminescence）ディスプレイまたはプロジェクタである。なお、利用者サーバ３２に、プリンタなどの他の種類の出力デバイスが接続されてもよい。

【0042】

入力インタフェース１０５は、利用者サーバ３２に接続された入力デバイス１１２から入力信号を受け付ける。入力デバイス１１２は、例えば、マウス、タッチパネルまたはキーボードである。利用者サーバ３２に複数の入力デバイスが接続されてもよい。

【0043】

媒体リーダ１０６は、記録媒体１１３に記録されたプログラムやデータを読み取る読み取り装置である。記録媒体１１３は、例えば、磁気ディスク、光ディスクまたは半導体メモリである。磁気ディスクには、フレキシブルディスク（ＦＤ：Flexible Disk）およびＨＤＤが含まれる。光ディスクには、ＣＤ（Compact Disc）およびＤＶＤ（Digital Versatile Disc）が含まれる。媒体リーダ１０６は、記録媒体１１３から読み取られたプログラムおよびデータを、ＲＡＭ１０２やＨＤＤ１０３などの他の記録媒体にコピーする。読み取られたプログラムは、ＣＰＵ１０１によって実行されることがある。

【0044】

記録媒体１１３は、可搬型記録媒体であってもよい。記録媒体１１３は、プログラムおよびデータの配布に用いられることがある。また、記録媒体１１３およびＨＤＤ１０３が、コンピュータ読み取り可能な記録媒体と呼ばれてもよい。

【0045】

通信インタフェース１０７は、ネットワーク３０を介してデータ処理サーバ３１や利用者サーバ３３と通信する。通信インタフェース１０７は、スイッチやルータなどの有線通信装置に接続される有線通信インタフェースでもよいし、基地局やアクセスポイントなどの無線通信装置に接続される無線通信インタフェースでもよい。

【0046】

次に、データカプセルについて説明する。
図４は、データカプセルの構造例を示すブロック図である。
データカプセル１３０は、管理情報ファイル１３１、データファイル１３２、ＤＢＭＳプログラム１３３、消去プログラム１３４およびコンテナプログラム１３５を含む。

【0047】

管理情報ファイル１３１は、データベースへのアクセスの制御に用いられる管理情報が記載されるファイルである。管理情報ファイル１３１は、データファイル１３２のファイルパスを含む。また、管理情報ファイル１３１は、利用者定義１３６、権限定義１３７、データ構造定義１３８およびプロシジャ定義１３９を含む。

【0048】

利用者定義１３６は、データベースにアクセスできる利用者を示す。利用者は、利用者ＩＤで識別されてもよく、サーバ装置のサーバ名で識別されてもよく、サーバ装置の通信アドレスで識別されてもよい。権限定義１３７は、各利用者に対して許容するデータ操作の種類を示す。例えば、ＳＱＬ文によるデータ検索、データ挿入、データ更新およびデータ削除それぞれの可否が規定される。第２の実施の形態では、データ検索、データ更新およびデータ削除が禁止されてもよい。また、登録されたストアドプロシジャのうち各利用者が実行可能なストアドプロシジャが規定される。

【0049】

データ構造定義１３８は、関係データベースのテーブル構造を示す。なお、データカプセル１３０は関係データベースを使用しているが、ツリー型データベースやネットワーク型データベースなどの非関係データベースを使用してもよい。プロシジャ定義１３９は、ストアドプロシジャを示す。ストアドプロシジャは、単一のＳＱＬ文で記述することが難しいような一連のデータ処理を記述したプログラムである。ストアドプロシジャは、ＳＱＬを拡張したプロシジャ記述言語を用いて記述される。ＳＱＬ文に代えてストアドプロシジャ呼び出し命令が受信されると、そのストアドプロシジャが実行される。

【0050】

管理情報ファイル１３１は暗号化される。暗号化の単位は、管理情報ファイル１３１全体のように疎粒度でもよいし、利用者定義１３６や権限定義１３７のように管理情報ファイル１３１の各項目を単位とする細粒度でもよい。

【0051】

データファイル１３２は、関係データベースのテーブルのレコードを含むファイルである。データファイル１３２は暗号化される。暗号化の単位は、データファイル１３２全体のように疎粒度でもよいし、テーブル単位やレコード単位のように細粒度でもよい。

【0052】

ＤＢＭＳプログラム１３３は、通常のＤＢＭＳプログラムと比べて機能が制限された制限版のＤＢＭＳプログラムである。ＤＢＭＳプログラム１３３は、管理情報ファイル１３１を変更する機能をもたない。また、ＤＢＭＳプログラム１３３は、データ検索、データ挿入、データ更新およびデータ削除のうち、データ更新やデータ削除などの一部のデータ操作を実行する機能をもたないことがある。

【0053】

ＤＢＭＳプログラム１３３は、データファイル１３２に対する制限されたアクセスを利用者に提供する。ＤＢＭＳプログラム１３３は、利用者から要求メッセージを受信し、利用者定義１３６および権限定義１３７に基づいて、要求メッセージの内容が利用者の権限の範囲内であることを確認する。そして、ＤＢＭＳプログラム１３３は、データファイル１３２に含まれる関係テーブルに対して、要求メッセージに含まれるＳＱＬ文または要求メッセージが指定するストアドプロシジャを実行する。

【0054】

データカプセル１３０の生成時、機能が制限されていない通常版のＤＢＭＳプログラムを用いて、管理情報ファイル１３１およびデータファイル１３２が生成されて暗号化される。このとき、後述する同一性判定を実現するための適切な利用者定義１３６、権限定義１３７、データ構造定義１３８およびプロシジャ定義１３９が設定される。その後、通常版のＤＢＭＳプログラムがＤＢＭＳプログラム１３３に入れ替えられる。

【0055】

消去プログラム１３４は、データ漏洩を抑止するため、コンテナプログラム１３５からの指示に応じて、管理情報ファイル１３１およびデータファイル１３２を削除するプログラムである。消去プログラム１３４は、先に管理情報ファイル１３１を削除し、その後にデータファイル１３２を削除する。管理情報ファイル１３１およびデータファイル１３２の削除は、復元不能にするため、管理情報ファイル１３１およびデータファイル１３２が記憶された記憶領域に特定のビットを上書きすることで行われる。

【0056】

コンテナプログラム１３５は、データカプセル１３０を単一ファイルにカプセル化するための代表プログラムである。データカプセル１３０を起動しようとすると、コンテナプログラム１３５が最初に実行される。コンテナプログラム１３５は、起動時に、利用者ＩＤとパスワードを用いた利用者認証を行う。コンテナプログラム１３５は、利用者ＩＤと正解のパスワードの対応を示すアカウント情報を保持してもよい。利用者認証に成功すると、コンテナプログラム１３５は、ＤＢＭＳプログラム１３３を起動する。

【0057】

また、コンテナプログラム１３５は、データカプセル１３０が不正に使用されていないことを継続的に確認するカプセル監視を開始する。コンテナプログラム１３５は、データカプセル１３０の不正使用の可能性のある事象を検出すると、データカプセル１３０を無効化することを決定し、消去プログラム１３４を起動する。

【0058】

カプセル監視として、コンテナプログラム１３５は、起動後にデータ処理サーバ３１と定期的に通信する。ただし、通信相手は、データ処理サーバ３１以外の特定のサーバ装置でもよい。通信不能が検出された場合、コンテナプログラム１３５は、データカプセル１３０の無効化を決定する。また、コンテナプログラム１３５は、現在時刻が有効期限を過ぎていないことを確認する。現在時刻が有効期限を過ぎた場合、コンテナプログラム１３５は、データカプセル１３０の無効化を決定する。

【0059】

また、コンテナプログラム１３５は、データカプセル１３０に対する利用者認証の結果を監視して不正侵入を検出する。複数回の利用者認証の結果が特定のパターンに該当する場合、コンテナプログラム１３５は、不正侵入の可能性があると判断してデータカプセル１３０の無効化を決定する。不正侵入のパターンは、例えば、時間Ｔ１以内に利用者認証の失敗回数が閾値を超え、それに続く時間Ｔ２以内に利用者認証が成功したことである。カプセル監視によって、許可されていない者にデータカプセル１３０が転送された可能性や、許可されていない者がデータカプセル１３０に不正侵入した可能性が検出される。

【0060】

次に、データカプセルを利用した個人情報の同一性判定について説明する。
図５は、ハッシュ値の分割の第１の例を示す図である。
データカプセル１５０は、利用者サーバ３２がデータ処理サーバ３１から受信したものである。データカプセル１６０は、利用者サーバ３３がデータ処理サーバ３１から受信して利用者サーバ３２に転送したものである。データカプセル１５０，１６０は、前述のデータカプセル１３０と同様の構造をもつ。以下の説明では、利用者サーバ３２が、データカプセル１５０，１６０を用いて同一性判定を行う。ただし、利用者サーバ３２が利用者サーバ３３にデータカプセル１５０を転送し、利用者サーバ３３がデータカプセル１５０，１６０を用いて同一性判定を行うことも可能である。

【0061】

データカプセル１５０は、ハッシュ値リスト１５１を含む。ハッシュ値リスト１５１は、異なる個人情報から生成された複数のハッシュ値を含む。ハッシュ値は、一定の長さの単位データ（例えば、１バイトデータ）を１文字で表現することで、文字列データとみなすことが可能である。ハッシュ値リスト１５１は、第１の実施の形態のデータリスト１３に対応する。例えば、ハッシュ値リスト１５１は、「佐藤太郎」という氏名から算出されたハッシュ値「４５０」と、「佐藤次郎」という氏名から算出されたハッシュ値「５６」とを含む。異なるハッシュ値は異なる長さをもつことがある。

【0062】

データカプセル１６０は、ハッシュ値リスト１６１を含む。ハッシュ値リスト１６１は、異なる個人情報から生成された複数のハッシュ値を含む。ハッシュ値リスト１６１は、第１の実施の形態のデータリスト１４に対応する。例えば、ハッシュ値リスト１６１は、「鈴木次郎」という氏名から算出されたハッシュ値「６９」と、「佐藤次郎」という氏名から算出されたハッシュ値「５６」とを含む。同一の氏名からは同一のハッシュ値が算出される。ハッシュ値リスト１５１，１６１は、同一のハッシュ値「５６」を含む。

【0063】

利用者サーバ３２は、データカプセル１５０のストアドプロシジャを呼び出す。データカプセル１５０は、ハッシュ値リスト１５１からバイト行列１５２を生成する。データカプセル１５０は、生成したバイト行列１５２をデータベースに格納してもよい。バイト行列１５２は、ハッシュ値リスト１５１のハッシュ値を１バイトのバイト値に分割して左詰めすることで生成される。バイト行列１５２の行はハッシュ値に対応し、バイト行列１５２の列はハッシュ値の先頭からの位置に対応する。ハッシュ値によって長さが異なるため、バイト行列１５２の空いたセルにはＮｕｌｌ値が補完される。

【0064】

データカプセル１５０は、バイト行列１５２からバイトテーブル１５３を生成する。データカプセル１５０は、生成したバイトテーブル１５３をデータベースに格納してもよい。バイトテーブル１５３は、行番号と列番号とバイト値とを対応付けたテーブルである。このとき、データカプセル１５０は、バイト値をランダムにシャッフルして、バイト行列１５２とは異なる順序にバイト値を並べ替える。

【0065】

例えば、バイト行列１５２の１行１列は「４」、１行２列は「５」、１行３列は「０」、２行１列は「５」、２行２列は「６」、２行３列は「Ｎ」（Ｎｕｌｌ値）である。これに対して、バイトテーブル１５３の１番目のバイト値は２行２列、２番目のバイト値は１行１列、３番目のバイト値は１行３列、４番目のバイト値は２行１列、５番目のバイト値は１行２列、６番目のバイト値は２行３列に対応する。なお、バイトテーブル１５３は、Ｎｕｌｌ値を含んでもよいしＮｕｌｌ値を含まなくてもよい。

【0066】

同一性判定にあたり、データカプセル１５０のストアドプロシジャは、データカプセル１６０のストアドプロシジャを呼び出す。このために、利用者サーバ３２は、データカプセル１６０のファイルパスをデータカプセル１５０に対して指定する。これにより、データカプセル１５０がデータカプセル１６０と直接通信する。

【0067】

データカプセル１６０は、ハッシュ値リスト１６１からバイト行列１６２を生成する。データカプセル１６０は、生成したバイト行列１６２をデータベースに格納してもよい。バイト行列１６２は、バイト行列１５２と同様に、ハッシュ値リスト１６１のハッシュ値を１バイトのバイト値に分割して左詰めすることで生成される。

【0068】

データカプセル１６０は、バイト行列１６２からバイトテーブル１６３を生成する。データカプセル１６０は、生成したバイトテーブル１６３をデータベースに格納してもよい。バイトテーブル１６３は、序数と行番号とバイト値とを対応付けたテーブルである。序数は、バイト行列１６２における並び順に従ってバイト値に付与される連続した自然数である。同一のハッシュ値の中では、先頭のバイト値から末尾のバイト値に向かって連続した序数が付与される。あるハッシュ値の先頭のバイト値に付与される序数は、１つ前のハッシュ値の末尾のバイト値に付与される序数より１つ大きい。

【0069】

バイトテーブル１６３のバイト値は、序数の昇順にソートされる。よって、バイトテーブル１５３と異なり、バイトテーブル１６３のバイト値はランダムにシャッフルされない。例えば、バイト行列１６２の１行１列は「６」、１行２列は「９」、２行１列は「５」、２行２列は「６」である。１行１列のバイト値の序数は１、１行２列のバイト値の序数は２、２行１列のバイト値の序数は３、２行２列のバイト値の序数は４である。

【0070】

なお、バイトテーブル１６３は、後述する序数の検索を効率化するために作成される。ただし、データカプセル１６０は、バイトテーブル１６３を生成せず、バイト行列１６２を用いて序数の検索を実行することも可能である。

【0071】

図６は、序数を用いた同一性判定の第１の例を示す図である。
データカプセル１５０は、データカプセル１６０のストアドプロシジャを呼び出すことで、バイトテーブル１５３に含まれるバイト値を上から順に１つずつデータカプセル１６０に渡す。データカプセル１６０は、バイトテーブル１６３の上から順に、受け付けたバイト値と同一のバイト値を検索し、同一のバイト値に対応する序数を回答する。データカプセル１６０は、バイトテーブル１６３の末尾まで到達した場合、すなわち、同一のバイト値が存在しない場合、負数（例えば、－１）を回答する。

【0072】

バイトテーブル１５３に含まれる１つのバイト値に対して、同一のバイト値がバイトテーブル１６３に複数個ある場合もある。そこで、データカプセル１５０は、バイトテーブル１５３の各バイト値を、負数が返信されるまで繰り返しデータカプセル１６０に入力して、同一のバイト値の序数を網羅的に取得する。

【0073】

例えば、データカプセル１５０は、２行２列のバイト値「６」をデータカプセル１６０に入力し、序数１，４を取得する。次に、データカプセル１５０は、１行１列のバイト値「４」をデータカプセル１６０に入力し、負数を取得する。次に、データカプセル１５０は、１行３列のバイト値「０」をデータカプセル１６０に入力し、負数を取得する。次に、データカプセル１５０は、２行１列のバイト値「５」をデータカプセル１６０に入力し、序数３を取得する。次に、データカプセル１５０は、１行２列のバイト値「５」をデータカプセル１６０に入力し、序数３を取得する。

【0074】

なお、データカプセル１５０は、Ｎｕｌｌ値をデータカプセル１６０に入力してもよいし入力しなくてもよい。また、データカプセル１５０は、上記のバイト値「５」のように重複するバイト値をデータカプセル１６０に複数回入力してもよいし、１回だけ入力してもよい。後者の場合、データカプセル１５０は、２行１列のバイト値「５」に対する検索結果を、１行２列のバイト値「５」に対する検索結果として再利用すればよい。

【0075】

バイト値の序数を網羅的に取得した後、データカプセル１５０は、バイトテーブル１５３のバイト値を、行番号を第１ソートキーとして使用し列番号を第２ソートキーとして使用してソートする。データカプセル１５０は、バイトテーブル１５３のバイト値を、行番号でグループ化する。これにより、バイト行列１５２におけるバイト値の並び順が再現され、同じハッシュ値に属するバイト値が元の順序で並ぶ。

【0076】

データカプセル１５０は、ハッシュ値毎に、すなわち、行番号が同じバイト値の列毎に、全てのバイト値に対して連続する序数を取得したか判定する。全てのバイト値に対して連続する序数を取得したハッシュ値は、ハッシュ値リスト１６１に同一のものが含まれている可能性がある。一方、全てのバイト値に対して連続する序数を取得していないハッシュ値は、ハッシュ値リスト１６１に同一のものが含まれていない。

【0077】

例えば、ハッシュ値「４５０」の序数の検索結果は、（無し），（３），（無し）である。よって、ハッシュ値「４５０」は、ハッシュ値リスト１６１に含まれていない。一方、ハッシュ値「５６」の序数の検索結果は、（３），（１，４）である。この検索結果は、序数３，４という連続する序数の列を含んでいる。よって、ハッシュ値「５６」はハッシュ値リスト１６１に含まれている可能性がある。

【0078】

ただし、バイト値「５」とバイト値「６」とが異なるハッシュ値に属する可能性がある、すなわち、バイト行列１６２の異なる行に跨がる可能性がある。このため、序数のみではハッシュ値「５６」がハッシュ値リスト１６１に含まれているとは断定できない。

【0079】

そこで、データカプセル１５０は、ハッシュ値リスト１６１に含まれる可能性があるハッシュ値について、そのハッシュ値に属する何れか１つのバイト値の序数をデータカプセル１６０に入力する。基準とするバイト値は、検証対象のハッシュ値の中からランダムに選択されてもよいし、検証対象のハッシュ値に含まれる先頭のバイト値または末尾のバイト値であってもよい。データカプセル１５０は、バイトテーブル１６３から、受け付けた序数に対応するバイト値と同じ行番号をもつバイト値をカウントし、受け付けた序数より前方に位置するバイト値の個数と後方に位置するバイト値の個数とを回答する。

【0080】

例えば、データカプセル１５０は、２行１列のバイト値「５」から取得した序数３をデータカプセル１６０に入力する。データカプセル１６０は、序数３のバイト値と同じ行番号をもつバイト値をバイトテーブル１６３から検索し、前方のバイト値の個数が０個であり後方のバイト値の個数が１個であると判定する。データカプセル１６０は、前方０個かつ後方１個の情報をデータカプセル１５０に回答する。

【0081】

データカプセル１５０は、データカプセル１６０からの回答とバイトテーブル１５３とが整合するか判定する。ここでは、２行１列のバイト値と行番号が同じバイト値のうち、前方のバイト値は０個であり後方のバイト値は１個である。よって、データカプセル１６０からの回答とバイトテーブル１５３とが整合する。データカプセル１６０からの回答とバイトテーブル１５３とが整合する場合、データカプセル１５０は、検証対象のハッシュ値がハッシュ値リスト１６１に含まれると判定する。一方、データカプセル１６０からの回答とバイトテーブル１５３とが整合しない場合、データカプセル１５０は、検証対象のハッシュ値がハッシュ値リスト１６１に含まれないと判定する。図６の例では、ハッシュ値「５６」がハッシュ値リスト１６１に含まれると判定される。

【0082】

図７は、ハッシュ値の分割の第２の例を示す図である。
データカプセル１５０には、図５と同様に、ハッシュ値リスト１５１が格納されている。データカプセル１５０は、ハッシュ値リスト１５１からバイト行列１５２を生成し、バイト行列１５２からバイトテーブル１５３を生成する。

【0083】

一方、データカプセル１６０には、ハッシュ値リスト１６４が格納されている。ハッシュ値リスト１６４は、「鈴木四郎」という氏名から算出されたハッシュ値「７５」と、「高橋太郎」という氏名から算出されたハッシュ値「６０」とを含む。ハッシュ値リスト１５１，１６４は、同じハッシュ値を含まない。データカプセル１６０は、ハッシュ値リスト１６４からバイト行列１６５を生成し、バイト行列１６５からバイトテーブル１６６を生成する。バイト行列１６５の１行１列は「７」、１行２列は「５」、２行１列は「６」、２行２列は「０」である。１行１列のバイト値の序数は１、１行２列のバイト値の序数は２、２行１列のバイト値の序数は３、２行２列のバイト値の序数は４である。

【0084】

図８は、序数を用いた同一性判定の第２の例を示す図である。
データカプセル１５０は、２行２列のバイト値「６」をデータカプセル１６０に入力し、序数３を取得する。次に、データカプセル１５０は、１行１列のバイト値「４」をデータカプセル１６０に入力し、負数を取得する。次に、データカプセル１５０は、１行３列のバイト値「０」をデータカプセル１６０に入力し、序数４を取得する。次に、データカプセル１５０は、２行１列のバイト値「５」をデータカプセル１６０に入力し、序数２を取得する。次に、データカプセル１５０は、１行２列のバイト値「５」をデータカプセル１６０に入力し、序数２を取得する。

【0085】

データカプセル１５０は、バイトテーブル１５３のバイト値をソートし、ハッシュ値毎に、全てのバイト値に対して連続する序数を取得したか判定する。ハッシュ値「４５０」の序数の検索結果は、（無し），（２），（４）である。よって、ハッシュ値「４５０」は、ハッシュ値リスト１６４に含まれていない。一方、ハッシュ値「５６」の序数の検索結果は、（２），（３）である。この検索結果は連続する序数の列を含むため、ハッシュ値「５６」はハッシュ値リスト１６４に含まれている可能性がある。

【0086】

そこで、データカプセル１５０は、２行１列のバイト値「５」から取得した序数２をデータカプセル１６０に入力する。データカプセル１６０は、序数２のバイト値と同じ行番号をもつバイト値をバイトテーブル１６６から検索し、前方のバイト値の個数が１個であり後方のバイト値の個数が０個であると判定する。データカプセル１６０は、前方１個かつ後方０個の情報をデータカプセル１５０に回答する。

【0087】

バイトテーブル１５３では、２行１列のバイト値と行番号が同じバイト値のうち、前方のバイト値は０個であり後方のバイト値は１個である。よって、データカプセル１６０からの回答とバイトテーブル１５３とは整合しない。そのため、データカプセル１５０は、ハッシュ値「５６」がハッシュ値リスト１６４に含まれないと判定する。

【0088】

図９は、プロシジャ定義の例を示す図である。
上記の同一性判定を実装するため、データカプセル１５０，１６０それぞれにストアドプロシジャ１４１，１４２，１４３，１４４，１４５が登録される。ただし、ストアドプロシジャ１４１はデータカプセル１５０のみに登録されてもよく、ストアドプロシジャ１４２，１４３，１４４，１４５はデータカプセル１６０のみに登録されてもよい。

【0089】

ストアドプロシジャ１４１は、同一性判定を示すプログラムであり、利用者サーバ３２から呼び出される。ストアドプロシジャ１４１は、相手データカプセルのファイルパスを入力として受け付ける。ストアドプロシジャ１４１は、相手データカプセルのストアドプロシジャ１４２，１４３，１４４，１４５を呼び出しながら、２つのデータカプセルのデータベースが同一レコードを含むか否か判定し、同一レコードの有無を出力する。

【0090】

ストアドプロシジャ１４２は、ビット数比較を示すプログラムである。ストアドプロシジャ１４３は、分割ビット数比較を示すプログラムである。図５～８で説明した手順を実行する前に、データカプセル１５０は、簡潔な前処理によって、ハッシュ値リスト１５１に含まれるハッシュ値のうちデータカプセル１６０に含まれる可能性がないハッシュ値をふるい落とす。ふるい落とされたハッシュ値は、図５～８の手順の対象から除外される。ストアドプロシジャ１４２，１４３は、この前処理に使用される。

【0091】

ストアドプロシジャ１４２は、１つのハッシュ値を表すビット列全体の中でＯＮビット（値が１であるビット）の個数を入力として受け付ける。ストアドプロシジャ１４２は、データベースに格納されたハッシュ値それぞれのＯＮビット数をカウントし、受け付けたＯＮビット数と同じＯＮビット数をもつハッシュ値がデータベースにあるか判定する。ストアドプロシジャ１４２は、ＯＮビット数が同じハッシュ値の有無を出力する。なお、ＯＮビット数のみからハッシュ値を推定することは困難である。

【0092】

ストアドプロシジャ１４３は、ＯＮビット数の列を入力として受け付ける。ＯＮビット数の列は、１つのハッシュ値を表すビット列をＮ個のブロック（Ｎは２以上の整数）に分割して、ブロック毎にＯＮビット数をカウントすることで算出される。１つのブロックのサイズは、図５～８で用いたバイト値のサイズよりも十分に大きい。ストアドプロシジャ１４３は、データベースに格納されたハッシュ値それぞれのＯＮビット数の列を算出し、受け付けたＯＮビット数の列と同じＯＮビット数の列をもつハッシュ値がデータベースにあるか判定する。ストアドプロシジャ１４３は、ＯＮビット数の列が同じハッシュ値の有無を出力する。なお、ブロックのサイズを十分に大きくすることによって、ＯＮビット数の列のみからハッシュ値を推定することは困難である。

【0093】

ストアドプロシジャ１４４は、バイト検索を示すプログラムである。ストアドプロシジャ１４４は、１つのバイト値と開始位置とを入力として受け付ける。新しいバイト値を入力する場合、開始位置は０である。前回と同じバイト値を入力する場合、開始位置は前回出力された序数である。これにより、未検索の同一バイト値が検索される。ストアドプロシジャ１４４は、データベースに格納されたハッシュ値に含まれるバイト値のうち、開始位置の１つ後から末尾に向かって、受け付けたバイト値と同一のバイト値を検索する。ストアドプロシジャ１４４は、同一バイト値が検出された場合はその序数を出力し、同一バイト値が検出されなかった場合は特定の負数（例えば、－１）を出力する。

【0094】

なお、ストアドプロシジャ１４４は、検索途中の状態を示す内部状態を保持してもよい。例えば、ストアドプロシジャ１４４は、前回出力された序数をデータベースに保存してもよい。この場合、開始位置が入力されなくてもよく、ストアドプロシジャ１４４は、前回の続きから同一バイト値の検索を再開すればよい。また、ストアドプロシジャ１４４は、全ての同一バイト値の序数を一度に出力してもよい。

【0095】

ストアドプロシジャ１４５は、前後バイト数検索を示すプログラムである。ストアドプロシジャ１４５は、基準バイト値の序数を入力として受け付ける。ストアドプロシジャ１４５は、基準バイト値と同一のハッシュ値に属するバイト値のうち、基準バイト値より前方にあるバイト値の個数と後方にあるバイト値の個数とをカウントする。ストアドプロシジャ１４５は、カウントされた前方バイト数および後方バイト数を出力する。

【0096】

図１０は、監視設定テーブルの例を示す図である。
監視設定テーブル１４６は、カプセル監視の設定を示す。監視設定テーブル１４６は、データベースに格納されてもよいしデータベースの外部に記憶されてもよい。監視設定テーブル１４６は、パラメータ名とパラメータ値とを対応付ける。パラメータは、通信不能時間、認証失敗時間、認証失敗回数、認証成功時間および有効期限を含む。

【0097】

データカプセル１３０は、起動後に定期的にデータ処理サーバ３１と通信する。起動後に「通信不能時間」を超えて通信不能状態が継続した場合、データカプセル１３０は、データカプセル１３０自身を無効化してデータベースの管理情報を削除する。

【0098】

また、データカプセル１３０は、起動毎に利用者ＩＤおよびパスワードを用いた利用者認証を要求する。データカプセル１３０は、この利用者認証の結果を監視する。データカプセル１３０は、直近の「認証失敗時間」Ｔ１の間に「認証失敗回数」だけ認証失敗が発生し、かつ、認証失敗が「認証失敗回数」に達した後の「認証成功時間」Ｔ２の間に少なくとも１回の認証成功が発生した場合、この認証成功を不正侵入とみなす。データカプセル１３０は、利用者認証結果から不正侵入を検出した場合、データカプセル１３０自身を無効化してデータベースの管理情報を削除する。

【0099】

また、データカプセル１３０は、起動時または定期的に、現在時刻が「有効期限」を過ぎているか否か判定する。現在時刻が「有効期限」を過ぎている場合、データカプセル１３０は、データカプセル１３０自身を無効化してデータベースの管理情報を削除する。

【0100】

次に、サーバ装置の機能および処理手順について説明する。
図１１は、サーバ装置の機能例を示すブロック図である。
データ処理サーバ３１は、カプセル生成部１２１およびカプセル監視部１２２を有する。カプセル生成部１２１およびカプセル監視部１２２は、例えば、データ処理サーバ３１が有するＣＰＵ、通信インタフェースおよびプログラムを用いて実装される。

【0101】

カプセル生成部１２１は、利用者サーバ３２からデータカプセル作成要求を受信し、データカプセル１５０を生成して利用者サーバ３２に送信する。また、カプセル生成部１２１は、利用者サーバ３３からデータカプセル作成要求を受信し、データカプセル１６０を生成して利用者サーバ３３に送信する。データカプセル作成要求は、データベースに格納されるハッシュ値およびＤＢＭＳプログラムに登録される管理情報を含む。ただし、カプセル生成部１２１が、個人情報からハッシュ値を算出してもよい。また、データカプセルの用途として同一性判定が利用者サーバ３２，３３から指定された場合、カプセル生成部１２１が、同一性判定を実装するための適切な管理情報を生成してもよい。

【0102】

カプセル監視部１２２は、データカプセル１５０，１６０と定期的に通信するサーバプロセスである。カプセル監視部１２２は、データカプセル１５０，１６０それぞれから乱数を受信し、受信した乱数を含む応答メッセージをデータカプセル１５０，１６０に返信する。ただし、カプセル監視部１２２がデータ処理サーバ３１の外部にあってもよい。

【0103】

利用者サーバ３２は、カプセル取得部１２３、カプセル記憶部１２４、同一性判定部１２５およびカプセル監視部１２６を有する。カプセル記憶部１２４は、例えば、ＲＡＭ１０２またはＨＤＤ１０３を用いて実装される。カプセル取得部１２３、同一性判定部１２５およびカプセル監視部１２６は、例えば、ＣＰＵ１０１、通信インタフェース１０７およびプログラムを用いて実装される。利用者サーバ３３が、利用者サーバ３２と同様のモジュールを有してもよい。

【0104】

カプセル取得部１２３は、個人情報の入力を受け付け、受け付けた個人情報をハッシュ値に変換し、ハッシュ値を含むデータカプセル作成要求をデータ処理サーバ３１に送信する。カプセル取得部１２３は、ハッシュ値が格納されたデータカプセル１５０をデータ処理サーバ３１から受信する。また、カプセル取得部１２３は、利用者サーバ３２から、比較対象のデータカプセル１６０を受信する。ただし、カプセル取得部１２３が、データカプセル１５０を利用者サーバ３３に転送してもよい。また、利用者サーバ３２がデータカプセル１５０を保持し、利用者サーバ３３がデータカプセル１６０を保持した状態のまま、データカプセル１５０，１６０が相互に通信してもよい。

【0105】

カプセル記憶部１２４は、データ処理サーバ３１から受信されたデータカプセル１５０と、利用者サーバ３３から受信されたデータカプセル１６０とを記憶する。
同一性判定部１２５は、カプセル記憶部１２４に記憶されたデータカプセル１５０，１６０のストアドプロシジャを利用して、２つのハッシュ値リストに同一のハッシュ値が含まれているか判定する。このとき、同一性判定部１２５は、データカプセル１５０，１６０からハッシュ値リストそのものを読み出さない。同一性判定部１２５は、同一性判定の結果を出力する。同一性判定部１２５は、判定結果を表示装置１１１に表示してもよいし、不揮発性ストレージに保存してもよいし、他の情報処理装置に送信してもよい。

【0106】

カプセル監視部１２６は、同一性判定部１２５がデータカプセル１５０，１６０を起動した後、データカプセル１５０，１６０に含まれるコンテナプログラムに従ってデータカプセル１５０，１６０を監視する。カプセル監視部１２６は、定期的にカプセル監視部１２２に乱数を送信し、送信した乱数を含む応答メッセージをカプセル監視部１２２から受信する。カプセル監視部１２６は、通信不能時間が閾値を超えた場合、データカプセル１５０，１６０を無効化する。また、カプセル監視部１２６は、複数回の利用者認証の結果が特定のパターンに該当した場合、データカプセル１５０，１６０を無効化する。また、カプセル監視部１２６は、有効期限を過ぎたデータカプセルを無効化する。

【0107】

図１２は、同一性判定の手順例を示すフローチャートである。
利用者サーバ３２は、データカプセル１５０，１６０を起動する。以下の処理は、データカプセル１５０，１６０に含まれるＤＢＭＳプログラムを用いて実行される。

【0108】

（Ｓ１０）データカプセル１５０は、データカプセル１５０に格納された複数のハッシュ値それぞれのＯＮビット数をカウントする。データカプセル１５０は、算出されたＯＮビット数をデータカプセル１６０に１つずつ入力する。

【0109】

（Ｓ１１）データカプセル１６０は、データカプセル１６０に格納された複数のハッシュ値の中から、入力されたＯＮビット数をもつハッシュ値を検索する。データカプセル１６０は、該当するハッシュ値の有無をデータカプセル１５０に回答する。データカプセル１５０は、データカプセル１５０に格納された複数のハッシュ値のうち、該当ハッシュ値が無いと回答されたハッシュ値を以下の処理の対象から除外する。

【0110】

（Ｓ１２）データカプセル１５０は、データカプセル１５０に格納された複数のハッシュ値それぞれを２以上のブロックに分割し、各ブロックのＯＮビット数をカウントする。データカプセル１５０は、同一のハッシュ値に属するブロックのＯＮビット数を順に並べたＯＮビット数の列を、データカプセル１６０に１つずつ入力する。

【0111】

（Ｓ１３）データカプセル１６０は、データカプセル１６０に格納された複数のハッシュ値の中から、入力されたＯＮビット数の列をもつハッシュ値を検索する。データカプセル１６０は、該当するハッシュ値の有無をデータカプセル１５０に回答する。データカプセル１５０は、データカプセル１５０に格納された複数のハッシュ値のうち、該当ハッシュ値が無いと回答されたハッシュ値を以下の処理の対象から除外する。

【0112】

（Ｓ１４）データカプセル１５０は、データカプセル１５０に格納された複数のハッシュ値をバイト単位に分割し、左詰めしてバイト行列を生成する。
（Ｓ１５）データカプセル１６０は、データカプセル１５０に格納された複数のハッシュ値をバイト単位に分割し、左詰めしてバイト行列を生成する。データカプセル１６０は、バイト行列に含まれるバイト値に連続する序数を割り当てる。なお、ステップＳ１５は、データカプセル１５０からストアドプロシジャ１４４が最初に呼び出されたときに実行されてもよい。また、ステップＳ１５は、ストアドプロシジャ１４４が最初に呼び出される前にデータカプセル１５０からの要求に応じて実行されてもよいし、データカプセル１６０が生成された時点でバイト行列が生成されてもよい。また、ステップＳ１５は、ストアドプロシジャ１４４が呼び出される毎に実行されてもよい。

【0113】

（Ｓ１６）データカプセル１５０は、バイト値をランダムに並べ替え、行番号と列番号とバイト値とを対応付けたバイトテーブルを生成する。
（Ｓ１７）データカプセル１５０は、バイトテーブルの上から優先的にバイト値を１つ選択し、選択されたバイト値をデータカプセル１６０に入力する。

【0114】

（Ｓ１８）データカプセル１６０は、序数の小さい方からバイト値を走査して、入力されたバイト値と同一のバイト値を検索する。同一のバイト値が検出された場合、データカプセル１６０は、同一のバイト値に対応する序数をデータカプセル１５０に回答する。同一のバイト値が検出されなかった場合、データカプセル１６０は負数を回答する。

【0115】

（Ｓ１９）データカプセル１５０は、データカプセル１６０から負数を受信したか判断する。負数を受信した場合はステップＳ２０に処理が進む。序数を示す正数を受信した場合はステップＳ１７に処理が戻る。この場合、データカプセル１５０は、前回のバイト値をデータカプセル１６０に再度入力する。前回の続きから同一のバイト値が検索されるように、データカプセル１５０は開始位置を指定する。

【0116】

（Ｓ２０）データカプセル１５０は、バイトテーブルに含まれる全てのバイト値をデータカプセル１６０に入力したか判断する。全てのバイト値を入力した場合はステップＳ２１に処理が進む。未入力のバイト値がある場合はステップＳ１７に処理が戻る。データカプセル１５０は、バイトテーブルから次のバイト値を選択する。

【0117】

（Ｓ２１）データカプセル１５０は、バイトテーブルに含まれるバイト値を行番号および列番号に基づいてソートして、バイト値の順序を元に戻す。
（Ｓ２２）データカプセル１５０は、バイトテーブルに含まれるバイト値を行番号でグループ化し、連続する序数が取得されたハッシュ値を検出する。

【0118】

（Ｓ２３）データカプセル１５０は、検出されたハッシュ値に対応する連続する序数の中から何れか１つの序数を選択し、データカプセル１６０に入力する。検出されたハッシュ値が複数ある場合、検出されたハッシュ値毎に１つの序数が選択されて入力される。

【0119】

（Ｓ２４）データカプセル１６０は、入力された序数に対応する基準バイト値が属するハッシュ値の中で、基準バイト値の前方にあるバイト値の個数および基準バイト値の後方にあるバイト値の個数をカウントする。データカプセル１６０は、カウントされた前方バイト数および後方バイト数をデータカプセル１５０に回答する。

【0120】

（Ｓ２５）データカプセル１５０は、データカプセル１６０から受信された前後バイト数がバイトテーブルと整合しているか判断する。整合している場合、データカプセル１５０は、検出されたハッシュ値と同じハッシュ値がデータカプセル１６０に含まれると判定する。整合していない場合、データカプセル１５０は、検出されたハッシュ値と同じハッシュ値がデータカプセル１６０に含まれないと判定する。

【0121】

データカプセル１５０は、同一性判定の結果を出力する。全てのハッシュ値について、連続する序数が取得されなかったかまたは前後バイト数が一致しなかった場合、データカプセル１５０は、データカプセル１５０，１６０が同一のハッシュ値を含まないと判定する。一方、少なくとも１つのハッシュ値について、連続する序数が取得されかつ前後バイト数が一致した場合、データカプセル１５０は、同一のハッシュ値を含むと判定する。データカプセル１５０，１６０が同一のハッシュ値を含む場合、例えば、利用者は、業務担当者の変更や、システム利用契約の断念または解除などを検討する。

【0122】

図１３は、通信不能検出の手順例を示すフローチャートである。
利用者サーバ３２は、データカプセル１５０，１６０を起動する。以下の処理は、データカプセル１５０，１６０に含まれるコンテナプログラムを用いて実行される。以下の処理は、データカプセル毎に実行されてもよい。

【0123】

（Ｓ３０）カプセル監視部１２６は、乱数を１つ選択する。カプセル監視部１２６は、選択された乱数と現在時刻を示すタイムスタンプとを対応付けて記録する。
（Ｓ３１）カプセル監視部１２６は、選択された乱数をデータ処理サーバ３１（または、カプセル監視部１２２を有する特定のサーバ装置）に送信する。

【0124】

（Ｓ３２）カプセル監視部１２６は、乱数を送信してから一定時間内に、送信した乱数を含む応答メッセージを受信したか判断する。応答メッセージに含まれる乱数が、カプセル監視部１２６が送信したものと同じであるか否かは、ステップＳ３０の記録を参照して判断される。適切な応答メッセージを受信した場合はステップＳ３３に処理が進み、適切な応答メッセージを受信しなかった場合はステップＳ３４に処理が進む。

【0125】

（Ｓ３３）カプセル監視部１２６は、最終通信時刻を更新する。ここで、受信された乱数が、カプセル監視部１２６が最後に送信したものである場合、カプセル監視部１２６は、現在時刻を最終通信時刻とする。受信された乱数が、カプセル監視部１２６が最後に送信したものでない場合、カプセル監視部１２６は、受信された乱数の次の乱数の送信時刻を最終通信時刻とする。そして、ステップＳ３０に処理が戻る。

【0126】

（Ｓ３４）カプセル監視部１２６は、最終通信時刻からの経過時間を算出する。カプセル監視部１２６は、算出された経過時間が、監視設定テーブル１４６に登録された通信不能時間の閾値を超えたか判断する。経過時間が閾値を超えた場合はステップＳ３５に処理が進み、経過時間が閾値を超えていない場合はステップＳ３０に処理が戻る。

【0127】

（Ｓ３５）カプセル監視部１２６は、コンテナプログラムと同一のデータカプセルに含まれる消去プログラムを起動する。カプセル監視部１２６は、そのデータカプセルの無効化を決定し、データベースの管理情報を削除する。

【0128】

このように、カプセル監視部１２６は、最終通信時刻からの経過時間が閾値を超えるまで、乱数を選択してデータ処理サーバ３１に送信することを繰り返す。その間、一時的な通信断絶や通信遅延によって、カプセル監視部１２６は、古い乱数を含む応答メッセージを受信する可能性がある。カプセル監視部１２６は、送信した乱数とタイムスタンプを記録しておくことで、最終通信時刻を適切に判断できる。なお、カプセル監視部１２６は、最終通信時刻より前のタイムスタンプをもつ乱数を記録から削除してよい。

【0129】

図１４は、不正ログイン検出の手順例を示すフローチャートである。
利用者サーバ３２は、データカプセル１５０，１６０を起動する。以下の処理は、データカプセル１５０，１６０に含まれるコンテナプログラムを用いて実行される。以下の処理は、データカプセル毎に実行されてもよい。

【0130】

（Ｓ４０）カプセル監視部１２６は、今回の利用者認証の結果を取得する。
（Ｓ４１）カプセル監視部１２６は、利用者認証の結果が認証失敗であるか判断する。認証失敗の場合はステップＳ４２に処理が進む。認証失敗でない場合、すなわち、認証成功である場合はステップＳ４４に処理が進む。

【0131】

（Ｓ４２）カプセル監視部１２６は、直近の時間Ｔ１以内に認証失敗回数が、監視設定テーブル１４６に登録された閾値に達したか判断する。時間Ｔ１以内に認証失敗回数が閾値に達した場合、ステップＳ４３に処理が進む。それ以外の場合、今回の利用者認証の結果に対する不正ログイン検出の処理が終了する。

【0132】

（Ｓ４３）カプセル監視部１２６は、認証失敗回数が閾値に達した時点から、時間Ｔ２を計測するタイマを開始する。そして、今回の利用者認証の結果に対する不正ログイン検出の処理が終了する。

【0133】

（Ｓ４４）カプセル監視部１２６は、現在時刻が、ステップＳ４３のタイマによって計測される時間Ｔ２の期間内であるか判断する。時間Ｔ２の期間内である場合はステップＳ４５に処理が進む。時間Ｔ２の期間内でない場合、今回の利用者認証の結果に対する不正ログイン検出の処理が終了する。

【0134】

（Ｓ４５）カプセル監視部１２６は、コンテナプログラムと同一のデータカプセルに含まれる消去プログラムを起動する。カプセル監視部１２６は、そのデータカプセルの無効化を決定し、データベースの管理情報を削除する。

【0135】

以上説明したように、第２の実施の形態の情報処理システムは、異なる利用者がもつ２つのデータリストの中に同一の個人情報が含まれるか判定する。これにより、利用者は、個人情報に基づいて業務上適切な判断を行うことができる。また、情報処理システムは、個人情報をハッシュ値に変換し、２つのハッシュ値リストの中に同一のハッシュ値が含まれるか判定する。これにより、個人情報の漏洩リスクが低下する。

【0136】

また、情報処理システムは、２つのハッシュ値リストをそれぞれ、ハッシュ値の読み出しが禁止されるデータカプセルに格納する。そして、情報処理システムは、２つのデータカプセルがもつストアドプロシジャを呼び出し、データカプセル間の通信を通じて同一性判定を実行する。これにより、ハッシュ値の漏洩リスクも低下する。よって、レインボーテーブル攻撃によってハッシュ値から個人情報が推定されるリスクが低下する。

【0137】

また、一方のデータカプセルのストアドプロシジャは、そのデータカプセルがもつハッシュ値リストに含まれるバイト値をランダムに並べ替えて、他方のデータカプセルに送信する。これにより、送信されるバイト値を監視することでハッシュ値が推定されるリスクが低下する。また、一方のデータカプセルのストアドプロシジャは、他方のデータカプセルから受信する序数の連続性に基づいて、同一のハッシュ値の有無を判定する。これにより、ハッシュ値そのものを秘匿しつつ同一性判定が行われる。また、ある序数の前後バイト数を検証することで、同一性判定の精度が向上する。

【0138】

上記については単に本発明の原理を示すものである。更に、多数の変形や変更が当業者にとって可能であり、本発明は上記に示し、説明した正確な構成および応用例に限定されるものではなく、対応する全ての変形例および均等物は、添付の請求項およびその均等物による本発明の範囲とみなされる。

【符号の説明】

【0139】

１０情報処理装置
１１記憶部
１２処理部
１３，１４データリスト
１３－１，１３－２，１４－１，１４－２文字列データ
１３ａ，１３ｂ，１３ｃ，１３ｄ，１４ａ，１４ｂ，１４ｃ，１４ｄ文字
１５ａ，１５ｂ，１５ｃ，１５ｄ序数

【図1】