特許7288194 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7288194秘密情報管理プログラム、秘密情報管理方法、および秘密情報管理システム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-05-30

(45)【発行日】2023-06-07

(54)【発明の名称】秘密情報管理プログラム、秘密情報管理方法、および秘密情報管理システム

(51)【国際特許分類】

G06F 21/62 20130101AFI20230531BHJP

G06F 21/60 20130101ALI20230531BHJP

【ＦＩ】

G06F21/62 327

G06F21/62 318

G06F21/60 320

【請求項の数】 10

(21)【出願番号】P 2019132686

(22)【出願日】2019-07-18

(65)【公開番号】P2021018517

(43)【公開日】2021-02-15

【審査請求日】2022-04-07

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】110002918

【氏名又は名称】弁理士法人扶桑国際特許事務所

(72)【発明者】

【氏名】舟久保利昭

(72)【発明者】

【氏名】前田一穂

(72)【発明者】

【氏名】森達也

(72)【発明者】

【氏名】山岡裕司

【審査官】吉田歩

(56)【参考文献】

【文献】国際公開第２０１６／１２０９７５（ＷＯ，Ａ１）

【文献】特開２０１４－１６４１４５（ＪＰ，Ａ）

【文献】特開２０１２－２４８９４０（ＪＰ，Ａ）

【文献】特開２００７－０１１９０３（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ２１／６２

Ｇ０６Ｆ２１／６０

(57)【特許請求の範囲】

【請求項1】

コンピュータに、
秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群に基づいて、前記秘匿レコードに含まれる１以上の項目の内の一の項目に設定可能な複数の項目値それぞれの、前記秘匿レコード群内での出現頻度を算出し、
第１項目値の出現頻度よりも出現頻度が少ない第２項目値が存在する場合、前記一の項目にダミーの項目値を設定した１以上のダミーレコードを含み、前記一の項目に前記第１項目値を設定した前記ダミーレコードよりも、前記一の項目に前記第２項目値を設定した前記ダミーレコードを、前記第１項目値の出現頻度と前記第２項目値の出現頻度との差分に基づく数だけ多く含む、ダミーレコード群を生成し、
前記秘匿レコードの識別子を変数とする第１関数の値を、真を示す第１フラグとして、前記秘匿レコードに設定し、
前記ダミーレコードの識別子を変数とし、同一の変数の値に対して前記第１関数とは異なる値を出力する第２関数の値を、偽を示す第２フラグとして、前記ダミーレコードに設定し、
前記秘匿レコードと前記ダミーレコードそれぞれの前記一の項目に設定された項目値、前記秘匿レコードに付与された前記第１フラグ、および前記ダミーレコードに付与された前記第２フラグを暗号化し、
前記秘匿レコード群と前記ダミーレコード群とを出力する、
処理を実行させる秘密情報管理プログラム。

【請求項2】

前記コンピュータに、さらに、
前記秘匿レコード群と前記ダミーレコード群との出力前に、前記秘匿レコード群と前記ダミーレコード群とを連結して一のレコード群を生成し、前記一のレコード群内の前記秘匿レコードと前記ダミーレコードとの順番をランダムに並べ替える、
処理を実行させる請求項１記載の秘密情報管理プログラム。

【請求項3】

前記ダミーレコード群の生成では、前記秘匿レコード群に含まれる前記秘匿レコードと同数の前記ダミーレコードを含む前記ダミーレコード群を、１または複数生成する、
請求項１または２に記載の秘密情報管理プログラム。

【請求項4】

前記第２フラグの設定では、複数生成された前記ダミーレコード群ごとに異なり、前記第１フラグとも異なる値の前記第２フラグを、前記ダミーレコード群それぞれに含まれる前記ダミーレコードに設定する、
請求項３記載の秘密情報管理プログラム。

【請求項5】

コンピュータに、
秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群に基づいて、前記秘匿レコードに含まれる１以上の項目の内の一の項目に設定可能な複数の項目値それぞれの、前記秘匿レコード群内での出現頻度を算出し、
第１項目値の出現頻度よりも出現頻度が少ない第２項目値が存在する場合、前記一の項目にダミーの項目値を設定した１以上のダミーレコードを含み、前記一の項目に前記第１項目値を設定した前記ダミーレコードよりも、前記一の項目に前記第２項目値を設定した前記ダミーレコードを、前記第１項目値の出現頻度と前記第２項目値の出現頻度との差分に基づく数だけ多く含み、ダミーの項目値を設定した１以上の前記ダミーレコードの第１項目と第２項目との間の項目値の独立性の度合いが、前記秘匿レコード群内の前記第１項目と前記第２項目との間の項目値の独立性の度合いに基づいて決定される値となるように、ダミーの項目値を設定した１以上の前記ダミーレコードの前記第１項目と前記第２項目との項目値が設定された、ダミーレコード群を生成し、
前記秘匿レコードに真を示す第１フラグを設定し、
前記ダミーレコードに偽を示す第２フラグを設定し、
前記秘匿レコードと前記ダミーレコードそれぞれの前記一の項目に設定された項目値、前記秘匿レコードに付与された前記第１フラグ、および前記ダミーレコードに付与された前記第２フラグを暗号化し、
前記秘匿レコード群と前記ダミーレコード群とを出力する、
処理を実行させる秘密情報管理プログラム。

【請求項6】

前記ダミーレコード群の生成では、前記一の項目に設定可能な項目値を、所定数の項目値を含む１以上の項目値群に所定の規則に従って分類し、前記項目値群のそれぞれについて、前記項目値群内の項目値を同一群内の異なる項目値に全単射する全単射関係を定め、前記秘匿レコードの前記一の項目に設定されている既存項目値を前記全単射関係に従い変換することで、前記ダミーレコードの前記一の項目に設定する項目値を決定する、
請求項５記載の秘密情報管理プログラム。

【請求項7】

コンピュータが、
秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群に基づいて、前記秘匿レコードの一の項目に設定可能な複数の項目値それぞれの、前記秘匿レコード群内での出現頻度を算出し、
第１項目値の出現頻度よりも出現頻度が少ない第２項目値が存在する場合、前記一の項目にダミーの項目値を設定した１以上のダミーレコードを含み、前記一の項目に前記第１項目値を設定した前記ダミーレコードよりも、前記一の項目に前記第２項目値を設定した前記ダミーレコードを、前記第１項目値の出現頻度と前記第２項目値の出現頻度との差分に基づく数だけ多く含む、ダミーレコード群を生成し、
前記秘匿レコードの識別子を変数とする第１関数の値を、真を示す第１フラグとして、前記秘匿レコードに設定し、
前記ダミーレコードの識別子を変数とし、同一の変数の値に対して前記第１関数とは異なる値を出力する第２関数の値を、偽を示す第２フラグとして、前記ダミーレコードに設定し、
前記秘匿レコードと前記ダミーレコードそれぞれの前記一の項目に設定された項目値、前記秘匿レコードに付与された前記第１フラグ、および前記ダミーレコードに付与された前記第２フラグを暗号化し、
前記秘匿レコード群と前記ダミーレコード群とを出力する、
秘密情報管理方法。

【請求項8】

データベースを有するサーバと、
秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群に基づいて、前記秘匿レコードの一の項目に設定可能な複数の項目値それぞれの、前記秘匿レコード群内での出現頻度を算出し、
第１項目値の出現頻度よりも出現頻度が少ない第２項目値が存在する場合、前記一の項目にダミーの項目値を設定した１以上のダミーレコードを含み、前記一の項目に前記第１項目値を設定した前記ダミーレコードよりも、前記一の項目に前記第２項目値を設定した前記ダミーレコードを、前記第１項目値の出現頻度と前記第２項目値の出現頻度との差分に基づく数だけ多く含む、ダミーレコード群を生成し、
前記秘匿レコードに真を示す第１フラグを設定し、
前記ダミーレコードに偽を示す第２フラグを設定し、
前記秘匿レコードと前記ダミーレコードそれぞれの前記一の項目に設定された項目値、前記秘匿レコードに付与された前記第１フラグ、および前記ダミーレコードに付与された前記第２フラグを暗号化し、
前記秘匿レコード群と前記ダミーレコード群とを前記サーバの前記データベースに格納するデータ登録装置と、
前記一の項目の項目値に関する検索条件と前記第１フラグの値を指定したフラグ条件とを含む真の検索クエリと、前記検索条件と前記第２フラグの値を指定した前記フラグ条件とを含む偽の検索クエリとの少なくとも一方を、前記検索条件に示される項目値と前記フラグ条件に示される前記第１フラグまたは前記第２フラグを暗号化して、前記サーバに送信し、前記サーバから、前記データベース内の前記検索クエリによる検索結果を取得するデータ利用装置と、
を有し、
前記データ登録装置は、前記ダミーレコード群の生成では、前記一の項目に設定可能な項目値を、所定数の項目値を含む１以上の項目値群に所定の規則に従って分類し、前記項目値群のそれぞれについて、前記項目値群内の項目値を同一群内の異なる項目値に全単射する全単射関係を定め、前記秘匿レコードの前記一の項目に設定されている既存項目値を前記全単射関係に従い変換することで、前記ダミーレコードの前記一の項目に設定する項目値を決定し、
前記データ利用装置は、前記第２フラグを指定した偽の前記検索クエリを前記サーバに送信する場合、前記検索条件に示される項目値を、前記全単射関係に従い置換し、置換により得られた項目値を含む前記検索クエリを送信する、
秘密情報管理システム。

【請求項9】

前記データ利用装置は、偽の前記検索クエリを前記サーバに送信した場合、偽の前記検索クエリに適合する適合レコードに含まれる前記一の項目の項目値を復号し、復号された既復号項目値を、前記全単射関係の逆写像関係に従い置換する、
請求項８記載の秘密情報管理システム。

【請求項10】

前記データ利用装置は、前記秘匿レコード群および１または複数生成された前記ダミーレコード群のうちの１つを確率的に選択し、前記秘匿レコード群を選択した場合、前記第１フラグを指定した真の前記検索クエリを前記サーバに送信し、１または複数生成された前記ダミーレコード群のうちの１つを選択した場合、前記第２フラグを指定した偽の前記検索クエリを前記サーバに送信する、
請求項８または９に記載の秘密情報管理システム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、秘密情報管理プログラム、秘密情報管理方法、および秘密情報管理システムに関する。

【背景技術】

【0002】

コンピュータシステムでは、ビッグデータと呼ばれる大量のデータを扱うことができる。例えばコンピュータでビッグデータを解析すれば、様々な知見を得ることが可能である。解析に用いるビッグデータの量が多いほど、そのビッグデータから多様な知識を得ることができ、得られた知識の信頼性も向上する。そこで企業などの組織ごとにビッグデータ用の独自のデータベース（ＤＢ）を構築するのではなく、複数の組織のデータを統合したＤＢを、複数の組織で利用することが考えられる。このような統合したＤＢサービスは、例えばクラウドコンピューティングシステム（以下、「クラウド」と呼ぶ）を用いて実現できる。

【0003】

複数の組織のデータを統合したＤＢをクラウドで管理する場合において、データ提供元の組織は、提供したデータの利用を、データ提供元の組織が許可した他の組織のみに制限したい場合がある。またデータ提供元の組織およびデータを利用する組織は、提供されるデータの内容やＤＢ内のデータへの検索内容を、クラウドの管理者にも知られたくない場合もある。これらの場合、ビッグデータを管理するクラウドは、例えば各組織から暗号化されたデータの提供を受け、暗号データをＤＢに格納する。そしてクラウドは、暗号データのままデータの同一性を判定できる照合技術を用いて、データ提供元の組織から渡された鍵で暗号化された検索要求に応じて、ＤＢ内のデータ検索を行う。これにより、データ提供元の組織は、鍵を渡した組織に対してのみ、提供したデータの利用を許可することができる。またクラウドでは、提供されたデータと検索要求とが暗号化されたままであるため、クラウドの管理者にデータの内容を知られることも抑止できる。

【0004】

ＤＢ内のデータの暗号化方式には、主に確率的暗号化と確定的暗号化の２種類がある。確率的暗号化は、ある平文に対応する暗号文が複数存在し、暗号化時には、複数の暗号文のうちの一つを確率的に選択する暗号化技術である。確定的暗号化は、ある平文に対応する暗号文が１つに決まる暗号化技術である。

【0005】

ＤＢ内のデータの秘匿化に関連する技術としては、例えば強秘匿性を有する暗号化されたデータに対し、データの復号化を必要とせずに、有意義なデータベース操作を実行する方法が提案されている。また、ネットワークを介した情報取得から生じる可能性のある緩やかな情報漏洩を防止する、情報処理装置も提案されている。

【先行技術文献】

【特許文献】

【0006】

【文献】特表２００１－５０７８３７号公報

【文献】国際公開第２０１１／０１３４９０号

【発明の概要】

【発明が解決しようとする課題】

【0007】

確定的暗号化は、インデックスなどを用いるＤＢ検索技術が使用可能であり、検索性能が高い。その反面、確定的暗号化で暗号化されたデータの安全性は十分とはいえない。すなわち、確率的暗号化では、同じ平文でも異なる暗号文が生成されるため、頻度分析攻撃に対する安全性が高いのに対して、確定的暗号化では、同じ平文が同じ暗号文となるため、頻度分析攻撃が可能であり、確率的暗号化に比べて安全性が落ちる。

【0008】

１つの側面では、本件は、暗号化されたデータの頻度分析攻撃に対する安全性を向上させることを目的とする。

【課題を解決するための手段】

【0009】

１つの案では、コンピュータに以下の処理を実行させる秘密情報管理プログラムが提供される。
コンピュータは、秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群に基づいて、秘匿レコードに含まれる１以上の項目の内の一の項目に設定可能な複数の項目値それぞれの、秘匿レコード群内での出現頻度を算出する。次にコンピュータは、第１項目値の出現頻度よりも出現頻度が少ない第２項目値が存在する場合、一の項目にダミーの項目値を設定した１以上のダミーレコードを含み、一の項目に第１項目値を設定したダミーレコードよりも、一の項目に第２項目値を設定したダミーレコードを、第１項目値の出現頻度と第２項目値の出現頻度との差分に基づく数だけ多く含む、ダミーレコード群を生成する。次にコンピュータは、秘匿レコードに真を示す第１フラグを設定する。次にコンピュータは、ダミーレコードに偽を示す第２フラグを設定する。次にコンピュータは、秘匿レコードとダミーレコードそれぞれの一の項目に設定された項目値、秘匿レコードに付与された第１フラグ、およびダミーレコードに付与された第２フラグを暗号化する。そしてコンピュータは、秘匿レコード群とダミーレコード群とを出力する。

【発明の効果】

【0010】

１態様によれば、暗号化されたデータの頻度分析攻撃に対する安全性を向上させることができる。

【図面の簡単な説明】

【0011】

【図1】第１の実施の形態に係る秘密情報管理システムの一例を示す図である。

【図2】秘密情報管理システムの一例を示す図である。

【図3】データ管理サーバのハードウェアの一構成例を示す図である。

【図4】秘密情報管理システムの機能を示すブロック図である。

【図5】平文の患者データのＤＢの一例を示す図である。

【図6】ダミーデータを用いた出現頻度の攪乱処理の一例を示す図である。

【図7】ダミーレコードに設定する項目値の第１の決定例を示す図である。

【図8】ダミーレコードに設定する項目値の第２の決定例を示す図である。

【図9】一般化した頻度分布と集合ごとの出現頻度平準化に用いるダミー値の頻度イメージを示す図である。

【図10】ｋ＝３の場合の最小のダミーレコード数の判断基準の一例を示す図である。

【図11】レコード追加の第１の例を示す図である。

【図12】レコード追加の第２の例を示す図である。

【図13】フラグを付与した登録データの一例を示す図である。

【図14】データ登録処理の手順の一例を示すフローチャートである。

【図15】ダミーデータ生成処理の手順の一例を示すフローチャートである。

【図16】検索処理の手順の第１の例を示すフローチャートである。

【図17】項目間の独立性の解析例を示す図である。

【図18】関数を用いてフラグ値を算出する例を示す図である。

【図19】第３の実施の形態におけるデータ登録処理の一例を示すフローチャートである。

【図20】検索処理の手順の第２の例を示すフローチャートである。

【図21】複数の項目を結合した登録データの一例を示す図である。

【図22】第４の実施の形態におけるダミー値の追加例を示す図である。

【図23】第４の実施の形態におけるデータ登録処理の一例を示すフローチャートである。

【図24】真のデータのレコードの削除が困難な例を示す図である。

【図25】変換集合の生成例を示す図である。

【図26】項目値の変換例を示す図である。

【図27】ダミー値の生成例を示す図である。

【図28】第５の実施の形態における登録データの一例を示す図である。

【図29】第５の実施の形態における頻度攪乱後の頻度分布の一例を示す図である。

【図30】ダミー要素を追加した変換集合の一例を示す図である。

【図31】変換集合を用いて頻度攪乱を行った際の各群の頻度の関係を示す図である。

【図32】変換集合を用いた頻度攪乱前後の頻度の第１の例を示す図である。

【図33】変換集合を用いた頻度攪乱前後の頻度の第２の例を示す図である。

【図34】一般化した変換集合一覧を示す図である。

【図35】第５の実施の形態におけるデータ登録処理の手順の一例を示すフローチャートである。

【図36】第５の実施の形態におけるダミーデータ生成処理の手順の一例を示すフローチャートである。

【図37】第５の実施の形態における検索処理の手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0012】

以下、本実施の形態について図面を参照して説明する。なお各実施の形態は、矛盾のない範囲で複数の実施の形態を組み合わせて実施することができる。
〔第１の実施の形態〕
まず、第１の実施の形態について説明する。

【0013】

図１は、第１の実施の形態に係る秘密情報管理システムの一例を示す図である。図１には、秘密情報管理システムを用いた秘密情報管理方法の実現例を示している。秘密情報管理システムは、データ登録装置１、サーバ２、およびデータ利用装置３を有している。データ登録装置１、サーバ２、およびデータ利用装置３それぞれは、例えば秘密情報管理方法を実現するための各装置における処理手順が記述されたプログラムを実行することにより、秘密情報管理方法における各装置の処理を実施することができる。

【0014】

データ登録装置１は、秘密情報管理方法を実現するために、記憶部１ａと処理部１ｂとを有する。記憶部１ａは、例えばデータ登録装置１が有するメモリ、またはストレージ装置である。処理部１ｂは、例えばデータ登録装置１が有するプロセッサ、または演算回路である。図示していないが、サーバ２とデータ利用装置３も、記憶部と処理部とを有する。例えばサーバ２の記憶部は、データベース（ＤＢ）２ａを記憶する。

【0015】

データ登録装置１の記憶部１ａは、秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群４を記憶する。
データ登録装置１の処理部１ｂは、秘匿レコード群４に基づいて、秘匿レコードに含まれる１以上の項目の内の一の項目に設定可能な複数の項目値それぞれの、秘匿レコード群４内での出現頻度を算出する（ステップＳ１）。このとき第１項目値よりも出現頻度が少ない第２項目値が存在する場合がある。この場合、処理部１ｂは、一の項目にダミーの項目値を設定した１以上のダミーレコードを含むダミーレコード群５を生成する（ステップＳ２）。生成されるダミーレコード群５は、一の項目に第１項目値を設定したダミーレコードよりも、一の項目に第２項目値を設定したダミーレコードを、第１項目値の出現頻度と第２項目値の出現頻度との差分に基づく数だけ多く含む。例えば処理部１ｂは、秘匿レコード群４の一の項目に設定可能な複数の項目値のうち、出現頻度が同じ項目値が他に存在しない項目値を第１項目値とし、第１項目値より出現頻度が少ない項目値を第２項目値とする。

【0016】

例えば処理部１ｂは、秘匿レコード群４に含まれる秘匿レコードと同数のダミーレコードを含むダミーレコード群５を生成する。なお処理部１ｂは、秘匿レコード群４に含まれる秘匿レコードと同数のダミーレコードを含むダミーレコード群５を、複数生成してもよい。

【0017】

また処理部１ｂは、一の項目に項目値が未設定のダミーレコードを所定数生成し、生成したダミーレコードを順番に選択し、選択したダミーレコードに、秘匿レコードとダミーレコードを合わせたレコード群において出現頻度が最も少ない項目値を設定してもよい。

【0018】

ダミーレコード群５の生成後、処理部１ｂは、秘匿レコードに真を示す第１フラグを設定すると共に、ダミーレコードに偽を示す第２フラグを設定する（ステップＳ３）。ダミーレコード群５が複数生成された場合、処理部１ｂは、例えば、複数生成されたダミーレコード群５ごとに異なり、第１フラグとも異なる値の第２フラグを、ダミーレコード群５それぞれに含まれるダミーレコードに設定する。

【0019】

次に処理部１ｂは、秘匿レコードとダミーレコードそれぞれの一の項目に設定された項目値、秘匿レコードに付与された第１フラグ、およびダミーレコードに付与された第２フラグを暗号化する（ステップＳ４）。適用する暗号化方式は、例えば確定的暗号化方式である。そして処理部１ｂは、秘匿レコード群４とダミーレコード群５とを含む登録データ６を出力する。例えば処理部１ｂは、登録データ６をサーバに送信する（ステップＳ５）。送信された登録データ６は、サーバ２によってＤＢ２ａに登録される。なお、処理部１ｂは、秘匿レコード群４とダミーレコード群５との送信前に、秘匿レコード群４とダミーレコード群５とを連結して一のレコード群を生成し、一のレコード群内の秘匿レコードとダミーレコードとの順番をランダムに並べ替えてもよい。

【0020】

データ利用装置３は、一の項目の項目値に関する検索条件と第１フラグの値を指定したフラグ条件とを含む真の検索クエリ７と、検索条件と第２フラグの値を指定したフラグ条件とを含む偽の検索クエリ１０との少なくとも一方を、サーバ２に送信する。その際、データ利用装置３は、検索条件に示される項目値とフラグ条件に示される第１フラグまたは第２フラグを暗号化する。このときの暗号化方式は、データ登録装置１が登録データ６の暗号化に用いた暗号化方式である。またデータ登録装置１が暗号鍵を用いて登録データ６を暗号化した場合、データ利用装置３も同じ暗号鍵を用いて暗号化を行う。そしてデータ利用装置３は、サーバ２から、ＤＢ２ａ内の検索クエリ７，１０による検索結果８，１１として取得する。

【0021】

なお、データ利用装置３は、一の項目の項目値に関する検索条件に指定された項目値と異なる項目値を指定した偽の検索条件を、偽の検索クエリ１０に指定してもよい。
データ利用装置３は、一の項目の項目値に関する検索条件と、第１フラグの値を指定したフラグ条件とを含む真の検索クエリ７と、一の項目の項目値に関する検索条件と、第２フラグの値を指定したフラグ条件とを含む偽の検索クエリ１０との両方を送信してもよい。データ利用装置３は、検索クエリ７と検索クエリ１０との両方を送信する場合、どちらを先に送信するのかを、例えば乱数を用いて無作為（ランダム）に決定する。

【0022】

例えばデータ利用装置３は、第１フラグの値を指定した真の検索クエリ７をサーバ２に送信する（ステップＳ７）。サーバ２は、検索クエリ７に適合するレコードを、ＤＢ２ａから検索する（ステップＳ８）。検索クエリ７には、真を示す第１フラグの値が指定されているため、適合するレコードは、すべて秘匿レコードである。この場合、データ利用装置３は、検索結果８をサーバ２から取得すると、表示画面９に検索結果を表示する（ステップＳ９）。

【0023】

またデータ利用装置３は、第２フラグの値を指定した偽の検索クエリ１０をサーバ２に送信する（ステップＳ１０）。サーバ２は、検索クエリ１０に適合するレコードを、ＤＢ２ａから検索する（ステップＳ１１）。検索クエリ１０には、偽を示す第２フラグの値が指定されているため、適合するレコードは、すべてダミーレコードである。この場合、データ利用装置３は、検索結果１１をサーバ２から取得すると、その検索結果１１を破棄する（ステップＳ１２）。

【0024】

例えばデータ利用装置３の利用者が、血液型が「Ｂ型」の人の性別の人数を知りたい場合、利用者は、データ利用装置３に血液型「Ｂ型」という検索条件を入力する。データ利用装置３は、真の検索クエリ７を送信する場合、血液型「Ｂ」でありかつフラグ「０」であるレコードを検索する検索クエリ７を生成する。図１の例では、検索クエリ７に対して１つの性別が「男」の１件のレコードのみが適合し、検索結果８においてそのレコードが示される。データ利用装置３は、Ｂ型の人は、男が１名、女が０名であることを表示する。

【0025】

またデータ利用装置３は、偽の検索クエリ１０を送信する場合、血液型「Ｂ」でありかつフラグ「１」であるレコードを検索する検索クエリ１０を生成する。偽の検索クエリの条件は、真の検索クエリで指定された血液型「Ｂ」以外の値を無作為に選択して設定してもよい。図１の例では、検索クエリ１０に対して１つの性別「女」の１件のレコードのみが適合し、検索結果１１においてそのレコードが示される。偽の検索クエリ１０に対する検索結果１１に示されるレコードはダミーレコードであるため、データ利用装置３は、検索結果１１を破棄する。

【0026】

このようにサーバ２のＤＢ２ａへのデータの登録、およびそのデータの検索を行うことで、登録するデータを確定的暗号化方式で暗号化した場合の頻度分析攻撃に対する安全性が向上する。すなわち、ダミーレコード群５は、第２項目値よりも出現頻度が高い第１項目値を設定したダミーレコードよりも、第２項目値を設定したダミーレコードを、第１項目値の出現頻度と第２項目値の出現頻度との差分に基づく数だけ多く含んでいる。これにより、登録データ６では、第１項目値と第２項目値との出現頻度が同程度となり、第１項目値または第２項目値の出現頻度が他のいずれの項目値の出現頻度とも大きく異なる（単独頻度となる）ことが抑止される。

【0027】

例えば秘匿レコード群４の項目「性別」には、項目値として「男」または「女」が設定可能であるものとする。図１に示す秘匿レコード群４では、項目「性別」に項目値「男」が設定されたレコードが４件存在し、項目「性別」に項目値「女」が設定されたレコードは存在しない。そこで処理部１ｂは、ダミーレコード群５には、項目「性別」の項目値が「女」のレコードを４件含め、項目「性別」の項目値が「男」のレコードを０件としている。これにより、登録データ６では、項目「性別」の項目値が「男」のレコードが４件、項目「性別」の項目値が「女」のレコードが４件となっている。すなわち、項目値「男」と項目値「女」の出現頻度は同等であり、ＤＢ２ａにおいては単独頻度の項目値はない。同様に、項目「血液型」についても、登録データ６では、すべての項目値について出現するレコード数が「２」となり、ＤＢ２ａにおいては単独頻度の項目値はない。

【0028】

これは、秘匿レコード群４における項目値の出現頻度の頻度攪乱が適切に行われたことを意味する。頻度攪乱が適切に行われたことで、ＤＢ２ａに格納された登録データ６は、頻度分析攻撃に対する安全性が向上している。

【0029】

またデータ利用装置３が、真の検索クエリ７と偽の検索クエリ１０との両方をサーバ２に送信することで、第１フラグと第２フラグのどちらが設定されたデータが秘匿化データであるかを、第三者から秘匿することができる。また、真の検索クエリと偽の検索クエリの検索条件を変えることで、どちらのクエリの検索条件が真であるかを第三者から秘匿することができる。例えばデータ利用装置３が真の検索クエリ７を用いた検索要求のみを行うと、サーバ２から応答される検索結果８に含まれるレコードが、秘匿レコードであることが第三者に知られてしまう。それに対して、データ利用装置３が真の検索クエリ７を用いた検索要求に加えて、データ利用装置３が偽の検索クエリ１０を用いた検索要求を順不同で行えば、検索結果８，１１のうちのどちらが秘匿レコードであるのかが、第三者には不明となる。

【0030】

なおデータ利用装置３は、真の検索クエリ７と偽の検索クエリ１０とを纏めた１つの検索クエリを生成し、その検索クエリをサーバ２に送信することもできる。この場合、フラグ条件において、第１フラグと第２フラグとの何れでも適合するように指定される。データ利用装置３がこのような検索クエリをサーバ２に送信した場合、例えばサーバ２からは、真の検索クエリ７と偽の検索クエリ１０とのいずれかに適合するレコードが検索結果として応答される。データ利用装置３は、検索結果内のレコードに付与されたフラグが第１フラグか第２フラグかを判断する。そしてデータ利用装置３は、第１フラグが付与されたレコードを真の検索結果として取得し、第２フラグが付与されたレコードを破棄する。

【0031】

データ登録装置１の処理部１ｂは、ダミーレコード群を生成する場合、一の項目に設定可能な項目値を複数の集合に分類し、集合ごとに項目値の出現頻度が同程度になるように、ダミーレコードに設定する項目値を決定してもよい。例えば処理部１ｂは、集合内で出現頻度が最大の項目値を第１項目値とし、集合内の第１項目値以外の項目値それぞれを第２項目値として、一の項目に第１項目値または第２項目値を設定したダミーレコードを生成する。これにより、すべての項目値の出現頻度を同程度にする場合に比べて、ダミーレコード数を削減することができる。ダミーレコード数が削減できれば、ＤＢ２ａの資源の消費量を減らすことができると共に、データ登録や検索の処理効率も向上する。

【0032】

処理部１ｂは、一の項目に設定可能な項目値を複数の集合に分類する場合、例えば秘匿レコード群における出現頻度が多い方からｋ個（ｋは２以上の整数）ずつの集合を生成する。そして処理部１ｂは、複数の項目値の数をｋで除算したときに剰余がある場合、出現頻度が低い方からｋと剰余の合計値分の個数の項目値を同一の集合に含める。１つの集合に含める項目値の数ｋを適切に定めることで、データの安全性を損なわずにダミーレコード数を削減することができる。

【0033】

秘匿レコード群４に複数の項目が含まれる場合、異なる項目の項目値間の独立性に基づいて、第三者が、ＤＢ２ａに格納されたレコードを秘匿レコード群４とダミーレコード群５とに分け、どちらが秘匿レコード群４であるか特定できる可能性がある。独立性を用いた攻撃手法の詳細は、第３の実施の形態において説明する（図１７参照）。このような場合、処理部１ｂは、例えば秘匿レコードの識別子を変数とする第１関数の値を、第１フラグとして秘匿レコードに設定し、ダミーレコードの識別子を変数とし、同一の変数の値に対して第１関数とは異なる値を出力する第２関数の値を、第２フラグとしてダミーレコードに設定する。これにより、フラグ値に基づいて、複数のレコードを秘匿レコード群４とダミーレコード群５とに分類することができず、独立性を用いた攻撃が困難となる。その結果、データの機密性が向上する。

【0034】

また独立性を用いた攻撃を抑止するため、処理部１ｂは、秘匿レコード群４内の複数の項目を、複数の項目それぞれの項目値を含む１つの項目に統合し、統合した項目を一の項目として、暗号化などの処理を行ってもよい。項目が１つとなることで、複数の項目の項目値の独立性を比較することができなくなり、独立性を用いた攻撃が困難となる。

【0035】

さらに処理部１ｂは、ダミーレコード群５の生成時に、秘匿レコード群４内の第１項目と第２項目との間の項目値の独立性に、ダミーレコード群５内の第１項目と第２項目の間の項目値の独立性を合わせてもよい。例えば処理部１ｂは、ダミーレコード群５内の各項目間の項目値の独立性の度合いが、秘匿レコード群４内の各項目間の項目値の独立性の度合いに基づいて決定される値となるように、ダミーレコード群５内の各項目の項目値を決定する。独立性を一致させることで、独立性を用いた攻撃を抑止できる。

【0036】

独立性を一致させる場合、例えば処理部１ｂは、一の項目に設定可能な項目値を、所定数の項目値を含む１以上の項目値群に所定の規則に従って分類する。そして処理部１ｂは、項目値群内のそれぞれについて、項目値群内の項目値を同一郡内の異なる項目値に全単射する全単射関係を定める。そして処理部１ｂは、秘匿レコードの一の項目に設定されている既存項目値を全単射関係に従い変換することで、ダミーレコードの一の項目に設定する項目値を生成する。このような手順でダミーレコード群５を生成することで、秘匿レコード群４内の第１項目と第２項目との間の項目値の独立性に、ダミーレコード群５内の第１項目と第２項目の間の項目値の独立性が一致する。

【0037】

項目値の変換によりダミーレコード群５が生成された場合、データ利用装置３は、偽の検索クエリ１０に対する検索結果１１から、真の検索クエリ７に応じた検索結果８を生成することが可能である。例えばデータ利用装置３は、第２フラグを指定した偽の検索クエリ１０をサーバ２に送信する場合、検索条件に示される項目値を、全単射関係に従い変換し、変換により得られた項目値を含む検索クエリ１０を送信する。そしてデータ利用装置３は、偽の検索クエリ１０をサーバ２に送信した場合、検索結果１１を破棄せずに、偽の検索クエリ１０に適合する適合レコードに含まれる一の項目の項目値を復号し、復号された既復号項目値を、全単射関係の逆写像関係に従い変換する。

【0038】

このようにして、偽の検索クエリ１０に応じた検索結果１１から、真の検索クエリ７に応じた検索結果８を生成できる。そのためデータ利用装置３は、真の検索クエリ７と偽の検索クエリ１０とのいずれか一方を送信すれば、検索条件に適合する秘匿レコードを取得できる。その結果、データ検索のための通信負荷が軽減される。

【0039】

なおデータ利用装置３は、例えば秘匿レコード群４および１または複数生成されたダミーレコード群５のうちの１つを確率的に選択し、秘匿レコード群４を選択した場合、第１フラグを指定した真の検索クエリ７をサーバ２に送信する。他方、データ利用装置３は、１または複数生成されたダミーレコード群５のうちの１つを選択した場合、第２フラグを指定した偽の検索クエリ１０をサーバ２に送信する。これにより、真の検索クエリ７を送信するのか偽の検索クエリ１０を送信するのかが、無作為に決定される。その結果、第三者が検索クエリや検索結果を盗み見た場合であっても、検索結果８または検索結果１１が秘匿レコードであるのかダミーレコードであるのかの判別が困難となる。

【0040】

〔第２の実施の形態〕
次に第２の実施の形態について説明する。第２の実施の形態は、多数の医療機関が有する患者データを、患者データ収集活用基盤を用いて有効活用するものである。例えば患者データ収集活用基盤により、複数の病院のデータを統合してビッグデータ化し、ビッグデータを複数の製薬企業で活用できるようにする。これにより、製薬企業や病院は、新薬開発のための調査（対象疾患の患者数や所在地域など）等を容易に把握できるようになる。

【0041】

患者データ収集活用基盤は、ＩＣＴ（Information and Communications Technology）企業が管理するクラウドを用いて実現するのが効率的である。クラウドを用いることで、病院や製薬企業からのビッグデータへのアクセスが容易となる。しかしながら、患者データは要配慮個人情報であり、法的に参照が許される手続きを経たとしても、漏洩や目的外利用のリスクを考慮し、クラウドの管理者に対しても秘匿しておくのが適切である。また製薬企業による検索の内容は製薬企業の戦略に関する重要な企業秘密に結びつくため、検索内容についても秘匿しておくことが望ましい。そこで、患者データ収集活用基盤を実現するクラウドは、例えば暗号化したまま検索可能な暗号化方式を用いて、暗号化された患者データをＤＢで管理すると共に、暗号化された検索キーを用いて、暗号文のままでデータ検索を行う。これにより、クラウドの管理者に対しても、患者データと検索クエリの内容を秘匿しておくことができる。

【0042】

ここで、複数の組織（例えば病院）のデータを同じ仕組みで使用する場合、ＤＢのフォーマットや格納する属性名と値は、共通の仕様として公開される。しかもシステム開発も担うクラウドの管理者は、秘匿化のアルゴリズムを熟知している。すると、クラウドの管理者の中に悪意を有する者が存在した場合、患者データを暗号文のまま管理するだけでは不十分な場合があり得る。

【0043】

ここで、絞り込み検索などを用いて効率よく検索を行うために、データは行列形式で格納することを想定する。この場合、例えば項目「性別」のラベルが振られた列では平文候補が「男」または「女」の２種類しかなく、秘匿化ＤＢ内には同じ平文に基づく暗号文が多数存在することとなる。そして、攻撃者となりうるクラウドの管理者はこれらの暗号文を比較参照できる。

【0044】

さらに、大きな病院では広報の一環として疾患別患者数などの情報を公開している。同様にあらゆる情報について、このような頻度情報が公開される可能性はあるため、すべてのデータの頻度分布は公知となる場合がある。また、医療情報は日々新たな情報が追加され、利活用者は最新の情報を求める。よって、秘匿化ＤＢは逐次最新の平文ＤＢとの差分が反映できることが重要である。

【0045】

以上により、第２の実施の形態では、以下の条件（ｉ）～（ｖ）下でも秘匿化ＤＢの内容や検索内容が、秘匿化ＤＢを管理するクラウド管理者を含む攻撃者に対し秘匿できることを、セキュリティ要件とする。
（ｉ）平文の種類や値は公知であり、極めて種類が少ない場合もあり得る。
（ｉｉ）攻撃者は、秘匿化ＤＢ内に存在するすべての暗号文と暗号化された検索クエリおよびこれに合致した秘匿化ＤＢ内の暗号文をすべて参照可能である。
（ｉｉｉ）意図的に秘密情報として管理する情報（秘密鍵）以外の、暗号化や照合のアルゴリズムは公知である。
（ｉｖ）すべてのデータの頻度分布は公知である。
（ｖ）秘匿化ＤＢは逐次更新され、攻撃者は差分情報を参照可能である。

【0046】

条件（ｉ）～（ｖ）を満たす秘匿化ＤＢがあるとき、容易に想定される攻撃手法としては総当たり攻撃が考えられる。平文の種類が少なく公知なため、暗号化鍵が公知である場合、攻撃者は全種類の平文を暗号化して平文と暗号文の辞書を作成することで、秘匿化ＤＢ内のデータや検索クエリを容易に解読できてしまう。よって、セキュリティ要件を満たすには、暗号化鍵は秘密鍵とすることとなる。

【0047】

また、秘匿化ＤＢの管理者でもある攻撃者は照合判定の結果を参照できる。そのため、ある検索クエリに対し一致判定された暗号文はすべて同じ平文に対応することが解ってしまう。よって、同じ平文でも暗号化するたびに異なる暗号文となる確率的暗号を用いても、攻撃者は同じ平文が同じ暗号文となる確定的暗号のような暗号文に変換できてしまう。そして、攻撃者はデータの頻度分布を知っているため、暗号文の頻度と比較することで容易に秘匿データの内容を推定できてしまう。頻度分布を正確に知らない場合でも、例えば産婦人科の性別データを参照すると、多い方の暗号文の平文は「女」であると容易に特定できる。よって、暗号化だけでなく頻度攪乱などの対策を採ることが重要となる。

【0048】

そこで第２の実施の形態では、条件（ｉ）～（ｖ）下でも秘匿化ＤＢの内容や検索内容を、攻撃者に対し秘匿できる秘密情報管理システムを提供する。第２の実施の形態に係る秘密情報管理システムでは、ダミーデータを追加することで頻度攪乱を実現する。この際、秘密情報管理システムは、データの増加率は一定に保ち、不要なストレージや検索処理の増加を防止する。そして秘密情報管理システムは、真の値１つに対し、少なくともｋ－１個（ｋは、２以上の整数）のダミー値を追加することで、ある暗号文がｋ個の平文のうちのどれかであるということまでしか絞り込めないようにする。すなわち秘密情報管理システムは、頻度が同程度の暗号文が少なくともｋ個となるようにする。さらに秘密情報管理システムは、可能な範囲で頻度分布を一様に近付ける。

【0049】

図２は、秘密情報管理システムの一例を示す図である。第２の実施の形態では、患者データ収集活用基盤１２がクラウドによって構築されている。患者データ収集活用基盤１２はデータ管理サーバ１００を有している。データ管理サーバ１００は、患者データを暗号文のままで管理するコンピュータである。データ管理サーバ１００は、ネットワーク２０を介して、病院１３，１４のデータ登録サーバ２００，３００と製薬企業１５，１６の端末装置４００，５００に接続されている。

【0050】

病院１３のデータ登録サーバ２００は、病院１３で受診した患者の電子カルテなどの患者データを蓄積し、その患者データを暗号化してデータ管理サーバ１００に提供するコンピュータである。同様に、病院１４のデータ登録サーバ３００は、病院１４で受診した患者の電子カルテなどの患者データを蓄積し、その患者データを暗号化してデータ管理サーバ１００に提供する。

【0051】

製薬企業１５の端末装置４００は、データ管理サーバ１００で管理されている患者データを検索するために、製薬企業１５の社員が使用するコンピュータである。製薬企業１６の端末装置５００は、データ管理サーバ１００で管理されている患者データを検索するために、製薬企業１６の社員が使用するコンピュータである。

【0052】

このような秘密情報管理システムは、例えば医療情報を活用した新薬開発の効率化に有用である。例えば、製薬企業１５，１６が、治験を行う場合、対象疾患の患者がどの程度存在するか等を考慮して計画を立案することで、治験の成功率を向上させることが出来る。そこで、患者データ収集活用基盤１２で多数の病院１３，１４に分散する患者の電子カルテから抽出した患者データを集中管理することで、目的の疾患を有する患者の情報を容易に得ることが可能となる。

【0053】

図３は、データ管理サーバのハードウェアの一構成例を示す図である。データ管理サーバ１００は、プロセッサ１０１によって装置全体が制御されている。プロセッサ１０１には、バス１０９を介してメモリ１０２と複数の周辺機器が接続されている。プロセッサ１０１は、マルチプロセッサであってもよい。プロセッサ１０１は、例えばＣＰＵ（Central Processing Unit）、ＭＰＵ（Micro Processing Unit）、またはＤＳＰ（Digital Signal Processor）である。プロセッサ１０１がプログラムを実行することで実現する機能の少なくとも一部を、ＡＳＩＣ（Application Specific Integrated Circuit）、ＰＬＤ（Programmable Logic Device）などの電子回路で実現してもよい。

【0054】

メモリ１０２は、データ管理サーバ１００の主記憶装置として使用される。メモリ１０２には、プロセッサ１０１に実行させるＯＳ（Operating System）のプログラムやアプリケーションプログラムの少なくとも一部が一時的に格納される。また、メモリ１０２には、プロセッサ１０１による処理に利用する各種データが格納される。メモリ１０２としては、例えばＲＡＭ（Random Access Memory）などの揮発性の半導体記憶装置が使用される。

【0055】

バス１０９に接続されている周辺機器としては、ストレージ装置１０３、グラフィック処理装置１０４、入力インタフェース１０５、光学ドライブ装置１０６、機器接続インタフェース１０７およびネットワークインタフェース１０８がある。

【0056】

ストレージ装置１０３は、内蔵した記録媒体に対して、電気的または磁気的にデータの書き込みおよび読み出しを行う。ストレージ装置１０３は、コンピュータの補助記憶装置として使用される。ストレージ装置１０３には、ＯＳのプログラム、アプリケーションプログラム、および各種データが格納される。なお、ストレージ装置１０３としては、例えばＨＤＤ（Hard Disk Drive）やＳＳＤ（Solid State Drive）を使用することができる。

【0057】

グラフィック処理装置１０４には、モニタ２１が接続されている。グラフィック処理装置１０４は、プロセッサ１０１からの命令に従って、画像をモニタ２１の画面に表示させる。モニタ２１としては、有機ＥＬ（Electro Luminescence）を用いた表示装置や液晶表示装置などがある。

【0058】

入力インタフェース１０５には、キーボード２２とマウス２３とが接続されている。入力インタフェース１０５は、キーボード２２やマウス２３から送られてくる信号をプロセッサ１０１に送信する。なお、マウス２３は、ポインティングデバイスの一例であり、他のポインティングデバイスを使用することもできる。他のポインティングデバイスとしては、タッチパネル、タブレット、タッチパッド、トラックボールなどがある。

【0059】

光学ドライブ装置１０６は、レーザ光などを利用して、光ディスク２４に記録されたデータの読み取りを行う。光ディスク２４は、光の反射によって読み取り可能なようにデータが記録された可搬型の記録媒体である。光ディスク２４には、ＤＶＤ（Digital Versatile Disc）、ＤＶＤ－ＲＡＭ、ＣＤ－ＲＯＭ（Compact Disc Read Only Memory）、ＣＤ－Ｒ（Recordable）／ＲＷ（ReWritable）などがある。

【0060】

機器接続インタフェース１０７は、データ管理サーバ１００に周辺機器を接続するための通信インタフェースである。例えば機器接続インタフェース１０７には、メモリ装置２５やメモリリーダライタ２６を接続することができる。メモリ装置２５は、機器接続インタフェース１０７との通信機能を搭載した記録媒体である。メモリリーダライタ２６は、メモリカード２７へのデータの書き込み、またはメモリカード２７からのデータの読み出しを行う装置である。メモリカード２７は、カード型の記録媒体である。

【0061】

ネットワークインタフェース１０８は、ネットワーク２０に接続されている。ネットワークインタフェース１０８は、ネットワーク２０を介して、他のコンピュータまたは通信機器との間でデータの送受信を行う。

【0062】

データ管理サーバ１００は、以上のようなハードウェア構成によって、第２の実施の形態の処理機能を実現することができる。なおデータ登録サーバ２００，３００および端末装置４００，５００も、データ管理サーバ１００と同様のハードウェアにより実現することができる。さらに図１に示したデータ登録装置１、サーバ２、およびデータ利用装置３も、データ管理サーバ１００と同様のハードウェアにより実現することができる。

【0063】

データ管理サーバ１００は、例えばコンピュータ読み取り可能な記録媒体に記録されたプログラムを実行することにより、第２の実施の形態の処理機能を実現する。データ管理サーバ１００に実行させる処理内容を記述したプログラムは、様々な記録媒体に記録しておくことができる。例えば、データ管理サーバ１００に実行させるプログラムをストレージ装置１０３に格納しておくことができる。プロセッサ１０１は、ストレージ装置１０３内のプログラムの少なくとも一部をメモリ１０２にロードし、プログラムを実行する。またデータ管理サーバ１００に実行させるプログラムを、光ディスク２４、メモリ装置２５、メモリカード２７などの可搬型記録媒体に記録しておくこともできる。可搬型記録媒体に格納されたプログラムは、例えばプロセッサ１０１からの制御により、ストレージ装置１０３にインストールされた後、実行可能となる。またプロセッサ１０１が、可搬型記録媒体から直接プログラムを読み出して実行することもできる。

【0064】

次に、秘密情報管理システムの各装置の機能について説明する。
図４は、秘密情報管理システムの機能を示すブロック図である。データ管理サーバ１００は、秘匿化ＤＢ１１０、データ登録部１２０、鍵提供依頼部１３０、および検索部１４０を有する。

【0065】

秘匿化ＤＢ１１０は、データ登録サーバ２００，３００から収集した、暗号文の患者データを、暗号文のまま管理するＤＢである。
データ登録部１２０は、データ登録サーバ２００，３００からのデータ登録要求に応じて、暗号文の患者データを秘匿化ＤＢ１１０に登録する。

【0066】

鍵提供依頼部１３０は、端末装置４００，５００からの鍵取得要求を受信すると、端末装置４００，５００への鍵提供依頼を、データ登録サーバ２００，３００に送信する。
検索部１４０は、端末装置４００，５００からの暗号化された検索キーを含むデータ検索要求に応じて、秘匿化ＤＢ１１０に登録された患者データを検索する。この際、検索部１４０は、患者データと検索キーとを暗号文のまま照合し、検索キーに合致する患者データに示される患者ＩＤ（Identification）を、秘匿化ＤＢ１１０から抽出する。そして検索部１４０は、抽出した患者ＩＤを、検索要求の送信元の端末装置４００，５００に送信する。

【0067】

データ登録サーバ２００は、ＤＢ２１０、鍵記憶部２２０、鍵生成部２３０、データ登録要求部２４０、および鍵提供部２５０を有する。
ＤＢ２１０は、患者データを平文で格納するＤＢである。

【0068】

鍵記憶部２２０は、データ管理サーバ１００に登録する患者データの暗号化に使用する暗号鍵を記憶する。暗号鍵は、データ管理サーバ１００からアクセスできないように管理される。

【0069】

鍵生成部２３０は、暗号鍵を生成する。鍵生成部２３０は、生成した暗号鍵を鍵記憶部２２０に格納する。
データ登録要求部２４０は、データ管理サーバ１００への登録対象の患者データの暗号文を含むデータ登録要求を、データ管理サーバ１００に送信する。例えばデータ登録要求部２４０は、まず登録対象の患者データをＤＢ２１０から取得し、秘匿化ＤＢ１１０のフォーマットに合わせて、患者データを加工する。この際、データ登録要求部２４０は、送信するデータ登録要求にダミーデータを含める。さらにデータ登録要求部２４０は、暗号鍵を用いて、秘匿化ＤＢ１１０に登録する項目値ごとに、患者データに含まれる値を暗号化する。そしてデータ登録要求部２４０は、項目値ごとに暗号化された、暗号文の患者データを含むデータ登録要求を、データ管理サーバ１００に送信する。

【0070】

鍵提供部２５０は、データ管理サーバ１００からの鍵提供依頼に応じて、登録した患者データの利用を許可する製薬企業の端末装置へ、暗号鍵を送信する。なお鍵提供部２５０は、暗号鍵を、データ管理サーバ１００を経由せずに端末装置に送信する。データ管理サーバ１００を経由せずに暗号鍵を送信することで、暗号鍵がデータ管理サーバ１００から隔離される。その結果、データ管理サーバ１００の管理者による、秘匿化ＤＢ１１０内のデータの復号が抑止される。

【0071】

以上、データ登録サーバ２００が有する機能を説明したが、データ登録サーバ３００もデータ登録サーバ２００と同様の機能を有する。
端末装置４００は、鍵記憶部４１０、鍵取得部４２０、および検索要求部４３０を有する。

【0072】

鍵記憶部４１０は、検索要求に含める検索キーの暗号化に使用する暗号鍵を記憶する。暗号鍵は、データ管理サーバ１００からアクセスできないように管理される。
鍵取得部４２０は、データ登録サーバ２００，３００で提供される暗号鍵を取得する。例えば鍵取得部４２０は、データ管理サーバ１００に、鍵取得要求を送信する。するとデータ管理サーバ１００の鍵提供依頼部１３０により、データ登録サーバ２００，３００に鍵提供依頼が送信される。鍵提供依頼に応じて、例えばデータ登録サーバ２００の鍵提供部２５０が、暗号鍵を端末装置４００に送信する。そして鍵取得部４２０は、端末装置４００から送信された暗号鍵を取得する。鍵取得部４２０は、取得した暗号鍵を、鍵記憶部４１０に格納する。

【0073】

検索要求部４３０は、患者データの利用者が入力した検索キーを取得する。次に検索要求部４３０は、取得した検索キーを、暗号鍵を用いて暗号化し、暗号文の検索キーを含む検索要求をデータ管理サーバ１００に送信する。検索要求部４３０は、データ管理サーバ１００から検索結果を受信すると、検索結果の内容（例えば検索キーに合致した患者データの患者ＩＤ）を表示する。なお検索要求部４３０は、ダミーデータを検索対象とする検索要求を送信することもできる。

【0074】

以上、端末装置４００が有する機能を説明したが、端末装置５００も端末装置４００と同様の機能を有する。
図４に示した機能により、データ管理サーバ１００の管理者に対しても患者データと検索クエリの内容を秘匿したまま、データ管理サーバ１００において患者データを管理すると共に、製薬企業１５，１６による患者データの利用を可能とすることができる。なお、図４に示した各要素の機能は、例えば、その要素に対応するプログラムモジュールをコンピュータに実行させることで実現することができる。

【0075】

次に、データ登録サーバ２００，３００が有する平文の患者データのＤＢ２１０について説明する。
図５は、平文の患者データのＤＢの一例を示す図である。ＤＢ２１０には、例えば患者ごとのレコードが、レコードの識別子（ＩＤ）に対応付けて登録されている。各レコードには、項目名で示されたフィールドに、その項目名に対応する項目値が設定されている。図５の例では、項目名として「血液型」がある。項目名「血液型」のフィールドには、患者の血液型が設定される。データ登録サーバ２００のＤＢ２１０に登録されている各レコード内の値は、例えば平文の文字コードである。

【0076】

データ登録要求部２４０は、患者のレコードをデータ管理サーバ１００に登録する場合、そのレコードに設定された値（平文）を、確定的暗号化技術により暗号化する。そして暗号化されたレコードが、データ管理サーバ１００の秘匿化ＤＢ１１０に登録される。なお、第２の実施の形態の技術を適用せずに、確定的暗号化により暗号化したデータを秘匿化ＤＢ１１０に登録すると、頻度分析攻撃に対して脆弱となる。

【0077】

頻度分析攻撃は、平文と暗号文に使用される文字や文字列の出現頻度を手掛りとして秘匿データを推定し、盗み見る攻撃手法である。元の平文の項目値に偏りがある場合に、その平文を暗号化した暗号文は、頻度分析攻撃に対して脆弱となる。例えば日本人の血液型の統計情報に基づいて、日本人の患者に関する血液型の項目値は、「Ｏ」よりも「Ａ」の方が多いことが予想できる。この場合、項目値を確定的暗号化により暗号化すると、「Ｏ」の文字の暗号文よりも、「Ａ」の文字の暗号文の方が、出現頻度が高くなる。このように確定的暗号化では、平文での項目値の出現頻度の偏りが、暗号文にも引き継がれる。そのため攻撃者は、暗号文の出現頻度を解析することで、その暗号文に対応する平文を予測することが可能となる。

【0078】

そこで頻度分析攻撃に対する安全性を高めるために、ダミーデータを用いて、元の平文の出現頻度を攪乱させることが考えられる。このとき、元の平文での項目値の種類や、各項目値の出現頻度を考慮せずにダミーデータ内の各項目の項目値（ダミー値）を追加しても、出現頻度を適切に攪乱させることはできない。

【0079】

第２の実施の形態に係る秘密情報管理システムでは、元の平文のデータにおける項目値の出現頻度を考慮して、適切な内容のダミー値を有するダミーデータを登録することで、確実な頻度攪乱を実現する。

【0080】

図６は、ダミーデータを用いた出現頻度の攪乱処理の一例を示す図である。データ登録サーバ２００は、データ３３の使用を許可する製薬企業（例えば製薬企業１５）の端末装置４００へ、鍵生成部２３０が生成した暗号鍵３１を送信する（ステップＳ１１）。例えば端末装置４００の鍵取得部４２０がデータ管理サーバ１００に鍵取得要求を送信する。データ管理サーバ１００では、鍵提供依頼部１３０が、データ登録サーバ２００に暗号鍵３１の提供を依頼する。データ登録サーバ２００の鍵提供部２５０は、暗号鍵３１の提供依頼を受信すると、管理者による暗号鍵３１の提供の許可を示す入力を受け付ける。鍵提供部２５０は、暗号鍵３１の提供を許可する旨の入力が行われると、暗号鍵３１を鍵記憶部２２０から取得し、取得した暗号鍵３１と同じ暗号鍵３２を、データ管理サーバ１００を経由させずに端末装置４００に送信する。端末装置４００では、鍵取得部４２０が受信した暗号鍵３２を鍵記憶部４１０に格納する。これにより、データ登録サーバ２００と端末装置４００とで、暗号鍵の共有化が図られる。

【0081】

その後、データ登録サーバ２００は、ＤＢ２１０内のデータ３３に対して、ダミーデータ３４を追加する（ステップＳ１２）。例えばデータ登録要求部２４０は、ＤＢ２１０内のデータ３３に含まれるレコードの数と同数のレコード（ダミーレコード）を、ダミーデータ３４として追加する。この際、データ登録要求部２４０は、追加したダミーレコードの項目値として、真のデータ３３に設定されている項目値を用い、各項目値の出現頻度の偏りを減少させる。さらにデータ登録要求部２４０は、各レコードに、真のデータ３３のレコードなのかダミーレコードなのかを区別するためのフラグ３５を付与する。例えば、真のデータ３３のレコードには値が「０」のフラグが付与され、ダミーレコードには値が「１」のフラグが付与される。

【0082】

データ登録要求部２４０は、データ３３とダミーデータ３４との各レコード内の項目値（フラグを含む）を、暗号鍵３１を用いて項目値ごとに暗号化して、登録データ３６を生成する（ステップＳ１３）。そしてデータ登録要求部２４０は、登録データ３６を含むデータ登録要求を、データ管理サーバ１００に送信する（ステップＳ１４）。データ管理サーバ１００では、データ登録部１２０が、登録データ３６を受信し、受信した登録データ３６を秘匿化ＤＢ１１０に格納する。

【0083】

製薬企業１５の担当者がデータ３３を利用する場合、担当者は、端末装置４００に検索キーワードを入力する。すると端末装置４００の検索要求部４３０は、ダミーの検索クエリ３８を生成する（ステップＳ１５）。この際、検索要求部４３０は、入力された検索キーワードに基づく真の検索クエリ３７と、ダミーの検索クエリ３８とのそれぞれに、真の検索クエリ３７なのかダミーの検索クエリ３８なのかを示すフラグを付与する。例えば、真の検索クエリ３７には値が「０」のフラグが付与され、ダミーの検索クエリ３８には値が「１」のフラグが付与される。検索要求部４３０は、２つの検索クエリ３７，３８を、それぞれ暗号鍵３２を用いて暗号化する（ステップＳ１６）。そして検索要求部４３０は、暗号化した２つの検索クエリ３７，３８を含む検索要求をデータ管理サーバ１００に送信する（ステップＳ１７）。

【0084】

データ管理サーバ１００では、検索部１４０が、データを秘匿化したままで、登録データ３６と検索クエリ３７，３８とを照合する（ステップＳ１８）。そして検索部１４０は、照合によって合致したデータを、検索結果３９として端末装置４００に送信する（ステップＳ１９）。検索結果には、真のデータ３３のレコードとダミーデータ３４のダミーレコードとが含まれる。

【0085】

端末装置４００では検索要求部４３０が検索結果３９を受信し、例えばフラグに基づいて、ダミーレコードを破棄する（ステップＳ２０）。そして検索要求部４３０は、検索結果３９内の真のデータ３３のレコードのみを含む真の結果４０を、モニタなどに表示する。

【0086】

このようにダミーデータ３４を追加することで、各項目の項目値の頻度攪乱が可能となる。例えばデータ登録要求部２４０は、真のデータの項目値の頻度分布と、逆の頻度分布となるダミーデータを生成する。逆の頻度分布とは、真のデータの出現頻度とダミーデータの出現頻度との合計が、各項目値で同程度となるような頻度分布である。

【0087】

またデータ登録要求部２４０は、真のデータとダミーデータとを区別できるように、各レコードにフラグを付与する。例えば真のデータのレコードには「０」のフラグ、ダミーレコードなら「１」のフラグが設定される。設定されたフラグも暗号化されるため、暗号鍵なしでは復号できない。ただし真のデータのレコード数とダミーレコード数とが異なると、ダミーレコード数を決定するアルゴリズムを知っている攻撃者はフラグの暗号化後の値の頻度の偏りから、どのレコードが真のデータなのか判別できる場合がある。そこでデータ登録要求部２４０は、例えば真のデータのレコード数と同数または整数倍のダミーレコードを生成する。

【0088】

＜第２の実施の形態におけるダミー値決定方法＞
真のデータのレコード数と同数または整数倍のダミーレコードを含むダミーデータを生成する場合、すべての項目値の出現頻度を同数にすることができない場合もあり得る。その場合、データ登録要求部２４０は、出現頻度が、他の項目値のいずれからも大きく異なるような項目値（単独頻度の項目値）がなくなるように、ダミーレコードに設定する項目値（ダミー値）を決定する。

【0089】

例えばデータ登録要求部２４０は、真のデータに設定可能な項目値を出現頻度の多い順にソートする。次にデータ登録要求部２４０は、出現頻度の多い項目値から順にｋ個ずつの集合を生成する。ただしデータ登録要求部２４０は、最後に残された項目値の数がｋ個に満たない場合は、残された項目値を１つ前の集合に含める。そして、データ登録要求部２４０は、各集合に含まれる項目値の出現頻度が等しくなるように、項目値ごとに、ダミー値を設定するダミーレコード数を決定する。

【0090】

さらにデータ登録要求部２４０は、全体の頻度分布を平準化するように、真のデータに含まれる数と、ダミーレコードにダミー値として設定する数との合計が少ない項目値から順に、残りのダミー値を割り当てる。ただしデータ登録要求部２４０は、合計が等しい項目値にダミー値を割り当てる場合は、割り当てる項目値を確率的に選択する。

【0091】

図７は、ダミーレコードに設定する項目値の第１の決定例を示す図である。図７には、項目「血液型」の項目値に関する頻度分布表５１～５４を示している。
頻度分布表５１には、ＤＢ２１０に存在するレコード（真のデータ）に設定されている項目値の頻度分布が示されている。頻度分布表５１内の黒丸が、対応する項目値を有する１つのレコードを表している。図７の例では、項目値「Ａ」のレコードが１５個、項目値「Ｂ」のレコードが４個、項目値「Ｏ」のレコードが１個、項目値「ＡＢ」のレコードが０個である。真のデータのレコードの総数は２０個である。

【0092】

頻度分布表５１では、項目値が出現頻度によってソートされている。図７の例では、左側から、出現頻度が多い順に項目値が並べられている。ここで出現頻度を同程度にする項目値の種類数が「２」（ｋ＝２）であるものとする。この場合、データ登録要求部２４０は、まず、頻度分布表５１の左側から２つの項目値「Ａ」、「Ｂ」を１つの集合５１ａに纏める。次にデータ登録要求部２４０は、残りの２つの項目値「Ｏ」、「ＡＢ」を１つの集合５１ｂに纏める。

【0093】

ここでデータ登録要求部２４０は、ダミーデータとして、真のデータのレコード数と同数のダミーレコードを生成するものとする。データ登録要求部２４０は、まず単独頻度の項目値について、単独頻度が解消されるようにダミーレコードそれぞれに設定する項目値（ダミー値）を決定する。

【0094】

例えばデータ登録要求部２４０は、出現頻度が多い項目値から順に、単独頻度の解消を図る。図７の例では、データ登録要求部２４０は、項目値「Ａ」の単独頻度を解消するため、１１個のダミーレコードにダミー値「Ｂ」を設定することを決定する。ダミー値「Ｂ」を設定後の頻度分布が、頻度分布表５２に示されている。頻度分布表５２内の網掛けの丸が、単独頻度解消用の項目値が設定されたダミー値を有するダミーレコードを示している。これにより項目値「Ａ」と「Ｂ」とは、共に出現頻度が「１５」となり、単独頻度が解消されている。

【0095】

次にデータ登録要求部２４０は、項目値「Ｏ」の単独頻度を解消するため、１個のダミーレコードにダミー値「ＡＢ」を設定することを決定する。ダミー値「ＡＢ」を設定後の頻度分布が、頻度分布表５３に示されている。これにより項目値「Ｏ」と「ＡＢ」は、共に出現頻度が「１」となり、単独頻度が解消されている。

【0096】

この時点で、１２個のダミーレコードに設定するダミー値が決定しているため、ダミー値が未確定のダミーレコードは８個である。ここでデータ登録要求部２４０は、すべての項目値の一様分布がかなわないとしても、できるだけ頻度分布を平準化させるため、残りの８個のダミーレコードに、出現頻度が少ない項目値をダミー値として設定することを決定する。図７の例では、データ登録要求部２４０は、４つのダミーレコードにダミー値「Ｏ」を設定し、残りの４つのダミーレコードにダミー値「ＡＢ」を設定することを決定している。

【0097】

平準化用のダミー値設定後の頻度分布が、頻度分布表５４に示されている。頻度分布表５４内の白丸が、平準化用の項目値が設定されたダミー値を有するダミーレコードを示している。これにより項目値「Ｏ」と「ＡＢ」は、共に出現頻度が「５」となり、項目値「Ａ」および「Ｂ」との出現頻度の差が減少している。すなわち、出現頻度の平準化が図られ、項目値間の頻度分布が攪乱される。さらに、ある項目値の現実での頻度が特徴的であっても、暗号化された少なくとも２つの暗号文のどちらがその特徴的な項目値のものであるかを特定することが困難となる。

【0098】

図７に示した例では、項目に設定可能な項目値の種類数がｋの倍数となっており、すべての項目値を、２つずつの集合５１ａ，５１ｂに纏めることが可能となっている。しかし、項目に設定可能な項目値の種類数がｋの倍数になっていない場合もある。

【0099】

図８は、ダミーレコードに設定する項目値の第２の決定例を示す図である。図８は、７種類のアルファベットを項目値として設定可能な場合において、データ登録要求部２４０が、ｋ＝３としてダミーレコードに設定する項目値を決定した例である。この場合、データ登録要求部２４０は、まず、頻度分布表５５の左側から３つの項目値「Ａ」、「Ｂ」、「Ｃ」を１つの集合５５ａに纏める。次にデータ登録要求部２４０は、残りの項目値のうち左から３つの項目値「Ｄ」、「Ｅ」、「Ｆ」を１つの集合５５ｂに纏める。すると残りの項目値は「Ｇ」のみとなり、残りの項目値の数がｋ未満である。そこでデータ登録要求部２４０は、項目値「Ｇ」を直前に生成した集合５５ｂに含める。その結果、４つの項目値「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」を含む集合５５ｃが生成される。

【0100】

その後、データ登録要求部２４０は、図８と同様の手順で、ダミーレコードに設定する項目値を決定する。その結果、集合５５ａに含まれる項目値「Ａ」、「Ｂ」、「Ｃ」それぞれの出現頻度は「１５」となる。集合５５ｃに含まれる項目値「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」のうち、項目値「Ｄ」、「Ｅ」、「Ｇ」の出現頻度は「４」となり、項目値「Ｆ」の出現頻度は「３」となる。

【0101】

このように、平準化用のダミーレコード数がｋで割り切れず端数が発生する場合、１つの集合内の項目値の出現頻度が等しくならず、±１個の差を生じる場合がある。しかしながら、データ登録要求部２４０は、平準化用のダミー値を、その時点で出現頻度が同じ複数の項目値のいずれかに割り当てる際、確率的に割り当て先の項目値を選択する。これにより、最終的に、同じ集合内の項目値間で±１の出現頻度の差が生じても、出現頻度の差異に基づいて個々の項目値を特定することはできなくなる。

【0102】

なお、図７の例ではレコードの増加率を真のデータの２倍とし、図８の例では３倍としており、同じ集合内の項目値間の出現頻度の差が±１以内に抑えられている。ただし、真のデータの偏りの程度、指定されたｋの値、および設定可能な項目値の種類数の関係によっては、ダミーレコード数が不足し、同じ集合内の項目値間の出現頻度の差が±１を超える場合がある。そこで次に、最適なダミーレコード数の決定方法について説明する。

【0103】

＜第２の実施の形態における最適なダミーレコード数の決定方法＞
以下、最適なダミーデータ数の決定方法について説明する。
図９は、一般化した頻度分布と集合ごとの出現頻度平準化に用いるダミー値の頻度イメージを示す図である。図９において、ｘは項目値の識別番号（ＩＤ）を示す自然数である。真のデータにおける識別番号ｘの項目値の出現頻度をｆ（ｘ）とする。なお、ｘは離散値であるが、図９ではｘを一般化して実数とみなしており、項目値ごとの真のデータにおける出現頻度が曲線で表されている。

【0104】

このとき、同一集合に含まれる項目値の出現頻度を等しくするために用いるダミー値の数は、図９の網掛けの部分の面積となる。ここで、Ｘは項目値の識別番号の最大値を示す自然数である。ｍは自然数である。ｐ_mは（ｍ－１）ｋ＜ｘ≦ｍｋにおけるｆ（ｘ）の最大値であり、ｍ以下の自然数に対するｐも同様である。ｐ_maxはｐ₁，ｐ₂，ｐ₃，・・・，ｐ_mの中の最大値である。また、ｐ_Mは最後の区間であるｍｋ＜ｘ≦Ｘに含まれる項目値の頻度攪乱後の出現頻度である。最後の区間幅（含まれる項目値の数）はｋに満たないため、ｐ_Mはｐ₁，ｐ₂，ｐ₃，・・・，ｐ_mのどれかの区間と同じ出現頻度となるように頻度攪乱が行われる。

【0105】

集合ごとの出現頻度の平準化に用いるダミー値数の合計Ｓ（図９の網掛けの部分の面積）は、真のデータの項目値の総数（ｆ（ｘ）の０～Ｘの積分値）をＮとすると下式となる。

【0106】

【数1】

【0107】

ここで、式（１）の右辺第１項が最大となるのは以下のときである。

【0108】

【数2】

【0109】

すなわち、以下のようにある１つの値のみにデータが集中している場合に、式（１）の右辺第１項が最大となる。

【0110】

【数3】

【0111】

次に式（１）の右辺第２項について考える。Ｘ，ｍ，ｋは定数であるが、ｐ_Mはｋ個の値を同頻度にするだけならｐ₁～ｐ_mの中から任意に選ぶことができる。しかしながら、ダミーレコード数を必要最小限にするためには、このうちの最小値ｐ_minをｐ_Mとして選ぶこととなる。よって、式（３）よりｐ_Mは以下となる。

【0112】

【数4】

【0113】

なお、Ｘ＜ｋのときは明らかに要件を満たせないことも考慮し、式（３）、（４）を式（１）に代入すると、最も極端な頻度分布でも、少なくともｋ個の項目値を同頻度にできる最小のダミーレコード数Ｓ_minは以下となる。

【0114】

【数5】

【0115】

式（５）を言い換えると以下の通りである。
１．項目値の種類数がｋ未満の場合
：対応不可
２．項目値の種類数がｋ以上２ｋ未満の場合
：真のデータのレコード数×（項目値の種類数－１）個
３．項目値の種類数が２ｋ以上の場合
：真のデータのレコード数×（ｋ－１）個
図１０は、ｋ＝３の場合の最小のダミーレコード数の判断基準の一例を示す図である。項目値の種類数が「２」の場合、項目値の種類数がｋ未満である。この場合、頻度分布表５６に示す通り、項目値が「ｘ１」「ｘ２」しかなく、種類数が足りない。そのため、出現頻度が同程度の項目値を３以上生成することはできない。したがって３つ以上の項目値の出現頻度を平準化する頻度攪乱を実施することはできず、対応不可である。

【0116】

項目値の種類数が「５」の場合、項目値の種類数がｋ以上２ｋ未満である。この場合、頻度分布表５７に示す通り、真のデータにおける出現頻度が最大の項目値の出現頻度と同じになるように、各項目値のダミー値を追加することで、頻度攪乱が実現できる。

【0117】

追加するダミー値が多くなるのは、真のデータにおける項目値の出現頻度の偏りが大きい場合である。頻度分布表５７に示す例では、項目値「ｘ１」の出現頻度は「１５」であり、その他の項目値「ｘ２」～「ｘ５」の出現頻度はいずれも「０」である。この場合、真のデータのレコード数「１５」×４個（「４」は項目値の種類数－１）、のダミーレコードを追加し、項目値「ｘ２」～「ｘ５」それぞれについて１５個ずつのダミー値を割り当てることで、すべての項目値の出現頻度が同じ数「１５」となる。すなわち「真のデータのレコード数×（項目値の種類数－１）個」のダミーレコードを追加すれば、真のデータにおける項目値の出現頻度分布にかかわらず、すべての項目値の出現頻度を同じにできる。ここで例えば、項目値「ｘ２」、「ｘ３」のみに１５個ずつのダミー値を割り当て、「ｘ１」～「ｘ３」の３つの項目値の出現頻度を同じにした場合、出現頻度「０」の項目値「ｘ４」、「ｘ５」は２種類のみになってしまう。よって、項目値「ｘ４」、「ｘ５」にも１５個ずつのダミー値を割り当てるのが適切である。

【0118】

項目値の種類数が「７」の場合、項目値の種類数が２ｋ以上である。この場合、頻度分布表５８に示す通り、少なくとも３つの項目値を含む複数の集合５８ａ，５８ｂが生成される。生成された集合５８ａ，５８ｂそれぞれについて、真のデータにおける出現頻度が最大の項目値の出現頻度と同じになるように、各項目値のダミー値を追加することで、頻度攪乱が実現できる。

【0119】

追加するダミー値が多くなるのは、真のデータにおける項目値の出現頻度の偏りが大きい場合である。頻度分布表５８に示す例では、項目値「ｘ１」の出現頻度は「１５」であり、その他の項目値「ｘ２」～「ｘ７」の出現頻度はいずれも「０」である。この場合、真のデータのレコード数「１５」×２個（「２」はｋ－１）のダミーレコードを追加し、項目値「ｘ２」～「ｘ３」それぞれについて１５個ずつのダミー値を割り当てることで、集合５８ａ内のすべての項目値の出現頻度が同じ数「１５」となる。集合５８ｂ内の項目値は、すべて出現頻度が「０」であり、出現頻度が同じである。すなわち「真のデータのレコード数×（ｋ－１）個」のダミーレコードを追加すれば、真のデータにおける項目値の出現頻度分布にかかわらず、同一集合内のすべての項目値の出現頻度を同じにできる。

【0120】

ここまでは、秘匿化ＤＢ１１０への真のデータのレコードの追加を考慮しない場合の最適なダミーレコード数を示した。次に真のデータのレコードを追加する場合について説明する。

【0121】

図１１は、レコード追加の第１の例を示す図である。図１１に示す頻度分布表５９において、追加されたレコードに設定された項目値およびダミー値については、太線の丸で示している。真のデータに追加されたレコードに含まれる項目値に対応する丸は、ドットパターンで塗りつぶされている。追加されたダミーレコードに含まれる項目値（ダミー値）に対応する丸は、白抜きである。

【0122】

図１１の例ではｋ＝３であり、項目値「Ａ」、「Ｂ」、「Ｃ」が集合５９ａに含まれており、項目値「Ｄ」、「Ｅ」、「Ｆ」、「Ｇ」が集合５９ｂに含まれている。このとき項目値「Ｅ」を含むレコードが真のデータとして追加されている。すると、項目値「Ｅ」の頻度が単独で多くなる。そこでデータ登録要求部２４０は、ｋ種類以上の値との頻度差を±１とするために項目値「Ｄ」、「Ｆ」、「Ｇ」それぞれをダミー値として割り当てた３つのダミーレコードを追加する。

【0123】

図１２は、レコード追加の第２の例を示す図である。この例では、第１の例と同じ条件として、ｋ＝３であり、１つの真のデータに対し３つのダミーレコードを追加する。図１２に示す頻度分布表６０では、項目値「Ｆ」を含むレコードが真のデータとして追加されている。そして、データ登録要求部２４０は、ｋ種類以上の値との頻度差を±１とするために項目値「Ｄ」、「Ｆ」、「Ｇ」それぞれをダミー値として割り当てた３つのダミーレコードを追加する。

【0124】

データ登録要求部２４０が図１１、図１２に示すようなダミーレコードの追加を行うことで、追加されたレコードのうちのどれが真のデータのレコードでどれがダミーレコードなのかの特定が抑制される。

【0125】

このときに追加するダミーデータ数が最大となる場合とは、最後の集合内のある１つの項目値のみが単独頻度（他の項目値の出現頻度の＋１）の状態で、かつその単独頻度の項目値を含む真のデータのレコードが追加される場合である。このとき追加するダミーレコード数は以下である。

【0126】

【数6】

【0127】

式（６）のｍｏｄ（Ｘ，ｋ）は、Ｘをｋで除算した場合の剰余である。そして、データ登録要求部２４０が式（５）によって決定されたダミーレコード数と、式（６）で決定されたダミーレコード数との大きい方のダミーレコード数を採用することで、真のデータのレコードの追加にも対応可能な頻度攪乱が可能となる。

【0128】

図１１、図１２に示した例では、Ｘ＝７、ｋ＝３である。すると、Ｘ≧２ｋであり、
式（５）によれば、ダミーレコード数は２×Ｎ個となる。また「ｍｏｄ（Ｘ，ｋ）＝１」であるため、式（６）によれば、ダミーレコード数は３×Ｎ個となる。データの追加を考慮した最適なダミーレコード数は、式（５）と式（６）との計算結果の多い方の値（３×Ｎ個）である。

【0129】

なお、ダミーレコード数は真のデータのレコード数の倍数になることを利用し、以下においてはデータを真のデータのレコード数単位に分割し、これを「群」として扱う。
＜ダミー判別用のフラグの付与と検索手法＞
次に、各レコードへのダミー判別用のフラグの付与と、秘匿化ＤＢ１１０内のデータの検索手法について説明する。以下の説明では、製薬企業１５，１６の端末装置４００，５００がダミーデータの影響を除去し、真の検索結果を得るための手法を示す。まず、真のデータによる検索結果とダミーデータによる検索結果を検索クライアントで見分けることを可能とするために、データ登録要求部２４０は、データを秘匿化ＤＢ１１０に登録する際にフラグの項目を追加する。この列に格納するフラグ値は、単純に真のデータのレコード群およびダミーデータのダミーレコード群ごとに、あらかじめ決められた異なる値を暗号化してフラグ列に格納する。

【0130】

図１３は、フラグを付与した登録データの一例を示す図である。登録データ６２には、真のデータ６１を暗号化したレコード群６２ａとダミーデータを構成するダミーレコード群６２ｂ，６２ｃとが含まれている。図１３の例では、区別しやすいように、ＩＤによるソート前の登録データ６２を示している。

【0131】

ここで、Ｈ（ｘ）は共通鍵方式の確定的暗号化またはハッシュ関数である。また、図１３では見やすいように各群をまとめて表示しているが、データ登録要求部２４０は、実際には、秘匿化ＤＢ１１０に格納する際は、行番号である暗号化されていないＩＤ列の値順にソートを行い、行番号から真のデータを特定できないようにする。

【0132】

図１３に示すような登録データ６２が秘匿化ＤＢ１１０に格納されると、端末装置４００，５００は、以下のような検索クエリを含む検索要求をデータ管理サーバ１００に送信することで、真のデータのレコードとダミーレコードとを区別できる。

【0133】

例えば端末装置４００の検索要求部４３０は、以下のような（Ｇ＋１）個の検索クエリを生成し、順不同でデータ管理サーバ１００に送信する。ここで、Ｇはダミーレコード群の数（自然数）、ｇは群番号（０以上の整数）である。真のデータのレコード群の群番号は「０」である。
・検索クエリ：指定された検索条件 ∧ フラグ値＝ｇ
「∧」は論理積の演算記号である。そして検索要求部４３０は、真のデータのレコード群の群番号「０」をフラグ値として設定した検索クエリに対する応答のみを採用することで、真の結果を知ることができる。

【0134】

この手法では、攻撃者は各群のどれかが真のデータであることはわかるものの、真のデータのレコード群とダミーレコード群とのレコード数が同じであるため秘匿化ＤＢ１１０内のレコードだけを参照しても真のデータのレコードがどれであるかは特定できない。また、検索履歴の頻度分析においてもすべての群へ均等に検索がかけられるため、攻撃者は真のデータのレコード群を特定することができない。

【0135】

＜第２の実施の形態におけるデータ登録処理と検索処理との処理手順＞
以下、データ登録処理およびデータ検索処理の手順について、詳細に説明する。
図１４は、データ登録処理の手順の一例を示すフローチャートである。以下、図１４に示す処理をステップ番号に沿って説明する。

【0136】

［ステップＳ１０１］データ登録要求部２４０は、同程度の出現頻度とする項目値の種類数ｋの設定入力を受け付ける。
［ステップＳ１０２］データ登録要求部２４０は、ダミーレコード数を決定する。例えばデータ登録要求部２４０は、式（５）と式（６）とのそれぞれを用いて、最小のダミーレコード数を計算する。そしてデータ登録要求部２４０は、式（５）と式（６）とのそれぞれの計算結果を比較し、値が大きい方を、最終的なダミーレコード数に決定する。

【0137】

［ステップＳ１０３］データ登録要求部２４０は、ＤＢ２１０から平文の真のデータを読み込む。
［ステップＳ１０４］データ登録要求部２４０は、ステップＳ１０２で決定した数のダミーレコードを有するダミーデータを生成する。なお、ダミーデータ生成処理の詳細は後述する（図１５参照）。

【0138】

［ステップＳ１０５］データ登録要求部２４０は、真のデータとダミーデータとのレコードそれぞれに、ランダムにＩＤを付与する。
［ステップＳ１０６］データ登録要求部２４０は、真のデータのレコードとダミーレコードとのそれぞれにフラグを付与する。例えばデータ登録要求部２４０は、真のデータのレコードには「０」のフラグを付与する。またデータ登録要求部２４０は、ダミーレコードには、そのダミーレコードが属するダミーレコード群の群番号を、フラグとして付与する。

【0139】

［ステップＳ１０７］データ登録要求部２４０は、各レコードをＩＤでソートする。
［ステップＳ１０８］データ登録要求部２４０は、ソートされたレコード群を暗号化して、秘匿化ＤＢ１１０に登録する。例えばデータ登録要求部２４０は、レコード内の項目値ごとに暗号化し、暗号化された項目値を有するレコード群を、登録データとしてデータ管理サーバ１００に送信する。データ管理サーバ１００では、データ登録部１２０が登録データを受信し、受信した登録データを秘匿化ＤＢ１１０に格納する。

【0140】

次に、ダミーデータ生成処理について詳細に説明する。
図１５は、ダミーデータ生成処理の手順の一例を示すフローチャートである。以下、図１５に示す処理をステップ番号に沿って説明する。

【0141】

［ステップＳ１１１］データ登録要求部２４０は、真のデータに設定可能な項目値を、真のデータにおける出現頻度が高い順にソートする。
［ステップＳ１１２］データ登録要求部２４０は、真のデータに設定可能な項目値について、項目値出現頻度が高い方からｋ個ずつの項目値の集合を生成する。この際、データ登録要求部２４０は、最後の集合に含まれる項目値の数がｋ未満の場合、該当する集合とその前に生成した集合とをまとめて１つの集合に結合する。

【0142】

［ステップＳ１１３］データ登録要求部２４０は、集合ごとに、該当集合に含まれる項目値の出現頻度が、該当集合内で最も出現頻度の高い項目値の頻度と等しくなるように、各項目値に割り当てるダミーレコード数を決定する。そしてデータ登録要求部２４０は、各項目値について決定した数のダミーレコードを、その項目値に割り当てる。

【0143】

［ステップＳ１１４］データ登録要求部２４０は、すべての項目値についての出現頻度分布が平準化するように、真のデータとダミーデータとの出現頻度の合計が少ない項目値から順に、残りのダミーレコードの割り当てを行う。なおデータ登録要求部２４０は、出現頻度が最小の項目値が複数ある場合には、確率的に選択した項目値にダミーレコードを割り当てる。

【0144】

［ステップＳ１１５］データ登録要求部２４０は、項目値ごとに、該当項目値を設定した、割り当てた数のダミーレコードを生成する。
このようにして、集合ごとに項目値の出現頻度が均等化されると共に、可能な限り、項目値ごとの出現頻度が平準化される。その結果、項目値ごと出現頻度の偏りが抑止され、頻度分析攻撃に対する安全性が向上する。

【0145】

次に、端末装置４００における検索処理について詳細に説明する。
図１６は、検索処理の手順の第１の例を示すフローチャートである。以下、図１６に示す処理をステップ番号に沿って説明する。

【0146】

［ステップＳ１２１］端末装置４００の検索要求部４３０は、ユーザからの検索条件の入力を受け付ける。検索条件では、項目の項目値についての条件が指定される。
［ステップＳ１２２］検索要求部４３０は、暗号化した真の検索クエリを生成する。例えば検索要求部４３０は、入力された検索条件に「フラグ＝真（値が「０」）」の条件を論理積で追加し、データ登録サーバ２００から取得した暗号鍵で暗号化する。これにより真の検索クエリが生成される。

【0147】

［ステップＳ１２３］検索要求部４３０は、暗号化した偽の検索クエリを、ダミーレコード群の数「Ｇ」だけ生成する。例えば検索要求部４３０は、入力された検索条件に「フラグ＝偽（値が「１～Ｇ」）」の条件を論理積で追加し、データ登録サーバ２００から取得した暗号鍵で暗号化する。これによりＧ個の偽の検索クエリが生成される。検索要求部４３０は、偽の検索クエリを生成する際、入力された検索条件を異なる条件に変えて生成してもよい。

【0148】

［ステップＳ１２４］検索要求部４３０は、生成した真および偽の検索クエリをランダムに並べ替える。
［ステップＳ１２５］検索要求部４３０は、検索クエリの送信回数を示す変数ｉに初期値「０」を設定する（ｉ＝０）。

【0149】

［ステップＳ１２６］検索要求部４３０は、ｉ≦Ｇを満たす間、ステップＳ１２７～Ｓ１３２の処理を繰り返す。
［ステップＳ１２７］検索要求部４３０は、ｉ番目の検索クエリをデータ管理サーバ１００に送信する。

【0150】

［ステップＳ１２８］検索要求部４３０は、データ管理サーバ１００から、検索結果を取得する。
［ステップＳ１２９］検索要求部４３０は、ステップＳ１２７で送信した検索クエリのフラグが「０」か否かを判断する。検索要求部４３０は、フラグが「０」であれば、処理をステップＳ１３０に進める。また検索要求部４３０は、フラグが「０」以外であれば、処理をステップＳ１３１に進める。

【0151】

［ステップＳ１３０］検索要求部４３０は、ステップＳ１２８で取得した検索結果をモニタに表示する。例えば検索要求部４３０は、検索結果に含まれるレコードの項目値を復号し、復号された項目値をモニタに表示する。また検索要求部４３０は、検索結果に含まれるレコード数をモニタに表示してもよい。その後、検索要求部４３０は処理をステップＳ１３２に進める。

【0152】

［ステップＳ１３１］検索要求部４３０は、偽の検索結果を破棄する。
［ステップＳ１３２］検索要求部４３０は、変数ｉに１を加算する（ｉ＝ｉ＋１）。
［ステップＳ１３３］検索要求部４３０は、ｉ＞Ｇを満たす場合、検索処理を終了する。

【0153】

このようにして、秘匿化ＤＢ１１０に暗号化して保存されているデータの検索が行われる。
以上に説明したように、第２の実施の形態では、項目値の出現頻度の差を抑止するような項目値が設定されたダミーデータを生成するため、頻度分析攻撃に対する安全性が向上する。すなわち、出現頻度が他の項目値と大きく異なる単独頻度の項目値がなくなり、かつ項目値ごとの出現頻度の平準化により情報のエントロピーが上げられているため、頻度分析攻撃に対する安全性が向上する。

【0154】

また、ＤＢ２１０へのデータの追加も考慮してダミーレコード数を決定したため、データの追加があってもデータの安全性を維持することができる。
なお、ＤＢ２１０内のデータを秘匿化ＤＢ１１０に登録後、ＤＢ２１０にレコードが追加された場合、データ登録サーバ２００は、追加分のレコードを真のデータとして、ダミーデータを生成し、秘匿化ＤＢ１１０に追加登録すればよい。すなわち、真のデータの追加レコードが唯一であっても複数であっても、既に秘匿化ＤＢ１１０に登録されているデータを変更せずに、データを追加登録できる。

【0155】

また端末装置４００は、真の検索クエリと偽の検索クエリとを無作為な順番で送信するため、繰り返し行われた検索のうち、どの検索結果が真の検索結果なのかを秘匿することができる。

【0156】

なお、第２の実施の形態では、ＤＢ２１０内の真のデータに、ＩＤ以外に血液型の項目しかないが、ＩＤ以外に複数の項目を有する場合でも同様に暗号化して秘匿化ＤＢ１１０に格納することができる。この際、データ登録要求部２４０は、生成するダミーレコード数を、項目ごとに算出したダミーレコード数の最大値とする。

【0157】

〔第３の実施の形態〕
次に第３の実施の形態について説明する。第３の実施の形態は、フラグの値の種類を拡張し、真のデータとダミーデータとの分離の困難性を高めたものである。

【0158】

第２の実施の形態の手法を複数の項目を含むＤＢ２１０に適用した場合、各項目の頻度攪乱処理は独立に行われる。また、攻撃者はどの群が真のデータのレコード群であるか特定は出来ないものの、各群の分離は容易にできる。このとき、各項目の独立性を比較するとダミーデータ群の独立性が低くなり、真のデータ群を特定できてしまう場合が生じる。

【0159】

図１７は、項目間の独立性の解析例を示す図である。図１７の例では、２つの項目を有するデータ６３をｋ＝２の条件で、第２の実施の形態に示した手法によって頻度攪乱が行われている。図１７に示す真のデータ６３に対応する登録データ６４では、ダミーデータ生成時に、性別と血液型とのダミー値が、項目ごとに独立に生成されている。

【0160】

項目「性別」は、真のデータ６３において、「男」の出現頻度が「２」、「女」の出現頻度が「２」である。そのため、ダミーデータでは、「男」の出現頻度が「２」、「女」の出現頻度が「２」となっている。また項目「血液型」は、真のデータ６３において「Ａ」の出現頻度が「２」、「Ｂ」の出現頻度が「１」、「Ｏ」の出現頻度が「０」、「ＡＢ」の出現頻度が「１」である。そのため、ダミーデータでは、Ａの出現頻度が「０」、Ｂの出現頻度が「１」、「Ｏ」の出現頻度が「２」、「ＡＢ」の出現頻度が「１」となるように項目値が設定されている。

【0161】

登録データ６４に基づいて、フラグの値ごとに２元クロス表６５，６６を作成することができる。２元クロス表６５，６６に基づいてχ二乗値（χ²）を算出すると、フラグＨ（０）に対応する２元クロス表６５のχ二乗値が「４」となる。またフラグＨ（１）に対応する２元クロス表６６のχ二乗値が「２」となる。

【0162】

このように、真のデータは現実世界の特性が反映されることによりχ²＝４と独立性が高くなる場合がある。その一方、ダミーデータは項目ごとに独立に値が決定されるためχ²＝２と、独立性が低くなる。そのため攻撃者は、χ²の低い方がダミーデータであると推定できてしまう。

【0163】

そこで第３の実施の形態では、第２の実施の形態に示した手法の一部に変更を加え、複数の項目を有するＤＢ２１０における項目間の独立性を用いた攻撃も抑制する手法の一例を示す。第３の実施の形態に示す手法は、フラグ値の与え方と検索方法を変更したものである。

【0164】

データ登録要求部２４０は、まず、フラグ値を決定するために、真のデータのレコード群およびダミーレコード群それぞれについて、同一の変数の値に対して異なる値を出力する異なる関数を用意する。そしてデータ登録要求部２４０は、用意した関数にＩＤ列の値を変数ｘとして入力した値をフラグ値とする。

【0165】

図１８は、関数を用いてフラグ値を算出する例を示す図である。群番号ｇの群（真のデータのレコード群またはダミーレコード群）のフラグ値生成関数をｆ_g（ｘ）としたとき、図１８の例で用いているフラグ値生成関数は以下の通りである。
ｆ_g（ｘ）＝（Ｇ＋１）ｘ＋ｇ（７）
図１８の例では、Ｇ＝２である。従って、真のデータのレコード群７１ａ（群番号「０」）のフラグ値生成関数は「ｆ₀（ｘ）＝（２＋１）ｘ＋０」となる。ダミーレコード群７１ｂ（群番号「１」）のフラグ値生成関数は「ｆ₁（ｘ）＝（２＋１）ｘ＋１」となる。ダミーレコード群７１ｃ（群番号「２」）のフラグ値生成関数は「ｆ₂（ｘ）＝（２＋１）ｘ＋２」となる。

【0166】

第３の実施の形態では、端末装置４００の検索要求部４３０は、検索の際には、指定された検索条件のみを含む検索クエリを発行する。データ管理サーバ１００の検索部１４０は、検索クエリに対する応答として、検索条件に合致したレコードのＩＤ列とフラグ列の項目値を合わせて返す。検索要求部４３０は、受け取ったＩＤ列の項目値（ＩＤ）を真のデータ群用のフラグ値生成関数「ｆ₀（ｘ）＝（２＋１）ｘ＋０」に入力し、さらに暗号化を行う。そして検索要求部４３０は、受け取ったフラグ値と比較し、一致したもののみを正しい検索結果として採用する。これにより検索要求部４３０は、真の結果を知ることができる。

【0167】

図１９は、第３の実施の形態におけるデータ登録処理の一例を示すフローチャートである。図１９に示す処理のうち、ステップＳ２０１～Ｓ２０５、Ｓ２１０～Ｓ２１１は、それぞれ図１４に示す第２の実施の形態の処理のステップＳ１０１～Ｓ１０５，Ｓ１０７～Ｓ１０８と同様である。以下、第２の実施の形態と異なるステップＳ２０６～Ｓ２０９の処理についてステップ番号に沿って説明する。

【0168】

［ステップＳ２０６］データ登録要求部２４０は、全レコードについて、ステップＳ２０７～Ｓ２０８の処理を実行する。
［ステップＳ２０７］データ登録要求部２４０は、フラグ値生成関数に基づいて、処理対象のレコードに対するフラグ値を算出する。例えばデータ登録要求部２４０は、処理対象のレコードのＩＤとそのレコードが属する群の群番号とを、式（７）に示すフラグ値生成関数の変数に設定し、フラグ値生成関数を計算する。計算結果が、そのレコードのフラグ値となる。

【0169】

［ステップＳ２０８］データ登録要求部２４０は、処理対象のレコードに、ステップＳ２０７で算出したフラグ値を付与する。
［ステップＳ２０９］データ登録要求部２４０は、すべてのレコードに対してフラグ値の付与が完了した場合、処理をステップＳ２１０に進める。

【0170】

このようにして、フラグ値生成関数により、すべてのレコードに対して異なるフラグ値が設定される。
図２０は、検索処理の手順の第２の例を示すフローチャートである。以下、図２０に示す処理をステップ番号に沿って説明する。

【0171】

［ステップＳ２２１］端末装置４００の検索要求部４３０は、ユーザからの検索条件の入力を受け付ける。
［ステップＳ２２２］検索要求部４３０は、検索条件を暗号化した検索クエリを生成する。

【0172】

［ステップＳ２２３］検索要求部４３０は、検索クエリをデータ管理サーバ１００に送信する。
［ステップＳ２２４］検索要求部４３０は、データ管理サーバ１００から、検索結果を取得する。

【0173】

［ステップＳ２２５］検索要求部４３０は、検索結果に含まれるすべてのレコードについて、ステップＳ２２６～Ｓ２２９およびＳ２３０の処理を行う。
［ステップＳ２２６］検索要求部４３０は、処理対象のレコードのＩＤを真のデータ群用のフラグ値生成関数の変数に代入し、フラグ値を算出する。

【0174】

［ステップＳ２２７］検索要求部４３０は、フラグ値を暗号化する。
［ステップＳ２２８］検索要求部４３０は、ステップＳ２２７で暗号化して得られた暗号文と、処理対象のレコードに付与されたフラグ値とが一致するか否かを判断する。検索要求部４３０は、一致する場合、処理をステップＳ２２９に進める。また検索要求部４３０は、一致しない場合、処理をステップＳ２３０に進める。

【0175】

［ステップＳ２２９］検索要求部４３０は、処理対象のレコードを、真の検索結果として抽出する。その後、検索要求部４３０は処理をステップＳ２３１に進める。
［ステップＳ２３０］検索要求部４３０は、処理対象のレコードを破棄する。

【0176】

［ステップＳ２３１］検索要求部４３０は、検索結果に含まれるすべてのレコードについて処理が完了した場合、処理をステップＳ２３２に進める。
［ステップＳ２３２］検索要求部４３０は、検索結果として抽出されたレコードを、真の結果としてモニタに表示する。

【0177】

第３の実施の形態の手法では、フラグ値が各行ですべて異なり、攻撃者による各群の分離が困難となる。このため項目間の独立性を群ごとに比較する攻撃ができなくなり、複数の項目を有する秘匿化ＤＢ１１０におけるデータの安全性が向上する。

【0178】

〔第４の実施の形態〕
次に第４の実施の形態について説明する。第４の実施の形態は、データの格納およびダミーデータのダミー値の決定方法を変更することで、項目間のデータ分離の困難性を高め、図１７に示したような項目間の独立性の解析による攻撃を抑止するものである。

【0179】

第４の実施の形態におけるデータ登録要求部２４０は、すべての項目のデータを結合し１項目のデータとして扱う。
図２１は、複数の項目を結合した登録データの一例を示す図である。図２１では、「性別」と「血液型」の２つの項目をもつ真のデータについて、その２つの項目を「性別，血液型」という１つの項目に結合したものである。データ登録要求部２４０は、例えば（女，Ｂ）や（女，ＡＢ）という値は、性別は同じであるものの値の組み合わせが異なるため異なる種類の項目値として扱う。すなわちデータ登録要求部２４０は、全項目の項目値が同じもののみ同じ種類の項目値とする。そしてデータ登録要求部２４０は、この結合された項目値を１つの項目に対する項目値として扱う。またデータ登録要求部２４０は、集合内の項目値の出現頻度がすべて「０」の集合に含まれる項目値にはダミー値を追加しない。それ以外の処理は第２の実施の形態の手法と同様である。

【0180】

図２２は、第４の実施の形態におけるダミー値の追加例を示す図である。図２２には、ｋ＝２の場合に２種類の項目値をもつ項目「性別」と４種類の項目値をもつ項目「血液型」を結合した場合の頻度分布表７３の一例を示している。このとき、結合データの項目値の種類数は元の各項目の項目値の種類数の総乗であり、図２２の例では８種類となる。

【0181】

図２３は、第４の実施の形態におけるデータ登録処理の一例を示すフローチャートである。図２３に示す処理のうち、ステップＳ３０１，Ｓ３０４～Ｓ３１０は、それぞれ図１４に示す第２の実施の形態の処理のステップＳ１０１～Ｓ１０８と同様である。第２の実施の形態と異なるステップＳ３０２，Ｓ３０３の処理は以下の通りである。

【0182】

［ステップＳ３０２］データ登録要求部２４０は、真のデータにＩＤ以外の複数の項目が存在する場合、それらの複数の項目を１つの項目に結合する。
［ステップＳ３０３］データ登録要求部２４０は、結合後の項目値の種類数を算出する。例えばデータ登録要求部２４０は、真のデータの出現頻度が「０」でない項目値を含む、すべての集合の全要素を頻度攪乱対象の項目値とし、その項目値の数を、結合後の項目値の種類数Ｘとする。その後、ステップＳ３０３で算出した項目値の種類数Ｘに基づいて、ダミーレコード数の決定などの処理が行われる。

【0183】

第４の実施の形態の手法では、各項目の値の組み合わせごとに同頻度となるものがｋ個以上となるため、項目間の独立性を用いた攻撃が抑制できる。なお、第４の実施の形態におけるフラグ値について、第３の実施の形態の手法を適用することも可能である。

【0184】

〔第５の実施の形態〕
次に第５の実施の形態について説明する。第５の実施の形態は、複数の項目を有するＤＢ２１０における項目間の独立性を用いた攻撃も抑制し、かつデータの削除も可能とする手法である。

【0185】

第２～第４の実施の形態に示した手法により頻度攪乱を行った秘匿化ＤＢ１１０から真のデータの一部のレコードを削除する際、削除の処理手順から真のデータのレコードとダミーレコードとを判別できてしまう場合がある。

【0186】

図２４は、真のデータのレコードの削除が困難な例を示す図である。図２４には、ｋ＝２の場合の血液型の出現頻度を示す頻度分布表７４を示している。ここで、例えばＯ型の真のデータのレコードを削除する場合、データ登録要求部２４０が同じ集合に属するＡＢ型のダミーレコードも同数削除すれば特に問題はない。しかしながら、破線の枠で示したＢ型の真のデータのレコードを削除しようとすると、同じ集合に属するＡ型にはダミーレコードが存在しないためＡ型のデータを削除することができない。よってデータ登録要求部２４０は、Ｂ型の真のデータのレコードを削除した後、Ａ型と同頻度にするためにＢ型のダミーレコードを追加することになる。この手順を攻撃者が観察すると、削除後に追加されたレコードはダミーレコードであること、およびダミーレコードが追加された項目値と同頻度で出現する他の項目値はすべて真のデータであることが解ってしまう。

【0187】

そこで第５の実施の形態では、データ登録要求部２４０は、真のデータの頻度分布と同じ分布であるが、それぞれの値が別の値に変換されたダミーレコード群を生成する。このダミーレコード群の各ダミーレコードは真のデータのレコードに紐付き、１対１で対応する。そしてデータ登録要求部２４０は、真のレコードの項目値を別の項目値に変換して対応するダミーレコードのダミー値として設定する。この変換規則を定めたものを変換集合と呼ぶ。なお、変換集合は、第１の実施の形態で説明した項目値群の一例である。データ登録要求部２４０は、各項目の取りうる項目値から任意にＧ＋１個選んだものを要素として変換集合を生成し、すべての項目値がいずれか１つの変換集合の要素として含まれるまで変換集合を生成する。ここで、Ｇは追加するダミーレコード群の数であり、Ｇの値の決定法は後述する。また、各項目の項目値の種類数がｋの倍数でない場合の処理についても後述する。

【0188】

図２５は、変換集合の生成例を示す図である。図２５の例では、真のデータのレコードには、「血圧」と「血液型」の項目が含まれているものとする。「血圧」に設定可能な項目値が４種類（至適、正常、正常高値、高血圧）であり、「血液型」に設定可能な項目値が８種類（Ａ＋、Ｂ＋、Ｏ＋、ＡＢ＋、Ａ－、Ｂ－、Ｏ－、ＡＢ－）である。

【0189】

図２５の変換集合一覧７５には、ｋ＝４，Ｇ＝３の場合に、４種類の項目値をもつ項目「血圧」と８種類の項目値をもつ項目「血液型」の２項目それぞれに対して、データ登録要求部２４０が生成した変換集合７５ａ，７５ｂ，７５ｃが示されている。項目「血圧」に対しては、｛至適，正常，正常高値，高血圧｝を要素として含む変換集合７５ａが１つだけ生成されている。項目「血液型」に対しては、｛Ａ＋，Ｂ＋，Ｏ＋，ＡＢ＋｝を要素として含む変換集合７５ｂと、｛Ａ－，Ｂ－，Ｏ－，ＡＢ－｝を要素として含む変換集合７５ｃとの２つが生成されている。

【0190】

変換集合７５ａ，７５ｂ，７５ｃは、循環リスト構造となっており、要素が順番に配置されている。変換集合７５ａ，７５ｂ，７５ｃ内の各要素には、先頭から順に、０から昇順の要素番号が付与される。例えば変換集合７５ａでは、図中の左端を先頭とすると、「至適」が先頭の要素（要素番号「０」）であり、「正常」が次の要素（要素番号「１」）である。循環リスト構造となっているため、例えば最後の要素「高血圧」の次の要素は「至適」となる。

【0191】

データ登録要求部２４０は、真のデータのレコードの項目値を、変換集合７５ａ，７５ｂ，７５ｃに基づいて変換することで、ダミーレコードに設定する項目値（ダミー値）を生成する。例えばデータ登録要求部２４０は、真のデータのレコードの１つの項目値に基づいて、ダミーレコード群ごとに、そのダミーレコード群内のダミーレコードに設定するダミー値を１つ生成する。

【0192】

図２６は、項目値の変換例を示す図である。例えばデータ登録要求部２４０は、真のデータのレコードについて、項目ごとに項目値を参照し、その項目値が含まれる変換集合と、その項目値に該当する要素ｂ_aを特定する。そしてデータ登録要求部２４０は、真のデータに含まれる項目値の要素ｂ_aに基づいて、以下の式（８）により、群番号ｇのダミーレコード群のダミー値ｃ_a,gを、変換集合を参照して決定する。ただし、ａは０以上の整数の要素番号である。
ｃ_a,g＝ｂ_mod(a+g,G+1) （８）
図２６の例では、真のデータのレコードに出現する項目値は「正常」である。ダミーレコード群が３つである（Ｇ＝３）ため、データ登録要求部２４０は、項目値「正常」を含む変換集合７５ａに基づいて、３つのダミーレコード群（ｇ＝１，２，３）それぞれのダミーレコードに設定するダミー値を生成する。まずデータ登録要求部２４０は、項目値「正常」に対応する要素の変換集合７５ａ内での要素番号「１」（ａ＝１）を取得する。

【0193】

データ登録要求部２４０は、群番号「１」（ｇ＝１）のダミーレコード群のダミー値ｃ_1,1を生成する場合、まず、ｍｏｄ（１＋１，４）＝２を計算する。そしてデータ登録要求部２４０は、計算して得られた値「２」を要素番号とする変換集合７５ａ内の要素ｂ₂に対応する項目値「正常高値」を、群番号「１」のダミーレコード群に設定するダミー値に決定する。

【0194】

データ登録要求部２４０は、群番号「２」（ｇ＝２）のダミーレコード群のダミー値ｃ_1,2を生成する場合、まず、ｍｏｄ（１＋２，４）＝３を計算する。そしてデータ登録要求部２４０は、計算して得られた値「３」を要素番号とする変換集合７５ａ内の要素ｂ₃に対応する項目値「高血圧」を、群番号「２」のダミーレコード群に設定するダミー値に決定する。

【0195】

データ登録要求部２４０は、群番号「３」（ｇ＝３）のダミーレコード群のダミー値ｃ_1,3を生成する場合、まず、ｍｏｄ（１＋３，４）＝０を計算する。そしてデータ登録要求部２４０は、計算して得られた値「０」を要素番号とする変換集合７５ａ内の要素ｂ₀に対応する項目値「至適」を、群番号「３」のダミーレコード群に設定するダミー値に決定する。

【0196】

なお、図２６に示したような項目値の変換元と変換先との関係は、全単射の関係の一例である。全単射とは、写像の終域となる集合の任意の元に対し、その元を写像の像とする元が、写像の定義域となる集合に常にただ一つだけ存在するような写像である。全単射関係を満たしていれば、図２６に示す例とは別の規則で変換元の項目値と変換先の項目値との関係を定義してもよい。

【0197】

データ登録要求部２４０は、図２６に示したようなダミー値の生成を、真のデータに出現する項目値それぞれについて行う。
図２７は、ダミー値の生成例を示す図である。図２７の例では、真のデータ７６では、項目「血圧」の項目値として、「至適」、「正常」、「正常高値」、「高血圧」がそれぞれ１回ずつ出現している。また項目「血液型」の項目値として、「Ａ＋」が２回出現し、「Ｏ－」と「ＡＢ－」とがそれぞれ１回ずつ出現している。

【0198】

真のデータ７６に出現する項目値それぞれに基づいて、ダミーレコード群それぞれに設定するダミー値が生成されている。例えば血圧「至適」に基づいて、群番号１（ｇ＝１）のダミーレコード群用のダミー値「正常」、群番号２（ｇ＝２）のダミーレコード群用のダミー値「正常高値」、群番号３（ｇ＝３）のダミーレコード群用のダミー値「高血圧」が生成されている。また例えば血液型「Ａ＋」に基づいて、群番号１（ｇ＝１）のダミーレコード群用のダミー値「Ｂ＋」、群番号２（ｇ＝２）のダミーレコード群用のダミー値「Ｏ＋」、群番号３（ｇ＝３）のダミーレコード群用のダミー値「ＡＢ＋」が生成されている。

【0199】

データ登録要求部２４０は、生成したダミー値をダミーレコードに割り当て、項目値を暗号化することで登録データを生成する。
図２８は、第５の実施の形態における登録データの一例を示す図である。登録データ７７には、真のデータ７６のレコード群とダミーレコード群７７ａ，７７ｂ，７７ｃが含まれている。登録データ７７内の各レコードには、第２の実施の形態と同様にフラグが付与されている。そして登録データ７７に含まれる項目値（フラグ値も含む）が暗号化されている。

【0200】

図２９は、第５の実施の形態における頻度攪乱後の頻度分布の一例を示す図である。図２９に示す頻度分布表７８は、６種類のアルファベットが項目値として設定可能な項目における頻度攪乱後の各項目値の出現頻度を表している。図２９の例では、ｋ＝３，Ｇ＝２である。変換集合は、「Ａ，Ｂ，Ｃ」と「Ｄ，Ｅ，Ｆ」の２つである。

【0201】

群番号「１」のダミーレコード群のダミー値は、真のデータの項目値を変換集合に基づいて「Ａ→Ｂ」、「Ｂ→Ｃ」、「Ｃ→Ａ」、「Ｄ→Ｅ」、「Ｅ→Ｆ」、「Ｆ→Ｄ」と変換することで生成される。群番号「２」のダミーレコード群のダミー値は、真のデータの項目値を変換集合に基づいて「Ａ→Ｃ」、「Ｂ→Ａ」、「Ｃ→Ｂ」、「Ｄ→Ｆ」、「Ｅ→Ｄ」、「Ｆ→Ｅ」と変換することで生成される。

【0202】

その結果、頻度攪乱後の変換集合「Ａ，Ｂ，Ｃ」に含まれる各項目値の出現頻度は、すべて「１９」となっている。また頻度攪乱後の変換集合「Ｄ，Ｅ，Ｆ」に含まれる各項目値の出現頻度は、すべて「９」となっている。すなわち項目値３つずつの集合ごとに、集合内での項目値の出現頻度の均一化が図られている。

【0203】

また各ダミーレコード群にダミー値は、真のデータの項目値を１対１で変換することで生成されている。そのため項目値の出現頻度のばらつき度合いは変わらない。例えば出現頻度が多い順にその出現頻度の値を並べた場合、真のデータのレコード群および２つのダミーレコード群のいずれにおいても「１０，７，５，３，２，１」である。このように、第５の実施の形態によれば、ダミーレコード群ごとの項目値の出現頻度のばらつき度合いは、すべてのダミーレコード群について真のデータと等しくなる。その結果、ダミーレコード群の項目間の独立性も真のデータの独立性と同等となり、項目間の独立性を用いた攻撃を抑制できる。また、すべてのダミーレコード群に真のデータの各レコードに１対１で対応するダミーレコードが存在する。そのため真のデータのあるレコードを削除する際には対応するダミーレコードを合わせて削除することで、データの秘匿性を維持したまま真のデータの任意のレコードを削除することができる。

【0204】

＜第５の実施の形態における変換集合の生成方法＞
第５の実施の形態では、ダミーデータのダミー値を決定するための変換集合の生成において、ある項目に設定可能な項目値の種類数が変換集合の要素数の倍数でない場合にもダミー要素を追加して対応する手法を用いる。本手法ではデータ登録要求部２４０は、まず単純に、ダミー要素を追加して、ある項目に設定可能な項目の種類数とダミー要素数の合計が、変換集合の要素数の倍数となるようにする。ただし、追加するダミー要素数や変換集合の構成によっては、データの機密性を劣化させる可能性がある。これを回避する条件を以下に示す。

【0205】

図３０は、ダミー要素を追加した変換集合の一例を示す図である。図３０に示す変換集合８０は、真のデータに出現するＸ個（Ｘは２以上の整数）の項目値（真の項目値）と等しい数の真の要素ｘと、Ｄ個（Ｄは０以上の整数）のダミー要素ｄを、要素として有する。要素の値を、要素番号の小さい順に「ｘ₁，ｘ₂，・・・，ｘ_X，ｄ₁，ｄ₂，・・・，ｄ_D」とする。

【0206】

図３１は、変換集合を用いて頻度攪乱を行った際の各群の頻度の関係を示す図である。図３１に示す出現頻度表８１には、要素の値に対応する項目値の群ごとの出現頻度が示されている。出現頻度表８１の群の行に設定された添え付きのｎは、同じ添字の真の値ｘの該当群内における出現頻度である。このとき、真のデータ（群０）にはダミー要素は存在しないため、ダミー要素ｄの出現頻度はすべて「０」である。

【0207】

ここで、出現頻度表８１の要素の値の並び順は、図３０に示す変換集合の要素の値の並び順と等しい。そのため「群１」のレコードに設定されるダミー値は、真のデータに出現した項目値に対応する要素の要素番号を巡回的に１つ大きく（図において１つ右にシフト）した要素番号の要素の値である。すると出現頻度表８１における「群１」の各要素の値の出現頻度も、「群０」の各要素の値の出現頻度を巡回的に１つ右にシフトしたものとなる。任意の群の各要素の値の出現頻度は、「群０」の各要素の値の出現頻度を群番号分シフトしたものとなり、これは１つ前の群の各要素の値の出現頻度を１つ右にシフトしたものと等価である。

【0208】

また、ダミー要素を合わせた項目値の種類数は、真のデータを合わせた群数（Ｇ＋１）と等しい（出現頻度表８１の列数と行数が等しい）。よって、各項目値の合計頻度（出現頻度表８１の列ごとの合計頻度）は、すべて真のデータの合計頻度（出現頻度表８１の真のデータ行の合計頻度）と等しく、以下の式（９）で表される。なお、ｍは変換集合番号である。

【0209】

【数7】

【0210】

ここで、変換集合の要素数は追加するダミーレコード群の数に比例する。そのため、真のデータの項目値の取りうる種類数が多い場合は、図２５の血液型の例で示したように、複数の変換集合を生成することでダミーレコード数を削減できる。このとき、式（９）のように、それぞれの変換集合ごとにＳ_mが定まる。ここで、あるＳ_mの値がただ１つの真の項目値の組み合わせによってしか取り得ない場合がある。この場合、すべての真の項目値の出現頻度を知っている攻撃者は、頻度がＳ_mとなる暗号化された値が、そのただ１つの組み合わせのＸ_m個の真の項目値のどれかであると特定できる。

【0211】

したがって、攻撃者に、暗号化されたある値がどの項目値の値であるかの候補として、ｋ未満の数の項目値に絞り込まれないようにするために、データ登録要求部２４０は、１つの変換集合に真の項目値に対応する要素を少なくともｋ個含める。これにより、Ｓ_mの値を用いても、攻撃者は、頻度がＳ_mとなる暗号化された値の候補を、ｋ個未満の数の項目値に絞り込むことは困難となる。

【0212】

図３２は、変換集合を用いた頻度攪乱前後の頻度の第１の例を示す図である。図３２に示す変換集合一覧８２には、血液型に関して２つの変換集合８２ａ，８２ｂが含まれている。図３２の例では、各変換集合８２ａ，８２ｂのＳ_mが唯一となり、各暗号文が変換集合にＸ_m個の真の値のどれかまで特定できる。具体的には、データ登録要求部２４０は、変換集合一覧８２では、４種類の項目値をもつ血液型データに対し、それぞれダミー要素を１つずつ加えた２つの変換集合８２ａ，８２ｂを生成し、２群のダミーレコードを追加している。ここで、真のデータの頻度はそれぞれ、Ａ型が「１」、Ｂ型が「１０」、Ｏ型が「１００」、そしてＡＢ型が「１０００」である。頻度攪乱後の出現頻度は、１つ目の変換集合８２ａの要素に対応するＨ（Ａ）、Ｈ（Ｂ）、Ｈ（Ｄ１）が、Ａ型とＢ型の出現頻度の合計である「１１」となる。このとき、任意の真の値を任意の個数選ぶ組み合わせの内、合計頻度が「１１」となるのはＡ型とＢ型の組み合わせしかない。よって、Ｈ（Ａ）、Ｈ（Ｂ）、Ｈ（Ｄ１）の値はＡ型かＢ型のどちらか（２種類）であると絞り込める。２つ目の変換集合８２ｂに対応する項目値についても同様である。

【0213】

このように図３２の例では変換集合８２ａ，８２ｂそれぞれには真の項目値が２個ずつしか含まれないため、ｋ＝２にしか対応できない。ここでｋ＝２に対応するための最小限のダミーレコード数を検討する。

【0214】

図３３は、変換集合を用いた頻度攪乱前後の頻度の第２の例を示す図である。図３３に示す変換集合一覧８３には、血液型に関して２つの変換集合８３ａ，８３ｂが含まれている。変換集合８３ａ，８３ｂそれぞれに含まれる要素の数は「２」であるため、１群のダミーデータが追加される。なお、真のデータにおける各項目値の出現頻度は、図３２の例と同じである。変換集合８３ａ，８３ｂそれぞれには、真の項目値が２個ずつ含まれているため、図３３の例では、１群のダミーレコードの追加によりｋ＝２を満たすことができる。

【0215】

このように、第５の実施の形態においても値の取り得る種類数やｋの値によって最適なダミーデータ数が異なる。
＜第５の実施の形態における最適なダミーレコード数＞
次に、第５の実施の形態における最適なダミーレコード数について説明する。第５の実施の形態では、変換集合の要素数が真のデータのレコード群とダミーレコード群とを合わせた群数となる。

【0216】

図３４は、一般化した変換集合一覧を示す図である。変換集合一覧８４にはＧ_a個の要素をもつ変換集合がｍ個ある。そして各変換集合には真の項目値が少なくともｋ個含まれる。そのため、全変換集合の前からｋ個の要素は真の項目値であり、後ろからｉ個の要素は真の値とダミー要素が混在し、ダミー要素の個数は各変換集合で異なる。なお、Ｇ_a＝ｋ＋ｉであり、この値は真のデータとダミーデータを合わせた全群数とも等しい。

【0217】

変換集合一覧８４において真の項目値の総数をＸとすると以下の関係式が成り立つ。
ｍｋ≦Ｘ≦ｍ（ｋ＋ｉ）（１０）
この式（１０）を分解して変形すると以下となる。
ｍ≦Ｘ／ｋ（１１）
ｉ≧Ｘ／ｍ－ｋ（１２）
ここで、ダミーレコード数が最小となるのは、変換集合の要素数が最小になればよいため、式（１２）の右辺が最小のとき、すなわちｍが最大のときである。

【0218】

よって、最適なダミーレコード群の数Ｇは、床関数と天井関数とを用いて以下の式（１３）で表される。

【0219】

【数8】

【0220】

なお、第２の実施の形態と同様に、項目値の種類数がｋ未満の場合は対応不可である。
＜第５の実施の形態における最適な変換集合数＞
次に、項目ごとの最適な変換集合数の決定方法について説明する。ＤＢ２１０が複数の項目を有する場合、項目ごとに項目値の種類数Ｘが異なる。よって、式（１３）によって求まる最適なダミーレコード群の数Ｇも項目ごとに異なる値となる。しかしながら、追加するダミーレコード群の数が項目ごとに異なると、行列形式で作成されたＤＢの項目（列）ごとの行数が不揃いとなり、ＤＢのスキーマが崩れてしまう。よってデータ登録要求部２４０は、追加するダミーレコード群の数は、項目ごとに求めたＧの最大値Ｇ_max を全項目に適用する。

【0221】

ここで、ある項目の変換集合を生成する際、データ登録要求部２４０は変換集合数ｍを決定する。変換集合数ｍは式（１３）の導出過程で、以下の式（１４）で求まる。

【0222】

【数9】

【0223】

ただし、この値は項目ごとに求めたＧに対応するもので、このＧがＧ_maxと異なる場合は、データ登録要求部２４０は、Ｇ_maxに応じた変換集合数を決定する。
各項目の変換集合数は、より少ないほど各変換集合に含まれる真の項目値の数が多くなる。このとき、ある項目においてＧに対してＧ_maxが大きければ、実効的なｋを大きくすることができる場合があり好ましい。そして、最適な項目ごとの変換集合数は、項目番号をｃとすると、以下の式（１５）を満たす最小値である。
ｍ_cＧ_max≦Ｘ_c （１５）
よって、最適な項目ごとの変換集合数ｍ_cは以下の式で表される。

【0224】

【数10】

【0225】

＜第５の実施の形態におけるダミー判別用のフラグと検索手法＞
第５の実施の形態では、ダミー判別用のフラグについては、第３の実施の形態で用いたフラグを適用可能である。第５の実施の形態では、どの群の頻度分布も真のデータの頻度分布と等しい。この場合、第２の実施の形態の手法で用いたフラグを適用した場合、頻度分析攻撃により秘匿すべき情報が推定される可能性がある。そのため、第２の実施の形態に示したフラグを第５の実施の形態に適用するのは適切ではない。

【0226】

また第５の実施の形態では、検索手法については、第２の実施の形態と第３の実施の形態とのいずれで用いた検索手法も適用可能である。なお第２の実施の形態では、検索要求部４３０は、１回の検索条件の入力に応じて群数個（Ｇ＋１個）の検索クエリを発行するが、第５の実施の形態では、例えば検索要求部４３０は、以下のようにして１つの検索クエリによる検索が可能である。
・検索要求部４３０は、データ登録サーバ２００，３００と変換集合一覧を共有する。例えば、暗号化用の共通鍵を基に各変換集合に含める要素や順番を選択する。
・検索要求部４３０は、真のデータを含めた全群の中から１つの群を確率的に選択する。
・検索要求部４３０は、指定された検索条件を変換集合に基づいて、選択した群の値に変換する。
・検索要求部４３０は、変換した値を検索条件として検索クエリを発行する。
・検索要求部４３０は、選択した群用のフラグ値生成関数を用いて、検索結果の取捨選択を行う。

【0227】

この手法では、各ダミーレコード群に真のデータと１対１で対応するデータが必ず存在する。そのため検索要求部４３０は、ダミーレコードの生成と同様の手法でダミーの検索クエリを生成し発行することで、真の検索クエリに適合するレコード数と同じ結果が得られる。

【0228】

また、暗号化に検索クライアント側で復号可能な方式を用いる場合は、以下のようにしてダミー検索の結果から真の検索条件に適合したデータの内容も知ることがきる。
・検索要求部４３０は、ダミーの検索クエリによる検索に適合したレコードの項目値（ダミー値）を復号する。
・検索要求部４３０は、復号した値を要素として含む変換集合を用い、復号したデータを式（８）の逆変換である以下の式（１７）により変換する。
ｂ_a＝ｃ_{mod(a-g,G+1),g} （１７）
＜第５の実施の形態におけるデータ登録処理と検索処理との処理手順＞
以下に第５の実施の形態におけるデータ登録処理と検索処理とについて、図３５～図３７を参照して説明する。

【0229】

図３５は、第５の実施の形態におけるデータ登録処理の手順の一例を示すフローチャートである。図３５に示す処理のうち、ステップＳ４０１，Ｓ４０４，Ｓ４０６～Ｓ４０９は、それぞれ図１４に示した第２の実施の形態の処理におけるステップＳ１０１，Ｓ１０３，Ｓ１０５～Ｓ１０８と同様の処理である。以下、第２の実施の形態と異なるステップＳ４０２，Ｓ４０３，Ｓ４０５の処理について説明する。

【0230】

［ステップＳ４０２］データ登録要求部２４０は、ダミーレコード群の数と項目ごとの変換集合数とを決定する。例えばデータ登録要求部２４０は、式（１３）に基づいて最適なダミーレコード群の数Ｇを算出する。さらにデータ登録要求部２４０は、式（１６）に基づいて、項目ごとの最適な変換集合数を算出する。

【0231】

［ステップＳ４０３］データ登録要求部２４０は、すべての項目それぞれについて、ステップＳ４０２で決定した変換集合数分の変換集合を生成する。
［ステップＳ４０５］データ登録要求部２４０は、ステップＳ４０２で決定した数のダミーレコード群を含むダミーデータを生成する。

【0232】

以下、ダミーデータ生成処理について詳細に説明する。
図３６は、第５の実施の形態におけるダミーデータ生成処理の手順の一例を示すフローチャートである。以下、図３６に示す処理をステップ番号に沿って説明する。

【0233】

［ステップＳ４１１］データ登録要求部２４０は、ステップＳ４０２で算出したダミーレコード群数Ｇを取得する。
［ステップＳ４１２］データ登録要求部２４０は、真のデータをＧ個コピーし、Ｇ個のダミーレコード群を生成する。

【0234】

［ステップＳ４１３］データ登録要求部２４０は、真のデータの全項目それぞれについて、ステップＳ４１４～Ｓ４１７の処理を実行する。
［ステップＳ４１４］データ登録要求部２４０は、全ダミーレコードそれぞれについて、ステップＳ４１５の処理を実行する。

【0235】

［ステップＳ４１５］データ登録要求部２４０は、ダミーレコードの項目値を変換する。例えばデータ登録要求部２４０は、処理対象の項目の変換集合の中から、ダミーレコードにおける処理対象の項目の項目値（変換対象項目値）を真の要素として含む変換集合を選択する。次にデータ登録要求部２４０は、処理対象のダミーレコードの属するダミーレコード群の群番号を取得する。データ登録要求部２４０は、変換対象項目値に対応する、選択した変換集合内の真の要素から、群番号の分だけ巡回的に右の要素を、その変換集合から取得する。そしてデータ登録要求部２４０は、変換処理対象のダミーレコード内の変換対象項目値を、取得した要素の値（ダミー値）に変換する。

【0236】

［ステップＳ４１６］データ登録要求部２４０は、全ダミーレコードそれぞれについて、ステップＳ４１５の処理が完了した場合、処理をステップＳ４１７に進める。
［ステップＳ４１７］データ登録要求部２４０は、全項目それぞれについて、ステップＳ４１４～Ｓ４１６の処理が完了した場合、ダミーデータ生成処理を終了する。

【0237】

このようにして、真のデータの項目値を、変換集合内の他の要素に置き換えることで、ダミーデータが生成される。そしてデータ登録要求部２４０が、生成したダミーデータとフラグ値を含む登録データを暗号化して秘匿化ＤＢ１１０に登録する。

【0238】

次に、第５の実施の形態における検索処理について、詳細に説明する。
図３７は、第５の実施の形態における検索処理の手順の一例を示すフローチャートである。以下、図３７に示す処理をステップ番号に沿って説明する。

【0239】

［ステップＳ４３１］検索要求部４３０は、ユーザからの検索条件の入力を受け付ける。
［ステップＳ４３２］検索要求部４３０は、変換集合一覧を生成する。例えば検索要求部４３０は、データ登録要求部２４０における項目ごとの変換集合生成処理と同様の処理を行い、変換集合一覧を生成する。この際、検索要求部４３０は、ダミーレコード群の数Ｇも算出する。

【0240】

［ステップＳ４３３］検索要求部４３０は、真のデータのレコード群とダミーレコード群とを含むすべての群の中から、１つの群を確率的に選択する。
［ステップＳ４３４］検索要求部４３０は、ダミーレコード群を選択したか否かを判断する。検索要求部４３０は、選択したのがダミーレコード群であれば、処理をステップＳ４３５に進める。また検索要求部４３０は、選択したのが真のデータのレコード群であれば、処理をステップＳ４４０に進める。

【0241】

［ステップＳ４３５］検索要求部４３０は、入力された検索条件を、変換集合に基づいて変換する。例えば検索要求部４３０は、検索条件において、検索対象の項目と項目値が指定されている場合、まず検索対象の項目に対応する１以上の変換集合の中から、指定された項目値に対応する要素を含む変換集合を特定する。次に検索要求部４３０は、選択したダミーレコード群の群番号を取得する。検索要求部４３０は、検索対象の項目値に対応する、選択した変換集合内の真の要素から、群番号の分だけ巡回的に右の要素を、その変換集合から取得する。そして検索要求部４３０は、変処理対象のダミーレコード内の変換対象項目値を、取得した要素の値（ダミー値）に変換する。

【0242】

［ステップＳ４３６］検索要求部４３０は、ステップＳ４３５で変換された後の検索条件に、選択されたダミーレコード群に対応するフラグ値を追加した検索クエリを暗号化して、データ管理サーバ１００に送信する。なお検索要求部４３０は、検索結果からフラグ値によるレコードの取捨選択が可能であるため、検索クエリにフラグ値を追加しなくてもよい。

【0243】

［ステップＳ４３７］検索要求部４３０は、データ管理サーバ１００から検索結果を取得する。
［ステップＳ４３８］検索要求部４３０は、検索結果に含まれる、選択されたダミーレコード群のレコード内の項目値のうち、検索条件で指定された項目の項目値（ダミー値）を復号する。なお検索クエリにフラグ値を追加せず、データ管理サーバ１００が、フラグ値以外の条件に基づいて検索した検索結果を送信する場合がある。この場合、検索要求部４３０は、選択した群に対応するフラグ値生成関数を用いて、検索結果に含まれるレコードのＩＤに対応するフラグ値を生成する。検索要求部４３０は、生成したフラグ値を暗号化する。そして検索要求部４３０は、該当レコードが、暗号化したフラグ値と同じ値のフラグ値を有する場合、そのレコードを選択した群のレコードであると判定する。検索要求部４３０は、選択した群のレコードから、検索要求で指定した項目の項目値を抽出し、その項目値を復号する。

【0244】

［ステップＳ４３９］検索要求部４３０は、復号されたダミー値を、変換集合に基づいて逆変換する。これにより、ダミー値に対応する真のデータの項目値が得られる。その後、検索要求部４３０は、処理をステップＳ４４３に進める。

【0245】

［ステップＳ４４０］検索要求部４３０は、検索条件に真のデータのレコード群に対応するフラグ値を追加した検索クエリを暗号化して、データ管理サーバ１００に送信する。なお検索要求部４３０は、検索結果からフラグ値によるレコードの取捨選択が可能であるため、検索クエリにフラグ値を追加しなくてもよい。

【0246】

［ステップＳ４４１］検索要求部４３０は、データ管理サーバ１００から検索結果を取得する。
［ステップＳ４４２］検索要求部４３０は、検索結果に含まれる、真のデータのレコード群のレコード内の項目値のうち、検索条件で指定された項目の項目値を復号する。なお、データ管理サーバ１００がフラグ値以外の条件に基づいて検索した検索結果を送信した場合、ステップＳ４３８と同様に、選択した群のレコードを判定する。そして、検索要求部４３０は、選択した群のレコードから、検索要求で指定した項目の項目値を抽出し、その項目値を復号する。

【0247】

［ステップＳ４４３］検索要求部４３０は、検索結果を出力する。
このようにして、端末装置４００では、検索結果としてダミー値を取得した場合でも、そのダミー値に基づいて、入力された検索条件に適合する真のデータの項目値を取得することができる。そのため、攻撃者がデータ管理サーバ１００から送信された検索結果を取得したとしても、検索結果に含まれる項目値が真のデータの項目値なのかダミー値なのかを、攻撃者は判別することができない。その結果、真のデータの機密性が向上する。

【0248】

〔まとめ〕
上記の第２～第５の実施の形態では、複数の病院の医療情報を統合し製薬企業が新薬開発等で利活用するサービスで有用な秘匿検索におけるセキュリティ要件に関する課題を解決する４つの具体的な手法を示した。第２の実施の形態は、ＤＢ２１０に含まれる項目が１つの場合に有効で、頻度が同程度の暗号文が少なくともｋ個となるようにした上で、さらに可能な範囲で頻度分布を一様に近付けるものである。第３および第４の実施の形態は、ＤＢ２１０が複数の項目を有する場合に有効な手法であり、列間の頻度の独立性を用いた攻撃も考慮したものである。第５の実施の形態は、複数列の秘匿化ＤＢ１１０からのデータの削除も可能とする手法である。また第２～第５の実施の形態に示した手法は、いずれも、ｋとＤＢ２１０に格納される項目値の種類数によって変化する最小限のダミーレコード数の決定法も示した。これらの手法によれば、既に頻度攪乱済みのデータを変更せずに逐次追加されるデータに対しても頻度攪乱が可能となる。

【0249】

なお、１つの群に含まれるダミーレコードの数は、真のデータのレコード数と同数または整数倍ちょうどでなくてもよい。例えばデータ登録要求部２４０は、真のデータのレコードの数またはその整数倍に対して、確率的に決定した整数値分増減させた数のダミーレコードを生成してもよい。

【0250】

また、前述した実施の形態では、各レコードの項目値の頻度分析攻撃に対する頻度攪乱の例を示したが、検索された項目の履歴から項目名を推定する頻度分析攻撃に対し、真の項目数の倍数のダミー項目と、１つのフラグレコードを同様の手法で追加してもよい。即ち、行列形式のデータにおいて、前述の実施の形態で行方向について行った処理を、列方向について同様に行ってもよい。

【0251】

以上、実施の形態を例示したが、実施の形態で示した各部の構成は同様の機能を有する他のものに置換することができる。また、他の任意の構成物や工程が付加されてもよい。さらに、前述した実施の形態のうちの任意の２以上の構成（特徴）を組み合わせたものであってもよい。

【0252】

以上の実施の形態に関し、さらに以下の付記を開示する。
（付記１）
コンピュータに、
秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群に基づいて、前記秘匿レコードに含まれる１以上の項目の内の一の項目に設定可能な複数の項目値それぞれの、前記秘匿レコード群内での出現頻度を算出し、
第１項目値の出現頻度よりも出現頻度が少ない第２項目値が存在する場合、前記一の項目にダミーの項目値を設定した１以上のダミーレコードを含み、前記一の項目に前記第１項目値を設定した前記ダミーレコードよりも、前記一の項目に前記第２項目値を設定した前記ダミーレコードを、前記第１項目値の出現頻度と前記第２項目値の出現頻度との差分に基づく数だけ多く含む、ダミーレコード群を生成し、
前記秘匿レコードに真を示す第１フラグを設定し、
前記ダミーレコードに偽を示す第２フラグを設定し、
前記秘匿レコードと前記ダミーレコードそれぞれの前記一の項目に設定された項目値、前記秘匿レコードに付与された前記第１フラグ、および前記ダミーレコードに付与された前記第２フラグを暗号化し、
前記秘匿レコード群と前記ダミーレコード群とを出力する、
処理を実行させる秘密情報管理プログラム。

【0253】

（付記２）
前記ダミーレコード群の生成では、前記一の項目に設定可能な項目値を複数の集合に分類し、集合ごとに、前記集合内で出現頻度が最大の項目値を前記第１項目値とし、前記集合内の前記第１項目値以外の項目値を前記第２項目値として、前記一の項目に前記第１項目値または前記第２項目値を設定した前記ダミーレコードを生成する、
付記１記載の秘密情報管理プログラム。

【0254】

（付記３）
前記ダミーレコード群の生成では、前記秘匿レコード群における出現頻度が多い方からｋ個（ｋは２以上の整数）ずつの前記集合を生成し、前記複数の項目値の数をｋで除算したときに剰余がある場合、出現頻度が低い方からｋと剰余の合計値分の個数の項目値を同一の前記集合に含める、
付記２に記載の秘密情報管理プログラム。

【0255】

（付記４）
前記コンピュータに、さらに、
前記秘匿レコード群と前記ダミーレコード群との出力前に、前記秘匿レコード群と前記ダミーレコード群とを連結して一のレコード群を生成し、前記一のレコード群内の前記秘匿レコードと前記ダミーレコードとの順番をランダムに並べ替える、
処理を実行させる付記１ないし３のいずれかに記載の秘密情報管理プログラム。

【0256】

（付記５）
前記ダミーレコード群の生成では、前記秘匿レコード群に含まれる前記秘匿レコードと同数の前記ダミーレコードを含む前記ダミーレコード群を、１または複数生成する、
付記１ないし４のいずれかに記載の秘密情報管理プログラム。

【0257】

（付記６）
前記第２フラグの設定では、１または複数生成された前記ダミーレコード群ごとに異なり、前記第１フラグとも異なる値の前記第２フラグを、前記ダミーレコード群それぞれに含まれる前記ダミーレコードに設定する、
付記５記載の秘密情報管理プログラム。

【0258】

（付記７）
前記第１フラグの設定では、前記秘匿レコードの識別子を変数とする第１関数の値を、前記第１フラグとして前記秘匿レコードに設定し、
前記第２フラグの設定では、前記ダミーレコードの識別子を変数とし、同一の変数の値に対して前記第１関数とは異なる値を出力する第２関数の値を、前記第２フラグとして前記ダミーレコードに設定する、
付記１ないし６のいずれかに記載の秘密情報管理プログラム。

【0259】

（付記８）
前記秘匿レコード群内の前記秘匿レコードそれぞれには、複数の項目が含まれており、
前記コンピュータは、さらに、
前記秘匿レコード群内の前記複数の項目を、前記複数の項目それぞれの項目値を含む１つの項目に統合し、統合した項目を前記一の項目とする、
処理を実行する付記１ないし７のいずれかに記載の秘密情報管理プログラム。

【0260】

（付記９）
前記ダミーレコード群の生成では、前記ダミーレコード群内の第１項目と第２項目との間の項目値の独立性の度合いが、前記秘匿レコード群内の前記第１項目と前記第２項目との間の項目値の独立性の度合いに基づいて決定される値となるように、前記ダミーレコード群内の前記第１項目と前記第２項目との項目値を決定する、
付記１ないし８のいずれかに記載の秘密情報管理プログラム。

【0261】

（付記１０）
前記ダミーレコード群の生成では、前記一の項目に設定可能な項目値を、所定数の項目値を含む１以上の項目値群に所定の規則に従って分類し、前記項目値群のそれぞれについて、前記項目値群内の項目値を同一郡内の異なる項目値に全単射する全単射関係を定め、前記秘匿レコードの前記一の項目に設定されている既存項目値を前記全単射関係に従い変換することで、前記ダミーレコードの前記一の項目に設定する項目値を決定する、
付記９記載の秘密情報管理プログラム。

【0262】

（付記１１）
コンピュータが、
秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群に基づいて、前記秘匿レコードの一の項目に設定可能な複数の項目値それぞれの、前記秘匿レコード群内での出現頻度を算出し、
第１項目値の出現頻度よりも出現頻度が少ない第２項目値が存在する場合、前記一の項目にダミーの項目値を設定した１以上のダミーレコードを含み、前記一の項目に前記第１項目値を設定した前記ダミーレコードよりも、前記一の項目に前記第２項目値を設定した前記ダミーレコードを、前記第１項目値の出現頻度と前記第２項目値の出現頻度との差分に基づく数だけ多く含む、ダミーレコード群を生成し、
前記秘匿レコードに真を示す第１フラグを設定し、
前記ダミーレコードに偽を示す第２フラグを設定し、
前記秘匿レコードと前記ダミーレコードそれぞれの前記一の項目に設定された項目値、前記秘匿レコードに付与された前記第１フラグ、および前記ダミーレコードに付与された前記第２フラグを暗号化し、
前記秘匿レコード群と前記ダミーレコード群とを出力する、
秘密情報管理方法。

【0263】

（付記１２）
データベースを有するサーバと、
秘匿対象の秘匿レコードを１つ以上含む秘匿レコード群に基づいて、前記秘匿レコードの一の項目に設定可能な複数の項目値それぞれの、前記秘匿レコード群内での出現頻度を算出し、
第１項目値の出現頻度よりも出現頻度が少ない第２項目値が存在する場合、前記一の項目にダミーの項目値を設定した１以上のダミーレコードを含み、前記一の項目に前記第１項目値を設定した前記ダミーレコードよりも、前記一の項目に前記第２項目値を設定した前記ダミーレコードを、前記第１項目値の出現頻度と前記第２項目値の出現頻度との差分に基づく数だけ多く含む、ダミーレコード群を生成し、
前記秘匿レコードに真を示す第１フラグを設定し、
前記ダミーレコードに偽を示す第２フラグを設定し、
前記秘匿レコードと前記ダミーレコードそれぞれの前記一の項目に設定された項目値、前記秘匿レコードに付与された前記第１フラグ、および前記ダミーレコードに付与された前記第２フラグを暗号化し、
前記秘匿レコード群と前記ダミーレコード群とを前記サーバの前記データベースに格納するデータ登録装置と、
前記一の項目の項目値に関する検索条件と前記第１フラグの値を指定したフラグ条件とを含む真の検索クエリと、前記検索条件と前記第２フラグの値を指定した前記フラグ条件とを含む偽の検索クエリとの少なくとも一方を、前記検索条件に示される項目値と前記フラグ条件に示される前記第１フラグまたは前記第２フラグを暗号化して、前記サーバに送信し、前記サーバから、前記データベース内の前記検索クエリによる検索結果を取得するデータ利用装置と、
を有する秘密情報管理システム。

【0264】

（付記１３）
前記データ登録装置は、前記ダミーレコード群の生成では、前記一の項目に設定可能な項目値を、所定数の項目値を含む１以上の項目値群に所定の規則に従って分類し、前記項目値群のそれぞれについて、前記項目値群内の項目値を同一郡内の異なる項目値に全単射する全単射関係を定め、前記秘匿レコードの前記一の項目に設定されている既存項目値を前記全単射関係に従い変換することで、前記ダミーレコードの前記一の項目に設定する項目値を決定し、
前記データ利用装置は、前記第２フラグを指定した偽の前記検索クエリを前記サーバに送信する場合、前記検索条件に示される項目値を、前記全単射関係に従い置換し、置換により得られた項目値を含む前記検索クエリを送信する、
付記１２記載の秘密情報管理システム。

【0265】

（付記１４）
前記データ利用装置は、偽の前記検索クエリを前記サーバに送信した場合、偽の前記検索クエリに適合する適合レコードに含まれる前記一の項目の項目値を復号し、復号された既復号項目値を、前記全単射関係の逆写像関係に従い置換する、
付記１３記載の秘密情報管理システム。

【0266】

（付記１５）
前記データ利用装置は、前記秘匿レコード群および１または複数生成された前記ダミーレコード群のうちの１つを確率的に選択し、前記秘匿レコード群を選択した場合、前記第１フラグを指定した真の前記検索クエリを前記サーバに送信し、１または複数生成された前記ダミーレコード群のうちの１つを選択した場合、前記第２フラグを指定した偽の前記検索クエリを前記サーバに送信する、
付記１３または１４に記載の秘密情報管理システム。

【0267】

（付記１６）
前記データ利用装置は、前記第１フラグを指定した前記フラグ条件を含む真の検索クエリと、前記第２フラグを指定した前記フラグ条件を含む偽の検索クエリとを生成し、ランダムな順番で前記真の検索クエリと前記偽の検索クエリとを前記サーバに送信する、
付記１２記載の秘密情報管理システム。

【符号の説明】

【0268】

１データ登録装置
１ａ記憶部
１ｂ処理部
２サーバ
２ａＤＢ
３データ利用装置
４秘匿レコード群
５ダミーレコード群
６登録データ
７，１０検索クエリ
８，１１検索結果
９表示画面

【図1】