【文献】
Bing-Rong Lin, et al.,A Framework for Privacy Preserving Statistical Analysis on Distributed Databases,2012 IEEE International Workshop on Information forensics and Security (WIFS),米国,IEEE,2012年12月 2日,p.61-66
【文献】
Wang,Y., et al.,Information-Theretically Secure Three-party Computation with One Active Adversary,MITSUBISHI ELECTRIC RESEARCH LABORATORIES,Mitsubishi Electric Research Laboratories, Inc.[オンライン],2012年 6月,TR2012-045,p.1-13,[平成28年8月8日検索]、インターネット,URL,<http://www.meri.com/publications/docs/TR2012-045.pdf>
【文献】
Bing-Rong Lin, et al.,A Framework for Extracting Semantic Guarantees from Privacy Definitions,Cornell University Library,[オンライン],2012年 8月27日,arXiv.org>cs>arXiv:1208.5443v1 [cs.DB],p.1-36,[平成28年8月8日検索]、インターネット,URL,<https://arxiv.org/pdf/1208.5443v1.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
【背景技術】
【0002】
ビッグデータ
毎日、2.5クィンティリオン(10
18)(250京)バイトのデータが生成されていると推定されている。これは、今日の世界の全てのデータの90%がここ2年で生成されたことを意味する。この「ビッグ」データは、ソーシャルメディア、映像及びビデオ、金融取引、電話、政治、医療機関、学術機関、及び金融機関、並びに民間企業といったあらゆる場所から生じる。言うまでもなく、このデータは、「クラウド」として知られてきているものに高度に分散している。
【0003】
このデータは、統計的に解析する必要がある。多くの用途の場合、データは、プライベートであり、解析はセキュアであることを要する。セキュアとは、本明細書で用いられるとき、データのソースの識別情報及び生のデータの詳細な内容等のデータのプライバシーが保全されることを意味する。ランダム化応答は、これを行う1つの従来技術の方法である。ランダム化応答は、特定の応答者(respondent:応答側)の応答を明確に明らかにしないが、平均又は分散等の集約統計尺度は、依然として求めることができる。
【0004】
差分プライバシー(DP)は、ラプラスノイズ等のランダム化関数を用いることによってプライバシーを保全するもう1つの方法である。非公式には、差分プライバシーは、応答者のデータベース上で求められた関数の結果が特定の応答者の有無の影響をほとんど受けないことを意味する。公式には、その関数が、1人の応答者のみが異なる隣接データベース上で評価される場合、同じ結果を出力する確率は、ほとんど変化しない。
【0005】
k匿名性等のプライバシーのための従来のメカニズムは、差分プライベートではない。なぜならば、敵対者は、任意の量のヘルパー(サイド)情報を匿名データにリンクして匿名性を無効にすることができるからである。
【0006】
差分プライバシーを提供するのに用いられる他のメカニズムは、通常、出力摂動を伴い、例えば、ノイズがデータの関数に追加される。それにもかかわらず、ノイズがデータ自体に追加されるこのランダム化応答メカニズムは、DPを提供することを示すことができる。
【0007】
あいにく、DPは、応答者のプライバシーの厳格で最悪の場合の特徴付けを提供するが、データの経験確率分布又は「タイプ」のプライバシーを定式化するには十分ではない。特に、敵対者が、隣接する匿名データベースにアクセスした場合、DPメカニズムは、敵対者がどの応答者も非匿名化することができないことを保証する。しかしながら、構成によっては、匿名データベースを処理することによって、データの分布が明らかにされる。
【0008】
したがって、応答者のプライバシーを保全するとともに、経験確率分布も敵対者から保護することが必要とされている。
【0009】
特許文献1では、出願人は、信頼できない第三者サーバーによってデータを処理するための方法を開示している。このサーバーは、データに関する集約統計を求めることができ、クライアントは、アウトソーシングされたデータを正確に取り出すことができる。このプロセスでは、データは符号化されているので、データベース内の個々のエントリーは、サーバーには明らかにされない。この方法は、誤り訂正符号の組み合わせ及びランダム化応答を用い、これによって、応答の機密性を維持しつつ、当該応答を検知することが可能になる。
【0010】
特許文献2では、出願人は、信頼できない第三者によってデータをセキュアに処理するための方法を開示している。この方法は、クライアントデータを信頼できないサーバーにアウトソーシングして結果を生成することを可能にする暗号学的にセキュアな擬似乱数発生器を用いる。これらの結果は、データに関する正確な集約統計及びデータに関する監査報告を含むことができる。いずれの場合も、サーバーは、変更されたデータを処理して正確な結果を生成する一方、基礎となるデータ及び結果は、サーバーに明らかにされない。
【発明を実施するための形態】
【0037】
方法の概要
図1に示すように、この発明の実施の形態は、プライベートデータに対して統計解析をセキュアに実行するための方法を提供する。これは、実際の生のデータがこのデータのソース以外の誰にも明らかにされないことを意味する。
【0038】
セキュリティアプリケーション、プライバシーアプリケーション、及びランダム化アプリケーションにおいて、「弱い」及び「強い」は、よく理解され文書化されている専門用語である。弱いとは、基礎となるデータ(例えば、パスワード、ユーザー識別情報等)を、既知の「クラッキング」方法を用いて回復することができることを意味する。強いとは、妥当な時間量及び妥当な計算リソースが与えられた際に、データを回復することが非常に困難であることを意味する。
【0039】
加えて、ランダム化は、特定の分布に従ってデータをランダム化することを意味する。この用語は次の概念を包含する。第1に、データは、プライバシーを保護するように匿名化される。第2に、データは、操作が、このデータを公開に対して安全にするという目的を果たすという考えを強化するようにサニタイズされる。
【0040】
データX101及びY102が、別々に第1のランダム化がされて(RAM1)、それぞれランダム化データ
【0042】
が取得される。ランダム化110及び115は、同じものとすることもできるし、異なるものとすることもできる。好ましい実施の形態では、ポストランダム化方法(PRAM:Post RAandomisation Method)が用いられる。110及び115によって提供されるセキュリティは、比較的「弱い」。これは、データソースの識別情報は秘匿され、個々のデータプライバシーは保全されるが、データに関する集約統計はおそらく多少の作業で求めることができることを意味する。
【0045】
は、再度(第2)のランダム化がされて(RAM2)、それぞれ、サーバー用のランダム化データ
【0049】
とが取得される。この第2のランダム化は、第1のランダム化と同じものとすることもできるし、異なるものとすることもできる。ヘルパー情報において、Tは真の経験分布を表す。
【0050】
統計において、経験分布は、データの正規化されたヒストグラムである。n個のデータポイントのそれぞれは、1/nずつ経験分布に寄与する。経験分布は、基礎となるデータを代表する。経験分布は、平均、中央値、モード、歪度(skewedness:スキュードネス)、変位値等を含む多数の異なるタイプの統計を求めるのに十分である。
【0051】
120及び125によって提供されるセキュリティは、比較的「強い」。すなわち、データX及びYに関する集約統計のプライバシーは保全される。
【0057】
クライアント130aは、この時点で、サイド情報
【0061】
に適用して、第2のランダム化を「解除」し、推定された
【0063】
を取得することができる。符号上の「・」によって示される、推定されたデータX及びYの分布は、一次統計、二次統計等を取得するのに十分である。クライアントは、統計を求めることはできるが、弱いセキュリティのために、正確なデータX及びYを回復することはできない。
【0064】
方法の詳細
この説明を簡略化するために、
図2に示すように、2つのデータソースであるアリス及びボブを用いたこの発明の問題定式化及び結果を提示する。しかしながら、この発明の方法は、3つ以上のソースに容易に一般化することができる。また、上記よりも少ないか又は多いランダム化を用いた他のセキュリティレベルも用いることができる。
【0065】
アリス及びボブは、データ201及び202を別々にサニタイズして(210)、応答者205のプライバシーを保護する。本明細書では、サニタイズされたデータから正確なプライベート情報を回復することは不可能である。例えば、ランダムノイズを加えるといった、データをサニタイズするための多くの技法が知られている。
【0066】
サニタイズされたデータ211及び212は、組み合わされて(220)、「クラウド」サーバーにおけるデータベース230に入れられる。サーバーは、公衆ネットワーク(インターネット)に接続することができる。これによって、データは、クライアントの認可されたユーザーによる統計解析に利用可能である。
【0067】
図3に示すように、アリス及びボブは、サニタイズされたデータをサーバーに格納して、これらの潜在的に大きなデータベース上で必要とされる送信及び計算を容易にする。信頼できない認可されたクライアント301は、この時点で、低い割合のヘルパー情報303の援助を受けて、データに対して統計解析を実行することができる。このヘルパー情報は、元のデータベース及び/又はランダム化データと比較して相対的に小さいという点で低い割合である。ヘルパー情報303によって、認可されたクライアントは、第2のランダム化を本質的に解除することが可能になる。
【0068】
この解析は、次の要件を条件とする。ソースのプライベートデータは、サーバーにもクライアントにも明らかにされるべきではない。ソース及びボブによって提供されたデータの統計は、サーバーに明らかにされるべきではない。クライアントは、アリス及びボブによって提供されたデータの結合分布、周辺分布及び条件付き分布を求めることができるべきである。これらの分布は、データの一次統計、二次統計等を求めるのに十分である。
【0069】
問題の枠組み及び表記
アリスのデータは、確率変数系列(太字)X:=(X
1,X
2,…,X
n)である。ここで、各変数X
iは、有限アルファベット(ゴシック)Xからの値を取る。同様に、ボブのデータは、確率変数系列(太字)Y:=(Y
1,Y
2,…,Y
n)としてモデル化される。ここで、各Y
iは、有限アルファベット(ゴシック)Yからの値を取る。これらの系列の長さnは、データベース内の応答者の総数を表し、各(X
i,Y
i)対は、アリス及びボブによって一括して保持された応答者iのデータを表す。ここで、アルファベット(ゴシック)X×(ゴシック)Yは、各応答者のデータの定義域を表す。
【0070】
データ対(X
i,Y
i)は、(太字)x:=(x
1,…,x
n)∈(ゴシック)X
n及び(太字)y:=(y
1,…,y
n)∈(ゴシック)Y
nについて、
【0072】
となるように、(ゴシック)X×(ゴシック)Yにわたる結合分布P
X,Yに従って、独立同一分布(i.i.d.)である。
【0073】
プライバシーメカニズムは、条件付き分布P
O|Iに従って入力を出力にランダムにマッピング(M:(ゴシック)I→(ゴシック)O)する(310)。ポストランダム化方法(PRAM)は、入力及び出力がともに系列、すなわち、アルファベット(ゴシック)Dについて(ゴシック)I=(ゴシック)O=(ゴシック)D
nであり、入力系列の各要素が要素ごとの条件付き分布に従ったi.i.d.であるプライバシーメカニズムの一部類である。
【0074】
アリス及びボブはそれぞれ、R
A:(ゴシック)X
n→(ゴシック)X
n及びR
B:(ゴシック)Y
n→(ゴシック)Y
nとして、それらのデータにPRAMを別々に適用する。それぞれの出力は、
【0076】
であり、支配分布(governing distribution)は、
【0082】
によって定義されるR
AB:(ゴシック)X
n×(ゴシック)Y
n→(ゴシック)X
n×(ゴシック)Y
nを用いて、各個々のメカニズムの連鎖からもたらされるメカニズムも示される。R
ABも、PRAMメカニズムであり、条件付き分布
【0085】
タイプ表記
確率変数系列(太字)X:=(X
1,…,X
n)のタイプ又は経験分布は、
【0087】
によって定義されるマッピングT
(太字)X:(ゴシック)X→[0,1]である。
【0088】
2つの系列(太字)X:=(X
1,…,X
n)及び(太字)Y:=(Y
1,…,Y
n)の結合タイプは、
【0090】
によって定義されるマッピングT
(太字)X,(太字)Y:(ゴシック)X×(ゴシック)Y→[0,1]である。
【0091】
別の(太字)X:=(X
1,…,X
n)を所与とした系列(太字)Y:=(Y
1,…,Y
n)の条件付きタイプは、
【0093】
によって定義されるマッピングT
(太字)Y|(太字)X:(ゴシック)Y×(ゴシック)X→[0,1]である。
【0094】
条件付き分布は、結合分布が周辺分布によって除算されたものである。
【0095】
これらのタイプマッピングの値は、基礎となる系列を所与として求められ、これらの系列がランダムであるとき、ランダムである。
【0096】
分布及びタイプのための行列表記
有限アルファベット確率変数の様々な分布及びタイプは、ベクトル又は行列として表すことができる。それらの有限の定義域において一貫した順序付けを固定することによって、これらのマッピングは、それらの定義域によってインデックス付けされたベクトル又は行列とすることができる。分布P
X:(ゴシック)X→[0,1]は、そのx番目の要素(x∈(ゴシック)X)が(太字)P
X[x]:=P
X(x)によって与えられる|(ゴシック)X|×1列ベクトル(太字)P
Xとして記述することができる。
【0097】
条件付き分布P
Y|X:(ゴシック)Y×(ゴシック)X→[0,1]は、(太字)P
Y|X[y,x]:=P
Y|X(y|x)によって定義される|(ゴシック)Y|×|(ゴシック)X|行列(太字)P
Y|Xとして記述することができる。結合分布P
X,Y:(ゴシック)X×(ゴシック)Y→[0,1]は、(太字)P
X,Y[x,y]:=P
X,Y(x,y)によって定義される|(ゴシック)X|×|(ゴシック)Y|行列(太字)P
X,Yか、又は(太字)P
X,Yの列をスタックすることによって形成される|(ゴシック)X||(ゴシック)Y|×1列ベクトル
【0100】
対応するタイプマッピングに関して、系列(太字)X及び(太字)Yについて同様に定義される(太字)T
(太字)X、(太字)T
(太字)Y|(太字)X、(太字)T
(太字)X,(太字)Y、及び
【0102】
を用いて、タイプのための行列表記を同様に作成することができる。これらのタイプベクトル又はタイプ行列は、ランダム量である。
【0103】
プライバシー及び有用性の条件
次に、別々にサニタイズされたデータに関する統計を計算するこの問題のプライバシー及び有用性の要件を定式化することにする。上述したプライバシーの要件によれば、この定式化は、応答者のプライバシー、分布のプライバシー、及び最後にクライアントの有用性を考慮する。
【0104】
応答者のプライバシー
応答者に関係したデータは、認可された、おそらく信頼できないあらゆるクライアントを含む他の全ての関係者からプライベートに保たれなければならない。この概念は、応答者用のε差分プライバシーを用いて形式化される。
【0105】
定義:ε≧0の場合、ハミング距離d
H((太字)d,(太字)d’)≦1内の全てのデータセット(太字)d,(太字)d’∈(ゴシック)D
n及び全ての(ゴシック)S⊆(ゴシック)Oについて、
【0107】
である場合、ランダム化メカニズムM:(ゴシック)D
n→(ゴシック)Oは、ε差分プライバシーを与える。
【0108】
応答者が、i.i.d.であるようにサンプリングされると仮定すると、DPを満たすプライバシーメカニズムは、結果として、強いプライバシー保証をもたらす。1人を除く全ての応答者の知識を有する敵対者は、唯一の見つからない応答者のデータを発見することができない。このプライバシーの概念は、厳格であるとともに広く受け入れられ、プライバシーの公理(privacy axioms)を満たす。
【0109】
分布のプライバシー
アリス及びボブは、データの統計を敵対者にもサーバーにも明らかにしたくない。したがって、ソース及びサーバーは、経験分布、すなわち、周辺タイプ及び結合タイプを
【0111】
から回復することができないことを確保しなければならない。上述したように、εDPは、この場合にプライバシーを特徴付けるのに用いることができない。経験確率分布のためのプライバシー概念を定式化するために、以下のようにε差分プライバシーが拡張される。
【0112】
定義:(δ分布ε差分プライバシー)d(・,・)を分布の空間における距離メトリックとする。ε,δ≧0の場合、d((太字)T
(太字)d,(太字)T
(太字)d’)≦δである全てのデータセット(太字)d,(太字)d’∈(ゴシック)D
n及び全ての(ゴシック)S⊆(ゴシック)Oについて、
【0114】
である場合、ランダム化メカニズムM:(ゴシック)D
n→(ゴシック)Oは、δ分布ε差分プライバシーを与える。
【0115】
より大きなδ及びより小さなεは、分布のより良好な保護を提供する。この発明者らの定義は、プライバシーの公理も満たす。
【0116】
認可されたクライアントのための有用性
認可されたクライアントは、ランダム化データベース230から統計を抽出する。この問題は、結合及び周辺タイプ関数T
(太字)X,(太字)Y(x,y)、T
(太字)X(x)、及びT
(太字)Y(y)、又は(等価的に)行列(太字)T
(太字)X,(太字)Y、(太字)T
(太字)X、及び(太字)T
(太字)Yの再構成としてモデル化される。サーバーは、サニタイズされたデータ
【0118】
に基づく計算を提供することによってこの再構成を容易にする。アリス及びボブは、別々に生成された低い割合のヘルパー情報303を提供する。クライアントは、サーバーの計算及びヘルパー情報を用いて、推定値
【0121】
分布の空間にわたる距離メトリックd(・,・)について、推定値の期待有用性(expected utility)が、以下のように定義される。
【0123】
プライバシーの要件の解析
距離関数dは、共通の分布距離尺度によって共有される一般特性を満たすので、データベースの周辺タイプのプライバシー保護は、結合タイプのためのプライバシー保護を含意する。
【0124】
補助定理1:d(・,・)を、以下の式となるような距離関数とする。
【0126】
M
ABを、M
AB((太字)X,(太字)Y):=(M
A((太字)X),M
B((太字)Y))によって定義されるプライバシーメカニズムとする。M
Aがδ分布ε
1差分プライバシーを満たし、M
Bがδ分布ε
2差分プライバシーを満たす場合、M
ABは、δ分布(ε
1+ε
2)差分プライバシーを満たす。
【0127】
縦に分割されたデータが別々にサニタイズされ、サニタイズされたテーブルから結合分布を回復することが希望されている場合、プライバシーメカニズムの選択は、PRAM手順の部類に制限される。PRAMアルゴリズムがプライバシー制約を満たすようにPRAMアルゴリズムに課せられるべき制約が解析される。先ず、アリス及びボブのデータベース内の応答者のプライバシーの要件を検討する。
【0128】
補助定理2:R:(ゴシック)X
n→(ゴシック)X
nを、条件付き分布
【0130】
によって支配されるPRAMメカニズムとする。
【0133】
補助定理3:M
AB((太字)x,(太字)y)=(M
A((太字)x),M
B((太字)y))であると定義する。M
Aがε
1DPを満たし、M
Bがε
2DPを満たす場合、M
ABは(ε
1+ε
2)DPを満たす。
【0134】
この補助定理は、i番目のソースのサニタイズされたデータがε
iDPを満たす場合に、結合システムが
【0136】
を提供するとき、k個のソースに拡張することができる。次に、結合タイプ及び周辺タイプのためのプライバシーの要件を検討する。
【0137】
補助定理4:d(・,・)を、分布の空間における距離メトリックとする。R:(ゴシック)X
n→(ゴシック)X
nを、条件付き分布
【0139】
によって支配されるPRAMメカニズムとする。
【0140】
必要条件:Rがδ分布εDPを満たす場合、Rは、応答者について
【0145】
を満たす場合、Rは、δ分布εDPを満たす。
【0146】
例示の実施態様
次に、上記で与えたシステムの枠組みの実現例を説明する。この実現例において、プライバシーメカニズムは、この発明のプライバシー及び有用性の要件を満たすように選択される。このシステムの重要な要件は、以下のように要約することができる。
(I).R
ABは、δ分布ε差分プライベートメカニズムであり、
(II).ヘルパー情報は、εDPアルゴリズムによって生成され、
(III).R
A及びR
Bは、PRAMメカニズムである。
【0147】
サニタイズされたデータは、δ分布ε差分プライベートメカニズムによって生成されるので、ヘルパー情報は、周辺タイプ及び結合タイプを正しく推定するのに必要である。種々のレベルのプライバシーを保全する出力を生成するために、ソースは、マルチレベルプライバシー手法を用いる。
【0148】
図4に示すように、データベースは、2パスのランダム化プロセス410によってサニタイズされる(
図1参照)。第1のパスR
AB,1は、生のソースデータ(太字)X、(太字)Yを入力として取り込み、応答者プライバシーを保証する一方、第2のパスR
AB,2は、第1のパスのサニタイズされた出力
【0150】
を入力として取り込み、分散プライバシーを保証する。ヘルパー情報303は、第2のパスの間に抽出され、応答者プライバシーを保全する。これらのメカニズムは、以下の制約を用いて構成される。
(i).R
A,2及びR
B,2は(ε/2n)-DP
(ii).R
A,1及びR
B,1は(ε/2)-DP
(iii).R
A,1、R
A,2、R
B,1、及びR
B,2はPRAMメカニズムである。
【0151】
補助定理3によって、制約(ii)は、R
AB,1がεDPであることを含意し、したがって、要件(II)を含意する。R
A((太字)X)は、R
A,2(R
A,1((太字)X))とみなすことができ、条件付き分布(行列表記による)
【0153】
によって支配されることに留意されたい。
【0154】
したがって、制約(iii)は、要件(III)が満たされることを含意する。補助定理1及び4によって、制約(i)は、要件(I)が満たされることを含意する。ここで、全てのプライバシーの要件が満たされる。以下では、クライアントが、推定されたタイプをどのように求めることができるのかを説明する。
【0155】
ヘルパー情報がない場合、要件(I)に起因して、クライアントは正確なタイプを正しく推定することができないことを想起されたい。この例では、ヘルパー情報は、第2のパスの間に求められた条件付きタイプ
【0159】
から求められた(太字)T
(太字)Xの不偏推定値が、
【0163】
によって回復することができる。したがって、以下の識別情報及び推定量が得られる。
【0165】
結合タイプを求めるようにこれらの結果を拡張することは、幾つかの課題を提示する。集合的メカニズム(collective mechanism)R
ABの条件付き分布の行列形式は、
【0169】
はクロネッカー積である。結合タイプの不偏推定値は、以下の式