特許第6037336号(P6037336)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ 三菱電機株式会社の特許一覧

特許6037336分散データベース用プライバシー保全統計解析
<>
  • 特許6037336-分散データベース用プライバシー保全統計解析 図000061
  • 特許6037336-分散データベース用プライバシー保全統計解析 図000062
  • 特許6037336-分散データベース用プライバシー保全統計解析 図000063
  • 特許6037336-分散データベース用プライバシー保全統計解析 図000064
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6037336
(24)【登録日】2016年11月11日
(45)【発行日】2016年12月7日
(54)【発明の名称】分散データベース用プライバシー保全統計解析
(51)【国際特許分類】
   G09C 1/00 20060101AFI20161128BHJP
【FI】
   G09C1/00 660D
   G09C1/00 650Z
【請求項の数】7
【外国語出願】
【全頁数】19
(21)【出願番号】特願2013-216154(P2013-216154)
(22)【出願日】2013年10月17日
(65)【公開番号】特開2014-98895(P2014-98895A)
(43)【公開日】2014年5月29日
【審査請求日】2016年7月6日
(31)【優先権主張番号】13/676,528
(32)【優先日】2012年11月14日
(33)【優先権主張国】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】000006013
【氏名又は名称】三菱電機株式会社
(74)【代理人】
【識別番号】100110423
【弁理士】
【氏名又は名称】曾我 道治
(74)【代理人】
【識別番号】100111648
【弁理士】
【氏名又は名称】梶並 順
(74)【代理人】
【識別番号】100122437
【弁理士】
【氏名又は名称】大宅 一宏
(74)【代理人】
【識別番号】100147566
【弁理士】
【氏名又は名称】上田 俊一
(74)【代理人】
【識別番号】100161171
【弁理士】
【氏名又は名称】吉田 潤一郎
(74)【代理人】
【識別番号】100161115
【弁理士】
【氏名又は名称】飯野 智史
(72)【発明者】
【氏名】イェ・ワン
(72)【発明者】
【氏名】ビン−ロン・リン
(72)【発明者】
【氏名】シャンタヌ・ラーネ
【審査官】 青木 重徳
(56)【参考文献】
【文献】 米国特許出願公開第2012/0143922(US,A1)
【文献】 米国特許出願公開第2011/0283099(US,A1)
【文献】 米国特許出願公開第2011/0238611(US,A1)
【文献】 米国特許第08166047(US,B1)
【文献】 Bing-Rong Lin, et al.,A Framework for Privacy Preserving Statistical Analysis on Distributed Databases,2012 IEEE International Workshop on Information forensics and Security (WIFS),米国,IEEE,2012年12月 2日,p.61-66
【文献】 Wang,Y., et al.,Information-Theretically Secure Three-party Computation with One Active Adversary,MITSUBISHI ELECTRIC RESEARCH LABORATORIES,Mitsubishi Electric Research Laboratories, Inc.[オンライン],2012年 6月,TR2012-045,p.1-13,[平成28年8月8日検索]、インターネット,URL,<http://www.meri.com/publications/docs/TR2012-045.pdf>
【文献】 Bing-Rong Lin, et al.,A Framework for Extracting Semantic Guarantees from Privacy Definitions,Cornell University Library,[オンライン],2012年 8月27日,arXiv.org>cs>arXiv:1208.5443v1 [cs.DB],p.1-36,[平成28年8月8日検索]、インターネット,URL,<https://arxiv.org/pdf/1208.5443v1.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G09C 1/00
(57)【特許請求の範囲】
【請求項1】
プライベートデータに関する集約統計をセキュアに求めるための方法であって、
クライアントにおいて、データX及びYに別々に第1のランダム化を行って、それぞれランダム化データ
【数1】
を取得するステップであって、該第1のランダム化は、前記データX及びYのプライバシーを保全し、前記ランダム化はデータX及びYで直接作用し、前記データXは、第1のデータソースによって生成され、前記データYは、第2のデータソースによって生成され、前記データX及びYは、分散形式で別々に生成されるものと、
前記クライアントにおいて、前記ランダム化データ
【数2】
に別々に第2のランダム化を行って、サーバー用のランダム化データ
【数3】
と、前記クライアント用のヘルパー情報
【数4】
とをそれぞれ取得するステップであって、ここで、Tは経験分布を表し、該第2のランダム化は、前記データX及びYの前記集約統計の前記プライバシーを保全するものと、
サーバーにおいて、
【数5】
を求めるステップと、
前記クライアントによって、前記ヘルパー情報
【数6】

【数7】
に適用して推定された
【数8】
を取得するステップであって、ここで、XとYとの間の「|」及び「,」は、それぞれ条件付き分布及び結合分布を表すものと、
を含む、方法。
【請求項2】
前記ランダム化は、ポストランダム化方法(PRAM)を用いる、請求項1に記載の方法。
【請求項3】
前記第1のランダム化及び前記第2のランダム化は異なるものである、請求項1に記載の方法。
【請求項4】
前記ヘルパー情報は、前記データX及びYと比較して小さい、請求項1に記載の方法。
【請求項5】
前記データX及びYはランダム系列であり、データ対(X,Y)は独立同一分布である、請求項1に記載の方法。
【請求項6】
前記ランダム化は、前記データX及びYの差分分布プライバシーを保全する、請求項1に記載の方法。
【請求項7】
前記第2のランダム化は、前記第1のランダム化によって提供される差分プライバシーよりも強い分布プライバシーを提供する、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
この発明は、包括的には、第三者によるセキュアコンピューティングに関し、より詳細には、プライベート分散データベースに対してセキュアな統計解析を実行することに関する。
【背景技術】
【0002】
ビッグデータ
毎日、2.5クィンティリオン(1018)(250京)バイトのデータが生成されていると推定されている。これは、今日の世界の全てのデータの90%がここ2年で生成されたことを意味する。この「ビッグ」データは、ソーシャルメディア、映像及びビデオ、金融取引、電話、政治、医療機関、学術機関、及び金融機関、並びに民間企業といったあらゆる場所から生じる。言うまでもなく、このデータは、「クラウド」として知られてきているものに高度に分散している。
【0003】
このデータは、統計的に解析する必要がある。多くの用途の場合、データは、プライベートであり、解析はセキュアであることを要する。セキュアとは、本明細書で用いられるとき、データのソースの識別情報及び生のデータの詳細な内容等のデータのプライバシーが保全されることを意味する。ランダム化応答は、これを行う1つの従来技術の方法である。ランダム化応答は、特定の応答者(respondent:応答側)の応答を明確に明らかにしないが、平均又は分散等の集約統計尺度は、依然として求めることができる。
【0004】
差分プライバシー(DP)は、ラプラスノイズ等のランダム化関数を用いることによってプライバシーを保全するもう1つの方法である。非公式には、差分プライバシーは、応答者のデータベース上で求められた関数の結果が特定の応答者の有無の影響をほとんど受けないことを意味する。公式には、その関数が、1人の応答者のみが異なる隣接データベース上で評価される場合、同じ結果を出力する確率は、ほとんど変化しない。
【0005】
k匿名性等のプライバシーのための従来のメカニズムは、差分プライベートではない。なぜならば、敵対者は、任意の量のヘルパー(サイド)情報を匿名データにリンクして匿名性を無効にすることができるからである。
【0006】
差分プライバシーを提供するのに用いられる他のメカニズムは、通常、出力摂動を伴い、例えば、ノイズがデータの関数に追加される。それにもかかわらず、ノイズがデータ自体に追加されるこのランダム化応答メカニズムは、DPを提供することを示すことができる。
【0007】
あいにく、DPは、応答者のプライバシーの厳格で最悪の場合の特徴付けを提供するが、データの経験確率分布又は「タイプ」のプライバシーを定式化するには十分ではない。特に、敵対者が、隣接する匿名データベースにアクセスした場合、DPメカニズムは、敵対者がどの応答者も非匿名化することができないことを保証する。しかしながら、構成によっては、匿名データベースを処理することによって、データの分布が明らかにされる。
【0008】
したがって、応答者のプライバシーを保全するとともに、経験確率分布も敵対者から保護することが必要とされている。
【0009】
特許文献1では、出願人は、信頼できない第三者サーバーによってデータを処理するための方法を開示している。このサーバーは、データに関する集約統計を求めることができ、クライアントは、アウトソーシングされたデータを正確に取り出すことができる。このプロセスでは、データは符号化されているので、データベース内の個々のエントリーは、サーバーには明らかにされない。この方法は、誤り訂正符号の組み合わせ及びランダム化応答を用い、これによって、応答の機密性を維持しつつ、当該応答を検知することが可能になる。
【0010】
特許文献2では、出願人は、信頼できない第三者によってデータをセキュアに処理するための方法を開示している。この方法は、クライアントデータを信頼できないサーバーにアウトソーシングして結果を生成することを可能にする暗号学的にセキュアな擬似乱数発生器を用いる。これらの結果は、データに関する正確な集約統計及びデータに関する監査報告を含むことができる。いずれの場合も、サーバーは、変更されたデータを処理して正確な結果を生成する一方、基礎となるデータ及び結果は、サーバーに明らかにされない。
【先行技術文献】
【特許文献】
【0011】
【特許文献1】米国特許出願第13/032,521号
【特許文献2】米国特許出願第13/032,552号
【発明の概要】
【発明が解決しようとする課題】
【0012】
この発明の実施の形態は、データのプライバシーを保全しつつそのデータを統計的に解析するための方法を提供する。
【0013】
例えば、アリス及びボブは、応答者に関係した情報を含む別々のデータベースの互いに信頼できないソースである。データベースにおける応答者のプライバシーを保持しつつ、認可されたエンティティによるデータの正確な統計解析を可能にするために、データをサニタイズして公開することが望まれている。さらに、敵対者は、データの解析が可能であってはならない。
【課題を解決するための手段】
【0014】
実施の形態は、このタイプの問題のためのプライバシー及び有用性の理論的定式化を提供する。個々の応答者のプライバシーは、ε差分プライバシー(ε-differential privacy)を用いて定式化される。分散データベースに関する統計のプライバシーは、δ分布プライバシー(δ-distributional privacy)及びε差分プライバシーを用いて定式化される。
【0015】
具体的には、データX及びYに別々に第1のランダム化をして、ランダム化データ
【0016】
【数1】
【0017】
を取得することによって、集約統計が求められる。この第1のランダム化は、データX及びYのプライバシーを保全する。
【0018】
次に、ランダム化データ
【0019】
【数2】
【0020】
に、第2のランダム化がされて、サーバー用のランダム化データ
【0021】
【数3】
【0022】
と、クライアント用のヘルパー情報
【0023】
【数4】
【0024】
とが取得される。ここで、Tは経験分布を表し、第2のランダム化は、データX及びYの集約統計のプライバシーを保全する。
【0025】
次に、サーバーは、
【0026】
【数5】
【0027】
を求める。最後に、クライアントは、サイド情報(ヘルパー情報)
【0028】
【数6】
【0029】
【0030】
【数7】
【0031】
に適用して、推定された
【0032】
【数8】
【0033】
を取得する。ここで、XとYとの間の「|」及び「,」は、それぞれ条件付き分布及び結合分布を表す。
【発明の効果】
【0034】
この発明の実施の形態は、分散環境において、認可されているがおそらく信頼できないクライアントによってサーバーに格納されているサニタイズされたプライベートデータを統計的に解析するための方法を提供する。
【0035】
クライアントは、データソースのプライバシーを脅かすことなく、分散データベースに関する経験結合統計を求めることができる。加えて、認可されていない関係者がサニタイズされたデータにアクセスすることに対しては、差分プライバシー保証が提供される。
【図面の簡単な説明】
【0036】
図1】この発明の実施の形態によるプライベートデータに関する統計をセキュアに求めるための方法の流れ図である。
図2】この発明の実施の形態による、操作を受ける2つのソースからのプライベートデータのブロック図である。
図3】データのプライバシーを脅かすことなく第三者によって図2のデータから統計を導出するためのこの発明の実施の形態による方法の概略図である。
図4】この発明の実施の形態による方法の適用の概略図である。
【発明を実施するための形態】
【0037】
方法の概要
図1に示すように、この発明の実施の形態は、プライベートデータに対して統計解析をセキュアに実行するための方法を提供する。これは、実際の生のデータがこのデータのソース以外の誰にも明らかにされないことを意味する。
【0038】
セキュリティアプリケーション、プライバシーアプリケーション、及びランダム化アプリケーションにおいて、「弱い」及び「強い」は、よく理解され文書化されている専門用語である。弱いとは、基礎となるデータ(例えば、パスワード、ユーザー識別情報等)を、既知の「クラッキング」方法を用いて回復することができることを意味する。強いとは、妥当な時間量及び妥当な計算リソースが与えられた際に、データを回復することが非常に困難であることを意味する。
【0039】
加えて、ランダム化は、特定の分布に従ってデータをランダム化することを意味する。この用語は次の概念を包含する。第1に、データは、プライバシーを保護するように匿名化される。第2に、データは、操作が、このデータを公開に対して安全にするという目的を果たすという考えを強化するようにサニタイズされる。
【0040】
データX101及びY102が、別々に第1のランダム化がされて(RAM1)、それぞれランダム化データ
【0041】
【数9】
【0042】
が取得される。ランダム化110及び115は、同じものとすることもできるし、異なるものとすることもできる。好ましい実施の形態では、ポストランダム化方法(PRAM:Post RAandomisation Method)が用いられる。110及び115によって提供されるセキュリティは、比較的「弱い」。これは、データソースの識別情報は秘匿され、個々のデータプライバシーは保全されるが、データに関する集約統計はおそらく多少の作業で求めることができることを意味する。
【0043】
ランダム化データ
【0044】
【数10】
【0045】
は、再度(第2)のランダム化がされて(RAM2)、それぞれ、サーバー用のランダム化データ
【0046】
【数11】
【0047】
と、クライアント用のヘルパー情報
【0048】
【数12】
【0049】
とが取得される。この第2のランダム化は、第1のランダム化と同じものとすることもできるし、異なるものとすることもできる。ヘルパー情報において、Tは真の経験分布を表す。
【0050】
統計において、経験分布は、データの正規化されたヒストグラムである。n個のデータポイントのそれぞれは、1/nずつ経験分布に寄与する。経験分布は、基礎となるデータを代表する。経験分布は、平均、中央値、モード、歪度(skewedness:スキュードネス)、変位値等を含む多数の異なるタイプの統計を求めるのに十分である。
【0051】
120及び125によって提供されるセキュリティは、比較的「強い」。すなわち、データX及びYに関する集約統計のプライバシーは保全される。
【0052】
サーバー130は、
【0053】
【数13】
【0054】
が組み合わされた後に、
【0055】
【数14】
【0056】
を求める。
【0057】
クライアント130aは、この時点で、サイド情報
【0058】
【数15】
【0059】
【0060】
【数16】
【0061】
に適用して、第2のランダム化を「解除」し、推定された
【0062】
【数17】
【0063】
を取得することができる。符号上の「・」によって示される、推定されたデータX及びYの分布は、一次統計、二次統計等を取得するのに十分である。クライアントは、統計を求めることはできるが、弱いセキュリティのために、正確なデータX及びYを回復することはできない。
【0064】
方法の詳細
この説明を簡略化するために、図2に示すように、2つのデータソースであるアリス及びボブを用いたこの発明の問題定式化及び結果を提示する。しかしながら、この発明の方法は、3つ以上のソースに容易に一般化することができる。また、上記よりも少ないか又は多いランダム化を用いた他のセキュリティレベルも用いることができる。
【0065】
アリス及びボブは、データ201及び202を別々にサニタイズして(210)、応答者205のプライバシーを保護する。本明細書では、サニタイズされたデータから正確なプライベート情報を回復することは不可能である。例えば、ランダムノイズを加えるといった、データをサニタイズするための多くの技法が知られている。
【0066】
サニタイズされたデータ211及び212は、組み合わされて(220)、「クラウド」サーバーにおけるデータベース230に入れられる。サーバーは、公衆ネットワーク(インターネット)に接続することができる。これによって、データは、クライアントの認可されたユーザーによる統計解析に利用可能である。
【0067】
図3に示すように、アリス及びボブは、サニタイズされたデータをサーバーに格納して、これらの潜在的に大きなデータベース上で必要とされる送信及び計算を容易にする。信頼できない認可されたクライアント301は、この時点で、低い割合のヘルパー情報303の援助を受けて、データに対して統計解析を実行することができる。このヘルパー情報は、元のデータベース及び/又はランダム化データと比較して相対的に小さいという点で低い割合である。ヘルパー情報303によって、認可されたクライアントは、第2のランダム化を本質的に解除することが可能になる。
【0068】
この解析は、次の要件を条件とする。ソースのプライベートデータは、サーバーにもクライアントにも明らかにされるべきではない。ソース及びボブによって提供されたデータの統計は、サーバーに明らかにされるべきではない。クライアントは、アリス及びボブによって提供されたデータの結合分布、周辺分布及び条件付き分布を求めることができるべきである。これらの分布は、データの一次統計、二次統計等を求めるのに十分である。
【0069】
問題の枠組み及び表記
アリスのデータは、確率変数系列(太字)X:=(X,X,…,X)である。ここで、各変数Xは、有限アルファベット(ゴシック)Xからの値を取る。同様に、ボブのデータは、確率変数系列(太字)Y:=(Y,Y,…,Y)としてモデル化される。ここで、各Yは、有限アルファベット(ゴシック)Yからの値を取る。これらの系列の長さnは、データベース内の応答者の総数を表し、各(X,Y)対は、アリス及びボブによって一括して保持された応答者iのデータを表す。ここで、アルファベット(ゴシック)X×(ゴシック)Yは、各応答者のデータの定義域を表す。
【0070】
データ対(X,Y)は、(太字)x:=(x,…,x)∈(ゴシック)X及び(太字)y:=(y,…,y)∈(ゴシック)Yについて、
【0071】
【数18】
【0072】
となるように、(ゴシック)X×(ゴシック)Yにわたる結合分布PX,Yに従って、独立同一分布(i.i.d.)である。
【0073】
プライバシーメカニズムは、条件付き分布PO|Iに従って入力を出力にランダムにマッピング(M:(ゴシック)I→(ゴシック)O)する(310)。ポストランダム化方法(PRAM)は、入力及び出力がともに系列、すなわち、アルファベット(ゴシック)Dについて(ゴシック)I=(ゴシック)O=(ゴシック)Dであり、入力系列の各要素が要素ごとの条件付き分布に従ったi.i.d.であるプライバシーメカニズムの一部類である。
【0074】
アリス及びボブはそれぞれ、R:(ゴシック)X→(ゴシック)X及びR:(ゴシック)Y→(ゴシック)Yとして、それらのデータにPRAMを別々に適用する。それぞれの出力は、
【0075】
【数19】
【0076】
であり、支配分布(governing distribution)は、
【0077】
【数20】
【0078】
である。そのため、
【0079】
【数21】
【0080】
の式が得られる。
【0081】
【数22】
【0082】
によって定義されるRAB:(ゴシック)X×(ゴシック)Y→(ゴシック)X×(ゴシック)Yを用いて、各個々のメカニズムの連鎖からもたらされるメカニズムも示される。RABも、PRAMメカニズムであり、条件付き分布
【0083】
【数23】
【0084】
によって支配される。
【0085】
タイプ表記
確率変数系列(太字)X:=(X,…,X)のタイプ又は経験分布は、
【0086】
【数24】
【0087】
によって定義されるマッピングT(太字)X:(ゴシック)X→[0,1]である。
【0088】
2つの系列(太字)X:=(X,…,X)及び(太字)Y:=(Y,…,Y)の結合タイプは、
【0089】
【数25】
【0090】
によって定義されるマッピングT(太字)X,(太字)Y:(ゴシック)X×(ゴシック)Y→[0,1]である。
【0091】
別の(太字)X:=(X,…,X)を所与とした系列(太字)Y:=(Y,…,Y)の条件付きタイプは、
【0092】
【数26】
【0093】
によって定義されるマッピングT(太字)Y|(太字)X:(ゴシック)Y×(ゴシック)X→[0,1]である。
【0094】
条件付き分布は、結合分布が周辺分布によって除算されたものである。
【0095】
これらのタイプマッピングの値は、基礎となる系列を所与として求められ、これらの系列がランダムであるとき、ランダムである。
【0096】
分布及びタイプのための行列表記
有限アルファベット確率変数の様々な分布及びタイプは、ベクトル又は行列として表すことができる。それらの有限の定義域において一貫した順序付けを固定することによって、これらのマッピングは、それらの定義域によってインデックス付けされたベクトル又は行列とすることができる。分布P:(ゴシック)X→[0,1]は、そのx番目の要素(x∈(ゴシック)X)が(太字)P[x]:=P(x)によって与えられる|(ゴシック)X|×1列ベクトル(太字)Pとして記述することができる。
【0097】
条件付き分布PY|X:(ゴシック)Y×(ゴシック)X→[0,1]は、(太字)PY|X[y,x]:=PY|X(y|x)によって定義される|(ゴシック)Y|×|(ゴシック)X|行列(太字)PY|Xとして記述することができる。結合分布PX,Y:(ゴシック)X×(ゴシック)Y→[0,1]は、(太字)PX,Y[x,y]:=PX,Y(x,y)によって定義される|(ゴシック)X|×|(ゴシック)Y|行列(太字)PX,Yか、又は(太字)PX,Yの列をスタックすることによって形成される|(ゴシック)X||(ゴシック)Y|×1列ベクトル
【0098】
【数27】
【0099】
とし記述することができる。
【0100】
対応するタイプマッピングに関して、系列(太字)X及び(太字)Yについて同様に定義される(太字)T(太字)X、(太字)T(太字)Y|(太字)X、(太字)T(太字)X,(太字)Y、及び
【0101】
【数28】
【0102】
を用いて、タイプのための行列表記を同様に作成することができる。これらのタイプベクトル又はタイプ行列は、ランダム量である。
【0103】
プライバシー及び有用性の条件
次に、別々にサニタイズされたデータに関する統計を計算するこの問題のプライバシー及び有用性の要件を定式化することにする。上述したプライバシーの要件によれば、この定式化は、応答者のプライバシー、分布のプライバシー、及び最後にクライアントの有用性を考慮する。
【0104】
応答者のプライバシー
応答者に関係したデータは、認可された、おそらく信頼できないあらゆるクライアントを含む他の全ての関係者からプライベートに保たれなければならない。この概念は、応答者用のε差分プライバシーを用いて形式化される。
【0105】
定義:ε≧0の場合、ハミング距離d((太字)d,(太字)d’)≦1内の全てのデータセット(太字)d,(太字)d’∈(ゴシック)D及び全ての(ゴシック)S⊆(ゴシック)Oについて、
【0106】
【数29】
【0107】
である場合、ランダム化メカニズムM:(ゴシック)D→(ゴシック)Oは、ε差分プライバシーを与える。
【0108】
応答者が、i.i.d.であるようにサンプリングされると仮定すると、DPを満たすプライバシーメカニズムは、結果として、強いプライバシー保証をもたらす。1人を除く全ての応答者の知識を有する敵対者は、唯一の見つからない応答者のデータを発見することができない。このプライバシーの概念は、厳格であるとともに広く受け入れられ、プライバシーの公理(privacy axioms)を満たす。
【0109】
分布のプライバシー
アリス及びボブは、データの統計を敵対者にもサーバーにも明らかにしたくない。したがって、ソース及びサーバーは、経験分布、すなわち、周辺タイプ及び結合タイプを
【0110】
【数30】
【0111】
から回復することができないことを確保しなければならない。上述したように、εDPは、この場合にプライバシーを特徴付けるのに用いることができない。経験確率分布のためのプライバシー概念を定式化するために、以下のようにε差分プライバシーが拡張される。
【0112】
定義:(δ分布ε差分プライバシー)d(・,・)を分布の空間における距離メトリックとする。ε,δ≧0の場合、d((太字)T(太字)d,(太字)T(太字)d’)≦δである全てのデータセット(太字)d,(太字)d’∈(ゴシック)D及び全ての(ゴシック)S⊆(ゴシック)Oについて、
【0113】
【数31】
【0114】
である場合、ランダム化メカニズムM:(ゴシック)D→(ゴシック)Oは、δ分布ε差分プライバシーを与える。
【0115】
より大きなδ及びより小さなεは、分布のより良好な保護を提供する。この発明者らの定義は、プライバシーの公理も満たす。
【0116】
認可されたクライアントのための有用性
認可されたクライアントは、ランダム化データベース230から統計を抽出する。この問題は、結合及び周辺タイプ関数T(太字)X,(太字)Y(x,y)、T(太字)X(x)、及びT(太字)Y(y)、又は(等価的に)行列(太字)T(太字)X,(太字)Y、(太字)T(太字)X、及び(太字)T(太字)Yの再構成としてモデル化される。サーバーは、サニタイズされたデータ
【0117】
【数32】
【0118】
に基づく計算を提供することによってこの再構成を容易にする。アリス及びボブは、別々に生成された低い割合のヘルパー情報303を提供する。クライアントは、サーバーの計算及びヘルパー情報を用いて、推定値
【0119】
【数33】
【0120】
を生成する。
【0121】
分布の空間にわたる距離メトリックd(・,・)について、推定値の期待有用性(expected utility)が、以下のように定義される。
【0122】
【数34】
【0123】
プライバシーの要件の解析
距離関数dは、共通の分布距離尺度によって共有される一般特性を満たすので、データベースの周辺タイプのプライバシー保護は、結合タイプのためのプライバシー保護を含意する。
【0124】
補助定理1:d(・,・)を、以下の式となるような距離関数とする。
【0125】
【数35】
【0126】
ABを、MAB((太字)X,(太字)Y):=(M((太字)X),M((太字)Y))によって定義されるプライバシーメカニズムとする。Mがδ分布ε差分プライバシーを満たし、Mがδ分布ε差分プライバシーを満たす場合、MABは、δ分布(ε+ε)差分プライバシーを満たす。
【0127】
縦に分割されたデータが別々にサニタイズされ、サニタイズされたテーブルから結合分布を回復することが希望されている場合、プライバシーメカニズムの選択は、PRAM手順の部類に制限される。PRAMアルゴリズムがプライバシー制約を満たすようにPRAMアルゴリズムに課せられるべき制約が解析される。先ず、アリス及びボブのデータベース内の応答者のプライバシーの要件を検討する。
【0128】
補助定理2:R:(ゴシック)X→(ゴシック)Xを、条件付き分布
【0129】
【数36】
【0130】
によって支配されるPRAMメカニズムとする。
【0131】
【数37】
【0132】
である場合、RはεDPを満たす。
【0133】
補助定理3:MAB((太字)x,(太字)y)=(M((太字)x),M((太字)y))であると定義する。MがεDPを満たし、MがεDPを満たす場合、MABは(ε+ε)DPを満たす。
【0134】
この補助定理は、i番目のソースのサニタイズされたデータがεDPを満たす場合に、結合システムが
【0135】
【数38】
【0136】
を提供するとき、k個のソースに拡張することができる。次に、結合タイプ及び周辺タイプのためのプライバシーの要件を検討する。
【0137】
補助定理4:d(・,・)を、分布の空間における距離メトリックとする。R:(ゴシック)X→(ゴシック)Xを、条件付き分布
【0138】
【数39】
【0139】
によって支配されるPRAMメカニズムとする。
【0140】
必要条件:Rがδ分布εDPを満たす場合、Rは、応答者について
【0141】
【数40】
【0142】
を満たさなければならない。
【0143】
十分条件:Rが応答者について
【0144】
【数41】
【0145】
を満たす場合、Rは、δ分布εDPを満たす。
【0146】
例示の実施態様
次に、上記で与えたシステムの枠組みの実現例を説明する。この実現例において、プライバシーメカニズムは、この発明のプライバシー及び有用性の要件を満たすように選択される。このシステムの重要な要件は、以下のように要約することができる。
(I).RABは、δ分布ε差分プライベートメカニズムであり、
(II).ヘルパー情報は、εDPアルゴリズムによって生成され、
(III).R及びRは、PRAMメカニズムである。
【0147】
サニタイズされたデータは、δ分布ε差分プライベートメカニズムによって生成されるので、ヘルパー情報は、周辺タイプ及び結合タイプを正しく推定するのに必要である。種々のレベルのプライバシーを保全する出力を生成するために、ソースは、マルチレベルプライバシー手法を用いる。
【0148】
図4に示すように、データベースは、2パスのランダム化プロセス410によってサニタイズされる(図1参照)。第1のパスRAB,1は、生のソースデータ(太字)X、(太字)Yを入力として取り込み、応答者プライバシーを保証する一方、第2のパスRAB,2は、第1のパスのサニタイズされた出力
【0149】
【数42】
【0150】
を入力として取り込み、分散プライバシーを保証する。ヘルパー情報303は、第2のパスの間に抽出され、応答者プライバシーを保全する。これらのメカニズムは、以下の制約を用いて構成される。
(i).RA,2及びRB,2は(ε/2n)-DP
(ii).RA,1及びRB,1は(ε/2)-DP
(iii).RA,1、RA,2、RB,1、及びRB,2はPRAMメカニズムである。
【0151】
補助定理3によって、制約(ii)は、RAB,1がεDPであることを含意し、したがって、要件(II)を含意する。R((太字)X)は、RA,2(RA,1((太字)X))とみなすことができ、条件付き分布(行列表記による)
【0152】
【数43】
【0153】
によって支配されることに留意されたい。
【0154】
したがって、制約(iii)は、要件(III)が満たされることを含意する。補助定理1及び4によって、制約(i)は、要件(I)が満たされることを含意する。ここで、全てのプライバシーの要件が満たされる。以下では、クライアントが、推定されたタイプをどのように求めることができるのかを説明する。
【0155】
ヘルパー情報がない場合、要件(I)に起因して、クライアントは正確なタイプを正しく推定することができないことを想起されたい。この例では、ヘルパー情報は、第2のパスの間に求められた条件付きタイプ
【0156】
【数44】
【0157】
を含む。
【0158】
【数45】
【0159】
から求められた(太字)T(太字)Xの不偏推定値が、
【0160】
【数46】
【0161】
によって与えられ、正確なタイプは、
【0162】
【数47】
【0163】
によって回復することができる。したがって、以下の識別情報及び推定量が得られる。
【0164】
【数48】
【0165】
結合タイプを求めるようにこれらの結果を拡張することは、幾つかの課題を提示する。集合的メカニズム(collective mechanism)RABの条件付き分布の行列形式は、
【0166】
【数49】
【0167】
によって与えられる。ここで、
【0168】
【数50】
【0169】
はクロネッカー積である。結合タイプの不偏推定値は、以下の式
【0170】
【数51】
【0171】
によって与えられる。
図1
図2
図3
図4