(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024099379
(43)【公開日】2024-07-25
(54)【発明の名称】データ管理装置、方法、及びプログラム
(51)【国際特許分類】
G06F 21/62 20130101AFI20240718BHJP
【FI】
G06F21/62 354
【審査請求】未請求
【請求項の数】7
【出願形態】OL
(21)【出願番号】P 2023003286
(22)【出願日】2023-01-12
【新規性喪失の例外の表示】特許法第30条第2項適用申請有り 2022年10月17日に「コンピュータセキュリティシンポジウム2022(CSS2022)(予稿集)」にて公開
(71)【出願人】
【識別番号】000004226
【氏名又は名称】日本電信電話株式会社
(71)【出願人】
【識別番号】504145364
【氏名又は名称】国立大学法人群馬大学
(74)【代理人】
【識別番号】100107766
【弁理士】
【氏名又は名称】伊東 忠重
(74)【代理人】
【識別番号】100070150
【弁理士】
【氏名又は名称】伊東 忠彦
(74)【代理人】
【識別番号】100124844
【弁理士】
【氏名又は名称】石原 隆治
(72)【発明者】
【氏名】市川 敦謙
(72)【発明者】
【氏名】紀伊 真昇
(72)【発明者】
【氏名】山本 充子
(72)【発明者】
【氏名】三浦 尭之
(72)【発明者】
【氏名】千田 浩司
(57)【要約】 (修正有)
【課題】複数の匿名化データを連結したデータの有用性悪化を低減するデータ管理装置等を提供する。
【解決手段】データ管理装置は、仮名化部、非識別化部、置換部及び連結部を備える。仮名化部は、他のデータ管理装置との間の協調計算により、識別子の値を仮名に置き換える。非識別化部は、1つ以上の属性の値を非識別化する。置換部は、非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成する。連結部は、他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成する。また、非識別化部は、与えられたプライバシ保護強度(ε,δ)の下でシャッフルモデルの性質を満たす(ε
0,δ
0)をプライバシ保護強度とする局所差分プライバシにより、垂直分割データを構成するレコード毎に、1つ以上の属性の値を非識別化する。
【選択図】
図3
【特許請求の範囲】
【請求項1】
1つの識別子と1つ以上の属性とを持つレコードで構成される垂直分割データを連結した連結データを作成するデータ管理装置であって、
他のデータ管理装置との間の協調計算により、前記識別子の値を仮名に置き換えるように構成されている仮名化部と、
前記1つ以上の属性の値を非識別化するように構成されている非識別化部と、
前記非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成するように構成されている置換部と、
前記他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成するように構成されている連結部と、を有し、
前記非識別化部は、
与えられたプライバシ保護強度(ε,δ)の下でシャッフルモデルの性質を満たす(ε0,δ0)をプライバシ保護強度とする局所差分プライバシにより、前記垂直分割データを構成するレコード毎に、前記1つ以上の属性の値を非識別化するように構成されている、データ管理装置。
【請求項2】
前記非識別化部は、
前記垂直分割データに含まれるi番目のレコードをxi、i番目のレコードxiに含まれる属性の値から前記仮名を除いたデータをxi'、前記垂直分割データに含まれるレコード数をm、(ε0,δ0)をプライバシ保護強度とする局所差分プライバシを満たすメカニズムをM(i)としたとき、M(1)(x1'),・・・,M(m)(xm')により前記1つ以上の属性の値を非識別化するように構成されており、
前記置換部は、
{1,・・・,m}をランダムに置換する置換関数をπ、i番目のレコードに含まれる仮名をc0'(i)としたとき、((c0'(π(1)),M(π(1))(xπ(1)')),・・・,(c0'(π(m)),M(π(m))(xπ(m)')))τにより前記仮名付き非識別化データを作成するように構成されている、請求項1に記載のデータ管理装置。
【請求項3】
前記シャッフルモデルの性質は、ε=ln(1+((e^ε0-1)/(e^ε0+1))((8√(e^ε0ln(4/δ))/√m)+(8e^ε0)/m))、δ=δ'+(e^ε+1)(1+e^(-ε0)/2)mδ0(ただし、δ'∈[0,1]はε0≦ln(m/(16ln(2/δ')))を満たす。)である、請求項2に記載のデータ管理装置。
【請求項4】
前記連結データ、又は、前記連結データの統計量から、データ合成手法によって前記連結データの統計的性質を残すランダムな疑似データを生成するように構成されているデータ合成部を更に有する請求項1乃至3の何れか一項に記載のデータ管理装置。
【請求項5】
前記データ合成部は、
前記局所差分プライバシを実現するアルゴリズムに対応する統計量再構築手法により前記連結データの統計量の事後分布を推定して前記統計量を算出し、前記統計量から前記疑似データを生成するように構成されている、請求項4に記載のデータ管理装置。
【請求項6】
1つの識別子と1つ以上の属性とを持つレコードで構成される垂直分割データを連結した連結データを作成するデータ管理装置が、
他のデータ管理装置との間の協調計算により、前記識別子の値を仮名に置き換える仮名化手順と、
前記1つ以上の属性の値を非識別化する非識別化手順と、
前記非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成する置換手順と、
前記他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成する連結手順と、を実行し、
前記非識別化手順は、
与えられたプライバシ保護強度(ε,δ)の下でシャッフルモデルの性質を満たす(ε0,δ0)をプライバシ保護強度とする局所差分プライバシにより、前記垂直分割データを構成するレコード毎に、前記1つ以上の属性の値を非識別化する、データ管理方法。
【請求項7】
1つの識別子と1つ以上の属性とを持つレコードで構成される垂直分割データを連結した連結データを作成するデータ管理装置に、
他のデータ管理装置との間の協調計算により、前記識別子の値を仮名に置き換える仮名化手順と、
前記1つ以上の属性の値を非識別化する非識別化手順と、
前記非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成する置換手順と、
前記他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成する連結手順と、を実行させ、
前記非識別化手順は、
与えられたプライバシ保護強度(ε,δ)の下でシャッフルモデルの性質を満たす(ε0,δ0)をプライバシ保護強度とする局所差分プライバシにより、前記垂直分割データを構成するレコード毎に、前記1つ以上の属性の値を非識別化する、プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、データ管理装置、方法、及びプログラムに関する。
【背景技術】
【0002】
データ収集デバイスの多様化やAI(Artificial Intelligence)の進化等に伴い、社会課題の解決やサービスの質向上等に資する手段としてパーソナルデータの利活用が注目を集めている。一方で、データ提供者となる個人のプライバシ意識も高まっており、パーソナルデータの利活用には、倫理、法規制、運用管理、技術等といった様々な観点を踏まえた適切な対応が強く求められる。特に、組織間で同一個人のデータを連結して組織横断的に利活用する場合は、新たな価値創造が期待できる反面、データ連結と匿名性のトレードオフ問題が生じる。すなわち、ある組織がパーソナルデータを匿名化して別の組織に提供する場合、一般に同一個人のデータ連結に用いることができる識別子が匿名性を損ねてしまう。この問題は、垂直分割データの協調匿名化問題として知られている。なお、識別子とは、データを一意に識別可能な情報のことである。
【0003】
垂直分割データの協調匿名化問題を解決する従来技術として、各組織が保有する識別子の仮名化とその他の属性データの非識別化に加え、セキュアマルチパーティ計算又はPk-匿名化を適用する垂直分割データ連結プロトコルが提案されている(非特許文献1)。
【先行技術文献】
【非特許文献】
【0004】
【非特許文献1】千田浩司, 紀伊真昇, 市川敦謙, 野澤一真, 長谷川慶太, 堂面拓也, 中川智尋, 青野博, 寺田雅之: パーソナルデータの等結合に適した匿名化技術の考案, SCIS2022, 1F3-2 (2022).
【発明の概要】
【発明が解決しようとする課題】
【0005】
しかしながら、一般に属性数が多いほど強い非識別化(データのランダム化)が必要となるため、従来技術では、連結データの有用性が著しく悪化してしまうという問題がある。
【0006】
本開示は、上記の点に鑑みてなされたもので、複数の匿名化データを連結したデータの有用性悪化を低減する技術を提供する。
【課題を解決するための手段】
【0007】
本開示の一態様によるデータ管理装置は、1つの識別子と1つ以上の属性とを持つレコードで構成される垂直分割データを連結した連結データを作成するデータ管理装置であって、他のデータ管理装置との間の協調計算により、前記識別子の値を仮名に置き換えるように構成されている仮名化部と、前記1つ以上の属性の値を非識別化するように構成されている非識別化部と、前記非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成するように構成されている置換部と、前記他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成するように構成されている連結部と、を有し、前記非識別化部は、与えられたプライバシ保護強度(ε,δ)の下でシャッフルモデルの性質を満たす(ε0,δ0)をプライバシ保護強度とする局所差分プライバシにより、前記垂直分割データを構成するレコード毎に、前記1つ以上の属性の値を非識別化するように構成されている。
【発明の効果】
【0008】
複数の匿名化データを連結したデータの有用性悪化を低減する技術が提供される。
【図面の簡単な説明】
【0009】
【
図1】本実施形態に係るデータ管理装置が含まれるシステムの全体構成の一例を示す図である。
【
図2】本実施形態に係るデータ管理装置のハードウェア構成の一例を示す図である。
【
図3】本実施形態に係るデータ管理装置の機能構成の一例を示す図である。
【
図4】本実施形態に係るデータ管理装置が実行する処理の流れの一例を示すフローチャートである。
【発明を実施するための形態】
【0010】
以下、本発明の一実施形態について説明する。以下の実施形態では、垂直分割データをそれぞれ保持・管理する複数のデータ管理装置10で垂直分割データ連結プロトコルにより連結データを作成する際に、シャッフルモデルに基づく局所差分プライバシにより非識別化することで、連結データの有用性悪化を低減する手法について説明する。また、データ管理装置10で連結データ又はその統計量からデータ合成により疑似データを生成する手法についても説明する。なお、連結は「結合」や「名寄せ」等と呼ばれることもある。
【0011】
<垂直分割データ連結プロトコル>
まず、上記の非特許文献1等に基づく垂直分割データ連結プロトコルについて説明する。以下では、組織1,・・・,組織NのN個の組織が存在することを想定し、各組織n(n∈{1,・・・,N})は垂直分割データとしてパーソナルデータが格納されたテーブルTnを保持・管理しているものとする。また、テーブルTnの各行(パーソナルデータを表すレコード)をxn,i(i=0,1,・・・,In)、テーブルTnの各列をcn,j(j=0,1,・・・,Jn)とする。このとき、cn,jは1個の識別子データとJn個の属性データとで構成されるものとする。ここで、識別子データとはテーブルTnの各行xn,iの識別子で構成されるデータ、属性データとは或る属性に関する各行xn,iの属性値で構成されるデータである。以下では、簡単のため、cn,0が識別子データであるものとする。ここで、InはテーブルTnの行数、JnはテーブルTnの列数である。なお、レコードは行ベクトルで表され、属性データ及び識別子データは列ベクトルで表されるデータである。
【0012】
なお、識別子とは、テーブルTnの各行xn,iを一意に識別可能な情報のことであり、例えば、携帯電話番号、会員番号、氏名と住所の組等といった情報が挙げられる。識別子は各組織が保有しているものと仮定する。この識別子は同一個人のデータ連結に用いることができる。
【0013】
このとき、垂直分割データ連結プロトコルでは、以下の手順1-1~手順1-5を実行する。なお、当該プロトコルの入力はテーブルTn(n∈{1,・・・,N})、出力はテーブルTnの連結データである連結テーブルT'である。
【0014】
手順1-1:すべての組織n(n∈{1,・・・,N})間で、ハッシュ関数等を用いた協調計算により識別子データcn,0から仮名を要素とするデータ(以下、仮名データともいう。)cn,0'を生成し、この仮名データcn,0'で識別子データcn,0を置き換える。仮名は、例えば、非特許文献1に記載されている可換ハッシュ等を用いて、識別子を入力として当該可換ハッシュ関数等により生成すればよい。なお、仮名データは列ベクトルで表されるデータである。
【0015】
手順1-2:各組織n(n∈{1,・・・,N})は、仮名データcn,0'以外の属性データcn,j(j=1,・・・,Jn)を非識別化したテーブルTn'を作成する。
【0016】
手順1-3:各組織n(n∈{1,・・・,N})は、テーブルTn'の各レコードxn,i(i=0,1,・・・,In)をランダムに置換した(つまり、各レコードxn,iをランダムに入れ替えた)テーブルTn''を作成する。すなわち、各組織n(n∈{1,・・・,N})は、置換関数をπ=πnとしてxn,π(i)と置換し、これらのレコードxn,π(i)で構成されるテーブルTn''を作成する。このテーブルTn''が、匿名化(非識別化)された垂直分割データである。なお、上記の置換は、便宜的にTn''=πn(Tn')とも表される。
【0017】
手順1-4:各組織n(n∈{1,・・・,N})は、必要に応じて置換関数πnを削除する。これにより、テーブルTn''は、テーブルTnとの照合が困難なデータとなる。なお、置換関数πnは必ずしも削除される必要はなく、置換関数πnを削除しなくてもよい。
【0018】
手順1-5:各組織n(n∈{1,・・・,N})は、相互に自身のTn''を他のすべての組織と共有し、テーブル間で共通する仮名に基づいて連結テーブルT'を作成する。
【0019】
ここで、上記の手順1-1で生成される仮名は、識別子と1対1に対応付けられるか、又は、別々の識別子の仮名が等しくなる確率は無視できるほど小さいものとする。これにより、各組織n(n∈{1,・・・,N})の仮名付き非識別化データであるテーブルTn''を各仮名データcn,0'に含まれる共通の仮名で連結し、同一個人のレコードを連結することが可能となる。なお、手順1-1~手順1-4は、手順1-4が手順1-3よりも後であれば順番を入れ替えてもよい。
【0020】
上記の垂直分割データ連結プロトコルは、例えば、N=2である場合の例が非特許文献1に開示されている。ただし、非特許文献1では置換関数π及びその削除については言及されていないが、匿名性の観点で置換関数πによるレコードの置換と置換関数πの削除は自明な処理である。なお、非特許文献1に開示されている例に限られず、上記の手順1-3のようなレコードのランダム置換が実施されるものであれば、任意のデータ連結手法を用いることができる。
【0021】
<準備>
本実施形態に係るデータ管理装置10では、上記の垂直分割データ連結プロトコルの非識別化(手順1-2)及びランダム置換(手順1-3)の際にシャッフルモデルに基づく局所差分プライバシにより非識別化を行う。また、本実施形態に係るデータ管理装置10では、連結テーブルT'又はその統計量からデータ合成により疑似データを生成する。そこで、以下、これらの説明に必要な準備について説明する。
【0022】
なお、以下の(1)~(4)の説明では、「テーブル」のより一般的な用語として「データセット」という用語を用いているが、「データセット」は「テーブル」と読み替えることができることに留意されたい。
【0023】
(1)差分プライバシ
差分プライバシ(DP:Differential Privacy)(参考文献1)は、プライバシ情報を含むデータセットからの任意の出力(例えば、統計量)から、入力データセットに特定個人のデータ(レコード)が含まれるか否かの推定を困難にする非識別化手法である。差分プライバシは、パラメータε>0及びδ≧0をプライバシ保護強度として以下のように定義される。
【0024】
定義:D1、D2を任意の隣接データセット、すなわち高々1レコードのみ異なる2つのデータセットとする。M:D→Rを、データセットを入力として何等かの出力を得る乱択アルゴリズムとする。このとき、任意の部分空間S⊆RにおいてPr[M(D1)∈S]≦eεPr[M(D2)∈S]+δを満たすならば、Mは(ε,δ)-DPを満たす。なお、「アルゴリズム」は「メカニズム」と呼ばれてもよい。
【0025】
(2)局所差分プライバシに基づく非識別化手法と統計量の再構築方法
局所差分プライバシ(LDP:(Local Differential Privacy)(参考文献2)は、各レコードをランダムに摂動させる非識別化手法であり、パラメータε>0及びδ≧0をプライバシ保護強度として以下のように定義される。
【0026】
定義:v1、v2を任意のレコードとする。M:V→Yを、レコードを入力として何等かの出力を得る乱択アルゴリズムとする。このとき、任意のy∈YにおいてPr[M(v1)=y]≦eεPr[M(v2)=y]+δを満たすならば、Mは(ε,δ)-LDPを満たす。
【0027】
局所差分プライバシを満たすアルゴリズムMの具体例としては、単純に確率pで正確なデータを出力し、確率1-pでランダムなデータを出すアルゴリズム(このようなアルゴリズムはランダム化応答とも呼ばれる。)やその応用であるRAPPORと呼ばれるアルゴリズム(参考文献2、3)、正規化した数値属性x∈[-1,1]を確率的にx'∈{-C,C}に写像するアルゴリズム(Cはプライバシ保護強度に基づく定数)(参考文献4、5、6)等が知られている。
【0028】
また、上記の非識別化手法においては、事後分布の推定により「非識別化されたデータ」から「元のデータの統計量」を確率的に再構築する手法が知られている(参考文献4、5、6、7)。
【0029】
(3)シャッフルモデルに基づく局所差分プライバシ
局所差分プライバシは各レコードを個別に摂動させるため、データセットを非識別化した場合にほとんどデータの型が変わらないというメリットがある反面、プライバシ保護強度を担保するために各レコードの摂動が大きくなりやすいというデメリットがある。このデメリットを軽減するために、個々のデータの摂動(値のランダム化)に加え、データセットをランダム置換することでプライバシ保護強度を向上させる手法が知られている。この手法はシャッフルモデル(参考文献8、9)と呼ばれ、次のような性質を満たす。
【0030】
W=(v1,・・・,vm)τをm個のレコードで構成されるデータセット、M(i):V→Y(i)を、レコードを入力として何等かの出力を得るメカニズムであって、かつ、(ε0,δ0)-LDPを満たすメカニズム(アルゴリズム)、πを{1,2,・・・,m}のランダム置換とする。また、A(π,W):={M(π(1))(vπ(1)),・・・,M(π(m))(vπ(m))}とする。このとき、メカニズムAは(ε,δ)-DPを満たす。ただし、
【0031】
【0032】
【0033】
(4)データ合成
データセット又はその統計量に基づいて、元のデータセットの統計的性質を残しつつランダムな疑似データを生成する手法としてデータ合成手法が知られている。例えば、データ合成アルゴリズムとして、分散共分散行列を用いた方式(参考文献10)、主成分分析を用いた方式(参考文献11)、線形回帰を用いた方式(参考文献12)、SVM(Support Vector Machine)を用いた方式(参考文献13)等、数値属性の積演算を必要とする手法が多数提案されている。
【0034】
<データ管理装置10が含まれるシステムの全体構成例>
本実施形態に係るデータ管理装置10が含まれるシステムの全体構成例を
図1に示す。
図1に示すように、当該システムにはN台のデータ管理装置10が含まれ、各データ管理装置10はインターネット等を含む通信ネットワーク20を介して相互に通信可能に接続される。なお、Nは2以上の整数であり、垂直分割データ連結プロトコルに参加するデータ管理装置10の台数を表す。
【0035】
各データ管理装置10は、垂直分割データであるテーブルをそれぞれ保持・管理するコンピュータ又はコンピュータシステムである。各データ管理装置10は、シャッフルモデルに基づく局所差分プライバシによる非識別化を導入した垂直分割データ連結プロトコルより、他のデータ管理装置10がそれぞれ保持・管理するテーブルとの連結テーブルを作成する。また、各データ管理装置10のうちの少なくとも1つのデータ管理装置10は、連結テーブル又はその統計量からデータ合成により、元の統計的性質を残すランダムな疑似データを生成する。
【0036】
以下、各データ管理装置10の各々を区別するときは、「データ管理装置101」、「データ管理装置102」、・・・、「データ管理装置10N」と表す。また、以下では、上記で説明した垂直分割データ連結プロトコルの説明と同様に組織n(n∈{1,2,・・・,N})が存在することを想定し、データ管理装置10nは組織nに対応し、このデータ管理装置10nがレコードとしてパーソナルデータを格納しているテーブルTnを保持・管理しているものとする。
【0037】
<データ管理装置10のハードウェア構成例>
本実施形態に係るデータ管理装置10のハードウェア構成例を
図2に示す。
図2に示すように、本実施形態に係るデータ管理装置10は、入力装置101と、表示装置102と、外部I/F103と、通信I/F104と、RAM(Random Access Memory)105と、ROM(Read Only Memory)106と、補助記憶装置107と、プロセッサ108とを有する。これらの各ハードウェアは、それぞれがバス109を介して通信可能に接続される。
【0038】
入力装置101は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置102は、例えば、ディスプレイ、表示パネル等である。なお、データ管理装置10は、例えば、入力装置101及び表示装置102のうちの少なくとも一方を有していなくてもよい。
【0039】
外部I/F103は、記録媒体103a等の外部装置とのインタフェースである。記録媒体103aとしては、例えば、CD(Compact Disc)、DVD(Digital Versatile Disk)、SDメモリカード(Secure Digital memory card)、USB(Universal Serial Bus)メモリカード等が挙げられる。
【0040】
通信I/F104は、通信ネットワーク20に接続するためのインタフェースである。RAM105は、プログラムやデータを一時保持する揮発性の半導体メモリ(記憶装置)である。ROM106は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ(記憶装置)である。補助記憶装置107は、例えば、HDD(Hard Disk Drive)、SSD(Solid State Drive)、フラッシュメモリ等の不揮発性の記憶装置である。プロセッサ108は、例えば、CPU(Central Processing Unit)等の各種演算装置である。
【0041】
なお、
図2に示すハードウェア構成は一例であって、データ管理装置10のハードウェア構成はこれに限られるものではない。例えば、データ管理装置10は、複数の補助記憶装置107や複数のプロセッサ108を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の種々のハードウェアを有していてもよい。
【0042】
<データ管理装置10の機能構成例>
本実施形態に係るデータ管理装置10の機能構成例を
図3に示す。
図3に示すように、本実施形態に係るデータ管理装置10は、仮名化部201と、非識別化部202と、置換部203と、削除部204と、連結部205と、データ合成部206とを有する。これら各部は、例えば、データ管理装置10にインストールされた1以上のプログラムが、プロセッサ108等に実行させる処理により実現される。また、本実施形態に係るデータ管理装置10は、記憶部207を有する。記憶部207は、例えば、補助記憶装置107等により実現される。なお、上記の手順1-4を実行しない場合(つまり、置換関数を削除しない場合)、データ管理装置10は削除部204を有していなくてもよい。また、連結テーブル又はその統計量からデータ合成により疑似データを生成しない場合、データ管理装置10はデータ合成部206を有していなくてもよい。
【0043】
仮名化部201は、上記の手順1-1を実行する。すなわち、仮名化部201は、すべてのデータ管理装置10間でハッシュ関数等を用いた協調計算により自身が保持・管理するテーブルの識別子データから仮名データを生成し、当該仮名データで当該識別子データを置き換える。
【0044】
非識別化部202は、上記の手順1-2を実行する。すなわち、非識別化部202は、自身が保持・管理するテーブルの仮名データ以外の属性データを非識別化したテーブルを作成する。ただし、このとき、非識別化部202は、所望のプライバシ保護強度(ε,δ)の下で(3)で説明したシャッフルモデルの性質を満たす(ε0,δ0)をLDPのプライバシ保護強度として設定した(ε0,δ0)-LDPを満たすアルゴリズムにより属性データを非識別化する。
【0045】
置換部203は、上記の手順1-3を実行する。すなわち、置換部203は、シャッフルモデルによりレコードをランダムに置換する。これにより、(ε,δ)-DPを満たすメカニズムAにより非識別化されたテーブル(つまり、シャッフルモデルに基づく局所差分プライバシによって非識別化されたテーブル)が得られる。
【0046】
削除部204は、上記の手順1-4を実行する。すなわち、削除部204は、置換部203による置換に使用された置換関数を削除する。
【0047】
連結部205は、上記の手順1-5を実行する。すなわち、連結部205は、例えば、上記の非特許文献1と同様に、セキュアマルチパーティ計算の1つである秘匿共通集合プロトコルを用いて、テーブル間で共通する仮名ですべてのテーブルを連結した連結テーブルを作成する。
【0048】
データ合成部206は、連結テーブル又はその統計量に基づいて、既存のデータ合成手法により元の連結テーブルの統計的性質を残したランダムな疑似データを生成する。
【0049】
記憶部207は、レコードとしてパーソナルデータを格納しているテーブルを記憶する。例えば、データ管理装置10nの記憶部207には、テーブルTnが記憶される。
【0050】
<データ管理装置10が実行する処理の流れ>
以下、本実施形態に係るデータ管理装置10が実行する処理の流れについて、
図4を参照しながら説明する。なお、以下では、一例として、データ合成部206を有する或るデータ管理装置10
nが実行処理の流れについて説明する。
【0051】
まず、データ管理装置10nの仮名化部201は、すべてのデータ管理装置10間でハッシュ関数等を用いた協調計算により、記憶部207に記憶されているテーブルTnの識別子データcn,0から仮名データcn,0'を生成し、この仮名データcn,0'で識別子データcn,0を置き換える(ステップS101)。
【0052】
次に、データ管理装置10nの非識別化部202は、テーブルTnの仮名データcn,0'以外の属性データcn,j(j=1,・・・,Jn)を非識別化したテーブルTn'を作成する(ステップS102)。ただし、このとき、非識別化部202は、与えられた所望のプライバシ保護強度(ε,δ)の下で(3)で説明したシャッフルモデルの性質を満たす(ε0,δ0)をLDPのプライバシ保護強度として設定した(ε0,δ0)-LDPを満たすアルゴリズムにより属性データを非識別化する。
【0053】
すなわち、例えば、テーブルTnのレコードxn,i(i=0,1,・・・,In)に含まれる要素から仮名を除いたものをxn,i'(i=0,1,・・・,In)とする。なお、xn,i'はJn次元の行ベクトルで表されるデータである。このとき、テーブルTnから仮名データcn,0'を除いたテーブルをWn:=Tn\cn,0'とすれば、Wn=(xn,1',・・・,xn,m')τ(ただし、m=In)と表せる。したがって、データ管理装置10nの非識別化部202は、(ε0,δ0)-LDPを満たすメカニズムM(i):V→Y(i)により、M(1)(xn,1'),・・・,M(m)(xn,m')と各xn,i'を非識別化し、テーブルTn'=((cn,0'(1),M(1)(xn,1')),・・・,(cn,0'(m),M(m)(xn,m')))τ(ただし、m=In)を作成すればよい。ここで、cn,0'(i)は、仮名データcn,0'に含まれるi番目の仮名を表すものとする。
【0054】
なお、上記の(ε0,δ0)-LDPを満たすアルゴリズムとしては任意のアルゴリズムを用いることができるが、例えば、参考文献4に記載されているアルゴリズムを用いることができる。この参考文献4に記載されているアルゴリズムは、[-1,1]に正規化された数値属性xを入力として、この数値属性xとプライバシ保護強度εとに応じた確率で確率的にx'∈{-C,C}(ただし、C=(eε+1)/(eε-1))に出力するアルゴリズムである。
【0055】
次に、データ管理装置10nの置換部203は、上記のステップS102で作成されたテーブルTn'の各レコードをランダムに置換する(ステップS103)。すなわち、{1,2,・・・,m}(ただし、m=In)をランダムに置換する置換関数をπ=πnとして、データ管理装置10nの置換部203は、Tn''=πn(Tn')=((cn,0'(π(1)),M(π(1))(xn,π(1)')),・・・,(cn,0'(π(m)),M(π(m))(xn,π(m)')))τによりテーブルTn''を作成する。これにより、(ε,δ)-DPを満たすメカニズムA(π,Wn):={M(π(1))(xn,π(1)'),・・・,M(π(m))(xn,π(m)')}により非識別化されたテーブル(つまり、シャッフルモデルに基づく局所差分プライバシによって非識別化されたテーブル)Tn''が得られる。
【0056】
次に、データ管理装置10nの削除部204は、置換関数πnを削除する(ステップS104)。なお、本ステップは実行されなくてもよい。
【0057】
次に、データ管理装置10nの連結部205は、他のすべてのデータ管理装置10からテーブルTk''(k∈{1,・・・,N}\{n})を取得し、すべてのテーブルTk''(k∈{1,・・・,N})間で共通する仮名ですべてのTk''(k∈{1,・・・,N})を連結した連結テーブルT'を作成する(ステップS105)。
【0058】
そして、データ管理装置10nのデータ合成部206は、上記のステップS105で作成された連結テーブルT'又はその統計量に基づいて、既存のデータ合成手法により元の連結テーブルT'の統計的性質を残したランダムな疑似データを生成する(ステップS106)。例えば、データ管理装置10nのデータ合成部206は、データ合成に必要な統計量を連結テーブルT'から算出し、既存のデータ合成手法により疑似データを生成する。このとき、連結テーブルT'から統計量を算出する際に、データ合成部206は、上記のステップS102で利用した非識別化アルゴリズムに対応する統計量再構築手法により事後分布を推定して統計量を算出する(参考文献4、5、6、7)。
【0059】
なお、上記のデータ合成手法としては任意のデータ合成アルゴリズム又はそれと同等の機能を持つアルゴリズムを用いることができるが、例えば、分散共分散行列を用いた方式(参考文献10)、主成分分析を用いた方式(参考文献11)、線形回帰を用いた方式(参考文献12)、SVMを用いた方式(参考文献13)等を用いることができる。例えば、参考文献10に記載されている方式では、カテゴリ属性と数値属性が混在するテーブルを入力し、カテゴリ属性はOne-Hot Encodingにより二値属性に変換し、すべての属性について平均、ヒストグラム、分散・共分散を求め、それらの統計量を持つ疑似データを作成する。なお、この参考文献10に記載されているアルゴリズムを用いる場合、元のテーブルTk(k∈{1,・・・,N})の属性データのうち、カテゴリ属性を属性値として取る属性データに関しては、その属性値を二値属性に変換しておく必要がある。
【0060】
<まとめ>
以上のように、本実施形態に係るデータ管理装置10は、他のデータ管理装置10との間で垂直分割データ連結プロトコルにより連結データを作成する際に、シャッフルモデルに基づく局所差分プライバシによって自身が保持・管理する垂直分割データを非識別化する。これにより、パーソナルデータ等のプライバシを保護しつつ、連結データの有用性悪化を低減することができる。
【0061】
また、非識別化された連結データはその非識別化によるランダム性によって相応に有用性が低下するため、本実施形態に係るデータ管理装置10は、連結データの有用性を向上させるため、その連結データの統計的性質を残すランダムな疑似データを生成する。これにより、例えば、連結データを何等かの分析に利用した場合、疑似データを利用することで、分析精度の向上が期待できる。
【0062】
本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。
【0063】
[参考文献]
参考文献1:Dwork, C, Roth, A.: The Algorithmic Foundations of Differential Privacy, Foundations and Trends in Theoretical Computer Science, 2013.
参考文献2:Wang, T., Zhang, X., Feng, J., and Yang, X.: A Comprehensive Survey on Local Differential Privacy Toward Data Statistics and Analysis, CoRR abs/2010.05253 (2021).
参考文献3:Erlingsson, U., Pihur, V., and Korolova, A.: Rappor: Randomized aggregatable privacy-preserving ordinal response, ACM SIGSAC CCS 2014, pp. 1054-1067 (2014).
参考文献4:Nguyen, T.T., Xiao, X., Yang, Y., Hui, S.C., Shin, H., and Shin, J.: Collecting and Analyzing Data from Smart Device Users with Local Differential Privacy, CoRR abs/1606.05053 (2016).
参考文献5:Wang, N., Xiao, X., Yang, Y., Zhao, J., Hui, S.C., Shin, H., Shin, J., and Yu, G.: Collecting and Analyzing Multidimensional Data with Local Differential Privacy, CoRR abs/1907.00782 (2019).
参考文献6:Wang, N., Xiao, X., Yang, Y., Zhao, J., Hui, S.C., Shin, H., Shin, J., and Yu, G.: Collecting and Analyzing Multidimensional Data with Local Differential Privacy, IEEE ICDE 2019, pp.638-649(2019).
参考文献7:長谷川聡, 三浦尭之: 一般逐次ベイズ法を用いた局所差分プライベートな度数分布推定, CSS2020.
参考文献8:Feldman, V., McMillan, A., and Talwar, K.: Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy Amplification by Shuffling, CoRR abs/2012.12803 (2021).
参考文献9:Feldman, V., McMillan, A., and Talwar, K.: Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy Amplification by Shuffling, FOCS2021, pp.954-964 (2022).
参考文献10:岡田莉奈, 正木彰伍, 長谷川聡, 田中哲士: 統計値を用いたプライバシ保護擬似データ生成手法, CSS2017,3F3-4 (2017).
参考文献11:Sano, N.: Synthetic Data by Principal Component Analysis, 20th IEEE International Conference on Data Mining Workshops (ICDMW 2020), pp.101-105 (2020).
参考文献12:Nowok, B., Raab, G. M., and Dibben, C.: Synthpop: Bespoke Creation of Synthetic Data in R, Journal of Statistical Software, 74(11) (2016).
参考文献13:Drechsler, J.: Using Support Vector Machines for Generating Synthetic Datasets, Privacy in Statistical Databases (PSD) 2010, LNCS 6344, Springer-Verlag, pp.148-161 (2010).
【符号の説明】
【0064】
10 データ管理装置
101 入力装置
102 表示装置
103 外部I/F
103a 記録媒体
104 通信I/F
105 RAM
106 ROM
107 補助記憶装置
108 プロセッサ
109 バス
201 仮名化部
202 非識別化部
203 置換部
204 削除部
205 連結部
206 データ合成部
207 記憶部