特開2024-99379 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 日本電信電話株式会社の特許一覧 ▶ 国立大学法人群馬大学の特許一覧

特開2024-99379データ管理装置、方法、及びプログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024099379

(43)【公開日】2024-07-25

(54)【発明の名称】データ管理装置、方法、及びプログラム

(51)【国際特許分類】

G06F 21/62 20130101AFI20240718BHJP

【ＦＩ】

G06F21/62 354

【審査請求】未請求

【請求項の数】7

【出願形態】ＯＬ

(21)【出願番号】P 2023003286

(22)【出願日】2023-01-12

【新規性喪失の例外の表示】特許法第３０条第２項適用申請有り２０２２年１０月１７日に「コンピュータセキュリティシンポジウム２０２２（ＣＳＳ２０２２）（予稿集）」にて公開

(71)【出願人】

【識別番号】000004226

【氏名又は名称】日本電信電話株式会社

(71)【出願人】

【識別番号】504145364

【氏名又は名称】国立大学法人群馬大学

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100124844

【弁理士】

【氏名又は名称】石原隆治

(72)【発明者】

【氏名】市川敦謙

(72)【発明者】

【氏名】紀伊真昇

(72)【発明者】

【氏名】山本充子

(72)【発明者】

【氏名】三浦尭之

(72)【発明者】

【氏名】千田浩司

(57)【要約】（修正有）

【課題】複数の匿名化データを連結したデータの有用性悪化を低減するデータ管理装置等を提供する。
【解決手段】データ管理装置は、仮名化部、非識別化部、置換部及び連結部を備える。仮名化部は、他のデータ管理装置との間の協調計算により、識別子の値を仮名に置き換える。非識別化部は、１つ以上の属性の値を非識別化する。置換部は、非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成する。連結部は、他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成する。また、非識別化部は、与えられたプライバシ保護強度（ε，δ）の下でシャッフルモデルの性質を満たす（ε_０，δ_０）をプライバシ保護強度とする局所差分プライバシにより、垂直分割データを構成するレコード毎に、１つ以上の属性の値を非識別化する。
【選択図】図３

【特許請求の範囲】

【請求項1】

１つの識別子と１つ以上の属性とを持つレコードで構成される垂直分割データを連結した連結データを作成するデータ管理装置であって、
他のデータ管理装置との間の協調計算により、前記識別子の値を仮名に置き換えるように構成されている仮名化部と、
前記１つ以上の属性の値を非識別化するように構成されている非識別化部と、
前記非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成するように構成されている置換部と、
前記他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成するように構成されている連結部と、を有し、
前記非識別化部は、
与えられたプライバシ保護強度（ε，δ）の下でシャッフルモデルの性質を満たす（ε_０，δ_０）をプライバシ保護強度とする局所差分プライバシにより、前記垂直分割データを構成するレコード毎に、前記１つ以上の属性の値を非識別化するように構成されている、データ管理装置。

【請求項2】

前記非識別化部は、
前記垂直分割データに含まれるｉ番目のレコードをｘ_ｉ、ｉ番目のレコードｘ_ｉに含まれる属性の値から前記仮名を除いたデータをｘ_ｉ'、前記垂直分割データに含まれるレコード数をｍ、（ε_０，δ_０）をプライバシ保護強度とする局所差分プライバシを満たすメカニズムをＭ^（ｉ）としたとき、Ｍ^（１）（ｘ_１'），・・・，Ｍ^（ｍ）（ｘ_ｍ'）により前記１つ以上の属性の値を非識別化するように構成されており、
前記置換部は、
｛１，・・・，ｍ｝をランダムに置換する置換関数をπ、ｉ番目のレコードに含まれる仮名をｃ_０'（ｉ）としたとき、（（ｃ_０'（π（１）），Ｍ^{（π（１））}（ｘ_π（１）'）），・・・，（ｃ_０'（π（ｍ）），Ｍ^{（π（ｍ））}（ｘ_π（ｍ）'）））^τにより前記仮名付き非識別化データを作成するように構成されている、請求項１に記載のデータ管理装置。

【請求項3】

前記シャッフルモデルの性質は、ε＝ｌｎ（１＋（（ｅ＾ε_０－１）／（ｅ＾ε_０＋１））（（８√（ｅ＾ε_０ｌｎ（４／δ））／√ｍ）＋（８ｅ＾ε_０）／ｍ））、δ＝δ'＋（ｅ＾ε＋１）（１＋ｅ＾（－ε_０）／２）ｍδ_０（ただし、δ'∈［０，１］はε_０≦ｌｎ（ｍ／（１６ｌｎ（２／δ'）））を満たす。）である、請求項２に記載のデータ管理装置。

【請求項4】

前記連結データ、又は、前記連結データの統計量から、データ合成手法によって前記連結データの統計的性質を残すランダムな疑似データを生成するように構成されているデータ合成部を更に有する請求項１乃至３の何れか一項に記載のデータ管理装置。

【請求項5】

前記データ合成部は、
前記局所差分プライバシを実現するアルゴリズムに対応する統計量再構築手法により前記連結データの統計量の事後分布を推定して前記統計量を算出し、前記統計量から前記疑似データを生成するように構成されている、請求項４に記載のデータ管理装置。

【請求項6】

１つの識別子と１つ以上の属性とを持つレコードで構成される垂直分割データを連結した連結データを作成するデータ管理装置が、
他のデータ管理装置との間の協調計算により、前記識別子の値を仮名に置き換える仮名化手順と、
前記１つ以上の属性の値を非識別化する非識別化手順と、
前記非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成する置換手順と、
前記他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成する連結手順と、を実行し、
前記非識別化手順は、
与えられたプライバシ保護強度（ε，δ）の下でシャッフルモデルの性質を満たす（ε_０，δ_０）をプライバシ保護強度とする局所差分プライバシにより、前記垂直分割データを構成するレコード毎に、前記１つ以上の属性の値を非識別化する、データ管理方法。

【請求項7】

１つの識別子と１つ以上の属性とを持つレコードで構成される垂直分割データを連結した連結データを作成するデータ管理装置に、
他のデータ管理装置との間の協調計算により、前記識別子の値を仮名に置き換える仮名化手順と、
前記１つ以上の属性の値を非識別化する非識別化手順と、
前記非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成する置換手順と、
前記他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成する連結手順と、を実行させ、
前記非識別化手順は、
与えられたプライバシ保護強度（ε，δ）の下でシャッフルモデルの性質を満たす（ε_０，δ_０）をプライバシ保護強度とする局所差分プライバシにより、前記垂直分割データを構成するレコード毎に、前記１つ以上の属性の値を非識別化する、プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、データ管理装置、方法、及びプログラムに関する。

【背景技術】

【0002】

データ収集デバイスの多様化やＡＩ（Artificial Intelligence）の進化等に伴い、社会課題の解決やサービスの質向上等に資する手段としてパーソナルデータの利活用が注目を集めている。一方で、データ提供者となる個人のプライバシ意識も高まっており、パーソナルデータの利活用には、倫理、法規制、運用管理、技術等といった様々な観点を踏まえた適切な対応が強く求められる。特に、組織間で同一個人のデータを連結して組織横断的に利活用する場合は、新たな価値創造が期待できる反面、データ連結と匿名性のトレードオフ問題が生じる。すなわち、ある組織がパーソナルデータを匿名化して別の組織に提供する場合、一般に同一個人のデータ連結に用いることができる識別子が匿名性を損ねてしまう。この問題は、垂直分割データの協調匿名化問題として知られている。なお、識別子とは、データを一意に識別可能な情報のことである。

【0003】

垂直分割データの協調匿名化問題を解決する従来技術として、各組織が保有する識別子の仮名化とその他の属性データの非識別化に加え、セキュアマルチパーティ計算又はＰｋ－匿名化を適用する垂直分割データ連結プロトコルが提案されている（非特許文献１）。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】千田浩司, 紀伊真昇, 市川敦謙, 野澤一真, 長谷川慶太, 堂面拓也, 中川智尋, 青野博, 寺田雅之: パーソナルデータの等結合に適した匿名化技術の考案, SCIS2022, 1F3-2 (2022).

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、一般に属性数が多いほど強い非識別化（データのランダム化）が必要となるため、従来技術では、連結データの有用性が著しく悪化してしまうという問題がある。

【0006】

本開示は、上記の点に鑑みてなされたもので、複数の匿名化データを連結したデータの有用性悪化を低減する技術を提供する。

【課題を解決するための手段】

【0007】

本開示の一態様によるデータ管理装置は、１つの識別子と１つ以上の属性とを持つレコードで構成される垂直分割データを連結した連結データを作成するデータ管理装置であって、他のデータ管理装置との間の協調計算により、前記識別子の値を仮名に置き換えるように構成されている仮名化部と、前記１つ以上の属性の値を非識別化するように構成されている非識別化部と、前記非識別化後の垂直分割データを構成する各レコードをランダムに置換した仮名付き非識別化データを作成するように構成されている置換部と、前記他のデータ管理装置で作成された仮名付き非識別化データと、自身が作成した仮名付き非識別化データとを共通する仮名により連結した連結データを作成するように構成されている連結部と、を有し、前記非識別化部は、与えられたプライバシ保護強度（ε，δ）の下でシャッフルモデルの性質を満たす（ε_０，δ_０）をプライバシ保護強度とする局所差分プライバシにより、前記垂直分割データを構成するレコード毎に、前記１つ以上の属性の値を非識別化するように構成されている。

【発明の効果】

【0008】

複数の匿名化データを連結したデータの有用性悪化を低減する技術が提供される。

【図面の簡単な説明】

【0009】

【図1】本実施形態に係るデータ管理装置が含まれるシステムの全体構成の一例を示す図である。

【図2】本実施形態に係るデータ管理装置のハードウェア構成の一例を示す図である。

【図3】本実施形態に係るデータ管理装置の機能構成の一例を示す図である。

【図4】本実施形態に係るデータ管理装置が実行する処理の流れの一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下、本発明の一実施形態について説明する。以下の実施形態では、垂直分割データをそれぞれ保持・管理する複数のデータ管理装置１０で垂直分割データ連結プロトコルにより連結データを作成する際に、シャッフルモデルに基づく局所差分プライバシにより非識別化することで、連結データの有用性悪化を低減する手法について説明する。また、データ管理装置１０で連結データ又はその統計量からデータ合成により疑似データを生成する手法についても説明する。なお、連結は「結合」や「名寄せ」等と呼ばれることもある。

【0011】

＜垂直分割データ連結プロトコル＞
まず、上記の非特許文献１等に基づく垂直分割データ連結プロトコルについて説明する。以下では、組織１，・・・，組織ＮのＮ個の組織が存在することを想定し、各組織ｎ（ｎ∈｛１，・・・，Ｎ｝）は垂直分割データとしてパーソナルデータが格納されたテーブルＴ_ｎを保持・管理しているものとする。また、テーブルＴ_ｎの各行（パーソナルデータを表すレコード）をｘ_ｎ，ｉ（ｉ＝０，１，・・・，Ｉ_ｎ）、テーブルＴ_ｎの各列をｃ_ｎ，ｊ（ｊ＝０，１，・・・，Ｊ_ｎ）とする。このとき、ｃ_ｎ，ｊは１個の識別子データとＪ_ｎ個の属性データとで構成されるものとする。ここで、識別子データとはテーブルＴ_ｎの各行ｘ_ｎ，ｉの識別子で構成されるデータ、属性データとは或る属性に関する各行ｘ_ｎ，ｉの属性値で構成されるデータである。以下では、簡単のため、ｃ_ｎ，０が識別子データであるものとする。ここで、Ｉ_ｎはテーブルＴ_ｎの行数、Ｊ_ｎはテーブルＴ_ｎの列数である。なお、レコードは行ベクトルで表され、属性データ及び識別子データは列ベクトルで表されるデータである。

【0012】

なお、識別子とは、テーブルＴ_ｎの各行ｘ_ｎ，ｉを一意に識別可能な情報のことであり、例えば、携帯電話番号、会員番号、氏名と住所の組等といった情報が挙げられる。識別子は各組織が保有しているものと仮定する。この識別子は同一個人のデータ連結に用いることができる。

【0013】

このとき、垂直分割データ連結プロトコルでは、以下の手順１－１～手順１－５を実行する。なお、当該プロトコルの入力はテーブルＴ_ｎ（ｎ∈｛１，・・・，Ｎ｝）、出力はテーブルＴ_ｎの連結データである連結テーブルＴ'である。

【0014】

手順１－１：すべての組織ｎ（ｎ∈｛１，・・・，Ｎ｝）間で、ハッシュ関数等を用いた協調計算により識別子データｃ_ｎ，０から仮名を要素とするデータ（以下、仮名データともいう。）ｃ_ｎ，０'を生成し、この仮名データｃ_ｎ，０'で識別子データｃ_ｎ，０を置き換える。仮名は、例えば、非特許文献１に記載されている可換ハッシュ等を用いて、識別子を入力として当該可換ハッシュ関数等により生成すればよい。なお、仮名データは列ベクトルで表されるデータである。

【0015】

手順１－２：各組織ｎ（ｎ∈｛１，・・・，Ｎ｝）は、仮名データｃ_ｎ，０'以外の属性データｃ_ｎ，ｊ（ｊ＝１，・・・，Ｊ_ｎ）を非識別化したテーブルＴ_ｎ'を作成する。

【0016】

手順１－３：各組織ｎ（ｎ∈｛１，・・・，Ｎ｝）は、テーブルＴ_ｎ'の各レコードｘ_ｎ，ｉ（ｉ＝０，１，・・・，Ｉ_ｎ）をランダムに置換した（つまり、各レコードｘ_ｎ，ｉをランダムに入れ替えた）テーブルＴ_ｎ''を作成する。すなわち、各組織ｎ（ｎ∈｛１，・・・，Ｎ｝）は、置換関数をπ＝π_ｎとしてｘ_{ｎ，π（ｉ）}と置換し、これらのレコードｘ_{ｎ，π（ｉ）}で構成されるテーブルＴ_ｎ''を作成する。このテーブルＴ_ｎ''が、匿名化（非識別化）された垂直分割データである。なお、上記の置換は、便宜的にＴ_ｎ''＝π_ｎ（Ｔ_ｎ'）とも表される。

【0017】

手順１－４：各組織ｎ（ｎ∈｛１，・・・，Ｎ｝）は、必要に応じて置換関数π_ｎを削除する。これにより、テーブルＴ_ｎ''は、テーブルＴ_ｎとの照合が困難なデータとなる。なお、置換関数π_ｎは必ずしも削除される必要はなく、置換関数π_ｎを削除しなくてもよい。

【0018】

手順１－５：各組織ｎ（ｎ∈｛１，・・・，Ｎ｝）は、相互に自身のＴ_ｎ''を他のすべての組織と共有し、テーブル間で共通する仮名に基づいて連結テーブルＴ'を作成する。

【0019】

ここで、上記の手順１－１で生成される仮名は、識別子と１対１に対応付けられるか、又は、別々の識別子の仮名が等しくなる確率は無視できるほど小さいものとする。これにより、各組織ｎ（ｎ∈｛１，・・・，Ｎ｝）の仮名付き非識別化データであるテーブルＴ_ｎ''を各仮名データｃ_ｎ，０'に含まれる共通の仮名で連結し、同一個人のレコードを連結することが可能となる。なお、手順１－１～手順１－４は、手順１－４が手順１－３よりも後であれば順番を入れ替えてもよい。

【0020】

上記の垂直分割データ連結プロトコルは、例えば、Ｎ＝２である場合の例が非特許文献１に開示されている。ただし、非特許文献１では置換関数π及びその削除については言及されていないが、匿名性の観点で置換関数πによるレコードの置換と置換関数πの削除は自明な処理である。なお、非特許文献１に開示されている例に限られず、上記の手順１－３のようなレコードのランダム置換が実施されるものであれば、任意のデータ連結手法を用いることができる。

【0021】

＜準備＞
本実施形態に係るデータ管理装置１０では、上記の垂直分割データ連結プロトコルの非識別化（手順１－２）及びランダム置換（手順１－３）の際にシャッフルモデルに基づく局所差分プライバシにより非識別化を行う。また、本実施形態に係るデータ管理装置１０では、連結テーブルＴ'又はその統計量からデータ合成により疑似データを生成する。そこで、以下、これらの説明に必要な準備について説明する。

【0022】

なお、以下の（１）～（４）の説明では、「テーブル」のより一般的な用語として「データセット」という用語を用いているが、「データセット」は「テーブル」と読み替えることができることに留意されたい。

【0023】

（１）差分プライバシ
差分プライバシ（ＤＰ：Differential Privacy）（参考文献１）は、プライバシ情報を含むデータセットからの任意の出力（例えば、統計量）から、入力データセットに特定個人のデータ（レコード）が含まれるか否かの推定を困難にする非識別化手法である。差分プライバシは、パラメータε＞０及びδ≧０をプライバシ保護強度として以下のように定義される。

【0024】

定義：Ｄ_１、Ｄ_２を任意の隣接データセット、すなわち高々１レコードのみ異なる２つのデータセットとする。Ｍ：Ｄ→Ｒを、データセットを入力として何等かの出力を得る乱択アルゴリズムとする。このとき、任意の部分空間Ｓ⊆ＲにおいてＰｒ［Ｍ（Ｄ_１）∈Ｓ］≦ｅ^εＰｒ［Ｍ（Ｄ_２）∈Ｓ］＋δを満たすならば、Ｍは（ε，δ）－ＤＰを満たす。なお、「アルゴリズム」は「メカニズム」と呼ばれてもよい。

【0025】

（２）局所差分プライバシに基づく非識別化手法と統計量の再構築方法
局所差分プライバシ（ＬＤＰ：(Local Differential Privacy）（参考文献２）は、各レコードをランダムに摂動させる非識別化手法であり、パラメータε＞０及びδ≧０をプライバシ保護強度として以下のように定義される。

【0026】

定義：ｖ_１、ｖ_２を任意のレコードとする。Ｍ：Ｖ→Ｙを、レコードを入力として何等かの出力を得る乱択アルゴリズムとする。このとき、任意のｙ∈ＹにおいてＰｒ［Ｍ（ｖ_１）＝ｙ］≦ｅ^εＰｒ［Ｍ（ｖ_２）＝ｙ］＋δを満たすならば、Ｍは（ε，δ）－ＬＤＰを満たす。

【0027】

局所差分プライバシを満たすアルゴリズムＭの具体例としては、単純に確率ｐで正確なデータを出力し、確率１－ｐでランダムなデータを出すアルゴリズム（このようなアルゴリズムはランダム化応答とも呼ばれる。）やその応用であるＲＡＰＰＯＲと呼ばれるアルゴリズム（参考文献２、３）、正規化した数値属性ｘ∈［－１，１］を確率的にｘ'∈｛－Ｃ，Ｃ｝に写像するアルゴリズム（Ｃはプライバシ保護強度に基づく定数）（参考文献４、５、６）等が知られている。

【0028】

また、上記の非識別化手法においては、事後分布の推定により「非識別化されたデータ」から「元のデータの統計量」を確率的に再構築する手法が知られている（参考文献４、５、６、７）。

【0029】

（３）シャッフルモデルに基づく局所差分プライバシ
局所差分プライバシは各レコードを個別に摂動させるため、データセットを非識別化した場合にほとんどデータの型が変わらないというメリットがある反面、プライバシ保護強度を担保するために各レコードの摂動が大きくなりやすいというデメリットがある。このデメリットを軽減するために、個々のデータの摂動（値のランダム化）に加え、データセットをランダム置換することでプライバシ保護強度を向上させる手法が知られている。この手法はシャッフルモデル（参考文献８、９）と呼ばれ、次のような性質を満たす。

【0030】

Ｗ＝（ｖ_１，・・・，ｖ_ｍ）^τをｍ個のレコードで構成されるデータセット、Ｍ^（ｉ）：Ｖ→Ｙ^（ｉ）を、レコードを入力として何等かの出力を得るメカニズムであって、かつ、（ε_０，δ_０）－ＬＤＰを満たすメカニズム（アルゴリズム）、πを｛１，２，・・・，ｍ｝のランダム置換とする。また、Ａ（π，Ｗ）：＝｛Ｍ^{（π（１））}（ｖ_π（１）），・・・，Ｍ^{（π（ｍ））}（ｖ_π（ｍ））｝とする。このとき、メカニズムＡは（ε，δ）－ＤＰを満たす。ただし、

【0031】

【数1】

である。また、δ'∈［０，１］は

【0032】

【数2】

を満たすものとする。

【0033】

（４）データ合成
データセット又はその統計量に基づいて、元のデータセットの統計的性質を残しつつランダムな疑似データを生成する手法としてデータ合成手法が知られている。例えば、データ合成アルゴリズムとして、分散共分散行列を用いた方式（参考文献１０）、主成分分析を用いた方式（参考文献１１）、線形回帰を用いた方式（参考文献１２）、ＳＶＭ（Support Vector Machine）を用いた方式（参考文献１３）等、数値属性の積演算を必要とする手法が多数提案されている。

【0034】

＜データ管理装置１０が含まれるシステムの全体構成例＞
本実施形態に係るデータ管理装置１０が含まれるシステムの全体構成例を図１に示す。図１に示すように、当該システムにはＮ台のデータ管理装置１０が含まれ、各データ管理装置１０はインターネット等を含む通信ネットワーク２０を介して相互に通信可能に接続される。なお、Ｎは２以上の整数であり、垂直分割データ連結プロトコルに参加するデータ管理装置１０の台数を表す。

【0035】

各データ管理装置１０は、垂直分割データであるテーブルをそれぞれ保持・管理するコンピュータ又はコンピュータシステムである。各データ管理装置１０は、シャッフルモデルに基づく局所差分プライバシによる非識別化を導入した垂直分割データ連結プロトコルより、他のデータ管理装置１０がそれぞれ保持・管理するテーブルとの連結テーブルを作成する。また、各データ管理装置１０のうちの少なくとも１つのデータ管理装置１０は、連結テーブル又はその統計量からデータ合成により、元の統計的性質を残すランダムな疑似データを生成する。

【0036】

以下、各データ管理装置１０の各々を区別するときは、「データ管理装置１０_１」、「データ管理装置１０_２」、・・・、「データ管理装置１０_Ｎ」と表す。また、以下では、上記で説明した垂直分割データ連結プロトコルの説明と同様に組織ｎ（ｎ∈｛１，２，・・・，Ｎ｝）が存在することを想定し、データ管理装置１０_ｎは組織ｎに対応し、このデータ管理装置１０_ｎがレコードとしてパーソナルデータを格納しているテーブルＴ_ｎを保持・管理しているものとする。

【0037】

＜データ管理装置１０のハードウェア構成例＞
本実施形態に係るデータ管理装置１０のハードウェア構成例を図２に示す。図２に示すように、本実施形態に係るデータ管理装置１０は、入力装置１０１と、表示装置１０２と、外部Ｉ／Ｆ１０３と、通信Ｉ／Ｆ１０４と、ＲＡＭ（Random Access Memory）１０５と、ＲＯＭ（Read Only Memory）１０６と、補助記憶装置１０７と、プロセッサ１０８とを有する。これらの各ハードウェアは、それぞれがバス１０９を介して通信可能に接続される。

【0038】

入力装置１０１は、例えば、キーボード、マウス、タッチパネル、物理ボタン等である。表示装置１０２は、例えば、ディスプレイ、表示パネル等である。なお、データ管理装置１０は、例えば、入力装置１０１及び表示装置１０２のうちの少なくとも一方を有していなくてもよい。

【0039】

外部Ｉ／Ｆ１０３は、記録媒体１０３ａ等の外部装置とのインタフェースである。記録媒体１０３ａとしては、例えば、ＣＤ（Compact Disc）、ＤＶＤ（Digital Versatile Disk）、ＳＤメモリカード（Secure Digital memory card）、ＵＳＢ（Universal Serial Bus）メモリカード等が挙げられる。

【0040】

通信Ｉ／Ｆ１０４は、通信ネットワーク２０に接続するためのインタフェースである。ＲＡＭ１０５は、プログラムやデータを一時保持する揮発性の半導体メモリ（記憶装置）である。ＲＯＭ１０６は、電源を切ってもプログラムやデータを保持することができる不揮発性の半導体メモリ（記憶装置）である。補助記憶装置１０７は、例えば、ＨＤＤ（Hard Disk Drive）、ＳＳＤ（Solid State Drive）、フラッシュメモリ等の不揮発性の記憶装置である。プロセッサ１０８は、例えば、ＣＰＵ（Central Processing Unit）等の各種演算装置である。

【0041】

なお、図２に示すハードウェア構成は一例であって、データ管理装置１０のハードウェア構成はこれに限られるものではない。例えば、データ管理装置１０は、複数の補助記憶装置１０７や複数のプロセッサ１０８を有していてもよいし、図示したハードウェアの一部を有していなくてもよいし、図示したハードウェア以外の種々のハードウェアを有していてもよい。

【0042】

＜データ管理装置１０の機能構成例＞
本実施形態に係るデータ管理装置１０の機能構成例を図３に示す。図３に示すように、本実施形態に係るデータ管理装置１０は、仮名化部２０１と、非識別化部２０２と、置換部２０３と、削除部２０４と、連結部２０５と、データ合成部２０６とを有する。これら各部は、例えば、データ管理装置１０にインストールされた１以上のプログラムが、プロセッサ１０８等に実行させる処理により実現される。また、本実施形態に係るデータ管理装置１０は、記憶部２０７を有する。記憶部２０７は、例えば、補助記憶装置１０７等により実現される。なお、上記の手順１－４を実行しない場合（つまり、置換関数を削除しない場合）、データ管理装置１０は削除部２０４を有していなくてもよい。また、連結テーブル又はその統計量からデータ合成により疑似データを生成しない場合、データ管理装置１０はデータ合成部２０６を有していなくてもよい。

【0043】

仮名化部２０１は、上記の手順１－１を実行する。すなわち、仮名化部２０１は、すべてのデータ管理装置１０間でハッシュ関数等を用いた協調計算により自身が保持・管理するテーブルの識別子データから仮名データを生成し、当該仮名データで当該識別子データを置き換える。

【0044】

非識別化部２０２は、上記の手順１－２を実行する。すなわち、非識別化部２０２は、自身が保持・管理するテーブルの仮名データ以外の属性データを非識別化したテーブルを作成する。ただし、このとき、非識別化部２０２は、所望のプライバシ保護強度（ε，δ）の下で（３）で説明したシャッフルモデルの性質を満たす（ε_０，δ_０）をＬＤＰのプライバシ保護強度として設定した（ε_０，δ_０）－ＬＤＰを満たすアルゴリズムにより属性データを非識別化する。

【0045】

置換部２０３は、上記の手順１－３を実行する。すなわち、置換部２０３は、シャッフルモデルによりレコードをランダムに置換する。これにより、（ε，δ）－ＤＰを満たすメカニズムＡにより非識別化されたテーブル（つまり、シャッフルモデルに基づく局所差分プライバシによって非識別化されたテーブル）が得られる。

【0046】

削除部２０４は、上記の手順１－４を実行する。すなわち、削除部２０４は、置換部２０３による置換に使用された置換関数を削除する。

【0047】

連結部２０５は、上記の手順１－５を実行する。すなわち、連結部２０５は、例えば、上記の非特許文献１と同様に、セキュアマルチパーティ計算の１つである秘匿共通集合プロトコルを用いて、テーブル間で共通する仮名ですべてのテーブルを連結した連結テーブルを作成する。

【0048】

データ合成部２０６は、連結テーブル又はその統計量に基づいて、既存のデータ合成手法により元の連結テーブルの統計的性質を残したランダムな疑似データを生成する。

【0049】

記憶部２０７は、レコードとしてパーソナルデータを格納しているテーブルを記憶する。例えば、データ管理装置１０_ｎの記憶部２０７には、テーブルＴ_ｎが記憶される。

【0050】

＜データ管理装置１０が実行する処理の流れ＞
以下、本実施形態に係るデータ管理装置１０が実行する処理の流れについて、図４を参照しながら説明する。なお、以下では、一例として、データ合成部２０６を有する或るデータ管理装置１０_ｎが実行処理の流れについて説明する。

【0051】

まず、データ管理装置１０_ｎの仮名化部２０１は、すべてのデータ管理装置１０間でハッシュ関数等を用いた協調計算により、記憶部２０７に記憶されているテーブルＴ_ｎの識別子データｃ_ｎ，０から仮名データｃ_ｎ，０'を生成し、この仮名データｃ_ｎ，０'で識別子データｃ_ｎ，０を置き換える（ステップＳ１０１）。

【0052】

次に、データ管理装置１０_ｎの非識別化部２０２は、テーブルＴ_ｎの仮名データｃ_ｎ，０'以外の属性データｃ_ｎ，ｊ（ｊ＝１，・・・，Ｊ_ｎ）を非識別化したテーブルＴ_ｎ'を作成する（ステップＳ１０２）。ただし、このとき、非識別化部２０２は、与えられた所望のプライバシ保護強度（ε，δ）の下で（３）で説明したシャッフルモデルの性質を満たす（ε_０，δ_０）をＬＤＰのプライバシ保護強度として設定した（ε_０，δ_０）－ＬＤＰを満たすアルゴリズムにより属性データを非識別化する。

【0053】

すなわち、例えば、テーブルＴ_ｎのレコードｘ_ｎ，ｉ（ｉ＝０，１，・・・，Ｉ_ｎ）に含まれる要素から仮名を除いたものをｘ_ｎ，ｉ'（ｉ＝０，１，・・・，Ｉ_ｎ）とする。なお、ｘ_ｎ，ｉ'はＪ_ｎ次元の行ベクトルで表されるデータである。このとき、テーブルＴ_ｎから仮名データｃ_ｎ，０'を除いたテーブルをＷ_ｎ：＝Ｔ_ｎ＼ｃ_ｎ，０'とすれば、Ｗ_ｎ＝（ｘ_ｎ，１'，・・・，ｘ_ｎ，ｍ'）^τ（ただし、ｍ＝Ｉ_ｎ）と表せる。したがって、データ管理装置１０_ｎの非識別化部２０２は、（ε_０，δ_０）－ＬＤＰを満たすメカニズムＭ^（ｉ）：Ｖ→Ｙ^（ｉ）により、Ｍ^（１）（ｘ_ｎ，１'），・・・，Ｍ^（ｍ）（ｘ_ｎ，ｍ'）と各ｘ_ｎ，ｉ'を非識別化し、テーブルＴ_ｎ'＝（（ｃ_ｎ，０'（１），Ｍ^（１）（ｘ_ｎ，１'）），・・・，（ｃ_ｎ，０'（ｍ），Ｍ^（ｍ）（ｘ_ｎ，ｍ'）））^τ（ただし、ｍ＝Ｉ_ｎ）を作成すればよい。ここで、ｃ_ｎ，０'（ｉ）は、仮名データｃ_ｎ，０'に含まれるｉ番目の仮名を表すものとする。

【0054】

なお、上記の（ε_０，δ_０）－ＬＤＰを満たすアルゴリズムとしては任意のアルゴリズムを用いることができるが、例えば、参考文献４に記載されているアルゴリズムを用いることができる。この参考文献４に記載されているアルゴリズムは、［－１，１］に正規化された数値属性ｘを入力として、この数値属性ｘとプライバシ保護強度εとに応じた確率で確率的にｘ'∈｛－Ｃ，Ｃ｝（ただし、Ｃ＝（ｅ^ε＋１）／（ｅ^ε－１））に出力するアルゴリズムである。

【0055】

次に、データ管理装置１０_ｎの置換部２０３は、上記のステップＳ１０２で作成されたテーブルＴ_ｎ'の各レコードをランダムに置換する（ステップＳ１０３）。すなわち、｛１，２，・・・，ｍ｝（ただし、ｍ＝Ｉ_ｎ）をランダムに置換する置換関数をπ＝π_ｎとして、データ管理装置１０_ｎの置換部２０３は、Ｔ_ｎ''＝π_ｎ（Ｔ_ｎ'）＝（（ｃ_ｎ，０'（π（１）），Ｍ^{（π（１））}（ｘ_{ｎ，π（１）}'）），・・・，（ｃ_ｎ，０'（π（ｍ）），Ｍ^{（π（ｍ））}（ｘ_{ｎ，π（ｍ）}'）））^τによりテーブルＴ_ｎ''を作成する。これにより、（ε，δ）－ＤＰを満たすメカニズムＡ（π，Ｗ_ｎ）：＝｛Ｍ^{（π（１））}（ｘ_{ｎ，π（１）}'），・・・，Ｍ^{（π（ｍ））}（ｘ_{ｎ，π（ｍ）}'）｝により非識別化されたテーブル（つまり、シャッフルモデルに基づく局所差分プライバシによって非識別化されたテーブル）Ｔ_ｎ''が得られる。

【0056】

次に、データ管理装置１０_ｎの削除部２０４は、置換関数π_ｎを削除する（ステップＳ１０４）。なお、本ステップは実行されなくてもよい。

【0057】

次に、データ管理装置１０_ｎの連結部２０５は、他のすべてのデータ管理装置１０からテーブルＴ_ｋ''（ｋ∈｛１，・・・，Ｎ｝＼｛ｎ｝）を取得し、すべてのテーブルＴ_ｋ''（ｋ∈｛１，・・・，Ｎ｝）間で共通する仮名ですべてのＴ_ｋ''（ｋ∈｛１，・・・，Ｎ｝）を連結した連結テーブルＴ'を作成する（ステップＳ１０５）。

【0058】

そして、データ管理装置１０_ｎのデータ合成部２０６は、上記のステップＳ１０５で作成された連結テーブルＴ'又はその統計量に基づいて、既存のデータ合成手法により元の連結テーブルＴ'の統計的性質を残したランダムな疑似データを生成する（ステップＳ１０６）。例えば、データ管理装置１０_ｎのデータ合成部２０６は、データ合成に必要な統計量を連結テーブルＴ'から算出し、既存のデータ合成手法により疑似データを生成する。このとき、連結テーブルＴ'から統計量を算出する際に、データ合成部２０６は、上記のステップＳ１０２で利用した非識別化アルゴリズムに対応する統計量再構築手法により事後分布を推定して統計量を算出する（参考文献４、５、６、７）。

【0059】

なお、上記のデータ合成手法としては任意のデータ合成アルゴリズム又はそれと同等の機能を持つアルゴリズムを用いることができるが、例えば、分散共分散行列を用いた方式（参考文献１０）、主成分分析を用いた方式（参考文献１１）、線形回帰を用いた方式（参考文献１２）、ＳＶＭを用いた方式（参考文献１３）等を用いることができる。例えば、参考文献１０に記載されている方式では、カテゴリ属性と数値属性が混在するテーブルを入力し、カテゴリ属性はＯｎｅ－ＨｏｔＥｎｃｏｄｉｎｇにより二値属性に変換し、すべての属性について平均、ヒストグラム、分散・共分散を求め、それらの統計量を持つ疑似データを作成する。なお、この参考文献１０に記載されているアルゴリズムを用いる場合、元のテーブルＴ_ｋ（ｋ∈｛１，・・・，Ｎ｝）の属性データのうち、カテゴリ属性を属性値として取る属性データに関しては、その属性値を二値属性に変換しておく必要がある。

【0060】

＜まとめ＞
以上のように、本実施形態に係るデータ管理装置１０は、他のデータ管理装置１０との間で垂直分割データ連結プロトコルにより連結データを作成する際に、シャッフルモデルに基づく局所差分プライバシによって自身が保持・管理する垂直分割データを非識別化する。これにより、パーソナルデータ等のプライバシを保護しつつ、連結データの有用性悪化を低減することができる。

【0061】

また、非識別化された連結データはその非識別化によるランダム性によって相応に有用性が低下するため、本実施形態に係るデータ管理装置１０は、連結データの有用性を向上させるため、その連結データの統計的性質を残すランダムな疑似データを生成する。これにより、例えば、連結データを何等かの分析に利用した場合、疑似データを利用することで、分析精度の向上が期待できる。

【0062】

本発明は、具体的に開示された上記の実施形態に限定されるものではなく、特許請求の範囲の記載から逸脱することなく、種々の変形や変更、既知の技術との組み合わせ等が可能である。

【0063】

［参考文献］
参考文献１：Dwork, C, Roth, A.: The Algorithmic Foundations of Differential Privacy, Foundations and Trends in Theoretical Computer Science, 2013.
参考文献２：Wang, T., Zhang, X., Feng, J., and Yang, X.: A Comprehensive Survey on Local Differential Privacy Toward Data Statistics and Analysis, CoRR abs/2010.05253 (2021).
参考文献３：Erlingsson, U., Pihur, V., and Korolova, A.: Rappor: Randomized aggregatable privacy-preserving ordinal response, ACM SIGSAC CCS 2014, pp. 1054-1067 (2014).
参考文献４：Nguyen, T.T., Xiao, X., Yang, Y., Hui, S.C., Shin, H., and Shin, J.: Collecting and Analyzing Data from Smart Device Users with Local Differential Privacy, CoRR abs/1606.05053 (2016).
参考文献５：Wang, N., Xiao, X., Yang, Y., Zhao, J., Hui, S.C., Shin, H., Shin, J., and Yu, G.: Collecting and Analyzing Multidimensional Data with Local Differential Privacy, CoRR abs/1907.00782 (2019).
参考文献６：Wang, N., Xiao, X., Yang, Y., Zhao, J., Hui, S.C., Shin, H., Shin, J., and Yu, G.: Collecting and Analyzing Multidimensional Data with Local Differential Privacy, IEEE ICDE 2019, pp.638-649(2019).
参考文献７：長谷川聡, 三浦尭之: 一般逐次ベイズ法を用いた局所差分プライベートな度数分布推定, CSS2020.
参考文献８：Feldman, V., McMillan, A., and Talwar, K.: Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy Amplification by Shuffling, CoRR abs/2012.12803 (2021).
参考文献９：Feldman, V., McMillan, A., and Talwar, K.: Hiding Among the Clones: A Simple and Nearly Optimal Analysis of Privacy Amplification by Shuffling, FOCS2021, pp.954-964 (2022).
参考文献１０：岡田莉奈, 正木彰伍, 長谷川聡, 田中哲士: 統計値を用いたプライバシ保護擬似データ生成手法, CSS2017,3F3-4 (2017).
参考文献１１：Sano, N.: Synthetic Data by Principal Component Analysis, 20th IEEE International Conference on Data Mining Workshops (ICDMW 2020), pp.101-105 (2020).
参考文献１２：Nowok, B., Raab, G. M., and Dibben, C.: Synthpop: Bespoke Creation of Synthetic Data in R, Journal of Statistical Software, 74(11) (2016).
参考文献１３：Drechsler, J.: Using Support Vector Machines for Generating Synthetic Datasets, Privacy in Statistical Databases (PSD) 2010, LNCS 6344, Springer-Verlag, pp.148-161 (2010).

【符号の説明】

【0064】

１０データ管理装置
１０１入力装置
１０２表示装置
１０３外部Ｉ／Ｆ
１０３ａ記録媒体
１０４通信Ｉ／Ｆ
１０５ＲＡＭ
１０６ＲＯＭ
１０７補助記憶装置
１０８プロセッサ
１０９バス
２０１仮名化部
２０２非識別化部
２０３置換部
２０４削除部
２０５連結部
２０６データ合成部
２０７記憶部

【図1】

【図2】

【図3】

【図4】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版