特許7359063 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 富士通株式会社の特許一覧

特許7359063生成方法、生成プログラム、および生成装置

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2023-10-02

(45)【発行日】2023-10-11

(54)【発明の名称】生成方法、生成プログラム、および生成装置

(51)【国際特許分類】

G06F 21/62 20130101AFI20231003BHJP

【ＦＩ】

G06F21/62 354

【請求項の数】 8

(21)【出願番号】P 2020062248

(22)【出願日】2020-03-31

(65)【公開番号】P2021163014

(43)【公開日】2021-10-11

【審査請求日】2022-12-08

(73)【特許権者】

【識別番号】000005223

【氏名又は名称】富士通株式会社

(74)【代理人】

【識別番号】100104190

【弁理士】

【氏名又は名称】酒井昭徳

(72)【発明者】

【氏名】小栗秀暢

【審査官】平井誠

(56)【参考文献】

【文献】特開２０１７－２１５８６８（ＪＰ，Ａ）

【文献】特開２０１９－０３２８１４（ＪＰ，Ａ）

【文献】特開２０１９－０２１１９８（ＪＰ，Ａ）

【文献】国際公開第２０１９／１６８１４４（ＷＯ，Ａ１）

【文献】特開２０１８－０４９４３７（ＪＰ，Ａ）

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ０６Ｆ２１／６２

(57)【特許請求の範囲】

【請求項1】

情報を匿名化する第１の匿名化モデルにより、複数の個人データに含まれる個人データを匿名化した結果に基づいて、前記複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定し、
特定した前記１以上の個人データに基づいて、情報を匿名化する第２の匿名化モデルを学習し、
特定した前記１以上の個人データに基づいて、前記１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成し、
学習した前記第２の匿名化モデルにより、生成した前記１以上の匿名データのそれぞれの匿名データを匿名化して得られた、新たな匿名データを出力する、
処理をコンピュータが実行することを特徴とする生成方法。

【請求項2】

前記第１の匿名化モデルにより、前記複数の個人データに含まれる個人データを匿名化した結果に基づいて、当該個人データの匿名度合いが、前記所定の基準を満たすか否かを判定する、
処理を前記コンピュータが実行し、
前記判定する処理は、
前記第１の匿名化モデルにより、前記複数の個人データに含まれる個人データを匿名化した結果に基づいて、当該個人データの匿名度合いが、前記所定の基準を満たすか否かを判定するにあたり、所定の確率で、前記所定の基準を満たさないと判定し、
前記特定する処理は、
判定した結果に基づいて、前記１以上の個人データを特定する、ことを特徴とする請求項１に記載の生成方法。

【請求項3】

前記判定する処理は、
前記第１の匿名化モデルにより、前記複数の個人データに含まれる個人データを匿名化した際に、当該個人データと同一または類似する値を含む、前記複数の個人データのうちの他の個人データの数が、所定の数以下であれば、前記所定の基準を満たさないと判定する、ことを特徴とする請求項２に記載の生成方法。

【請求項4】

前記第１の匿名化モデルは、前記個人データに含まれる値に、ランダムなノイズ値を加算して得られる匿名データを、１以上生成するモデルであり、
前記判定する処理は、
前記第１の匿名化モデルにより、前記複数の個人データに含まれる個人データを匿名化した際に、加算したノイズ値の代表値が、所定の閾値以下であれば、前記所定の基準を満たさないと判定する、ことを特徴とする請求項２または３に記載の生成方法。

【請求項5】

特定した前記１以上の個人データを、１以上のクラスタに分割する、
処理を前記コンピュータが実行し、
前記学習する処理は、
前記クラスタごとに、前記クラスタに分割した個人データに基づいて、前記クラスタに対応する前記第２の匿名化モデルを学習し、
前記生成する処理は、
前記クラスタごとに、前記クラスタに分割した個人データに基づいて、前記クラスタに分割した個人データのそれぞれよりも匿名度合いが高い、前記クラスタに対応する匿名データを生成し、
前記出力する処理は、
前記クラスタごとに、学習した前記クラスタに対応する前記第２の匿名化モデルにより、生成した前記クラスタに対応する前記匿名データを匿名化して得られた、新たな匿名データを出力する、ことを特徴とする請求項１～４のいずれか一つに記載の生成方法。

【請求項6】

特定した前記１以上の個人データのそれぞれの個人データに含まれる値に関する統計値を算出する、
処理を前記コンピュータが実行し、
前記生成する処理は、
特定した前記１以上の個人データのそれぞれの個人データに含まれる値を、算出した前記統計値に置換し、１以上の匿名データを生成する、ことを特徴とする請求項１～５のいずれか一つに記載の生成方法。

【請求項7】

情報を匿名化する第１の匿名化モデルにより、複数の個人データに含まれる個人データを匿名化した結果に基づいて、前記複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定し、
特定した前記１以上の個人データに基づいて、情報を匿名化する第２の匿名化モデルを学習し、
特定した前記１以上の個人データに基づいて、前記１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成し、
学習した前記第２の匿名化モデルにより、生成した前記１以上の匿名データのそれぞれの匿名データを匿名化して得られた、新たな匿名データを出力する、
処理をコンピュータに実行させることを特徴とする生成プログラム。

【請求項8】

情報を匿名化する第１の匿名化モデルにより、複数の個人データに含まれる個人データを匿名化した結果に基づいて、前記複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定し、
特定した前記１以上の個人データに基づいて、情報を匿名化する第２の匿名化モデルを学習し、
特定した前記１以上の個人データに基づいて、前記１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成し、
学習した前記第２の匿名化モデルにより、生成した前記１以上の匿名データのそれぞれの匿名データを匿名化して得られた、新たな匿名データを出力する、
制御部を有することを特徴とする生成装置。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、生成方法、生成プログラム、および生成装置に関する。

【背景技術】

【0002】

従来、プライバシーを保護するため、個人データ（ＰＩＩ：ＰｅｒｓｏｎａｌｌｙＩｄｅｎｔｉｆｉａｂｌｅＩｎｆｏｒｍａｔｉｏｎ）を匿名化して出力する匿名化手法が存在する。例えば、個人データを加工して匿名データを生成した後、生成した匿名データに対し、プライバシーテストを実施し、元となる個人データに関して匿名性が確保されていると判断した場合にのみ、生成した匿名データを出力する匿名化手法が存在する。

【0003】

先行技術としては、例えば、第１のデータ群に含まれるデータについて、所定の関係を有するデータの数がＮ個以上である場合に、所定の関係を有する複数のデータを出力するものがある。

【先行技術文献】

【特許文献】

【0004】

【文献】特開２０１４－０１６６７５号公報

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、従来技術では、出力される匿名データの有用性が損なわれることがある。例えば、プライバシーテストを実施すると、複数の個人データのうち一部の個人データに基づいて生成した匿名データしか出力されないことがある。結果として、出力される複数の匿名データが、統計処理において好ましくないデータになってしまうことがある。具体的には、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとが、類似しなくなってしまうことがある。

【0006】

１つの側面では、本発明は、有用な匿名データを得ることを目的とする。

【課題を解決するための手段】

【0007】

１つの実施態様によれば、情報を匿名化する第１の匿名化モデルにより、複数の個人データに含まれる個人データを匿名化した結果に基づいて、前記複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定し、特定した前記１以上の個人データに基づいて、情報を匿名化する第２の匿名化モデルを学習し、特定した前記１以上の個人データに基づいて、前記１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成し、学習した前記第２の匿名化モデルにより、生成した前記１以上の匿名データのそれぞれの匿名データを匿名化して得られた、新たな匿名データを出力する生成方法、生成プログラム、および生成装置が提案される。

【発明の効果】

【0008】

一態様によれば、有用な匿名データを得ることが可能になる。

【図面の簡単な説明】

【0009】

【図1】図１は、実施の形態にかかる生成方法の一実施例を示す説明図（その１）である。

【図2】図２は、実施の形態にかかる生成方法の一実施例を示す説明図（その２）である。

【図3】図３は、データ利活用システム３００の一例を示す説明図である。

【図4】図４は、生成装置１００のハードウェア構成例を示すブロック図である。

【図5】図５は、データ管理テーブル５００の記憶内容の一例を示す説明図である。

【図6】図６は、生成装置１００の機能的構成例を示すブロック図である。

【図7】図７は、生成装置１００の第１の動作例を示す説明図である。

【図8】図８は、生成装置１００の第２の動作例を示す説明図である。

【図9】図９は、生成装置１００の第３の動作例を示す説明図である。

【図10】図１０は、メンバーシップインクルージョン攻撃の一例を示す説明図である。

【図11】図１１は、比較対象のヒストグラムの形状の第１の例を示す説明図（その１）である。

【図12】図１２は、比較対象のヒストグラムの形状の第１の例を示す説明図（その２）である。

【図13】図１３は、比較対象のヒストグラムの形状の第１の例を示す説明図（その３）である。

【図14】図１４は、比較対象のヒストグラムの形状の第１の例を示す説明図（その４）である。

【図15】図１５は、比較対象のヒストグラムの形状の第２の例を示す説明図（その１）である。

【図16】図１６は、比較対象のヒストグラムの形状の第２の例を示す説明図（その２）である。

【図17】図１７は、比較対象のヒストグラムの形状の第２の例を示す説明図（その３）である。

【図18】図１８は、準備処理手順の一例を示すフローチャートである。

【図19】図１９は、テスト処理手順の一例を示すフローチャートである。

【図20】図２０は、分岐処理手順の一例を示すフローチャートである。

【図21】図２１は、再利用処理手順の一例を示すフローチャートである。

【発明を実施するための形態】

【0010】

以下に、図面を参照して、本発明にかかる生成方法、生成プログラム、および生成装置の実施の形態を詳細に説明する。

【0011】

（実施の形態にかかる生成方法の一実施例）
図１および図２は、実施の形態にかかる生成方法の一実施例を示す説明図である。図１において、生成装置１００は、個人データの匿名性を確保しつつ、個人データに基づいて匿名データを生成して出力するコンピュータである。

【0012】

従来では、個人データを加工することにより匿名データを生成して出力するにあたり、個人データの匿名性を確保するため、プライバシーテストが実施されることがある。例えば、プライバシーテストにより、個人データに関して匿名性が確保されていると判断した場合にのみ、個人データに基づいて生成した匿名データが出力されることになる。

【0013】

具体的には、個人データに対して、プライバシーテストを実施することにより、匿名データの有用性と、個人データの匿名性との基準を定める、（ｋ，γ）ＰＤ（ＰｌａｕｓｉｂｌｅＤｅｎｉａｂｉｌｉｔｙ）と呼ばれる安全性指標が存在する。ここで、図２の説明に移行し、従来の（ｋ，γ）ＰＤが行う処理の流れについて説明する。

【0014】

図２において、（ｋ，γ）ＰＤは、個人データ群Ｄからランダムに選択した個人データｄに対して、確率的な差分プライバシーアルゴリズムＭを適用することにより、匿名データｙ＝Ｍ（ｄ）を生成する。（ｋ，γ）ＰＤは、生成した匿名データｙに対して、プライバシーテストを実施する。プライバシーテストは、有用性要件を設定されてもよい。

【0015】

（ｋ，γ）ＰＤは、例えば、個人データ群Ｄの中に、個人データｄと同一の属性値を含む他の個人データｄがｋ以上（ｋ＞１）存在していれば、生成した匿名データｙを、出力可能と判定し、リリースデータセットに追加する。一方で、（ｋ，γ）ＰＤは、例えば、個人データ群Ｄの中に、個人データｄと同一の属性値を含む他の個人データｄがｋ以上（ｋ＞１）存在していなければ、生成した匿名データｙを、出力不能と判定して破棄する。

【0016】

また、（ｋ，γ）ＰＤは、パラメータｋを推定する攻撃を防止するため、パラメータｋに代わり、ランダム化されたパラメータｋ＋Ｌａｐ（１／ε⁰）を用いてもよい。Ｌａｐ（・）は、ラプラス分布に基づく乱数発生メカニズムである。

【0017】

ｋは、個人データｄと同一の属性値を有する他の個人データｄが、いくつ以上存在することが、匿名性の観点から好ましいのかを示すパラメータである。ｋは、値が大きいほど、個人データｄに対応する個人を特定されにくくすることができるという性質を有する。

【0018】

γは、確率的な差分プライバシーアルゴリズムＭのパラメータである。γは、個人データｄに対して確率的に与えるノイズ値を規定するパラメータである。γは、値が小さいほど、個人データｄに対して与えるノイズ値を大きくすることができるという性質を有する。ノイズ値が小さいほど、匿名データｙが、いずれの個人データｄから生成されたのかが、識別される危険性が高くなる傾向がある。

【0019】

ε⁰は、ｋに対して与えるランダムなノイズ値を規定するパラメータである。ε⁰は、値が小さいほど、メンバーシップインクルージョン攻撃への耐性を強めることができるという性質を有する。メンバーシップインクルージョン攻撃の一例については、具体的には、図１０を用いて後述する。

【0020】

また、（ｋ，γ）ＰＤについては、例えば、下記非特許文献１を参照することができる。また、（ｋ，γ）ＰＤの他、（ｋ，δ）ＰＤと呼ばれる安全性指標なども存在する。（ｋ，δ）ＰＤについては、例えば、下記非特許文献２を参照することができる。

【0021】

非特許文献１：Ｂｉｎｄｓｃｈａｅｄｌｅｒ，Ｖｉｎｃｅｎｔ，ＲｅｚａＳｈｏｋｒｉ，ａｎｄＣａｒｌＡ．Ｇｕｎｔｅｒ． “Ｐｌａｕｓｉｂｌｅｄｅｎｉａｂｉｌｉｔｙｆｏｒｐｒｉｖａｃｙ－ｐｒｅｓｅｒｖｉｎｇｄａｔａｓｙｎｔｈｅｓｉｓ．” ａｒＸｉｖｐｒｅｐｒｉｎｔａｒＸｉｖ：１７０８．０７９７５（２０１７）．

【0022】

非特許文献２：Ｂｉｎｄｓｃｈａｅｄｌｅｒ，Ｖｉｎｃｅｎｔ，ａｎｄＲｅｚａＳｈｏｋｒｉ． “Ｓｙｎｔｈｅｓｉｚｉｎｇｐｌａｕｓｉｂｌｅｐｒｉｖａｃｙ－ｐｒｅｓｅｒｖｉｎｇｌｏｃａｔｉｏｎｔｒａｃｅｓ．” ２０１６ＩＥＥＥＳｙｍｐｏｓｉｕｍｏｎＳｅｃｕｒｉｔｙａｎｄＰｒｉｖａｃｙ（ＳＰ）．ＩＥＥＥ，２０１６．

【0023】

しかしながら、従来では、匿名データの有用性が損なわれることがある。例えば、プライバシーテストを実施すると、複数の個人データのうち一部の個人データに基づいて生成した匿名データしか出力されないことがある。結果として、出力される複数の匿名データが、統計処理において好ましくないデータになってしまうことがある。具体的には、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとが、類似しなくなってしまうことがある。ヒストグラムについては、具体的には、図１１～図１７を用いて後述する。

【0024】

より具体的には、（ｋ，γ）ＰＤにおいて、匿名データの有用性と、個人データの匿名性とを、バランスよく両立するよう、パラメータｋ，γ，ε⁰を調整することは難しい。ここで、（ｋ，γ）ＰＤにおいて、どのようにパラメータｋ，γ，ε⁰を調整しても、匿名データの有用性と、個人データの匿名性とのいずれかが損なわれる傾向がある。

【0025】

特に、個人データの匿名性を確保するため、パラメータｋの値を大きくすると、出力可能な匿名データを生成する元となる個人データの数が少なくなり、出力される複数の匿名データが、統計処理において好ましくないデータになる。例えば、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとが類似しなくなり、出力される複数の匿名データが、統計処理において好ましくないデータになる。

【0026】

また、ユーザが、ヒストグラムを考慮し、匿名データの有用性を向上するため、恣意的に、プライバシーテストを実施してしまうことがある。例えば、ユーザが、特定の個人データに対して、パラメータｋ＋Ｌａｐ（１／ε⁰）が偶々大きい値を取るまで、プライバシーテストを繰り返し実施し、特定の個人データに基づいて生成された匿名データを出力しようとすることがある。この場合、個人データの匿名性が損なわれることがある。

【0027】

また、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとが類似しなくなった結果、個人データの匿名性も損なわれることがある。比較的少数の個人データに基づいて、匿名データが比較的多量に生成されるため、匿名データに基づいて、個人が識別される危険性が高くなる傾向がある。

【0028】

そこで、本実施の形態では、出力される匿名データの有用性を向上することができる生成方法について説明する。

【0029】

図１の説明に戻り、生成装置１００は、複数の個人データを、ＤＢ（ＤａｔａＢａｓｅ）１０１に記憶する。個人データは、例えば、個人に関する何らかの特徴を示す値を含む。生成装置１００は、第１の匿名化モデル１１０を記憶する。第１の匿名化モデル１１０は、情報を匿名化するモデルである。匿名化は、加工に対応する。第１の匿名化モデル１１０は、例えば、個人データに含まれる値に、ランダムなノイズ値を加算して得られる匿名データを、１以上生成するモデルである。第１の匿名化モデル１１０は、例えば、確率的な差分プライバシーアルゴリズムである。

【0030】

（１－１）生成装置１００は、複数の個人データに含まれる個人データを、第１の匿名化モデル１１０により匿名化した結果に基づいて、複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定する。所定の基準は、例えば、プライバシーテストの基準である。以下の説明では、所定の基準を満たすことを「ＯＫ」と表記し、所定の基準を満たさないことを「ＮＧ」と表記する場合がある。匿名度合いが所定の基準を満たさない１以上の個人データは、例えば、ＮＧ－ＤＢ１０２に記憶される。

【0031】

生成装置１００は、例えば、複数の個人データに含まれる個人データをランダムに選択する。生成装置１００は、例えば、個人データを選択する都度、選択した個人データに基づいて、第１の匿名化モデル１１０により匿名データを１以上生成する。生成装置１００は、例えば、１以上の匿名データに基づいて、プライバシーテストを実施し、１以上の匿名データを生成する元となった個人データの匿名度合いが、所定の基準を満たすか否かを判定する。生成装置１００は、例えば、判定した結果に基づいて、複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定する。

【0032】

（１－２）生成装置１００は、特定した１以上の個人データに基づいて、第２の匿名化モデル１２０を学習する。第２の匿名化モデル１２０は、情報を匿名化するモデルである。第２の匿名化モデル１２０は、情報を匿名化するモデルである。第２の匿名化モデル１２０は、匿名データに含まれる値に、ランダムなノイズ値を加算して得られる新たな匿名データを、１以上生成するモデルである。第２の匿名化モデル１２０は、例えば、確率的な差分プライバシーアルゴリズムである。第２の匿名化モデル１２０は、例えば、第１の匿名化モデル１１０と同一のアルゴリズムである。生成装置１００は、例えば、特定した１以上の個人データに含まれる値に関する分散および平均に基づいて、第２の匿名化モデル１２０を学習する。

【0033】

（１－３）生成装置１００は、特定した１以上の個人データに基づいて、１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成する。１以上の匿名データは、例えば、ＭＡ－ＤＢ１０３に記憶される。ＭＡは、ミクロアグリゲーションを意味する。生成装置１００は、例えば、ミクロアグリゲーションを実施し、１以上の匿名データを生成する。

【0034】

生成装置１００は、具体的には、特定した１以上の個人データのそれぞれの個人データに含まれる値に関する統計値を算出する。統計値は、具体的には、平均値、最大値、最小値、中央値、または、最頻値などである。生成装置１００は、具体的には、特定した１以上の個人データのそれぞれの個人データに含まれる値を、算出した統計値に置換することにより、１以上の匿名データを生成する。

【0035】

（１－４）生成装置１００は、生成した１以上の匿名データのそれぞれの匿名データを、学習した第２の匿名化モデル１２０により匿名化して得られた、新たな匿名データを出力する。出力先は、例えば、リリースＤＢ１０４である。生成装置１００は、例えば、１以上の匿名データのそれぞれの匿名データに基づいて、第２の匿名化モデル１２０により、新たな匿名データを生成して出力する。この際、生成装置１００は、例えば、複数の個人データのうち、所定の基準を満たす個人データに基づいて、第１の匿名化モデル１１０により生成された匿名データを、併せて出力してもよい。

【0036】

これにより、生成装置１００は、有用な匿名データを得ることができ、匿名データの有用性と、個人データの匿名性とを両立することができる。

【0037】

生成装置１００は、例えば、プライバシーテストにより、匿名度合いが所定の基準を満たさないと判定された個人データに基づいて、新たな匿名データを生成することができる。このため、生成装置１００は、例えば、出力される複数の匿名データを、統計処理において好ましいデータにすることができる。生成装置１００は、具体的には、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとを近づけることができる。

【0038】

また、生成装置１００は、例えば、匿名度合いが所定の基準を満たさないと判定された個人データを、より匿名度合いが高い形式である匿名データに変換してから、第２の匿名化モデル１２０により、新たな匿名データを生成することができる。このため、生成装置１００は、例えば、個人データの匿名性を確保し易くすることができる。

【0039】

生成装置１００は、例えば、複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データに基づいて、第２の匿名化モデル１２０を学習することができる。生成装置１００は、例えば、第２の匿名化モデル１２０により、新たな匿名データを生成することができる。このため、生成装置１００は、例えば、出力される複数の匿名データを、統計処理において好ましいデータにすることができる。生成装置１００は、具体的には、例えば、匿名度合いが所定の基準を満たさない個人データの特徴分布を示すヒストグラムと、第２の匿名化モデル１２０により生成される新たな匿名データの特徴分布を示すヒストグラムとを近づけることができる。

【0040】

生成装置１００は、本来であればＮＧと判定され得る個人データに基づいて、匿名データを生成して出力することができる。このため、生成装置１００は、ユーザが、匿名データの有用性を向上するため、恣意的に、プライバシーテストを実施してしまうことを防止することができ、個人データの匿名性を確保することができる。

【0041】

以上により、生成装置１００は、匿名データの有用性と、個人データの匿名性とを両立し、外部に流通させて第３者に参照されても問題が発生しないと考えられる匿名データのＤＢを生成することができる。このため、生成装置１００は、統計分析、または、機械学習の分野において利用することができる。

【0042】

また、生成装置１００は、プライバシーテストを行う手法を改良することができる。生成装置１００は、例えば、（ｋ，γ）ＰＤ、または、（ｋ，δ）ＰＤなどの手法を改良することができる。生成装置１００は、（ｋ，γ）ＰＤ、および、（ｋ，δ）ＰＤ以外の、プライバシーテストを行う手法を改良することができる。

【0043】

（データ利活用システム３００の一例）
次に、図３を用いて、図１に示した生成装置１００を適用した、データ利活用システム３００の一例について説明する。

【0044】

図３は、データ利活用システム３００の一例を示す説明図である。図３において、データ利活用システム３００は、生成装置１００と、データ提供側装置３０１と、データ利用側装置３０２とを含む。

【0045】

データ利活用システム３００において、生成装置１００とデータ提供側装置３０１とは、有線または無線のネットワーク３１０を介して接続される。ネットワーク３１０は、例えば、ＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）、インターネットなどである。また、生成装置１００とデータ利用側装置３０２とは、有線または無線のネットワーク３１０を介して接続される。

【0046】

生成装置１００は、個人データをデータ提供側装置３０１から収集する。収集した個人データは、例えば、図５に後述するデータ管理テーブル５００に記憶される。生成装置１００は、収集した複数の個人データに基づいて、複数の匿名データを生成してデータ利用側装置３０２に送信する。複数の匿名データを生成する具体例については、例えば、図７～図９を用いて後述する。生成装置１００は、例えば、サーバ、または、ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）などである。

【0047】

データ提供側装置３０１は、個人データを取得し、生成装置１００に送信する。データ提供側装置３０１は、操作者の操作入力に基づき、個人データを取得し、生成装置１００に送信する。データ提供側装置３０１は、例えば、タブレット端末、スマートフォン、ウェアラブル端末、ＩｏＴ（ＩｎｔｅｒｎｅｔｏｆＴｈｉｎｇｓ）機器などから、個人データを取得し、生成装置１００に送信する。データ提供側装置３０１は、例えば、サーバ、または、ＰＣなどである。

【0048】

データ利用側装置３０２は、複数の匿名データを生成装置１００から受信する。データ利用側装置３０２は、複数の匿名データに基づいて、データ利活用タスクを実施する。データ利活用タスクは、例えば、統計分析、または、機械学習などのタスクである。データ利用側装置３０２は、例えば、サーバ、または、ＰＣなどである。

【0049】

ここでは、生成装置１００が、データ提供側装置３０１とは異なる装置である場合について説明したが、これに限らない。例えば、生成装置１００が、データ提供側装置３０１と一体であり、データ提供側装置３０１としても動作する場合があってもよい。

【0050】

ここでは、生成装置１００が、データ利用側装置３０２とは異なる装置である場合について説明したが、これに限らない。例えば、生成装置１００が、データ利用側装置３０２と一体であり、データ利用側装置３０２としても動作する場合があってもよい。

【0051】

ここでは、データ提供側装置３０１が、サーバ、または、ＰＣなどである場合について説明したが、これに限らない。例えば、データ提供側装置３０１が、タブレット端末、スマートフォン、ウェアラブル端末、ＩｏＴ機器などである場合があってもよい。

【0052】

（生成装置１００のハードウェア構成例）
次に、図４を用いて、生成装置１００のハードウェア構成例について説明する。

【0053】

図４は、生成装置１００のハードウェア構成例を示すブロック図である。図４において、生成装置１００は、ＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）４０１と、メモリ４０２と、ネットワークＩ／Ｆ（Ｉｎｔｅｒｆａｃｅ）４０３と、記録媒体Ｉ／Ｆ４０４と、記録媒体４０５とを有する。また、各構成部は、バス４００によってそれぞれ接続される。

【0054】

ここで、ＣＰＵ４０１は、生成装置１００の全体の制御を司る。メモリ４０２は、例えば、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）およびフラッシュＲＯＭなどを有する。具体的には、例えば、フラッシュＲＯＭやＲＯＭが各種プログラムを記憶し、ＲＡＭがＣＰＵ４０１のワークエリアとして使用される。メモリ４０２に記憶されるプログラムは、ＣＰＵ４０１にロードされることにより、コーディングされている処理をＣＰＵ４０１に実行させる。

【0055】

ネットワークＩ／Ｆ４０３は、通信回線を通じてネットワーク３１０に接続され、ネットワーク３１０を介して他のコンピュータに接続される。そして、ネットワークＩ／Ｆ４０３は、ネットワーク３１０と内部のインターフェースを司り、他のコンピュータからのデータの入出力を制御する。ネットワークＩ／Ｆ４０３は、例えば、モデムやＬＡＮアダプタなどである。

【0056】

記録媒体Ｉ／Ｆ４０４は、ＣＰＵ４０１の制御に従って記録媒体４０５に対するデータのリード／ライトを制御する。記録媒体Ｉ／Ｆ４０４は、例えば、ディスクドライブ、ＳＳＤ（ＳｏｌｉｄＳｔａｔｅＤｒｉｖｅ）、ＵＳＢ（ＵｎｉｖｅｒｓａｌＳｅｒｉａｌＢｕｓ）ポートなどである。記録媒体４０５は、記録媒体Ｉ／Ｆ４０４の制御で書き込まれたデータを記憶する不揮発メモリである。記録媒体４０５は、例えば、ディスク、半導体メモリ、ＵＳＢメモリなどである。記録媒体４０５は、生成装置１００から着脱可能であってもよい。

【0057】

生成装置１００は、上述した構成部の他、例えば、キーボード、マウス、ディスプレイ、プリンタ、スキャナ、マイク、スピーカーなどを有してもよい。また、生成装置１００は、記録媒体Ｉ／Ｆ４０４や記録媒体４０５を複数有していてもよい。また、生成装置１００は、記録媒体Ｉ／Ｆ４０４や記録媒体４０５を有していなくてもよい。

【0058】

（データ管理テーブル５００の記憶内容）
次に、図５を用いて、データ管理テーブル５００の記憶内容の一例について説明する。データ管理テーブル５００は、例えば、図４に示した生成装置１００のメモリ４０２や記録媒体４０５などの記憶領域により実現される。

【0059】

図５は、データ管理テーブル５００の記憶内容の一例を示す説明図である。図５に示すように、データ管理テーブル５００は、氏名と、性別と、年齢と、身長とのフィールドを有する。データ管理テーブル５００は、個人ごとに各フィールドに情報を設定することにより、個人データがレコード５００－ａとして記憶される。ａは、任意の整数である。

【0060】

氏名のフィールドには、個人を識別する氏名が設定される。性別のフィールドには、個人の属性値として、個人の性別が設定される。年齢のフィールドには、個人の属性値として、個人の年齢が設定される。身長のフィールドには、個人の属性値として、個人の身長が設定される。個人データは、個人の属性値として、個人の氏名と、性別と、年齢と、身長とのいずれかを含まなくてもよい。個人データは、個人の属性値として、個人の氏名と、性別と、年齢と、身長との属性値以外を含んでいてもよい。

【0061】

（データ提供側装置３０１のハードウェア構成例）
データ提供側装置３０１のハードウェア構成例は、図４に示した生成装置１００のハードウェア構成例と同様であるため、説明を省略する。

【0062】

（データ利用側装置３０２のハードウェア構成例）
データ利用側装置３０２のハードウェア構成例は、図４に示した生成装置１００のハードウェア構成例と同様であるため、説明を省略する。

【0063】

（生成装置１００の機能的構成例）
次に、図６を用いて、生成装置１００の機能的構成例について説明する。

【0064】

図６は、生成装置１００の機能的構成例を示すブロック図である。生成装置１００は、記憶部６００と、取得部６０１と、第１の匿名化部６０２と、判定部６０３と、特定部６０４と、学習部６０５と、生成部６０６と、第２の匿名化部６０７と、出力部６０８とを含む。

【0065】

記憶部６００は、例えば、図４に示したメモリ４０２や記録媒体４０５などの記憶領域によって実現される。以下では、記憶部６００が、生成装置１００に含まれる場合について説明するが、これに限らない。例えば、記憶部６００が、生成装置１００とは異なる装置に含まれ、記憶部６００の記憶内容が生成装置１００から参照可能である場合があってもよい。

【0066】

取得部６０１～出力部６０８は、制御部の一例として機能する。取得部６０１～出力部６０８は、具体的には、例えば、図４に示したメモリ４０２や記録媒体４０５などの記憶領域に記憶されたプログラムをＣＰＵ４０１に実行させることにより、または、ネットワークＩ／Ｆ４０３により、その機能を実現する。各機能部の処理結果は、例えば、図４に示したメモリ４０２や記録媒体４０５などの記憶領域に記憶される。

【0067】

記憶部６００は、各機能部の処理において参照され、または更新される各種情報を記憶する。記憶部６００は、複数の個人データを記憶する。個人データは、例えば、個人に関する何らかの特徴を示す値を含む。値は、例えば、属性値である。個人データは、例えば、取得部６０１によって取得される。記憶部６００は、複数の匿名データを記憶する。匿名データは、例えば、第１の匿名化部６０２、または、第２の匿名化部６０７によって生成される。

【0068】

記憶部６００は、第１の匿名化モデルを記憶する。第１の匿名化モデルは、情報を匿名化するモデルである。匿名化は、加工に対応する。第１の匿名化モデルは、例えば、個人データに含まれる値に、ランダムなノイズ値を加算して得られる匿名データを、１以上生成するモデルである。第１の匿名化モデルは、例えば、確率的な差分プライバシーアルゴリズムである。第１の匿名化モデルは、例えば、生成部６０６によって生成される。

【0069】

記憶部６００は、第２の匿名化モデルを記憶する。第２の匿名化モデルは、情報を匿名化するモデルである。第２の匿名化モデルは、例えば、匿名データに含まれる値に、ランダムなノイズ値を加算して得られる新たな匿名データを、１以上生成するモデルである。第２の匿名化モデルは、例えば、確率的な差分プライバシーアルゴリズムである。第２の匿名化モデルは、例えば、第１の匿名化モデルと同一のアルゴリズムである。

【0070】

取得部６０１は、各機能部の処理に用いられる各種情報を取得する。取得部６０１は、取得した各種情報を、記憶部６００に記憶し、または、各機能部に出力する。また、取得部６０１は、記憶部６００に記憶しておいた各種情報を、各機能部に出力してもよい。取得部６０１は、例えば、ユーザの操作入力に基づき、各種情報を取得する。取得部６０１は、例えば、生成装置１００とは異なる装置から、各種情報を受信してもよい。

【0071】

取得部６０１は、複数の個人データを取得する。取得部６０１は、例えば、複数の個人データを、データ提供側装置３０１から受信することにより取得する。取得部６０１は、例えば、ユーザの操作入力に基づき、複数の個人データを取得する。取得部６０１は、例えば、第１の匿名化モデルを取得してもよい。

【0072】

取得部６０１は、いずれかの機能部の処理を開始する開始トリガーを受け付けてもよい。開始トリガーは、例えば、ユーザによる所定の操作入力があったことである。開始トリガーは、例えば、他のコンピュータから、所定の情報を受信したことであってもよい。開始トリガーは、例えば、いずれかの機能部が所定の情報を出力したことであってもよい。取得部６０１は、例えば、複数の個人データを取得したことを、第１の匿名化部６０２～第２の匿名化部６０７の処理を開始する開始トリガーとして受け付ける。

【0073】

第１の匿名化部６０２は、複数の個人データに含まれる個人データを、第１の匿名化モデルにより匿名化し、１以上の匿名データを生成する。第１の匿名化部６０２は、例えば、複数の個人データに含まれる個人データをランダムに複数回選択する。第１の匿名化部６０２は、例えば、個人データを選択する都度、選択した個人データに基づいて、第１の匿名化モデルにより匿名データを１以上生成する。これにより、第１の匿名化部６０２は、匿名データを生成し、個人データの匿名性の向上を図ることができる。

【0074】

判定部６０３は、複数の個人データに含まれる個人データを、第１の匿名化モデルにより匿名化した結果に基づいて、当該個人データの匿名度合いが、所定の基準を満たすか否かを判定する。所定の基準は、例えば、プライバシーテストの基準である。判定部６０３は、例えば、１以上の匿名データに基づいて、プライバシーテストを実施し、１以上の匿名データを生成する元となった、選択した個人データの匿名度合いが、所定の基準を満たすか否かを判定する。

【0075】

判定部６０３は、具体的には、複数の個人データに含まれる個人データを、第１の匿名化モデルにより匿名化した際に、当該個人データと同一または類似する値を含む、複数の個人データのうちの他の個人データの数を算出する。また、それぞれの個人データが、複数の値を含む場合が考えられる。この場合、判定部６０３は、具体的には、特定の項目の値が、匿名化の対象とした個人データと同一または類似する他の個人データの数を算出してもよい。

【0076】

ここで、判定部６０３は、算出した数が所定の数以下であれば、所定の基準を満たさないと判定する。所定の数は、例えば、固定値である。所定の数は、例えば、可変値であってもよい。可変値は、例えば、ｋ＋Ｌａｐ（１／ε⁰）である。一方で、判定部６０３は、算出した数が所定の数より大きければ、所定の基準を満たすと判定する。これにより、判定部６０３は、個人データの匿名性が確保されているか否かを判定することができる。

【0077】

判定部６０３は、具体的には、複数の個人データに含まれる個人データを、第１の匿名化モデルにより匿名化した際に、加算したノイズ値の代表値が、所定の閾値以下であれば、所定の基準を満たさないと判定する。代表値は、具体的には、平均値、最大値、最小値、中央値、または、最頻値などである。これにより、判定部６０３は、個人データの匿名性が確保されているか否かを判定することができる。

【0078】

判定部６０３は、具体的には、所定の確率で、選択した個人データの実際の匿名度合いによらず、所定の基準を満たさないと判定してもよい。所定の確率は、例えば、ユーザによって設定される。これにより、判定部６０３は、学習部６０５が参照可能な個人データの数の増大化を図ることができ、学習部６０５が第２の匿名化モデルを生成し易くすることができる。

【0079】

特定部６０４は、複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定する。特定部６０４は、例えば、判定した結果に基づいて、１以上の個人データを特定する。特定部６０４は、具体的には、判定した結果がＮＧである１以上の個人データを特定する。これにより、特定部６０４は、プライバシーテストにより破棄された匿名データを生成する元となった、匿名度合いが所定の基準を満たさない１以上の個人データを特定することができる。

【0080】

特定部６０４は、特定した１以上の個人データを、１以上のクラスタに分割してもよい。特定部６０４は、例えば、特定した１以上の個人データのそれぞれの個人データに含まれる値に基づいて、特定した１以上の個人データを、１以上のクラスタに分割する。

【0081】

特定部６０４は、具体的には、特定した１以上の個人データのそれぞれの個人データに含まれる値の大小関係に基づいて、特定した１以上の個人データをソートする。特定部６０４は、具体的には、ソートした１以上の個人データの上位から、ｋ個の個人データごとに、同一のクラスタに属するよう、１以上の個人データを、１以上のクラスタに分割する。ｋは、可変値であってもよい。これにより、特定部６０４は、生成部６０６が生成する１以上の匿名データの特徴分布を示すヒストグラムを、１以上の個人データの特徴分布を示すヒストグラムと対応させ易くすることができる。

【0082】

学習部６０５は、特定した１以上の個人データに基づいて、第２の匿名化モデルを学習する。学習部６０５は、例えば、特定した１以上の個人データのそれぞれの個人データに含まれる値に関する分散および平均に基づいて、第２の匿名化モデルに用いられるノイズ値の範囲を決定し、第２の匿名化モデルを学習する。これにより、学習部６０５は、第２の匿名化部６０７が生成する１以上の匿名データの特徴分布を示すヒストグラムを、複数の個人データの特徴分布を示すヒストグラムと対応させ易くすることができる。

【0083】

学習部６０５は、クラスタごとに、クラスタに分割した個人データに基づいて、クラスタに対応する第２の匿名化モデルを学習する。これにより、学習部６０５は、第２の匿名化部６０７が生成する１以上の匿名データの特徴分布を示すヒストグラムを、複数の個人データの特徴分布を示すヒストグラムと対応させ易くすることができる。

【0084】

生成部６０６は、特定した１以上の個人データに基づいて、１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成する。生成部６０６は、例えば、ミクロアグリゲーションを実施し、１以上の匿名データを生成する。

【0085】

生成部６０６は、具体的には、特定した１以上の個人データのそれぞれの個人データに含まれる値に関する統計値を算出する。統計値は、具体的には、平均値、最大値、最小値、中央値、または、最頻値などである。生成部６０６は、特定した１以上の個人データのそれぞれの個人データに含まれる値を、算出した統計値に置換し、１以上の匿名データを生成する。これにより、生成部６０６は、個人データの匿名性の向上を図ることができる。

【0086】

生成部６０６は、クラスタごとに、クラスタに分割した個人データに基づいて、クラスタに分割した個人データのそれぞれよりも匿名度合いが高い、クラスタに対応する匿名データを生成する。これにより、生成部６０６は、クラスタごとに、第２の匿名化モデルが参照する匿名データを生成することができる。

【0087】

第２の匿名化部６０７は、生成した１以上の匿名データのそれぞれの匿名データを、学習した第２の匿名化モデルにより匿名化し、新たな匿名データを生成する。これにより、第２の匿名化部６０７は、生成した１以上の新たな匿名データの特徴分布を示すヒストグラムが、複数の個人データの特徴分布を示すヒストグラムに対応するよう、１以上の新たな匿名データを生成することができる。

【0088】

第２の匿名化部６０７は、クラスタごとに、生成したクラスタに対応する匿名データを、学習したクラスタに対応する第２の匿名化モデルにより匿名化し、新たな匿名データを生成する。これにより、第２の匿名化部６０７は、クラスタごとに、生成した１以上の新たな匿名データの特徴分布を示すヒストグラムが、複数の個人データの特徴分布を示すヒストグラムに対応するよう、１以上の新たな匿名データを生成することができる。

【0089】

出力部６０８は、いずれかの機能部の処理結果を出力する。出力形式は、例えば、ディスプレイへの表示、プリンタへの印刷出力、ネットワークＩ／Ｆ４０３による外部装置への送信、または、メモリ４０２や記録媒体４０５などの記憶領域への記憶である。これにより、出力部６０８は、いずれかの機能部の処理結果をユーザに通知可能にし、生成装置１００の利便性の向上を図ることができる。

【0090】

出力部６０８は、第２の匿名化部６０７によって生成された新たな匿名データを出力する。出力部６０８は、さらに、第１の匿名化部６０２によって生成された匿名データを出力する。出力部６０８は、例えば、第１の匿名化部６０２によって生成された匿名データと、第２の匿名化部６０７によって生成された新たな匿名データとを併せて出力する。これにより、出力部６０８は、有用な匿名データを利用可能にすることができる。

【0091】

（生成装置１００の第１の動作例）
次に、図７を用いて、生成装置１００の第１の動作例について説明する。

【0092】

図７は、生成装置１００の第１の動作例を示す説明図である。図７において、（７－１）生成装置１００は、データ管理テーブル５００から、氏名の属性値を削除した後の個人データ群７０１を取得する。

【0093】

（７－２）生成装置１００は、取得した個人データ群７０１のそれぞれの個人データに含まれる値に基づいて、個人データ群７０１をクラスタリングする。クラスタリングは、ヒストグラムを作成する可能性が高い属性について実施される。ヒストグラムを作成する可能性が高い属性は、例えば、予めユーザによって指定される。クラスタリングは、例えば、Ｋ－匿名化処理に規定されたクラスタリングが用いられる。

【0094】

図７の例では、生成装置１００は、個人データ群７０１を、性別の値が「女性」の個人データを含むクラスタ７０２と、性別の値が「男性」の個人データを含むクラスタ７０３とに分割する。ここでは、性別の値が、準識別子として扱われている。性別以外の値が、センシティブ属性として扱われている。生成装置１００は、性別の値が「女性」の個人データを含むクラスタ７０２を、ＤＢ７１０に保存する。生成装置１００は、性別の値が「男性」の個人データを含むクラスタ７０３を、ＤＢ７２０に保存する。

【0095】

以下の説明では、生成装置１００が、ＤＢ７１０を処理対象とする場合について説明する。生成装置１００が、ＤＢ７２０を処理対象とする場合については、生成装置１００が、ＤＢ７１０を処理対象とする場合と同様であるため、説明を省略する。

【0096】

（７－３）生成装置１００は、ＤＢ７１０に対して、ノイズ付与とプライバシーテストとを実施する。生成装置１００は、例えば、ＤＢ７１０に記憶された個人データ群７１１を取得する。生成装置１００は、例えば、取得した個人データ群７１１に含まれる個人データを、ランダムに所定回数選択する。

【0097】

生成装置１００は、例えば、個人データを選択する都度、選択した個人データに基づいて、生成モデル７３０により匿名データを１以上生成する。生成モデル７３０は、確率的な生成モデルである。生成モデル７３０は、例えば、差分プライバシーのメカニズムを有する生成モデルである。生成モデル７３０は、例えば、個人データ群７１１に基づいて生成されてもよい。

【0098】

生成装置１００は、例えば、生成した１以上の匿名データに基づいて、プライバシーテストを実施し、生成した１以上の匿名データを生成する元となった個人データの匿名度合いが、所定の基準を満たすか否かを判定する。ここで、生成装置１００は、例えば、判定した結果がＯＫであれば、生成した１以上の匿名データを、リリースＤＢ７４０に保存する。ＯＫは、個人データの匿名度合いが所定の基準を満たし、プライバシーテストに合格したことを意味する。一方で、生成装置１００は、判定した結果がＮＧであれば、生成した１以上の匿名データを破棄し、生成した１以上の匿名データを生成する元となった個人データを、ＮＧ－ＤＢ７５０に保存する。ＮＧは、個人データの匿名度合いが所定の基準を満たさず、プライバシーテストに合格しなかったことを意味する。

【0099】

（７－４）生成装置１００は、ＮＧ－ＤＢ７５０に対して、ミクロアグリゲーションを実施する。生成装置１００は、例えば、ＮＧ－ＤＢ７５０に記憶された個人データ群７５１を取得する。生成装置１００は、例えば、取得した個人データ群７５１に対して、ミクロアグリゲーションを実施する。ミクロアグリゲーションとは、個人データ群７５１のそれぞれの個人データに含まれる値を、個人データ群７５１のそれぞれの個人データに含まれる値に関する統計値に置換する手法である。統計値は、具体的には、平均値、最大値、最小値、中央値、または、最頻値などである。

【0100】

図７の例では、生成装置１００は、個人データ群７５１のそれぞれの個人データに含まれる値を、個人データ群７５１のそれぞれの個人データに含まれる値に関する平均値に置換することにより、匿名データ群７６１を生成する。生成装置１００は、例えば、ミクロアグリゲーションにより、個人データ群７５１から得られた匿名データ群７６１を、ＭＡ－ＤＢ７６０に保存する。

【0101】

ここでは、生成装置１００が、個人データ群７５１のそれぞれの個人データに含まれる値を、個人データ群７５１のそれぞれの個人データに含まれる値に関する平均値に置換することにより、匿名データを生成する場合について説明したが、これに限らない。この場合、匿名データは、平均値に比較的近い値を含む個人データに対応する個人のものであると誤認されるおそれがある。このため、例えば、生成装置１００が、個人データ群７５１のそれぞれの個人データに含まれる値を、個人データ群７５１のそれぞれの個人データに含まれる値から一定以上離れた値に置換することにより、匿名データを生成する場合があってもよい。

【0102】

（７－５）生成装置１００は、ＮＧ－ＤＢ７５０に基づいて、生成モデル７７０を学習する。生成装置１００は、例えば、ＮＧ－ＤＢ７５０に記憶された個人データ群７５１を取得する。生成装置１００は、例えば、取得した個人データ群７５１のそれぞれの個人データを、学習データに用いて、生成モデル７７０を学習する。生成モデル７７０は、確率的な生成モデルである。生成モデル７７０は、例えば、差分プライバシーのメカニズムを有する生成モデルである。生成装置１００は、例えば、取得した個人データ群７５１のそれぞれの個人データに含まれる値に関する分散および平均に基づいて、生成モデル７７０を学習する。

【0103】

（７－６）生成装置１００は、ＭＡ－ＤＢ７６０に対して、ノイズ付与を実施する。生成装置１００は、例えば、ＭＡ－ＤＢ７６０に記憶された匿名データ群７６１を取得する。生成装置１００は、例えば、取得した匿名データ群７６１に含まれる匿名データを、ランダムに所定回数選択する。生成装置１００は、取得した匿名データ群７６１のそれぞれの匿名データを選択してもよい。

【0104】

生成装置１００は、例えば、匿名データを選択する都度、選択した匿名データに基づいて、学習した生成モデル７７０により、新たな匿名データを１以上生成する。生成装置１００は、例えば、生成した新たな匿名データを含む匿名データ群７７１を、リリースＤＢ７４０に保存する。生成装置１００は、新たな匿名データを１以上生成した際、プライバシーテストを実施してもよい。

【0105】

このように、生成装置１００が、ＤＢ７１０を処理対象とした場合、リリースＤＢ７４０が得られる。一方で、生成装置１００が、ＤＢ７２０を処理対象とした場合、リリースＤＢ７８１が得られたものとする。

【0106】

（７－７）生成装置１００は、ＤＢ７１０を処理対象として得られたリリースＤＢ７４０と、ＤＢ７２０を処理対象として得られたリリースＤＢ７８１とを結合し、ＤＢ７８０を生成する。これにより、生成装置１００は、有用な匿名データを得ることができ、匿名データの有用性と、個人データの匿名性とを両立することができる。

【0107】

生成装置１００は、例えば、プライバシーテストにより、ＮＧと判定された個人データに基づいて、新たな匿名データを生成することができる。このため、生成装置１００は、例えば、出力される複数の匿名データを、統計処理において好ましいデータにすることができる。生成装置１００は、具体的には、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとを近づけることができる。

【0108】

また、生成装置１００は、例えば、匿名度合いが所定の基準を満たさないと判定された個人データを、より匿名度合いが高い形式である匿名データに変換してから、生成モデル７７０により、新たな匿名データを生成することができる。このため、生成装置１００は、例えば、個人データの匿名性を確保し易くすることができる。

【0109】

生成装置１００は、例えば、複数の個人データのうち、ＮＧと判定された１以上の個人データに基づいて、生成モデル７７０を学習し、学習した生成モデル７７０により、新たな匿名データを生成することができる。このため、生成装置１００は、例えば、出力される複数の匿名データを、統計処理において好ましいデータにすることができる。生成装置１００は、具体的には、例えば、ＮＧと判定された個人データの特徴分布を示すヒストグラムと、生成モデル７７０により生成される新たな匿名データの特徴分布を示すヒストグラムとを近づけることができる。

【0110】

以上により、生成装置１００は、匿名データの有用性と、個人データの匿名性とを両立し、外部に流通させて第３者に参照されても問題が発生しないと考えられる匿名データのＤＢ７８０を生成することができる。このため、生成装置１００は、統計分析、または、機械学習の分野において利用することができる。

【0111】

ここでは、生成装置１００が、（７－３）において、単にプライバシーテストを実施する場合について説明したが、これに限らない。例えば、生成装置１００が、（７－３）において、プライバシーテストを実施するにあたり、生成した１以上の匿名データを生成する元となった個人データの匿名度合いによらず、一定確率で、ＮＧであると判定するように動作する場合があってもよい。

【0112】

これにより、生成装置１００は、ＮＧ－ＤＢ７５０に記憶された個人データの数が少ないために、個人データの匿名性が損なわれるおそれが生じるような状況を回避することができる。この場合における生成装置１００の動作例は、図８を用いて後述する第２の動作例に対応する。

【0113】

ここでは、生成装置１００が、（７－４）において、ＮＧ－ＤＢ７５０に記憶された個人データ群７５１全体に対して、ミクロアグリゲーションを実施する場合について説明したが、これに限らない。例えば、生成装置１００が、（７－４）において、ＮＧ－ＤＢ７５０に記憶された個人データ群７５１のうち、ｋ個の個人データごとに、ミクロアグリゲーションを実施する場合があってもよい。この場合、生成装置１００は、ｋ個の個人データごとに、生成モデル７７０を学習することになる。

【0114】

これにより、生成装置１００は、ＮＧと判定された個人データの特徴分布を示すヒストグラムと、生成モデル７７０により生成される新たな匿名データの特徴分布を示すヒストグラムとを、さらに近づけ易くすることができる。この場合における生成装置１００の動作例は、図９を用いて後述する第３の動作例に対応する。

【0115】

（生成装置１００の第２の動作例）
次に、図８を用いて、生成装置１００の第２の動作例について説明する。

【0116】

図８は、生成装置１００の第２の動作例を示す説明図である。第２の動作例は、生成装置１００が、プライバシーテストを実施するにあたり、生成した１以上の匿名データを生成する元となった個人データの匿名度合いによらず、一定確率で、ＮＧであると判定するように動作する場合に対応する。

【0117】

図８において、（８－１）生成装置１００は、（７－１）および（７－２）と同様の動作により、データ管理テーブル５００に基づいて、性別の値が「女性」の個人データを含む個人データ群８０１を、ＤＢ８００に保存している。

【0118】

以下の説明では、生成装置１００が、ＤＢ８００を処理対象とする場合について説明する。生成装置１００が、性別の値が「男性」の個人データを含む個人データ群を保存した他のＤＢなどを処理対象とする場合については、生成装置１００が、ＤＢ８００を処理対象とする場合と同様であるため、説明を省略する。

【0119】

（８－２）生成装置１００は、ＤＢ８００に対して、ノイズ付与とプライバシーテストとを実施する。生成装置１００は、例えば、ＤＢ８００に記憶された個人データ群８０１を取得する。生成装置１００は、例えば、取得した個人データ群８０１に含まれる個人データを、ランダムに所定回数選択する。

【0120】

生成装置１００は、例えば、個人データを選択する都度、選択した個人データに基づいて、生成モデル８１０により匿名データを１以上生成する。生成モデル８１０は、確率的な生成モデルである。生成モデル８１０は、例えば、差分プライバシーのメカニズムを有する生成モデルである。生成モデル８１０は、例えば、個人データ群８０１に基づいて生成されてもよい。

【0121】

生成装置１００は、例えば、生成した１以上の匿名データに基づいて、プライバシーテストを実施し、生成した１以上の匿名データを生成する元となった個人データの匿名度合いが、所定の基準を満たすか否かを判定する。この際、生成装置１００は、一定確率で、生成した１以上の匿名データを生成する元となった個人データの匿名度合いによらず、所定の基準を満たさないと判定する。

【0122】

ここで、生成装置１００は、例えば、判定した結果がＯＫであれば、生成した１以上の匿名データを、リリースＤＢ８２０に保存する。一方で、生成装置１００は、判定した結果がＮＧであれば、生成した１以上の匿名データを破棄し、生成した１以上の匿名データを生成する元となった個人データを、ＮＧ－ＤＢ８３０に保存する。

【0123】

（８－３）生成装置１００は、ＮＧ－ＤＢ８３０に対して、ミクロアグリゲーションを実施する。生成装置１００は、例えば、ＮＧ－ＤＢ８３０に記憶された個人データ群８３１を取得する。生成装置１００は、例えば、取得した個人データ群８３１に対して、ミクロアグリゲーションを実施する。

【0124】

図８の例では、生成装置１００は、個人データ群８３１のそれぞれの個人データに含まれる値を、個人データ群８３１のそれぞれの個人データに含まれる値に関する平均値に置換することにより、匿名データ群８４１を生成する。生成装置１００は、例えば、ミクロアグリゲーションにより、個人データ群８３１から得られた匿名データ群８４１を、ＭＡ－ＤＢ８４０に保存する。

【0125】

ここでは、生成装置１００が、個人データ群８３１のそれぞれの個人データに含まれる値を、個人データ群８３１のそれぞれの個人データに含まれる値に関する平均値に置換することにより、匿名データを生成する場合について説明したが、これに限らない。この場合、匿名データは、平均値に比較的近い値を含む個人データに対応する個人のものであると誤認されるおそれがある。このため、例えば、生成装置１００が、個人データ群８３１のそれぞれの個人データに含まれる値を、個人データ群８３１のそれぞれの個人データに含まれる値から一定以上離れた値に置換することにより、匿名データを生成する場合があってもよい。

【0126】

（８－４）生成装置１００は、ＮＧ－ＤＢ８３０に基づいて、生成モデル８５０を学習する。生成装置１００は、例えば、ＮＧ－ＤＢ８３０に記憶された個人データ群８３１を取得する。生成装置１００は、例えば、取得した個人データ群８３１のそれぞれの個人データを、学習データに用いて、生成モデル８５０を学習する。生成モデル８５０は、確率的な生成モデルである。生成モデル８５０は、例えば、差分プライバシーのメカニズムを有する生成モデルである。生成装置１００は、例えば、取得した個人データ群８３１のそれぞれの個人データに含まれる値に関する分散および平均に基づいて、生成モデル８５０を学習する。

【0127】

（８－５）生成装置１００は、ＭＡ－ＤＢ８４０に対して、ノイズ付与を実施する。生成装置１００は、例えば、ＭＡ－ＤＢ８４０に記憶された匿名データ群８４１を取得する。生成装置１００は、例えば、取得した匿名データ群８４１に含まれる匿名データを、ランダムに所定回数選択する。生成装置１００は、取得した匿名データ群８４１のそれぞれの匿名データを選択してもよい。

【0128】

生成装置１００は、例えば、匿名データを選択する都度、選択した匿名データに基づいて、学習した生成モデル８５０により、新たな匿名データを１以上生成する。生成装置１００は、例えば、取得した匿名データ群８４１のうち、いずれか一つの匿名データを選択し、選択した匿名データに基づいて、学習した生成モデル８５０により、新たな匿名データを、匿名データ群８４１の匿名データの数と同一の数だけ生成してもよい。生成装置１００は、例えば、生成した新たな匿名データを含む匿名データ群８５１を、リリースＤＢ８２０に保存する。生成装置１００は、新たな匿名データを１以上生成した際、プライバシーテストを実施してもよい。

【0129】

このように、生成装置１００が、ＤＢ８００を処理対象とした場合、リリースＤＢ８２０が得られる。一方で、生成装置１００が、性別の値が「男性」の個人データを含む個人データ群を保存した他のＤＢを処理対象とした場合、リリースＤＢ８６１が得られたものとする。

【0130】

（８－６）生成装置１００は、リリースＤＢ８２０と、リリースＤＢ８６１とを結合し、ＤＢ８６０を生成する。これにより、生成装置１００は、有用な匿名データを得ることができ、匿名データの有用性と、個人データの匿名性とを両立することができる。

【0131】

生成装置１００は、プライバシーテストを実施するにあたり、一定確率で、本来であればＯＫと判定され得る個人データを、ＮＧ－ＤＢ８３０に保存することができる。このため、生成装置１００は、ＮＧ－ＤＢ８３０に記憶された個人データの数が少ないために、統計的解析により、個人データの匿名性が損なわれるおそれが生じるような状況を回避することができる。

【0132】

また、生成装置１００は、プライバシーテストによりＯＫと判定された個人データの数に対して、所定の閾値を設定してもよい。所定の閾値は、例えば、ユーザによって予め設定される。そして、生成装置１００は、ＯＫと判定された個人データの数が、所定の閾値以下である間、一定確率で、本来であればＯＫと判定され得る個人データをＮＧと判定し、ＮＧ－ＤＢ８３０に保存するという動作を実施する。一方で、生成装置１００は、ＯＫと判定された個人データの数が、所定の閾値より大きくなった後、一定確率で、本来であればＯＫと判定され得る個人データをＮＧと判定し、ＮＧ－ＤＢ８３０に保存するという動作を停止する。これにより、生成装置１００は、ＯＫと判定される個人データの数と、ＮＧと判定される個人データの数との偏りを低減することができ、データの匿名性の向上を図り易くすることができる。

【0133】

また、生成装置１００は、ＯＫと判定された個人データの数が、所定の閾値より大きくなった後、一定確率で、本来であればＯＫと判定され得る個人データをＮＧと判定し、ＮＧ－ＤＢ８３０に保存するという動作を開始するようにしてもよい。これにより、生成装置１００は、ＯＫと判定される個人データの数と、ＮＧと判定される個人データの数との偏りを低減することができ、データの匿名性の向上を図り易くすることができる。

【0134】

また、生成装置１００は、ＮＧ－ＤＢ８３０に保存する個人データの数に対して、所定の閾値を設定してもよい。所定の閾値は、例えば、ユーザによって予め設定される。そして、生成装置１００は、ＮＧ－ＤＢ８３０に保存された個人データの数が、所定の閾値以下である間、一定確率で、本来であればＯＫと判定され得る個人データをＮＧと判定し、ＮＧ－ＤＢ８３０に保存するという動作を実施する。一方で、生成装置１００は、ＮＧ－ＤＢ８３０に保存された個人データの数が、所定の閾値より大きくなった後、一定確率で、本来であればＯＫと判定され得る個人データをＮＧと判定し、ＮＧ－ＤＢ８３０に保存するという動作を停止する。これにより、生成装置１００は、ＯＫと判定される個人データの数と、ＮＧと判定される個人データの数との偏りを低減することができ、データの匿名性の向上を図り易くすることができる。

【0135】

（生成装置１００の第３の動作例）
次に、図９を用いて、生成装置１００の第３の動作例について説明する。

【0136】

図９は、生成装置１００の第３の動作例を示す説明図である。第３の動作例は、生成装置１００が、プライバシーテストにより、ＮＧと判定された複数の個人データのうち、ｋ個の個人データごとに、ミクロアグリゲーションを実施する場合に対応する。

【0137】

図９において、（９－１）生成装置１００は、（７－１）および（７－２）と同様の動作により、データ管理テーブル５００に基づいて、性別の値が「女性」の個人データを含む個人データ群を、ＤＢ９００に保存している。

【0138】

以下の説明では、生成装置１００が、ＤＢ９００を処理対象とする場合について説明する。生成装置１００が、性別の値が「男性」の個人データを含む個人データ群を保存した他のＤＢなどを処理対象とする場合については、生成装置１００が、ＤＢ９００を処理対象とする場合と同様であるため、説明を省略する。

【0139】

（９－２）生成装置１００は、ＤＢ９００に対して、ノイズ付与とプライバシーテストとを実施する。生成装置１００は、例えば、ＤＢ９００に記憶された個人データ群を取得する。生成装置１００は、例えば、取得した個人データ群に含まれる個人データを、ランダムに所定回数選択する。

【0140】

生成装置１００は、例えば、個人データを選択する都度、選択した個人データに基づいて、生成モデル９１０により匿名データを１以上生成する。生成モデル９１０は、確率的な生成モデルである。生成モデル９１０は、例えば、差分プライバシーのメカニズムを有する生成モデルである。生成モデル９１０は、例えば、取得した個人データ群に基づいて生成されてもよい。

【0141】

生成装置１００は、例えば、生成した１以上の匿名データに基づいて、プライバシーテストを実施し、生成した１以上の匿名データを生成する元となった個人データの匿名度合いが、所定の基準を満たすか否かを判定する。ここで、生成装置１００は、例えば、判定した結果がＯＫであれば、生成した１以上の匿名データを、リリースＤＢ９２０に保存する。一方で、生成装置１００は、判定した結果がＮＧであれば、生成した１以上の匿名データを破棄し、生成した１以上の匿名データを生成する元となった個人データを、ＮＧ－ＤＢ９３０に保存する。

【0142】

（９－３）生成装置１００は、ＮＧ－ＤＢ９３０に対して、クラスタリングを実施する。生成装置１００は、例えば、ＮＧ－ＤＢ９３０に記憶された個人データ群９４０を取得する。生成装置１００は、例えば、個人データ群９４０のそれぞれの個人データに含まれる値が大きい順に、個人データ群９４０をソートする。

【0143】

生成装置１００は、例えば、ソート後の個人データ群９４０のうち、上位からｋ個の個人データずつ選択し、同一のクラスタとして分割することにより、ソート後の個人データ群９４０に対して、クラスタリングを実施する。ｋは、例えば、変動値であってもよい。換言すれば、クラスタごとに、異なる数の個人データが含まれていてもよい。図９の例では、生成装置１００は、個人データ群９４０を、個人データ群９４１を同一のクラスタとして分割し、個人データ群９４２を同一のクラスタとして分割する。

【0144】

（９－４）生成装置１００は、クラスタごとに、ミクロアグリゲーションを実施する。生成装置１００は、例えば、あるクラスタに分割された個人データ群９４１を取得する。生成装置１００は、例えば、取得した個人データ群９４１に対して、ミクロアグリゲーションを実施する。図９の例では、生成装置１００は、個人データ群９４１のそれぞれの個人データに含まれる値を、個人データ群９４１のそれぞれの個人データに含まれる値に関する平均値に置換することにより、匿名データ群９６１を生成する。

【0145】

生成装置１００は、例えば、あるクラスタに分割された個人データ群９４２を取得する。生成装置１００は、例えば、取得した個人データ群９４２に対して、ミクロアグリゲーションを実施する。図９の例では、生成装置１００は、個人データ群９４２のそれぞれの個人データに含まれる値を、個人データ群９４２のそれぞれの個人データに含まれる値に関する平均値に置換することにより、匿名データ群９６２を生成する。生成装置１００は、例えば、ミクロアグリゲーションにより、個人データ群９４１から得られた匿名データ群９６１と、個人データ群９４２から得られた匿名データ群９６２とを合わせた、匿名データ群９６０を、ＭＡ－ＤＢ９５０に保存する。

【0146】

（９－５）生成装置１００は、クラスタごとに、生成モデル９７１，９７２を学習する。生成モデル９７１，９７２は、確率的な生成モデルである。生成モデル９７１，９７２は、例えば、差分プライバシーのメカニズムを有する生成モデルである。

【0147】

生成装置１００は、例えば、あるクラスタに分割された個人データ群９４１を取得する。生成装置１００は、例えば、取得した個人データ群９４１のそれぞれの個人データを、学習データに用いて、生成モデル９７１を学習する。生成装置１００は、例えば、取得した個人データ群９４１のそれぞれの個人データに含まれる値に関する分散および平均に基づいて、生成モデル９７１を学習する。

【0148】

生成装置１００は、例えば、あるクラスタに分割された個人データ群９４２を取得する。生成装置１００は、例えば、取得した個人データ群９４２のそれぞれの個人データを、学習データに用いて、生成モデル９７２を学習する。生成装置１００は、例えば、取得した個人データ群９４２のそれぞれの個人データに含まれる値に関する分散および平均に基づいて、生成モデル９７２を学習する。

【0149】

（９－６）生成装置１００は、クラスタごとに、ノイズ付与を実施する。生成装置１００は、例えば、あるクラスタに分割された匿名データ群９６１を取得する。生成装置１００は、例えば、取得した匿名データ群９６１に含まれる匿名データを、ランダムに所定回数選択する。生成装置１００は、取得した匿名データ群９６１のそれぞれの匿名データを選択してもよい。

【0150】

生成装置１００は、例えば、匿名データを選択する都度、選択した匿名データに基づいて、学習した生成モデル９７１により、新たな匿名データを１以上生成する。生成装置１００は、例えば、生成した新たな匿名データを含む匿名データ群を、リリースＤＢ９２０に保存する。生成装置１００は、新たな匿名データを１以上生成した際、プライバシーテストを実施してもよい。

【0151】

生成装置１００は、例えば、あるクラスタに分割された匿名データ群９６２を取得する。生成装置１００は、例えば、取得した匿名データ群９６２に含まれる匿名データを、ランダムに所定回数選択する。生成装置１００は、取得した匿名データ群９６２のそれぞれの匿名データを選択してもよい。

【0152】

生成装置１００は、例えば、匿名データを選択する都度、選択した匿名データに基づいて、学習した生成モデル９７２により、新たな匿名データを１以上生成する。生成装置１００は、例えば、生成した新たな匿名データを含む匿名データ群を、リリースＤＢ９２０に保存する。生成装置１００は、新たな匿名データを１以上生成した際、プライバシーテストを実施してもよい。

【0153】

このように、生成装置１００が、ＤＢ９００を処理対象とした場合、リリースＤＢ９２０が得られる。一方で、生成装置１００が、性別の値が「男性」の個人データを含む個人データ群を保存した他のＤＢを処理対象とした場合、リリースＤＢ９８１が得られたものとする。

【0154】

（９－７）生成装置１００は、リリースＤＢ９２０と、リリースＤＢ９８１とを結合し、ＤＢ９８０を生成する。これにより、生成装置１００は、有用な匿名データを得ることができ、匿名データの有用性と、個人データの匿名性とを両立することができる。また、生成装置１００は、ＮＧと判定された個人データの特徴分布を示すヒストグラムと、生成モデル９７１，９７２により生成される新たな匿名データの特徴分布を示すヒストグラムとを、さらに近づけ易くすることができる。

【0155】

このように、生成装置１００は、（ｋ，γ）ＰＤなどのプライバシーテストを含む匿名化データの生成アルゴリズムについて、出力される匿名データの有用性を向上することができ、匿名データの有用性と、個人データの匿名性とを両立することができる。

【0156】

（生成装置１００による効果）
次に、図１０～図１７を用いて、生成装置１００による効果について説明する。

【0157】

図１０は、メンバーシップインクルージョン攻撃の一例を示す説明図である。生成装置１００は、動作例１～動作例３により、メンバーシップインクルージョン攻撃を防止することができる。

【0158】

メンバーシップインクルージョン攻撃は、個人データｄに係る個人と同一の属性を有する１以上の個人が、攻撃者と結託したと仮定した場合に可能な攻撃である。例えば、攻撃者は、プライバシーテストのパラメータｋ＝３である場合、個人データｄに係る個人と同一の属性を有する２名の個人を知っていれば、残りの１名の個人データｄを推定可能である。

【0159】

図１０の例では、Ａｌｉｃｅが存在し、また、Ａｌｉｃｅと同一の属性「女性」「１０代」を有するＢｅｃｋｙ、Ｃｈｌｉｓ、Ｄａｚｙが存在する。そして、それぞれの個人の個人データが、データ管理テーブル５００に記憶されている。従来では、データ管理テーブル５００に基づいて、それぞれの個人の個人データにノイズを加えたデータを含めたリリースデータセット１００１が出力されることになる。

【0160】

ここで、攻撃者は、Ａｌｉｃｅ、Ｂｅｃｋｙ、Ｃｈｌｉｓ、Ｄａｚｙの背景情報を知り、リリースデータセット１００１を観察することにより、リリースデータセット１００１に、Ａｌｉｃｅの個人データを基にしたデータが含まれると推定可能である。攻撃者は、例えば、Ａｌｉｃｅと同一の属性「女性」「１０代」を有するＢｅｃｋｙ、Ｃｈｌｉｓ、Ｄａｚｙが存在することを知っている場合、Ａｌｉｃｅに関する真値に近い個人データを取得することができる。

【0161】

これに対し、生成装置１００は、データ管理テーブル５００に基づいて、ランダムに選択した個人データにノイズを加えたデータを含めたリリースデータセット１００２を出力することになる。このため、生成装置１００は、それぞれの個人の個人データの匿名性を確保し、メンバーシップインクルージョン攻撃を防止することができる。

【0162】

生成装置１００は、本来であればＮＧと判定され得る個人データに基づいて、匿名データを生成して出力することができる。このため、生成装置１００は、ユーザが、匿名データの有用性を向上するため、恣意的に、プライバシーテストを実施してしまうことを防止することができ、メンバーシップインクルージョン攻撃を防止し易くすることができる。

【0163】

図１１～図１４は、比較対象のヒストグラムの形状の第１の例を示す説明図である。生成装置１００は、動作例１～動作例３により、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとを近づけることができ、有用な匿名データを得ることができる。

【0164】

ここで、生成装置１００との比較対象として、従来のプライバシーテストにより出力される複数の匿名データの特徴分布を示すヒストグラムについて説明する。図１１の表１１００は、従来のプライバシーテストにおいて、ε⁰を１００に固定し、ｋを１～１０００まで変動した場合に、１月～１２月までのいずれかの値を有する個人データに基づいて出力される匿名データの数を示す。ここで、図１２の説明に移行し、表１１００をグラフ化した一例について説明する。

【0165】

図１２のグラフ１２００は、表１１００をグラフ化した一例である。表１１００およびグラフ１２００に示すように、個人データの匿名性を向上するため、ｋを大きくすると、出力される匿名データの数に偏りが生じることになる。例えば、ｋ＝１０００の場合、ｋ＝１の場合に比べて、１月～９月のいずれかの値を有する個人データに基づく匿名データは、出力されなくなっている。

【0166】

これに対し、従来のプライバシーテストにおいて、ε⁰を小さくし、偏りの低減化を図ることも考えられる。図１３の表１３００は、従来のプライバシーテストにおいて、ε⁰を０．１に固定し、ｋを１～１０００まで変動した場合に、１月～１２月までのいずれかの値を有する個人データに基づいて出力される匿名データの数を示す。ここで、図１４の説明に移行し、表１３００をグラフ化した一例について説明する。

【0167】

図１４のグラフ１４００は、表１３００をグラフ化した一例である。表１３００およびグラフ１４００に示すように、ε⁰を小さくしても、出力される匿名データの数に偏りが生じることになる。例えば、ｋ＝１０００の場合、ｋ＝１の場合に比べて、１１月の値を有する個人データに基づく匿名データの数は８割程度減少するのに対し、４月の値を有する個人データに基づく匿名データの数は５割程度減少することになる。

【0168】

一方で、生成装置１００は、プライバシーテストにより、ＮＧと判定された個人データに基づいて、新たな匿名データを生成して出力することができる。このため、生成装置１００は、出力される匿名データの数に、偏りが生じにくくすることができ、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとを近づけることができる。そして、生成装置１００は、有用な匿名データを得ることができる。

【0169】

また、生成装置１００は、本来であればＮＧと判定され得る個人データに基づいて、匿名データを生成して出力することができる。このため、生成装置１００は、ユーザが、匿名データの有用性を向上するため、恣意的に、プライバシーテストを実施してしまうことを防止することができ、個人データの匿名性を向上することができる。

【0170】

図１５～図１７は、比較対象のヒストグラムの形状の第２の例を示す説明図である。生成装置１００は、動作例１～動作例３により、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとを近づけることができ、有用な匿名データを得ることができる。

【0171】

ここで、生成装置１００との比較対象として、従来のプライバシーテストにより出力される複数の匿名データの特徴分布を示すヒストグラムについて説明する。図１５のグラフ１５００は、１月～１２月までのいずれかの値を有する個人データの数をグラフ化した一例である。次に、図１６の説明に移行する。

【0172】

図１６のグラフ１６０１～１６０３は、従来のプライバシーテストにおいて、ｋを平均値ｋ１に固定し、ε⁰を０．００１～１００まで変動した場合に、１月～１２月までのいずれかの値を有する個人データに基づいて出力される匿名データの数をグラフ化した一例である。図１６のグラフ１６０１は、ε⁰を０．００１にした場合に対応する。図１６のグラフ１６０２は、ε⁰を１にした場合に対応する。図１６のグラフ１６０３は、ε⁰を１００にした場合に対応する。

【0173】

グラフ１６０１～１６０３に示すように、個人データの匿名性を向上するため、ε⁰を大きくすると、出力される匿名データの数に偏りが生じることになる。例えば、ε⁰＝１００の場合、１月～４月、６月、８月のいずれかの値を有する個人データに基づく匿名データは、出力されなくなっている。次に、図１７の説明に移行する。

【0174】

図１７のグラフ１７０１～１７０３は、従来のプライバシーテストにおいて、ｋを最低値ｋ２に固定し、ε⁰を０．００１～１００まで変動した場合に、１月～１２月までのいずれかの値を有する個人データに基づいて出力される匿名データの数をグラフ化した一例である。図１７のグラフ１７０１は、ε⁰を０．００１にした場合に対応する。図１７のグラフ１７０２は、ε⁰を１にした場合に対応する。図１７のグラフ１７０３は、ε⁰を１００にした場合に対応する。

【0175】

グラフ１７０１～１７０３に示すように、ε⁰を大きくすると、出力される匿名データの数に基づいて、ｋの値が推定され易くなってしまう。例えば、ε⁰＝１００の場合、４月の値を有する個人データに基づく匿名データの数のみが５割程度減少しており、４月の値を有する個人データに基づく匿名データの数に基づいて、ｋの値が推定され易くなってしまう。

【0176】

【0177】

このように、従来のプライバシーテストのパラメータｋ，γ，ε⁰を、匿名データの有用性と、個人データの匿名性とを、バランスよく両立するよう、調整することは難しい。これに対し、生成装置１００は、プライバシーテストのパラメータｋ，γ，ε⁰を、適切に調整せずとも、匿名データの有用性と、個人データの匿名性とを、バランスよく両立することができる。

【0178】

生成装置１００は、プライバシーテストのパラメータｋ，γ，ε⁰により、ＮＧと判定される個人データの数が増加したとしても、匿名データの有用性と、個人データの匿名性とを、バランスよく両立することができる。結果として、生成装置１００は、複数の個人データの特徴分布を示すヒストグラムと、出力される複数の匿名データの特徴分布を示すヒストグラムとの、数量と比率とを類似させることができ、かつ、個人データの匿名性を確保することができる。

【0179】

（準備処理手順）
次に、図１８を用いて、生成装置１００が実行する、準備処理手順の一例について説明する。準備処理は、例えば、図４に示したＣＰＵ４０１と、メモリ４０２や記録媒体４０５などの記憶領域と、ネットワークＩ／Ｆ４０３とによって実現される。

【0180】

図１８は、準備処理手順の一例を示すフローチャートである。図１８において、まず、生成装置１００は、ヒストグラムの有用性を一定にする対象の属性を取得する（ステップＳ１８０１）。対象の属性は、例えば、ユーザによって予め設定される。ユーザは、例えば、ヒストグラムの有用性を一定にする属性の優先度を、性別、身長の順に設定する。

【0181】

次に、生成装置１００は、ＤＢの記憶内容を取得する（ステップＳ１８０２）。そして、生成装置１００は、優先度に沿って、いずれかの属性について、ＤＢの記憶内容を分割する（ステップＳ１８０３）。生成装置１００は、例えば、優先度に沿って、性別が女性と男性とで、ＤＢの記憶内容を分割する。

【0182】

次に、生成装置１００は、分割した記憶内容のそれぞれを、ＤＢｎとして保存する（ステップＳ１８０４）。そして、生成装置１００は、未処理の属性が存在するか否かを判定する（ステップＳ１８０５）。

【0183】

ここで、未処理の属性が存在する場合（ステップＳ１８０５：Ｙｅｓ）、生成装置１００は、ステップＳ１８０２の処理に戻る。一方で、未処理の属性が存在しない場合（ステップＳ１８０５：Ｎｏ）、生成装置１００は、準備処理を終了する。

【0184】

（テスト処理手順）
次に、図１９を用いて、生成装置１００が実行する、テスト処理手順の一例について説明する。テスト処理は、例えば、図４に示したＣＰＵ４０１と、メモリ４０２や記録媒体４０５などの記憶領域と、ネットワークＩ／Ｆ４０３とによって実現される。

【0185】

図１９は、テスト処理手順の一例を示すフローチャートである。図１９において、生成装置１００は、安全性基準を取得する（ステップＳ１９０１）。安全性基準は、例えば、プライバシーテストのパラメータｋ，γ，ε⁰を含む。

【0186】

次に、生成装置１００は、ＤＢｎの記憶内容を取得する（ステップＳ１９０２）。そして、生成装置１００は、ＤＢｎの記憶内容に基づいて、データを生成するメカニズムＭを生成する（ステップＳ１９０３）。

【0187】

メカニズムＭは、差分プライバシーを保証したデータを生成するアルゴリズムである。生成装置１００は、例えば、ＤＢｎの記憶内容の各レコードｒ_iに含まれる値に関する平均および分散を算出し、算出した平均および分散と、安全性基準とに基づいて、メカニズムＭを生成する。

【0188】

次に、生成装置１００は、ＤＢｎの記憶内容から、未処理のいずれかのレコードｒ_iを抽出し、メカニズムＭへの入力に設定する（ステップＳ１９０４）。そして、生成装置１００は、メカニズムＭにより、レコードｒ_iにノイズを加えたデータＭ（ｒ_i）を、所定の数だけ生成する（ステップＳ１９０５）。

【0189】

次に、生成装置１００は、ｋのランダム化処理を実施する（ステップＳ１９０６）。生成装置１００は、例えば、ｋに関するメカニズムＭ’により、ｋのランダム化処理を実施する。この際、生成装置１００は、複数のランダム化したｋ’を生成してもよい。そして、生成装置１００は、ランダム化したｋ’を取得する（ステップＳ１９０７）。

【0190】

次に、生成装置１００は、レコードｒ_iに対してプライバシーテストを実施し、ＯＫか否かを判定する（ステップＳ１９０８）。この際、生成装置１００は、一定確率で、ＮＧであると判定してもよい。ここで、ＮＧである場合（ステップＳ１９０８：Ｎｏ）、生成装置１００は、ステップＳ１９１０の処理に移行する。一方で、ＯＫである場合（ステップＳ１９０８：Ｙｅｓ）、生成装置１００は、ステップＳ１９０９の処理に移行する。

【0191】

ステップＳ１９０９では、生成装置１００は、データＭ（ｒ_i）をリリースデータセットとして、ＲＬ－ＤＢに保存する（ステップＳ１９０９）。ＲＬ－ＤＢは、リリースＤＢである。そして、生成装置１００は、ステップＳ１９１１の処理に移行する。

【0192】

ステップＳ１９１０では、生成装置１００は、レコードｒ_iをＮＧ－ＤＢに保存する（ステップＳ１９１０）。そして、生成装置１００は、ステップＳ１９１１の処理に移行する。

【0193】

ステップＳ１９１１では、生成装置１００は、レコードｒ_iを所定の数抽出したか否かを判定する（ステップＳ１９１１）。ここで、所定の数抽出していない場合（ステップＳ１９１１：Ｎｏ）、生成装置１００は、ステップＳ１９０４の処理に戻る。一方で、所定の数抽出している場合（ステップＳ１９１１：Ｙｅｓ）、生成装置１００は、テスト処理を終了する。

【0194】

（分岐処理手順）
次に、図２０を用いて、生成装置１００が実行する、分岐処理手順の一例について説明する。分岐処理は、例えば、図４に示したＣＰＵ４０１と、メモリ４０２や記録媒体４０５などの記憶領域と、ネットワークＩ／Ｆ４０３とによって実現される。

【0195】

図２０は、分岐処理手順の一例を示すフローチャートである。図２０において、生成装置１００は、安全性基準を取得する（ステップＳ２００１）。安全性基準は、例えば、プライバシーテストのパラメータｋ，γ，ε⁰を含む。

【0196】

次に、生成装置１００は、ＲＬ－ＤＢの記憶内容を取得する（ステップＳ２００２）。そして、生成装置１００は、ＲＬ－ＤＢの記憶内容におけるレコードの数を取得する（ステップＳ２００３）。

【0197】

次に、生成装置１００は、レコードの数が上限以上であるか否かを判定する（ステップＳ２００４）。ここで、レコードの数が上限以上である場合（ステップＳ２００４：Ｙｅｓ）、生成装置１００は、ステップＳ２００５の処理に移行する。一方で、レコードの数が上限未満である場合（ステップＳ２００４：Ｎｏ）、生成装置１００は、ステップＳ２００７の処理に移行する。

【0198】

ステップＳ２００５では、生成装置１００は、プライバシーテストのオプションのＰＴＯＰを変更する（ステップＳ２００５）。次に、生成装置１００は、図１９に示したテスト処理を再度実行する（ステップＳ２００６）。そして、生成装置１００は、分岐処理を終了する。

【0199】

ステップＳ２００７では、生成装置１００は、レコードの数が下限以下であるか否かを判定する（ステップＳ２００７）。ここで、レコードの数が下限以下である場合（ステップＳ２００７：Ｙｅｓ）、生成装置１００は、ステップＳ２００８の処理に移行する。一方で、レコードの数が下限より大きい場合（ステップＳ２００７：Ｎｏ）、生成装置１００は、ステップＳ２００９の処理に移行する。

【0200】

ステップＳ２００８では、生成装置１００は、ミクロアグリゲーションのオプションのＭＡＯＰを変更する（ステップＳ２００８）。そして、生成装置１００は、ステップＳ２００９の処理に移行する。

【0201】

ステップＳ２００９では、生成装置１００は、図２１に後述する再利用処理を実行する（ステップＳ２００９）。そして、生成装置１００は、分岐処理を終了する。

【0202】

（再利用処理手順）
次に、図２１を用いて、生成装置１００が実行する、再利用処理手順の一例について説明する。再利用処理は、例えば、図４に示したＣＰＵ４０１と、メモリ４０２や記録媒体４０５などの記憶領域と、ネットワークＩ／Ｆ４０３とによって実現される。

【0203】

図２１は、再利用処理手順の一例を示すフローチャートである。図２１において、生成装置１００は、安全性基準を取得する（ステップＳ２１０１）。安全性基準は、例えば、プライバシーテストのパラメータｋ，γ，ε⁰を含む。

【0204】

次に、生成装置１００は、ＮＧ－ＤＢの記憶内容を取得する（ステップＳ２１０２）。そして、生成装置１００は、ＭＡＯＰを取得し、ＮＧ－ＤＢの記憶内容に対してミクロアグリゲーション処理を実行する（ステップＳ２１０３）。

【0205】

次に、生成装置１００は、ＮＧ－ＤＢの記憶内容のうち、上位からｋ個のデータを抽出する（ステップＳ２１０４）。そして、生成装置１００は、抽出したｋ個のデータに基づいて、データを生成するメカニズムＭ_iを生成する（ステップＳ２１０５）。

【0206】

メカニズムＭ_iは、差分プライバシーを保証したデータを生成するアルゴリズムである。生成装置１００は、例えば、抽出したｋ個のデータに含まれる値に関する平均および分散を算出し、算出した平均および分散と、安全性基準とに基づいて、メカニズムＭ_iを生成する。

【0207】

次に、生成装置１００は、ｋ個のデータを平均化し、ｉ番目の処理対象としてＭＡ－ＤＢに保存する（ステップＳ２１０６）。そして、生成装置１００は、ＮＧ－ＤＢの記憶内容のすべてのデータを抽出したか否かを判定する（ステップＳ２１０７）。ここで、未抽出のデータが残っている場合（ステップＳ２１０７：Ｎｏ）、生成装置１００は、ステップＳ２１０４の処理に戻る。一方で、すべてのデータを抽出している場合（ステップＳ２１０７：Ｙｅｓ）、生成装置１００は、ステップＳ２１０８の処理に移行する。

【0208】

ステップＳ２１０８では、生成装置１００は、ＭＡ－ＤＢの記憶内容から、ｉ番目の処理対象のレコードｍ_i,kを抽出する（ステップＳ２１０８）。次に、生成装置１００は、メカニズムＭ_iにより、レコードｍ_i,kを変換し、レコードＭ_i（ｍ_i,k）を生成する（ステップＳ２１０９）。そして、生成装置１００は、生成したレコードＭ_i（ｍ_i,k）をＲＬ－ＤＢに保存する（ステップＳ２１１０）。

【0209】

次に、生成装置１００は、ＭＡ－ＤＢの記憶内容のすべてのレコードを抽出したか否かを判定する（ステップＳ２１１１）。ここで、未抽出のレコードが残っている場合（ステップＳ２１１１：Ｎｏ）、生成装置１００は、ステップＳ２１０８の処理に戻る。一方で、すべてのレコードを抽出している場合（ステップＳ２１１１：Ｙｅｓ）、生成装置１００は、再利用処理を終了する。

【0210】

ここで、生成装置１００は、図１８～図２１の各フローチャートの一部ステップの処理の順序を入れ替えて実行してもよい。例えば、ステップＳ１９０４，１９０５の処理と、ステップＳ１９０６，１９０７の処理との順序は入れ替え可能である。また、生成装置１００は、図１８～図２１の各フローチャートの一部ステップの処理を省略してもよい。例えば、ステップＳ１８０１～Ｓ１８０５の処理は省略可能である。

【0211】

以上説明したように、生成装置１００によれば、複数の個人データに含まれる個人データを、第１の匿名化モデルにより匿名化した結果に基づいて、複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定することができる。生成装置１００によれば、特定した１以上の個人データに基づいて、第２の匿名化モデルを学習することができる。生成装置１００によれば、特定した１以上の個人データに基づいて、１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成することができる。生成装置１００によれば、生成した１以上の匿名データのそれぞれの匿名データを、学習した第２の匿名化モデルにより匿名化して得られた、新たな匿名データを出力することができる。これにより、生成装置１００は、有用な匿名データを得ることができ、匿名データの有用性と、個人データの匿名性とを両立することができる。

【0212】

生成装置１００によれば、複数の個人データに含まれる個人データを、第１の匿名化モデルにより匿名化した結果に基づいて、当該個人データの匿名度合いが、所定の基準を満たすか否かを判定することができる。生成装置１００によれば、複数の個人データに含まれる個人データの匿名度合いが、所定の基準を満たすか否かを判定するにあたり、所定の確率で、所定の基準を満たさないと判定することができる。生成装置１００によれば、判定した結果に基づいて、１以上の個人データを特定することができる。これにより、生成装置１００は、所定の基準を満たさないと判定される個人データの数が少ないために、統計的解析により、個人データの匿名性が損なわれるおそれが生じるような状況を回避することができる。

【0213】

生成装置１００によれば、複数の個人データに含まれる個人データを、第１の匿名化モデルにより匿名化した際に、当該個人データと同一または類似する値を含む、複数の個人データのうちの他の個人データの数を算出することができる。生成装置１００によれば、算出した数が、所定の数以下であれば、所定の基準を満たさないと判定することができる。これにより、生成装置１００は、個人データの匿名性が確保されているか否かを判定することができる。

【0214】

生成装置１００によれば、所定の数に、可変値を採用することができる。これにより、生成装置１００は、メンバーシップインクルージョン攻撃を防止し易くすることができる。

【0215】

生成装置１００によれば、第１の匿名化モデルに、個人データに含まれる値に、ランダムなノイズ値を加算して得られる匿名データを、１以上生成するモデルを採用することができる。生成装置１００によれば、複数の個人データに含まれる個人データを、第１の匿名化モデルにより匿名化した際に、加算したノイズ値の代表値が、所定の閾値以下であれば、所定の基準を満たさないと判定することができる。これにより、生成装置１００は、個人データの匿名性が確保されているか否かを判定することができる。

【0216】

生成装置１００によれば、特定した１以上の個人データを、１以上のクラスタに分割することができる。生成装置１００によれば、クラスタごとに、クラスタに分割した個人データに基づいて、クラスタに対応する第２の匿名化モデルを学習することができる。生成装置１００によれば、クラスタごとに、クラスタに分割した個人データに基づいて、クラスタに分割した個人データのそれぞれよりも匿名度合いが高い、クラスタに対応する匿名データを生成することができる。生成装置１００によれば、クラスタごとに、生成したクラスタに対応する匿名データを、学習したクラスタに対応する第２の匿名化モデルにより匿名化して得られた、新たな匿名データを出力することができる。これにより、生成装置１００は、第２の匿名化モデルにより匿名化して得られる１以上の新たな匿名データの特徴分布を示すヒストグラムを、複数の個人データの特徴分布を示すヒストグラムと類似させ易くすることができる。

【0217】

生成装置１００によれば、特定した１以上の個人データのそれぞれの個人データに含まれる値に関する統計値を算出することができる。生成装置１００によれば、特定した１以上の個人データのそれぞれの個人データに含まれる値を、算出した統計値に置換し、１以上の匿名データを生成することができる。これにより、生成装置１００は、個人データの匿名性の向上を図ることができる。

【0218】

生成装置１００によれば、さらに、複数の個人データのうち、匿名度合いが所定の基準を満たす個人データを、第１の匿名化モデルにより匿名化して得られた匿名データを出力することができる。これにより、生成装置１００は、ユーザが、有用な匿名データを利用可能にすることができる。

【0219】

生成装置１００によれば、第２の匿名化モデルに、匿名データに含まれる値に、ランダムなノイズ値を加算して得られる新たな匿名データを、１以上生成するモデルを採用することができる。これにより、生成装置１００は、個人データの匿名性を向上可能な第２の匿名化モデルを採用することができる。

【0220】

生成装置１００によれば、特定した１以上の個人データのそれぞれの個人データに含まれる値に関する分散および平均に基づいて、第２の匿名化モデルに用いられるノイズ値の範囲を決定し、第２の匿名化モデルを学習することができる。これにより、生成装置１００は、第２の匿名化モデルにより匿名化して得られる１以上の新たな匿名データの特徴分布を示すヒストグラムを、複数の個人データの特徴分布を示すヒストグラムと類似させ易くすることができる。

【0221】

なお、本実施の形態で説明した生成方法は、予め用意されたプログラムをＰＣやワークステーションなどのコンピュータで実行することにより実現することができる。本実施の形態で説明した生成プログラムは、コンピュータで読み取り可能な記録媒体に記録され、コンピュータによって記録媒体から読み出されることによって実行される。記録媒体は、ハードディスク、フレキシブルディスク、ＣＤ（ＣｏｍｐａｃｔＤｉｓｃ）－ＲＯＭ、ＭＯ（ＭａｇｎｅｔｏＯｐｔｉｃａｌｄｉｓｃ）、ＤＶＤ（ＤｉｇｉｔａｌＶｅｒｓａｔｉｌｅＤｉｓｃ）などである。また、本実施の形態で説明した生成プログラムは、インターネットなどのネットワークを介して配布してもよい。

【0222】

上述した実施の形態に関し、さらに以下の付記を開示する。

【0223】

（付記１）情報を匿名化する第１の匿名化モデルにより、複数の個人データに含まれる個人データを匿名化した結果に基づいて、前記複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定し、
特定した前記１以上の個人データに基づいて、情報を匿名化する第２の匿名化モデルを学習し、
特定した前記１以上の個人データに基づいて、前記１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成し、
学習した前記第２の匿名化モデルにより、生成した前記１以上の匿名データのそれぞれの匿名データを匿名化して得られた、新たな匿名データを出力する、
処理をコンピュータが実行することを特徴とする生成方法。

【0224】

（付記２）前記第１の匿名化モデルにより、前記複数の個人データに含まれる個人データを匿名化した結果に基づいて、当該個人データの匿名度合いが、前記所定の基準を満たすか否かを判定する、
処理を前記コンピュータが実行し、
前記判定する処理は、
前記第１の匿名化モデルにより、前記複数の個人データに含まれる個人データを匿名化した結果に基づいて、当該個人データの匿名度合いが、前記所定の基準を満たすか否かを判定するにあたり、所定の確率で、前記所定の基準を満たさないと判定し、
前記特定する処理は、
判定した結果に基づいて、前記１以上の個人データを特定する、ことを特徴とする付記１に記載の生成方法。

【0225】

（付記３）前記判定する処理は、
前記第１の匿名化モデルにより、前記複数の個人データに含まれる個人データを匿名化した際に、当該個人データと同一または類似する値を含む、前記複数の個人データのうちの他の個人データの数が、所定の数以下であれば、前記所定の基準を満たさないと判定する、ことを特徴とする付記２に記載の生成方法。

【0226】

（付記４）前記所定の数は、可変値である、ことを特徴とする付記３に記載の生成方法。

【0227】

（付記５）前記第１の匿名化モデルは、前記個人データに含まれる値に、ランダムなノイズ値を加算して得られる匿名データを、１以上生成するモデルであり、
前記判定する処理は、
前記第１の匿名化モデルにより、前記複数の個人データに含まれる個人データを匿名化した際に、加算したノイズ値の代表値が、所定の閾値以下であれば、前記所定の基準を満たさないと判定する、ことを特徴とする付記２～４のいずれか一つに記載の生成方法。

【0228】

（付記６）特定した前記１以上の個人データを、１以上のクラスタに分割する、
処理を前記コンピュータが実行し、
前記学習する処理は、
前記クラスタごとに、前記クラスタに分割した個人データに基づいて、前記クラスタに対応する前記第２の匿名化モデルを学習し、
前記生成する処理は、
前記クラスタごとに、前記クラスタに分割した個人データに基づいて、前記クラスタに分割した個人データのそれぞれよりも匿名度合いが高い、前記クラスタに対応する匿名データを生成し、
前記出力する処理は、
前記クラスタごとに、学習した前記クラスタに対応する前記第２の匿名化モデルにより、生成した前記クラスタに対応する前記匿名データを匿名化して得られた、新たな匿名データを出力する、ことを特徴とする付記１～５のいずれか一つに記載の生成方法。

【0229】

（付記７）特定した前記１以上の個人データのそれぞれの個人データに含まれる値に関する統計値を算出する、
処理を前記コンピュータが実行し、
前記生成する処理は、
特定した前記１以上の個人データのそれぞれの個人データに含まれる値を、算出した前記統計値に置換し、１以上の匿名データを生成する、ことを特徴とする付記１～６のいずれか一つに記載の生成方法。

【0230】

（付記８）前記出力する処理は、
さらに、前記複数の個人データのうち、匿名度合いが前記所定の基準を満たす個人データを、前記第１の匿名化モデルにより匿名化して得られた匿名データを出力する、ことを特徴とする付記１～７のいずれか一つに記載の生成方法。

【0231】

（付記９）前記第２の匿名化モデルは、前記匿名データに含まれる値に、ランダムなノイズ値を加算して得られる新たな匿名データを、１以上生成するモデルである、ことを特徴とする付記１～７のいずれか一つに記載の生成方法。

【0232】

（付記１０）前記学習する処理は、
特定した前記１以上の個人データのそれぞれの個人データに含まれる値に関する分散および平均に基づいて、前記第２の匿名化モデルに用いられるノイズ値の範囲を決定し、前記第２の匿名化モデルを学習する、ことを特徴とする付記９に記載の生成方法。

【0233】

（付記１１）情報を匿名化する第１の匿名化モデルにより、複数の個人データに含まれる個人データを匿名化した結果に基づいて、前記複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定し、
特定した前記１以上の個人データに基づいて、情報を匿名化する第２の匿名化モデルを学習し、
特定した前記１以上の個人データに基づいて、前記１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成し、
学習した前記第２の匿名化モデルにより、生成した前記１以上の匿名データのそれぞれの匿名データを匿名化して得られた、新たな匿名データを出力する、
処理をコンピュータに実行させることを特徴とする生成プログラム。

【0234】

（付記１２）情報を匿名化する第１の匿名化モデルにより、複数の個人データに含まれる個人データを匿名化した結果に基づいて、前記複数の個人データのうち、匿名度合いが所定の基準を満たさない１以上の個人データを特定し、
特定した前記１以上の個人データに基づいて、情報を匿名化する第２の匿名化モデルを学習し、
特定した前記１以上の個人データに基づいて、前記１以上の個人データのそれぞれの個人データよりも匿名度合いが高い、１以上の匿名データを生成し、
学習した前記第２の匿名化モデルにより、生成した前記１以上の匿名データのそれぞれの匿名データを匿名化して得られた、新たな匿名データを出力する、
制御部を有することを特徴とする生成装置。

【符号の説明】

【0235】

１００生成装置
１０２，７５０，８３０，９３０ＮＧ－ＤＢ
１０３，７６０，８４０，９５０ＭＡ－ＤＢ
１０４，７４０，７８１，８２０，８６１，９２０，９８１リリースＤＢ
１１０第１の匿名化モデル
１２０第２の匿名化モデル
３００データ利活用システム
３０１データ提供側装置
３０２データ利用側装置
３１０ネットワーク
４００バス
４０１ＣＰＵ
４０２メモリ
４０３ネットワークＩ／Ｆ
４０４記録媒体Ｉ／Ｆ
４０５記録媒体
５００データ管理テーブル
６００記憶部
６０１取得部
６０２第１の匿名化部
６０３判定部
６０４特定部
６０５学習部
６０６生成部
６０７第２の匿名化部
６０８出力部
７０１，７１１，７５１，８０１，８３１，８４２，９４０～９４２個人データ群
７０２，７０３クラスタ
７１０，７２０，７８０，８００，８６０，９００，９８０ＤＢ
７３０，７７０，８１０，８５０，９１０，９７１，９７２生成モデル
７６１，７７１，８４１，８５１，９６０～９６２匿名データ群
１００１，１００２リリースデータセット
１１００，１３００表
１２００，１４００，１５００，１６０１～１６０３，１７０１～１７０３グラフ

【図1】