特開2024-58663 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ 国立大学法人大阪大学の特許一覧

特開2024-58663匿名化装置、匿名化方法、機械学習モデル構築方法、機械学習推論方法、及び、プログラム

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9A
9B
10
11
12
13
14
15
16
17
18A
18B
19A
19B
20A
20B
20C
21A
21B

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024058663

(43)【公開日】2024-04-25

(54)【発明の名称】匿名化装置、匿名化方法、機械学習モデル構築方法、機械学習推論方法、及び、プログラム

(51)【国際特許分類】

G06F 21/62 20130101AFI20240418BHJP

G06N 20/00 20190101ALI20240418BHJP

【ＦＩ】

G06F21/62 345

G06N20/00

【審査請求】未請求

【請求項の数】13

【出願形態】ＯＬ

(21)【出願番号】P 2023177925

(22)【出願日】2023-10-14

(31)【優先権主張番号】P 2022165917

(32)【優先日】2022-10-14

(33)【優先権主張国・地域又は機関】JP

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】504176911

【氏名又は名称】国立大学法人大阪大学

(74)【代理人】

【識別番号】100109210

【弁理士】

【氏名又は名称】新居広守

(72)【発明者】

【氏名】宮地充子

(57)【要約】

【課題】個人の属性データをプライバシーが保護される状態で解析することを可能にする装置であって、属性データを解析するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする匿名化装置等を提供する。
【解決手段】匿名化装置１０は、個人の属性データをプライバシーが保護されるデータに変換する匿名化を行う装置であって、属性データが離散データである場合に、離散データを順序付き離散データに変換する第１変換部１２ａと、属性データが連続データである場合には、属性データを弱匿名化し、属性データが離散データである場合には、第１変換部１２ａで変換された属性データを弱匿名化する第２変換部１２ｂと、第２変換部１２ｂで弱匿名化された属性データに対して、ノイズを付加する変換を行う第３変換部１２ｃとを備える。
【選択図】図１

【特許請求の範囲】

【請求項1】

個人の属性データをプライバシーが保護されるデータに変換する匿名化を行う匿名化装置であって、
前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換部と、
前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換部で変換された前記属性データを弱匿名化する第２変換部と、
前記第２変換部で弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換部とを備える、
匿名化装置。

【請求項2】

前記第１変換部は、前記属性データが離散データである場合に、前記属性データがとり得る全離散値を並べた列において前記属性データに対応するインデックスを、前記順序付き離散データとして、出力する、
請求項１記載の匿名化装置。

【請求項3】

前記第２変換部は、前記属性データがとり得る最大値と最小値との差である範囲を用いた所定演算により、前記属性データを弱匿名化する、
請求項１記載の匿名化装置。

【請求項4】

前記第３変換部は、弱匿名化された前記属性データに対して、局所差分プライバシーを適用することで、前記ノイズを付加する、
請求項１記載の匿名化装置。

【請求項5】

前記匿名化装置は、個人に関連するｍ個の属性データを含むデータレコードを対象として匿名化を行う装置であり、
前記第３変換部は、前記ノイズの付加では、与えられたプライバシーバジェットを、前記データレコードが用いられる機械学習システムにおける機械学習アルゴリズムへの貢献度、又は、前記個人の特定あるいはプライバシー漏洩への危険度に依存する配分率で、前記ｍ個の属性データのそれぞれに配分し、配分したプライバシーバジェットが小さい属性データほど大きなノイズを付加する、
請求項４記載の匿名化装置。

【請求項6】

前記第３変換部は、与えられた前記プライバシーバジェットを、前記データレコードが用いられる機械学習システムにおける機械学習アルゴリズムへの貢献度が大きいほど大きな配分率で、前記ｍ個の属性データのそれぞれに配分する、
請求項５記載の匿名化装置。

【請求項7】

前記第３変換部は、与えられた前記プライバシーバジェットを、前記個人の特定あるいはプライバシー漏洩への危険度が大きいほど小さな配分率で、前記ｍ個の属性データのそれぞれに配分する、
請求項５記載の匿名化装置。

【請求項8】

さらに、ｍ個の属性データを含むデータレコードから、ユーザの指示に従って、Ｋ（＜ｍ）個の属性データをランダムに選択する属性データ選択部を備え、
前記第１変換部、前記第２変換部及び前記第３変換部は、前記属性データ選択部で選択された属性データを対象として変換を行い、
前記匿名化装置は、前記第１変換部、前記第２変換部及び前記第３変換部によって変換されたＫ個の属性データを機械学習モデル構築サーバ又は機械学習モデル運用サーバに送信する、
請求項１記載の匿名化装置。

【請求項9】

個人の属性データをプライバシーが保護されるデータに変換する装置による匿名化方法であって、
前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換ステップと、
前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換ステップで変換された前記属性データを弱匿名化する第２変換ステップと、
前記第２変換ステップで弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換ステップとを含む、
匿名化方法。

【請求項10】

ユーザ端末及び機械学習モデル構築サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルを構築する機械学習モデル構築方法であって、
前記機械学習モデル構築サーバが前記ユーザ端末に属性数Ｋを通知するステップと、
前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データを匿名化し、匿名化した前記Ｋ個の属性データ、又は、匿名化した前記Ｋ個の属性データから算出した前記Ｋ個の属性データそれぞれについての相関を示す関係性データを前記機械学習モデル構築サーバに送信するステップと、
前記機械学習モデル構築サーバが、前記ユーザ端末から受け取った匿名化した前記Ｋ個の属性データから算出した関係性データ、又は、前記ユーザ端末から受け取った関係性データに基づいて、前記機械学習モデルの機械学習に用いるＫ個の属性を決定し、決定したＫ個の属性を前記ユーザ端末に通知する属性決定ステップと、
前記ユーザ端末において、前記機械学習モデル構築サーバから通知されたＫ個の属性に対応するＫ個の属性データについて、請求項１に記載の匿名化装置を用いた匿名化を行い、し、匿名化した前記Ｋ個の属性データを前記機械学習モデル構築サーバに送信するステップと、
前記機械学習モデル構築サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルの機械学習を行う機械学習ステップとを含む、
機械学習モデル構築方法。

【請求項11】

ユーザ端末及び機械学習モデル運用サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルによる推論を行う機械学習推論方法であって、
前記機械学習モデル運用サーバが前記ユーザ端末にＫ個の属性を通知する通知ステップと、
前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データのそれぞれについて、請求項１に記載の匿名化装置を用いた匿名化を行い、匿名化されたＫ個の属性データを、前記機械学習モデルによる推論のために、前記機械学習モデル運用サーバに送信するステップと、
前記機械学習モデル運用サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルによる推論を行う推論ステップとを含む、
機械学習推論方法。

【請求項12】

さらに、前記通知ステップに先立ち、
前記機械学習モデル運用サーバが、前記ユーザ端末に属性数Ｋを通知するステップと、
前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データを匿名化し、匿名化した前記Ｋ個の属性データ、又は、匿名化した前記Ｋ個の属性データから算出した前記Ｋ個の属性データそれぞれについての相関を示す関係性データを前記機械学習モデル運用サーバに送信するステップと、
前記機械学習モデル運用サーバが、前記ユーザ端末から受け取った匿名化した前記Ｋ個の属性データから算出した関係性データ、又は、前記ユーザ端末から受け取った前記関係性データに基づいて、前記機械学習モデルの推論に用いるＫ個の属性を決定する属性決定ステップとを含み、
前記通知ステップでは、前記属性決定ステップで決定した前記Ｋ個の属性を前記ユーザ端末に通知する、
請求項１１記載の機械学習推論方法。

【請求項13】

請求項９～１２のいずれか１項に記載のステップをコンピュータに実行させるプログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、匿名化装置及びその方法、機械学習モデル構築方法及び機械学習推論方法等に関し、特に、個人の属性データをプライバシーが保護されるデータに変換する匿名化装置に関する。

【背景技術】

【0002】

心拍数、運動量、歩数、脈拍、酸素摂取量、消費カロリーなど、私たちの生活に関するさまざまな属性データが収集されている。これらの属性データを、機械学習モデル等を用いて、プライバシーを保護しながら解析できれば、様々な問題の解決が可能になる。

【0003】

この問題を解決するために、従来、暗号化を用いた技術（非特許文献１参照）、及び、機械学習モデルへの攻撃の複雑さを鑑みて（非特許文献２参照）、データに局所的なノイズをランダムに加える手法である局所差分プライバシー（Ｌｏｃａｌｄｉｆｆｅｒｅｎｔｉａｌｐｒｉｖａｃｙ（以下、単に「ＬＤＰ」とも呼ぶ））が提案されている（非特許文献３参照）。

【先行技術文献】

【非特許文献】

【0004】

【非特許文献1】P. Xie, M. Bilenko, and e. Finley, "Crypto-nets: Neural networks over encrypted data," arXiv preprint arXiv:1412.6181, 2014.

【非特許文献2】H. Hu, Z. Salcic, L. Sun, and e. Dobbie, "Membership inference attacks on machine learning: A survey," ACM Computing Surveys (CSUR),2021.

【非特許文献3】C. Dwork, "Differential privacy," in Proc. of ICALP 2006, LNCS, vol.4052, 2006, pp. 1-12.

【非特許文献4】P. Kairouz, K. Bonawitz, and D. Ramage, "Discrete distribution estimation under local privacy," in International Conference on Machine Learning. PMLR, 2016, pp. 2436-2444.

【非特許文献5】T. Wang, J. Blocki, and e. Li, "Locally differentially private protocols for frequency estimation," in USENIX Security 17, 2017, pp. 729-745.

【非特許文献6】M. Gaboardi and R. Rogers, "Local private hypothesis testing: Chisquare tests," in International Conference on Machine Learning, 2018,pp. 1626-1635.

【非特許文献7】B. Ding, H. Nori, and e. Li, "Comparing population means under local differential privacy: with significance and power," in Proceedings of the AAAI, vol. 32, no. 1, 2018.

【非特許文献8】K. Wei, J. Li, M. Ding, C. Ma, H. H. Yang, F. Farokhi, S. Jin, T. Q. Quek, and H. V. Poor, "Federated learning with differential privacy: Algorithms and performance analysis," IEEE Transactions on Information Forensics and Security, vol. 15, pp. 3454-3469, 2020.

【非特許文献9】M. Yang, L. Lyu, and e. Zhao, "Local differential privacy and its applications: A comprehensive survey," arXiv preprint arXiv:2008.03686,2020.

【非特許文献10】N. Holohan, D. J. Leith, and O. Mason, "Optimal differentially private mechanisms for randomised response," IEEE Transactions on Information Forensics and Security, vol. 12, no. 11, pp. 2726-2735, 2017.

【非特許文献11】N. Wang, X. Xiao, and e. Yang, "Collecting and analyzing multidimensional data with local differential privacy," in IEEE ICDE, 2019, pp. 638-649.

【非特許文献12】F. Pedregosa, G. Varoquaux, and e. Gramfort, A., "Scikit-learn: Machine learning in Python," Journal of Machine Learning Research, vol. 12, pp. 2825-2830, 2011.

【非特許文献13】J. C. Duchi and e. Jordan, "Local privacy and statistical minimax rates," in 54th Annual Symposium on Foundations of Computer Science. IEEE, 2013, pp. 429-438.

【非特許文献14】P. Kairouz, S. Oh, and P. Viswanath, "Extremal mechanisms for local differential privacy," in Advances in Neural Information Processing Systems, Z. Ghahramani, M. Welling, C. Cortes, N. Lawrence, and K. Weinberger, Eds. Curran Associates, Inc.

【非特許文献15】B. I. Rubinstein, P. L. Bartlett, and e. Huang, "Learning in a large function space: Privacy-preserving mechanisms for svm learning," arXiv preprint arXiv:0911.5708, 2009.

【非特許文献16】"Breast cancer wisconsin (diagnostic) data set," UCI Machine Learning Repository https://archive.ics.uci.edu/ml/datasets/breast+cancer+wisconsin+(diagnostic).

【非特許文献17】"Ionosphere data set," UCI Machine Learning Repository https://archive.ics.uci.edu/ml/datasets/ionosphere.

【発明の概要】

【発明が解決しようとする課題】

【0005】

しかしながら、上記非特許文献１の技術では、準同形暗号を用いるため、処理に非常に時間がかかる問題とともに、準同形暗号の鍵を持っている機関にはデータが漏洩するという問題がある。また、上記非特許文献３の技術では、ノイズが付加されたデータの解析の有用性が低下してしまうという問題がある。

【0006】

そこで、本開示は、個人の属性データをプライバシーが保護される状態で解析することを可能にする装置であって、属性データを解析するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする匿名化装置、匿名化方法、機械学習モデル構築方法及び機械学習推論方法等を提供することを目的とする。

【課題を解決するための手段】

【0007】

上記目的を達成するために、本開示の一形態に係る匿名化装置は、個人の属性データをプライバシーが保護されるデータに変換する匿名化を行う匿名化装置であって、前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換部と、前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換部で変換された前記属性データを弱匿名化する第２変換部と、前記第２変換部で弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換部とを備える。

【0008】

上記目的を達成するために、本開示の一形態に係る匿名化方法は、個人の属性データをプライバシーが保護されるデータに変換する装置による匿名化方法であって、前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換ステップと、前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換ステップで変換された前記属性データを弱匿名化する第２変換ステップと、前記第２変換ステップで弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換ステップとを含む。

【0009】

上記目的を達成するために、本開示の一形態に係る機械学習モデル構築方法は、ユーザ端末及び機械学習モデル構築サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルを構築する機械学習モデル構築方法であって、前記機械学習モデル構築サーバが前記ユーザ端末に属性数Ｋ（≦ｍ）を通知するステップと、前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データを匿名化し、匿名化した前記Ｋ個の属性データ、又は、匿名化した前記Ｋ個の属性データから算出した前記Ｋ個の属性データそれぞれについての相関を示す関係性データを前記機械学習モデル構築サーバに送信するステップと、前記機械学習モデル構築サーバが、前記ユーザ端末から受け取った匿名化与した前記Ｋ個の属性データから算出した関係性データ、又は、前記ユーザ端末から受け取った関係性データに基づいて、前記機械学習モデルの機械学習に用いるＫ個の属性を決定し、決定したＫ個の属性を前記ユーザ端末に通知する属性決定ステップと、前記ユーザ端末において、前記機械学習モデル構築サーバから通知されたＫ個の属性に対応するＫ個の属性データについて、上記匿名化装置を用いた匿名化を行い、し、匿名化した前記Ｋ個の属性データを前記機械学習モデル構築サーバに送信するステップと、前記機械学習モデル構築サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルの機械学習を行う機械学習ステップとを含む。

【0010】

上記目的を達成するために、本開示の一形態に係る機械学習推論方法は、ユーザ端末及び機械学習モデル運用サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルによる推論を行う機械学習推論方法であって、前記機械学習モデル運用サーバが前記ユーザ端末にＫ個の属性を通知する通知ステップと、前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データのそれぞれについて、上記匿名化装置を用いた匿名化を行い、匿名化されたＫ個の属性データを、前記機械学習モデルによる推論のために、前記機械学習モデル運用サーバに送信するステップと、前記機械学習モデル運用サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルによる推論を行う推論ステップとを含む。

【発明の効果】

【0011】

本開示により、個人が自分のプライバシーを制御でき、かつ、個人の属性データをプライバシーが保護される状態で解析することを可能にする装置であって、属性データを解析するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする匿名化装置、匿名化方法、機械学習モデル構築方法及び機械学習推論方法等が提供される。

【図面の簡単な説明】

【0012】

【図1】図１は、実施の形態に係る匿名化装置の構成を示すブロック図である。

【図2】図２は、実施の形態に係る機械学習システムの構成を示すブロック図である。

【図3】図３は、実施の形態に係る機械学習システムの動作を示す通信シーケンス図である。

【図4】図４は、アルゴリズム１（Ｐｉｅｃｅｗｉｓｅメカニズム（ＰＭ））を示す図である。

【図5】図５は、アルゴリズム２（ＲａｎｄｏｍｉｓｅｄＲｅｓｐｏｎｓｅメカニズム（ＲＲ））を示す図である。

【図6】図６は、アルゴリズム３（離散データから順序付き離散データへの変換（ＤＴＯ））を示す図である。

【図7】図７は、アルゴリズム４（弱匿名化データへの変換（ＷＡＴ））を示す図である。

【図8】図８は、アルゴリズム５（ＵｎｉｆｉｅｄＬＤＰメカニズム（ＷＡＬＤＰ））を示す図である。

【図9A】図９Ａは、アルゴリズム６（ＷＡによる次元削減（ＤＲ．ＷＡ））を示す図である。

【図9B】図９Ｂは、図９Ａに示されるアルゴリズム６を、全属性を利用するように変形した変形アルゴリズム６を説明する図である。

【図10】図１０は、アルゴリズム７（プライバシーを保護した学習モデル構築ＰＰＴｒａｉｎｉｎｇ）を示す図である。

【図11】図１１は、アルゴリズム８（プライバシーを保護した学習モデルテストＰＰＴｅｓｔｉｎｇ）を示す図である。

【図12】図１２は、ＷＤＢＣデータセットにおけるＳＵＰ．ＭＬデータを用いて学習した機械学習モデルのテスト結果（精度）を示す図である。

【図13】図１３は、ＷＤＢＣデータセットにおけるＲａｗデータ、ＰＭデータ、ＳＵＰ．ＭＬデータを用いて学習した機械学習モデルのテスト結果（精度）の比較を示す図である。

【図14】図１４は、ＷＤＢＣデータセットにおける（ＰＰＴｒａｉｎｉｎｇ、ＰＰＴｅｓｔｉｎｇ）の組み合わせについての正答率の比較を示す図である。

【図15】図１５は、ＩｏｎｏｓｐｈｅｒｅデータセットにおけるＳＵＰ．ＭＬデータを用いて学習した機械学習モデルのテスト結果（精度）を示す図である。

【図16】図１６は、ＩｏｎｏｓｐｈｅｒｅデータセットにおけるＲａｗデータ、ＰＭデータ、ＳＵＰ．ＭＬデータを用いて学習した機械学習モデルのテスト結果（精度）の比較を示す図である。

【図17】図１７は、Ｉｏｎｏｓｐｈｅｒｅデータセットにおける（ＰＰＴｒａｉｎｉｎｇ、ＰＰＴｅｓｔｉｎｇ）の組み合わせについての正答率の比較を示す図である。

【図18A】図１８Ａは、実施例２に係る匿名化装置の動作例を説明する図である。

【図18B】図１８Ｂは、実施例２に係る匿名化装置の動作例の続きを説明する図である。

【図19A】図１９Ａは、オッズ比を利用してプライバシーバジェットの配分率を決定する実施例２の第１事例に係る手順を示す図である。

【図19B】図１９Ｂは、図１９Ａに示される手順の具体例（属性が２値の場合）を示す図である。

【図20A】図２０Ａは、ロジスティック回帰を利用してプライバシーバジェットの配分率を決定する実施例２の第３事例に係る手順及び具体例を示す図である。

【図20B】図２０Ｂは、アルゴリズム９（ロジスティック回帰）を示す図である。

【図20C】図２０Ｃは、ロジスティック回帰を利用してプライバシーバジェットの配分率を決定する実施例２の第２事例に係る手順を示す図である。

【図21A】図２１Ａは、図２０Ａに示されるロジスティック回帰を利用したプライバシーバジェットの配分を用いて学習した機械学習モデルのテスト結果（精度）を示す図である。

【図21B】図２１Ｂは、ＳＶＭを用いて学習した機械学習モデルのテスト結果（精度）を示す図である。

【発明を実施するための形態】

【0013】

（本発明者が得た知見）
本開示の実施の形態及び実施例を説明する前に、本開示の背景及び本発明者が得た知見を説明する。

【0014】

ＩｏＴ機器の普及に伴い、様々なデータが各地で分散的に収集されるようになった。我々の生活の日々のデータでは心拍数、運動量、歩数、脈拍、消費カロリーなどのデータも収集されるし、一方、医療機関には診察データ、さらには保健所には定期的な検査の結果が収集されている。これらの分散されたデータを収集し、解析することで、病気の予兆の検知など各種課題解決が可能になると考えられている。この際、重要になることは各データに紐づくプライバシーの取り扱いである。

【0015】

分散したデータを、プライバシー保護をしながらデータ解析に用いる方法にはいくつかの手法がある。大きく２つのアプローチに分けられる。

【0016】

第一のアプローチはセキュリティ技術を用いるアプローチである。機械学習をターゲットとした場合、第一のアプローチでは例えば学習モデルの構築（つまり、機械学習モデルの機械学習（以下、単に「学習」ともいう））時に最適化問題を暗号化、あるいは分散した状態で繰り返し解く必要がある。このボトルネックに対して、活性化関数の近似処理などによって高速化を図るアプローチなども存在するが（非特許文献１参照）、依然として計算量と通信量が大きな問題となる。また、このアプローチは最終出力結果を得るユーザとデータ保有者が一致していない場合、本質的に保有データのプライバシーを保護しているとはいえない。

【0017】

一方、第二のアプローチとしてデータの非識別化が考えられる。これはデータ自体、あるいはパラメータに加工処理を施すことで個々データのプライバシーを保護するものである。特に最近の機械学習モデルへの攻撃の複雑さを鑑みて（非特許文献２参照）、本開示では情報理論に基づく定量的なプライバシー強度を保証する差分プライバシー（ＤＰ；ｄｉｆｆｅｒｅｎｔｉａｌｐｒｉｖａｃｙ）に着目している。差分プライバシーは中央型と局所型の大きく二通りの構成が存在する。中央型はデータサーバへのクエリに対するレスポンスに、局所型はデータ保有者がデータに直接確率的メカニズムを適用することでプライバシー保護を実現する。差分プライバシーを満たす最も基本的なメカニズムとしてラプラスメカニズム（非特許文献３参照）が知られている。しかしながら、直接的にこのメカニズムを利用すると、データや分析結果に悪影響を及ぼす強いノイズが付与されうる。したがってユースケースに応じてメカニズムのチューニングが必要であり、例えばヘビーヒッター検知を始めとした頻度分析（非特許文献４、５参照）や仮説検定（非特許文献６、７参照）、さらには機械学習を対象としたメカニズム（非特許文献８参照）などが提案されている。特に局所差分プライバシーメカニズムを利用したアプリケーションは参考文献（非特許文献９参照）にてまとめられている。

【0018】

本開示では、信頼すべき機関（つまり、属性データを解析するサーバ装置）が不要な局所差分プライバシーに注目し、局所差分プライバシーメカニズムを通したデータの機械学習への適用を提案する。これまで離散値、および連続値に対して局所差分プライバシーメカニズム（非特許文献１０、１１参照）が提案されている。しかしこれらは主に統計分析への利用が想定されているが、個々のデータにおける属性間の相関等の維持は考慮しないため、機械学習を前提とした利用は適さない可能性がある。

【0019】

本開示は、局所差分プライバシーを満たすデータの機械学習への利用を想定したフレームワークである匿名化装置、機械学習モデル構築サーバ、機械学習モデル運用サーバそれらの装置で構成される機械学習システム等を提案する。特にデータの次元数および各次元のクラス数をパラメータとしたデータ構造の簡略化、すなわち弱匿名化により、データのプライバシーと学習モデルの精度のバランスを取ることが可能となる。本開示の機械学習システムは、非特許文献１１の技術と同様、離散値および連続値を持つ任意のデータ形式の入力が可能であるが、提案する弱匿名化の目的は頻度分析のみではなく、必要十分な情報量の削減（つまり、機械学習モデル構築装置が備える次元削減の機能）にある。また提案するアルゴリズムは、直接データに対して適用されるため、学習フェーズだけではなく評価（推論）フェーズにおいても機能するのみならず、構築された学習モデルの教師データのプライバシー保護も実現する。本開示に係る機械学習システムでは、学習フェーズに用いる学習データのみならず、評価フェーズにおけるテストデータのプライバシーも考慮している。

【0020】

本開示に係る機械学習システムでは、フィージビリティスタディとして乳がんデータおよび電解データに対して提案フレームワークを適用し、その有効性を実験で確認した。実験結果は弱匿名化のパラメータをコントロールすることで、適当なプライバシー強度で十分な精度のモデルを生成することが可能であることを示唆している。また評価フェーズでは、学習モデルへの入力として、生データを用いずに学習モデルの生成に利用したメカニズムを適用したノイズ付きのデータを用いても十分高い精度が実現できることを確認した。

【0021】

（実施の形態）
以下、本開示の実施の形態について、図面を用いて詳細に説明する。なお、以下で説明する実施の形態は、いずれも本開示の一具体例を示す。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本開示を限定する主旨ではない。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化する。

【0022】

図１は、実施の形態に係る匿名化装置１０の構成を示すブロック図である。匿名化装置１０は、個人の属性データをプライバシーが保護される属性データ（以下、変換後の属性データを「ＷＡＬＤＰ（弱匿名化局所差分プライバシー）データ」とも呼ぶ）に変換する装置であり、匿名化処理部１２を備える。

【0023】

匿名化装置１０は、例えば、健康に関するデータレコードを保持する記憶部を備えるユーザ端末にインストールされて用いられるソフトウェアとして実現され得る。ここで、「属性データ」は、属性の具体値であり、例えば、「８０」という心拍数である。「属性」とは、属性の種類であり、例えば、「心拍数」である。本実施の形態では、ｍ個の属性データ（心拍数、運動量、歩数、脈拍、酸素摂取量、消費カロリー等のそれぞれの具体値）から構成されるデータレコードが処理の対象となる。

【0024】

匿名化処理部１２は、与えられた属性データをＷＡＬＤＰデータに変換する情報処理部であり、機能的に、第１変換部１２ａ、第２変換部１２ｂ及び第３変換部１２ｃを有する。なお、匿名化処理部１２は、プログラム及びデータを保持するメモリ、プログラムを実行するプロセッサ等で構成される。

【0025】

第１変換部１２ａは、取得された属性データが離散データである場合に、離散データを順序付き離散データに変換する。具体的には、第１変換部１２ａは、属性データが離散データである場合に、属性データがとり得る全離散値を並べた列において属性データに対応するインデックスを、順序付き離散データとして、出力する。なお、取得された属性データが連続データである場合には、第１変換部１２ａは、特に何の処理もしない。

【0026】

第２変換部１２ｂは、取得された属性データが連続データである場合には、属性データを弱匿名化し、属性データが離散データである場合には、第１変換部１２ａで変換された属性データ（つまり、順序付き離散データ）を弱匿名化する。具体的には、第２変換部１２ｂは、属性データ（連続データ又は順序付き離散データ）がとり得る最大値と最小値との差である範囲を用いた所定演算により、属性データを弱匿名化する。

【0027】

なお、「弱匿名化」とは、対象のデータ（ここでは、属性データ）を「弱い匿名性」のデータに変換することであり、つまり、必ずしもある個人が元の属性データをもつとは限らないように変形することで、属性データからある個人を特定することを困難にすることである。

【0028】

第３変換部１２ｃは、第２変換部１２ｂで弱匿名化された属性データに対して、ノイズを付加する変換を行う。つまり、連続データ及び離散データに対して統一的に（つまり、同じ方法で）ノイズを付加する。具体的には、第３変換部１２ｃは、弱匿名化された属性データに対して、局所差分プライバシーを適用することで、ノイズを付加する。なお、本明細書では、弱匿名化だけを行う場合、及び、弱匿名化した後にノイズ付加を行う場合を含めて、広く「匿名化」と呼ぶ。匿名化装置１０からは、第２変換部１２ｂから出力される弱匿名化データ（ＷＡデータともいう）、又は、第３変換部１２ｃから出力される弱匿名化局所差分プライバシーデータ（ＷＡＬＤＰデータともいう）が出力される。

【0029】

「局所差分プライバシー」とは、個人が識別されないようにしながら大規模なデータセットを用いた学習を可能にするアプローチの一つであり、ある個人のデータを含むデータセットを用いた処理結果が、ある個人のデータが、異なるデータに変わったデータセットを用いた処理結果と区別できないようにすることで、プライバシーを保護する手法である。

【0030】

このような匿名化装置１０によって変換された属性データを含む複数の属性データから構成される個人のデータセット（データレコード、以下、データレコードを単に「レコード」ともいう）に対して、複数の属性データを匿名化装置１０によって変換し、変換した属性データを解析するサーバ装置が機械学習モデルの学習及びテスト（つまり、推論）を行うことで、サーバ装置が信頼できる装置であることを必要としない。さらに、匿名化装置１０は、属性データが連続データであっても離散データであっても、弱匿名化し、統一してノイズの付与をするので、そのような統一的な扱いができなかった従来の局所差分プライバシーよりも有用性の高い（つまり、広い応用範囲での）解析を可能にする。

【0031】

図２は、実施の形態に係る機械学習システム５の構成を示すブロック図である。機械学習システム５は、図１に示される匿名化装置１０を機械学習に適用した機械学習フレームワークであり、インターネット等の通信路７で接続されたユーザ端末２０、機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂで構成される。なお、機械学習システム５を構成するユーザ端末２０は、一台とは限られず、複数台でもあり得る。また、図２に示されるデータの流れ（「属性数Ｋ」、「関係性データ」、「Ｋ個の匿名化した属性データ」）は、説明の便宜上、代表的なデータの流れを示すものであり、全てのデータの流れを示しているわけではない。また、機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂを合わせて、単に「サーバ装置」ともいう。

【0032】

機械学習モデル構築サーバ３０ａは、ｍ個の属性データを含むデータレコードを用いた機械学習モデル３２ａの学習を行う解析用のサーバ装置であり、通信部３１ａ、機械学習モデル３２ａ及び学習部３３ａを備える。

【0033】

通信部３１ａは、通信路７を介して他の装置と通信する通信インタフェースである。

【0034】

機械学習モデル３２ａは、サポートベクタマシン（以下、単に「ＳＶＭ」ともいう）又はニューラルネットワーク等の機械学習モデルであり、プログラム又は書き換え可能なメモリを有する集積回路等で実現される。

【0035】

学習部３３ａは、（１）次元削減フェーズ（使用する属性数を削減する処理）として、各ユーザ端末２０に属性数Ｋを通知し、ユーザ端末２０から匿名化されたＫ個の属性データ、又は、それらの関係を示す関係性データを受け取り、ユーザ端末２０から受け取った匿名化されたＫ個の属性データから算出した関係性データ、又は、ユーザ端末２０から受け取った関係性データに基づいて、機械学習モデル３２ａの機械学習に用いるＫ個の属性を決定する処理と、（２）機械学習フェーズとして、決定したＫ個の属性を各ユーザ端末２０に通知し、各ユーザ端末２０から送信されてきた匿名化されたＫ個の属性データを用いて、機械学習モデル３２ａの機械学習を行う。なお、学習部３３ａは、プログラム及びデータを保持するメモリ、プログラムを実行するプロセッサ、及び、入出力回路等で構成される。

【0036】

なお、学習部３３ａの次元削減フェーズの処理を実行する独立した装置（例えば、「次元削減装置」と呼ぶ）を機械学習システム５に設けてもよい。そのような次元削減装置は、例えば、コンピュータによって実現され、通信路を介して、各ユーザ端末２０及び機械学習モデル構築サーバ３０ａとの間で、属性データ等の情報を秘匿化された状態で、やりとりする。

【0037】

機械学習モデル運用サーバ３０ｂは、各ユーザ端末２０から送信されてきた匿名化されたＫ個の属性データを含むデータレコードを用いた機械学習モデル３２ｂのテストを行う解析用のサーバ装置であり、通信部３１ｂ、機械学習モデル３２ｂ及び運用部３３ｂを備える。なお、機械学習モデルの「テスト」とは、学習済み機械学習モデルに入力データを与え、学習済み機械学習モデルからの出力を得る「推論」と同義である。

【0038】

通信部３１ｂは、通信路７を介して他の装置と通信する通信インタフェースである。

【0039】

機械学習モデル３２ｂは、機械学習モデル構築サーバ３０ａによる機械学習を終えた学習済みのＳＶＭ又はニューラルネットワーク等の機械学習モデルであり、プログラム又は書き換え可能なメモリを有する集積回路等で実現される。

【0040】

運用部３３ｂは、（１）次元削減フェーズとして、各ユーザ端末２０に属性数Ｋを通知し、ユーザ端末２０から匿名化されたＫ個の属性データ、又は、それらの関係を示す関係性データを受け取り、ユーザ端末２０から受け取った匿名化されたＫ個の属性データから算出した関係性データ、又は、ユーザ端末２０から受け取った関係性データに基づいて、機械学習モデル３２ａのテストフェーズに用いるＫ個の属性を決定する処理と、（２）テストフェーズとして、決定したＫ個の属性を各ユーザ端末２０に通知し、各ユーザ端末２０から送信されてきた匿名化されたＫ個の属性データを用いて、機械学習モデル３２ｂのテストを行う。なお、運用部３３ｂは、プログラム及びデータを保持するメモリ、プログラムを実行するプロセッサ、及び、入出力回路等で構成される。また、上記（１）次元削減フェーズとして、機械学習モデル運用サーバ３０ｂの運用部３３ｂが独自に次元削減フェーズを実行することに代えて、機械学習モデル３２ｂの機械学習を行った機械学習モデル構築サーバ３０ａの学習部３３ａから、学習部３３ａにおいて次元削減フェーズで決定したＫ個の属性の通知を受けてもよい。

【0041】

ユーザ端末２０は、匿名化した属性データを機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂに提供するクライアント装置であり、通信部２１、匿名化装置１０ａ、関係性秘匿化装置２３及び記憶部２２を備える。

【0042】

通信部２１は、通信路７を介して他の装置と通信する通信インタフェースである。

【0043】

記憶部２２は、生データとしての属性データで構成されるデータレコードを保持している。

【0044】

匿名化装置１０ａは、ユーザ端末２０にインストールされるソフトウェアであり、図１に示される匿名化装置１０が備える匿名化処理部１２、及び、属性データ選択部１３を備える。属性データ選択部１３は、機械学習モデル構築サーバ３０ａ（あるいは、機械学習モデル運用サーバ３０ｂ）の次元削減フェーズに応答するために、記憶部２２に格納されたｍ個の属性データを含むデータレコードから、機械学習モデル構築サーバ３０ａ（あるいは、機械学習モデル運用サーバ３０ｂ）から通知された属性数（Ｋ個）の属性データを、ユーザからの指示に従ってランダムに選択し、選択したＫ個の属性データのそれぞれについて匿名化処理部１２を用いた匿名化を行い、匿名化されたＫ個の属性データを、通信部２１を介して、機械学習モデル構築サーバ３０ａ（あるいは、機械学習モデル運用サーバ３０ｂ）に送信する。

【0045】

関係性秘匿化装置２３は、ユーザ端末２０にインストールされるソフトウェアであり、機械学習モデル構築サーバ３０ａ（あるいは、機械学習モデル運用サーバ３０ｂ）よる機械学習フェーズ（あるいは、テストフェーズ）の前処理としての属性の次元削減に応答する装置であり、機械学習モデル構築サーバ３０ａ（あるいは、機械学習モデル運用サーバ３０ｂ）から通知されたＫ個の属性に対応するＫ個の属性データを記憶部２２から読み出し、読み出したＫ個の属性データを匿名化し、匿名化したＫ個の属性データ、又は、匿名化したＫ個の属性データから算出した、匿名化したＫ個の属性データそれぞれについての相関を示す関係性データを、通信部２１を介して、機械学習モデル構築サーバ３０ａ（あるいは、機械学習モデル運用サーバ３０ｂ）に送信する。

【0046】

なお、本実施の形態では、ユーザ端末装置２０の中に関係性秘匿化装置２３が組み込まれているが、関係性秘匿化装置２３は、このような形態に限られず、匿名化したＫ個の属性データを入手し、それぞれについての相関を示す関係性データを算出する装置として、機械学習モデル構築サーバ３０ａ（あるいは、機械学習モデル運用サーバ３０ｂ）に組み込まれていてもよいし、通信路７に接続される独立した装置であってもよい。

【0047】

図３は、実施の形態に係る機械学習システム５の動作を示す通信シーケンス図である。ここでは、ユーザ端末２０が、匿名化装置１０ａを利用することで匿名化した属性データを機械学習モデル構築サーバ３０ａに提供し、機械学習モデル構築サーバ３０ａが、提供された匿名化した属性データを用いて機械学習モデル３２ａの学習を行い、その後、ユーザ端末２０から秘匿化された属性データの提供を受けた機械学習モデル運用サーバ３０ｂが、機械学習モデル構築サーバ３０ａによって構築された機械学習モデル３２ｂのテストを行う場合の通信シーケンスが示されている。

【0048】

まず、機械学習モデル構築サーバ３０ａの学習部３３ａは、次元削減フェーズとして、ユーザ端末２０に属性数Ｋを通知する（Ｓ１０）。

【0049】

ユーザ端末２０では、匿名化装置１０ａの属性データ選択部１３は、ユーザからの指示に従って、記憶部２２に保持されたｍ個の属性データを含むデータレコードから、通知された属性数（Ｋ個）の属性データをランダムに選択する（Ｓ１１）。

【0050】

そして、属性データ選択部１３は、選択したＫ個の属性データのそれぞれについて、匿名化する（Ｓ１２）。例えば、属性データ選択部１３は、匿名化処理部１２を用いた匿名化を行う。具体的には、匿名化処理部１２では、与えられた属性データに対して、第１変換部１２ａが、与えられた属性データが離散データである場合に、離散データを順序付き離散データに変換し、第２変換部１２ｂが、与えられた属性データが連続データである場合には、その連続データを弱匿名化し、与えられた属性データが離散データである場合には、第１変換部１２ａで変換された順序付き離散データを弱匿名化う。あるいは、第２変換部１２ｂで弱匿名化された属性データに対して、第３変換部１２ｃがノイズを付加する変換を行う。このように、ステップＳ１２では、匿名化の処理として、弱匿名化だけであってもよいし、弱匿名化とノイズ付加の両方を行ってもよい。

【0051】

次に、関係性秘匿化装置２３は、匿名化処理部１２で匿名化したＫ個の属性データを機械学習モデル構築サーバ３０ａに送信する、あるいは、匿名化したＫ個の属性データから、匿名化与したＫ個の属性データそれぞれについての相関を示す関係性データを算出し、算出した関係性データを機械学習モデル構築サーバ３０ａに送信する（Ｓ１３）。

【0052】

機械学習モデル構築サーバ３０ａでは、学習部３３ａが、受け取ったノイズが付与されたＫ個の属性データから、ノイズが付与されたＫ個の属性データそれぞれについての相関を示す関係性データを算出し、算出した関係性データに基づいて、機械学習モデル３２ａの機械学習に用いるＫ個の属性を決定する、あるいは、ユーザ端末２０から受け取った関係性データに基づいて、機械学習モデル３２ａの機械学習に用いるＫ個の属性を決定する（属性決定ステップＳ１４）。

【0053】

続いて、学習部３３ａは、機械学習フェーズを開始するために、決定したＫ個の属性をユーザ端末２０に通知する（Ｓ１５）。

【0054】

ユーザ端末２０では、匿名化処理部１２は、機械学習モデル構築サーバ３０ａから通知されたＫ個の属性に対応するＫ個の属性データを記憶部２２から読み出し、読み出したＫ個の属性データ匿名化し（Ｓ１６）、匿名化したＫ個の属性データを機械学習モデル構築サーバ３０ａに送信する（Ｓ１７）。具体的には、匿名化処理部１２では、与えられた属性データに対して、第１変換部１２ａが、与えられた属性データが離散データである場合に、離散データを順序付き離散データに変換し、第２変換部１２ｂが、与えられた属性データが連続データである場合には、その連続データを弱匿名化し、与えられた属性データが離散データである場合には、第１変換部１２ａで変換された順序付き離散データを弱匿名化し、第３変換部１２ｃが、第２変換部１２ｂで弱匿名化された属性データに対して、ノイズを付加する変換を行う。

【0055】

機械学習モデル構築サーバ３０ａでは、学習部３３ａが、各ユーザ端末２０から送信されてきた匿名化されたＫ個の属性データを用いて、機械学習モデル３２ａの機械学習を行う（機械学習ステップＳ１８）。

【0056】

なお、ユーザ端末２０は、ステップＳ１６及びＳ１７では、次元削減フェーズ（Ｓ１０～Ｓ１３）において既に送付しているノイズを付与したＫ個の属性データと同一である場合には、そのＫ個の属性データを機械学習モデル構築サーバ３０ａに送付してもよい。

【0057】

機械学習モデル３２ａの機械学習を終えると、機械学習モデル構築サーバ３０ａは、学習済みの機械学習モデル３２ａ及びステップＳ１８で決定した機械学習に用いたＫ個の属性を機械学習モデル運用サーバ３０ｂに送信する（Ｓ１９）。機械学習モデル運用サーバ３０ｂは、機械学習モデル構築サーバ３０ａから送られてきた学習済みの機械学習モデル３２ａについては、テストに使用する学習済みの機械学習モデル３２ｂとして、保存する。

【0058】

その後、ユーザ端末２０は、機械学習モデル運用サーバ３０ｂが備える学習済みの機械学習モデル３２ｂのテストを希望する場合には、上記ステップＳ１６で生成した匿名化されたＫ個の属性データを機械学習モデル運用サーバ３０ｂに送信する（Ｓ２０）。なお、匿名化されたＫ個の属性データの生成については、ユーザ端末２０と機械学習モデル構築サーバ３０ａとの間で実施されたステップＳ１４～Ｓ１８に代えて、ユーザ端末２０と機械学習モデル運用サーバ３０ｂとの間で行う同様の処理によって、匿名化されたＫ個の属性データを生成してもよい。

【0059】

そして、機械学習モデル運用サーバ３０ｂでは、運用部３３ｂが、各ユーザ端末２０から送信された匿名化されたＫ個の属性データを用いて、機械学習モデル３２ｂによるテストを行う（推論ステップＳ２１）。

【0060】

なお、機械学習モデル運用サーバ３０ｂは、機械学習モデル構築サーバ３０ａから通知されたＫ個の属性を利用することに代えて、ユーザ端末２０と機械学習モデル構築サーバ３０ａとの間で実施された次元削減フェーズ（ステップＳ１０～Ｓ１４）と同様の処理をユーザ端末２０と機械学習モデル運用サーバ３０ｂとの間で実施することで、運用部３３ｂが、テストに用いるＫ個の属性を決定してもよい。

【0061】

このような通信シーケンスにより、ユーザが所持していた属性データは、匿名化装置１０ａを用いた匿名化が行われた後に、匿名化された属性データが機械学習モデル構築サーバ３０ａに提供され、機械学習モデル構築サーバ３０ａにおいて機械学習モデル３２ａの学習が行われ、その後、ユーザ端末２０から秘匿化された属性データの提供を受けた機械学習モデル運用サーバ３０ｂにおいて、機械学習モデル構築サーバ３０ａによって構築された機械学習モデル３２ｂのテストが行われる。

【0062】

よって、どの機関が入手するデータもユーザ側が匿名化しており、サーバ装置はユーザの生データを入手できないため、信頼できるサーバである必要がない。さらに、匿名化装置１０ａでは、属性データが連続データであっても離散データであっても、弱匿名化し、統一してノイズの付与をするので、そのような統一的な扱いができなかった従来の局所差分プライバシーよりも有用性の高い（つまり、広い応用範囲での）解析が可能になる。

【0063】

（実施例１）
１章．はじめに
以下、実施の形態に係る機械学習システム５の具体な実現例を、実施例１として、説明する。２章では、既存の基礎技術であるＳＶＭの概要及びＬＤＰメカニズムを紹介する。３章では、本開示に係る機械学習システム５の特徴的なメカニズムを述べる。続く４章では、本開示に係る提案フレームワーク（機械学習システム５）を利用した実験結果をまとめる。５章で実験結果にもとづく考察を述べる。最後に６章で「まとめ」を記載する。

【0064】

２章．準備
この章ではまず機械学習モデル構築サーバ３０ａが備える機械学習モデル３２ａ及び機械学習モデル運用サーバ３０ｂが備える機械学習モデル３２ｂの具体例であるＳＶＭについて紹介し（２．１章）、次にＬＤＰについて紹介する（２．２章）。

【0065】

２．１サポートベクタマシン（ＳＶＭ）
ＳＶＭは分類問題や回帰問題を解く機械学習モデルの一種である。学習データセットにはｎ個のレコードＤｉ（ｉ＝１、・・・、ｎ）があり、各レコードＤｉ＝［Ｄｉ、１、Ｄｉ、２、・・・、Ｄｉ、ｍ－１、ＴＡｉ］にはｍ－１個の属性と目的変数ＴＡｉ∈｛－１、１｝があるとする。線形ＳＶＭの学習段階では切片ｂとベクトルｗ＝（ｗ１、ｗ２、・・・、ｗｍ－１）で定義される超平面を表す関数ｆ（Ｄｉ）を以下の式１のように計算する。

【0066】

【数1】

【0067】

この超平面を用いて未知データＤ_ｉ’をｆ（Ｄ_ｉ’）の出力に従って以下の式２のように分類する。

【0068】

【数2】

【0069】

線形ＳＶＭモデルの限界は線形分離不可能なデータセットを正しく分類できないことである。そこで非線形ＲＢＦカーネルを用い、ドット積演算を新しいカーネル関数ｅｘｐ（－γ｜｜Ｄｉ－Ｄ_ｉ’｜｜^２）（ただしγは非負のパラメータ）に置き換えることにより、この制限を克服している（非特許文献１２参照）。

【0070】

また超平面によってデータを完全に分離できない場合、超平面の計算時にマージンを用いることができる。これは一部の学習例が誤って分類されることを許容するものであり、超平面の滑らかさを制御する非負のパラメータＣが存在する。

【0071】

実験ではパラメータγを１/(ｍ－１×Ｖａｒ（Ｄ））に設定し、パラメータＣを生データで良好に動作するように選択した。

【0072】

２．２局所差分プライバシー（ＬＤＰ）
局所差分プライバシー（非特許文献１３参照）ではｎ個のデータレコードをそれぞれデータＤｉ（１≦ｉ≦ｎ）と表す。各データＤｉはｍ個の属性Ａ１、・・・、Ａｍを含む。各属性は離散値でも連続値でも良く、離散値ならば属性はｋ個のカテゴリ１、２、・・・、ｋを持ち、連続値ならば正規化され［－１、１］の領域を持つ。このとき、各データ提供者はランダムノイズ関数ｆを用い、データ収集者にｆ（Ｄｉ）を送る。

【0073】

定義１関数ｆが全てのあり得る入力の組合せｘ、ｘ’に対して以下を満たすとき関数ｆはε－局所差分プライバシーを満たすという。

【0074】

Ｐｒ［ｆ（ｘ）＝ｙ］≦ｅｘｐ（ε）・Ｐｒ［ｆ（ｘ’）＝ｙ］

【0075】

非特許文献１１で提案されているＰｉｅｃｅｗｉｓｅメカニズム（以下、単に「ＰＭ」とも呼ぶ）は連続値に適用する局所差分プライバシーを満たすランダム化関数である。そのアルゴリズム（アルゴリズム１）を図４で示す。なお、このアルゴリズムの入力の一つである「プライバシーバジェットε」は、プライバシー保護の強度に関するパラメータであり、低い値ほどプライバシーに対する安全性（プライバシーレベル）が高い。また、このアルゴリズムの出力の確率密度関数は以下の式３のようになる。

【0076】

【数3】

【0077】

非特許文献１４が提案するＲａｎｄｏｍｉｓｅｄＲｅｓｐｏｎｓｅメカニズム（以下、単に「ＲＲ」とも呼ぶ）は離散値に対する局所差分プライバシーを満たすためのランダムノイズ関数である。入力ｘと出力ｙは同様にＬ種類の値を取る。ＲＲメカニズムは以下の式４のようにノイズを加える。

【0078】

【数4】

【0079】

ＲＲメカニズムはexp（ε）/（L-1+ exp（ε））の確率で元の値と等しい値を出力し、1/(L-1+ exp（ε））の確率で元の値と異なる値を出力する。ＲＲメカニズムは、図５に示されるアルゴリズム２によって与えられる。

【0080】

３章．本開示に係る機械学習システム５の特徴的なメカニズム
機械学習は一般に、機械学習モデルを構築（つまり、学習）する学習フェーズとモデルを検証（機械学習モデルを用いた推論を含む）するテストフェーズの２つのフェーズで構成される。一般には、機械学習モデル構築サーバ３０ａや機械学習モデル運用サーバ３０ｂは信頼する、つまり、信頼機関（ＴｒｕｓｔｅｄＴｈｉｒｄＰａｒｔｙ（以下、「ＴＴＰ」とも呼ぶ））を仮定することが多い。しかし、サイバー攻撃によるデータ漏洩のリスクをゼロにすることは難しく、絶対安全なＴＴＰの構築は現実的ではない。つまり、ＴＴＰに基づくデータ利活用では、実質的なプライバシー保護の実現は困難といえる。

【0081】

本開示では、構築された機械学習モデル３２ａからのプライバシー漏洩だけでなく、機械学習モデル構築サーバ３０ａや、データをテストするためにモデルを運用する機械学習モデル運用サーバ３０ｂからのプライバシー保護を目的とした、プライバシーを保護した機械学習フレームワーク（つまり、機械学習システム５）を提案する。提案フレームワークは、学習段階、テスト段階のいずれにおいても、ＴＴＰを仮定せず、各データ所有者は自らデータを制御可能となる。つまり、包括的なプライバシー保護付き機械学習フレームワークを提案する。

【0082】

３．１プライバシー保護の基本概念
機械学習フレームワークを示す前に、本開示で使用する表記法を紹介する。
・ＬＤＰ：局所差分プライバシー
・ＰＭ：Ｐｉｅｃｅｗｉｓｅメカニズム
・ＲＲ：ｒａｎｄｏｍｉｚｅｄｒｅｓｐｏｎｓｅメカニズム
・Ａｇｇ：集約者（機械学習モデルの学習及びテストを実行する者、つまり、機械学習モデル構築サーバ３０ａ、機械学習モデル運用サーバ３０ｂ）
・ε：プライバシーバジェット
・ｎ：レコード総数
・ｍ：１レコードに含まれる属性数（次元数）
・Ｋ：ｍ属性（ｍ個の属性）から利用する属性数（利用次元数）
・ＴＡ：目的属性
・Ａ_ｊ：レコードにおけるｊ番目の属性（連続値でも離散値でもよい）（ｊ∈［１、ｍ－１］）（目的属性ＴＡを含めない）
・Ｄ、Ｄ_ｉ：ｉ番目のレコード、ｉ＝１、・・・、ｎ、ｍ属性が含まれる。Ｄｉ＝［Ｄ_ｉ、１、・・・、Ｄ_{ｉ、ｍ－１}、ＴＡ_ｉ］
・Ｄ_ｉ、ｊ：ｉ番目のレコードＤｉのｊ番目の属性データ（ｊ∈［１、ｍ－１］）。
・ｔａ_ｉ：レコードＤ_ｉの目的属性。
・ｍａｘ（Ａ_ｊ）、ｍｉｎ（Ａ_ｊ）：属性データＡｊの最大値、最小値。（連続値・離散値いずれの属性でも使用可能）離散値データを準連続データに変換することで、連続値属性と離散値属性の両方で利用することができる。
・Ｒａｎｇｅ_ｊ＝ｍａｘ（Ａ_ｊ）－ｍｉｎ（Ａ_ｊ）：属性Ａ_ｊの範囲
・Ｌ：各属性データの弱匿名化時の分類数
・Ａ_ｊ１、・・・、Ａ_ｊＫ：選択属性
・ＷＡ_ｊ［１］、・・・、ＷＡ_ｊ［Ｌ］：属性Ａ_ｊの弱匿名化変換された後の取り得る値

【0083】

本提案フレームワークは、生データを収集するＴＴＰを前提にせずに、各データ所有者は自分自身のデータを管理する。一方、既存のプロトコルの多くは、生データを収集又は取り扱う信頼できる機関が必要である（非特許文献８、１５参照）。一般に、プライバシー保護と機械学習の性能は相反する性質を持つ。ＬＤＰメカニズムは、データプライバシー保護の観点から強力であるが、機械学習の性能を低下させる。そのため、既存のプロトコルはＬＤＰメカニズムを用いて、（信頼できる）ローカルクライアント（非特許文献８参照）やＴＴＰサーバ（非特許文献１５参照）で学習パラメータにノイズを付加することで、学習モデルからの学習データのプライバシー保護を実現する。ここで、ＬＤＰで変換されたデータを「ＬＤＰデータ」と呼ぶ。生データとＬＤＰデータだけでは、プライバシーと機械学習性能のバランスを取ることが難しい。ＴＴＰを前提としない機械学習に適した新たなプライバシーメカニズムを構築するために、データの特性、すなわち、１レコードが複数の属性から構成されていることに着目する。属性の特性は多様であり、非特許文献１６、１７で開示されているように、連続的な値もあれば、離散的な値もある。一方、連続データ用のＬＤＰメカニズム（非特許文献１１参照）と離散データ用（非特許文献１０、１４参照）は独立に構築されている。一つのフレームワークで両方のデータを統一的かつバイデザインで扱えると、多様なデータに対してスケーラブルといえる。そこで、本開示では、生データからＬＤＰデータの中間的な位置づけである「ＷＡ」で示される弱匿名化データ（以下、弱匿名化データを単に「ＷＡ」とも呼ぶ）の概念を提案する。中間的な概念を経ることで、任意の連続・離散データはＷＡに変換され、統一的に「ＷＡＬＤＰ（弱匿名化局所差分プライバシー）データ」と呼ばれるＬＤＰデータに変換する新しいプライバシーメカニズム（つまり、匿名化装置１０及び１０ａ）を提案する。

【0084】

次に、機械学習のプライバシーと精度を制御する方法について検討する。特に本開示では、学習とテストの両フェーズで利用するデータを制御する。なお、機械学習における「学習」とは、機械学習モデルの学習を意味し、「テスト」とは、機械学習モデルを用いた推論を意味する。１つのレコードＤ_ｉは複数の属性｛Ａ_ｊ｝から構成される。プライバシーの観点から、各属性のプライバシーバジェットをε、属性の総数をｍとすると、１レコードのプライバシーバジェットはｍεとなり、属性数が多いほど、プライバシーが浪費される。ＰＭ（非特許文献１１参照）では、使用する属性数Ｋはプライバシーバジェットに従って決定される。データ所有者は、全属性ｍからＫ属性（Ｋ個の属性）をランダムに選択し、ＬＤＰでノイズを付加し、残りのｍ－Ｋの属性を０に設定し、すべてのｍ個の属性を集約者Ａｇｇに送信する。このような従来の方法は、平均のような目的には有効であるが、機械学習では、０に意味があるため、精度をうまく制御することが難しい。また、各データ所有者がランダムにデータを扱うため、機械学習で必要な学習と評価の両フェーズを制御することも難しい。

【0085】

以上のことから、本開示では、プライバシーを保護した機械学習フレームワーク（つまり、機械学習システム５）を提案する。提案する機械学習フレームワークは、次元削減、学習、テストフェーズの３フェーズからなる機械学習フレームワークになる。なお、３つのフェーズのうち、次元削減は機械学習モデル構築サーバ３０ａの学習部３３ａにより実行され、学習は機械学習モデル構築サーバ３０ａによって実行され、テストフェーズは機械学習モデル運用サーバ３０ｂによって実行される。なお、次元削減については、機械学習モデル構築サーバ３０ａの学習部３３ａによって実行されるだけでなく、機械学習モデル運用サーバ３０ｂの運用部３３ｂで実行されてもよい。

【0086】

３．２プライバシーメカニズム（匿名化装置１０及び１０ａの特徴）
本節では、匿名化装置１０及び１０ａが備える機能として、任意のデータに対して統一的なプライバシーメカニズムＷＡＬＤＰを提案する。ＷＡＬＤＰは、３つの変換関数から構成される。第一ステップ（つまり、第１変換部１２ａによる変換）は、離散データから順序付き離散データへの変換ＤＴＯ（ｄｉｓｃｒｅｔｅ－ｔｏ－ｏｒｄｅｒｅｄ－ｄｉｓｃｒｅｔｅｄａｔａ）（以下、離散データから順序付き離散データへの変換を単に「ＤＴＯ」とも呼ぶ）である。第二ステップ（つまり、第２変換部１２ｂによる変換）は、弱匿名化データＷＡへの変換であり、第三ステップ（つまり、第３変換部１２ｃによる変換）では、弱匿名化データＷＡに対して、ＬＤＰノイズを付加する。３ステップの変換手法により、連続データ、離散データのいずれも一律にプライバシーメカニズムを実行できる。特に、データ所有者自身が全ての変換を実行できることが特徴である。

【0087】

各ステップを詳細に説明する。まず、離散データから順序付き離散データへの変換ＤＴＯ（つまり、第１変換部１２ａによる変換）を説明する。ここで、Ａ_ｊを離散値属性とする。離散的属性は連続的属性と異なり大小比較が困難な場合がある。例えば、北、東、南、西のデータからなる方向を考えると、それぞれの方向の順序は単純に比較できない。そこで、離散データを比較するために、離散データにラベルｉ＝１、２、・・・を形式的に付与し、付与した離散データをAj[1]、Aj[2]、・・と表し、各Aj[i]をAjのクラスと呼ぶ。よって、クラス数は、上記ラベルの数と同一である。このラベルにより、離散データも順序付き離散データと見なせる。この結果、離散データも最小値又は最大値を定義でき、最小、最大離散データを、それぞれｍｉｎ（Ａ_ｊ）、ｍａｘ（Ａ_ｊ）で表す。この結果、離散データも連続値データと同様、Ｒａｎｇｅ_ｊ＝ｍａｘ（Ａ_ｊ）－ｍｉｎ（Ａ_ｊ）と範囲を定義できる。なお、離散値属性Ａ_ｊのクラス数は、ｍｉｎ（Ａ_ｊ）＞０のときＲａｎｇｅ_ｊ＋１に等しくなる。すなわち、連続値属性におけるｍｉｎ（Ａ_ｊ）、ｍａｘ（Ａ_ｊ）、Ｒａｎｇｅ_ｊは離散値属性でも使用可能となる。方向の例では、Ａ_ｊ［１］＝北、Ａ_ｊ［２］＝東、Ａ_ｊ［３］＝南、Ａ_ｊ［４］＝西とし、ｍｉｎ（Ａ_ｊ）＝１、ｍａｘ（Ａ_ｊ）＝４、Ａ_ｊ［４］＝、Ｒａｎｇｅｊ＝３となる。つまり、図６に示すアルゴリズム３（ＤＴＯ）に属性の｛西｝と全属性｛北、東、南、西｝を入力すると、（２、｛１、２、３、４｝）を出力する。ここで、ＤＴＯは最初に決定し、データ所有者に通知する。

【0088】

順序付き離散データの概念とその変換関数ＤＴＯを用いることで、その後のデータから弱匿名化データＷＡへの変換（以下、弱匿名化データＷＡへの変換を単に「ＷＡＴ」とも呼ぶ）は、図７に示されるように定義される。

【0089】

本開示で提案する機械学習フレームワークでは、匿名化装置１０及び１０ａにおいて、連続データも離散データも、Ｌ個の順序付き離散値の弱匿名化データＷＡに変換したうえで、ＬＤＰを適用する。つまり、本プライバシーメカニズムは連続データと離散データの両方を、ＷＡを通じて統一的に扱うことができる。本プライバシーメカニズムは、ＷＡＬＤＰと呼び、あらゆるデータ型に対してスケーラブルな統一的プライバシーメカニズムである。なお、適用するＬＤＰの具体的なメカニズムは、特定のものに限定されない。

【0090】

従来の連続データに対するフレームワークでは、プライバシーバジェットεのみで有用性とプライバシーを制御する（非特許文献１１参照）。注意したいのは、機械学習の有用性とプライバシーはトレードオフの関係にあるため、制御が難しい。一方、本開示のメカニズムでは、プライバシーバジェットεと提案したプライバシーメカニズムで用いる弱匿名化データ変換（ＷＡＴ）（アルゴリズム４）で変換されるＷＡのパラメータＬの２つのパラメータを用いることで、機械学習の有用性とプライバシーとをよりスムーズに制御することができる。図８に示されるアルゴリズム５は、匿名化装置１０及び１０ａが備える機能であり、本開示で提案するＬＤＰメカニズム（ＷＡＬＤＰ）を表す。アルゴリズム５では、第１変換部１２ａによって、生データｘを、離散データを順序付き離散値に変換するＤＴＯ（アルゴリズム３）と、第２変換部１２ｂによって、離散データと連続データを弱匿名化データに変換するＷＡＴ（アルゴリズム４）と、第３変換部１２ｃによるＲＲ（アルゴリズム２）を利用して、ＷＡＬＤＰ（ｘ）に変換する。

【0091】

３．３プライバシーを保護した機械学習フレームワーク
ここでは、３．２章で提案したＬＤＰメカニズム（ＷＡＬＤＰ）（つまり、匿名化装置１０及び１０ａの特徴）を用いることにより、スケーラブルなプライバシーを保護した機械学習フレームワーク（ＳｃａｌａｂｌｅＵｎｉｆｉｅｄＰｒｉｖａｃｙ－ｐｒｅｓｅｒｖｉｎｇＭａｃｈｉｎｅＬｅａｒｎｉｎｇＦｒａｍｅｗｏｒｋ；以下、単に「ＳＵＰ．ＭＬ」とも呼ぶ）（つまり、機械学習システム５）を提案する。ＳＵＰ．ＭＬは、大きく分けて３つのフェーズ、次元削減フェーズ、学習フェーズ、テストフェーズで構成される。次元削減のフェーズは、原則、機械学習モデル構築サーバ３０ａに実装され、属性数が多いとプライバシーバジェットを浪費することを回避することが目的である。一方、機械学習に有用な各属性の優先順位が分かっているユースケースもあるだろう。この場合、次元削減フェーズを行わずに、選択した属性に対して学習とテストを行ってもよい。本開示では、機械学習モデル構築サーバ３０ａにおいて決定した属性数までランダムに属性を削減した学習モデルの構築についても実験を行う。ランダムに属性を削減する手法を「ＤＲ．Ｒａｎｄ」と呼ぶ。ここでは、ＤＲ．Ｒａｎｄの他の方法として、データのプライバシーを保護しながら属性を選択する方法を提案する。その方法は、提案したＷＡを適用する方法であり、「ＤＲ．ＷＡ」と呼ばれる。

【0092】

ＤＲ．ＷＡは、図９Ａのアルゴリズム６に示される通りである。なお、ＤＲ．ＷＡではデータを弱匿名化データに変換してから、データにノイズを付加せずに、データを秘匿する。本実施例の２章と４章で記載しているように、本開示では、２値分類のＳＶＭに適用するため、ＤＲ．ＷＡでは二値分類を前提として記載する。よって、ＴＡ＝｛－１、１｝とする。

【0093】

なお、図９Ａに示されるアルゴリズム６では、図９Ａのステップ１～３に示されるように、Ｋ個の属性を対象としているが、このような個数に限られず、全属性を利用してもよい。

【0094】

図９Ｂは、図９Ａに示されるアルゴリズム６を、全属性を利用するように変形した変形アルゴリズム６を説明する図である。ここでは、データレコードが属性である年齢、性別、身長、体重、年収と、目的変数である癌とから構成される例において、複数のユーザ端末２０ａ及び２０ｂと機械学習モデル構築サーバ３０ａ（あるいは、学習部３３ａ）とのやりとり（図９Ｂの（ａ））、ユーザ端末２０と機械学習モデル運用サーバ３０ｂ（あるいは、運用部３３ｂ）とのやりとり（図９Ｂの（ｂ））が示されている。

【0095】

図９Ｂの（ａ）に示されるように、次元削減フェーズでは、以下の処理が行われる。
（０）次元削減を実施するサーバ、学習を実施するサーバで利用する暗号関数を、それぞれ、Ｅ２、Ｅ１とする。
（１）ユーザ端末２０ａにおいて、全ての属性に対して、属性データをＷＡで弱匿名化する。
（２）続いて、ユーザ端末２０ａ及び２０ｂにおいて、属性毎に目的変数との積Ｅ２（Ｅ１（Ｔ_ａｉ＊Ａ_ｉｊ））を算出して機械学習モデル構築サーバ３０ａに送付する。
（３）機械学習モデル構築サーバ３０ａでは、学習部３３ａは、次元削減フェーズとして、受け取った各ユーザ端末のデータ２０ａ及び２０ｂを属性ごとに加算し、Ｅ２Ｅ１（ΣＴ_ａｉ＊Ａ_ｉｊ）を求め、次に自分の暗号Ｅ２のみを復号し、得られたＥ１（ΣＴ_ａｉ＊Ａ_ｉｊ）を、続いて次元削減フェーズを実行する学習部３３ａ（図９Ｂでは、学習フェーズを実行する学習部３３ａ）に、送付する。
（４）Ｅ１（ΣＴ_ａｉ＊Ａ_ｉｊ）を受け取った次元削減フェーズを実行する学習部３３ａ（図９Ｂでは、学習フェーズを実行する学習部３３ａ）は、Ｅ１（ΣＴ_ａｉ＊Ａ_ｉｊ）から関係性の高い属性を、機械学習に用いる属性として、決定する。

【0096】

なお、その後、機械学習モデル構築サーバ３０ａでは、学習フェーズを実行する学習部３３ａは、学習フェーズとして、ユーザ端末２０ａ及び２０ｂから匿名化されたＫ個の属性データを受け取り、匿名化されたＫ個の属性データを対象として機械学習モデル３２ａの機械学習を行う。

【0097】

このようにして機械学習に用いる属性を決定する変形アルゴリズム６の利点は、次元削減フェーズでプライバシーを消費しない点である。

【0098】

図９Ｂの（ｂ）に示されるように、評価フェーズでは、決定したＫ個の属性を、プライバシーを保護して評価することができる。

【0099】

このような変形アルゴリズム６については、全属性を利用する方法から、図９Ａに示されるアルゴリズム６のように、一部の属性を利用する方法に変更することが可能である。

【0100】

なお、図９Ｂに示される例では、暗号関数Ｅ１のみを利用してもよい。この場合には、通信データが暗号化される。また、暗号関数Ｅ１を利用しない場合、弱匿名化でのデータ処理となる。また、暗号関数Ｅ１はエルガマル暗号などの可換かつ演算を保つ暗号を利用してもよい。さらに、目的変数が［－１、１］で、分布が［－１、１］に正規化されている場合、計算は、以下の式５に示すように、相関係数ｒと一致する。また、目的変数が［－１、１］で、分布が［－１、１］に範囲縮小させた場合、実際の計算は相関係数の計算の近似となる。

【0101】

【数5】

【0102】

ここで、ｎ、ｍは、それぞれ、データ数、属性数であり、標準化（平均０、分散１）された属性ｊ∈［１、ｍ－１］のデータＡｊ＝｛ｙ_１ｊ、・・・、ｙ_ｎｊ｝、ラベルＴＡ＝｛Ｔ_Ａ１、・・・、Ｔ_Ａｎ｝の相関係数ｒは、上記式５となる。Ｓ_Ａｊ、Ｓ_ＴＡは、それぞれ、属性ｊとラベル＝｛－１、１｝の標準偏差である。

【0103】

次に、学習フェーズとテストフェーズについて説明する。機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂによる次元削減フェーズでは、学習とテストに用いる属性を決定した。機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂによる学習フェーズとテストフェーズでは、機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂで決定した属性を用いることで、プライバシーを保護した学習（以下、この学習を「ＰＰＴｒａｉｎｉｎｇ」とも呼ぶ）、プライバシーを保護したテスト（以下、このテストを「ＰＰＴｅｓｔｉｎｇ」とも呼ぶ）を行う。なお、ＰＰＴｒａｉｎｉｎｇとＰＰＴｅｓｔｉｎｇでは、データ所有者は、機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂで決定した属性の生データｘを匿名化装置１０及び１０ａによってＷＡ又はＷＡＬＤＰに変換し、変換したデータを集約者Ａｇｇ（つまり、機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂ）に送る。集約者Ａｇｇは、データ所有者から送られたデータを用いて、学習とモデルの構築を行う。つまり、ＰＰＴｒａｉｎｉｎｇとＰＰＴｅｓｔｉｎｇで利用するデータタイプとしては、４つの組み合わせがある。（ＰＰＴｒａｉｎｉｎｇ、ＰＰＴｅｓｔｉｎｇ）＝（ＷＡ、ＷＡ）、（ＷＡ、ＷＡＬＤＰ）、（ＷＡＬＤＰ、ＷＡＬＤＰ）、（ＷＡＬＤＰ、ＷＡ）また、これらの組み合わせにさらに、２種類の次元削減アルゴリズムＤＲ．Ｒａｎｄ、ＤＲ．ＷＡ、ＤＲ．ＷＡＬＤＰ（ＷＡＬＤＰ変換したデータを用いた次元削減）を組み合わせる。

【0104】

また、本開示に係るＳＵＰ．ＭＬとＰＭを比較するために、生データをＰＭで変換した場合、すなわち、（ｔｒａｉｎｉｎｇ、ｔｅｓｔｉｎｇ）＝（ＰＭ、ＰＭ）についても実験を実施した。ＰＰＴｒａｉｎｉｎｇとＰＰＴｅｓｔｉｎｇを、それぞれ、図１０に示されるアルゴリズム７、図１１に示されるアルゴリズム８として、示す。

【0105】

４章．実験結果
４．１実験
本開示ではＵＣＩＭａｃｈｉｎｅＬｅａｒｎｉｎｇＲｅｐｏｓｉｔｏｒｙよりＢｒｅａｓｔＣａｎｃｅｒＷｉｓｃｏｎｓｉｎ（Ｄｉａｇｎｏｓｔｉｃ）ｄａｔａｓｅｔ（ＷＤＢＣ）（非特許文献１６参照）とＩｏｎｏｓｐｈｅｒｅｄａｔａｓｅｔ（非特許文献１７参照）の二つを取得し、本開示に係るメカニズムを評価した。これらのデータセットは特にＳＶＭに適した二値分類問題のため用いた。しかしながら、本開示で提案するメカニズムはどのような機械学習データセットに対しても適用可能であり二値分類問題に限定されるものではない。ここでは評価のため二値分類問題とＳＶＭを選択した。本メカニズムの性能を評価するために、以下の３種類のデータ（（１）～（３））を用いてＳＶＭモデル（つまり、機械学習モデル構築サーバ３０ａが備える機械学習モデル３２ａ）を学習させ、その精度を比較した。

【0106】

（１）ＳＵＰ．ＭＬデータ：本開示で提案するメカニズムを適用し、属性数の削減とデータの匿名化を行うＳＵＰ．ＭＬデータに対し、Ｋ＝［２、１０］、Ｌ＝［２、５］の全ての可能な組み合わせについて実験を行った。ここでは良好な結果が得られた２、３の組合せについて報告する。なお、Ｋ、Ｌは、「３．１プライバシー保護の基本概念」で説明した通り、それぞれ、ｍ属性（ｍ個の属性）から利用する属性数（利用次元数）、各属性データの弱匿名化時の分類数である。

【0107】

（２）Ｒａｗデータ：データに対し何のノイズも加えていないデータである。一般にプライバシー保護を適用すると学習の精度は低下するため、このデータは達成できる最大の精度を示している。

【0108】

（３）ＰＭデータ：データに加えるノイズとしてＰＷ（Ｐｉｅｃｅｗｉｓｅ）メカニズムを用いる。この結果は本開示のメカニズムと比較するためのベースラインとして用いる。

【0109】

（４）Ｍｉｘｅｄデータ：ＰＰＴｒａｉｎｉｎｇとＰＰＴｅｓｔｉｎｇでは、ＷＡとＷＡＬＤＰの両データを使用した場合、４つの組み合わせがある。そこで、これらの組合せをテストし、性能を確認する。正規化されたデータについて１０分割の交差検定を行いモデルの精度を評価した。なお交差検定前にデータセットをランダムにシャッフルしている。シャッフル、次元削減ノイズ付加のランダムシードを固定することで３種類のデータに対し同じ学習、テストの処理を行えるようにした。実験は、ＩｎｔｅｌＸｅｏｎＧｏｌｄ５１２０ＣＰＵと４８ＧＢＲＡＭを搭載したＵｂｕｎｔｕ２０．０４マシンで行った。Ｐｙｔｈｏｎ３．８と機械学習ライブラリｓｃｉｋｉｔ－ｌｅａｒｎ（非特許文献１２参照）を使用してＳＶＭモデルを構築した。

【0110】

４．２ＷＤＢＣデータセット
ＷＤＢＣデータセットは乳がんの検診データセットである。乳がん腫瘍の画像データから抽出された３０の説明変数により、良性・悪性を判断する。なお、要素数は５６９である。ＷＤＢＣデータセットではＳＶＭの正規化パラメータはC＝２．１を用いる。

【0111】

４．２．１ＳＵＰ．ＭＬデータ
図１２は、ＷＤＢＣデータセットにおけるＳＵＰ．ＭＬデータを用いて学習した機械学習モデル３２ａのテスト結果（精度）を示す図である。ここで、ＷＤＢＣデータセットにおけるＫ、Ｌの変化（３つの曲線）による精度の推移が示されている。横軸は学習・評価フェーズを通じて用いたプライバシー指標（つまり、プライバシーバジェットε）、縦軸は正答率（％）を表す。ＤＲ．Ｒａｎｄにより属性を削減し、ＷＡＬＤＰデータにより学習・評価を行うものとする。

【0112】

図１２では、（Ｋ、Ｌ）＝｛（５、２）、（６、３）、（７、４）｝における正答率の変化が示されている。なお、説明変数はＤＲｒａｎｄにより決定したものとする。多くの属性・クラスを用いると、ノイズによる強い影響を受ける。そのためプライバシー指標の変化により、（Ｋ、Ｌ）＝（６、３）では、（Ｋ、Ｌ）＝（５、２）よりも、（Ｋ、Ｌ）＝（７、４）では（Ｋ、Ｌ）＝（６、３）よりも急激な正答率の変化が観測された。（Ｋ、Ｌ）＝（５、２）では、大きな正答率の変化は観測されなかった。すなわち、厳しいプライバシー指標下においても、少ない属性数・クラスであれば高い正答率となる。一方大きなプライバシー指標下では多くの属性・クラスを用いた方が高い正答率となる傾向が見られ、実験ではプライバシーバジェットε＞２１．４において（Ｋ、Ｌ）＝（７、４）が最も高い正答率となった。同様の傾向がＤＲ．ＷＡでも観測された。

【0113】

図１３は、ＷＤＢＣデータセットにおけるＲａｗデータ（図中の「Ｏｒｉｇｉｎａｌ」）、ＰＭデータ（図中の「ＰＭ」）、ＳＵＰ．ＭＬデータ（図中の「ＤＲ．ＷＡ」、「ＤＲ．Ｒａｎｄ」）を用いて学習した機械学習モデル３２ａのテスト結果（精度）の比較を示す図である。横軸及び縦軸は、図１２と同様である。

【0114】

図１３において、ＤＲ．ＷＡでは（Ｋ、Ｌ）＝｛（２、２）、（４、４）｝、ＤＲ．Ｒａｎｄでは（Ｋ、Ｌ）＝｛（５、２）、（７、４）｝における最大の正答率を表す。なお、学習・評価データはいずれもＷＡＬＤＰとする。ＤＲ．ＷＡでは、ＤＲ．Ｒａｎｄに比べ、高い正答率となった。今回の実験で最も厳しいプライバシーバジェットε＝１０においてもＤＲ．ＷＡでは正答率９０．２９％が確認された。

【0115】

４．２．２Ｒａｗデータ
図１３の曲線「Ｏｒｉｇｉｎａｌ」に示されるように、ＷＤＢＣデータセットにノイズ付与や属性削減を行わず学習・評価を行った場合、正答率は９８．０４％であった。観測された９８．０４％をＷＤＢＣデータセットにおける最大の正答率とし、他の実験結果と比較を行う。

【0116】

４．２．３ＰＭデータ
図１３の曲線「ＰＭ」に示されるように、プライバシーバジェットεが５０よりも小さい場合、ＰＭの最大の正答率は８４．７７％であった。すべてのプライバシー指標において、ＳＵＰ．ＭＬよりも大幅に低い結果となった。

【0117】

４．２．４Ｍｉｘｅｄデータ
図１４は、ＷＤＢＣデータセットにおける（ＰＰＴｒａｉｎｉｎｇ、ＰＰＴｅｓｔｉｎｇ）の組み合わせについての正答率の比較を示す図である。横軸及び縦軸は、図１２と同様である。なお、属性の削減は、ＤＲ．Ｒａｎｄによる。

【0118】

図１４に示されるように、（ＰＰＴｒａｉｎｉｎｇ、ＰＰＴｅｓｔｉｎｇ）の組み合わせにおいて（ＷＡＬＤＰ、ＷＡＬＤＰ）、（ＷＡＬＤＰ、ＷＡ）、（ＷＡ、ＷＡＬＤＰ）、（ＷＡ、ＷＡ）では、それぞれ、（Ｋ、Ｌ）＝｛（５、２）、（７、４）、（６、３）｝、｛（６、２）、（８、４）｝、｛（６、２）、（７、４）｝、（７、２）における最大の正答率を表す。ただし、属性の決定は、ＤＲ．Ｒａｎｄによる。

【0119】

図１４から分かるように、学習データがＷＡＬＤＰの場合、ＷＡを評価データに利用した時に、プライバシーバジェットεが小さい値に対しても９０％を超える高い正答率を表す。実際、ＷＡＬＤＰの学習とＷＡの学習では，評価データにＷＡを用いる時には正答率の差が３．５７％（つまり、４％未満）と大きな性能劣化が確認されない。すなわち学習データに対してノイズを加えても正答率に大きな影響をもたらさないといえる。同様の傾向がＤＲ．ＷＡでも確認された。

【0120】

４．３Ｉｏｎｏｓｐｈｅｒｅデータセット
ＩｏｎｏｓｐｈｅｒｅデータセットはＧｏｏｓｅＢａｙシステムで収集されたレーダーのデータで構成されている。このデータセットは１７個のパルスと複素数の値からなり、パルスが電離層に何らかの構造がある証拠を示しているかどうかを示すラベルが付けられている。１７個のパルスは複素数値を持ち、２つの実数値に分割できるため、このデータセットは３４個の連続した属性を持つことになる。しかしこのデータセットを検査した結果、属性の１つが常に０という値を持っていることがわかった。属性は０か１のどちらかの値を持っている。したがって、このデータセットには３２の連続値属性と１つの離散値属性があると考える、電離層データセットの実験では、ＳＶＭのパラメータとしてＣ＝３．９を用いた。

【0121】

４．３．１ＳＵＰ．ＭＬデータ
ＳＵＰ．ＭＬの適用方法として、学習とテストに使用する属性数を削減する。その際、削減時の変数（Ｋ、Ｌ）の値を決める必要があり、最適な値を決定するために実験を行う。（Ｋ、Ｌ）を設定した後、次元削減の２つの方法、ＤＲ．ＷＡ、ＤＲ．Ｒａｎｄを比較する。

【0122】

図１５は、ＩｏｎｏｓｐｈｅｒｅデータセットにおけるＳＵＰ．ＭＬデータを用いて学習した機械学習モデル３２ａのテスト結果（精度）を示す図である。ここでは、ＩｏｎｏｓｐｈｅｒｅデータセットにおけるＫ、Ｌの変化（３つの曲線）による精度の推移が示されている。横軸及び縦軸は、図１２と同様である。学習とテストにはＷＡＬＤＰデータを用い、次元削減にはＤＲ．Ｒａｎｄデータを用いた。

【0123】

図１５では、（Ｋ、Ｌ）の値をそれぞれ［２、１０］、［２、５］の範囲で探索しその最適値を求めた。その結果、プライバシーバジェットεが大きい場合ＫとＬの値を大きくすると精度が向上することがわかった。一方プライバシーバジェットεが厳しい場合はＫとＬの値を小さくすることで精度が向上することがわかった。図１５は、このことを表している。ここではＤＲ．Ｒａｎｄを用い（Ｋ、Ｌ）＝（２、３）、（４、４）、（６、５）の３つの構成でモデルを学習させた。その結果プライバシーバジェットεが３６より大きい場合（Ｋ、Ｌ）＝（６、５）が最も良い結果を与えることがわかった。またプライバシーバジェットεが１３よりも小さい場合（Ｋ、Ｌ）＝（２、３）がより高い精度を維持することができることが確認できた。プライバシーバジェットεの値の中間の範囲では、代わりに（Ｋ、Ｌ）＝（４、４）が最も精度が向上する。さらに、次元削減の方法をＤＲ．ＷＡに変更しても、同じ状況が現れることを発見した。提案メカニズムで高い精度を実現するためにプライバシーバジェットεに応じて（Ｋ、Ｌ）を決定した。なお、図１６では、最適の（Ｋ，Ｌ）を採用して得られた結果が示されている。

【0124】

図１６は、ＩｏｎｏｓｐｈｅｒｅデータセットにおけるＲａｗデータ（図中の「Ｏｒｉｇｉｎａｌ」）、ＰＭデータ（図中の「ＰＭ」）、ＳＵＰ．ＭＬデータ（図中の「ＤＲ．ＷＡ」、「ＤＲ．Ｒａｎｄ」）を用いて学習した機械学習モデル３２ａのテスト結果（精度）の比較を示す図である。横軸及び縦軸は、図１２と同様である。

【0125】

図１６が示すように、ＤＲ．ＷＡでは（Ｋ、Ｌ）∈｛（２、２）、（４、２）｝が、そしてＤＲ．Ｒａｎｄでは（Ｋ、Ｌ）∈｛（２、３）、（４、４）、（６、５）｝が高い精度であることが確認できた。またＤＲ．ＲａｎｄとＤＲ．ＷＡの性能を比較するとＤＲ．ＷＡはプライバシーバジェットε＜２５のときかなり高い精度が得られるがＤＲ．Ｒａｎｄはプライバシーバジェットε＞４７のとき若干高い精度が得られる。したがって最も高い精度を得るためには、次元削減を行うＤＲ．ＷＡを使用することが好ましい。

【0126】

４．３．２Ｒａｗデータ
図１６の曲線「Ｏｒｉｇｉｎａｌ」に示されるように、Ｉｏｎｏｓｐｈｅｒｅデータセットを直接使用してＳＶＭモデルを学習させた場合９５．７１％の精度を達成することができる。したがってＩｏｎｏｓｐｈｅｒｅデータセットで達成できる最大精度は９５．７１％となる。この結果から本開示で提案するメカニズムは、プライバシーバジェットε＝５０のときに、わずか４．１７％しか精度を劣化させないことがわかる。また、プライバシーバジェットε＝１５のときに、わずか約７％、ε＝１０のときでも、わずか約１０％しか精度を劣化させないことがわかる。

【0127】

４．３．３ＰＭデータ
図１６の曲線「ＰＭ」に示されるように、ＰＭデータはプライバシーバジェットε＝５０を用いても６５％の精度しか得られず生データで得られる精度に比べてはるかに低い。この結果はＰＭノイズを直接データセットに適用する、学習済みモデルの精度が著しく低下することを示唆している。そこで高い精度を維持しつつデータにプライバシーを与えることができる新たなメカニズムが必要であり本開示で提案しているメカニズムはこの要求を満たすものである。

【0128】

４．３．４Ｍｉｘｅｄデータ
図１７は、Ｉｏｎｏｓｐｈｅｒｅデータセットにおける（ＰＰＴｒａｉｎｉｎｇ、ＰＰＴｅｓｔｉｎｇ）の組み合わせについての正答率の比較を示す図である。横軸及び縦軸は、図１２と同様である。なお、属性の削減は、ＤＲ．ＷＡによる。ここでは、４種類の（ＰＰＴｒａｉｎｉｎｇ、ＰＰＴｅｓｔｉｎｇ）の組み合わせの比較が示されている。なお、本図では、（ＷＡＬＤＰ、ＷＡＬＤＰ）と（ＷＡ、ＷＡＬＤＰ）とがほぼ同じ結果を示したので、曲線が重なっている。

【0129】

図１７から分かるように、（ＰＰＴｒａｉｎｉｎｇ、ＰＰＴｅｓｔｉｎｇ）の組み合わせとして、（ＷＡ、ＷＡ）が常に最高の精度を示した。また、（ＷＡ、ＷＡ）は、（ＷＡＬＤＰ、ＷＡＬＤＰ）と（ＷＡ、ＷＡＬＤＰ）より精度が高いことがわかった。プライバシーバジェットε＜２０の場合（ＷＡＬＤＰ、ＷＡ）は（ＷＡＬＤＰ、ＷＡＬＤＰ）や（ＷＡ、ＷＡＬＤＰ）よりも良い精度を示す。またＷＡは弱い匿名化であるため学習モデルをダウンロードし、本発明者が所有する環境でテストできる場合はテストデータにＷＡを使用することができる。なお今回はＤＲ．ＷＡを用いた次元削減の結果のみを示したが、他の次元削減手法でもテストしており同様の結果であった。

【0130】

５章．考察
プライバシー強化型の機械学習モデルを構築する場合、ＬＤＰメカニズムのようなプライバシー保護技術をデータに直接適用する方法と、学習モデルの構築途中でプライバシー保護技術を適用する方法などが考えられる。前者にＰＭを用いると非効率であることが実験的に判明した。ＰＭなどのＬＤＰメカニズムは主に統計解析を目的としており、データ固有の特性が失われることが原因として考えられる。後者については多くの技術が報告されているが、それぞれ特定のユースケースに特化したものであり、汎用性に欠く。ここでは、匿名化装置１０及び１０ａとそれを利用する機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂを設けることで、過剰な情報を削減するために弱匿名化を行い、高精度な機械学習モデルを構築するフレームワーク（つまり、機械学習システム５）を提案した。本開示では、上記実験を通じて以下の知見を得た。

【0131】

５．１ＫとＬの選択
ＳＵＰ．ＭＬデータの次元削減を行う際、プライバシーバジェットが十分に大きい場合、より多くの属性を使用する方が効果的であることが分かった。これはノイズが一定以下である場合、一方で属性を増加することでモデルの精度向上が見込めるからである。またプライバシーバジェットが小さい場合、属性数が多いと各属性値に対するノイズが大きくなり、モデルの精度が著しく劣化する。そのため、利用する属性数を削減することで、各属性値に対して低スケールのノイズに抑えることができ、より高い精度を達成することができる。なお、クラス数もモデルの精度とノイズのスケールに関係性があるため同様のことが言える。最適なＫ及びＬの決定方法を確立し、提案フレームワークを利用することで、要求されるプライバシーレベルに応じた最適なモデルの構築が可能となる。

【0132】

５．２次元削減手法の比較
次元削減手法を比較した結果より、ＤＲ．ＲａｎｄとＤＲ．ＷＡを比較すると、常にＤＲ．ＷＡが高い精度を持つことがわかる。しかしＤＲ．ＷＡは機密データに対して弱いプライバシー保護しか提供しない。ＷＡの代わりに、ＷＡＬＤＰを用いることで、プライバシーを強化した次元削減が可能となる。

【0133】

６章．まとめ
本開示では、匿名化装置１０及び１０ａによって、データ型によらず統一的にデータを扱うためのプライバシーメカニズムＷＡＬＤＰを提案した。ＷＡＬＤＰはプライバシーバジェット以外にデータの属性数とクラス数を扱うことでプライバシーと有用性を制御することが可能である。また本開示では、機械学習モデル構築サーバ３０ａ及び機械学習モデル運用サーバ３０ｂによる次元削減、学習及びテストの各フェーズで使用するデータ全体を制御可能なプライバシー強化型機械学習フレームワークＳＵＰ．ＭＬ（つまり、機械学習システム５）を提案した。これはＴＴＰなどの信頼された機関の存在が不要な、次元削減、学習、テストを可能とする初めてのプライバシー強化型機械学習フレームワークである。

【0134】

（実施例２）
次に、実施の形態に係る匿名化装置１０及び１０ａが備える第３変換部１２ｃによるノイズ付加の具体例を説明する。ここでは、上記実施の形態で採用している局所差分プライバシーにおいて、データレコードを構成するｍ個の属性データにノイズを付与する際の具体的な処理例を説明する。

【0135】

（１）通常の処理
通常、ｍ個の属性データから構成されるデータレコードに対して、プライバシーバジェットεが与えられた場合に、各属性データに対して、一様にノイズを付与する。例えば、３属性Ｍ１、Ｍ２、Ｍ３に対して、プライバシーバジェットεを均等に利用する場合、それぞれの属性に対するプライバシーレベルはε／３となる。

【0136】

しかしながら、このようなノイズの付与では、一つの属性データに対して必要なプライバシーバジェットはε／ｍとなり、属性数ｍが大きくなると、付与されるプライバシーバジェットは小さくなり、より大きいノイズが付与される。その結果、データレコードを利用する機械学習の性能が劣化するという問題が生じる。

【0137】

（２）実施例２の処理１
そこで、本実施例の処理１では、第３変換部１２ｃは、すべての属性にノイズを同じプライバシーレベルで付与するのではなく、機械学習アルゴリズムの寄与度に応じて、ノイズを付与する。つまり、第３変換部１２ｃは、各属性データの機械学習アルゴリズムへの寄与度が大きいほど、配分するプライバシーバジェットを大きくし、それによって、より小さいノイズを付与する。

【0138】

具体例１として、いま、３属性Ｍ１、Ｍ２、Ｍ３の機械学習への寄与度がＭ１＞Ｍ２＞Ｍ３とする。このとき、第３変換部１２ｃは、それぞれに付与するプライバシーバジェットをε１、ε２、ε３とするとき、ε１＞ε２＞ε３、かつ、その総和ε１＋ε２＋ε３＝εを満たすように、プライバシーバジェットを配分する。例えば、プライバシーバジェットとして、ε１＝ε／２、ε２＝ε／３、ε３＝ε／６で付与する。

【0139】

その結果、第３変換部１２ｃが上記実施の形態におけるアルゴリズム１（図４）又はアルゴリズム２（図５）等を用いてプライバシーバジェットに依存するノイズを決定することで、３属性Ｍ１、Ｍ２、Ｍ３のそれぞれに付与するノイズＮ１、Ｎ２、Ｎ３の大きさは、Ｎ１＜Ｎ２＜Ｎ３となり、プライバシーレベルを保ちながら、機械学習の性能を上げることが可能となる。

【0140】

また、具体例２として、いま、ｎ個の属性Ｍ１、Ｍ２、・・・、Ｍｎ－１、Ｍｎの機械学習への寄与度がＭｎ＞Ｍｎ－１＞・・・＞Ｍ２＞Ｍ１とする。このとき、第３変換部１２ｃは、それぞれの属性Ｍｉに付与するプライバシーバジェットεｉをεｉ＝ｉ／Ｔ（ただし、Ｔ＝（ｎ＋１）ｎ／２）とする。

【0141】

その結果、第３変換部１２ｃが上記実施の形態におけるアルゴリズム１（図４）又はアルゴリズム２（図５）等を用いてプライバシーバジェットに依存するノイズを決定することで、ｎ個の属性Ｍ１、Ｍ２、・・・、Ｍｎ－１、Ｍｎのそれぞれに付与するノイズＮ１、Ｎ２、・・・、Ｎｎ－１、Ｎｎの大きさは、Ｎ１＜Ｎ２＜・・・＜Ｎｎ－１＜Ｎｎとなり、プライバシーレベルを保ちながら、機械学習の性能を上げることが可能となる。

【0142】

（３）実施例２の処理２
ここで、第３変換部１２ｃは、上述した機械学習の性能劣化を抑制する観点からの処理１に代えて、個人特定などプライバシーの漏洩の危険度を抑制する観点から、各属性へのプライバシーバジェットの配分、つまり、ノイズの付与を決定する処理２を行ってもよい。つまり、この実施例２の処理２では、第３変換部１２ｃは、各属性の個人特定やプライバシー漏洩（例えば、吃音など）の危険度が高いほど、小さなプライバシーバジェットの配分することで、大きいノイズを付与する。

【0143】

具体例として、いま、一つのデータレコードは二つ以上の目的（例えば、個人特定と病床特定など）に利用可能とする。このような場合に、病床特定では、個人を特定する危険度の高い属性については、プライバシーバジェットの配分を小さくすることで、ノイズを大きくするなど、別用途での利用における安全性を強化することが可能となる。

【0144】

例えば、３属性Ｍ１、Ｍ２、Ｍ３の個人特定への危険度がＭ３＞Ｍ２＞Ｍ１とする。このとき、第３変換部１２ｃは、それぞれの属性の個人特定への危険度に応じて、プライバシーバジェットを、ε３＝ε／６、ε２＝ε／３、ε１＝ε／２で付与する。

【0145】

その結果、第３変換部１２ｃが上記実施の形態におけるアルゴリズム１（図４）又はアルゴリズム２（図５）等を用いてプライバシーバジェットに依存するノイズを決定することで、３属性Ｍ１、Ｍ２、Ｍ３のそれぞれに付与するノイズＮ１、Ｎ２、Ｎ３の大きさは、Ｎ１＜Ｎ２＜Ｎ３となり、プライバシーレベルを保ちながら、個人特定への危険度を考慮した機械学習が可能となる。

【0146】

（４）図を用いた説明
図１８Ａは、実施例２に係る匿名化装置１０及び１０ａの動作例を説明する図である。ここでは、図９Ａ及び図９Ｂに示される次元削減を含めたプライバシーバジェットεの各属性データへの割り当て例が示されている。

【0147】

本図に示されるように、３０属性からなるデータレコードを６属性からなるデータレコードに次元削減することで、一つのデータレコードに付与するプライバシーバジェットεは、３０εから６εに削減できる。本実施例２では、次元削減後に、６ε＝ε１＋ε２＋ε３＋ε４＋ε５＋ε６を満たし、かつ、各属性の有効性（機械学習アルゴリズムへの寄与度、個人特定などプライバシーの漏洩の危険度）を考慮し、有効性の高い属性ほど、大きいプライバシーバジェットεを割り当てることで（ε１＞ε２＞ε３＞ε４＞ε５＞ε６）、プライバシーレベルを保ちながら、属性の有効性を維持することが可能となる。

【0148】

図１８Ｂは、実施例２に係る匿名化装置１０及び１０ａの動作例の続きを説明する図である。より詳しくは、図１８Ｂの（ａ）は、上記「実施例２の処理１」に相当する事例を示し、図１８Ｂの（ｂ）は、上記「実施例２の処理２」に相当する事例を示す。

【0149】

図１８Ｂの（ａ）に示される例では、６属性（Ｍ１：Diagnosis、Ｍ２：radius、・・）の機械学習への寄与度がＭ１＞Ｍ２＞・・であるので、各属性に配分されるプライバシーバジェットは、ε１＞ε２＞・・と決定され、その結果、各属性に付与されるノイズは、Ｎ１＜Ｎ２＜・・となり、乳がんをチェックする機械学習モデルを構築する学習フェーズでは、プライバシーレベルを保ちながら、機械学習の性能を上げることが可能となる。

【0150】

一方、図１８Ｂの（ｂ）に示される例では、６属性（Ｍ１：Blood type、Ｍ２：compactness、・・）の個人特定への危険度がＭ１＜Ｍ２＜・・であるので、各属性に配分されるプライバシーバジェットは、ε１＞ε２＞・・と決定され、その結果、各属性に付与されるノイズは、Ｎ１＜Ｎ２＜・・となり、希少疾患である吃音をチェックする機械学習モデルを構築する学習フェーズでは、プライバシーレベルを保ちながら、個人特定への危険度を考慮した機械学習が可能となる。

【0151】

このように、実施例２によれば、利用する目的に応じて、プライバシー保護の方式をデザインするプライバシーデザインが可能になる。つまり、上記実施例２の処理１によれば、利用する機械学習に合わせて、データのプライバシー保護を設定することで、プライバシーを保ちながら、より性能の高い機械学習を構築できる。また、１つのデータが複数の利用か可能となる場合、特に、個人特定に関するデータにも利用できる場合には、データの一人歩きを防ぐことが重要となるが、上記実施例２の処理２によれば、個人特定以外の目的で利用する機関には、個人特定の利用用途に対する性能を劣化させることで、データの一人歩きを抑制できる。

【0152】

（５）オッズ比を利用した事例
図１９Ａは、オッズ比を利用してプライバシーバジェットの配分率を決定する実施例２の第１事例に係る手順を示す図である。この第１事例は、サーバ装置が信頼できる装置であることを必要とせずに、プライバシーを保護しながらサーバ装置が用いる機械学習モデルの性能を向上させる事例である。

【0153】

定義として、属性数：ｍ、属性データ：Ｄ１，・・・，Ｄｍ－１、ターゲット属性データ：Ｔとする。さらに、プライバシーバジェット：ε、選択する属性数：Ｋ、各ユーザｉが持つデータ：［Ｄｉ，１、Ｄｉ，２、・・・、Ｄｉ，ｎ、Ｔｉ］と定義する（「定義」の行参照）。

【0154】

まず、各ユーザｉは、属性データからランダムにＫ個を選択し、選択したＫ個の属性とターゲット属性にＬＤＰ－ノイズをつけた下記のデータをセンター（プライバシーバジェットの配分率を決定するサーバ装置、あるいは、第３変換部１２ｃに相当する装置）に送付する（ステップ１）。

【0155】

［ＬＤＰ［Ｄｉ，ｉ１］、・・・、ＬＤＰ［Ｄｉ，ｉＫ］、ＬＤＰ［Ｔｉ］］

【0156】

以下、センターにて、以下のステップ２～５を行うことで、各属性に配分するプライバシーバジェットを算出する。

【0157】

まず、センターは、各ユーザから送付された欠如したデータを用いて、各属性Ｄｊのターゲット属性データＴに対するオッヅ比ＯＲｊを求める（ステップ２）。

【0158】

次に、オッヅ比ＯＲｊからそれぞれのウェイトｗｊを計算し、｛｜ｗｊ｜｝を大きいオッズ比から順にソートし、下記のように、Ｋ個の属性を寄与の高い属性とする（ステップ３）。

【0159】

Ｄｊ１，・・・，Ｄｊｋ

【0160】

次に、ｗ＝Σ｜ｗｉ｜として、ｗを算出する（ステップ４）。

【0161】

最後に、ｍ－１属性データからＫ個の最も貢献度の高い属性Ｄｊ１～Ｄｊｋの寄与度を考慮したプライバシーバジェットｅｊを、ｅｊ＝Ｋｗｊε／ｗとして、ターゲット属性のプライバシーバジェットｅＴを、ｅＴ＝ε／（Ｋ＋１）として、算出する（ステップ５）。

【0162】

図１９Ｂは、図１９Ａに示される手順の具体例（属性が２値の場合）を示す図である。ここでは、選択する属性数：３、ユーザ数：７、属性が２値（「１」又は「－１」）の場合の具体例が示されている（「定義」の行参照）。

【0163】

ステップ１では、図１９Ｂのステップ１に示されるように、ユーザごとに３個の属性が選択されている。

【0164】

ステップ２では、図１９Ｂのステップ２の（ａ）に示されるように、まず、属性ごとに、属性Ｄｉとターゲット属性Ｔとが対応づけられる。次に、ステップ２の（ｂ）に示されるように、属性Ｄｉとターゲット属性Ｔとの値の組み合わせに対応する出現頻度が算出される。さらに、ステップ２の（ｃ）に示される式に従って、属性Ｄｉごとのオッズ比ＯＲｉ（ＯＲ１～ＯＲ４）が算出される。

【0165】

ステップ３では、図１９Ｂのステップ３に示されるように、ｗｉ＝ｌｎ（ＯＲｉ）より、ウェイトｗｉ（ｗ１～ｗ４）が算出される。その結果、絶対値として、ｗ２＞ｗ１＞ｗ３＝ｗ４となるので、貢献度については、Ｄ２＞Ｄ１＞Ｄ３＝Ｄ４となる。

【0166】

ステップ４では、図１９Ｂのステップ４に示されるように、ｗ＝Σ｜ｗｉ｜が算出される。

【0167】

ステップ５では、図１９Ｂのステップ５に示されるように、ｗ、プライバシーバジェットが算出される。

【0168】

ｗ＝１．１＋１．３９＋０．６９＋０．６９＝３．８７
ｅ２＝３／４／３．８７＊１．３９ε＝０．２６９ε
ｅ１＝３／４／３．８７＊１．１ε＝０．２１２ε
ｅ４＝３／４／３．８７＊０．６９ε＝０．１３３ε
ｅＴ＝ε／４＝０．２５ε

【0169】

このようにして、オッズ比を利用することで、ターゲット属性への貢献度の高い属性に対して大きな比率でプライバシーバジェットを配分することで、プライバシーを保護しながら学習モデルの性能を向上させることができる。

【0170】

（６）ロジスティック回帰を利用した事例
図２０Ａは、ロジスティック回帰を利用してプライバシーバジェットの配分率を決定する実施例２の第３事例に係る手順及び具体例を示す図である。ここで、手順の基本的な流れは、図１９Ａに示される第１事例のステップ１～５と同様であるが、オッズ比を用いる処理がロジスティック回帰を用いる処理に置き換えられている。また、具体例では、選択する属性数：３、ユーザ数：５、属性が多値（１、２、・・）の場合の具体例が示されている（「定義」の行参照）。

【0171】

まず、各ユーザｉは、属性データからランダムにＫ個を選択し、選択したＫ個の属性とターゲット属性にＬＤＰ－ノイズをつけてセンター（プライバシーバジェットの配分率を決定するサーバ装置、あるいは、第３変換部１２ｃに相当する装置）に送付する（ステップ１）。具体例では、ユーザごとに３個の属性が選択されている。

【0172】

以下、センターにて、以下のステップ２～５を行うことで、各属性に配分するプライバシーバジェットを算出する。

【0173】

まず、センターは、各ユーザから送付された欠如したデータを用いて、各属性Ｄｊのターゲット属性データＴに対するウェイト（ｗ１～ｗ４）を求める（ステップ２）。具体例では、図２０Ａのステップ２の（ａ）に示されるように、まず、属性ごとに、属性Ｄｉとターゲット属性Ｔとが対応づけられる。次に、ステップ２の（ｂ）に示されるように、属性ごとに、図２０Ｂに示されるＧｒａｄｉｅｎｔＤｅｓｃｅｎｔを利用して、Ｔ＝ｗ０＋ｗｉＤが算出される。さらに、ステップ２の（ｃ）に示されるように、図２０Ｂに示されるロジスティック回帰（ただし、α＝０．０１、ｎｕｍ＿ｉｔｅｒａｔｉｏｎ＝１０００）を利用した繰り返し計算によって、ステップ２の（ｄ）に示されるように、各属性に対するウェイトｗ１～ｗ４が算出される。図２０Ｂは、アルゴリズム９（ロジスティック回帰）を示す図である。

【0174】

次に、｛｜ｗｊ｜｝を大きいから順にソートし、下記のように、Ｋ個の属性を寄与の高い属性とする（ステップ３）。具体例では、ｗ１の絶対値＞ｗ２の絶対値＞ｗ３の絶対値＞ｗ４の絶対値となるので、貢献度については、Ｄ１＞Ｄ２＞Ｄ３＞Ｄ４となる。

【0175】

次に、ｗ＝Σ｜ｗｉ｜として、ｗを算出する（ステップ４）。具体例では、ｗ＝ｗ１の絶対値＋ｗ２の絶対値＋ｗ３の絶対値＝１５．７８が算出される。

【0176】

最後に、ｍ－１属性データからＫ個の最も貢献度の高い属性Ｄｊ１～Ｄｊｋの寄与度を考慮したプライバシーバジェットｅｊを、ｅｊ＝Ｋｗｊε／（（Ｋ＋１）ｗ）として、ターゲット属性のプライバシーバジェットｅＴを、ｅＴ＝ε／（Ｋ＋１）として、算出する（ステップ５）。具体例では、ｅ１＝Ｋｗ１ε／（（Ｋ＋１）ｗ）＝０．６８２９ε、ｅ２＝Ｋｗ２ε／（（Ｋ＋１）ｗ）＝０．００３９２ε、ｅ３＝Ｋｗ３ε／（（Ｋ＋１）ｗ）＝０．０１７２ε、ｅＴ＝ε／（Ｋ＋１）＝０．２５εと算出される。

【0177】

このようにして、属性が多値の場合であっても、ロジスティック回帰を利用することで、ターゲット属性への貢献度の高い属性に対して大きな比率でプライバシーバジェットを配分することで、プライバシーを保護しながら学習モデルの性能を向上させることができる。

【0178】

図２０Ｃは、ロジスティック回帰のアルゴリズムを示す図である。この第２事例も、サーバ装置が信頼できる装置であることを必要とせずに、プライバシーを保護しながらサーバ装置が用いる機械学習モデルの性能を向上させる事例である。

【0179】

定義として、属性数：ｎ、属性データ：Ｄ１、・・・、Ｄｎ、ターゲット属性データ：Ｔ、プライバシーバジェット：ε、選択する属性数：Ｋ、繰り返し回数：Ｔ、学習率：αとする（「定義」の行参照）。

【0180】

いま、寄与度：Ｍｎ＞Ｍｎ－１＞・・・＞Ｍ２＞Ｍ１とする（ステップ１）。

【0181】

以下、センターにて、以下のステップ２～１３を行うことで、各属性に配分するプライバシーバジェットを算出する。

【0182】

まず、センターは、ランダムにｋ個の属性データを入手する（ステップ２）。

【0183】

Ｄｊ１、・・・、Ｄｊｋ

【0184】

次に、以下の通り、ＷＡＬＤＰを用いて、ｋ個の属性とターゲット属性をランダム化する（ステップ３）。

【0185】

ＷＡＬＤＰ［Ｄ１、・・・、Ｄｊｋ、Ｔ］ a ［ｙｊ１、・・・、ｙｊｋ、ＴＡ］

【0186】

次に、Ｗ＝｛ｗ１、・・・、ｗｎ］＝［０、・・、０］と初期化し（ステップ４）、さらに、Ｉ＝［｛１｝、・・・、｛１｝｝と初期化する（ステップ５）。

【0187】

続いて、以下の処理を繰り返す（ステップ６～１０）。

【0188】

Ｆｏｒｉ＝１ｔｏＴ（ステップ６）。

【0189】

ｈｎ×１ s １／（１＋ｅｘｐ（－Ｘｗ））（ステップ７）。

【0190】

ｅｎ×１ s ｈ－ＴＡ（ステップ８）。

【0191】

ｇ（ｎ＋１）×１ s Ｘ^・ｅｎ×１（ステップ９）。

【0192】

ｗsｗ-αｇ／ｎ（ステップ１０）。

【0193】

次に、Ｗ＝［ｗ１、・・・、ｗｎ］を、［Ｄ１、…、Ｄｎ］の貢献度とする（ステップ１１）。

【0194】

次に、ｗ＝Σｗｉを算出する（ステップ１２）。

【0195】

最後に、各属性データＤ１～Ｄｎの寄与度を考慮したプライバシーバジェットｅｊを、ｅｊ＝Ｋｗｊε／ｗとして算出し、ターゲット属性のプライバシーバジェットｅＴを、ｅＴ＝ε／（Ｋ＋１）として算出する（ステップ１３）。

【0196】

図２１Ａは、図２０Ａに示されるロジスティック回帰を利用したプライバシーバジェットの配分を用いて学習した機械学習モデルのテスト結果（精度）を示す図である。ここには、選択する属性数Ｋを様々な値に設定した場合のそれぞれにおいて、ＷＤＢＣ（乳がん）データベースを用いて学習させた機械学習モデルの精度（スコア）が示されている。実線は、ＢＰＰ．ＭＬ（Ｂａｌａｎｃｅｄｐｒｉｖａｃｙ－ｐｒｅｓｅｒｖｉｎｇｔｒａｉｎｉｎｇ機械学習モデル；ロジスティック回帰を利用してプライバシーバジェットεを配分した実施例）を用いた場合の結果を示し、破線は、ＰＰ．ＭＬ（Ｐｒｉｖａｃｙ－ｐｒｅｓｅｒｖｉｎｇｔｒａｉｎｉｎｇ機械学習モデル；プライバシーバジェットεが均等配分）を用いた場合の結果を示している。図２１Ａの（ａ）は、Ｔｒａｉｎ（学習時） ε（プライバシーバジェット）＝５．０で、かつ、Ｔｅｓｔ（テスト時） ε＝５．０の場合の結果を示し、図２１Ａの（ｂ）は、Ｔｒａｉｎ ε＝５．０で、かつ、Ｔｅｓｔ ε＝１００００の場合の結果を示している。

【0197】

図２１Ｂは、ＳＶＭを用いて学習した機械学習モデルのテスト結果（精度）を示す図である。図２１Ａとの比較参考のための図である。図２１Ａと同様に、選択する属性数Ｋを様々な値に設定した場合のそれぞれにおいて、ＷＤＢＣ（乳がん）データベースを用いて学習させた機械学習モデルの精度（スコア）が示されている。実線及び破線も、図２１Ａと同様の意味である。図２１Ｂの（ａ）は、図２１Ａの（ａ）と同一条件での結果を示し、図２１Ａの（ｂ）は、図２１Ａの（ｂ）と同一条件での結果を示している。

【0198】

図２１Ａ及び図２１Ｂを比較して分かるように、図２０Ａに示されるロジスティック回帰を利用したプライバシーバジェットの配分を用いて学習した機械学習モデルの精度は、ＳＶＭを用いて学習した機械学習モデルの精度と同程度か、それ以上となっている。このことから、ロジスティック回帰を利用したプライバシーバジェットの配分を用いて機械学習モデルを学習することが高い有効性をもつといえる。

【0199】

（他の実施の形態）
以上の実施の形態及び実施例の記載により、下記の技術が開示される。

【0200】

（技術１）個人の属性データをプライバシーが保護されるデータに変換する匿名化を行う匿名化装置であって、前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換部と、前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換部で変換された前記属性データを弱匿名化する第２変換部と、前記第２変換部で弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換部とを備える、匿名化装置。

【0201】

これにより、属性データが離散データである場合には順序付き離散データに変換したうえで弱匿名化され、属性データが連続データである場合にはそのまま弱匿名化されるので、属性データが連続データであっても離散データであっても、弱匿名化され、統一してノイズの付与がされ、そのような統一的な扱いができなかった従来の局所差分プライバシーよりも有用性の高い解析が可能になる。さらに、機械学習モデルの学習及びテストに適用する場合には、属性データ自体を弱匿名化あるいはさらにノイズ付与したうえで機械学習用のサーバ装置に提供できるので、サーバ装置が信頼できる装置であることを必要としない。

【0202】

よって、個人の属性データをプライバシーが保護される状態で解析することを可能にする装置であって、属性データを解析するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする匿名化装置が実現される。

【0203】

（技術２）前記第１変換部は、前記属性データが離散データである場合に、前記属性データがとり得る全離散値を並べた列において前記属性データに対応するインデックスを、前記順序付き離散データとして、出力する、技術１記載の匿名化装置。

【0204】

これにより、あらゆるタイプの離散データを順序付き離散データに変換することが可能となり、連続データと離散データの統一的な取り扱いが実現される。

【0205】

（技術３）前記第２変換部は、前記属性データがとり得る最大値と最小値との差である範囲を用いた所定演算により、前記属性データを弱匿名化する、技術１又は２記載の匿名化装置。

【0206】

これにより、属性データが連続データであっても離散データであっても、共通の手法により、弱匿名化が行われる。

【0207】

（技術４）前記第３変換部は、弱匿名化された前記属性データに対して、局所差分プライバシーを適用することで、前記ノイズを付加する、技術１～３のいずれかに記載の匿名化装置。

【0208】

これにより、連続データか離散データかに依存することなく、属性データに対して、統一的にノイズを付加できる。

【0209】

（技術５）前記匿名化装置は、個人に関連するｍ個の属性データを含むデータレコードを対象として匿名化を行う装置であり、前記第３変換部は、前記ノイズの付加では、与えられたプライバシーバジェットを、前記データレコードが用いられる機械学習システムにおける機械学習アルゴリズムへの貢献度、又は、前記個人の特定あるいはプライバシー漏洩への危険度に依存する配分率で、前記ｍ個の属性データのそれぞれに配分し、配分したプライバシーバジェットが小さい属性データほど大きなノイズを付加する、技術１～４のいずれかに記載の匿名化装置。これにより、利用する目的に応じて、プライバシー保護の方式をデザインするプライバシーデザインが可能になる。

【0210】

（技術６）前記第３変換部は、与えられた前記プライバシーバジェットを、前記データレコードが用いられる機械学習システムにおける機械学習アルゴリズムへの貢献度が大きいほど大きな配分率で、前記ｍ個の属性データのそれぞれに配分する、技術５記載の匿名化装置。これにより、プライバシーレベルを保ちながら、機械学習の性能を上げることが可能となる。

【0211】

（技術７）
前記第３変換部は、与えられた前記プライバシーバジェットを、前記個人の特定あるいはプライバシー漏洩への危険度が大きいほど小さな配分率で、前記ｍ個の属性データのそれぞれに配分する、技術５記載の匿名化装置。これにより、プライバシーレベルを保ちながら、個人特定への危険度を考慮した機械学習が可能となる。

【0212】

（技術８）さらに、ｍ個の属性データを含むデータレコードから、ユーザの指示に従って、Ｋ（＜ｍ）個の属性データをランダムに選択する属性データ選択部を備え、前記第１変換部、前記第２変換部及び前記第３変換部は、前記属性データ選択部で選択された属性データを対象として変換を行い、前記匿名化装置は、前記第１変換部、前記第２変換部及び前記第３変換部によって変換されたＫ個の属性データを機械学習モデル構築サーバ又は機械学習モデル運用サーバに送信する、技術１記載の匿名化装置。

【0213】

これにより、次元削減後の属性データが匿名化装置によって匿名化されたうえで、機械学習モデル構築サーバ又は機械学習モデル運用サーバに提供される。

【0214】

（技術９）個人の属性データをプライバシーが保護されるデータに変換する装置による匿名化方法であって、前記属性データが離散データである場合に、前記離散データを順序付き離散データに変換する第１変換ステップと、前記属性データが連続データである場合には、前記属性データを弱匿名化し、前記属性データが離散データである場合には、前記第１変換ステップで変換された前記属性データを弱匿名化する第２変換ステップと、前記第２変換ステップで弱匿名化された前記属性データに対して、ノイズを付加する変換を行う第３変換ステップとを含む、匿名化方法。

【0215】

これにより、個人の属性データをプライバシーが保護される状態で解析することを可能にする方法であって、属性データを解析するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする匿名化方法が実現される。

【0216】

（技術１０）ユーザ端末及び機械学習モデル構築サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルを構築する機械学習モデル構築方法であって、前記機械学習モデル構築サーバが前記ユーザ端末に属性数Ｋを通知するステップと、前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データのそれぞれを匿名化し、匿名化した前記Ｋ個の属性データ、又は、匿名化した前記Ｋ個の属性データから算出した前記Ｋ個の属性データそれぞれについての相関を示す関係性データを前記機械学習モデル構築サーバに送信するステップと、前記機械学習モデル構築サーバが、前記ユーザ端末から受け取った匿名化した前記Ｋ個の属性データから算出した関係性データ、又は、前記ユーザ端末から受け取った関係性データに基づいて、前記機械学習モデルの機械学習に用いるＫ個の属性を決定し、決定したＫ個の属性を前記ユーザ端末に通知する属性決定ステップと、前記ユーザ端末において、前記機械学習モデル構築サーバから通知されたＫ個の属性に対応するＫ個の属性データについて、技術１に記載の匿名化装置を用いた匿名化を行い、し、匿名化した前記Ｋ個の属性データを前記機械学習モデル構築サーバに送信するステップと、前記機械学習モデル構築サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルの機械学習を行う機械学習ステップとを含む、機械学習モデル構築方法。

【0217】

これにより、個人の属性データをプライバシーが保護される状態で機械学習をすることを可能にする方法であって、属性データを用いて機械学習するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする機械学習モデル構築方法が実現される。

【0218】

（技術１１）ユーザ端末及び機械学習モデル運用サーバから構成される機械学習システムによって、ｍ個の属性データを含むデータレコードを用いて機械学習モデルによる推論を行う機械学習推論方法であって、前記機械学習モデル運用サーバが前記ユーザ端末にＫ個の属性を通知する通知ステップと、前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データのそれぞれについて、技術１に記載の匿名化装置を用いた匿名化を行い、匿名化されたＫ個の属性データを、前記機械学習モデルによる推論のために、前記機械学習モデル運用サーバに送信するステップと、前記機械学習モデル運用サーバが、前記ユーザ端末から送信された匿名化された前記Ｋ個の属性データを用いて、前記機械学習モデルによる推論を行う推論ステップとを含む、機械学習推論方法。

【0219】

（技術１２）さらに、前記通知ステップに先立ち、前記機械学習モデル運用サーバが、前記ユーザ端末に属性数Ｋを通知するステップと、前記ユーザ端末において、ユーザからの指示に従って、ｍ個の属性データを含むデータレコードから前記Ｋ個の属性データをランダムに選択し、選択した前記Ｋ個の属性データを匿名化し、匿名化した前記Ｋ個の属性データ、又は、匿名化した前記Ｋ個の属性データから算出した前記Ｋ個の属性データそれぞれについての相関を示す関係性データを前記機械学習モデル運用サーバに送信するステップと、前記機械学習モデル運用サーバが、前記ユーザ端末から受け取った匿名化した前記Ｋ個の属性データから算出した関係性データ、又は、前記ユーザ端末から受け取った前記関係性データに基づいて、前記機械学習モデルの推論に用いるＫ個の属性を決定する属性決定ステップとを含み、前記通知ステップでは、前記属性決定ステップで決定した前記Ｋ個の属性を前記ユーザ端末に通知する、技術１１記載の機械学習推論方法。

【0220】

これにより、個人の属性データをプライバシーが保護される状態で機械学習モデルのテストをすることを可能にする方法であって、属性データを用いて機械学習モデルのテストをするサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にする機械学習モデル推論方法が実現される。

【0221】

（技術１３）技術９～１２のいずれかに記載のステップをコンピュータに実行させるプログラム。

【0222】

これにより、個人の属性データをプライバシーが保護される状態で解析することを可能にするプログラムであって、属性データを解析するサーバ装置が信頼できる装置であることを必要とせず、かつ、従来よりも有用性の高い解析を可能にするプログラムが実現される。

【0223】

以上、本開示に係る匿名化装置、匿名化方法、機械学習モデル構築方法、機械学習推論方法、及び、プログラムについて、実施の形態、実施例及び他の実施の形態に基づいて説明したが、本開示は、これらの実施の形態等に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形をこれらの実施の形態等に施したものや、実施の形態等における一部の構成要素を組み合わせて構築される別の形態も、本開示の範囲内に含まれる。

【0224】

例えば、上記実施の形態では、機械学習モデル構築サーバ３０ａと機械学習モデル運用サーバ３０ｂとは別個の装置であったが、これらの装置が一体化されていてもよい。つまり、一台のサーバ装置が機械学習モデルの学習とテストの両方を行う機能を有していてもよい。

【産業上の利用可能性】

【0225】

本開示に係る匿名化装置及び機械学習システムは、個人の属性データをプライバシーが保護されるデータに変換する匿名化装置及び、心拍数、運動量など、私たちの生活に関するさまざまな属性データを収集して機械学習モデルを用いてプライバシーを保護しながら解析する機械学習システムとして、利用できる。

【符号の説明】

【0226】

５機械学習システム
７通信路
１０、１０ａ匿名化装置
１２匿名化処理部
１２ａ第１変換部
１２ｂ第２変換部
１２ｃ第３変換部
１３属性データ選択部
２０、２０ａ、２０ｂユーザ端末
２１通信部
２２記憶部
２３関係性秘匿化装置
３０ａ機械学習モデル構築サーバ
３０ｂ機械学習モデル運用サーバ
３１ａ、３１ｂ通信部
３２ａ、３２ｂ機械学習モデル
３３ａ学習部
３３ｂ運用部

【図1】