(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-31
(45)【発行日】2023-02-08
(54)【発明の名称】評価装置、評価方法及び評価プログラム
(51)【国際特許分類】
G06F 21/62 20130101AFI20230201BHJP
【FI】
G06F21/62 354
(21)【出願番号】P 2020054303
(22)【出願日】2020-03-25
【審査請求日】2022-02-08
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成31年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、CREST、「ビッグデータ統合利活用促進のためのセキュリティ基盤技術の体系化」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(72)【発明者】
【氏名】三本 知明
(72)【発明者】
【氏名】清本 晋作
【審査官】平井 誠
(56)【参考文献】
【文献】国際公開第2019/168144(WO,A1)
【文献】特開2018-156427(JP,A)
【文献】特開2015-046030(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/00-88
(57)【特許請求の範囲】
【請求項1】
匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付けるデータ入力部と、
前記処理前データ及び前記処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する結果取得部と、
前記分析結果、又は当該分析結果の評価値を、前記処理前データ及び前記処理後データの間で比較し、類似度合いを前記処理前データに対する前記処理後データの有用性の評価指標として算出する指標算出部と、を備え
、
前記分析結果は、一般化階層木におけるノードの値であり、
前記指標算出部は、前記ノードの詳細度合いを前記評価値として前記評価指標を算出する評価装置。
【請求項2】
前記指標算出部は、前記評価指標を、所定の値域に正規化する請求項1に記載の評価装置。
【請求項3】
前記結果取得部は、複数のユースケースそれぞれに応じた複数の分析結果を取得し、
前記指標算出部は、前記複数の分析結果それぞれに基づく前記評価指標を加重平均する請求項1又は請求項2に記載の評価装置。
【請求項4】
匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付けるデータ入力ステップと、
前記処理前データ及び前記処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する結果取得ステップと、
前記分析結果、又は当該分析結果の評価値を、前記処理前データ及び前記処理後データの間で比較し、類似度合いを前記処理前データに対する前記処理後データの有用性の評価指標として算出する指標算出ステップと、をコンピュータが実行
し、
前記分析結果は、一般化階層木におけるノードの値であり、
前記指標算出ステップにおいて、前記ノードの詳細度合いを前記評価値として前記評価指標を算出する評価方法。
【請求項5】
請求項1から請求項
3のいずれかに記載の評価装置としてコンピュータを機能させるための評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、匿名化データの有用性を評価するための装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、プライバシ保護の観点から、データセットは匿名化後に利用されることが多いが、匿名化の度合いによって有用性が損なわれる場合があるため、匿名化データの有用性評価が必要とされる。
匿名化データの有用性評価の手法には、匿名化前後のデータ間の距離又は情報量に基づくものがある(例えば、非特許文献1~6参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】K. LeFevre, D. J. DeWitt, and R. Ramakrishnan, "Mondrian multidimensional k-anonymity," in Proc. of the 22nd International Conference on Data Engineering (ICDE ’06), pp. 25-35. IEEE, 2006.
【文献】P. Samarati and L. Sweeney, "Generalizing data to provide anonymity when disclosing information," in Proc. of PODS 1998, 1998, p. 188.
【文献】P. Samarati, "Protecting respondents’ identities in microdata release," IEEE Trans. on Knowledge and Data Engineering, vol. 13, no. 6, pp. 1010-1027, 2001.
【文献】L. Sweeney, "Achieving k-anonymity privacy protection using generalization and suppression," in J. Uncertainty, Fuzziness, and Knowledge-Base Systems, vol. 10(5), 2002, pp. 571-588.
【文献】J. W. Byun, A. Kamra, E. Bertino, and N. Li, "Efficient k-anonymization using clustering techniques," International Conference on Database Systems for Advanced Applications, 188-200, 2007, Springer.
【文献】T. Iwuchukwu, and J. F. Naughton, "k-anonymization as spatial indexing: Toward scarable and incremental anonymization," in Proceeding of the 33rd International Conference on Very Large Data Bases, VLDB, pages 746-757, 2007.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来の手法では、実際の利用シーンにおけるデータの有用性を適切に評価できない可能性があった。
【0005】
本発明は、ユースケースに応じて匿名化データの有用性を評価できる評価装置、評価方法及び評価プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る評価装置は、匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付けるデータ入力部と、前記処理前データ及び前記処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する結果取得部と、前記分析結果、又は当該分析結果の評価値を、前記処理前データ及び前記処理後データの間で比較し、類似度合いを前記処理前データに対する前記処理後データの有用性の評価指標として算出する指標算出部と、を備える。
【0007】
前記指標算出部は、前記評価指標を、所定の値域に正規化してもよい。
【0008】
前記結果取得部は、複数のユースケースそれぞれに応じた複数の分析結果を取得し、前記指標算出部は、前記複数の分析結果それぞれに基づく前記評価指標を加重平均してもよい。
【0009】
前記分析結果は、前記処理前データ及び前記処理後データそれぞれに基づく教師あり学習による推定結果であり、前記指標算出部は、前記推定結果の精度を前記評価値として前記評価指標を算出してもよい。
【0010】
前記分析結果は、前記処理前データ及び前記処理後データそれぞれに基づく統計値であり、前記指標算出部は、前記処理前データ及び前記処理後データの間での前記統計値の差を前記評価指標として算出してもよい。
【0011】
前記分析結果は、一般化階層木におけるノードの値であり、前記指標算出部は、前記ノードの詳細度合いを前記評価値として前記評価指標を算出してもよい。
【0012】
本発明に係る評価方法は、匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付けるデータ入力ステップと、前記処理前データ及び前記処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する結果取得ステップと、前記分析結果、又は当該分析結果の評価値を、前記処理前データ及び前記処理後データの間で比較し、類似度合いを前記処理前データに対する前記処理後データの有用性の評価指標として算出する指標算出ステップと、をコンピュータが実行する。
【0013】
本発明に係る評価プログラムは、前記評価装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0014】
本発明によれば、ユースケースに応じて匿名化データの有用性が評価される。
【図面の簡単な説明】
【0015】
【
図1】実施形態における評価装置の機能構成を示す図である。
【
図2】実施形態における一般化階層木を用いた評価方法を例示する図である。
【
図3】実施形態における有用性の評価方法を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態における評価装置1の機能構成を示す図である。
評価装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
【0017】
制御部10は、評価装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
【0018】
記憶部20は、ハードウェア群を評価装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(評価プログラム)、評価対象のデータセット等を記憶する。
【0019】
制御部10は、データ入力部11と、結果取得部12と、指標算出部13とを備える。
制御部10は、これらの機能部により、ユースケースに応じて匿名化データの有用性評価する。
【0020】
データ入力部11は、匿名化処理を施す前後の処理前データ及び処理後データの入力を受け付ける。
【0021】
結果取得部12は、処理前データ及び処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得する。
分析結果は、例えば、次のようなユースケースに応じた対象データ(処理前データ及び前記処理後データ)の処理結果である。
・対象データそれぞれに基づく教師あり学習による推定結果。
・対象データそれぞれに基づく平均値、分散値等の統計値。
・一般化階層木におけるノードの値。
【0022】
結果取得部12は、複数のユースケース(例えば、複数の機械学習モデル、複数の統計値等)それぞれに応じた複数の分析結果を取得してもよい。
【0023】
指標算出部13は、分析結果、又は分析結果の評価値を、処理前データ及び処理後データの間で比較し、類似度合いを処理前データに対する処理後データの有用性の評価指標として算出する。
このとき、指標算出部13は、評価指標を所定の値域に、例えば0~1に正規化してもよい。
【0024】
また、指標算出部13は、複数の分析結果それぞれに基づく評価指標を加重平均して出力してもよい。
例えば、A、B、Cの3種類のユースケースに対してそれぞれ分析結果の評価を行った場合に、A:0.8、B:0.2、C:0.5という評価値が得られたとする。このとき、指標算出部13は、各評価値を評価指標として出力する他、実際の利用方法としてCが頻繁に使われる場合には、(0.8×1+0.2×1+0.5×2)/(1+1+2)=0.5のように、各評価値に対して重み付けをして、総合評価として評価指標を出力してもよい。
【0025】
ここで、前述のユースケースの例について、評価指標の算出方法を例示する。
[機械学習による推定]
機械学習による分類をユースケースとした場合、評価装置1は、匿名化前後の処理前データ及び処理後データをそれぞれ教師データとして、共通する属性Xを推定する機械学習モデルをそれぞれ生成する。このとき、属性X及び学習モデルは複数であってもよい。
【0026】
結果取得部12は、生成した学習モデルの評価用のデータとして、匿名化前後と同じ属性を持つデータセットをそれぞれの学習モデルに入力し、評価用データにおける属性Xの推定を行う。なお、評価用データは、半数が匿名化前のデータ、半数は匿名化処理を施した後のデータとするが、全てが匿名化前、あるいは匿名化後のデータでも構わない。
【0027】
指標算出部13は、処理前データ及び前記処理後データそれぞれに基づく学習モデルによる評価データの推定結果を取得すると、F値等で表される推定精度を推定結果の評価値として用いて評価指標を算出する。
評価指標としては、例えば、「処理後データに基づく学習モデルの精度/処理前データに基づく学習モデルの精度」といった劣化割合に関する値が用いられてよい。
【0028】
[統計値]
データの統計値をユースケースとした場合、指標算出部13は、匿名化前後での分析結果の距離、すなわち処理前データ及び処理後データの間での統計値の差を評価指標として算出する。
例えば、値域が0~100の属性に対して、処理前データの平均値が50、処理後データの平均値が60だったとすると、評価指標は、1-(|50-60|/(100-0))=0.9のように、値域に対する分析結果の距離の割合に基づく値として算出される。
【0029】
[階層木におけるノードの値]
分析結果が数値データ以外の場合、木構造を用いて、ノードの詳細度合いを示す評価値が適用可能である。
【0030】
図2は、本実施形態における一般化階層木を用いた評価方法を例示する図である。
この例では、最下層の5種類の種目の評価値は1である。また、「球技」の評価値は、3種目のいずれかに特定されたことから1/3となり、同様に「非球技」の評価値は1/2である。そして、「スポーツ」の評価値は1/5となる。
【0031】
すると、例示した木構造を持つ属性に対して、処理前データの分析結果として「野球」が、処理後データの分析結果として「球技」が得られた場合、評価指標は、評価値の割合として、(1/3)/1=1/3のように算出される。
【0032】
このように、評価装置1は、匿名化データに対するユースケースに応じて、匿名化の前後における分析結果の精度の劣化割合、距離等を用いて評価指標を算出する。
【0033】
図3は、本実施形態における有用性の評価方法を示すフローチャートである。
ステップS1において、データ入力部11は、匿名化前後の処理前データ及び処理後データの入力を受け付ける。
【0034】
ステップS2において、結果取得部12は、処理前データ及び処理後データのそれぞれを用いて、ユースケースに基づいた分析を実施し、分析結果を指標算出部13に提供する。
【0035】
ステップS3において、指標算出部13は、処理前データに対する分析結果と処理後データに対する分析結果とを比較し、割合又は距離等に基づく有用性の評価指標を算出する。
【0036】
本実施形態によれば、評価装置1は、匿名化処理を施す前後の処理前データ及び処理後データのそれぞれに対する、ユースケースに応じた分析結果を取得し、この分析結果、又は分析結果の評価値を、処理前データ及び処理後データの間で比較し、両者の類似度合いを処理前データに対する処理後データの有用性の評価指標として算出する。
したがって、評価装置1は、ユースケースに応じた分析結果を比較することで、処理前データと処理後データとを比較する従来の手法に比べて、データの使い道に焦点を当て、匿名化データのユースケースに応じた有用性評価を適切に行うことができる。
【0037】
このとき、評価装置1は、評価指標を、所定の値域に正規化するので、匿名化データの有用性を客観的な指標として定量的に示すことができる。
【0038】
また、評価装置1は、複数のユースケースそれぞれに応じた複数の分析結果それぞれに基づく評価指標を加重平均して出力することにより、匿名化データの利用方法が限定されない場合に、総合的な有用性を適切に評価できる。
【0039】
評価装置1は、ユースケースとして、匿名化データを用いた教師あり学習に対応できる。この場合、評価装置1は、学習モデルによる推定結果の精度を処理前データによる学習と処理後データによる学習とで比較することにより、評価指標を適切に算出できる。
【0040】
また、評価装置1は、ユースケースとして、統計値の演算に対応できる。この場合、評価装置1は、処理前データ及び処理後データの間での統計値の差を用いて、評価指標を適切に算出できる。
【0041】
また、評価装置1は、ユースケースとして、一般化階層木におけるノードの値を求める場合に対応できる。この場合、評価装置1は、木構造におけるノードの詳細度合いを評価値として、この評価値を処理前データ及び処理後データの間で比較することにより、評価指標を適切に算出できる。
【0042】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0043】
評価装置1による評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0044】
1 評価装置
10 制御部
11 データ入力部
12 結果取得部
13 指標算出部
20 記憶部