特許第6681799号(P6681799)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6681799一般化階層木の生成装置、方法及びプログラム
<>
  • 特許6681799-一般化階層木の生成装置、方法及びプログラム 図000002
  • 特許6681799-一般化階層木の生成装置、方法及びプログラム 図000003
  • 特許6681799-一般化階層木の生成装置、方法及びプログラム 図000004
  • 特許6681799-一般化階層木の生成装置、方法及びプログラム 図000005
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6681799
(24)【登録日】2020年3月26日
(45)【発行日】2020年4月15日
(54)【発明の名称】一般化階層木の生成装置、方法及びプログラム
(51)【国際特許分類】
   G06F 21/62 20130101AFI20200406BHJP
【FI】
   G06F21/62 354
【請求項の数】6
【全頁数】9
(21)【出願番号】特願2016-138351(P2016-138351)
(22)【出願日】2016年7月13日
(65)【公開番号】特開2018-10453(P2018-10453A)
(43)【公開日】2018年1月18日
【審査請求日】2018年9月20日
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】三本 知明
(72)【発明者】
【氏名】清本 晋作
【審査官】 青木 重徳
(56)【参考文献】
【文献】 特開2013−200659(JP,A)
【文献】 米国特許出願公開第2008/0040346(US,A1)
【文献】 欧州特許出願公開第02228735(EP,A1)
【文献】 Ke Wang et al.,Bottom-Up Generalization: A Data mining Solution to Privacy Protection,Fouth IEEE International Conference on Data Mining (ICDM'04) ,米国,IEEE,2004年11月 1日
【文献】 Tomoaki Mimoto et al.,Towards Practical k-Anonymization: Correlation-based Construction of Generalization Hierarchy,Proceedings of the 13th International Joint Conference on e-Bisiness and Telecommunications (ICETE 2016),[オンライン],2016年 7月26日,Volume 4,p.411-418,[検索日 令和 1年 8月 6日]、インターネット,URL,<https://pdfs.semanticscholar.org/5c07/1566f283c449c8f4e15463eb0e0dab79f28.pdf>
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
JSTPlus/JMEDPlus/JST7580(JDreamIII)
IEEE Xplore
(57)【特許請求の範囲】
【請求項1】
複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択部と、
前記第2の属性が特定の値域である前記データセットのレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となるように、当該区分けした各値域を示す最下位の階層のノードを生成する第1生成部と、
前記最下位の階層から上位へ向かって順に、生成済みの下位階層の複数のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成部と、を備える一般化階層木の生成装置。
【請求項2】
前記第2生成部は、未選択の属性を選択し、当該選択した属性が特定の値域である前記データセットのレコードのうち、前記第1の属性の値を区分けした前記下位階層のノードの数よりも少ない各値域内に含まれるレコード数が略均等となる前記上位階層のノードを生成し、
前記下位階層のノード及び前記上位階層のノードにおける前記第1の属性の値域の包含関係に基づいて、前記上位階層のノードの数を調整する調整部を備える請求項1に記載の一般化階層木の生成装置。
【請求項3】
前記調整部は、包含関係にある前記下位階層のノード及び前記上位階層のノードの合計数が閾値を超える場合、当該包含関係にあるノードの全値域を2つに分割して調整後のノードとし、前記合計数が前記閾値以下の場合、当該包含関係にあるノードの全値域を1つの調整後のノードとする請求項2に記載の一般化階層木の生成装置。
【請求項4】
各階層のノードの値域に対して、選択した属性の特定の値域を、一般化の条件として出力する出力部を備える請求項1から請求項3のいずれかに記載の一般化階層木の生成装置。
【請求項5】
選択部が複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択ステップと、
第1生成部が前記第2の属性が特定の値域である前記データセットのレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となるように、当該区分けした各値域を示す最下位の階層のノードを生成する第1生成ステップと、
第2生成部が前記最下位の階層から上位へ向かって順に、生成済みの下位階層の複数のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成ステップと、を含むコンピュータによる一般化階層木の生成方法。
【請求項6】
請求項1から請求項4のいずれかに記載の一般化階層木の生成装置としてコンピュータを機能させるための一般化階層木の生成プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データセットの匿名化手法における一般化階層木の生成装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、個人を識別され得る属性を含んだデータセットにおいて、プライバシ保護の観点から、属性値の一部を一般化し、データを組み合わせても個人が特定されないようにする匿名化手法が提案されている。
例えば、k匿名化と呼ばれる手法では、属性値を一般化するための一般化階層を構築する必要がある(例えば、非特許文献1〜3参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】原田邦彦,佐藤嘉則, “一般化階層木の自動生成と情報エントロピーによる歪度評価を伴うk−匿名化手法,” 研究報告コンピュータセキュリティ(CSEC), 2010−CSEC−50(47), 1−7, 2010−06−24
【非特許文献2】Iwuchukwu, T. and Naughton, J. F. (2007), “K−Anonymization as Spatial Indexing: Toward Scarable and Incremental Anonymization,” In Proceeding of the 33rd International Conference on Very Large Data Bases, VLDB, pages 746−757.
【非特許文献3】Byun, J. −W., Kamra, A., Bertino, E., and Li, N. (2007), “Efficient k−Anonymity Using Clustering Technique,” In Proc. of the International Conference on Database Systems for Advanced Applications, pages 188−200.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、既存の手法により構築された一般化階層を用いた匿名化では、データが必要以上に一般化され情報量の損失が大きくなる場合があった。
【0005】
本発明は、情報量の損失を低減できる一般化階層木の生成装置、方法及びプログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る一般化階層木の生成装置は、複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択部と、前記第2の属性が特定の値域であるレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となる最下位の階層のノードを生成する第1生成部と、下位階層のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成部と、を備える。
【0007】
前記第2生成部は、未選択の属性を選択し、当該選択した属性が特定の値域であるレコードのうち、前記第1の属性の値を区分けした前記下位階層のノードの数よりも少ない各値域内に含まれるレコード数が略均等となる前記上位階層のノードを生成し、前記生成装置は、前記下位階層のノード及び前記上位階層のノードにおける前記第1の属性の値域の包含関係に基づいて、前記上位階層のノードの数を調整する調整部を備えてもよい。
【0008】
前記調整部は、包含関係にある前記下位階層のノード及び前記上位階層のノードの合計数が閾値を超える場合、当該包含関係にあるノードの全値域を2つに分割して調整後のノードとし、前記合計数が前記閾値以下の場合、当該包含関係にあるノードの全値域を1つの調整後のノードとしてもよい。
【0009】
前記生成装置は、各階層のノードの値域に対して、選択した属性の特定の値域を、一般化の条件として出力する出力部を備えてもよい。
【0010】
本発明に係る一般化階層木の生成方法は、複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択ステップと、前記第2の属性が特定の値域であるレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となる最下位の階層のノードを生成する第1生成ステップと、下位階層のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成ステップと、をコンピュータが実行する。
【0011】
本発明に係る一般化階層木の生成プログラムは、複数の属性からなるデータセットに含まれる第1の属性に対して、最も相関の大きい第2の属性を選択する選択ステップと、前記第2の属性が特定の値域であるレコードのうち、前記第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となる最下位の階層のノードを生成する第1生成ステップと、下位階層のノードを統合し、当該下位階層のノードの数よりも少ない上位階層のノードを生成する第2生成ステップと、をコンピュータに実行させる。
【発明の効果】
【0012】
本発明によれば、データセットの匿名化手法における情報量の損失が低減される。
【図面の簡単な説明】
【0013】
図1】実施形態に係る生成装置の機能構成を示すブロック図である。
図2】実施形態に係る相関及び属性値の分布を表現する方法の一例を示す図である。
図3】実施形態に係る上位階層の調整方法を例示する図である。
図4】実施形態に係る一般化階層木の生成方法を示すフローチャートである。
【発明を実施するための形態】
【0014】
以下、本発明の実施形態の一例について説明する。
本実施形態に係る生成装置1は、複数の属性からなるデータセットにおいて、個人を識別可能な属性の組み合わせ(準識別子)に対して、属性値を一般化することにより匿名化する場合に、一般化レベル毎の属性値を定義した一般化階層木を生成する。
【0015】
生成装置1は、制御部(例えば、CPU)及び記憶部(例えば、HDD)を備えたサーバ装置又はPCなどの情報処理装置(コンピュータ)であり、記憶部に記憶されたソフトウェア(生成プログラム)を制御部が読み込み、実行することにより、本実施形態に係る各種機能を実現する。
【0016】
図1は、本実施形態に係る生成装置1の機能構成を示すブロック図である。
生成装置1は、選択部11と、第1生成部12と、第2生成部13と、調整部14と、出力部15とを備える。
【0017】
選択部11は、入力として、評価の対象となるデータセットD、データセットDに含まれる準識別子ATTR、及び一般化階層木を生成する対象である属性attr∈ATTRが与えられる。
選択部11は、与えられた第1の属性に対して、最も相関の大きい第2の属性attrを選択する。
【0018】
具体的には、選択部11は、データセットDにおける全てのレコードrの属性attrの属性値r[attr]と、∀attr∈ATTR\{attr}の属性値r[attr]との相関を求め、相関が最大の属性を選択する。
属性間の相関は、レコードの散布図を生成して相関係数から、あるいは、統計情報に基づく関連性の高低から求められる。例えば、属性値r[attr]の値又は値域毎のレコードについての、属性attrの属性値r[attr]の平均値又は中央値が最も離れる属性が選択されてよい。
【0019】
第1生成部12は、第2の属性が特定の値域(単一の値又は値の範囲)であるレコードのうち、第1の属性の値を区分けした各値域内に含まれるレコード数が所定の範囲となるように、最下位の階層のノードを生成する。具体的には、詰め込み問題におけるアルゴリズムが用いられ、この結果、一般化階層木における最下位の各ノードには、ある一定数以上のレコードが含まれる。
なお、本処理における各種のパラメータは、適宜ユーザからの入力を受け付けることとしてよい。
【0020】
ここで、選択部11及び第1生成部12によるノードの生成手法では、ユーザからの入力に基づいて第2の属性を選択、及び一般化階層木の最下位ノードを生成するためのインタフェースを提供してもよい。
例えば、生成装置1は、相関及び属性値の分布を視覚的に表現する出力を行い、ユーザから選択入力又はパラメータ入力などを受け付ける。
【0021】
図2は、本実施形態に係る相関及び属性値の分布を表現する方法の一例を示す図である。
この例では、着目する属性attrとしての身長を一方の軸、相関を調べる属性attrとしての性別を他方の軸としてヒートマップを作成し表示されている。
これにより、attr(性別)の属性値毎のattr(身長)の分布に重なりが少なく、中央値又は平均値が乖離していること、すなわち相関が大きいことを、ユーザは視覚的に判断でき、さらに属性値の分布と境界線とを視認しつつ、ノードの境界の調整を適切に行うことができる。
【0022】
第2生成部13は、下位階層のノードを統合し、この下位階層のノードの数よりも少ない上位階層のノードを生成する。
例えば、第2生成部13は、下位階層のノード2つを上位階層のノード1つに統合するなどの規則に従って、一般化階層木を構成してもよいが、本実施形態では、一例として以下の手順を採用する。
【0023】
第2生成部13は、未選択の属性を順に選択し、選択した属性が特定の値域(単一の値又は値の範囲)であるレコードのうち、第1の属性の値を区分けした各値域内に含まれるレコード数が略均等となるようにノードを生成し、調整部14により上位階層のノードとして調整する。
ここで、第2生成部13により生成されるノードの数は、生成済みの下位階層のノードの数よりも少ない。
【0024】
調整部14は、生成済みの下位階層のノード及び第2生成部13により生成されたノードにおける第1の属性の値域の包含関係に基づいて、上位階層のノードの数を調整する。
例えば、調整部14は、包含関係にある下位階層のノード及び上位階層のノードの合計数が閾値(例えば、4個)を超える場合、この包含関係にあるノードの全値域を2つに分割して調整後の上位階層のノードとする。一方、合計数が閾値以下の場合、包含関係にあるノードの全値域を1つの調整後のノードとする。
なお、本処理における各種のパラメータは、適宜ユーザからの入力を受け付けることとしてよい。
【0025】
図3は、本実施形態に係る第2生成部13及び調整部14による上位階層の調整方法を例示する図である。
この調整方法では、第1の属性(attr)と他の属性(attr∈ATTR\{attr,attr})を元に、上位階層のノードを調整する。
【0026】
例えばattr:身長、attr:性別、attr:既往歴とし、第1生成部12により、「attr(性別)=男性」の場合に「−162(cm)」,「163−164」,「165−166」,「167」,「168」,…,「175」,「176−178」,「179−」というノードの区分け(A)ができている。
また、第2生成部13により、attr及びattrから、「attr(既往歴)=有」の場合に「−157」,「158−162」,「163−165」,「166−170」,「171−174」,「175−」というノードの区分け(B)ができている。
【0027】
ここで、(A)の区分けと(B)の区分けとで範囲の重複が合計5区分以上ある場合は、区分を2つに分割し(X)、5区分未満の場合は区分を大きい方の1つにまとめ(Y)、この結果、上位階層のノードの区分け(C)が生成される。
これにより、例えば、「attr(性別)=男性」かつ「attr(既往歴)=有」のレコードの属性値r[attr]=172は、「171−172」に一般化される。
【0028】
出力部15は、全ての属性を順に選択し、調整を行った後の一般化階層木を出力する。
このとき、各階層のノードの値域(一般化した属性値)に対して、選択した属性の特定の値域を、一般化の条件として合わせて出力する。
例えば、「attr(性別)=男性」かつ「attr(既往歴)=有」のレコードの属性値r[attr]=172は、「171−172」に一般化するという情報が階層木に基づく一般化の条件として出力される。
【0029】
図4は、本実施形態に係る生成装置1による一般化階層木の生成方法を示すフローチャートである。
【0030】
ステップS1において、選択部11は、一般化階層木を生成する対象である属性attrと、他の属性それぞれとの相関を算出する。
ステップS2において、選択部11は、ステップS1で算出された相関が最大の属性attrを選択する。
【0031】
ステップS3において、第1生成部12は、属性attrの値域(例えば、性別の男性又は女性)毎に、一般化階層木の最下層のノードを生成する。
【0032】
ステップS4において、第2生成部13は、属性attr,attr以外の属性attrを選択する。
ステップS5において、第2生成部13は、属性attrの値域(例えば、既往歴の有無)毎に、一般化階層木における生成済みのノードの上位階層のノードを生成する。
【0033】
ステップS6において、調整部14は、生成済みのノードと、ステップS5で生成されたノードとの階層間における包含関係に基づいて、上位階層のノードの数及び値域を調整する。
【0034】
ステップS7において、第2生成部13は、ステップS4で全ての属性を選択したか否かを判定する。この判定がYESの場合、処理はステップS8に移り、判定がNOの場合、処理はステップS4に戻る。
【0035】
ステップS8において、出力部15は、属性attrの一般化階層木、及びこの階層木を用いる際の一般化条件を出力する。
【0036】
本実施形態によれば、生成装置1は、最も相関の大きい属性を選択することで、最下位の階層のノード数を最大にできるので、データセットの匿名化手法における一般化に伴う情報量の損失が低減される。
【0037】
また、生成装置1は、一般化階層木の上位階層を生成する過程において、各属性の値に応じたノードの区分けを行った後、生成済みのノードとの包含関係に基づいてノード数を調整する。したがって、生成装置1は、各属性との関連性に基づいて、適切に一般化階層木の上位階層を生成でき、匿名化手法における一般化レベルを上げた場合の情報量の損失を低減できる。
【0038】
さらに、生成装置1は、ノード数を調整する過程において、包含関係にあるノード数の合計を閾値と比較することにより、調整後のノード数を決定する。したがって、生成装置1は、一般化によってノード数が減少し過ぎることによる情報量の損失を抑制できる。
【0039】
また、生成装置1は、一般化階層木と共に、この階層木を用いる際の一般化条件を合わせて出力することにより、匿名化処理を効率化できる。
【0040】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、本実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、本実施形態に記載されたものに限定されるものではない。
【0041】
本実施形態の生成装置1が備える各機能部は、複数の情報処理装置(コンピュータ)に分散されてもよい。また、本実施形態の機能は、複数のサーバにより負荷分散させたクラウドシステムにより提供されてもよい。
【0042】
生成装置1による生成方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0043】
1 生成装置
11 選択部
12 第1生成部
13 第2生成部
14 調整部
15 出力部
図1
図2
図3
図4