特許第6883508号(P6883508)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許6883508匿名化装置、匿名化方法及び匿名化プログラム
<>
  • 特許6883508-匿名化装置、匿名化方法及び匿名化プログラム 図000002
  • 特許6883508-匿名化装置、匿名化方法及び匿名化プログラム 図000003
  • 特許6883508-匿名化装置、匿名化方法及び匿名化プログラム 図000004
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6883508
(24)【登録日】2021年5月12日
(45)【発行日】2021年6月9日
(54)【発明の名称】匿名化装置、匿名化方法及び匿名化プログラム
(51)【国際特許分類】
   G06F 16/20 20190101AFI20210531BHJP
   G06F 21/62 20130101ALI20210531BHJP
【FI】
   G06F16/20
   G06F21/62 354
【請求項の数】5
【全頁数】9
(21)【出願番号】特願2017-232732(P2017-232732)
(22)【出願日】2017年12月4日
(65)【公開番号】特開2019-101808(P2019-101808A)
(43)【公開日】2019年6月24日
【審査請求日】2019年12月9日
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成29年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、CREST、「ビッグデータ統合利活用促進のためのセキュリティ基盤技術の体系化」委託研究、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】三本 知明
(72)【発明者】
【氏名】清本 晋作
【審査官】 鹿野 博嗣
(56)【参考文献】
【文献】 特開2015−046030(JP,A)
【文献】 特開2017−174458(JP,A)
【文献】 特開2017−010521(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/20
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
複数のレコードからなるデータセットに含まれる属性それぞれに対して、一般化した上位ノードを有する一般化階層木の入力を受け付ける階層木入力部と、
前記データセットの利用方法に応じた匿名化ルールの入力を受け付ける匿名化ルール入力部と、
個人が識別されるリスクに基づく出力可能なレコードの条件を定めた出力ルールの入力を受け付ける出力ルール入力部と、
前記匿名化ルールに基づいて前記データセットの全体を匿名化する匿名化処理部と、
前記匿名化処理部により匿名化されたデータセットから、前記出力ルールに合致したレコードのみを出力する匿名化データ出力部と、
前記出力ルールに合致しなかったレコードを、前記匿名化されたデータセットと紐付けて匿名化前の状態で記憶する記憶部と、を備える匿名化装置。
【請求項2】
前記出力ルールは、前記レコード毎に独立して定められる請求項1に記載の匿名化装置。
【請求項3】
前記出力ルールは、前記データセットの提供先に応じて定められる請求項1又は請求項2に記載の匿名化装置。
【請求項4】
複数のレコードからなるデータセットに含まれる属性それぞれに対して、一般化した上位ノードを有する一般化階層木の入力を受け付ける階層木入力ステップと、
前記データセットの利用方法に応じた匿名化ルールの入力を受け付ける匿名化ルール入力ステップと、
個人が識別されるリスクに基づく出力可能なレコードの条件を定めた出力ルールの入力を受け付ける出力ルール入力ステップと、
前記匿名化ルールに基づいて前記データセットの全体を匿名化する匿名化処理ステップと、
前記匿名化処理ステップにおいて匿名化されたデータセットから、前記出力ルールに合致したレコードのみを出力する出力ステップと、
前記出力ルールに合致しなかったレコードを、前記匿名化されたデータセットと紐付けて匿名化前の状態で記憶する記憶ステップと、をコンピュータが実行する匿名化方法。
【請求項5】
複数のレコードからなるデータセットに含まれる属性それぞれに対して、一般化した上位ノードを有する一般化階層木の入力を受け付ける階層木入力ステップと、
前記データセットの利用方法に応じた匿名化ルールの入力を受け付ける匿名化ルール入力ステップと、
個人が識別されるリスクに基づく出力可能なレコードの条件を定めた出力ルールの入力を受け付ける出力ルール入力ステップと、
前記匿名化ルールに基づいて前記データセットの全体を匿名化する匿名化処理ステップと、
前記匿名化処理ステップにおいて匿名化されたデータセットから、前記出力ルールに合致したレコードのみを出力する匿名化データ出力ステップと、
前記出力ルールに合致しなかったレコードを、前記匿名化されたデータセットと紐付けて匿名化前の状態で記憶する記憶ステップと、をコンピュータに実行させるための匿名化プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、データセットを匿名化するための装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、例えば、ユーザ属性と共に移動履歴又は購買履歴等の個人情報を含むデータセットを解析し、広告配信等に利用する際には、レコードから個人が識別され個人情報が漏洩するリスクを回避する必要があった。このため、個人情報を含むデータセットは、匿名化の処理をした後に提供される。
データセットを自動で匿名化する際には、距離の近いレコードを丸めてクラスタ化する、あるいは、各属性に木構造を持たせ、汎化を繰り返すことでk−匿名化する手法が用いられている(例えば、非特許文献1及び2参照)。
【先行技術文献】
【非特許文献】
【0003】
【非特許文献1】Ji−Won Byun , Ashish Kamra , Elisa Bertino , Ninghui Li, Efficient k−anonymization using clustering techniques, Proceedings of the 12th international conference on Database systems for advanced applications, April 09−12, 2007, Bangkok, Thailand
【非特許文献2】Kristen LeFevre , David J. DeWitt , Raghu Ramakrishnan, Incognito: efficient full−domain K−anonymity, Proceedings of the 2005 ACM SIGMOD international conference on Management of data, June 14−16, 2005, Baltimore, Maryland
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、自動で距離の近いレコードを丸める方式では、データの持つ意味を考慮することなく、単純なレコード間の距離によってクラスタ化されるため、例えば年齢「17−21」というように、利用者にとって有用性の低い汎化が行われていた。
また、木構造に基づく場合であっても、目的はk−匿名化を実施することであり、属性の数が増えると、ほとんどの属性に対して大幅な汎化が行われ、結果として利用価値の低いデータセットとなることが多かった。
【0005】
本発明は、有用性を残し、かつ、安全なレコードのみを出力できる匿名化装置、匿名化方法及び匿名化プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係る匿名化装置は、複数のレコードからなるデータセットに含まれる属性それぞれに対して、一般化した上位ノードを有する一般化階層木の入力を受け付ける階層木入力部と、前記データセットの利用方法に応じた匿名化ルールの入力を受け付ける匿名化ルール入力部と、個人が識別されるリスクに基づく出力可能なレコードの条件を定めた出力ルールの入力を受け付ける出力ルール入力部と、前記匿名化ルールに基づいて前記データセットの全体を匿名化する匿名化処理部と、前記匿名化処理部により匿名化されたデータセットから、前記出力ルールに合致したレコードのみを出力する匿名化データ出力部と、を備える。
【0007】
前記出力ルールは、前記レコード毎に独立して定められてもよい。
【0008】
前記出力ルールは、前記データセットの提供先に応じて定められてもよい。
【0009】
本発明に係る匿名化方法は、複数のレコードからなるデータセットに含まれる属性それぞれに対して、一般化した上位ノードを有する一般化階層木の入力を受け付ける階層木入力ステップと、前記データセットの利用方法に応じた匿名化ルールの入力を受け付ける匿名化ルール入力ステップと、個人が識別されるリスクに基づく出力可能なレコードの条件を定めた出力ルールの入力を受け付ける出力ルール入力ステップと、前記匿名化ルールに基づいて前記データセットの全体を匿名化する匿名化処理ステップと、前記匿名化処理ステップにおいて匿名化されたデータセットから、前記出力ルールに合致したレコードのみを出力する匿名化データ出力ステップと、をコンピュータが実行する。
【0010】
本発明に係る匿名化プログラムは、複数のレコードからなるデータセットに含まれる属性それぞれに対して、一般化した上位ノードを有する一般化階層木の入力を受け付ける階層木入力ステップと、前記データセットの利用方法に応じた匿名化ルールの入力を受け付ける匿名化ルール入力ステップと、個人が識別されるリスクに基づく出力可能なレコードの条件を定めた出力ルールの入力を受け付ける出力ルール入力ステップと、前記匿名化ルールに基づいて前記データセットの全体を匿名化する匿名化処理ステップと、前記匿名化処理ステップにおいて匿名化されたデータセットから、前記出力ルールに合致したレコードのみを出力する匿名化データ出力ステップと、をコンピュータに実行させるためのものである。
【発明の効果】
【0011】
本発明によれば、データセットを匿名化する際に、有用性を残し、かつ、安全なレコードのみを出力できる。
【図面の簡単な説明】
【0012】
図1】第1実施形態に係る匿名化装置の機能構成を示す図である。
図2】第1実施形態に係る匿名化装置の入出力情報を示す図である。
図3】第2実施形態に係る匿名化装置の入出力情報を示す図である。
【発明を実施するための形態】
【0013】
以下、本発明の第1実施形態について説明する。
図1は、本実施形態に係る匿名化装置1の機能構成を示す図である。
匿名化装置1は、サーバ装置又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10、記憶部20、及び各種の入出力デバイスを備える。
【0014】
制御部10は、匿名化装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における機能を実現している。制御部10は、CPUであってよい。
【0015】
記憶部20は、ハードウェア群を匿名化装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の機能を制御部10に実行させるための匿名化プログラムの他、処理対象のデータセット及び各種のファイル群等を記憶する。
【0016】
また、制御部10は、データセット入力部11と、階層木入力部12と、匿名化ルール入力部13と、出力ルール入力部14と、設定情報入力部15と、匿名化処理部16と、匿名化データ出力部17とを備える。
【0017】
データセット入力部11は、複数のレコードからなる同一の属性を持つデータセットの入力をバッチ処理等により定期的に受け付ける。例えば、1日1回、1日分のデータセットが取り込まれ、匿名化処理部16に提供される。
【0018】
匿名化の対象となるデータセットの各レコードは、複数の属性からなる。各属性のデータの種類は、質的データ、量的データ、コード型データ等を含む。
質的データは、例えば、「東京」、「京都」といった住所が該当する。
量的データは、例えば、「1.5」、「30」といった数値データが該当する。
コード型データは、例えば、郵便番号のように、各桁に意味を持つデータが該当する。
【0019】
階層木入力部12は、データセットに含まれる属性それぞれに対して、一般化した上位ノードを有する一般化階層木の入力を受け付ける。
一般化階層木では、例えば、質的データである「東京」又は「京都」といったノードの上位階層に、それぞれ「関東」又は「関西」といったノードが設けられる。また、量的データである「13」、「14」、「15」といったノードの上位階層には、「13−15」又は「未成年」といったノードが設けられる。また、コード型データである「123−4567」といったノードの上位階層には、「123−45**」といった一部の桁を省略したノードが設けられる。
【0020】
匿名化ルール入力部13は、データセットの利用方法に応じた匿名化ルールのファイル入力を受け付ける。
匿名化ルールでは、例えば、属性xを木の高さhまで汎化する、属性yの一部又は全部を削除する、同一レコード数がn以上のレコードに対して、属性zを木の高さhまで汎化する等、汎化ルール、又は条件付きの汎化ルールが定義される。条件は複数設けられてもよく、例えばand又はorを用いて定義される。
なお、匿名化ルールは、一般化階層木に基づく汎化に限らず、例えば、サンプリング、スワッピング、ノイズ付与等の匿名化の手法が用いられてもよい。
【0021】
出力ルール入力部14は、データセットのレコードの情報から個人が識別されるリスクを所定未満に抑えるために、出力可能なレコードの条件を定めた出力ルールのファイル入力を受け付ける。
出力ルールは、例えば、重複するレコード数k、又は個人識別確率p等の閾値で表現されてよい。
また、出力ルールは、レコード毎に独立して定められてもよい。さらに、出力ルールは、データセットの提供先に応じて定められてもよい。例えば、あるレコードは、企業規模がxx以上の企業に対しては同一レコード数k≧2、yy以下の企業に対してはk>10であれば開示してよい等、条件付きの閾値が出力ルールとして定められてもよい。
【0022】
設定情報入力部15は、匿名化後のデータセット、ログファイル等の各種出力情報の保存先を指定したファイルの入力を受け付ける。
【0023】
匿名化処理部16は、匿名化ルールに基づいてデータセットの全体を匿名化する。
これにより得られたデータセットは、データの利用目的に合わせたレベルまで匿名化されている。
【0024】
匿名化データ出力部17は、匿名化処理部16により匿名化されたデータセットから、出力ルールに合致したレコードのみを出力する。
なお、出力ルールに合致しなかったレコードについて、匿名化データ出力部17は、データセットから削除、マスク処理、出力ルールに合致するまで汎化を繰り返す等の加工を適宜実行する。
これにより、安全性が担保された匿名化データセットが出力される。
【0025】
また、匿名化データ出力部17は、匿名化データセットと共に、各種のログファイル及びレポートを出力し、記憶部20に格納する。
【0026】
図2は、本実施形態に係る匿名化装置1の入出力情報を示す図である。
匿名化装置1は、前述のように、匿名化の対象とするデータセットの他、一般化階層木、匿名化ルールファイル、出力ルールファイル、その他の設定ファイルを入力として受け付ける。
そして、匿名化装置1は、匿名化データセットを出力した際に、匿名化ログファイル、エラーログファイル、及び匿名化レポートを出力する。
【0027】
匿名化ログファイルには、出力ルールに合致しなかったレコードを、匿名化データセットと紐付けるためのIDと、このレコードが匿名化される前の元の属性情報が記録される。
エラーログファイルには、匿名化の処理が正常に終了しなかった場合のエラーメッセージが記録される。
匿名化レポートには、安全管理措置のため、匿名化ルールに基づきどのような匿名化を実施し、出力ルールに基づきどの程度のリスクが残っているかが記述される。
【0028】
本実施形態によれば、匿名化装置1は、利用目的に合わせた匿名化ルールに基づいて汎化等の匿名化処理を行った後、個人が識別されるリスクを所定未満にするための出力ルールに合致した匿名化レコードのみを出力する。
従来の匿名化の手法では、出力条件に合致するようにデータセットの全体を加工するので、外れ値を他のレコードと合わせて大幅に汎化してしまい、有用性が低下していた。本実施形態の匿名化装置1は、ユースケースに応じて異なる残したい情報を匿名化ルールで明確化した上で、匿名化の後に出力ルールに合致する安全なレコードのみを出力することにより、安全性が所定未満の外れ値を除外して高い有用性を維持できる。
この結果、匿名化装置1は、従来の自動匿名化の手法とは異なり、ある一定の加工のルールと安全性の担保が可能であるため、匿名化データの利用者にとって有用なデータセットを生成できる。
【0029】
さらに、匿名化装置1は、出力ルールをデータセットのレコード毎に独立して定めることにより、各レコードの安全性をより適切に定義できる。
また、匿名化装置1は、出力ルールをデータセットの提供先に応じて定めることにより、利用目的に合わせた適切なデータセットを出力できる。
【0030】
[第2実施形態]
以下、本発明の第2実施形態について説明する。
なお、第1実施形態と同様の構成については、同一の符号を付し、説明を省略又は簡略化する。
【0031】
データセットを自動で匿名化する際、他の類似したレコードが存在せず外れ値となるようなレコードは、大幅な汎化、又はレコードの全部若しくは一部の削除等の処理により、情報量が大きく削減されていた。また、第1実施形態においても、出力ルールに基づく安全性を満たすために、一部のレコードの削除又は大幅な汎化が行われると、有用性の低下が考えられる。
しかしながら、定期的にデータセットが入力される場合、時間経過に伴って、外れ値に類似したレコードの増加が期待できるため、汎化の度合いを抑えられる可能性がある。
そこで、本実施形態では、匿名化装置1は、出力ルールに合致しなかったレコードを、後に入力されたデータセットと統合して処理することで、有用性を維持する。
【0032】
本実施形態では、匿名化処理部16及び匿名化データ出力部17の機能が第1実施形態とは異なる。
匿名化データ出力部17は、出力ルールに合致せず出力対象としなかった退避レコードを、匿名化前の元の状態で、過剰匿名化対象データセットとして、記憶部20(退避レコード記憶部)に記憶する。
匿名化処理部16は、記憶部20に記憶されている過剰匿名化対象データセットを、データセット入力部11により次回以降に受け付けたデータセットに追加した後に匿名化する。
【0033】
なお、匿名化ルールとしてサンプリングを採用した場合、出力ルールに関わらず出力対象とならないレコードが発生するが、これらのレコードは、過剰匿名化対象データセットに含めなくてよい。
【0034】
ここで、匿名化データ出力部17は、退避レコードに日時情報の属性が含まれる場合、この日時情報を削除した上で、過剰匿名化対象データセットとする。日時情報は、次回(例えば、翌日)以降に入力されるデータセットのレコードと同一値にならない。したがって、この日時情報が匿名化のための加工対象である場合、匿名化データ出力部17は、退避レコードから日時情報を削除することにより、次回以降の匿名化処理においても外れ値となり続けることを抑制できる。
なお、匿名化処理部16は、匿名化処理の際に、過剰匿名化対象データセットのうち所定期間の経過したレコードを削除してもよい。
【0035】
図3は、本実施形態に係る匿名化装置1の入出力情報を示す図である。
第2実施形態において、匿名化装置1は、第1実施形態における出力データに加えて、過剰匿名化対象データセットを出力すると、記憶部20の退避用データベース(DB)に格納する。このとき、退避用DBに格納されるデータセットからは、日時情報が削除される。
そして、匿名化装置1は、次回の匿名化処理の際に、退避用DBに格納されているデータセットを匿名化対象データセットに加えて匿名化を行う。
【0036】
本実施形態によれば、匿名化装置1は、出力ルールに合致しなかった退避レコードを、匿名化前の状態で退避用DBに格納し、次回以降に入力されるデータセットに加えることで匿名化処理に再利用する。
したがって、匿名化装置1は、同じ属性を持つデータセットに対して繰り返し匿名化処理を行う場合、リスクの高いレコードを一時退避して後から匿名化処理を行うことで、今回は外れ値であっても次回以降に出力対象となる可能性を高め、有用性を向上できる。
【0037】
さらに、匿名化装置1は、レコードに日時情報の属性が含まれる場合、退避用DBには、この日時情報を削除して格納するので、次回(例えば、翌日)のデータセットの中で外れ値となる事態を回避し、出力対象となる可能性を高められる。
また、匿名化装置1は、退避用DBから、所定期間の経過したレコードを削除することにより、処理対象として統合することが適当でないレコードを除外でき、出力データの有用性を高められる。
【0038】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0039】
匿名化装置1による匿名化方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD−ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0040】
1 匿名化装置
10 制御部
11 データセット入力部
12 階層木入力部
13 匿名化ルール入力部
14 出力ルール入力部
15 設定情報入力部
16 匿名化処理部
17 匿名化データ出力部
20 記憶部
図1
図2
図3