IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ KDDI株式会社の特許一覧

特許7219726リスク評価装置、リスク評価方法及びリスク評価プログラム
<>
  • 特許-リスク評価装置、リスク評価方法及びリスク評価プログラム 図1
  • 特許-リスク評価装置、リスク評価方法及びリスク評価プログラム 図2
  • 特許-リスク評価装置、リスク評価方法及びリスク評価プログラム 図3
  • 特許-リスク評価装置、リスク評価方法及びリスク評価プログラム 図4
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-01-31
(45)【発行日】2023-02-08
(54)【発明の名称】リスク評価装置、リスク評価方法及びリスク評価プログラム
(51)【国際特許分類】
   G06F 21/62 20130101AFI20230201BHJP
   G06F 16/9032 20190101ALI20230201BHJP
【FI】
G06F21/62 354
G06F16/9032
【請求項の数】 8
(21)【出願番号】P 2020002099
(22)【出願日】2020-01-09
(65)【公開番号】P2021111085
(43)【公開日】2021-08-02
【審査請求日】2022-01-07
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成31年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、CREST、「ビッグデータ統合利活用促進のためのセキュリティ基盤技術の体系化」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【弁理士】
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【弁理士】
【氏名又は名称】林 一好
(72)【発明者】
【氏名】三本 知明
(72)【発明者】
【氏名】清本 晋作
【審査官】局 成矢
(56)【参考文献】
【文献】特開2017-156878(JP,A)
【文献】特開2013-084027(JP,A)
【文献】国際公開第2013/121739(WO,A1)
【文献】特開2013-041536(JP,A)
【文献】特開2019-211899(JP,A)
【文献】国際公開第2014/109277(WO,A1)
【文献】特開2014-013479(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
H04L 9/32
G06F 16/9032
(57)【特許請求の範囲】
【請求項1】
準識別子の属性値が匿名化されたデータセットのプライバシリスクを評価するリスク評価装置であって、
前記データセットの同一レコードから、前記準識別子のいずれか1つの属性値と当該準識別子以外の機微情報のいずれか1つの属性値との組み合わせを選択する選択部と、
前記選択部により選択された組み合わせで前記データセットを検索し、当該組み合わせが同一であるレコードの数が閾値未満の場合に、当該組み合わせを記録する第1検索部と、
前記第1検索部により記録された属性値の組み合わせをリスクとして出力する出力部と、を備えるリスク評価装置。
【請求項2】
前記データセットは、前記機微情報を用いた評価指標により匿名化されたものである請求項1に記載のリスク評価装置。
【請求項3】
前記選択部は、属性値の前記組み合わせを総当たりで選択する請求項1又は請求項2に記載のリスク評価装置。
【請求項4】
前記選択部は、前記データセットの各属性に予め付与された前記準識別子と前記機微情報とを区別するフラグによって、各フラグ値が付与された属性からそれぞれ属性値を選択する請求項3に記載のリスク評価装置。
【請求項5】
前記機微情報における外れ値を検索する第2検索部を備え、
前記出力部は、前記外れ値をリスクとして出力する請求項1から請求項4のいずれかに記載のリスク評価装置。
【請求項6】
前記リスクとして出力された前記機微情報における属性値を加工する加工部を備える請求項1から請求項5のいずれかに記載のリスク評価装置。
【請求項7】
準識別子の属性値が匿名化されたデータセットのプライバシリスクを評価するリスク評価方法であって、
前記データセットの同一レコードから、前記準識別子のいずれか1つの属性値と当該準識別子以外の機微情報のいずれか1つの属性値との組み合わせを選択する選択ステップと、
前記選択ステップにおいて選択された組み合わせで前記データセットを検索し、当該組み合わせが同一であるレコードの数が閾値未満の場合に、当該組み合わせを記録する第1検索ステップと、
前記第1検索ステップにおいて記録された属性値の組み合わせをリスクとして出力する出力ステップと、をコンピュータが実行するリスク評価方法。
【請求項8】
請求項1から請求項6のいずれかに記載のリスク評価装置としてコンピュータを機能させるためのリスク評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、匿名化されたデータセットのリスクを評価する装置、方法及びプログラムに関する。
【背景技術】
【0002】
従来、プライバシ保護の観点から、データセットを匿名化するための様々なアルゴリズムが提案されている。例えば、非特許文献1及び2では、対象のデータセットにおけるデータの分布に基づいて機械的に匿名化を行う手法が提案されている。
また、非特許文献1及び3では、匿名化の対象である準識別子だけでなく、機微情報に関してプライバシリスクを考慮するため、l-多様性の指標が紹介されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】V. Ciriani, S. De Capitani di Vimercati, S. Foresti, and P. Samarati, “k-Anonymous data mining: A survey,” Privacy-preserving data mining, pp. 105-136, 2008, Springer.
【文献】L. Sweeney, “Achieving k-anonymity privacy protection using generalization and suppression,” International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, 10, 05, pp. 571-588, 2002, World Scientific.
【文献】Charu C. Aggarwal, Philip S. Yu, “A general survey of privacy-preserving data mining models and algorithms,” Privacy-preserving data mining, pp. 11-52, 2008, Springer.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、従来のリスク評価手法は、準識別子の重複度(k-匿名性)又は機微情報のばらつき(l-多様性)等、特定の属性の分布に基づくものであった。このため、複数の属性を組み合わせた際の機微情報に対するプライバシリスクは、十分に考慮されていなかった。
【0005】
本発明は、匿名化されたデータセットのプライバシリスクを詳細に評価できるリスク評価装置、リスク評価方法及びリスク評価プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るリスク評価装置は、準識別子の属性値が匿名化されたデータセットのプライバシリスクを評価する装置であって、前記データセットから、前記準識別子のいずれかの属性値と当該準識別子以外の機微情報のいずれかの属性値との組み合わせが同一であるレコードの数が閾値未満のレコードを検索する第1検索部と、前記第1検索部により検索されたレコードにおける属性値の前記組み合わせをリスクとして出力する出力部と、を備える。
【0007】
前記データセットは、前記機微情報を用いた評価指標により匿名化されたものであってもよい。
【0008】
前記リスク評価装置は、属性値の前記組み合わせを総当たりで選択する選択部を備えてもよい。
【0009】
前記選択部は、前記データセットの各属性に予め付与された前記準識別子と前記機微情報とを区別するフラグによって、各フラグ値が付与された属性からそれぞれ属性値を選択してもよい。
【0010】
前記リスク評価装置は、前記機微情報における外れ値を検索する第2検索部を備え、前記出力部は、前記外れ値をリスクとして出力してもよい。
【0011】
前記リスク評価装置は、前記リスクとして出力された前記機微情報における属性値を加工する加工部を備えてもよい。
【0012】
本発明に係るリスク評価方法は、準識別子の属性値が匿名化されたデータセットのプライバシリスクを評価する方法であって、前記データセットから、前記準識別子のいずれかの属性値と当該準識別子以外の機微情報のいずれかの属性値との組み合わせが同一であるレコードの数が閾値未満のレコードを検索する第1検索ステップと、前記第1検索ステップにおいて検索されたレコードにおける属性値の前記組み合わせをリスクとして出力する出力ステップと、をコンピュータが実行する。
【0013】
本発明に係るリスク評価プログラムは、前記リスク評価装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0014】
本発明によれば、匿名化されたデータセットのプライバシリスクを詳細に評価できる。
【図面の簡単な説明】
【0015】
図1】実施形態におけるリスク評価装置の機能構成を示す図である。
図2】実施形態におけるデータセットの属性及びフラグを例示する図である。
図3】実施形態における匿名化されたデータセットを例示する図である。
図4】実施形態におけるリスク評価装置における処理を示すフローチャートである。
【発明を実施するための形態】
【0016】
以下、本発明の実施形態の一例について説明する。
図1は、本実施形態におけるリスク評価装置1の機能構成を示す図である。
リスク評価装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
【0017】
制御部10は、リスク評価装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
【0018】
記憶部20は、ハードウェア群をリスク評価装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(リスク評価プログラム)、評価対象のデータセット等を記憶する。
【0019】
制御部10は、選択部11と、第1検索部12と、第2検索部13と、出力部14と、加工部15とを備える。
制御部10は、これらの機能部により、匿名化されたデータセットのプライバシリスクを評価する。
【0020】
ここで、データセットは、複数の属性のうち、第三者が入手可能で組み合わせると個人を特定できる情報である準識別子の属性値を汎化することで、準識別子以外の第三者が容易に入手できない情報である機微情報が個人と紐付けられるプライバシリスクが低減される。
このような加工により匿名化されたデータセットは、実際に提供される前に、リスク評価が行われ、その結果に応じて、必要であれば再加工が行われる。
【0021】
図2は、本実施形態におけるデータセットの属性及びフラグを例示する図である。
この例では、対象のデータセットには、量的属性である年齢及び口座残高、質的属性である性別、コード型属性である郵便番号、複数のデータを含む集合型属性である病歴が含まれる。
また、各属性には、準識別子であることを示す評価対象フラグ(1)、又は機微情報であることを示す非評価対象フラグ(0)が付与されている。
【0022】
制御部10は、評価対象フラグ(1)が立っている準識別子の属性値、又は属性値を符号化した値を結合して文字列検索を行い、データセットのレコードをクラスタ化する。制御部10は、各クラスタのレコード数、すなわち重複数をカウントし、この最小値によりk-匿名性を評価できる。
また、制御部10は、各クラスタ内で、非評価対象である機微情報の重複数をカウントすることにより、l-多様性を評価できる。
【0023】
図3は、本実施形態における匿名化されたデータセットを例示する図である。
ここでは、図2の属性を含むデータセットのうち、評価対象フラグ(1)が立っている準識別子の属性値が汎化され匿名化されている。
【0024】
また、管理情報として、クラスタ番号、クラスタの大きさである重複数(1)、及びクラスタ内での機微情報の重複数(0)が設けられている。
例えば、クラスタ番号1は、文字列「20代|F|123-4567」により検索されたレコードであり、仮IDが001及び002のレコードが該当する。したがって、重複数(1)は2となり、それぞれ機微情報が異なるため、重複数(0)は1となる。
【0025】
選択部11は、データセットから、準識別子のいずれかの属性値と、機微情報のいずれかの属性値との組み合わせを総当たりで順に選択する。
このとき、選択部11は、データセットの各属性に予め付与された準識別子と機微情報とを区別するフラグによって、各フラグ値(評価対象フラグ、又は非評価対象フラグ)が付与された属性からそれぞれ属性値を選択する。
【0026】
第1検索部12は、データセットから、選択部11により選択された属性値の組み合わせが同一であるレコードの数(重複数)が閾値未満となっているレコードを検索する。
例えば、図3のデータセットにおいて、年齢「20代」及び病歴「ガン」の組み合わせが希少である場合、攻撃者に大きな情報を与えることになるため、このレコード(仮ID=002)の該当の属性について、プライバシリスクが高いと判断される。
【0027】
第2検索部13は、非評価対象フラグ(0)が立っている機微情報における外れ値を検索する。
例えば、図3のデータセットにおいて、機微情報の属性値のみで検索した結果、口座残高「1億円」が外れ値として存在している。他人がいくら所有しているかは通常は知り得ない情報であるが、数少ない大金持ちであることは予想が付くことから、機微情報であっても公開することには大きなリスクがある。
【0028】
出力部14は、第1検索部により検索されたレコードにおける属性値の組み合わせと、第2検索部により検索された外れ値とを、リスクとして出力する。
【0029】
加工部15は、リスクとして出力された機微情報における属性値を加工する。
例えば、機微情報における該当の属性値を削除、又はトップ・ボトムコーディング等によって汎化するといった加工が自動で施されてよい。
なお、加工部15により自動で属性値の加工が施された場合、この結果についても、出力部14により出力される。また、加工後のデータセットに対して、選択部11、第1検索部12及び第2検索部13により再評価が行われてもよい。
【0030】
図4は、本実施形態におけるリスク評価装置1における処理を示すフローチャートである。
なお、対象とするデータセットは、評価対象フラグ及び非評価対象フラグにより属性が準識別子及び機微情報に区別され、準識別子を用いて匿名化処理がされたものとする。準識別子を用いた匿名化は、例えば、k-匿名性等を評価指標とした匿名化である。
また、対象とするデータセットは、非評価対象フラグにより区別される機微情報を用いた評価指標により匿名化処理がされてもよい。機微情報を用いた匿名化処理は、例えば、l-多様性等を評価指標とした匿名化である。
【0031】
ステップS1において、選択部11は、評価対象フラグにより示される準識別子から属性値を1つ、非評価対象フラグにより示される同一レコードの機微情報から属性値を1つ選択する。
【0032】
ステップS2において、第1検索部12は、ステップS1で選択された属性値の組み合わせでデータセットを検索し、属性値の組み合わせが同一のレコード数をカウントする。
【0033】
ステップS3において、第1検索部12は、レコード数が閾値未満か否かを判定する。この判定がYESの場合、処理はステップS4に移り、判定がNOの場合、処理はステップS5に移る。
【0034】
ステップS4において、第1検索部12は、レコード数が閾値未満である属性値の組み合わせを希少な情報として記録する。
【0035】
ステップS5において、選択部11は、対象のデータセットに含まれる全ての組み合わせを選択したか否かを判定する。この判定がYESの場合、処理はステップS6に移り、判定がNOの場合、処理はステップS1に移る。
【0036】
ステップS6において、第2検索部13は、非評価対象フラグにより示される機微情報から、属性を順に選択する。
【0037】
ステップS7において、第2検索部13は、選択された属性における値の分布に基づいて、所定の基準を超える外れ値を検索し、希少な情報として記録する。
【0038】
ステップS8において、第2検索部13は、機微情報の全ての属性を選択したか否かを判定する。この判定がYESの場合、処理はステップS9に移り、判定がNOの場合、処理はステップS6に移る。
【0039】
ステップS9において、出力部14は、ステップS4及びステップS7において記録された情報を、所定の基準を超えるプライバシリスクとして出力する。
さらに、出力部14は、基準を超えるプライバシリスクがある場合に、対象とするデータセットに施した匿名化よりも更に高い匿名化を施す処理をユーザに促す通知を行ってもよい。更に高い匿名化処理とは、例えば、準識別子に対してはk-匿名性のk値が高くなる処理であり、機微情報に対してはl-多様性のl値が高くなる処理であるが、高い匿名性が得られる処理であれば、これに限らない。また、このような匿名化処理は、予め設定されたk値及びl値等のパラメータを用いて自動で実行されてもよい。
【0040】
本実施形態によれば、リスク評価装置1は、データセットから、準識別子のいずれかの属性値と機微情報のいずれかの属性値との組み合わせが同一であるレコードの数が閾値未満のレコードを検索し、プライバシリスクとして出力する。
したがって、リスク評価装置1は、k-匿名性のような準識別子を対象とした評価、又はl-多様性のように機微情報のみを対象とした評価だけでなく、準識別子と機微情報とを組み合わせた場合にプライバシリスクがある属性値を検出できる。これにより、リスク評価装置1は、匿名化されたデータセットのプライバシリスクを詳細に評価できる。
【0041】
リスク評価装置1は、属性値の組み合わせを総当たりで選択するので、データセットに含まれている、プライバシリスクのある属性値の組み合わせを適切に検出できる。
【0042】
リスク評価装置1は、データセットの各属性に予め付与されたフラグによって準識別子と機微情報とを区別するので、準識別子による評価、機微情報による評価、及び準識別子と機微情報との組み合わせによる評価を、容易に自動化できる。さらに、属性が変更されたデータセットに対しても、リスク評価装置1は、フラグにより準識別子と機微情報とを区別できるため、アルゴリズムの変更が不要となり、効率的にプライバシリスクを評価できる。
【0043】
また、リスク評価装置1は、機微情報における外れ値を検索し、プライバシリスクとして出力する。
したがって、リスク評価装置1は、機微情報の属性値自体のプライバシリスクを検出でき、より詳細にデータセットを評価できる。
【0044】
さらに、リスク評価装置1は、プライバシリスクとして検出された属性値を自動的に加工することにより、プライバシリスクを解消でき、利便性が向上する。
【0045】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0046】
リスク評価装置1によるリスク評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0047】
1 リスク評価装置
10 制御部
11 選択部
12 第1検索部
13 第2検索部
14 出力部
15 加工部
20 記憶部
図1
図2
図3
図4