(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-06-27
(45)【発行日】2022-07-05
(54)【発明の名称】リスク評価装置、リスク評価方法及びリスク評価プログラム
(51)【国際特許分類】
G06F 21/62 20130101AFI20220628BHJP
【FI】
G06F21/62 354
(21)【出願番号】P 2019178329
(22)【出願日】2019-09-30
【審査請求日】2021-07-20
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成31年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、CREST、「ビッグデータ統合利活用促進のためのセキュリティ基盤技術の体系化」委託研究、産業技術力強化法第17条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(72)【発明者】
【氏名】三本 知明
(72)【発明者】
【氏名】清本 晋作
【審査官】吉田 歩
(56)【参考文献】
【文献】特開2008-243205(JP,A)
【文献】特開2011-095905(JP,A)
【文献】三本 知明,ドキュメントにおけるプライバシとリスク評価ツールの試作,電子情報通信学会技術研究報告 Vol.119 No.144,日本,2019年07月16日,113~118
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
文書データに含まれる単語それぞれの情報量を算出する情報量算出部と、
前記情報量の
上位から所定数の単語のうち、
複数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索部と、
前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備えるリスク評価装置。
【請求項2】
前記検索部は、指定された最大数までの単語の組み合わせによりWeb検索を行う請求項1に記載のリスク評価装置。
【請求項3】
前記検索部は、前記組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得する請求項1又は請求項2に記載のリスク評価装置。
【請求項4】
前記評価部は、前記検索部により取得された検索結果のうち、前記一致度合いが閾値を超える割合に基づいて評価する請求項1から請求項3のいずれかに記載のリスク評価装置。
【請求項5】
前記検索部により取得された検索結果から、所定の条件を満たす固有名詞を抽出する抽出部を備え、
前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整する請求項1から請求項4のいずれかに記載のリスク評価装置。
【請求項6】
前記文書データの話題性を示す指標を取得する指標取得部を備え、
前記評価部は、前記指標に応じて、前記文書リスクの評価を調整する請求項1から請求項5のいずれかに記載のリスク評価装置。
【請求項7】
前記指標取得部は、前記文書データの内容を、機械学習により所定の区分のいずれかに分類し、当該区分に対応付けられた指標を取得する請求項6に記載のリスク評価装置。
【請求項8】
前記情報量算出部は、前記一致度合いが閾値を超えた検索結果の文書データに含まれる単語それぞれの情報量を算出し、
前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Web検索を行う請求項1から請求項7のいずれかに記載のリスク評価装置。
【請求項9】
前記評価部は、さらに、前記組み合わせ毎に前記文書リスクを評価し、当該文書リスクを統合することにより、単語毎の個別リスクを評価する請求項1から請求項8に記載のリスク評価装置。
【請求項10】
前記評価部は、前記個別リスクが所定以上の単語を所定のルールに従って汎化した場合の文書データに対して前記文書リスクを再評価し、汎化による当該文書リスクの変化量を提示する請求項9に記載のリスク評価装置。
【請求項11】
文書データに含まれる単語それぞれの情報量を算出する情報量算出ステップと、
前記情報量の
上位から所定数の単語のうち、
複数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索ステップと、
前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行するリスク評価方法。
【請求項12】
請求項1から請求項10のいずれかに記載のリスク評価装置としてコンピュータを機能させるためのリスク評価プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書データを公開する際のリスクを評価する方法に関する。
【背景技術】
【0002】
従来、データセットの匿名化技術として、k-匿名化等の様々な手法が提案されている。ところが、これらの手法は、一般の文書データを対象とするものではなかった。文書データの匿名化に関しては、非特許文献1及び2のように、文書中の単語の出現回数等から情報量を算出することで、リスクを評価する手法が提案されている。
【先行技術文献】
【非特許文献】
【0003】
【文献】David Snchez, and Montserrat Batet, “C-sanitized: A privacy model for document redaction and sanitization”, Journal of the Association for Information Science and Technology, 148-163, 2016, Wiley Online Library.
【文献】Venkatesan T. Chakaravarthy, Himanshu Gupta, Prasan Roy, and Mukesh K. Mohania, “Efficient Techniques for Document Sanitization”, Proceedings of the 17th ACM conerence on Information and knowledge management, 843-852, 2008.
【発明の概要】
【発明が解決しようとする課題】
【0004】
従来の手法では、文書データに含まれる個人の病名、又は政治・宗教に関する思想等、センシティブな情報が秘匿されているかという観点でリスク評価が実施されている。
しかしながら、例えば学校の事故レポートのように、文書データ自体に個人と紐づけられたセンシティブな情報が含まれていない場合であっても、この文書データに関連する個人情報及び追加情報が入手され紐付けされる可能性があった。したがって、文書データのみから十分にリスクを評価することは難しかった。
【0005】
本発明は、文書データを公開する際のリスクを適切に評価できるリスク評価装置、リスク評価方法及びリスク評価プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るリスク評価装置は、文書データに含まれる単語それぞれの情報量を算出する情報量算出部と、前記情報量の高い所定数の単語のうち、所定数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索部と、前記検索部により取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価部と、を備える。
【0007】
前記検索部は、指定された最大数までの単語の組み合わせによりWeb検索を行ってもよい。
【0008】
前記検索部は、前記組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得してもよい。
【0009】
前記評価部は、前記検索部により取得された検索結果のうち、前記一致度合いが閾値を超える割合に基づいて評価してもよい。
【0010】
前記リスク評価装置は、前記検索部により取得された検索結果から、所定の条件を満たす固有名詞を抽出する抽出部を備え、前記評価部は、前記固有名詞が抽出された場合に、前記文書リスクを高く調整してもよい。
【0011】
前記リスク評価装置は、前記文書データの話題性を示す指標を取得する指標取得部を備え、前記評価部は、前記指標に応じて、前記文書リスクの評価を調整してもよい。
【0012】
前記指標取得部は、前記文書データの内容を、機械学習により所定の区分のいずれかに分類し、当該区分に対応付けられた指標を取得してもよい。
【0013】
前記情報量算出部は、前記一致度合いが閾値を超えた検索結果の文書データに含まれる単語それぞれの情報量を算出し、前記検索部は、前記検索結果の文書データに所定以上の情報量の単語が含まれる場合、当該単語を含む組み合わせにより再度Web検索を行ってもよい。
【0014】
前記評価部は、さらに、前記組み合わせ毎に前記文書リスクを評価し、当該文書リスクを統合することにより、単語毎の個別リスクを評価してもよい。
【0015】
前記評価部は、前記個別リスクが所定以上の単語を所定のルールに従って汎化した場合の文書データに対して前記文書リスクを再評価し、汎化による当該文書リスクの変化量を提示してもよい。
【0016】
本発明に係るリスク評価方法は、文書データに含まれる単語それぞれの情報量を算出する情報量算出ステップと、前記情報量の高い所定数の単語のうち、所定数の単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する検索ステップと、前記検索ステップにおいて取得された検索結果に対して、前記所定数の単語に含まれ、かつ、前記組み合わせに含まれない単語群との一致度合いに基づいて、前記文書データとの紐づけによる文書リスクを評価する評価ステップと、をコンピュータが実行する。
【0017】
本発明に係るリスク評価プログラムは、前記リスク評価装置としてコンピュータを機能させるためのものである。
【発明の効果】
【0018】
本発明によれば、文書データを公開する際のリスクを適切に評価できる。
【図面の簡単な説明】
【0019】
【
図1】本実施形態において想定される攻撃を例示する図である。
【
図2】本実施形態におけるリスク評価装置の機能構成を示す図である。
【
図3】本実施形態におけるリスク評価方法を示すフローチャートである。
【発明を実施するための形態】
【0020】
以下、本発明の実施形態の一例について説明する。
本実施形態におけるリスク評価方法では、攻撃者が一般的な検索能力を保有することを想定し、Web検索による攻撃に対する文書データのリスクが評価される。
【0021】
図1は、本実施形態において想定される攻撃を例示する図である。
攻撃者は、文書データからキーワードを抽出し、これらのキーワードを用いてWeb検索を行う。その後、攻撃者は、検索結果から文書データに関する情報、特に個人を特定し、特定した情報(例えば、「△△君」)と文書データに含まれるセンシティブな情報(例えば、「給付金1500万円」)との紐付けを試みる。
【0022】
本実施形態のリスク評価方法を実施する装置(コンピュータ)は、このようなWeb検索をシミュレーションすることで、文書データに関連する情報が攻撃者に発見されるリスクを定量的に評価する。
【0023】
図2は、本実施形態におけるリスク評価装置1の機能構成を示す図である。
リスク評価装置1は、サーバ又はパーソナルコンピュータ等の情報処理装置(コンピュータ)であり、制御部10及び記憶部20の他、各種データの入出力デバイス及び通信デバイス等を備える。
【0024】
制御部10は、リスク評価装置1の全体を制御する部分であり、記憶部20に記憶された各種プログラムを適宜読み出して実行することにより、本実施形態における各機能を実現する。制御部10は、CPUであってよい。
【0025】
記憶部20は、ハードウェア群をリスク評価装置1として機能させるための各種プログラム、及び各種データ等の記憶領域であり、ROM、RAM、フラッシュメモリ又はハードディスク(HDD)等であってよい。具体的には、記憶部20は、本実施形態の各機能を制御部10に実行させるためのプログラム(リスク評価プログラム)、パラメータ、及びこのプログラムが処理対象とする文書データを含む文書データセット等を記憶する。
【0026】
制御部10は、形態素解析部11と、情報量算出部12と、検索部13と、抽出部14と、指標取得部15と、評価部16とを備える。
制御部10は、これらの機能部により、文書データから関連情報を検索されるリスクを評価することで、文書データの匿名化を促す。
【0027】
形態素解析部11は、対象の文書データに対して形態素解析を行い、単語に分割する。さらに、形態素解析部11は、得られた単語のうち、リスクとなりうる特定の品詞(例えば、名詞、動詞等)のものを抽出する。
【0028】
情報量算出部12は、形態素解析部11により抽出された単語それぞれの情報量を算出する。
単語xの情報量I(x)は、例えば、I(x)=-logP(x)で表現できる。なお、P(x)は、単語xの出現確率を表し、xの出現回数を全単語数で割ることで求められる。あるいは、情報量I(x)は、文書データセットDを用いて、TF-IDF等の指標により算出されてもよい。
【0029】
検索部13は、算出された情報量の高い所定数(n個)の単語のうち、指定された最大数(m個)までの単語の組み合わせによりWeb検索を行い、検索結果の上位から所定数を取得する。
なお、組み合わせの数は、Σm(nCm)通りとなり、n及びmの指定によっては全通りの検索の回数が膨大となる。このため、検索の回数に上限を設ける、あるいは、一度の検索に用いる単語(キーワード)の数を最大数mまで変動させるのではなく所定数に固定させてもよい。
検索部13は、単語の組み合わせのパターンを変えて、例えば指定された回数のWeb検索を行い、それぞれの検索結果の上位(例えば10件ずつ)を取得する。
【0030】
抽出部14は、検索部13により取得された検索結果から、所定の条件を満たす固有名詞を抽出する。
例えば、文書データが事故レポート等の場合、固有名詞は、被害者の名前が相当し、攻撃者により文書データと紐づけられることで個人に関するセンシティブな情報が知られることとなる。
【0031】
指標取得部15は、文書データの話題性を示す指標を取得し、評価部16へ提供する。
話題性は、例えば、事故による怪我の程度等であり、関連情報の多さ、すなわち検索されやすさを示す。この指標は、文書データに予め手動で付与されていてもよいし、既存の言語処理の手法を用いて文書データの内容に応じて付与されてもよい。
例えば、指標取得部15は、文書データの内容を、機械学習により所定の区分(例えば、重症又は軽傷、あるいは、死亡事故又は非死亡事故)のいずれかに分類し、この区分に対応付けられた指標を取得する。
【0032】
評価部16は、検索部13により取得された検索結果の全体に対して、文書データから抽出された所定数(n個)の単語に含まれ、かつ、検索に用いた組み合わせに含まれない単語群との一致度合いに基づいて、文書データとの紐づけによるリスクを評価する。
具体的には、例えば、評価部16は、検索部13により取得された検索結果のうち、一致度合いが閾値を超える、すなわち検索キーワードに用いなかった単語と同一又は類似の単語が所定以上含まれる検索結果(記事)の割合に基づいて評価してよい。
【0033】
また、評価部16は、指標取得部15から得られた指標に応じて、リスクの評価を調整する。すなわち、文書データの話題性が高い場合、関連情報が検索される可能性も高いため、リスクが高く評価される。
さらに、評価部16は、抽出部14により被害者の個人名等の固有名詞が抽出された場合に、リスクを高く調整する。
【0034】
評価部16は、さらに、Web検索を行った単語の組み合わせ毎にリスクを評価し、これらのリスクを統合することにより、単語毎の個別リスクを評価してもよい。例えば、単語の一致度合いが閾値を超える検索結果が所定以上得られた際の検索キーワードに含まれる単語は、記載されることにリスクがあると判断される。さらに、異なる組み合わせでも同様にリスクが高いと判断される単語については、より高いリスクがあると評価される。
得られた単語毎の評価は、ユーザに提示されて個別リスクの高い単語の匿名化が促される。あるいは、所定以上の個別リスクのある単語が自動で汎化されることで匿名化されてもよいし、汎化候補が提示されてもよい。
【0035】
さらに、評価部16は、個別リスクの高い単語を汎化した場合の文書データのリスクを再評価し、汎化による文書データのリスクの変化量(低下量)をユーザに提示してもよい。
なお、汎化の対象は、個別リスクが所定以上の単語全てであってもよいが、評価部16は、個別リスクが上位の単語を優先して、順に文書データのリスクの変化量と共にユーザに提示してもよい。
【0036】
図3は、本実施形態におけるリスク評価方法を示すフローチャートである。
ここでは、文書データから抽出する検索キーワードの候補となる単語の数n、検索キーワードとして用いる単語数m、Web検索の実行回数i、検索結果の取得数j、及び文書データの話題性(センシティビティ)を示す指標εがパラメータとして入力されているものとする。なお、指標εは、前述のように文書データの意味解析により算出されてもよい。
【0037】
ステップS1において、形態素解析部11は、対象の文書データに対して形態素解析を行い、名詞及び動詞等の特定の品詞の単語を、攻撃者により検索キーワードとされる可能性が高い単語として抽出する。
【0038】
ステップS2において、情報量算出部12は、ステップS1で抽出された単語それぞれの情報量を、出現頻度に基づく指標により算出する。
【0039】
ステップS3において、検索部13は、ステップS2で算出された情報量が高いn個の単語を抽出し、この中からm個の単語をランダムに選択してWeb検索をk回実行する。そして、検索部13は、Web検索の度に上位からj個の検索結果を、全部でi×j個の検索結果を得る。
【0040】
ステップS4において、評価部16は、ステップS3で得られたi×j個の検索結果から、検索キーワードに使われなかったn-m個の単語と同一の又は類似した単語が含まれる割合が所定以上の関連文書を選別する。そして、評価部16は、検索結果全体に対して選別された関連文書の割合に応じたリスクの評価値を算出する。
【0041】
ステップS5において、抽出部14は、ステップS4で選別された関連文書の中に、被害者の名前等、特定の条件を満たす固有名詞が存在するか否かを判定する。この判定がYESの場合、処理はステップS6に移り、判定がNOの場合、処理はステップS7に移る。
【0042】
ステップS6において、評価部16は、ステップS4で算出された評価値を調整し、リスクを高く評価する。なお、評価部16は、ステップS5において該当の固有名詞が存在する関連文書の割合に応じて評価値の上げ幅又は上げ率を調整してもよい。
【0043】
ステップS7において、評価部16は、文書データの話題性を示す指標εに基づいて、評価値を調整し、話題性の高い文書データほど、リスクを高く評価する。
【0044】
本実施形態によれば、リスク評価装置1は、文書データに含まれる情報量の高い所定数の単語のうち、指定された所定数の単語の組み合わせを検索キーワードとしてWeb検索を行い、検索結果の上位から所定数を取得する。リスク評価装置1は、検索結果に対して、所定数の単語に含まれ、かつ、検索キーワードに含まれない単語群との一致度合いに基づいて、文書データとの紐づけによるリスクを評価する。
これにより、リスク評価装置1は、文書データを公開する際に、実際の攻撃をシミュレーションすることで、文書データに関連する個人及び追加情報等が攻撃者に入手されるリスクを定量的に適切に評価することができる。
【0045】
リスク評価装置1は、指定された最大数までの単語の組み合わせによりWeb検索を行うことにより、攻撃者による検索キーワードの選択数を複数シミュレーションでき、文書データのリスクを適切に評価できる。
【0046】
リスク評価装置1は、検索キーワードの組み合わせのパターンを変えて、指定された回数のWeb検索を行い、それぞれの検索結果の上位を取得する。
これにより、リスク評価装置1は、複数の検索パターンをシミュレーションすることで、様々な観点の検索結果を取得でき、関連情報が入手されるリスクを、より適切に評価できる。
【0047】
リスク評価装置1は、検索結果のうち、検索キーワード以外の単語の一致度合いが閾値を超える割合に基づいてリスクを評価する。
これにより、リスク評価装置1は、文書データと紐付けられる関連情報を効率的に判別し、リスクを適切に評価できる。
【0048】
リスク評価装置1は、検索結果から、所定の条件を満たす固有名詞が抽出された場合に、リスクを高く調整する。
これにより、リスク評価装置1は、攻撃者により文書データと個人名又は学校名等の固有名詞とが紐付けられる可能性を判定し、適切にリスクを評価できる。
【0049】
リスクを評価装置1は、文書データの話題性を示す指標に応じて、リスクの評価を調整する。
例えば文書データが事故レポートの場合、事故の程度によって記事の数が異なるため、重大事故で話題性が高い場合には、低い情報量の単語からでも容易に当該事故の記事が検索されることから、リスクを評価装置1は、関連情報の紐付けのリスクを現実に則して適切に評価できる。
【0050】
また、リスクを評価装置1は、文書データの内容を、機械学習により所定の区分のいずれかに分類し、これらの区分に対応付けられた指標を取得することで、事前に判別されない指標を適切に付与してリスクを適切に評価できる。
【0051】
リスク評価装置1は、単語の組み合わせ毎にリスクを評価し、評価結果を統合することにより、単語毎の個別リスクを評価する。
これにより、リスク評価装置1は、文書データに含まれる個別リスクの高い単語を提示して公開前に匿名化を促す、又は自動的に汎化することで、文書データのリスクを低減させることができる。
【0052】
さらに、リスク評価装置1は、個別リスクが所定以上の単語を汎化した場合の文書データのリスクを再評価し、汎化による文書データのリスクの変化量を提示する。
これにより、リスク評価装置1は、どのような汎化で文書データのリスクがどれだけ低下するかを示し、ユーザに文書データの匿名化を適切なレベルで実施させることができる。
【0053】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0054】
前述の実施形態では、評価対象の文書データに含まれる単語によりWeb検索を行ったが、実際には、検索結果に含まれる単語による再検索が行われることも考えられる。
したがって、リスク評価装置1は、リスク評価のために検索された関連文書からも同様に単語の情報量を算出し、所定以上の情報量の単語が含まれる場合、これらの単語を含む検索キーワードにより再度Web検索を行ってもよい。
これにより、攻撃者の検索行動をより忠実にシミュレーションできるため、リスクのより適切な評価が期待できる。
【0055】
リスク評価装置1によるリスク評価方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0056】
1 リスク評価装置
10 制御部
11 形態素解析部
12 情報量算出部
13 検索部
14 抽出部
15 指標取得部
16 評価部
20 記憶部