(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-01-31
(45)【発行日】2022-02-08
(54)【発明の名称】リスク判定装置、リスク判定方法及びリスク判定プログラム
(51)【国際特許分類】
G06F 16/335 20190101AFI20220201BHJP
G06F 40/12 20200101ALI20220201BHJP
【FI】
G06F16/335
G06F40/12
(21)【出願番号】P 2019022609
(22)【出願日】2019-02-12
【審査請求日】2021-02-01
【国等の委託研究の成果に係る記載事項】(出願人による申告)平成30年度、国立研究開発法人科学技術振興機構、戦略的創造研究推進事業、CREST、「ビッグデータ統合利活用促進のためのセキュリティ基盤技術の体系化」委託研究、産業技術力強化法第19条の適用を受ける特許出願
(73)【特許権者】
【識別番号】000208891
【氏名又は名称】KDDI株式会社
(74)【代理人】
【識別番号】100106002
【氏名又は名称】正林 真之
(74)【代理人】
【識別番号】100120891
【氏名又は名称】林 一好
(72)【発明者】
【氏名】三本 知明
(72)【発明者】
【氏名】清本 晋作
【審査官】田川 泰宏
(56)【参考文献】
【文献】特開2007-172404(JP,A)
【文献】特開2011-227536(JP,A)
【文献】特開2009-134714(JP,A)
【文献】米国特許出願公開第2009/0144255(US,A1)
【文献】特開2001-184358(JP,A)
【文献】特開2015-041145(JP,A)
【文献】国際公開第2008/114316(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 16/335
G06F 40/12
(57)【特許請求の範囲】
【請求項1】
公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続され、
新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力部と、
前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得部と、
前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得部により取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出部と、
前記抽出部により抽出された語句を出力する出力部と、を備えるリスク判定装置。
【請求項2】
前記取得部は、前記文書データを分類する上での影響度の大きさに基づいて、前記属性を選択する請求項1に記載のリスク判定装置。
【請求項3】
前記入力部は、前記データベースに格納されている前記文書データ及び前記属性データを、前記入力文書データ及び前記入力属性データとして受け付け、
前記入力文書データから前記抽出部により抽出された語句を匿名化するための修正データを生成し、当該修正データを、前記入力文書データに対応付けて前記データベースに格納する匿名化部を備える請求項1又は請求項2に記載のリスク判定装置。
【請求項4】
前記入力部は、前記データベースに格納されている前記文書データ及び前記属性データを、前記入力文書データ及び前記入力属性データとして受け付け、
前記入力文書データから前記抽出部により抽出された語句を匿名化し、前記データベースに格納されている前記入力文書データを更新する匿名化部を備える請求項1又は請求項2に記載のリスク判定装置。
【請求項5】
前記入力部が新たに受け付けた前記入力文書データの修正入力を受け付け、前記入力属性データと対応付けて前記データベースに格納する格納部を備え、
前記取得部は、修正前の前記入力文書データと、前記データベースに格納された修正後の入力文書データとで、異なる前記属性を選択し前記抽出部へ提供する請求項3又は請求項4に記載のリスク判定装置。
【請求項6】
公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続されたコンピュータが、
新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力ステップと、
前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得ステップと、
前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得ステップにおいて取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された語句を出力する出力ステップと、を実行するリスク判定方法。
【請求項7】
公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続されたコンピュータに、
新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力ステップと、
前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得ステップと、
前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得ステップにおいて取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出ステップと、
前記抽出ステップにおいて抽出された語句を出力する出力ステップと、を実行させるためのリスク判定プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、文書を公開する際のプライバシに関するリスクを判定する装置に関する。
【背景技術】
【0002】
従来、データセットのプライバシに関するリスクを低減するための匿名化の技術として、例えばk-匿名化等の手法が提案されてきた。
また、文書データの匿名化に関して、文書中の単語の出現頻度等から、個人を特定するための情報量を算出し、リスクを評価する手法が提案されている(例えば、非特許文献1及び2参照)。
【先行技術文献】
【非特許文献】
【0003】
【文献】David Sanchez and Montserrat Batet, “C-sanitized: A privacy model for document redaction and sanitization,” Journal of the Association for Information Science and Technology, 148-163, 2016, Wiley Online Library.
【文献】Venkatesan T Chakaravarthy, Himanshu Gupta, Prasan Roy, and Mukesh K Mohania, “Efficient techniques for document sanitization,” Proceedings of the 17th ACM conerence on Information and knowledge management, 843-852, 2008.
【発明の概要】
【発明が解決しようとする課題】
【0004】
しかしながら、文書データのリスクを評価する際に、母集団となる文書の集合によって、同一の単語であっても出現頻度は変わるため、リスクのある単語が適切に評価されない場合があった。
【0005】
本発明は、文書データから、プライバシに関するリスクのある語句を精度良く抽出できるリスク判定装置、リスク判定方法及びリスク判定プログラムを提供することを目的とする。
【課題を解決するための手段】
【0006】
本発明に係るリスク判定装置は、公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続され、新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力部と、前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得部と、前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得部により取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出部と、前記抽出部により抽出された語句を出力する出力部と、を備える。
【0007】
前記取得部は、前記文書データを分類する上での影響度の大きさに基づいて、前記属性を選択してもよい。
【0008】
前記入力部は、前記データベースに格納されている前記文書データ及び前記属性データを、前記入力文書データ及び前記入力属性データとして受け付け、前記リスク判定装置は、前記入力文書データから前記抽出部により抽出された語句を匿名化するための修正データを生成し、当該修正データを、前記入力文書データに対応付けて前記データベースに格納する匿名化部を備えてもよい。
【0009】
前記入力部は、前記データベースに格納されている前記文書データ及び前記属性データを、前記入力文書データ及び前記入力属性データとして受け付け、前記リスク判定装置は、前記入力文書データから前記抽出部により抽出された語句を匿名化し、前記データベースに格納されている前記入力文書データを更新する匿名化部を備えてもよい。
【0010】
前記リスク判定装置は、前記入力部が新たに受け付けた前記入力文書データの修正入力を受け付け、前記入力属性データと対応付けて前記データベースに格納する格納部を備え、前記取得部は、修正前の前記入力文書データと、前記データベースに格納された修正後の入力文書データとで、異なる前記属性を選択し前記抽出部へ提供してもよい。
【0011】
本発明に係るリスク判定方法は、公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続されたコンピュータが、新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力ステップと、前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得ステップと、前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得ステップにおいて取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出ステップと、前記抽出ステップにおいて抽出された語句を出力する出力ステップと、を実行する。
【0012】
本発明に係るリスク判定プログラムは、公開対象の文書データ及び当該文書データを分類する属性データを対応付けて格納したデータベースと接続されたコンピュータに、新たに前記文書データ及び当該文書データを分類するための前記属性データを、入力文書データ及び入力属性データとして受け付ける入力ステップと、前記入力属性データのうち、選択された属性の値が一致又は類似する前記文書データを前記データベースから取得する取得ステップと、前記入力文書データに含まれる語句のうち、当該入力文書データ及び前記取得ステップにおいて取得された前記文書データの中での出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する抽出ステップと、前記抽出ステップにおいて抽出された語句を出力する出力ステップと、を実行させるためのものである。
【発明の効果】
【0013】
本発明によれば、文書データから、プライバシに関するリスクのある語句を精度良く抽出できる。
【図面の簡単な説明】
【0014】
【
図1】実施形態に係る文書管理システムの全体構成を示す図である。
【
図2】実施形態に係る管理サーバの機能構成を示す図である。
【
図3】実施形態に係る属性データの入力画面例を示す図である。
【
図4】実施形態に係る文書データの入力画面例を示す図である。
【
図5】実施形態に係る文書データの登録時におけるリスク判定処理を示すフローチャートである。
【
図6】実施形態に係る文書データの公開前におけるリスク判定処理を示すフローチャートである。
【発明を実施するための形態】
【0015】
以下、本発明の実施形態の一例について説明する。
本実施形態では、文書データとして、例えば、学校の事故レポート等、同種の文書が多数蓄積され公開されるものを想定している。これらの文書データは、管理機関のデータベースに登録する際に、人名又は地名等の個人を特定されるリスクのある語句が匿名化又は削除されることが望まれる。
【0016】
本実施形態のリスク判定方法により、従来は公開時に人手で探し加工していたリスクの高い語句が文書データの入力時に可視化される。
また、本実施形態のリスク判定方法では、文書データの登録時に加えて、登録された文書データの公開前にも同様のリスク判定が実施され、公開情報の匿名化が行われる。
【0017】
ここで、文書データには、データを分類するための属性データが付加されているものとする。例えば、前述の事故レポートの場合、学校名、生徒の学年、性別、事故発生場所、事故発生時刻、怪我の部位等が文書データに対応付けて登録される。
【0018】
図1は、本実施形態に係る文書管理システム1の全体構成を示す図である。
文書管理システム1は、リスク判定装置としての管理サーバ10と、文書データベース(DB)20と、ユーザ端末30とを備える。文書データベース20は、管理サーバ10に配置されてもよいし、通信接続された外部のデータベース管理装置に配置されてもよい。複数のユーザ端末30は、ネットワークを介して管理サーバ10と通信接続されている。
【0019】
ユーザ端末30は、パーソナルコンピュータ、タブレット端末又はスマートフォン等の情報処理装置であり、管理サーバ10にアクセスして管理サーバ10が提供する文書管理機能を利用することにより、文書データベース20に文書データを登録する。
管理サーバ10は、要求に応じて、文書データベース20に蓄積されている文書データを公開する。
【0020】
図2は、本実施形態に係る管理サーバ10の機能構成を示す図である。
管理サーバ10は、管理機関にて運用管理される情報処理装置である。記憶部に格納されたソフトウェア(リスク判定プログラム)を制御部が実行することにより、制御部は、本実施形態の各種機能部として動作する。
具体的には、管理サーバ10は、各種機能部として、入力部11と、取得部12と、抽出部13と、出力部14と、格納部15と、匿名化部16とを備える。
【0021】
入力部11は、新たに文書データ及びこの文書データを分類するための属性データを、リスク判定のための入力文書データ及び入力属性データとして受け付ける。
また、入力部11は、文書データベース20に既に格納されている文書データ及び属性データを、入力文書データ及び入力属性データとして受け付けてもよい。
【0022】
取得部12は、複数の属性を含む入力属性データのうち、選択された属性の値が一致又は類似する文書データを文書データベース20から取得する。
ここで、属性の選択は、ユーザにより行われてよい。あるいは、取得部12は、文書データを分類する上での影響度の大きさに基づいて、属性を選択してもよい。具体的には、例えば、主成分分析等の既存の手法が適用可能である。
また、取得部12は、修正前の入力文書データと、実際に文書データベース20に格納された修正後の入力文書データとで、異なる属性を選択し抽出部13へ提供してもよい。
【0023】
図3は、本実施形態に係る属性データの入力画面例を示す図である。
この画面例は、新たに入力される報告書(文書データ)に付随して、複数の属性名と値(内容)とがユーザにより入力される。なお、属性の値は、直接入力されてもよいし、プルダウンリスト等から選択入力されてもよい。
また、各属性には、検索対象のチェックボックスが設けられ、ユーザは、取得部12が取得する文書データの属性を選択してもよい。
【0024】
抽出部13は、入力文書データに含まれる語句のうち、この入力文書データ及び取得部12により取得された文書データの中での出現回数又は共起回数等を含む出現頻度の情報に基づいて、プライバシに関するリスクが基準を超える語句を抽出する。
ここで、リスクの度合いは、例えばTF-IDF等の語句の重要度を評価する指標に基づいて算出されてよい。これにより、入力文書データ内でのみ頻出する語句、すなわち文書を特徴付ける語句は、リスクが高いと判定される。
【0025】
出力部14は、抽出部13により抽出された語句を出力する。例えば、入力文書データからリスクが基準を超える語句が抽出されると、出力部14は、これらの語句を強調した画面表示を行い、入力文書データの修正を促す。
【0026】
格納部15は、入力部11が新たに受け付けた入力文書データの修正入力を受け付け、入力属性データと対応付けて文書データベース20に格納する。
【0027】
図4は、本実施形態に係る文書データの入力画面例を示す図である。
この画面例では、入力フォームに文書データが入力された後、評価開始ボタンが押下されると、抽出部13により抽出されたリスクの高い語句について、フォント、サイズ、色、飾り等を変更したリスク判定結果が表示される。
また、リスク判定結果の総合評価として、例えば、リスクが最大の語句の評価値又はリスクの合計値等に基づいて、危険度が出力されてもよい。
【0028】
リスク判定結果の出力に応じて、ユーザは、入力した文書データに対して、リスクの高い語句の汎化又は削除といった修正を行う。そして、必要に応じて再度リスク評価を行った後、登録ボタンの押下により、修正後の文書データが文書データベース20に格納される。
【0029】
なお、この例では、評価開始ボタンの押下により取得部12、抽出部13及び出力部14の処理が実行される場合を示したが、文書データの入力中にリアルタイムで処理が実行されてもよい。
【0030】
匿名化部16は、入力文書データから抽出部13により抽出された語句を匿名化するための修正データを生成し、この修正データを、入力文書データに対応付けて文書データベース20に格納する。
修正データは、例えば、格納されている入力文書データ内の語句と、匿名化のために置換する語句又は墨塗り用の記号等とを対応付けたデータであり、匿名化前の入力文書データを公開する際に、この修正データに基づいて対象の語句が置換される。
また、匿名化部16は、入力文書データから抽出部13により抽出された語句を匿名化し、文書データベース20に格納されている入力文書データを更新してもよい。
【0031】
なお、匿名化の手法としては、例えば、一般化階層木及び人名辞典等を利用する既存の手法が適用されてよく、抽出された語句それぞれのリスクの度合いに応じて、汎化のレベル又は黒塗り等が決定される。
【0032】
図5は、本実施形態に係る文書データの登録時におけるリスク判定処理を示すフローチャートである。
このリスク判定処理では、ユーザが入力した文書データに含まれるリスクの高い語句を提示することで、文書データの修正を促し、修正後の文書データを文書データベース20に格納する。
【0033】
ステップS1において、入力部11は、ユーザから新たに文書データベース20に格納するための文書データと、この文書データに付加する属性データの入力を受け付ける。
【0034】
ステップS2において、取得部12は、ステップS1で入力された属性データのうち、文書データの母集団を絞り込むための属性を、ユーザの指定により、又は文書データベース20を対象として主成分分析等の手法により選択する。
【0035】
ステップS3において、取得部12は、ステップS2で選択された属性データと一致又は類似する属性データが対応付けられている文書データを、文書データベース20から取得する。
【0036】
ステップS4において、抽出部13は、ステップS3で取得された文書データを母集団として、ステップS1で入力された文書データに含まれる語句のうち、個人を特定する情報量が多くリスクが高い語句を抽出する。
【0037】
ステップS5において、出力部14は、ステップS4で抽出された語句をユーザに提示し、ステップS1で入力された文書データの修正を促す。
【0038】
ステップS6において、入力部11は、ユーザからの入力を待機し、文書データの登録が要求されたか、登録せず修正入力が開始されたかを判定する。登録が要求された(YESの)場合、処理はステップS7に移り、修正入力が開始された(NOの)場合、処理はステップS1に戻る。
【0039】
ステップS7において、格納部15は、入力された文書データを属性データと対応付けて、文書データベース20に格納する。
【0040】
図6は、本実施形態に係る文書データの公開前におけるリスク判定処理を示すフローチャートである。
このリスク判定処理では、文書データベース20に格納済みの文書データから、リスクの高い語句を抽出し、自動で匿名化の処理を施す。
【0041】
ステップS11において、入力部11は、定期的に、又は文書データの公開時等の所定のタイミングで、文書データベース20に格納されている文書データと、この文書データに対応する属性データを抽出する。
【0042】
ステップS12において、取得部12は、ステップS11で抽出された文書データに対応する属性データのうち、文書データの母集団を絞り込むための属性を、予め指定された条件により、又は文書データベース20を対象とした主成分分析等の手法により選択する。
【0043】
ステップS13において、取得部12は、ステップS12で選択された属性データと一致又は類似する属性データが対応付けられている他の文書データを、文書データベース20から取得する。
【0044】
ステップS14において、抽出部13は、ステップS13で取得された文書データを母集団として、ステップS11で抽出された文書データに含まれる語句のうち、個人を特定する情報量が多くリスクが高い語句を抽出する。
【0045】
ステップS15において、匿名化部16は、ステップS14で抽出された語句を匿名化するための修正データを生成して文書データベース20に格納、又は文書データベース20に格納されている対象の文書データを匿名化して更新する。
【0046】
本実施形態によれば、管理サーバ10は、入力文書データに付加された属性データと一致又は類似する文書データを母集団とし、入力文書データに含まれる語句の出現頻度に基づいて、プライバシに関するリスクが基準を超える語句を抽出する。
これにより、管理サーバ10は、リスク評価のための母集団を適切に選択できるので、入力文書データから、プライバシに関するリスクのある語句を精度良く抽出できる。
さらに、管理サーバ10は、抽出した語句をユーザに提示することにより、ユーザが文書データを入力する時点でリスクを容易に把握し語句を修正できるので、文書データベース20に格納する前にリスクを低減できる。
【0047】
管理サーバ10は、文書データを分類する上での影響度の大きさに基づいて、例えば主成分分析等の手法を用いて属性を選択する。
これにより、管理サーバ10は、適切な属性を用いて、リスク評価のための母集団となる文書データを取得できるので、リスクの高い語句を精度良く抽出できる。
【0048】
管理サーバ10は、文書データベース20に格納されている文書データを入力文書データとして、プライバシに関するリスクが基準を超える語句を抽出する。そして、管理サーバ10は、抽出された語句を匿名化するための修正データを生成して文書データと対応付けて格納、又は格納されている文書データを匿名化して更新する。
これにより、管理サーバ10は、文書データの登録時だけでなく、登録後に再度リスクを判定し、文書データの公開前に匿名化を実施できる。
【0049】
管理サーバ10は、リスクの高い語句を提示した後、文書データの修正入力を受け付けて文書データベース20に格納する。そして、管理サーバ10は、修正後の文書データに対しても、入力時とは異なる属性の組み合わせを選択することで、再度リスクの判定を行う。
これにより、管理サーバ10は、複数の異なる視点から文書データのリスクを判定し、適切な匿名化を実施できる。
【0050】
以上、本発明の実施形態について説明したが、本発明は前述した実施形態に限るものではない。また、前述した実施形態に記載された効果は、本発明から生じる最も好適な効果を列挙したに過ぎず、本発明による効果は、実施形態に記載されたものに限定されるものではない。
【0051】
管理サーバ10によるリスク判定方法は、ソフトウェアにより実現される。ソフトウェアによって実現される場合には、このソフトウェアを構成するプログラムが、情報処理装置(コンピュータ)にインストールされる。また、これらのプログラムは、CD-ROMのようなリムーバブルメディアに記録されてユーザに配布されてもよいし、ネットワークを介してユーザのコンピュータにダウンロードされることにより配布されてもよい。さらに、これらのプログラムは、ダウンロードされることなくネットワークを介したWebサービスとしてユーザのコンピュータに提供されてもよい。
【符号の説明】
【0052】
1 文書管理システム
10 管理サーバ(リスク判定装置)
11 入力部
12 取得部
13 抽出部
14 出力部
15 格納部
16 匿名化部
20 文書データベース
30 ユーザ端末