(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2023-11-28
(45)【発行日】2023-12-06
(54)【発明の名称】ルール生成装置、情報処理システム、ルール生成方法、情報処理方法、及びプログラム
(51)【国際特許分類】
G06F 21/62 20130101AFI20231129BHJP
G06F 40/12 20200101ALI20231129BHJP
G06F 40/157 20200101ALI20231129BHJP
【FI】
G06F21/62 345
G06F40/12
G06F40/157
(21)【出願番号】P 2019230363
(22)【出願日】2019-12-20
【審査請求日】2022-11-15
(73)【特許権者】
【識別番号】000004237
【氏名又は名称】日本電気株式会社
(74)【代理人】
【識別番号】100109313
【氏名又は名称】机 昌彦
(74)【代理人】
【識別番号】100149618
【氏名又は名称】北嶋 啓至
(72)【発明者】
【氏名】▲高▼屋 正裕
【審査官】小林 秀和
(56)【参考文献】
【文献】特開2019-144723(JP,A)
【文献】国際公開第2019/155887(WO,A1)
【文献】特開2019-046488(JP,A)
【文献】特開2014-241098(JP,A)
【文献】特開2017-162114(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
G06F 40/12
G06F 40/157
(57)【特許請求の範囲】
【請求項1】
個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う検索手段と、
前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出する抽出手段と、
前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する更新手段と、を備える、
ルール生成装置。
【請求項2】
前記抽出手段は、前記検索がヒットした箇所を含む前記所定の範囲に、前記個人情報を加工する手法を表す言葉である特徴語がある場合、当該検索がヒットした箇所の言葉と当該特徴語とを含む文章を、前記所定の範囲から抽出する、
請求項1に記載のルール生成装置。
【請求項3】
前記ドキュメントが更新された時間を示す更新情報を、所定のタイミングで取得する更新情報取得手段をさらに備え、
前記検索手段は、前記所定のタイミングで取得された更新情報が示す時間と同じ時間を示す前記更新情報が、当該タイミングより前に取得されていなかった場合、前記検索を行う、
請求項1または2に記載のルール生成装置。
【請求項4】
前記個人情報を取得し、当該取得した個人情報に含まれる前記要素の前記属性を検出する属性検出手段と、
前記加工ルールに関連付けられている前記属性に基づいて、前記検出された属性に対応する前記加工ルールを特定するルール特定手段と、
前記特定された加工ルールに従って、前記取得した個人情報を加工する加工手段と、を備える、
情報加工装置と、
請求項1乃至3のいずれか一項に記載のルール生成装置と、を備える、
情報処理システム。
【請求項5】
前記加工ルールには、当該加工ルールに関連付けられている前記属性を表す言葉と、当該属性と同様の概念を表す言葉と、をグループ化したまとまりであるセマンティック領域のデータ群が対応付けられ、
前記ルール特定手段は、前記検出された属性を表す言葉を含む前記セマンティック領域のデータ群に対応する前記加工ルールを特定する、
請求項4に記載の情報処理システム。
【請求項6】
前記加工手段は、前記個人情報を加工した後に、加工する前の前記個人情報を削除する、
請求項4または5に記載の情報処理システム。
【請求項7】
コンピュータが、
個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行い、
前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出し、
前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する、
ルール生成方法。
【請求項8】
コンピュータが、
個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行い、
前記検索がヒットした箇所を含む所定の文章を、前記ドキュメントから抽出し、
前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新し、
前記個人情報を取得し、当該取得した個人情報に含まれる前記属性を検出し、
前記検出された属性に対応する、前記加工ルールを特定し、
前記特定された加工ルールに従って、前記個人情報を加工する、
情報処理方法。
【請求項9】
個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う処理と、
前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出する処理と、
前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する処理と、をコンピュータに実行させる
プログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、情報を加工する技術に関する。
【背景技術】
【0002】
人物の行動や嗜好等の分析のために、大量の個人情報の利活用が行われている。一方で、個人情報は特定の個人を識別可能な情報であり、利活用の際には個人情報の保護、すなわちプライバシーの侵害を考慮することが要求される。これに対して、ユーザが個人情報の保護を図りつつ個人情報を利活用するために、個人情報を加工し匿名化する技術が存在する。
【0003】
特許文献1には、複数の個人情報が含まれるデータベースから、個人情報が有する属性値の出現頻度に応じて、匿名化する属性を選択する技術が開示されている。
【0004】
ここで、個人情報を匿名化する際には、どのように個人情報に対して加工を行うかを示すルールが予め作成される。
【0005】
例えば、ルールの作成に関して、特許文献2には、個人情報に含まれる属性間の関係性を保持したまま匿名化を行うためのルールを作成することが開示されている。
【0006】
また、ルールの作成に関連する文献として、特許文献3には、作業ガイドラインに記載された作業のルールをリスト化する技術が開示されている。
【先行技術文献】
【特許文献】
【0007】
【文献】特開2013-200659号公報
【文献】特開2015-079403号公報
【文献】特開2016-009290号公報
【発明の概要】
【発明が解決しようとする課題】
【0008】
ところで、個人情報の保護に関しては、法令等に基づく取り決めがまとめられたガイドラインが発行される場合がある。そのため、個人情報の匿名化を行うためのルールを作成する際に、そのようなガイドラインに応じてルールを作成していないと、法違反のリスクが高まる虞がある。
【0009】
特許文献1、2及び3には、個人情報の取り扱いにおいて、上記のようなガイドラインに応じたルールを作成することは開示されていない。
【0010】
本開示は、上記課題を鑑みてなされたものであり、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能な技術を提供することを主要な目的とする。
【課題を解決するための手段】
【0011】
本開示の一態様にかかるルール生成装置は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う検索手段と、前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出する抽出手段と、前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する更新手段と、を備える。
【0012】
本開示の一態様にかかるルール生成方法は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行い、前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出し、前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する。
【0013】
本開示の一態様にかかる情報処理方法は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行い、前記検索がヒットした箇所を含む所定の文章を、前記ドキュメントから抽出し、前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新し、前記個人情報を取得し、当該取得した個人情報に含まれる前記属性を検出し、前記検出された属性に対応する、前記加工ルールを特定し、前記特定された加工ルールに従って、前記個人情報を加工する。
【0014】
本開示の一態様にかかるプログラムは、個人情報を加工するルールに関わる文章を含むドキュメントに対して、前記個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う処理と、前記検索がヒットした箇所を含む所定の範囲の文章を、前記ドキュメントから抽出する処理と、前記抽出された文章に基づいて、前記個人情報を加工する処理において参照する加工ルールを更新する処理と、をコンピュータに実行させる。
【発明の効果】
【0015】
本開示によれば、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能になるという効果が得られる。
【図面の簡単な説明】
【0016】
【
図1】第1の実施形態にかかる情報処理システムの構成の一例を示すブロック図である。
【
図2】第1の実施形態にかかるルール生成装置の機能構成の一例を示すブロック図である。
【
図3】第1の実施形態にかかるルール生成装置の動作を説明するフローチャートである。
【
図4】第2の実施形態にかかる情報処理システムの構成の一例を示すブロック図である。
【
図5】第2の実施形態にかかる情報処理システムの機能構成の一例を示すブロック図である。
【
図6】第2の実施形態にかかる加工ルールの一例を示す図である。
【
図7】第2の実施形態にかかるドキュメントの一例を示す図である。
【
図8】第2の実施形態にかかる個人情報の一例を示す図である。
【
図9】第2の実施形態にかかるセマンティック辞書の一例を模式的に示す図である。
【
図10】第2の実施形態にかかる情報処理システム1001の動作を説明するシーケンス図である。
【
図11】第2の実施形態にかかるルール生成装置のルール更新処理の動作を説明するフローチャートである。
【
図12】第2の実施形態にかかる更新された加工ルールの一例を示す図である。
【
図13】第2の実施形態にかかる情報加工装置の情報加工処理の動作を説明するフローチャートである。
【
図14】第2の実施形態にかかる加工後個人情報の一例を示す図である。
【
図15】第3の実施形態にかかる情報処理システムの機能構成の一例を示す図である。
【
図16】第3の実施形態にかかるルール生成装置の動作を説明するフローチャートである。
【
図17】第1、第2及び第3の実施形態におけるルール生成装置を実現するコンピュータ装置のハードウェア構成の一例を示すブロック図である。
【発明を実施するための形態】
【0017】
以下に、本発明に係る実施形態を、図面を参照しつつ説明する。
【0018】
<第1の実施形態>
第1の実施形態にかかるルール生成装置を含む情報処理システムについて説明する。
【0019】
図1は、第1の実施形態にかかる情報処理システム1000の構成の一例を示すブロック図である。
図1に示すように、情報処理システム1000は、ルール生成装置100と、情報加工装置200と、記憶装置300と、を備える。情報処理システム1000は、記憶装置300に格納された個人情報を、ルール生成装置100が生成したルールに従って、情報加工装置200において加工するシステムである。
【0020】
記憶装置300は、加工前個人情報と、加工後個人情報と、ルール生成装置100が生成したルールを示す情報と、を格納する。加工前個人情報は、個人情報を含むデータである。個人情報は、1つあるいは複数の要素の組み合わせにより、特定の個人を識別可能な情報である。具体例を挙げると、情報「神奈川県川崎市に住む山田太郎27歳会社員」は、「神奈川県川崎市」、「山田太郎」、「27歳」、「会社員」という複数の要素により構成される個人情報である。ここでは、個人情報の要素には、当該要素の種別を表す属性の情報が関連付けられている。属性には、例えば、個人の氏名、年齢、性別、生年月日、住所、職業、電話番号、及びメールアドレスがある。個人情報は、図示しない装置によって取得され、加工前個人情報として記憶装置300に格納されてもよいし、ルール生成装置100または情報加工装置200によって取得され、加工前個人情報として記憶装置300に格納されてもよい。加工後個人情報は、加工前個人情報が、ルール生成装置100が生成したルールにしたがって加工された情報である。
【0021】
ルール生成装置100が生成したルールは、個人情報を加工する規則を示す。以下、本明細書において、ルール生成装置100が生成したルールを「加工ルール」とも称する。加工ルールは、個人情報の属性ごとに定められる。例えば、属性が「年齢」である情報に対しては「一の位を切り捨てる」といったルールが定められている。
【0022】
[ルール生成装置100の詳細]
図2は、第1の実施形態にかかるルール生成装置100の機能構成の一例を示すブロック図である。
図2に示すように、ルール生成装置100は、検索部110と、抽出部120と、更新部130とを備える。ルール生成装置100は、情報加工装置200と記憶装置300と通信可能に接続されている。ルール生成装置100は、加工ルールを生成する装置である。
【0023】
検索部110は、個人情報を加工するルールに関わる文章を含むドキュメント(以降、本明細書において、単に「ドキュメント」とも称する)に対して検索を行う。具体的には、検索部110は、個人情報の属性を表す、「氏名」、「年齢」、「性別」、「生年月日」、「住所」、「職業」、「電話番号」、及び「メールアドレス」等の言葉を検索キーとして、ドキュメント中の文章を検索する。ドキュメントは、例えば、個人情報の保護に関する法令等に基づく取り決めがまとめられたガイドライン等のテキストデータである。なお、ドキュメントは、記憶装置300に格納されていてもよいし、ルール生成装置100と通信可能に接続される、図示しない装置に格納されていてもよい。このように、検索部110は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う。検索部110は、検索手段の一例である。
【0024】
抽出部120は、検索部110による検索においてヒットした箇所に基づいて、所定の範囲内の文章をドキュメントから抽出する。所定の範囲とは、例えば、検索がヒットした箇所を含む文章である。このとき、抽出部120は、検索がヒットした箇所を含む文章のうち、所定の条件を満たす文章を抽出してもよい。例えば、抽出部120は、検索にヒットした言葉を含む文章に、個人情報の加工手法を表す言葉が含まれていた場合、その検索がヒットした箇所を含む文章を抽出してもよい。このように、抽出部120は、検索がヒットした箇所を含む所定の範囲の文章を、ドキュメントから抽出する。抽出部120は、抽出手段の一例である。
【0025】
更新部130は、抽出部120によって抽出された文章に基づいて、記憶装置300に格納される加工ルールを更新する。例えば、抽出部120によって抽出された文章が「氏名を削除する」であった場合、属性が「氏名」である情報に対して削除を行うことを示す加工ルールを記憶装置300に上書きすることによって、加工ルールを更新する。このとき、属性が「氏名」である情報に関連付けられた加工ルールが記憶装置300に格納されていなかった場合、更新部130は、属性が「氏名」である情報に対して削除を行うことを示す加工ルールを新しく追加してもよい。このように、更新部130は、抽出された文章に基づいて、個人情報を加工する処理において参照する加工ルールを更新する。更新部130は、更新手段の一例を示す。
【0026】
[ルール生成装置100の動作]
次に、ルール生成装置100の動作を説明する。以下に、ルール生成装置100の動作を、
図3のフローチャートを用いて説明する。なお、本明細書において、フローチャート及びシーケンス図の各ステップを「S101」のように、それぞれのステップに付した番号を用いて表現する。
【0027】
検索部110は、予め定めたタイミングごとに、ドキュメントに対して、個人情報の属性を表す言葉を検索キーとして検索を行う(S101)。
【0028】
抽出部120は、検索がヒットした箇所を含む所定の範囲の文章を、ドキュメントから抽出する(S102)。
【0029】
更新部130は、抽出された文章に基づいて、加工ルールを更新する(S103)。
【0030】
以上のように、第1の実施形態にかかるルール生成装置100は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う。そして、ルール生成装置100は、検索がヒットした箇所を含む所定の範囲の文章を、ドキュメントから抽出し、抽出された文章に基づいて、個人情報を加工する処理において参照する加工ルールを更新する。この構成により、ルール生成装置100は、例えば、個人情報の保護に関する法令等に基づく取り決めがまとめられたドキュメントに応じて、個人情報を加工するルールを更新することができる。そのため、ユーザが個人情報を利活用する際には、更新されたルールに従って加工された個人情報を用いればよく、ユーザは適切に個人情報を取り扱うことができる。すなわち、第1の実施形態にかかるルール生成装置100は、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能になるという効果が得られる。
【0031】
<第2の実施形態>
次に、第2の実施形態にかかるルール生成装置を含む情報処理システムについて説明する。
【0032】
図4は、第2の実施形態にかかる情報処理システム1001の構成の一例を示すブロック図である。
図4に示す通り、情報処理システム1001は、ルール生成装置101と、情報加工装置201と、記憶装置301とを備える。また、情報処理システム1001は、ネットワークを介して、外部サーバ装置400と情報処理装置500と通信可能に接続される。情報処理システム1001は、外部サーバ装置400に格納されるドキュメントに基づいてルール生成装置101が加工ルールを生成し、情報処理装置500から取得した個人情報を、情報加工装置201が加工ルールにしたがって加工するシステムである。
【0033】
図5は、第2の実施形態にかかる情報処理システム1001の機能構成の一例を示すブロック図である。
図5に示すように、ルール生成装置101は、検索部111と、抽出部121と、更新部131とを備える。ルール生成装置101は、加工ルールを生成する装置である。
【0034】
情報加工装置201は、属性検出部210と、ルール特定部220と、加工部230とを備える。情報加工装置201は、ルール生成装置101が生成した加工ルールに従って情報を加工する装置である。
【0035】
記憶装置301は、加工前個人情報データベース310、加工ルールデータベース320、加工後個人情報データベース330、及びセマンティック辞書340を有する(詳細は後述する)。なお、本明細書において、データベース(DataBase)を「DB」とも称する。また、
図4において、記憶装置301は、情報処理システム1001外の装置に対して情報のやり取りを行う際、ルール生成装置101または情報加工装置201を介してもよいし、直接ネットワークを介してもよい。また、
図5では、記憶装置301と、ルール生成装置101及び情報加工装置201とは、別個の装置である。これに代えて、記憶装置301は、ルール生成装置101と情報加工装置201との一方または両方が備えていてもよい。
【0036】
図4に示す外部サーバ装置400は、ネットワークを介して情報処理システム1001と通信可能に接続される。外部サーバ装置400は、ドキュメントを保持している。
【0037】
情報処理装置500は、ネットワークを介して情報処理システム1001と通信可能に接続される。情報処理装置500は、情報処理システム1001と通信するための入出力手段を備えた装置である。例えば、情報処理装置500は、パーソナルコンピュータであってもよい。情報処理装置500は、個人情報を情報処理システム1001に送信する。このとき、個人情報は、情報処理装置500のユーザによって入力された情報であってもよいし、図示しない装置から情報処理装置500が取得した情報であってもよい。送信された個人情報は、情報加工装置201を介して、記憶装置301に格納される。
【0038】
[ルール生成装置101の詳細]
検索部111は、個人情報を加工するルールに関わる文章を含むドキュメントに対して検索を行う。検索部111は、ユーザからの指示に応じて検索を行ってもよいし、予めルール生成装置101に設定された機能に従って一定期間ごとに検索を行ってもよい。また、検索部111は、対象のドキュメント全体を検索範囲として検索を行ってもよいし、ドキュメントの一部の予め定められている検索範囲を検索してもよい。
【0039】
検索部111は、検索する際に用いられる検索キーとなる言葉を、加工ルールDB320から取得する。
図6は、加工ルールDB320に含まれる加工ルールの一例を示す図である。一行目には、個人情報の属性が表され、二行目には、一行目の属性の情報を加工する手法が表されている。例えば、
図6の例では、属性が「氏名」である場合、「削除する」という加工ルールが定められている。検索部111は、加工ルールDB320から、属性を表す言葉である「氏名」、「年齢」、「住所」及び「職業」を検索キーとして取得する。
【0040】
検索部111は、検索キーを取得すると、取得した検索キーを用いて、外部サーバ装置400が有するドキュメントを検索する。
図7は、ドキュメントの一例を示す図である。
図7の例では、ドキュメントは、個人情報の加工手法に関する記載を含む、個人情報保護のためのガイドラインである。検索部111は、例えば、「氏名」を検索キーとして、ドキュメントを検索する。
【0041】
抽出部121は、検索がヒットした場合、検索がヒットした箇所を含む所定の範囲の文章を抽出する。このとき、抽出部121は、検索がヒットした箇所を含む文章のうち、所定の条件を満たす文章をドキュメントから抽出する。所定の条件の具体例を挙げると、例えば、検索部111によって「氏名」を検索キーとした検索が行われ、検索がヒットした場合、抽出部121は、「氏名」と、個人情報の加工手法を表す言葉とが含まれている一文をドキュメントから抽出する。個人情報の加工手法を表す言葉は、例えば、「削除する」、「置き換える」、「残す」及び「切り捨てる」等であり、これらの情報は抽出部121において予め与えられている。また、個人情報の加工手法を表す言葉は、属性ごとに定められていてもよい。また、個人情報の加工手法を表す言葉は、1つの属性について1つ定められてもよいし、複数定められてもよい。例えば、「年齢」に対しては、「一桁目を切り上げる」、「一桁目を切り捨てる」及び「一の位を四捨五入する」等が加工手法を表す言葉として定められる。「住所」に対しては、例えば「都道府県のみ残す」及び「都道府県と市区町村とを残す」等が加工手法を表す言葉として定められる。なお、本明細書において、個人情報の加工手法を表す言葉を、「特徴語」とも称する。
【0042】
更新部131は、抽出部121によって抽出された文章に基づいて、加工ルールDB320の加工ルールを更新する。具体的には、抽出部121によって抽出された文章が、属性「住所」を含む「住所を削除する」であった場合、更新部131は、属性「住所」に対応する加工ルールが「削除する」となるように、加工ルールDB320の加工ルールを更新する。
図6の例では、属性「住所」に対応する加工ルールが既に定められている。この場合、更新部131は、既に定められていた加工ルールに対して、属性が「住所」である情報を「削除する」という加工ルールで上書きして加工ルールDB320に登録することによって、加工ルールを更新する。
【0043】
[情報加工装置201の詳細]
属性検出部210は、加工する対象の情報から個人情報の属性を検出する。具体的には、個人情報を加工する指示を受けると、属性検出部210は、加工前個人情報DB310から、加工する対象の情報を読み出す。属性検出部210は、読み出した個人情報の属性を検出する。
図8は、加工前個人情報DB310に含まれる個人情報の一例である。
図8の例では、一行目には、個人情報の属性が表され、二行目には、属性に対応する情報の実データが表される。属性検出部210は、属性として「名前」、「年齢」、「住所」及び「職業」を検出する。このように、属性検出部210は、個人情報を取得し、取得した個人情報に含まれる要素の属性を検出する。属性検出部210は、属性検出手段の一例である。
【0044】
ルール特定部220は、属性検出部210によって検出された属性に対応する加工ルールを、セマンティック辞書340を用いて特定する。
図9は、セマンティック辞書340の一例を模式的に示す図である。セマンティック辞書340には、加工ルールDB320に含まれる加工ルールに関連付けられている属性ごとに、セマンティック領域が定められる。セマンティック領域は、特定の属性と同様の概念を持つ言葉をグループ化したまとまりを指す。セマンティック領域には、それぞれ代表属性が設定される。代表属性は、加工ルールDB320に含まれる加工ルールに関連付けられている属性である。
図9の例では、代表属性として「氏名」が設定されたセマンティック領域には、「氏名」、「名前」、「人名」、「名」及び「姓名」を示す言葉のデータ群が含まれる。なお、セマンティック領域に含まれる言葉はこの例に限らない。
【0045】
ルール特定部220は、属性検出部210によって検出された属性を示す言葉をセマンティック辞書340から探し、検出された属性を示す言葉を含むセマンティック領域を検出する。そして、ルール特定部220は、検出したセマンティック領域に対応する属性に定められた加工ルールを、加工ルールDB320から特定する。このように、ルール特定部220は、加工ルールに関連付けられている属性に基づいて、検出された属性に対応する加工ルールを特定する。ルール特定部220は、ルール特定手段の一例である。
【0046】
加工部230は、ルール特定部220において特定された加工ルールに従って、加工対象の個人情報を加工する。例えば、ルール特定部220において特定された加工ルールが、属性「年齢」の情報に対して「一の位を切り捨てる」という加工ルールであるとする。このとき、加工部230は、加工前個人情報DB310に存在する「年齢」の情報に対して一の位を切り捨てる処理を行うことで、個人情報の加工を行う。加工部230は、加工した個人情報を、加工後個人情報DB330に格納する。このように、加工部230は、加工手段の一例である。なお、加工後個人情報DB330に格納された情報は、ユーザが個人情報を利活用する際に用いられる。
【0047】
[情報処理システム1001の動作]
次に、第2の実施形態にかかる情報処理システム1001の動作を
図10、
図11及び
図13を用いて説明する。なお、以下に説明する動作において、加工前個人情報DB310には、
図8に示す個人情報が格納され、加工ルールDB320には、
図6に示す加工ルールが格納され、セマンティック辞書340は、
図9に示すセマンティック辞書であるとする。また、外部サーバ装置400には、
図7に示すドキュメントが格納されているとする。
【0048】
図10は、情報処理システム1001の動作を説明するシーケンス図である。情報加工装置201が個人情報を加工する指示を受けると(S201)、情報加工装置201が、指示を受けた旨をルール生成装置101に通知する。なお、個人情報を加工する指示は、例えば情報処理システム1001のユーザが、図示しない入力手段を介して情報処理システム1001に入力した指示であるが、この例に限らない。例えば、情報処理装置500から記憶装置301に個人情報が格納されたときに、指示を受けた旨をルール生成装置101に通知するという設定が、情報加工装置201に予めなされていてもよい。
【0049】
ルール生成装置101は、情報加工装置201から通知を受け取ると、加工ルールを更新する処理(ルール更新処理)を行う(S202)。
【0050】
図11は、ルール生成装置101のルール更新処理の動作を説明するフローチャートである。ルール生成装置101の検索部111は、記憶装置301から検索キーを取得する(S301)。ここで、検索部111は、加工ルールDB320から、検索キーとなる属性を表す言葉を取得する。この例では、検索部111は、検索キーとして、属性を表す「氏名」、「年齢」、「住所」及び「職業」を取得する。そして、検索部111は、検索キーを用いてドキュメント中の文章を検索する(S302)。例えば、外部サーバ装置400に格納されたドキュメントに対して、「氏名」を含む文章を検索する。
【0051】
検索部111による検索がヒットした場合(S303の「Yes」)、抽出部121は、検索がヒットした箇所を含む所定の範囲に特徴語があるか否か判別する。検索がヒットした箇所を含む所定の範囲に特徴語がある場合(S304の「Yes」)、抽出部121は、検索キー及び特徴語を含む文章を抽出する(S305)。
図7に示すドキュメントでは、抽出部121は「氏名を削除する」という文章を抽出する。
【0052】
更新部131は、抽出部121によって抽出された文章に基づいて、加工ルールを更新する(S306)。具体的には、更新部131は、S305の処理において抽出された「氏名を削除する」という文章に基づいて、属性「氏名」の情報は「削除する」という加工ルールを、加工ルールDB320に登録することにより、加工ルールDB320を更新する。ここで、
図6に示す加工ルールには、属性「氏名」の情報は「削除する」という加工ルールが既に登録されている。この場合、S306において、加工ルールを登録しなくてもよいし、改めて加工ルールを登録し直してもよい。
【0053】
なお、ルール生成装置101は、検索部111による検索がヒットしない場合(S303のNo)、S304からS306の処理を行わない。また、ルール生成装置101は、検索がヒットした箇所を含む所定の範囲に特徴語がなかった場合(S304の「No」)、S305及びS306の処理を行わない。
【0054】
ルール生成装置101は、S301において取得したすべての検索キーを用いて検索するまで(S307の「No」)、S302からS306の処理を繰り返す。例えば、「年齢」を含む文章を検索していない場合、検索部111は、ドキュメントに対して「年齢」を検索キーとした検索を行う。この場合、抽出部121は、
図7に示すドキュメントから、「年齢の一桁目を四捨五入する」という文章を抽出する。そして、更新部131は、属性「年齢」の情報は「一桁目を四捨五入する」という加工ルールを、加工ルールDB320に登録する。この例では、加工ルールDB320に格納された
図6に示す加工ルールが、
図12に示す加工ルールに更新されたとする。
【0055】
S301において取得したすべての検索キーを用いて検索を行った場合、ルール生成装置101は、検索が終了した旨を情報加工装置201に通知し、
図11のフローを終了する。
【0056】
図13は、情報加工装置201の情報加工処理の動作を説明するフローチャートである。
【0057】
属性検出部210は、記憶装置301の加工前個人情報DB310から、加工対象の情報を読み出す(S401)。そして、属性検出部210は、読み出した個人情報に含まれる属性を検出する(S402)。この例では、属性検出部210は、属性を表す「名前」、「年齢」、「住所」及び「職業」を検出する。
【0058】
ルール特定部220は、セマンティック辞書340を用いて、属性検出部210によって検出された属性を表す言葉を含むセマンティック領域を特定する(S403)。そして、ルール特定部220は、特定されたセマンティック領域に対応する加工ルールを特定する(S404)。例えば、ルール特定部220は、セマンティック辞書340において、属性検出部210によって検出された属性を表す言葉である「名前」を含むセマンティック領域を探す。
図9に示す例では、「氏名」が代表属性として設定されたセマンティック領域に「名前」が含まれている。そのため、ルール特定部220は、代表属性として「氏名」が設定されたセマンティック領域を特定する。代表属性として「氏名」が設定されたセマンティック領域が特定された場合、ルール特定部220は、加工ルールDB320に格納された加工ルールのうち、属性「氏名」の加工ルールを特定する。
図12の例では、ルール特定部220は、属性「氏名」の情報は「削除する」という加工ルールを特定する。
【0059】
ルール特定部220によって加工ルールが特定されると、加工部230は、特定された加工ルールに基づいて、加工対象の個人情報を加工する。この例では、加工部230は、
図8に示す個人情報を、
図12に示す加工ルールに従って加工する。
図14は、加工後の個人情報の一例を示す図である。
図14に示すように、加工部230は、
図8に示す個人情報に対して、属性が「名前」である情報を削除し、属性が「年齢」である情報は一桁目を四捨五入し、属性が「住所」である情報は都道府県のみを残し、属性が「職業」である情報は残すよう加工している。そして加工部230は、加工した個人情報を加工後個人情報DB330に格納する。
【0060】
以上のように、第2の実施形態にかかる情報処理システム1001は、個人情報を加工するルールに関わる文章を含むドキュメントに対して、個人情報の要素に対応する属性を表す言葉を検索キーとして検索を行う。そして、情報処理システム1001は、所定の条件に基づいて、検索がヒットした箇所を含む所定の範囲の文章を抽出し、抽出された文章に基づいて、加工ルールを更新する。さらに、情報処理システム1001は、取得した個人情報に含まれる要素の属性を検出し、検出された属性に対応する、加工ルールを特定し、特定された加工ルールに従って個人情報を加工する。この構成により、情報処理システム1001は、例えば、個人情報の保護に関する法令等に基づく取り決めがまとめられたドキュメントに応じて、個人情報を加工するルールを更新し、更新されたルールに基づいて、個人情報を加工することができる。そのため、ユーザが個人情報を利活用する際には、更新されたルールに従って加工された個人情報を用いればよく、ユーザは適切に個人情報を取り扱うことができる。すなわち、第2の実施形態にかかる情報処理システム1001は、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能になるという効果が得られる。
【0061】
また、第2の実施形態において、加工ルールには、加工ルールに関連付けられている属性を表す言葉と、当該属性と同様の概念を示す言葉と、をグループ化したまとまりであるセマンティック領域のデータ群が対応付けられている。そして、情報処理システム1001は、個人情報に含まれる要素の属性を表す言葉を含むセマンティック領域に対応する加工ルールを特定する。これにより、個人情報に含まれる要素の属性を表す言葉が、加工ルールに関連付けられている属性を表す言葉と異なっていても、双方の言葉の概念が同一である場合に、適切に個人情報を加工することができる。すなわち、個人情報の取り扱いにおいて、法違反のリスクを低減させることが可能になる。
【0062】
また、第2の実施形態にかかる情報処理システム1001は、ドキュメントに応じて加工ルールを更新することができる。そのため、情報処理システム1001の管理者は、更新が必要な加工ルールを目視で探す必要がなくなるので、管理者の作業負担を軽減することができる。
【0063】
<第3の実施形態>
次に、第3の実施形態にかかるルール生成装置を含む情報処理システムについて説明する。
【0064】
法令等に基づく取り決めがまとめられたガイドライン等のドキュメントは、法令の改正等に伴って更新される場合がある。そこで、第3の実施形態では、加工ルールを更新するタイミングを、個人情報を加工する指示を受けた場合に代わり、ドキュメントが更新された場合とする例について説明する。
【0065】
図15は、第3の実施形態にかかる情報処理システム1002の構成の一例を示すブロック図である。
図15に示すように、情報処理システム1002は、第2の実施形態におけるルール生成装置101に代わり、ルール生成装置102を備え、それ以外については、第2の実施形態で説明した情報処理システム1001と同様である。すなわち、情報処理システム1002は、ルール生成装置102と、情報加工装置201と、記憶装置301とを備える。なお、第3の実施形態の説明では、
図15に示す情報処理システムの構成及び動作が、第2の実施形態の説明と重複する内容については説明を省略する。
【0066】
第3の実施形態において、ルール生成装置102は、検索部111と、抽出部121と、更新部131と、更新情報取得部140とを備える。
【0067】
更新情報取得部140は、外部サーバ装置400からドキュメントの更新情報を取得し、図示しない記憶部に格納する。ドキュメントの更新情報は、例えば、ドキュメントが更新された時刻、または日付を含む更新時間である。更新情報取得部140は、更新情報を、所定の時刻において取得するよう設定されてもよいし、一定間隔で取得するよう設定されてもよい。この例に限らず、更新情報取得部140は、情報処理システム1002の管理者が指示したタイミングで更新情報を取得してもよい。また、取得された更新情報が格納される記憶部は、ルール生成装置102内にあってもよいし、記憶装置301内にあってもよい。このように、更新情報取得部140は、ドキュメントが更新された時間を示す更新情報を、所定のタイミングで取得する。更新情報取得部140は、更新手段の一例である。
【0068】
更新情報取得部140は、所定のタイミングで更新情報を取得すると、取得した更新情報が示す時間と、当該取得した更新情報より前に取得された更新情報が示す時間とを比較する。これにより、更新情報取得部140は、所定のタイミングで取得した更新情報が示す時間と同じ時間を示す更新情報が、当該取得した更新情報を取得したタイミングより前に取得されていたかどうかを判別する。所定のタイミングで取得した更新情報が示す時間と同じ時間を示す更新情報が、当該取得した更新情報を取得したタイミングより前に取得されていなかった場合、ドキュメントが更新されていると判別する。
【0069】
検索部111は、更新情報取得部140において、ドキュメントが更新されていると判別された場合、ドキュメントに対して検索を行う。
【0070】
情報加工装置201は、個人情報を加工する指示を受けると、ルール生成装置102に指示を受けた旨を通知せず、情報加工処理を行う。
【0071】
[情報処理システム1002の動作]
次に、第3の実施形態にかかる情報処理システム1002の動作を説明する。
【0072】
図16は、ルール生成装置102の動作を説明するフローチャートである。更新情報取得部140は、所定のタイミングで外部サーバ装置400から更新情報を取得する(S501)。所定のタイミングで取得された更新情報が示す時間と同じ時間を示す更新情報が、当該取得した更新情報を取得したタイミングより前に取得されている場合(S502の「Yes」)、S501の処理を行う。所定のタイミングで取得された更新情報が示す時間と同じ時間を示す更新情報が、当該取得した更新情報を取得したタイミングより前に取得されていない場合(S502の「No」)、ルール更新処理を行う(S202)。
【0073】
このように、第3の実施形態では、ルール生成装置102におけるルール更新処理の動作は、更新情報取得部140の処理結果に応じて開始される。
【0074】
情報加工装置201は、個人情報を加工する指示を受けると(S201)、ルール生成装置102に通知をすることなく情報加工処理(S203)を行う。
【0075】
以上のように第3の実施形態にかかる情報処理システム1002は、ドキュメントが更新された時間を示す更新情報を、所定のタイミングで取得し、当該所定のタイミングで取得された更新情報が示す時間と同じ時間を示す更新情報が、当該所定のタイミングより前に取得されている場合、ルール更新処理を開始する。これにより、更新されたドキュメントに基づく加工ルールを、迅速に生成することができる。
【0076】
<変形例1>
情報加工処理が行われた後、加工部230は、加工対象の個人情報を記憶装置300及び301から削除してもよい。これにより、情報加工処理が施される前の個人情報が流出するリスクを軽減することができる。
【0077】
<変形例2>
検索部110、111は、ドキュメントを検索する範囲を予め定めてもよい。例えば、個人情報の属性及びその加工手法に関する記載が、ドキュメントの特定の範囲に記載されることが予め決まっている場合、検索部110、111は、その特定の範囲に対して検索を行ってもよい。また、ドキュメントに、個人情報の属性及びその加工手法に関して記載された範囲を示す目次の情報が付加されている場合、検索部110、111は、目次の情報を用いて当該範囲を特定し、当該範囲に検索を行ってもよい。これにより、検索部110、111の検索にかかる時間を低減することができる。
【0078】
<変形例3>
抽出部120、121は、検索部110、111による検索がヒットした箇所以降の所定の範囲において、特徴語が含まれる文章を抽出してもよい。
【0079】
特徴語は、特定の属性の情報に対する加工手法を表す言葉である。そのため、属性を表す言葉が記載されている箇所、すなわち検索がヒットした箇所以前よりも、検索がヒットした箇所以降の方が、特徴語の出現可能性が高い。
【0080】
したがって、変形例3における抽出部120、121は、検索部110、111による検索がヒットした箇所を含む所定の範囲全体に対して、特徴語が含まれているか否かを判別する必要がない。すなわち、変形例3における抽出部120、121は、特徴語が含まれているか否かを判別するために参照する範囲が狭いので、抽出部120、121の処理速度を高めることができる。
【0081】
<ルール生成装置のハードウェアの構成例>
上述した第1、第2及び第3の実施形態にかかるルール生成装置を構成するハードウェアについて説明する。
図17は、各実施形態におけるルール生成装置を実現するコンピュータ装置のハードウェア構成の一例を示すブロック図である。
図17が示す各ブロックは、各実施形態におけるルール生成装置及びルール生成方法を実現するコンピュータ装置10と、ソフトウェアとの組み合わせにより実現できる。
【0082】
図17に示すように、コンピュータ装置10は、プロセッサ11、RAM(Random Access Memory)12、ROM(Read Only Memory)13、記憶装置14、入出力インタフェース15、バス16、及びドライブ装置17を備える。
【0083】
記憶装置14は、プログラム(コンピュータプログラム)18を格納する。プロセッサ11は、RAM12を用いて本ルール生成装置にかかるプログラム18を実行する。具体的には、例えば、プログラム18は、
図3、
図10、
図11及び
図16に示す処理をコンピュータに実行させるプログラムを含む。プロセッサ11が、プログラム18を実行することに応じて、本ルール生成装置の各構成要素(上述した、検索部110、111、抽出部120、121、更新部130、131、及び更新情報取得部140等)の機能が実現される。プログラム18は、ROM13に記憶されていてもよい。また、プログラム18は、記録媒体20に記録され、ドライブ装置17を用いて読み出されてもよいし、図示しない外部装置から図示しないネットワークを介してコンピュータ装置10に送信されてもよい。
【0084】
入出力インタフェース15は、周辺機器(キーボード、マウス、表示装置など)19とデータをやり取りする。入出力インタフェース15は、データを取得または出力する手段として機能する。バス16は、各構成要素を接続する。
【0085】
なお、ルール生成装置の実現方法には様々な変形例がある。例えば、ルール生成装置は、専用の装置として実現することができる。また、ルール生成装置は、複数の装置の組み合わせに基づいて実現することができる。
【0086】
各実施形態の機能における各構成要素を実現するためのプログラムを記録媒体に記録させ、該記録媒体に記録されたプログラムをコードとして読み出し、コンピュータにおいて実行する処理方法も各実施形態の範疇に含まれる。すなわち、コンピュータ読取可能な記録媒体も各実施形態の範囲に含まれる。また、上述のプログラムが記録された記録媒体、及びそのプログラム自体も各実施形態に含まれる。
【0087】
該記録媒体は、例えばフロッピー(登録商標)ディスク、ハードディスク、光ディスク、光磁気ディスク、CD(Compact Disc)-ROM、磁気テープ、不揮発性メモリカード、またはROMであるが、この例に限らない。また該記録媒体に記録されたプログラムは、単体で処理を実行しているプログラムに限らず、他のソフトウェア、拡張ボードの機能と共同して、OS(Operating System)上で動作して処理を実行するプログラムも各実施形態の範疇に含まれる。
【0088】
以上、上述した実施形態を参照して本開示を説明した。しかしながら、本開示は、上述した実施形態には限定されない。即ち、本開示は、本開示のスコープ内において、種々の上記開示要素の多様な組み合わせ乃至選択等、当業者が理解し得る様々な態様を適用することができる。
【符号の説明】
【0089】
10 コンピュータ装置
11 プロセッサ
12 RAM
13 ROM
14、300、301 記憶装置
15 入出力インタフェース
16 バス
17 ドライブ装置
18 プログラム
19 周辺機器
20 記録媒体
100、101、102 ルール生成装置
110、111 検索部
120、121 抽出部
130、131 更新部
200、201 情報加工装置
210 属性検出部
220 ルール特定部
230 加工部
310 加工前個人情報データベース
320 加工ルールデータベース
330 加工後個人情報データベース
340 セマンティック辞書
1000、1001、1002 情報処理システム