(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-01-30
(45)【発行日】2024-02-07
(54)【発明の名称】情報処理装置、情報処理方法、プログラム
(51)【国際特許分類】
G06F 21/62 20130101AFI20240131BHJP
【FI】
G06F21/62 354
(21)【出願番号】P 2021212548
(22)【出願日】2021-12-27
【審査請求日】2022-07-14
(73)【特許権者】
【識別番号】390002761
【氏名又は名称】キヤノンマーケティングジャパン株式会社
(73)【特許権者】
【識別番号】592135203
【氏名又は名称】キヤノンITソリューションズ株式会社
(74)【代理人】
【識別番号】100189751
【氏名又は名称】木村 友輔
(72)【発明者】
【氏名】田中 靖大
【審査官】小林 秀和
(56)【参考文献】
【文献】特開2010-204915(JP,A)
【文献】特許第4272690(JP,B1)
【文献】特開2015-125646(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
個人情報を含むデータを取得する取得手段と、
前記データを構成するカラムの種別を決定する決定手段と、
前記決定手段により決定されたカラム種別により特定される加工方法の中から当該カラムのデータに対する加工方法の選択を受け付ける選択受付手段と、
前記選択受付手段により選択を受け付けた加工方法による加工処理が行われた場合の前記データの匿名性を示す値または多様性を示す値の少なくともいずれかを表示するよう制御する表示制御手段と、
前記選択受付手段により選択を受け付けた加工方法により当該カラムのデータに対して加工処理を行う加工手段と、
を備えることを特徴とする情報処理システム。
【請求項2】
前記表示制御手段は、カラム種別により特定される加工方法であって、匿名性を示す値または多様性を示す値が所定の条件を満たす値になる加工方法を表示するよう制御し、
前記選択受付手段は、前記匿名性を示す値または多様性を示す値が所定の条件を満たす値になる加工方法の中からカラムのデータに対する加工方法の選択を受け付けることを特徴とする請求項1に記載の情報処理システム。
【請求項3】
前記加工手段により加工されたデータを出力する指示を受け付ける出力指示受付手段と、
前記出力指示受付手段により指示を受け付けたデータを出力する出力手段と、
前記出力指示受付手段により出力指示を受け付けた場合、当該出力指示を受け付けたデータの利用者の連絡先に係る情報の入力を受け付ける入力受付手段と、
前記出力手段により出力されるデータについて棚卸期間を設定する設定手段と、
前記設定手段により設定された棚卸期間が経過した場合、前記入力受付手段で受け付けた当該データの利用者の連絡先に対して通知する通知手段と、
を備えることを特徴とする請求項1または2に記載の情報処理システム。
【請求項4】
前記表示制御手段は、前記加工手段により加工されたデータを表示するよう制御することを特徴とする請求項1
乃至3のいずれか1項に記載の情報処理システム。
【請求項5】
前記表示制御手段は、前記加工手段による加工前のデータと加工後のデータとを比較可能に表示するよう制御することを特徴とする請求項
1乃至4のいずれか1項に記載の情報処理システム。
【請求項6】
前記表示制御手段は、前記データのうち前記加工手段による加工処理によって変換された値を識別可能に表示するよう制御することを特徴とする請求項
1乃至5のいずれか1項に記載の情報処理システム。
【請求項7】
前記表示制御手段は、前記データのうち前記加工手段による加工処理によって削除された値を識別可能に表示するよう制御することを特徴とする請求項
1乃至6のいずれか1項に記載の情報処理システム。
【請求項8】
前記加工手段による加工処理によって削除されたデータを表示するか否かの指示を受け付ける受付手段を備え、
前記表示制御手段は、前記受付手段により前記削除されたデータを表示する旨の指示を受け付けた場合、当該データを識別可能に表示するよう制御することを特徴とする請求項
1乃至7のいずれか1項に記載の情報処理システム。
【請求項9】
前記表示制御手段は、前記加工手段による加工前のデータの統計値と加工後のデータの統計値とを比較可能に表示するよう制御することを特徴とする請求項
1乃至8のいずれか1項に記載の情報処理システム。
【請求項10】
前記統計値は、異なり数、最大値、最小値、最大頻度、最小頻度、レコード数、異なり数/レコード数の少なくとも1つを含むことを特徴とする請求項
9に記載の情報処理システム。
【請求項11】
前記決定手段は、予め登録されたカラム種別から特定されたカラム種別候補と、処理対象のカラムのカラム名との組み合わせに基づき、当該カラムのカラム種別を決定することを特徴とする請求項
1乃至10のいずれか1項に記載の情報処理システム。
【請求項12】
前記決定手段は、予め登録されたカラム種別から特定されたカラム種別候補と、処理対象のカラムのカラム名との組み合わせが、予め登録された組み合わせである場合、当該組み合わせに対応付けられたカラム種別を、当該カラムのカラム種別として決定することを特徴とする請求項
1乃至11のいずれか1項に記載の情報処理システム。
【請求項13】
前記決定手段は、予め登録されたカラム種別から特定されたカラム種別候補と、処理対象のカラム名との組み合わせが、予め登録された組み合わせではない場合、前記カラム種別候補を当該カラムのカラム種別として決定することを特徴とする請求項
1乃至12のいずれか1項に記載の情報処理システム。
【請求項14】
前記決定手段により決定されたカラム種別の修正を受け付ける修正受付手段を備えることを特徴とする請求項
1乃至13のいずれか1項に記載の情報処理システム。
【請求項15】
前記データにおけるカラムのうち、単独で特定の個人を識別できるカラムおよび他の項目との組み合わせで特定の個人を識別できるカラムの選択を受け付けるカラム選択受付手段を備えることを特徴とする請求項
1乃至14のいずれか1項に記載の情報処理システム。
【請求項16】
前記表示制御手段は、前記他の項目との組み合わせで特定の個人を識別できるカラムの組み合わせに対応する個人のパターン数である匿名性を示す値を表示するよう制御することを特徴とする請求項
15に記載の情報処理装置。
【請求項17】
前記カラム選択受付手段は、前記データにおけるカラムのうち機微情報となるカラムの選択を受け付けることを特徴とする請求項
15または16に記載の情報処理システム。
【請求項18】
前記表示制御手段は、前記他の項目との組み合わせで特定の個人を識別できるカラムの組み合わせに対する機微情報のパターン数である多様性を示す値を表示するよう制御することを特徴とする請求項
17に記載の情報処理システム。
【請求項19】
情報処理システムの取得手段が、個人情報を含むデータを取得する取得工程と、
前記情報処理システムの決定手段が、前記データを構成するカラムの種別を決定する決定工程と、
前記情報処理システムの選択受付手段が、前記決定工程において決定されたカラム種別により特定される加工方法の中から当該カラムのデータに対する加工方法の選択を受け付ける選択受付工程と、
前記情報処理システムの表示制御手段が、前記選択受付工程において選択を受け付けた加工方法による加工処理が行われた場合の前記データの匿名性を示す値または多様性を示す値の少なくともいずれかを表示するよう制御する表示制御工程と、
前記情報処理システムの加工手段が、
前記選択受付工程において選択を受け付けた加工方法により当該カラムのデータに対して加工処理を行う加工工程と、
を備えることを特徴とする情報処理方法。
【請求項20】
コンピュータを請求項1乃至
18のいずれか1項に記載の各手段として機能させるためのプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、情報処理装置、情報処理方法、プログラムに関する。
【背景技術】
【0002】
近年、個人情報を含むデータの分析は、医療情報や交通機関の利用履歴など幅広い分野で行われている。また企業においても新たなサービスの創出や方針・戦略の立案など、様々な場面で活用されている。
【0003】
個人情報を含むデータの分析に対する要求の高まりに鑑み、個人情報データの利活用を促進すべく、2017年に個人情報保護法が改正され匿名加工情報の制度が加わり、更に2020年の改正で仮名加工情報の制度が追加された。
【0004】
法制度の整備に伴い、企業や組織において、匿名加工情報、仮名加工情報の適切な取り扱いが今後要求されることとなる。
【先行技術文献】
【特許文献】
【0005】
【発明の開示】
【発明が解決しようとする課題】
【0006】
特許文献1では、入力データに対し、識別子、準識別子、重要情報に対して、利用者が重みを設定し、設定した重みに応じて有用性をできるだけ損なわないようにk-匿名性を保持した変換を行う技術が開示されている。
【0007】
特許文献1においては、利用者が入力データの属性ごとに、識別子、準識別子、重要情報を利用者が判断して設定しなければならないという課題がある。また、利用者は重みを設定するだけで、加工方法および加工レベルを決めることができず、利用者の目的に適した加工方法を選択することができないという課題がある。
【0008】
そのため、入力データの各属性に対して、識別子、準識別子、機微情報が容易に判断でき、各属性に対して利用目的に応じた任意の加工方法を指示できる技術が望まれる。
【0009】
そこで、本発明は、個人情報に対して効率的かつ適切な匿名加工・仮名加工を行う技術を提供することを目的とする。
【課題を解決するための手段】
【0010】
本発明の情報処理システムは、個人情報を含むデータを取得する取得手段と、
前記取得手段により取得されたデータに対して加工処理を行う加工手段と、
前記加工手段により加工されたデータを表示するよう制御する表示制御手段と、
を備えることを特徴とする。
【発明の効果】
【0011】
本発明によれば、個人情報に対して効率的かつ適切な匿名加工・仮名加工を行うことが可能となる。
【図面の簡単な説明】
【0012】
【
図2】個人情報加工装置100、個人情報管理サーバ110、データ分析端末120として用いられる情報処理装置のハードウェア構成の一例を示すブロック図
【
図5】加工対象とするデータセットを新規で登録する画面の一例
【
図6】加工方法などの各種設定を受け付ける画面の一例
【
図7】データセットの詳細情報を表示する画面の一例
【
図9】削除したカラムを表示する設定にした場合の画面の一例
【
図10】サンプルデータを左右に並べた状態を示す図
【
図12】加工済みデータをダウンロードする際に表示される画面の一例
【
図13】同型データ加工処理の対象となるファイルの入力を受け付ける画面の一例
【
図17】加工情報保存領域に保存される情報を示す図
【
図18】カラム推定処理の詳細を示すフローチャート
【
図19】同型データに対する個人情報加工処理を示すフローチャート
【
図21】カラム種別候補とカラムラベルの定義の一例
【
図22】データの表示レイアウトの切り替え指示を受け付けるアイコン
【
図24】カラム種別が未設定の場合に選択できる加工方法とその説明を示す図
【
図25】カラム種別が氏名の場合に選択できる加工方法とその説明を示す図
【
図26】カラム種別が運転免許証番号の場合に選択できる加工方法とその説明を示す図
【
図27】カラム種別がパスポート番号の場合に選択できる加工方法とその説明を示す図
【
図28】カラム種別が基礎年金番号の場合に選択できる加工方法とその説明を示す図
【
図29】カラム種別が住民票コードの場合に選択できる加工方法とその説明を示す図
【
図30】カラム種別がマイナンバー(個人番号)の場合に選択できる加工方法とその説明を示す図
【
図31】カラム種別が電子メールアドレスの場合に選択できる加工方法とその説明を示す図
【
図32】カラム種別が携帯電話番号の場合に選択できる加工方法とその説明を示す図
【
図33】カラム種別がクレジットカード番号の場合に選択できる加工方法とその説明を示す図
【
図34】カラム種別が住所の場合に選択できる加工方法とその説明を示す図
【
図35】カラム種別が郵便番号の場合に選択できる加工方法とその説明を示す図
【
図36】カラム種別が年齢の場合に選択できる加工方法とその説明を示す図
【
図37】カラム種別が生年月日の場合に選択できる加工方法とその説明を示す図
【
図38】カラム種別が電話番号の場合に選択できる加工方法とその説明を示す図
【
図39】カラム種別が組織名の場合に選択できる加工方法とその説明を示す図
【
図40】カラム種別がマイナンバー(法人番号)の場合に選択できる加工方法とその説明を示す図
【
図41】カラム種別が役職の場合に選択できる加工方法とその説明を示す図
【
図42】カラム種別が性別の場合に選択できる加工方法とその説明を示す図
【
図43】カラム種別が位置情報の場合に選択できる加工方法とその説明を示す図
【
図44】カラム種別が症病名の場合に選択できる加工方法とその説明を示す図
【
図45】カラム種別が罪名・刑罰名の場合に選択できる加工方法とその説明を示す図
【
図46】カラム種別が健診項目の場合に選択できる加工方法とその説明を示す図
【
図47】カラム種別が障害区分の場合に選択できる加工方法とその説明を示す図
【
図48】カラム種別が整数の場合に選択できる加工方法とその説明を示す図
【
図49】カラム種別が数値の場合に選択できる加工方法とその説明を示す図
【
図50】カラム種別が日付の場合に選択できる加工方法とその説明を示す図
【
図51】カラム種別が日時の場合に選択できる加工方法とその説明を示す図
【
図52】カラム種別が番号の場合に選択できる加工方法とその説明を示す図
【
図53】カラム種別が項目の場合に選択できる加工方法とその説明を示す図
【
図54】カラム種別がテキストの場合に選択できる加工方法とその説明を示す図
【
図55】カラム種別が不明の場合に選択できる加工方法とその説明を示す図
【発明を実施するための形態】
【0013】
以下、図面を参照して、本発明の実施形態を詳細に説明する。
【0014】
図1は、本発明の実施形態における個人情報加工システム(情報処理システム)の構成の一例を示す図である。
【0015】
個人情報加工装置100は、個人情報管理サーバ110およびデータ分析端末120とネットワーク(LAN130)を介して接続される構成となっている。
【0016】
個人情報管理サーバ110は、個人情報を保存管理しており、個人情報加工装置100に加工元となる個人情報を提供する。個人情報加工装置100は加工処理実施の間だけ個人情報を保持し、加工完了後は破棄する。
【0017】
データ分析端末120は、ユーザによる操作を受け付け、各種画面を表示する端末であり、個人情報加工装置100から加工済みのデータを取得してデータ分析等を行う。本発明の実施形態においては、加工済みデータをデータ分析目的で取得しているが、加工済みデータの利用目的は特に問わない。
【0018】
なお、
図1にシステム構成は一例であり、図示していない装置と通信可能に接続されていても良いし、個人情報加工装置100、個人情報管理サーバ110、データ分析端末120の機能を1つまたは2つの装置で備えている等、その構成はいずれでも良い。
【0019】
図2は、本発明の実施形態における個人情報加工装置100、個人情報管理サーバ110、データ分析端末120として用いられる情報処理装置のハードウェア構成の一例を示すブロック図である。
【0020】
図2に示すように、情報処理装置は、システムバス200を介してCPU(Central Processing Unit)201、ROM(Read Only Memory)202、RAM(Random Access Memory)203、記憶装置204、入力コントローラ205、音声コントローラ206、ビデオコントローラ207、メモリコントローラ208、よび通信I/Fコントローラ209が接続される。
【0021】
CPU201は、システムバス200に接続される各デバイスやコントローラを統括的に制御する。
【0022】
ROM202あるいは外部メモリ213は、CPU201が実行する制御プログラムであるBIOS(Basic Input/Output System)やOS(Operating System)や、本情報処理方法を実現するためのコンピュータ読み取り実行可能なプログラムおよび必要な各種データ(データテーブルを含む)を保持している。
【0023】
RAM203は、CPU201の主メモリ、ワークエリア等として機能する。CPU201は、処理の実行に際して必要なプログラム等をROM202あるいは外部メモリ213からRAM203にロードし、ロードしたプログラムを実行することで各種動作を実現する。
【0024】
入力コントローラ205は、キーボード210や不図示のマウス等のポインティングデバイス等の入力装置からの入力を制御する。入力装置がタッチパネルの場合、ユーザがタッチパネルに表示されたアイコンやカーソルやボタンに合わせて押下(指等でタッチ)することにより、各種の指示を行うことができることとする。
【0025】
また、タッチパネルは、マルチタッチスクリーンなどの、複数の指でタッチされた位置を検出することが可能なタッチパネルであってもよい。
【0026】
ビデオコントローラ207は、ディスプレイ212などの外部出力装置への表示を制御する。ディスプレイは本体と一体になったノート型パソコンのディスプレイも含まれるものとする。なお、外部出力装置はディスプレイに限ったものははく、例えばプロジェクタであってもよい。また、前述のタッチ操作を受け付け可能な装置については、入力装置も提供する。
【0027】
なおビデオコントローラ207は、表示制御を行うためのビデオメモリ(VRAM)を制御することが可能で、ビデオメモリ領域としてRAM203の一部を利用することもできるし、別途専用のビデオメモリを設けることも可能である。
【0028】
メモリコントローラ208は、外部メモリ213へのアクセスを制御する。外部メモリとしては、ブートプログラム、各種アプリケーション、フォントデータ、ユーザファイル、編集ファイル、および各種データ等を記憶する外部記憶装置(ハードディスク)、フレキシブルディスク(FD)、或いはPCMCIAカードスロットにアダプタを介して接続されるコンパクトフラッシュ(登録商標)メモリ等を利用可能である。
【0029】
通信I/Fコントローラ209は、ネットワークを介して外部機器と接続・通信するものであり、ネットワークでの通信制御処理を実行する。例えば、TCP/IPを用いた通信やISDNなどの電話回線、および携帯電話の4G回線、5G回線等を用いた通信が可能である。
【0030】
尚、CPU201は、例えばRAM203内の表示情報用領域へアウトラインフォントの展開(ラスタライズ)処理を実行することにより、ディスプレイ212上での表示を可能としている。また、CPU201は、ディスプレイ212上の不図示のマウスカーソル等でのユーザ指示を可能とする。
【0031】
次に
図3~
図14を用いて、本発明に係る個人情報加工ツール(以下、本ツールという)について説明する。
【0032】
本ツールは、個人情報である表形式のデータについて加工処理を行うことで、匿名加工情報や仮名加工情報を生成するツールである。なお、本実施例では表形式のデータを対象とするが、JSONなどの形式を対象としても構わないし、単一のファイルではなく同じ書式のファイルの集合であっても構わない。またデータベースのクエリのように結果として表形式のデータが得られるものでも構わない。
【0033】
匿名加工情報とは、個人情報に含まれる記述などの一部や個人識別符号を削除することによって、特定の個人を識別することができないように個人情報を加工して得られる個人に関する情報であって、当該個人情報を復元することができないようにしたものである。
【0034】
仮名加工情報とは、個人情報に含まれる記述などの一部や個人識別符号を削除することによって、他の情報と照合しない限り特定の個人を識別することができないように個人情報を加工して得られる個人に関する情報である。
【0035】
図3は本ツールの画面構成を示す図であり、アプリケーションバー301、メニュー302、コンテンツ領域303から構成される。
【0036】
アプリケーションバー301には、本ツールを表示するためのアイコンやアカウント情報を表示するアイコン、選択中のデータセット名などが表示される。メニュー302は、本ツールが提供する機能が表示される。コンテンツ領域303には、本ツールによる加工対象のデータセット一覧や加工処理の結果や各種入力画面などのコンテンツが表示される。
【0037】
図4はデータセット一覧が表示された画面の一例である。
図4の例では、「sample」という名称のデータセットが表示されている。
図4に示すように、データセット名、状態(データセットに対する解析・加工の状況を示す情報)、加工種別(仮名加工または匿名加工)、更新日時が表示される。また最右列には削除アイコンが表示され、当該アイコンに対して選択操作を受けつけるとデータセットが削除される。
【0038】
図5は加工対象とするデータセットを新規で登録する画面の一例であり、メニューの「新規」が選択操作されることで表示される画面である。
【0039】
データセット名501はユーザにより入力されるデータセットの名称である。なお、入力された名称がすでに登録されたデータセットと同じ名称である場合は、その旨の通知をするなどして設定できないように制御されるものとする。
【0040】
管理責任者502はデータセットの管理者を設定する項目であり、サインインしているアカウントが設定されるものとする。
【0041】
加工種別503はデータセットに対する加工の種別の設定を受け付ける項目であり、匿名加工または仮名加工のいずれかの選択をユーザから受け付ける。
【0042】
仮名ID生成手法504は仮名化の際に使用する生成手法の設定を受け付ける項目であり、「対応表」または「ハッシュ(HMACSHA256)」のいずれかの選択をユーザから受け付ける。
【0043】
仮名IDプレフィックス505は仮名ID生成手法として対応表が選択された場合に有効になる項目であり、「仮名IDプレフィックス」+「ランダムな数値」の書式で仮名化される。
【0044】
ハッシュカギ更新間隔506はハッシュ鍵の更新間隔を日単位で受け付ける項目である。
【0045】
棚卸期間507はデータセットの棚卸期間の設定を受け付ける項目である。加工済みデータが出力されてからここで設定された棚卸期間を経過した場合に、当該加工済みデータの出力者(利用者)に対して電子メールなどにより加工済みデータの状態の確認が行われる。
【0046】
入力データファイル508は、加工したい(仮名加工情報や匿名加工情報に変換したい)ファイルの指定を受け付ける項目である。
【0047】
上述した各項目に対して入力がなされ、追加ボタン509が押下されることで、加工対象のデータセットとして登録される。そして、登録されたデータセットに対してカラム種別の推測処理が行われる。カラム推測処理の詳細は後述する。
【0048】
図6は加工方法などの各種設定を受け付ける画面の一例である。
【0049】
図6の画面はデータセット一覧画面(
図4)においてカラム推定処理が終了し設定が可能な状態のデータセットが選択されることで表示される画面である。
【0050】
画面上部に表示される個人識別項目仮名ID付与601には、個人識別項目(後述)として設定された項目で識別した個人に対してIDを付与する機能について、有効にするか否か(付与するか否か)の設定を受け付け、設定内容の表示がされる。ON(付与する)とOFF(付与しない)を切り替え可能であり、ONにすることで仮名IDが付与される
状態602にはデータセットに対する解析・加工処理の状況を示す情報が表示される。
【0051】
次に
図6における各種設定の受付および設定内容の表示について説明する。
【0052】
カラム名603には、加工対象のデータセットの1行目から取得した値(カラム名)が表示される。
【0053】
種別604は、後述するカラム推測処理により推測された種別である。初期値として推測された種別が設定されるが、プルダウンでユーザが任意の種別を選択することが可能である。このようにユーザから選択を受け付けることで、推測結果の誤りを修正することができる。
【0054】
加工方法605は、カラムのデータに対する加工方法である。初期値としては未加工が設定されるものとし、プルダウンリストの中からユーザの選択を受け付けることで任意の加工方法が設定されるものとする。プルダウンで表示される加工方法は、種別604で選択された種別に応じて異なるものとする。
【0055】
カラム種別ごとに選択できる加工方法を
図24~
図55に示す。
図24~
図55はカラム種別(
図24であれば「未設定(カラム種別が未設定)」というカラム種別、
図25であれば「氏名」というカラム種別)毎に選択できる加工方法と当該加工方法の説明が示されている。
【0056】
図24~
図55のうち、ここでは
図34に示すカラム種別が「住所」の場合に選択できる加工方法について説明する。
【0057】
図34はカラム種別が「住所」の場合に選択できる加工方法と当該加工方法の説明が対応付けて示された図であり、選択できる加工方法として「未加工」「項目削除」「一般化(6地方区分)」「一般化(8地方区分)」「一般化(11地方区分)」「一般化(都道府県)」「一般化(市郡)」「一般化(市区町村:東京23区のみ)」「一般化(市区町村:政令指定都市の区を含む)」の9種類の加工方法が選択可能であることを示している。
【0058】
個人識別項目606は、データセットに含まれるデータのうち個人を識別するためのカラムである。すなわち個人識別項目として選択されたカラムの値の組み合わせが同じ場合には、同一の個人に関するデータとして扱われる。
【0059】
個人識別項目606はユーザの指示に基づき設定されるものであり、
図6の例では、個人識別項目の列に示す丸印に対する選択操作(クリック操作やタッチ操作等)が行われることで個人識別項目として設定する旨の指示を受け付ける。指示を受け付けると当該丸印の色が変わりチェックマークが表示される。
【0060】
識別子607はデータセットに含まれるデータのうち、単独で特定の個人を識別できる可能性のあるカラムである。
【0061】
設定方法は個人識別項目606と同様であるが、予め識別子となる種別を登録しておき、初期値として当該種別に係るカラムを識別子として設定しても良い。
【0062】
初期値として識別子が設定される種別としては、「氏名(姓・名)」「運転免許証番号」「パスポート番号」「基礎年金番号」「住民票コード」「マイナンバー(個人番号)」「電子メールアドレス」「携帯電話番号」「クレジットカード番号」などである。
【0063】
準識別子608はデータセットに含まれるデータのうち、他のカラムと組み合わせることで特定の個人を識別できる可能性のあるカラムである。
【0064】
設定方法は識別子607と同様であり、初期値として準識別子が設定される種別としては、「住所」「郵便番号」「年齢」「生年月日」「電話番号」「組織名」「マイナンバー(法人番号)」「役職」「性別」「位置情報」などである。
【0065】
機微情報609は扱いに注意が必要な情報であり、クレジットカード番号やID・パスワードのように漏洩した場合に個人に損害を与える情報や、病歴、障害区分、犯罪歴などの要配慮情報などである。
【0066】
設定方法は識別子607や準識別子608と同様であり、初期値として機微情報として設定される種別としては、「クレジットカード番号」「マイナンバー(個人番号)」「症病名」「罪名・刑罰名」「健診項目」「障害区分」「年収」などである。
【0067】
以上の設定内容に基づきデータセットに対する加工処理が実行される。
【0068】
【0069】
図6に示すように統計値としてカラムごとに、「異なり数」「最大値」「最小値」「最大頻度」「最小頻度」「レコード数」「異なり数/レコード数」が表示される。
【0070】
異なり数610はカラムに何種類のデータが存在するかを示す値である。
【0071】
最大値611はカラムのデータのうち最大値が表示される。最小値612はカラムのデータのうち最小値が表示される。最大値、最小値は、数値データであるカラムについてのみ表示されるものとする。
【0072】
最大頻度613はカラムのデータのうち出現回数が最も多いデータ(最も多く存在するデータ)の数である。
【0073】
最小頻度614はカラムのデータのう出現回数が最も少ないデータの数である。
【0074】
レコード数615はカラムの有効なレコード数である。
【0075】
異なり数/レコード数616はカラムの異なり数をレコード数で割った値である。値が大きいほど個人を特定できる可能性が高くなることを意味する。
【0076】
次に
図7は
図6のデータセット詳細ボタン619が押下される場合に表示されるデータセットの詳細情報を表示する画面の一例である。
【0077】
図7に示す通り、データセット名、管理責任者、加工種別、個人識別項目仮名IDを付与するか否か、仮名ID生成手法、仮名IDプレフィックス、ハッシュ鍵更新間隔、棚卸期間、作成日時、更新日時が表示される。
【0078】
次に
図8に一例を示す評価結果画面について説明する。評価結果画面は、
図6における評価ボタン617が押下されることで表示される画面である。
【0079】
k-匿名性801には、加工後のk-匿名性におけるkの値が表示される。k-匿名性におけるkの値は、同一の準識別子の組み合わせに対応する個人が少なくとも何人いるかを示す値であり、k≧2であれば一人に特定できない状態を意味する。しなわち、加工後のデータでは、あらゆる準識別子の組み合わせにおいて対応する個人が少なくともk人以上いることを示している。
【0080】
l-多様性802には、加工後のl-多様性におけるlの値が表示される。l-多様性におけるlの値は、同一の準識別子の組み合わせを持つデータに対して、機微情報が少なくともいくつあるか(何パターンあるか)を示す値である。例えば、男性かつ50代が複数人いた(すなわちk-匿名性が2以上である)としても、全員の症例が高血圧であればl-多様性は満たされず(l=1となる)、データ集合がどのようなものかを知っている者には「あの人は高血圧だ」と分かってしまうということになる。
【0081】
統計情報表示領域803は、カラムごとの統計値について加工前後の値を表示する領域である。加工前後で値が変わっているデータは文字色やフォントやサイズなどを変えるなどにより、加工前後で変化していることを識別可能に表示される。
【0082】
サンプル表示領域804は、加工前後のデータセットのデータが比較可能に表示される領域である。加工処理により値が変わっているデータ(項目のデータ)については、文字色やフォントやサイズなどを変えるなどにより、加工前後で変化していることを識別可能に表示される。
【0083】
削除したカラムを表示805は、加工方法として項目削除が設定され加工により削除されたカラムについて、表示するか否かの設定を受け付け、設定内容について表示される項目である。「削除したカラムを表示機能」をONにすることで、削除されたカラムが灰色等で表示される。
【0084】
図9が削除したカラムを表示する設定にした場合の画面の一例である。削除されたカラムの統計値やデータについては、削除されたことが識別可能に表示されている(
図9の例では灰色で表示されている)。
【0085】
並び切り替えアイコン806は、サンプル表示領域804における加工前のデータと加工後のデータの並びを切り替える指示を受け付けるアイコンであり、水平方向に並べる(左右に並べる)か垂直方向に並べる(上下に並べる)かの切り替え指示を受け付けるアイコン(ボタン)である。アイコンは、サンプルデータの表示レイアウトを模式的に表したものである。
【0086】
アイコンが
図22に示す(A)の状態の場合は、サンプルデータを上下に並べた状態(
図8や
図9)であり、この状態のアイコンに対してクリック操作などの選択操作を受け付けると、
図22の(B)に示すアイコンに変わり、サンプルデータの並びが左右に並べた状態(
図10)に切り替わる。
【0087】
同期スクロール807は、サンプル表示領域804における加工前のデータと加工後のデータのスクロールを同期するか否かの設定を受け付け、設定内容を表示する項目である。同期スクロール機能をONにすると、加工前または加工後のどちらかのデータ表示領域についてスクロール操作をすると、他方のデータについてもスクロールして表示される。OFFにした場合は、スクロール操作を受け付けたデータ表示領域のみがスクロールする。
【0088】
加工ボタン808が押下されると、加工対象のデータセットに対して実際に加工処理が行われる。
【0089】
図11は、加工済みデータの出力を行う画面の一例であり、メニューの「出力」が選択操作されることで表示される画面である。
【0090】
図11に示す通り加工済みデータ一覧と出力履歴とが表示される。
【0091】
加工済みデータ一覧1101には、加工処理が行われたデータセットがリスト表示され、データセットの名称、k-匿名性の値、l-多様性の値、作成日が表示される。
【0092】
レコードの右側にあるダウンロードアイコンに対して選択操作が行われると当該データセットをダウンロードするためのダイアログが表示される。ダイアログの一例を
図12に示す。
【0093】
また、加工済みデータ一覧に表示されたデータセットに対してクリック操作等の選択操作を受け付けると、当該データセットに対応する出力履歴1102が表示される。出力履歴に表示されたレコードの選択を受け付けると、
図14に示す出力履歴詳細が表示される。
【0094】
同型データの加工1103は、選択中のデータセットと同じ型のデータセットに対して、同じ加工処理を実施する指示を受け付けるボタンである。同型データ加工ボタンが押下されると
図13に示すダイアログを表示し、ここで選択されたデータファイルに対して加工処理が実行される。
【0095】
図12は加工済みデータをダウンロードする際に表示される画面の一例であり、各種情報の入力を受け付ける画面である。ダウンロードする際に各種情報の入力を受け付けるのは、仮名加工情報は個人情報であるため、いつ誰にどのデータをどのような目的で出力したのか等を管理する必要があるためである。ここで入力された情報は出力履歴として管理される。
【0096】
入力される情報としては、出力データ、状態、利用者、利用形態、提供先、提供先担当者、目的などの情報である。
【0097】
出力ボタン1201が押下されることで、加工済みのデータが出力される。
【0098】
図14は出力履歴の詳細を表示した画面の一例である。詳細情報として、状態(出力済みデータの利用状態)、利用形態、利用者(利用者名、利用者の連絡先)、提供先、提供先担当者、目的、ノート(特記事項など)、出力ファイル名(加工済みデータのファイル名)、最終確認日、出力日時、更新日時などが表示される。
【0099】
次に
図15のフローチャートを用いて、本発明の実施形態における個人情報の加工処理について説明する。
【0100】
図15は、個人情報加工装置100のCPU201が所定の制御プログラムを読み出して実行する処理であり、個人情報管理サーバ110から取得した個人情報を含んだ表形式のデータを匿名加工または仮名加工する処理を示すフローチャートである。
【0101】
本発明の実施例においては、表形式のデータを対象とするが、JSONなどの形式を対象としても構わないし、単一のファイルではなく同じ書式のファイルの集合であっても構わない。またデータベースのクエリのように結果として表形式のデータが得られるものでも構わない。
【0102】
ステップS1501では、
図16に示すような初期設定画面を表示して、設定を識別する設定名1601と加工種別1602(「仮名加工」または「匿名加工」)を取得する。
【0103】
ステップS1502では、個人情報管理サーバ110から処理対象となる個人情報含んだ表形式のデータを取得する。
【0104】
ここでは、
図16の初期設定画面において設定名と加工種別を設定し、個人情報管理サーバ110から処理対象となるデータを取得する構成としているが、上述した通り、
図5の画面を用いて処理対象のデータと加工方法等を受け付ける構成でも良い。
【0105】
ステップS1503では、ステップS1502で取得した表形式データの全てのカラムに対して、カラム種別の推定を行う。カラム推定処理の詳細については
図18のフローチャートを用いて後述する。
【0106】
ステップS1504では、ステップS1503で推定したカラム種別に対して予め定められた個人情報属性と加工方法を取得し、加工設定における初期値として各カラムに設定する。
【0107】
ステップS1505では、ステップS1504で初期値を設定した加工設定を
図6に示すような設定画面を表示して利用者に個人情報属性と加工方法の確認と変更を促す。
【0108】
本実施例において、カラム種別に応じて予め用意された典型的な加工方法(
図24~
図55)の中から選択するように構成しているが、詳細な設定を可能とするように構成してもよい。また、k-匿名性等の評価値が所定の条件を満たす値になるような加工方法を提示したり、所定の条件を満たす値にならない加工方法については選択できないように制御しても良い。
【0109】
設定画面においては、評価ボタン617を押下すると、加工設定をS1501で取得した設定とともに、
図17に示す加工情報保存領域における加工設定保存テーブル1701に保存し、ステップS1506に処理を移す。終了ボタン618が押下された場合は処理を終了する。
【0110】
ステップS1506では、ステップS1505で確認された加工設定に従って加工を実施した場合のk値(k-匿名性)やl値(l-多様性)など匿名性を評価可能な値や、カラムごとの加工前後の統計値を求め、
図8に示すような評価画面に表示する。
【0111】
ステップS1507では、評価画面において、加工ボタンが押下された場合はステップS1508に処理を移す。キャンセルボタンが押下された場合は、ステップS1505に処理を移す。
【0112】
ステップS1508では、処理対象データに対して、S1505で設定した加工設定に従った加工を実施する。
【0113】
ステップS1509では、ステップS1501で設定した加工種別が「仮名加工」であった場合、ステップS1510に処理を移す。加工種別が「匿名加工」であった場合、ステップS1511に処理を移す。
【0114】
ステップS1510では、加工時に生成された加工情報を設定と関連付けて加工情報保存領域303における加工情報保存テーブル602に保存する。
【0115】
加工情報としては、加工方法としてハッシュ化を用いた際のパラメータや対応表などが該当する。
【0116】
ステップS1511では、加工結果である仮名加工情報または匿名加工情報を、加工情報保存領域における加工結果保存テーブル1703に保存する。
【0117】
カラム推定処理
次に
図18のフローチャートを用いて、本発明の実施形態におけるカラム推定処理について説明する。
【0118】
ステップS1801では、処理対象とする個人情報含んだ表形式のデータにおけるカラムに対して、ステップS1807までの繰り返し処理を開始する。
【0119】
ステップS1802では、予め定義されているカラム種別(
図23)に対して、ステップS1804までの繰り返し処理を開始する。
【0120】
ステップS1803では、処理対象のカラムの各行に対して、処理対象のカラム種別に定義された条件に合致するかを判断し、合致した行数をカウントする。
【0121】
ステップS1804では、処理対象となるカラム種別がまだあれば、ステップS1802からの繰り返し処理を実施する。処理対象となるカラム種別がなければ、ステップS1805に処理を移す。
【0122】
ステップS1805では、カラム種別のうち合致した行数が最大であったカラム種別を、処理対象のカラムのカラム種別候補とする。すなわち、最もカラム種別として適切である種別を、カラム種別候補とする。
【0123】
合致行数が最大のカラム種別であっても、カラムにおいて占める割合が規定値未満である場合はカラム種別候補としないよう構成してもよい。
【0124】
ステップS1806では、カラム種別候補とカラムラベル(カラム名)の組み合わせが、予め定義された組み合わせに合致すれば、関連付けられているカラム種別を処理対象のカラムのカラム種別とする。合致しなければ、ステップS1805で取得したカラム種別候補をカラム種別とする。
【0125】
カラム種別候補とカラムラベルの定義の一例を
図21に示す。
図21に示すように、カラム種別候補2101とカラムラベル2102との組み合わせに対して、カラム種別2103が対応付けて登録されている。
【0126】
ステップS1807では、処理対象となるカラムがまだあれば、ステップS1801からの繰り返し処理を実施する。処理対象となるカラムがなければ、処理を終了する。
【0127】
ここで
図23に示す予め定義されたカラム種別について説明する。
【0128】
図23に示す通り、カラム種別2301と条件2302とが対応付けて定義されている。条件については、単語(辞書)を登録しておきカラムの各行の値と登録された単語が一致するか否か評価(判定)するもの(
図23の例では、カラム種別が「人名」「地名」「性別」の条件が該当する)や、正規表現を用いて判定するもの(
図23の例では、カラム種別が「郵便番号」「日付」の条件が該当する)、値の範囲が指定されているもの(
図23の例ではカラム種別が「体重」の条件が該当する)などがある。このほかにも桁数や文字数を条件として定義しても良い。
【0129】
図23のカラム種別は一例であり、この他の種別が登録されていても構わない(例えば
図24~
図55に示すカラム種別)。また条件についても一例である。
【0130】
また、カラムの各行それぞれについて条件に合致するかを判定し最大行数に合致したカラム種別をカラム種別候補とする方法ではなく、カラムの各行の値の平均や分散などを条件として定義し平均や分散が当該条件に合致するかを評価することで、最も適切なカラム種別候補を特定しても良い。
【0131】
また、テキストの長さや値の異なり数に基づき、自由書式であるか否かを特定することも可能である。
【0132】
以上のように本実施例においては、処理対象のカラムのカラム種別については、予め登録されたカラム種別(
図23)のうち最も適したカラム種別を特定し(特定されたカラム種別をカラム種別候補とする)、特定されたカラム種別候補と処理対象のカラムのカラムラベルとの組み合わせに基づき、当該カラムのカラム種別を決定する。具体的には、特定されたカラム種別候補と処理対象のカラムのカラムラベルとの組み合わせが
図21に示す定義に登録されている場合は、特定されたカラム種別候補と処理対象のカラムのカラムラベルとの組み合わせに対応付けられたカラム種別を当該カラムのカラム種別として決定する。
【0133】
また、特定されたカラム種別候補と処理対象のカラムのカラムラベルとの組み合わせが
図21の定義に登録されていない場合は、当該特定されたカラム種別候補を、当該カラムのカラム種別として決定する。
【0134】
同型データの個人情報加工処理
次に
図19のフローチャートを用いて、本発明の実施形態における同型データに対する個人情報加工処理について説明する。
【0135】
ステップS1901では、加工設定保存テーブル1701から利用者の指定する設定を取得する。
【0136】
ステップS1902では、個人情報管理サーバから、ステップS1901で取得した設定と同形式の表形式データを処理対象として取得する。「同形式」とはカラムの構成が等しく、各カラムの形式も等しいものを示す。
【0137】
なおここでは、ユーザから設定の指定を受け付け、当該設定と同形式の表形式データを処理対象として取得する構成を例に説明しているが、
図11、
図13を用いて上述した通り、ユーザにより加工済みデータセットの選択を受け付け、当該データセットと同型データセットの入力を受け付けることで、処理対象のデータセットを取得しても良い。
【0138】
ステップS1903では、加工情報保存テーブル1702から、ステップS1901で取得した設定に紐づいた加工情報を取得する。加工種別が「匿名加工」の場合は、ステップS1510を実行していないことから加工情報がないので新規の加工情報を生成する。
【0139】
ステップS1904では、取得した加工方法、加工情報に基づいて、ステップS1506と同様の評価を行い、評価結果を
図8に示すような評価画面に表示する。
【0140】
ステップS1905では、評価画面において、加工ボタンが押下された場合は処理をステップS1906に移す。キャンセルボタンが押下された場合は、処理をステップS1904に処理を移す。
【0141】
評価は、設定に紐づいた加工結果保存テーブル1703の加工済みデータを含めて行うように構成しても構わない。
【0142】
ステップS1906では、処理対象データに対して、加工設定に従った加工を実施する。
【0143】
ステップS1907では、ステップS1901で取得した設定の加工種別が「仮名加工」であった場合、ステップS1908に処理を移す。加工種別が「匿名加工」であった場合、ステップS1909に処理を移す。
【0144】
ステップS1908では、加工時に更新された加工情報を加工情報保存領域303における加工情報保存テーブル1702に反映する。
【0145】
ステップS1909では、加工済みデータを加工情報保存領域303における加工結果保存テーブル1703に保存する。
【0146】
利用者が加工済みデータを利用する場合は、加工結果保存テーブル1703から指定した加工済みデータを取得して利用する。
【0147】
個人情報加工処理具体例
次に個人情報加工処理の具体例として、
図20に示す表形式のデータ2001に対して、
図15に示す個人情報加工処理が実施された場合について説明する。
【0148】
ステップS1501では、
図16に示すような初期設定画面から、設定名「購買8月」と加工種別「仮名加工」を取得したとする。
【0149】
ステップS1502では、個人情報管理サーバから処理対象として
図20に示す表形式データ2001を取得する。
【0150】
ステップS1503では、ステップS1502で取得した表形式データ2001に対して
図18に示したカラム種別の推定処理を行う。
【0151】
ステップS1801では、表形式データ2001における最初のカラム2002(「姓」)に対して、ステップS1807までの繰り返し処理を開始する。
【0152】
ステップS1802では、予め定義されているカラム種別「人名」に対して、ステップS1804までの繰り返し処理を開始する。
【0153】
ステップS1803では、処理対象のカラム2002の各行に対して、カラム種別「人名」に定義された条件に合致するかを判断する。人名の判断(条件)は予め用意された辞書に基づくものとする。カラム1102においては「佐藤」「高橋」「鈴木」「田中」「福岡」が辞書にあり合致したものとする。結果としてカラム種別「人名」のカウントは5となる。
【0154】
ステップS1804では、次のカラム種別「地名」があるとすると、ステップS1802に処理を戻す。
【0155】
ステップS1802では、カラム種別「地名」に対して、ステップS1804までの繰り返し処理を開始する。
【0156】
ステップS1803では、処理対象のカラム1102の各行に対して、カラム種別「地名」に定義された条件に合致するかを判断する。地名の判断も予め用意された辞書に基づくものとする。カラム1102においては「福岡」が辞書にあり合致したものとする。結果としてカラム種別「地名」のカウントは1となる。
【0157】
以下、同様に定義されているカラム種別に対してS1802からS1804同様の処理を繰り返す。
【0158】
ステップS1805では、行数をカウントしたカラム種別のうち最大数であったカラム種別「人名」をカラム2002のカラム種別候補とする。
【0159】
ステップS1806では、カラム種別候補「人名」とカラムのラベル「姓」の組み合わせが、予め定義された組み合わせ(
図21)に合致しないので、カラム2002のカラム種別を「人名」とする。
【0160】
ステップS1807では、処理対象となるカラム2003がまだあるので、ステップS1801からの繰り返し処理を実施する。
【0161】
カラム2003およびカラム2004に対して同様の処理を実施して、それぞれのカラム種別を「人名」「性別」とする。
【0162】
カラム2005に対しても同様に、ステップS1801からS1805までの処理を実施し、カラム2005のカラム種別候補として「日付」を得る。
【0163】
ステップS1806では、カラム種別候補「日付」とカラムのラベル「生年月日」の組み合わせが、予め定義された組み合わせ(
図21)の2102に合致するので、定義2101からカラム2005のカラム種別を「生年月日」とする。
【0164】
以下、同様の処理を繰り返す、全てのカラムに対してカラム種別を推定する。
【0165】
ステップS1504では、ステップS1503で推定したカラム種別に対して予め定められた個人情報属性と加工方法を取得し、加工設定における初期値として各カラムに設定する。
【0166】
表形式データ2101においては、カラム「姓」「名」に対しては「識別子」が、カラム「性別」「生年月日」「住所」に対しては「準識別子」が、「年収(万円)」に対しては「機微情報」が、個人情報属性として付与される。
【0167】
ステップS1505では、ステップS1504で初期値を設定した加工設定を
図8に示すような設定画面を表示して作業者に個人情報属性と加工方法の確認と変更を促す。
【0168】
以降の処理については省略する。
【0169】
結果として、「姓」「名」「性別」「生年月日」「住所」に対して、適切な加工を施すべき必要があることが容易に判断できるようになる。更に、各カラムに対して任意の加工方法を選択することが可能であり、評価を繰り返すことで適切な範囲で目的に合った加工方法を検討することが可能となる。
【0170】
また、加工情報の保存(ステップS1510)は仮名加工の場合にのみなされ、匿名加工の場合は加工結果から再識別ができないようになる。一方、仮名加工の場合は、加工情報を利用することで、月次データなど同形式のデータを随時加工する場合でも、加工済みデータからの個人の特定は避けつつも同一性を維持し利便性を高めることが可能となる。
【0171】
加工情報は利用者が容易に取得できない構成となっており、利用者が安易に再識別を行ってしまうこともなく、定期的に加工情報をリセット(削除)すれば更に安全性を高めることが可能となる。
【0172】
本発明は、例えば、システム、装置、方法、プログラムもしくは記録媒体等としての実施態様をとることが可能である。具体的には、複数の機器から構成されるシステムに適用しても良いし、また、一つの機器からなる装置に適用しても良い。
【0173】
また、本発明におけるプログラムは、
図15、
図18、
図19に示すフローチャートの処理方法をコンピュータが実行可能なプログラムであり、本発明の記憶媒体は
図15、
図18、
図19の処理方法をコンピュータが実行可能なプログラムが記憶されている。なお、本発明におけるプログラムは
図15、
図18、
図19の各装置の処理方法ごとのプログラムであってもよい。
【0174】
以上のように、前述した実施形態の機能を実現するプログラムを記録した記録媒体を、システムあるいは装置に供給し、そのシステムあるいは装置のコンピュータ(またはCPUやMPU)が記録媒体に格納されたプログラムを読み出し、実行することによっても本発明の目的が達成されることは言うまでもない。
【0175】
この場合、記録媒体から読み出されたプログラム自体が本発明の新規な機能を実現することになり、そのプログラムを記録した記録媒体は本発明を構成することになる。
【0176】
プログラムを供給するための記録媒体としては、例えば、フレキシブルディスク、ハードディスク、光ディスク、光磁気ディスク、CD-ROM、CD-R、DVD-ROM、磁気テープ、不揮発性のメモリカード、ROM、EEPROM、シリコンディスク等を用いることが出来る。
【0177】
また、コンピュータが読み出したプログラムを実行することにより、前述した実施形態の機能が実現されるだけでなく、そのプログラムの指示に基づき、コンピュータ上で稼働しているOS(オペレーティングシステム)等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0178】
さらに、記録媒体から読み出されたプログラムが、コンピュータに挿入された機能拡張ボードやコンピュータに接続された機能拡張ユニットに備わるメモリに書き込まれた後、そのプログラムコードの指示に基づき、その機能拡張ボードや機能拡張ユニットに備わるCPU等が実際の処理の一部または全部を行い、その処理によって前述した実施形態の機能が実現される場合も含まれることは言うまでもない。
【0179】
また、本発明は、複数の機器から構成されるシステムに適用しても、ひとつの機器から成る装置に適用しても良い。また、本発明は、システムあるいは装置にプログラムを供給することによって達成される場合にも適応できることは言うまでもない。この場合、本発明を達成するためのプログラムを格納した記録媒体を該システムあるいは装置に読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。
【0180】
さらに、本発明を達成するためのプログラムをネットワーク上のサーバ、データベース等から通信プログラムによりダウンロードして読み出すことによって、そのシステムあるいは装置が、本発明の効果を享受することが可能となる。なお、上述した各実施形態およびその変形例を組み合わせた構成も全て本発明に含まれるものである。
【符号の説明】
【0181】
100 個人情報加工装置
110 個人情報管理サーバ
120 データ分析端末120
130 LAN