(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-17
(45)【発行日】2024-07-25
(54)【発明の名称】非識別化データベースにおける再識別リスクを監視する方法及びシステム
(51)【国際特許分類】
G06F 21/62 20130101AFI20240718BHJP
【FI】
G06F21/62 345
(21)【出願番号】P 2023549138
(86)(22)【出願日】2021-09-29
(86)【国際出願番号】 GB2021052528
(87)【国際公開番号】W WO2022084646
(87)【国際公開日】2022-04-28
【審査請求日】2024-06-11
(32)【優先日】2020-10-23
(33)【優先権主張国・地域又は機関】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】523152846
【氏名又は名称】ミラドール アナリティクス リミテッド
【氏名又は名称原語表記】MIRADOR ANALYTICS LIMITED
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100229264
【氏名又は名称】清水 正一
(72)【発明者】
【氏名】ジョン ブラックポート
(72)【発明者】
【氏名】コリン モファット
(72)【発明者】
【氏名】ポール シマーズ
(72)【発明者】
【氏名】ポール ベイレス
(72)【発明者】
【氏名】ジェイミー グレイ
【審査官】石坂 知樹
(56)【参考文献】
【文献】米国特許出願公開第2004/0199781(US,A1)
【文献】米国特許出願公開第2017/0124351(US,A1)
【文献】米国特許出願公開第2013/0332194(US,A1)
【文献】米国特許第10803201(US,B1)
【文献】米国特許出願公開第2020/0311308(US,A1)
【文献】米国特許出願公開第2019/0138749(US,A1)
【文献】米国特許出願公開第2017/0083719(US,A1)
【文献】米国特許出願公開第2005/0165623(US,A1)
【文献】特表2018-519743(JP,A)
【文献】特表2023-543716(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/62
(57)【特許請求の範囲】
【請求項1】
個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットについての再識別リスクを監視する
、コンピュータに実装される方法であって、該方法は:
前記データセット及び前記データセットへの更新を入力として受信するように構成されたユーザインタフェース(UI)を提供するステップと、
前記UIに対しての入力として、前記データセットを提供するステップと、
第1のコンピュータプログラムにより、各レコードについて個別の再識別リスクを自動的に推定し、個別の再識別リスクが予め指定された個別リスク閾値を超えているレコードが何件あるかを決定することによって、前記データセット又は前記データベースのサブセットについての再識別リスクを推定する
ように構成されたコンピュータ装置を提供するステップと、
前記UIに対しての入力として、前記データセットへの前記更新を提供するステップと、
第2のコンピュータプログラムにより、前記コンピュータ装置が、さらに前記更新済みデータセット又は前記データベースの前記サブセット又は前記更新の少なくとも1つについての前記再識別リスクが、所定のデータセットリスク閾値未満であるか否かについて規則的に監視
し、前記再識別リスクが、前記所定のデータセットリスク閾値に達した又はこれを超過した場合、
個別の再識別リスクを自動的に推定するステップと
、
前記再識別リスクが、前記所定のデータセットリスク閾値に達した又はこれを超過した場合、前記データセットを不適合として識別するステップと、
適合データセットを生成するために、改変データセットについての前記再識別リスクが前記所定のデータセットリスク閾値未満となる迄前記不適合データセットを反復的に改変し、前記適合データセットを前記ユーザインタフェース内に提供するステップとを含み、
前記個別の再識別リスクを自動的に推定するステップは:
フィールドのサブセットを選択し、前記サブセット内の各フィールドについて、集団フィールド統計的分布を計算するステップと、
前記集団フィールド統計的分布から前記フィールドのサブセットについて複合統計的分布を計算するステップと、
前記複合統計的分布から前記フィールドのサブセットの各フィールドについて前記レコードと同じフィールド値を有する源集団のメンバー数と思わしき個数を計算するステップとを含む、方法。
【請求項2】
請求項1に記載の方法において、
前記データベースは複数のデータベースレコードと複数のデータベースフィールドとを備え、各データベースレコードは複数の連関フィールド値を有し、各連関フィールド値はデータベースフィールドと関連しており、
前記データセットは複数のデータセットレコードと複数のデータセットフィールドとを備え、各データセットレコードは複数の連関フィールド値を有し、各連関フィールド値はデータセットフィールドと関連しており、
前記複数のデータセットレコードは前記データベースレコードのサブセットであり、前記複数のデータセットフィールドは前記データベースフィールドのサブセットである、方法。
【請求項3】
請求項2に記載の方法において、各データベースレコードは源集団の個人に対応する、方法。
【請求項4】
請求項
1に記載の方法において、前記フィールドのサブセット内の前記フィールドは、前記フィールドのサブセット内の全てのフィールドが準識別事項となるように選択される、方法。
【請求項5】
請求項
1に記載の方法において、前記集団フィールド統計的分布を計算することは:
前記ソースデータベース又は前記ソースデータベースに対して外部的であり前記源集団に関連している第2のデータベースを選択することと、
前記選択されたデータベースから前記集団フィールド統計的分布を導出することとを含む、方法。
【請求項6】
請求項
1に記載の方法において、前記方法は、前記データセットの内部統計的分布を計算するステップをさらに含み、前記更新済みデータセット又は前記更新の少なくとも1つについての前記再識別リスクが前記所定のデータセットリスク閾値未満であるか否かについて規則的に監視するステップは:
前記データセットの前記内部統計的分布を規則的に監視することと、
前記内部統計的分布が所定の許容される変分を超えて変化したものである場合、前記データセットについての前記再識別リスクを再計算することとを含む、方法。
【請求項7】
請求項
1に記載の方法において
、初期データセットに更新を提供することは、前記データセットに追加すべき非識別
化レコードのセットを提供することを含む、方法。
【請求項8】
請求項
7に記載の方法において、前記更新済みデータセット又は前記更新の少なくとも1つについての前記再識別リスクが所定のデータセットリスク閾値未満であるか否かについて規則的に監視するステップは:
データベースレコードのセットについての前記再識別リスクを計算することと、
前記データベースレコードのセットについての前記再識別リスクが前記データセットについての前記再識別リスクを上回る場合、前記更新済みデータセットについての前記再識別リスクを再計算することとを含む、方法。
【請求項9】
請求項
7に記載の方法において、前記更新済みデータセット又は前記更新の少なくとも1つについての前記再識別リスクが所定のデータセットリスク閾値未満であるか否かについて規則的に監視するステップは:
データベースレコードのセットが前記データセットに追加される度に、前記データベースレコードのセットの内部統計的分布を計算することと、
前記データベースレコードのセットの前記内部統計的分布が前記所定の許容される変分を超えて前記データセットの前記内部統計的分布から異なる場合、前記更新済みデータセットについての前記再識別リスクを再計算することとを含む、方法。
【請求項10】
請求項
1に記載の方法において、前記再識別リスクを推定するステップは:
各ソースデータベースについて、リスク決定規則リストを提供することと、
前記リスク決定規則リストに基づいて前記データベースの前記再識別リスクを自動的に計算することとを含む、方法。
【請求項11】
請求項
1に記載の方法において、該方法はさらに、前記ユーザインタフェースに対しての入力として前記ソースデータベースに基づいた改変規則のセットを提供するステップを含み、前記不適合データセットは前記改変規則に応じて改変される、方法。
【請求項12】
請求項
11に記載の方法において、適合データセットを生成することは、前記データセット内の前記再識別リスクに寄与しているフィールドを識別すること並びに該フィールドの1つ以上を除く若しくは改変することを含む、方法。
【請求項13】
請求項
1に記載の方法において、前記更新済みデータセット又は前記更新の少なくとも1つについての前記再識別リスクが所定の閾値未満であるか否かについて規則的に監視するステップは、前記更新済みデータセットについての前記再識別リスクを計画された間隔毎に推定することを含む、方法。
【請求項14】
請求項
1に記載の方法において、該方法はさらに、前記再識別リスクについての監視についての自動生成された結果報告を前
記UIに提供するステップを含む、方法。
【請求項15】
個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットについての再識別リスクを監視するシステムであって、該システムは、
前記データセット及び前記データセットへの更新を入力として受信するように構成されたユーザインタフェース
(UI)と、
前記データセットを格納するように構成されたメモリと、
各レコードについて個別の再識別リスクを自動的に推定し、個別の再識別リスクが予め指定された個別リスク閾値を超えているレコードが何件あるかを決定することによって、前記更新済みデータセット又は前記データベースのサブセット又は前記更新の少なくとも1つについての前記再識別リスクが、所定のデータセットリスク閾値未満であるか否かについて規則的に監視するように構成されたリスク監視
コンピュータ装置とを備え、
前記システムは
、前記再識別リスクが前記所定のデータセットリスク閾値に達した又はこれを超過した場合、
自動的にユーザに通知
し、
前記再識別リスクが、前記所定のデータセットリスク閾値に達した又はこれを超過した場合、前記ユーザは自動的に通知され、
前記各レコードについての前記個別の再識別リスクを推定することは:
フィールドのサブセットを選択し、前記サブセット内の各フィールドについて、集団フィールド統計的分布を計算すること、
前記集団フィールド統計的分布から前記フィールドのサブセットについて複合統計的分布を計算すること、
前記複合統計的分布から前記フィールドのサブセットの各フィールドについて前記レコードと同じフィールド値を有する源集団のメンバー数と思わしき個数を計算することを含み、
前記再識別リスクが、前記所定のデータセットリスク閾値に達した又はこれを超過した場合、前記データセットを不適合として識別し、
適合データセットを生成するために、改変データセットについての前記再識別リスクが前記所定のデータセットリスク閾値未満となる迄前記不適合データセットを反復的に改変し、前記適合データセットを前記ユーザインタフェース内に提供するように構成されている、システム。
【請求項16】
請求項
15に記載のシステムにおいて、
前記ユーザインタフェースはグラフィカルユーザインタフェース(GUI)を備えるものであり、
前記データベースへの前記更新は
:データセットレコードから1つ以上のレコードを除くこと、前記データセットレコードに1つ以上のレコードを追加すること、及び1つ以上のデータセットフィールドを除く、追加若しくは改変することの1つ以上を含み、
前記グラフィカルユーザインタフェースは前記ユーザが1つ以上のデータセットフィールドを改変することを可能とするグラフィカル要素を備え、前記グラフィカルユーザインタフェースは前記データセットについての前記再識別リスクの変容をリアルタイムで示すように構成されている、システム。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は、非識別化データベースにおける再識別リスクを監視する方法及びシステムに関する。
【背景技術】
【0002】
データベース或いはデータセットとは、整理されたデータの集合であり、一般的には、コンピュータシステムから電子的に格納及びアクセスされるものである。データベースは多くの場合はテーブルも用いて整理されており、各行はデータベースレコードを表し、各列はデータベースフィールドを表す。レコードは例えば個人に対応し得るものであり、フィールドは例えば、その人の名前、年齢、国籍等の個人の属性に対応し得る。
【0003】
ビッグデータ分析及びデータサイエンスの進展を受けて、データ市場並びにデータベースを販売若しくは共有する組織の数は増えた。これと並行して、それらのデータベース内に含まれる情報が帰属する個人のプライバシーも重要性が増してきた。個人情報を含むデータベースを扱う組織が、十分なレベルのデータ非識別化によって個人のプライバシーを保護することを担保するために、国内外で様々な法令が導入されている。
【0004】
組織は一般的に、データベースを第三者及び/又は公衆に共有する前に、データベースの非識別化をなすことが求められる。非識別化とは、個人を識別することを可能とするフィールドを除く又は不明瞭にする処理である。一般的に、データセットは、個人名や社会保障番号等の明示的な個人情報を含むフィールドを除くことで非識別化される。これらは一般的には、「識別事項」又は「直接識別事項」と呼ばれる。もっとも、データベースには、「準識別事項」と呼ばれる、直接的識別事項ではないが、同じデータベースや他のデータベースの他の準識別事項と組み合わせることで、個人を識別できるフィールドが含まれていることもある。準識別事項の例としては、例えば、完全な郵便番号、生年月日や死亡年月日等が含まれ得る。攻撃者は、市民登録や国勢調査データベース等の公的ソースを確認して、データベース内の準識別事項を公的ソースにて利用可能な直接識別事項にリンクすることで、直接識別事項不存在であってもデータベース内の1つ以上のレコードを再識別し得る。
【0005】
データセットの再識別リスク、即ちデータセット内の1つ以上のレコードが再識別されて特定の個人に関連付けられてしまうリスクは、病院システムやプロバイダーグループや保険会社や分析会社等が管理するデータベース等のヘルスケアデータ含有データベースにとって特に大きな懸念となる。一部の規制では、再識別リスクを最小限に抑制するために、そのようなデータベース所有者が充足すべき非識別化の最低基準を定める。例えば米国では、電子医療記録(EMR、electronic medical record)の共有に対しては、医療保険の携行性と責任に関する法律(HIPAA、Health Insurance Portability and Accountability Act)のプライバシー規則で定められた非識別化基準が課される。HIPAAプライバシー規則では、データを非識別化するいくつかのルートが定義されておるが、多くの組織は、抑制を要する18種の識別事項を列挙した「セーフハーバー」手法を頼りにしている。しかし、この手法は、疫学的研究や人口ベース研究に必須な属性を抑制し、研究目的でのデータベースの有用性を限定してしまうため、過度に厳格と頻繁に批判される。
【0006】
臨床治験のEMRのようなデータセットは、データの削除、修正又は追加によって常に更新されている可能性がある。よって、再識別リスクが法令に適合しているか否かについて、ユーザがかなり頻繁に再確認することを要し得る。これはプライバシーの観点から問題がある。なぜならば、データベース所有者がリスク決定専門家の役務提供を繰り返し必要としたり独自の評価に頼ったりして、再評価を要する際にデータベースのリスクを決定することを余儀なくされ、結果的に規制違反が増え得る。リスク決定の専門家に定期的に相談していても、評価間において顧客データがより高いリスクレベルに寄っていってしまう故に、データベースの適合性に疑念がもたらされ得る。
【0007】
大規模データセットについては、リスク評価を1回行うだけでも、多くの場合、時間的、計算的及び経済的な観点から相当な犠牲を伴い得る。現在の再識別リスク推定方法は煩雑であり、多くの場合、リスク決定専門家がかなり限定的な自動化を伴って各データベースを個別に評価する。評価可能となるまでには、リスク決定専門家が顧客たるデータベース所有者と様々なミーティングや対話をこなしていく必要があり得る。また、顧客と専門家とが異なるタイムゾーンに所在していることが多かったり、顧客が不正確なデータや不正確な付随情報を提供してしまったりすること等によってプロセスがさらに遅延する可能性がある。
【0008】
結論としては、再識別リスクに対しての評価活動は多くの場合は時間浪費的な処理であり、所有者、データベースを研究のため必要としている研究者、及び一般のユーザのワークフローを遅滞させるものであり;短期間に亘って複数回の決定を要する事案においてはこの課題がより面倒となる。また、新たなリスク評価が必要となった際に、ユーザに対して自動的に警告を発するシステム及び方法を用意しておくことが望ましいものであり、再識別リスクをより速く且つ全自動的乃至は半自動的に評価するシステム及び方法を得ることが望ましいものであり、これによって時間、コスト、並びに、データベース所有者/ユーザ及び専門家間での対話回数を最小化することが望ましい。
【0009】
データベースの最適な非識別化(de-identification)戦略と再識別(re-identification)リスク推定用モデルは、具体的な用途に依存し得る。異なるユーザは異なるリスクレベルを許容し得るものであり、データベースに保持すべき特定の属性を他の属性に優先させ得る。特定の状況下では、データベース全体のフィールドをいじったり除いたりするのではなく、再識別されるのが高リスクである特定のレコードを除くことがユーザに好まれ得る。また、特定のレコードをデータベースから落とすのではなく、特定の属性又はフィールドを犠牲にしてデータベースから完全に除くことをユーザが好む場合もあり得る。ユーザとリスク決定専門家が、ユーザのニーズを考慮し、また、非識別化戦略とリスクモデルをそれぞれの特定用途向けに容易に適合させ得る方法及びシステムを得ることが望ましい。
【0010】
再識別リスクは、伝統的には、リスク決定専門家らによって、k-匿名性の違反レベルを測定することによって、即ち、データセット中の何件のレコードが所定の閾値を超えるk値を有するかを評価することによって評価されてきた。データセット内の各レコードの情報がデータセット内の少なくともk-1個の他のレコードから区別できない場合、データセットはk-匿名性を有するという。k-匿名性違反は、ある閾値(例えば、5)よりも小さいk値を有するレコードの割合として計算される。一般に、データセットが非識別化されたとみなすための通説的基準は、k値が5未満のレコードが1%未満である場合とされている。
【0011】
もっとも、この手法にはいくつかの短所がある。第1に、これは各レコードのリスクがデータセット内の他のレコードとの相対的関係で計算される相対計算に基づいている故に、データセットにのみに適用でき、個別のレコードには適用不能である。第2に、k-匿名性の手法は、各レコードのリスクがデータセットの規模に影響されることを示唆している。第3に、一部のレコードが特定の情報を欠いている場合、同じk-匿名グループに属するレコードのリスク計算に影響を与えることになる。最後に、各変数がどのようにリスクに寄与しているのかについて容易に理解することが困難である。
【0012】
また、k-匿名性を用いて再識別リスク推定をなす場合、リスクの過大評価が生じて、データベースに含まれる情報を不必要に抑制することにもなり得るものであり、それによってデータセットの質及び有用性を劣化させることになり得る。ヘルスケアにおけるイノベーション、効率、及び発展を可能にするためにデータの有用性を最大化しつつ、機密ヘルスケアデータを含む全てのデータベースにおいて高レベルの個人プライバシーが担保されるべきである。
【0013】
よって、非識別化基準は、有用データを不必要に除かないとしつつ個人のプライバシー保護を担保するために、再識別リスクを十分に小さく押さえるという原理に基づいて解釈されることを要する。データベースの再識別リスク推定方法として、過度に厳格ではなく、且つ、レコードの絶対的な再識別リスクを考慮する方法を提供することが望まれる。
【0014】
最後に、データベース所有者は、例えば、類似のデータが異なる国で用いられる場合、異なる種別の受領者に類似のデータが供される場合、又は異なる用途のために類似のデータが供される場合には、複数の規制機関に対して適合性を証明するためには、残存する開示リスクについて統計分析及び根拠を文書化しておくことを要し得る。非識別化及び匿名化の定義は、業界、国、又は地域によって異なり得るものであり、企業はその異なる定義に沿わせた決定を行うことを要する。データベース所有者は、データ又は周辺環境に変更が生じる度に、専門家の決定を行うことを要する。これらの決定には時間を要し得るものであり、また、複数回の反復をなすとさらに遅延が生じ得る。評価と評価の間においては、定期的に更新されているデータベースに関してはリスクレベルが許容不可能な程度に達している場合もある。
【発明の概要】
【0015】
上述の制約の1つ以上について扱うことが本開示の目的に含まれる。
【0016】
本開示の第1の観点によれば:個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットについての再識別リスクを監視する方法であって、該方法は:前記データセット及び前記データセットへの更新を入力として受信するように構成されたユーザインタフェース(UI)を提供するステップと;前記UIに対しての入力として、前記データセットを提供するステップと;前記データセット又は前記データベースのサブセットについての再識別リスクを推定するステップと;前記UIに対しての入力として、前記データセットへの前記更新を提供するステップと;前記更新済みデータセット、前記データベースの前記サブセット及び前記更新の少なくとも1つについての前記再識別リスクが、所定のデータセットリスク閾値未満であるか否かについて規則的に監視するステップと;前記再識別リスクが、前記所定のデータセットリスク閾値に達した又はこれを超過した場合、前記ユーザに通知するステップとを含む。
【0017】
随意的には、前記データベースは複数のデータベースレコードと複数のデータベースフィールドとを備え、各データベースレコードは複数の連関フィールド値を有し、各連関フィールド値はデータベースフィールドと関連している。
【0018】
随意的には、前記データセットは複数のデータセットレコードと複数のデータセットフィールドとを備え、各データセットレコードは複数の連関フィールド値を有し、各連関フィールド値はデータセットフィールドと関連している。
【0019】
随意的には、前記複数のデータセットレコードは前記データベースレコードのサブセットであり、前記複数のデータセットフィールドは前記データベースフィールドのサブセットである。
【0020】
随意的には、各データベースレコードは源集団の個人に対応する。
【0021】
随意的には、データベースフィールドは1つ以上の医療データフィールドを備える。
【0022】
随意的には、前記データベースへの前記更新は:前記データセットレコードから1つ以上のレコードを除くこと;前記データセットレコードに1つ以上のレコードを追加すること;及び1つ以上のデータセットフィールドを除く、追加若しくは改変することの1つ以上を含む。
【0023】
随意的には、1つ以上のフィールドはカテゴリカルな又は数値的な変数に対応するものであり、また、そのようなフィールドを改変することは、該フィールドに関連するフィールド値の粒度を低減させることを含む。
【0024】
方法は、1つ以上の異なるリスク推定モデルを入力として提供することを含み得るものであり、また、データセットについての再識別リスクは、1つ以上の異なるリスク推定モデルに応じて推定される。
【0025】
随意的には、再識別リスクを推定するステップは、各レコードについて個別の再識別リスクを推定することと、個別の再識別リスクが予め指定された個別リスク閾値を超えているレコードが何件あるかを決定することとを含む。
【0026】
随意的には、各レコードについて前記個別の再識別リスクを推定することは:フィールドのサブセットを選択することと;前記サブセット内の各フィールドについて、集団フィールド統計的分布を計算することとを含む。
【0027】
随意的には、各レコードについて前記個別の再識別リスクを推定することは:前記集団フィールド統計的分布から前記フィールドのサブセットについて複合統計的分布を計算することと;前記複合統計的分布から前記フィールドのサブセットの各フィールドについて前記レコードと同じフィールド値を有する前記源集団のメンバー数と思わしき個数を計算することとをさらに含む。
【0028】
随意的には、前記フィールドのサブセット内の前記フィールドは、前記フィールドのサブセット内の全フィールドが準識別事項となるように選択される。
【0029】
随意的には、前記集団フィールド統計的分布を計算することは:前記ソースデータベース又は前記ソースデータベースに対して外部的であり前記源集団に関連している第2のデータベースを選択することと;前記選択されたデータベースから前記集団フィールド統計的分布を導出することとを含む。
【0030】
随意的には、再識別リスクを推定することは、全データセットレコードについて個別の再識別リスクの平均及び標準偏差を計算することを含む。
【0031】
随意的には、方法は、前記データセットの内部統計的分布を計算するステップを含み;前記更新済みデータセット又は前記更新の少なくとも1つについての前記再識別リスクが前記所定のデータセットリスク閾値未満であるか否かについて規則的に監視するステップは:前記データセットの前記内部統計的分布を規則的に監視することと;前記内部統計的分布が所定の許容される変分を超えて変化したものである場合、前記データセットについての前記再識別リスクを再計算することとを含む。
【0032】
随意的には、前記初期データセットに更新を提供することは、前記データセットに追加すべき非識別化レコードのセット又は非識別化データベースレコードのセットを提供することを含む。
【0033】
随意的には、前記更新済みデータセット又は前記更新の少なくとも1つについての前記再識別リスクが所定のデータセットリスク閾値未満であるか否かについて規則的に監視するステップは:前記データベースレコードのセットについての前記再識別リスクを計算することと;前記データベースレコードのセットについての前記再識別リスクが前記データセットについての前記再識別リスクを上回る場合、前記更新済みデータセットについての前記再識別リスクを再計算することとを含む。
【0034】
随意的には、前記更新済みデータセット又は前記更新の少なくとも1つについての前記再識別リスクが所定のデータセットリスク閾値未満であるか否かについて規則的に監視するステップは:データベースレコードのセットが前記データセットに追加される度に、前記データベースレコードのセットの内部統計的分布を計算することと;前記データベースレコードのセットの前記内部統計的分布が前記所定の許容される変分を超えて前記データセットの前記内部統計的分布から異なる場合、前記更新済みデータセットについての前記再識別リスクを再計算すること、とを含む。
【0035】
随意的には、方法は、前記データセット内の識別可能及び識別不能なレコードの絶対的な又は比例的な数量を表すメトリックを、出力として提供することをさらに含む。
【0036】
随意的には、方法は、前記データセット内の高リスク及び低リスクなレコードの絶対的な又は比例的な数量を表すメトリックを、出力として提供することをさらに含む。
【0037】
随意的には、再識別リスクを推定するステップは:各ソースデータベースについてリスク決定規則リストを提供することと、リスク決定規則リストに基づいてデータベースの再識別リスクを自動的に計算することとを含む。
【0038】
随意的には、方法はさらに:前記再識別リスクが前記所定のデータセットリスク閾値に達した又はこれを超過した場合、前記データセットを不適合として識別するステップと;適合データセットを生成するために、改変データセットについての前記再識別リスクが前記所定のデータセットリスク閾値未満となる迄前記不適合データセットを反復的に改変するステップと;前記適合データセットを前記ユーザインタフェース内に提供するステップとを含む。
【0039】
随意的には、該方法はさらに、前記ユーザインタフェースに対しての入力として前記ソースデータベースに基づいた改変規則のセットを提供するステップを含む。
【0040】
随意的には、前記不適合データセットは前記改変規則に応じて改変される。
【0041】
随意的には、方法は、1つ以上のユーザフィールド優先設定及び/又は他のユーザ優先設定を入力として提供することを含み、また、改変規則は当該設定を考慮する。
【0042】
随意的には、不適合データセットを改変することは、個別の再識別リスクが所定の個別リスク閾値を超えている1つ以上のレコードを除くことを含む。
【0043】
随意的には、適合データセットを生成することは、前記データセット内の前記再識別リスクに寄与しているフィールドを識別すること並びに該フィールドの1つ以上を除く若しくは改変することを含む。
【0044】
随意的には、前記更新済みデータセット又は前記更新の少なくとも1つについての前記再識別リスクが所定の閾値未満であるか否かについて規則的に監視するステップは、前記更新済みデータセットについての前記再識別リスクを計画された間隔毎に推定することを含む。
【0045】
随意的には、間隔は所定の時間間隔である。
【0046】
随意的には、間隔は所定数の更新間隔である。
【0047】
随意的には、所定のデータセットリスク閾値は、ユーザ、評価者又は規制機関によって定められた範囲を伴う。
【0048】
随意的には、方法は:再識別リスクがもう少しで所定のデータセットリスク閾値に達する又はこれを超過する場合、ユーザインタフェース内にてアラートを提供することを含む。
【0049】
随意的には、方法は:再識別リスクがもう少しで所定のデータセットリスク閾値に達する又はこれを超過する場合、電子メール及び/又はテキストによってアラートを提供することを含む。
【0050】
随意的には、該方法はさらに、前記再識別リスクについての監視についての自動生成された結果報告を前記GUIに提供するステップを含む。
【0051】
随意的には、前記ユーザインタフェースはグラフィカルユーザインタフェース(GUI)を備える。
【0052】
随意的には、方法は、再識別リスクの経時的な変動についてのグラフィカルな表示を提供することをさらに含む。
【0053】
随意的には、方法は、所定のデータセットリスク閾値に適合していることについての証明書をGUI内にて提供することをさらに含む。
【0054】
本開示の第2の観点によれば:個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットについての再識別リスクを監視するシステムであって、該システムは:
前記データセット及び前記データセットへの更新を入力として受信するように構成されたユーザインタフェース(UI)と;
前記データセットを格納するように構成されたメモリと;
前記データセット又は前記データベースのサブセットについての再識別リスクを推定するように構成されたリスク推定モジュールと;
前記更新済みデータセット又は前記データベースの前記サブセット、更新の少なくとも1つについての前記再識別リスクが、所定のデータセットリスク閾値未満であるか否かについて規則的に監視するように構成されたリスク監視モジュールと、を備え、
前記システムは:
前記再識別リスクが前記所定のデータセットリスク閾値に達した又はこれを超過した場合、前記ユーザに通知するように構成されている、システムが提供されている。
【0055】
随意的には、前記ユーザインタフェースはグラフィカルユーザインタフェース(GUI)を備える。
【0056】
随意的には、前記グラフィカルユーザインタフェースは、データセット所有者ビュー、専門家ビュー、及びレビューアビューの1つ以上を含む。
【0057】
随意的には、前記データベースは複数のデータベースレコードと複数のデータベースフィールドとを備え、各データベースレコードは複数の連関フィールド値を有し、各連関フィールド値はデータベースフィールドと関連している。
【0058】
随意的には、前記データセットは複数のデータセットレコードと複数のデータセットフィールドとを備え、各データセットレコードは複数の連関フィールド値を有し、各連関フィールド値はデータセットフィールドと関連している。
【0059】
随意的には、前記複数のデータセットレコードは前記データベースレコードのサブセットであり、前記複数のデータセットフィールドは前記データベースフィールドのサブセットである。
【0060】
随意的には、前記グラフィカルユーザインタフェースは、1つ以上のユーザフィールド優先設定及び/又は他のユーザ優先設定を入力するためのグラフィカル要素を含む。
【0061】
随意的には、前記データベースへの前記更新は:前記データセットレコードから1つ以上のレコードを除くこと;前記データセットレコードに1つ以上のレコードを追加すること;及び1つ以上のデータセットフィールドを除く、追加若しくは改変することの1つ以上を含む。
【0062】
随意的には、前記グラフィカルユーザインタフェースは:前記ユーザが1つ以上のデータセットフィールドを改変することを可能とするグラフィカル要素を備え;前記グラフィカルユーザインタフェースは前記データセットについての前記再識別リスクの変容をリアルタイムで示すように構成されている。
【0063】
本開示の第3の態様によれば、個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットが、1つ以上の所与の規制に適合しているか否かについて決定する方法が開示されるものであり、該方法は:
リスク決定及びコンプライアンス規則についてのリストを提供することと;
コンピュータ装置を用いて、該規則の1つ以上に基づいてデータセットの再識別リスクを自動的に計算することと;
コンピュータ装置を用いて、該規則の1つ以上に基づいてデータセットが1つ以上の規制に適合しているか否かについて自動的に決定することとを含む。
【0064】
随意的には、リスク決定及びコンプライアンス規則についてのリスト内の規則は、1つ以上の提供された規則に依存している。
【0065】
随意的には、方法はさらに:データセットが1つ以上の提供された規制について適合しているものと決定された場合、該1つ以上の規制についての適合証明書を自動的に生成することを含む。
【0066】
随意的には、データセットが1つ以上の提供された規制について不適合となっているものと決定された場合、以下のステップの1つ以上を実施することがさらに含まれる:
不適合の原因のリストを自動的に決定することと;
是正的ステップのリストを自動的に決定してデータセットを変更してそれが適合するようにすることと;
不適合データセットを自動的に変更して適合するデータセットを提供すること。
【0067】
本開示の第4の態様によれば、個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットが、1つ以上の所与の規制に適合しているか否かについて決定するシステムが開示されるものであり、該システムは:
データセット並びにリスク決定及びコンプライアンス規則についてのリストを入力として受信するように構成されたユーザインタフェース(UI)と;
リスク決定及びコンプライアンス規則についてのリストを格納するように構成されたメモリと;
該規則の1つ以上に基づいてデータセットの再識別リスクを自動的に計算し、該規則の1つ以上に基づいてデータセットが1つ以上の規制に適合しているか否かについて自動的に決定するように構成されたリスク推定及びコンプライアンス決定モジュールとを含む。
【0068】
随意的には、リスク推定及びコンプライアンス決定モジュールは、データセットが1つ以上の提供された規制について適合しているものと決定された場合、該1つ以上の規制についての適合証明書を自動的に生成するようにさらに構成されている。
【0069】
随意的には、リスク推定及びコンプライアンス決定モジュールは、データセットが1つ以上の提供された規制について不適合となっているものと決定された場合、出力にて次の1つ以上を提供するようにさらに構成されている:
不適合の原因のリスト;
データセットを改変してそれが適合するようにするための是正的ステップのリスト;
適合するデータセット。
【0070】
第2、第3及び第4の態様のシステム及び方法は、第1の態様の特徴を使用又は提供すること並びに本明細書に開示される様々な他のステップを組み込むこともできる。
【図面の簡単な説明】
【0071】
本開示は、例示的に、添付の図面を参照して、以下にてさらに詳細に説明される。
【0072】
【
図1】本開示の第1の態様による、個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットについての再識別リスクを監視する方法についての概略図である。
【
図2】例示的なデータベースについて示す図である。
【
図3】本開示の第2の態様による、個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットについての再識別リスクを監視するシステム300についての概略図である。
【
図4】
図1の方法の第1の実施形態による、
図3のシステムについての例示的な使用態様について示す概略図である。
【
図5】
図1の方法の第2の実施形態による、
図3のシステムについての例示的な使用態様について示す概略図である。
【
図6】本開示によるいくつかの実施形態で用いるための適合データセットを出力内にて提供する方法についての概略図である。
【
図7】本開示によるいくつかの実施形態で用いるためのデータセットについての再識別リスクを推定する方法についての概略図である。
【
図8】
図1の方法の第3の実施形態による、データセットDの再識別リスクを監視するための方法についての概略図である。
【
図9】
図1の方法の第4の実施形態による、データセットDの再識別リスクを監視するための方法についての概略図である。
【
図10】
図3のシステムによって自動的に生成された報告の例について示す図である。
【発明を実施するための形態】
【0073】
図1は、本開示の第1の態様による、個人を識別可能な情報を含むソースデータベースから非識別化されたデータセットについての再識別リスクを監視する方法100についての概略図である。方法100は次のステップを含む:前記データセット及び前記データセットへの更新を入力として受信するように構成されたユーザインタフェース(UI)を提供するステップ(S102)と;前記UIに対しての入力として、前記データセットを提供するステップ(S104)と;データセットについての再識別リスクを推定するステップ(S106)と;前記UIに対しての入力として、前記データセットへの前記更新を提供するステップ(S108)と;更新済みデータセット又は更新の少なくとも1つについての再識別リスクが、所定のデータセットリスク閾値未満であるか否かについて規則的に監視するステップ(S110)と;再識別リスクが、所定のデータセットリスク閾値に達した又はこれを超過した場合、ユーザに通知するステップ(S112)。
【0074】
ユーザインタフェースは人間のユーザが対話に用いるコンポーネントであり、また、本願にて説明したようにデータを受信、格納及び管理するための機能を提供することもでき、これらは他のシステムコンポーネント又は人間のユーザから受信される。
【0075】
例示的なソースデータベースが
図2に示されている。データベース200は複数のデータベースレコード210と複数のデータベースフィールド220とを備える。各レコード210は複数の連関フィールド値230を有し、各フィールド値はデータベースフィールドと対応している。例えば、各データベースレコード210は源集団の個人に対応し得るものであり、また、フィールド220は該個人の属性(例えば、「名前」、「年齢」、「性別」等)にも対応し得る。フィールド230は、直接識別事項及び準識別事項の両方を含み得る。源集団は例えば、全世界人口又は指定国の人口又はある国の人口の指定年齢群等とされ得る。連関フィールド値230は、数値的な及びカテゴリカルな変数とされ得る。例えば、「年齢」フィールドに対応する連関フィールド値は通常は正の数であり、他方、血液型に対応する連関フィールド値は通常はA、B、AB及びOの4カテゴリの1つを取る。
【0076】
本開示によるシステム及び方法のいくつかの実施形態では、フィールド220は、例えば血液検査結果や診断や予後等に対応するフィールド等の1つ以上の医療データフィールドを含む。
【0077】
データベース200は通常の意味で意図されるデータベース(即ち、データの単一の集合)に対応するとは限らないことに留意されたい。データベース200は、複数のデータベースを含み得るものであり、これらのデータベースは異なる場所にて格納され得る。本明細書では、データベース200は、非識別化されたデータセット(de-identified dataset)が基とし得る非識別化されていない(non-de-identified data)データの総体を単に示すにすぎず、これは該データを非識別化する前にユーザがそのようなデータについて収集行為を単一の場所/装置/テーブルにて実際に行ったか否かとは独立である。
【0078】
例えば、ユーザは、異なる病院に散らばって行われている研究治験で収集されたデータから非識別化データセットを作成することを要し得るものであり、各病院には参加患者に関するデータが格納されているローカルな電子医療記録(EMR、electronic medical record)システムが備えられているとする。このシナリオの例では、ユーザは、臨床治験の結果を分析するための非識別化データセットを作成するために、各病院のEMRからデータを取得することができる。データは各病院にてローカルに非識別化され、また、後にユーザに提供されることができ、該ユーザが単一データセットにこれらを統合できるものであり;或いは、ユーザはデータを受信しそしてこれらを単一データセット(single dataset)に統合する前にこれらを個別に非識別化することができるものであり;或いは、非識別化前にデータをユーザに提供し、そしてユーザがこれらを1つの単一データセット(one single dataset)に統合して、その後それらを非識別化することができる。
【0079】
好適な実施形態では、ユーザインタフェースはグラフィカルユーザインタフェース(GUI)を備えるも、本開示の範囲から逸脱することなくコマンドプロンプト等の他のタイプのユーザインタフェースを用い得ることに留意されたい。
【0080】
図3は、本開示の第2の態様による、個人を識別可能な情報を含むソースデータベースから非識別化されたデータセット302についての再識別リスクを監視するシステム300についての概略図である。システム300は、
図1の方法と組み合わせて用いられ得る。システム300は、データセット302及び該データセットに対しての更新306を入力として受信するように構成されたグラフィカルユーザインタフェース304の形式でのユーザインタフェースを備える。
【0081】
データセット302は例えばソースデータベース200から非識別化され得るものであり、また、複数のデータセットレコードと複数のデータセットフィールドとを備え得るものであり、各レコードは複数の連関フィールド値を有する。複数のデータセットフィールドは、データベースフィールドのサブセットとされ得るものであり;即ち、データセットはデータベース200内のフィールドのサブセットのみを含み得る。通常、非識別化データセット302は、直接識別事項である任意のフィールドを含まない。
【0082】
システム300は:非識別化データセット302を格納するように構成されたメモリ308と;データセット302についての再識別リスクを推定し、また、更新済みデータセット又は更新の少なくとも1つについての再識別リスクが、所定のデータセットリスク閾値312未満であるか否かについて規則的に監視するように構成されたリスク監視モジュール310とを備える。システム300は、再識別リスクが所定のデータセットリスク閾値312に達した又はこれを超過した場合、グラフィカルユーザインタフェースを介してユーザに通知するように構成されている。システム300は、メモリ内に格納されたデータセットについての再識別リスクを推定するためのリスク推定モジュール314をさらに備え得る。
【0083】
いくつかの実施形態では、データセット302は、システム300への入力として提供された際には既に非識別化されている。他の実施形態では、システム300は、データベース200を入力として受信し、また、非識別化データセット302を出力として提供する非識別化データセット生成モジュール316を備える。非識別化データセット生成モジュール316は、直接識別事項であるデータベースフィールド320のサブセットを識別し、また、データセット302から全ての対応するフィールド値330を除く(remove)ように構成されていることができる。
【0084】
非識別化データセット302はデータベース200の全てのレコードを含み得るか、或いは、データセットレコードはデータベースレコードのサブセットに過ぎないことがあり得るということに留意されたい。例えば、データベース204はビッグデータウェアハウスに対応し得るものであり、システム300のユーザは、複数の関係者に対して売却するかそれらと共有するための、及び/若しくは複数のプロジェクト又は調査研究にて用いるための複数の非識別化データセット302をここから抽出できる。或いは、データベース200は、ある関係者/アプリケーションのために特別に構築されているが、非識別化の必要性により一部のレコードが省略されているデータベースを表し得る。例えば、非識別化データセット生成モジュール316は、データセット生成の一環として各レコードの再識別リスクを評価し、また、再識別リスクが所定の個別リスク閾値318を超えている全てのレコードを省略(omit)するように構成されていることができる。或いは、非識別化データセット生成モジュール316は、値が欠損しているデータベースレコードを破棄(discard)するように構成されていることができる。いくつかの実施形態では、非識別化データセット生成モジュール316は、レコードに連関しているフィールド値が正しいタイプであるか否かを各レコードについて評価する構文解析モジュールを備えるものであり、また、生成モジュールは、1つ以上の連関する値が正しく構文解析できない又は正しいタイプではない全てのデータベースレコードを破棄する。いくつかの実施形態では、データセット生成モジュール316は、不完全なフィールド伴う(即ち、いくつかの欠損した又は正しくない連関フィールド値を伴う)値を有するこれらの不正確なレコードを幾つかを、非識別データセット302に、データセットのユーザ或いはリスク決定専門家或いはデータベース所有者等によって設定される不正確なレコードの最大数まで、含めることを許容し得る。データベース200のレコードを非識別化するための1つ以上の規則を、リスク決定専門家がGUI304を介して設定し、またこれをメモリ308内に格納し得る。
【0085】
ユーザは具体的な件数のレコードを伴う非識別化データセット302をデータベース200から抽出することを必要としている場合があり、また、データセット生成モジュール316は、当該件数のレコードをデータベースレコード210からランダムに選択し且つ非識別化データセット302を生成するためにこれらを非識別化するように構成されていることができる。
【0086】
システム300は、様々なプロジェクト管理機能を実装するように構成されていることができる。特に、GUI304は、データベース所有者が組織アカウント及び様々な組織ユーザアカウントを作成できるように構成され、各組織ユーザアカウントはユーザのタイプに従ってシステム300の具体的な機能へのアクセス権を有しているものとされ得る。ユーザのタイプとしては、役員、データ管理者、データサイエンティスト等があり得る。
【0087】
いくつかの実施形態では、方法100は:所与のデータセットについての再識別リスクが評価されたらば、データセットが、ユーザによって選択された1つ以上のプライバシー規制に適合しているか/適合していないかを決定することと;データセットが不適合であることが判明した場合、不適合の原因及びデータセットを調整し、選択された規制に適合させるための可能な是正的措置を決定することとをさらに含む。データセットが具体的な規制と適合しているか適合していないかを決定することは、再識別リスクを所定の閾値と比較すること及び/又は更なるステップを含み得る。データセットが具体的な規制に適合しているか否かを決定するための1つ以上の規則を、リスク決定専門家が入力としてGUI304に提供でき、これはメモリ308内に格納され得る。システム300は、該規則の1つ以上に基づいてデータセットの再識別リスクを自動的に計算し、該規則の1つ以上に基づいてデータセットが1つ以上の規制に適合しているか否かについて自動的に決定するように構成されたリスク推定及びコンプライアンス決定モジュールを含む。
【0088】
GUI304は、データベース所有者ビュー、リスク決定専門家ビュー、及び評価者ビューを含み得る。例えば、システム300はオンラインプラットフォームとして実装でき、データベース所有者、リスク決定専門家及び評価者がいずれも指定のデータベースに関連する情報に任意の時点にてアクセスできる。所有者はプロジェクトを作成して、該プロジェクトに関連する複数の非識別化データセットを、所有者ビューを介してアップロードできる。システム300は、所定のデータセットについての再識別リスクが推定されるたびに、再識別リスクの監視についての自動生成結果報告を出力として提供し、また、リスクが所定のデータセットリスク閾値未満となる場合、適合証明書を出力として提供するように構成され得る。例えば、リスク推定及び適合決定モジュールは、適合証明書及び報告を自動的に生成するように構成され得る。自動生成報告の例は
図10に示されている。そして、報告及び証明書は、ユーザ、データベース所有者、評価者又はリスク決定専門家が、データセットの適合性を確認するために以後の任意の時点で取り出すことができるように、メモリ内に格納され得る。自動生成報告は、データセットの適合状態、不適合の原因及び/又はデータセットを適合させるための是正的措置に関する情報を含み得る。リスク推定及び適合決定モジュールは、適合データセットを出力として提供するようにさらに構成されていることができる。
【0089】
方法100は、GUI304内に再識別リスク対時間のグラフを表示する等して、再識別リスクの経時的変動についてのグラフィカル表現を提供することをさらに含み得る。
【0090】
図4を参照して、システム300の働きについてさらに詳細に説明するものであり、当該図は、
図1の方法100の第1の実施形態による
図3のシステム300についての例示的な使用態様について示す概略図である。
【0091】
ユーザが非識別化データセット302を入力としてGUI304に提供する(S402)。非識別化データセット302についての再識別リスクが推定される(S404)。再識別リスクはリスク決定専門家によって「手動」で推定でき、当該専門家はGUI304へのアクセスを有し、また、リスク推定の結果を入力し;いくつかの実施形態では、リスクはリスク推定モジュール314によって自動的に推定され得る。
【0092】
以下に詳しく説明するように、様々なリスク推定モデルを用い得る。再識別リスクが所定のデータセットリスク閾値312未満である場合、データセットは適合しているものとみなされる。所定のデータセットリスク閾値312は、ユーザ、評価者又は規制機関によって設定された閾値を含み得る。通常は、所定のデータセットリスク閾値は、データセット302のタイプ及び目的に基づいてリスク決定専門家とデータベース所有者との間で合意された閾値とされよう。
【0093】
そして、ユーザが非識別化データセット302への1つ以上の更新306を入力としてGUI304に提供する。更新306は、データセットレコードを追加又は除くこと、データセットフィールドを追加又は除くこと、並びに、1つ以上のデータセットフィールドを改変することを伴い得る。特に、データセットフィールドは、血液型や郵便番号等のカテゴリカル変数、又は、年齢や血糖値等の数値的変数に対応し得るものであり;そのようなフィールドを改変することは、それらのフィールドに関連するフィールド値の粒度を低減させることを含み得る。例えば、年齢フィールド内の値は5年間隔でグルーピングされ得るものであり;或いは郵便番号については最初の3桁のみを示すことができるものであり;似たようなことが続き得る。
【0094】
新たな更新が提供される度に、メモリ308内に格納されているデータセットは、更新を以て更新される(S408)。監視モジュール304は、更新済みデータセットについての再識別リスクがデータセットリスク閾値未満であるか否かについて監視する(S410)。そうである場合(If it is)には更新済みデータセットは適合したものとしてラベル付けされるものであり(S412)、その余の場合(otherwise)にはGUI304がユーザに対してデータセットが最早適合していないことを通知する(S414)。
【0095】
いくつかの実施形態では、再識別リスクの監視は、更新済みデータセットについてではなくて更新についての再識別リスクを追うことによってなされる。例えば、更新には、データセットに追加すべきデータベースレコードのセットを提供することが含まれ得る。このことは
図5に示されており、当該図は、方法100の第2の実施形態による、システム300についての例示的な使用態様について示す概略図である。図中の共通する参照符合や変数は、共通の特徴を表している。
【0096】
この例では、更新306は、データセット302に追加すべき非識別化レコードのセットを提供することを含む。更新は、メモリ304内に格納されているデータセット302に対して適用される(S406)。更新306で提供されたデータベースレコードのセットについての再識別リスクが推定される(S508a)。再識別リスクが所定の閾値312未満である場合(S510a)、更新済みデータセットは適合しているものとみなされる(S512a)。更新306についての再識別リスクが所定のデータセットリスク閾値312未満でない場合、更新済みデータセットについての再識別リスクが推定される(S508b)。更新されたデータセットについてのリスクが所定の閾値未満である場合は更新済みデータセットは適合しているものとみなされるものであり、その余の場合はGUIがユーザに通知を提供し得る。これは、更新306内にて提供されたレコードのセットが、それ自体では高度の再識別リスクを有し得るが、データセット302に取り込まれるとデータセット全体の再識別リスク許容範囲内に依然あるかもしれないという事実を説明する。
【0097】
上記の方法に対する多くのバリエーションが可能であることに留意されたい。例えば、システムは、更新済みデータセットについてのリスクを考慮するのではなく、更新についてのリスクが閾値を上回ったと決定されたらば直ぐに監視プロセスを中止するように構成され得る。GUIは、更新済みデータセット全体についての再識別リスクが未だ閾値未満であるにもかかわらず、更新についての再識別リスクが閾値を超えたらばいつでも、ユーザに通知を提供したりするように構成され得る。また、
図4及び
図5に示されるステップは、異なる順序で実行されてもよいことに留意されたい。例えば、システム300は、更新を以てデータセットを更新するステップが、再識別リスクが所定の閾値未満であると確認された場合の後にのみなされるように構成され得る。いくつかの実施形態では、システム300は、再識別リスクがもう少しで所定のデータセットリスク閾値に達する又はこれを超過する場合、グラフィカルユーザインタフェース内にアラートが提供されるように構成され得る。
【0098】
図4及び5の具体例では、更新306が提供される度に再識別リスクが監視されるものであるも;いくつかの実施形態では、システムは、メモリ308内に格納された更新済みデータセットについての再識別リスクが計画された時間間隔で推定されるように構成され得るものであり、例えば所定の時間間隔や所定回数の更新がなされた後にこれがなされ得る。例えば、ユーザが毎日又は毎週、データセット302に大量の新規レコードを取り込むことを必要とし得るものであり、システム300は、毎日又は毎週単位でデータセット302の再識別リスクを監視するように構成され得る。代替的には、システム300は、データセット302に追加された新規レコードについて1000件、10,000件、100,000件、ごとといった具合にリスクを監視するように構成され得る。
【0099】
所定のデータセットリスク閾値、通知/アラートが提供されるべき時期、リスク監視をなすべき頻度等の設定は、データセット302を提供する前に、データベース所有者とリスク決定専門家との間で全て合意してGUIを介してセットアップされ得る。
【0100】
再識別リスクは様々な手法で推定され得る。いくつかの実施形態では、方法100については、ユーザが利用可能なモデルのうちの1つ以上を選択することができるとし、また、データセットについての再識別リスクが選択された全てのモデルに従って推定されるものとし、1つ以上の異なるリスク推定モデルをUIへの入力として提供することを含み得る。GUIは各選択されたモデルについてのリスク推定結果を示すように構成され得るものであり、或いは、ユーザが一度に1つのモデルしか選択できないようにGUIを構成し、ユーザが異なるモデルを選択する度にリスク推定結果がリアルタイムで更新されるように構成し得る。
【0101】
好適な実施形態では、再識別リスクの推定は完全自動化又は半自動化されている。再識別リスク(risk of re-identification)を推定することは:各ソースデータベースについてリスク決定規則リストを提供することと;リスク決定規則リストに基づいてデータベースの再識別リスクを自動的に計算することとを含む。
【0102】
典型的には、リスク決定規則のリストは、データベース200又はデータベース200によってソーシングされた第1の非識別化データセット302についてレビューするリスク決定専門家によってGUI304内にてセットアップされるものであり、これらはユーザがシステム300への入力として提供するものであり、また、その後のアップロードに関しては「標準」データセットとして機能するものである。そして、ユーザはデータセットに取り込まれるべきレコードの新しいセット等のデータセット302への更新をGUI304への入力として提供することができ、或いは、ユーザは全ての新たなデータセットを提供することもできるものであり、追加されるべきレコードの各新たなセット又は各々の全ての新たなデータセットは、「標準」データセット302と同じ非識別化処理に従ってソースデータベースから非識別化される。リスク決定専門家によってセットアップされたリスク決定規則のリストに従って、リスク推定モジュール314によって、更新及び/又は全ての新たなデータセットに対する非識別化リスク(risk of de-identification)を自動的に推定できる。
【0103】
方法100は、ユーザが「標準」非識別化データセットをアップロードする際に、データセットフィールド及びデータセット全般に関する一連の質問をユーザに対してプロンプトでき、これらには例えば、各フィールドがどのようなタイプの変数からなると予期されるのか、ユーザがどのフィールドを優先したいのか、各フィールドが表す個々の属性は何か、データセットがどの国に保存されるのか等が含まれ得る。そして、このステップで収集された情報は、リスク決定専門家がGUIでリスク決定規則のリストをセットアップするために用いられる。通常、ユーザが作成するそれぞれの新しいプロジェクトごとに、プロジェクトが準拠する必要のあるプライバシー規制に従って、リスク決定規則の新たなリストがセットアップされる。
【0104】
いくつかの実施形態では、システム300は、以下のように構成されたサブセット配信チェッカーモジュールを備えるものであり、該モジュールは:リスク決定専門家からリスク決定規則及び適合規則についてのセットを入力として受信するステップと;ユーザが新たな非識別化された(de-identified)レコードのサブセットをソースデータベースから抽出する度に、抽出されたデータセットの再識別リスク(risk of re-identification)を自動的に決定するステップと;抽出されたデータセットの再識別リスクを所定のリスク閾値と比較するステップと;規則に基づいて適合又は不適合の状態について出力を提供するステップとをなすように構成されている。この規則は、一般的に、特定のユーザ及びデータセットが適合する必要のあるプライバシー規制及びその他の更なる規制、ユーザのニーズ、及び/又はソースデータベースの特性を考慮する。例えば、ユーザは、自己のデータウェアハウス(ソースデータベース)からデータセットを度々抽出することを要し得る。本開示による方法及びシステムを使用することにより、1回の初期評価のみでリスク決定専門家(リスク決定及び適合規則のリストをセットアップする者)の支援が必要となる。その後、ユーザは、データセットが抽出されたその特定のソースデータベースに対して専門家がセットアップした規則に基づいてデータセットのリスクを自動的に計算するシステム300を介して、その後に抽出された全てのデータセットを評価できることとなろう。システム300は、電子メール、テキスト、又は他の通信媒体を介して報告を提供するように構成されることもある。報告書は、データセットの適合又は不適合に関する情報、個別の再識別リスクが指定値を下回る/上回るデータセットのエントリ数に関するメトリックス、データセットで識別されるフィールドに関する情報等を含み得る。
【0105】
方法100は、
図6に示されるように、不適合であることが判明したデータセットを改変し、適合したデータセットを出力で提供するためのさらなるステップを含み得る。
【0106】
図6は、本開示によるいくつかの実施形態で用いるための適合データセットを出力内にて提供する方法600についての概略図である。方法600は、
図4又は5の方法400又は500の一部として実装され得る。図中の共通する参照符合や変数は、共通の特徴を表している。
【0107】
更新済みデータセットについての再識別リスクが推定され(S408)、また、リスクが所定のデータセットリスク閾値312未満ではない場合(S410)にはユーザに対して通知し(S414)、また、データセットが不適合であるとして識別される(S616)。適合したデータセットを生成するために不適合なデータセットを改変する(S618)。改変済みデータセットの再識別リスクが推定される(S620):それが所定のデータセットリスク閾値312未満である場合(S622)、データセットは適合したものとして識別されてGUI304を介して出力にてユーザに提供されるものであり(S624);その余の場合、S620及びS622が反復される。不適合データセットは、適合したものが得られるまで反復的に改変される。
【0108】
方法600は、グラフィカルユーザインタフェースに対しての入力として改変規則のセットを提供することをさらに含み得るものであり、該規則は、不適合データセットを改変するため及び適合データセットを生成するためのものである。当該改変規則はソースデータベースに基づいていることができ、リスク決定専門家によってもたらされることができる。1つ以上の改変規則は、上述したリスク決定規則のリスト内の規則と同じものとされ得る。いくつかの実施形態では、GUI304はグラフィカル要素を含み得るものであり、これはユーザが1つ以上のユーザフィールド優先設定及び/又は他のユーザ優先設定を入力することを可能とし、改変規則はこれらの設定を考慮したものである。
【0109】
不適合データセットを適合データセットに変換させるための改変には例えば、個別の再識別リスクが所定の個別リスク閾値を超えている1つ以上のレコードを除くことが含まれ得るものであり;或いは、不適合データセット内の再識別リスクに寄与しているフィールドを識別すること並びに該フィールドの1つ以上を除く若しくは改変することが含まれ得る。
【0110】
方法600は、S624で提供された適合データセットを受け入れるか拒絶するかについてGUIのデータベース所有者ビューでユーザに対してプロンプトをなすことをさらに含むものであり、ユーザがデータセットを拒絶した場合にはGUIのリスク決定専門家ビュー内にて通知を提供するものであり、これによってデータベース所有者及び専門家が相互に連携して、適切な適合データセットを生成できよう。
【0111】
GUI304は、1つ以上のユーザフィールド優先設定及び/又は他のユーザ優先設定を入力するための様々なグラフィカル要素を含み得る。。さらに、GUI304は、更新をデータセット302に提供するためのグラフィカル要素を含み得る。特に、いくつかの実施形態では、GUIは、1つ以上のデータセット特性を改変するためのスライダー及び/又は他のタイプのグラフィカル要素(graphical element)を含むものであり、GUI304はデータセットについての再識別リスクの変容をリアルタイムで示すように構成されている。例えば、GUI304は、1つ以上のデータセットフィールドの粒度を変更するための或いはデータセット内に含まれるレコード件数を改変するため等のスライダー等を含み得る。
【0112】
GUI304は、様々なイベントに関してユーザに通知をなすためのグラフィカル通知要素(graphical notification element)をさらに含み得る。例えば、GUIは、非識別化データセット生成モジュール316の構文解析モジュールが、多数のレコードが正しくないフィールドタイプを有しており且つデータセットに関して見直しをすべきことを検出した際に、ユーザに対して通知を発し得るものであり;或いは、GUIは、リスク推定が完了された場合等にユーザに対して通知を発することができる。
【0113】
データセットリスク閾値312は、例えばリスク決定専門家等のユーザによって入力としてGUI304に提供され、また、メモリ308内に格納される値たり得るものであり;或いは、例えばユーザによって選択された特定のリスク推定モデルに基づいている等のユーザ選択パラメータに基づいてシステム300によって自動的に決定される値とされ得る。また、システムは、所定の閾値範囲をユーザが入力可能となるように構成されていてもよく、即ち、ユーザは最大許容リスクのみならず、最小許容リスクも入力し得る。個人のプライバシーを保全する必要性と、研究のためにデータにアクセスする必要性とについて調和させるためには、最小リスクを設けておくことが有用となり得る。システム300は、リスクが所定の閾値を下回った場合にユーザに通知でき、その場合、データベース所有者及び/又はリスク決定専門家は、有用な情報が不必要に除かれたか否かについて識別するために、非識別化処理を見直し得る。
【0114】
図7は、本開示によるいくつかの実施形態で用いるためのデータセットについての再識別リスクを推定する方法700についての概略図である。方法700は、再識別リスクを推定するための上述した方法及びシステムのいずれかと組み合わせて用い得る。例えば、方法700は、方法100のS106及びS110の一部として、リスク推定モジュール314によって実装され得る。
【0115】
非識別化データセットDが提供される(S702)。非識別化データセットDは、例えば、GUIへの入力として提供された非識別化データセット302、又は更新306で提供されるレコードのセットのいずれかとし得るものであり;或いは、更新済みデータセット等とし得る。データセットD内の各レコードRiについて個別の再識別リスクが推定される(S704)。個別の再識別リスクが予め指定された個別リスク閾値を超えているレコードの件数が決定される(S706)。
【0116】
N個のレコードRiを含む所与のデータセットDについて、レコードRiの個別の再識別リスクは、次のように決定し得る。まず、準識別事項とみなされるデータセットフィールドFjについてのサブセットを選択し、また、各フィールドFjについて集団フィールド統計的分布が計算される。Fjの集団フィールド統計的分布は、ソースデータベース又はソースデータベース外部の源集団に関連する第2のデータベースを選択することと;選択されたデータベースから集団フィールド統計的分布を導出することとによって計算できる。例えば、データセットDが米国の人口の個人に関する情報で構成され、フィールドFjが「年齢」である場合、集団フィールドの統計的分布は、米国の全人口の年齢についての統計的分布によって与えられる。
【0117】
そして、フィールドFjの集団フィールド統計的分布から複合統計的分布が計算され、また、複合統計的分布から準識別事項フィールドのサブセットの各フィールドについてレコードRiと同じフィールド値を有する源集団のメンバー数と思わしき個数Piが計算される。例えば、いくつかの実施形態では、リスク推定モジュール314は、レコードRiと同じ準識別事項値を有する源集団内のメンバー数と思わしき個数を計算するように構成されている。そして、データセットDの再識別リスクは、所定の閾値未満にて集団内のいくつかの個人と関連付けられたレコードの件数から推定され得る。典型的な用途では、当該レコード件数が、データセット内の総レコード件数の1%未満ならば、データセットは「安全」又は適合しているとみなされる。
【0118】
データセットD内のレコードRiについて個別の再識別リスクは、異なるいくつかの方法にしたがって決定され得る。
【0119】
方法700は、レコードRiが再識別されるためには、仮想の攻撃者が、Riに関連付けられている個人を、データセットD内だけからではなく、レコードRiがソースされた源集団(例えば、米国の人口)の任意の他の個人であってRiと同じフィールド値を有する者と区別可能であるとの仮定に基づいている。よって、データセットD内にて一意的なフィールド値を有するレコードであっても、再識別リスクを負っているとは限らない。
【0120】
所与のフィールドFjの集団フィールド統計的分布は、例えば国勢調査データベース等の公開されたデータベースから、導出され得る。源集団に関する包括的な情報が公開されていない又は必要な粒度での情報が利用可能ではない準識別事項の場合、リスク決定専門家に既知の外部データベース又は検討対象データベース自体のフィールド値の分布を検討することにより、集団フィールド統計的分布を「経験則的に」導出し得る。集団フィールド統計的分布は、データベース200によってソースされた第1の非識別化データセット302がGUI304に提供されたときに、データベース200内の各データベースレコードについて計算され得るものであり、その後、同じデータベース200から非識別化されるデータセットについてのその後のリスク推定のためにメモリから容易に検索できるようにメモリ308内のライブラリに格納され得る。
【0121】
ライブラリに格納された統計的分布は、源集団の変化を含めるために定期的に更新され得るも、軽微な変化は一般的には再識別リスク推定に関しては無視可能な影響を及ぼすに過ぎないとされる。
【0122】
いくつかの実施形態では、リスク推定モジュールは、全てのデータセットレコードについて個別の再識別リスクの平均及び標準偏差を計算することによって、各レコードの個別の再識別リスクから全体的な再識別リスクを推定するようにさらに構成されていることができる。
【0123】
システム300は、データセット内の識別可能及び識別不能なレコードの絶対的な又は比例的な数量を表すメトリックを、出力として提供するように構成され得る。例えば、システム300は、各レコードについての個別の再識別リスクを最高から最低へとランク付けし、及び/又は、個別リスク(individual risk)が所定の個別リスク閾値を上回っており故にレコードが識別可能とみなされるレコードの総数、並びに、リスク(risk)が所定の個別リスク閾値を下回っており故にレコードが識別不能とみなされるレコードの総数を提供するように構成され得る。
【0124】
図8は、方法100の第3の実施形態による、データセットDの再識別リスクを監視するための方法800についての概略図である。
【0125】
方法800は、本開示による方法及びシステムのいずれかと組み合わせて用い得る。例えば、方法800は、
図3のリスク監視モジュール310によって実装され得る。
【0126】
方法800は次のステップを含む:データセットDの内部統計的分布SDを計算するステップと(S802);データセットDの内部統計的分布を規則的に監視するステップと(S804);データセットの内部統計的分布が所定の許容される変分を超えて変化したものである場合(S806)、データセットについての再識別リスクを再計算するステップと(S808);その余の場合はデータセットDを依然として適合したものとして識別するステップ(S810)。S808は、データセットの内部統計的分布が、S802で計算された当初の内部統計的分布から許容される変分を超えてずれてしまったが故に、新たなリスク推定が必要であるとのアラートをユーザに発するステップをも含み得る。
【0127】
先述したのと類似して、S804でのデータセットの内部統計的分布の規則的監視は、データセットの内部統計的分布について、計画された時間間隔毎に監視すること又は更新が提供される度に監視すること又は指定件数の更新が提供される度に監視することを伴い得る。
【0128】
いくつかの実施形態では、メモリ308内のデータセットに追加すべきデータベースレコードのセットを含む1つ以上の更新306が提供されるものであり;また、再識別リスクの監視は、更新の内部統計的分布SUを計算すること、並びに、更新済みデータセットの内部統計的分布SD+Uが、データセットDの当初の内部統計的分布SDと比して所定の許容変分を超えて異なるか否かを確認することを含む。
【0129】
他の実施形態では、再識別リスクの監視は、更新の内部統計的分布SUを計算すること、並びに、更新の内部統計的分布SUが、メモリ内に格納されたデータセットの当初の内部統計的分布SDと比して所定の許容変分を超えて異なるか否かを確認することを含む。
【0130】
このことは、
図9に示されており該図は、方法100の第4の実施形態による、データセットDの再識別リスクを監視するための方法900についての概略図である。図中の共通する参照符合や変数は、共通の特徴を表している。
【0131】
方法900は次のステップを含む:データセットに追加されるべき非識別化レコードの新たなセット(更新306)が提供される度に、更新306内にて提供された非識別化レコードのセットの内部統計的分布SUを計算するステップと(S904);データベースレコードのセットの内部統計的分布SUが所定の許容される変分を超えてデータセットSDの内部統計的分布から異なる場合(S906)、更新済みデータセットについての再識別リスクを再計算するステップ(S908)と;その余の場合は更新を適用し、また、更新済みデータセットを適合するものとして識別するステップ(S910)。
【0132】
データセット又は更新についての内部統計的分布(internal statistical distribution)を計算することは通常は、各フィールドについて個別的に内部フィールド統計的分布(internal field statistical distribution)を計算して、そして、内部フィールド統計的分布を組み合わせてデータセットについての内部統計的分布を導出することを伴う。いくつかの実施形態では、方法800及び900においてデータセット又は更新の内部統計的分布を計算する際には、準識別事項とみなされるフィールドのみが考慮される。いくつかの実施形態では、該方法は、各フィールドの内部フィールド統計的分布を個別的に検討すること、並びに、各フィールドを独立的に監視することを伴い得る。この実施形態では、該方法は、各フィールドについて異なる所定の許容される変分を提供すること、並びに、各内部フィールド統計的分布が検討対象フィールドに対応する所定の許容される変分を超えて変化したか否かを規則的に監視することを伴い得る。
【0133】
本開示による方法及びシステムは、ハードウェア及びソフトウェアコンポーネントの任意の適切な組合せによって実装され得るものであり、また、本明細書にて提供される特定の例に限定されはしない。例えば、メモリ308は、ハードディスク、クラウドベースドストレージ、サーバ等の1つ以上で構成される1つ以上のメモリコンポーネントに対応し得る。
【0134】
本開示によるシステム及び方法は、1つ以上のオンライン文書リポジトリと統合するように構成されるか、及び/又はAmazon(登録商標)Web Services(AWS)等のオンラインクラウドサービスと統合されるか、又はそれを介して実装されることができる。それらは、ユーザによるプロジェクト管理を支援にするために、オンラインプロジェクト管理ツール(例えば、Monday.com)と共に用いられるようにさらに構成され得る。
【0135】
異なる実施形態では、上記方法の諸ステップは、異なる順序で実行され得るものであり、また、示されたステップは、1つ以上の他のステップの存在又は追加を排除するわけではないことに留意されたい。
【0136】
また、特定の実施形態を参照して上述したコンポーネント及び方法の諸ステップは、交換可能とされ得るものであり、また、本開示の範囲から逸脱せずに、個々のコンポーネント及び方法の諸ステップを異なる態様で組み合わせることによって、多数の他の実施形態を得ることができることに留意されたい。
【0137】
本開示による方法及びシステムは、データセットを経時的に監視することを可能とし、また、源集団内の変化、データセットに取り込まれた新規データ、及び、より一般的にはリスクの変動を惹起するデータセットへの任意の更新を考慮することを可能とする。これによって多くの利点がもたらされる。
【0138】
データセットが不適合となったことを自動的に検出してユーザに通知することで、データベース所有者とリスク決定専門家との間での対話回数を相当に減じることができるものであり、それによってスケーラビリティ及びワークフローをより良好にし得る。さらに、本開示によるシステム及び方法は、適合データセットを生成することによって、ユーザが非適合シナリオを自動的に回避することを可能とする。データベース所有者が、プライバシー規則に違反するリスク並びにデータセットを非識別化するための費用及び時間を最小化できる。GUIによって反対のことが自己に通知されない限り自己のデータセットは適合しているものと安心できるが故に、データベース所有者の負担のほとんどは取り除かれる。証明書及び報告書を任意の時点にて取得でき、評価者、専門家及びデータベース所有者が要する作業を相当に効率化できる。
【0139】
各データセットについて個別の再識別リスクを検討することによって、1つ以上のレコードについての情報が不完全又は欠損しているデータセットについてでも、ユーザがリスク評価を行えるようになる。
【0140】
再識別リスクを低下させることと、ユーザにとって必須な情報を維持することとの最適なバランスが得られるように、各ユーザのニーズを充足させるように非識別化処理を調整できる。監視及びリスク推定は、各データベース所有者のニーズに合致するように、GUIで完全に構成することができる。
【0141】
再識別リスクがより高いレコードについての自動生成ランキングを提供することによって、ユーザは、データセットフィールド全体を犠牲にすることなく、どのレコードがリスクにより多く寄与しているのかを容易に識別して、そしてそれに応じてデータセットを調整できる。本開示による方法及びシステムはさらに、有用な情報をできるだけ犠牲にせずに、再識別リスクを最小化できるように、リスク決定専門家がデータセット内のデータを任意の態様で「切り刻む(slice and dice)」ことを可能にする。
【0142】
さらに、本開示で提案される方法及びシステムは、個別のレコードについてのリスクを計算することを含む故に、並列コンピューティングアーキテクチャを実装する可能性によってさらに利益を得ることができる。
【0143】
データセットについてのリスク及び他のデータセット属性についてリアルタイム可視化を提供することによって、本開示のシステム及び方法は、過去及び現在のデータセットに関する有用な洞察を提供するものであり、その後の更新及びリスク推定を改善するためにこれらを用い得る。
【0144】
異なるテンプレートに基づく、及び/又は、異なる規制への適合を証明する複数の証明書を同じデータベースについてユーザが提供する必要がある場合(異なるリスク推定モデルを用いることをも伴い得る)、アプリケーション内で自動的且つ即座的にこれをなし得る。