IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ビッグ データ サンテの特許一覧

特許7529951初期機密データセットからアバターを作成するための方法、コンピュータプログラム
<>
  • 特許-初期機密データセットからアバターを作成するための方法、コンピュータプログラム 図1
  • 特許-初期機密データセットからアバターを作成するための方法、コンピュータプログラム 図2
  • 特許-初期機密データセットからアバターを作成するための方法、コンピュータプログラム 図3
  • 特許-初期機密データセットからアバターを作成するための方法、コンピュータプログラム 図4
  • 特許-初期機密データセットからアバターを作成するための方法、コンピュータプログラム 図5
  • 特許-初期機密データセットからアバターを作成するための方法、コンピュータプログラム 図6
  • 特許-初期機密データセットからアバターを作成するための方法、コンピュータプログラム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-07-30
(45)【発行日】2024-08-07
(54)【発明の名称】初期機密データセットからアバターを作成するための方法、コンピュータプログラム
(51)【国際特許分類】
   G06F 21/62 20130101AFI20240731BHJP
【FI】
G06F21/62 345
【請求項の数】 15
(21)【出願番号】P 2021539597
(86)(22)【出願日】2020-01-03
(65)【公表番号】
(43)【公表日】2022-03-03
(86)【国際出願番号】 EP2020050097
(87)【国際公開番号】W WO2020144118
(87)【国際公開日】2020-07-16
【審査請求日】2022-12-22
(31)【優先権主張番号】1900108
(32)【優先日】2019-01-07
(33)【優先権主張国・地域又は機関】FR
(73)【特許権者】
【識別番号】521297853
【氏名又は名称】ビッグ データ サンテ
(74)【代理人】
【識別番号】110001656
【氏名又は名称】弁理士法人谷川国際特許事務所
(72)【発明者】
【氏名】ネデレク,ヨアン
(72)【発明者】
【氏名】ブレイラック,オリビエ
【審査官】平井 誠
(56)【参考文献】
【文献】特表2018-528536(JP,A)
【文献】特開2016-115116(JP,A)
【文献】特開2012-022315(JP,A)
【文献】特開2018-200529(JP,A)
【文献】米国特許出願公開第2011/0252336(US,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G06F 21/00-88
(57)【特許請求の範囲】
【請求項1】
コンピュータシステムのデータベースに記憶された初期機密データセットからアバターを作成するための方法であって、前記初期機密データセットが、複数の個人に関連する属性を含み、前記方法が、前記初期機密データセット内の他の個人の中で個人の最も近接したネイバーを識別するタイプであり、それが、
a)所与の個人を中心に、前記個人に関連する属性について、前記初期機密データセット内の全ての個人から使用される最も近いネイバーの数(k)を選択することと、
b)前記個人について、前記初期機密データセット内の前記他の個人の中から前記k個の最も近いネイバーを識別することと、
c)前記個人に関連する少なくとも1つの属性について、前記識別されたk個の最も近いネイバーの前記属性の特徴であり、係数によって重み付けされた数量から新しい属性値を生成することと、
d)前記初期機密データセット内の前記個人に関連する初期機密データが識別不可能であることを保証するために、前記新しい属性値(複数可)を含むアバターデータを作成することと、を含むことを特徴とする、方法。
【請求項2】
前記最も近いネイバーの数(k)が、前記アバターデータの意図される受信者における前記初期機密データの機密性係数および/または信頼性係数に従って選択され、前記機密性係数が高いほどおよび/または前記信頼性係数が低いほど、前記最も近いネイバーの数が高くなり、ならびに前記機密性係数が低いほどおよび/または前記信頼性係数が高いほど、前記最も近いネイバーの数が低くなる、請求項1に記載の方法。
【請求項3】
多変量分析、特に主成分分析が、前記個人の前記k個の最も近いネイバーを識別する前に、前記初期機密データに対して実行され、したがって、前記属性値が修正され、次いで、特に同じユークリッド空間内に投影される、請求項1に記載の方法。
【請求項4】
前記初期機密データが、数値を有する少なくとも1つの属性を含み、前記新しい属性値が、ランダムに選択された係数によって各々重み付けされた、前記k個の最も近いネイバーについての前記同じ属性の前記値から計算された確率的重み付けバリセンター(G)に対応する、請求項1に記載の方法。
【請求項5】
異なる係数が、前記k個の最も近いネイバーの各々の前記属性の値ごとにランダムに選択される、請求項4に記載の方法。
【請求項6】
前記確率的重み付けバリセンター(G)が、数値を有する前記属性の数に対応する次元の数(N)において計算される、請求項4に記載の方法。
【請求項7】
前記初期機密データが、前記個人の特徴を表すクラスに属する少なくとも1つの属性を含み、前記新しい属性値が、前記初期機密データセット全体内の前記クラスに属する前記値の数によって重み付けされる、前記k個の最も近いネイバー内の前記クラスに属する前記値の数に従って計算される、前記k個の最も近いネイバー中の前記クラスの重み付け表現に従ってランダムに選択される、請求項1に記載の方法。
【請求項8】
前記最も近いネイバーの数(k)が可変であり、同じ初期機密データセットについて、一部の個人で、または個々人で異なる、請求項1に記載の方法。
【請求項9】
同じ個人に関連する属性間の関係の異常値もしくは変化を限定するために、特に、数値属性の分布を制限するために、またはクラス属性間の論理的関係を尊重するために、前記アバターデータに少なくとも1つの制約関数が適用される、請求項1に記載の方法。
【請求項10】
前記アバターデータが、前記同じコンピュータシステムおよび/またはリモートサーバのデータベースに記録される、請求項1に記載の方法。
【請求項11】
前記アバターデータの受信者は、前記アバターデータが、電子メールによって、一意のダウンロードリンクを生成および送信し、次いで、テキストメッセージによって、限定された寿命キーを通信することに特に基づく、少なくとも2つのステップを含むハイブリッド認証システムによって利用可能にされたことをアドバイスされる、請求項1に記載の方法。
【請求項12】
コンピュータシステムのデータベースに記憶された初期機密データセットからアバターを作成するためのデバイスであって、前記初期機密データセットが、複数の個人に関連する属性を含み、前記デバイスが、前記初期機密データセット内の他の個人の中で個人の最も近いネイバーを識別するタイプであり、それが、
a)所与の個人を中心に、前記個人に関連する属性について、前記初期機密データセット内の全ての個人から使用される最も近いネイバーの数(k)を選択するように構成された選択モジュールと、
b)前記個人について、前記初期機密データセット内の他の個人の中から前記k個の最も近いネイバーを識別するように構成された識別モジュールと、
c)前記個人に関連する少なくとも1つの属性について、前記識別されたk個の最も近いネイバーの前記属性の特徴であり、係数によって重み付けされた数量からのみ新しい属性値を生成するように構成された生成モジュールと、
d)前記初期機密データセット内の前記個人に関連する初期機密データが識別不可能であることを保証するために、前記新しい属性値(複数可)を含むアバターデータを作成するように構成されたアバター作成モジュールと、を備えることを特徴とする、デバイス。
【請求項13】
前記アバターデータを前記同じコンピュータシステムおよび/またはリモートサーバのデータベースに記録するように構成された記録モジュールも備える、請求項12に記載のデバイス。
【請求項14】
前記アバターデータの受信者に、前記アバターデータが、電子メールによって、一意のダウンロードリンクを生成および送信し、次いで、テキストメッセージによって、限定された寿命キーを通信することに特に基づく、少なくとも2つのステップを含むハイブリッド認証システムによって利用可能にされたことをアドバイスするように構成されたアドバイスモジュールを備える、請求項12に記載のデバイス。
【請求項15】
請求項1に記載のコンピュータシステムのデータベースに記憶された初期機密データセットからアバターを作成する方法を実装するためのコンピュータプログラムであって、前記初期機密データセットが、複数の個人に関連する属性を含み、前記コンピュータプログラムが命令を備え、前記命令が、プロセッサによって順番に読み取られて、実行されたとき、
a)所与の個人を中心に、前記個人に関連する属性について、前記初期機密データセット内の全ての個人から使用される最も近いネイバーの数(k)を選択することと、
b)前記個人について、前記初期機密データセット内の他の個人の中から前記k個の最も近いネイバーを識別することと、
c)前記個人に関連する少なくとも1つの属性について、前記識別されたk個の最も近いネイバーの前記属性の特徴であり、係数によって重み付けされた数量からのみ新しい属性値を生成することと、
d)前記初期機密データセット内の前記個人に関連する初期機密データが識別不可能であることを保証するために、前記新しい属性値(複数可)を含むアバターデータを作成することと、を行うことができる、コンピュータプログラム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、複数の個人に関連する属性を含む、初期機密データセットからアバターを作成するための方法に関する。
【0002】
機密データ、特に使用するために、オンラインに置かれた、または第三者に送信された個人データを保護することは、重要な問題である。情報の可能性に関心のある第三者が機密データセットにアクセスできるようにすることを目的とした現在の解決策は、その内容を知らずにファイルに作用する可能性を高いレベルでセキュアにすることによってそれを行う。したがって、データアクセスを制御する必要性を排除しないで、真正な匿名化によってソースにおいてデータをセキュアにすることが必要である。
【0003】
匿名化は、個人が直接的または間接的に識別されることを可能にする文書またはデータベースに含まれる全ての情報を削除する操作として定義され得る。これを行うには様々な方法がある。
【0004】
先行技術
置換または仮名化として知られる方法は、初期の個人識別子を別の任意の識別子または仮名に置き換えることからなる。データベース内の情報のトレーサビリティおよび更新を保証し、ある個人に関連するデータが他の個人に関連付けられないようにするには、永続的な識別子がない場合、この仮名は各人に固有である必要がある。
【0005】
したがって、全ての識別子を、それに関連付けられた仮名に最終的に関連付ける秘密の相関テーブルが生成され得る。この匿名化技術のセキュリティレベルは低く、識別子は仮名から復元できるため、操作は可逆的であるからであり、テーブルを所有している人はデータベースを簡単に読み取ることができる。
【0006】
可逆的ではない標準的な暗号化アルゴリズムと比較して、特定の特徴を有する、ハッシングとして知られる関数を使用することも可能であり、使用されたハッシュ関数が既知であっても、単に仮名だけから初期識別子を復元することはできない。しかしながら、原則として不可逆的であるにもかかわらず、この技術は、繰り返して相関テーブルを再構成することによって危険にさらされる可能性がある。
【0007】
初期識別子に任意の秘密鍵をあらかじめ追加し、次いでこの鍵をハッシュ関数にかけることにより、匿名化セキュリティを強化することができる。したがって、相関テーブルを再構成することを希望する人は、比較的容易である、全ての可能性のある姓および名をテストするだけでなく、上記識別子が未知の鍵から受け得る全ての修正もテストしなければならない。しかしながら、デバイスのセキュリティは、一方で秘密鍵と、他方で使用されるハッシュ関数という、使用されるツールの秘匿性にこの場合も基づいている。
【0008】
また、秘密鍵で二重ハッシュすることによって匿名化を強化することも可能であり、これは、最初に操作を実行し、取得された仮名を秘密鍵とともに第2のハッシュ関数にかけることからなる。完全な秘匿性を確保するために、鍵は定期的に更新されることがある。
【0009】
抑制、マスキング、またはノイズ加算方法は、特定のデータを抑制することによって、または代替として、初期データをスクランブルする情報を追加することによって、初期情報を劣化させることからなる。そのような方法の欠点は、データが最初から歪んでいることであり、これは、元のもの以外の任意の使用に対して上記データを関連性がより低いものにする。特許出願FR3047586は、サブセットに分割された機密データにノイズを加算する方法を開示しており、サブセットごとに決定された機密性のレベルに応じて、異なるノイズレベルが適用される。
【0010】
国際出願WO2017/093736では、データの匿名化は、トークンの使用、一般化、データのぼかし、合成レコードの挿入、レコードの抑制または再編成など、元のデータを乱す1つ以上の技術を使用して実行される。これらの両方の出願では、匿名化は、機密データの個々の項目に対する連続した変換によって実行される。
【0011】
アグリゲーションは、複数の値を単一のクラス内に組み合わせることからなる方法である。例えば、もともと25歳、27歳、および30歳の個人は、同じ25~30歳帯に分類される。アグリゲーションレベルが高いほど、再識別のリスクは低くなるが、同時に、情報の精度も低くなる。したがって、データベースを担当する当局は、アグリゲーションレベルによって保証される匿名化の堅牢性と、認可されたデータ精度との間の満足できるバランスを見つける必要がある。国際出願WO2018/028783は、この種のアグリゲーション方法を使用して、機密情報を含む全てのデータを匿名にすることを可能にする方法を記載している。
【0012】
さらに、「ビッグデータ」と呼ばれることもある、全ての可能なオブジェクト上の全てのタイプの公開データまたはプライベートデータの指数関数的な普及の文脈において、情報クロスチェック技術は、機密データベースの匿名性を侵害する非常に効果的な手段である。健康状態、家族生活、法的事務、または富に関連するデータなど、他のデータよりも機密性の高い一部のデータは、さらに、フランスのデータ保護機関[情報処理および自由に関する国家委員会](CNIL)の推奨に従って、特別な予防措置の対象となる。識別の全てのリスクを排除しながら、データセットに含まれるシグナルの全体を保存することを可能にする解決策はない。とはいえ、匿名化技術で起こる陥りやすい誤りは多くある。
【0013】
本発明の開示
したがって、分析の目的のために最大のデータユーティリティを保持しながら、上記データを不可逆的に識別不可能にすることによって、機密データの保護をさらに改善する必要がある。
【0014】
本発明の目的は、まさにこの必要を満たすことである。
【発明の概要】
【0015】
したがって、本発明の目的は、コンピュータシステムのデータベースに記憶された初期機密データセットからアバターを作成するための方法であり、上記初期データは、複数の個人に関連する属性を含み、この方法は、
a)所与の個人に関連する属性について、初期データセット内の全ての個人から使用される最も近いネイバーの数kを選択することと、
b)上記個人について、データセット内の他の個人の中からk個の最も近いネイバーを識別することと、
c)上記個人に関連する少なくとも1つの属性について、識別されたk個の最も近いネイバーの上記属性の特徴であり、係数によって重み付けされた数量から新しい属性値を生成することと、
d)個人に関連する機密データが識別不可能であることを保証するために、新しい属性値(複数可)を含むアバターデータを作成することと、を含む。
【0016】
本発明は、データの元となった個人を再識別する能力を失うという意味で、真正な匿名化を達成する。「アバター化」として知られる、仮想的な合成された個人に対応するアバターを作成する目的は、いかなる直接的または間接的な再識別をも防止することである。
【0017】
本発明は、個々の観察に焦点を当てており(すなわち、データ駆動型および患者中心型)、互いに類似する広範な一連の個人には焦点を当てていない。上記発明は、サブグループ観察に基づく一部の既知の方法とは異なる。上記発明は、アバターを作成するために常に個人の環境を使用する。それは、変数間の既存のリンクを維持しながら、大量のデータを処理することを可能にする。
【0018】
以下に記載される既知の方法とは異なり、本発明は、アバターという、新しい合成レコードを完全に生成する。上記発明は、上記発明が元のデータ項目のローカル環境から合成データ項目を完全に生成することを提案するという意味で、現在の技術では達成されていない一歩を踏み出す。アバターは、その環境のローカル一般化から生じる。例えば、医療データの場合、患者のアバターは、同様の個人から作成され、その数はパラメータ化され得る。
【0019】
本発明は、データセットの有用性を確実に維持し、同じ分析、例えば、統計分析または人工知能方法を使用した分析を実行する可能性を提供し、初期データセットとアバターとの間で同等の結果を得るのに役立つ。
【0020】
初期データの構造、すなわちその粒度を保存することは可能であり、一方、アグリゲーションまたは一般化を使用する既知の解決策は良好なセキュリティを提供するが、シグナル保持に関しては損失をもたらす。例えば、本発明による方法は、単一の30~35歳カテゴリではなく、30歳、32歳、または35歳に対して連続値を保存することを可能にする。
【0021】
本発明は、データアクセスを容易にし、完全な解決策を提供し、専門家ではない人々が本方法にアクセスできるようにする。これにより、データサイエンティスト、法律専門家、およびデータ共有ソリューションプロバイダの介入を必要とするツールではなく、ターンキーソリューションを提供することによって、ユーザは時間を節約することができる。
【0022】
初期データ、および最も近いネイバーの数k
CNILの定義によれば、「機密データの項目」は、人種もしくは民族的出身、政治的、哲学的もしくは宗教的意見、労働組合の加盟、健康状態、または性的生活に関連する情報として理解されるべきである。機密データは、個人データ、特に健康データを含む。
【0023】
「マイクロデータ」としても知られる初期データセットは、複数の個人に関連する属性を含む。上記データは、例えば、救急ユニットに提示される患者、もしくは医療機関を使用する患者、もしくは所与の疾患の研究コホートの一部を形成する患者に関する情報、臨床試験、または自治体の住民に関連する様々な情報項目、または所与のサービスのユーザのプロファイルを含むレコードである。
【0024】
初期データセットは、本発明による方法が実装されたコンピュータシステムのデータベース、またはリモートコンピュータシステムのデータベースとインターフェースすることによってダウンロードされてよい。
【0025】
初期データは、連続変数として知られる数値を有する少なくとも1つの属性、および/またはカテゴリ変数もしくはクラス属性として知られる、個人の特徴を表すクラスに属する少なくとも1つの属性を含んでもよい。
【0026】
属性の性質にリンクされた論理的制約は、ユーザによって指定されてもよい。
【0027】
多変量分析は、特定の主成分分析(PCA)において、個人のk個の最も近いネイバーを識別する前に、初期データに対して有利に実行される。この数学的方法は、分散、区別、および情報性の最も重要な軸を識別し、特に各変数に重みを割り当てることによって、ユーザ定義のパラメータを尊重しながら、より限られた数の次元においてN次元を有するデータセットの本質を示すことによって、データセットの次元性を低減することを可能にする。
【0028】
このように修正された属性の値は、次いで、同じ幾何学的空間内に投影され得る。
【0029】
多変量分析、特に主成分分析は、カテゴリ属性および連続属性に対して実行され得る。
【0030】
各属性はまた、機密性がより高いまたはより低いと定義され得る。したがって、ユーザは、特にいくつかの属性についてデータセットをより深く乱すことを選択することができる。多変量分析では、各属性に異なる重みが割り当てられ得、これにより、最も近いネイバーを識別するために使用されるデータ投影が修正される。
【0031】
例えば、著しい重みが「サイズ」属性に割り当てられている場合、これは、ユークリッド空間における投影を悪化させ、歪ませる効果を有する。したがって、ポイント間の距離は、他の属性と比較して「サイズ」属性の影響を特に受け、サイズの小さい差が、投影および患者環境により大きい影響を与える。
【0032】
最も近いネイバー
最も近いネイバーの数kは、考慮される個人の初期データの関数であり得る。最も近いネイバーの数kは、可変であり、同じ初期データセットについて、一部の個人で、または個々人で異なり得る。
【0033】
このパラメータは、アバターデータの意図される受信者における初期データの機密性係数および/または信頼性係数に従って選択されてもよく、機密性係数が高いほどおよび/または信頼性係数が低いほど、数kは高くなり、機密性係数が低いほどおよび/または信頼性係数が高いほど、数kは低くなる。
【0034】
機密性係数および信頼性係数は、0~1であり得る。
【0035】
最も近いネイバーの数kの選択は、初期データを保護することと、シグナルを保持することとの間の所望のバランスに依存する。初期データセットは、機密性の可変の度合いを有することがあり、すなわち、それらが既知であるという結果は異なる。例えば、医療データの場合、人の肥満度指数を知ることは、その人が癌に罹患しているかどうかを知ることよりもダメージが少ない場合がある。
【0036】
アバターデータの受信者をユーザが信頼していることを推定することも重要である。例えば、同じ病院内でのデータ交換の場合、この信頼性レベルは、データがオンラインで公開されることになる場合よりも大きい。
【0037】
本発明は、個人に対応する各レコードの最も近いネイバーからローカルモデリングを生成することに基づく。例えば、医療データの場合、これは、各患者について、患者に似ているk人の患者を識別することからなる。したがって、適用される処理は、各個人に固有の近傍に従って実行される。したがって、本発明は、互いに似ている個人のセットにではなく、個人に焦点を当てており、したがって、グループ観察に基づく既知の方法とは区別される。
【0038】
アバターデータ
初期データが、数値を有する少なくとも1つの属性を含む場合、新しい属性値は、好ましくは、一様分布または指数分布からランダムに選択された係数によって各々重み付けされた、k個の最も近いネイバーについての同じ属性の値から計算された確率的重み付けバリセンターに対応する。
【0039】
異なる係数が、k個の最も近いネイバーの各々についての属性の値ごとにランダムに選択されてもよい。
【0040】
属性が、同じユークリッド空間内に投影された場合、任意の点Mに対して有利にGが存在し、k個の頂点を有するポリゴンの重み付けされた確率的重み付けバリセンターは、k個の最も近いネイバーに対応する:
【数1】
α:ランダム重み付け係数
:ポリゴンの頂点(ネイバー)、
したがって
【数2】
【0041】
確率的重み付けバリセンターGは、数値を有する属性の数に対応する次元の数Nにおいて有利に計算される。
【0042】
本発明による方法は、新たな属性値を計算することが、元の値を直接使用せず、その近傍のみを使用してローカル一般化を生成するということに部分的に起因して、再識別のリスクを排除するために、重要でないレコードにより実質的に再び焦点を当てることを可能にする。
【0043】
初期データが、個人の特徴を表すクラスに属する少なくとも1つの属性を含む場合、新しい属性値は、初期データセット全体内の上記クラスに属する値の数によって重み付けされる、k個の最も近いネイバー内の上記クラスに属する値の数に従って計算される、k個の最も近いネイバー中の上記クラスの重み付け表現に従ってランダムに有利に選択される。
【0044】
例えば、患者が妊娠しているかどうかを示す属性では、「妊娠している」または「妊娠していない」クラスの割合が、k個の最も近いネイバー内で計算され、次いで、データセット全体内のそれらの同じクラスの表現によって重み付けされる。次いで、新しい属性値は、この重み付け表現に従ってランダムに引き出される。
【0045】
このアプローチは、再識別の困難性を保証するランダム引き出しの確率性を、上記引き出しが最も近いネイバー間の各クラスの代表性によって偏向されるという保証と組み合わせることを可能にする。
【0046】
数値属性のランダム重み付け係数および新しいクラス属性値のランダム選択を計算するために、一様分布、対数正規分布、または指数分布が使用されてもよい。
【0047】
新しい数値およびクラス属性値は、アバターデータを作成するために共に有利に生成される。アバターデータの作成に至る本発明は、有利には、個人の初期データのベクトル変換である。
【0048】
したがって、データセットは、連続的かつカテゴリ的な変数から有利に再構成される。本発明は、元の属性タイプの保存を保証する。例えば、年齢が、初期データセット内で整数値を取る属性である場合、これは、アバターが作成された後に同じ形態を有することになる。この結果は、データが匿名化された後に、同様の年齢の複数の患者が同じ年齢クラス内に存在し、情報損失をロックする既知の一般化方法とは異なる。
【0049】
同じ個人に関連する属性間の関係の異常値もしくは変化を限定するために、特に、数値属性の分布を制限するために、またはクラス属性間の論理的関係を尊重するために、アバターデータに少なくとも1つの制約関数が適用されてもよい。必要な場合、初期数値属性の最小値および最大値を使用して、結果として生じるアバター属性を修正し、特に、初期データセットの最小年齢よりも低い年齢が確実に現れないようにしてもよい。男性が妊娠できないという事実など、以前に確立された異なる属性間の論理的関係ルールに基づいた制約関数が適用されてもよい。これは、初期データセットとアバターデータとの間の類似性をさらに増大させ、データのコヒーレンスを保存することを可能にする。
【0050】
アバターで構成されるデータセットは、有利には、初期データセットと同じ次元を有する。
【0051】
初期データセットに適用される処理は、アバターデータ上で有効なままである。
【0052】
アバターデータの記録およびアクセス
アバターデータは、有利には、同じコンピュータシステム内のデータベースに、および/またはリモートサーバのデータベースに記録される。
【0053】
アバターデータセットは、例えば、内部使用のために、ローカルワークステーション上にファイル形態で記録されてもよい。変形において、または組み合わせにおいて、アバターデータセットは、特に、インターネットまたはイントラネットなどの送信チャネルを介してアップロードすることによって、リモートサーバ上に記録されてもよい。
【0054】
制限されたアクセスが、アバターデータの受信者のために作成され得る。上記受信者は、上記データが、例えば、電子メールによって、一意のダウンロードリンクを生成および送信し、次いで、例えば、テキストメッセージによって、限定された寿命キーを通信することに特に基づく、少なくとも2つのステップを含むハイブリッド認証システムによって利用可能にされたことをアドバイスされ得る。ユーザはまた、特定の属性もしくは個人へのアクセスを制限するか、または受信者が行うことができる問い合わせの最大数を設定することを決定し得る。
【0055】
受信者は、例えば、CSV、XML、またはXLSフォーマットのアバターファイルを一意のパーソナライズされたリンクから直接ダウンロードすること、SFTPなどのセキュアなプロトコルを使用してファイルを閲覧およびダウンロードすること、リモートサーバ上のデータベースに対するセキュアな問い合わせ、または受信者が自分のアプリケーションのうちの1つをデータと直接インターフェースすることを可能にするアプリケーションプログラミングインターフェース(API)など、様々な方法でアバターデータにアクセスし得る。
【0056】
最後の場合、ユーザは有利には、リアルタイムで更新されたアバターデータセットのバージョンを供給する立場にある。これは、機密データへのアクセスが取り消され得る場合、例えば、一般データ保護規則(GDPR)を制定した後、またはコホート内のレコードの数が増加を止めない場合、例えば、患者が現在の医学調査研究に採用されている場合の文脈において特に有用である。
【0057】
アバターデータ作成の詳細を含むレポートが自動的に生成されてもよく、これは特に、使用される多変量分析のパラメータ、個人の数、および数値およびクラス属性の数、ならびに最も近いネイバーの数kを含む。このレポートは、実行された操作を追跡できるようにし、アーカイブまたは法的要件に有用である。明らかに、レポートは、初期データが復元されることを可能にするいかなる情報も含まない。レポートは、本方法の動作に固有のランダムに生成された値の痕跡を保存しないため、上記レポートは、いかなる状況でも、実行されたアバター化操作を元に戻すことはできないことに留意されたい。
【0058】
本発明の全てのステップは、コンピュータによって有利に自動的に実装される。
【0059】
コンピュータプログラム製品
本発明の別の目的は、その別の態様によれば、コンピュータシステムのデータベースに記憶された初期機密データセットからアバターを作成するために本発明による方法を実装するためのコンピュータプログラム製品であり、上記初期データは、複数の個人に関連する属性を含み、コンピュータプログラム製品は、サポートと、上記サポートに記録された命令と、を備え、上記命令は、プロセッサによって順番に読み取られて、実行されたとき、
a)所与の個人に関連する属性について、初期データセット内の全ての個人から使用される最も近いネイバーの数kを選択することと、
b)上記個人について、初期データセット内の他の個人の中からk個の最も近いネイバーを識別することと、
c)上記個人に関連する少なくとも1つの属性について、識別されたk個の最も近いネイバーの上記属性の特徴であり、係数によって重み付けされた数量から新しい属性値を生成することと、
d)個人に関連する機密データが識別不可能であることを保証するために、新しい属性値(複数可)を含むアバターデータを作成することと、を行うことができる。
【0060】
上記の方法の特徴は、コンピュータプログラム製品に適用され、その逆も同様である。
【0061】
アバター作成デバイス
本発明の別の目的は、さらなる態様によれば、コンピュータシステムのデータベースに記憶された初期機密データセットからアバターを作成するためのデバイスであり、上記初期データは、複数の個人に関連する属性を含み、このデバイスは、
a)所与の個人に関連する属性について、初期データセット内の全ての個人から使用される最も近いネイバーの数kを選択するように構成された選択モジュールと、
b)上記個人について、データセット内の他の個人の中からk個の最も近いネイバーを識別するように構成された識別モジュールと、
c)上記個人に関連する少なくとも1つの属性について、識別されたk個の最も近いネイバーの上記属性の特徴であり、係数によって重み付けされた数量から新しい属性値を生成するように構成された生成モジュールと、
d)個人に関連する機密データが識別不可能であることを保証するために、新しい属性値(複数可)を含むアバターデータを作成するように構成されたアバター作成モジュールと、を備える。
【0062】
本発明によるデバイスはまた、アバターデータを同じコンピュータシステムおよび/またはリモートサーバのデータベースに記録するように構成された記録モジュールを備え得る。
【0063】
アバター作成デバイスは、データセットに固有であり、かつ属性の性質にリンクされた論理的制約を指定するためのモジュールを備え得る。
【0064】
デバイスはまた、最も近いネイバーの数kを選択するためのモジュールを備え得る。
【0065】
アバター作成デバイスは、再識別リスクおよび情報損失リスクに従ってアバターの特性を評価するためのモジュールを備え得る。
【0066】
アバター作成デバイスは、アバターデータの受信者に、上記データが、例えば、電子メールによって、一意のダウンロードリンクを生成および送信し、次いで、例えば、テキストメッセージによって、限定された寿命キーを通信することに特に基づく、少なくとも2つのステップを含むハイブリッド認証システムによって利用可能にされたことをアドバイスするように構成されたアドバイスモジュールを備え得る。
【0067】
上記の方法およびコンピュータプログラム製品の特徴は、デバイスに適用され、その逆も同様である。
【図面の簡単な説明】
【0068】
本発明は、その実装の非限定的な例の以下の詳細な説明を読み、添付の図面を考察することでより良く理解され得る。
図1】本発明による、初期機密データからアバターデータを作成するためのステップを示す。
図2】元の数字属性に対してアバターデータを作成する例である。
図3図2の例の最も近いネイバーに対するアバター属性値の確率密度分布を示す。
図4】アバターデータおよび初期データの空間内の位置を示す。
図5】初期データセットの様々な属性とアバターデータセットとの間の相関差を示す。
図6】最も近いネイバーの数kによる、本発明に従って作成されたアバターと元の最も近い個人との間の距離の変化を示す。
図7】最も近いネイバーの数kによる、最も近いネイバーと初期データセット内の個人との間の距離の変化を示す。
【発明を実施するための形態】
【0069】
図1は、本発明による、初期機密データからアバターデータを作成するためのステップの例を示す。
【0070】
この例では、ステップ11において、本発明による方法が実装されたコンピュータシステムのデータベース、またはリモートコンピュータシステムのデータベースとインターフェースすることによって、初期データセットがダウンロードされる。この初期データセットは、複数の個人に関連する属性を含み、これは、個人の特徴を表すクラスに属する数値属性および/または属性であってもよい。属性の性質にリンクされた論理的制約は、ユーザによって指定されてもよい。
【0071】
ステップ12において、上述したように、機密性係数および信頼性係数を確立して、ステップ13において、最も近いネイバーの数kを選択する。最も近いネイバーの数kは、機密データの個々の項目ごとに独立して選択されてもよく、したがって、ローカルに決定されてもよく、同じデータセットについて、ある個人から次の個人へと変化してもよい。
【0072】
ステップ14において、初期データに対して多変量分析、特に主成分分析を実行し、ステップ14ビスにおいて各属性に重みを割り当てる。したがって、ステップ15において、個人のk個の最も近いネイバーが、修正されたデータから識別される。例えば、0.1の重みが年齢に割り当てられ、0.2の重みがBMIに割り当てられ、0.75の重みが妊娠の数に割り当てられた場合、したがって、最後の属性が特に機密であることが指定され、これは多変量分析におけるデータの投影を歪める。
【0073】
数値属性について、ステップ16において、k個の最も近いネイバーの各々についての属性の値ごとに係数をランダムに選択して、ステップ17において、k個の最も近いネイバーについての上記同じ属性の値から確率的重み付けバリセンターGを計算し、各値は、このランダム係数によって重み付けされて、アバターデータの項目の新しい値を取得する。データがN個の数値属性を含む場合、確率的重み付けバリセンターGはN次元において計算されるため、考慮される属性に対して全ての新しい値が与えられる。
【0074】
個人の特徴を表すクラスに属する属性について、ステップ18において、k個の最も近いネイバー内の上記クラスに属する属性の数が計算され、次いで、この数は、ステップ19において、初期データセット全体内でこのクラスに属する個人の数によって重み付けされて、ステップ20において、この重み付け表現に従って新しい属性値がランダムに選択される。
【0075】
ステップ21において、個人に関連する機密データを識別不可能にするために、新しい数値およびクラス属性値を共に生成して、アバターデータを作成する。
【0076】
ステップ22において、前述のように、同じ個人に関連する属性間の関係の異常値または変化を限定するために、ユーザによって定義される制約がアバターデータに適用される。
【0077】
本発明による方法は、個人ごとに繰り返される。本方法は、個々の機密性観察に焦点を当てている。上記方法は、グローバルモデリングまたはリサンプリングを使用する既知のシミュレーション方法と同様に、データの機密性が高い個人に対して必要な限り多くのアバターを生成することを可能にする。
【0078】
こうして作成されたアバターデータは、ステップ23において同じコンピュータシステムのデータベースに、および/またはステップ24においてリモートサーバのデータベースに記録され得る。
【0079】
アバターデータの受信者は、ステップ26において管理される。データは、例えば、CSV、XML、またはXLSフォーマットのアバターファイルを一意のパーソナライズされたリンクから直接ダウンロードすること、SFTPなどのセキュアなプロトコルを使用してファイルを閲覧およびダウンロードすること、リモートサーバ上のデータベースに対するセキュアな問い合わせ、または受信者が自分のアプリケーションのうちの1つをデータと直接インターフェースすることを可能にするアプリケーションプログラミングインターフェース(API)など、様々な手段によって利用可能にされ得る。
【0080】
受信者は、データが、例えば、電子メールによって、一意のダウンロードリンクを生成および送信し、次いで、例えば、テキストメッセージによって、限定された寿命キーを通信することに特に基づく、少なくとも2つのステップを含むハイブリッド認証システムによって利用可能にされたことをアドバイスされ得る。
【0081】
アバターデータの作成の詳細を含むレポートが、ステップ25において自動的に生成され得、上記レポートは、例えば、使用される多変量分析のパラメータ、個人の数、数値の数、クラス属性の数、および最も近いネイバーの数kを含む。
【0082】
図2は、定量的属性(以下の表1において見ることができる、年齢および赤血球のレベル)を含む初期データから作成されたアバターの例を示す。この例は、単純にするために生データから生成されるが、アバターは、多変量分析、特に主成分分析の後に有利に作成される。
【0083】
【表1】
【0084】
図2において見ることができるように、個人ごとの属性値が、同じユークリッド空間内に投影される。この例では、アバターYは、個人Oのネイバーのうちの3つ、すなわちk=3を使用して、個人Oのために作成される。個人Oの最も近いネイバーが識別される。係数は、ネイバーごとにランダムに引き出される。関連する係数を有する各ネイバーの座標は、確率的重み付けバリセンターを計算し、かつアバターデータを形成するために使用される。考慮される例では、個人OのアバターYは、個人Oの年齢の属性値として34、47を有し、赤血球の属性として4、13M/μlを有する。
【0085】
図3は、前の例の最も近いネイバーに対するアバター属性値の確率密度分布を示す。本発明による方法は部分的にランダムであるため、多数のアバターが同じ個人について作成された場合、これらのアバターは、図3において見ることができるように、確率密度に従ってk個の最も近いネイバー間の空間内に分散される。
【実施例
【0086】
ここで、本発明の実装形態および有効性の一例を説明する。この例では、データセットは、実際の患者に関連し、768人の個人、8つの連続変数(妊娠回数、血糖値、血圧、皮膚の厚さ、血液インスリンレベル、年齢、肥満度指数、および糖尿病血統要因)、およびカテゴリ変数(糖尿病に罹患しているか否か)を含むオープンアクセスデータベース「Pima Indians Diabetes Database」に由来する。
【0087】
例えば、データを表示するときの3次元空間において、9つの属性に対応する9次元のデータセットを投影するために、データに対して主成分分析を行う。上記のように、本発明による方法は、全てのデータに適用される。最も近いネイバーの数kは、50に設定される。
【0088】
図4の図は、考慮されるk=50の最も近いネイバーについて、本発明による方法は、初期データと同じ空間内で発展するアバターデータが実現されることを可能にすることを示し、したがって、元のデータセットの特性が良好に保存されると想定する。定義上、重要でないレコード、すなわち、ある程度一般的でない値を有する個人は、再識別に対して機密性がより高い。本発明を使用して、図4において見ることができるように、重要でないレコードは部分的に重要視され、他のレコードに体系的により近付けられる。一方、一般的なレコードは、それに類似する多数の他のレコードに近いアバターを生成する。生成されたアバターは、他の個々のレコードへの複数の近接性によって元のレコードと区別される。
【0089】
統計的に興味深いデータセットが、互いに関係を有する変数から構成される。これらの関係に対してアバターを作成する効果は、初期データセットの属性とアバターデータの属性との間の相関差を計算することによって評価される。図5は、k=50について、相関差が控えめであり、かなりバランスが取れていることを示し、本発明による方法は、属性間の関係をあまり有意に変化させていない。これらの2つの分析は、データに対する本発明の全体的な効果を評価することを可能にする。分析は、データサブグループに対する本発明の局所的効果を評価するために、局所的に分解されてもよい。
【0090】
シグナルの保存はまた、初期データセットおよびアバターデータに対して同じ分析を実行することによって、第1のレベルで検証され、データセットの他の8つの属性を使用して糖尿病予測モデルを確立することができる。これを行うために、予測アルゴリズム、例えば、ランダムフォレストアルゴリズムは、アバターデータセットの80%および初期データセットの80%で訓練される。次に、機密性および特異性を測定することによって元のデータセットの残りの20%を使用して、2つのモデルの性能を評価する。糖尿病データセットに関連する例では、これらの2つの測定について得られた値は非常に近い:アバターデータの0.553に対して初期データの0.575の機密性、およびアバターデータの0.89に対して初期データの0.868の特異性。
【0091】
したがって、アバターを用いて訓練されたモデルは、元のデータで訓練されたモデルと同等の性能で糖尿病の発生を予測することを可能にする。予測アルゴリズムの分類性能は、同等であり、分析、例えば、統計分析のための、または自動学習を使用したアバターの有用性を検証する。したがって、元の特性の保存により、初期データセットに対して行われるものと同じ処理および分析がアバターデータに適用されることが可能になる。
【0092】
攻撃シナリオの例では、攻撃者は、上記攻撃者が何らかの情報を知っている個人が、糖尿病に関する科学的研究に参加することを選択したかどうかを知りたいと望んでいる。これを行うために、本発明にとって不利な研究事例では、上記攻撃者は、この個人に関連する全ての機密データと、アバターデータセットと、を含む完全な初期データを有する。
【0093】
この事例は、攻撃者が有していない唯一の情報が、患者がコホート内に存在するか否かという、非常に極端な例である。患者の完全な元の記録を知る前提条件は特に野心的であるが、これは、最も不利な状況を分析することを可能にする。しかしながら、大部分の事例では、攻撃者は、患者に関する一部の情報のみ、すなわちわずかな属性しか有さず、患者に関する新しい情報を収集しようとしている。
【0094】
図6は、最も近いネイバーの数kに応じた、アバターと最も近い元のレコードとの間の距離の発展を示す。この距離により、近接攻撃の文脈における再識別リスクを評価することができ、この攻撃では、目的は、アバターデータと、このシナリオでは攻撃者が所有している初期データとの間のリンクを確立することである。
【0095】
図7は、最も近いネイバーの数kによる、最も近いネイバーと初期データセット内の個人との間の距離の発展を示す。最も近いネイバー間の距離は、データセットの密度を評価するために重要である。この図を前の図と比較すると、k=50について、アバターデータセットの密度分布は、元のデータセットについて得られたものと同等であることがわかる。
【0096】
当然のことながら、本発明は、たった今説明した実施例に限定されない。特に、データをダウンロードおよびアップロードする他の手段を使用し得るように、他の多変量分析方法またはランダム引き出し方法を使用してもよい。これらの2つの実施例は、本発明におけるシグナル保存よりも再識別リスクの優先性を強調し、これは、上記発明を他の既知のデータシミュレーション方法と区別する。
【0097】
本発明の適用例
本発明は、分析のためのデータ共有用途において使用され得る。アバター化は、内部および外部ステークホルダのために、機密データを、機密データに限定されない個々の粒度で利用する可能性を開く。これらのデータを共有する目的は、遡及的関心と予測要件の両方のために、データセットに含まれる情報の可能性を使用することである。人工知能技術は、個人を保護することを損なう機密データの自由化と、そこから引き出される集合的な利益との間で選択を強制されるべきではない。
【0098】
病院などの公衆衛生機関は、価値の高い情報を有するデータベースを有する。この情報は、合法的規制上の制約により共有が困難になるため、医学研究における課題である。アバターを作成することによって、本発明は、患者データの秘匿性を尊重しながら、データの品質を保存することを可能にする。その共有が意思決定、実践、および研究を改善することになる健康データは、したがって、セカンドライフを提供され得る。特定の病理学に影響を受ける患者に関するデータの集合は、医師が、例えば、患者の年齢およびライフスタイルに応じて様々な治療の間で選択するために、医師の決定を導き、支援するために使用され得る。公衆衛生機関はまた、そのデータからアバターを作成して、その仕事を改善するために何が必要かを予測し、啓発キャンペーンを実施し、例えば、流行病の場合に必要なリソースを計画するように公的機関に早期に警告することができる。
【0099】
さらに、自治体は、その地域のデータからアバターを作成し、特別な注意が必要な領域または人口を検出するために上記アバターをサービスプロバイダに委託することができる。アバターは、潜在的なデータを使用することを可能にし、この場合、これは、社会的分裂を防ぎ、医療へのアクセスを提供することに役立つための効果的な方法であり得る。これはまた、予防措置を効果的に目標にすることを可能にし、特に人工知能技術の使用を通じて、予測を使用した医療における平等を支援する政策を制定することさえ可能にすることもできる。
【0100】
例えば、予防接種キャンペーンの計画を想定することが可能である。自治体はまた、その集団の健康情報を使用して、緑地を拡大するための政策を計画および策定することにより、それらの空間を本当に必要とする場所を優先するか、または汚染対策の一環としてその隔日旅行政策を適応させることもできる。
【0101】
映画およびTVシリーズをストリーミングするサブスクリプションサービス会社は、オープンデータとして顧客のアバターを公開して、映画およびシリーズのプロデューサが顧客プロファイルに焦点を当てることを可能にし、したがって、提供を改善することができる。
【0102】
データへのアクセスを改善するために、データを共有する見通しを内部または外部で想定することができる。
【0103】
本発明はまた、特に保険会社または補完的な保険スキームによって、まだ決して達成されていない精度で顧客プロファイル上のリスクスコアを計算することに役立つために使用され得る。このビジョンに、アバターを使用したデータベースのクロスチェックの可能性によってより明確な焦点が当てられ、したがって、学ぶことができる教訓を強化することができる。
【0104】
データセットの民主化は、教授および教育の質のための機会であり、教育アプローチの見通しを改善する。アバターの形態のデータセットへのアクセスは、複雑で究極的に限定されている規制ステップを通過することを必要とせずに、データアクセスをより広く享受することを可能にする。学生は、統計的特性を保存したまま、実際のコホートからのアバターデータセットで訓練を受けることができる。
【0105】
本発明は、例えば、有料サービスを提供するとき、営利目的のデータ共有用途に使用され得る。病理学に焦点を当てた製薬会社は、患者のアバターデータを使用して薬の開発を改善することができる。
【0106】
大規模な小売流通は、例えば、供給元によって使用され得る消費者経路を確立するために、消費者の習慣、頻度、および時刻を含む勘定レシートデータを利用することができる。
【0107】
データ共有は、企業の経営および内部戦略を改善する文脈において行われてもよい。会社および組織は、クライアントのプライバシーを保護する義務がある。プライバシーに注意を払うことは、会社が信頼できることの保証であり、これは、評判およびイメージ、したがって長期的な顧客ロイヤルティに影響する。考えられるIT障害の影響を限定するために、会社は、生産中に本発明に従って生成されたアバターデータベースを使用し、元の機密データを完全なセキュリティで維持することができる。
【0108】
本発明は、アプリケーション開発のためのデータ共有用途において使用され得る。アプリケーションを開発、アップグレード、または維持するには、十分な量のデータが必要である。また、テストデータが実際のデータと同じ構造を有することも重要であり、例えば、銀行のウェブサイト上で新しい銀行決済アプリケーションが開発されることを可能にするようにするには、プロバイダは、実際のデータを反映するデータセットを必要とする。しかしながら、これらがサービスプロバイダであろうと、専用の内部部門であろうと、この目的で使用されるデータが機密データではないことが重要である。本発明によるアバターは、この役割を果たす。
【0109】
アバターを作成することにより、本発明は、(GDPRに準拠するために)データを削除することを必要とせずに、機密データに含まれる情報の可能性を保存することを可能にする。戦略的関心を表すデータセットに含まれる統計情報を保存することは、会社の利益のためになる。高速道路の管理会社は、自動車運転手データのアバターを時間制限なしに保管することができる。
【0110】
また、アバターがガバナンス手順において役割を果たすことを想定することも可能であり、この場合、上記アバターは制約を緩和し得る。アバターデータセットに部分的に関するコンセプト証明が、元のデータへのアクセスおよびアルゴリズムの展開を承認するための不可欠な部分である、データ使用の実用的なガバナンスを想像することが可能であろう。

図1
図2
図3
図4
図5
図6
図7