IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ メディデータ ソリューションズ インクの特許一覧

特許7447195オリジナルデータセットから合成データセットを生成するためのシステムおよび方法
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-03-01
(45)【発行日】2024-03-11
(54)【発明の名称】オリジナルデータセットから合成データセットを生成するためのシステムおよび方法
(51)【国際特許分類】
   G16H 10/60 20180101AFI20240304BHJP
【FI】
G16H10/60
【請求項の数】 20
【外国語出願】
(21)【出願番号】P 2022125791
(22)【出願日】2022-08-05
(65)【公開番号】P2023029263
(43)【公開日】2023-03-03
【審査請求日】2022-12-01
(31)【優先権主張番号】17/407,181
(32)【優先日】2021-08-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】522315046
【氏名又は名称】メディデータ ソリューションズ インク
【氏名又は名称原語表記】MEDIDATA SOLUTIONS, INC.
【住所又は居所原語表記】350 Hudson Street, 9th Floor New York, New York, United States of America
(74)【代理人】
【識別番号】100134430
【弁理士】
【氏名又は名称】加藤 卓士
(72)【発明者】
【氏名】マンディス・ベイジ
(72)【発明者】
【氏名】ジェイコブ・アプテカー
(72)【発明者】
【氏名】アフラー・シャフクアット
(72)【発明者】
【氏名】ジェイソン・メイズィー
【審査官】木村 慎太郎
(56)【参考文献】
【文献】米国特許出願公開第2021/0232705(US,A1)
【文献】国際公開第2021/038096(WO,A1)
(58)【調査した分野】(Int.Cl.,DB名)
G16H 10/00-80/00
(57)【特許請求の範囲】
【請求項1】
オリジナルデータセットからN個のレコードを含む合成データセットを生成する方法であって、
前記オリジナルデータセットのカテゴリ特徴量をエンコードするエンコードステップと、
前記エンコードされたデータセットを低次元空間に埋め込む埋込ステップと、
前記埋込ステップ後の埋込データセットからシードレコードを選択するステップと、
前記シードレコードに最も近い複数の最近傍レコードを特定する特定ステップと、
前記複数の最近傍レコードからランダムに特徴量を選択して、新規レコードを生成する生成ステップと、
新規レコードを前記合成データセットに連結する連結ステップと、
新しいシードレコードを選択する選択ステップと、
を含み、
前記埋込データセットのシードレコードに対して、前記特定ステップ、前記生成ステップ、前記連結ステップ、および前記選択ステップの各操作をN-1回繰り返す方法。
【請求項2】
前記エンコードステップは、前記オリジナルデータセットのカテゴリ特徴量を数値に変換することを含む、請求項1に記載の方法。
【請求項3】
前記埋込ステップでは、t分布型確率的近傍埋め込み法を用いる請求項1に記載の方法。
【請求項4】
前記埋込ステップでは、一様多様体近似および投影を用いる請求項1に記載の方法。
【請求項5】
前記埋込ステップでは、主成分分析を用いる請求項1に記載の方法。
【請求項6】
前記オリジナルデータセットは、カテゴリ特徴量と数値特徴量の混合を含む請求項1に記載の方法。
【請求項7】
前記新規レコードにおいて、相関性の高い特徴量同士が共分離(co-segregated)される、請求項1に記載の方法。
【請求項8】
前記数値特徴量にノイズを付加して異なる特徴量を生成するステップをさらに含む、請求項6に記載の方法。
【請求項9】
前記オリジナルデータセットがn個のレコードを含み、N=nである、請求項1に記載の方法。
【請求項10】
前記オリジナルデータセットがn個のレコードを含み、N≠nである請求項1に記載の方法。
【請求項11】
オリジナルデータセットからN個のレコードを含む合成データセットを生成するシステムであって、
前記オリジナルデータセットのカテゴリ特徴量をエンコードするためのエンコーダと、
エンコードされたデータセットを低次元空間に埋め込むための埋込部と、
前記埋込部によって埋込処理が施された埋込データセットからシードレコードを選択し、該シードレコードに最も近い複数の最近傍レコードを特定するクラスタリング部と、
複数の最近傍レコードからランダムに特徴量を選択して新規レコードを生成し、該新規レコードを前記合成データセットに連結する合成レコード生成部と、
を備え、
前記クラスタリング部での選択処理および特定処理、ならびに前記合成レコード生成部での生成処理および連結処理を、前記埋込データセットのレコードに対してN回実行するシステム。
【請求項12】
前記オリジナルデータセットのカテゴリ特徴量を符号化することは、カテゴリ特徴量を数値に変換することを含む、請求項11に記載のシステム。
【請求項13】
前記埋込部は、t分布型確率的近傍埋め込み法を用いて埋め込み処理を行う請求項11に記載のシステム。
【請求項14】
前記埋込部は、UMAP(uniform manifold approximation and projection)を用いて埋め込み処理を行う請求項11に記載のシステム。
【請求項15】
前記埋込部が、主成分分析を用いて埋め込み処理を行う請求項11に記載のシステム。
【請求項16】
前記オリジナルデータセットは、カテゴリ特徴量と数値特徴量の混合を含む請求項11に記載のシステム。
【請求項17】
前記新規レコードにおいて、相関性の高い特徴量同士を共分離(co-segregated)するための特徴量ペア検出部をさらに備える、請求項11に記載のシステム。
【請求項18】
前記数値特徴量にノイズを付加して、異なる特徴量を生成する請求項16に記載のシステム。
【請求項19】
前記オリジナルデータセットがn個のレコードを含み、N=nである請求項11に記載のシステム。
【請求項20】
前記オリジナルデータセットがn個のレコードを含み、N≠nである請求項11に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、オリジナルデータセットから合成データセットを生成するためのシステムおよび方法に関する。
【背景技術】
【0002】
医療現場における電子カルテ(EHR)の普及により、個人の健康データの量は爆発的に増加している。このデータの増加に伴い、科学者や研究者は、人工知能や機械学習の技術を用いて、患者のケアや治療を改善するための洞察や予測を導き出すことができるようになった。しかし、患者データは、厳格にプライバシーを守る必要があるため、これらのデータを組織間で共有したり、科学者や研究者が広く利用したりすることは容易ではない。
【先行技術文献】
【非特許文献】
【0003】
【文献】Z. Zhang, C. Yan, D. Mesa, J. Sun, and B. Malin, "Ensuring electronic medical record simulation through better training, modeling, and evaluation," JAMIA 27(1):99-108 (2020)
【文献】Synthetic Data Vault Project(N. Patki, R. Wedge, K. Veeramachaneni, "The Synthetic Data Vault" (2018)
【発明の概要】
【発明が解決しようとする課題】
【0004】
このようなデータを非識別化・匿名化する技術が開発されているが、これらの技術はまだ患者のプライバシーを完全に保証するものではない。これらの技術は、匿名化されたデータの中に、他の情報源とともに用いることによって個人を特定・識別できるパターンを残存させる可能性がある。
【0005】
臨床試験(別名「クリニカル・スタディ」)のデータも、個人健康データの主要な情報源である。EHRデータと同様に、これらのデータも電子データ収集(EDC)システムから得られる電子形式であることが多い。利用できる臨床試験データは、たいていEHRデータよりもはるかに少ないサンプル数であり(EHR数千件に対して、クリニカルスタディは数十またはせいぜい数百件)、被験者(または患者)のプライバシーに強い関連性があるほか、試験スポンサーやデータ提供者のプライバシーにも強い関連性があり、規制や技術保護の要件も存在する。臨床試験データはまた、管理された実験に参加することに同意した被験者から得られたデータであるため、おそらくEHRデータよりも価値がある。このような実験は、価値の高い推論を行うために設計されている(例えば、特定の疾患を有し特定の治療体制下にある被験者の生存に薬剤とプラセボが与える影響など)。また、この種のデータは、臨床試験デザインの検出力を推定し、併用薬の影響を発見し、臨床試験の成功率に影響を与え得る被験者の要因を特定するためにも有用である。このようにEDCデータは、慎重に管理・規制されたプロセスのもと、定期的に被験者ごとに繰り返し収集される高次オリジナルデータを意味する。
【図面の簡単な説明】
【0006】
図1A】本発明の一実施形態に係る合成データセットを生成するシステムのブロック図である。
図1B】本発明の一実施形態に係る合成データセットを生成するシステムのブロック図である。
図1C】本発明の一実施形態による、合成データセットがどのように生成され得るかを示すフローチャートである。
図2A図1Cの処理に関するより詳細な内容を示す図である。
図2B図1Cの処理に関するより詳細な内容を示す図である。
図2C図1Cの処理に関するより詳細な内容を示す図である。
図2D図1Cの処理に関するより詳細な内容を示す図である。
図2E図1Cの処理に関するより詳細な内容を示す図である。
図3A】本発明の開発に関するデータの異なる態様を示す図である。
図3B】本発明の開発に関するデータの異なる態様を示す図である。
図3C】本発明の開発に関するデータの異なる態様を示す図である。
図3D】本発明の開発に関するデータの異なる態様を示す図である。
図4】オリジナルデータと本発明の一実施形態に係るものを含む4つの異なる合成方法を用いた合成データとの比較プロット図である。
図5】本発明の実施形態による、いくつかのクラスタサイズに対する受信者動作特性曲線を示す図である。
図6】本発明の実施形態による、いくつかのクラスタサイズについて、漏洩したレコード(record)および漏洩した特徴の関数として、データ攻撃者に明らかにされたデータの割合を示す図である。
図7A】本発明の実施形態による、様々なレベルの特徴が除去された臨床試験データの視覚化を示す図である。
図7B】本発明の実施形態による、様々なレベルの特徴が除去された臨床試験データの視覚化を示す図である。
図7C】本発明の実施形態による、様々なレベルの特徴が除去された臨床試験データの視覚化を示す図である。
【発明を実施するための形態】
【0007】
以下、本発明の実施形態の完全な理解を提供するために、多数の具体的な例が記載される。しかしながら、本発明の実施形態は、これらの具体例に限定されず実施され得ることは、当業者には理解されよう。例えば、周知の方法、手順、構成要素、および回路は、本発明を不明瞭にしないように、詳細には説明されていない。図面中の参照数字は、対応するまたは類似の要素を示すために図面間で繰り返される場合がある。さらに、図面に描かれたブロックのいくつかは、組み合わされて単一の機能を実現する場合がある。
【0008】
上述のように、EHRデータを非識別化・匿名化する技術では、その種のデータに対する患者のプライバシーを完全に保証することはできない。Generative Adversarial Networks (GANs)やVariational Autoencoders (VAEs)などの他の技術は、深層学習や機械学習を用いて学習した分布から合成データを生成することにより、プライバシー制御を行うことが可能である。しかし、これらの技術はEHRで得られる大量のデータを必要とし、臨床試験から得られるEDCデータのような小さなデータセットではうまく機能しない。そのため、臨床試験の被験者とスポンサーの双方にとって、プライバシーの問題が依然として存在する。
【0009】
本発明者らは、高い忠実度を維持した合成データセットを生成することで、これらのプライバシー課題に対処する方法とシステムを開発した。本方法は、圧縮された特徴量空間(feature space)において被験者を最も近くにいる他人と識別するためのリアルデータの低次元埋め込みアプローチと、制御された現実的な変動を導入するため、特徴量(features)を並べ替えて再結合するアプローチとを組み合わせる。本手法は、被験者や情報源(スポンサーや貢献者など)の身元を隠しつつ、忠実度の高い合成被験者レコードを生成し、様々なデータレジームやデータ型に対して効率的に運用することが可能である。
【0010】
本明細書において、「忠実度」には「統計的忠実度」が含まれ、これは、合成データ上で実行されるあらゆる分析が、実際のデータ上で実行されるものと同じか非常に似た結果を生み出すことを意味する。また、「プライバシー」とは、個々のケースの状況、例えば、データの集計の状況から、個人が特定される可能性が低いことを意味する。
【0011】
本システムの一実施形態を図1Aおよび図1Bに示す。システム100は、データ合成部10を含み、オリジナルのリアルデータ5を取り込み、合成データ95を生成する。忠実度クロスバリデータ20は、合成データのリアルデータに対する忠実度を示す。プライバシー評価部30は、他の数値的方法と比較して、本発明がデータのプライバシーをどの程度保護するかを評価する。
【0012】
データ合成部10は、図1Bに、より詳細に示されている。データ合成部10は、エンコーダ11、埋込部13、クラスタリング部15、特徴量ペア検出部17、および合成レコード生成部19を含む。エンコーダ11はカテゴリ特徴量を符号化し、埋込部13はレコードを低次元空間に埋め込む。クラスタリング部15は、シードレコード(Seed Record)とその周辺のレコードの「クラスタ」を選択する。特徴量ペアリング検出部17は、年齢と生年月日のように関連する(あるいは統計的に相関のある)特徴量を検出し、合成レコード生成時に共分離するようにするものである。合成レコード生成部19は、相関性の高い特徴量に注目してレコードのクラスタを取り出し、そのレコードのクラスタの特徴量を並べ替えて合成レコードを生成する。これらのブロックの動作の詳細については、図1Cのフローチャートと合わせて説明する。
【0013】
本発明者らの方法には、以下の方法論的擬似コード(アルゴリズム)が含まれる。
(1)n個のレコードとm個の特徴量を有するオリジナルのデータセットX∈R^(n x m)
(2)埋め込み点rsを生成するため次元pの空間Vに埋め込まれたX(例:t-SNE, UMAP, PCA)
(3)以下のプロパティを使用
N>0 (合成データセットのサイズ)
k>0 ("クラスタ "とも呼ばれる隣接数)
P (埋め込み次元、m>p>0)
T(-) 特徴量の並べ替えメカニズム
(4)合成データセットを生成する R∈R^(N x m):
以下の処理をN回繰り返す。
・ランダムシードを生成して、いくつかのrsを選択
・rsの最近傍をk個選択する(l2 距離)
・T(.)に従って特徴量を並べ替えて、新しいレコードrs’を生成
・生成された他のレコードと組み合わせてRを形成するためにrs’を格納
【0014】
ここで、図1Cおよび図2A~2Eを参照する。図1Cは、本発明の一実施形態による、合成データセットがどのように生成され得るかを示すフローチャートである。元のソースデータセットは、ステップ105で入力される。このデータセットはn個のレコードを含み、各レコードは被験者(または患者)のデータを表し、各レコードはm個の異なる特徴量(別名「変数」)により表される。データセットは、図2Aに示すように、n個のレコードとm個の特徴量を有する表形式データの集合として表すことができる。この方法は、大小のデータセットで動作するように設計されているが、臨床試験から得られるような小さなデータセットで動作することが最大の利点である。特徴量はカテゴリ特徴量でも数値特徴量でもよく、名前、年齢、性別、国などの人口統計、身長、体重、血圧、心拍数などの生命統計、その他の種類のデータを含むことができる。
【0015】
ステップ110において、データセットに含まれるカテゴリ特徴量をエンコードする。カテゴリ特徴量のエンコーディングは、カテゴリ値を数値に変換するラベルエンコーディングまたはワンホットエンコーディングを含むことができる。次に、ミッシング値は、数値特徴量およびカテゴリ特徴量のそれぞれについて平均値および最頻値を埋めることによってインプットされる。この操作により、データは欠損のない全ての数値に変換され、次に述べる埋め込み操作に備えることができる。
【0016】
ステップ115において、レコードは低次元空間に埋め込まれる。この埋め込みは、レコードのp次元特徴量空間Vへのマッピングからなり、pは0からmの間である。好ましくは、pは小さく、例えば、2または3であり、その結果、低次元特徴量空間となり、その後のk-最近傍クラスタリング操作がよりうまくいくようになる。埋め込みは、どのレコードが互いに類似しているかを判断するのに役立つ。図2Bは、p=2の空間を示す。埋め込みは、t分布型確率的近傍埋め込み法t-SNE(t-stochastic neighbor embeddingや、UMAP(uniform manifold approximation and projectionや、主成分分析(PCA)を用いて達成され得る。図2Bに示すt-SNE(別名t-distributed SNE)は、高次元空間のレコードのペアが関連している確率を計算し、次に、同様の分布を生じる低次元埋め込みを選択するものである。UMAPはt-SNEと似ているが、データが局所的に連結したリーマン多様体上に一様に分布し、リーマンメトリックが局所的に一定またはほぼ局所的に一定であることを仮定するものである。PCAは、レコードの集合の主成分(低次元空間の次元)を計算し、主成分を用いてデータに対して基底の変更を行い、時には最初の数個の主成分のみを用いて残りを無視することもある。図2Cは、これら3種類の次元削減を用いた場合の違いを示している。黒い点は元のデータを示し、灰色の点は各方法が僅かに異なる合成データセットを生成する様子を示している。
【0017】
レコードが低次元空間に埋め込まれると、ステップ120でシードレコードrが無作為に選択される。次にステップ125で、シードレコードに最も近いk個の最近傍レコードを特定する。kの値は、忠実度とプライバシーの間のトレードオフと、アプリケーションの種類に基づいて、発見的に選択される。kが増加するにつれて、忠実度は減少するが、プライバシーは増加する。図2Dは、k=3であるため、シードレコードrに最も近い3つの最近傍レコードが特定される状況を示している。これらは、r、r、およびrとラベル付けされている。
【0018】
ステップ130では、新しい合成レコードrs’が生成される。低次元空間内の各レコードについて、この方法は、ある半径/距離内かつ同じクラスタ内の近傍k個の特徴量を並べ替えることによって、1つまたは複数の合成レコードを生成する。並べ替えのアルゴリズムとしては、円形アルゴリズム、繰り返しのあるランダムアルゴリズム、繰り返しのないランダムアルゴリズムなど、いくつかを採用可能である。ここでは、典型的には、クラスタ内の全てのk個の近傍レコードに対して処理を行い、第1近傍レコードの第1特徴量の値、第2近傍レコードの第2特徴量の値などを取る、円形並べ換え(circular permutation)を採用する。本発明の一実施形態では、新しいオリジナルの特徴量の値を保証するために、数値特徴量に少量のノイズを加えてもよい。
【0019】
いくつかのパラメータが設定可能である。合成レコードの数(N)とリアルレコードの数(n)の比が設定可能である。後者の場合、例えば、特別なコホート(集団)のデータがある場合や、コホートに対して十分なデータがなく、学習や分析のために多くのデータを生成する必要がある場合、各リアルレコードに対して(平均的に)1つ以上の合成レコードを生成することが有用な場合がある。クラスタサイズkも設定可能であり、固定または可変とすることができる。クラスタサイズが小さいほど、生成された被験者(subject)が実際の被験者(subject)に近くなる。別の設定可能なパラメータは、特徴的な特徴量の値(すなわち、外れ値)を持つ被験者のプライバシーを保護するために使用され、これらの被験者のレコードを省略するようにメソッドを設定することが可能である。数学的には、「外れ値」は、最も近い被験者との距離が最も近い被験者との全てのレコードの距離のqthパーセンタイルより大きいレコードとして定義される。qの値は設定可能なパラメータであり、qの一例は95である。
【0020】
図2Eは、合成レコードrs’の生成例を示す。rs’の各特徴量は、rとそのk個の最近傍集合のk+1個からランダムに並べ替えられる。したがって、図2Eでは、合成レコードrs’の最初の特徴量はrから、2番目と最後から2番目の特徴量はrから、3番目と5番目の特徴量はrから、4番目と最後の特徴量はrから、それぞれ得られている。
【0021】
最近傍の特徴量を並べ替える場合、特徴量が互いに弱く結合または相関していると、この方法はより良く機能する。図3Aは、2つの特徴量のセットの3つの分布を示している。分布301は、2つの特徴量の間に線形で高い相関を示し、分布302は、2つの特徴量の第2のセットの間の非線形の強い相関(Strong Coupling)を示す。これに対して、分布303は、2つの特徴量の第3のセットの間の弱い相関(Weak Coupling)を示す。
【0022】
ステップ130の新規な点は、被験者のレコードの相関性の高い特徴量にも対応することである。これは、合成されたデータをより現実的にするために、そのような相関の高い特徴量を見つけ、それらを共分離させるものである。例えば、ある被験者のレコードには、生年月日、性別、住所、年齢、身長、体重、血圧、BMI(body mass index)の8つの特徴量が含まれていることがある。生年月日と年齢は互いに高い相関があり、BMI、身長、体重は高い相関がある。ステップ130は、最近傍からのものをランダムに結合する際に、被験者のレコードの全ての特徴量を別々に扱うのではなく、まず相関の高い特徴量を決定し、合成レコードにおいてそれらを一緒に保つために共分離を実施してもよい。したがって、被験者の年齢と生年月日は、被験者のBMI、身長、および体重と同様に、合成レコードにおいて常に一緒に維持されるが(これらの5つの特徴量の全てが必ずしも一緒に維持されるとは限らない)、性別、住所、および血圧は全て、レコードの最近傍のものとランダムに順列付けされることになる。
【0023】
また、この方法は、臨床試験でしばしば発生するような、「高ノイズ」かつ「低精度」である特徴量でより良く機能する。図3Bは、低ノイズ(311)および高ノイズ(312)特徴量分布の例を示す。個々の測定値(例えば、血圧)は、ノイズが多く、不正確であると仮定される。その結果、ほとんどの特徴量の値について、被験者間および被験者内の変動は、連続変数についてよく似た大きさを有する。つまり、最近接間の分散が被験者内分散より大きくなることはない。
【0024】
また、この方法は、観測された分布にうまく適合しないことが多く、ノイズの多い不安定な解(Unstable Solutions)が得られる傾向がある勾配降下型学習法(gradient descent)よりも、小さなデータセットでうまく機能する。図3Cは、小さなサンプルサイズ(例えば、サンプルあたり100~1000レコード)に対する勾配降下型学習法の不安定性の一例を示す図である。
【0025】
この方法は、高いソースプライバシーが要求されるデータセット(すなわち、誰がどのデータを提供したかを判断することが困難なデータセット)でも有効である。臨床試験データのデータソースの数は少ない(すなわち、比較的容易に推測できる)ので、誰かがデータ貢献者が誰であるかを決定できるような方法でデータを分離可能(Separable)であってはならない。図3Dは、ソースAおよびBによって寄与されたデータの分離可能および分離不可能(Inseparable)な分布を示す。データは、分離攻撃を混乱させるために、本発明方法においてキュレーションされる。
【0026】
合成レコードrs’が生成されると、合成データセットR′の一部として保存される(ステップ135)。次に、この方法は、操作140で新しいシードレコードを選択し、操作125に戻り、この新しいシードレコードのk個の最近傍レコードの特徴量を用いて別の合成レコードを生成する。このループは合計N回行われ、各合成レコードは前の合成レコードと連結され、N個のレコードを有する合成データセットR′195が形成される。
【0027】
図1Cに示すステップの他に、レコードのオリジナルデータセットから合成データセットを生成するための他の操作または一連の処理が考えられる。さらに、図1Cのフローチャートにおける処理ステップの実際の順序は、限定することを意図しておらず、処理は、任意の実際的な順序で実行されてもよい。
【0028】
本方法およびシステムは、電子医療記録および他のデータを匿名化するために使用される先行技術の機械学習方法と比較して有利であり、なおかつ、正確であり、オリジナルデータセットに忠実である。本方法およびシステムは、被験者レベルのプライバシーおよびソース、貢献者、またはスポンサーレベルのプライバシーの両方に関して、より良く機能する。
【0029】
本発明者らは、高度難治性多発性骨髄腫の臨床的に均質な研究コホートに対する3つの臨床試験からなる独自のデータセットについて、本発明の技術の性能を評価した。より多様な設定での性能を評価するために、本技術は、カリフォルニア大学アーバイン校(UCI)の機械学習リポジトリからの4つの公開データセット(UCI心臓病、UCI心不全、UCI乳がん、およびUCI肺がんデータセット)でも試験された。
【0030】
パフォーマンスまたはフィデリティ・アセスメント
本発明者らは、Synthetic Data Gym(SDGym)を使用して、本実施形態と他の最先端の
合成器を比較するベンチマークを実施した。SDGymベンチマーク(Synthetic Data Vault Project(N. Patki, R. Wedge, K. Veeramachaneni, "The Synthetic Data Vault" (2018), https://sdv.dev/SDV/index.html) )は、比較ベースラインとして使用するための古典および新規合成データ生成部のセットとともにリアルデータおよびシミュレーションデータの両方のコレクションを提供するライブラリである。このベンチマークでは、「尤度フィットネス」指標と「機械学習の有効性」指標を使用する。「尤度適性」指標は、シミュレーションデータセットから生成された合成データに対して使用される。「機械学習の有効性」メトリクスは、実際のデータセットから生成された合成データに対して使用される。シミュレーションデータは既知の分布に由来するため、尤度適性テストでは、合成データセット内の特徴量がオリジナルデータセット内の特徴量と同じ結合分布に従うかどうかをチェックする。SDGymベンチマークでは、リアルデータから生成した合成データに対する機械学習の有効性を検証するため、合成データを用いて、ある特徴量を他の特徴量から予測するモデルを学習し、そのモデルが元のテストデータに対して同様の性能を達成できるかどうかを確認する。分類部は精度とF1スコアで、回帰部はR2乗で評価される。SDGymベンチマークの詳細は、https://github.com/sdv-dev/SDGym を参照。
【0031】
合成されたデータセットの忠実度を評価するために,合成されたデータセットとソースデータセットの両方に対してクロスバリデーション検定を実施し、ソースの基本特性がどの程度保持されているのかを検証した。バイナリおよび非バイナリ特徴量に対して、フィッシャー正確検定およびコルモゴロフ・スミルノフ(K-S)検定が使用される。一変量忠実度を調べるために、数値特徴量の平均値も比較される。多変量解析では、合成データにおけるペアワイズ特徴量相関を調べ、オリジナルデータにおける相関と比較する。さらに、Bag-of-Words(BoW)表現のような教師なし手法を使用して、合成データセットをオリジナルデータセットと比較する。合成データセットとオリジナルデータセットの分離可能性を測定するために、シルエット係数とランダムフォレスト分類部を使用する。シルエット係数は多変量、教師なしメトリックであり、あるクラスタを別のクラスタと比較し、リアルデータセットと合成データセットの重なりを定量化するものである。ランダムフォレスト分類部は教師ありの分類部で、試用期間終了時の被験者の結果を予測する。曲線の下の面積(AUC)は、ランダムフォレスト分類部の精度を測定するために使用される。
【0032】
プライバシーアセスメント
また、本発明の方法論が被験者/個人レベルおよびソースレベルの両方においてプライバシーを保持する能力も評価される。被験者レベルのプライバシーについては、本発明がソースレベルのデータからレコードを記憶し、合成されたデータにおいてそれらを生成するかどうかを調べることに加えて、メンバーシップ開示リスクおよび属性開示リスクに対する方法論の頑健性が検査される。
【0033】
背景として、会員情報開示リスクは、「リアル」(すなわち、トレーニング)データセットに関心のある対象が含まれているかどうかを判断することと定義される(Z. Zhang, C. Yan, D. Mesa, J. Sun, and B. Malin, "Ensuring electronic medical record simulation through better training, modeling, and evaluation," JAMIA 27(1):99-108 (2020)参照のこと)。臨床試験のデータセットでは、試験内の全ての被験者が、全試験参加者に共通するある条件を持っている。データ攻撃者は、ある被験者のデータセットへの登録状況を把握することができれば、その被験者がその臨床試験に特有の状態であることを確認することができる。攻撃者は、被験者がたった一人でも試験に参加していることを証明できれば、その機関の信用を失わせ、患者のプライバシーに関する法律や規制に違反することを示すことができる。このリスクを評価するために、オリジナルデータセットからレコードの一部をランダムに抽出し、攻撃者が関心を持つレコードに似たテストセットを生成する。K-FoldクロスバリデーションはK=10で使用された。各レコードについて、合成データセット内のレコードとのハミング距離を求め、距離が閾値より小さい場合、そのレコードはオリジナルデータセットからのレコードと一致するものとしてフラグを立てる。そのレコードが実際にオリジナルデータセットに存在する場合は真陽性(True positive)、そうでない場合は偽陽性(false positive)とラベル付けされる。数値の場合、修正ハミング距離は2つの属性値が互いに2.5%以内であれば同等と見なす。
【0034】
属性開示リスクは、対象者の機密性の高い特徴量が、対象者のより一般的な属性の既知のセットから推測される場合に生じる。このリスクを評価するために、攻撃者がオリジナルデータの部分的な知識、例えば、レコードおよび/または属性のサブセットを有しているシナリオを考える。例えば、攻撃者が合成データセットとともに、オリジナルデータの一部の被験者の人口統計学的情報を入手できたとする。rは攻撃者が知っているオリジナルレコードの割合を示し、pは攻撃者が知っている属性/特徴量の割合を示すとすると、パラメータrとpを変化させて、ソースからのレコードの保護/漏洩において方法論がどの程度うまく機能するかを検証することが可能である。これは、まず、オリジナルデータセットからレコードと特徴量の一部をランダムにサンプリングして、漏洩したデータセットに似たレコードのセットを生成することによって行われる。次に、合成データセットから、漏洩した各レコードに最も近いレコード(すなわち、最近傍レコード)を決定し、欠損値をインプットして、この手法の合成データが基礎となるソースデータのプライバシーをどの程度保護できるかを確認する。
【0035】
ソースレベルのプライバシーについては、典型的には、データがその所有権特性(例えば、所有権のアイデンティティ、ソースの数など)を明らかにしてはならない。本発明方法論の一実施形態では、生成ステップは、ソースの識別可能性を低減するように、複数のソースからの主題を含む。
【0036】
結果
忠実度と正確性
図4は、オリジナルソースである多発性骨髄腫データセット(黒)と、その合成データ(グレー)を、MedGAN(医療用生成敵対的ネットワーク)、RNN(再帰型ニューラルネットワーク)、CTGAN(条件付生成敵対的ネットワーク)、および本発明の40特徴量で比較した散布図である(散布図は、次元削減のためにt-SNEを用いて可視化されている)。目視では、本発明手法により、クラスタサイズが小さい場合でも、リアルデータと非常によく重なる合成データセットが作成されていることがわかる。
【0037】
表1は、複数の異なる一変量、二変量、多変量、および教師あり・教師なしのメトリックを用いて、本発明方法(k=5)および図4のニューラルネットワーク方法の性能の定量的結果を示している。上述のように、シルエット係数は、1つのクラスタを別のクラスタと比較し、リアルデータセットと合成データセットの重複を定量化する多変量、教師なしメトリックである。シルエット係数はゼロに近いほどよいが、本発明手法のシルエット係数は-0.001であり、他の3つの手法と比較して非常に優れている。
【表1】
【0038】
表1には、リアルデータと合成データのAUC(曲線下面積)も示しているが、これは多変量解析の教師付きメトリックスである。これらの指標は予測精度を示すもので、40個の特徴量のうち39個が分かっている場合、40個目の特徴量はどの程度予測できるのか?2つのAUCが互いに近ければ近いほどよい。この場合、本発明手法のAUCは0.005しか離れておらず、他の3つの手法よりもはるかに優れている。
【0039】
次に、BoW(bag of words)表現間の距離という指標は、多変量、教師なし指標である。この場合、「bag of words」は「bag of features」に相当し、データ中の全てのビン化された特徴量の頻度をヒストグラムで示す。シルエット係数と同様に、BoW表現間の距離はゼロに近いほどよい。この場合、本発明手法のBoW表現間の距離は0.009であり、他の3つの手法と比較して非常に優れていることがわかる。
【0040】
次の指標は、フィッシャー正確検定とKS(Kolmogorov-Smirnov)検定である。これらの検定は、リアルデータと合成データにおける各特徴量の統計的分布を比較する一変量メトリクスである。カテゴリ特徴量にはFisher Exactが、数値特徴量にはKSが使用される。これらの検定のp値の閾値は5%(または0.05)に設定されている。表1は、リアルデータセットと合成データセットで異なる統計分布を持つ特徴量の数を示しており、少ないほどよい。この場合、本発明検定を用いた40個の特徴量のうち、リアルデータと合成データの統計分布が異なるものはなく、少なくとも12個の特徴量が統計分布が異なる他の3つの手法のいずれよりもはるかに優れている。
【0041】
表1の最後の指標は合成されたデータセットからリアルデータ セットを分類する精度を示している。この指標は,分類部が混乱しているかどうかを測定するもので,全混乱とは,分類が50%しかできていない、もしくは0.5しかできていないことを意味する。この指標は0.5から1.0まであり、0.5に近いほどよいということになる。この場合、本発明法の精度は僅か0.61(または61%)であり、他の3つの方法のどれよりもはるかに優れている。そのうちの2つ(medGANとCTGAN)は100%に近い精度である。
【0042】
表2は、オリジナル(例えば、リアルデータ)と、medGAN、RNN、および本発明方法を用いて生成した合成データとを比較した、多発性骨髄腫データセットからの様々な数値特徴量の平均を示す。被験者のベースライン機能レベルは、被験者のECOG(Eastern Cooperative Oncology Group)パフォーマンスステータスであり、0(完全活性)から5(死亡)までの整数であり、その間に制限の勾配が存在する。ほとんどの特徴量について、本発明方法が最もよい結果をもたらした。
【表2】
【0043】
表3は、表1のメトリクスのクロスバリデーション結果で、サイズ(レコード数×特徴量)の異なるパブリックデータセットとプライベートデータセットで本発明手法がどのように機能したかを示している。多発性骨髄腫のデータセットは、表1および表2に登場するものと同じである(ただし、AUCおよびBoW値は、新しい合成セットを生成するたびに変化する可能性がある)。乳がんデータセットは、全データセットの中で最もレコード数が多いプロプライエタリなデータセットである。他の4つのデータセットは、UCI機械学習リポジトリから公開されているものである。UCI肺がんデータセットは非常に小さく(すなわち、100レコード未満)、特徴量の数がレコード数より多いため、t-SNEとPCAがうまく機能せず、本実施形態の方法が最も悪い結果を示した。
【表3】
【0044】
表4A1、表4A2、および表4B1~4B3は、SDGymベンチマークを用いて、非臨床、シミュレーションおよびリアルデータセットにおいて、本実施形態の手法と他の14の手法との性能を比較したものである。表4Aは、10,000レコードと2~37の特徴量を持つ7つのシミュレーションデータセットを含んでいる。表4Bは、22,500から481,000のレコードと15から785の特徴量を持つ8つのリアルデータセットである。本実施形態では、クラスタサイズk=5を用い、データセットサイズが大きいため、PCAを用いて合成を行った。
【0045】
緑色の項目は各データセットで最も性能のよいデータ合成部、赤色の項目は最も性能の悪いデータ合成部を示す。緑(赤)色の項目は、陰が濃いほど性能がよい(悪い)ことを示す。本実施形態の手法は、ほとんどのデータセットにおいて、一貫して他の手法を上回った。本実施形態の手法の結果は、同一性を維持した合成(Identity synthesizer)とほぼ同じであることに注目されたい。本実施形態の方法に従って合成されたデータは忠実度が高いにもかかわらず、以下のセクションで議論するように、高度なプライバシーが維持される。
【表4A1】
【表4A2】
【表4B1】
【表4B2】
【表4B3】
【0046】
サブジェクトレベルのプライバシー
本発明者らの実験では、オリジナルデータセットから合成データセットにも現れる被験者の数は一貫してゼロであった。合成データを生成する際、本実施形態の方法は、基礎となるソースデータからのレコードを複製または記憶することはない。
【0047】
図5は、クラスタサイズ2、5、10のROC(Receiver Operating Characteristic)曲線を示す。クラスタサイズ2の場合、AUCは0.7であり、クラスタサイズ5と10の場合、AUCは0.5に近い値になっている。AUCが高いほど予測精度が高いことを意味する。しかし、前述したように、クラスタサイズが小さくなると、プライバシーも低下する。クラスタサイズ5と10では、データ攻撃者はメンバーと非メンバーを区別することができず(つまり、データの一部がオリジナルデータセットの一部であるかどうか)、開示リスクの可能性を最小限に抑えることができるため、プライバシーが重要な場合はこれらの値を使用する方がよい。
【0048】
図6は、クラスタサイズが2、5、10の場合の、データ攻撃者に知られたデータの割合を、r(漏洩したレコードの割合)とp(漏洩したレコードの攻撃者に知られている特徴量の割合)の関数として示したものである。最悪のシナリオは、クラスタサイズk=2の一番上のグラフに示されている:レコードの90%が漏洩し(r=0.9)、その特徴量の90%が漏洩した(p=0.9)場合でも、攻撃者は、参照602で示すようにレコードの最大40%を一意に復元することが可能である。図6の中央のグラフは、k=5であり、70%の被験者が、その特徴量の90%が漏洩した(p=0.9)状態で、r=0.7であるとき、攻撃者は、参照番号605で示されるように、レコードの最大18%を一意に回復できることを示す。図6の一番下のグラフは、k=10であり、被験者の90%が漏洩し(r=0.7)、その特徴量の90%が漏洩した(p=0.9)とき、攻撃者は、参照番号610で示されるように、レコードの最大13%を一意に回復できることを示す。このように、クラスタサイズを大きくすることで、合成データのプライバシーレベルを向上させることができる。クラスタサイズを大きくすると、生成される合成データの品質(忠実度)が低下する傾向があるため、データの種類や用途に応じて、忠実度とプライバシーを両立させるのに最適なkの値を選択する必要がある。図6の曲線を生成する実験に使用したデータ(前述の多発性骨髄腫の治験データ)には、946人の被験者に40個の特徴量が含まれている。実際には、データ攻撃者は被験者について平均4~7個の特徴量を知っている傾向があり、このデータセットでは、総特徴量サイズのおよそ10%~18%(またはpが0.10~0.18)である。つまり、これらのpの値に対して、図6は、k=2の場合、非常に少量のデータが明らかになる可能性があるが、k=5または10の場合、その量はゼロ近くにまで減少することを示している。
【0049】
スポンサー・レベルのプライバシー
図7A~7Cは、946人の多発性骨髄腫被験者からの臨床試験データのt-SNE可視化である。図7Aは、これらの被験者からの全40個の特徴量を含み、多発性骨髄腫のデータが3つのソース(すなわち、3つの臨床試験)から構築されていることを明らかにするものである。データソースの視覚的な分離可能性は、ラボ測定の単位またはモードの違いとともに、いくつかのデータセットにおける欠落した特徴量に起因するものである。そこで、本発明者らは、データの分離可能性をわかりにくくするために、ランダムフォレスト分類部を学習させ、各レコードがどの情報源に属するかを学習させた。そして、データが分離できなくなるまで、特徴的な特徴量を一つずつ削除していった。図7Bは、最も特徴的な8個の特徴量を除去したレコードを示すが、データソースを分離する能力はまだ残っている。図7Cは、最も特徴的な23個の特徴量が除去されたレコードを示すが、この時点では、データソースを別々に識別することができない。このように、本発明は、ソースレベルである程度の保護を提供するが、ソースの識別可能性の低下とデータからの特徴量の排除との間のトレードオフを伴う。
【0050】
要約すると、本発明は、これまで利用することができなかった貴重な臨床試験データから合成電子健康データを生成するものである。臨床試験データは、一般に、法的規制の保護があり、プライバシー問題の対象となるような小さなデータセットに含まれている。データセ ットが小さいため、ニューラルネットワークアルゴリズムは、これらの課題を全て解決することはできなかった。したがって、本発明は、これらの課題のためにデータに直接アクセスすることができなかった人々による、これらのデータに基づく研究やイノベーションを可能にする。
【0051】
本発明は、あらゆるサイズの表形式データから高忠実度の合成被験者レベルEDCデータを効果的に生成することができ、特に小規模なデータセット(すなわち、数百レコードのオーダー)によく適している。この方法は、効率的で、制御可能で、追跡可能であり、被験者およびスポンサー/貢献者/ソースのプライバシーを高度に保持しながら、任意の高次元多変量表形式データを合成することが可能である。本発明は、GANやVAEのような高次元の条件表現を学習するのではなく、原データを低次元に埋め込んで圧縮特徴量空間における被験者の最近傍レコードを特定し、特徴量の並べ替えと類似被験者間の再合成を組み合わせる。合成的に生成されたデータは統計的にオリジナルデータと類似しており、オリジナルデータの根底にある依存性を捉えることができる。本手法はオリジナルデータからのレコードを記憶・保持せず、オリジナルデータからの特定の特徴量を明らかにしないため、被験者のプライバシーを保護することができる。
【0052】
さらに、生成されたデータは、元のソースデータからアップサンプリングまたはダウンサンプリングすることができ、また、正確なサイズにすることもできる。被験者を表す生成された各レコードは、それを生成するために使用された被験者の小さなクラスタにマッピングすることができる。これにより、研究者などのデータ利用者の特定のニーズに焦点を当てたデータを柔軟に生成することができる。また、合成された被験者の特徴量を柔軟に選択することができる。また、複数の被験者から特徴量を受け継ぐことができるため、被験者のプライバシーを保護することができる。
【0053】
もう一つの利点は、本実施形態の方法が入力データ型に関する先験的な仮定をしないことである(例えば、カテゴリ特徴量と数値特徴量の両方を扱うことができる)。また、アルゴリズムは、特徴量の基礎となる分布に関しても仮定を持たない。さらに、大規模な微調整、ハイパーパラメータの最適化、フィッティング、および/またはセットアップを必要とする他のアプローチと比較して、本実施形態の方法は、軽量、俊敏、および実装と展開が容易である。GANのようにエンコードやアーキテクチャの変更を必要とせず、データ型が混在する特徴量を効率的に自動処理することができる。また、ニューラルネットワークの学習と比較して、僅かな時間で実行することができる。
【0054】
本実施形態は、上述したヒューリスティックテストによって評価されるリアルデータの基本的なプライバシーを維持する一方で、データ生成における柔軟性を可能にする。例えば、データ利用者(例えば、研究者)が合成的に被験者を生成することを望むような、希少疾患を有する被験者を特に反映する可能性のある、特定の特徴量間の依存関係をカスタマイズまたは強調するため、埋め込み処理後のカスタム並べ替え機能を設計して所望の特性を持つ新しい被験者を生成することが可能である。
【0055】
本実施形態は、システム、コンピュータプログラム製品、または方法の形態で具現化されてもよい。同様に、本発明の態様は、ハードウェア、ソフトウェア、または両者の組み合わせとして具現化されてもよい。本発明の態様は、その上に具現化されたコンピュータ可読プログラムコードの形態で1つまたは複数のコンピュータ可読媒体に保存されたコンピュータプログラム製品として具現化されてもよい。
【0056】
コンピュータ可読媒体は、コンピュータが読み取り可能な記憶媒体であってもよい。コンピュータが読み取り可能な記憶媒体は、例えば、電子、光学、磁気、電磁、赤外線、または半導体のシステム、装置、もしくはデバイス、またはそれらの任意の組合せであってもよい。
【0057】
本発明の実施形態におけるコンピュータプログラムコードは、任意の適切なプログラミング言語で記述することができる。プログラムコードは、単一のコンピュータ上で実行されてもよいし、複数のコンピュータ上で実行されてもよい。コンピュータは、コンピュータ使用可能な媒体と通信する処理ユニットを含んでもよく、コンピュータ使用可能な媒体は命令のセットを含み、処理ユニットは命令のセットを実行するように設計されている。
【0058】
上記の説明は、本発明の原理および様々な実施形態を例示することを意図している。当業者が上記の開示を十分に理解すれば、他の多数の変形および修正が可能であることは明らかである。以下の特許請求の範囲は、全てのそのような変形および修正を包含するように解釈されることが意図される。
図1A
図1B
図1C
図2A
図2B
図2C
図2D
図2E
図3A
図3B
図3C
図3D
図4
図5
図6
図7A
図7B
図7C