(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024160204
(43)【公開日】2024-11-13
(54)【発明の名称】オリジナルデータセットからシンセティックな縦断データセットを生成するシステムおよび方法
(51)【国際特許分類】
G16H 10/00 20180101AFI20241106BHJP
【FI】
G16H10/00
【審査請求】有
【請求項の数】26
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024058952
(22)【出願日】2024-04-01
(31)【優先権主張番号】18/299,577
(32)【優先日】2023-04-12
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】522315046
【氏名又は名称】メディデータ ソリューションズ インク
【氏名又は名称原語表記】MEDIDATA SOLUTIONS, INC.
【住所又は居所原語表記】350 Hudson Street, 9th Floor New York, New York, United States of America
(74)【代理人】
【識別番号】100134430
【弁理士】
【氏名又は名称】加藤 卓士
(72)【発明者】
【氏名】ジェイコブ・アプテカー
(72)【発明者】
【氏名】マンディス・ベイジ
(72)【発明者】
【氏名】ピエール ルイ・ブルロン
(72)【発明者】
【氏名】ジェイソン・メイズィー
(72)【発明者】
【氏名】アフラー・シャフクアット
(72)【発明者】
【氏名】ジーメン・サン
(57)【要約】 (修正有)
【課題】被験者レベルでの高いレベルのプライバシーを保持しながら、時間指定されたイベントを含む高い忠実度の縦断的電子データ収集(EDC)データを生成する方法、システム及びコンピュータ読取り可能媒体を提供する。
【解決手段】方法は、特徴ベクトルを、夫々がサブシーケンスパターンに基づいてレコードの対応する1つのレコードを特徴付けるように決定し、低次元空間(V)に埋め込み、レコードの中からシードレコードを反復的に選択し、レコードのサブセットにおいてサブシーケンスパターンを繰り返し識別し、シードレコードにおけるサブシーケンスパターンのインスタンスを、レコードのサブセットにおいて識別された類似のサブシーケンスパターンのインスタンスと置き換え、修正されたシードレコードを形成する。全てのレコードが選択されるまでこれを繰り返して、反復修正されたシードレコードを組み合わせてシンセティックデータセットを生成する。
【選択図】
図5
【特許請求の範囲】
【請求項1】
シンセティックな縦断データセット(X’)を生成するための方法であって、
特定部が、整数N人の患者のイベントシーケンスを定義するN個のレコード(r)において、整数m個のサブシーケンスパターンを特定する特定ステップと、
決定部が、前記m個のサブシーケンスパターンに、少なくとも部分的に、基づいて、それぞれが、前記N個のレコード(r)の中の対応するレコードを特徴付ける複数の特徴ベクトル(Y’)を決定する決定ステップと、
埋込部が、y次元(yは0より大きくmより小さい整数)の低次元空間(V)における前記N個のレコード(r)の位置を定義するため、前記特徴ベクトル(Y’)を前記低次元空間(V)に埋め込む埋込ステップと、
選択部が、前記N個のレコード(r)の中から一つのシードレコード(rs)を選択する選択ステップと、
識別部が、前記低次元空間(V)における前記N個のレコード(r)の位置に少なくとも部分的に基づいて決定された、前記N個のレコード(r)のサブセットにおけるサブシーケンスパターンを識別する識別ステップと、
置換部が、前記シードレコード(rs)内のサブシーケンスパターンの1つ以上のインスタンスを、前記サブシーケンスパターンのそれぞれのインスタンス間の距離に、少なくとも部分的に基づいて、前記レコード(r)のサブセットにおいて識別された対応するサブシーケンスパターンのインスタンスで置き換え、修正シードレコード(rs’)を形成する置換ステップと
反復部が、全ての前記レコード(r)が前記シードレコード(rs)として選択されるまで、前記選択ステップ、前記識別ステップ、および前記置換ステップを反復的に実行する反復ステップと、
結合部が、前記反復ステップの結果として修正されたシードレコード(rs’)同士を結合する結合ステップと、
を含む方法。
【請求項2】
データセット(Y)に含まれる前記N人の患者のイベントレコードのそれぞれが、患者識別子、イベントの開始日またはイベントの開始日および終了日、およびイベントの1つまたは複数の属性を含み、
決定部が、前記N人の患者のイベントシーケンスを定義する前記N個のレコード(r)を生成するため、前記N人の患者の各々に関連する前記イベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを、前記N人の患者のそれぞれに対して決定する決定ステップをさらに含む請求項1に記載の方法。
【請求項3】
オリジナルデータセット(X)は複数のテーブルを含み、そのテーブルのそれぞれは、前記N人の患者の前記イベントレコードのサブセットを含み、
形成部が、前記テーブルを連結して前記データセット(Y)を形成する形成ステップをさらに含む、請求項2に記載の方法。
【請求項4】
前記m個のサブシーケンスパターンは、所定の閾値よりも高い頻度で出現するサブシーケンスパターンを含む請求項1に記載の方法。
【請求項5】
前記m個のサブシーケンスパターンは、出現頻度が最も高いm個のサブシーケンスパターンを含み、mは定されたパラメータである、請求項1に記載の方法。
【請求項6】
前記複数の特徴ベクトル(Y’)は、それぞれ長さが等しい請求項1に記載の方法。
【請求項7】
前記複数の特徴ベクトル(Y’)は、(i)前記m個のサブシーケンスパターンの出現頻度、または(ii)前記m個のサブシーケンスパターンの二値有無符号化を含む請求項1に記載の方法。
【請求項8】
前記埋込ステップは、t分布型確率的近傍埋め込み法(t-SNE)、一様分布多様体近似投影(UMAP)、および主成分分析(PCA)のうちの1つまたは複数を用いて実行される、請求項1に記載の方法。
【請求項9】
前記レコード(r)のサブセットは、前記低次元空間(V)における前記シードレコード(rs)のうち、整数k個の最近傍に対応する請求項1に記載の方法。
【請求項10】
前記置換ステップは、前記サブシーケンスパターンのそれぞれのインスタンス間の距離が、所定の閾値未満である、前記サブシーケンスパターンに対してのみ実行される、請求項1に記載の方法。
【請求項11】
前記置換ステップは、前記シードレコード(rs)内の前記サブシーケンスパターンの前記1つ以上のインスタンスを、所定距離閾値未満のそれぞれの距離を有するサブシーケンスパターンのグループからランダムに選択された対応するサブシーケンスパターンのインスタンスで置換することによって実行される、請求項1に記載の方法。
【請求項12】
前記置換ステップにおいて、前記N個のイベントシーケンスにおける出現回数が所定閾値未満であるサブシーケンスは対象から除外される、請求項1に記載の方法。
【請求項13】
前記反復ステップにおいて、前記シードレコード(rs)における最初のイベントの開始日を毎回ランダム化するステップをさらに含む、請求項1に記載の方法。
【請求項14】
前記反復ステップにおいて、前記シードレコード(rs)内の複数のイベントの1つ以上のペアの間のギャップを毎回ランダム化することをさらに含む請求項1に記載の方法。
【請求項15】
前記N個のイベントシーケンスの各々において、先行するイベントが発生したと仮定した場合の各イベントの条件付き確率を決定する決定ステップをさらに含み、
前記反復ステップにおいて、前記条件付き確率が定義された閾値より小さい場合に、各イベントをそれぞれの先行イベントと毎回ランダムに入れ替える請求項1に記載の方法。
【請求項16】
前記シンセティックな縦断データセット(X’)を、暗号化とアクセス制御を提供するストレージシステムに出力する出力ステップをさらに含む請求項1に記載の方法。
【請求項17】
シンセティックな縦断データセット(X’)を生成するためのシステムであって、
前記1つまたは複数のプロセッサが実行可能な命令を記憶するメモリと、該メモリと通信可能な1つまたは複数のプロセッサとを有するコンピュータと、
整数N人の患者のイベントシーケンスを定義するN個のレコード(r)において、整数m個のサブシーケンスパターンを特定する特定ステップと、
前記m個のサブシーケンスパターンに、少なくとも部分的に、基づいて、それぞれが、前記N個のレコード(r)の中の対応するレコードを特徴付ける複数の特徴ベクトル(Y’)を決定する決定ステップと、
前記特徴ベクトル(Y’)をy次元(yは0より大きくmより小さい整数)の低次元空間(V)に埋め込み、低次元空間(V)における前記レコード(r)の位置を定義する埋込ステップと、
前記レコード(r)の中からシードレコード(rs)を反復的に選択する選択ステップと、
前記低次元空間(V)における前記レコード(r)の位置に少なくとも部分的に基づいて決定された、前記レコード(r)のサブセットにおけるサブシーケンスパターンを識別する識別ステップと、
前記シードレコード(rs)内のサブシーケンスパターンの1つ以上のインスタンスを、前記サブシーケンスパターンのそれぞれのインスタンス間の距離に、少なくとも部分的に基づいて、前記レコード(r)のサブセットにおいて識別された対応するサブシーケンスパターンのインスタンスで置き換え、修正シードレコード(rs’)を形成する置換ステップと
全ての前記レコード(r)が前記シードレコード(rs)として反復的に選択されるまで、前記選択ステップ、前記識別ステップ、および前記置換ステップを反復する反復ステップと、
前記反復ステップの結果として修正されたシードレコード(rs’)同士を結合する結合ステップと、
を前記コンピュータに実行させるシステム。
【請求項18】
前記N人の患者のイベントレコードを含むデータセット(Y)のそれぞれが、患者識別子、イベントの開始日またはイベントの開始日および終了日、およびイベントの1つまたは複数の属性を含み、
前記メモリは、前記1つまたは複数のプロセッサによって、前記N人の患者の各々について、前記N人の患者の各々に関連するイベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを決定して、N人の患者のイベントシーケンスを定義する前記N個のレコード(r)を生成するために実行可能な命令をさらに記憶する、請求項17に記載のシステム。
【請求項19】
前記複数の特徴ベクトル(Y’)は、(i)前記m個のサブシーケンスパターンの出現頻度、または(ii)前記m個のサブシーケンスパターンの二値有無符号化を含む請求項17に記載のシステム。
【請求項20】
前記レコード(r)のサブセットは、前記低次元空間(V)における前記シードレコード(rs)のうち、整数k個の最近傍シードレコードに対応する請求項17に記載のシステム。
【請求項21】
前記メモリが、
前記N個のイベントシーケンスの各々において、先行するイベントが発生したと仮定した場合の各イベントの条件付き確率を決定する決定ステップと、
前記反復ステップにおいて、前記条件付き確率が定義された閾値より小さい場合に、各イベントをそれぞれの先行イベントと毎回ランダムに入れ替える入れ替えステップと、
を前記1つまたは複数のプロセッサによって実行可能な命令をさらに記憶する請求項17に記載のシステム。
【請求項22】
コンピュータの1つまたは複数のプロセッサによって実行されると、前記1つまたは複数のプロセッサに、シンセティックな縦断データセット(X’)を生成するための方法を実行させる命令、を記憶した非揮発性のコンピュータ可読記憶媒体であって、
整数N人の患者のイベントシーケンスを定義するN個のレコード(r)において、整数m個のサブシーケンスパターンを特定する特定ステップと、
前記m個のサブシーケンスパターンに、少なくとも部分的に、基づいて、それぞれが、前記N個のレコード(r)の中の対応するレコードを特徴付ける複数の特徴ベクトル(Y’)を決定する決定ステップと、
前記特徴ベクトル(Y’)をy次元(yは0より大きくmより小さい整数)の低次元空間(V)に埋め込み、低次元空間(V)における前記レコード(r)の位置を定義する埋込ステップと、
前記レコード(r)の中からシードレコード(rs)を反復的に選択する選択ステップと、
前記低次元空間(V)における前記レコード(r)の位置に少なくとも部分的に基づいて決定された、前記レコード(r)のサブセットにおけるサブシーケンスパターンを識別する識別ステップと、
前記シードレコード(rs)内のサブシーケンスパターンの1つ以上のインスタンスを、前記サブシーケンスパターンのそれぞれのインスタンス間の距離に、少なくとも部分的に基づいて、前記レコード(r)のサブセットにおいて識別された対応するサブシーケンスパターンのインスタンスで置き換え、修正シードレコード(rs’)を形成する置換ステップと
全ての前記レコード(r)が前記シードレコード(rs)として反復的に選択されるまで、前記選択ステップ、前記識別ステップ、および前記置換ステップを反復する反復ステップと、
前記反復ステップの結果として修正されたシードレコード(rs’)同士を結合する結合ステップと、
を実行させる命令を記憶したコンピュータ可読記憶媒体。
【請求項23】
前記N人の患者のイベントレコードを含むデータセット(Y)のそれぞれが、患者識別子、イベントの開始日またはイベントの開始日および終了日、およびイベントの1つまたは複数の属性を含み、
前記1つまたは複数のプロセッサによって、前記N人の患者の各々について、前記N人の患者の各々に関連するイベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを決定して、N人の患者のイベントシーケンスを定義する前記N個のレコード(r)を生成するために実行可能な命令をさらに記憶する請求項22に記載のコンピュータ可読記憶媒体。
【請求項24】
前記特徴ベクトル(Y’)が、(i)前記m個のサブシーケンスパターンの出現頻度、または(ii)前記m個のサブシーケンスパターンの二値有無符号化を含む記憶する請求項22に記載のコンピュータ可読記憶媒体。
【請求項25】
前記レコード(r)のサブセットは、前記低次元空間(V)における前記シードレコード(rs)のうち、整数k個の最近傍シードレコードに対応する請求項22に記載のコンピュータ可読記憶媒体。
【請求項26】
前記N個のイベントシーケンスの各々において、先行するイベントが発生したと仮定した場合の各イベントの条件付き確率を決定する決定ステップと、
前記反復ステップにおいて、前記条件付き確率が定義された閾値より小さい場合に、各イベントをそれぞれの先行イベントと毎回ランダムに入れ替える入れ替えステップと、
を前記1つまたは複数のプロセッサによって実行可能な命令をさらに記憶する請求項22に記載のコンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
本開示は一般に、オリジナルデータセットからシンセティックな縦断(または時系列)データセットを生成することに関する。
【背景技術】
【0002】
医療技術に関しては、ここのところ、集積された患者データを分析することによりイノベーションが生まれている。現在、この種の患者データの最も重要なカテゴリーは電子カルテ(EHR)であり、HERを公的・私的に集約することにより、医薬品開発プログラムの優先順位付け、試験デザインの最適化、医療提供プロセスの改善など、様々な活用方法が実現できる。医療技術にとってますます重要性を増している患者データの他の(しかし関連する)カテゴリーとして、臨床試験において電子データ収集(EDC)技術を用いて収集された患者レベルデータが挙げられる。
【0003】
患者レベルのEHRとEDCの間には強い類似性があるが、EHRが医療提供者を訪れた患者から散発的に収集されるのに比べ、EDCは、管理された実験に参加することに同意した患者を対象として収集される。このような実験は、価値の高い推論(例えば、特定の治療体制下における特定の疾患患者の生存率に対する薬剤対プラセボの影響)を行うように設計されている。EDCデータは、注意深く制御され規制されたプロセスの下で、定期的なスケジュールで各患者について繰り返し収集される高次元データを表す。多くのEHRデータセットが数千であるのに対して、EDCの患者サンプルサイズは数十から数百である。臨床試験デザインの検出力を推定したり、併用薬の影響を発見したり、臨床試験の成功率に影響する患者因子を特定したりするような用途では、EDCはEHRよりもデータ資源としてかなり高い価値を持つ。
【発明の概要】
【発明が解決しようとする課題】
【0004】
臨床試験データの潜在的な研究価値は十分に評価されているが、現在のところ、患者レベルのEDCはほとんど公開されていない。世界中で毎年実施されている数十万件の臨床試験のうち、広く利用できるようになったのはごく一部である。他の機密データと同様に、このように利用可能なデータが限られている主な理由は、臨床試験の患者レベルデータが規制の対象であり、プライバシーに関わるものであり、かつ、技術的保護プロトコルの遵守を必要とするからである。匿名化または非特定化技術はこれらの懸念の一部を克服することができるが、EDCデータを非特定化および匿名化する従来の技術では、この種のデータに対する患者のプライバシーを完全に保証することができないため、これらの技術ではプライバシーおよび機密性の懸念や患者の同意の問題に完全に対処することはできない。
【0005】
Generative Adversarial Networks (GANs)、Variational Autoencoders(VAEs)、Natural Language Processing(NLP)などの従来の技術は、学習された分布からシンセティックデータを生成するためにディープラーニングや機械学習を使用することで、プライバシー制御を提供することができる。しかし、これらの技術はEHRが提供する大量のデータを必要とし、臨床試験からのEDCデータのような小さなデータセットではうまく機能しない。このように、被験者と臨床試験のスポンサーの双方にとって、プライバシーの問題は依然として存在する。
【課題を解決するための手段】
【0006】
ここでの開示は、被験者レベルでの高いレベルのプライバシーを保持しながら、時間指定されたイベントを含む高い忠実度の縦断的EDCデータを生成する方法、システム、およびコンピュータ読み取り可能媒体を提供する。開示された技術は、データの統計的特性を保持しつつ、未承認のユーザが識別できないようにする方法でデータを難読化することにより、データの忠実性とデータのプライバシーのバランスをとる。これにより、研究者は臨床試験の早い段階で、このようなデータに広くアクセスし、分析することができるようになり、新薬や治療法の開発を加速させることができる。
【0007】
開示された実施形態は、圧縮された特徴空間におけるレコードの最近傍を識別するために、ソースデータの特徴表現の低次元埋め込みと、レコード間の類似したイベントパターンの交換とを組み合わせる。シンセティックに生成されたデータは、ソースデータと統計的に類似しており、ソースの根底にある依存関係とイベントのパターンを捕捉する。開示された方法は、元のデータからレコードを記憶または保持せず、元のデータから特定の特徴を明らかにしない。これにより、患者レベルのEDCに対する高いプライバシバーを考慮して、開示された方法の実用的な使用が可能になる。
【0008】
一態様において、開示される実施形態は、シンセティックな縦断データセット(X’)を生成する方法、システム、およびコンピュータ可読記憶媒体を提供する。本方法は、N人の患者のイベントシーケンスを定義するN個のレコード(r)中のサブシーケンスパターンを特定することを含み、その結果、m個のサブシーケンスパターンが得られる(ここで、mおよびNは整数である)。本方法はさらに、m個のサブシーケンスパターンに少なくとも部分的に基づいて、各々がレコード(r)の対応する1つを特徴付ける特徴ベクトル(Y’)を決定することを含む。本方法はさらに、特徴ベクトル(Y’)を次元yの低次元空間(V)に埋め込んで、低次元空間(V)におけるレコード(r)の位置を定義することを含み、yは整数であり、m>y>0である。この方法はさらに、レコード(r)の中からシードレコード(rs)を反復的に選択する選択ステップを含む。レコード(r)の中からシードレコード(rs)を選択するたびに、以下のステップを行う。低次元空間(V)におけるレコード(r)の位置に少なくとも部分的に基づいて決定される、レコード(r)のサブセットにおけるサブシーケンスパターンを特定する特定ステップ。シードレコード(rs)におけるサブシーケンスパターンの1つ以上のインスタンスを、サブシーケンスパターンのそれぞれのインスタンス間の決定された距離に少なくとも部分的に基づいて、レコード(r)のサブセットにおいて識別された対応するサブシーケンスパターンのインスタンスと置き換えて、修正シードレコード(rs’)を形成する置換ステップ。レコード(r)の全てがシードレコード(rs)として選択されるまで、選択ステップ、特定ステップ、および置換ステップを繰り返す。本方法はさらに、上記の反復の結果得られた修正シードレコード(rs’)を結合してシンセティックデータセット(X’)を生成する結合ステップを含む。
【0009】
実施形態:以下の特徴の1つ以上を、単独で、または組み合わせて使用する。
【0010】
データセット(Y)は、N人の患者のイベントレコードを含むことができ、各イベントレコードは、患者識別子、イベントの開始日、またはイベントの開始日とイベントの終了日、およびイベントの1つまたは複数の属性を含む。このような場合、本方法はさらに、N人の患者の各々について、N人の患者の各々に関連付けられたイベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを決定して、N人の患者についてのイベントシーケンスを定義するN個のレコード(r)を生成することを含み得る。
【0011】
オリジナルデータセット(X)は複数のテーブルを含んでもよく、各テーブルはN人の患者のイベント記録のサブセットを含むが、この場合、本方法はさらにテーブルを連結してデータセット(Y)を形成することがある。各イベント記録は、それぞれのイベント記録に関連する対応するイベントを識別するイベントコードを含むことができる。各イベント記録の患者識別子は、N人の患者のうちの1人に一意に関連付けられることがある。イベントレコードの少なくとも1つについて、イベントとは、臨床処置、介入、または治療、薬物または投薬の投与、症状または状態の発生、報告、発症、または終了、薬物、投薬、または治療に対する有害反応、臨床検査、測定、評価、または診断、およびモニタリングデバイスの出力、患者の報告または苦情のうちの1つである。イベント記録の少なくとも1つについて、開始日は、患者識別子によって識別される患者に処置が実行される日に対応することがある。イベント記録の少なくとも1つについて、開始日は、患者識別子によって識別される患者が症状を経験する最初の日付に対応し、終了日は、患者識別子によって識別される患者が症状を経験しなくなる日付に対応することがある。イベントレコードの少なくとも1つについて、属性は、カテゴリ属性および数値属性の少なくとも1つを含み得る。
【0012】
m個のサブシーケンスパターンは、所定の閾値より大きい出現頻度を有するサブシーケンスパターンを含んでもよい。m個のサブシーケンスパターンは、出現頻度が最も高いm個のサブシーケンスパターンを含む場合があり、mは定義されたパラメータである。特徴ベクトル(Y’)は長さが等しくてもよい。特徴ベクトル(Y’)は、m個のサブシーケンスパターンの出現頻度を含んでもよい。特徴ベクトル(Y’)は、m個のサブシーケンスパターンの二値有無符号化を含んでいてもよい。
【0013】
埋め込みステップは、t-分散確率的近傍埋め込み(t-SNE)、一様多様体近似および投影(UMAP)、および主成分分析(PCA)のうちの1つ以上を使用して実行することができる。レコードのサブセット(r)は、低次元空間(V)におけるシードレコードのk個の最近傍(rs)に対応することができる。シードレコード(rs)のk個の最近傍は、ハミング距離または編集距離を用いて決定することができる。レコード(r)の1つをシードレコード(rs)として繰り返しランダムに選択することができる。
【0014】
置換ステップは、サブシーケンスパターンのそれぞれのインスタンス間の決定された距離が、所定の距離閾値未満であるサブシーケンスパターンに対してのみ実行されてもよい。置換ステップは、シードレコード(rs)内の1つ以上のサブシーケンスパターンのインスタンスを、それぞれの距離が所定の距離閾値未満であるサブシーケンスパターンのグループからランダムに選択された対応するサブシーケンスパターンのインスタンスと置き換えることによって実行することができる。この置換ステップでは、N個のイベントシーケンス中の総出現回数が所定閾値未満であるサブシーケンスが除外されてもよい。
【0015】
本方法はさらに、反復されるそれぞれのステップにおいて、シードレコード(rs)における最初のイベントの開始日をランダム化することを含んでもよい。ランダム化には、一様分布からサンプリングされたノイズを加えることが含まれる。本方法はさらに、反復されるそれぞれのステップにおいて、シードレコード内のイベントの1つ以上の対の間のギャップをランダム化すること(rs)を含むことができる。ランダム化には、ガウスノイズを加えることが含まれる。
【0016】
本方法はさらに、N個のイベントシーケンスの各々において、先行するイベントが発生したと仮定した場合の各イベントの条件付き確率を決定するステップを含み得る。本方法は、反復されるそれぞれのステップにおいて、条件付き確率が所定閾値未満である場合に、各イベントをそれぞれの先行イベントとランダムに交換することをさらに含むことができる。本方法は、シンセティックデータセット(X’)を、暗号化とアクセス制御を提供するストレージシステムに出力することをさらに含むことができる。シンセティックデータセット(X’)は、CSV、JSON、またはバイナリのフォーマットのうちの少なくとも1つで出力され得る。
【図面の簡単な説明】
【0017】
【
図1】開示された実施形態による、シンセティックな縦断データセットを生成・配布するシステムのブロック図である。
【
図2】開示された実施形態によるシンセティックデータ処理システムの構成図である。
【
図3A】シードレコードのサブシーケンスパターンが、同じクラスタ内のレコードの対応するサブシーケンスパターンと交換される例を示している。
【
図3B】シードレコードのサブシーケンスパターンが、同じクラスタ内のレコードの対応するサブシーケンスパターンと交換される例を示している。
【
図4】低次元空間(V)に埋め込まれた特徴ベクトル(Y’)の直交表現である。
【
図5】シンセティックな縦断データセットを生成する方法のフローチャートである。
【
図6A】非小細胞肺がん(NSCLC)を対象とした臨床試験の実データセットとシンセティックデータセットのイベントシーケンス長のヒストグラムである。
【
図6B】急性リンパ芽球性白血病(ALL)を対象とした臨床試験の実データセットとシンセティックデータセットのイベントシーケンス長のヒストグラムである。
【
図6C】多発性骨髄腫を対象とした臨床試験の実データセットとシンセティックデータセットのイベントシーケンス長のヒストグラムである。
【
図7A】非小細胞肺がん(NSCLC)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図7B】非小細胞肺がん(NSCLC)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図7C】非小細胞肺がん(NSCLC)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図7D】非小細胞肺がん(NSCLC)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図7E】非小細胞肺がん(NSCLC)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図7F】非小細胞肺がん(NSCLC)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図8A】急性リンパ芽球性白血病(ALL)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図8B】急性リンパ芽球性白血病(ALL)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図8C】急性リンパ芽球性白血病(ALL)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図8D】急性リンパ芽球性白血病(ALL)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図8E】急性リンパ芽球性白血病(ALL)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図8F】急性リンパ芽球性白血病(ALL)を対象とした臨床試験のクロスバリデーション試験結果のプロットである。
【
図9A】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。
【
図9B】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。
【
図9C】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。
【
図9D】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。
【
図9E】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。
【
図9F】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。
【
図10A】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図10B】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図10C】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図10D】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図10E】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図11A】自然言語処理(NLP)で使用されるn-gramモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図11B】自然言語処理(NLP)で使用されるn-gramモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図11C】自然言語処理(NLP)で使用されるn-gramモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図11D】自然言語処理(NLP)で使用されるn-gramモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図11E】自然言語処理(NLP)で使用されるn-gramモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図12A】LSTM(Long Short-Term Memory)ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図12B】LSTM(Long Short-Term Memory)ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図12C】LSTM(Long Short-Term Memory)ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図12D】LSTM(Long Short-Term Memory)ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図12E】LSTM(Long Short-Term Memory)ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。
【
図13A】畳み込みニューラルネットワーク(CNN)の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。
【
図13B】畳み込みニューラルネットワーク(CNN)の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。
【
図13C】畳み込みニューラルネットワーク(CNN)の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。
【
図13D】畳み込みニューラルネットワーク(CNN)の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。
【
図13E】畳み込みニューラルネットワーク(CNN)の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。
【
図14A】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。
【
図14B】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。
【
図14C】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。
【
図14D】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。
【
図14E】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。
【
図14F】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。
【
図14G】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。
【
図14H】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。
【発明を実施するための形態】
【0018】
以下の詳細な説明では、本発明の実施形態を十分に理解するために、多数の具体的な詳細を記載する。しかしながら、本発明の実施形態は、これらの具体的な詳細がなくても実施できることは、当業者には理解されるであろう。他の例では、周知の方法、手順、構成要素、および回路は、本発明を不明瞭にしないように詳細には記載されていない。適切と考えられる場合、参照数字は、対応または類似の要素を示すために、図面間で繰り返されることがある。さらに、図面に描かれたブロックのいくつかは、単一の機能に組み合わされてもよい。
【0019】
開示される実施形態は、高い忠実度を保持するシンセティックな縦断データセットを生成することによって、上述のプライバシーの課題に対処するシステムおよび方法を提供する。本方法は、可変長シーケンスを、そのイベントパターンの頻度を用いて固定長特徴ベクトル表現に変換し、次いで、特徴ベクトルの低次元埋め込みを用いて、圧縮特徴空間におけるレコードの近傍を特定し、それにより、類似シーケンス、すなわちレコードの集合を特定する。次にこの方法は、類似シーケンスの近傍領域内の全てのサブシーケンスパターンを見つけ、異なるシーケンス間で互いに類似するパターン(すなわちサブシーケンス)のインスタンスを入れ替える。この方法は、プライバシーを維持するために元の配列に対して十分な変換を行いながら、忠実度の高いシンセティック縦断データを生成する。
【0020】
臨床試験データのデータプライバシーの維持は技術的な問題である。なぜなら、データ解析や共有の際に、機密性の高い患者情報が保護され、暴露されないようにするための複雑な方法論やツールの開発、実装、保守が必要だからである。データプライバシーを確保する根本的な動機は、倫理的、法的、規制上の懸念に由来するかもしれないが、データプライバシーを達成する実際のプロセスには、多数の技術的課題に対処することが含まれる。臨床試験データにおけるデータプライバシーの懸念への対処には、以下のようないくつかの技術的側面が含まれる。
【0021】
非識別化と匿名化:これらのプロセスでは、データセットから個人を特定できる情報(PII)を削除し、残った情報が患者個人を特定できないようにする。
【0022】
データの暗号化:臨床試験データを安全に保存・送信するには、不正アクセスや傍受から情報を保護する強固な暗号化アルゴリズムを使用する必要がある。
【0023】
差分プライバシー:これはプライバシーを保証し、センシティブなデータセットから得られた集合データの公開に関連するプライバシーリスクを定量化するためのフレームワークである。差分プライバシー技術は、データに制御された変更を導入し、分析に必要なデータの全体的な有用性を維持しながら、個人に関する特定の情報を推測することを困難にする。
【0024】
臨床試験データのシンセティックデータセットの作成は、実世界の臨床試験データを扱う際に内在するいくつかの課題に対処するため、上述の技術的問題に対する技術的解決策となる。シンセティックデータ作成技術は、機密情報を公開することなく、オリジナルデータの特徴を模倣したデータセットを作成することができ、研究者は患者のプライバシーを維持しながらデータを扱うことができる。臨床試験データへのアクセスは、所有権、データサイロ、厳格なアクセス制御など様々な要因により制限される場合がある。シンセティックデータセットは、オリジナルデータと類似した特性を持つ追加データを生成することで、このような障壁を克服するのに役立ち、研究者は実データに直接アクセスすることなくモデルを開発し、検証することができる。
【0025】
さらに、この技術的解決策は、オリジナルデータセットの統計的特性を維持しながら、大きく難読化されたシンセティックデータを生成する特定の特性を有するアルゴリズムおよび/またはルールを含む。後述するように、技術的解決策は、特定のアルゴリズムおよび/または規則を使用することによるシンセティックデータセットの生成における特定の改良に焦点を当てている。データの難読化の改善、ひいてはデータプライバシーの改善を提供することによって既存の技術的プロセスを改善するのは、単にコンピュータの使用したものではなく、特定のアルゴリズムおよび/またはルールの実装である。このように、技術的解決策は、単に一般的なプロセスや機械を呼び出す抽象的な結果や効果に向けられるのとは対照的に、関連技術を改善する具体的なアプローチを提供する。
【0026】
要約すると、臨床試験データのためのシンセティックデータセットの作成は、技術的な問題に対する技術的な解決策であり、実世界の臨床試験データを扱う際に生じるデータプライバシーの特定の課題に対処するものである。この技術的解決策では、特定のアルゴリズムおよび/またはルールを用いて、情報を特定の特性(すなわち、オリジナルデータセットと同様の統計的特性)を持つ新しいデータセットにレンダリングし、それを用いて研究者が臨床試験データの解析を行えるように適用する。本明細書で説明するアルゴリズムおよび/または規則は、既存の情報を単に新しい形に整理するだけではなく、全く新しいデータセットを生成する。このように生成されたシンセティックデータを使用することで、上述の課題を克服し、臨床研究におけるデータ駆動型ソリューションのより効果的な開発、試験、展開を可能にすることができる。
【0027】
本明細書では以下の用語を使用する。「イベント(Event)」は、一連の要素または項目の中の要素または項目を指す広い意味で使用される用語である。例えば、臨床処置、介入、または治療、薬物または薬剤の投与、症状または状態の発生、報告、発症、または終了、薬物、薬剤または治療に対する有害反応、臨床検査、測定、評価、または診断、モニタリング装置の出力、患者の報告または苦情などである。「イベントグループ(Event group)」とは、一緒に発生する傾向のある、順序のないまたは順序付けられたイベントの集合をいう。「シーケンス(Sequence)」とは、イベントまたはイベントグループの順序付 けられた集合(通常、任意の長さの集合)をいう。「サブシーケンス(sub-sequence)」とは、シーケンスの一部を表すイベントまたはイベントグループの集合をいう。「サブシーケンスパターン」とは、シーケンスの集合またはコレクションの中で特定の頻度で繰り返されるサブシーケンスを指し、サブシーケンスパターンは可変長であってもよく、ギャップ(すなわち、”ワイルドカード”)を含んでもよい。「特徴ベクトル(Feature vector)」とは、配列の数値ベクトル(通常は固定長)表現をいう。”サブシーケンスパターンのインスタンス(instance of a subsequence pattern)”とは、サブシーケンスパターンにマッチする、シーケンス内の部分配列の出現を指す。「レコード(Record)」または「イベントレコード(Event Record)」とは、データセット中の、特定の患者に関連する一連のイベントを指す。本明細書で使用する「交換(swap)」または「スワッピング(swapping)」という用語は、例えば、シードレコードの部分配列を他のレコードの対応する類似の(例えば、距離決定に基づく)部分配列と置き換えるような一方向的な動作、または、例えば、イベント列中の2つのイベントの順序をそれらの条件付き確率に基づいて逆転させるような双方向的な動作を指すことがある。「縦断データセット」とは、関連する数値的、時間的、カテゴリー的、および/または連続的属性(例えば、タイムスタンプ、パラメータ値など)を持つシーケンスの集合または収集を指す。
【0028】
図1は、シンセティックな縦断データセットを生成・配布するシステム100のブロック図である。システム100は、例えば、電子データ収集(Electronic Data Capture:EDC)システム110を介して臨床試験データを受信するが、電子データ収集システム110は、臨床施設などの多数のデータソースからデータを受信する。電子データ収集システム110からのデータは、オリジナルデータセット120と呼ばれるデータセットであり、ここではXとして指定される。以下でさらに詳細に議論するように、オリジナルデータセット120は、シンセティックデータ処理システム140によって処理され、本明細書ではX’として指定されるシンセティックデータセット150を生成する。例えば、ネットワーク170を介してデータを利用可能にするシンセティックデータ配布システム160と呼ばれる安全なデータ共有プラットフォームを介して、シンセティックデータセット150が分析のために研究者に配布されることがある。
【0029】
オリジナルデータセット120は、それぞれが順序付きまたはタイムスタンプ付きのアイテムおよびアイテムセットを含む、多数の可変長シーケンスを含むことができる。一つのアイテムは、開始日時、およびオプションとして終了日時を持つことができるイベントを表すことができる。各イベントはまた、数値的またはカテゴリー的な追加属性を持つことができる。ここで開示される方法は、大規模および小規模(数百人から数千人の被験者まで)の両方のデータセットで動作するように設計されているが、臨床試験から得られるような小規模データセットで動作する場合に(最先端のアルゴリズムと比較して)特に有利である。一方、ニューラルネットワークを用いた従来のアプローチでは、非常に大規模な学習データセットが必要となる。
【0030】
オリジナルデータセット120は、多数のテーブル(T1、T2...Tn)を含み、各テーブルはN人の患者のイベント記録のサブセットを含む。例えば、臨床試験データは、特定の標準に従って、被験者レベル情報用のテーブルのような、被験者ごとに1行が含まれ、それぞれの被験者に関連する特定の情報が含まれる多数の個別のテーブル(例えば、スプレッドシートに一般的に使用されるCSV形式)として保存されることがある。多くの補足的なテーブルは、有害イベント、投薬、病歴に関するデータを提供することができ、場合によっては特定の被験者に関する複数の項目を含む。
【0031】
他の例では、オリジナルデータセット120のテーブルとレコードを結合して、複合データセット130(ここではYと称する)を形成してもよく、この複合データセット130は、行や列などの様々なデータ構造でデータを格納することができる。複合データセットYは、N人の患者のイベントレコードを有し、各行は、被験者ID(すなわち、患者識別子)、イベントコード(それぞれのイベントレコードに関連する対応するイベントを識別する)、イベント開始日、および任意でイベント終了日、ならびに他のいくつかのカテゴリー値および数値値を有する。特定のレコードのイベント開始日は、特定のレコードの患者識別子によって識別される患者に処置が実行される日付に対応することがある。場合によっては、特定のレコードの開始日は、患者識別子によって識別される患者が特定の連続的な症状を経験する日に対応し、終了日は、患者識別子によって識別される患者が特定の症状を経験しなくなる第2の日に対応することがある。カテゴリー値および数値は、患者情報および人口統計(例えば、名前、年齢、性別、国)、バイタル統計(例えば、身長、体重、血圧、心拍数等)、ならびに他のタイプのデータを含むことができる。
【0032】
ここでは、シンセティックな縦断データセット150が、電子データ収集システム110から受信したデータから生成される。シンセティックな縦断データセット150は、オリジナルデータセット120の統計的特性を模倣するように設計されている。これにより、オリジナルデータセット120の統計的特性が保持されるため、研究者が正確な結論を導き出すことができる一方、データを非特定化および難読化することで、個々の参加者を特定してプライバシーを侵害するリスクを低減することができる。シンセティックデータセット150の統計的特性は、オリジナルデータセット120に対して検証し、オリジナルデータセットに近いことを確認することができる。この検証は、回帰分析などの様々な統計的検定を用いて行うことができる。
【0033】
シンセティックデータセットは、例えば、シンセティックデータ配布システム160のような安全なデータ共有プラットフォームを介して、分析のために研究者に配布することができ、これには、プライベートまたはパブリックのアプリケーションプログラムインターフェース(API)を設定すること、データリポジトリ、データポータルを作成すること、および/または、適切なアクセス制御、認証、および暗号化メカニズムを備えたクラウドベースのデータストレージサービスを使用することが含まれる。研究者はシンセティックデータセット150を使用して、参加者個人を特定するリスクを最小限に抑えながら、縦断的な分析を行うことができる。
【0034】
図2は、シンセティックデータ処理システム140の構成図である。上記で説明したように、患者数N(Nは整数)のイベント記録を含むオリジナルの縦断データセット(X)を受け取ることができる。オリジナルデータセット(X)のテーブルとレコードは、複合データセット(Y)を形成するために組み合わされることがある。各レコードは、イベントの開始日(およびオプションとしての開始時間)、またはイベントの開始日と終了日の両方、およびイベントの1つ以上の属性を含む。イベント情報に基づいて、イベントシーケンサ210は、N人の患者のそれぞれについて、それぞれの患者に関連するイベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを決定し、それによりN人の患者のイベントシーケンスを定義するN個のレコード(r)のセットを生成する。イベントシーケンスの長さは患者ごとに異なるが、これは各患者が特定のイベントシーケンスを受けるためであり、その長さは各患者に関連するイベントの数によって決定される。患者によっては、数個のイベントしか経験、実行、受けるなどしない場合もあるが、他の患者は、その臨床歴に応じて、多数のイベントと関連する場合もある。
【0035】
パターンマイニング部220は、イベントシーケンサ210から入力データを受け取り、全てのシーケンス内で、ギャップの有無にかかわらず、サブシーケンスパターンを見つけるための分析を実行する。具体的には、N人の患者のイベントシーケンスを定義するN個のレコード(r)内のサブシーケンスパターンを特定し、m個のサブシーケンスパターン(mとNは整数)を生成する。いくつかの実装では、m個のサブシーケンスパターンは、所定閾値より大きい頻度を持つ全てのサブシーケンスパターン、または別の方法として、最も高い頻度を持つm個のパターンを含むことがあり、mは定義されたパラメータである。このように、データセット全体における頻度の高いサブシーケンスパターンの全てがパターンマイニングで識別される(例えば、所定閾値以上の頻度を持つ全てのサブシーケンスパターン)。パターンはギャップやワイルドカードを含んでいてもよい。例えば、頻出サブシーケンスパターンは次のようになる。
<event1,event5,event10>
【0036】
特徴ベクトル生成部230は、m個のサブシーケンスパターンに少なくとも部分的に基づいて、ここではY’と指定される特徴ベクトルの集合を生成する。特徴ベクトルY’は、イベントシーケンスを定義するN個のレコード(ここではrとする)のそれぞれを、それぞれのイベントシーケンス内の一意のサブシーケンスパターンのインスタンスを指定するベクトルとして表す。いくつかの実装では、特徴ベクトルY’は等しい長さである。特徴ベクトルY’はサブシーケンスパターンの度数を用いて作成することができる。例えば、特徴ベクトルY’は、m個のサブシーケンスパターンの出現頻度を使用して、またはm個のサブシーケンスパターンのバイナリ有無エンコーディングを使用して作成されてもよい。したがって、各イベントシーケンス、すなわちレコード(r)は、例えば、それが含む全てのパターンのヒストグラムとして、または単に全てのアイテム(例えばイベント)として、対応する特徴ベクトル表現を有する。いくつかの実装では、各レコード(r)に対して生成される特徴ベクトルは1つであり、全ての特徴ベクトルは同じ長さを有する。
【0037】
埋込部240は、特徴ベクトルY’を受け取り、それらを低次元の多様体、すなわち、本明細書ではVとして指定される、次元yを有する低次元の空間に埋め込み、ここで、m>y>0(yは整数である)は、空間(V)内のレコード(r)の位置を定義する。好ましくは、yは小さく、例えば、y=2またはy=3であり、その結果、低次元の特徴空間となり、後続のクラスタリング、例えば、k-最近傍クラスタリングがより良く機能する。埋め込みは、事実上、どのレコードが互いに類似しているかを決定するのに役立つ。
【0038】
実装では、埋め込みは、t分布型確率的近傍埋め込み法(t-SNE)、一様分布多様体近似投影法(UMAP)、および主成分分析(PCA)などの様々な方法を使用して実行することができる。UMAPはt-SNEに似ているが、局所的に接続されたリーマン多様体上にデータが一様に分布しており、リーマンメトリックが局所的に一定またはほぼ局所的に一定であることを仮定している。PCAは、レコードの集合の主成分(すなわち低次元空間における次元)を計算するために使用でき、これらを使用して、例えば、最初の数個の主成分のみを使用し、残りを無視することによって、データに対して基底の変更を実行することができる。
【0039】
図4は、次元y=2の低次元空間(V)に埋め込まれた特徴ベクトル(Y’)の直交表現である。各点(すなわち特徴ベクトルの位置)はレコード(r)の1つに対応する。シードレコードに対応する点(r
s)は、空間Vにおいて、最も近傍のレコード(r)に対応する点のクラスターに囲まれている。
【0040】
再び
図2を参照すると、修正エンジン250は、低次元空間(V)内のレコード(r)とその埋め込み表現を受け取り、それらを使用して修正レコード、すなわちシンセティックデータレコードを生成し、シンセティックデータセット(X’)を生成する。詳細は後述するが、これには、レコード(r)の中からシードレコード(r
s)を繰り返し選択し、修正シードレコード(r
s’)を生成するアルゴリズムを実行することが含まれる。これらの反復は、全てのレコード(r)がシードレコード(r
s)として反復的に選択されるまで繰り返される。反復の結果得られた修正シードレコード(r
s’)を結合して、シンセティックデータセット(X’)が生成され、例えば研究目的でデータセット(Y)の代わりに使用される。
【0041】
修正エンジン250は、特定のシードレコードrs、例えばハミング距離または編集距離を使用して、シードレコードrsのk個の最近傍など、シードレコードrに関連するレコード(r)のサブセットを定義するクラスタリング部260を含む。実装では、各反復において、レコードrの1つをシードレコードrsとしてランダムに選択することができる。kの値は、データの忠実度と、シンセティックデータセットの解読、すなわちシンセティックデータセットからオリジナルデータセットのレコードを推測することの困難さ(これは実質的にデータプライバシーに相当する)との間のトレードオフに基づいて、また特定のアプリケーションに基づいて、発見的に選択することができる。kが大きくなると忠実度は低下するが、データプライバシーは増加する。
【0042】
修正エンジン250は、選択されたシードレコードrs、および空間Vにおけるその隣接レコードrにおいて、すなわち、レコード(r)に対応する埋め込まれた特徴ベクトル(Y’)の位置に基づいて、サブシーケンスパターンを識別するパターンマイニング部265を含む。このように、パターンマイニング部265は、クラスタリング部260によって提供されたレコード(r)のサブセットに対して動作する。このパターンマイニングは、ある意味で、データセット(Y)全体に対して動作する上述のパターンマイニング部220の動作の局所化バージョンである。
【0043】
パターンマッピング部270は、対応する、例えば類似するパターン間の関係を識別する。パターンマイニング部265によって識別されたサブシーケンスパターンのインスタンス間の類似性は、部分配列間の計算された距離(例えば、ハミング距離または編集距離)に基づいて決定されてもよく、ここで「距離」とは、例えば、パターンの等しい長さのバイナリ表現において、対応するビット位置がいくつ異なるかなど、類似性を評価する測定基準を指す。例えば、距離、例えばハミング距離は、パターンマイニング部265によって識別されたサブシーケンスパターン間で決定されてもよく、距離が小さいほど、シードレコードrsのサブシーケンスパターンと空間V内の選択された隣接レコードrとの類似性が高いことを示す。このような場合、各サブシーケンスパターンは、閾値未満の距離を有するクラスタ内の対応するサブシーケンスパターンにマッチングされてもよい。
【0044】
次に、パターン交換部275は、シードレコードrsのサブシーケンスパターンの1つまたは複数のインスタンスを、近傍(すなわちクラスタ内)の類似パターンのインスタンスに置き換えて、変更されたシードレコードrs’を生成する。新しいシードレコードrsが決定され、操作はクラスタリング部260に戻る。実施形態では、シードレコードrsのサブシーケンスパターンのインスタンスを、空間V内の近傍レコードrの類似のサブシーケンスパターンと置き換えることは、サブシーケンスパターンのそれぞれのインスタンス間の決定された距離に少なくとも部分的に基づいて実行される。いくつかの実装では、スワッピングは、所定距離閾値未満の距離を有する部分配列に対してのみ実行される。場合によっては、シードレコードrsの各サブシーケンスを、所定距離閾値未満の距離を有するサブシーケンスのグループからランダムに選択されたサブシーケンスと交換することによって、スワッピングが実行されることもある。
【0045】
修正エンジン250によって反復で生成された修正シードレコードrs’は結合され、シンセティックデータセットX’として出力される。シンセティックデータセットX’は、N人の患者に対する様々な長さのイベントシーケンスのセットまたはコレクションの形態であってもよい。要約すると、各患者のイベントシーケンスを定義するこれらの新しい合成レコード(rs’)は、全ての元のシーケンス、すなわちレコードrを調べて、そのサブシーケンスパターンをそれぞれの近傍からのサブシーケンスパターンと交換することによって生成される。
【0046】
修正されたシードレコードrs’の生成は、データセットY全体における出現回数の合計が決定されたしきい値未満である任意のサブシーケンスパターンをフィルタリングするか、パターンスワッピングから除外することを提供することができる。除外またはフィルタリングは、比較的まれなイベント、例えば、まれな有害反応や症状を排除する。なぜなら、そのようなイベントは、シンセティックデータセットの解読、すなわち、シンセティックデータセットからオリジナルデータセットのレコードを推論することを容易にする可能性があるからである。
【0047】
修正されたシードレコードrs’を生成することは、シードレコードrs内の最初のイベントの開始日を無作為化することを含む場合がある。このような無作為化には、一様分布からサンプリングされたノイズを追加することが含まれる場合がある。修正されたシードレコードrs’を生成することは、シードレコードrsの各イベント間のギャップを無作為化することも含む。このように開始日とイベント間の間隔をランダム化することで、研究用データの忠実度に実質的な影響を与えることなく、シンセティックデータセットの解読がより困難になる。
【0048】
他の実装では、N個のイベントシーケンスのそれぞれにおいて、先行イベント(またはイベントグループ)が発生した場合の各イベント(またはイベントグループ)の条件付き確率の決定を行ってもよい。このような場合、修正シードレコードrs’を生成することは、先行イベントに関する条件付き確率が所定閾値より小さい場合に、各イベントをそれぞれの先行イベントとランダムに交換することを含んでもよい。
【0049】
図3Aおよび
図3Bは、シードレコード310内のサブシーケンスパターンのインスタンスが、同じクラスタ320内の隣接レコード315内の対応するサブシーケンスパターンと交換される例を示している。クラスタ320内で見つかったパターンの例と、ハミング距離や編集距離などの距離メトリックを使用して決定されたそれらの類似パターンをリストしたテーブル325が示されている。シードレコード310または隣接レコード315内のアイテムセット(例えば、イベントグループ)は、2つ以上のアイテムを含み、括弧内に示されている。この例では、シードレコード310は、イベントとイベントグループの両方を含む特定のイベントシーケンスを含む。イベントおよびイベントグループの中には、クラスタ320で識別されたサブシーケンスパターンの2つのインスタンス、すなわち「BC)(A」および「F)B」(テーブル325参照)がある。これらの部分配列は、対応する類似の部分配列と置き換えられ、修正されたシードレコード330が生成される。実施形態では、サブシーケンスパターンは、ギャップがあってもよく、および/または、描かれている例のように、それらが置換されるサブシーケンスパターンとは異なるイベントグループにグループ化されてもよい。
【0050】
図5は、シンセティックな縦断データセット(X’)を生成するための方法500のフローチャートである。この方法は、N人の患者のイベントシーケンスを定義するN個のレコード(r)において、m個のサブシーケンスパターンをもたらすサブシーケンスパターンを特定することを含み、ここでmとNは整数である(510)。レコード(r)の対応する1つをそれぞれ特徴付ける特徴ベクトル(Y’)は、m個のサブシーケンスパターンに少なくとも部分的に基づいて決定される(520)。特徴ベクトル(Y’)は、低次元空間(V)におけるレコード(r)の位置を定義するために、次元yの低次元空間(V)に埋め込まれる。レコード(r)の中からシードレコード(r
s)が反復的に選択される(540)。各反復において、レコード(r)のサブセットにおいてサブシーケンスパターンが識別され、サブセットは、低次元空間(V)におけるレコード(r)の位置に少なくとも部分的に基づいて決定される(550)。シードレコード(r
s)内のサブシーケンスパターンのインスタンスは、サブシーケンスパターンのそれぞれのインスタンス間の決定された距離に少なくとも部分的に基づいて、レコード(r)のサブセット内のサブシーケンスパターンの対応するインスタンスと置き換えられ、修正シードレコード(r
s’)が生成される(560)。全てのレコード(r)がシードレコード(r
s)として反復的に選択されたかどうかの判定が行われる(570)。そうでない場合、シードレコード(r
s)の選択、サブシーケンスパターンの識別、およびシードレコード(r
s’)内の部分配列のインスタンスの置換が反復的に繰り返される。全てのレコード(r)がシードレコード(r
s)として反復的に選択された場合、反復の結果得られた修正されたシードレコード(r
s)を結合してシンセティックデータセット(X’)が生成される(580)。
【0051】
上記の説明および添付の図に加えて、臨床試験から縦断データを生成するための以下の方法論的擬似コード1~8に少なくとも部分的に基づいて実施することができる。
【0052】
1.オリジナルデータセット:Xはテーブルで構成され,各テーブルはN人の患者のイベント,開始日と終了日(任意),その他のカテゴリー属性と数値属性のレコードで構成される.
2.各行が被験者ID、イベントコード、イベント開始日、オプションでイベント終了日、その他のカテゴリー値や数値を持つように、テーブルをデータセットYに連結する。
3.イベントコードbが、患者のイベントタイムラインで発生した場合に、イベントコードaを観察する条件付き確率を計算する。
4.患者ごとのイベント(合計N個)を、イベントの開始日順に並べイベントシーケンスを作成する。
5.パターンマイニングを使用して、特徴ベクトルY’として使用するイベントシーケンス全体のm個の頻出サブシーケンスパターンを特定する。
6.Y’をy次元の空間Vに埋め込み(t-SNE、UMAP、PCAなど)、埋め込み点(つまりレコード)を生成する。
7. 以下のプロパティを使用する:
a. N>0(シンセティックデータセットのサイズ)
b. k>0(クラスタとも呼ばれる近隣の数)
c. y(埋め込み次元m>y>0)
d. c>=1,C⊆R
e. p>=0,p⊆R
f. T(.)変換メカニズム
8.N人の患者の縦断データからシンセティックデータセットX’を生成
iがN以下の間、下記(1)~(5)を繰り返す。
(1)シードレコードrsの生成
(2)rsの最近傍k個を選択
(3)下記(ア)~(オ)により、新しいレコードrs’を生成
(ア)イベントeが存在するサブジェクトの数がカウントcより少ないrsのイベントシーケンス中のイベントeをドロップ
(イ)シードレコードrsとそのk個の近傍レコード間のイベントのパターンをスワッピング。パターンマイニングを使用して、rsとそのk個の近傍レコードのパターンを特定し、距離を使用して互いに近いパターンのインスタンスを見つけ、スワッピング
(ウ)イベントbの後にイベントaが発生する条件付確率がpより小さい連続するイベントを(2)の順序から全て見つけ、発生順序をランダムに反転
(エ)一様分布[-U,U]からサンプリングしたノイズを加えることで、rsのイベントシーケンスにおける最初のイベントの開始日を匿名化
(オ)シーケンスの順序が保たれるように、最初のイベントとそれに続く全てのイベントの開始と終了の間のラグにノイズを追加。ノイズはガウスノイズN(0,σ)を用いて追加されるが、別のメカニズムを使用することもできる。
(4)他の生成レコードと組み合わせてX’を形成するために、rs’を保存する。
(5)i=i+1;
【0053】
生成された縦断データセットの忠実度を評価するために、シンセティックデータセットの特性を実際のデータセットの特性と比較するクロスバリデーションテストを実施し、実際のデータセットの基本的な特性がどの程度保持されているかを評価した。詳細は後述するが、クロスバリデーションには、イベント列の長さ、平均イベント継続時間、イベント頻度など、多くの指標を用いることができる。後述のプロットには描かれていないが、心拍数の測定値など、特定のイベントに対する連続属性の平均パラメータ値もある。これらの平均値は、後述するように、実データとシンセティックデータとの間で比較することができる。カテゴリー属性(例えば、民族、人種、および性別)については、モードおよび度数を交差検証測定値として使用することができる。
【0054】
図6A~
図6Cは、それぞれ非小細胞肺がん(NSCLC)、急性リンパ芽球性白血病(ALL)、多発性骨髄腫を対象とした臨床試験の実データセットとシンセティックデータセットのクロスバリデーションにおけるイベントシーケンスの長さのヒストグラムである。ヒストグラムは、オリジナルデータセット(または「実データセット」)のイベントシーケンスを定義するレコードの長さ(r)と、本明細書に記載のアプローチに従って作成されたシンセティックデータセットのレコードの長さを重ねて示したものである。ヒストグラムは、例えばコルモゴロフ・スミルノフ検定を用いて統計的に比較することができる。コルモゴロフ・スミルノフ統計量は、サンプル(例えば、シンセティックデータセット)の経験分布関数と参照分布(例えば、実データセット)の累積分布関数との間の距離を定量化する。
図6A~
図6Cのコルモゴロフ・スミルノフ統計量の値は、それぞれ0.01、0.01、0.02であり、分布間の差が小さくなるにつれて値はゼロに近づく。コルモゴロフ・スミルノフ検定は適合度の尺度を生成し、値はそれぞれp=0.99、p=1.0、p=0.97で、p=1.0は完全な適合を示す。
【0055】
図7A~
図7Fは、NSCLCを対象とした臨床試験のクロスバリデーション試験結果のプロットである。
図8A~
図8Fは、ALLに関する臨床試験のクロスバリデーション試験結果のプロットである。
図9A~
図9Fは、多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。
【0056】
図7A、
図8A、
図9Aは、開始日(または日時)と終了日(または日時)の両方を持つイベントについて、実データセットとシンセティックデータセットの間のイベントの平均持続時間の比較を示す。例えば、吐き気などの有害イベントの平均持続時間を、シンセティックデータセットの被験者について計算し、実データセットのそれと比較することができる。これらのプロットでは、オリジナルデータセットのデータがx軸に、シンセティックデータセットのデータがy軸にプロットされている。したがって、理想的な分布は、図に示すように1.0の傾きを持つ直線に沿ったものとなる。理想的な特性に対するデータの適合性は、単純な線形回帰を用いて評価でき、決定係数(r
2)を用いて定量化できる。
図7A、
図8A、
図9Aのr
2の値は、それぞれ0.56、0.99、0.61であり、r
2=1.00という値は、線形特性への完全な適合を示す。
【0057】
図7B、
図8Bおよび
図9Bは、イベント頻度の比較を示す。この例では、例えば吐き気、頭痛、その他の症状、有害イベント、血圧測定値などを含む全てのイベントの頻度が累積的に決定される。実データセットからのデータはx軸に、シンセティックデータセットからのデータはy軸にプロットされ、この例では両軸とも対数目盛りを持つ。理想的な分布は、図に示すように1.0の傾きを持つ線に沿ったものであろう。
図7B、8B、9Bのr
2の値は、それぞれ1.0、1.0、1.0である。r
2=1.00の値は、線形特性に完全に適合していることを示す。
【0058】
図7C、
図8C、
図9Cは、実データセットとシンセティックデータセットの間のイベント頻度特徴ベクトルの「BoW(Bag of Word)」の比較を示す。この例では、吐き気、頭痛、その他の症状、有害イベント、血圧測定値など、各特定のイベントの発生回数が決定される。実データセットからのデータはx軸に、シンセティックデータセットからのデータはy軸にプロットされ、この例では両軸とも対数目盛りを持つ。理想的な分布は、図に示すように1.0の傾きを持つ線に沿ったものであろう。
図7C、8C、9Cのr
2の値は、それぞれ1.0、1.0、1.0である。r
2=1.00の値は、線形特性に完全に適合していることを示す。
【0059】
図7D、
図8D、
図9Dは、実データセットとシンセティックデータセットの2-gramカウント数の比較である。「2-gram」という用語は、自然言語処理に似た用法で、連続する2つのイベントのシーケンスを指す。この例では、各特定のイベント「2-gram」の出現数が決定される。実データセットのデータがx軸に、シンセティックデータセットのデータがy軸にプロットされている。理想的な分布は、図のように1.0の傾きを持つ直線に沿ったものである。
図7D、8D、9Dのr
2の値は、それぞれ0.97、0.98、0.97である。r
2=1.00の値は、線形特性に完全に適合していることを示す。
【0060】
図7E、
図8E、
図9Eは、実際のデータセットとシンセティックデータセットの4-gramカウント数の比較を示す。用語「4-gram」は、自然言語処理に類似した用法で、4つの連続するイベント(すなわち、特定の順序で4つのイベント)のシーケンスを指す。この例では、各特定のイベント「4-gram」の出現数が決定される。実データセットのデータがx軸に、シンセティックデータセットのデータがy軸にプロットされている。理想的な分布は、図のように1.0の傾きを持つ直線に沿ったものである。
図7E、8E、9Eのr
2の値は、それぞれ0.88、0.74、0.72である。r
2=1.00の値は、線形特性に完全に適合していることを示す。
【0061】
図7F、
図8F、
図9Fは、実際のデータセットとシンセティックデータセットとの間の6-gramカウント数の比較を示す。「6-gram」という用語は、自然言語処理に似た用法で、連続する6つのイベント(すなわち、特定の順序で6つのイベント)のシーケンスを指す。この例では、各特定のイベント「6-gram」の出現数が決定される。実データセットのデータがx軸に、シンセティックデータセットのデータがy軸にプロットされている。理想的な分布は、図に示すように1.0の傾きを持つ直線に沿ったものである。
図7F、8F、9Fのr
2の値は、それぞれ0.71、0.89、0.56である。r
2 =1.00の値は、線形特性に完全に適合していることを示す。
【0062】
【0063】
図10A~
図10Eは、開示された方法の性能を説明するための、実際の(すなわち元の)データセットとシンセティックデータセットとの比較を示すプロットであり、それぞれ、イベント頻度、1-gram、2-gram、3-gramおよび4-gramを含む。「n-gram」という用語は、自然言語処理に類似した用法において、n個の連続するイベント(または1-gramの場合は単一イベント)のシーケンスを指す。
【0064】
図11A~
図11Eは、自然言語処理(NLP)で使用されるn-gramモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットであり、それぞれイベント頻度、1-gram、2-gram、3-gram、4-gramを含む。
【0065】
図12A~
図12Eは、それぞれイベント頻度、1-gram、2-gram、3-gram、4-gramを含む、長短期記憶(LSTM)ニューラルネットワークの性能を説明するための、実際のデータセットとシンセティックデータセットの比較を示すプロットである。
【0066】
図13A~
図13Eは、畳み込みニューラルネットワーク(CNN)の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットであり、それぞれイベント頻度、1-gram、2-gram、3-gram、4-gramを含む。
【0067】
【0068】
本発明の態様は、システム、コンピュータプログラム製品、または方法の形態で具体化することができる。同様に、本発明の態様は、ハードウェア、ソフトウェア、またはその両方の組み合わせとして具現化することができる。本発明の態様は、その上に具現化されたコンピュータ可読プログラムコードの形態で1つ以上のコンピュータ可読媒体上に保存されたコンピュータプログラム製品として具現化されてもよい。
【0069】
コンピュータ読み取り可能媒体は、コンピュータ読み取り可能記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電子式、光学式、磁気式、電磁式、赤外線式、または半導体式のシステム、装置、もしくはデバイス、またはそれらの任意の組み合わせであってもよい。
【0070】
本発明の実施形態におけるコンピュータプログラムコードは、任意の適切なプログラミング言語で記述することができる。プログラムコードは、単一のコンピュータ上で実行されてもよいし、複数のコンピュータ上で実行されてもよい。コンピュータは、コンピュータ使用可能媒体と通信する処理ユニットを含むことができ、コンピュータ使用可能媒体は命令セットを含み、処理ユニットは命令セットを実行するように設計されている。
【0071】
以上の議論は、本発明の原理および様々な実施形態を例示するためのものである。上記の開示が十分に理解されれば、多数の変形および修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形および修正を包含するように解釈されることが意図される。
【外国語明細書】