特開2024-160204 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ メディデータソリューションズインクの特許一覧

特開2024-160204オリジナルデータセットからシンセティックな縦断データセットを生成するシステムおよび方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3A
3B
4
5
6A
6B
6C
7A
7B
7C
7D
7E
7F
8A
8B
8C
8D
8E
8F
9A
9B
9C
9D
9E
9F
10A
10B
10C
10D
10E
11A
11B
11C
11D
11E
12A
12B
12C
12D
12E
13A
13B
13C
13D
13E
14A
14B
14C
14D
14E
14F
14G
14H

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024160204

(43)【公開日】2024-11-13

(54)【発明の名称】オリジナルデータセットからシンセティックな縦断データセットを生成するシステムおよび方法

(51)【国際特許分類】

G16H 10/00 20180101AFI20241106BHJP

【ＦＩ】

G16H10/00

【審査請求】有

【請求項の数】26

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024058952

(22)【出願日】2024-04-01

(31)【優先権主張番号】18/299,577

(32)【優先日】2023-04-12

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】522315046

【氏名又は名称】メディデータソリューションズインク

【氏名又は名称原語表記】ＭＥＤＩＤＡＴＡＳＯＬＵＴＩＯＮＳ，ＩＮＣ．

【住所又は居所原語表記】３５０ＨｕｄｓｏｎＳｔｒｅｅｔ，９ｔｈＦｌｏｏｒＮｅｗＹｏｒｋ，ＮｅｗＹｏｒｋ，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100134430

【弁理士】

【氏名又は名称】加藤卓士

(72)【発明者】

【氏名】ジェイコブ・アプテカー

(72)【発明者】

【氏名】マンディス・ベイジ

(72)【発明者】

【氏名】ピエールルイ・ブルロン

(72)【発明者】

【氏名】ジェイソン・メイズィー

(72)【発明者】

【氏名】アフラー・シャフクアット

(72)【発明者】

【氏名】ジーメン・サン

(57)【要約】（修正有）

【課題】被験者レベルでの高いレベルのプライバシーを保持しながら、時間指定されたイベントを含む高い忠実度の縦断的電子データ収集（ＥＤＣ）データを生成する方法、システム及びコンピュータ読取り可能媒体を提供する。
【解決手段】方法は、特徴ベクトルを、夫々がサブシーケンスパターンに基づいてレコードの対応する１つのレコードを特徴付けるように決定し、低次元空間（Ｖ）に埋め込み、レコードの中からシードレコードを反復的に選択し、レコードのサブセットにおいてサブシーケンスパターンを繰り返し識別し、シードレコードにおけるサブシーケンスパターンのインスタンスを、レコードのサブセットにおいて識別された類似のサブシーケンスパターンのインスタンスと置き換え、修正されたシードレコードを形成する。全てのレコードが選択されるまでこれを繰り返して、反復修正されたシードレコードを組み合わせてシンセティックデータセットを生成する。
【選択図】図５

【特許請求の範囲】

【請求項1】

シンセティックな縦断データセット（Ｘ’）を生成するための方法であって、
特定部が、整数Ｎ人の患者のイベントシーケンスを定義するＮ個のレコード（ｒ）において、整数ｍ個のサブシーケンスパターンを特定する特定ステップと、
決定部が、前記ｍ個のサブシーケンスパターンに、少なくとも部分的に、基づいて、それぞれが、前記Ｎ個のレコード（ｒ）の中の対応するレコードを特徴付ける複数の特徴ベクトル（Ｙ’）を決定する決定ステップと、
埋込部が、ｙ次元（ｙは０より大きくｍより小さい整数）の低次元空間（Ｖ）における前記Ｎ個のレコード（ｒ）の位置を定義するため、前記特徴ベクトル（Ｙ’）を前記低次元空間（Ｖ）に埋め込む埋込ステップと、
選択部が、前記Ｎ個のレコード（ｒ）の中から一つのシードレコード（ｒ^ｓ）を選択する選択ステップと、
識別部が、前記低次元空間（Ｖ）における前記Ｎ個のレコード（ｒ）の位置に少なくとも部分的に基づいて決定された、前記Ｎ個のレコード（ｒ）のサブセットにおけるサブシーケンスパターンを識別する識別ステップと、
置換部が、前記シードレコード（ｒ^ｓ）内のサブシーケンスパターンの１つ以上のインスタンスを、前記サブシーケンスパターンのそれぞれのインスタンス間の距離に、少なくとも部分的に基づいて、前記レコード（ｒ）のサブセットにおいて識別された対応するサブシーケンスパターンのインスタンスで置き換え、修正シードレコード（ｒ^ｓ’）を形成する置換ステップと
反復部が、全ての前記レコード（ｒ）が前記シードレコード（ｒ^ｓ）として選択されるまで、前記選択ステップ、前記識別ステップ、および前記置換ステップを反復的に実行する反復ステップと、
結合部が、前記反復ステップの結果として修正されたシードレコード（ｒ^ｓ’）同士を結合する結合ステップと、
を含む方法。

【請求項2】

データセット（Ｙ）に含まれる前記Ｎ人の患者のイベントレコードのそれぞれが、患者識別子、イベントの開始日またはイベントの開始日および終了日、およびイベントの１つまたは複数の属性を含み、
決定部が、前記Ｎ人の患者のイベントシーケンスを定義する前記Ｎ個のレコード（ｒ）を生成するため、前記Ｎ人の患者の各々に関連する前記イベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを、前記Ｎ人の患者のそれぞれに対して決定する決定ステップをさらに含む請求項１に記載の方法。

【請求項3】

オリジナルデータセット（Ｘ）は複数のテーブルを含み、そのテーブルのそれぞれは、前記Ｎ人の患者の前記イベントレコードのサブセットを含み、
形成部が、前記テーブルを連結して前記データセット（Ｙ）を形成する形成ステップをさらに含む、請求項２に記載の方法。

【請求項4】

前記ｍ個のサブシーケンスパターンは、所定の閾値よりも高い頻度で出現するサブシーケンスパターンを含む請求項１に記載の方法。

【請求項5】

前記ｍ個のサブシーケンスパターンは、出現頻度が最も高いｍ個のサブシーケンスパターンを含み、ｍは定されたパラメータである、請求項１に記載の方法。

【請求項6】

前記複数の特徴ベクトル（Ｙ’）は、それぞれ長さが等しい請求項１に記載の方法。

【請求項7】

前記複数の特徴ベクトル（Ｙ’）は、（ｉ）前記ｍ個のサブシーケンスパターンの出現頻度、または（ｉｉ）前記ｍ個のサブシーケンスパターンの二値有無符号化を含む請求項１に記載の方法。

【請求項8】

前記埋込ステップは、t分布型確率的近傍埋め込み法（ｔ－ＳＮＥ）、一様分布多様体近似投影（ＵＭＡＰ）、および主成分分析（ＰＣＡ）のうちの１つまたは複数を用いて実行される、請求項１に記載の方法。

【請求項9】

前記レコード（ｒ）のサブセットは、前記低次元空間（Ｖ）における前記シードレコード（ｒ^ｓ）のうち、整数ｋ個の最近傍に対応する請求項１に記載の方法。

【請求項10】

前記置換ステップは、前記サブシーケンスパターンのそれぞれのインスタンス間の距離が、所定の閾値未満である、前記サブシーケンスパターンに対してのみ実行される、請求項１に記載の方法。

【請求項11】

前記置換ステップは、前記シードレコード（ｒ^ｓ）内の前記サブシーケンスパターンの前記１つ以上のインスタンスを、所定距離閾値未満のそれぞれの距離を有するサブシーケンスパターンのグループからランダムに選択された対応するサブシーケンスパターンのインスタンスで置換することによって実行される、請求項１に記載の方法。

【請求項12】

前記置換ステップにおいて、前記Ｎ個のイベントシーケンスにおける出現回数が所定閾値未満であるサブシーケンスは対象から除外される、請求項１に記載の方法。

【請求項13】

前記反復ステップにおいて、前記シードレコード（ｒ^ｓ）における最初のイベントの開始日を毎回ランダム化するステップをさらに含む、請求項１に記載の方法。

【請求項14】

前記反復ステップにおいて、前記シードレコード（ｒ^ｓ）内の複数のイベントの１つ以上のペアの間のギャップを毎回ランダム化することをさらに含む請求項１に記載の方法。

【請求項15】

前記Ｎ個のイベントシーケンスの各々において、先行するイベントが発生したと仮定した場合の各イベントの条件付き確率を決定する決定ステップをさらに含み、
前記反復ステップにおいて、前記条件付き確率が定義された閾値より小さい場合に、各イベントをそれぞれの先行イベントと毎回ランダムに入れ替える請求項１に記載の方法。

【請求項16】

前記シンセティックな縦断データセット（Ｘ’）を、暗号化とアクセス制御を提供するストレージシステムに出力する出力ステップをさらに含む請求項１に記載の方法。

【請求項17】

シンセティックな縦断データセット（Ｘ’）を生成するためのシステムであって、
前記１つまたは複数のプロセッサが実行可能な命令を記憶するメモリと、該メモリと通信可能な１つまたは複数のプロセッサとを有するコンピュータと、
整数Ｎ人の患者のイベントシーケンスを定義するＮ個のレコード（ｒ）において、整数ｍ個のサブシーケンスパターンを特定する特定ステップと、
前記ｍ個のサブシーケンスパターンに、少なくとも部分的に、基づいて、それぞれが、前記Ｎ個のレコード（ｒ）の中の対応するレコードを特徴付ける複数の特徴ベクトル（Ｙ’）を決定する決定ステップと、
前記特徴ベクトル（Ｙ’）をｙ次元（ｙは０より大きくｍより小さい整数）の低次元空間（Ｖ）に埋め込み、低次元空間（Ｖ）における前記レコード（ｒ）の位置を定義する埋込ステップと、
前記レコード（ｒ）の中からシードレコード（ｒ^ｓ）を反復的に選択する選択ステップと、
前記低次元空間（Ｖ）における前記レコード（ｒ）の位置に少なくとも部分的に基づいて決定された、前記レコード（ｒ）のサブセットにおけるサブシーケンスパターンを識別する識別ステップと、
前記シードレコード（ｒ^ｓ）内のサブシーケンスパターンの１つ以上のインスタンスを、前記サブシーケンスパターンのそれぞれのインスタンス間の距離に、少なくとも部分的に基づいて、前記レコード（ｒ）のサブセットにおいて識別された対応するサブシーケンスパターンのインスタンスで置き換え、修正シードレコード（ｒ^ｓ’）を形成する置換ステップと
全ての前記レコード（ｒ）が前記シードレコード（ｒ^ｓ）として反復的に選択されるまで、前記選択ステップ、前記識別ステップ、および前記置換ステップを反復する反復ステップと、
前記反復ステップの結果として修正されたシードレコード（ｒ^ｓ’）同士を結合する結合ステップと、
を前記コンピュータに実行させるシステム。

【請求項18】

前記Ｎ人の患者のイベントレコードを含むデータセット（Ｙ）のそれぞれが、患者識別子、イベントの開始日またはイベントの開始日および終了日、およびイベントの１つまたは複数の属性を含み、
前記メモリは、前記１つまたは複数のプロセッサによって、前記Ｎ人の患者の各々について、前記Ｎ人の患者の各々に関連するイベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを決定して、Ｎ人の患者のイベントシーケンスを定義する前記Ｎ個のレコード（ｒ）を生成するために実行可能な命令をさらに記憶する、請求項１７に記載のシステム。

【請求項19】

前記複数の特徴ベクトル（Ｙ’）は、（ｉ）前記ｍ個のサブシーケンスパターンの出現頻度、または（ｉｉ）前記ｍ個のサブシーケンスパターンの二値有無符号化を含む請求項１７に記載のシステム。

【請求項20】

前記レコード（ｒ）のサブセットは、前記低次元空間（Ｖ）における前記シードレコード（ｒ^ｓ）のうち、整数ｋ個の最近傍シードレコードに対応する請求項１７に記載のシステム。

【請求項21】

前記メモリが、
前記Ｎ個のイベントシーケンスの各々において、先行するイベントが発生したと仮定した場合の各イベントの条件付き確率を決定する決定ステップと、
前記反復ステップにおいて、前記条件付き確率が定義された閾値より小さい場合に、各イベントをそれぞれの先行イベントと毎回ランダムに入れ替える入れ替えステップと、
を前記１つまたは複数のプロセッサによって実行可能な命令をさらに記憶する請求項１７に記載のシステム。

【請求項22】

コンピュータの１つまたは複数のプロセッサによって実行されると、前記１つまたは複数のプロセッサに、シンセティックな縦断データセット（Ｘ’）を生成するための方法を実行させる命令、を記憶した非揮発性のコンピュータ可読記憶媒体であって、
整数Ｎ人の患者のイベントシーケンスを定義するＮ個のレコード（ｒ）において、整数ｍ個のサブシーケンスパターンを特定する特定ステップと、
前記ｍ個のサブシーケンスパターンに、少なくとも部分的に、基づいて、それぞれが、前記Ｎ個のレコード（ｒ）の中の対応するレコードを特徴付ける複数の特徴ベクトル（Ｙ’）を決定する決定ステップと、
前記特徴ベクトル（Ｙ’）をｙ次元（ｙは０より大きくｍより小さい整数）の低次元空間（Ｖ）に埋め込み、低次元空間（Ｖ）における前記レコード（ｒ）の位置を定義する埋込ステップと、
前記レコード（ｒ）の中からシードレコード（ｒ^ｓ）を反復的に選択する選択ステップと、
前記低次元空間（Ｖ）における前記レコード（ｒ）の位置に少なくとも部分的に基づいて決定された、前記レコード（ｒ）のサブセットにおけるサブシーケンスパターンを識別する識別ステップと、
前記シードレコード（ｒ^ｓ）内のサブシーケンスパターンの１つ以上のインスタンスを、前記サブシーケンスパターンのそれぞれのインスタンス間の距離に、少なくとも部分的に基づいて、前記レコード（ｒ）のサブセットにおいて識別された対応するサブシーケンスパターンのインスタンスで置き換え、修正シードレコード（ｒ^ｓ’）を形成する置換ステップと
全ての前記レコード（ｒ）が前記シードレコード（ｒ^ｓ）として反復的に選択されるまで、前記選択ステップ、前記識別ステップ、および前記置換ステップを反復する反復ステップと、
前記反復ステップの結果として修正されたシードレコード（ｒ^ｓ’）同士を結合する結合ステップと、
を実行させる命令を記憶したコンピュータ可読記憶媒体。

【請求項23】

前記Ｎ人の患者のイベントレコードを含むデータセット（Ｙ）のそれぞれが、患者識別子、イベントの開始日またはイベントの開始日および終了日、およびイベントの１つまたは複数の属性を含み、
前記１つまたは複数のプロセッサによって、前記Ｎ人の患者の各々について、前記Ｎ人の患者の各々に関連するイベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを決定して、Ｎ人の患者のイベントシーケンスを定義する前記Ｎ個のレコード（ｒ）を生成するために実行可能な命令をさらに記憶する請求項２２に記載のコンピュータ可読記憶媒体。

【請求項24】

前記特徴ベクトル（Ｙ’）が、（ｉ）前記ｍ個のサブシーケンスパターンの出現頻度、または（ｉｉ）前記ｍ個のサブシーケンスパターンの二値有無符号化を含む記憶する請求項２２に記載のコンピュータ可読記憶媒体。

【請求項25】

前記レコード（ｒ）のサブセットは、前記低次元空間（Ｖ）における前記シードレコード（ｒ^ｓ）のうち、整数ｋ個の最近傍シードレコードに対応する請求項２２に記載のコンピュータ可読記憶媒体。

【請求項26】

前記Ｎ個のイベントシーケンスの各々において、先行するイベントが発生したと仮定した場合の各イベントの条件付き確率を決定する決定ステップと、
前記反復ステップにおいて、前記条件付き確率が定義された閾値より小さい場合に、各イベントをそれぞれの先行イベントと毎回ランダムに入れ替える入れ替えステップと、
を前記１つまたは複数のプロセッサによって実行可能な命令をさらに記憶する請求項２２に記載のコンピュータ可読記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は一般に、オリジナルデータセットからシンセティックな縦断（または時系列）データセットを生成することに関する。

【背景技術】

【0002】

医療技術に関しては、ここのところ、集積された患者データを分析することによりイノベーションが生まれている。現在、この種の患者データの最も重要なカテゴリーは電子カルテ（ＥＨＲ）であり、ＨＥＲを公的・私的に集約することにより、医薬品開発プログラムの優先順位付け、試験デザインの最適化、医療提供プロセスの改善など、様々な活用方法が実現できる。医療技術にとってますます重要性を増している患者データの他の（しかし関連する）カテゴリーとして、臨床試験において電子データ収集（ＥＤＣ）技術を用いて収集された患者レベルデータが挙げられる。

【0003】

患者レベルのＥＨＲとＥＤＣの間には強い類似性があるが、ＥＨＲが医療提供者を訪れた患者から散発的に収集されるのに比べ、ＥＤＣは、管理された実験に参加することに同意した患者を対象として収集される。このような実験は、価値の高い推論（例えば、特定の治療体制下における特定の疾患患者の生存率に対する薬剤対プラセボの影響）を行うように設計されている。ＥＤＣデータは、注意深く制御され規制されたプロセスの下で、定期的なスケジュールで各患者について繰り返し収集される高次元データを表す。多くのＥＨＲデータセットが数千であるのに対して、ＥＤＣの患者サンプルサイズは数十から数百である。臨床試験デザインの検出力を推定したり、併用薬の影響を発見したり、臨床試験の成功率に影響する患者因子を特定したりするような用途では、ＥＤＣはＥＨＲよりもデータ資源としてかなり高い価値を持つ。

【発明の概要】

【発明が解決しようとする課題】

【0004】

臨床試験データの潜在的な研究価値は十分に評価されているが、現在のところ、患者レベルのＥＤＣはほとんど公開されていない。世界中で毎年実施されている数十万件の臨床試験のうち、広く利用できるようになったのはごく一部である。他の機密データと同様に、このように利用可能なデータが限られている主な理由は、臨床試験の患者レベルデータが規制の対象であり、プライバシーに関わるものであり、かつ、技術的保護プロトコルの遵守を必要とするからである。匿名化または非特定化技術はこれらの懸念の一部を克服することができるが、ＥＤＣデータを非特定化および匿名化する従来の技術では、この種のデータに対する患者のプライバシーを完全に保証することができないため、これらの技術ではプライバシーおよび機密性の懸念や患者の同意の問題に完全に対処することはできない。

【0005】

Generative Adversarial Networks （ＧＡＮｓ）、Variational Autoencoders（ＶＡＥｓ）、Natural Language Processing（ＮＬＰ）などの従来の技術は、学習された分布からシンセティックデータを生成するためにディープラーニングや機械学習を使用することで、プライバシー制御を提供することができる。しかし、これらの技術はＥＨＲが提供する大量のデータを必要とし、臨床試験からのＥＤＣデータのような小さなデータセットではうまく機能しない。このように、被験者と臨床試験のスポンサーの双方にとって、プライバシーの問題は依然として存在する。

【課題を解決するための手段】

【0006】

ここでの開示は、被験者レベルでの高いレベルのプライバシーを保持しながら、時間指定されたイベントを含む高い忠実度の縦断的ＥＤＣデータを生成する方法、システム、およびコンピュータ読み取り可能媒体を提供する。開示された技術は、データの統計的特性を保持しつつ、未承認のユーザが識別できないようにする方法でデータを難読化することにより、データの忠実性とデータのプライバシーのバランスをとる。これにより、研究者は臨床試験の早い段階で、このようなデータに広くアクセスし、分析することができるようになり、新薬や治療法の開発を加速させることができる。

【0007】

開示された実施形態は、圧縮された特徴空間におけるレコードの最近傍を識別するために、ソースデータの特徴表現の低次元埋め込みと、レコード間の類似したイベントパターンの交換とを組み合わせる。シンセティックに生成されたデータは、ソースデータと統計的に類似しており、ソースの根底にある依存関係とイベントのパターンを捕捉する。開示された方法は、元のデータからレコードを記憶または保持せず、元のデータから特定の特徴を明らかにしない。これにより、患者レベルのＥＤＣに対する高いプライバシバーを考慮して、開示された方法の実用的な使用が可能になる。

【0008】

一態様において、開示される実施形態は、シンセティックな縦断データセット（Ｘ’）を生成する方法、システム、およびコンピュータ可読記憶媒体を提供する。本方法は、Ｎ人の患者のイベントシーケンスを定義するＮ個のレコード（ｒ）中のサブシーケンスパターンを特定することを含み、その結果、ｍ個のサブシーケンスパターンが得られる（ここで、ｍおよびＮは整数である）。本方法はさらに、ｍ個のサブシーケンスパターンに少なくとも部分的に基づいて、各々がレコード（ｒ）の対応する１つを特徴付ける特徴ベクトル（Ｙ’）を決定することを含む。本方法はさらに、特徴ベクトル（Ｙ’）を次元ｙの低次元空間（Ｖ）に埋め込んで、低次元空間（Ｖ）におけるレコード（ｒ）の位置を定義することを含み、ｙは整数であり、ｍ＞ｙ＞０である。この方法はさらに、レコード（ｒ）の中からシードレコード（ｒ^ｓ）を反復的に選択する選択ステップを含む。レコード（ｒ）の中からシードレコード（ｒ^ｓ）を選択するたびに、以下のステップを行う。低次元空間（Ｖ）におけるレコード（ｒ）の位置に少なくとも部分的に基づいて決定される、レコード（ｒ）のサブセットにおけるサブシーケンスパターンを特定する特定ステップ。シードレコード（ｒ^ｓ）におけるサブシーケンスパターンの１つ以上のインスタンスを、サブシーケンスパターンのそれぞれのインスタンス間の決定された距離に少なくとも部分的に基づいて、レコード（ｒ）のサブセットにおいて識別された対応するサブシーケンスパターンのインスタンスと置き換えて、修正シードレコード（ｒ^ｓ’）を形成する置換ステップ。レコード（ｒ）の全てがシードレコード（ｒ^ｓ）として選択されるまで、選択ステップ、特定ステップ、および置換ステップを繰り返す。本方法はさらに、上記の反復の結果得られた修正シードレコード（ｒ^ｓ’）を結合してシンセティックデータセット（Ｘ’）を生成する結合ステップを含む。

【0009】

実施形態：以下の特徴の１つ以上を、単独で、または組み合わせて使用する。

【0010】

データセット（Ｙ）は、Ｎ人の患者のイベントレコードを含むことができ、各イベントレコードは、患者識別子、イベントの開始日、またはイベントの開始日とイベントの終了日、およびイベントの１つまたは複数の属性を含む。このような場合、本方法はさらに、Ｎ人の患者の各々について、Ｎ人の患者の各々に関連付けられたイベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを決定して、Ｎ人の患者についてのイベントシーケンスを定義するＮ個のレコード（ｒ）を生成することを含み得る。

【0011】

オリジナルデータセット（Ｘ）は複数のテーブルを含んでもよく、各テーブルはＮ人の患者のイベント記録のサブセットを含むが、この場合、本方法はさらにテーブルを連結してデータセット（Ｙ）を形成することがある。各イベント記録は、それぞれのイベント記録に関連する対応するイベントを識別するイベントコードを含むことができる。各イベント記録の患者識別子は、Ｎ人の患者のうちの１人に一意に関連付けられることがある。イベントレコードの少なくとも１つについて、イベントとは、臨床処置、介入、または治療、薬物または投薬の投与、症状または状態の発生、報告、発症、または終了、薬物、投薬、または治療に対する有害反応、臨床検査、測定、評価、または診断、およびモニタリングデバイスの出力、患者の報告または苦情のうちの１つである。イベント記録の少なくとも１つについて、開始日は、患者識別子によって識別される患者に処置が実行される日に対応することがある。イベント記録の少なくとも１つについて、開始日は、患者識別子によって識別される患者が症状を経験する最初の日付に対応し、終了日は、患者識別子によって識別される患者が症状を経験しなくなる日付に対応することがある。イベントレコードの少なくとも１つについて、属性は、カテゴリ属性および数値属性の少なくとも１つを含み得る。

【0012】

ｍ個のサブシーケンスパターンは、所定の閾値より大きい出現頻度を有するサブシーケンスパターンを含んでもよい。ｍ個のサブシーケンスパターンは、出現頻度が最も高いｍ個のサブシーケンスパターンを含む場合があり、ｍは定義されたパラメータである。特徴ベクトル（Ｙ’）は長さが等しくてもよい。特徴ベクトル（Ｙ’）は、ｍ個のサブシーケンスパターンの出現頻度を含んでもよい。特徴ベクトル（Ｙ’）は、ｍ個のサブシーケンスパターンの二値有無符号化を含んでいてもよい。

【0013】

埋め込みステップは、ｔ－分散確率的近傍埋め込み（ｔ－ＳＮＥ）、一様多様体近似および投影（ＵＭＡＰ）、および主成分分析（ＰＣＡ）のうちの１つ以上を使用して実行することができる。レコードのサブセット（ｒ）は、低次元空間（Ｖ）におけるシードレコードのｋ個の最近傍（ｒ^ｓ）に対応することができる。シードレコード（ｒ^ｓ）のｋ個の最近傍は、ハミング距離または編集距離を用いて決定することができる。レコード（ｒ）の１つをシードレコード（ｒ^ｓ）として繰り返しランダムに選択することができる。

【0014】

置換ステップは、サブシーケンスパターンのそれぞれのインスタンス間の決定された距離が、所定の距離閾値未満であるサブシーケンスパターンに対してのみ実行されてもよい。置換ステップは、シードレコード（ｒ^ｓ）内の１つ以上のサブシーケンスパターンのインスタンスを、それぞれの距離が所定の距離閾値未満であるサブシーケンスパターンのグループからランダムに選択された対応するサブシーケンスパターンのインスタンスと置き換えることによって実行することができる。この置換ステップでは、Ｎ個のイベントシーケンス中の総出現回数が所定閾値未満であるサブシーケンスが除外されてもよい。

【0015】

本方法はさらに、反復されるそれぞれのステップにおいて、シードレコード（ｒ^ｓ）における最初のイベントの開始日をランダム化することを含んでもよい。ランダム化には、一様分布からサンプリングされたノイズを加えることが含まれる。本方法はさらに、反復されるそれぞれのステップにおいて、シードレコード内のイベントの１つ以上の対の間のギャップをランダム化すること（ｒ^ｓ）を含むことができる。ランダム化には、ガウスノイズを加えることが含まれる。

【0016】

本方法はさらに、Ｎ個のイベントシーケンスの各々において、先行するイベントが発生したと仮定した場合の各イベントの条件付き確率を決定するステップを含み得る。本方法は、反復されるそれぞれのステップにおいて、条件付き確率が所定閾値未満である場合に、各イベントをそれぞれの先行イベントとランダムに交換することをさらに含むことができる。本方法は、シンセティックデータセット（Ｘ’）を、暗号化とアクセス制御を提供するストレージシステムに出力することをさらに含むことができる。シンセティックデータセット（Ｘ’）は、ＣＳＶ、ＪＳＯＮ、またはバイナリのフォーマットのうちの少なくとも１つで出力され得る。

【図面の簡単な説明】

【0017】

【図1】開示された実施形態による、シンセティックな縦断データセットを生成・配布するシステムのブロック図である。

【図2】開示された実施形態によるシンセティックデータ処理システムの構成図である。

【図3A】シードレコードのサブシーケンスパターンが、同じクラスタ内のレコードの対応するサブシーケンスパターンと交換される例を示している。

【図3B】シードレコードのサブシーケンスパターンが、同じクラスタ内のレコードの対応するサブシーケンスパターンと交換される例を示している。

【図4】低次元空間（Ｖ）に埋め込まれた特徴ベクトル（Ｙ’）の直交表現である。

【図5】シンセティックな縦断データセットを生成する方法のフローチャートである。

【図6A】非小細胞肺がん（ＮＳＣＬＣ）を対象とした臨床試験の実データセットとシンセティックデータセットのイベントシーケンス長のヒストグラムである。

【図6B】急性リンパ芽球性白血病（ＡＬＬ）を対象とした臨床試験の実データセットとシンセティックデータセットのイベントシーケンス長のヒストグラムである。

【図6C】多発性骨髄腫を対象とした臨床試験の実データセットとシンセティックデータセットのイベントシーケンス長のヒストグラムである。

【図7A】非小細胞肺がん（ＮＳＣＬＣ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図7B】非小細胞肺がん（ＮＳＣＬＣ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図7C】非小細胞肺がん（ＮＳＣＬＣ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図7D】非小細胞肺がん（ＮＳＣＬＣ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図7E】非小細胞肺がん（ＮＳＣＬＣ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図7F】非小細胞肺がん（ＮＳＣＬＣ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図8A】急性リンパ芽球性白血病（ＡＬＬ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図8B】急性リンパ芽球性白血病（ＡＬＬ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図8C】急性リンパ芽球性白血病（ＡＬＬ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図8D】急性リンパ芽球性白血病（ＡＬＬ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図8E】急性リンパ芽球性白血病（ＡＬＬ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図8F】急性リンパ芽球性白血病（ＡＬＬ）を対象とした臨床試験のクロスバリデーション試験結果のプロットである。

【図9A】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。

【図9B】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。

【図9C】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。

【図9D】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。

【図9E】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。

【図9F】多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。

【図10A】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図10B】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図10C】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図10D】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図10E】開示された方法の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図11A】自然言語処理（ＮＬＰ）で使用されるｎ－ｇｒａｍモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図11B】自然言語処理（ＮＬＰ）で使用されるｎ－ｇｒａｍモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図11C】自然言語処理（ＮＬＰ）で使用されるｎ－ｇｒａｍモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図11D】自然言語処理（ＮＬＰ）で使用されるｎ－ｇｒａｍモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図11E】自然言語処理（ＮＬＰ）で使用されるｎ－ｇｒａｍモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図12A】ＬＳＴＭ（Long Short-Term Memory）ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図12B】ＬＳＴＭ（Long Short-Term Memory）ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図12C】ＬＳＴＭ（Long Short-Term Memory）ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図12D】ＬＳＴＭ（Long Short-Term Memory）ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図12E】ＬＳＴＭ（Long Short-Term Memory）ニューラルネットワークの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。

【図13A】畳み込みニューラルネットワーク（ＣＮＮ）の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。

【図13B】畳み込みニューラルネットワーク（ＣＮＮ）の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。

【図13C】畳み込みニューラルネットワーク（ＣＮＮ）の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。

【図13D】畳み込みニューラルネットワーク（ＣＮＮ）の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。

【図13E】畳み込みニューラルネットワーク（ＣＮＮ）の性能を説明するための、実データセットとシンセィックデータセットの比較を示すプロットである。

【図14A】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。

【図14B】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。

【図14C】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。

【図14D】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。

【図14E】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。

【図14F】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。

【図14G】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。

【図14H】イベントシーケンスの長さとイベントタイプの頻度に関して、本技術の性能を説明するため、実際のデータセットとシンセティックデータセットとを比較したプロットである。

【発明を実施するための形態】

【0018】

以下の詳細な説明では、本発明の実施形態を十分に理解するために、多数の具体的な詳細を記載する。しかしながら、本発明の実施形態は、これらの具体的な詳細がなくても実施できることは、当業者には理解されるであろう。他の例では、周知の方法、手順、構成要素、および回路は、本発明を不明瞭にしないように詳細には記載されていない。適切と考えられる場合、参照数字は、対応または類似の要素を示すために、図面間で繰り返されることがある。さらに、図面に描かれたブロックのいくつかは、単一の機能に組み合わされてもよい。

【0019】

開示される実施形態は、高い忠実度を保持するシンセティックな縦断データセットを生成することによって、上述のプライバシーの課題に対処するシステムおよび方法を提供する。本方法は、可変長シーケンスを、そのイベントパターンの頻度を用いて固定長特徴ベクトル表現に変換し、次いで、特徴ベクトルの低次元埋め込みを用いて、圧縮特徴空間におけるレコードの近傍を特定し、それにより、類似シーケンス、すなわちレコードの集合を特定する。次にこの方法は、類似シーケンスの近傍領域内の全てのサブシーケンスパターンを見つけ、異なるシーケンス間で互いに類似するパターン（すなわちサブシーケンス）のインスタンスを入れ替える。この方法は、プライバシーを維持するために元の配列に対して十分な変換を行いながら、忠実度の高いシンセティック縦断データを生成する。

【0020】

臨床試験データのデータプライバシーの維持は技術的な問題である。なぜなら、データ解析や共有の際に、機密性の高い患者情報が保護され、暴露されないようにするための複雑な方法論やツールの開発、実装、保守が必要だからである。データプライバシーを確保する根本的な動機は、倫理的、法的、規制上の懸念に由来するかもしれないが、データプライバシーを達成する実際のプロセスには、多数の技術的課題に対処することが含まれる。臨床試験データにおけるデータプライバシーの懸念への対処には、以下のようないくつかの技術的側面が含まれる。

【0021】

非識別化と匿名化：これらのプロセスでは、データセットから個人を特定できる情報（ＰＩＩ）を削除し、残った情報が患者個人を特定できないようにする。

【0022】

データの暗号化：臨床試験データを安全に保存・送信するには、不正アクセスや傍受から情報を保護する強固な暗号化アルゴリズムを使用する必要がある。

【0023】

差分プライバシー：これはプライバシーを保証し、センシティブなデータセットから得られた集合データの公開に関連するプライバシーリスクを定量化するためのフレームワークである。差分プライバシー技術は、データに制御された変更を導入し、分析に必要なデータの全体的な有用性を維持しながら、個人に関する特定の情報を推測することを困難にする。

【0024】

臨床試験データのシンセティックデータセットの作成は、実世界の臨床試験データを扱う際に内在するいくつかの課題に対処するため、上述の技術的問題に対する技術的解決策となる。シンセティックデータ作成技術は、機密情報を公開することなく、オリジナルデータの特徴を模倣したデータセットを作成することができ、研究者は患者のプライバシーを維持しながらデータを扱うことができる。臨床試験データへのアクセスは、所有権、データサイロ、厳格なアクセス制御など様々な要因により制限される場合がある。シンセティックデータセットは、オリジナルデータと類似した特性を持つ追加データを生成することで、このような障壁を克服するのに役立ち、研究者は実データに直接アクセスすることなくモデルを開発し、検証することができる。

【0025】

さらに、この技術的解決策は、オリジナルデータセットの統計的特性を維持しながら、大きく難読化されたシンセティックデータを生成する特定の特性を有するアルゴリズムおよび／またはルールを含む。後述するように、技術的解決策は、特定のアルゴリズムおよび／または規則を使用することによるシンセティックデータセットの生成における特定の改良に焦点を当てている。データの難読化の改善、ひいてはデータプライバシーの改善を提供することによって既存の技術的プロセスを改善するのは、単にコンピュータの使用したものではなく、特定のアルゴリズムおよび／またはルールの実装である。このように、技術的解決策は、単に一般的なプロセスや機械を呼び出す抽象的な結果や効果に向けられるのとは対照的に、関連技術を改善する具体的なアプローチを提供する。

【0026】

要約すると、臨床試験データのためのシンセティックデータセットの作成は、技術的な問題に対する技術的な解決策であり、実世界の臨床試験データを扱う際に生じるデータプライバシーの特定の課題に対処するものである。この技術的解決策では、特定のアルゴリズムおよび／またはルールを用いて、情報を特定の特性（すなわち、オリジナルデータセットと同様の統計的特性）を持つ新しいデータセットにレンダリングし、それを用いて研究者が臨床試験データの解析を行えるように適用する。本明細書で説明するアルゴリズムおよび／または規則は、既存の情報を単に新しい形に整理するだけではなく、全く新しいデータセットを生成する。このように生成されたシンセティックデータを使用することで、上述の課題を克服し、臨床研究におけるデータ駆動型ソリューションのより効果的な開発、試験、展開を可能にすることができる。

【0027】

本明細書では以下の用語を使用する。「イベント（Event）」は、一連の要素または項目の中の要素または項目を指す広い意味で使用される用語である。例えば、臨床処置、介入、または治療、薬物または薬剤の投与、症状または状態の発生、報告、発症、または終了、薬物、薬剤または治療に対する有害反応、臨床検査、測定、評価、または診断、モニタリング装置の出力、患者の報告または苦情などである。「イベントグループ（Event group）」とは、一緒に発生する傾向のある、順序のないまたは順序付けられたイベントの集合をいう。「シーケンス（Sequence）」とは、イベントまたはイベントグループの順序付けられた集合（通常、任意の長さの集合）をいう。「サブシーケンス（sub-sequence）」とは、シーケンスの一部を表すイベントまたはイベントグループの集合をいう。「サブシーケンスパターン」とは、シーケンスの集合またはコレクションの中で特定の頻度で繰り返されるサブシーケンスを指し、サブシーケンスパターンは可変長であってもよく、ギャップ（すなわち、”ワイルドカード”）を含んでもよい。「特徴ベクトル（Feature vector）」とは、配列の数値ベクトル（通常は固定長）表現をいう。”サブシーケンスパターンのインスタンス（instance of a subsequence pattern）”とは、サブシーケンスパターンにマッチする、シーケンス内の部分配列の出現を指す。「レコード（Record）」または「イベントレコード（Event Record）」とは、データセット中の、特定の患者に関連する一連のイベントを指す。本明細書で使用する「交換（swap）」または「スワッピング（swapping）」という用語は、例えば、シードレコードの部分配列を他のレコードの対応する類似の（例えば、距離決定に基づく）部分配列と置き換えるような一方向的な動作、または、例えば、イベント列中の２つのイベントの順序をそれらの条件付き確率に基づいて逆転させるような双方向的な動作を指すことがある。「縦断データセット」とは、関連する数値的、時間的、カテゴリー的、および／または連続的属性（例えば、タイムスタンプ、パラメータ値など）を持つシーケンスの集合または収集を指す。

【0028】

図１は、シンセティックな縦断データセットを生成・配布するシステム１００のブロック図である。システム１００は、例えば、電子データ収集（Electronic Data Capture：ＥＤＣ）システム１１０を介して臨床試験データを受信するが、電子データ収集システム１１０は、臨床施設などの多数のデータソースからデータを受信する。電子データ収集システム１１０からのデータは、オリジナルデータセット１２０と呼ばれるデータセットであり、ここではＸとして指定される。以下でさらに詳細に議論するように、オリジナルデータセット１２０は、シンセティックデータ処理システム１４０によって処理され、本明細書ではＸ’として指定されるシンセティックデータセット１５０を生成する。例えば、ネットワーク１７０を介してデータを利用可能にするシンセティックデータ配布システム１６０と呼ばれる安全なデータ共有プラットフォームを介して、シンセティックデータセット１５０が分析のために研究者に配布されることがある。

【0029】

オリジナルデータセット１２０は、それぞれが順序付きまたはタイムスタンプ付きのアイテムおよびアイテムセットを含む、多数の可変長シーケンスを含むことができる。一つのアイテムは、開始日時、およびオプションとして終了日時を持つことができるイベントを表すことができる。各イベントはまた、数値的またはカテゴリー的な追加属性を持つことができる。ここで開示される方法は、大規模および小規模（数百人から数千人の被験者まで）の両方のデータセットで動作するように設計されているが、臨床試験から得られるような小規模データセットで動作する場合に（最先端のアルゴリズムと比較して）特に有利である。一方、ニューラルネットワークを用いた従来のアプローチでは、非常に大規模な学習データセットが必要となる。

【0030】

オリジナルデータセット１２０は、多数のテーブル（Ｔ_１、Ｔ_２．．．Ｔ_ｎ）を含み、各テーブルはＮ人の患者のイベント記録のサブセットを含む。例えば、臨床試験データは、特定の標準に従って、被験者レベル情報用のテーブルのような、被験者ごとに１行が含まれ、それぞれの被験者に関連する特定の情報が含まれる多数の個別のテーブル（例えば、スプレッドシートに一般的に使用されるＣＳＶ形式）として保存されることがある。多くの補足的なテーブルは、有害イベント、投薬、病歴に関するデータを提供することができ、場合によっては特定の被験者に関する複数の項目を含む。

【0031】

他の例では、オリジナルデータセット１２０のテーブルとレコードを結合して、複合データセット１３０（ここではＹと称する）を形成してもよく、この複合データセット１３０は、行や列などの様々なデータ構造でデータを格納することができる。複合データセットＹは、Ｎ人の患者のイベントレコードを有し、各行は、被験者ＩＤ（すなわち、患者識別子）、イベントコード（それぞれのイベントレコードに関連する対応するイベントを識別する）、イベント開始日、および任意でイベント終了日、ならびに他のいくつかのカテゴリー値および数値値を有する。特定のレコードのイベント開始日は、特定のレコードの患者識別子によって識別される患者に処置が実行される日付に対応することがある。場合によっては、特定のレコードの開始日は、患者識別子によって識別される患者が特定の連続的な症状を経験する日に対応し、終了日は、患者識別子によって識別される患者が特定の症状を経験しなくなる第２の日に対応することがある。カテゴリー値および数値は、患者情報および人口統計（例えば、名前、年齢、性別、国）、バイタル統計（例えば、身長、体重、血圧、心拍数等）、ならびに他のタイプのデータを含むことができる。

【0032】

ここでは、シンセティックな縦断データセット１５０が、電子データ収集システム１１０から受信したデータから生成される。シンセティックな縦断データセット１５０は、オリジナルデータセット１２０の統計的特性を模倣するように設計されている。これにより、オリジナルデータセット１２０の統計的特性が保持されるため、研究者が正確な結論を導き出すことができる一方、データを非特定化および難読化することで、個々の参加者を特定してプライバシーを侵害するリスクを低減することができる。シンセティックデータセット１５０の統計的特性は、オリジナルデータセット１２０に対して検証し、オリジナルデータセットに近いことを確認することができる。この検証は、回帰分析などの様々な統計的検定を用いて行うことができる。

【0033】

シンセティックデータセットは、例えば、シンセティックデータ配布システム１６０のような安全なデータ共有プラットフォームを介して、分析のために研究者に配布することができ、これには、プライベートまたはパブリックのアプリケーションプログラムインターフェース（ＡＰＩ）を設定すること、データリポジトリ、データポータルを作成すること、および／または、適切なアクセス制御、認証、および暗号化メカニズムを備えたクラウドベースのデータストレージサービスを使用することが含まれる。研究者はシンセティックデータセット１５０を使用して、参加者個人を特定するリスクを最小限に抑えながら、縦断的な分析を行うことができる。

【0034】

図２は、シンセティックデータ処理システム１４０の構成図である。上記で説明したように、患者数Ｎ（Ｎは整数）のイベント記録を含むオリジナルの縦断データセット（Ｘ）を受け取ることができる。オリジナルデータセット（Ｘ）のテーブルとレコードは、複合データセット（Ｙ）を形成するために組み合わされることがある。各レコードは、イベントの開始日（およびオプションとしての開始時間）、またはイベントの開始日と終了日の両方、およびイベントの１つ以上の属性を含む。イベント情報に基づいて、イベントシーケンサ２１０は、Ｎ人の患者のそれぞれについて、それぞれの患者に関連するイベントレコードの各イベントの開始日により順序付けられたイベントシーケンスを決定し、それによりＮ人の患者のイベントシーケンスを定義するＮ個のレコード（ｒ）のセットを生成する。イベントシーケンスの長さは患者ごとに異なるが、これは各患者が特定のイベントシーケンスを受けるためであり、その長さは各患者に関連するイベントの数によって決定される。患者によっては、数個のイベントしか経験、実行、受けるなどしない場合もあるが、他の患者は、その臨床歴に応じて、多数のイベントと関連する場合もある。

【0035】

パターンマイニング部２２０は、イベントシーケンサ２１０から入力データを受け取り、全てのシーケンス内で、ギャップの有無にかかわらず、サブシーケンスパターンを見つけるための分析を実行する。具体的には、Ｎ人の患者のイベントシーケンスを定義するＮ個のレコード（ｒ）内のサブシーケンスパターンを特定し、ｍ個のサブシーケンスパターン（ｍとＮは整数）を生成する。いくつかの実装では、ｍ個のサブシーケンスパターンは、所定閾値より大きい頻度を持つ全てのサブシーケンスパターン、または別の方法として、最も高い頻度を持つｍ個のパターンを含むことがあり、ｍは定義されたパラメータである。このように、データセット全体における頻度の高いサブシーケンスパターンの全てがパターンマイニングで識別される（例えば、所定閾値以上の頻度を持つ全てのサブシーケンスパターン）。パターンはギャップやワイルドカードを含んでいてもよい。例えば、頻出サブシーケンスパターンは次のようになる。
＜ｅｖｅｎｔ１，ｅｖｅｎｔ５，ｅｖｅｎｔ１０＞

【0036】

特徴ベクトル生成部２３０は、ｍ個のサブシーケンスパターンに少なくとも部分的に基づいて、ここではＹ’と指定される特徴ベクトルの集合を生成する。特徴ベクトルＹ’は、イベントシーケンスを定義するＮ個のレコード（ここではｒとする）のそれぞれを、それぞれのイベントシーケンス内の一意のサブシーケンスパターンのインスタンスを指定するベクトルとして表す。いくつかの実装では、特徴ベクトルＹ’は等しい長さである。特徴ベクトルＹ’はサブシーケンスパターンの度数を用いて作成することができる。例えば、特徴ベクトルＹ’は、ｍ個のサブシーケンスパターンの出現頻度を使用して、またはｍ個のサブシーケンスパターンのバイナリ有無エンコーディングを使用して作成されてもよい。したがって、各イベントシーケンス、すなわちレコード（ｒ）は、例えば、それが含む全てのパターンのヒストグラムとして、または単に全てのアイテム（例えばイベント）として、対応する特徴ベクトル表現を有する。いくつかの実装では、各レコード（ｒ）に対して生成される特徴ベクトルは１つであり、全ての特徴ベクトルは同じ長さを有する。

【0037】

埋込部２４０は、特徴ベクトルＹ’を受け取り、それらを低次元の多様体、すなわち、本明細書ではＶとして指定される、次元ｙを有する低次元の空間に埋め込み、ここで、ｍ＞ｙ＞０（ｙは整数である）は、空間（Ｖ）内のレコード（ｒ）の位置を定義する。好ましくは、ｙは小さく、例えば、ｙ＝２またはｙ＝３であり、その結果、低次元の特徴空間となり、後続のクラスタリング、例えば、ｋ－最近傍クラスタリングがより良く機能する。埋め込みは、事実上、どのレコードが互いに類似しているかを決定するのに役立つ。

【0038】

実装では、埋め込みは、t分布型確率的近傍埋め込み法（ｔ－ＳＮＥ）、一様分布多様体近似投影法（ＵＭＡＰ）、および主成分分析（ＰＣＡ）などの様々な方法を使用して実行することができる。ＵＭＡＰはｔ－ＳＮＥに似ているが、局所的に接続されたリーマン多様体上にデータが一様に分布しており、リーマンメトリックが局所的に一定またはほぼ局所的に一定であることを仮定している。ＰＣＡは、レコードの集合の主成分（すなわち低次元空間における次元）を計算するために使用でき、これらを使用して、例えば、最初の数個の主成分のみを使用し、残りを無視することによって、データに対して基底の変更を実行することができる。

【0039】

図４は、次元ｙ＝２の低次元空間（Ｖ）に埋め込まれた特徴ベクトル（Ｙ’）の直交表現である。各点（すなわち特徴ベクトルの位置）はレコード（ｒ）の１つに対応する。シードレコードに対応する点（ｒ^ｓ）は、空間Ｖにおいて、最も近傍のレコード（ｒ）に対応する点のクラスターに囲まれている。

【0040】

再び図２を参照すると、修正エンジン２５０は、低次元空間（Ｖ）内のレコード（ｒ）とその埋め込み表現を受け取り、それらを使用して修正レコード、すなわちシンセティックデータレコードを生成し、シンセティックデータセット（Ｘ’）を生成する。詳細は後述するが、これには、レコード（ｒ）の中からシードレコード（ｒ^ｓ）を繰り返し選択し、修正シードレコード（ｒ^ｓ’）を生成するアルゴリズムを実行することが含まれる。これらの反復は、全てのレコード（ｒ）がシードレコード（ｒ^ｓ）として反復的に選択されるまで繰り返される。反復の結果得られた修正シードレコード（ｒ^ｓ’）を結合して、シンセティックデータセット（Ｘ’）が生成され、例えば研究目的でデータセット（Ｙ）の代わりに使用される。

【0041】

修正エンジン２５０は、特定のシードレコードｒ^ｓ、例えばハミング距離または編集距離を使用して、シードレコードｒ^ｓのｋ個の最近傍など、シードレコードｒに関連するレコード（ｒ）のサブセットを定義するクラスタリング部２６０を含む。実装では、各反復において、レコードｒの１つをシードレコードｒ^ｓとしてランダムに選択することができる。ｋの値は、データの忠実度と、シンセティックデータセットの解読、すなわちシンセティックデータセットからオリジナルデータセットのレコードを推測することの困難さ（これは実質的にデータプライバシーに相当する）との間のトレードオフに基づいて、また特定のアプリケーションに基づいて、発見的に選択することができる。ｋが大きくなると忠実度は低下するが、データプライバシーは増加する。

【0042】

修正エンジン２５０は、選択されたシードレコードｒ^ｓ、および空間Ｖにおけるその隣接レコードｒにおいて、すなわち、レコード（ｒ）に対応する埋め込まれた特徴ベクトル（Ｙ’）の位置に基づいて、サブシーケンスパターンを識別するパターンマイニング部２６５を含む。このように、パターンマイニング部２６５は、クラスタリング部２６０によって提供されたレコード（ｒ）のサブセットに対して動作する。このパターンマイニングは、ある意味で、データセット（Ｙ）全体に対して動作する上述のパターンマイニング部２２０の動作の局所化バージョンである。

【0043】

パターンマッピング部２７０は、対応する、例えば類似するパターン間の関係を識別する。パターンマイニング部２６５によって識別されたサブシーケンスパターンのインスタンス間の類似性は、部分配列間の計算された距離（例えば、ハミング距離または編集距離）に基づいて決定されてもよく、ここで「距離」とは、例えば、パターンの等しい長さのバイナリ表現において、対応するビット位置がいくつ異なるかなど、類似性を評価する測定基準を指す。例えば、距離、例えばハミング距離は、パターンマイニング部２６５によって識別されたサブシーケンスパターン間で決定されてもよく、距離が小さいほど、シードレコードｒ^ｓのサブシーケンスパターンと空間Ｖ内の選択された隣接レコードｒとの類似性が高いことを示す。このような場合、各サブシーケンスパターンは、閾値未満の距離を有するクラスタ内の対応するサブシーケンスパターンにマッチングされてもよい。

【0044】

次に、パターン交換部２７５は、シードレコードｒ^ｓのサブシーケンスパターンの１つまたは複数のインスタンスを、近傍（すなわちクラスタ内）の類似パターンのインスタンスに置き換えて、変更されたシードレコードｒ^ｓ’を生成する。新しいシードレコードｒ^ｓが決定され、操作はクラスタリング部２６０に戻る。実施形態では、シードレコードｒ^ｓのサブシーケンスパターンのインスタンスを、空間Ｖ内の近傍レコードｒの類似のサブシーケンスパターンと置き換えることは、サブシーケンスパターンのそれぞれのインスタンス間の決定された距離に少なくとも部分的に基づいて実行される。いくつかの実装では、スワッピングは、所定距離閾値未満の距離を有する部分配列に対してのみ実行される。場合によっては、シードレコードｒ^ｓの各サブシーケンスを、所定距離閾値未満の距離を有するサブシーケンスのグループからランダムに選択されたサブシーケンスと交換することによって、スワッピングが実行されることもある。

【0045】

修正エンジン２５０によって反復で生成された修正シードレコードｒ^ｓ’は結合され、シンセティックデータセットＸ’として出力される。シンセティックデータセットＸ’は、Ｎ人の患者に対する様々な長さのイベントシーケンスのセットまたはコレクションの形態であってもよい。要約すると、各患者のイベントシーケンスを定義するこれらの新しい合成レコード（ｒ^ｓ’）は、全ての元のシーケンス、すなわちレコードｒを調べて、そのサブシーケンスパターンをそれぞれの近傍からのサブシーケンスパターンと交換することによって生成される。

【0046】

修正されたシードレコードｒ^ｓ’の生成は、データセットＹ全体における出現回数の合計が決定されたしきい値未満である任意のサブシーケンスパターンをフィルタリングするか、パターンスワッピングから除外することを提供することができる。除外またはフィルタリングは、比較的まれなイベント、例えば、まれな有害反応や症状を排除する。なぜなら、そのようなイベントは、シンセティックデータセットの解読、すなわち、シンセティックデータセットからオリジナルデータセットのレコードを推論することを容易にする可能性があるからである。

【0047】

修正されたシードレコードｒ^ｓ’を生成することは、シードレコードｒ^ｓ内の最初のイベントの開始日を無作為化することを含む場合がある。このような無作為化には、一様分布からサンプリングされたノイズを追加することが含まれる場合がある。修正されたシードレコードｒ^ｓ’を生成することは、シードレコードｒ^ｓの各イベント間のギャップを無作為化することも含む。このように開始日とイベント間の間隔をランダム化することで、研究用データの忠実度に実質的な影響を与えることなく、シンセティックデータセットの解読がより困難になる。

【0048】

他の実装では、Ｎ個のイベントシーケンスのそれぞれにおいて、先行イベント（またはイベントグループ）が発生した場合の各イベント（またはイベントグループ）の条件付き確率の決定を行ってもよい。このような場合、修正シードレコードｒ^ｓ’を生成することは、先行イベントに関する条件付き確率が所定閾値より小さい場合に、各イベントをそれぞれの先行イベントとランダムに交換することを含んでもよい。

【0049】

図３Ａおよび図３Ｂは、シードレコード３１０内のサブシーケンスパターンのインスタンスが、同じクラスタ３２０内の隣接レコード３１５内の対応するサブシーケンスパターンと交換される例を示している。クラスタ３２０内で見つかったパターンの例と、ハミング距離や編集距離などの距離メトリックを使用して決定されたそれらの類似パターンをリストしたテーブル３２５が示されている。シードレコード３１０または隣接レコード３１５内のアイテムセット（例えば、イベントグループ）は、２つ以上のアイテムを含み、括弧内に示されている。この例では、シードレコード３１０は、イベントとイベントグループの両方を含む特定のイベントシーケンスを含む。イベントおよびイベントグループの中には、クラスタ３２０で識別されたサブシーケンスパターンの２つのインスタンス、すなわち「ＢＣ）（Ａ」および「Ｆ）Ｂ」（テーブル３２５参照）がある。これらの部分配列は、対応する類似の部分配列と置き換えられ、修正されたシードレコード３３０が生成される。実施形態では、サブシーケンスパターンは、ギャップがあってもよく、および／または、描かれている例のように、それらが置換されるサブシーケンスパターンとは異なるイベントグループにグループ化されてもよい。

【0050】

図５は、シンセティックな縦断データセット（Ｘ’）を生成するための方法５００のフローチャートである。この方法は、Ｎ人の患者のイベントシーケンスを定義するＮ個のレコード（ｒ）において、ｍ個のサブシーケンスパターンをもたらすサブシーケンスパターンを特定することを含み、ここでｍとＮは整数である（５１０）。レコード（ｒ）の対応する１つをそれぞれ特徴付ける特徴ベクトル（Ｙ’）は、ｍ個のサブシーケンスパターンに少なくとも部分的に基づいて決定される（５２０）。特徴ベクトル（Ｙ’）は、低次元空間（Ｖ）におけるレコード（ｒ）の位置を定義するために、次元ｙの低次元空間（Ｖ）に埋め込まれる。レコード（ｒ）の中からシードレコード（ｒ^ｓ）が反復的に選択される（５４０）。各反復において、レコード（ｒ）のサブセットにおいてサブシーケンスパターンが識別され、サブセットは、低次元空間（Ｖ）におけるレコード（ｒ）の位置に少なくとも部分的に基づいて決定される（５５０）。シードレコード（ｒ^ｓ）内のサブシーケンスパターンのインスタンスは、サブシーケンスパターンのそれぞれのインスタンス間の決定された距離に少なくとも部分的に基づいて、レコード（ｒ）のサブセット内のサブシーケンスパターンの対応するインスタンスと置き換えられ、修正シードレコード（ｒ^ｓ’）が生成される（５６０）。全てのレコード（ｒ）がシードレコード（ｒ^ｓ）として反復的に選択されたかどうかの判定が行われる（５７０）。そうでない場合、シードレコード（ｒ^ｓ）の選択、サブシーケンスパターンの識別、およびシードレコード（ｒ^ｓ’）内の部分配列のインスタンスの置換が反復的に繰り返される。全てのレコード（ｒ）がシードレコード（ｒ^ｓ）として反復的に選択された場合、反復の結果得られた修正されたシードレコード（ｒ^ｓ）を結合してシンセティックデータセット（Ｘ’）が生成される（５８０）。

【0051】

上記の説明および添付の図に加えて、臨床試験から縦断データを生成するための以下の方法論的擬似コード１～８に少なくとも部分的に基づいて実施することができる。

【0052】

１．オリジナルデータセット：Ｘはテーブルで構成され，各テーブルはＮ人の患者のイベント，開始日と終了日（任意），その他のカテゴリー属性と数値属性のレコードで構成される．
２．各行が被験者ＩＤ、イベントコード、イベント開始日、オプションでイベント終了日、その他のカテゴリー値や数値を持つように、テーブルをデータセットＹに連結する。
３．イベントコードｂが、患者のイベントタイムラインで発生した場合に、イベントコードａを観察する条件付き確率を計算する。
４．患者ごとのイベント（合計Ｎ個）を、イベントの開始日順に並べイベントシーケンスを作成する。
５．パターンマイニングを使用して、特徴ベクトルＹ’として使用するイベントシーケンス全体のｍ個の頻出サブシーケンスパターンを特定する。
６．Ｙ’をｙ次元の空間Ｖに埋め込み（ｔ－ＳＮＥ、ＵＭＡＰ、ＰＣＡなど）、埋め込み点（つまりレコード）を生成する。
７．以下のプロパティを使用する：
ａ．Ｎ＞０（シンセティックデータセットのサイズ）
ｂ．ｋ＞０（クラスタとも呼ばれる近隣の数）
ｃ．ｙ（埋め込み次元ｍ＞ｙ＞０）
ｄ．ｃ＞＝１，Ｃ⊆Ｒ
ｅ．ｐ＞＝０，ｐ⊆Ｒ
ｆ．Ｔ（．）変換メカニズム
８．Ｎ人の患者の縦断データからシンセティックデータセットＸ’を生成
ｉがＮ以下の間、下記（１）～（５）を繰り返す。
（１）シードレコードｒ^ｓの生成
（２）ｒ^ｓの最近傍ｋ個を選択
（３）下記（ア）～（オ）により、新しいレコードｒ^ｓ’を生成
（ア）イベントｅが存在するサブジェクトの数がカウントｃより少ないｒ^ｓのイベントシーケンス中のイベントｅをドロップ
（イ）シードレコードｒ^ｓとそのｋ個の近傍レコード間のイベントのパターンをスワッピング。パターンマイニングを使用して、ｒ^ｓとそのｋ個の近傍レコードのパターンを特定し、距離を使用して互いに近いパターンのインスタンスを見つけ、スワッピング
（ウ）イベントｂの後にイベントａが発生する条件付確率がｐより小さい連続するイベントを（２）の順序から全て見つけ、発生順序をランダムに反転
（エ）一様分布［－Ｕ，Ｕ］からサンプリングしたノイズを加えることで、ｒ^ｓのイベントシーケンスにおける最初のイベントの開始日を匿名化
（オ）シーケンスの順序が保たれるように、最初のイベントとそれに続く全てのイベントの開始と終了の間のラグにノイズを追加。ノイズはガウスノイズＮ（０，σ）を用いて追加されるが、別のメカニズムを使用することもできる。
（４）他の生成レコードと組み合わせてＸ’を形成するために、ｒ^ｓ’を保存する。
（５）ｉ＝ｉ＋１；

【0053】

生成された縦断データセットの忠実度を評価するために、シンセティックデータセットの特性を実際のデータセットの特性と比較するクロスバリデーションテストを実施し、実際のデータセットの基本的な特性がどの程度保持されているかを評価した。詳細は後述するが、クロスバリデーションには、イベント列の長さ、平均イベント継続時間、イベント頻度など、多くの指標を用いることができる。後述のプロットには描かれていないが、心拍数の測定値など、特定のイベントに対する連続属性の平均パラメータ値もある。これらの平均値は、後述するように、実データとシンセティックデータとの間で比較することができる。カテゴリー属性（例えば、民族、人種、および性別）については、モードおよび度数を交差検証測定値として使用することができる。

【0054】

図６Ａ～図６Ｃは、それぞれ非小細胞肺がん（ＮＳＣＬＣ）、急性リンパ芽球性白血病（ＡＬＬ）、多発性骨髄腫を対象とした臨床試験の実データセットとシンセティックデータセットのクロスバリデーションにおけるイベントシーケンスの長さのヒストグラムである。ヒストグラムは、オリジナルデータセット（または「実データセット」）のイベントシーケンスを定義するレコードの長さ（ｒ）と、本明細書に記載のアプローチに従って作成されたシンセティックデータセットのレコードの長さを重ねて示したものである。ヒストグラムは、例えばコルモゴロフ・スミルノフ検定を用いて統計的に比較することができる。コルモゴロフ・スミルノフ統計量は、サンプル（例えば、シンセティックデータセット）の経験分布関数と参照分布（例えば、実データセット）の累積分布関数との間の距離を定量化する。図６Ａ～図６Ｃのコルモゴロフ・スミルノフ統計量の値は、それぞれ０．０１、０．０１、０．０２であり、分布間の差が小さくなるにつれて値はゼロに近づく。コルモゴロフ・スミルノフ検定は適合度の尺度を生成し、値はそれぞれｐ＝０．９９、ｐ＝１．０、ｐ＝０．９７で、ｐ＝１．０は完全な適合を示す。

【0055】

図７Ａ～図７Ｆは、ＮＳＣＬＣを対象とした臨床試験のクロスバリデーション試験結果のプロットである。図８Ａ～図８Ｆは、ＡＬＬに関する臨床試験のクロスバリデーション試験結果のプロットである。図９Ａ～図９Ｆは、多発性骨髄腫に関する臨床試験のクロスバリデーション試験結果のプロットである。

【0056】

図７Ａ、図８Ａ、図９Ａは、開始日（または日時）と終了日（または日時）の両方を持つイベントについて、実データセットとシンセティックデータセットの間のイベントの平均持続時間の比較を示す。例えば、吐き気などの有害イベントの平均持続時間を、シンセティックデータセットの被験者について計算し、実データセットのそれと比較することができる。これらのプロットでは、オリジナルデータセットのデータがｘ軸に、シンセティックデータセットのデータがｙ軸にプロットされている。したがって、理想的な分布は、図に示すように１．０の傾きを持つ直線に沿ったものとなる。理想的な特性に対するデータの適合性は、単純な線形回帰を用いて評価でき、決定係数（ｒ^２）を用いて定量化できる。図７Ａ、図８Ａ、図９Ａのｒ^２の値は、それぞれ０．５６、０．９９、０．６１であり、ｒ^２＝１．００という値は、線形特性への完全な適合を示す。

【0057】

図７Ｂ、図８Ｂおよび図９Ｂは、イベント頻度の比較を示す。この例では、例えば吐き気、頭痛、その他の症状、有害イベント、血圧測定値などを含む全てのイベントの頻度が累積的に決定される。実データセットからのデータはｘ軸に、シンセティックデータセットからのデータはｙ軸にプロットされ、この例では両軸とも対数目盛りを持つ。理想的な分布は、図に示すように１．０の傾きを持つ線に沿ったものであろう。図７Ｂ、８Ｂ、９Ｂのｒ^２の値は、それぞれ１．０、１．０、１．０である。ｒ^２＝１．００の値は、線形特性に完全に適合していることを示す。

【0058】

図７Ｃ、図８Ｃ、図９Ｃは、実データセットとシンセティックデータセットの間のイベント頻度特徴ベクトルの「ＢｏＷ（Bag of Word）」の比較を示す。この例では、吐き気、頭痛、その他の症状、有害イベント、血圧測定値など、各特定のイベントの発生回数が決定される。実データセットからのデータはｘ軸に、シンセティックデータセットからのデータはｙ軸にプロットされ、この例では両軸とも対数目盛りを持つ。理想的な分布は、図に示すように１．０の傾きを持つ線に沿ったものであろう。図７Ｃ、８Ｃ、９Ｃのｒ^２の値は、それぞれ１．０、１．０、１．０である。ｒ^２＝１．００の値は、線形特性に完全に適合していることを示す。

【0059】

図７Ｄ、図８Ｄ、図９Ｄは、実データセットとシンセティックデータセットの2-gramカウント数の比較である。「2-gram」という用語は、自然言語処理に似た用法で、連続する２つのイベントのシーケンスを指す。この例では、各特定のイベント「2-gram」の出現数が決定される。実データセットのデータがｘ軸に、シンセティックデータセットのデータがｙ軸にプロットされている。理想的な分布は、図のように１．０の傾きを持つ直線に沿ったものである。図７Ｄ、８Ｄ、９Ｄのｒ^２の値は、それぞれ０．９７、０．９８、０．９７である。ｒ^２＝１．００の値は、線形特性に完全に適合していることを示す。

【0060】

図７Ｅ、図８Ｅ、図９Ｅは、実際のデータセットとシンセティックデータセットの4-gramカウント数の比較を示す。用語「4-gram」は、自然言語処理に類似した用法で、４つの連続するイベント（すなわち、特定の順序で４つのイベント）のシーケンスを指す。この例では、各特定のイベント「4-gram」の出現数が決定される。実データセットのデータがｘ軸に、シンセティックデータセットのデータがｙ軸にプロットされている。理想的な分布は、図のように１．０の傾きを持つ直線に沿ったものである。図７Ｅ、８Ｅ、９Ｅのｒ^２の値は、それぞれ０．８８、０．７４、０．７２である。ｒ^２＝１．００の値は、線形特性に完全に適合していることを示す。

【0061】

図７Ｆ、図８Ｆ、図９Ｆは、実際のデータセットとシンセティックデータセットとの間の6-gramカウント数の比較を示す。「6-gram」という用語は、自然言語処理に似た用法で、連続する６つのイベント（すなわち、特定の順序で６つのイベント）のシーケンスを指す。この例では、各特定のイベント「6-gram」の出現数が決定される。実データセットのデータがｘ軸に、シンセティックデータセットのデータがｙ軸にプロットされている。理想的な分布は、図に示すように１．０の傾きを持つ直線に沿ったものである。図７Ｆ、８Ｆ、９Ｆのｒ^２の値は、それぞれ０．７１、０．８９、０．５６である。ｒ^２＝１．００の値は、線形特性に完全に適合していることを示す。

【0062】

図１０Ａ～図１０Ｅ、図１１Ａ～図１１Ｅ、図１２Ａ～図１２Ｅ、および図１３Ａ～図１３Ｅは、開示された方法（図１０Ａ～図１０Ｅ）と、自然言語処理（ＮＬＰ）で使用されるn-gramモデルなどの非ニューラルネットワーク法（図１１Ａ～図１１Ｅ）、および長短期記憶（ＬＳＴＭ）（図１２Ａ～図１２Ｅ）や畳み込みニューラルネットワーク（ＣＮＮ）（図１３Ａ～図１３Ｅ）などのニューラルネットワークアプローチを含む他の技術との性能比較を示すプロットである。

【0063】

図１０Ａ～図１０Ｅは、開示された方法の性能を説明するための、実際の（すなわち元の）データセットとシンセティックデータセットとの比較を示すプロットであり、それぞれ、イベント頻度、1-gram、2-gram、3-gramおよび4-gramを含む。「n-gram」という用語は、自然言語処理に類似した用法において、ｎ個の連続するイベント（または1-gramの場合は単一イベント）のシーケンスを指す。

【0064】

図１１Ａ～図１１Ｅは、自然言語処理（ＮＬＰ）で使用されるn-gramモデルの性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットであり、それぞれイベント頻度、1-gram、2-gram、3-gram、4-gramを含む。

【0065】

図１２Ａ～図１２Ｅは、それぞれイベント頻度、1-gram、2-gram、3-gram、4-gramを含む、長短期記憶（ＬＳＴＭ）ニューラルネットワークの性能を説明するための、実際のデータセットとシンセティックデータセットの比較を示すプロットである。

【0066】

図１３Ａ～図１３Ｅは、畳み込みニューラルネットワーク（ＣＮＮ）の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットであり、それぞれイベント頻度、1-gram、2-gram、3-gram、4-gramを含む。

【0067】

図１４Ａ～図１４Ｈは、イベントシーケンス長（図１４Ａ、図１４Ｃ、図１４Ｅ、図１４Ｇ）およびイベントタイプ頻度（図１４Ｂ、図１４Ｄ、図１４Ｆ、図１４Ｈ）に関して上述した技術の性能を説明するための、実データセットとシンセティックデータセットの比較を示すプロットである。プロットは、開示された手法（図１４Ａ～図１４Ｂ）と、自然言語処理（ＮＬＰ）で使用されるn-gramモデル（図１４Ｃ～部１４Ｄ）などの非ニューラルネットワーク手法（図１４Ｅ～図１４Ｆ）や、長短期記憶（ＬＳＴＭ）（図１４Ｇ～図１４Ｈ）や畳み込みニューラルネットワーク（ＣＮＮ）（図１４Ｇ～図１４Ｈ）などのニューラルネットワークアプローチを含む他の手法との性能を比較する。

【0068】

本発明の態様は、システム、コンピュータプログラム製品、または方法の形態で具体化することができる。同様に、本発明の態様は、ハードウェア、ソフトウェア、またはその両方の組み合わせとして具現化することができる。本発明の態様は、その上に具現化されたコンピュータ可読プログラムコードの形態で１つ以上のコンピュータ可読媒体上に保存されたコンピュータプログラム製品として具現化されてもよい。

【0069】

コンピュータ読み取り可能媒体は、コンピュータ読み取り可能記憶媒体であってもよい。コンピュータ読み取り可能な記憶媒体は、例えば、電子式、光学式、磁気式、電磁式、赤外線式、または半導体式のシステム、装置、もしくはデバイス、またはそれらの任意の組み合わせであってもよい。

【0070】

本発明の実施形態におけるコンピュータプログラムコードは、任意の適切なプログラミング言語で記述することができる。プログラムコードは、単一のコンピュータ上で実行されてもよいし、複数のコンピュータ上で実行されてもよい。コンピュータは、コンピュータ使用可能媒体と通信する処理ユニットを含むことができ、コンピュータ使用可能媒体は命令セットを含み、処理ユニットは命令セットを実行するように設計されている。

【0071】

以上の議論は、本発明の原理および様々な実施形態を例示するためのものである。上記の開示が十分に理解されれば、多数の変形および修正が当業者に明らかになるであろう。以下の特許請求の範囲は、全てのそのような変形および修正を包含するように解釈されることが意図される。

【図1】