(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024119880
(43)【公開日】2024-09-03
(54)【発明の名称】合成トレーニングサンプルによるがん分類
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240827BHJP
C12Q 1/6806 20180101ALI20240827BHJP
C12M 1/00 20060101ALI20240827BHJP
【FI】
C12Q1/6869 Z
C12Q1/6806 Z
C12M1/00 A
【審査請求】有
【請求項の数】18
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024088619
(22)【出願日】2024-05-31
(62)【分割の表示】P 2022560061の分割
【原出願日】2021-03-29
(31)【優先権主張番号】63/001,729
(32)【優先日】2020-03-30
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】63/154,667
(32)【優先日】2021-02-27
(33)【優先権主張国・地域又は機関】US
(71)【出願人】
【識別番号】522105894
【氏名又は名称】グレイル エルエルシー
(74)【代理人】
【識別番号】100147485
【弁理士】
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【弁護士】
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100226263
【弁理士】
【氏名又は名称】中田 未来生
(72)【発明者】
【氏名】エム サイラス マヘル
(72)【発明者】
【氏名】サミュエル エス グロス
(72)【発明者】
【氏名】ジョシュア ニューマン
(72)【発明者】
【氏名】イョルグ ブレドノ
(72)【発明者】
【氏名】オグンジェン ニコリク
(57)【要約】 (修正有)
【課題】がんを検出し、及び/又はがん発生組織を判定するための方法及びシステムを提供する。また、cfDNAフラグメントを包含する複数の生体サンプルと、生体サンプルから生成される少なくとも1つの合成トレーニングサンプルとを用いて訓練されるマルチクラスがん分類器を提供する。
【解決手段】分析システムは、がんとしてラベルされたトレーニングサンプルからフラグメントをサンプリングし、非がんとしてラベルされた別のトレーニングサンプルからフラグメントをサンプリングすることによって、合成トレーニングサンプルを生成する。サンプリング確率は、例えば、検出限界に近接したがん腫瘍分画を有する合成トレーニングサンプルを生成するために、がん分類器の検出限界に基づいて決定される。
【選択図】
図3
【特許請求の範囲】
【請求項1】
がんを検出するためのモデルを訓練する方法であって、該方法は:
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、
各トレーニングサンプルはがん及び非がんのうちの1つとしてラベルされ、かつ各トレー
ニングサンプルは複数の異常なcfDNAフラグメントを備える、ステップと;
がんとしてラベルされた第1のトレーニングサンプル及び非がんとしてラベルされた第
2のトレーニングサンプルをサンプリングするステップと;
前記第1のトレーニングサンプルから異常なcfDNAフラグメントの第1のサブセッ
ト、及び前記第2のトレーニングサンプルから異常なcfDNAフラグメントの第2のサ
ブセットをサンプリングすることによって、第1の合成トレーニングサンプルを生成する
ステップであって、前記第1の合成トレーニングサンプルはがんとしてラベルされる、ス
テップと; 各トレーニングサンプルの前記複数の異常なcfDNAフラグメントに基づ
いて、前記第1の合成トレーニングサンプルを含む前記トレーニングサンプルの各々につ
いて特徴ベクトルを生成するステップと;
前記特徴ベクトル及び前記第1の合成トレーニングサンプルを含む前記トレーニングサ
ンプルの前記ラベルを用いて前記モデルを訓練するステップであって、前記モデルは、前
記テストサンプルのシークエンシングデータに基づいてテストサンプルに対するがん予測
を生成するように構成される、ステップと;
を備える、方法。
【請求項2】
請求項1に記載の方法であって、前記第1の合成トレーニングサンプルを生成するステ
ップは:
複数のゲノム領域の各ゲノム領域に対して、前記ゲノム領域に重なる前記第1のトレー
ニングサンプルから異常なcfDNAフラグメントを第1のサンプリング確率でサンプリ
ングし、かつ前記ゲノム領域に重なる前記第2のトレーニングサンプルから異常なcfD
NAフラグメントを前記第1のサンプリング確率に対して相補的である第2のサンプリン
グ確率でサンプリングするステップ;
を備える、方法。
【請求項3】
請求項2に記載の方法であって、前記第1のサンプリング確率及び前記第2のサンプリ
ング確率は、前記訓練されたモデルの検出限界に従って設定される、方法。
【請求項4】
請求項1に記載の方法であって、前記方法は:
非がんとしてラベルされた第3のトレーニングサンプルをサンプリングするステップと
;
前記第1のサブセットとは異なる前記第1のトレーニングサンプルからの異常なcfD
NAフラグメントの第3のサブセット、及び前記第3のトレーニングサンプルからの異常
なcfDNAフラグメントの第4のサブセットをサンプリングすることによって、第2の
合成トレーニングサンプルを生成するステップであって、前記第2の合成トレーニングサ
ンプルはがんとしてラベルされる、ステップと;
前記第2の合成トレーニングサンプルの前記複数の異常なcfDNAフラグメントに基
づいて、前記第2の合成トレーニングサンプルに対する第2の特徴ベクトルを生成するス
テップと;
を更に備え、
前記モデルを、前記第2の特徴ベクトル及び前記第2の合成トレーニングサンプルの前
記ラベルを用いて更に訓練する、
方法。
【請求項5】
請求項1に記載の方法であって、前記方法は:
がんとしてラベルされた第3のトレーニングサンプル、及び非がんとしてラベルされた
第4のトレーニングサンプルをサンプリングするステップと;
前記第3のトレーニングサンプルから異常なcfDNAフラグメントの第3のサブセッ
ト、及び前記第4のトレーニングサンプルから異常なcfDNAフラグメントの第4のサ
ブセットをサンプリングすることによって、第2の合成トレーニングサンプルを生成する
ステップであって、前記第2の合成トレーニングサンプルはがんとしてラベルされる、ス
テップと;
前記第2の合成トレーニングサンプルの前記複数の異常なcfDNAフラグメントに基
づいて、前記第2の合成トレーニングサンプルに対する第2の特徴ベクトルを生成するス
テップと;
を更に備え、
前記モデルを、前記第2の特徴ベクトル及び前記第2の合成トレーニングサンプルのラ
ベルを用いて更に訓練する、
方法。
【請求項6】
請求項5に記載の方法であって、前記第1のトレーニングサンプル及び前記第1の合成
トレーニングサンプルは、第1のがんタイプのラベルを有し、かつ前記第3のトレーニン
グサンプル及び前記第2の合成トレーニングサンプルは、第2のがんタイプのラベルを有
する、方法。
【請求項7】
請求項1に記載の方法であって、特徴ベクトルの各特徴は、複数のCpG部位のCpG
部位に対応し、前記トレーニングサンプルの各々に対する特徴ベクトルを生成するステッ
プは:
各異常なcfDNAフラグメントに対して、前記異常なcfDNAフラグメントの複数
のCpG部位における複数のメチル化状態に確率モデルを適用することによって、異常な
cfDNAフラグメントががん生体サンプルに由来する尤度を決定するステップと;
前記特徴に対応する前記CpG部位と重なり、かつ閾値尤度を上回る尤度を有する異常
なcfDNAフラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定するス
テップと;
を備える方法、
【請求項8】
請求項7に記載の方法であって、各特徴ベクトルは、前記トレーニングサンプルのシー
クエンス深度に従って正規化される、方法。
【請求項9】
請求項1に記載の方法であって、前記方法は:
異常なフラグメントのセットを生成するために、p値フィルタリングによる各トレーニ
ングサンプルのcfDNAフラグメントの初期セットをフィルタリングするステップであ
って、前記フィルタリングは、他のフラグメントに関して閾値を下回るp値を有するフラ
グメントを前記初期セットから除去し、異常なフラグメントの前記セットを作り出すこと
を備える、ステップ;
を更に備える、方法。
【請求項10】
請求項1記載の方法であって、前記訓練されたモデルは、ニューラルネットワークアル
ゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍
アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アル
ゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズ
ムである、方法。
【請求項11】
システムであって、該システムは:
コンピュータプロセッサと;
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項1~10
のいずれかの方法を行なわせる命令を格納する非一時的コンピュータ可読記憶媒体と;
を備える、システム。
【請求項12】
がんを検出するための方法であって、該方法は:
複数の異常なcfDNAフラグメントを含むテストサンプルのシークエンシングデータ
を受信するステップと;
前記テストサンプルの前記異常なcfDNAフラグメントに基づいて、テスト特徴ベク
トルを生成するステップと;
前記テスト特徴ベクトルを分類モデルに入力し、テストサンプルについてのがん予測を
生成するステップであって、前記分類モデルを、
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって
、各トレーニングサンプルはがん及び非がんのうちの1つとしてラベルされ、各トレーニ
ングサンプルは複数の異常なcfDNAフラグメントを含む、ステップ、
がんとしてラベルされた第1のトレーニングサンプルと非がんとしてラベルされた第
2のトレーニングサンプルとをサンプリングするステップ、
前記第1のトレーニングサンプルから異常なcfDNAフラグメントの第1のサブセ
ットと、前記第2のトレーニングサンプルから異常なcfDNAフラグメントの第2のサ
ブセットとをサンプリングすることによって、第1の合成トレーニングサンプルを生成す
るステップであって、前記第1の合成トレーニングサンプルはがんとしてラベルされる、
ステップ、
各トレーニングサンプルの前記複数の異常なcfDNAフラグメントに基づいて、前
記第1の合成トレーニングサンプルを含む前記トレーニングサンプルの各々に対する特徴
ベクトルを生成するステップ、並びに
前記特徴ベクトル、及び前記第1の合成トレーニングサンプルを含む前記トレーニン
グサンプルの前記ラベルを用いて、前記モデルを訓練するステップ、
によって訓練する、ステップと;
を備える、方法。
【請求項13】
請求項12に記載の方法であって、前記がん予測は、がんと非がんとの間の二値予測で
ある、方法。
【請求項14】
請求項12に記載の方法であって、前記がん予測は、複数のがんタイプ間のマルチクラ
スがん予測である、方法。
【請求項15】
請求項12に記載の方法であって、特徴ベクトルの各特徴は、複数のCpG部位のCp
G部位に対応し、かつ前記トレーニングサンプルの各々に対する特徴ベクトルを生成する
ステップは:
各異常なcfDNAフラグメントに対して、前記異常なcfDNAフラグメントの複数
のCpG部位における複数のメチル化状態に確率モデルを適用することによって、前記異
常なcfDNAフラグメントががん生体サンプルに由来する尤度を決定するステップと;
前記特徴に対応する前記CpG部位と重なり、かつ閾値尤度を上回る尤度を有する異常
なcfDNAフラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定するス
テップと;
を備える、方法。
【請求項16】
請求項15に記載の方法であって、各特徴ベクトルは、前記トレーニングサンプルのシ
ークエンス深度に従って正規化される、方法。
【請求項17】
請求項12に記載の方法であって、前記前記分類モデルを:
異常なフラグメントのセットを生成するために、p値フィルタリングによる各トレーニ
ングサンプルのcfDNAフラグメントの初期セットをフィルタリングするステップであ
って、前記フィルタリングは、他のフラグメントに関して閾値を下回るp値を有するフラ
グメントを前記初期セットから除去して異常なフラグメントの前記セットを生成すること
を備える、ステップ;
によって更に訓練する、方法。
【請求項18】
システムであって、該システムは:
コンピュータプロセッサと;
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項12~1
7のいずれかの方法を行なわせる命令を格納する非一時的コンピュータ可読記憶媒体と;
を備える、システム。
【発明の詳細な説明】
【背景技術】
【0001】
デオキシリボ核酸(DNA)メチル化は、遺伝子発現の調節における重要な役割を果た
す。DNAメチル化の変型は、がんを含む多くの疾患プロセスに関与しているとされる。
メチル化シークエンシング(例えば、全ゲノムバイサルファイトシークエンシング(WG
BS))を使用するDNAメチル化プロファイリングは、がんの検出、診断、及び/又は
モニタリングのための貴重な診断ツールとしてますます認識されつつある。例えば、異な
るメチル化領域の特定のパターン及び/又は対立遺伝子特異的メチル化パターンは、循環
無細胞(cf)DNAを使用する非侵襲的診断のための分子マーカーとして有用である場
合がある。しかしながら、がんなどのような疾患の検出、診断、及び/又はモニタリング
のために無細胞DNAからのメチル化シークエンシングデータを分析するための改善され
た方法に対する必要性が当技術分野において残っている。
【0002】
本開示は、これらの上記課題の1つ以上に対処することに向けられている。本明細書で
提供される背景の説明は、本開示の文脈を一般的に提示することを目的とするものである
。本明細書に特に示されない限り、このセクションに記載された資料は、本願の請求項に
対する先行技術ではなく、かつこのセクションに含めることによって、先行技術であるこ
と、又は先行技術の示唆であることを認めるものでもない。
【発明の概要】
【0003】
被験者の疾患状態(がんなどのような)の早期発見は、早期治療を可能にし、かつそれ
故に生存の可能性を高めることができるため重要である。無細胞(cf)DNAサンプル
中のDNAフラグメントのシークエンシングは、疾患の分類に使用できる特徴を同定する
ために使用することができる。例えば、がんの査定において、血液サンプルからの無細胞
DNAに基づく特徴(体細胞変異、メチル化状態、又は他の遺伝子異常の有無などのよう
な)は、被験者ががんに罹っているかもしれないという洞察、そしてさらに被験者がどん
ながんのタイプを有しているかもしれないという洞察を提供することができる。その目的
に向けて、本明細書は、被験者が疾患を有する可能性を判定するための無細胞DNAシー
クエンシングデータを分析するためのシステム及び方法を含む。
【0004】
本開示は、疾患状況を判別する分類器の性能を向上させるために、既存データの使用を
行うために改良されたシステム及び方法を提供することによって、上記で特定された問題
に対処する。一般に、開示されたシステム及び方法は、生物学的データセット、とりわけ
、例えば、腫瘍サンプル、液体生検などの生物学的サンプルの核酸シークエンシングから
抽出されたゲノムデータに基づくそれらのデータセットの合成拡張を可能にすることによ
って、これを達成する。いくつかの実施態様において、これは、生物学的サンプルから生
成された1つ以上のデータ構造に基づく増強データ構造を生成することによって達成され
る。増強データ構造は、生物学的サンプルから直接生成された既存のデータ構造を補完す
るために使用され、拡張生物学的データセットを生成することができる。これらの拡張生
物学的データセットは、生物学的サンプルから直接生成された元のデータ構造のみに対し
て訓練された疾患分類器よりも高い特異性及び/又は感度を有する疾患分類器の訓練を促
進することができる。この改善は、いくつかの要因に起因することができる。例えば、よ
り大きな(拡張された)トレーニングデータセットを使用することによって、分類器はデ
ータの傾向をより良く一般化できるので、データのオーバーフィッティングの発生が減少
する。加えて、増強データ構造中の疾患信号の量を制御することによって、分類器の検出
レベル(LOD)付近の疾患信号を有するデータ構造をより高いパーセンテージで包含す
るように、拡張データセットを構築することができる。これは、疾患信号が希薄になる特
徴空間中でも同様により優れたモデルの訓練ができることになる。
【0005】
分析システムは、複数のサンプル(例えば、複数のがん及び非がんサンプル)からの多
数のシークエンシングデータを処理して、引き続き、がん分類に利用される特徴を特定す
る。分析システムは、得られた生体サンプルから少なくとも1つの合成トレーニングサン
プルを生成する。分析システムは、がんとしてラベルされたトレーニングサンプルからフ
ラグメントをサンプリングし、かつ非がんとしてラベルされた別のトレーニングサンプル
からフラグメントをサンプリングすることによって、合成トレーニングサンプルを生成す
る。分析システムは、合成トレーニングサンプルを生成するために使用されるがんトレー
ニングサンプルに属する特定のがんタイプで合成トレーニングサンプルを更にラベルして
もよい。サンプリング確率は、例えば、検出限界に近接したがん腫瘍分画を有する合成ト
レーニングサンプルを生成するために、がん分類器の検出限界に基づいて決定される。シ
ークエンシングデータを用いて、分析システムは、テストサンプルに対するがん予測を生
成するためのがん分類器を訓練及び展開することができる。
【0006】
がん分類器を訓練するためにどのトレーニングサンプルを使用するかを選択する際に、
分析は、1つ以上のがんタイプを有すると既に同定及びラベルされたトレーニングサンプ
ルと同様に、非がんとしてラベルされた健康な個人からのトレーニングサンプルも使用す
る。各トレーニングサンプルは、フラグメントのセットを含む。各トレーニングサンプル
に対して、分析システムは、例えば、特定された特徴の各々にスコアを割り当てることに
よって、特徴ベクトルを生成する。分析システムは、がん分類器の反復訓練のために、ト
レーニングサンプルを1つ以上のトレーニングサンプルのセットにグループ化してもよい
。分析システムは、特徴ベクトルの各セットをがん分類器に入力し、かつがん分類器の関
数が、特徴ベクトル及び分類パラメータに基づいてセット中のトレーニングサンプルのラ
ベルを予測する閾値を上回る精度を有するがん予測を閾値で計算するように、がん分類器
内の分類パラメータを調整する。がん分類器は、トレーニングサンプルの各セットを通じ
て上記のステップを反復することによって、反復的に訓練される。
【0007】
展開中、分析システムは、テストサンプルの各々に対する特徴ベクトル中の複数の特徴
の各々にスコアを割り当てることによって、を例とする、トレーニングサンプルと同様の
方法で、テストサンプルに対する特徴ベクトルを生成する。その後、分析システムは、テ
ストサンプルに対する特徴ベクトルを、がん予測を返すがん分類器に入力する。一実施態
様では、がん分類器は、がんを有するかの尤度のがん予測を返すバイナリ分類器として構
成されてもよい。別の実施態様では、がん分類器は、複数のがんタイプの各々に対して予
測値を有するがん予測を返すために、マルチクラス分類器として構成されてもよい。
【図面の簡単な説明】
【0008】
【
図1A】1つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞(cf)DNAのフラグメントをシークエンシングするプロセスを説明する例示的なフローチャートである。
【
図1B】1つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞(cf)DNAのフラグメントをシークエンシングする
図1Aのプロセスを説明する図である。
【
図2A】1つ以上の実施態様による、サンプルから異常なメチル化フラグメントを判定するプロセスを説明する例示的なフローチャートである。
【
図2B】1つ以上の実施態様による、サンプルから異常なメチル化フラグメントを判定するプロセスを説明する例示的なフローチャートである。
【
図3】1つ以上の実施態様による、合成トレーニングサンプルを生成する例示的なプロセスである。
【
図4】1つ以上の実施態様による、がん分類器を訓練するための合成トレーニングサンプルを生成するプロセスを説明する例示的なフローチャートである。
【
図5A】1つ以上の実施態様による、増強データを生成し、かつオプションで分類器を訓練し、疾患状況を互いに判別するための例示的なワークフロー500である。
【
図5B】1つ以上の実施態様による、補完的データを生成するための例示的なワークフローである。
【
図6A】1つ以上の実施態様による、がん分類器を訓練するプロセスを説明する例示的なフローチャートである。
【
図6B】1つ以上の実施態様による、がん分類器を訓練するために使用される特徴ベクトルの例示的な生成を示す図である。
【
図7】
図7Aは、1つ以上の実施態様による、核酸サンプルをシークエンシングするためのデバイスの例示的なフローチャートである。
図7Bは、1つ以上の実施態様による、分析システムの例示的なブロック図である。
【
図8】一例の実施態様による、様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示す例示的なグラフである。
【
図9】一例の実施態様による、バイナリがん分類器を最初に使用した後の様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示す例示的なグラフである。
【
図10】一例の実施態様による、訓練されたがん分類器の性能を論証する例示的な混同行列を示す図である。
【
図11】いくつかの例の実施態様による、合成トレーニングサンプルで訓練されたがん分類器の性能を比較する例示的な表である。
【
図12A】1つ以上の実施態様による、がんの確率の例のグラフを示す図である。
【
図12B】1つ以上の実施態様による、がんの確率の例のグラフを示す図である。
【
図12C】1つ以上の実施態様による、がんの確率の例のグラフを示す図である。
【
図13】1つ以上の実施態様による、患者サンプル中の無細胞DNAのゲノム特性に基づきがんを検出するために訓練された2つの分類器の評価を示す図である。
【
図14】1つ以上の実施態様による、トレーニングセット感度対テストセット感度の例示的なグラフを示す図である。
【
図15】1つ以上の実施態様による、分類器で使用される特徴の数が拡大するにつれる、ある次元に沿って最大化又は最小化される特徴空間のパーセンテージの代表的な曲線の例示的なグラフを示す図である。
【0009】
図は、例示のみを目的とした様々な実施態様を描いている。当業者は、以下の論議から
、本明細書に説明される原理から逸脱することなく、本明細書に図示される構造及び方法
の代替の実施態様が採用できることを容易に認識するであろう。
【発明を実施するための形態】
【0010】
I.大要
【0011】
I.A.メチル化の大要
【0012】
本明細書に従って、個体からのcfDNAフラグメントを、例えば非メチル化シトシン
をウラシルに変換することにより処理し、シークエンシングし、かつシークエンスリード
を参照ゲノムと比較して、DNAフラグメント内の特定のCpG部位におけるメチル化状
態を同定する。各CpG部位は、メチル化されている場合、又はメチル化されていない場
合がある。健康な個体と比較して、異常なメチル化フラグメントを同定することは、対象
のがんの状態に対する識見を提供し得る。当技術分野でよく知られているように、DNA
メチル化異常は(健康な対照と比較して)異なる影響を引き起こし、それががんの一因と
なる場合がある。様々な課題が、異常にメチル化されたcfDNAフラグメントの同定に
生じる。まず、DNAフラグメントが異常にメチル化されていると判定することは、対照
生体個体のグループとの比較において重みを持つことができるが、対照グループの数が少
ない場合などでは、対照グループ生体サンプルの小さいサイズ内での統計的変動により、
判定が信頼性を失う。そのうえ、対照個体の中でもメチル化の状態は様々であり、対象の
DNAフラグメントが異常にメチル化されていると判定するときに、それを考慮すること
は困難である場合がある。もう一つ、あるCpG部位のシトシンのメチル化は、その後に
続くCpG部位のメチル化に因果関係を持つ場合がある。この依存関係を封じ込めること
は、それ自体、別の課題になり得る。
【0013】
メチル化は、デオキシリボ核酸(DNA)において、シトシン塩基のピリミジン環上の
水素原子がメチル基に変換され、5-メチルシトシンを形成するときに典型的に起こり得
る。とりわけ、メチル化は、本明細書で「CpG部位」と呼ばれるシトシン及びグアニン
のジヌクレオチドにおいて起こり得る。他の事例では、メチル化は、CpG部位の一部で
はないシトシン、又はシトシンではない別のヌクレオチドで起こり得るが、しかしながら
、これらは稀にしか発生しない。本開示では、メチル化は、明確化のために、CpG部位
に関連して論じららる。異常なDNAメチル化は、ハイパーメチル化又はハイポメチル化
として同定することができ、その両方が、がんの状態を示すことがある。本開示を通じて
、DNAフラグメントが、閾値より多くの数のCpG部位を備え、それらのCpG部位の
閾値より多くの割合がメチル化又は非メチル化である場合、ハイパーメチル化及びハイポ
メチル化は、DNAフラグメントに対して特徴付けられることができる。
【0014】
本明細書に説明される原理は、非シトシンメチル化を含む非CpGコンテキストにおけ
るメチル化の検出にも同様に適用可能である。そのような実施態様では、メチル化を検出
するために使用される湿式実験室アッセイは、本明細書に説明されるものと異なる場合が
ある。さらに、本明細書で論じられるメチル化状態ベクトルは、一般にメチル化が起こっ
た部位又は起こっていない部位である要素(それらの部位が特にCpG部位でないとして
も)を包含することができる。その置換を用いて、本明細書に説明されるプロセスの残り
は同じであり得、かつその結果、本明細書に説明される発明概念は、それらの他の形態の
メチル化にも適用可能にすることができる。
【0015】
I.B.定義
【0016】
「無細胞核酸」又は「cfNA」という用語は、個体の体内(例えば、血液)を循環し
、かつ1つ以上の健康な細胞及び/又は1つ以上の不健康な細胞(例えば、がん細胞)か
ら由来する核酸フラグメントを指す。「無細胞DNA」又は「cfDNA」という用語は
、個体の体内(例えば、血液)を循環するデオキシリボ核酸フラグメントを指す。そのう
え、個体の体内のcfNA又はcfDNAは、他の非ヒトの供給源からくる場合もある。
【0017】
「ゲノム核酸」、「ゲノムDNA」、又は「gDNA」という用語は、1つ以上の細胞
から得られた核酸分子又はデオキシリボ核酸分子を指す。様々な実施態様において、gD
NAは、健康な細胞(例えば、非腫瘍細胞)又は腫瘍細胞(例えば、生検サンプル)から
抽出することができる。いくつかの実施態様において、gDNAは、白血球などのような
血球系に由来する細胞から抽出することができる。
【0018】
「循環腫瘍DNA」又は「ctDNA」という用語は、腫瘍細胞又は他の種類のがん細
胞に由来する核酸フラグメントであって、かつ瀕死細胞のアポトーシス又は壊死などのよ
うな生物学的プロセスの結果として、若しくは生存腫瘍細胞によって活発に放出される個
体の体液(例えば、血液、汗、尿又は唾液)中に放出される核酸フラグメントを指す。
【0019】
「DNAフラグメント」、「フラグメント」、又は「DNA分子」という用語は、一般
に、任意のデオキシリボ核酸フラグメント、すなわち、cfDNA、gDNA、ctDN
Aなどを指す場合がある。
【0020】
「異常なフラグメント」、「異常なメチル化フラグメント」、又は「異常なメチル化パ
ターンを有するフラグメント」という用語は、CpG部位の異常なメチル化を有するフラ
グメントを指す。フラグメントの異常なメチル化は、対照グループ中のフラグメントのメ
チル化パターンを観察することの意外性を同定するために、確率モデルを使用して判定す
る場合がある。
【0021】
「極端にメチル化された普通ではないフラグメント」又は「UFXM」という用語は、
ハイポメチル化フラグメント又はハイパーメチル化フラグメントを意味する。ハイポメチ
ル化フラグメント及びハイパーメチル化フラグメントは、それぞれ、メチル化又は非メチ
ル化のある閾値割合(例えば、90%)を超えた少なくともある数のCpG部位(例えば
、5)を有するフラグメントを意味する。
【0022】
「異常スコア」という用語は、そのCpG部位に重なるサンプルからの異常なフラグメ
ント(又は、いくつかの実施態様では、UFXM)の数に基づく、そのCpG部位のスコ
アを指す。異常スコアは、分類のためのサンプルの特徴付けの文脈で使用される。
【0023】
本明細書で使用される場合、「約」又は「ほぼ」という用語は、当業者によって決定さ
れるような特定の値に対する許容誤差範囲内を意味し得、これは、値が測定又は決定され
る方法、例えば、測定システムの限界に部分的に依存し得る。例えば、「約」は、当業者
の慣例により、1標準偏差以上を意味し得る。「約」は、所与の値の±20%、±10%
、±5%、又は±1%の範囲を意味し得る。「約」又は「ほぼ」という用語は、ある値の
1桁以内、5倍以内、又は2倍以内を意味し得る。特定の値が本願及び特許請求の範囲に
記載されているところは、特に断りのない限り、特定の値の許容誤差範囲内を意味する「
約」という用語が想定されるべきである。「約」という用語は、当業者によって一般的に
理解されるような意味を有し得る。「約」という用語は、±10%を指し得る。「約」と
いう用語は、±5%を指し得る。
【0024】
本明細書で使用される場合、用語「生体サンプル」、「患者サンプル」、又は「サンプ
ル」は、対象から採取された任意のサンプルを指し、対象に紐づく生体状態を反映し得、
かつ無細胞DNAを含むものを指す。生体サンプルの例としては、対象の血液、全血液、
血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液を含むが、
これらに限定されるものではない。生体サンプルは、生きている又は死んだ対象から抽出
した任意の組織又は材料を含み得る。生体サンプルは、無細胞サンプルであり得る。生体
サンプルは、核酸(例えば、DNA又はRNA)若しくはそのフラグメントを備え得る。
「核酸」という用語は、デオキシリボ核酸(DNA)、リボ核酸(RNA)、又はそれら
のハイブリッド若しくはフラグメントを指し得る。サンプル中の核酸は、無細胞核酸であ
り得る。サンプルは、液体サンプル又は固体サンプル(例えば、細胞又は組織サンプル)
であり得る。生体サンプルは、血液、血漿、血清、尿、膣液、(例えば、精巣の)水腫か
らの液体、膣洗浄液、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳
首からの排出液、体の異なる部分(例えば、甲状腺、乳房)からの吸引液などのような体
液であり得る。生体サンプルは、便サンプルであり得る。様々な実施態様では、無細胞D
NAについて濃縮された生体サンプル(例えば、遠心分離プロトコルを介して得られた血
漿サンプル)中のDNAの大部分は、無細胞であり得る(例えば、DNAの50%、60
%、70%、80%、90%、95%、又は99%より大きいものは、細胞を含まないも
のであり得る)。生体サンプルは、組織又は細胞構造を物理的に破壊するように処理する
ことができ(例えば、遠心分離及び/又は細胞溶解)、このようにして、細胞内成分を、
分析用のサンプルを調製するために使用できる酵素、緩衝液、塩、界面活性剤などを更に
含むことができる溶液中に放出する。
【0025】
本明細書で使用される場合、用語「対照」、「対照サンプル」、「参照」、「参照サン
プル」、「正常」、及び「正常サンプル」は、特定の状態を有しない、又はその他の健康
である対象からのサンプルを説明する。一例では、本明細書に開示されるような方法は、
腫瘍を有する対象に対して行なわれ得、参照サンプルは、対象の健康な組織から採取され
たサンプルである。参照サンプルは、対象、又はデータベースから得ることができる。参
照は、例えば、対象からのサンプルのシークエンシングから得られた核酸フラグメントシ
ークエンスをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生
体サンプル及び構造サンプルからの核酸フラグメントシークエンスがアラインメントされ
比較することができる、ハプロイド又はディプロイドゲノムを指し得る。構造サンプルの
例としては、対象から得られた白血球のDNAであり得る。ハプロイドゲノムについては
、各遺伝子座において1つだけヌクレオチドが存在することができる。ディプロイドゲノ
ムについては、ヘテロ接合性遺伝子座を同定することができ、各ヘテロ接合性遺伝子座は
2つの対立遺伝子を有することができ、ここで、いずれかの対立遺伝子が遺伝子座へのア
ライメントのためのマッチングを可能にし得る。
【0026】
本明細書で使用する場合、「がん」又は「腫瘍」という用語は、組織の異常な塊で、そ
の塊の成長が正常な組織の成長を上回り、かつ調和できないものを指す。
【0027】
本明細書で使用される場合、「健康な」という語句は、良好な健康状態を有している対
象を指す。健康な対象は、いかなる悪性疾患又は非悪性疾患もないことを示し得る。「健
康な個体」は、アッセイされている状況とは無関係な他の疾患又は状況を有し得、通常、
「健康」とは見なされない。
【0028】
本明細書で使用する場合、「メチル化」という用語は、シトシン塩基のピリミジン環上
の水素原子がメチル基に変換され、5-メチルシトシンを形成するデオキシリボ核酸(D
NA)の変更を指す。とりわけ、メチル化は、本明細書では「CpG部位」と呼ぶシトシ
ン及びグアニンのジヌクレオチドで起こる傾向がある。他の実例では、メチル化はCpG
部位以外のシトシン又はシトシンではない他のヌクレオチドで起こることがあるが、しか
しながら、これはまれな現象である。異常なcfDNAのメチル化は、ハイパーメチル化
又はハイポメチル化として同定することができ、いずれもがんの状態を示す場合がある。
DNAメチル化異常は(健康な対照と比較して)異なる作用を引き起こし、がんに寄与す
る場合がある。本明細書に説明される原理は、非シトシンメチル化を含むCpGコンテキ
スト及び非CpGコンテキストでのメチル化の検出にも同様に適用可能である。さらに、
メチル化状態ベクトルは、一般にメチル化が起こった部位又は起こらなかった部位のベク
トルである要素を包含する場合がある(それらの部位が特にCpG部位でないとしても)
。
【0029】
本明細書で互換的に使用されるように、「メチル化フラグメント」又は「核酸メチル化
フラグメント」という用語は、核酸(例えば、核酸分子及び/又は核酸フラグメント)の
メチル化シークエンシングによって決定される複数のCpG部位中の各CpG部位に対s
jrjメチル化状態のシークエンスを指す。メチル化フラグメントでは、核酸フラグメン
ト中の各CpG部位についての位置及びメチル化状態が、参照ゲノムに対するシークエン
スリード(例えば、核酸のシークエンシングから得られたもの)のアラインメントに基づ
いて決定される。核酸メチル化フラグメントは、複数のCpG部位中の各CpG部位のメ
チル化状態(例えば、メチル化状態ベクトル)を備え、参照ゲノム中の核酸フラグメント
の位置(例えば、CpGインデックス、又は他の同様のメトリックを使用して核酸フラグ
メント中の最初のCpG部位の場所によって特定される)及び核酸フラグメント中のCp
G部位数を特定する。シークエンスリードの参照ゲノムへのアライメントは、核酸分子の
メチル化シークエンシングに基づいて、CpGインデックスを使用して行われ得る。本明
細書で使用する場合、「CpGインデックス」という用語は、ヒト参照ゲノムなどのよう
な参照ゲノム中の複数のCpG部位(例えば、CpG1、CpG2、CpG3など)の各
CpG部位のリストを指し、電子フォームであることができる。CpGインデックスは、
CpGインデックス中の各それぞれのCpG部位について、対応する参照ゲノム中の対応
するゲノム位置を更に備える。このようにして、各それぞれの核酸メチル化フラグメント
中の各CpG部位は、それぞれの参照ゲノム中の特定の位置にインデックスされ、これは
、CpGインデックスを使用して決定することができる。
【0030】
本明細書で使用される場合、「真陽性」(TP)という用語は、状況を有する対象を指
す。「真陽性」は、腫瘍、がん、前がん状況(例えば、前がん病変)、限局性又は転移性
がん、若しくは非悪性疾患を有する対象を指し得る。「真陽性」は、状況を有する対象を
指し得、かつ本開示のアッセイ又は方法によって状況を有するとして同定される。本明細
書で使用される場合、「真性陰性」(TN)という用語は、状況を有さない、又は検出可
能な状況を有さない対象を指す。真陰性は、腫瘍、がん、前がん状況(例えば、前がん病
変)、限局性又は転移性がん、非悪性疾患、若しくはその他の健康である対象などのよう
な疾患若しくは検出可能な疾患を有していない対象を指し得る。真陰性は、状況を有さな
い、検出可能な状況を有さない、若しくは本開示のアッセイ又は方法によって状況を有さ
ないことが同定される対象を指し得る。
【0031】
本明細書で使用される場合、「参照ゲノム」という用語は、部分的であるか完全である
かにかかわらず、対象からの同定されたシークエンスを参照するために使用される場合が
ある、任意の生物又はウイルスの任意の特定の既知のシークエンシング若しくは特徴付け
られたゲノムを指す。ヒトの対象と同様に他の多くの生物にも使用される例示的な参照ゲ
ノムは、国立生物工学情報センター(NCBI)又はカリフォルニア大学サンタクルーズ
校(UCSC)がホストするオンラインゲノムブラウザで提供される。「ゲノム」は、核
酸シークエンスで表現される、生物又はウイルスの完全な遺伝情報を指す。本明細書で使
用される場合、参照シークエンス又は参照ゲノムは、多くの場合、個体又は多数の個体か
ら組み立てられた若しくは部分的に組み立てられたゲノムシークエンスである。いくつか
の実施態様において、参照ゲノムは、1つ以上のヒト個体からの組み立てられた又は部分
的に組み立てられたゲノムシークエンスである。参照ゲノムは、種の遺伝子のセットの代
表例として見ることができる。いくつかの実施態様において、参照ゲノムは、染色体に割
り当てられたシークエンスを備える。例示的なヒト参照ゲノムには、NCBIビルド34
(UCSC相当:hg16)、NCBIビルド35(UCSC相当:hg17)、NCB
Iビルド36.1(UCSC相当:hg18)、GRCh37(UCSC相当:hg19
)、及びGRCh38(UCSC相当:hg38)を含むがこれらに限られるわけではな
い。
【0032】
本明細書で使用される場合、用語「シークエンスリード」又は「リード」は、本明細書
で説明する、又は当該技術分野で既知の任意のシークエンシングプロセスによって生成さ
れるヌクレオチドシークエンスを指す。リードは、核酸フラグメントの一端から作り出す
ことができ(「シングルエンドリード」)、そして時には核酸の両端から生成される(例
えば、ペアエンドリード、ダブルエンドリード)。いくつかの実施態様において、シーク
エンスリード(例えば、シングルエンドリード又はペアエンドリード)は、標的核酸フラ
グメントの片方の鎖又は両方の鎖から生成することができる。シークエンスリードの長さ
は、しばしば、特定のシークエンシング技術に紐づけられる。例えば、ハイスループット
法は、数十から数百の塩基対(bp)の大きさで変化することができるシークエンスリー
ドを提供する。いくつかの実施態様では、シークエンスリードは、約15bp~約900
bpの長さの平均、中央値又は平均長(例えば、約20bp、約25bp、約30bp、
約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65b
p、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約1
00bp、約110bp、約120bp、約130、約140bp、約150bp、約2
00bp、約250bp、約300bp、約350bp、約400bp、約450bp、
又は約500bpである。いくつかの実施態様では、シークエンスリードは、約1000
bp、2000bp、5000bp、10,000bp、又は50,000bp以上の平
均、中央値、又は平均長である。ナノポアシークエンシングは、例えば、数十から数百、
数千の塩基対の大きさで変化することができるシークエンスリードを提供することができ
る。イルミナパラレルシークエンスは、それほど変化しないシークエンスリードを提供す
ることができ、例えば、シークエンスリードの大部分は200bpより小さくなり得る。
シークエンスリード(又はシークエンシングリード)は、核酸分子(例えば、ヌクレオチ
ドの列)に対応するシークエンス情報を指すことができる。例えば、シークエンスリード
は、核酸フラグメントの一部からのヌクレオチドの列(例えば、約20~約150)に対
応することができ、核酸フラグメントの一端又は両端のヌクレオチドの列に対応すること
ができ、若しくは核酸フラグメント全体のヌクレオチドに対応することができる。シーク
エンスリードは、例えば、シークエンシング技術を使用する、又は、例えば、ハイブリダ
イゼーションアレイ又はキャプチャプローブにおいて、若しくはポリメラーゼ連鎖反応(
PCR)若しくは単一のプライマー又は等温増幅を使用する線形増幅などのような増幅技
術といったプローブを使用する様々な方法で、得ることができる。
【0033】
本明細書で使用される「シークエンシング」等の用語は、核酸又はタンパク質などのよ
うな生体高分子の順序を決定するために使用される場合がある任意の及び全ての生化学的
プロセスを一般に指す。例えば、シークエンシングデータは、DNAフラグメントなどの
ような核酸分子中のヌクレオチド塩基の全て又は一部を含むことができる。
【0034】
本明細書で使用される場合、用語「シークエンス深度」は、用語「カバレッジ」と交換
可能に使用され、かつ遺伝子座にアライメントされる固有の核酸標的分子に対応するコン
センサスシークエンスリードによって遺伝子座が覆われる回数を指し、例えば、シークエ
ンス深度は、遺伝子座を覆う固有の核酸標的分子の数と同じである。遺伝子座は、ヌクレ
オチドと同じくらい小さくてもよく、染色体アームと同じくらい大きくてもよく、又はゲ
ノム全体と同じくらい大きくてもよい。シークエンス深度は、「Y倍」、例えば、50倍
、100倍等として表すことができ、ここで、「Y」は、核酸標的に対応するシークエン
スで遺伝子座を覆う回数、例えば、特定の遺伝子座を覆う独立シークエンス情報が得られ
る回数を指す。いくつかの実施態様において、シークエンス深度は、シークエンシングさ
れたゲノムの数に対応する。シークエンス深度は、多数の遺伝子座、又は全ゲノムに適用
することもでき、その場合、Yは、遺伝子座又はハプロイドゲノム、若しくは全ゲノムが
それぞれシークエンシングされた回数の平均又は平均回数を指し得る。平均深度が引用さ
れているとき、データセットに含まれる異なる遺伝子座の実際の深度は、値の範囲にまた
がる可能性がある。超深度シークエンシングは、遺伝子座におけるシークエンス深度が少
なくとも100倍であることを指し得る。
【0035】
本明細書で使用する場合、「感度」又は「真陽性率」(TPR)という用語は、真陽性
の数を真陽性及び偽陰性の数の合計によって除したものを指す。感度は、状況を真に有す
る集団の割合を正しく同定するアッセイ又は方法の能力を特徴付けることができる。例え
ば、感度は、がんを有する集団内の対象の数を正しく同定する方法の能力を特徴付けるこ
とができる。別の例では、感度は、がんを示す1つ以上のマーカーを正しく同定する方法
の能力を特徴付けることができる。
【0036】
本明細書で使用される場合、「特異度」又は「真陰性率」(TNR)という用語は、真
陰性の数を真陽性及び偽陽性の数の合計によって除したものを指す。特異性は、ある状態
を本当に有していない集団の割合を正しく同定するアッセイ又は方法の能力を特徴付ける
ことができる。例えば、特異性は、がんを持たない集団内の対象の数を正しく同定する方
法の能力を特徴付けることができる。別の例では、特異性は、がんを示す1つ以上のマー
カーを正しく同定する方法の能力を特徴付ける。
【0037】
本明細書で使用する場合、用語「対象」は、ヒト(例えば、男性の人、女性の人、胎児
、妊娠中の女性、又は子供など)、非ヒト動物、植物、細菌、真菌、又は原生生物を含む
がこれらに限定されない、任意の生物若しくは非生物のことを指す。任意のヒト又は非ヒ
ト動物は対象として扱うことができ、これには、哺乳類、爬虫類、鳥類、両生類、魚類、
無蹄類、反芻動物、ウシ属(例えば、牛)、ウマ属(例えば、馬)、ヤギ亜科及びオビー
ン(例えば、羊、山羊)、ブタ亜種(例えば、豚)、ラクダ科(例えば、ラクダ、ラマ、
アルパカ)、サル、類人猿(例えば、ゴリラ、チンパンジー)、クマ科(例えば、熊)、
鶏、犬、猫、マウス、ラット、魚、イルカ、クジラ、及びサメを含むがこれらに限定され
ない。いくつかの実施態様において、対象は、任意のステージの男性又は女性(例えば、
大人の男性、大人の女性、又は子供)である。サンプルが採取される、若しくは本明細書
に記載の方法又は構成のいずれかによって取り扱われる対象は、任意の年齢であることが
でき、成人、乳児、又は子供とすることができる。
【0038】
本明細書で使用される場合、用語「組織」は、機能単位として一緒にグループ化される
細胞のグループに対応し得る。1つ以上のタイプの細胞が、単一の組織に見出され得る。
異なるタイプの組織は、異なるタイプの細胞(例えば、肝細胞、肺胞細胞又は血球細胞)
から構成される場合があるが、異なる生物(母親対胎児)からの組織又は健康な細胞対腫
瘍細胞に対応することも可能である。「組織」という用語は、一般的に、人体に見られる
任意の細胞群(例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、咽頭組織)を指すこ
とができる。いくつかの態様において、用語「組織」又は「組織タイプ」は、無細胞核酸
から発生する組織を指すために使用される場合がある。一例では、ウイルス核酸フラグメ
ントは血液組織に由来する可能性がある。別の例では、ウイルス核酸フラグメントは、腫
瘍組織に由来する可能性がある。
【0039】
本明細書で使用する場合、「ゲノム」という用語は、生物のゲノムの特性を指す。ゲノ
ム特性の例には、ゲノムの全部又は一部の一次核酸シークエンス(例えば、ヌクレオチド
多型、インデル、シークエンス転位、変異頻度などの有無)に関するもの、ゲノム内の1
つ以上の特定のヌクレオチドシークエンスのコピー数(例えば、コピー数、対立遺伝子頻
度分率、単一染色体又はゲノム全体の倍率など)、ゲノムの全部又は一部のエピジェネテ
ィック状態(例えば、メチル化などのような共有結合核酸修飾、ヒストン修飾、ヌクレオ
ソーム位置関係など)、生物のゲノムの発現プロファイル(例えば、遺伝子発現レベル、
アイソタイプ発現レベル、遺伝子発現比率など)を含むが、これに限定されない。
【0040】
本明細書で使用される用語は、特定の場合を説明する目的のみのものであり、限定する
ことを意図するものではない。本明細書で使用される場合、単数形「a」、「an」及び「t
he」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される
。さらに、「含んでいる」、「含む」、「有している」、「有する」、「有して」、又は
その変形が詳細な説明及び/又は特許請求の範囲のいずれかで使用される限り、そのよう
な用語は、用語「備える」と同様の方法で包含することを意図している。
【0041】
II.サンプル処理
【0042】
II.A.DNAフラグメントのメチル化状態ベクトルの作製
【0043】
図1Aは、1つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞(c
f)DNAのフラグメントをシークエンシングするプロセス100を説明する例示的なフ
ローチャートである。DNAメチル化を分析するために、分析システムは、まず、複数の
cfDNA分子を含む個体からサンプルを得る(110)。一般に、サンプルは、健康な
個体、がんを有することが知られている又はがんを有することが疑われる対象、若しくは
事前に情報が知られていない対象からのものであってよい。テストサンプルは、血液、血
漿、血清、尿、糞便、及び唾液サンプルからなる群から選択されるサンプルであってよい
。代替的に、テストサンプルは、全血、血液画分(例えば、白血球(WBC))、組織生
検、胸水、心嚢液、脳脊髄液、及び腹膜液からなる群から選択されるサンプルを含んでい
てもよい。追加の実施態様では、プロセス100は、他のタイプのDNA分子のシークエ
ンスが適用されてもよい。
【0044】
サンプルから、分析システムは、各cfDNA分子を単離することができる。cfDN
A分子は、非メチル化シトシンをウラシルに変換するように処理することができる。一実
施態様では、本方法は、メチル化シトシンを変換することなく非メチル化シトシンをウラ
シルに変換するDNAの重亜硫酸塩処理を使用する。例えば、EZ DNA MethylationTM-Gol
d、EZ DNA MethylationTM-Direct又はEZ DNA MethylationTM-Lightningキット(Zymo Res
earch Corp (Irvine, CA)から入手可能)などのような市販キットが、重亜硫酸塩変換の
ために使用される。別の実施態様では、非メチル化シトシンのウラシルへの変換は、酵素
反応を使用して達成される。例えば、変換は、APOBEC-Seq(NEBiolabs, Ipswich, MA)な
どのような非メチル化シトシンのウラシルへの変換のための市販で利用可能なキットを使
用することができる。
【0045】
変換されたcfDNA分子から、シークエンシングライブラリーを調製することができ
る(130)。ライブラリー調製中、アダプターライゲーションを通じて、核酸分子(例
えば、DNA分子)に固有の分子識別子(UMI)を付加することができる。UMIは、
アダプターライゲーション中にDNAフラグメントの末端(例えば、物理的剪断、酵素消
化、及び/又は化学的フラグメント化によってフラグメント化されたDNA分子)に付加
される短い核酸シークエンス(例えば、4~10塩基対)とすることができる。UMIは
、特定のDNAフラグメントから発生するシークエンスリードを同定するために使用でき
る固有のタグとして役に立つ縮退塩基対とすることができる。アダプターライゲーション
に続くPCR増幅中に、UMIは、付着したDNAフラグメントとともに複製することが
可能である。これは、下流の分析において、同じ元のフラグメントからくるシークエンス
リードを同定する方法を提供し得る。
【0046】
オプションで、シークエンシングライブラリーは、複数のハイブリダイゼーションプロ
ーブを使用するがんの状態に対する有益なcfDNA分子、又はゲノム領域について濃縮
してもよい(135)。ハイブリダイゼーションプローブは、特に指定されたcfDNA
分子、又は標的領域にハイブリダイズし、かつその後のシークエンシング及び分析のため
にそれらのフラグメント又は領域を濃縮することができる短いオリゴヌクレオチドとする
ことができる。ハイブリダイゼーションプローブは、研究者が関心を持つ特定のCpG部
位のセットを標的とした高深度分析を行うために使用することができる。ハイブリダイゼ
ーションプローブは、1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍
、又は10倍以上のカバレッジで1つ以上の標的シークエンスにわたって並べることがで
きる。例えば、2倍のカバレッジで並べたハイブリダイゼーションプローブは、標的シー
クエンスの各部分が2つの独立したプローブとハイブリダイズするように、重なり合うプ
ローブを備える。ハイブリダイゼーションプローブは、1倍未満のカバレッジで1つ以上
の標的シークエンスにわたって並べることができる。
【0047】
一実施態様において、ハイブリダイゼーションプローブは、非メチル化シトシンをウラ
シルに変換するために処理(例えば、重亜硫酸塩を使用)されたDNA分子を濃縮するよ
うに設計される。濃縮の間、ハイブリダイゼーションプローブ(本明細書では「プローブ
」とも呼ばれる)は、がん(又は疾患)の有無、がんの状態、若しくはがんの分類につい
て有益な(例えば、がんクラス又は発生組織)核酸フラグメントを標的にし、かつ引き落
とすために使用することができる。プローブは、DNAの標的(相補的)鎖にアニーリン
グ(又はハイブリダイズ)するように設計されてもよい。標的鎖は、「陽性」鎖(例えば
、mRNAに転写され、その後タンパク質に翻訳される鎖)、又は相補的な「陰性」鎖で
あってもよい。プローブの長さは、10、100、又は1000塩基対の範囲としてもよ
い。プローブは、メチル化部位パネルに基づいて設計することができる。特定のがん又は
他の種類の疾患に対応すると疑われる(例えば、ヒト又は他の生物の)特定の変異又はゲ
ノムの標的領域を分析するために、標的遺伝子のパネルに基づいてプローブを設計するこ
とができる。くわえて、プローブは、標的領域の重なり合う部分をカバーしてもよい。
【0048】
一旦調製されると、シークエンシングライブラリー又はその一部を、複数のシークエン
スリードを得るためにシークエンシングすることができる。シークエンスリードは、コン
ピュータソフトウェアによる処理及び解釈のために、コンピュータ読み取り可能なデジタ
ルフォーマットであってもよい。シークエンスリードは、アライメント位置情報を決定す
るために参照ゲノムにアライメントされてもよい。アラインメント位置情報は、所与のシ
ークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノ
ム内の領域の開始位置及び終了位置を示してもよい。アラインメント位置情報はまた、開
始位置及び終了位置から決定することができるシークエンスリードの長さを含んでもよい
。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに紐づいてもよい。シークエン
スリードは、R1及びR2と表記されるリードペアで構成することができる。例えば、第
1のリードR1は核酸フラグメントの第1の末端からシークエンスされてもよく、一方で
第2のリードR2は核酸フラグメントの第2末端からシークエンスされてもよい。それゆ
えに、第1のリードR1及び第2のリードR2のヌクレオチド塩基対は、参照ゲノムのヌ
クレオチド塩基と一貫して(例えば、反対の向きで)アライメントされる場合がある。リ
ードペアR1及びR2に由来するアラインメント位置情報は、第1のリード(例えば、R
1)の末端に対応する参照ゲノム中の開始位置、及び第2のリード(例えば、R2)の末
端に対応する参照ゲノム中の終了位置を含んでもよい。言い換えれば、参照ゲノム中の開
始位置及び終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性の高い位置を
表すことができる。SAM(シークエンスアライメントマップ)形式又はBAM(バイナ
リ)形式を有する出力ファイルを生成し、メチル化状態決定などのようなさらなる分析の
ために出力してもよい。
【0049】
分析システムは、シークエンスリードから、参照ゲノムとのアライメントに基づいて、
各CpG部位の位置及びメチル化状態を判定する(150)。分析システムは、各フラグ
メントに対して、参照ゲノム中のフラグメントの位置(各フラグメント中の第1のCpG
部位の位置、又は別の同様の指標によって特定される)、フラグメント中のCpG部位の
数、及びフラグメント中の各CpG部位のメチル化(例えば、Mとして表記)、非メチル
化(例えば、Uとして表記)又は不定(例えば、Iとして表記)を特定する各フラグメン
トのメチル化状態ベクトルを生成する(160)。観察された状態は、メチル化及び非メ
チル化の状態であり、一方、観察されない状態は、不確定である。不確定なメチル化状態
は、シークエンシングエラー及び/又はDNAフラグメントの相補鎖のメチル化状態間の
不一致が元である場合がある。メチル化状態ベクトルは、後の使用及び処理のために、一
時的又は持続的なコンピュータメモリに格納されてもよい。さらに、分析システムは、単
一のサンプルから重複するリード又は重複するメチル化状態ベクトルを除去してもよい。
分析システムは、1つ以上のCpG部位を有するあるフラグメントが、閾値の数又はパー
センテージを超える不確定なメチル化状態を有すると判定してもよく、かつそのようなフ
ラグメントを除外、又はそのようなフラグメントを選択的に含むが、そのような不確定メ
チル化状態を考慮するモデルを構築してもよい。そのようなモデルの1つが
図4と併せて
以下に説明されることになる。
【0050】
図1Bは、1つ以上の実施態様による、メチル化状態ベクトルを得るためにcfDNA
分子をシークエンシングする
図1Aのプロセス100の例示的な図である。一例として、
分析システムは、この例では、3つのCpG部位を包含するcfDNA分子112を受信
する。示すように、cfDNA分子112の第1及び第3のCpG部位は、メチル化され
ている(114)。処理ステップ120の間、cfDNA分子112は、変換されたcf
DNA分子122を生成するために変換される。処理120の間、メチル化されていない
第2のCpG部位は、そのシトシンがウラシルに変換される。しかしながら、第1及び第
3のCpG部位は変換されなくてもよい。
【0051】
変換後、シークエンスリード142を生成するために、シークエンシングライブラリー
130を調製、及びシークエンシングを行なう(140)。分析システムは、シークエン
スリード142を参照ゲノム144にアライメントする(150)。参照ゲノム144は
、フラグメントcfDNAがヒトゲノム中のどの場所を元としているかについての文脈を
提供する。この単純化された例では、分析システムは、3つのCpG部位がCpG部位2
3、24、及び25(説明の便宜のために使用される任意の参照識別子)に相関するよう
にシークエンスリード142をアライメントする。このようにして、分析システムは、c
fDNA分子112上の全てのCpG部位のメチル化状態、及びCpG部位がマッピング
されるヒトゲノム中の位置の両方に関する情報を生成することができる。示すように、メ
チル化されたシークエンスリード142上のCpG部位は、シトシンとして読み取られる
。この例では、シトシンはシークエンスリード142中の第1及び第3のCpG部位のみ
に現れており、これは、元のcfDNA分子中の第1及び第3のCpG部位がメチル化さ
れると推測させられる。一方、第2のCpG部位はチミンとして読み取ることができ(U
はシークエンシングプロセス中にTに変換される)、かつこのように、第2のCpG部位
は元のcfDNA分子で非メチル化されると推論することができる。これら2つの情報、
メチル化状態及び位置を用いて、分析システムは、フラグメントcfDNA112のメチ
ル化状態ベクトル152を160生成する。この例では、結果として生じるメチル化状態
ベクトル152は<M23、U24、M25>であり、ここで、Mはメチル化されたCp
G部位に対応し、Uは非メチル化されたCpG部位に対応し、かつ下付き数字は参照ゲノ
ム中の各CpG部位の場所に対応する。
【0052】
生体サンプル中の核酸からシークエンスリードを得るために、1つ以上の代替的なシー
クエンシング方法を使用することができる。1つ以上のシークエンシング方法は、核酸(
例えば、無細胞核酸)から測定されたシークエンスリードの数を得るために使用できる任
意の形式のシークエンシングを備えることができ、これには、Roche454プラットフォーム
、Applied Biosystems SOLIDプラットフォーム、Helicos True Single Molecule DNAシー
クエンシング技術、Affymetrix Incのシークエンシング-ハイブリッド化プラットフォー
ム、一分子、リアルタイム(SMRT)技術、454Life Sciencesのシーケンシングバイシ
ンセシス(合成)プラットフォーム、イルミナ/Solexa及びHelicos Biosciences、並び
にApplied Biosystemsのシーケンシングバイライゲーションプラットフォームなどのよう
な高処理シークエンシングシステムを含むが、これに限定はされない。Life technologie
sのION TORRENTテクノロジー、及びNanoporeシークエンシングもまた、生体サンプル中の
核酸(例えば無細胞核酸)からシークエンスリードを得るために使用することができる。
シーケンシングバイシンセシス及び可逆的ターミネーターベースのシーケンシング(例え
ば、イルミナのゲノムアナライザー、ゲノムアナライザーII、HISEQ2000、HISEQ2500(
イルミナ、サンディエゴカリフォルニア))は、遺伝子型データセットを形成するために
、訓練対象の生体サンプルから得られた無細胞核酸からシークエンスリードを得るために
使用することができる。数百万の無細胞核酸(例えば、DNA)フラグメントを並行して
シークエンシングすることができる。このタイプのシークエンシング技術の一例として、
表面上にオリゴヌクレオチドアンカー(例えば、アダプタープライマー)が結合された8
つの個別レーンを有する光学的に透明なスライドを包含するフローセルが使用される。無
細胞核酸サンプルは、検出を容易にする信号又はタグを含むことができる。生体サンプル
から得られた無細胞核酸からのシークエンスリードの取得は、例えば、フローサイトメト
リー、定量ポリメラーゼ連鎖反応(qPCR)、ゲル電気泳動、遺伝子チップ分析、マイ
クロアレイ、質量分析、サイトフルオロメトリック分析、蛍光顕微鏡、共焦点レーザー走
査顕微鏡、レーザー走査サイトメトリ、アフィニティークロマトグラフィー、手動バッチ
モード分離、電界懸濁、シークエンシング、及びこれらの組み合わせなどのような様々な
技法を介して信号又はタグの定量情報を得ることを含むことができる。
【0053】
1つ以上のシークエンシング方法は、全ゲノムシークエンシングアッセイを備えること
ができる。全ゲノムシークエンスアッセイは、コピー数変動又はコピー数異常などのよう
な大きな変動を決定するために使用することができる全ゲノム又は全ゲノムのかなりの部
分についてシークエンスリードを生成する物理的アッセイを備えることができる。このよ
うな物理的アッセイは、全ゲノムシークエンス技術又は全エクソームシークエンス技術を
採用してもよい。全ゲノムシークエンスアッセイは、テスト対象のゲノムに渡って少なく
とも1倍、2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、少なくとも20
倍、少なくとも30倍、又は少なくとも40倍の平均シークエンス深度を有することがで
きる。いくつかの実施態様では、シークエンス深度が、約30,000倍である。1つ以
上のシークエンシング方法は、標的化パネルシークエンシングアッセイを備えることがで
きる。標的化パネルシークエンスアッセイは、遺伝子の標的化パネルに対して、少なくと
も50,000倍、少なくとも55,000倍、少なくとも60,000倍、又は少なく
とも70,000倍の平均シークエンス深度を有することができる。遺伝子の標的化パネ
ルは、450~500個の間の遺伝子を含むことができる。遺伝子の標的化パネルは、5
00±5遺伝子の範囲、500±10遺伝子の範囲、又は500±25遺伝子の範囲を含
むことができる。
【0054】
1つ以上のシークエンシング方法は、ペアエンドシークエンシングを備えることができ
る。1つ以上のシークエンシング方法は、複数のシークエンスリードを生成することがで
きる。複数のシークエンスリードは、10~600の間、50~400の間、又は100
~300の間の範囲の平均長さを有することができる。1つ以上のシークエンシング方法
は、メチル化シークエンシングアッセイを備えることができる。メチル化シークエンシン
グは、i)全ゲノムメチル化シークエンシング、又はii)複数の核酸プローブを使用し
た標的DNAメチル化シークエンシングとすることができる。例えば、メチル化シークエ
ンシングは、全ゲノムビスルファイトシークエンシング(例えば、WGBS)である。メ
チル化シークエンシングは、メチロームの最も情報を与える領域、固有のメチル化データ
ベース、並びに先行するプロトタイプの全ゲノム及び標的シークエンシングアッセイを標
的とする複数の核酸プローブを使用した標的DNAメチル化シークエンシングとすること
ができる。
【0055】
メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の1つ以上の5
-メチルシトシン(5mC)及び/又は5-ヒドロキシメチルシトシン(5hmC)を検
出し得る。メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の1つ
以上の非メチル化されたシトシン又は1つ以上のメチル化されたシトシンを、対応する1
つ以上のウラシルに変換することを備えることができる。1つ以上のウラシルは、1つ以
上の対応するチミンとして、メチル化シークエンシング中に検出することができる。1つ
以上の非メチル化されたシトシン又は1つ以上のメチル化されたシトシンの変換は、化学
的変換、酵素的変換、又はそれらの組み合わせを備えることができる。
【0056】
例えば、重亜硫酸塩変換は、メチル化されたシトシン(例えば、5-メチルシトシン又
は5-mC)をそのままにする一方で、シトシンをウラシルに変換することを伴う。いく
つかのDNAでは、約95%のシトシンがDNA中でメチル化されていない場合があり、
かつ結果として生じるDNAフラグメントは、チミンによって表される多くのウラシルを
含む場合がある。シークエンシング前の核酸の処理には、酵素変換プロセスを使用しても
よく、これは様々な方法で行うことができる。ビスサルファイトフリー変換の一例は、非
修飾シトシンに影響を与えずに5-メチルシトシン及び5-ヒドロキシメチルシトシンを
破壊せずかつ直接検出するためのビスサルファイトフリー及び塩基分解能シークエンシン
グ法、TET-アシストピリジンボランシークエンシング(TAPS)を備える。それぞ
れの核酸メチル化フラグメント中の対応する複数のCpG部位のメチル化状態を、メチル
化シークエンスによってCpG部位がメチル化されていると判定されたときにメチル化と
することができ、メチル化シークエンスによってCpG部位がメチル化されていないと判
定された場合には非メチル化とすることができる。
【0057】
メチル化シークエンシングアッセイ(例えば、WGBS及び/又は標的メチル化シーク
エンシング)は、約1,000倍、2,000倍、3,000倍、5,000倍、10,
000倍、15,000倍、20,000倍、又は30,000倍までを含むがこれに限
定されない平均シークエンス深度を有することができる。メチル化シークエンシングは、
30,000倍より大きい、例えば、少なくとも40,000倍又は50,000倍であ
るシークエンス深度を有することができる。全ゲノムバイサルファイトシークエンス法は
、20倍~50倍の間の平均シークエンス深度を有することができ、かつ標的メチル化シ
ークエンス法は、100倍~1000倍の間の平均有効深度を有し、有効深度は、標的メ
チル化シークエンスによって得られた同じ数のシークエンスリードを得るための等価全ゲ
ノムバイサルファイトシークエンスカバレッジとすることができる。
【0058】
メチル化シークエンシング(例えば、WGBS及び/又は標的メチル化シークエンシン
グ)に関する更なる詳細については、例えば、2018年3月13日に出願された「Meth
ylation Fragment Anomaly Detection」と題する米国特許出願第62/642,480号
、及び2019年12月18日に出願された「Systems and Methods for Estimating Cel
l Source Fractions Using Methylation Information」と題する米国特許出願第16/7
19,902号を参照してよく、その各々が参照によって本明細書に組み込まれる。本明
細書に開示されたもの及び/又はその任意の改変、置換、若しくは組み合わせを含むメチ
ル化シークエンシングのための他の方法は、フラグメントメチル化パターンを得るために
使用することができる。メチル化シークエンシングは、例えば、2019年3月13日に
出願された「Anomalous Fragment Detection and Classification」と題する米国特許出
願第16/352,602号にされているように、又は2020年5月13日に出願され
た「Model-Based Featureization and Classification」と題する米国特許出願第15/
931,022号に記載されているような技術のいずれかに従って1つ以上のメチル化状
態ベクトルを特定するために使用することができ、これらの各々は参照によって本明細書
に組み込まれる。
【0059】
核酸のメチル化シークエンシング及び結果として生じる1つ以上のメチル化状態ベクト
ルは、複数の核酸メチル化フラグメントを得るために使用することができる。各対応する
複数の核酸メチル化フラグメント(例えば、各それぞれの遺伝子型データセットについて
)は、100以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核
酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、1000以上の
核酸メチル化フラグメント、5000以上の核酸メチル化フラグメント、10,000以
上の核酸メチル化フラグメント、20,000以上の核酸メチル化フラグメント、又は3
0,000以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核酸
メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、10,000個の
核酸メチル化フラグメントと50,000個の核酸メチル化フラグメントの間とすること
ができる。対応する複数の核酸メチル化フラグメントは、千以上、1万以上、10万以上
、100万以上、1000万以上、1億以上、5億以上、10億以上、20億以上、30
億以上、40億以上、50億以上、60億以上、70億以上、80億以上、90億以上、
又は100億以上の核酸メチル化フラグメントを含むことができる。対応する複数の核酸
メチル化フラグメントの平均長さは、140~280ヌクレオチドであり得る。
【0060】
核酸のシークエンシング方法及びメチル化シークエンシングデータに関する更なる詳細
は、2020年3月4日に出願された「Systems and Methods for Cancer Condition Det
ermination Using Autoencoders」と題する米国仮特許出願第62/985,258号に
開示されており、その全体が参照により本書に組み込まれる。
【0061】
II.B.異常なフラグメントを同定すること
【0062】
分析システムは、サンプルのメチル化状態ベクトルを使用するサンプルについて異常な
フラグメントを判定することができる。サンプル中の各フラグメントについて、分析シス
テムは、フラグメントがフラグメントに対応するメチル化状態ベクトルを使用する異常な
フラグメントであるかを判定することができる。いくつかの実施態様において、分析シス
テムは、各メチル化状態ベクトルについて、健康な対照群中で更に可能性が低いメチル化
状態ベクトル又は他のメチル化状態ベクトルが観察される確率を記述するp値スコアを計
算する。p値スコアを計算するプロセスは、後ほどセクションII.B.i.P値フィル
タリングで更に説明する。分析システムは、閾値p値スコアを下回るp値を有するメチル
化状態ベクトルを有しているフラグメントを異常なフラグメントとして判定してもよい。
いくつかの実施態様では、分析システムは、ある閾値を超えるメチル化又は非メチル化の
パーセンテージを有する少なくともある数のCpG部位を有するフラグメントを、それぞ
れハイパーメチル化フラグメント及びハイポメチル化フラグメントとして更にラベルする
。ハイパーメチル化フラグメント又はハイポメチル化フラグメントは、極端なメチル化を
有する異常なフラグメント(UFXM)とも呼ばれ得る。いくつかの実施態様において、
分析システムは、異常なフラグメントを判定するための様々な他の確率的モデルを実装し
てもよい。他の確率モデルの例には、混合モデル、深層確率モデル等を含む。いくつかの
実施態様では、分析システムは、異常なフラグメントを同定するために、以下に説明する
プロセスの任意の組合せを使用してもよい。同定された異常なフラグメントを用いて、分
析システムは、他のプロセス、例えば、がん分類器の訓練及び展開に使用するために、サ
ンプルに対するメチル化状態ベクトルのセットをフィルタリングしてもよい。
【0063】
II.B.i.P値フィルタリング
【0064】
いくつかの実施態様では、分析システムは、健康な対照群中のフラグメントからのメチ
ル化状態ベクトルと比較した各メチル化状態ベクトルに対するp値スコアを計算する。p
値スコアは、健康な対照群中で更に可能性が低いメチル化状態ベクトル又は他のメチル化
状態ベクトルにマッチするメチル化状態を観察する確率を記述することができる。DNA
フラグメントが異常にメチル化されていると判定するために、分析システムは、正常にメ
チル化されたフラグメントの大部分を有する健康な対照群を使用することができる。異常
なフラグメントを判定するためにこの確率的分析を実施するとき、判定は、健康な対照群
を構成する対照の対象群と比較して、重みを持つことができる。健常対照群中の頑健性を
確保するために、分析システムは、DNAフラグメントを含むサンプルを提供するために
、いくつかの閾値数の健康な個体を選択してもよい。
図2Aは、分析システムがp値スコ
アを計算し得る、健康な対照群のデータ構造を生成する方法を説明する。
図2Bは、生成
されたデータ構造を用いてp値スコアを計算する方法を説明する。
【0065】
図2Aは、一実施態様による、健康な対照群のデータ構造を生成するプロセス200を
説明するフローチャートである。健常対照群データ構造を生成するために、分析システム
は、複数の健康な個体から複数のDNAフラグメント(例えば、cfDNA)を受信する
ことができる。メチル化状態ベクトルは、例えばプロセス100を介して、各フラグメン
トについて同定することができる。
【0066】
各フラグメントのメチル化状態ベクトルを用いて、分析システムは、メチル化状態ベク
トルをCpG部位の文字列に細分化することができる(205)。いくつかの実施態様で
は、分析システムは、結果として生じる文字列が全て所与の長さ未満であるように、メチ
ル化状態ベクトルを細分化する(205)。例えば、長さ11のメチル化状態ベクトルを
長さ3以下の文字列に細分化してもよく、長さ3の文字列9個、長さ2の文字列10個、
及び長さ1の文字列11個が結果として生じる。別の例では、長さ7のメチル化状態ベク
トルを長さ4以下の文字列に細分化すると、長さ4の文字列4個、長さ3の文字列5個、
長さ2の文字列6個、及び長さ1の文字列7個が結果として生じる。メチル化状態ベクト
ルが指定された文字列長より短い、又は同じ長さである場合、メチル化状態ベクトルは、
ベクトルのすべてのCpG部位を包含する単一の文字列に変換してもよい。
【0067】
分析システムは、ベクトル中の可能性のあるCpG部位及びメチル化状態の可能性各々
について、指定されたCpG部位を文字列中の第1のCpG部位として有し、かつメチル
化状態の可能性を有する対照群に存在する文字列の数を数えることによって文字列を集計
する(210)。例えば、所与のCpG部位において、文字列の長さが3であると考える
と、2^3すなわち8通りの文字列構成の可能性がある。与えられたCpG部位において
、8つの可能な文字列構成の各々について、分析システムは、各メチル化状態ベクトルの
可能性が対照群で何回発生したかを集計する(210)。この例を続けると、これは、以
下の数量< Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 >, . . ., < Ux, Ux+1, Ux+2 >を、参
照ゲノム中の各開始CpG部位xについて集計することを伴い得る。分析システムは、各
開始CpG部位と文字列の可能性について集計されたカウントを格納するデータ構造を作
成する(215)。
【0068】
文字列の長さに上限を設定することには、いくつかの利点がある。第1に、文字列の最
大長に依存して、分析システムによって作成されるデータ構造のサイズが劇的に大きくな
る可能性がある。例えば、最大長文字列が4ということは、すべてのCpG部位が、長さ
4の文字列に対して、最低でも2^4の数を集計することになる。最大文字列長が5に増
加すると、すべてのCpG部位は、追加で2^4又は16の数を集計することになり、集
計する数(及び必要なコンピュータメモリ)が、以前の文字列長と比較して2倍に増加す
ることになる。文字列サイズを小さくすることは、データ構造の作成及び性能(例えば、
後述のような後ほどアクセスするための使用)を、計算的及び格納の観点から、合理的に
保つことができる。第2に、最大文字列長を制限するための統計的な配慮は、文字列カウ
ントを使用する下流モデルのオーバーフィッティングを回避することを可能にする。Cp
G部位の長い文字列が、生物学的に、成果に強い影響を与えない場合(例えば、がんの存
在の予測である異常性の予測)、CpG部位の大きな文字列に基づいて確率を計算するこ
とは、利用できない場合があるかなりの量のデータを使用する問題があり得、かつこのよ
うにモデルを適切に行うには非常にまばらになり得る。例えば、重要な100個のCpG
部位を条件とする異常/がんの確率を計算すると、長さ100のデータ構造中の文字列の
カウントを使用することができ、理想的には重要な100個のメチル化状態に正確にマッ
チするものがある。長さ100の文字列のまばらなカウントが利用可能である場合、テス
トサンプル中の長さ100の与えられた文字列が異常であるかを判定するためのデータが
不十分であり得る。
【0069】
図2Bは、一実施態様による、個体から異常なメチル化されたフラグメントを同定する
ためのプロセス220を説明するフローチャートである。プロセス220において、分析
システムは、対象のcfDNAフラグメントから100個のメチル化状態ベクトルを生成
する。分析システムは、各メチル化状態ベクトルを以下のように扱うことができる。
【0070】
所与のメチル化状態ベクトルについて、分析システムは、メチル化状態ベクトル中の同
じ開始CpG部位及び同じ長さ(すなわち、CpG部位のセット)を有するメチル化状態
ベクトルの全ての可能性を列挙する(230)。各メチル化状態は一般にメチル化又は非
メチル化のいずれかであるので、各CpG部位において事実上2つの可能な状態があり得
、かつこのように、メチル化状態ベクトルの異なる可能性のカウントは、長さnのメチル
化状態ベクトルがメチル化状態ベクトルの2nの可能性に紐づけられるように、2のべき
乗に依存し得る。メチル化状態ベクトルが1つ以上のCpG部位についての不確定な状態
を含む場合には、分析システムは、観察された状態を有するCpG部位のみを考慮してメ
チル化状態ベクトルの可能性を列挙することができる(230)。
【0071】
分析システムは、健康な対照群データ構造体にアクセスすることによって、同定された
開始CpG部位及びメチル化状態ベクトル長に対するメチル化状態ベクトルの各可能性を
観察する確率を計算する(240)。いくつかの実施態様において、所与の可能性を観察
する確率を計算することは、共同確率計算をモデル化するためにマルコフ連鎖確率を使用
する。マルコフモデルは、少なくとも部分的に、対応する複数のCpG部位を有する健康
な非がんコホートデータセット中のそれらの核酸メチル化フラグメントにわたる、それぞ
れのフラグメント(例えば、核酸メチル化フラグメント)の対応する複数のCpG部位中
の各CpG部位のメチル化状態の評価に基づいて訓練することができる。例えば、マルコ
フモデル(例えば、隠れマルコフモデル又はHMM)は、シークエンス中の各状態につい
て、シークエンス中の次の状態を観察する可能性を判定する確率のセットを与えられた複
数の核酸メチル化フラグメント中の核酸メチル化フラグメントに対してメチル化状態のシ
ークエンス(例えば、「M」又は「U」を含む)を観察できる確率を決定するために使用
される。確率のセットは、HMMを訓練することによって得ることができる。そのような
訓練は、観察されたメチル化状態シークエンス(例えば、メチル化パターン)の初期トレ
ーニングデータセットを与えられた統計的パラメータ(例えば、第1の状態が第2の状態
に移行する確率(移行確率)及び/又は所与のメチル化状態がそれぞれのCpG部位につ
いて観察可能な確率(放出確率))の計算を伴うことができる。HMMは、教師付き訓練
(例えば、観察された状態と同様に基礎となるシークエンスが既知であるサンプルを使用
して)並びに/若しくは教師なし訓練(例えば、ビタビ学習、最尤推定、期待値最大化訓
練、及び/又はバウム-ウェルチ訓練)を使用して訓練することができる。他の実施態様
では、メチル化状態ベクトルの各可能性を観察する確率を決定するために、マルコフ連鎖
確率以外の計算方法が使用される。例えば、そのような計算方法は、学習された表現を含
むことができる。p値閾値は、0.01~0.10の間、又は0.03~0.06の間と
することができる。p値閾値は、0.05とすることができる。p値閾値は、0.01未
満、0.001未満、又は0.0001未満とすることができる。
【0072】
分析システムは、各可能性について計算された確率を使用して、メチル化状態ベクトル
のp値スコアを計算する(250)。いくつかの実施態様において、これは、問題のメチ
ル化状態ベクトルにマッチする可能性に対応する計算された確率を特定することを含む。
具体的には、これは、メチル化状態ベクトルと同じCpG部位のセット、又は同様に同じ
開始CpG部位及び長さを有する可能性であり得る。分析システムは、特定された確率以
下の確率を有する任意の可能性の計算された確率を合計して、p値スコアを生成すること
ができる。
【0073】
このp値は、健康な対照群中で、更に低い確率でフラグメントのメチル化状態ベクトル
又は他のメチル化状態ベクトルが観察される確率を表すことができる。低いp値スコアは
、それによって、一般に、健康な個体において稀なメチル化状態ベクトルに対応し、かつ
健康な対照群と比較して、フラグメントが異常にメチル化されているとラベルすることが
できる。高いp値スコアは、一般に、健康な個体において相対的な意味で存在すると予想
されるメチル化状態ベクトルに関連付けることができる。健康対照群が非がん群である場
合、例えば、低いp値は、そのフラグメントが非がん群と比較して異常にメチル化されて
おり、かつそれゆえに、テスト対象中にがんの存在を示唆する可能性があることを示し得
る。
【0074】
上記のように、分析システムは、各々がテストサンプル中のcfDNAフラグメントを
表す複数のメチル化状態ベクトルの各々について、p値スコアを計算することができる。
どのフラグメントが異常にメチル化されているかを同定するために、分析システムは、そ
れらのp値スコアに基づいてメチル化状態ベクトルのセットをフィルタリングしてもよい
(260)。いくつかの実施態様では、フィルタリングは、p値スコアを閾値と比較し、
かつ閾値を下回るフラグメントのみを残すことによって行う。この閾値p値スコアは、0
.1、0.01、0.001、0.0001、又は同様のオーダーにすることができる。
【0075】
プロセス220からの例示的な結果に従って、分析システムは、トレーニングにおいて
がんを有さない参加者について異常なメチル化パターンを有する2,800(1,500
~12,000)の中央値(範囲)のフラグメント、及びトレーニングにおいてがんを有
する参加者について異常なメチル化パターンを有する3,000(1,200~220,
000)の中央値(範囲)のフラグメントを得ることができる。異常なメチル化パターン
を有するフラグメントのこれらのフィルタリングされたセットは、セクションIIIで後
述するように下流分析に使用されてもよい。
【0076】
いくつかの実施態様において、分析システムは、メチル化状態ベクトルの可能性を決定
し、かつp値を計算するために、スライディングウィンドウを使用する(255)。可能
性を列挙し、メチル化状態ベクトル全体に対してp値を計算するのではなく、分析システ
ムは、可能性を列挙し、かつ連続するCpG部位のウィンドウのみについてp値を計算す
ることができ、ここでウィンドウは、少なくともいくつかのフラグメントより(CpG部
位の)長さが短い(さもなければ、ウィンドウは目的を果たさないだろう)。ウィンドウ
の長さは、静的、ユーザーが決定したもの、動的、又はその他の方法で選択されてもよい
。
【0077】
ウィンドウより大きいメチル化状態ベクトルに対するp値を計算する際に、ウィンドウ
は、ベクトル中の最初のCpG部位から始まるウィンドウ内のベクトルからのCpG部位
の連続したセットを同定し得る。分析システムは、第1のCpG部位を含むウィンドウに
対してp値スコアを計算することができる。その後、分析システムは、ウィンドウをベク
トル中の第2のCpG部位に「スライド」させ、かつ第2のウィンドウについて別のp値
スコアを計算することができる。このように、ウィンドウサイズl及びメチル化ベクトル
長mについて、各メチル化状態ベクトルは、m-l+1個のp値スコアを生成することが
できる。ベクトルの各部分についてのp値計算を完了した後、全てのスライディングウィ
ンドウからの最低p値スコアを、メチル化状態ベクトルに対する全体的なp値スコアとし
て採用することができる。いくつかの実施態様において、分析システムは、メチル化状態
ベクトルに対するp値スコアを集約して、全体的なp値スコアを生成する。
【0078】
スライディングウィンドウを使用することは、メチル化状態ベクトルの列挙された可能
性の数、及びそうでなければ行われる必要があるだろうそれらの対応する確率計算を減少
させるのに役立てることができる。現実的な例を挙げると、フラグメントが54個を超え
るCpG部位を持つことがあり得る。単一のpスコアを生成するために2^54(~1.
8×10^16)個の可能性について確率を計算する代わりに、分析システムは、そのフ
ラグメントのメチル化状態ベクトルの50個もウィンドウの各々について50個のp値計
算を生じるサイズ5のウィンドウ(例えば)を代わりに使用することができる。50個の
計算の各々は、メチル化状態ベクトルの2^5(32)の可能性を列挙することができ、
合計で50×2^5(1.6×10^3)の確率計算を生じさせる。これは、異常なフラ
グメントの正確な同定に意味のないヒットで、行われる計算の膨大な減少を生じさせるこ
とができる。
【0079】
不確定状態を有する実施態様において、分析システムは、フラグメントのメチル化状態
ベクトル中の不確定状態を有するCpG部位を合計したp値スコアを計算してもよい。分
析システムは、不確定状態を除くメチル化状態ベクトルの全てのメチル化状態と一致を有
する全ての可能性を特定することができる。分析システムは、特定された可能性の確率の
合計として、メチル化状態ベクトルに確率を割り当ててもよい。一例として、分析システ
ムは、CpG部位1及び3に対するメチル化状態が観測され、かつCpG部位1及び3に
おけるフラグメントのメチル化状態と一致することから、< M1, M2, U3 >及び< M1, U2,
U3 >のメチル化状態ベクトルの可能性についての確率の合計のように< M1, I2, U3 >のメ
チル化状態ベクトルの可能性を算出することができる。不確定状態を有するCpG部位を
合計するこの方法は、2^iまでの可能性の確率の計算を使用することができ、ここでi
は、メチル化状態ベクトル中の不確定状態の数を意味する。追加の実施態様では、動的プ
ログラミングアルゴリズムが、1つ以上の不確定状態を有するメチル化状態ベクトルの確
率を計算するために実装されてもよい。有利には、動的プログラミングアルゴリズムは、
線形計算時間で動作することができる。
【0080】
いくつかの実施態様において、確率及び/又はp値スコアを計算する計算負担は、少な
くともいくつかの計算をキャッシュすることによって更に低減される場合がある。例えば
、分析システムは、メチル化状態ベクトル(又はそのウィンドウ)の可能性についての確
率の計算を一時的又は持続的なメモリにキャッシュしてもよい。他のフラグメントが同じ
CpG部位を有する場合、可能性確率をキャッシュすることは、基礎となる可能性確率を
再計算する必要なく、p-スコア値を効率的に計算させることができる。同等に、分析シ
ステムは、ベクトル(又はそのウィンドウ)からのCpG部位のセットに紐づくメチル化
状態ベクトルの可能性の各々についてp値スコアを計算してもよい。分析システムは、同
じCpG部位を含む他のフラグメントのp値スコアを決定する際に使用するために、p値
スコアをキャッシュしてもよい。一般に、同じCpG部位を有するメチル化状態ベクトル
の可能性のp値スコアは、CpG部位の同じセットからの可能性の異なる1つのp値スコ
アを決定するために使用されてもよい。
【0081】
領域モデル又はがん分類器を訓練する前に、1つ以上の核酸メチル化フラグメントをフ
ィルタリングすることができる。核酸メチル化フラグメントをフィルタリングすることは
、対応する複数の核酸メチル化フラグメントから、1つ以上の選択基準(例えば、1つの
選択基準を下回る又は上回る)を満たすことができない各それぞれの核酸メチル化フラグ
メントを取り除くことを備えることができる。1つ以上の選択基準は、p値閾値を含むこ
とができる。それぞれの核酸メチル化フラグメントの出力p値は、それぞれの核酸メチル
化フラグメントの対応するメチル化パターンを、それぞれの核酸メチル化フラグメントの
対応する複数のCpG部位を有する健康な非がんコホートデータセット中のそれらの核酸
メチル化フラグメントのメチル化パターンの対応分布との比較に基づいて、少なくとも部
分的に決定することができる。
【0082】
複数の核酸メチル化フラグメントをフィルタリングすることは、p値閾値を満たすこと
ができない各それぞれの核酸メチル化フラグメントを除去することを備えることができる
。フィルタは、第1の複数の核酸メチル化フラグメントにわたって観察されたメチル化パ
ターンを使用する各それぞれの核酸メチル化フラグメントのメチル化パターンに適用する
ことができる。各それぞれの核酸メチル化フラグメント(例えば、フラグメント1、..
.、フラグメントN)の各それぞれのメチル化パターンは、1及び0のシークエンスとし
て表されるメチル化部位識別子と対応するメチル化パターンとで同定される対応する1つ
以上のメチル化部位(例えば、CpG部位)を備えることができる。ここで、各「1」は
、1つ以上のCpG部位中のメチル化されたCpG部位を表し、かつ各「0」は、1つ以
上のCpG部位中の非メチル化されたCpG部位を表す。第1の複数の核酸メチル化フラ
グメントにわたって観察されたメチル化パターンは、第1の複数の核酸メチル化フラグメ
ントによって集合的に表されるCpG部位状態(例えば、CpG部位A、CpG部位B、
・・・、CpG部位ZZZ)に対するメチル化状態分布を構築するために使用することが
できる。核酸メチル化フラグメントの処理に関する更なる詳細は、2020年3月4日に
出願された「Systems and Methods for Cancer Condition Determination Using Autoenc
oders」と題する米国仮特許出願第62/985,258号に開示されており、その全体
が参照により本明細書に組み込まれる。
【0083】
それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが異常
メチル化スコア閾値未満である異常メチル化スコアを有するとき、1つ以上の選択基準中
の選択基準を満たすことができない場合がある。この状況では、異常メチル化スコアを、
混合モデルによって決定することができる。例えば、混合モデルは、同じ長さのかつ同じ
対応するゲノム位置における可能なメチル化状態ベクトルの数に基づいて、それぞれの核
酸メチル化フラグメントに対するメチル化状態ベクトル(例えば、メチル化パターン)の
尤度を決定することによって、核酸メチル化フラグメント中の異常なメチル化パターンを
検出することができる。これは、参照ゲノム中の各ゲノム位置において、指定された長さ
のベクトルについて複数の可能なメチル化状態を生成することによって実行することがで
きる。複数の可能なメチル化状態を使用して、可能なメチル化状態の総数、及びそれに続
いて、ゲノム位置における各予測されたメチル化状態の確率を決定することができる。そ
の後、サンプル核酸メチル化フラグメントを予測された(例えば、可能性のある)メチル
化状態にマッチさせ、かつ予測されたメチル化状態の計算された確率を取り出すことによ
って、参照ゲノム内のゲノム位置に対応するサンプル核酸の尤度を決定することができる
。その後、異常なメチル化スコアを、サンプル核酸メチル化フラグメントの確率に基づい
て計算することができる。
【0084】
それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値
未満の数の残基を有するとき、1つ以上の選択基準中の選択基準を満たすことができない
場合がある。残基の閾値の数は、10~50の間、50~100の間、100~150の
間、又は150以上であり得る。閾値の残基数は、20~90の間の固定値であり得る。
それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未
満の数のCpG部位を有するとき、1つ以上の選択基準中の選択基準を満たすことができ
ない場合がある。CpG部位の閾値の数は、4、5、6、7、8、9、又は10であり得
る。それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントのゲ
ノム開始位置及びゲノム終了位置が、それぞれの核酸メチル化フラグメントがヒトゲノム
参照シークエンス中の閾値数未満のヌクレオチドを表すことを示すとき、1つ以上の選択
基準中の選択基準を満たすことができない場合がある。
【0085】
フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フ
ラグメントと同じ対応するメチル化パターン並びに同じ対応するゲノム開始位置及びゲノ
ム終了位置を有する核酸メチル化フラグメントを除去することができる。このフィルタリ
ングステップは、いくつかの例において、PCR重複を含む、完全な重複である冗長なフ
ラグメントを除去することができる。フィルタリングは、対応する複数の核酸メチル化フ
ラグメント中の別の核酸メチル化フラグメントと同じ対応するゲノム開始位置及びゲノム
終了位置を有し、かつ異なるメチル化状態の閾値数未満である核酸メチル化フラグメント
を除去することができる。核酸メチル化フラグメントの保持に使用される異なるメチル化
状態の閾値の数は、1、2、3、4、5、又は5以上とすることができる。例えば、第2
の核酸メチル化フラグメントと同じ対応するゲノム開始位置及び終了位置を有するが、そ
れぞれのCpG部位(例えば、参照ゲノムにアライメントしたもの)において少なくとも
1、少なくとも2、少なくとも3、少なくとも4、又は少なくとも5の異なるメチル化状
態を有する第1の核酸メチル化フラグメントは、保持される。別の例として、同じメチル
化状態ベクトル(例えば、メチル化パターン)を有するが、第2の核酸メチル化フラグメ
ントとして異なる対応するゲノム開始位置及び終了位置を有する第1の核酸メチル化フラ
グメントもまた保持される。
【0086】
フィルタリングは、複数の核酸メチル化フラグメント中のアッセイアーチファクトを除
去することができる。アッセイアーチファクトの除去は、シークエンシングされたハイブ
リダイゼーションプローブから得られたシークエンスリード及び/又はバイサルファイト
変換中に変換を受けることができなかったシークエンスから得られたシークエンスリード
を除去することを備えることができる。フィルタリングは、汚染物質(例えば、シークエ
ンシング、核酸単離、及び/又はサンプル調製に起因する)を除去することができる。
【0087】
フィルタリングは、複数の訓練対象にわたるがん状態に対するそれぞれのメチル化フラ
グメントの相互情報フィルタリングに基づいて、複数のメチル化フラグメントからメチル
化フラグメントのサブセットを除去することができる。例えば、相互情報は、同時にサン
プリングされた2つの関心のある条件の間の相互依存性の尺度を提供することができる。
相互情報は、1つ以上のデータセットからCpG部位の独立したセット(例えば、核酸メ
チル化フラグメントの全部内又は一部内)を選択し、かつ2つのサンプル群(例えば、遺
伝子型データセット、生体サンプル及び/又は対象のサブセット並びに/若しくは群)間
のCpG部位セットに対するメチル化状態の確率を比較することによって決定することが
できる。相互情報スコアは、スライディングウィンドウのそれぞれのフレーム中のそれぞ
れの領域において第1の条件対第2の条件のメチル化パターンの確率を表示することがで
き、このように、それぞれの領域の識別力を示すことができる。相互情報スコアは、選択
されたCpG部位のセット及び/又は選択されたゲノム領域にわたって進行するようなス
ライディングウィンドウの各フレーム中の各領域について同様に計算することができる。
相互情報フィルタリングに関する更なる詳細は、2020年12月11日に出願された「
Cancer Classification using Patch Convolutional Neural Networks」と題する米国特
許出願17/119,606号に開示されており、その全体が参照により本明細書に組み
込まれる。
【0088】
II.B.ii.ハイパーメチル化フラグメント及びハイポメチル化フラグメント
【0089】
いくつかの実施態様において、分析システムは、閾値を超える数のCpG部位を有し、
かつ閾値パーセンテージを超えるCpG部位がメチル化されている、又は閾値パーセンテ
ージを超えるCpG部位が非メチル化されているかのいずれかを有するフラグメントとし
て異常なフラグメントを判定し、分析システムは、そのようなフラグメントを、ハイパー
メチル化フラグメント又はハイポメチル化フラグメントとして同定する。フラグメント(
又はCpG部位)の長さの閾値の例は、3より上、4より上、5より上、6より上、7よ
り上、8より上、9より上、10より上、等を含む。メチル化又は非メチル化のパーセン
テージの閾値の例は、80%より上、85%より上、90%より上、又は95%より上、
若しくは50%~100%の範囲内の他のパーセンテージを含む。
【0090】
II.C.分析システムの例
【0091】
図7Aは、1つ以上の実施態様による核酸サンプルをシークエンシングするためのデバ
イスの例示的なフローチャートである。この例示的なフローチャートは、シークエンサ7
20及び分析システム700などのようなデバイスを含む。シークエンサ720及び分析
システム700は、
図1Aのプロセス100、
図2Aのプロセス200、
図2Bのプロセ
ス220、及び本明細書に記載の他のプロセスにおける1つ以上のステップを行うために
連動して動いてもよい。
【0092】
様々な実施態様において、シークエンサ720は、濃縮された核酸サンプル710を受
け取る。
図7Aに示すように、シークエンサ720は、特定のタスク(例えば、シークエ
ンシングの開始又はシークエンシングの終了)とのユーザー対話を可能にするグラフィカ
ルユーザーインターフェース725と、また同様に濃縮フラグメントサンプルを含むシー
クエンシングカートリッジをロードするため、及び/又はシークエンシングアッセイを行
うために必要なバッファーをロードするための1つ以上のロードステーション730と、
を含むことができる。それゆえに、シークエンサ720のユーザーが必要な試薬及びシー
クエンシングカートリッジをシークエンサ720のロードステーション730に提供する
と、ユーザーは、シークエンサ720のグラフィカルユーザーインターフェース725と
対話することによってシークエンシングを開始することができる。一度開始されると、シ
ークエンサ720は、シークエンシングを行い、核酸サンプル710からの濃縮フラグメ
ントのシークエンスリードを出力する。
【0093】
いくつかの実施態様では、シークエンサ720は、分析システム700と通信可能に結
合される。分析システム700は、1つ以上のCpG部位におけるメチル化状態の評価、
バリアントコール又は品質管理などのような様々な用途のためにシークエンスリードを処
理するために使用されるいくつかの数のコンピューティングデバイスを含む。シークエン
サ720は、BAMファイルフィーマットでシークエンスリードを分析システム700に
提供してもよい。分析システム700は、無線、有線、又は無線及び有線の組み合わせの
通信技術を通じてシークエンサ720に通信可能に結合することができる。一般に、分析
システム700は、プロセッサ、及びプロセッサによって実行されると、プロセッサにシ
ークエンスリードを処理させる、若しくは本明細書に開示される方法又はプロセスのいず
れかの1つ以上のステップを行うコンピュータ命令を格納する非一時的コンピュータ可読
記憶媒体、を備えるように構成される。
【0094】
いくつかの実施態様では、シークエンスリードを、例えば、
図1Aのプロセス100の
ステップ140を介して、アライメント位置情報を決定するために、当該技術分野におい
て既知の方法を使用する参照ゲノムにアライメントしてもよい。アラインメント位置は、
一般に、所与のシークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に
対応する参照ゲノム中の領域の開始位置及び終了位置を記載してもよい。メチル化シーク
エンシングに対応して、アライメント位置情報は、参照ゲノムへのアライメントに従って
シークエンスリード中に含まれる最初のCpG部位及び最後のCpG部位を示すように一
般化されてもよい。アライメント位置情報は、所与のシークエンスリード中の全てのCp
G部位のメチル化状態及び位置を更に示してもよい。参照ゲノム中の領域は、遺伝子又は
遺伝子のセグメントに紐づいてもよく、そのようなものとして、分析システム700は、
シークエンスリードを、そのシークエンスリードにアライメントする1つ以上の遺伝子で
ラベルしてもよい。一実施態様において、フラグメントの長さ(又はサイズ)は、開始位
置及び終了位置から決定される。
【0095】
様々な実施態様において、例えばペアエンドシークエンスプロセスが使用されるとき、
シークエンスリードは、R_1及びR_2として示されるリードペアで構成される。例えば
、第1のリードR_1は、二本鎖DNA(dsDNA)分子の第1の端からシークエンシ
ングされてもよく、一方、第2のリードR_2は、二本鎖DNA(dsDNA)の第2の
端からシークエンシングされてもよい。それゆえに、第1のリードR_1及び第2のリー
ドR_2のヌクレオチド塩基対を、参照ゲノムのヌクレオチド塩基と一貫して(例えば、
反対の向きで)アライメントする場合がある。リードペアR_1及びR_2から得られるア
ラインメント位置情報は、第1のリード(例えば、R_1)の末端に対応する参照ゲノム
内の開始位置、及び第2のリード(例えば、R_2)の末端に対応する参照ゲノム内の終
了位置を含んでもよい。言い換えれば、参照ゲノム内の開始位置及び終了位置は、核酸フ
ラグメントが対応する参照ゲノム内部の可能性の高い位置を表すことができる。SAM(
シークエンスアライメントマップ)形式又はBAM(バイナリ)形式を有する出力ファイ
ルが生成され、かつさらなる解析のために出力されてもよい。
【0096】
ここで
図7Bを参照すると、
図7Bは、一実施態様によるDNAサンプルを処理するた
めの分析システム700のブロック図である。分析システムは、DNAサンプルの分析に
使用するための1つ以上のコンピューティングデバイスを実装する。分析システム900
は、シークエンスプロセッサ740、シークエンスデータベース745、モデルデータベ
ース755、モデル750、パラメータデータベース765、及びスコアエンジン760
を含む。いくつかの実施態様において、分析システム700は、
図1Aのプロセス100
及び
図2のプロセス200の一部又は全部を行う。
【0097】
シークエンスプロセッサ740は、サンプルからのフラグメントに対するメチル化状態
ベクトルを生成する。フラグメント上の各CpG部位において、シークエンスプロセッサ
740は、
図1Aのプロセス100を介して、各フラグメントについて、参照ゲノム中の
フラグメントの位置、フラグメント中のCpG部位の数、及びメチル化、非メチル化、又
は不確定のいずれかであるフラグメント中の各CpG部位のメチル化状態を特定するメチ
ル化状態ベクトルを生成する。シークエンスプロセッサ740は、シークエンスデータベ
ース745内のフラグメントに対するメチル化状態ベクトルを格納してもよい。シークエ
ンスデータベース745内のデータは、サンプルからのメチル化状態ベクトルが互いに紐
づくように編成されてもよい。
【0098】
さらに、多数の異なるモデル750が、モデルデータベース755に格納されてもよく
、又はテストサンプルと共に使用するために検索されてもよい。一例では、モデルは、異
常なフラグメントに由来する特徴ベクトルを使用してテストサンプルに対するがん予測を
同定するための訓練されたがん分類器である。がん分類器の訓練及び使用は、セクション
III.がんを同定するためのがん分類器と併せて更に論じられるだろう。分析システム
700は、1つ以上のモデル750を訓練し、かつ様々な訓練されたパラメータをパラメ
ータデータベース765に格納してもよい。分析システム700は、モデル750をモデ
ルデータベース755に関数とともに格納する。
【0099】
推論中、スコアエンジン760は、1つ以上のモデル750を使用して、出力を返す。
スコアエンジン760は、モデルデータベース755内のモデル750を、パラメータデ
ータベース765からの訓練されたパラメータと共にアクセスする。各モデルに従って、
スコアエンジンは、モデルのための適切な入力を受け取り、かつ受け取った入力、パラメ
ータ、及び入力と出力とを関連付ける各モデルの関数に基づいて、出力を計算する。いく
つかの使用例では、スコアエンジン760は、モデルからの計算された出力の信頼度に相
関するメトリクスを更に計算する。他の使用例では、スコアエンジン760は、モデルで
使用するための他の中間的な値を計算する。
【0100】
III.がんを同定するためのがん分類器
【0101】
III.A.概要
【0102】
がん分類器は、テストサンプルに対する特徴ベクトルを受け取り、かつテストサンプル
が、がん、より具体的には、特定のがんタイプを有するテスト対象からのものであるかを
判定するように訓練することができる。がん分類器は、複数の分類パラメータと、入力と
しての特徴ベクトルと、分類パラメータを有する入力特徴ベクトル上で動作する関数によ
って決定される出力としてのがん予測との間の関係を表す関数と、を備えることができる
。いくつかの実施態様において、がん分類器に入力される特徴ベクトルは、テストサンプ
ルから判定された異常なフラグメントのセットに基づく。異常なフラグメントは、
図2B
のプロセス220を介して、又はより具体的には、プロセス220のステップ270を介
して判定されるようなハイパーメチル化フラグメント及びハイポメチル化フラグメント、
若しくはいくつかの他のプロセスに従って判定される異常なフラグメントであると判定さ
れてもよい。がん分類器の展開の前に、分析システムは、がん分類器を訓練することがで
きる。
【0103】
III.B.合成トレーニングサンプルの生成
【0104】
図3は、1つ以上の実施態様による、合成トレーニングサンプルを生成する例示的なプ
ロセスを図示する。分析システムは、既知のがん状態を有する個体から得られたトレーニ
ングサンプルを使用して、1つ以上の合成トレーニングサンプルを生成することができる
。分析システムは、合成トレーニングサンプルを含むトレーニングサンプルを使用して、
がん分類器を訓練することができる。
【0105】
分析システムは、合成トレーニングサンプル330を生成するために、がんトレーニン
グサンプル310及び非がんトレーニングサンプル320を取得する。がんトレーニング
サンプル310は、がんを有しているという既知の状態を有する個体から得られる。非が
んトレーニングサンプル320は、がんを有していない(「非がん」)という既知のステ
ータスを有する個体から得られる。各トレーニングサンプルは、ヒトゲノム中の複数のゲ
ノム領域のうちの少なくとも1つのゲノム領域と重なるcfDNAフラグメントを含む。
ゲノム領域がN個与えられると、非がんトレーニングサンプル310は、ゲノム領域1中
のフラグメント312、ゲノム領域2中のフラグメント314、及びゲノム領域N中のフ
ラグメント316までの各ゲノム領域のフラグメントを有する。ゲノム領域Nのフラグメ
ント326までの各ゲノム領域のフラグメントを有する。同様に、非がんトレーニングサ
ンプル320は、ゲノム領域1中のフラグメント322、ゲノム領域2中のフラグメント
324、及びゲノム領域N中のフラグメント326までの各ゲノム領域のフラグメントを
有する。
【0106】
分析システムは、がんトレーニングサンプル310からフラグメントと、非がんトレー
ニングサンプル320からフラグメントとをサンプリングすることによって、合成トレー
ニングサンプル330を生成する。分析システムは、各ゲノム領域において、第1のサン
プリング確率でがんトレーニングサンプル310からフラグメントのサブセットをサンプ
リングし、かつ第1のサンプリング確率に対して相補的な第2のサンプリング確率で非が
んトレーニングサンプル320からフラグメントのサブセットをサンプリングする。図に
示すように、第1のサンプリング確率はA%であり、かつ第2のサンプリング確率はB%
である。このようにサンプリングすることによって、ゲノム領域1について、がんトレー
ニングサンプル310からのフラグメント312のA%、及び非がんトレーニングサンプ
ル320からのフラグメント322のB%を含むように、合成トレーニングサンプル33
0が生成される。同様に、合成サンプル330は、ゲノム領域2について、がんトレーニ
ングサンプル310からのフラグメント314のA%、及び非がんトレーニングサンプル
320からのフラグメント324のB%を含むように生成される。これは、ゲノム領域N
までゲノム領域を通じて継続し、合成サンプル330は、ゲノム領域Nにおいて、がんト
レーニングサンプル310のフラグメント316のA%、及び非がんトレーニングサンプ
ル320のフラグメント326のB%を含むように生成される。分析システムは、合成ト
レーニングサンプル330にがんのラベルをラベルする。ラベルは、がんトレーニングサ
ンプル310内に存在する特定のがんタイプを更に含んでもよい。
【0107】
サンプリング確率は、訓練されたがん分類器の性能に従って決定することができる。分
析システムは、がん分類器を訓練し、かつその性能を評価してもよい。分類器の性能は、
最小腫瘍分画、すなわち、がん信号を検出するために必要な腫瘍組織から排出されるcf
DNAフラグメントの最小パーセンテージでサンプル中のがんの存在を予測する検出限界
値を含んでもよい。例えば、分類器は、サンプル中の1000個のフラグメントあたりの
腫瘍組織から流出した1個のフラグメントの検出限界を有してもよい。がんトレーニング
サンプル310からサンプリングされたフラグメントのパーセンテージに対応する第1の
サンプリング確率は、0.001%(又はそのようなパーセンテージの周辺)に設定され
てもよい。分析システムは、第2のサンプリング確率を第1のサンプリング確率の補数と
して決定してもよい。相補的なサンプリング確率は、100%まで加算されるパーセンテ
ージを有する。例えば、0.001%の相補的なパーセンテージは0.999%であり、
非がんトレーニングサンプル320からサンプリングされたフラグメントのパーセンテー
ジに対応する第2のサンプリング確率として設定される。分析システムは、がんトレーニ
ングサンプル310及び非がんトレーニングサンプル320のシークエンス深度に従って
、サンプリング確率を更に調整してもよい。例えば、がんトレーニングサンプル310が
非がんトレーニングサンプル320よりも小さいシークエンス深度を有する場合、第1の
サンプリング確率を増加してもよい。分析システムは、がん分類器が合成トレーニングサ
ンプルで漸進的に訓練されるにつれて、サンプリング確率を漸進的に調整してもよい。
【0108】
図4は、1つ以上の実施態様による、がん分類器のトレーニングのための合成トレーニ
ングサンプルを生成するプロセス400を説明する例示的なフローチャートである。以下
の説明は分析システムの考え方であるが、以下のプロセスは、
図7Bに示される分析シス
テム700の構成要素のいずれかによって行われてもよい。
【0109】
分析システムは、複数のトレーニングサンプルについてのシークエンシングデータを受
信する(410)。分析システムは、がん又は非がんのラベルを有するトレーニングサン
プルを各々受信することができる。がんのラベルを有するトレーニングサンプルは、特定
のがんタイプのラベルを更に有してもよい。各トレーニングサンプルは、
図2Bのプロセ
ス220に従って異常にメチル化されていると判定される場合がある複数のcfDNAフ
ラグメントを含むことができる。
【0110】
分析システムは、がんとしてラベルされた第1のトレーニングサンプル、及び非がんと
してラベルされた第2のトレーニングサンプルをサンプリングする(420)。第1のト
レーニングサンプルは、複数のがんタイプのうちの特定のがんタイプのラベルを追加で有
していてもよい。
【0111】
分析システムは、第1のトレーニングサンプルから異常なcfDNAフラグメントの第
1のサブセット、及び第2のトレーニングサンプルから異常なcfDNAフラグメントの
第2のサブセットをサンプリングすることによって、がんとしてラベルされた第1の合成
トレーニングサンプルを生成する(430)。
図3に記載されるように、分析システムは
、サンプリング確率によって、ゲノム領域に従って各トレーニングサンプルからフラグメ
ントをサンプリングしてもよい。分析システムは、各ゲノム領域において、第1のサンプ
リング確率に従って第1のトレーニングサンプルに対するゲノム領域中のフラグメント、
及び第2のサンプリング確率に従って第2のトレーニングサンプルに対するゲノム領域中
のフラグメントをサンプリングすることができ、ここで、第2のサンプリング確率は、第
1のサンプリング確率に対して相補的である。
【0112】
分析システムは、ステップ420及び430を繰り返して、追加の合成トレーニングサ
ンプルを生成してもよい。単一のがんトレーニングサンプルをがんとしてラベルされた複
数の合成トレーニングサンプルを生成するために使用してもよい。
【0113】
分析システムは、各トレーニングサンプルに対する特徴ベクトルを生成する(440)
。トレーニングサンプルは、少なくとも第1の合成トレーニングサンプルと、生成された
全ての合成トレーニングサンプルまでと、を含む。特徴ベクトルは、トレーニングサンプ
ル中の異常なcfDNAフラグメントに基づいて生成することができる。特徴づけの1つ
のアプローチは、セクションIII.C.がん分類器の訓練で後述する。
【0114】
分析システムは、特徴ベクトルとトレーニングサンプルのラベルとを用いて、がん分類
器を訓練する(450)。分析システムは、トレーニングサンプルの特徴ベクトルを入力
することによってがん分類器を訓練し、かつトレーニングサンプルのラベルのがん分類器
の予測精度の最適化において、がん分類器のパラメータを調整する。がん分類器の訓練に
関する更なる詳細は、セクションIII.C.がん分類器の訓練で後述する。
【0115】
生成された1つ以上の合成トレーニングサンプルを用いてがん分類器を訓練することに
より、改善されたがん分類器の特異度及び感度を容易にする。この改善は、いくつかの要
因に起因する。例えば、拡張されたトレーニングセットを使用することによって、分類器
はデータのトレンドをより良く一般化できるため、データのオーバーフィッティングが減
少する。追加で、サンプリング確率を決定することにより、生成された合成トレーニング
サンプルは、分類器の検出限界に近いがん信号を有することができる。これは、ひいては
、がん信号が少ない特徴空間においてがん分類器をより堅牢に訓練することをさせること
ができる。
【0116】
図5Aは、本開示の様々な実施態様に従って、増強データを生成し、オプションで疾患
状態を互いに判別する分類器を訓練するための一例のワークフロー500を示す。
【0117】
いくつかの実施態様において、ワークフロー500の第1のステップは、例えば、各ト
レーニングコホート中の対象が異なる疾患状態を有する1つ以上のトレーニングコホート
からの基礎となる生物学的データの収集である(502)。生体サンプル(例えば、核酸
を包含する)は、第1のコホート中の対象から収集され(504)、その各々は、第1の
疾患状態、例えば、無細胞核酸が疾患状態の情報を与える特定のがんの状態又は心血管疾
患を有する。
図2に図示するように、生体サンプルは、1つ以上の追加のコホート中の対
象から収集され(505)、その各々は、第1の疾患状況とは異なる第2の疾患状況を有
する。例として、第1のコホート中の対象はがんを有しているが、第2のコホート中の対
象はがんを有していない。本明細書に記載の方法で使用される各生物サンプルは、無細胞
核酸、例えば、cfDNAを含むことができる。有利には、無細胞核酸は、対象からの最
小侵襲性の少量採血によって、若しくは場合によっては唾液又は尿などのような他の体液
の非侵襲性サンプリングから得ることができる。本明細書に記載されるシステム及び方法
は、対象における疾患状況を検出するために使用することができる任意のタイプの生物学
的データ、例えば、無細胞又は細胞ゲノムデータ、トランスクリプトームデータ、エピジ
ェネティックデータ、プロテオームデータ、メタボロームデータ等を評価するために適し
得る。生体サンプルは、対象についての生物学的情報を得るために処理することができる
(506)。サンプル中の無細胞核酸(例えば、cfDNA)は、cfDNAシークエン
スリードを生成するためにシークエンシングすることができる。
【0118】
ワークフロー500は、生体サンプルを収集する(例えば、コホート1からcfDNA
サンプルを取得するステップ(504)及び他の任意のコホートからcfDNAサンプル
を取得するステップ(505))並びに生体特徴抽出(例えば、cfDNAのシークエン
スリードを生成するステップ(506))の任意のステップを図示しているが、本明細書
に記載の方法は、以前に抽出した生体特徴(例えば、シークエンスリード値、かつオプシ
ョンでシークエンスリード値の特徴)を電子フォームで得ることによって開始することが
できる。
【0119】
ワークフロー500は、第1のコホート中の対象からの核酸サンプル、及びオプション
で追加のコホート中の対象からの核酸サンプルに対して、核酸フラグメントシークエンス
を取得するステップ(508)を含む。ワークフロー500は、ステップ506において
収集された生物学的情報に基づいて、コホート1中の対象の各々に対してデータ構成体を
取得するステップ(510)を更に含む。データ構成体は、対象のゲノム特徴(又はゲノ
ム特性)、疾患状況、及びオプションで個人的特徴を含むことができる。本明細書に記載
の方法に有用なゲノム特徴の例には、生体サンプル中の特定のシークエンス(例えば、ゲ
ノム又はエキソミック遺伝子座)の相対的存在量についての有益なリードカウント(例え
ば、ゲノムコピー数特性)、対象の種に対しての参照ゲノム(複数可)に関する対象のゲ
ノム(例えば、生殖細胞系又は疾患組織のいずれか若しくは両方)中の差異に関する有益
なバリアント対立遺伝子の存在(例えば、バリアント対立遺伝子特性)、テスト生物サン
プル中の非バリアント対立遺伝子に対するバリアント対立遺伝子の相対的存在量について
の有益なバリアント遺伝子頻度(例えば、対立遺伝子比特性)、及びテスト生物サンプル
中の異なるゲノム領域のメチル化状態についての有益なメチル化状態(例えば、ゲノムメ
チル化特性)を含む。データ構成体に含まれる特定の特徴及びそのフォーマットは、ワー
クフロー500のステップ516においてオプションで訓練された分類器によって規定す
ることができる。ワークフロー502において、核酸フラグメントシークエンスデータは
、一緒にマージされない場合がある。この状況では、cfDNAの供給源の同一性を維持
することができ、かつ各補完的データ構成体は、コホートのうちの1つからの単一の対応
するサンプルのcfDNAから構築することができる。いくつかの代替実施態様において
、コホートの2つ以上のサンプルからのcfDNAは、単一の補完的データ構成体にマー
ジされる。
【0120】
ワークフロー500は、ステップ506において収集された生物学的情報に基づいて、
任意の追加のコホート中の対象の各々に対してデータ構成体を取得するステップ(512
)オプションで含む。データ構成体は、上述のように、対象の遺伝子型特徴、疾患状況、
及びオプションで個人的特徴を含むことができる。データ構成体が、追加のコホート中の
対象の疾患状態を判別するために分類器を訓練するために使用されるとき、ステップ51
2において得られたデータ構成体中のゲノム特徴は、ステップ510において第1のコホ
ートに対して得られたデータ構成体中の同じゲノム特徴であり得る。
【0121】
ワークフロー500はまた、第1のコホート中の少なくとも1つの対象について得られ
た核酸フラグメントシークエンスの確率的サンプリングに基づいて、ゲノム特徴について
増強値を包含する補完的データ構成体を生成するステップ(514)を含む。補完的デー
タ構成体の1つ以上は、訓練されている分類器の検出限界付近の疾患シグネチャを有する
ために模擬サンプルの状態を表すことができる。この状況では、所与の疾患状態を表す弱
いデータ信号の例をより多く提示することによって、分類器の訓練を改善することができ
る。
【0122】
図5Bは、ステップ514において補完的データ構成体を生成するための例示的なワー
クフローを図示する。
図5Bに図示するように、第1のコホート中の1つ以上の対象(例
えば、がんを有する)からの核酸フラグメントシークエンスデータ520は、確率的にサ
ンプリングされ(530)、その後、より弱い疾患信号を有するデータを模擬できる全て
の核酸フラグメントシークエンスのサブセットが選択される。例えば、0.2の腫瘍分画
を有する液体生体サンプルから生成された核酸フラグメントシークエンスの正規化セット
から開始するとき(すなわち、サンプル中の無細胞核酸の20%ががん細胞からである)
、核酸フラグメントシークエンスの各々に50%の選択確率を適用すると、約半量のがん
信号を有する対応する補完的データ構成体に対する核酸フラグメントシークエンスの選択
セットが生じ、これは、0.1の腫瘍分画を有するサンプルに期待されるがん信号とおお
よそ同等である。実際には、がんのない対象のコホート及びがん対象のコホートを用いて
分類器を訓練することができ、コホート中のがんの対象は、腫瘍率に関して異なる。訓練
された分類器の性能は、分類器の検出限界を決定するために評価することができる。訓練
された分類器は、分類器の性能が実質的に低下し始めるか又は完全に失敗する腫瘍分画を
決定するために評価することができる。
【0123】
その後、この腫瘍分画を中心とする補完的データ構成体を生成するために方法502(
図2)を使用することができる。例えば、がんコホート中の平均的ながん対象が0.4の
腫瘍分画を有し、訓練された分類器が腫瘍分画0.2で失敗する場合を考える。この状況
では、分類器は、十分な性能でがんを有するとして腫瘍率0.2以下を有する対象を同定
できない場合がある。このような事例では、がんコホートから、コホート対象ごとに補完
的データ構成体を生成することができる。各対象に対して、そのフラグメントシークエン
スの各々を、対応する補完的データ構成体に含めるために、確率論的基準で選択すること
ができる。分類器は0.2で失敗するので、分類器をよりよく訓練するために、腫瘍分画
を有する補完的データ構成体は、0.2の近傍であることができる。そこで、がんコホー
ト中の各それぞれの対象について、対応する補完的データ構成体に含めるために各核酸フ
ラグメントを確率的にサンプリング(受け入れる)することによって、それぞれの対象に
対してコホート中の核酸フラグメントデータを使用して構築された対応する補完的データ
構成体に対して核酸フラグメントシークエンスのそれぞれを選択することが可能である。
この例では、がんコホート中のそれぞれの対象に対して各核酸フラグメントに、0.50
の確率的サンプリングが適用される。このように、がんコホート中のそれぞれの対象に対
して1000個の核酸フラグメントがある場合、各核酸フラグメントは、50%の確率で
対応する補完的データ構成体に受け入れられることができる。有利なことに、参照対立遺
伝子及び代替対立遺伝子を考慮することなく、又はどの対立遺伝子ががん信号を決定する
のかを知ることさえなく、0.2の腫瘍分画を有する実際のコホートサンプルを模擬する
対応する補完的データ構成体を生成するために、この確率的サンプリングの適用によって
判別する代替的な対立遺伝子の生のカウントをおそらく半分にすることができる。このよ
うにして生成された補完的データ構成体は、元のコホートデータと組み合わせて、今度は
より多くのデータを用いて分類器をもう一度訓練することができ、かつ元のデータに対す
る分類器の性能をもう一度評価することができる。有利なことに、以下の例に示すように
、このアプローチは、特に、元のコホートデータが少数の対象の数しか有しなかった低腫
分画において、分類器の性能を向上させることができる。
【0124】
オプションで、代替の実施態様では、
図5Bにもまた図示するように、第2のコホート
中の1人以上の対象(例えば、がんを有さない人)からの核酸フラグメントシークエンス
データ522は、全ての核酸フラグメントシークエンスのサブセットのみを選択するため
にランダムにサンプリングすることができる(532)。このサンプリングされた核酸フ
ラグメントシークエンスのサブセットは、例えば、第1のコホート中の対象からの核酸フ
ラグメントシークエンスの元のセットよりも弱い疾患シグネチャ(例えば、疾患ががんで
あるとき、より低い腫瘍分画)を有する核酸フラグメントシークエンスの増強セットを生
成するために、第1のコホート中の1人以上の対象からランダムにサンプリングした核酸
フラグメントシークエンスと混合することができる(540)。サンプリングされた核酸
フラグメントシークエンスの混合は、分類器を訓練するために使用されるゲノム特性の1
つが、健康な核酸フラグメントシークエンスに対する疾患由来の核酸フラグメントシーク
エンスの比率に基づくときに使用することができる。例示すると、第1のコホート中の対
象(例えば、がんを有する人)からの核酸フラグメントシークエンスデータ520は、対
象からの全ての核酸フラグメントシークエンスのサブセットのみを選択するために、第1
の確率(例えば、0.6)を使用して確率的にサンプリングすることができる(530)
。また、第2のコホート中の対になる対象(例えば、がんを有さない人)からの核酸フラ
グメントシークエンスデータ522は、第2の確率(例えば、0.4)を使用して確率的
にサンプリングし(530)、対になる対象からの全ての核酸フラグメントシークエンス
のサブセットのみを選択することができる。コホート1からの1つとコホート2からの1
つという、対になる対象からの核酸フラグメントシークエンスを組み合わせて、補完的デ
ータ構成体を形成することができる。コホート1中の2つ以上の対象及びコホート2中の
単一の対象は、この方法で単一の補完的データ構成体に寄与し得る。コホート2中の2つ
以上の対象及びコホート1中の単一の対象は、この方法で単一の補完的データ構成体に寄
与し得る。コホート2中の2つ以上の対象及びコホート1中の2つ以上の対象は、この方
法で単一の補完的データ構成体に寄与し得る。いくつかの実施態様において、第1のコホ
ートからの対象内の核酸フラグメントシークエンスは、第1の確率でサンプリングされ、
かつ第2のコホート中の対象内の核酸フラグメントシークエンスは、第1の確率及び第2
の確率が同じ又は異なり、並びに第1の確率及び第2の確率の和が「1」にならない又は
なる補完的データ構成体を形成するために第2の確率でサンプリングされる。
【0125】
代替の実施態様では、疾患コホートからの核酸フラグメントシークエンスを非疾患コホ
ートからの核酸フラグメントシークエンスで希釈するのとは対照的に、「欠損」核酸フラ
グメントシークエンスを非疾患状態として割り当てることによって、補完的データ構成体
が構築される。例えば、第1のコホート(例えば、疾患コホート)中の対象からの核酸フ
ラグメントシークエンスのセットが、所与のゲノム遺伝子座に対して100個の核酸フラ
グメントシークエンスを含み、そのうち20個が疾患細胞由来であると仮定する。核酸フ
ラグメントシークエンスの50%をランダムにサンプリングして、10個の疾患細胞に由
来する核酸フラグメントシークエンスと40個の健康な細胞に由来する核酸フラグメント
シークエンスとを選択した場合、増強セットの対立遺伝子比率は、開始サンプルと同じ2
0%となり得る。しかしながら、核酸フラグメントシークエンスの増強セットは、依然と
して遺伝子座からの100個の核酸フラグメントシークエンスを含み得、この場合、増強
セットの対立遺伝子比は、核酸フラグメントシークエンスの元のセットの10%又はその
半分であると決定することができる。
【0126】
図5Bに図示するように、いくつかの実施態様において、ランダムにサンプリングされ
た核酸フラグメントシークエンス(例えば、ステップ530において生成され、オプショ
ンで、ステップ532及び/又は540において生成される)は、その後、ステップ51
4の補完的データ構成体を形成する(550)ために使用される。
【0127】
いくつかの実施態様では、
図5Aに示すように、ワークフロー500は、対象の第1の
コホートに紐づく第1の疾患状況と、対象の追加のコホートのうちの1つ以上に紐づく少
なくとも1つの第2の疾患状況とを区別するために分類器を訓練するステップを含む。図
5Aに示すように、訓練は、第1のコホート中の対象、少なくとも1つの第2のコホート
中の対象、並びに第1のコホート中の対象の少なくとも1つからランダムにサンプリング
された核酸フラグメントシークエンスから生成された増強されたデータ構成体に対して得
られたデータ構成体(例えば、各対象又は増強された構成体についての疾患状態情報、例
えば、各対象又は増強された構成体に対して得られた又は生成された生体データのゲノム
特性を含む)を使用する。
【0128】
確率サンプリングを使用してデータセットを人為的に拡張する方法は、異なる疾患状態
をより良く判別するための分類器を訓練することに有用な複数の補完的データ構成体(例
えば、増強された単一時点トレーニング構成体及び/又は増強された時系列トレーニング
構成体)を生成することができる。異なる疾患状態をより良く判別するための例は、対象
ががん又は心血管疾患などのような疾患を有するかを判定するため、疾患のタイプ(例え
ば、がんの種類、がんの発生元)を判定するため、疾患のステージ(例えば、がんのステ
ージ)を判定するため、疾患の予後(例えば、治療を伴う及び/又は治療を伴わないがん
の予後)を判定するため、などである。
【0129】
本方法は、疾患状況の第1の状態を有する訓練対象の第1のコホート(例えば、訓練対
象)に対する第1の複数のゲノムデータ構成体を含むトレーニングデータセット(例えば
、単一時点トレーニングデータ)を、電子フォームで取得することを含むことができる。
訓練対象の第1のコホートは、少なくとも5、10、100、10~25000の間、又
は100未満の訓練対象を含むことができる。
【0130】
第1の複数のゲノムデータ構成体は、訓練対象の第1のコホート中の各それぞれの訓練
対象について、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数
の核酸フラグメントの複数のゲノム特性についての値(例えば、核酸フラグメントシーク
エンスデータに対応する)を含むそれぞれのゲノムデータ構成体を含むことができる。そ
の後、本方法は、複数の補完的データ構成体(例えば、増強された単一時点トレーニング
データ)を生成するためにトレーニングデータセットを使用することを含むことができ、
複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、第1の
複数のゲノムデータ構成体(例えば、単一時点トレーニングデータ)から少なくともそれ
ぞれのゲノムデータ構成体に対応する(そこからサンプリングされる)。
【0131】
複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、複数
のゲノム特性中の各それぞれの遺伝子型特性に対して、第1の複数のゲノムデータ構成体
から少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する
核酸フラグメントの確率的サンプリングに由来する増強値(例えば。増強されたゲノムコ
ピー数特性、増強されたバリアントアレル特性、増強されたアレル比特性、及び増強され
たゲノムメチル化特性などのうちの1つ以上)を含むことができる。一例では、補完的遺
伝子型データ構成体は、第1のコホート中の訓練対象のゲノムデータ構成体から、訓練対
象中の各核酸フラグメントシークエンスのランダムサンプリングによって形成される。す
なわち、第1のコホート中の訓練対象中の各核酸フラグメントシークエンスは、確率論的
ベースで対応する補完的ゲノムデータ構成体に受け入れることができる。このようにして
、補完的ゲノムデータ構成体は、第1のコホート中の訓練対象から確率論的ベースで対応
する補完的ゲノムデータ構成体に受け入れられた核酸フラグメントシークエンスの同一性
及び特性(例えば、ゲノムコピー数特性、変異アレル特性、対立遺伝子比特性、及びゲノ
ムメチル化特性などの1以上)に基づいて、複数のゲノム特性中の各それぞれのゲノム特
性についての増強値を獲得することができる。
【0132】
複数のゲノム特性は、少なくとも100、500、1000、5000、10,000
、50,000、100,000、又はそれ以上の遺伝子型特性を含むことができる。複
数のゲノム特性は、単一のタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリア
ントアレル特性、対立遺伝子比特性、及びゲノムメチル化特性のうちの1つを含むことが
できる。いくつかの実施態様において、複数の遺伝子型特性は、少なくとも2つのタイプ
の遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、アリル比特性、
及びゲノムメチル化特性のうちの2つ以上を含む。複数の遺伝子型特性は、少なくとも3
つのタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、アリ
ル比特性、及びゲノムメチル化特性のうちの3種類以上を含むことができる。対応する複
数の核酸フラグメントの複数のゲノム特性の値は、複数のゲノム領域に対して対応する生
体サンプル中の核酸を濃縮するための複数の核酸プローブを使用した全ゲノムシークエン
シング、全ゲノムメチル化シークエンシング、標的シークエンシング(例えば、標的DN
Aメチル化シークエンシング)によって得ることができる。
【0133】
1つ以上の単一時間点トレーニングデータセットをサンプリングして、対応する補完的
データ構成体を形成することができる。この状況では、2つ以上の単一時点トレーニング
データセットからの核酸フラグメントシークエンスをランダムにサンプリングして、単一
時点トレーニングデータセットで表される核酸フラグメントシークエンスと同量、又はそ
れより少ない核酸フラグメントシークエンスの代表的な補完的データ構成体を生成するこ
とができる。いくつかの実施態様では、少なくとも2つの単一時点トレーニングデータセ
ットが一緒にサンプリングされる。他の実施態様では、少なくとも3、4、5、6、7、
8、9、10、25、50、100、500、1000、又はそれ以上の単一時点トレー
ニングデータセットが一緒にサンプリングされて、単一の補完的データ構成体を形成する
。
【0134】
いくつかの実施態様において、第1の複数のゲノムデータ構成体は、第2の時間におい
て訓練対象から得られた第2の生体サンプルに基づく、訓練対象の第1のコホート中の1
つ以上の訓練対象についての少なくとも1つの第2のゲノムデータ構成体を含む。すなわ
ち、この訓練対象に対して、第1の時間において訓練対象から得られた第1の生体サンプ
ルを使用して得られた第1のゲノムデータ構成体と、第2の時間において訓練対象から得
られた第2の生体サンプルを使用して得られた第2のゲノムデータ構成体とが存在し得る
。例えば、第2のサンプルは、第1のサンプルの数日後、数週間後、数ヶ月後、又は数年
後に取得される場合がある。このような状況では、経時的に対象から取得された生体サン
プルを使用して訓練対象から得られる1つより多い遺伝子型データ構成体が存在し得、対
象が経時的に所与のがんの後期ステージに進行している場合、データを増強する独自の機
会が提供される。そのような実施態様では、増強された遺伝子型データ構成体を構築する
ために、対象から第1の時間において取得された第1のゲノムデータ構成体中の各核酸フ
ラグメントを第1の確率を使用してランダムにサンプリングし、対象から第2の時間にお
いて取得された第2の遺伝子型データ構成体中の各核酸フラグメントを第2の確率を使用
してランダムにサンプリングすることによって、増強された遺伝子型データ構成体を構築
することができる。さらに、増強されたゲノムデータ構成体と第1のゲノム構成物との間
の距離、及び増強されたゲノムデータ構成体と第2のゲノム構成体との間の距離を制御す
るように、第1の確率及び第2の確率を選択することができる。例えば、第2のゲノム構
成体よりも第1のゲノム構成体に近い(遺伝子型特性の点で)増強されたゲノム型データ
構成体を得るために、第1のゲノム構成体の核酸フラグメントシークエンスの各々は、第
2のゲノム構成体の核酸フラグメントシークエンスの各々が増強されたゲノムデータ構成
体に含めるためにサンプルされる確率よりも高い確率を使用してサンプルすることができ
る。
【0135】
本方法は、1つ以上のトレーニングデータ構成体と対になったとき、疾患状態(例えば
、がん)の進行又は退行のための生物学的シグネチャの代表的な時系列データを形成する
複数の補完的データ構成体(例えば、増強された時系列訓練構成物)を生成することがで
きる。時系列データは、異なる疾患状態をより良く判別するための分類器を訓練するため
に、例えば、対象ががん又は心血管疾患などのような疾患を有するかを判定するために、
疾患のタイプ(例えば、がんタイプ、がんの発生元)を判定するために、疾患のステージ
(例えば、がんのステージ)を判定するために、疾患の予後((例えば、治療を伴う及び
/又は治療を伴わないがんの予後)を判定するためになどで、有用となりうる。
【0136】
時系列データを生成するために、本方法は、訓練対象の第1のコホートに対する第1の
複数のゲノムデータ構成体を含む第1のトレーニングデータセット(例えば、時系列トレ
ーニングデータ)を、電子フォーマットで取得することを含むことができる。第1の複数
のゲノムデータ構成体は、訓練対象の第1のコホート中の各それぞれの訓練対象について
、(i)それぞれの第1の時点においてそれぞれの訓練対象から得られた対応する第1の
生体サンプル(例えば、核酸フラグメントシークエンスデータに対応する)中の対応する
第1の複数の核酸フラグメントの複数のゲノム特性についての値を備えるそれぞれの第1
のゲノムデータ構成体を含むことができる。それぞれの訓練対象は、それぞれの第1の時
点における疾患状況の第1の状態(例えば、がん又は心血管疾患などのような疾患が存在
しない)を有することができ、(ii)1つ以上のスパイクイン対象のコホートに対する
1つ以上のスパイクインゲノムデータ構成体のセットである。1つ以上のスパイクインゲ
ノムデータ構成体のセットは、それぞれのスパイクイン対象から得られた対応する生体サ
ンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれ
ぞれのスパイクイン遺伝子型データ構成体を含むことができ、対応する生体サンプルがそ
れぞれのスパイクイン対象から得られたときに、それぞれのスパイクイン対象が疾患状況
の第2の状態を有する(例えば、疾患状態を有する、例えば、がんを有する)。疾患状況
の第1の状態及び疾患状況の第2の状態は、疾患状況の進行によって関連付けることがで
きる。例えば、訓練対象が疾患(例えば、がん又は心血管疾患)を有していない、又は疾
患の初期ステージ(例えば、ステージ0又はステージ1のがん)を有し、かつスパイクイ
ン対象から得られたサンプルが、それらが疾患状態の進行を受けた後、後の時点で訓練対
象からのサンプルとして扱うことができるように、スパイクイン対象は疾患を有する、及
び/又は疾患の進行ステージを有する。
【0137】
その後、本方法は、第1のトレーニングデータセットを使用して、それぞれの第2の時
点におけるそれぞれの訓練対象の代表となる複数のゲノム特性についての値を含むそれぞ
れの第1の増強されたゲノムデータ構成体(例えば、増強された時系列データ)を生成す
ることを含むことができる。それぞれの第1の増強されたゲノムデータ構成体は、対応す
るゲノムデータ構成体の第1の対に対応することができる。ゲノムデータ構成体の第1の
対は、(i)それぞれの訓練対象に対するそれぞれの第2のゲノムデータ構成体と、(i
i)1つ以上のスパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクイ
ンゲノムデータ構成体と、を含むことができる。それぞれの第1の増強されたゲノムデー
タ構成体は、対応する遺伝子型データ構成体の第1の対の各ゲノムデータ構成体中のそれ
ぞれのゲノム特性の値に寄与する核酸フラグメントの第1の確率サンプリングに由来する
増強値を含むことができる。本方法は、それによって、訓練対象の第1のコホート中のそ
れぞれの訓練対象に対して、それぞれの第1のゲノムデータ構成体及びそれぞれの第1の
増強されたゲノムデータ構成体を含むそれぞれの時系列データセットを生成することがで
きる。ゲノム特性及び疾患状況の詳細は、本明細書の他の箇所に記載されている。
【0138】
訓練対象の第1のコホート中の少なくとも1つのそれぞれの訓練対象について、それぞ
れの訓練対象は、それぞれの第1の時点においてがんに罹患していない場合がある。遺伝
子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体は、対応する生
体サンプルがそれぞれのスパイクイン対象から得られたとき、少なくともステージ2のが
んに罹患している対応するスパイクイン対象から得られてもよい。
【0139】
それぞれの第1の遺伝子型データ構成体及びそれぞれの第1の増強された遺伝子型デー
タ構成体を含むそれぞれの時系列データセットは、訓練対象の第1のコホート中の各それ
ぞれの訓練対象に対して生成することができる。したがって、それぞれの第1の増強され
たゲノムデータ構成体は、ゲノムデータ構成体の対応する第1の対に対応することができ
る。ゲノムデータ構成体の第1の対は、(i)それぞれの訓練対象についてのそれぞれの
第2のゲノムデータ構成体、及び(ii)1つ以上のスパイクインゲノムデータ構成体の
セットからのそれぞれのスパイクインゲノムデータ構成体を備えることができる。
【0140】
スパイクイン対象は、例えば、訓練対象及びスパイクイン対象からのサンプルが同時に
収集される場合、又は訓練対象が疾患状態を絶対に発症しない場合など、訓練対象とは異
なる対象であり得る。このような場合、スパイクインサンプルからの疾患信号を、訓練対
象から得られた第1のサンプルと直接混合して、訓練対象の第2の時点に対応するデータ
構成体を形成することができる。したがって、訓練対象の第1のコホート中の少なくとも
1つのそれぞれの訓練対象に対して、それぞれの第2のゲノムデータ構成体は、それぞれ
の第1のゲノムデータ構成体とすることができる。しかしながら、第2のサンプルもまた
訓練対象から得ることができ、かつ例えば、訓練対象がその後疾患を発症しない、又は疾
患の実質的な進行を体験しない場合、第2の時点に対応するデータ構成体のバックグラウ
ンドとして使用することができる。スパイクインサンプルからの疾患信号は、訓練対象か
らの第2のサンプルからのバックグラウンドと混合して、訓練対象についての第2の時点
に対応するデータ構成体を形成することができる。したがって、訓練対象の第1のコホー
ト中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第2のゲノムデータ構
成体は、第2の時点においてそれぞれの訓練対象から得られた対応する第2の生体サンプ
ル中の対応する第2の複数の核酸フラグメント中の複数のゲノム特性についての値を含む
ことができる。遺伝子型データ構成体の対応する対中のそれぞれのスパイクイン遺伝子型
データ構成体に対応するスパイクイン対象は、例えば、疾患の進行以外の要因に紐づく変
動を説明するために、共有される個人的特徴に基づいてそれぞれの訓練対象にマッチさせ
ることができる。
【0141】
一例では、デバイス100は、1つ以上の訓練構成体(例えば、520)から核酸フラ
グメントシークエンスデータをランダムにサンプリングし(530)、かつ1つ以上のス
パイクインサンプル(例えば、522)は、核酸フラグメントシークエンスのサブセット
(例えば、増強核酸フラグメントシークエンスデータ152-n)を選択して、補完的デ
ータ構成体(550)を構築するために使用される。混合は、スパイクインサンプルから
の生体疾患信号をトレーニングデータ構成体からのバックグラウンドで希釈し、訓練対象
が疾患状態の進行を経験した後の第2の時間における訓練対象の代表となるデータ構成体
を生成することと考えることができる。1つ以上の訓練構成体からの核酸フラグメントシ
ークエンスデータは、第1の確率で単純ランダムサンプリングを使用してサンプリングす
ることができ、1つ以上のスパイクインサンプルからの核酸フラグメントシークエンスデ
ータは、第2の確率で単純ランダムサンプリングを使用してサンプリングすることができ
、ここで第1の確率は同じ又は異なっている。いくつかの実施態様では、第1の確率及び
第2の確率は同じである。第1の確率は、最低で5%、10%、15%、20%、30%
、40%、50%、60%、70%、80%、90%、及びそれ以上とすることができる
。第1の確率は、最大で90%、80%、70%、60%、50%、40%、30%、2
0%、10%、又はそれ以下とすることができる。第2の確率は、最低で5%、10%、
15%、20%、30%、40%、50%、60%、70%、80%、90%及びそれ以
上とすることができる。第2の確率は、最大で90%、80%、70%、60%、50%
、40%、30%、20%、10%又はそれ以下とすることができる。第1の確率は、第
2の確率と同じである、又は異なることができる。
【0142】
追加の増強された時点はまた、例えば、スパイクインサンプルからの生体信号の異なる
量をトレーニングサンプルからの生体信号と混合することによって、若しくは疾患の進行
又は退行の時間経過を表す一連のスパイクインサンプルからの生体信号を混合することに
よって生成することができる。いくつかの実施態様において、時系列データは、少なくと
も3つの時点、又は少なくとも4、5、6、7、8、9、10、若しくはそれ以上の時点
を含む。
【0143】
トレーニングサンプルとスパイクインサンプルとの間の生体信号の混合は、疾患進行の
モデルによって通知することができる。例えば、がんの進行モデルは、がんの所与の進行
を再現するために、各時点においてどの程度の追加のがん信号(例えば、スパイクインサ
ンプルによって提供される)をトレーニングサンプルに加えることができるかを決定する
ために使用される。したがって、確率サンプリングは、第1のそれぞれのゲノム構成体中
の複数のゲノム特性についての値に寄与する複数の核酸フラグメントのそれぞれの第1の
部分と、それぞれのスパイクインゲノムデータ構成体中の複数のゲノム特性についての値
に寄与する複数の核酸フラグメントのそれぞれの第2の部分と、を選択することができる
。核酸フラグメントのそれぞれの第1の部分及び核酸フラグメントのそれぞれの第2の部
分の大きさは、少なくとも(i)第1の時点と第2の時点との間の時間の長さと、(ii
)疾患状況の第1の状態からの疾患状況の第2の状態の進展に関する時間的モデルと、に
基づいて決定することができる。
【0144】
疾患の進行又は退行のモデリングは、対象の1つ以上の個人的特性を考慮することがで
きる。例えば、肺がんは、喫煙する対象は、喫煙しない対象よりも速く進行し得る。した
がって、疾患状況の第1の状態からの疾患状況の第2の状態の進展に対する時間的モデル
は、それぞれの対象の個人的特徴、例えば、性別、年齢、家族病歴、個人病歴、民族性、
喫煙状況、飲酒状況、疑似データ等のうちの1つ以上に少なくとも基づいている。疾患の
進行又は退行のモデリングは、疾患の特定の形態、例えば、がんに特有であることができ
る。例えば、疾患状況はがんであり、かつ、がんの第1の状態からのがんの第2の状態の
進展に対する時間的モデルは、少なくともがんのタイプに基づく。別の例では、疾患状況
はがんとすることができ、がんの第1の状態からのがんの第2の状態の進展に対する時間
的モデルは、がんが転移性であるか非転移性であるかに少なくとも基づくことができる。
また別の例では、疾患状況はがんであり、がんの第1の状態からがんの第2の状態の進展
に対する時間的モデルは、ステージに分けられる。
【0145】
いくつかの実施態様において、各核酸フラグメントシークエンスは、補完的データ構成
体に含めるために確率論的ベースでサンプリングすることができる。各核酸フラグメント
シークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリングする
ことができ、ここで、含められる確率は、各核酸フラグメントシークエンスに対して同じ
(例えば、5%~95%の間、5%、10%、15%、20%、25%、30%、35%
、40%、45%、50%、55%、60%、65%、70%、75%、80%、85%
、90%)である。ランダムサンプリングのいくつかの実施態様において、各核酸フラグ
メントシークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリン
グすることができ、ここで、含まれる確率は、核酸フラグメントシークエンスに対応する
複数のビン中のどのビンかに依存し、複数のビンの各ビンは、参照ゲノムの異なる部分を
表わす。実際に使用される確率値は、アプリケーションに依存し得る(例えば、訓練され
た分類器の検出限界に基づく)。一例では、分類器の検出限界は、腫瘍分画のメトリック
によって測定することができ、開示されたシステム及び方法を使用して、分類器の検出限
界における腫瘍分画を表す増強されたデータセットを生成することができる。
【0146】
疾患状況は、がんとすることができる。例えば、がんの第1の状態は、がんの存在であ
り、がんの第2の状態は、がんの非存在である。この状況では、分類器を、がんを有する
患者の第1のコホートからの特徴、がんを有しない患者の第2のコホートからの特徴、及
び、例えば、第1のコホートのものよりも一般的に弱いがん信号を有する、増強されたデ
ータ構成体のセットからの模擬の特徴に対して訓練することができる。がんの第1の状態
は、第1のタイプのがんとすることができ、がんの第2の状態は、がんの第2のタイプと
することができる。この状況では、分類器を、第1のタイプのがんを有する患者の第1の
コホートからの特徴、第2のタイプのがんを有する患者の第2のコホートからの特徴、及
び、例えば、第1のコホート及び/又は第2のコホートのものよりも一般的に弱い第1の
タイプ及び/又はがんの第2のタイプのがん信号を有する増強されたデータ構成体のセッ
トからの模擬の特徴に対して訓練することができる。がんの第1の状態は、指定されたが
んの第1のステージとすることができ、がんの第2の状態は、指定されたがんの第2のス
テージとすることができる。この状況では、分類器を、同じ又は異なるタイプのがんの異
なるステージ間、例えば、ステージ0、ステージ1、ステージ2、ステージ3、及びステ
ージ4のがんの2つ以上の間を区別するように訓練することができる。がんの第1の状態
は、がんの第1の予後とすることができ、がんの第2の状態は、がんの第2の予後とする
ことができる。この状況では、分類器を、治療なしの異なる生命予後、治療を伴う異なる
生命予後、異なる予想寛解率、及び/又は特定の治療に対する異なる予想応答を区別する
ように訓練することができる。
【0147】
いくつかの実施態様において、疾患状況は、心血管疾患である。心血管疾患の第1の状
態は、心血管疾患の存在であることができ、心血管疾患の第2の状態は、心血管疾患の非
存在であることができる。この状況では、分類器を、心血管疾患を有する患者の第1のコ
ホートからの特徴、心血管疾患を有しない患者の第2のコホートからの特徴、及び、例え
ば、第1のコホートのものよりも一般的に弱い心血管疾患信号を有する増強されたデータ
構成体のセットからの模擬の特徴に対して訓練することができる。心血管疾患の第1の状
態は、心血管疾患に対する第1の予後とすることができ、心血管疾患の第2の状態は、心
血管疾患に対する第2の予後とすることができる。この状況では、分類器を、治療なしの
異なる生命予後、治療を伴う異なる生命予後、異なる予想寛解率、及び/又は特定の治療
に対する異なる予想応答を区別するように訓練することができる。
【0148】
いくつかの実施態様において、第2のコホート522中の1つ以上のデータ構成体から
の生物学的データは、ランダムにサンプリングし、かつ第1のデータ構成体からのランダ
ムにサンプリングしたデータと混合して、第1のコホート中の1人以上の対象から確率的
にサンプリングした核酸フラグメントと第2のコホート中の1人以上の対象から確率的に
サンプリングした核酸フラグメントの組み合わせから補完的データ構成体を形成すること
もできる。第2のコホート522中の単一のデータ構成体からの生物学的データをランダ
ムにサンプリングし、かつ第1のデータ構成体からのランダムにサンプリングしたデータ
と混合して、第1のコホート中の単一の対象から確率的にサンプリングした核酸フラグメ
ントと第2のコホートにおける単一の対象から確率的にサンプリングした核酸フラグメン
トとの組み合わせから補完的データ構成体を形成することもできる。第1のデータ構成体
が特定の疾患状態を有する(例えば、がんを有する又は心血管疾患を有する)対象に対応
し、第2のデータ構成体が特定の疾患状態を有しない(例えば、がんを有しない又は心血
管疾患を有しない)対象に対応するとき、混合は、第1のデータ構成体からの生体疾患信
号を第2のデータ構成体からのバックグラウンドで希釈すると考えることができる。した
がって、トレーニングデータセットは、疾患状況の第1の状態とは異なる疾患状況の第2
の状態を有する訓練対象の第2のコホートに対する第2の複数のゲノムデータ構成体を更
に含むことができる。第2の複数のゲノムデータ構成体は、それぞれの訓練対象から得ら
れた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性につ
いての値を含むそれぞれの遺伝子型データ構成体を含むことができる。サンプリングされ
たデータは、第1のデータ構成体から希釈されなくてもよい。サンプリングされたデータ
がバックグラウンド信号と混合されていない増強されたデータ構成体を用いて分類器を訓
練すると、モデルがバックグラウンド信号と混合された同じサンプリングされた信号を使
用して訓練されるときよりも優れた分類器を生成することができる。
【0149】
データをランダムにサンプリングする方法は、単純ランダムサンプリング、層別ランダ
ムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリング、及
び多段ランダムサンプリングを含むことができる。単純ランダムサンプリングは、グルー
プ内の各項目(ここでは、1つ以上のトレーニングコホート中の対象、又は複数の対象中
の各核酸フラグメントシークエンス)が同じ確率で選択されることを含んでもよい。例え
ば、核酸フラグメントシークエンスのセットの単純ランダムサンプリングは、セット中の
各核酸フラグメントシークエンスが、増強された核酸フラグメントシークエンスのセット
に選択される機会を有することを規定する。層別サンプリング又はクラスターサンプリン
グと、単純なランダムサンプリングとの組み合わせを採用することができる。様々な考慮
事項が、任意の特定のサンプリングイベントに使用される選択確率を規定してもよい。こ
れらの考慮事項は、開始データ構成体中の疾患信号の量(例えば、がん患者に対応するデ
ータ構成体の腫瘍分画及び/又は変異負担)、補完的データ構成体中の望まれる疾患信号
の量、及び他の訓練データ構成体中の疾患信号の量を含むことができるが、これらに限定
されない。
【0150】
確率サンプリングは、複数のゲノム特性の値に寄与する複数の核酸フラグメントの所定
の部分の重みランダムサンプリングを含むことができ、ここで、対応ゲノム特性の値に寄
与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与す
る核酸フラグメントの総数に対する対応ゲノム特性に寄与する核酸フラグメントの存在量
に比例している。確率サンプリングは、第1の複数のゲノムデータ構成体から、それぞれ
のデータ構成体中の複数のゲノム特性についての値に寄与する複数の核酸フラグメントの
それぞれの部分を選択することができる。核酸フラグメントのそれぞれの部分の大きさは
、他の補完的データ構成体に対して選択された核酸フラグメントのそれぞれの部分の大き
さとは独立して決定することができる。異なるトレーニングデータセットをサンプリング
するために使用される方法論は、例えば、各データ構成体中の疾患信号の量などのような
要因を考慮するために、独立して選択することができる。核酸フラグメントのそれぞれの
部分の大きさは、それぞれの補完的データ構成体が、探索的分類器が遺伝子型データ構成
体によって表される有益な核酸フラグメント分率の変化に対する閾値感度を満たす有益な
核酸フラグメント分率の範囲内に入るように模擬核酸フラグメント割合を表すように選択
でき、探索的分類器は、複数の遺伝子型特徴に基づいた疾患状況の状態を判別するために
訓練される。補完的データ構成体は、その疾患信号(例えば、がん患者の場合の腫瘍分画
)が、分類器に対して予測された検出レベル(LOD)周辺の範囲内に入るように形成す
ることができる。
【0151】
有益な核酸フラグメント分率(例えば、腫瘍分画)の範囲は、複数の増強された探索ゲ
ノムデータ構成体を生成するためにトレーニングデータセットを使用することによって決
定することができる。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強さ
れた探索ゲノムデータ構成体は、第1の複数のゲノムデータ構成体からの少なくともそれ
ぞれのゲノムデータ構成体に対応することができる。複数の増強された探索ゲノムデータ
構成体中の各それぞれの増強された探索ゲノムデータ構成体は、第1の複数のゲノムデー
タ構成体からの少なくともそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の
値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含むことができ
る。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強された探索ゲノムデ
ータ構成体は、第1の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体に
よって表される有益な核酸フラグメント分率に基づく、模擬の有益な核酸フラグメント分
率を表すことができる。複数の増強された探索ゲノムデータ構成体によって表される模擬
の有益な核酸フラグメントの分布は、探索分類器に対する検出レベルを下回る第1の有益
な核酸フラグメントから探索分類器に対する検出レベルを上回る第2の有益な核酸フラグ
メントにまたがることができる。模擬の有益な核酸フラグメント画分の分布は、検出レベ
ルの約1%上から約1%下、検出レベルの約2%上から約2%下、検出レベルの約5%上
から約5%下、検出レベルの約10%上から約10%下、検出レベルの約15%上から約
15%下、又は検出レベルの約20%上から約20%下にまたがることができる。
【0152】
有益な核酸フラグメント分率の範囲は、単一時点の訓練データの全て又はサブセットを
使用して、例えば究極の分類器と同じタイプの予備的分類器を訓練することによって決定
することができる。その後、複数の増強された探索的遺伝子型データ構成体を探索分類器
に適用して、複数の模擬疾患状況確率を生成することができる。探索分類器は、少なくと
も(1)それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸
フラグメントの複数のゲノム特性についての値を含むそれぞれのゲノムデータ構成体を含
む、第1の複数の探索ゲノムデータ構成体、(2)それぞれの探索対象から得られた対応
する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性に対する値を
含むそれぞれのゲノムデータ構成体を含む、第2の複数の探索データ構成体、及び(3)
第1及び第2の複数の探索ゲノムデータ構成体中のそれぞれのゲノムデータ構成体に対す
る、疾患状況の状態の指標、を使用して、疾患状況の状態を判別するように訓練すること
ができる。有益な核酸フラグメント分率の範囲は、模擬疾患状況確率が、それぞれの増強
された探索ゲノムデータ構成体によって表される有益な核酸フラグメント分率の変化に対
して最も敏感である範囲を同定することができる。
【0153】
複数の電子シークエンスからゲノム特徴/特性を抽出する方法は、例えば、米国特許出
願広報第2019/0287652号にて見つけられ得、その内容は、あらゆる目的のた
めに参照により本明細書に組み込まれ、複数のゲノム位置のメチル化状態を決定する方法
が記載されている。同様に、米国特許出願第2019/0287649号は、その内容が
、あらゆる目的のために参照により本明細書に組み込まれ、複数のゲノム位置の相対コピ
ー数を決定するための方法が記載されている。
【0154】
ゲノム特性は、複数の相対的なコピー数(例えば、ビンリードカウント)を含むことが
でき、複数の相対コピー数中のそれぞれの相対コピー数は、複数の遺伝子位置中の異なる
遺伝子位置に対応する。相対コピー数は、複数のゲノム領域からのシークエンスリードの
相対的な存在量を表すことができる。ゲノム領域は、同じサイズ又は異なるサイズを有す
ることができる。ゲノム領域は、領域内部の核酸残基の数、又はその位置と領域内の核酸
残基の数によって定義することができる。例えば、ゲノム領域は、10kb以下、20k
b以下、30kb以下、40kb以下、50kb以下、60kb以下、70kb以下、8
0kb以下、90kb以下、100kb以下、110kb以下、120kb以下、130
kb以下、140kb以下、150kb以下、160kb以下、170kb以下、180
kb以下、190kb以下、x200kb以下、又は250kb以下を含むことができる
。ゲノム領域は、対象の種の参照ゲノムを複数のセグメント(すなわち、ゲノム領域)に
分割することによって定義することができる。例えば、参照ゲノムは、1,000個の領
域、2,000個の領域、4,000個の領域、6,000個の領域、8,000個の領
域、10,000個の領域、12,000個の領域、14,000個の領域、16,00
0個の領域、18,000個の領域、20,000個の領域、22,000個の領域、2
4,000個の領域、26,000個の領域、28,000個の領域、30,000個の
領域、32,000個の領域、34,000個の領域、36,000個の領域、38,0
00個の領域、40,000個の領域、42,000個の領域、44,000個の領域、
46,000個の領域、48,000個の領域、50,000個の領域、55,000個
の領域、60,000個の領域、65,000個の領域、70,000個の領域、80,
000個の領域、90,000個の領域、又は最大100,000個の領域まで分割され
る。対象のシークエンスリードは、例えば、その内容が参照により本明細書に組み込まれ
る米国特許出願第2019/0287649号に記載されているように、対象の全ての染
色体領域にわたる平均読み取りカウントに対して正規化することができる。コピー数デー
タは、例えば、潜在的な交絡因子によって引き起こされるシークエンシングデータの分散
を低減又は排除するために、更に正規化することができる。正規化は、サンプル内の中心
傾向の指標を中心とすること、参照サンプル又はコホートからのデータを中心とすること
、GC含量についての正規化、及び主成分分析(PCA)補正のうちの1つ以上を伴うこ
とができる。追加的又は代替的に、正規化は、米国特許出願第2019/0287649
号に記載されているように、Bスコア処理を含んでもよい。
【0155】
複数のゲノム特性は、複数のメチル化状態(例えば、領域メチル化状態)を含むことが
でき、複数のメチル化状態中の各メチル化状態は、複数の遺伝子位置のうちの異なる遺伝
子位置に対応する。いくつかの実施態様において、各メチル化状態は、例えば、参照によ
りその全体が本明細書に組み込まれる米国特許出願第2019/0287652号に記載
されるようなメチル化状態ベクトルによって表される。複数のメチル化状態は、複数のプ
ローブを使用する標的DNAメチル化シークエンシングによって得ることができる。複数
のプローブは、ヒトゲノム内の少なくとも100の遺伝子座にハイブリダイズすることが
できる。他の実施態様では、複数のプローブは、ヒトゲノム内の少なくとも250、50
0、750、1000、2500、5000、10,000、25,000、50,00
0、100,000、又はそれ以上の遺伝子座にハイブリダイズする。疾患状況(例えば
、がん)を分類するための有益なメチル化遺伝子座を同定する方法は、例えば、米国特許
出願公開番号2019/0287649に記載されている。メチル化データは、例えば、
潜在的な交絡因子によって引き起こされるシークエンシングデータの分散を低減又は排除
するために、正規化することができる。いくつかの実施態様において、正規化は、サンプ
ル内の中心傾向の指標を中心とすること、参照サンプル又はコホートからのデータを中心
とすること、GC含量についての正規化、及び主成分分析(PCA)補正のうちの1つ以
上を伴うことができる。メチル化データの正規化に関するさらなる説明は、例えば、米国
特許出願第2019/0287652号及び米国特許出願第2019/0287649号
に含まれており、これら両出願の開示は、参照により本明細書に組み込まれる。
【0156】
ゲノムデータ構成体(例えば、訓練、増強、及び/又はテスト遺伝子型データ構成体)
中の複数のゲノム特性は、第1の複数のビン値(例えば、領域メチル化状態)を含むこと
ができる。第1の複数のビン値中の各それぞれのビン値は、複数のビン中の対応するビン
を表すことができる。第1の複数のビン値中の各それぞれのビン値は、複数のビン中の対
応するビンにマッピングされる核酸フラグメントシークエンスの対応するセット(例えば
、トレーニングセット、増強セット、又はテストセット)から特定される所定のメチル化
パターンを有する固有の核酸フラグメントの数の代表とすることができる。複数のビン中
の各ビンは、対象の種の参照ゲノムの非重複領域を表すことができる。
【0157】
III.C. がん分類器の訓練
【0158】
図6Aは、一実施態様による、がん分類器を訓練するプロセス600を説明するフロー
チャートである。分析システムは、異常なフラグメントのセット及びがんタイプのラベル
を各々有する複数のトレーニングサンプルを取得する(510)。複数のトレーニングサ
ンプルは、「非がん」の一般的なラベルを有する健康な個人からのサンプル、「がん」の
一般的なラベル又は特定のラベル(例えば、「乳がん」、「肺がん」等)を有する対象か
らのサンプルの任意の組合せを含むことができる。あるがんタイプの対象からのトレーニ
ングサンプルは、そのがんタイプに対するコホート又はがんタイプコホートと称されても
よい。
【0159】
分析システムは、各トレーニングサンプルに対して、トレーニングサンプルの異常なフ
ラグメントのセットに基づく特徴ベクトルを決定する(520)。分析システムは、Cp
G部位の初期セット中の各CpG部位について異常スコアを計算することができる。Cp
G部位の初期セットは、ヒトゲノム内の全てのCpG部位又はその一部であってよく、1
04、105、106、107、108等のオーダーであってよい。一実施態様において
、分析システムは、CpG部位をくみこむ異常なフラグメントのセット中の異常なフラグ
メントが存在するかに基づいて、バイナリスコアで特徴ベクトルに対する異常スコアを定
義する。別の実施態様では、分析システムは、CpG部位に重なる異常なフラグメントの
カウントに基づいて異常スコアを定義する。一例では、分析システムは、異常なフラグメ
ントの存在の欠如に対して第1のスコア、少数の異常なフラグメントの存在に対して第2
のスコア、及び少数より多い異常なフラグメントの存在に対して第3のスコアを割り当て
る三元スコアリングを使用してもよい。例えば、分析システムは、CpG部位と重なるサ
ンプル中の異常なフラグメントを5つカウントし、5つのカウントに基づいて異常スコア
を計算する。
【0160】
トレーニングサンプルについて全ての異常スコアが決定されると、分析システムは、各
要素に対して、初期セット中のCpG部位の1つに紐づく異常スコアの1つを含む要素の
ベクトルとして、特徴ベクトルを決定することができる。分析システムは、サンプルのカ
バレッジに基づいて、特徴ベクトルの異常スコアを正規化することができる。ここで、カ
バレッジは、分類器で使用されるCpG部位の初期セットによってカバーされる、又は所
与のトレーニングサンプルに対する異常なフラグメントのセットに基づく全てのCpG部
位にわたる中央値又は平均シークエンス深度を指すことができる。
【0161】
一例として、ここで、訓練特徴ベクトルのマトリクス622を示す
図6Bを参照する。
この例では、分析システムは、がん分類器のための特徴ベクトルを生成する際に考慮すべ
きCpG部位[K]626を特定している。分析システムは、トレーニングサンプル[N
]624を選択する。分析システムは、トレーニングサンプル[n1]に対する特徴ベク
トルで使用される第1の任意のCpG部位[k1]に対して、第1の異常スコア628を
決定する。分析システムは、異常なフラグメントのセット中の各異常なフラグメントをチ
ェックする。分析システムが、第1のCpG部位を含む少なくとも1つの異常なフラグメ
ントを同定する場合、分析システムは、
図6Bに図示されるように、第1のCpG部位に
対する第1の異常スコア628を1として決定する。第2の任意のCpG部位[k2]を
考慮すると、分析システムは、第2のCpG部位[k2]を含む少なくとも1つに対して
異常なフラグメントのセットを同様にチェックする。分析システムが、第2のCpG部位
を含むそのような異常なフラグメントを発見しない場合、分析システムは、
図6Bに図示
されるように、第2のCpG部位[k2]に対する第2の異常スコア629を0に決定す
る。分析システムがCpG部位の初期セットに対する全ての異常スコアを決定すると、分
析システムは、第1のCpG部位[k1]に対する1の第1の異常スコア628及び第2
のCpG部位[k2]に対する0の第2の異常スコア629とそれに続く異常スコアとを
含む特徴ベクトルを有する異常スコアを含む第1のトレーニングサンプル[n1]に対す
る特徴ベクトルを決定し、このように特徴ベクトル[1,0,...]を形成する。
【0162】
サンプルの特徴付けに対する追加のアプローチは、「Model-Based Featurization and
Classification」と題する米国出願第15/931,022号、「Mixture Model for Ta
rgeted Sequencing」と題する米国出願第16/579,805号、「Anomalous Fragmen
t Detection and Classification」と題する米国出願第16/352,602号、及び「
Source of Origin Deconvolution Based on Methylation Fragments in Cell-Free DNA S
amples」と題する米国出願第16/723,716号に見つけられ得、これらは全て、参
照によりその全体が組み込まれるものとする。
【0163】
分析システムは、がん分類器の使用のために考慮されるCpG部位を更に制限してもよ
い。分析システムは、CpG部位の初期セット中の各CpG部位について、トレーニング
サンプルの特徴ベクトルに基づく情報利得を計算する(530)。ステップ520から、
各トレーニングサンプルは、ヒトゲノム内の全てのCpG部位まで含み得るCpG部位の
初期セット中の全てのCpG部位の異常スコアを包含する場合のある特徴ベクトルを有す
る。しかしながら、CpG部位の初期セット中のいくつかのCpG部位は、がんタイプを
区別する上で他のCpG部位ほど有益でない場合があり、又は他のCpG部位と重複して
いる場合がある。
【0164】
一実施態様において、分析システムは、各がんタイプについて、情報利得を計算し(5
30)、かつ初期セット中の各CpG部位について、そのCpG部位を分類器に含めるか
を決定する。情報利得は、他の全てのサンプルと比較して、所与のがんタイプを有するト
レーニングサンプルについて計算される。例えば、2つのランダム変数「異常なフラグメ
ント」(「AF」)及び「がんタイプ」(「CT」)が使用される。一実施態様において
、AFは、上記の異常スコア/特徴ベクトル対して決定されたように、所与のサンプル中
の所与のCpG部位に重なる異常なフラグメントが存在するか否かを示すバイナリ変数で
ある。CTは、がんが特定のタイプであるかを示すランダム変数である。分析システムは
、AFが与えられたCTに関する相互情報を計算する。すなわち、特定のCpG部位に重
なる異常なフラグメントがあるかわかる場合、がんタイプについての情報が何ビット得ら
れるかを計算する。実際には、第1のがんタイプについて、分析システムは、他の各がん
にタイプに対するペアワイズ相互情報利得を計算し、他のすべてのがんにタイプにわたる
相互情報利得の合計を計算する。
【0165】
所与のがんタイプについて、分析システムは、CpG部位がどの程度がんに特異的であ
るかに基づいてCpG部位をランク付けするために、この情報を使用することができる。
この手順は、検討中であるすべてのがんタイプに対して繰り返すことができる。特定の領
域が、所与のがんのトレーニングサンプルでは一般的に異常にメチル化されているが、他
のがん型のトレーニングサンプル又は健康なトレーニングサンプルではそうでない場合、
それらの異常なフラグメントによって重なるCpG部位は、所与のがんタイプに対して高
い情報利得を有することができる。各がんタイプに対するランク付けされたCpG部位は
、がん分類器において使用するために、そのランクに基づいて選択されたCpG部位のセ
ットに積極的に追加(選択)することができる(540)。
【0166】
追加の実施態様において、分析システムは、がん分類器で使用するための有益なpG部
位を選択するための他の選択基準を考慮してもよい。1つの選択基準は、選択されたCp
G部位が他の選択されたCpG部位から閾値分離を超えるものであってもよい。例えば、
選択されたCpG部位は、閾値分離内にあるCpG部位は、がん分類器において考慮する
ために両方選択されないように、任意の他の選択されたCpG部位から閾値の塩基対の数
を超えて離れていること(例えば、100塩基対)である。
【0167】
一実施態様において、初期セットからの選択されたCpG部位のセットに従って、分析
システムは、必要に応じて、トレーニングサンプルの特徴ベクトルを修正してもよい(5
50)。例えば、分析システムは、選択されたCpG部位のセット中にないCpG部位に
対応する異常スコアを除去するために、特徴ベクトルを切り捨ててもよい。
【0168】
トレーニングサンプルの特徴ベクトルを用いて、分析システムは、多数の方法のいずれ
かでがん分類器を訓練してもよい。特徴ベクトルは、ステップ520からのCpG部位の
初期セット又はステップ550からの選択されたCpG部位のセットに対応してもよい。
一実施態様において、分析システムは、トレーニングサンプルの特徴ベクトルに基づいて
、がんと非がんとを区別するために、バイナリがん分類器を訓練する(560)。この態
様では、分析システムは、健康な個体からの非がんサンプルと対象からのがんサンプルの
両方を含むトレーニングサンプルを使用する。各トレーニングサンプルは、「がん」又は
「非がん」の2つのラベルのうちの1つを有することができる。この実施態様では、分類
器は、がんの存在又は非存在の可能性を示すがん予測を出力する。
【0169】
別の実施態様において、分析システムは、多くのがんタイプ(発生組織(TOO)ラベ
ルとも呼ばれる)を区別するために、マルチクラスがん分類器を訓練する(450)。が
んタイプは、1つ以上のがんを含むことができ、かつ非がんタイプを含んでもよい(さら
に、任意の追加の他の疾患又は遺伝性疾患などもまた含んでもよい)。そのために、分析
システムは、がんタイプのコホートを使用することができ、かつ非がんタイプのコホート
を含んでもよく、又は含まなくてもよい。このマルチがんの実施態様では、がん分類器は
、分類されているがんタイプの各々に対する予測値を備えるがん予測(または、より具体
的には、TOO予測)を決定するように訓練される。予測値は、所与のトレーニングサン
プル(及び推論中、テストサンプル)ががんタイプの各々を有する尤度に対応してもよい
。一実施態様において、予測値は0~100の間でスコア化され、予測値の累積は100
に等しい。例えば、がん分類器は、乳がん、肺がん、及び非がんに対する予測値を含むが
ん予測を返す。例えば、分類器は、テストサンプルが乳がんの可能性65%、肺がんの可
能性25%、及びがんでない可能性10%であるというがん予測を返すことができる。分
析システムは、更に予測値を評価して、サンプルにおける1つ以上のがんの存在の予測を
生成してもよく、また、1つ以上のTOOラベル、例えば、最も高い予測値を有する第1
のTOOラベル、2番目に高い予測値を有する第2のTOOラベルなどを示すTOO予測
として参照してもよい。上記の例を続け、パーセンテージが与えられると、この例では、
システムは、乳がんが最も高い尤度を有することを考慮して、サンプルが乳がんを有する
と決定してもよい。
【0170】
両方の実施態様において、分析システムは、トレーニングサンプルのセットとともにそ
の特徴ベクトルをがん分類器に入力し、かつ分類器の関数が訓練特徴ベクトルを対応する
ラベルに正確に関連付けるように分類パラメータを調整することによって、がん分類器を
訓練する。分析システムは、がん分類器の反復バッチ訓練のために、トレーニングサンプ
ルを1つ以上のトレーニングサンプルのセットにグループ化してもよい。それらの訓練特
徴ベクトルを含むトレーニングサンプルのすべてのセットを入力し、かつ分類パラメータ
を調整した後、がん分類器を、いくつかの誤差の余地内でそれらの特徴ベクトルに従って
テストサンプルをラベル付けするように十分に訓練してもよい。分析システムは、多数の
方法のうちのいずれか1つに従って、がん分類器を訓練することができる。一例として、
バイナリがん分類器は、対数損失関数を用いて訓練されるL2正則化ロジスティック回帰
分類器であってよい。別の例として、マルチがん分類器は、多項ロジスティック回帰であ
ってもよい。実際には、いずれのタイプのがん分類器も、他の技法を使用して訓練しても
よい。これらの技法は、カーネル法、ランダムフォレスト分類器、混合モデル、オートエ
ンコーダモデル、多層ニューラルネットワークなどのような機械学習アルゴリズムの潜在
的な使用を含む多数なものである。
【0171】
いくつかの実施態様において、補完的データ構成体は、(例えば、ランダムサンプリン
グによって補完的データ構成体要素が導出された元のコホートデータと併せて)2つ以上
の疾患状態を区別する分類器を訓練するために使用することができる。トレーニングデー
タセットは、疾患状況の第1の状態とは異なる疾患状況の第2の状態を有する訓練対象の
第2のコホートに対する第2の複数のゲノムデータ構成体を更に含むことができる。第2
の複数のゲノムデータ構成体は、それぞれの訓練対象から得られた対応する生体サンプル
中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれの
ゲノムデータ構成体を含むことができる。本方法は、少なくとも(i)第1の複数のゲノ
ムデータ構成体、(ii)第2の複数のゲノムデータ構成体、(iii)複数の補完的ゲ
ノムデータ構成体、並びに(iv)第1の複数の遺伝子型データ構成体、第2の複数のゲ
ノムデータ構成体、及び複数の補完的ゲノムデータ構成体中の各それぞれのゲノムデータ
構成体に対する疾患状況の状態の指標、を使用して疾患状況の状態を判別する分類器を訓
練するステップを含むことができる。
【0172】
訓練は、訓練対象の第3のコホートに対する第3の複数の遺伝子型データ構成体を追加
で使用することができる。第3の複数のゲノムデータ構成体は、それぞれの訓練対象から
得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特
性についての値を含む、それぞれのゲノムデータ構成体を含むことができる。第3のコホ
ート中の各訓練対象は、疾患状況の第3の状態を有することができる。このような中で、
分類器は、疾患状況の第1、第2、及び第3の状態を区別するように訓練することができ
る。訓練は、それぞれの訓練対象の1つ以上の個人的特徴を追加で使用することができる
。例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、擬人データ
等のうちの1つ以上が使用される。
【0173】
補完的ゲノムデータ構成体の1つ以上は、異なるコホート、例えば、疾患コホート及び
健康コホートからのデータ構成体からランダムにサンプリングされた生物学的特性(例え
ば、核酸フラグメントシークエンス)の混合物から形成することができる。複数の補完的
ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、対応するゲノムデー
タ構成体の対に対応することができる。ゲノムデータ構成体の対は、(i)第1の複数の
ゲノムデータ構成体からのそれぞれのゲノムデータ構成体(例えば、疾患対象に対応する
)、及び(ii)第2の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体
(例えば、健康な対象に対応する)を備えることができる。複数の補完的ゲノムデータ構
成体中のそれぞれの補完的ゲノムデータ構成体は、対応するゲノムデータ構成体の対の各
ゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率サ
ンプリングに由来する増強値を含むことができる。
【0174】
複数の補完的ゲノムデータ構成体中の少なくとも1つのそれぞれの補完的ゲノムデータ
構成体に対して、第2の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体
は、それぞれの補完的ゲノムデータ構成体の複数の遺伝子型特性に対する増強値を導出す
る前に増強することができる。複数のゲノム特性中の各それぞれのゲノム特性に対する増
強値は、(i)第1の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体か
らのそれぞれのゲノム特性の第1の重み寄与、及び(ii)第2の複数の遺伝子型データ
構成体からのそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の第2の重み寄
与から形成することができる。このような中で、各元データセットから寄与される疾患信
号の割合を制御することにより、補完的データ構成体において有益な核酸画分(例えば、
がんを考慮するときの腫瘍分画)を得ることができる。
【0175】
同じコホート又は異なるコホート中の対象に由来する生物学的情報を混合するとき、デ
ータ構成体は、データ構成体に対応する対象の1つ以上の個人的特徴を、例えば、そのよ
うな個人的特徴によってもたらされる生物学的分散を説明するために、マッチさせること
によって選択することができる。複数の補完的ゲノムデータ構成体中の各それぞれの補完
的ゲノムデータ構成体に対して、(i)第1の複数のゲノムデータ構成体からのそれぞれ
のゲノムデータ構成体に対応するそれぞれの訓練対象、及び(ii)ゲノムデータ構成体
の対に対応する、第2の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体
に対応するそれぞれの訓練対象は、共有される個人的特徴に基づいてマッチさせることが
できる。
【0176】
人工的に生成された時系列データセットは、2つ以上の疾患状態を区別するための分類
器を訓練するために使用することができる。したがって、疾患状況の状態を判別するため
の時間的分類器を訓練することは、少なくとも(i)訓練対象の第1のコホート中の各そ
れぞれの訓練対象に対して、それぞれの時系列データセット、(ii)訓練対象の第1の
コホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット中の各それ
ぞれのゲノムデータ構成体についてのそれぞれの時点、又はその派生物を含むそれぞれの
複数の時点、及び(iii)訓練対象の第1のコホート中の各それぞれの訓練対象に対し
て、それぞれの複数の時点における少なくとも最も早いそれぞれの時点及び最も遅いそれ
ぞれの時点に対する疾患状況の表示、を使用することができる。訓練は、それぞれの訓練
対象の1つ以上の個人的特徴を使用することができる。例えば、性別、年齢、家族病歴、
個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの1つ以上が挙げられる。
分類器の詳細については、本明細書の他の箇所で記載されている。
【0177】
がんの進行を模擬する時系列を表す人工的に作成されたデータを使用して時間的分類器
を訓練する方法は、電子フォームで、トレーニングデータセットを得ることを含むことが
でき(例えば、時系列トレーニングデータ)、複数の訓練対象中のそれぞれの訓練対象に
対して、(1)それぞれの訓練対象に対するそれぞれの第1のゲノムデータ構成体であっ
て、それぞれの第1のゲノムデータ構成体は、それぞれの第1の時点(例えば、時系列ト
レーニングデータ点)におけるそれぞれの訓練対象から得られた第1の生体サンプル中の
第1のそれぞれの複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞ
れの第1のゲノムデータ構成体、(2)それぞれの訓練対象に対するそれぞれの第2のゲ
ノムデータ構成体であって、それぞれの第2のゲノムデータ構成体は、それぞれの第1の
時点の後に起こるそれぞれの第2の時点(例えば、増強された時系列データ点)における
それぞれの訓練対象の代表的な複数のゲノム特性についての値を含むそれぞれの第2のゲ
ノムデータ構成体、(3)それぞれの第1の時点及びそれぞれの第2の時点、又はその派
生物(例えば、第1及び第2のデータ点が対応する時間又は2つの時点間の時間量)、並
びに(4)それぞれの訓練対象の、それぞれの第1の時点及びそれぞれの第2の時点にお
ける、疾患状況のセット中の疾患状況の表示、を含む。
【0178】
本方法は、その後、各それぞれの訓練対象について、少なくとも(a)それぞれの第1
のゲノムデータ構成体、(b)それぞれの第2のゲノムデータ構成体、(c)それぞれの
第1の時点及びそれぞれの第2の時点、又はその派生物、並びに(d)それぞれの第1の
時点及びそれぞれの第2の時点における疾患状況の表示に対して、時間的分類アルゴリズ
ムを訓練することを含むことができる。複数の訓練対象中の少なくとも1つのそれぞれの
訓練対象について、それぞれの第2のゲノムデータ構成体は、それぞれの訓練対象から得
られた第2の生体サンプルからのそれぞれの第2の複数の核酸フラグメント、及び疾患状
況の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られ
たスパイクイン生体サンプルからのそれぞれの第3の複数の核酸フラグメントからの複数
のゲノム特性についての値を含むことができる。
【0179】
それぞれの第2のゲノムデータ構成体は、複数のゲノム特性中の各それぞれのゲノム特
性に対して、(i)第2の複数の核酸フラグメント中のそれぞれのゲノム特性の値に寄与
する核酸フラグメント、及び(ii)第3の複数の核酸フラグメント中のそれぞれのゲノ
ム特性の値に寄与する核酸フラグメント、の確率サンプリングに由来する増強値を含むこ
とができる。サンプリングは、スパイクインサンプルからの生体疾患信号をトレーニング
データ構成体からのバックグラウンドで希釈し、訓練対象が疾患状態の進行を経験した後
の第2の時間における訓練対象の代表的なデータ構成体を生成することとして考えること
ができる。
【0180】
それぞれの第3のゲノムデータ構成体は、それぞれの第2の時点、それぞれの第3の時
点、又はそれぞれの第2の時点及びそれぞれの第3の時点の派生物(例えば、時点間の期
間)の後に起こるそれぞれの第3の時点における、それぞれの訓練対象の代表的な複数の
ゲノム特性についての値、並びにそれぞれの訓練対象の、それぞれの第3の時点における
、疾患状況の状態のセット中の疾患状況の状態の指標を含むことができる。複数の訓練対
象中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの第3のゲノムデータ構
成体は、それぞれの訓練対象から得られた第3の生体サンプルからのそれぞれの第4の複
数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態を有
するスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第5の複
数の核酸フラグメントからの複数のゲノム特性に対する値を含むことができる。
【0181】
それぞれの第2の複数の核酸フラグメント及びそれぞれの第4の複数の核酸フラグメン
トは、それぞれの訓練対象から得られた同一の生体サンプルからの同一の無細胞核酸であ
り得る。この状況では、第2のゲノムデータ構成体を形成するために使用される訓練対象
からの同じバックグラウンドサンプルは、例えば、異なるスパイクインサンプルからの生
体信号又は同じスパイクインサンプルからの異なる量の生体信号と混合することによって
、第3の遺伝子型データ構成体を形成するために使用することができる。
【0182】
それぞれの第3の複数の核酸フラグメント及びそれぞれの第5の複数の核酸フラグメン
トは、スパイクイン対象から得られた同一のスパイクイン生体サンプルからの同一の無細
胞核酸であり得る。この状況では、第2の遺伝子型データ構成体を形成するために使用さ
れるスパイクイン対象からの同じスパイクインサンプルは、例えば、第2の遺伝子型デー
タ構成体を構築するために使用されるのと同じ又は異なるバックグラウンドサンプルであ
る場合があるバックグラウンドサンプルからの生体信号と異なる割合で混合することによ
って、第3の遺伝子型データ構成体を形成するために使用することができる。それぞれの
第2の遺伝子型データ構成体中の複数のゲノム特性についての値は、(i)それぞれの第
2の複数の核酸フラグメントの複数のゲノム特性についての値と、(ii)それぞれの第
3の複数の核酸フラグメントの複数のゲノム特性についての値とのそれぞれの第1の重み
混合物を含むことができる。それぞれの第3のゲノムデータ構成体中の複数のゲノム特性
についての値は、(i)それぞれの第2の複数の核酸フラグメントの複数のゲノム特性に
ついての値と、(ii)それぞれの第3の複数の核酸フラグメントの複数のゲノム特性に
ついての値とのそれぞれの第2の重み混合物を含むことができる。それぞれの第2の重み
混合物は、それぞれの第1の重み混合物よりも、それぞれの第3の複数の核酸フラグメン
トの複数のゲノム特性についての値に対してより重く重み付けすることができる。
【0183】
確率サンプリングは、複数の遺伝子型特性についての値に寄与するそれぞれの第2の複
数の核酸フラグメントのそれぞれの第1の部分と、複数の遺伝子型特性についての値に寄
与するそれぞれの第3の複数の核酸フラグメントのそれぞれの第2の部分とを選択するこ
とができ、かつ核酸フラグメントのそれぞれの第1の部分及び核酸フラグメントのそれぞ
れの第2の部分の大きさは、少なくとも(i)第1の時点と第2の時点との間の時間の長
さ、及び(ii)疾患状況の状態のセット中の、スパイクイン対象が罹患している疾患状
況のそれぞれの状態の発展に対する時間モデルに基づいて、決定される。
【0184】
それぞれの第2のゲノムデータ構成体は、第2の生体サンプルからの第2の複数の核酸
フラグメントの第1の量とスパイクイン生体サンプルからの無細胞核酸の第2の量とを一
緒に混合し、それによって無細胞核酸の混合物を形成し、無細胞核酸の混合物からの核酸
フラグメントをシークエンシングし、かつシークエンシングに基づいて複数のゲノム特性
についての値を決定することによって形成することができる。したがって、本方法は、そ
れぞれの訓練対象について、少なくともそれぞれの第1のゲノムデータ構成体、それぞれ
の第2のゲノムデータ構成体、それぞれの第1の時点及びそれぞれの第2の時点又はその
派生物、並びにそれぞれの第1の時点及びそれぞれの第2の時点における疾患状況の表示
に対して時間的分類アルゴリズムを訓練することを含むことができる。いくつかの実施態
様では、時間的分類アルゴリズムは、それぞれの第3のゲノムデータ構成体、それぞれの
第3の時点、又はそれぞれの第2の時点及びそれぞれの第2の時点の導出物、並びにそれ
ぞれの第3の時点におけるそれぞれの訓練対象の疾患状況の状態のセット中の疾患状況の
状態の表示に対して更に訓練される。いくつかの実施態様では、訓練データ構成体は、少
なくとも3、4、5、6、7、8、9、10、又はそれ以上の時点を含む。
【0185】
本方法は、例えば、上述のサンプリング方法に従って生成された滴定増強データセット
を使用する訓練されたモデルを評価することを更に含むことができる。本方法は、テスト
ゲノムデータ構成体(例えば、疾患分類器)を評価することによって、疾患状況を判別す
るように訓練された第1の分類器を得ることを含むことができ、ここで、テストゲノムデ
ータ構成体は、テスト対象から得られた第1の対応する生体サンプル中の対応する第1の
複数の核酸フラグメントの複数のゲノム特性についての値を含む。本方法は、その後、複
数の増強されたゲノムデータ構成体(例えば、増強された単一時点データ又は増強された
時系列データ)を含む増強された評価データセットを取得することを含むことができる。
複数の増強されたゲノムデータ構成体中の各それぞれの増強されたゲノムデータ構成体は
、疾患状況の複数の状態中の疾患状況のそれぞれの状態を有する対象から得られた対応す
る生体サンプルの代表的な対応する複数の核酸フラグメントの複数のゲノム特性について
の値を含むことができる。増強された評価データセットは、複数の増強された遺伝子型デ
ータ構成体中の、疾患状況の複数の状態中の疾患状況の各それぞれの状態の代表的な、例
えば、疾患なしから進行性疾患までまたがる範囲にわたる、それぞれの増強された遺伝子
型データ構成体を含むことができる。本方法は、その後、拡張された評価データセット中
の各それぞれの拡張ゲノムデータ構成体を分類器に独立して適用して、各それぞれの拡張
ゲノムデータ構成体について疾患状態分類を生成し、それによって、複数の疾患状態分類
を生成することを含むことができる。本方法は、その後、複数の疾患状態分類中の各それ
ぞれの疾患状態分類を、対応する増強されたゲノムデータ構成体によって表される疾患状
況のそれぞれの状態の関数として評価し、それによって、分類器の性能を査定することを
含むことができる。
【0186】
一般に、開示された方法は、集団内で表される場合がある疾患状態の範囲にわたって分
類器を評価し、分類器がトレーニングデータにオーバーフィットしたか否かを判定するよ
うにしてもよい。例えば、
図13は、患者サンプル中の無細胞DNAのゲノム特性に基づ
いてがんを検出するために訓練された2つの分類器の評価を図示する。増強された時系列
データ構成体は、本明細書に記載された方法に従って、12人のがん患者のサンプルから
の生物学的がん信号を希釈し、腫瘍分画の希釈系列を0%まで形成し、例えば、がん細胞
からの信号を完全に欠くように、調製されている。次に、希釈系列データを、2つの分類
器に適用し、各データ構成体ががん患者のサンプルから生成された確率(曲線802及び
804)を作り出している。
図13に見られるように、第1の分類器が使用されたとき(
曲線802に対応する)、希釈系列のいくつかは、増強されたデータ構成体ががん信号を
全く包含しないときでさえ(例えば、滴定=0において)、がん患者に由来する非常に高
い確率を有するものとして分類されている(個体1、2、9、及び10を参照のこと)。
これは、モデルがトレーニングデータにオーバーフィットしており、かつ許容できない数
の偽陽性を作り出している可能性が高いことを示す。対照的に、第2の分類器を使用した
とき(曲線804に対応)、モデルによって出力されたがん確率は、各増強された時系列
に対してより緩やかに、かつより一貫して低下し、全ての個体について50%に低下する
か又はそれを下回り、モデルが第1の分類器よりもオーバーフィットでなかったことを示
している。
【0187】
いくつかの実施態様において、がんの複数の状態中の(例えば、複数の増強された遺伝
子型データ構成体中の)各状態は、分類器に対する検出レベルより少なくとも25%低い
無細胞DNA腫瘍分画のベースラインパーセンテージから分類器の検出レベルより少なく
とも25%高い無細胞DNA腫瘍分画の上限パーセンテージに少なくともまたがる無細胞
DNA腫瘍分画の範囲中(624)の無細胞DNA腫瘍分画のサブ範囲を含む。他の実施
態様では、無細胞DNA腫瘍分画のサブ範囲は、分類器に対する検出レベルの5%以内、
若しくは分類器に対する検出レベルの10%、15%、20%、25%、30%、40%
、又は50%以内に収まる。
【0188】
いくつかの実施態様において、複数の心血管疾患の状態中の(例えば、複数の増強され
た遺伝子型データ構成体中の)各状態は、分類器に対する検出レベルより少なくとも25
%低い無細胞DNA心血管組織分率のベースラインパーセンテージから分類器に対する検
出レベルより少なくとも25%高い無細胞DNA心血管組織分率の上限パーセンテージに
少なくともまたがる無細胞DNA腫瘍分画の範囲中(628)の、無細胞DNA腫瘍分画
のサブ範囲を含む。他の実施態様では、無細胞DNA腫瘍分画のサブ範囲は、分類器に対
する検出レベルの5%以内、若しくは分類器に対する検出レベルの10%、15%、20
%、25%、30%、40%、又は50%以内に収まる。
【0189】
分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、
サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズ
ム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、
多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムを含むこ
とができる。
【0190】
いくつかの実施態様では、ハードネガティブマイニングの一形態が、分類器の性能を向
上させるために使用される。例えば、本方法は、性能閾値に不足する性能を有する分類器
の前駆体によって判別される第2の複数のゲノムデータ構成体からゲノムデータ構成体の
サブセットを同定することによって複数の増強された偽陽性ゲノムデータ構成体を得るこ
とと、ゲノムデータ構成体のサブセットを使用して複数の増強された偽陽性遺伝子型デー
タ構成体を生成することと、を含む。各それぞれの増強された偽陽性ゲノムデータ構成体
は、ゲノムデータ構成体のサブセットからの少なくともそれぞれのゲノムデータ構成体に
対応し得、かつ複数の増強された偽陽性ゲノムデータ構成体中の各それぞれのゲノムデー
タ構成体は、ゲノムデータ構成体のサブセットからの少なくともそれぞれのゲノムデータ
構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリング
に由来する増強値を含むことができる。これらの実施態様では、分類器を、複数の増強さ
れた偽陽性ゲノムデータ構成体及び疾患状況の状態の表示に対して更に訓練することがで
きる。
【0191】
多くの異なるモデルが、対象の1つ以上の疾患状況(例えば、がん状態、冠動脈疾患状
況など)を分類するために、生物学的特徴を評価することができる。例えば、米国特許出
願第2019/0287652号は、対象のがん状態を分類するために、例えばcfDN
Aサンプルを使用して、複数のゲノム遺伝子座にわたるメチル化状態を評価するモデルに
ついて記載している。同様に、米国特許出願第2019/0287649号は、対象のが
ん状態を分類するために、例えばcfDNAサンプルを使用して、複数のゲノム遺伝子座
にわたる相対コピー数を評価するモデルについて記載している。そのうえ、対象のがんの
状態を分類するために、バリアント対立遺伝子(例えば、一塩基変異、インデル、欠失、
転座など)の存在を評価する様々なモデルが開発されてきた。他の好適なモデルは、20
19年5月31日に出願された「Convolutional Neural Network Systems and Methods f
or Data Classification」と題する米国特許出願第16/428,575号に開示されて
いる。一般に、対象の疾患状態の分類のために開発された任意のモデルは、本明細書に記
載の増強データセットを使用して訓練され、かつ例えば、テスト対象の疾患状態を判定す
るために、本明細書に記載のシステム及び方法と組み合わせて使用されてもよい。
【0192】
分類器は、対象中の疾患状態の存在を検出するため、例えば、対象中のがん又は冠状動
脈疾患を検出するためにあることができる。本明細書で提供されるシステム及び方法は、
患者データで訓練したモデルの検出限界に近い弱い疾患信号の多くの例を提供する追加の
増強データを使用して訓練することができるので、既存の疾患モデルの感度及び特異性を
改善するのに適し得る。トレーニングデータの収集に紐づく費用、及び患者データは疾患
の初期ステージで収集されないことがよくあるため、トレーニングデータセットには、モ
デルの検出限界付近の疾患信号を有するデータ構成体があまり含まれない場合がある。む
しろ、トレーニングセットは、進行した疾患状態を有する訓練対象からの強い疾患信号の
多くの例と、疾患を持たない訓練対象からの疾患信号のない多くの例と、を有する場合が
ある。しかしながら、疾患の初期ステージを積極的に診断することは困難であるため、ト
レーニングデータセットには、分類器の感度及び特異性を向上させるために重要な中程度
から弱い疾患信号はほとんど含まれない場合がある。
【0193】
一般に、本明細書に記載されるシステム及び方法では、多くの異なる分類アルゴリズム
が使用することができる。例えば、モデルは、ニューラルネットワークアルゴリズム、サ
ポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム
、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、回
帰アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アル
ゴリズムを含むことができる。増強されたデータ構成体の使用は、より深い学習ベースの
モデル、例えば、ニューラルネットワークに対してより、分類器の性能を向上させるより
も、回帰ベースのモデルの性能を向上させることができる。回帰アルゴリズムは、ラッソ
、L2、又はエラスティックネット正則化を有するロジスティック回帰とすることができ
る。いくつかの実施態様では、ロジスティック回帰は、個人特性、例えば、性別、年齢、
家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの1つ以上を更
に含む。
【0194】
疾患状態モデルは、訓練中に調整される特徴に対する学習された重みを含むことができ
る。「重み」という用語は、ここでは、どの特定の機械学習技術が使用されるかにかかわ
らず、モデルの任意の所与の特徴に紐づく学習された量を表すために一般的に使用するこ
とができる。いくつかの実施態様において、がん指標スコアは、1つ以上のDNAシーク
エンス(又はそのDNAシークエンスリード値)に由来する特徴についての値を機械学習
又は深層学習モデルに入力することによって決定される。いくつかの実施態様では、例え
ば、疾患クラス評価モデルがニューラルネットワーク(例えば、従来のニューラルネット
ワーク又は畳み込みニューラルネットワーク)であるとき、疾患分類器の出力は、分類、
例えば、がん陽性又はがん陰性のいずれかである。しかしながら、分類ではなく、モデル
の出力について連続的又は半連続的な値を提供するために、ニューラルネットワークの隠
れ層、例えば、出力層の直前の隠れ層を分類モデルの出力として使用することができる。
【0195】
したがって、モデルは、(i)複数のゲノム特性が第1の次元数を含む複数のゲノム特
性に対する値を受信するための入力層と、(ii)重みのセットを含む埋め込み層であっ
て、埋め込み層が入力層の出力を直接的又は間接的に受信し、かつ埋め込み層の出力が第
1の次元数よりも小さい第2の次元数を有するモデルスコアセットである、埋め込み層と
、(iii)埋め込み層からモデルスコアセットを直接的又は間接的に受信する出力層と
、を含むことができる。そのような実施態様において、第1のモデルスコアセットは、第
1のゲノムデータ構成体を入力層に入力する際の埋め込み層のモデルスコアセットであり
、第2のモデルスコアセットは、第2のゲノムデータ構成体を入力層に入力する際の埋め
込み層のモデルスコアセットである。言い換えれば、モデルスコアセットは、埋め込み層
と名付けられたニューラルネットワーク中の隠れ層に紐づくニューロンのセットの出力と
することができる。埋め込み層中のそのような各ニューロンは、重みと活性化関数とに紐
づけることができ、かつモデルスコアセットは、そのような各活性化関数の出力から成る
。埋め込み層中のニューロンの活性化関数は、整流線形ユニット(ReLU)、tanh
関数、又はシグモイド活性化関数とすることができる。いくつかのそのような実施態様で
は、埋め込み層のニューロンは、入力層の入力の各々に完全に接続することができる。出
力層の各ニューロンは、埋め込み層の各ニューロンに完全に接続することができる。出力
層の各ニューロンは、ソフトマックス活性化関数と紐づけることができる。いくつかの実
施態様では、埋め込み層及び出力層のうちの1つ以上は、完全に接続されていない。
【0196】
III.D. がん分類器の展開
【0197】
がん分類器の使用中、分析システムは、不明ながんタイプの対象からテストサンプルを
得ることができる。分析システムは、異常なフラグメントのセットに達するために、プロ
セス100、200、及び220の任意の組み合わせを用いてDNA分子からなるテスト
サンプルを処理してもよい。分析システムは、プロセス500で論じられた同様の原理に
従って、がん分類器によって使用するためのテスト特徴ベクトルを決定することができる
。分析システムは、がん分類器によって使用される複数のCpG部位中の各CpG部位に
対して異常スコアを計算することができる。例えば、がん分類器は、1,000個の選択
されたCpG部位に対する異常スコアを含めて特徴ベクトルを入力として受信する。分析
システムは、このように、異常なフラグメントのセットに基づいて、1,000個の選択
されたCpG部位に対する異常スコアを含めてテスト特徴ベクトルを決定することができ
る。分析システムは、トレーニングサンプルと同じやり方で異常スコアを計算することが
できる。いくつかの実施態様において、分析システムは、異常スコアを、CpG部位をく
みこむ異常なフラグメントのセット中のハイパーメチル化フラグメント又はハイポメチル
化フラグメントが存在するかに基づく二値スコアとして定義する。
【0198】
分析システムは、その後、テスト特徴ベクトルをがん分類器に入力することができる。
がん分類器の機能は、次に、プロセス600において訓練された分類パラメータ及びテス
ト特徴ベクトルに基づいて、がん予測を生成することができる。第1の態様では、がん予
測は二値であり、かつ「がん」又は「非がん」からなるグループから選択することができ
る。第2の態様では、がん予測は多くのがんタイプ及び「非がん」からなるグループから
選択される。追加の実施態様では、がん予測は、多くのがんタイプの各々について予測値
を有する。さらに、分析システムは、テストサンプルががんタイプの1つである可能性が
最も高いと判定してもよい。テストサンプルに対するがん予測が乳がんの可能性65%、
肺がんの可能性25%、及び非がんの可能性10%を有する上記の例に従うと、分析シス
テムは、テストサンプルが乳がんを有する可能性が最も高いと判定してもよい。別の例で
は、がん予測が、がんでない可能性が60%、がんの可能性が40%という二値であると
き、分析システムは、テストサンプルががんでない可能性が最も高いと判定する。追加の
実施態様において、最も高い尤度を有するがん予測は、テスト対象がそのがんタイプを有
すると呼ぶために、やはり閾値(例えば、40%、50%、60%、70%)と比較され
てもよい。最も高い尤度を有するがん予測がその閾値を超えない場合、分析システムは、
決定的でない結果を返してもよい。
【0199】
追加の実施態様において、分析システムは、プロセス600のステップ560で訓練さ
れたがん分類器を、ステップ570又はプロセス500で訓練された別のがん分類器とつ
なげる。分析システムは、テスト特徴ベクトルを、プロセス600のステップ560でバ
イナリ分類器として訓練されたがん分類器に入力することができる。分析システムは、が
ん予測の出力を受信することができる。がん予測は、テスト対象ががんを有する可能性が
高いか、またはがんを有しない可能性が高いかについての二値であってもよい。他の実施
態様において、がん予測は、がんの可能性及び非がんの可能性を記述する予測値を含む。
例えば、がん予測は、85%のがん予測値及び15%の非がん予測値を有する。分析シス
テムは、テスト対象ががんである可能性が高いと判定してもよい。分析システムは、テス
ト対象ががんを有する可能性が高いと判定すると、分析システムは、異なるがんタイプ間
を区別するようにテスト特徴ベクトルを訓練されたマルチクラスがん分類器に入力しても
よい。マルチクラスがん分類器は、テスト特徴ベクトルを受信し、かつ複数のがんタイプ
のがんタイプのがん予測を返すことができる。例えば、マルチクラスがん分類器は、テス
ト対象が卵巣がんである可能性が最も高いことを指定するがん予測を提供する。別の実施
態様では、マルチクラスがん分類器は、複数のがんタイプの各がんタイプについて予測値
を提供する。例えば、がん予測は、40%の乳がんタイプ予測値、15%の大腸がんタイ
プ予測値、及び45%の肝臓がん予測値を含んでもよい。
【0200】
二値がん分類の一般化された実施態様によれば、分析システムは、テストサンプルのシ
ークエンシングデータ(例えば、メチル化シークエンシングデータ、SNPシークエンシ
ングデータ、他のDNAシークエンシングデータ、RNAシークエンシングデータなど)
に基づいて、テストサンプルのがんスコアを決定することができる。分析システムは、テ
ストサンプルががんを有する可能性が高いか否かを予測するための二値閾値カットオフに
対して、テストサンプルのがんスコアを比較することができる。二値閾値カットオフは、
1つ以上のTOOサブタイプクラスに基づくTOO閾値を使用して調節することができる
。分析システムは、1つ以上の可能性の高いがんタイプを示すがん予測を決定するために
、マルチクラスがん分類器で使用するためのテストサンプルの特徴ベクトルを更に生成し
てもよい。
【0201】
分類器は、テスト対象、例えば、疾患状況が不明である対象の疾患状態を判定するため
に使用されてもよい。本方法は、テスト対象から得られた生体サンプル中の対応する複数
の核酸フラグメントの複数のゲノム特性中の各ゲノム特性に対する値を含む、電子フォー
ムのテストゲノムデータ構成体(例えば、単一時点テストデータ)を得ることを含むこと
ができる。本方法は、その後、テストゲノムデータ構成体をテスト分類器に適用して、そ
れによってテスト対象における疾患状況の状態を決定することを含むことができる。テス
ト対象は、以前に疾患状況を有すると診断されていない場合がある。
【0202】
分類器は、少なくとも(i)第1の時点においてテスト対象から取得した第1の生体サ
ンプルから生成された第1のテストゲノムデータ構成体、及び(ii)第2の時点におい
てテスト対象から取得した第2の生体サンプルから生成された第2のテストゲノムデータ
構成体を使用する時間的分類器とすることができる。
【0203】
訓練された分類器は、テスト対象、例えば、疾患状況が不明である対象の疾患状態を判
定するために使用することができる。この場合、本方法は、テスト対象について、電子フ
ォームで、テスト時系列データセットを取得することを含むことができ、テスト時系列デ
ータセットは、複数の時点におけるそれぞれの時点に対して、それぞれの時点においてテ
スト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数
の遺伝子型特性についての値を含む対応するテスト遺伝子型データ構成体と、複数の時点
における連続する時点のそれぞれの対に対して、連続する時点の各それぞれの対間の時間
の長さを示す表示と、を含む。本方法は、その後、テスト遺伝子型データ構成体をテスト
分類器に適用して、それによってテスト対象における疾患状況の状態を決定することを含
むことができる。テスト対象は、以前に疾患状況を有すると診断されたことがない場合が
ある。
【0204】
IV.応用
【0205】
いくつかの実施態様において、本発明の方法、分析システム、及び/又は分類器は、が
んの存在を検出するため、がんの進行又は再発を監視するため、具体的な治療反応又は効
果を監視するため、最小残存病変(MRD)の存在を判定又は監視するため、若しくはそ
れらの任意の組合せに使用することができる。例えば、本明細書に記載されるように、分
類器は、テスト特徴ベクトルががんを有する対象からのものである可能性を記述する確率
スコア(例えば、0から100まで)を生成するために使用することができる。いくつか
の実施態様において、確率スコアは、対象ががんを有するか又は有さないかを判定するた
めに閾値確率と比較される。他の実施態様では、尤度又は確率スコアを、疾患の進行を監
視し、又は治療の有効性(例えば、具体的な治療効果)を監視するために、多数の異なる
時点(例えば、治療の前又は後)で査定することができる。さらにまだ他の実施態様では
、臨床的決定(例えば、がんの診断、治療選択、治療の有効性の評価など)をする、又は
、臨床的決定に影響を与えるために、尤度スコア又は確率スコアを使用するができる。例
えば、一実施態様では、確率スコアが閾値を超える場合、医師は適切な治療を処方するこ
とができる。
【0206】
IV.A.がんの早期検出
【0207】
いくつかの実施態様において、本発明の方法及び/又は分類器は、がんを有することが
疑われる対象におけるがんの存在又は不在を検出するために使用される。例えば、分類器
(例えば、セクションIIIで上述され、かつセクションVで検討される)は、テスト特
徴ベクトルががんを有する対象からのものである尤度を記述するがん予測を決定するため
に使用することができる。
【0208】
一実施態様において、がん予測は、テストサンプルががんを有するかについての尤度(
例えば、0~100との間のスコア)である(すなわち、二値分類である)。このように
、分析システムは、テスト対象ががんを有するか否かを判定するための閾値を決定しても
よい。例えば、60以上のがん予測は、テスト対象ががんを有することを示し得る。さら
にまだ他の実施態様では、65以上、70以上、75以上、80以上、85以上、90以
上、または95以上のがん予測は、テスト対象ががんを有していることを示す。他の実施
態様では、がん予測は、疾患の重篤度を示すことができる。例えば、80のがん予測は、
80を下回るがん予測(例えば、70の確率スコア)と比較して、より重篤の形態、又は
より後のステージのがんを示すことができる。同様に、時間の経過に伴う癌の予測値の増
加(例えば、2つ以上の時点において採取された同じ対象からの多数のサンプルからのテ
スト特徴ベクトルの分類によって決定される)は、疾患の進行を示すことができ、又は時
間の経過に伴う癌の予測値の減少は、治療の成功を示すことができる。
【0209】
別の実施態様において、がん予測は、多くの予測値を備え、分類されるための複数のが
んタイプの各々(すなわち、マルチクラス分類)は、予測値(例えば、0~100の間で
スコア化される)を有する。予測値は、所与のトレーニングサンプル(及び推論中、トレ
ーニングサンプル)ががんタイプの各々を有する尤度に対応してもよい。分析システムは
、最も高い予測値を有するがんタイプを同定し、かつテスト対象がそのがんタイプを有す
る可能性が高いことを示してもよい。他の実施態様において、分析システムは、最高予測
値を閾値(例えば、50、55、60、65、70、75、80、85など)と更に比較
し、テスト対象がそのがんタイプを有する可能性が高いと判定する。他の実施態様では、
予測値は、また疾患の重篤度を示すこともできる。例えば、80より大きい予測値は、6
0の予測値と比較して、より重篤ながんの形態、又はより後のステージを示してもよい。
同様に、時間の経過に伴う予測値の増加(例えば、2つ以上の時点において採取された同
じ対象からの多数のサンプルからのテスト特徴ベクトルを分類することによって決定され
る)は、疾患の進行を示すことができ、又は時間の経過に伴う予測値の減少は、治療の成
功を示すことができる。
【0210】
本発明の態様によれば、本発明の方法及びシステムは、多数のがんの適応症を検出又は
分類するように訓練することができる。例えば、本発明の方法、システム及び分類器は、
1つ以上、2つ以上、3つ以上、5つ以上、10つ以上、15つ以上、又は20つ以上の
異なるタイプのがんの存在を検出するために使用することができる。
【0211】
本発明の方法、システム、及び分類器を使用して検出することができるがんの例は、が
ん腫、リンパ腫、芽腫、肉腫、及び白血病又はリンパ性悪性腫瘍を含む。そのようながん
のより具体的な例としては、扁平上皮がん(例えば、上皮性扁平上皮がん)、皮膚がん、
メラノーマ、小細胞肺がん、非小細胞肺がん(「NSCLC」)、肺腺癌及び肺扁平上皮
癌、腹膜のがん、胃腸がんを含む胃又は腹部がん、すい臓がん(例えば、。膵管腺がん)
、子宮頸がん、卵巣がん(例えば、高悪性度漿液性卵巣がん)、肝がん(例えば、肝細胞
がん(HCC))、肝細胞がん、肝がん、膀胱がん(例えば。尿路上皮膀胱がん)、精巣
(胚細胞腫瘍)がん、乳がん(例えば、HER2陽性、HER2陰性、及びトリプルネガ
ティブ乳がん)、脳腫瘍(例えば、星細胞腫、グリオーマ(例えば、膠芽腫))、結腸が
ん、直腸がん、大腸がん、内膜又は子宮がん、唾液腺がん、腎臓がん(例えば、腎細胞が
ん、腎芽細胞腫又はウィルムス腫瘍)、前立腺がん、外陰がん、甲状腺がん、肛門がん、
陰茎がん、頭頸部がん、食道がん、並びに鼻咽頭がん(NPC)を含む。がんの追加の例
としては、限定なしで、非ホジキンリンパ腫(NHL)、多発性骨髄腫及び急性血液悪性
腫瘍、子宮内膜症、線維肉腫、絨毛がん、喉頭がん、カポジ肉腫、シュワンノーマ、乏突
起膠腫、神経芽腫、横紋筋肉腫、骨原性肉腫、平滑筋肉腫、及び尿路がんを含むが、これ
に限定されない網膜芽細胞腫、テコマ、アレノブラストーマ、血液悪性腫瘍を含む。
【0212】
いくつかの実施態様において、がんは、肛門がん、膀胱がん、乳がん、子宮頸がん、大
腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、白血病、肺がん、リンパ腫、メラ
ノーマ、多発性骨髄腫、卵巣がん、すい臓がん、前立腺がん、腎臓がん、甲状腺がん、子
宮がん又はこれらの任意の組み合わせの1つ以上である。
【0213】
いくつかの実施態様において、1つ以上のがんは、肛門直腸がん、大腸がん、食道がん
、頭頸部がん、肝胆膵がん、肺がん、卵巣がん、膵臓がん、並びにリンパ腫及び多発性骨
髄腫などのような「高信号」がん(5年がん特異的死亡率が50%を超えるがんとして定
義)とすることができる。高信号のがんはより侵攻性の傾向があり、かつ通常、患者から
得たテストサンプル中の無細胞核酸濃度は平均を超える。
【0214】
IV.B.がん及び治療モニタリング
【0215】
いくつかの実施態様において、がん予測は、疾患の進行を監視するため、又は治療の有
効性(例えば、具体的な治療効果)を監視するために、多数の異なる時点(例えば、また
は治療の前または後)で評価することができる。例えば、本発明は、第1の時点でがん患
者から第1のサンプル(例えば、第1の血漿cfDNAサンプル)を取得し、そこから第
1のがん予測を決定し(本明細書に記載)、第2の時点でがん患者から第2のテストサン
プル(例えば、第2の血漿cfDNAサンプル)を取得し、そこから第2のがん予測を決
定すること(本明細書に記載)を伴う方法を含む。
【0216】
特定の実施態様では、第1の時点は、がん治療の前(例えば、切除手術又は具体的な治
療的介入の前)であり、第2の時点は、がん治療の後(例えば、切除手術又は具体的な治
療的介入の後)であり、かつ分類器は、治療の有効性を監視するために利用される。例え
ば、第2のがん予測値が第1のがん予測値と比較して減少した場合、そのとき、治療は成
功したとみなされる。しかしながら、第2のがん予測値が第1のがん予測値に比べて増加
した場合、そのとき、治療は成功しなかったとみなされる。他の実施態様では、第1及び
第2の時点の両方が、がん治療の前(例えば、切除手術又は具体的な治療的介入の前)で
ある。さらにまだ他の実施態様では、第1の時点及び第2の時点の両方が、がん治療の後
(例えば、切除手術又は具体的な治療的介入の後)である。さらにまだ他の実施態様では
、cfDNAサンプルは、第1及び第2の時点においてがん患者から得られ、分析されて
もよく、例えば、がんの進行を監視するため、がんが寛解しているか(例えば、治療後)
を判断するため、残存疾患又は疾患の再発を監視若しくは検出するため、若しくは治療(
例えば、具体的な治療)効果を監視するためである。
【0217】
当業者であれば、患者におけるがんの状態を監視するために、任意の所望の時点のセッ
トにわたってがん患者からテストサンプルを得て、本発明の方法に従って分析し得ること
を容易に理解するであろう。いくつかの実施態様において、第1及び第2の時点は、約1
、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17
、18、19、20、21、22、23、又は約24時間など、若しくは例えば約1、2
、3、4、5、10、15、20、25又は約30日など、若しくは約1、2、3、4、
5、6、7、8、9、10、11又は12ヶ月など、若しくは約1、1.5、2、2.5
、3、3.5、4、4.5、5、5.5、6、6.5、7、7.5、8、8.5、9、9
.5、10、10.5、11、11.5、12、12.5、13、13.5、14、14
.5、15、15.5、16、16.5、17、17.5、18、18.5、19、19
.5、20、20.5、21、21.5、22、22.5、23、23.5、24、24
.5、25、25.5、26、26.5、27、27.5、28、28.5、29、29
.5又は約30年などのような約15分から約30年までの範囲の時間の量によって分離
される。他の実施態様では、テストサンプルは、少なくとも3ヶ月に1回、少なくとも6
ヶ月に1回、少なくとも1年に1回、少なくとも2年に1回、少なくとも3年に1回、少
なくとも4年に1回、又は少なくとも5年に1回、患者から取得することができる。
【0218】
IV.C.治療
【0219】
さらにまだ別の実施態様では、がん予測は、臨床的決定(例えば、がんの診断、治療選
択、治療効果の評価など)をするため、又は、臨床的決定に影響を与えるために使用する
ことができる。例えば、一実施態様において、がん予測(例えば、がんに対して、又は特
定のがんタイプに対して)が閾値を超える場合、医師は適切な治療(例えば、切除手術、
放射線療法、化学療法、及び/又は免疫療法)を処方することができる。
【0220】
分類器(本明細書に記載)は、サンプル特徴ベクトルががんを有する対象からのもので
あるというがん予測を決定するために使用することができる。一実施態様では、がん予測
が閾値を超えると、適切な治療(例えば、切除手術又は具体的な治療)が処方される。例
えば、一実施態様では、がん予測値が60以上である場合、1つ以上の適切な治療が処方
される。別の実施態様では、がん予測値が65以上、70以上、75以上、80以上、8
5以上、90以上、又は95以上である場合、1つ以上の適切な治療が処方される。他の
実施態様では、がん予測は、疾患の重篤度を示すことができる。次いで、疾患の重篤度に
マッチする適切な治療が処方されてもよい。
【0221】
いくつかの実施態様において、治療は、化学療法剤、標的がん治療剤、分化誘導療法剤
、ホルモン療法剤、及び免疫療法剤からなるグループから選択される1つ以上のがん治療
剤である。例えば、治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン、抗腫瘍抗
生物質、細胞骨格破壊剤(タキサン)、トポイソメラーゼ阻害剤、分裂阻害剤、コルチコ
ステロイド、キナーゼ阻害剤、核酸アナログ、プラチナ系薬剤及びそれらの任意の組み合
わせからなるグループから選択される1つ以上の化学療法剤とすることができる。いくつ
かの実施態様において、治療は、信号伝達阻害剤(例えば、チロシンキナーゼ及び成長因
子受容体阻害剤)、ヒストン脱アセチル化酵素(HDAC)阻害剤、レチノイン受容体作
動薬、プロテオソーム阻害剤、血管新生阻害剤、及びモノクローナル抗体コンジュゲート
からなるグループから選択される1以上の標的がん治療薬である。いくつかの実施態様に
おいて、治療は、トレチノイン、アリトレチノイン及びベキサロテンなどのようなレチノ
イドを含む1つ以上の分化療法剤である。いくつかの実施態様において、治療は、抗エス
トロゲン、アロマターゼ阻害剤、黄体ホルモン、エストロゲン、抗アンドロゲン、及びG
nRHアゴニスト又はアナログからなるグループから選択される1つ以上のホルモン治療
薬である。一実施態様において、治療は、リツキシマブ(RITUXAN)及びアレムツ
ズマブ(CAMPATH)などのようなモノクローナル抗体療法、BCG、インターロイ
キン2(IL-2)、及びインターフェロン-アルファなどのような非特異的免疫療法並
びにアジュバンド、免疫調節薬、例えばサリドマイド及びレナリドミド(REVLIMI
D)を含むグループから選ばれた一つ以上の免疫療法薬である。腫瘍のタイプ、がんのス
テージ、がん治療又は具体的な治療剤への以前の発覚、及びがんの他の特性などの特徴に
基づいて、適切ながん治療剤を選択することは、熟練の医師又は腫瘍学者の能力の範囲内
である。
【0222】
V.がん分類器の結果例
【0223】
V.A. サンプル収集と処理
【0224】
研究デザインとサンプル:CCGA(NCT02889978)は、前向き、多施設、
症例対照、観察研究であり、縦断的な追跡調査が行われている。本テストでは、142施
設からの約15,000人の参加者から非識別化生物サンプルが収集された。サンプルは
トレーニングセット(1,785人)とテストセット(1,015人)に分けられ、各コ
ホートの部位間でがんタイプと非がんとが事前に指定した分布を確保するようにサンプル
を選択し、がん及び非がんサンプルは性別によって頻度年齢をマッチさせた。
【0225】
全ゲノムバイサルファイトシークエンス:cfDNAを血漿から分離し、cfDNAの
解析には全ゲノムバイサルファイトシークエンス(WGBS、深度30倍)を採用した。
cfDNAは、改良型QIAamp循環核酸キット(Qiagen、Germantow
n、MD)を使用して、患者ごとに2本の血漿チューブ(最大合計量10ml)から抽出
した。最大75ngの血漿cfDNAを、EZ-96 DNA メチル化キット(Zym
o Research、D5003)を使用して重亜硫酸塩変換に供した。変換されたc
fDNAは、Accel-NGS Methyl-Seq DNAライブラリー調製キッ
ト(Swift BioSciences;Ann Arbor,MI)を使用してデュ
アルインデックスシークエンシングライブラリを調製するために使用され、構築したライ
ブラリーは、KAPA Library Quantification Kit fo
r Illumina Platforms (Kapa Biosystems; W
ilmington, MA)を使用して定量化した。4つのライブラリーと10%のP
hiX v3ライブラリー(Illumina、FC-110-3001)をプールし、
Illumina NovaSeq 6000 S2フローセル上でクラスタリングした
後、150bpペアエンドシークエンス(30倍)を実施した。
【0226】
各サンプルについて、WGBSフラグメントセットを、異常なメチル化パターンを有す
るフラグメントの小さなサブセットに縮小した。追加で、ハイパー又はハイポメチル化c
fDNAフラグメントを選択した。異常なメチル化パターンを有し、ハイパー又はハイポ
メチル化、すなわち、UFXMであるcfDNAフラグメントを選択した。がんでない個
体で高頻度に起こるフラグメント、又は不安定なメチル化を有するフラグメントは、がん
の状態を分類するための識別性の高い特徴を作り出しにくいと考えられる。それゆえに、
CCGA研究からがんでない非喫煙者108人(年齢:58±14歳、女性79人[73
%])の独立した参照セット(すなわち参照ゲノム)を使用して、統計モデル及び典型的
なフラグメントのデータ構造体を作り出した。これらのサンプルは、セクションII.B
で上述したように、フラグメント内のCpGメチル化状態の所与のシークエンスの尤度を
見積もるマルコフチェーンモデル(次数3)を訓練するために使用した。このモデルは、
正常なフラグメントの範囲(p値>0.001)で較正されることが実証され、マルコフ
モデルからのp値が>0.001を有するフラグメントは、十分に異常でないとして拒否
するために使用した。
【0227】
上述のように、さらなるデータ削減ステップでは、少なくとも5つのCpGがカバーさ
れ、かつ平均メチル化が>0.9(高メチル化)又は<0.1(低メチル化)のいずれか
のフラグメントのみを選択した。この手順により、訓練でがんでない参加者の2,800
(1,500-12,000)のUFXMフラグメントの中央値(範囲)、及び訓練でが
んを有する参加者の3,000(1,200-220,000)のUFXMフラグメント
の中央値(範囲)が結果として生じた。このデータ削減手順は、参照セットデータのみを
使用したため、このステージは各サンプルに一度だけ適用する必要があった。
【0228】
V.B. がんの分類
【0229】
図8-11は、例示的な実施態様による、訓練されたがん分類器のがん予測精度を示す
グラフである。
図8-11に示される結果を作り出すために使用するがん分類器は、セク
ションIIIに記載されたプロセスの例示的な実装、又はそれらのいくつかの組み合わせ
の例示的な実施態様に従って訓練される。
【0230】
分析システムは、がん分類器において考慮されるべきCpG部位を選択する。情報利得
は、他の全てのサンプルと比較して、所与のがんタイプを有するトレーニングサンプルに
対して計算される。例えば、2つのランダム変数「異常なフラグメント」(「AF」)及
び「がんタイプ」(「CT」)が使用される。CTは、がんが特定のタイプであるかを示
すランダム変数である。分析システムは、AFが与えられたときのCTに関する相互情報
量を計算する。つまり、特定のCpG部位に異常なフラグメントが重なっているか否かが
分かる場合、がんタイプについて何ビットの情報が得られるかである。所与のがんタイプ
について、分析システムは、この情報を使用して、CpG部位をがん特異性がどれくらい
かに基づいてランク付けする。この手順は、検討中のすべてのがんタイプについて繰り返
される。各がんタイプのランク付けされたCpG部位は、がん分類器で使用するために積
極的に追加される(例えば、約3000のCpG部位に達するために)。
【0231】
サンプルの特徴付けのために、分析システムは、異常なメチル化パターンを有する各サ
ンプル中のフラグメント、かつ加えてさらにUFXMフラグメントを同定する。1つのサ
ンプルについて、分析システムは、検討のために選択された各CpG部位に対する異常ス
コアを計算する(~3,000)。分析システムは、サンプルがCpG部位にくみこむU
FXMフラグメントを有するか否かに基づいて、二値スコアリングで異常スコアを定義す
る。
【0232】
図8は、例示的な実施態様による、様々ながんタイプに対するマルチクラスがん分類器
のがん予測精度を示すグラフを示す。この例示的な実施例では、マルチクラスがん分類器
は、乳がんタイプ、大腸がんタイプ、食道がんタイプ、頭頸部がんタイプ、肝胆膵がんタ
イプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵臓がんタイプ、非がんタ
イプ、及び他のがんタイプという11種類のがんタイプに従って特徴ベクトルを区別する
ように訓練されている。本実施例で使用したサンプルは、がんタイプの各々を有すること
が知られている対象からのものである。例えば、乳がんタイプのサンプルのコホートは、
乳がんタイプを呼び出す際のがん分類器の精度を検証するために使用した。さらに、使用
されたサンプルは、様々ながんのステージにある対象からのものである。
【0233】
乳がんコホート、大腸がんコホート、及び肺がんコホートに対して、がん分類器は、そ
の後に続くがんのステージにおいて、がんタイプを正確に予測する精度を徐々に高めてい
る。頭頸コホート、卵巣コホート、及び膵臓コホートに対して、がん分類器は、後期ステ
ージ、例えば、ステージIII及び/又はステージIVになるにつれて、がん分類の精度
が向上している。食道コホート及び肝胆膵のコホートに対して、がん分類器は、後期ステ
ージ、例えば、ステージIII及び/又はステージIVでの正確性もまた有している。非
がんコホートでは、がん分類器は、非がんサンプルががんでない可能性の予測は完全な制
度だった。最後に、リンパ腫コホートは、がんのステージIIのサンプルを正確に予測す
ることに成功のピークがある様々なステージを通して成功した。
【0234】
図9は、例示的な実施態様による、最初にバイナリがん分類器を使用した後の、様々な
がんタイプに対するマルチクラスがん分類器のがん予測精度を示すグラフである。この例
では、分析システムは、最初に、多くのがんタイプのコホートからサンプルをバイナリが
ん分類器に入力し、サンプルががんを有する可能性が高いか、又はがんを有しない可能性
が高いかを判定する。その後、分析システムは、がんを有する可能性が高いと判定された
サンプルをマルチクラスがん分類器に入力し、それらのサンプルのがんタイプを予測する
。考慮されるがんタイプは、乳がんタイプ、大腸がんタイプ、食道がんタイプ、頭頸部が
んタイプ、肝胆膵がんタイプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵
臓がんタイプ、及びその他のがんタイプを含む。
【0235】
図8の例と比較して、分析システムは、最初にバイナリがん分類器を使用し、その後マ
ルチクラスがん分類器を使用したときに、精度の向上を示した。乳がんコホート、大腸が
んコホート、肺がんコホート、及びリンパ腫がんコホートの中で、分析システムは、全体
的に精度の向上を有した。とりわけ、分析システムは、がんの初期ステージ、すなわち、
ステージI、ステージII、そしてステージIIIでさえ、それらのがんタイプの各々に
ついて予測精度の顕著な向上を有していた。
【0236】
図10は、例示的な実施態様による、訓練されたがん分類器の性能を論証する混同行列
を図示する。プロセス500による訓練の一例では、リッジ回帰ペナルティを有するマル
チクラスカーネルロジスティック回帰(KLR)分類器が、重みに対するペナルティ、及
び各がんタイプに対する二値項に対する固定ペナルティを有する導出された特徴ベクトル
上で訓練されている。リッジ回帰ペナルティは、高関連部位の選択に使用されていないト
レーニングデータの一部で最適化され(ログ損失を使用)、かつ最適なパラメータが見つ
かった時点で、ロジスティック分類器をローカルトレーニングフォールドの全セットで再
訓練した。選択された高関連部位及び分類器の重みは、その後、新しいデータに適用した
。CCGAトレーニングセット内で、1つのフォールドを繰り返し保留し、9つのフォー
ルドのうち8つのフォールドの関連部位を選択し、KLR分類器のハイパーパラメータを
9番目のセットで最適化し、KLRを10フォールドのうち9フォールドで再トレーニン
グして、かつ保留したフォールドに適応させた。これをCCGAトレーニングセット内の
TOOを推定するために10回繰り返した。CCGAテストセットでは、関連部位をCC
GAトレーニングの9/10フォールドで選択し、ハイパーパラメータを10フォールド
目で最適化し、かつ全CCGAトレーニングデータでKLR分類器を再トレーニングし、
選択した部位及びKLR分類器をテストセットへ適用した。考慮したがんタイプは、多発
性骨髄腫がんタイプ、大腸がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、肺頭頸部
がんタイプ、膵臓がんタイプ、乳がんタイプ、肝胆膵がんタイプ、食道がんタイプ、その
他がんタイプを含む。その他のがんタイプには、肛門がん、膀胱がん、原発不明がんTO
O、子宮頸がん、胃がん、白血病、メラノーマ、前立腺がん、甲状腺腎がん、子宮がん、
及びその他の追加がんなどのようなCCGA内で収集したサンプルが5件未満のがんを含
む。
【0237】
混同行列は、既知のがんTOO(x軸に沿って)と予測されたがんTOO(y軸に沿っ
て)を有するサンプルのがんタイプ間の一致を示す。訓練されたKLR分類器の性能を検
証するために、各がんタイプのサンプルのコホート(各がんタイプのy軸に沿った括弧で
示す)をKLR分類器で分類した。x軸は、各コホートから何個のサンプルが各がんタイ
プの下に分類されたかを示す。例えば、既知の肺がんを有する25のサンプルを有してい
る肺がんのコホートでは、KLR分類器は、1つのサンプルが卵巣がんを有する、19の
サンプルが肺がんを有する、2つのサンプルが頭頸部がんを有する、1つのサンプルが膵
臓がんを有する、1つのサンプルが乳がんを有する、及び1つのサンプルが他のがんタイ
プとしてラベルするよう、予測した。特に、他のがんタイプを除くすべてのがんタイプに
対して、KLR分類器は、多発性骨髄腫(2/2、100%)、大腸がん(18/20、
90%)、リンパ腫(8/9、88.8%)、卵巣がん(4/5、80%)、肺がん(1
9/25、76%)、及び頭頸部がん(3/4、75%)のがんタイプに対してとりわけ
高い性格性を有する各コホートの半分より上となる正確な予測をした。これらの結果は、
KLR分類器の予測精度を論証する。
【0238】
図11は、いくつかの例示的な実施態様による、合成トレーニングサンプルで訓練され
たがん分類器の性能を比較する表を図示する。分類器Aは、
図6Bに従って生成された特
徴ベクトルを用いて訓練される。分類器Bは、「Mixture Model for Targeted Sequencin
g.」と題する米国出願第16/579,805号に記載された方法論に従って生成された
特徴ベクトルを用いて訓練される。分類器B+は、追加された合成トレーニングサンプル
を有する分類器Bと同様の特徴づけの実施を指す。様々に訓練された分類器は、98%の
特異度閾値でホールドアウトセットを用いて評価した。分類器B+は,感度0.48で、
全体として最も良好な性能だった。がんの様々なステージにおいて、分類器B+は、また
ステージIのサンプルで0.15の感度、ステージIIのサンプルで0.38の感度、ス
テージIIIのサンプルで0.75の感度、及びステージIVのサンプルで0.91の感
度と,他の分類器よりも良好な性能だった。
【0239】
以下の例で提示する解析に使用したデータは、CCGA臨床研究の一部として収集され
たものである。CCGA[NCT02889978]は、前向き、多施設、観察的なcf
DNAベースの早期がん検出研究であり、140を超える施設において人口統計学的にバ
ランスのとれた15000人を超える参加者が登録された。血液サンプルは、登録時に定
義された、新規に診断された治療歴のないがん(C、ケース)及びがんと診断されていな
い参加者(非がん[NC]、コントロール)から収集された。
【0240】
各参加者から採取された血液について、以下の3つのシークエンスアッセイが行われた
。1)一塩基変異/インデルに対するcfDNA及び標的とされた白血球(WBC)を対
にしたシークエンス(60,000倍、507遺伝子パネル)(ARTシークエンスアッ
セイ);ジョイントコーラーがWBC由来の体細胞変異と残存する技術ノイズを除去した
。2)コピー数変化に対するcfDNA及びWBCを対にしたホールゲノムシーケンス(
WGS、35倍);新規の機械学習アルゴリズムが、がん関連信号スコアの生成し、共同
解析が共有イベントを同定した。3)メチル化に対するcfDNA全ゲノムバイサルファ
イトシーケンス(WGBS、34倍);異常メチル化フラグメントを使用して正規化スコ
アを生成した。追加で、4)比較のための腫瘍バリアントの同定のため、全ゲノムシーク
エンス決定(WGS、30倍)が、対になった腫瘍とWBCgDNAに対して行われるよ
うに、組織サンプルは、がんを有する参加者のみから得た。
【0241】
例1-非がん患者のデータへのがん信号のインシリコスパイキング
【0242】
「インシリコ」データスパイキング実験は、異なる生物学的バックグラウンドに同量の
様々ながん信号をスパイクする効果をテストするために設計された。この実験では、様々
な種類のがんのタイプを有することが知られている対象からの複数のゲノム領域中のそれ
ぞれのゲノム領域にマッピングされた核酸フラグメントシークエンスについてのビンカウ
ントの増加パーセンテージを、非常に低い腫瘍分画を有する対象のサンプルの複数のゲノ
ム領域にマッピングされた核酸フラグメントシークエンスに対して決定した対応するビン
カウントに連続的にスパイクさせた。好都合にも、がん信号を隠す遺伝子座、又はこれら
の遺伝子座の対立遺伝子が既知であるという要件はない。
【0243】
このようにして、がんの時系列的な進展が、「インシリコ」で作成された。相対ビン値
(
図12A~12C中の各プロットにおけるY軸)に対して訓練したがん分類器から得ら
れるがんの確率によって報告されるようながん信号の発達を、各スパイクデータサンプル
について評価した。この実験で使用された分類器は、米国特許出願公開第2019/02
87649号に記載されており、これは参照により本明細書に組み込まれる。
【0244】
無細胞腫瘍分画の検出不可能なレベルを有する22人のCCGA低腫瘍分画対象を、異
なる種類のがんを有することが知られており、各々が少なくとも10%の無細胞DNA腫
瘍分画を有し、かつがん分類器ががんを有することの少なくとも90%の確率を提供する
22人の高腫瘍分画対象とマッチさせ、CCGA研究データから選択した。高腫瘍分画対
象の各々からのビンカウントの増加量を、低腫瘍分画対象の対応するビンカウントに加え
、
図12A~12Cに示す各グラフのX軸にプロットしたように、ビンカウントの増加を
伴う480セットのがんシリーズデータを形成した。このようなビンカウントは、特定の
ビンにマッピングされるサンプルで観察されるシークエンスの数を表し、各ビンは参照ヒ
トゲノムの一意の部分を表す。そのため、このようなビンカウントは、コピー数変動13
3の一形態と考えられる(
図1B)。図示すると、
図12A~12CCにおいて、個体2
813は、22人のCCGA低腫瘍分画対象のうちの1人である。この個体について、図
示されたグラフ中に22本の線がある。グラフ中の各それぞれの線は、22人の高腫瘍分
画対象のセット中のそれぞれの高腫瘍分画対象の対応する対立遺伝子カウントのプログレ
ッシブスパイク(X軸)を表す。例えば、線702は、第1の高腫瘍分画対象のビンカウ
ントを有する低腫瘍分画対象2813のプログレッシブスパイクを表し、線704は、第
2の高腫瘍分画対象のがんのビンカウントを有する低腫瘍分画対象2813のプログレッ
シブスパイクを表し、線706は、第3の高腫瘍分画対象とビンカウントを有する低腫瘍
分画対象2813のプログレッシブスパイクを表す、などである。がん系列データの48
4セットの各々は、複数の2次元点(x、y)を含み、x=target_TFであり、
yは、それぞれの点に対するビンカウントデータを訓練された分類器に入力した際に訓練
された分類器によって返されるがんを有する確率であり、ビンカウントデータは、次のよ
うに計算された複数のビン中の各ビンiのそれぞれのビンカウント(counts_ne
w
i)を含む。
【0245】
counts_newi
= (target_TF / actual_TF) * counts_highTFi + (1 - target_TF / actual TF) *
counts_low TFi
【0246】
ここで、counts_newiは、低腫瘍分画対象(例えば、個体16)のビンiに
ついて、マッチした高腫瘍分画対象からのビンカウントでスパイクした際の調整されたカ
ウントである。
【0247】
target_TFは、マッチした高腫瘍分画対象からのビンカウントでスパイクした
際の、低腫瘍分画対象(例えば、個体2813)についての標的腫瘍分画(グラフのx軸
)である。
【0248】
actual_TFは、マッチした高腫瘍分画対象からのビンカウントでスパイクする
前の低腫瘍分画対象(例えば、個体2813)についての実際の腫瘍分画である。
【0249】
counts_highTFiは、マッチした高腫瘍分画対象中のビンiのビンカウン
トである。
【0250】
counts_lowTFiは、低腫瘍分画対象(例えば、個体2813)中のビンi
のビンカウントである。
【0251】
このように、この方法で、
図7Cのグラフの各線は、個体2813の核酸フラグメント
シークエンスカウントへの異なる高腫瘍分画対象のプログレッシブスパイクを表し、かつ
このように、腫瘍分画の進行性を表す。上で論じたように、サンプリングされた各腫瘍画
分に対して、各がんについて、複合対立遺伝子カウント(例えば、マッチしたスパイク対
立遺伝子カウントを有する個体2813の)を分類器にかけ、がん状態を有する確率を決
定した(Y軸)。言い換えれば、スパイクされたビンカウントの各インスタンス(
図12
A~12CCの各グラフの各ラインに対して)を、スパイクされたデータががんを有する
対象から取得されたという確率(y軸)を生成するために、がん分類器によって評価した
。これらの確率は、
図12A~12Cに示されるグラフにおいて、腫瘍分画の関数として
プロットした。
【0252】
図12A~12Cのグラフで示されるように、所与の模擬サンプルに対して計算された
がんの確率は、(i)模擬腫瘍分画、(ii)がんタイプ、及び(iii)参照対象(デ
ータががん信号でスパイクされた対象)によって提供されたバックグラウンド信号に依存
している。例えば、
図12A~12Cに拡張されたプロットについて、参照個体2813
を参照すると、22人の高腫瘍分画対象によって表される異なるタイプのがんにわたって
、同定されたがん確率のスパイクを生成するために必要な腫瘍分画に、ほぼ10フォール
ドの差があることが分かる。例えば、最初のがんからの信号が参照個体の2813バック
グラウンド(系列702で表される)にスパイクされたとき、0.001(0.1%)を
ちょうど上回る模擬腫瘍分画において、同定されたがん確率の著しい増加が見られる。し
かしながら、他の2つのがんからの信号がそれぞれ同じバックグラウンドに混入されたと
き(それぞれ系列704及び706によって表される)、模擬腫瘍分画が0.01(1%
)を超えるまで、同定されたがん確率の増加は見られない。これは、計算されたがん確率
のがんのタイプへの依存性を論証している。同様に、
図12A~12Cは、計算されたが
ん確率の個人のバックグラウンド信号への依存性がむしろ顕著であることを示す。例えば
、ほとんどの参照バックグラウンドでは、ある特定のがんタイプについて、模擬サンプル
の腫瘍分画が0.01(1%)を超えるのに到達するまで、がん確率が計算されたスパイ
クインは観察されなかった。しかしながら、そのがんに対するがん信号を個体510のデ
ータにスパイクすると、0.01を大幅に下回る腫瘍分画においてがん確率のスパイクが
観測された。実際、参照個体510の計算されたがん確率の検出可能なスパイクは、ほと
んどすべての異なるがんタイプで、かなり早い時期に見られた。対照的に、そのがんタイ
プのがん信号が個体1314のデータにスパイクすると、腫瘍分画が0.01(1%)よ
り著しく高くなるまで、がん確率の増加は観察されなかった。実際、参照個体1314の
計算されたがん確率の検出可能なスパイクは、ほとんどのがんタイプにおいて著しく遅れ
るようで見えた。
【0253】
例2-ロジスティック回帰モデルのオーバーフィット
【0254】
分類アルゴリズムがより複雑になり、より大きな特徴セットを使用するようになると、
訓練に必要なトレーニング構成体の数も拡大する。とりわけ、疾患分類器に使用される特
徴の数が増えると、異常値、例えば分類器の特徴空間を定義する超立方体の表面上に存在
する少なくとも1つの特徴値を有しているトレーニング構成体の数もまた増える。これは
、今度は、分類器のオーバーフィッティング及び感度の損失、特に分類器における所与の
疾患信号に対する検出レベル(LOD)付近の、をもたらす。例えば、
図15は、モデル
を2000(1002)、5000(1004)、10,000(1006)、20,0
00(1008)、50,000(1010)、及び100,000(1012)のトレ
ーニング構成体に対して訓練したとき、分類器で使用される特徴の数が拡大するにつれて
、ある次元に沿って最大化又は最小化する特徴空間のパーセントを表す曲線を示す。点1
014で示すように、2500個の特徴を有する分類器を2000個のサンプルのトレー
ニングセットで訓練すると、ハイパーキューブの体積のほぼ全てが特徴空間のかどで横に
なる結果を生じる。
【0255】
上述のCCGAの研究から、数千の特徴で訓練した機械学習分類器はオーバーフィット
していることが観察された。ロジスティック回帰はより厳密なモデルであるため、より単
純なロジスティック回帰モデルに切り替えることで問題を解決できると仮定された。しか
しながら、同じ大きな特徴セットを使用し、ロジスティック回帰モデルを訓練したとき、
同じようにオーバーフィットの問題が観察された。
図14に示すのは、ロジスティック回
帰モデルの省略するクロスバリデーションの9フォールドの結果である。
図14に見られ
るように、モデルは、テストフォールド(0.6~0.7)よりもトレーニング部分(0
.9~1.0)に対して著しく高い感度によって証明されるように、クロスバリデーショ
ンの1つのフォールド以外の全てに対して、オーバーフィットした。
【0256】
VI.特許を請求可能な主題
【0257】
一態様において、がんを検出するためのモデルを訓練する方法は、複数のトレーニング
サンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプ
ルはがん及び非がんのうちの1つとしてラベルされ、かつ各トレーニングサンプルが複数
の異常なcfDNAフラグメントを備える、ステップと、がんとしてラベルされた第1の
トレーニングサンプル及び非がんとしてラベルされた第2のトレーニングサンプルをサン
プリングするステップと、第1のトレーニングサンプルから異常なcfDNAフラグメン
トの第1のサブセット、及び第2のトレーニングサンプルから異常なcfDNAフラグメ
ントの第2のサブセットをサンプリングすることによって、第1の合成トレーニングサン
プルを生成するステップであって、第1の合成トレーニングサンプルはがんとしてラベル
される、ステップと、各トレーニングサンプルの複数の異常なcfDNAフラグメントに
基づいて、第1の合成トレーニングサンプルを含むトレーニングサンプルの各々について
特徴ベクトルを生成するステップと、特徴ベクトル及び第1の合成トレーニングサンプル
を含むトレーニングサンプルのラベルを用いてモデルを訓練し、モデルは、テストサンプ
ルのシークエンシングデータに基づいてテストサンプルについてがん予測を生成するよう
に構成されている、ステップと、を備える。
【0258】
別の態様では、がんを検出する方法は、複数の異常なcfDNAフラグメントを含むテ
ストサンプルのシークエンシングデータを受信するステップと、テストサンプルの異常な
cfDNAフラグメントに基づいて、テスト特徴ベクトルを生成するステップと、テスト
特徴ベクトルを分類モデルに入力し、テストサンプルについてのがん予測を生成するステ
ップであって、分類モデルは、複数のトレーニングサンプルのシークエンスデータを受信
するステップであって、各トレーニングサンプルはがん及び非がんのうちの一つとしてラ
ベルされ、各トレーニングサンプルは複数の異常なcfDNAフラグメントを含むステッ
プ、がんとしてラベルされた第1のトレーニングサンプルと非がんとしてラベルされた第
2のトレーニングサンプルとをサンプリングするステップ、第1のトレーニングサンプル
から異常なcfDNAフラグメントの第1のサブセットを、第2のトレーニングサンプル
から異常なcfDNAフラグメントの第2のサブセットを、サンプリングすることによっ
て、第1の合成トレーニングサンプルを生成するステップであって、第1の合成トレーニ
ングサンプルはがんとしてラベルされるステップ、各トレーニングサンプルの複数の異常
なcfDNAフラグメントに基づいて、第1の合成トレーニングサンプルを含むトレーニ
ングサンプルの各々に対して特徴ベクトルを生成するステップ、並びに特徴ベクトル及び
第1の合成トレーニングサンプルを含むトレーニングサンプルのラベルを用いてモデルを
訓練するステップ、によって訓練するステップと、を備えることができる。
【0259】
別の態様において、本開示は、疾患状況の判定を容易にする複数の補完的データ構成体
を生成する方法を提供する。本方法は、疾患状況の第1の状態を有する訓練対象の第1の
コホートについての第1の複数のゲノムデータ構成体を含むトレーニングデータセットを
、電子フォームで取得することを含むことができ、第1の複数のゲノムデータ構成体は、
訓練対象の第1のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から
得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性
についての値を含むそれぞれのゲノムデータ構成体を含む。本方法は、その後、トレーニ
ングデータセットを使用して、複数の補完的データ構成体を生成することを含むことがで
き、ここで、複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成
体は、第1の複数のゲノムデータ構成体からの少なくとも1つのそれぞれのゲノムデータ
構成体に対応し、かつ複数の補完的ゲノムデータ構成体中のそれぞれの補完的ゲノムデー
タ構成体は、複数のゲノム特性中のそれぞれのゲノム特性に対して、第1の複数の遺伝子
型データ構成体から少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性
の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含む。
【0260】
いくつかの実施態様において、トレーニングデータセットは、疾患状況の第1の状態と
は異なる疾患状況の第2の状態を有する訓練対象の第2のコホートに対する第2の複数の
ゲノムデータ構成体を含む。第2の複数のゲノムデータ構成体は、訓練対象の第2のコホ
ート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する生体
サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を含む
それぞれのゲノムデータ構成体を含むことができる。いくつかの実施態様では、本方法は
、少なくとも(i)第1の複数のゲノムデータ構成体、(ii)第2の複数のゲノムデー
タ構成体、(iii)複数の補完的ゲノムデータ構成体、及び(iv)第1の複数のゲノ
ムデータ構成体、第2の複数のゲノムデータ構成体、及び複数の補完的ゲノムデータ構成
体中の各それぞれのゲノムデータ構成体に対する疾患状況の状態の指標、を使用して疾患
状況の状態を判別するためにテスト分類器を訓練することを含む。
【0261】
別の態様において、本開示は、テスト対象における疾患状況を判別するための方法を提
供する。本方法は、電子フォームで、テストゲノムデータ構成体を取得することを含むこ
とができる。テストゲノムデータ構成体は、テスト対象から得られた生体サンプル中の対
応する複数の核酸フラグメントの複数のテストゲノム特性中の各ゲノム特性に対する値を
含むことができる。本方法は、その後、テストゲノムデータ構成体を、上述のように訓練
されたテスト分類器に適用し、それによって、テスト対象における疾患状況の状態を判定
することを含むことができる。この方法において、複数のテストゲノム特性は、テスト分
類器に対して訓練される複数の遺伝子型特性を含むことができる。
【0262】
別の態様において、本開示は、疾患状況の判別を容易にする時系列データを生成する方
法を提供する。本方法は、訓練対象の第1のコホートについての第1の複数のゲノムデー
タ構成体を含む第1のトレーニングデータセットを、電子フォームで取得することを含む
ことができる。本方法は、その後、第1のトレーニングデータセットを使用して、訓練対
象の第1のコホート中の各それぞれの訓練対象について、それぞれの第2の時点における
それぞれの訓練対象の代表的な複数のゲノム特性についての値を含むそれぞれの第1の増
強されたゲノムデータ構成体を生成することを含むことができる。それぞれの第1の増強
されたゲノムデータ構成体は、ゲノムデータ構成体の対応する第1の対に対応し、ゲノム
データ構成体の第1の対は、(i)それぞれの訓練対象についてのそれぞれの第1のゲノ
ムデータ構成体、及び(ii)1つ以上のスパイクインゲノムデータ構成体のセットから
のそれぞれのスパイクインゲノトタイプデータ構成体、を備える。それぞれの第1の増強
されたゲノムデータ構成体は、複数のゲノム特性中のそれぞれのゲノム特性に対して、対
応する第1のゲノムデータ構成体の対の各ゲノムデータ構成体中のそれぞれのゲノム特性
の値に寄与する核酸フラグメントの第1の確率サンプリングに由来する増強値を含むこと
ができる。本方法は、それにより、訓練対象の第1のコホート中の各それぞれの訓練対象
について、それぞれの第1のゲノムデータ構成体及びそれぞれの第1の増強されたゲノム
データ構成体を含むそれぞれの時系列データセットを生成する。
【0263】
いくつかの実施態様において、本方法は、少なくとも(i)訓練対象の第1のコホート
中の各それぞれの訓練対象に対して、それぞれの時系列データセット、(ii)訓練対象
の第1のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット中
の各それぞれのゲノムデータ構成体についてのそれぞれの時点を含むそれぞれの複数の時
点、又はその派生物、並びに(iii)訓練対象の第1のコホート中の各それぞれの訓練
対象に対して、それぞれの複数の時点中の少なくとも最も早いそれぞれの時点及び最も遅
いそれぞれの時点における疾患状況の表示、を使用して疾患状況の状態を判定するために
時間的分類器を訓練することもまた含む。
【0264】
一態様では、本開示は、テスト対象の疾患状況の状態を、疾患状況の状態のセットの中
から判別するための時間的分類アルゴリズムを訓練する方法を提供する。本方法は、複数
の訓練対象中の各それぞれの訓練対象に対して、以下を含むトレーニングデータセットを
、電子フォームで取得することを含む。(1)それぞれの訓練対象についてのそれぞれの
第1のゲノムデータ構成体であって、それぞれの第1のゲノムデータ構成体は、それぞれ
の第1の時点においてそれぞれの訓練対象から得られた第1の生体サンプル中の第1のそ
れぞれの複数の核酸フラグメントの複数の遺伝子型特性についての値を含む、第1のゲノ
ムデータ構成体、(2)それぞれの訓練対象についてのそれぞれの第2のゲノムデータ構
成体であって、それぞれの第2のゲノムデータ構成体は、それぞれの第1の時点後に起こ
るそれぞれの第2の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性につ
いての値を含む、それぞれの第2のゲノムデータ構成体、(3)それぞれの第1の時点及
びそれぞれの第2の時点、又はその派生物、並びに(4)それぞれの第1の時点及びそれ
ぞれの第2の時点における、それぞれの訓練対象の疾患状況のセット中の疾患状況の表示
。本方法は、その後、それぞれの訓練対象に対して、少なくとも(a)それぞれの第1の
ゲノムデータ構成体、(b)それぞれの第2のゲノムデータ構成体、(c)それぞれの第
1の時点及びそれぞれの第2の時点、又はその派生物、並びに(d)それぞれの第1の時
点及びそれぞれの第2の時点における疾患状況の表示、に対する時間的分類アルゴリズム
を訓練することを含むことができる。複数の訓練対象中の少なくとも1つのそれぞれの訓
練対象に対して、それぞれの第2のゲノムデータ構成体は、それぞれの訓練対象から得ら
れた第2の生体サンプルからのそれぞれの第2の複数の核酸フラグメント、及び疾患状況
の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られた
スパイクイン生体サンプルからのそれぞれの第3の複数の核酸フラグメント、からの複数
のゲノム特性についての値を含むことができる。
【0265】
別の態様において、本開示は、対象中の疾患状況を判別するための方法を提供する。本
方法は、テスト対象に対して、電子フォームで、テスト時系列データセットを取得するこ
とを含むことができる。テスト時系列データセットは、(i)複数の時点における各それ
ぞれの時点について、それぞれの時点においてテスト対象から得られた対応する生体サン
プル中の対応する複数の核酸フラグメントの複数のテストゲノム特性についての値を含む
それぞれのテストゲノムデータ構成体、及び(ii)複数の時点中の各それぞれの連続す
る時点の対に対して、それぞれの連続する時点の対間の時間の長さの指標、を含むことが
できる。本方法は、その後、テスト時系列データセットを、上記のように訓練された分類
器に適用し、それによって、テスト対象における疾患状況の状態を判定することを含むこ
とができる。この方法において、複数のテストゲノム特性は、分類器がそれに対して訓練
された複数のゲノム特性を含む。
【0266】
一態様において、本開示は、テスト対象における疾患状況を判別するために訓練された
分類器の性能を査定する方法を提供する。本方法は、テストゲノムデータ構成体を評価す
ることによって、疾患状況を判別するように訓練された第1の分類器を得ることを含むこ
とができ、テストゲノムデータ構成体は、テスト対象から得られた第1の対応する生体サ
ンプル中の対応する第1の複数の核酸フラグメントの複数のゲノム特性についての値を含
む。本方法は、その後、複数の増強されたゲノムデータ構成体を含む増強された査定デー
タセットを得るすることを含むことができる。複数の増強された遺伝子型データ構成体中
の各それぞれの増強された遺伝子型データ構成体は、疾患状況の複数の状態中の疾患状況
のそれぞれの状態を有する対象から得られた対応する生体サンプルの代表的な対応する複
数の核酸フラグメントの複数のゲノム特性についての値を含むことができる。増強された
査定データセットは、複数の増強された遺伝子型データ構成体中で、複数の疾患状況の状
態中の各それぞれの疾患状況の状態の代表的なそれぞれの増強された遺伝子型データ構成
体を含むことができる。本方法は、増強された査定データセット中の各それぞれの増強さ
れたゲノムデータ構成体を分類器に独立して適用して、各それぞれの増強された遺伝子型
データ構成体に対して疾患状態分類を生成し、それによって複数の疾患状態分類を生成す
ることを更に含むことができる。本方法は、その後、複数の疾患状態分類中の、各それぞ
れの疾患状態分類を、対応する増強されたゲノムデータ構成体によって表される疾患状況
のそれぞれの状態の関数として評価し、それによって、分類器の性能を査定することを含
むことができる。
【0267】
本開示の別の態様は、疾患状況の判別を容易にする複数の補完的データ構成体を生成す
る方法を提供し、この方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロ
セッサによる実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピ
ュータシステムにおいて、少なくとも1つのプログラムが、以下のための命令を備えるこ
とを備える。A)電子フォームで、疾患状況の第1の状態を有する訓練対象の第1のコホ
ートに対する第1の複数の遺伝子型データ構成体を備えるトレーニングデータセットを取
得するステップであって、第1の複数の遺伝子型データ構成体は、訓練対象の第1のコホ
ート中の各それぞれの訓練対象に対して、それぞれの訓練対象から得られた対応する生体
サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え
るそれぞれの遺伝子型データ構成体を含む、ステップ;B)トレーニングデータセットを
使用して、複数の補完的データ構成体を生成するステップであって、複数の補完的遺伝子
型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、第1の複数の遺伝子型
データ構成体からの少なくとも1つのそれぞれの遺伝子型データ構成体に対応し、かつ複
数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、複数
の遺伝子型特性中の各それぞれの遺伝子型特性に対して、第1の複数の遺伝子型データ構
成体からの少なくとも1つのそれぞれの遺伝子型データ構成体中のそれぞれの遺伝子型特
性の値に寄与する核酸フラグメントの確率サンプリングに由来する増強値を備える、ステ
ップ。
【0268】
いくつかの実施態様では、トレーニングデータセットは、疾患状況の第1の状態とは異
なる疾患状況の第2の状態を有する訓練対象の第2のコホートに対する第2の複数の遺伝
子型データ構成体を更に備え、第2の複数の遺伝子型データ構成体は、訓練対象の第2の
コホート中の各それぞれの訓練対象に対して、それぞれの訓練対象から得られた対応する
生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を
備えるそれぞれの遺伝子型データ構成体を含み、本方法は、C)少なくとも(i)第1の
複数の遺伝子型データ構成体、(ii)第2の複数の遺伝子型データ構成体、(iii)
複数の補完的遺伝子型データ構成体、並びに(iv)第1の複数の遺伝子型データ構成体
、第2の複数の遺伝子型データ構成体、及び複数の補完的遺伝子型データ構成体中の各そ
れぞれの遺伝子型データ構成体に対する疾患状況の状態の指標、を使用して疾患状況の状
態を判別するためにテスト分類器を訓練するステップ、を更に備える。
【0269】
いくつかの実施態様では、訓練するステップC)は、訓練対象の第3のコホートに対し
て第3の複数の遺伝子型データ構成体を使用し、第3の複数の遺伝子型データ構成体は、
訓練対象の第3のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から
得られた対応する複数の生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝
子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含み、第3のコホート
中の各訓練対象は、疾患状況の第3の状態を有する。
【0270】
いくつかの実施態様では、訓練するステップC)は、それぞれの訓練対象の1つ以上の
個人的特徴を使用する。
【0271】
いくつかの実施態様において、疾患状況は、がんである。
【0272】
いくつかの実施態様において、がんの第1の状態は、がんの存在であり、かつ、がんの
第2の状態は、がんの非存在である。
【0273】
いくつかの実施態様において、がんの第1の状態は、第1のタイプのがんであり、かつ
、がんの第2の状態は、第2のタイプのがんである。
【0274】
いくつかの実施態様において、がんの第1の状態は、特定のがんの第1のステージであ
り、かつ、がんの第2の状態は、特定のがんの第2のステージである。
【0275】
いくつかの実施態様において、がんの第1の状態は、がんの第1の予後であり、かつ、
がんの第2の状態は、がんの第2の予後である。
【0276】
いくつかの実施態様において、疾患状況は、心血管疾患である。
【0277】
いくつかの実施態様において、心血管疾患の第1の状態は、心血管疾患の存在であり、
かつ心血管疾患の第2の状態は、心血管疾患の非存在である。
【0278】
いくつかの実施態様において、心血管疾患の第1の状態は、心血管疾患の第1の予後で
あり、かつ心血管疾患の第2の状態は、心血管疾患の第2の予後である。
【0279】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、それぞれのゲノム位置のメチル化状態を備える。
【0280】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、バリアント対立遺伝子に対する支持を備える。
【0281】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、相対コピー数を備える。
【0282】
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも5000個の遺伝子
型特性を備える。
【0283】
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも50,000個の遺
伝子型特性を備える。
【0284】
いくつかの実施態様において、トレーニングデータセットは、20,000個未満の遺
伝子型データ構成体を備える。
【0285】
いくつかの実施態様において、トレーニングデータセットは、2000個未満の遺伝子
型データ構成体を備える。
【0286】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。
【0287】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル
中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって
得られる。
【0288】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、(i)全ゲノムメチル化シークエンシング又は(
ii)複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の
核酸プローブを使用する標的DNAメチル化シークエンシングによって得られる。
【0289】
いくつかの実施態様において、各対応する生体サンプルは、液体生体サンプルである。
【0290】
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
【0291】
いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、
無細胞DNAである。
【0292】
いくつかの実施態様において、確率サンプリングは、単純ランダムサンプリング、層別
ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリン
グ、又はマルチステージランダムサンプリングである。
【0293】
いくつかの実施態様において、確率サンプリングは、複数の遺伝子型特性の値に寄与す
る複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、対応する遺
伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子
型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特性に寄与する
核酸フラグメントの存在量に比例する。
【0294】
いくつかの実施態様では、複数の補完的データ構成体中の各それぞれの補完的データ構
成体に対して、確率サンプリングは、第1の複数の遺伝子型データ構成体から、それぞれ
のデータ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメント
のそれぞれの部分を選択し、かつ核酸フラグメントのそれぞれの部分の大きさは、他の補
完的データ構成体に対して選択した核酸フラグメントのそれぞれの部分の大きさと独立し
て決定される。
【0295】
いくつかの実施態様では、複数の補完的データ構成体中の各それぞれの補完的データ構
成体に対して、確率サンプリングは、第1の複数の遺伝子型データ構成体から、それぞれ
のデータ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメント
のそれぞれの部分を選択し、かつ核酸フラグメントのそれぞれの部分の大きさは、それぞ
れの補完的データ構成体が、探索的分類器が遺伝子型データ構成体によって表される有益
な核酸フラグメント分画の変化に対する閾値感度を満たす有益な核酸フラグメント分画の
範囲内に入る模擬の有益な核酸フラグメント分画を表すように選択され、探索的分類器は
、複数の遺伝子型特性に基づいて疾患状況の状態の判別するように訓練される。
【0296】
いくつかの実施態様において、有益な核酸フラグメント分画の範囲は、a)トレーニン
グデータセットを使用して、複数の増強された探索的遺伝子型データ構成体を生成するス
テップであって、複数の増強された探索的遺伝子型データ構成体中の各それぞれの増強さ
れた探索的遺伝子型データ構成体は、第1の複数の遺伝子型データ構成体からの少なくと
もそれぞれの遺伝子型データ構成体に対応し、複数の増強された探索的遺伝子型データ構
成体中の各それぞれの増強された探索的遺伝子型データ構成体は、複数の遺伝子型特性中
の各それぞれの遺伝子型特性に対して、第1の複数の遺伝子型データ構成体からの少なく
ともそれぞれの遺伝子型データ構成体からのそれぞれの遺伝子型特性の値に寄与する核酸
フラグメントの確率的サンプリングに由来する増強値を備え、複数の増強された探索的遺
伝子型データ構成体中のそれぞれの増強された探索的遺伝子型データ構成体は、第1の複
数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体によって表される有益
な核酸フラグメント分画に基づく模擬の有益な核酸フラグメント割合を表すものであり、
かつ複数の増強された探索的遺伝子型データ構成体によって表される模擬の有益な核酸フ
ラグメント分画の分布は、探索的分類器の検出レベルを下回る第1の有益な核酸フラグメ
ント分画から探索的分類器の検出レベルを上回る第2の情有益な核酸フラグメント分画に
またがる、ステップと、b)複数の増強された探索的遺伝子型データ構成体を探索的分類
器に適用して、複数の模擬疾患状況確率を生成するステップであって、探索的分類器は、
少なくとも(1)疾患状況の第1の状態を有する探索対象の第1のコホート中の各それぞ
れの探索対象に対して、それぞれの探索対象から得られた対応する生体サンプル中の対応
する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝
子型データ構成体を含む第1の複数の探索的遺伝子型データ構成体、(2)第2の疾患状
況の状態を有する探索対象のコホート中の各それぞれの探索対象に対して、それぞれの探
索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の
遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含む第2の複数の
探索的データ構成体、並びに(3)第1及び第2の複数の探索的遺伝子型データ構成体中
の各それぞれの遺伝子型データ構成体に対して、疾患状況の状態の表示、を使用して疾患
状況の状態を判別するために訓練される、ステップと、c)模擬疾患状況確率が、それぞ
れの増強された探索的遺伝子型データ構成体によって表される情報提供核酸フラグメント
分画における変化に対して最も敏感である有益な核酸フラグメント分画の範囲を特定する
ステップと、によって決定される。
【0297】
いくつかの実施態様では、探索対象の第1のコホート中の探索対象から得られた各それ
ぞれの生体サンプルは、対象の疾患組織の固体のサンプルである。
【0298】
いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的
遺伝子型データ構成体は、対応する遺伝子型構成体の対に対応し、遺伝子型構成体の対は
、(i)第1の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体及び
(ii)第2の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体から
構成され、かつ補完的複数の遺伝子型データ構成体中のそれぞれの補完的遺伝子型データ
構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、対応する遺伝子
型データ構成体の対の各遺伝子型構成体中のそれぞれの遺伝子型特性の値に寄与する核酸
フラグメントの確率サンプリングに由来する増強値を備える。
【0299】
いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の少なくとも1つのそ
れぞれの補完的遺伝子型データ構成体に対して、第2の複数の遺伝子型データ構成体から
のそれぞれの遺伝子型データ構成体は、それぞれの補完的遺伝子型データ構成体の複数の
遺伝子型特性に対する増強値を導出する前に増強される。
【0300】
いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的
遺伝子型データ構成体に対して、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対
する増強値は、(i)第1の複数の遺伝子型データ構成体からのそれぞれの遺伝子型特性
の第1の重み寄与、及び(ii)第2の複数の遺伝子型データ構成体からのそれぞれの遺
伝子型特性の第2の重み寄与、から形成される。
【0301】
いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的
遺伝子型データ構成体に対して、遺伝子型データ構成体の対に対応する(i)第1の複数
の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体に対応するそれぞれの訓
練対象、及び(ii)第2の複数の遺伝子型データ構成体からのそれぞれの遺伝子型デー
タ構成体に対応するそれぞれの訓練対象は、共有される個人的特徴に基づいてマッチさせ
る。
【0302】
いくつかの実施態様において、本方法は、以下の方法によって、複数の増強された偽陽
性遺伝子型データ構成体を得るステップを更に備える:性能閾値を満たすことができない
性能を有するテスト分類器に対する前駆体によって判別される第2の複数の遺伝子型デー
タ構成体から遺伝子型データ構成体のサブセットを同定するステップ;遺伝子型データ構
成体のサブセットを使用して、複数の増強された偽陽性遺伝子型データ構成体を生成する
ステップであって、複数の増強された偽陽性遺伝子型データ構成体中のそれぞれの増強さ
れた偽陽性遺伝子型データ構成体は、遺伝子型データ構成体のサブセットからの少なくと
もそれぞれの遺伝子型データ構成体に対応し、かつ複数の増強された偽陽性遺伝子型デー
タ構成体中の各それぞれの遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれ
の遺伝子型特性に対して、遺伝子型データ構成体のサブセットからの少なくともそれぞれ
の遺伝子型データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの
確率サンプリングから得られる増強値を備える、ステップ。ここでテスト分類器を訓練す
るステップ(C)は、(v)複数の増強された偽陽性遺伝子型データ構成体、及び(vi
)複数の増強された偽陽性遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体
に対して、疾患状況の表示を使用する。
【0303】
いくつかの実施態様において、テスト分類器は、ロジスティック回帰アルゴリズムであ
る。
【0304】
いくつかの実施態様において、テスト分類器は、ニューラルネットワークアルゴリズム
、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリ
ズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム
、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである
。
【0305】
いくつかの実施態様において、テスト分類器は、少なくとも(i)第1の時点において
テスト対象から取得した第1の生体サンプルから生成された第1のテスト遺伝子型データ
構成体と、(ii)第2の時点においてテスト対象から取得した第2の生体サンプルから
生成された第2のテスト遺伝子型データ構成体とを必要とする時間的分類器である。
【0306】
いくつかの実施態様において、本方法は、D)電子フォームで、テスト対象から得られ
る生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性中の各遺伝子
型特性についての値を含むテスト遺伝子型データ構成体を得るステップと、E)テスト遺
伝子型データ構成体をテスト分類器に適用して、それによってテスト対象における疾患状
況の状態を判定するステップと、を更に備える。
【0307】
いくつかの実施態様では、テスト対象は、適用するステップE)の前に、以前に疾患状
況と診断されていない。
【0308】
本開示の別の態様は、テスト対象における疾患状況を判別するための方法を提供し、こ
の方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行の
ための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにお
いて、少なくとも1つのプログラムが、以下のための命令を備えることを備える。A)電
子フォームで、テスト対象から得られた生体サンプル中の対応する複数の核酸フラグメン
トの複数のテスト遺伝子型特性中の各遺伝子型特性についての値を含むテスト遺伝子型デ
ータ構成体を、取得するステップ;B)テスト遺伝子型データ構成体を請求項2~39の
いずれか1項に記載の方法に従って訓練したテスト分類器に適用して、それによってテス
ト対象における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性
はテスト分類器がこれに対して訓練された複数の遺伝子型特性を備える、ステップ。
【0309】
いくつかの実施態様において、テスト対象から得られた生体サンプルは、液体生体サン
プルである。
【0310】
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
【0311】
いくつかの実施態様において、テスト対象から得られた生体サンプル中の複数の核酸フ
ラグメントは、無細胞DNAである。
【0312】
本開示の別の態様は、疾患状況の判別を容易にする時系列データを生成する方法を提供
し、この方法は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる
実行のための少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステ
ムにおいて、少なくとも1つのプログラムが、以下のための命令を備えることを備える。
A)電子フォームで、第1のトレーニングデータセットを取得するステップであって、第
1のトレーニングデータセットが、訓練対象の第1のコホートに対する第1の複数の遺伝
子型データ構成体であって、第1のトレーニングデータセットは、訓練対象の第1のコホ
ート中の各それぞれの訓練対象について、それぞれの第1の遺伝子型データ構成体がそれ
ぞれの第1の時点においてそれぞれの訓練対象から得られた対応する第1の生体サンプル
中の対応する第1の複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、
それぞれの訓練対象は、それぞれの第1の時点において疾患状況の第1の状態を有する、
第1の複数の遺伝子型データ構成体と、1つ以上のスパイクイン対象のコホートに対する
1つ以上のスパイクイン遺伝子型データ構成体のセットであって、1つ以上のスパイクイ
ン遺伝子型データ構成体のセットが、そのセット又は1つ以上のスパイクイン対象中の各
それぞれのスパイクイン対象について、それぞれのスパイクイン対象から得られた対応す
る生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値
を備え、それぞれのスパイクイン対象は、対応する生体サンプルがそれぞれのスパイクイ
ン対象から得られたときに第2の疾患状況の状態を有したものであり、かつ第1の疾患状
況の状態及び第2の疾患状況の状態が、疾患状況の進行によって関連付けられる、1つ以
上のスパイクイン遺伝子型データ構成体のセットと、を備えるステップ;B)第1のトレ
ーニングデータセットを使用して、訓練対象の第1のコホート中の各それぞれの訓練対象
について、それぞれの第2の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型
特性についての値を備えるそれぞれの第1の増強された遺伝子型データ構成体を生成する
ステップであって、それぞれの第1の増強された遺伝子型データ構成体は、対応する第1
の遺伝子型データ構成体の対に対応し、第1の遺伝子型データ構成体の対は、(i)それ
ぞれの訓練対象に対するそれぞれの第2の遺伝子型データ構成体と、(ii)1つ以上の
スパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクイン遺伝子型デー
タ構成体とから構成され、かつそれぞれの第1の増強された遺伝子型データ構成体は、複
数の遺伝子型特性中のそれぞれの遺伝子型特性に対して、対応する第1の遺伝子型データ
構成体の対の各遺伝子データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラ
グメントの第1の確率サンプリングに由来する増強値を備え、それによって、訓練対象の
第1のコホート中の各それぞれの訓練対象に対して、それぞれの第1の遺伝子型データ構
成体及びそれぞれの第1の増強された遺伝子型データ構成体を備えるそれぞれの時系列デ
ータセットを生成する、ステップ。
【0313】
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの
訓練対象に対して、それぞれの第2の遺伝子型データ構成体は、それぞれの第1の遺伝子
型データ構成体である。
【0314】
いくつかの実施態様では、訓練対象の第1のコホートに中の少なくとも1つのそれぞれ
の訓練対象に対して、それぞれの第2の遺伝子型データ構成体は、第2の時点においてそ
れぞれの訓練対象から得られた対応する第2の生体サンプル中の対応する第2の複数の核
酸フラグメントの複数の遺伝子型特性についての値を備える。
【0315】
いくつかの実施態様において、本方法は、第1のトレーニングデータセットを使用して
、訓練対象中の第1のコホートにおけるそれぞれの訓練対象に対して、それぞれの第3の
時点におけるそれぞれの訓練対象を代表的な複数の遺伝子型特性についての値を備えるそ
れぞれの第2の増強された遺伝子型データ構成体を生成するステップをさらに備え、ここ
で、それぞれの第2の増強された遺伝子型データ構成体は、(i)それぞれの訓練対象に
ついてのそれぞれの第3の遺伝子型データ構成体と、(ii)1つ以上のスパイクイン遺
伝子型データ構成体のセットからのそれぞれのスパイクイン遺伝子型データ構成体とから
構成される対応する第2の遺伝子型構成体の対に対応し、それぞれの第2の増強された遺
伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、対
応する第2の遺伝子型データ構成体の対の各遺伝子型データ構成体中のそれぞれの遺伝子
型特性の値に寄与する核酸フラグメントの第2の確率サンプリングに由来する増強値を備
え、それによって、訓練対象の第1のコホート中の各それぞれの訓練対象に対して、それ
ぞれの第2の増強された遺伝子型データ構成体の包含によるそれぞれの時系列データセッ
トを拡張する。
【0316】
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの
訓練対象に対して、それぞれの第3の遺伝子型データ構成体は、それぞれの第1の遺伝子
型データ構成体である。
【0317】
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの
訓練対象に対して、それぞれの第2の遺伝子型データ構成体は、第2の時点においてそれ
ぞれの訓練対象から得られた対応する第2の生体サンプル中の対応する第2の複数の核酸
フラグメントの複数の遺伝子型特性についての値を備え、かつそれぞれの第3の遺伝子型
データ構成体は、それぞれの第2の遺伝子型データ構成体である。
【0318】
いいくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれ
の訓練対象に対して、それぞれの第3の遺伝子型データ構成体は、第3の時点においてそ
れぞれの訓練対象から得られた対応する第3の生体サンプル中の対応する第3の複数の核
酸フラグメントの複数の遺伝子型特性についての値を備える。
【0319】
いくつかの実施態様では、訓練対象の第1のコホート中のそれぞれの訓練対象に対して
、それぞれの第1の時系列データセットは、第1の疾患状態から第2の疾患状態の発展を
モデル化するためのものであり、第2の時点は、第1の時点の後の時点に対応し、第3の
時点は、第2の時点の後の時点に対応し、核酸フラグメントの第2の確率サンプリングは
、第1の確率サンプリングよりもそれぞれのスパイクイン遺伝子型データ構成体中の遺伝
子型特性の値に寄与する核酸フラグメントの選択に向けてより大きく重み付けされる。
【0320】
いくつかの実施態様において、本方法は、C)少なくとも(i)訓練対象の第1のコホ
ート中のそれぞれの訓練対象についてのそれぞれの時系列データセット、(ii)訓練対
象の第1のコホート中のそれぞれの訓練対象に対して、それぞれの時系列データセット中
の各それぞれの遺伝子型データ構成体についてのそれぞれの時点を備えるそれぞれの複数
の時点、又はその派生物、及び(iii)訓練対象の第1のコホート中のそれぞれの訓練
対象についてのそれぞれの複数の時点中の少なくとも最も早いそれぞれの時点及び最も遅
いそれぞれの時点についての疾患状況の表示、を使用して疾患状況の状態を判別するため
にテスト分類器を訓練するステップ、を更に備える。
【0321】
いくつかの実施態様では、訓練するステップC)は、それぞれの訓練対象の1つ以上の
個人的特徴を使用する。
【0322】
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの
訓練対象について、それぞれの遺伝子型データ構成体の対中のそれぞれのスパイクイン遺
伝子型データ構成体は、第1の対応する時点の後である第4の対応する時点におけるそれ
ぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値を備え、かつ第2の対応する時点は第1の対応する時
点と第4の対応する時点との間である。
【0323】
いくつかの実施態様では、訓練対象の第1のコホート中の各それぞれの訓練対象につい
て、対応する遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成
体に対応するスパイクイン対象は、それぞれの訓練対象と異なる対象である。
【0324】
いくつかの実施態様では、訓練対象の第1のコホート中の各それぞれの訓練対象につい
て、対応する遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成
体に対応するスパイクイン対象は、共有される個人的特徴に基づいてそれぞれの訓練対象
にマッチされる。
【0325】
いくつかの実施態様において、疾患状況は、がんである。
【0326】
いくつかの実施態様において、がんの第1の状態は、がんの存在であり、かつ、がんの
第2の状態は、がんの非存在である。
【0327】
いくつかの実施態様において、がんの第1の状態は、第1のがんのタイプであり、かつ
、がんの第2の状態は、第2のがんのタイプである。
【0328】
いくつかの実施態様において、がんの第1の状態は、特定のがんの第1のステージであ
り、かつ、がんの第2の状態は、特定のがんの第2のステージである。
【0329】
いくつかの実施態様において、がんの第1の状態は、がんの第1の予後であり、かつ、
がんの第2の状態は、がんの第2の予後である。
【0330】
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの
訓練対象について、それぞれの訓練対象は、それぞれの第1の時点においてがんに罹患し
ておらず、かつ遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構
成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに少なく
とも第2のステージのがんに罹患した対応するスパイクイン対象から得られたものである
。
【0331】
いくつかの実施態様において、疾患状況は、心血管疾患である。
【0332】
いくつかの実施態様において、心血管疾患の第1の状態は、心血管疾患の存在であり、
かつ心血管疾患の第2の状態は、心血管疾患の非存在である。
【0333】
いくつかの実施態様において、心血管疾患の第1の状態は、心血管疾患の第1の予後で
あり、かつ心血管疾患の第2の状態は、心血管疾患の第2の予後である。
【0334】
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの
訓練対象について、それぞれの訓練対象は、それぞれの第1の時点において心血管疾患に
罹患しておらず、かつ遺伝型データ構成体の対中のそれぞれのスパイクイン遺伝型データ
構成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに心血
管疾患に罹患していた対応するスパイクイン対象から得られたものである。
【0335】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、それぞれのゲノム位置のメチル化状態を備える。
【0336】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、バリアント対立遺伝子に対する支持を備える。
【0337】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、相対コピー数を備える。
【0338】
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも5000個の遺伝子
型特性を備える。
【0339】
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも50,000個の遺
伝子型特性を備える。
【0340】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。
【0341】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル
中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって
得られる。
【0342】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、(i)全ゲノムメチル化シークエンシング又は(
ii)複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の
核酸プローブを使用する標的DNAメチル化シークエンシングによって得られる。
【0343】
いくつかの実施態様では、複数の訓練対象中の各それぞれの訓練対象について、第1の
対応する生体サンプルは、液体生体サンプルである。
【0344】
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
【0345】
いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、
無細胞DNAである。
【0346】
いくつかの実施態様において、確率サンプリングは、単純ランダムサンプリング、層別
ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリン
グ、又はマルチステージランダムサンプリングである。
【0347】
いくつかの実施態様では、確率サンプリングは、各それぞれの遺伝子型データ構成体の
対中の各遺伝子型データ構成体に対して、複数の遺伝子型特性の対応する値に寄与する対
応する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、ここで
、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、
複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特
性に寄与する核酸フラグメントの存在量に比例する。
【0348】
いくつかの実施態様では、訓練対象の第1のコホート中の各それぞれの訓練対象に対応
する第2のそれぞれの遺伝子型データ構成体に対して、確率サンプリングは、第1のそれ
ぞれの遺伝子型構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグ
メントのそれぞれの第1の部分と、それぞれのスパイクイン遺伝子型データ構成体中の複
数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの第2の部
分とを選択し、かつ核酸フラグメントのそれぞれの第1の部分及び核酸フラグメントのそ
れぞれの第2の部分の大きさは、少なくとも(i)第1の時点と第2の時点との間の時間
の長さ、及び(ii)疾患状況の第1の状態から疾患状況の第2の状態の発展に対する時
間的モデルに基づいて決定される。
【0349】
いくつかの実施態様において、疾患状況の第1の状態から疾患状況の第2の状態の発展
に対する時間的モデルは、それぞれの対象の個人的特徴に少なくとも基づく。
【0350】
いくつかの実施態様において、疾患状況はがんであり、かつ、がんの第1の状態からの
がんの第2の状態の発展に対する時間的モデルは、少なくともがんのタイプに基づく。
【0351】
いくつかの実施態様において、疾患状況はがんであり、がんの第1の状態からのがんの
第2の状態の発展に対する時間的モデルは、がんが転移性であるか又は非転移性であるか
に少なくとも基づく。
【0352】
いくつかの実施態様において、疾患状況はがんであり、かつ、がんの第1の状態からが
んの第2の状態の発展に対する時間的モデルは、ステージに分離される。
【0353】
いくつかの実施態様において、時間的分類器は、ロジスティック回帰アルゴリズムであ
る。
【0354】
いくつかの実施態様において、時間的分類器は、ニューラルネットワークアルゴリズム
、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリ
ズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム
、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである
。
【0355】
いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークで
ある。
【0356】
いくつかの実施態様において、本方法は、D)電子フォームで、テスト対象に対して、
テスト時系列データセットを取得するステップであって、テスト時系列データセットが、
複数の時点中の各それぞれの時点に対して、それぞれの時点においてテスト対象から得ら
れた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性に
ついての値を備える対応するテスト遺伝子型データ構成体と、複数の時点中の各それぞれ
の連続する時点の対に対して、それぞれの連続する時点の対の間の時間の長さの表示とを
備える、ステップ、及びE)テスト時系列データセットを時間的分類器に適用して、それ
によってテスト対象における疾患状況の状態を判定するステップ、を更に備える。
【0357】
いくつかの実施態様では、テスト対象は、適用するステップE)の前に、以前に疾患状
況と診断されていない。
【0358】
本開示の別の態様は、テスト対象における疾患状況を判別する方法を提供し、この方法
は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための
少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、
少なくとも1つのプログラムが、以下のための命令を備えることを備える。A)電子フォ
ームで、テスト対象に対するテスト時系列データセットを取得するステップであって、テ
スト時系列データセットが、複数の時点中の各それぞれの時点に対して、それぞれの時点
においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメ
ントの複数のテスト遺伝子型特性についての値を備えるそれぞれのテスト遺伝子型データ
構成体と、複数の時点中の各それぞれの連続する時点の対に対して、それぞれの連続する
時点の対の間の時間の長さの指標と、を備えるステップ、及びB)テスト時系列データセ
ットを、訓練方法の1つに従って訓練された分類器に適用して、それによってテスト対象
における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性は、分
類器がそれに対して訓練された複数の遺伝子型特性を備えるステップ。
【0359】
いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプルは、
液体生体サンプルである。
【0360】
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
【0361】
いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプル中の
核酸フラグメントは、無細胞DNAである。
【0362】
本開示の別の態様は、疾患状況の状態のセットの中から、テスト対象の疾患状況の状態
を判別するための時間的分類アルゴリズムを訓練する方法を提供し、方法は、少なくとも
1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための少なくとも1つ
のプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも1つ
のプログラムが、以下のための命令を備えることを備える。A)電子フォームで、複数の
訓練対象中の各それぞれの訓練対象に対して、(1)それぞれの訓練対象に対するそれぞ
れの第1の遺伝子型データ構成体であって、それぞれの第1の遺伝子型データ構成体は、
それぞれの第1の時点においてそれぞれの訓練対象から得られた第1の生体サンプル中の
第1のそれぞれの複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、
第1の遺伝子型データ構成体、(2)それぞれの訓練対象に対するそれぞれの第2の遺伝
子型データ構成体であって、それぞれの第2の遺伝子型データ構成体は、それぞれの第1
の時点の後に起こるそれぞれの第2の時点におけるそれぞれの訓練対象の代表的な複数の
遺伝子型特性についての値を備える、第2の遺伝子型データ構成体、(3)それぞれの第
1の時点及びそれぞれの第2の時点、又はその派生物、並びに(4)それぞれの訓練対象
のそれぞれの第1の時点及びそれぞれの第2の時点における疾患状況のセット中の疾患状
況の表示、を備えるトレーニングデータセットを取得するステップ;B)それぞれの訓練
対象に対して、少なくとも(a)それぞれの第1の遺伝子型データ構成体、(b)それぞ
れの第2の遺伝子型データ構成体、(c)それぞれの第1の時点及びそれぞれの第2の時
点、又はその派生物、並びに(d)それぞれの第1の時点及びそれぞれの第2の時点にお
ける、疾患状況の表示であって、複数の訓練対象中の少なくとも1つのそれぞれの訓練対
象に対して、それぞれの第2の遺伝子型データ構成体が、それぞれの訓練対象から得られ
た第2の生体サンプルからのそれぞれの第2の複数の核酸フラグメント、及び疾患状況の
状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られたス
パイクイン生体サンプルからのそれぞれの第3の複数の核酸フラグメント、からの複数の
遺伝子型特性についての値を備える、疾患状況の表示、に対して、時間的分類アルゴリズ
ムを訓練するステップ。
【0363】
いくつかの実施態様では、訓練するステップB)は、それぞれの訓練対象の1つ以上の
個人的特徴を使用する。
【0364】
いくつかの実施態様では、トレーニングデータセットは、複数の訓練対象中の各それぞ
れの訓練対象に対して、以下を更に含む:(5)それぞれの第2の時点の後に起こるそれ
ぞれの第3の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての
値を備える、それぞれの訓練対象についてのそれぞれの第3の遺伝子型データ構成体、(
6)それぞれの第3の時点、又はそれぞれの第2の時点とそれぞれの第3の時点との導出
、並びに(7)それぞれの訓練対象の、それぞれの第3の時点における、疾患状況の状態
のセット中の疾患状況の状態の表示;時間的分類アルゴリズムは、(b1)それぞれの第
3の遺伝子型データ構成体、(c1)それぞれの第3の時点、又はそれぞれの第2の時点
及びそれぞれの第2の時点の派生物、並びに(d1)それぞれの第3の時点におけるそれ
ぞれの訓練対象の疾患状況の状態のセット中の疾患状況の状態の表示に対して更に訓練さ
れ、かつ複数の訓練対象中の少なくとも1つのそれぞれの訓練対象に対して、それぞれの
第3の遺伝子型データ構成体は、それぞれの訓練対象から得られた第3の生体サンプルか
らのそれぞれの第4の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状
況のそれぞれの状態を有するスパイクイン対象から得られたスパイクイン生体サンプルか
らのそれぞれの第5の複数の核酸フラグメント、からの複数の遺伝子型特性についての値
を備える。
【0365】
いくつかの実施態様において、それぞれの第2の複数の核酸フラグメント及びそれぞれ
の第4の複数の核酸フラグメントは、それぞれの訓練対象から得られた同じ生体サンプル
からの同じ無細胞核酸である。
【0366】
いくつかの実施態様において、それぞれの第3の複数の核酸フラグメント及びそれぞれ
の第5の複数の核酸フラグメントは、スパイクイン対象から得られた同じスパイクイン生
体サンプルからの同じ無細胞核酸である。
【0367】
いくつかの実施態様において、それぞれの第3の複数の核酸フラグメント及びそれぞれ
の第5の複数の核酸フラグメントは、スパイクイン対象から得られた同じスパイクイン生
体サンプルからの同じ無細胞核酸であり、それぞれの第2の遺伝子型データ構成体中の複
数の遺伝子型特性についての値は、(i)それぞれの第2の複数の核酸フラグメントの複
数の遺伝子型特性についての値と(ii)それぞれの第3の複数の核酸フラグメントの複
数の遺伝子型特性についての値とのそれぞれの第1の重み混合物を備え、それぞれの第3
の遺伝子型データ構成体中の複数の遺伝子型特性についての値は、(i)それぞれの第2
の複数の核酸フラグメントの複数の遺伝子型特性についての値と(ii)それぞれの第3
の複数の核酸フラグメントの複数の遺伝子型特性についての値とのそれぞれの第2の重み
混合物を備え、かつそれぞれの第2の重み混合物は、それぞれの第1の重み混合物よりも
それぞれの第3の複数の核酸フラグメントの複数の遺伝子型特性についての値に向けてよ
り大きく重み付けされる。
【0368】
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象のそれぞれの訓練対象
に対して、それぞれの第3の複数の核酸フラグメントは、それぞれの第2の時点の後に起
こるそれぞれの第3の時点においてそれぞれの訓練対象から得られた生体サンプル中の無
細胞核酸である。
【0369】
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象のそれぞれの訓練対象
に対して、スパイクイン対象は、それぞれの訓練対象とは異なる対象である。
【0370】
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象のそれぞれの訓練対象
に対して、スパイクイン対象は、共有される個人的特徴に基づいてそれぞれの訓練対象に
マッチングされる。
【0371】
いくつかの実施態様において、疾患状況は、がんである。
【0372】
いくつかの実施態様において、がんの状態のセット中の第1の状態は、がんの存在であ
り、がんの状態のセット中の第2の状態は、がんの非存在である。
【0373】
いくつかの実施態様において、がんの状態のセット中の第1の状態は、第1のがんのタ
イプであり、がんの状態の集セット中の第2の状態は、第2のがんのタイプである。
【0374】
いくつかの実施態様において、がんの状態のセット中の第1の状態は、特定のがんの第
1のステージであり、がんの状態のセット中の第2の状態は、特定のがんの第2のステー
ジである。
【0375】
いくつかの実施態様において、がんの状態のセット中の第1の状態は、がんの第1の予
後であり、がんの状態のセット中の第2の状態は、がんの第2の予後である。
【0376】
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの
訓練対象について、それぞれの訓練対象は、それぞれの第1の時点においてがんに罹患し
ておらず、それぞれの訓練対象についてのそれぞれの第2の遺伝子型データ構成体は、そ
れぞれの第2の時点においてがんを有するそれぞれの訓練対象の代表であり、かつスパイ
クイン対象は、スパイクイン生体サンプルが得られたときに少なくとも第2のステージの
がんに罹患している。
【0377】
いくつかの実施態様において、疾患状況は、心血管疾患である。
【0378】
いくつかの実施態様において、心血管疾患の状態のセット中の第1の状態は、心血管疾
患の存在であり、かつ心血管疾患のセット中の第2の状態は、心血管疾患の非存在である
。
【0379】
いくつかの実施態様において、心血管疾患の状態のセット中の第1の状態は、心血管疾
患に対する第1の予後であり、かつ心血管疾患の状態のセット中の第2の状態は、心血管
疾患に対する第2の予後である。
【0380】
いくつかの実施態様では、訓練対象の第1のコホート中の少なくとも1つのそれぞれの
訓練対象について、それぞれの訓練対象は、それぞれの第1の時点において心血管疾患に
罹患しておらず、それぞれの訓練対象についてのそれぞれの第2の遺伝子型データ構成体
は、それぞれの第2の時点における心血管疾患を有するそれぞれの訓練対象の代表であり
、かつスパイクイン対象は、スパイクイン生体サンプルが得られたときに心血管疾患に罹
患している。
【0381】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、それぞれのゲノム位置のメチル化状態を備える。
【0382】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、バリアント対立遺伝子に対する支持を備える。
【0383】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、相対コピー数を備える。
【0384】
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも5000個の遺伝子
型特性を備える。
【0385】
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも50,000個の遺
伝子型特性を備える。
【0386】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。
【0387】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル
中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって
得られる。
【0388】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、(i)全ゲノムメチル化シークエンシング又は(
ii)複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の
核酸プローブを使用する標的DNAメチル化シークエンシングによって得られる。
【0389】
いくつかの実施態様において、各生体サンプルは、液体生体サンプルである。
【0390】
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
【0391】
いくつかの実施態様では、対応する生体サンプル中の複数の核酸フラグメントは、無細
胞DNAである。
【0392】
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象について、それぞれの
第2の遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対
する、(i)第2の複数の核酸フラグメント中のそれぞれの遺伝子型特性の値に寄与する
核酸フラグメント、及び(ii)第3の複数の核酸フラグメント中のそれぞれの遺伝子型
特性の値に寄与する核酸フラグメント、の確率サンプリングに由来する増強値を備える。
【0393】
いくつかの実施態様において、確率サンプリングは、単純ランダムサンプリング、層別
ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリン
グ、又はマルチステージランダムサンプリングである。
【0394】
いくつかの実施態様において、確率サンプリングは、それぞれの第2の複数の核酸フラ
グメント及びそれぞれの第3の複数の核酸フラグメントの各々に対して、複数の遺伝子型
特性の対応する値に寄与する対応する複数の核酸フラグメントの所定の部分の重みランダ
ムサンプリングを備え、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメン
トを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関す
る対応する遺伝子型特性に寄与する核酸フラグメントの存在量に比例する。
【0395】
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象中の各それぞれの訓練
対象に対応するそれぞれの第2の遺伝子型データ構成体について、確率サンプリングが、
複数の遺伝子型特性についての値に寄与するそれぞれの第2の複数の核酸フラグメントの
それぞれの第1の部分と、複数の遺伝子型特性についての値に寄与するそれぞれの第3の
複数の核酸フラグメントのそれぞれの第2の部分とを選択し、かつ核酸フラグメントのそ
れぞれの第1の部分及び核酸フラグメントのそれぞれの第2の部分の大きさは、少なくと
も(i)第1の時点と第2の時点との間の時間の長さ、及び(ii)疾患状況の状態のセ
ット中の、スパイクイン対象が罹患している疾患状況のそれぞれの状態の発展に対する時
間モデルに基づいて、決定される。
【0396】
いくつかの実施態様では、少なくとも1つのそれぞれの訓練対象中の各それぞれの訓練
対象に対して、それぞれの第2の遺伝子型データ構成体は、i)第2の生体サンプルから
の第2の複数の核酸フラグメントの第1の量と、スパイクイン生体サンプルからの無細胞
核酸の第2の量とを一緒に混合し、それによって無細胞核酸の混合物を形成するステップ
、ii)無細胞核酸の混合物からの核酸フラグメントをシークエンシングするステップ、
及びiii)シークエンシングするステップii)に基づいて複数のゲノム特性について
の値を決定するステップ、によって形成される。
【0397】
いくつかの実施態様において、第1の量及び第2の量は、少なくとも(i)第1の時点
と第2の時点との間の時間の長さ、及び(ii)疾患状況の状態のセット中の、スパイク
対象が罹患している疾患状況のそれぞれの状態の発展に対する時間的モデル、に基づいて
、決定される。
【0398】
いくつかの実施態様において、疾患状況のそれぞれの第2の状態の発展に対する時間的
モデルは、それぞれの訓練対象の個人的特徴に少なくとも基づく。
【0399】
いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発
展に対する時間的モデルは、少なくともがんのタイプに基づく。
【0400】
いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発
展に対する時間的モデルは、がんが転移性であるか又は非転移性であるかに少なくとも基
づく。
【0401】
いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発
展に対する時間的モデルは、ステージに分離される。
【0402】
いくつかの実施態様において、時間的分類器は、ロジスティック回帰アルゴリズムであ
る。
【0403】
いくつかの実施態様において、時間的分類器は、ニューラルネットワークアルゴリズム
、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリ
ズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム
、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである
。
【0404】
いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークで
ある。
【0405】
いくつかの実施態様において、本方法は更に以下を備える:C)電子フォームで、テス
ト対象について、テスト時系列データセットを取得するステップであって、テスト時系列
データセットが、複数の時点中の各それぞれの時点に対する、それぞれの時点におけるテ
スト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数
の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体と、複数の時
点中の各それぞれの連続する時点の対に対する、それぞれの連続する時点の対の間の時間
の長さの表示と、を備えるステップ;D)テスト時系列データセットを時間的分類器に適
用して、それによってテスト対象における疾患状況の状態を判定するステップ。
【0406】
いくつかの実施態様では、適用するステップD)の前に、テスト対象は、以前に疾患状
況と診断されていない。
【0407】
本開示の別の態様は、テスト対象における疾患状況を判別する方法を提供し、この方法
は、少なくとも1つのプロセッサ、及び少なくとも1つのプロセッサによる実行のための
少なくとも1つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、
少なくとも1つのプログラムが、以下のための命令を備えることを備える:A)電子フォ
ームで、テスト対象についてのテスト時系列データセットを取得するステップであって、
テスト時系列データセットは、複数の時点中の各それぞれの時点に対する、それぞれの時
点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグ
メントの複数の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体
と、複数の時点中の各それぞれの連続する時点の対に対する、それぞれの連続する時点の
対の間の時間の長さを示す表示と、を備えるステップ;B)テスト時系列データセットを
、請求項96~138のいずれか1項に記載の方法に従って訓練された分類器に適用して
、それによってテスト対象における疾患状況の状態を判定するステップであって、複数の
テスト遺伝子型特性は、分類器がそれに対して訓練された複数の遺伝子型特性を備える、
ステップ。
【0408】
いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプルは、
液体生体サンプルである。
【0409】
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
【0410】
いくつかの実施態様において、テスト対象から得られた各生体サンプル中の核酸フラグ
メントは、無細胞DNAである。
【0411】
本開示の別の態様は、テスト対象における疾患状況を判別するために訓練された分類器
の性能を査定する方法を提供し、本方法は、少なくとも1つのプロセッサ、及び少なくと
も1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを
備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命
令を備えることを備える:A)テスト遺伝子型データ構成体を評価することによって、疾
患状況を判別するように訓練された第1の分類器を得るステップであって、テスト遺伝子
型データ構成体は、テスト対象から得られた第1の対応する生体サンプル中の対応する第
1の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、ステップ;B
)複数の増強された遺伝子型データ構成体を備える増強された評価データセットを取得す
るステップであって、複数の増強された遺伝子型データ構成体中の各それぞれの増強され
た遺伝子型データ構成体は、疾患状況の複数の状態中のそれぞれの疾患状況の状態を有す
る対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの
複数の遺伝子型特性についての値を備え、増強された評価データセットは、複数の増強さ
れた遺伝子型データ構成体中の複数の疾患状況の状態中の各それぞれの疾患状況の状態の
代表的なそれぞれの増強された遺伝子型データ構成体を含む、ステップ;C)各それぞれ
の増強された遺伝子型データ構成体に対して疾患状態分類を生成するために、増強された
評価データセット中の各それぞれの増強された遺伝子型データ構成体を分類器に独立して
適用し、それによって複数の疾患状態分類を生成するステップ;D)複数の疾患状態分類
中のそれぞれの疾患状態分類を、対応する増強された遺伝子型データ構成体によって表さ
れるそれぞれの疾患状況の状態の関数として評価し、それによって分類器の性能を査定す
る、ステップ。
【0412】
本開示の別の態様は、テスト対象における疾患状況を判別するために訓練された分類器
の性能を査定する方法を提供し、本方法は、少なくとも1つのプロセッサ、及び少なくと
も1つのプロセッサによる実行のための少なくとも1つのプログラムを格納するメモリを
備えるコンピュータシステムにおいて、少なくとも1つのプログラムが、以下のための命
令を備えることを備える:A)テスト遺伝子型データ構成体を評価することによって、疾
患状況を判別するように訓練された第1の分類器を得るステップであって、テスト遺伝子
型データ構成体は、テスト対象から得られた第1の対応する生体サンプル中の対応する第
1の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、ステップ;B
)複数の増強された遺伝子型データ構成体を備える増強された査定データセットを得るス
テップであって、複数の増強された遺伝子型データ構成体中の各それぞれの増強された遺
伝子型データ構成体は、複数の疾患状況の状態中のそれぞれの疾患状況の状態を有する対
象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数
の遺伝子型特性についての値を備え、増強された査定データセットは、複数の増強された
遺伝子型データ構成体中の、複数の疾患状況の状態中の各それぞれの疾患状況の状態の代
表であるそれぞれの増強された遺伝子型データ構成体を含み、増強された査定データセッ
トは、先の方法のいずれかによる方法によって取得される、ステップ;C)それぞれの増
強された遺伝子型データ構成体について疾患状態分類を生成するために、増強された評価
データセット中の各それぞれの増強された遺伝子型データ構成体を分類器に独立して適用
し、それによって複数の疾患状態分類を生成するステップ;D)複数の疾患状態分類中の
各それぞれの疾患状態分類を、対応する増強された遺伝子型データ構成体によって表され
るそれぞれの疾患状況の状態の関数として評価し、それによって分類器の性能を査定する
、ステップ。
【0413】
いくつかの実施態様において、分類器は、ロジスティック回帰アルゴリズムである。
【0414】
いくつかの実施態様において、分類器は、ニューラルネットワークアルゴリズム、サポ
ートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、
ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項
ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。
【0415】
いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークで
ある。
【0416】
いくつかの実施態様において、疾患状況は、がんである。
【0417】
いくつかの実施態様において、がんの複数の状態中の各状態は、少なくとも、分類器の
検出レベルより少なくとも25%下回る無細胞DNA腫瘍分画のベースラインパーセンテ
ージから分類器の検出レベルより少なくとも25%上回る無細胞DNA腫瘍分画の上限パ
ーセンテージにまたがる無細胞DNA腫瘍分画の範囲内の、無細胞DNA腫瘍分画のサブ
範囲を備える。
【0418】
いくつかの実施態様において、疾患状況は、心血管疾患である。
【0419】
いくつかの実施態様において、心血管疾患の複数の状態中の各状態は、少なくとも、分
類器の検出レベルを少なくとも25%下回る無細胞DNA心血管組織画分のベースライン
パーセンテージから分類器の検出レベルを少なくとも25%上回る無細胞DNA心血管組
織分画の上限パーセンテージにまたがる無細胞DNA心血管組織分画の範囲内の、無細胞
DNA心血管組織分画のサブ範囲を備える。
【0420】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、それぞれのゲノム位置のメチル化状態を備える。
【0421】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、バリアント対立遺伝子に対する支持を備える。
【0422】
いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、相対コピー数を備える。
【0423】
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも5000個の遺伝子
型特性を備える。
【0424】
いくつかの実施態様において、複数の遺伝子型特性は、少なくとも50,000個の遺
伝子型特性を備える。
【0425】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。
【0426】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル
中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって
、得られる。
【0427】
いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、(i)全ゲノムメチル化シークエンスシング又は
(ii)複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するために複数
の核酸プローブを使用する標的DNAメチル化シークエンシングによって、得られる。
【0428】
いくつかの実施態様において、各生体サンプルは、液体生体サンプルである。
【0429】
いくつかの実施態様において、液体生体サンプルは、血液サンプルである。
【0430】
いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、
無細胞DNAである。
【0431】
VII.追加の考慮事項
【0432】
前述の実施態様の詳細な説明は、本開示の特定の実施態様を示す添付の図面を参照した
ものである。異なる構造及び動作を有する他の実施態様は、本開示の範囲から逸脱しない
。「本発明」等の用語は、本明細書で明らかにされた出願人の発明の多くの代替的な側面
又は実施態様の特定の具体例を参照して使用され、その使用又はその欠落は、出願人の発
明の範囲又は請求項の範囲を制限することを意図していない。
【0433】
本発明の実施態様は、本明細書における操作を行うための装置に関するものであっても
よい。この装置は、必要な目的のために特別に構成されてもよく、及び/又は、コンピュ
ータに格納されたコンピュータプログラムによって選択的にアクティブ化又は在再構成さ
れる汎用のコンピューティングデバイスを備えてもよい。このようなコンピュータプログ
ラムは、非一過性の有形のコンピュータ可読記憶媒体、又は電子命令を格納するのに適し
た任意のタイプの媒体に格納してもよく、この媒体はコンピュータシステムバスに結合さ
れてもよい。さらに、本明細書で言及される任意のコンピューティングシステムは、単一
のプロセッサを含んでもよく、又はコンピューティング能力を高めるためにマルチプルプ
ロセッサ設計を採用したアーキテクチャであってもよい。
【0434】
分析システムによって行われるものとして本明細書に記載されたステップ、操作、又は
プロセスのいずれかが、単独で、若しくは他のコンピューティングデバイスと組み合わせ
て、装置の1つ以上のハードウェア又はソフトウェアモジュールで実施若しくは実装され
てもよい。一実施態様において、ソフトウェアモジュールは、説明されたステップ、操作
、又はプロセスのいずれか若しくはすべてを行うためにコンピュータプロセッサによって
実行することができるコンピュータプログラムコードを包含するコンピュータ可読媒体を
備えるコンピュータプログラム製品で実装される。
【手続補正書】
【提出日】2024-07-01
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
がんを検出するためのモデルを訓練する方法であって、該方法は:
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの1つとしてラベルされ、かつ各トレーニングサンプルは複数の異常な核酸フラグメントを備え、前記複数の異常な核酸フラグメントは異常にメチル化されたDNA部位を有する、ステップと;
がんとしてラベルされた第1のトレーニングサンプル及び非がんとしてラベルされた第2のトレーニングサンプルをサンプリングするステップと;
前記第1のトレーニングサンプルから異常な核酸フラグメントの第1のサブセット、及び前記第2のトレーニングサンプルから異常な核酸フラグメントの第2のサブセットをサンプリングすることによって、第1の合成トレーニングサンプルを生成するステップであって、前記第1の合成トレーニングサンプルはがんとしてラベルされる、ステップと;
各トレーニングサンプルの前記複数の異常な核酸フラグメントに基づいて、前記第1の合成トレーニングサンプルを含む前記トレーニングサンプルの各々について特徴ベクトルを生成するステップと;
前記特徴ベクトル及び前記第1の合成トレーニングサンプルを含む前記トレーニングサンプルの前記ラベルを用いて前記モデルを訓練するステップであって、前記モデルは、前記複数の異常な核酸フラグメントの1つ以上に対する発生組織予測を生成するように構成される、ステップと;
を備える、方法。
【請求項2】
請求項1に記載の方法であって、前記第1の合成トレーニングサンプルを生成するステップは:
複数のゲノム領域の各ゲノム領域に対して、前記ゲノム領域に重なる前記第1のトレーニングサンプルから異常な核酸フラグメントを第1のサンプリング確率でサンプリングし、かつ前記ゲノム領域に重なる前記第2のトレーニングサンプルから異常な核酸フラグメントを前記第1のサンプリング確率に対して相補的である第2のサンプリング確率でサンプリングするステップ;
を備える、方法。
【請求項3】
請求項2に記載の方法であって、前記第1のサンプリング確率及び前記第2のサンプリング確率は、前記訓練されたモデルの検出限界に従って設定される、方法。
【請求項4】
請求項1に記載の方法であって、前記第1の合成トレーニングサンプルを含む前記トレーニングサンプルの各々について前記特徴ベクトルを生成するステップは、
追加のゲノム情報を用いて各ベクトルを増強するステップ、及び
前記発生組織予測を生成するための前記モデルを、前記増強された特徴ベクトルに基づいて訓練するステップ、
を更に備える、方法。
【請求項5】
請求項1に記載の方法であって、前記特徴ベクトル及び前記第1の合成トレーニングサンプルを含む前記トレーニングサンプルの前記ラベルを用いて訓練された前記モデルは、追加的に、前記生成された発生組織予測に対するがん予測を生成するように構成される方法。
【請求項6】
請求項1に記載の方法であって、特徴ベクトルの各特長は、複数のCpG部位のうちの1つのCpG部位に対応し、かつ前記第1のトレーニングサンプル及び前記第1の合成トレーニングサンプルは、第1のがんタイプのラベルを有し、前記トレーニングサンプルの各々について特徴ベクトルを生成するステップは、
前記特徴に対応する前記CpG部位と重なり、かつ閾値尤度を超える尤度を有する異常な核酸フラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定すること、
を備える、方法。
【請求項7】
請求項1に記載の方法であって、前記トレーニングサンプルの各々について特徴ベクトルを生成するステップは、各異常なcfDNAフラグメントについて、前記異常なcfDNAフラグメントが前記異常なcfDNAフラグメントの複数のCpG部位における複数のメチル化状態に確率モデルを適用することによって、がん生体サンプルに由来する尤度を決定すること、を備える、方法。
【請求項8】
請求項1に記載の方法であって、前記方法は、
異常フラグメントのセットを生成するために、p値フィルタリングによる各トレーニングサンプルのcfDNAフラグメントの初期セットをフィルタリングするステップであって、前記フィルタリングは、他のフラグメントに関して閾値を下回るp値を有するフラグメントを前記初期セットから除去し、異常なフラグメントの前記セットを作り出すことを備える、ステップ、
を更に備える、方法。
【請求項9】
請求項1記載の方法であって、前記訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである、方法。
【請求項10】
請求項1に記載の方法であって、前記核酸フラグメントは、無細胞デオキシリボース核酸(「cfDNA」)フラグメントである、方法。
【請求項11】
システムであって、該システムは:
コンピュータプロセッサと;
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項1~10のいずれかの方法を行なわせる命令と;
前記命令を格納する非一時的コンピュータ可読記憶媒体と;
を備える、システム。
【請求項12】
がんを検出するための方法であって、該方法は:
複数の異常な核酸フラグメント、すなわちCpG部位の異常なメチル化を有する複数の異常な核酸フラグメント、を含むテストサンプルのシークエンシングデータを受信するステップと;
前記テストサンプルの前記複数の異常な核酸フラグメントに基づいて、テスト特徴ベクトルを生成するステップと;
前記テスト特徴ベクトルを分類モデルに入力し、前記テストサンプルについてのがん予測を生成するステップであって、前記分類モデルを、
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの1つとしてラベルされ、各トレーニングサンプルは複数の異常な核酸フラグメントを含む、ステップ、
がんとしてラベルされた第1のトレーニングサンプルと非がんとしてラベルされた第2のトレーニングサンプルとをサンプリングするステップ、
前記第1のトレーニングサンプルから異常な核酸フラグメントの第1のサブセットと、前記第2のトレーニングサンプルから異常な核酸フラグメントの第2のサブセットとをサンプリングすることによって、第1の合成トレーニングサンプルを生成するステップであって、前記第1の合成トレーニングサンプルはがんとしてラベルされる、ステップ、
各トレーニングサンプルの前記複数の異常な核酸フラグメントに基づいて、前記第1の合成トレーニングサンプルを含む前記トレーニングサンプルの各々について特徴ベクトルを生成するステップ、並びに
前記特徴ベクトル、及び前記第1の合成トレーニングサンプルを含む前記トレーニングサンプルの前記ラベルを用いて、前記モデルを訓練するステップ、
によって訓練する、ステップと;
を備える、方法。
【請求項13】
請求項12に記載の方法であって、前記がん予測は、がんと非がんとの間の二値予測である、方法。
【請求項14】
請求項12に記載の方法であって、前記がん予測は、複数のがんタイプ間のマルチクラスがん予測である、方法。
【請求項15】
請求項12に記載の方法であって、特徴ベクトルの各特徴は、複数のCpG部位のCpG部位に対応し、かつ前記トレーニングサンプルの各々に対する特徴ベクトルを生成するステップは:
前記特徴に対応する前記CpG部位と重なり、かつ閾値尤度を上回る尤度を有する異常な核酸フラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定するステップ、
を備える、方法。
【請求項16】
請求項15に記載の方法であって、各特徴ベクトルは、前記トレーニングサンプルのシークエンス深度に従って正規化される、方法。
【請求項17】
請求項12に記載の方法であって、前記分類モデルを:
異常なフラグメントのセットを生成するために、p値フィルタリングによる各トレーニングサンプルのcfDNAフラグメントの初期セットをフィルタリングするステップであって、前記フィルタリングは、他のフラグメントに関して閾値を下回るp値を有するフラグメントを前記初期セットから除去して異常なフラグメントの前記セットを生成することを備える、ステップ;
によって更に訓練する、方法。
【請求項18】
システムであって、該システムは:
コンピュータプロセッサと;
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項12~17のいずれかの方法を行なわせる命令と;
前記命令を格納する非一時的コンピュータ可読記憶媒体と;
を備える、システム。
【外国語明細書】