特開2024-119880 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ グレイルエルエルシーの特許一覧

特開2024-119880合成トレーニングサンプルによるがん分類

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
2A
2B
3
4
5A
5B
6A
6B
7
8
9
10
11
12A
12B
12C
13
14
15

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公開特許公報(A)

(11)【公開番号】P2024119880

(43)【公開日】2024-09-03

(54)【発明の名称】合成トレーニングサンプルによるがん分類

(51)【国際特許分類】

C12Q 1/6869 20180101AFI20240827BHJP

C12Q 1/6806 20180101ALI20240827BHJP

C12M 1/00 20060101ALI20240827BHJP

【ＦＩ】

C12Q1/6869 Z

C12Q1/6806 Z

C12M1/00 A

【審査請求】有

【請求項の数】18

【出願形態】ＯＬ

【外国語出願】

(21)【出願番号】P 2024088619

(22)【出願日】2024-05-31

(62)【分割の表示】P 2022560061の分割

【原出願日】2021-03-29

(31)【優先権主張番号】63/001,729

(32)【優先日】2020-03-30

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】63/154,667

(32)【優先日】2021-02-27

(33)【優先権主張国・地域又は機関】US

(71)【出願人】

【識別番号】522105894

【氏名又は名称】グレイルエルエルシー

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100226263

【弁理士】

【氏名又は名称】中田未来生

(72)【発明者】

【氏名】エムサイラスマヘル

(72)【発明者】

【氏名】サミュエルエスグロス

(72)【発明者】

【氏名】ジョシュアニューマン

(72)【発明者】

【氏名】イョルグブレドノ

(72)【発明者】

【氏名】オグンジェンニコリク

(57)【要約】（修正有）

【課題】がんを検出し、及び／又はがん発生組織を判定するための方法及びシステムを提供する。また、ｃｆＤＮＡフラグメントを包含する複数の生体サンプルと、生体サンプルから生成される少なくとも１つの合成トレーニングサンプルとを用いて訓練されるマルチクラスがん分類器を提供する。
【解決手段】分析システムは、がんとしてラベルされたトレーニングサンプルからフラグメントをサンプリングし、非がんとしてラベルされた別のトレーニングサンプルからフラグメントをサンプリングすることによって、合成トレーニングサンプルを生成する。サンプリング確率は、例えば、検出限界に近接したがん腫瘍分画を有する合成トレーニングサンプルを生成するために、がん分類器の検出限界に基づいて決定される。
【選択図】図３

【特許請求の範囲】

【請求項1】

がんを検出するためのモデルを訓練する方法であって、該方法は：
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、
各トレーニングサンプルはがん及び非がんのうちの１つとしてラベルされ、かつ各トレー
ニングサンプルは複数の異常なｃｆＤＮＡフラグメントを備える、ステップと；
がんとしてラベルされた第１のトレーニングサンプル及び非がんとしてラベルされた第
２のトレーニングサンプルをサンプリングするステップと；
前記第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第１のサブセッ
ト、及び前記第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第２のサ
ブセットをサンプリングすることによって、第１の合成トレーニングサンプルを生成する
ステップであって、前記第１の合成トレーニングサンプルはがんとしてラベルされる、ス
テップと；各トレーニングサンプルの前記複数の異常なｃｆＤＮＡフラグメントに基づ
いて、前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの各々につ
いて特徴ベクトルを生成するステップと；
前記特徴ベクトル及び前記第１の合成トレーニングサンプルを含む前記トレーニングサ
ンプルの前記ラベルを用いて前記モデルを訓練するステップであって、前記モデルは、前
記テストサンプルのシークエンシングデータに基づいてテストサンプルに対するがん予測
を生成するように構成される、ステップと；
を備える、方法。

【請求項2】

請求項１に記載の方法であって、前記第１の合成トレーニングサンプルを生成するステ
ップは：
複数のゲノム領域の各ゲノム領域に対して、前記ゲノム領域に重なる前記第１のトレー
ニングサンプルから異常なｃｆＤＮＡフラグメントを第１のサンプリング確率でサンプリ
ングし、かつ前記ゲノム領域に重なる前記第２のトレーニングサンプルから異常なｃｆＤ
ＮＡフラグメントを前記第１のサンプリング確率に対して相補的である第２のサンプリン
グ確率でサンプリングするステップ；
を備える、方法。

【請求項3】

請求項２に記載の方法であって、前記第１のサンプリング確率及び前記第２のサンプリ
ング確率は、前記訓練されたモデルの検出限界に従って設定される、方法。

【請求項4】

請求項１に記載の方法であって、前記方法は：
非がんとしてラベルされた第３のトレーニングサンプルをサンプリングするステップと
；
前記第１のサブセットとは異なる前記第１のトレーニングサンプルからの異常なｃｆＤ
ＮＡフラグメントの第３のサブセット、及び前記第３のトレーニングサンプルからの異常
なｃｆＤＮＡフラグメントの第４のサブセットをサンプリングすることによって、第２の
合成トレーニングサンプルを生成するステップであって、前記第２の合成トレーニングサ
ンプルはがんとしてラベルされる、ステップと；
前記第２の合成トレーニングサンプルの前記複数の異常なｃｆＤＮＡフラグメントに基
づいて、前記第２の合成トレーニングサンプルに対する第２の特徴ベクトルを生成するス
テップと；
を更に備え、
前記モデルを、前記第２の特徴ベクトル及び前記第２の合成トレーニングサンプルの前
記ラベルを用いて更に訓練する、
方法。

【請求項5】

請求項１に記載の方法であって、前記方法は：
がんとしてラベルされた第３のトレーニングサンプル、及び非がんとしてラベルされた
第４のトレーニングサンプルをサンプリングするステップと；
前記第３のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第３のサブセッ
ト、及び前記第４のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第４のサ
ブセットをサンプリングすることによって、第２の合成トレーニングサンプルを生成する
ステップであって、前記第２の合成トレーニングサンプルはがんとしてラベルされる、ス
テップと；
前記第２の合成トレーニングサンプルの前記複数の異常なｃｆＤＮＡフラグメントに基
づいて、前記第２の合成トレーニングサンプルに対する第２の特徴ベクトルを生成するス
テップと；
を更に備え、
前記モデルを、前記第２の特徴ベクトル及び前記第２の合成トレーニングサンプルのラ
ベルを用いて更に訓練する、
方法。

【請求項6】

請求項５に記載の方法であって、前記第１のトレーニングサンプル及び前記第１の合成
トレーニングサンプルは、第１のがんタイプのラベルを有し、かつ前記第３のトレーニン
グサンプル及び前記第２の合成トレーニングサンプルは、第２のがんタイプのラベルを有
する、方法。

【請求項7】

請求項１に記載の方法であって、特徴ベクトルの各特徴は、複数のＣｐＧ部位のＣｐＧ
部位に対応し、前記トレーニングサンプルの各々に対する特徴ベクトルを生成するステッ
プは：
各異常なｃｆＤＮＡフラグメントに対して、前記異常なｃｆＤＮＡフラグメントの複数
のＣｐＧ部位における複数のメチル化状態に確率モデルを適用することによって、異常な
ｃｆＤＮＡフラグメントががん生体サンプルに由来する尤度を決定するステップと；
前記特徴に対応する前記ＣｐＧ部位と重なり、かつ閾値尤度を上回る尤度を有する異常
なｃｆＤＮＡフラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定するス
テップと；
を備える方法、

【請求項8】

請求項７に記載の方法であって、各特徴ベクトルは、前記トレーニングサンプルのシー
クエンス深度に従って正規化される、方法。

【請求項9】

請求項１に記載の方法であって、前記方法は：
異常なフラグメントのセットを生成するために、ｐ値フィルタリングによる各トレーニ
ングサンプルのｃｆＤＮＡフラグメントの初期セットをフィルタリングするステップであ
って、前記フィルタリングは、他のフラグメントに関して閾値を下回るｐ値を有するフラ
グメントを前記初期セットから除去し、異常なフラグメントの前記セットを作り出すこと
を備える、ステップ；
を更に備える、方法。

【請求項10】

請求項１記載の方法であって、前記訓練されたモデルは、ニューラルネットワークアル
ゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍
アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アル
ゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズ
ムである、方法。

【請求項11】

システムであって、該システムは：
コンピュータプロセッサと；
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項１～１０
のいずれかの方法を行なわせる命令を格納する非一時的コンピュータ可読記憶媒体と；
を備える、システム。

【請求項12】

がんを検出するための方法であって、該方法は：
複数の異常なｃｆＤＮＡフラグメントを含むテストサンプルのシークエンシングデータ
を受信するステップと；
前記テストサンプルの前記異常なｃｆＤＮＡフラグメントに基づいて、テスト特徴ベク
トルを生成するステップと；
前記テスト特徴ベクトルを分類モデルに入力し、テストサンプルについてのがん予測を
生成するステップであって、前記分類モデルを、
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって
、各トレーニングサンプルはがん及び非がんのうちの１つとしてラベルされ、各トレーニ
ングサンプルは複数の異常なｃｆＤＮＡフラグメントを含む、ステップ、
がんとしてラベルされた第１のトレーニングサンプルと非がんとしてラベルされた第
２のトレーニングサンプルとをサンプリングするステップ、
前記第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第１のサブセ
ットと、前記第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第２のサ
ブセットとをサンプリングすることによって、第１の合成トレーニングサンプルを生成す
るステップであって、前記第１の合成トレーニングサンプルはがんとしてラベルされる、
ステップ、
各トレーニングサンプルの前記複数の異常なｃｆＤＮＡフラグメントに基づいて、前
記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの各々に対する特徴
ベクトルを生成するステップ、並びに
前記特徴ベクトル、及び前記第１の合成トレーニングサンプルを含む前記トレーニン
グサンプルの前記ラベルを用いて、前記モデルを訓練するステップ、
によって訓練する、ステップと；
を備える、方法。

【請求項13】

請求項１２に記載の方法であって、前記がん予測は、がんと非がんとの間の二値予測で
ある、方法。

【請求項14】

請求項１２に記載の方法であって、前記がん予測は、複数のがんタイプ間のマルチクラ
スがん予測である、方法。

【請求項15】

請求項１２に記載の方法であって、特徴ベクトルの各特徴は、複数のＣｐＧ部位のＣｐ
Ｇ部位に対応し、かつ前記トレーニングサンプルの各々に対する特徴ベクトルを生成する
ステップは：
各異常なｃｆＤＮＡフラグメントに対して、前記異常なｃｆＤＮＡフラグメントの複数
のＣｐＧ部位における複数のメチル化状態に確率モデルを適用することによって、前記異
常なｃｆＤＮＡフラグメントががん生体サンプルに由来する尤度を決定するステップと；
前記特徴に対応する前記ＣｐＧ部位と重なり、かつ閾値尤度を上回る尤度を有する異常
なｃｆＤＮＡフラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定するス
テップと；
を備える、方法。

【請求項16】

請求項１５に記載の方法であって、各特徴ベクトルは、前記トレーニングサンプルのシ
ークエンス深度に従って正規化される、方法。

【請求項17】

請求項１２に記載の方法であって、前記前記分類モデルを：
異常なフラグメントのセットを生成するために、ｐ値フィルタリングによる各トレーニ
ングサンプルのｃｆＤＮＡフラグメントの初期セットをフィルタリングするステップであ
って、前記フィルタリングは、他のフラグメントに関して閾値を下回るｐ値を有するフラ
グメントを前記初期セットから除去して異常なフラグメントの前記セットを生成すること
を備える、ステップ；
によって更に訓練する、方法。

【請求項18】

システムであって、該システムは：
コンピュータプロセッサと；
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項１２～１
７のいずれかの方法を行なわせる命令を格納する非一時的コンピュータ可読記憶媒体と；
を備える、システム。

【発明の詳細な説明】

【背景技術】

【0001】

デオキシリボ核酸（ＤＮＡ）メチル化は、遺伝子発現の調節における重要な役割を果た
す。ＤＮＡメチル化の変型は、がんを含む多くの疾患プロセスに関与しているとされる。
メチル化シークエンシング（例えば、全ゲノムバイサルファイトシークエンシング（ＷＧ
ＢＳ））を使用するＤＮＡメチル化プロファイリングは、がんの検出、診断、及び／又は
モニタリングのための貴重な診断ツールとしてますます認識されつつある。例えば、異な
るメチル化領域の特定のパターン及び／又は対立遺伝子特異的メチル化パターンは、循環
無細胞（ｃｆ）ＤＮＡを使用する非侵襲的診断のための分子マーカーとして有用である場
合がある。しかしながら、がんなどのような疾患の検出、診断、及び／又はモニタリング
のために無細胞ＤＮＡからのメチル化シークエンシングデータを分析するための改善され
た方法に対する必要性が当技術分野において残っている。

【0002】

本開示は、これらの上記課題の１つ以上に対処することに向けられている。本明細書で
提供される背景の説明は、本開示の文脈を一般的に提示することを目的とするものである
。本明細書に特に示されない限り、このセクションに記載された資料は、本願の請求項に
対する先行技術ではなく、かつこのセクションに含めることによって、先行技術であるこ
と、又は先行技術の示唆であることを認めるものでもない。

【発明の概要】

【0003】

被験者の疾患状態（がんなどのような）の早期発見は、早期治療を可能にし、かつそれ
故に生存の可能性を高めることができるため重要である。無細胞（ｃｆ）ＤＮＡサンプル
中のＤＮＡフラグメントのシークエンシングは、疾患の分類に使用できる特徴を同定する
ために使用することができる。例えば、がんの査定において、血液サンプルからの無細胞
ＤＮＡに基づく特徴（体細胞変異、メチル化状態、又は他の遺伝子異常の有無などのよう
な）は、被験者ががんに罹っているかもしれないという洞察、そしてさらに被験者がどん
ながんのタイプを有しているかもしれないという洞察を提供することができる。その目的
に向けて、本明細書は、被験者が疾患を有する可能性を判定するための無細胞ＤＮＡシー
クエンシングデータを分析するためのシステム及び方法を含む。

【0004】

本開示は、疾患状況を判別する分類器の性能を向上させるために、既存データの使用を
行うために改良されたシステム及び方法を提供することによって、上記で特定された問題
に対処する。一般に、開示されたシステム及び方法は、生物学的データセット、とりわけ
、例えば、腫瘍サンプル、液体生検などの生物学的サンプルの核酸シークエンシングから
抽出されたゲノムデータに基づくそれらのデータセットの合成拡張を可能にすることによ
って、これを達成する。いくつかの実施態様において、これは、生物学的サンプルから生
成された１つ以上のデータ構造に基づく増強データ構造を生成することによって達成され
る。増強データ構造は、生物学的サンプルから直接生成された既存のデータ構造を補完す
るために使用され、拡張生物学的データセットを生成することができる。これらの拡張生
物学的データセットは、生物学的サンプルから直接生成された元のデータ構造のみに対し
て訓練された疾患分類器よりも高い特異性及び／又は感度を有する疾患分類器の訓練を促
進することができる。この改善は、いくつかの要因に起因することができる。例えば、よ
り大きな（拡張された）トレーニングデータセットを使用することによって、分類器はデ
ータの傾向をより良く一般化できるので、データのオーバーフィッティングの発生が減少
する。加えて、増強データ構造中の疾患信号の量を制御することによって、分類器の検出
レベル（ＬＯＤ）付近の疾患信号を有するデータ構造をより高いパーセンテージで包含す
るように、拡張データセットを構築することができる。これは、疾患信号が希薄になる特
徴空間中でも同様により優れたモデルの訓練ができることになる。

【0005】

分析システムは、複数のサンプル（例えば、複数のがん及び非がんサンプル）からの多
数のシークエンシングデータを処理して、引き続き、がん分類に利用される特徴を特定す
る。分析システムは、得られた生体サンプルから少なくとも１つの合成トレーニングサン
プルを生成する。分析システムは、がんとしてラベルされたトレーニングサンプルからフ
ラグメントをサンプリングし、かつ非がんとしてラベルされた別のトレーニングサンプル
からフラグメントをサンプリングすることによって、合成トレーニングサンプルを生成す
る。分析システムは、合成トレーニングサンプルを生成するために使用されるがんトレー
ニングサンプルに属する特定のがんタイプで合成トレーニングサンプルを更にラベルして
もよい。サンプリング確率は、例えば、検出限界に近接したがん腫瘍分画を有する合成ト
レーニングサンプルを生成するために、がん分類器の検出限界に基づいて決定される。シ
ークエンシングデータを用いて、分析システムは、テストサンプルに対するがん予測を生
成するためのがん分類器を訓練及び展開することができる。

【0006】

がん分類器を訓練するためにどのトレーニングサンプルを使用するかを選択する際に、
分析は、１つ以上のがんタイプを有すると既に同定及びラベルされたトレーニングサンプ
ルと同様に、非がんとしてラベルされた健康な個人からのトレーニングサンプルも使用す
る。各トレーニングサンプルは、フラグメントのセットを含む。各トレーニングサンプル
に対して、分析システムは、例えば、特定された特徴の各々にスコアを割り当てることに
よって、特徴ベクトルを生成する。分析システムは、がん分類器の反復訓練のために、ト
レーニングサンプルを１つ以上のトレーニングサンプルのセットにグループ化してもよい
。分析システムは、特徴ベクトルの各セットをがん分類器に入力し、かつがん分類器の関
数が、特徴ベクトル及び分類パラメータに基づいてセット中のトレーニングサンプルのラ
ベルを予測する閾値を上回る精度を有するがん予測を閾値で計算するように、がん分類器
内の分類パラメータを調整する。がん分類器は、トレーニングサンプルの各セットを通じ
て上記のステップを反復することによって、反復的に訓練される。

【0007】

展開中、分析システムは、テストサンプルの各々に対する特徴ベクトル中の複数の特徴
の各々にスコアを割り当てることによって、を例とする、トレーニングサンプルと同様の
方法で、テストサンプルに対する特徴ベクトルを生成する。その後、分析システムは、テ
ストサンプルに対する特徴ベクトルを、がん予測を返すがん分類器に入力する。一実施態
様では、がん分類器は、がんを有するかの尤度のがん予測を返すバイナリ分類器として構
成されてもよい。別の実施態様では、がん分類器は、複数のがんタイプの各々に対して予
測値を有するがん予測を返すために、マルチクラス分類器として構成されてもよい。

【図面の簡単な説明】

【0008】

【図1A】１つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞（ｃｆ）ＤＮＡのフラグメントをシークエンシングするプロセスを説明する例示的なフローチャートである。

【図1B】１つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞（ｃｆ）ＤＮＡのフラグメントをシークエンシングする図１Ａのプロセスを説明する図である。

【図2A】１つ以上の実施態様による、サンプルから異常なメチル化フラグメントを判定するプロセスを説明する例示的なフローチャートである。

【図2B】１つ以上の実施態様による、サンプルから異常なメチル化フラグメントを判定するプロセスを説明する例示的なフローチャートである。

【図3】１つ以上の実施態様による、合成トレーニングサンプルを生成する例示的なプロセスである。

【図4】１つ以上の実施態様による、がん分類器を訓練するための合成トレーニングサンプルを生成するプロセスを説明する例示的なフローチャートである。

【図5A】１つ以上の実施態様による、増強データを生成し、かつオプションで分類器を訓練し、疾患状況を互いに判別するための例示的なワークフロー５００である。

【図5B】１つ以上の実施態様による、補完的データを生成するための例示的なワークフローである。

【図6A】１つ以上の実施態様による、がん分類器を訓練するプロセスを説明する例示的なフローチャートである。

【図6B】１つ以上の実施態様による、がん分類器を訓練するために使用される特徴ベクトルの例示的な生成を示す図である。

【図7】図７Ａは、１つ以上の実施態様による、核酸サンプルをシークエンシングするためのデバイスの例示的なフローチャートである。図７Ｂは、１つ以上の実施態様による、分析システムの例示的なブロック図である。

【図8】一例の実施態様による、様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示す例示的なグラフである。

【図9】一例の実施態様による、バイナリがん分類器を最初に使用した後の様々ながんタイプに対するマルチクラスがん分類器のがん予測精度を示す例示的なグラフである。

【図10】一例の実施態様による、訓練されたがん分類器の性能を論証する例示的な混同行列を示す図である。

【図11】いくつかの例の実施態様による、合成トレーニングサンプルで訓練されたがん分類器の性能を比較する例示的な表である。

【図12A】１つ以上の実施態様による、がんの確率の例のグラフを示す図である。

【図12B】１つ以上の実施態様による、がんの確率の例のグラフを示す図である。

【図12C】１つ以上の実施態様による、がんの確率の例のグラフを示す図である。

【図13】１つ以上の実施態様による、患者サンプル中の無細胞ＤＮＡのゲノム特性に基づきがんを検出するために訓練された２つの分類器の評価を示す図である。

【図14】１つ以上の実施態様による、トレーニングセット感度対テストセット感度の例示的なグラフを示す図である。

【図15】１つ以上の実施態様による、分類器で使用される特徴の数が拡大するにつれる、ある次元に沿って最大化又は最小化される特徴空間のパーセンテージの代表的な曲線の例示的なグラフを示す図である。

【0009】

図は、例示のみを目的とした様々な実施態様を描いている。当業者は、以下の論議から
、本明細書に説明される原理から逸脱することなく、本明細書に図示される構造及び方法
の代替の実施態様が採用できることを容易に認識するであろう。

【発明を実施するための形態】

【0010】

Ｉ．大要

【0011】

Ｉ．Ａ．メチル化の大要

【0012】

本明細書に従って、個体からのｃｆＤＮＡフラグメントを、例えば非メチル化シトシン
をウラシルに変換することにより処理し、シークエンシングし、かつシークエンスリード
を参照ゲノムと比較して、ＤＮＡフラグメント内の特定のＣｐＧ部位におけるメチル化状
態を同定する。各ＣｐＧ部位は、メチル化されている場合、又はメチル化されていない場
合がある。健康な個体と比較して、異常なメチル化フラグメントを同定することは、対象
のがんの状態に対する識見を提供し得る。当技術分野でよく知られているように、ＤＮＡ
メチル化異常は（健康な対照と比較して）異なる影響を引き起こし、それががんの一因と
なる場合がある。様々な課題が、異常にメチル化されたｃｆＤＮＡフラグメントの同定に
生じる。まず、ＤＮＡフラグメントが異常にメチル化されていると判定することは、対照
生体個体のグループとの比較において重みを持つことができるが、対照グループの数が少
ない場合などでは、対照グループ生体サンプルの小さいサイズ内での統計的変動により、
判定が信頼性を失う。そのうえ、対照個体の中でもメチル化の状態は様々であり、対象の
ＤＮＡフラグメントが異常にメチル化されていると判定するときに、それを考慮すること
は困難である場合がある。もう一つ、あるＣｐＧ部位のシトシンのメチル化は、その後に
続くＣｐＧ部位のメチル化に因果関係を持つ場合がある。この依存関係を封じ込めること
は、それ自体、別の課題になり得る。

【0013】

メチル化は、デオキシリボ核酸（ＤＮＡ）において、シトシン塩基のピリミジン環上の
水素原子がメチル基に変換され、５－メチルシトシンを形成するときに典型的に起こり得
る。とりわけ、メチル化は、本明細書で「ＣｐＧ部位」と呼ばれるシトシン及びグアニン
のジヌクレオチドにおいて起こり得る。他の事例では、メチル化は、ＣｐＧ部位の一部で
はないシトシン、又はシトシンではない別のヌクレオチドで起こり得るが、しかしながら
、これらは稀にしか発生しない。本開示では、メチル化は、明確化のために、ＣｐＧ部位
に関連して論じららる。異常なＤＮＡメチル化は、ハイパーメチル化又はハイポメチル化
として同定することができ、その両方が、がんの状態を示すことがある。本開示を通じて
、ＤＮＡフラグメントが、閾値より多くの数のＣｐＧ部位を備え、それらのＣｐＧ部位の
閾値より多くの割合がメチル化又は非メチル化である場合、ハイパーメチル化及びハイポ
メチル化は、ＤＮＡフラグメントに対して特徴付けられることができる。

【0014】

本明細書に説明される原理は、非シトシンメチル化を含む非ＣｐＧコンテキストにおけ
るメチル化の検出にも同様に適用可能である。そのような実施態様では、メチル化を検出
するために使用される湿式実験室アッセイは、本明細書に説明されるものと異なる場合が
ある。さらに、本明細書で論じられるメチル化状態ベクトルは、一般にメチル化が起こっ
た部位又は起こっていない部位である要素（それらの部位が特にＣｐＧ部位でないとして
も）を包含することができる。その置換を用いて、本明細書に説明されるプロセスの残り
は同じであり得、かつその結果、本明細書に説明される発明概念は、それらの他の形態の
メチル化にも適用可能にすることができる。

【0015】

Ｉ．Ｂ．定義

【0016】

「無細胞核酸」又は「ｃｆＮＡ」という用語は、個体の体内（例えば、血液）を循環し
、かつ１つ以上の健康な細胞及び／又は１つ以上の不健康な細胞（例えば、がん細胞）か
ら由来する核酸フラグメントを指す。「無細胞ＤＮＡ」又は「ｃｆＤＮＡ」という用語は
、個体の体内（例えば、血液）を循環するデオキシリボ核酸フラグメントを指す。そのう
え、個体の体内のｃｆＮＡ又はｃｆＤＮＡは、他の非ヒトの供給源からくる場合もある。

【0017】

「ゲノム核酸」、「ゲノムＤＮＡ」、又は「ｇＤＮＡ」という用語は、１つ以上の細胞
から得られた核酸分子又はデオキシリボ核酸分子を指す。様々な実施態様において、ｇＤ
ＮＡは、健康な細胞（例えば、非腫瘍細胞）又は腫瘍細胞（例えば、生検サンプル）から
抽出することができる。いくつかの実施態様において、ｇＤＮＡは、白血球などのような
血球系に由来する細胞から抽出することができる。

【0018】

「循環腫瘍ＤＮＡ」又は「ｃｔＤＮＡ」という用語は、腫瘍細胞又は他の種類のがん細
胞に由来する核酸フラグメントであって、かつ瀕死細胞のアポトーシス又は壊死などのよ
うな生物学的プロセスの結果として、若しくは生存腫瘍細胞によって活発に放出される個
体の体液（例えば、血液、汗、尿又は唾液）中に放出される核酸フラグメントを指す。

【0019】

「ＤＮＡフラグメント」、「フラグメント」、又は「ＤＮＡ分子」という用語は、一般
に、任意のデオキシリボ核酸フラグメント、すなわち、ｃｆＤＮＡ、ｇＤＮＡ、ｃｔＤＮ
Ａなどを指す場合がある。

【0020】

「異常なフラグメント」、「異常なメチル化フラグメント」、又は「異常なメチル化パ
ターンを有するフラグメント」という用語は、ＣｐＧ部位の異常なメチル化を有するフラ
グメントを指す。フラグメントの異常なメチル化は、対照グループ中のフラグメントのメ
チル化パターンを観察することの意外性を同定するために、確率モデルを使用して判定す
る場合がある。

【0021】

「極端にメチル化された普通ではないフラグメント」又は「ＵＦＸＭ」という用語は、
ハイポメチル化フラグメント又はハイパーメチル化フラグメントを意味する。ハイポメチ
ル化フラグメント及びハイパーメチル化フラグメントは、それぞれ、メチル化又は非メチ
ル化のある閾値割合（例えば、９０％）を超えた少なくともある数のＣｐＧ部位（例えば
、５）を有するフラグメントを意味する。

【0022】

「異常スコア」という用語は、そのＣｐＧ部位に重なるサンプルからの異常なフラグメ
ント（又は、いくつかの実施態様では、ＵＦＸＭ）の数に基づく、そのＣｐＧ部位のスコ
アを指す。異常スコアは、分類のためのサンプルの特徴付けの文脈で使用される。

【0023】

本明細書で使用される場合、「約」又は「ほぼ」という用語は、当業者によって決定さ
れるような特定の値に対する許容誤差範囲内を意味し得、これは、値が測定又は決定され
る方法、例えば、測定システムの限界に部分的に依存し得る。例えば、「約」は、当業者
の慣例により、１標準偏差以上を意味し得る。「約」は、所与の値の±２０％、±１０％
、±５％、又は±１％の範囲を意味し得る。「約」又は「ほぼ」という用語は、ある値の
１桁以内、５倍以内、又は２倍以内を意味し得る。特定の値が本願及び特許請求の範囲に
記載されているところは、特に断りのない限り、特定の値の許容誤差範囲内を意味する「
約」という用語が想定されるべきである。「約」という用語は、当業者によって一般的に
理解されるような意味を有し得る。「約」という用語は、±１０％を指し得る。「約」と
いう用語は、±５％を指し得る。

【0024】

本明細書で使用される場合、用語「生体サンプル」、「患者サンプル」、又は「サンプ
ル」は、対象から採取された任意のサンプルを指し、対象に紐づく生体状態を反映し得、
かつ無細胞ＤＮＡを含むものを指す。生体サンプルの例としては、対象の血液、全血液、
血漿、血清、尿、脳脊髄液、糞便、唾液、汗、涙、胸水、心嚢液、又は腹膜液を含むが、
これらに限定されるものではない。生体サンプルは、生きている又は死んだ対象から抽出
した任意の組織又は材料を含み得る。生体サンプルは、無細胞サンプルであり得る。生体
サンプルは、核酸（例えば、ＤＮＡ又はＲＮＡ）若しくはそのフラグメントを備え得る。
「核酸」という用語は、デオキシリボ核酸（ＤＮＡ）、リボ核酸（ＲＮＡ）、又はそれら
のハイブリッド若しくはフラグメントを指し得る。サンプル中の核酸は、無細胞核酸であ
り得る。サンプルは、液体サンプル又は固体サンプル（例えば、細胞又は組織サンプル）
であり得る。生体サンプルは、血液、血漿、血清、尿、膣液、（例えば、精巣の）水腫か
らの液体、膣洗浄液、胸水、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳
首からの排出液、体の異なる部分（例えば、甲状腺、乳房）からの吸引液などのような体
液であり得る。生体サンプルは、便サンプルであり得る。様々な実施態様では、無細胞Ｄ
ＮＡについて濃縮された生体サンプル（例えば、遠心分離プロトコルを介して得られた血
漿サンプル）中のＤＮＡの大部分は、無細胞であり得る（例えば、ＤＮＡの５０％、６０
％、７０％、８０％、９０％、９５％、又は９９％より大きいものは、細胞を含まないも
のであり得る）。生体サンプルは、組織又は細胞構造を物理的に破壊するように処理する
ことができ（例えば、遠心分離及び／又は細胞溶解）、このようにして、細胞内成分を、
分析用のサンプルを調製するために使用できる酵素、緩衝液、塩、界面活性剤などを更に
含むことができる溶液中に放出する。

【0025】

本明細書で使用される場合、用語「対照」、「対照サンプル」、「参照」、「参照サン
プル」、「正常」、及び「正常サンプル」は、特定の状態を有しない、又はその他の健康
である対象からのサンプルを説明する。一例では、本明細書に開示されるような方法は、
腫瘍を有する対象に対して行なわれ得、参照サンプルは、対象の健康な組織から採取され
たサンプルである。参照サンプルは、対象、又はデータベースから得ることができる。参
照は、例えば、対象からのサンプルのシークエンシングから得られた核酸フラグメントシ
ークエンスをマッピングするために使用される参照ゲノムであり得る。参照ゲノムは、生
体サンプル及び構造サンプルからの核酸フラグメントシークエンスがアラインメントされ
比較することができる、ハプロイド又はディプロイドゲノムを指し得る。構造サンプルの
例としては、対象から得られた白血球のＤＮＡであり得る。ハプロイドゲノムについては
、各遺伝子座において１つだけヌクレオチドが存在することができる。ディプロイドゲノ
ムについては、ヘテロ接合性遺伝子座を同定することができ、各ヘテロ接合性遺伝子座は
２つの対立遺伝子を有することができ、ここで、いずれかの対立遺伝子が遺伝子座へのア
ライメントのためのマッチングを可能にし得る。

【0026】

本明細書で使用する場合、「がん」又は「腫瘍」という用語は、組織の異常な塊で、そ
の塊の成長が正常な組織の成長を上回り、かつ調和できないものを指す。

【0027】

本明細書で使用される場合、「健康な」という語句は、良好な健康状態を有している対
象を指す。健康な対象は、いかなる悪性疾患又は非悪性疾患もないことを示し得る。「健
康な個体」は、アッセイされている状況とは無関係な他の疾患又は状況を有し得、通常、
「健康」とは見なされない。

【0028】

本明細書で使用する場合、「メチル化」という用語は、シトシン塩基のピリミジン環上
の水素原子がメチル基に変換され、５－メチルシトシンを形成するデオキシリボ核酸（Ｄ
ＮＡ）の変更を指す。とりわけ、メチル化は、本明細書では「ＣｐＧ部位」と呼ぶシトシ
ン及びグアニンのジヌクレオチドで起こる傾向がある。他の実例では、メチル化はＣｐＧ
部位以外のシトシン又はシトシンではない他のヌクレオチドで起こることがあるが、しか
しながら、これはまれな現象である。異常なｃｆＤＮＡのメチル化は、ハイパーメチル化
又はハイポメチル化として同定することができ、いずれもがんの状態を示す場合がある。
ＤＮＡメチル化異常は（健康な対照と比較して）異なる作用を引き起こし、がんに寄与す
る場合がある。本明細書に説明される原理は、非シトシンメチル化を含むＣｐＧコンテキ
スト及び非ＣｐＧコンテキストでのメチル化の検出にも同様に適用可能である。さらに、
メチル化状態ベクトルは、一般にメチル化が起こった部位又は起こらなかった部位のベク
トルである要素を包含する場合がある（それらの部位が特にＣｐＧ部位でないとしても）
。

【0029】

本明細書で互換的に使用されるように、「メチル化フラグメント」又は「核酸メチル化
フラグメント」という用語は、核酸（例えば、核酸分子及び／又は核酸フラグメント）の
メチル化シークエンシングによって決定される複数のＣｐＧ部位中の各ＣｐＧ部位に対ｓ
ｊｒｊメチル化状態のシークエンスを指す。メチル化フラグメントでは、核酸フラグメン
ト中の各ＣｐＧ部位についての位置及びメチル化状態が、参照ゲノムに対するシークエン
スリード（例えば、核酸のシークエンシングから得られたもの）のアラインメントに基づ
いて決定される。核酸メチル化フラグメントは、複数のＣｐＧ部位中の各ＣｐＧ部位のメ
チル化状態（例えば、メチル化状態ベクトル）を備え、参照ゲノム中の核酸フラグメント
の位置（例えば、ＣｐＧインデックス、又は他の同様のメトリックを使用して核酸フラグ
メント中の最初のＣｐＧ部位の場所によって特定される）及び核酸フラグメント中のＣｐ
Ｇ部位数を特定する。シークエンスリードの参照ゲノムへのアライメントは、核酸分子の
メチル化シークエンシングに基づいて、ＣｐＧインデックスを使用して行われ得る。本明
細書で使用する場合、「ＣｐＧインデックス」という用語は、ヒト参照ゲノムなどのよう
な参照ゲノム中の複数のＣｐＧ部位（例えば、ＣｐＧ１、ＣｐＧ２、ＣｐＧ３など）の各
ＣｐＧ部位のリストを指し、電子フォームであることができる。ＣｐＧインデックスは、
ＣｐＧインデックス中の各それぞれのＣｐＧ部位について、対応する参照ゲノム中の対応
するゲノム位置を更に備える。このようにして、各それぞれの核酸メチル化フラグメント
中の各ＣｐＧ部位は、それぞれの参照ゲノム中の特定の位置にインデックスされ、これは
、ＣｐＧインデックスを使用して決定することができる。

【0030】

本明細書で使用される場合、「真陽性」（ＴＰ）という用語は、状況を有する対象を指
す。「真陽性」は、腫瘍、がん、前がん状況（例えば、前がん病変）、限局性又は転移性
がん、若しくは非悪性疾患を有する対象を指し得る。「真陽性」は、状況を有する対象を
指し得、かつ本開示のアッセイ又は方法によって状況を有するとして同定される。本明細
書で使用される場合、「真性陰性」（ＴＮ）という用語は、状況を有さない、又は検出可
能な状況を有さない対象を指す。真陰性は、腫瘍、がん、前がん状況（例えば、前がん病
変）、限局性又は転移性がん、非悪性疾患、若しくはその他の健康である対象などのよう
な疾患若しくは検出可能な疾患を有していない対象を指し得る。真陰性は、状況を有さな
い、検出可能な状況を有さない、若しくは本開示のアッセイ又は方法によって状況を有さ
ないことが同定される対象を指し得る。

【0031】

本明細書で使用される場合、「参照ゲノム」という用語は、部分的であるか完全である
かにかかわらず、対象からの同定されたシークエンスを参照するために使用される場合が
ある、任意の生物又はウイルスの任意の特定の既知のシークエンシング若しくは特徴付け
られたゲノムを指す。ヒトの対象と同様に他の多くの生物にも使用される例示的な参照ゲ
ノムは、国立生物工学情報センター（ＮＣＢＩ）又はカリフォルニア大学サンタクルーズ
校（ＵＣＳＣ）がホストするオンラインゲノムブラウザで提供される。「ゲノム」は、核
酸シークエンスで表現される、生物又はウイルスの完全な遺伝情報を指す。本明細書で使
用される場合、参照シークエンス又は参照ゲノムは、多くの場合、個体又は多数の個体か
ら組み立てられた若しくは部分的に組み立てられたゲノムシークエンスである。いくつか
の実施態様において、参照ゲノムは、１つ以上のヒト個体からの組み立てられた又は部分
的に組み立てられたゲノムシークエンスである。参照ゲノムは、種の遺伝子のセットの代
表例として見ることができる。いくつかの実施態様において、参照ゲノムは、染色体に割
り当てられたシークエンスを備える。例示的なヒト参照ゲノムには、ＮＣＢＩビルド３４
（ＵＣＳＣ相当：ｈｇ１６）、ＮＣＢＩビルド３５（ＵＣＳＣ相当：ｈｇ１７）、ＮＣＢ
Ｉビルド３６．１（ＵＣＳＣ相当：ｈｇ１８）、ＧＲＣｈ３７（ＵＣＳＣ相当：ｈｇ１９
）、及びＧＲＣｈ３８（ＵＣＳＣ相当：ｈｇ３８）を含むがこれらに限られるわけではな
い。

【0032】

本明細書で使用される場合、用語「シークエンスリード」又は「リード」は、本明細書
で説明する、又は当該技術分野で既知の任意のシークエンシングプロセスによって生成さ
れるヌクレオチドシークエンスを指す。リードは、核酸フラグメントの一端から作り出す
ことができ（「シングルエンドリード」）、そして時には核酸の両端から生成される（例
えば、ペアエンドリード、ダブルエンドリード）。いくつかの実施態様において、シーク
エンスリード（例えば、シングルエンドリード又はペアエンドリード）は、標的核酸フラ
グメントの片方の鎖又は両方の鎖から生成することができる。シークエンスリードの長さ
は、しばしば、特定のシークエンシング技術に紐づけられる。例えば、ハイスループット
法は、数十から数百の塩基対（ｂｐ）の大きさで変化することができるシークエンスリー
ドを提供する。いくつかの実施態様では、シークエンスリードは、約１５ｂｐ～約９００
ｂｐの長さの平均、中央値又は平均長（例えば、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、
約３５ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂ
ｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約９０ｂｐ、約９５ｂｐ、約１
００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２
００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、
又は約５００ｂｐである。いくつかの実施態様では、シークエンスリードは、約１０００
ｂｐ、２０００ｂｐ、５０００ｂｐ、１０，０００ｂｐ、又は５０，０００ｂｐ以上の平
均、中央値、又は平均長である。ナノポアシークエンシングは、例えば、数十から数百、
数千の塩基対の大きさで変化することができるシークエンスリードを提供することができ
る。イルミナパラレルシークエンスは、それほど変化しないシークエンスリードを提供す
ることができ、例えば、シークエンスリードの大部分は２００ｂｐより小さくなり得る。
シークエンスリード（又はシークエンシングリード）は、核酸分子（例えば、ヌクレオチ
ドの列）に対応するシークエンス情報を指すことができる。例えば、シークエンスリード
は、核酸フラグメントの一部からのヌクレオチドの列（例えば、約２０～約１５０）に対
応することができ、核酸フラグメントの一端又は両端のヌクレオチドの列に対応すること
ができ、若しくは核酸フラグメント全体のヌクレオチドに対応することができる。シーク
エンスリードは、例えば、シークエンシング技術を使用する、又は、例えば、ハイブリダ
イゼーションアレイ又はキャプチャプローブにおいて、若しくはポリメラーゼ連鎖反応（
ＰＣＲ）若しくは単一のプライマー又は等温増幅を使用する線形増幅などのような増幅技
術といったプローブを使用する様々な方法で、得ることができる。

【0033】

本明細書で使用される「シークエンシング」等の用語は、核酸又はタンパク質などのよ
うな生体高分子の順序を決定するために使用される場合がある任意の及び全ての生化学的
プロセスを一般に指す。例えば、シークエンシングデータは、ＤＮＡフラグメントなどの
ような核酸分子中のヌクレオチド塩基の全て又は一部を含むことができる。

【0034】

本明細書で使用される場合、用語「シークエンス深度」は、用語「カバレッジ」と交換
可能に使用され、かつ遺伝子座にアライメントされる固有の核酸標的分子に対応するコン
センサスシークエンスリードによって遺伝子座が覆われる回数を指し、例えば、シークエ
ンス深度は、遺伝子座を覆う固有の核酸標的分子の数と同じである。遺伝子座は、ヌクレ
オチドと同じくらい小さくてもよく、染色体アームと同じくらい大きくてもよく、又はゲ
ノム全体と同じくらい大きくてもよい。シークエンス深度は、「Ｙ倍」、例えば、５０倍
、１００倍等として表すことができ、ここで、「Ｙ」は、核酸標的に対応するシークエン
スで遺伝子座を覆う回数、例えば、特定の遺伝子座を覆う独立シークエンス情報が得られ
る回数を指す。いくつかの実施態様において、シークエンス深度は、シークエンシングさ
れたゲノムの数に対応する。シークエンス深度は、多数の遺伝子座、又は全ゲノムに適用
することもでき、その場合、Ｙは、遺伝子座又はハプロイドゲノム、若しくは全ゲノムが
それぞれシークエンシングされた回数の平均又は平均回数を指し得る。平均深度が引用さ
れているとき、データセットに含まれる異なる遺伝子座の実際の深度は、値の範囲にまた
がる可能性がある。超深度シークエンシングは、遺伝子座におけるシークエンス深度が少
なくとも１００倍であることを指し得る。

【0035】

本明細書で使用する場合、「感度」又は「真陽性率」（ＴＰＲ）という用語は、真陽性
の数を真陽性及び偽陰性の数の合計によって除したものを指す。感度は、状況を真に有す
る集団の割合を正しく同定するアッセイ又は方法の能力を特徴付けることができる。例え
ば、感度は、がんを有する集団内の対象の数を正しく同定する方法の能力を特徴付けるこ
とができる。別の例では、感度は、がんを示す１つ以上のマーカーを正しく同定する方法
の能力を特徴付けることができる。

【0036】

本明細書で使用される場合、「特異度」又は「真陰性率」（ＴＮＲ）という用語は、真
陰性の数を真陽性及び偽陽性の数の合計によって除したものを指す。特異性は、ある状態
を本当に有していない集団の割合を正しく同定するアッセイ又は方法の能力を特徴付ける
ことができる。例えば、特異性は、がんを持たない集団内の対象の数を正しく同定する方
法の能力を特徴付けることができる。別の例では、特異性は、がんを示す１つ以上のマー
カーを正しく同定する方法の能力を特徴付ける。

【0037】

本明細書で使用する場合、用語「対象」は、ヒト（例えば、男性の人、女性の人、胎児
、妊娠中の女性、又は子供など）、非ヒト動物、植物、細菌、真菌、又は原生生物を含む
がこれらに限定されない、任意の生物若しくは非生物のことを指す。任意のヒト又は非ヒ
ト動物は対象として扱うことができ、これには、哺乳類、爬虫類、鳥類、両生類、魚類、
無蹄類、反芻動物、ウシ属（例えば、牛）、ウマ属（例えば、馬）、ヤギ亜科及びオビー
ン（例えば、羊、山羊）、ブタ亜種（例えば、豚）、ラクダ科（例えば、ラクダ、ラマ、
アルパカ）、サル、類人猿（例えば、ゴリラ、チンパンジー）、クマ科（例えば、熊）、
鶏、犬、猫、マウス、ラット、魚、イルカ、クジラ、及びサメを含むがこれらに限定され
ない。いくつかの実施態様において、対象は、任意のステージの男性又は女性（例えば、
大人の男性、大人の女性、又は子供）である。サンプルが採取される、若しくは本明細書
に記載の方法又は構成のいずれかによって取り扱われる対象は、任意の年齢であることが
でき、成人、乳児、又は子供とすることができる。

【0038】

本明細書で使用される場合、用語「組織」は、機能単位として一緒にグループ化される
細胞のグループに対応し得る。１つ以上のタイプの細胞が、単一の組織に見出され得る。
異なるタイプの組織は、異なるタイプの細胞（例えば、肝細胞、肺胞細胞又は血球細胞）
から構成される場合があるが、異なる生物（母親対胎児）からの組織又は健康な細胞対腫
瘍細胞に対応することも可能である。「組織」という用語は、一般的に、人体に見られる
任意の細胞群（例えば、心臓組織、肺組織、腎臓組織、鼻咽頭組織、咽頭組織）を指すこ
とができる。いくつかの態様において、用語「組織」又は「組織タイプ」は、無細胞核酸
から発生する組織を指すために使用される場合がある。一例では、ウイルス核酸フラグメ
ントは血液組織に由来する可能性がある。別の例では、ウイルス核酸フラグメントは、腫
瘍組織に由来する可能性がある。

【0039】

本明細書で使用する場合、「ゲノム」という用語は、生物のゲノムの特性を指す。ゲノ
ム特性の例には、ゲノムの全部又は一部の一次核酸シークエンス（例えば、ヌクレオチド
多型、インデル、シークエンス転位、変異頻度などの有無）に関するもの、ゲノム内の１
つ以上の特定のヌクレオチドシークエンスのコピー数（例えば、コピー数、対立遺伝子頻
度分率、単一染色体又はゲノム全体の倍率など）、ゲノムの全部又は一部のエピジェネテ
ィック状態（例えば、メチル化などのような共有結合核酸修飾、ヒストン修飾、ヌクレオ
ソーム位置関係など）、生物のゲノムの発現プロファイル（例えば、遺伝子発現レベル、
アイソタイプ発現レベル、遺伝子発現比率など）を含むが、これに限定されない。

【0040】

本明細書で使用される用語は、特定の場合を説明する目的のみのものであり、限定する
ことを意図するものではない。本明細書で使用される場合、単数形「a」、「an」及び「t
he」は、文脈が明らかにそうでないことを示さない限り、複数形も含むことが意図される
。さらに、「含んでいる」、「含む」、「有している」、「有する」、「有して」、又は
その変形が詳細な説明及び／又は特許請求の範囲のいずれかで使用される限り、そのよう
な用語は、用語「備える」と同様の方法で包含することを意図している。

【0041】

ＩＩ．サンプル処理

【0042】

ＩＩ．Ａ．ＤＮＡフラグメントのメチル化状態ベクトルの作製

【0043】

図１Ａは、１つ以上の実施態様による、メチル化状態ベクトルを得るために無細胞（ｃ
ｆ）ＤＮＡのフラグメントをシークエンシングするプロセス１００を説明する例示的なフ
ローチャートである。ＤＮＡメチル化を分析するために、分析システムは、まず、複数の
ｃｆＤＮＡ分子を含む個体からサンプルを得る（１１０）。一般に、サンプルは、健康な
個体、がんを有することが知られている又はがんを有することが疑われる対象、若しくは
事前に情報が知られていない対象からのものであってよい。テストサンプルは、血液、血
漿、血清、尿、糞便、及び唾液サンプルからなる群から選択されるサンプルであってよい
。代替的に、テストサンプルは、全血、血液画分（例えば、白血球（ＷＢＣ））、組織生
検、胸水、心嚢液、脳脊髄液、及び腹膜液からなる群から選択されるサンプルを含んでい
てもよい。追加の実施態様では、プロセス１００は、他のタイプのＤＮＡ分子のシークエ
ンスが適用されてもよい。

【0044】

サンプルから、分析システムは、各ｃｆＤＮＡ分子を単離することができる。ｃｆＤＮ
Ａ分子は、非メチル化シトシンをウラシルに変換するように処理することができる。一実
施態様では、本方法は、メチル化シトシンを変換することなく非メチル化シトシンをウラ
シルに変換するＤＮＡの重亜硫酸塩処理を使用する。例えば、EZ DNA Methylation^TM-Gol
d、EZ DNA Methylation^TM-Direct又はEZ DNA Methylation^TM-Lightningキット（Zymo Res
earch Corp (Irvine, CA)から入手可能）などのような市販キットが、重亜硫酸塩変換の
ために使用される。別の実施態様では、非メチル化シトシンのウラシルへの変換は、酵素
反応を使用して達成される。例えば、変換は、APOBEC-Seq（NEBiolabs, Ipswich, MA）な
どのような非メチル化シトシンのウラシルへの変換のための市販で利用可能なキットを使
用することができる。

【0045】

変換されたｃｆＤＮＡ分子から、シークエンシングライブラリーを調製することができ
る（１３０）。ライブラリー調製中、アダプターライゲーションを通じて、核酸分子（例
えば、ＤＮＡ分子）に固有の分子識別子（ＵＭＩ）を付加することができる。ＵＭＩは、
アダプターライゲーション中にＤＮＡフラグメントの末端（例えば、物理的剪断、酵素消
化、及び／又は化学的フラグメント化によってフラグメント化されたＤＮＡ分子）に付加
される短い核酸シークエンス（例えば、４～１０塩基対）とすることができる。ＵＭＩは
、特定のＤＮＡフラグメントから発生するシークエンスリードを同定するために使用でき
る固有のタグとして役に立つ縮退塩基対とすることができる。アダプターライゲーション
に続くＰＣＲ増幅中に、ＵＭＩは、付着したＤＮＡフラグメントとともに複製することが
可能である。これは、下流の分析において、同じ元のフラグメントからくるシークエンス
リードを同定する方法を提供し得る。

【0046】

オプションで、シークエンシングライブラリーは、複数のハイブリダイゼーションプロ
ーブを使用するがんの状態に対する有益なｃｆＤＮＡ分子、又はゲノム領域について濃縮
してもよい（１３５）。ハイブリダイゼーションプローブは、特に指定されたｃｆＤＮＡ
分子、又は標的領域にハイブリダイズし、かつその後のシークエンシング及び分析のため
にそれらのフラグメント又は領域を濃縮することができる短いオリゴヌクレオチドとする
ことができる。ハイブリダイゼーションプローブは、研究者が関心を持つ特定のＣｐＧ部
位のセットを標的とした高深度分析を行うために使用することができる。ハイブリダイゼ
ーションプローブは、１倍、２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍
、又は１０倍以上のカバレッジで１つ以上の標的シークエンスにわたって並べることがで
きる。例えば、２倍のカバレッジで並べたハイブリダイゼーションプローブは、標的シー
クエンスの各部分が２つの独立したプローブとハイブリダイズするように、重なり合うプ
ローブを備える。ハイブリダイゼーションプローブは、１倍未満のカバレッジで１つ以上
の標的シークエンスにわたって並べることができる。

【0047】

一実施態様において、ハイブリダイゼーションプローブは、非メチル化シトシンをウラ
シルに変換するために処理（例えば、重亜硫酸塩を使用）されたＤＮＡ分子を濃縮するよ
うに設計される。濃縮の間、ハイブリダイゼーションプローブ（本明細書では「プローブ
」とも呼ばれる）は、がん（又は疾患）の有無、がんの状態、若しくはがんの分類につい
て有益な（例えば、がんクラス又は発生組織）核酸フラグメントを標的にし、かつ引き落
とすために使用することができる。プローブは、ＤＮＡの標的（相補的）鎖にアニーリン
グ（又はハイブリダイズ）するように設計されてもよい。標的鎖は、「陽性」鎖（例えば
、ｍＲＮＡに転写され、その後タンパク質に翻訳される鎖）、又は相補的な「陰性」鎖で
あってもよい。プローブの長さは、１０、１００、又は１０００塩基対の範囲としてもよ
い。プローブは、メチル化部位パネルに基づいて設計することができる。特定のがん又は
他の種類の疾患に対応すると疑われる（例えば、ヒト又は他の生物の）特定の変異又はゲ
ノムの標的領域を分析するために、標的遺伝子のパネルに基づいてプローブを設計するこ
とができる。くわえて、プローブは、標的領域の重なり合う部分をカバーしてもよい。

【0048】

一旦調製されると、シークエンシングライブラリー又はその一部を、複数のシークエン
スリードを得るためにシークエンシングすることができる。シークエンスリードは、コン
ピュータソフトウェアによる処理及び解釈のために、コンピュータ読み取り可能なデジタ
ルフォーマットであってもよい。シークエンスリードは、アライメント位置情報を決定す
るために参照ゲノムにアライメントされてもよい。アラインメント位置情報は、所与のシ
ークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する参照ゲノ
ム内の領域の開始位置及び終了位置を示してもよい。アラインメント位置情報はまた、開
始位置及び終了位置から決定することができるシークエンスリードの長さを含んでもよい
。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントに紐づいてもよい。シークエン
スリードは、Ｒ_１及びＲ_２と表記されるリードペアで構成することができる。例えば、第
１のリードＲ_１は核酸フラグメントの第１の末端からシークエンスされてもよく、一方で
第２のリードＲ_２は核酸フラグメントの第２末端からシークエンスされてもよい。それゆ
えに、第１のリードＲ_１及び第２のリードＲ_２のヌクレオチド塩基対は、参照ゲノムのヌ
クレオチド塩基と一貫して（例えば、反対の向きで）アライメントされる場合がある。リ
ードペアＲ_１及びＲ_２に由来するアラインメント位置情報は、第１のリード（例えば、Ｒ
_１）の末端に対応する参照ゲノム中の開始位置、及び第２のリード（例えば、Ｒ_２）の末
端に対応する参照ゲノム中の終了位置を含んでもよい。言い換えれば、参照ゲノム中の開
始位置及び終了位置は、核酸フラグメントが対応する参照ゲノム内の可能性の高い位置を
表すことができる。ＳＡＭ（シークエンスアライメントマップ）形式又はＢＡＭ（バイナ
リ）形式を有する出力ファイルを生成し、メチル化状態決定などのようなさらなる分析の
ために出力してもよい。

【0049】

分析システムは、シークエンスリードから、参照ゲノムとのアライメントに基づいて、
各ＣｐＧ部位の位置及びメチル化状態を判定する（１５０）。分析システムは、各フラグ
メントに対して、参照ゲノム中のフラグメントの位置（各フラグメント中の第１のＣｐＧ
部位の位置、又は別の同様の指標によって特定される）、フラグメント中のＣｐＧ部位の
数、及びフラグメント中の各ＣｐＧ部位のメチル化（例えば、Ｍとして表記）、非メチル
化（例えば、Ｕとして表記）又は不定（例えば、Ｉとして表記）を特定する各フラグメン
トのメチル化状態ベクトルを生成する（１６０）。観察された状態は、メチル化及び非メ
チル化の状態であり、一方、観察されない状態は、不確定である。不確定なメチル化状態
は、シークエンシングエラー及び／又はＤＮＡフラグメントの相補鎖のメチル化状態間の
不一致が元である場合がある。メチル化状態ベクトルは、後の使用及び処理のために、一
時的又は持続的なコンピュータメモリに格納されてもよい。さらに、分析システムは、単
一のサンプルから重複するリード又は重複するメチル化状態ベクトルを除去してもよい。
分析システムは、１つ以上のＣｐＧ部位を有するあるフラグメントが、閾値の数又はパー
センテージを超える不確定なメチル化状態を有すると判定してもよく、かつそのようなフ
ラグメントを除外、又はそのようなフラグメントを選択的に含むが、そのような不確定メ
チル化状態を考慮するモデルを構築してもよい。そのようなモデルの１つが図４と併せて
以下に説明されることになる。

【0050】

図１Ｂは、１つ以上の実施態様による、メチル化状態ベクトルを得るためにｃｆＤＮＡ
分子をシークエンシングする図１Ａのプロセス１００の例示的な図である。一例として、
分析システムは、この例では、３つのＣｐＧ部位を包含するｃｆＤＮＡ分子１１２を受信
する。示すように、ｃｆＤＮＡ分子１１２の第１及び第３のＣｐＧ部位は、メチル化され
ている（１１４）。処理ステップ１２０の間、ｃｆＤＮＡ分子１１２は、変換されたｃｆ
ＤＮＡ分子１２２を生成するために変換される。処理１２０の間、メチル化されていない
第２のＣｐＧ部位は、そのシトシンがウラシルに変換される。しかしながら、第１及び第
３のＣｐＧ部位は変換されなくてもよい。

【0051】

変換後、シークエンスリード１４２を生成するために、シークエンシングライブラリー
１３０を調製、及びシークエンシングを行なう（１４０）。分析システムは、シークエン
スリード１４２を参照ゲノム１４４にアライメントする（１５０）。参照ゲノム１４４は
、フラグメントｃｆＤＮＡがヒトゲノム中のどの場所を元としているかについての文脈を
提供する。この単純化された例では、分析システムは、３つのＣｐＧ部位がＣｐＧ部位２
３、２４、及び２５（説明の便宜のために使用される任意の参照識別子）に相関するよう
にシークエンスリード１４２をアライメントする。このようにして、分析システムは、ｃ
ｆＤＮＡ分子１１２上の全てのＣｐＧ部位のメチル化状態、及びＣｐＧ部位がマッピング
されるヒトゲノム中の位置の両方に関する情報を生成することができる。示すように、メ
チル化されたシークエンスリード１４２上のＣｐＧ部位は、シトシンとして読み取られる
。この例では、シトシンはシークエンスリード１４２中の第１及び第３のＣｐＧ部位のみ
に現れており、これは、元のｃｆＤＮＡ分子中の第１及び第３のＣｐＧ部位がメチル化さ
れると推測させられる。一方、第２のＣｐＧ部位はチミンとして読み取ることができ（Ｕ
はシークエンシングプロセス中にＴに変換される）、かつこのように、第２のＣｐＧ部位
は元のｃｆＤＮＡ分子で非メチル化されると推論することができる。これら２つの情報、
メチル化状態及び位置を用いて、分析システムは、フラグメントｃｆＤＮＡ１１２のメチ
ル化状態ベクトル１５２を１６０生成する。この例では、結果として生じるメチル化状態
ベクトル１５２は＜Ｍ２３、Ｕ２４、Ｍ２５＞であり、ここで、Ｍはメチル化されたＣｐ
Ｇ部位に対応し、Ｕは非メチル化されたＣｐＧ部位に対応し、かつ下付き数字は参照ゲノ
ム中の各ＣｐＧ部位の場所に対応する。

【0052】

生体サンプル中の核酸からシークエンスリードを得るために、１つ以上の代替的なシー
クエンシング方法を使用することができる。１つ以上のシークエンシング方法は、核酸（
例えば、無細胞核酸）から測定されたシークエンスリードの数を得るために使用できる任
意の形式のシークエンシングを備えることができ、これには、Roche454プラットフォーム
、Applied Biosystems SOLIDプラットフォーム、Helicos True Single Molecule DNAシー
クエンシング技術、Affymetrix Incのシークエンシング－ハイブリッド化プラットフォー
ム、一分子、リアルタイム（ＳＭＲＴ）技術、454Life Sciencesのシーケンシングバイシ
ンセシス（合成）プラットフォーム、イルミナ／Solexa及びHelicos Biosciences、並び
にApplied Biosystemsのシーケンシングバイライゲーションプラットフォームなどのよう
な高処理シークエンシングシステムを含むが、これに限定はされない。Life technologie
sのION TORRENTテクノロジー、及びNanoporeシークエンシングもまた、生体サンプル中の
核酸（例えば無細胞核酸）からシークエンスリードを得るために使用することができる。
シーケンシングバイシンセシス及び可逆的ターミネーターベースのシーケンシング（例え
ば、イルミナのゲノムアナライザー、ゲノムアナライザーＩＩ、HISEQ2000、HISEQ2500（
イルミナ、サンディエゴカリフォルニア））は、遺伝子型データセットを形成するために
、訓練対象の生体サンプルから得られた無細胞核酸からシークエンスリードを得るために
使用することができる。数百万の無細胞核酸（例えば、ＤＮＡ）フラグメントを並行して
シークエンシングすることができる。このタイプのシークエンシング技術の一例として、
表面上にオリゴヌクレオチドアンカー（例えば、アダプタープライマー）が結合された８
つの個別レーンを有する光学的に透明なスライドを包含するフローセルが使用される。無
細胞核酸サンプルは、検出を容易にする信号又はタグを含むことができる。生体サンプル
から得られた無細胞核酸からのシークエンスリードの取得は、例えば、フローサイトメト
リー、定量ポリメラーゼ連鎖反応（ｑＰＣＲ）、ゲル電気泳動、遺伝子チップ分析、マイ
クロアレイ、質量分析、サイトフルオロメトリック分析、蛍光顕微鏡、共焦点レーザー走
査顕微鏡、レーザー走査サイトメトリ、アフィニティークロマトグラフィー、手動バッチ
モード分離、電界懸濁、シークエンシング、及びこれらの組み合わせなどのような様々な
技法を介して信号又はタグの定量情報を得ることを含むことができる。

【0053】

１つ以上のシークエンシング方法は、全ゲノムシークエンシングアッセイを備えること
ができる。全ゲノムシークエンスアッセイは、コピー数変動又はコピー数異常などのよう
な大きな変動を決定するために使用することができる全ゲノム又は全ゲノムのかなりの部
分についてシークエンスリードを生成する物理的アッセイを備えることができる。このよ
うな物理的アッセイは、全ゲノムシークエンス技術又は全エクソームシークエンス技術を
採用してもよい。全ゲノムシークエンスアッセイは、テスト対象のゲノムに渡って少なく
とも１倍、２倍、３倍、４倍、５倍、６倍、７倍、８倍、９倍、１０倍、少なくとも２０
倍、少なくとも３０倍、又は少なくとも４０倍の平均シークエンス深度を有することがで
きる。いくつかの実施態様では、シークエンス深度が、約３０，０００倍である。１つ以
上のシークエンシング方法は、標的化パネルシークエンシングアッセイを備えることがで
きる。標的化パネルシークエンスアッセイは、遺伝子の標的化パネルに対して、少なくと
も５０，０００倍、少なくとも５５，０００倍、少なくとも６０，０００倍、又は少なく
とも７０，０００倍の平均シークエンス深度を有することができる。遺伝子の標的化パネ
ルは、４５０～５００個の間の遺伝子を含むことができる。遺伝子の標的化パネルは、５
００±５遺伝子の範囲、５００±１０遺伝子の範囲、又は５００±２５遺伝子の範囲を含
むことができる。

【0054】

１つ以上のシークエンシング方法は、ペアエンドシークエンシングを備えることができ
る。１つ以上のシークエンシング方法は、複数のシークエンスリードを生成することがで
きる。複数のシークエンスリードは、１０～６００の間、５０～４００の間、又は１００
～３００の間の範囲の平均長さを有することができる。１つ以上のシークエンシング方法
は、メチル化シークエンシングアッセイを備えることができる。メチル化シークエンシン
グは、ｉ）全ゲノムメチル化シークエンシング、又はｉｉ）複数の核酸プローブを使用し
た標的ＤＮＡメチル化シークエンシングとすることができる。例えば、メチル化シークエ
ンシングは、全ゲノムビスルファイトシークエンシング（例えば、ＷＧＢＳ）である。メ
チル化シークエンシングは、メチロームの最も情報を与える領域、固有のメチル化データ
ベース、並びに先行するプロトタイプの全ゲノム及び標的シークエンシングアッセイを標
的とする複数の核酸プローブを使用した標的ＤＮＡメチル化シークエンシングとすること
ができる。

【0055】

メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の１つ以上の５
－メチルシトシン（５ｍＣ）及び／又は５－ヒドロキシメチルシトシン（５ｈｍＣ）を検
出し得る。メチル化シークエンシングは、それぞれの核酸メチル化フラグメント中の１つ
以上の非メチル化されたシトシン又は１つ以上のメチル化されたシトシンを、対応する１
つ以上のウラシルに変換することを備えることができる。１つ以上のウラシルは、１つ以
上の対応するチミンとして、メチル化シークエンシング中に検出することができる。１つ
以上の非メチル化されたシトシン又は１つ以上のメチル化されたシトシンの変換は、化学
的変換、酵素的変換、又はそれらの組み合わせを備えることができる。

【0056】

例えば、重亜硫酸塩変換は、メチル化されたシトシン（例えば、５－メチルシトシン又
は５－ｍＣ）をそのままにする一方で、シトシンをウラシルに変換することを伴う。いく
つかのＤＮＡでは、約９５％のシトシンがＤＮＡ中でメチル化されていない場合があり、
かつ結果として生じるＤＮＡフラグメントは、チミンによって表される多くのウラシルを
含む場合がある。シークエンシング前の核酸の処理には、酵素変換プロセスを使用しても
よく、これは様々な方法で行うことができる。ビスサルファイトフリー変換の一例は、非
修飾シトシンに影響を与えずに５－メチルシトシン及び５－ヒドロキシメチルシトシンを
破壊せずかつ直接検出するためのビスサルファイトフリー及び塩基分解能シークエンシン
グ法、ＴＥＴ－アシストピリジンボランシークエンシング（ＴＡＰＳ）を備える。それぞ
れの核酸メチル化フラグメント中の対応する複数のＣｐＧ部位のメチル化状態を、メチル
化シークエンスによってＣｐＧ部位がメチル化されていると判定されたときにメチル化と
することができ、メチル化シークエンスによってＣｐＧ部位がメチル化されていないと判
定された場合には非メチル化とすることができる。

【0057】

メチル化シークエンシングアッセイ（例えば、ＷＧＢＳ及び／又は標的メチル化シーク
エンシング）は、約１，０００倍、２，０００倍、３，０００倍、５，０００倍、１０，
０００倍、１５，０００倍、２０，０００倍、又は３０，０００倍までを含むがこれに限
定されない平均シークエンス深度を有することができる。メチル化シークエンシングは、
３０，０００倍より大きい、例えば、少なくとも４０，０００倍又は５０，０００倍であ
るシークエンス深度を有することができる。全ゲノムバイサルファイトシークエンス法は
、２０倍～５０倍の間の平均シークエンス深度を有することができ、かつ標的メチル化シ
ークエンス法は、１００倍～１０００倍の間の平均有効深度を有し、有効深度は、標的メ
チル化シークエンスによって得られた同じ数のシークエンスリードを得るための等価全ゲ
ノムバイサルファイトシークエンスカバレッジとすることができる。

【0058】

メチル化シークエンシング（例えば、ＷＧＢＳ及び／又は標的メチル化シークエンシン
グ）に関する更なる詳細については、例えば、２０１８年３月１３日に出願された「Meth
ylation Fragment Anomaly Detection」と題する米国特許出願第６２／６４２，４８０号
、及び２０１９年１２月１８日に出願された「Systems and Methods for Estimating Cel
l Source Fractions Using Methylation Information」と題する米国特許出願第１６／７
１９，９０２号を参照してよく、その各々が参照によって本明細書に組み込まれる。本明
細書に開示されたもの及び／又はその任意の改変、置換、若しくは組み合わせを含むメチ
ル化シークエンシングのための他の方法は、フラグメントメチル化パターンを得るために
使用することができる。メチル化シークエンシングは、例えば、２０１９年３月１３日に
出願された「Anomalous Fragment Detection and Classification」と題する米国特許出
願第１６／３５２，６０２号にされているように、又は２０２０年５月１３日に出願され
た「Model-Based Featureization and Classification」と題する米国特許出願第１５／
９３１，０２２号に記載されているような技術のいずれかに従って１つ以上のメチル化状
態ベクトルを特定するために使用することができ、これらの各々は参照によって本明細書
に組み込まれる。

【0059】

核酸のメチル化シークエンシング及び結果として生じる１つ以上のメチル化状態ベクト
ルは、複数の核酸メチル化フラグメントを得るために使用することができる。各対応する
複数の核酸メチル化フラグメント（例えば、各それぞれの遺伝子型データセットについて
）は、１００以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核
酸メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、１０００以上の
核酸メチル化フラグメント、５０００以上の核酸メチル化フラグメント、１０，０００以
上の核酸メチル化フラグメント、２０，０００以上の核酸メチル化フラグメント、又は３
０，０００以上の核酸メチル化フラグメントを含むことができる。各対応する複数の核酸
メチル化フラグメントにわたる核酸メチル化フラグメントの平均数は、１０，０００個の
核酸メチル化フラグメントと５０，０００個の核酸メチル化フラグメントの間とすること
ができる。対応する複数の核酸メチル化フラグメントは、千以上、１万以上、１０万以上
、１００万以上、１０００万以上、１億以上、５億以上、１０億以上、２０億以上、３０
億以上、４０億以上、５０億以上、６０億以上、７０億以上、８０億以上、９０億以上、
又は１００億以上の核酸メチル化フラグメントを含むことができる。対応する複数の核酸
メチル化フラグメントの平均長さは、１４０～２８０ヌクレオチドであり得る。

【0060】

核酸のシークエンシング方法及びメチル化シークエンシングデータに関する更なる詳細
は、２０２０年３月４日に出願された「Systems and Methods for Cancer Condition Det
ermination Using Autoencoders」と題する米国仮特許出願第６２／９８５，２５８号に
開示されており、その全体が参照により本書に組み込まれる。

【0061】

ＩＩ．Ｂ．異常なフラグメントを同定すること

【0062】

分析システムは、サンプルのメチル化状態ベクトルを使用するサンプルについて異常な
フラグメントを判定することができる。サンプル中の各フラグメントについて、分析シス
テムは、フラグメントがフラグメントに対応するメチル化状態ベクトルを使用する異常な
フラグメントであるかを判定することができる。いくつかの実施態様において、分析シス
テムは、各メチル化状態ベクトルについて、健康な対照群中で更に可能性が低いメチル化
状態ベクトル又は他のメチル化状態ベクトルが観察される確率を記述するｐ値スコアを計
算する。ｐ値スコアを計算するプロセスは、後ほどセクションＩＩ．Ｂ．ｉ．Ｐ値フィル
タリングで更に説明する。分析システムは、閾値ｐ値スコアを下回るｐ値を有するメチル
化状態ベクトルを有しているフラグメントを異常なフラグメントとして判定してもよい。
いくつかの実施態様では、分析システムは、ある閾値を超えるメチル化又は非メチル化の
パーセンテージを有する少なくともある数のＣｐＧ部位を有するフラグメントを、それぞ
れハイパーメチル化フラグメント及びハイポメチル化フラグメントとして更にラベルする
。ハイパーメチル化フラグメント又はハイポメチル化フラグメントは、極端なメチル化を
有する異常なフラグメント（ＵＦＸＭ）とも呼ばれ得る。いくつかの実施態様において、
分析システムは、異常なフラグメントを判定するための様々な他の確率的モデルを実装し
てもよい。他の確率モデルの例には、混合モデル、深層確率モデル等を含む。いくつかの
実施態様では、分析システムは、異常なフラグメントを同定するために、以下に説明する
プロセスの任意の組合せを使用してもよい。同定された異常なフラグメントを用いて、分
析システムは、他のプロセス、例えば、がん分類器の訓練及び展開に使用するために、サ
ンプルに対するメチル化状態ベクトルのセットをフィルタリングしてもよい。

【0063】

ＩＩ．Ｂ．ｉ．Ｐ値フィルタリング

【0064】

いくつかの実施態様では、分析システムは、健康な対照群中のフラグメントからのメチ
ル化状態ベクトルと比較した各メチル化状態ベクトルに対するｐ値スコアを計算する。ｐ
値スコアは、健康な対照群中で更に可能性が低いメチル化状態ベクトル又は他のメチル化
状態ベクトルにマッチするメチル化状態を観察する確率を記述することができる。ＤＮＡ
フラグメントが異常にメチル化されていると判定するために、分析システムは、正常にメ
チル化されたフラグメントの大部分を有する健康な対照群を使用することができる。異常
なフラグメントを判定するためにこの確率的分析を実施するとき、判定は、健康な対照群
を構成する対照の対象群と比較して、重みを持つことができる。健常対照群中の頑健性を
確保するために、分析システムは、ＤＮＡフラグメントを含むサンプルを提供するために
、いくつかの閾値数の健康な個体を選択してもよい。図２Ａは、分析システムがｐ値スコ
アを計算し得る、健康な対照群のデータ構造を生成する方法を説明する。図２Ｂは、生成
されたデータ構造を用いてｐ値スコアを計算する方法を説明する。

【0065】

図２Ａは、一実施態様による、健康な対照群のデータ構造を生成するプロセス２００を
説明するフローチャートである。健常対照群データ構造を生成するために、分析システム
は、複数の健康な個体から複数のＤＮＡフラグメント（例えば、ｃｆＤＮＡ）を受信する
ことができる。メチル化状態ベクトルは、例えばプロセス１００を介して、各フラグメン
トについて同定することができる。

【0066】

各フラグメントのメチル化状態ベクトルを用いて、分析システムは、メチル化状態ベク
トルをＣｐＧ部位の文字列に細分化することができる（２０５）。いくつかの実施態様で
は、分析システムは、結果として生じる文字列が全て所与の長さ未満であるように、メチ
ル化状態ベクトルを細分化する（２０５）。例えば、長さ１１のメチル化状態ベクトルを
長さ３以下の文字列に細分化してもよく、長さ３の文字列９個、長さ２の文字列１０個、
及び長さ１の文字列１１個が結果として生じる。別の例では、長さ７のメチル化状態ベク
トルを長さ４以下の文字列に細分化すると、長さ４の文字列４個、長さ３の文字列５個、
長さ２の文字列６個、及び長さ１の文字列７個が結果として生じる。メチル化状態ベクト
ルが指定された文字列長より短い、又は同じ長さである場合、メチル化状態ベクトルは、
ベクトルのすべてのＣｐＧ部位を包含する単一の文字列に変換してもよい。

【0067】

分析システムは、ベクトル中の可能性のあるＣｐＧ部位及びメチル化状態の可能性各々
について、指定されたＣｐＧ部位を文字列中の第１のＣｐＧ部位として有し、かつメチル
化状態の可能性を有する対照群に存在する文字列の数を数えることによって文字列を集計
する（２１０）。例えば、所与のＣｐＧ部位において、文字列の長さが３であると考える
と、２＾３すなわち８通りの文字列構成の可能性がある。与えられたＣｐＧ部位において
、８つの可能な文字列構成の各々について、分析システムは、各メチル化状態ベクトルの
可能性が対照群で何回発生したかを集計する（２１０）。この例を続けると、これは、以
下の数量< Mx, Mx+1, Mx+2 >, < Mx, Mx+1, Ux+2 >, . . ., < Ux, Ux+1, Ux+2 >を、参
照ゲノム中の各開始ＣｐＧ部位ｘについて集計することを伴い得る。分析システムは、各
開始ＣｐＧ部位と文字列の可能性について集計されたカウントを格納するデータ構造を作
成する（２１５）。

【0068】

文字列の長さに上限を設定することには、いくつかの利点がある。第１に、文字列の最
大長に依存して、分析システムによって作成されるデータ構造のサイズが劇的に大きくな
る可能性がある。例えば、最大長文字列が４ということは、すべてのＣｐＧ部位が、長さ
４の文字列に対して、最低でも２＾４の数を集計することになる。最大文字列長が５に増
加すると、すべてのＣｐＧ部位は、追加で２＾４又は１６の数を集計することになり、集
計する数（及び必要なコンピュータメモリ）が、以前の文字列長と比較して２倍に増加す
ることになる。文字列サイズを小さくすることは、データ構造の作成及び性能（例えば、
後述のような後ほどアクセスするための使用）を、計算的及び格納の観点から、合理的に
保つことができる。第２に、最大文字列長を制限するための統計的な配慮は、文字列カウ
ントを使用する下流モデルのオーバーフィッティングを回避することを可能にする。Ｃｐ
Ｇ部位の長い文字列が、生物学的に、成果に強い影響を与えない場合（例えば、がんの存
在の予測である異常性の予測）、ＣｐＧ部位の大きな文字列に基づいて確率を計算するこ
とは、利用できない場合があるかなりの量のデータを使用する問題があり得、かつこのよ
うにモデルを適切に行うには非常にまばらになり得る。例えば、重要な１００個のＣｐＧ
部位を条件とする異常／がんの確率を計算すると、長さ１００のデータ構造中の文字列の
カウントを使用することができ、理想的には重要な１００個のメチル化状態に正確にマッ
チするものがある。長さ１００の文字列のまばらなカウントが利用可能である場合、テス
トサンプル中の長さ１００の与えられた文字列が異常であるかを判定するためのデータが
不十分であり得る。

【0069】

図２Ｂは、一実施態様による、個体から異常なメチル化されたフラグメントを同定する
ためのプロセス２２０を説明するフローチャートである。プロセス２２０において、分析
システムは、対象のｃｆＤＮＡフラグメントから１００個のメチル化状態ベクトルを生成
する。分析システムは、各メチル化状態ベクトルを以下のように扱うことができる。

【0070】

所与のメチル化状態ベクトルについて、分析システムは、メチル化状態ベクトル中の同
じ開始ＣｐＧ部位及び同じ長さ（すなわち、ＣｐＧ部位のセット）を有するメチル化状態
ベクトルの全ての可能性を列挙する（２３０）。各メチル化状態は一般にメチル化又は非
メチル化のいずれかであるので、各ＣｐＧ部位において事実上２つの可能な状態があり得
、かつこのように、メチル化状態ベクトルの異なる可能性のカウントは、長さｎのメチル
化状態ベクトルがメチル化状態ベクトルの２^ｎの可能性に紐づけられるように、２のべき
乗に依存し得る。メチル化状態ベクトルが１つ以上のＣｐＧ部位についての不確定な状態
を含む場合には、分析システムは、観察された状態を有するＣｐＧ部位のみを考慮してメ
チル化状態ベクトルの可能性を列挙することができる（２３０）。

【0071】

分析システムは、健康な対照群データ構造体にアクセスすることによって、同定された
開始ＣｐＧ部位及びメチル化状態ベクトル長に対するメチル化状態ベクトルの各可能性を
観察する確率を計算する（２４０）。いくつかの実施態様において、所与の可能性を観察
する確率を計算することは、共同確率計算をモデル化するためにマルコフ連鎖確率を使用
する。マルコフモデルは、少なくとも部分的に、対応する複数のＣｐＧ部位を有する健康
な非がんコホートデータセット中のそれらの核酸メチル化フラグメントにわたる、それぞ
れのフラグメント（例えば、核酸メチル化フラグメント）の対応する複数のＣｐＧ部位中
の各ＣｐＧ部位のメチル化状態の評価に基づいて訓練することができる。例えば、マルコ
フモデル（例えば、隠れマルコフモデル又はＨＭＭ）は、シークエンス中の各状態につい
て、シークエンス中の次の状態を観察する可能性を判定する確率のセットを与えられた複
数の核酸メチル化フラグメント中の核酸メチル化フラグメントに対してメチル化状態のシ
ークエンス（例えば、「Ｍ」又は「Ｕ」を含む）を観察できる確率を決定するために使用
される。確率のセットは、ＨＭＭを訓練することによって得ることができる。そのような
訓練は、観察されたメチル化状態シークエンス（例えば、メチル化パターン）の初期トレ
ーニングデータセットを与えられた統計的パラメータ（例えば、第１の状態が第２の状態
に移行する確率（移行確率）及び／又は所与のメチル化状態がそれぞれのＣｐＧ部位につ
いて観察可能な確率（放出確率））の計算を伴うことができる。ＨＭＭは、教師付き訓練
（例えば、観察された状態と同様に基礎となるシークエンスが既知であるサンプルを使用
して）並びに／若しくは教師なし訓練（例えば、ビタビ学習、最尤推定、期待値最大化訓
練、及び／又はバウム－ウェルチ訓練）を使用して訓練することができる。他の実施態様
では、メチル化状態ベクトルの各可能性を観察する確率を決定するために、マルコフ連鎖
確率以外の計算方法が使用される。例えば、そのような計算方法は、学習された表現を含
むことができる。ｐ値閾値は、０．０１～０．１０の間、又は０．０３～０．０６の間と
することができる。ｐ値閾値は、０．０５とすることができる。ｐ値閾値は、０．０１未
満、０．００１未満、又は０．０００１未満とすることができる。

【0072】

分析システムは、各可能性について計算された確率を使用して、メチル化状態ベクトル
のｐ値スコアを計算する（２５０）。いくつかの実施態様において、これは、問題のメチ
ル化状態ベクトルにマッチする可能性に対応する計算された確率を特定することを含む。
具体的には、これは、メチル化状態ベクトルと同じＣｐＧ部位のセット、又は同様に同じ
開始ＣｐＧ部位及び長さを有する可能性であり得る。分析システムは、特定された確率以
下の確率を有する任意の可能性の計算された確率を合計して、ｐ値スコアを生成すること
ができる。

【0073】

このｐ値は、健康な対照群中で、更に低い確率でフラグメントのメチル化状態ベクトル
又は他のメチル化状態ベクトルが観察される確率を表すことができる。低いｐ値スコアは
、それによって、一般に、健康な個体において稀なメチル化状態ベクトルに対応し、かつ
健康な対照群と比較して、フラグメントが異常にメチル化されているとラベルすることが
できる。高いｐ値スコアは、一般に、健康な個体において相対的な意味で存在すると予想
されるメチル化状態ベクトルに関連付けることができる。健康対照群が非がん群である場
合、例えば、低いｐ値は、そのフラグメントが非がん群と比較して異常にメチル化されて
おり、かつそれゆえに、テスト対象中にがんの存在を示唆する可能性があることを示し得
る。

【0074】

上記のように、分析システムは、各々がテストサンプル中のｃｆＤＮＡフラグメントを
表す複数のメチル化状態ベクトルの各々について、ｐ値スコアを計算することができる。
どのフラグメントが異常にメチル化されているかを同定するために、分析システムは、そ
れらのｐ値スコアに基づいてメチル化状態ベクトルのセットをフィルタリングしてもよい
（２６０）。いくつかの実施態様では、フィルタリングは、ｐ値スコアを閾値と比較し、
かつ閾値を下回るフラグメントのみを残すことによって行う。この閾値ｐ値スコアは、０
．１、０．０１、０．００１、０．０００１、又は同様のオーダーにすることができる。

【0075】

プロセス２２０からの例示的な結果に従って、分析システムは、トレーニングにおいて
がんを有さない参加者について異常なメチル化パターンを有する２，８００（１，５００
～１２，０００）の中央値（範囲）のフラグメント、及びトレーニングにおいてがんを有
する参加者について異常なメチル化パターンを有する３，０００（１，２００～２２０，
０００）の中央値（範囲）のフラグメントを得ることができる。異常なメチル化パターン
を有するフラグメントのこれらのフィルタリングされたセットは、セクションＩＩＩで後
述するように下流分析に使用されてもよい。

【0076】

いくつかの実施態様において、分析システムは、メチル化状態ベクトルの可能性を決定
し、かつｐ値を計算するために、スライディングウィンドウを使用する（２５５）。可能
性を列挙し、メチル化状態ベクトル全体に対してｐ値を計算するのではなく、分析システ
ムは、可能性を列挙し、かつ連続するＣｐＧ部位のウィンドウのみについてｐ値を計算す
ることができ、ここでウィンドウは、少なくともいくつかのフラグメントより（ＣｐＧ部
位の）長さが短い（さもなければ、ウィンドウは目的を果たさないだろう）。ウィンドウ
の長さは、静的、ユーザーが決定したもの、動的、又はその他の方法で選択されてもよい
。

【0077】

ウィンドウより大きいメチル化状態ベクトルに対するｐ値を計算する際に、ウィンドウ
は、ベクトル中の最初のＣｐＧ部位から始まるウィンドウ内のベクトルからのＣｐＧ部位
の連続したセットを同定し得る。分析システムは、第１のＣｐＧ部位を含むウィンドウに
対してｐ値スコアを計算することができる。その後、分析システムは、ウィンドウをベク
トル中の第２のＣｐＧ部位に「スライド」させ、かつ第２のウィンドウについて別のｐ値
スコアを計算することができる。このように、ウィンドウサイズｌ及びメチル化ベクトル
長ｍについて、各メチル化状態ベクトルは、ｍ－ｌ＋１個のｐ値スコアを生成することが
できる。ベクトルの各部分についてのｐ値計算を完了した後、全てのスライディングウィ
ンドウからの最低ｐ値スコアを、メチル化状態ベクトルに対する全体的なｐ値スコアとし
て採用することができる。いくつかの実施態様において、分析システムは、メチル化状態
ベクトルに対するｐ値スコアを集約して、全体的なｐ値スコアを生成する。

【0078】

スライディングウィンドウを使用することは、メチル化状態ベクトルの列挙された可能
性の数、及びそうでなければ行われる必要があるだろうそれらの対応する確率計算を減少
させるのに役立てることができる。現実的な例を挙げると、フラグメントが５４個を超え
るＣｐＧ部位を持つことがあり得る。単一のｐスコアを生成するために２＾５４（～１．
８×１０＾１６）個の可能性について確率を計算する代わりに、分析システムは、そのフ
ラグメントのメチル化状態ベクトルの５０個もウィンドウの各々について５０個のｐ値計
算を生じるサイズ５のウィンドウ（例えば）を代わりに使用することができる。５０個の
計算の各々は、メチル化状態ベクトルの２＾５（３２）の可能性を列挙することができ、
合計で５０×２＾５（１．６×１０＾３）の確率計算を生じさせる。これは、異常なフラ
グメントの正確な同定に意味のないヒットで、行われる計算の膨大な減少を生じさせるこ
とができる。

【0079】

不確定状態を有する実施態様において、分析システムは、フラグメントのメチル化状態
ベクトル中の不確定状態を有するＣｐＧ部位を合計したｐ値スコアを計算してもよい。分
析システムは、不確定状態を除くメチル化状態ベクトルの全てのメチル化状態と一致を有
する全ての可能性を特定することができる。分析システムは、特定された可能性の確率の
合計として、メチル化状態ベクトルに確率を割り当ててもよい。一例として、分析システ
ムは、ＣｐＧ部位１及び３に対するメチル化状態が観測され、かつＣｐＧ部位１及び３に
おけるフラグメントのメチル化状態と一致することから、< M1, M2, U3 >及び< M1, U2,
U3 >のメチル化状態ベクトルの可能性についての確率の合計のように< M1, I2, U3 >のメ
チル化状態ベクトルの可能性を算出することができる。不確定状態を有するＣｐＧ部位を
合計するこの方法は、２＾ｉまでの可能性の確率の計算を使用することができ、ここでｉ
は、メチル化状態ベクトル中の不確定状態の数を意味する。追加の実施態様では、動的プ
ログラミングアルゴリズムが、１つ以上の不確定状態を有するメチル化状態ベクトルの確
率を計算するために実装されてもよい。有利には、動的プログラミングアルゴリズムは、
線形計算時間で動作することができる。

【0080】

いくつかの実施態様において、確率及び／又はｐ値スコアを計算する計算負担は、少な
くともいくつかの計算をキャッシュすることによって更に低減される場合がある。例えば
、分析システムは、メチル化状態ベクトル（又はそのウィンドウ）の可能性についての確
率の計算を一時的又は持続的なメモリにキャッシュしてもよい。他のフラグメントが同じ
ＣｐＧ部位を有する場合、可能性確率をキャッシュすることは、基礎となる可能性確率を
再計算する必要なく、ｐ－スコア値を効率的に計算させることができる。同等に、分析シ
ステムは、ベクトル（又はそのウィンドウ）からのＣｐＧ部位のセットに紐づくメチル化
状態ベクトルの可能性の各々についてｐ値スコアを計算してもよい。分析システムは、同
じＣｐＧ部位を含む他のフラグメントのｐ値スコアを決定する際に使用するために、ｐ値
スコアをキャッシュしてもよい。一般に、同じＣｐＧ部位を有するメチル化状態ベクトル
の可能性のｐ値スコアは、ＣｐＧ部位の同じセットからの可能性の異なる１つのｐ値スコ
アを決定するために使用されてもよい。

【0081】

領域モデル又はがん分類器を訓練する前に、１つ以上の核酸メチル化フラグメントをフ
ィルタリングすることができる。核酸メチル化フラグメントをフィルタリングすることは
、対応する複数の核酸メチル化フラグメントから、１つ以上の選択基準（例えば、１つの
選択基準を下回る又は上回る）を満たすことができない各それぞれの核酸メチル化フラグ
メントを取り除くことを備えることができる。１つ以上の選択基準は、ｐ値閾値を含むこ
とができる。それぞれの核酸メチル化フラグメントの出力ｐ値は、それぞれの核酸メチル
化フラグメントの対応するメチル化パターンを、それぞれの核酸メチル化フラグメントの
対応する複数のＣｐＧ部位を有する健康な非がんコホートデータセット中のそれらの核酸
メチル化フラグメントのメチル化パターンの対応分布との比較に基づいて、少なくとも部
分的に決定することができる。

【0082】

複数の核酸メチル化フラグメントをフィルタリングすることは、ｐ値閾値を満たすこと
ができない各それぞれの核酸メチル化フラグメントを除去することを備えることができる
。フィルタは、第１の複数の核酸メチル化フラグメントにわたって観察されたメチル化パ
ターンを使用する各それぞれの核酸メチル化フラグメントのメチル化パターンに適用する
ことができる。各それぞれの核酸メチル化フラグメント（例えば、フラグメント１、．．
．、フラグメントＮ）の各それぞれのメチル化パターンは、１及び０のシークエンスとし
て表されるメチル化部位識別子と対応するメチル化パターンとで同定される対応する１つ
以上のメチル化部位（例えば、ＣｐＧ部位）を備えることができる。ここで、各「１」は
、１つ以上のＣｐＧ部位中のメチル化されたＣｐＧ部位を表し、かつ各「０」は、１つ以
上のＣｐＧ部位中の非メチル化されたＣｐＧ部位を表す。第１の複数の核酸メチル化フラ
グメントにわたって観察されたメチル化パターンは、第１の複数の核酸メチル化フラグメ
ントによって集合的に表されるＣｐＧ部位状態（例えば、ＣｐＧ部位Ａ、ＣｐＧ部位Ｂ、
・・・、ＣｐＧ部位ＺＺＺ）に対するメチル化状態分布を構築するために使用することが
できる。核酸メチル化フラグメントの処理に関する更なる詳細は、２０２０年３月４日に
出願された「Systems and Methods for Cancer Condition Determination Using Autoenc
oders」と題する米国仮特許出願第６２／９８５，２５８号に開示されており、その全体
が参照により本明細書に組み込まれる。

【0083】

それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが異常
メチル化スコア閾値未満である異常メチル化スコアを有するとき、１つ以上の選択基準中
の選択基準を満たすことができない場合がある。この状況では、異常メチル化スコアを、
混合モデルによって決定することができる。例えば、混合モデルは、同じ長さのかつ同じ
対応するゲノム位置における可能なメチル化状態ベクトルの数に基づいて、それぞれの核
酸メチル化フラグメントに対するメチル化状態ベクトル（例えば、メチル化パターン）の
尤度を決定することによって、核酸メチル化フラグメント中の異常なメチル化パターンを
検出することができる。これは、参照ゲノム中の各ゲノム位置において、指定された長さ
のベクトルについて複数の可能なメチル化状態を生成することによって実行することがで
きる。複数の可能なメチル化状態を使用して、可能なメチル化状態の総数、及びそれに続
いて、ゲノム位置における各予測されたメチル化状態の確率を決定することができる。そ
の後、サンプル核酸メチル化フラグメントを予測された（例えば、可能性のある）メチル
化状態にマッチさせ、かつ予測されたメチル化状態の計算された確率を取り出すことによ
って、参照ゲノム内のゲノム位置に対応するサンプル核酸の尤度を決定することができる
。その後、異常なメチル化スコアを、サンプル核酸メチル化フラグメントの確率に基づい
て計算することができる。

【0084】

それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値
未満の数の残基を有するとき、１つ以上の選択基準中の選択基準を満たすことができない
場合がある。残基の閾値の数は、１０～５０の間、５０～１００の間、１００～１５０の
間、又は１５０以上であり得る。閾値の残基数は、２０～９０の間の固定値であり得る。
それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントが閾値未
満の数のＣｐＧ部位を有するとき、１つ以上の選択基準中の選択基準を満たすことができ
ない場合がある。ＣｐＧ部位の閾値の数は、４、５、６、７、８、９、又は１０であり得
る。それぞれの核酸メチル化フラグメントは、それぞれの核酸メチル化フラグメントのゲ
ノム開始位置及びゲノム終了位置が、それぞれの核酸メチル化フラグメントがヒトゲノム
参照シークエンス中の閾値数未満のヌクレオチドを表すことを示すとき、１つ以上の選択
基準中の選択基準を満たすことができない場合がある。

【0085】

フィルタリングは、対応する複数の核酸メチル化フラグメント中の別の核酸メチル化フ
ラグメントと同じ対応するメチル化パターン並びに同じ対応するゲノム開始位置及びゲノ
ム終了位置を有する核酸メチル化フラグメントを除去することができる。このフィルタリ
ングステップは、いくつかの例において、ＰＣＲ重複を含む、完全な重複である冗長なフ
ラグメントを除去することができる。フィルタリングは、対応する複数の核酸メチル化フ
ラグメント中の別の核酸メチル化フラグメントと同じ対応するゲノム開始位置及びゲノム
終了位置を有し、かつ異なるメチル化状態の閾値数未満である核酸メチル化フラグメント
を除去することができる。核酸メチル化フラグメントの保持に使用される異なるメチル化
状態の閾値の数は、１、２、３、４、５、又は５以上とすることができる。例えば、第２
の核酸メチル化フラグメントと同じ対応するゲノム開始位置及び終了位置を有するが、そ
れぞれのＣｐＧ部位（例えば、参照ゲノムにアライメントしたもの）において少なくとも
１、少なくとも２、少なくとも３、少なくとも４、又は少なくとも５の異なるメチル化状
態を有する第１の核酸メチル化フラグメントは、保持される。別の例として、同じメチル
化状態ベクトル（例えば、メチル化パターン）を有するが、第２の核酸メチル化フラグメ
ントとして異なる対応するゲノム開始位置及び終了位置を有する第１の核酸メチル化フラ
グメントもまた保持される。

【0086】

フィルタリングは、複数の核酸メチル化フラグメント中のアッセイアーチファクトを除
去することができる。アッセイアーチファクトの除去は、シークエンシングされたハイブ
リダイゼーションプローブから得られたシークエンスリード及び／又はバイサルファイト
変換中に変換を受けることができなかったシークエンスから得られたシークエンスリード
を除去することを備えることができる。フィルタリングは、汚染物質（例えば、シークエ
ンシング、核酸単離、及び／又はサンプル調製に起因する）を除去することができる。

【0087】

フィルタリングは、複数の訓練対象にわたるがん状態に対するそれぞれのメチル化フラ
グメントの相互情報フィルタリングに基づいて、複数のメチル化フラグメントからメチル
化フラグメントのサブセットを除去することができる。例えば、相互情報は、同時にサン
プリングされた２つの関心のある条件の間の相互依存性の尺度を提供することができる。
相互情報は、１つ以上のデータセットからＣｐＧ部位の独立したセット（例えば、核酸メ
チル化フラグメントの全部内又は一部内）を選択し、かつ２つのサンプル群（例えば、遺
伝子型データセット、生体サンプル及び／又は対象のサブセット並びに／若しくは群）間
のＣｐＧ部位セットに対するメチル化状態の確率を比較することによって決定することが
できる。相互情報スコアは、スライディングウィンドウのそれぞれのフレーム中のそれぞ
れの領域において第１の条件対第２の条件のメチル化パターンの確率を表示することがで
き、このように、それぞれの領域の識別力を示すことができる。相互情報スコアは、選択
されたＣｐＧ部位のセット及び／又は選択されたゲノム領域にわたって進行するようなス
ライディングウィンドウの各フレーム中の各領域について同様に計算することができる。
相互情報フィルタリングに関する更なる詳細は、２０２０年１２月１１日に出願された「
Cancer Classification using Patch Convolutional Neural Networks」と題する米国特
許出願１７／１１９，６０６号に開示されており、その全体が参照により本明細書に組み
込まれる。

【0088】

ＩＩ．Ｂ．ｉｉ．ハイパーメチル化フラグメント及びハイポメチル化フラグメント

【0089】

いくつかの実施態様において、分析システムは、閾値を超える数のＣｐＧ部位を有し、
かつ閾値パーセンテージを超えるＣｐＧ部位がメチル化されている、又は閾値パーセンテ
ージを超えるＣｐＧ部位が非メチル化されているかのいずれかを有するフラグメントとし
て異常なフラグメントを判定し、分析システムは、そのようなフラグメントを、ハイパー
メチル化フラグメント又はハイポメチル化フラグメントとして同定する。フラグメント（
又はＣｐＧ部位）の長さの閾値の例は、３より上、４より上、５より上、６より上、７よ
り上、８より上、９より上、１０より上、等を含む。メチル化又は非メチル化のパーセン
テージの閾値の例は、８０％より上、８５％より上、９０％より上、又は９５％より上、
若しくは５０％～１００％の範囲内の他のパーセンテージを含む。

【0090】

ＩＩ．Ｃ．分析システムの例

【0091】

図７Ａは、１つ以上の実施態様による核酸サンプルをシークエンシングするためのデバ
イスの例示的なフローチャートである。この例示的なフローチャートは、シークエンサ７
２０及び分析システム７００などのようなデバイスを含む。シークエンサ７２０及び分析
システム７００は、図１Ａのプロセス１００、図２Ａのプロセス２００、図２Ｂのプロセ
ス２２０、及び本明細書に記載の他のプロセスにおける１つ以上のステップを行うために
連動して動いてもよい。

【0092】

様々な実施態様において、シークエンサ７２０は、濃縮された核酸サンプル７１０を受
け取る。図７Ａに示すように、シークエンサ７２０は、特定のタスク（例えば、シークエ
ンシングの開始又はシークエンシングの終了）とのユーザー対話を可能にするグラフィカ
ルユーザーインターフェース７２５と、また同様に濃縮フラグメントサンプルを含むシー
クエンシングカートリッジをロードするため、及び／又はシークエンシングアッセイを行
うために必要なバッファーをロードするための１つ以上のロードステーション７３０と、
を含むことができる。それゆえに、シークエンサ７２０のユーザーが必要な試薬及びシー
クエンシングカートリッジをシークエンサ７２０のロードステーション７３０に提供する
と、ユーザーは、シークエンサ７２０のグラフィカルユーザーインターフェース７２５と
対話することによってシークエンシングを開始することができる。一度開始されると、シ
ークエンサ７２０は、シークエンシングを行い、核酸サンプル７１０からの濃縮フラグメ
ントのシークエンスリードを出力する。

【0093】

いくつかの実施態様では、シークエンサ７２０は、分析システム７００と通信可能に結
合される。分析システム７００は、１つ以上のＣｐＧ部位におけるメチル化状態の評価、
バリアントコール又は品質管理などのような様々な用途のためにシークエンスリードを処
理するために使用されるいくつかの数のコンピューティングデバイスを含む。シークエン
サ７２０は、ＢＡＭファイルフィーマットでシークエンスリードを分析システム７００に
提供してもよい。分析システム７００は、無線、有線、又は無線及び有線の組み合わせの
通信技術を通じてシークエンサ７２０に通信可能に結合することができる。一般に、分析
システム７００は、プロセッサ、及びプロセッサによって実行されると、プロセッサにシ
ークエンスリードを処理させる、若しくは本明細書に開示される方法又はプロセスのいず
れかの１つ以上のステップを行うコンピュータ命令を格納する非一時的コンピュータ可読
記憶媒体、を備えるように構成される。

【0094】

いくつかの実施態様では、シークエンスリードを、例えば、図１Ａのプロセス１００の
ステップ１４０を介して、アライメント位置情報を決定するために、当該技術分野におい
て既知の方法を使用する参照ゲノムにアライメントしてもよい。アラインメント位置は、
一般に、所与のシークエンスリードの開始ヌクレオチド塩基及び終了ヌクレオチド塩基に
対応する参照ゲノム中の領域の開始位置及び終了位置を記載してもよい。メチル化シーク
エンシングに対応して、アライメント位置情報は、参照ゲノムへのアライメントに従って
シークエンスリード中に含まれる最初のＣｐＧ部位及び最後のＣｐＧ部位を示すように一
般化されてもよい。アライメント位置情報は、所与のシークエンスリード中の全てのＣｐ
Ｇ部位のメチル化状態及び位置を更に示してもよい。参照ゲノム中の領域は、遺伝子又は
遺伝子のセグメントに紐づいてもよく、そのようなものとして、分析システム７００は、
シークエンスリードを、そのシークエンスリードにアライメントする１つ以上の遺伝子で
ラベルしてもよい。一実施態様において、フラグメントの長さ（又はサイズ）は、開始位
置及び終了位置から決定される。

【0095】

様々な実施態様において、例えばペアエンドシークエンスプロセスが使用されるとき、
シークエンスリードは、Ｒ_１及びＲ_２として示されるリードペアで構成される。例えば
、第１のリードＲ_１は、二本鎖ＤＮＡ（ｄｓＤＮＡ）分子の第１の端からシークエンシ
ングされてもよく、一方、第２のリードＲ_２は、二本鎖ＤＮＡ（ｄｓＤＮＡ）の第２の
端からシークエンシングされてもよい。それゆえに、第１のリードＲ_１及び第２のリー
ドＲ_２のヌクレオチド塩基対を、参照ゲノムのヌクレオチド塩基と一貫して（例えば、
反対の向きで）アライメントする場合がある。リードペアＲ_１及びＲ_２から得られるア
ラインメント位置情報は、第１のリード（例えば、Ｒ_１）の末端に対応する参照ゲノム
内の開始位置、及び第２のリード（例えば、Ｒ_２）の末端に対応する参照ゲノム内の終
了位置を含んでもよい。言い換えれば、参照ゲノム内の開始位置及び終了位置は、核酸フ
ラグメントが対応する参照ゲノム内部の可能性の高い位置を表すことができる。ＳＡＭ（
シークエンスアライメントマップ）形式又はＢＡＭ（バイナリ）形式を有する出力ファイ
ルが生成され、かつさらなる解析のために出力されてもよい。

【0096】

ここで図７Ｂを参照すると、図７Ｂは、一実施態様によるＤＮＡサンプルを処理するた
めの分析システム７００のブロック図である。分析システムは、ＤＮＡサンプルの分析に
使用するための１つ以上のコンピューティングデバイスを実装する。分析システム９００
は、シークエンスプロセッサ７４０、シークエンスデータベース７４５、モデルデータベ
ース７５５、モデル７５０、パラメータデータベース７６５、及びスコアエンジン７６０
を含む。いくつかの実施態様において、分析システム７００は、図１Ａのプロセス１００
及び図２のプロセス２００の一部又は全部を行う。

【0097】

シークエンスプロセッサ７４０は、サンプルからのフラグメントに対するメチル化状態
ベクトルを生成する。フラグメント上の各ＣｐＧ部位において、シークエンスプロセッサ
７４０は、図１Ａのプロセス１００を介して、各フラグメントについて、参照ゲノム中の
フラグメントの位置、フラグメント中のＣｐＧ部位の数、及びメチル化、非メチル化、又
は不確定のいずれかであるフラグメント中の各ＣｐＧ部位のメチル化状態を特定するメチ
ル化状態ベクトルを生成する。シークエンスプロセッサ７４０は、シークエンスデータベ
ース７４５内のフラグメントに対するメチル化状態ベクトルを格納してもよい。シークエ
ンスデータベース７４５内のデータは、サンプルからのメチル化状態ベクトルが互いに紐
づくように編成されてもよい。

【0098】

さらに、多数の異なるモデル７５０が、モデルデータベース７５５に格納されてもよく
、又はテストサンプルと共に使用するために検索されてもよい。一例では、モデルは、異
常なフラグメントに由来する特徴ベクトルを使用してテストサンプルに対するがん予測を
同定するための訓練されたがん分類器である。がん分類器の訓練及び使用は、セクション
ＩＩＩ．がんを同定するためのがん分類器と併せて更に論じられるだろう。分析システム
７００は、１つ以上のモデル７５０を訓練し、かつ様々な訓練されたパラメータをパラメ
ータデータベース７６５に格納してもよい。分析システム７００は、モデル７５０をモデ
ルデータベース７５５に関数とともに格納する。

【0099】

推論中、スコアエンジン７６０は、１つ以上のモデル７５０を使用して、出力を返す。
スコアエンジン７６０は、モデルデータベース７５５内のモデル７５０を、パラメータデ
ータベース７６５からの訓練されたパラメータと共にアクセスする。各モデルに従って、
スコアエンジンは、モデルのための適切な入力を受け取り、かつ受け取った入力、パラメ
ータ、及び入力と出力とを関連付ける各モデルの関数に基づいて、出力を計算する。いく
つかの使用例では、スコアエンジン７６０は、モデルからの計算された出力の信頼度に相
関するメトリクスを更に計算する。他の使用例では、スコアエンジン７６０は、モデルで
使用するための他の中間的な値を計算する。

【0100】

ＩＩＩ．がんを同定するためのがん分類器

【0101】

ＩＩＩ．Ａ．概要

【0102】

がん分類器は、テストサンプルに対する特徴ベクトルを受け取り、かつテストサンプル
が、がん、より具体的には、特定のがんタイプを有するテスト対象からのものであるかを
判定するように訓練することができる。がん分類器は、複数の分類パラメータと、入力と
しての特徴ベクトルと、分類パラメータを有する入力特徴ベクトル上で動作する関数によ
って決定される出力としてのがん予測との間の関係を表す関数と、を備えることができる
。いくつかの実施態様において、がん分類器に入力される特徴ベクトルは、テストサンプ
ルから判定された異常なフラグメントのセットに基づく。異常なフラグメントは、図２Ｂ
のプロセス２２０を介して、又はより具体的には、プロセス２２０のステップ２７０を介
して判定されるようなハイパーメチル化フラグメント及びハイポメチル化フラグメント、
若しくはいくつかの他のプロセスに従って判定される異常なフラグメントであると判定さ
れてもよい。がん分類器の展開の前に、分析システムは、がん分類器を訓練することがで
きる。

【0103】

ＩＩＩ．Ｂ．合成トレーニングサンプルの生成

【0104】

図３は、１つ以上の実施態様による、合成トレーニングサンプルを生成する例示的なプ
ロセスを図示する。分析システムは、既知のがん状態を有する個体から得られたトレーニ
ングサンプルを使用して、１つ以上の合成トレーニングサンプルを生成することができる
。分析システムは、合成トレーニングサンプルを含むトレーニングサンプルを使用して、
がん分類器を訓練することができる。

【0105】

分析システムは、合成トレーニングサンプル３３０を生成するために、がんトレーニン
グサンプル３１０及び非がんトレーニングサンプル３２０を取得する。がんトレーニング
サンプル３１０は、がんを有しているという既知の状態を有する個体から得られる。非が
んトレーニングサンプル３２０は、がんを有していない（「非がん」）という既知のステ
ータスを有する個体から得られる。各トレーニングサンプルは、ヒトゲノム中の複数のゲ
ノム領域のうちの少なくとも１つのゲノム領域と重なるｃｆＤＮＡフラグメントを含む。
ゲノム領域がＮ個与えられると、非がんトレーニングサンプル３１０は、ゲノム領域１中
のフラグメント３１２、ゲノム領域２中のフラグメント３１４、及びゲノム領域Ｎ中のフ
ラグメント３１６までの各ゲノム領域のフラグメントを有する。ゲノム領域Ｎのフラグメ
ント３２６までの各ゲノム領域のフラグメントを有する。同様に、非がんトレーニングサ
ンプル３２０は、ゲノム領域１中のフラグメント３２２、ゲノム領域２中のフラグメント
３２４、及びゲノム領域Ｎ中のフラグメント３２６までの各ゲノム領域のフラグメントを
有する。

【0106】

分析システムは、がんトレーニングサンプル３１０からフラグメントと、非がんトレー
ニングサンプル３２０からフラグメントとをサンプリングすることによって、合成トレー
ニングサンプル３３０を生成する。分析システムは、各ゲノム領域において、第１のサン
プリング確率でがんトレーニングサンプル３１０からフラグメントのサブセットをサンプ
リングし、かつ第１のサンプリング確率に対して相補的な第２のサンプリング確率で非が
んトレーニングサンプル３２０からフラグメントのサブセットをサンプリングする。図に
示すように、第１のサンプリング確率はＡ％であり、かつ第２のサンプリング確率はＢ％
である。このようにサンプリングすることによって、ゲノム領域１について、がんトレー
ニングサンプル３１０からのフラグメント３１２のＡ％、及び非がんトレーニングサンプ
ル３２０からのフラグメント３２２のＢ％を含むように、合成トレーニングサンプル３３
０が生成される。同様に、合成サンプル３３０は、ゲノム領域２について、がんトレーニ
ングサンプル３１０からのフラグメント３１４のＡ％、及び非がんトレーニングサンプル
３２０からのフラグメント３２４のＢ％を含むように生成される。これは、ゲノム領域Ｎ
までゲノム領域を通じて継続し、合成サンプル３３０は、ゲノム領域Ｎにおいて、がんト
レーニングサンプル３１０のフラグメント３１６のＡ％、及び非がんトレーニングサンプ
ル３２０のフラグメント３２６のＢ％を含むように生成される。分析システムは、合成ト
レーニングサンプル３３０にがんのラベルをラベルする。ラベルは、がんトレーニングサ
ンプル３１０内に存在する特定のがんタイプを更に含んでもよい。

【0107】

サンプリング確率は、訓練されたがん分類器の性能に従って決定することができる。分
析システムは、がん分類器を訓練し、かつその性能を評価してもよい。分類器の性能は、
最小腫瘍分画、すなわち、がん信号を検出するために必要な腫瘍組織から排出されるｃｆ
ＤＮＡフラグメントの最小パーセンテージでサンプル中のがんの存在を予測する検出限界
値を含んでもよい。例えば、分類器は、サンプル中の１０００個のフラグメントあたりの
腫瘍組織から流出した１個のフラグメントの検出限界を有してもよい。がんトレーニング
サンプル３１０からサンプリングされたフラグメントのパーセンテージに対応する第１の
サンプリング確率は、０．００１％（又はそのようなパーセンテージの周辺）に設定され
てもよい。分析システムは、第２のサンプリング確率を第１のサンプリング確率の補数と
して決定してもよい。相補的なサンプリング確率は、１００％まで加算されるパーセンテ
ージを有する。例えば、０．００１％の相補的なパーセンテージは０．９９９％であり、
非がんトレーニングサンプル３２０からサンプリングされたフラグメントのパーセンテー
ジに対応する第２のサンプリング確率として設定される。分析システムは、がんトレーニ
ングサンプル３１０及び非がんトレーニングサンプル３２０のシークエンス深度に従って
、サンプリング確率を更に調整してもよい。例えば、がんトレーニングサンプル３１０が
非がんトレーニングサンプル３２０よりも小さいシークエンス深度を有する場合、第１の
サンプリング確率を増加してもよい。分析システムは、がん分類器が合成トレーニングサ
ンプルで漸進的に訓練されるにつれて、サンプリング確率を漸進的に調整してもよい。

【0108】

図４は、１つ以上の実施態様による、がん分類器のトレーニングのための合成トレーニ
ングサンプルを生成するプロセス４００を説明する例示的なフローチャートである。以下
の説明は分析システムの考え方であるが、以下のプロセスは、図７Ｂに示される分析シス
テム７００の構成要素のいずれかによって行われてもよい。

【0109】

分析システムは、複数のトレーニングサンプルについてのシークエンシングデータを受
信する（４１０）。分析システムは、がん又は非がんのラベルを有するトレーニングサン
プルを各々受信することができる。がんのラベルを有するトレーニングサンプルは、特定
のがんタイプのラベルを更に有してもよい。各トレーニングサンプルは、図２Ｂのプロセ
ス２２０に従って異常にメチル化されていると判定される場合がある複数のｃｆＤＮＡフ
ラグメントを含むことができる。

【0110】

分析システムは、がんとしてラベルされた第１のトレーニングサンプル、及び非がんと
してラベルされた第２のトレーニングサンプルをサンプリングする（４２０）。第１のト
レーニングサンプルは、複数のがんタイプのうちの特定のがんタイプのラベルを追加で有
していてもよい。

【0111】

分析システムは、第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの第
１のサブセット、及び第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメントの
第２のサブセットをサンプリングすることによって、がんとしてラベルされた第１の合成
トレーニングサンプルを生成する（４３０）。図３に記載されるように、分析システムは
、サンプリング確率によって、ゲノム領域に従って各トレーニングサンプルからフラグメ
ントをサンプリングしてもよい。分析システムは、各ゲノム領域において、第１のサンプ
リング確率に従って第１のトレーニングサンプルに対するゲノム領域中のフラグメント、
及び第２のサンプリング確率に従って第２のトレーニングサンプルに対するゲノム領域中
のフラグメントをサンプリングすることができ、ここで、第２のサンプリング確率は、第
１のサンプリング確率に対して相補的である。

【0112】

分析システムは、ステップ４２０及び４３０を繰り返して、追加の合成トレーニングサ
ンプルを生成してもよい。単一のがんトレーニングサンプルをがんとしてラベルされた複
数の合成トレーニングサンプルを生成するために使用してもよい。

【0113】

分析システムは、各トレーニングサンプルに対する特徴ベクトルを生成する（４４０）
。トレーニングサンプルは、少なくとも第１の合成トレーニングサンプルと、生成された
全ての合成トレーニングサンプルまでと、を含む。特徴ベクトルは、トレーニングサンプ
ル中の異常なｃｆＤＮＡフラグメントに基づいて生成することができる。特徴づけの１つ
のアプローチは、セクションＩＩＩ．Ｃ．がん分類器の訓練で後述する。

【0114】

分析システムは、特徴ベクトルとトレーニングサンプルのラベルとを用いて、がん分類
器を訓練する（４５０）。分析システムは、トレーニングサンプルの特徴ベクトルを入力
することによってがん分類器を訓練し、かつトレーニングサンプルのラベルのがん分類器
の予測精度の最適化において、がん分類器のパラメータを調整する。がん分類器の訓練に
関する更なる詳細は、セクションＩＩＩ．Ｃ．がん分類器の訓練で後述する。

【0115】

生成された１つ以上の合成トレーニングサンプルを用いてがん分類器を訓練することに
より、改善されたがん分類器の特異度及び感度を容易にする。この改善は、いくつかの要
因に起因する。例えば、拡張されたトレーニングセットを使用することによって、分類器
はデータのトレンドをより良く一般化できるため、データのオーバーフィッティングが減
少する。追加で、サンプリング確率を決定することにより、生成された合成トレーニング
サンプルは、分類器の検出限界に近いがん信号を有することができる。これは、ひいては
、がん信号が少ない特徴空間においてがん分類器をより堅牢に訓練することをさせること
ができる。

【0116】

図５Ａは、本開示の様々な実施態様に従って、増強データを生成し、オプションで疾患
状態を互いに判別する分類器を訓練するための一例のワークフロー５００を示す。

【0117】

いくつかの実施態様において、ワークフロー５００の第１のステップは、例えば、各ト
レーニングコホート中の対象が異なる疾患状態を有する１つ以上のトレーニングコホート
からの基礎となる生物学的データの収集である（５０２）。生体サンプル（例えば、核酸
を包含する）は、第１のコホート中の対象から収集され（５０４）、その各々は、第１の
疾患状態、例えば、無細胞核酸が疾患状態の情報を与える特定のがんの状態又は心血管疾
患を有する。図２に図示するように、生体サンプルは、１つ以上の追加のコホート中の対
象から収集され（５０５）、その各々は、第１の疾患状況とは異なる第２の疾患状況を有
する。例として、第１のコホート中の対象はがんを有しているが、第２のコホート中の対
象はがんを有していない。本明細書に記載の方法で使用される各生物サンプルは、無細胞
核酸、例えば、ｃｆＤＮＡを含むことができる。有利には、無細胞核酸は、対象からの最
小侵襲性の少量採血によって、若しくは場合によっては唾液又は尿などのような他の体液
の非侵襲性サンプリングから得ることができる。本明細書に記載されるシステム及び方法
は、対象における疾患状況を検出するために使用することができる任意のタイプの生物学
的データ、例えば、無細胞又は細胞ゲノムデータ、トランスクリプトームデータ、エピジ
ェネティックデータ、プロテオームデータ、メタボロームデータ等を評価するために適し
得る。生体サンプルは、対象についての生物学的情報を得るために処理することができる
（５０６）。サンプル中の無細胞核酸（例えば、ｃｆＤＮＡ）は、ｃｆＤＮＡシークエン
スリードを生成するためにシークエンシングすることができる。

【0118】

ワークフロー５００は、生体サンプルを収集する（例えば、コホート１からｃｆＤＮＡ
サンプルを取得するステップ（５０４）及び他の任意のコホートからｃｆＤＮＡサンプル
を取得するステップ（５０５））並びに生体特徴抽出（例えば、ｃｆＤＮＡのシークエン
スリードを生成するステップ（５０６））の任意のステップを図示しているが、本明細書
に記載の方法は、以前に抽出した生体特徴（例えば、シークエンスリード値、かつオプシ
ョンでシークエンスリード値の特徴）を電子フォームで得ることによって開始することが
できる。

【0119】

ワークフロー５００は、第１のコホート中の対象からの核酸サンプル、及びオプション
で追加のコホート中の対象からの核酸サンプルに対して、核酸フラグメントシークエンス
を取得するステップ（５０８）を含む。ワークフロー５００は、ステップ５０６において
収集された生物学的情報に基づいて、コホート１中の対象の各々に対してデータ構成体を
取得するステップ（５１０）を更に含む。データ構成体は、対象のゲノム特徴（又はゲノ
ム特性）、疾患状況、及びオプションで個人的特徴を含むことができる。本明細書に記載
の方法に有用なゲノム特徴の例には、生体サンプル中の特定のシークエンス（例えば、ゲ
ノム又はエキソミック遺伝子座）の相対的存在量についての有益なリードカウント（例え
ば、ゲノムコピー数特性）、対象の種に対しての参照ゲノム（複数可）に関する対象のゲ
ノム（例えば、生殖細胞系又は疾患組織のいずれか若しくは両方）中の差異に関する有益
なバリアント対立遺伝子の存在（例えば、バリアント対立遺伝子特性）、テスト生物サン
プル中の非バリアント対立遺伝子に対するバリアント対立遺伝子の相対的存在量について
の有益なバリアント遺伝子頻度（例えば、対立遺伝子比特性）、及びテスト生物サンプル
中の異なるゲノム領域のメチル化状態についての有益なメチル化状態（例えば、ゲノムメ
チル化特性）を含む。データ構成体に含まれる特定の特徴及びそのフォーマットは、ワー
クフロー５００のステップ５１６においてオプションで訓練された分類器によって規定す
ることができる。ワークフロー５０２において、核酸フラグメントシークエンスデータは
、一緒にマージされない場合がある。この状況では、ｃｆＤＮＡの供給源の同一性を維持
することができ、かつ各補完的データ構成体は、コホートのうちの１つからの単一の対応
するサンプルのｃｆＤＮＡから構築することができる。いくつかの代替実施態様において
、コホートの２つ以上のサンプルからのｃｆＤＮＡは、単一の補完的データ構成体にマー
ジされる。

【0120】

ワークフロー５００は、ステップ５０６において収集された生物学的情報に基づいて、
任意の追加のコホート中の対象の各々に対してデータ構成体を取得するステップ（５１２
）オプションで含む。データ構成体は、上述のように、対象の遺伝子型特徴、疾患状況、
及びオプションで個人的特徴を含むことができる。データ構成体が、追加のコホート中の
対象の疾患状態を判別するために分類器を訓練するために使用されるとき、ステップ５１
２において得られたデータ構成体中のゲノム特徴は、ステップ５１０において第１のコホ
ートに対して得られたデータ構成体中の同じゲノム特徴であり得る。

【0121】

ワークフロー５００はまた、第１のコホート中の少なくとも１つの対象について得られ
た核酸フラグメントシークエンスの確率的サンプリングに基づいて、ゲノム特徴について
増強値を包含する補完的データ構成体を生成するステップ（５１４）を含む。補完的デー
タ構成体の１つ以上は、訓練されている分類器の検出限界付近の疾患シグネチャを有する
ために模擬サンプルの状態を表すことができる。この状況では、所与の疾患状態を表す弱
いデータ信号の例をより多く提示することによって、分類器の訓練を改善することができ
る。

【0122】

図５Ｂは、ステップ５１４において補完的データ構成体を生成するための例示的なワー
クフローを図示する。図５Ｂに図示するように、第１のコホート中の１つ以上の対象（例
えば、がんを有する）からの核酸フラグメントシークエンスデータ５２０は、確率的にサ
ンプリングされ（５３０）、その後、より弱い疾患信号を有するデータを模擬できる全て
の核酸フラグメントシークエンスのサブセットが選択される。例えば、０．２の腫瘍分画
を有する液体生体サンプルから生成された核酸フラグメントシークエンスの正規化セット
から開始するとき（すなわち、サンプル中の無細胞核酸の２０％ががん細胞からである）
、核酸フラグメントシークエンスの各々に５０％の選択確率を適用すると、約半量のがん
信号を有する対応する補完的データ構成体に対する核酸フラグメントシークエンスの選択
セットが生じ、これは、０．１の腫瘍分画を有するサンプルに期待されるがん信号とおお
よそ同等である。実際には、がんのない対象のコホート及びがん対象のコホートを用いて
分類器を訓練することができ、コホート中のがんの対象は、腫瘍率に関して異なる。訓練
された分類器の性能は、分類器の検出限界を決定するために評価することができる。訓練
された分類器は、分類器の性能が実質的に低下し始めるか又は完全に失敗する腫瘍分画を
決定するために評価することができる。

【0123】

その後、この腫瘍分画を中心とする補完的データ構成体を生成するために方法５０２（
図２）を使用することができる。例えば、がんコホート中の平均的ながん対象が０．４の
腫瘍分画を有し、訓練された分類器が腫瘍分画０．２で失敗する場合を考える。この状況
では、分類器は、十分な性能でがんを有するとして腫瘍率０．２以下を有する対象を同定
できない場合がある。このような事例では、がんコホートから、コホート対象ごとに補完
的データ構成体を生成することができる。各対象に対して、そのフラグメントシークエン
スの各々を、対応する補完的データ構成体に含めるために、確率論的基準で選択すること
ができる。分類器は０．２で失敗するので、分類器をよりよく訓練するために、腫瘍分画
を有する補完的データ構成体は、０．２の近傍であることができる。そこで、がんコホー
ト中の各それぞれの対象について、対応する補完的データ構成体に含めるために各核酸フ
ラグメントを確率的にサンプリング（受け入れる）することによって、それぞれの対象に
対してコホート中の核酸フラグメントデータを使用して構築された対応する補完的データ
構成体に対して核酸フラグメントシークエンスのそれぞれを選択することが可能である。
この例では、がんコホート中のそれぞれの対象に対して各核酸フラグメントに、０．５０
の確率的サンプリングが適用される。このように、がんコホート中のそれぞれの対象に対
して１０００個の核酸フラグメントがある場合、各核酸フラグメントは、５０％の確率で
対応する補完的データ構成体に受け入れられることができる。有利なことに、参照対立遺
伝子及び代替対立遺伝子を考慮することなく、又はどの対立遺伝子ががん信号を決定する
のかを知ることさえなく、０．２の腫瘍分画を有する実際のコホートサンプルを模擬する
対応する補完的データ構成体を生成するために、この確率的サンプリングの適用によって
判別する代替的な対立遺伝子の生のカウントをおそらく半分にすることができる。このよ
うにして生成された補完的データ構成体は、元のコホートデータと組み合わせて、今度は
より多くのデータを用いて分類器をもう一度訓練することができ、かつ元のデータに対す
る分類器の性能をもう一度評価することができる。有利なことに、以下の例に示すように
、このアプローチは、特に、元のコホートデータが少数の対象の数しか有しなかった低腫
分画において、分類器の性能を向上させることができる。

【0124】

オプションで、代替の実施態様では、図５Ｂにもまた図示するように、第２のコホート
中の１人以上の対象（例えば、がんを有さない人）からの核酸フラグメントシークエンス
データ５２２は、全ての核酸フラグメントシークエンスのサブセットのみを選択するため
にランダムにサンプリングすることができる（５３２）。このサンプリングされた核酸フ
ラグメントシークエンスのサブセットは、例えば、第１のコホート中の対象からの核酸フ
ラグメントシークエンスの元のセットよりも弱い疾患シグネチャ（例えば、疾患ががんで
あるとき、より低い腫瘍分画）を有する核酸フラグメントシークエンスの増強セットを生
成するために、第１のコホート中の１人以上の対象からランダムにサンプリングした核酸
フラグメントシークエンスと混合することができる（５４０）。サンプリングされた核酸
フラグメントシークエンスの混合は、分類器を訓練するために使用されるゲノム特性の１
つが、健康な核酸フラグメントシークエンスに対する疾患由来の核酸フラグメントシーク
エンスの比率に基づくときに使用することができる。例示すると、第１のコホート中の対
象（例えば、がんを有する人）からの核酸フラグメントシークエンスデータ５２０は、対
象からの全ての核酸フラグメントシークエンスのサブセットのみを選択するために、第１
の確率（例えば、０．６）を使用して確率的にサンプリングすることができる（５３０）
。また、第２のコホート中の対になる対象（例えば、がんを有さない人）からの核酸フラ
グメントシークエンスデータ５２２は、第２の確率（例えば、０．４）を使用して確率的
にサンプリングし（５３０）、対になる対象からの全ての核酸フラグメントシークエンス
のサブセットのみを選択することができる。コホート１からの１つとコホート２からの１
つという、対になる対象からの核酸フラグメントシークエンスを組み合わせて、補完的デ
ータ構成体を形成することができる。コホート１中の２つ以上の対象及びコホート２中の
単一の対象は、この方法で単一の補完的データ構成体に寄与し得る。コホート２中の２つ
以上の対象及びコホート１中の単一の対象は、この方法で単一の補完的データ構成体に寄
与し得る。コホート２中の２つ以上の対象及びコホート１中の２つ以上の対象は、この方
法で単一の補完的データ構成体に寄与し得る。いくつかの実施態様において、第１のコホ
ートからの対象内の核酸フラグメントシークエンスは、第１の確率でサンプリングされ、
かつ第２のコホート中の対象内の核酸フラグメントシークエンスは、第１の確率及び第２
の確率が同じ又は異なり、並びに第１の確率及び第２の確率の和が「１」にならない又は
なる補完的データ構成体を形成するために第２の確率でサンプリングされる。

【0125】

代替の実施態様では、疾患コホートからの核酸フラグメントシークエンスを非疾患コホ
ートからの核酸フラグメントシークエンスで希釈するのとは対照的に、「欠損」核酸フラ
グメントシークエンスを非疾患状態として割り当てることによって、補完的データ構成体
が構築される。例えば、第１のコホート（例えば、疾患コホート）中の対象からの核酸フ
ラグメントシークエンスのセットが、所与のゲノム遺伝子座に対して１００個の核酸フラ
グメントシークエンスを含み、そのうち２０個が疾患細胞由来であると仮定する。核酸フ
ラグメントシークエンスの５０％をランダムにサンプリングして、１０個の疾患細胞に由
来する核酸フラグメントシークエンスと４０個の健康な細胞に由来する核酸フラグメント
シークエンスとを選択した場合、増強セットの対立遺伝子比率は、開始サンプルと同じ２
０％となり得る。しかしながら、核酸フラグメントシークエンスの増強セットは、依然と
して遺伝子座からの１００個の核酸フラグメントシークエンスを含み得、この場合、増強
セットの対立遺伝子比は、核酸フラグメントシークエンスの元のセットの１０％又はその
半分であると決定することができる。

【0126】

図５Ｂに図示するように、いくつかの実施態様において、ランダムにサンプリングされ
た核酸フラグメントシークエンス（例えば、ステップ５３０において生成され、オプショ
ンで、ステップ５３２及び／又は５４０において生成される）は、その後、ステップ５１
４の補完的データ構成体を形成する（５５０）ために使用される。

【0127】

いくつかの実施態様では、図５Ａに示すように、ワークフロー５００は、対象の第１の
コホートに紐づく第１の疾患状況と、対象の追加のコホートのうちの１つ以上に紐づく少
なくとも１つの第２の疾患状況とを区別するために分類器を訓練するステップを含む。図
５Ａに示すように、訓練は、第１のコホート中の対象、少なくとも１つの第２のコホート
中の対象、並びに第１のコホート中の対象の少なくとも１つからランダムにサンプリング
された核酸フラグメントシークエンスから生成された増強されたデータ構成体に対して得
られたデータ構成体（例えば、各対象又は増強された構成体についての疾患状態情報、例
えば、各対象又は増強された構成体に対して得られた又は生成された生体データのゲノム
特性を含む）を使用する。

【0128】

確率サンプリングを使用してデータセットを人為的に拡張する方法は、異なる疾患状態
をより良く判別するための分類器を訓練することに有用な複数の補完的データ構成体（例
えば、増強された単一時点トレーニング構成体及び／又は増強された時系列トレーニング
構成体）を生成することができる。異なる疾患状態をより良く判別するための例は、対象
ががん又は心血管疾患などのような疾患を有するかを判定するため、疾患のタイプ（例え
ば、がんの種類、がんの発生元）を判定するため、疾患のステージ（例えば、がんのステ
ージ）を判定するため、疾患の予後（例えば、治療を伴う及び／又は治療を伴わないがん
の予後）を判定するため、などである。

【0129】

本方法は、疾患状況の第１の状態を有する訓練対象の第１のコホート（例えば、訓練対
象）に対する第１の複数のゲノムデータ構成体を含むトレーニングデータセット（例えば
、単一時点トレーニングデータ）を、電子フォームで取得することを含むことができる。
訓練対象の第１のコホートは、少なくとも５、１０、１００、１０～２５０００の間、又
は１００未満の訓練対象を含むことができる。

【0130】

第１の複数のゲノムデータ構成体は、訓練対象の第１のコホート中の各それぞれの訓練
対象について、それぞれの訓練対象から得られた対応する生体サンプル中の対応する複数
の核酸フラグメントの複数のゲノム特性についての値（例えば、核酸フラグメントシーク
エンスデータに対応する）を含むそれぞれのゲノムデータ構成体を含むことができる。そ
の後、本方法は、複数の補完的データ構成体（例えば、増強された単一時点トレーニング
データ）を生成するためにトレーニングデータセットを使用することを含むことができ、
複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、第１の
複数のゲノムデータ構成体（例えば、単一時点トレーニングデータ）から少なくともそれ
ぞれのゲノムデータ構成体に対応する（そこからサンプリングされる）。

【0131】

複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、複数
のゲノム特性中の各それぞれの遺伝子型特性に対して、第１の複数のゲノムデータ構成体
から少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する
核酸フラグメントの確率的サンプリングに由来する増強値（例えば。増強されたゲノムコ
ピー数特性、増強されたバリアントアレル特性、増強されたアレル比特性、及び増強され
たゲノムメチル化特性などのうちの１つ以上）を含むことができる。一例では、補完的遺
伝子型データ構成体は、第１のコホート中の訓練対象のゲノムデータ構成体から、訓練対
象中の各核酸フラグメントシークエンスのランダムサンプリングによって形成される。す
なわち、第１のコホート中の訓練対象中の各核酸フラグメントシークエンスは、確率論的
ベースで対応する補完的ゲノムデータ構成体に受け入れることができる。このようにして
、補完的ゲノムデータ構成体は、第１のコホート中の訓練対象から確率論的ベースで対応
する補完的ゲノムデータ構成体に受け入れられた核酸フラグメントシークエンスの同一性
及び特性（例えば、ゲノムコピー数特性、変異アレル特性、対立遺伝子比特性、及びゲノ
ムメチル化特性などの１以上）に基づいて、複数のゲノム特性中の各それぞれのゲノム特
性についての増強値を獲得することができる。

【0132】

複数のゲノム特性は、少なくとも１００、５００、１０００、５０００、１０，０００
、５０，０００、１００，０００、又はそれ以上の遺伝子型特性を含むことができる。複
数のゲノム特性は、単一のタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリア
ントアレル特性、対立遺伝子比特性、及びゲノムメチル化特性のうちの１つを含むことが
できる。いくつかの実施態様において、複数の遺伝子型特性は、少なくとも２つのタイプ
の遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、アリル比特性、
及びゲノムメチル化特性のうちの２つ以上を含む。複数の遺伝子型特性は、少なくとも３
つのタイプの遺伝子型特性、例えば、ゲノムコピー数特性、バリアントアレル特性、アリ
ル比特性、及びゲノムメチル化特性のうちの３種類以上を含むことができる。対応する複
数の核酸フラグメントの複数のゲノム特性の値は、複数のゲノム領域に対して対応する生
体サンプル中の核酸を濃縮するための複数の核酸プローブを使用した全ゲノムシークエン
シング、全ゲノムメチル化シークエンシング、標的シークエンシング（例えば、標的ＤＮ
Ａメチル化シークエンシング）によって得ることができる。

【0133】

１つ以上の単一時間点トレーニングデータセットをサンプリングして、対応する補完的
データ構成体を形成することができる。この状況では、２つ以上の単一時点トレーニング
データセットからの核酸フラグメントシークエンスをランダムにサンプリングして、単一
時点トレーニングデータセットで表される核酸フラグメントシークエンスと同量、又はそ
れより少ない核酸フラグメントシークエンスの代表的な補完的データ構成体を生成するこ
とができる。いくつかの実施態様では、少なくとも２つの単一時点トレーニングデータセ
ットが一緒にサンプリングされる。他の実施態様では、少なくとも３、４、５、６、７、
８、９、１０、２５、５０、１００、５００、１０００、又はそれ以上の単一時点トレー
ニングデータセットが一緒にサンプリングされて、単一の補完的データ構成体を形成する
。

【0134】

いくつかの実施態様において、第１の複数のゲノムデータ構成体は、第２の時間におい
て訓練対象から得られた第２の生体サンプルに基づく、訓練対象の第１のコホート中の１
つ以上の訓練対象についての少なくとも１つの第２のゲノムデータ構成体を含む。すなわ
ち、この訓練対象に対して、第１の時間において訓練対象から得られた第１の生体サンプ
ルを使用して得られた第１のゲノムデータ構成体と、第２の時間において訓練対象から得
られた第２の生体サンプルを使用して得られた第２のゲノムデータ構成体とが存在し得る
。例えば、第２のサンプルは、第１のサンプルの数日後、数週間後、数ヶ月後、又は数年
後に取得される場合がある。このような状況では、経時的に対象から取得された生体サン
プルを使用して訓練対象から得られる１つより多い遺伝子型データ構成体が存在し得、対
象が経時的に所与のがんの後期ステージに進行している場合、データを増強する独自の機
会が提供される。そのような実施態様では、増強された遺伝子型データ構成体を構築する
ために、対象から第１の時間において取得された第１のゲノムデータ構成体中の各核酸フ
ラグメントを第１の確率を使用してランダムにサンプリングし、対象から第２の時間にお
いて取得された第２の遺伝子型データ構成体中の各核酸フラグメントを第２の確率を使用
してランダムにサンプリングすることによって、増強された遺伝子型データ構成体を構築
することができる。さらに、増強されたゲノムデータ構成体と第１のゲノム構成物との間
の距離、及び増強されたゲノムデータ構成体と第２のゲノム構成体との間の距離を制御す
るように、第１の確率及び第２の確率を選択することができる。例えば、第２のゲノム構
成体よりも第１のゲノム構成体に近い（遺伝子型特性の点で）増強されたゲノム型データ
構成体を得るために、第１のゲノム構成体の核酸フラグメントシークエンスの各々は、第
２のゲノム構成体の核酸フラグメントシークエンスの各々が増強されたゲノムデータ構成
体に含めるためにサンプルされる確率よりも高い確率を使用してサンプルすることができ
る。

【0135】

本方法は、１つ以上のトレーニングデータ構成体と対になったとき、疾患状態（例えば
、がん）の進行又は退行のための生物学的シグネチャの代表的な時系列データを形成する
複数の補完的データ構成体（例えば、増強された時系列訓練構成物）を生成することがで
きる。時系列データは、異なる疾患状態をより良く判別するための分類器を訓練するため
に、例えば、対象ががん又は心血管疾患などのような疾患を有するかを判定するために、
疾患のタイプ（例えば、がんタイプ、がんの発生元）を判定するために、疾患のステージ
（例えば、がんのステージ）を判定するために、疾患の予後（（例えば、治療を伴う及び
／又は治療を伴わないがんの予後）を判定するためになどで、有用となりうる。

【0136】

時系列データを生成するために、本方法は、訓練対象の第１のコホートに対する第１の
複数のゲノムデータ構成体を含む第１のトレーニングデータセット（例えば、時系列トレ
ーニングデータ）を、電子フォーマットで取得することを含むことができる。第１の複数
のゲノムデータ構成体は、訓練対象の第１のコホート中の各それぞれの訓練対象について
、（ｉ）それぞれの第１の時点においてそれぞれの訓練対象から得られた対応する第１の
生体サンプル（例えば、核酸フラグメントシークエンスデータに対応する）中の対応する
第１の複数の核酸フラグメントの複数のゲノム特性についての値を備えるそれぞれの第１
のゲノムデータ構成体を含むことができる。それぞれの訓練対象は、それぞれの第１の時
点における疾患状況の第１の状態（例えば、がん又は心血管疾患などのような疾患が存在
しない）を有することができ、（ｉｉ）１つ以上のスパイクイン対象のコホートに対する
１つ以上のスパイクインゲノムデータ構成体のセットである。１つ以上のスパイクインゲ
ノムデータ構成体のセットは、それぞれのスパイクイン対象から得られた対応する生体サ
ンプル中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれ
ぞれのスパイクイン遺伝子型データ構成体を含むことができ、対応する生体サンプルがそ
れぞれのスパイクイン対象から得られたときに、それぞれのスパイクイン対象が疾患状況
の第２の状態を有する（例えば、疾患状態を有する、例えば、がんを有する）。疾患状況
の第１の状態及び疾患状況の第２の状態は、疾患状況の進行によって関連付けることがで
きる。例えば、訓練対象が疾患（例えば、がん又は心血管疾患）を有していない、又は疾
患の初期ステージ（例えば、ステージ０又はステージ１のがん）を有し、かつスパイクイ
ン対象から得られたサンプルが、それらが疾患状態の進行を受けた後、後の時点で訓練対
象からのサンプルとして扱うことができるように、スパイクイン対象は疾患を有する、及
び／又は疾患の進行ステージを有する。

【0137】

その後、本方法は、第１のトレーニングデータセットを使用して、それぞれの第２の時
点におけるそれぞれの訓練対象の代表となる複数のゲノム特性についての値を含むそれぞ
れの第１の増強されたゲノムデータ構成体（例えば、増強された時系列データ）を生成す
ることを含むことができる。それぞれの第１の増強されたゲノムデータ構成体は、対応す
るゲノムデータ構成体の第１の対に対応することができる。ゲノムデータ構成体の第１の
対は、（ｉ）それぞれの訓練対象に対するそれぞれの第２のゲノムデータ構成体と、（ｉ
ｉ）１つ以上のスパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクイ
ンゲノムデータ構成体と、を含むことができる。それぞれの第１の増強されたゲノムデー
タ構成体は、対応する遺伝子型データ構成体の第１の対の各ゲノムデータ構成体中のそれ
ぞれのゲノム特性の値に寄与する核酸フラグメントの第１の確率サンプリングに由来する
増強値を含むことができる。本方法は、それによって、訓練対象の第１のコホート中のそ
れぞれの訓練対象に対して、それぞれの第１のゲノムデータ構成体及びそれぞれの第１の
増強されたゲノムデータ構成体を含むそれぞれの時系列データセットを生成することがで
きる。ゲノム特性及び疾患状況の詳細は、本明細書の他の箇所に記載されている。

【0138】

訓練対象の第１のコホート中の少なくとも１つのそれぞれの訓練対象について、それぞ
れの訓練対象は、それぞれの第１の時点においてがんに罹患していない場合がある。遺伝
子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成体は、対応する生
体サンプルがそれぞれのスパイクイン対象から得られたとき、少なくともステージ２のが
んに罹患している対応するスパイクイン対象から得られてもよい。

【0139】

それぞれの第１の遺伝子型データ構成体及びそれぞれの第１の増強された遺伝子型デー
タ構成体を含むそれぞれの時系列データセットは、訓練対象の第１のコホート中の各それ
ぞれの訓練対象に対して生成することができる。したがって、それぞれの第１の増強され
たゲノムデータ構成体は、ゲノムデータ構成体の対応する第１の対に対応することができ
る。ゲノムデータ構成体の第１の対は、（ｉ）それぞれの訓練対象についてのそれぞれの
第２のゲノムデータ構成体、及び（ｉｉ）１つ以上のスパイクインゲノムデータ構成体の
セットからのそれぞれのスパイクインゲノムデータ構成体を備えることができる。

【0140】

スパイクイン対象は、例えば、訓練対象及びスパイクイン対象からのサンプルが同時に
収集される場合、又は訓練対象が疾患状態を絶対に発症しない場合など、訓練対象とは異
なる対象であり得る。このような場合、スパイクインサンプルからの疾患信号を、訓練対
象から得られた第１のサンプルと直接混合して、訓練対象の第２の時点に対応するデータ
構成体を形成することができる。したがって、訓練対象の第１のコホート中の少なくとも
１つのそれぞれの訓練対象に対して、それぞれの第２のゲノムデータ構成体は、それぞれ
の第１のゲノムデータ構成体とすることができる。しかしながら、第２のサンプルもまた
訓練対象から得ることができ、かつ例えば、訓練対象がその後疾患を発症しない、又は疾
患の実質的な進行を体験しない場合、第２の時点に対応するデータ構成体のバックグラウ
ンドとして使用することができる。スパイクインサンプルからの疾患信号は、訓練対象か
らの第２のサンプルからのバックグラウンドと混合して、訓練対象についての第２の時点
に対応するデータ構成体を形成することができる。したがって、訓練対象の第１のコホー
ト中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第２のゲノムデータ構
成体は、第２の時点においてそれぞれの訓練対象から得られた対応する第２の生体サンプ
ル中の対応する第２の複数の核酸フラグメント中の複数のゲノム特性についての値を含む
ことができる。遺伝子型データ構成体の対応する対中のそれぞれのスパイクイン遺伝子型
データ構成体に対応するスパイクイン対象は、例えば、疾患の進行以外の要因に紐づく変
動を説明するために、共有される個人的特徴に基づいてそれぞれの訓練対象にマッチさせ
ることができる。

【0141】

一例では、デバイス１００は、１つ以上の訓練構成体（例えば、５２０）から核酸フラ
グメントシークエンスデータをランダムにサンプリングし（５３０）、かつ１つ以上のス
パイクインサンプル（例えば、５２２）は、核酸フラグメントシークエンスのサブセット
（例えば、増強核酸フラグメントシークエンスデータ１５２－ｎ）を選択して、補完的デ
ータ構成体（５５０）を構築するために使用される。混合は、スパイクインサンプルから
の生体疾患信号をトレーニングデータ構成体からのバックグラウンドで希釈し、訓練対象
が疾患状態の進行を経験した後の第２の時間における訓練対象の代表となるデータ構成体
を生成することと考えることができる。１つ以上の訓練構成体からの核酸フラグメントシ
ークエンスデータは、第１の確率で単純ランダムサンプリングを使用してサンプリングす
ることができ、１つ以上のスパイクインサンプルからの核酸フラグメントシークエンスデ
ータは、第２の確率で単純ランダムサンプリングを使用してサンプリングすることができ
、ここで第１の確率は同じ又は異なっている。いくつかの実施態様では、第１の確率及び
第２の確率は同じである。第１の確率は、最低で５％、１０％、１５％、２０％、３０％
、４０％、５０％、６０％、７０％、８０％、９０％、及びそれ以上とすることができる
。第１の確率は、最大で９０％、８０％、７０％、６０％、５０％、４０％、３０％、２
０％、１０％、又はそれ以下とすることができる。第２の確率は、最低で５％、１０％、
１５％、２０％、３０％、４０％、５０％、６０％、７０％、８０％、９０％及びそれ以
上とすることができる。第２の確率は、最大で９０％、８０％、７０％、６０％、５０％
、４０％、３０％、２０％、１０％又はそれ以下とすることができる。第１の確率は、第
２の確率と同じである、又は異なることができる。

【0142】

追加の増強された時点はまた、例えば、スパイクインサンプルからの生体信号の異なる
量をトレーニングサンプルからの生体信号と混合することによって、若しくは疾患の進行
又は退行の時間経過を表す一連のスパイクインサンプルからの生体信号を混合することに
よって生成することができる。いくつかの実施態様において、時系列データは、少なくと
も３つの時点、又は少なくとも４、５、６、７、８、９、１０、若しくはそれ以上の時点
を含む。

【0143】

トレーニングサンプルとスパイクインサンプルとの間の生体信号の混合は、疾患進行の
モデルによって通知することができる。例えば、がんの進行モデルは、がんの所与の進行
を再現するために、各時点においてどの程度の追加のがん信号（例えば、スパイクインサ
ンプルによって提供される）をトレーニングサンプルに加えることができるかを決定する
ために使用される。したがって、確率サンプリングは、第１のそれぞれのゲノム構成体中
の複数のゲノム特性についての値に寄与する複数の核酸フラグメントのそれぞれの第１の
部分と、それぞれのスパイクインゲノムデータ構成体中の複数のゲノム特性についての値
に寄与する複数の核酸フラグメントのそれぞれの第２の部分と、を選択することができる
。核酸フラグメントのそれぞれの第１の部分及び核酸フラグメントのそれぞれの第２の部
分の大きさは、少なくとも（ｉ）第１の時点と第２の時点との間の時間の長さと、（ｉｉ
）疾患状況の第１の状態からの疾患状況の第２の状態の進展に関する時間的モデルと、に
基づいて決定することができる。

【0144】

疾患の進行又は退行のモデリングは、対象の１つ以上の個人的特性を考慮することがで
きる。例えば、肺がんは、喫煙する対象は、喫煙しない対象よりも速く進行し得る。した
がって、疾患状況の第１の状態からの疾患状況の第２の状態の進展に対する時間的モデル
は、それぞれの対象の個人的特徴、例えば、性別、年齢、家族病歴、個人病歴、民族性、
喫煙状況、飲酒状況、疑似データ等のうちの１つ以上に少なくとも基づいている。疾患の
進行又は退行のモデリングは、疾患の特定の形態、例えば、がんに特有であることができ
る。例えば、疾患状況はがんであり、かつ、がんの第１の状態からのがんの第２の状態の
進展に対する時間的モデルは、少なくともがんのタイプに基づく。別の例では、疾患状況
はがんとすることができ、がんの第１の状態からのがんの第２の状態の進展に対する時間
的モデルは、がんが転移性であるか非転移性であるかに少なくとも基づくことができる。
また別の例では、疾患状況はがんであり、がんの第１の状態からがんの第２の状態の進展
に対する時間的モデルは、ステージに分けられる。

【0145】

いくつかの実施態様において、各核酸フラグメントシークエンスは、補完的データ構成
体に含めるために確率論的ベースでサンプリングすることができる。各核酸フラグメント
シークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリングする
ことができ、ここで、含められる確率は、各核酸フラグメントシークエンスに対して同じ
（例えば、５％～９５％の間、５％、１０％、１５％、２０％、２５％、３０％、３５％
、４０％、４５％、５０％、５５％、６０％、６５％、７０％、７５％、８０％、８５％
、９０％）である。ランダムサンプリングのいくつかの実施態様において、各核酸フラグ
メントシークエンスは、補完的データ構成体に含めるために確率論的ベースでサンプリン
グすることができ、ここで、含まれる確率は、核酸フラグメントシークエンスに対応する
複数のビン中のどのビンかに依存し、複数のビンの各ビンは、参照ゲノムの異なる部分を
表わす。実際に使用される確率値は、アプリケーションに依存し得る（例えば、訓練され
た分類器の検出限界に基づく）。一例では、分類器の検出限界は、腫瘍分画のメトリック
によって測定することができ、開示されたシステム及び方法を使用して、分類器の検出限
界における腫瘍分画を表す増強されたデータセットを生成することができる。

【0146】

疾患状況は、がんとすることができる。例えば、がんの第１の状態は、がんの存在であ
り、がんの第２の状態は、がんの非存在である。この状況では、分類器を、がんを有する
患者の第１のコホートからの特徴、がんを有しない患者の第２のコホートからの特徴、及
び、例えば、第１のコホートのものよりも一般的に弱いがん信号を有する、増強されたデ
ータ構成体のセットからの模擬の特徴に対して訓練することができる。がんの第１の状態
は、第１のタイプのがんとすることができ、がんの第２の状態は、がんの第２のタイプと
することができる。この状況では、分類器を、第１のタイプのがんを有する患者の第１の
コホートからの特徴、第２のタイプのがんを有する患者の第２のコホートからの特徴、及
び、例えば、第１のコホート及び／又は第２のコホートのものよりも一般的に弱い第１の
タイプ及び／又はがんの第２のタイプのがん信号を有する増強されたデータ構成体のセッ
トからの模擬の特徴に対して訓練することができる。がんの第１の状態は、指定されたが
んの第１のステージとすることができ、がんの第２の状態は、指定されたがんの第２のス
テージとすることができる。この状況では、分類器を、同じ又は異なるタイプのがんの異
なるステージ間、例えば、ステージ０、ステージ１、ステージ２、ステージ３、及びステ
ージ４のがんの２つ以上の間を区別するように訓練することができる。がんの第１の状態
は、がんの第１の予後とすることができ、がんの第２の状態は、がんの第２の予後とする
ことができる。この状況では、分類器を、治療なしの異なる生命予後、治療を伴う異なる
生命予後、異なる予想寛解率、及び／又は特定の治療に対する異なる予想応答を区別する
ように訓練することができる。

【0147】

いくつかの実施態様において、疾患状況は、心血管疾患である。心血管疾患の第１の状
態は、心血管疾患の存在であることができ、心血管疾患の第２の状態は、心血管疾患の非
存在であることができる。この状況では、分類器を、心血管疾患を有する患者の第１のコ
ホートからの特徴、心血管疾患を有しない患者の第２のコホートからの特徴、及び、例え
ば、第１のコホートのものよりも一般的に弱い心血管疾患信号を有する増強されたデータ
構成体のセットからの模擬の特徴に対して訓練することができる。心血管疾患の第１の状
態は、心血管疾患に対する第１の予後とすることができ、心血管疾患の第２の状態は、心
血管疾患に対する第２の予後とすることができる。この状況では、分類器を、治療なしの
異なる生命予後、治療を伴う異なる生命予後、異なる予想寛解率、及び／又は特定の治療
に対する異なる予想応答を区別するように訓練することができる。

【0148】

いくつかの実施態様において、第２のコホート５２２中の１つ以上のデータ構成体から
の生物学的データは、ランダムにサンプリングし、かつ第１のデータ構成体からのランダ
ムにサンプリングしたデータと混合して、第１のコホート中の１人以上の対象から確率的
にサンプリングした核酸フラグメントと第２のコホート中の１人以上の対象から確率的に
サンプリングした核酸フラグメントの組み合わせから補完的データ構成体を形成すること
もできる。第２のコホート５２２中の単一のデータ構成体からの生物学的データをランダ
ムにサンプリングし、かつ第１のデータ構成体からのランダムにサンプリングしたデータ
と混合して、第１のコホート中の単一の対象から確率的にサンプリングした核酸フラグメ
ントと第２のコホートにおける単一の対象から確率的にサンプリングした核酸フラグメン
トとの組み合わせから補完的データ構成体を形成することもできる。第１のデータ構成体
が特定の疾患状態を有する（例えば、がんを有する又は心血管疾患を有する）対象に対応
し、第２のデータ構成体が特定の疾患状態を有しない（例えば、がんを有しない又は心血
管疾患を有しない）対象に対応するとき、混合は、第１のデータ構成体からの生体疾患信
号を第２のデータ構成体からのバックグラウンドで希釈すると考えることができる。した
がって、トレーニングデータセットは、疾患状況の第１の状態とは異なる疾患状況の第２
の状態を有する訓練対象の第２のコホートに対する第２の複数のゲノムデータ構成体を更
に含むことができる。第２の複数のゲノムデータ構成体は、それぞれの訓練対象から得ら
れた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性につ
いての値を含むそれぞれの遺伝子型データ構成体を含むことができる。サンプリングされ
たデータは、第１のデータ構成体から希釈されなくてもよい。サンプリングされたデータ
がバックグラウンド信号と混合されていない増強されたデータ構成体を用いて分類器を訓
練すると、モデルがバックグラウンド信号と混合された同じサンプリングされた信号を使
用して訓練されるときよりも優れた分類器を生成することができる。

【0149】

データをランダムにサンプリングする方法は、単純ランダムサンプリング、層別ランダ
ムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリング、及
び多段ランダムサンプリングを含むことができる。単純ランダムサンプリングは、グルー
プ内の各項目（ここでは、１つ以上のトレーニングコホート中の対象、又は複数の対象中
の各核酸フラグメントシークエンス）が同じ確率で選択されることを含んでもよい。例え
ば、核酸フラグメントシークエンスのセットの単純ランダムサンプリングは、セット中の
各核酸フラグメントシークエンスが、増強された核酸フラグメントシークエンスのセット
に選択される機会を有することを規定する。層別サンプリング又はクラスターサンプリン
グと、単純なランダムサンプリングとの組み合わせを採用することができる。様々な考慮
事項が、任意の特定のサンプリングイベントに使用される選択確率を規定してもよい。こ
れらの考慮事項は、開始データ構成体中の疾患信号の量（例えば、がん患者に対応するデ
ータ構成体の腫瘍分画及び／又は変異負担）、補完的データ構成体中の望まれる疾患信号
の量、及び他の訓練データ構成体中の疾患信号の量を含むことができるが、これらに限定
されない。

【0150】

確率サンプリングは、複数のゲノム特性の値に寄与する複数の核酸フラグメントの所定
の部分の重みランダムサンプリングを含むことができ、ここで、対応ゲノム特性の値に寄
与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子型特性の値に寄与す
る核酸フラグメントの総数に対する対応ゲノム特性に寄与する核酸フラグメントの存在量
に比例している。確率サンプリングは、第１の複数のゲノムデータ構成体から、それぞれ
のデータ構成体中の複数のゲノム特性についての値に寄与する複数の核酸フラグメントの
それぞれの部分を選択することができる。核酸フラグメントのそれぞれの部分の大きさは
、他の補完的データ構成体に対して選択された核酸フラグメントのそれぞれの部分の大き
さとは独立して決定することができる。異なるトレーニングデータセットをサンプリング
するために使用される方法論は、例えば、各データ構成体中の疾患信号の量などのような
要因を考慮するために、独立して選択することができる。核酸フラグメントのそれぞれの
部分の大きさは、それぞれの補完的データ構成体が、探索的分類器が遺伝子型データ構成
体によって表される有益な核酸フラグメント分率の変化に対する閾値感度を満たす有益な
核酸フラグメント分率の範囲内に入るように模擬核酸フラグメント割合を表すように選択
でき、探索的分類器は、複数の遺伝子型特徴に基づいた疾患状況の状態を判別するために
訓練される。補完的データ構成体は、その疾患信号（例えば、がん患者の場合の腫瘍分画
）が、分類器に対して予測された検出レベル（ＬＯＤ）周辺の範囲内に入るように形成す
ることができる。

【0151】

有益な核酸フラグメント分率（例えば、腫瘍分画）の範囲は、複数の増強された探索ゲ
ノムデータ構成体を生成するためにトレーニングデータセットを使用することによって決
定することができる。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強さ
れた探索ゲノムデータ構成体は、第１の複数のゲノムデータ構成体からの少なくともそれ
ぞれのゲノムデータ構成体に対応することができる。複数の増強された探索ゲノムデータ
構成体中の各それぞれの増強された探索ゲノムデータ構成体は、第１の複数のゲノムデー
タ構成体からの少なくともそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の
値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含むことができ
る。複数の増強された探索ゲノムデータ構成体中の各それぞれの増強された探索ゲノムデ
ータ構成体は、第１の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体に
よって表される有益な核酸フラグメント分率に基づく、模擬の有益な核酸フラグメント分
率を表すことができる。複数の増強された探索ゲノムデータ構成体によって表される模擬
の有益な核酸フラグメントの分布は、探索分類器に対する検出レベルを下回る第１の有益
な核酸フラグメントから探索分類器に対する検出レベルを上回る第２の有益な核酸フラグ
メントにまたがることができる。模擬の有益な核酸フラグメント画分の分布は、検出レベ
ルの約１％上から約１％下、検出レベルの約２％上から約２％下、検出レベルの約５％上
から約５％下、検出レベルの約１０％上から約１０％下、検出レベルの約１５％上から約
１５％下、又は検出レベルの約２０％上から約２０％下にまたがることができる。

【0152】

有益な核酸フラグメント分率の範囲は、単一時点の訓練データの全て又はサブセットを
使用して、例えば究極の分類器と同じタイプの予備的分類器を訓練することによって決定
することができる。その後、複数の増強された探索的遺伝子型データ構成体を探索分類器
に適用して、複数の模擬疾患状況確率を生成することができる。探索分類器は、少なくと
も（１）それぞれの探索対象から得られた対応する生体サンプル中の対応する複数の核酸
フラグメントの複数のゲノム特性についての値を含むそれぞれのゲノムデータ構成体を含
む、第１の複数の探索ゲノムデータ構成体、（２）それぞれの探索対象から得られた対応
する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性に対する値を
含むそれぞれのゲノムデータ構成体を含む、第２の複数の探索データ構成体、及び（３）
第１及び第２の複数の探索ゲノムデータ構成体中のそれぞれのゲノムデータ構成体に対す
る、疾患状況の状態の指標、を使用して、疾患状況の状態を判別するように訓練すること
ができる。有益な核酸フラグメント分率の範囲は、模擬疾患状況確率が、それぞれの増強
された探索ゲノムデータ構成体によって表される有益な核酸フラグメント分率の変化に対
して最も敏感である範囲を同定することができる。

【0153】

複数の電子シークエンスからゲノム特徴／特性を抽出する方法は、例えば、米国特許出
願広報第２０１９／０２８７６５２号にて見つけられ得、その内容は、あらゆる目的のた
めに参照により本明細書に組み込まれ、複数のゲノム位置のメチル化状態を決定する方法
が記載されている。同様に、米国特許出願第２０１９／０２８７６４９号は、その内容が
、あらゆる目的のために参照により本明細書に組み込まれ、複数のゲノム位置の相対コピ
ー数を決定するための方法が記載されている。

【0154】

ゲノム特性は、複数の相対的なコピー数（例えば、ビンリードカウント）を含むことが
でき、複数の相対コピー数中のそれぞれの相対コピー数は、複数の遺伝子位置中の異なる
遺伝子位置に対応する。相対コピー数は、複数のゲノム領域からのシークエンスリードの
相対的な存在量を表すことができる。ゲノム領域は、同じサイズ又は異なるサイズを有す
ることができる。ゲノム領域は、領域内部の核酸残基の数、又はその位置と領域内の核酸
残基の数によって定義することができる。例えば、ゲノム領域は、１０ｋｂ以下、２０ｋ
ｂ以下、３０ｋｂ以下、４０ｋｂ以下、５０ｋｂ以下、６０ｋｂ以下、７０ｋｂ以下、８
０ｋｂ以下、９０ｋｂ以下、１００ｋｂ以下、１１０ｋｂ以下、１２０ｋｂ以下、１３０
ｋｂ以下、１４０ｋｂ以下、１５０ｋｂ以下、１６０ｋｂ以下、１７０ｋｂ以下、１８０
ｋｂ以下、１９０ｋｂ以下、ｘ２００ｋｂ以下、又は２５０ｋｂ以下を含むことができる
。ゲノム領域は、対象の種の参照ゲノムを複数のセグメント（すなわち、ゲノム領域）に
分割することによって定義することができる。例えば、参照ゲノムは、１，０００個の領
域、２，０００個の領域、４，０００個の領域、６，０００個の領域、８，０００個の領
域、１０，０００個の領域、１２，０００個の領域、１４，０００個の領域、１６，００
０個の領域、１８，０００個の領域、２０，０００個の領域、２２，０００個の領域、２
４，０００個の領域、２６，０００個の領域、２８，０００個の領域、３０，０００個の
領域、３２，０００個の領域、３４，０００個の領域、３６，０００個の領域、３８，０
００個の領域、４０，０００個の領域、４２，０００個の領域、４４，０００個の領域、
４６，０００個の領域、４８，０００個の領域、５０，０００個の領域、５５，０００個
の領域、６０，０００個の領域、６５，０００個の領域、７０，０００個の領域、８０，
０００個の領域、９０，０００個の領域、又は最大１００，０００個の領域まで分割され
る。対象のシークエンスリードは、例えば、その内容が参照により本明細書に組み込まれ
る米国特許出願第２０１９／０２８７６４９号に記載されているように、対象の全ての染
色体領域にわたる平均読み取りカウントに対して正規化することができる。コピー数デー
タは、例えば、潜在的な交絡因子によって引き起こされるシークエンシングデータの分散
を低減又は排除するために、更に正規化することができる。正規化は、サンプル内の中心
傾向の指標を中心とすること、参照サンプル又はコホートからのデータを中心とすること
、ＧＣ含量についての正規化、及び主成分分析（ＰＣＡ）補正のうちの１つ以上を伴うこ
とができる。追加的又は代替的に、正規化は、米国特許出願第２０１９／０２８７６４９
号に記載されているように、Ｂスコア処理を含んでもよい。

【0155】

複数のゲノム特性は、複数のメチル化状態（例えば、領域メチル化状態）を含むことが
でき、複数のメチル化状態中の各メチル化状態は、複数の遺伝子位置のうちの異なる遺伝
子位置に対応する。いくつかの実施態様において、各メチル化状態は、例えば、参照によ
りその全体が本明細書に組み込まれる米国特許出願第２０１９／０２８７６５２号に記載
されるようなメチル化状態ベクトルによって表される。複数のメチル化状態は、複数のプ
ローブを使用する標的ＤＮＡメチル化シークエンシングによって得ることができる。複数
のプローブは、ヒトゲノム内の少なくとも１００の遺伝子座にハイブリダイズすることが
できる。他の実施態様では、複数のプローブは、ヒトゲノム内の少なくとも２５０、５０
０、７５０、１０００、２５００、５０００、１０，０００、２５，０００、５０，００
０、１００，０００、又はそれ以上の遺伝子座にハイブリダイズする。疾患状況（例えば
、がん）を分類するための有益なメチル化遺伝子座を同定する方法は、例えば、米国特許
出願公開番号２０１９／０２８７６４９に記載されている。メチル化データは、例えば、
潜在的な交絡因子によって引き起こされるシークエンシングデータの分散を低減又は排除
するために、正規化することができる。いくつかの実施態様において、正規化は、サンプ
ル内の中心傾向の指標を中心とすること、参照サンプル又はコホートからのデータを中心
とすること、ＧＣ含量についての正規化、及び主成分分析（ＰＣＡ）補正のうちの１つ以
上を伴うことができる。メチル化データの正規化に関するさらなる説明は、例えば、米国
特許出願第２０１９／０２８７６５２号及び米国特許出願第２０１９／０２８７６４９号
に含まれており、これら両出願の開示は、参照により本明細書に組み込まれる。

【0156】

ゲノムデータ構成体（例えば、訓練、増強、及び／又はテスト遺伝子型データ構成体）
中の複数のゲノム特性は、第１の複数のビン値（例えば、領域メチル化状態）を含むこと
ができる。第１の複数のビン値中の各それぞれのビン値は、複数のビン中の対応するビン
を表すことができる。第１の複数のビン値中の各それぞれのビン値は、複数のビン中の対
応するビンにマッピングされる核酸フラグメントシークエンスの対応するセット（例えば
、トレーニングセット、増強セット、又はテストセット）から特定される所定のメチル化
パターンを有する固有の核酸フラグメントの数の代表とすることができる。複数のビン中
の各ビンは、対象の種の参照ゲノムの非重複領域を表すことができる。

【0157】

ＩＩＩ．Ｃ．がん分類器の訓練

【0158】

図６Ａは、一実施態様による、がん分類器を訓練するプロセス６００を説明するフロー
チャートである。分析システムは、異常なフラグメントのセット及びがんタイプのラベル
を各々有する複数のトレーニングサンプルを取得する（５１０）。複数のトレーニングサ
ンプルは、「非がん」の一般的なラベルを有する健康な個人からのサンプル、「がん」の
一般的なラベル又は特定のラベル（例えば、「乳がん」、「肺がん」等）を有する対象か
らのサンプルの任意の組合せを含むことができる。あるがんタイプの対象からのトレーニ
ングサンプルは、そのがんタイプに対するコホート又はがんタイプコホートと称されても
よい。

【0159】

分析システムは、各トレーニングサンプルに対して、トレーニングサンプルの異常なフ
ラグメントのセットに基づく特徴ベクトルを決定する（５２０）。分析システムは、Ｃｐ
Ｇ部位の初期セット中の各ＣｐＧ部位について異常スコアを計算することができる。Ｃｐ
Ｇ部位の初期セットは、ヒトゲノム内の全てのＣｐＧ部位又はその一部であってよく、１
０^４、１０^５、１０^６、１０^７、１０^８等のオーダーであってよい。一実施態様において
、分析システムは、ＣｐＧ部位をくみこむ異常なフラグメントのセット中の異常なフラグ
メントが存在するかに基づいて、バイナリスコアで特徴ベクトルに対する異常スコアを定
義する。別の実施態様では、分析システムは、ＣｐＧ部位に重なる異常なフラグメントの
カウントに基づいて異常スコアを定義する。一例では、分析システムは、異常なフラグメ
ントの存在の欠如に対して第１のスコア、少数の異常なフラグメントの存在に対して第２
のスコア、及び少数より多い異常なフラグメントの存在に対して第３のスコアを割り当て
る三元スコアリングを使用してもよい。例えば、分析システムは、ＣｐＧ部位と重なるサ
ンプル中の異常なフラグメントを５つカウントし、５つのカウントに基づいて異常スコア
を計算する。

【0160】

トレーニングサンプルについて全ての異常スコアが決定されると、分析システムは、各
要素に対して、初期セット中のＣｐＧ部位の１つに紐づく異常スコアの１つを含む要素の
ベクトルとして、特徴ベクトルを決定することができる。分析システムは、サンプルのカ
バレッジに基づいて、特徴ベクトルの異常スコアを正規化することができる。ここで、カ
バレッジは、分類器で使用されるＣｐＧ部位の初期セットによってカバーされる、又は所
与のトレーニングサンプルに対する異常なフラグメントのセットに基づく全てのＣｐＧ部
位にわたる中央値又は平均シークエンス深度を指すことができる。

【0161】

一例として、ここで、訓練特徴ベクトルのマトリクス６２２を示す図６Ｂを参照する。
この例では、分析システムは、がん分類器のための特徴ベクトルを生成する際に考慮すべ
きＣｐＧ部位［Ｋ］６２６を特定している。分析システムは、トレーニングサンプル［Ｎ
］６２４を選択する。分析システムは、トレーニングサンプル［ｎ１］に対する特徴ベク
トルで使用される第１の任意のＣｐＧ部位［ｋ１］に対して、第１の異常スコア６２８を
決定する。分析システムは、異常なフラグメントのセット中の各異常なフラグメントをチ
ェックする。分析システムが、第１のＣｐＧ部位を含む少なくとも１つの異常なフラグメ
ントを同定する場合、分析システムは、図６Ｂに図示されるように、第１のＣｐＧ部位に
対する第１の異常スコア６２８を１として決定する。第２の任意のＣｐＧ部位［ｋ２］を
考慮すると、分析システムは、第２のＣｐＧ部位［ｋ２］を含む少なくとも１つに対して
異常なフラグメントのセットを同様にチェックする。分析システムが、第２のＣｐＧ部位
を含むそのような異常なフラグメントを発見しない場合、分析システムは、図６Ｂに図示
されるように、第２のＣｐＧ部位［ｋ２］に対する第２の異常スコア６２９を０に決定す
る。分析システムがＣｐＧ部位の初期セットに対する全ての異常スコアを決定すると、分
析システムは、第１のＣｐＧ部位［ｋ１］に対する１の第１の異常スコア６２８及び第２
のＣｐＧ部位［ｋ２］に対する０の第２の異常スコア６２９とそれに続く異常スコアとを
含む特徴ベクトルを有する異常スコアを含む第１のトレーニングサンプル［ｎ１］に対す
る特徴ベクトルを決定し、このように特徴ベクトル［１，０，．．．］を形成する。

【0162】

サンプルの特徴付けに対する追加のアプローチは、「Model-Based Featurization and
Classification」と題する米国出願第１５／９３１，０２２号、「Mixture Model for Ta
rgeted Sequencing」と題する米国出願第１６／５７９，８０５号、「Anomalous Fragmen
t Detection and Classification」と題する米国出願第１６／３５２，６０２号、及び「
Source of Origin Deconvolution Based on Methylation Fragments in Cell-Free DNA S
amples」と題する米国出願第１６／７２３，７１６号に見つけられ得、これらは全て、参
照によりその全体が組み込まれるものとする。

【0163】

分析システムは、がん分類器の使用のために考慮されるＣｐＧ部位を更に制限してもよ
い。分析システムは、ＣｐＧ部位の初期セット中の各ＣｐＧ部位について、トレーニング
サンプルの特徴ベクトルに基づく情報利得を計算する（５３０）。ステップ５２０から、
各トレーニングサンプルは、ヒトゲノム内の全てのＣｐＧ部位まで含み得るＣｐＧ部位の
初期セット中の全てのＣｐＧ部位の異常スコアを包含する場合のある特徴ベクトルを有す
る。しかしながら、ＣｐＧ部位の初期セット中のいくつかのＣｐＧ部位は、がんタイプを
区別する上で他のＣｐＧ部位ほど有益でない場合があり、又は他のＣｐＧ部位と重複して
いる場合がある。

【0164】

一実施態様において、分析システムは、各がんタイプについて、情報利得を計算し（５
３０）、かつ初期セット中の各ＣｐＧ部位について、そのＣｐＧ部位を分類器に含めるか
を決定する。情報利得は、他の全てのサンプルと比較して、所与のがんタイプを有するト
レーニングサンプルについて計算される。例えば、２つのランダム変数「異常なフラグメ
ント」（「ＡＦ」）及び「がんタイプ」（「ＣＴ」）が使用される。一実施態様において
、ＡＦは、上記の異常スコア／特徴ベクトル対して決定されたように、所与のサンプル中
の所与のＣｐＧ部位に重なる異常なフラグメントが存在するか否かを示すバイナリ変数で
ある。ＣＴは、がんが特定のタイプであるかを示すランダム変数である。分析システムは
、ＡＦが与えられたＣＴに関する相互情報を計算する。すなわち、特定のＣｐＧ部位に重
なる異常なフラグメントがあるかわかる場合、がんタイプについての情報が何ビット得ら
れるかを計算する。実際には、第１のがんタイプについて、分析システムは、他の各がん
にタイプに対するペアワイズ相互情報利得を計算し、他のすべてのがんにタイプにわたる
相互情報利得の合計を計算する。

【0165】

所与のがんタイプについて、分析システムは、ＣｐＧ部位がどの程度がんに特異的であ
るかに基づいてＣｐＧ部位をランク付けするために、この情報を使用することができる。
この手順は、検討中であるすべてのがんタイプに対して繰り返すことができる。特定の領
域が、所与のがんのトレーニングサンプルでは一般的に異常にメチル化されているが、他
のがん型のトレーニングサンプル又は健康なトレーニングサンプルではそうでない場合、
それらの異常なフラグメントによって重なるＣｐＧ部位は、所与のがんタイプに対して高
い情報利得を有することができる。各がんタイプに対するランク付けされたＣｐＧ部位は
、がん分類器において使用するために、そのランクに基づいて選択されたＣｐＧ部位のセ
ットに積極的に追加（選択）することができる（５４０）。

【0166】

追加の実施態様において、分析システムは、がん分類器で使用するための有益なｐＧ部
位を選択するための他の選択基準を考慮してもよい。１つの選択基準は、選択されたＣｐ
Ｇ部位が他の選択されたＣｐＧ部位から閾値分離を超えるものであってもよい。例えば、
選択されたＣｐＧ部位は、閾値分離内にあるＣｐＧ部位は、がん分類器において考慮する
ために両方選択されないように、任意の他の選択されたＣｐＧ部位から閾値の塩基対の数
を超えて離れていること（例えば、１００塩基対）である。

【0167】

一実施態様において、初期セットからの選択されたＣｐＧ部位のセットに従って、分析
システムは、必要に応じて、トレーニングサンプルの特徴ベクトルを修正してもよい（５
５０）。例えば、分析システムは、選択されたＣｐＧ部位のセット中にないＣｐＧ部位に
対応する異常スコアを除去するために、特徴ベクトルを切り捨ててもよい。

【0168】

トレーニングサンプルの特徴ベクトルを用いて、分析システムは、多数の方法のいずれ
かでがん分類器を訓練してもよい。特徴ベクトルは、ステップ５２０からのＣｐＧ部位の
初期セット又はステップ５５０からの選択されたＣｐＧ部位のセットに対応してもよい。
一実施態様において、分析システムは、トレーニングサンプルの特徴ベクトルに基づいて
、がんと非がんとを区別するために、バイナリがん分類器を訓練する（５６０）。この態
様では、分析システムは、健康な個体からの非がんサンプルと対象からのがんサンプルの
両方を含むトレーニングサンプルを使用する。各トレーニングサンプルは、「がん」又は
「非がん」の２つのラベルのうちの１つを有することができる。この実施態様では、分類
器は、がんの存在又は非存在の可能性を示すがん予測を出力する。

【0169】

別の実施態様において、分析システムは、多くのがんタイプ（発生組織（ＴＯＯ）ラベ
ルとも呼ばれる）を区別するために、マルチクラスがん分類器を訓練する（４５０）。が
んタイプは、１つ以上のがんを含むことができ、かつ非がんタイプを含んでもよい（さら
に、任意の追加の他の疾患又は遺伝性疾患などもまた含んでもよい）。そのために、分析
システムは、がんタイプのコホートを使用することができ、かつ非がんタイプのコホート
を含んでもよく、又は含まなくてもよい。このマルチがんの実施態様では、がん分類器は
、分類されているがんタイプの各々に対する予測値を備えるがん予測（または、より具体
的には、ＴＯＯ予測）を決定するように訓練される。予測値は、所与のトレーニングサン
プル（及び推論中、テストサンプル）ががんタイプの各々を有する尤度に対応してもよい
。一実施態様において、予測値は０～１００の間でスコア化され、予測値の累積は１００
に等しい。例えば、がん分類器は、乳がん、肺がん、及び非がんに対する予測値を含むが
ん予測を返す。例えば、分類器は、テストサンプルが乳がんの可能性６５％、肺がんの可
能性２５％、及びがんでない可能性１０％であるというがん予測を返すことができる。分
析システムは、更に予測値を評価して、サンプルにおける１つ以上のがんの存在の予測を
生成してもよく、また、１つ以上のＴＯＯラベル、例えば、最も高い予測値を有する第１
のＴＯＯラベル、２番目に高い予測値を有する第２のＴＯＯラベルなどを示すＴＯＯ予測
として参照してもよい。上記の例を続け、パーセンテージが与えられると、この例では、
システムは、乳がんが最も高い尤度を有することを考慮して、サンプルが乳がんを有する
と決定してもよい。

【0170】

両方の実施態様において、分析システムは、トレーニングサンプルのセットとともにそ
の特徴ベクトルをがん分類器に入力し、かつ分類器の関数が訓練特徴ベクトルを対応する
ラベルに正確に関連付けるように分類パラメータを調整することによって、がん分類器を
訓練する。分析システムは、がん分類器の反復バッチ訓練のために、トレーニングサンプ
ルを１つ以上のトレーニングサンプルのセットにグループ化してもよい。それらの訓練特
徴ベクトルを含むトレーニングサンプルのすべてのセットを入力し、かつ分類パラメータ
を調整した後、がん分類器を、いくつかの誤差の余地内でそれらの特徴ベクトルに従って
テストサンプルをラベル付けするように十分に訓練してもよい。分析システムは、多数の
方法のうちのいずれか１つに従って、がん分類器を訓練することができる。一例として、
バイナリがん分類器は、対数損失関数を用いて訓練されるＬ２正則化ロジスティック回帰
分類器であってよい。別の例として、マルチがん分類器は、多項ロジスティック回帰であ
ってもよい。実際には、いずれのタイプのがん分類器も、他の技法を使用して訓練しても
よい。これらの技法は、カーネル法、ランダムフォレスト分類器、混合モデル、オートエ
ンコーダモデル、多層ニューラルネットワークなどのような機械学習アルゴリズムの潜在
的な使用を含む多数なものである。

【0171】

いくつかの実施態様において、補完的データ構成体は、（例えば、ランダムサンプリン
グによって補完的データ構成体要素が導出された元のコホートデータと併せて）２つ以上
の疾患状態を区別する分類器を訓練するために使用することができる。トレーニングデー
タセットは、疾患状況の第１の状態とは異なる疾患状況の第２の状態を有する訓練対象の
第２のコホートに対する第２の複数のゲノムデータ構成体を更に含むことができる。第２
の複数のゲノムデータ構成体は、それぞれの訓練対象から得られた対応する生体サンプル
中の対応する複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞれの
ゲノムデータ構成体を含むことができる。本方法は、少なくとも（ｉ）第１の複数のゲノ
ムデータ構成体、（ｉｉ）第２の複数のゲノムデータ構成体、（ｉｉｉ）複数の補完的ゲ
ノムデータ構成体、並びに（ｉｖ）第１の複数の遺伝子型データ構成体、第２の複数のゲ
ノムデータ構成体、及び複数の補完的ゲノムデータ構成体中の各それぞれのゲノムデータ
構成体に対する疾患状況の状態の指標、を使用して疾患状況の状態を判別する分類器を訓
練するステップを含むことができる。

【0172】

訓練は、訓練対象の第３のコホートに対する第３の複数の遺伝子型データ構成体を追加
で使用することができる。第３の複数のゲノムデータ構成体は、それぞれの訓練対象から
得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特
性についての値を含む、それぞれのゲノムデータ構成体を含むことができる。第３のコホ
ート中の各訓練対象は、疾患状況の第３の状態を有することができる。このような中で、
分類器は、疾患状況の第１、第２、及び第３の状態を区別するように訓練することができ
る。訓練は、それぞれの訓練対象の１つ以上の個人的特徴を追加で使用することができる
。例えば、性別、年齢、家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、擬人データ
等のうちの１つ以上が使用される。

【0173】

補完的ゲノムデータ構成体の１つ以上は、異なるコホート、例えば、疾患コホート及び
健康コホートからのデータ構成体からランダムにサンプリングされた生物学的特性（例え
ば、核酸フラグメントシークエンス）の混合物から形成することができる。複数の補完的
ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成体は、対応するゲノムデー
タ構成体の対に対応することができる。ゲノムデータ構成体の対は、（ｉ）第１の複数の
ゲノムデータ構成体からのそれぞれのゲノムデータ構成体（例えば、疾患対象に対応する
）、及び（ｉｉ）第２の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体
（例えば、健康な対象に対応する）を備えることができる。複数の補完的ゲノムデータ構
成体中のそれぞれの補完的ゲノムデータ構成体は、対応するゲノムデータ構成体の対の各
ゲノムデータ構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率サ
ンプリングに由来する増強値を含むことができる。

【0174】

複数の補完的ゲノムデータ構成体中の少なくとも１つのそれぞれの補完的ゲノムデータ
構成体に対して、第２の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体
は、それぞれの補完的ゲノムデータ構成体の複数の遺伝子型特性に対する増強値を導出す
る前に増強することができる。複数のゲノム特性中の各それぞれのゲノム特性に対する増
強値は、（ｉ）第１の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体か
らのそれぞれのゲノム特性の第１の重み寄与、及び（ｉｉ）第２の複数の遺伝子型データ
構成体からのそれぞれのゲノムデータ構成体からのそれぞれのゲノム特性の第２の重み寄
与から形成することができる。このような中で、各元データセットから寄与される疾患信
号の割合を制御することにより、補完的データ構成体において有益な核酸画分（例えば、
がんを考慮するときの腫瘍分画）を得ることができる。

【0175】

同じコホート又は異なるコホート中の対象に由来する生物学的情報を混合するとき、デ
ータ構成体は、データ構成体に対応する対象の１つ以上の個人的特徴を、例えば、そのよ
うな個人的特徴によってもたらされる生物学的分散を説明するために、マッチさせること
によって選択することができる。複数の補完的ゲノムデータ構成体中の各それぞれの補完
的ゲノムデータ構成体に対して、（ｉ）第１の複数のゲノムデータ構成体からのそれぞれ
のゲノムデータ構成体に対応するそれぞれの訓練対象、及び（ｉｉ）ゲノムデータ構成体
の対に対応する、第２の複数のゲノムデータ構成体からのそれぞれのゲノムデータ構成体
に対応するそれぞれの訓練対象は、共有される個人的特徴に基づいてマッチさせることが
できる。

【0176】

人工的に生成された時系列データセットは、２つ以上の疾患状態を区別するための分類
器を訓練するために使用することができる。したがって、疾患状況の状態を判別するため
の時間的分類器を訓練することは、少なくとも（ｉ）訓練対象の第１のコホート中の各そ
れぞれの訓練対象に対して、それぞれの時系列データセット、（ｉｉ）訓練対象の第１の
コホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット中の各それ
ぞれのゲノムデータ構成体についてのそれぞれの時点、又はその派生物を含むそれぞれの
複数の時点、及び（ｉｉｉ）訓練対象の第１のコホート中の各それぞれの訓練対象に対し
て、それぞれの複数の時点における少なくとも最も早いそれぞれの時点及び最も遅いそれ
ぞれの時点に対する疾患状況の表示、を使用することができる。訓練は、それぞれの訓練
対象の１つ以上の個人的特徴を使用することができる。例えば、性別、年齢、家族病歴、
個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの１つ以上が挙げられる。
分類器の詳細については、本明細書の他の箇所で記載されている。

【0177】

がんの進行を模擬する時系列を表す人工的に作成されたデータを使用して時間的分類器
を訓練する方法は、電子フォームで、トレーニングデータセットを得ることを含むことが
でき（例えば、時系列トレーニングデータ）、複数の訓練対象中のそれぞれの訓練対象に
対して、（１）それぞれの訓練対象に対するそれぞれの第１のゲノムデータ構成体であっ
て、それぞれの第１のゲノムデータ構成体は、それぞれの第１の時点（例えば、時系列ト
レーニングデータ点）におけるそれぞれの訓練対象から得られた第１の生体サンプル中の
第１のそれぞれの複数の核酸フラグメントの複数のゲノム特性についての値を含むそれぞ
れの第１のゲノムデータ構成体、（２）それぞれの訓練対象に対するそれぞれの第２のゲ
ノムデータ構成体であって、それぞれの第２のゲノムデータ構成体は、それぞれの第１の
時点の後に起こるそれぞれの第２の時点（例えば、増強された時系列データ点）における
それぞれの訓練対象の代表的な複数のゲノム特性についての値を含むそれぞれの第２のゲ
ノムデータ構成体、（３）それぞれの第１の時点及びそれぞれの第２の時点、又はその派
生物（例えば、第１及び第２のデータ点が対応する時間又は２つの時点間の時間量）、並
びに（４）それぞれの訓練対象の、それぞれの第１の時点及びそれぞれの第２の時点にお
ける、疾患状況のセット中の疾患状況の表示、を含む。

【0178】

本方法は、その後、各それぞれの訓練対象について、少なくとも（ａ）それぞれの第１
のゲノムデータ構成体、（ｂ）それぞれの第２のゲノムデータ構成体、（ｃ）それぞれの
第１の時点及びそれぞれの第２の時点、又はその派生物、並びに（ｄ）それぞれの第１の
時点及びそれぞれの第２の時点における疾患状況の表示に対して、時間的分類アルゴリズ
ムを訓練することを含むことができる。複数の訓練対象中の少なくとも１つのそれぞれの
訓練対象について、それぞれの第２のゲノムデータ構成体は、それぞれの訓練対象から得
られた第２の生体サンプルからのそれぞれの第２の複数の核酸フラグメント、及び疾患状
況の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られ
たスパイクイン生体サンプルからのそれぞれの第３の複数の核酸フラグメントからの複数
のゲノム特性についての値を含むことができる。

【0179】

それぞれの第２のゲノムデータ構成体は、複数のゲノム特性中の各それぞれのゲノム特
性に対して、（ｉ）第２の複数の核酸フラグメント中のそれぞれのゲノム特性の値に寄与
する核酸フラグメント、及び（ｉｉ）第３の複数の核酸フラグメント中のそれぞれのゲノ
ム特性の値に寄与する核酸フラグメント、の確率サンプリングに由来する増強値を含むこ
とができる。サンプリングは、スパイクインサンプルからの生体疾患信号をトレーニング
データ構成体からのバックグラウンドで希釈し、訓練対象が疾患状態の進行を経験した後
の第２の時間における訓練対象の代表的なデータ構成体を生成することとして考えること
ができる。

【0180】

それぞれの第３のゲノムデータ構成体は、それぞれの第２の時点、それぞれの第３の時
点、又はそれぞれの第２の時点及びそれぞれの第３の時点の派生物（例えば、時点間の期
間）の後に起こるそれぞれの第３の時点における、それぞれの訓練対象の代表的な複数の
ゲノム特性についての値、並びにそれぞれの訓練対象の、それぞれの第３の時点における
、疾患状況の状態のセット中の疾患状況の状態の指標を含むことができる。複数の訓練対
象中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの第３のゲノムデータ構
成体は、それぞれの訓練対象から得られた第３の生体サンプルからのそれぞれの第４の複
数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状況のそれぞれの状態を有
するスパイクイン対象から得られたスパイクイン生体サンプルからのそれぞれの第５の複
数の核酸フラグメントからの複数のゲノム特性に対する値を含むことができる。

【0181】

それぞれの第２の複数の核酸フラグメント及びそれぞれの第４の複数の核酸フラグメン
トは、それぞれの訓練対象から得られた同一の生体サンプルからの同一の無細胞核酸であ
り得る。この状況では、第２のゲノムデータ構成体を形成するために使用される訓練対象
からの同じバックグラウンドサンプルは、例えば、異なるスパイクインサンプルからの生
体信号又は同じスパイクインサンプルからの異なる量の生体信号と混合することによって
、第３の遺伝子型データ構成体を形成するために使用することができる。

【0182】

それぞれの第３の複数の核酸フラグメント及びそれぞれの第５の複数の核酸フラグメン
トは、スパイクイン対象から得られた同一のスパイクイン生体サンプルからの同一の無細
胞核酸であり得る。この状況では、第２の遺伝子型データ構成体を形成するために使用さ
れるスパイクイン対象からの同じスパイクインサンプルは、例えば、第２の遺伝子型デー
タ構成体を構築するために使用されるのと同じ又は異なるバックグラウンドサンプルであ
る場合があるバックグラウンドサンプルからの生体信号と異なる割合で混合することによ
って、第３の遺伝子型データ構成体を形成するために使用することができる。それぞれの
第２の遺伝子型データ構成体中の複数のゲノム特性についての値は、（ｉ）それぞれの第
２の複数の核酸フラグメントの複数のゲノム特性についての値と、（ｉｉ）それぞれの第
３の複数の核酸フラグメントの複数のゲノム特性についての値とのそれぞれの第１の重み
混合物を含むことができる。それぞれの第３のゲノムデータ構成体中の複数のゲノム特性
についての値は、（ｉ）それぞれの第２の複数の核酸フラグメントの複数のゲノム特性に
ついての値と、（ｉｉ）それぞれの第３の複数の核酸フラグメントの複数のゲノム特性に
ついての値とのそれぞれの第２の重み混合物を含むことができる。それぞれの第２の重み
混合物は、それぞれの第１の重み混合物よりも、それぞれの第３の複数の核酸フラグメン
トの複数のゲノム特性についての値に対してより重く重み付けすることができる。

【0183】

確率サンプリングは、複数の遺伝子型特性についての値に寄与するそれぞれの第２の複
数の核酸フラグメントのそれぞれの第１の部分と、複数の遺伝子型特性についての値に寄
与するそれぞれの第３の複数の核酸フラグメントのそれぞれの第２の部分とを選択するこ
とができ、かつ核酸フラグメントのそれぞれの第１の部分及び核酸フラグメントのそれぞ
れの第２の部分の大きさは、少なくとも（ｉ）第１の時点と第２の時点との間の時間の長
さ、及び（ｉｉ）疾患状況の状態のセット中の、スパイクイン対象が罹患している疾患状
況のそれぞれの状態の発展に対する時間モデルに基づいて、決定される。

【0184】

それぞれの第２のゲノムデータ構成体は、第２の生体サンプルからの第２の複数の核酸
フラグメントの第１の量とスパイクイン生体サンプルからの無細胞核酸の第２の量とを一
緒に混合し、それによって無細胞核酸の混合物を形成し、無細胞核酸の混合物からの核酸
フラグメントをシークエンシングし、かつシークエンシングに基づいて複数のゲノム特性
についての値を決定することによって形成することができる。したがって、本方法は、そ
れぞれの訓練対象について、少なくともそれぞれの第１のゲノムデータ構成体、それぞれ
の第２のゲノムデータ構成体、それぞれの第１の時点及びそれぞれの第２の時点又はその
派生物、並びにそれぞれの第１の時点及びそれぞれの第２の時点における疾患状況の表示
に対して時間的分類アルゴリズムを訓練することを含むことができる。いくつかの実施態
様では、時間的分類アルゴリズムは、それぞれの第３のゲノムデータ構成体、それぞれの
第３の時点、又はそれぞれの第２の時点及びそれぞれの第２の時点の導出物、並びにそれ
ぞれの第３の時点におけるそれぞれの訓練対象の疾患状況の状態のセット中の疾患状況の
状態の表示に対して更に訓練される。いくつかの実施態様では、訓練データ構成体は、少
なくとも３、４、５、６、７、８、９、１０、又はそれ以上の時点を含む。

【0185】

本方法は、例えば、上述のサンプリング方法に従って生成された滴定増強データセット
を使用する訓練されたモデルを評価することを更に含むことができる。本方法は、テスト
ゲノムデータ構成体（例えば、疾患分類器）を評価することによって、疾患状況を判別す
るように訓練された第１の分類器を得ることを含むことができ、ここで、テストゲノムデ
ータ構成体は、テスト対象から得られた第１の対応する生体サンプル中の対応する第１の
複数の核酸フラグメントの複数のゲノム特性についての値を含む。本方法は、その後、複
数の増強されたゲノムデータ構成体（例えば、増強された単一時点データ又は増強された
時系列データ）を含む増強された評価データセットを取得することを含むことができる。
複数の増強されたゲノムデータ構成体中の各それぞれの増強されたゲノムデータ構成体は
、疾患状況の複数の状態中の疾患状況のそれぞれの状態を有する対象から得られた対応す
る生体サンプルの代表的な対応する複数の核酸フラグメントの複数のゲノム特性について
の値を含むことができる。増強された評価データセットは、複数の増強された遺伝子型デ
ータ構成体中の、疾患状況の複数の状態中の疾患状況の各それぞれの状態の代表的な、例
えば、疾患なしから進行性疾患までまたがる範囲にわたる、それぞれの増強された遺伝子
型データ構成体を含むことができる。本方法は、その後、拡張された評価データセット中
の各それぞれの拡張ゲノムデータ構成体を分類器に独立して適用して、各それぞれの拡張
ゲノムデータ構成体について疾患状態分類を生成し、それによって、複数の疾患状態分類
を生成することを含むことができる。本方法は、その後、複数の疾患状態分類中の各それ
ぞれの疾患状態分類を、対応する増強されたゲノムデータ構成体によって表される疾患状
況のそれぞれの状態の関数として評価し、それによって、分類器の性能を査定することを
含むことができる。

【0186】

一般に、開示された方法は、集団内で表される場合がある疾患状態の範囲にわたって分
類器を評価し、分類器がトレーニングデータにオーバーフィットしたか否かを判定するよ
うにしてもよい。例えば、図１３は、患者サンプル中の無細胞ＤＮＡのゲノム特性に基づ
いてがんを検出するために訓練された２つの分類器の評価を図示する。増強された時系列
データ構成体は、本明細書に記載された方法に従って、１２人のがん患者のサンプルから
の生物学的がん信号を希釈し、腫瘍分画の希釈系列を０％まで形成し、例えば、がん細胞
からの信号を完全に欠くように、調製されている。次に、希釈系列データを、２つの分類
器に適用し、各データ構成体ががん患者のサンプルから生成された確率（曲線８０２及び
８０４）を作り出している。図１３に見られるように、第１の分類器が使用されたとき（
曲線８０２に対応する）、希釈系列のいくつかは、増強されたデータ構成体ががん信号を
全く包含しないときでさえ（例えば、滴定＝０において）、がん患者に由来する非常に高
い確率を有するものとして分類されている（個体１、２、９、及び１０を参照のこと）。
これは、モデルがトレーニングデータにオーバーフィットしており、かつ許容できない数
の偽陽性を作り出している可能性が高いことを示す。対照的に、第２の分類器を使用した
とき（曲線８０４に対応）、モデルによって出力されたがん確率は、各増強された時系列
に対してより緩やかに、かつより一貫して低下し、全ての個体について５０％に低下する
か又はそれを下回り、モデルが第１の分類器よりもオーバーフィットでなかったことを示
している。

【0187】

いくつかの実施態様において、がんの複数の状態中の（例えば、複数の増強された遺伝
子型データ構成体中の）各状態は、分類器に対する検出レベルより少なくとも２５％低い
無細胞ＤＮＡ腫瘍分画のベースラインパーセンテージから分類器の検出レベルより少なく
とも２５％高い無細胞ＤＮＡ腫瘍分画の上限パーセンテージに少なくともまたがる無細胞
ＤＮＡ腫瘍分画の範囲中（６２４）の無細胞ＤＮＡ腫瘍分画のサブ範囲を含む。他の実施
態様では、無細胞ＤＮＡ腫瘍分画のサブ範囲は、分類器に対する検出レベルの５％以内、
若しくは分類器に対する検出レベルの１０％、１５％、２０％、２５％、３０％、４０％
、又は５０％以内に収まる。

【0188】

いくつかの実施態様において、複数の心血管疾患の状態中の（例えば、複数の増強され
た遺伝子型データ構成体中の）各状態は、分類器に対する検出レベルより少なくとも２５
％低い無細胞ＤＮＡ心血管組織分率のベースラインパーセンテージから分類器に対する検
出レベルより少なくとも２５％高い無細胞ＤＮＡ心血管組織分率の上限パーセンテージに
少なくともまたがる無細胞ＤＮＡ腫瘍分画の範囲中（６２８）の、無細胞ＤＮＡ腫瘍分画
のサブ範囲を含む。他の実施態様では、無細胞ＤＮＡ腫瘍分画のサブ範囲は、分類器に対
する検出レベルの５％以内、若しくは分類器に対する検出レベルの１０％、１５％、２０
％、２５％、３０％、４０％、又は５０％以内に収まる。

【0189】

分類器は、ロジスティック回帰アルゴリズム、ニューラルネットワークアルゴリズム、
サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズ
ム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、
多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムを含むこ
とができる。

【0190】

いくつかの実施態様では、ハードネガティブマイニングの一形態が、分類器の性能を向
上させるために使用される。例えば、本方法は、性能閾値に不足する性能を有する分類器
の前駆体によって判別される第２の複数のゲノムデータ構成体からゲノムデータ構成体の
サブセットを同定することによって複数の増強された偽陽性ゲノムデータ構成体を得るこ
とと、ゲノムデータ構成体のサブセットを使用して複数の増強された偽陽性遺伝子型デー
タ構成体を生成することと、を含む。各それぞれの増強された偽陽性ゲノムデータ構成体
は、ゲノムデータ構成体のサブセットからの少なくともそれぞれのゲノムデータ構成体に
対応し得、かつ複数の増強された偽陽性ゲノムデータ構成体中の各それぞれのゲノムデー
タ構成体は、ゲノムデータ構成体のサブセットからの少なくともそれぞれのゲノムデータ
構成体中のそれぞれのゲノム特性の値に寄与する核酸フラグメントの確率的サンプリング
に由来する増強値を含むことができる。これらの実施態様では、分類器を、複数の増強さ
れた偽陽性ゲノムデータ構成体及び疾患状況の状態の表示に対して更に訓練することがで
きる。

【0191】

多くの異なるモデルが、対象の１つ以上の疾患状況（例えば、がん状態、冠動脈疾患状
況など）を分類するために、生物学的特徴を評価することができる。例えば、米国特許出
願第２０１９／０２８７６５２号は、対象のがん状態を分類するために、例えばｃｆＤＮ
Ａサンプルを使用して、複数のゲノム遺伝子座にわたるメチル化状態を評価するモデルに
ついて記載している。同様に、米国特許出願第２０１９／０２８７６４９号は、対象のが
ん状態を分類するために、例えばｃｆＤＮＡサンプルを使用して、複数のゲノム遺伝子座
にわたる相対コピー数を評価するモデルについて記載している。そのうえ、対象のがんの
状態を分類するために、バリアント対立遺伝子（例えば、一塩基変異、インデル、欠失、
転座など）の存在を評価する様々なモデルが開発されてきた。他の好適なモデルは、２０
１９年５月３１日に出願された「Convolutional Neural Network Systems and Methods f
or Data Classification」と題する米国特許出願第１６／４２８，５７５号に開示されて
いる。一般に、対象の疾患状態の分類のために開発された任意のモデルは、本明細書に記
載の増強データセットを使用して訓練され、かつ例えば、テスト対象の疾患状態を判定す
るために、本明細書に記載のシステム及び方法と組み合わせて使用されてもよい。

【0192】

分類器は、対象中の疾患状態の存在を検出するため、例えば、対象中のがん又は冠状動
脈疾患を検出するためにあることができる。本明細書で提供されるシステム及び方法は、
患者データで訓練したモデルの検出限界に近い弱い疾患信号の多くの例を提供する追加の
増強データを使用して訓練することができるので、既存の疾患モデルの感度及び特異性を
改善するのに適し得る。トレーニングデータの収集に紐づく費用、及び患者データは疾患
の初期ステージで収集されないことがよくあるため、トレーニングデータセットには、モ
デルの検出限界付近の疾患信号を有するデータ構成体があまり含まれない場合がある。む
しろ、トレーニングセットは、進行した疾患状態を有する訓練対象からの強い疾患信号の
多くの例と、疾患を持たない訓練対象からの疾患信号のない多くの例と、を有する場合が
ある。しかしながら、疾患の初期ステージを積極的に診断することは困難であるため、ト
レーニングデータセットには、分類器の感度及び特異性を向上させるために重要な中程度
から弱い疾患信号はほとんど含まれない場合がある。

【0193】

一般に、本明細書に記載されるシステム及び方法では、多くの異なる分類アルゴリズム
が使用することができる。例えば、モデルは、ニューラルネットワークアルゴリズム、サ
ポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム
、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、回
帰アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アル
ゴリズムを含むことができる。増強されたデータ構成体の使用は、より深い学習ベースの
モデル、例えば、ニューラルネットワークに対してより、分類器の性能を向上させるより
も、回帰ベースのモデルの性能を向上させることができる。回帰アルゴリズムは、ラッソ
、Ｌ２、又はエラスティックネット正則化を有するロジスティック回帰とすることができ
る。いくつかの実施態様では、ロジスティック回帰は、個人特性、例えば、性別、年齢、
家族病歴、個人病歴、民族性、喫煙状況、飲酒状況、疑似データ等のうちの１つ以上を更
に含む。

【0194】

疾患状態モデルは、訓練中に調整される特徴に対する学習された重みを含むことができ
る。「重み」という用語は、ここでは、どの特定の機械学習技術が使用されるかにかかわ
らず、モデルの任意の所与の特徴に紐づく学習された量を表すために一般的に使用するこ
とができる。いくつかの実施態様において、がん指標スコアは、１つ以上のＤＮＡシーク
エンス（又はそのＤＮＡシークエンスリード値）に由来する特徴についての値を機械学習
又は深層学習モデルに入力することによって決定される。いくつかの実施態様では、例え
ば、疾患クラス評価モデルがニューラルネットワーク（例えば、従来のニューラルネット
ワーク又は畳み込みニューラルネットワーク）であるとき、疾患分類器の出力は、分類、
例えば、がん陽性又はがん陰性のいずれかである。しかしながら、分類ではなく、モデル
の出力について連続的又は半連続的な値を提供するために、ニューラルネットワークの隠
れ層、例えば、出力層の直前の隠れ層を分類モデルの出力として使用することができる。

【0195】

したがって、モデルは、（ｉ）複数のゲノム特性が第１の次元数を含む複数のゲノム特
性に対する値を受信するための入力層と、（ｉｉ）重みのセットを含む埋め込み層であっ
て、埋め込み層が入力層の出力を直接的又は間接的に受信し、かつ埋め込み層の出力が第
１の次元数よりも小さい第２の次元数を有するモデルスコアセットである、埋め込み層と
、（ｉｉｉ）埋め込み層からモデルスコアセットを直接的又は間接的に受信する出力層と
、を含むことができる。そのような実施態様において、第１のモデルスコアセットは、第
１のゲノムデータ構成体を入力層に入力する際の埋め込み層のモデルスコアセットであり
、第２のモデルスコアセットは、第２のゲノムデータ構成体を入力層に入力する際の埋め
込み層のモデルスコアセットである。言い換えれば、モデルスコアセットは、埋め込み層
と名付けられたニューラルネットワーク中の隠れ層に紐づくニューロンのセットの出力と
することができる。埋め込み層中のそのような各ニューロンは、重みと活性化関数とに紐
づけることができ、かつモデルスコアセットは、そのような各活性化関数の出力から成る
。埋め込み層中のニューロンの活性化関数は、整流線形ユニット（ＲｅＬＵ）、ｔａｎｈ
関数、又はシグモイド活性化関数とすることができる。いくつかのそのような実施態様で
は、埋め込み層のニューロンは、入力層の入力の各々に完全に接続することができる。出
力層の各ニューロンは、埋め込み層の各ニューロンに完全に接続することができる。出力
層の各ニューロンは、ソフトマックス活性化関数と紐づけることができる。いくつかの実
施態様では、埋め込み層及び出力層のうちの１つ以上は、完全に接続されていない。

【0196】

ＩＩＩ．Ｄ．がん分類器の展開

【0197】

がん分類器の使用中、分析システムは、不明ながんタイプの対象からテストサンプルを
得ることができる。分析システムは、異常なフラグメントのセットに達するために、プロ
セス１００、２００、及び２２０の任意の組み合わせを用いてＤＮＡ分子からなるテスト
サンプルを処理してもよい。分析システムは、プロセス５００で論じられた同様の原理に
従って、がん分類器によって使用するためのテスト特徴ベクトルを決定することができる
。分析システムは、がん分類器によって使用される複数のＣｐＧ部位中の各ＣｐＧ部位に
対して異常スコアを計算することができる。例えば、がん分類器は、１，０００個の選択
されたＣｐＧ部位に対する異常スコアを含めて特徴ベクトルを入力として受信する。分析
システムは、このように、異常なフラグメントのセットに基づいて、１，０００個の選択
されたＣｐＧ部位に対する異常スコアを含めてテスト特徴ベクトルを決定することができ
る。分析システムは、トレーニングサンプルと同じやり方で異常スコアを計算することが
できる。いくつかの実施態様において、分析システムは、異常スコアを、ＣｐＧ部位をく
みこむ異常なフラグメントのセット中のハイパーメチル化フラグメント又はハイポメチル
化フラグメントが存在するかに基づく二値スコアとして定義する。

【0198】

分析システムは、その後、テスト特徴ベクトルをがん分類器に入力することができる。
がん分類器の機能は、次に、プロセス６００において訓練された分類パラメータ及びテス
ト特徴ベクトルに基づいて、がん予測を生成することができる。第１の態様では、がん予
測は二値であり、かつ「がん」又は「非がん」からなるグループから選択することができ
る。第２の態様では、がん予測は多くのがんタイプ及び「非がん」からなるグループから
選択される。追加の実施態様では、がん予測は、多くのがんタイプの各々について予測値
を有する。さらに、分析システムは、テストサンプルががんタイプの１つである可能性が
最も高いと判定してもよい。テストサンプルに対するがん予測が乳がんの可能性６５％、
肺がんの可能性２５％、及び非がんの可能性１０％を有する上記の例に従うと、分析シス
テムは、テストサンプルが乳がんを有する可能性が最も高いと判定してもよい。別の例で
は、がん予測が、がんでない可能性が６０％、がんの可能性が４０％という二値であると
き、分析システムは、テストサンプルががんでない可能性が最も高いと判定する。追加の
実施態様において、最も高い尤度を有するがん予測は、テスト対象がそのがんタイプを有
すると呼ぶために、やはり閾値（例えば、４０％、５０％、６０％、７０％）と比較され
てもよい。最も高い尤度を有するがん予測がその閾値を超えない場合、分析システムは、
決定的でない結果を返してもよい。

【0199】

追加の実施態様において、分析システムは、プロセス６００のステップ５６０で訓練さ
れたがん分類器を、ステップ５７０又はプロセス５００で訓練された別のがん分類器とつ
なげる。分析システムは、テスト特徴ベクトルを、プロセス６００のステップ５６０でバ
イナリ分類器として訓練されたがん分類器に入力することができる。分析システムは、が
ん予測の出力を受信することができる。がん予測は、テスト対象ががんを有する可能性が
高いか、またはがんを有しない可能性が高いかについての二値であってもよい。他の実施
態様において、がん予測は、がんの可能性及び非がんの可能性を記述する予測値を含む。
例えば、がん予測は、８５％のがん予測値及び１５％の非がん予測値を有する。分析シス
テムは、テスト対象ががんである可能性が高いと判定してもよい。分析システムは、テス
ト対象ががんを有する可能性が高いと判定すると、分析システムは、異なるがんタイプ間
を区別するようにテスト特徴ベクトルを訓練されたマルチクラスがん分類器に入力しても
よい。マルチクラスがん分類器は、テスト特徴ベクトルを受信し、かつ複数のがんタイプ
のがんタイプのがん予測を返すことができる。例えば、マルチクラスがん分類器は、テス
ト対象が卵巣がんである可能性が最も高いことを指定するがん予測を提供する。別の実施
態様では、マルチクラスがん分類器は、複数のがんタイプの各がんタイプについて予測値
を提供する。例えば、がん予測は、４０％の乳がんタイプ予測値、１５％の大腸がんタイ
プ予測値、及び４５％の肝臓がん予測値を含んでもよい。

【0200】

二値がん分類の一般化された実施態様によれば、分析システムは、テストサンプルのシ
ークエンシングデータ（例えば、メチル化シークエンシングデータ、ＳＮＰシークエンシ
ングデータ、他のＤＮＡシークエンシングデータ、ＲＮＡシークエンシングデータなど）
に基づいて、テストサンプルのがんスコアを決定することができる。分析システムは、テ
ストサンプルががんを有する可能性が高いか否かを予測するための二値閾値カットオフに
対して、テストサンプルのがんスコアを比較することができる。二値閾値カットオフは、
１つ以上のＴＯＯサブタイプクラスに基づくＴＯＯ閾値を使用して調節することができる
。分析システムは、１つ以上の可能性の高いがんタイプを示すがん予測を決定するために
、マルチクラスがん分類器で使用するためのテストサンプルの特徴ベクトルを更に生成し
てもよい。

【0201】

分類器は、テスト対象、例えば、疾患状況が不明である対象の疾患状態を判定するため
に使用されてもよい。本方法は、テスト対象から得られた生体サンプル中の対応する複数
の核酸フラグメントの複数のゲノム特性中の各ゲノム特性に対する値を含む、電子フォー
ムのテストゲノムデータ構成体（例えば、単一時点テストデータ）を得ることを含むこと
ができる。本方法は、その後、テストゲノムデータ構成体をテスト分類器に適用して、そ
れによってテスト対象における疾患状況の状態を決定することを含むことができる。テス
ト対象は、以前に疾患状況を有すると診断されていない場合がある。

【0202】

分類器は、少なくとも（ｉ）第１の時点においてテスト対象から取得した第１の生体サ
ンプルから生成された第１のテストゲノムデータ構成体、及び（ｉｉ）第２の時点におい
てテスト対象から取得した第２の生体サンプルから生成された第２のテストゲノムデータ
構成体を使用する時間的分類器とすることができる。

【0203】

訓練された分類器は、テスト対象、例えば、疾患状況が不明である対象の疾患状態を判
定するために使用することができる。この場合、本方法は、テスト対象について、電子フ
ォームで、テスト時系列データセットを取得することを含むことができ、テスト時系列デ
ータセットは、複数の時点におけるそれぞれの時点に対して、それぞれの時点においてテ
スト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数
の遺伝子型特性についての値を含む対応するテスト遺伝子型データ構成体と、複数の時点
における連続する時点のそれぞれの対に対して、連続する時点の各それぞれの対間の時間
の長さを示す表示と、を含む。本方法は、その後、テスト遺伝子型データ構成体をテスト
分類器に適用して、それによってテスト対象における疾患状況の状態を決定することを含
むことができる。テスト対象は、以前に疾患状況を有すると診断されたことがない場合が
ある。

【0204】

ＩＶ．応用

【0205】

いくつかの実施態様において、本発明の方法、分析システム、及び／又は分類器は、が
んの存在を検出するため、がんの進行又は再発を監視するため、具体的な治療反応又は効
果を監視するため、最小残存病変（ＭＲＤ）の存在を判定又は監視するため、若しくはそ
れらの任意の組合せに使用することができる。例えば、本明細書に記載されるように、分
類器は、テスト特徴ベクトルががんを有する対象からのものである可能性を記述する確率
スコア（例えば、０から１００まで）を生成するために使用することができる。いくつか
の実施態様において、確率スコアは、対象ががんを有するか又は有さないかを判定するた
めに閾値確率と比較される。他の実施態様では、尤度又は確率スコアを、疾患の進行を監
視し、又は治療の有効性（例えば、具体的な治療効果）を監視するために、多数の異なる
時点（例えば、治療の前又は後）で査定することができる。さらにまだ他の実施態様では
、臨床的決定（例えば、がんの診断、治療選択、治療の有効性の評価など）をする、又は
、臨床的決定に影響を与えるために、尤度スコア又は確率スコアを使用するができる。例
えば、一実施態様では、確率スコアが閾値を超える場合、医師は適切な治療を処方するこ
とができる。

【0206】

ＩＶ．Ａ．がんの早期検出

【0207】

いくつかの実施態様において、本発明の方法及び／又は分類器は、がんを有することが
疑われる対象におけるがんの存在又は不在を検出するために使用される。例えば、分類器
（例えば、セクションＩＩＩで上述され、かつセクションＶで検討される）は、テスト特
徴ベクトルががんを有する対象からのものである尤度を記述するがん予測を決定するため
に使用することができる。

【0208】

一実施態様において、がん予測は、テストサンプルががんを有するかについての尤度（
例えば、０～１００との間のスコア）である（すなわち、二値分類である）。このように
、分析システムは、テスト対象ががんを有するか否かを判定するための閾値を決定しても
よい。例えば、６０以上のがん予測は、テスト対象ががんを有することを示し得る。さら
にまだ他の実施態様では、６５以上、７０以上、７５以上、８０以上、８５以上、９０以
上、または９５以上のがん予測は、テスト対象ががんを有していることを示す。他の実施
態様では、がん予測は、疾患の重篤度を示すことができる。例えば、８０のがん予測は、
８０を下回るがん予測（例えば、７０の確率スコア）と比較して、より重篤の形態、又は
より後のステージのがんを示すことができる。同様に、時間の経過に伴う癌の予測値の増
加（例えば、２つ以上の時点において採取された同じ対象からの多数のサンプルからのテ
スト特徴ベクトルの分類によって決定される）は、疾患の進行を示すことができ、又は時
間の経過に伴う癌の予測値の減少は、治療の成功を示すことができる。

【0209】

別の実施態様において、がん予測は、多くの予測値を備え、分類されるための複数のが
んタイプの各々（すなわち、マルチクラス分類）は、予測値（例えば、０～１００の間で
スコア化される）を有する。予測値は、所与のトレーニングサンプル（及び推論中、トレ
ーニングサンプル）ががんタイプの各々を有する尤度に対応してもよい。分析システムは
、最も高い予測値を有するがんタイプを同定し、かつテスト対象がそのがんタイプを有す
る可能性が高いことを示してもよい。他の実施態様において、分析システムは、最高予測
値を閾値（例えば、５０、５５、６０、６５、７０、７５、８０、８５など）と更に比較
し、テスト対象がそのがんタイプを有する可能性が高いと判定する。他の実施態様では、
予測値は、また疾患の重篤度を示すこともできる。例えば、８０より大きい予測値は、６
０の予測値と比較して、より重篤ながんの形態、又はより後のステージを示してもよい。
同様に、時間の経過に伴う予測値の増加（例えば、２つ以上の時点において採取された同
じ対象からの多数のサンプルからのテスト特徴ベクトルを分類することによって決定され
る）は、疾患の進行を示すことができ、又は時間の経過に伴う予測値の減少は、治療の成
功を示すことができる。

【0210】

本発明の態様によれば、本発明の方法及びシステムは、多数のがんの適応症を検出又は
分類するように訓練することができる。例えば、本発明の方法、システム及び分類器は、
１つ以上、２つ以上、３つ以上、５つ以上、１０つ以上、１５つ以上、又は２０つ以上の
異なるタイプのがんの存在を検出するために使用することができる。

【0211】

本発明の方法、システム、及び分類器を使用して検出することができるがんの例は、が
ん腫、リンパ腫、芽腫、肉腫、及び白血病又はリンパ性悪性腫瘍を含む。そのようながん
のより具体的な例としては、扁平上皮がん（例えば、上皮性扁平上皮がん）、皮膚がん、
メラノーマ、小細胞肺がん、非小細胞肺がん（「ＮＳＣＬＣ」）、肺腺癌及び肺扁平上皮
癌、腹膜のがん、胃腸がんを含む胃又は腹部がん、すい臓がん（例えば、。膵管腺がん）
、子宮頸がん、卵巣がん（例えば、高悪性度漿液性卵巣がん）、肝がん（例えば、肝細胞
がん（ＨＣＣ））、肝細胞がん、肝がん、膀胱がん（例えば。尿路上皮膀胱がん）、精巣
（胚細胞腫瘍）がん、乳がん（例えば、ＨＥＲ２陽性、ＨＥＲ２陰性、及びトリプルネガ
ティブ乳がん）、脳腫瘍（例えば、星細胞腫、グリオーマ（例えば、膠芽腫））、結腸が
ん、直腸がん、大腸がん、内膜又は子宮がん、唾液腺がん、腎臓がん（例えば、腎細胞が
ん、腎芽細胞腫又はウィルムス腫瘍）、前立腺がん、外陰がん、甲状腺がん、肛門がん、
陰茎がん、頭頸部がん、食道がん、並びに鼻咽頭がん（ＮＰＣ）を含む。がんの追加の例
としては、限定なしで、非ホジキンリンパ腫（ＮＨＬ）、多発性骨髄腫及び急性血液悪性
腫瘍、子宮内膜症、線維肉腫、絨毛がん、喉頭がん、カポジ肉腫、シュワンノーマ、乏突
起膠腫、神経芽腫、横紋筋肉腫、骨原性肉腫、平滑筋肉腫、及び尿路がんを含むが、これ
に限定されない網膜芽細胞腫、テコマ、アレノブラストーマ、血液悪性腫瘍を含む。

【0212】

いくつかの実施態様において、がんは、肛門がん、膀胱がん、乳がん、子宮頸がん、大
腸がん、食道がん、胃がん、頭頸部がん、肝胆膵がん、白血病、肺がん、リンパ腫、メラ
ノーマ、多発性骨髄腫、卵巣がん、すい臓がん、前立腺がん、腎臓がん、甲状腺がん、子
宮がん又はこれらの任意の組み合わせの１つ以上である。

【0213】

いくつかの実施態様において、１つ以上のがんは、肛門直腸がん、大腸がん、食道がん
、頭頸部がん、肝胆膵がん、肺がん、卵巣がん、膵臓がん、並びにリンパ腫及び多発性骨
髄腫などのような「高信号」がん（５年がん特異的死亡率が５０％を超えるがんとして定
義）とすることができる。高信号のがんはより侵攻性の傾向があり、かつ通常、患者から
得たテストサンプル中の無細胞核酸濃度は平均を超える。

【0214】

ＩＶ．Ｂ．がん及び治療モニタリング

【0215】

いくつかの実施態様において、がん予測は、疾患の進行を監視するため、又は治療の有
効性（例えば、具体的な治療効果）を監視するために、多数の異なる時点（例えば、また
は治療の前または後）で評価することができる。例えば、本発明は、第１の時点でがん患
者から第１のサンプル（例えば、第１の血漿ｃｆＤＮＡサンプル）を取得し、そこから第
１のがん予測を決定し（本明細書に記載）、第２の時点でがん患者から第２のテストサン
プル（例えば、第２の血漿ｃｆＤＮＡサンプル）を取得し、そこから第２のがん予測を決
定すること（本明細書に記載）を伴う方法を含む。

【0216】

特定の実施態様では、第１の時点は、がん治療の前（例えば、切除手術又は具体的な治
療的介入の前）であり、第２の時点は、がん治療の後（例えば、切除手術又は具体的な治
療的介入の後）であり、かつ分類器は、治療の有効性を監視するために利用される。例え
ば、第２のがん予測値が第１のがん予測値と比較して減少した場合、そのとき、治療は成
功したとみなされる。しかしながら、第２のがん予測値が第１のがん予測値に比べて増加
した場合、そのとき、治療は成功しなかったとみなされる。他の実施態様では、第１及び
第２の時点の両方が、がん治療の前（例えば、切除手術又は具体的な治療的介入の前）で
ある。さらにまだ他の実施態様では、第１の時点及び第２の時点の両方が、がん治療の後
（例えば、切除手術又は具体的な治療的介入の後）である。さらにまだ他の実施態様では
、ｃｆＤＮＡサンプルは、第１及び第２の時点においてがん患者から得られ、分析されて
もよく、例えば、がんの進行を監視するため、がんが寛解しているか（例えば、治療後）
を判断するため、残存疾患又は疾患の再発を監視若しくは検出するため、若しくは治療（
例えば、具体的な治療）効果を監視するためである。

【0217】

当業者であれば、患者におけるがんの状態を監視するために、任意の所望の時点のセッ
トにわたってがん患者からテストサンプルを得て、本発明の方法に従って分析し得ること
を容易に理解するであろう。いくつかの実施態様において、第１及び第２の時点は、約１
、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７
、１８、１９、２０、２１、２２、２３、又は約２４時間など、若しくは例えば約１、２
、３、４、５、１０、１５、２０、２５又は約３０日など、若しくは約１、２、３、４、
５、６、７、８、９、１０、１１又は１２ヶ月など、若しくは約１、１．５、２、２．５
、３、３．５、４、４．５、５、５．５、６、６．５、７、７．５、８、８．５、９、９
．５、１０、１０．５、１１、１１．５、１２、１２．５、１３、１３．５、１４、１４
．５、１５、１５．５、１６、１６．５、１７、１７．５、１８、１８．５、１９、１９
．５、２０、２０．５、２１、２１．５、２２、２２．５、２３、２３．５、２４、２４
．５、２５、２５．５、２６、２６．５、２７、２７．５、２８、２８．５、２９、２９
．５又は約３０年などのような約１５分から約３０年までの範囲の時間の量によって分離
される。他の実施態様では、テストサンプルは、少なくとも３ヶ月に１回、少なくとも６
ヶ月に１回、少なくとも１年に１回、少なくとも２年に１回、少なくとも３年に１回、少
なくとも４年に１回、又は少なくとも５年に１回、患者から取得することができる。

【0218】

ＩＶ．Ｃ．治療

【0219】

さらにまだ別の実施態様では、がん予測は、臨床的決定（例えば、がんの診断、治療選
択、治療効果の評価など）をするため、又は、臨床的決定に影響を与えるために使用する
ことができる。例えば、一実施態様において、がん予測（例えば、がんに対して、又は特
定のがんタイプに対して）が閾値を超える場合、医師は適切な治療（例えば、切除手術、
放射線療法、化学療法、及び／又は免疫療法）を処方することができる。

【0220】

分類器（本明細書に記載）は、サンプル特徴ベクトルががんを有する対象からのもので
あるというがん予測を決定するために使用することができる。一実施態様では、がん予測
が閾値を超えると、適切な治療（例えば、切除手術又は具体的な治療）が処方される。例
えば、一実施態様では、がん予測値が６０以上である場合、１つ以上の適切な治療が処方
される。別の実施態様では、がん予測値が６５以上、７０以上、７５以上、８０以上、８
５以上、９０以上、又は９５以上である場合、１つ以上の適切な治療が処方される。他の
実施態様では、がん予測は、疾患の重篤度を示すことができる。次いで、疾患の重篤度に
マッチする適切な治療が処方されてもよい。

【0221】

いくつかの実施態様において、治療は、化学療法剤、標的がん治療剤、分化誘導療法剤
、ホルモン療法剤、及び免疫療法剤からなるグループから選択される１つ以上のがん治療
剤である。例えば、治療は、アルキル化剤、代謝拮抗剤、アントラサイクリン、抗腫瘍抗
生物質、細胞骨格破壊剤（タキサン）、トポイソメラーゼ阻害剤、分裂阻害剤、コルチコ
ステロイド、キナーゼ阻害剤、核酸アナログ、プラチナ系薬剤及びそれらの任意の組み合
わせからなるグループから選択される１つ以上の化学療法剤とすることができる。いくつ
かの実施態様において、治療は、信号伝達阻害剤（例えば、チロシンキナーゼ及び成長因
子受容体阻害剤）、ヒストン脱アセチル化酵素（ＨＤＡＣ）阻害剤、レチノイン受容体作
動薬、プロテオソーム阻害剤、血管新生阻害剤、及びモノクローナル抗体コンジュゲート
からなるグループから選択される１以上の標的がん治療薬である。いくつかの実施態様に
おいて、治療は、トレチノイン、アリトレチノイン及びベキサロテンなどのようなレチノ
イドを含む１つ以上の分化療法剤である。いくつかの実施態様において、治療は、抗エス
トロゲン、アロマターゼ阻害剤、黄体ホルモン、エストロゲン、抗アンドロゲン、及びＧ
ｎＲＨアゴニスト又はアナログからなるグループから選択される１つ以上のホルモン治療
薬である。一実施態様において、治療は、リツキシマブ（ＲＩＴＵＸＡＮ）及びアレムツ
ズマブ（ＣＡＭＰＡＴＨ）などのようなモノクローナル抗体療法、ＢＣＧ、インターロイ
キン２（ＩＬ－２）、及びインターフェロン－アルファなどのような非特異的免疫療法並
びにアジュバンド、免疫調節薬、例えばサリドマイド及びレナリドミド（ＲＥＶＬＩＭＩ
Ｄ）を含むグループから選ばれた一つ以上の免疫療法薬である。腫瘍のタイプ、がんのス
テージ、がん治療又は具体的な治療剤への以前の発覚、及びがんの他の特性などの特徴に
基づいて、適切ながん治療剤を選択することは、熟練の医師又は腫瘍学者の能力の範囲内
である。

【0222】

Ｖ．がん分類器の結果例

【0223】

Ｖ．Ａ．サンプル収集と処理

【0224】

研究デザインとサンプル：ＣＣＧＡ（ＮＣＴ０２８８９９７８）は、前向き、多施設、
症例対照、観察研究であり、縦断的な追跡調査が行われている。本テストでは、１４２施
設からの約１５，０００人の参加者から非識別化生物サンプルが収集された。サンプルは
トレーニングセット（１，７８５人）とテストセット（１，０１５人）に分けられ、各コ
ホートの部位間でがんタイプと非がんとが事前に指定した分布を確保するようにサンプル
を選択し、がん及び非がんサンプルは性別によって頻度年齢をマッチさせた。

【0225】

全ゲノムバイサルファイトシークエンス：ｃｆＤＮＡを血漿から分離し、ｃｆＤＮＡの
解析には全ゲノムバイサルファイトシークエンス（ＷＧＢＳ、深度３０倍）を採用した。
ｃｆＤＮＡは、改良型ＱＩＡａｍｐ循環核酸キット（Ｑｉａｇｅｎ、Ｇｅｒｍａｎｔｏｗ
ｎ、ＭＤ）を使用して、患者ごとに２本の血漿チューブ（最大合計量１０ｍｌ）から抽出
した。最大７５ｎｇの血漿ｃｆＤＮＡを、ＥＺ－９６ＤＮＡメチル化キット（Ｚｙｍ
ｏＲｅｓｅａｒｃｈ、Ｄ５００３）を使用して重亜硫酸塩変換に供した。変換されたｃ
ｆＤＮＡは、Ａｃｃｅｌ－ＮＧＳＭｅｔｈｙｌ－ＳｅｑＤＮＡライブラリー調製キッ
ト（ＳｗｉｆｔＢｉｏＳｃｉｅｎｃｅｓ；ＡｎｎＡｒｂｏｒ，ＭＩ）を使用してデュ
アルインデックスシークエンシングライブラリを調製するために使用され、構築したライ
ブラリーは、ＫＡＰＡＬｉｂｒａｒｙＱｕａｎｔｉｆｉｃａｔｉｏｎＫｉｔｆｏ
ｒＩｌｌｕｍｉｎａＰｌａｔｆｏｒｍｓ（ＫａｐａＢｉｏｓｙｓｔｅｍｓ；Ｗ
ｉｌｍｉｎｇｔｏｎ，ＭＡ）を使用して定量化した。４つのライブラリーと１０％のＰ
ｈｉＸｖ３ライブラリー（Ｉｌｌｕｍｉｎａ、ＦＣ－１１０－３００１）をプールし、
ＩｌｌｕｍｉｎａＮｏｖａＳｅｑ６０００Ｓ２フローセル上でクラスタリングした
後、１５０ｂｐペアエンドシークエンス（３０倍）を実施した。

【0226】

各サンプルについて、ＷＧＢＳフラグメントセットを、異常なメチル化パターンを有す
るフラグメントの小さなサブセットに縮小した。追加で、ハイパー又はハイポメチル化ｃ
ｆＤＮＡフラグメントを選択した。異常なメチル化パターンを有し、ハイパー又はハイポ
メチル化、すなわち、ＵＦＸＭであるｃｆＤＮＡフラグメントを選択した。がんでない個
体で高頻度に起こるフラグメント、又は不安定なメチル化を有するフラグメントは、がん
の状態を分類するための識別性の高い特徴を作り出しにくいと考えられる。それゆえに、
ＣＣＧＡ研究からがんでない非喫煙者１０８人（年齢：５８±１４歳、女性７９人［７３
％］）の独立した参照セット（すなわち参照ゲノム）を使用して、統計モデル及び典型的
なフラグメントのデータ構造体を作り出した。これらのサンプルは、セクションＩＩ．Ｂ
で上述したように、フラグメント内のＣｐＧメチル化状態の所与のシークエンスの尤度を
見積もるマルコフチェーンモデル（次数３）を訓練するために使用した。このモデルは、
正常なフラグメントの範囲（ｐ値＞０．００１）で較正されることが実証され、マルコフ
モデルからのｐ値が＞０．００１を有するフラグメントは、十分に異常でないとして拒否
するために使用した。

【0227】

上述のように、さらなるデータ削減ステップでは、少なくとも５つのＣｐＧがカバーさ
れ、かつ平均メチル化が＞０．９（高メチル化）又は＜０．１（低メチル化）のいずれか
のフラグメントのみを選択した。この手順により、訓練でがんでない参加者の２，８００
（１，５００－１２，０００）のＵＦＸＭフラグメントの中央値（範囲）、及び訓練でが
んを有する参加者の３，０００（１，２００－２２０，０００）のＵＦＸＭフラグメント
の中央値（範囲）が結果として生じた。このデータ削減手順は、参照セットデータのみを
使用したため、このステージは各サンプルに一度だけ適用する必要があった。

【0228】

Ｖ．Ｂ．がんの分類

【0229】

図８－１１は、例示的な実施態様による、訓練されたがん分類器のがん予測精度を示す
グラフである。図８－１１に示される結果を作り出すために使用するがん分類器は、セク
ションＩＩＩに記載されたプロセスの例示的な実装、又はそれらのいくつかの組み合わせ
の例示的な実施態様に従って訓練される。

【0230】

分析システムは、がん分類器において考慮されるべきＣｐＧ部位を選択する。情報利得
は、他の全てのサンプルと比較して、所与のがんタイプを有するトレーニングサンプルに
対して計算される。例えば、２つのランダム変数「異常なフラグメント」（「ＡＦ」）及
び「がんタイプ」（「ＣＴ」）が使用される。ＣＴは、がんが特定のタイプであるかを示
すランダム変数である。分析システムは、ＡＦが与えられたときのＣＴに関する相互情報
量を計算する。つまり、特定のＣｐＧ部位に異常なフラグメントが重なっているか否かが
分かる場合、がんタイプについて何ビットの情報が得られるかである。所与のがんタイプ
について、分析システムは、この情報を使用して、ＣｐＧ部位をがん特異性がどれくらい
かに基づいてランク付けする。この手順は、検討中のすべてのがんタイプについて繰り返
される。各がんタイプのランク付けされたＣｐＧ部位は、がん分類器で使用するために積
極的に追加される（例えば、約３０００のＣｐＧ部位に達するために）。

【0231】

サンプルの特徴付けのために、分析システムは、異常なメチル化パターンを有する各サ
ンプル中のフラグメント、かつ加えてさらにＵＦＸＭフラグメントを同定する。１つのサ
ンプルについて、分析システムは、検討のために選択された各ＣｐＧ部位に対する異常ス
コアを計算する（～３，０００）。分析システムは、サンプルがＣｐＧ部位にくみこむＵ
ＦＸＭフラグメントを有するか否かに基づいて、二値スコアリングで異常スコアを定義す
る。

【0232】

図８は、例示的な実施態様による、様々ながんタイプに対するマルチクラスがん分類器
のがん予測精度を示すグラフを示す。この例示的な実施例では、マルチクラスがん分類器
は、乳がんタイプ、大腸がんタイプ、食道がんタイプ、頭頸部がんタイプ、肝胆膵がんタ
イプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵臓がんタイプ、非がんタ
イプ、及び他のがんタイプという１１種類のがんタイプに従って特徴ベクトルを区別する
ように訓練されている。本実施例で使用したサンプルは、がんタイプの各々を有すること
が知られている対象からのものである。例えば、乳がんタイプのサンプルのコホートは、
乳がんタイプを呼び出す際のがん分類器の精度を検証するために使用した。さらに、使用
されたサンプルは、様々ながんのステージにある対象からのものである。

【0233】

乳がんコホート、大腸がんコホート、及び肺がんコホートに対して、がん分類器は、そ
の後に続くがんのステージにおいて、がんタイプを正確に予測する精度を徐々に高めてい
る。頭頸コホート、卵巣コホート、及び膵臓コホートに対して、がん分類器は、後期ステ
ージ、例えば、ステージＩＩＩ及び／又はステージＩＶになるにつれて、がん分類の精度
が向上している。食道コホート及び肝胆膵のコホートに対して、がん分類器は、後期ステ
ージ、例えば、ステージＩＩＩ及び／又はステージＩＶでの正確性もまた有している。非
がんコホートでは、がん分類器は、非がんサンプルががんでない可能性の予測は完全な制
度だった。最後に、リンパ腫コホートは、がんのステージＩＩのサンプルを正確に予測す
ることに成功のピークがある様々なステージを通して成功した。

【0234】

図９は、例示的な実施態様による、最初にバイナリがん分類器を使用した後の、様々な
がんタイプに対するマルチクラスがん分類器のがん予測精度を示すグラフである。この例
では、分析システムは、最初に、多くのがんタイプのコホートからサンプルをバイナリが
ん分類器に入力し、サンプルががんを有する可能性が高いか、又はがんを有しない可能性
が高いかを判定する。その後、分析システムは、がんを有する可能性が高いと判定された
サンプルをマルチクラスがん分類器に入力し、それらのサンプルのがんタイプを予測する
。考慮されるがんタイプは、乳がんタイプ、大腸がんタイプ、食道がんタイプ、頭頸部が
んタイプ、肝胆膵がんタイプ、肺がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、膵
臓がんタイプ、及びその他のがんタイプを含む。

【0235】

図８の例と比較して、分析システムは、最初にバイナリがん分類器を使用し、その後マ
ルチクラスがん分類器を使用したときに、精度の向上を示した。乳がんコホート、大腸が
んコホート、肺がんコホート、及びリンパ腫がんコホートの中で、分析システムは、全体
的に精度の向上を有した。とりわけ、分析システムは、がんの初期ステージ、すなわち、
ステージＩ、ステージＩＩ、そしてステージＩＩＩでさえ、それらのがんタイプの各々に
ついて予測精度の顕著な向上を有していた。

【0236】

図１０は、例示的な実施態様による、訓練されたがん分類器の性能を論証する混同行列
を図示する。プロセス５００による訓練の一例では、リッジ回帰ペナルティを有するマル
チクラスカーネルロジスティック回帰（ＫＬＲ）分類器が、重みに対するペナルティ、及
び各がんタイプに対する二値項に対する固定ペナルティを有する導出された特徴ベクトル
上で訓練されている。リッジ回帰ペナルティは、高関連部位の選択に使用されていないト
レーニングデータの一部で最適化され（ログ損失を使用）、かつ最適なパラメータが見つ
かった時点で、ロジスティック分類器をローカルトレーニングフォールドの全セットで再
訓練した。選択された高関連部位及び分類器の重みは、その後、新しいデータに適用した
。ＣＣＧＡトレーニングセット内で、１つのフォールドを繰り返し保留し、９つのフォー
ルドのうち８つのフォールドの関連部位を選択し、ＫＬＲ分類器のハイパーパラメータを
９番目のセットで最適化し、ＫＬＲを１０フォールドのうち９フォールドで再トレーニン
グして、かつ保留したフォールドに適応させた。これをＣＣＧＡトレーニングセット内の
ＴＯＯを推定するために１０回繰り返した。ＣＣＧＡテストセットでは、関連部位をＣＣ
ＧＡトレーニングの９／１０フォールドで選択し、ハイパーパラメータを１０フォールド
目で最適化し、かつ全ＣＣＧＡトレーニングデータでＫＬＲ分類器を再トレーニングし、
選択した部位及びＫＬＲ分類器をテストセットへ適用した。考慮したがんタイプは、多発
性骨髄腫がんタイプ、大腸がんタイプ、リンパ腫がんタイプ、卵巣がんタイプ、肺頭頸部
がんタイプ、膵臓がんタイプ、乳がんタイプ、肝胆膵がんタイプ、食道がんタイプ、その
他がんタイプを含む。その他のがんタイプには、肛門がん、膀胱がん、原発不明がんＴＯ
Ｏ、子宮頸がん、胃がん、白血病、メラノーマ、前立腺がん、甲状腺腎がん、子宮がん、
及びその他の追加がんなどのようなＣＣＧＡ内で収集したサンプルが５件未満のがんを含
む。

【0237】

混同行列は、既知のがんＴＯＯ（ｘ軸に沿って）と予測されたがんＴＯＯ（ｙ軸に沿っ
て）を有するサンプルのがんタイプ間の一致を示す。訓練されたＫＬＲ分類器の性能を検
証するために、各がんタイプのサンプルのコホート（各がんタイプのｙ軸に沿った括弧で
示す）をＫＬＲ分類器で分類した。ｘ軸は、各コホートから何個のサンプルが各がんタイ
プの下に分類されたかを示す。例えば、既知の肺がんを有する２５のサンプルを有してい
る肺がんのコホートでは、ＫＬＲ分類器は、１つのサンプルが卵巣がんを有する、１９の
サンプルが肺がんを有する、２つのサンプルが頭頸部がんを有する、１つのサンプルが膵
臓がんを有する、１つのサンプルが乳がんを有する、及び１つのサンプルが他のがんタイ
プとしてラベルするよう、予測した。特に、他のがんタイプを除くすべてのがんタイプに
対して、ＫＬＲ分類器は、多発性骨髄腫（２／２、１００％）、大腸がん（１８／２０、
９０％）、リンパ腫（８／９、８８．８％）、卵巣がん（４／５、８０％）、肺がん（１
９／２５、７６％）、及び頭頸部がん（３／４、７５％）のがんタイプに対してとりわけ
高い性格性を有する各コホートの半分より上となる正確な予測をした。これらの結果は、
ＫＬＲ分類器の予測精度を論証する。

【0238】

図１１は、いくつかの例示的な実施態様による、合成トレーニングサンプルで訓練され
たがん分類器の性能を比較する表を図示する。分類器Ａは、図６Ｂに従って生成された特
徴ベクトルを用いて訓練される。分類器Ｂは、「Mixture Model for Targeted Sequencin
g.」と題する米国出願第１６／５７９，８０５号に記載された方法論に従って生成された
特徴ベクトルを用いて訓練される。分類器Ｂ＋は、追加された合成トレーニングサンプル
を有する分類器Ｂと同様の特徴づけの実施を指す。様々に訓練された分類器は、９８％の
特異度閾値でホールドアウトセットを用いて評価した。分類器Ｂ＋は，感度０．４８で、
全体として最も良好な性能だった。がんの様々なステージにおいて、分類器Ｂ＋は、また
ステージＩのサンプルで０．１５の感度、ステージＩＩのサンプルで０．３８の感度、ス
テージＩＩＩのサンプルで０．７５の感度、及びステージＩＶのサンプルで０．９１の感
度と，他の分類器よりも良好な性能だった。

【0239】

以下の例で提示する解析に使用したデータは、ＣＣＧＡ臨床研究の一部として収集され
たものである。ＣＣＧＡ［ＮＣＴ０２８８９９７８］は、前向き、多施設、観察的なｃｆ
ＤＮＡベースの早期がん検出研究であり、１４０を超える施設において人口統計学的にバ
ランスのとれた１５０００人を超える参加者が登録された。血液サンプルは、登録時に定
義された、新規に診断された治療歴のないがん（Ｃ、ケース）及びがんと診断されていな
い参加者（非がん［ＮＣ］、コントロール）から収集された。

【0240】

各参加者から採取された血液について、以下の３つのシークエンスアッセイが行われた
。１）一塩基変異／インデルに対するｃｆＤＮＡ及び標的とされた白血球（ＷＢＣ）を対
にしたシークエンス（６０，０００倍、５０７遺伝子パネル）（ＡＲＴシークエンスアッ
セイ）；ジョイントコーラーがＷＢＣ由来の体細胞変異と残存する技術ノイズを除去した
。２）コピー数変化に対するｃｆＤＮＡ及びＷＢＣを対にしたホールゲノムシーケンス（
ＷＧＳ、３５倍）；新規の機械学習アルゴリズムが、がん関連信号スコアの生成し、共同
解析が共有イベントを同定した。３）メチル化に対するｃｆＤＮＡ全ゲノムバイサルファ
イトシーケンス（ＷＧＢＳ、３４倍）；異常メチル化フラグメントを使用して正規化スコ
アを生成した。追加で、４）比較のための腫瘍バリアントの同定のため、全ゲノムシーク
エンス決定（ＷＧＳ、３０倍）が、対になった腫瘍とＷＢＣｇＤＮＡに対して行われるよ
うに、組織サンプルは、がんを有する参加者のみから得た。

【0241】

例１－非がん患者のデータへのがん信号のインシリコスパイキング

【0242】

「インシリコ」データスパイキング実験は、異なる生物学的バックグラウンドに同量の
様々ながん信号をスパイクする効果をテストするために設計された。この実験では、様々
な種類のがんのタイプを有することが知られている対象からの複数のゲノム領域中のそれ
ぞれのゲノム領域にマッピングされた核酸フラグメントシークエンスについてのビンカウ
ントの増加パーセンテージを、非常に低い腫瘍分画を有する対象のサンプルの複数のゲノ
ム領域にマッピングされた核酸フラグメントシークエンスに対して決定した対応するビン
カウントに連続的にスパイクさせた。好都合にも、がん信号を隠す遺伝子座、又はこれら
の遺伝子座の対立遺伝子が既知であるという要件はない。

【0243】

このようにして、がんの時系列的な進展が、「インシリコ」で作成された。相対ビン値
（図１２Ａ～１２Ｃ中の各プロットにおけるＹ軸）に対して訓練したがん分類器から得ら
れるがんの確率によって報告されるようながん信号の発達を、各スパイクデータサンプル
について評価した。この実験で使用された分類器は、米国特許出願公開第２０１９／０２
８７６４９号に記載されており、これは参照により本明細書に組み込まれる。

【0244】

無細胞腫瘍分画の検出不可能なレベルを有する２２人のＣＣＧＡ低腫瘍分画対象を、異
なる種類のがんを有することが知られており、各々が少なくとも１０％の無細胞ＤＮＡ腫
瘍分画を有し、かつがん分類器ががんを有することの少なくとも９０％の確率を提供する
２２人の高腫瘍分画対象とマッチさせ、ＣＣＧＡ研究データから選択した。高腫瘍分画対
象の各々からのビンカウントの増加量を、低腫瘍分画対象の対応するビンカウントに加え
、図１２Ａ～１２Ｃに示す各グラフのＸ軸にプロットしたように、ビンカウントの増加を
伴う４８０セットのがんシリーズデータを形成した。このようなビンカウントは、特定の
ビンにマッピングされるサンプルで観察されるシークエンスの数を表し、各ビンは参照ヒ
トゲノムの一意の部分を表す。そのため、このようなビンカウントは、コピー数変動１３
３の一形態と考えられる（図１Ｂ）。図示すると、図１２Ａ～１２ＣＣにおいて、個体２
８１３は、２２人のＣＣＧＡ低腫瘍分画対象のうちの１人である。この個体について、図
示されたグラフ中に２２本の線がある。グラフ中の各それぞれの線は、２２人の高腫瘍分
画対象のセット中のそれぞれの高腫瘍分画対象の対応する対立遺伝子カウントのプログレ
ッシブスパイク（Ｘ軸）を表す。例えば、線７０２は、第１の高腫瘍分画対象のビンカウ
ントを有する低腫瘍分画対象２８１３のプログレッシブスパイクを表し、線７０４は、第
２の高腫瘍分画対象のがんのビンカウントを有する低腫瘍分画対象２８１３のプログレッ
シブスパイクを表し、線７０６は、第３の高腫瘍分画対象とビンカウントを有する低腫瘍
分画対象２８１３のプログレッシブスパイクを表す、などである。がん系列データの４８
４セットの各々は、複数の２次元点（ｘ、ｙ）を含み、ｘ＝ｔａｒｇｅｔ＿ＴＦであり、
ｙは、それぞれの点に対するビンカウントデータを訓練された分類器に入力した際に訓練
された分類器によって返されるがんを有する確率であり、ビンカウントデータは、次のよ
うに計算された複数のビン中の各ビンｉのそれぞれのビンカウント（ｃｏｕｎｔｓ＿ｎｅ
ｗ_ｉ）を含む。

【0245】

counts_new_i
= (target_TF / actual_TF) * counts_highTF_i + (1 - target_TF / actual TF) *
counts_low TF_i

【0246】

ここで、ｃｏｕｎｔｓ_ｎｅｗ_ｉは、低腫瘍分画対象（例えば、個体１６）のビンｉに
ついて、マッチした高腫瘍分画対象からのビンカウントでスパイクした際の調整されたカ
ウントである。

【0247】

ｔａｒｇｅｔ_ＴＦは、マッチした高腫瘍分画対象からのビンカウントでスパイクした
際の、低腫瘍分画対象（例えば、個体２８１３）についての標的腫瘍分画（グラフのｘ軸
）である。

【0248】

ａｃｔｕａｌ_ＴＦは、マッチした高腫瘍分画対象からのビンカウントでスパイクする
前の低腫瘍分画対象（例えば、個体２８１３）についての実際の腫瘍分画である。

【0249】

ｃｏｕｎｔｓ_ｈｉｇｈＴＦ_ｉは、マッチした高腫瘍分画対象中のビンｉのビンカウン
トである。

【0250】

ｃｏｕｎｔｓ_ｌｏｗＴＦ_ｉは、低腫瘍分画対象（例えば、個体２８１３）中のビンｉ
のビンカウントである。

【0251】

このように、この方法で、図７Ｃのグラフの各線は、個体２８１３の核酸フラグメント
シークエンスカウントへの異なる高腫瘍分画対象のプログレッシブスパイクを表し、かつ
このように、腫瘍分画の進行性を表す。上で論じたように、サンプリングされた各腫瘍画
分に対して、各がんについて、複合対立遺伝子カウント（例えば、マッチしたスパイク対
立遺伝子カウントを有する個体２８１３の）を分類器にかけ、がん状態を有する確率を決
定した（Ｙ軸）。言い換えれば、スパイクされたビンカウントの各インスタンス（図１２
Ａ～１２ＣＣの各グラフの各ラインに対して）を、スパイクされたデータががんを有する
対象から取得されたという確率（ｙ軸）を生成するために、がん分類器によって評価した
。これらの確率は、図１２Ａ～１２Ｃに示されるグラフにおいて、腫瘍分画の関数として
プロットした。

【0252】

図１２Ａ～１２Ｃのグラフで示されるように、所与の模擬サンプルに対して計算された
がんの確率は、（ｉ）模擬腫瘍分画、（ｉｉ）がんタイプ、及び（ｉｉｉ）参照対象（デ
ータががん信号でスパイクされた対象）によって提供されたバックグラウンド信号に依存
している。例えば、図１２Ａ～１２Ｃに拡張されたプロットについて、参照個体２８１３
を参照すると、２２人の高腫瘍分画対象によって表される異なるタイプのがんにわたって
、同定されたがん確率のスパイクを生成するために必要な腫瘍分画に、ほぼ１０フォール
ドの差があることが分かる。例えば、最初のがんからの信号が参照個体の２８１３バック
グラウンド（系列７０２で表される）にスパイクされたとき、０．００１（０．１％）を
ちょうど上回る模擬腫瘍分画において、同定されたがん確率の著しい増加が見られる。し
かしながら、他の２つのがんからの信号がそれぞれ同じバックグラウンドに混入されたと
き（それぞれ系列７０４及び７０６によって表される）、模擬腫瘍分画が０．０１（１％
）を超えるまで、同定されたがん確率の増加は見られない。これは、計算されたがん確率
のがんのタイプへの依存性を論証している。同様に、図１２Ａ～１２Ｃは、計算されたが
ん確率の個人のバックグラウンド信号への依存性がむしろ顕著であることを示す。例えば
、ほとんどの参照バックグラウンドでは、ある特定のがんタイプについて、模擬サンプル
の腫瘍分画が０．０１（１％）を超えるのに到達するまで、がん確率が計算されたスパイ
クインは観察されなかった。しかしながら、そのがんに対するがん信号を個体５１０のデ
ータにスパイクすると、０．０１を大幅に下回る腫瘍分画においてがん確率のスパイクが
観測された。実際、参照個体５１０の計算されたがん確率の検出可能なスパイクは、ほと
んどすべての異なるがんタイプで、かなり早い時期に見られた。対照的に、そのがんタイ
プのがん信号が個体１３１４のデータにスパイクすると、腫瘍分画が０．０１（１％）よ
り著しく高くなるまで、がん確率の増加は観察されなかった。実際、参照個体１３１４の
計算されたがん確率の検出可能なスパイクは、ほとんどのがんタイプにおいて著しく遅れ
るようで見えた。

【0253】

例２－ロジスティック回帰モデルのオーバーフィット

【0254】

分類アルゴリズムがより複雑になり、より大きな特徴セットを使用するようになると、
訓練に必要なトレーニング構成体の数も拡大する。とりわけ、疾患分類器に使用される特
徴の数が増えると、異常値、例えば分類器の特徴空間を定義する超立方体の表面上に存在
する少なくとも１つの特徴値を有しているトレーニング構成体の数もまた増える。これは
、今度は、分類器のオーバーフィッティング及び感度の損失、特に分類器における所与の
疾患信号に対する検出レベル（ＬＯＤ）付近の、をもたらす。例えば、図１５は、モデル
を２０００（１００２）、５０００（１００４）、１０，０００（１００６）、２０，０
００（１００８）、５０，０００（１０１０）、及び１００，０００（１０１２）のトレ
ーニング構成体に対して訓練したとき、分類器で使用される特徴の数が拡大するにつれて
、ある次元に沿って最大化又は最小化する特徴空間のパーセントを表す曲線を示す。点１
０１４で示すように、２５００個の特徴を有する分類器を２０００個のサンプルのトレー
ニングセットで訓練すると、ハイパーキューブの体積のほぼ全てが特徴空間のかどで横に
なる結果を生じる。

【0255】

上述のＣＣＧＡの研究から、数千の特徴で訓練した機械学習分類器はオーバーフィット
していることが観察された。ロジスティック回帰はより厳密なモデルであるため、より単
純なロジスティック回帰モデルに切り替えることで問題を解決できると仮定された。しか
しながら、同じ大きな特徴セットを使用し、ロジスティック回帰モデルを訓練したとき、
同じようにオーバーフィットの問題が観察された。図１４に示すのは、ロジスティック回
帰モデルの省略するクロスバリデーションの９フォールドの結果である。図１４に見られ
るように、モデルは、テストフォールド（０．６～０．７）よりもトレーニング部分（０
．９～１．０）に対して著しく高い感度によって証明されるように、クロスバリデーショ
ンの１つのフォールド以外の全てに対して、オーバーフィットした。

【0256】

ＶＩ．特許を請求可能な主題

【0257】

一態様において、がんを検出するためのモデルを訓練する方法は、複数のトレーニング
サンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプ
ルはがん及び非がんのうちの１つとしてラベルされ、かつ各トレーニングサンプルが複数
の異常なｃｆＤＮＡフラグメントを備える、ステップと、がんとしてラベルされた第１の
トレーニングサンプル及び非がんとしてラベルされた第２のトレーニングサンプルをサン
プリングするステップと、第１のトレーニングサンプルから異常なｃｆＤＮＡフラグメン
トの第１のサブセット、及び第２のトレーニングサンプルから異常なｃｆＤＮＡフラグメ
ントの第２のサブセットをサンプリングすることによって、第１の合成トレーニングサン
プルを生成するステップであって、第１の合成トレーニングサンプルはがんとしてラベル
される、ステップと、各トレーニングサンプルの複数の異常なｃｆＤＮＡフラグメントに
基づいて、第１の合成トレーニングサンプルを含むトレーニングサンプルの各々について
特徴ベクトルを生成するステップと、特徴ベクトル及び第１の合成トレーニングサンプル
を含むトレーニングサンプルのラベルを用いてモデルを訓練し、モデルは、テストサンプ
ルのシークエンシングデータに基づいてテストサンプルについてがん予測を生成するよう
に構成されている、ステップと、を備える。

【0258】

別の態様では、がんを検出する方法は、複数の異常なｃｆＤＮＡフラグメントを含むテ
ストサンプルのシークエンシングデータを受信するステップと、テストサンプルの異常な
ｃｆＤＮＡフラグメントに基づいて、テスト特徴ベクトルを生成するステップと、テスト
特徴ベクトルを分類モデルに入力し、テストサンプルについてのがん予測を生成するステ
ップであって、分類モデルは、複数のトレーニングサンプルのシークエンスデータを受信
するステップであって、各トレーニングサンプルはがん及び非がんのうちの一つとしてラ
ベルされ、各トレーニングサンプルは複数の異常なｃｆＤＮＡフラグメントを含むステッ
プ、がんとしてラベルされた第１のトレーニングサンプルと非がんとしてラベルされた第
２のトレーニングサンプルとをサンプリングするステップ、第１のトレーニングサンプル
から異常なｃｆＤＮＡフラグメントの第１のサブセットを、第２のトレーニングサンプル
から異常なｃｆＤＮＡフラグメントの第２のサブセットを、サンプリングすることによっ
て、第１の合成トレーニングサンプルを生成するステップであって、第１の合成トレーニ
ングサンプルはがんとしてラベルされるステップ、各トレーニングサンプルの複数の異常
なｃｆＤＮＡフラグメントに基づいて、第１の合成トレーニングサンプルを含むトレーニ
ングサンプルの各々に対して特徴ベクトルを生成するステップ、並びに特徴ベクトル及び
第１の合成トレーニングサンプルを含むトレーニングサンプルのラベルを用いてモデルを
訓練するステップ、によって訓練するステップと、を備えることができる。

【0259】

別の態様において、本開示は、疾患状況の判定を容易にする複数の補完的データ構成体
を生成する方法を提供する。本方法は、疾患状況の第１の状態を有する訓練対象の第１の
コホートについての第１の複数のゲノムデータ構成体を含むトレーニングデータセットを
、電子フォームで取得することを含むことができ、第１の複数のゲノムデータ構成体は、
訓練対象の第１のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から
得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数のゲノム特性
についての値を含むそれぞれのゲノムデータ構成体を含む。本方法は、その後、トレーニ
ングデータセットを使用して、複数の補完的データ構成体を生成することを含むことがで
き、ここで、複数の補完的ゲノムデータ構成体中の各それぞれの補完的ゲノムデータ構成
体は、第１の複数のゲノムデータ構成体からの少なくとも１つのそれぞれのゲノムデータ
構成体に対応し、かつ複数の補完的ゲノムデータ構成体中のそれぞれの補完的ゲノムデー
タ構成体は、複数のゲノム特性中のそれぞれのゲノム特性に対して、第１の複数の遺伝子
型データ構成体から少なくともそれぞれのゲノムデータ構成体中のそれぞれのゲノム特性
の値に寄与する核酸フラグメントの確率的サンプリングに由来する増強値を含む。

【0260】

いくつかの実施態様において、トレーニングデータセットは、疾患状況の第１の状態と
は異なる疾患状況の第２の状態を有する訓練対象の第２のコホートに対する第２の複数の
ゲノムデータ構成体を含む。第２の複数のゲノムデータ構成体は、訓練対象の第２のコホ
ート中の各それぞれの訓練対象について、それぞれの訓練対象から得られた対応する生体
サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を含む
それぞれのゲノムデータ構成体を含むことができる。いくつかの実施態様では、本方法は
、少なくとも（ｉ）第１の複数のゲノムデータ構成体、（ｉｉ）第２の複数のゲノムデー
タ構成体、（ｉｉｉ）複数の補完的ゲノムデータ構成体、及び（ｉｖ）第１の複数のゲノ
ムデータ構成体、第２の複数のゲノムデータ構成体、及び複数の補完的ゲノムデータ構成
体中の各それぞれのゲノムデータ構成体に対する疾患状況の状態の指標、を使用して疾患
状況の状態を判別するためにテスト分類器を訓練することを含む。

【0261】

別の態様において、本開示は、テスト対象における疾患状況を判別するための方法を提
供する。本方法は、電子フォームで、テストゲノムデータ構成体を取得することを含むこ
とができる。テストゲノムデータ構成体は、テスト対象から得られた生体サンプル中の対
応する複数の核酸フラグメントの複数のテストゲノム特性中の各ゲノム特性に対する値を
含むことができる。本方法は、その後、テストゲノムデータ構成体を、上述のように訓練
されたテスト分類器に適用し、それによって、テスト対象における疾患状況の状態を判定
することを含むことができる。この方法において、複数のテストゲノム特性は、テスト分
類器に対して訓練される複数の遺伝子型特性を含むことができる。

【0262】

別の態様において、本開示は、疾患状況の判別を容易にする時系列データを生成する方
法を提供する。本方法は、訓練対象の第１のコホートについての第１の複数のゲノムデー
タ構成体を含む第１のトレーニングデータセットを、電子フォームで取得することを含む
ことができる。本方法は、その後、第１のトレーニングデータセットを使用して、訓練対
象の第１のコホート中の各それぞれの訓練対象について、それぞれの第２の時点における
それぞれの訓練対象の代表的な複数のゲノム特性についての値を含むそれぞれの第１の増
強されたゲノムデータ構成体を生成することを含むことができる。それぞれの第１の増強
されたゲノムデータ構成体は、ゲノムデータ構成体の対応する第１の対に対応し、ゲノム
データ構成体の第１の対は、（ｉ）それぞれの訓練対象についてのそれぞれの第１のゲノ
ムデータ構成体、及び（ｉｉ）１つ以上のスパイクインゲノムデータ構成体のセットから
のそれぞれのスパイクインゲノトタイプデータ構成体、を備える。それぞれの第１の増強
されたゲノムデータ構成体は、複数のゲノム特性中のそれぞれのゲノム特性に対して、対
応する第１のゲノムデータ構成体の対の各ゲノムデータ構成体中のそれぞれのゲノム特性
の値に寄与する核酸フラグメントの第１の確率サンプリングに由来する増強値を含むこと
ができる。本方法は、それにより、訓練対象の第１のコホート中の各それぞれの訓練対象
について、それぞれの第１のゲノムデータ構成体及びそれぞれの第１の増強されたゲノム
データ構成体を含むそれぞれの時系列データセットを生成する。

【0263】

いくつかの実施態様において、本方法は、少なくとも（ｉ）訓練対象の第１のコホート
中の各それぞれの訓練対象に対して、それぞれの時系列データセット、（ｉｉ）訓練対象
の第１のコホート中の各それぞれの訓練対象に対して、それぞれの時系列データセット中
の各それぞれのゲノムデータ構成体についてのそれぞれの時点を含むそれぞれの複数の時
点、又はその派生物、並びに（ｉｉｉ）訓練対象の第１のコホート中の各それぞれの訓練
対象に対して、それぞれの複数の時点中の少なくとも最も早いそれぞれの時点及び最も遅
いそれぞれの時点における疾患状況の表示、を使用して疾患状況の状態を判定するために
時間的分類器を訓練することもまた含む。

【0264】

一態様では、本開示は、テスト対象の疾患状況の状態を、疾患状況の状態のセットの中
から判別するための時間的分類アルゴリズムを訓練する方法を提供する。本方法は、複数
の訓練対象中の各それぞれの訓練対象に対して、以下を含むトレーニングデータセットを
、電子フォームで取得することを含む。（１）それぞれの訓練対象についてのそれぞれの
第１のゲノムデータ構成体であって、それぞれの第１のゲノムデータ構成体は、それぞれ
の第１の時点においてそれぞれの訓練対象から得られた第１の生体サンプル中の第１のそ
れぞれの複数の核酸フラグメントの複数の遺伝子型特性についての値を含む、第１のゲノ
ムデータ構成体、（２）それぞれの訓練対象についてのそれぞれの第２のゲノムデータ構
成体であって、それぞれの第２のゲノムデータ構成体は、それぞれの第１の時点後に起こ
るそれぞれの第２の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性につ
いての値を含む、それぞれの第２のゲノムデータ構成体、（３）それぞれの第１の時点及
びそれぞれの第２の時点、又はその派生物、並びに（４）それぞれの第１の時点及びそれ
ぞれの第２の時点における、それぞれの訓練対象の疾患状況のセット中の疾患状況の表示
。本方法は、その後、それぞれの訓練対象に対して、少なくとも（ａ）それぞれの第１の
ゲノムデータ構成体、（ｂ）それぞれの第２のゲノムデータ構成体、（ｃ）それぞれの第
１の時点及びそれぞれの第２の時点、又はその派生物、並びに（ｄ）それぞれの第１の時
点及びそれぞれの第２の時点における疾患状況の表示、に対する時間的分類アルゴリズム
を訓練することを含むことができる。複数の訓練対象中の少なくとも１つのそれぞれの訓
練対象に対して、それぞれの第２のゲノムデータ構成体は、それぞれの訓練対象から得ら
れた第２の生体サンプルからのそれぞれの第２の複数の核酸フラグメント、及び疾患状況
の状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られた
スパイクイン生体サンプルからのそれぞれの第３の複数の核酸フラグメント、からの複数
のゲノム特性についての値を含むことができる。

【0265】

別の態様において、本開示は、対象中の疾患状況を判別するための方法を提供する。本
方法は、テスト対象に対して、電子フォームで、テスト時系列データセットを取得するこ
とを含むことができる。テスト時系列データセットは、（ｉ）複数の時点における各それ
ぞれの時点について、それぞれの時点においてテスト対象から得られた対応する生体サン
プル中の対応する複数の核酸フラグメントの複数のテストゲノム特性についての値を含む
それぞれのテストゲノムデータ構成体、及び（ｉｉ）複数の時点中の各それぞれの連続す
る時点の対に対して、それぞれの連続する時点の対間の時間の長さの指標、を含むことが
できる。本方法は、その後、テスト時系列データセットを、上記のように訓練された分類
器に適用し、それによって、テスト対象における疾患状況の状態を判定することを含むこ
とができる。この方法において、複数のテストゲノム特性は、分類器がそれに対して訓練
された複数のゲノム特性を含む。

【0266】

一態様において、本開示は、テスト対象における疾患状況を判別するために訓練された
分類器の性能を査定する方法を提供する。本方法は、テストゲノムデータ構成体を評価す
ることによって、疾患状況を判別するように訓練された第１の分類器を得ることを含むこ
とができ、テストゲノムデータ構成体は、テスト対象から得られた第１の対応する生体サ
ンプル中の対応する第１の複数の核酸フラグメントの複数のゲノム特性についての値を含
む。本方法は、その後、複数の増強されたゲノムデータ構成体を含む増強された査定デー
タセットを得るすることを含むことができる。複数の増強された遺伝子型データ構成体中
の各それぞれの増強された遺伝子型データ構成体は、疾患状況の複数の状態中の疾患状況
のそれぞれの状態を有する対象から得られた対応する生体サンプルの代表的な対応する複
数の核酸フラグメントの複数のゲノム特性についての値を含むことができる。増強された
査定データセットは、複数の増強された遺伝子型データ構成体中で、複数の疾患状況の状
態中の各それぞれの疾患状況の状態の代表的なそれぞれの増強された遺伝子型データ構成
体を含むことができる。本方法は、増強された査定データセット中の各それぞれの増強さ
れたゲノムデータ構成体を分類器に独立して適用して、各それぞれの増強された遺伝子型
データ構成体に対して疾患状態分類を生成し、それによって複数の疾患状態分類を生成す
ることを更に含むことができる。本方法は、その後、複数の疾患状態分類中の、各それぞ
れの疾患状態分類を、対応する増強されたゲノムデータ構成体によって表される疾患状況
のそれぞれの状態の関数として評価し、それによって、分類器の性能を査定することを含
むことができる。

【0267】

本開示の別の態様は、疾患状況の判別を容易にする複数の補完的データ構成体を生成す
る方法を提供し、この方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロ
セッサによる実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピ
ュータシステムにおいて、少なくとも１つのプログラムが、以下のための命令を備えるこ
とを備える。Ａ）電子フォームで、疾患状況の第１の状態を有する訓練対象の第１のコホ
ートに対する第１の複数の遺伝子型データ構成体を備えるトレーニングデータセットを取
得するステップであって、第１の複数の遺伝子型データ構成体は、訓練対象の第１のコホ
ート中の各それぞれの訓練対象に対して、それぞれの訓練対象から得られた対応する生体
サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を備え
るそれぞれの遺伝子型データ構成体を含む、ステップ；Ｂ）トレーニングデータセットを
使用して、複数の補完的データ構成体を生成するステップであって、複数の補完的遺伝子
型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、第１の複数の遺伝子型
データ構成体からの少なくとも１つのそれぞれの遺伝子型データ構成体に対応し、かつ複
数の補完的遺伝子型データ構成体中の各それぞれの補完的遺伝子型データ構成体は、複数
の遺伝子型特性中の各それぞれの遺伝子型特性に対して、第１の複数の遺伝子型データ構
成体からの少なくとも１つのそれぞれの遺伝子型データ構成体中のそれぞれの遺伝子型特
性の値に寄与する核酸フラグメントの確率サンプリングに由来する増強値を備える、ステ
ップ。

【0268】

いくつかの実施態様では、トレーニングデータセットは、疾患状況の第１の状態とは異
なる疾患状況の第２の状態を有する訓練対象の第２のコホートに対する第２の複数の遺伝
子型データ構成体を更に備え、第２の複数の遺伝子型データ構成体は、訓練対象の第２の
コホート中の各それぞれの訓練対象に対して、それぞれの訓練対象から得られた対応する
生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値を
備えるそれぞれの遺伝子型データ構成体を含み、本方法は、Ｃ）少なくとも（ｉ）第１の
複数の遺伝子型データ構成体、（ｉｉ）第２の複数の遺伝子型データ構成体、（ｉｉｉ）
複数の補完的遺伝子型データ構成体、並びに（ｉｖ）第１の複数の遺伝子型データ構成体
、第２の複数の遺伝子型データ構成体、及び複数の補完的遺伝子型データ構成体中の各そ
れぞれの遺伝子型データ構成体に対する疾患状況の状態の指標、を使用して疾患状況の状
態を判別するためにテスト分類器を訓練するステップ、を更に備える。

【0269】

いくつかの実施態様では、訓練するステップＣ）は、訓練対象の第３のコホートに対し
て第３の複数の遺伝子型データ構成体を使用し、第３の複数の遺伝子型データ構成体は、
訓練対象の第３のコホート中の各それぞれの訓練対象について、それぞれの訓練対象から
得られた対応する複数の生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝
子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含み、第３のコホート
中の各訓練対象は、疾患状況の第３の状態を有する。

【0270】

いくつかの実施態様では、訓練するステップＣ）は、それぞれの訓練対象の１つ以上の
個人的特徴を使用する。

【0271】

いくつかの実施態様において、疾患状況は、がんである。

【0272】

いくつかの実施態様において、がんの第１の状態は、がんの存在であり、かつ、がんの
第２の状態は、がんの非存在である。

【0273】

いくつかの実施態様において、がんの第１の状態は、第１のタイプのがんであり、かつ
、がんの第２の状態は、第２のタイプのがんである。

【0274】

いくつかの実施態様において、がんの第１の状態は、特定のがんの第１のステージであ
り、かつ、がんの第２の状態は、特定のがんの第２のステージである。

【0275】

いくつかの実施態様において、がんの第１の状態は、がんの第１の予後であり、かつ、
がんの第２の状態は、がんの第２の予後である。

【0276】

いくつかの実施態様において、疾患状況は、心血管疾患である。

【0277】

いくつかの実施態様において、心血管疾患の第１の状態は、心血管疾患の存在であり、
かつ心血管疾患の第２の状態は、心血管疾患の非存在である。

【0278】

いくつかの実施態様において、心血管疾患の第１の状態は、心血管疾患の第１の予後で
あり、かつ心血管疾患の第２の状態は、心血管疾患の第２の予後である。

【0279】

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、それぞれのゲノム位置のメチル化状態を備える。

【0280】

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、バリアント対立遺伝子に対する支持を備える。

【0281】

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、相対コピー数を備える。

【0282】

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０００個の遺伝子
型特性を備える。

【0283】

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０，０００個の遺
伝子型特性を備える。

【0284】

いくつかの実施態様において、トレーニングデータセットは、２０，０００個未満の遺
伝子型データ構成体を備える。

【0285】

いくつかの実施態様において、トレーニングデータセットは、２０００個未満の遺伝子
型データ構成体を備える。

【0286】

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、全ゲノムシークエンシングによって得られる。

【0287】

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル
中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって
得られる。

【0288】

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、（ｉ）全ゲノムメチル化シークエンシング又は（
ｉｉ）複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するための複数の
核酸プローブを使用する標的ＤＮＡメチル化シークエンシングによって得られる。

【0289】

いくつかの実施態様において、各対応する生体サンプルは、液体生体サンプルである。

【0290】

いくつかの実施態様において、液体生体サンプルは、血液サンプルである。

【0291】

いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、
無細胞ＤＮＡである。

【0292】

いくつかの実施態様において、確率サンプリングは、単純ランダムサンプリング、層別
ランダムサンプリング、系統的ランダムサンプリング、クラスター化ランダムサンプリン
グ、又はマルチステージランダムサンプリングである。

【0293】

いくつかの実施態様において、確率サンプリングは、複数の遺伝子型特性の値に寄与す
る複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、対応する遺
伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、複数の遺伝子
型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特性に寄与する
核酸フラグメントの存在量に比例する。

【0294】

【0295】

いくつかの実施態様では、複数の補完的データ構成体中の各それぞれの補完的データ構
成体に対して、確率サンプリングは、第１の複数の遺伝子型データ構成体から、それぞれ
のデータ構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグメント
のそれぞれの部分を選択し、かつ核酸フラグメントのそれぞれの部分の大きさは、それぞ
れの補完的データ構成体が、探索的分類器が遺伝子型データ構成体によって表される有益
な核酸フラグメント分画の変化に対する閾値感度を満たす有益な核酸フラグメント分画の
範囲内に入る模擬の有益な核酸フラグメント分画を表すように選択され、探索的分類器は
、複数の遺伝子型特性に基づいて疾患状況の状態の判別するように訓練される。

【0296】

いくつかの実施態様において、有益な核酸フラグメント分画の範囲は、ａ）トレーニン
グデータセットを使用して、複数の増強された探索的遺伝子型データ構成体を生成するス
テップであって、複数の増強された探索的遺伝子型データ構成体中の各それぞれの増強さ
れた探索的遺伝子型データ構成体は、第１の複数の遺伝子型データ構成体からの少なくと
もそれぞれの遺伝子型データ構成体に対応し、複数の増強された探索的遺伝子型データ構
成体中の各それぞれの増強された探索的遺伝子型データ構成体は、複数の遺伝子型特性中
の各それぞれの遺伝子型特性に対して、第１の複数の遺伝子型データ構成体からの少なく
ともそれぞれの遺伝子型データ構成体からのそれぞれの遺伝子型特性の値に寄与する核酸
フラグメントの確率的サンプリングに由来する増強値を備え、複数の増強された探索的遺
伝子型データ構成体中のそれぞれの増強された探索的遺伝子型データ構成体は、第１の複
数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体によって表される有益
な核酸フラグメント分画に基づく模擬の有益な核酸フラグメント割合を表すものであり、
かつ複数の増強された探索的遺伝子型データ構成体によって表される模擬の有益な核酸フ
ラグメント分画の分布は、探索的分類器の検出レベルを下回る第１の有益な核酸フラグメ
ント分画から探索的分類器の検出レベルを上回る第２の情有益な核酸フラグメント分画に
またがる、ステップと、ｂ）複数の増強された探索的遺伝子型データ構成体を探索的分類
器に適用して、複数の模擬疾患状況確率を生成するステップであって、探索的分類器は、
少なくとも（１）疾患状況の第１の状態を有する探索対象の第１のコホート中の各それぞ
れの探索対象に対して、それぞれの探索対象から得られた対応する生体サンプル中の対応
する複数の核酸フラグメントの複数の遺伝子型特性についての値を備えるそれぞれの遺伝
子型データ構成体を含む第１の複数の探索的遺伝子型データ構成体、（２）第２の疾患状
況の状態を有する探索対象のコホート中の各それぞれの探索対象に対して、それぞれの探
索対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の
遺伝子型特性についての値を備えるそれぞれの遺伝子型データ構成体を含む第２の複数の
探索的データ構成体、並びに（３）第１及び第２の複数の探索的遺伝子型データ構成体中
の各それぞれの遺伝子型データ構成体に対して、疾患状況の状態の表示、を使用して疾患
状況の状態を判別するために訓練される、ステップと、ｃ）模擬疾患状況確率が、それぞ
れの増強された探索的遺伝子型データ構成体によって表される情報提供核酸フラグメント
分画における変化に対して最も敏感である有益な核酸フラグメント分画の範囲を特定する
ステップと、によって決定される。

【0297】

いくつかの実施態様では、探索対象の第１のコホート中の探索対象から得られた各それ
ぞれの生体サンプルは、対象の疾患組織の固体のサンプルである。

【0298】

いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的
遺伝子型データ構成体は、対応する遺伝子型構成体の対に対応し、遺伝子型構成体の対は
、（ｉ）第１の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体及び
（ｉｉ）第２の複数の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体から
構成され、かつ補完的複数の遺伝子型データ構成体中のそれぞれの補完的遺伝子型データ
構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、対応する遺伝子
型データ構成体の対の各遺伝子型構成体中のそれぞれの遺伝子型特性の値に寄与する核酸
フラグメントの確率サンプリングに由来する増強値を備える。

【0299】

いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の少なくとも１つのそ
れぞれの補完的遺伝子型データ構成体に対して、第２の複数の遺伝子型データ構成体から
のそれぞれの遺伝子型データ構成体は、それぞれの補完的遺伝子型データ構成体の複数の
遺伝子型特性に対する増強値を導出する前に増強される。

【0300】

いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的
遺伝子型データ構成体に対して、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対
する増強値は、（ｉ）第１の複数の遺伝子型データ構成体からのそれぞれの遺伝子型特性
の第１の重み寄与、及び（ｉｉ）第２の複数の遺伝子型データ構成体からのそれぞれの遺
伝子型特性の第２の重み寄与、から形成される。

【0301】

いくつかの実施態様では、複数の補完的遺伝子型データ構成体中の各それぞれの補完的
遺伝子型データ構成体に対して、遺伝子型データ構成体の対に対応する（ｉ）第１の複数
の遺伝子型データ構成体からのそれぞれの遺伝子型データ構成体に対応するそれぞれの訓
練対象、及び（ｉｉ）第２の複数の遺伝子型データ構成体からのそれぞれの遺伝子型デー
タ構成体に対応するそれぞれの訓練対象は、共有される個人的特徴に基づいてマッチさせ
る。

【0302】

いくつかの実施態様において、本方法は、以下の方法によって、複数の増強された偽陽
性遺伝子型データ構成体を得るステップを更に備える：性能閾値を満たすことができない
性能を有するテスト分類器に対する前駆体によって判別される第２の複数の遺伝子型デー
タ構成体から遺伝子型データ構成体のサブセットを同定するステップ；遺伝子型データ構
成体のサブセットを使用して、複数の増強された偽陽性遺伝子型データ構成体を生成する
ステップであって、複数の増強された偽陽性遺伝子型データ構成体中のそれぞれの増強さ
れた偽陽性遺伝子型データ構成体は、遺伝子型データ構成体のサブセットからの少なくと
もそれぞれの遺伝子型データ構成体に対応し、かつ複数の増強された偽陽性遺伝子型デー
タ構成体中の各それぞれの遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれ
の遺伝子型特性に対して、遺伝子型データ構成体のサブセットからの少なくともそれぞれ
の遺伝子型データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラグメントの
確率サンプリングから得られる増強値を備える、ステップ。ここでテスト分類器を訓練す
るステップ（Ｃ）は、（ｖ）複数の増強された偽陽性遺伝子型データ構成体、及び（ｖｉ
）複数の増強された偽陽性遺伝子型データ構成体中の各それぞれの遺伝子型データ構成体
に対して、疾患状況の表示を使用する。

【0303】

いくつかの実施態様において、テスト分類器は、ロジスティック回帰アルゴリズムであ
る。

【0304】

いくつかの実施態様において、テスト分類器は、ニューラルネットワークアルゴリズム
、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリ
ズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム
、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである
。

【0305】

いくつかの実施態様において、テスト分類器は、少なくとも（ｉ）第１の時点において
テスト対象から取得した第１の生体サンプルから生成された第１のテスト遺伝子型データ
構成体と、（ｉｉ）第２の時点においてテスト対象から取得した第２の生体サンプルから
生成された第２のテスト遺伝子型データ構成体とを必要とする時間的分類器である。

【0306】

いくつかの実施態様において、本方法は、Ｄ）電子フォームで、テスト対象から得られ
る生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性中の各遺伝子
型特性についての値を含むテスト遺伝子型データ構成体を得るステップと、Ｅ）テスト遺
伝子型データ構成体をテスト分類器に適用して、それによってテスト対象における疾患状
況の状態を判定するステップと、を更に備える。

【0307】

いくつかの実施態様では、テスト対象は、適用するステップＥ）の前に、以前に疾患状
況と診断されていない。

【0308】

本開示の別の態様は、テスト対象における疾患状況を判別するための方法を提供し、こ
の方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行の
ための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにお
いて、少なくとも１つのプログラムが、以下のための命令を備えることを備える。Ａ）電
子フォームで、テスト対象から得られた生体サンプル中の対応する複数の核酸フラグメン
トの複数のテスト遺伝子型特性中の各遺伝子型特性についての値を含むテスト遺伝子型デ
ータ構成体を、取得するステップ；Ｂ）テスト遺伝子型データ構成体を請求項２～３９の
いずれか１項に記載の方法に従って訓練したテスト分類器に適用して、それによってテス
ト対象における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性
はテスト分類器がこれに対して訓練された複数の遺伝子型特性を備える、ステップ。

【0309】

いくつかの実施態様において、テスト対象から得られた生体サンプルは、液体生体サン
プルである。

【0310】

いくつかの実施態様において、液体生体サンプルは、血液サンプルである。

【0311】

いくつかの実施態様において、テスト対象から得られた生体サンプル中の複数の核酸フ
ラグメントは、無細胞ＤＮＡである。

【0312】

本開示の別の態様は、疾患状況の判別を容易にする時系列データを生成する方法を提供
し、この方法は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる
実行のための少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステ
ムにおいて、少なくとも１つのプログラムが、以下のための命令を備えることを備える。
Ａ）電子フォームで、第１のトレーニングデータセットを取得するステップであって、第
１のトレーニングデータセットが、訓練対象の第１のコホートに対する第１の複数の遺伝
子型データ構成体であって、第１のトレーニングデータセットは、訓練対象の第１のコホ
ート中の各それぞれの訓練対象について、それぞれの第１の遺伝子型データ構成体がそれ
ぞれの第１の時点においてそれぞれの訓練対象から得られた対応する第１の生体サンプル
中の対応する第１の複数の核酸フラグメントの複数の遺伝子型特性についての値を備え、
それぞれの訓練対象は、それぞれの第１の時点において疾患状況の第１の状態を有する、
第１の複数の遺伝子型データ構成体と、１つ以上のスパイクイン対象のコホートに対する
１つ以上のスパイクイン遺伝子型データ構成体のセットであって、１つ以上のスパイクイ
ン遺伝子型データ構成体のセットが、そのセット又は１つ以上のスパイクイン対象中の各
それぞれのスパイクイン対象について、それぞれのスパイクイン対象から得られた対応す
る生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性についての値
を備え、それぞれのスパイクイン対象は、対応する生体サンプルがそれぞれのスパイクイ
ン対象から得られたときに第２の疾患状況の状態を有したものであり、かつ第１の疾患状
況の状態及び第２の疾患状況の状態が、疾患状況の進行によって関連付けられる、１つ以
上のスパイクイン遺伝子型データ構成体のセットと、を備えるステップ；Ｂ）第１のトレ
ーニングデータセットを使用して、訓練対象の第１のコホート中の各それぞれの訓練対象
について、それぞれの第２の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型
特性についての値を備えるそれぞれの第１の増強された遺伝子型データ構成体を生成する
ステップであって、それぞれの第１の増強された遺伝子型データ構成体は、対応する第１
の遺伝子型データ構成体の対に対応し、第１の遺伝子型データ構成体の対は、（ｉ）それ
ぞれの訓練対象に対するそれぞれの第２の遺伝子型データ構成体と、（ｉｉ）１つ以上の
スパイクイン遺伝子型データ構成体のセットからのそれぞれのスパイクイン遺伝子型デー
タ構成体とから構成され、かつそれぞれの第１の増強された遺伝子型データ構成体は、複
数の遺伝子型特性中のそれぞれの遺伝子型特性に対して、対応する第１の遺伝子型データ
構成体の対の各遺伝子データ構成体中のそれぞれの遺伝子型特性の値に寄与する核酸フラ
グメントの第１の確率サンプリングに由来する増強値を備え、それによって、訓練対象の
第１のコホート中の各それぞれの訓練対象に対して、それぞれの第１の遺伝子型データ構
成体及びそれぞれの第１の増強された遺伝子型データ構成体を備えるそれぞれの時系列デ
ータセットを生成する、ステップ。

【0313】

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの
訓練対象に対して、それぞれの第２の遺伝子型データ構成体は、それぞれの第１の遺伝子
型データ構成体である。

【0314】

いくつかの実施態様では、訓練対象の第１のコホートに中の少なくとも１つのそれぞれ
の訓練対象に対して、それぞれの第２の遺伝子型データ構成体は、第２の時点においてそ
れぞれの訓練対象から得られた対応する第２の生体サンプル中の対応する第２の複数の核
酸フラグメントの複数の遺伝子型特性についての値を備える。

【0315】

いくつかの実施態様において、本方法は、第１のトレーニングデータセットを使用して
、訓練対象中の第１のコホートにおけるそれぞれの訓練対象に対して、それぞれの第３の
時点におけるそれぞれの訓練対象を代表的な複数の遺伝子型特性についての値を備えるそ
れぞれの第２の増強された遺伝子型データ構成体を生成するステップをさらに備え、ここ
で、それぞれの第２の増強された遺伝子型データ構成体は、（ｉ）それぞれの訓練対象に
ついてのそれぞれの第３の遺伝子型データ構成体と、（ｉｉ）１つ以上のスパイクイン遺
伝子型データ構成体のセットからのそれぞれのスパイクイン遺伝子型データ構成体とから
構成される対応する第２の遺伝子型構成体の対に対応し、それぞれの第２の増強された遺
伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対して、対
応する第２の遺伝子型データ構成体の対の各遺伝子型データ構成体中のそれぞれの遺伝子
型特性の値に寄与する核酸フラグメントの第２の確率サンプリングに由来する増強値を備
え、それによって、訓練対象の第１のコホート中の各それぞれの訓練対象に対して、それ
ぞれの第２の増強された遺伝子型データ構成体の包含によるそれぞれの時系列データセッ
トを拡張する。

【0316】

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの
訓練対象に対して、それぞれの第３の遺伝子型データ構成体は、それぞれの第１の遺伝子
型データ構成体である。

【0317】

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの
訓練対象に対して、それぞれの第２の遺伝子型データ構成体は、第２の時点においてそれ
ぞれの訓練対象から得られた対応する第２の生体サンプル中の対応する第２の複数の核酸
フラグメントの複数の遺伝子型特性についての値を備え、かつそれぞれの第３の遺伝子型
データ構成体は、それぞれの第２の遺伝子型データ構成体である。

【0318】

いいくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれ
の訓練対象に対して、それぞれの第３の遺伝子型データ構成体は、第３の時点においてそ
れぞれの訓練対象から得られた対応する第３の生体サンプル中の対応する第３の複数の核
酸フラグメントの複数の遺伝子型特性についての値を備える。

【0319】

いくつかの実施態様では、訓練対象の第１のコホート中のそれぞれの訓練対象に対して
、それぞれの第１の時系列データセットは、第１の疾患状態から第２の疾患状態の発展を
モデル化するためのものであり、第２の時点は、第１の時点の後の時点に対応し、第３の
時点は、第２の時点の後の時点に対応し、核酸フラグメントの第２の確率サンプリングは
、第１の確率サンプリングよりもそれぞれのスパイクイン遺伝子型データ構成体中の遺伝
子型特性の値に寄与する核酸フラグメントの選択に向けてより大きく重み付けされる。

【0320】

いくつかの実施態様において、本方法は、Ｃ）少なくとも（ｉ）訓練対象の第１のコホ
ート中のそれぞれの訓練対象についてのそれぞれの時系列データセット、（ｉｉ）訓練対
象の第１のコホート中のそれぞれの訓練対象に対して、それぞれの時系列データセット中
の各それぞれの遺伝子型データ構成体についてのそれぞれの時点を備えるそれぞれの複数
の時点、又はその派生物、及び（ｉｉｉ）訓練対象の第１のコホート中のそれぞれの訓練
対象についてのそれぞれの複数の時点中の少なくとも最も早いそれぞれの時点及び最も遅
いそれぞれの時点についての疾患状況の表示、を使用して疾患状況の状態を判別するため
にテスト分類器を訓練するステップ、を更に備える。

【0321】

いくつかの実施態様では、訓練するステップＣ）は、それぞれの訓練対象の１つ以上の
個人的特徴を使用する。

【0322】

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの
訓練対象について、それぞれの遺伝子型データ構成体の対中のそれぞれのスパイクイン遺
伝子型データ構成体は、第１の対応する時点の後である第４の対応する時点におけるそれ
ぞれの訓練対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値を備え、かつ第２の対応する時点は第１の対応する時
点と第４の対応する時点との間である。

【0323】

いくつかの実施態様では、訓練対象の第１のコホート中の各それぞれの訓練対象につい
て、対応する遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成
体に対応するスパイクイン対象は、それぞれの訓練対象と異なる対象である。

【0324】

いくつかの実施態様では、訓練対象の第１のコホート中の各それぞれの訓練対象につい
て、対応する遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構成
体に対応するスパイクイン対象は、共有される個人的特徴に基づいてそれぞれの訓練対象
にマッチされる。

【0325】

いくつかの実施態様において、疾患状況は、がんである。

【0326】

いくつかの実施態様において、がんの第１の状態は、がんの存在であり、かつ、がんの
第２の状態は、がんの非存在である。

【0327】

いくつかの実施態様において、がんの第１の状態は、第１のがんのタイプであり、かつ
、がんの第２の状態は、第２のがんのタイプである。

【0328】

【0329】

いくつかの実施態様において、がんの第１の状態は、がんの第１の予後であり、かつ、
がんの第２の状態は、がんの第２の予後である。

【0330】

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの
訓練対象について、それぞれの訓練対象は、それぞれの第１の時点においてがんに罹患し
ておらず、かつ遺伝子型データ構成体の対中のそれぞれのスパイクイン遺伝子型データ構
成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに少なく
とも第２のステージのがんに罹患した対応するスパイクイン対象から得られたものである
。

【0331】

いくつかの実施態様において、疾患状況は、心血管疾患である。

【0332】

【0333】

【0334】

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの
訓練対象について、それぞれの訓練対象は、それぞれの第１の時点において心血管疾患に
罹患しておらず、かつ遺伝型データ構成体の対中のそれぞれのスパイクイン遺伝型データ
構成体は、対応する生体サンプルがそれぞれのスパイクイン対象から得られたときに心血
管疾患に罹患していた対応するスパイクイン対象から得られたものである。

【0335】

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、それぞれのゲノム位置のメチル化状態を備える。

【0336】

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、バリアント対立遺伝子に対する支持を備える。

【0337】

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、相対コピー数を備える。

【0338】

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０００個の遺伝子
型特性を備える。

【0339】

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０，０００個の遺
伝子型特性を備える。

【0340】

【0341】

【0342】

【0343】

いくつかの実施態様では、複数の訓練対象中の各それぞれの訓練対象について、第１の
対応する生体サンプルは、液体生体サンプルである。

【0344】

いくつかの実施態様において、液体生体サンプルは、血液サンプルである。

【0345】

いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、
無細胞ＤＮＡである。

【0346】

【0347】

いくつかの実施態様では、確率サンプリングは、各それぞれの遺伝子型データ構成体の
対中の各遺伝子型データ構成体に対して、複数の遺伝子型特性の対応する値に寄与する対
応する複数の核酸フラグメントの所定の部分の重みランダムサンプリングを備え、ここで
、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメントを選択する確率は、
複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関する対応する遺伝子型特
性に寄与する核酸フラグメントの存在量に比例する。

【0348】

いくつかの実施態様では、訓練対象の第１のコホート中の各それぞれの訓練対象に対応
する第２のそれぞれの遺伝子型データ構成体に対して、確率サンプリングは、第１のそれ
ぞれの遺伝子型構成体中の複数の遺伝子型特性についての値に寄与する複数の核酸フラグ
メントのそれぞれの第１の部分と、それぞれのスパイクイン遺伝子型データ構成体中の複
数の遺伝子型特性についての値に寄与する複数の核酸フラグメントのそれぞれの第２の部
分とを選択し、かつ核酸フラグメントのそれぞれの第１の部分及び核酸フラグメントのそ
れぞれの第２の部分の大きさは、少なくとも（ｉ）第１の時点と第２の時点との間の時間
の長さ、及び（ｉｉ）疾患状況の第１の状態から疾患状況の第２の状態の発展に対する時
間的モデルに基づいて決定される。

【0349】

いくつかの実施態様において、疾患状況の第１の状態から疾患状況の第２の状態の発展
に対する時間的モデルは、それぞれの対象の個人的特徴に少なくとも基づく。

【0350】

いくつかの実施態様において、疾患状況はがんであり、かつ、がんの第１の状態からの
がんの第２の状態の発展に対する時間的モデルは、少なくともがんのタイプに基づく。

【0351】

いくつかの実施態様において、疾患状況はがんであり、がんの第１の状態からのがんの
第２の状態の発展に対する時間的モデルは、がんが転移性であるか又は非転移性であるか
に少なくとも基づく。

【0352】

いくつかの実施態様において、疾患状況はがんであり、かつ、がんの第１の状態からが
んの第２の状態の発展に対する時間的モデルは、ステージに分離される。

【0353】

いくつかの実施態様において、時間的分類器は、ロジスティック回帰アルゴリズムであ
る。

【0354】

いくつかの実施態様において、時間的分類器は、ニューラルネットワークアルゴリズム
、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリ
ズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム
、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである
。

【0355】

いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークで
ある。

【0356】

いくつかの実施態様において、本方法は、Ｄ）電子フォームで、テスト対象に対して、
テスト時系列データセットを取得するステップであって、テスト時系列データセットが、
複数の時点中の各それぞれの時点に対して、それぞれの時点においてテスト対象から得ら
れた対応する生体サンプル中の対応する複数の核酸フラグメントの複数の遺伝子型特性に
ついての値を備える対応するテスト遺伝子型データ構成体と、複数の時点中の各それぞれ
の連続する時点の対に対して、それぞれの連続する時点の対の間の時間の長さの表示とを
備える、ステップ、及びＥ）テスト時系列データセットを時間的分類器に適用して、それ
によってテスト対象における疾患状況の状態を判定するステップ、を更に備える。

【0357】

いくつかの実施態様では、テスト対象は、適用するステップＥ）の前に、以前に疾患状
況と診断されていない。

【0358】

本開示の別の態様は、テスト対象における疾患状況を判別する方法を提供し、この方法
は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための
少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、
少なくとも１つのプログラムが、以下のための命令を備えることを備える。Ａ）電子フォ
ームで、テスト対象に対するテスト時系列データセットを取得するステップであって、テ
スト時系列データセットが、複数の時点中の各それぞれの時点に対して、それぞれの時点
においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメ
ントの複数のテスト遺伝子型特性についての値を備えるそれぞれのテスト遺伝子型データ
構成体と、複数の時点中の各それぞれの連続する時点の対に対して、それぞれの連続する
時点の対の間の時間の長さの指標と、を備えるステップ、及びＢ）テスト時系列データセ
ットを、訓練方法の１つに従って訓練された分類器に適用して、それによってテスト対象
における疾患状況の状態を判定するステップであって、複数のテスト遺伝子型特性は、分
類器がそれに対して訓練された複数の遺伝子型特性を備えるステップ。

【0359】

いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプルは、
液体生体サンプルである。

【0360】

いくつかの実施態様において、液体生体サンプルは、血液サンプルである。

【0361】

いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプル中の
核酸フラグメントは、無細胞ＤＮＡである。

【0362】

本開示の別の態様は、疾患状況の状態のセットの中から、テスト対象の疾患状況の状態
を判別するための時間的分類アルゴリズムを訓練する方法を提供し、方法は、少なくとも
１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための少なくとも１つ
のプログラムを格納するメモリを備えるコンピュータシステムにおいて、少なくとも１つ
のプログラムが、以下のための命令を備えることを備える。Ａ）電子フォームで、複数の
訓練対象中の各それぞれの訓練対象に対して、（１）それぞれの訓練対象に対するそれぞ
れの第１の遺伝子型データ構成体であって、それぞれの第１の遺伝子型データ構成体は、
それぞれの第１の時点においてそれぞれの訓練対象から得られた第１の生体サンプル中の
第１のそれぞれの複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、
第１の遺伝子型データ構成体、（２）それぞれの訓練対象に対するそれぞれの第２の遺伝
子型データ構成体であって、それぞれの第２の遺伝子型データ構成体は、それぞれの第１
の時点の後に起こるそれぞれの第２の時点におけるそれぞれの訓練対象の代表的な複数の
遺伝子型特性についての値を備える、第２の遺伝子型データ構成体、（３）それぞれの第
１の時点及びそれぞれの第２の時点、又はその派生物、並びに（４）それぞれの訓練対象
のそれぞれの第１の時点及びそれぞれの第２の時点における疾患状況のセット中の疾患状
況の表示、を備えるトレーニングデータセットを取得するステップ；Ｂ）それぞれの訓練
対象に対して、少なくとも（ａ）それぞれの第１の遺伝子型データ構成体、（ｂ）それぞ
れの第２の遺伝子型データ構成体、（ｃ）それぞれの第１の時点及びそれぞれの第２の時
点、又はその派生物、並びに（ｄ）それぞれの第１の時点及びそれぞれの第２の時点にお
ける、疾患状況の表示であって、複数の訓練対象中の少なくとも１つのそれぞれの訓練対
象に対して、それぞれの第２の遺伝子型データ構成体が、それぞれの訓練対象から得られ
た第２の生体サンプルからのそれぞれの第２の複数の核酸フラグメント、及び疾患状況の
状態のセット中の疾患状況のそれぞれの状態に罹患したスパイクイン対象から得られたス
パイクイン生体サンプルからのそれぞれの第３の複数の核酸フラグメント、からの複数の
遺伝子型特性についての値を備える、疾患状況の表示、に対して、時間的分類アルゴリズ
ムを訓練するステップ。

【0363】

いくつかの実施態様では、訓練するステップＢ）は、それぞれの訓練対象の１つ以上の
個人的特徴を使用する。

【0364】

いくつかの実施態様では、トレーニングデータセットは、複数の訓練対象中の各それぞ
れの訓練対象に対して、以下を更に含む：（５）それぞれの第２の時点の後に起こるそれ
ぞれの第３の時点におけるそれぞれの訓練対象の代表的な複数の遺伝子型特性についての
値を備える、それぞれの訓練対象についてのそれぞれの第３の遺伝子型データ構成体、（
６）それぞれの第３の時点、又はそれぞれの第２の時点とそれぞれの第３の時点との導出
、並びに（７）それぞれの訓練対象の、それぞれの第３の時点における、疾患状況の状態
のセット中の疾患状況の状態の表示；時間的分類アルゴリズムは、（ｂ１）それぞれの第
３の遺伝子型データ構成体、（ｃ１）それぞれの第３の時点、又はそれぞれの第２の時点
及びそれぞれの第２の時点の派生物、並びに（ｄ１）それぞれの第３の時点におけるそれ
ぞれの訓練対象の疾患状況の状態のセット中の疾患状況の状態の表示に対して更に訓練さ
れ、かつ複数の訓練対象中の少なくとも１つのそれぞれの訓練対象に対して、それぞれの
第３の遺伝子型データ構成体は、それぞれの訓練対象から得られた第３の生体サンプルか
らのそれぞれの第４の複数の核酸フラグメント、及び疾患状況の状態のセット中の疾患状
況のそれぞれの状態を有するスパイクイン対象から得られたスパイクイン生体サンプルか
らのそれぞれの第５の複数の核酸フラグメント、からの複数の遺伝子型特性についての値
を備える。

【0365】

いくつかの実施態様において、それぞれの第２の複数の核酸フラグメント及びそれぞれ
の第４の複数の核酸フラグメントは、それぞれの訓練対象から得られた同じ生体サンプル
からの同じ無細胞核酸である。

【0366】

いくつかの実施態様において、それぞれの第３の複数の核酸フラグメント及びそれぞれ
の第５の複数の核酸フラグメントは、スパイクイン対象から得られた同じスパイクイン生
体サンプルからの同じ無細胞核酸である。

【0367】

いくつかの実施態様において、それぞれの第３の複数の核酸フラグメント及びそれぞれ
の第５の複数の核酸フラグメントは、スパイクイン対象から得られた同じスパイクイン生
体サンプルからの同じ無細胞核酸であり、それぞれの第２の遺伝子型データ構成体中の複
数の遺伝子型特性についての値は、（ｉ）それぞれの第２の複数の核酸フラグメントの複
数の遺伝子型特性についての値と（ｉｉ）それぞれの第３の複数の核酸フラグメントの複
数の遺伝子型特性についての値とのそれぞれの第１の重み混合物を備え、それぞれの第３
の遺伝子型データ構成体中の複数の遺伝子型特性についての値は、（ｉ）それぞれの第２
の複数の核酸フラグメントの複数の遺伝子型特性についての値と（ｉｉ）それぞれの第３
の複数の核酸フラグメントの複数の遺伝子型特性についての値とのそれぞれの第２の重み
混合物を備え、かつそれぞれの第２の重み混合物は、それぞれの第１の重み混合物よりも
それぞれの第３の複数の核酸フラグメントの複数の遺伝子型特性についての値に向けてよ
り大きく重み付けされる。

【0368】

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象のそれぞれの訓練対象
に対して、それぞれの第３の複数の核酸フラグメントは、それぞれの第２の時点の後に起
こるそれぞれの第３の時点においてそれぞれの訓練対象から得られた生体サンプル中の無
細胞核酸である。

【0369】

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象のそれぞれの訓練対象
に対して、スパイクイン対象は、それぞれの訓練対象とは異なる対象である。

【0370】

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象のそれぞれの訓練対象
に対して、スパイクイン対象は、共有される個人的特徴に基づいてそれぞれの訓練対象に
マッチングされる。

【0371】

いくつかの実施態様において、疾患状況は、がんである。

【0372】

いくつかの実施態様において、がんの状態のセット中の第１の状態は、がんの存在であ
り、がんの状態のセット中の第２の状態は、がんの非存在である。

【0373】

いくつかの実施態様において、がんの状態のセット中の第１の状態は、第１のがんのタ
イプであり、がんの状態の集セット中の第２の状態は、第２のがんのタイプである。

【0374】

いくつかの実施態様において、がんの状態のセット中の第１の状態は、特定のがんの第
１のステージであり、がんの状態のセット中の第２の状態は、特定のがんの第２のステー
ジである。

【0375】

いくつかの実施態様において、がんの状態のセット中の第１の状態は、がんの第１の予
後であり、がんの状態のセット中の第２の状態は、がんの第２の予後である。

【0376】

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの
訓練対象について、それぞれの訓練対象は、それぞれの第１の時点においてがんに罹患し
ておらず、それぞれの訓練対象についてのそれぞれの第２の遺伝子型データ構成体は、そ
れぞれの第２の時点においてがんを有するそれぞれの訓練対象の代表であり、かつスパイ
クイン対象は、スパイクイン生体サンプルが得られたときに少なくとも第２のステージの
がんに罹患している。

【0377】

いくつかの実施態様において、疾患状況は、心血管疾患である。

【0378】

いくつかの実施態様において、心血管疾患の状態のセット中の第１の状態は、心血管疾
患の存在であり、かつ心血管疾患のセット中の第２の状態は、心血管疾患の非存在である
。

【0379】

いくつかの実施態様において、心血管疾患の状態のセット中の第１の状態は、心血管疾
患に対する第１の予後であり、かつ心血管疾患の状態のセット中の第２の状態は、心血管
疾患に対する第２の予後である。

【0380】

いくつかの実施態様では、訓練対象の第１のコホート中の少なくとも１つのそれぞれの
訓練対象について、それぞれの訓練対象は、それぞれの第１の時点において心血管疾患に
罹患しておらず、それぞれの訓練対象についてのそれぞれの第２の遺伝子型データ構成体
は、それぞれの第２の時点における心血管疾患を有するそれぞれの訓練対象の代表であり
、かつスパイクイン対象は、スパイクイン生体サンプルが得られたときに心血管疾患に罹
患している。

【0381】

【0382】

【0383】

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置について、相対コピー数を備える。

【0384】

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０００個の遺伝子
型特性を備える。

【0385】

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０，０００個の遺
伝子型特性を備える。

【0386】

【0387】

【0388】

【0389】

いくつかの実施態様において、各生体サンプルは、液体生体サンプルである。

【0390】

いくつかの実施態様において、液体生体サンプルは、血液サンプルである。

【0391】

いくつかの実施態様では、対応する生体サンプル中の複数の核酸フラグメントは、無細
胞ＤＮＡである。

【0392】

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象について、それぞれの
第２の遺伝子型データ構成体は、複数の遺伝子型特性中の各それぞれの遺伝子型特性に対
する、（ｉ）第２の複数の核酸フラグメント中のそれぞれの遺伝子型特性の値に寄与する
核酸フラグメント、及び（ｉｉ）第３の複数の核酸フラグメント中のそれぞれの遺伝子型
特性の値に寄与する核酸フラグメント、の確率サンプリングに由来する増強値を備える。

【0393】

【0394】

いくつかの実施態様において、確率サンプリングは、それぞれの第２の複数の核酸フラ
グメント及びそれぞれの第３の複数の核酸フラグメントの各々に対して、複数の遺伝子型
特性の対応する値に寄与する対応する複数の核酸フラグメントの所定の部分の重みランダ
ムサンプリングを備え、対応する遺伝子型特性の値に寄与するそれぞれの核酸フラグメン
トを選択する確率は、複数の遺伝子型特性の値に寄与する核酸フラグメントの総数に関す
る対応する遺伝子型特性に寄与する核酸フラグメントの存在量に比例する。

【0395】

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象中の各それぞれの訓練
対象に対応するそれぞれの第２の遺伝子型データ構成体について、確率サンプリングが、
複数の遺伝子型特性についての値に寄与するそれぞれの第２の複数の核酸フラグメントの
それぞれの第１の部分と、複数の遺伝子型特性についての値に寄与するそれぞれの第３の
複数の核酸フラグメントのそれぞれの第２の部分とを選択し、かつ核酸フラグメントのそ
れぞれの第１の部分及び核酸フラグメントのそれぞれの第２の部分の大きさは、少なくと
も（ｉ）第１の時点と第２の時点との間の時間の長さ、及び（ｉｉ）疾患状況の状態のセ
ット中の、スパイクイン対象が罹患している疾患状況のそれぞれの状態の発展に対する時
間モデルに基づいて、決定される。

【0396】

いくつかの実施態様では、少なくとも１つのそれぞれの訓練対象中の各それぞれの訓練
対象に対して、それぞれの第２の遺伝子型データ構成体は、ｉ）第２の生体サンプルから
の第２の複数の核酸フラグメントの第１の量と、スパイクイン生体サンプルからの無細胞
核酸の第２の量とを一緒に混合し、それによって無細胞核酸の混合物を形成するステップ
、ｉｉ）無細胞核酸の混合物からの核酸フラグメントをシークエンシングするステップ、
及びｉｉｉ）シークエンシングするステップｉｉ）に基づいて複数のゲノム特性について
の値を決定するステップ、によって形成される。

【0397】

いくつかの実施態様において、第１の量及び第２の量は、少なくとも（ｉ）第１の時点
と第２の時点との間の時間の長さ、及び（ｉｉ）疾患状況の状態のセット中の、スパイク
対象が罹患している疾患状況のそれぞれの状態の発展に対する時間的モデル、に基づいて
、決定される。

【0398】

いくつかの実施態様において、疾患状況のそれぞれの第２の状態の発展に対する時間的
モデルは、それぞれの訓練対象の個人的特徴に少なくとも基づく。

【0399】

いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発
展に対する時間的モデルは、少なくともがんのタイプに基づく。

【0400】

いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発
展に対する時間的モデルは、がんが転移性であるか又は非転移性であるかに少なくとも基
づく。

【0401】

いくつかの実施態様において、疾患状況はがんであり、かつがんのそれぞれの状態の発
展に対する時間的モデルは、ステージに分離される。

【0402】

いくつかの実施態様において、時間的分類器は、ロジスティック回帰アルゴリズムであ
る。

【0403】

【0404】

いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークで
ある。

【0405】

いくつかの実施態様において、本方法は更に以下を備える：Ｃ）電子フォームで、テス
ト対象について、テスト時系列データセットを取得するステップであって、テスト時系列
データセットが、複数の時点中の各それぞれの時点に対する、それぞれの時点におけるテ
スト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグメントの複数
の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体と、複数の時
点中の各それぞれの連続する時点の対に対する、それぞれの連続する時点の対の間の時間
の長さの表示と、を備えるステップ；Ｄ）テスト時系列データセットを時間的分類器に適
用して、それによってテスト対象における疾患状況の状態を判定するステップ。

【0406】

いくつかの実施態様では、適用するステップＤ）の前に、テスト対象は、以前に疾患状
況と診断されていない。

【0407】

本開示の別の態様は、テスト対象における疾患状況を判別する方法を提供し、この方法
は、少なくとも１つのプロセッサ、及び少なくとも１つのプロセッサによる実行のための
少なくとも１つのプログラムを格納するメモリを備えるコンピュータシステムにおいて、
少なくとも１つのプログラムが、以下のための命令を備えることを備える：Ａ）電子フォ
ームで、テスト対象についてのテスト時系列データセットを取得するステップであって、
テスト時系列データセットは、複数の時点中の各それぞれの時点に対する、それぞれの時
点においてテスト対象から得られた対応する生体サンプル中の対応する複数の核酸フラグ
メントの複数の遺伝子型特性についての値を備える対応するテスト遺伝子型データ構成体
と、複数の時点中の各それぞれの連続する時点の対に対する、それぞれの連続する時点の
対の間の時間の長さを示す表示と、を備えるステップ；Ｂ）テスト時系列データセットを
、請求項９６～１３８のいずれか１項に記載の方法に従って訓練された分類器に適用して
、それによってテスト対象における疾患状況の状態を判定するステップであって、複数の
テスト遺伝子型特性は、分類器がそれに対して訓練された複数の遺伝子型特性を備える、
ステップ。

【0408】

いくつかの実施態様において、テスト対象から得られた各それぞれの生体サンプルは、
液体生体サンプルである。

【0409】

いくつかの実施態様において、液体生体サンプルは、血液サンプルである。

【0410】

いくつかの実施態様において、テスト対象から得られた各生体サンプル中の核酸フラグ
メントは、無細胞ＤＮＡである。

【0411】

本開示の別の態様は、テスト対象における疾患状況を判別するために訓練された分類器
の性能を査定する方法を提供し、本方法は、少なくとも１つのプロセッサ、及び少なくと
も１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを
備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命
令を備えることを備える：Ａ）テスト遺伝子型データ構成体を評価することによって、疾
患状況を判別するように訓練された第１の分類器を得るステップであって、テスト遺伝子
型データ構成体は、テスト対象から得られた第１の対応する生体サンプル中の対応する第
１の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、ステップ；Ｂ
）複数の増強された遺伝子型データ構成体を備える増強された評価データセットを取得す
るステップであって、複数の増強された遺伝子型データ構成体中の各それぞれの増強され
た遺伝子型データ構成体は、疾患状況の複数の状態中のそれぞれの疾患状況の状態を有す
る対象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの
複数の遺伝子型特性についての値を備え、増強された評価データセットは、複数の増強さ
れた遺伝子型データ構成体中の複数の疾患状況の状態中の各それぞれの疾患状況の状態の
代表的なそれぞれの増強された遺伝子型データ構成体を含む、ステップ；Ｃ）各それぞれ
の増強された遺伝子型データ構成体に対して疾患状態分類を生成するために、増強された
評価データセット中の各それぞれの増強された遺伝子型データ構成体を分類器に独立して
適用し、それによって複数の疾患状態分類を生成するステップ；Ｄ）複数の疾患状態分類
中のそれぞれの疾患状態分類を、対応する増強された遺伝子型データ構成体によって表さ
れるそれぞれの疾患状況の状態の関数として評価し、それによって分類器の性能を査定す
る、ステップ。

【0412】

本開示の別の態様は、テスト対象における疾患状況を判別するために訓練された分類器
の性能を査定する方法を提供し、本方法は、少なくとも１つのプロセッサ、及び少なくと
も１つのプロセッサによる実行のための少なくとも１つのプログラムを格納するメモリを
備えるコンピュータシステムにおいて、少なくとも１つのプログラムが、以下のための命
令を備えることを備える：Ａ）テスト遺伝子型データ構成体を評価することによって、疾
患状況を判別するように訓練された第１の分類器を得るステップであって、テスト遺伝子
型データ構成体は、テスト対象から得られた第１の対応する生体サンプル中の対応する第
１の複数の核酸フラグメントの複数の遺伝子型特性についての値を備える、ステップ；Ｂ
）複数の増強された遺伝子型データ構成体を備える増強された査定データセットを得るス
テップであって、複数の増強された遺伝子型データ構成体中の各それぞれの増強された遺
伝子型データ構成体は、複数の疾患状況の状態中のそれぞれの疾患状況の状態を有する対
象から得られた対応する生体サンプルの代表的な対応する複数の核酸フラグメントの複数
の遺伝子型特性についての値を備え、増強された査定データセットは、複数の増強された
遺伝子型データ構成体中の、複数の疾患状況の状態中の各それぞれの疾患状況の状態の代
表であるそれぞれの増強された遺伝子型データ構成体を含み、増強された査定データセッ
トは、先の方法のいずれかによる方法によって取得される、ステップ；Ｃ）それぞれの増
強された遺伝子型データ構成体について疾患状態分類を生成するために、増強された評価
データセット中の各それぞれの増強された遺伝子型データ構成体を分類器に独立して適用
し、それによって複数の疾患状態分類を生成するステップ；Ｄ）複数の疾患状態分類中の
各それぞれの疾患状態分類を、対応する増強された遺伝子型データ構成体によって表され
るそれぞれの疾患状況の状態の関数として評価し、それによって分類器の性能を査定する
、ステップ。

【0413】

いくつかの実施態様において、分類器は、ロジスティック回帰アルゴリズムである。

【0414】

いくつかの実施態様において、分類器は、ニューラルネットワークアルゴリズム、サポ
ートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、
ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項
ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである。

【0415】

いくつかの実施態様において、時間的分類器は、リカレントニューラルネットワークで
ある。

【0416】

いくつかの実施態様において、疾患状況は、がんである。

【0417】

いくつかの実施態様において、がんの複数の状態中の各状態は、少なくとも、分類器の
検出レベルより少なくとも２５％下回る無細胞ＤＮＡ腫瘍分画のベースラインパーセンテ
ージから分類器の検出レベルより少なくとも２５％上回る無細胞ＤＮＡ腫瘍分画の上限パ
ーセンテージにまたがる無細胞ＤＮＡ腫瘍分画の範囲内の、無細胞ＤＮＡ腫瘍分画のサブ
範囲を備える。

【0418】

いくつかの実施態様において、疾患状況は、心血管疾患である。

【0419】

いくつかの実施態様において、心血管疾患の複数の状態中の各状態は、少なくとも、分
類器の検出レベルを少なくとも２５％下回る無細胞ＤＮＡ心血管組織画分のベースライン
パーセンテージから分類器の検出レベルを少なくとも２５％上回る無細胞ＤＮＡ心血管組
織分画の上限パーセンテージにまたがる無細胞ＤＮＡ心血管組織分画の範囲内の、無細胞
ＤＮＡ心血管組織分画のサブ範囲を備える。

【0420】

【0421】

【0422】

いくつかの実施態様において、複数の遺伝子型特性は、複数のゲノム位置中の各それぞ
れのゲノム位置に対して、相対コピー数を備える。

【0423】

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０００個の遺伝子
型特性を備える。

【0424】

いくつかの実施態様において、複数の遺伝子型特性は、少なくとも５０，０００個の遺
伝子型特性を備える。

【0425】

【0426】

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、複数のゲノム領域に対して対応する生体サンプル
中の核酸を濃縮するための複数の核酸プローブを使用する標的シークエンシングによって
、得られる。

【0427】

いくつかの実施態様では、各生体サンプルに対して、対応する複数の核酸フラグメント
の複数の遺伝子型特性についての値は、（ｉ）全ゲノムメチル化シークエンスシング又は
（ｉｉ）複数のゲノム領域に対して対応する生体サンプル中の核酸を濃縮するために複数
の核酸プローブを使用する標的ＤＮＡメチル化シークエンシングによって、得られる。

【0428】

いくつかの実施態様において、各生体サンプルは、液体生体サンプルである。

【0429】

いくつかの実施態様において、液体生体サンプルは、血液サンプルである。

【0430】

いくつかの実施態様において、対応する生体サンプル中の複数の核酸フラグメントは、
無細胞ＤＮＡである。

【0431】

ＶＩＩ．追加の考慮事項

【0432】

前述の実施態様の詳細な説明は、本開示の特定の実施態様を示す添付の図面を参照した
ものである。異なる構造及び動作を有する他の実施態様は、本開示の範囲から逸脱しない
。「本発明」等の用語は、本明細書で明らかにされた出願人の発明の多くの代替的な側面
又は実施態様の特定の具体例を参照して使用され、その使用又はその欠落は、出願人の発
明の範囲又は請求項の範囲を制限することを意図していない。

【0433】

本発明の実施態様は、本明細書における操作を行うための装置に関するものであっても
よい。この装置は、必要な目的のために特別に構成されてもよく、及び／又は、コンピュ
ータに格納されたコンピュータプログラムによって選択的にアクティブ化又は在再構成さ
れる汎用のコンピューティングデバイスを備えてもよい。このようなコンピュータプログ
ラムは、非一過性の有形のコンピュータ可読記憶媒体、又は電子命令を格納するのに適し
た任意のタイプの媒体に格納してもよく、この媒体はコンピュータシステムバスに結合さ
れてもよい。さらに、本明細書で言及される任意のコンピューティングシステムは、単一
のプロセッサを含んでもよく、又はコンピューティング能力を高めるためにマルチプルプ
ロセッサ設計を採用したアーキテクチャであってもよい。

【0434】

分析システムによって行われるものとして本明細書に記載されたステップ、操作、又は
プロセスのいずれかが、単独で、若しくは他のコンピューティングデバイスと組み合わせ
て、装置の１つ以上のハードウェア又はソフトウェアモジュールで実施若しくは実装され
てもよい。一実施態様において、ソフトウェアモジュールは、説明されたステップ、操作
、又はプロセスのいずれか若しくはすべてを行うためにコンピュータプロセッサによって
実行することができるコンピュータプログラムコードを包含するコンピュータ可読媒体を
備えるコンピュータプログラム製品で実装される。

【図1A】

【図1B】

【図2A】

【図2B】

【図3】

【図4】

【図5A】

【図5B】

【図6A】

【図6B】

【図7】

【図8】

【図9】

【図10】

【図11】

【図12A】

【図12B】

【図12C】

【図13】

【図14】

【図15】

【手続補正書】

【提出日】2024-07-01

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

がんを検出するためのモデルを訓練する方法であって、該方法は：
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの１つとしてラベルされ、かつ各トレーニングサンプルは複数の異常な核酸フラグメントを備え、前記複数の異常な核酸フラグメントは異常にメチル化されたＤＮＡ部位を有する、ステップと；
がんとしてラベルされた第１のトレーニングサンプル及び非がんとしてラベルされた第２のトレーニングサンプルをサンプリングするステップと；
前記第１のトレーニングサンプルから異常な核酸フラグメントの第１のサブセット、及び前記第２のトレーニングサンプルから異常な核酸フラグメントの第２のサブセットをサンプリングすることによって、第１の合成トレーニングサンプルを生成するステップであって、前記第１の合成トレーニングサンプルはがんとしてラベルされる、ステップと；
各トレーニングサンプルの前記複数の異常な核酸フラグメントに基づいて、前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの各々について特徴ベクトルを生成するステップと；
前記特徴ベクトル及び前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの前記ラベルを用いて前記モデルを訓練するステップであって、前記モデルは、前記複数の異常な核酸フラグメントの１つ以上に対する発生組織予測を生成するように構成される、ステップと；
を備える、方法。

【請求項2】

請求項１に記載の方法であって、前記第１の合成トレーニングサンプルを生成するステップは：
複数のゲノム領域の各ゲノム領域に対して、前記ゲノム領域に重なる前記第１のトレーニングサンプルから異常な核酸フラグメントを第１のサンプリング確率でサンプリングし、かつ前記ゲノム領域に重なる前記第２のトレーニングサンプルから異常な核酸フラグメントを前記第１のサンプリング確率に対して相補的である第２のサンプリング確率でサンプリングするステップ；
を備える、方法。

【請求項3】

請求項２に記載の方法であって、前記第１のサンプリング確率及び前記第２のサンプリング確率は、前記訓練されたモデルの検出限界に従って設定される、方法。

【請求項4】

請求項１に記載の方法であって、前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの各々について前記特徴ベクトルを生成するステップは、
追加のゲノム情報を用いて各ベクトルを増強するステップ、及び
前記発生組織予測を生成するための前記モデルを、前記増強された特徴ベクトルに基づいて訓練するステップ、
を更に備える、方法。

【請求項5】

請求項１に記載の方法であって、前記特徴ベクトル及び前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの前記ラベルを用いて訓練された前記モデルは、追加的に、前記生成された発生組織予測に対するがん予測を生成するように構成される方法。

【請求項6】

請求項１に記載の方法であって、特徴ベクトルの各特長は、複数のＣｐＧ部位のうちの１つのＣｐＧ部位に対応し、かつ前記第１のトレーニングサンプル及び前記第１の合成トレーニングサンプルは、第１のがんタイプのラベルを有し、前記トレーニングサンプルの各々について特徴ベクトルを生成するステップは、
前記特徴に対応する前記ＣｐＧ部位と重なり、かつ閾値尤度を超える尤度を有する異常な核酸フラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定すること、
を備える、方法。

【請求項7】

請求項１に記載の方法であって、前記トレーニングサンプルの各々について特徴ベクトルを生成するステップは、各異常なｃｆＤＮＡフラグメントについて、前記異常なｃｆＤＮＡフラグメントが前記異常なｃｆＤＮＡフラグメントの複数のＣｐＧ部位における複数のメチル化状態に確率モデルを適用することによって、がん生体サンプルに由来する尤度を決定すること、を備える、方法。

【請求項8】

請求項１に記載の方法であって、前記方法は、
異常フラグメントのセットを生成するために、ｐ値フィルタリングによる各トレーニングサンプルのｃｆＤＮＡフラグメントの初期セットをフィルタリングするステップであって、前記フィルタリングは、他のフラグメントに関して閾値を下回るｐ値を有するフラグメントを前記初期セットから除去し、異常なフラグメントの前記セットを作り出すことを備える、ステップ、
を更に備える、方法。

【請求項9】

請求項１記載の方法であって、前記訓練されたモデルは、ニューラルネットワークアルゴリズム、サポートベクトルマシンアルゴリズム、ナイーブベイズアルゴリズム、最近傍アルゴリズム、ブースト木アルゴリズム、ランダムフォレストアルゴリズム、決定木アルゴリズム、多項ロジスティック回帰アルゴリズム、線形モデル、又は線形回帰アルゴリズムである、方法。

【請求項10】

請求項１に記載の方法であって、前記核酸フラグメントは、無細胞デオキシリボース核酸（「ｃｆＤＮＡ」）フラグメントである、方法。

【請求項11】

システムであって、該システムは：
コンピュータプロセッサと；
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項１～１０のいずれかの方法を行なわせる命令と；
前記命令を格納する非一時的コンピュータ可読記憶媒体と；
を備える、システム。

【請求項12】

がんを検出するための方法であって、該方法は：
複数の異常な核酸フラグメント、すなわちＣｐＧ部位の異常なメチル化を有する複数の異常な核酸フラグメント、を含むテストサンプルのシークエンシングデータを受信するステップと；
前記テストサンプルの前記複数の異常な核酸フラグメントに基づいて、テスト特徴ベクトルを生成するステップと；
前記テスト特徴ベクトルを分類モデルに入力し、前記テストサンプルについてのがん予測を生成するステップであって、前記分類モデルを、
複数のトレーニングサンプルのシークエンシングデータを受信するステップであって、各トレーニングサンプルはがん及び非がんのうちの１つとしてラベルされ、各トレーニングサンプルは複数の異常な核酸フラグメントを含む、ステップ、
がんとしてラベルされた第１のトレーニングサンプルと非がんとしてラベルされた第２のトレーニングサンプルとをサンプリングするステップ、
前記第１のトレーニングサンプルから異常な核酸フラグメントの第１のサブセットと、前記第２のトレーニングサンプルから異常な核酸フラグメントの第２のサブセットとをサンプリングすることによって、第１の合成トレーニングサンプルを生成するステップであって、前記第１の合成トレーニングサンプルはがんとしてラベルされる、ステップ、
各トレーニングサンプルの前記複数の異常な核酸フラグメントに基づいて、前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの各々について特徴ベクトルを生成するステップ、並びに
前記特徴ベクトル、及び前記第１の合成トレーニングサンプルを含む前記トレーニングサンプルの前記ラベルを用いて、前記モデルを訓練するステップ、
によって訓練する、ステップと；
を備える、方法。

【請求項13】

請求項１２に記載の方法であって、前記がん予測は、がんと非がんとの間の二値予測である、方法。

【請求項14】

請求項１２に記載の方法であって、前記がん予測は、複数のがんタイプ間のマルチクラスがん予測である、方法。

【請求項15】

請求項１２に記載の方法であって、特徴ベクトルの各特徴は、複数のＣｐＧ部位のＣｐＧ部位に対応し、かつ前記トレーニングサンプルの各々に対する特徴ベクトルを生成するステップは：
前記特徴に対応する前記ＣｐＧ部位と重なり、かつ閾値尤度を上回る尤度を有する異常な核酸フラグメントのカウントに従って、前記特徴ベクトルの各特徴を決定するステップ、
を備える、方法。

【請求項16】

請求項１５に記載の方法であって、各特徴ベクトルは、前記トレーニングサンプルのシークエンス深度に従って正規化される、方法。

【請求項17】

請求項１２に記載の方法であって、前記分類モデルを：
異常なフラグメントのセットを生成するために、ｐ値フィルタリングによる各トレーニングサンプルのｃｆＤＮＡフラグメントの初期セットをフィルタリングするステップであって、前記フィルタリングは、他のフラグメントに関して閾値を下回るｐ値を有するフラグメントを前記初期セットから除去して異常なフラグメントの前記セットを生成することを備える、ステップ；
によって更に訓練する、方法。

【請求項18】

システムであって、該システムは：
コンピュータプロセッサと；
前記コンピュータプロセッサによって実行されると、前記プロセッサに請求項１２～１７のいずれかの方法を行なわせる命令と；
前記命令を格納する非一時的コンピュータ可読記憶媒体と；
を備える、システム。

【外国語明細書】

知財求人

知財求人お知らせサービス

知財のニュースを調べる
- 知財ニュース
- 知財周辺ニュース
企業の特許を調べる
知財のセミナーを調べる
知財,特許事務所への求職・転職
特許事務所をさがす
弁理士試験を受ける
- 年の弁理士試験情報
- 弁理士試験の合格率など統計
知財の法律をしらべる
期限日をしらべる
- 今日に対して意見書・補正書の期限
- 今日に対して審査請求期限日
知財の判決をしらべる
コンテンツ・リンク
運営会社
プレスの皆様へ
- お問い合わせ
ユーザーの皆様
- お問い合わせ・フィードバック
広告掲載を希望の皆様へ
- 広告掲載について
- 求人広告の掲載について

IP Force 特許公報掲載プロジェクト 2022.1.31 β版