特許7506380 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ コーネル・ユニバーシティーの特許一覧 ▶ ニューヨーク　ゲノム　センターの特許一覧 ▶ ザ・ブロード・インスティテュート・インコーポレイテッドの特許一覧

特許7506380残存病変の検出システム及び方法

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
2A
2B
3A
3B
3C
3D
3E
3F
3G
3H
3I
3J
3K
4
5A
5B
5C
5D
6A
6B
6C

6D

6E

7A
7B
7
8
9
10A
10B
10C
10D
10E
11A
11B
11C
11D
11E
11F
11G
11H
11I
11J

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-18

(45)【発行日】2024-06-26

(54)【発明の名称】残存病変の検出システム及び方法

(51)【国際特許分類】

G16B 20/00 20190101AFI20240619BHJP

C12Q 1/68 20180101ALI20240619BHJP

G16H 50/00 20180101ALI20240619BHJP

【ＦＩ】

G16B20/00

C12Q1/68

G16H50/00

【請求項の数】 34

(21)【出願番号】P 2020567472

(86)(22)【出願日】2019-02-27

(65)【公表番号】

(43)【公表日】2021-08-12

(86)【国際出願番号】 US2019019907

(87)【国際公開番号】W WO2019169044

(87)【国際公開日】2019-09-06

【審査請求日】2022-02-25

(31)【優先権主張番号】62/636,150

(32)【優先日】2018-02-27

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】508057896

【氏名又は名称】コーネル・ユニバーシティー

【氏名又は名称原語表記】ＣＯＲＮＥＬＬＵＮＩＶＥＲＳＩＴＹ

(73)【特許権者】

【識別番号】520325821

【氏名又は名称】ニューヨークゲノムセンター

(73)【特許権者】

【識別番号】515236259

【氏名又は名称】ザ・ブロード・インスティテュート・インコーポレイテッド

(74)【代理人】

【識別番号】100107766

【弁理士】

【氏名又は名称】伊東忠重

(74)【代理人】

【識別番号】100070150

【弁理士】

【氏名又は名称】伊東忠彦

(74)【代理人】

【識別番号】100135079

【弁理士】

【氏名又は名称】宮崎修

(72)【発明者】

【氏名】ランドー，ダンアヴィ

(72)【発明者】

【氏名】ジヴィラン，アサフ

(72)【発明者】

【氏名】アダルシュタインソン，ヴィクターエー．

【審査官】岡北有平

(56)【参考文献】

【文献】米国特許出願公開第２０１６／００３２３９６（ＵＳ，Ａ１）

【文献】Steven T. Kothen-Hill, et al.，Deep learning mutation prediction enables early stage lung cancer detection in liquid biopsy，ICLR 2018 Conference [online]，2018年02月16日，pages 1-24，[検索日：2023年3月3日], <URL:https://openreview.net/forum?id=H1DkN7ZCZ>

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

Ｇ１６Ｈ５０／００

Ｃ１２Ｑ１／６８

(57)【特許請求の範囲】

【請求項1】

それが必要な被験体の残存病変の検出方法であって、以下の：
（Ａ）被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド読取一覧を受け取る工程であって、前記第１生物学的試料は、ベースライン試料及び正常細胞試料を含み、前記第１被験体特異的ゲノムワイド読取一覧は各々、単一塩基対長の読取を含み、前記ベースライン試料は、腫瘍試料又は血漿試料を含む；
（Ｂ）前記第１被験体特異的ゲノムワイド読取一覧から、参照健常試料のコホートにわたって生成された反復部位の除去、及び／又は正常細胞試料の末梢血単核細胞の生殖細胞系変異の同定、及び前記第１被験体特異的ゲノムワイド読取一覧からの前記生殖細胞系変異の除去を含む、前記第１被験体特異的ゲノムワイド読取一覧から人工的部位をフィルタリングする工程；
（Ｃ）前記被験体の第２生物学的試料中の遺伝子マーカーに関連する第２被験体特異的ゲノムワイド読取一覧由来の読取を検出し、前記第２生物学的試料中の遺伝子マーカーの腫瘍関連ゲノムワイドの一覧を生成する工程；
（Ｄ）少なくとも１つのエラー抑制プロトコルを用いて、前記第１及び第２の被験体特異的ゲノムワイド読取一覧由来のノイズをフィルタリングする工程であって、前記第１被験体特異的ゲノムワイド読取一覧のための第１フィルタリング済み読取一覧、及び前記第２被験体特異的ゲノムワイド読取一覧のための第２フィルタリング済み読取一覧を生成する工程であって、少なくとも１つのエラー抑制プロトコルは、
（ａ）第１及び第２の抑制におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算する工程、及び、前記変異を除去する工程であって、前記確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせからなる群から選択される特徴の関数として計算される工程、及び／又は、（ｂ）ポリメラーゼ連鎖反応又は配列決定処理から生成される同一ＤＮＡ断片の独立した複製間の不一致試験を用いて人工的変異を除去する工程、及び／又は、所定の重複ファミリーの大部分が一致しない場合に人工的変異が同定及び除去される重複コンセンサスを含む、工程；
（Ｅ）１又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用する、第１及び第２のフィルタリング済み読取セットを用いた前記第１及び第２の生物学的試料の推定腫瘍率（ｅＴＦ）の計算工程；かつ、
（Ｆ）前記第２生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、前記被験体中の残存腫瘍を検出する工程、を含む方法。

【請求項2】

それが必要な被験体の残存病変の検出方法であって、以下の：
（Ａ）被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド読取一覧を受け取る工程であって、前記第１生物学的試料がベースライン試料を含み、前記第１被験体特異的ゲノムワイド読取一覧が各々コピー数変異（ＣＮＶ）又は構造的変異（ＳＶ）を含み、前記ベースライン試料が腫瘍試料又は血漿試料を含む；
（Ｂ）前記被験体の第２生物学的試料から遺伝子マーカーに関連する第２被験体特異的ゲノムワイド読取一覧を受け取る工程であって、前記第２生物学的試料は末梢血単核細胞試料（ＰＢＭＣ）を含み、前記第２被験体特異的ゲノムワイド読取一覧は各々ＣＮＶ又はＳＶを含む；
（Ｃ）前記第１及び第２の被験体特異的ゲノムワイド読取一覧から人工的部位をフィルタリングする工程であって、前記フィルタリングは、前記第１及び第２の被験体特異的ゲノムワイド読取一覧から、参照健常試料のコホートに生じた反復部位を除去する工程；第１及び第２の一覧で共有するＣＮＶ／ＳＶを生殖細胞系変異として同定する工程；及び前記変異を前記第１及び第２の被験体特異的ゲノムワイド読取一覧から除去する工程を含み；
（Ｄ）前記被験体の第３生物学的試料中の遺伝子マーカーに関連する第３被験体特異的ゲノムワイド読取一覧由来の読取を検出し、前記第３生物学的試料中の遺伝子マーカーの腫瘍関連ゲノムワイドの読取一覧を生成する工程；
（Ｅ）前記第１、第２及び第３の被験体特異的ゲノムワイド読取一覧の各々を正規化して、前記第１被験体特異的ゲノムワイド読取一覧のための第１フィルタリング済み読取セット、前記第２被験体特異的ゲノムワイド読取一覧のための第２フィルタリング済み読取セット、及び前記第３被験体特異的ゲノムワイド読取一覧のための第３フィルタリング済み読取セットを生成する工程；
（Ｆ）前記第３生物学的試料の推定腫瘍率（ｅＴＦ）を、第３フィルタリング済み読取りセットを用いて、バックグラウンドノイズモデルを１又はそれ以上の統合的数学的モデルに適用することにより計算する工程であって、前記１又はそれ以上のモデルは、第１フィルタリング済み読取りセットを用いて第１ｅＴＦを生成し、及び／又は１又はそれ以上のモデルは第２フィルタリング済み読取りセットを用いて第２ｅＴＦを生成し；かつ、
（Ｇ）前記第３生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、前記被験体中の残存腫瘍を検出する工程、を含む方法。

【請求項3】

それが必要な被験体の残存腫瘍を検出するシステムであって、以下の：
分析ユニットであって、
プレフィルタエンジンであって、
被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド読取一覧を受けとるように、ここで、前記第１生物学的試料は、ベースライン試料及び正常試料を含み、前記第１被験体特異的ゲノムワイド読取一覧は各々、単一塩基対長の読取を含み、前記ベースライン試料は、腫瘍試料又は血漿試料を含み；かつ、
前記第１被験体特異的ゲノムワイド読取一覧から参照健常試料のコホートにわたって生成された反復部位を除去し、及び／又は正常細胞試料の末梢血単核細胞における生殖細胞系変異を同定し、及び前記第１被験体特異的ゲノムワイド読取一覧から前記生殖細胞系変異を除去することを含む、前記第１被験体特異的ゲノムワイド読取一覧から人工的部位をフィルタリングするように、構成されかつ配置されたプレフィルタエンジンを含むプレフィルタエンジン；及び、
補正エンジンであって、
前記被験体の第２生物学的試料中の遺伝子マーカーの第２被験体特異的ゲノムワイド読取一覧を受け取り、前記第２生物学的試料中の遺伝子マーカーに関連する腫瘍関連ゲノムワイド一覧を生成するように；かつ
少なくとも１つのエラー抑制プロトコルを用いて、前記第１被験体特異的ゲノムワイド読取一覧のための第１フィルタリング済み読取一覧、及び前記第２被験体特異的ゲノムワイド読取一覧のための第２フィルタリング済み読取一覧を生成する前記第１及び第２の被験体特異的ゲノムワイド読取一覧からノイズをフィルタリングするように、ここで、少なくとも１つのエラー抑制プロトコルは、（ａ）第１及び第２の抑制におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、前記変異を除去し、ここで、前記確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせからなる群から選択される特徴の関数として計算され；及び／又は（ｂ）ポリメラーゼ連鎖反応又は配列決定処理から生じた同一ＤＮＡ断片の独立した複製間の不一致試験を用いて、人工的変異を除去し、及び／又は、人工的変異が同定され、かつ、所定の重複ファミリーの大部分が一致しない場合に除去される；構成されかつ配置された補正エンジンを含む分析ユニット、並びに
演算ユニットであって、
１又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、第１及び第２のフィルタリング済み読取セットを用いて、前記第１及び第２の生物学的試料の推定腫瘍率（ｅＴＦ）を計算するように；かつ
前記第２生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、前記被験体中の残存腫瘍を検出するように、構成及び配置される演算ユニット；
を含む、システム。

【請求項4】

それが必要な被験体の残存腫瘍を検出するシステムであって、以下の：
プレフィルタエンジンであって、
被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド読取一覧を受け取るように、ここで、前記第１生物学的試料はベースライン試料を含み、前記第１被験体特異的ゲノムワイド読取一覧は各々単一塩基対長の読取を含み、前記ベースライン試料は腫瘍試料又は血漿試料を含み；
前記被験体の第２生物学的試料から遺伝子マーカーに関連する第２被験体特異的ゲノムワイド読取一覧を受け取るように、ここで、前記第２生物学的試料は末梢血単核細胞試料（ＰＢＭＣ）を含み、前記第２被験体特異的ゲノムワイド読取一覧は各々コピー数変異（ＣＮＶ）を含み；かつ、
前記第１及び第２の被験体特異的ゲノムワイド読取一覧の人工的部位のフィルタリングをするように、ここで、前記フィルタリングは、前記第１及び第２の被験体特異的ゲノムワイド読取一覧から、参照健常試料のコホートに生じた反復部位を除去し；前記第１及び第２の被験体特異的ゲノムワイド読取一覧で共有されたＣＮＶを生殖細胞系変異として同定し、及び前記変異を前記第１及び第２の被験体特異的ゲノムワイド読取一覧から除去することを含み；構成されかつ配置されたプレフィルタエンジン、及び
補正エンジンであって、
前記被験体の第３生物学的試料中の遺伝子マーカーに関連する第３被験体特異的ゲノムワイド読取一覧由来の読取を受け取り、前記第３生物学的試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成するように；かつ、
前記第１、第２及び第３の被験体特異的ゲノムワイド読取一覧を各々正規化して、前記第１被験体特異的ゲノムワイド読取一覧のための第１フィルタリング済み読取セット、前記第２被験体特異的ゲノムワイド読取一覧のための第２フィルタリング済み読取セット、及び前記第３被験体特異的ゲノムワイド読取一覧のための第３フィルタリング済み読取セットを生成するように；構成されかつ配置された補正エンジン、及び、
演算ユニットであって、
１又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、
第１及び第２のフィルタリング済み読取セットを用いて、前記第１及び第２の生物学的試料の推定腫瘍率（ｅＴＦ）を計算するように；かつ
前記第３生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、前記被験体中の残存腫瘍を検出するように、構成及び配置される演算ユニット；
を含む、システム。

【請求項5】

前記マーカーが単一ヌクレオチド変異（ＳＮＶ）又は挿入／欠失（ｉｎｄｅｌｓ；インデル）
；好ましくはＳＮＶを含む、請求項１に記載の方法。

【請求項6】

参照健常試料のコホート上で生成された反復部位をフィルタリングする工程は、正常（ＰＯＮ）ブラックリスト又はマスクのパネルを生成することを含む、請求項１に記載の方法。

【請求項7】

正常試料が末梢血単核細胞（ＰＢＭＣ）を含み、ＰＢＭＣにおける生殖細胞系変異が人工的部位のフィルタリング工程（Ｂ）で除去される、請求項１記載の方法。

【請求項8】

工程（Ａ）において、前記第１生物学的試料が、前記被験体から手術前又は治療前に得られる血漿試料を含む、請求項１に記載の方法。

【請求項9】

工程（Ｃ）において、前記第２生物学的試料が、治療後又は手術後の前記同一の被験体から得られる血漿試料を含む、請求項１に記載の方法。

【請求項10】

工程（Ｄ）が、機械学習（ＭＬ）アルゴリズム、例えば、深層畳込ニューラルネットワーク（ＣＮＮ）、反復ニューラルネットワーク（ＲＮＮ）、無作為フォレスト（ＲＦ）、サポートベクタマシン（ＳＶＭ）、判別分析、最近傍分析（ＫＮＮ）、アンサンブル分類器、又はそれらの組み合わせ；好ましくは、サポートベクタマシン（ＳＶＭ）を用いて、人工的ノイズをフィルタリングすることを含む、請求項１に記載の方法。

【請求項11】

工程（Ｄ）において、１つのエラー抑制プロトコルを用いて、前記第２被験体特異的ゲノムワイド読取一覧のための第２フィルタリング済み読取一覧を作製することが、同一の元の核酸断片の独立した複製の比較を用いて、ＰＣＲ又は配列決定により生成された人工的変異の補正を含む、請求項１に記載の方法。

【請求項12】

工程（Ｄ）において、対－末端１５０ｂｐ配列決定により生成された人工的変異の補正の結果、重複する対読取（Ｒ１及びＲ２）が生じ、Ｒ１及びＲ２対間の不一致が、対応する参照ゲノムに戻される、請求項１１に記載の方法。

【請求項13】

工程（Ｄ）において、１つのエラー抑制プロトコルを用いて、前記第２被験体特異的ゲノムワイド読取一覧のための第２フィルタリング済み読取一覧を作製することは、配列決定及び／又はＰＣＲ増幅の間に生成された重複ファミリーの補正を含み、前記重複ファミリーは、５’及び３’類似性並びにアラインメント位置により認識され、前記重複ファミリーは各々、独立した複製にわたる特定変異コンセンサスのチェックに用いられ、それにより、前記重複ファミリーの大部分で一致がない人工的変異を補正する、請求項１に記載の方法。

【請求項14】

工程（Ｅ）において、数学的モデルが、カバレッジ、変異負荷、検出された変異数及び前記腫瘍画分（ＴＦ）の間の関係を統合する、請求項１に記載の方法。

【請求項15】

工程（Ｅ）において、バックグラウンドノイズの計算は、（１）健常な血漿試料のコホート（パネル－オブ－ノーマル又はＰＯＮ）で予測されるノイズ分布、又は（２）他の患者で予測されるノイズ分布（患者間分析）を計算するために、患者特異的変異パターンを用いることを含む、請求項１に記載の方法。

【請求項16】

前記バックグラウンドノイズモデルが、人工的変異検出率の推定平均値及び標準偏差（μ、σ）を提供する、請求項１５に記載の方法。

【請求項17】

断片サイズシフトを含む二次的特徴の直交積分をさらに含む、請求項１、２及び５～１６のいずれか一項に記載の方法。

【請求項18】

腫瘍特異的マーカー及び無作為マーカーのリストにおける患者内断片サイズシフトが、統計学的方法、例えば有意性又は結合ガウス混合モデル（ＧＭＭ）の検定を用いて分析される、請求項１７に記載の方法。

【請求項19】

前記マーカーがコピー数変異（ＣＮＶ）を含む、請求項２に記載の方法。

【請求項20】

参照健常試料のコホート上で生成された反復部位をフィルタリングすることが、正常（ＰＯＮ）ブラックリスト又はマスクのパネルを生成することを含む、請求項２に記載の方法。

【請求項21】

ＰＢＭＣ中の生殖細胞系イベントが、人工的部位フィルタリング工程（Ｃ）において除去される、請求項２記載の方法。

【請求項22】

工程（Ａ）において、前記第１生物学的試料が、手術前又は治療前に被験体から得られた血漿試料を含み、前記第２生物学的試料が、手術前又は治療前に前記被験体から得られたＰＢＭＣを含む、請求項２に記載の方法。

【請求項23】

工程（Ｃ）において、前記第３生物学的試料が、治療後又は手術後の前記同一の被験体から得られる血漿試料を含む、請求項２に記載の方法。

【請求項24】

（Ｃ）において、体細胞腫瘍ＣＮＶ（ｓＴ＿ＣＮＶ）及び体細胞ＰＢＭＣ＿ＣＮＶ（ｓＰ＿ＣＮＶ）のすべてのゲノムセグメントを含む関心領域（ＲＯＩ）をビニング（５００ｂｐ以上のウインドウ）する工程と、追跡血漿試料から各ウインドウにおける深度カバレッジ（読取カウント）を推定する工程と、ウインドウ当たりの前記深度カバレッジの中央値を計算する工程とを含む、請求項２に記載の方法。

【請求項25】

追跡血漿試料が、手術後、治療中、又は追跡時に得られる、請求項２に記載の方法。

【請求項26】

前記第１、第２及び第３の被験体特異的ゲノムワイド読取一覧の各々を正規化することは、ビンワイズＧＣ分画及びマッピング性スコア上で２つのＬＯＥＳＳ回帰曲線フィッティングを行うことにより、深度カバレッジ値を正規化し、ＧＣ含有量及びマッピング性バイアスを補正することを含む、請求項２に記載の方法。

【請求項27】

前記第１、第２及び第３の被験体特異的ゲノムワイド読取一覧の各々を正規化することは、前記試料各々に別々に適用される安定ｚスコア正規化を用いたバッチ効果補正を含む、請求項２に記載の方法。

【請求項28】

前記安定ｚスコアの正規化が、前記試料各々の中性領域に基づく中央値及び中央値絶対偏差（ＭＡＤ）の計算を含み、すべてのＣＮＶビンの正規化が、中央値を差し引いてＭＡＤで除することにより正規化される、請求項２７に記載の方法。

【請求項29】

工程（Ｅ）が、正常（ＰＯＮ）健常血漿試料のパネルと比較して、前記第３生物学的試料における深度カバレッジスキュー及び／又は断片サイズ質量中心（ＣＯＭ）スキューを計算する工程を含む、請求項２に記載の方法。

【請求項30】

工程（Ｅ）が、腫瘍試料で検出された累積シグナルと比較して、追跡血漿試料で検出された累積シグナルの間の線形希釈比をチェックすることにより、腫瘍画分を計算することを含む、請求項２に記載の方法。

【請求項31】

工程（Ｆ）において、前記バックグラウンドノイズモデルは、（１）健常な血漿試料のコホート（パネル・オブ・ノーマル又はＰＯＮ）で予測されるノイズ分布、又は（２）他の患者で予測されるノイズ分布（患者間分析）を計算するため、患者特異的ＣＮＶ／ＳＶパターンを用いることを含む、請求項２に記載の方法。

【請求項32】

前記バックグラウンドノイズモデルが、人工的ＳＮＶ／ＳＶ検出率の推定平均値及び標準偏差（μ、σ）を提供する、請求項３１に記載の方法。

【請求項33】

断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、請求項２に記載の方法。

【請求項34】

ＣＮＶセグメントにおける深度カバレッジスキューと断片サイズスキューとの間の相関を、例えば、一般化線形モデル（ＧＬＭ）を用いて、分析して、腫瘍画分を推定する、請求項３３に記載の方法。

【発明の詳細な説明】

【技術分野】

【0001】

〔関連出願の相互参照〕
本出願は、その全内容が参照により本明細書に援用される、２０１８年２月２７日に出願された米国特許出願第６２／６３６，１５０号の優先権を主張する。
〔技術分野〕
本開示の実施形態は、一般に、医療診断の分野に関する。特に、本開示の態様は、腫瘍検出及び診断用組成物、方法、及びシステムに関する。

【背景技術】

【0002】

死にゆく細胞から放出された無細胞循環ＤＮＡ（ｃｆＤＮＡ）により、臨床目的の体細胞ゲノムとエピゲノムの経時的動態調査が可能である。単なる採血により生検を獲得しうるため、非侵襲的な方法で動的ゲノム測定が可能である。肺組織等の接近不能な場合の空間的限界を克服しうる。

【0003】

細胞非含有ＤＮＡ（ｃｆＤＮＡ）と混同しないように、循環腫瘍ＤＮＡ（ｃｔＤＮＡ）はがん患者の血液中に見られ、測定しうる。ｃｔＤＮＡは、腫瘍量及び治療又は手術に対する反応の変化と相関することが示されている（非特許文献１）。ｃｔＤＮＡは、早期非小細胞肺がん（ＮＳＣＬＣ）でも検出可能であり、従って、ＮＳＣＬＣの診断及び治療を変革しうる（非特許文献２～５）

【0004】

ｃｆＤＮＡに基づくがん研究が将来有望視される主な領域の１つは、臨床的介入を導入する残存病変（ＲＤ）の検出である。例えば、外科的切除後の残存病変検出により、臨床医及び患者が高価かつ高毒性の補助療法の決定しうる。しかしながら、低負荷の腫瘍、例えば微小残存病変（ＭＲＤ）の場合、腫瘍画分（ＴＦ）は有意に低い。低ＴＦｃｆＤＮＡの変異を検出すべく、汎用されるパラダイムは、限定された高収量標的セット（例えば、約１０，０００～１００，０００読取（reads）／塩基の深度まで配列決定される一般的ながんドライバー又は患者特異的パネル）の配列決定の深度を高めることであり、さらに、分子的及び分析的アプローチは、配列決定誤差を減少させ、低腫瘍画分（ＴＦ）での検出の感度改善のため、超深層配列決定と統合される。

【0005】

当該最先端の方法は、いくつかの例では高精度の検出を提供するが、これらは、検出感度を低下させる根本的制限－入力材料の制限－により妨げられる。ＭＲＤでは、腫瘍量は低く、通常の血漿試料には１～１０ｎｇ／ｍｌのｃｆＤＮＡしか含まれない。少量のｃｆＤＮＡは、わずか数百～数千のゲノム等価物でしかない。したがって、超深層配列決定（例えば、１００，０００Ｘ）に依存する一般的技術では、試料中に存在する各部位を凌駕する物理的断片数が限定されるため（例えば、６ｎｇのｃｆＤＮＡ中に１０００ゲノム当量）、効果がない場合もある。極めて深部配列決定と高度な分子誤差抑制を用いても、限られた入力材料では、検出限界は０．１～１％未満の腫瘍画分（ＴＦ）頻度である。このように、腫瘍負荷が低いがんの検出は、患者及び臨床医にとって臨床的に有益であるが、体細胞変異の同定に依存する既存の方法は、腫瘍由来のｃｆＤＮＡ試料が低頻度であるため、重大な課題に直面する。

【0006】

従って、腫瘍の検出を可能にする低侵襲システム及び方法、特に、限られた入力材料での微小残存病変（ＭＲＤ）の診断の文脈における要は、緊急性が高いものの充足されていない。残存腫瘍の状況（例えば、手術及び／又は治療後）における腫瘍の効果的な診断は、経済的及び臨床的観点ら有益である。多くの患者は転帰が不良な進行期疾患と診断されるため（非特許文献６）、肺がんに関しては特にこれが当てはまる。

【先行技術文献】

【非特許文献】

【0007】

【文献】Diehl et al., Nature medicine, 14(9):985-990, 2008

【文献】Sozzi et al., Journal of Clinical Oncology, 21(21), 3902-3908, 2003

【文献】Tie et al., Science translational medicine, 8(346):346ra92-346ra92, 2016

【文献】Bettegowda et al., Science translational medicine, 6(224): 224ra24-224ra24, 2014

【文献】Wang et al., Clinical Cancer Research, 16(4): 1324-1330, 2010

【文献】Herbst et al., N Engl J Med., 359(13):1367-80, 2008

【発明の概要】

【0008】

本開示は、被験体の試料（例えば、血漿試料又は血液試料）中の腫瘍特異的マーカーの分析により残存腫瘍疾患を診断する方法及びシステムに関する。本開示の方法は、アルゴリズム及び／又は統計分類器を利用して、いくつかのパラメータに基づき、品質マーカーと人工的ノイズを区別する。例えば、マーカーが単一ヌクレオチド変異（ＳＮＶ）である場合、本開示のアルゴリズムは、例えば、ＳＮＶの塩基品質（ＢＱ）及びＳＮＶのマッピング品質（ＭＱ）等のマーカーの定性的特徴に基づき、被験体の遺伝的一覧内の当該ＳＮＶをシグナル又はノイズとして分類する。同様に、マーカーがコピー数変異（ＣＮＶ）である場合、アルゴリズムは、セントロメア近接性、ｃｆＤＮＡカバレッジマスクとの重複、及び／又はＣＮＶと低いマッピング性（マッピング品質；ＭＱ）読取値との関連等のパラメータに基づき、一覧中のＣＮＶをシグナル又はノイズとして分類する。従って、被験体の遺伝的一覧から、人工的ノイズと関連する可能性が高いマーカーが除去され、高品質マーカーが、試料中の腫瘍画分を推定しうる安定な統合的数学的モデルを介して処理される。推定腫瘍画分がある閾値を超えることが判明した場合、陽性診断の確信度が高くなる。対照的に、推定腫瘍画分が閾値を下回る場合、その時点では陽性診断はしない。

【0009】

この文脈では、腫瘍の様々な割合が１％～０．００１％（１／１００，０００）の範囲である肺患者からの腫瘍と正常な全ゲノム配列データの合成混合物を用いて呼出す血漿体細胞変異のシミュレート試験は、本方法の強度及び精度が既存技術を上回ることが明らかである。

【0010】

本開示はまた、配列決定で検出される変異体が真の体細胞変異ではなく、むしろ配列決定又はマッピング技術の人工体であることを示唆しうる複数のインジケータに関する。この文脈では、以前の研究では、配列決定エラーが無作為でなく、おそらく配列決定技術の結果として生じるＤＮＡ配列の文脈及び技術的要因に関連することが示された。配列決定の忠実度は、各配列決定－読取長でも制限され、読取長が増加するにつれてエラー率が高まる。読取が参照ゲノムにマッピングされると、誤りが生じる場合がある。マッピングの過程は、ゲノムが可変領域、モチーフ、反復可能なエレメントを有する事実により計算が集中的であり、複雑である。短ヌクレオチドの読取は、２つ以上の位置にマップされることもあれば、全くマップされないこともある。ゲノムデータの配列決定／マッピングの既存の方法論に関する当該制限は、本開示のシステム及び方法を用いて修正しうる。本開示のインジケータは、（ｉ）低塩基品質；及び／又は（ｉｉ）低マッピング品質、（ｉｉｉ）読取変異位置、及び（ｉｖ）ＳＮＶマーカーの場合には読取断片サイズ、及び（１）ゲノム位置スコア、（２）ｃｆＤＮＡカバレッジマスク（ブラックリスト）、（３）低マッピング品質、（４）ＣＮＶマーカーの場合にはＬｏｇ２と読取群断片サイズの間の相関等の複数の要因を分析して、エラーから真の変異を呼出しうる。

【0011】

腫瘍関連バイオマーカーの検出用の本発明のシステム及び方法は、特に、低存在量マーカーの検出に適用される。第１に、モデルは、マーカーのタイプに関連する品質測定基準と、その検出に用いられるシステム／方法、並びに推定腫瘍画分（ｅＴＦ）を計算する、被験体固有のパラメータを考慮に入れる。例えば、マーカーがＳＮＶの場合、統合的数学的モデルは、推定カバレッジ及びノイズ等のプロセス品質測定基準、並びに変異負荷等の被験体特異的パラメータを考慮に入れる。ＣＮＶの場合、統合的数学的モデルは、推定腫瘍画分（ｅＴＦ）の計算に、ＣＮＶの方向性等の被験体固有の特徴（例えば、増幅は正の因子であり、欠失は負の因子である）とともに、指標因子を考慮する。従って、本開示の分析アプローチは、残存病変が正確にかつ非侵襲的に診断され得るよう、ゲノムワイド変異情報を統合して、ｃｆＤＮＡを含む試料の高感度分析を可能にする。

【0012】

従って、本開示は以下の非限定的な実施形態に関する：

【0013】

様々な実施形態では、それが必要な被験体の残存病変の検出方法が提供される。本方法は、被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド読取一覧を受け取りうる。前記第１生物学的試料は、ベースライン試料及び正常細胞試料を含みうる。第１読取一覧は各々、単一塩基対長（例えば、ＳＮＶ又はＩｎｄｅｌ）の読取を含み、前記ベースライン試料は、腫瘍試料又は血漿試料を含みうる。本方法は、さらに、第１読取一覧から人工的部位をフィルタリングする工程を含みうる。前記フィルタリングは、前記遺伝子マーカーの第１一覧から、参照健常試料のコホートにわたって生成された反復部位の除去を含みうる。及び／又は正常細胞試料の末梢血単核細胞の生殖細胞系変異の同定、及び前記遺伝子マーカーの第１一覧からの前記生殖細胞系変異の除去を含みうる。本方法は、さらに、前記被験体の第２生物学的試料中の遺伝子マーカーの第２被験体特異的ゲノムワイド一覧由来の読取を検出し、第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイドの一覧を生成する工程を含みうる。本方法は、さらに、第１及び第２のゲノムワイド読取一覧由来のノイズをフィルタリングする工程を含みうる。前記フィルタリング工程は、少なくとも１つのエラー抑制プロトコルを用いて、第１ゲノムワイド読取一覧用の第１フィルタリング済み読取一覧、及び第２ゲノムワイド読取一覧用の第２フィルタリング済み読取一覧を生成する工程を含みうる。少なくとも１つのエラー抑制プロトコルは、（ａ）第１及び第２の抑制におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、前記変異を除去する工程を含みうる。前記確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせからなる群から選択される特徴の関数として計算しうる。及び／又は、少なくとも１つのエラー抑制プロトコルは、ポリメラーゼ連鎖反応又は配列決定処理から生成される同一ＤＮＡ断片の独立した複製間の不一致試験を用いて人工的変異を除去する工程を含みうる。前記不一致試験及び／又は、重複コンセンサスを含みうる。この場合、所定の重複ファミリーの大部分が一致しない場合に人工的変異が同定及び除去される。本方法は、さらに、１又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用する、第１及び第２のフィルタリング済み読取セットを用いた第１及び第２の生物学的試料の推定腫瘍率（ｅＴＦ）の計算を含みうる。本方法は、さらに、第２生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、被験体中の残存腫瘍を検出する工程を含みうる。

【0014】

様々な実施形態では、それが必要な被験体の残存病変の検出方法が提供される。本方法は、（Ａ）被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド読取一覧を受け取る工程を含みうる。前記生物学的試料は、ベースライン試料を含みうる。第１読取一覧は各々、単一塩基対長の読取を含み、前記ベースライン試料は、腫瘍試料又は血漿試料を含む。本方法は、さらに、被験体の第２生物学的試料から遺伝子マーカーに関連する第２被験体特異的ゲノムワイド読取一覧を受け取る工程を含みうる。第２生物学的試料は、末梢血単核細胞試料（ＰＢＭＣ）を含みうる。前記遺伝子マーカーの第２一覧は各々コピー数変異（ＣＮＶ）を含みうる本方法は、さらに、第１及び第２の読取一覧から人工的部位をフィルタリングする工程を含みうる。前記フィルタリングは、前記遺伝子マーカーの第１及び第２一覧から、参照健常試料のコホートにわたって生成された反復部位の除去を含みうる。及び／又は前記フィルタリングは、第１及び第２一覧で共有されたＣＮＶを生殖細胞系変異として同定し、前記変異を読取の第１及び第２の一覧から除去しうる。本方法は、さらに、被験体の第３生物学的試料中の前記遺伝子マーカーの第３被験体特異的ゲノムワイドの一覧由来の読取を検出し、前記第３試料中の前記遺伝子マーカーの腫瘍関連ゲノムワイド一覧の生成を含みうる。本方法は、さらに、第１、第２及び第３読取一覧の各々を正規化して、第１ゲノムワイド読取一覧用の第１フィルタリング済み読取セット、第２ゲノムワイド読取一覧用の第２フィルタリング済み読取セット、及び第３ゲノムワイド読取一覧用の第３フィルタリング済み読取セットを生成する工程を含みうる。本方法はさらに、前記第３フィルタリング済み読取セットを用いて、１又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、第３生物学的試料の推定腫瘍画分（ｅＴＦ）を計算する工程を含みうる。１又はそれ以上のモデルは、第１フィルタリング済み読取セットを用いて第１ｅＴＦを生成するように構成でき、又は第２フィルタリング済み読取セットを用いて第２ｅＴＦを生成する１又はそれ以上のモデルを構成しうる。本方法は、さらに、第３生物学的試料中の推定腫瘍画分が経験的閾値を超える場合、被験体中の残存病変を検出する工程を含みうる。

【0015】

いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法に関する。残存病変の検出は、治療中の微小残存病変の検出を含むことが好ましい。特に、本開示は、（ａ）切除手術後、（ｂ）治療中又は治療後、（ｃ）治療有効性のモニター中、（ｄ）腫瘍の反復又は再発のモニター中、又は（ｅ）それらの組み合わせの１又はそれ以上の残存病変の検出に関する。特に、本開示は、化学療法、免疫療法、標的療法又はそれらの組み合わせの治療中又は治療後の残存病変の検出；及び／又は当該治療の有効性のモニタリング過程に関する。

【0016】

いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法であって、以下の：（Ａ）被験体の生物学的試料から複数の遺伝子マーカー由来の被験体特異的ゲノムワイド遺伝子マーカーの一覧を受け取る工程であって、前記生物学的試料は腫瘍試料及び場合によっては、正常試料を含み、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（Ｉｎｄｅｌｓ；インデル）、コピー数変異、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（Ｂ）前記被検体の第２生物学的試料中の遺伝子マーカーの前記被験体特異的ゲノムワイド一覧を検出し、前記第２試料中の前記遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程、（Ｃ）ゲノムワイド遺伝子マーカーの一覧から、人工的ノイズマーカーをフィルタリングする工程を含み、前記フィルタリングは、１）ＳＮＶを含む読取群のマッピング品質（ＭＱ）、２）ＳＮＶを含む読取群の断片サイズ長、３）ＳＮＶ又はＩｎｄｅｌを含む読取重複ファミリー内のコンセンサス試験、４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）の関数として、前記一覧の各ＳＮＶ又はＩｎｄｅｌをシグナル又はノイズとして統計的に分類し、及び／又は、大要の各ＣＮＶ又はＳＶウインドウを、１）セントロメアに対する位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、３）ｃｆＤＮＡマスク（ブラックリスト）と重複に基づき、統計的にシグナル又はノイズとして分類し、ノイズの検出確率（Ｐ_Ｎ）を算出し；Ｄ）１又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分（ｅＴＦ）を計算する工程、及び、Ｅ）推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程を含む。前記方法のいくつかの実施形態では、（１）ＳＮＶマーカーについては、推定されたＴＦ（ｅＴＦ［ＳＮＶ］）は、推定されたゲノムカバレッジ及び配列決定ノイズを、変異負荷（Ｎ）を含む患者特異的パラメータと統合して計算され；及び（２）ＣＮＶマーカーは、推定されたＴＦ（ｅＴＦ［ＣＮＶ］）は、腫瘍ＣＮＶ方向性に一致して歪んだカバレッジの方向性深度を統合して計算され、ここで、コピー数の増幅は正に歪み、コピー数の欠失は負に歪む。いくつかの実施形態では、マーカーのＢＱ、ＭＱ及び断片サイズフィルタは、ＲＯＣ曲線を用いて最適化される。いくつかの実施形態では、本方法は、組合せ塩基品質マッピング品質（ＢＱＭＱ）フィルタを用いることを含む。

【0017】

いくつかの実施形態では、本開示の残存病変検出方法は、被験体の腫瘍試料及び非腫瘍試料を含む正常試料を含む生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取ることにより実施される。いくつかの実施形態では、本方法は、被験体の腫瘍試料及び被験体の末梢血単核細胞（ＰＭＢＣ）を用いて、マーカーのゲノムワイド一覧を生成することを含む。特に、遺伝子マーカーのゲノムワイド一覧は、被験体の試料（例えば、腫瘍試料）及び対照試料（例えば、ＰＭＢＣ）を全ゲノム配列決定して作成される。好ましくは、被験体の腫瘍試料は、切除腫瘍、例えば、乳房切除術、前立腺摘除術、皮膚病変切除術、小腸切除術、胃切除術、開胸術、副腎摘出術、結腸切除術、卵巣摘出術、甲状腺摘出術、子宮摘出術、舌切除術、又は結腸ポリープ切除術、好ましくは開胸術等の手術後に除去される固形腫瘍を含む。

【0018】

いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法であって、以下の：（Ａ）被験体の生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は、腫瘍試料及び場合によっては正常細胞試料を含み、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（インデル）、コピー数変異、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択される、生物学的試料は腫瘍試料及び場合により正常細胞試料を含み、前記遺伝子マーカー一覧は、被験体の第２生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧生成する工程と、（Ｃ）ゲノム由来の人工的ノイズマーカーをフィルタリングする工程であって、１）ＳＮＶを含む読取群のマッピング品質（ＭＱ）、２）ＳＮＶを含む読取群の断片長、３）ＳＮＶ又はＩｎｄｅｌを含む読取重複ファミリー内のコンセンサス試験、４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）の関数として、ノイズ（Ｐ_Ｎ）の検出確率に基づいて、各ＳＮＶ又はＩｎｄｅｌをシグナル又はノイズとして統計的に分類することにより、及び／又は、１）セントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、３）ｃｆＤＮＡマスク（ブラックリスト）との重複に基づいて、シグナル又はノイズとして統計的に分類することにより、フィルタリングする工程；Ｄ）１又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分（ｅＴＦ）を計算する工程、及び、（Ｅ）推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程を含む。ここで、前記読取群は、特定のＳＮＶ又はｉｎｄｅｌ部位をカバーする読取セット、又は特定のＣＮＶ又はＳＶゲノムウインドウに含まれる読取セットを含む。いくつかの実施形態では、正常細胞試料は、ＰＭＢＣ、唾液試料、毛髪試料、又は皮膚試料を含む。いくつかの実施形態では、被験体はヒトであり、被験体の第２生物学的試料は、血液、脳脊髄液、胸水、眼液、便、尿、又はそれらの組み合わせから選択される生物学的物質を含む。

【0019】

本開示のいくつかの実施形態では、腫瘍試料は、切除腫瘍又は穿刺吸引（ＦＮＡ）試料、スナップ凍結組織、最適当断温度化合物（ＯＣＴ）包埋組織、又はホルマリン固定パラフィン包埋（ＦＦＰＥ）組織を含む。

【0020】

本開示のいくつかの実施形態では、正常試料は、末梢血単核細胞（ＰＭＢＣ）又は唾液又は皮膚試料を含む。

【0021】

本開示のいくつかの実施形態では、複数の遺伝子マーカーは、被験体の生物学的試料及び対照試料を全ゲノム配列決定して受け取られる。

【0022】

本開示のいくつかの実施形態では、腫瘍遺伝子マーカーの一覧は、高い変異率及び／又は高い数のＳＮＰ、インデル、ＣＮＶ又はＳＶ、例えば、少なくとも１、少なくとも２、少なくとも３、少なくとも５、少なくとも７、少なくとも１０及びそれ以上、例えば、メガベースペア当たり約１５個のＳＮＰ若しくはインデル、又は累積サイズが少なくとも５メガベースペア（ＭＢＰ）、少なくとも７ＭＢＰ、少なくとも１０ＭＢＰ又は以上、例えば累積サイズが約１５ＭＢＰであるＣＮＶ／ＳＶ、を含む。

【0023】

いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法であって、以下の：（Ａ）被験体の生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は、腫瘍試料及び場合によっては正常細胞試料を含み、ここで、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（インデル）、コピー数変異、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択され、（Ｂ）前記被験体の第２生物学的試料中の遺伝子マーカーの前記被験体特異的ゲノムワイド一覧を検出して、第２試料中の遺伝子マーカー腫瘍関連ゲノムワイド一覧を生成する工程；（Ｃ）ゲノム由来の人工的ノイズマーカーをフィルタリングする工程であって、１）ＳＮＶを含む読取群のマッピング品質（MQ）、２）ＳＮＶを含む読取群の断片長、３）ＳＮＶ又はＩｎｄｅｌを含む読取重複ファミリー内のコンセンサス試験、４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）の関数として、ノイズ（Ｐ_Ｎ）の検出確率に基づいて、各ＳＮＶ又はＩｎｄｅｌをシグナル又はノイズとして統計的に分類することにより、及び／又は、１）セントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、３）ｃｆＤＮＡマスク（ブラックリスト）との重複に基づいて、シグナル又はノイズとして統計的に分類することにより、フィルタリングする工程；Ｄ）１又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分（ｅＴＦ）を計算する工程、及び、（Ｅ）推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程であって、ここで、前記経験的ノイズモデルは、正常健常試料での検出エラーレートの測定で定義され、かつ基本ノイズｅＴＦ推定に変換される、方法である。

【0024】

本開示のいくつかの実施形態では、ｅＴＦ推定ノイズ閾値は、０．０００１（１０^－４）～０．０００００１（１０^－６）である。

【0025】

いくつかの実施形態では、本開示は、それが必要な被験体の残存病変の検出方法であって、以下の：（Ａ）被験体の生物学的試料から複数の遺伝子マーカー由来の体細胞系遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は腫瘍試料及び正常細胞試料を含み、ここで、前記遺伝子マーカー一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（Ｉｎｄｅｌｓ）、コピー数変異、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（Ｂ）その後、前記被験体の血漿試料を含む第２生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出する工程であって、前記第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程；（Ｃ）ゲノム由来の人工的ノイズマーカーをフィルタリングする工程であって、１）ＳＮＶを含む読取群のマッピング品質（ＭＱ）、２）ＳＮＶを含む読取群の断片長、３）ＳＮＶ又はＩｎｄｅｌを含む読取重複ファミリー内のコンセンサス試験、４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）の関数として、ノイズ（Ｐ_Ｎ）の検出確率に基づいて、各ＳＮＶ又はＩｎｄｅｌをシグナル又はノイズとして統計的に分類することにより、及び／又は、１）セントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、３）ｃｆＤＮＡマスク（ブラックリスト）との重複に基づいて、シグナル又はノイズとして統計的に分類することにより、フィルタリングする工程；Ｄ）１又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分（ｅＴＦ）を計算する工程、及び、（Ｅ）推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程を含む。いくつかの実施形態では、正常細胞試料は、ＰＭＢＣ、唾液試料、毛髪試料、又は皮膚試料を含む。いくつかの実施形態では、被験体はヒトであり、前記被験体の前記第２生物学的試料は、血液、脳脊髄液、胸水、眼液、便、尿、又はそれらの組み合わせから選択される生物学的物質を含む。いくつかの実施形態では、マーカーのＢＱ、ＭＱ及び断片サイズフィルタは、ＲＯＣ曲線を用いて最適化される。いくつかの実施形態では、本方法は、組み合わされた塩基品質マッピング品質（ＢＱＭＱ）フィルタを用いることを含む。

【0026】

いくつかの実施形態では、残存病変の検出は、患者治療、観察又はモニター期間中の患者の最小残存病変負荷の定量的推定を含む。特に、微小残存病変の検出は、切除術後の残存病変の検出；治療中又は治療後の残存病変の検出；治療有効性のモニタリングでの残存病変の検出；がんの反復又は再発のモニタリングでの残存病変の検出；又はそれらの組み合わせを含む。ある実施形態では、微小残存病変の検出は、リンパ節生検；頭頸部手術；子宮又は子宮内膜生検；膀胱生検；乳房切除；前立腺切除；皮膚病変の除去；小腸切除；胃切除；開胸術；副腎摘出術；結腸切除術；卵巣摘出術；甲状腺切除術；子宮摘出術；舌切除術；又は結腸ポリープ切除術を含む、切除手術後の残存病変の検出を含む。ある実施形態では、微小残存病変の検出は、化学療法、免疫療法、標的療法、放射線療法、又はそれらの組み合わせを含む治療後の残存病変の検出を含む。

【0027】

本開示のいくつかの実施形態では、疾患検出方法は、被験体の生物学的試料から複数の遺伝子マーカーを受け取る工程であって、前記生物学的試料は、腫瘍試料及び正常細胞試料を含み、受け取った複数の遺伝子マーカーから遺伝子マーカーの被験体特異的ゲノムワイド一覧を生成する工程をさらに含む。

【0028】

本開示のいくつかの実施形態では、疾患検出方法は、さらに、第２生物学的試料、例えば、血漿試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出する工程を含む。いくつかの実施形態では、第２生物学的試料は、患者血漿中の腫瘍ゲノムワイド遺伝子マーカーの一時的に更新された一覧の生成用に経時的（例えば、２日、１週間、２週間、１月、２月、２月、３月、４月、６月、１年、１８月、２年、３０月、３年、４２月、４年、４年、５年、７年、１０年、又はそれ以上、例えば１５年又は２０年）に被験体で検出される。

【0029】

本開示のいくつかの実施形態では、疾患検出方法は、バックグラウンドノイズ閾値を経験的に決定する工程を含み、ここで、バックグラウンドノイズ閾値を超える腫瘍画分は、腫瘍負荷の定量的推定を提供する。特に、ノイズ閾値を下回る腫瘍画分は検出されない（Ｎ．Ｄ．）と考えられる。

【0030】

本開示のいくつかの実施形態では、疾患検出方法は、経時的な腫瘍疾患（例えば、腫瘍画分）の定量的モニタリングを含む。ある実施態様では、腫瘍は、性質が不均一もしくは均一である、脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、骨肉腫もしくは固形腫瘍である。好ましくは、腫瘍は、肺がん、乳がん、黒色腫、膀胱がん、又は骨肉腫、例えば、肺腺がん、導管腺がん、非小細胞肺がん肺腺がん（ＮＳＣＬＣＬＵＡＤ）、皮膚黒色腫、尿路上皮がん又は骨肉腫である。

【0031】

いくつかの実施形態では、本開示の残存病変検出方法は、１）血漿ＳＮＶ又はインデル検出の統合シグナル、２）推定ゲノムカバレッジ及び配列決定ノイズモデルを含むプロセス品質測定基準、３）変異負荷（Ｎ）を含む患者特異的パラメータ、を含む確率モデルを統合して、ＳＮＶ又はインデルマーカーのｅＴＦを計算する工程、及び／又は、１）コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍ＣＮＶ又はＳＶ方向に一致して、血漿及び正常患者試料の間で歪められたカバレッジの方向性深度の統合、２）腫瘍及び正常（ＰＢＭＣ）患者試料の間で歪められたカバレッジの累積深度の統合、及び、３）上記シグナル間の希釈比を見出すことを含む確率的希釈モデルを利用して、ＣＮＶ又はＳＶマーカーのｅＴＦを計算する工程、をさらに含む。

【0032】

いくつかの実施形態では、本開示の残存病変検出方法は、（Ａ）被験体の生物学的試料及び被験体の正常細胞試料中に単一ヌクレオチド変異（ＳＮＶ）もしくはコピー数変異（ＣＮＶ）又はそれらの組み合わせを含む複数の遺伝子マーカーを受け取って、遺伝子マーカーの被験体特異的ゲノムワイド一覧を作成する工程；（Ｂ）ゲノムワイドマーカー一覧から人工的ノイズマーカーを同定及びフィルタリングする工程であって、ここで、（１）ノイズＳＮＶは、一覧中の各ＳＮＶを、ＳＮＶの塩基品質（ＢＱ）及びＳＮＶのマッピング品質（ＭＱ）の関数としてのノイズ（Ｐ_Ｎ）の検出確率に基づき、シグナル又はノイズとして統計的に分類することにより同定され、及び／又は（２）ノイズＣＮＶは、一覧中の各ＣＮＶを、セントロメアからの相対的な位置に基づいてシグナル又はノイズとして統計的に分類するし、所定のカバレッジ深度及び読取マッピング性の範囲内で、そのｃｆＤＮＡマスクブラックリストを重複させることにより同定され；（Ｃ）１又はそれ以上の統合的数学的モデルに基づく前記試料の腫瘍分率（ｅＴＦ）推定値の計算工程であって、ここで、ＳＮＶマーカーについて、推定ＴＦ値（ｅＴＦ［ＳＮＶ］）は、数式ｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）＊Ｒ）／Ｎ］＾（１／ｃｏｖ）により計算され、ここでＭは、患者試料中の腫瘍特異的群検出数であり、σは、経験的に推定されたノイズの尺度であり、Ｒは、関心領域（ＲＯＩ）における個別の読取総数であり、Ｎは、腫瘍変異ロードであり、ｃｏｖは、ＲＯＩ中の部位毎の個別の読取総数であり、かつ／又は、ＣＮＶマーカーについて、ｅＴＦ［ＣＮＶ］は、ｅＴＦ［ｅＴＦ［ＣＮＶ］＝（ｓｕｍ＿｛ｉ］＝（Ｐ（ｉ）－Ｎ（ｉ）］＊sign［Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（ｓｉｇｍａ）］／（ｓｕｍ＿｛ｉ｝［ａｂｓ］）（Ｔ）（ｉ）－Ｎ（ｉ））－Ｅ（σ））により計算され、ここでＰは｛ｉ｝が血漿を表すゲノムウインドウ深度の中央値であり、Ｔは｛ｉ｝が腫瘍を表すゲノムウインドウ深度の中央値であり、Ｎは｛ｉ｝が正常深度のカバレッジを表すゲノムウインドウ深度の中央値である。特に、当該態様下では、１又はそれ以上のＣＮＶマーカーの検出に基づき腫瘍画分を推定するゲノムウインドウは、約５００塩基対（ｂｐ）である。

【0033】

いくつかの実施形態では、本開示は、微小残存病変を被験体から診断する方法であって、以下の：（Ａ）被験体から受け取った複数の生物学的試料から配列決定された遺伝子データでは、読取のゲノムワイドの一覧を受け取る工程であって、前記生物学的試料は、腫瘍試料、正常試料及び血漿試料を含み；（Ｂ）ＭＵＴＥＣＴ、ＬＯＦＲＥＱ及び／又はＳＴＲＥＬＫＡ変異呼出を含む前記被験体由来の腫瘍及びＰＢＭＣ試料に変異呼出を行う工程であって、体細胞性ＳＮＶ（ｓＳＮＶ）又はインデルの被検体特異的読取を個別化参照セットとして生成する工程；（Ｃ）被験体特異的変異部位由来の読取を収集及びフィルタリングする工程であって、以下の（１）低マッピング品質の読取（例えば、＜２９、ＲＯＣを最適化）除去工程；（２）重複ファミリー（同一ＤＮＡ断片の複数のＰＣＲ／配列決定コピーを表す）を構築し、コンセンサス試験に基づき補正された読取を生成する工程；（３）低塩基品質読取（例えば、＜２１、ＲＯＣの最適化）除去工程、及び（４）高断片サイズ読取（例えば、＞１６０、最適化されたＲＯＣ）除去工程を含む；（Ｄ）腫瘍中と正確に同置換がある少なくとも１つの支持読取（フィルタリング済みセットで）がある被験体特異的変異部位数の計算工程；（Ｆ）数学的モデルｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）＊Ｒ］／Ｎ］＾（１／ｃｏｖ）（式１）に基づきＳＮＶの腫瘍分率を推定する工程であって、式中、Ｍは患者試料中の腫瘍特異的群検出数、σは経験的に推定されたノイズの尺度、Ｒは関心領域（ＲＯＩ）における個別読取の総数、Ｎは腫瘍変異負荷、及びｃｏｖはＲＯＩ中の部位当たりの個別読取の平均数を表し；（Ｇ）ｅＴＦ［ＳＮＶ］を、健常試料から経験的に測定された基礎ノイズＴＦ推定を含む検出閾値と比較する工程であって、ｅＴＦ［ＳＮＶ］は閾値レベル（ｅ）を超える場合、例えば、ノイズＴＦ分布の２標準偏差（ＦＰＲ＜２．５％）は、陽性検出を示し、（Ｋ）ｅＴＦに基づき被験体の残存病変を診断する工程を含む。

【0034】

いくつかの実施形態では、本開示は、微小残存病変を被験体から診断する方法であって、以下の（Ａ）被験体から受け取った複数の生物学的試料から配列決定された遺伝子データでは、読取のゲノムワイドの一覧を受け取る工程であって前記生物学的試料は、腫瘍試料、正常試料及び血漿試料を含み；（Ｂ）被験体由来腫瘍及びＰＢＭＣ試料を呼出し、セグメントの方向性の注釈と共に、閾値長（例えば、＞２Ｍｂｐ、好ましくは＞５Ｍｂｐ）を超える複数のＣＮＶセグメントの参照セグメントを生成する工程であって、増幅は正に注釈され、欠失は負に注釈される；（Ｃ）患者特異的ＣＮＶセグメンテーション関心領域（ＲＯＩ）をカバーする血漿、腫瘍、及びＰＢＭＣ試料の単一ｂｐ深度カバレッジ情報を収集する工程；（Ｄ）患者特異的ＣＮＶ又はＳＶセグメンテーションのＲＯＩを５００ｂｐのウインドウに分割し、全試料及びウインドウについてウインドウ当たりの中央値（人工的抑制）を計算する工程；Ｅ）（ａ）試料毎の安定ｚスコア正規化；及び／又は（２）安定主成分分析（ＲＰＣＡ）を用いて、５００ｂｐすべてを正規化した深度カバレッジ情報を生成する工程；（Ｆ）患者特異的セグメンテーション由来の読取／ウインドウのフィルタリング工程であって、ここで、前記フィルタリングは、以下の：（１）低マッピング品質読取（例えば、＜２９、ＲＯＣ最適化）の除去；及び／又は（２）セントロメア領域の除去（例えば、正規化された正常値が１０を超えるウインドウの除去）；及び／又は（３）ｃｆＤＮＡ中の非代表領域の除去（例えば、複数のｃｆＤＮＡ試料から構成されるｃｆＤＮＡ表現マスクに含まれないウインドウの除去）；（Ｇ）数学的モデルｓｕｍｉ［（Ｐ（ｉ）－Ｎ（ｉ）］＊［Ｔ（ｉ）－Ｎ（ｉ）］ｓｉｇｎ］－Ｅ（σ）（式２）を用いて、血漿と正常（ＰＢＭＣ）患者試料間で歪められたカバレッジの方向性深度を積分する工程であって、ここで式中、Ｐは｛ｉ｝で指数化されたゲノムウインドウ深度の中央値であり、正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法で正規化された血漿深度カバレッジを表し；Ｅ（ｓｉｇｍａ）は経験的に推定された誤差率の尺度であり；Ｔは、安定ｚスコア法又は安定ＰＣＡ法で正規化された腫瘍深度カバレッジを表す｛ｉ｝で指数化されたゲノムウインドウ深度の中央値であり、Ｎは、正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法で正規化された正常深度カバレッジを表す｛ｉ｝で指数化されたゲノムウインドウ深度の中央値であり；（Ｈ）数学的モデルｓｕｍｉ［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］－Ｅ（σ））（式３）を用いて、腫瘍と正常（ＰＢＭＣ）患者試料の累積カバレッジ深度を統合する工程であって、ここで、式中、Ｅ（σ）は、経験的に推定された誤差率の尺度であり、Ｔは、腫瘍の深度を表す｛ｉ｝で指数化されたゲノムウインドウ深度の中央値であり、安定ｚスコア法又は安定ＰＣＡ法で正規化され、Ｎは正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法で正規化された正常な深度カバレッジを表す｛ｉ｝で指数化されたゲノムウインドウ深度の中央値であり；（Ｉ）はＣＮＶ又はＳＶ（ｅＴＦ［ＣＮＶ］）＝（Ｓｕｍｉ［（Ｐ（ｉ）－Ｎ（ｉ）－Ｎ（ｉ）］＊ｓｉｇｎ［Ｔ（ｉ）］－Ｅ（σ）］／（ｓｕｍｉ［ａｂｓ［Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（σ）］－Ｅ（σ）（式４）に対する推定腫瘍率に対応する方向性の深度カバレッジ（Ｇ）と累積深度カバレッジ（Ｈ）との希釈比を計算する工程であって；（Ｊ）ｅＴＦ［ＣＮＶ］を、健常試料から経験的に測定された基礎ノイズＴＦ推定値を含む検出閾値と比較する工程であって、ｅＴＦ［ＣＮＶ］が閾値レベル（例えば、２ノイズＴＦ分布の標準偏差（ＦＰＲ＜２．５％））より高い場合は、陽性検出を示し；及び、（Ｋ）ｅＴＦに基づき被験体の残存病変を診断する工程を含む。

【0035】

いくつかの実施形態では、本開示は、それが必要な被験体の残存病変を検出するシステムに関し、以下の：（Ａ）（Ａ）ゲノムワイドマーカー一覧から人工的ノイズマーカーをフィルタリングするように構成及び配置された分析ユニットを含み、ここで、前記ゲノムワイドマーカー一覧は、被験体の生物学的試料から複数の遺伝子マーカーから生成され、前記生物学的試料は、腫瘍試料及び正常細胞試料を含み、ここで、遺伝子マーカー一覧は、単一ヌクレオチド変異（ＳＮＶ）、インデル、コピー数変異、ＳＶおよびそれらの組み合わせからなる群から選択され、前記分析ユニットは、さらに、前記被験体の血漿試料を含む第２生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して腫瘍ゲノムの一覧を生成することを含み、前記分析ユニットは、さらに、ＳＮＶ及びインデル分類エンジン、ＣＮＶ及びＳＶ分類エンジン、及びそれらの組み合わせからなる群から選択されるエンジンを含み、ここで、ＳＮＶ及びインデル分類エンジンは、１）ＳＮＶ又はインデルを構成する読取群のマッピング品質（ＭＱ）、２）ＳＮＶ又はインデルを含む読取群の断片サイズ長、３）特定のＳＮＶを含む読取重複ファミリー内のコンセンサス試験、４）ＳＮＶ又はインデルの塩基品質（ＢＱ）の関数として、一覧の各ＳＮＶをシグナル又はノイズとして統計的に分類し、かつ、ＣＮＶ及びＳＶ分類エンジンは、一覧の各ＣＮＶ又はＳＶウインドウを、１）セントロメアに対する位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、３）ｃｆＤＮＡデータにおけるＣＮＶ又はＳＶウインドウの一覧、に基づいて、シグナル又はノイズとして統計的に分類し；（Ｂ）１又はそれ以上の統合的数学的モデルに基づき、試料の推定腫瘍率（ｅＴＦ）を計算するように構成及び配置されたｅＴＦユニット、及び（Ｃ）残差を出力するディスプレイユニット推定値に基づく被験体の疾患プロファイル腫瘍画分を含む。

【0036】

前記開示のシステムのいくつかの実施形態では、ｅＴＦユニットは、さらに、以下：１）血漿ＳＮＶ又はインデル検出の統合されたシグナル；２）推定されたゲノムカバレッジ及び配列決定ノイズモデルを含むプロセス品質の測定基準；３）変異負荷（Ｎ）を含む患者特異的パラメータ；及び／又は、１）コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍ＣＮＶ又はＳＶ方向に一致して、血漿及び正常患者試料の間で歪められたカバレッジの方向性深度の統合；２）腫瘍及び正常患者試料の間で歪められたカバレッジの累積深度の統合；及び、３）上記シグナルの間で希釈比を見出すこと；を含む確率的混合モデルを利用して、確率的モデルを統合して、ＳＮＶ又はインデルマーカーについてｅＴＦを計算するように構成かつ配置される。

【0037】

前記開示システムのいくつかの実施形態では、腫瘍画分推定ユニット（Ｂ）は、プロセッサを含み、前記プロセッサは、コンピュータ読取可能命令を実行するように構成され、前記プロセッサは、実行されると、以下の統合的数学的モデル（１）ｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）＊Ｒ）／Ｎ］＾（１／ｃｏｖ）、ここで、式中、Ｍは、患者血漿試料中の腫瘍特異的ＳＮＶ群検出数であり、σは、経験的に推定された誤差率の尺度であり、Ｒは、関心被験体のＳＮＶ一覧領域（ＲＯＩ）における個別の読取総数であり、Ｎは、腫瘍変異負荷であり、及び／又は、（２）ｅＴＦ［ＣＮＶ］＝（ｓｕｍ＿＿｛ｉ（Ｐ（ｉ）－Ｎ（ｉ）］＊記号）］＊Ｔ（ｉ）－Ｎ（ｉ）］－Ｅ（ｓｉｇｍａ）／（ｓｕｍ＿｛ｉ｝［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（σ））、ここで、式中、Ｐは、血漿の深度のカバレッジを表す｛ｉ｝で指数化されたゲノムウインドウ深度のカバレッジの中央値であり、正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法のいずれかで正規化されたものであり；Ｔは、腫瘍深度のカバレッジを表す｛ｉ｝で指数化されたゲノムウインドウ深度の中央値であり、正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法のいずれかで正規化され；Ｎは、正常試料のコホートと比較して｛ｉ｝で指数化された深度の中央値であり、安定ｚスコア法又は安定ＰＣＡ法のいずれかで正規化され、｛ｉ｝は、患者の腫瘍特異的な増幅及び欠失ゲノムセグメントをカバーするすべてのゲノムウインドウを計数する個別の指数化である；の１又はそれ以上に基づき、試料の腫瘍画分（ｅＴＦ）を推定する方法を実行する。

【0038】

いくつかの実施形態では、本開示は、残存病変の検出方法又は一連の工程をプロセッサに実行させるコンピュータ実行可能命令を含むコンピュータ読取可能な媒体であって、以下の：（Ａ）被験体の生物学的試料から複数の遺伝子マーカー由来の体細胞系遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は腫瘍試料及び正常細胞試料を含み、ここで、前記遺伝子マーカー一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（Ｉｎｄｅｌｓ）、コピー数変異、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（Ｂ）前記被験体の第２生物学的試料中の被験体特異的ゲノムワイド一覧を検出し、前記第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程；（Ｃ）ゲノム由来の人工的ノイズマーカーをフィルタリングする工程であって、１）ＳＮＶを含む読取群のマッピング品質（ＭＱ）、２）ＳＮＶを含む読取群の断片長、３）ＳＮＶ又はＩｎｄｅｌを含む読取重複ファミリー内のコンセンサス試験、４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）の関数として、ノイズ（Ｐ_Ｎ）の検出確率に基づいて、各ＳＮＶ又はＩｎｄｅｌをシグナル又はノイズとして統計的に分類することにより、及び／又は、１）セントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、３）ｃｆＤＮＡマスク（ブラックリスト）との重複に基づいて、シグナル又はノイズとして統計的に分類することにより、フィルタリングする工程；Ｄ）１又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分（ｅＴＦ）を計算する工程、及び、（Ｅ）推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断する工程を含む。

【0039】

本開示はさらに、がん患者における微小残存病変（ＭＲＤ）の検出を含むがん層別化方法に関する。前記層別化方法は、上記方法に従って低存在量のＭＲＤ特異的マーカーを同定する工程、ＭＲＤを診断するマーカーを検出する工程を含む。がん層別化方法は、さらに、肺がん特異的マーカーのＲＴ－ＰＣＲ及び／又はプローブを用いる分子イメージング等の方法による腫瘍の検出を含み得る。
本開示の１又はそれ以上の実施形態の詳細は、添付の図面／表及び以下の説明に記載されている。本開示の他の特徴、目的、及び利点は、図面／表及び詳細な説明、並びに特許請求の範囲から明らかであろう。

【図面の簡単な説明】

【0040】

【図1】Ａは、様々な実施形態、例えば、微小残存腫瘍疾患を検出する、本開示の診断方法の概略図である。Ｂは、様々な実施形態による、被験体の残存病変検出の代表的なワークフローを示す。Ｃは、様々な実施形態による、被験体の残存病変検出の代表的なワークフローを示す。Ｄは、一塩基多型又はインデルの測定に基づき、被験体の微小残存病変（ＭＲＤ）を診断する本開示の代表的なワークフローを示す。Ｅは、コピー数変異又は構造的変異の測定に基づき、被験体の微小残存病変（ＭＲＤ）を診断する本開示の代表的なワークフローを示す。

【0041】

【図2】Ａ～Ｂは、外因性又は内因性パラメータに基づく検出確率のチャートを示す。Ａは、Ｂｅｒｎｏｕｌｌｉモデルに基づく様々な腫瘍画分及びカバレッジ（ゲノム等価限界：～１０００分子まで）の検出確率を示す。Ｂは、２０，０００個の点変異の積分を仮定した、ゲノムワイドＳＮＶ積分（二項モデル）の検出確率を示す。

【0042】

【図3】Ａ～Ｋは、様々な実施形態により様々なフィルタを適用した場合の効果、及び本方法により提供される腫瘍画分の推定を示す。Ａは、塩基品質（ＢＱ）フィルタを適用する効果を示す。Ｂは、受信機動作曲線（ＲＯＣ）による塩基品質のフィルタリングを最適化する効果を示す。Ｃは、対照試料を用いて複数反復にわたる誤差率分布を評価する場合の、連合塩基品質（ＢＱ）及びマッピング品質（ＭＱ）最適化フィルタを適用する効果を示し、これは、配列決定エラーを約７倍の変化（ＦＣ）で抑制する。フィルタ前のノイズは、肺がんと黒色腫ともに～２×１０^－３の速度を示し、フィルタ後のノイズは、ともに～２×１０^－４に減少する。Ｄは、３５倍のカバレッジを緩和した塩基品質（ＢＱ）とマッピング品質（ＭＱ）を最適化したフィルタを結合して適用した場合の効果を示す。このフィルタによれば、ＴＦが１／２０，０００の低い場合でも試料中にマーカーが検出されうる。曲線は理論的（二項モデル）期待値を表し、経験的測定値は黒色の点（５個の独立した複製の平均＆信頼区間）で示し、ノイズレベルはＴＦ＝０の検出分布によるパターン領域で表し、Ｅはメラノーマ試料のＴＦ推定のインシリコ検証を示し、入力混合ＴＦ（ｘ軸）対変異パターン（ｙ軸）から推定したＴＦは高い相関を示した（Ｒ２＝０．９９９）。５×１０^－５以上の全ＴＦに対して、正確かつ特異的な推定値を得た。Ｆ及びＧは、様々な実施形態による診断方法を示し、例えば、肺腫瘍画分（Ｆ）及び乳がん患者（Ｇ）等の他のタイプの固形腫瘍の遺伝子バイオマーカーの特徴の検出が、腫瘍画分（ＴＦ）の１／１００００の低値であっても可能となる。Ｈは、５×１０^－５の腫瘍画分（ＴＦ）が低い信頼性のあるｓＳＮＶに基づく腫瘍画分の推定を示す。Ｉは、腫瘍画分（ＴＦ）が５×１０^－５、好ましくはＴＦ＞１０^－４の信頼性のあるｓＣＮＶに基づく腫瘍画分の推定を示す。Ｊは、ＳＮＶに基づく推定（ｘ軸）を用いたＴＦの推定とＣＮＶに基づく推定（ｙ軸）との間の強い相関を示す。灰色の四分円は、ＴＦが５×１０^－５の閾値を下回ると、ＳＮＶベースの推定とＳＮＶベースの推定の間の相関が弱くなる。Ｋは、本方法とＩＣＨＯＲ－ＣＮＡ法との比較を示すボックスプロットを示す。

【0043】

【図4】は、様々な実施形態による、２人のがん患者（ＢＢ１１２２、ＢＢ１１２５）から切除手術前（術前）及び切除手術後（術後）に採取したｃｆＤＮＡ試料及び２人の健常対照ｃｆＤＮＡ試料（ＢＢ６００及びＢＢ６０１）の、バックグラウンドノイズモデル（健常ＰＢＭＣ及びｃｆＤＮＡ試料）におけるＳＮＶ検出率を示す。

【0044】

【図5】Ａ及びＢは、本開示のシステム及び方法を用いた患者試料の臨床評価を示す。Ａは、様々な実施形態による、早期肺がん及び／又は微小残存病変（ＭＲＤ）患者の被験体から得られた臨床試料を用いた本開示のシステム及び方法の例示的評価を示す。データは、分析した全患者の術前及び術後の血漿試料の腫瘍画分（ＴＦ）推定値を示す。術後ＴＦがノイズ閾値５×１０^－５を上回ったのは２例のみである。しかし、健常対照試料はすべてＴＦが検出閾値以下である。「Ｎ．Ｄ．」は非検出を示す。データは、血漿検出とＴＦ相関に関してＳＮＶ法の結果と一致した。Ｂは、腺がん患者から得られた１１試料のｚスコアの計算を示す。データは、健常対照者のｚスコアが閾値レベル（例えば、水平の点線で示される２のｚスコア）を下回ることを示す。Ｃは、交差患者陰性対照と比較した、腺がん患者から得られた１１試料のｚスコアの計算を示す。データは、健常対照者のｚスコアが閾値レベル（例えば、水平の点線で示される２のｚスコア）を下回ることを示す。ｓＳＮＶベースの検出方法とｓＣＮＶベースの検出方法の間の一致が観察された（Ｄ）。

【0045】

【図6】Ａ～６は、大きなゲノムＣＮＶセグメントにわたって多数の方向性深度カバレッジの歪みを統合する分析的アプローチを示す。Ａは、ＴＦ＝０．００１におけるスパースＣＮＶスキューの積分を示し、上部パネルは、増幅の１０Ｋｂｐセグメントにおける合成血漿（ＴＦ＝１０－３）と整合ＰＢＭＣとの間の単一ｂｐ深度カバレッジの比較を示し、中央パネルは、血漿とＰＢＭＣとの間の残差を示し、下部パネルは、残差の合計を示す。中央パネルでは、残差のまばらだが正のバイアスに注目し、下のパネルでは、部分的に増幅の正のバイアスのために残差の和が増幅され、ゲノム上に組み込まれると（シグナル）が蓄積していることに注目されたい。Ｂは、代表的な増幅セグメントにおける腫瘍読取深度、生殖細胞系読取深度及び術前血漿ｃｆＤＮＡ読取深度のプロファイルを示す。手術前の血漿は、生殖細胞系ＤＮＡに匹敵する読取深度を示すが、増幅されたセグメントのテロメア末端での増幅深度スキューも示す。数学的方法は、記載のように、ゲノムワイドにわたり読取深度の歪みを統合する。Ｃは、各ＴＦのシグナル対ノイズ（ＳＮＲ）を示し、ここで、１０～６を超えるＴＦはすべて、陽性（＞０）ＳＮＲ検出（高感度を示す）を示す。Ｄは、ＣＮＶ血漿ＳＮＲがＴＦ（希釈モデル）に対して線形であり、肺／黒色腫／乳房患者に対して同様の動態を示す。Ｅは、ゲノムの中性領域（例えば、増幅及び／又は欠失を含まない領域）を採取した場合の、スキュー対腫瘍画分（ＴＦ）のチャートを示す。このように、当該領域では、血漿とＰＢＭＣの間の深度カバレッジスキューはバイアスされず、正と負のスキューの確率は類似する。したがって、ＴＦ（ｘ軸）に関係なく、シグナルは存在せず、ＳＮＲ＝０である。

【0046】

【図7】Ａ～Ｃは、様々な実施形態による、本開示のシステムの概略図を提供する。

【0047】

【図8】は、様々な実施形態による、補助療法の候補としての術後がん被験体の同定及び／又は分類を概説する代表的なフローチャートを提供する。

【0048】

【図9】本明細書中の様々な実施形態の患者特異的ｓＳＮＶ統合とＩＣＨＯＲ（ＢｒｏａｄＩｎｓｔｉｔｕｔｅ）との比較を示す。特に、ＭＩＴ－ＢｒｏａｄＩｎｓｔｉｔｕｔｅのＩＣＨＯＲ検出方法と比較して、検出感度は約１００倍に増加する。

【0049】

【図10】Ａ～Ｅは、本開示の診断方法における断片サイズ等の直交的特徴の使用、及びＳＮＶベースの方法における当該直交的特徴の適用の付随する効果を示す。Ａは、健常な正常ｃｆＤＮＡ試料で示される断片サイズ分布を示す。Ｂは、正常なｃｆＤＮＡ試料と比較した乳房腫瘍ｃｆＤＮＡ（小さい２つの曲線）の断片サイズシフトを示す。Ｃは、マウス異種移植片（ＰＤＸ）モデルでは、腫瘍由来の循環ＤＮＡは、正常由来の循環ＤＮＡよりも有意に短いことを示す。Ｄは、腫瘍及び正常試料を横切る前記長さの断片を観察する頻度に対してプロットした断片ＤＮＡサイズ（ｘ軸；塩基数）の折れ線グラフを示す。Ｅは、断片サイズ分布（ｘ軸）及びＧＭＭ結合対数オッズ比（ｙ軸）に基づく、ＤＮＡ断片と腫瘍起源との対応等の直交的特徴を用いる患者特異的変異検出を示す。

【0050】

【図11】Ａ－Ｊは、本開示の診断方法における断片サイズ等の直交的特徴の使用、及びＣＮＶベースの方法における当該直交的特徴の適用の付随する効果を示す。Ａは、ゲノム領域（ｂｐ）対累積血漿深度カバレッジスキュー（下部パネル）、血漿対垂直深度カバレッジスキュー（中部パネル）及びカバレッジ（上部パネル）の線グラフを示す。Ｂは、深度カバレッジのｌｏｇ２（ｌｏｇ２＞０．５＝増幅、ｌｏｇ２＜－０．５＝欠失）と、そのセグメントにおける局所的な断片サイズの質量中心（ＣＯＭ）との関係を示す。Ｃは、患者試料における深度カバレッジに基づくＣＮＶ検出と断片サイズ質量中心に基づくＣＮＶ検出との間の関係を示す。Ｄは、正常（健常）血漿試料における深度カバレッジに基づくＣＮＶ検出と断片サイズ質量中心（ＣＯＭ）に基づくＣＮＶ検出との間の関係の欠如を示す。Ｅ及びＦは、治療中の２人の患者のＣＯＭ、絶対勾配値及びＲ２の変化を示す。ベースライン（０日目）、治療後２１日目及び４２日目の値を示す。Ｇは、患者の断片サイズｌｏｇ２の傾きと腫瘍画分との関係を示す。Ｈは、無再発時間と術後（術後２週間）の腫瘍ＤＮＡの検出（ｚスコア）との間の関連性を調べる、がん患者の臨床研究の結果を示す。Ｉは、治療のベースライン（０日目）、中間点（２１日目）及び終了（４２日目）での４人の患者の腫瘍画分の棒グラフを示す。Ｊは、治療のベースライン（０日目）、中間点（２１日目）及び終了（４２日目）における４人の患者の正規化されたＣＮＶスコアの棒グラフを示す。

【発明を実施するための形態】

【0051】

様々な実施形態の以下の説明は、例示的かつ説明的なものに過ぎず、いかなる意味においても限定的又は制限的と解釈されるべきではない。本教示の他の実施形態、特徴、目的、及び利点は、説明及び添付の図面、並びに特許請求の範囲から明らかであろう。

【0052】

別段の定義がない限り、本明細書に記載される本教示に関連して用いられる科学用語及び技術用語は、当業者により一般に理解される意味を有するものとする。本明細書における開示の説明で用いられる用語は、特定の実施形態のみを説明するためであり、本開示を限定することを意図したものではない。さらに、文脈上別段の要求がない限り、単数項は複数項を含み、複数項は単数項を含む。一般に、分子生物学、及び本明細書中に記載されるタンパク質及びオリゴ又はポリヌクレオチドの化学及びハイブリダイゼーションに関連して利用される命名法は、当該分野で周知であり、一般的に用いられる。標準的な技術は、例えば、核酸の精製及び調製、化学分析、組換え核酸、及びオリゴヌクレオチドの合成に用いられる。酵素反応及び精製技術は、製造業者の仕様に従って、又は当技術分野で一般的に達成されるように、又は本明細書に記載されるように実施される。本明細書に記載される技術及び手順は、一般に、当該技術分野では周知であり、本明細書を通して引用及び考察される様々な一般的及びより具体的な参考文献に記載される従来の方法に従って実施される。例えば、Sambrook et al., Molecular Cloning: A Laboratory Manual (Third ed., Cold Spring Harbor Laboratory Press, Cold Spring Harbor, N.Y. 2000）である。本明細書中に記載される実験手順及び技術に関連して用いられる命名法は、当該分野で周知であり、一般的に用いられる。

【0053】

本開示の様々な実施形態は、以下のパラグラフでさらに詳細に説明される。

【0054】

本開示及び添付の特許請求の範囲の説明で用いられる、単数形「ａ」、「ａｎ」及び「ｔｈｅ」は、文脈上他のことを明確に示さない限り、複数形も含むことが意図される。また、本明細書で用いられる場合、「及び／又は」は、１又はそれ以上の関連するリストされたアイテムのいかなる及び全ての可能な組み合わせ、並びに選択肢（「又は」）では解釈時の組み合わせの欠如を示し、それらを包含する。

【0055】

用語「約」は、その値のプラス又はマイナス１０％の範囲を意味し、例えば、「約５」は、４．５～５．５を意味し、「約１００」は、開示の文脈が他を示す場合を除き、９０～１００等を意味し、例えば、「約４９、約５０、約５５」等の数値のリストでは、「約５０」は、前の値と後の値との間の間隔の半分未満、例えば、４９．５を超えるか、５２．５未満を超えるかの範囲を意味する。さらに、用語「約～より小さい」又は「約～より大きい」は、本明細書で提供される用語「約」の定義に照らして理解されるべきである。

【0056】

本開示である範囲の値が提供される場合、その範囲の上限と下限との間の各介在値と、その記載された範囲内のいかなる他の記載された値又は介在値とは、本開示の範囲内に含まれることが意図される。例えば、１μＭ～８μＭの範囲が記載される場合、２μＭ、３μＭ、４μＭ、５μＭ、６μＭ、及び７μＭもまた、明示的に開示されることが意図される。

【0057】

本明細書で用いられる用語「複数」は、２、３、４、５、６、７、８、９、１０、又はそれ以上であり得る。

【0058】

本明細書中で用いられる用語「検出する」は、試料中の１又はそれ以上のパラメータの測定により試料に関連する値又は値のセットを決定するプロセスをいい、さらに、試験試料を参照試料と比較する工程を含みうる。本開示により、腫瘍の検出は、１又はそれ以上のマーカーの同定、アッセイ、測定及び／又は定量を含む。

【0059】

本明細書中で用いられる用語「診断」は、被験体が、限定されるものではないが、遺伝子変異により特徴付けられる疾患又は状態を含む、所定の疾患又は状態に罹患する可能性が高いか否かを決定しうる方法をいう。当業者は、しばしば、１又はそれ以上の診断指標、例えば、マーカー、その存在、不在、量、又は量の変化に基づき診断を行うが、それらの量は、疾患又は状態の存在、重症度、又は不存在を示す。他の診断指標には、患者の病歴、身体症状（例えば、説明できない体重減少、発熱、疲労、疼痛、又は皮膚奇形）、表現型、遺伝子型、又は環境因子又は遺伝因子がある。当業者は、用語「診断」とは、特定の経過又は転帰が生じる可能性が高まること、すなわち、所定の特徴、例えば、診断指標の存在又はレベルを示す患者では、その特徴を示さない個人と比較して、経過又は転帰が生じる可能性が増大することを意味することを理解するであろう。本開示の診断方法は、独立して、又は他の診断方法と組み合わせて、所定の特徴を示す患者では経過又は転帰がより生じやすいか否かを決定するために用いられ得る。

【0060】

用語「正常な」とは、「正常細胞」の文脈で用いられる場合、未変換の表現型の細胞、又は検査される組織型（例えば、ＰＢＭＣ）の非形質転換細胞の形態を示す細胞を意味する。いくつかの実施形態では、本明細書で用いられる「正常な試料」は、非腫瘍試料、例えば、唾液試料、皮膚試料、毛髪試料等を含む。本開示の方法は、通常の試料を用いることなく実施可能であることに留意されたい。

【0061】

用語「異常」とは、本明細書中で用いられる場合、一般に、正常（例えば、野生型）からある程度逸脱する生物学的システムの状態をいう。異常状態は、生理学的又は分子レベルで起こりうる。代表的な例としては、例えば、生理学的状態（疾患、病理学）又は遺伝的異常（変異、単一ヌクレオチド変異体、コピー数変異体、遺伝子融合、インデル等）が挙げられる。病的状態は、がん又は前がん状態であり得る。異常な生物学的状態は、ある程度の異常（例えば、正常状態からの距離を示す定量的尺度）と関連している可能性がある。

【0062】

用語「尤度」は、本明細書中で用いられる場合、一般に、確率、相対的確率、有無、又は程度をいう。

【0063】

本明細書中で用いられる用語「腫瘍」は、正常又は野生型細胞と比較して、遺伝的、細胞的、又は生理的レベルで形質転換を受けた可能性のあるいかなる細胞又は組織を含む。用語は、通常、良性（例えば、転移を形成せず、隣接する正常組織を破壊する腫瘍）又は悪性／がん（例えば、周囲の組織に浸潤し、通常、転移を生じ得る腫瘍）であり得る新生物性増殖を意味し、適当に治療されない限り、宿主を死亡させる可能性がある。Steadman’s Medical Dictionary, 28^th Ed Williams & Wilkins, Baltimore, MD (2005)を参照。

【0064】

用語「がん」（「腫瘍」と同義で用いられる）とは、ヒトのがん及びがん腫、肉腫、腺がん、リンパ腫、白血病、固形及びリンパ系がん等を意味する。様々なタイプのがんの例としては、肺がん、膵がん、乳がん、胃がん、膀胱がん、口腔がん、卵巣がん、甲状腺がん、前立腺がん、子宮がん、精巣がん、神経芽細胞腫、頭部扁平上皮がん、頸部、子宮頸部及び膣、多発性骨髄腫、軟部組織及び骨原性肉腫、大腸がん、結腸直腸がん、腎がん（例えば、ＲＣＣ）、胸膜がん、子宮頸がん、肛門がん、胆管がん、消化管カルチノイド腫瘍、食道がん、胆嚢がん、小腸がん、中枢神経系がん、皮膚がん、絨毛がん；骨原性肉腫、線維肉腫、神経膠腫、黒色腫等が挙げられるが、これらに限定されない。ある態様では、「液体」がん、例えば、血液がん、例えば、リンパ腫及び／又は白血病は除外される。

【0065】

がんの例としては、副腎皮質がん、ＡＩＤＳ関連がん、ＡＩＤＳ関連リンパ腫、肛門がん、肛門直腸がん、肛門管がん、虫垂がん、小児小脳星細胞腫、小児大脳星細胞腫、基底細胞がん、皮膚がん（非黒色腫）、胆道がん、肝外胆管がん、肝内胆管がん、膀胱がん、膀胱がん、骨及び関節がん、骨肉腫及び悪性線維性組織球腫、脳がん、脳腫瘍、脳神経膠腫、大脳星細胞腫／悪性神経膠腫、上衣腫、髄芽腫、テント上原始神経外性腫瘍、視経路及び視床下部神経膠腫、乳がん、気管支腺腫／カルチノイド、カルチノイド、消化管がん、神経系がん、神経系リンパ腫、中枢神経系がん、子宮頸がん、慢性リンパ球性白血病、慢性骨髄増殖性疾患、結腸がん、結腸直腸がん、皮膚Ｔ細胞リンパ腫、リンパ腫、菌状息肉腫、セジア症候群、食道内膜がん、頭蓋外胚細胞腫細胞腫瘍、性腺外胚細胞腫瘍、肝外胆管がん、眼がん、眼内黒色腫、網膜芽細胞腫、胆嚢がん、胃がん、消化管カルチノイド、消化管間質腫瘍（ＧＩＳＴ）、胚細胞腫瘍、卵巣胚細胞腫瘍、妊娠性絨毛腫瘍グリオーマ、頭頸部がん、肝細胞（肝）がん、ホジキンリンパ腫、下咽頭がん、眼内黒色腫、眼球がん、膵島がん（内分泌膵）、カポジ肉腫、腎がん、腎がん、喉頭がん、急性リンパ芽球性白血病、急性骨髄性白血病、慢性リンパ性白血病、慢性骨髄性白血病、有毛細胞白血病、口唇及び口腔のがん、肝がん、肺がん、非小細胞肺がん、ＡＩＤＳ関連リンパ腫、非ホジキンリンパ腫、中枢神経系原発性リンパ腫、Ｗａｌｄｅｎｓｔｒａｍマクログロブリン血症、髄芽腫、黒色腫、眼内黒色腫、メルケル細胞がん、悪性中皮腫、中皮腫、転移性扁平上皮がん、口腔がん、舌のがん、多発性内分泌腫瘍、菌状息肉腫、骨髄異形成症候群、骨髄異形成／骨髄増殖性疾患、慢性骨髄性白血病、急性骨髄性白血病、多発性骨髄腫、慢性骨髄増殖性疾患、鼻咽頭がん、神経芽細胞腫、口腔がん、口腔がん、中咽頭がん、卵巣がん、卵巣上皮がん、卵巣低悪性度腫瘍、膵がん、膵島細胞がん、副鼻腔及び鼻腔のがん、副甲状腺がん、咽頭がん、褐色細胞腫、松果体芽腫及びテント上原始神経外胚葉性腫瘍、下垂体腫瘍、形質細胞新生物／多発性骨髄腫、胸膜肺芽腫、前立腺がん、直腸がん、腎盂及び尿管がん、移行上皮がん、網膜芽腫、唾液腺がん、ユーイング肉腫、カポジ肉腫、子宮がん、子宮肉腫、皮膚がん（非黒色腫）、皮膚がん、メルケル細胞がん、小腸がん、軟部肉腫、扁平上皮がん、胃がん、テント上原始神経外胚葉性腫瘍、精巣がん、胸腺腫、胸腺がん、甲状腺がん、移行上皮がん、腎盂と尿管及びその他の泌尿器、妊娠性絨毛腫瘍、尿道がん、子宮内膜がん、子宮肉腫、子宮体がん、膣がん、外陰がん、及びウィルムス腫瘍が挙げられるが、これらに限定されない。

【0066】

本明細書中で用いられる用語「非小細胞肺がん」又はＮＳＣＬＣは、本明細書中で用いられる場合、小細胞肺がんではない全ての肺がんをいい、大細胞がん、扁平上皮がん及び腺がんを含むが、これらに限定されないいくつかのサブタイプを含む、すべての病期及び転移が含まれる。肺がんの２５％を占める扁平上皮がんは、通常、中心気管支の近くから発生する。腫瘍の中心部には通常、空洞とそれに伴う壊死がみられる。高分化型扁平上皮がんでは、他の種類のがんよりも増殖のペースが遅い場合が多くみられる。腺がんは非小細胞肺がんの４０％を占める。通常、末梢肺組織に発生する。腺がんのほとんどの症例は喫煙と関連があるが、喫煙経験のない人の間では、腺がんが肺がんの最も一般的な型である。Rosell et al., Lung Cancer, 46(2), 135-48, 2004; Coate et al., Lancet Oncol, 10, 1001-10, 2009を参照のこと。

【0067】

本明細書中で用いられる用語「残存病変」とは、例えば外科的介入、放射線学的切除、化学療法等の介入後でも残存する新生物細胞の持続をいい、用語「微小残存病変（ＭＲＤ）」とは、腫瘍の治療（例えば、化学療法、免疫療法、又は標的療法）後に、形態学的な正常組織（例えば、肺組織）が、依然として適当量の残存悪性細胞を保持し得る状況をいう。微小残存病変（ＭＲＤ）の検出は、治療中の寛解誘導をより正確に測定する新規の実用的手段である。液状腫瘍（例えば、リンパ腫または骨髄腫）の文脈では、用語ＭＲＤは、１０^－４未満、例えば、１０^－５未満、または１０^－６未満の検出限界に関連しうる。固形腫瘍の文脈では、用語「微小残存病変」は、腫瘍マーカーが従来の検出手段、例えばctDNA検出又は血漿DNA分析を用いて検出しうるものを下回る状況に関連しうる。いくつかの実施形態では、ＭＲＤは、血漿５ｍｌあたり１００コピー未満、好ましくは４０コピー未満、特に１０コピー未満のｃｔＤＮＡが検出される状況に関連する（Bettegowda et al., Sci Transl Med., 6(224), 224ra24, 2014）。

【0068】

本明細書中で用いられる用語「被験体」は、ヒト、獣医学的又は農場動物、家畜又はペット、及び臨床研究に通常用いられる動物を含む哺乳動物を意味する。特に、被験体は、ヒト被験体、例えば、腫瘍と診断された、又は腫瘍を有することが疑われるヒト患者である。被験体には、がんから選択された１又はそれ以上の特徴がある、潜在的にある、又はあることが疑われる、がん関連症状、がんに関して無症候性、又は未診断（例えば、がんが診断されていない）の症状がありうる。被験体は、がんがあってよく、被験体は、がん関連症状を示すことができ、被験体は、がん関連症状を含まなくてよく、又は被験体は、がんと診断されなくてよい。いくつかの実施形態では、被験体はヒトである。

【0069】

本明細書中で用いられる、変異に関する用語「一塩基多型」又は「一塩基変異」（「ＳＮＰ」又は「ＳＮＶ」）は、別の配列と比較した、配列中の少なくとも１つのヌクレオチドの差をいう。

【0070】

用語「コピー数変異」又は「ＣＮＶ」は、ヌクレオチド配列が同一である遺伝子断片の有無／挿入又は欠失における比較数値変化を意味する。ヒトゲノムでは、コピー数変異体は、ＤＮＡの１又はそれ以上の切片のホモ接合又はヘテロ接合の重複又は増殖、又はＤＮＡの１又はそれ以上の切片のホモ接合又はヘテロ接合の欠失を含み得る。ＣＮＶの方向性は、通常、ＣＮＶの重複／増殖に対して正、ＣＮＶの欠失に対して負で示される。

【0071】

本明細書中で用いられる用語「indel；インデル」は、１つの対立遺伝子に１又はそれ以上の塩基が存在し、他の対立遺伝子には塩基が存在しない、ゲノム上の位置をいう。挿入又は欠失は進化の観点からは異なるが、本明細書に記載の解析では、一方の対立遺伝子における挿入は他方の対立遺伝子における欠失と等価であると区別されないことが多い。したがって、ｉｎｄｅｌという用語は、２つの対立遺伝子間の挿入／欠失の位置をいう。

【0072】

本明細書中で用いられる用語「構造的変異体」とは、ゲノム中の染色体又は染色体セットの数の変化の代わりに、染色体のいくつかの部分の変化を示す。構造的変異を生じる変異には４つの一般的なタイプがある。欠失と挿入、たとえば重複（染色体のＤＮＡ量の変化、遺伝物質の欠失と獲得）、逆位（染色体断片の配置の変化）、転座（遺伝子融合を起こしうる染色体断片の位置の変化）である。本発明の用語「構造的変異体」は、遺伝物質の喪失、遺伝物質の獲得、転座、遺伝子融合、及びそれらの組み合わせを含む。

【0073】

本明細書中で用いられる用語「試料」は、例えば、物理的、生化学的、化学的及び／又は生理学的特徴に基づき特徴付けられ及び／又は同定されるべき細胞及び／又は他の分子実体を含む被験体の被験体から得られるか又は誘導される組成物をいう。好ましくは、当該試料は、「生物学的試料」であり、例えば、細胞、組織、臓器、その他の生体由来の試料を意味する。ある態様では、組織試料の供給源は、血液又はいかなる血液成分；体液；新鮮な、凍結された及び／又は保存された臓器又は組織試料、又は生検もしくは吸引物からの固形組織；及び被験体又は血漿の妊娠中又は発達中のいかなる時点からの細胞であり得る。試料としては、初代培養細胞又は細胞株、細胞上清、細胞溶解物、血小板、血清、血漿、硝子体液、眼液、リンパ液、滑液、濾胞液、精液、羊水、乳汁、全血、尿、脳脊髄液（ＣＳＦ）、唾液、痰、涙液、発汗、粘液、腫瘍溶解物、及び組織培養培地、並びに均質化組織、腫瘍組織、及び細胞抽出物等の組織抽出物が挙げられるが、これらに限定されない。試料は、さらに、例えば、タンパク質又は核酸等のある種の成分に対して試薬、可溶化、又は濃縮した、又は薄い組織切片又は組織学的試料中の細胞等の切片化用に半固体マトリックス又は固体マトリックス中に埋め込まれたような、それらの調達後に何らかの方法で操作された生物学的試料を含む。試料は、例えば、水、土壌、泥、空気、樹脂、無機物等の環境成分を含み得る。ある実施形態では、試料は、被験体（例えば、ヒト又は他の哺乳動物被験体）から得られたＤＮＡ（例えば、ｇＤＮＡ）、ＲＮＡ（例えば、ｍＲＮＡ、ｔＲＮＡ）、タンパク質、又はそれらの組み合わせを含む生物学的試料を含み得る。

【0074】

本明細書では、用語「細胞」は、「生物学的細胞」と相互に交換可能に用いられる。生物学的細胞の非限定的な例としては、真核細胞、植物細胞、哺乳類細胞、爬虫類細胞、鳥類細胞、魚類細胞等の動物細胞、原核細胞、細菌細胞、真菌細胞、原生動物細胞等、筋肉、軟骨、脂肪、皮膚、肝臓、肺、神経組織等の組織から解離した細胞、Ｔ細胞、Ｂ細胞、ナチュラルキラー細胞、マクロファージ等の免疫学的細胞、胚（例えば接合子）、卵母細胞、卵子、精子細胞、ハイブリドーマ、培養細胞、細胞株由来細胞、がん細胞、感染細胞、トランスフェクト及び／又は形質転換細胞、レポーター細胞等が挙げられる。哺乳動物細胞は、例えば、ヒト、マウス、ラット、ウマ、ヤギ、ヒツジ、ウシ、霊長類等から得ることができる。

【0075】

本明細書中で用いられる用語「マーカー」は、正常な生物学的プロセス、病原性プロセス、又は治療的介入、例えば抗がん剤による治療に対する薬理学的応答の指標として客観的に測定されうる特徴をいう。マーカーの代表的なタイプとしては、例えば、遺伝子変異、遺伝子重複、又はｃｆＤＮＡの体細胞変異、コピー数変異、縦列反復、又はそれらの組み合わせ等の複数の相違を含む、マーカーの構造（例えば、配列）又は数の分子変化が挙げられる。

【0076】

本明細書中で用いられる用語「遺伝子マーカー」は、実験室で測定しうる染色体上の特定の位置を有するＤＮＡの配列をいい、用語「遺伝子マーカー」は、例えば、ゲノム配列によりコードされるｃＤＮＡ及び／又はｍＲＮＡ、並びにそのゲノム配列自体をいうために用いることもできる。遺伝子マーカーは、２つ以上の対立遺伝子又は変異体を含み得る。遺伝子マーカーは、直接マーカー（例えば、被験体遺伝子又は被験体遺伝子座（例えば、候補遺伝子）内に位置するマーカー）、間接マーカー（例えば、被験体遺伝子又は被験体遺伝子座に近接するが被験体遺伝子又は被験体遺伝子座内には近接していないために、被験体遺伝子又は被験体遺伝子座と密接に関連するマーカー）であり得る。さらに、遺伝子マーカーはまた、ゲノムの非コード領域に存在する遺伝子又は遺伝子座、例えば、ＳＮＶ、ＣＮＶ、ｉｎｄｅｌｓ（インデル）、ＳＶｓ又はタンデムリピートと無関係であり得る。遺伝子マーカーは、遺伝子産物（例えば、タンパク質）をコードするか又はコードしない核酸配列を含む。特に、遺伝子マーカーは、一塩基多型／変異（ＳＮＰ／ＳＮＶ）又はコピー数変異（ＣＮＶ）又はそれらの組み合わせを含む。好ましくは、遺伝子マーカーは、ＤＮＡにおける体細胞変異、例えば、ｓＳＮＶもしくはｓＣＮＶ、ｉｎｄｅｌｓ（インデル）、ＳＶｓ又は参照試料と比較したそれらの組み合わせを含む。

【0077】

本明細書中で用いられる用語「無細胞ＤＮＡ」又は「ｃｆＤＮＡ」とは、細胞を含まないデオキシリボース核酸（ＤＮＡ）の鎖を意味し、例えば、循環血液の血漿／血清から抽出又は単離され、リンパ液、脳脊髄液（ＣＳＦ）、尿又は他の体液から抽出される。「ｃｆＤＮＡ」という用語は、「循環腫瘍ＤＮＡ」又は「ｃｔＤＮＡ」とは対照的である。無細胞ＤＮＡ（ｃｆＤＮＡ）は、血流中を自由に循環するが、必ずしも腫瘍由来ではないＤＮＡを記載するより広い用語である。

【0078】

本明細書中で用いられる用語「生殖細胞系ＤＮＡ」又は「ｇＤＮＡ」は、循環血液から順に得られるリンパ球を含む、患者の末梢単核球細胞から単離又は抽出されたＤＮＡを意味する。

【0079】

本明細書中で用いられる用語「変異」とは、変化又は逸脱をいう。核酸に関しては、変異は、コピー数の差（ＣＮＶ）を含む、ＤＮＡヌクレオチド配列間の差（単数又は複数）又は変化を意味する。ＤＮＡ配列間のヌクレオチドにおけるこの実際の差異は、ＳＮＰ、及び／又は、例えば、生殖細胞系ＤＮＡ（ｇＤＮＡ）又は参照ヒトゲノムＨＧ３８配列等の参照と配列を比較したときに観察されるＤＮＡ配列における変化、例えば、融合、欠失、付加、反復等であり得る。好ましくは、変異は、ｃｆＤＮＡ配列と、ｃｆＤＮＡが基準ＨＧ３８配列と比較される場合；ｃｆＤＮＡがｇＤＮＡと比較される場合等、腫瘍細胞由来ではない対照ＤＮＡ配列との間の差をいう。ｇＤＮＡとｃｆＤＮＡの両方で同定された相違は「体質性」と考えられ、無視されることがある。

【0080】

用語「対照」とは、本明細書中で用いられる場合、末梢血単核球及びリンパ球から単離された対照ＤＮＡ（当該細胞はがん細胞ではない）等の試験試料についての参照をいい、「参照試料」とは、比較のために用いられるがんを有するかもしれない、又は有さない組織又は細胞の試料をいう。従って、「参照」試料は、別の試料、例えばｃｆＤＮＡを含む血漿試料を比較しうる基礎を提供する。対照的に、「試験試料」とは、参照試料又は対照試料と比較する試料をいう。参照試料と試験試料が時間で分離された同じ患者から得られた場合のように、参照試料はがんに罹患していない必要はない。

【0081】

ある態様では、参照試料又は対照は、参照アセンブリを含んでもよい。用語「参照アセンブリ」とは、ＨＧ３８アセンブリ配列を含むヒトゲノム（ＨＧ３８）データベース（アセンブリ済：２０１３年１２月）等のデジタル核酸配列データベースをいう。ＧＥＮＯＭＥ（ｄｏｔ）ＵＣＳＣ（ｄｏｔ）ＥＤＵで、Human (Homo sapiens)University of California Santa Cruz (UCSC) Genome Browser Gateway at the world-wide-web URL GENOME(dot)UCSC(dot)EDUを介してゲートウェイにアクセスしうる。あるいは、参照アセンブリは、米国国立バイオテクノロジー情報センター（ＮＣＢＩ）のウェブ部位を介してインターネット上でアクセス可能な、ゲノム参照コンソーシアムのヒトゲノムアセンブリ（Ｂｕｉｌｄ＃３８；アセンブリ：２０１７年６月）を参照してよい。

【0082】

本明細書では、動詞としての用語「配列決定」又は「配列決定」は、ＤＮＡのヌクレオチド配列、又はヌクレオチドの順序が、ヌクレオチドの順序ＡＧＴＣＣ等のように決定されるプロセスをいう。名詞としての用語「配列」は、配列決定から得られる実際のヌクレオチド配列をいう。例えば、ＡＧＴＣＣという配列を有するＤＮＡをいう。「配列決定」は、デジタル形式で、例えば、ディスクで、又はサーバを介して遠隔的に提供及び／又は受け取られるが、「配列決定」は、本開示の方法及び／又はシステムを用いて増殖、操作及び／又は分析されるＤＮＡのコレクションをいう。

【0083】

用語「ＤＮＡ配列」は、本明細書中で用いられる場合、一般に、「生配列読取」及び／又は「コンセンサス配列」をいう。生配列読取は、ＤＮＡシークエンサーの出力であり、通常、例えば、増幅後の、同じ親分子の冗長配列を含む。「コンセンサス配列」とは、元の親分子の配列を表すことを意図した親分子の重複配列に由来する配列である。コンセンサス配列は、投票（ここで、各大多数のヌクレオチド、例えば、配列中の所定の塩基位置で最も一般的に観察されるヌクレオチドはコンセンサスヌクレオチドである）により、又は参照ゲノムと比較する等の他のアプローチにより作製され得る。コンセンサス配列は、子孫配列の追跡（例えば、ＰＣＲ後）を可能にする固有又は非固有な分子タグ（例えば、バーコード）で元の親分子をタグ付けすることにより作製しうる。

【0084】

配列決定方法は、Ｍａｘａｍ－Ｇｉｌｂｅｒｔ又はＳａｎｇｅｒ配列決定等の第一世代配列決定方法、又はハイスループット配列決定（例えば、次世代配列決定又はＮＧＳ）方法であり得る。高スループット配列決定方法は、少なくとも１０，０００、１００，０００、１００万、１０百万、１００百万、１０億、１０億、又はそれ以上のポリヌクレオチド分子を同時に（又は実質的に同時に）配列決定しうる。配列決定方法は、限定されないが、パイロシークエンシング、合成による配列決定、単一分子配列決定、ナノ細孔配列決定、半導体配列決定、連結による配列決定、配列決定－ハイブリダイゼーション、デジタル遺伝子発現（ヘリコス）、大規模並列配列決定（例えば、ヘリコス、クローン単一分子アレイ（Ｓｏｌｅｘａ／Ｉｌｌｕｍｉｎａ））、ＰＡＣＢＩＯ、ＳＯＬＩＤ、イオントレント、又はＮＡＮＯＰＯＲＥプラットフォームを用いる配列決定を含みうる。

【0085】

用語「全ゲノム配列決定」は、試料中の各ＤＮＡ鎖のＤＮＡ配列を決定する実験プロセスをいい、得られた配列は、「生配列決定データ」又は「読取」と称し得る。本明細書中で用いられるように、読取りは、参照染色体ＤＮＡ配列の領域と配列が類似する場合に読取り「マッピング可能」である。用語「マッピング可能」は、参照配列と類似性を示し、従って「マッピングされた」領域をいい、例えば、データベース中の参照配列と類似性を示すｃｆＤＮＡのセグメントをいい、例えば、ヒトゲノム（ＨＧ３８）データベース中のヒト染色体領域８ｑ２４８ｑ２４．３と高い比率であるｃｆＤＮＡは「マッピング可能読取」である。

【0086】

「深層配列決定（deep sequencing）」とは、配列の各領域の多数の複製読取を目的とする般的な概念をいう。

【0087】

本明細書中で用いられる用語「マッピング」とは、一般に、配列相同性に基づき、ＤＮＡ配列を基準配列と整列させることをいう。アラインメントは、アラインメントアルゴリズム、例えば、Ｎｅｅｄｌｅｍａｎ－Ｗｕｎｓｃｈアルゴリズム、ＢＬＡＳＴ、又はＥＭＢＯＳＳを用いて行いうる。

【0088】

「ＷＧＳ」に加えて、ゲノム一覧は、標的配列決定を用いて得ることができる。ＷＧＳとは対照的に、「標的配列決定」という用語は、本明細書中で用いられる場合、試料中の１又はそれ以上の選択されたＤＮＡ遺伝子座のＤＮＡ配列を決定する、例えば、がん関連遺伝子又はマーカーの選択された群（例えば、標的）の配列を決定する実験プロセスをいう。この文脈では、本明細書中の用語「標的配列」とは、選択された標的ポリヌクレオチド、例えば、その存在、量、及び／又はヌクレオチド配列、又はその変化が決定されることが望まれる、ｃｆＤＮＡ分子中に存在する配列をいう。標的配列を体細胞変異の有無について調べる。標的ポリヌクレオチドは、疾患、例えばがんに関連する遺伝子の領域であり得る。いくつかの実施形態では、領域はエクソンである。

【0089】

本明細書では、ｃｆＤＮＡに関する用語「低存在量」とは、約２０ｎｇ／ｍＬ未満、例えば、約１５ｎｇ／ｍＬ、約１０ｎｇ／ｍＬ、又はそれ未満、例えば、約９ｎｇ／ｍＬ、８ｎｇ／ｍＬ、７ｎｇ／ｍＬ、６ｎｇ／ｍＬ、５ｎｇ／ｍＬ、４ｎｇ／ｍＬ、３ｎｇ／ｍＬ、２ｎｇ／ｍＬ、１ｎｇ／ｍＬ、０．７ｎｇ／ｍＬ、０．５ｎｇ／ｍＬ、０．３ｎｇ／ｍＬ、又はそれ未満、例えば、０．１ｎｇ／ｍＬ又は０．０５ｎｇ／ｍＬを意味する。いくつかの実施形態では、「低存在量」という用語は、マーカーの独特性、例えば、長さ又は塩基組成の文脈では理解されうる。例えば、被験体の試料は、豊富な量のｃｆＤＮＡ（例えば、＞２０ｎｇ／ｍＬ）を含み得るが、ｃｆＤＮＡに含まれる独特の遺伝子マーカー（例えば、ｓＳＮＶ、ｓＣＮＶ、ｉｎｄｅｌｓ、ＳＶ）の実際の数は、非常に少なくてもよい。通常、本パラメータは、以下に記載されるように、ゲノム等価性（ＧＥ）又はカバレッジとして表される。いくつかの実施形態では、「低存在量」という用語は、マーカーの腫瘍特異性の文脈では理解されうる。例えば、被験体の試料は、豊富な量のｃｆＤＮＡ（例えば、＞２０ｎｇ／ｍＬ）を含み得るが、ｃｆＤＮＡに含まれる遺伝子マーカー（例えば、ｓＳＮＶ、ｓＣＮＶ、ｉｎｄｅｌｓ、ＳＶ）の大部分は、冗長であってもよく、かつ／又は参照（例えば、ＰＢＭＣｇＤＮＡ）とも関連してもよい。通常、本パラメータは、以下に記載されるように、腫瘍画分として表される。

【0090】

本明細書では、ｃｆＤＮＡに関する用語「腫瘍特異的」又は「腫瘍関連」とは、ｃｆＤＮＡが、本明細書中に記載されるように、腫瘍ではない細胞由来の対照ＤＮＡ（ｇＤＮＡ）と比較される場合等、参照ＤＮＡと比較される場合、肺がん患者等のがんを形成した被験体におけるｃｆＤＮＡのＤＮＡ配列の差をいう。

【0091】

本明細書中で用いられる用語「読取重複ファミリー」は、ＰＣＲ及び配列決定重複を含む。一般に、これらは同一の固有の断片の独立した複製であるため、低頻度ＰＣＲ及び配列決定エラーを修正する統計学的試験（コンセンサス試験）で用いうる。

【0092】

用語「カバレッジ」又は「読取り深度」は、配列決定努力に関連する。例えば、２０Ｘをカバーすることは、中程度の配列決定努力を意味し、３５Ｘ以上をカバーすることは、高い配列決定努力を意味し、５Ｘをカバーすることは、低い配列決定努力を意味する。本開示の実施形態では、カバー範囲は、通常、約５Ｘ～約１００Ｘ、特に、１５Ｘ～約４０Ｘ、例えば、２０Ｘ、３０Ｘ、３５Ｘ、４０Ｘ、５０Ｘ、７０Ｘ又はそれ以上である。

【0093】

本明細書中で用いられる「深度カバレッジ」とは、それらのマッピングが特定のゲノム座標で、又は特定のゲノム座標上で重複する固有の読取数をいう。

【0094】

本明細書中で用いられる用語「ｃｆＤＮＡカバレッジマスク」とは、正常なｃｆＤＮＡコホートにおいてｃｆＤＮＡによりカバーされるゲノム領域を表すマスクをいう。当技術分野で公知なように、ｃｆＤＮＡのカバー範囲は完全に均一ではなく（アクセス可能なクロマチンゲノム領域はあまり示されない）、従って、ブラックリスト又はマスクを実施してバイアスを除去し、十分にカバーされた領域の選択的分析を可能にしうる。

【0095】

本明細書中で用いられる用語「読取マップ可能性」は、読取済ゲノムのマッピングの精度の数値（例えば、比率同一性）又は統計的尺度（例えば、信頼性推定値）に関する。

【0096】

本明細書中で用いられる用語「変異負荷」又は「Ｎ」は、所定のゲノムウインドウにおける予め選択された単位（例えば、メガ塩基対当たり）当たりの変化（例えば、１又はそれ以上の遺伝子変化、特に１又はそれ以上の体細胞変化）のレベル、例えば数をいう。変異負荷は、例えば、全ゲノム又はエキソームベースで、又はゲノム又はエキソームのサブセットに基づき測定しうる。特定の実施形態では、ゲノム又はエキソームのサブセットに基づき測定された変異負荷量を外挿して、全ゲノム又はエキソーム変異負荷量を決定しうる。特定の実施形態では、変異負荷は、被験体、例えば、本明細書に記載される被験体由来の試料、例えば、腫瘍試料（例えば、肺腫瘍試料、又は獲得もしくは誘導された試料）において測定される。好ましくは、変異負荷量は、ｃｆＤＮＡのメガ塩基対（１，０００，０００ｂｐ又はＭＢＰ）当たりの変異数の尺度である。当技術分野で公知なように、変異負荷は、腫瘍型、遺伝的系統、及び年齢、性別、タバコ消費等の他の被験体特異的特徴に依存して変化し得る。腫瘍診断に関して、変異負荷は、ＭＢＰ当たり約１０００～約１００００個、例えば約１０００、２０００、４０００、６０００、８０００、１００００、１２０００、１５０００、２００００、２５０００、３００００、４００００、５００００、６００００、７００００、８００００、９００００、１００００個、又はそれ以上、例えばＭＢＰ当たり約２０００００個の変異であり得る。通常、変異負荷量は、非喫煙者では約８，０００／ＭＢＰであり、黒色腫を有する被験体では４０，０００／ＭＢＰを超える。

【0097】

用語「ゲノムウインドウ」は、本明細書中で用いられる場合、選択されたヌクレオチド配列境界内のＤＮＡの領域をいう。Ｗｉｎｄｏｗｓは、互いに分離したり、互いに重なり合ったりする。

【0098】

本明細書中で用いられる用語「腫瘍画分」又は「ＴＦ」は、正常ＤＮＡ分子に対する腫瘍ＤＮＡ分子のレベル、例えば量に関する。いくつかの実施形態では、「腫瘍画分」は、無細胞ＤＮＡの総量に対する循環無細胞腫瘍ＤＮＡ（ｃｆＤＮＡ）の比率をいう。腫瘍画分は、腫瘍の大きさを示すと考えられる。通常、腫瘍画分（ＴＦ）は、約０．００１％～約１％、例えば、約０．００１％、０．０５％、０．１％、０．２％、０３％、０．４％、０．５％、０．６％、０．７％、０．８％、０．９％、１％又はそれ以上、例えば、２％である。

【0099】

用語「存在量」は、特定の分子種の存在を示す二値（例えば、存在しない／存在する）、定性的（例えば、存在しない／低／中／高）、又は定量的情報（例えば、数、頻度、又は濃度に比例する値）でありうる。この文脈では、より高い相対濃度で存在する変異は、より多くの悪性細胞、例えば、体内の他の悪性細胞と比較して腫瘍形成過程の初期に形質転換した細胞と関連する（Welch et al., Cell, 150: 264-278, 2012）。当該変異は、相対的存在度が高いため、相対的存在度が低い変異よりもがんＤＮＡを検出する診断感度が高いと予想される。

【0100】

本明細書中で用いられる「配列決定ノイズ」とは、「駆動」中に配列決定装置、ソフトウェア、又は他の人工的に導入されるノイズをいい、配列決定パイプラインには少なくとも２つのノイズ源がある。第一に、入力ペレット（ＤＮＡ又は細胞ペレット）から作製されるＤＮＡ混合物は、細胞の複雑な混合物であり、従って、いかなる有用なシグナルも、情報内容がないＤＮＡにより希釈される。第２ノイズ源は、用いられた特異的な配列決定技術に起因する。例えば、配列決定ノイズ又は「機械」ノイズは、イオン－塩基配列決定プロセス、例えば、ＩＯＮＴＯＲＥＮＴＰＧＭ（商標）プラットフォームから導出しうる。例えば、ｐＨ検出に基づき塩基を読取るイオン検出配列決定法は、ホモポリマーに感受性であり、時には、ホモポリマー鎖を１塩基が長すぎるか短すぎるとして読取る場合がある。

【0101】

本明細書中で用いられる「配列決定エラー率」は、配列決定されたヌクレオチドの不正確な割合に関する。例えば、全ゲノム配列決定の文脈では、約１／１０００塩基の配列決定エラー率が文献で報告される（範囲：エラー率は、塩基呼出当たり０．１～１％のオーダーである；Wu et al., Bioinformatics, 33(15):2322-2329, 2017を参照のこと。

【0102】

本明細書中で用いられる用語「配列決定深度」は、配列決定された領域が配列読取によりカバーされる回数に関する。例えば、配列決定の平均深度が１０倍であるということは、配列決定された領域内の各ヌクレオチドが平均して１０個の配列読取によりカバーされることを意味する。配列決定の深度が増すと、がん関連変異が検出される可能性が高くなると予想される。しかしながら、実際には、深度中央値４２，０００Ｘでさえ、ｃｆＤＮＡ存在量の基本的な限界が早期肺腺がんの陽性検出をわずか１９％にしかもたらさなかったという事実により証明されるように、検出のオッズは配列決定の深度に比例して直線的に増加しない（Abbosh et al., Nature, 545(7655):446-451, 2017）。

【0103】

本明細書で用いられる、最も広義の用語「ノイズ」は、望ましくない外乱（例えば、真の事象に直接関連しないシグナル）にもかかわらず、真の事象として処理又は受信され得るものをいう。ノイズは、人工及び自然源からシステムに導入される望ましくない又は乱れたエネルギーの総和であり、ノイズにより、シグナルにより運ばれる情報が劣化又は信頼性が低下するようにシグナルが歪められうる。ノイズは、マーカー（ＳＮＶ、ＣＮＶ、ｉｎｄｅｌ、ＳＶ）と腫瘍との間の確率的関連性等、何らかの現象の挙動又は特性に関する情報を伝達する関数である「シグナル」とは対照的である。

【0104】

本明細書で用いられる用語「シグナル対ノイズ比」は、システムのノイズから真のシグナルを分解する能力をいう。シグナル対ノイズ比は、シグナルに存在するノイズのレベルに対する所望のシグナルのレベルの比率を獲得して計算される。シグナル対ノイズ比に影響する現象は、例えば、検出器のノイズ、システムのノイズ、及びバックグラウンドの人工的を含む。本明細書で用いられる用語「検出器のノイズ」は、検出器内で発生する望ましくない外乱（すなわち、検出器の意図されたエネルギーに直接起因しないシグナル）をいう。検出器ノイズは、暗電流ノイズ及びショットノイズを含む。シークエンサ等の光学検出器システムにおける暗電流ノイズは、光検出器由来の様々な熱放射から生じ得る。光学系におけるショットノイズは、入射光子が光検出器を通過する際の入射光子の基本粒子特性（すなわち、ポアソン分布エネルギー変動）の積である。

【0105】

用語「フィルタ」は、望ましくないデータの破棄もしくは除去、望ましいデータの保持、又はその両方を意味し、当業者により多くの方法で用いられる。

【0106】

用語「塩基品質」（ＢＱ）スコアは、ポリヌクレオチド中の各ヌクレオチド塩基における配列決定品質の信頼性に関連する。いくつかの実施形態では、いくつかの実施形態では、塩基品質（ＢＱ）は、可変塩基品質（ＶＢＱ）又は平均読取塩基品質（ＭＲＢＱ）を含み、これらは両方とも、塩基品質メトリックの変形である。

【0107】

用語「マッピング品質」（ＭＱ）スコアは、ゲノムとのマーカーのマッピングの精度に関する信頼性推定値に関連する。

【0108】

用語「読取位置」又は「読取位置（ＰＩＲ）」は、ヌクレオチド配列中の読取位置（例えば、マーカー）に関する。ゲノム学では理解されるように、多くの配列決定プロトコルは、様々なタイプの増幅誘発バイアス及び誤差を生じやすく、これは「読取方向」及び「読取位置」フィルタ等のフィルタの実施により減少し得る。読取方向フィルタは、ほぼ前方又は後方読取のいずれかに専ら存在する変異体を除去する。多くの配列決定プロトコルでは、当該変異体は、増幅誘発誤差の結果である可能性が最も高い。読取位置フィルタは、「読取方向フィルタ」と同様の方法で実施され、系統誤差を除去するが、ハイブリダイゼーションに基づくデータにも適する。これは、変異部位をカバーする読取の一般的な位置から予想されるものとは異なる読取の中に位置する変異体を除去する。これは、それぞれの配列決定されたヌクレオチド（又はギャップ）を、読取のマッピング方向及び読取のどこでヌクレオチドが見つかるかにより分類して行われる；各読取は、その長さに沿って部分（例えば、５部分）に分割され、ヌクレオチドの部分番号が記録される。これにより、配列決定された各ヌクレオチドについて合計１０のカテゴリーが得られ、所定の部位は、その部位をカバーする読取のために、これら１０のカテゴリーの間に分布することになる。もし変異体が本部位に存在するならば、変異体のヌクレオチドは同じ分布に従うと予想される。読取位置フィルタは、読取位置の有意性を測定するテストを実行し、例えば、変異体の読取位置分布が、部位をカバーする読取の全セットのそれと異なるかどうかを測定する。

【0109】

本明細書中で用いる、マーカー（例えば、ＣＮＶ）の用語「位置属性」は、染色体又は遺伝子配列中のマーカーの空間的位置に関する。例えば、マーカーの位置属性は、それが少なくとも１０００キロ塩基（ｋｂ）、少なくとも４００ｋｂ、少なくとも１００ｋｂ、少なくとも２０ｋｂ以下、例えば、テロメア、セントロメア、又は染色体のヘテロクロマチン領域から１ｋｂであるかどうかに基づき測定され得る。染色体再編成のホットスポットを特徴とするサブテロメア領域又はセントロメア周囲領域にマップされたＣＮＶは好ましくない可能性がある。本明細書中で用いられる、マーカー（例えば、ＣＮＶ）に関する用語「代表的」は、表現型又は疾患とのその関連に関連する。例えば、以前の研究は、免疫グロブリン領域におけるＣＮＶの呼出はｇＤＮＡを代表せず、ＤＮＡ源－例えば、唾液対血液又はリンパ芽球様細胞株対血液－に実質的に依存する傾向があることを見出した（Need et al., 2009; Wang et al., 2007; Sebat et al., 2004）。

【0110】

本明細書中で用いられる、ＤＮＡ配列決定における用語「カバレッジ」又は「深度」は、再構成された配列中の所定のヌクレオチドを含む読取数をいい、カバレッジヒストグラムは、一般に、データセット全体の配列決定カバレッジの範囲及び均一性を示すために用いられ、それらは、様々な深度でマッピングされた配列決定読取によりカバーされる参照塩基数を一覧することで、全体のカバレッジ分布を示す。マッピングされた「読取深度」は、所定の参照塩基位置で配列決定され、アラインメントされた塩基の総数をいう。通常、配列決定カバレッジヒストグラムでは、読取深度は、ｘ軸上にビニングされて一覧され、一方、各読取深度ビンを占有する基準塩基の総数は、ｙ軸上に一覧される。これらは、基準塩基の比率としても記載しうる。

【0111】

本明細書中で用いられる「深度カバレッジ」とは、それらのマッピングが特定のゲノム座標と重複する固有読取数をいう。

【0112】

本明細書中で用いられる用語「読取マップ可能性」は、ＣＮＶに関連する読取のゲノムとのマッピングの精度に関する信頼性推定値を意味する。

【0113】

本明細書中で用いられる用語「固有の読取」とは、特徴的な特徴、例えば、参照ゲノムにおいて独特に出現する読取をいい、対照的に、「非固有の読取」とは、特徴的な特徴、例えば、読取中に出現が１回を超える（すなわち、反復）ものが全く又は非常にわずかしかない読取をいう。

【0114】

本明細書中で用いられる場合、ゲノム「関心領域」又はＲＯＩは、遺伝情報がそれから望まれるいかなるゲノム領域であり得る。関心被験体のゲノム領域は、染色体の領域を含み得る。目的のゲノム領域は、染色体全体を含みうる。染色体は二倍体の染色体である。ヒトゲノムでは、例えば、二倍体染色体は、染色体１、２、３、４、５、６、７、８、９、１０、１１、１２、１３、１４、１５、１６、１７、１８、１９、２０、２１、２２、２３のいずれかであり得る。ある場合は、染色体はＸ又はＹ染色体であり得る。ある場合は、目的のゲノム領域は染色体の一部を含む。関心被験体のゲノム領域は、いかなる長さであってよい。被験体ゲノム領域の長さは、例えば、約１～約１０塩基、約５～約５０塩基、約１０～約１００塩基、約７０～約３００塩基、約２００～約１０００塩基（１ｋｂ）、約７００～約２０００塩基、約１～約１０ｋｂ、約５～約５０ｋｂ、約２０～約１００ｋｂ、約５０～約５００ｋｂ、約１００～約２０００ｋｂ（２Ｍｂ）、約１Ｍｂ～約５０Ｍｂ、約１０～約１００Ｍｂ、約５０～約３００Ｍｂでありうる。例えば、被験体とするゲノム領域は、１塩基超、１０塩基超、２０塩基超、５０塩基超、１００塩基超、２００塩基超、４００塩基超、６００塩基超、８００塩基超、１０００塩基超、１．５ｋｂ超、２ｋｂ超、３ｋｂ超、４ｋｂ超、５ｋｂ超、１０ｋｂ超、２０ｋｂ超、３０ｋｂ超、４０ｋｂ超、５０ｋｂ超、６０ｋｂ超、７０ｋｂ超、８０ｋｂ超、９０ｋｂ超、１００ｋｂ超、２００ｋｂ超、３００ｋｂ超、４００ｋｂ超、５００ｋｂ超、６００ｋｂ超、７００ｋｂ超、８００ｋｂ超、９００ｋｂ超、１０００ｋｂ超、１Ｍｂ超、２Ｍｂ超、３Ｍｂ超、４Ｍｂ超、５Ｍｂ超、６Ｍｂ超、８Ｍｂ超、９Ｍｂ超、１０Ｍｂ超、２０Ｍｂ超、３０Ｍｂ超、４０Ｍｂ超、５０Ｍｂ超、６０Ｍｂ超、７０Ｍｂ超、８０Ｍｂ超、９０Ｍｂ超、１００Ｍｂ超、又は２００Ｍｂ超でありうる。関心被験体のゲノム領域は、１又はそれ以上の有益遺伝子座を含み得る。有益遺伝子座は、例えば、２又はそれ以上の対立遺伝子を含む多型遺伝子座であり得る。ある場合、２又はそれ以上の対立遺伝子がマイナーな対立遺伝子を構成する。

【0115】

本明細書中で用いられる、読取に関する用語「方向性」は、読取が行われる方向又は方法をいう。たとえば、単一末端読取りでは、配列決定機が、片方の末端からもう一方の末端へと断片を読取って、塩基対の配列を生成する。対末端読取りでは、１の読取で始まり、指定された読取長でこの方向を終了し、その後、断片の反対側の末端から次の読取を開始する。対末端読取りは、ゲノム中の様々な読取の相対的位置の同定能を向上させ、遺伝子の挿入、欠失、逆位等の構造的再編成を解明する上で、単一末端読取りよりもはるかに効果的である。また、反復領域の一覧を改善しうる。しかし、対末端読取りは単一末端読取りよりも高価で、実行に時間を要する。

【0116】

本明細書で用いられる用語「ＣＮＶ方向性」とは、コピー数の変化の方向をいう。例えば、コピー数の増加（例えば、増大や増殖）は正の値をとり、減少（例えば、喪失や断片化）は負の値をとる。

【0117】

本明細書中で用いられる用語「ビン」は、「ゲノムビン」等の、まとめて群化されたＤＮＡ配列の群をいう。特定の場合、ビンは、ゲノムウインドウを用いてＤＮＡ配列を群化することを含む「ゲノムビンウインドウ」に基づきビン化されたＤＮＡ配列の群を含んでよい。

【0118】

本明細書中で用いられる、マーカーレベルに関連する用語「推定（値）」は、広義に用いられ、用語「推定値」は、実際の値（例えば、１／ｍｂｐ）、値の範囲、統計値（例えば、平均値、中央値等）、又は他の推定手段（例えば、確率的に）でありうる。

【0119】

本明細書では、「実質的に」とは、意図された目的のために機能するのに十分なことを意味する。従って、用語「実質的に」は、絶対的又は完全な状態、寸法、測定値、結果等から、当該分野の当業者が期待するが全体的な性能には影響を及ぼさないような、小さな、わずかな変化が許容される。数値又は数値として表すことができるパラメータ又は特徴に関して用いられる場合、「実質的に」とは、１０％以内を意味する。

【0120】

本明細書中で用いられる用語「実質的に精製された」は、それらの天然環境から除去され、単離又は分離又は抽出され、少なくとも６０％の遊離、好ましくは７５％の遊離、より好ましくは９０％の遊離、及び最も好ましくは９９％の他の成分と天然に結合する遊離のｃｆＤＮＡ分子をいう。

【0121】

本明細書に記載されている全ての刊行物は、刊行物に記載されており、本開示に関連して用いられ得る装置、組成物、処方物及び方法を記載し、開示する目的で、本明細書に参考として援用される。

【0122】

本明細書中で用いられる用語「含む」、「含む」、「含有する」、「ある」、「有する」、「包含する」は、限定することを意図されておらず、包含又はオープンエンドでなく、追加の引用されない添加剤、成分、整数、要素又は方法工程を除外しない。例えば、特徴のリストを含むプロセス、方法、システム、組成物、キット又は装置は、必ずしもそれらの特徴に限定されず、明示的に列挙されないか、又は当該プロセス、方法、システム、組成物、キット又は装置に固有ではない他の特徴を含みうる。

【0123】

本被験体の実施は、別段の指示がない限り、有機化学、分子生物学（組換え技術を含む）、細胞生物学、及び生化学の従来の技術及び説明を用いることができ、これらは、当該技術の範囲内である。

【0124】

〔方法〕
本開示は、無細胞ＤＮＡ（ｃｆＤＮＡ）中に存在するマーカーを分析する、残存腫瘍の検出及び／又は診断の方法及びシステムに関する。当該検出は、単独で、又は既存の技術と組み合わせて、残存腫瘍の有無を判定し、当該疾患に罹患の可能性を予測し、また当該疾患に対する治療的又は予防的介入の開発に用いうる。

【0125】

いくつかの実施形態では、本開示の方法は、被験体から得られた試料について実施される。好ましくは、試料は、血液（全血を含む）、血漿、血液血清、溶血物、リンパ液、滑液、脊髄液、尿、脳脊髄液、便、痰、粘液、羊水、涙液、シスト液、汗腺分泌物、胆汁、乳汁、涙液、唾液、又は耳ろうを含む。試料は、当該遠心分離、アフィニティークロマトグラフィー（例えば、免疫吸収手段）、免疫選択及びフィルタリング等の様々な方法を用いて、特定の細胞を除去するように処理され得る。従って、例では、試料は、被験体から直接単離された、又は被験体から得られた試料から精製された（例えば、全血からＴ細胞を精製する）特定の細胞型又は細胞型の混合物を含みうる。一例では、生物学的試料は、末梢血単核細胞（ＰＢＭＣ）である。他の例では、試料は、Ｂ細胞、樹状細胞、顆粒球、先天性リンパ球（ＩＬＣ）、巨核球、単球／マクロファージ、ナチュラルキラー（ＮＫ）細胞、血小板、赤血球（ＲＢＣ）、Ｔ細胞、胸腺細胞からなる群から選択され得る。ある実施形態では、試料は、皮膚細胞、毛包細胞、精子等を含み得る。

【0126】

診断方法の代表的な、限定するものではない概略を図１及び図８に示す。

【0127】

〔ワークフロー〕

【0128】

図１Ａは、本開示の様々な実施形態による、残存病変、例えば、手術後の腫瘍疾患又は治療後の発明（例えば、化学療法後、免疫療法、標的療法、放射線療法）の検出方法１００を示すフローチャートである。方法１００は、例示的に過ぎず、実施形態は、方法１００の変形を用いうる。方法１００は、マーカーの一覧を受信する工程と、多数の特徴に基づきマーカーに関連するノイズをフィルタリングする工程と、被験体特異的マーカーを生成するために一覧から人工的ノイズマーカーを除去する工程とを含むことができ、この一覧は、次いで、残存病変の診断に用いられる腫瘍画分の推定に用いられる。ＴＦは、全血漿ＤＮＡ（ｃｆＤＮＡ）中の腫瘍ＤＮＡ（ｃｔＤＮＡ）の比率をいうことに注意すべきである。従って、本開示及び他の場所の用語「ｃｔＤＮＡ存在量」は、用語「腫瘍画分」と同義に用いられ得る。

【0129】

図１Ａの方法１００の工程１１０では、被験体から、生物学的試料（腫瘍試料及び場合により正常な試料）中の複数の遺伝子マーカー（例えば、ＳＮＶ、ＣＮＶ、ＳＶ、ｉｎｄｅｌ）に関連する被験体特異的ゲノムワイドの一覧を受け取る。いくつかの実施形態では、遺伝子マーカーの一覧は、バリアントコールフォーマット（ＶＣＦ）ファイルで受け取られる。当技術分野で理解されるように、ＶＣＦファイルは、遺伝子配列変異を保存するバイオインフォマティクスで用いられる。ＶＣＦフォーマットは、１０００ゲノムプロジェクト等の大規模な遺伝子型タイピング及びＤＮＡ配列決定プロジェクトの出現により開発された。あるいは、一覧は、遺伝子データの全てを含む一般的な特徴フォーマットで提供されうる。一般に、ＧＦＦはゲノムワイドで共有されるので、重複した特徴を提供する。対照的に、ＶＣＦでは、参照ゲノムとともに変異だけを保存すればよい。いくつかの実施形態では、被験体の試料は、例えば、全ゲノム配列決定（ＷＧＳ）を用いて配列決定され、配列ファイルは、例えば、ゲノムＶＣＦ（ｇＶＣＦ）等のツールを用いて処理される。

【0130】

図１Ａの方法１００の工程１２０では、被験体の第２試料（例えば、血漿又は血液）中の遺伝子マーカーの被験体特異的ゲノムワイドの一覧を検出して、患者試料（例えば、血漿又は血液試料）中の腫瘍関連ゲノムワイドの遺伝子マーカーの一覧を生成する。

【0131】

図１Ａの方法１００の工程１３０では、各マーカーのノイズ確率が分析される。例えば、マーカーがＳＮＶ又はｉｎｄｅｌである場合、Ｐ_Ｎは、１）ＳＮＶ／ｉｎｄｅｌのＭＱ；２）ＳＮＶ／ｉｎｄｅｌを含む読取の断片長；３）ＳＮＶ又はＩｎｄｅｌを含む読取重複ファミリー内のコンセンサステスト、及び／又は４）ＳＮＶ／ｉｎｄｅｌのＢＱの関数として分析され得る。同様に、マーカーがＣＮＶ又はＳＶである場合、マーカーがノイズ関連である確率は、（１）セントロメアに対するその位置、（２）ＣＮＶ／ＳＶを含む読取群のＭＱ、及び／又は（３）人工的が読むｃｆＤＮＡデータにおけるＣＮＶウインドウの一覧に基づき、一覧中の各ＣＮＶ又はＳＶウインドウをシグナル（Ｓ）又はノイズ（Ｎ）として統計的に分類して分析しうる。ノイズ除去工程１３０は、結合塩基品質スコア及びマッピング品質スコアに基づき、一覧における遺伝子マーカーの確率論的分類を含む最適受信者動作特性曲線を実装することを含みうる。通常、結合ＢＱＭＱスコアはマトリックス（ｘ，ｙ）として提供され、ｘはＢＱスコアであり、ｙはＭＱスコアである。例示的な実施形態では、例えば、（１０、４０）、（１５、３０）、（２０、２０）、（２０、３０）、（３０、４０）のＢＱＭＱスコアのように、（各パラメータについて）１０～５０の結合ＢＱＭＱスコアが典型的に用いられる。いくつかの実施形態では、マーカーの分類は、ＲＯＣ曲線下の面積（ＡＵＣ）の測定を含み、これは、通常、潜在的マーカーの中から無作為に選択された候補マーカーが、無作為に抽出された対照マーカーより高い値を示す確率を表す。完全に情報のないマーカーについては、ＲＯＣ曲線は対角線の上昇（「偶然の対角」又は「偶然の線」という）に近づき、ＡＵＣは０．５（すなわち、偶然のみによる分類の期待確率）になる。逆に、完全な分類の場合には、ＲＯＣ曲線は理論精度（感度と特異性の両方１００％）の最高点に達し、ＡＵＣは１つ、すなわち最も高い確率値になる傾向がある。代表的なＲＯＣが図３Ｂに示されている。塩基品質フィルタの前ろ過誤差モデル及び後ろ過効果を図３Ａに示す。図３Ｃは、塩基品質（ＢＱ）及びマッピング品質フィルタの適用が、配列決定誤差を約７倍抑制することを示す。

【0132】

図１Ａの方法１００の工程１４０では、生物学的試料の推定腫瘍画分（ｅＴＦ）は、１又はそれ以上の統合的数学的モデルに基づき計算される。マーカー（例えば、ＳＮＶ／ｉｎｄｅｌｓ対ＣＮＶ／ＳＶ）に依存して、数学的モデルは、患者固有の属性だけでなく、複数のプロセス品質判断基準を統合して、腫瘍画分（ＴＦ）を推定する。本開示のシステム及び方法は、ＳＮＶ／ｉｎｄｅｌｓとＣＮＶ／ＳＶの間の頻度及び形質（例えば、がん）との関連特性に関する根本的な差異を認識し、腫瘍画分を推定するマーカー特異的数学アルゴリズムを用いることを含む。各場合に、数学的推論モデルは、マーカーの数／頻度、推定ノイズ、読取、変異負荷及び／又はカバレッジ又は深度に基づき、生物学的試料（例えば、血漿）中の腫瘍ＤＮＡの推定画分を出力する。

【0133】

いくつかの実施形態では、本開示の方法は、複数のＳＮＶ／ｉｎｄｅｌマーカーの検出に基づくＴＦの推定を含む。ここでは、推定されたＴＦ（ｅＴＦ［ＳＮＶ］）を、推定されたゲノムカバレッジと配列決定ノイズを含むプロセス‐品質判断基準を、変異負荷（Ｎ）を含む患者特異的パラメータと統合して計算した。好ましくは、この方法は、ＳＮＶ／ｉｎｄｅｌマーカーについて推定された腫瘍画分（ｅＴＦ）を計算する工程を含み、ここで、ｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）Ｒ）／Ｎ］＾（１／ｃｏｖ）であり、式中、Ｍは、患者試料中の腫瘍に特異的な一般検出数、σは、経験的に推定されたノイズの尺度、Ｒは、関心領域（ＲＯＩ）中の固有の読取の総数、Ｎは、腫瘍変異負荷、ｃｏｖは、ＲＯＩ中の部位当たりの固有の読取の平均数である。

【0134】

いくつかの実施形態では、本開示の方法は、複数のＣＮＶ／ＳＶマーカーの検出に基づくＴＦの推定を含む。ここで、推定ＴＦ（ｅＴＦ［ＣＮＶ］）は、コピー数の増幅が正に歪み、コピー数の欠失が負に歪む、腫瘍ＣＮＶ／ＳＶ方向性に一致して歪んだカバレッジ深度の方向性を積分して計算される。好ましくは、本方法は、ＣＮＶマーカーについての推定された腫瘍画分（ｅＴＦ）を計算する工程を含み、ここで、ｅＴＦ［ＣＮＶ］＝（ｓｕｍ＿｛ｉ］＝［（Ｐ（ｉ）－Ｎ（ｉ）］＊記号［Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（ｓｉｇｍａ））／（ｓｕｍ＿｛ｉ｝［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］－Ｅ（σ）］であり、式中、Ｐは、血漿深度カバレッジを表す｛ｉ｝で指数化付けされたゲノムウインドウにおける深度中央値、Ｔは、腫瘍深度カバレッジを表す｛ｉ｝で指数化付けされたゲノムウインドウにおける深度中央値、Ｎは、正常深度カバレッジを表す｛ｉ｝で指数化付けされたゲノムウインドウにおける深度中央値である。

【0135】

図１Ａの方法１００の工程１５０では、ｅＴＦ（工程１４０で計算）及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、残存病変が被験体において診断される。いくつかの実施形態では、検出閾値は、健常試料から経験的に測定された基礎ノイズＴＦ推定を含む。当該実施形態では、閾値（例えば、ノイズＴＦ分布の少なくとも２標準偏差（ＦＰＲ＜２．５％）；好ましくは、３ＳＴＤを超えるか又は５ＳＴＤを超える）を超えるいかなるｅＴＦも、陽性検出として定義される。

【0136】

さらに、図１Ｂに示される例示的なワークフロー１００により提供されるように、様々な実施形態により、それが必要な被験体の残存病変を検出する方法が提供される。図１Ｂの方法１００の工程１１０に提供されるように、ワークフローは、被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイドの読取の一覧を受け取ることを含みうる。第１生物学的試料は、ベースライン試料を含みうる。第１一覧は、各々１塩基対の長さの読取を含みうる。ベースライン試料は、腫瘍試料又は血漿試料を含み得る。第１生物学的試料はまた、正常細胞試料を含みうる。

【0137】

図１Ｂの方法１００の工程１２０で提供されるように、当該方法は、第１読取一覧から実際部位をフィルタリングすることを含みうる。フィルタリングは、参照健常試料のコホート上で生成された反復部位を読取一覧から除去することを含みうる。あるいは、又は組み合わせて、フィルタリングは、生物学的試料における生殖細胞系変異を同定すること、及び／又は正常細胞試料の腫瘍試料と末梢血単核細胞との間の共有された変異を生殖細胞系変異として同定すること、及び前記生殖細胞系変異を読取一覧から除去することを含みうる。図１Ｂの方法１００の工程１２０で提供されるように、ワークフローは、第１一覧から人工的部位をフィルタリングする工程を含んでよく、フィルタリング工程は、遺伝子マーカーの第１一覧から、参照健常試料のコホートにわたって生成された反復部位の除去を含む。及び/又は、フィルタリング工程は、正常細胞試料の末梢血単核細胞における生殖細胞系変異の同定、及び遺伝子マーカーの第１一覧からの前記生殖細胞系変異の除去を含みうる。

【0138】

図１Ｂの方法１００の工程１３０に提供されるように、当該ワークフローは、被験体の第２生物学的試料中の遺伝子マーカーの第２被験体特異的ゲノムワイド一覧由来の読取を検出し、第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧の生成を含みうる。

【0139】

図１Ｂの方法１００の工程１４０で提供されるように、当該ワークフローは、少なくとも１つの誤差抑制プロトコルを用いて、第１及び第２の読取のゲノムワイドの一覧からのノイズをフィルタリングして、第１読取のゲノムワイドの一覧用に第１フィルタリング済み読取セット、及び第２読取のゲノムワイドの一覧用に第２フィルタリング済み読取セット、を生成することを含みうる。少なくとも１つのエラー抑制プロトコルは、第１及び第２の一覧内のいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、かつ、前記変異を除去することを含みうる。確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせからなる群から選択された特徴の関数として計算しうる。あるいは、又は組み合わせて、少なくとも１つのエラー抑制プロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同じＤＮＡ断片の独立した複製間の不一致試験を用いて人工的変異を除去することを含みうる。及び／又は、所定の重複ファミリーの大部分に一致がない場合に人工的変異が同定及び除去される重複コンセンサスを用いて、人工的変異を除去することを含みうる。

【0140】

図１Ｂの方法１００の工程１５０に提供されるように、当該ワークフローは、１又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、第１及び第２のフィルタリング済み読取セットを用いて、第１及び第２の生物学的試料の推定腫瘍率（ｅＴＦ）の計算を含みうる。

【0141】

図１Ｂの方法１００の工程１６０に提供されるように、ワークフローは、第２生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体中の残存病変を検出することを含みうる。

【0142】

さらに、図１Ｃに示される例示的なワークフロー１００により提供されるように、様々な実施形態により、それが必要な被験体の残存病変を検出する方法が提供される。図１Ｃの方法１００の工程１１０に提供されるように、ワークフローは、被験体の第１生物学的試料から遺伝子マーカーに関連する読取の第１被験体特異的ゲノムワイド一覧の受け取りを含みうる。第１生物学的試料は、ベースライン試料を含みうる。読取の第１一覧は各々、コピー数変異（ＣＮＶ）を含みうる。ベースライン試料は、腫瘍試料又は血漿試料を含み得る。

【0143】

図１Ｃの方法１００の工程１２０に提供されるように、ワークフローは、被験体の第２生物学的試料から遺伝子マーカーに関連する読取の第２被験体特異的ゲノムワイド一覧の受け取りを含みうる。第２生物学的試料は、末梢血単核細胞試料（ＰＢＭＣ）を含みうる。遺伝子マーカーの第２一覧は各々、コピー数変異（ＣＮＶ）を含みうる。

【0144】

図１Ｃの方法１００の工程１３０で提供されるように、ワークフローは、第１及び第２の読取一覧からの人工的部位のフィルタリングを含み得、このフィルタリングは、参照健常試料のコホート上で生成された反復部位の、第１及び第２の読取一覧からの除去を含む。あるいは又は組み合わせて、フィルタリングは、第１及び第２の一覧で共有されたＣＮＶを生殖細胞系変異として同定し、前記変異の読取の第１及び第２一覧からの除去を含みうる。

【0145】

図１Ｃの方法１００の工程１４０に提供されるように、ワークフローは、被験体の第３生物学的試料中の遺伝子マーカーの第３被験体特異的ゲノムワイド一覧由来の読取を検出し、第３試料中の遺伝子マーカーの腫瘍関連ゲノムワイド表現の生成を含みうる。

【0146】

図１Ｃの方法１００の工程１５０に提供されるように、ワークフローは、第１、第２及び第３読取一覧を各々正規化し、第１ゲノムワイド読取一覧用の第１フィルタリング済み読取セット、第２ゲノムワイド読取一覧用の第２フィルタリング済み読取セット、及び第３ゲノムワイド読取一覧用の第３フィルタリング済み読取セットの生成を含みうる。

【0147】

図１Ｃの方法１００の工程１６０に提供されるように、ワークフローは、第３フィルタリング済み読取セットを用いて、１又はそれ以上の統合的数学的モデル、第１フィルタリング済み読取セットを用いて第１ｅＴＦを生成する１又はそれ以上のモデル、及び／又は第２フィルタリング済み読取セットを用いて第２ｅＴＦを生成する１又はそれ以上のモデルにバックグラウンドノイズモデルを適用し、第３生物学的試料の推定腫瘍率（ｅＴＦ）の計算を含みうる。

【0148】

図１Ｃの方法１００の工程１７０に提供されるように、ワークフローは、第３生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体中の残存病変を検出することを含みうる。

【0149】

〔スキーム〕

【0150】

図１Ｄ及び図１Ｅは、本開示の方法を実施するための概略的なワークフローを示す。図１Ｄは、関心被験体のマーカーがＳＮＶ／ｉｎｄｅｌｓを含む場合に典型的に用いられるワークフローを概略し、図１Ｅは、関心被験体のマーカーがＣＮＶ／ＣＶを含む場合に典型的に用いられるワークフローを概略する。なお、説明のために別個のワークフローが提供されるが、本開示の方法の実施に別個に実施する必要はない。例えば、ワークフローの特定の特徴／要素を組み合わせて利用して、関心のある転帰（例えば、被験体ががんを発症しているかどうか）に関連する出力（例えば、ＳＮＶ／ｉｎｄｅｌ及びＣＮＶ／ＳＶに基づく組み合わせ推定腫瘍画分）を生成しうる。

【0151】

図１Ｄに示されるように、ＳＮＶ／ｉｎｄｅｌマーカーに基づくＭＲＤ検出は、通常、データを受信する工程；ＳＮＶ／ｉｎｄｅｌの患者特異的パターンを生成する工程；人工的部位を除去／フィルタリングする工程；追跡試料中の読取／部位の検出；機械学習；読取の修正；腫瘍画分の推定を提供する部位の検出を含む特定のアルゴリズムを用いたエラーの抑制；及び場合によっては、ゲノムデータ中の二次的特徴の分析（例えば、断片サイズシフトの分析）を直交的に統合する工程を利用して、検出の感度、特異性及び／又は信頼性を改善する。

【0152】

図１Ｄの第１工程では、ベースライン試料（通常、腫瘍試料であるが、単独で又は腫瘍試料と共に治療前の血漿を含みうる）及び正常試料（通常、ＰＢＭＣであるが、隣接する正常組織又は頬側スワブを含みうる）からの遺伝データを受け取り、患者特異的マーカーパターン（例えば、ＳＮＶ／インデルを含む）を生成する。次に、人工的部位をフィルタリングして、ベースライン試料から体細胞変異の参照リストを呼出す。ここで、生殖細胞系変異が試料から除かれる。また、体細胞変異の呼出は、複数の呼出側（例えば、ＭＵＴＥＣＴ、ＳＴＲＥＬＫＡ）を用いて、呼出側の交点を用いて独立に実施され、信頼性の高い変異のリストが作成される。連続的又は並行的に、正常な血漿試料（正常な（ＰＯＮ）ブラックリスト又はマスクのパネル）のコホートにわたって再発性の人工的部位を作製し、患者が検出した変異を除去して、一般的な配列決定又はアラインメントの人工的を除去する。次いで、フィルタリング済み高信頼性患者特異的な変異データセットを用いて、追跡血漿試料における変異を検出する。通常、フォローアップ血漿は、手術後、治療中又は治療後（例えば、化学療法中）、又はフォローアップ（例えば、再発又は再発のチェック）時に採取される。

【0153】

次に、単一の変異断片を検出しうる高感度の方法を用いる。本工程は、１又はそれ以上のエラー抑制工程を用いる。第１誤差抑制工程では、フィルタリングスキームを用いて、単一の読取塩基で分析し、読取が人工的変異を表す確率を定量する。代表的な方法は、線形カーネルを有するサポートベクタマシン（support vector machine:ＳＶＭ）分類を用いる多次元分類フレームワークを含む。当該分類エンジンは、正常ＰＢＭＣ試料における低変異型対立遺伝子分画（ＶＡＦ）配列決定人工的と比較した生殖細胞系ＳＮＰについて訓練される。ここでは、分類決定境界を多次元空間上に定義し、その中には、変異塩基品質（ＶＢＱ）、マッピング品質（ＭＱ）、読取位置（ＰＩＲ）、及び／又は平均読取塩基品質（ＭＲＢＱ）が含まれる。分類スキームを評価するために、ＳＶＭ分類スキームの検証判断基準を、同じプロトコルの下で無作為フォレストと１０倍の交差検証後に比較した。ＳＶＭ分類は高い分類性能を示し、無作為フォレストモデルをやや上回った。ＳＶＭは全患者で平均９０．７％の感度と８３．９％の特異性を達成した（Ｎ＝１０試料、Ｆ１＝８７．７％，ＰＰＶ＝８４．９％）。

【0154】

第２エラー抑制工程では、ＰＣＲ又は配列決定により生じた人工的変異を、同じ元のＤＮＡ断片の独立した複製の比較を用いて修正した。ｃｆＤＮＡ試料では、通常対になった末端の１５０ｂｐの配列決定が行われ、通常のｃｆＤＮＡ断片の短いサイズ（約１６５ｂｐ）を考慮すると、重複した対になった読取（重複したＲ１及びＲ２配列）が得られた。したがって、Ｒ１及びＲ２対間の不一致は、対応する参照ゲノムに戻される潜在的な配列決定人工的と見なされる。さらに、配列決定及びＰＣＲの間に複数回コピーされたいかなるＤＮＡ分子による独立した重複の生成の可能性を認識し、重複ファミリーは、アラインメント位置と同様に５’及び３’類似性により認識された。次に、それぞれの重複ファミリーを用いて、独立した複製物を横断する特定の変異のコンセンサスをチェックし、重複ファミリーの大部分で一致を示さない人工的変異を補正する。

【0155】

次に、血漿中に出現する患者特異的変異の比率を推定する。このパラメータは、Ｎ個の独立したＢｅｒｎｏｕｌｌｉ実験の二項分布に従う。ここで、Ｎは患者の変異負荷量である。当該各実験は、各ラウンドにおける変異断片のサンプリングの確率が腫瘍画分である局所カバレッジに依存する無作為試料の複数ラウンドを含む。したがって、カバレッジ、変異負荷量、検出された変異の数、及び以下の式Ｍ＝Ｎ（１－（１－ＴＦ）^ｃｏｖ）＋μ＊Ｒに対応する腫瘍画分の間には数学的な関係がある。ここで、式中、Ｍは追跡血漿試料中で検出された変異の数、Ｎは患者特異的変異パターンにおける変異負荷量、ＴＦは腫瘍画分、ｃｏｖは患者の変異部位における局所的なカバレッジ、μは特定の患者の変異部位に対応するノイズ率を示す。この関係は、変異対立遺伝子分画自体に情報価値がない（主に、有効なカバレッジのみの読取に対して０から１の間の無作為なサンプリングを表す）極めて低い対立遺伝子分画においてさえ、変異検出率から患者腫瘍画分を計算しうる。

【0156】

異なる変異パターンがある患者間のノイズの変動に対処するため、患者特異的な変異パターンを用いて、健常な血漿試料のコホート（正常パネル；パネル・オブ・ノーマル、ＰＯＮ）にわたって予測されるノイズ分布を計算する。主に上記と同じ手順を行い、健常検体（ＰＯＮ）又は他の患者における患者特異的パターンを検出（患者間分析）する。当該検出は、人工的変異検出率の平均と標準偏差（μ，σ）を計算するバックグラウンドノイズモデルを表す。患者が腫瘍画分を検出した場合、誤差率が平均を上回る１．５×σに相当する人工的の腫瘍画分よりも腫瘍画分の信頼性が高い場合、腫瘍の検出及び腫瘍画分の推定が達成される。

【0157】

次に、場合によっては、ワークフローは、断片サイズシフトに基づく計算の直交積分を含んでよい。ここで、例えば、ＤＮＡの断片サイズのシフト等の読取ベースの特徴を、モデルに直交的に統合して、予後／診断方法をより安定に、正確に、及び／又は高感度にしうる。（ＭＲＤの決定における）直交的特徴の有意性は、統計的アプローチ又は確率的混合モデル（例えば、ガウスモデル）を用いて決定され得る。一覧の詳細は実施例３Ａを参照のこと。

【0158】

例示の方法では、血漿試料中の高い信頼性のある腫瘍特異的検出が凝集され、確率的希釈モデルに基づく腫瘍ＤＮＡ（ＴＦ）の割合の推定に変換される。また、全検出プロトコル（検出、誤差抑制及び腫瘍画分推定）は、患者特異的変異一覧を用いて健常血漿試料（ＰＯＮ）のパネル上で実施され、同じ特徴を用いて健常試料中のノイズのあるＴＦ値の分布を計算する。その後、偽陽性率が低い（特異性が高い）ことを保証する統計的有意性の枠組み（ｚ－スコア）を用いて、ＰＯＮノイズの多いＴＦ値よりも有意に高い腫瘍画分を示す試料についてのみ、腫瘍の検出及び推定を実施する。血漿中の変異検出における腫瘍ＤＮＡの存在を直交的に確認するには、腫瘍特異的検出リストと他の無作為な変異検出リストとの間の患者内の断片サイズのシフトを定量化する統計学的方法（有意性検定又はＧＭＭ）を用いる。

【0159】

あるいは、又は上記ワークフローと組み合わせて、本開示はまた、ＣＮＶ／ＳＶマーカーを用いた残存病変の検出（又はモニタリング療法）に関する。図１Ｅに示されるように、ＣＮＶ／ＳＶマーカーに基づくＭＲＤ検出は、通常、データを受信する工程；ベースライン試料特異的及び／又は正常試料特異的なＣＮＶ／ＳＶの特徴を生成する工程；生殖細胞系ＣＮＶ事象を除去する工程；人工的インドウをフィルタリングする工程；追跡試料におけるウインドウベースの深度カバレッジの検出；例えば、グアニン－シトシン（ＧＣ）正規化及び／又はｚスコア正規化を用いた正規化；腫瘍画分の推定を提供する腫瘍ＣＮＶシグナルの検出；及び場合により、検出の感度、特異性及び／又は信頼性を改善するために、ゲノムデータにおける二次的特徴の分析（例えば、断片サイズシフトの分析）を直交的に統合する工程を利用する。

【0160】

図１Ｅの第１工程では、ベースライン試料（通常、腫瘍試料であるが、単独又は腫瘍試料と共に治療前の血漿を含みうる）及び正常試料（通常、ＰＢＭＣであるが、隣接する正常組織又は頬側スワブを含みうる）からの遺伝データを受け取り、腫瘍特異的マーカーパターン及び正常マーカーパターン（例えば、ＣＮＶ／ＳＶを含むパターン）を生成する。次に、腫瘍コピー数変異（Ｔ＿ＣＮＶ）は、正常パネル（ＰＯＮ）に対するベースラインを用いて呼び出される。ＰＢＭＣコピー数変異（Ｐ＿ＣＮＶ）は、ＰＢＭＣ試料を用いてＰｏｎ－ｏｆ－ｎｏｒｍａｌ（ＰＯＮ）に対して呼び出される。共有されたコピー数変異は生殖系列とみなされる。腫瘍体細胞事象（腫瘍組織においてのみ検出されるＴ＿ＣＮＶ）及びＰＢＭＣ体細胞事象（Ｐ＿ＣＮＶ、ＰＢＭＣ組織においてのみ検出されるＰ＿ＣＮＶ）は、腫瘍画分の検出及び推定に用いうる。

【0161】

次に、生殖細胞系列変異（例えば、ＣＮＶ／ＳＶ事象）がＣＮＶ／ＳＶ参照リストから削除され、ベースラインのｓＣＮＶ／ＳＶ及び／又は正常なｓＣＮＶ／ＳＶが生成される。また、マッピング性及び／又はカバレッジが低いウインドウもフィルタリングされる。連続的又は並行的に、再発性の人工的部位を、健常血漿試料のコホート（正常（ＰＯＮ）ブラックリスト又はマスクのパネル）にわたって生成する。当該試料は、人工的のウインドウをフィルタリングするためにウインドウから取り除かれる。フィルタリングされた高信頼基準ＣＮＶ／ＳＶセグメントは、追跡血漿試料中の変異の検出に用いられる。通常、フォローアップ血漿は、手術後、治療中又は治療後（例えば、化学療法中）、又はフォローアップ（例えば、再発又は再発のチェック）時に採取される。

【0162】

現在、人工体を有するＣＮＶ部位は、健常血漿試料のコホート（正常ＰＯＮブラックリストパネル）上で生成され、セントロメア及び反復領域等の一般的な配列決定又はアラインメント人工的を除去するために、患者が検出した変異から除去される。

【0163】

次に、ｓＴ＿ＣＮＶ及びｓＰ＿ＣＮＶのすべてのゲノムセグメントを含む関心領域（ＲＯＩ）をウインドウ（５００ｂｐ以上）にビニングする。各ウインドウの深部カバレッジ（読取カウント）は、追跡調査時（手術後、治療中、再発の追跡調査時）の血漿試料から推定される。ウインドウ当たりの深度のカバレッジの中央値を計算し、平均試料カバレッジで除算する。

【0164】

次に、深度カバレッジ値を正規化し、２つのＬＯＥＳＳ回帰曲線フィッティングをビンワイズＧＣ分率とマッピング性スコア上で行うことにより、ＧＣ内容バイアスとマッピング性バイアスを補正した。

【0165】

各試料に別々に適用される安定ｚスコア正規化を用いて、さらなるバッチ効果補正を行う。簡潔には、中央値及び中央値絶対偏差（ＭＡＤ）は、各試料の中性領域に基づき計算され、その後、すべてのＣＮＶビンは（Ｂ（ｉ）－Ｍｅｄｉａｎ）／ＭＡＤにより正規化される。

【0166】

各ビンについて、深度カバレッジスキュー及び断片サイズ質量中心（ＣＯＭ）スキューを、正常（ＰＯＮ）健常血漿試料のパネルと比較して計算した。ここで、低腫瘍画分試料は、ＣＮＶセグメント増幅セグメントの方向性によりバイアスされる疎な深度カバレッジスキューを示し、一方、削除は、負の深度カバレッジスキューに対するバイアスを示す。一方、中性領域は、方向性が好ましくない無作為な歪みを示し、従って、差分（血漿ＰＯＮ）の深度カバレッジの歪みにＣＮＶセグメントの方向性を乗じると（増幅に＋１を乗じたもの、欠失に－１を乗じたもの）、ゲノムワイドのＣＮＶシグナルを合計し、一方、中性領域ノイズは、無作為な方向性のために相殺される。

【0167】

この工程は、ＭがＲＯＩをカバーするウインドウの数である場合、次の式：

【数1】

により行われる。Ｐ（ｉ）とＮ（ｉ）は各々、血漿試料とＰＯＮに対するウインドウＩの深度カバレッジ値である。記号（Ｔ（ｉ）－Ｎ（ｉ））は、腫瘍ＣＮＶセグメントの方向を示す（増幅に＋１を乗じたもの、欠失に－１を乗じたもの）。

【0168】

次いで、腫瘍において検出された累積シグナルと比較して、血漿試料において検出された累積シグナルの間の線形希釈比を確認して、腫瘍画分を計算しうる。この手順は以下の式：

【数2】

で表される

【0169】

ここで、Ｎ（ｉ）、Ｐ（ｉ）、Ｔ（ｉ）は各々、ウインドウＩにおける患者ＰＢＭＣ、血漿及び腫瘍深度カバレッジを表す。

【0170】

異なるＣＮＶパターンがある患者間のノイズの変動に対処するため、患者特異的ＣＮＶパターンを用いて、健常な血漿試料のコホート（パネル・オブ・ノーマル、ＰＯＮ）にわたって予測されるノイズ分布を計算する。主に、ＳＮＶマーカーの分析の場合と同様のプロセスを行い、健常血漿試料（ＰＯＮ）又は他の患者における患者特異的パターンを検出しうる（患者間分析）。当該検出は、人工的変異検出率の平均と標準偏差（μ，σ）を計算するバックグラウンドノイズモデルを表す。患者が腫瘍画分を検出した場合、誤差率が平均を上回る１．５×σに相当する人工的の腫瘍画分よりも腫瘍画分の信頼性が高い場合、腫瘍の検出及び腫瘍画分の推定が達成される。

【0171】

また、ｓＰ＿ＣＮＶにおける方向性のあるゲノムワイドの深度カバレッジスキューから腫瘍画分を推測しうる。ここで、ＰＢＭＣ特異的ＣＮＶ事象は（腫瘍ＤＮＡはこのＣＮＶ事象を含まないので）腫瘍ＤＮＡ画分が増加するとそのシグナルが低下すると予想される。従って、腫瘍画分と血漿中のＰ．ＣＮＶ検出シグナルとの間には負の相関が期待される。従って、差動（ＰＢＭＣ－血漿）深度カバレッジスキューにＰＢＭＣＣＮＶセグメントの方向性を乗じる（増幅に＋１を乗じる、欠失に－１を乗じる）と、ゲノムを横切るＰＢＭＣＣＮＶシグナルを合計する（図１１Ａ）。

【0172】

次いで、ＰＢＭＣＣＮＶシグナルの喪失の割合を、例えば、以下の式：

【数3】

で確認することにより、腫瘍画分を計算しうる。

【0173】

ＳＮＶ／ｉｎｄｅｌマーカーを用いたＭＲＤ推定の場合と同様に、二次的特徴を直交的に最終計算に統合しうる。ここで、検出方法の安定性、精度、及び／又は感度／特異性を改善するために、読取に基づく特徴、例えばＤＮＡの断片サイズのシフトが、モデルに直交的に組み込まれ得る。（ＭＲＤの決定における）直交的特徴の有意性は、ＣＮＶ深度カバレッジと断片サイズシフトの間の関係に基づき直交的に腫瘍画分を決定するため、一般化線形モデル（ＧＬＭ）を用いて決定され得る。詳細な一覧については実施例３Ｂを参照のこと。

【0174】

本明細書に開示されたワークフローはまた、いくつかの修正を加えて、化学療法、免疫療法、標的療法、又はそれらの組み合わせの間又は後の残存病変の検出に、及び／又は当該治療の有効性のモニタリング過程で、広く用いうることが理解されるべきである。

【0175】

例示の方法は、一部、血漿試料中のゲノムワイドＣＮＶシグナルが、血漿中のカバレッジスキューが、ベースライン組織（例えば、腫瘍）中のコピー数変異（増幅及び欠失）と同じ方向性に従う場合にのみ蓄積するという認識に基づく。従って、腫瘍ＤＮＡ比は、例えば、血漿中の累積ＣＮＶシグナルを腫瘍中の累積ＣＮＶシグナルで除した線形希釈比を用いて、患者の腫瘍に特異的なＣＮＶ事象からの血漿試料中のシグナル利得から計算しうる。腫瘍画分は、患者ＰＢＭＣのみに特異的なＣＮＶ事象（造血細胞体ＣＮＶ事象）由来のシグナル喪失に基づき、同様の混合希釈モデルを用いて直交的に推定しうる。また、全ＣＮＶ検出プロトコルは、患者特異的コピー数変異一覧を用いて健常血漿試料（ＰＯＮ）のパネル上で実施され、同じＣＮＶパターンを用いて健常試料中のノイズの多いＴＦ値の分布を計算する。その後、偽陽性率が低い（特異性が高い）ことを保証する統計的有意性の枠組み（ｚ－スコア）を用いて、ＰＯＮノイズの多いＴＦ値よりも有意に高い腫瘍画分を示す試料についてのみ、腫瘍の検出及び推定を実施する。血漿中の腫瘍ＤＮＡの存在の直交性確認は、患者特異的ＣＮＶセグメントにわたるＣＮＶｌｏｇ２値と断片サイズのＣｅｎｔｅｒ－ｏｆ－ｍａｓｓ（ＣＯＭ）値の間の関係（負の相関）を確認して行われ、この関係は、一般化線形モデル（ＧＬＭ）に基づくＣＮＶベースのＴＦ推定の直交性推定に変換しうる。

【0176】

機械学習
単一の実施形態に拘束されず、純粋に説明のために、機械学習（ＭＬ）アルゴリズムを、本明細書の様々な実施形態により、個々の、又は個々の工程の組み合わせで、既存の方法論に統合した。ＭＬは、入力された訓練データセットの利用、既知の回答への出力の相互参照、逆伝搬、及び繰返ループにおける所定のＭＬアルゴリズムに関連する重み付け係数及びパラメータの調整により、アルゴリズム（例えば、ニューラルネットワーク、ＭＬアルゴリズム等）から出力される結果を最適化するように組み込むことができ、データ出力の閾値品質に到達する。後続の工程では、例えばロジスティック回帰等の確率モデル（例えば、最適化された、又は、組み合わせて、又は、代替として訓練された）を用いて、試験データセット上のモデルの予測能を検証しうる。場合によっては、再標本化を実施して、モデルの予想される将来のパフォーマンスの偏りのない評価を得ることができる。ＲＯＣ曲線の特徴、例えば、下部面積曲線（ｃ－指数化とも呼ばれる）、又はWilcoxon-Mann-Whitney検定等の統計的検定からの一致確率は、純粋な予測識別の良好な一覧尺度を提供し得る。

【0177】

好ましくは、ＭＬアルゴリズムは、１又はそれ以上の品質フィルタ又は読取機能に基づき、一覧内の各読取に関連する配列決定ノイズを適応的に及び／又は体系的にフィルタリングする。いくつかの実施形態では、ＭＬアルゴリズムは、ノイズをフィルタリングするために塩基品質（ＢＱ）フィルタ（より具体的には、可変塩基品質（ＶＢＱ）又は平均読取塩基品質（ＭＲＢＱ））を実装する。いくつかの実施形態では、ＭＬアルゴリズムは、ノイズをフィルタリングするマッピング品質フィルタを実装する。いくつかの実施形態では、ＭＬアルゴリズムは、ノイズをフィルタリングするために、読取（ＰＩＲ）フィルタ内の位置を実装する。いくつかの実施形態では、ＭＬアルゴリズムは、フィルタの組み合わせを実装する。

【0178】

いくつかの実施形態では、本開示のシステム及び／又は方法で用いられる機械学習（ＭＬ）方法は、深層畳込ニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、無作為フォレスト（ＲＦ）、サポートベクタマシン（ＳＶＭ）、識別分析、最近傍分析（ＫＮＮ）、アンサンブル分類器、又はそれらの組み合わせ、好ましくはサポートベクタマシン（ＳＶＭ）を含む。いくつかの実施形態では、ＭＬは、がん改変配列決定読取及び配列決定又はＰＣＲエラーにより改変された読取を区別するように訓練される。いくつかの実施形態では、ＭＬは、腫瘍変異及び正常な配列決定エラーを横断する数十億の読取を含む大きな全ゲノム配列決定（ＷＧＳ）されたがんデータセット上で訓練された。いくつかの実施形態では、ＭＬは、（ａ）高精度で配列決定又はＰＣＲ人工的を同定し、（ｂ）配列コンテキストを統合し、特定の特徴の読取ができる。

【0179】

本開示は、さらに、順序付けノイズを適応的に及び／又は体系的にフィルタリングするために、ＭＬ、例えば、エンジンを利用するシステム及びプログラムに関する。本開示はまた、ゲノム読取における体細胞変異を含む腫瘍マーカーを検出するプログラムを含むコンピュータ読取可能な記憶媒体に関し、当該プログラムはＭＬ、例えば、サポートベクタマシンを利用する。

【0180】

当技術分野で公知の、畳込ニューラルネットワークは、一般に、処理及び分類／検出の高度な形態を、最初に、例えば読取における反復配列等の低レベルの特徴を探し、次いで、一連の畳込層を通してより抽象的な概念に進むことにより達成する。ＣＮＮは、一連の畳込、非線形、プール（又はダウンサンプリング、後述）、及び完全接続層を通してデータを渡し、出力を得て、これを行いうる。ここでも、出力は、データを最もよく記述する単一のクラス又はクラスの確率であってよく、又はデータ上の物体を検出する。

【0181】

ＣＮＮ内の層では、第１層は一般に畳込層（ｃｏｎｖ）である。この第１層は、一連のパラメータを用いて、読取の代表的なアレイを処理する。データ全体を処理するのではなく、ＣＮＮはフィルタ（又はニューロン又はカーネル）を用いてデータサブセットの一覧を分析する。サブセットは、配列内のフォーカルポイントと周囲のポイントを含む。例えば、フィルタは、３２×３２の表現で、５×５の領域（又は領域）のシリーズを検査しうる。当該領域は受容野という。フィルタは、一般に、入力と同じ深度であり、３２×３２×３の寸法を有する表現のフィルタは、同じ深度（例えば、５×５×３）であろう。上記例示的な寸法を用いて実際の畳込工程は、入力データに沿ってフィルタをスライドさせ、フィルタ値をデータの元の表現値と乗算し、要素ごとの乗算を計算し、当該値を加算して、表現の検査された領域のための単一の数値に到達することを含む。

【0182】

５×５×３フィルタを用いて、本畳込工程の完了後、２８×２８×１の寸法の活性化マップ（又はフィルタマップ）が得られる。用いられる各追加の層について、空間的寸法は、２つのフィルタを用いて、２８×２８×２の活性化マップが得られるように、より良好に保存される。各フィルタには、一般に、最終データ出力に必要な特徴識別子をともに示す固有の特徴がある。当該フィルタを組み合わせて用いると、ＣＮＮは、データ入力を処理して、各表現に存在する当該特徴を検出しうる。従って、フィルタが曲線検出器として機能する場合、データ入力に沿ったフィルタの畳込は、曲線の可能性が高い（高加算要素毎の乗算）、曲線の可能性が低い（低加算要素毎の乗算）、又は特定の点における入力体積が曲線検出器検出器フィルタを活性化するものを提供しない場合のゼロ値に対応する活性化マップ中の数字のアレイを生成する。このように、Ｃｏｎｖ内のフィルタ（チャネルともいう）の数が多いほど、活性化マップ上で提供される深度（又はデータ）が多くなり、そのため、より正確な出力につながる入力に関する情報が増える。

【0183】

ＣＮＮの精度とのバランスは、結果の生成に必要な処理時間と電力である。換言すれば、フィルタ（又はチャネル）の数が多いほど、畳込を実行するのに必要な時間と処理能力が高くなる。従って、ＣＮＮ法の要件を充足するフィルタ（又はチャネル）の選択及び数は、利用可能な時間及び電力を考慮しつつ、可能な限り正確な出力を生成するように特に選択されるべきである。

【0184】

さらに、ＣＮＮがより複雑な機能を検出できるようにするために、追加のＣｏｎｖを追加して前のＣｏｎｖからの出力（例えば、活性化マップ）を分析しうる。例えば、第１Ｃｏｎｖが曲線やエッジ等の基本的な特徴を探す場合、第２Ｃｏｎｖは、より複雑な特徴を探索しうる。これは、以前のＣｏｎｖ層で検出された個々の特徴の組み合わせでありうる。一連のＣｏｎｖｓの提供により、ＣＮＮは、徐々に高いレベルの特徴を検出でき、最終的には、特定の望ましい物体の検出確率に到達する。さらに、Ｃｏｎｖｓスタックが互いに重畳し、以前の活性化マップ出力の分析により、スタック内の各Ｃｏｎｖレベルが縮小されるため、各Ｃｏｎｖは当然に広い受容野を分析し、それにより、ＣＮＮは、目的の物体の検出の際、拡大される表現空間に対応しうる。

【0185】

ＣＮＮ構造は、一般に、入力ボリューム（データ）の畳込用の少なくとも１つの処理ブロックと、畳込解除（又は逆畳込）用の少なくとも１つの処理ブロックとを含む、処理ブロック群からなる。さらに、処理ブロックは、少なくとも１つのプールブロック及び非プールブロックを含みうる。プールブロックは、解像度のデータを縮小してＣｏｎｖで利用可能な出力を生成するのに用いうる。これは、計算効率（効率的な時間と電力）を提供し、ＣＮＮの実際の性能を改善しうる。当該プール、すなわちサブサンプリングブロックは、フィルタを小さくし、計算上の必要条件を妥当にする。当該ブロックは、出力を粗くし（受入れ可能なフィールド内で空間情報を失うことがある）、入力のサイズから特定の要因のみ低減しうる。

【0186】

プール解除ブロックを用いて、当該粗出力を再構成し、入力ボリュームと同寸法の出力ボリュームを生成しうる。非プールブロックは、活性化出力を元の入力体積寸法に戻す畳込ブロックの逆動作とみなしうる。しかしながら、非プールプロセスは、一般に、単に粗い出力を疎活性化マップに拡散するだけである。この結果を避けるべく、畳込解除ブロックにより、本疎活性化マップを高密度化し、さらに必要な処理の後、最終的に、入力ボリュームにより近いサイズ及び密度である最終出力ボリュームを生成する、拡大及び高密度活性化マップが生成される。畳込解除ブロックは、畳込ブロックの逆動作として受容領域内の複数のアレイ点を単一数に減少させるのではなく、単一の起動出力点を複数の出力と関連付けて、結果として生じる起動出力を拡大し、高密度化する。

【0187】

プールブロックを用いてデータを縮小でき、非プールブロックを用いて当該縮小活性化マップを拡大しうるが、畳込ブロック及び畳込解除ブロックは、別個のプールブロック及び非プールブロックがなくても、畳込／畳込解除及び縮小化／拡大化をともに構造化しうることに留意されたい。

【0188】

プール及び非プールプロセスは、データ入力で検出される被験体物体依存性の欠点がありうる。プールは一般に、ウインドウの重複なしにサブデータウインドウを見てデータを縮小するので、縮小化につれて、空間情報の損失が明らかになる。

【0189】

処理ブロックは、畳込層又は畳込解除層と共にパッケージされる他の層を含みうる。これらは、例えば、整流線形単位層又は指数線形単位層を含むことができ、これらは、その処理ブロックにおけるＣｏｎｖからの出力を検査する活性化関数である。ＲｅＬＵ又はＥＬＵ層は、Ｃｏｎｖに固有の関心被験体の特徴の積極的検出に対応する値のみを前進させるゲート関数として作用する。

【0190】

ＣＮＮは、基本構造の付与後、（関心被験体の）データ分類／検出の精度を高める訓練プロセス用に準備される。これには、逆伝搬（ｂａｃｋｐｒｏｐａｇａｔｉｏｎ）というプロセスが含まれる。本プロセスでは、訓練データセット、又はＣＮＮ訓練用試料データを用いて、最適な、つまり閾値精度に達するようにパラメータを更新する。逆伝搬は、一連の反復工程（訓練反復）を含み、これは、逆伝搬のパラメータに依存して、ＣＮＮを緩慢又は迅速に訓練する。逆伝搬工程は、一般に、与えられた学習速度により、フォワードパス、損失関数、バックワードパス、及びパラメータ（重み）更新を含む。フォワードパスは、ＣＮＮを通して訓練データを渡すことを含む。損失関数は、出力の誤差の尺度である。バックワードパスは損失関数の寄与因子を決定する。重み更新は、ＣＮＮを最適方向に移動させるフィルタのパラメータの更新を含む。学習速度は、最適到達用の各反復の重み更新の程度を決定する。学習率が低すぎる場合、訓練に時間がかかりすぎて処理能力が高くなりうる。学習速度が速すぎる場合、各重み更新が大きすぎ、所定の最適値又は閾値を正確に達成しえない場合がある。

【0191】

逆伝搬プロセスは、訓練を複雑にしうるため、学習速度がより低く、訓練開始時により特異的で慎重に決定された初期パラメータが必要となる。当該複雑さの１つは、各反復終了時に重み更新があると、Ｃｏｎｖｓのパラメータの変更によるネットワークの深層増幅である。例えば、上記ように、ＣＮＮにより高いレベルの特性分析が可能な複数のＣｏｎｖがある場合、最初のＣｏｎｖへのパラメータ更新は、後続の各Ｃｏｎｖで乗算される。正味の効果は、所定のＣＮＮの深度に依存し、パラメータに対する最小変化の影響が大きいことである。本現象を内部共変量シフトという。

【0192】

一般に、本開示のＣＮＮは、順序付けノイズを適応的及び／又は体系的にフィルタリングしうる。いくつかの実施形態では、ＣＮＮ構造は、トリヌクレオチドコンテキストが変異誘発に関与する別個の特徴を含むという本発明者の認識に基づき設計された。従って、ＣＮＮは、サイズ３の知覚視野を用いて、ある位置の全ての特徴（カラム）を覆う。２つの連続畳込層の後、２の受容野と２の歩数がある最大プールによりダウンサンプリングが適用され、エンジンのモデルは狭い空間領域で最重要の特徴のみを保持するように強制される。得られた構造は、３ヌクレオチドのウインドウを越えて畳込されると空間的不変性が維持され、読取断片をおよそ８ヌクレオチドの領域に相当する２５セグメントに折りたたむことにより「品質マップ」を捕捉する。最終分類は、最後の畳込層の出力を、Ｓ字状完全接続層に直接適用して行われる。ＣＮＮは、多層パーセプトロン又はグローバル平均プールでなく単純なロジスティック回帰層を採用して、ゲノム読取における位置関連の特徴を保持する。

【0193】

エンジンの訓練には、まず、様々な肺がん患者とそれに対応する全身性エラープロファイルがサンプリングされる。訓練の目的は、真の体細胞変異の高感度検出を可能にし、また全身性エラーで生じた変異候補を拒絶する訓練スキームを用いることである。例えば、がん罹患又はがん罹患が疑われる被験体由来の試料、例えば、完全な腫瘍試料及び健常な組織試料の混合物を、訓練で用いられ得る。

【0194】

上流工程：
〔遺伝子データの受信〕
ある実施形態では、遺伝子データは、被験体の生物学的試料（例えば、腫瘍試料又はＰＢＭＣを含む正常細胞試料）からｉｎｓｉｔｕで受け取られる。これは、主に配列決定により達成される。いくつかの実施形態では、試料を従来の方法を用いて精製して、細胞の亜集団を得ることができる。例えば、ＰＢＭＣは、様々な公知のＦｉｃｏｌｌベースの遠心分離法（例えば、Ｆｉｃｏｌｌ－Ｈｙｐａｑｕｅ密度勾配遠心分離）を用いて全血から精製しうる。Ｔ細胞等の他の細胞も、免疫磁気細胞選別（例えば、DYNABEADS、Invitrogen、Carlsbad、CA、USA）等の技術を用いて、適当な表現型を選択して精製しうる。例えば、Ｔ細胞は、最初にＣＤ８＋細胞を除去し、次にＣＤ４＋細胞を選択する２工程の選択プロセスを用いて精製され得る。細胞集団の純度は、市販の抗体（例えば、BD Biosciences）を用いて、ＣＤ１９－ＦＩＴＣ、ＣＤ３－ＰＥ、ＣＤ８－ＰｅｒＣＰ、ＣＤ１１ｃ－ＰＥＣｙ７、ＣＤ４－ＡＰＣ及びＣＤ１４－ＡＰＣＣｙ７等の適当なマーカーを評価し確認しうる。

【0195】

試料調製後、試料からＤＮＡを抽出し、マーカー分析を行う。例では、ＤＮＡはゲノムＤＮＡである。ＤＮＡ、特にゲノムＤＮＡを単離する様々な方法は、当業者に公知である。一般に、公知の方法は、出発物質の破壊及び溶解、その後のタンパク質及び他の汚染物質の除去、並びに最終的にはＤＮＡの回収を含む。例えば、アルコール沈殿；有機フェノール／クロロホルム抽出及び塩析を含む技術は、ＤＮＡを抽出及び単離するために長年用いられてきた。ＤＮＡ単離の一例を以下に例示する（例えばQiagen ALL-PREPKit）。しかしながら、ゲノムＤＮＡ抽出用の様々な他の市販のキットが存在する（Thermo-Fisher, Waltham, MA; Sigma-Aldrich, St. Louis, MO）。ＤＮＡの純度及び濃度は、様々な方法、例えば、分光光度法により評価しうる。

【0196】

いくつかの実施形態では、遺伝子マーカーの一覧は、バリアントコールフォーマット（ＶＣＦ）ファイルに編集された遺伝子マーカーの一覧を含む。当技術分野で理解されるように、ＶＣＦファイルは、遺伝子配列変異を保存するバイオインフォマティクスで用いられる。ＶＣＦフォーマットは、１０００ゲノムプロジェクト等の大規模な遺伝子型タイピング及びＤＮＡ配列決定プロジェクトの出現により開発された。あるいは、一覧は、遺伝子データの全てを含む一般的な特徴フォーマット（ＧＦＦ）で提供されうる。一般に、ＧＦＦはゲノムワイドで共有されるので、重複した特徴を提供する。対照的に、ＶＣＦでは、参照ゲノムとともに変異だけを保存すればよい。

【0197】

マイクロアレイ技術は、ＳＮＶ／インデル及びＣＮＶ／ＳＶ等の開示のマーカーの検出で汎用される。例えば、アレイ比較ゲノムハイブリダイゼーション（アレイＣＧＨ）及び一塩基多型（ＳＮＰ）マイクロアレイが用いられ得る。従来のアレイＣＧＨでは、基準及び試験ＤＮＡは、蛍光標識され、アレイにハイブリダイズされ、シグナル比は、コピー数（ＣＮ）比の推定値として用いられる。ＳＮＰマイクロアレイもハイブリダイゼーションに基づきうるが、単一試料が各マイクロアレイ上で処理され、強度比は、調査中の試料の強度を、参照試料のコレクション又は試験された他の全ての試料と比較して形成される。マイクロアレイ／遺伝子型タイピングアレイは、大容量ＣＮＶ検出には効率的であるが、短い遺伝子又はＤＮＡ配列（例えば、約５０キロ塩基（ｋｂ）未満の長さ）のＣＮＶを検出には感度が低い。

【0198】

いくつかの実施形態では、本開示のマーカーは、次世代配列決定（ＮＧＳ）を用いて検出され得る。ゲノムの塩基ごとの見識の提供により、ＮＧＳは、アレイでは未検出でありうる小型又は新規のＣＮＶを検出しうる。適当なＮＧＳ法の例には、全ゲノム、全エキソーム配列決定、又は標的エキソーム配列決定が含まれ得る。好ましくは、配列決定方法はＷＧＳを用いる。

【0199】

ある実施形態では、被験体の試料は、例えば、全ゲノム配列決定（ＷＧＳ）を用いて配列決定され、標準的な方法を用いて（ＳＮＶ／ｉｎｄｅｌ及び／又はＣＮＶ／ＣＶマーカーについて）呼び出される。例えば、ＮＧＳデータから呼び出すＳＮＶは、次世代配列決定（ＮＧＳ）実験の結果から単一ヌクレオチド変異体（ＳＮＶ）の存在の同定の計算方法を利用する。ＮＧＳデータの増加により、当該技術は、特定の実験デザイン及び応用に設計された広範な多様なアルゴリズムを用いて、ＳＮＰ遺伝子型タイピングの実施用にますます一般的である。同様に、次世代の配列決定データからＣＮＶを検出するいくつかのバイオインフォマティクスアプローチ（Pirooznia et al., Front Genet., 6: 138, 2015）もある。いくつかの実施形態では、試料は、配列ファイルを得るために処理及び配列決定され、当該配列ファイルは、例えば、ゲノムＶＣＦ又はエキソームＶＣＦ（ｅＶＣＦ）等のツールを用いて処理される。

【0200】

いくつかの実施形態では、本開示の方法は、遺伝子マーカーの一覧の作成を含み得る。通常の一覧は、対照（例えば、ＰＭＢＣ）と同様、全ゲノム配列決定された腫瘍試料の遺伝子データを含む。腫瘍試料は、好ましくは、切除された腫瘍又はＦＮＡ、例えば、肺腺がん又は皮膚の黒色腫を含む。コントロール試料は、好ましくは、上記のように、Ｆｉｃｏｌｌ分離を用いて得られるＰＭＢＣを含む。次いで、混和剤を作製し、その中のマーカーを、本開示の計算方法を用いて分析する。

【0201】

ある実施形態では、本開示の方法は、その中に含まれるマーカー、例えば、ＳＮＶ、ＣＮＶ、インデル、ＳＶ、変異、欠失、融合等に基づき、遺伝子データを別個の成分に分類することを含み得る。好ましい実施形態では、分類工程は、体細胞ＳＮＶ（ｓＳＮＶ）マーカー及び体細胞ＣＮＶ（ｓＣＮＶ）マーカーの別々のビニングを含んでよく、当該マーカーは、ノイズフィルタにかけられ、本開示の計算方法に基づき別個に分析される。ここで、ノイズ及び固有性についてＳＮＶマーカーを分析する計算方法は、ＣＮＶを分析する方法とは異なりうる。いくつかの実施形態では、ＳＮＶ又はインデルの計算分析は、ＣＮＶ又はＳＶの計算分析と逐次的に行いうる。いくつかの実施形態では、分析はともに実施されてよい。

【0202】

本開示は、（ａ）人工的ノイズをフィルタリングし、及び（ｂ）真のマーカーをスクリーニングする数学的アルゴリズム及び計算方法の使用を提供する。

【0203】

マーカーがＳＮＶ又はインデルであるノイズ相殺に関して、人工的ノイズは、塩基品質及び／又はマッピング品質を含む複数のパラメータに基づき相殺される。通常、塩基品質（ＢＱ）は各塩基の配列決定品質の信頼性に関係し、マッピング品質（ＭＱ）スコアはゲノムとのマーカーのマッピングの正確性に関する信頼性推定に関係する。ｓＳＮＶマーカーとの関連では、塩基品質（ＢＱ）スコアは、自動化ＤＮＡ配列決定により生成された核塩基の同定の品質の尺度である。それは、自動シークエンサートレースにおいて各ヌクレオチド塩基呼出に割り当てられる通常の方法、例えば、Ｐｈｅｒｄ品質スコアを用いて決定されうる。Ｐｈｒｅｄ品質スコア（Ｑ）は、基本呼出誤差確率（Ｐ）に対数的に関連する特性として定義される。たとえば、Ｐｈｅｒｄが基底に３０の品質スコアを割り当てた場合、この基底が誤って呼出される可能性は１／１０００である。通常、配列決定読取のＢＱは、１０～５０の間、例えば、１０、１５、２０、２５、３０、３５又は４０のＢＱスコアである。

【0204】

また、ｓＳＮＶマーカーの文脈では、マッピング品質（ＭＱ）スコアは、読取が実際にマッピングアルゴリズムにより整列された位置に由来する確信度の尺度である。これは、例えば、マッピング品質スコア（Li et al., Genome Research 18:1851-8, 2008を参照）等の常套手段の方法を用いて決定されうる。通常、読取のＭＱは、１０～５０の間、例えば、約１０、１５、２０、２５、３０、３５、又は４０のＭＱスコアである。

【0205】

いくつかの実施形態では、ノイズ除去工程は、結合塩基品質（ＢＱ）及びマッピング品質（ＭＱ）スコアに基づき、一覧における遺伝子マーカーの確率論的分類を含む最適受信者動作特性（ＲＯＣ）曲線を実施することを含む。通常、結合ＢＱＭＱスコアはマトリックス（ｘ，ｙ）として提供され、ｘはＢＱスコアであり、ｙはＭＱスコアである。例示的な実施形態では、例えば、（１０、４０）、（１５、３０）、（２０、２０）、（２０、３０）、（３０、４０）のＢＱＭＱスコアのように、（各パラメータについて）１０～５０の結合ＢＱＭＱスコアが典型的に用いられる。

【0206】

いずれの特定の理論にも拘束されないが、いくつかの態様では、除去工程は、疾患と強く関連することが最初に同定されたマーカーの一覧から、低い塩基品質及び／又はマッピング品質を有する「ノイズ」マーカーをフィルタリングする。いくつかの実施形態では、除去工程は、検出の閾値確率（ＰＤ）に合致する各マーカーを採取し、マーカーのＲＯＣ曲線に基づき前記マーカーをシグナル又はノイズとして分類し、ノイズとして分類される場合には、マーカーを一覧から除去することを含みうる。あるいは、例えば、検出確率（ＰＤ）対ノイズ確率（Ｐ_Ｎ）の比を含むスコアリングシステムを用いて、事前設定した閾値スコアを満たさないマーカーを除去しうる。

【0207】

上記ＢＱ及びＭＱに加えて、読取位置（ＲＰ）もシグナルの品質に影響を及ぼしうる。すため、人工的ノイズをフィルタリングするために、読取内位置（ＲＰ又はＰＩＲ）等の他のファクタを用いうる。ｓＳＮＶ又はｉｎｄｅｌマーカーの文脈では、ＲＰは、例えば、配列決定読取の最初の塩基位置のマッピングによりマッピングされうる。マーカー品質に影響する他の因子は、例えば、配列決定エラーのより高い確率に関連する特定の配列コンテキストを含む（Chen et al., Science, 355(6326):752- 756, 2017）。この点に関して、真の変異はしばしばそれ自身の特異的な配列コンテキストにマップ可能であるが、エラーはそうではない。例えば、タバコ関連の変異はＣＣコンテキストで起こる傾向があり、ＡＰＯＢＥＣ酵素の活性に関連した変異は体細胞変異を挿入するためにＴｐＣコンテキストを好む（Greenman et al., Nature, 446(7132): 153-158, 2007参照）。従って、配列コンテキストは、配列決定人工的に起因する可能性の高い変化、及び優勢な変異過程に起因する可能性の高い変化を同定するのに役立つ。

【0208】

マーカーがＣＮＶであるノイズ相殺に関して、人工的ノイズは、ＣＮＶに固有の複数のパラメータに基づき相殺される。いくつかの実施形態では、ＣＮＶ固有のノイズパラメータは、ＣＮＶの「位置属性」を含む。通常、染色体のセントロメア、テロメア及び／又はヘテロクロマチン領域は、それらが再編成に関与しているため、広範な多様性を有する。当該領域又はその近傍に位置するＣＮＶ（コンピュータ・ソフトウェアを介したｉｎｓｉｔｕ法を介しても検出される）は好ましくない場合がある。いくつかの実施形態では、ＣＮＶの位置属性は、それが少なくとも１０００キロ塩基（ｋｂ）、少なくとも４００ｋｂ、少なくとも１００ｋｂ、少なくとも２０ｋｂ以下、例えば、染色体のテロメア、セントロメア、又はヘテロクロマチン領域から１ｋｂであるかどうかに基づき測定され得る。いくつかの実施形態では、染色体再編成ホットスポットを特徴とするサブテロメア領域又はセントロメア周囲領域に位置するＣＮＶは好ましくない。本開示の方法で用いられ得る１つのさらなる特徴は、読取位置又は読取位置を含む。読取位置情報は、異なる位置測定、例えば、読取のゲノム座標、参照配列上の位置、又は染色体位置を用いる様々な技術により獲得しうる。さらなる実施形態では、固有の分子指数化（ＵＭＩ）及び読取位置を組み合わせて、折りたたみ読取を行いうる。

【0209】

いくつかの実施形態では、ＣＮＶ特異的ノイズパラメータは、疾患のあるＣＮＶの「代表性」の評価を含む。例えば、以前の研究は、免疫グロブリン領域におけるＣＮＶの呼出はｇＤＮＡを代表せず、ＤＮＡ源－例えば、唾液対血液又はリンパ芽球様細胞株対血液－に実質的に依存する傾向があることを見出した（Need et al., 2009; Wang et al., 2007; Sebat et al., 2004）。当該代表的でないＣＮＶは好ましくない。

【0210】

いくつかの実施形態では、ＣＮＶ特異的ノイズパラメータは、ＣＮＶの「深度カバレッジ」の評価を含み、これは、それらのマッピングがＣＮＶゲノムセグメントにおける特定のゲノム座標と重複する固有の読取の数をいう。

【0211】

ノイズマーカーがフィルタリングされると、診断方法の次の工程は、生物学的試料（例えば、血漿）中の腫瘍ＤＮＡの推定画分を出力する数学的推論モデルに、血漿試料からゲノムワイド一覧シグナルを統合することを含む。マーカーに依存して、数学的モデルは、腫瘍画分（ＴＦ）を推定するために、患者特異的属性と同様に、複数のプロセス品質判断基準を統合する。ＳＮＶ（又はインデルス）とＣＮＶ（ＳＶ）の間の、頻度及び形質（例えば、がん）との関連特性に関する基本的な差異を認識し、本開示のシステム及び方法は、腫瘍画分を推定するためのマーカー特異的数学アルゴリズムの使用を含む。

【0212】

ワークフローの観点から、ＣＮＶ系検出方法は、前述のＳＮＶ系検出方法のバリエーションを実装しうる。ある実施形態では、ベースライン試料（例えば、血漿試料及び／又は腫瘍試料）及び正常細胞試料（例えば、ＰＢＭＣ）は、別個に処理され、また別個に分析される。最終分析工程では、腫瘍シグナルは、例えば、方向性カバレッジスキュー及び局所断片サイズスキューに基づき、ＰＢＭＣシグナルとは別個にビニングされる。シグナルが腫瘍（腫瘍ＣＮＶ／ＳＶ）由来と同定された場合、腫瘍画分の推定に用いた数学的モデルは前方方向性であり、逆に、シグナルがＰＢＭＣ由来と同定された場合、腫瘍画分の推定に用いた数学的モデルは逆方向性である。腫瘍画分は、腫瘍試料のみを用いて推定しうるが（すなわち、ＰＢＭＣ試料を用いず）、この方法は、好ましくは双方向性を統合する（すなわち、腫瘍ベース及びＰＢＭＣベースの腫瘍画分推定の両方が統合される）。

【0213】

ＳＮＶ系検出方法の場合と同様に、ＣＮＶ系検出方法によりまた、二次的特徴、例えば、断片サイズシフトの直交積分が可能となる。ここでは、指向性特徴を組み込んだ数式を用いて推定腫瘍率（ｅＴＦ）を決定する主な方法を、暫定的適用（特に、ＣＮＶを用いた腫瘍ベースのｅＴＦ推定）によりカバーした。しかしながら、予後／診断方法をより安定に、正確に、及び／又は高感度にするため、例えば、ＤＮＡの断片サイズのシフト等の読取ベースの特徴を、モデルに直交的に統合しうる。（ＭＲＤの決定での）直交的特徴の有意性は、ＣＮＶ深度カバレッジと断片サイズシフトの間の関係に基づき直交的に腫瘍画分を決定するため、一般化線形モデル（ＧＬＭ）を用いて決定され得る。

【0214】

いくつかの実施形態では、ＣＮＶに基づく方法は、生殖細胞系マーカーがベースライン試料（通常、腫瘍試料を含有する血漿試料を含み得るが）及び正常試料（通常、ＰＢＭＣ）から除去されるように実施される。次に、人工的ＣＮＶ部位を、健常血漿試料のコホート（正常ＰＯＮブラックリストのパネル）にわたって生成し、セントロメア及び反復領域等の共通の配列決定又はアラインメント人工的を除去するために、患者から検出された変異を除去する。腫瘍（ｓＴ＿ＣＮＶ）及びＰＭＢＣ（ｓＰ＿ＣＮＶ）のすべてのゲノムセグメントを含む関心領域（ＲＯＩ）は、次いで、離散ウインドウ（５００ｂｐ以上）にビニングされ、各ウインドウにおける深度カバレッジ（読取回数）は、追跡調査時（手術後、治療中、再発の追跡調査時）の血漿試料から推定される。ウインドウ当たりの深度のカバレッジの中央値を計算し、平均試料カバレッジで割る。

【0215】

次に、深度カバレッジ値を正規化し、２つのＬＯＥＳＳ回帰曲線フィッティングをビンワイズＧＣ分率とマッピング性スコア上で行い、ＧＣ内容バイアスとマッピング性バイアスを補正した。各試料に別個に適用される安定ｚスコア正規化を用いて、さらなるバッチ効果補正を行う。簡潔には、中央値及び中央値絶対偏差（ＭＡＤ）は、各試料の中性領域に基づき計算され、その後、すべてのＣＮＶビンは（Ｂ（ｉ）－Ｍｅｄｉａｎ）／ＭＡＤにより正規化される。次に、各ビンについて、深度カバレッジスキューと断片サイズ質量中心（ＣＯＭ）スキューを、正常（ＰＯＮ）健常血漿試料のパネルと比較して計算した。ここで、低腫瘍画分試料は、ＣＮＶセグメント増幅セグメントの方向性によりバイアスされる疎な深度カバレッジスキューを示し、一方、削除は、負の深度カバレッジスキューに対するバイアスを示す。他方、中性領域は好ましい方向性を持たない無作為な歪みを示し、従って、差分（血漿ＰＯＮ）深度カバレッジ歪みにＣＮＶセグメントの方向性を乗じると（増幅に＋１を乗じたもの、欠失に－１を乗じたもの）、ゲノムを横切るＣＮＶシグナルを合計し、一方、中性領域ノイズは無作為な方向性のために相殺される。

【0216】

この工程は、数学的に行われ、腫瘍画分は、腫瘍において検出された累積シグナルと比較して、血漿試料において検出された累積シグナル間の直線希釈比を確認して推定される。ＣＮＶパターンが異なる患者間のノイズの変動に対処するため、患者特異的ＣＮＶパターンを用いて、健常な血漿試料のコホート（パネル・オブ・ノーマル、ＰＯＮ）にわたって予測されるノイズ分布を計算する。主に、ＳＮＶマーカーの分析の場合と同様のプロセスを行って、健常な血漿試料（ＰＯＮ）又は他の患者における患者特異的パターンを検出しうる（患者間分析）。当該検出は、人工的の変異検出率の平均値と標準偏差（μ，σ）を計算するバックグラウンドノイズモードを表す。患者が検出した腫瘍画分（例えば、誤差率が平均を上回る１．５×σに相当する人工的の腫瘍画分）が閾値よりも高い場合、信頼性の高い腫瘍検出及び腫瘍画分の推定が達成される。

【0217】

また、例えばワークフローにおいて上記と逆の方法を用いて、ｓＰ＿ＣＮＶにおける方向性のあるゲノムワイドの深度カバレッジスキューから腫瘍画分を推論することも可能であろう。最後に、直交的特徴をこの計算モデルに統合して、アルゴリズム及び方法の安定性、精度、感度又は特異性を改善しうる。いくつかの実施形態では、本開示の方法は、複数のＳＮＶマーカーの検出に基づくＴＦの推定を含む。ここでは、推定されたＴＦ（ｅＴＦ［ＳＮＶ］）を、推定ゲノムカバレッジと配列決定ノイズを含むプロセス‐品質判断基準を、変異負荷（Ｎ）を含む患者特異的パラメータと統合することにより計算した。好ましくは、この方法は、ＳＮＶマーカーについて推定された腫瘍画分（ｅＴＦ）を計算する工程を含み、ここでｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）＊Ｒ）／Ｎ］＾（１／ｃｏｖ）であり、式中、Ｍは患者試料中の腫瘍特異的な総検出数であり、σは経験的に推定されたノイズの尺度であり、Ｒは関心領域（ＲＯＩ）中の固有の読取の総数であり、Ｎは腫瘍変異負荷であり、そしてｃｏｖはＲＯＩ中の部位毎の固有の読取の平均数である。

【0218】

いくつかの実施形態では、本開示の方法は、複数のＣＮＶマーカーの検出に基づくＴＦの推定を含む。ここでは、推定ＴＦ（ｅＴＦ［ＣＮＶ］）を、コピー数の増幅が正に歪み、コピー数の欠失が負に歪んだ腫瘍ＣＮＶ方向性に一致して歪んだカバレッジ深度の方向性を積分して計算した。好ましくは、本方法は、ＣＮＶマーカーについての推定された腫瘍画分（ｅＴＦ）を計算する工程を含み、ここで、ｅＴＦ［ＣＮＶ］＝（ｓｕｍ＿｛ｉ］＝［（Ｐ（ｉ）－Ｎ（ｉ）］＊記号［Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（ｓｉｇｍａ））／（ｓｕｍ＿｛ｉ｝［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］－Ｅ（σ）］であり、式中、Ｐは、血漿深度カバレッジを表す｛ｉ｝で指数化付けされたゲノムウインドウにおける深度中央値であり、Ｔは、腫瘍深度カバレッジを表す｛ｉ｝で指数化付けされたゲノムウインドウにおける深度中央値であり、Ｎは、正常深度カバレッジを表す｛ｉ｝で指数化付けされたゲノムウインドウにおける深度中央値である。

【0219】

一態様では、ＴＦスコアの決定には、最適化されたベース／マッピング品質フィルタリングの構築、ＳＮＶノイズをフィルタリングするための最適受信機動作点の使用、及びフィルタリング済みＳＮＶシグナルを、上記積分数学的モデルを用いた分析、を含みうる。代表的な方法を実施例２に示し、その結果を図２に示す。エラー率分布は、対照試料及び腫瘍試料を用いて複数の反復にわたって評価しうる。カットオフ値の理論的閾値は、統計モデル（例えば、二項モデル）を用いて確立でき、これに対して、経験的測定値をプロットし、各測定値の平均／信頼区間を計算する。騒音レベルは、統計的モデリングを用いて分布の中で同定される。腫瘍を診断しうるベースライン腫瘍画分（ＴＦ）は、統計学的測定に基づき確立される。図３Ｄ～３Ｇのデータに見られるように、ベースラインＴＦ値が約１×１０^－５を超える腫瘍画分は、黒色腫、肺及び乳房腫瘍を含むほとんどの固形腫瘍で、微小残存病変を示す。

【0220】

一態様では、ＴＦスコアの決定には、ＣＮＶノイズのフィルタリング用の適当なフィルタを構築し、上記積分数学的モデルを用いた、フィルタリング済みＣＮＶシグナルの分析を含みうる。代表的な方法を実施例３に示し、その結果を図５に示す。最初に、切除腫瘍、生殖細胞系（例えば、ＰＢＭＣ）、及び手術前の生物学的試料（好ましくは、ｃｆＤＮＡ）の遺伝子データが得られる。代表的な増幅セグメント（例えば、５００ｋｂ；好ましくは１００ｋｂ）における腫瘍読取深度、生殖細胞系読取深度、及び術前血漿ｃｆＤＮＡ読取深度のプロファイルが生成される。すべての試料にわたり深度カバレッジを正規化して偏りを最小限にする。上記のように、ゲノムワイドにわたり読取深度の歪みを統合する統合的数学的モデルを用いて、３つの試料ゲノム間の差異を評価する。結果は、上記方法を用いてゲノムワイドＣＮＶパターンを統合した場合の検出の検出感度が高いことを示す。より具体的には、上記方法は、約１／１００，０００のＴＦまでの腫瘍を検出する驚くべきかつ予想外の機能を発揮しうる。この特徴は、各ＴＦについてのシグナル対ノイズ（ＳＮＲ）から明らかであり、１０^－５以上のすべてのＴＦは、ノイズと比較してシグナルの正（＞０）検出を示す。

【0221】

本開示の方法を用いる例示的なシステムを、図７Ａ～Ｃに示す。ここでは、被験体（例えば、がん患者）から遺伝子マーカーの一覧を受け取る。遺伝子マーカー一覧は、例えば、腫瘍ＤＮＡ（例えば、切除腫瘍から得られた）及び対照ＤＮＡ（例えば、ＰＭＢＣ）を含む。変異呼出を用いて遺伝子データを解析し、体細胞ＳＮＶ（ｓＳＮＶ）を下流解析の参考として設定した。いくつかの実施形態では、この参照標準は、例えば、特定の主体に対して個別化され得る。いくつかの局面では、この参照標準は、追加の参照標準のコホートと共に用いられ得る。

【0222】

好ましくは、非常に清潔で質の高い参照セットを利用するために、３つの異なる変異呼出、ＭＵＴＥＣＴ、ＬＯＦＲＥＱ、及びＳＴＲＥＬＫＡの出力が交差される。ＭＵＴＥＣＴは、がんゲノムの次世代配列決定データ（Cibulskis et al, Nature Biotechnology, 31, 213-219, 2013）における体細胞点変異の信頼性が高く正確な同定をもたらす；ＬＯＦＲＥＱモデルは、集団の＜０．０５％に発生する変異体の正確な呼出の操作特異的エラー率を決定する（Wilm et al., Nucleic Acids Res., 40(22): 11189-11201, 2012）；ＳＴＲＥＬＫＡは、整合した腫瘍－正常試料の整列配列読取から体細胞ＳＮＶ及び小型インデルを検出するように設計された分析パッケージである（Saunders et al., Bioinformatics, 28(14):1811-7, 2012）。

【0223】

通常、変異呼出交差部は、複数の技術的に公知の呼出の使用を含む。いくつかの実施形態では、３つの変異呼出（ＭＵＴＥＣＴ、ＬＯＦＲＥＱ、及びＳＴＲＥＬＫＡ）が、患者腫瘍及び正常な配列決定読取上で用いられ、交差変異体リストを、全ての呼出で正確に同じ置換（同じゲノム座標及びヌクレオチド変化）の検出を示す変異体として定義する。

【0224】

次に、患者特異的変異部位由来の読取を収集し、フィルタにかける。いくつかの実施形態では、収集工程及び／又はフィルタリング工程は、低マッピング品質の読取を除去する工程を含む。例えば、マッピング品質スコアが２９未満（ＲＯＣ最適化）であるいかなる読取がフィルタされる。加えて又はあるいは、フィルタリングは、重複ファミリーの構築を含み得る。例えば、重複は、同じＤＮＡ断片の複数のＰＣＲ／配列決定コピー（すなわち、一意でないマーカー及び被験体領域の重複）を含み得る。最後に、コンセンサス試験に基づき補正読取を生成しうる。フィルタリング工程は、低塩基品質の読取の除去を含み得る。例えば、塩基品質スコアが２１未満（ＲＯＣ最適化）のいかなる読取をフィルタリングしうる。最後に、フィルタリング工程は、高い断片サイズの読取を除去する工程を含んでよい。例えば、断片サイズが１６０を超えるいかなる読取（ＲＯＣ最適化）をフィルタリングしうる。この理論的根拠は、腫瘍ＤＮＡは正常ＤＮＡよりも短い傾向があるため、低断片サイズのフィルタリングにより腫瘍ＤＮＡが濃縮される。Jiang et al., PNAS USA, 112.11 (2015): E1317-E1325; and Mouliere et al., bioRxiv, 134437, 2017を参照のこと。

【0225】

次の工程では、腫瘍と正確に同じ置換を用いて、少なくとも１つの支持読取（フィルタリング済みセットで）がある患者特異的変異部位の数を計算する。マーカーがＳＮＶである局面では、演算工程は、１）血漿ＳＮＶ検出の統合シグナル、２）推定ゲノムカバレッジ及び配列決定ノイズモデルを含むプロセス品質測定値、３）変異負荷（Ｎ）を含む患者特異的パラメータを含む確率モデルを統合する工程を含んでよい。より具体的には、統合された数学的モデルは、推定ｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）＊Ｒ）／Ｎ］＾（１／ｃｏｖ）を計算することを含み得る。ここで、Ｍは、患者血漿試料中の腫瘍特異的ＳＮＶ群検出数、σは、経験的に推定された誤差率の尺度、Ｒは、関心のあるＳＮＶ一覧領域（ＲＯＩ）における固有の読取の総数、Ｎは、腫瘍変異負荷、ｃｏｖは、ＳＮＶ一覧ＲＯＩにおける部位当たりの固有の読取の平均数である。次に、推定されたＴＦを、健常試料からの経験的に測定された基礎ノイズＴＦ推定により定義された検出閾値に対してチェックする。いくつかの実施形態では、ＴＦを、それが閾値、例えば、ノイズＴＦ分布の２標準偏差（例えば、ＦＰＲ＜２．５％）を超える場合に検出されると定義する。

【0226】

マーカーがＣＮＶであるいくつかの実施形態では、フィルタリング工程は、腫瘍及び患者由来の正常（例えば、ＰＢＭＣ）試料上でのＣＮＶの呼出（例えば、増幅及び／又は欠失の分析）と、変化の方向性（ここで、増幅は正の因子、例えば＋１、欠失は負の因子、例えば－１）と共に、閾値特徴（例えば、長さが５メガ塩基対より長い）を満たす全てのＣＮＶセグメントの基準セグメントの生成を含んでよい。次に、患者特異的ＣＮＶセグメンテーションＲＯＩをカバーする血漿、腫瘍、ＰＢＭＣ試料の単一塩基対深度カバレッジ情報を収集した。次に、患者特異的ＣＮＶセグメンテーションＲＯＩを５００ｂｐのウインドウに正規化し、ウインドウあたりの中央値を全ての試料及びウインドウに対して計算する（人工的抑制）。次に、全ての５００ｂｐウインドウの正規化深度カバレッジ情報を生成する。

【0227】

いくつかの実施形態では、正規化は、（１）試料当たりの安定ｚスコア正規化及び／又は（２）安定主成分分析（ＲＰＣＡ）法を用いて行いうる。例えば、Ｚスコア法は、代数関数ｐｒｅｏｐ＿ｍｅｄｉａｎ＝（ｐｒｅｏｐ＿ｍｅｄｉａｎ－ｍｅｄｉａｎ（ｐｒｅｏｐ＿ｍｅｄｉａｎ））／（１．４８２６＊ｍａｄ（ｐｒｅｏｐ＿ｍｅｄｉａｎ，１）））を用いることを含み得る。あるいは、安定主成分分析（ＲＰＣＡ）法は、ノイズの多い高周波人工的（Ｓ行列）を除去するために、Ｍ＝Ｌ＋Ｓに対する最適化問題を解くことを含みうる。当該方法の組み合わせを用いることもできる。

【0228】

次に、患者特異的セグメンテーション由来の読取／ウインドウがフィルタリングされる。いくつかの実施形態では、フィルタリング工程は、低マッピング品質の読取の除去工程（例えば、＜２９、ＲＯＣ最適化）；セントロメア領域に近接する読取の除去工程、例えば、正規化された正常値が閾値（例えば、１０）を超えるウインドウの除去工程を含んでよい。セントロメア近接フィルタに関して、ＣＮＶノイズの～７０％～８０％がセントロメア領域と共局在し、ＰＢＭＣ試料中の異常に高い深度カバレッジにより検出できることが確認された。当該セントロメアのホットスポットは、フィルタリング工程で除去しうる。

【0229】

次に、ｃｆＤＮＡ中の非発現領域を除去する。例えば、複数のｃｆＤＮＡ試料から構成されたｃｆＤＮＡ一覧マスクに含まれないウインドウを除去しうる。このフィルタリング工程の理論的根拠は、ｃｆＤＮＡがヌクレオソーム保護ゲノム領域のみを示し、アクセス可能なクロマチンゲノム領域に非一覧ギャップを示すようにバイアスされる場合、当該非一覧領域を計算に含めると、バイアス及び誤差の原因となる可能性が高いからである。従って、ｃｆＤＮＡコホートにおいて表される（＞０読取）領域のマスクが、ｃｆＤＮＡ試料のコホートを用いて生成される。

【0230】

次に、計算方法を用いて、血漿及び正常試料にわたるカバレッジパラメータを統合する。従って、血漿と正常（ＰＢＭＣ）患者試料の間の歪んだカバレッジの方向性深度は、方程式［（Ｐ（ｉ）－Ｎ（ｉ）＊記号［Ｔ（ｉ）－Ｎ（ｉ）］－Ｅ（シグマ）］を用いて積分しうる。同様に、腫瘍と正常（ＰＢＭＣ）患者試料の間に歪んだカバレッジの累積深度は、方程式［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］－Ｅ（σ）］を用いて積分しうる。

【0231】

次に、前記シグナル間の希釈比、すなわち、方向性深度及び累積カバレッジ深度に対する希釈比が計算され、これは推定された腫瘍画分（ｅＴＦ）に対応する。いくつかの局面では、計算工程は、１）コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍ＣＮＶ方向に一致して、血漿と正常（ＰＢＭＣ）患者試料の間に歪められたカバレッジ深度の方向を積分する工程と、２）腫瘍と正常（ＰＢＭＣ）患者試料の間に歪められたカバレッジ深度の累積積を積分する工程と、３）上記シグナルの間の希釈比を求める工程とを含む確率的希釈モデルを利用して、ＣＮＶマーカーのｅＴＦを計算する工程を含んでよい。より具体的には、統合された数学的モデルは、推定ｅＴＦ［ＣＮＶ］＝（ｓｕｍ＿｛ｉ｝［（Ｐ（ｉ）－Ｎ（ｉ）］＊記号［Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（ｓｉｇｍａ））／（ｓｕｍ＿｛ｉ｝［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（σ））を計算することを含み、ここでＰは、血漿深度カバレッジを表す｛ｉ｝で指数化されたゲノムウインドウにおける深度カバレッジの中央値であり、正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法のいずれかで正規化されたものであり、Ｔは、腫瘍深度カバレッジを表す｛ｉ｝で指数化されたゲノムウインドウにおける深度の中央値であり、安定ｚスコア法又は正常試料のコホートと比較して安定ＰＣＡのいずれかで正規化されたものであり、Ｎは、｛ｉ｝で指数化されたゲノムウインドウにおける深度の中央値であり、安定ｚスコアのいずれかで正規化されたものである。正常な検体のコホートと比較した方法又は安定なＰＣＡ次に、推定されたＴＦ（ＣＮＶ）を、健常試料からの経験的に測定された基礎ノイズＴＦ推定により定義された検出閾値に対してチェックする。いくつかの実施形態では、ｅＴＦ（ＣＮＶ）は、それが閾値、例えば、ノイズＴＦ分布の２標準偏差（例えば、ＦＰＲ＜２．５％）を超える場合に検出されると定義される。

【0232】

いくつかの実施形態では、確率モデルを用いて、数学的操作Ａ＊ＰＢＭＣ＿ｃｏｖ＋Ｂ＊ｔｕｍｏｒ＿ｃｏｖに基づきゲノム部位当たりの有効カバレッジを計算し、ここで、特定の部位が増幅又は欠失に関連する場合、ＰＢＭＣカバレッジ及び腫瘍カバレッジは同じではなく、Ａ＋Ｂ＝１である。ある実施形態では、様々な試料のＡ、Ｂは、以下の通りである：対照（例えば、ＰＢＭＣ試料）Ａ＝１及びＢ＝０；腫瘍試料Ｂ＝純度及びＡ＝１純度；血漿試料Ｂ＝ＴＦ及びＡ＝１－ＴＦ。いくつかの実施形態では、血漿中のシグナルと腫瘍との間の関係は、純度とＴＦとの間の希釈（又は混合比の変化）に直線的に関連する。当技術分野で公知なように、モデルはまた、確率論的モデルに含まれ得るノイズにさらされる。

【0233】

〔術後患者の治療におけるこの方法の使用〕
腫瘍を外科的切除（例えば、乳房切除術による乳房腫瘍の切除；肺切除術又は肺葉切除術による肺腫瘍の切除；又は前立腺切除のための前立腺摘除術）されたがん患者の予後は極めて重要である。例えば、乳がんの場合、補助療法を検討している女性の大多数は、補助療法なく予後通知を望むと報告される（Ravdin et al., J Clin Oncol., 16(2):515-521, 1998）。補助療法は、不快かつ不便であり望ましくない（Ravdin et al., J Clin Oncol., 16(2):515-521, 1998）。場合によっては、わずかな利益しかもたらさない（Simes et al., J Natl Cancer Inst Monogr., 30, 146-152, 2001）。その実施の決定は合法的である（Ｄｕｒｉｃら、前出）。これには、Ｗｏｕｔｅｒｓら（Ann Oncol., 24(9):2324-9, 2013）のトレードオフが含まれる。がんがもたらすリスクの決定の精緻化が求められる（Kratz et al., Transl Lung Cancer Res., 2(3): 222-225, 2013）。

【0234】

多くの研究が、腫瘍の大きさが重要な予後変数であると指摘する。しかしながら、ＭＲＤの状況では、腫瘍は一般にＣＴスキャン等の従来の診断ツールを用いて検出できず、腫瘍の大きさは適当ではない。そのため、腫瘍の大きさのカットオフ値には問題がある。

【0235】

従って、コンピュータ版予測モデルは、この方向への重要な工程を提供し、現在利用可能な最も正確な予測方法である可能性がある。図７は、推定された腫瘍画分に基づいた手術後の患者におけるモデル予測を示す。例えば、閾値を超える推定腫瘍画分（例えば、ＳＮＶマーカーは約１０^－４、及び／又はＳＮＶマーカーは約１０^－５）は、被験体に対して補助療法が必要であることを示す。

【0236】

このモデルは、単に患者のカウンセリングに用いるだけでなく、術後補助療法に関する医師の決定にも有用である。従って、開示された方法は、医師及び臨床医が、補助療法の非存在下で転帰（例えば、転移又は死亡）を予測するツールを提供する。おそらく、推定腫瘍画分（ｅＴＦ）の関数として、ベースライン時のリスクが非常に低い患者は、補助療法に伴う毒性を回避したいと望むであろう。このように、予測ツールは効果的な意思決定支援になり得る。この予測ツールは、化学療法、免疫療法、標的療法等の新しい治療法（例えば、治験薬の使用）の予測能を判断するベンチマークとしても有用であろう。

【0237】

〔システム〕
本開示は、さらに、本開示の方法を実施するシステムに関する。代表的なシステムが、本開示の診断方法を実施する例示的なシステムを示す、図７Ａの概略図に提供される。本明細書に示されるように、分析ユニット５１０、分類ユニット５２０、演算ユニット５３０、及び関連する入力装置（図示せず）を介してデータを出力し、ユーザ入力を受信するディスプレイ５４０を含みうるシステム５００が提供される。分析ユニット５１０は、通常、遺伝データの入力、例えば、被験体の腫瘍試料から読取を含むＶＣＦファイル、場合によっては正常（例えば、ＰＢＭＣ）試料、及び第２生物学的試料、例えば、同一の被験体からの血漿試料（注：第１試料及び第２試料収集は、共に又は連続的に実施され得る、すなわち、一時的に分離され得る）を含む。分類ユニット５２０は、様々なタイプのマーカー、例えば、ＣＮＶ／ＳＶ対ＳＮＰ／インデルを分類する１又はそれ以上のエンジンを含みうる。図７Ａは、システムの１つの構成を示すことに留意されたい。当該コンポーネントの配向及び構成は、必要に応じて変更しうる。さらに、このシステムに追加のコンポーネントを追加しうる。当該様々なコンポーネント、それらの様々な操作、それらの様々な配向、及び互いの間の様々な関連について、以下に詳細に論じる。

【0238】

いくつかの実施形態では、本開示は、それが必要な被験体の残存病変を検出するシステムに関する。システムは、ゲノムワイドノイズマーカーを被験体の生物学的試料から複数の遺伝子マーカーから生成される、マーカーのゲノムワイド一覧を、ゲノムワイド一覧からフィルタリングするように構成及び配置された分析ユニット５１０を含むことができ、前記生物学的試料は、腫瘍試料及び正常細胞試料を含み、前記遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、インデル、コピー数変異（ＣＮＶ）、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択され、前記分析ユニットは、さらに、第２生物学的試料中のゲノムワイド遺伝子マーカーの一覧を検出して、第２試料中の腫瘍ゲノムワイド遺伝子マーカーの一覧を生成する工程を含み、前記分析ユニットは、分類エンジン５２０をさらに含む。いくつかの実施形態では、分類エンジン５２０は、一覧内の各マーカーをシグナル又はノイズとして統計的に分類する。例えば、マーカーがＳＮＶ又はｉｎｄｅｌ（類似の構造的特徴のために群化されているが、同一の分類スキームを用いる必要はない）である場合、分類エンジンは、１）読取群のマッピング品質（ＭＱ）がＳＮＶ又はＩｎｄｅｌを含む、２）読取群の断片サイズ長がＳＮＶ又はＩｎｄｅｌを含む、３）特定のＳＮＶを含む読取重複ファミリー内のコンセンサステスト、又は４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）の関数として、ノイズ（Ｐ_Ｎ）の検出確率に基づき、ＳＮＶ又はｉｎｄｅｌをシグナル又はノイズとして分類する。同様に、マーカーがＳＮＶ又はインデル（類似の構造的特徴のために群化されているが、同じ分類スキームを用いる必要はない）である場合、分類エンジンは、１）セントロメアに対するその位置、２）読取群のマッピング品質（ＭＱ）がＣＮＶ又はＳＶウインドウを含むこと、又は３）ＣＮＶ又はＳＶウインドウのｃｆＤＮＡデータにおける表現に基づき、ＳＮＶ又はインデルをシグナル又はノイズとして分類する。

【0239】

いくつかの実施形態では、ＳＮＶ／ｉｎｄｅｌ分類ユニット５２０は、ＳＮＶ／ｉｎｄｅｌの塩基品質（ＢＱ）及びマッピング品質（ＭＱ）の関数として、ノイズ（Ｐ_Ｎ）の検出確率に基づき、一覧内の各ＳＮＶ／ｉｎｄｅｌをシグナル又はノイズとして統計的に分類する。いくつかの実施形態では、ＣＮＶ／ＳＶ分類ユニット５２０は、セントロメアに対するその位置、所定のカバレッジ深度におけるその非一覧、及びその読取能力に基づき、一覧内の各ＣＮＶ／ＳＶをシグナル又はノイズとして統計的に分類する。いくつかの実施形態では、分類ユニット５２０は、前述のパラメータの１又はそれ以上に基づき、ＳＮＶ／ｉｎｄｅｌマーカー及びＣＮＶ／ＳＶマーカーの両方を分類する。

【0240】

いくつかの実施形態では、本開示のシステムは、１又はそれ以上の統合的数学的モデルに基づき試料の推定腫瘍率（ｅＴＦ）を計算するように構成かつ配置される演算ユニット５３０を含む。例えば、演算ユニットは、ＳＮＶ／ｉｎｄｅｌマーカーに特異的であるか、又はＣＮＶ／ＳＶマーカーに特異的である１又はそれ以上の統合的数学的モデルに基づき、試料の推定腫瘍率（ｅＴＦ）を計算するように構成及び配置され得る。当該実施形態では、マーカーがＳＮＶ／ｉｎｄｅｌである場合、演算ユニットは、推定されたゲノムカバレッジ及び配列決定ノイズを含むプロセス－品質測定基準を、変異負荷（Ｎ）を含む患者特異的パラメータと統合しうる。同様に、マーカーがＣＮＶ又はＳＶである場合、演算ユニットは、コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍ＣＮＶ方向性に一致して歪められたカバレッジの方向性深度を積分することにより、ＣＮＶマーカーのｅＴＦを計算しうる。

【0241】

本開示のシステムは、さらに、推定された腫瘍画分に基づき被験体の残存病変プロファイルを出力する一覧ユニット５４０を含み、推定された腫瘍画分がバックグラウンドノイズモデルにより計算された経験的閾値を超える場合、被験体の残存病変プロファイルが残存病変プロファイルに出力される。いくつかの実施形態では、本開示のシステムでは、分類エンジンユニット及び／又は演算ユニットは、推定された腫瘍画分に基づき被験体の残存病変プロファイルを出力する一覧ユニットに別々に又は集合的に結合され得る。

【0242】

いくつかの実施形態では、本開示のシステム５００は、分類ユニット５２０を備える分析ユニット５１０を備える。分類ユニット５２０は、ＳＮＶ分類エンジン５２０－１、ＣＮＶ分類エンジン５２０－２、インデル分類ユニット５２０－３、構造変種（ＳＶ）分類ユニット５２０－４、又はその組み合わせからなる群から選択された少なくとも１つのエンジンを備え、ＳＮＶ／インデル分類エンジンは、ノイズ（Ｐ_Ｎ）の検出確率に基づき、ノイズ（Ｐ_Ｎ）の各ＳＮＶを、ＳＮＶの塩基品質（ＢＱ）及びＳＮＶのマッピング品質（ＭＱ）の関数として、統計的に、シグナル又はノイズとして分類し、かつ／又は、ＣＮＶ／ＳＶ分類エンジンは、セントロメアに対する位置、所定のカバレッジ及び読取能力に基づき、一覧内の各ＣＮＶ／ＳＶを、シグナル又はノイズとして統計的に分類する。システム５００は、さらに、マーカーのタイプに特異的な統合的数学的モデルの１又はそれ以上に基づき試料の推定腫瘍率（ｅＴＦ）を計算するように構成された演算ユニット５３０を含みうる。例えば、マーカーがＳＮＶである場合、演算ユニット５３０は、数学的モデルｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）Ｒ］／Ｎ］＾（１／ｃｏｖ）に基づきｅＴＦを計算するように構成されてよく、ここで、Ｍは、患者試料中の腫瘍特異的な公知の検出数であり、σは、経験的に推定されたノイズの尺度であり、Ｒは、関心領域（ＲＯＩ）中の固有の読取の総数であり、Ｎは、腫瘍変異負荷であり、ｃｏｖは、ＲＯＩ中の部位ごとの固有の読取の平均数である。同様に、マーカーがＣＮＶである場合、演算ユニット５３０は、数学的モデルｅＴＦ［ＣＮＶ］＝（ｓｕｍ＿｛ｉ｝［（Ｐ（ｉ）－Ｎ（ｉ）］＊記号［Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（ｓｉｇｍａ））／（ｓｕｍ＿｛ｉ｝［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（σ））に基づきｅＴＦを計算するように構成されてよく、ここで、Ｐは、血漿深度カバレッジを表す｛ｉ｝により指数化付けされたゲノムウインドウにおける深度の中央値であり、Ｔは、｛ｉ｝により指数化付けされた腫瘍深度カバレッジを表すゲノムウインドウにおける深度の中央値であり、Ｎは、｛ｉ｝により指数化付けされたゲノムウインドウにおける深度の中央値である。

【0243】

いくつかの実施形態では、演算ユニット５３０は、ｉｎｄｅｌに固有の数学的モデル（ＳＮＰのｅＴＦを計算する数学的モデルと概ね類似又は同一）に基づきｅＴＦを計算するように構成されてよい。いくつかの実施形態では、演算ユニット５３０は、ＳＶに固有の数学的モデル（ＣＮＶのｅＴＦを計算するための数学的モデルと概ね類似又は同一）に基づきｅＴＦを計算するように構成されてよい。いくつかの実施形態では、演算ユニット５３０は、ｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）Ｒ）／Ｎ］＾（１／ｃｏｖ）式を含むＳＮＰに固有の数学的モデルに基づきｅＴＦを計算するように構成されてよく、ここで、Ｍは、患者試料中の腫瘍特異的な一覧検出の数であり、σは、経験的に推定されたノイズの尺度であり、Ｒは、関心領域（ＲＯＩ）中の固有の読取の総数であり、Ｎは、Ｃｏｖは、ＲＯＩ中部位当たりの固有の読取の平均数であり、式ｅＴＦ［ＣＮＶ］＝（合計＿｛ｉ｝［（Ｐ（ｉ）－Ｎ（ｉ）－Ｎ（ｉ）］＊［Ｔ（ｉ）－Ｎ（ｉ）］－Ｅ（ｓｉｇｍａ）］／（ｓｕｍ＿｛ｉ｝［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（ｓｉｇｍａ）］を含むＣＮＶに固有の数学的モデルであり、ここで、Ｐは、ゲノムウインドウ深度の中央値を血漿の深度の範囲を表す｛ｉ｝、Ｔを腫瘍の深度の範囲を表す｛ｉ｝、Ｎを通常の深度の範囲を表す｛ｉ｝を表すゲノムウインドウ深度の中央値を表す。

【0244】

いくつかの実施形態では、演算ユニット５３０は、確率モデルを統合してＳＮＶ又はインデルマーカーのｅＴＦを計算するように構成され、確率モデルは、１）血漿ＳＮＶ又はインデル検出の統合されたシグナル、２）推定されたゲノムカバレッジ及び配列決定ノイズモデルを含むプロセス品質の測定基準、及び／又は３）変異負荷（Ｎ）を含む患者特異的パラメータ、を含み、及び／又は、確率的混合モデルを利用してＣＮＶ又はＳＶマーカーのｅＴＦを計算することであって、確率的希釈モデルは、１）コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる腫瘍ＣＮＶ又はＳＶ方向性に一致して、血漿と正常患者試料との間で歪められたカバレッジの方向性の深度を統合すること、２）腫瘍と正常患者試料との間で歪められたカバレッジの深度の累積を統合すること、及び／又は、３）上記シグナル間で希釈比を見出すこと、を含む。

【0245】

本明細書の様々な実施形態では、コンピュータ読取可能媒体が提供され、当該コンピュータ読取可能媒体は、コンピュータ実行可能命令を含み、プロセッサは、プロセッサにより実行されると、被験体の試料から受け取った遺伝子マーカーの一覧内でノイズをフィルタリングするための方法又は一組の工程を、プロセッサに実行させ、遺伝子マーカーは、ゲノム読取におけるＳＮＶ（好ましくは、ｓＳＮＶ）、ＣＮＶ（好ましくは、ｓＣＮＶ）、インデル、及び／又はＳＶ（好ましくは、転座、遺伝子融合又はそれらの組み合わせ）を含む。好ましくは、フィルタは、１）ＳＮＶを含む読取群のマッピング品質（ＭＱ）、２）ＳＮＶを含む読取群の断片サイズ長、３）ＳＮＶ又はＩｎｄｅｌを含む読取重複ファミリー内のコンセンサス試験、４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）、及び／又はセントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、３）ｃｆＤＮＡデータにおけるＣＮＶウインドウの一覧の関数として、ノイズの検出確率に基づき、ノイズの各ＳＮＶ又はＩｎｄｅｌを統計的に分類することにより、ゲノムワイドのマーカーの一覧から人工的ノイズマーカーを除去する。コンピュータ読取り可能媒体は、さらに、コンピュータ実行可能命令を含み得、これは、プロセッサにより実行されるとき、プロセッサに、１又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分（ｅＴＦ）を計算するための方法又は一組の工程を実行させ；次いで、推定腫瘍画分及びバックグラウンドノイズモデルにより計算された経験的閾値に基づき、被験体の残存病変を診断させる。

【0246】

いくつかの実施形態では、システムは、プロセッサにより実行されると、ｅＴＦを計算する１又はそれ以上の上記数学的モデルに基づき、プロセッサに腫瘍画分（ｅＴＦ）を推定する方法又は一連の工程を実行させるコンピュータ実行可能な命令を含む演算ユニット５３０と、計算されたｅＴＦに基づき適格診断を行う診断ユニット（例えば、ｅＴＦ≧２ｓｔｄがノイズ閾値を超える場合、正の診断が行われる）とを備える。システムは、関連する入力装置（例えば、マウス）を介してデータを出力し、ユーザ入力を受信するディスプレイ５４０をさらに含みうる。いくつかの実施形態では、結果は、バイナリ出力（すなわち、「ＭＲＤについての＋ｖｅ」又は「ＭＲＤについての－ｖｅ」）又は順序スコア（例えば、１～５の尺度）の形式で、ディスプレイ５４０上に一覧されてよく、ここで、スコア１は、被験体がＭＲＤを有する可能性が低いことを示し、スコア５は、被験体がＭＲＤを有する可能性が高いことを示す。

【0247】

図７Ｂに示すように、例示的なシステム１００は、それが必要な被験体の残存病変を検出するように構成かつ配置される。図７Ｂを参照すると、システム１００は、分析ユニット１１０及び演算ユニット１５０を備えうる。分析ユニット１１０は、プレフィルタエンジン１２０及び補正エンジン１３０を含みうる。当該システム・コンポーネント及び関連エンジンについては、以下でさらに詳しく説明する。

【0248】

再び図７Ｂを参照すると、分析ユニット１１０のプレフィルタエンジン１２０は、被験体の第１生物学的試料から複数の遺伝子マーカーに関連する第１被検体特異的ゲノムワイドの読取一覧を受け取るように構成かつ配置されうる。本明細書のワークフローに関して議論されてきたように、様々な実施形態により、第１生物学的試料は、ベースライン試料を含むことができ、第１読取一覧は、各々、単一塩基対長の読取を含むことができ、当該ベースライン試料は、腫瘍試料又は血漿試料を含みうる。

【0249】

図７Ｂのプレフィルタエンジン１２０はまた、人工的部位を第１読取一覧からフィルタリングするように構成及び配置することもできる。本明細書のワークフローの記載のように、様々な実施形態により、フィルタリングは、遺伝子マーカーの第１一覧から、参照健常試料のコホートにわたって生成された反復部位の除去、及び／又は正常細胞試料の末梢血単核細胞における生殖細胞変異の同定、及び遺伝子マーカーの第１一覧からの前記生殖細胞変異の除去を含みうる。

【0250】

図７Ｂでは、分析ユニット１１０の補正エンジン１３０は、エンジン１２０からの出力を受け取るように構成及び配置しうる。補正エンジン１３０はまた、被験体の第２生物学的試料中の遺伝子マーカーの第２被験体特異的ゲノムワイド一覧由来の読取を受け取り、第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイドの代表を生成するように構成及び配置しうる。図７Ｂに示すように、第２生物学的試料の読取値は、検出ユニット１４０を用いて検出しうる。前記検出ユニット１４０は、システム１００の部分であっても、システム１００の部分でなくてよく、その場合、読取は、補正エンジン１３０により、単に、外部システム１００から受け取ることができる。さらに、当該読取値は、以下に説明するように、ノイズフィルタリングに先立つシステム内のいかなる点で、分析ユニット１１０に受け取り得る。さらに、当該読取は、すでにフィルタリング済みノイズがあるシステム１１０に読取が提供される場合、ノイズフィルタリング後にも受け取りうる。さらに、検出ユニット１４０は、図７Ｂに示すように、分析ユニット１１０に一体化されてよく、又は分析ユニット１１０から分離されてよい。

【0251】

補正エンジン１３０はまた、少なくとも１つのエラー抑制プロトコルを用いて、第１及び第２のゲノムワイド読取の一覧からノイズをフィルタリングするように構成及び配置することができ、第１ゲノムワイド読取の一覧用の第１フィルタリング済み読取セット及び第２ゲノムワイド読取の一覧用の第２フィルタリング済み読取セットを生成する。

【0252】

本明細書のワークフローの記載のように、様々な実施形態により、前記少なくとも１つのエラー抑制プロトコルは、第１及び第２の一覧内のいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、かつ、前記変異を除去することを含みうる。

【0253】

本明細書のワークフローの記載のように、様々な実施形態により、確率は、マッピング品質（ＭＱ）、変異塩基品質（ＭＢＱ）、読取位置（ＰＩＲ）、平均読取塩基品質（ＭＲＢＱ）、及びそれらの組み合わせからなる群から選択される特徴の関数として計算しうる。

【0254】

本明細書のワークフローの記載のように、かつ、様々な実施形態により、少なくとも１つのエラー抑制プロトコルは、ポリメラーゼ連鎖反応又は配列決定プロセシングから生成された同一ＤＮＡ断片の独立した複製間の不一致試験、及び／又は所定の重複ファミリーの大部分が不一致である場合、人工的変異が同定及び除去される重複コンセンサスを用いて、人工的変異を除去することを含みうる。

【0255】

システム１００の演算ユニット１５０は、補正エンジン１３０からの出力を受け取り、１又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用して、第１及び第２のフィルタリング済み読取セットを用いて、第１及び第２の生物学的試料の推定腫瘍率を計算するように構成及び配置しうる。演算ユニット１５０は、第２生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体中の残存病変を検出するように、さらに構成かつ配置され得る。バックグラウンドノイズモデル、積分数学的モデル、及び経験的閾値は、本明細書で詳細に議論される。

【0256】

システム１００の演算ユニット１４０はまた、図７Ｂに示すように、ディスプレイ１６０を含みうる。ディスプレイは、演算部１５０からの出力を受け取るように構成及び配置しうる。アウトプットには、被験体／使用者における残存病変の検出に関連するデータを含めることができる。代替的に、システム１００は、ディスプレイを除外してもよく、代わりに、コンピュータユニット１５０からのデータ出力を、システム１００の外部のいかなる形式の記憶装置又はディスプレイ装置又は位置に送信してもよい。また、本明細書で説明するように、システム１００の構成要素は、１つの単一ユニットに統合することができ、又は、図７Ｂに示すものよりも別個の物理ユニットに分割しうる。さらに、システム１００は、各々が実質的に類似のタスクを実行し、各システムからハブへデータを送信するシステムの分散ネットワークの一部としうる。

【0257】

図７Ｃに示すように、例示的なシステム１００は、それが必要な被験体の残存病変を検出するように構成かつ配置される。図７Ｃの例示的なシステムと同様に、システム１００は、分析ユニット１１０及び演算ユニット１５０を備えうる。図７Ｂのシステムとは対照的に、図７Ｃの分析ユニット１１０は、プレフィルタエンジン１２０と正規化エンジン１３０とを含みうる。当該システム・コンポーネント及び関連エンジンについては、以下でさらに詳しく説明する。

【0258】

再び図７Ｃを参照すると、分析ユニット１１０のプレフィルタエンジン１２０は、被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド読取一覧を受け取るように構成かつ配置され得る。本明細書のワークフローに関して論議されているように、様々な実施形態に従って、第１生物学的試料は、ベースライン試料を含むことができ、第１読取一覧は、各々、単一塩基対長の読取を含むことができ、ベースライン試料は、腫瘍試料又は血漿試料を含みうる。

【0259】

また、プレフィルタエンジン１２０は、被験体の第２生物学的試料から遺伝子マーカーに関連する第２被験体特異的ゲノムワイドの読取一覧を受け取るように構成及び配置しうる。本明細書中のワークフローに関して論じられているように、様々な実施形態に従って、第２生物学的試料は、末梢血単核細胞試料（ＰＢＭＣ）を含むことができ、遺伝子マーカーの第２一覧は、各々、コピー数変異（ＣＮＶ）を含みうる。

【0260】

また、プレフィルタエンジン１２０は、第１及び第２の読取一覧から人工的部位をフィルタリングするように構成及び配置してよい。本明細書のワークフローに関して論じられているように、様々な実施形態により、フィルタリングは、参照健常試料のコホート上で生成された第１及び第２の読取一覧からの反復部位の除去；第１及び第２の一覧の間の共有ＣＮＶの生殖細胞系変異としての同定、及び前記変異の読取一覧の第１及び第２の一覧からの除去を含みうる。

【0261】

分析ユニット１１０の正規化エンジン１３０は、エンジン１２０からの出力を受け取るように構成及び配置しうる。正規化エンジン１３０はまた、被験体の第３生物学的試料中の遺伝子マーカーの第３被験体特異的ゲノムワイド一覧由来の読取を受け取って、第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイド表現を生成するように構成及び配置しうる。

【0262】

図７Ｃに示すように、第３生物学的試料の読取値は、検出ユニット１４０を用いて検出しうる。前記検出ユニット１４０は、システム１００の一部であっても、システム１００の一部でなくてもよく、その場合、読取は、外部システム１００から正規化エンジン１３０により単に受け取りうる。さらに、当該読取値は、以下に説明するように、ノイズフィルタリングに先立つシステム内のいかなる点で、分析ユニット１１０で受け取りうる。さらに、当該読取は、すでにフィルタリング済みノイズを有するシステム１１０に読取が提供される場合、ノイズフィルタリングの後にも受け取りうる。さらに、検出ユニット１４０は、図７Ｃに示すように、分析ユニット１１０に一体化されてよく、分析ユニット１１０から分離されてよい。

【0263】

正規化エンジン１３０はまた、第１、第２及び第３読取一覧の各々を正規化し、第１ゲノムワイド読取一覧用の第１フィルタリング済読取セット、第２ゲノムワイド読取一覧用の第２フィルタリング済読取セット、及び第３ゲノムワイド読取一覧用の第３フィルタリング済読取セットを生成するように構成及び配置しうる。正規化方法は、本明細書中で詳細に議論され、そして意図されるいかなる組み合わせで用いられて、議論されるように読取を正規化しうる。

【0264】

図７Ｃにおけるシステム１００の演算ユニット１５０は、正規化エンジンＸ３０からの出力を受け取り、第３生体試料の推定腫瘍率（ｅＴＦ）を、例えば、第１フィルタリング済み読取セットを用いて第１ｅＴＦを生成する１又はそれ以上のモデル、及び／又は第２フィルタリング済み読取セットを用いて第２ｅＴＦを生成する１又はそれ以上のモデルにバックグラウンドノイズモデルを適用することにより、第３フィルタリング済み読取セットを用いて計算するように構成及び配置しうる。演算ユニット１５０は、第３生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体中の残存病変を検出するように、さらに構成かつ配置され得る。バックグラウンドノイズモデル、積分数学的モデル、及び経験的閾値は、本明細書で詳細に議論される。

【0265】

システム１００はまた、図７Ｃに示すように、ディスプレイ１６０を含みうる。ディスプレイは、演算部１５０からの出力を受け取るように構成及び配置しうる。アウトプットには、被験体／使用者における残存病変の検出に関連するデータを含めうる。代替的に、システム１００は、ディスプレイを除外し、代わりに、コンピュータユニット１５０からのデータ出力を、システム１００の外部のいかなる形式の記憶装置又はディスプレイ装置又は位置に送信してよい。また、本明細書に記載されるように、システム１００の構成要素は、１つの単一ユニットに統合することができ、又は、図７Ｃに示した以外の別個の物理ユニットに分割しうる。さらに、システム１００は、各々が実質的に類似のタスクを実行し、各システムからハブへデータを送信するシステムの分散ネットワークの一部としうる。

【0266】

他の関連実施形態

【0267】

〔移植拒絶反応の推定〕
本開示は、さらに、上記のシステム、方法及びアルゴリズムを用いた移植拒絶の推定に関する。好ましくは、移植拒絶反応は、図１Ｂ及び図１Ｄに概説されたＳＮＶ／ｉｎｄｅｌベースのワークフローを用いて推定しうる。

【0268】

いくつかの実施形態では、移植拒絶の推定は、ドナーのみに特異的である（かつレシピエントには現れない）ＳＮＰの参照を利用するプロトコルに基づく。レシピエントの血液中の当該ドナー特異的ＳＮＰの検出率（例えば、移植後）に基づき、ドナー－ＤＮＡ分画は、開示の方法及びシステムを用いて計算され得る。

【0269】

ドナー－ＤＮＡ分画は、移植組織のアポトーシス率又は拒絶率と相関することが期待される。例えば、高ドナー－ＤＮＡ分画は高い拒絶反応の表現型と関連し、低ドナー－ＤＮＡ分画は低い拒絶反応の表現型と関連する。

【0270】

いくつかの実施形態では、本開示の方法を用いて測定されるドナーとレシピエントとの間の差動ＳＮＰを用いて、レシピエントの血液試料中のドナーＤＮＡ（ｅＤＦ）の割合を推定しうる。移植が拒絶される確率／可能性はｅＤＦに基づき計算される。例えば、ｅＤＦがある閾値より大きい場合、移植された組織が宿主により拒絶されるか、又は宿主と適合しないことを示す。逆に、ｅＤＦが閾値レベル以下であれば、移植組織が宿主に受け入れられるか、又は宿主と適合することを示す。

【0271】

染色体異常の非侵襲的出生前検査（ＮＩＰＴ）

【0272】

本開示はさらに、上記のシステム、方法及びアルゴリズムを用いた染色体異常の非侵襲的出生前検査に関する。好ましくは、ＮＩＰＴは、図１Ｃ及び図１Ｅに概略を示したＣＮＶ／ＳＶベースのワークフローを用いて行いうる。本明細書では、既知の増幅及び欠失を、被験体の試料（例えば、羊水又は染色体異常が疑われる胎児を担う妊娠女性由来の血液）が、それに対して測定されるＣＮＶ基準セットとして用いる。図１Ｃ及び図１Ｅのワークフローは、被験体のセグメント及び方向性（増幅、削除）が既知であると仮定して、シグナルが低くて疎であっても、コピー数変異の変化を検出するように設計される。ＮＩＰＴの文脈では、母体血液中の２１番染色体トリソミーの検査が興味深いものであると仮定すると、関心領域（２１番染色体）と変化の方向（増幅）が共に公知である。

【実施例】

【0273】

本明細書に記載される構造、材料、組成物、及び方法は、本開示の代表的な例であることが意図されており、本開示の範囲は、実施例の範囲により限定されないことが理解されるであろう。当業者であれば、本開示は開示された構造、材料、組成物、及び方法に関する変形を用いて実施することができ、当該変形は本開示の範囲内であるとみなされることを理解するであろう。

【0274】

実施例１：腫瘍特異的低存在量腫瘍マーカーの検出及び検証のための方法及びシステム、並びにがん診断におけるその使用

【0275】

本開示のシステム及び方法は、微小残存病変の検出において有用である。当技術分野で公知なように、転移性がん（疾患負荷が高く、ｃｔＤＮＡが有意に高いことを特徴とする）とは対照的に、残存病変検出の状況では、ｃｔＤＮＡの存在量は、標的配列決定技術の使用を制限する。腫瘍負荷が低い状況での既知の限られた量のｃｆＤＮＡを考慮して、まず、ｃｆＤＮＡ抽出の最適化の可能性を調べた。第一に、試料獲得及び個人間変動に由来する変動を低減するため、商業的に入手可能な抽出キット及び方法を、健常な被験体及び造血幹細胞採取を受けるがん患者の血漿フェレーシスを通して、大量の血漿採取（約３００ｃｃ）を通して生成された均一なｃｆＤＮＡ材料を用いて比較した。大量の血漿により、同じｃｆＤＮＡ入力上で複数の方法及びプロトコルパラメータを試験することができ、収率及び品質のわずかな差を正確に測定しうる。

【0276】

Capital Biosciences (Gaithersburg, MD, USA; Catalog # CFDNA-0050), Qiagen (Germantown, MD, USA), Zymo (Irvine, CA, USA; Catalog# D4076), Omega BIO-TEK (Norcross, GA, USA; Catalog# M3298), and NEOGENESTAR (Somerset, NJ, USA, Catalog # NGS-cfDNA-WPR)のキット及び試薬は、製造業者の指示に従って均一に用いて、大容量血漿試料１ｍｌについて抽出を実施した。複数の血漿アリコートを並行して処理し、方法間及び方法内のばらつきを評価した。回収した各ｃｆＤＮＡ試料の収率及び純度は、蛍光定量（総質量）、ＵＶ吸光度（塩及びタンパク質汚染物質の検出）、及びオンチップ電気泳動（サイズ分布及びｇＤＮＡ汚染）を用いて測定した。

【0277】

結果は、Omega BIO-TEK製MAG-BIND cfDNA抽出キットが、他の全ての試験方法を上回ったことを実証した。製造業者のプロトコルの各工程の系統的な最適化をさらに行い、汚染物質のキャリーオーバーを低減し、ｃｆＤＮＡの回収を改善した。それでも、早期ＮＳＣＬＣ（ｎ＝２１）におけるｃｆＤＮＡの収量は低く、変動が非常に大きかった（中央値５ｎｇ／ｍｌ（＜１０００ゲノム当量）；範囲３～３０ｎｇ／ｍｌ）。

【0278】

上記データは、患者の血漿試料における単一点変異の検出は、２つの連続した統計的サンプリングプロセス、すなわち、（ｉ）通常の血漿試料中に存在する限定数のゲノム等価物において変異断片がサンプリングされる確率、及び（ｉｉ）その存在量、配列決定の深度、及び配列決定の誤差（シグナル対ノイズ）に基づき、試料中の変異断片が検出される確率、から生じるという仮説を支持する。後者のプロセスは、科学コミュニティによる集中的な調査及び技術開発の焦点であるが（例えば、超深度誤エラーのない配列決定プロトコル）、前者の確率過程はほとんど扱われていない。それにもかかわらず、低疾患負荷ｃｔＤＮＡ検出では、両方のプロセスは、図２に示されるように重要な役割を果たす。標的点変異を含む物理的断片が存在しない場合、理想的な超深層標的配列決定でさえ、がんシグナルを発見できない。実際には、この問題は、１回の観察（変異配列決定読取）では、信頼できる検出にはほぼ十分でないという事実によりさらに複雑である。

【0279】

従って、血漿試料中に存在するゲノム等価物は、患者循環中のｃｆＤＮＡ断片のプール全体の無作為サンプリングを構成し、これはＢｅｒｎｏｕｌｌｉ試行無作為サンプリングモデルにより定式化しうる。このモデルは、早期がんレジメンに関連するＴＦ中の検出確率（ＴＦ＜１％）が、低ＴＦに対して急速に低下することを予測する。０．１％（１／１０００）の頻度でさえ、検出確率は、０．６５より低いと予測される（図２Ａ）。しかし、広範な塩基配列決定法を導入することで、多数の部位でベルヌーイ試験を繰り返すことにより、限定された部位当たりのカバー範囲（ゲノム当量が限定されていることの関数）を補填しうる。このモデルを用いて、標準的な全ゲノム配列決定（ＷＧＳ）で容易に達成できるように、２０，０００個以上の点変異（ヒトがんの１７％で見つかる約１０個の変異／ｍｂ）を統合することにより、ＴＦが１：１００，０００であっても高い検出確率（０．９８まで）が得られることが分かった（例えば、図２Ｂの２０倍の範囲）。

【0280】

次いで、最適化抽出プロトコルを患者試料に適用した。このコホートには、微小残存病変（ＭＲＤ）推定のために同じ患者から採取した術後（～１４日）の血漿試料６個と良性患者（対照）から採取した血漿試料４個が含まれている。最適抽出にもかかわらず、低疾患負荷試料のｃｆＤＮＡ収量は低く、０．１３ｎｇ／ｍＬから１．６ｎｇ／ｍＬの範囲の患者間で高い変動性を示した。当該データは、ｃｆＤＮＡ配列決定に利用可能なＤＮＡ分子の数が少なく、かつ可変であることを確認する。

【0281】

まとめると、当該結果は、ＭＲＤ検出の状況では、限られた入力材料が、ゲノム等価物の数が適用された配列決定の深度よりもはるかに低いことを前提として、超深層標的配列決定の効果的な適用に対する主要な障壁を構成することを実証する（最小限のｃｔＤＮＡ頻度は０．１～１％）。

【0282】

実施例２：ゲノムワイド統合により、術後の残存病変の高感度ＷＧＳベースのＮＳＣＬＣｃｔＤＮＡ検出が可能となり、補助療法の層別化及び治療の最適化が可能となる。
ｃｆＤＮＡを伴うＭＲＤの超高感度同定には、根本的な予後的意義があり、追跡補助化学療法の患者の層別化を可能にすると考えられる。現在のアプローチは、主に、ｃｆＤＮＡ中のｃｔＤＮＡの低画分に対抗するための深度配列決定を増加させて読取ライバーホットスポットの変異検出のパラダイムを拡張することを目的とする。それにもかかわらず、当該アプローチは、ゲノム等価物の上限により本質的に制限される。この限界を克服するため、ゲノムワイドの情報が統合された。これは、ゲノムワイドにわたって情報をプールすれば、肺がんでの高い変異率を利用しうるとの推論による。従って、少数の部位のより深い配列決定に依存せずに、変異検出の幅がゲノムワイドにわたって広がり、感受性が高まった。したがって、ＷＧＳは、ＮＳＣＬＣのかなりの割合で観察された１０，０００～３０，０００個の体細胞変異によりもたらされる累積シグナルに対する塩基感受性検出に適用された。注目すべきことに、当該変異の大部分は形質転換前に起こると考えられるため、早期ＮＳＣＬＣであっても存在する可能性が高い。根治目的の手術後のＮＳＣＬＣ患者における残存病変検出としての当該アプローチの評価に、早期肺がん患者５例の検体を分析した（完全な臨床的詳細を表１に示す）。

【表1】

【0283】

最初のＷＧＳは、末梢血単核細胞（ＰＢＭＣ）由来の一致した腫瘍ＤＮＡ及び生殖細胞系ＤＮＡを用いて、患者特異的ゲノムワイドｓＳＮＶ一覧を作成した。さらに、血漿試料を手術前及び外科的切除後約１４日目に採取した。最適化されたMAG-BIND cfDNA Extraction Kitに従ってｃｆＤＮＡを抽出し、キットに従って患者ｃｆＤＮＡをわずか１ｎｇでライブラリーを調製した。

【0284】

次に点変異パターンマッチングを用いてＭＲＤを検出した。このため、ＳＮＶマーカー及びＣＮＶマーカーの腫瘍画分を推定するため、安定数学的モデルを構築した。数学的モデルは、部位数の増加が検出確率の有意な増加をもたらすことを示す。この予測を検証するために、複数の肺腺がん患者の腫瘍と正常なＷＧＳデータのインシリコ混合物を用いて、腫瘍と正常なＷＧＳの読取値を様々な割合で混合し、異なるＴＦの仮想血漿試料（それぞれ１０－２～１０－６、ｎ＝５の反復）を獲得して、ｃｆＤＮＡの検出をシミュレートした。ノイズ及びおそらく誤検出をシミュレートするため、配列決定読取の相補的データセットを、腫瘍読取の混合がない（ＴＦ＝０、ｎ＝２０反復）マッチした正常生殖細胞系ＷＧＳから作成した。残存病変の状況での検出をシミュレートするため、原腫瘍及び生殖細胞系ＷＧＳデータについて体細胞変異呼出を実施し、体細胞ＳＮＶの患者特異的一覧を入手した。次に、インシリコ血漿シミュレーション混合物中の腫瘍関連変異部位の数を、患者特異的ＳＮＶ一覧のための少なくとも１つの支持体の検出を通して測定した。ｃｔＤＮＡの有無で模擬血漿を解析して、配列決定ノイズが高感度検出の主要な障壁であることを同定した。配列決定人工体の影響を減じるため、低塩基品質（ＢＱ）及びマッピング品質（ＭＱ）マーカーに関連するエラーをフィルタリングした。最適受信器ポイント分析（ＲＯＣ、図３Ａ）により、測定誤差率を－１０倍（図３Ｂの約２／１０，０００に）低減する、結合ＢＱ及びＭＱ最適化フィルタが開発された。まとめると、この最適化ＳＮＶ検出方法は、提案した数学的方法（曲線、図３Ｄ）と測定した経験的データ（平均＋／信頼区間、図３Ｄ）との間で高い一致を示し、ＴＦ＝１／１００，０００に近づく高感度を示す。さらに、実験結果と数学的モデルの一致が高いことで、経験的ＳＮＶ検出をＴＦ推定値（図３Ｄ）に正確に変換でき、定量的ＭＲＤモニタリングが可能となった。さらに、ＴＦ推定のインシリコ検証は、５×１０^－５（図３Ｅ、Ｆ及びＧ）を超えるすべてのＴＦに対して正確かつ特異的な推定が得られたことを示す。ここで、３つの異なる試料、例えば、メラノーマ（図３Ｅ）、肺（図３Ｆ）及び乳房（図３Ｇ）腫瘍試料では、入力混合ＴＦ（ｘ軸）及び変異パターン（ｙ軸）から推定されたＴＦの間に高い相関（Ｒ２＝０．９９９）が観察された。

【0285】

データは、フィルタが試料中のノイズを低減することを示した。例えば、プレフィルタノイズは、肺がん及びメラノーマがんともに～２×１０^－３の速度で発生し、フィルタノイズ後の速度は、両がんで～２×１０^－４に減少する（図３Ｃ）。塩基品質（ＢＱ）とマッピング品質（ＭＱ）を最適化した３５倍のカバレッジを緩和したフィルタを併用して、ＴＦが２０，０００分の１にも達する試料中のマーカーを検出しえた。ここで、曲線は理論的（二項モデル）期待値を表し、経験的測定値は黒の点で示される（５つの独立した複製の平均＆信頼区間（図３Ｄ））。ノイズレベルは、ＴＦ＝０の検出分布ではパターン化された領域で表される。さらに、メラノーマ試料中のＴＦ推定のインシリコ検証では、５×１０^－５を超えるすべてのＴＦに対して正確かつ特異的な推定が得られた（図３Ｅ）。

【0286】

合成血漿混合物を用いたマーカーの分析検証は、全ＴＦ＞５×１０^－５、特にＴＦ＞５×１０^－４での腫瘍画分推定における体細胞性ＳＮＶと体細胞性ｃＣＮＶの妥当性をさらに実証する。データを図３Ｈ及び図３Ｉに示す。

【0287】

合成試料を用いた方法のさらなる分析検証は、ＳＮＶとＣＮＶ検出方法の間の非常に良好な相関（Ｒ２＝８３．５％）を示した。図３Ｊ参照。

【0288】

ＩＣＨＯＲと比較した本開示の方法の比較評価は、ＩＣＨＯＲ方法が、ＴＦ＞５×１０^－３の場合にのみ、入力された腫瘍画分と出力された腫瘍画分との間の相関を提供することを示す（図３Ｋ）。

【0289】

本開示の方法及びシステムを用いて、シリコ又は対照被験体（ＢＢ６０１）又はがん患者（ＢＢ１１２２又はＢＢ１１２５）由来のｃｔＤＮＡ試料におけるＳＮＶ検出率を示すグラフを図４に示す。

【0290】

手術後のＮＳＣＬＣ患者の残存病変を治癒目的で検出するアプローチを評価するため、早期肺がん検体５検体を採取した（表１）。最初のＷＧＳは、一致した腫瘍及び生殖細胞系ＤＮＡ（ＰＢＭＣ）上で行い、患者特異的なゲノムワイドＳＮＶ一覧を作成した。さらに、血漿試料を手術前及び外科的切除後約１４日目に被験体から採取した。ＣｆＤＮＡを抽出し、最適化ＷＧＳプロトコルを通して配列決定した後、患者特異的ゲノムワイドＳＮＶ一覧に基づき全血漿試料中のＳＮＶ検出の分析を行った。

【0291】

結果を図５Ａに示す。データは、早期ＮＳＣＬＣ腺がん症例の術前の５つのすべての血漿試料では、ノイズ閾値を超えるゲノムワイドＳＮＶ検出を示す（図５Ａ）。さらに、５例中２例で術後の血漿中に検出され、当該患者の臨床転帰（再発又は死亡）と相関した（図５Ａ）。具体的には、術後ＴＦがノイズ閾値５×１０^－５を上回ったのは２例のみである。しかし、健常対照試料はすべてＴＦが検出閾値以下である。「Ｎ．Ｄ．」は非検出を示す。データは、血漿検出とＴＦ相関に関してＳＮＶ法と一致した結果を示した。

【0292】

この革新的なアプローチを臨床的に検証し、臨床現場での実施を容易にするために、上記方法を３０例の早期肺がん（Ｉ期及びＩＩ期）に適用する。最初のＷＧＳは、当該患者のマッチした以前に採取した腫瘍及びＰＢＭＣＤＮＡ、並びに術前及び術後の血漿試料に対して実施される。ＳＮＶベースの検出アルゴリズムを用いて、術前及び術後のＴＦを定量化する。術前又は術後の血漿ＴＦの高値と関連する臨床的変数（例、病期、リンパ節転移、病理学的特徴、患者の人口統計学的情報）を同定する。当該患者の無増悪生存期間に対する術後の血漿試料陽性の影響を特に検討する。１１人の患者の代表的なコホートからのデータが図５Ｂ（健常な血漿対照に対する腺がん）及び図５Ｃ（患者間の陰性対照に対する腺がん）に示され、感度が６０％超、特異性が８５％超であることを示す。ｓＳＮＶ検出とｓＣＮＶ検出との一致を図５Ｄに示す。

【0293】

術後の腫瘍ＤＮＡ検出は、補助療法が必要な侵攻性疾患の予後マーカーとして用いうる。例えば、１１人の患者の転帰の術後分析（術後２週間で採取された血漿）では、無再発時間は、ｓＳＮＶに基づくｚスコア検出と逆相関することが見出された（図１１Ｈ）。

【0294】

実施例３Ａ：ＳＮＶに基づく方法における断片サイズの特徴の直交的統合

【0295】

ｃｆＤＮＡ断片分布には、血液循環中のＤＮＡ分解用の独特のプロファイルがある。正常なｃｆＤＮＡ試料は、図１０Ａに示される断片サイズ分布を示す。腫瘍に由来する循環ＤＮＡ断片は、主に造血細胞（免疫細胞）のアポトーシスに由来する「正常」ＤＮＡ断片と比較して、より断片サイズが短い。乳房腫瘍ｃｆＤＮＡ（２つの小さい曲線）は、正常なｃｆＤＮＡ試料と比較して断片サイズシフトを示す（図１０Ｂ）。最初のヌクレオソームの質量中心（ＣＯＭ）を計算すると（約１７０ｂｐのピーク）、ＴＦに直線的に対応するより低いＣＯＭへのシフトが示される。ヒト腫瘍異種移植モデル（ＰＤＸ）をマウスに用いたところ、腫瘍由来の循環ＤＮＡ（破線、ヒトにアラインメント）は、正常由来の循環ＤＮＡ（実線、マウスにアラインメント）よりも有意に短いことが示された。図１０Ｃ参照。

【0296】

単一のＤＮＡ断片が腫瘍又は正常な起源に由来する確率を定量化できる安定モデルを作成するため、循環ＤＮＡの断片サイズ分布を特徴付けるために、結合ガウス混合モデル（ＧＭＭ）を用いた。循環腫瘍ＤＮＡモデル（ピーク周波数が０を超える破線）は、ヒトゲノムに整列した循環ＤＮＡのみを用いて、我々のＰＤＸ試料から抽出した循環腫瘍ＤＮＡにＧＭＭ分析を適用することにより推定した。循環正常ＤＮＡモデル（ピーク周波数が０を超えない破線）を、健常ヒトボランティアの血漿試料から循環ＤＮＡにＧＭＭ分析を適用することにより推定した。次いで、結合対数オッズ比（対数オッズ比３から－３までの実線）を用いて、特定の循環ＤＮＡの断片サイズが腫瘍又は正常由来である確率を推定した。データを図１０Ｄに示す。

【0297】

患者特異的変異検出を用いて、当該ＤＮＡ断片がその断片サイズ分布及びＧＭＭ結合対数オッズ比に基づき腫瘍由来か否かを確認しうる。信頼性を高め、バッチ効果バイアスを減少させるために、患者間相互検出を用いて患者内コントロールを開発した。例えば、検出された腫瘍変異（より高いピークのある曲線、一致した検出）の下に示されている特定の患者では、断片サイズが小さいサイズにシフトする傾向を示す。同じ患者試料で、他の患者と関連する変異が検出され（より低いピークのある曲線、患者間検出）、当該人工的検出は同じタバコパターンの文脈情報パターンを共有するが、真の検出ではない。興味深いことに、当該患者間検出は、断片サイズシフトが低い傾向を示さず、それらの断片サイズ分布は、真の腫瘍検出と有意に異なっていた（Ｗｉｌｃｏｘｏｎランク和、Ｐ値３×１０－９）。ＧＭＭ結合対数オッズ比を用いると、患者特異的変異の検出は腫瘍由来（結合対数オッズ比＝０．３）であり、一方、同じ患者試料からの人工的変異は正常由来（結合対数オッズ比＝－０．３５）であることが確認される。３人の患者の代表的なデータを図１０Ｅに示す。

【0298】

実施例３Ｂ：ＣＮＶマーカーｃｆＤＮＡ断片分布に関連する断片サイズの直交的統合には、血液循環中のＤＮＡ劣化に起因する固有のプロファイルがある。正常なｃｆＤＮＡ試料は、断片サイズの分布の変化を示す（上記の図１０Ａ及び図１０Ｂ参照）。ここで、質量中心分布（ＣＯＭ）を分析する文脈では、最初のヌクレオソームのＣＯＭ（約１７０ｂｐのピーク）の計算は、ＴＦに線形に対応する低ＣＯＭへのシフトを示す。

【0299】

患者間の断片サイズの質量中心（ＣＯＭ）の比較分析は、感度が制限される可能性があり、またバッチ効果を生じやすい可能性がある。患者内の局所的な断片サイズＣＯＭは、エピジェネティックなパターンやコピー数事象により変化しうる。実際、増幅セグメントでは、（腫瘍ＤＮＡの割合の増加のために）腫瘍画分が局所的に増加し、その結果、局所的な断片サイズの質量中心（ＣＯＭ）が減少する。一方、欠失部位では、（腫瘍ＤＮＡの割合の減少に起因して）腫瘍画分が局所的に減少し、その結果、局所的な断片サイズの質量中心（ＣＯＭ）が増加する。

【0300】

がん患者の血漿試料でこの概念を検証したところ、深度カバレッジのｌｏｇ２（ｌｏｇ２＞０．５＝増幅、ｌｏｇ２＜－０．５＝欠失）とそのセグメントの局所断片サイズ中心（ＣＯＭ）との間に明らかな負の相関が認められた。図１１Ｂ参照。１２人の異なるがん患者からの血漿試料にわたるさらなる検証は、深度カバレッジに基づくＣＮＶ検出と破片サイズの質量中心（ＣＯＭ）に基づくＣＮＶ検出との間の明確な関係を示し（図１１Ｃ）、この関係は、正常（健常）血漿試料（図１１Ｄ）では明らかではない。

【0301】

この深度カバレッジ（Ｌｏｇ２）と試料当たりの断片サイズ（ＣＯＭ）の関係から複数の定量的特徴を抽出しうる。より具体的には、中性領域の質量中心（Ｌｏｇ２＝０）、Ｌｏｇ２／ＣＯＭ関係の傾き、及びＬｏｇ２／ＣＯＭ関係のＲ２である。当該特徴は、手術後又は治療中の患者の腫瘍画分の変化に対する動的応答を示し、例えば、以下は、ＣＯＭの減少及び絶対傾斜値の増加を示し、Ｒ２（図１１Ｅ及び図１１Ｆ）の増加を示す、治療中に進行しているがん患者である。

【0302】

多重線形回帰又はＧＬＭを用いて、ｌｏｇ２／ＣＯＭ特徴を腫瘍画分に変換し、手術後及び治療中の患者をモニターしうる（図１１Ｇ）。例えば、治療中の患者の転帰を６週間（４２日間）にわたってモニターした。推定腫瘍画分（図１１Ｉ）及び正規化ＣＮＶスコア（図１１Ｊ）を集計し、残存病変モニタリング用に比較棒グラフに提示した。データは、患者１～３ではなく患者４が治療に反応したことを示し、このことは、この患者の治療後４２日目のｅＴＦが治療時のｅＴＦと比較して著しく低かったことからも明らかである（図１１Ｉ）。正常化ＣＮＶスコアの分析からも、免疫療法と化学療法の併用を受けている患者４で陽性反応が得られ、これは単剤療法（化学療法又は免疫療法単独のいずれか）を受けている患者１～３とは対照的である。治療反応の転帰は、画像検査及び長期の臨床追跡調査により確認され、ｅＴＦの予測と一致することが示された。

【0303】

実施例４：大きな体細胞コピー数変異（ｓＣＮＶ）のゲノムワイド統合を用いた高感度ｃｔＤＮＡ検出

【0304】

体細胞の点変異に加えて、がんゲノムはかなりの異数性を特徴とする。この過程を通して、ゲノムの大きなスワースは増幅と欠失を受け、ｃｔＤＮＡ検出用の強力なシグナルを生成しうる。これは主に、ＷＧＳのカバレッジ深度が各部位のＤＮＡ含有量の関数であるためである。他の顕著な例として、通常のｃｆＤＮＡ及びヌクレオソーム位置決め情報と比較して、ｃｔＤＮＡの断片長が短いことが挙げられる。

【0305】

従って、ＷＧＳは、検出を高める直交情報源が豊富であり、標的配列決定よりも付加的な利点を提供する。ＷＧＳにより提供されるこの直交性ゲノムワイドシグナルを利用するため、同様のアプローチが、大きな増幅及び欠失ゲノムセグメントにおける差次的読取り深度カバレッジを利用するために開発された。この読取深度検出方法は、患者特異的ｓＣＮＶの領域における微細な深度の変化を高感度に検出するため、数百万の小さなゲノムウインドウを統合するように設計されており、低ＴＦ血漿と健常（ＴＦ＝０）対照との間の識別が高感度となりうる。

【0306】

従って、本開示は、大きなゲノムＣＮＶセグメントにわたって多数の方向性深度カバレッジのスキューを統合する分析的アプローチを提供する（図６Ａ）。我々のＮＳＣＬＣ仮想血漿試料でこれを試験すると、ゲノムワイドＣＮＶパターンの統合により、ＴＦ１／１００，０００までの高い検出感度が達成された（図６Ｂ）。さらに、検出されたシグナルとＴＦの間の比較は、線形（Ｒ２＝１、Ｐ値＝２×１０^－２４）関係を示し、単純な希釈モデルによる適当なモデル化を示した。ここで、腫瘍の局所的な深度カバレッジ差（増幅、欠失）は、正常な読取との比例混合により希釈される。この明確な関係により、経験的な患者測定からＴＦが計算されうる。このアプローチは、ＳＮＶアプローチと同様に、上記の同じ患者コホートにおいて並行して検証され、当該直交シグナルを統合することにより感度を相乗的に改善するための共同分類モデルを構築するのに役立つ。

【0307】

本方法は、ＳＮＶ変異負荷が低いがＣＮＶ負荷が高い患者に対して補足的な感度の高い検出を提供することに留意すべきである。あるいは、本明細書に記載された方法をＳＮＶに基づく方法と統合して、ｃｆＤＮＡ存在量とは無関係に検出をさらに改善しうる。例示的な試料に関する２つの方法の統合により、微小残存病変の検出可能性が示される。データは、一致した腫瘍試料がなくても、ゲノムワイドのｓＳＮＶ組み込みは、変異推論パターンの適用を通して高感度のＭＲＤ検出を提供することを実証する。

【0308】

本開示の方法は、本明細書に例示したマーカーのタイプに限定されない。例えば、残存病変の検出／診断は、ＳＮＶ分析（実施例２で例示されている）と同様の方法で、読取のゲノム一覧における挿入又は欠失（インデル）を分析して行いうる。同様に、残存病変の検出／診断は、ＣＮＶ分析（実施例３で例示した）と同様の方法で、読取のゲノム一覧内の構造的変異体（ＳＶ）を分析して行いうる。

【0309】

いくつかの例示的な態様及び実施形態を上記で論じてきたが、当業者には、それらの特定の変形形態、置換形態、追加形態、及び部分結合形態が理解されよう。したがって、添付の特許請求の範囲、及び今後導入される特許請求の範囲は、すべての当該変形形態、置換形態、追加形態、及び部分結合形態をそれらの真の精神及び範囲にあるとして含むと解釈される。

【0310】

実施例５：比較評価

【0311】

本開示のシステム及び方法を、従来技術の呼出と比較した。

【0312】

現在の変異呼出は、低ＴＦレジメンでは機能しない。より具体的には、ＭＵＴＥＣＴは１％ＴＦ未満では機能しない。ｃｔＤＮＡマーカーを同定する適用可能な代替法には、エラー抑制を伴う高カバレッジ標的配列決定（例えば、二本鎖配列決定）が含まれる。技術的方法の例は、Phallen et al. entitled “Direct Detection of Early Stage Cancers Using Circulating Tumor DNA” (Science Translational Medicine, 9, 203, 2017)に示される。Ｐｈａｌｌｅｎらに記載されている方法は、低ＴＦでの感度が限定される（すなわち、１／１０００ＴＦ未満の検出はほとんどない）。ＢｒｏａｄＩｎｓｔｉｔｕｔｅ（ＩＣＨＯＲ）の第２技術的方法にも同様の限界がある。ＩＣＨＯＲ(Adalsteinsson et al. "Scalable whole-exome sequencing of cell-free DNA reveals high concordance with metastatic tumors," Nature communications 8.1, 1324, 2017を参照)は、転移性腫瘍と高い一致を示す。図９に示された比較結果から分かるように、ブロードＩＣＨＯＲ法は、本発明の方法と比較して、感度が有意に低い。特に、本開示の方法及びシステムにより達成される感度の１００倍の増加は、ＩＣＨＯＲ法よりも著しく優れており、予想外に有利である。

【0313】

従って、本開示は以下の非限定的な実施形態に関する。

【0314】

実施形態１：それが必要な被験体の残存病変の検出方法であって、以下の（Ａ）被験体の第１生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料が腫瘍試料及び場合により正常細胞試料を含み、前記遺伝子マーカーの一覧が単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（Ｉｎｄｅｌｓ）、コピー数変異、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（Ｂ）前記被験体の第２生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、第２試料中の遺伝子マーカーの腫瘍関連遺伝子マーカーの全ゲノムワイドの代表を生成する工程；（Ｃ）第１及び第２生物学的試料中のマーカーの前記ゲノムワイド一覧から人工的ノイズマーカーをフィルタリングする工程であって、ここで、前記フィルタリングは、以下の：（ａ）一覧中の各ＳＮＶ又はＩｎｄｅｌを、ノイズ（Ｐ_Ｎ）の検出確率に基づき、（１）前記ＳＮＶを含む読取群のマッピング品質、（２）前記ＳＮＶを含む、読取群の断片サイズ長、（３）前記ＳＮＶ又はindelを含む、読取重複ファミリー内のコンセンサス試験、及び／若しくは４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）、の関数として統計的に分類する工程、並びに／又は（ｂ）（１）セントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、及び／又は（３）ｃｆＤＮＡマスク（ブラックリスト）との重複に基づき、前記一覧中の各ＣＮＶ又はＳＶのウインドウをシグナル又はノイズとして統計的に分類する工程、を含み；（Ｄ）１又はそれ以上の統合的数学的モデルに基づき、第１及び第２の生物学的試料の推定腫瘍画分（ｅＴＦ）を計算する工程；かつ、（Ｅ）推定腫瘍画分がバックグラウンドノイズモデルを用いて計算された経験的閾値を超える場合に、被験体の残存病変を検出する工程、を含む、方法。

【0315】

実施形態２：工程（Ａ）が、患者の腫瘍試料及び正常細胞試料を含む、生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取ることを含む、実施形態１に記載の方法。

【0316】

実施形態３：前記読取群が、特定のＳＮＶ若しくはｉｎｄｅｌ部位をカバーする読取セット、又は特定のＣＮＶ又はＳＶゲノムウインドウに含まれる読取セットを含む、実施形態１又は２に記載の方法。

【0317】

実施形態４：前記腫瘍試料が、スナップ凍結組織、ＯＣＴ包埋組織又はＦＦＰＥを含む、切除された腫瘍又はＦＮＡを含む、実施形態１～３のいずれか１項に記載の方法。

【0318】

実施形態５：前記正常試料が、末梢血単核細胞（ＰＭＢＣ）、又は唾液もしくは皮膚試料を含む、実施形態１～４のいずれか１つに記載の方法。

【0319】

実施形態６：前記複数の遺伝子マーカーが、前記被験体の生物学的試料を配列決定する全ゲノム配列決定により受け取られる、実施形態１～５のいずれか１項に記載の方法。

【0320】

実施形態７：実施形態１～６のいずれか１つに記載の方法であって、前記被験体の前記第１生物学的試料から前記複数の遺伝子マーカーからの遺伝子マーカーの一覧は、高い変異率及び／又は高い数のＣＮＶ又はＳＶを含む、方法。

【0321】

実施形態８：前記高い変異率が、少なくとも１つの体細胞一塩基多型又はｉｎｄｅｌ／メガ塩基対の変異率を含み、高コピー数変異が、累積サイズが少なくとも５メガ塩基対の体細胞ＣＮＶ又はＳＶを含む、実施形態７に記載の方法。

【0322】

実施形態９：前記バックグラウンドノイズモデルは、正常な健常試料における検出の誤差率の測定と、前記誤差率のベースノイズｅＴＦ推定モデルへの変換を含む、実施形態１～８のいずれか１つに記載の方法。

【0323】

実施形態１０：ｅＴＦ推定モデルにより計算される閾値は、１０^－４～１０^－６である、実施形態９に記載の方法。

【0324】

実施形態１１：工程（Ａ）が、被験体の生物学的試料から複数の遺伝子マーカー由来の、体細胞遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程を含み、前記生物学的試料が、腫瘍試料及び正常な細胞試料を含み、工程（Ｂ）が、続いて、被験体の血漿試料を含む第２生物学的試料中の、遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、患者の血漿中の遺伝子マーカーの一時的に更新された腫瘍関連ゲノムワイドの一覧を生成する工程を含む、実施形態１～１１のいずれか１つに記載の方法。

【0325】

実施形態１２：前記正常細胞試料が、ＰＭＢＣ、唾液試料、毛髪試料、又は皮膚試料を含む、実施形態１～１１のいずれか１つに記載の方法。

【0326】

実施形態１３：前記被験体はヒトであり、前記被験体の前記第２生物学的試料は、血液、脳脊髄液、胸水、眼液、便、尿、及びそれらの組み合わせからなる群から選択される生物学的物質である、実施形態１～１２のいずれか１つに記載の方法。

【0327】

実施形態１４：患者の治療中、患者観察中、又は追跡期間中に、前記患者の最小残存病変負荷を定量的に推定する方法であって、以下の：（Ａ）被験体の第１生物学的試料から複数の遺伝子マーカー由来の遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取る工程であって、前記生物学的試料は、腫瘍試料及び場合により正常細胞試料を含み、ここで、遺伝子マーカーの一覧は、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（Ｉｎｄｅｌｓ）、コピー数変異、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択され；（Ｂ）前記被験体の第２生物学的試料から遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、前記第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程；（Ｃ）第１及び第２生物学的試料中のマーカーの前記ゲノムワイド一覧から人工的ノイズマーカーをフィルタリングする工程であって、ここで、前記フィルタリングは、以下の：（ａ）一覧中の各ＳＮＶ又はＩｎｄｅｌを、ノイズ（Ｐ_Ｎ）の検出確率に基づき、（１）前記ＳＮＶを含む読取群のマッピング品質、（２）前記ＳＮＶを含む、読取群の断片サイズ長、（３）前記ＳＮＶ又はindelを含む、読取重複ファミリー内のコンセンサス試験、及び／若しくは４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）、の関数として統計的に分類する工程、並びに／又は（ｂ）（１）セントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、及び／又は（３）ｃｆＤＮＡマスク（ブラックリスト）との重複に基づき、に基づき、前記一覧中の各ＣＮＶ又はＳＶのウインドウをシグナル又はノイズとして統計的に分類する工程、を含み；（Ｄ）１又はそれ以上の統合的数学的モデルに基づき、第１及び第２の生物学的試料の推定腫瘍画分（ｅＴＦ）を計算する工程；かつ、（Ｅ）推定腫瘍画分がバックグラウンドノイズモデルを用いて計算された経験的閾値を超える場合に、被験体の残存病変を検出する工程、を含む、方法。

【0328】

実施形態１５：（Ｅ）が、切除手術後の被験体の残存病変の検出；治療中又は治療後の残存病変の検出；治療の有効性を監視するための残存病変の検出；がんの反復又は再発を監視するための残存病変の検出；又はそれらの組み合わせをさらに含む、実施形態１４に記載の方法。

【0329】

実施形態１６：切除手術が、リンパ節生検、頭部又は頸部手術、子宮又は子宮内膜生検、膀胱生検、乳房切除術、前立腺摘除術、皮膚病変切除術、小腸切除術、胃切除術、開胸術、副腎摘除術、結腸切除術、卵巣摘除術、甲状腺摘除術、子宮摘出術、舌切除術、又は結腸ポリープ切除術を含む、実施形態１５に記載の方法。

【0330】

実施形態１７：治療が、化学療法、免疫療法、標的療法、放射線療法、又はそれらの組み合わせを含む、実施形態１５に記載の方法。

【0331】

実施形態１８：マーカーのＢＱ、ＭＱ及び断片サイズパラメータが、ＲＯＣ曲線を用いて最適化される、実施形態１４～１７のいずれか１つに記載の方法。

【0332】

実施形態１９：組み合わせ塩基品質マッピング品質（ＢＱＭＱ）パラメータを用いることを含む、実施形態１４～１８のいずれか１つに記載の方法。

【0333】

実施形態２０：さらに、被験体の生物学的試料から複数の遺伝子マーカーを受け取る工程であって、前記生物学的試料が腫瘍試料及び正常細胞試料を含み、受け取った複数の遺伝子マーカーから、遺伝子マーカーの被験体特異的ゲノムワイド一覧を生成する工程をさらに含む、実施形態１４～１９のいずれか１つに記載の方法。

【0334】

実施形態２１：さらに、被験体の第３生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出して、被験体の第１生物学的試料中で生成された遺伝子マーカーの被験体特異的ゲノムワイド一覧と比較することを含む、実施形態１４～２０のいずれか１つに記載の方法。

【0335】

実施形態２２：前記第３生物学的試料が、患者血漿中の腫瘍ゲノムワイド遺伝子マーカーの一時的に更新された一覧を生成するために得られた被験体の血漿試料である、実施形態２１に記載の方法。

【0336】

実施形態２３：さらに、バックグラウンドノイズ閾値を経験的に決定する工程を含み、前記バックグラウンドノイズ閾値を超える腫瘍画分は、腫瘍負荷の定量的推定を提供する、実施形態１４～２２のいずれか１つに記載の方法。

【0337】

実施形態２４：前記ノイズ閾値未満の腫瘍画分は、検出されない（Ｎ．Ｄ．）と考える、実施形態１４～２３のいずれか１つに記載の方法。

【0338】

実施形態２５：であって、前記検出は、経時的な定量的モニタリングを含む、実施形態１４～２４のいずれか１つに記載の方法。

【0339】

実施形態２６：腫瘍が、脳腫瘍、肺がん、皮膚がん、鼻がん、咽頭がん、肝臓がん、骨がん、リンパ腫、膵臓がん、皮膚がん、大腸がん、直腸がん、甲状腺がん、膀胱がん、腎臓がん、口腔がん、胃がん、黒色腫、骨肉腫、又は固形腫瘍であり、性質が不均一又は均一である、実施形態１４～２５のいずれか１項に記載の方法。

【0340】

実施形態２７：腫瘍が、肺腺がん、導管腺がん、非小細胞肺がん肺腺がん（ＮＳＣＬＣＬＵＡＤ）、皮膚黒色腫、尿路上皮がん又は骨肉腫である、実施形態１４～２６のいずれか１つに記載の方法。

【0341】

実施形態２８：前記計算工程は、さらに、１）血漿ＳＮＶ又はindel検出の積分シグナル、２）推定ゲノムカバレッジ及び配列決定ノイズモデル、及び／又は３）変異負荷（Ｎ）を含む患者特異的パラメータを含む、確率モデルを積分して、ＳＮＶ又はｉｎｄｅｌマーカーのｅＴＦを計算する工程と、確率的希釈モデルを利用してＣＮＶ又はＳＶマーカーのｅＴＦを計算する工程であって、前記確率的希釈モデルは、１）コピー数の増幅が正に歪められ、コピー数の欠失が負に歪められる、腫瘍ＣＮＶ又はＳＶ方向性と一致するように、血漿及び正常患者試料の間で歪められたカバレッジの方向性深度を積分する工程と、２）腫瘍及び正常（ＰＢＭＣ）患者試料の間で歪められたカバレッジの累積深度を積分する工程と、及び／又は、３）上記シグナル間の希釈比を求める工程とを含む、実施形態１４～２７のいずれか１つに記載の方法。

【0342】

実施形態２９：それが必要な被験体の残存病変を検出するシステムであって、（Ａ）マーカーのゲノムワイド一覧から人工的ノイズマーカーをフィルタリングするように構成されかつ配置された分析ユニットであって、ここで、マーカーの前記ゲノムワイド一覧が被験体の生物学的試料から複数の遺伝子マーカーから生成され、前記生物学的試料が腫瘍試料及び正常細胞試料を含み、ここで、前記遺伝子マーカーの一覧が単一ヌクレオチド変異（ＳＮＶ）、インデル、コピー数変異、ＳＶ及びそれらの組み合わせからなる群より選択され、前記分析ユニットが、さらに、第２生物学的試料中の遺伝子マーカーの被験体特異的ゲノム一覧を検出して、腫瘍ゲノムの一覧を生成する工程を含み、前記分析ユニットはさらに、分類エンジンをさらに含み、ここで、前記分類エンジンは、以下の：（ａ）一覧中の各ＳＮＶ又はＩｎｄｅｌを、ノイズ（Ｐ_Ｎ）の検出確率に基づき、（１）前記ＳＮＶを含む読取群のマッピング品質、（２）前記ＳＮＶを含む、読取群の断片サイズ長、（３）前記ＳＮＶ又はｉｎｄｅｌを含む、読取重複ファミリー内のコンセンサス試験、及び／若しくは４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）、の関数として統計的に分類する工程、並びに／又は（ｂ）（１）セントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、（３）ｃｆＤＮＡデータ中ＣＮＶ又はＳＶウインドウの代表、に基づき、前記一覧中の各ＣＮＶ又はＳＶのウインドウをシグナル又はノイズとして統計的に分類する工程、を含み；（Ｂ）１又はそれ以上の統合的数学的モデルに基づき、試料の推定腫瘍画分（ｅＴＦ）を計算するように構成されかつ配置された演算ユニット、及び（Ｃ）推定腫瘍画分に基づき、被験体の残存病変プロファイルを出力するディスプレイユニットであって、被験体の残存病変が残存に出力される。推定腫瘍画分がバックグラウンドノイズモデルにより計算された経験的閾値を超える場合の疾患プロファイルを含む。

【0343】

実施形態３０：前記演算ユニットは、さらに、確率モデルを統合することによりＳＮＶ又はＩｎｄｅｌマーカーのｅＴＦを計算するように構成され、前記確率モデルは、１）血漿ＳＮＶ又はＩｎｄｅｌ検出の統合シグナル、２）推定ゲノムカバレッジ及び配列決定ノイズモデル含むプロセス品質の測定基準、及び／又は、３）変異負荷（Ｎ）を含む患者特異的パラメータ；及び／又は、確率混合モデルを用いてＣＮＶ又はＳＶマーカーのｅＴＦを計算する工程であって、前記確率的希釈モデルは、以下の：１）腫瘍ＣＮＶ又はＳＶ方向性に一致した、血漿及び正常患者試料の間で歪んだカバレッジの方向性深度を統合する工程であって、コピー数の増幅が正に歪んでおり、コピー数の削除が負に歪み；２）腫瘍及び正常患者試料の間で歪んだカバレッジの累積深度を統合する工程、及び／又は、３）前記シグナルの間で希釈比を見出す工程を含む、前記システム又は方法。

【0344】

実施形態３１：前記演算ユニット（Ｂ）は、プロセッサを含み、前記プロセッサは、前記コンピュータ可読命令を実行するように構成され、実行され場合、以下の統合的数学的モデル（１）(1) eTF[SNV]=1-[1-(M-E(σ)*R)/N]^(1/cov)前記試料の腫瘍分率（ｅＴＦ）を推定し、ここで、Ｍは、患者血漿試料中の腫瘍特異的ＳＮＶ群検出数であり、σは、経験的に推定された誤差率の尺度であり、Ｒは、ＳＮＶ群被験体領域（ＲＯＩ）中の固有の読取の総数であり、Ｎは、腫瘍変異負荷であり、ｃｏｖは、ＳＮＶ群ＲＯＩ中部位当たりの固有の読取の平均数であり；及び／又は（２）eTF[CNV]=(sum_{i}[(P(i)-N(i))*sign[T(i)-N(i)]]-E(sigma))/(sum_{i}[abs(T(i)-N(i))]-E(σ))であり、ここでＰは、血漿の深度のカバレッジを表す｛ｉ｝により索引付けられたゲノムウインドウにおける深度のカバレッジの中央値であり、正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法のいずれかにより正規化されたもの；Ｔは、腫瘍の深度のカバレッジを表す｛ｉ｝により索引付けられたゲノムウインドウにおける深度の中央値であり、正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法のいずれかにより正規化されたもの；Ｎは、安定ｚスコア法又は安定ＰＣＡ法のいずれかにより索引付けられた正常深度のカバレッジを表すゲノムウインドウにおける深度の中央値であり、正常試料のコホートと比較して安定ｚスコア法又は安定ＰＣＡ法のいずれかにより正規化されたもの；及び｛ｉ｝は、患者に特異的な増幅及び欠失ゲノムセグメントをカバーするすべてのゲノムウインドウをカウントする離散的な指数化値である、の１又はそれ以上に基づく、実施形態３０に記載のシステム又は方法。

【0345】

実施形態３２：コンピュータ実行可能命令を含むコンピュータ可読媒体であって、プロセッサにより実行されると、残存病変の検出のための方法又は一組の工程をプロセッサに実行させるコンピュータ可読媒体であって、前記方法及び一組の工程は、以下の：（Ａ）被験体の生物学的試料から複数の遺伝子マーカーから遺伝子マーカーの被験体特異的ゲノムワイド一覧を受け取り、前記生物学的試料は、腫瘍試料及び場合により正常細胞試料を含み、ここで、前記遺伝子マーカーの一覧が、単一ヌクレオチド変異（ＳＮＶ）、短い挿入及び欠失（Ｉｎｄｅｌｓ）、コピー数変異、構造的変異（ＳＶ）及びそれらの組み合わせからなる群から選択される；（Ｂ）被験体の第２生物学的試料中の遺伝子マーカーの被験体特異的ゲノムワイド一覧を検出し、第２試料中の腫瘍関連ゲノムワイドの遺伝子マーカーの一覧を生成すること；（Ｃ）一覧中の各ＳＮＶ又はＩｎｄｅｌを、ノイズ（Ｐ_Ｎ）の検出確率に基づき、（１）前記ＳＮＶを含む読取群のマッピング品質、（２）前記ＳＮＶを含む、読取群の断片サイズ長、（３）前記ＳＮＶ又はindelを含む、読取重複ファミリー内のコンセンサス試験、及び／若しくは４）ＳＮＶ又はＩｎｄｅｌの塩基品質（ＢＱ）、の関数として統計的に分類する工程、並びに／又は（１）セントロメアに対するその位置、２）ＣＮＶ又はＳＶウインドウを含む読取群のマッピング品質（ＭＱ）、及び／又は（３）ｃｆＤＮＡマスク（ブラックリスト）との重複に基づき、マーカーの前記ゲノムワイド一覧から人工的ノイズマーカーをフィルタリングすること；Ｄ）１又はそれ以上の統合的数学的モデルに基づき生物学的試料の推定腫瘍画分（ｅＴＦ）を算出すること、及び（Ｅ）推定腫瘍画分及びバックグラウンドノイズモデルにより算出された経験的閾値に基づき、被験体の残存病変を診断することを含む。

【0346】

実施形態３３：被験体における微小残存病変を検出する方法であって、以下の（Ａ）被験体から受け取った複数の生物学的試料から配列決定された遺伝子データ中の読取のゲノムワイド一覧を受け取る工程と、（Ｂ）被験体からの腫瘍及び末梢血単核細胞（ＰＢＭＣ）試料を呼出す変異を実施する工程であって、前記呼出変異は、個別化された参照セットとしての体細胞性ＳＮＶ（ｓＮＶ）又はインデルの被験体特異的読取を生成するよう呼出すＭＵＴＥＣＴ、ＬＯＦＲＥＱ及び／又はＳＴＲＥＬＫＡ変異を含み、（Ｃ）前記被験体特異的体細胞性ＳＮＶ（ｓＮＶ）又はインデルから前記読取を収集及びフィルタリングする工程であって、（１）低マッピング品質の読取（例えば、ＲＯＣ＜２９、最適化）を除去する工程、（２）同一ＤＮＡ断片の複数のＰＣＲ／配列決定コピーを構築する工程、（２）複製ファミリー（同一DNA断片の複数のPCR/配列決定コピーを表す）を構築し、コンセンサステストに基づいて補正されたリードを生成する工程、（３）低塩基品質の読取（例えば、＜２１、ＲＯＣ最適化）を除去する工程；及び、（４）断片サイズの大きい読取（例えば、＞１６０、ＲＯＣ最適化）を除去する工程を含み、（Ｄ）腫瘍と全く同一の置換がある少なくとも１つの支持読取（フィルタリングされたセット内）がある被験体特異的変異部位の数を計算する工程；（Ｆ）数学的モデルｅＴＦ［ＳＮＶ］＝１－［１－（Ｍ－Ｅ（σ）＊Ｒ）／Ｎ］＾（１／ｃｏｖ）（式１）に基づき、ＳＮＶの腫瘍率を推定する工程であって、ここで、Ｍは患者試料中の腫瘍特異的一覧検出数、σは経験的に推定されたノイズの尺度、Ｒは関心領域（ＲＯＩ）中の固有の読取の総数、Ｎは腫瘍変異負荷、ｃｏｖはＲＯＩ中の一部位あたりの固有の読取の平均数であり；Ｇ）健常試料からの経験的に測定された基礎ノイズＴＦ推定値からなる検出閾値に対してｅＴＦ［ＳＮＶ］を比較する工程であって、ここで、閾値レベルを超えるｅＴＦ［ＳＮＶ］（例えば、ノイズＴＦ分布の２標準偏差（ＦＰＲ＜２．５％）を超えるｅＴＦ［ＳＮＶ］は陽性検出を示す；かつ、（Ｋ）検出閾値レベルを超えるｅＴＦ推定に基づき、被験体における残存疾患を検出する工程を含む。

【0347】

実施形態３４：被験体における微小残存病変を検出するための方法であって、以下の：（Ａ）被験体から受け取った複数の生物学的試料から配列決定されたゲノムワイドの一覧を受け取る工程であって、前記複数の生物学的試料が腫瘍試料、正常試料及び血漿試料を含み、；（Ｂ）被験体からの腫瘍及び末梢血単核細胞（ＰＢＭＣ）試料上でＣＮＶ又はＳＶの呼出を実行し、閾値の長さ（例えば、＞２Ｍｂｐ、好ましくは＞５Ｍｂｐ）を超えるＣＮＶまたはＳＶセグメントまたはＳＶの複数の参照セグメンテーションを生成し、セグメントの方向性をアノテーションし、ここで、増幅はポジティブにアノテーションされ、欠失はネガティブにアノテーションされ、；Ｃ）患者特異的なＣＮＶ又はＳＶセグメンテーションの関心領域（ＲＯＩ）をカバーする血漿、腫瘍、及びＰＢＭＣ試料用の単一ｂｐ深度カバレッジ情報を収集する工程；Ｄ）患者特異的ＣＮＶ又はＳＶセグメンテーションＲＯＩを５００ｂｐのウインドウに分割し、すべての試料及びウインドウの中央値（人工的抑制）を計算する工程；Ｅ）（ａ）試料毎の安定ｚスコア正規化、及び／又は（２）安定主成分分析（ＲＰＣＡ）を用いてすべての５００ｂｐウインドウの正規化された深度カバレッジ情報を生成する工程；（Ｆ）患者特異的セグメンテーションからウインドウをフィルタリングする工程であって、フィルタリングは以下の：（１）低マッピング品質の読取（例えば、ＲＯＣ＜２９、最適化）の除去；及び／又は（２）セントロメア領域の除去（例えば、正規化正常値が１０を超えるウインドウの除去）；（３）ｃｆＤＮＡ中の非表出領域の除去（例えば、複数のｃｆＤＮＡ試料を含むｃｆＤＮＡ表出マスクに含まれないウインドウの除去）を含み；（Ｇ）数学的モデルｓｕｍｉ［（Ｐ（ｉ）－Ｎ（ｉ）＊ｓｉｇｎ［Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（σ）（式２）を用いて、血漿と正常（ＰＢＭＣ）患者試料間のカバレッジ深度を積分する工程であり、ここで、Ｐは、正常試料のコホートと比較して、安定ｚスコア法又は安定ＰＣＡ法のいずれかで正規化された、血漿深度カバレッジを表す｛ｉ｝で指数化されたゲノムウインドウ内の深度カバレッジの中央値、Ｅ（シグマ）は、経験的に推定された誤差率の尺度、Ｔは、正常試料のコホートと比較して、安定ｚスコア法又は安定ＰＣＡ法によって正規化された、腫瘍の深度カバレッジを表す｛ｉ｝で指数化されたゲノムウインドウ内の深度の中央値であり、Ｎは、正常試料のコホートと比較して、安定ｚスコア法又は安定ＰＣＡ法によって正規化された、正常な深度カバレッジを表す｛ｉ｝で指数化されたゲノムウインドウ内の深度の中央値であり；（Ｈ）数学的モデルｓｕｍｉ［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ）］－Ｅ（σ）］（式３）を用いて、腫瘍と正常（ＰＢＭＣ）患者試料の間で歪んだ累積カバレッジ深度を積分する工程であって、ここで、Ｔ、ＮおよびＥ（σ）は、上記の通りであり；（Ｉ）ＣＮＶ又はＳＶの推定腫瘍率に対応する（Ｇ）の方向性深度カバレッジと累積深度カバレッジ（Ｈ）との間の希釈比を（ｅＴＦ［ＣＮＶ］）＝（ｓｕｍｉ［（Ｐ（ｉ）－Ｎ（ｉ）＊ｓｉｇｎ［Ｔ（ｉ）－Ｎ（ｉ）］］－Ｅ（σ））／（ｓｕｍｉ［ａｂｓ（Ｔ（ｉ）－Ｎ（ｉ））］－Ｅ（σ））（式４）で計算する工程；
（Ｊ）健常試料から経験的に測定された基礎ノイズＴＦ推定値からなる検出閾値に対してｅＴＦ［ＣＮＶ］を比較する工程であって、閾値レベル（例えば、ノイズＴＦ分布の２標準偏差（ＦＰＲ＜２．５％））を超えるｅＴＦ［ＣＮＶ］は、陽性検出を示すことを示し；かつ、（Ｋ）検出閾値レベルを超えるｅＴＦ推定値に基づいて、被験体の残存病変を検出する工程、を含む。

【0348】

実施形態３５：それが必要な被験体の残存病変の検出方法であって、以下の：（Ａ）被験体の第１生物学的試料から遺伝子マーカーに関連する読取の第１被験体特異的ゲノムワイド一覧を受け取る工程であって、前記第１生物学的試料はベースライン試料及び正常細胞試料を含み、各々が単一塩基対長の読取一覧を含み、ベースライン試料が腫瘍試料又は血漿試料を含み；（Ｂ）前記第１一覧から人工的部位をフィルタリングする工程であって、前記フィルタリング工程は、遺伝子マーカーの第１一覧から、参照健常試料のコホート上で生成された反復部位を除去する工程、及び／又は正常細胞試料の末梢血単核細胞中の生殖細胞系変異を同定する工程と、前記生殖細胞系変異を除去する工程を含み、（Ｃ）被験体の第２生物学的試料中の遺伝子マーカーの第２被験体特異的ゲノムワイド一覧を検出し、前記第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイド一覧を生成する工程；（Ｄ）読取の第１及び第２のゲノムワイド一覧から、少なくとも１つのエラー抑制プロトコルを用いて、ノイズをフィルタリングし、第１ゲノムワイド読取一覧用の第１フィルタ読取一覧及び第２ゲノムワイド読取一覧用の第２フィルタ読取一覧を生成する工程であって、ここで、少なくとも１つのエラー抑制プロトコルが、（ａ）第１及び第２の抑制一覧におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、前記変異を除去し、その確率が、マッピング品質（ＭＱ）、変異体塩基品質（ＭＢＱ）、位置読取における塩基品質（ＰＩＲ）、平均読取における塩基品質（ＭＲＢＱ）及びそれらの組み合わせからなる群から選択される特徴の関数として計算され、及び／又は（ｂ）ポリメラーゼ連鎖反応又は配列決定法から生成された同一のＤＮＡ断片の独立した複製間の不一致試験、及び／又は重複コンセンサスを用いて、偶発的変異を除去し、ここで、人工的変異が同定され、与えられた複製ファミリーの大部分にわたり一致がない場合に削除され；（Ｅ）バックグラウンドノイズモデルを１又はそれ以上の統合的数学的モデルに適用して、第１及び第２のフィルタリングされた読取セットを用いて、第１及び第２の生物学的試料の推定腫瘍率（ｅＴＦ）を計算する工程；及び、（Ｆ）第２生物学的試料中の推定腫瘍画分が経験的閾値を超える場合に、被験体の残存病変を検出する工程、を含む。

【0349】

実施形態３６：それが必要な被験体の残存病変を検出する方法であって、以下の：（Ａ）被験体の第１生物学的試料から遺伝子マーカーに関連する読取の第１被験体特異的ゲノムワイドの一覧を受け取る工程であって、前記第１生物学的試料ベースライン試料を含み、前記第１読取一覧は各々、コピー数変異（ＣＮＶ）又は構造的変異（ＳＶ）を含み、前記ベースライン試料が腫瘍試料又は血漿試料を含み；（Ｂ）被験体の第２生物学的試料から遺伝子マーカーに関連する読取の第２被験体特異的ゲノムワイド一覧を受け取る工程であって、前記第２生物学的試料が末梢血単核細胞試料（ＰＢＭＣ）を含み、前記遺伝子マーカーの第２一覧は各々ＣＮＶ又はＳＶを含み、；（Ｃ）第１及び第２の読取一覧から人工的部位をフィルタリングする工程であって、前記フィルタリングは、第１及び第２の読取一覧から、参照健常試料のコホート上で生成された反復部位を除去する工程；第１及び第２の一覧の間の共有ＣＮＶ／ＳＶを生殖細胞系変異として同定して、及び前記変異を読取の第１及び第２一覧から除去する工程を含み；（Ｄ）被験体の第３生物学的試料中の第３遺伝子マーカーの被験体特異的ゲノムワイド一覧から読取を検出して、第３試料中の腫瘍関連ゲノムワイドの遺伝子マーカーの一覧を生成する工程；（Ｅ）読取の第１ゲノムワイドの一覧に対する第１フィルタリング済み読取セット、第２ゲノムワイドの一覧に対する第２フィルタリング済み読取セット、及び、第３ゲノムワイドの読取り一覧に対する第３フィルタリング済み読取セットを作成するために、読取の第１、第２及び第３一覧の各々を正規化する工程；（Ｆ）バックグラウンドノイズモデルを１つ以上の統合的数学的モデルに適用して、第３フィルタリング済み読取セットを用いて、第３生物学的試料の推定腫瘍率（ｅＴＦ）を計算して、１又はそれ以上のモデルは、第１フィルタリング済み読取セットを用いて第１ｅＴＦを生成し、及び／又は、１又はそれ以上のモデルは、第２フィルタリング済み読取セットを用いて第２ｅＴＦを生成し；かつ（Ｇ）前記第３生物学的試料中の推定腫瘍率が経験的閾値を超えた場合、前記被験体の残存疾患を検出する工程、を含む。

【0350】

実施形態３７：それが必要な被験体の残存病変を検出するシステムであって、分析ユニットであって、前記分析ユニットが、被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド読取一覧を受け取り、ここで、前記第１生物学的試料がベースライン試料及び正常試料を含み、前記第１読取一覧が各々単一塩基対長の読取を含み、前記ベースライン試料が腫瘍試料又は血漿試料を含み、かつ前記第１読取一覧から人工的部位をフィルタリングする、ように構成されかつ配置されたプレフィルタエンジンであって、前記フィルタリングが、遺伝子マーカーの第１一覧から、参照健常試料のコホート上で生成された反復部位を除去すること、及び／又は、前記正常細胞試料の末梢血単核細胞における生殖細胞変異を同定すること、及び、遺伝子マーカーの第１一覧から前記生殖細胞系列から前記生殖細胞系列変異を除去することを含み；並びに、被験体の第２生物学的試料中の遺伝子マーカーの第２被験体特異的ゲノムワイド一覧からの読み取りを受け取り、第２試料中の遺伝子マーカーの腫瘍関連ゲノムワイド表現を生成し、かつ、少なくとも１つのエラー抑制プロトコルを用いて、第１ゲノムワイド読取の一覧用の第１フィルタリング済み読取セット、及び第２ゲノムワイド読取の一覧用の第２フィルタリング済み読取セットを生成する読取の一覧の第１及び第２のゲノムワイド読取の一覧からノイズをフィルタリングするように構成されかつ配置された補正エンジンとを含む、分析ユニットであって、ここで、少なくとも１つのエラー抑制プロトコルが、（ａ）第１及び第２の抑制一覧におけるいかなる単一ヌクレオチド変異が人工的変異である確率を計算し、前記変異を除去し、その確率が、マッピング品質（ＭＱ）、変異体塩基品質（ＭＢＱ）、位置読取における塩基品質（ＰＩＲ）、平均読取における塩基品質（ＭＲＢＱ）及びそれらの組み合わせからなる群から選択される特徴の関数として計算され、及び／又は（ｂ）ポリメラーゼ連鎖反応又は配列決定法から生成された同一のＤＮＡ断片の独立した複製間の不一致試験、及び／又は重複コンセンサスを用いて、偶発的な変異を除去し、ここで、人工的変異が同定され、与えられた複製ファミリーの大部分にわたり一致がない場合に削除され；かつ、
１又はそれ以上の統合的数学的モデルにバックグラウンドノイズモデルを適用、第１及び第２のフィルタリング済み読取セットを用いて、第１及び第２の生物学的試料の推定腫瘍率（ｅＴＦ）を計算し、第２生物学的試料中の推定腫瘍率が経験的閾値を超える場合、被験体の残存病変を検出する、演算ユニットを含む。

【0351】

実施形態３８：それが必要な被験体の残存病変を検出するシステムであって、以下の：被験体の第１生物学的試料から遺伝子マーカーに関連する第１被験体特異的ゲノムワイド一覧を受けとり；被験体の第２生物学的試料から遺伝子マーカーに関連する第２被験体特異的ゲノムワイドの一覧を受け取り、前記第２生物学的試料が末梢血単核細胞試料（ＰＢＭＣ）を含み、前記遺伝子マーカーの第２一覧各々は、コピー数変異（ＣＮＶ）を含み；かつ、第１及び第２の読取一覧からの人工的部位のフィルタリングをするように構成されかつ配置されたプレフィルタエンジンであって、前記フィルタリングが、遺伝子マーカーの第１一覧から、参照健常試料のコホート上で生成された反復部位を除去すること、及び／又は、前記正常細胞試料の末梢血単核細胞における生殖細胞変異を同定すること、及び、遺伝子マーカーの第１一覧から前記生殖細胞系列から前記生殖細胞系列変異を除去することを含み；並びに、被験体の第２生物学的試料中の第３遺伝子マーカーの被験体特異的ゲノムワイド一覧由来の読取を受け取り、第３試料中の腫瘍関連ゲノムワイドの遺伝子マーカーの表現を生成し；第１、第２及び第３一覧の各々を正規化して、第１ゲノムワイドの一覧の読取り、第２ゲノムワイドの読取りの一覧用の第２フィルタリング済み読取りセット、及び第３ゲノムワイドの読取りの一覧用の第３フィルタリング済み読取りセットを生成るように構成され配列された補正エンジン；並びに、バックグラウンドノイズモデルを１又はそれ以上の統合的数学的モデルに適用することにより、第３生物学的試料の推定腫瘍率（ｅＴＦ）を計算するように構成され配列された演算ユニットを含むシステムであって、前記１又はそれ以上のモデルは、第１フィルタリング済み読取りセットを用いて第１ｅＴＦを生成し、及び／又は前記１又はそれ以上のモデルは、第２フィルタリング済み読取りセットを用いて第２ｅＴＦを生成し、前記第３生物学的試料中の推定腫瘍率が経験的閾値を超えた場合、前記被験体の残存疾患を検出する。

【0352】

実施形態３９：マーカーが単一ヌクレオチド変異（ＳＮＶ）又は挿入／欠失（インデル）；好ましくはＳＮＶを含む、実施形態３５の方法。

【0353】

実施形態４０：であって、参照健常試料のコホート上で生成された反復部位をフィルタリングすることは、正常（ＰＯＮ）ブラックリスト又はマスクのパネルを生成することを含む、実施形態３５及び３９に記載の方法。

【0354】

実施形態４１：正常試料が末梢血単核細胞（ＰＢＭＣ）を含み、ＰＢＭＣにおける生殖細胞系変異が、人工的部位フィルタリング工程（Ｂ）において除去される、実施形態３５及び３９～４０のいずれかに記載の方法。

【0355】

実施形態４２：工程（Ａ）では、第１生物学的試料が、手術前又は治療前に被験体から得られる血漿試料を含む、実施形態３５及び３９～４１のいずれかに記載の方法。

【0356】

実施形態４３：工程（Ｃ）では、第２生物学的試料が、治療後又は手術後の同一の被験体から得られる血漿試料を含む、実施形態３５及び３９～４２のいずれかに記載の方法。

【0357】

実施形態４４：工程（Ｄ）が、機械学習（ＭＬ）アルゴリズム、例えば、深層畳込ニューラルネットワーク（ＣＮＮ）、リカレントニューラルネットワーク（ＲＮＮ）、無作為フォレスト（ＲＦ）、サポートベクタマシン（ＳＶＭ）、判別分析、最隣接分析（ＫＮＮ）、アンサンブル分類器、又はそれらの組み合わせ；好ましくは、サポートベクタマシン（ＳＶＭ）を用いて人工的ノイズをフィルタリングすることを含む、実施形態３５及び３９から４３のいずれかの方法。

【0358】

実施形態４５：工程（Ｄ）では、第２エラー抑制工程が、同一の元の核酸断片の独立した複製の比較を用いて、ＰＣＲ又は配列決定により生成された人工的変異の補正を含む、実施形態３５及び３９～４４のいずれかに記載の方法。

【0359】

実施形態４６：工程（Ｄ）では、前記第２エラー抑制工程が、対－末端１５０ｂｐ配列決定により生成された人工的変異の補正を含み、その結果、重複する対読取（Ｒ１及びＲ２）が生じ、Ｒ１及びＲ２対間の不一致が、対応する参照ゲノムに戻される、実施形態４５の方法。

【0360】

実施形態４７：工程（Ｄ）では、前記第２エラー抑制工程は、配列決定及び／又はＰＣＲ増幅の間に生成された重複ファミリーの修正を含み、前記重複ファミリーは、５’及び３’類似性並びにアラインメント位置により認識され、各重複ファミリーは、独立した複製にわたる特定の変異のコンセンサスをチェックするために用いられ、それにより、前記重複ファミリーの大部分で一致がないアーチファミリーの変異を修正する、実施形態３５及び３９から４６のいずれかの方法。

【0361】

実施形態４８：工程（Ｅ）では、数学的モデルが、カバレッジ、変異負荷、検出された変異数及び腫瘍画分（ＴＦ）の間の関係を統合する、実施形態３５及び３９～４７のいずれかの方法。

【0362】

実施形態４９：工程（Ｅ）では、バックグラウンドノイズの計算は、（１）健常な血漿試料のコホート（パネル－オブ－ノーマル又はＰＯＮ）にわたって予測されるノイズ分布、又は（２）他の患者にわたって予測されるノイズ分布（患者間分析）を計算するために、患者特異的変異パターンを用いることを含む、実施形態３５及び３９～４８のいずれかの方法。

【0363】

実施形態５０：バックグラウンドノイズモデルが、人工的変異検出率の推定平均及び標準偏差（μ、σ）を提供する、実施形態４９の方法。

【0364】

実施形態５１：断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、実施形態３５～５０のいずれかに記載の方法。

【0365】

実施形態５２：腫瘍特異的マーカー及び無作為マーカーのリスト中の患者内断片サイズシフトが、統計学的方法、例えば有意性又はギャッサン混合モデル（ＧＭＭ）を用いて分析される、実施形態５１の方法。

【0366】

実施形態５３：マーカーがコピー数変異（ＣＮＶ）を含む、実施形態３６の方法。

【0367】

実施形態５４：参照健常試料のコホート上で生成された反復部位をフィルタリングすることが、正常（ＰＯＮ）ブラックリスト又はマスクのパネルを生成することを含む、実施形態３６及び３７のいずれか１つの方法。

【0368】

実施形態５５：前記ＰＢＭＣ中の生殖細胞系イベントが、前記人工的部位フィルタリング工程（Ｃ）において除去される、実施形態３６及び５３～５４のいずれかに記載の方法。

【0369】

実施形態５６：工程（Ａ）では、第１生物学的試料が、手術前又は治療前に被験体から得られた血漿試料を含み、第２生物学的試料が、手術前又は治療前に同じ被験体から得られたＰＢＭＣを含む、実施形態３６及び５３～５５のいずれかの方法。

【0370】

実施形態５７：工程（Ｃ）では、前記第３生物学的試料が、治療後又は手術後の同一の被験体から得られる血漿試料を含む、実施形態３６及び５３～５６のいずれかに記載の方法。

【0371】

実施形態５８：工程（Ｃ）では、体細胞腫瘍ＣＮＶ（ｓＴ＿ＣＮＶ）及び体細胞ＰＢＭＣ＿ＣＮＶ（ｓＰ＿ＣＮＶ）のすべてのゲノムセグメントを含む関心領域（ＲＯＩ）をビニングする工程と、追跡血漿試料から各ウインドウにおける深度カバレッジ（読取カウント）を推定する工程と、ウインドウ当たりの深度カバレッジの中央値を計算する工程とを含む、実施形態３６及び５３～５７のいずれかの方法。

【0372】

実施形態５９：前記フォローアップ血漿試料は、手術後、治療中、又はフォローアップ時に得られる、実施形態３６及び５３～５８のいずれかに記載の方法。

【0373】

実施形態６０：前記正規化工程は、ビンワイズＧＣ分画及びマッピング性スコア上で２つのＬＯＥＳＳ回帰曲線フィッティングを実施することにより、ＧＣ内容バイアス及びマッピング性バイアスを補正するために、深度カバレッジ値を正規化する工程を含む、実施形態３６及び５３～５９のいずれかに記載の方法。

【0374】

実施形態６１：前記正規化工程は、各試料に別々に適用される安定ｚスコア正規化を用いるバッチ効果補正を含む、実施形態３６及び５３～６０のいずれかに記載の方法。

【0375】

実施形態６２：前記ｚスコアの正規化が、各試料の中性領域に基づく中央値及び中央値絶対偏差（ＭＡＤ）の計算を含み、すべてのＣＮＶビンを正規化することが、中央値を差分することにより正規化され、ＭＡＤにより差分を除することにより、実施例６２に記載の方法。

【0376】

実施形態６３：工程（Ｅ）が、正常（ＰＯＮ）健常な血漿試料のパネルと比較して、前記第３試料における深度カバレッジスキュー及び／又は断片サイズ質量中心（ＣＯＭ）スキューを計算する工程を含む、実施形態３６及び５３～６２のいずれかの方法。

【0377】

実施例６４：工程（Ｅ）が、腫瘍試料において検出された累積シグナルと比較して、追跡血漿試料において検出された累積シグナルの間の線形希釈比をチェックすることにより、腫瘍画分を計算することを含む、実施形態３６及び５３～６３のいずれかの方法。

【0378】

実施例６５：工程（Ｆ）では、バックグラウンドノイズの計算は、（１）健常な血漿試料のコホート（正常のパネル又はＰＯＮ）にわたって予測されるノイズ分布、又は（２）他の患者にわたって予測されるノイズ分布（患者間分析）を計算するために、患者特異的ＣＮＶ／ＳＶパターンを用いることを含む、実施形態３６及び５３～６４のいずれかの方法。

【0379】

実施形態６６：バックグラウンドノイズモデルが、人工的ＳＮＶ／ＳＶ検出率の推定平均及び標準偏差（μ、σ）を提供する、実施例６５の方法。

【0380】

実施形態６７：断片サイズシフトを含む二次的特徴の直交的統合をさらに含む、実施形態３６及び５３～６６のいずれかに記載の方法。

【0381】

実施形態６８：ＣＮＶセグメント中の深度カバレッジスキューと断片サイズスキューとの間の相関を分析して、例えば、一般化線形モデルを用いて腫瘍画分を推論する、実施例６７の方法。

【0382】

便宜上、本明細書、実施例及び特許請求の範囲において用いられる特定の用語をここに集める。別段の定義がない限り、本開示において用いられるすべての技術的及び科学用語は、本開示が属する技術分野の当業者により一般的に理解されるのと同じ意味である。

【0383】

本開示を通して、様々な特許、特許出願及び刊行物が参照される。当該特許、特許出願、アクセションされた情報（例えば、ＰＵＢＭＥＤ、ＰＵＢＣＨＥＭ、ＮＣＢＩ、ＵＮＩＰＲＯＴ、又はＥＢＩアクセション番号により識別されるもの）及びそれらの全体の刊行物の開示は、本開示の日付において当業者に知られている技術水準をより完全に説明するために、参照により本開示に組み込まれる。本開示は、引用された特許、特許出願及び刊行物と本開示との間に矛盾がある場合に適用される。

【図1A】