特表2023-510318 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ　チャイニーズ　ユニバーシティ　オブ　ホンコンの特許一覧 ▶ グレイル，リミティドライアビリティカンパニーの特許一覧

特表2023-510318無細胞試料の二末端ＤＮＡ断片タイプおよびその用途

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5A-B
5C-D
6A-B
6C-D
7A-B
7C-D
8A-B
8C-D
9A-B
9C-D
10A-B
10C-D
11A-B
11C-D
12A-B
12C-D
13A-B
13C-D
14A-B
14C-D
15A-B
15C-D
16A-B
16C-D
17A-B
17C-D
18
19A-B
19C-D
20A-B
20C
21A-B
21C-D
21E-F
22A-B
22C-D
22E-F
23
24
25
26
27
28
29
30
31
32
33A-B
33C-D
34A-B
34C-D
35A-B
35C-D
36A-B
36C-D
37A-B
37C-D
38A-B
38C-D
39A-B
39C-D
40A-B
40C-D
41A-B
41C-D
42A-B
42C-D
43A-B
43C-D
44
45
46
47
48
49A
49B
50A
50B
51
52
53
54A-B
54C
55
56
57
58
59
60
61
62

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2023-03-13

(54)【発明の名称】無細胞試料の二末端ＤＮＡ断片タイプおよびその用途

(51)【国際特許分類】

G16B 30/10 20190101AFI20230306BHJP

C12Q 1/68 20180101ALI20230306BHJP

C12Q 1/6813 20180101ALI20230306BHJP

C12N 15/10 20060101ALI20230306BHJP

C12N 15/11 20060101ALI20230306BHJP

C12Q 1/6827 20180101ALI20230306BHJP

C12Q 1/6869 20180101ALI20230306BHJP

【ＦＩ】

G16B30/10

C12Q1/68

C12Q1/6813 Z

C12N15/10 100Z

C12N15/11 Z

C12Q1/6827

C12Q1/6869 Z

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2022542231

(86)(22)【出願日】2021-01-07

(85)【翻訳文提出日】2022-07-08

(86)【国際出願番号】 CN2021070628

(87)【国際公開番号】W WO2021139716

(87)【国際公開日】2021-07-15

(31)【優先権主張番号】62/958,676

(32)【優先日】2020-01-08

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

【公序良俗違反の表示】

（特許庁注：以下のものは登録商標）

１．ＪＡＶＡ

２．ＳＷＩＦＴ

３．ＰＹＴＨＯＮ

(71)【出願人】

【識別番号】512037244

【氏名又は名称】ザチャイニーズユニバーシティオブホンコン

(71)【出願人】

【識別番号】522380594

【氏名又は名称】グレイル，リミティドライアビリティカンパニー

(74)【代理人】

【識別番号】100099759

【弁理士】

【氏名又は名称】青木篤

(74)【代理人】

【識別番号】100123582

【弁理士】

【氏名又は名称】三橋真二

(74)【代理人】

【識別番号】100117019

【弁理士】

【氏名又は名称】渡辺陽一

(74)【代理人】

【識別番号】100141977

【弁理士】

【氏名又は名称】中島勝

(74)【代理人】

【識別番号】100138210

【弁理士】

【氏名又は名称】池田達則

(74)【代理人】

【識別番号】100196977

【弁理士】

【氏名又は名称】上原路子

(72)【発明者】

【氏名】ローユク－ミンデニス

(72)【発明者】

【氏名】チウロッサワイクン

(72)【発明者】

【氏名】ハンダイアナシャオチョン

(72)【発明者】

【氏名】ニーモン

【テーマコード（参考）】

4B063

【Ｆターム（参考）】

4B063QA13

4B063QA19

4B063QQ02

4B063QQ08

4B063QQ28

4B063QQ42

4B063QQ62

4B063QR08

4B063QR32

4B063QR42

4B063QR72

4B063QR77

4B063QS03

4B063QS34

4B063QS36

4B063QX01

(57)【要約】

これは、試料の特性（例えば、臨床的関連ＤＮＡの画分濃度）を測定するため、および／またはそのような測定に基づいて生物の病理を決定するために、生物の生物学的試料における無細胞ＤＮＡ断片の末端モチーフ対の量（例えば、相対頻度）を測定するための技術を記載する。異なる組織タイプは、末端モチーフ対の相対頻度について異なるパターンを示す。これは、例えば、様々な組織からの無細胞ＤＮＡの混合物における、無細胞ＤＮＡの末端モチーフ対の相対頻度の測定のための様々な使用を提供する。ある特定の組織に由来するＤＮＡは、臨床的関連ＤＮＡと称され得る。
【選択図】なし

【特許請求の範囲】

【請求項1】

対象の生物学的試料を分析する方法であって、前記生物学的試料が、無細胞ＤＮＡを含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞ＤＮＡ断片の各々について、前記無細胞ＤＮＡ断片の前記末端配列についての配列モチーフの対を決定することと、
前記複数の無細胞ＤＮＡ断片の前記末端配列に対応する１つ以上の配列モチーフ対のセットの１つ以上の相対頻度を決定することであって、配列モチーフ対の相対頻度が、前記配列モチーフ対に対応する末端配列の対を有する前記複数の無細胞ＤＮＡ断片の割合を提供する、相対頻度を決定することと、
前記１つ以上の配列モチーフ対のセットの前記１つ以上の相対頻度の集計値を決定することと、
前記集計値と参照値との比較に基づいて、前記対象についての病理のレベルの分類を決定することと、を含む、方法。

【請求項2】

１つ以上の基準を使用して前記無細胞ＤＮＡをフィルタリングして、前記複数の無細胞ＤＮＡ断片を同定することをさらに含む、請求項１に記載の方法。

【請求項3】

前記病理が、ＨＢＶまたは肝硬変である、請求項１または２に記載の方法。

【請求項4】

前記病理が、自己免疫障害である、請求項１または２に記載の方法。

【請求項5】

前記自己免疫障害が、全身性エリテマトーデスである、請求項４に記載の方法。

【請求項6】

前記病理が、がんである、請求項１または２に記載の方法。

【請求項7】

前記がんが、肝細胞がん、肺がん、乳がん、胃がん、多形性神経膠芽細胞腫、膵臓がん、結腸直腸がん、上咽頭がん、および頭頸部扁平上皮細胞がんである、請求項６に記載の方法。

【請求項8】

前記分類が、がんの複数のステージを含むがんの複数のレベルから決定される、請求項６または７に記載の方法。

【請求項9】

前記分類が、前記対象ががんを有することであり、前記方法が、
前記複数の無細胞ＤＮＡ断片の前記末端配列に対応する１つ以上の追加の配列モチーフ対のセットの相対頻度の１つ以上の追加の相対頻度を決定することと、
前記１つ以上の追加の配列モチーフ対のセットの前記１つ以上の追加の相対頻度の追加の集計値を決定することと、
前記追加の集計値と追加の参照値との比較に基づいて、前記対象についての前記がんのステージを決定することと、をさらに含む、請求項６～８のいずれか一項に記載の方法。

【請求項10】

前記１つ以上の配列モチーフ対のセットが、複数の配列モチーフを含み、前記１つ以上の相対頻度が、複数の相対頻度を含み、前記複数の相対頻度の前記集計値を決定することが、前記複数の相対頻度の各々と参照パターンの参照頻度との間の差を決定することを含み、前記集計値が、前記差の合計を含む、請求項１～９のいずれか一項に記載の方法。

【請求項11】

前記参照パターンの前記参照頻度が、既知の分類を有する１つ以上の参照試料から決定される、請求項１０に記載の方法。

【請求項12】

対象の生物学的試料における臨床的関連ＤＮＡの画分濃度を推定する方法であって、前記生物学的試料は、前記臨床的関連ＤＮＡおよび無細胞である他のＤＮＡを含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞ＤＮＡ断片の各々について、前記無細胞ＤＮＡ断片の前記末端配列についての配列モチーフの対を決定することと、
前記複数の無細胞ＤＮＡ断片の前記末端配列に対応する１つ以上の配列モチーフ対のセットの１つ以上の相対頻度を決定することであって、配列モチーフ対の相対頻度が、前記配列モチーフ対に対応する末端配列の対を有する前記複数の無細胞ＤＮＡ断片の割合を提供する、相対頻度を決定することと、
前記１つ以上の配列モチーフ対のセットの前記１つ以上の相対頻度の集計値を決定することと、
前記集計値を臨床的関連ＤＮＡの画分濃度が既知の１つ以上の較正試料から決定された１つ以上の較正値と比較することによって、前記生物学的試料における臨床的関連ＤＮＡの前記画分濃度の分類を決定することと、を含む、方法。

【請求項13】

前記臨床的関連ＤＮＡが、胎児ＤＮＡ、腫瘍ＤＮＡ、移植臓器由来のＤＮＡ、および特定の組織タイプからなる群から選択される、請求項１２に記載の方法。

【請求項14】

前記臨床的関連ＤＮＡが、特定の組織タイプのものである、請求項１２に記載の方法。

【請求項15】

前記特定の組織タイプが、肝臓または造血性である、請求項１４に記載の方法。

【請求項16】

前記対象が、妊娠中の女性であり、前記臨床的関連ＤＮＡが胎盤組織である、請求項１２に記載の方法。

【請求項17】

前記臨床的関連ＤＮＡが、がんを有する器官に由来する腫瘍ＤＮＡである、請求項１２に記載の方法。

【請求項18】

前記１つ以上の較正値が、複数の較正試料の臨床的関連ＤＮＡの画分濃度を使用して決定される較正関数の複数の較正値である、請求項１２～１７のいずれか一項に記載の方法。

【請求項19】

前記１つ以上の較正値が、前記１つ以上の較正試料における無細胞ＤＮＡ断片を使用して測定される前記１つ以上の配列モチーフ対のセットの前記相対頻度の１つ以上の集計値に対応する、請求項１２～１８のいずれか一項に記載の方法。

【請求項20】

前記１つ以上の較正試料の各較正試料について、
前記較正試料における臨床的関連ＤＮＡの前記画分濃度を測定することと、
較正データ点の取得の一部として前記較正試料由来の無細胞ＤＮＡ断片を分析することによって、前記１つ以上の配列モチーフ対のセットの前記相対頻度の前記集計値を決定し、それによって１つ以上の集計値を決定することと、をさらに含み、各較正データ点が、前記較正試料における臨床的関連ＤＮＡの前記測定された画分濃度、および前記較正試料について決定された前記集計値を指定し、前記１つ以上の較正値が、前記１つ以上の集計値であるか、または前記１つ以上の集計値を使用して決定される、請求項１２～１９のいずれか一項に記載の方法。

【請求項21】

前記較正試料における臨床的関連ＤＮＡの前記画分濃度の測定が、前記臨床的関連ＤＮＡに特異的な対立遺伝子を使用して実施される、請求項２０に記載の方法。

【請求項22】

前記１つ以上の配列モチーフ対のセットが、Ｎ塩基位置を含み、前記１つ以上の配列モチーフ対のセットが、Ｎ塩基のすべての組み合わせを含み、Ｎが、２以上の整数である、請求項１～２１のいずれか一項に記載の方法。

【請求項23】

前記１つ以上の配列モチーフ対のセットが、１つ以上の参照試料において決定された、２つのタイプのＤＮＡの間で最大の差を有する上位Ｌ個の配列モチーフ対であり、Ｍが、１以上の整数である、請求項１～２１のいずれか一項に記載の方法。

【請求項24】

前記２つのタイプのＤＮＡが、前記臨床的関連ＤＮＡおよび前記他のＤＮＡである、請求項２３に記載の方法。

【請求項25】

前記２つのタイプのＤＮＡが、前記病理のレベルについて異なる分類を有する２つの参照試料に由来する、請求項２３に記載の方法。

【請求項26】

前記１つ以上の配列モチーフ対のセットが、１つ以上の参照試料において生じる上位Ｊ個の最も頻度の高い配列モチーフ対であり、Ｊが、１以上の整数である、請求項１～２１のいずれか一項に記載の方法。

【請求項27】

前記１つ以上の配列モチーフ対のセットが、複数の配列モチーフ対を含み、前記集計値が、前記セットの前記相対頻度の合計を含む、請求項２２～２６のいずれか一項に記載の方法。

【請求項28】

前記合計が、加重合計である、請求項２７に記載の方法。

【請求項29】

前記分類が、第１の分類であり、前記方法が、
配列モチーフ対の１つ以上の追加のセットについて１つ以上の追加の分類を決定することと、
前記第１の分類および１つ以上の追加の分類を使用して最終分類を決定することと、をさらに含む、請求項１～２８のいずれか一項に記載の方法。

【請求項30】

前記集計値が、機械学習モデルの最終または中間の出力を含む、請求項１～２９のいずれか一項に記載の方法。

【請求項31】

前記機械学習モデルが、クラスタリング、サポートベクターマシン、またはロジスティック回帰を使用する、請求項３０に記載の方法。

【請求項32】

臨床的関連ＤＮＡについて生物学的試料を濃縮する方法であって、前記生物学的試料は、前記臨床的関連ＤＮＡおよび無細胞である他のＤＮＡを含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞ＤＮＡ断片の各々について、前記無細胞ＤＮＡ断片の前記末端配列についての配列モチーフ対を決定することと、
前記他のＤＮＡよりも高い相対頻度で前記臨床的関連ＤＮＡにおいて生じる１つ以上の配列モチーフ対のセットを同定することと、
前記１つ以上の配列モチーフ対のセットを有する前記複数の無細胞ＤＮＡ断片の群を同定することと、
前記無細胞ＤＮＡ断片の群の各々について、
前記１つ以上の配列モチーフ対のセットの配列モチーフ対を含む前記末端配列に基づいて、前記無細胞ＤＮＡ断片が前記臨床的関連ＤＮＡに対応する尤度を決定することと、
前記尤度を閾値と比較することと、
前記尤度が前記閾値を超えたときに、前記無細胞ＤＮＡ断片の前記配列リードを保存し、それによって保存された配列リードを取得することと、
前記保存された配列リードを分析して、前記臨床的関連ＤＮＡ前記生物学的試料の特性を決定することと、を含む、方法。

【請求項33】

前記臨床的関連ＤＮＡ前記生物学的試料の前記特性が、（１）前記臨床的関連ＤＮＡの画分濃度、または（２）前記生物学的試料が取得された対象の病理のレベル、前記臨床的関連ＤＮＡに関連する病理の前記レベルである、請求項３２に記載の方法。

【請求項34】

前記配列リードを使用して前記複数の無細胞ＤＮＡ断片のサイズを測定することをさらに含み、特定の配列リードが前記臨床的関連ＤＮＡに対応する前記尤度を決定することが、前記特定の配列リードに対応する前記無細胞ＤＮＡ断片のサイズにさらに基づく、請求項３２または３３に記載の方法。

【請求項35】

特定の配列リードに対応する無細胞ＤＮＡ断片の１つ以上の部位での１つ以上のメチル化状態を測定することをさらに含み、前記特定の配列リードが前記臨床的関連ＤＮＡに対応する前記尤度を決定することが、前記１つ以上のメチル化状態にさらに基づく、請求項３２～３４のいずれか一項に記載の方法。

【請求項36】

前記無細胞ＤＮＡ断片の前記末端配列についての前記配列モチーフを決定することが、
前記無細胞ＤＮＡ断片に対応する１つ以上の配列リードを参照ゲノムにアラインメントすることと、
前記末端配列に隣接する前記参照ゲノムにおける１つ以上の塩基を同定することと、
前記末端配列および前記１つ以上の塩基を使用して前記配列モチーフ対を決定することと、を含む、請求項１～３５のいずれか一項に記載の方法。

【請求項37】

臨床的関連ＤＮＡについて生物学的試料を濃縮する方法であって、前記生物学的試料は、前記臨床的関連ＤＮＡおよび無細胞である他のＤＮＡを含み、前記方法は、
前記生物学的試料由来の複数の無細胞ＤＮＡ断片を受け取ることであって、臨床的関連ＤＮＡ断片が、前記他のＤＮＡよりも高い相対頻度で生じる配列モチーフ対の末端配列を有する、無細胞ＤＮＡ断片を受け取ることと、
前記複数の無細胞ＤＮＡ断片を、前記複数の無細胞ＤＮＡ断片の前記末端配列における前記配列モチーフ対を検出する１つ以上のプローブ分子に供し、それによって検出されたＤＮＡ断片を取得することと、
前記検出されたＤＮＡ断片を使用して前記臨床的関連ＤＮＡ断片について前記生物学的試料を濃縮することと、を含む、方法。

【請求項38】

前記検出されたＤＮＡ断片を使用して前記臨床的関連ＤＮＡ断片について前記生物学的試料を濃縮することが、
前記検出されたＤＮＡ断片を増幅することを含む、請求項３７に記載の方法。

【請求項39】

前記１つ以上のプローブ分子が、前記複数の無細胞ＤＮＡ断片を調べ、前記検出されたＤＮＡ断片を増幅するために使用される新しい配列を付加する１つ以上の酵素を含む、請求項３８に記載の方法。

【請求項40】

前記検出されたＤＮＡ断片を使用して前記臨床的関連ＤＮＡ断片について前記生物学的試料を濃縮することが、
前記検出されたＤＮＡ断片を捕捉することと、
検出されなかったＤＮＡ断片を破棄することと、を含む、請求項３７に記載の方法。

【請求項41】

１つ以上のプローブ分子が、表面に結合され、ハイブリダイゼーションによって前記末端配列における前記配列モチーフ対を検出する、請求項４０に記載の方法。

【請求項42】

コンピュータ製品であって、複数の命令を記憶する非一時的コンピュータ可読媒体を含み、実行されると、コンピュータシステムを制御して、先行請求項のいずれか一項に記載の方法を実施する、コンピュータ製品。

【請求項43】

システムであって、
請求項４２に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための１つ以上のプロセッサと、を備える、システム。

【請求項44】

先行請求項のいずれか一項に記載の方法を実施するための手段を備える、システム。

【請求項45】

先行請求項のいずれか一項に記載の方法を実施するように構成された１つ以上のプロセッサを備える、システム。

【請求項46】

先行請求項のいずれか一項に記載の方法のステップをそれぞれ実施するモジュールを備える、システム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０２０年１月８日に出願された「ＢｉｔｅｒｍｉｎａｌＡｎａｌｙｓｉｓＦｏｒＣａｎｃｅｒＳｃｒｅｅｎｉｎｇ」と題する米国仮特許出願第６２／９５８，６７６号の非仮出願であり、その利益を主張し、これは、すべての目的のためにその全体が参照により本明細書に組み込まれる。

【背景技術】

【0002】

無細胞ＤＮＡ（ｃｆＤＮＡ）は、生理学的および病理学的状態の診断および予後について知らせることができる非侵襲的バイオマーカーである（１～３）。ｃｆＤＮＡは、典型的には２００ｂｐ未満の短いＤＮＡ断片として自然に存在する（４）。

【0003】

血漿ＤＮＡは、造血組織、脳、肝臓、肺、結腸、膵臓などを含むがこれらに限定されない、体内の複数の組織から放出された無細胞ＤＮＡからなると考えられている（Ｓｕｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１５；１１２：Ｅ５５０３－１２、Ｌｅｈｍａｎｎ－Ｗｅｒｍａｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１６；１１３：Ｅ１８２６－３４、Ｍｏｓｓｅｔａｌ，ＮａｔＣｏｍｍｕｎ．２０１８；９：５０６８）。血漿ＤＮＡ分子（無細胞ＤＮＡ分子の一種）は、非ランダムプロセスを通して生成されることが実証されており、例えば、そのサイズプロファイルは、１６６ｂｐの主要なピークおよび小さいピークで発生する１０ｂｐの周期性を示している（Ｌｏｅｔａｌ，ＳｃｉＴｒａｎｓｌＭｅｄ．２０１０；２：６１ｒａ９１、Ｊｉａｎｇｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１５；１１２：Ｅ１３１７－２５）。

【0004】

近年、ヒトゲノムの位置（例えば、参照ゲノム上の位置）のサブセットが優先的に切断され、それによって起源の組織との関係を有する末端位置を有する血漿ＤＮＡ断片を生成することが報告された（Ｃｈａｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１６；１１３：Ｅ８１５９－８１６８、Ｊｉａｎｇｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１８；ｄｏｉ：１０．１０７３／ｐｎａｓ．１８１４６１６１１５）。Ｃｈａｎｄｒａｎａｎｄａｅｔａｌ（ＢＭＣＭｅｄＧｅｎｏｍｉｃｓ．２０１５；８：２９）は、デノボ発見ソフトウェアＤＲＥＭＥ（Ｂａｉｌｅｙ，Ｂｉｏｉｎｆｏｒｍａｔｉｃｓ．２０１１；２７：１６５３－９）を使用して、組織タイプにかかわらず、ヌクレアーゼ切断に関連するモチーフについての無細胞ＤＮＡデータをマイニングした。

【発明の概要】

【0005】

本開示は、例えば、がん（または他の病理）の検出、監視、および予後予測のために、ならびに異なるタイプの分子（例えば、胎児／母体分子、腫瘍／正常分子、または移植／ドナー分子）を区別するために、バイオマーカーとしてｃｆＤＮＡ断片の両端を使用することの科学的根拠および実際の実施について説明する。いくつかの実施形態は、肝細胞がん（ＨＣＣ）、結腸直腸がん、肺がん、鼻咽頭がん、頭頸部扁平上皮がんなどを含むがこれらに限定されないがんに使用され得る。様々な実施形態は、胎児起源、腫瘍、または提供組織からｃｆＤＮＡ断片を区別するために使用され得る。

【0006】

様々な実施形態によると、本開示は、試料の特性（例えば、臨床的関連ＤＮＡの画分濃度）を測定するため、および／またはそのような測定に基づいて生物の病理を決定するために、生物の生物学的試料における無細胞ＤＮＡ断片の末端モチーフ対の量（例えば、相対頻度）を測定するための技術を記載する。異なる組織タイプは、末端モチーフ対の相対頻度について異なるパターンを示す。本開示は、例えば、様々な組織からの無細胞ＤＮＡの混合物における、無細胞ＤＮＡの末端モチーフ対の相対頻度の測定のための様々な使用を提供する。そのような組織のうちの１つに由来するＤＮＡは、臨床的関連ＤＮＡと称され得る。他の例において、２つ以上のそのような組織に由来するＤＮＡは、臨床的関連ＤＮＡと称され得る。

【0007】

様々な例は、ＤＮＡ断片の末端配列を表す末端モチーフ対の量を定量化し得る。例えば、実施形態は、ＤＮＡ断片の末端配列についての末端モチーフ対のセットの相対頻度を決定し得る。様々な実装において、好ましい末端モチーフ対のセットおよび／または末端モチーフ対のパターンは、遺伝子型（例えば、組織特異的対立遺伝子）または表現型アプローチ（例えば、同じ病理を有する試料を使用する）を使用して決定され得る。好ましいセットの、または特定のパターンを有する相対頻度は、新しい試料の特性の分類（例えば、臨床的関連ＤＮＡの画分濃度）、または生物の病理（例えば、特定の組織におけるがんもしくは疾患のレベル）を測定するために使用され得る。したがって、実施形態は、がん、自己免疫疾患、移植、および妊娠を含む生理学的変化を知らせるための測定値を提供し得る。

【0008】

さらなる例として、末端モチーフ対は、臨床的に関連する無細胞ＤＮＡ断片についての生物学的試料の物理的濃縮および／またはインシリコ濃縮に使用され得る。濃縮は、胎児、腫瘍または移植などの臨床的関連組織に好ましい末端モチーフ対を使用し得る。物理的濃縮は、生物学的試料が臨床的関連ＤＮＡ断片について濃縮されるように、末端モチーフ対の特定のセットを検出する１つ以上のプローブ分子を使用し得る。インシリコ濃縮については、臨床的関連ＤＮＡについて好ましい末端配列のセットのうちの１つを有する無細胞ＤＮＡ断片の配列リードの群が同定され得る。特定の配列リードは、臨床的関連ＤＮＡに対応する尤度に基づいて保存され得、尤度は、好ましい末端モチーフ対を含む配列リードを説明する。保存された配列リードは、生物学的試料における臨床的関連ＤＮＡの特性を決定するために、分析され得る。

【0009】

本開示のこれらおよび他の実施形態を、以下で詳細に説明する。例えば、他の実施形態は、本明細書に記載の方法に関連付けられたシステム、デバイス、およびコンピュータ可読媒体を対象とする。

【0010】

本開示の実施形態の性質および利点のより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。

【図面の簡単な説明】

【0011】

【図1】本開示の実施形態による、ＤＮＡ断片の末端に単一の塩基を含む末端モチーフ対の例を示す。

【図2】本開示の実施形態による、Ａ＜＞Ａ断片の構築を示す。

【図3】本発明の一実施形態による、末端モチーフ対を決定するための生物学的試料中における配列決定データの分析を示す。

【図4】本開示の実施形態による、ｃｆＤＮＡ断片を二末端で分類するための末端モチーフの異なる分類の異なる組み合わせを示す。

【図5A-B】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図5C-D】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図6A-B】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図6C-D】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図7A-B】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図7C-D】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図8A-B】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図8C-D】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図9A-B】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図9C-D】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図10A-B】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図10C-D】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図11A-B】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図11C-D】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図12A-B】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図12C-D】本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。

【図13A-B】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図13C-D】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図14A-B】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図14C-D】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図15A-B】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図15C-D】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図16A-B】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図16C-D】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図17A-B】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図17C-D】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図18】本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。

【図19A-B】本開示の実施形態による、ＨＣＣを区別する際の、－１および＋１位のヌクレオチドを有する二末端分析の性能を示す。

【図19C-D】本開示の実施形態による、ＨＣＣを区別する際の、－１および＋１位のヌクレオチドを有する二末端分析の性能を示す。

【図20A-B】本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＣＧ＜＞ＡＡの性能を提供する。

【図20C】本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＣＧ＜＞ＡＡの性能を提供する。

【図21A-B】本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＧＣ＜＞ＴＡの性能を提供する。

【図21C-D】本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＧＣ＜＞ＴＡの性能を提供する。

【図21E-F】本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＴＡ＜＞ＧＣの性能を提供する。

【図22A-B】本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＣ＜＞Ｃの性能を提供する。

【図22C-D】本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＣ＜＞Ａの性能を提供する。

【図22E-F】本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＣ＜＞Ａの性能を提供する。

【図23】本開示の実施形態による、対照と、結腸直腸がん（ＣＲＣ）、肺扁平上皮がん（ＬＵＳＣ）、鼻咽頭がん（ＮＰＣ）、および頭頸部扁平上皮がん（ＨＮＳＣＣ）などの他のがんとを区別する際の、ＣＣ＜＞ＣＣ断片の割合のＲＯＣ曲線およびＡＵＣ値を示す。

【図24】本開示の実施形態による、対照と、結腸直腸がん（ＣＲＣ）、肺扁平上皮がん（ＬＵＳＣ）、鼻咽頭がん（ＮＰＣ）、および頭頸部扁平上皮がん（ＨＮＳＣＣ）などの他のがんとを区別する際の、ＣＣ＜＞ＣＣ断片の割合のＲＯＣ曲線およびＡＵＣ値を示す。

【図25】本開示の実施形態による、対照と、結腸直腸がん（ＣＲＣ）、肺扁平上皮がん（ＬＵＳＣ）、鼻咽頭がん（ＮＰＣ）、および頭頸部扁平上皮がん（ＨＮＳＣＣ）などの他のがんとを区別する際の、ＣＣ＜＞ＣＣ断片の割合のＲＯＣ曲線およびＡＵＣ値を示す。

【図26】本開示の実施形態による、他のがん（ＣＲＣ、ＬＵＳＣ、ＮＰＣ、ＨＮＳＣＣ）を区別する際の、－１および＋１位のヌクレオチドを有する３つの例示的な二末端断片の性能を示す。

【図27】本開示の実施形態による、他のがん（ＣＲＣ、ＬＵＳＣ、ＮＰＣ、ＨＮＳＣＣ）を区別する際の、－１および＋１位のヌクレオチドを有する３つの例示的な二末端断片の性能を示す。

【図28】本開示の実施形態による、他のがん（ＣＲＣ、ＬＵＳＣ、ＮＰＣ、ＨＮＳＣＣ）を区別する際の、－１および＋１位のヌクレオチドを有する３つの例示的な二末端断片の性能を示す。

【図29】本開示の実施形態による、ＣＲＣ、ＬＵＳＣ、ＮＰＣ、またはＨＮＳＣＣの各々を区別する際の、－１および＋１位のヌクレオチドを有するそれぞれの二末端断片について最良の性能を示す。

【図30】本開示の実施形態による、ＣＲＣ、ＬＵＳＣ、ＮＰＣ、またはＨＮＳＣＣの各々を区別する際の、－１および＋１位のヌクレオチドを有するそれぞれの二末端断片について最良の性能を示す。

【図31】本開示の実施形態による、がんの異なるステージを区別する際の、最高ＡＵＣを有する末端モチーフの性能結果を含む表を示す。

【図32】本開示の実施形態による、中期ＨＣＣと進行ＨＣＣとを区別するための１００％の精度のすべての２ｅｎｄ：－２＋２タイプのリスト３２００、および初期ＨＣＣと進行ＨＣＣとを区別するための１００％の精度のすべての２ｅｎｄ：－２＋２タイプのリスト３２５０を示す。

【図33A-B】本開示の実施形態による、初期ＨＣＣと中期ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。

【図33C-D】本開示の実施形態による、初期ＨＣＣと中期ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。

【図34A-B】本開示の実施形態による、中期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。

【図34C-D】本開示の実施形態による、中期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。

【図35A-B】本開示の実施形態による、初期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。

【図35C-D】本開示の実施形態による、初期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。

【図36A-B】本開示の実施形態による、初期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。

【図36C-D】本開示の実施形態による、初期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。

【図37A-B】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＣ＜＞Ｃの性能を示す。

【図37C-D】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＣ＜＞Ｃの性能を示す。

【図38A-B】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＡ＜＞Ａの性能を示す。

【図38C-D】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＡ＜＞Ａの性能を示す。

【図39A-B】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＧＴ＜＞ＴＧの性能を示す。

【図39C-D】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＧＴ＜＞ＴＧの性能を示す。

【図40A-B】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＴＧ＜＞ＣＣの性能を示す。

【図40C-D】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＴＧ＜＞ＣＣの性能を示す。

【図41A-B】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＴＧ＜＞ＧＧの性能を示す。

【図41C-D】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＴＧ＜＞ＧＧの性能を示す。

【図42A-B】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のｃ｜Ａ＜＞ａ｜Ａの性能を示す。

【図42C-D】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のｃ｜Ａ＜＞ａ｜Ａの性能を示す。

【図43A-B】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のｇ｜Ｃ＜＞ｇ｜Ｃの性能を示す。

【図43C-D】本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のｇ｜Ｃ＜＞ｇ｜Ｃの性能を示す。

【図44】本開示の実施形態による、各試料においてより少ない断片（２０００万個の断片）を使用して、非がんとＨＣＣとを区別する際のＣ＜＞Ｃ断片の性能を示す。

【図45】本開示の実施形態による、ダウンサンプリング分析を通して推定された、配列決定された断片の総数の関数としてＣＣ＜＞ＣＣ断片を使用して達成可能なＡＵＣを示すグラフである。

【図46】本開示の実施形態による、無細胞ＤＮＡ断片の末端モチーフ対を使用して病理のレベルを決定するための方法を示すフローチャートである。

【図47】本開示の実施形態による、同じ非ＨＣＣおよびＨＣＣデータセットに対する異なる分析方法からの複数のＲＯＣ曲線を示す。

【図48】本開示の実施形態による、３０の対照および４０のＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣを含む他のがんを有するデータセットの異なる分析方法からの複数のＲＯＣ曲線を示す。

【図49A】本開示の実施形態による、３０の対照および４０のＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣを含む他のがんを有するデータセットの異なる分析方法からの複数のＲＯＣ曲線を示す。

【図49B】本開示の実施形態による、３０の対照および４０のＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣを含む他のがんを有するデータセットの異なる分析方法からの複数のＲＯＣ曲線を示す。

【図50A】本開示の実施形態による、３０の対照および４０のＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣを含む他のがんを有するデータセットの異なる分析方法からの複数のＲＯＣ曲線を示す。

【図50B】本開示の実施形態による、３０の対照および４０のＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣを含む他のがんを有するデータセットの異なる分析方法からの複数のＲＯＣ曲線を示す。

【図51】本開示の実施形態による、胎児特異的分子と共有分子とを区別する際の二末端分析を示す。

【図52】本開示の実施形態による、二末端Ｃ＜＞Ｃ％と胎児ＤＮＡ画分との間の関数関係を示す。

【図53】本開示の実施形態による、Ｃ＜＞Ｇ％と腫瘍濃度との間の関数関係を示す。

【図54A-B】本開示の実施形態による、肝臓移植対象についてのドナー特異的分子と共有分子とを区別する際の二末端分析を示す。

【図54C】本開示の実施形態による、肝臓移植対象についてのドナー特異的分子と共有分子とを区別する際の二末端分析を示す。

【図55】本開示の実施形態による、肝臓移植対象についてのドナー特異的分子と共有分子とを区別する際の二末端分析を示す。

【図56】本開示の実施形態による、腎臓移植対象についてのドナー特異的分子と共有分子とを区別する際の二末端分析を示す。

【図57】本開示の実施形態による、対象の生物学的試料における臨床的関連ＤＮＡの画分濃度を推定する方法を示すフローチャートである。

【図58】本開示の実施形態による、非がん対象とＨＣＣ対象とを区別するための、－１および＋１位のヌクレオチドの末端モチーフ対を使用したＳＶＭモデリングのＲＯＣ曲線を示す。

【図59】本開示の実施形態による、臨床的関連ＤＮＡについて生物学的試料を物理的に濃縮する方法を示すフローチャートである。

【図60】本開示の実施形態による、臨床的関連ＤＮＡについて生物学的試料のインシリコ濃縮のための方法を示すフローチャートである。

【図61】本発明の実施形態による、測定システムを例示する。

【図62】本発明の実施形態による、システムおよび方法とともに使用可能な例示的なコンピュータシステムのブロック図を示す。

【0012】

用語
「組織」は、機能単位としてともにグループ化する細胞のグループに対応する。２つ以上のタイプの細胞が、単一の組織内に見出され得る。種々のタイプの組織は、種々のタイプの細胞（例えば、肝細胞、肺胞細胞、または血球細胞）からなり得るが、種々の生物（母体対胎児）由来の組織または健常細胞対腫瘍細胞にも対応し得る。種々の個体由来の同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定することができる。

【0013】

「生物学的試料」は、対象（例えば、妊婦、がんもしくは他の疾患を有する人、またはがんもしくは他の疾患を有する疑いがある人などのヒト（または他の動物）、臓器移植レシピエント、または臓器が関与する疾患プロセス（例えば、心筋梗塞における心臓、脳卒中における脳、もしくは貧血における造血系）を有する疑いがある対象）から採取され、目的の１つ以上の核酸分子を含有する任意の試料を指す。生物学的試料は、血液、血漿、血清、尿、膣液、水腫（例えば、精巣の）からの液体、膣洗浄液体、胸膜液、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の種々の部分（例えば、甲状腺、乳腺）からの吸引液、眼内液（例えば、房水）などの体液であり得る。便試料もまた、使用され得る。様々な実施形態において、無細胞ＤＮＡのために濃縮された生物学的試料（例えば、遠心分離プロトコルを介して取得された血漿試料）におけるＤＮＡの大部分は、無細胞であり得、例えば、ＤＮＡの５０％超、６０％超、７０％超、８０％超、９０％超、９５％超、または９９％超は、無細胞であり得る。遠心分離プロトコルは、例えば、３，０００ｇ×１０分で流体部分を取得することと、残留細胞を除去するために３０，０００ｇでさらに１０分間再遠心分離することと、を含み得る。生物学的試料の分析の一部として、統計的に有意な数の無細胞ＤＮＡ分子が、生物学的試料について分析され得る（例えば、正確な測定値を提供するために）。いくつかの実施形態において、少なくとも１，０００個の無細胞ＤＮＡ分子が分析される。他の実施形態において、少なくとも１０，０００個または５０，０００個または１００，０００個または５００，０００個または１，０００，０００個または５，０００，０００個、またはそれより多い無細胞ＤＮＡ分子が分析され得る。少なくとも同数の配列リードが分析され得る。

【0014】

「臨床的関連ＤＮＡ」は、例えば、そのようなＤＮＡの画分濃度を決定するため、または試料（例えば、血漿）の表現型を分類するために、測定されるべき特定の組織供給源のＤＮＡを指し得る。臨床的関連ＤＮＡの例は、母体血漿における胎児ＤＮＡ、または患者の血漿における腫瘍ＤＮＡ、または無細胞ＤＮＡを含む他の試料である。別の例は、移植患者の血漿、血清または尿における移植片関連ＤＮＡの量の測定を含む。さらなる例は、対象の血漿における造血性および非造血性ＤＮＡの画分濃度、または試料における肝臓ＤＮＡ断片（もしくは他の組織）の画分濃度、または脳脊髄液における脳ＤＮＡ断片の画分濃度の測定を含む。

【0015】

「配列リード」は、核酸分子の任意の部分または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定された短鎖ヌクレオチド（例えば、約２０～１５０ヌクレオチド）、核酸断片の片端もしくは両端の短鎖ヌクレオチド、または生物学的試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、またはプローブを使用した様々な方法で、例えば、ハイブリダイゼーションアレイもしくはマイクロアレイで使用され得るような捕捉プローブで、または単一プライマーもしくは等温増幅を使用した、ポリメラーゼ連鎖反応（ＰＣＲ）もしくは線形増幅などの増幅技術で、取得することができる。生物学的試料の分析の一部として、統計的に有意な数の配列リードが分析され得、例えば、少なくとも１，０００個の配列リードが、分析され得る。他の例として、少なくとも１０，０００個または５０，０００個または１００，０００個または５００，０００個または１，０００，０００個または５，０００，０００個、またはそれより多い配列リードが分析され得る。

【0016】

「切断部位」は、ＤＮＡがヌクレアーゼによって切断され、それによってＤＮＡ断片をもたらす位置を指し得る。

【0017】

配列リードは、断片の末端に関連する「末端配列」を含み得る。末端配列は、断片の最も外側のＮ塩基、例えば断片の末端の１～３０塩基に対応し得る。配列リードが断片全体に対応する場合、配列リードは２つの末端配列を含み得る。対末端配列決定が断片の末端に対応する２つの配列リードを提供する場合、各配列リードは１つの末端配列を含み得る。

【0018】

「配列モチーフ」は、ＤＮＡ断片（例えば、無細胞ＤＮＡ断片）における塩基の短い繰り返しパターンを指し得る。配列モチーフは、断片の末端に生じ得、したがって、末端配列の一部であるか、またはそれを含み得る。「末端モチーフ」は、潜在的に特定のタイプの組織について、ＤＮＡ断片の末端で優先的に生じる末端配列についての配列モチーフを指し得る。末端モチーフはまた、断片の末端の直前または直後に生じ得、それにより、依然として末端配列に対応する。ヌクレアーゼは、特定の末端モチーフに対する特定の切断選択、ならびに第２の末端モチーフに対する２番目に好ましい切断選択を有し得る。

【0019】

「配列モチーフ対」または「末端モチーフ対」は、特定のＤＮＡ断片の末端モチーフの対を指し得る。例えば、一方の鎖の５’末端にＡを有し、他方の鎖の５’末端にＡを有するＤＮＡ断片は、Ａ＜＞Ａの配列モチーフ対を有すると定義され得る。別の例として、一方の鎖の５’末端にＡを有し、同じ鎖の３’末端にＴを有するＤＮＡ断片は、Ａ＜＞Ｔの配列モチーフ対を有すると定義され得、これは、２つの鎖の５’末端を使用して定義されたＡ＜＞Ａ断片に対応する。他の長さの配列モチーフが使用され得る。末端モチーフの種々の対の組み合わせは、種々のタイプの断片と称され得る。末端モチーフ対は、同じ長さである、例えば、両方が１ｍｅｒまたは両方が２ｍｅｒである末端モチーフを含み得るが、異なる長さである、例えば、一方の端部が２ｍｅｒであり、他方の末端が１ｍｅｒで構成される末端モチーフも含み得る。末端モチーフ対はまた、例えば、参照ゲノムにアラインメントすることによって決定されるように、ＤＮＡ断片の末端を超えた１つ以上の塩基を含み得る。そのような場合は、命名法ｔ｜Ａを使用することができ、Ｔは、５’端の切断部位の直前に生じ、Ａは、切断部位の後に生じる。

【0020】

「対立遺伝子」という用語は、同じ物理的ゲノム遺伝子座にある代替ＤＮＡ配列を指し、異なる表現型の特徴をもたらす場合ともたらさない場合がある。各染色体のコピーが２つある任意の特定の二倍体生物（男性の対象の性染色体を除く）では、各遺伝子の遺伝子型は、ホモ接合体においては同じであり、ヘテロ接合体においては異なる、その遺伝子座に存在する対立遺伝子の対を含む。生物の集団または種は、典型的には、様々な個体の各遺伝子座に複数の対立遺伝子を含む。集団内に２つ以上の対立遺伝子が見られるゲノム遺伝子座は、多型部位と呼ばれる。遺伝子座での対立遺伝子多様性は、存在する対立遺伝子の数（すなわち、多型の程度）、または集団内のヘテロ接合体の割合（すなわち、ヘテロ接合性率）として測定可能である。本明細書で使用される「多型」という用語は、その頻度に関係なく、ヒトゲノムにおける任意の個体間の多様性を指す。そのような多様性の例は、一塩基多型、単純なタンデムリピート多型、挿入－欠失多型、変異（疾患を引き起こし得る）、およびコピー数の多様性を含むが、これらに限定されない。本明細書で使用される「ハプロタイプ」という用語は、同じ染色体または染色体領域上で一緒に伝達される複数の遺伝子座での対立遺伝子の組み合わせを指す。ハプロタイプは、わずか１対の遺伝子座、または染色体領域、または染色体全体または染色体腕を指し得る。

【0021】

「画分胎児ＤＮＡ濃度」という用語は、「胎児ＤＮＡの割合」および「胎児ＤＮＡ画分」という用語と互換的に使用され、胎児に由来する生物学的試料（例えば、母体の血漿または血清試料）に存在する胎児ＤＮＡ分子の割合を指す（Ｌｏｅｔａｌ，ＡｍＪＨｕｍＧｅｎｅｔ．１９９８；６２：７６８－７７５、Ｌｕｎｅｔａｌ，ＣｌｉｎＣｈｅｍ．２００８；５４：１６６４－１６７２）。同様に、腫瘍画分または腫瘍ＤＮＡ画分は、生物学的試料における腫瘍ＤＮＡの画分濃度を指し得る。

【0022】

「相対頻度」（単に「頻度」とも称される）は、割合（例えば、パーセンテージ、画分、または濃度）を指し得る。特に、特定の末端モチーフ対（例えば、Ａ＜＞Ａ）の相対頻度は、その特定の対の末端配列を有する無細胞ＤＮＡ断片の割合を提供し得る。

【0023】

「集計値」は、例えば、末端モチーフのセットの相対的頻度の集合的特性を指し得る。例には、平均、中央値、相対頻度の合計、相対頻度間の変動（例えば、エントロピー、標準偏差（ＳＤ）、変動係数（ＣＶ）、四分位範囲（ＩＱＲ）、または種々の相対頻度中の特定のパーセンタイルカットオフ（例えば９５または９９パーセンタイル））、またはクラスタリングで実装し得る相対頻度の参照パターンからの差（例えば、距離）を含む。別の例として、集計値は、相対頻度のアレイ／ベクトルを含み得、これは、参照ベクトル（例えば、多次元データ点を表す）と比較され得る。

【0024】

「配列決定深度」という用語は、遺伝子座が、その遺伝子座にアラインメントされた配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、または染色体腕の大きさ、またはゲノム全体の大きさであり得る。配列決定深度は、５０ｘ、１００ｘなどと表され、「ｘ」は、遺伝子座が配列リードでカバーされる回数を指す。また、配列決定深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、ｘはそれぞれ、遺伝子座もしくはハプロイドゲノムまたはゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも１００ｘの配列決定深度を指し得る。

【0025】

「較正試料」は、臨床的関連ＤＮＡの画分濃度（例えば、組織特異的ＤＮＡ画分）が既知であるか、または較正方法を介して、例えば、ドナーのゲノムには存在するがレシピエントのゲノムには存在しない対立遺伝子を移植臓器のマーカーとして使用し得る移植など、組織に特異的な対立遺伝子を使用して決定される生物学的試料に対応し得る。別の例として、較正試料は、末端モチーフを決定し得る試料に対応し得る。較正試料は、両方の目的に使用され得る。

【0026】

「較正データ点」は、「較正値」および臨床的関連ＤＮＡ（例えば、特定の組織タイプのＤＮＡ）の測定されたまたは既知の画分濃度を含む。較正値は、臨床的関連ＤＮＡの画分濃度が既知である較正試料について決定された相対頻度（例えば、集計値）から決定され得る。較正データ点は、様々な方法で、例えば、離散点として、または較正関数（検量線または較正面とも呼ばれる）として定義され得る。較正関数は、較正データ点の追加の数学的変換から導出され得る。

【0027】

「分離値」は、２つの値を包含する差または比、例えば、２つの画分寄与または２つのメチル化レベルに相当する。分離値は、単純な差または比であり得る。例として、ｘ／ｙの直接比は、ｘ／（ｘ＋ｙ）と同様に分離値である。分離値は、他の因子、例えば、乗法的因子を含み得る。他の例として、値の関数の差または比、例えば、２つの値の自然対数（ｌｎ）の差または比が使用され得る。分離値には、差および比を含み得る。

【0028】

「分離値」および「集計値」（例えば、相対頻度）は、異なる分類（状態）間で変化する試料の測定値を提供するパラメータ（メトリックとも呼ばれる）の２つの例であり、したがって様々な分類を決定するために使用され得る。集計値は、例えば、クラスタリングで行われるように、試料の相対頻度のセットと相対頻度の参照セット間で差が取られる場合の分離値であり得る。

【0029】

本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数または他の特徴を指す。例えば、「＋」という記号（または「陽性」という語）は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二者択一（例えば、陽性または陰性）であり得、またはより多くのレベルの分類（例えば、１～１０または０～１のスケール）を有し得る。

【0030】

本明細書で使用される場合、「パラメータ」という用語は、定量的データセットを特徴付ける数値、および／または定量的データセット間の数的関連性を意味する。例えば、第１の核酸配列の第１の量と第２の核酸配列の第２の量との比率（またはある比率の関数）は、パラメータである。

【0031】

「カットオフ」および「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指し得る。閾値は、特定の分類が適用されるのを上回るまたは下回る値であり得る。これらの用語のいずれかは、これらの文脈のいずれかにおいて使用され得る。カットオフまたは閾値は、「参照値」であり得るか、または特定の分類を表すか、もしくは２つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定され得る。例えば、メトリックは、異なる既知の分類を有する対象の２つの異なるコホートについて決定され得、参照値は、１つの分類（例えば、平均）の代表として、またはメトリックの２つのクラスター間の値（例えば、所望の感度および特異度を取得するために選択された）として選択され得る。別の例として、参照値は、試料の統計シミュレーションに基づいて決定され得る。カットオフ、閾値、参照などの特定の値は、所望の精度（例えば、感度および特異度）に基づいて決定され得る。

【0032】

「がんのレベル」という用語は、がんが存在するかどうか（すなわち、存在または不在）、がんのステージ、腫瘍のサイズ、転移があるかどうか、体の総腫瘍負荷、治療に対するがんの応答、および／またはがんの重症度の他の尺度（例えば、がんの再発）を指し得る。がんのレベルは、数字、または、記号、アルファベット文字、および色などの他のしるしであり得る。レベルは、ゼロであり得る。がんのレベルは、前悪性病態または前がん性病態（状態）も含み得る。がんのレベルは、様々な方法で使用され得る。例えば、スクリーニングは、がんを有することを今まで知らなかった人物においてがんが存在するかどうかをチェックし得る。評価は、がんと診断されている人物を調べて、がんの進行を経時的に監視し、療法の有効性を研究し、または予後を決定し得る。一実施形態において、予後は、患者ががんで死亡する可能性、または特定の持続時間または特定の時間の後、がんが進行する可能性、またはがんが転移する可能性もしくは程度として表すことができる。検出は、「スクリーニング」を意味することができ、またはがんの示唆的な特徴（例えば、症状または他の陽性検査）を有する人物ががんを有するかどうかをチェックすることを意味し得る。

【0033】

「病理のレベル」は、生物に関連する病理の量、程度、重症度を指し得、そのレベルは、がんについて上記のとおりであり得る。病理の別の例は、移植された臓器の拒絶反応である。他の病理の例には、自己免疫発作（例えば、腎臓を損傷するループス腎炎または中枢神経系を損傷する多発性硬化症）、炎症性疾患（例えば、肝炎）、線維化プロセス（例えば、肝硬変）、脂肪浸潤（例えば、脂肪肝疾患）、変性プロセス（例えば、アルツハイマー病）、および虚血性組織損傷（例えば、心筋梗塞または脳卒中）が含まれ得る。対象の健康な状態は、病理のない分類とみなし得る。

【0034】

「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、１以内または１を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大２０％、最大１０％、最大５％、または最大１％の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の１桁以内、５倍以内、より好ましくは２倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±１０％を指し得る。「約」という用語は、±５％を指し得る。

【0035】

値の範囲が提供される場合、文脈が明確に別段に示さない限り、その範囲の上限と下限との間の各介在する値も、下限の１０分の１まで具体的に開示されていると理解される。記載された範囲における任意の記載された値または介在する値と、その記載された範囲における任意の他の記載された値または介在する値との間の各より小さな範囲が、本開示の実施形態内に包含される。これらのより小さな範囲の上限および下限は、範囲に独立して含まれるか除外されてもよく、どちらか一方、両方の限度がより小さな範囲に含まれるか、またはどちらも含まれない各範囲も、記載された範囲における任意の具体的に除外された限度を条件として、本開示内に包含される。記載された範囲が一方または両方の限度を含む場合、それらの含まれた限度のいずれかまたは両方を除外する範囲も、本開示に含まれる。

【0036】

標準的な略語、例えば、ｂｐ：塩基対、ｋｂ：キロベース、ｐｉ：ピコリットル、ｓまたはｓｅｃ：秒、ｍｉｎ：分、ｈまたはｈｒ：時間、ａａ：アミノ酸、ｎｔ：ヌクレオチドなどが使用され得る。

【0037】

別段の定義がない限り、本明細書で使用される技術用語および科学用語はすべて、本開示が属する技術の分野における当業者によって一般に理解されているのと同じ意味を有する。本開示の実施形態の実施または試験には、本明細書に記載されているものと類似または同等の任意の方法および材料が使用され得るが、いくつかの潜在的かつ例示的な方法および材料が、ここで説明され得る。

【発明を実施するための形態】

【0038】

本開示は、試料の特性を測定するため、および／またはそのような測定に基づいて生物の病理を決定するために、生物の生物学的試料における無細胞ＤＮＡ断片の末端モチーフ対の量（例えば、相対頻度）を測定するための技術を記載する。種々の組織タイプは、末端モチーフ対の相対頻度について種々のパターンを示す。本開示は、例えば、様々な組織からの無細胞ＤＮＡの混合物における、無細胞ＤＮＡの末端モチーフ対の相対頻度の測定のための様々な使用を提供する。そのような組織のうちの１つに由来するＤＮＡは、臨床的関連ＤＮＡと称され得る。

【0039】

病理学の例として、がんのレベルは、試料の無細胞ＤＮＡ断片間の末端モチーフ対の相対頻度を使用して決定され得る。異なる表現型を有する生物は、無細胞ＤＮＡ断片の末端モチーフ対の相対頻度の異なるパターンを示し得る。末端モチーフ対の相対頻度の集計値は、表現型を分類するために参照値と比較され得る。様々な実装において、集計値は、相対頻度の合計または相対頻度の参照セットからの差であり得る。

【0040】

別の例として、特定の組織の（例えば、胎児、腫瘍、または移植された臓器の）臨床的関連ＤＮＡは、相対頻度の特定のパターンを示し、これは集計値として測定され得る。試料における他のＤＮＡは、異なるパターンを示し得、それによって試料における臨床的関連ＤＮＡの量の測定が可能になる。したがって、一例では、臨床的関連ＤＮＡの画分濃度（例えば、パーセンテージ）は、末端モチーフ対の相対頻度に基づいて決定され得る。画分濃度は、数、数値範囲、または他の分類、例えば、高、中、または低、または画分濃度が閾値を超えるかどうかであり得る。様々な実装において、集計値は、末端モチーフ対のセットの相対頻度の合計、または参照パターン、例えば、既知の画分濃度を有する較正試料の相対頻度のアレイ（ベクトル）からの差（例えば、総距離）であり得る。そのようなアレイは、相対頻度の参照セットとみなされ得る。そのような差は、階層的クラスタリング、サポートベクターマシン、ロジスティック回帰などの分類器において使用され得る。例として、臨床的関連ＤＮＡは、胎児、腫瘍、移植臓器、または他の組織（例えば、造血性または肝臓）のＤＮＡであり得る。

【0041】

末端モチーフ対の特定のセットを有する無細胞ＤＮＡ断片が、他の組織と比較して（例えば、胎児対母体）、特定の組織において差次的に表現される（相対頻度によって定量化される）ことを所与として、これらの末端モチーフ対は、特定の組織からのＤＮＡ（臨床的関連ＤＮＡ）の試料を濃縮するために使用され得る。そのような濃縮は、物理試料を濃縮するための物理操作を介して実施され得る。いくつかの実施形態は、例えば、プライマーまたはアダプターを使用して、好ましい末端モチーフ対のセットに一致する末端配列を有する無細胞ＤＮＡ断片を捕捉および／または増幅し得る。他の例が、本明細書に記載される。相対頻度での表現が、末端モチーフ対のセットの臨床的関連ＤＮＡにおいてより高い場合、それらを好ましい末端モチーフ対と称することができる。

【0042】

いくつかの実施形態において、濃縮は、インシリコで実施され得る。例えば、システムは、配列リードを受信し、末端モチーフ対に基づいてリードをフィルタリングして、臨床的関連ＤＮＡからのより高い濃度の対応するＤＮＡを有する配列リードのサブセットを取得し得る。ＤＮＡ断片が好ましい末端モチーフ対である末端配列を有する場合、ＤＮＡ断片は、目的の組織に由来する尤度がより高いと同定され得る。本明細書に記載されているように、尤度は、ＤＮＡ断片のメチル化およびサイズに基づいてさらに決定され得る。

【0043】

そのような末端モチーフ対の使用は、末端位置を使用する場合に必要とされ得る参照ゲノムの必要性を回避し得る（Ｃｈａｎｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１６；１１３：Ｅ８１５９－８１６８、Ｊｉａｎｇｅｔａｌ，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ．２０１８；ｄｏｉ：１０．１０７３／ｐｎａｓ．１８１４６１６１１５）。さらに、末端モチーフ対の数は、参照ゲノムにおいて好ましい末端位置の数よりも少ない可能性があるため、各末端モチーフ対についてより多くの統計が収集され得、精度が向上し得る。

【0044】

例えば、Ｃｈａｎｄｒａｎａｎｄａｅｔａｌ．は、断片開始部位周辺の５１ｂｐ（上流／下流２０ｂｐ）の領域のモノヌクレオチド頻度に関する位置特異的ヌクレオチドパターンに関して、母体と胎児の断片間に高い類似性があることを見出し（（Ｃｈａｎｄｒａｎａｎｄａｅｔａｌ，ＢＭＣＭｅｄＧｅｎｏｍｉｃｓ．２０１５；８：２９）、末端周辺のモノヌクレオチドに基づく彼らの方法の使用が、無細胞ＤＮＡ断片の起源の組織について知らせることができなかったことを意味していたことから、上記のように末端モチーフ対を使用するそのような能力は、驚くべきことである。

【0045】

本発明をより詳細に説明する前に、本発明は、記載される特定の実施形態に限定されず、当然それ自体変化し得ることを理解されたい。本明細書で使用される用語は、特定の実施形態を説明するためのものにすぎず、本発明の範囲が、添付の特許請求の範囲によってのみ限定されるため、限定することを意図したものではないことも理解されたい。使用される数値（例えば、量、温度など）に関して精度を確実にするための努力がなされてきたが、ある程度の実験誤差および偏差が考慮されるべきである。特に明記されていない限り、部は重量部であり、分子量は重量平均分子量であり、温度は摂氏であり、圧力は大気圧またはそれ近くである。

【0046】

Ｉ．無細胞ＤＮＡ末端モチーフ対（二末端分析）
末端モチーフは、無細胞ＤＮＡ断片の末端配列、例えば、断片のいずれかの末端でのＫ塩基の配列に関する。一方で、末端モチーフ対は、断片の両方の末端配列に関する。末端配列は、例えば、１、２、３、４、５、６、７などの様々な数の塩基を有するｋｍｅｒであり得る。末端モチーフ（または「配列モチーフ」）は、参照ゲノムの特定の位置とは対照的に、配列自体に関する。したがって、同じ末端モチーフは、参照ゲノム全体の多数の位置に生じ得る。末端モチーフは、例えば、開始位置の直前または終了位置の直後の塩基を同定するために、参照ゲノムを使用して決定され得る。このような塩基は、例えば、断片の末端配列に基づいて同定されるため、無細胞ＤＮＡ断片の末端に対応する。

【0047】

Ａ．末端モチーフ対の例示的な決定
図１は、本開示の実施形態による末端モチーフ対の例を示す。図１は、分析する４ｍｅｒ末端モチーフを定義する２つの方法を示す。技術１４０において、４ｍｅｒ末端モチーフは、血漿ＤＮＡ分子の各末端の最初の４ｂｐ配列から直接構築される。例えば、配列決定された断片の最初の４ヌクレオチドおよび最後の４ヌクレオチドが、末端モチーフ対として使用され得る。技術１６０において、４ｍｅｒ末端モチーフは、断片の配列決定された末端からの２ｍｅｒ配列およびその断片の末端に隣接するゲノム領域からの他の２ｍｅｒ配列を利用することによって共同で構築される。他の実施形態において、他のタイプのモチーフ、例えば、１ｍｅｒ、２ｍｅｒ、３ｍｅｒ、５ｍｅｒ、６ｍｅｒ、７ｍｅｒ末端モチーフが使用され得る。

【0048】

図１に示すとおり、無細胞ＤＮＡ断片１１０は、例えば、遠心分離などによる血液試料の精製プロセスを使用して取得される。血漿ＤＮＡ断片に加えて、例えば、血清、尿、唾液、または他の体液由来の他のタイプの無細胞ＤＮＡ分子が使用され得る。ＤＮＡ断片は、平滑末端化され得る。

【0049】

ブロック１２０で、ＤＮＡ断片は、対末端配列決定に供される。いくつかの実施形態において、対末端配列決定は、ＤＮＡ断片の２つの末端から２つの配列リード、例えば、配列リード当たり３０～１２０塩基を生成し得る。これらの２つの配列リードは、ＤＮＡ断片（分子）の一対のリードを形成し得、各配列リードは、ＤＮＡ断片のそれぞれの末端の末端配列を含む。他の実施形態において、ＤＮＡ断片全体が配列決定され得、それにより、ＤＮＡ断片の両端の末端配列を含む単一の配列リードを提供する。両端の２つの末端配列は、単一の配列決定操作から一緒に生成された場合でも、対の配列リードとみなされ得る。

【0050】

ブロック１３０で、配列リードは、参照ゲノムにアラインメントされ得る。このアラインメントは、配列モチーフを定義するための異なる方法を説明するためのものであり、いくつかの実施形態において使用されない場合がある。例えば、断片の末端にある配列は、参照ゲノムにアラインメントする必要なく直接使用され得る。しかしながら、アラインメントは、対象における変動（例えば、ＳＮＰ）に依存しない、末端配列の均一性を有することが望ましい場合がある。例えば、変動または配列決定誤差により、末端塩基が参照ゲノムと異なる可能性があるが、参照における塩基は、カウントされたものであり得る。あるいは、配列リードの末端の塩基は、個々に合わせて調整されるように使用され得る。アラインメント手順は、ＢＬＡＳＴ、ＦＡＳＴＡ、Ｂｏｗｔｉｅ、ＢＷＡ、ＢＦＡＳＴ、ＳＨＲｉＭＰ、ＳＳＡＨＡ２、ＮｏｖｏＡｌｉｇｎ、およびＳＯＡＰなど（であるがこれらに限定されない）様々なソフトウェアパッケージを使用して実施され得る。

【0051】

技術１４０は、参照ゲノム１４５へのアラインメントを有する、配列決定された断片１４１の配列リードを示す。５’末端を開始とみなして、第１の末端モチーフ１４２（ＣＣＣＡ）は、配列決定された断片１４１の開始にある。第２の末端モチーフ１４４（ＴＣＧＡ）は、配列決定された断片１４１の尾部にある。ｃｆＤＮＡ断片の末端優位性を分析する場合、この配列リードは、５’末端のＣ末端および３’末端のＡ末端（または他方の鎖の５’末端が使用される場合はＴ末端）のカウントに寄与する。そのような末端モチーフは、一実施形態において、酵素がＣＣＣＡを認識し、次に最初のＣの直前に切断を行うときに生じ得る。その場合、ＣＣＣＡは優先的に血漿ＤＮＡ断片の末端にある。ＴＣＧＡについては、酵素がそれを認識し、次いで、Ａの後に切断を行い得る。そのような末端モチーフの対は、使用される規則に応じて、ＣＣＣＡ＜＞ＴＣＧＡとラベル付けされ得る。異なる規則の様々な例は、以下に提供される。例えば、第２の末端モチーフの規則は、他方の鎖の５’末端から読み進められ得る。ＴＣＧＡでは、補数は同じであるが、３’末端配列がＴＴＧＡの場合、配列が末端から始まるため、５’規則は、ＴＣＡＡになる。両端のこの５’規則が例で使用される。末端モチーフ対について１ｍｅｒカウントが決定されると、この配列リードは、５’規則を使用したＣ＜＞Ｔカウントに寄与する。技術１４０を使用して、参照ゲノムへのアラインメントは、任意選択的であり得る。

【0052】

技術１６０は、参照ゲノム１６５へのアラインメントを有する、配列決定された断片１６１の配列リードを示す。５’末端を開始とみなして、第１の末端モチーフ１６２（ＣＧＣＣ）は、配列決定された断片１６１の開始の直前に生じる第１の部分（ＣＧ）、および配列決定された断片１６１の開始の末端配列の一部である第２の部分（ＣＣ）を有する。第２の末端モチーフ１６４（ＣＣＧＡ）は、配列決定された断片１６１の尾部の直後に生じる第１の部分（ＧＡ）、および配列決定された断片１６１の尾部の末端配列の一部である第２の部分（ＣＣ）を有する。そのような末端モチーフは、一実施形態において、酵素がＧの後、Ｃの直前を切断するときに生じ得る。その場合、ＣＣは、その直前にＣＧが生じている血漿ＤＮＡ断片の末端に優先的に存在し、それによってＣＧＣＣの末端モチーフを提供するであろう。第２の末端モチーフ１６４（ＣＣＧＡ）については、酵素は、ＣとＧとの間を切断し得る。その場合、ＣＣは、血漿ＤＮＡ断片の３’末端に優先的に存在するであろう。そのような末端モチーフ対は、ｃｇ｜ＣＣ＜＞ｔｃ｜ＧＧとラベル付けされ得、ＴＣＧＧは、逆鎖の５’末端からのＣＣＧＡモチーフであり、小文字は、塩基が切断部位１７０の反対側にあることを示し、これは、点線によって示される。切断部位は、酵素（例えば、ヌクレアーゼ）が配列決定された断片１６１を切断する場所である。技術１６０について、隣接するゲノム領域および配列決定された血漿ＤＮＡ断片からの塩基の数を変えられ得、必ずしも固定比率に制限されるとは限らず、例えば、２：２の代わりに、比率は２：３、３：２、４：４、２：４などであり得る。

【0053】

無細胞ＤＮＡ末端対のシグネチャに含まれるヌクレオチドの数が多いほど、モチーフの特異度が高くなり、これは、２つの位置で（約５０～３０ｂｐ離れて）ゲノムにおいて正確な構成で順序付けられた６塩基を有する確率が、ゲノムにおける２つの位置において正確な構成で順序付けられた２塩基を有する確率よりも低いためである。したがって、末端モチーフの長さの選択は、使用目的の用途に必要な感度および／または特異度によって支配され得る。

【0054】

末端配列が、配列リードを参照ゲノムにアラインメントするために使用される場合（例えば、技術１６０で）、末端配列、または直前／直後から決定された任意の配列モチーフは、依然として末端配列から決定される。したがって、技術１６０は、他の塩基への末端配列の関連を作成し、参照は、その関連を作成するためのメカニズムとして使用される。技術１４０と１６０との間の差は、特定のＤＮＡ断片がどの２つの末端モチーフに割り当てられるかであり、これは、相対頻度についての特定の値に影響を与える。しかし、全体的な結果（例えば、分類または病理の決定、臨床的関連ＤＮＡの画分濃度の決定など）は、一貫した技術が、例えば、機械学習モデルを使用して生じ得る、参照値を決定するための任意の訓練データに使用される限り、ＤＮＡ断片が末端モチーフ対にどのように割り当てられるかによって影響されないであろう。

【0055】

特定の末端モチーフ対に対応する末端配列を有するＤＮＡ断片のカウントされた数は、特定の末端モチーフ対の量を決定するためにカウントされ得る（例えば、メモリ内のアレイに保存され得る）。量は、生のカウントまたは頻度など、量が正規化される様々な方法で測定され得る。正規化は、ＤＮＡ断片の総数またはＤＮＡ断片の指定された群内の数（例えば、指定された領域から、指定されたサイズを有する、または１つ以上の指定された末端モチーフを有する）を使用して（例えば、それで除算して）行われ得る。がんが存在する場合、および試料が臨床的関連ＤＮＡの異なる画分濃度が含む場合、末端モチーフ対の量の差が検出されている。

【0056】

Ｂ．ワトソン鎖およびクリック鎖上で定義される末端モチーフ対
末端モチーフ対は、様々な方法で定義され得る、そのうちのいくつかは、前述されている。いくつかの実施形態において、末端モチーフ対は、ワトソン鎖およびクリック鎖の両方を使用して定義される。このようにして、５’末端の配列が使用される。

【0057】

図２は、本開示の実施形態による、Ａ＜＞Ａ断片の構築を示す。図２は、Ａ末端断片およびＡ＜＞Ａ断片を示す。Ａ末端断片は、ワトソン鎖の５’端またはクリック鎖の５’端にＡを有する。塩基は任意の塩基であり得るため、他方の末端は、Ｎで示され得る。Ａ＜＞Ａ断片は、ワトソン鎖の５’端およびクリック鎖の５’端にＡを有する。そのような命名法は、Ｃ＜＞Ｃ、Ｇ＜＞Ｇ、およびＴ＜＞Ｔにも適用され、これらのすべては、本開示全体を通して使用される。

【0058】

２つの鎖に対応するそのような命名法は、ＤＮＡの一本鎖上で配列決定が実施される場合でも使用され得る。例えば、一方の鎖（例えば、ワトソン鎖）の３’末端の末端配列は、他方の鎖の５’末端の相補的末端配列に変換され得る。したがって、末端配列は、規則によって、３’末端の塩基に対する相補的配列であり得る。そのような一本鎖配列決定は、バイサルファイト配列決定で生じ得る。一本鎖配列決定が行われるときにＡ＜＞ＣまたはＣ＜＞Ａを区別するために、参照ゲノムにアラインメントしてもしなくてもよい。しかし、そのような対称断片タイプは、典型的には同じ挙動を有するため、区別する必要がない場合があり、それらは、単一群として一緒にカウントされ得る。

【0059】

Ｃ．ワトソン／クリック鎖の配列決定およびアラインメント
図３は、本発明の一実施形態による、末端モチーフ対を決定するための生物学的試料中における配列決定データの分析を示す。生物学的試料は、がん（例えば、肝細胞がん（ＨＣＣ））を有する疑いがある人から取得され得る。ＨＣＣが一例として使用されるが、実施形態は、他のがんにも適用可能である。

【0060】

ステップ３１０において、ＨＣＣを有する疑がある患者からの生物学的試料３１１が受け取られる。生物学的試料は、血漿、血清、尿、および唾液を含むがこれらに限定されない任意の体液からのものであり得る。試料は、無細胞核酸分子３１２を含有する。一実施形態において、ＤＮＡは、患者の血漿から抽出される。

【0061】

ステップ３２０において、配列決定ライブラリは、例えば、これに限定されないが、ＩｌｌｕｍｉｎａＴｒｕＳｅｑＮａｎｏキットを使用して血漿ＤＮＡから構築される。他の配列決定ライブラリ調製キットも使用され得る。生物学的試料に含有される複数の核酸分子の少なくとも一部分が、配列決定される。配列決定された部分は、ヒトゲノムの一部分、ヒトゲノム全体（もしくは他の動物、植物などの他のゲノム）を表してもよく、または複数倍の配列決定深度であってもよい。様々な長さの両端または断片全体が配列決定され得る。試料中の核酸分子のすべてまたはサブセットのみが配列決定され得る。このサブセットは、ランダムに、または標的を絞った方法で、例えば、特定の配列（例えば、１つ以上の特定の遺伝子座／領域に対応）を捕捉するためのプローブを使用して、または特定の配列を増幅するためのプライマーを使用して選択され得る。一実施形態において、配列決定は、対末端超並列配列決定を使用して、例えば、ＩｌｌｕｍｉｎａＨｉＳｅｑ４０００プラットフォームを用いて行われる。他の配列決定プラットフォームが使用され得る。

【0062】

断片の配列決定データに基づいて、断片末端のヌクレオチドが決定される。ある割合の配列決定されたデータは、低品質であるか、またはＰＣＲ重複とみなされるため、バイオインフォマティクス手順を使用してそれらを後続の分析から破棄し得る。対末端配列決定を伴う一実施形態において、リード１の５’末端およびリード２の５’末端は、断片の末端を表す。完全な分子が配列決定される場合、両端が１つのリードから決定され得る。

【0063】

ステップ３３０において、配列決定されたデータは、例えば、断片のサイズを決定するために、参照ヒトゲノム３５０にアラインメント（マッピング）され得る。例えば、リード１およびリード２は、対として一緒にアラインメントされ得る。アラインメントにより、－１、－２、－３、－４位のヌクレオチド情報も取得され得る。断片サイズ情報も取得され得る。別の例として、例えば、ＤＮＡ分子全体が配列決定される場合、アラインメントを用いることなく、サイズが取得され得る。

【0064】

断片は、両端のヌクレオチドに基づいて分類およびカウントされ得る。一実施形態において、断片を１６タイプに分類するために、各末端の１つのヌクレオチドのみが使用される。より多くのヌクレオチド、例えば、２ｍｅｒ、３ｍｅｒなどを断片内で使用して、断片を分類することができる。切断位置（切断部位）３６５の反対側、例えば、－１、－２、－３、－４位などのヌクレオチド配列もまた、断片を分類するために使用され得る。示されるように、ＣＣ末端が強調表示される場合、参照ゲノム３５０は、これらの位置に列挙されたＮを有する。実際には、実際の塩基は、アラインメント後に取得され得る。

【0065】

いくつかの実施形態において、何がカウントされるかを決定するために、配列決定データに規定が課され得る。例えば、特定のサイズ範囲の核酸断片に対応する配列決定データは、バイオインフォマティクス分析後に選択され得る。サイズ範囲の例は、１５０ｂｐ未満、１５０～２５０ｂｐ、２５０ｂｐ超である。

【0066】

断片タイプの量は、単純にカウントされ得るか、または断片の分類からパラメータが決定され得る。パラメータは、例えば、特定の断片タイプの第１の量（例えば、特定の末端モチーフ対を有する断片の数）および断片の総量の単純な比率であり得る。パラメータは、第１の量に２つ以上の断片タイプを含み得る。

【0067】

パラメータを１つ以上のカットオフ値と比較して、異なる状態の分類を区別することができる。カットオフ値は、既知の分類（例えば、健康または病気）を有する試料の訓練セットから任意の数の好適な方法で決定され得る。例えば、パラメータ（例えば、断片タイプの分数表現）は、正常な対象において確立された参照範囲（カットオフの例）と比較され得る。比較に基づいて、患者が状態（例えば、がん）を有する可能性が高いかどうかの分類が決定される。

【0068】

Ｄ．末端モチーフ対の組み合わせ
可能な断片タイプの数は、２つの末端モチーフで使用される塩基の数によって決まる。使用される塩基の総数がＭの場合、組み合わせの総数は、Ｍ⁴である。例えば、１ｍｅｒが両端で使用される場合、Ｍは２であり、組み合わせの総数は、２⁴＝１６個の異なる組み合わせである。２ｍｅｒが両端で使用される場合、Ｍは４であり、組み合わせの総数は、４⁴＝２５６個の異なる組み合わせである。１ｍｅｒが一方の末端で使用され、２ｍｅｒがもう一方の末端で使用される場合、Ｍは３であり、組み合わせの総数は、３⁴＝８１個の異なる組み合わせである。

【0069】

図４Ａ～４Ｃは、本開示の実施形態による、ｃｆＤＮＡ断片を二末端で分類するための末端モチーフの異なる分類の異なる組み合わせを示す。図４Ａは、１ｍｅｒが両端で使用される場合の１６個の異なる断片タイプを示す。Ａ＜＞Ａ、Ａ＜＞Ｇ、Ｃ＜＞Ｃ（例を図示）などの命名法は、図４Ａおよび本開示全体を通して使用される。示されるように、１ｍｅｒは、両方の断片の５’末端で決定されるが、本明細書に記載されるように、他の規則も可能である。

【0070】

図４Ｂは、断片上の両端での２ｍｅｒの使用を示し、２５６個の異なる断片タイプをもたらす。例示的な断片は、ＣＴ＜＞ＧＡとラベル付けされ得る末端モチーフＣＴおよびＧＡを有する。

【0071】

図４Ｃは、２ｍｅｒモチーフの使用を示し、一方の塩基が断片上にあり、もう一方の塩基が断片外（すなわち、切断部位の反対側）にある。末端モチーフ対に２ｍｅｒを使用すると、２５６個の異なる断片タイプをもたらす。しかし、断片外の塩基の使用を所与として、命名法は異なる。そのような塩基は、参照ゲノムへのアラインメントによって決定され得る。例示的な断片は、末端モチーフＴＡ（Ｔは断片外）およびＣＴ（Ｃは断片外）を有する。本開示において、例示的な断片の命名法は、ｔ｜Ａ＜＞ｃ｜Ｔである。

【0072】

したがって、断片の両端の配列を使用して、断片タイプを定義することができる。分析は、断片切断部位の周辺の可変位置で１ｍｅｒ、２ｍｅｒ、３ｍｅｒなどを用いて実施され得る。断片末端は、－１、－２、－３などの位置のヌクレオチドによってのみ定義され得る（すなわち、切断部位の反対側から）。切断部位の周辺で分析されるモチーフは、対称である必要はなく、例えば、切断前に１つのヌクレオチド、および切断後に２つのヌクレオチドが存在してもよく、ヌクレオチドは、切断の前後で異なってもよい。断片末端の配列は、配列決定技術またはプローブ／プライマーベース（例えば、ＰＣＲベース）の方法によって決定され得る。ＰＣＲベースの方法の使用例としては、一般的に切断、例えば、ｃｔ｜ＣＣＣＡであるモチーフのプライマー／プローブを設計すること、および定量的変化を検出することが挙げられ得るが、これらに限定されない。別の例として、リガーゼ連鎖反応が使用され得、２つのプローブ間に完全な相補性がある場合のみ、ライゲーションおよびその後の増幅が生じる。プローブは、末端モチーフ配列に相補的であるように設計され得る。

【0073】

ＩＩ．肝臓病理のスクリーニング
無細胞ＤＮＡの異なる断片タイプは、対象の異なるコホートの血漿および他の無細胞試料において異なる量で生じ得る。このセクションでは、異なる断片タイプを使用して、がん（例えば、ＨＣＣ）、ＨＢＶ、または肝硬変などの異なる肝臓病理をスクリーニングすることができることを示す。ＨＣＣを有する対象とＨＣＣを有しない対象とを区別する能力は、ＨＣＣの初期、中期、および進行のステージを区別する能力と同様に、末端モチーフに１ｍｅｒおよび２ｍｅｒを使用して示される。

【0074】

二末端分析の可能性を試験するために、２０人の健康な対照対象（対照）、２２人の慢性Ｂ型肝炎保有者（ＨＢＶ）、１２人の肝硬変対象（Ｃｉｒｒ）、２４人の初期ステージＨＣＣ（ｅＨＣＣ）、１１人の即時ステージＨＣＣ（ｉＨＣＣ）、および対リード数の中央値が２億１５００万（範囲：９７００万～１６億８１００万）の７人の進行ステージＨＣＣ（ａＨＣＣ）を含むデータセットを使用した。この配列決定の量は、およそ１０～１００倍の配列決定深度に対応する。したがって、がんなし、および３つのがんステージを含む潜在的に４つのがんレベルを有する、対象の６つの異なるコホートからの血漿試料を使用した。また、合計９６人の対象を使用した。このセクションでは、１６タイプのすべての１ｍｅｒ末端モチーフ対を分析した。Ｉｌｌｕｍｉｎａベースの配列決定を使用したが、他の配列決定プラットフォームが使用され得る。バイサルファイト配列決定を使用したが、他の配列決定（例えば、非バイサルファイト処理されたＤＮＡのＤＮＡ、すなわち、ＤＮＡ－ｓｅｑ）も使用され得る。がんの分類は、多くの臨床パラメータに基づくＢａｒｃｅｌｏｎａＣｌｉｎｉｃＬｉｖｅｒＣａｎｃｅｒＳｔａｇｉｎｇシステムに基づいている。

【0075】

Ａ．ＨＣＣの１ｍｅｒ末端モチーフ対
１ｍｅｒのみを使用したこの二末端分析では、切断部位の反対側の１ｍｅｒの使用とは対照的に、断片の各末端の１ｍｅｒ末端ヌクレオチドによって断片を定義した。各断片タイプ（特定の末端モチーフ対）の割合（相対頻度の例）を、各試料において計算した。例えば、Ｃ＜＞Ｃ断片の割合（Ｃ＜＞Ｃ％）を、Ｃ＜＞Ｃ断片の数／すべてのタイプの断片の総数として計算した。

【0076】

この断片タイプの割合を使用して、受信者動作特性（ＲＯＣ）曲線の曲線下面積（ＡＵＣ）、および１ｍｅｒ二末端を使用して可能な１６タイプの断片の各々において、非がん試料（対照、ＨＢＶ、Ｃｉｒｒ）とがん試料（ｅＨＣＣ、ｉＨＣＣ、ａＨＣＣ）とを区別するその可能性を分析した。

【0077】

図５Ａ～１２Ｄは、本開示の実施形態による、すべての可能な１ｍｅｒ二末端断片タイプの分類結果を示す。各１ｍｅｒ二末端断片の割合は、各試料において計算され、対象の６つのコホートの各々について対応する箱ひげ図にプロットされる。非がん（対照、ＨＢＶキャリア（ＨＢＶ）、肝硬変（ｃｉｒｒ））と、がん（初期ＨＣＣ（ｅＨＣＣ）、中期ＨＣＣ（ｉＨＣＣ）、進行ＨＣＣ（ａＨＣＣ））とを区別する際の、断片タイプの能力のパーセンテージに対応するＲＯＣ曲線は、ＡＵＣとともに箱ひげ図の左側に示される。１６タイプうち、Ｃ＜＞Ｃ％は、ＡＵＣ＝０．９１で最良の性能であった。

【0078】

１．Ａの結果
図５Ａ～５Ｂは、本開示の実施形態による、Ａ＜＞Ａ断片を使用した９６人の対象の分類結果を示す。図５Ａは、Ａ＜＞Ａ断片の受信者動作特性（ＲＯＣ）曲線を示す。図５Ｂは、６タイプの対象についてのＡ＜＞Ａ断片のパーセントの箱ひげ図を示す。図５Ｂに見られるように、３つの非がんコホートと３つのがんコホートとの間の差は有意ではなく、図５Ａの小さなＡＵＣをもたらす。

【0079】

図５Ｃ～５Ｄは、本開示の実施形態による、Ａ＜＞Ｃ断片を使用した９６人の対象の分類結果を示す。図５Ｃは、Ａ＜＞Ｃ断片のＲＯＣ曲線を示す。図５Ｄは、６タイプの対象についてのＡ＜＞Ｃ断片のパーセントの箱ひげ図を示す。図５Ｂとは異なり、非がん対象は、一般に、がん対象よりも高いＡ＜＞Ｃ割合を有する。この差は、ＲＯＣ曲線におけるより良好なＡＵＣをもたらす。図５Ｄに示されるように、Ａ＜＞Ｃ末端を有するＤＮＡ断片の割合のパラメータは、がん対象と非がん対象とを区別する参照値の好適な選択により、約０．８の感度および約０．６５の特異度を提供することができる。より高いまたはより低い参照値は、感度と特異度の増加／減少間のトレードオフをもたらし得る。当業者は、感度と特異度との間のトレードオフを理解し、１つ以上の末端モチーフ対の任意のセットについて好適な参照（カットオフ）値を選択することができるであろう。

【0080】

図６Ａ～６Ｂは、本開示の実施形態による、Ａ＜＞Ｇ断片を使用した９６人の対象の分類結果を示す。図６Ａは、Ａ＜＞Ｇ断片のＲＯＣ曲線を示す。図６Ｂは、６タイプの対象についてのＡ＜＞Ｇ断片のパーセントの箱ひげ図を示す。図６Ｂに見られるように、３つの非がんコホートと３つのがんコホートとの間には差があり、がん対象は、一般に、より高いＡ＜＞Ｇパーセントを有する。さらに、進行ＨＣＣは、特に、初期および中期がん対象よりも統計的に有意な差を有する（より高い）。

【0081】

図６Ｃ～６Ｄは、本開示の実施形態による、Ａ＜＞Ｔ断片を使用した９６人の対象の分類結果を示す。図６Ｃは、Ａ＜＞Ｔ断片のＲＯＣ曲線を示す。図６Ｄは、６タイプの対象についてのＡ＜＞Ｔ断片のパーセントの箱ひげ図を示す。図６Ｄに見られるように、３つの非がんコホートと３つのがんコホートとの間には顕著な差があり、がん対象は、一般に、より高いＡ＜＞Ｔパーセントを有する。さらに、中期ＨＣＣ対象は、一般に、初期ＨＣＣ対象よりも高いＡ＜＞Ｔパーセントを有し、進行ＨＣＣ対象は、一般に、ｉＨＣＣ対象よりも高いＡ＜＞Ｔパーセントを有する。

【0082】

２．Ｃの結果
図７Ａ～７Ｂは、本開示の実施形態による、Ｃ＜＞Ａ断片を使用した９６人の対象の分類結果を示す。図７Ａは、Ｃ＜＞Ａ断片のＲＯＣ曲線を示す。図７Ｂは、６タイプの対象についてのＣ＜＞Ａ断片のパーセントの箱ひげ図を示す。図７Ｂに見られるように、３つの非がんコホートと３つのがんコホートとの間には差があり、がん対象は、一般に、より低いＣ＜＞Ａパーセントを有する。

【0083】

特に、ＨＢＶ対象および肝硬変対象は、対照対象およびがん対象よりも高いＣ＜＞Ａパーセントを有する。図７Ｂは、二末端分析をより一般的に使用して、がんのみならず、病理のレベルを決定することができることを示す。同様に、Ａ＜＞Ｃはまた、例えば、Ａ＜＞Ｃに示されるように、そのような分類のためにも使用され得る。ＨＢＶおよび肝硬変を検出するためのさらなる結果は、後に提供される。

【0084】

図７Ｃ～７Ｄは、本開示の実施形態による、Ｃ＜＞Ｃ断片を使用した９６人の対象の分類結果を示す。図７Ｃは、Ｃ＜＞Ｃ断片のＲＯＣ曲線を示す。図７Ｄは、６タイプの対象についてのＣ＜＞Ｃ断片のパーセントの箱ひげ図を示す。図７Ｄに見られるように、３つの非がんコホートと３つのがんコホートとの間には有意差があり、がん対象は、一般に、より低いＣ＜＞Ｃパーセントを有する。図７ＣのＲＯＣ曲線は、一実施形態が、約０．８の感度を達成しながらも、約０．９の特異度を達成することができることを示す。１ｍｅｒの場合、Ｃ＜＞Ｃが最高ＡＵＣを提供する。

【0085】

いくつかの実施形態において、異なる断片タイプを一緒に使用して、例えば、異なる病理または陽性の病理内の異なるレベルをスクリーニングすることができる。例えば、Ｃ＜＞Ｃを使用して、がんをスクリーニングすることができ、Ｃ＜＞Ａを使用して、ＨＢＶ／肝硬変をスクリーニングすることができる。がんが検出された場合、異なる断片タイプ（例えば、Ａ＜＞Ｔ）を使用して、がんのステージを決定することができる。

【0086】

図８Ａ～８Ｂは、本開示の実施形態による、Ｃ＜＞Ｇ断片を使用した９６人の対象の分類結果を示す。図８Ａは、Ｃ＜＞Ｇ断片のＲＯＣ曲線を示す。図８Ｂは、６タイプの対象についてのＣ＜＞Ｇ断片のパーセントの箱ひげ図を示す。図８Ｂに見られるように、非がん対象とがん対象との間にはある程度の差がある。ｅＨＣＣ対象の区別はやや不良であるが、ｅＨＣＣ、ｉＨＣＣ、およびａＨＣＣの間の区別は良好である。したがって、がん検出（例えば、Ｃ＜＞Ｃを使用した）の後、Ｃ＜＞Ｇを使用して、がんのステージを決定することができる。

【0087】

図８Ｃ～８Ｄは、本開示の実施形態による、Ｃ＜＞Ｔ断片を使用した９６人の対象の分類結果を示す。図８Ｃは、Ｃ＜＞Ｔ断片のＲＯＣ曲線を示す。図８Ｄは、６タイプの対象についてのＣ＜＞Ｔ断片のパーセントの箱ひげ図を示す。Ｃ＜＞Ｔの結果は、不良である。

【0088】

Ｃ＜＞Ｃががんと非がんとを区別するための大きなＡＵＣを提供するが、Ｃ＜＞Ｔの性能が不良であり、一方で、Ａ＜＞Ａの性能が不良であるが、Ａ＜＞Ｔの性能が非常に良好であることは注目に値する。

【0089】

３．Ｇの結果
図９Ａ～９Ｂは、本開示の実施形態による、Ｇ＜＞Ａ断片を使用した９６人の対象の分類結果を示す。図９Ａは、Ｇ＜＞Ａ断片のＲＯＣ曲線を示す。図９Ｂは、６タイプの対象についてのＧ＜＞Ａ断片のパーセントの箱ひげ図を示す。異なるコホート間の分離は、他の断片タイプほど良好ではない。

【0090】

図９Ｃ～９Ｄは、本開示の実施形態による、Ｇ＜＞Ｃ断片を使用した９６人の対象の分類結果を示す。図９Ｃは、Ｇ＜＞Ｃ断片のＲＯＣ曲線を示す。図９Ｄは、６タイプの対象についてのＧ＜＞Ｃ断片のパーセントの箱ひげ図を示す。図９Ｄに見られるように、非がん対象とがん対象との間にはある程度の差がある。ｅＨＣＣ対象の区別はやや不良であるが、ｅＨＣＣ、ｉＨＣＣ、およびａＨＣＣの間の区別は良好である。したがって、がん検出（例えば、Ｃ＜＞Ｃを使用した）の後、Ｇ＜＞Ｃを使用して、がんのステージを決定することができる。図９ＤのＧ＜＞Ｃの性能は、図８ＢのＣ＜＞Ｇの性能と同様である。

【0091】

図１０Ａ～１０Ｂは、本開示の実施形態による、Ｇ＜＞Ｇ断片を使用した９６人の対象の分類結果を示す。図１０Ａは、Ｇ＜＞Ｇ断片のＲＯＣ曲線を示す。図１０Ｂは、６タイプの対象についてのＧ＜＞Ｇ断片のパーセントの箱ひげ図を示す。感度の大幅な増加は、約０．６の特異度で生じる。

【0092】

図１０Ｃ～１０Ｄは、本開示の実施形態による、Ｇ＜＞Ｔ断片を使用した９６人の対象の分類結果を示す。図１０Ｃは、Ｇ＜＞Ｔ断片のＲＯＣ曲線を示す。図１０Ｄは、６タイプの対象についてのＧ＜＞Ｔ断片のパーセントの箱ひげ図を示す。Ｇ＜＞Ｔパーセントは、がんと非がんとの間の適切な区別を提供する。

【0093】

４．Ｔの結果
図１１Ａ～１１Ｂは、本開示の実施形態による、Ｔ＜＞Ａ断片を使用した９６人の対象の分類結果を示す。図１１Ａは、Ｔ＜＞Ａ断片のＲＯＣ曲線を示す。図１１Ｂは、６タイプの対象についてのＴ＜＞Ａ断片のパーセントの箱ひげ図を示す。Ｔ＜＞Ａパーセントは、がんと非がんとの間の良好な区別を提供し、結果は、図６Ｄに示されるようなＡ＜＞Ｔパーセントに匹敵する。がんとＨＢＶおよび肝硬変との間の区別は、は特に良好である。したがって、Ｔ＜＞Ａパーセントのパラメータを使用して、対象がＨＢＶ／肝硬変またはがんを有するかどうかを検出し得る。そのような測定の結果が以下に示される。

【0094】

図１１Ｃ～１１Ｄは、本開示の実施形態による、Ｔ＜＞Ｃ断片を使用した９６人の対象の分類結果を示す。図１１Ｃは、Ｔ＜＞Ｃ断片のＲＯＣ曲線を示す。図１１Ｄは、６タイプの対象についてのＴ＜＞Ｃ断片のパーセントの箱ひげ図を示す。Ｔ＜＞Ｃの結果は不良であり、図８ＤにあるようなＣ＜＞Ｔの結果と同様である。

【0095】

図１２Ａ～１２Ｂは、本開示の実施形態による、Ｔ＜＞Ｇ断片を使用した９６人の対象の分類結果を示す。図１２Ａは、Ｔ＜＞Ｇ断片のＲＯＣ曲線を示す。図１２Ｂは、６タイプの対象についてのＴ＜＞Ｇ断片のパーセントの箱ひげ図を示す。Ｔ＜＞Ｇパーセントは、がんと非がんとの間の適切な区別を提供する。

【0096】

図１２Ｃ～１２Ｄは、本開示の実施形態による、Ｔ＜＞Ｔ断片を使用した９６人の対象の分類結果を示す。図１２Ｃは、Ｔ＜＞Ｔ断片のＲＯＣ曲線を示す。図１２Ｄは、６タイプの対象についてのＴ＜＞Ｔ断片のパーセントの箱ひげ図を示す。Ｔ＜＞Ｔパーセントは、約０．８の感度までがんと非がんとの間の適切な区別を提供するが、感度の向上は、特異度の低下とともに失速する。

【0097】

Ｂ．ＨＣＣの２ｍｅｒ末端モチーフ対
同様の二末端分析は、各末端の２ｍｅｒを使用しても行われ得る。上記のように、そのような二末端分析は、２５６個の異なる組み合わせを生成する。２ｍｅｒの末端モチーフ対の２５６個すべての組み合わせを分析して、ＨＣＣ分析で使用された９６人の対象について０．９超のＡＵＣを提供する組み合わせを決定した。０．９超のＡＵＣを提供する断片タイプ（２ｍｅｒ末端モチーフ対）は、１１個存在する。

【0098】

図１３Ａ～１８Ｂは、本開示の実施形態による、非がんとＨＣＣとを区別する際の、０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプの分類結果を示す。これらの断片タイプでは、ＡＧ＜＞ＴＡ断片は、０．９３８の最高ＡＵＣを有する。高頻度と高ＡＵＣの両方を有する断片タイプの例は、ＣＣ＜＞ＣＣ断片であり、対照の頻度中央値は、約３％およびＡＵＣ＝０．９１６である。

【0099】

０．９超のＡＵＣを有する２ｍｅｒ二末端断片タイプは、１ｍｅｒ二末端断片タイプよりも多く存在する。しかし、より多い組み合わせを所与として、各断片タイプが生じる頻度はより低い。所与のタイプの断片がより少ないと、所望の統計精度を達成するために必要な配列決定の量および試料のサイズに影響を与える可能性がある。

【0100】

１．ＴＡの結果
図１３Ａ～１３Ｂは、本開示の実施形態による、ＡＡ＜＞ＴＡ断片を使用した９６人の対象の分類結果を示す。図１３Ａは、ＡＡ＜＞ＴＡ断片のＲＯＣ曲線を示す。図１３Ｂは、６タイプの対象についてのＡＡ＜＞ＴＡ断片のパーセントの箱ひげ図を示す。図１３Ｃ～１３Ｄは、本開示の実施形態による、ＴＡ＜＞ＡＡ断片を使用した９６人の対象の分類結果を示す。図１３Ｃは、ＴＡ＜＞ＡＡ断片のＲＯＣ曲線を示す。図１３Ｄは、６タイプの対象についてのＴＡ＜＞ＡＡ断片のパーセントの箱ひげ図を示す。ＡＡ＜＞ＴＡおよびＴＡ＜＞ＡＡの結果は同様である。がん対象と非がん対象との間には良好な分離があるが、異なるがんステージ間の分離ほど良好ではない。

【0101】

図１４Ａ～１４Ｂは、本開示の実施形態による、ＡＧ＜＞ＴＡ断片を使用した９６人の対象の分類結果を示す。図１４Ａは、ＡＧ＜＞ＴＡ断片のＲＯＣ曲線を示す。図１４Ｂは、６タイプの対象についてのＡＧ＜＞ＴＡ断片のパーセントの箱ひげ図を示す。図１４Ｃ～１４Ｄは、本開示の実施形態による、ＴＡ＜＞ＡＧ断片を使用した９６人の対象の分類結果を示す。図１４Ｃは、ＴＡ＜＞ＡＧ断片のＲＯＣ曲線を示す。図１４Ｄは、６タイプの対象についてのＴＡ＜＞ＡＧ断片のパーセントの箱ひげ図を示す。

【0102】

ＡＧ＜＞ＴＡおよびＴＡ＜＞ＡＧの結果は同様である。がん対象と非がん対象との間には良好な分離がある。また、ａＨＣＣと他の２つのがん分類（ｅＨＣＣおよびｉＨＣＣ）との間にも良好な分離がある。したがって、これらの断片タイプを使用して、ａＨＣＣ対象を正確に同定すること、ならびにがんをスクリーニングすることができる。

【0103】

図１５Ａ～１５Ｂは、本開示の実施形態による、ＴＡ＜＞ＧＴ断片を使用した９６人の対象の分類結果を示す。図１５Ａは、ＴＡ＜＞ＧＴ断片のＲＯＣ曲線を示す。図１５Ｂは、６タイプの対象についてのＴＡ＜＞ＧＴ断片のパーセントの箱ひげ図を示す。図１５Ｃ～１５Ｄは、本開示の実施形態による、ＧＴ＜＞ＴＡ断片を使用した９６人の対象の分類結果を示す。図１５Ｃは、ＧＴ＜＞ＴＡ断片のＲＯＣ曲線を示す。図１５Ｄは、６タイプの対象についてのＧＴ＜＞ＴＡ断片のパーセントの箱ひげ図を示す。

【0104】

ＴＡ＜＞ＧＴおよびＧＴ＜＞ＴＡの結果は同様である。がん対象と非がん対象との間には良好な分離がある。また、ａＨＣＣと他の２つのがん分類（ｅＨＣＣおよびｉＨＣＣ）との間にも良好な分離があるが、ＡＧ＜＞ＴＡおよびＴＡ＜＞ＡＧほど良好ではない。したがって、これらの断片タイプを使用して、ａＨＣＣ対象を同定すること、ならびにがんをスクリーニングすることができる。

【0105】

２．ＣＣの結果
図１６Ａ～１６Ｂは、本開示の実施形態による、ＣＧ＜＞ＣＣ断片を使用した９６人の対象の分類結果を示す。図１６Ａは、ＣＧ＜＞ＣＣ断片のＲＯＣ曲線を示す。図１６Ｂは、６タイプの対象についてのＣＧ＜＞ＣＣ断片のパーセントの箱ひげ図を示す。図１６Ｃ～１６Ｄは、本開示の実施形態による、ＣＣ＜＞ＣＧ断片を使用した９６人の対象の分類結果を示す。図１６Ｃは、ＣＣ＜＞ＣＧ断片のＲＯＣ曲線を示す。図１６Ｄは、６タイプの対象についてのＣＣ＜＞ＣＧ断片のパーセントの箱ひげ図を示す。

【0106】

ＣＧ＜＞ＣＣおよびＣＣ＜＞ＧＣの結果は同様である。がん対象と非がん対象との間には良好な分離がある。また、ａＨＣＣと他の２つのがん分類（ｅＨＣＣおよびｉＨＣＣ）との間にも良好な分離がある。したがって、これらの断片タイプを使用して、ａＨＣＣ対象を同定すること、ならびにがんをスクリーニングすることができる。

【0107】

図１７Ａ～１７Ｂは、本開示の実施形態による、ＣＣ＜＞ＣＡ断片を使用した９６人の対象の分類結果を示す。図１７Ａは、ＣＣ＜＞ＣＡ断片のＲＯＣ曲線を示す。図１７Ｂは、６タイプの対象についてのＣＣ＜＞ＣＡ断片のパーセントの箱ひげ図を示す。図１７Ｃ～１７Ｄは、本開示の実施形態による、ＣＡ＜＞ＣＣ断片を使用した９６人の対象の分類結果を示す。図１７Ｃは、ＣＡ＜＞ＣＣ断片のＲＯＣ曲線を示す。図１７Ｄは、６タイプの対象についてのＣＡ＜＞ＣＣ断片のパーセントの箱ひげ図を示す。

【0108】

ＣＣ＜＞ＣＡおよびＣＡ＜＞ＣＣの結果は同様である。がん対象と非がん対象との間には良好な分離がある。また、ａＨＣＣと他の２つのがん分類（ｅＨＣＣおよびｉＨＣＣ）との間にも適切な分離がある。したがって、これらの断片タイプを使用して、ａＨＣＣ対象を同定すること、ならびにがんをスクリーニングすることができる。

【0109】

図１８Ａ～１８Ｂは、本開示の実施形態による、ＣＣ＜＞ＣＣ断片を使用した９６人の対象の分類結果を示す。図１８Ａは、ＣＣ＜＞ＣＣ断片のＲＯＣ曲線を示す。図１８Ｂは、６タイプの対象についてのＣＣ＜＞ＣＣ断片のパーセントの箱ひげ図を示す。がん対象と非がん対象との間には良好な分離がある。また、ａＨＣＣと他の２つのがん分類（ｅＨＣＣおよびｉＨＣＣ）との間にも適切な分離がある。したがって、これらの断片タイプを使用して、ａＨＣＣ対象を同定すること、ならびにがんをスクリーニングすることができる。

【0110】

ＣＣ＜＞ＣＣの利点は、これらの断片が、一般に、血漿試料中のすべてのｃｆＤＮＡの１～５％を構成し、それによって比較的小さな試料から多数のＤＮＡ断片を提供することである。例えば、５００，０００個のＤＮＡ断片は、十分な精度を提供することができ、それによって少量の試料（例えば、血漿から抽出された１ｎｇ未満のＤＮＡまたは１マイクロリットルのＤＮＡ溶液）が使用されることを可能にする。例えば、２００ｂｐの５０００万個の断片（典型的には血漿中の）は、ヒトゲノムの約０．３倍に等しい。ＤＮＡの約１，０００～５，０００個のゲノム等価物としての１ｍＬの血漿。平均して、各ゲノムは、数百万個のＤＮＡ断片に断片化される。試料がより大きい場合でも、より少ない配列決定が実施され得る。しかし、より低い頻度を有する他の断片タイプの場合でも、特定のタイプの断片がゲノム内のどこかに由来し得るため、そのような断片は、標準的な配列決定実行においてなおも十分である。断片の数および精度の関係については、後のセクションで調査される。

【0111】

Ｃ．切断部位の両側の塩基を使用した２ｍｅｒ末端モチーフ対
上記のように、切断部位の両側の塩基が使用され得る。切断部位の反対側の塩基は、小文字を使用してラベル付けされ得、断片の塩基は、大文字を使用してラベル付けされ得る。断片外の塩基の使用は、断片化が切断部位の両側の塩基によって決まる場合を反映し得る。

【0112】

－１、－２、－３などの位置のヌクレオチド情報は、有益であり、二末端分析の性能を強化し得る。ヌクレオチド情報は、配列決定された断片を参照ゲノムに再びアラインメントした後に取得され得る。一実施形態において、各末端の－１および＋１位のヌクレオチドを使用して、断片タイプを分類した。明確にするために、ここでは負の位置にあるヌクレオチドが小文字で示される。縦線（｜）は、断片の末端の切断部位を示す）。－１および＋１位が使用されるが、位置は、連続している必要はなく、例えば、－２および＋１が使用され得る。

【0113】

図１９Ａ～１９Ｂは、本開示の実施形態による、ＨＣＣを区別する際の、－１および＋１位のヌクレオチドを有する二末端分析の性能を示す。図１９Ａ～１９Ｂは、本開示の実施形態による、ｔ｜Ｃ＜＞ｃ｜Ｃ断片を使用した分類結果を示す。図１９Ａは、ｔ｜Ｃ＜＞ｃ｜Ｃ断片のＲＯＣ曲線を示す。図１９Ｂは、６タイプの対象についてのｔ｜Ｃ＜＞ｃ｜Ｃ断片のパーセントの箱ひげ図を示す。図１９Ｃ～１９Ｄは、本開示の実施形態による、ｃ｜Ｃ＜＞ｔ｜Ｃ断片を使用した分類結果を示す。図１９Ｃは、ｃ｜Ｃ＜＞ｔ｜Ｃ断片のＲＯＣ曲線を示す。図１９Ｄは、６タイプの対象についてのｃ｜Ｃ＜＞ｔ｜Ｃ断片のパーセントの箱ひげ図を示す。

【0114】

ｔ｜Ｃ＜＞ｃ｜Ｃおよびｃ｜Ｃ＜＞ｔ｜Ｃの結果は同様であり、最良の性能の－１、＋１タイプである。ＨＣＣデータセットの二末端分析に－１および＋１位を含むと、ｔ｜Ｃ＜＞ｃ｜Ｃおよびｃ｜Ｃ＜＞ｔ｜Ｃ断片において、ＡＵＣ＝０．９１７でＨＣＣと非がんとの間の区別を達成する。そのような断片の頻度も、延期が断片上にある場合、２ｍｅｒ断片タイプのほとんどよりもやや高い。

【0115】

Ｄ．ＨＢＶおよび肝硬変
いくつかの実施形態は、上記のように、がん以外の他の病理のレベルを検出することができる。肝臓の場合、そのような病理には、ＨＢＶによって引き起こされる慢性肝炎および肝硬変が含まれる。対照とＨＢＶによる慢性肝炎、および対照と肝硬変とを区別する際の最高ＡＵＣを有するモチーフが、以下の表１に提供される。いくつかの例示的なＲＯＣ曲線が後に続く。

【表1】

【0116】

図２０Ａ～２０Ｃは、本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＣＧ＜＞ＡＡの性能を提供する。図２０Ａは、ＣＧ＜＞ＡＡの箱ひげ図であり、対照とＨＢＶならびに肝硬変との間の分離を示す。図２０Ｂは、対照とＨＢＶとを区別するＣＧ＜＞ＡＡのＲＯＣ曲線を示し、ＡＵＣは０．８６４であり、これは、ＨＢＶの最良の２ｅｎｄ：＋２末端モチーフ対であった。図２０Ｃは、対照と肝硬変とを区別するＣＧ＜＞ＡＡのＲＯＣ曲線を示し、ＡＵＣは０．８０４である。

【0117】

図２１Ａ～２１Ｃは、本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＧＣ＜＞ＴＡの性能を提供する。図２１Ａは、ＧＣ＜＞ＴＡの箱ひげ図であり、対照と肝硬変ならびにＨＢＶとの間の分離を示す。図２１Ｂは、対照とＨＢＶとを区別するＧＣ＜＞ＴＡのＲＯＣ曲線を示し、ＡＵＣは０．７６６である。図２１Ｃは、対照と肝硬変とを区別するＧＣ＜＞ＴＡのＲＯＣ曲線を示し、ＡＵＣは０．８７１であり、これは、肝硬変の最良の２ｅｎｄ：＋２末端モチーフ対と並んだ。

【0118】

図２１Ｄ～２１Ｆは、本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＴＡ＜＞ＧＣの性能を提供する。図２１Ｄは、ＴＡ＜＞ＧＣの箱ひげ図であり、対照と肝硬変ならびにＨＢＶとの間の分離を示す。図２１Ｅは、対照とＨＢＶとを区別するＴＡ＜＞ＧＣのＲＯＣ曲線を示し、ＡＵＣは０．７７である。図２１Ｆは、対照と肝硬変とを区別するＴＡ＜＞ＧＣのＲＯＣ曲線を示し、ＡＵＣは０．８７１であり、これは、肝硬変の最良の２ｅｎｄ：＋２末端モチーフ対と並んだ。

【0119】

図２２Ａ～２２Ｃは、本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＣ＜＞Ｃの性能を提供する。図２２Ａは、Ｃ＜＞Ｃの箱ひげ図であり、対照と肝硬変ならびにＨＢＶとの間の分離を示す。図２２Ｂは、対照とＨＢＶとを区別するＣ＜＞ＣのＲＯＣ曲線を示し、ＡＵＣは０．７７７である。図２２Ｃは、対照と肝硬変とを区別するＣ＜＞ＣのＲＯＣ曲線を示し、ＡＵＣは０．８６７である。

【0120】

図２２Ｄ～２２Ｆは、本開示の実施形態による、対照とＨＢＶおよび肝硬変とを区別する際のＣ＜＞Ａの性能を提供する。図２２Ｄは、Ｃ＜＞Ａの箱ひげ図であり、対照と肝硬変ならびにＨＢＶとの間の分離を示す。図２２Ｆは、対照とＨＢＶとを区別するＣ＜＞ＡのＲＯＣ曲線を示し、ＡＵＣは０．７６１である。図２２Ｆは、対照と肝硬変とを区別するＣ＜＞ＡのＲＯＣ曲線を示し、ＡＵＣは０．８６２である。

【0121】

Ｅ．他の末端モチーフ対およびパラメータ（集計値）の例
異なる断片タイプの末端モチーフ対について上に示したように、異なるＮ－ｍｅｒとの異なる組み合わせは、より良好な性能をもたらし得る。いくつかの他の例は、ｔｔ｜ＣＣ＜＞ｃｔ｜ＣＣまたはａ｜ＣＣＣ＜＞ｃｔ｜ＣＧであり得る。

【0122】

さらに、異なる断片タイプの割合は、例えば、個々の値を合計し、統計値（例えば、平均（ｍｅａｎ）、平均（ａｖｅｒａｇｅ）、加重平均、中央値、もしくはモード）を決定することによって組み合わされ得るか、または機械学習モデルへの入力として使用され得る。例えば、断片タイプのセットの各々は、多次元データ点を表すベクトルの１つの次元を形成することができる。異なる分類のデータ点は、クラスターを形成することができ、新しい試料の新しいデータ点が、各クラスターの重心からのベクトル距離（例えば、断片タイプの割合の差）に基づいてクラスターに割り当てられ得る。サポートベクターマシン、決定木、ニューラルネットワークなど、様々な他のモデルが使用され得る。

【0123】

ＩＩＩ．他の組織の病理
末端モチーフ対を使用して、他のがんをスクリーニングすることもできる。他のがんの例として、結腸直腸がん（ＣＲＣ）、肺扁平上皮がん（ＬＵＳＣ）、鼻咽頭がん（ＮＰＣ）、および頭頸部扁平上皮がん（ＨＮＳＣＣ）が使用される。これらのがんは、検出され得る一般的ながんの良い代表である。

【0124】

３０個の追加の対照試料および他のがんタイプの４０個の血漿ＤＮＡ試料（１０個の結腸直腸がん（ＣＲＣ）、１０個の肺扁平上皮がん（ＬＵＳＣ）、１０個の鼻咽頭がん（ＮＰＣ）、および１０個の頭頸部扁平上皮がん（ＨＮＳＣＣ））を、４２００万の対リードの中央値（範囲：１９００万～６５００万）に配列決定した。

【0125】

Ａ．ＣＣ＜＞ＣＣ
ＣＣ＜＞ＣＣの性能が良好であったこと、およびこの断片タイプが血漿試料で一般的であったことを所与として、他のタイプのがんにおいてＣＣ＜＞ＣＣ％を用いた二末端分析の可能性を試験した。

【0126】

図２３～２５Ｂは、本開示の実施形態による、対照と、結腸直腸がん（ＣＲＣ）、肺扁平上皮がん（ＬＵＳＣ）、鼻咽頭がん（ＮＰＣ）、および頭頸部扁平上皮がん（ＨＮＳＣＣ）などの他のがんとを区別する際の、ＣＣ＜＞ＣＣ断片の割合のＲＯＣ曲線およびＡＵＣ値を示す。非がんと、これらの他の４つのタイプのがんの組み合わせとを区別する際、図２３に示されるように、ＡＵＣは０．７７である。ＡＵＣを含むＲＯＣ曲線の精度は、対象ががんを有するかどうかを区別するために決定される。

【0127】

また、これらの４つのタイプのがんの各々を個別に分析した。対照と特定のタイプのがんとを区別するために、ＲＯＣ曲線およびＡＵＣが提供される。

【0128】

図２４Ａは、本開示の実施形態による、対照とＣＲＣとを区別する際の、ＣＣ＜＞ＣＣ断片の割合のＲＯＣ曲線およびＡＵＣ値を示す。図２４Ｂは、本開示の実施形態による、対照とＬＵＳＣとを区別する際の、ＣＣ＜＞ＣＣ断片の割合のＲＯＣ曲線およびＡＵＣ値を示す。図２５Ａは、本開示の実施形態による、対照とＮＰＣとを区別する際の、ＣＣ＜＞ＣＣ断片の割合のＲＯＣ曲線およびＡＵＣ値を示す。図２５Ｂは、本開示の実施形態による、対照とＨＮＳＣＣとを区別する際の、ＣＣ＜＞ＣＣ断片の割合のＲＯＣ曲線およびＡＵＣ値を示す。各個々のがんタイプによって分けられた場合、ＨＮＳＣＣを区別するためのＡＵＣは０．９１３、ＮＰＣについては０．８３３、ＣＲＣについては０．６９７、ＬＵＳＣについては０．６６３である。

【0129】

Ｂ．－１および＋１位
また、＋１位と組み合わせた、断片外、具体的には－１位の塩基の使用を分析した。これらの４つの他のがんを区別するための二末端分析に－１位のヌクレオチドを含む例が、以下に提供される。

【0130】

１．ｔ｜Ｃの結果
図２６Ａ～２８Ｂは、本開示の実施形態による、他のがん（ＣＲＣ、ＬＵＳＣ、ＮＰＣ、ＨＮＳＣＣ）を区別する際の、－１および＋１位のヌクレオチドを有する３つの例示的な二末端断片の性能を示す。３つの例の各々は、１つの末端または２つの末端にｔ｜Ｃを含む。ｔ｜Ｃ＜＞ｔ｜Ｃ％の場合、ＡＵＣは０．８２７である。ｔ｜Ｃ＜＞ａ｜Ｃの場合、ＡＵＣは０．８３である。ａ｜Ｃ＜＞ｔ｜Ｃ％の場合、ＡＵＣは０．８３である。これらは、このタイプの３つの最良の性能の末端モチーフ対である。二末端分析に－１位を含むと、他のタイプのがんの区別を強化する。非がんと、これらの他の４つのがんタイプ（ＣＲＣ、ＬＵＳＣ、ＮＰＣ、ＨＮＳＣＣ）とを区別する際に、一部の断片タイプの割合は、ＣＣ＜＞ＣＣ％を使用するよりも性能が良好である。

【0131】

図２６Ａは、本開示の実施形態による、対照、ＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣについてのｔ｜Ｃ＜＞ｔ｜Ｃパーセントの箱ひげ図を示す。これらの４つのがんの各々は、一般に、ｔ｜Ｃ＜＞ｔ｜Ｃパーセントについてより低い値を有する。図２６Ｂは、ｔ｜Ｃ＜＞ｔ｜Ｃ断片のＲＯＣ曲線およびＡＵＣ（０．８２７）を示す。

【0132】

図２７Ａは、本開示の実施形態による、対照、ＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣについてのｔ｜Ｃ＜＞ａ｜Ｃパーセントの箱ひげ図を示す。これらの４つのがんの各々は、一般に、ｔ｜Ｃ＜＞ａ｜Ｃパーセントについてより低い値を有する。図２７Ｂは、ｔ｜Ｃ＜＞ａ｜Ｃ断片のＲＯＣ曲線およびＡＵＣ（０．８３）を示す。

【0133】

図２８Ａは、本開示の実施形態による、対照、ＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣについてのａ｜Ｃ＜＞ｔ｜Ｃパーセントの箱ひげ図を示す。これらの４つのがんの各々は、一般に、ａ｜Ｃ＜＞ｔ｜Ｃパーセントについてより低い値を有する。図２８Ｂは、ａ｜Ｃ＜＞ｔ｜Ｃ断片のＲＯＣ曲線およびＡＵＣ（０．８３）を示す。

【0134】

２．各がんの最良の結果
各がんタイプが個別に分析された場合、異なる断片タイプが、異なるがんに対して最良の性能を達成することができる。

【0135】

図２９Ａ～３０Ｂは、本開示の実施形態による、ＣＲＣ、ＬＵＳＣ、ＮＰＣ、またはＨＮＳＣＣの各々を区別する際の、－１および＋１位のヌクレオチドを有するそれぞれの二末端断片について最良の性能を示す。図２９Ａは、本開示の実施形態による、ＣＲＣについてのｇ｜Ｇ＜＞ａ｜Ｔ断片のＲＯＣ曲線およびＡＵＣを示す。図２９Ｂは、本開示の実施形態による、ＬＵＳＣについてのａ｜Ｇ＜＞ｇ｜Ｔ断片のＲＯＣ曲線およびＡＵＣを示す。図３０Ａは、本開示の実施形態による、ＮＰＣについてのｇ｜Ｔ＜＞ｔ｜Ｇ断片のＲＯＣ曲線およびＡＵＣを示す。図３０Ｂは、本開示の実施形態による、ＨＮＳＣＣについてのａ｜Ｔ＜＞ａ｜Ｇ断片のＲＯＣ曲線およびＡＵＣを示す。

【0136】

ｇ｜Ｇ＜＞ａ｜Ｔ断片のパーセンテージは、０．９２８のＡＵＣでＣＲＣと非がんとを区別する（図２９Ａ）。ａ｜Ｇ＜＞ｇ｜Ｔ断片のパーセンテージは、０．９５３のＡＵＣでＬＵＳＣと非がんとを区別する（図２９Ｂ）。ｇ｜Ｔ＜＞ｔ｜Ｇ断片のパーセンテージは、０．９４３のＡＵＣでＮＰＣと非がんとを区別する（図３０Ａ）。また、ａ｜Ｔ＜＞ａ｜Ｇ断片のパーセンテージは、０．９５３のＡＵＣでＨＮＳＣＣと非がんとを区別する（図３０Ｂ）。

【0137】

ＩＶ．病理の異なるステージの区別
いくつかの実施形態は、病理（例えば、がん）の異なるステージを区別することができる。そのような区別は、例えば、対象が病理を有するかどうかを区別するために第１のパスが実施された場合、末端モチーフ対の第２のセットを使用して第２のパスで実施され得る。例えば、Ｃ＜＞Ｃは、がんが存在するかどうかを判断する第１のパスで使用され得る。次に、Ａ＜＞Ｔを使用して、がんの初期、中期、および進行ステージを区別することができる。さらに、異なるセットの末端モチーフ対を使用して、がんの異なるステージを区別することができる。したがって、様々なモデル（例えば、各々が異なる末端モチーフ対を有する）を集合的に、または単一のモデル（例えば、決定木）として使用して、病理のステージを決定することができる。

【0138】

Ａ．ＨＣＣ
図３１は、本開示の実施形態による、がんの異なるステージを区別する際の、最高ＡＵＣを有する末端モチーフの性能結果を含む表を示す。結果は、がんの３つのステージの区別、すなわち、（ａ）初期ＨＣＣと中期ＨＣＣとの区別、（ｂ）中期ＨＣＣと進行ＨＣＣとの区別、および（ｃ）初期ＨＣＣと進行ＨＣＣとの区別の精度を示す。モチーフタイプは、断片タイプの４つの異なるクラスを列挙する：（１）２ｅｎｄ：－１＋１、（２）２ｅｎｄ：－２＋２、（３）２ｅｎｄ：＋２、および（４）２ｅｎｄ：＋１。最良の性能の末端モチーフ対は、各モチーフタイプおよびがんステージ間の各対の区別について提供される。ＡＵＣのいくつかは１であり、１００％の精度を示す。初期／中期ＨＣＣと進行ＨＣＣとの間の区別は、１００％の精度で行われ得、多くの選択肢が、中期ＨＣＣと進行ＨＣＣとを区別するために利用可能である。末端モチーフ対のいくつかは、図３２に提供される。

【0139】

図３２は、中期ＨＣＣと進行ＨＣＣとを区別するための１００％の精度のすべての２ｅｎｄ：－２＋２タイプのリスト３２００、および初期ＨＣＣと進行ＨＣＣとを区別するための１００％の精度のすべての２ｅｎｄ：－２＋２タイプのリスト３２５０を示す。

【0140】

いくつかの最良の性能の２ｅｎｄ：－１＋１末端モチーフタイプの性能のグラフが、以下に提供される。

【0141】

図３３Ａ～３３Ｄは、初期ＨＣＣと中期ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。図３３Ａは、３つのＨＣＣステージについてのｔ｜Ｇ＜＞ａ｜Ｃ％の箱ひげ図を示す。示されるように、ｔ｜Ｇ＜＞ａ｜Ｃ％は、がんのステージとともに徐々に減少する。いくつかの実施形態において、較正関数は、各分類の中央値または平均値を使用して決定され得、それによって、例えば、ステージ間の連続体として、より多くの分類を可能にする。そのような較正関数は、任意の末端モチーフ対で使用され得る。図３３Ｂは、ｅＨＣＣとｉＨＣＣとを区別するためにｔ｜Ｇ＜＞ａ｜Ｃを使用したＲＯＣ曲線を示す。図３３Ｃは、ｉＨＣＣとａＨＣＣとを区別するためにｔ｜Ｇ＜＞ａ｜Ｃを使用したＲＯＣ曲線を示す。図３３Ｄは、ｅＨＣＣとａＨＣＣを区別するためにｔ｜Ｇ＜＞ａ｜Ｃを使用したＲＯＣ曲線を示す。

【0142】

図３４Ａ～３４Ｄは、中期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。図３４Ａは、３つのＨＣＣステージについてのｃ｜Ｇ＜＞ａ｜Ｔ％の箱ひげ図を示す。示されるように、ｃ｜Ｇ＜＞ａ｜Ｔ％は、がんのステージとともに徐々に増加する。図３４Ｂは、ｅＨＣＣとｉＨＣＣとを区別するためにｃ｜Ｇ＜＞ａ｜Ｔを使用したＲＯＣ曲線を示す。図３４Ｃは、ｉＨＣＣとａＨＣＣとを区別するためにｃ｜Ｇ＜＞ａ｜Ｔを使用したＲＯＣ曲線を示し、１のＡＵＣが達成された。図３４Ｄは、ｅＨＣＣとａＨＣＣとを区別するためにｃ｜Ｇ＜＞ａ｜Ｔを使用したＲＯＣ曲線を示す。

【0143】

図３５Ａ～３５Ｄは、初期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。図３５Ａは、３つのＨＣＣステージについてのｃ｜Ｔ＜＞ａ｜Ａ％の箱ひげ図を示す。示されるように、ｃ｜Ｔ＜＞ａ｜Ａ％は、がんのステージとともに徐々に増加する。図３５Ｂは、ｅＨＣＣとｉＨＣＣとを区別するためにｃ｜Ｔ＜＞ａ｜Ａを使用したＲＯＣ曲線を示す。図３５Ｃは、ｉＨＣＣとａＨＣＣとを区別するためにｃ｜Ｔ＜＞ａ｜Ａを使用したＲＯＣ曲線を示す。図３５Ｄは、ｅＨＣＣとａＨＣＣとを区別するためにｃ｜Ｔ＜＞ａ｜Ａを使用したＲＯＣ曲線を示し、１のＡＵＣが達成された。

【0144】

図３６Ａ～３６Ｄは、初期ＨＣＣと進行ＨＣＣとを区別する際の、最良の性能の二末端－１および＋１位モチーフの性能結果を提供する。図３６Ａは、３つのＨＣＣステージについてのａ｜Ａ＜＞ｃ｜Ｔ％の箱ひげ図を示す。示されるように、ａ｜Ａ＜＞ｃ｜Ｔ％は、がんのステージとともに徐々に増加する。図３６Ｂは、ｅＨＣＣとｉＨＣＣとを区別するためにａ｜Ａ＜＞ｃ｜Ｔを使用したＲＯＣ曲線を示す。図３６Ｃは、ｉＨＣＣとａＨＣＣとを区別するためにａ｜Ａ＜＞ｃ｜Ｔを使用したＲＯＣ曲線を示す。図３６Ｄは、ｅＨＣＣとａＨＣＣとを区別するためにａ｜Ａ＜＞ｃ｜Ｔを使用したＲＯＣ曲線を示し、１のＡＵＣが達成された。

【0145】

Ｂ．ＳＬＥ
いくつかの実施形態はまた、自己免疫障害のレベルを病理（例えば、全身性エリテマトーデス、ＳＬＥ）として分類することができる。バイサルファイト配列決定を、３４個の試料（１０個の対照、１０個の非活動性ＳＬＥ、１４個の活動性ＳＬＥ）に対して実施した。ＳＬＥ活動性は、ＳＬＥＤＡＩ（ＳｙｓｔｅｍｉｃＬｕｐｕｓＥｒｙｔｈｅｍａｔｏｓｕｓＤｉｓｅａｓｅＡｃｔｉｖｉｔｙＩｎｄｅｘ）によって決定した。

【0146】

１．＋１末端モチーフ対
図３７Ａ～３７Ｄは、本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＣ＜＞Ｃの性能を示す。断片タイプＣ＜＞Ｃは、対照と活動性ＳＬＥとを区別するための最良の二末端＋１位モチーフである。

【0147】

図３８Ａ～３８Ｄは、本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＡ＜＞Ａの性能を示す。断片タイプＡ＜＞Ａは、対照と非活動性ＳＬＥ、および非活動性ＳＬＥと活動性ＳＬＥとを区別するための最良の二末端＋１位モチーフである。

【0148】

２．＋２末端モチーフ対
対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別するための、最良の性能の二末端＋２断片タイプが、表２に提供される。特定の断片タイプの箱ひげ図およびＲＯＣ曲線も提供される。

【表2】

【0149】

図３９Ａ～３９Ｄは、本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＧＴ＜＞ＴＧの性能を示す。断片タイプＧＴ＜ＴＧは、対照と非活動性ＳＬＥとを区別するための最良の二末端＋２位モチーフである。示されるように、図３９Ａは、対照（ＣＴＲ）と非活動性ＳＬＥとの間の良好な分離を示し、これは、ＣＴＲと非活動性ＳＬＥとを区別するための０．９５のＡＵＣをもたらす。

【0150】

図４０Ａ～４０Ｄは、本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＴＧ＜＞ＣＣの性能を示す。断片タイプＴＧ＜ＣＣは、対照と活動性ＳＬＥとを区別するための最良の二末端＋２位のモチーフと並んだ。示されるように、図４０Ａは、３つすべての分類間で良好な分離を示し、ＣＴＲと活動性ＳＬＥとの間で１００％の精度を有する。

【0151】

図４１Ａ～４１Ｄは、本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のＴＧ＜＞ＧＧの性能を示す。断片タイプＴＧ＜ＧＧは、非活動性ＳＬＥと活動性ＳＬＥとを区別するための最良の二末端＋２位モチーフである。示されるように、図４１Ａは、同様の中央値を有するＣＴＲおよび非活動性ＳＬＥを示す。しかしながら、図４１Ａは、非活動性ＳＬＥと活動性ＳＬＥとの間の良好な分離を示し、これは、非活動性ＳＬＥと活動性ＳＬＥとを区別するための０．９２９のＡＵＣをもたらす。

【0152】

３．－１および＋１末端モチーフ対
対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別するための、最良の性能の二末端－１および＋１断片タイプが、表３に提供される。特定の断片タイプの箱ひげ図およびＲＯＣ曲線も提供される。

【表3】

【0153】

図４２Ａ～４２Ｄは、本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のｃ｜Ａ＜＞ａ｜Ａの性能を示す。断片タイプｃ｜Ａ＜＞ａ｜Ａは、対照と非活動性ＳＬＥとを区別するための最良の二末端－１および＋１位モチーフである。示されるように、図４２Ａは、対照（ＣＴＲ）と非活動性ＳＬＥとの間の良好な分離を示し、これは、ＣＴＲと非活動性ＳＬＥとを区別するための０．９５のＡＵＣ（図４２Ｂ）をもたらす。断片タイプｃ｜Ａ＜＞ａ｜Ａもまた、対照と活動性ＳＬＥとを区別するための最良の二末端－１および＋１位のモチーフと並んだ。示されるように、図４２Ｃは、ＣＴＲと活動性ＳＬＥとの間で１００％の精度を示す。

【0154】

図４３Ａ～４３Ｄは、本開示の実施形態による、対照、非活動性ＳＬＥ、および活動性ＳＬＥを区別する際のｇ｜Ｃ＜＞ｇ｜Ｃの性能を示す。断片タイプｇ｜Ｃ＜＞ｇ｜Ｃは、非活動性ＳＬＥと活動性ＳＬＥとを区別するための最良の二末端－１および＋１位モチーフである。示されるように、図４３Ａは、非活動性ＳＬＥと活動性ＳＬＥとの間の良好な分離を示し、これは、非活動性ＳＬＥと活動性ＳＬＥとを区別するための０．９２１のＡＵＣ（図４３Ｄ）をもたらす。

【0155】

異なる断片タイプを組み合わせて使用して、どの分類が正しいかを判断することができる。例えば、最良の性能の断片タイプ（または十分な精度を有する断片タイプ）が、３つの一対比較の各々、例えば、その比較のための２つの分類を区別する参照値との比較に使用され得る。次いで、３つの比較のうち２つが同じ分類を提供する場合、その分類が使用され得る。別の例として、２つの比較のみが必要とされる。例えば、対照と非活動性との比較が最初に実施され得る。次いで、第１の分類が対照である場合、対照と活動性との比較を実施して、対照の分類を確認することができる。第１の分類が非活動性である場合、非活動性と活動性との比較を実施して、非活動性の分類を確認することができる。第２の分類が第１の分類とは異なる場合、第３の一対比較を実施して、第３の分類が第２の分類と一致するかを判断することができる。他の例では、決定木、ＳＶＭ、または他の機械学習手技術が使用され得る。

【0156】

Ｖ．精度に対する配列決定深度の影響
このセクションでは、精度に対する配列決定深度の影響について考察する。セクションＩＩの分析では、２億１５００万の対リード数の中央値（範囲：９７００万～１６億８１００万）を使用した。しかしながら、より少ないリードが十分な精度を提供し得、それによってより少ない配列決定およびより小さな試料を可能にする。

【0157】

図４４Ａ～４４Ｂは、本開示の実施形態による、各試料においてより少ない断片（２０００万個の断片）を使用して、非がんとＨＣＣとを区別する際のＣ＜＞Ｃ断片の性能を示す。図４４Ａの箱ひげ図は、分析されたＤＮＡ断片がより少ないにもかかわらず、図７Ｄの箱ひげ図と同様であり、図４４ＢのＲＯＣ曲線は、図７ＣのＲＯＣ曲線と同様である。したがって、図４４Ａ～４４Ｂは、より浅い配列決定深度を用いても、良好な精度が依然として得られることを示す。例えば、０．９０９のＡＵＣは、２０００万個の断片で達成される。

【0158】

異なる数の断片を使用して、性能のさらなる調査を実施した。リードの数を増加し、これは、例えばＡＵＣで測定したときに試験の性能を向上させた。ダウンサンプリング分析を実施することによって、配列決定深度が低い試料での二末端ＣＣ＜＞ＣＣ％の性能を示す。

【0159】

図４５は、本開示の実施形態による、ダウンサンプリング分析を通して推定された、配列決定された断片の総数の関数としてＣＣ＜＞ＣＣ断片を使用して達成可能なＡＵＣを示すグラフである。各試料の配列決定された断片から、リードのより小さなサブセットがランダムにサンプリングされ、ＣＣ＜＞ＣＣ％分析を行ってＡＵＣを取得した。リードのより小さなサブセットごとに、ランダムサンプリングを２０回行った。ＣＣ＜＞ＣＣ％分析に必要な配列決定リードの下限を例示するために、リードの徐々により小さなサブセットをサンプリングした。

【0160】

図４５中、５，０００個の断片が配列決定され、達成されたＡＵＣ中央値は、０．９を超える。配列決定される断片の数が増加すると、ＣＣ＜＞ＣＣ％分析で達成されるＡＵＣの変動が低減される。したがって、５，０００個の断片ですでに、実施形態は、合理的な精度でがんの異なる分類を区別することができる。上記のように、１マイクロリットル未満、およびさらには５，０００個の断片の場合は約１ナノリットルの試料が使用され得る。さらに、例えば、非侵襲的な出生前異数性試験で配列決定された典型的な５００万個の断片と比較して、５，０００個の断片を配列決定する場合、時間およびコストは比較的低くなり得る。

【0161】

ＶＩ．末端モチーフ対を使用した病理スクリーニング
上記の説明によると、いくつかの実施形態は、対象の生物学的試料を分析して病理のレベルを決定する方法を提供し得、生物学的試料は、例えば、血漿または血清中に存在するような無細胞ＤＮＡを含む。病理の例には、肝臓病理（例えば、ＨＢＶによる慢性肝炎もしくは肝硬変、またはＨＣＣ）、ならびに他のがんなどの他の臓器の他の病理が含まれる。別の例には、ＳＬＥなどの自己免疫疾患が含まれる。

【0162】

Ａ．病理スクリーニングのための方法
図４６は、本開示の実施形態による、無細胞ＤＮＡ（ｃｆＤＮＡ）断片の末端モチーフ対を使用して病理のレベルを決定するための方法を示すフローチャートである。病理のレベルは、対象の生物学的試料から決定され得、生物学的試料は、正常組織（すなわち、病理によって影響を受けない細胞）に由来するｃｆＤＮＡ断片、および病理によって影響を受ける（例えば、病理が対象に存在する場合の）病変組織に由来する潜在的なｃｆＤＮＡ断片の混合物を含む。病変組織に由来するｃｆＤＮＡ断片は、臨床的関連ＤＮＡとみなされ得、正常組織は、他のＤＮＡとみなされ得る。方法４６００および本明細書に記載の任意の他の方法の態様は、コンピュータシステムによって実施され得る。

【0163】

ブロック４６１０で、配列リードを取得するために生物学的試料由来の複数の無細胞ＤＮＡ断片が分析される。配列リードは、複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む。例として、配列リードは、配列決定またはプローブベースの技術を使用して取得され得、これらのいずれかは、例えば、増幅または捕捉プローブを介した濃縮を含み得る。

【0164】

配列決定は、様々な方法で、例えば、超並列配列決定または次世代シーケンシングを使用して、単一分子配列決定を使用して、および／または二本鎖もしくは一本鎖ＤＮＡ配列決定ライブラリ調製プロトコルを使用して、実施され得る。当業者は、使用され得る様々な配列決定技術を理解するであろう。配列決定の一部として、配列リードの一部が細胞核酸に対応し得ることが可能である。配列決定は、例えば本明細書に記載されるような標的化配列決定であり得る。例えば、生物学的試料は、特定の領域由来のＤＮＡ断片について濃縮され得る。濃縮は、例えば参照ゲノムによって定義されるように、ゲノムの一部または全体に結合する捕捉プローブを使用することを含み得る。

【0165】

統計的に有意な数の無細胞ＤＮＡ分子は、画分濃度の正確な決定を提供するために分析され得る。いくつかの実施形態において、少なくとも１，０００個の無細胞ＤＮＡ分子が分析される。他の実施形態において、少なくとも１０，０００個または５０，０００個または１００，０００個または５００，０００個または１，０００，０００個または５，０００，０００個、またはそれより多い無細胞ＤＮＡ分子が分析され得る。

【0166】

ブロック４６２０で、複数の無細胞ＤＮＡ断片のそれぞれについて、配列モチーフの対が、無細胞ＤＮＡ断片の末端配列について決定される。これらの末端モチーフ対は、例えば、１ｍｅｒ、２ｍｅｒなど、本明細書に記載の異なるタイプの断片に対応し得る。末端モチーフ対は、合計Ｋ＋Ｍ＝Ｎ塩基のために、一方の末端にＫ塩基位置（例えば、１、２、３、４、５、６など）、およびもう一方の末端にＭ塩基位置（例えば、１、２、３、４、５、６など）を含むことができる。特定の末端モチーフは、本明細書に記載されるように、切断部位の反対側の位置を含むことを含むことができる。したがって、１つ以上の配列モチーフ対のセットは、一方の末端のＫ塩基およびもう一方の末端のＭ塩基で構成される、Ｎ塩基位置を含むことができる。例として、末端モチーフ対は、ＤＮＡ断片の末端の配列を分析すること（例えば、断片全体の配列リードの対もしくは単一の配列リードを使用して）、信号を特定のモチーフ対と相関させること（例えば、プローブが使用される場合）、および／または図１の技術１６０もしくは図４Ｃに記載されるように、配列リードを参照ゲノムにアラインメントすることによって決定され得る。

【0167】

例えば、配列決定デバイスによる配列決定後、配列リードは、例えば、有線または無線通信または取り外し可能な記憶デバイスを介して配列決定を実施する配列決定デバイスに通信可能に結合され得るコンピュータシステムによって受信され得る。いくつかの実装において、核酸断片の両端を含む１つ以上の配列リードが受信され得る。ＤＮＡ分子の位置は、ＤＮＡ分子の１つ以上の配列リードをヒトゲノムのそれぞれの部分、例えば、特定の領域にマッピングする（アラインメントする）ことによって決定され得る。他の実施形態において、特定のプローブ（例えば、ＰＣＲまたは他の増幅後）は、特定の蛍光色などを介して位置または特定の末端モチーフを示し得る。２つの色の特定の組み合わせ（信号の例）は、末端モチーフの特定の対を示し得る。同定は、無細胞ＤＮＡ分子が配列モチーフ対のセットのうちの１つに対応することであり得る。

【0168】

ブロック４６３０で、無垢数の無細胞ＤＮＡ断片の末端配列に対応する１つ以上の配列モチーフ対のセットの１つ以上の相対頻度が決定される。配列モチーフ対の相対頻度は、配列モチーフ対に対応する末端配列の対を有する複数の無細胞ＤＮＡ断片の割合を提供し得る。相対頻度の例は、本開示全体を通して説明されている。

【0169】

１つ以上の配列モチーフ対のセットは、病理の既知のレベルを有する参照（訓練）試料の参照（訓練）セットを使用して同定され得る。参照試料のセットの例は、セクションＩＩで使用される９６個の試料であり、これは、モデルを訓練するために使用される特定の末端モチーフ対を決定するために使用され得、例えば、感度および特異度の基準を満たす参照値を決定する。特定の末端モチーフ対が、分類を区別するための差に基づいて選択され得る（例えば、絶対またはパーセンテージの差が最も大きい末端モチーフ対を選択するため）。例えば、１つ以上の配列モチーフ対のセットは、２つの分類された参照試料間で最大の差を有する上位Ｌ個の配列モチーフ対、例えば、最大の正の差（例えば、上位１、２、３個など、もしくは他の数）または最大の負の差を示すモチーフであり得る。Ｌは、１以上の整数であり得る。上位の配列モチーフ対（すなわち、末端モチーフ対）を使用することは、特定の断片タイプのすべての可能な組み合わせのサブセットを使用する例である。

【0170】

特定のタイプの配列モチーフ対の組み合わせのすべてまたはサブセット、またはさらには様々なタイプにわたる組み合わせ（すべてもしくはサブセット）が使用され得る。したがって、１つ以上の配列モチーフ対のセットは、Ｎ塩基のすべての組み合わせ（一方の末端のＫおよびもう一方の末端のＭ）を含むことができ、Ｎは、２以上の整数である。別の例として、１つ以上の配列モチーフ対のセットは、１つ以上の参照試料において生じる上位Ｊ個の最も頻度の高い配列モチーフ対であり得、Ｊは、１以上の整数である。

【0171】

ブロック４６４０で、１つ以上の配列モチーフ対のセットの相対頻度の集計値が決定される。例えば、Ｋ個の末端モチーフ対のセットについて、１つの相対頻度自体、相対頻度の合計、および参照データ点（参照試料から決定された参照パターン）と相対頻度のベクトルに対応する多次元データ点との間の距離を含む、例示的な集計値が、本開示全体を通して記載される。したがって、１つ以上の配列モチーフ対のセットが複数の配列モチーフを含む場合、集計値は、セットの相対頻度の合計を含み得る。合計は、加重和であり得、例えば、より高い区別を提供する相対頻度（例えば、ＡＵＣによって決定されるような）は、より高く重み付けされ得る。

【0172】

別の例として、集計値は、相対頻度の参照パターン（データ点）からの多次元データ点の差（例えば、距離）を含むことができる。したがって、複数の相対頻度の集計値を決定することは、複数の相対頻度の各々と参照パターンの参照頻度との間の差を決定することを含み得、集計値は、差の合計を含む。参照パターンの参照頻度は、既知の分類を有する１つ以上の参照試料から決定され得る。

【0173】

距離は、ユークリッド距離であり得るか、または異なる次元、例えば、より高い区別を提供する末端モチーフの次元に対して重み付けされ得る。この距離は、クラスタリング、サポートベクターマシン（ＳＶＭ）、または他の機械学習モデルで使用され得る。参照パターンは、参照試料の訓練セットから確立され得る。病理のレベルの所与の分類の参照パターンは、その分類を有するデータ点のクラスターの重心として決定され得る。集計値は、そのような距離、例えば、機械学習モデルにおける差または最終もしくは中間出力（例えば、ニューラルネットワークにおける中間層もしくは最終層）から決定される確率から導出され得る。そのような値は、２つの分類間のカットオフ（次のブロックの参照値）と比較され得るか、または所与の分類の代表値と比較され得る。様々な実装において、機械学習モデルは、クラスタリング、ニューラルネットワーク、ＳＶＭ、またはロジスティック回帰を使用する。

【0174】

ブロック４６５０で、集計値と参照値との比較に基づいて、対象についての病理のレベルの分類が決定される。例として、レベルは、病理（例えば、がん）なし、初期ステージ、中期ステージ、または進行ステージであり得る。その後、分類はレベルの１つを選択し得る。したがって、分類は、病理（例えば、がんまたはＳＬＥ）の複数のステージを含む病理の複数のレベルから決定され得る。参照値は、例えば、本明細書に記載のＲＯＣ曲線を使用して、参照試料から決定され得る。例として、病理はがんであり、がんは、肝細胞がん、肺がん、乳がん、胃がん、多形性神経膠芽細胞腫、膵臓がん、結腸直腸がん、上咽頭がん、および頭頸部扁平上皮細胞がん、または本明細書で言及される他のがんであり得る。疾患（例えば、がん）のステージは、転帰、予後、寛解、生存、または治療に対する応答と関連し得るため、実施形態は、医療において貴重な有用性を有する。

【0175】

いくつかの実施形態において、無細胞ＤＮＡは、複数の無細胞ＤＮＡ断片を同定するために、１つ以上の基準を使用してフィルタリングされる。フィルタリングの例は、以下に提供される。例えば、フィルタリングは、メチル化（密度または特定の部位がメチル化されているかどうか）、サイズ、またはＤＮＡ断片が由来する領域に基づき得る。無細胞ＤＮＡは、特定の組織のオープンクロマチン領域由来のＤＮＡ断片についてフィルタリングされ得る。

【0176】

上記のように、２つ以上の末端モチーフ対の相対頻度を組み合わせて集計値を決定すると、より良好な性能を達成することができる。さらに、またはあるいは、１つ以上の末端モチーフ対の異なるセットの分類は、例えば、アンサンブル技術において組み合わされ得る。アンサンブル技術の例には、投票（多数決、バギングで行われ得る投票の等しい重み、および訓練セットまたは集団における分類の尤度による重み付け）、平均化、ならびにブースティングが含まれる。

【0177】

いくつかの実施形態において、１つ以上の末端モチーフ対の第１のセットを使用して、第１の分類、例えば、病理が存在するかどうかを決定することができる。例えば、Ｃ＜＞Ｃは、がんが存在するかどうかを判断する第１のパスで使用され得る。次いで、ブロック４６３０～４６５０を、１つ以上の末端モチーフ対の第２のセットについて繰り返して、病理（例えば、がん）の異なるステージを区別することができる。例えば、Ａ＜＞Ｔを使用して、がんの初期、中期、および進行ステージを区別することができる。したがって、複数の無細胞ＤＮＡ断片の末端配列に対応する１つ以上の追加の配列モチーフ対のセットの相対頻度の１つ以上の１つ以上の追加の相対頻度が、決定され得る。また、１つ以上の追加の配列モチーフ対のセットの１つ以上の追加の相対頻度の追加の集計値が、決定され得る。対象についてのがんのステージは、追加の集計値と追加の参照値との比較に基づいて決定され得る。がんのステージを区別するための例は、セクションＩＶ．Ａに提供される。

【0178】

複数の分類が、配列モチーフ対の複数のセットについて実施され得、各セットが分類を提供する。これらの分類は、組み合わされ得る（例えば、アンサンブル技術で）。したがって、ブロック４６５０における分類は、第１の分類であり得、１つ以上の追加の分類が、配列モチーフ対の１つ以上の追加のセットについて決定され得る。次いで、第１の分類および１つ以上の追加の分類を使用して、例えば、多数決を介して、最終の分類が決定され得るか、または所与の分類についての確率が、様々な分類から決定され得る。

【0179】

さらに、そのような二末端分析は、他の分類、例えば、コピー数異常、メチル化シグネチャ、または配列変異と組み合わされて、性能を改善し得る。そのような分類は、アンサンブル技術で組み合わされ得る。

【0180】

Ｂ．他の技術との比較
他の研究でも、ＨＣＣと非ＨＣＣとを区別するためにｃｆＤＮＡを分析している。Ｊｉａｎｇｅｔａｌ．は、ＨＣＣ患者の血漿の高深度配列決定を使用して、腫瘍に関連する優先末端座標を同定した（９）。非腫瘍関連の優先末端に対する腫瘍関連の比率を使用して、０．８８のＡＵＣで非ＨＣＣとＨＣＣとを区別した。Ｊｉａｎｇｅｔａｌ．による研究は、いくつかの点で方法４６００とは異なる：１）特定の腫瘍および非腫瘍関連ゲノム座標を取得するために、ＨＣＣ患者およびＨＢＶキャリアのｃｆＤＮＡの高深度配列決定を必要とした、２）断片を参照ゲノムに再びアラインメントすることが必要とされる、ならびに３）特定のゲノム座標にアラインメントする断片のいずれかの末端を一末端としてカウントした。

【0181】

別の技術は、５’末端の４ｍｅｒモチーフを使用して、がんと非がんとを区別することができる。４ｍｅｒモチーフ頻度は、断片の各リードの５’末端を別々に考慮することによって計算され得る（各断片について２つ）。例として、特定のモチーフを使用するか、またはモチーフ多様性スコア（ＭＤＳ）と称される４ｍｅｒモチーフから導出されたエントロピースコアを使用して、０．８５６のＡＵＣでＨＣＣと非ＨＣＣとを区別することができる。ＭＤＳは、分散の一例である。モチーフ（例えば、４ｍｅｒについて合計２５６個のモチーフ）の頻度の分布を分析するために、ＭＤＳの１つの定義は次の方程式を使用する：

【数1】

式中、Ｐ_iは特定のモチーフの頻度であり、エントロピー値が高いほど、多様性が高い（すなわち、ランダム性が高い）ことを示す。

【0182】

図４７は、本開示の実施形態による、同じ非ＨＣＣおよびＨＣＣデータセットに対する異なる分析方法からの複数のＲＯＣ曲線を示す。各方法のＡＵＣも示される。Ｐ値は、ＭＤＳと比較した様々なＡＵＣの真の差を試験する。データセットは、セクションＩＩで使用されたものと同じである。

【0183】

箱ひげ図の各線は、異なる技術、例えば、異なるモチーフ、両端が使用されているかまたは片方の末端のみが使用されているかどうか、およびＭＤＳに対応する。線４７１０は、ｃ｜Ｔ＜＞ｃ｜Ｃに対応する。線４７２０は、ＣＣ＜＞ＣＣに対応する。線４７３０は、Ｃ＜＞Ｃに対応する。線４７４０は、一方の末端のＣに対応する。線４７５０は、一方の末端のＣＣに対応する。線４７６０は、一方の末端のＣＣＣＡに対応する。線４７７０は、ＭＤＳに対応する。

【0184】

ＭＤＳと比較し、分析に各端を別々に使用して（１端分析として示される）、１つ以上のタイプ（末端モチーフ対の指定されたセットを有する断片）の相対量を使用した二末端分析は、ＨＣＣデータセットにおいて性能がより良好である。ｃ｜Ｔ＜＞ｃ｜Ｃ％についてのＡＵＣは０．９１７であり、ＣＣ＜＞ＣＣ％についてのＡＵＣは０．９１６であり、Ｃ＜＞Ｃ％についてのＡＵＣは０．９１０である。Ｃ％の１末端分析についてのＡＵＣは０．８８２であり、ＣＣ％については０．８８１％であり、ＣＣＣＡ％については０．８７６であり、ＭＤＳについては０．８５６である。ｃ｜Ｔ＜＞ｃ｜Ｃ％、ＣＣ＜＞ＣＣ％、およびＣ＜＞Ｃ％分析から達成されたＡＵＣは、ＭＤＳのＡＵＣとは有意に異なる（それぞれ、ｐ値０．０２、０．０００９、および０．０１７８）。

【0185】

他のタイプのがんにおいて、二末端分析とＭＤＳと１末端分析との間でも比較を行った。

【0186】

図４８～５０Ｂは、本開示の実施形態による、３０の対照および４０のＣＲＣ、ＬＵＳＣ、ＮＰＣ、およびＨＮＳＣＣを含む他のがんを有するデータセットの異なる分析方法からの複数のＲＯＣ曲線を示す。各方法のＡＵＣも示される。データセットは、セクションＩＩＩで使用されたものと同じである。

【0187】

図４８は、様々な方法について、がんと非がんとを集合的に区別するための性能を示す。線４８１０は、ｇ｜Ｇ＜＞ａ｜Ｔに対応する。線４８２０は、ａ｜Ｃ＜＞ｔ｜Ｃに対応する。線４８３０は、ＭＤＳに対応する。線４８４０は、Ｃ＜＞Ｃに対応する。線４８５０は、一方の末端のＣＣＣＡに対応する。線４８６０は、ＣＣ＜＞ＣＣに対応する。４０個の他のがんを含むこのデータセットでは、ｇ｜Ｇ＜＞ａ｜Ｔおよびａ｜Ｃ＜＞ｔ｜Ｃ断片％は、それぞれ０．９１４および０．８３０のＡＵＣで良好な性能を有する断片タイプの例である。ＣＣ＜＞ＣＣ％、ＭＤＳの０．７７３と比較して０．７７７のＡＵＣを有する。

【0188】

図４９Ａは、本開示の実施形態による、対照とＮＰＣとを区別する際の様々な方法の性能を示す。線４９１０は、ＭＤＳに対応する。線４９２０は、Ｃ＜＞Ｃに対応する。線４９３０は、一方の末端のＣＣＣＡに対応する。線４９４０は、ＣＣ＜＞ＣＣに対応する。ＮＰＣについて、ＣＣ＜＞ＣＣ％を使用してがんと非がんとを区別する能力は、０．８３３のＡＵＣを有する。

【0189】

図４９Ｂは、本開示の実施形態による、対照とＨＮＳＣＣとを区別する際の様々な方法の性能を示す。線４９５０は、ＭＤＳに対応する。線４９６０は、Ｃ＜＞Ｃに対応する。線４９７０は、一方の末端のＣＣＣＡに対応する。線４９８０は、ＣＣ＜＞ＣＣに対応する。ＨＮＳＣＣについて、ＣＣ＜＞ＣＣ％を使用してがんと非がんとを区別する能力は、０．９１３のＡＵＣを有する。

【0190】

図５０Ａは、本開示の実施形態による、対照とＣＲＣとを区別する際の様々な方法の性能を示す。線５０１０は、ＭＤＳに対応する。線５０２０は、Ｃ＜＞Ｃに対応する。線５０３０は、一方の末端のＣＣＣＡに対応する。線５０４０は、ＣＣ＜＞ＣＣに対応する。ＣＲＣについて、ＭＤＳは、０．７６のＡＵＣで性能が最良であった。

【0191】

図５０Ｂは、本開示の実施形態による、対照とＬＵＳＣとを区別する際の様々な方法の性能を示す。線５０５０は、ＭＤＳに対応する。線５０６０は、Ｃ＜＞Ｃに対応する。線５０７０は、一方の末端のＣＣＣＡに対応する。線５０８０は、ＣＣ＜＞ＣＣに対応する。ＨＮＳＣＣについて、ＭＤＳは、０．７７のＡＵＣで性能が最良であった。ＣＲＣおよびＬＵＳＣについて、ＣＣ＜＞ＣＣ％でがんと非がんとを区別することは可能であるが、ＡＵＣは、ＭＤＳよりも低い。

【0192】

ＶＩＩ．臨床的関連ＤＮＡの画分濃度
二末端分析の別の用途は、胎児ＤＮＡ分子と母体ＤＮＡ分子とを区別することである。胎児分子と母体分子とを区別する際の二末端分析の可能性を評価するために、既知の胎児分子と母体分子との間で断片タイプのパーセンテージの差が検出され得るかどうかを調べる。他の実施形態は、他の臨床的関連ＤＮＡ、例えば、腫瘍および移植の画分濃度を決定し得る。

【0193】

Ａ．胎児濃度
胎児および母体分子を、母親がホモ接合（ＡＡ）で、胎児がヘテロ接合（ＡＢ）である有益な一塩基多型（ＳＮＰ）部位を使用することによって同定した。胎児特異的分子は、胎児特異的対立遺伝子（Ｂ）を担持する。共有対立遺伝子（Ａ）を担持する分子は、主に母体由来のＤＮＡ分子を表し、これは、胎児ＤＮＡ分子が一般に、母体血漿ＤＮＡのごく一部しか占めていないためである。

【0194】

血漿および母体バフィーコート試料を、妊娠初期（１２～１４週、ｎ＝１０）、妊娠中期（２０～２３週、ｎ＝１０）、および妊娠後期（３８～４０週、ｎ＝１０）の妊婦から取得した。血漿およびバフィーコートの試料を、合計３０人の妊婦（各妊娠期の１０人）から取得した。マイクロアレイプラットフォーム（ＨｕｍａｎＯｍｎｉ２．５、Ｉｌｌｕｍｉｎａ）を使用して、母体バフィーコートおよび胎児試料の遺伝子型を決定し、一致した血漿ＤＮＡ試料を配列決定した。当業者は、他の遺伝子型決定技術およびプラットフォームが使用され得ることを理解するであろう。母親がホモ接合（ＡＡ）で、胎児がヘテロ接合（ＡＢ）であった１９５，３３１個の有益なＳＮＰの中央値（範囲：１４６，４２８～２０２，８００）を発見した。マッピングされた対末端リードの１億３００万の中央値（範囲：５２００万～１億８６００万）が、各状況について取得された。これらの試料の間の胎児ＤＮＡ画分中央値は、１７．１％（範囲：７．０％～４６．８％）であった。

【0195】

１．共有対立遺伝子と胎児対立遺伝子との間の区別
このデータセットから、胎児（Ｓｐｅｃ）分子と母体（共有）分子とを区別する際の二末端分析の性能を試験した。特定の二末端断片タイプのパーセンテージを分析して、有益な部位のいずれかにおいて、共有対立遺伝子（共有）を有するＤＮＡ断片と胎児特異的対立遺伝子（Ｓｐｅｃ）を有するＤＮＡ断片との間の割合の差を検出した。共有対立遺伝子についての任意の所与の断片タイプのパーセンテージは、共有対立遺伝子を有するＤＮＡ断片の総数を使用して決定される。胎児特異的対立遺伝子の任意の所与の断片タイプのパーセンテージは、胎児特異的ＳＮＰを有するＤＮＡ断片の総数を使用して決定される。

【0196】

図５１Ａ～５１Ｂは、本開示の実施形態による、胎児特異的分子と共有分子とを区別する際の二末端分析を示す。図５１Ａは、共有対立遺伝子（共有）を有する断片のすべてのうちのＣＣ＜＞ＣＣを有する断片のパーセンテージ、および胎児特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＣＣ＜＞ＣＣを有する断片のパーセンテージを示す。線は、同じ試料の２つのデータ点を接続する。示されるように、パーセンテージは、一般に、共有対立遺伝子から胎児特異的対立遺伝子へと増加する。図５１Ｂは、共有対立遺伝子（共有）を有する断片のすべてのうちのＣ＜＞Ｃを有する断片のパーセンテージ、および胎児特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＣ＜＞Ｃを有する断片のパーセンテージを示す。ＣＣ＜＞ＣＣの性能は、Ｃ＜＞Ｃよりも良好である。

【0197】

２ｍｅｒを有する二末端分析を使用すると、胎児特異的分子と共有分子とを区別することが可能である。ＣＣ＜＞ＣＣ％を使用する一実施形態は、共有分子よりも胎児特異的分子において有意に高い（ペアウィルコクソンの符号順位Ｕ検定、Ｐ値＝０．００２）。したがって、断片上のＣＣ＜＞ＣＣの存在は、断片が胎児からのものである尤度がより高いことを示す。様々な実施形態は、そのような尤度の増大を様々な方法で、例えば、胎児ＤＮＡ画分の濃度を測定するか、または母体ＤＮＡ断片をフィルタリングして取り除くために、例えば、胎児起源のものについてｃｆＤＮＡ断片（配列リード）の試料を濃縮するために使用することができる。そのような濃縮は、例えば、領域の異数性または欠失／増幅を検出するための、より正確な測定を可能にすることができる。

【0198】

２．胎児ｃｆＤＮＡ画分との関係
胎児細胞に由来する特定の二末端断片タイプの尤度がより高いことを所与として、実施形態は、そのような関係を利用して、無細胞ＤＮＡ試料中の胎児ＤＮＡ画分を測定することができる。例えば、特定のタイプの試料の胎児ＤＮＡ画分、例えば、胎児が男性であるため、Ｙ染色体からのＤＮＡ断片が胎児特異的である場合、または上記のように、胎児特異的対立遺伝子が同定されている場合を知ることができる。次いで、既知の（較正）試料中の胎児ＤＮＡ画分と特定の断片タイプの割合との間で一致が決定されると、新しい試料中の断片タイプの割合の新しい測定は、胎児ＤＮＡ画分を提供することができる。

【0199】

図５２Ａは、本開示の実施形態による、二末端Ｃ＜＞Ｃ％と胎児ＤＮＡ画分との間の関数関係を示す。横軸は、前のセクションに記載された胎児特異的ＳＮＰを使用して測定された胎児ＤＮＡ画分である。縦軸は、試料中のＣ＜＞Ｃ断片のパーセンテージである。示されるように、各タイプの断片が等しく表現されている場合、Ｃ＜＞Ｃ断片のパーセンテージは、１／１６よりも高い。したがって、統計的に安定した測定を行うのに十分な数のＤＮＡ断片は、より低い範囲の含有量を有する他の断片タイプと比較して、比較的小さな試料で作られ得る。図５２ＡのＣ＜＞Ｃ％は、共有対立遺伝子および胎児特異的対立遺伝子を有するＤＮＡ断片を使用して決定される。

【0200】

Ｃ＜＞Ｃ断片のパーセンテージは、較正データ点３６０５に適合する線形関数である較正関数の正の傾きによって示されるように、胎児ＤＮＡ画分とともに増加する。較正データ点の各々は、胎児ＤＮＡ画分の測定値（例えば、胎児特異的対立遺伝子を使用）、および較正値の例であるＣ＜＞Ｃ断片％の測定値を含む。Ｃ＜＞Ｃ断片のパーセンテージがより高い場合、胎児ＤＮＡ画分は、より高くなる。較正関数３６１０を使用すると、Ｃ＜＞Ｃについての約１１％の測定値を使用して、胎児ＤＮＡ画分を約３０％と推定することができる。したがって、Ｃ＜＞Ｃ％を有する二末端分析は、胎児画分を推定するための有用なメトリックである。Ｃ＜＞Ｃ％についての胎児画分の相関は、Ｒ＝０．３８（Ｐ値＝０．０３７３）である。

【0201】

図５２Ｂは、本開示の実施形態による、二末端ＣＣ＜＞ＣＣ％と胎児ＤＮＡ画分との間の関数関係を示す。そのような関数関係は、図５２Ａと同様の方法で使用され得る。ＣＣ＜＞ＣＣは、ＤＮＡ断片間のより良好な区別を提供することができるが、Ｃ＜＞Ｃ断片のより高い割合は、胎児ＤＮＡ画分とのより安定した関数関係を提供し得る。この点で、Ｃ＜＞Ｃ断片対ＣＣ＜＞ＣＣ断片の割合を比較すると、分子の量が約３分の１に低減する。

【0202】

同様の分析は、他のタイプの臨床的関連ＤＮＡについて、例えば、腫瘍ＤＮＡまたは移植された臓器からのＤＮＡについて実施され得る。

【0203】

Ｂ．他の臨床的関連ＤＮＡの濃度
臨床的関連ＤＮＡには、腫瘍ＤＮＡも含まれ得る。いくつかの実施形態は、胎児濃度が上記で決定されるのと同様の方法で、試料中の腫瘍ＤＮＡ濃度を決定することができる。

【0204】

図５３は、本開示の実施形態による、Ｃ＜＞Ｇ％と腫瘍濃度との間の関数関係を示す。ＨＣＣ試料において、ＩｃｈｏｒＣＮＡ（Ａｄａｌｓｔｅｉｎｓｓｏｎｅｔａｌ，ＮａｔＣｏｍｍｕｎ．２０１７；８：１３２４）を使用して、コピー数変化（ＣＮＡ）から腫瘍濃度を独立して推定した。ＨＣＣ試料のうち、１２個の試料のみが、腫瘍濃度を推定するために、ＩｃｈｏｒＣＮＡに十分なＣＮＡを有した。ＩｃｈｏｒＣＮＡ腫瘍画分との相関が最良の二末端１ｍｅｒ断片のパーセンテージが示される。腫瘍濃度が増加すると、Ｃ＜＞Ｇ％は減少する。Ｒ値は、０．７４である。腫瘍濃度への依存性は、非常に良好である。較正関数は、図５３中で線形関数として提供される。

【0205】

Ｃ．移植ＤＮＡと宿主ＤＮＡとの区別
臨床的関連ＤＮＡには、移植ＤＮＡも含まれ得る。いくつかの実施形態は、胎児および腫瘍濃度が上記で決定されるのと同様の方法で、試料中の移植ＤＮＡ濃度を決定することができる。

【0206】

１．肝臓
二末端分析を、１２件の肝臓移植症例について実施した。ドナー特異的ＳＮＰを使用して、肝臓特異的断片を同定した。断片タイプのパーセンテージを、ドナー特異的断片と共有ＳＮＰを有する断片との間で比較した。最も有意な差を有する５つの断片タイプが、以下に提供される。Ｐ値は、ウィルコクソンの符号順位検定によって提供される。

【0207】

図５４Ａは、共有対立遺伝子（共有）を有する断片のすべてのうちのＡ＜＞Ｔを有する断片のパーセンテージ、およびドナー特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＡ＜＞Ｔを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと増加する。２つのデータセット間のＰ＝０．００１の統計的差異（現在のデータで最良）は、２つのタイプの組織：宿主と移植についてのＡ＜＞Ｔ％値の間の区別を示す。

【0208】

図５４Ｂは、共有対立遺伝子（共有）を有する断片のすべてのうちのＣ＜＞Ｇを有する断片のパーセンテージ、およびドナー特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＣ＜＞Ｇを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと減少する。２つのデータセット間のＰ＝０．００２の統計的差異は、２つのタイプの組織：宿主と移植についてのＣ＜＞Ｇ％値の間の区別を示す。

【0209】

図５４Ｃは、共有対立遺伝子（共有）を有する断片のすべてのうちのＴ＜＞Ｔを有する断片のパーセンテージ、およびドナー特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＴ＜＞Ｔを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと増加する。２つのデータセット間のＰ＝０．００７の統計的差異は、２つのタイプの組織：宿主と移植についてのＴ＜＞Ｔ％値の間の区別を示す。

【0210】

図５５Ａは、共有対立遺伝子（共有）を有する断片のすべてのうちのＣ＜＞Ｃを有する断片のパーセンテージ、およびドナー特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＣ＜＞Ｃを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと減少する。２つのデータセット間のＰ＝０．０１の統計的差異は、２つのタイプの組織：宿主と移植についてのＣ＜＞Ｃ％値の間の区別を示す。

【0211】

図５５Ｂは、共有対立遺伝子（共有）を有する断片のすべてのうちのＧ＜＞Ｇを有する断片のパーセンテージ、およびドナー特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＧ＜＞Ｇを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと減少する。２つのデータセット間のＰ＝０．００７の統計的差異は、２つのタイプの組織：宿主と移植についてのＧ＜＞Ｇ％値の間の区別を示す。

【0212】

２．腎臓
二末端分析を、１２件の腎臓移植症例について実施した。断片タイプのパーセンテージを、ドナー特異的断片と共有ＳＮＰを有する断片との間で比較した。最も有意な差を有する２つの断片タイプが、以下に提供される。Ｐ値は、ウィルコクソンの符号順位検定によって提供される。

【0213】

図５６Ａは、共有対立遺伝子（共有）を有する断片のすべてのうちのＡ＜＞Ａを有する断片のパーセンテージ、およびドナー特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＡ＜＞Ａを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと増加する。２つのデータセット間のＰ＝０．０７の統計的差異は、２つのタイプの組織：宿主と移植についてのＡ＜＞Ａ％値の間の区別を示す。

【0214】

図５６Ｂは、共有対立遺伝子（共有）を有する断片のすべてのうちのＴ＜＞Ｔを有する断片のパーセンテージ、およびドナー特異的対立遺伝子（Ｓｐｅｃ）を有する断片のすべてのうちのＴ＜＞Ｔを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと増加する。２つのデータセット間のＰ＝０．０９の統計的差異は、２つのタイプの組織：宿主と移植についてのＴ＜＞Ｔ％値の間の区別を示す。

【0215】

Ｄ．濃度を決定する方法
上記に従って、いくつかの実施形態は、対象の生物学的試料中の臨床的関連ＤＮＡ（例えば、胎児または腫瘍ＤＮＡ）の画分濃度を推定し得、生物学的試料は、臨床的関連ＤＮＡと無細胞である他のＤＮＡとの混合物を含む。他の例において、生物学的試料は、臨床的関連ＤＮＡを含まない場合があり、推定される画分濃度は、臨床的関連ＤＮＡのゼロまたは低いパーセンテージを示し得る。

【0216】

図５７は、本開示の実施形態による、対象の生物学的試料における臨床的関連ＤＮＡの画分濃度を推定する方法５７００を示すフローチャートである。方法５７００および本明細書に記載の任意の他の方法の態様は、コンピュータシステムによって実施され得る。

【0217】

ブロック５７１０で、配列リードを取得するために、生物学的試料由来の複数の無細胞ＤＮＡ断片が分析される。配列リードは、複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含み得る。ブロック５７１０は、ブロック４６１０と類似の様式で実施してもよい。

【0218】

ブロック５７２０で、複数の無細胞ＤＮＡ断片の各々について、無細胞ＤＮＡ断片の末端配列についての配列モチーフの対が、決定される。ブロック４６２０は、ブロック５７２０と類似の様式で実施してもよい。

【0219】

ブロック５７３０で、無垢数の無細胞ＤＮＡ断片の末端配列に対応する１つ以上の配列モチーフ対のセットの１つ以上の相対頻度が決定される。配列モチーフ対の相対頻度は、配列モチーフ対に対応する末端配列の対を有する複数の無細胞ＤＮＡ断片の割合を提供し得る。ブロック５７３０は、ブロック４６３０と類似の様式で実施してもよい。

【0220】

１つ以上の配列モチーフ対のセットは、画分濃度が既知である１つ以上の参照試料の参照セットを使用して同定され得る。臨床的関連ＤＮＡの画分濃度は、遺伝子型の差を使用して決定され得る。臨床的関連ＤＮＡと他のＤＮＡ（例えば、健康な個人からのＤＮＡ、妊婦からのＤＮＡ（母体ＤＮＡとも称される）、または移植された臓器を受け取った対象のＤＮＡ）との末端モチーフ対の間の差が決定され、画分濃度と組み合わせて使用され得る。特定の末端モチーフ対は、参照試料の画分濃度の差と相関する相対頻度の差に基づいて選択され得る。（例えば、Ｒなどの適合度によって測定されるように）相関が最良の末端モチーフ対が、使用され得る。末端モチーフ対が、低い頻度を有する場合、より多くの末端モチーフ対をセットに追加して、所与の試料サイズ（例えば、ＤＮＡ断片の数）の統計的精度を高めることができる。末端モチーフ対が組み合わされる場合、それらはすべて、同じ相関関係を有する、例えば、比例または反比例であるはずである。

【0221】

ブロック５７４０で、１つ以上の配列モチーフ対のセットの１つ以上の相対頻度の集計値が決定される。１つの配列モチーフ対のみが使用される場合、集計値は、その１つの配列モチーフ対の相対頻度であり得る。他の例示的な集計値は、ブロック４６４０および本開示全体を通して記載される。

【0222】

ブロック５７５０で、生物学的試料における臨床的関連ＤＮＡの画分濃度の分類は、集計値を１つ以上の較正値と比較することによって決定される。１つ以上の較正値は、臨床的関連ＤＮＡの画分濃度が既知の（例えば、測定された）１つ以上の較正試料から決定され得る。比較は、複数の較正値に対してであり得る。比較は、試料における臨床的関連ＤＮＡの画分濃度の変化に対する集計値の変化を提供する較正データに適合する較正関数（例えば、図５２Ａの線５２１０または図５３の線５３１０）に、集計値を入力することによって生じ得る。別の例として、１つ以上の較正値は、１つ以上の較正試料における無細胞ＤＮＡ断片を使用して測定される、１つ以上の配列モチーフ対のセットの相対頻度の１つ以上の集計値に対応し得る。

【0223】

較正値は、各較正試料の集計値として計算され得る。較正データ点は、試料ごとに決定され得、較正データ点は、較正値および試料について測定された画分濃度を含む。これらの較正データ点は、方法５７００で使用され得るか、または最終的な較正データ点を決定するために（例えば、関数の適合を介して定義されるように）使用され得る。例えば、線形関数は、画分濃度の関数として較正値に適合させ得る。線形関数は、方法５７００で使用される較正データ点を定義し得る。新しい試料の新しい集計値は、出力の画分濃度を提供するために比較の一部として関数への入力として使用され得る。したがって、１つ以上の較正値は、複数の較正試料の臨床的関連ＤＮＡの画分濃度を使用して決定される較正関数の複数の較正値であり得る。

【0224】

別の例として、新しい集計値は、画分濃度の同じ分類を有する（例えば、同じ範囲内の）試料についての平均集計値と比較され得る。新しい集計値が、別の分類についての平均の較正値よりもこの平均に近い場合、新しい試料は、最も近い較正値と同じ濃度を有すると判断され得る。このような技術は、クラスタリングを実施するときに使用され得る。例えば、較正値は、画分濃度の特定の分類に対応するクラスターについての代表値であり得る。

【0225】

較正データ点の決定は、例えば、以下のように、画分濃度を測定することを含み得る。１つ以上の較正試料の各較正試料について、臨床的関連ＤＮＡの画分濃度は、較正試料において測定され得る。１つ以上の配列モチーフ対のセットの相対頻度の集計値は、較正データ点を取得することの一部として較正試料由来の無細胞ＤＮＡ断片を分析することによって決定され得、それによって１つ以上の集計値を決定する。各較正データ点は、較正試料における臨床的関連ＤＮＡの測定された画分濃度および較正試料について決定された集計値を指定し得る。１つ以上の較正値は、１つ以上の集計値であり得るか、または１つ以上の集計値を使用して決定され得る（例えば、較正関数を使用する場合）。

【0226】

画分濃度の測定は、本明細書に記載されるような様々な方法、例えば、臨床的関連ＤＮＡに特異的な対立遺伝子を使用することによって、実施され得る。様々な実施形態において、臨床的関連ＤＮＡの画分濃度を測定することは、組織特異的対立遺伝子またはエピジェネティックマーカーを使用して、または、例えば、米国特許公開第２０１３／０２３７４３１号に記載されているようなＤＮＡ断片のサイズを使用して、実施され得、それは参照によって全体が組み込まれる。組織特異的なエピジェネティックマーカーは、試料における組織特異的なＤＮＡメチル化パターンを示すＤＮＡ配列を含み得る。

【0227】

様々な実施形態において、臨床的関連ＤＮＡは、胎児ＤＮＡ、腫瘍ＤＮＡ、移植された臓器由来のＤＮＡ、および特定の組織タイプ（例えば、特定の器官由来）からなる群から選択され得る。臨床的関連ＤＮＡは、特定の組織タイプのものであり得、例えば、特定の組織タイプは、肝臓または造血性である。対象が妊婦である場合、臨床的関連ＤＮＡは、胎児ＤＮＡに対応する胎盤組織であり得る。別の例として、臨床的関連ＤＮＡは、がんを有する器官に由来する腫瘍ＤＮＡであり得る。

【0228】

ＶＩＩＩ．分類および較正
臨床的関連ＤＮＡの病理および画分濃度についての分類は、様々な方法で実施され得る。さらなる詳細が、以下に提供される。また、参照値の較正、既知の分類（例えば、画分濃度または既知の病理レベル）を有する試料の参照パターン、および機械学習モデルにおけるそのような使用についてのさらなる詳細が提供される。

【0229】

Ａ．分類技術
上記のように、様々な分類技術が使用され得、集計値は、様々な方法で決定され得る。例えば、異なる末端モチーフ対の相対頻度を含むベクトルが決定され得、例えば、（０．８％、４％、２％、…）として指定され、これは、末端モチーフ対のＮ個の異なるセットのＮ個の相対頻度のパターンを形成する。訓練セットにおける各試料は、多次元データ点または参照パターンを定義するベクトルに対応することができる。クラスタリング技術の例には、階層的クラスタリング、重心ベースクラスタリング、分布ベースクラスタリング、密度ベースクラスタリングを含むが、これらに限定されない。異なるクラスターは、２つのタイプのＤＮＡ断片（例えば、母体および胎児ＤＮＡ断片）間の末端モチーフ対の頻度の差により、相対頻度の異なるパターンを有するため、試料における病理の異なるレベルまたは臨床的関連ＤＮＡの異なる量に対応し得る。

【0230】

したがって、サポートベクターマシン（ＳＶＭ）、決定木、単純ベイズ分類、ロジスティック回帰、クラスタリングアルゴリズム、主成分分析（ＰＣＡ）、特異値分解（ＳＶＤ）、ｔ分布型確率的近傍埋め込み（ｔＳＮＥ）、人工ニューラルネットワーク、ならびに分類器のセットを構成し、次いでそれらの予測の加重投票を行うことによって新しいデータ点を分類するアンサンブル方法を含むがこれらに限定されない、機械学習（例えば、深層学習）モデルが、Ｎ個の血漿ＤＮＡ末端モチーフ対の相対頻度を含むＮ次元ベクトルを使用することによって分類器（例えば、がん分類器）を訓練するために使用され得る。一連のがん患者および非がん患者を含む「Ｎ次元ベクトルベースマトリックス」に基づいて分類器が訓練されると、新しい患者についてがんになる確率が予測できるようになる。

【0231】

機械学習アルゴリズムのこのような使用において、集計値は、参照値と比較し得る確率または距離（例えば、ＳＶＭを使用する場合）に対応し得る。他の実施形態において、集計値は、２つの分類間のカットオフと比較される、または所与の分類の代表値と比較される、モデル（例えば、ニューラルネットワークの初期の層）における初期の出力に対応し得る。

【0232】

図５８は、本開示の実施形態による、非がん対象とＨＣＣ対象とを区別するための、－１および＋１位のヌクレオチドの末端モチーフ対を使用したＳＶＭモデリングのＲＯＣ曲線を示す。セクションＩＩと同じデータセットが使用される。０．９２のＡＵＣが達成され、これは、Ｃ＜＞ＣのＡＵＣ（図７Ｃの０．９１）のすぐ上であり、ＡＧ＜＞ＴＡのＡＵＣ（図１４Ａの０．９３８）のすぐ下であり、かつｔ｜Ｃ＜＞ｃ｜ＣのＡＵＣ（図１９Ａおよび１９Ｃの０．０９１７）とほぼ同じである。

【0233】

ＳＶＭモデルの特徴ベクトルには、ｅｎｄ２：－１＋１の断片タイプについての２５６個の組み合わせの各々の相対頻度が含まれる。サポートベクターマシンを使用して、非がん患者とＨＣＣ対象とを分離した。他の実装において、すべての可能な組み合わせの一部分のみが使用され得る。例えば、上位２０、３０、５０個などの末端モチーフ対（例えば、ＡＵＣによって測定されるような）が、使用され得る。

【0234】

Ｂ．較正関数
本明細書に記載されるように、参照値は、既知の分類を有する１つ以上の参照（較正）試料を使用して決定され得る。例えば、参照試料は、健康であることが知られ得るか、または病理を有することが知られ得る。他の例として、参照／較正試料は、所与の較正値（例えば、本明細書に記載の量のいずれかを含むパラメータ）について、臨床的関連ＤＮＡの既知のまたは測定された画分濃度を有することができる。

【0235】

１つ以上の較正値は、１つ以上の参照値であり得るか、または参照値を決定するために使用され得る。参照値は、分類についての特定の数値に対応することができる。例えば、較正データ点（較正値、およびヌクレアーゼ活性または有効性のレベルなどの測定された特性）を、補間または回帰を介して分析して、較正関数（例えば、線形関数）を決定することができる。次いで、較正関数の点を使用して、測定された量または他のパラメータ（例えば、２つの量間、もしくは測定された量と参照値との間の分離値）の入力に基づいて、入力としての数値分類を決定することができる。そのような技術は、本明細書に記載の方法のいずれにも適用され得る。

【0236】

方法５７００の例では、参照値は、それぞれ病理または画分濃度の既知のまたは測定された分類を有する、１つ以上の参照試料を使用して決定され得る。対応する集計値（例えば、ブロック４６４０または５７４０の値）は、１つ以上の参照試料で測定され得、それによって参照／較正試料についての２つの測定値を含む較正データ点を提供する。１つ以上の参照試料は、複数の参照試料であり得る。複数の参照試料の測定された有効性および測定された量に対応する較正データ点を、例えば、補間または回帰によって近似する較正関数が決定され得る。

【0237】

ＩＸ．フィルタリングおよび濃縮
特定の末端モチーフ対のセットを示す特定の組織由来のＤＮＡ断片の選択は、その特定の組織からのＤＮＡの試料を濃縮するために使用され得る。したがって、実施形態は、臨床的関連ＤＮＡのために試料を濃縮し得る。例えば、特定の末端配列の対を有するＤＮＡ断片のみが、アッセイを使用して配列決定、増幅、および／または捕捉され得る。別の例として、配列リードのフィルタリングが実施され得る。

【0238】

Ａ．区別を改善するためのフィルタリング
特定の基準を使用して、特定のＤＮＡ断片（末端モチーフ対による以外）をフィルタリングして、より高い精度、例えば、感度および特異度を提供することができる。例として、二末端分析は、例えば、複数のオープンクロマチン領域のうちの１つ内に完全にまたは部分的にアラインメントするリードによって決定されるように、特定の組織のオープンクロマチン領域に由来するＤＮＡ断片に限定され得る。例えば、オープンクロマチン領域と重複する少なくとも１つのヌクレオチドを有する任意のリードは、オープンクロマチン領域内のリードとして定義され得る。典型的なオープンクロマチン領域は、ＤＮａｓｅＩ過敏性部位によると約３００ｂｐである。オープンクロマチン領域のサイズは、オープンクロマチン領域を定義するために使用される技術、例えばＡＴＡＣ－ｓｅｑ（トランスポーゼースアクセス可能クロマチン配列決定のためのアッセイ（ＡｓｓａｙｆｏｒＴｒａｎｓｐｏｓａｓｅＡｃｃｅｓｓｉｂｌｅＣｈｒｏｍａｔｉｎＳｅｑｕｅｎｃｉｎｇ））対ＤＮａｓｅＩ－Ｓｅｑによって変化し得る。

【0239】

別の例として、特定のサイズのＤＮＡ断片が、末端モチーフ分析を実施するために選択され得る。これは、末端モチーフの相対頻度の集計値の分離を増加させ得、それによって精度を向上させる。例えば、指定された長さ、質量、または重量未満のＤＮＡ断片が保持され得、より大きい／長い断片が破棄され得る。例として、サイズカットオフは、１５０ｂｐ、２００ｂｐ、２５０ｂｐ、３００ｂｐなどであり得る。そのようなサイズサンプリングは、インシリコで、または電気泳動などの物理的プロセスによって実施され得る。

【0240】

さらなる例は、ＤＮＡ断片のメチル化特性を使用し得る。胎児および腫瘍ＤＮＡ分子は、一般に、低メチル化されている。胎児分析は、臨床的関連ＤＮＡの画分濃度を決定するために使用され得る。実施形態は、ＤＮＡ断片のメチル化メトリック（例えば、密度）を決定し得る（例えば、ＤＮＡ断片上でメチル化される部位の割合または絶対数として）。測定されたメチル化密度に基づく二末端分析において使用するためのＤＮＡ断片が選択され得る。例えば、ＤＮＡ断片は、メチル化密度が閾値を超えている場合にのみ使用され得る。

【0241】

参照ゲノムと比較して、ＤＮＡ断片が配列多様性（例えば、塩基置換、挿入、または欠失）を含むかどうかも、フィルタリングに使用され得る。

【0242】

様々なフィルタリング基準は、を組み合わせて使用され得る。例えば、各基準を満たす必要がある場合、または少なくとも特定の数の基準を満たす必要がある場合がある。別の実装において、断片が臨床的関連ＤＮＡ（例えば、胎児、腫瘍、または移植）に対応する確率が決定され得、ＤＮＡ断片が二末端分析において使用される前に満たすべき閾値が、その確率に対して課され得る。さらなる例として、特定の末端モチーフ対の頻度カウンターへのＤＮＡ断片の寄与は、確率に基づいて重み付けされ得る（例えば、１を追加する代わりに、１未満の値を有する確率を追加する）。したがって、特定の末端モチーフを有するＤＮＡ断片は、より高く重み付けされる、および／またはより高い確率を有するであろう。そのような濃縮は、以下でさらに説明する。

【0243】

Ｂ．物理的濃縮
物理的濃縮は、様々な方法で、例えば、特定のプライマーまたはアダプターを使用して実施され得るような、標的配列決定またはＰＣＲを介して、実施され得る。特定の末端モチーフ対が検出された場合、アダプターが断片の末端に追加され得る。次に、配列決定が実施されると、アダプターを有するＤＮＡ断片のみが配列決定され（または少なくとも主に配列決定され）、それによって標的化配列決定が提供される。

【0244】

別の例として、特定の末端モチーフ対のセットにハイブリダイズするプライマーが使用され得る。次に、これらのプライマーを使用して配列決定または増幅が実施され得る。特定の末端モチーフ対に対応する捕捉プローブはまた、さらなる分析のためにそれらの末端モチーフ対を有するＤＮＡ分子を捕捉するために使用され得る。いくつかの実施形態は、血漿ＤＮＡ分子の末端に短いオリゴヌクレオチドを連結し得る。次いで、プローブは、部分的に末端モチーフであり、部分的に連結されたオリゴヌクレオチドである配列のみを認識するように設計され得、特定のプローブの対は、特定の末端モチーフ対に対応する。

【0245】

いくつかの実施形態は、クラスター化された規則的に間隔を空けた短いパリンドロームリピート（ＣＲＩＳＰＲ）ベースの診断技術を使用することができ、例えば、ガイドＲＮＡを使用して、臨床的関連ＤＮＡの好ましい末端モチーフに対応する部位を特定し、次いでヌクレアーゼを使用して、ＣＲＩＳＰＲ関連タンパク質９（Ｃａｓ９）またはＣＲＩＳＰＲ関連タンパク質１２（Ｃａｓ１２）を使用して行われ得るように、ＤＮＡ断片を切断する。例えば、アダプターを使用して対の各末端モチーフ認識することができ、次いでＣＲＩＳＰＲ／Ｃａｓ９またはＣａｓ１２を使用して、末端モチーフ／アダプターハイブリッドを切断し、分子を所望の末端でさらに濃縮するための普遍的な認識可能な末端を作成することができる。

【0246】

図５９は、本開示の実施形態による、臨床的関連ＤＮＡについて生物学的試料を物理的に濃縮する方法５９００を示すフローチャートである。生物学的試料は、臨床的関連ＤＮＡ分子および無細胞の他のＤＮＡ分子を含む。方法５９００は、特定のアッセイを使用して濃縮を実施し得る。

【0247】

ブロック５９１０で、生物学的試料から複数の無細胞ＤＮＡ断片が受け取られる。臨床的関連ＤＮＡ断片（例えば、胎児または腫瘍）は、他のＤＮＡ（例えば、母体ＤＮＡ、健康なＤＮＡ、または血液細胞）よりも高い相対頻度で生じる配列モチーフ対の末端配列を有する。例として、図３および１３からのデータを使用し得る。したがって、臨床的関連ＤＮＡについて濃縮するために配列モチーフ対が使用され得る。

【0248】

ブロック５９２０で、複数の無細胞ＤＮＡ断片は、複数の無細胞ＤＮＡ断片の末端配列における配列モチーフ対を検出する１つ以上のプローブ分子に供される。プローブ分子のそのような使用は、検出されたＤＮＡ断片を取得する結果をもたらし得る。一例において、１つ以上のプローブ分子は、複数の無細胞ＤＮＡ断片を調査し、検出されたＤＮＡ断片を増幅するために使用される新しい配列を付加する１つ以上の酵素を含み得る。別の例において、１つ以上のプローブ分子は、ハイブリダイゼーションによって末端配列における配列モチーフ対を検出するために表面に付着され得る。

【0249】

ブロック５９３０で、検出されたＤＮＡ断片は、臨床的関連ＤＮＡ断片について生物学的試料を濃縮するために使用される。一例として、検出されたＤＮＡ断片を使用して、臨床的関連ＤＮＡ断片について生物学的試料を濃縮することは、検出されたＤＮＡ断片を増幅することを含み得る。別の例として、検出されたＤＮＡ断片は捕捉され得、検出されなかったＤＮＡ断片は廃棄され得る。

【0250】

Ｃ．インシリコ濃縮
インシリコ濃縮は、様々な基準を使用して、特定のＤＮＡ断片を選択または破棄し得る。そのような基準は、末端モチーフ対、オープンクロマチン領域、サイズ、配列多様性、メチル化、および他のエピジェネティックな特性を含み得る。エピジェネティックな特性には、ＤＮＡ配列の変化を伴わないゲノムのすべての修飾を含む。基準は、例えば、特定のサイズ範囲、特定の量を上回るもしくは下回るメチル化メトリック、２つ以上のＣｐＧ部位のメチル化状態（メチル化もしくは非メチル化）の組み合わせ（例えば、メチル化ハプロタイプ（Ｇｕｏｅｔａｌ，ＮａｔＧｅｎｅｔ．２０１７；４９：６３５－４２））などの特定の特性を必要とするか、または閾値を上回る組み合わされた確率を有する、カットオフを既定することができる。そのような濃縮はまた、そのような確率に基づいてＤＮＡ断片を重み付けすることを含み得る。

【0251】

例として、濃縮された試料は、病理を分類するために（上記のように）、同様に腫瘍もしくは胎児の変異を同定するために、または染色体もしくは染色体領域の増幅／欠失検出のためのタグカウントのために使用され得る。例えば、特定の末端モチーフ対が肝臓がんに関連する場合（すなわち、非がんまたは他のがんよりも高い相対頻度）、がんスクリーニングを実施するための実施形態は、そのようなＤＮＡ断片を、この好ましい１つの、またはこの好ましいセットの末端モチーフを有しないＤＮＡ断片よりも高く重み付けし得る。

【0252】

図６０は、本開示の実施形態による、臨床的関連ＤＮＡについて生物学的試料のインシリコ濃縮のための方法を示すフローチャートである。
生物学的試料は、臨床的関連ＤＮＡ分子および無細胞の他のＤＮＡ分子を含む。方法６０００は、配列リードの特定の基準を使用して、濃縮を実施し得る。

【0253】

ブロック６０１０で、配列リードを取得するために生物学的試料由来の複数の無細胞ＤＮＡ断片が分析される。配列リードは、複数の無細胞ＤＮＡ断片の末端に対応する末端配列を含む。ブロック６０１０は、図４６のブロック４６１０と同様の方法で実施され得る。

【0254】

ブロック６０２０で、複数の無細胞ＤＮＡ断片の各々について、配列モチーフ対が、無細胞ＤＮＡ断片の末端配列について決定される。ブロック６０２０は、図４６のブロック４６２０と同様の方法で実施され得る。

【0255】

ブロック６０３０で、他のＤＮＡよりも高い相対頻度で臨床的関連ＤＮＡにおいて生じる１つ以上の配列モチーフ対のセットが同定される。配列モチーフ対のセットは、本明細書に記載の遺伝子型または表現型の技術によって同定され得る。較正または参照試料は、臨床的関連ＤＮＡに選択的である配列モチーフ対をランク付けおよび選択するために使用され得る。

【0256】

ブロック６０４０で、１つ以上の配列モチーフ対のセットを有する複数の無細胞ＤＮＡ断片の群が同定される。これは、フィルタリングの最初の段階とみなし得る。

【0257】

ブロック６０５０で、閾値を超える臨床的関連ＤＮＡに対応する尤度を有する無細胞ＤＮＡ断片が保存され得る。尤度は、末端モチーフ対のセットを使用して決定され得る。例えば、無細胞ＤＮＡ断片の群の各無細胞ＤＮＡ断片について、無細胞ＤＮＡ断片が臨床的関連ＤＮＡに対応する尤度は、配列モチーフ対のセットの配列モチーフ対を含む末端配列に基づいて決定され得る。尤度は閾値と比較され得る。一例として、好適な閾値は、経験的に決定され得る。例えば、臨床的関連ＤＮＡの既知のマーカーを有する試料について、様々な閾値が試験され得る。結果として生じる臨床的関連ＤＮＡの濃度は、各閾値について決定され得る。

【0258】

最適な閾値は、配列リードの総数の特定の割合を維持しながら、濃度を最大化し得る。閾値は、健康な対照または疾患を有しないが同様の病因的リスク要因にさらされた対照群において存在する１つ以上の末端モチーフ対の濃度の１つ以上の所与のパーセンタイル（５、１０、９０、または９５）によって決定され得る。閾値は、回帰または確率スコアであり得る。

【0259】

尤度が閾値を超える場合、配列リードは、メモリ（例えば、ファイル、テーブル、または他のデータ構造）に保存され得、それによって保存された配列リードを取得する。閾値を下回る尤度を有する配列リードは、破棄され得るか、もしくは保持されているリードのメモリ位置に保存されないか、またはデータベースのフィールドが、後の分析がそのようなリードを除外し得るように、リードがより低い閾値を有することを示すフラグを含み得る。例として、尤度は、オッズ比、ｚスコア、または確率分布などの様々な技術を使用して決定され得る。

【0260】

ブロック６０６０で、保存された配列リードは、他のフローチャートに記載されているように、例えば、本明細書に記載されているように、臨床的関連ＤＮＡ生物学的試料の特性を決定するために分析され得る。方法４６００および５７００は、そのような例である。例えば、臨床的関連ＤＮＡ生物学的試料の特性は、臨床的関連ＤＮＡの画分濃度であり得る。別の例として、特性は、生物学的試料が取得された対象の病理のレベルであり得、病理のレベルは、臨床的関連ＤＮＡに関連している。

【0261】

他の基準が、尤度を決定するために使用され得る。複数の無細胞ＤＮＡ断片のサイズは、配列リードを使用して測定され得る。特定の配列リードが臨床的関連ＤＮＡに対応する尤度は、特定の配列リードに対応する無細胞ＤＮＡ断片のサイズにさらに基づき得る。

【0262】

メチル化も使用され得る。したがって、実施形態は、特定の配列リードに対応する無細胞ＤＮＡ断片の１つ以上の部位での１つ以上のメチル化状態を測定し得る。特定の配列リードが臨床的関連ＤＮＡに対応する尤度は、１つ以上のメチル化状態にさらに基づき得る。さらなる例として、リードがオープンクロマチン領域の同定されたセット内にあるかどうかがフィルターとして使用され得る。

【0263】

本明細書に記載の方法のいずれかについて、無細胞ＤＮＡ断片の配列モチーフ対は、参照ゲノムを使用して（例えば、図１の技術１６０を介して）実施され得る。そのような技術は、無細胞ＤＮＡ断片に対応する１つ以上の配列リードを参照ゲノムにアラインメントすること、末端配列に隣接する参照ゲノムにおける１つ以上の塩基を同定すること、および配列モチーフ対を決定するために末端配列および１つ以上の塩基を使用することを含み得る。

【0264】

Ｘ．治療
実施形態は、対象の分類を決定した後、患者における病理を治療することをさらに含み得る。治療は、病理の決定されたレベル、臨床的関連ＤＮＡの画分濃度、または起源の組織に従って提供され得る。例えば、特定された変異は、特定の薬物または化学療法を用いて標的化され得る。起源の組織を使用して、手術または任意の他の形態の治療を誘導することができる。そして、病理のレベルを使用して、任意のタイプの治療についてどれほど積極的にするかを決定することができ、これはまた、病理のレベルに基づいても決定され得る。病理（例えば、がん）は、化学療法、薬物、食事療法、療法、および／または手術によって治療され得る。いくつかの実施形態において、パラメータの値（例えば、量またはサイズ）が参照値を超えるほど、治療は、より積極的になり得る。

【0265】

治療には、切除が含まれ得る。膀胱がんの場合、治療には、経尿道的膀胱腫瘍切除術（ＴＵＲＢＴ）が含まれ得る。この手順は、診断、病期分類、および治療に使用される。ＴＵＲＢＴ中、外科医は、膀胱鏡を尿道から膀胱に挿入する。次いで、小型ワイヤーループ、レーザー、または高エネルギー電気を備えたツールを使用して、腫瘍が切除される。非筋肉浸潤性膀胱がん（ＮＭＩＢＣ）の患者の場合、がんの治療または除去のためにＴＵＲＢＴが使用され得る。別の治療には、根治的膀胱切除術およびリンパ節郭清が含まれ得る。根治的膀胱切除術は、膀胱全体、ならびに場合によっては周囲の組織および臓器の除去である。治療には、尿路変向術も含まれ得る。尿路変向術とは、治療の一部として膀胱が除去されたときに、医師が尿を体外に排出するための新しい経路を作る場合である。

【0266】

治療には、化学療法が含まれ得、これは、通常がん細胞の成長および分裂を防ぐことによって、がん細胞を破壊するための薬物の使用である。薬物には、例えば、膀胱内化学療法のためのマイトマイシン－Ｃ（ジェネリック医薬品として入手可能）、ゲムシタビン（Ｇｅｍｚａｒ）、およびチオテパ（Ｔｅｐａｄｉｎａ）が含まれ得るが、これらに限定されない。全身化学療法には、例えば、シスプラチンゲムシタビン、メトトレキサート（Ｒｈｅｕｍａｔｒｅｘ、Ｔｒｅｘａｌｌ）、ビンブラスチン（Ｖｅｌｂａｎ）、ドキソルビシン、およびシスプラチンが含まれ得るが、これらに限定されない。

【0267】

いくつかの実施形態において、治療には、免疫療法が含まれ得る。免疫療法には、ＰＤ－１と呼ばれるタンパク質をブロックする免疫チェックポイント阻害剤が含まれ得る。阻害剤には、アテゾリズマブ（Ｔｅｃｅｎｔｒｉｑ）、ニボルマブ（Ｏｐｄｉｖｏ）、アベルマブ（Ｂａｖｅｎｃｉｏ）、デュルバルマブ（Ｉｍｆｉｎｚｉ）、およびペムブロリズマブ（Ｋｅｙｔｒｕｄａ）が含まれ得るが、これらに限定されない。

【0268】

治療の実施形態はまた、標的療法を含み得る。標的療法は、がんの成長および生存に寄与するがんの特定の遺伝子および／またはタンパク質を標的とする治療である。例えば、エルダフィチニブは、がん細胞の成長または拡散を続けているＦＧＦＲ３またはＦＧＦＲ２遺伝子変異を伴う局所進行性または転移性尿路上皮がんを有する人々を治療するために承認された、経口投与される薬物である。

【0269】

一部の治療法には、放射線療法が含まれ得る。放射線療法は、がん細胞を破壊するために高エネルギーＸ線または他の粒子を使用することである。各個々の治療に加えて、本明細書に記載のこれらの治療の組み合わせが使用され得る。いくつかの実施形態において、パラメータの値が閾値を超え、閾値自体が参照値を超える場合、治療の組み合わせが使用され得る。参考文献における治療に関する情報は、参照により本明細書に組み込まれる。

【0270】

ＸＩ．例示的なシステム
図６１は、本開示の実施形態による、測定システム６１００を例示する。示されるようなシステムは、アッセイデバイス６１１０内に無細胞ＤＮＡ分子などの試料６１０５を含み、アッセイ６１０８は、試料６１０５に対して実施され得る。例えば、試料６１０５をアッセイ６１０８の試薬と接触させて、物理的特性６１１５の信号を提供することができる。アッセイデバイスの一例は、アッセイのプローブおよび／もしくはプライマー、または液滴が（アッセイを含む液滴とともに）移動するチューブを含む、フローセルであり得る。試料からの物理的特性６１１５（例えば、蛍光強度、電圧、または電流）は、検出器６１２０によって検出される。検出器６１２０は、データ信号を構成するデータ点を取得するために、間隔をおいて（例えば、周期的な間隔）測定し得る。一実施形態において、アナログ－デジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。アッセイデバイス６１１０および検出器６１２０は、アッセイシステム、例えば、本明細書に記載の実施形態に従って配列決定を実施する配列決定システムを形成し得る。データ信号６１２５は、検出器６１２０から論理システム６１３０に送信される。一例として、データ信号６１２５を使用して、ＤＮＡ分子の参照ゲノムにおける配列および／または位置を決定することができる。データ信号６１２５は、同時に行われる様々な測定、例えば、試料６１０５の異なる分子について異なる色の蛍光染料または異なる電気信号を含むことができ、したがって、データ信号６１２５は、複数の信号に対応することができる。データ信号６１２５は、ローカルメモリ６１３５、外部メモリ６１４０、または記憶デバイス６１４５に保存され得る。

【0271】

論理システム６１３０は、コンピュータシステム、ＡＳＩＣ、マイクロプロセッサ、グラフィックスプロセッシングユニット（ＧＰＵ）などであり得るか、またはそれらを含み得る。それはまた、ディスプレイ（例えば、モニタ、ＬＥＤディスプレイなど）、およびユーザ入力デバイス（例えば、マウス、キーボード、ボタンなど）を含み得るか、またはそれらに連結され得る。論理システム６１３０および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であり得るか、または検出器６１２０および／またはアッセイデバイス６１１０を含むデバイス（例えば、配列決定デバイス）に直接取り付けられ得るか、もしくは組み込まれ得る。論理システム６１３０はまた、プロセッサ６１５０において実行するソフトウェアを含み得る。論理システム６１３０は、本明細書に説明される方法のいずれかを実施するようにシステム６１００を制御するための命令を保存するコンピュータ可読媒体を含み得る。例えば、論理システム６１３０は、配列決定または他の物理的操作が実施されるように、アッセイデバイス６１１０を含むシステムにコマンドを提供し得る。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、実施され得る。そのような物理的操作は、試料を取得してアッセイを実施するために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって実施され得る。

【0272】

測定システム６１００はまた、対象に治療を提供することができる治療デバイス６１６０を含み得る。治療デバイス６１６０は、治療を決定し得る、および／または治療を実施するために使用され得る。そのような治療の例には、手術、放射線療法、化学療法、免疫療法、標的療法、ホルモン療法、および幹細胞移植が含まれ得る。論理システム６１３０は、例えば、本明細書に記載の方法の結果を提供するために、治療デバイス６１６０に接続され得る。治療デバイスは、画像化デバイスおよびユーザ入力などの他のデバイスからの入力を受け取り得る（例えば、ロボットシステムの制御など、治療を制御するために）。

【0273】

本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用し得る。コンピュータシステム１０においてこのようなサブシステムの例を図６２に示す。いくつかの実施形態において、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態において、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータおよびラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯装置を含み得る。

【0274】

図６３に示すサブシステムは、システムバス７５を介して相互接続することができる。プリンタ７４、キーボード７８、記憶デバイス７９、ディスプレイアダプター８２に接続されたモニタ７６（例えば、ＬＥＤなどのディスプレイスクリーン）、およびその他などの追加のサブシステムが示されている。Ｉ／Ｏコントローラ７１に結合する周辺機器および入力／出力（Ｉ／Ｏ）デバイスは、入力／出力（Ｉ／Ｏ）ポート７７（例えば、ＵＳＢ、ＦｉｒｅＷｉｒｅ（登録商標））などの当技術分野において既知である任意の数の手段によって、コンピュータシステムに接続され得る。例えば、Ｉ／Ｏポート７７または外部インターフェース８１（例えば、Ｅｔｈｅｒｎｅｔ、Ｗｉ－Ｆｉなど）を使用して、Ｉｎｔｅｒｎｅｔなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータシステム１０を接続し得る。システムバス７５を介した相互接続は、中央プロセッサ７３が、各サブシステムと通信し、システムメモリ７２または記憶デバイス７９（例えば、ハードドライブまたは光ディスクなどの固定ディスク）からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ７２および／または記憶デバイス７９は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロホン、および加速度計、ならびにこれらに類するものなどのデータ収集デバイス８５である。本明細書に言及されるデータのうちのいずれも、１つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。

【0275】

コンピュータシステムは、例えば、外部インターフェース８１によって、内部インターフェースによって、または１つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶デバイスを介して、ともに接続された、複数の同じ構成要素またはサブシステムを含み得る。いくつかの実施形態において、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信し得る。そのような例において、１つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含むことができる。

【0276】

実施形態の態様は、制御ロジックの形態で、ハードウェア回路（例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ）を使用して、および／またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装され得る。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含み得る。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、ならびにハードウェアおよびソフトウェアの組み合わせを使用して、本開示の実施形態を実装するための他の手段および／または方法を認識および理解するであろう。

【0277】

本出願で説明されるソフトウェアコンポーネントまたは関数のうちのいずれも、例えば、Ｊａｖａ、Ｃ、Ｃ＋＋、Ｃ＃、Ｏｂｊｅｃｔｉｖｅ－Ｃ、Ｓｗｉｆｔなどの任意の好適なコンピュータ言語、または、例えば、従来の技術もしくは物体指向の技術を使用するＰｅｒｌもしくはＰｙｔｈｏｎなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、記憶および／または伝送のためのコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ（ＲＡＭ）、リード専用メモリ（ＲＯＭ）、磁気媒体（ハードドライブもしくはフロッピーディスクなど）、または光学媒体（コンパクトディスク（ＣＤ）もしくはＤＶＤ（デジタル多用途ディスク）など）、またはブルーレイディスクおよびフラッシュメモリなどを含み得る。コンピュータ可読媒体は、そのようなストレージまたは伝送デバイスの任意の組み合わせであってもよい。

【0278】

そのようなプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および／または無線ネットワークを介した伝送に適合した搬送波信号を使用して伝送され得る。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成され得る。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されてもよく、または（例えば、インターネットダウンロードを介して）他のデバイスとは別個に提供され得る。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品（例えば、ハードドライブ、ＣＤ、もしくはコンピュータシステム全体）上もしくはその内部に存在し得、システムまたはネットワーク内の異なるコンピュータ製品上もしくはその内部に存在し得る。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザに提供するための他の好適なディスプレイを含み得る。

【0279】

本明細書記載の方法のうちのいずれも、ステップを実施するように構成することができる１つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施され得る。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なるコンポーネントがそれぞれのステップまたはそれぞれのステップの群を実施する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または論理的に可能である異なる順序で実施され得る。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用され得る。また、あるステップのすべてまたは部分は、任意選択的であり得る。加えて、本方法のうちのいずれかの任意のステップは、これらのステップを実行するためのシステムのモジュール、ユニット、回路、または他の手段で実行することができる。

【0280】

本開示を読むと当業者には明らかになるように、本明細書に記載および図示される個々の実施形態の各々は、本開示の範囲または趣旨から逸脱することなく、他のいくつかの実施形態のいずれかの特徴から容易に分離され得るか、またはそれと組み合わされ得る、別個の構成要素および特徴を有する。

【0281】

本開示の例示的な実施形態の上の説明は、例示および説明の目的で提示されており、本開示の実施形態の作製および使用方法の完全な開示および説明を当業者に提供するために記載される。網羅的であること、もしくは本開示を記載された正確な形式に限定することを意図するものではなく、また、実験が実施されるすべてまたは唯一の実験であることを表すことを意図するものでもない。本開示は、理解を明確にする目的で例示および実施例によってある程度詳細に説明されてきたが、本開示の教示に照らして、添付の特許請求の範囲の趣旨または範囲から逸脱することなく、特定の変更および修正が本開示に行われ得ることが、当業者には容易に明らかである。

【0282】

したがって、上記は単に、本発明の原理を例示しているにすぎない。当業者が、本明細書で明示的に説明または図示されていないが、本発明の原理を具現化し、その趣旨および範囲内に含まれる様々な配置を考案することができることが理解されるであろう。さらに、本明細書に列挙されるすべての実施例および条件付き言語は、主に、読者が、本開示の原理がそのような具体的に列挙された実施例および条件に限定されないことを理解するのを助けることを意図している。さらに、本発明の原理、態様、および実施形態、ならびにその具体的な実施例を列挙する本明細書のすべての記述は、その構造的および機能的等価物の両方を包含することを意図している。さらに、そのような等価物には、現在知られている等価物および将来開発される等価物の両方、すなわち、構造に関係なく同じ機能を実施する開発された任意の要素が含まれることが意図されている。したがって、本発明の範囲は、本明細書で図示および説明される例示的な実施形態に限定されることを意図するものではない。むしろ、本発明の範囲および趣旨は、添付の特許請求の範囲によって具現化される。

【0283】

「ａ」、「ａｎ」、または「ｔｈｅ」の記述は、それとは反対に具体的に示されない限り、「１つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「を除く、または」ではなく「を含む、または」を意味することが意図される。「第１」の構成要素への言及は、第２の構成要素が提供されることを必ずしも必要としない。さらに、「第１」または「第２」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「～に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。

【0284】

請求項は、任意選択的であり得るいかなる要素も除外するように起草され得る。したがって、この記述は、請求項要素の列挙に関連する「単独で」、「のみ」などの排他的な用語の使用、または「否定的な」限定の使用についての先行詞として機能することを意図している。

【0285】

本明細書で言及されるすべての特許、特許出願、刊行物、および説明は、あたかも各個々の刊行物または特許が参照により組み込まれることが具体的かつ個別に示されているかのように、あらゆる目的でそれらの全体が参照により本明細書に組み込まれ、かつ刊行物が引用されているものと関連する方法および／または材料を開示および説明するために、参照により本明細書に組み込まれる。いかなるものも、先行技術であるとは認められていない。
ＸＩＩ．参考文献
１．ＣｈａｎＫＣＡ，ＷｏｏＪＫＳ，ＫｉｎｇＡ，ＺｅｅＢＣＹ，ＬａｍＷＫＪ，ＣｈａｎＳＬ，ｅｔａｌ．ＡｎａｌｙｓｉｓｏｆＰｌａｓｍａＥｐｓｔｅｉｎ－ＢａｒｒＶｉｒｕｓＤＮＡｔｏＳｃｒｅｅｎｆｏｒＮａｓｏｐｈａｒｙｎｇｅａｌＣａｎｃｅｒ．ＮＥｎｇｌＪＭｅｄ［Ｉｎｔｅｒｎｅｔ］．２０１７／０８／１０．２０１７；３７７（６）：５１３－２２。ｈｔｔｐｓ：／／ｗｗｗ．ｎｅｊｍ．ｏｒｇ／ｄｏｉ／ｐｄｆ／１０．１０５６／ＮＥＪＭｏａ１７０１７１７から入手可能。
２．ＣｈｉｕＲＷＫ，ＣｈａｎＫＣＡ，ＧａｏＹ，ＬａｕＶＹＭ，ＺｈｅｎｇＷ，ＬｅｕｎｇＴＹ，ｅｔａｌ．ＮｏｎｉｎｖａｓｉｖｅｐｒｅｎａｔａｌｄｉａｇｎｏｓｉｓｏｆｆｅｔａｌｃｈｒｏｍｏｓｏｍａｌａｎｅｕｐｌｏｉｄｙｂｙｍａｓｓｉｖｅｌｙｐａｒａｌｌｅｌｇｅｎｏｍｉｃｓｅｑｕｅｎｃｉｎｇｏｆＤＮＡｉｎｍａｔｅｒｎａｌｐｌａｓｍａ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ［Ｉｎｔｅｒｎｅｔ］．２００８；１０５（５１）：２０４５８－６３。ｈｔｔｐ：／／ｗｗｗ．ｐｎａｓ．ｏｒｇ／ｃｏｎｔｅｎｔ／１０５／５１／２０４５８．ａｂｓｔｒａｃｔから入手可能。
３．ＬｏＹＭＤ，ＣｏｒｂｅｔｔａＮ，ＣｈａｍｂｅｒｌａｉｎＰＦ，ＲａｉＶ，ＳａｒｇｅｎｔＩＬ，ＲｅｄｍａｎＣＷＧ，ｅｔａｌ．ＰｒｅｓｅｎｃｅｏｆｆｅｔａｌＤＮＡｉｎｍａｔｅｒｎａｌｐｌａｓｍａａｎｄｓｅｒｕｍ．Ｌａｎｃｅｔ［Ｉｎｔｅｒｎｅｔ］．１９９７；３５０（９０７６）：４８５－７。ｈｔｔｐ：／／ｄｘ．ｄｏｉ．ｏｒｇ／１０．１０１６／Ｓ０１４０－６７３６（９７）０２１７４－０から入手可能
４．ＬｏＹＭＤ，ＣｈａｎＫＣＡ，ＳｕｎＨ，ＣｈｅｎＥＺ，ＪｉａｎｇＰ，ＬｕｎＦＭＦ，ｅｔａｌ．ＭａｔｅｒｎａｌＰｌａｓｍａＤＮＡＳｅｑｕｅｎｃｉｎｇＲｅｖｅａｌｓｔｈｅＧｅｎｏｍｅ－ＷｉｄｅＧｅｎｅｔｉｃａｎｄＭｕｔａｔｉｏｎａｌＰｒｏｆｉｌｅｏｆｔｈｅＦｅｔｕｓ．ＳｃｉＴｒａｎｓｌＭｅｄ［Ｉｎｔｅｒｎｅｔ］．２０１０；２（６１）：６１ｒａ９１－６１ｒａ９１。ｈｔｔｐ：／／ｓｔｍ．ｓｃｉｅｎｃｅｍａｇ．ｏｒｇ／ｃｏｎｔｅｎｔ／ｓｃｉｔｒａｎｓｍｅｄ／２／６１／６１ｒａ９１．ｆｕｌｌ．ｐｄｆから入手可能
５．ＣｈａｎｄｒａｎａｎｄａＤ，ＴｈｏｒｎｅＮＰ，ＢａｈｌｏＭ．Ｈｉｇｈ－ｒｅｓｏｌｕｔｉｏｎｃｈａｒａｃｔｅｒｉｚａｔｉｏｎｏｆｓｅｑｕｅｎｃｅｓｉｇｎａｔｕｒｅｓｄｕｅｔｏｎｏｎ－ｒａｎｄｏｍｃｌｅａｖａｇｅｏｆｃｅｌｌ－ｆｒｅｅＤＮＡ．ＢＭＣＭｅｄＧｅｎｏｍｉｃｓ［Ｉｎｔｅｒｎｅｔ］．２０１５／０６／１８．２０１５［ｃｉｔｅｄ２０１９Ｄｅｃ３１］；８（１）：２９。ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１１８６／ｓ１２９２０－０１５－０１０７－ｚから入手可能
６．ＩｖａｎｏｖＭ，ＢａｒａｎｏｖａＡ，ＢｕｔｌｅｒＴ，ＳｐｅｌｌｍａｎＰ，ＭｉｌｅｙｋｏＶ．Ｎｏｎ－ｒａｎｄｏｍｆｒａｇｍｅｎｔａｔｉｏｎｐａｔｔｅｒｎｓｉｎｃｉｒｃｕｌａｔｉｎｇｃｅｌｌ－ｆｒｅｅＤＮＡｒｅｆｌｅｃｔｅｐｉｇｅｎｅｔｉｃｒｅｇｕｌａｔｉｏｎ．ＢＭＣＧｅｎｏｍｉｃｓ［Ｉｎｔｅｒｎｅｔ］．２０１５；１６（１３）：Ｓ１。ｈｔｔｐｓ：／／ｄｏｉ．ｏｒｇ／１０．１１８６／１４７１－２１６４－１６－Ｓ１３－Ｓ１から入手可能
７．ＳｎｙｄｅｒＭＷ，ＫｉｒｃｈｅｒＭ，ＨｉｌｌＡＪ，ＤａｚａＲＭ，ＳｈｅｎｄｕｒｅＪ．Ｃｅｌｌ－ｆｒｅｅＤＮＡＣｏｍｐｒｉｓｅｓａｎＩｎＶｉｖｏＮｕｃｌｅｏｓｏｍｅＦｏｏｔｐｒｉｎｔｔｈａｔＩｎｆｏｒｍｓＩｔｓＴｉｓｓｕｅｓ－Ｏｆ－Ｏｒｉｇｉｎ．Ｃｅｌｌ［Ｉｎｔｅｒｎｅｔ］．２０１６／０１／１６．２０１６；１６４（１－２）：５７－６８。ｈｔｔｐｓ：／／ａｃ．ｅｌｓ－ｃｄｎ．ｃｏｍ／Ｓ００９２８６７４１５０１５６９Ｘ／１－ｓ２．０－Ｓ００９２８６７４１５０１５６９Ｘ－ｍａｉｎ．ｐｄｆ？＿ｔｉｄ＝７ａｄ５ｃ６８２－ｆ１７８－４１４８－９ｅｆ５－５１５５ｆ３６２２ｃ９７＆ａｃｄｎａｔ＝１５４４００３４４７＿４９ｄ６５７１３４０３７ｄ６ｃｆｅ０６ｃ８９１ｅ０２ａ８ｂ９６ｅから入手可能
８．ＳｕｎＫ，ＪｉａｎｇＰ，ＣｈｅｎｇＳＨ，ＣｈｅｎｇＴＨＴ，ＷｏｎｇＪ，ＷｏｎｇＶＷＳ，ｅｔａｌ．Ｏｒｉｅｎｔａｔｉｏｎ－ａｗａｒｅｐｌａｓｍａｃｅｌｌ－ｆｒｅｅＤＮＡｆｒａｇｍｅｎｔａｔｉｏｎａｎａｌｙｓｉｓｉｎｏｐｅｎｃｈｒｏｍａｔｉｎｒｅｇｉｏｎｓｉｎｆｏｒｍｓｔｉｓｓｕｅｏｆｏｒｉｇｉｎ．ＧｅｎｏｍｅＲｅｓ［Ｉｎｔｅｒｎｅｔ］．２０１９；２９（３）：４１８－２７。ｈｔｔｐ：／／ｇｅｎｏｍｅ．ｃｓｈｌｐ．ｏｒｇ／ｃｏｎｔｅｎｔ／２９／３／４１８．ａｂｓｔｒａｃｔから入手可能
９．ＪｉａｎｇＰ，ＳｕｎＫ，ＴｏｎｇＹＫ，ＣｈｅｎｇＳＨ，ＣｈｅｎｇＴＨＴ，ＨｅｕｎｇＭＭＳ，ｅｔａｌ．ＰｒｅｆｅｒｒｅｄｅｎｄｃｏｏｒｄｉｎａｔｅｓａｎｄｓｏｍａｔｉｃｖａｒｉａｎｔｓａｓｓｉｇｎａｔｕｒｅｓｏｆｃｉｒｃｕｌａｔｉｎｇｔｕｍｏｒＤＮＡａｓｓｏｃｉａｔｅｄｗｉｔｈｈｅｐａｔｏｃｅｌｌｕｌａｒｃａｒｃｉｎｏｍａ．ＰｒｏｃＮａｔｌＡｃａｄＳｃｉＵＳＡ［Ｉｎｔｅｒｎｅｔ］．２０１８／１０／３１．２０１８；１１５（４６）：Ｅ１０９２５－ｅ１０９３３。ｈｔｔｐ：／／ｗｗｗ．ｐｎａｓ．ｏｒｇ／ｃｏｎｔｅｎｔ／ｐｎａｓ／１１５／４６／Ｅ１０９２５．ｆｕｌｌ．ｐｄｆから入手可能

【図1】