IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ザ チャイニーズ ユニバーシティ オブ ホンコンの特許一覧 ▶ グレイル,リミティド ライアビリティ カンパニーの特許一覧

特表2023-510318無細胞試料の二末端DNA断片タイプおよびその用途
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-03-13
(54)【発明の名称】無細胞試料の二末端DNA断片タイプおよびその用途
(51)【国際特許分類】
   G16B 30/10 20190101AFI20230306BHJP
   C12Q 1/68 20180101ALI20230306BHJP
   C12Q 1/6813 20180101ALI20230306BHJP
   C12N 15/10 20060101ALI20230306BHJP
   C12N 15/11 20060101ALI20230306BHJP
   C12Q 1/6827 20180101ALI20230306BHJP
   C12Q 1/6869 20180101ALI20230306BHJP
【FI】
G16B30/10
C12Q1/68
C12Q1/6813 Z
C12N15/10 100Z
C12N15/11 Z
C12Q1/6827
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022542231
(86)(22)【出願日】2021-01-07
(85)【翻訳文提出日】2022-07-08
(86)【国際出願番号】 CN2021070628
(87)【国際公開番号】W WO2021139716
(87)【国際公開日】2021-07-15
(31)【優先権主張番号】62/958,676
(32)【優先日】2020-01-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.SWIFT
3.PYTHON
(71)【出願人】
【識別番号】512037244
【氏名又は名称】ザ チャイニーズ ユニバーシティ オブ ホンコン
(71)【出願人】
【識別番号】522380594
【氏名又は名称】グレイル,リミティド ライアビリティ カンパニー
(74)【代理人】
【識別番号】100099759
【弁理士】
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【弁理士】
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【弁理士】
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【弁理士】
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【弁理士】
【氏名又は名称】池田 達則
(74)【代理人】
【識別番号】100196977
【弁理士】
【氏名又は名称】上原 路子
(72)【発明者】
【氏名】ロー ユク-ミン デニス
(72)【発明者】
【氏名】チウ ロッサ ワイ クン
(72)【発明者】
【氏名】ハン ダイアナ シャオ チョン
(72)【発明者】
【氏名】ニー モン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA19
4B063QQ02
4B063QQ08
4B063QQ28
4B063QQ42
4B063QQ62
4B063QR08
4B063QR32
4B063QR42
4B063QR72
4B063QR77
4B063QS03
4B063QS34
4B063QS36
4B063QX01
(57)【要約】
これは、試料の特性(例えば、臨床的関連DNAの画分濃度)を測定するため、および/またはそのような測定に基づいて生物の病理を決定するために、生物の生物学的試料における無細胞DNA断片の末端モチーフ対の量(例えば、相対頻度)を測定するための技術を記載する。異なる組織タイプは、末端モチーフ対の相対頻度について異なるパターンを示す。これは、例えば、様々な組織からの無細胞DNAの混合物における、無細胞DNAの末端モチーフ対の相対頻度の測定のための様々な使用を提供する。ある特定の組織に由来するDNAは、臨床的関連DNAと称され得る。
【選択図】なし
【特許請求の範囲】
【請求項1】
対象の生物学的試料を分析する方法であって、前記生物学的試料が、無細胞DNAを含み、前記方法は、
前記生物学的試料由来の複数の無細胞DNA断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞DNA断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞DNA断片の各々について、前記無細胞DNA断片の前記末端配列についての配列モチーフの対を決定することと、
前記複数の無細胞DNA断片の前記末端配列に対応する1つ以上の配列モチーフ対のセットの1つ以上の相対頻度を決定することであって、配列モチーフ対の相対頻度が、前記配列モチーフ対に対応する末端配列の対を有する前記複数の無細胞DNA断片の割合を提供する、相対頻度を決定することと、
前記1つ以上の配列モチーフ対のセットの前記1つ以上の相対頻度の集計値を決定することと、
前記集計値と参照値との比較に基づいて、前記対象についての病理のレベルの分類を決定することと、を含む、方法。
【請求項2】
1つ以上の基準を使用して前記無細胞DNAをフィルタリングして、前記複数の無細胞DNA断片を同定することをさらに含む、請求項1に記載の方法。
【請求項3】
前記病理が、HBVまたは肝硬変である、請求項1または2に記載の方法。
【請求項4】
前記病理が、自己免疫障害である、請求項1または2に記載の方法。
【請求項5】
前記自己免疫障害が、全身性エリテマトーデスである、請求項4に記載の方法。
【請求項6】
前記病理が、がんである、請求項1または2に記載の方法。
【請求項7】
前記がんが、肝細胞がん、肺がん、乳がん、胃がん、多形性神経膠芽細胞腫、膵臓がん、結腸直腸がん、上咽頭がん、および頭頸部扁平上皮細胞がんである、請求項6に記載の方法。
【請求項8】
前記分類が、がんの複数のステージを含むがんの複数のレベルから決定される、請求項6または7に記載の方法。
【請求項9】
前記分類が、前記対象ががんを有することであり、前記方法が、
前記複数の無細胞DNA断片の前記末端配列に対応する1つ以上の追加の配列モチーフ対のセットの相対頻度の1つ以上の追加の相対頻度を決定することと、
前記1つ以上の追加の配列モチーフ対のセットの前記1つ以上の追加の相対頻度の追加の集計値を決定することと、
前記追加の集計値と追加の参照値との比較に基づいて、前記対象についての前記がんのステージを決定することと、をさらに含む、請求項6~8のいずれか一項に記載の方法。
【請求項10】
前記1つ以上の配列モチーフ対のセットが、複数の配列モチーフを含み、前記1つ以上の相対頻度が、複数の相対頻度を含み、前記複数の相対頻度の前記集計値を決定することが、前記複数の相対頻度の各々と参照パターンの参照頻度との間の差を決定することを含み、前記集計値が、前記差の合計を含む、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記参照パターンの前記参照頻度が、既知の分類を有する1つ以上の参照試料から決定される、請求項10に記載の方法。
【請求項12】
対象の生物学的試料における臨床的関連DNAの画分濃度を推定する方法であって、前記生物学的試料は、前記臨床的関連DNAおよび無細胞である他のDNAを含み、前記方法は、
前記生物学的試料由来の複数の無細胞DNA断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞DNA断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞DNA断片の各々について、前記無細胞DNA断片の前記末端配列についての配列モチーフの対を決定することと、
前記複数の無細胞DNA断片の前記末端配列に対応する1つ以上の配列モチーフ対のセットの1つ以上の相対頻度を決定することであって、配列モチーフ対の相対頻度が、前記配列モチーフ対に対応する末端配列の対を有する前記複数の無細胞DNA断片の割合を提供する、相対頻度を決定することと、
前記1つ以上の配列モチーフ対のセットの前記1つ以上の相対頻度の集計値を決定することと、
前記集計値を臨床的関連DNAの画分濃度が既知の1つ以上の較正試料から決定された1つ以上の較正値と比較することによって、前記生物学的試料における臨床的関連DNAの前記画分濃度の分類を決定することと、を含む、方法。
【請求項13】
前記臨床的関連DNAが、胎児DNA、腫瘍DNA、移植臓器由来のDNA、および特定の組織タイプからなる群から選択される、請求項12に記載の方法。
【請求項14】
前記臨床的関連DNAが、特定の組織タイプのものである、請求項12に記載の方法。
【請求項15】
前記特定の組織タイプが、肝臓または造血性である、請求項14に記載の方法。
【請求項16】
前記対象が、妊娠中の女性であり、前記臨床的関連DNAが胎盤組織である、請求項12に記載の方法。
【請求項17】
前記臨床的関連DNAが、がんを有する器官に由来する腫瘍DNAである、請求項12に記載の方法。
【請求項18】
前記1つ以上の較正値が、複数の較正試料の臨床的関連DNAの画分濃度を使用して決定される較正関数の複数の較正値である、請求項12~17のいずれか一項に記載の方法。
【請求項19】
前記1つ以上の較正値が、前記1つ以上の較正試料における無細胞DNA断片を使用して測定される前記1つ以上の配列モチーフ対のセットの前記相対頻度の1つ以上の集計値に対応する、請求項12~18のいずれか一項に記載の方法。
【請求項20】
前記1つ以上の較正試料の各較正試料について、
前記較正試料における臨床的関連DNAの前記画分濃度を測定することと、
較正データ点の取得の一部として前記較正試料由来の無細胞DNA断片を分析することによって、前記1つ以上の配列モチーフ対のセットの前記相対頻度の前記集計値を決定し、それによって1つ以上の集計値を決定することと、をさらに含み、各較正データ点が、前記較正試料における臨床的関連DNAの前記測定された画分濃度、および前記較正試料について決定された前記集計値を指定し、前記1つ以上の較正値が、前記1つ以上の集計値であるか、または前記1つ以上の集計値を使用して決定される、請求項12~19のいずれか一項に記載の方法。
【請求項21】
前記較正試料における臨床的関連DNAの前記画分濃度の測定が、前記臨床的関連DNAに特異的な対立遺伝子を使用して実施される、請求項20に記載の方法。
【請求項22】
前記1つ以上の配列モチーフ対のセットが、N塩基位置を含み、前記1つ以上の配列モチーフ対のセットが、N塩基のすべての組み合わせを含み、Nが、2以上の整数である、請求項1~21のいずれか一項に記載の方法。
【請求項23】
前記1つ以上の配列モチーフ対のセットが、1つ以上の参照試料において決定された、2つのタイプのDNAの間で最大の差を有する上位L個の配列モチーフ対であり、Mが、1以上の整数である、請求項1~21のいずれか一項に記載の方法。
【請求項24】
前記2つのタイプのDNAが、前記臨床的関連DNAおよび前記他のDNAである、請求項23に記載の方法。
【請求項25】
前記2つのタイプのDNAが、前記病理のレベルについて異なる分類を有する2つの参照試料に由来する、請求項23に記載の方法。
【請求項26】
前記1つ以上の配列モチーフ対のセットが、1つ以上の参照試料において生じる上位J個の最も頻度の高い配列モチーフ対であり、Jが、1以上の整数である、請求項1~21のいずれか一項に記載の方法。
【請求項27】
前記1つ以上の配列モチーフ対のセットが、複数の配列モチーフ対を含み、前記集計値が、前記セットの前記相対頻度の合計を含む、請求項22~26のいずれか一項に記載の方法。
【請求項28】
前記合計が、加重合計である、請求項27に記載の方法。
【請求項29】
前記分類が、第1の分類であり、前記方法が、
配列モチーフ対の1つ以上の追加のセットについて1つ以上の追加の分類を決定することと、
前記第1の分類および1つ以上の追加の分類を使用して最終分類を決定することと、をさらに含む、請求項1~28のいずれか一項に記載の方法。
【請求項30】
前記集計値が、機械学習モデルの最終または中間の出力を含む、請求項1~29のいずれか一項に記載の方法。
【請求項31】
前記機械学習モデルが、クラスタリング、サポートベクターマシン、またはロジスティック回帰を使用する、請求項30に記載の方法。
【請求項32】
臨床的関連DNAについて生物学的試料を濃縮する方法であって、前記生物学的試料は、前記臨床的関連DNAおよび無細胞である他のDNAを含み、前記方法は、
前記生物学的試料由来の複数の無細胞DNA断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞DNA断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞DNA断片の各々について、前記無細胞DNA断片の前記末端配列についての配列モチーフ対を決定することと、
前記他のDNAよりも高い相対頻度で前記臨床的関連DNAにおいて生じる1つ以上の配列モチーフ対のセットを同定することと、
前記1つ以上の配列モチーフ対のセットを有する前記複数の無細胞DNA断片の群を同定することと、
前記無細胞DNA断片の群の各々について、
前記1つ以上の配列モチーフ対のセットの配列モチーフ対を含む前記末端配列に基づいて、前記無細胞DNA断片が前記臨床的関連DNAに対応する尤度を決定することと、
前記尤度を閾値と比較することと、
前記尤度が前記閾値を超えたときに、前記無細胞DNA断片の前記配列リードを保存し、それによって保存された配列リードを取得することと、
前記保存された配列リードを分析して、前記臨床的関連DNA前記生物学的試料の特性を決定することと、を含む、方法。
【請求項33】
前記臨床的関連DNA前記生物学的試料の前記特性が、(1)前記臨床的関連DNAの画分濃度、または(2)前記生物学的試料が取得された対象の病理のレベル、前記臨床的関連DNAに関連する病理の前記レベルである、請求項32に記載の方法。
【請求項34】
前記配列リードを使用して前記複数の無細胞DNA断片のサイズを測定することをさらに含み、特定の配列リードが前記臨床的関連DNAに対応する前記尤度を決定することが、前記特定の配列リードに対応する前記無細胞DNA断片のサイズにさらに基づく、請求項32または33に記載の方法。
【請求項35】
特定の配列リードに対応する無細胞DNA断片の1つ以上の部位での1つ以上のメチル化状態を測定することをさらに含み、前記特定の配列リードが前記臨床的関連DNAに対応する前記尤度を決定することが、前記1つ以上のメチル化状態にさらに基づく、請求項32~34のいずれか一項に記載の方法。
【請求項36】
前記無細胞DNA断片の前記末端配列についての前記配列モチーフを決定することが、
前記無細胞DNA断片に対応する1つ以上の配列リードを参照ゲノムにアラインメントすることと、
前記末端配列に隣接する前記参照ゲノムにおける1つ以上の塩基を同定することと、
前記末端配列および前記1つ以上の塩基を使用して前記配列モチーフ対を決定することと、を含む、請求項1~35のいずれか一項に記載の方法。
【請求項37】
臨床的関連DNAについて生物学的試料を濃縮する方法であって、前記生物学的試料は、前記臨床的関連DNAおよび無細胞である他のDNAを含み、前記方法は、
前記生物学的試料由来の複数の無細胞DNA断片を受け取ることであって、臨床的関連DNA断片が、前記他のDNAよりも高い相対頻度で生じる配列モチーフ対の末端配列を有する、無細胞DNA断片を受け取ることと、
前記複数の無細胞DNA断片を、前記複数の無細胞DNA断片の前記末端配列における前記配列モチーフ対を検出する1つ以上のプローブ分子に供し、それによって検出されたDNA断片を取得することと、
前記検出されたDNA断片を使用して前記臨床的関連DNA断片について前記生物学的試料を濃縮することと、を含む、方法。
【請求項38】
前記検出されたDNA断片を使用して前記臨床的関連DNA断片について前記生物学的試料を濃縮することが、
前記検出されたDNA断片を増幅することを含む、請求項37に記載の方法。
【請求項39】
前記1つ以上のプローブ分子が、前記複数の無細胞DNA断片を調べ、前記検出されたDNA断片を増幅するために使用される新しい配列を付加する1つ以上の酵素を含む、請求項38に記載の方法。
【請求項40】
前記検出されたDNA断片を使用して前記臨床的関連DNA断片について前記生物学的試料を濃縮することが、
前記検出されたDNA断片を捕捉することと、
検出されなかったDNA断片を破棄することと、を含む、請求項37に記載の方法。
【請求項41】
1つ以上のプローブ分子が、表面に結合され、ハイブリダイゼーションによって前記末端配列における前記配列モチーフ対を検出する、請求項40に記載の方法。
【請求項42】
コンピュータ製品であって、複数の命令を記憶する非一時的コンピュータ可読媒体を含み、実行されると、コンピュータシステムを制御して、先行請求項のいずれか一項に記載の方法を実施する、コンピュータ製品。
【請求項43】
システムであって、
請求項42に記載のコンピュータ製品と、
前記コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと、を備える、システム。
【請求項44】
先行請求項のいずれか一項に記載の方法を実施するための手段を備える、システム。
【請求項45】
先行請求項のいずれか一項に記載の方法を実施するように構成された1つ以上のプロセッサを備える、システム。
【請求項46】
先行請求項のいずれか一項に記載の方法のステップをそれぞれ実施するモジュールを備える、システム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2020年1月8日に出願された「Biterminal Analysis For Cancer Screening」と題する米国仮特許出願第62/958,676号の非仮出願であり、その利益を主張し、これは、すべての目的のためにその全体が参照により本明細書に組み込まれる。
【背景技術】
【0002】
無細胞DNA(cfDNA)は、生理学的および病理学的状態の診断および予後について知らせることができる非侵襲的バイオマーカーである(1~3)。cfDNAは、典型的には200bp未満の短いDNA断片として自然に存在する(4)。
【0003】
血漿DNAは、造血組織、脳、肝臓、肺、結腸、膵臓などを含むがこれらに限定されない、体内の複数の組織から放出された無細胞DNAからなると考えられている(Sun et al,Proc Natl Acad Sci USA.2015;112:E5503-12、Lehmann-Werman et al,Proc Natl Acad Sci USA.2016;113:E1826-34、Moss et al,Nat Commun.2018;9:5068)。血漿DNA分子(無細胞DNA分子の一種)は、非ランダムプロセスを通して生成されることが実証されており、例えば、そのサイズプロファイルは、166bpの主要なピークおよび小さいピークで発生する10bpの周期性を示している(Lo et al,Sci Transl Med.2010;2:61ra91、Jiang et al,Proc Natl Acad Sci USA.2015;112:E1317-25)。
【0004】
近年、ヒトゲノムの位置(例えば、参照ゲノム上の位置)のサブセットが優先的に切断され、それによって起源の組織との関係を有する末端位置を有する血漿DNA断片を生成することが報告された(Chan et al,Proc Natl Acad Sci USA.2016;113:E8159-8168、Jiang et al,Proc Natl Acad Sci USA.2018;doi:10.1073/pnas.1814616115)。Chandrananda et al(BMC Med Genomics.2015;8:29)は、デノボ発見ソフトウェアDREME(Bailey,Bioinformatics.2011;27:1653-9)を使用して、組織タイプにかかわらず、ヌクレアーゼ切断に関連するモチーフについての無細胞DNAデータをマイニングした。
【発明の概要】
【0005】
本開示は、例えば、がん(または他の病理)の検出、監視、および予後予測のために、ならびに異なるタイプの分子(例えば、胎児/母体分子、腫瘍/正常分子、または移植/ドナー分子)を区別するために、バイオマーカーとしてcfDNA断片の両端を使用することの科学的根拠および実際の実施について説明する。いくつかの実施形態は、肝細胞がん(HCC)、結腸直腸がん、肺がん、鼻咽頭がん、頭頸部扁平上皮がんなどを含むがこれらに限定されないがんに使用され得る。様々な実施形態は、胎児起源、腫瘍、または提供組織からcfDNA断片を区別するために使用され得る。
【0006】
様々な実施形態によると、本開示は、試料の特性(例えば、臨床的関連DNAの画分濃度)を測定するため、および/またはそのような測定に基づいて生物の病理を決定するために、生物の生物学的試料における無細胞DNA断片の末端モチーフ対の量(例えば、相対頻度)を測定するための技術を記載する。異なる組織タイプは、末端モチーフ対の相対頻度について異なるパターンを示す。本開示は、例えば、様々な組織からの無細胞DNAの混合物における、無細胞DNAの末端モチーフ対の相対頻度の測定のための様々な使用を提供する。そのような組織のうちの1つに由来するDNAは、臨床的関連DNAと称され得る。他の例において、2つ以上のそのような組織に由来するDNAは、臨床的関連DNAと称され得る。
【0007】
様々な例は、DNA断片の末端配列を表す末端モチーフ対の量を定量化し得る。例えば、実施形態は、DNA断片の末端配列についての末端モチーフ対のセットの相対頻度を決定し得る。様々な実装において、好ましい末端モチーフ対のセットおよび/または末端モチーフ対のパターンは、遺伝子型(例えば、組織特異的対立遺伝子)または表現型アプローチ(例えば、同じ病理を有する試料を使用する)を使用して決定され得る。好ましいセットの、または特定のパターンを有する相対頻度は、新しい試料の特性の分類(例えば、臨床的関連DNAの画分濃度)、または生物の病理(例えば、特定の組織におけるがんもしくは疾患のレベル)を測定するために使用され得る。したがって、実施形態は、がん、自己免疫疾患、移植、および妊娠を含む生理学的変化を知らせるための測定値を提供し得る。
【0008】
さらなる例として、末端モチーフ対は、臨床的に関連する無細胞DNA断片についての生物学的試料の物理的濃縮および/またはインシリコ濃縮に使用され得る。濃縮は、胎児、腫瘍または移植などの臨床的関連組織に好ましい末端モチーフ対を使用し得る。物理的濃縮は、生物学的試料が臨床的関連DNA断片について濃縮されるように、末端モチーフ対の特定のセットを検出する1つ以上のプローブ分子を使用し得る。インシリコ濃縮については、臨床的関連DNAについて好ましい末端配列のセットのうちの1つを有する無細胞DNA断片の配列リードの群が同定され得る。特定の配列リードは、臨床的関連DNAに対応する尤度に基づいて保存され得、尤度は、好ましい末端モチーフ対を含む配列リードを説明する。保存された配列リードは、生物学的試料における臨床的関連DNAの特性を決定するために、分析され得る。
【0009】
本開示のこれらおよび他の実施形態を、以下で詳細に説明する。例えば、他の実施形態は、本明細書に記載の方法に関連付けられたシステム、デバイス、およびコンピュータ可読媒体を対象とする。
【0010】
本開示の実施形態の性質および利点のより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。
【図面の簡単な説明】
【0011】
図1】本開示の実施形態による、DNA断片の末端に単一の塩基を含む末端モチーフ対の例を示す。
図2】本開示の実施形態による、A<>A断片の構築を示す。
図3】本発明の一実施形態による、末端モチーフ対を決定するための生物学的試料中における配列決定データの分析を示す。
図4】本開示の実施形態による、cfDNA断片を二末端で分類するための末端モチーフの異なる分類の異なる組み合わせを示す。
図5A-B】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図5C-D】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図6A-B】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図6C-D】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図7A-B】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図7C-D】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図8A-B】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図8C-D】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図9A-B】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図9C-D】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図10A-B】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図10C-D】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図11A-B】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図11C-D】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図12A-B】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図12C-D】本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。
図13A-B】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図13C-D】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図14A-B】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図14C-D】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図15A-B】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図15C-D】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図16A-B】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図16C-D】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図17A-B】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図17C-D】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図18】本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。
図19A-B】本開示の実施形態による、HCCを区別する際の、-1および+1位のヌクレオチドを有する二末端分析の性能を示す。
図19C-D】本開示の実施形態による、HCCを区別する際の、-1および+1位のヌクレオチドを有する二末端分析の性能を示す。
図20A-B】本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のCG<>AAの性能を提供する。
図20C】本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のCG<>AAの性能を提供する。
図21A-B】本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のGC<>TAの性能を提供する。
図21C-D】本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のGC<>TAの性能を提供する。
図21E-F】本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のTA<>GCの性能を提供する。
図22A-B】本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のC<>Cの性能を提供する。
図22C-D】本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のC<>Aの性能を提供する。
図22E-F】本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のC<>Aの性能を提供する。
図23】本開示の実施形態による、対照と、結腸直腸がん(CRC)、肺扁平上皮がん(LUSC)、鼻咽頭がん(NPC)、および頭頸部扁平上皮がん(HNSCC)などの他のがんとを区別する際の、CC<>CC断片の割合のROC曲線およびAUC値を示す。
図24】本開示の実施形態による、対照と、結腸直腸がん(CRC)、肺扁平上皮がん(LUSC)、鼻咽頭がん(NPC)、および頭頸部扁平上皮がん(HNSCC)などの他のがんとを区別する際の、CC<>CC断片の割合のROC曲線およびAUC値を示す。
図25】本開示の実施形態による、対照と、結腸直腸がん(CRC)、肺扁平上皮がん(LUSC)、鼻咽頭がん(NPC)、および頭頸部扁平上皮がん(HNSCC)などの他のがんとを区別する際の、CC<>CC断片の割合のROC曲線およびAUC値を示す。
図26】本開示の実施形態による、他のがん(CRC、LUSC、NPC、HNSCC)を区別する際の、-1および+1位のヌクレオチドを有する3つの例示的な二末端断片の性能を示す。
図27】本開示の実施形態による、他のがん(CRC、LUSC、NPC、HNSCC)を区別する際の、-1および+1位のヌクレオチドを有する3つの例示的な二末端断片の性能を示す。
図28】本開示の実施形態による、他のがん(CRC、LUSC、NPC、HNSCC)を区別する際の、-1および+1位のヌクレオチドを有する3つの例示的な二末端断片の性能を示す。
図29】本開示の実施形態による、CRC、LUSC、NPC、またはHNSCCの各々を区別する際の、-1および+1位のヌクレオチドを有するそれぞれの二末端断片について最良の性能を示す。
図30】本開示の実施形態による、CRC、LUSC、NPC、またはHNSCCの各々を区別する際の、-1および+1位のヌクレオチドを有するそれぞれの二末端断片について最良の性能を示す。
図31】本開示の実施形態による、がんの異なるステージを区別する際の、最高AUCを有する末端モチーフの性能結果を含む表を示す。
図32】本開示の実施形態による、中期HCCと進行HCCとを区別するための100%の精度のすべての2end:-2+2タイプのリスト3200、および初期HCCと進行HCCとを区別するための100%の精度のすべての2end:-2+2タイプのリスト3250を示す。
図33A-B】本開示の実施形態による、初期HCCと中期HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。
図33C-D】本開示の実施形態による、初期HCCと中期HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。
図34A-B】本開示の実施形態による、中期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。
図34C-D】本開示の実施形態による、中期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。
図35A-B】本開示の実施形態による、初期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。
図35C-D】本開示の実施形態による、初期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。
図36A-B】本開示の実施形態による、初期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。
図36C-D】本開示の実施形態による、初期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。
図37A-B】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のC<>Cの性能を示す。
図37C-D】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のC<>Cの性能を示す。
図38A-B】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のA<>Aの性能を示す。
図38C-D】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のA<>Aの性能を示す。
図39A-B】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のGT<>TGの性能を示す。
図39C-D】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のGT<>TGの性能を示す。
図40A-B】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のTG<>CCの性能を示す。
図40C-D】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のTG<>CCの性能を示す。
図41A-B】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のTG<>GGの性能を示す。
図41C-D】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のTG<>GGの性能を示す。
図42A-B】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のc|A<>a|Aの性能を示す。
図42C-D】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のc|A<>a|Aの性能を示す。
図43A-B】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のg|C<>g|Cの性能を示す。
図43C-D】本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のg|C<>g|Cの性能を示す。
図44】本開示の実施形態による、各試料においてより少ない断片(2000万個の断片)を使用して、非がんとHCCとを区別する際のC<>C断片の性能を示す。
図45】本開示の実施形態による、ダウンサンプリング分析を通して推定された、配列決定された断片の総数の関数としてCC<>CC断片を使用して達成可能なAUCを示すグラフである。
図46】本開示の実施形態による、無細胞DNA断片の末端モチーフ対を使用して病理のレベルを決定するための方法を示すフローチャートである。
図47】本開示の実施形態による、同じ非HCCおよびHCCデータセットに対する異なる分析方法からの複数のROC曲線を示す。
図48】本開示の実施形態による、30の対照および40のCRC、LUSC、NPC、およびHNSCCを含む他のがんを有するデータセットの異なる分析方法からの複数のROC曲線を示す。
図49A】本開示の実施形態による、30の対照および40のCRC、LUSC、NPC、およびHNSCCを含む他のがんを有するデータセットの異なる分析方法からの複数のROC曲線を示す。
図49B】本開示の実施形態による、30の対照および40のCRC、LUSC、NPC、およびHNSCCを含む他のがんを有するデータセットの異なる分析方法からの複数のROC曲線を示す。
図50A】本開示の実施形態による、30の対照および40のCRC、LUSC、NPC、およびHNSCCを含む他のがんを有するデータセットの異なる分析方法からの複数のROC曲線を示す。
図50B】本開示の実施形態による、30の対照および40のCRC、LUSC、NPC、およびHNSCCを含む他のがんを有するデータセットの異なる分析方法からの複数のROC曲線を示す。
図51】本開示の実施形態による、胎児特異的分子と共有分子とを区別する際の二末端分析を示す。
図52】本開示の実施形態による、二末端C<>C%と胎児DNA画分との間の関数関係を示す。
図53】本開示の実施形態による、C<>G%と腫瘍濃度との間の関数関係を示す。
図54A-B】本開示の実施形態による、肝臓移植対象についてのドナー特異的分子と共有分子とを区別する際の二末端分析を示す。
図54C】本開示の実施形態による、肝臓移植対象についてのドナー特異的分子と共有分子とを区別する際の二末端分析を示す。
図55】本開示の実施形態による、肝臓移植対象についてのドナー特異的分子と共有分子とを区別する際の二末端分析を示す。
図56】本開示の実施形態による、腎臓移植対象についてのドナー特異的分子と共有分子とを区別する際の二末端分析を示す。
図57】本開示の実施形態による、対象の生物学的試料における臨床的関連DNAの画分濃度を推定する方法を示すフローチャートである。
図58】本開示の実施形態による、非がん対象とHCC対象とを区別するための、-1および+1位のヌクレオチドの末端モチーフ対を使用したSVMモデリングのROC曲線を示す。
図59】本開示の実施形態による、臨床的関連DNAについて生物学的試料を物理的に濃縮する方法を示すフローチャートである。
図60】本開示の実施形態による、臨床的関連DNAについて生物学的試料のインシリコ濃縮のための方法を示すフローチャートである。
図61】本発明の実施形態による、測定システムを例示する。
図62】本発明の実施形態による、システムおよび方法とともに使用可能な例示的なコンピュータシステムのブロック図を示す。
【0012】
用語
「組織」は、機能単位としてともにグループ化する細胞のグループに対応する。2つ以上のタイプの細胞が、単一の組織内に見出され得る。種々のタイプの組織は、種々のタイプの細胞(例えば、肝細胞、肺胞細胞、または血球細胞)からなり得るが、種々の生物(母体対胎児)由来の組織または健常細胞対腫瘍細胞にも対応し得る。種々の個体由来の同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定することができる。
【0013】
「生物学的試料」は、対象(例えば、妊婦、がんもしくは他の疾患を有する人、またはがんもしくは他の疾患を有する疑いがある人などのヒト(または他の動物)、臓器移植レシピエント、または臓器が関与する疾患プロセス(例えば、心筋梗塞における心臓、脳卒中における脳、もしくは貧血における造血系)を有する疑いがある対象)から採取され、目的の1つ以上の核酸分子を含有する任意の試料を指す。生物学的試料は、血液、血漿、血清、尿、膣液、水腫(例えば、精巣の)からの液体、膣洗浄液体、胸膜液、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の種々の部分(例えば、甲状腺、乳腺)からの吸引液、眼内液(例えば、房水)などの体液であり得る。便試料もまた、使用され得る。様々な実施形態において、無細胞DNAのために濃縮された生物学的試料(例えば、遠心分離プロトコルを介して取得された血漿試料)におけるDNAの大部分は、無細胞であり得、例えば、DNAの50%超、60%超、70%超、80%超、90%超、95%超、または99%超は、無細胞であり得る。遠心分離プロトコルは、例えば、3,000g×10分で流体部分を取得することと、残留細胞を除去するために30,000gでさらに10分間再遠心分離することと、を含み得る。生物学的試料の分析の一部として、統計的に有意な数の無細胞DNA分子が、生物学的試料について分析され得る(例えば、正確な測定値を提供するために)。いくつかの実施形態において、少なくとも1,000個の無細胞DNA分子が分析される。他の実施形態において、少なくとも10,000個または50,000個または100,000個または500,000個または1,000,000個または5,000,000個、またはそれより多い無細胞DNA分子が分析され得る。少なくとも同数の配列リードが分析され得る。
【0014】
「臨床的関連DNA」は、例えば、そのようなDNAの画分濃度を決定するため、または試料(例えば、血漿)の表現型を分類するために、測定されるべき特定の組織供給源のDNAを指し得る。臨床的関連DNAの例は、母体血漿における胎児DNA、または患者の血漿における腫瘍DNA、または無細胞DNAを含む他の試料である。別の例は、移植患者の血漿、血清または尿における移植片関連DNAの量の測定を含む。さらなる例は、対象の血漿における造血性および非造血性DNAの画分濃度、または試料における肝臓DNA断片(もしくは他の組織)の画分濃度、または脳脊髄液における脳DNA断片の画分濃度の測定を含む。
【0015】
「配列リード」は、核酸分子の任意の部分または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定された短鎖ヌクレオチド(例えば、約20~150ヌクレオチド)、核酸断片の片端もしくは両端の短鎖ヌクレオチド、または生物学的試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、またはプローブを使用した様々な方法で、例えば、ハイブリダイゼーションアレイもしくはマイクロアレイで使用され得るような捕捉プローブで、または単一プライマーもしくは等温増幅を使用した、ポリメラーゼ連鎖反応(PCR)もしくは線形増幅などの増幅技術で、取得することができる。生物学的試料の分析の一部として、統計的に有意な数の配列リードが分析され得、例えば、少なくとも1,000個の配列リードが、分析され得る。他の例として、少なくとも10,000個または50,000個または100,000個または500,000個または1,000,000個または5,000,000個、またはそれより多い配列リードが分析され得る。
【0016】
「切断部位」は、DNAがヌクレアーゼによって切断され、それによってDNA断片をもたらす位置を指し得る。
【0017】
配列リードは、断片の末端に関連する「末端配列」を含み得る。末端配列は、断片の最も外側のN塩基、例えば断片の末端の1~30塩基に対応し得る。配列リードが断片全体に対応する場合、配列リードは2つの末端配列を含み得る。対末端配列決定が断片の末端に対応する2つの配列リードを提供する場合、各配列リードは1つの末端配列を含み得る。
【0018】
「配列モチーフ」は、DNA断片(例えば、無細胞DNA断片)における塩基の短い繰り返しパターンを指し得る。配列モチーフは、断片の末端に生じ得、したがって、末端配列の一部であるか、またはそれを含み得る。「末端モチーフ」は、潜在的に特定のタイプの組織について、DNA断片の末端で優先的に生じる末端配列についての配列モチーフを指し得る。末端モチーフはまた、断片の末端の直前または直後に生じ得、それにより、依然として末端配列に対応する。ヌクレアーゼは、特定の末端モチーフに対する特定の切断選択、ならびに第2の末端モチーフに対する2番目に好ましい切断選択を有し得る。
【0019】
「配列モチーフ対」または「末端モチーフ対」は、特定のDNA断片の末端モチーフの対を指し得る。例えば、一方の鎖の5’末端にAを有し、他方の鎖の5’末端にAを有するDNA断片は、A<>Aの配列モチーフ対を有すると定義され得る。別の例として、一方の鎖の5’末端にAを有し、同じ鎖の3’末端にTを有するDNA断片は、A<>Tの配列モチーフ対を有すると定義され得、これは、2つの鎖の5’末端を使用して定義されたA<>A断片に対応する。他の長さの配列モチーフが使用され得る。末端モチーフの種々の対の組み合わせは、種々のタイプの断片と称され得る。末端モチーフ対は、同じ長さである、例えば、両方が1merまたは両方が2merである末端モチーフを含み得るが、異なる長さである、例えば、一方の端部が2merであり、他方の末端が1merで構成される末端モチーフも含み得る。末端モチーフ対はまた、例えば、参照ゲノムにアラインメントすることによって決定されるように、DNA断片の末端を超えた1つ以上の塩基を含み得る。そのような場合は、命名法t|Aを使用することができ、Tは、5’端の切断部位の直前に生じ、Aは、切断部位の後に生じる。
【0020】
「対立遺伝子」という用語は、同じ物理的ゲノム遺伝子座にある代替DNA配列を指し、異なる表現型の特徴をもたらす場合ともたらさない場合がある。各染色体のコピーが2つある任意の特定の二倍体生物(男性の対象の性染色体を除く)では、各遺伝子の遺伝子型は、ホモ接合体においては同じであり、ヘテロ接合体においては異なる、その遺伝子座に存在する対立遺伝子の対を含む。生物の集団または種は、典型的には、様々な個体の各遺伝子座に複数の対立遺伝子を含む。集団内に2つ以上の対立遺伝子が見られるゲノム遺伝子座は、多型部位と呼ばれる。遺伝子座での対立遺伝子多様性は、存在する対立遺伝子の数(すなわち、多型の程度)、または集団内のヘテロ接合体の割合(すなわち、ヘテロ接合性率)として測定可能である。本明細書で使用される「多型」という用語は、その頻度に関係なく、ヒトゲノムにおける任意の個体間の多様性を指す。そのような多様性の例は、一塩基多型、単純なタンデムリピート多型、挿入-欠失多型、変異(疾患を引き起こし得る)、およびコピー数の多様性を含むが、これらに限定されない。本明細書で使用される「ハプロタイプ」という用語は、同じ染色体または染色体領域上で一緒に伝達される複数の遺伝子座での対立遺伝子の組み合わせを指す。ハプロタイプは、わずか1対の遺伝子座、または染色体領域、または染色体全体または染色体腕を指し得る。
【0021】
「画分胎児DNA濃度」という用語は、「胎児DNAの割合」および「胎児DNA画分」という用語と互換的に使用され、胎児に由来する生物学的試料(例えば、母体の血漿または血清試料)に存在する胎児DNA分子の割合を指す(Lo et al,Am J Hum Genet.1998;62:768-775、Lun et al,Clin Chem.2008;54:1664-1672)。同様に、腫瘍画分または腫瘍DNA画分は、生物学的試料における腫瘍DNAの画分濃度を指し得る。
【0022】
「相対頻度」(単に「頻度」とも称される)は、割合(例えば、パーセンテージ、画分、または濃度)を指し得る。特に、特定の末端モチーフ対(例えば、A<>A)の相対頻度は、その特定の対の末端配列を有する無細胞DNA断片の割合を提供し得る。
【0023】
「集計値」は、例えば、末端モチーフのセットの相対的頻度の集合的特性を指し得る。例には、平均、中央値、相対頻度の合計、相対頻度間の変動(例えば、エントロピー、標準偏差(SD)、変動係数(CV)、四分位範囲(IQR)、または種々の相対頻度中の特定のパーセンタイルカットオフ(例えば95または99パーセンタイル))、またはクラスタリングで実装し得る相対頻度の参照パターンからの差(例えば、距離)を含む。別の例として、集計値は、相対頻度のアレイ/ベクトルを含み得、これは、参照ベクトル(例えば、多次元データ点を表す)と比較され得る。
【0024】
「配列決定深度」という用語は、遺伝子座が、その遺伝子座にアラインメントされた配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、または染色体腕の大きさ、またはゲノム全体の大きさであり得る。配列決定深度は、50x、100xなどと表され、「x」は、遺伝子座が配列リードでカバーされる回数を指す。また、配列決定深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、xはそれぞれ、遺伝子座もしくはハプロイドゲノムまたはゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも100xの配列決定深度を指し得る。
【0025】
「較正試料」は、臨床的関連DNAの画分濃度(例えば、組織特異的DNA画分)が既知であるか、または較正方法を介して、例えば、ドナーのゲノムには存在するがレシピエントのゲノムには存在しない対立遺伝子を移植臓器のマーカーとして使用し得る移植など、組織に特異的な対立遺伝子を使用して決定される生物学的試料に対応し得る。別の例として、較正試料は、末端モチーフを決定し得る試料に対応し得る。較正試料は、両方の目的に使用され得る。
【0026】
「較正データ点」は、「較正値」および臨床的関連DNA(例えば、特定の組織タイプのDNA)の測定されたまたは既知の画分濃度を含む。較正値は、臨床的関連DNAの画分濃度が既知である較正試料について決定された相対頻度(例えば、集計値)から決定され得る。較正データ点は、様々な方法で、例えば、離散点として、または較正関数(検量線または較正面とも呼ばれる)として定義され得る。較正関数は、較正データ点の追加の数学的変換から導出され得る。
【0027】
「分離値」は、2つの値を包含する差または比、例えば、2つの画分寄与または2つのメチル化レベルに相当する。分離値は、単純な差または比であり得る。例として、x/yの直接比は、x/(x+y)と同様に分離値である。分離値は、他の因子、例えば、乗法的因子を含み得る。他の例として、値の関数の差または比、例えば、2つの値の自然対数(ln)の差または比が使用され得る。分離値には、差および比を含み得る。
【0028】
「分離値」および「集計値」(例えば、相対頻度)は、異なる分類(状態)間で変化する試料の測定値を提供するパラメータ(メトリックとも呼ばれる)の2つの例であり、したがって様々な分類を決定するために使用され得る。集計値は、例えば、クラスタリングで行われるように、試料の相対頻度のセットと相対頻度の参照セット間で差が取られる場合の分離値であり得る。
【0029】
本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数または他の特徴を指す。例えば、「+」という記号(または「陽性」という語)は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二者択一(例えば、陽性または陰性)であり得、またはより多くのレベルの分類(例えば、1~10または0~1のスケール)を有し得る。
【0030】
本明細書で使用される場合、「パラメータ」という用語は、定量的データセットを特徴付ける数値、および/または定量的データセット間の数的関連性を意味する。例えば、第1の核酸配列の第1の量と第2の核酸配列の第2の量との比率(またはある比率の関数)は、パラメータである。
【0031】
「カットオフ」および「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指し得る。閾値は、特定の分類が適用されるのを上回るまたは下回る値であり得る。これらの用語のいずれかは、これらの文脈のいずれかにおいて使用され得る。カットオフまたは閾値は、「参照値」であり得るか、または特定の分類を表すか、もしくは2つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定され得る。例えば、メトリックは、異なる既知の分類を有する対象の2つの異なるコホートについて決定され得、参照値は、1つの分類(例えば、平均)の代表として、またはメトリックの2つのクラスター間の値(例えば、所望の感度および特異度を取得するために選択された)として選択され得る。別の例として、参照値は、試料の統計シミュレーションに基づいて決定され得る。カットオフ、閾値、参照などの特定の値は、所望の精度(例えば、感度および特異度)に基づいて決定され得る。
【0032】
「がんのレベル」という用語は、がんが存在するかどうか(すなわち、存在または不在)、がんのステージ、腫瘍のサイズ、転移があるかどうか、体の総腫瘍負荷、治療に対するがんの応答、および/またはがんの重症度の他の尺度(例えば、がんの再発)を指し得る。がんのレベルは、数字、または、記号、アルファベット文字、および色などの他のしるしであり得る。レベルは、ゼロであり得る。がんのレベルは、前悪性病態または前がん性病態(状態)も含み得る。がんのレベルは、様々な方法で使用され得る。例えば、スクリーニングは、がんを有することを今まで知らなかった人物においてがんが存在するかどうかをチェックし得る。評価は、がんと診断されている人物を調べて、がんの進行を経時的に監視し、療法の有効性を研究し、または予後を決定し得る。一実施形態において、予後は、患者ががんで死亡する可能性、または特定の持続時間または特定の時間の後、がんが進行する可能性、またはがんが転移する可能性もしくは程度として表すことができる。検出は、「スクリーニング」を意味することができ、またはがんの示唆的な特徴(例えば、症状または他の陽性検査)を有する人物ががんを有するかどうかをチェックすることを意味し得る。
【0033】
「病理のレベル」は、生物に関連する病理の量、程度、重症度を指し得、そのレベルは、がんについて上記のとおりであり得る。病理の別の例は、移植された臓器の拒絶反応である。他の病理の例には、自己免疫発作(例えば、腎臓を損傷するループス腎炎または中枢神経系を損傷する多発性硬化症)、炎症性疾患(例えば、肝炎)、線維化プロセス(例えば、肝硬変)、脂肪浸潤(例えば、脂肪肝疾患)、変性プロセス(例えば、アルツハイマー病)、および虚血性組織損傷(例えば、心筋梗塞または脳卒中)が含まれ得る。対象の健康な状態は、病理のない分類とみなし得る。
【0034】
「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、1以内または1を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大20%、最大10%、最大5%、または最大1%の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の1桁以内、5倍以内、より好ましくは2倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±10%を指し得る。「約」という用語は、±5%を指し得る。
【0035】
値の範囲が提供される場合、文脈が明確に別段に示さない限り、その範囲の上限と下限との間の各介在する値も、下限の10分の1まで具体的に開示されていると理解される。記載された範囲における任意の記載された値または介在する値と、その記載された範囲における任意の他の記載された値または介在する値との間の各より小さな範囲が、本開示の実施形態内に包含される。これらのより小さな範囲の上限および下限は、範囲に独立して含まれるか除外されてもよく、どちらか一方、両方の限度がより小さな範囲に含まれるか、またはどちらも含まれない各範囲も、記載された範囲における任意の具体的に除外された限度を条件として、本開示内に包含される。記載された範囲が一方または両方の限度を含む場合、それらの含まれた限度のいずれかまたは両方を除外する範囲も、本開示に含まれる。
【0036】
標準的な略語、例えば、bp:塩基対、kb:キロベース、pi:ピコリットル、sまたはsec:秒、min:分、hまたはhr:時間、aa:アミノ酸、nt:ヌクレオチドなどが使用され得る。
【0037】
別段の定義がない限り、本明細書で使用される技術用語および科学用語はすべて、本開示が属する技術の分野における当業者によって一般に理解されているのと同じ意味を有する。本開示の実施形態の実施または試験には、本明細書に記載されているものと類似または同等の任意の方法および材料が使用され得るが、いくつかの潜在的かつ例示的な方法および材料が、ここで説明され得る。
【発明を実施するための形態】
【0038】
本開示は、試料の特性を測定するため、および/またはそのような測定に基づいて生物の病理を決定するために、生物の生物学的試料における無細胞DNA断片の末端モチーフ対の量(例えば、相対頻度)を測定するための技術を記載する。種々の組織タイプは、末端モチーフ対の相対頻度について種々のパターンを示す。本開示は、例えば、様々な組織からの無細胞DNAの混合物における、無細胞DNAの末端モチーフ対の相対頻度の測定のための様々な使用を提供する。そのような組織のうちの1つに由来するDNAは、臨床的関連DNAと称され得る。
【0039】
病理学の例として、がんのレベルは、試料の無細胞DNA断片間の末端モチーフ対の相対頻度を使用して決定され得る。異なる表現型を有する生物は、無細胞DNA断片の末端モチーフ対の相対頻度の異なるパターンを示し得る。末端モチーフ対の相対頻度の集計値は、表現型を分類するために参照値と比較され得る。様々な実装において、集計値は、相対頻度の合計または相対頻度の参照セットからの差であり得る。
【0040】
別の例として、特定の組織の(例えば、胎児、腫瘍、または移植された臓器の)臨床的関連DNAは、相対頻度の特定のパターンを示し、これは集計値として測定され得る。試料における他のDNAは、異なるパターンを示し得、それによって試料における臨床的関連DNAの量の測定が可能になる。したがって、一例では、臨床的関連DNAの画分濃度(例えば、パーセンテージ)は、末端モチーフ対の相対頻度に基づいて決定され得る。画分濃度は、数、数値範囲、または他の分類、例えば、高、中、または低、または画分濃度が閾値を超えるかどうかであり得る。様々な実装において、集計値は、末端モチーフ対のセットの相対頻度の合計、または参照パターン、例えば、既知の画分濃度を有する較正試料の相対頻度のアレイ(ベクトル)からの差(例えば、総距離)であり得る。そのようなアレイは、相対頻度の参照セットとみなされ得る。そのような差は、階層的クラスタリング、サポートベクターマシン、ロジスティック回帰などの分類器において使用され得る。例として、臨床的関連DNAは、胎児、腫瘍、移植臓器、または他の組織(例えば、造血性または肝臓)のDNAであり得る。
【0041】
末端モチーフ対の特定のセットを有する無細胞DNA断片が、他の組織と比較して(例えば、胎児対母体)、特定の組織において差次的に表現される(相対頻度によって定量化される)ことを所与として、これらの末端モチーフ対は、特定の組織からのDNA(臨床的関連DNA)の試料を濃縮するために使用され得る。そのような濃縮は、物理試料を濃縮するための物理操作を介して実施され得る。いくつかの実施形態は、例えば、プライマーまたはアダプターを使用して、好ましい末端モチーフ対のセットに一致する末端配列を有する無細胞DNA断片を捕捉および/または増幅し得る。他の例が、本明細書に記載される。相対頻度での表現が、末端モチーフ対のセットの臨床的関連DNAにおいてより高い場合、それらを好ましい末端モチーフ対と称することができる。
【0042】
いくつかの実施形態において、濃縮は、インシリコで実施され得る。例えば、システムは、配列リードを受信し、末端モチーフ対に基づいてリードをフィルタリングして、臨床的関連DNAからのより高い濃度の対応するDNAを有する配列リードのサブセットを取得し得る。DNA断片が好ましい末端モチーフ対である末端配列を有する場合、DNA断片は、目的の組織に由来する尤度がより高いと同定され得る。本明細書に記載されているように、尤度は、DNA断片のメチル化およびサイズに基づいてさらに決定され得る。
【0043】
そのような末端モチーフ対の使用は、末端位置を使用する場合に必要とされ得る参照ゲノムの必要性を回避し得る(Chan et al,Proc Natl Acad Sci USA.2016;113:E8159-8168、Jiang et al,Proc Natl Acad Sci USA.2018;doi:10.1073/pnas.1814616115)。さらに、末端モチーフ対の数は、参照ゲノムにおいて好ましい末端位置の数よりも少ない可能性があるため、各末端モチーフ対についてより多くの統計が収集され得、精度が向上し得る。
【0044】
例えば、Chandrananda et al.は、断片開始部位周辺の51bp(上流/下流20bp)の領域のモノヌクレオチド頻度に関する位置特異的ヌクレオチドパターンに関して、母体と胎児の断片間に高い類似性があることを見出し((Chandrananda et al,BMC Med Genomics.2015;8:29)、末端周辺のモノヌクレオチドに基づく彼らの方法の使用が、無細胞DNA断片の起源の組織について知らせることができなかったことを意味していたことから、上記のように末端モチーフ対を使用するそのような能力は、驚くべきことである。
【0045】
本発明をより詳細に説明する前に、本発明は、記載される特定の実施形態に限定されず、当然それ自体変化し得ることを理解されたい。本明細書で使用される用語は、特定の実施形態を説明するためのものにすぎず、本発明の範囲が、添付の特許請求の範囲によってのみ限定されるため、限定することを意図したものではないことも理解されたい。使用される数値(例えば、量、温度など)に関して精度を確実にするための努力がなされてきたが、ある程度の実験誤差および偏差が考慮されるべきである。特に明記されていない限り、部は重量部であり、分子量は重量平均分子量であり、温度は摂氏であり、圧力は大気圧またはそれ近くである。
【0046】
I.無細胞DNA末端モチーフ対(二末端分析)
末端モチーフは、無細胞DNA断片の末端配列、例えば、断片のいずれかの末端でのK塩基の配列に関する。一方で、末端モチーフ対は、断片の両方の末端配列に関する。末端配列は、例えば、1、2、3、4、5、6、7などの様々な数の塩基を有するk merであり得る。末端モチーフ(または「配列モチーフ」)は、参照ゲノムの特定の位置とは対照的に、配列自体に関する。したがって、同じ末端モチーフは、参照ゲノム全体の多数の位置に生じ得る。末端モチーフは、例えば、開始位置の直前または終了位置の直後の塩基を同定するために、参照ゲノムを使用して決定され得る。このような塩基は、例えば、断片の末端配列に基づいて同定されるため、無細胞DNA断片の末端に対応する。
【0047】
A.末端モチーフ対の例示的な決定
図1は、本開示の実施形態による末端モチーフ対の例を示す。図1は、分析する4mer末端モチーフを定義する2つの方法を示す。技術140において、4mer末端モチーフは、血漿DNA分子の各末端の最初の4bp配列から直接構築される。例えば、配列決定された断片の最初の4ヌクレオチドおよび最後の4ヌクレオチドが、末端モチーフ対として使用され得る。技術160において、4mer末端モチーフは、断片の配列決定された末端からの2mer配列およびその断片の末端に隣接するゲノム領域からの他の2mer配列を利用することによって共同で構築される。他の実施形態において、他のタイプのモチーフ、例えば、1mer、2mer、3mer、5mer、6mer、7mer末端モチーフが使用され得る。
【0048】
図1に示すとおり、無細胞DNA断片110は、例えば、遠心分離などによる血液試料の精製プロセスを使用して取得される。血漿DNA断片に加えて、例えば、血清、尿、唾液、または他の体液由来の他のタイプの無細胞DNA分子が使用され得る。DNA断片は、平滑末端化され得る。
【0049】
ブロック120で、DNA断片は、対末端配列決定に供される。いくつかの実施形態において、対末端配列決定は、DNA断片の2つの末端から2つの配列リード、例えば、配列リード当たり30~120塩基を生成し得る。これらの2つの配列リードは、DNA断片(分子)の一対のリードを形成し得、各配列リードは、DNA断片のそれぞれの末端の末端配列を含む。他の実施形態において、DNA断片全体が配列決定され得、それにより、DNA断片の両端の末端配列を含む単一の配列リードを提供する。両端の2つの末端配列は、単一の配列決定操作から一緒に生成された場合でも、対の配列リードとみなされ得る。
【0050】
ブロック130で、配列リードは、参照ゲノムにアラインメントされ得る。このアラインメントは、配列モチーフを定義するための異なる方法を説明するためのものであり、いくつかの実施形態において使用されない場合がある。例えば、断片の末端にある配列は、参照ゲノムにアラインメントする必要なく直接使用され得る。しかしながら、アラインメントは、対象における変動(例えば、SNP)に依存しない、末端配列の均一性を有することが望ましい場合がある。例えば、変動または配列決定誤差により、末端塩基が参照ゲノムと異なる可能性があるが、参照における塩基は、カウントされたものであり得る。あるいは、配列リードの末端の塩基は、個々に合わせて調整されるように使用され得る。アラインメント手順は、BLAST、FASTA、Bowtie、BWA、BFAST、SHRiMP、SSAHA2、NovoAlign、およびSOAPなど(であるがこれらに限定されない)様々なソフトウェアパッケージを使用して実施され得る。
【0051】
技術140は、参照ゲノム145へのアラインメントを有する、配列決定された断片141の配列リードを示す。5’末端を開始とみなして、第1の末端モチーフ142(CCCA)は、配列決定された断片141の開始にある。第2の末端モチーフ144(TCGA)は、配列決定された断片141の尾部にある。cfDNA断片の末端優位性を分析する場合、この配列リードは、5’末端のC末端および3’末端のA末端(または他方の鎖の5’末端が使用される場合はT末端)のカウントに寄与する。そのような末端モチーフは、一実施形態において、酵素がCCCAを認識し、次に最初のCの直前に切断を行うときに生じ得る。その場合、CCCAは優先的に血漿DNA断片の末端にある。TCGAについては、酵素がそれを認識し、次いで、Aの後に切断を行い得る。そのような末端モチーフの対は、使用される規則に応じて、CCCA<>TCGAとラベル付けされ得る。異なる規則の様々な例は、以下に提供される。例えば、第2の末端モチーフの規則は、他方の鎖の5’末端から読み進められ得る。TCGAでは、補数は同じであるが、3’末端配列がTTGAの場合、配列が末端から始まるため、5’規則は、TCAAになる。両端のこの5’規則が例で使用される。末端モチーフ対について1merカウントが決定されると、この配列リードは、5’規則を使用したC<>Tカウントに寄与する。技術140を使用して、参照ゲノムへのアラインメントは、任意選択的であり得る。
【0052】
技術160は、参照ゲノム165へのアラインメントを有する、配列決定された断片161の配列リードを示す。5’末端を開始とみなして、第1の末端モチーフ162(CGCC)は、配列決定された断片161の開始の直前に生じる第1の部分(CG)、および配列決定された断片161の開始の末端配列の一部である第2の部分(CC)を有する。第2の末端モチーフ164(CCGA)は、配列決定された断片161の尾部の直後に生じる第1の部分(GA)、および配列決定された断片161の尾部の末端配列の一部である第2の部分(CC)を有する。そのような末端モチーフは、一実施形態において、酵素がGの後、Cの直前を切断するときに生じ得る。その場合、CCは、その直前にCGが生じている血漿DNA断片の末端に優先的に存在し、それによってCGCCの末端モチーフを提供するであろう。第2の末端モチーフ164(CCGA)については、酵素は、CとGとの間を切断し得る。その場合、CCは、血漿DNA断片の3’末端に優先的に存在するであろう。そのような末端モチーフ対は、cg|CC<>tc|GGとラベル付けされ得、TCGGは、逆鎖の5’末端からのCCGAモチーフであり、小文字は、塩基が切断部位170の反対側にあることを示し、これは、点線によって示される。切断部位は、酵素(例えば、ヌクレアーゼ)が配列決定された断片161を切断する場所である。技術160について、隣接するゲノム領域および配列決定された血漿DNA断片からの塩基の数を変えられ得、必ずしも固定比率に制限されるとは限らず、例えば、2:2の代わりに、比率は2:3、3:2、4:4、2:4などであり得る。
【0053】
無細胞DNA末端対のシグネチャに含まれるヌクレオチドの数が多いほど、モチーフの特異度が高くなり、これは、2つの位置で(約50~30bp離れて)ゲノムにおいて正確な構成で順序付けられた6塩基を有する確率が、ゲノムにおける2つの位置において正確な構成で順序付けられた2塩基を有する確率よりも低いためである。したがって、末端モチーフの長さの選択は、使用目的の用途に必要な感度および/または特異度によって支配され得る。
【0054】
末端配列が、配列リードを参照ゲノムにアラインメントするために使用される場合(例えば、技術160で)、末端配列、または直前/直後から決定された任意の配列モチーフは、依然として末端配列から決定される。したがって、技術160は、他の塩基への末端配列の関連を作成し、参照は、その関連を作成するためのメカニズムとして使用される。技術140と160との間の差は、特定のDNA断片がどの2つの末端モチーフに割り当てられるかであり、これは、相対頻度についての特定の値に影響を与える。しかし、全体的な結果(例えば、分類または病理の決定、臨床的関連DNAの画分濃度の決定など)は、一貫した技術が、例えば、機械学習モデルを使用して生じ得る、参照値を決定するための任意の訓練データに使用される限り、DNA断片が末端モチーフ対にどのように割り当てられるかによって影響されないであろう。
【0055】
特定の末端モチーフ対に対応する末端配列を有するDNA断片のカウントされた数は、特定の末端モチーフ対の量を決定するためにカウントされ得る(例えば、メモリ内のアレイに保存され得る)。量は、生のカウントまたは頻度など、量が正規化される様々な方法で測定され得る。正規化は、DNA断片の総数またはDNA断片の指定された群内の数(例えば、指定された領域から、指定されたサイズを有する、または1つ以上の指定された末端モチーフを有する)を使用して(例えば、それで除算して)行われ得る。がんが存在する場合、および試料が臨床的関連DNAの異なる画分濃度が含む場合、末端モチーフ対の量の差が検出されている。
【0056】
B.ワトソン鎖およびクリック鎖上で定義される末端モチーフ対
末端モチーフ対は、様々な方法で定義され得る、そのうちのいくつかは、前述されている。いくつかの実施形態において、末端モチーフ対は、ワトソン鎖およびクリック鎖の両方を使用して定義される。このようにして、5’末端の配列が使用される。
【0057】
図2は、本開示の実施形態による、A<>A断片の構築を示す。図2は、A末端断片およびA<>A断片を示す。A末端断片は、ワトソン鎖の5’端またはクリック鎖の5’端にAを有する。塩基は任意の塩基であり得るため、他方の末端は、Nで示され得る。A<>A断片は、ワトソン鎖の5’端およびクリック鎖の5’端にAを有する。そのような命名法は、C<>C、G<>G、およびT<>Tにも適用され、これらのすべては、本開示全体を通して使用される。
【0058】
2つの鎖に対応するそのような命名法は、DNAの一本鎖上で配列決定が実施される場合でも使用され得る。例えば、一方の鎖(例えば、ワトソン鎖)の3’末端の末端配列は、他方の鎖の5’末端の相補的末端配列に変換され得る。したがって、末端配列は、規則によって、3’末端の塩基に対する相補的配列であり得る。そのような一本鎖配列決定は、バイサルファイト配列決定で生じ得る。一本鎖配列決定が行われるときにA<>CまたはC<>Aを区別するために、参照ゲノムにアラインメントしてもしなくてもよい。しかし、そのような対称断片タイプは、典型的には同じ挙動を有するため、区別する必要がない場合があり、それらは、単一群として一緒にカウントされ得る。
【0059】
C.ワトソン/クリック鎖の配列決定およびアラインメント
図3は、本発明の一実施形態による、末端モチーフ対を決定するための生物学的試料中における配列決定データの分析を示す。生物学的試料は、がん(例えば、肝細胞がん(HCC))を有する疑いがある人から取得され得る。HCCが一例として使用されるが、実施形態は、他のがんにも適用可能である。
【0060】
ステップ310において、HCCを有する疑がある患者からの生物学的試料311が受け取られる。生物学的試料は、血漿、血清、尿、および唾液を含むがこれらに限定されない任意の体液からのものであり得る。試料は、無細胞核酸分子312を含有する。一実施形態において、DNAは、患者の血漿から抽出される。
【0061】
ステップ320において、配列決定ライブラリは、例えば、これに限定されないが、Illumina TruSeq Nanoキットを使用して血漿DNAから構築される。他の配列決定ライブラリ調製キットも使用され得る。生物学的試料に含有される複数の核酸分子の少なくとも一部分が、配列決定される。配列決定された部分は、ヒトゲノムの一部分、ヒトゲノム全体(もしくは他の動物、植物などの他のゲノム)を表してもよく、または複数倍の配列決定深度であってもよい。様々な長さの両端または断片全体が配列決定され得る。試料中の核酸分子のすべてまたはサブセットのみが配列決定され得る。このサブセットは、ランダムに、または標的を絞った方法で、例えば、特定の配列(例えば、1つ以上の特定の遺伝子座/領域に対応)を捕捉するためのプローブを使用して、または特定の配列を増幅するためのプライマーを使用して選択され得る。一実施形態において、配列決定は、対末端超並列配列決定を使用して、例えば、Illumina HiSeq 4000プラットフォームを用いて行われる。他の配列決定プラットフォームが使用され得る。
【0062】
断片の配列決定データに基づいて、断片末端のヌクレオチドが決定される。ある割合の配列決定されたデータは、低品質であるか、またはPCR重複とみなされるため、バイオインフォマティクス手順を使用してそれらを後続の分析から破棄し得る。対末端配列決定を伴う一実施形態において、リード1の5’末端およびリード2の5’末端は、断片の末端を表す。完全な分子が配列決定される場合、両端が1つのリードから決定され得る。
【0063】
ステップ330において、配列決定されたデータは、例えば、断片のサイズを決定するために、参照ヒトゲノム350にアラインメント(マッピング)され得る。例えば、リード1およびリード2は、対として一緒にアラインメントされ得る。アラインメントにより、-1、-2、-3、-4位のヌクレオチド情報も取得され得る。断片サイズ情報も取得され得る。別の例として、例えば、DNA分子全体が配列決定される場合、アラインメントを用いることなく、サイズが取得され得る。
【0064】
断片は、両端のヌクレオチドに基づいて分類およびカウントされ得る。一実施形態において、断片を16タイプに分類するために、各末端の1つのヌクレオチドのみが使用される。より多くのヌクレオチド、例えば、2mer、3merなどを断片内で使用して、断片を分類することができる。切断位置(切断部位)365の反対側、例えば、-1、-2、-3、-4位などのヌクレオチド配列もまた、断片を分類するために使用され得る。示されるように、CC末端が強調表示される場合、参照ゲノム350は、これらの位置に列挙されたNを有する。実際には、実際の塩基は、アラインメント後に取得され得る。
【0065】
いくつかの実施形態において、何がカウントされるかを決定するために、配列決定データに規定が課され得る。例えば、特定のサイズ範囲の核酸断片に対応する配列決定データは、バイオインフォマティクス分析後に選択され得る。サイズ範囲の例は、150bp未満、150~250bp、250bp超である。
【0066】
断片タイプの量は、単純にカウントされ得るか、または断片の分類からパラメータが決定され得る。パラメータは、例えば、特定の断片タイプの第1の量(例えば、特定の末端モチーフ対を有する断片の数)および断片の総量の単純な比率であり得る。パラメータは、第1の量に2つ以上の断片タイプを含み得る。
【0067】
パラメータを1つ以上のカットオフ値と比較して、異なる状態の分類を区別することができる。カットオフ値は、既知の分類(例えば、健康または病気)を有する試料の訓練セットから任意の数の好適な方法で決定され得る。例えば、パラメータ(例えば、断片タイプの分数表現)は、正常な対象において確立された参照範囲(カットオフの例)と比較され得る。比較に基づいて、患者が状態(例えば、がん)を有する可能性が高いかどうかの分類が決定される。
【0068】
D.末端モチーフ対の組み合わせ
可能な断片タイプの数は、2つの末端モチーフで使用される塩基の数によって決まる。使用される塩基の総数がMの場合、組み合わせの総数は、M4である。例えば、1merが両端で使用される場合、Mは2であり、組み合わせの総数は、24=16個の異なる組み合わせである。2merが両端で使用される場合、Mは4であり、組み合わせの総数は、44=256個の異なる組み合わせである。1merが一方の末端で使用され、2merがもう一方の末端で使用される場合、Mは3であり、組み合わせの総数は、34=81個の異なる組み合わせである。
【0069】
図4A~4Cは、本開示の実施形態による、cfDNA断片を二末端で分類するための末端モチーフの異なる分類の異なる組み合わせを示す。図4Aは、1merが両端で使用される場合の16個の異なる断片タイプを示す。A<>A、A<>G、C<>C(例を図示)などの命名法は、図4Aおよび本開示全体を通して使用される。示されるように、1merは、両方の断片の5’末端で決定されるが、本明細書に記載されるように、他の規則も可能である。
【0070】
図4Bは、断片上の両端での2merの使用を示し、256個の異なる断片タイプをもたらす。例示的な断片は、CT<>GAとラベル付けされ得る末端モチーフCTおよびGAを有する。
【0071】
図4Cは、2merモチーフの使用を示し、一方の塩基が断片上にあり、もう一方の塩基が断片外(すなわち、切断部位の反対側)にある。末端モチーフ対に2merを使用すると、256個の異なる断片タイプをもたらす。しかし、断片外の塩基の使用を所与として、命名法は異なる。そのような塩基は、参照ゲノムへのアラインメントによって決定され得る。例示的な断片は、末端モチーフTA(Tは断片外)およびCT(Cは断片外)を有する。本開示において、例示的な断片の命名法は、t|A<>c|Tである。
【0072】
したがって、断片の両端の配列を使用して、断片タイプを定義することができる。分析は、断片切断部位の周辺の可変位置で1mer、2mer、3merなどを用いて実施され得る。断片末端は、-1、-2、-3などの位置のヌクレオチドによってのみ定義され得る(すなわち、切断部位の反対側から)。切断部位の周辺で分析されるモチーフは、対称である必要はなく、例えば、切断前に1つのヌクレオチド、および切断後に2つのヌクレオチドが存在してもよく、ヌクレオチドは、切断の前後で異なってもよい。断片末端の配列は、配列決定技術またはプローブ/プライマーベース(例えば、PCRベース)の方法によって決定され得る。PCRベースの方法の使用例としては、一般的に切断、例えば、ct|CCCAであるモチーフのプライマー/プローブを設計すること、および定量的変化を検出することが挙げられ得るが、これらに限定されない。別の例として、リガーゼ連鎖反応が使用され得、2つのプローブ間に完全な相補性がある場合のみ、ライゲーションおよびその後の増幅が生じる。プローブは、末端モチーフ配列に相補的であるように設計され得る。
【0073】
II.肝臓病理のスクリーニング
無細胞DNAの異なる断片タイプは、対象の異なるコホートの血漿および他の無細胞試料において異なる量で生じ得る。このセクションでは、異なる断片タイプを使用して、がん(例えば、HCC)、HBV、または肝硬変などの異なる肝臓病理をスクリーニングすることができることを示す。HCCを有する対象とHCCを有しない対象とを区別する能力は、HCCの初期、中期、および進行のステージを区別する能力と同様に、末端モチーフに1merおよび2merを使用して示される。
【0074】
二末端分析の可能性を試験するために、20人の健康な対照対象(対照)、22人の慢性B型肝炎保有者(HBV)、12人の肝硬変対象(Cirr)、24人の初期ステージHCC(eHCC)、11人の即時ステージHCC(iHCC)、および対リード数の中央値が2億1500万(範囲:9700万~16億8100万)の7人の進行ステージHCC(aHCC)を含むデータセットを使用した。この配列決定の量は、およそ10~100倍の配列決定深度に対応する。したがって、がんなし、および3つのがんステージを含む潜在的に4つのがんレベルを有する、対象の6つの異なるコホートからの血漿試料を使用した。また、合計96人の対象を使用した。このセクションでは、16タイプのすべての1mer末端モチーフ対を分析した。Illuminaベースの配列決定を使用したが、他の配列決定プラットフォームが使用され得る。バイサルファイト配列決定を使用したが、他の配列決定(例えば、非バイサルファイト処理されたDNAのDNA、すなわち、DNA-seq)も使用され得る。がんの分類は、多くの臨床パラメータに基づくBarcelona Clinic Liver Cancer Stagingシステムに基づいている。
【0075】
A.HCCの1mer末端モチーフ対
1merのみを使用したこの二末端分析では、切断部位の反対側の1merの使用とは対照的に、断片の各末端の1mer末端ヌクレオチドによって断片を定義した。各断片タイプ(特定の末端モチーフ対)の割合(相対頻度の例)を、各試料において計算した。例えば、C<>C断片の割合(C<>C%)を、C<>C断片の数/すべてのタイプの断片の総数として計算した。
【0076】
この断片タイプの割合を使用して、受信者動作特性(ROC)曲線の曲線下面積(AUC)、および1mer二末端を使用して可能な16タイプの断片の各々において、非がん試料(対照、HBV、Cirr)とがん試料(eHCC、iHCC、aHCC)とを区別するその可能性を分析した。
【0077】
図5A~12Dは、本開示の実施形態による、すべての可能な1mer二末端断片タイプの分類結果を示す。各1mer二末端断片の割合は、各試料において計算され、対象の6つのコホートの各々について対応する箱ひげ図にプロットされる。非がん(対照、HBVキャリア(HBV)、肝硬変(cirr))と、がん(初期HCC(eHCC)、中期HCC(iHCC)、進行HCC(aHCC))とを区別する際の、断片タイプの能力のパーセンテージに対応するROC曲線は、AUCとともに箱ひげ図の左側に示される。16タイプうち、C<>C%は、AUC=0.91で最良の性能であった。
【0078】
1.Aの結果
図5A~5Bは、本開示の実施形態による、A<>A断片を使用した96人の対象の分類結果を示す。図5Aは、A<>A断片の受信者動作特性(ROC)曲線を示す。図5Bは、6タイプの対象についてのA<>A断片のパーセントの箱ひげ図を示す。図5Bに見られるように、3つの非がんコホートと3つのがんコホートとの間の差は有意ではなく、図5Aの小さなAUCをもたらす。
【0079】
図5C~5Dは、本開示の実施形態による、A<>C断片を使用した96人の対象の分類結果を示す。図5Cは、A<>C断片のROC曲線を示す。図5Dは、6タイプの対象についてのA<>C断片のパーセントの箱ひげ図を示す。図5Bとは異なり、非がん対象は、一般に、がん対象よりも高いA<>C割合を有する。この差は、ROC曲線におけるより良好なAUCをもたらす。図5Dに示されるように、A<>C末端を有するDNA断片の割合のパラメータは、がん対象と非がん対象とを区別する参照値の好適な選択により、約0.8の感度および約0.65の特異度を提供することができる。より高いまたはより低い参照値は、感度と特異度の増加/減少間のトレードオフをもたらし得る。当業者は、感度と特異度との間のトレードオフを理解し、1つ以上の末端モチーフ対の任意のセットについて好適な参照(カットオフ)値を選択することができるであろう。
【0080】
図6A~6Bは、本開示の実施形態による、A<>G断片を使用した96人の対象の分類結果を示す。図6Aは、A<>G断片のROC曲線を示す。図6Bは、6タイプの対象についてのA<>G断片のパーセントの箱ひげ図を示す。図6Bに見られるように、3つの非がんコホートと3つのがんコホートとの間には差があり、がん対象は、一般に、より高いA<>Gパーセントを有する。さらに、進行HCCは、特に、初期および中期がん対象よりも統計的に有意な差を有する(より高い)。
【0081】
図6C~6Dは、本開示の実施形態による、A<>T断片を使用した96人の対象の分類結果を示す。図6Cは、A<>T断片のROC曲線を示す。図6Dは、6タイプの対象についてのA<>T断片のパーセントの箱ひげ図を示す。図6Dに見られるように、3つの非がんコホートと3つのがんコホートとの間には顕著な差があり、がん対象は、一般に、より高いA<>Tパーセントを有する。さらに、中期HCC対象は、一般に、初期HCC対象よりも高いA<>Tパーセントを有し、進行HCC対象は、一般に、iHCC対象よりも高いA<>Tパーセントを有する。
【0082】
2.Cの結果
図7A~7Bは、本開示の実施形態による、C<>A断片を使用した96人の対象の分類結果を示す。図7Aは、C<>A断片のROC曲線を示す。図7Bは、6タイプの対象についてのC<>A断片のパーセントの箱ひげ図を示す。図7Bに見られるように、3つの非がんコホートと3つのがんコホートとの間には差があり、がん対象は、一般に、より低いC<>Aパーセントを有する。
【0083】
特に、HBV対象および肝硬変対象は、対照対象およびがん対象よりも高いC<>Aパーセントを有する。図7Bは、二末端分析をより一般的に使用して、がんのみならず、病理のレベルを決定することができることを示す。同様に、A<>Cはまた、例えば、A<>Cに示されるように、そのような分類のためにも使用され得る。HBVおよび肝硬変を検出するためのさらなる結果は、後に提供される。
【0084】
図7C~7Dは、本開示の実施形態による、C<>C断片を使用した96人の対象の分類結果を示す。図7Cは、C<>C断片のROC曲線を示す。図7Dは、6タイプの対象についてのC<>C断片のパーセントの箱ひげ図を示す。図7Dに見られるように、3つの非がんコホートと3つのがんコホートとの間には有意差があり、がん対象は、一般に、より低いC<>Cパーセントを有する。図7CのROC曲線は、一実施形態が、約0.8の感度を達成しながらも、約0.9の特異度を達成することができることを示す。1merの場合、C<>Cが最高AUCを提供する。
【0085】
いくつかの実施形態において、異なる断片タイプを一緒に使用して、例えば、異なる病理または陽性の病理内の異なるレベルをスクリーニングすることができる。例えば、C<>Cを使用して、がんをスクリーニングすることができ、C<>Aを使用して、HBV/肝硬変をスクリーニングすることができる。がんが検出された場合、異なる断片タイプ(例えば、A<>T)を使用して、がんのステージを決定することができる。
【0086】
図8A~8Bは、本開示の実施形態による、C<>G断片を使用した96人の対象の分類結果を示す。図8Aは、C<>G断片のROC曲線を示す。図8Bは、6タイプの対象についてのC<>G断片のパーセントの箱ひげ図を示す。図8Bに見られるように、非がん対象とがん対象との間にはある程度の差がある。eHCC対象の区別はやや不良であるが、eHCC、iHCC、およびaHCCの間の区別は良好である。したがって、がん検出(例えば、C<>Cを使用した)の後、C<>Gを使用して、がんのステージを決定することができる。
【0087】
図8C~8Dは、本開示の実施形態による、C<>T断片を使用した96人の対象の分類結果を示す。図8Cは、C<>T断片のROC曲線を示す。図8Dは、6タイプの対象についてのC<>T断片のパーセントの箱ひげ図を示す。C<>Tの結果は、不良である。
【0088】
C<>Cががんと非がんとを区別するための大きなAUCを提供するが、C<>Tの性能が不良であり、一方で、A<>Aの性能が不良であるが、A<>Tの性能が非常に良好であることは注目に値する。
【0089】
3.Gの結果
図9A~9Bは、本開示の実施形態による、G<>A断片を使用した96人の対象の分類結果を示す。図9Aは、G<>A断片のROC曲線を示す。図9Bは、6タイプの対象についてのG<>A断片のパーセントの箱ひげ図を示す。異なるコホート間の分離は、他の断片タイプほど良好ではない。
【0090】
図9C~9Dは、本開示の実施形態による、G<>C断片を使用した96人の対象の分類結果を示す。図9Cは、G<>C断片のROC曲線を示す。図9Dは、6タイプの対象についてのG<>C断片のパーセントの箱ひげ図を示す。図9Dに見られるように、非がん対象とがん対象との間にはある程度の差がある。eHCC対象の区別はやや不良であるが、eHCC、iHCC、およびaHCCの間の区別は良好である。したがって、がん検出(例えば、C<>Cを使用した)の後、G<>Cを使用して、がんのステージを決定することができる。図9DのG<>Cの性能は、図8BのC<>Gの性能と同様である。
【0091】
図10A~10Bは、本開示の実施形態による、G<>G断片を使用した96人の対象の分類結果を示す。図10Aは、G<>G断片のROC曲線を示す。図10Bは、6タイプの対象についてのG<>G断片のパーセントの箱ひげ図を示す。感度の大幅な増加は、約0.6の特異度で生じる。
【0092】
図10C~10Dは、本開示の実施形態による、G<>T断片を使用した96人の対象の分類結果を示す。図10Cは、G<>T断片のROC曲線を示す。図10Dは、6タイプの対象についてのG<>T断片のパーセントの箱ひげ図を示す。G<>Tパーセントは、がんと非がんとの間の適切な区別を提供する。
【0093】
4.Tの結果
図11A~11Bは、本開示の実施形態による、T<>A断片を使用した96人の対象の分類結果を示す。図11Aは、T<>A断片のROC曲線を示す。図11Bは、6タイプの対象についてのT<>A断片のパーセントの箱ひげ図を示す。T<>Aパーセントは、がんと非がんとの間の良好な区別を提供し、結果は、図6Dに示されるようなA<>Tパーセントに匹敵する。がんとHBVおよび肝硬変との間の区別は、は特に良好である。したがって、T<>Aパーセントのパラメータを使用して、対象がHBV/肝硬変またはがんを有するかどうかを検出し得る。そのような測定の結果が以下に示される。
【0094】
図11C~11Dは、本開示の実施形態による、T<>C断片を使用した96人の対象の分類結果を示す。図11Cは、T<>C断片のROC曲線を示す。図11Dは、6タイプの対象についてのT<>C断片のパーセントの箱ひげ図を示す。T<>Cの結果は不良であり、図8DにあるようなC<>Tの結果と同様である。
【0095】
図12A~12Bは、本開示の実施形態による、T<>G断片を使用した96人の対象の分類結果を示す。図12Aは、T<>G断片のROC曲線を示す。図12Bは、6タイプの対象についてのT<>G断片のパーセントの箱ひげ図を示す。T<>Gパーセントは、がんと非がんとの間の適切な区別を提供する。
【0096】
図12C~12Dは、本開示の実施形態による、T<>T断片を使用した96人の対象の分類結果を示す。図12Cは、T<>T断片のROC曲線を示す。図12Dは、6タイプの対象についてのT<>T断片のパーセントの箱ひげ図を示す。T<>Tパーセントは、約0.8の感度までがんと非がんとの間の適切な区別を提供するが、感度の向上は、特異度の低下とともに失速する。
【0097】
B.HCCの2mer末端モチーフ対
同様の二末端分析は、各末端の2merを使用しても行われ得る。上記のように、そのような二末端分析は、256個の異なる組み合わせを生成する。2merの末端モチーフ対の256個すべての組み合わせを分析して、HCC分析で使用された96人の対象について0.9超のAUCを提供する組み合わせを決定した。0.9超のAUCを提供する断片タイプ(2mer末端モチーフ対)は、11個存在する。
【0098】
図13A~18Bは、本開示の実施形態による、非がんとHCCとを区別する際の、0.9超のAUCを有する2mer二末端断片タイプの分類結果を示す。これらの断片タイプでは、AG<>TA断片は、0.938の最高AUCを有する。高頻度と高AUCの両方を有する断片タイプの例は、CC<>CC断片であり、対照の頻度中央値は、約3%およびAUC=0.916である。
【0099】
0.9超のAUCを有する2mer二末端断片タイプは、1mer二末端断片タイプよりも多く存在する。しかし、より多い組み合わせを所与として、各断片タイプが生じる頻度はより低い。所与のタイプの断片がより少ないと、所望の統計精度を達成するために必要な配列決定の量および試料のサイズに影響を与える可能性がある。
【0100】
1.TAの結果
図13A~13Bは、本開示の実施形態による、AA<>TA断片を使用した96人の対象の分類結果を示す。図13Aは、AA<>TA断片のROC曲線を示す。図13Bは、6タイプの対象についてのAA<>TA断片のパーセントの箱ひげ図を示す。図13C~13Dは、本開示の実施形態による、TA<>AA断片を使用した96人の対象の分類結果を示す。図13Cは、TA<>AA断片のROC曲線を示す。図13Dは、6タイプの対象についてのTA<>AA断片のパーセントの箱ひげ図を示す。AA<>TAおよびTA<>AAの結果は同様である。がん対象と非がん対象との間には良好な分離があるが、異なるがんステージ間の分離ほど良好ではない。
【0101】
図14A~14Bは、本開示の実施形態による、AG<>TA断片を使用した96人の対象の分類結果を示す。図14Aは、AG<>TA断片のROC曲線を示す。図14Bは、6タイプの対象についてのAG<>TA断片のパーセントの箱ひげ図を示す。図14C~14Dは、本開示の実施形態による、TA<>AG断片を使用した96人の対象の分類結果を示す。図14Cは、TA<>AG断片のROC曲線を示す。図14Dは、6タイプの対象についてのTA<>AG断片のパーセントの箱ひげ図を示す。
【0102】
AG<>TAおよびTA<>AGの結果は同様である。がん対象と非がん対象との間には良好な分離がある。また、aHCCと他の2つのがん分類(eHCCおよびiHCC)との間にも良好な分離がある。したがって、これらの断片タイプを使用して、aHCC対象を正確に同定すること、ならびにがんをスクリーニングすることができる。
【0103】
図15A~15Bは、本開示の実施形態による、TA<>GT断片を使用した96人の対象の分類結果を示す。図15Aは、TA<>GT断片のROC曲線を示す。図15Bは、6タイプの対象についてのTA<>GT断片のパーセントの箱ひげ図を示す。図15C~15Dは、本開示の実施形態による、GT<>TA断片を使用した96人の対象の分類結果を示す。図15Cは、GT<>TA断片のROC曲線を示す。図15Dは、6タイプの対象についてのGT<>TA断片のパーセントの箱ひげ図を示す。
【0104】
TA<>GTおよびGT<>TAの結果は同様である。がん対象と非がん対象との間には良好な分離がある。また、aHCCと他の2つのがん分類(eHCCおよびiHCC)との間にも良好な分離があるが、AG<>TAおよびTA<>AGほど良好ではない。したがって、これらの断片タイプを使用して、aHCC対象を同定すること、ならびにがんをスクリーニングすることができる。
【0105】
2.CCの結果
図16A~16Bは、本開示の実施形態による、CG<>CC断片を使用した96人の対象の分類結果を示す。図16Aは、CG<>CC断片のROC曲線を示す。図16Bは、6タイプの対象についてのCG<>CC断片のパーセントの箱ひげ図を示す。図16C~16Dは、本開示の実施形態による、CC<>CG断片を使用した96人の対象の分類結果を示す。図16Cは、CC<>CG断片のROC曲線を示す。図16Dは、6タイプの対象についてのCC<>CG断片のパーセントの箱ひげ図を示す。
【0106】
CG<>CCおよびCC<>GCの結果は同様である。がん対象と非がん対象との間には良好な分離がある。また、aHCCと他の2つのがん分類(eHCCおよびiHCC)との間にも良好な分離がある。したがって、これらの断片タイプを使用して、aHCC対象を同定すること、ならびにがんをスクリーニングすることができる。
【0107】
図17A~17Bは、本開示の実施形態による、CC<>CA断片を使用した96人の対象の分類結果を示す。図17Aは、CC<>CA断片のROC曲線を示す。図17Bは、6タイプの対象についてのCC<>CA断片のパーセントの箱ひげ図を示す。図17C~17Dは、本開示の実施形態による、CA<>CC断片を使用した96人の対象の分類結果を示す。図17Cは、CA<>CC断片のROC曲線を示す。図17Dは、6タイプの対象についてのCA<>CC断片のパーセントの箱ひげ図を示す。
【0108】
CC<>CAおよびCA<>CCの結果は同様である。がん対象と非がん対象との間には良好な分離がある。また、aHCCと他の2つのがん分類(eHCCおよびiHCC)との間にも適切な分離がある。したがって、これらの断片タイプを使用して、aHCC対象を同定すること、ならびにがんをスクリーニングすることができる。
【0109】
図18A~18Bは、本開示の実施形態による、CC<>CC断片を使用した96人の対象の分類結果を示す。図18Aは、CC<>CC断片のROC曲線を示す。図18Bは、6タイプの対象についてのCC<>CC断片のパーセントの箱ひげ図を示す。がん対象と非がん対象との間には良好な分離がある。また、aHCCと他の2つのがん分類(eHCCおよびiHCC)との間にも適切な分離がある。したがって、これらの断片タイプを使用して、aHCC対象を同定すること、ならびにがんをスクリーニングすることができる。
【0110】
CC<>CCの利点は、これらの断片が、一般に、血漿試料中のすべてのcfDNAの1~5%を構成し、それによって比較的小さな試料から多数のDNA断片を提供することである。例えば、500,000個のDNA断片は、十分な精度を提供することができ、それによって少量の試料(例えば、血漿から抽出された1ng未満のDNAまたは1マイクロリットルのDNA溶液)が使用されることを可能にする。例えば、200bpの5000万個の断片(典型的には血漿中の)は、ヒトゲノムの約0.3倍に等しい。DNAの約1,000~5,000個のゲノム等価物としての1mLの血漿。平均して、各ゲノムは、数百万個のDNA断片に断片化される。試料がより大きい場合でも、より少ない配列決定が実施され得る。しかし、より低い頻度を有する他の断片タイプの場合でも、特定のタイプの断片がゲノム内のどこかに由来し得るため、そのような断片は、標準的な配列決定実行においてなおも十分である。断片の数および精度の関係については、後のセクションで調査される。
【0111】
C.切断部位の両側の塩基を使用した2mer末端モチーフ対
上記のように、切断部位の両側の塩基が使用され得る。切断部位の反対側の塩基は、小文字を使用してラベル付けされ得、断片の塩基は、大文字を使用してラベル付けされ得る。断片外の塩基の使用は、断片化が切断部位の両側の塩基によって決まる場合を反映し得る。
【0112】
-1、-2、-3などの位置のヌクレオチド情報は、有益であり、二末端分析の性能を強化し得る。ヌクレオチド情報は、配列決定された断片を参照ゲノムに再びアラインメントした後に取得され得る。一実施形態において、各末端の-1および+1位のヌクレオチドを使用して、断片タイプを分類した。明確にするために、ここでは負の位置にあるヌクレオチドが小文字で示される。縦線(|)は、断片の末端の切断部位を示す)。-1および+1位が使用されるが、位置は、連続している必要はなく、例えば、-2および+1が使用され得る。
【0113】
図19A~19Bは、本開示の実施形態による、HCCを区別する際の、-1および+1位のヌクレオチドを有する二末端分析の性能を示す。図19A~19Bは、本開示の実施形態による、t|C<>c|C断片を使用した分類結果を示す。図19Aは、t|C<>c|C断片のROC曲線を示す。図19Bは、6タイプの対象についてのt|C<>c|C断片のパーセントの箱ひげ図を示す。図19C~19Dは、本開示の実施形態による、c|C<>t|C断片を使用した分類結果を示す。図19Cは、c|C<>t|C断片のROC曲線を示す。図19Dは、6タイプの対象についてのc|C<>t|C断片のパーセントの箱ひげ図を示す。
【0114】
t|C<>c|Cおよびc|C<>t|Cの結果は同様であり、最良の性能の-1、+1タイプである。HCCデータセットの二末端分析に-1および+1位を含むと、t|C<>c|Cおよびc|C<>t|C断片において、AUC=0.917でHCCと非がんとの間の区別を達成する。そのような断片の頻度も、延期が断片上にある場合、2mer断片タイプのほとんどよりもやや高い。
【0115】
D.HBVおよび肝硬変
いくつかの実施形態は、上記のように、がん以外の他の病理のレベルを検出することができる。肝臓の場合、そのような病理には、HBVによって引き起こされる慢性肝炎および肝硬変が含まれる。対照とHBVによる慢性肝炎、および対照と肝硬変とを区別する際の最高AUCを有するモチーフが、以下の表1に提供される。いくつかの例示的なROC曲線が後に続く。
【表1】
【0116】
図20A~20Cは、本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のCG<>AAの性能を提供する。図20Aは、CG<>AAの箱ひげ図であり、対照とHBVならびに肝硬変との間の分離を示す。図20Bは、対照とHBVとを区別するCG<>AAのROC曲線を示し、AUCは0.864であり、これは、HBVの最良の2end:+2末端モチーフ対であった。図20Cは、対照と肝硬変とを区別するCG<>AAのROC曲線を示し、AUCは0.804である。
【0117】
図21A~21Cは、本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のGC<>TAの性能を提供する。図21Aは、GC<>TAの箱ひげ図であり、対照と肝硬変ならびにHBVとの間の分離を示す。図21Bは、対照とHBVとを区別するGC<>TAのROC曲線を示し、AUCは0.766である。図21Cは、対照と肝硬変とを区別するGC<>TAのROC曲線を示し、AUCは0.871であり、これは、肝硬変の最良の2end:+2末端モチーフ対と並んだ。
【0118】
図21D~21Fは、本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のTA<>GCの性能を提供する。図21Dは、TA<>GCの箱ひげ図であり、対照と肝硬変ならびにHBVとの間の分離を示す。図21Eは、対照とHBVとを区別するTA<>GCのROC曲線を示し、AUCは0.77である。図21Fは、対照と肝硬変とを区別するTA<>GCのROC曲線を示し、AUCは0.871であり、これは、肝硬変の最良の2end:+2末端モチーフ対と並んだ。
【0119】
図22A~22Cは、本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のC<>Cの性能を提供する。図22Aは、C<>Cの箱ひげ図であり、対照と肝硬変ならびにHBVとの間の分離を示す。図22Bは、対照とHBVとを区別するC<>CのROC曲線を示し、AUCは0.777である。図22Cは、対照と肝硬変とを区別するC<>CのROC曲線を示し、AUCは0.867である。
【0120】
図22D~22Fは、本開示の実施形態による、対照とHBVおよび肝硬変とを区別する際のC<>Aの性能を提供する。図22Dは、C<>Aの箱ひげ図であり、対照と肝硬変ならびにHBVとの間の分離を示す。図22Fは、対照とHBVとを区別するC<>AのROC曲線を示し、AUCは0.761である。図22Fは、対照と肝硬変とを区別するC<>AのROC曲線を示し、AUCは0.862である。
【0121】
E.他の末端モチーフ対およびパラメータ(集計値)の例
異なる断片タイプの末端モチーフ対について上に示したように、異なるN-merとの異なる組み合わせは、より良好な性能をもたらし得る。いくつかの他の例は、tt|CC<>ct|CCまたはa|CCC<>ct|CGであり得る。
【0122】
さらに、異なる断片タイプの割合は、例えば、個々の値を合計し、統計値(例えば、平均(mean)、平均(average)、加重平均、中央値、もしくはモード)を決定することによって組み合わされ得るか、または機械学習モデルへの入力として使用され得る。例えば、断片タイプのセットの各々は、多次元データ点を表すベクトルの1つの次元を形成することができる。異なる分類のデータ点は、クラスターを形成することができ、新しい試料の新しいデータ点が、各クラスターの重心からのベクトル距離(例えば、断片タイプの割合の差)に基づいてクラスターに割り当てられ得る。サポートベクターマシン、決定木、ニューラルネットワークなど、様々な他のモデルが使用され得る。
【0123】
III.他の組織の病理
末端モチーフ対を使用して、他のがんをスクリーニングすることもできる。他のがんの例として、結腸直腸がん(CRC)、肺扁平上皮がん(LUSC)、鼻咽頭がん(NPC)、および頭頸部扁平上皮がん(HNSCC)が使用される。これらのがんは、検出され得る一般的ながんの良い代表である。
【0124】
30個の追加の対照試料および他のがんタイプの40個の血漿DNA試料(10個の結腸直腸がん(CRC)、10個の肺扁平上皮がん(LUSC)、10個の鼻咽頭がん(NPC)、および10個の頭頸部扁平上皮がん(HNSCC))を、4200万の対リードの中央値(範囲:1900万~6500万)に配列決定した。
【0125】
A.CC<>CC
CC<>CCの性能が良好であったこと、およびこの断片タイプが血漿試料で一般的であったことを所与として、他のタイプのがんにおいてCC<>CC%を用いた二末端分析の可能性を試験した。
【0126】
図23~25Bは、本開示の実施形態による、対照と、結腸直腸がん(CRC)、肺扁平上皮がん(LUSC)、鼻咽頭がん(NPC)、および頭頸部扁平上皮がん(HNSCC)などの他のがんとを区別する際の、CC<>CC断片の割合のROC曲線およびAUC値を示す。非がんと、これらの他の4つのタイプのがんの組み合わせとを区別する際、図23に示されるように、AUCは0.77である。AUCを含むROC曲線の精度は、対象ががんを有するかどうかを区別するために決定される。
【0127】
また、これらの4つのタイプのがんの各々を個別に分析した。対照と特定のタイプのがんとを区別するために、ROC曲線およびAUCが提供される。
【0128】
図24Aは、本開示の実施形態による、対照とCRCとを区別する際の、CC<>CC断片の割合のROC曲線およびAUC値を示す。図24Bは、本開示の実施形態による、対照とLUSCとを区別する際の、CC<>CC断片の割合のROC曲線およびAUC値を示す。図25Aは、本開示の実施形態による、対照とNPCとを区別する際の、CC<>CC断片の割合のROC曲線およびAUC値を示す。図25Bは、本開示の実施形態による、対照とHNSCCとを区別する際の、CC<>CC断片の割合のROC曲線およびAUC値を示す。各個々のがんタイプによって分けられた場合、HNSCCを区別するためのAUCは0.913、NPCについては0.833、CRCについては0.697、LUSCについては0.663である。
【0129】
B.-1および+1位
また、+1位と組み合わせた、断片外、具体的には-1位の塩基の使用を分析した。これらの4つの他のがんを区別するための二末端分析に-1位のヌクレオチドを含む例が、以下に提供される。
【0130】
1.t|Cの結果
図26A~28Bは、本開示の実施形態による、他のがん(CRC、LUSC、NPC、HNSCC)を区別する際の、-1および+1位のヌクレオチドを有する3つの例示的な二末端断片の性能を示す。3つの例の各々は、1つの末端または2つの末端にt|Cを含む。t|C<>t|C%の場合、AUCは0.827である。t|C<>a|Cの場合、AUCは0.83である。a|C<>t|C%の場合、AUCは0.83である。これらは、このタイプの3つの最良の性能の末端モチーフ対である。二末端分析に-1位を含むと、他のタイプのがんの区別を強化する。非がんと、これらの他の4つのがんタイプ(CRC、LUSC、NPC、HNSCC)とを区別する際に、一部の断片タイプの割合は、CC<>CC%を使用するよりも性能が良好である。
【0131】
図26Aは、本開示の実施形態による、対照、CRC、LUSC、NPC、およびHNSCCについてのt|C<>t|Cパーセントの箱ひげ図を示す。これらの4つのがんの各々は、一般に、t|C<>t|Cパーセントについてより低い値を有する。図26Bは、t|C<>t|C断片のROC曲線およびAUC(0.827)を示す。
【0132】
図27Aは、本開示の実施形態による、対照、CRC、LUSC、NPC、およびHNSCCについてのt|C<>a|Cパーセントの箱ひげ図を示す。これらの4つのがんの各々は、一般に、t|C<>a|Cパーセントについてより低い値を有する。図27Bは、t|C<>a|C断片のROC曲線およびAUC(0.83)を示す。
【0133】
図28Aは、本開示の実施形態による、対照、CRC、LUSC、NPC、およびHNSCCについてのa|C<>t|Cパーセントの箱ひげ図を示す。これらの4つのがんの各々は、一般に、a|C<>t|Cパーセントについてより低い値を有する。図28Bは、a|C<>t|C断片のROC曲線およびAUC(0.83)を示す。
【0134】
2.各がんの最良の結果
各がんタイプが個別に分析された場合、異なる断片タイプが、異なるがんに対して最良の性能を達成することができる。
【0135】
図29A~30Bは、本開示の実施形態による、CRC、LUSC、NPC、またはHNSCCの各々を区別する際の、-1および+1位のヌクレオチドを有するそれぞれの二末端断片について最良の性能を示す。図29Aは、本開示の実施形態による、CRCについてのg|G<>a|T断片のROC曲線およびAUCを示す。図29Bは、本開示の実施形態による、LUSCについてのa|G<>g|T断片のROC曲線およびAUCを示す。図30Aは、本開示の実施形態による、NPCについてのg|T<>t|G断片のROC曲線およびAUCを示す。図30Bは、本開示の実施形態による、HNSCCについてのa|T<>a|G断片のROC曲線およびAUCを示す。
【0136】
g|G<>a|T断片のパーセンテージは、0.928のAUCでCRCと非がんとを区別する(図29A)。a|G<>g|T断片のパーセンテージは、0.953のAUCでLUSCと非がんとを区別する(図29B)。g|T<>t|G断片のパーセンテージは、0.943のAUCでNPCと非がんとを区別する(図30A)。また、a|T<>a|G断片のパーセンテージは、0.953のAUCでHNSCCと非がんとを区別する(図30B)。
【0137】
IV.病理の異なるステージの区別
いくつかの実施形態は、病理(例えば、がん)の異なるステージを区別することができる。そのような区別は、例えば、対象が病理を有するかどうかを区別するために第1のパスが実施された場合、末端モチーフ対の第2のセットを使用して第2のパスで実施され得る。例えば、C<>Cは、がんが存在するかどうかを判断する第1のパスで使用され得る。次に、A<>Tを使用して、がんの初期、中期、および進行ステージを区別することができる。さらに、異なるセットの末端モチーフ対を使用して、がんの異なるステージを区別することができる。したがって、様々なモデル(例えば、各々が異なる末端モチーフ対を有する)を集合的に、または単一のモデル(例えば、決定木)として使用して、病理のステージを決定することができる。
【0138】
A.HCC
図31は、本開示の実施形態による、がんの異なるステージを区別する際の、最高AUCを有する末端モチーフの性能結果を含む表を示す。結果は、がんの3つのステージの区別、すなわち、(a)初期HCCと中期HCCとの区別、(b)中期HCCと進行HCCとの区別、および(c)初期HCCと進行HCCとの区別の精度を示す。モチーフタイプは、断片タイプの4つの異なるクラスを列挙する:(1)2end:-1+1、(2)2end:-2+2、(3)2end:+2、および(4)2end:+1。最良の性能の末端モチーフ対は、各モチーフタイプおよびがんステージ間の各対の区別について提供される。AUCのいくつかは1であり、100%の精度を示す。初期/中期HCCと進行HCCとの間の区別は、100%の精度で行われ得、多くの選択肢が、中期HCCと進行HCCとを区別するために利用可能である。末端モチーフ対のいくつかは、図32に提供される。
【0139】
図32は、中期HCCと進行HCCとを区別するための100%の精度のすべての2end:-2+2タイプのリスト3200、および初期HCCと進行HCCとを区別するための100%の精度のすべての2end:-2+2タイプのリスト3250を示す。
【0140】
いくつかの最良の性能の2end:-1+1末端モチーフタイプの性能のグラフが、以下に提供される。
【0141】
図33A~33Dは、初期HCCと中期HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。図33Aは、3つのHCCステージについてのt|G<>a|C%の箱ひげ図を示す。示されるように、t|G<>a|C%は、がんのステージとともに徐々に減少する。いくつかの実施形態において、較正関数は、各分類の中央値または平均値を使用して決定され得、それによって、例えば、ステージ間の連続体として、より多くの分類を可能にする。そのような較正関数は、任意の末端モチーフ対で使用され得る。図33Bは、eHCCとiHCCとを区別するためにt|G<>a|Cを使用したROC曲線を示す。図33Cは、iHCCとaHCCとを区別するためにt|G<>a|Cを使用したROC曲線を示す。図33Dは、eHCCとaHCCを区別するためにt|G<>a|Cを使用したROC曲線を示す。
【0142】
図34A~34Dは、中期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。図34Aは、3つのHCCステージについてのc|G<>a|T%の箱ひげ図を示す。示されるように、c|G<>a|T%は、がんのステージとともに徐々に増加する。図34Bは、eHCCとiHCCとを区別するためにc|G<>a|Tを使用したROC曲線を示す。図34Cは、iHCCとaHCCとを区別するためにc|G<>a|Tを使用したROC曲線を示し、1のAUCが達成された。図34Dは、eHCCとaHCCとを区別するためにc|G<>a|Tを使用したROC曲線を示す。
【0143】
図35A~35Dは、初期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。図35Aは、3つのHCCステージについてのc|T<>a|A%の箱ひげ図を示す。示されるように、c|T<>a|A%は、がんのステージとともに徐々に増加する。図35Bは、eHCCとiHCCとを区別するためにc|T<>a|Aを使用したROC曲線を示す。図35Cは、iHCCとaHCCとを区別するためにc|T<>a|Aを使用したROC曲線を示す。図35Dは、eHCCとaHCCとを区別するためにc|T<>a|Aを使用したROC曲線を示し、1のAUCが達成された。
【0144】
図36A~36Dは、初期HCCと進行HCCとを区別する際の、最良の性能の二末端-1および+1位モチーフの性能結果を提供する。図36Aは、3つのHCCステージについてのa|A<>c|T%の箱ひげ図を示す。示されるように、a|A<>c|T%は、がんのステージとともに徐々に増加する。図36Bは、eHCCとiHCCとを区別するためにa|A<>c|Tを使用したROC曲線を示す。図36Cは、iHCCとaHCCとを区別するためにa|A<>c|Tを使用したROC曲線を示す。図36Dは、eHCCとaHCCとを区別するためにa|A<>c|Tを使用したROC曲線を示し、1のAUCが達成された。
【0145】
B.SLE
いくつかの実施形態はまた、自己免疫障害のレベルを病理(例えば、全身性エリテマトーデス、SLE)として分類することができる。バイサルファイト配列決定を、34個の試料(10個の対照、10個の非活動性SLE、14個の活動性SLE)に対して実施した。SLE活動性は、SLEDAI(Systemic Lupus Erythematosus Disease Activity Index)によって決定した。
【0146】
1.+1末端モチーフ対
図37A~37Dは、本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のC<>Cの性能を示す。断片タイプC<>Cは、対照と活動性SLEとを区別するための最良の二末端+1位モチーフである。
【0147】
図38A~38Dは、本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のA<>Aの性能を示す。断片タイプA<>Aは、対照と非活動性SLE、および非活動性SLEと活動性SLEとを区別するための最良の二末端+1位モチーフである。
【0148】
2.+2末端モチーフ対
対照、非活動性SLE、および活動性SLEを区別するための、最良の性能の二末端+2断片タイプが、表2に提供される。特定の断片タイプの箱ひげ図およびROC曲線も提供される。
【表2】
【0149】
図39A~39Dは、本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のGT<>TGの性能を示す。断片タイプGT<TGは、対照と非活動性SLEとを区別するための最良の二末端+2位モチーフである。示されるように、図39Aは、対照(CTR)と非活動性SLEとの間の良好な分離を示し、これは、CTRと非活動性SLEとを区別するための0.95のAUCをもたらす。
【0150】
図40A~40Dは、本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のTG<>CCの性能を示す。断片タイプTG<CCは、対照と活動性SLEとを区別するための最良の二末端+2位のモチーフと並んだ。示されるように、図40Aは、3つすべての分類間で良好な分離を示し、CTRと活動性SLEとの間で100%の精度を有する。
【0151】
図41A~41Dは、本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のTG<>GGの性能を示す。断片タイプTG<GGは、非活動性SLEと活動性SLEとを区別するための最良の二末端+2位モチーフである。示されるように、図41Aは、同様の中央値を有するCTRおよび非活動性SLEを示す。しかしながら、図41Aは、非活動性SLEと活動性SLEとの間の良好な分離を示し、これは、非活動性SLEと活動性SLEとを区別するための0.929のAUCをもたらす。
【0152】
3.-1および+1末端モチーフ対
対照、非活動性SLE、および活動性SLEを区別するための、最良の性能の二末端-1および+1断片タイプが、表3に提供される。特定の断片タイプの箱ひげ図およびROC曲線も提供される。
【表3】
【0153】
図42A~42Dは、本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のc|A<>a|Aの性能を示す。断片タイプc|A<>a|Aは、対照と非活動性SLEとを区別するための最良の二末端-1および+1位モチーフである。示されるように、図42Aは、対照(CTR)と非活動性SLEとの間の良好な分離を示し、これは、CTRと非活動性SLEとを区別するための0.95のAUC(図42B)をもたらす。断片タイプc|A<>a|Aもまた、対照と活動性SLEとを区別するための最良の二末端-1および+1位のモチーフと並んだ。示されるように、図42Cは、CTRと活動性SLEとの間で100%の精度を示す。
【0154】
図43A~43Dは、本開示の実施形態による、対照、非活動性SLE、および活動性SLEを区別する際のg|C<>g|Cの性能を示す。断片タイプg|C<>g|Cは、非活動性SLEと活動性SLEとを区別するための最良の二末端-1および+1位モチーフである。示されるように、図43Aは、非活動性SLEと活動性SLEとの間の良好な分離を示し、これは、非活動性SLEと活動性SLEとを区別するための0.921のAUC(図43D)をもたらす。
【0155】
異なる断片タイプを組み合わせて使用して、どの分類が正しいかを判断することができる。例えば、最良の性能の断片タイプ(または十分な精度を有する断片タイプ)が、3つの一対比較の各々、例えば、その比較のための2つの分類を区別する参照値との比較に使用され得る。次いで、3つの比較のうち2つが同じ分類を提供する場合、その分類が使用され得る。別の例として、2つの比較のみが必要とされる。例えば、対照と非活動性との比較が最初に実施され得る。次いで、第1の分類が対照である場合、対照と活動性との比較を実施して、対照の分類を確認することができる。第1の分類が非活動性である場合、非活動性と活動性との比較を実施して、非活動性の分類を確認することができる。第2の分類が第1の分類とは異なる場合、第3の一対比較を実施して、第3の分類が第2の分類と一致するかを判断することができる。他の例では、決定木、SVM、または他の機械学習手技術が使用され得る。
【0156】
V.精度に対する配列決定深度の影響
このセクションでは、精度に対する配列決定深度の影響について考察する。セクションIIの分析では、2億1500万の対リード数の中央値(範囲:9700万~16億8100万)を使用した。しかしながら、より少ないリードが十分な精度を提供し得、それによってより少ない配列決定およびより小さな試料を可能にする。
【0157】
図44A~44Bは、本開示の実施形態による、各試料においてより少ない断片(2000万個の断片)を使用して、非がんとHCCとを区別する際のC<>C断片の性能を示す。図44Aの箱ひげ図は、分析されたDNA断片がより少ないにもかかわらず、図7Dの箱ひげ図と同様であり、図44BのROC曲線は、図7CのROC曲線と同様である。したがって、図44A~44Bは、より浅い配列決定深度を用いても、良好な精度が依然として得られることを示す。例えば、0.909のAUCは、2000万個の断片で達成される。
【0158】
異なる数の断片を使用して、性能のさらなる調査を実施した。リードの数を増加し、これは、例えばAUCで測定したときに試験の性能を向上させた。ダウンサンプリング分析を実施することによって、配列決定深度が低い試料での二末端CC<>CC%の性能を示す。
【0159】
図45は、本開示の実施形態による、ダウンサンプリング分析を通して推定された、配列決定された断片の総数の関数としてCC<>CC断片を使用して達成可能なAUCを示すグラフである。各試料の配列決定された断片から、リードのより小さなサブセットがランダムにサンプリングされ、CC<>CC%分析を行ってAUCを取得した。リードのより小さなサブセットごとに、ランダムサンプリングを20回行った。CC<>CC%分析に必要な配列決定リードの下限を例示するために、リードの徐々により小さなサブセットをサンプリングした。
【0160】
図45中、5,000個の断片が配列決定され、達成されたAUC中央値は、0.9を超える。配列決定される断片の数が増加すると、CC<>CC%分析で達成されるAUCの変動が低減される。したがって、5,000個の断片ですでに、実施形態は、合理的な精度でがんの異なる分類を区別することができる。上記のように、1マイクロリットル未満、およびさらには5,000個の断片の場合は約1ナノリットルの試料が使用され得る。さらに、例えば、非侵襲的な出生前異数性試験で配列決定された典型的な500万個の断片と比較して、5,000個の断片を配列決定する場合、時間およびコストは比較的低くなり得る。
【0161】
VI.末端モチーフ対を使用した病理スクリーニング
上記の説明によると、いくつかの実施形態は、対象の生物学的試料を分析して病理のレベルを決定する方法を提供し得、生物学的試料は、例えば、血漿または血清中に存在するような無細胞DNAを含む。病理の例には、肝臓病理(例えば、HBVによる慢性肝炎もしくは肝硬変、またはHCC)、ならびに他のがんなどの他の臓器の他の病理が含まれる。別の例には、SLEなどの自己免疫疾患が含まれる。
【0162】
A.病理スクリーニングのための方法
図46は、本開示の実施形態による、無細胞DNA(cfDNA)断片の末端モチーフ対を使用して病理のレベルを決定するための方法を示すフローチャートである。病理のレベルは、対象の生物学的試料から決定され得、生物学的試料は、正常組織(すなわち、病理によって影響を受けない細胞)に由来するcfDNA断片、および病理によって影響を受ける(例えば、病理が対象に存在する場合の)病変組織に由来する潜在的なcfDNA断片の混合物を含む。病変組織に由来するcfDNA断片は、臨床的関連DNAとみなされ得、正常組織は、他のDNAとみなされ得る。方法4600および本明細書に記載の任意の他の方法の態様は、コンピュータシステムによって実施され得る。
【0163】
ブロック4610で、配列リードを取得するために生物学的試料由来の複数の無細胞DNA断片が分析される。配列リードは、複数の無細胞DNA断片の末端に対応する末端配列を含む。例として、配列リードは、配列決定またはプローブベースの技術を使用して取得され得、これらのいずれかは、例えば、増幅または捕捉プローブを介した濃縮を含み得る。
【0164】
配列決定は、様々な方法で、例えば、超並列配列決定または次世代シーケンシングを使用して、単一分子配列決定を使用して、および/または二本鎖もしくは一本鎖DNA配列決定ライブラリ調製プロトコルを使用して、実施され得る。当業者は、使用され得る様々な配列決定技術を理解するであろう。配列決定の一部として、配列リードの一部が細胞核酸に対応し得ることが可能である。配列決定は、例えば本明細書に記載されるような標的化配列決定であり得る。例えば、生物学的試料は、特定の領域由来のDNA断片について濃縮され得る。濃縮は、例えば参照ゲノムによって定義されるように、ゲノムの一部または全体に結合する捕捉プローブを使用することを含み得る。
【0165】
統計的に有意な数の無細胞DNA分子は、画分濃度の正確な決定を提供するために分析され得る。いくつかの実施形態において、少なくとも1,000個の無細胞DNA分子が分析される。他の実施形態において、少なくとも10,000個または50,000個または100,000個または500,000個または1,000,000個または5,000,000個、またはそれより多い無細胞DNA分子が分析され得る。
【0166】
ブロック4620で、複数の無細胞DNA断片のそれぞれについて、配列モチーフの対が、無細胞DNA断片の末端配列について決定される。これらの末端モチーフ対は、例えば、1mer、2merなど、本明細書に記載の異なるタイプの断片に対応し得る。末端モチーフ対は、合計K+M=N塩基のために、一方の末端にK塩基位置(例えば、1、2、3、4、5、6など)、およびもう一方の末端にM塩基位置(例えば、1、2、3、4、5、6など)を含むことができる。特定の末端モチーフは、本明細書に記載されるように、切断部位の反対側の位置を含むことを含むことができる。したがって、1つ以上の配列モチーフ対のセットは、一方の末端のK塩基およびもう一方の末端のM塩基で構成される、N塩基位置を含むことができる。例として、末端モチーフ対は、DNA断片の末端の配列を分析すること(例えば、断片全体の配列リードの対もしくは単一の配列リードを使用して)、信号を特定のモチーフ対と相関させること(例えば、プローブが使用される場合)、および/または図1の技術160もしくは図4Cに記載されるように、配列リードを参照ゲノムにアラインメントすることによって決定され得る。
【0167】
例えば、配列決定デバイスによる配列決定後、配列リードは、例えば、有線または無線通信または取り外し可能な記憶デバイスを介して配列決定を実施する配列決定デバイスに通信可能に結合され得るコンピュータシステムによって受信され得る。いくつかの実装において、核酸断片の両端を含む1つ以上の配列リードが受信され得る。DNA分子の位置は、DNA分子の1つ以上の配列リードをヒトゲノムのそれぞれの部分、例えば、特定の領域にマッピングする(アラインメントする)ことによって決定され得る。他の実施形態において、特定のプローブ(例えば、PCRまたは他の増幅後)は、特定の蛍光色などを介して位置または特定の末端モチーフを示し得る。2つの色の特定の組み合わせ(信号の例)は、末端モチーフの特定の対を示し得る。同定は、無細胞DNA分子が配列モチーフ対のセットのうちの1つに対応することであり得る。
【0168】
ブロック4630で、無垢数の無細胞DNA断片の末端配列に対応する1つ以上の配列モチーフ対のセットの1つ以上の相対頻度が決定される。配列モチーフ対の相対頻度は、配列モチーフ対に対応する末端配列の対を有する複数の無細胞DNA断片の割合を提供し得る。相対頻度の例は、本開示全体を通して説明されている。
【0169】
1つ以上の配列モチーフ対のセットは、病理の既知のレベルを有する参照(訓練)試料の参照(訓練)セットを使用して同定され得る。参照試料のセットの例は、セクションIIで使用される96個の試料であり、これは、モデルを訓練するために使用される特定の末端モチーフ対を決定するために使用され得、例えば、感度および特異度の基準を満たす参照値を決定する。特定の末端モチーフ対が、分類を区別するための差に基づいて選択され得る(例えば、絶対またはパーセンテージの差が最も大きい末端モチーフ対を選択するため)。例えば、1つ以上の配列モチーフ対のセットは、2つの分類された参照試料間で最大の差を有する上位L個の配列モチーフ対、例えば、最大の正の差(例えば、上位1、2、3個など、もしくは他の数)または最大の負の差を示すモチーフであり得る。Lは、1以上の整数であり得る。上位の配列モチーフ対(すなわち、末端モチーフ対)を使用することは、特定の断片タイプのすべての可能な組み合わせのサブセットを使用する例である。
【0170】
特定のタイプの配列モチーフ対の組み合わせのすべてまたはサブセット、またはさらには様々なタイプにわたる組み合わせ(すべてもしくはサブセット)が使用され得る。したがって、1つ以上の配列モチーフ対のセットは、N塩基のすべての組み合わせ(一方の末端のKおよびもう一方の末端のM)を含むことができ、Nは、2以上の整数である。別の例として、1つ以上の配列モチーフ対のセットは、1つ以上の参照試料において生じる上位J個の最も頻度の高い配列モチーフ対であり得、Jは、1以上の整数である。
【0171】
ブロック4640で、1つ以上の配列モチーフ対のセットの相対頻度の集計値が決定される。例えば、K個の末端モチーフ対のセットについて、1つの相対頻度自体、相対頻度の合計、および参照データ点(参照試料から決定された参照パターン)と相対頻度のベクトルに対応する多次元データ点との間の距離を含む、例示的な集計値が、本開示全体を通して記載される。したがって、1つ以上の配列モチーフ対のセットが複数の配列モチーフを含む場合、集計値は、セットの相対頻度の合計を含み得る。合計は、加重和であり得、例えば、より高い区別を提供する相対頻度(例えば、AUCによって決定されるような)は、より高く重み付けされ得る。
【0172】
別の例として、集計値は、相対頻度の参照パターン(データ点)からの多次元データ点の差(例えば、距離)を含むことができる。したがって、複数の相対頻度の集計値を決定することは、複数の相対頻度の各々と参照パターンの参照頻度との間の差を決定することを含み得、集計値は、差の合計を含む。参照パターンの参照頻度は、既知の分類を有する1つ以上の参照試料から決定され得る。
【0173】
距離は、ユークリッド距離であり得るか、または異なる次元、例えば、より高い区別を提供する末端モチーフの次元に対して重み付けされ得る。この距離は、クラスタリング、サポートベクターマシン(SVM)、または他の機械学習モデルで使用され得る。参照パターンは、参照試料の訓練セットから確立され得る。病理のレベルの所与の分類の参照パターンは、その分類を有するデータ点のクラスターの重心として決定され得る。集計値は、そのような距離、例えば、機械学習モデルにおける差または最終もしくは中間出力(例えば、ニューラルネットワークにおける中間層もしくは最終層)から決定される確率から導出され得る。そのような値は、2つの分類間のカットオフ(次のブロックの参照値)と比較され得るか、または所与の分類の代表値と比較され得る。様々な実装において、機械学習モデルは、クラスタリング、ニューラルネットワーク、SVM、またはロジスティック回帰を使用する。
【0174】
ブロック4650で、集計値と参照値との比較に基づいて、対象についての病理のレベルの分類が決定される。例として、レベルは、病理(例えば、がん)なし、初期ステージ、中期ステージ、または進行ステージであり得る。その後、分類はレベルの1つを選択し得る。したがって、分類は、病理(例えば、がんまたはSLE)の複数のステージを含む病理の複数のレベルから決定され得る。参照値は、例えば、本明細書に記載のROC曲線を使用して、参照試料から決定され得る。例として、病理はがんであり、がんは、肝細胞がん、肺がん、乳がん、胃がん、多形性神経膠芽細胞腫、膵臓がん、結腸直腸がん、上咽頭がん、および頭頸部扁平上皮細胞がん、または本明細書で言及される他のがんであり得る。疾患(例えば、がん)のステージは、転帰、予後、寛解、生存、または治療に対する応答と関連し得るため、実施形態は、医療において貴重な有用性を有する。
【0175】
いくつかの実施形態において、無細胞DNAは、複数の無細胞DNA断片を同定するために、1つ以上の基準を使用してフィルタリングされる。フィルタリングの例は、以下に提供される。例えば、フィルタリングは、メチル化(密度または特定の部位がメチル化されているかどうか)、サイズ、またはDNA断片が由来する領域に基づき得る。無細胞DNAは、特定の組織のオープンクロマチン領域由来のDNA断片についてフィルタリングされ得る。
【0176】
上記のように、2つ以上の末端モチーフ対の相対頻度を組み合わせて集計値を決定すると、より良好な性能を達成することができる。さらに、またはあるいは、1つ以上の末端モチーフ対の異なるセットの分類は、例えば、アンサンブル技術において組み合わされ得る。アンサンブル技術の例には、投票(多数決、バギングで行われ得る投票の等しい重み、および訓練セットまたは集団における分類の尤度による重み付け)、平均化、ならびにブースティングが含まれる。
【0177】
いくつかの実施形態において、1つ以上の末端モチーフ対の第1のセットを使用して、第1の分類、例えば、病理が存在するかどうかを決定することができる。例えば、C<>Cは、がんが存在するかどうかを判断する第1のパスで使用され得る。次いで、ブロック4630~4650を、1つ以上の末端モチーフ対の第2のセットについて繰り返して、病理(例えば、がん)の異なるステージを区別することができる。例えば、A<>Tを使用して、がんの初期、中期、および進行ステージを区別することができる。したがって、複数の無細胞DNA断片の末端配列に対応する1つ以上の追加の配列モチーフ対のセットの相対頻度の1つ以上の1つ以上の追加の相対頻度が、決定され得る。また、1つ以上の追加の配列モチーフ対のセットの1つ以上の追加の相対頻度の追加の集計値が、決定され得る。対象についてのがんのステージは、追加の集計値と追加の参照値との比較に基づいて決定され得る。がんのステージを区別するための例は、セクションIV.Aに提供される。
【0178】
複数の分類が、配列モチーフ対の複数のセットについて実施され得、各セットが分類を提供する。これらの分類は、組み合わされ得る(例えば、アンサンブル技術で)。したがって、ブロック4650における分類は、第1の分類であり得、1つ以上の追加の分類が、配列モチーフ対の1つ以上の追加のセットについて決定され得る。次いで、第1の分類および1つ以上の追加の分類を使用して、例えば、多数決を介して、最終の分類が決定され得るか、または所与の分類についての確率が、様々な分類から決定され得る。
【0179】
さらに、そのような二末端分析は、他の分類、例えば、コピー数異常、メチル化シグネチャ、または配列変異と組み合わされて、性能を改善し得る。そのような分類は、アンサンブル技術で組み合わされ得る。
【0180】
B.他の技術との比較
他の研究でも、HCCと非HCCとを区別するためにcfDNAを分析している。Jiang et al.は、HCC患者の血漿の高深度配列決定を使用して、腫瘍に関連する優先末端座標を同定した(9)。非腫瘍関連の優先末端に対する腫瘍関連の比率を使用して、0.88のAUCで非HCCとHCCとを区別した。Jiang et al.による研究は、いくつかの点で方法4600とは異なる:1)特定の腫瘍および非腫瘍関連ゲノム座標を取得するために、HCC患者およびHBVキャリアのcfDNAの高深度配列決定を必要とした、2)断片を参照ゲノムに再びアラインメントすることが必要とされる、ならびに3)特定のゲノム座標にアラインメントする断片のいずれかの末端を一末端としてカウントした。
【0181】
別の技術は、5’末端の4merモチーフを使用して、がんと非がんとを区別することができる。4merモチーフ頻度は、断片の各リードの5’末端を別々に考慮することによって計算され得る(各断片について2つ)。例として、特定のモチーフを使用するか、またはモチーフ多様性スコア(MDS)と称される4merモチーフから導出されたエントロピースコアを使用して、0.856のAUCでHCCと非HCCとを区別することができる。MDSは、分散の一例である。モチーフ(例えば、4merについて合計256個のモチーフ)の頻度の分布を分析するために、MDSの1つの定義は次の方程式を使用する:
【数1】
式中、Piは特定のモチーフの頻度であり、エントロピー値が高いほど、多様性が高い(すなわち、ランダム性が高い)ことを示す。
【0182】
図47は、本開示の実施形態による、同じ非HCCおよびHCCデータセットに対する異なる分析方法からの複数のROC曲線を示す。各方法のAUCも示される。P値は、MDSと比較した様々なAUCの真の差を試験する。データセットは、セクションIIで使用されたものと同じである。
【0183】
箱ひげ図の各線は、異なる技術、例えば、異なるモチーフ、両端が使用されているかまたは片方の末端のみが使用されているかどうか、およびMDSに対応する。線4710は、c|T<>c|Cに対応する。線4720は、CC<>CCに対応する。線4730は、C<>Cに対応する。線4740は、一方の末端のCに対応する。線4750は、一方の末端のCCに対応する。線4760は、一方の末端のCCCAに対応する。線4770は、MDSに対応する。
【0184】
MDSと比較し、分析に各端を別々に使用して(1端分析として示される)、1つ以上のタイプ(末端モチーフ対の指定されたセットを有する断片)の相対量を使用した二末端分析は、HCCデータセットにおいて性能がより良好である。c|T<>c|C%についてのAUCは0.917であり、CC<>CC%についてのAUCは0.916であり、C<>C%についてのAUCは0.910である。C%の1末端分析についてのAUCは0.882であり、CC%については0.881%であり、CCCA%については0.876であり、MDSについては0.856である。c|T<>c|C%、CC<>CC%、およびC<>C%分析から達成されたAUCは、MDSのAUCとは有意に異なる(それぞれ、p値0.02、0.0009、および0.0178)。
【0185】
他のタイプのがんにおいて、二末端分析とMDSと1末端分析との間でも比較を行った。
【0186】
図48~50Bは、本開示の実施形態による、30の対照および40のCRC、LUSC、NPC、およびHNSCCを含む他のがんを有するデータセットの異なる分析方法からの複数のROC曲線を示す。各方法のAUCも示される。データセットは、セクションIIIで使用されたものと同じである。
【0187】
図48は、様々な方法について、がんと非がんとを集合的に区別するための性能を示す。線4810は、g|G<>a|Tに対応する。線4820は、a|C<>t|Cに対応する。線4830は、MDSに対応する。線4840は、C<>Cに対応する。線4850は、一方の末端のCCCAに対応する。線4860は、CC<>CCに対応する。40個の他のがんを含むこのデータセットでは、g|G<>a|Tおよびa|C<>t|C断片%は、それぞれ0.914および0.830のAUCで良好な性能を有する断片タイプの例である。CC<>CC%、MDSの0.773と比較して0.777のAUCを有する。
【0188】
図49Aは、本開示の実施形態による、対照とNPCとを区別する際の様々な方法の性能を示す。線4910は、MDSに対応する。線4920は、C<>Cに対応する。線4930は、一方の末端のCCCAに対応する。線4940は、CC<>CCに対応する。NPCについて、CC<>CC%を使用してがんと非がんとを区別する能力は、0.833のAUCを有する。
【0189】
図49Bは、本開示の実施形態による、対照とHNSCCとを区別する際の様々な方法の性能を示す。線4950は、MDSに対応する。線4960は、C<>Cに対応する。線4970は、一方の末端のCCCAに対応する。線4980は、CC<>CCに対応する。HNSCCについて、CC<>CC%を使用してがんと非がんとを区別する能力は、0.913のAUCを有する。
【0190】
図50Aは、本開示の実施形態による、対照とCRCとを区別する際の様々な方法の性能を示す。線5010は、MDSに対応する。線5020は、C<>Cに対応する。線5030は、一方の末端のCCCAに対応する。線5040は、CC<>CCに対応する。CRCについて、MDSは、0.76のAUCで性能が最良であった。
【0191】
図50Bは、本開示の実施形態による、対照とLUSCとを区別する際の様々な方法の性能を示す。線5050は、MDSに対応する。線5060は、C<>Cに対応する。線5070は、一方の末端のCCCAに対応する。線5080は、CC<>CCに対応する。HNSCCについて、MDSは、0.77のAUCで性能が最良であった。CRCおよびLUSCについて、CC<>CC%でがんと非がんとを区別することは可能であるが、AUCは、MDSよりも低い。
【0192】
VII.臨床的関連DNAの画分濃度
二末端分析の別の用途は、胎児DNA分子と母体DNA分子とを区別することである。胎児分子と母体分子とを区別する際の二末端分析の可能性を評価するために、既知の胎児分子と母体分子との間で断片タイプのパーセンテージの差が検出され得るかどうかを調べる。他の実施形態は、他の臨床的関連DNA、例えば、腫瘍および移植の画分濃度を決定し得る。
【0193】
A.胎児濃度
胎児および母体分子を、母親がホモ接合(AA)で、胎児がヘテロ接合(AB)である有益な一塩基多型(SNP)部位を使用することによって同定した。胎児特異的分子は、胎児特異的対立遺伝子(B)を担持する。共有対立遺伝子(A)を担持する分子は、主に母体由来のDNA分子を表し、これは、胎児DNA分子が一般に、母体血漿DNAのごく一部しか占めていないためである。
【0194】
血漿および母体バフィーコート試料を、妊娠初期(12~14週、n=10)、妊娠中期(20~23週、n=10)、および妊娠後期(38~40週、n=10)の妊婦から取得した。血漿およびバフィーコートの試料を、合計30人の妊婦(各妊娠期の10人)から取得した。マイクロアレイプラットフォーム(Human Omni2.5、Illumina)を使用して、母体バフィーコートおよび胎児試料の遺伝子型を決定し、一致した血漿DNA試料を配列決定した。当業者は、他の遺伝子型決定技術およびプラットフォームが使用され得ることを理解するであろう。母親がホモ接合(AA)で、胎児がヘテロ接合(AB)であった195,331個の有益なSNPの中央値(範囲:146,428~202,800)を発見した。マッピングされた対末端リードの1億300万の中央値(範囲:5200万~1億8600万)が、各状況について取得された。これらの試料の間の胎児DNA画分中央値は、17.1%(範囲:7.0%~46.8%)であった。
【0195】
1.共有対立遺伝子と胎児対立遺伝子との間の区別
このデータセットから、胎児(Spec)分子と母体(共有)分子とを区別する際の二末端分析の性能を試験した。特定の二末端断片タイプのパーセンテージを分析して、有益な部位のいずれかにおいて、共有対立遺伝子(共有)を有するDNA断片と胎児特異的対立遺伝子(Spec)を有するDNA断片との間の割合の差を検出した。共有対立遺伝子についての任意の所与の断片タイプのパーセンテージは、共有対立遺伝子を有するDNA断片の総数を使用して決定される。胎児特異的対立遺伝子の任意の所与の断片タイプのパーセンテージは、胎児特異的SNPを有するDNA断片の総数を使用して決定される。
【0196】
図51A~51Bは、本開示の実施形態による、胎児特異的分子と共有分子とを区別する際の二末端分析を示す。図51Aは、共有対立遺伝子(共有)を有する断片のすべてのうちのCC<>CCを有する断片のパーセンテージ、および胎児特異的対立遺伝子(Spec)を有する断片のすべてのうちのCC<>CCを有する断片のパーセンテージを示す。線は、同じ試料の2つのデータ点を接続する。示されるように、パーセンテージは、一般に、共有対立遺伝子から胎児特異的対立遺伝子へと増加する。図51Bは、共有対立遺伝子(共有)を有する断片のすべてのうちのC<>Cを有する断片のパーセンテージ、および胎児特異的対立遺伝子(Spec)を有する断片のすべてのうちのC<>Cを有する断片のパーセンテージを示す。CC<>CCの性能は、C<>Cよりも良好である。
【0197】
2merを有する二末端分析を使用すると、胎児特異的分子と共有分子とを区別することが可能である。CC<>CC%を使用する一実施形態は、共有分子よりも胎児特異的分子において有意に高い(ペアウィルコクソンの符号順位U検定、P値=0.002)。したがって、断片上のCC<>CCの存在は、断片が胎児からのものである尤度がより高いことを示す。様々な実施形態は、そのような尤度の増大を様々な方法で、例えば、胎児DNA画分の濃度を測定するか、または母体DNA断片をフィルタリングして取り除くために、例えば、胎児起源のものについてcfDNA断片(配列リード)の試料を濃縮するために使用することができる。そのような濃縮は、例えば、領域の異数性または欠失/増幅を検出するための、より正確な測定を可能にすることができる。
【0198】
2.胎児cfDNA画分との関係
胎児細胞に由来する特定の二末端断片タイプの尤度がより高いことを所与として、実施形態は、そのような関係を利用して、無細胞DNA試料中の胎児DNA画分を測定することができる。例えば、特定のタイプの試料の胎児DNA画分、例えば、胎児が男性であるため、Y染色体からのDNA断片が胎児特異的である場合、または上記のように、胎児特異的対立遺伝子が同定されている場合を知ることができる。次いで、既知の(較正)試料中の胎児DNA画分と特定の断片タイプの割合との間で一致が決定されると、新しい試料中の断片タイプの割合の新しい測定は、胎児DNA画分を提供することができる。
【0199】
図52Aは、本開示の実施形態による、二末端C<>C%と胎児DNA画分との間の関数関係を示す。横軸は、前のセクションに記載された胎児特異的SNPを使用して測定された胎児DNA画分である。縦軸は、試料中のC<>C断片のパーセンテージである。示されるように、各タイプの断片が等しく表現されている場合、C<>C断片のパーセンテージは、1/16よりも高い。したがって、統計的に安定した測定を行うのに十分な数のDNA断片は、より低い範囲の含有量を有する他の断片タイプと比較して、比較的小さな試料で作られ得る。図52AのC<>C%は、共有対立遺伝子および胎児特異的対立遺伝子を有するDNA断片を使用して決定される。
【0200】
C<>C断片のパーセンテージは、較正データ点3605に適合する線形関数である較正関数の正の傾きによって示されるように、胎児DNA画分とともに増加する。較正データ点の各々は、胎児DNA画分の測定値(例えば、胎児特異的対立遺伝子を使用)、および較正値の例であるC<>C断片%の測定値を含む。C<>C断片のパーセンテージがより高い場合、胎児DNA画分は、より高くなる。較正関数3610を使用すると、C<>Cについての約11%の測定値を使用して、胎児DNA画分を約30%と推定することができる。したがって、C<>C%を有する二末端分析は、胎児画分を推定するための有用なメトリックである。C<>C%についての胎児画分の相関は、R=0.38(P値=0.0373)である。
【0201】
図52Bは、本開示の実施形態による、二末端CC<>CC%と胎児DNA画分との間の関数関係を示す。そのような関数関係は、図52Aと同様の方法で使用され得る。CC<>CCは、DNA断片間のより良好な区別を提供することができるが、C<>C断片のより高い割合は、胎児DNA画分とのより安定した関数関係を提供し得る。この点で、C<>C断片対CC<>CC断片の割合を比較すると、分子の量が約3分の1に低減する。
【0202】
同様の分析は、他のタイプの臨床的関連DNAについて、例えば、腫瘍DNAまたは移植された臓器からのDNAについて実施され得る。
【0203】
B.他の臨床的関連DNAの濃度
臨床的関連DNAには、腫瘍DNAも含まれ得る。いくつかの実施形態は、胎児濃度が上記で決定されるのと同様の方法で、試料中の腫瘍DNA濃度を決定することができる。
【0204】
図53は、本開示の実施形態による、C<>G%と腫瘍濃度との間の関数関係を示す。HCC試料において、IchorCNA(Adalsteinsson et al,Nat Commun.2017;8:1324)を使用して、コピー数変化(CNA)から腫瘍濃度を独立して推定した。HCC試料のうち、12個の試料のみが、腫瘍濃度を推定するために、IchorCNAに十分なCNAを有した。IchorCNA腫瘍画分との相関が最良の二末端1mer断片のパーセンテージが示される。腫瘍濃度が増加すると、C<>G%は減少する。R値は、0.74である。腫瘍濃度への依存性は、非常に良好である。較正関数は、図53中で線形関数として提供される。
【0205】
C.移植DNAと宿主DNAとの区別
臨床的関連DNAには、移植DNAも含まれ得る。いくつかの実施形態は、胎児および腫瘍濃度が上記で決定されるのと同様の方法で、試料中の移植DNA濃度を決定することができる。
【0206】
1.肝臓
二末端分析を、12件の肝臓移植症例について実施した。ドナー特異的SNPを使用して、肝臓特異的断片を同定した。断片タイプのパーセンテージを、ドナー特異的断片と共有SNPを有する断片との間で比較した。最も有意な差を有する5つの断片タイプが、以下に提供される。P値は、ウィルコクソンの符号順位検定によって提供される。
【0207】
図54Aは、共有対立遺伝子(共有)を有する断片のすべてのうちのA<>Tを有する断片のパーセンテージ、およびドナー特異的対立遺伝子(Spec)を有する断片のすべてのうちのA<>Tを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと増加する。2つのデータセット間のP=0.001の統計的差異(現在のデータで最良)は、2つのタイプの組織:宿主と移植についてのA<>T%値の間の区別を示す。
【0208】
図54Bは、共有対立遺伝子(共有)を有する断片のすべてのうちのC<>Gを有する断片のパーセンテージ、およびドナー特異的対立遺伝子(Spec)を有する断片のすべてのうちのC<>Gを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと減少する。2つのデータセット間のP=0.002の統計的差異は、2つのタイプの組織:宿主と移植についてのC<>G%値の間の区別を示す。
【0209】
図54Cは、共有対立遺伝子(共有)を有する断片のすべてのうちのT<>Tを有する断片のパーセンテージ、およびドナー特異的対立遺伝子(Spec)を有する断片のすべてのうちのT<>Tを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと増加する。2つのデータセット間のP=0.007の統計的差異は、2つのタイプの組織:宿主と移植についてのT<>T%値の間の区別を示す。
【0210】
図55Aは、共有対立遺伝子(共有)を有する断片のすべてのうちのC<>Cを有する断片のパーセンテージ、およびドナー特異的対立遺伝子(Spec)を有する断片のすべてのうちのC<>Cを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと減少する。2つのデータセット間のP=0.01の統計的差異は、2つのタイプの組織:宿主と移植についてのC<>C%値の間の区別を示す。
【0211】
図55Bは、共有対立遺伝子(共有)を有する断片のすべてのうちのG<>Gを有する断片のパーセンテージ、およびドナー特異的対立遺伝子(Spec)を有する断片のすべてのうちのG<>Gを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと減少する。2つのデータセット間のP=0.007の統計的差異は、2つのタイプの組織:宿主と移植についてのG<>G%値の間の区別を示す。
【0212】
2.腎臓
二末端分析を、12件の腎臓移植症例について実施した。断片タイプのパーセンテージを、ドナー特異的断片と共有SNPを有する断片との間で比較した。最も有意な差を有する2つの断片タイプが、以下に提供される。P値は、ウィルコクソンの符号順位検定によって提供される。
【0213】
図56Aは、共有対立遺伝子(共有)を有する断片のすべてのうちのA<>Aを有する断片のパーセンテージ、およびドナー特異的対立遺伝子(Spec)を有する断片のすべてのうちのA<>Aを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと増加する。2つのデータセット間のP=0.07の統計的差異は、2つのタイプの組織:宿主と移植についてのA<>A%値の間の区別を示す。
【0214】
図56Bは、共有対立遺伝子(共有)を有する断片のすべてのうちのT<>Tを有する断片のパーセンテージ、およびドナー特異的対立遺伝子(Spec)を有する断片のすべてのうちのT<>Tを有する断片のパーセンテージを示す。示されるように、パーセンテージは、一般に、共有対立遺伝子からドナー特異的対立遺伝子へと増加する。2つのデータセット間のP=0.09の統計的差異は、2つのタイプの組織:宿主と移植についてのT<>T%値の間の区別を示す。
【0215】
D.濃度を決定する方法
上記に従って、いくつかの実施形態は、対象の生物学的試料中の臨床的関連DNA(例えば、胎児または腫瘍DNA)の画分濃度を推定し得、生物学的試料は、臨床的関連DNAと無細胞である他のDNAとの混合物を含む。他の例において、生物学的試料は、臨床的関連DNAを含まない場合があり、推定される画分濃度は、臨床的関連DNAのゼロまたは低いパーセンテージを示し得る。
【0216】
図57は、本開示の実施形態による、対象の生物学的試料における臨床的関連DNAの画分濃度を推定する方法5700を示すフローチャートである。方法5700および本明細書に記載の任意の他の方法の態様は、コンピュータシステムによって実施され得る。
【0217】
ブロック5710で、配列リードを取得するために、生物学的試料由来の複数の無細胞DNA断片が分析される。配列リードは、複数の無細胞DNA断片の末端に対応する末端配列を含み得る。ブロック5710は、ブロック4610と類似の様式で実施してもよい。
【0218】
ブロック5720で、複数の無細胞DNA断片の各々について、無細胞DNA断片の末端配列についての配列モチーフの対が、決定される。ブロック4620は、ブロック5720と類似の様式で実施してもよい。
【0219】
ブロック5730で、無垢数の無細胞DNA断片の末端配列に対応する1つ以上の配列モチーフ対のセットの1つ以上の相対頻度が決定される。配列モチーフ対の相対頻度は、配列モチーフ対に対応する末端配列の対を有する複数の無細胞DNA断片の割合を提供し得る。ブロック5730は、ブロック4630と類似の様式で実施してもよい。
【0220】
1つ以上の配列モチーフ対のセットは、画分濃度が既知である1つ以上の参照試料の参照セットを使用して同定され得る。臨床的関連DNAの画分濃度は、遺伝子型の差を使用して決定され得る。臨床的関連DNAと他のDNA(例えば、健康な個人からのDNA、妊婦からのDNA(母体DNAとも称される)、または移植された臓器を受け取った対象のDNA)との末端モチーフ対の間の差が決定され、画分濃度と組み合わせて使用され得る。特定の末端モチーフ対は、参照試料の画分濃度の差と相関する相対頻度の差に基づいて選択され得る。(例えば、Rなどの適合度によって測定されるように)相関が最良の末端モチーフ対が、使用され得る。末端モチーフ対が、低い頻度を有する場合、より多くの末端モチーフ対をセットに追加して、所与の試料サイズ(例えば、DNA断片の数)の統計的精度を高めることができる。末端モチーフ対が組み合わされる場合、それらはすべて、同じ相関関係を有する、例えば、比例または反比例であるはずである。
【0221】
ブロック5740で、1つ以上の配列モチーフ対のセットの1つ以上の相対頻度の集計値が決定される。1つの配列モチーフ対のみが使用される場合、集計値は、その1つの配列モチーフ対の相対頻度であり得る。他の例示的な集計値は、ブロック4640および本開示全体を通して記載される。
【0222】
ブロック5750で、生物学的試料における臨床的関連DNAの画分濃度の分類は、集計値を1つ以上の較正値と比較することによって決定される。1つ以上の較正値は、臨床的関連DNAの画分濃度が既知の(例えば、測定された)1つ以上の較正試料から決定され得る。比較は、複数の較正値に対してであり得る。比較は、試料における臨床的関連DNAの画分濃度の変化に対する集計値の変化を提供する較正データに適合する較正関数(例えば、図52Aの線5210または図53の線5310)に、集計値を入力することによって生じ得る。別の例として、1つ以上の較正値は、1つ以上の較正試料における無細胞DNA断片を使用して測定される、1つ以上の配列モチーフ対のセットの相対頻度の1つ以上の集計値に対応し得る。
【0223】
較正値は、各較正試料の集計値として計算され得る。較正データ点は、試料ごとに決定され得、較正データ点は、較正値および試料について測定された画分濃度を含む。これらの較正データ点は、方法5700で使用され得るか、または最終的な較正データ点を決定するために(例えば、関数の適合を介して定義されるように)使用され得る。例えば、線形関数は、画分濃度の関数として較正値に適合させ得る。線形関数は、方法5700で使用される較正データ点を定義し得る。新しい試料の新しい集計値は、出力の画分濃度を提供するために比較の一部として関数への入力として使用され得る。したがって、1つ以上の較正値は、複数の較正試料の臨床的関連DNAの画分濃度を使用して決定される較正関数の複数の較正値であり得る。
【0224】
別の例として、新しい集計値は、画分濃度の同じ分類を有する(例えば、同じ範囲内の)試料についての平均集計値と比較され得る。新しい集計値が、別の分類についての平均の較正値よりもこの平均に近い場合、新しい試料は、最も近い較正値と同じ濃度を有すると判断され得る。このような技術は、クラスタリングを実施するときに使用され得る。例えば、較正値は、画分濃度の特定の分類に対応するクラスターについての代表値であり得る。
【0225】
較正データ点の決定は、例えば、以下のように、画分濃度を測定することを含み得る。1つ以上の較正試料の各較正試料について、臨床的関連DNAの画分濃度は、較正試料において測定され得る。1つ以上の配列モチーフ対のセットの相対頻度の集計値は、較正データ点を取得することの一部として較正試料由来の無細胞DNA断片を分析することによって決定され得、それによって1つ以上の集計値を決定する。各較正データ点は、較正試料における臨床的関連DNAの測定された画分濃度および較正試料について決定された集計値を指定し得る。1つ以上の較正値は、1つ以上の集計値であり得るか、または1つ以上の集計値を使用して決定され得る(例えば、較正関数を使用する場合)。
【0226】
画分濃度の測定は、本明細書に記載されるような様々な方法、例えば、臨床的関連DNAに特異的な対立遺伝子を使用することによって、実施され得る。様々な実施形態において、臨床的関連DNAの画分濃度を測定することは、組織特異的対立遺伝子またはエピジェネティックマーカーを使用して、または、例えば、米国特許公開第2013/0237431号に記載されているようなDNA断片のサイズを使用して、実施され得、それは参照によって全体が組み込まれる。組織特異的なエピジェネティックマーカーは、試料における組織特異的なDNAメチル化パターンを示すDNA配列を含み得る。
【0227】
様々な実施形態において、臨床的関連DNAは、胎児DNA、腫瘍DNA、移植された臓器由来のDNA、および特定の組織タイプ(例えば、特定の器官由来)からなる群から選択され得る。臨床的関連DNAは、特定の組織タイプのものであり得、例えば、特定の組織タイプは、肝臓または造血性である。対象が妊婦である場合、臨床的関連DNAは、胎児DNAに対応する胎盤組織であり得る。別の例として、臨床的関連DNAは、がんを有する器官に由来する腫瘍DNAであり得る。
【0228】
VIII.分類および較正
臨床的関連DNAの病理および画分濃度についての分類は、様々な方法で実施され得る。さらなる詳細が、以下に提供される。また、参照値の較正、既知の分類(例えば、画分濃度または既知の病理レベル)を有する試料の参照パターン、および機械学習モデルにおけるそのような使用についてのさらなる詳細が提供される。
【0229】
A.分類技術
上記のように、様々な分類技術が使用され得、集計値は、様々な方法で決定され得る。例えば、異なる末端モチーフ対の相対頻度を含むベクトルが決定され得、例えば、(0.8%、4%、2%、…)として指定され、これは、末端モチーフ対のN個の異なるセットのN個の相対頻度のパターンを形成する。訓練セットにおける各試料は、多次元データ点または参照パターンを定義するベクトルに対応することができる。クラスタリング技術の例には、階層的クラスタリング、重心ベースクラスタリング、分布ベースクラスタリング、密度ベースクラスタリングを含むが、これらに限定されない。異なるクラスターは、2つのタイプのDNA断片(例えば、母体および胎児DNA断片)間の末端モチーフ対の頻度の差により、相対頻度の異なるパターンを有するため、試料における病理の異なるレベルまたは臨床的関連DNAの異なる量に対応し得る。
【0230】
したがって、サポートベクターマシン(SVM)、決定木、単純ベイズ分類、ロジスティック回帰、クラスタリングアルゴリズム、主成分分析(PCA)、特異値分解(SVD)、t分布型確率的近傍埋め込み(tSNE)、人工ニューラルネットワーク、ならびに分類器のセットを構成し、次いでそれらの予測の加重投票を行うことによって新しいデータ点を分類するアンサンブル方法を含むがこれらに限定されない、機械学習(例えば、深層学習)モデルが、N個の血漿DNA末端モチーフ対の相対頻度を含むN次元ベクトルを使用することによって分類器(例えば、がん分類器)を訓練するために使用され得る。一連のがん患者および非がん患者を含む「N次元ベクトルベースマトリックス」に基づいて分類器が訓練されると、新しい患者についてがんになる確率が予測できるようになる。
【0231】
機械学習アルゴリズムのこのような使用において、集計値は、参照値と比較し得る確率または距離(例えば、SVMを使用する場合)に対応し得る。他の実施形態において、集計値は、2つの分類間のカットオフと比較される、または所与の分類の代表値と比較される、モデル(例えば、ニューラルネットワークの初期の層)における初期の出力に対応し得る。
【0232】
図58は、本開示の実施形態による、非がん対象とHCC対象とを区別するための、-1および+1位のヌクレオチドの末端モチーフ対を使用したSVMモデリングのROC曲線を示す。セクションIIと同じデータセットが使用される。0.92のAUCが達成され、これは、C<>CのAUC(図7Cの0.91)のすぐ上であり、AG<>TAのAUC(図14Aの0.938)のすぐ下であり、かつt|C<>c|CのAUC(図19Aおよび19Cの0.0917)とほぼ同じである。
【0233】
SVMモデルの特徴ベクトルには、end2:-1+1の断片タイプについての256個の組み合わせの各々の相対頻度が含まれる。サポートベクターマシンを使用して、非がん患者とHCC対象とを分離した。他の実装において、すべての可能な組み合わせの一部分のみが使用され得る。例えば、上位20、30、50個などの末端モチーフ対(例えば、AUCによって測定されるような)が、使用され得る。
【0234】
B.較正関数
本明細書に記載されるように、参照値は、既知の分類を有する1つ以上の参照(較正)試料を使用して決定され得る。例えば、参照試料は、健康であることが知られ得るか、または病理を有することが知られ得る。他の例として、参照/較正試料は、所与の較正値(例えば、本明細書に記載の量のいずれかを含むパラメータ)について、臨床的関連DNAの既知のまたは測定された画分濃度を有することができる。
【0235】
1つ以上の較正値は、1つ以上の参照値であり得るか、または参照値を決定するために使用され得る。参照値は、分類についての特定の数値に対応することができる。例えば、較正データ点(較正値、およびヌクレアーゼ活性または有効性のレベルなどの測定された特性)を、補間または回帰を介して分析して、較正関数(例えば、線形関数)を決定することができる。次いで、較正関数の点を使用して、測定された量または他のパラメータ(例えば、2つの量間、もしくは測定された量と参照値との間の分離値)の入力に基づいて、入力としての数値分類を決定することができる。そのような技術は、本明細書に記載の方法のいずれにも適用され得る。
【0236】
方法5700の例では、参照値は、それぞれ病理または画分濃度の既知のまたは測定された分類を有する、1つ以上の参照試料を使用して決定され得る。対応する集計値(例えば、ブロック4640または5740の値)は、1つ以上の参照試料で測定され得、それによって参照/較正試料についての2つの測定値を含む較正データ点を提供する。1つ以上の参照試料は、複数の参照試料であり得る。複数の参照試料の測定された有効性および測定された量に対応する較正データ点を、例えば、補間または回帰によって近似する較正関数が決定され得る。
【0237】
IX.フィルタリングおよび濃縮
特定の末端モチーフ対のセットを示す特定の組織由来のDNA断片の選択は、その特定の組織からのDNAの試料を濃縮するために使用され得る。したがって、実施形態は、臨床的関連DNAのために試料を濃縮し得る。例えば、特定の末端配列の対を有するDNA断片のみが、アッセイを使用して配列決定、増幅、および/または捕捉され得る。別の例として、配列リードのフィルタリングが実施され得る。
【0238】
A.区別を改善するためのフィルタリング
特定の基準を使用して、特定のDNA断片(末端モチーフ対による以外)をフィルタリングして、より高い精度、例えば、感度および特異度を提供することができる。例として、二末端分析は、例えば、複数のオープンクロマチン領域のうちの1つ内に完全にまたは部分的にアラインメントするリードによって決定されるように、特定の組織のオープンクロマチン領域に由来するDNA断片に限定され得る。例えば、オープンクロマチン領域と重複する少なくとも1つのヌクレオチドを有する任意のリードは、オープンクロマチン領域内のリードとして定義され得る。典型的なオープンクロマチン領域は、DNase I過敏性部位によると約300bpである。オープンクロマチン領域のサイズは、オープンクロマチン領域を定義するために使用される技術、例えばATAC-seq(トランスポーゼースアクセス可能クロマチン配列決定のためのアッセイ(Assay for Transposase Accessible Chromatin Sequencing))対DNaseI-Seqによって変化し得る。
【0239】
別の例として、特定のサイズのDNA断片が、末端モチーフ分析を実施するために選択され得る。これは、末端モチーフの相対頻度の集計値の分離を増加させ得、それによって精度を向上させる。例えば、指定された長さ、質量、または重量未満のDNA断片が保持され得、より大きい/長い断片が破棄され得る。例として、サイズカットオフは、150bp、200bp、250bp、300bpなどであり得る。そのようなサイズサンプリングは、インシリコで、または電気泳動などの物理的プロセスによって実施され得る。
【0240】
さらなる例は、DNA断片のメチル化特性を使用し得る。胎児および腫瘍DNA分子は、一般に、低メチル化されている。胎児分析は、臨床的関連DNAの画分濃度を決定するために使用され得る。実施形態は、DNA断片のメチル化メトリック(例えば、密度)を決定し得る(例えば、DNA断片上でメチル化される部位の割合または絶対数として)。測定されたメチル化密度に基づく二末端分析において使用するためのDNA断片が選択され得る。例えば、DNA断片は、メチル化密度が閾値を超えている場合にのみ使用され得る。
【0241】
参照ゲノムと比較して、DNA断片が配列多様性(例えば、塩基置換、挿入、または欠失)を含むかどうかも、フィルタリングに使用され得る。
【0242】
様々なフィルタリング基準は、を組み合わせて使用され得る。例えば、各基準を満たす必要がある場合、または少なくとも特定の数の基準を満たす必要がある場合がある。別の実装において、断片が臨床的関連DNA(例えば、胎児、腫瘍、または移植)に対応する確率が決定され得、DNA断片が二末端分析において使用される前に満たすべき閾値が、その確率に対して課され得る。さらなる例として、特定の末端モチーフ対の頻度カウンターへのDNA断片の寄与は、確率に基づいて重み付けされ得る(例えば、1を追加する代わりに、1未満の値を有する確率を追加する)。したがって、特定の末端モチーフを有するDNA断片は、より高く重み付けされる、および/またはより高い確率を有するであろう。そのような濃縮は、以下でさらに説明する。
【0243】
B.物理的濃縮
物理的濃縮は、様々な方法で、例えば、特定のプライマーまたはアダプターを使用して実施され得るような、標的配列決定またはPCRを介して、実施され得る。特定の末端モチーフ対が検出された場合、アダプターが断片の末端に追加され得る。次に、配列決定が実施されると、アダプターを有するDNA断片のみが配列決定され(または少なくとも主に配列決定され)、それによって標的化配列決定が提供される。
【0244】
別の例として、特定の末端モチーフ対のセットにハイブリダイズするプライマーが使用され得る。次に、これらのプライマーを使用して配列決定または増幅が実施され得る。特定の末端モチーフ対に対応する捕捉プローブはまた、さらなる分析のためにそれらの末端モチーフ対を有するDNA分子を捕捉するために使用され得る。いくつかの実施形態は、血漿DNA分子の末端に短いオリゴヌクレオチドを連結し得る。次いで、プローブは、部分的に末端モチーフであり、部分的に連結されたオリゴヌクレオチドである配列のみを認識するように設計され得、特定のプローブの対は、特定の末端モチーフ対に対応する。
【0245】
いくつかの実施形態は、クラスター化された規則的に間隔を空けた短いパリンドロームリピート(CRISPR)ベースの診断技術を使用することができ、例えば、ガイドRNAを使用して、臨床的関連DNAの好ましい末端モチーフに対応する部位を特定し、次いでヌクレアーゼを使用して、CRISPR関連タンパク質9(Cas9)またはCRISPR関連タンパク質12(Cas12)を使用して行われ得るように、DNA断片を切断する。例えば、アダプターを使用して対の各末端モチーフ認識することができ、次いでCRISPR/Cas9またはCas12を使用して、末端モチーフ/アダプターハイブリッドを切断し、分子を所望の末端でさらに濃縮するための普遍的な認識可能な末端を作成することができる。
【0246】
図59は、本開示の実施形態による、臨床的関連DNAについて生物学的試料を物理的に濃縮する方法5900を示すフローチャートである。生物学的試料は、臨床的関連DNA分子および無細胞の他のDNA分子を含む。方法5900は、特定のアッセイを使用して濃縮を実施し得る。
【0247】
ブロック5910で、生物学的試料から複数の無細胞DNA断片が受け取られる。臨床的関連DNA断片(例えば、胎児または腫瘍)は、他のDNA(例えば、母体DNA、健康なDNA、または血液細胞)よりも高い相対頻度で生じる配列モチーフ対の末端配列を有する。例として、図3および13からのデータを使用し得る。したがって、臨床的関連DNAについて濃縮するために配列モチーフ対が使用され得る。
【0248】
ブロック5920で、複数の無細胞DNA断片は、複数の無細胞DNA断片の末端配列における配列モチーフ対を検出する1つ以上のプローブ分子に供される。プローブ分子のそのような使用は、検出されたDNA断片を取得する結果をもたらし得る。一例において、1つ以上のプローブ分子は、複数の無細胞DNA断片を調査し、検出されたDNA断片を増幅するために使用される新しい配列を付加する1つ以上の酵素を含み得る。別の例において、1つ以上のプローブ分子は、ハイブリダイゼーションによって末端配列における配列モチーフ対を検出するために表面に付着され得る。
【0249】
ブロック5930で、検出されたDNA断片は、臨床的関連DNA断片について生物学的試料を濃縮するために使用される。一例として、検出されたDNA断片を使用して、臨床的関連DNA断片について生物学的試料を濃縮することは、検出されたDNA断片を増幅することを含み得る。別の例として、検出されたDNA断片は捕捉され得、検出されなかったDNA断片は廃棄され得る。
【0250】
C.インシリコ濃縮
インシリコ濃縮は、様々な基準を使用して、特定のDNA断片を選択または破棄し得る。そのような基準は、末端モチーフ対、オープンクロマチン領域、サイズ、配列多様性、メチル化、および他のエピジェネティックな特性を含み得る。エピジェネティックな特性には、DNA配列の変化を伴わないゲノムのすべての修飾を含む。基準は、例えば、特定のサイズ範囲、特定の量を上回るもしくは下回るメチル化メトリック、2つ以上のCpG部位のメチル化状態(メチル化もしくは非メチル化)の組み合わせ(例えば、メチル化ハプロタイプ(Guo et al,Nat Genet.2017;49:635-42))などの特定の特性を必要とするか、または閾値を上回る組み合わされた確率を有する、カットオフを既定することができる。そのような濃縮はまた、そのような確率に基づいてDNA断片を重み付けすることを含み得る。
【0251】
例として、濃縮された試料は、病理を分類するために(上記のように)、同様に腫瘍もしくは胎児の変異を同定するために、または染色体もしくは染色体領域の増幅/欠失検出のためのタグカウントのために使用され得る。例えば、特定の末端モチーフ対が肝臓がんに関連する場合(すなわち、非がんまたは他のがんよりも高い相対頻度)、がんスクリーニングを実施するための実施形態は、そのようなDNA断片を、この好ましい1つの、またはこの好ましいセットの末端モチーフを有しないDNA断片よりも高く重み付けし得る。
【0252】
図60は、本開示の実施形態による、臨床的関連DNAについて生物学的試料のインシリコ濃縮のための方法を示すフローチャートである。
生物学的試料は、臨床的関連DNA分子および無細胞の他のDNA分子を含む。方法6000は、配列リードの特定の基準を使用して、濃縮を実施し得る。
【0253】
ブロック6010で、配列リードを取得するために生物学的試料由来の複数の無細胞DNA断片が分析される。配列リードは、複数の無細胞DNA断片の末端に対応する末端配列を含む。ブロック6010は、図46のブロック4610と同様の方法で実施され得る。
【0254】
ブロック6020で、複数の無細胞DNA断片の各々について、配列モチーフ対が、無細胞DNA断片の末端配列について決定される。ブロック6020は、図46のブロック4620と同様の方法で実施され得る。
【0255】
ブロック6030で、他のDNAよりも高い相対頻度で臨床的関連DNAにおいて生じる1つ以上の配列モチーフ対のセットが同定される。配列モチーフ対のセットは、本明細書に記載の遺伝子型または表現型の技術によって同定され得る。較正または参照試料は、臨床的関連DNAに選択的である配列モチーフ対をランク付けおよび選択するために使用され得る。
【0256】
ブロック6040で、1つ以上の配列モチーフ対のセットを有する複数の無細胞DNA断片の群が同定される。これは、フィルタリングの最初の段階とみなし得る。
【0257】
ブロック6050で、閾値を超える臨床的関連DNAに対応する尤度を有する無細胞DNA断片が保存され得る。尤度は、末端モチーフ対のセットを使用して決定され得る。例えば、無細胞DNA断片の群の各無細胞DNA断片について、無細胞DNA断片が臨床的関連DNAに対応する尤度は、配列モチーフ対のセットの配列モチーフ対を含む末端配列に基づいて決定され得る。尤度は閾値と比較され得る。一例として、好適な閾値は、経験的に決定され得る。例えば、臨床的関連DNAの既知のマーカーを有する試料について、様々な閾値が試験され得る。結果として生じる臨床的関連DNAの濃度は、各閾値について決定され得る。
【0258】
最適な閾値は、配列リードの総数の特定の割合を維持しながら、濃度を最大化し得る。閾値は、健康な対照または疾患を有しないが同様の病因的リスク要因にさらされた対照群において存在する1つ以上の末端モチーフ対の濃度の1つ以上の所与のパーセンタイル(5、10、90、または95)によって決定され得る。閾値は、回帰または確率スコアであり得る。
【0259】
尤度が閾値を超える場合、配列リードは、メモリ(例えば、ファイル、テーブル、または他のデータ構造)に保存され得、それによって保存された配列リードを取得する。閾値を下回る尤度を有する配列リードは、破棄され得るか、もしくは保持されているリードのメモリ位置に保存されないか、またはデータベースのフィールドが、後の分析がそのようなリードを除外し得るように、リードがより低い閾値を有することを示すフラグを含み得る。例として、尤度は、オッズ比、zスコア、または確率分布などの様々な技術を使用して決定され得る。
【0260】
ブロック6060で、保存された配列リードは、他のフローチャートに記載されているように、例えば、本明細書に記載されているように、臨床的関連DNA生物学的試料の特性を決定するために分析され得る。方法4600および5700は、そのような例である。例えば、臨床的関連DNA生物学的試料の特性は、臨床的関連DNAの画分濃度であり得る。別の例として、特性は、生物学的試料が取得された対象の病理のレベルであり得、病理のレベルは、臨床的関連DNAに関連している。
【0261】
他の基準が、尤度を決定するために使用され得る。複数の無細胞DNA断片のサイズは、配列リードを使用して測定され得る。特定の配列リードが臨床的関連DNAに対応する尤度は、特定の配列リードに対応する無細胞DNA断片のサイズにさらに基づき得る。
【0262】
メチル化も使用され得る。したがって、実施形態は、特定の配列リードに対応する無細胞DNA断片の1つ以上の部位での1つ以上のメチル化状態を測定し得る。特定の配列リードが臨床的関連DNAに対応する尤度は、1つ以上のメチル化状態にさらに基づき得る。さらなる例として、リードがオープンクロマチン領域の同定されたセット内にあるかどうかがフィルターとして使用され得る。
【0263】
本明細書に記載の方法のいずれかについて、無細胞DNA断片の配列モチーフ対は、参照ゲノムを使用して(例えば、図1の技術160を介して)実施され得る。そのような技術は、無細胞DNA断片に対応する1つ以上の配列リードを参照ゲノムにアラインメントすること、末端配列に隣接する参照ゲノムにおける1つ以上の塩基を同定すること、および配列モチーフ対を決定するために末端配列および1つ以上の塩基を使用することを含み得る。
【0264】
X.治療
実施形態は、対象の分類を決定した後、患者における病理を治療することをさらに含み得る。治療は、病理の決定されたレベル、臨床的関連DNAの画分濃度、または起源の組織に従って提供され得る。例えば、特定された変異は、特定の薬物または化学療法を用いて標的化され得る。起源の組織を使用して、手術または任意の他の形態の治療を誘導することができる。そして、病理のレベルを使用して、任意のタイプの治療についてどれほど積極的にするかを決定することができ、これはまた、病理のレベルに基づいても決定され得る。病理(例えば、がん)は、化学療法、薬物、食事療法、療法、および/または手術によって治療され得る。いくつかの実施形態において、パラメータの値(例えば、量またはサイズ)が参照値を超えるほど、治療は、より積極的になり得る。
【0265】
治療には、切除が含まれ得る。膀胱がんの場合、治療には、経尿道的膀胱腫瘍切除術(TURBT)が含まれ得る。この手順は、診断、病期分類、および治療に使用される。TURBT中、外科医は、膀胱鏡を尿道から膀胱に挿入する。次いで、小型ワイヤーループ、レーザー、または高エネルギー電気を備えたツールを使用して、腫瘍が切除される。非筋肉浸潤性膀胱がん(NMIBC)の患者の場合、がんの治療または除去のためにTURBTが使用され得る。別の治療には、根治的膀胱切除術およびリンパ節郭清が含まれ得る。根治的膀胱切除術は、膀胱全体、ならびに場合によっては周囲の組織および臓器の除去である。治療には、尿路変向術も含まれ得る。尿路変向術とは、治療の一部として膀胱が除去されたときに、医師が尿を体外に排出するための新しい経路を作る場合である。
【0266】
治療には、化学療法が含まれ得、これは、通常がん細胞の成長および分裂を防ぐことによって、がん細胞を破壊するための薬物の使用である。薬物には、例えば、膀胱内化学療法のためのマイトマイシン-C(ジェネリック医薬品として入手可能)、ゲムシタビン(Gemzar)、およびチオテパ(Tepadina)が含まれ得るが、これらに限定されない。全身化学療法には、例えば、シスプラチンゲムシタビン、メトトレキサート(Rheumatrex、Trexall)、ビンブラスチン(Velban)、ドキソルビシン、およびシスプラチンが含まれ得るが、これらに限定されない。
【0267】
いくつかの実施形態において、治療には、免疫療法が含まれ得る。免疫療法には、PD-1と呼ばれるタンパク質をブロックする免疫チェックポイント阻害剤が含まれ得る。阻害剤には、アテゾリズマブ(Tecentriq)、ニボルマブ(Opdivo)、アベルマブ(Bavencio)、デュルバルマブ(Imfinzi)、およびペムブロリズマブ(Keytruda)が含まれ得るが、これらに限定されない。
【0268】
治療の実施形態はまた、標的療法を含み得る。標的療法は、がんの成長および生存に寄与するがんの特定の遺伝子および/またはタンパク質を標的とする治療である。例えば、エルダフィチニブは、がん細胞の成長または拡散を続けているFGFR3またはFGFR2遺伝子変異を伴う局所進行性または転移性尿路上皮がんを有する人々を治療するために承認された、経口投与される薬物である。
【0269】
一部の治療法には、放射線療法が含まれ得る。放射線療法は、がん細胞を破壊するために高エネルギーX線または他の粒子を使用することである。各個々の治療に加えて、本明細書に記載のこれらの治療の組み合わせが使用され得る。いくつかの実施形態において、パラメータの値が閾値を超え、閾値自体が参照値を超える場合、治療の組み合わせが使用され得る。参考文献における治療に関する情報は、参照により本明細書に組み込まれる。
【0270】
XI.例示的なシステム
図61は、本開示の実施形態による、測定システム6100を例示する。示されるようなシステムは、アッセイデバイス6110内に無細胞DNA分子などの試料6105を含み、アッセイ6108は、試料6105に対して実施され得る。例えば、試料6105をアッセイ6108の試薬と接触させて、物理的特性6115の信号を提供することができる。アッセイデバイスの一例は、アッセイのプローブおよび/もしくはプライマー、または液滴が(アッセイを含む液滴とともに)移動するチューブを含む、フローセルであり得る。試料からの物理的特性6115(例えば、蛍光強度、電圧、または電流)は、検出器6120によって検出される。検出器6120は、データ信号を構成するデータ点を取得するために、間隔をおいて(例えば、周期的な間隔)測定し得る。一実施形態において、アナログ-デジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。アッセイデバイス6110および検出器6120は、アッセイシステム、例えば、本明細書に記載の実施形態に従って配列決定を実施する配列決定システムを形成し得る。データ信号6125は、検出器6120から論理システム6130に送信される。一例として、データ信号6125を使用して、DNA分子の参照ゲノムにおける配列および/または位置を決定することができる。データ信号6125は、同時に行われる様々な測定、例えば、試料6105の異なる分子について異なる色の蛍光染料または異なる電気信号を含むことができ、したがって、データ信号6125は、複数の信号に対応することができる。データ信号6125は、ローカルメモリ6135、外部メモリ6140、または記憶デバイス6145に保存され得る。
【0271】
論理システム6130は、コンピュータシステム、ASIC、マイクロプロセッサ、グラフィックスプロセッシングユニット(GPU)などであり得るか、またはそれらを含み得る。それはまた、ディスプレイ(例えば、モニタ、LEDディスプレイなど)、およびユーザ入力デバイス(例えば、マウス、キーボード、ボタンなど)を含み得るか、またはそれらに連結され得る。論理システム6130および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であり得るか、または検出器6120および/またはアッセイデバイス6110を含むデバイス(例えば、配列決定デバイス)に直接取り付けられ得るか、もしくは組み込まれ得る。論理システム6130はまた、プロセッサ6150において実行するソフトウェアを含み得る。論理システム6130は、本明細書に説明される方法のいずれかを実施するようにシステム6100を制御するための命令を保存するコンピュータ可読媒体を含み得る。例えば、論理システム6130は、配列決定または他の物理的操作が実施されるように、アッセイデバイス6110を含むシステムにコマンドを提供し得る。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、実施され得る。そのような物理的操作は、試料を取得してアッセイを実施するために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって実施され得る。
【0272】
測定システム6100はまた、対象に治療を提供することができる治療デバイス6160を含み得る。治療デバイス6160は、治療を決定し得る、および/または治療を実施するために使用され得る。そのような治療の例には、手術、放射線療法、化学療法、免疫療法、標的療法、ホルモン療法、および幹細胞移植が含まれ得る。論理システム6130は、例えば、本明細書に記載の方法の結果を提供するために、治療デバイス6160に接続され得る。治療デバイスは、画像化デバイスおよびユーザ入力などの他のデバイスからの入力を受け取り得る(例えば、ロボットシステムの制御など、治療を制御するために)。
【0273】
本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用し得る。コンピュータシステム10においてこのようなサブシステムの例を図62に示す。いくつかの実施形態において、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態において、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータおよびラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯装置を含み得る。
【0274】
図63に示すサブシステムは、システムバス75を介して相互接続することができる。プリンタ74、キーボード78、記憶デバイス79、ディスプレイアダプター82に接続されたモニタ76(例えば、LEDなどのディスプレイスクリーン)、およびその他などの追加のサブシステムが示されている。I/Oコントローラ71に結合する周辺機器および入力/出力(I/O)デバイスは、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))などの当技術分野において既知である任意の数の手段によって、コンピュータシステムに接続され得る。例えば、I/Oポート77または外部インターフェース81(例えば、Ethernet、Wi-Fiなど)を使用して、Internetなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータシステム10を接続し得る。システムバス75を介した相互接続は、中央プロセッサ73が、各サブシステムと通信し、システムメモリ72または記憶デバイス79(例えば、ハードドライブまたは光ディスクなどの固定ディスク)からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ72および/または記憶デバイス79は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロホン、および加速度計、ならびにこれらに類するものなどのデータ収集デバイス85である。本明細書に言及されるデータのうちのいずれも、1つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。
【0275】
コンピュータシステムは、例えば、外部インターフェース81によって、内部インターフェースによって、または1つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶デバイスを介して、ともに接続された、複数の同じ構成要素またはサブシステムを含み得る。いくつかの実施形態において、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信し得る。そのような例において、1つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含むことができる。
【0276】
実施形態の態様は、制御ロジックの形態で、ハードウェア回路(例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ)を使用して、および/またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装され得る。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含み得る。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、ならびにハードウェアおよびソフトウェアの組み合わせを使用して、本開示の実施形態を実装するための他の手段および/または方法を認識および理解するであろう。
【0277】
本出願で説明されるソフトウェアコンポーネントまたは関数のうちのいずれも、例えば、Java、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、または、例えば、従来の技術もしくは物体指向の技術を使用するPerlもしくはPythonなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、記憶および/または伝送のためのコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、リード専用メモリ(ROM)、磁気媒体(ハードドライブもしくはフロッピーディスクなど)、または光学媒体(コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)など)、またはブルーレイディスクおよびフラッシュメモリなどを含み得る。コンピュータ可読媒体は、そのようなストレージまたは伝送デバイスの任意の組み合わせであってもよい。
【0278】
そのようなプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および/または無線ネットワークを介した伝送に適合した搬送波信号を使用して伝送され得る。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成され得る。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されてもよく、または(例えば、インターネットダウンロードを介して)他のデバイスとは別個に提供され得る。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、もしくはコンピュータシステム全体)上もしくはその内部に存在し得、システムまたはネットワーク内の異なるコンピュータ製品上もしくはその内部に存在し得る。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザに提供するための他の好適なディスプレイを含み得る。
【0279】
本明細書記載の方法のうちのいずれも、ステップを実施するように構成することができる1つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施され得る。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なるコンポーネントがそれぞれのステップまたはそれぞれのステップの群を実施する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または論理的に可能である異なる順序で実施され得る。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用され得る。また、あるステップのすべてまたは部分は、任意選択的であり得る。加えて、本方法のうちのいずれかの任意のステップは、これらのステップを実行するためのシステムのモジュール、ユニット、回路、または他の手段で実行することができる。
【0280】
本開示を読むと当業者には明らかになるように、本明細書に記載および図示される個々の実施形態の各々は、本開示の範囲または趣旨から逸脱することなく、他のいくつかの実施形態のいずれかの特徴から容易に分離され得るか、またはそれと組み合わされ得る、別個の構成要素および特徴を有する。
【0281】
本開示の例示的な実施形態の上の説明は、例示および説明の目的で提示されており、本開示の実施形態の作製および使用方法の完全な開示および説明を当業者に提供するために記載される。網羅的であること、もしくは本開示を記載された正確な形式に限定することを意図するものではなく、また、実験が実施されるすべてまたは唯一の実験であることを表すことを意図するものでもない。本開示は、理解を明確にする目的で例示および実施例によってある程度詳細に説明されてきたが、本開示の教示に照らして、添付の特許請求の範囲の趣旨または範囲から逸脱することなく、特定の変更および修正が本開示に行われ得ることが、当業者には容易に明らかである。
【0282】
したがって、上記は単に、本発明の原理を例示しているにすぎない。当業者が、本明細書で明示的に説明または図示されていないが、本発明の原理を具現化し、その趣旨および範囲内に含まれる様々な配置を考案することができることが理解されるであろう。さらに、本明細書に列挙されるすべての実施例および条件付き言語は、主に、読者が、本開示の原理がそのような具体的に列挙された実施例および条件に限定されないことを理解するのを助けることを意図している。さらに、本発明の原理、態様、および実施形態、ならびにその具体的な実施例を列挙する本明細書のすべての記述は、その構造的および機能的等価物の両方を包含することを意図している。さらに、そのような等価物には、現在知られている等価物および将来開発される等価物の両方、すなわち、構造に関係なく同じ機能を実施する開発された任意の要素が含まれることが意図されている。したがって、本発明の範囲は、本明細書で図示および説明される例示的な実施形態に限定されることを意図するものではない。むしろ、本発明の範囲および趣旨は、添付の特許請求の範囲によって具現化される。
【0283】
「a」、「an」、または「the」の記述は、それとは反対に具体的に示されない限り、「1つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「を除く、または」ではなく「を含む、または」を意味することが意図される。「第1」の構成要素への言及は、第2の構成要素が提供されることを必ずしも必要としない。さらに、「第1」または「第2」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「~に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。
【0284】
請求項は、任意選択的であり得るいかなる要素も除外するように起草され得る。したがって、この記述は、請求項要素の列挙に関連する「単独で」、「のみ」などの排他的な用語の使用、または「否定的な」限定の使用についての先行詞として機能することを意図している。
【0285】
本明細書で言及されるすべての特許、特許出願、刊行物、および説明は、あたかも各個々の刊行物または特許が参照により組み込まれることが具体的かつ個別に示されているかのように、あらゆる目的でそれらの全体が参照により本明細書に組み込まれ、かつ刊行物が引用されているものと関連する方法および/または材料を開示および説明するために、参照により本明細書に組み込まれる。いかなるものも、先行技術であるとは認められていない。
XII.参考文献
1.Chan KCA,Woo JKS,King A,Zee BCY,Lam WKJ,Chan SL,et al.Analysis of Plasma Epstein-Barr Virus DNA to Screen for Nasopharyngeal Cancer.N Engl J Med[Internet].2017/08/10.2017;377(6):513-22。https://www.nejm.org/doi/pdf/10.1056/NEJMoa1701717から入手可能。
2.Chiu RWK,Chan KCA,Gao Y,Lau VYM,Zheng W,Leung TY,et al.Noninvasive prenatal diagnosis of fetal chromosomal aneuploidy by massively parallel genomic sequencing of DNA in maternal plasma.Proc Natl Acad Sci USA[Internet].2008;105(51):20458-63。http://www.pnas.org/content/105/51/20458.abstractから入手可能。
3.Lo YMD,Corbetta N,Chamberlain PF,Rai V,Sargent IL,Redman CWG,et al.Presence of fetal DNA in maternal plasma and serum.Lancet[Internet].1997;350(9076):485-7。http://dx.doi.org/10.1016/S0140-6736(97)02174-0から入手可能
4.Lo YMD,Chan KCA,Sun H,Chen EZ,Jiang P,Lun FMF,et al.Maternal Plasma DNA Sequencing Reveals the Genome-Wide Genetic and Mutational Profile of the Fetus.Sci Transl Med[Internet].2010;2(61):61ra91-61ra91。http://stm.sciencemag.org/content/scitransmed/2/61/61ra91.full.pdfから入手可能
5.Chandrananda D,Thorne NP,Bahlo M.High-resolution characterization of sequence signatures due to non-random cleavage of cell-free DNA.BMC Med Genomics[Internet].2015/06/18.2015[cited 2019 Dec 31];8(1):29。https://doi.org/10.1186/s12920-015-0107-zから入手可能
6.Ivanov M,Baranova A,Butler T,Spellman P,Mileyko V.Non-random fragmentation patterns in circulating cell-free DNA reflect epigenetic regulation.BMC Genomics[Internet].2015;16(13):S1。https://doi.org/10.1186/1471-2164-16-S13-S1から入手可能
7.Snyder MW,Kircher M,Hill AJ,Daza RM,Shendure J.Cell-free DNA Comprises an In Vivo Nucleosome Footprint that Informs Its Tissues-Of-Origin.Cell[Internet].2016/01/16.2016;164(1-2):57-68。https://ac.els-cdn.com/S009286741501569X/1-s2.0-S009286741501569X-main.pdf?_tid=7ad5c682-f178-4148-9ef5-5155f3622c97&acdnat=1544003447_49d657134037d6cfe06c891e02a8b96eから入手可能
8.Sun K,Jiang P,Cheng SH,Cheng THT,Wong J,Wong VWS,et al.Orientation-aware plasma cell-free DNA fragmentation analysis in open chromatin regions informs tissue of origin.Genome Res[Internet].2019;29(3):418-27。http://genome.cshlp.org/content/29/3/418.abstractから入手可能
9.Jiang P,Sun K,Tong YK,Cheng SH,Cheng THT,Heung MMS,et al.Preferred end coordinates and somatic variants as signatures of circulating tumor DNA associated with hepatocellular carcinoma.Proc Natl Acad Sci USA[Internet].2018/10/31.2018;115(46):E10925-e10933。http://www.pnas.org/content/pnas/115/46/E10925.full.pdfから入手可能
図1
図2
図3
図4
図5A-B】
図5C-D】
図6A-B】
図6C-D】
図7A-B】
図7C-D】
図8A-B】
図8C-D】
図9A-B】
図9C-D】
図10A-B】
図10C-D】
図11A-B】
図11C-D】
図12A-B】
図12C-D】
図13A-B】
図13C-D】
図14A-B】
図14C-D】
図15A-B】
図15C-D】
図16A-B】
図16C-D】
図17A-B】
図17C-D】
図18
図19A-B】
図19C-D】
図20A-B】
図20C
図21A-B】
図21C-D】
図21E-F】
図22A-B】
図22C-D】
図22E-F】
図23
図24
図25
図26
図27
図28
図29
図30
図31
図32
図33A-B】
図33C-D】
図34A-B】
図34C-D】
図35A-B】
図35C-D】
図36A-B】
図36C-D】
図37A-B】
図37C-D】
図38A-B】
図38C-D】
図39A-B】
図39C-D】
図40A-B】
図40C-D】
図41A-B】
図41C-D】
図42A-B】
図42C-D】
図43A-B】
図43C-D】
図44
図45
図46
図47
図48
図49A
図49B
図50A
図50B
図51
図52
図53
図54A-B】
図54C
図55
図56
図57
図58
図59
図60
図61
図62
【国際調査報告】