(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-19
(45)【発行日】2024-12-27
(54)【発明の名称】無細胞DNA末端特性
(51)【国際特許分類】
C12Q 1/6886 20180101AFI20241220BHJP
C12Q 1/6883 20180101ALI20241220BHJP
【FI】
C12Q1/6886 Z
C12Q1/6883 Z
(21)【出願番号】P 2021535750
(86)(22)【出願日】2019-12-19
(86)【国際出願番号】 CN2019126565
(87)【国際公開番号】W WO2020125709
(87)【国際公開日】2020-06-25
【審査請求日】2022-11-28
(32)【優先日】2018-12-19
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】512037244
【氏名又は名称】ザ チャイニーズ ユニバーシティ オブ ホンコン
(73)【特許権者】
【識別番号】522380594
【氏名又は名称】グレイル,リミティド ライアビリティ カンパニー
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【氏名又は名称】池田 達則
(74)【代理人】
【識別番号】100197169
【氏名又は名称】柴田 潤二
(72)【発明者】
【氏名】ロー ユク-ミン デニス
(72)【発明者】
【氏名】チウ ロッサ ワイ クン
(72)【発明者】
【氏名】チャン クワン チー
(72)【発明者】
【氏名】チアン ペイヨン
(72)【発明者】
【氏名】チャン ウィン イェン
(72)【発明者】
【氏名】スン クン
【審査官】藤井 美穂
(56)【参考文献】
【文献】米国特許出願公開第2018/0237863(US,A1)
【文献】BMC Medical Genomics,2015年,vol.8, no.29,pp.1-19
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00 - 3/00
(57)【特許請求の範囲】
【請求項1】
動物である対象の生物学的試料において、
癌のレベルを分類する方法であって、前記生物学的試料は、無細胞DNAを含み、前記方法は、
前記生物学的試料由来の複数の無細胞DNA断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞DNA断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞DNA断片のそれぞれについて、前記無細胞DNA断片の1つ以上の末端配列のそれぞれの配列モチーフを決定することと、
前記複数の無細胞DNA断片の前記末端配列に対応する1つ以上の配列モチーフのセットの
1つ以上の相対頻度を決定することであって、配列モチーフの相対頻度は、前記配列モチーフに対応する末端配列を有する前記複数の無細胞DNA断片の割合を提供する、相対頻度を決定することと、
前記1つ以上の配列モチーフのセットの前記
1つ以上の相対頻度の集計値を決定することと、
前記集計値と参照値との比較に基づいて、前記対象についての
前記癌のレベルの分類を決定することと、を含む、方法。
【請求項2】
前記無細胞DNAをフィルタリングして、前記複数の無細胞DNA断片を同定することをさらに含む、請求項1に記載の方法。
【請求項3】
前記フィルタリングが、DNA断片が由来するサイズまたは領域に基づく、請求項2に記載の方法。
【請求項4】
前記無細胞DNAが、特定の組織のオープンクロマチン領域由来のDNA断片についてフィルタリングされる、請求項3に記載の方法。
【請求項5】
前記癌が、肝細胞癌、肺癌、乳癌、胃癌、多形性神経膠芽細胞腫、膵臓癌、結腸直腸癌、上咽頭癌、および頭頸部扁平上皮細胞癌である、請求項
1に記載の方法。
【請求項6】
前記分類が、癌の複数のステージを含む癌の複数のレベルから決定される、請求項
1に記載の方法。
【請求項7】
前記
癌の前記レベルが、前記
癌に関連する臨床的関連DNAの画分濃度に対応する、請求項1に記載の方法。
【請求項8】
動物である対象の生物学的試料における臨床的関連DNAの画分濃度を推定する方法であって、前記生物学的試料は、前記臨床的関連DNAおよび無細胞である他のDNAを含み、前記方法は、
前記生物学的試料由来の複数の無細胞DNA断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞DNA断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞DNA断片のそれぞれについて、前記無細胞DNA断片の1つ以上の末端配列のそれぞれの配列モチーフを決定することと、
前記複数の無細胞DNA断片の前記末端配列に対応する1つ以上の配列モチーフのセットの
1つ以上の相対頻度を決定することであって、配列モチーフの相対頻度は、前記配列モチーフに対応する末端配列を有する前記複数の無細胞DNA断片の割合を提供する、相対頻度を決定することと、
前記1つ以上の配列モチーフのセットの前記
1つ以上の相対頻度の集計値を決定することと、
前記集計値を臨床的関連DNAの画分濃度が既知の1つ以上の較正試料から決定された1つ以上の較正値と比較することによって、前記生物学的試料における臨床的関連DNAの前記画分濃度の分類を決定することと、を含む、方法。
【請求項9】
前記臨床的関連DNAが、胎児DNA、腫瘍DNA、移植臓器由来のDNA、および特定の組織タイプからなる群から選択される、請求項
8に記載の方法。
【請求項10】
前記臨床的関連DNAが、特定の組織タイプのものである、請求項
8に記載の方法。
【請求項11】
前記特定の組織タイプが、肝臓または造血性である、請求項
10に記載の方法。
【請求項12】
前記対象が、妊娠中の女性であり、前記臨床的関連DNAが胎盤組織である、請求項
8に記載の方法。
【請求項13】
前記臨床的関連DNAが、癌を有する器官に由来する腫瘍DNAである、請求項
8に記載の方法。
【請求項14】
前記1つ以上の較正値が、複数の較正試料の臨床的関連DNAの画分濃度を使用して決定される較正関数の複数の較正値である、請求項
8に記載の方法。
【請求項15】
前記1つ以上の較正値が、前記1つ以上の較正試料における無細胞DNA断片を使用して測定される前記1つ以上の配列モチーフのセットの前記
1つ以上の相対頻度の1つ以上の集計値に対応する、請求項
8に記載の方法。
【請求項16】
前記1つ以上の較正試料の各較正試料について、
前記較正試料における臨床的関連DNAの前記画分濃度を測定することと、
較正データ点の取得の一部として前記較正試料由来の無細胞DNA断片を分析することによって、前記1つ以上の配列モチーフのセットの前記
1つ以上の相対頻度の前記集計値を決定し、それによって1つ以上の集計値を決定することと、をさらに含み、各較正データ点が、前記較正試料における臨床的関連DNAの前記測定された画分濃度、および前記較正試料について決定された前記集計値を指定し、前記1つ以上の較正値が、前記1つ以上の集計値であるか、または前記1つ以上の集計値を使用して決定される、請求項
8に記載の方法。
【請求項17】
前記較正試料における臨床的関連DNAの前記画分濃度の測定が、前記臨床的関連DNAに特異的な対立遺伝子を使用して実施される、請求項
16に記載の方法。
【請求項18】
コンピュータシステムが、胎児を妊娠している女性対象由来の生物学的試料を分析することによって胎児の在胎期間
の決定
を実行する方法であって、前記生物学的試料は、前記女性対象および前記胎児由来の無細胞DNA分子を含み、前記方法は、
生物学的試料由来の複数の無細胞DNA断片の配列リードを受信することであって、前記配列リードは、前記複数の無細胞DNA断片の末端に対応する末端配列を含む、配列リードを
受信することと、
前記複数の無細胞DNA断片のそれぞれについて、前記無細胞DNA断片の1つ以上の末端配列のそれぞれの配列モチーフを決定することと、
前記複数の無細胞DNA断片の前記末端配列に対応する1つ以上の配列モチーフのセットの
1つ以上の相対頻度を決定することであって、配列モチーフの相対頻度が、前記配列モチーフに対応する末端配列を有する前記複数の無細胞DNA断片の割合を提供する、
1つ以上の相対頻度を決定することと、
前記1つ以上の配列モチーフのセットの前記
1つ以上の相対頻度の集計値を決定することと、
1つ以上の較正データ点を取得することであって、各較正データ点は、集計値に対応する在胎期間を指定し、前記1つ以上の較正データ点は、既知の在胎期間を有し、無細胞DNA分子を含む複数の較正試料から決定される、較正データ点を取得することと、
前記集計値を少なくとも1つの較正データ点の較正値と比較することと、
前記比較に基づいて前記胎児の在胎期間を推定することと、を含む、方法。
【請求項19】
前記1つ以上の較正データ点が、既知の在胎期間を有する前記複数の較正試料における前記無細胞DNA分子から決定された測定された集計値を近似する較正関数を形成する複数の較正データ点である、請求項
18に記載の方法。
【請求項20】
前記集計値が、それぞれ前記複数の較正試料の1つに対応する複数の較正値と比較される、請求項
18に記載の方法。
【請求項21】
前記少なくとも1つの較正データ点の前記較正値が、前記複数の較正試料のうちの少なくとも1つにおける前記無細胞DNA分子を使用して測定された前記集計値に対応する、請求項
18に記載の方法。
【請求項22】
前記複数の無細胞DNA断片を前記胎児に由来するものとして同定することをさらに含む、請求項
18に記載の方法。
【請求項23】
前記複数の無細胞DNA断片が、胎児特異的対立遺伝子または胎児特異的エピジェネティックマーカーを使用して同定される、請求項
22に記載の方法。
【請求項24】
前記複数の無細胞DNA断片が、
前記配列リードのそれぞれについて、
前記1つ以上の配列モチーフのセットの配列モチーフを含む前記配列リードの末端配列に基づいて、前記配列リードが前記胎児に対応する尤度を決定することと、
前記尤度を閾値と比較することと、
前記尤度が前記閾値を超えたときに、前記配列リードを前記胎児に由来するものとして同定することと、によって同定される、請求項
22に記載の方法。
【請求項25】
前記1つ以上の配列モチーフのセットが、N塩基位置を含み、前記1つ以上の配列モチーフのセットが、N塩基の全ての組み合わせを含み、Nが3以上の整数である、請求項1~
24のいずれか一項に記載の方法。
【請求項26】
前記1つ以上の配列モチーフのセットが、1つ以上の参照試料において決定された2つのタイプのDNAの間で最大の差を有する上位M個の配列モチーフであり、Mが1以上の整数である、請求項1~
24のいずれか一項に記載の方法。
【請求項27】
前記2つのタイプのDNAが、
臨床的関連DNAおよび
無細胞である他のDNAである、請求項
26に記載の方法。
【請求項28】
前記1つ以上の配列モチーフのセットが、1つ以上の参照試料において決定される2つのタイプのDNA間の最大の差を有する上位M個の配列モチーフであり、Mは1以上の整数であり、ここで前記2つのタイプのDNAが、前記
癌のレベルについて異なる分類を有する2つの参照試料に由来する、請求項
1~10のいずれか一項に記載の方法。
【請求項29】
前記1つ以上の配列モチーフのセットが、1つ以上の参照試料において発生する上位M個の最も頻度の高い配列モチーフであり、Mは1以上の整数である、請求項1~
24のいずれか一項に記載の方法。
【請求項30】
前記1つ以上の配列モチーフのセットが、複数の配列モチーフを含み、前記集計値が前記セットの前記相対頻度の合計を含む、請求項
25~
29のいずれか一項に記載の方法。
【請求項31】
前記合計が、加重合計である、請求項
30に記載の方法。
【請求項32】
前記集計値が、エントロピー項を含み、前記エントロピー項が前記加重合計を含む項の合計を含み、各項が前記相対頻度の対数を乗じた相対頻度を含む、請求項
31に記載の方法。
【請求項33】
前記1つ以上の配列モチーフのセットが複数の配列モチーフを含み、ここで前記集計値が、前記相対頻度の分散に対応する、請求項1~
32のいずれか一項に記載の方法。
【請求項34】
前記集計値が、機械学習モデルの最終または中間の出力を含む、請求項1~
32のいずれか一項に記載の方法。
【請求項35】
前記機械学習モデルが、クラスタリング、サポートベクターマシン、またはロジスティック回帰を使用する、請求項
34に記載の方法。
【請求項36】
臨床的関連DNAについて
対象から取得された生物学的試料を濃縮する方法であって、
前記対象は動物であり、前記生物学的試料は、前記臨床的関連DNAおよび無細胞である他のDNAを含み、前記方法は、
前記生物学的試料由来の複数の無細胞DNA断片を分析して配列リードを取得することであって、前記配列リードは、前記複数の無細胞DNA断片の末端に対応する末端配列を含む、配列リードを取得することと、
前記複数の無細胞DNA断片のそれぞれについて、前記無細胞DNA断片の1つ以上の末端配列のそれぞれの配列モチーフを決定することと、
前記他のDNAよりも高い相対頻度で前記臨床的関連DNAに存在する1つ以上の配列モチーフのセットを同定することと、
末端配列における前記1つ以上の配列モチーフのセットを有する前記配列リードの群を同定することと、
前記配列リードの前記群の配列リードごとについて、
前記1つ以上の配列モチーフのセットの配列モチーフを含む前記配列リードの末端配列に基づいて、前記配列リードが前記臨床的関連DNAに対応する尤度を決定することと、
前記尤度を閾値と比較することと、
前記尤度が前記閾値を超えたときに、前記配列リードを保存し、それによって保存された配列リードを取得することと、
前記保存された配列リードを分析して、
前記生物学的試料中の前記臨床的関連DNA
の特性を決定することと、を含む、方法。
【請求項37】
前記臨床的関連DNA前記生物学的試料の前記特性が、(1)前記臨床的関連DNAの画分濃度、(2)前記生物学的試料が取得された
前記対象の
癌のレベル、前記臨床的関連DNAに関連する
前記癌のレベル、または(3)前記生物学的試料が取得された妊娠中の女性の胎児の在胎期間である、請求項
36に記載の方法。
【請求項38】
前記配列リードを使用して前記複数の無細胞DNA断片のサイズを測定することをさらに含み、特定の配列リードが前記臨床的関連DNAに対応する前記尤度を決定することが、前記特定の配列リードに対応する前記無細胞DNA断片のサイズにさらに基づく、請求項
36に記載の方法。
【請求項39】
特定の配列リードに対応する無細胞DNA断片の1つ以上の部位での1つ以上のメチル化状態を測定することをさらに含み、前記特定の配列リードが前記臨床的関連DNAに対応する前記尤度を決定することが、前記1つ以上のメチル化状態にさらに基づく、請求項
36に記載の方法。
【請求項40】
前記無細胞DNA断片の1つ以上の末端配列のそれぞれについての前記配列モチーフを決定することが、
前記無細胞DNA断片に対応する1つ以上の配列リードを参照ゲノムにアラインメントすることと、
前記末端配列に隣接する前記参照ゲノムにおける1つ以上の塩基を同定することと、
前記末端配列および前記1つ以上の塩基を使用して前記配列モチーフを決定することと、を含む、請求項1~
39のいずれか一項に記載の方法。
【請求項41】
請求項1~
40のいずれか一項に記載の方法を実施するコンピュータシステムを制御するための複数の命令を記憶するコンピュータ可読媒体
。
【請求項42】
請求項
41に記載のコンピュータ
可読媒体と、
前記コンピュータ可読媒体に記憶された命令を実行するための1つ以上のプロセッサと、を備える、システム。
【請求項43】
請求項1~
40のいずれか一項に記載の方法を実施するための手段を備える、システム。
【請求項44】
請求項1~
40のいずれか一項に記載の方法を実施するように構成された1つ以上のプロセッサを備える、システム。
【請求項45】
請求項1~
40のいずれか一項に記載の方法のステップをそれぞれ実施するモジュールを備える、システム。
【発明の詳細な説明】
【背景技術】
【0001】
関連出願の相互参照
本出願は、2018年12月19日に出願された「CELL-FREE DNA END CHARACTERISTICS」と題する米国仮特許出願第62/782,316号のPCTであり、その利益を主張し、それは、全ての目的のためにその全体が参照により本明細書に組み込まれる。
【0002】
血漿DNAは、造血組織、脳、肝臓、肺、結腸、膵臓などを含むがこれらに限定されない、体内の複数の組織から放出された無細胞DNAで構成されていると考えられている(Sun et al,Proc Natl Acad Sci USA.2015;112:E5503-12、Lehmann-Werman et al,Proc Natl Acad Sci USA.2016;113:E1826-34、Moss et al,Nat Commun.2018;9:5068)。血漿DNA分子(無細胞DNA分子の一種)は、非ランダムプロセスを通じて生成されることが実証されており、例えば、そのサイズプロファイルは、166bpの主要なピークおよび小さいピークで発生する10bpの周期性を示している(Lo et al,Sci Transl Med.2010;2:61ra91、Jiang et al,Proc Natl Acad Sci USA.2015;112:E1317-25)。
【0003】
ごく最近、ヒトゲノムの位置(例えば、参照ゲノム上の位置)のサブセットが優先的に切断され、それにより、起源の組織との関係を有する末端位置を有する血漿DNA断片が生成されることが報告された(Chan et al,Proc Natl Acad Sci USA.2016;113:E8159-8168、Jiang et al,Proc Natl Acad Sci USA.2018;doi:10.1073/pnas.1814616115)。Chandranandaら(BMC Med Genomics.2015;8:29)は、de novoディスカバリーソフトウェアDREME(Bailey,Bioinformatics.2011;27:1653-9)を使用して、組織タイプに関係なく、ヌクレアーゼ切断に関連するモチーフについて無細胞DNAデータをマイニングした。
【発明の概要】
【0004】
本開示は、試料の特性(例えば、臨床的関連DNAの画分濃度)を測定するため、および/またはそのような測定に基づいて生物の状態を決定するために、生物の生物学的試料における無細胞DNA断片の配列末端モチーフの量(例えば、相対頻度)を測定するための技術を記載する。種々の組織タイプは、配列末端モチーフの相対頻度について種々のパターンを示す。本開示は、例えば、様々な組織由来の無細胞DNAの混合物における、無細胞DNAの配列末端モチーフの相対頻度の測定のための様々な使用を提供する。そのような組織のうちの1つに由来するDNAは、臨床的関連DNAと呼ばれ得る。
【0005】
様々な例は、DNA断片の末端配列を表す配列モチーフ(末端モチーフ)の量を定量化し得る。例えば、実施形態は、DNA断片の末端配列についての配列モチーフのセットの相対頻度を決定し得る。様々な実装において、好ましい末端モチーフのセットおよび/または末端モチーフのパターンは、遺伝子型(例えば、組織特異的対立遺伝子)または表現型アプローチ(例えば、同じ条件を有する試料を使用する)を使用して決定され得る。好ましいセットまたは特定のパターンを有する相対頻度は、新しい試料の特性の分類(例えば、臨床的関連DNAの画分濃度)または生物の状態(例えば、胎児の在胎期間または病理のレベル)を測定するために、使用され得る。したがって、実施形態は、癌、自己免疫疾患、移植、および妊娠を含む生理学的変化を知らせるための測定値を提供し得る。
【0006】
さらなる例として、配列末端モチーフは、臨床的に関連する無細胞DNA断片についての生物学的試料の物理的濃縮および/またはインシリコ濃縮に使用され得る。濃縮は、胎児、腫瘍または移植などの臨床的関連組織に好ましい配列末端モチーフを使用し得る。物理的濃縮は、生物学的試料が臨床的関連DNA断片について濃縮されるように、配列末端モチーフの特定のセットを検出する1つ以上のプローブ分子を使用し得る。インシリコ濃縮については、臨床的関連DNAについて好ましい末端配列のセットのうちの1つを有する無細胞DNA断片の配列リードの群が同定され得る。特定の配列リードは、臨床的関連DNAに対応する尤度に基づいて保存され得、尤度は、好ましい配列末端モチーフを含む配列リードを説明する。保存された配列リードは、臨床的関連DNA生物学的試料の特性を決定するために、分析され得る。
【0007】
本開示のこれらおよび他の実施形態を、以下で詳細に説明する。例えば、他の実施形態は、本明細書に記載の方法に関連付けられたシステム、デバイス、およびコンピュータ可読媒体に関する。
【0008】
本開示の実施形態の性質および利点のより良好な理解は、以下の詳細な説明および添付の図面を参照して得ることができる。
【図面の簡単な説明】
【0009】
【
図1】本開示の実施形態による、末端モチーフの例を示す。
【0010】
【
図2】本開示の実施形態による、胎児および母体のDNA分子間の示差的末端モチーフパターンを分析するための遺伝子型の差異ベースアプローチの概略図を示す。
【0011】
【
図3】本開示の実施形態による、胎児および母体のDNA分子間の末端モチーフ頻度の棒グラフを示す。
【0012】
【
図4】本開示の実施形態による、胎児および共有(すなわち、胎児に加えて母体)配列についての
図3からの上位10個の末端モチーフを示す。
【0013】
【
図5A】本発明の実施形態による、妊婦における胎児および母体DNA分子間のエントロピーの箱ひげ図を示す。
【
図5B】本発明の実施形態による、妊婦における胎児および母体DNA分子間のエントロピーの箱ひげ図を示す。
【0014】
【
図6A】本開示の実施形態による、胎児および母体DNA分子についての階層的クラスタリング分析を示す。
【
図6B】本開示の実施形態による、胎児および母体DNA分子についての階層的クラスタリング分析を示す。
【0015】
【
図7】
図7Aおよび
図7Bは、本開示の実施形態による、種々の三半期にわたる妊婦についての全てのモチーフを使用したエントロピー分布を示す。
図7Cおよび
図7Dは、本開示の実施形態による、種々の三半期にわたる妊婦についての10個のモチーフを使用したエントロピー分布を示す。
【0016】
【
図8A】種々の在胎期間にわたって全断片についてのエントロピーを示す。第3三半期の対象における血漿DNA断片のエントロピーは、第1および第2三半期のものよりも低い(p値=0.06)ことが示された。
【
図8B】種々の在胎期間にわたってY染色体由来断片についてのエントロピーを示す。第3三半期の対象におけるY染色体由来の断片のエントロピーは、第1および第2三半期のものよりも低い(p値=0.01)ことが示された。
【0017】
【
図9】本開示の実施形態による、種々の三半期にわたる胎児および母体DNA分子間の上位10個にランク付けされた末端モチーフの分布を示す。
【
図10】本開示の実施形態による、種々の三半期にわたる胎児および母体DNA分子間の上位10個にランク付けされた末端モチーフの分布を示す。
【0018】
【
図11】本開示の実施形態による、種々の三半期にわたる胎児および共有分子間の上位10個にランク付けされたモチーフの複合頻度を示す。
【0019】
【
図12】本開示の実施形態による、癌患者の血漿DNAにおける変異体および共有分子間の示差的末端モチーフパターンを分析するための遺伝子型の差異ベースアプローチの概略図を示す。
【0020】
【
図13】本開示の実施形態による、肝細胞癌における癌関連変異体および共有分子の血漿DNA末端モチーフの状勢を示す。
【0021】
【
図14】本開示の実施形態による、肝細胞癌における癌関連変異体および共有分子の血漿DNA末端モチーフの放射状の状勢を示す。
【0022】
【
図15A】本開示の実施形態による、HCC患者の血漿DNAにおける変異体および共有配列間の末端モチーフ頻度の順位差における上位10個の末端モチーフを示す。
【0023】
【
図15B】本開示の実施形態による、HCC患者および妊娠中の女性についての8個の末端モチーフの複合頻度を示す。
【0024】
【
図16A】本開示の実施形態による、HCC症例についての種々のセットの末端モチーフについての共有および変異体断片についてのエントロピー値を示す。
【
図16B】本開示の実施形態による、HCC症例についての種々のセットの末端モチーフについての共有および変異体断片についてのエントロピー値を示す。
【0025】
【
図17】本開示の実施形態による、測定された循環腫瘍DNA画分に対するモチーフ多様性スコア(エントロピー)のプロット。
【0026】
【
図18A】本開示の実施形態による、ドナー特異的断片を使用したエントロピー分析を示す。
【
図18B】ドナー特異的断片を使用した階層的クラスタリング分析を示す。
【0027】
【
図19】本開示の実施形態による、対象の生物学的試料における臨床的関連DNAの画分濃度を推定する方法を示すフローチャート。
【0028】
【
図20】本開示の実施形態による、胎児を妊娠している女性対象由来の生物学的試料を分析することにより、胎児の在胎期間を決定する方法を示すフローチャート。
【0029】
【
図21】本開示の実施形態による、血漿DNA末端モチーフ分析のための表現型アプローチの概略図を示す。
【0030】
【
図22】本開示の実施形態による、全ての血漿DNA分子を使用したHCC対象とHBV対象間の4mer末端モチーフの頻度プロファイルの例を示す。
【0031】
【
図23A】本開示の実施形態による、種々のレベルの癌を有する様々な対象についての上位10個の血漿DNA4mer末端モチーフの複合頻度の箱ひげ図を示す。レベルは、対照:健康な対照対象、HBV:慢性B型肝炎保有者、Cirr:肝硬変の対象、eHCC:初期ステージのHCC、iHCC:即時ステージのHCC、およびaHCC:進行ステージ(advanced-stage)のHCCである。
【
図23B】本開示の実施形態による、HCC対象と非癌対象間の上位10個の血漿DNA4mer末端モチーフの複合頻度の受信者動作特性(ROC)曲線を示す。
【0032】
【
図24A】本開示の実施形態による、種々の群にわたるCCAモチーフの頻度の箱ひげ図を示す。
【
図24B】本開示の実施形態による、非HCC対象に存在する最も頻度の高い3merモチーフ(CCA)を使用した非HCC群とHCC群間のROC曲線を示す。
【0033】
【
図25A】本開示の実施形態による、256個の4mer末端モチーフを使用した種々の群にわたるエントロピー値の箱ひげ図を示す。
【
図25B】本開示の実施形態による、10個の4mer末端モチーフを使用した種々の群にわたるエントロピー値の箱ひげ図を示す。
【0034】
【
図26A】本開示の実施形態による、種々の群にわたる3merモチーフを使用したエントロピー値の箱ひげ図を示す。3merモチーフ(合計64モチーフ)を使用したHCC対象のエントロピーは、非HCC対象のエントロピーよりも有意に高い(p値<0.0001)ことがわかった。
【
図26B】本開示の実施形態による、非HCC群とHCC群間の64個の3merモチーフのエントロピーを使用したROC曲線を示す。AUCは0.872であることがわかった。
【0035】
【
図27A】本開示の実施形態による、種々の群にわたる4merを使用したモチーフの多様性(エントロピー)スコアの箱ひげ図を示す。
【
図27B】本開示の実施形態による、種々の群にわたる4merを使用したモチーフの多様性(エントロピー)スコアの箱ひげ図を示す。
【0036】
【
図28】本開示の実施形態による、健康な対照を癌から識別する様々な技術についての受信者動作曲線を示す。
【0037】
【
図29】本開示の実施形態による、様々なk merを使用したMDS分析についての受信者動作曲線を示す。
【0038】
【
図30】本開示の実施形態による、様々な腫瘍DNA画分についてのMDSベースの癌検出の性能を示す。
【0039】
【
図31】本開示の実施形態による、MDS、SVM、およびロジスティック回帰分析についての受信者動作曲線を示す。
【0040】
【
図32】本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる上位10個にランク付けされた末端モチーフについての階層的クラスタリング分析を示す。種々の群は、対照:健康な対照対象、HBV:慢性B型肝炎保有者、Cirr:肝硬変の対象、eHCC:初期ステージのHCC、iHCC:即時ステージのHCC、およびaHCC:進行ステージのHCCを含む。
【0041】
【
図33】
図33A~
図33Cは、本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる全ての血漿DNA分子を使用した階層的クラスタリング分析を示す。
【0042】
【
図34】本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる全ての血漿DNA分子を使用した、3merモチーフに基づく階層的クラスタリング分析を示す。
【0043】
【
図35A】本開示の実施形態による、健康な対照対象とSLE患者間の全ての血漿DNA分子を使用したエントロピー分析を示す。
【
図35B】本開示の実施形態による、健康な対照対象とSLE患者間の全ての血漿DNA分子を使用した階層的クラスタリング分析を示す。
【0044】
【
図36】本開示の実施形態による、健康な対照対象とSLE患者間の10個の選択された末端モチーフを有する血漿DNA分子を使用したエントロピー分析を示す。
【0045】
【
図37】本開示の実施形態による、末端モチーフおよびコピー数またはメチル化を含む複合分析のROC曲線を示す。
【0046】
【
図38A】本開示の実施形態による、HCCおよび非HCC対象における配列決定された血漿DNA断片およびそれらに隣接するゲノム配列の末端から共同で構築された4merに基づくエントロピー分析を示す。
【
図38B】本開示の実施形態による、HCCおよび非HCC対象における配列決定された血漿DNA断片およびそれらに隣接するゲノム配列の末端から共同で構築された4merに基づくクラスタリング分析を示す。
【0047】
【
図39】本開示の実施形態による、血漿DNAの末端モチーフを定義するために使用される
図1の技術140および160についてのROC比較を示す。
【0048】
【
図40】本開示の実施形態による、組織特異的オープンクロマチン領域が血漿DNA末端モチーフの識別力を改善することを示す精度の比較を示す。
【0049】
【
図41】本開示の実施形態による、サイズバンドに基づく血漿DNA末端モチーフ分析を示す。
【0050】
【
図42】本開示の実施形態による、対象の生物学的試料における病理のレベルを分類する方法を示すフローチャート。
【0051】
【
図43】本開示の実施形態による、臨床的関連DNAについて生物学的試料を濃縮する方法を示すフローチャート。
【0052】
【
図44】本開示の実施形態による、臨床的関連DNAについて生物学的試料を濃縮する方法3700を示すフローチャート。
【0053】
【
図45】本開示の実施形態による、CCCA末端モチーフを使用した胎児DNA画分における増加を示す例示的なプロットを示す。
【0054】
【
図46】本発明の実施形態による、測定システムを例示する。
【0055】
【
図47】本発明の実施形態による、システムおよび方法とともに使用可能な例示的なコンピュータシステムのブロック図を示す。
【発明を実施するための形態】
【0056】
用語
「組織」は、機能単位としてともに群化する細胞の群に対応する。2つ以上のタイプの細胞が、単一の組織内に見出され得る。種々のタイプの組織は、種々のタイプの細胞(例えば、肝細胞、肺胞細胞、または血球細胞)からなり得るが、種々の生物(母体対胎児)由来の組織または健常細胞対腫瘍細胞にも対応し得る。「参照組織」は、組織特異的メチル化レベルを決定するために使用される組織に対応し得る。種々の個体由来の同じ組織タイプの複数の試料を使用して、その組織タイプの組織特異的メチル化レベルを決定することができる。
【0057】
「生物学的試料」は、対象(例えば、妊婦、癌を有する人、または癌を有する疑いがある人などのヒト(または他の動物)、臓器移植レシピエント、または器官が関与する疾患プロセス(例えば、心筋梗塞における心臓、脳卒中における脳、もしくは貧血における造血系)を有する疑いがある対象)から採取され、目的の1つ以上の核酸分子を含有する任意の試料を指す。生物学的試料は、血液、血漿、血清、尿、膣液、水腫(例えば、精巣の)からの液体、膣洗浄液体、胸膜液、腹水、脳脊髄液、唾液、汗、涙、痰、気管支肺胞洗浄液、乳首からの排出液、体の種々の部分(例えば、甲状腺、乳腺)からの吸引液、眼内液(例えば、房水)などの体液であり得る。便試料もまた、使用され得る。様々な実施形態において、無細胞DNAのために濃縮された生物学的試料(例えば、遠心分離プロトコルを介して取得された血漿試料)におけるDNAの大部分は、無細胞であり得、例えば、DNAの50%超、60%超、70%超、80%超、90%超、95%超、または99%超は、無細胞であり得る。遠心分離プロトコルは、例えば、3,000g×10分で流体部分を取得することと、残留細胞を除去するために30,000gでさらに10分間再遠心分離することと、を含み得る。生物学的試料の分析の一環として、少なくとも1,000個の無細胞DNA分子が分析され得る。他の例として、少なくとも10,000個または50,000個または100,000個または500,000個または1,000,000個または5,000,000個、またはそれより多い無細胞DNA分子が分析され得る。
【0058】
「臨床的関連DNA」は、例えば、そのようなDNAの画分濃度を決定するため、または試料(例えば、血漿)の表現型を分類するために、測定されるべき特定の組織供給源のDNAを指し得る。臨床的関連DNAの例は、母体血漿における胎児DNA、または患者の血漿における腫瘍DNA、または無細胞DNAを含む他の試料である。別の例は、移植患者の血漿、血清または尿における移植片関連DNAの量の測定を含む。さらなる例は、対象の血漿における造血性および非造血性DNAの画分濃度、または試料における肝臓DNA断片(もしくは他の組織)の画分濃度、または脳脊髄液における脳DNA断片の画分濃度の測定を含む。
【0059】
「配列リード」は、核酸分子の任意の部分または全部から配列決定されるヌクレオチドの鎖を指す。例えば、配列リードは、核酸断片から配列決定された短鎖ヌクレオチド(例えば、約20~150ヌクレオチド)、核酸断片の片端もしくは両端の短鎖ヌクレオチド、または生物学的試料中に存在する核酸断片全体の配列決定であり得る。配列リードは、例えば、配列決定技術を使用した、またはプローブを使用した種々の方法で、例えば、ハイブリダイゼーションアレイもしくは捕捉プローブで、または単一プライマーもしくは等温増幅を使用した、ポリメラーゼ連鎖反応(PCR)もしくは線形増幅などの増幅技術で、取得することができる。生物学的試料の分析の一部として、少なくとも1,000個の配列リードが分析され得る。他の例として、少なくとも10,000個または50,000個または100,000個または500,000個または1,000,000個または5,000,000個、またはそれより多い配列リードが分析され得る。
【0060】
配列リードは、断片の末端に関連する「末端配列」を含み得る。末端配列は、断片の最も外側のN塩基、例えば断片の末端の2~30塩基に対応し得る。配列リードが断片全体に対応する場合、配列リードは2つの末端配列を含み得る。対の末端配列決定が断片の末端に対応する2つの配列リードを提供する場合、各配列リードは1つの末端配列を含み得る。
【0061】
「配列モチーフ」は、DNA断片(例えば、無細胞DNA断片)における塩基の短い繰り返しパターンを指し得る。配列モチーフは、断片の末端に生じ得、したがって、末端配列の一部であるか、またはそれを含み得る。「末端モチーフ」は、潜在的に特定のタイプの組織について、DNA断片の末端で優先的に生じる末端配列についての配列モチーフを指し得る。末端モチーフはまた、断片の末端の直前または直後に生じ得、それにより、依然として末端配列に対応する。
【0062】
「対立遺伝子」という用語は、同じ物理的ゲノム遺伝子座にある代替DNA配列を指し、異なる表現型の特徴をもたらす場合ともたらさない場合がある。各染色体のコピーが2つある任意の特定の二倍体生物(男性の対象の性染色体を除く)では、各遺伝子の遺伝子型は、ホモ接合体においては同じであり、ヘテロ接合体においては異なる、その遺伝子座に存在する対立遺伝子の対を含む。生物の集団または種は、典型的には、様々な個体の各遺伝子座に複数の対立遺伝子を含む。集団内に2つ以上の対立遺伝子が見られるゲノム遺伝子座は、多型部位と呼ばれる。遺伝子座での対立遺伝子多様性は、存在する対立遺伝子の数(すなわち、多型の程度)、または集団内のヘテロ接合体の割合(すなわち、ヘテロ接合性率)として測定可能である。本明細書で使用される「多型」という用語は、その頻度に関係なく、ヒトゲノムにおける任意の個体間の多様性を指す。そのような多様性の例は、一塩基多型、単純なタンデムリピート多型、挿入-欠失多型、変異(疾患を引き起こし得る)、およびコピー数の多様性を含むが、これらに限定されない。本明細書で使用される「ハプロタイプ」という用語は、同じ染色体または染色体領域上で一緒に伝達される複数の遺伝子座での対立遺伝子の組み合わせを指す。ハプロタイプは、わずか1対の遺伝子座、または染色体領域、または染色体全体または染色体腕を指し得る。
【0063】
「画分胎児DNA濃度」という用語は、「胎児DNAの割合」および「胎児DNA画分」という用語と互換的に使用され、胎児に由来する生物学的試料(例えば、母体の血漿または血清試料)に存在する胎児DNA分子の割合を指す(Lo et al,Am J Hum Genet.1998;62:768-775、Lun et al,Clin Chem.2008;54:1664-1672)。同様に、腫瘍画分または腫瘍DNA画分は、生物学的試料における腫瘍DNAの画分濃度を指し得る。
【0064】
「相対頻度」は、割合(例えば、パーセンテージ、画分、または濃度)を指し得る。特に、特定の末端モチーフ(例えば、CCGA)の相対頻度は、例えば、CCGAの末端配列を有することによって、末端モチーフCCGAに関連する無細胞DNA断片の割合を提供し得る。
【0065】
「集計値」は、例えば、末端モチーフのセットの相対的頻度の集合的特性を指し得る。例には、平均、中央値、相対頻度の合計、相対頻度間の変動(例えば、エントロピー、標準偏差(SD)、変動係数(CV)、四分位範囲(IQR)、または種々の相対頻度中の特定のパーセンタイルカットオフ(例えば95または99パーセンタイル))、またはクラスタリングで実装し得る相対頻度の参照パターンからの差(例えば、距離)を含む。
【0066】
「較正試料」は、臨床的関連DNAの画分濃度(例えば、組織特異的DNA画分)が既知であるか、または較正方法を介して、例えば、ドナーのゲノムには存在するがレシピエントのゲノムには存在しない対立遺伝子を移植臓器のマーカーとして使用し得る移植など、組織に特異的な対立遺伝子を使用して決定される生物学的試料に対応し得る。別の例として、較正試料は、末端モチーフを決定し得る試料に対応し得る。較正試料は、両方の目的に使用され得る。
【0067】
「較正データ点」は、「較正値」および臨床的関連DNA(例えば、特定の組織タイプのDNA)の測定されたまたは既知の画分濃度を含む。較正値は、臨床的関連DNAの画分濃度が既知である較正試料について決定された相対頻度(例えば、集計値)から決定され得る。較正データ点は、様々な方法で、例えば、離散点として、または較正関数(検量線または較正面とも呼ばれる)として定義され得る。較正関数は、較正データ点の追加の数学的変換から導出され得る。
【0068】
「部位」(「ゲノム部位」とも呼ばれる)は、単一の塩基位置、または相関する塩基位置の群、例えば、CpG部位、または相関する塩基位置のより大きい群であり得る、単一の部位に対応する。「遺伝子座」は、複数の部位を含む領域に対応し得る。遺伝子座は、遺伝子座をその文脈における部位と等価にするであろうただ1つの部位を含み得る。
【0069】
各ゲノム部位(例えば、CpG部位)に対する「メチル化指数」は、その部位におけるメチル化を、その部位をカバーするリードの総数にわたって示す、(例えば、配列リードまたはプローブから決定されるような)DNA断片の割合を指し得る。「リード」は、DNA断片から取得された情報(例えば、部位のメチル化状態)に対応し得る。リードは、特定のメチル化状態のDNA断片と優先的にハイブリダイズする試薬(例えば、プライマーまたはプローブ)を使用して、取得され得る。典型的には、このような試薬は、DNA分子のメチル化状態に応じてDNA分子を差別的に修飾する、または差別的に認識するプロセス、例えば、バイサルファイト変換、またはメチル化感受性制限酵素、またはメチル化結合タンパク質、または抗メチルシトシン抗体、または例えばメチルシトシンおよびヒドロキシメチルシトシンを認識する一分子配列決定技術、で処理後に適用される。
【0070】
領域の「メチル化密度」は、この領域における部位をカバーするリードの総数で割った、メチル化を示す領域内の部位でのリード数を指し得る。この部位は、具体的な特徴を有し得、例えば、CpG部位であり得る。したがって、領域の「CpGメチル化密度」は、この領域におけるCpG部位(例えば、特定のCpG部位、CpGアイランド内またはそれより大きな領域のCpG部位)をカバーするリードの総数で割ったCpGメチル化を示すリード数を指す。例えば、ヒトゲノム中の各100kbビンのメチル化密度は、100kb領域へマッピングされた配列リードによってカバーされた全てのCpG部位の割合として、CpG部位のバイサルファイト処理後に変換されていないシトシン(メチル化されたシトシンに対応する)の総数から決定され得る。この分析はまた、500bp、5kb、10kb、50kb、もしくは1Mbなどの他のビンサイズに対して実施され得る。領域は、全ゲノム、または染色体、または染色体の一部(例えば、染色体腕)であり得る。CpG部位のメチル化指数は、領域がそのCpG部位のみを含む場合、その領域のメチル化密度と同じである。「メチル化シトシンの割合」は、領域において分析されたシトシン残基の総数、すなわちCpGの文脈外のシトシンを含む、に対する、メチル化されていることが示されている(例えば、バイサルファイト変換後に変換されていない)シトシン部位「C」の数を指し得る。メチル化指数、メチル化密度、およびメチル化シトシンの割合は、「メチル化レベル」の例である。バイサルファイト変換とは別に、当業者に既知の他のプロセスは、DNA分子のメチル化状態を調べるために使用され得、メチル化状態に感受性のある酵素(例えば、メチル化感受性制限酵素)、メチル化結合タンパク質、メチル化状態に感受性のあるプラットフォームを使用する単一分子配列決定(例えば、ナノポア配列決定(Schreiber et al,Proc Natl Acad Sci USA.2013;110:18910-18915)およびPacific Biosciences単一分子リアルタイム分析による(Flusberg et al,Nat Methods.2010;7:461-465))を含むが、これらに限定されない。DNA分子のメチル化メトリックは、メチル化されている部位(例えば、CpG部位)のパーセンテージに対応し得る。メチル化メトリックは、絶対数またはパーセンテージとして指定され得、これは、分子のメチル化密度と呼ばれ得る。
【0071】
「配列決定深度」という用語は、遺伝子座が、その遺伝子座にアラインメントされた配列リードによってカバーされる回数を指す。遺伝子座は、ヌクレオチドの小ささ、または染色体腕の大きさ、またはゲノム全体の大きさであり得る。配列決定深度は、50x、100xなどと表され、「x」は、遺伝子座が配列リードでカバーされる回数を指す。また、配列決定深度は、複数の遺伝子座またはゲノム全体に適用することもでき、この場合、xはそれぞれ、遺伝子座もしくはハプロイドゲノムまたはゲノム全体が配列決定される平均回数を指し得る。ウルトラディープ配列決定は、少なくとも100xの配列決定深度を指し得る。
【0072】
「分離値」は、2つの値を包含する差または比、例えば、2つの画分寄与または2つのメチル化レベルに相当する。分離値は、単純な差または比であり得る。例として、x/yの直接比はx/(x+y)と同様に分離値である。分離値は、他の因子、例えば、倍数因子を含み得る。他の例として、値の関数の差または比、例えば、2つの値の自然対数(ln)の差または比が使用され得る。分離値には、差および比を含み得る。
【0073】
「分離値」および「集計値」(例えば、相対頻度)は、異なる分類(状態)間で変化する試料の測定値を提供するパラメータ(メトリックとも呼ばれる)の2つの例であり、したがって様々な分類を決定するために使用され得る。集計値は、例えば、クラスタリングで行われるように、試料の相対頻度のセットと相対頻度の参照セット間で差が取られる場合の分離値であり得る。
【0074】
本明細書で使用される「分類」という用語は、試料の特定の特性と関係した任意の数(複数可)または他の特徴(複数可)を指す。例えば、「+」という記号(または「陽性」という語)は、試料が欠失または増幅を有するものとして分類されることを意味し得る。分類は、二項(例えば、陽性または陰性)であり得、またはより多くのレベルの分類(例えば、1~10または0~1のスケール)を有し得る。
【0075】
「カットオフ」および「閾値」という用語は、ある操作において使用される所定の数を指す。例えば、カットオフサイズは、それを超えると断片が除外されるサイズを指し得る。閾値は、特定の分類が適用されるのを上回るまたは下回る値であり得る。これらの用語のいずれかは、これらの文脈のいずれかにおいて使用され得る。カットオフまたは閾値は、「参照値」であり得るか、または特定の分類を表すか、もしくは2つ以上の分類間を区別する参照値から導出され得る。そのような参照値は、当業者によって理解されるように、様々な方法で決定され得る。例えば、メトリックは、異なる既知の分類を有する対象の2つの異なるコホートについて決定され得、参照値は、1つの分類(例えば、平均)の代表として、またはメトリックの2つのクラスター間の値(例えば、所望の感度および特異度を取得するために選択された)として選択され得る。別の例として、参照値は、試料の統計シミュレーションに基づいて決定され得る。
【0076】
「癌のレベル」という用語は、癌が存在するかどうか(すなわち、存在または不在)、癌のステージ、腫瘍のサイズ、転移があるかどうか、体の総腫瘍負荷、治療に対する癌の応答、および/または癌の重症度の他の尺度(例えば、癌の再発)を指し得る。癌のレベルは、数字、または、記号、アルファベット文字、および色などの他のしるしであり得る。レベルは、ゼロであり得る。癌のレベルは、前悪性病態または前癌性病態(状態)も含み得る。癌のレベルは、様々な方法で使用され得る。例えば、スクリーニングは、癌を有することを今まで知らなかった人物において癌が存在するかどうかをチェックし得る。評価は、癌と診断されている人物を調べて、癌の進行を経時的に監視し、療法の有効性を研究し、または予後を決定し得る。一実施形態において、予後は、患者が癌で死亡する可能性、または特定の持続時間または特定の時間の後、癌が進行する可能性、または癌が転移する可能性もしくは程度として表し得る。検出は、「スクリーニング」を意味し得るか、または癌の示唆的な特徴(例えば、症状または他の陽性検査)を有する人物が癌を有するかどうかをチェックすることを意味し得る。
【0077】
「病理のレベル」は、生物に関連する病理の量、程度、重症度を指し得、そのレベルは、癌について上記のとおりであり得る。病理の別の例は、移植された臓器の拒絶反応である。他の病理の例には、自己免疫発作(例えば、腎臓を損傷するループス腎炎または多発性硬化症)、炎症性疾患(例えば、肝炎)、線維化プロセス(例えば、肝硬変)、脂肪浸潤(例えば、脂肪肝疾患)、変性プロセス(例えば、アルツハイマー病)、および虚血性組織損傷(例えば、心筋梗塞または脳卒中)を含み得る。対象の健康な状態は、病理のない分類とみなし得る。
【0078】
「約」または「およそ」という用語は、当業者によって決定される特定の値の許容誤差範囲内を意味し得、これは値の測定または決定方法、すなわち測定システムの制限について部分的に依存する。例えば、「約」は、当技術分野の慣例により、1以内または1を超える標準偏差を意味し得る。あるいは、「約」は、所与の値の最大20%、最大10%、最大5%、または最大1%の範囲を意味し得る。あるいは、特に生物学的システムまたはプロセスに関して、「約」または「およそ」という用語は、値の1桁以内、5倍以内、より好ましくは2倍以内を意味し得る。本出願および特許請求の範囲に特定の値が記載されている場合、特に明記しない限り、特定の値の許容誤差範囲内の「約」という用語を想定すべきである。「約」という用語は、当業者によって一般に理解されている意味を有し得る。「約」という用語は、±10%を指し得る。「約」という用語は、±5%を指し得る。
詳細な説明
【0079】
本開示は、試料の特性を測定するため、および/またはそのような測定に基づいて生物の状態を決定するために、生物の生物学的試料中の無細胞DNA断片の末端モチーフの量(例えば、相対頻度)を測定するための技術を記載する。種々の組織タイプは、配列モチーフの相対頻度について種々のパターンを示す。本開示は、例えば、様々な組織からの無細胞DNAの混合物における、無細胞DNAの末端モチーフの相対頻度の測定のための様々な使用を提供する。そのような組織のうちの1つに由来するDNAは、臨床的関連DNAと呼ばれ得る。
【0080】
特定の組織の(例えば、胎児、腫瘍、または移植された臓器の)臨床的関連DNAは、相対頻度の特定のパターンを示し、これは集計値として測定され得る。試料における他のDNAは、異なるパターンを示し得、それによって試料における臨床的関連DNAの量の測定が可能になる。したがって、一例では、臨床的関連DNAの画分濃度(例えば、パーセンテージ)は、末端モチーフの相対頻度に基づいて決定され得る。画分濃度は、数、数値範囲、または他の分類、例えば、高、中、または低、または画分濃度が閾値を超えるかどうかであり得る。様々な実装において、集計値は、末端モチーフのセットの相対頻度の合計、末端モチーフ全てまたはセットの相対頻度の分散(例えば、エントロピー、モチーフ多様性スコアとも呼ばれる)、または、参照パターン、例えば、既知の画分濃度を有する較正試料(複数可)の相対頻度のアレイ(ベクトル)からの差(例えば、総距離)であり得る。そのようなアレイは、相対頻度の参照セットとみなされ得る。そのような差は、階層的クラスタリング、サポートベクターマシン、ロジスティック回帰などの分類器において使用され得る。例として、臨床的関連DNAは、胎児、腫瘍、移植臓器、または他の組織(例えば、造血性または肝臓)のDNAであり得る。
【0081】
別の例において、病理のレベルは、モチーフの相対頻度を使用して決定され得る。異なる表現型を有する生物は、無細胞DNA断片のモチーフ相対頻度の異なるパターンを示し得る。末端モチーフの相対頻度の集計値は、表現型を分類するために参照値と比較され得る。様々な実装において、集計値は、相対頻度の合計、相対頻度の分散、または相対頻度の参照セットからの差であり得る。病理の例には、癌およびSLEなどの自己免疫疾患を含む。
【0082】
別の例において、モチーフ相対頻度は、胎児の在胎期間を決定するために使用され得る。母体試料において、胎児の在胎期間が長くなる結果として、末端モチーフの相対頻度の集計値は、変化する。そのような集計値は、上記および他の場所で説明されているように決定され得る。
【0083】
特定の組織由来の無細胞DNA断片が好ましい特定の末端モチーフのセットを有することを考慮すると、好ましい末端モチーフは、特定の組織由来のDNA(臨床的関連DNA)について試料を濃縮するために使用され得る。そのような濃縮は、物理試料を濃縮するための物理操作を介して実施され得る。いくつかの実施形態は、例えば、プライマーまたはアダプターを使用して、好ましい末端モチーフのセットに一致する末端配列を有する無細胞DNA断片を捕捉および/または増幅し得る。他の例が、本明細書に記載される。
【0084】
いくつかの実施形態において、濃縮は、インシリコで実施され得る。例えば、システムは、配列リードを受信し、末端モチーフに基づいてリードをフィルタリングして、臨床的関連DNAから対応するDNA断片の濃度が高い配列リードのサブセットを取得し得る。DNA断片が好ましい末端モチーフを含む末端配列を有する場合、それは目的の組織に由来する尤度がより高いと同定し得る。本明細書に記載されているように、尤度は、DNA断片のメチル化およびサイズに基づいてさらに決定され得る。
【0085】
このような末端モチーフの使用は、末端位置を使用する場合に必要となり得る参照ゲノムの必要性を回避し得る(Chan et al,Proc Natl Acad Sci USA.2016;113:E8159-8168、Jiang et al,Proc Natl Acad Sci USA.2018;doi:10.1073/pnas.1814616115))。さらに、末端モチーフの数は参照ゲノムにおいて好ましい末端位置の数よりも少ない可能性があるため、各末端モチーフについてより多くの統計が収集され得、精度が向上し得る。
【0086】
例えば、Chandranandaらは、断片開始部位周辺の51bp(上流/下流20bp)の領域のモノヌクレオチド頻度に関する位置特異的ヌクレオチドパターンに関して、母体と胎児の断片間に高い類似性があることを見出し(Chandrananda et al,BMC Med Genomics.2015;8:29)、それは末端周辺のモノヌクレオチド頻度に基づくそれらの方法の使用が、無細胞DNA断片の起源の組織の情報を与えることができないことを意味するため、上記の方法で末端モチーフを使用するそのような能力は驚くべきことである。
【0087】
I.無細胞DNA末端モチーフ
末端モチーフは、無細胞DNA断片の末端配列、例えば、断片のいずれかの末端でのK塩基の配列に関する。末端配列は、例えば、1、2、3、4、5、6、7などの様々な数の塩基を有するk merであり得る。末端モチーフ(または「配列モチーフ」)は、参照ゲノムの特定の位置とは対照的に、配列自体に関する。したがって、同じ末端モチーフは、参照ゲノム全体の多数の位置に生じ得る。末端モチーフは、例えば、開始位置の直前または終了位置の直後の塩基を同定するために、参照ゲノムを使用して決定され得る。このような塩基は、例えば、断片の末端配列に基づいて同定されるため、無細胞DNA断片の末端に対応する。
【0088】
図1は、本開示の実施形態による末端モチーフの例を示す。
図1は、分析する4mer末端モチーフを定義する2つの方法を示す。技術140において、4mer末端モチーフは、血漿DNA分子の各末端の最初の4bp配列から直接構築される。例えば、配列決定された断片の最初の4ヌクレオチドまたは最後の4ヌクレオチドが使用され得る。技術160において、4mer末端モチーフは、断片の配列決定された末端からの2mer配列およびその断片の末端に隣接するゲノム領域からの他の2mer配列を利用することによって共同で構築される。他の実施形態において、他のタイプのモチーフ、例えば、1mer、2mer、3mer、5mer、6mer、および7merの末端モチーフが使用され得る。
【0089】
図1に示すとおり、無細胞DNA断片110は、例えば、遠心分離などによる血液試料の精製プロセスを使用して取得される。血漿DNA断片に加えて、例えば、血清、尿、唾液、および本明細書で言及される他のそのような無細胞試料由来の他のタイプの無細胞DNA分子が使用され得る。一実施形態において、DNA断片は、平滑末端化され得る。
【0090】
ブロック120で、DNA断片は、対末端配列決定に供される。いくつかの実施形態において、対末端配列決定は、DNA断片の2つの末端から2つの配列リード、例えば、配列リードあたり30~120塩基を生成し得る。これらの2つの配列リードは、DNA断片(分子)の一対のリードを形成し得、各配列リードは、DNA断片のそれぞれの末端の末端配列を含む。他の実施形態において、DNA断片全体が配列決定され得、それにより、DNA断片の両端の末端配列を含む単一の配列リードを提供する。
【0091】
ブロック130で、配列リードは、参照ゲノムにアラインメントされ得る。このアラインメントは、配列モチーフを定義するための異なる方法を説明するためのものであり、いくつかの実施形態において使用されない場合がある。アラインメント手順は、BLAST、FASTA、Bowtie、BWA、BFAST、SHRiMP、SSAHA2、NovoAlign、およびSOAPなどの様々なソフトウェアパッケージを使用して実施され得る。
【0092】
技術140は、ゲノム145へのアラインメントを有する、配列決定された断片141の配列リードを示す。5’末端を開始とみなして、第1の末端モチーフ142(CCCA)は、配列決定された断片141の開始にある。第2の末端モチーフ144(TCGA)は、配列決定された断片141の尾部にある。そのような末端モチーフは、一実施形態において、酵素がCCCAを認識し、次に最初のCの直前に切断を行うときに生じ得る。その場合、CCCAは優先的に血漿DNA断片の末端にある。TCGAについては、酵素がそれを認識し、Aの後に切断を行い得る。
【0093】
技術160は、ゲノム165へのアラインメントを有する、配列決定された断片161の配列リードを示す。5’末端を開始とみなして、第1の末端モチーフ162(CGCC)は、配列決定された断片161の開始の直前に生じる第1の部分(CG)、および配列決定された断片161の開始の末端配列の一部である第2の部分(CC)を有する。第2の末端モチーフ164(CCGA)は、配列決定された断片161の尾部の直後に生じる第1の部分(GA)、および配列決定された断片161の尾部の末端配列の一部である第2の部分(CC)を有する。このような末端モチーフは、一実施形態において、酵素がCGCCを認識し、次にGとCとの間を切断するときに生じ得る。その場合、CCは、その直前にCGが生じている血漿DNA断片の末端に優先的に存在し、それによってCGCCの末端モチーフを提供するであろう。第2の末端モチーフ164(CCGA)については、酵素はCとGとの間を切断し得る。その場合、CCは優先的に血漿DNA断片の末端に存在するであろう。技術160について、隣接するゲノム領域および配列決定された血漿DNA断片からの塩基の数を変えられ得、必ずしも固定比率に制限されるとは限らず、例えば、2:2の代わりに、比率は2:3、3:2、4:4、2:4などであり得る。
【0094】
無細胞DNA末端のシグネチャに含まれるヌクレオチドの数が多いほど、モチーフの特異性が高くなり、これは、ゲノムにおいて正確な構成で順序付けられた6塩基を有する確率が、ゲノムにおいて正確な構成で順序付けられた2塩基を有する確率よりも低いためである。したがって、末端モチーフの長さの選択は、使用目的の用途に必要な感度および/または特異度によって支配され得る。
【0095】
末端配列は、配列リードを参照ゲノムにアラインメントするために使用されるため、末端配列、または直前/直後から決定された任意の配列モチーフは、依然として末端配列から決定される。したがって、技術160は、他の塩基への末端配列の関連を作成し、参照は、その関連を作成するためのメカニズムとして使用される。技術140と160間の差異は、特定のDNA断片がどの2つの末端モチーフに割り当てられるかであり、これは、相対頻度についての特定の値に影響を与える。しかし、製造において使用されるものとして一貫した技術がトレーニングデータに使用される限り、全体的な結果(例えば、臨床的関連DNAの画分濃度、病理のレベルの分類など)は、DNA断片が末端モチーフにどのように割り当てられるかによって影響を受ない。
【0096】
特定の末端モチーフに対応する末端配列を有するDNA断片のカウントされた数は、相対頻度を決定するためにカウントされ得る(例えば、メモリ内のアレイに保存され得る)。以下でより詳細に説明するように、無細胞DNA断片についての末端モチーフの相対頻度は分析され得る。末端モチーフの相対頻度における差は、種々のタイプの組織および種々の表現型、例えば種々のレベルの病理について検出されている。該差は、特定の末端モチーフを有するDNA断片の量または末端モチーフのセット(例えば、使用される長さに対応するk merの全ての可能な組み合わせ)にわたる全体的なパターン、例えば、分散(エントロピーなど、モチーフ多様性スコアとも呼ばれる)によって定量化され得る。
【0097】
II.遺伝子型の差異に基づくアプローチ
種々の組織タイプが種々の末端モチーフを有することを同定した。本明細書では、末端モチーフを使用して、臨床的関連DNA、例えば、胎児DNA、腫瘍DNA、移植された臓器からのDNA、または特定の器官からのDNAの画分濃度を決定する方法を説明する。
【0098】
特定のタイプの臨床的関連DNAに優先的な末端モチーフを同定するために、遺伝子型の差異は、臨床的関連組織に由来するものとしてDNA断片を同定するために使用され得る。DNA断片が臨床的関連組織由来のものであることが検出されると、DNA断片の末端モチーフが決定され得る。末端モチーフの相対頻度の分析は、末端モチーフの相対頻度が種々の組織によって変化することを明らかにする。以下で説明するように、相対頻度の差の定量化は、臨床的関連DNAの画分濃度が既知である較正試料(複数可)(例えば、組織特異的対立遺伝子などの別の技術によって測定された)と組み合わせて使用され得、生物学的試料における臨床的関連DNAの画分濃度の分類を決定する。
【0099】
較正試料における臨床的関連DNAの画分濃度の測定が必要な場合があるが、結果として得られる較正値(例えば、較正関数の一部として)は、臨床的関連DNAに固有のものである対立遺伝子を同定することなく、新しい試料の画分濃度を決定するために使用され得る。このようにして、画分濃度は、より堅牢な方法で決定され得る。
【0100】
A.妊娠
母体および胎児ゲノム間の遺伝子型の差異は、胎児および母体DNA分子を区別するために使用され得る。例えば、母親がホモ接合(AA)で、胎児がヘテロ接合(AB)である有益な一塩基多型(SNP)部位を利用し得る。
【0101】
図2は、本開示の実施形態による、胎児および母体DNA分子間の示差的末端モチーフパターンを分析するための遺伝子型の差異ベースアプローチの概略図を示す。
図2に示すように、胎児特異的対立遺伝子(B)を保有する胎児特異的分子205が決定され得る。他方、共有対立遺伝子(A)を保有する共有分子207が決定され得、これは、胎児DNA分子が概して母体血漿DNAプールにおける少数派であるため、主に母体由来のDNA分子を表す。したがって、共有分子に由来する任意の分子の特性は、母体のバックグラウンドDNA分子(すなわち、造血系由来のDNA分子)の特徴を反映する。対立遺伝子に加えて、他の胎児特異的マーカー(例えば、エピジェネティックマーカー)が使用され得る。
【0102】
図1の技術140を使用して、4mer末端モチーフを分析した。256個の末端モチーフが分析された。各4merモチーフの割合を計算し、棒グラフ220として示される棒グラフを使用して256個のモチーフにわたって頻度を比較した。このような棒グラフは、各4merが末端モチーフとして生じる相対頻度(%)を提供する。説明を簡単にするために、いくつかの4merのみを示す。相対頻度(単に「頻度」と呼ばれることもある)は、(末端モチーフを有するDNA断片の数)/分析されたDNA断片の総数によって決定され得、両末端をカウントするために分母において2つの因数を有する場合がある。そのようなパーセンテージは、1つ以上の他のモチーフ(潜在的に第1の末端モチーフを含む)の量に対する第1の末端モチーフについての1つの量(例えば、カウント)の比率に関連するので、相対頻度とみなされ得る。見てのとおり、末端モチーフ222は、種々の組織タイプのDNA断片間で相対頻度に顕著な差を有する。このような差は、様々な目的、例えば、胎児DNAについて試料を濃縮する、または胎児DNA濃度を決定するために使用され得る。
【0103】
棒グラフ220に示される相対頻度の値は、256個の値を有するアレイに値を保存され得る。カウンターは、末端モチーフのセットの各末端モチーフに対して存在し得、特定の末端モチーフのカウンターは、新しいDNA断片がそのカウンターに対応する末端モチーフを有するたびに増分される。モチーフのセットは、例えば、全ての末端モチーフ、または参照試料において最も多く生じるものまたは参照試料において最大の分離を示すものなど、より小さなセットとして様々な方法で選択され得る。
【0104】
様々な定量化技術は、試料の相対頻度についての尺度を提供するために使用され得、そのような定量化技術は、臨床的関連DNA由来の無細胞DNAの量を分類するために使用され得る。一例の定量化技術は、本明細書では複合頻度とも呼ばれる、末端モチーフのセットの相対頻度の合計を含む。例として、そのようなセットは、特定の組織タイプで最も頻繁に生じる、または2つの組織タイプ間で最大の分離を有すると同定される末端モチーフであり得る。加重合計も使用され得る。重みは、事前に決定され得、または可変であり得、例えば、所与の頻度の重みは、頻度自体に依存し得る。エントロピーはそのような例である。
【0105】
別の実施形態において、胎児および母体DNA分子間の末端モチーフにおける状勢の差異を捕捉するために、エントロピーベース分析230が使用され得る。エントロピーは分散/多様性の一例である。モチーフ(例えば、合計256個のモチーフ)の頻度の分布を分析するために、エントロピーの1つの定義は次の方程式を使用する:
【数1】
式中、P
iは特定のモチーフの頻度であり、エントロピー値が高いほど、多様性が高い(すなわち、ランダム性が高い)ことを示す。
【0106】
この例では、256個のモチーフが、頻度に関して等しく存在する場合、エントロピーは最大値(すなわち、5.55)を達成する。対照的に、256個のモチーフが、頻度において偏った分布を有する場合、エントロピーは減少する。例えば、ある特定のモチーフが99%を占め、他のモチーフが残りの1%を構成する場合、この定式化においては、エントロピーは0.11に減少するが、ログなしまたはログのみを使用するなど、他の定式化が使用され得る。したがって、モチーフ頻度のエントロピーの減少は、末端モチーフにわたる頻度分布における歪みの増加を意味する。モチーフ頻度の増加するエントロピーは、モチーフにわたる頻度がそれらのモチーフの等しい確率に向かってシフトすることを示唆する。したがって、モチーフ頻度のエントロピーは、血漿DNAにおいて末端モチーフの存在量がどれだけ均一に存在するかを測定する。モチーフ頻度における均一の程度が高いほど、より高いエントロピー値が期待される。言い換えれば、モチーフ頻度のエントロピーの減少は、その頻度に関して、末端モチーフにわたって歪みの増加を意味する。
【0107】
様々な他の例において、種々のモチーフの頻度の間での標準偏差(SD)、変動係数(CV)、四分位範囲(IQR)または特定のパーセンタイルのカットオフ(例えば、95または99パーセンタイル)は、胎児および母体DNA分子間の末端モチーフパターンの状勢変化を評価するために、使用され得る。このような様々な例は、末端モチーフのセットについての相対頻度における分散/多様性の尺度を提供する。
図2におけるエントロピーの定義を考慮すると、1つの末端モチーフのみがゼロでないカウントを有する場合、エントロピーは最小値を有する。他の末端モチーフがいくつかのDNA断片において現れる場合、エントロピーは増加するであろう。選択がない場合(例えば、全てが同じ頻度を有する1つの仮想シナリオにおける全ての末端モチーフについてのランダム分布)、エントロピーは最大値になるであろう。このようにして、エントロピーは、末端モチーフについての無細胞DNA断片の末端配列の全体的な選択性を定量化する。
【0108】
プロット235は、共有配列(主に母体)および胎児配列のエントロピー値を示している。共有配列は、ジェノタイピング測定についての許容誤差内で、ほぼ100%の胎児DNAを有する胎児配列よりも少ない胎児DNA(元の試料に10%の胎児DNAが含まれる場合は約5%)を含む。この分離を考慮すると、試料における胎児DNAの濃度が高いほど、エントロピー値の差は大きくなる。胎児DNA濃度とエントロピー間のこの関係は、例えば、1つ以上の較正値を使用して測定されるように、胎児DNA濃度を決定するために使用され得る。例えば、臨床的関連DNAの濃度は、別の技術を使用して較正試料に対して測定され得(較正値がもたらされ)、これは、男性の胎児にY染色体DNAを使用すること、または腫瘍組織について以前に同定された変異を使用することなど、概して、適用可能となり得ない。較正試料についてのエントロピー測定値を考慮すると、2つのエントロピー値(1つは試験試料について、もう1つは較正試料について)の比較は、較正試料において測定された濃度を使用して、試験試料についての画分濃度を提供し得る。較正値および較正関数のこのような使用のさらなる詳細については、後に記載する。
【0109】
さらに別の実施形態において、クラスタリングベース分析240が採用され得る。縦軸は4merのモチーフに対応し、横軸は、例えば、胎児DNAの濃度について種々の分類を有する種々の試料に対応する。色は、特定の試料についての特定の4merモチーフの相対頻度に対応し、例えば、赤の較正試料242は値が低い緑の較正試料244よりも濃度が高い。
【0110】
クラスタリングベース分析は、256個の4mer末端モチーフの頻度プロファイルの類似性が、胎児および母体DNA分子間の類似性(すなわち、群間の分子特性)と比較して、胎児DNA分子内または母体DNA分子内(すなわち、群内分子特性)のいずれかで比較的高いという仮定を利用し得る。したがって、共有配列に由来する末端モチーフ(例えば、より高濃度の共有配列)で特徴付けられる個体の較正試料は、胎児特異的配列に由来する末端モチーフで特徴付けられる個体の較正試料(例えば、共有配列の濃度が低く、したがって胎児がより高い)とは異なると予想された。各個体は、256個の末端モチーフおよびそれに対応する頻度を含むベクトル(すなわち、256次元のベクトル)に対応した。クラスタリング技術の例には、階層的クラスタリング、重心ベースクラスタリング、分布ベースクラスタリング、密度ベースクラスタリングを含むが、これらに限定されない。種々のクラスターは、母体および胎児DNA断片間の末端モチーフの頻度における差により、それらは種々の相対頻度のパターンを有するため、試料における胎児DNAの異なる量に対応し得る。
【0111】
胎児および母体DNA分子間の末端モチーフの差異を評価するために、マイクロアレイプラットフォーム(Human Omni2.5、Illumina)を使用して母体のバフィーコートおよび胎児の試料をそれぞれ遺伝子型決定し、一致した血漿DNA試料を配列決定した。第1(12~14週)、第2(20~23週)、および第3(38~40週)三半期の各々からの10人の妊婦由来の末梢血試料を取得し、各状況に由来する血漿および母体のバフィーコート試料を採取した。母親がホモ接合で、胎児がヘテロ接合である195,331個の有益なSNP(範囲:146,428-202,800)の中央値を取得した。胎児特異的対立遺伝子を保有する血漿DNA分子は、胎児特異的DNA分子として同定された。共有対立遺伝子を保有する血漿DNA分子が同定され、主に母体由来のDNA分子であると考えられている。これらの試料の間の胎児DNA画分中央値は、17.1%(範囲:7.0%~46.8%)であった。マッピングされた対末端リードの1億300万の中央値(範囲:5200万~1億8600万)が、各状況について取得された。各血漿DNA分子の末端モチーフは、断片末端に最も近い4mer配列を生物情報学的に調査することによって決定された。この試料セットの分析結果は以下に提供する。
【0112】
1.ランク付け順の相対頻度における差
胎児および母体DNA分子間のモチーフ頻度のランク付けされた差における上位末端モチーフは、胎児および母体DNA分子の検出または濃縮に役立つと考えた。したがって、270xの配列決定深度の1人の妊婦における胎児および母体DNA分子間の頻度の差に関して、末端モチーフをランク付けした。胎児および共有配列は、上記と同様の方法を使用して、有益なSNPに従って同定された。
【0113】
図3は、本開示の実施形態による、胎児および母体DNA分子間の末端モチーフ頻度の棒グラフを示す。データは、270xの配列決定深度の1人の妊婦から取得された。縦軸は、DNA断片の数(配列リードから決定される)から決定された所与の4merモチーフの頻度パーセンテージに対応し、それは、所与の4merモチーフを分析されたDNA断片の末端配列の総数(例えば、DNA断片の数の2倍)で割ったものである。横軸は、256種の4merに対応している。4merは、共有配列の頻度が減少する順に並べられ、
図3は、縦軸に使用されるスケールが異なる2つに分けられる。胎児DNA分子(胎児特異的対立遺伝子を有するもの)および母体のDNA分子(共有対立遺伝子を有するもの)間で、末端モチーフの頻度の差が観察された。
【0114】
図4は、本開示の実施形態による、胎児および共有(すなわち、胎児に加えて母体)配列について、
図3からの上位10個の末端モチーフを示す。縦軸はシフトされ、1%の頻度で始まる。上位10個の末端モチーフは、CCCA、CCAG、CCTG、CCAA、CCCT、CCTT、CCAT、CAAA、CCTC、およびCCACである。見てのとおり、一部の末端モチーフは、共有配列と胎児特異的配列との間に他よりも大きな差がある。したがって、母体DNAと胎児DNAとを識別するために、単に最も頻度が高い末端モチーフとは対照的に、最大の差を有する末端モチーフを使用してもよい。
【0115】
2.エントロピーの使用
次に、様々な試料について、共有対立遺伝子を有するDNA分子のエントロピー、および胎児特異的対立遺伝子を有するDNA分子のエントロピーが分析された。前者は母体として同定され、後者は胎児として同定される。各試料について、胎児DNA分子のエントロピーおよび共有DNA分子のエントロピー(「母体」とラベル付け)の2つのデータ点が取得される。
【0116】
図5Aは、胎児DNA分子における末端モチーフのエントロピーが母体DNA分子における末端モチーフのエントロピーよりも低いことを示しており(p値<0.0001)、母体DNA分子に由来する末端モチーフの分布においてより高い歪みがあることを示唆している。
図5Aのエントロピーは、所与の試料について、および胎児DNAまたは母体DNA分子の所与のプールについて、これらの実施例において4merが使用され、256個のモチーフ全てを使用して決定される。
【0117】
図2のプロット235と同様に、2つの組織タイプについてのエントロピーの差は、エントロピーが、無細胞DNA断片の混合物(例えば、血漿または血清)における胎児DNAの画分濃度を決定するために使用され得ることを示している。上記のとおり、胎児DNAとして同定されたプールは、母体プールよりも胎児DNAのパーセンテージが高い(例えば、ほぼ100%)。プールのタイプについて決定されたエントロピー値は異なる。したがって、エントロピーと胎児のDNA濃度との間には関係がある。この関係は、較正試料の胎児DNA濃度の測定値(較正値)および対応するエントロピー値(相対頻度の例)に基づく較正関数として決定され得、較正値および相対頻度は、較正データ点を形成し得る。胎児DNA濃度が異なる較正試料は、エントロピー値が異なる。胎児DNA濃度の出力を提供するために新たに測定された相対頻度(例えば、エントロピー)が較正関数に入力され得るように、較正関数は、較正データ点に適合され得る。
【0118】
図5Bは、
図4の10個のモチーフの相対頻度を使用した場合のエントロピーを示す。示されているように、関係は、この所与の10個の末端モチーフのセットについてより高いエントロピーを有する胎児配列で変化する。胎児DNAの画分濃度はまだ決定され得るが、異なる較正関数が使用されるだろう。したがって、較正に使用されるモチーフのセットは、後で使用されるもの、すなわち、エントロピーに基づいた画分濃度、またはセットの相対頻度の他の集計値を測定する場合、と同じである必要がある。
【0119】
3.クラスタリング
さらに、妊婦について階層的クラスタリング分析を実行した。各妊婦は、全ての4merの末端モチーフ頻度を含む256次元のベクトルによって特徴付けられた。確かに、胎児特異的配列および母体のDNA分子に由来する末端モチーフで特徴付けられる個体は、2つの群にクラスター化され得る。
【0120】
図6Aおよび6Bは、本開示の実施形態による、第1三半期妊娠期間の胎児および母体DNA分子についての階層的クラスタリング分析を示す。
図6Aは、256個の4mer末端モチーフ頻度に基づく階層的クラスタリング分析を示す。縦軸は、4merのモチーフに対応し、横軸は、様々な試料の種々の部分(すなわち、胎児特異的の620個(黄色)および共有の610個(青)の配列)に対応する。色は、試料の特定の部分の特定の4merモチーフの相対頻度に対応する。
【0121】
種々の部分(胎児特異的および共有)は、種々の胎児DNA濃度を有し、したがって、胎児DNAの濃度について種々の分類を有する。このようなクラスタリングが較正試料を使用して実施される場合、胎児DNA濃度は、例えば上記のエントロピーセクションで説明されているように測定され得る。各較正試料は、使用されるモチーフの数(例えば、他のk merが使用され得るが、胎児および共有配列間に最大の差を有し得るとして、全て4merまたは潜在的に4merのサブセットのみについての256個)に等しい長さの対応するベクトルを有する。
【0122】
図6Bは、256個の4mer末端モチーフ頻度に基づく階層的クラスタリング分析のためのズームイン視覚化を示す。各行は、1つのタイプの末端モチーフ(すなわち、異なる末端モチーフ)を表す。各列は妊娠中の対象を表す。グラデーションの色は、末端モチーフの頻度を示す。赤は最高頻度を表し、緑は最低頻度を表す。見てのとおり、胎児DNA濃度が異なる試料を表す2つの部分(胎児および共有)は、2つの別々のクラスターにきれいにクラスター化されており、胎児DNA濃度のレベルが異なる試料を識別し得る良好な精度を示している。
【0123】
4.種々の三半期の試料
画分濃度が異なる試料を識別できることに加えて、いくつかの実施形態は、種々の在胎期間で妊娠対象由来の種々の試料を識別できる(例えば、どの三半期か、またはちょうど第3三半期であるかどうか)。
【0124】
図7Aおよび7Bは、本開示の実施形態による、種々の三半期にわたる妊婦の全てのモチーフを使用したエントロピー分布を示す。興味深いことに、胎児特異的断片を使用して決定された末端モチーフの数のエントロピー値は、在胎期間に関連しているようであるが(p値:0.024、第1三半期データ対第2および第3三半期由来のプールされたデータ)、共有断片(主に母体DNA)からのものは、在胎期間(p値:1、第1三半期データ対第2および第3三半期由来のプールされたデータ)に関連付けられないようであった。妊娠後期は、概して胎児のDNA濃度が高くなる。したがって、濃度と在胎期間の間には相関関係がある可能性がある。
【0125】
胎児特異的断片については、第1三半期と比較して、第2および第3三半期のエントロピーが減少した。したがって、胎児の断片は、在胎期間を伝え得る。そして、共有断片は、本質的に一定のエントロピーを有しているので(例えば、主に母体断片であり、および/またはそのような胎児信号を打ち消す末端モチーフの母体生理学関連の変化のため)、全ての断片についてのエントロピーの変化は胎児の断片の変化によって在胎期間を反映する。種々の三半期の間のエントロピーのそのような関係は、母体の断片の存在によりあまり変化を示さないが、その関係は依然として存在する。しかし、胎児特異的対立遺伝子が同定され得る場合(例えば、男性の胎児または予想される胎児DNA濃度と同様のパーセンテージで発生する対立遺伝子を同定することによって、または父方の遺伝子型情報を使用して)、より顕著な関係が存在する(例えば、
図7Bに示すように)。
【0126】
図7Cおよび7Dは、本開示の実施形態による、種々の三半期にわたる妊婦についての10個のモチーフを使用したエントロピー分布を示す。10個のモチーフは、共有断片から決定されたランキングによって選択された。これらの図は、たとえモチーフの特定の選択によって、関係が減少し得る場合(
図7Bの増加とは対照的に)でも、胎児特異的断片について種々の三半期のエントロピーが依然として変化することを示している。
【0127】
図8Aは、本開示の実施形態による、種々の在胎期間にわたる全ての断片のエントロピーを示す。エントロピーは、256個の4mer末端モチーフ全てを使用して決定される。第3三半期の対象における血漿DNA断片のエントロピーは、第1および第2三半期のものと比べてより低い(p値=0.06)ことが示された。そして、第2三半期の平均は、第1三半期よりも低い。したがって、胎児の断片の全てが含まれる場合(
図7Aの共有断片とは対照的に)、エントロピーは在胎期間を提供する。
【0128】
図8Bは、種々の在胎期間にわたるY染色体由来の断片のエントロピーを示す。第3三半期の対象におけるY染色体由来の断片のエントロピーは、第1および第2三半期のものよりも低い(p値=0.01)ことが示された。(Y染色体由来の胎児特異的配列を使用して)胎児分子をフィルタリングしたこれらの試料は、第3三半期と第2の三半期の間のより大きな分離を示す。
【0129】
図9および10は、本開示の実施形態による、種々の三半期にわたる胎児および母体DNA分子間の上位10個にランク付けされた末端モチーフの分布を示す。胎児および母体DNA分子間のモチーフ頻度におけるランク付けされた差の上位10個の末端モチーフは、1つの単一ディープ配列決定妊娠の場合からマイニングされた。次に、これらの上位10個の末端モチーフは、各試料を分析するために使用された。
【0130】
これらの目的の末端モチーフを保有する胎児および共有DNA分子の割合は、第1(12-14週)、第2(20-23週)、および第3(38-40週)三半期のそれぞれからの10人の妊婦からなる独立したコホートにおいて計算された。共有分子と比較して胎児DNA分子においてより高いことがわかった末端モチーフが多数あり、それらの末端モチーフが起源の組織と特定の関係を有することを示唆している。例えば、CAAA%の中央値は、第1(1.26%対1.11%)、第2(1.24%対1.11%)、および第3(1.24%対1.15%)三半期にわたって、共有分子(主に母体)よりも胎児DNA分子の方が一貫して高いことがわかった。したがって、末端モチーフCAAAは、CAAAの末端配列を有する特定のDNA断片が胎児に由来する尤度の増加を示すマーカーとして同定され得る。
【0131】
特定の末端モチーフは、在胎期間とのより顕著な関係を示している。例えば、末端モチーフCCCAを有する胎児DNA分子は、CCAG、CCTG、CCAA、CCCT、およびCCACと同様に、在胎期間とともに継続的な(単調な)増加を示す。しかしながら、CCTTは、中央値が第2三半期で低下し、その後第3三半期で増加するため継続的な増加を示さない。
【0132】
別の実施形態において、種々の三半期にわたる胎児および母体DNA分子間の差を見るために上位10個にランク付けされた末端モチーフを組み合わせ得る。
【0133】
図11は、本開示の実施形態による、種々の三半期にわたる胎児および共有分子間の上位10個にランク付けされたモチーフの複合頻度を示す。
図11に示すように、胎児および母体DNA分子間の上位10個にランク付けされたモチーフの複合頻度における差は、第1三半期(p値:0.92)と比較して、第2三半期(p値:0.013)および第3三半期(P値:0.0019)の両方で比較的大きいことがわかった。胎児分子についての頻度は、第1三半期から第2三半期、第3三半期と継続的に増加するが、この継続的な関係は、共有分子については示されていない。これは、種々の生理学的条件(例えば、在胎期間)が、種々の起源の組織に由来する末端モチーフに影響を与えることを示している。
【0134】
B.腫瘍学
妊娠の文脈で考案された遺伝子型の手段は、腫瘍学の文脈でも適用され得る。
【0135】
図12は、本開示の実施形態による、癌患者の血漿DNAにおける変異体および共有分子間の示差的末端モチーフパターンを分析するための遺伝子型の差異ベースアプローチの概略図を示す。
図12に示すように、腫瘍特異的対立遺伝子(B)を保有する腫瘍特異的分子1205が決定され得る。他方、共有対立遺伝子(A)を保有する共有分子1207が決定され得、これは、腫瘍DNA分子は概して血漿DNAプールにおいて少数派であるため、主に健康由来(healthy-derived)のDNA分子を表すであろう。
【0136】
一例として、変異体配列(すなわち、癌関連変異を保有する血漿DNA)および共有配列(主に造血性由来のDNA)を同定し得る。癌関連変異は、腫瘍組織(肝細胞癌、HCC)に存在するが、正常細胞(例えば、バフィーコート)には存在しない多様体として定義され得る。例えば、HCC患者において、腫瘍組織の遺伝子型が特定のゲノム遺伝子座で「AG」であり、バフィーコート細胞の遺伝子型が「AA」であると仮定すると、腫瘍組織に特異的に存在する「G」は癌関連変異とみなされ、「A」は共有野生型対立遺伝子とみなされる。様々な実装において、変異体配列は、腫瘍からの組織生検を配列決定することによって、または、例えば、米国特許公開第2014/0100121号に記載されているように、血漿または血清などの無細胞試料を分析することによって取得され得る。
【0137】
変異体配列と共有配列との間の末端モチーフの頻度プロファイルは、血漿DNAが220xの深さで配列決定されたHCC患者において決定された。棒グラフ1220は、各4merが変異体および共有配列についての末端モチーフとして生じる相対頻度(%)を提供する。そのような相対頻度は、上記
図2の棒グラフ220のとおり決定され得る。見てのとおり、末端モチーフ1222は、異なる組織タイプのDNA断片間で相対頻度に顕著な差がある。そのような差は、様々な目的、例えば、腫瘍DNAについて試料を濃縮するため、または腫瘍DNA濃度を測定するために使用され得る。
【0138】
別の実施形態において、腫瘍および共有DNA分子間の末端モチーフの状勢の差異を捕捉するために、
図2と同様に、エントロピーベース分析1230が使用され得る。プロット1235は、共有配列および腫瘍配列についてのエントロピー値を示している。エントロピーまたは他の分散メトリックにおける差は、例えば、較正関数を使用して、腫瘍画分濃度を提供し得る。
【0139】
さらに別の実施形態において、
図2の胎児分析と同様に、クラスタリングベース分析1240が実施され得る。試料における腫瘍配列の量についての分類は、腫瘍画分の分類が既知の参照クラスターに属する新しい試料に基づいて決定され得る。
【0140】
1.ランク付け順の相対頻度における差
図13は、本開示の実施形態による、肝細胞癌における癌関連変異体および共有分子の血漿DNA末端モチーフの状勢を示す。変異体配列と共有配列との間で変化することが観察された末端モチーフが多数あり、例えば、CCCA、CCAG、CCAA、CCTG、CCTT、CCCT、CAAA、CCAT、TAAA、AAAAモチーフであるが、これらに限定されない。
図13は、
図3と同様の情報を示しているが、臨床的関連DNAについては胎児DNAではなく腫瘍DNAである。
【0141】
図14は、本開示の実施形態による、肝細胞癌における癌関連変異体および共有分子の血漿DNA末端モチーフの放射状の状勢を示す。種々の末端モチーフは、外周に列挙されており、末端モチーフの頻度は、種々の半径方向の長さで示されている。末端モチーフは、非腫瘍(例えば、健康)細胞の野生型(wt)対立遺伝子の頻度によって並び変えられている。頻度値1410は、wt対立遺伝子に対応し、頻度値1420は、変異体(mut)対立遺伝子に対応する。この放射状の表示は、野生型(共有)配列と比較した変異体配列の末端モチーフの相対頻度における顕著な差を示している。
【0142】
図15Aは、本開示の実施形態による、HCC患者の血漿DNAにおける変異体配列と共有配列との間の末端モチーフ頻度の順位差における上位10個の末端モチーフを示す。上位末端モチーフは、参照試料における共有配列について決定される。示されているように、上位末端モチーフは、CCCA、CCAG、CCAA、CCTG、CCTT、CCCT、CAAA、CCAT、TAAA、およびAAAAである。相対頻度における差は、末端モチーフ間で変化する。例えば、変異体および共有配列間に最も大きな差を示すモチーフ(CCCA)は、それぞれ1.9%および1.6%であることがわかり、そのようなモチーフについて、共有配列(主に血液細胞由来の野生型配列)と比較して、変異体配列において15%減少したことを示唆している。
【0143】
図15Bは、本開示の実施形態による、HCC患者および妊娠中の女性についての8つの末端モチーフの複合頻度を示す。複合頻度は、例えば、末端モチーフのセットの相対頻度の合計としての例示的な集計値である。見てのとおり、これら2つのシナリオ、野生型(WT)および変異体、ならびに母体および胎児配列間のそれぞれにおいて2つのクラスの配列について複合頻度に分離がある。野生型(WT)および変異体についての複合頻度の分離は、母体および胎児配列についての分離よりも大きくなる。
【0144】
この複合頻度は、胎児分析についてのエントロピープロットと同様の挙動を示す。したがって、
図15Bは、臨床的関連DNAの画分濃度を決定するために使用され得る相対頻度の集計値の別の例を示す。そして、
図15Bにおけるwt対変異体の関係は、他の臨床的関連DNA(例えば、腫瘍DNA)の画分濃度も決定され得ることを示している。
【0145】
2.エントロピーの利用
図16Aおよび16Bは、本開示の実施形態による、HCC症例についての種々のセットの末端モチーフの共有および変異体断片についてのエントロピー値を示す。胎児配列と同様に、2種の配列についてのエントロピー間の関係は、使用する末端モチーフのセットによって変化する。
図16Aは、4merについて256個全ての末端モチーフを使用する。変異体断片についての頻度分布がより均一(例えば、より平坦)なため、変異体断片についてエントロピーは高くなる。また、頻度分布の歪みが高いため、共有断片のエントロピーは低くなる。
【0146】
図16Bは、共有断片についてHCC対象において生じる4merの上位10個の末端モチーフを使用する。エントロピーの関係は、上位10個のモチーフでは逆である。
図16Aおよび16Bの両方は、胎児DNA濃度を決定するための較正分析が、腫瘍DNA濃度を決定するためにも使用され得ることを示している。
【0147】
上記のとおり、高いエントロピー値は、末端モチーフにおける高い多様性を示す。モチーフ多様性スコア(MDS)は、循環無細胞DNAの生物学的試料における臨床的関連DNA(例えば、胎児、移植、腫瘍など)の画分濃度を推定するために使用され得る。
【0148】
図17は、本開示の実施形態による、測定された循環腫瘍DNA画分に対するモチーフ多様性スコアのプロットである。複数の較正試料のそれぞれについて、較正データ点1705が測定された。較正データ点は、試料についてのモチーフ多様性スコアおよび臨床的関連DNAの画分濃度、この場合は腫瘍DNA画分を含む。腫瘍DNA画分は、癌関連コピー数異常を利用することによって血漿DNAにおける腫瘍DNA画分を測定するソフトウェアパッケージichorCNAに基づいて推定された(Adalsteinsson et al.2017)。
【0149】
所与の試料は、腫瘍DNAを有さない健康な対照試料、または腫瘍DNA画分がゼロ以外である、すなわち腫瘍DNAおよび他の(例えば、健康な)DNAが存在する腫瘍を有する患者からの試料であり得る。HCC患者の血漿DNAのMDS値は、腫瘍DNA画分と正の相関があることがわかった(スピアマンのρ:0.597、p値:0.0002)。これは、較正関数1710(この例では線形関数)で示されている。
【0150】
較正関数1710は、モチーフ多様性スコアが測定された新しい試験試料における腫瘍DNA画分を決定するために使用され得る。較正関数1710は、例えば回帰を使用して、較正データ点1705への機能的適合によって決定され得る。
【0151】
いくつかの例において、新しい試験試料についてのMDSの計算値Xは、関数F(X)への入力として使用され得、Fは較正関数(曲線)である。F(X)の出力は画分濃度である。各X値について異なり得る誤差範囲を提供することができ、それによりF(X)の出力として値の範囲を提供することができる。他の例において、新しい試料におけるMDSについての測定値0.95に対応する画分濃度は、MDS0.95での較正データ点から計算された平均濃度として決定され得る。別の例として、較正データ点1705は、特定の較正値について画分DNA濃度の範囲を提供するために使用され得、その範囲は、画分濃度が閾値量を超えているかどうかを決定するために使用され得る。
【0152】
C.移植
遺伝子型技術はまた、移植、例えば、肝臓移植を監視するために適用され得る。レシピエントがホモ接合であり、ドナーがヘテロ接合であるSNP部位は、移植患者における血漿中のドナー特異的DNA分子および主に造血性DNAを決定することを可能にするだろう。
【0153】
図18Aは、本開示の実施形態によるドナー特異的断片を使用したエントロピー分析を示す。
図18Bは、ドナー特異的断片を使用した階層的クラスタリング分析を示す。
図18Aおよび
図18Bに示すように、肝臓移植の文脈において、肝臓特異的DNA分子は、共有配列(主に血液由来のDNA)とは異なる特性を有することが観察された。血漿DNA末端モチーフのエントロピーは、概して、共有配列と比較して、ドナー特異的DNA分子(肝臓DNA)においてより低いことがわかった(
図18A)。肝臓特異的DNA分子に由来する末端モチーフで特徴付けられる個体は、共にクラスター化され、共有DNA分子に由来する末端モチーフで特徴付けられる個体は別の群にクラスター化された。
【0154】
D.画分濃度の分類
上記のように、1つ以上の末端モチーフのセットの相対頻度は、臨床的関連DNAの画分濃度の分類を決定するために使用され得る。
【0155】
図19は、本開示の実施形態による、対象の生物学的試料における臨床的関連DNAの画分濃度を推定する方法1900を示すフローチャートである。生物学的試料は、臨床的関連DNAおよび無細胞である他のDNAを含み得る。他の例において、生物学的試料は、臨床的関連DNAを含まない場合があり、推定される画分濃度は、臨床的関連DNAのゼロまたは低いパーセンテージを示し得る。方法1900および本明細書に記載の任意の他の方法の態様は、コンピュータシステムによって実施され得る。
【0156】
ブロック1910で、生物学的試料由来の複数の無細胞DNA断片が分析されて、配列リードが取得される。配列リードは、複数の無細胞DNA断片の末端に対応する末端配列を含み得る。例として、配列リードは、配列決定またはプローブベースの技術を使用して取得され得、これらのいずれかは、例えば、増幅または捕捉プローブを介した濃縮を含み得る。
【0157】
配列決定は、様々な方法で、例えば、超並列配列決定または次世代シーケンシングを使用して、単一分子配列決定を使用して、および/または二本鎖もしくは一本鎖DNA配列決定ライブラリ調製プロトコルを使用して、実施され得る。当業者は、使用され得る様々な配列決定技術を理解するであろう。配列決定の一部として、配列リードの一部が細胞核酸に対応し得ることが可能である。
【0158】
配列決定は、例えば本明細書に記載されるような標的化配列決定であり得る。例えば、生物学的試料は、特定の領域由来のDNA断片について濃縮され得る。濃縮は、例えば参照ゲノムによって定義されるように、ゲノムの一部または全体に結合する捕捉プローブを使用することを含み得る。
【0159】
統計的に有意な数の無細胞DNA分子は、画分濃度の正確な決定を提供するために分析され得る。いくつかの実施形態において、少なくとも1,000個の無細胞DNA分子が分析される。他の実施形態において、少なくとも10,000個または50,000個または100,000個または500,000個または1,000,000個または5,000,000個、またはそれより多い無細胞DNA分子が分析され得る。
【0160】
ブロック1920で、複数の無細胞DNA断片のそれぞれについて、配列モチーフは、無細胞DNA断片の1つ以上の末端配列のそれぞれについて決定される。配列モチーフは、N塩基位置(例えば、1、2、3、4、5、6など)を含み得る。例として、配列モチーフは、例えば、
図1に記載されているように、DNA断片の末端に対応する末端での配列リードを分析すること、信号を特定のモチーフと相関させること(例えば、プローブが使用される場合)、および/または配列リードを参照ゲノムにアラインメントすることによって決定され得る。
【0161】
例えば、配列決定デバイスによる配列決定後、配列リードは、例えば、有線または無線通信または取り外し可能な記憶デバイスを介して配列決定を実施する配列決定デバイスに通信可能に結合され得るコンピュータシステムによって受信され得る。いくつかの実装において、核酸断片の両端を含む1つ以上の配列リードが受信され得る。DNA分子の位置は、DNA分子の1つ以上の配列リードをヒトゲノムのそれぞれの部分、例えば、特定の領域にマッピングする(アラインメントする)ことによって決定され得る。他の実施形態において、特定のプローブ(例えば、PCRまたは他の増幅後)は、特定の蛍光色などを介して位置または特定の末端モチーフを示し得る。同定は、無細胞DNA分子が配列モチーフのセットの1つに対応することであり得る。
【0162】
ブロック1930で、複数の無細胞DNA断片の末端配列に対応する1つ以上の配列モチーフのセットの相対頻度が決定される。配列モチーフの相対頻度は、配列モチーフに対応する末端配列を有する複数の無細胞DNA断片の割合を提供し得る。1つ以上の配列モチーフのセットは、1つ以上の参照試料の参照セットを使用して同定され得る。臨床的関連DNAの末端モチーフおよび他のDNA(例えば、健康なDNA、母体DNA、または移植された臓器をどのように受け取ったかという対象のDNA)間の差が同定され得るように、遺伝子型の差が決定され得るが、参照試料については臨床的関連DNAの画分濃度を知る必要はない。特定の末端モチーフは、差に基づいて選択され得る(例えば、絶対またはパーセンテージの差が最も大きい末端モチーフを選択する)。相対頻度の例は、本開示全体を通して説明されている。
【0163】
いくつかの実装において、配列モチーフはN塩基位置を含み、1つ以上の配列モチーフのセットは、N塩基の全ての組み合わせを含む。いくつかの例において、Nは2または3以上の整数であり得る。1つ以上の配列モチーフのセットは、1つ以上の較正試料または画分濃度の較正に使用されない他の参照試料で生じる最も頻度の高いものから上位M(例えば、10)個の配列モチーフであり得る。
【0164】
ブロック1940で、1つ以上の配列モチーフのセットの相対頻度の集計値が決定される。例示的な集計値は、例えば、エントロピー値(モチーフ多様性スコア)、相対頻度の合計、およびモチーフのセットについてカウントのベクトル(例えば、ベクトルは可能な4merの245モチーフについての256カウント、または可能な3merの64モチーフの64カウント)に対応する多次元データ点を含む、開示全体を通して説明される。1つ以上の配列モチーフのセットが複数の配列モチーフを含む場合、集計値は、セットの相対頻度の合計を含み得る。
【0165】
一例として、1つ以上の配列モチーフのセットが複数の配列モチーフを含む場合、集計値は、セットの相対頻度の合計を含み得る。別の例として、集計値は、相対頻度の分散に対応し得る。例えば、集計値は、エントロピー項を含み得る。エントロピー項は、項の合計を含み得、各項は、相対頻度に相対頻度の対数を掛けたものを含み得る。別の例として、集計値は、機械学習モデル、例えばクラスタリングモデルの最終出力または中間出力を含み得る。
【0166】
ブロック1950で、生物学的試料における臨床的関連DNAの画分濃度の分類は、集計値を1つ以上の較正値と比較することによって決定される。1つ以上の較正値は、臨床的関連DNAの画分濃度が既知の(例えば、測定された)1つ以上の較正試料から決定され得る。比較は、複数の較正値に対してであり得る。比較は、試料における臨床的関連DNAの画分濃度の変化に対する集計値の変化を提供する較正データに適合する較正関数に集計値を入力することによって生じ得る。別の例として、1つ以上の較正値は、1つ以上の較正試料における無細胞DNA断片を使用して測定される1つ以上の配列モチーフのセットの相対頻度の1つ以上の集計値に対応し得る。
【0167】
較正値は、各較正試料の集計値として計算され得る。較正データ点は、試料ごとに決定され得、較正データ点は、較正値および試料について測定された画分濃度を含む。これらの較正データ点は、方法1900で使用され得るか、または最終的な較正データ点を決定するために(例えば、関数の適合を介して定義されるように)使用され得る。例えば、線形関数は、画分濃度の関数として較正値に適合させ得る。線形関数は、方法1900で使用される較正データ点を定義し得る。新しい試料の新しい集計値は、出力の画分濃度を提供するために比較の一部として関数への入力として使用され得る。したがって、1つ以上の較正値は、複数の較正試料の臨床的関連DNAの画分濃度を使用して決定される較正関数の複数の較正値であり得る。
【0168】
別の例として、新しい集計値は、画分濃度の同じ分類(例えば、同じ範囲内)を有する試料の平均集計値と比較され得、新しい集計値が別の分類の平均への較正値よりもこの平均に近い場合、新しい試料は、最も近い較正値と同じ濃度であると決定され得る。このような技術は、クラスタリングを実施するときに使用され得る。例えば、較正値は、画分濃度の特定の分類に対応するクラスターについての代表値であり得る。
【0169】
較正データ点の決定は、例えば、以下のように、画分濃度を測定することを含み得る。1つ以上の較正試料の各較正試料について、臨床的関連DNAの画分濃度は、較正試料において測定され得る。1つ以上の配列モチーフのセットの相対頻度の集計値は、較正データ点を取得することの一部として較正試料由来の無細胞DNA断片を分析することによって決定され得、それによって1つ以上の集計値を決定する。各較正データ点は、較正試料における臨床的関連DNAの測定された画分濃度および較正試料について決定された集計値を指定し得る。1つ以上の較正値は、1つ以上の集計値であり得るか、または1つ以上の集計値を使用して決定され得る(例えば、較正関数を使用する場合)。画分濃度の測定は、本明細書に記載されるような様々な方法、例えば、臨床的関連DNAに特異的な対立遺伝子を使用することによって、実施され得る。
【0170】
様々な実施形態において、臨床的関連DNAの画分濃度を測定することは、組織特異的対立遺伝子またはエピジェネティックマーカーを使用して、または、例えば、米国特許公開第2013/0237431号に記載されているようなDNA断片のサイズを使用して、実施され得、それは参照によって全体が組み込まれる。組織特異的なエピジェネティックマーカーは、試料における組織特異的なDNAメチル化パターンを示すDNA配列を含み得る。
【0171】
様々な実施形態において、臨床的関連DNAは、胎児DNA、腫瘍DNA、移植された臓器由来のDNA、および特定の組織タイプ(例えば、特定の器官由来)からなる群から選択され得る。臨床的関連DNAは、特定の組織タイプのものであり得、例えば、特定の組織タイプは、肝臓または造血性である。対象が妊婦である場合、臨床的関連DNAは、胎児DNAに対応する胎盤組織であり得る。別の例として、臨床的関連DNAは、癌を有する器官に由来する腫瘍DNAであり得る。
【0172】
概して、1つ以上の較正試料から決定された1つ以上の較正値は、画分濃度が測定されている生物学的(試験)試料に使用されるのと同様のアッセイを使用して生成されることが好ましい。例えば、配列決定ライブラリは同じ方法で生成され得る。処理技術の2つの例は、GeneRead(www.qiagen.com/us/shop/sequencing/generead-size-selection-kit/#orderinginformation)およびSPRI(固相可逆固定化、AMPureビーズ、www.beckman.hk/reagents_depr/genomic_depr/cleanup-and-size-selection/pcr)である。GeneReadは、主に腫瘍断片である短いDNAを除去し得、それは、野生型および変異体断片と同様に胎児および移植の場合の末端モチーフの相対頻度に影響を与え得る。
【0173】
E.在胎期間の決定
図7A、7B、および8~10の上記のとおり、胎児特異的断片モチーフは、在胎期間を推測するために使用され得る。
【0174】
図20は、本開示の実施形態による、胎児を妊娠している女性対象由来の生物学的試料を分析することによって、胎児の在胎期間を決定する方法2000を示すフローチャートである。生物学的試料は、女性対象および胎児由来の無細胞DNA分子を含む。
【0175】
ブロック2010で、配列リードを取得するために、生物学的試料由来の複数の無細胞DNA断片が分析される。配列リードは、複数の無細胞DNA断片の末端に対応する末端配列を含み得る。ブロック2010は、
図19のブロック1910と同様の方法で実施され得る。
【0176】
分析の前、後、または一部として、複数の無細胞DNA断片は、例えば、
図2および5Aについて上記のとおり、胎児に由来するものとして同定され得る。これは、胎児または最も胎児でありそうなもののDNA断片についてフィルタリングし得る。例として、複数の無細胞DNA断片は、胎児特異的対立遺伝子または胎児特異的エピジェネティックマーカーを使用して同定され得る。別の例として、配列リードのそれぞれについて、配列リードが胎児に対応する尤度は、1つ以上の配列モチーフのセットの配列モチーフを含む配列リードの末端配列に基づいて決定され得る。例えば、セクションII.Eで説明されているとおり、他の基準も使用され得る。尤度は、閾値と比較され得、配列リードは、尤度が閾値を超えた場合に胎児に由来するものとして同定され得る。臨床的関連DNAについて試料を濃縮する方法のさらなる詳細については、セクションIVに見られ得る。
【0177】
ブロック2020で、複数の無細胞DNA断片のそれぞれについて、配列モチーフは、無細胞DNA断片の1つ以上の末端配列のそれぞれについて決定される。ブロック2020は、
図19のブロック2020と同様の方法で実施され得る。
【0178】
ブロック2030で、複数の無細胞DNA断片の末端配列に対応する1つ以上の配列モチーフのセットの相対頻度が決定される。配列モチーフの相対頻度は、配列モチーフに対応する末端配列を有する複数の無細胞DNA断片の割合を提供し得る。ブロック2030は、
図19のブロック1930と同様の方法で実施され得る。
【0179】
ブロック2040で、1つ以上の配列モチーフのセットの相対頻度の集計値が決定される。ブロック2040は、
図19のブロック1940と同様の方法で実施され得る。
【0180】
ブロック2050で、1つ以上の較正データ点が取得される。各較正データ点は、集計値に対応する在胎期間(例えば、上の図で説明されている三半期)を指定し得る。上記のように、1つ以上の較正データ点は、既知の在胎期間を有し、無細胞DNA分子を含む複数の較正試料から決定され得る。いくつかの実装において、1つ以上の較正データ点は、既知の在胎期間を有する複数の較正試料における無細胞DNA分子から決定された測定された集計値を近似する較正関数を形成する複数の較正データ点であり得る。
【0181】
ブロック2060で、集計値は、少なくとも1つの較正データ点の較正値と比較される。例えば、新たな試料の新しい集計値は、
図8Aにおいて決定されるように第3三半期の平均と比較され得る。別の例として、少なくとも1つの較正データ点の較正値は、複数の較正試料のうちの少なくとも1つにおいて無細胞DNA分子を使用して測定された集計値に対応し得る。集計値の比較は、複数の較正値に対してであり得、例えば、それぞれが複数の較正試料のうちの1つに対応する。比較は、在胎期間に対する集計値の変化を提供する較正データへの関数適合(較正関数)に集計値を入力することによって生じ得る。比較は、例えば、ブロック1950に関して、方法1900について説明したのと同様の方法で実施され得る。
【0182】
ブロック2070で、比較に基づいて胎児の在胎期間が推定される。新しい集計値が第3三半期の平均(または使用される他の較正値)に最も近い場合、新しい試料が第3三半期であると決定され得る。別の例として、新しい集計値は、
図8Aまたは他の同様の図におけるデータに適合する較正関数(例えば、線形関数)と比較され得る。この関数は、例えば線形関数のY値として在胎期間を出力し得る。較正関数を使用するために本明細書で提供される他の例もまた、在胎期間を決定する文脈で使用され得る。
【0183】
III.表現型アプローチ
妊娠中の対象、癌の対象、同様に肝移植について、遺伝子型ベース分析を使用して、血漿DNA末端モチーフの存在は、起源の組織との関係を生んだ。癌患者において、腫瘍DNAが血液循環に放出され、血漿DNA末端モチーフの元の正常な提示が変化すると推論した。しかしながら、癌の病理生物学の他の側面、例えば、腫瘍の微小環境(T細胞、B細胞、好中球などに浸潤)が異なる末端モチーフを生成し、末端モチーフの状勢に影響を与える可能性を排除するものではない。したがって、癌対象と非癌対照対象間の血漿DNA末端モチーフの分析は、対照対象からHCCを分類する力を明らかにするであろう。
【0184】
図21は、本開示の実施形態による、血漿DNA末端モチーフ分析のための表現型アプローチの概略図を示す。
図21は、
図2および12と類似しており、例えば、相対頻度がプロットされ得、分散値(例えば、エントロピー)が決定され得、クラスタリングが実施され得る。
【0185】
図21において、血漿DNA分子から推定された末端モチーフ(例えば、4mer)が使用され、癌と対照の対象間で比較され、それにより遺伝子型マーカーの制限がなくなり、多くの臨床シナリオ、例えば、自己免疫疾患(例えば、全身性エリテマトーデス、SLE)および移植において広く適用できるようになる。配列決定された全ての血漿DNA断片を使用した表現型アプローチを使用して、遺伝子型の差異ベースアプローチにおいて行われたのと非常に類似した分析手順で、エントロピーおよびクラスタリング分析が実施され得る。これに関連して、エントロピー分析およびクラスタリング分析は、対照と罹患対象間で比較される。
【0186】
罹患分子2105は、疾患を有すると決定された1人以上の対象由来である。対照分子2107は、疾患を有さない1人以上の対象由来である。末端モチーフのセットの相対頻度は、分子の2つのプールに対して決定される。棒グラフ1220は、各4merが対照および罹患配列の末端モチーフとして生じる相対頻度(%)を提供する。そのような相対頻度は、
図2の棒グラフ220について上記のように決定され得る。見てのとおり、末端モチーフ2122は、種々の組織タイプのDNA断片間で相対頻度に顕著な差を有する。このような差は、様々な目的、例えば、新しい試料を罹患か罹患でないか、または疾患のいくつか他のレベルに分類するために使用され得る。
【0187】
腫瘍および共有DNA分子間の末端モチーフにおける状勢の差を捕捉するために、
図2と同様に、エントロピーベース分析2130が使用され得る。プロット2135は、対照対象および罹患対象についてのエントロピー値を示している。エントロピーまたは他の分散メトリックにおける差は、疾患に関連する病理のレベルの分類を提供し得る。
【0188】
さらに別の実施形態において、
図2の胎児分析および
図12の腫瘍分析と同様に、クラスタリングベース分析2140が実施され得る。病理のレベルの分類は、分類が既知の参照クラスターに属する新しい試料に基づいて決定され得る。
【0189】
したがって、相対頻度の集計値の一例において、各個体は、4merの末端モチーフに関する256個の頻度を含むベクトル(すなわち、256次元ベクトル)によって特徴付けられ得る。他の例において、種々のモチーフ頻度間での標準偏差(SD)、変動係数(CV)、四分位範囲(IQR)または、特定のパーセンタイルのカットオフ(例えば、95または99パーセンタイル)は、疾患と対照群間の末端モチーフパターンの状勢の変化を評価するために使用され得る。集計値の他の例も他のセクションで提供されており、ここで適用される。
【0190】
A.腫瘍学
いくつかの実施形態において、疾患(病理)は癌であり得る。したがって、いくつかの実施形態は、癌のレベルを分類し得る。
【0191】
1.ランク付け順の相対頻度における差
図22は、本開示の実施形態による、全ての血漿DNA分子を使用した肝細胞癌(HCC)とB型肝炎ウイルス(HBV)対象間の4mer末端モチーフの頻度プロファイルの例を示す。
図22は、HCC患者における256個の末端モチーフの頻度を1人のHBV対象と比較している。同様のプロットとして、縦軸はモチーフの頻度であり、横軸はそれぞれの末端モチーフに対応する。
図22において、非HCC対象におけるモチーフ頻度の平均に基づいて、モチーフを昇順にランク付けした。下部のプロットは上部のプロットに続いているが、説明を簡単にするためにスケールが異なる。
【0192】
HCC患者おいて異常を示す多くの末端モチーフがあった。例えば、HBV対象と比較して、HCC患者において頻度の増加を示した上位10個のランク付けされた末端モチーフ(TGGG、TAAA、AAAA、GAAA、GGAG、TAGA、GCAG、TGGT、GCTG、およびGAGA)は、1.12~1.35倍の変化の範囲で平均1.22倍変化し、また、HCC患者において頻度の減少を示した上位10個の末端モチーフ(CCCA、CCAG、CCAA、CCCT、CCTG、CCAC、CCAT、CCCC、CCTC、およびCCTT)は、1.16~1.29倍の変化の範囲で平均1.23倍変化した。非癌群と比較してHCC群におけるその頻度の増加(または別個のセットとして減少)を示すそのような上位モチーフのセットは、癌に関する新しい対象を分類するために使用され得ることができる。別の例として、ランク付けプロセスは、HCCの増加を示す全てのモチーフを選択し得、HCCと非HCC対象間でAUCに従って降順でそれらのモチーフをランク付けし得る。次に、AUC値に基づいて上位10個のモチーフを選択する。
【0193】
血漿DNA末端モチーフを使用して診断の可能性を試験するために、20人の健康な対照対象(対照)、22人の慢性B型肝炎保有者(HBV)、12人の肝硬変対象(Cirr)、24人の初期ステージHCC(eHCC)、11人の即時ステージHCC(iHCC)、および対リードの中央値が2億1500万(範囲:9700万~16億8100万)の7人の進行ステージHCC(aHCC)を配列決定した。
【0194】
図23Aは、本開示の実施形態による、種々のレベルの癌を有する様々な対象についての上位10個の血漿DNA4mer末端モチーフの複合頻度の箱ひげ図を示す。
図22のデータ、すなわち、HBV対象における頻度に基づいて、上位10個の血漿DNAの4mer末端モチーフが選択された。複合頻度は、所与の対象の10個の末端モチーフの頻度の合計である。上位10個の末端モチーフの複合頻度は、非癌対象と比較してHCC患者において有意に減少していることがわかった(p値<0.0001)。重要なことに、この末端モチーフ分析を使用すると、eHCC患者の58.3%が95%の特異性で同定され得た。さらに、癌の種々のステージが検出され得る。例えば、進行HCC(advanced HCC)はeHCCおよびiHCCよりも大幅に低い値を有する。
【0195】
図23Bは、本開示の実施形態による、HCCと非癌対象間の上位10個の血漿DNA4mer末端モチーフの複合頻度の受信者動作特性(ROC)曲線を示す。ROC曲線の曲線下面積(AUC)は0.91であることがわかり、血漿DNA末端モチーフが実際にHCCを非癌対象から区別する臨床的可能性を有することを示している。別の実施形態において、HCC対象と非HCC対象間で最大の分離を有する7つの末端モチーフの複合頻度は、0.92のAUCを提供する。
【0196】
図24Aは、本開示の実施形態による、種々の群にわたるCCAモチーフの頻度の箱ひげ図を示す。非HCC群で最も頻度の高い3merモチーフ(CCA)は、HCC群で有意に低いことが示された(p値<0.0001)。
図24Bは、本開示の実施形態による、非HCC対象に存在する最も頻度の高い3merモチーフ(CCA)を使用した非HCCとHCC群間のROC曲線を示す。AUCは0.915であることがわかった。最も頻度の高い4mer(CCCA)も、同様のAUC0.91を提供する。
【0197】
2.エントロピーの使用(モチーフの多様性スコア)
図25Aは、本開示の実施形態による、256個の4mer末端モチーフを使用する種々の群にわたるエントロピー値の箱ひげ図を示す。4merの256個のモチーフ全てが使用された。
図25Aに示すように、HCC患者において(平均:5.242、範囲:5.164~5.29)では、非HCC対象(平均:5.203、範囲:5.124~5.253)と比較して、エントロピー値が有意に増加した(p値<0.0001)。重要なことに、この末端モチーフ分析を使用すると、eHCC患者の41.7%が95%の特異性で同定され得た。エントロピーは、非HCC群と比較して、HCC、IHCC、および進行ステージHCC群で一般的に増加した。さらに、癌の種々のステージが検出され得る。例えば、進行HCCは、eHCCやiHCCよりも大幅に高い値を有する。
【0198】
図25Bは、本開示の実施形態による、10個の4mer末端モチーフを使用した種々の群にわたるエントロピー値の箱ひげ図を示す。ここで、HCC対象は、非HCC対象と比較して減少したエントロピーを有する。したがって、使用される末端モチーフのセットは、関係を増加から減少に変え得る。例えば、上位10個のモチーフを使用すると、HCC群のエントロピーが減少する。いずれにせよ、HCCおよび非HCC群、同様に進行HCC間で、HCCの初期ステージと比較して診断力がある。
【0199】
図26Aは、本開示の実施形態による、種々の群にわたる3merモチーフを使用したエントロピー値の箱ひげ図を示す。3merモチーフ(合計64モチーフ)を使用したHCC対象のエントロピーは、非HCC対象のエントロピーよりも有意に高い(p値<0.0001)ことがわかった。
図26Bは、本開示の実施形態による、非HCCとHCC群間の64個の3merモチーフのエントロピーを使用したROC曲線を示す。AUCは0.872であることがわかった。
【0200】
上記のとおり、エントロピー値が高いほど、末端モチーフの多様性が高いことを示す。様々な癌タイプと対照(例えば、健康な)試料間を識別するためにモチーフ多様性スコアを使用する実施形態の能力のさらなる説明として、公開された研究からのデータが使用された。
【0201】
図27Aおよび27Bは、本開示の実施形態による、種々の群にわたる4merを使用したモチーフ多様性スコアの箱ひげ図を示す。モチーフの多様性スコアを決定するために256個の4mer全てを使用した。公開された研究(Song et al.2017)からダウンロードした血漿DNAの配列決定結果を使用してMDS分析を実施した場合、様々な癌タイプ間で血漿DNA末端多様性の増加が概して観察され得、それが種々の解剖学的部位からの種々の腫瘍細胞がそれらのDNAを血液循環に流すという事実を反映し得る(Bettegowda et al.2014)。分析された癌は、肝細胞癌(HCC)、肺癌(LC)、乳癌(BC)、胃癌(GC)、多形性神経膠芽細胞腫(GBM)、膵臓癌(PC)、および結腸直腸癌(CRC)であった。
【0202】
種々の癌タイプにわたるMDSの変化の一般化可能性をさらに試験するために、中央値4200万の対エ末端リード(範囲:1900万~6500万)で、結腸直腸癌(n=10)、肺癌(n=10)、上咽頭癌(n=10)、および頭頸部扁平上皮細胞癌(n=10)の患者を含む他の癌タイプの40個の血漿DNA試料を使用して、独立したコホートをさらに配列決定した。
図27Bに示すように、癌患者群のMDS値(中央値:0.943、範囲:0.939~0.949)は、癌を有さない対照群(中央値:0.941、範囲:0.933-0.946、p-値<0.0001、ウィルコクソン合計ランク検定)よりも有意に高かった。
【0203】
図28は、本開示の実施形態による、健康な対照を癌から識別する様々な技術についての受信者動作曲線を示す。健康な対照者(n=38)、HBV保有者(n=17)、肝細胞癌(n=34)、結腸直腸癌(n=10)、肺癌(n=10)、上咽頭癌(n=10)、および頭頸部扁平上皮細胞癌(n=10)を有する患者を含む合計129個の試料があった。興味深いことに、MDSベースの方法2801(AUC=0.85)は、断片サイズ2803(AUC=0.74、p値=0.0040、DeLong検定)(Yu et al.2017b)、末端が好ましい断片2804(AUC=0.52、p値<0.0001)(Jiang et al.2018)および配向認識型形質無細胞断片シグナル、OCF、2802(AUC=0.68、p値=0.0013)(Sun et al.2019)を含む他の断片メトリックと比較して、最高の性能を有するようであった。複合分析2805は、技術のいずれか1つが対象が癌を有すると分類した場合、対象が癌を有すると同定した。
【0204】
癌および非癌を識別するためのMDS分析の精度は、種々の長さのモチーフについても比較的良好に維持される。分析は、1mer~5merについてのMDSを使用して実施された。
【0205】
図29は、本開示の実施形態による、様々なk merを使用するMDS分析の受信者動作曲線を示す。1~5merのモチーフから推定されるMDS値には、癌を有する患者と有しない患者とを区別する力もある。1mer分析2901は0.81AUCを提供する。2mer分析2902は0.85AUCを提供する。3mer分析2903は0.85AUCを提供する。4mer分析2904は0.85AUCを提供する。5mer分析2905は0.81AUCを提供する。
【0206】
また、コンピュータシミュレーションに従って、MDSベースの癌検出の性能に対する腫瘍DNA画分の影響を調査した。
【0207】
図30は、本開示の実施形態による、様々な腫瘍DNA画分のMDSベースの癌検出の性能を示す。
図30に示すように、癌検出の性能は、血漿DNAにおける腫瘍DNA画分が増加するにつれて、次第に改善された。例えば、ROCの曲線下面積(AUC)は、腫瘍DNA画分が0.1%での患者についてはわずか0.52であったが、腫瘍DNA画分が3%での患者については、AUCは0.9まで増加し、5%の腫瘍画分ですでに最大に近づいているが、より高い濃度で、さらに増加した。
【0208】
3.機械学習(SVM、回帰、およびクラスタリング)
血漿DNA末端モチーフを使用して癌患者を検出するための分類器が構築され得るかどうかをさらに調査するために、256個の血漿DNA末端モチーフを使用して、癌を有する患者(n=55)および癌を有しない患者(n=74)を識別する分類器を構築し、それぞれ、サポートベクターマシン(SVM)および各末端モチーフの大きさと方向を考慮したロジスティック回帰を使用した。SVM分析は、256次元の場所で癌患者および非癌患者を最もよく識別する超平面を同定し、訓練データ点は、4mer個の256個のモチーフのそれぞれの頻度である。ロジスティック回帰は、256個の頻度のそれぞれを乗算する係数を決定し、ロジスティック関数の結果の出力のカットオフも決定し、これは、乗算された頻度の加重合計であり得る、または加重合計を入力として受信し得る。そのようなロジスティック関数は、当業者によく知られているように、シグモイド関数または他の活性化関数であり得る。
【0209】
過剰適合の問題を最小限に抑えるために、受信者動作特性(ROC)曲線分析を使用して性能を評価するために、リーブワンアウト手順を採用した。リーブワンアウト手順は、次の手順に従って実施された。N個の試料サイズのうち、1つの試料を試験試料として除外し、残りの試料(N-1)を使用して、256個の血漿DNA末端モチーフを使用したSVMおよびロジスティック回帰に基づいた分類器を訓練した。次に、訓練された分類器を使用して、除外された試料が癌の有無にかかわらず対象から採取されたものとして分類されたかどうかを判断した。残りの試料から訓練された分類器を試験するために、1つの試料を試験試料として体系的に除外した。したがって、各試料についての予測結果を取得し得、制度は予測結果から計算された。
【0210】
図31は、本開示の実施形態による、MDS、SVM、およびロジスティック回帰分析についての受信者動作曲線を示す。MDSベース分析(AUC=0.85)と比較して、256個の末端モチーフを有する分類器を使用してのAUCにおいてわずかな増加(SVMおよびロジスティック回帰の両方でAUC=0.89)を観察した。
【0211】
別の機械学習技術として、末端モチーフの頻度に基づくクラスタリングを使用した。
【0212】
図32は、本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる上位10個にランク付けされた末端モチーフについての階層的クラスタリング分析を示す。示されているように、HCC対象(eHCC:初期ステージHCC3205、iHCC:即時ステージHCC3230、およびaHCC:進行ステージHCC3225)は概して共にクラスター化され、非HCC(健康な対照対象、HBV:慢性B型肝炎保有者)は概して共にクラスター化される。例えば、右側のクラスターは初期のHCC3205(黄色)である。左中央には、主に対照3210、HBV3215、および肝硬変3220がある。HCCと非HCC群間の明確なクラスタリングパターンは、末端モチーフが血漿DNA末端モチーフにおける疾患関連の優先傾向を反映することを示唆し、血漿DNA末端モチーフについての潜在的な診断力を示唆した。統計的技術として接続性ベースの階層的クラスタリングに加えて、重心ベースクラスタリング、分布ベースクラスタリング、密度ベースクラスタリングなど、他のクラスタリング技術が使用され得る。
【0213】
図33A~33Cは、本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる全ての血漿DNA分子を使用した階層的クラスタリング分析を示す。
図33Aは、256個の4mer末端モチーフ頻度に基づく階層的クラスタリング分析を示す。
図33Bは、256個の4mer末端モチーフ頻度に基づく階層的クラスタリング分析についてのームイン視覚化を示す。各行は、1つのタイプの末端モチーフを表す。各列は、個々の血漿DNA試料を表す。グラデーションの色は、末端モチーフの頻度を示す。赤いものは最高頻度を表し、緑のものは最低頻度を表す。
図33Cは、末端モチーフを使用したHCCおよび非HCC対象の主成分分析(PCA)を示す。主成分は、最大の分散を提供する256個のモチーフの線形結合であり、例えば、頻度の加重合計が得られる。
【0214】
HCCおよび非HCCの対象は、2つの異なるクラスターを形成しているようであるため、全ての血漿DNA分子に由来する末端モチーフは、HCCを非HCCの対象と識別するための重要な指標となる。
図33Aおよび33Bは、HCC対象3305(赤)が1つの群にクラスター化される傾向があり、非HCC対象3310(青)が別の群にクラスター化される傾向があることを示している。
図33Cにおいて、PCA分析はまた、HCCおよび非HCC対象が2つの異なる群にクラスター化される傾向があることを示した。PC1およびPC2は、相対頻度の異なる線形結合(加重平均など)に対応し、これは、相対頻度の特定のヒストグラムのパターンを表し得る。
図33Cは、クラスタリングを実施する前、またはカットオフ値もしくはカットオフ平面を使用する前に、線形結合(または他の変換)が実施され得ることを示している。したがって、変換された相対頻度は、集計値を決定するために使用され得る。
【0215】
図34は、本開示の実施形態による、種々のレベルの癌を有する種々の群にわたる全ての血漿DNA分子を使用した、3merモチーフに基づく階層的クラスタリング分析を示す。説明を簡単にするために、ヒートマップの上部のみが示されている。示されているように、HCC対象(eHCC:初期ステージHCC3405、iHCC:即時ステージHCC3430、およびaHCC:進行ステージHCC3425)は概して共にクラスター化され、非HCC(健康な対照対象3410、HBV3415:慢性B型肝炎保有者、および肝硬変3420)は概して共にクラスター化される。
【0216】
これらの発見に基づいて、機械学習(例えば、深層学習)モデルは、血漿DNA末端モチーフを含む256次元ベクトルを使用することにより、これらに限定されないが、サポートベクターマシン(SVM)、決定木、単純ベイズ分類、ロジスティック回帰、クラスタリングアルゴリズム、PCA、特異値分解(SVD)、t分布型確率的近傍埋め込み(tSNE)、人工ニューラルネットワーク、および分類器のセットを構成し、それらの予測の加重投票を行うことによって新たなデータ点を分類するアンサンブル方法を含む、癌分類器を訓練するために使用され得る。一連の癌患者および非癌患者を含む「256次元ベクトルベースマトリックス」に基づいて癌分類器が訓練されると、新しい患者について癌になる確率が予測できるようになる。
【0217】
機械学習アルゴリズムのこのような使用において、集計値は、参照値と比較し得る確率または距離(例えば、SVMを使用する場合)に対応し得る。他の実施形態において、集計値は、2つの分類間のカットオフと比較される、または所与の分類の代表値と比較される、モデル(例えば、ニューラルネットワークの初期の層)における初期の出力に対応し得る。
【0218】
B.免疫疾患モニタリング
図35Aは、本開示の実施形態による、健康な対照対象とSLE患者間の全ての血漿DNA分子を使用したエントロピー分析を示す。
図35Bは、本開示の実施形態による、健康な対照対象とSLE患者間の全ての血漿DNA分子を使用した階層的クラスタリング分析を示す。
【0219】
エントロピー(
図35A、p値:0.00014)およびクラスタリング分析(
図35B)を含む血漿DNA末端モチーフの全体的な状勢異常分析は、SLE患者が健康な対照対象と区別され得ることを示した。例えば、SLEを有する対象についてエントロピーは増加する(
図35A)。そして、2つのクラスターは概して左側(SLE3510)と右側(対照/通常3505)に形成される。したがって、自己免疫疾患は血漿DNA断片化パターンを変化させ、それによってSLEと対照対象間の血漿DNA末端モチーフの識別力を示す。
【0220】
図36は、本開示の実施形態による、健康な対照対象とSLE患者間の10個の選択された末端モチーフを有する血漿DNA分子を使用したエントロピー分析を示す。対照対象について相対頻度が最も高い上位10個のモチーフが使用された。他の表現型と同様に、モチーフのセットは、SLEエントロピーが高いか低いかに影響を与え得る。対照について値が最も高いものとして10個のモチーフが選択されたことを考慮すると、値が互いに類似しているため(すなわち、ランク付けのため)、エントロピーは高くなる。また、SLEエントロピーは、変動が多いほど低くなる。例えば、SLE対象についてランク付けされていないためである。SLE試料を使用して上位10個のモチーフが選択された場合、逆の関係が存在し得る。したがって、自己免疫疾患(例えば、SLE)のレベルは、相対頻度の集計値を使用して決定され得る。
【0221】
C.末端モチーフおよび従来のメトリックについての相乗分析
血漿DNA末端モチーフおよび他の測定基準(コピー数異常(CNA)、低メチル化、および高メチル化)の複合分析が、非侵襲的癌検出の性能を改善するかどうかを試験した。例えば、決定木ベースの分類は、複合分析に使用され得る。
【0222】
図37は、本開示の実施形態による、HCCおよび非HCC対象の末端モチーフおよびコピー数またはメチル化を含む複合分析のROC曲線を示す。末端モチーフ分析は、4merの356個のモチーフ全てを使用して決定されたモチーフ多様性スコアを使用する。複合分析は、いずれかの分析が癌の分類をもたらした場合に癌を同定する。末端モチーフおよびメチル化分析の複合分析(AUC:0.94)または末端モチーフおよびCNA分析の複合分析(AUC:0.93)は、末端モチーフのみを使用した分析(AUC:0.86)よりも優れていた。メチル化分析は、癌および非癌を識別する異常なビンのカットオフ数で、正常な対照の数を上回っている低メチル化(メチル化密度zスコア<-3として定義される)の1Mbビンの数を使用した。CNA分析は、癌および非癌を識別する異常なビンのカットオフ数で、zスコアが3超または-3未満である1Mbビンの数を使用した。メチル化分析のさらなる詳細については、米国特許公開2014/0080715に見つけることができ、CNA分析については、米国特許公開US2013/0040824に見つけることができる。
【0223】
決定木ベースの分類の例について説明する。例えば、ランダムフォレストアルゴリズムを使用して、CNA、低メチル化、高メチル化、サイズ(例えば、米国特許公開2013/0237431に記載)、末端モチーフ、および断片化パターン(例えば、米国特許公開2017/0024513および2019/0341127ならびに米国特許出願16/519,912に記載)などの各メトリックについてのカットオフを推定し得る。各メトリックは、特定のカットオフを有する。1つのメトリック(低メチル化)を例にとると、1つのケースは、メトリックがカットオフを下回っているか上回っているかに応じて、癌または非癌として分類され得る。1つのメトリックは、決定木における1つの節を表す。例えば、試料が木全体の全ての節を移動した後、投票の過半数(例えば、癌を示す節の数が非癌を示す節よりも多い)が最終的な分類を提供し得る。
【0224】
D.血漿DNAの末端モチーフを定義するための別の方法の例
血漿DNAの末端モチーフを定義する別の方法を使用する実現可能性を実証するために、
図1の技術160が採用されてHCCおよび非HCC対象を分析し、これは20人の健康な対照対象(対照)、22人の慢性B型肝炎保有者(HBV)、12人の肝硬変対象(Cirr)、24人の初期ステージHCC(eHCC)、11人の即時ステージHCC(iHCC)、および7人の進行ステージHCC(aHCC)を含む。
【0225】
図38Aは、本開示の実施形態による、HCCおよび非HCC対象における配列決定された血漿DNA断片およびそれらの隣接ゲノム配列の末端から共同で構築された4merに基づくエントロピー分析を示す。エントロピーは、256個の末端モチーフ全てを使用して決定された。
図1の技術140を使用してモチーフを定義した分析と同様に、HCC対象のエントロピーは非癌対象とは異なる。また、進行HCCは、eHCCおよびiHCCとは大きく異なる。
図38Bは、本開示の実施形態による、HCC対象3810および非HCC対象3805における配列決定された血漿DNA断片およびそれらの隣接ゲノム配列の末端から共同で構築された4merに基づくクラスタリング分析を示す。
【0226】
図39は、本開示の実施形態による、血漿DNAの末端モチーフを定義するために使用される
図1の技術140および160についてのROC比較を示す。
図38Aと同じ対象を用い、4merを使用したエントロピー分析を実施して分類した。方法(i)は技術140に対応し、方法(ii)は技術160に対応する。
図1における技術140と比較して、
図1の技術160を使用すると、わずかに劣る性能(AUC:0.815対0.856)が観察された。
【0227】
E.識別を改善するためのフィルタリング
特定のDNA断片(末端モチーフ以外)をフィルタリングし、例えば、感度および特異度の高い精度を提供するために特定の基準が使用され得る。例として、末端モチーフ分析は、例えば、複数のオープンクロマチン領域のうちの1つ内に完全にまたは部分的にアラインメントするリードによって決定されるように、特定の組織のオープンクロマチン領域に由来するDNA断片に限定され得る。例えば、オープンクロマチン領域と重複する少なくとも1つのヌクレオチドを有する任意のリードは、オープンクロマチン領域内のリードとして定義され得る。典型的なオープンクロマチン領域は、DNase I過敏性部位によると約300bpである。オープンクロマチン領域のサイズは、オープンクロマチン領域を定義するために使用される技術、例えばATAC-seq(トランスポーゼースアクセス可能クロマチン配列決定のためのアッセイ(Assay for Transposase Accessible Chromatin Sequencing))対DNaseI-Seqによって変化し得る。
【0228】
別の例として、特定のサイズのDNA断片が、末端モチーフ分析を実施するために選択され得る。以下に示すように、これは、末端モチーフの相対頻度の集計値の分離を増加させ、それによって精度を向上させる。
【0229】
さらなる例は、DNA断片のメチル化特性を使用し得る。胎児および腫瘍DNAは概して低メチル化されている。実施形態は、DNA断片のメチル化メトリック(例えば、密度)を決定し得る(例えば、DNA断片上でメチル化される部位(複数可)の割合または絶対数として)。また、測定されたメチル化密度に基づく末端モチーフ分析において使用するためのDNA断片が選択され得る。例えば、DNA断片は、メチル化密度が閾値を超えている場合にのみ使用され得る。
【0230】
参照ゲノムと比較して、DNA断片が配列多様性(例えば、塩基置換、挿入、または欠失)を含むかどうかも、フィルタリングに使用され得る。
【0231】
様々なフィルタリング基準は、を組み合わせて使用され得る。例えば、各基準を満たす必要がある場合や、少なくとも特定の数の基準を満たす必要がある場合がある。別の実装において、断片が臨床的関連DNA(例えば、胎児、腫瘍、または移植)に対応する確率が決定され得、閾値はDNA断片が末端モチーフ分析において使用される前に満たすべき確率を課した。さらなる例として、特定の末端モチーフの頻度カウンターへのDNA断片の寄与は、確率に基づいて重み付けされ得る(例えば、1つを追加する代わりに、1未満の値を有する確率を追加する)。したがって、特定の末端モチーフを有するDNA断片は、より高い重みが付けられ、および/またはより高い確率を有するであろう。そのような濃縮は、以下でさらに説明する。
【0232】
1.組織特異的なクロマチン領域にわたる末端モチーフ
種々の組織は、アポトーシス中に好ましい断片化パターンを有しているため(Chan et al,Proc Natl Acad Sci USA.2016;113:E8159-8168、Jiang et al,Proc Natl Acad Sci USA.2018;doi:10.1073/pnas.1814616115)、血漿DNA末端モチーフ分析のための特定のゲノム領域の選択は、罹患患者および対照対象を分類する際の識別力をさらに改善するとさらに推論した。例としてHCC患者の検出を取り上げると、血液および肝臓のオープンクロマチン領域が使用された。
【0233】
図40は、本開示の実施形態による、組織特異的オープンクロマチン領域が、HCCおよび非癌患者の血漿DNA末端モチーフの識別力を改善することを示す精度の比較を示す。分析は、4merを使用した256個のモチーフ全てのエントロピーおよび、上位10個のモチーフの複合頻度について実施された。肝臓のオープンクロマチンの結果について、リードが肝臓のオープンクロマチン領域のうちの1つと重複する少なくとも1つのヌクレオチドを有する場合、配列リードは保持された(すなわち、フィルタリング除外されなかった)。
【0234】
肝臓のオープンクロマチン領域と重複する血漿DNA分子に由来する末端モチーフの力は、上位10個にランク付けされたモチーフの複合頻度を使用して、0.918のAUCで最高の性能をもたらす。対照的に、任意の選択なしの256個のモチーフ全ての血漿DNA分子に由来する末端モチーフの識別力は、最小の0.855のAUCであった。
【0235】
したがって、特定の組織が癌についてスクリーニングされている場合、その特定の組織のオープンクロマチン由来のDNA断片(または少なくとも末端配列がオープンクロマチン領域にある場合)は、分析を実施するために使用され得るのに対して、これらの同定された領域にないDNA断片は使用されない。癌はHCCであったため、ここでは肝臓が使用された。DNA断片の位置は、配列リードを参照ゲノムにアラインメントすることで決定され得、それは、オープンクロマチン領域を文献またはデータベースから同定され得る。
【0236】
2.サイズバンドベース末端モチーフ解析
特定の末端モチーフの頻度は、分析されているサイズ範囲(サイズバンド)に応じて変化することが示され、例えば、CCCAのパーセンテージはこの挙動を示す。これは、サイズバンドベース末端モチーフ分析が、癌患者を非癌対象と区別するための血漿DNA末端モチーフを使用において性能に影響を与え得ることを意味する。この可能性を説明するために、50~80bp、81~110bp、111~140bp、141~170bp、171~200bp、201~230bpを含むがこれらに限定されない一連のサイズ範囲を試験して、分析されるサイズバンドが全体的な診断性能にどのように影響するか調査する。
【0237】
図41は、本開示の実施形態による、サイズバンドベース血漿DNA末端モチーフ分析を示す。モチーフ多様性スコア(エントロピー)を使用した分類は、4merの256個のモチーフを使用して決定される。
図41において様々な範囲が列挙されているが、他の範囲が使用されてもよい。50~80分析4101は0.826AUCを提供する。81~110分析4102は0.537AUCを提供する。111~140分析4103は0.551AUCを提供する。141~170分析4104は0.716AUCを提供する。171~200分析4105は0.769AUCを提供する。201~230分析4106は0.756AUCを提供する。
【0238】
そのようなサイズ範囲は、臨床的関連DNAを濃縮する技術のために使用され得る。例えば、50~80塩基のDNA分子を選択すると、腫瘍DNAについて試料を濃縮するであろう。単一のサイズ範囲ではなく、複数の互いに素なサイズ範囲が使用され得る。このような濃縮は、50~80塩基対81~110塩基のサイズ範囲でより良いAUCが生じる理由となり得る。
【0239】
50~80bpの範囲内の血漿DNA分子に由来する末端モチーフは、非HCC対象からHCCを検出する最高の識別力を与えるようであった(AUC:0.83)。したがって、実施形態は、DNA断片をフィルタリングして特定のサイズ範囲の断片を選択し得、次に、選択されたDNA断片(リード)を使用して、相対頻度およびその後の操作を決定し得る。例として、サイズフィルタリングは、物理的な分離を介して、または配列リードを使用してサイズを決定することによって実行され得る(例えば、断片全体が配列決定されている場合の長さ、または対末端を参照にアラインメントすることによって)。短いDNAの物理的濃縮の例には、ゲル電気泳動でのバンド切り取り、キャピラリー電気泳動での特定の保持時間での溶出液の収集、液体クロマトグラフィー後、またはマイクロ流体工学によるものを含む。
【0240】
F.病理のレベルの分類
図42は、本開示の実施形態による、対象の生物学的試料における病理のレベルを分類する方法4200を示すフローチャートである。無細胞DNAを含む生物学的試料。方法4200の態様は、
図19の方法1900および
図20の方法2000と同様の方法で実施され得る。
【0241】
ブロック4210で、配列リードを取得するために生物学的試料由来の複数の無細胞DNA断片が分析される。配列リードは、複数の無細胞DNA断片の末端に対応する末端配列を含む。ブロック4210は、
図19のブロック1910と同様の方法で実施され得る。
【0242】
ブロック4220で、複数の無細胞DNA断片のそれぞれについて、配列モチーフが、無細胞DNA断片の1つ以上の末端配列のそれぞれについて決定される。ブロック4220は、
図19のブロック1920と同様の方法で実施され得る。
【0243】
ブロック4230で、複数の無細胞DNA断片の末端配列に対応する1つ以上の配列モチーフのセットの相対頻度が決定される。配列モチーフの相対頻度は、配列モチーフに対応する末端配列を有する複数の無細胞DNA断片の割合を提供し得る。ブロック4230は、
図19のブロック1930と同様の方法で実施され得る。例えば、1つ以上の配列モチーフのセットは、N個の塩基位置を含み得る。1つ以上の配列モチーフのセットは、N塩基の全ての組み合わせを含み得る。Nは、3以上の整数、およびその他の整数であり得る。
【0244】
別の例として、1つ以上の配列モチーフのセットは、1つ以上の参照試料において決定される2つのタイプのDNA間で最大の差を有する上位M個の配列モチーフ、例えば、全てが最大の正の差(例えば、上位10個または他の数)または最大の負の差がある全てを示すモチーフであり得る。Mは、1以上の整数であり得る。方法1900および2000について、2つのタイプのDNAは、臨床的関連DNAおよび他のDNAであり得る。方法4200について、2つのタイプのDNAは、病理のレベルについて異なる分類を有する2つの参照試料由来のものであり得る。さらなる例として、1つ以上の配列モチーフのセットは、1つ以上の参照試料において生じる上位M個の最も頻度の高い配列モチーフであり得、例えば、
図22に示されるように、参照試料はHBV試料などの非癌試料である。
【0245】
ブロック4240で、1つ以上の配列モチーフのセットの相対頻度の集計値が決定される。ブロック4240は、
図19のブロック1940と同様の方法で実施され得る。集計値の例は、本開示全体を通して説明され、エントロピー、複合頻度、クラスタリングにおいてもしくはSVMを使用して実装され得る相対頻度の参照パターンからの差(例えば、距離)、2つの分類間のカットオフと比較される、もしくは所与の分類の代表値と比較される機械学習モデル(例えば、ニューラルネットワークにおける中間層または最終層)においての差または出力から決定される値(例えば、確率)を含む。
【0246】
1つ以上の配列モチーフのセットが複数の配列モチーフを含む場合、集計値は、セットの相対頻度の合計を含み得る。合計は加重合計であり得る。例えば、集計値は、加重合計を含む項の合計を含むエントロピー項を含み得る。各項は、相対頻度に相対頻度の対数を掛けたものを含み得る。集計値は、相対頻度の分散に対応し得る。
【0247】
別の例において、集計値は、機械学習モデルの最終または中間出力を含む。様々な実装において、機械学習モデルはクラスタリング、サポートベクターマシン、またはロジスティック回帰を使用する。
【0248】
ブロック4250で、病理のレベルの分類は、集計値の参照値との比較に基づいて、対象について決定され得る。例として、病理は癌または自己免疫障害であり得る。例として、レベルは、癌ではない、初期ステージ、中期ステージ、または進行ステージであり得る。その後、分類はレベルの1つを選択し得る。したがって、分類は、複数のステージの癌を含む複数のレベルの癌から決定され得る。例として、癌は、肝細胞癌、肺癌、乳癌、胃癌、多形性神経膠芽細胞腫、膵臓癌、結腸直腸癌、上咽頭癌、および頭頸部扁平上皮細胞癌であり得る。一例として、自己免疫障害は全身性エリテマトーデスであり得る。
【0249】
さらなる例において、病理のレベルは、病理に関連する臨床的関連DNAの画分濃度に対応する。例えば、病理のレベルは癌であり得、臨床的関連DNAは腫瘍DNAであり得る。参照値は、方法1900について説明したように、較正試料から決定された較正値であり得る。
【0250】
いくつかの実施形態において、無細胞DNAは、複数の無細胞DNA断片を同定するためにフィルタリングされる。フィルタリングの例は、上記のセクションに記載されている。例えば、フィルタリングは、メチル化(密度または特定の部位がメチル化されているかどうか)、サイズ、またはDNA断片が由来する領域に基づき得る。無細胞DNAは、特定の組織のオープンクロマチン領域由来のDNA断片についてフィルタリングされ得る。
【0251】
IV.濃縮
特定の末端モチーフのセットを示す特定の組織由来のDNA断片の選択は、その特定の組織からのDNAの試料を濃縮するために使用され得る。したがって、実施形態は、臨床的関連DNAのために試料を濃縮し得る。例えば、特定の末端配列を有するDNA断片のみが、アッセイを使用して配列決定され、増幅され、および/または捕捉され得る。別の例として、配列リードのフィルタリングは、例えば、セクションIII.Eで説明されているのと同様の方法で実施され得る。
【0252】
A.物理的濃縮
物理的濃縮は、様々な方法で、例えば、特定のプライマーまたはアダプターを使用して実施され得るような、標的配列決定またはPCRを介して、実施され得る。末端配列の特定の末端モチーフが検出された場合、アダプターが断片の末端に追加され得る。次に、配列決定が実施されると、アダプターを有するDNA断片のみが配列決定され(または少なくとも主に配列決定され)、それによって標的化配列決定が提供される。
【0253】
別の例として、特定の末端モチーフのセットにハイブリダイズするプライマーが使用され得る。次に、これらのプライマーを使用して配列決定または増幅が実施され得る。特定の末端モチーフに対応する捕捉プローブがまた、さらなる分析のためにそれらの末端モチーフを有するDNA分子を捕捉するために使用され得る。いくつかの実施形態は、血漿DNA分子の末端に短いオリゴヌクレオチドを連結し得る。次に、プローブは、部分的に末端モチーフであり、部分的に連結されたオリゴヌクレオチドである配列のみを認識するように設計され得る。
【0254】
いくつかの実施形態は、CRISPRベースの診断技術を使用することができ、例えば、ガイドRNAを使用して、臨床的関連DNAの好ましい末端モチーフに対応する部位を特定し、次にヌクレアーゼを使用して、Cas-9またはCas-12を使用して行われ得るように、DNA断片を切断する。例えば、末端モチーフを認識するためにアダプターが使用され得、末端モチーフ/アダプターハイブリッドを切断し、分子を所望の末端でさらに濃縮するための普遍的な認識可能な末端を作成するためにCRISPR/Cas9またはCas-12が使用され得る。
【0255】
図43は、本開示の実施形態による、臨床的関連DNAについて生物学的試料を濃縮する方法4300を示すフローチャートである。生物学的試料は、臨床的関連DNA分子および無細胞の他のDNA分子を含む。方法4300は、特定のアッセイを使用して濃縮を実施し得る。
【0256】
ブロック4310で、生物学的試料から複数の無細胞DNA断片が受け取られる。臨床的関連DNA断片(例えば、胎児または腫瘍)は、他のDNA(例えば、母体DNA、健康なDNA、または血液細胞)よりも高い相対頻度で生じる配列モチーフを含む末端配列を有する。例として、
図3および13からのデータを使用し得る。したがって、臨床的関連DNAについて濃縮するために配列モチーフが使用され得る。
【0257】
ブロック4320で、複数の無細胞DNA断片は、複数の無細胞DNA断片の末端配列における配列モチーフを検出する1つ以上のプローブ分子に供される。プローブ分子のそのような使用は、検出されたDNA断片を取得する結果をもたらし得る。一例において、1つ以上のプローブ分子は、複数の無細胞DNA断片を調査し、検出されたDNA断片を増幅するために使用される新しい配列を付加する1つ以上の酵素を含み得る。別の例において、1つ以上のプローブ分子は、ハイブリダイゼーションによって末端配列における配列モチーフを検出するために表面に付着され得る。
【0258】
ブロック4330で、検出されたDNA断片は、臨床的関連DNA断片について生物学的試料を濃縮するために使用される。一例として、検出されたDNA断片を使用して、臨床的関連DNA断片について生物学的試料を濃縮することは、検出されたDNA断片を増幅することを含み得る。別の例として、検出されたDNA断片は捕捉され得、検出されなかったDNA断片は廃棄され得る。
【0259】
B.インシリコ濃縮
インシリコ濃縮は、様々な基準を使用して、特定のDNA断片を選択または破棄し得る。そのような基準は、末端モチーフ、オープンクロマチン領域、サイズ、配列多様性、メチル化、およびその他のエピジェネティックな特性を含む。エピジェネティックな特性には、DNA配列の変化を伴わないゲノムの全ての修飾を含む。基準は、例えば、特定のサイズ範囲、特定の量を上回るまたは下回るメチル化メトリック、2つ以上のCpG部位のメチル化状態の組み合わせ(例えば、メチル化ハプロタイプ(Guo et al,Nat Genet.2017;49:635-42))など特定の性質を必要とする、または閾値を超える複合確率を有する、カットオフを指定し得る。そのような濃縮はまた、そのような確率に基づいてDNA断片を重み付けすることを含み得る。
【0260】
例として、濃縮された試料は、病理を分類するために(上記のように)、同様に腫瘍もしくは胎児の変異を同定するために、または染色体もしくは染色体領域の増幅/欠失検出のためのタグカウントのために使用され得る。例えば、特定の末端モチーフまたは末端モチーフのセットが肝臓癌に関連する場合(すなわち、非癌または他の癌よりも高い相対頻度)、癌スクリーニングを実施するための実施形態は、そのようなDNA断片を、この好ましい1つの、またはこの好ましいセットの末端モチーフを有さないDNA断片よりも高く重み付けし得る。
【0261】
図44は、本開示の実施形態による、臨床的関連DNAについて生物学的試料を濃縮する方法4400を示すフローチャートである。生物学的試料は、臨床的関連DNA分子および無細胞の他のDNA分子を含む。方法4400は、配列リードの特定の基準を使用して、濃縮を実施し得る。
【0262】
ブロック4410で、配列リードを取得するために生物学的試料由来の複数の無細胞DNA断片が分析される。配列リードは、複数の無細胞DNA断片の末端に対応する末端配列を含む。ブロック4410は、
図19のブロック1910と同様の方法で実施され得る。
【0263】
ブロック4420で、複数の無細胞DNA断片のそれぞれについて、配列モチーフが、無細胞DNA断片の1つ以上の末端配列のそれぞれについて決定される。ブロック4420は、
図19のブロック1920と同様の方法で実施され得る。
【0264】
ブロック4430で、他のDNAよりも高い相対頻度で臨床的関連DNAにおいて生じる1つ以上の配列モチーフのセットが同定される。配列モチーフ(複数可)のセットは、本明細書に記載の遺伝子型または表現型の技術によって同定され得る。較正または参照試料は、臨床的関連DNAに選択的な配列モチーフをランク付けおよび選択のために使用され得る。
【0265】
ブロック4440で、末端配列において1つ以上の配列モチーフのセットを有する配列リードの群が同定される。これは、フィルタリングの最初の段階とみなし得る。
【0266】
ブロック4450で、閾値を超える臨床的関連DNAに対応する尤度を有する配列リードが保存され得る。尤度は、末端モチーフ(複数可)のセットを使用して決定され得る。例えば、配列リードの群の各配列リードについて、配列リードが臨床的関連DNAに対応する配列リードの尤度は、1つ以上の配列モチーフのセットの配列モチーフを含む配列リードの末端配列に基づいて決定され得る。尤度は閾値と比較され得る。例として、閾値は経験的に決定され得る。例えば、臨床的関連DNAの濃度が配列リードの群について測定され得る試料について、様々な閾値が試験され得る。最適な閾値は、配列リードの総数の特定の割合を維持しながら、濃度を最大化し得る。閾値は、健康な対照または疾患を有しないが同様の病因学的リスク要因にさらされた対照群において存在する1つ以上の末端モチーフの濃度の1つ以上の所与のパーセンタイル(5、10、90、または95)によって決定され得る。閾値は、回帰または確率スコアであり得る。
【0267】
尤度が閾値を超える場合、配列リードはメモリ(例えば、ファイル、テーブル、または他のデータ構造)に保存され得、それにより、保存された配列リードを取得する。閾値を下回る尤度を有する配列リードは、破棄されるか、または保持されているリードのメモリ位置に保存され得ない、またはデータベースのフィールドが、後の分析がそのようなリードを除外し得るようにリードの閾値が低いことを示すフラグを含み得る。例として、尤度は、オッズ比、zスコア、または確率分布などの様々な技術を使用して決定され得る。
【0268】
ブロック4460で、保存された配列リードは、他のフローチャートに記載されているように、例えば、本明細書に記載されているように、臨床的関連DNA生物学的試料の特性を決定するために分析され得る。方法1900、2000、および4200はそのような例である。例えば、臨床的関連DNA生物学的試料の特性は、臨床的関連DNAの画分濃度であり得る。別の例として、特性は、生物学的試料が取得された対象の病理のレベルであり得、病理のレベルは、臨床的関連DNAに関連している。別の例として、特性は、生物学的試料が取得された妊婦の胎児の在胎期間であり得る。
【0269】
他の基準が、尤度を決定するために使用され得る。複数の無細胞DNA断片のサイズは、配列リードを使用して測定され得る。特定の配列リードが臨床的関連DNAに対応する尤度は、特定の配列リードに対応する無細胞DNA断片のサイズにさらに基づき得る。
【0270】
メチル化も使用され得る。したがって、実施形態は、特定の配列リードに対応する無細胞DNA断片の1つ以上の部位での1つ以上のメチル化状態を測定し得る。特定の配列リードが臨床的関連DNAに対応する尤度は、1つ以上のメチル化状態にさらに基づき得る。さらなる例として、リードがオープンクロマチン領域の同定されたセット内にあるかどうかがフィルターとして使用され得る。
【0271】
図45は、本開示の実施形態によるCCCA末端モチーフを使用した胎児DNAフラクションの増加を示す例示的なプロットを示す。縦軸は、試験された試料についての胎児DNA画分である。2セットのデータは、(1)有益なSNPと重複する全ての断片(すなわち、胎児特異的対立遺伝子を有する断片)および(2)CCCA末端モチーフを持ち、有益なSNPと重複する断片についてである。したがって、左側のデータは試料全体における実際の胎児DNA画分を提供し、右側のデータはインシリコで濃縮された試料のデータを提供する。この例において、末端モチーフがCCCAの場合、尤度は閾値を超えていると決定され得る。より多くのモチーフが同様の方法で、例えば、尤度が閾値を超えていることを示す群として使用され得る。
【0272】
胎児DNA画分の相対的増加の中央値は3.2%(IQR:1.3~6.4%)である。胎児DNA画分の相対的増加は、(b-a)/a*100によって定義され、aは、母親がホモ接合で胎児がヘテロ接合である有益なSNPと重複する全ての断片によって計算された元の胎児DNA画分であり、bは、胎児のDNA分子において豊富であるCCCAモチーフによってタグ付けされた断片によって計算された胎児DNA画分である。
【0273】
本明細書に記載の方法のいずれかについて、無細胞DNA断片の1つ以上の末端配列のそれぞれについての配列モチーフは、参照ゲノムを使用して(例えば、
図1の技術160を介して)実施され得る。そのような技術は、無細胞DNA断片に対応する1つ以上の配列リードを参照ゲノムにアラインメントすること、末端配列に隣接する参照ゲノムにおける1つ以上の塩基を同定すること、および配列モチーフを決定するための末端配列および1つ以上の塩基を使用することを含む。
【0274】
V.例となるシステム
図46は、本発明の実施形態による、測定システム4600を例示する。示されたシステムは、試料ホルダ4610内の無細胞DNA分子などの試料4605を含み、試料4605はアッセイ4608と接触して物理的特性4615の信号を提供し得る。試料ホルダの例は、アッセイのプローブおよび/もしくはプライマー、または液滴が(アッセイを含む液滴とともに)移動するチューブを含む、フローセルであり得る。試料からの物理的特性4615(例えば、蛍光強度、電圧、または電流)は、検出器4620によって検出される。検出器4620は、データ信号を構成するデータ点を取得するために、間隔をおいて(例えば、周期的な間隔)測定し得る。一実施形態において、アナログ-デジタル変換器は、検出器からのアナログ信号をデジタル形態へと複数回変換する。試料ホルダ4610および検出器4620は、アッセイデバイス、例えば、本明細書に記載される実施形態に従って配列決定を実施する配列決定装置を形成し得る。データ信号4625は、検出器4620から論理システム4630へ送信される。データ信号4625は、ローカルメモリ4635、外部メモリ4640、または記憶デバイス4645に保存され得る。
【0275】
論理システム4630は、コンピュータシステム、ASIC、マイクロプロセッサなどであり得るか、またはそれらを含み得る。それはまた、ディスプレイ(例えば、モニタ、LEDディスプレイなど)、およびユーザ入力デバイス(例えば、マウス、キーボード、ボタンなど)を含み得るか、またはそれらに連結され得る。論理システム4630および他の構成要素は、スタンドアローンもしくはネットワーク接続されたコンピュータシステムの一部であり得るか、または検出器4620および/または試料ホルダ4610を含むデバイス(例えば、配列決定デバイス)に直接取り付けられ得るか、または組み込まれ得る。論理システム4630はまた、プロセッサ4650において実行するソフトウェアを含み得る。論理システム4630は、本明細書に説明される方法のいずれかを実施するようにシステム4600を制御するための命令を保存するコンピュータ可読媒体を含み得る。例えば、論理システム4630は、配列決定または他の物理的操作が実施されるように、試料ホルダ4610を含むシステムにコマンドを提供し得る。そのような物理的操作は、特定の順序で、例えば、試薬が特定の順序で追加および除去されるように、実施され得る。そのような物理的操作は、試料を取得してアッセイを実施するために使用され得るように、例えば、ロボットアームを含む、ロボットシステムによって実施され得る。
【0276】
本明細書で言及されるコンピュータシステムのうちのいずれも、任意の好適な数のサブシステムを利用し得る。コンピュータシステム10においてこのようなサブシステムの例を
図47に示す。いくつかの実施形態において、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態において、コンピュータシステムは、各々がサブシステムであり、内部構成要素を備える、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップコンピュータおよびラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯デバイスを含み得る。
【0277】
図47に示されるサブシステムは、システムバス75を介して相互接続される。プリンタ74、キーボード78、記憶デバイス(複数可)79、ディスプレイアダプター82に接続されたモニタ76(例えば、LEDなどのディスプレイスクリーン)、およびその他などの追加のサブシステムが示されている。I/Oコントローラ71に結合する周辺機器および入力/出力(I/O)デバイスは、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))などの当技術分野において既知である任意の数の手段によって、コンピュータシステムに接続され得る。例えば、I/Oポート77または外部インターフェース81(例えば、Ethernet、Wi-Fiなど)を使用して、Internetなどの広域ネットワーク、マウス入力デバイス、またはスキャナに、コンピュータシステム10を接続し得る。システムバス75を介した相互接続は、中央プロセッサ73が、各サブシステムと通信し、システムメモリ72または記憶デバイス(複数可)79(例えば、ハードドライブまたは光ディスクなどの固定ディスク)からの複数の命令の実行、およびサブシステム間の情報交換を制御することを可能にする。システムメモリ72および/または記憶デバイス(複数可)79は、コンピュータ可読媒体を具現化し得る。別のサブシステムは、カメラ、マイクロホン、および加速度計、ならびにこれらに類するものなどのデータ収集デバイス85である。本明細書に言及されるデータのうちのいずれも、1つの構成要素から別の構成要素に出力されてもよく、ユーザに対して出力されてもよい。
【0278】
コンピュータシステムは、例えば、外部インターフェース81によって、内部インターフェースによって、または1つの構成要素から別の構成要素に接続され得る、もしくは取り外され得る記憶デバイスを介して、ともに接続された、複数の同じ構成要素またはサブシステムを含み得る。いくつかの実施形態において、コンピュータシステム、サブシステム、または装置は、ネットワーク上で通信し得る。そのような例において、1つのコンピュータをクライアント、別のコンピュータをサーバとみなすことができ、各々が、同じコンピュータシステムの一部であり得る。クライアントおよびサーバは各々、複数のシステム、サブシステム、または構成要素を含み得る。
【0279】
実施形態の態様は、制御ロジックの形態で、ハードウェア回路(例えば、特定用途向け集積回路もしくはフィールドプログラマブルゲートアレイ)を使用して、および/またはモジュール式もしくは集積様態で汎用プログラマブルプロセッサを有するコンピュータソフトウェアを使用して、実装され得る。本明細書で使用される場合、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、または単一の回路基板もしくはネットワーク化された上の複数の処理ユニット、ならびに専用のハードウェアを含み得る。本開示および本明細書に提供される教示に基づいて、当業者は、ハードウェア、およびハードウェアとソフトウェアとの組み合わせを使用して、本発明の実施形態を実装するための他の方法および/または方法を認識および理解するであろう。
【0280】
本出願で説明されるソフトウェア構成要素または関数のうちのいずれも、例えば、Java、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、または、例えば、従来の技術もしくはオブジェクト指向の技術を使用するPerlもしくはPythonなどのスクリプト言語を使用する、処理デバイスによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、記憶および/または伝送のためのコンピュータ可読媒体上に一連の命令またはコマンドとして記憶され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、読み取り専用メモリ(ROM)、磁気媒体(ハードドライブもしくはフロッピーディスクなど)、または光学媒体(コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)など)、またはブルーレイディスクおよびフラッシュメモリなどを含み得る。コンピュータ可読媒体は、そのような記憶または送信デバイスの任意の組み合わせであってもよい。
【0281】
そのようなプログラムはまた、コード化され、インターネットを含む様々なプロトコルに従う有線ネットワーク、光ネットワーク、および/または無線ネットワークを介した送信に適合した搬送波信号を使用して送信され得る。したがって、コンピュータ可読媒体は、そのようなプログラムでコード化されたデータ信号を使用して作成され得る。プログラムコードでコード化されたコンピュータ可読媒体は、互換性のあるデバイスでパッケージ化されていてもよく、または(例えば、インターネットダウンロードを介して)他のデバイスとは別個に提供され得る。任意のそのようなコンピュータ可読媒体は、単一のコンピュータ製品(例えば、ハードドライブ、CD、もしくはコンピュータシステム全体)上もしくはその内部に存在し得、システムまたはネットワーク内の異なるコンピュータ製品上もしくはその内部に存在し得る。コンピュータシステムは、モニタ、プリンタ、または本明細書に記載の結果のうちのいずれかをユーザへ提供するための他の好適なディスプレイを含み得る。
【0282】
本明細書記載の方法のうちのいずれも、ステップを実施するように構成することができる1つ以上のプロセッサを含むコンピュータシステムを用いて全体的または部分的に実施され得る。したがって、実施形態は、本明細書に説明される方法のうちのいずれかのステップを実施するように構成されたコンピュータシステムを対象とし得、潜在的には異なる構成要素がそれぞれのステップまたはそれぞれのステップの群を実施する。番号付けされたステップとして提示されるが、本明細書の方法のステップは、同時にもしくは異なる時間に、または異なる順序で実施され得る。加えて、これらのステップの部分は、他の方法からの他のステップの部分と併用され得る。また、あるステップの全てまたは部分は、任意選択的であり得る。加えて、本方法のうちのいずれかのステップのうちのいずれかは、これらのステップを実施するためのシステムのモジュール、ユニット、回路、または他の手段を用いて実施され得る。
【0283】
特定の実施形態の具体的な詳細は、本発明の実施形態の趣旨および範囲から逸脱することなく、任意の好適な様態で組み合わせることができる。しかしながら、本発明の他の実施形態は、各個々の態様、またはこれらの個々の態様の具体的な組み合わせに関する具体的な実施形態を対象とし得る。
【0284】
本開示の例示的実施形態の上の説明は、例示および説明の目的で提示されている。包括的であること、または本開示を説明された正確な形態に限定することは意図されず、多くの修正および変更が、先の教示に鑑みて可能である。
【0285】
「a」、「an」、または「the」の記述は、それとは反対に具体的に示されない限り、「1つ以上」を意味することが意図される。「または」の使用は、それとは反対に具体的に示されない限り、「を除く、または」ではなく「を含む、または」を意味することが意図される。「第1」の構成要素への言及は、第2の構成要素が提供されることを必ずしも必要としない。さらに、「第1」または「第2」の構成要素への言及は、明示的に述べられていない限り、言及される構成要素を特定の場所に限定するものではない。「~に基づいて」という用語は、「少なくとも一部に基づいて」を意味することを意図している。
【0286】
本明細書において言及される全ての特許、特許出願、刊行物、および明細書は、全ての目的に対して参照によりそれらの全体が組み込まれる。いかなるものも、先行技術であるとは認められていない。