(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公開特許公報(A)
(11)【公開番号】P2024105539
(43)【公開日】2024-08-06
(54)【発明の名称】無細胞DNAについての体細胞起源または生殖系列起源の識別
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240730BHJP
C12Q 1/686 20180101ALI20240730BHJP
C40B 40/06 20060101ALN20240730BHJP
【FI】
C12Q1/6869 Z
C12Q1/686 Z
C40B40/06
【審査請求】有
【請求項の数】15
【出願形態】OL
【外国語出願】
(21)【出願番号】P 2024078860
(22)【出願日】2024-05-14
(62)【分割の表示】P 2022074644の分割
【原出願日】2018-05-16
(31)【優先権主張番号】62/507,127
(32)【優先日】2017-05-16
(33)【優先権主張国・地域又は機関】US
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
(71)【出願人】
【識別番号】515059083
【氏名又は名称】ガーダント ヘルス, インコーポレイテッド
(71)【出願人】
【識別番号】399052796
【氏名又は名称】デイナ ファーバー キャンサー インスティチュート,インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】リチャード ビー. ランマン
(72)【発明者】
【氏名】ジェフリー アール. オックスナード
(57)【要約】
【課題】無細胞DNAについての体細胞起源または生殖系列起源の識別の提供。
【解決手段】本発明の方法は、前記対象由来のcfDNAからシーケンシング情報を受け取るステップであって、前記シーケンシング情報が前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードを含むステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値を前記cfDNAシーケンシングリードに基づいて決定するステップと、前記AF値のそれぞれについて標準偏差(STDEV)を決定するステップと、STDEV閾値およびAF閾値を提供するステップと、前記AF値のそれぞれのSTDEVが前記STDEV閾値を上回るかまたは下回るかを決定するステップと、前記AF値のそれぞれが前記AF閾値を上回るかまたは下回るかを決定するステップとを含み得る。
【選択図】なし
【特許請求の範囲】
【請求項1】
対立遺伝子画分(AF)値の第1のセット由来のゲノム遺伝子座からのAF値と、AF値の第2のセット由来のAF値との比較を、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための指標とする方法であって、前記方法は、
前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと;
定量的AF値の前記第1のセットを決定するステップであって、AF値の前記第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含むステップと;
AF値の前記第2のセットを提供するステップであって、AF値の前記第2のセットが、1つまたは複数の既知の体細胞変異体のそれぞれについてのAF値を含む、ステップと;
AF値の前記第1のセット由来の前記ゲノム遺伝子座の前記AF値とAF値の前記第2のセット由来の前記AF値とを比較するステップと;
ゲノム遺伝子座についてのAF値の前記第1のセット由来の前記AF値とAF値の前記第2のセット由来の前記AF値との差異が10%またはそれ未満である場合、ゲノム遺伝子座を体細胞起源であると識別し、ゲノム遺伝子座についてのAF値の前記第1のセット由来の前記AF値とAF値の前記第2のセット由来の前記AF値の差異が10%を超える場合、ゲノム遺伝子座を生殖系列起源であると識別するステップと
を含む、方法。
【請求項2】
AF値の前記第2のセットが、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座からのAF値を含む、請求項1に記載の方法。
【請求項3】
AF値の前記第2のセットが、複数の対照の対象由来のcfDNAからの複数のゲノム遺伝子座からのAF値を含む、請求項1に記載の方法。
【請求項4】
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別する方法であって、前記方法は、
第1の時点で集められた前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第1のcfDNAシーケンシングリードを含む、ステップと;
前記複数のゲノム遺伝子座からの配列情報を提供するステップと;
前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、
a)推定体細胞起源;
b)推定生殖系列起源;または
c)起源不確定
からなる群から選択され、それにより、推定体細胞起源であるゲノム遺伝子座を含む第1のビン、推定生殖系列起源であるゲノム遺伝子座を含む第2のビン、および起源不確定であるゲノム遺伝子座を含む第3のビンを生成する、ステップと;
前記第1のビン、前記第2のビン、および前記第3のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分(AF)値を前記第1のcfDNAシーケンシングリードに基づいて決定して、それぞれ第1のAFセット、第2のAFセット、および第3のAFセットを生成するステップと;
前記第1のAFセットに基づく第1の度数分布および前記第2のAFセットに基づく第2の度数分布を生成するステップであって、前記第1の度数分布と前記第2の度数分布の間に重複が存在しない、ステップと;
AF閾値を前記第1および第2の度数分布に基づいて識別するステップと
を含む、方法。
【請求項5】
請求項4に記載の方法であって、前記AF閾値が、(i)前記第1のAFセットの中で最大の定量的AF値以上かつ(ii)前記第2のAFセットの中で最小の定量的AF値以下であり、
前記方法が、
前記ゲノム遺伝子座の第3のビンのそれぞれに最終的な分類を割り当てるステップであって、最終的な分類が、(A)前記ゲノム遺伝子座が前記AF閾値以下の定量的AF値を有する場合、推定体細胞起源であり、または(B)前記ゲノム領域が前記AF閾値以上の定量的AF値を有する場合、推定生殖系列起源である、ステップ
をさらに含む、方法。
【請求項6】
請求項4に記載の方法であって、前記第1のAF閾値が前記第1のAFセットの中で最大の定量的AF値であり、前記第2のAF閾値が前記第2のAFセットの中で最小の定量的AF値であり、
前記方法が、
前記複数のゲノム遺伝子座のそれぞれに最終的な分類を割り当てるステップであって、前記最終的な分類が、(A)前記ゲノム領域が前記第1のAF閾値以下の定量的AF値を有する場合、推定体細胞起源であり、(B)前記ゲノム領域が前記第2のAF閾値以上の定量的AF値を有する場合、推定生殖系列起源であり、または(C)前記ゲノム領域が前記第1のAF閾値を超え、かつ前記第2のAF閾値未満の定量的AF値を有する場合、不明確である、ステップ
をさらに含む、方法。
【請求項7】
対立遺伝子画分(AF)値の第1のセット由来のゲノム遺伝子座からのAF値と、AF値の第2のセット由来のAF値との比較を、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための指標とする方法であって、前記方法は、
前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと;
定量的対立遺伝子画分AF値の前記第1のセットを決定するステップであって、AF値の前記第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含むステップと;
AF値の前記第2のセットを提供するステップであって、AF値の前記第2のセットが、1つまたは複数の既知の生殖系列変異体のそれぞれについてのAF値を含む、ステップと;
AF値の前記第1のセット由来のゲノム遺伝子座からの前記AF値とAF値の前記第2のセット由来の前記AF値とを比較するステップと;
ゲノム遺伝子座についてのAF値の前記第1のセット由来の前記AF値とAF値の前記第2のセット由来の前記AF値との差異が10%またはそれ未満である場合、ゲノム遺伝子座を生殖系列起源であると識別し、ゲノム遺伝子座についてのAF値の前記第1のセット由来の前記AF値とAF値の前記第2のセット由来の前記AF値の差異が10%を超える場合、ゲノム遺伝子座を体細胞起源であると識別するステップと
を含む、方法。
【請求項8】
AF値の前記第2のセットが、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座からのAF値を含む、請求項7に記載の方法。
【請求項9】
AF値の前記第2のセットが、複数の対照の対象由来のcfDNAからの複数のゲノム遺伝子座からのAF値を含む、請求項7に記載の方法。
【請求項10】
前記ゲノム遺伝子座の1つまたは複数が、BRCA遺伝子内の遺伝子座である、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記cfDNAが、体液から単離され、前記体液が血液または血清である、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記cfDNAが、循環腫瘍DNAを含む、請求項1~11のいずれか一項に記載の方法。
【請求項13】
cfDNA分子の配列リードのセットを提供することが、対象由来のcfDNAをシーケンシングし、1種または複数種の遺伝子変異体を検出し、数量化することを含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
シーケンシング前に核酸ライブラリーが調製される、請求項13に記載の方法。
【請求項15】
cfDNA分子が、バーコードと、前記cfDNAの1つまたは複数の内在性配列との組み合わせにより固有に識別される、請求項14に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、その全体が参照により本明細書に組み込まれる、2017年5月16日出願の米国仮出願第62/507,127号の利益を主張するものである。
【背景技術】
【0002】
背景
対象のゲノムと参照ゲノム(例えば、GRCh38.p4)の比較により、一般には、塩基の約0.01%に差異(遺伝子変異)が示される。生殖系列の遺伝子変異体は、通常の遺伝または生殖細胞突然変異によって伝達されるSNPであり得る。変異は、ホモ接合性形態またはヘテロ接合性形態で存在する。
【0003】
がんなどのある特定の病理学的状態は、生殖系列ゲノムと比較した病的細胞のゲノムの遺伝子変異を特徴とする。これらの変異は、体細胞性突然変異に起因し、体細胞突然変異と称される。
【0004】
体細胞突然変異を有するポリヌクレオチドは、無細胞DNA(cfDNA)において検出することができ、cfDNAでは体細胞突然変異を有するポリヌクレオチドは生殖系列ゲノムを有する細胞由来のDNAと混在する。cfDNA中に大きなバックグラウンド(生殖系列)が存在する場合、コンピュータにより実行されるプロセスでは生殖系列変異体と体細胞突然変異を自動的に弁別することができない。その代わりに、従来のシステムは、体細胞突然変異を生殖系列突然変異と区別するために、個々のヒト専門家または専門家の共同体(いずれの場合もTumor Boardと称される)の専門知識に依拠している。
【0005】
ノイズおよび偏りが存在しない場合、生殖系列変異体は、対立遺伝子画分が50%(ヘテロ接合性(het)遺伝子座の場合)または100%(ホモ接合性(homo)遺伝子座の場合)のものになる。しかし、実際には、システムにノイズおよび偏りが存在することにより、これらの明快な数字が不明確になる。言い換えれば、hetまたはhomo遺伝子座は、正確に50%または100%では検出されないが、その代わりに、hetカテゴリーおよびhomoカテゴリーのそれぞれについて信頼度の上下限の間で検出される。例えば、het遺伝子座は40%~60%の範囲であり得、一方、homo遺伝子座は98%~100%の範囲であり得る。
【発明の概要】
【課題を解決するための手段】
【0006】
要旨
本開示の単に例示的な実施形態が示され、説明されている以下の詳細な説明から本開示の追加的な態様および利点が当業者には容易に明らかになろう。理解される通り、本開示は、他の異なる実施形態でも可能であり、そのいくつかの詳細は全て本開示から逸脱することなく種々の明白な点で改変可能である。したがって、図および説明は、実際に例示的であり、限定的なものではないとみなされるべきである。
【0007】
一態様では、本開示は、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードを含む、ステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値(quantitative allele fraction (AF)
measure)を前記cfDNAシーケンシングリードに基づいて決定するステップと、前記AF値(AF measure)のそれぞれについて標準偏差(STDEV)を決定するステップと、STDEV閾値およびAF閾値を提供するステップと、前記AF値のそれぞれのSTDEVが前記STDEV閾値を上回るかまたは下回るかを決定するステップと、前記AF値のそれぞれが前記AF閾値を上回るかまたは下回るかを決定するステップと、STDEVが前記STDEV閾値を下回り、かつAF値が前記AF閾値を下回る各遺伝子座を、体細胞起源であると分類するステップとを含む方法を提供する。
【0008】
一態様では、本開示は、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードを含む、ステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値を前記cfDNAシーケンシングリードに基づいて決定するステップと、前記AF値のそれぞれについて標準偏差(STDEV)を決定するステップと、STDEV閾値およびAF閾値を提供するステップと、前記AF値のそれぞれのSTDEVが前記STDEV閾値を上回るかまたは下回るかを決定するステップと、前記AF値のそれぞれが前記AF閾値を上回るかまたは下回るかを決定するステップと、STDEVが前記STDEV閾値を下回り、かつAF値が前記AF閾値を上回る各遺伝子座を、生殖系列起源であると分類するステップとを含む方法を提供する。
【0009】
一部の実施形態では、ゲノム遺伝子座についてのAF値が前記STDEV閾値を下回ることにより、前記ゲノム遺伝子座に関して低いコピー数多型(CNV)が示される。
【0010】
一部の実施形態では、ゲノム遺伝子座についてのAF値が前記STDEV閾値を上回ることにより、関連するゲノム遺伝子座に関して高いコピー数多型(CNV)が示される。
【0011】
一部の実施形態では、AF閾値は、経験的に決定される。
【0012】
一態様では、本開示は、がんを有する対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、がん治療薬を用いた処置前の第1の時点で前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードの第1のセットを含む、ステップと、がん治療薬を用いた処置後の第2の時点で前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードの第2のセットを含む、ステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値を、前記第1の時点の前記cfDNAシーケンシングリード、および前記第2の時点の前記cfDNAシーケンシングリードに基づいて決定するステップと、前記第1の時点の前記AF値と前記第2の時点の前記AF値を比較するステップであって、前記がんが、前記がん治療薬に対して応答性である、ステップと、ゲノム遺伝子座のAF値が前記第1の時点と前記第2の時点の間に低減する場合、前記ゲノム遺伝子座を体細胞起源であると識別するステップとを含む方法を提供する。
【0013】
一態様では、本開示は、がんを有する対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、がん治療薬を用いた処置前の第1の時点で前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードの第1のセットを含む、ステップと、がん治療薬を用いた処置後の第2の時点で前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードの第2のセットを含む、ステップと、前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値を、前記第1の時点の前記cfDNAシーケンシングリード、および前記第2の時点の前記cfDNAシーケンシングリードに基づいて決定するステップと、前記第1の時点の前記AF値と前記第2の時点の前記AF値を比較するステップであって、前記がんが、前記がん治療薬に対して応答性である、ステップと、ゲノム遺伝子座のAF値が前記第1の時点と前記第2の時点の間に低減しない場合、前記ゲノム遺伝子座を生殖系列起源であると識別するステップとを含む方法を提供する。
【0014】
一態様では、本開示は、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための方法であって、第1の時点で集められた前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第1のcfDNAシーケンシングリードを含む、ステップと、前記複数のゲノム遺伝子座からの配列情報を提供するステップと、前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、a)推定体細胞起源;b)推定生殖系列起源;またはc)起源不確定からなる群から選択され、それにより、推定体細胞起源であるゲノム遺伝子座を含む第1のビン、推定生殖系列起源であるゲノム遺伝子座を含む第2のビン、および起源不確定であるゲノム遺伝子座を含む第3のビンを生成する、ステップと、前記第1のビン、前記第2のビン、および前記第3のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分(AF)値を前記第1のcfDNAシーケンシングリードに基づいて決定して、それぞれ第1のAFセット、第2のAFセット、および第3のAFセットを生成するステップと、前記第1のAFセットに基づく第1の度数分布および前記第2のAFセットに基づく第2の度数分布を生成するステップであって、前記第1の度数分布と前記第2の度数分布の間に重複が存在しない、ステップと、AF閾値を前記第1および第2の度数分布に基づいて識別するステップであって、AF閾値が、(i)前記第1のAFセットの中で最大の定量的AF値以上かつ(ii)前記第2のAFセットの中で最小の定量的AF値以下である、ステップと、前記ゲノム遺伝子座の第3のビンのそれぞれに最終的な分類を割り当てるステップであって、最終的な分類が、(A)前記ゲノム遺伝子座の定量的AF値が前記AF閾値以下の場合、推定体細胞起源であり、または(B)前記ゲノム領域の定量的AF値が前記AF閾値以上の場合、推定生殖系列起源である、ステップとを含む方法を提供する。
【0015】
一態様では、本開示は、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための方法であって、第1の時点で集められた前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第1のcfDNAシーケンシングリードを含む、ステップと、前記複数のゲノム遺伝子座からの配列情報を提供するステップと、前記複数のゲノム遺伝子座における前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、a)推定体細胞起源;b)推定生殖系列起源;またはc)起源不確定からなる群から選択され、それにより、推定体細胞起源であるゲノム遺伝子座を含む第1のビン、推定生殖系列起源であるゲノム遺伝子座を含む第2のビン、および起源不確定であるゲノム遺伝子座を含む第3のビンを生成する、ステップと、前記第1のビン、前記第2のビン、および前記第3のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分(AF)値を前記第1のcfDNAシーケンシングリードに基づいて決定して、それぞれ第1のAFセット、第2のAFセット、および第3のAFセットを生成するステップと、前記第1のAFセットに基づく第1の度数分布および前記第2のAFセットに基づく第2の度数分布を生成するステップであって、前記第1の度数分布と前記第2の度数分布の間に重複が存在する、ステップと、第1のAF閾値を前記第1および第2の度数分布に基づいて識別するステップであって、第1のAF閾値が、前記第1のAFセットの中で最大の定量的AF値である、ステップと、第2のAF閾値を前記第1および第2の度数分布に基づいて識別するステップであって、第2のAF閾値が、前記第2のAFセットの中で最小の定量的AF値である、ステップと、前記複数のゲノム遺伝子座のそれぞれに最終的な分類を割り当てるステップであって、前記最終的な分類が、(A)前記ゲノム領域の定量的AF値が前記第1のAF閾値以下の場合、推定体細胞起源であり、(B)前記ゲノム領域の定量的AF値が前記第2のAF閾値以上の場合、推定生殖系列起源であり、または(C)前記ゲノム領域の定量的AF値が前記第1のAF閾値を超え、かつ前記第2のAF閾値未満の場合、不明確である、ステップとを含む方法を提供する。
【0016】
一態様では、本開示は、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと、定量的対立遺伝子画分(AF)値の第1のセットを決定するステップであって、前記AF値の第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含む、ステップと、AF値の第2のセットを提供するステップであって、前記AF値の第2のセットが、1つまたは複数の既知の体細胞変異体のそれぞれについてのAF値を含む、ステップと、前記AF値の第1のセット由来のゲノム遺伝子座のAF値と前記AF値の第2のセット由来のAF値を比較するステップと、ゲノム遺伝子座についての前記AF値の第1のセット由来の前記AF値と前記AF値の第2のセット由来の前記AF値の差異が10%またはそれ未満である場合、ゲノム遺伝子座を体細胞起源であると識別するステップとを含む方法を提供する。
【0017】
一部の実施形態では、前記AF値の第2のセットは、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座のAF値を含む。
【0018】
一部の実施形態では、前記AF値の第2のセットは、複数の対照の対象由来のcfDNAの複数のゲノム遺伝子座のAF値を含む。
【0019】
一態様では、本開示は、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと、定量的対立遺伝子画分(AF)値の第1のセットを決定するステップであって、前記AF値の第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含む、ステップと、AF値の第2のセットを提供するステップであって、前記AF値の第2のセットが、1つまたは複数の既知の体細胞変異体のそれぞれについてのAF値を含む、ステップと、前記AF値の第1のセット由来のゲノム遺伝子座のAF値と前記AF値の第2のセット由来のAF値を比較するステップと、ゲノム遺伝子座についての前記AF値の第1のセット由来の前記AF値と前記AF値の第2のセット由来の前記AF値の差異が10%を超える場合、ゲノム遺伝子座を生殖系列起源であると識別するステップとを含む方法を提供する。
【0020】
一部の実施形態では、前記AF値の第2のセットは、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座のAF値を含む。
【0021】
一部の実施形態では、前記AF値の第2のセットは、複数の対照の対象由来のcfDNAの複数のゲノム遺伝子座のAF値を含む。
【0022】
一態様では、本開示は、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと、定量的対立遺伝子画分(AF)値の第1のセットを決定するステップであって、前記AF値の第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含む、ステップと、AF値の第2のセットを提供するステップであって、前記AF値の第2のセットが、1つまたは複数の既知の生殖系列変異体のそれぞれについてのAF値を含む、ステップと、前記AF値の第1のセット由来のゲノム遺伝子座のAF値と前記AF値の第2のセット由来のAF値を比較するステップと、ゲノム遺伝子座についての前記AF値の第1のセット由来の前記AF値と前記AF値の第2のセット由来の前記AF値の差異が10%またはそれ未満である場合、ゲノム遺伝子座を生殖系列起源であると識別するステップとを含む方法を提供する。
【0023】
一部の実施形態では、前記AF値の第2のセットは、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座のAF値を含む。
【0024】
一部の実施形態では、前記AF値の第2のセットは、複数の対照の対象由来のcfDNAの複数のゲノム遺伝子座のAF値を含む。
【0025】
一態様では、本開示は、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと、定量的対立遺伝子画分(AF)値の第1のセットを決定するステップであって、前記AF値の第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含む、ステップと、AF値の第2のセットを提供するステップであって、前記AF値の第2のセットが、1つまたは複数の既知の生殖系列変異体のそれぞれについてのAF値を含む、ステップと、前記AF値の第1のセット由来のゲノム遺伝子座のAF値と前記AF値の第2のセット由来のAF値を比較するステップと、ゲノム遺伝子座についての前記AF値の第1のセット由来の前記AF値と前記AF値の第2のセット由来の前記AF値の差異が10%を超える場合、ゲノム遺伝子座を体細胞起源であると識別するステップとを含む方法を提供する。
【0026】
一部の実施形態では、前記AF値の第2のセットは、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座のAF値を含む。
【0027】
一部の実施形態では、前記AF値の第2のセットは、複数の対照の対象由来のcfDNAの複数のゲノム遺伝子座のAF値を含む。
【0028】
一部の実施形態では、前記ゲノム遺伝子座の1つまたは複数は、BRCA遺伝子座である。
【0029】
一態様では、本開示は、a)cfDNA分子の配列リードのセットを提供するステップであって、前記配列リードが、参照ゲノムの選択されたゲノム領域(例えば、遺伝子、エクソン、イントロン、遺伝子の一部分(例えば、少なくとも100ヌクレオチド、少なくとも500ヌクレオチド、または少なくとも1000ヌクレオチド))にマッピングされる、ステップと、b)ゲノム領域内の複数の遺伝子変異体(例えば、参照配列とは異なるヌクレオチド)を含むセットの対立遺伝子頻度を決定するステップであって、セットが、目的の変異体を含む、ステップと、c)セット内の遺伝子変異体の対立遺伝子頻度の変動性値(measure of variability)(例えば、標準偏差または分散)を決定するステップと、d)変動性値閾値および対立遺伝子頻度閾値を提供するステップと、e)変動性値が変動性閾値を下回るかどうかを決定するステップと、f)変動性値が変動性閾値を下回る場合、(i)目的の変異体の対立遺伝子頻度が対立遺伝子頻度閾値を上回る場合には目的の変異体を、生殖系列起源を有するとコールし、(ii)目的の変異体の対立遺伝子頻度が対立遺伝子頻度閾値を下回る場合には目的の変異体が、体細胞起源を有するとコールするステップとを含む方法を提供する。
【0030】
参照による組込み
本明細書において言及されている全ての刊行物、特許および特許出願は、個々の刊行物、特許、または特許出願が、具体的にかつ個別に参照により組み込まれることが示されたものと同じく参照により本明細書に組み込まれる。参照により組み込まれている刊行物および特許または特許出願が本明細書に含有される本開示と矛盾する限りでは、本明細書は、あらゆるそのような矛盾する材料に取って代わり、かつ/またはそれに優先するものとする。
【0031】
本開示の新規の特徴は、添付の特許請求の範囲において詳細に記載されている。本開示の原理が利用される例示的な実施形態が記載されている以下の詳細な説明およびその付属図を参照することにより、本開示の特徴および利点のよりよい理解が得られる。
特定の実施形態では、例えば以下の項目が提供される。
(項目1)
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、
前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードを含む、ステップと、
前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値を前記cfDNAシーケンシングリードに基づいて決定するステップと、
前記AF値のそれぞれについて標準偏差(STDEV)を決定するステップと、
STDEV閾値およびAF閾値を提供するステップと、
前記AF値のそれぞれのSTDEVが前記STDEV閾値を上回るかまたは下回るかを決定するステップと、
前記AF値のそれぞれが前記AF閾値を上回るかまたは下回るかを決定するステップと、
STDEVが前記STDEV閾値を下回り、かつAF値が前記AF閾値を下回る各遺伝子座を、体細胞起源であると分類するステップと
を含む方法。
(項目2)
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、
前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードを含む、ステップと、
前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値を前記cfDNAシーケンシングリードに基づいて決定するステップと、
前記AF値のそれぞれについて標準偏差(STDEV)を決定するステップと、
STDEV閾値およびAF閾値を提供するステップと、
前記AF値のそれぞれのSTDEVが前記STDEV閾値を上回るかまたは下回るかを決定するステップと、
前記AF値のそれぞれが前記AF閾値を上回るかまたは下回るかを決定するステップと、
STDEVが前記STDEV閾値を下回り、かつAF値が前記AF閾値を上回る各遺伝子座を、生殖系列起源であると分類するステップと
を含む方法。
(項目3)
ゲノム遺伝子座についてのAF値が前記STDEV閾値を下回ることにより、前記ゲノム遺伝子座に関して低いコピー数多型(CNV)が示される、項目1または2に記載の方法。
(項目4)
ゲノム遺伝子座についてのAF値が前記STDEV閾値を上回ることにより、関連するゲノム遺伝子座に関して高いコピー数多型(CNV)が示される、項目1または2に記載の方法。
(項目5)
前記AF閾値が、経験的に決定される、項目1または2に記載の方法。
(項目6)
がんを有する対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、
がん治療薬を用いた処置前の第1の時点で前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードの第1のセットを含む、ステップと、
がん治療薬を用いた処置後の第2の時点で前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードの第2のセットを含む、ステップと、
前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値を、前記第1の時点の前記cfDNAシーケンシングリード、および前記第2の時点の前記cfDNAシーケンシングリードに基づいて決定するステップと、
前記第1の時点の前記AF値と前記第2の時点の前記AF値を比較するステップであって、前記がんが、前記がん治療薬に対して応答性である、ステップと、
ゲノム遺伝子座のAF値が前記第1の時点と前記第2の時点の間に低減する場合、前記ゲノム遺伝子座を体細胞起源であると識別するステップと
を含む方法。
(項目7)
がんを有する対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、
がん治療薬を用いた処置前の第1の時点で前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードの第1のセットを含む、ステップと、
がん治療薬を用いた処置後の第2の時点で前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードの第2のセットを含む、ステップと、
前記複数のゲノム遺伝子座のそれぞれについての定量的対立遺伝子画分(AF)値を、前記第1の時点の前記cfDNAシーケンシングリード、および前記第2の時点の前記cfDNAシーケンシングリードに基づいて決定するステップと、
前記第1の時点の前記AF値と前記第2の時点の前記AF値を比較するステップであって、前記がんが、前記がん治療薬に対して応答性である、ステップと、
ゲノム遺伝子座からのAF値が前記第1の時点と前記第2の時点の間に低減しない場合、前記ゲノム遺伝子座を生殖系列起源であると識別するステップと
を含む方法。
(項目8)
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための方法であって、
第1の時点で集められた前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第1のcfDNAシーケンシングリードを含む、ステップと、
前記複数のゲノム遺伝子座からの配列情報を提供するステップと、
前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、
a)推定体細胞起源;
b)推定生殖系列起源;または
c)起源不確定
からなる群から選択され、
それにより、推定体細胞起源であるゲノム遺伝子座を含む第1のビン、推定生殖系列起源であるゲノム遺伝子座を含む第2のビン、および起源不確定であるゲノム遺伝子座を含む第3のビンを生成するステップと、
前記第1のビン、前記第2のビン、および前記第3のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分(AF)値が前記第1のcfDNAシーケンシングリードに基づき、それぞれ第1のAFセット、第2のAFセット、および第3のAFセットを生成するステップと、
前記第1のAFセットに基づく第1の度数分布および前記第2のAFセットに基づく第2の度数分布を生成するステップであって、前記第1の度数分布と前記第2の度数分布の間に重複が存在しない、ステップと、
AF閾値を前記第1および第2の度数分布に基づいて識別するステップであって、このAF閾値が、(i)前記第1のAFセットの中で最大の定量的AF値以上かつ(ii)前記第2のAFセットの中で最小の定量的AF値以下である、ステップと、
前記ゲノム遺伝子座の第3のビンのそれぞれに最終的な分類を割り当てるステップであって、この最終的な分類が、(A)前記ゲノム遺伝子座の定量的AF値が前記AF閾値以下の場合、推定体細胞起源であり、または(B)前記ゲノム領域の定量的AF値が前記AF閾値以上の場合、推定生殖系列起源である、ステップと
を含む方法。
(項目9)
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源または生殖系列起源であると識別するための方法であって、
第1の時点で集められた前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、第1のcfDNAシーケンシングリードを含む、ステップと、
前記複数のゲノム遺伝子座からの配列情報を提供するステップと、
前記複数のゲノム遺伝子座における前記複数のゲノム遺伝子座のそれぞれのビニングを実施するステップであって、前記ビニングが、前記複数のゲノム遺伝子座内の各ゲノム遺伝子座に最初の分類を割り当てることを含み、前記最初の分類が、
a)推定体細胞起源;
b)推定生殖系列起源;または
c)起源不確定
からなる群から選択され、
それにより、推定体細胞起源であるゲノム遺伝子座を含む第1のビン、推定生殖系列起源であるゲノム遺伝子座を含む第2のビン、および起源不確定であるゲノム遺伝子座を含む第3のビンを生成するステップと、
前記第1のビン、前記第2のビン、および前記第3のビン内の前記ゲノム領域のそれぞれについて、定量的対立遺伝子画分(AF)値が前記第1のcfDNAシーケンシングリードに基づき、それぞれ第1のAFセット、第2のAFセット、および第3のAFセットを生成するステップと、
前記第1のAFセットに基づく第1の度数分布および前記第2のAFセットに基づく第2の度数分布を生成するステップであって、前記第1の度数分布と前記第2の度数分布の間に重複が存在する、ステップと、
第1のAF閾値を前記第1および第2の度数分布に基づいて識別するステップであって、この第1のAF閾値が、前記第1のAFセットの中で最大の定量的AF値である、ステップと、
第2のAF閾値を前記第1および第2の度数分布に基づいて識別するステップであって、この第2のAF閾値が、前記第2のAFセットの中で最小の定量的AF値である、ステップと、
前記複数のゲノム遺伝子座のそれぞれに最終的な分類を割り当てるステップであって、前記最終的な分類が、(A)前記ゲノム領域の定量的AF値が前記第1のAF閾値以下の場合、推定体細胞起源であり、(B)前記ゲノム領域の定量的AF値が前記第2のAF閾値以上の場合、推定生殖系列起源であり、または(C)前記ゲノム領域の定量的AF値が前記第1のAF閾値を超え、かつ前記第2のAF閾値未満の場合、不明確である、ステップと
を含む方法。
(項目10)
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、
前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと、
定量的対立遺伝子画分(AF)値の第1のセットを決定するステップであって、前記AF値の第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含む、ステップと、
AF値の第2のセットを提供するステップであって、前記AF値の第2のセットが、1つまたは複数の既知の体細胞変異体のそれぞれについてのAF値を含む、ステップと、
前記AF値の第1のセット由来のゲノム遺伝子座からのAF値と前記AF値の第2のセット由来のAF値を比較するステップと、
ゲノム遺伝子座についての前記AF値の第1のセット由来の前記AF値と前記AF値の第2のセット由来の前記AF値の差異が10%またはそれ未満である場合、ゲノム遺伝子座を体細胞起源であると識別するステップと
を含む方法。
(項目11)
前記AF値の第2のセットが、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座のAF値を含む、項目10に記載の方法。
(項目12)
前記AF値の第2のセットが、複数の対照の対象由来のcfDNAからの複数のゲノム遺伝子座からのAF値を含む、項目10に記載の方法。
(項目13)
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、
前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと、
定量的対立遺伝子画分(AF)値の第1のセットを決定するステップであって、前記AF値の第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含む、ステップと、
AF値の第2のセットを提供するステップであって、前記AF値の第2のセットが、1つまたは複数の既知の体細胞変異体のそれぞれについてのAF値を含む、ステップと、
前記AF値の第1のセット由来のゲノム遺伝子座のAF値と前記AF値の第2のセット由来のAF値を比較するステップと、
ゲノム遺伝子座についての前記AF値の第1のセット由来の前記AF値と前記AF値の第2のセット由来の前記AF値の差異が10%を超える場合、ゲノム遺伝子座を生殖系列起源であると識別するステップと
を含む方法。
(項目14)
前記AF値の第2のセットが、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座からのAF値を含む、項目13に記載の方法。
(項目15)
前記AF値の第2のセットが、複数の対照の対象由来のcfDNAからの複数のゲノム遺伝子座からのAF値を含む、項目13に記載の方法。
(項目16)
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列起源であると識別するための方法であって、
前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと、
定量的対立遺伝子画分(AF)値の第1のセットを決定するステップであって、前記AF値の第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含む、ステップと、
AF値の第2のセットを提供するステップであって、前記AF値の第2のセットが、1つまたは複数の既知の生殖系列変異体のそれぞれについてのAF値を含む、ステップと、
前記AF値の第1のセット由来のゲノム遺伝子座のAF値と前記AF値の第2のセット由来のAF値を比較するステップと、
ゲノム遺伝子座についての前記AF値の第1のセット由来の前記AF値と前記AF値の第2のセット由来の前記AF値の差異が10%またはそれ未満である場合、ゲノム遺伝子座を生殖系列起源であると識別するステップと
を含む方法。
(項目17)
前記AF値の第2のセットが、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座のAF値を含む、項目16に記載の方法。
(項目18)
前記AF値の第2のセットが、複数の対照の対象由来のcfDNAからの複数のゲノム遺伝子座からのAF値を含む、項目16に記載の方法。
(項目19)
対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて体細胞起源であると識別するための方法であって、
前記対象由来の前記cfDNAからのシーケンシング情報を受け取るステップであって、前記シーケンシング情報が、前記複数のゲノム遺伝子座由来のcfDNAシーケンシングリードのセットを含む、ステップと、
定量的対立遺伝子画分(AF)値の第1のセットを決定するステップであって、前記AF値の第1のセットが、前記cfDNAシーケンシングリードに基づく前記複数のゲノム遺伝子座のそれぞれについてのAF値を含む、ステップと、
AF値の第2のセットを提供するステップであって、前記AF値の第2のセットが、1つまたは複数の既知の生殖系列変異体のそれぞれについてのAF値を含む、ステップと、
前記AF値の第1のセット由来のゲノム遺伝子座のAF値と前記AF値の第2のセット由来のAF値を比較するステップと、
ゲノム遺伝子座についての前記AF値の第1のセット由来の前記AF値と前記AF値の第2のセット由来の前記AF値の差異が10%を超える場合、ゲノム遺伝子座を体細胞起源であると識別するステップと
を含む方法。
(項目20)
前記AF値の第2のセットが、前記cfDNAシーケンシングリードに基づく第2の複数のゲノム遺伝子座のAF値を含む、項目19に記載の方法。
(項目21)
前記AF値の第2のセットが、複数の対照の対象由来のcfDNAの複数のゲノム遺伝子座からのAF値を含む、項目19に記載の方法。
(項目22)
前記ゲノム遺伝子座の1つまたは複数が、BRCA遺伝子座である、前記項目のいずれか一項に記載の方法。
(項目23)
a)cfDNA分子の配列リードのセットを提供するステップであって、前記配列リードが、参照ゲノムの選択されたゲノム領域(例えば、遺伝子、エクソン、イントロン、遺伝子の一部分(例えば、少なくとも100ヌクレオチド、少なくとも500ヌクレオチド、または少なくとも1000ヌクレオチド))にマッピングされる、ステップと、
b)前記ゲノム領域内の複数の遺伝子変異体(例えば、参照配列とは異なるヌクレオチド)を含むセットの対立遺伝子頻度を決定するステップであって、前記セットが、目的の変異体を含む、ステップと、
c)前記セット内の前記遺伝子変異体の前記対立遺伝子頻度の変動性値(例えば、標準偏差または分散)を決定するステップと、
d)変動性値閾値および対立遺伝子頻度閾値を提供するステップと、
e)前記変動性値が前記変動性閾値を下回るかどうかを決定するステップと、
f)前記変動性値が前記変動性閾値を下回る場合、
(i)前記目的の変異体の前記対立遺伝子頻度が前記対立遺伝子頻度閾値を上回る場合には前記目的の変異体が生殖系列起源を有するとコールし、
(ii)前記目的の変異体の前記対立遺伝子頻度が前記対立遺伝子頻度閾値を下回る場合には前記目的の変異体が体細胞起源を有するとコールするステップと
を含む、方法。
【図面の簡単な説明】
【0032】
【
図1】
図1は、本明細書で提供される方法を実行するようにプログラミングされたまたは他のやり方で設定されたコンピュータ制御システムを示す図である。
【0033】
【
図2A】
図2Aは、生殖系列T790M突然変異(201-黒色のドット)が体細胞T790M突然変異(202-灰色のドット)と同様の濃度であるが、より高い対立遺伝子画分(AF)で存在することを示すグラフである。
【0034】
【
図2B】
図2Bは、処置時の患者4名において体細胞EGFR突然変異の濃度は低下するが、生殖系列EGFR T790Mの濃度は一定のままであることを示すグラフである(203はEGFRドライバー突然変異を表し、204はEGFR T790Mを表す)。
【0035】
【
図2C】
図2Cは、950事例に関する血漿NGS結果にわたるEGFR T790M(下のプロット)についてのAF分布が、EGFRドライバー突然変異(上のプロット)でも見られる体細胞性ピーク、ならびに共通のSNP(EGFR Q787Q、真ん中のプロット)でもより明白に見られるヘテロ接合性ピーク(矢印)を含むことを示すグラフである。
【0036】
【
図3A】
図3Aは、全て生殖系列EGFR T790M陽性である、最初の3事例由来の処置前および処置時の血漿検体についての血漿NGSを示すグラフである。3群の変異体が、検出された全てのコード変異体および非コード変異体の間で明白であり、これは、ホモ接合性変異体、ヘテロ接合性変異体、および腫瘍由来変異体の予測AFに対応する。腫瘍由来群の変異体は、治療時に応答したが、ホモ接合性群およびヘテロ接合性群の変異体ではAFは比較的一定のままであった。
【0037】
【
図3B】
図3Bは、追加で102事例、合計で105事例についての血漿NGS結果を示すグラフである。105事例にわたって検出された全てのコード変異体および非コード変異体について、0%付近(おそらく腫瘍由来)、49%付近(おそらくヘテロ接合性)、および100%付近(おそらくホモ接合性)にピークを有する3峰性分布が見られた。
【0038】
【
図3C】
図3Cは、ミスセンス変異体およびナンセンス変異体に関して、腫瘍由来変異体が見いだされると予測される低AFで富化が見られた(矢印)ことを示すグラフである。対照的に、良性生殖系列多型を反映する可能性がある同義の変異体はおよそ50%AFおよび100%AFで富化された。
【0039】
【
図4A】
図4Aは、EGFR突然変異について陽性の105事例の血漿NGSにおいて見いだされた全ての変異体のAFを、EGFRドライバー突然変異AFが低い方から順に示し(401-黒色のドット)、それと共に共通のEGFR SNPを示す(402-より大きな灰色のドット)グラフである。
【0040】
【
図4B】
図4Bは、25%から75%の間の変異体AFに関して、標準偏差および事例と集団平均の間の絶対的な差異が、EGFRドライバーAFが増加するにつれて増大することを示すグラフである。
【0041】
【
図5】
図5は、低いコピー数多型を有する事例におけるヘテロ接合性コード変異体と腫瘍由来コード変異体の間の区別を示すグラフである。
図5は、より低いコピー数多型が存在する場合、いずれの事例の生殖系列EGFR T790M(501)が生殖系列である可能性が高いかを視覚的に区別することが可能であることも示す。
【0042】
【
図6A】
図6Aは、NGS結果により、31,414名の固有のがん患者のデータベースからの48名(0.15%)のがん患者が、生殖系列EGFR T790M突然変異を有し、これらの患者では非扁平上皮非小細胞肺がん(NSCLC)が優性の診断になることが見いだされたことが明らかになることを示す表である。
【0043】
【
図6B】
図6Bは、参照コホートにおける生殖系列EGFR T790Mの集団有病率と比較して(0.008%)、非扁平上皮NSCLCを有する対象における有病率は高い(0.34%)が、他のがんを有する対象では高くなく(0.03%、p=0.06)、これにより、生殖系列EGFR T790Mが肺がんのリスク変異体であることが示唆されることを示すグラフである。
【0044】
【
図7】
図7は、3つの時点で検出されたコード変異体および非コード変異体のAFプロット(時点2におけるTP53突然変異のAFを0%とした)を示すグラフである。EGFR T790M突然変異が共通のSNP(EGFR Q787Q)を含む変異体のバンド内に見られ、これは偶発的に検出された生殖系列EGFR T790Mの疑いがある。
【0045】
【
図8A】
図8Aは、外れ値が存在するが、曲線を標準偏差に当てはめることができることを示すグラフである。
【0046】
【
図8B】
図8Bは、外れ値が存在するが、曲線を平均値に当てはめることができることを示すグラフである。
【0047】
【
図9】
図9は、低いコピー数多型および高AFのEGFR T790Mを有するものと示される血漿NGSの11事例(コホートA)(左側)の中で、11事例全てが生殖系列であることが確認された(100%陽性的中率)ことを示すグラフである。高いコピー数多型および高AFのEGFR T790Mを有する10事例(コホートB)の中では(右側)、1事例が生殖系列T790M突然変異について陽性であった。
【発明を実施するための形態】
【0048】
詳細な説明
本明細書で使用される節の見出しは、単に組織化する目的のものであり、記載されている主題を多少なりとも限定するものとは解釈されない。
【0049】
この種々の実施形態の詳細な説明では、説明のために、多数の特定の詳細を記載して、開示される実施形態の詳細な理解を提供する。しかし、これらの種々の実施形態はこれらの特定の詳細を用いても用いなくても実施できることが当業者には理解されよう。他の場合では、構造およびデバイスがブロック図の形態で示されている。さらに、当業者は、方法が提示され実施されている特定の順序は例示的なものであり、その順序は、変動させることができ、それでもなお、本明細書に開示される種々の実施形態の主旨および範囲内に留まることが意図されていることを容易に理解することができる。
【0050】
これだけに限定されないが、特許、特許出願、論文、書籍、専門書、およびインターネットウェブページを含めた、本出願において引用されている文献および類似した材料は全て、あらゆる目的に関して明白にその全体が参照により組み込まれる。別段の記載がなければ、本明細書において使用される全ての科学技術用語は、本明細書に記載の種々の実施形態が属する当業者に一般に理解されている意味を有する。
【0051】
本教示において考察されている温度、濃度、時間、塩基の数、カバレッジなどの前には含意的に「約」が存在し、したがって、軽微なほんのわずかな等価物が本教示の範囲内に入ることが理解されよう。本出願では、単数の使用は、他に特に指定がなければ複数を含む。また、「含む(comprise)」、「含む(comprises)」、「含む(comprising)」、「含有する(contain)」、「含有する(contains)」、「含有する(containing)」、「含む(include)」、「含む(includes)」、および「含む(including)」の使用は、限定するものではない。前述の一般的な説明および以下の詳細な説明はどちらも、単に例示的かつ説明的なものであり、本教示を制限するものではないことが理解されるべきである。
【0052】
本明細書で使用される場合、「1つの(a)」または「1つの(an)」は、「少なくとも1つの(at least one)」または「1つまたは複数の(one or more)」も指す場合がある。また、「または(or)」の使用は包括的なものであり、したがって、「AまたはB(A or B)」という句は、「A」が真の場合、「B」が真の場合、または「A」および「B」の両方が真の場合に、真である。
【0053】
さらに、文脈により必要とされない限り、単数の用語は、複数を含むものとし、複数の用語は、単数を含むものとする。一般に、本明細書に記載の細胞および組織培養、分子生物学、ならびにタンパク質およびオリゴヌクレオチドまたはポリヌクレオチド化学およびハイブリダイゼーションに関連して利用される命名法、およびそれらの技法は、当技術分野で周知であり、一般に使用されるものである。標準の技法は、例えば、核酸の精製および調製、化学的分析、組換え核酸、およびオリゴヌクレオチド合成のために使用される。酵素反応および精製技法は、製造者の仕様書に従って、または当技術分野において一般に実現される通りまたは本明細書に記載の通り実施される。本明細書に記載の技法および手順は、一般に、当技術分野で周知であり、また、本明細書全体を通して引用され、考察されている種々の一般的なおよびより詳細な参考文献に記載されている通り従来の方法に従って実施される。例えば、Sambrookら、Molecular Cloning: A Laboratory Manual(第3版、Cold Spring Harbor Laboratory Press、Cold Spring Harbor、N.Y. 2
000年)を参照されたい。本明細書に関連して利用される命名法、および本明細書に記載の実験手順および技法は、当技術分野で周知であり、一般に使用されるものである。
【0054】
「システム」とは、全体を構成する実際のまたは抽象的な構成要素のセットであって、全体の中で各構成要素が少なくとも1つの他の構成要素と相互作用するまたは関連する、構成要素のセットを説明する。
【0055】
「生体分子」は、タンパク質、多糖、脂質、および核酸(DNAおよびRNA)などの大きなポリマー分子、ならびに一次代謝産物、二次代謝産物、および他の天然物などの小分子を含めた、生物学的な生物体によって産生される任意の分子を指し得る。
【0056】
本明細書で使用される場合、「シーケンシング」という用語は、生体分子、例えば、DNAまたはRNAなどの核酸の配列を決定するために使用されるいくつもの技術のうちのいずれかを指す。例示的なシーケンシング法としては、これだけに限定されないが、標的化シーケンシング、単一分子リアルタイムシーケンシング、エクソンシーケンシング、電子顕微鏡に基づくシーケンシング、パネルシーケンシング、トランジスタ媒介性シーケンシング、ダイレクトシーケンシング、ランダムショットガンシーケンシング、サンガージデオキシターミネーションシーケンシング、全ゲノムシーケンシング、ハイブリダイゼーションによるシーケンシング、パイロシーケンシング、キャピラリー電気泳動、ゲル電気泳動、2重鎖シーケンシング、サイクルシーケンシング、一塩基伸長シーケンシング、固相シーケンシング、ハイスループットシーケンシング、大規模並列処理シグネチャーシーケンシング、エマルジョンPCR、低変性温度での共増幅-PCR(COLD-PCR)、多重PCR、可逆的ダイターミネーターによるシーケンシング、ペアエンドシーケンシング、短期シーケンシング、エキソヌクレアーゼシーケンシング、ライゲーションによるシーケンシング、ショートリードシーケンシング、単一分子シーケンシング、合成によるシーケンシング、リアルタイムシーケンシング、リバース-ターミネーターシーケンシング、ナノポアシーケンシング、454シーケンシング、Solexa Genome Analyzerシーケンシング、SOLiD(商標)シーケンシング、MS-PETシーケンシング、およびこれらの組合せが挙げられる。一部の実施形態では、シーケンシングは、例えば、IlluminaまたはApplied Biosystemsから市販されている遺伝子分析機器などの遺伝子分析機器によって実施することができる。
【0057】
「次世代シーケンシング」またはNGSという句は、従来のサンガー法に基づく手法およびキャピラリー電気泳動に基づく手法と比較してスループットが増大しており、例えば、何十万の比較的小さな配列リードを一度に生成する能力を有するシーケンシング技術を指す。次世代シーケンシング技法のいくつかの例として、これだけに限定されないが、合成によるシーケンシング、ライゲーションによるシーケンシング、およびハイブリダイゼーションによるシーケンシングが挙げられる。
【0058】
「シーケンシング実行」という句は、少なくとも1つの生体分子(例えば、DNAまたはRNAなどの核酸分子)に関するいくつかの情報を決定するために実施されるシーケンシング実験の任意のステップまたは部分を指す。
【0059】
DNA(デオキシリボ核酸)は、4種のヌクレオチド;アデニン(A)、チミン(T)、シトシン(C)、およびグアニン(G)を含むヌクレオチドの鎖である。RNA(リボ核酸)は、4種のヌクレオチド;A、ウラシル(U)、G、およびCを含むヌクレオチドの鎖である。ある特定のヌクレオチドの対は、互いと相補的に特異的に結合する(相補塩基対合と称される)。DNAでは、アデニン(A)とチミン(T)が対になり、シトシン(C)とグアニン(G)が対になる。RNAでは、アデニン(A)とウラシル(U)が対になり、シトシン(C)とグアニン(G)が対になる。第1の核酸鎖が、第1の鎖内のヌクレオチドと相補的なヌクレオチドで構成される第2の核酸鎖と結合する場合、これらの2つの鎖が結合して二本鎖を形成する。本明細書で使用される場合、「核酸シーケンシングデータ」、「核酸シーケンシング情報」、「核酸配列」、「ヌクレオチド配列」、「ゲノム配列」、「遺伝子配列」、もしくは「断片配列」、または「核酸シーケンシングリード」は、DNAまたはRNAなどの核酸の分子(例えば、全ゲノム、全トランスクリプトーム、エキソーム、オリゴヌクレオチド、ポリヌクレオチド、または断片)内のヌクレオチド塩基(例えば、アデニン、グアニン、シトシン、およびチミンまたはウラシル)の順序を示すあらゆる情報またはデータを示す。本教示は、これだけに限定されないが、キャピラリー電気泳動、マイクロアレイ、ライゲーションに基づくシステム、ポリメラーゼに基づくシステム、ハイブリダイゼーションに基づくシステム、直接または間接的なヌクレオチド識別システム、パイロシーケンシング、イオンに基づくまたはpHに基づく検出システム、および電子署名に基づくシステムを含めた全ての利用可能な様々な技法、プラットフォームまたは技術を使用して得られた配列情報を意図していることが理解されるべきである。
【0060】
「ポリヌクレオチド」、「核酸」、または「オリゴヌクレオチド」は、ヌクレオシド間連結によって接合したヌクレオシド(デオキシリボヌクレオシド、リボヌクレオシド、またはその類似体を含む)の直鎖状ポリマーを指す。一般には、ポリヌクレオチドは、少なくとも3つのヌクレオシドを含む。オリゴヌクレオチドは、多くの場合、サイズが数単量体単位、例えば3~4から、数百単量体単位までにわたる。ポリヌクレオチドが「ATGCCTG」などの文字の配列で表されるときは必ず、特に断りのない限り、ヌクレオチドは左から右に5’→3’の順であること、および「A」はデオキシアデノシンを示し、「C」はデオキシシチジンを示し、「G」はデオキシグアノシンを示し、および「T」はチミジンを示すことが理解されよう。文字A、C、G、およびTは、当技術分野における標準である通り、塩基自体、ヌクレオシド、または塩基を含むヌクレオチドを指すために使用することができる。
【0061】
「アダプター(単数または複数)(adaptor(s))」、「アダプター(単数または複数)(adapter(s))」および「タグ(単数または複数)」という用語は、本明細書全体を通して同義に使用される。アダプターまたはタグは、「タグ付けされる」ポリヌクレオチド配列に、ライゲーション、ハイブリダイゼーション、または他の手法を含めた任意の手法によってカップリングすることができる。
【0062】
本明細書で使用される場合、一般的な変異体は少なくとも5%のGMAF(全マイナー対立遺伝子頻度)を有し、一方、低頻度変異体は約0.1~5%のGMAFを有し、稀な変異体は0.5%またはそれ未満のGMAFを有し、ここで、GMAFは、所与の集団内で最小の共通対立遺伝子が存在する頻度である。
【0063】
本明細書で使用される場合、「遺伝子型」は、1つまたは複数の生殖系列染色体上の遺伝子座における対立遺伝子の同一性を指す。これは、遺伝子座(「対立遺伝子の名称」)におけるホモ接合性またはヘテロ接合性の決定を含め、完全な遺伝子型(全ての染色体上の対立遺伝子の同一性)、部分的な遺伝子型(少なくとも1つの染色体上の対立遺伝子の同一性)およびヌル遺伝子型(1つまたは複数または全ての染色体上に存在しない対立遺伝子(単数または複数))を含む。
【0064】
本明細書で使用される場合、体細胞変異体とは、供給源ががん性組織であるものを示す。本明細書で使用される場合、体細胞起源の遺伝子変異体とは、体細胞において最初に生じ、生殖系列において生じたものではない遺伝子変異体を指す。これは、正常な細胞が供給源である生殖系列変異体とは対照的である。変異は有糸分裂を通じて娘細胞に移り得る。その結果、生物体の残りの細胞との遺伝的差異を有する細胞の群が生じ得る。さらに、変異は生殖系列細胞では生じないので、突然変異は後代生物体に遺伝しない。
【0065】
SNPは、通常、生殖系列変異体に関して、集団における一塩基多型または変異を指し得るが、SNVは、一塩基変異体を指し得、SSNVは、体細胞一塩基変異体を指し得る(通常、がん関連変異体に関して使用される)。個体に対して、SNVという用語は、体細胞(がん性)cfDNAおよび生殖系列(正常な)cfDNAのどちらでも検出される変異に使用される。
【0066】
CNVは、コピー数変異体(遺伝子レベルコピー数突然変異、通常は重複事象に起因する)を指し得る。
【0067】
がんを有する対象由来の無細胞DNA(cfDNA)は、生殖系列ゲノムを有する細胞由来のDNA(例えば、「健康な細胞」由来)(「生殖系列DNA」)、および、一般には体細胞突然変異を有するがん細胞由来のDNA(「がんDNA」)の両方を含む。無細胞DNA試料中の生殖系列DNAおよびがんDNAの相対量は、がんがどのくらい進行しているかに依存する。初期では、ほんの少量のDNAが、がんDNAである。これは、例えば、総DNAの約1%~5%であり得る。したがって、少量(例えば、試料中のcfDNAの約1%~5%)の遺伝子変異体、マイナー対立遺伝子などの検出により、体細胞突然変異、したがって、がんDNAの存在が示され得る。しかし、疾患が進行し、腫瘍が増大するにつれ、無細胞DNA試料中のがんDNAの量が有意に、例えば総無細胞DNAの25%を超えるまでに増加し得る。遺伝子変異体を有するDNA分子のパーセンテージが高レベルに達すると、変異体ががん細胞に由来する体細胞突然変異を表すものなのか、または生殖系列DNAにおけるヘテロ接合性を表すものなのかが不明確になり得る。
【0068】
血漿cfDNAのゲノム解析は、ゲノムによる発見のため、および高精度のがん薬の送達を補助するためのツールになり得るが、がん由来DNAの血漿への放出は、高度に変動し得、がんのステージ、転移性拡散の程度、および、がんが応答するのかまたは進行するのかに依存する。さらに、体細胞性ゲノム変更の血漿中レベルは治療に応答して高度に動的であり得、時々2週間以内に検出不可能になる。結果として、多くの患者において、大多数の血漿cfDNAが生殖系列DNAであり、大部分は良性の造血細胞または内皮細胞から放出されるものである。本開示は、cfDNA次世代シーケンシング(NGS)プロファイル内で生殖系列変異体をがん由来の体細胞変異体と区別することができ、したがって、治療選択のための腫瘍の遺伝子型決定ならびに遺伝リスクを評価するための生殖系列の特徴付けの両方を単一のアッセイでもたらす手法を提供する。
【0069】
本開示によって提供される手法には、いくつもの適用がある。血漿NGSにより、時々、がん患者において、患者およびその家族に対して潜在的な臨床的意味がある偶発的な生殖系列突然変異が識別される。本明細書に記載のある特定の生殖系列EGFR突然変異は遺伝性がんリスクに関連すると考えられている稀なリスク対立遺伝子であり、また、本明細書に記載の手法を他の生殖系列突然変異に適用することもできる。他のがんに関連する遺伝子(例えば、TP53またはBRCA1/2およびミスマッチ修復遺伝子)も血漿NGSを用いてシーケンシングすることができ、これらの遺伝子の生殖系列突然変異は重大な臨床的意味を有し得る。本開示は、確認された生殖系列突然変異について、判定試験のための重要な診断能特性である陽性的中率が高く予測されたバイオインフォマティクスアルゴリズムを使用した、疑わしい生殖系列突然変異の存在について記載する。
【0070】
血漿cfDNA中の生殖系列と体細胞変異体の識別は、がん生物学の理解にも影響を及ぼし得る。腫瘍NGSでは、癌遺伝子における有意性が不明の変異体が潜在的なドライバー突然変異を表すものなのか、または生殖系列多型を表すものなのかを決定することが難しい場合がある。高いコピー数多型を伴わない血漿NGS事例では、本開示により、これらの2つの型のゲノム変更を単一の(血液)試料で弁別し、それにより、生殖系列多型が誤って治療標的とされるリスクを低下させることが可能になる。さらに、段階的な血漿遺伝子型決定を経時的に使用して治療に対する応答および抵抗性をモニタリングする例では、血漿cfDNA中の生殖系列と体細胞変異体を区別できることにより、腫瘍DNAレベルの正確な追跡を容易にすることができる。
【0071】
腫瘍突然変異負荷量(TMB)は、免疫チェックポイント阻害剤に対する感受性および耐性を理解するための新興のバイオマーカーである。がん内の突然変異が多いほど、免疫賦活のための細胞表面新抗原がより多く導かれ得る。しかし、腫瘍NGSを使用して突然変異性負荷量を算出することは難しい可能性があり、これは、生殖系列多型が潜在的に抗原性の体細胞突然変異と間違えられる可能性があるからである。本開示は、この難題を克服し、それにより、生殖系列変異体と体細胞変異体をバイオインフォマティクスにより区別し、抗原性体細胞変異体をより明白に識別し、それにより、生殖系列多型が潜在的に抗原性の体細胞突然変異と間違えられることを減少させる能力を提供する。
【0072】
対象の生殖系列DNAは、いずれの遺伝子座においてもホモ接合性またはヘテロ接合性であり得る。遺伝子座における測定値は、試料中で対立遺伝子が観察される頻度を測定するものである対立遺伝子画分(AF)の形態をとり得る。種々の理由で(例えば、DNAシーケンシングのエラーを含む)、非がん対象のcfDNAから生成される配列リードのセットにおいて、対象がそれに関してホモ接合性である遺伝子座にマッピングされる対立遺伝子形態(例えば、SNV)についてのリード計数は正確に100%ではない可能性がある。同様に、対象がそれに関してヘテロ接合性である遺伝子座にマッピングされる対立遺伝子形態についてのリード計数は正確に50%ではない可能性がある。個体が生殖系列における遺伝子変異体に関してホモ接合性である場合(参照ゲノム内の対立遺伝子と一致しない、遺伝子変異体を有するベースコールのパーセンテージは、一般には、コールの100%と常に同一ではないがその付近になる。同様に、個体が生殖系列における遺伝子変異体についてヘテロ接合性である場合、遺伝子変異体を有するベースコールのパーセンテージは、一般には、50%付近になるが、例えば、30%から70%までにわたり得る。この範囲内の測定値は遺伝子座におけるヘテロ接合性と一致する。しかし、この測定値により決定が不明確になる可能性がある。この場合、遺伝子座における遺伝子型を、ある特定のレベルの信頼度または確率を伴ってヘテロ接合性またはホモ接合性とコールすることができる。
【0073】
したがって、対象ががんを有し、遺伝子座における遺伝子変異体がヘテロ接合性と一致する範囲に入ると測定される場合、変異体が体細胞突然変異に起因することの信頼度は、ホモ接合性とヘテロ接合性の間の範囲内の測定値と比較して低下し得る。例えば、測定値が5%~20%の範囲内であることにより、遺伝子座が遺伝子変異体をホモ接合性によって説明されるには高すぎヘテロ接合性によって説明されるには低すぎる量で含有することが示され得る。したがって、測定値が体細胞突然変異の結果である可能性がある。対照的に、測定値が約40%であることにより、ヘテロ接合性が示され得る、または体細胞突然変異を含有するDNAの存在量が示され得る(例えば、その体細胞突然変異により、試料に対して大きな相対量のDNAを寄与した腫瘍が引き起こされた場合)。
【0074】
本開示は、とりわけ、無細胞DNA試料中で検出された遺伝子変異体の起源が生殖系列である(例えば、生殖系列におけるヘテロ接合性を表すものである)可能性が高いのか、または体細胞性(例えば、がん由来)である可能性が高いのかを決定する方法を提供する。特に、本開示は、AFを利用してこの決定を行う方法を提供する。
【0075】
一部の実施形態では、本開示は、遺伝子座における変異体が生殖系列起源であるのか、または体細胞起源であるのかを決定するために使用することができる1つまたは複数の閾値を用いて、対象由来の無細胞DNA(cfDNA)における複数のゲノム遺伝子座のそれぞれについて生殖系列であることまたは体細胞起源であることを識別するための方法を提供する。使用することができる1つの例示的な閾値は、標準偏差(STDEV)閾値である。例えば、当業者は、ゲノム遺伝子座についての定量的対立遺伝子画分(AF)を決定した後、AF値についてのSTDEVを決定することができる。コピー数多型(CNV)が増加するにつれ、STDEVも同様に増大すると予測される。したがって、低STDEVは低CNVを有すると仮定することができ、これにより、これらのデータを処理しやすくなる。STDEV閾値を使用して高CNVと低CNVを分離し、それにより、方法の予測力を増大させることができる。AFについての第2の閾値をCNV閾値と組み合わせてまたはその代わりに使用することができる。AF値は生殖系列由来の変異体において体細胞変異体よりも高くなることが予測されるので、AF閾値を上回るAF値を生殖系列由来に分類することができ、AF閾値を下回るAF値を体細胞由来に分類することができる。例示的なAF閾値としては、これだけに限定されないが、約10%、約11%、約12%、約13%、約14%、約15%、約16%、約17%、約18%、約19%、約20%、約21%、約22%、約23%、約24%、約25%、約26%、約27%、約28%、約29%、約30%、約31%、約32%、約33%、約34%、および約35%が挙げられる。一部の実施形態では、AF閾値は、経験的に決定される。
【0076】
本明細書に記載の方法は、cfDNA由来の遺伝子座が生殖系列起源のものであるのか、または体細胞起源のものであるのかを、処置に対する応答に基づいて決定するために使用することもできる。例えば、配列情報を、がんを有する対象から、がん治療薬を用いた処置前および処置後に得ることができる。がんががん治療薬に対して応答性であり、かつ、がん関連遺伝子座における変異体が体細胞起源のものである場合、そのAFは低下するはずである。したがって、AFを処置前および処置後に測定し、それらの値を比較して、体細胞起源であるのか、または生殖系列起源であるのかを決定することができる。AF値が低減する場合、変異体を体細胞起源のものであると識別することができる。AF値が低減しない(すなわち、同じままであるまたは増大する)場合、変異体を生殖系列起源のものであると識別することができる。
【0077】
一部の実施形態では、本明細書に記載の方法を使用して、遺伝子座を、推定体細胞起源、推定生殖系列起源、または起源不確定であるという最初の分類に従ってビニングすることにより、cfDNA由来の遺伝子座が生殖系列起源のものであるのか、または体細胞起源のものであるのかを決定することができる。次いで、各ビンの遺伝子座について定量的AF値を決定してAFセットを生成し、その後それを使用して、推定体細胞起源または生殖系列起源の遺伝子座についての度数分布を生成することができる。分布を使用して、AF閾値、例えば、「推定体細胞性」AFセットの中で最大の定量的AF値以上であり、かつ「推定生殖系列」AFセットの中で最小の定量的AF値以下である閾値を設定することができる。したがって、「起源不確定」遺伝子座を、遺伝子座のAFがAF閾値を上回る(したがって、生殖系列である)のか、またはAF閾値を下回る(したがって、体細胞性である)のかに基づいて、生殖系列または体細胞性に分類することができる。あるいは、「推定体細胞性」AF値についての度数分布と「推定生殖系列」AF値についての度数分布の間に重複がある場合、2つの閾値を決定することができ、したがって、第1のAF閾値は「推定体細胞性」AFセットの中で最大の定量的AF値であり、第2のAF閾値は「推定生殖系列」AFセットの中で最小の定量的AF値である。そのような実施形態では、定量的AF値が「推定体細胞性」閾値を下回る遺伝子座は体細胞性に分類され、定量的AF値が「推定生殖系列」閾値を上回る遺伝子座は生殖系列に分類され、定量的AF値が2つの閾値の間である遺伝子座は不明確に分類される。次いで、これらの不明確遺伝子座に、例えば、それらが生殖系列起源のものであるのか、または体細胞起源のものであるのかについての確率を、度数分布内のそれらのAF値の位置に基づいて割り当てることができる。
【0078】
一部の実施形態では、本開示は、cfDNAにおける体細胞起源であるかまたは生殖系列起源であるゲノム遺伝子座を、試料中のゲノム遺伝子座のAF値と既知の体細胞変異体または生殖系列変異体からの1つまたは複数のAF値を比較することによって識別するための方法を提供する。例えば、既知の体細胞変異体からのAF値を使用する場合、AF値が同様である(例えば、30%以内、25%以内、20%以内、15%以内、10%以内、9%以内、8%以内、7%以内、6%以内、5%以内、4%以内、3%以内、2%以内、1%以内、または0.1%以内である)ゲノム遺伝子座を体細胞起源であると分類することができ、AF値が同様でない(例えば、30%以内でない、25%以内でない、20%以内でない、15%以内でない、10%以内でない、9%以内でない、8%以内でない、7%以内でない、6%以内でない、5%以内でない、4%以内でない、3%以内でない、2%以内でない、1%以内でない、または0.1%以内でない)ゲノム遺伝子座を生殖系列起源であると分類することができる。同様に、既知の生殖系列変異体からのAF値を使用する場合、AF値が同様である(例えば、30%以内、25%以内、20%以内、15%以内、10%以内、9%以内、8%以内、7%以内、6%以内、5%以内、4%以内、3%以内、2%以内、1%以内、または0.1%以内である)ゲノム遺伝子座を生殖系列起源であると分類することができ、AF値が同様でない(例えば、30%以内でない、25%以内でない、20%以内でない、15%以内でない、10%以内でない、9%以内でない、8%以内でない、7%以内でない、6%以内でない、5%以内でない、4%以内でない、3%以内でない、2%以内でない、1%以内でない、または0.1%以内でない)ゲノム遺伝子座を体細胞起源であると分類することができる。既知の体細胞変異体または生殖系列変異体からのAF値は、試験される対象由来または複数の対照の対象由来のcfDNAシーケンシングリードからのものであってよい。
【0079】
一部の実施形態では、対象由来の無細胞DNAをシーケンシングし、1種または複数種の遺伝子変異体を検出し、数量化する。例えば、変異体を含有する遺伝子座にマッピングされる総リードの相対量(リード計数の数)を決定する。相対量がホモ接合性と一致する場合、変異体が生殖系列に存在することの高い信頼度を有し得る。そのような量は、例えば、95%を上回る、96%を上回る、97%を上回る、98%を上回る、99%を上回る、または100%のものであり得る。このコールを、確認のために、決定された遺伝子型と比較することができる。
【0080】
相対量が当該遺伝子座におけるホモ接合性遺伝子型またはヘテロ接合性遺伝子型と相反する場合、変異体が体細胞突然変異の結果であり、生殖系列には存在しないことの高い信頼度を有し得る。そのような量は、例えば、30%を下回る、25%を下回る、20%を下回る、15%を下回る、10%を下回る、9%を下回る、8%を下回る、7%を下回る、6%を下回る、5%を下回る、4%を下回る、3%を下回る、2%を下回る、または1%を下回るものであり得る。重ねて、このコールを、確認のために、決定された遺伝子型と比較することができる。
【0081】
あるいは、相対量は、当該遺伝子座におけるヘテロ接合性と一致し得る。そのような量は、例えば、30%から70%の間、例えば、40%から60%の間、45%から55%の間、46%から54%の間、47%から53%の間、48%から52%の間、または49%から51%の間であり得る。一部の実施形態では、当該遺伝子座における対象の推定される生殖系列遺伝子型(例えば、gDNAから得られる)を決定する。一部の実施形態では、遺伝子型を、無細胞DNAにおいて見いだされる変異体の同一性と比較する。ある特定の実施形態では、遺伝子型がホモ接合性である場合、変異体が体細胞突然変異を表すものであると高い信頼度で結論づけることができ、高量では最も可能性が高い。遺伝子型がヘテロ接合性であると決定され、変異体がヘテロ接合性対立遺伝子の一方と一致する場合、変異体は体細胞突然変異ではなく、生殖系列遺伝子型のヘテロ接合性を表すものであると結論づけることができる。
【0082】
一部の実施形態では、ホモ接合性遺伝子型は高い信頼度で除外することができるが、ヘテロ接合性遺伝子型は高い信頼度で決定することができず、その結果、潜在的に不明確な遺伝子型が生じる。例えば、変異体は、ゲノムDNAで範囲の最も端、例えば、30%で測定される場合がある。そのような場合では、cfDNAにおいて検出された変異体の量が体細胞突然変異または生殖系列ヘテロ接合性を表す可能性が高いのか、または表さない可能性が高いのかを高い信頼度で決定することができない可能性がある。そのような測定値は、例えば、迅速な腫瘍細胞の成長に起因して試料中の体細胞突然変異を含有するDNAの存在量がある場合に生じ得る。いずれの測定されたレベルでも、ゲノムDNAにおいて検出される変異体がヘテロ接合性を表すものでない確率がいくらかあり得ることに留意するべきである。しかし、生殖系列において変異体が30%から70%の間で検出されることは、ヘテロ接合性を表すことが最も可能性が高く、cfDNAにおいて検出される変異体をこれに対して測定することができる。
【0083】
そのような場合では、他の情報をベイズ法様式で使用して、cfDNAにおける変異体が体細胞突然変異または生殖系列におけるヘテロ接合性を表す確率を上昇または低下させることができる。例えば、集団研究により、種々の群の生殖系列における変異体の有病率を、例えば、遺伝的祖先に基づいて示すことができる。したがって、例えば、個体におけるヘテロ接合性遺伝子型のコールの信頼度が低く、変異体が対象の遺伝的祖先を共有する人において高い発生率で見いだされる場合、当該人が、実際にヘテロ接合性であること、およびcfDNAにおける変異体が体細胞突然変異を表すものではないことを、より高い信頼度で決定することができる。逆に、変異体が対象の遺伝的祖先を共有する人において非常に低い発生率でしか見いだされない場合、当該人がヘテロ接合性ではないこと、およびcfDNAにおける変異体が体細胞突然変異を表すものであることを、より高い信頼度で決定することができる。
【0084】
本開示は、量(例えば、リード計数の量)がヘテロ接合性遺伝子型と一致するかまたは相反するかを決定するためのいくつかのやり方を意図している。一部の実施形態では、カットオフ値を使用する。例えば、遺伝子座における特定の遺伝子変異体の総リード計数の30%であるカットオフを設定することができる。一部の実施形態では、カットオフ量を下回る値は、体細胞突然変異を表すと推定される。一部の実施形態では、カットオフ量を上回り、かつ、一般には、ホモ接合性についてのカットオフを下回る値は、ヘテロ接合性と一致すると推定することができ、したがって、変異体を体細胞突然変異であるとコールする前に、さらなる分析が必要である。
【0085】
一部の実施形態では、確率関数(例えば、ベイズ関数)を使用して、量がヘテロ接合性を表す確率を算出する。ある特定のレベルを上回る確率により、比較遺伝子型が誘発され得る。
【0086】
一部の実施形態では、遺伝子型の決定は、分析の常套的部分として行われる。一部の実施形態では、変異体の存在量がヘテロ接合性の解釈と一致する場合にのみ、遺伝子型の決定を行う。
【0087】
一部の実施形態では、本開示の方法により、がんに関連する新規のゲノム変更を確実に検出するために必要なものよりも高い桁になり得るエラー率および偏りが低減する。一部の実施形態では、当該方法では、まず、遺伝子材料の供給源として体液試料(とりわけ、血液、唾液、汗)を採取し、その後、材料のシーケンシングを行うことによって遺伝情報を捕捉する。例えば、試料中のポリヌクレオチドのシーケンシングを行い、それにより、複数の配列リードを生じさせることができる。ポリヌクレオチドを含む試料中の腫瘍量を、試料から生成される配列リードの総数に対する変異体を有する配列リードの相対数として推定することができる。また、コピー数変異体の場合では、腫瘍量を、試験遺伝子座および対照遺伝子座における配列リードの総数の相対的過剰(遺伝子重複の場合)または相対的不足(遺伝子削減の場合)として推定することができる。したがって、例えば、実行により、癌遺伝子遺伝子座にマッピングされる1000個のリードが生じ得、そのうち900個が野生型に対応し、100個ががん突然変異体に対応し、これにより、この遺伝子におけるコピー数変異体が示される。次に、遺伝情報を処理し、遺伝子変異体を識別する。遺伝子変異体は、配列変異体、コピー数変異体およびヌクレオチド修飾変異体を含む。配列変異体は、遺伝学的なヌクレオチド配列における変異である。コピー数変異体は、ゲノムの一部分のコピー数の野生型からの偏差である。遺伝子変異体としては、例えば、一塩基変異(SNP)、挿入、欠失、反転、塩基転換、転座、遺伝子融合、染色体融合、遺伝子短縮、コピー数多型(例えば、異数性、部分的異数性、倍数性、遺伝子増幅)、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化および核酸メチル化の異常な変化が挙げられる。次いで、プロセスにより、遺伝子材料を含有する試料中の遺伝子変異体の頻度を決定する。このプロセスはノイズが多いので、プロセスにより情報をノイズから分離する。
【0088】
シーケンシング法にはエラー率がある。例えば、IlluminaのmySeqシステムでは、1桁台前半のパーセントエラー率が生じる可能性がある。したがって、遺伝子座にマッピングされた配列リード1000個について、約50個のリード(約5%)がエラーを含むと予測することができる。WO2014/149134(TalasazおよびEltoukhy)に記載されているものなどのある特定の方法体系では、エラー率を有意に低下させる
ことができる。エラーにより、試料中に低レベルで存在するがんからのシグナルを不明瞭にし得るノイズが生じる。したがって、試料の腫瘍量が、およそシーケンシングシステムのエラー率、例えば、およそ0.1%~5%のレベルである場合、がんに起因する遺伝子変異体に対応するシグナルをノイズに起因するものと区別することが難しい可能性がある。
【0089】
がんの診断は、ノイズの存在下であっても、遺伝子変異体を分析することによって行うことができる。この分析は、配列変異体の頻度またはCNVのレベルに基づくものであり、また、ノイズ範囲内の遺伝子変異体を検出するための診断信頼度指示またはレベルを確立することができる。次に、プロセスにより、診断信頼度を増大させる。これは、診断の信頼度を増大させるために複数の測定値を使用して行うこともでき、あるいは、がんが進行しているのか、寛解の状態にあるのか、または安定化しているのかを決定するために複数の時点での測定値を使用して行うこともできる。診断信頼度を使用して、病態を識別することができる。例えば、対象から取得した無細胞ポリヌクレオチドは、正常な細胞に由来するポリヌクレオチド、ならびにがん細胞などの患部細胞に由来するポリヌクレオチドを含み得る。がん細胞由来のポリヌクレオチドは、体細胞突然変異およびコピー数変異体などの遺伝子変異体を有し得る。対象由来の試料からの無細胞ポリヌクレオチドのシーケンシングを行う場合、これらのがんポリヌクレオチドは、配列変異体としてまたはコピー数変異体として検出される。無細胞ポリヌクレオチドの試料中の腫瘍ポリヌクレオチドの相対量は、「腫瘍量」と称される。
【0090】
パラメータの測定値、それらがノイズ範囲内に入るか否かは、信頼区間を用いて提示することができる。経時的に試験して、信頼区間を経時的に比較することにより、がんが進行しているのか、安定化しているのか、または寛解の状態にあるのかを決定することができる。信頼区間が重複しない場合、これにより、疾患の方向が示される。
【0091】
次に、プロセスにより、遺伝的報告/診断を生成する。プロセスにより、生殖系列SNPおよび体細胞性がん突然変異を受け取り、体細胞性がん突然変異に印を付け、報告を生成してヒト腫瘍委員会分析と同様の体細胞突然変異をアノテートし、研究所長により精査および認可された処置選択肢を提供する。
【0092】
ここで腫瘍委員会の推奨を生成するためのプロセスに目を向けると、一部の実施形態では、システムにGH2.7における68種の遺伝子についてのcBioポータルSNVからのデータを使用し、ここで、GH2.7は、Guardant Healthのパネルおよび2015年2月に公開された関連する試験プロセス(Guardant360 test)パネルである。cBioPortal for Cancer Genomics(http://cbioportal.org)により、多次元がんゲノミクスデータを探索、可視化、お
よび解析するためのWebリソースが提供されている。ポータルにより、がん組織および細胞株からの分子プロファイリングデータを、容易に理解可能な遺伝学的事象、エピジェネティック事象、遺伝子発現事象、およびプロテオミクス事象にまとめる。クエリインタフェースとカスタマイズされたデータ記憶の組合せにより、研究者が試料、遺伝子、および経路にわたって遺伝的変更を相互作用的に探究し、基礎をなすデータに利用可能な場合、これらを臨床転帰に関連付けることが可能になる。ポータルにより、多数のプラットフォームからの遺伝子レベルデータの図式的要約、ネットワーク可視化および解析、生存分析、患者中心のクエリ、およびソフトウェアプログラムアクセスがもたらされる。システムにより、管理者3が試験を徹底的に精査すべきかどうかの決定において変異体レベルのコールならびに試料レベルのコールがもたらされる。
【0093】
本明細書に記載の方法およびシステムを使用して多数のがんを検出することができる。がん細胞は、大多数の細胞と同様に、古い細胞が死に、新しい細胞で置き換えられるターンオーバーの速度によって特徴付けることができる。一般に、死細胞は、所与の対象における脈管構造と接触して、DNAまたはDNAの断片を血流中に放出し得る。これは、疾患の種々のステージの間のがん細胞にも当てはまる。がん細胞は、疾患の病期に応じて、コピー数多型ならびに突然変異などの種々の遺伝子異常によって特徴付けることもできる。この現象を、本明細書に記載の方法およびシステムを使用して個体にがんが存在するかしないかを検出するために使用することができる。
【0094】
一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態を診断するために使用することができる。「診断」という用語は、本明細書で使用される場合、患者が所与の疾患または状態に罹患しているか否かを当業者が推定および/または決定することができる方法を指す。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態の予後判定において使用することができる。「予後判定」という用語は、本明細書で使用される場合、疾患または状態の再発を含めた、疾患または状態の増悪の可能性を指す。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態が発症するリスクを評価するために使用することができる。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態の処置の有効性を評価するために使用することができる。例えば、本開示の方法を、疾患または状態を有する患者を処置する前後(例えば、化学療法剤などの薬物を投与する前後)に使用することができる。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態の増悪または退縮をモニタリングするために使用することができる。例えば、本開示の方法を異なる時点において実施して、増悪または退縮をモニタリングすることができる。一部の実施形態では、本開示の方法を、がんまたは炎症性の状態などの疾患または状態を好転させるまたは処置するための化合物を識別するために使用することができる。例えば、本開示の方法を、化合物を投与する前後に使用して、化合物により疾患が好転するまたは処置されるかどうかを決定することができる。
【0095】
本明細書で使用される場合、疾患または状態を「処置すること(treating)」は、臨床結果を含めた有益なまたは所望の結果を得るためのステップを取ることを指す。有益なまたは所望の臨床結果としては、これだけに限定されないが、疾患または状態に付随する1つまたは複数の症状の緩和または好転が挙げられる。本明細書で使用される場合、化合物または作用因子を対象に「投与すること(administering)」または化合物または作用因子の対象への「投与(administration)」は、当業者に公知の種々の方法のうちの1つを使用して行うことができる。例えば、化合物または作用因子を、静脈内に、動脈に、皮内に、筋肉内に、腹腔内に、静脈内に、皮下に、眼に、舌下に、経口的に(経口摂取によって)、鼻腔内に(吸入によって)、脊髄内に、脳内に、および経皮的に(例えば、皮膚管を通じた吸収によって)投与することができる。化合物または作用因子を、再装填可能もしくは生分解性ポリマーデバイスもしくは他のデバイス、例えば、パッチおよびポンプ、または、化合物または作用因子の長期の、緩徐な、または制御された放出をもたらす製剤によって適切に導入することもできる。投与することはまた、例えば、1回、複数回、および/または1つもしくは複数の長期間にわたって実施することができる。一部の態様では、投与は、自己投与を含めた直接投与、および、薬物を処方する行為を含めた間接投与のどちらも含む。例えば、本明細書で使用される場合、患者に、薬物を自己投与するように、もしくは別の人に薬物を投与してもらうよう指示する医師および/または患者に薬物を処方する医師が、薬物を患者に投与することになる。一部の実施形態では、化合物または作用因子を経口的に、例えば、対象に経口摂取によって、または静脈内に、例えば、対象に注射によって投与する。一部の実施形態では、経口投与される化合物または作用因子は、長期放出もしくは緩効性製剤である、または、そのような緩徐もしくは長期放出のためのデバイスを使用して投与される。
【0096】
一部の実施形態では、がんのリスクがある対象由来の血液を抜き出し、本明細書に記載の通り調製して、無細胞ポリヌクレオチドの集団を生成することができる。一例では、これは、無細胞DNAであり得る。本開示のシステムおよび方法を使用して、存在するある特定のがんに存在し得る突然変異またはコピー数多型を検出することができる。当該方法は、疾患の症状または他の特質が存在しないにもかかわらず体内のがん性細胞の存在を検出することに役立ち得る。
【0097】
本明細書で使用される場合、「がん」という用語は、これだけに限定されないが、種々の型の悪性新生物を含み、その大部分は、周囲の組織に浸潤する可能性があり、また、異なる部位に転移する可能性がある(例えば、その全体があらゆる目的に関して参照により本明細書に組み込まれるPDR Medical Dictionary、第1版(1995年)を参照されたい)。「新生物」および「腫瘍」という用語は、細胞増殖によって正常組織よりも急速に成長し、増殖を開始させる刺激が取り除かれた後にも成長し続ける異常な組織を指す。そのような異常な組織は、構造的組織化および正常な組織との機能的協調の部分的なまたは完全な欠如を示し、良性(例えば、良性腫瘍など)または悪性(例えば、悪性腫瘍など)であり得る。がんの一般的なカテゴリーの例としては、これだけに限定されないが、癌腫(例えば、一般形態の乳がん、前立腺がん、肺がんおよび結腸がんなどの上皮細胞に由来する悪性腫瘍)、肉腫(結合組織または間葉細胞に由来する悪性腫瘍)、リンパ腫(造血細胞に由来する悪性病変)、白血病(造血細胞に由来する悪性病変)、ならびに胚細胞性腫瘍(精巣または卵巣において見いだされることが多い、成人における全能性細胞に由来する腫瘍;体の正中線、特に尾骨の先端に見いだされることが多い、胎児、乳児および若年小児における全能性細胞に由来する腫瘍)、芽細胞腫瘍(一般には、未成熟または胚組織に似た悪性腫瘍)などが挙げられる。本開示に包含されることが意図されている新生物の型の例としては、これだけに限定されないが、神経組織、血液形成組織、乳房、皮膚、骨、前立腺、卵巣、子宮、子宮頸部、肝臓、肺、脳、喉頭、胆嚢、膵臓、直腸、副甲状腺、甲状腺、副腎、免疫系、頭頸部、結腸、胃、気管支、および/または腎臓のがんに関連する新生物が挙げられる。特定の実施形態では、検出することができるがんの型および数としては、これだけに限定されないが、血液がん、脳がん、肺がん、皮膚がん、鼻のがん、咽喉がん、肝がん、骨がん、リンパ腫、膵がん、皮膚がん、腸がん、直腸がん、甲状腺がん、膀胱がん、腎がん、口腔がん(mouth cancer)、胃がん、固形状態の腫瘍、異種腫瘍、同種腫瘍などが挙げられる。
【0098】
一部の実施形態では、システムおよび方法を、がんを引き起こすまたはがんに起因する可能性がある任意の数の遺伝子異常を検出するために使用することができる。これらとしては、これだけに限定されないが、突然変異、突然変異、インデル、コピー数多型、塩基転換、転座、反転、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、遺伝子融合、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、DNA病変、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、核酸メチル化の異常な変化、感染およびがんを挙げることができる。
【0099】
さらに、本明細書に記載のシステムおよび方法を、ある特定のがんの特徴付けを補助するために使用することもできる。本開示のシステムおよび方法によってもたらされる遺伝子データにより、実践者が特異的ながんの形態のより良好な特徴付けを補助することが可能になり得る。多くの場合、がんは、組成および病期分類のどちらも不均一である。遺伝子プロファイルデータにより、特定の亜型のがんの診断または処置において重要であり得る、当該特定の亜型を特徴付けることが可能になり得る。この情報により、対象または実践者に特定の型のがんの予後に関する手がかりももたらされ得る。
【0100】
一部の実施形態では、本明細書で提供されるシステムおよび方法を、特定の対象におけるあらかじめ分かっているがん、または他の疾患をモニタリングするために使用する。これにより、対象または実践者が疾患の進行に応じて処置選択肢を適合させることが可能になり得る。この例では、本明細書に記載のシステムおよび方法を、疾患の過程の特定の対象の遺伝子プロファイルを構築するために使用することができる。一部の例では、がんは、進行し、より侵攻性になり、遺伝的に不安定になる可能性がある。他の例では、がんは、良性、不活動性または休眠状態のまま留まる可能性がある。本開示のシステムおよび方法は、疾患増悪の決定において有用であり得る。
【0101】
さらに、本明細書に記載のシステムおよび方法は、特定の処置選択肢の有効性を決定することにおいて有用であり得る。一部の実施形態では、処置が上首尾の場合、より多くのがんが死滅し、DNAを放出し得るので、上首尾の処置選択肢により、対象の血液中で検出されるコピー数多型または突然変異の量が実際に増加し得る。他の実施形態では、これは起こらない可能性がある。一部の実施形態では、ある特定の処置選択肢は、がんの遺伝子プロファイルと経時的に相関する。この相関は、治療の選択において有用であり得る。さらに、がんが、処置後に寛解の状態になることが観察される場合、本明細書に記載のシステムおよび方法は、残留する疾患または疾患の再発のモニタリングにおいて有用であり得る。
【0102】
本明細書に記載の方法およびシステムは、がんだけに関連する突然変異およびコピー数多型の検出に限定されない。種々の他の疾患および感染により、早期検出およびモニタリングに適する可能性がある他の型の状態が生じ得る。例えば、ある特定の場合では、遺伝障害または感染症により、対象内である特定の遺伝的モザイク現象が引き起こされる可能性がある。この遺伝的モザイク現象により、観察することができるコピー数多型および突然変異が引き起こされる可能性がある。一部の実施形態では、本開示のシステムおよび方法を、体内の免疫細胞のゲノムをモニタリングするために使用することもできる。B細胞などの免疫細胞は、ある特定の疾患が存在すると迅速なクローン性増大を受ける可能性がある。クローン性増大を、コピー数多型の検出を使用してモニタリングすることができ、ある特定の免疫の状態をモニタリングすることができる。この例では、コピー数多型解析を経時的に実施して、特定の疾患がどのように進行し得るかのプロファイルを生成することができる。
【0103】
一部の実施形態では、本開示の方法は、自己免疫性または免疫関連疾患または状態に適用可能である。本明細書で使用される場合、「自己免疫性または免疫関連疾患または状態」とは、免疫系に影響を及ぼすまたは免疫系に関連する任意の疾患、障害、または状態を指し得る。自己免疫性または免疫関連疾患または状態の例としては、これだけに限定されないが、炎症、抗リン脂質症候群、全身性エリテマトーデス、関節リウマチ、自己免疫性血管炎、小児脂肪便症、自己免疫性甲状腺炎、輸血後免疫、母体胎児不適合、輸血反応、IgA欠損などの免疫欠損、分類不能型免疫不全症、薬剤誘発性ループス、真性糖尿病、1型糖尿病、2型糖尿病、若年発症糖尿病、若年性関節リウマチ、乾癬性関節炎、多発性硬化症、免疫不全、アレルギー、喘息、乾癬、アトピー性皮膚炎、アレルギー性接触皮膚炎、慢性皮膚疾患、筋萎縮性側索硬化症、化学療法誘発性傷害、移植片対宿主病、骨髄移植拒絶反応、強直性脊椎炎、アトピー性の湿疹、天疱瘡、ベーチェット病、慢性疲労症候群、線維筋痛症、化学療法誘発性傷害、重症筋無力症、糸球体腎炎、アレルギー性網膜炎、全身性硬化症、亜急性皮膚エリテマトーデス、凍瘡状エリテマトーデスを含めた皮膚エリテマトーデス、シェーグレン症候群、自己免疫性腎炎、自己免疫性血管炎、自己免疫性肝炎、自己免疫性心炎、自己免疫性脳炎、自己免疫性媒介血液病、lc-SSc(限局皮膚硬化型の強皮症)、dc-SSc(びまん皮膚硬化型の強皮症)、自己免疫性甲状腺炎(AT)、グレーブス病(GD)、重症筋無力症、多発性硬化症(MS)、強直性脊椎炎、移植片拒絶(transplant rejection)、免疫老化、リウマチ性/自己免疫疾患、混合性結合組織病、脊椎関節症、乾癬、乾癬性関節炎、筋炎、強皮症、皮膚筋炎、自己免疫性血管炎、混合性結合組織病、特発性血小板減少性紫斑病、クローン病、ヒトアジュバント病、変形性関節症、若年性慢性関節炎、脊椎関節症、特発性炎症性筋疾患、全身性血管炎、サルコイドーシス、自己免疫性溶血性貧血、自己免疫性血小板減少症、甲状腺炎、免疫媒介性腎疾患、中枢神経系または末梢神経系の脱髄性疾患、特発性脱髄性多発性神経障害、ギラン・バレー症候群、慢性炎症性脱髄性多発ニューロパチー、肝胆道疾患、感染性のまたは自己免疫性慢性活動性肝炎、原発性胆汁性肝硬変、肉芽腫性の肝炎、硬化性胆管炎、炎症性腸疾患、グルテン過敏性腸症、ウィップル病、自己免疫性または免疫媒介性皮膚疾患、水疱性皮膚症、多形性紅斑、アレルギー性鼻炎、アトピー性皮膚炎、食物過敏症、蕁麻疹、肺の免疫学的疾患、好酸球性肺炎、特発性肺線維症、過敏性肺臓炎、移植関連疾患、移植片拒絶(graft rejection)または移植片対宿主病、乾癬性関節炎、乾癬、皮膚炎、多発性筋炎/皮膚筋炎、中毒性表皮壊死融解症、全身性強皮症および硬化症、炎症性腸疾患に関連する応答、クローン病、潰瘍性大腸炎、呼吸窮迫症候群、成人呼吸窮迫症候群(ARDS)、髄膜炎、脳炎、ぶどう膜炎、大腸炎、糸球体腎炎、アレルギー性状態、湿疹、喘息、T細胞の浸潤および慢性炎症性応答を伴う状態、アテローム性動脈硬化症、自己免疫性心筋炎、白血球接着不全症、アレルギー性脳脊髄炎、サイトカインおよびTリンパ球によって媒介される急性過敏症および遅延型過敏症に関連する免疫応答、結核、サルコイドーシス、ウェゲナー肉芽腫症を含めた肉芽腫症、顆粒球減少症、血管炎(ANCAを含む)、再生不良性貧血、ダイアモンド・ブラックファン貧血、自己免疫性溶血性貧血(AIHA)を含めた免疫性溶血性貧血、悪性貧血、赤芽球ろう(PRCA)、第VIII因子欠乏症、血友病A、自己免疫性好中球減少症、汎血球減少、白血球減少症、白血球漏出を伴う疾患、中枢神経系(CNS)炎症性障害、多臓器傷害症候群、重症筋無力症、抗原抗体複合体媒介性疾患、抗糸球体基底膜抗体病、抗リン脂質抗体症候群、アレルギー性神経炎、ベーチェット疾患、キャッスルマン症候群、グッドパスチャー症候群、ランバート・イートン症候群、レイノー症候群、シェーグレン症候群、スティーブンス・ジョンソン症候群、水疱性類天疱瘡、天疱瘡、自己免疫性多腺性内分泌障害、ライター病、スティフ・マン症候群、巨細胞性動脈炎、免疫複合体腎炎、IgA腎症、IgM多発ニューロパチーまたはIgM媒介性ニューロパチー、特発性血小板減少性紫斑病(ITP)、血栓性血小板減少性紫斑病(TTP)、自己免疫性血小板減少症、自己免疫性精巣炎および卵巣炎を含めた精巣および卵巣の自己免疫疾患、原発性甲状腺機能低下症、自己免疫性甲状腺炎を含めた自己免疫性内分泌疾患、慢性甲状腺炎(橋本甲状腺炎)、亜急性甲状腺炎、特発性甲状腺機能低下症、アジソン病、グレーブス病、自己免疫性多腺性症候群(または多腺性内分泌疾患症候群)、シーハン症候群、自己免疫性肝炎、リンパ性間質性肺炎(HIV)、閉塞性細気管支炎(非移植)vs NSIP、ギラン・バレー症候群、大型血管炎(リウマチ性多発筋痛および巨細胞(高安)動脈炎を含む)、中型血管炎(川崎病および結節性多発性動脈炎を含む)、強直性脊椎炎、ベルジェ病(IgA腎症)、急速進行性糸球体腎炎、原発性胆汁性肝硬変、セリアックスプルー(グルテン腸症)、寒冷グロブリン血症、および筋萎縮性側索硬化症(ALS)が挙げられる。ある特定の実施形態では、本開示の方法は、これだけに限定されないが、喘息、多発性硬化症(例えば、再発寛解型多発性硬化症および二次性進行型多発性硬化症)、関節炎(例えば、関節リウマチ、変形性関節症、および乾癬性関節炎)、エリテマトーデス、および乾癬を含めた炎症性の状態に適用可能である。
【0104】
一部の実施形態では、本開示のシステムおよび方法を、細菌またはウイルスなどの病原体によって引き起こされる可能性がある全身性感染自体をモニタリングするために使用することができる。コピー数多型またはさらには突然変異を検出することを使用して、感染の過程中に病原体の集団がどのように変化するかを決定することができる。これは、感染の過程中ウイルスが生活環の状態を変化させ、かつ/またはより毒性の強い形態に突然変異する可能性があるHIV/AIDSまたは肝炎感染などの慢性感染の間、特に重要であり得る。
【0105】
一部の実施形態では、本開示のシステムおよび方法を、移植対象をモニタリングするために使用することができる。一般に、移植される組織は、移植時に体によってある特定の程度の拒絶反応を受ける。本開示の方法を、免疫細胞が移植された組織を破壊しようとするにしたがって、宿主である体の拒絶反応の活動性を決定またはプロファイリングするために使用することができる。これは、移植された組織の状態をモニタリングすることならびに拒絶反応の処置または予防の過程を変更することにおいて有用であり得る。
【0106】
さらに、一部の実施形態では、本開示の方法を、対象における異常な状態の不均一性を特徴付けるために使用することができ、方法は、対象における細胞外ポリヌクレオチドの遺伝子プロファイルを生成するステップであって、遺伝子プロファイルが、コピー数多型および突然変異分析によってもたらされた複数のデータを含むステップを含む。一部の場合では、これだけに限定されないが、がんを含め、疾患は不均一性であり得る。疾患細胞は同一でない場合がある。がんの例では、一部の腫瘍は、異なる型の腫瘍細胞、異なるステージのがんにおけるいくつかの細胞を含むことが公知である。一部の実施形態では、不均一性は、疾患の多数の病巣を含む。再度、がんの例では、多数の腫瘍病巣が存在し得、その場合、おそらく、1つまたは複数の病巣は主要な部位から拡散した転移の結果である。
【0107】
本開示の方法を、不均一性疾患における異なる細胞に由来する遺伝情報の合計であるプロファイル、指紋、またはデータのセットを生成するために使用することができる。このデータのセットは、コピー数多型および突然変異分析を単独でまたは組合せで含み得る。
【0108】
さらに、本開示のシステムおよび方法を、胎児起源のがんまたは他の疾患を診断する、予後判定する、モニタリングするまたは観察するために使用することができる。すなわち、これらの方法体系を妊娠中の対象において使用して、DNAおよび他のポリヌクレオチドが母体分子と共循環している可能性がある、まだ生まれていない対象のがんまたは他の疾患を診断する、予後判定する、モニタリングするまたは観察することができる。一部の実施形態では、システムおよび方法は、出生前疾患または妊娠に関連する疾患または状態を診断する、予後判定する、モニタリングするまたは観察するために有用である。本明細書で使用される場合、「出生前疾患または妊娠に関連する疾患または状態」という用語は、妊娠中の女性、胚、または胎児に影響を及ぼす任意の疾患、障害、または状態を指す。出生前のまたは妊娠に関連する状態は、妊娠に付随するまたは妊娠の結果として直接または間接的に生じる任意の疾患、障害、または状態も指し得る。これらの疾患または状態は、任意のかつ全ての先天性欠損、先天性の状態、または遺伝性の疾患または状態を含み得る。出生前疾患または妊娠に関連する疾患例としては、これだけに限定されないが、Rh血液型不適合、新生児の溶血性疾患、ベータサラセミア、性別決定、妊娠の決定、遺伝性メンデル遺伝障害、染色体異常、胎児染色体異数性、胎児染色体トリソミー、胎児染色体モノソミー、8トリソミー、13トリソミー(パトー症候群)、16トリソミー、18トリソミー(エドワーズ症候群)、21トリソミー(ダウン症候群)、X染色体連鎖障害、Xトリソミー(XXX症候群)、Xモノソミー(ターナー症候群)、XXY症候群、XYY症候群、XYY症候群、XXXY症候群、XXYY症候群、XYYY症候群、XXXXX症候群、XXXXY症候群、XXXYY症候群、XXYYY症候群、脆弱X症候群、胎児発育遅延、嚢胞性線維症、異常ヘモグロビン症、胎児死亡、胎児アルコール症候群、鎌状赤血球貧血、血友病、クラインフェルター症候群、dup(17)(p11.2p1.2)症候群、子宮内膜症、ペリツェウス・メルツバッヘル病、dup(22)(q11.2q11.2)症候群、ネコ眼症候群、ネコ鳴き症候群、ウォルフ・ヒルシュホーン症候群、ウィリアムズ・ビューレン症候群、シャルコー・マリー・トゥース病、圧迫性麻痺に罹患しやすいニューロパチー、スミス・マゲニス症候群、神経線維腫症、アラジール症候群、口蓋心臓顔面症候群、ディジョージ症候群、ステロイドスルファターゼ欠損症、プラダー・ウィリー症候群、カルマン症候群、線状皮膚欠損を伴う小眼球症、副腎低形成、グリセロールキナーゼ欠損症、ペリツェウス・メルツバッヘル病、Y染色体精巣決定因子、無精子症(a因子)、無精子症(b因子)、無精子症(c因子)、1p36欠失、フェニルケトン尿症、テイ・サックス病、副腎皮質過形成症、ファンコニー貧血、脊髄性筋萎縮症、デュシェンヌ型筋ジストロフィー、ハンチントン病、筋緊張性ジストロフィー、ロバートソン転座、アンジェルマン症候群、結節性硬化症、毛細血管拡張性運動失調症、開放性二分脊椎、神経管欠損、腹壁欠損、胎内発育遅延、先天性のサイトメガロウイルス、軟骨無形成症、マルファン症候群、先天性甲状腺機能低下症、先天性トキソプラズマ症、ビオチニダーゼ欠損症、ガラクトース血症、メープルシロップ尿症、ホモシスチン尿症、中鎖アシルCo-Aデヒドロゲナーゼ欠損症、構造的先天性欠損症、心臓欠損、四肢異常、内反足、無脳症、無嗅脳症/全前脳症、水頭症、無眼球症/小眼球症、無耳症/小耳症、大血管転位症、ファロー四徴症、左心低形成症候群、大動脈縮窄症、口唇裂を伴わない口蓋裂、口蓋裂を伴うまたは伴わない口唇裂、食道閉鎖症/瘻孔を伴うまたは伴わない狭窄症、小腸閉鎖症/狭窄症、肛門直腸閉鎖症/狭窄症、尿道下裂、半陰陽、腎無発生、嚢胞腎、軸前多指症、肢欠損、横隔膜ヘルニア、失明、白内障、視覚の問題、聴力損失、聴覚消失、X連鎖副腎白質ジストロフィー、レット症候群、リソソーム障害、脳性麻痺、自閉症、無舌症、白皮症、眼白子症、眼皮膚白皮症、妊娠糖尿病、アーノルド・キアリ奇形、チャージ症候群、先天性横隔膜ヘルニア、短指、無虹彩症、裂足および裂手、異色症、ドワーニアン耳症(Dwarnian ear)、エーラース・ダンロス症候群、表皮水疱症、ゴーラム病、橋本症候群、胎児水腫、筋緊張低下、クリッペル・ファイル症候群、筋ジストロフィー、骨形成不全症、早老症、スミス・レムリ・オピッツ症候群、色盲、X連鎖リンパ増殖性疾患、臍帯ヘルニア、腹壁破裂、子癇前症、子癇、早期分娩、早産、流産、子宮内発育遅延、子宮外妊娠、妊娠悪阻、早朝嘔吐、または上首尾の分娩誘発の可能性が挙げられる。
【0109】
さらに、一部の実施形態では、報告書が提出され、インターネット経由で電子的にアクセスされる。ある特定の実施形態では、対象の所在地以外の場所で配列データの解析を行う。報告書を作成し、対象の所在地に伝達する。対象はインターネット接続可能なコンピュータを介して自身の腫瘍量を反映する報告書にアクセスする。
【0110】
アノテートされた情報は、健康管理提供者が他の薬物処置選択肢を選択するためおよび/または薬物処置選択肢に関する情報を保険会社に提供するために使用することができる。方法は、例えば、NCCN Clinical Practice Guidelines in Oncology or the American Society of Clinical Oncology(ASCO)診療ガイドライン中の状態に対して薬物処置選択肢をアノテートするステップを含み得る。
【0111】
追加的な薬物処置選択肢の一覧表を作成することにより、報告書中に層別化される薬物処置選択肢を報告書中にアノテートすることができる。追加的な薬物処置は、適応外使用に関してFDAに認可された薬物であってよい。1993 Omnibus Budget Reconciliation Act(OBRA)の条項では、標準の医学的大要に含まれる抗がん薬の適応外使用を包含するメディケアが要求されている。一覧へのアノテートのために使用する薬物は、National Comprehensive Cancer Network(NCCN)Drugs and Biologics Compendiumm」、Thomson Micromedex DrugDex(登録商標)、Elsevier Gold Standard’s Clinical Pharmacology compendium、およびAmerican Hospital Formulary Service-Drug Information Compendium(登録商標)を含めた、CMSに認可された大要に見いだすことができる。
【0112】
特定の状態の1つまたは複数の分子マーカーを用いてがんを処置することにおいて有用であり得る実験薬の一覧表を作成することにより、薬物処置選択肢をアノテートすることができる。実験薬は、in vitroデータ、in vivoデータ、動物モデルデータ、前臨床試験データ、または臨床試験データが入手可能な薬物であってよい。データは、例えば、American Journal of Medicine、Annals of Internal Medicine、Annals of Oncology、Annals of Surgical Oncology、Biology of Blood and Marrow
Transplantation、Blood、Bone Marrow Transplantation、British Journal of Cancer、British Journal of Hematology、British Medical Journal、Cancer、Clinical Cancer Research、Drugs、European Journal of Cancer (以前はthe European Journal of Cancer and Clinical Oncology)、Gynecologic Oncology、International Journal of Radiation, Oncology, Biology, and Physics、The Journal of the American Medical Association、Journal of Clinical Oncology、Journal of the National Cancer Institute、Journal of the National Comprehensive Cancer Network (NCCN)、Journal of Urology、Lancet、Lancet Oncology、Leukemia、The New England Journal of Medicine、およびRadiation Oncologyを
含めた、CMS Medicare Benefit Policy Manualに列挙されている雑誌において見いだされる査読された医学文献において公開されているものであってよい。
【0113】
列挙された薬物を薬物に関する科学的情報と結び付ける電子に基づく報告書のリンクを提供することにより、薬物処置選択肢をアノテートすることができる。例えば、薬物に対する臨床試験に関する情報(clinicaltrials.gov)に対するリンクを提供することができる。報告書がコンピュータまたはコンピュータウェブサイトを介して提供される場合、リンクは、情報を伴うフットノート、ウェブサイトへのハイパーリンク、ポップアップボックス、またはフライオーバーボックスなどであってよい。報告書およびアノテートされた情報は、印刷された形態で提供することができ、アノテーションは、例えば、参照へのフットノートであってよい。
【0114】
報告書中の1つまたは複数の薬物処置選択肢をアノテートするための情報は、科学的情報を保管している商業的実体によりもたらされるものであってよい。健康管理提供者は、がん患者などの対象を、アノテートされた情報に列挙されている実験薬を用いて処置することができ、健康管理提供者は、アノテートされた薬物処置選択肢にアクセスし、科学的情報を検索し(例えば、医学学術論文を印刷し)、それ(例えば、印刷された学術論文)を薬物処置の提供に対する償還の要求と一緒に保険会社に提出することができる。医師は、償還を可能にするために種々の診断関連群(DRG)コードのいずれかを使用することができる。
【0115】
報告書中の薬物処置選択肢に、薬物が影響を及ぼす経路内の他の分子成分に関する情報(例えば、薬物標的である細胞表面受容体の下流のキナーゼを標的とする薬物に関する情報)をアノテートすることもできる。薬物処置選択肢に、1つまたは複数の他の分子経路成分を標的とする薬物に関する情報をアノテートすることができる。経路に関連する情報の識別および/またはアノテーションを別の会社に外注または下請けにだすことができる。
【0116】
アノテートされた情報は、例えば、薬物の名称(例えば、適応外使用についてFDAに認可された薬物;CMSに認可された大要に見いだされる薬物、および/または科学(医学)学術論文に記載されている薬物)、1つまたは複数の薬物処置選択肢に関する科学的情報、1つまたは複数の薬物に関する科学的情報への1つまたは複数のリンク、1つまたは複数の薬物に関する臨床試験情報(例えば、clinicaltrials.gov/からの情報)、薬物
に関する科学的情報についての引用への1つまたは複数のリンクなどであってよい。
【0117】
アノテートされた情報は、報告書の任意の箇所に挿入することができる。アノテートされた情報は、報告書の多数の箇所に挿入することができる。アノテートされた情報は、報告書に、層別化された薬物処置選択肢に関する節の近くに挿入することができる。アノテートされた情報は、報告書に、層別化された薬物処置選択肢とは離れた頁に挿入することができる。層別化された薬物処置選択肢を含有しない報告書に情報をアノテートすることができる。
【0118】
システムは、対象(例えばがん患者)から単離された試料(例えば、腫瘍細胞)に対する薬物の影響に関する報告書も含み得る。種々の技法を使用し、がん患者由来の腫瘍を使用したin vitro培養物を確立することができる。システムは、前記in vitro培養物および/または異種移植モデルを使用し、FDAに認可された適応外薬物または実験薬のハイスループットなスクリーニングを行うことも含み得る。システムは、腫瘍抗原を再発検出に関してモニタリングすることも含み得る。
【0119】
システムは、がんを有する対象に関する報告書のインターネット接続可能なアクセスを提供することができる。システムには、手持ち型DNAシーケンサーを使用することもでき、デスクトップDNAシーケンサーを使用することもできる。DNAシーケンサーは、DNAシーケンシングプロセスを自動化するために使用される科学的機器である。DNAの試料を考えると、DNAシーケンサーを使用して、4種の塩基アデニン、グアニン、シトシン、およびチミンの順序を決定する。DNA塩基の順序は、リードと称される文字列として報告される。一部のDNAシーケンサーは、ヌクレオチドに付着した蛍光色素由来の光信号を分析するものであるので、光学機器とも考えることができる。
【0120】
DNAシーケンサーには、DNAの化学修飾、その後の特定の塩基における切断に基づくジルベールのシーケンシング法を適用することもでき、ジデオキシヌクレオチド連鎖終止反応に基づくサンガー技法を適用することもできる。サンガー法は、効率が上昇しており、放射活性が低いことに起因して人気になった。DNAシーケンサーには、シーケンシング前の試料調製のスピードが上がり、エラーが減少する、DNA増幅(ポリメラーゼ連鎖反応-PCR)を必要としない技法を使用することができる。さらに、シーケンシングデータが、相補鎖へのヌクレオチドの付加によって引き起こされる反応からリアルタイムで収集される。例えば、DNAシーケンサーに、蛍光色素を含有する酵素によってヌクレオチドが相補鎖に付加されると放出される光(カメラによって捕捉される)によってシーケンシングデータがもたらされる、単一分子リアルタイム(SMRT)と称される方法を利用することができる。あるいは、DNAシーケンサーにナノポアセンシング技術に基づく電子システムを使用することができる。
【0121】
データは、処理のために、DNAシーケンサーにより直接接続によってまたはインターネットを通じてコンピュータに送信される。システムのデータ処理面は、デジタル電子回路網で、またはコンピュータハードウェア、ファームウェア、ソフトウェアで、またはそれらを組み合わせて実行することができる。本開示のデータ処理機器をプログラム可能なプロセッサによる実行のために機械可読記憶デバイスに明確に具体化されたコンピュータプログラム製品で実行することができ、本開示のデータ処理法ステップを指示のプログラムを実行するプログラム可能なプロセッサによって実施して、入力データを操作し、出力を生成することによって本開示の機能を実施することができる。本開示のデータ処理面は、データ記憶システムからデータおよび指示を受信するため、ならびにデータ記憶システムにデータおよび指示を送信するためにカップリングした少なくとも1つのプログラム可能なプロセッサ、少なくとも1つの入力デバイス、および少なくとも1つの出力デバイスを含むプログラム可能なシステムで実行可能な1つまたは複数のコンピュータプログラムで有利に実行することができる。各コンピュータプログラムは、所望であれば、高水準手続き型またはオブジェクト指向プログラミング言語で、またはアセンブリ言語もしくは機械言語で実行することができ、いずれの場合でも、言語は、コンパイルまたは解釈された言語であってよい。適切なプロセッサとしては、例として、汎用マイクロプロセッサおよび特殊用途のマイクロプロセッサが挙げられる。一般に、プロセッサは、リードオンリーメモリおよび/またはランダムアクセスメモリから指示およびデータを受信する。コンピュータプログラム指示およびデータを明確に具体化するために適する記憶デバイスとしては、例としてEPROM、EEPROM、およびフラッシュメモリデバイスなどの半導体メモリデバイスを含めた全形態の不揮発性メモリ;内臓ハードディスクおよびリムーバブルディスクなどの磁気ディスク;光磁気ディスク;ならびにCD-ROMディスクが挙げられる。前述のいずれも、ASIC(特定用途向け集積回路)によって補足することまたはそれに組み入れることができる。
【0122】
使用者との相互作用をもたらすために、本開示を、情報を使用者にディスプレイするためのモニターまたはLCD(液晶ディスプレイ)スクリーンなどのディスプレイデバイスおよびキーボード、マウスもしくはトラックボールなどの2次元ポインティングデバイス、またはデータグローブもしくはジャイロスコープマウスなどの3次元ポインティングデバイスなどの、使用者がコンピュータシステムへの入力をもたらすことができる入力デバイスを有するコンピュータシステムを使用して実行することができる。それを通じてコンピュータプログラムが使用者と相互作用するグラフィカルユーザインタフェースがもたらされるようにコンピュータシステムをプログラミングすることができる。仮想の現実、3次元ディスプレイインタフェースがもたらされるようにコンピュータシステムをプログラミングすることができる。
試験試料
【0123】
本明細書に開示される方法は、1つまたは複数のポリヌクレオチドを単離するステップを含み得る。
【0124】
ポリヌクレオチドは、DNAおよび/またはRNAなどの任意の型の核酸を含み得る。例えば、ポリヌクレオチドがDNAの場合、ゲノムDNA、相補DNA(cDNA)、または任意の他のデオキシリボ核酸であってよい。ポリヌクレオチドは、無細胞DNA(cfDNA)などの無細胞核酸であってもよい。例えば、ポリヌクレオチドは、循環cfDNAであってよい。循環cfDNAは、アポトーシスまたは壊死によって体細胞から放出されたDNAを含み得る。アポトーシスまたは壊死によって放出されたcfDNAは、正常な体細胞が起源であり得る。例えば、がんに関してなど、異常な組織成長がある場合には腫瘍DNAが放出される可能性がある。循環cfDNAは、循環腫瘍DNA(ctDNA)を含み得る。本明細書に記載の通り、本開示の方法により、当業者が、遺伝子座(例えば、遺伝子座における変異体)の起源が生殖系列であるのかまたはcfDNA由来の体細胞性であるのかを、ゲノムDNAからの別々の配列情報を必要とせずに決定することが可能になる。
【0125】
ポリヌクレオチドは、二本鎖であっても一本鎖であってもよい。あるいは、ポリヌクレオチドは、二本鎖部分と一本鎖部分の組合せを含んでよい。
【0126】
試料は、対象から単離される任意の生体試料であってよい。例えば、試料は、これだけに限定することなく、体液、全血、血小板、血清、血漿、便、赤血球、白血球(white blood cell or leukocyte)、内皮細胞、組織生検材料、滑液、リンパ液、腹水、間質液もしくは細胞外液、歯肉溝滲出液を含めた細胞間の空間中の流体、骨髄、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿、鼻ブラッシングによる流体、papスメアによる流体、または任意の他の体液を含み得る。体液は、唾液、血液、または血清を含み得る。例えば、ポリヌクレオチドは、体液、例えば、血液または血清から単離された無細胞DNAであってよい。試料は、対象から、これだけに限定されないが、静脈穿刺、排泄物、射精、マッサージ、生検、針穿刺吸引、洗浄、擦過、外科的切開、または介入または他の手法を含めた種々の手法によって得ることができる腫瘍試料であってもよい。試料は、無細胞試料(例えば、いかなる細胞も含まない)であってよい。
【0127】
試料は、無細胞DNA分子を含有するある体積の血漿を含み得る。試料は、所与のリードの深さを実現するために十分な体積の血漿を含み得る。試料採取された血漿の体積は、少なくとも0.5ミリリットル(mL)、1mL、5mL、10mL、20mL、30mL、または40mLであり得る。試料採取された血漿の体積は、最大で0.5mL、1mL、5mL、10mL、20mL、30mL、または40mLであり得る。試料採取された血漿の体積は、5~20mLであり得る。試料採取された血漿の体積は、10ml~20mLであり得る。
【0128】
試料は、ゲノム当量を含有する種々の核酸の量を含み得る。例えば、DNA約30ngの試料は、約10,000(104)一倍体ヒトゲノム当量を含有し得、cfDNAの場合では、個々のポリヌクレオチド分子を約2000億(2×1011)個含有し得る。同様に、DNA約100ngの試料は、約30,000一倍体ヒトゲノム当量を含有し得、cfDNAの場合では、個々の分子を約6000億個含有し得る。
【0129】
試料は、異なる供給源からの核酸を含み得る。例えば、試料は、生殖系列DNAまたは体細胞DNAを含み得る。試料は、突然変異を有する核酸を含み得る。例えば、試料は、生殖系列突然変異および/または体細胞突然変異を有するDNAを含み得る。試料はまた、がん関連突然変異(例えば、がん関連体細胞突然変異)を有するDNAも含み得る。一部の実施形態では、試料は、一塩基置換、コピー数多型、インデル、遺伝子融合、塩基転換、転座、反転、欠失、異数性、部分的異数性、倍数性、染色体不安定性、染色体構造変更、染色体融合、遺伝子短縮、遺伝子増幅、遺伝子重複、染色体病変、DNA病変、核酸化学修飾の異常な変化、エピジェネティックパターンの異常な変化、ゲノム領域にわたる核酸(例えば、cfDNA)断片の分布の異常な変化、核酸(例えば、cfDNA)断片の長さの分布の異常な変化、および核酸メチル化の異常な変化のうちの1つまたは複数を含む。
【0130】
本発明の方法は、ある特定の量の核酸分子、例えば、無細胞核酸分子を試料から得るステップを含み得る。例えば、方法は、約600ngに至るまで、約500ngに至るまで、約400ngに至るまで、約300ngに至るまで、約200ngに至るまで、約100ngに至るまで、約50ngに至るまで、または約20ngに至るまでの無細胞核酸分子を試料から得るステップを含み得る。方法は、少なくとも1フェムトグラム(fg)、少なくとも10fg、少なくとも100fg、少なくとも1ピコグラム(pg)、少なくとも10pg、少なくとも100pg、少なくとも1ng、少なくとも10ng、少なくとも100ng、少なくとも150ng、または少なくとも200ngの無細胞核酸分子を得るステップを含み得る。方法は、最大で1フェムトグラム(fg)、最大で10fg、最大で100fg、最大で1ピコグラム(pg)、最大で10pg、最大で100pg、最大で1ng、最大で10ng、最大で100ng、最大で150ng、または最大で200ngの無細胞核酸分子を得るステップを含み得る。方法は、1フェムトグラム(fg)~200ng、1ピコグラム(pg)~200ng、1ng~100ng、10ng~150ng、10ng~200ng、10ng~300ng、10ng~400ng、10ng~500ng、10ng~600ng、10ng~700ng、10ng~800ng、10ng~900ng、または10ng~1000ngの無細胞核酸分子を得るステップを含み得る。無細胞核酸分子の量は、一倍体ゲノムコピーの数と同等であり得る。一倍体ゲノムコピーの質量は約3.3ピコグラム(pg)であるので、無細胞核酸分子の各ナノグラム(ng)は約300一倍体ゲノムコピーと同等であり得る。例えば、無細胞核酸分子5ngは、1,500ゲノムコピーと同等であり得る。
【0131】
無細胞核酸は、細胞に付着していない任意の細胞外核酸であり得る。無細胞核酸は、血液中を循環している核酸であり得る。あるいは、無細胞核酸は、本明細書に開示される他の体液、例えば、尿中の核酸であり得る。無細胞核酸は、デオキシリボ核酸(「DNA」)、例えば、ゲノムDNA、ミトコンドリアDNA、またはその断片であり得る。無細胞核酸は、リボ核酸(「RNA」)、例えば、mRNA、低分子干渉RNA(siRNA)、マイクロRNA(miRNA)、循環RNA(cRNA)、転移RNA(tRNA)、リボソームRNA(rRNA)、低分子核小体RNA(snoRNA)、Piwi相互作用RNA(piRNA)、高分子非コードRNA(高分子ncRNA)、またはその断片であり得る。一部の場合では、無細胞核酸は、DNA/RNAハイブリッドである。無細胞核酸は、二本鎖、一本鎖、またはそれらのハイブリッドであり得る。無細胞核酸は、分泌または細胞死プロセス、例えば、細胞壊死およびアポトーシスによって体液中に放出され得る。
【0132】
無細胞核酸は、1つまたは複数のエピジェネティックな修飾を含み得る。例えば、無細胞核酸は、アセチル化されていてよく、メチル化されていてよく、ユビキチン化されていてよく、リン酸化されていてよく、SUMO化されていてよく、リボシル化されていてよく、かつ/またはシトルリン化されていてよい。例えば、無細胞核酸は、メチル化無細胞DNAであってよい。
【0133】
無細胞DNAは、一般には、約110~約230ヌクレオチドのサイズ分布を有し、最頻値は約168ヌクレオチドである。第2に、無細胞核酸分子の長さを数量化するアッセイにおいて検出される小さいピークは、240~440ヌクレオチドの範囲を有する。追加的な高次のヌクレオチドピークもより長い長さにおいて存在する。
【0134】
本開示の一部の実施形態では、無細胞核酸は、最大で1,000ヌクレオチド(nt)の長さ、最大で500ヌクレオチドの長さ、最大で400ヌクレオチドの長さ、最大で300ヌクレオチドの長さ、最大で250ヌクレオチドの長さ、最大で225ヌクレオチドの長さ、最大で200ヌクレオチドの長さ、最大で190ヌクレオチドの長さ、最大で180ヌクレオチドの長さ、最大で170ヌクレオチドの長さ、最大で160ヌクレオチドの長さ、最大で150ヌクレオチドの長さ、最大で140ヌクレオチドの長さ、最大で130ヌクレオチドの長さ、最大で120ヌクレオチドの長さ、最大で110ヌクレオチドの長さ、または最大で100ヌクレオチドの長さであり得る。
【0135】
本開示の一部の実施形態では、無細胞核酸は、少なくとも1,000ヌクレオチドの長さ、少なくとも500ヌクレオチドの長さ、少なくとも400ヌクレオチドの長さ、少なくとも300ヌクレオチドの長さ、少なくとも250ヌクレオチドの長さ、少なくとも225ヌクレオチドの長さ、少なくとも200ヌクレオチドの長さ、少なくとも190ヌクレオチドの長さ、少なくとも180ヌクレオチドの長さ、少なくとも170ヌクレオチドの長さ、少なくとも160ヌクレオチドの長さ、少なくとも150ヌクレオチドの長さ、少なくとも140ヌクレオチドの長さ、少なくとも130ヌクレオチドの長さ、少なくとも120ヌクレオチドの長さ、少なくとも110ヌクレオチドの長さ、または少なくとも100ヌクレオチドの長さであり得る。無細胞核酸は、140ヌクレオチドから180ヌクレオチドまでの長さであり得る。
【0136】
本開示の一部の実施形態では、対象における無細胞核酸は、腫瘍に由来するものであり得る。例えば、対象から単離された無細胞DNAは、循環腫瘍DNA、(ctDNA)を含み得る。次世代シーケンシングにより、稀な突然変異の検出および測定が可能になる。無細胞DNAの画分中の生殖系列配列と相対的な突然変異の検出により、ctDNAの存在が示され、したがって、腫瘍の存在が示され得る。無細胞DNAのシーケンシングを行うことにより、がんの存在を示すことが分かっている遺伝子変異体の検出が可能になり得る。例えば、無細胞DNAのシーケンシングを行うことにより、がん関連遺伝子の突然変異を検出することが可能になり得る。
単離および抽出
【0137】
無細胞ポリヌクレオチドは、胎児起源のもの(妊娠中の対象から取得した流体を介したもの)であり得る、または対象自体の組織に由来するものであり得る。無細胞ポリヌクレオチドは、健康な組織、腫瘍組織などの患部組織、または移植器官に由来するものであり得る。
【0138】
一部の実施形態では、無細胞ポリヌクレオチドは、血液試料またはその画分に由来するものである。例えば、血液試料(例えば、約10~約30ml)を対象から取得し、遠心分離して細胞を除去し、得られた血漿をcfDNA抽出のために使用することができる。
【0139】
ポリヌクレオチドの単離および抽出は、様々な技法を使用した体液の採取によって実施することができる。一部の場合では、採取は、シリンジを使用して対象から体液を吸引することを含む。他の場合では、採取は、ピペット操作または採取容器への流体の直接採取を含み得る。
【0140】
体液採取後、当技術分野において利用される様々な技法を使用してポリヌクレオチドを単離し、抽出することができる。一部の場合では、Qiagen Qiamp(登録商標)Circulating Nucleic Acid Kit protocolなどの市販のキットを使用して無細胞DNAを単離し、抽出し、調製することができる。他の例では、Qiagen Qubit(商標)dsDNA HS Assay kit protocol、Agilent(商標)DNA 1000 kit、またはTruSeq(商標)Sequencing Library Preparation;Low-Throughput(LT) protocolを使用することができる。
【0141】
一般に、無細胞ポリヌクレオチドは、無細胞DNAが溶液中に見いだされると細胞および体液の他の不溶性成分から分離される分割ステップによって体液から抽出し、単離することができる。分割としては、これだけに限定されないが、遠心分離または濾過などの技法を挙げることができる。他の場合では、細胞をまず無細胞DNAから分割するのではなく、溶解させることができる。例えば、インタクトな細胞のゲノムDNAは、選択的沈殿によって分割することができる。試料分割は、識別子(例えば、バーコードを含む識別子など)でタグ付けされた核酸と組み合わせることもでき、識別子を使用しない方法で実施することもできる。試料を分割に分けることができ、したがって、各分割に独立にバーコードを付すことができ(例えば、分割当たり1つの固有のバーコードを用いて)、分割からのシーケンシングデータを後で再度組み合わせることができる。試料を分割に分け、分割内または分割間で核酸分子に互いに対して非固有にタグ付けすることができる。一部の実施形態では、試料を、識別子を使用せずに分割に分けることができる。一例では、cfDNA試料を4つまたはそれよりも多くの分割に分け、ここで、各分割は空間的にアドレス可能なロケーションである。試料の調製およびシーケンシングを空間的にアドレス可能な分割それぞれに対して実施し、アドレス可能なロケーションをバイオインフォマティクスで利用して、固有の分子をさらに識別することができる。一例では、核酸分子は、例えば、異なる型の核酸分子(例えば、DNAなどの二本鎖核酸ならびに/またはRNAおよび/もしくは一本鎖DNAなどの一本鎖核酸)を含有する分割に分けることができる。DNAを含めた無細胞ポリヌクレオチドは、可溶性のままであり得、不溶性ゲノムDNAから分離し、抽出することができる。一般に、異なるキットに特異的な緩衝剤の添加および他の洗浄ステップの後、イソプロパノール沈殿を使用してDNAを沈殿させることができる。シリカに基づくカラムまたはビーズ(例えば、磁気ビーズなど)などのさらなる浄化ステップを使用して、夾雑物または塩を除去することができる。一般的なステップを特定の適用のために最適化することができる。例えば、収率などの手順のある特定の側面を最適化するために、反応全体を通して非特異的なバルクキャリアポリヌクレオチドを添加することができる。
【0142】
一部の実施形態では、血漿試料を処理してプロテイナーゼKを分解し、イソプロパノールを用いてDNAを沈殿させ、その後、Qiagenカラムで捕捉する。次いで、DNAを溶出させることができる(例えば、水またはTris-EDTA(TE)溶出緩衝剤などの溶離液100マイクロリットル(μl)を使用して)。一部の実施形態では、DNAの一部分を、例えば、AgenCourt(登録商標)AMPure(登録商標)ビーズなどの固相可逆的固定化(SPRI)ビーズを使用し、サイズに基づいて選択することができる(例えば、500ヌクレオチドまたはそれ未満の長さのDNA)。一部の実施形態では、DNAをより小さな体積、例えば、水30μlなどに再懸濁させ、DNAのサイズ分布をチェックすることができる(例えば、166ヌクレオチドにおける主要なピークおよび330ヌクレオチドにおける小さいピークをチェックするため)。DNAおよそ5ngは約1500一倍体ゲノム当量(「HGE」)と同等であり得る。
【0143】
抽出後、試料から、1マイクログラム(μg)までのDNA、800ngまでのDNA、500ngまでのDNA、300ngまでのDNA、250ngまでのDNA、200ngまでのDNA、180ngまでのDNA、160ngまでのDNA、140ngまでのDNA、120ngまでのDNA、100ngまでのDNA、90ngまでのDNA、80ngまでのDNA、70ngまでのDNA、60ngまでのDNA、50ngまでのDNA、40ngまでのDNA、30ngまでのDNA、20ngまでのDNA、10ngまでのDNA、9ngまでのDNA、8ngまでのDNA、7ngまでのDNA、6ngまでのDNA、5ngまでのDNA、4ngまでのDNA、3ngまでのDNA、2ngまでのDNA、または1ngまでのDNAが生じ得る。
【0144】
抽出後、試料から、少なくとも1ngのDNA、少なくとも3ngのDNA、少なくとも5ngのDNA、少なくとも7ngのDNA、少なくとも10ngのDNA、少なくとも20ngのDNA、少なくとも30ngのDNA、少なくとも40ngのDNA、少なくとも50ngのDNA、少なくとも70ngのDNA、少なくとも100ngのDNA、少なくとも150ngのDNA、少なくとも200ngのDNA、少なくとも250ngのDNA、少なくとも300ngのDNA、少なくとも400ngのDNA、少なくとも500ngのDNA、または少なくとも700ngのDNAが生じ得る。
【0145】
無細胞核酸の1つまたは複数を試料中の細胞断片から単離することができる。一部の場合では、無細胞核酸の1つまたは複数を、膜、細胞小器官、ヌクレオソーム、エキソソーム、または核、ミトコンドリア、粗面小胞体、リボソーム、滑面小胞体、葉緑体、ゴルジ装置、ゴルジ体、糖タンパク質、糖脂質、槽、リポソーム、ペルオキシソーム、グリオキシソーム、中心粒、細胞骨格、リソソーム、絨毛、鞭毛、収縮胞、小胞、核膜、液胞、微小管、核小体、原形質膜、エンドソーム、クロマチン、またはこれらの組合せから単離する。無細胞核酸の1つまたは複数を、1つまたは複数のエキソソームから単離することができる。一部の場合では、無細胞核酸の1つまたは複数を、1つまたは複数の細胞表面結合核酸から単離する。
【0146】
無細胞DNAの精製は、これだけに限定されないが、例えばSigma Aldrich、Life Technologies、Promega、Affymetrix、IBIなどの会社から提供される市販のキットおよびプロトコールの使用を含めた任意の方法体系を使用して実現することができる。キットおよびプロトコールは、市販されていないものであってもよい。
【0147】
単離後、一部の場合では、無細胞ポリヌクレオチドを、1つまたは複数の試薬(例えば、リガーゼ、プロテアーゼ、ポリメラーゼ)などの1つまたは複数の追加的な材料と予備混合した後、シーケンシングを行ってもよい。
【0148】
試料中の頻度が0.0005%ほどの低さの遺伝子変異体を検出するための十分なリードの深さで無細胞DNAのシーケンシングを行うことができる。試料中の頻度が0.001%ほどの低さの遺伝子変異体を検出するために十分なリードの深さで無細胞DNAのシーケンシングを行うことができる。試料中の頻度が1.0%、0.75%、0.5%、0.25%、0.1%、0.075%、0.05%、0.025%、0.01%、または0.005%ほどの低さの遺伝子変異体を検出するために十分なリードの深さで無細胞DNAのシーケンシングを行うことができる。したがって、無細胞DNAのシーケンシングを行うことにより、対象におけるがんの非常に高感度の検出が可能になる。
【0149】
本発明の方法を、対象におけるがんを検出するために使用することができる。がんを有することが分かっていない、またはがんを有する疑いがある対象において、がんが存在するかしないかを診断するために、無細胞DNAのシーケンシングを行うことができる。無細胞DNAのシーケンシングを行うことにより、がんの早期検出のため、または、既知のがんの「生検」のための非侵襲的方法がもたらされる。がんと診断された対象において、がんに関する情報をもたらすために、無細胞DNAのシーケンシングを行うことができる。処置の有効性を決定するために、対象においてがんの処置前および処置後に無細胞DNAのシーケンシングを行うことができる。
【0150】
対象は、がんを有する疑いがある場合もあり、がんを有する疑いがない場合もある。対象は、がんの診断と一致した症状を経験している場合がある。対象は、いかなる症状も経験していない場合がある、またはがんと一致しない症状を示している場合がある。対象は、生物学的イメージング法に基づいてがんを有すると診断されている場合がある。対象は、イメージング法によって検出可能ながんを有さない場合がある。イメージング法は、陽電子放出断層撮影、磁気共鳴画像法、X線、コンピュータ化軸方向断層撮影、超音波、またはこれらの組合せであり得る。
【0151】
対象は、がんを示す場合がある。あるいは、対象は、がんを検出可能に示さない場合がある。一部の場合では、がんを検出可能に示さない対象は、がんを有し得るが、検出可能な症状を有さない。がんを有することが分かっていない、またはがんを有する疑いがある対象は、種々のがんスクリーニング方法を使用して検出可能でないがんを有し得る。種々のイメージング法を使用してがんが検出されない場合がある。イメージング法としては、例えば、陽電子放出断層撮影、磁気共鳴画像法、X線、コンピュータ化軸方向断層撮影、内視鏡検査、超音波、またはこれらの組合せを挙げることができる。がんを有することまたはがんを有する疑いがあることが分かっていない対象に関しては、組織生検、骨髄穿刺、pap試験、便潜血反応検査、タンパク質バイオマーカー検出、例えば、前立腺特異的抗原検査、アルファ-フェトプロテイン血液検査、またはCA-125検査、またはこれらの組合せなどの検査により、対象ががんを有さないことが示され得る、例えば、対象に関してがんが検出されない。他の場合では、がんを検出可能に示していない対象は、いかなるがんも有さない可能性がある。
【0152】
対象は、がんを有するリスクが一般集団よりも高い場合がある。対象は、がんの家族歴を有し得る。対象は、がんリスクの既知の遺伝源を有し得る。対象は、がんリスクを上昇させるまたは引き起こすことが公知の環境条件に曝露されていた場合がある。対象は、がんの危険因子が年齢および/または性別だけの患者であり得る。対象は、既知のがん危険因子を有さない場合がある。
【0153】
対象は、がんと診断されている場合がある。がんは、初期または後期であり得る。がんは、転移性の場合もあり、転移性でない場合もある。対象が診断を受けた可能性があるがんの型としては、これだけに限定されないが、癌腫、肉腫、リンパ腫、白血病、胚細胞性腫瘍および芽細胞腫が挙げられる。対象が診断を受けた可能性があるがんの型としては、これだけに限定されないが、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病、副腎皮質癌、成人急性骨髄性白血病、成人原発部位不明癌、成人悪性中皮腫、AIDS関連がん、AIDS関連リンパ腫、肛門がん、虫垂がん、星状細胞腫、小児期小脳または大脳基底細胞癌、胆管がん、膀胱がん、骨腫瘍、骨肉腫/悪性線維性組織球腫、脳がん、脳幹神経膠腫、乳がん、気管支腺腫/カルチノイド、バーキットリンパ腫、カルチノイド腫瘍、原発不明癌、中枢神経系リンパ腫、小脳星状細胞腫、大脳星状細胞腫/悪性神経膠腫、子宮頸がん、小児期急性骨髄性白血病、小児期原発部位不明がん、小児期がん、小児期大脳星状細胞腫、小児期中皮腫、軟骨肉腫、慢性リンパ球性白血病、慢性骨髄性白血病、慢性骨髄増殖性疾患、結腸がん、皮膚T細胞リンパ腫、線維形成性小円形細胞腫瘍、子宮体がん、子宮内膜がん、上衣腫、類上皮血管内皮腫(EHE)、食道がん、ユーイングファミリー腫瘍肉腫、ユーイングファミリー腫瘍中のユーイング肉腫、頭蓋外胚細胞性腫瘍、性腺外胚細胞性腫瘍、肝外胆管がん、眼がん、眼内黒色腫、胆嚢がん、胃がん(Gastric(stomach)cancer)、胃カルチノイド、消化管カルチノイド腫瘍、消化管間質腫瘍(GIST)、妊娠性絨毛性腫瘍、脳幹の神経膠腫、神経膠腫、ヘアリー細胞白血病、頭頸部がん、心臓がん、肝細胞(肝)がん、ホジキンリンパ腫、下咽頭がん、視床下部および視経路神経膠腫、膵島細胞癌(膵内分泌部)、カポジ肉腫、腎がん(腎細胞がん)、喉頭がん、急性リンパ性白血病(Leukaemia、acute lymphoblastic)(急性リンパ性白血病(acute lymphocytic leukaemia)とも称される)、急性骨髄性白血病(Leukaemia、acute myeloid)(急性骨髄性白血病(acute myelogenous leukemia)とも称される)、慢性リンパ性白血病(Leukaemia、chronic lymphocytic)(慢性リンパ性白血病(chronic lymphocytic leukemia)とも称される)、白血病、慢性骨髄性白血病(Leukemia、chronic myelogenous)(慢性骨髄性白血病(chronic myeloid leukemia)とも称される)、白血病、ヘアリー細胞、口唇・口腔がん、脂肪肉腫、肝がん(原発性)、肺がん、非小細胞、肺がん、小細胞、リンパ腫(AIDS関連)、リンパ腫、マクログロブリン血症、ワルデンシュトレーム、男性乳がん、骨の悪性線維性組織球腫/骨肉腫、髄芽腫、黒色腫、メルケル細胞がん、原発不明転移性扁平上皮性頸部がん、口腔がん(mouth cancer)、多発性内分泌腫瘍症候群、小児期、多発性骨髄腫(骨髄のがん)、多発性骨髄腫/形質細胞新生物、菌状息肉腫、骨髄異形成症候群、骨髄異形成の/骨髄増殖性疾患、慢性骨髄性白血病(myelogenous leukemia、chronic)、粘液腫、鼻腔・副鼻腔がん、上咽頭癌、神経芽細胞腫、非ホジキンリンパ腫、非小細胞肺がん、乏枝神経膠腫、口腔がん(oral cancer)、中咽頭がん、骨肉腫/骨の悪性線維性組織球腫、卵巣がん、卵巣上皮がん(表層上皮性・間質性腫瘍)、卵巣胚細胞性腫瘍、卵巣低悪性度腫瘍、膵がん、膵がん、膵島細胞、副鼻腔および鼻腔がん、副甲状腺がん、陰茎がん、咽頭がん、褐色細胞腫、松果体星状細胞腫、松果体胚細胞腫、松果体芽腫およびテント上原始神経外胚葉性腫瘍、下垂体腺腫、形質細胞新形成/多発性骨髄腫、胸膜肺芽腫、原発性中枢神経系リンパ腫、前立腺がん、直腸がん、腎細胞癌(腎がん)、腎盤および尿管移行上皮がん、網膜芽細胞腫、横紋筋肉腫、唾液腺がん、セザリー症候群、皮膚がん(黒色腫)、皮膚がん(非黒色腫性の)、皮膚癌、メルケル細胞、小細胞肺がん、小腸がん、軟部肉腫、扁平上皮細胞癌、転移性原発不明扁平上皮性頸部がん、胃がん、テント上原始神経外胚葉性腫瘍、皮膚T細胞リンパ腫、精巣がん、咽喉がん、胸腺腫および胸腺癌、胸腺腫、甲状腺がん、腎盤および尿管の移行上皮がん、尿管および腎盤の移行上皮がん、尿道がん、子宮肉腫、膣がん、視覚路および視床下部神経膠腫、視覚路および視床下部神経膠腫、小児期、外陰がん、ワルデンシュトレームマクログロブリン血症、およびウィルムス腫瘍(腎がん)が挙げられる。
【0154】
対象は、がんに対する処置を以前に受けていてよい。対象は、外科的処置、放射線処置、化学療法、標的化がん治療薬またはがん免疫療法を受けていてよい。対象は、がんワクチンを用いた処置を受けていてよい。対象は、実験的ながん処置を用いた処置を受けていてよい。対象は、がん処置を受けていなくてよい。対象は、がんからの寛解の状態にあってよい。対象は、がんに対する処置を以前に受けており、いかなる症状も検出可能に示していなくてよい。
遺伝子解析
【0155】
ある特定のDNAシーケンシング法では、配列捕捉を使用して、目的の配列を富化させる。配列捕捉は、一般には、目的の配列とハイブリダイズするオリゴヌクレオチドプローブの使用を伴う。プローブセット戦略は、目的の領域にわたってプローブをタイリングすることを伴い得る。そのようなプローブは、例えば、約60~120塩基長であってよい。セットの深さは、約2×、3×、4×、5×、6×、8×、9×、10×、15×、20×、50×またはそれよりも深くてよい。配列捕捉の効果は、プローブの配列と相補的(またはほぼ相補的)である標的分子内の配列の長さに一部依存する。富化された核酸分子は、5,000塩基よりも多くのヒトゲノム、10,000塩基よりも多くのヒトゲノム、15,000塩基よりも多くのヒトゲノム、20,000塩基よりも多くのヒトゲノム、25,000塩基よりも多くのヒトゲノム、30,000塩基よりも多くのヒトゲノム、35,000塩基よりも多くのヒトゲノム、40,000塩基よりも多くのヒトゲノム、45,000塩基よりも多くのヒトゲノム、50,000塩基よりも多くのヒトゲノム、55,000塩基よりも多くのヒトゲノム、60,000塩基よりも多くのヒトゲノム、65,000塩基よりも多くのヒトゲノム、70,000塩基よりも多くのヒトゲノム、75,000塩基よりも多くのヒトゲノム、80,000塩基よりも多くのヒトゲノム、85,000塩基よりも多くのヒトゲノム、90,000塩基よりも多くのヒトゲノム、95,000塩基よりも多くのヒトゲノム、または100,000塩基よりも多くのヒトゲノムを表し得る。富化された核酸分子は、5,000塩基以下のヒトゲノム、10,000塩基以下のヒトゲノム、15,000塩基以下のヒトゲノム、20,000塩基以下のヒトゲノム、25,000塩基以下のヒトゲノム、30,000塩基以下のヒトゲノム、35,000塩基以下のヒトゲノム、40,000塩基以下のヒトゲノム、45,000塩基以下のヒトゲノム、50,000塩基以下のヒトゲノム、55,000塩基以下のヒトゲノム、60,000塩基以下のヒトゲノム、65,000塩基以下のヒトゲノム、70,000塩基以下のヒトゲノム、75,000塩基以下のヒトゲノム、80,000塩基以下のヒトゲノム、85,000塩基以下のヒトゲノム、90,000塩基以下のヒトゲノム、95,000塩基以下のヒトゲノム、または100,000塩基以下のヒトゲノムを表し得る。富化された核酸分子は、5,000~100,000塩基のヒトゲノム、5,000~50,000塩基のヒトゲノム、5,000~30,000塩基のヒトゲノム、10,000~100,000塩基のヒトゲノム、10,000~50,000塩基のヒトゲノム、または10,000~30,000塩基のヒトゲノムを表し得る。富化された核酸分子は、ヌクレオチド変異体(SNV)、コピー数変異体(CNV)、挿入または欠失(例えば、インデル)、がんに関連するヌクレオソーム領域、遺伝子融合、および反転などの遺伝子変異体を含めた種々の核酸特徴を表し得る。
【0156】
一般に、本明細書で提供される方法およびシステムは、下流適用シーケンシング反応のための無細胞ポリヌクレオチド配列を調製するために有用である。シーケンシング法は、大規模並列処理シーケンシング、すなわち、少なくとも100個、1000個、10,000個、100,000個、100万個、1000万個、1億個、10億個、または100億個のいずれかのポリヌクレオチド分子を同時に(または立て続けに)シーケンシングするものであってよい。シーケンシング法としては、これだけに限定されないが、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、Digital Gene Expression(Helicos)、次世代シーケンシング、単一分子合成によるシーケンシング(SMSS)(Helicos)、大規模並列処理シーケンシング、Clonal Single Molecule Array(Solexa)、ショットガンシーケンシング、マクサム・ギルバートまたはサンガーシーケンシング、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはNanoporeプラットフォームを使用したシーケンシングおよび当技術分野で公知の任意の他のシーケンシング法を挙げることができる。
【0157】
ゲノム核酸試料(例えば、ゲノムDNA試料)中の個々のポリヌクレオチド断片を、非固有識別子でタグ付けすること、例えば、個々のポリヌクレオチド断片を非固有にタグ付けすることによって固有に識別することができる。
シーケンシングパネル
【0158】
腫瘍を示す突然変異の検出の可能性を改善するために、シーケンシングされたDNAの領域は、遺伝子またはゲノム領域のパネルを含み得る。限定された領域(例えば、限定されたパネル)をシーケンシングのために選択することにより、必要な総シーケンシング(例えば、シーケンシングするヌクレオチドの総量)を減少させることができる。シーケンシングパネルにより、複数の異なる遺伝子または領域を標的として、単一のがん、がんのセット、または全てのがんを検出することができる。
【0159】
一部の態様では、複数の異なる遺伝子またはゲノム領域を標的とするパネルを選択し、したがって、決定されるがんを有する対象の割合により、パネル内の1つまたは複数の異なる遺伝子またはゲノム領域における遺伝子変異体または腫瘍マーカーが示される。パネルを、シーケンシングの領域が固定数の塩基対に限定されるように選択することができる。パネルを、所望の量のDNAがシーケンシングされるように選択することができる。パネルを、所望の配列リードの深さが実現されるようにさらに選択することができる。パネルを、ある量のシーケンシングされる塩基対に対して所望の配列リードの深さまたは配列リードカバレッジが実現されるように選択することができる。パネルを、試料中の1種または複数種の遺伝子変異体を検出するための理論的感度、理論的特異度および/または理論的正確度が実現されるように選択することができる。
【0160】
領域のパネルを検出するためのプローブは、ホットスポット領域を検出するためのプローブならびにヌクレオソーム認識プローブ(例えば、KRASコドン12および13)を含んでよく、ヌクレオソーム結合パターンおよびGC配列組成の影響を受けるcfDNAカバレッジおよび断片サイズ変動の分析に基づく捕捉が最適化されるように設計することができる。本明細書で使用される領域は、ヌクレオソームの位置およびGCモデルに基づいて最適化された非ホットスポット領域も含んでよい。パネルは、例えば腫瘍抑制因子遺伝子(例えば、結腸直腸がんにおけるSEPT9/VIM))のプロモーターにおける、起源組織(例えば、組織にわたって最も多様な転写プロファイルを有する遺伝子を表す50~100のベイト(必ずしもプロモーターではない)を定義するための、公開文献の使用)、全ゲノム足場(例えば、コピー数に基づいて並べるために少数のプローブを用いて染色体にわたって超保存的ゲノム含有量を識別し、低密度にタイリングするため)、転写開始点(TSS)/CpGアイランド(例えば、示差的なメチル化領域(例えば、示差的にメチル化された領域(DMR)を捕捉するため)を識別するためのサブパネルを含めた複数のサブパネルを含んでよい。一部の実施形態では、起源組織についてのマーカーは、組織特異的エピジェネティックマーカーである。
【0161】
目的のゲノム上の位置の例示的な一覧表は、表1および表2において見ることができる。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表1の遺伝子のうちの少なくとも5種、少なくとも10種、少なくとも15種、少なくとも20種、少なくとも25種、少なくとも30種、少なくとも35種、少なくとも40種、少なくとも45種、少なくとも50種、少なくとも55種、少なくとも60種、少なくとも65種、少なくとも70種、少なくとも75種、少なくとも80種、少なくとも85種、少なくとも90種、少なくとも95種、または97種の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表1のSNVのうちの少なくとも5種、少なくとも10種、少なくとも15種、少なくとも20種、少なくとも25種、少なくとも30種、少なくとも35種、少なくとも40種、少なくとも45種、少なくとも50種、少なくとも55種、少なくとも60種、少なくとも65種、または70種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表1のCNVのうちの少なくとも1種、少なくとも2種、少なくとも3種、少なくとも4種、少なくとも5種、少なくとも6種、少なくとも7種、少なくとも8種、少なくとも9種、少なくとも10種、少なくとも11種、少なくとも12種、少なくとも13種、少なくとも14種、少なくとも15種、少なくとも16種、少なくとも17種、または18種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表1の融合物のうちの少なくとも1種、少なくとも2種、少なくとも3種、少なくとも4種、少なくとも5種、または6種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表1のインデルのうちの少なくとも1種、少なくとも2種、または3種の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は表2の遺伝子の、少なくとも5種、少なくとも10種、少なくとも15種、少なくとも20種、少なくとも25種、少なくとも30種、少なくとも35種、少なくとも40種、少なくとも45種、少なくとも50種、少なくとも55種、少なくとも60種、少なくとも65種、少なくとも70種、少なくとも75種、少なくとも80種、少なくとも85種、少なくとも90種、少なくとも95種、少なくとも100種、少なくとも105種、少なくとも110種、または115種の少なくとも一部分を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表2のSNVの少なくとも5種、少なくとも10種、少なくとも15種、少なくとも20種、少なくとも25種、少なくとも30種、少なくとも35種、少なくとも40種、少なくとも45種、少なくとも50種、少なくとも55種、少なくとも60種、少なくとも65種、少なくとも70種、または73種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表2のCNVの少なくとも1種、少なくとも2種、少なくとも3種、少なくとも4種、少なくとも5種、少なくとも6種、少なくとも7種、少なくとも8種、少なくとも9種、少なくとも10種、少なくとも11種、少なくとも12種、少なくとも13種、少なくとも14種、少なくとも15種、少なくとも16種、少なくとも17種、または18種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表2の融合物のうちの少なくとも1種、少なくとも2種、少なくとも3種、少なくとも4種、少なくとも5種、または6種を含む。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表2のインデルのうちの少なくとも1種、少なくとも2種、少なくとも3種、少なくとも4種、少なくとも5種、少なくとも6種、少なくとも7種、少なくとも8種、少なくとも9種、少なくとも10種、少なくとも11種、少なくとも12種、少なくとも13種、少なくとも14種、少なくとも15種、少なくとも16種、少なくとも17種、または18種の少なくとも一部分を含む。これらの目的のゲノム上の位置のそれぞれを、所与のベイトセットパネルについての骨格領域またはホットスポット領域として識別することができる。目的のホットスポットのゲノム上の位置の例示的な一覧表は、表3において見ることができる。一部の実施形態では、本開示の方法において使用されるゲノム領域は、表3の遺伝子のうちの少なくとも1種、少なくとも2種、少なくとも3種、少なくとも4種、少なくとも5種、少なくとも6種、少なくとも7種、少なくとも8種、少なくとも9種、少なくとも10種、少なくとも11種、少なくとも12種、少なくとも13種、少なくとも14種、少なくとも15種、少なくとも16種、少なくとも17種、少なくとも18種、少なくとも19種、または少なくとも20種の少なくとも一部分を含む。各ホットスポットゲノム領域が、関連する遺伝子、それが存在する染色体、遺伝子座を表すゲノムの開始位置および終止位置、塩基対内の遺伝子座の長さ、遺伝子に包含されるエクソン、ならびに目的の所与のゲノム領域が捕捉しようとし得る重要な特徴(例えば、突然変異の型)を含めたいくつかの特性と共に列挙されている。
【表1】
【表2-1】
【表2-2】
【表3-1】
【表3-2】
【表3-3】
【表3-4】
【0162】
一部の実施形態では、パネル内の1つまたは複数の領域は、外科手術後の残存がんを検出するための1種または複数種の遺伝子由来の1種または複数種の遺伝子座を含む。この検出は、がん検出の既存の方法で可能なものよりも早い可能性がある。一部の実施形態では、パネル内の1つまたは複数の領域は、高リスク患者集団においてがんを検出するための1種または複数種の遺伝子由来の1種または複数種の遺伝子座を含む。例えば、喫煙者は、肺がんの率が一般集団よりもはるかに高い。さらに、喫煙者では、肺内の不規則な小結節の発生などの、がん検出をより難しくする他の肺の状態が発症する可能性がある。一部の実施形態では、本明細書に記載の方法により、高リスク患者において、がん検出の既存の方法で可能なものよりも早くがんが検出される。
【0163】
領域を、その遺伝子または領域内に腫瘍マーカーを有するがんを有する対象の数に基づいて、シーケンシングパネルに含めるために選択することができる。領域を、がんを有する対象の有病率およびその遺伝子内に存在する腫瘍マーカーに基づいて、シーケンシングパネルに含めるために選択することができる。領域内に腫瘍マーカーが存在することにより、がんを有する対象が示され得る。
【0164】
一部の例では、パネルを、1つまたは複数のデータベースからの情報を使用して選択することができる。がんに関する情報は、がん腫瘍生検またはcfDNAアッセイから得ることができる。データベースは、シーケンシングされる腫瘍試料の集団を説明する情報を含み得る。データベースは、腫瘍試料中のmRNA発現に関する情報を含み得る。データベースは、腫瘍試料中の調節エレメントに関する情報を含み得る。シーケンシングされる腫瘍試料に関する情報は、種々の遺伝子変異体の頻度を含み、遺伝子変異体が存在する遺伝子または領域を記載するものであり得る。遺伝子変異体は、腫瘍マーカーであり得る。そのようなデータベースの非限定的な例は、COSMICである。COSMICは、種々のがんにおいて見いだされる体細胞突然変異のカタログである。特定のがんに関して、COSMICでは、遺伝子が突然変異の頻度に基づいて順位付けされている。遺伝子を、所与の遺伝子内の突然変異の頻度が高いことにより、パネルに含めるために選択することができる。例えば、COSMICでは、シーケンシングされた乳がん試料の集団の33%がTP53に突然変異を有し、試料採取された乳がんの集団の22%がKRASに突然変異を有することが示されている。APCを含めた他の順位付けされた遺伝子は、シーケンシングされた乳がん試料の集団の約4%にしか見いだされない突然変異を有する。TP53およびKRASを、試料採取された乳がんの中で頻度が比較的高いこと(例えば、約4%の頻度で生じるAPCと比較して)に基づいて、シーケンシングパネルに含めることができる。COSMICは、非限定的な例として提示したものであるが、遺伝子または遺伝子領域内に位置する腫瘍マーカーを有するがんと関連する任意のデータベースまたは情報のセットを使用することができる。別の例では、COSMICによって提供される通り、1156の胆道がん試料のうち、380の試料(33%)がTP53に突然変異を有した。APCなどのいくつかの他の遺伝子は、全ての試料の4~8%において突然変異を有する。したがって、TP53を、胆道がん試料の集団における頻度が比較的高いことに基づいて、パネルに含めるために選択することができる。
【0165】
試料採取された腫瘍組織または循環腫瘍DNAにおける腫瘍マーカーの頻度が所与のバックグラウンド集団において見いだされるよりも有意に高い遺伝子または領域をパネルに選択することができる。がんを有する対象の少なくとも大多数がパネル内の領域または遺伝子のうちの少なくとも1つに存在する腫瘍マーカーを有するような領域の組合せをパネルに含めるために選択することができる。特定のがんまたはがんのセットに関して、大多数の対象が、選択された領域の1つまたは複数に1種または複数種の腫瘍マーカーを有することを示すデータに基づいて領域の組合せを選択することができる。例えば、がん1を検出するために、領域A、B、C、および/またはDを含むパネルを、がん1を有する対象の90%がパネルの領域A、B、C、および/またはDに腫瘍マーカーを有することを示すデータに基づいて選択することができる。あるいは、腫瘍マーカーががんを有する対象内の2つまたはそれよりも多くの領域内に独立に存在し、したがって、併せて、2つまたはそれよりも多くの領域内の腫瘍マーカーががんを有する対象の集団の大多数に存在することが示される場合がある。例えば、がん2を検出するために、領域X、Y、およびZを含むパネルを、対象の90%が1つまたは複数の領域に腫瘍マーカーを有し、そのような対象の30%では、腫瘍マーカーが領域Xにおいてのみ検出され、一方、腫瘍マーカーが検出された残りの対象については腫瘍マーカーが領域Yおよび/またはZにおいてのみ検出されることを示すデータに基づいて選択することができる。1種または複数種のがんに関連することが以前示された1つまたは複数の領域内に存在する腫瘍マーカーは、腫瘍マーカーがこれらの領域の1つまたは複数において50%またはそれよりも高い確率で検出される場合、がんを有する対象を示すものまたは予測するものであり得る。1つまたは複数の領域内の腫瘍マーカーのセットについて既知のがんの頻度を考慮してがんの検出の条件付き確率を使用するモデルなどのコンピュータによる手法を使用して、いずれの領域が、単独でまたは組合せで、がんを予測するものであるかを予測することができる。パネル選択のための他の手法は、大きなパネルを用いた腫瘍の包括的なゲノムプロファイリングおよび/または全ゲノムシーケンシング(WGS、RNA-seq、Chip-seq、重硫酸塩シーケンシング、ATAC-seq、およびその他)を使用した研究からの情報が記載されているデータベースの使用を伴う。文献から収集される情報にも、ある特定のがんにおいて一般に影響を受け、突然変異した経路が記載されている可能性がある。遺伝情報が記載されているオントロジーを使用することにより、パネル選択にさらに情報を与えることができる。
【0166】
シーケンシングのためにパネルに含める遺伝子は、完全に転写された領域、プロモーター領域、エンハンサー領域、調節エレメント、および/または下流の配列を含み得る。腫瘍を示す突然変異の検出の可能性をさらに増大させるために、エクソンのみをパネルに含めることができる。パネルは、選択された遺伝子の全てのエクソンまたは選択された遺伝子のエクソンの1つまたは複数のみを含み得る。パネルは、複数の異なる遺伝子のそれぞれ由来のエクソンを含み得る。パネルは、複数の異なる遺伝子のそれぞれ由来の少なくとも1つのエクソンを含み得る。
【0167】
一部の態様では、複数の異なる遺伝子のそれぞれ由来のエクソンのパネルを、決定されるがんを有する対象の割合により、エクソンのパネル内の少なくとも1つのエクソンにおける遺伝子変異体が示されるように選択する。
【0168】
遺伝子のパネル内の異なる遺伝子それぞれ由来の少なくとも1つの完全なエクソンのシーケンシングを行うことができる。シーケンシングされるパネルは、複数の遺伝子由来のエクソンを含み得る。パネルは、2種から100種までの異なる遺伝子、2種から70種までの遺伝子、2種から50種までの遺伝子、2種から30種までの遺伝子、2種から15種までの遺伝子、または2種から10種までの遺伝子由来のエクソンを含み得る。
【0169】
選択されたパネルは、様々な数のエクソンを含み得る。パネルは、2種から3000種までのエクソンを含み得る。パネルは、2種から1000種までのエクソンを含み得る。パネルは、2種から500種までのエクソンを含み得る。パネルは、2種から100種までのエクソンを含み得る。パネルは、2種から50種までのエクソンを含み得る。パネルは、300種以下のエクソンを含み得る。パネルは、200種以下のエクソンを含み得る。パネルは、100種以下のエクソンを含み得る。パネルは、50種以下のエクソンを含み得る。パネルは、40種以下のエクソンを含み得る。パネルは、30種以下のエクソンを含み得る。パネルは、25種以下のエクソンを含み得る。パネルは、20種以下のエクソンを含み得る。パネルは、15種以下のエクソンを含み得る。パネルは、10種以下のエクソンを含み得る。パネルは、9種以下のエクソンを含み得る。パネルは、8種以下のエクソンを含み得る。パネルは、7種以下のエクソンを含み得る。
【0170】
パネルは、複数の異なる遺伝子由来の1つまたは複数のエクソンを含み得る。パネルは、ある割合の複数の異なる遺伝子のそれぞれ由来の1つまたは複数のエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%のそれぞれ由来の少なくとも2種のエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%のそれぞれ由来の少なくとも3つのエクソンを含み得る。パネルは、異なる遺伝子の少なくとも25%、50%、75%または90%のそれぞれ由来の少なくとも4つのエクソンを含み得る。
【0171】
シーケンシングパネルのサイズは変動し得る。シーケンシングパネルは、例えば、パネル内のシーケンシングされたヌクレオチドまたは特定の領域についてシーケンシングされたいくつもの固有の分子総量を含めたいくつかの因子に応じて、より大きくまたはより小さく作製することができる(ヌクレオチドサイズを単位として)。シーケンシングパネルのサイズは、5kb~50kbであり得る。シーケンシングパネルは、10kb~30kbのサイズであり得る。シーケンシングパネルは、12kb~20kbのサイズであり得る。シーケンシングパネルは、12kb~60kbのサイズであり得る。シーケンシングパネルは、少なくとも10kb、12kb、15kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kb、110kb、120kb、130kb、140kb、または150kbのサイズであり得る。シーケンシングパネルは、100kb未満、90kb未満、80kb未満、70kb未満、60kb未満、または50kb未満のサイズであり得る。
【0172】
シーケンシングのために選択されたパネルは、少なくとも1種、5種、10種、15種、20種、25種、30種、40種、50種、60種、80種、または100種の領域を含み得る。一部の場合では、パネル内の領域は、領域のサイズが比較的小さくなるように選択する。一部の場合では、パネル内の領域のサイズは、約10kbまたはそれ未満、約8kbまたはそれ未満、約6kbまたはそれ未満、約5kbまたはそれ未満、約4kbまたはそれ未満、約3kbまたはそれ未満、約2.5kbまたはそれ未満、約2kbまたはそれ未満、約1.5kbまたはそれ未満、または約1kbまたはそれ未満またはそれ未満である。一部の場合では、パネル内の領域のサイズは、約0.5kbから約10kbまで、約0.5kbから約6kbまで、約1kbから約11kbまで、約1kbから約15kbまで、約1kbから約20kbまで、約0.1kbから約10kbまで、または約0.2kbから約1kbまでである。例えば、パネル内の領域のサイズは、約0.1kbから約5kbまでであり得る。
【0173】
本発明において選択されるパネルにより、低頻度遺伝子変異体を検出する(例えば、試料から得られた無細胞核酸分子中の)ために十分なディープシーケンシングが可能になり得る。試料中の遺伝子変異体の量は、所与の遺伝子変異体についてのマイナー対立遺伝子頻度の点から言及することができる。マイナー対立遺伝子頻度は、マイナー対立遺伝子(例えば、最も一般的なものではない対立遺伝子)が試料などの所与の核酸の集団内に存在する頻度を指し得る。低マイナー対立遺伝子頻度の遺伝子変異体は、試料中の存在が比較的低頻度であり得る。一部の場合では、パネルにより、少なくとも0.0001%、0.001%、0.005%、0.01%、0.05%、0.1%、または0.5%のマイナー対立遺伝子頻度の遺伝子変異体の検出が可能になる。パネルにより、0.001%またはそれよりも大きなマイナー対立遺伝子頻度の遺伝子変異体の検出が可能になり得る。パネルにより、0.01%またはそれよりも大きなマイナー対立遺伝子頻度の遺伝子変異体の検出が可能になり得る。パネルにより、試料中に0.0001%、0.001%、0.005%、0.01%、0.025%、0.05%、0.075%、0.1%、0.25%、0.5%、0.75%、または1.0%ほどの低さの頻度で存在する遺伝子変異体の検出が可能になり得る。パネルにより、試料中に少なくとも0.0001%、0.001%、0.005%、0.01%、0.025%、0.05%、0.075%、0.1%、0.25%、0.5%、0.75%、または1.0%の頻度で存在する腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が1.0%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.75%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.5%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.25%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.1%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.075%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.05%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.025%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.01%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.005%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.001%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.0001%ほどの低さの腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が1.0%~0.0001%ほどの低さの、シーケンシングされたcfDNA中の腫瘍マーカーの検出が可能になり得る。パネルにより、試料中の頻度が0.01%~0.0001%ほどの低さの、シーケンシングされたcfDNA中の腫瘍マーカーの検出が可能になり得る。
【0174】
遺伝子変異体は、疾患(例えば、がん)を有する対象の集団のパーセンテージで示すことができる。一部の場合では、がんを有する集団の少なくとも1%、2%、3%、5%、10%、20%、30%、40%、50%、60%、70%、80%、90%、95%、または99%が、パネル内の領域のうちの少なくとも1つにおける1種または複数種の遺伝子変異体を示す。例えば、がんを有する集団の少なくとも80%が、パネル内の領域のうちの少なくとも1つにおける1種または複数種の遺伝子変異体を示し得る。
【0175】
パネルは、1種または複数種の遺伝子のそれぞれ由来の1つまたは複数の領域を含み得る。一部の場合では、パネルは、少なくとも1種、2種、3種、4種、5種、6種、7種、8種、9種、10種、15種、20種、25種、30種、40種、50種、または80種の遺伝子のそれぞれ由来の1つまたは複数の領域を含み得る。一部の場合では、パネルは、最大で1種、2種、3種、4種、5種、6種、7種、8種、9種、10種、15種、20種、25種、30種、40種、50種、または80種の遺伝子のそれぞれ由来の1つまたは複数の領域を含み得る。一部の場合では、パネルは、約1種から約80種まで、1種から約50種まで、約3種から約40種まで、5種から約30種まで、10種から約20種までの異なる遺伝子のそれぞれ由来の1つまたは複数の領域を含み得る。
【0176】
パネル内の領域は、1つまたは複数のエピジェネティック的に修飾された領域が検出されるように選択することができる。1つまたは複数のエピジェネティック的に修飾された領域は、アセチル化されていてよく、メチル化されていてよく、ユビキチン化されていてよく、リン酸化されていてよく、SUMO化されていてよく、リボシル化されていてよく、かつ/またはシトルリン化されていてよい。例えば、パネル内の領域は、1つまたは複数のメチル化領域が検出されるように選択することができる。
【0177】
パネル内の領域は、それらが1つまたは複数の組織にわたって示差的に転写された配列を含むように選択することができる。一部の場合では、領域は、ある特定の組織において、他の組織と比較して高いレベルで転写される配列を含み得る。例えば、領域は、ある特定の組織では転写されるが他の組織では転写されない配列を含み得る。
【0178】
パネル内の領域は、コード配列および/または非コード配列を含み得る。例えば、パネル内の領域は、エクソン、イントロン、プロモーター、3’非翻訳領域、5’非翻訳領域、調節エレメント、転写開始点、および/またはスプライス部位内の1つまたは複数の配列を含み得る。一部の場合では、パネル内の領域は、偽遺伝子、リピート配列、トランスポゾン、ウイルス性エレメント、およびテロメアを含めた他の非コード配列を含み得る。一部の場合では、パネル内の領域は、非コードRNA、例えば、リボソームRNA、転移RNA、Piwi相互作用RNA、およびマイクロRNA内の配列を含み得る。
【0179】
パネル内の領域を、所望のレベルの感度でがんが検出(診断)されるように(例えば、1種または複数種の遺伝子変異体の検出を通じて)選択することができる。例えば、パネル内の領域を、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度でがんが検出されるように(例えば、1種または複数種の遺伝子変異体の検出を通じて)選択することができる。パネル内の領域を、100%の感度でがんが検出されるように選択することができる。
【0180】
パネル内の領域を、所望のレベルの特異度でがんが検出(診断)されるように(例えば、1種または複数種の遺伝子変異体の検出を通じて)選択することができる。例えば、パネル内の領域を、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度でがんが検出されるように(例えば、1種または複数種の遺伝子変異体の検出を通じて)選択することができる。パネル内の領域を、100%の特異度で1種または複数種の遺伝子変異体が検出されるように選択することができる。
【0181】
パネル内の領域を、所望の陽性的中率でがんが検出(診断)されるように選択することができる。陽性的中率は、感度(例えば、実際の陽性が検出される見込み)および/または特異度(例えば、実際の陰性が陽性と間違えられない見込み)を増大させることによって上昇させることができる。非限定的な例として、パネル内の領域を、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の陽性的中率で1種または複数種の遺伝子変異体が検出されるように選択することができる。パネル内の領域を、100%の陽性的中率で1種または複数種の遺伝子変異体が検出されるように選択することができる。
【0182】
パネル内の領域を、所望の正確度でがんが検出(診断)されるように選択することができる。本明細書で使用される場合、「正確度」という用語は、疾患状態(例えば、がん)と健康を識別するための検査の能力を指し得る。正確度は、感度および特異度、的中率、尤度比、ROC曲線下面積、ヨーデン指標および/または診断オッズ比などの尺度を使用して数量化することができる。
【0183】
正確度は、正しい結果をもたらす検査の数と実施される検査の総数の比を指すパーセンテージとして提示することができる。パネル内の領域を、少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の正確度でがんが検出されるように選択することができる。パネル内の領域を、100%の正確度でがんが検出されるように選択することができる。
【0184】
パネルを、感度が高く、低頻度の遺伝子変異体が検出されるように選択することができる。例えば、パネルを、試料中に0.01%、0.05%、または0.001%ほどの低さの頻度で存在する遺伝子変異体または腫瘍マーカーを少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で検出することができるように選択することができる。パネル内の領域を、試料中に1%またはそれ未満の頻度で存在する腫瘍マーカーが70%またはそれよりも大きな感度で検出されるように選択することができる。パネルを、試料中の頻度が0.1%ほどの低さの腫瘍マーカーが少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で検出されるように選択することができる。パネルを、試料中の頻度が0.01%ほどの低さの腫瘍マーカーが少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で検出されるように選択することができる。パネルを、試料中の頻度が0.001%ほどの低さの腫瘍マーカーが少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の感度で検出されるように選択することができる。
【0185】
パネルを、特異度が高く、低頻度の遺伝子変異体が検出されるように選択することができる。例えば、パネルを、試料中に0.01%、0.05%、または0.001%ほどの低さの頻度で存在する遺伝子変異体または腫瘍マーカーを少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で検出することができるように選択することができる。パネル内の領域を、試料中に1%またはそれ未満の頻度で存在する腫瘍マーカーが70%またはそれよりも大きな特異度で検出されるように選択することができる。パネルを、試料中の頻度が0.1%ほどの低さの腫瘍マーカーが少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で検出されるように選択することができる。パネルを、試料中の頻度が0.01%ほどの低さの腫瘍マーカーが少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で検出されるように選択することができる。パネルを、試料中の頻度が0.001%ほどの低さの腫瘍マーカーが少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の特異度で検出されるように選択することができる。
【0186】
パネルを、正確度が高く、低頻度の遺伝子変異体が検出されるように選択することができる。パネルを、試料中に0.01%、0.05%、または0.001%ほどの低さの頻度で存在する遺伝子変異体または腫瘍マーカーを少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の正確度で検出することができるように選択することができる。パネル内の領域を、試料中に1%またはそれ未満の頻度で存在する腫瘍マーカーが70%またはそれよりも大きな正確度で検出されるように選択することができる。パネルを、試料中の頻度が0.1%ほどの低さの腫瘍マーカーが少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の正確度で検出されるように選択することができる。パネルを、試料中の頻度が0.01%ほどの低さの腫瘍マーカーが少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の正確度で検出されるように選択することができる。パネルを、試料中の頻度が0.001%ほどの低さの腫瘍マーカーが少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%の正確度で検出されるように選択することができる。
【0187】
パネルを、高度に予測的であり、低頻度の遺伝子変異体が検出されるように選択することができる。パネルを、試料中に0.01%、0.05%、または0.001%ほどの低さの頻度で存在する遺伝子変異体または腫瘍マーカーの陽性的中率が少なくとも70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.5%、または99.9%になるように選択することができる。
【0188】
パネルに使用されるプローブまたはベイトの濃度を上昇させて(2~6ng/μL)、試料中のより多くの核酸分子を捕捉することができる。パネルに使用されるプローブまたはベイトの濃度は、少なくとも2ng/μL、3ng/μL、4ng/μL、5ng/μL、6ng/μL、またはそれよりも大きな濃度であり得る。プローブの濃度は、約2ng/μL~約3ng/μL、約2ng/μL~約4ng/μL、約2ng/μL~約5ng/μL、約2ng/μL~約6ng/μLであり得る。パネルに使用されるプローブまたはベイトの濃度は、2ng/μLまたはそれよりも大きな濃度~6ng/μLまたはそれ未満の濃度であり得る。一部の例では、これにより、生物学的製剤中のより多くの分子を分析し、それにより、より低い頻度の対立遺伝子を検出できるようにすることが可能になり得る。
シーケンシングの深さ
【0189】
試料中の低頻度の遺伝子変異体を検出するために、cfDNA分子の試料から富化させたDNAについて種々のリードの深さでシーケンシングを行うことができる。所与の位置について、リードの深さは、ある位置にマッピングされる、元の分子および元の分子を増幅することによって生成する分子を含めた試料由来の全ての分子からの全リードの数を指し得る。したがって、例えば、リードの深さ50,000リードは、分子当たり10リードで5,000分子からのリードの数を指し得る。ある位置にマッピングされる元の分子は固有であり、非冗長性であり得る(例えば、増幅されなかった、試料cfDNA)。
【0190】
所与の位置における試料分子のリードの深さを評価するために、試料分子を追跡することができる。分子追跡技法は、試料中のDNA分子を固有に識別するためにバーコードをタグ付けすることなどの、DNA分子を標識するための種々の技法を含み得る。例えば、1つまたは複数の固有のバーコード配列を試料cfDNA分子の1つまたは複数の末端に付着させることができる。所与の位置におけるリードの深さの決定において、その位置にマッピングされるバーコードがタグ付けされた別個のcfDNA分子の数により、その位置におけるリードの深さが示され得る。別の例では、8つのバーコード配列のうちの1つを用い、試料cfDNA分子の両末端にタグ付けすることができる。所与の位置におけるリードの深さは、例えば、増幅からの冗長性であるリードをコラプス(collapse)し、バーコードタグおよび内在性配列情報に基づいて固有の分子を識別することにより所与の位置における元のcfDNA分子の数を数量化することによって決定することができる。
【0191】
1塩基当たり少なくとも3,000リード、1塩基当たり少なくとも4,000リード、1塩基当たり少なくとも5,000リード、1塩基当たり少なくとも6,000リード、1塩基当たり少なくとも7,000リード、1塩基当たり少なくとも8,000リード、1塩基当たり少なくとも9,000リード、1塩基当たり少なくとも10,000リード、1塩基当たり少なくとも15,000リード、1塩基当たり少なくとも20,000リード、1塩基当たり少なくとも25,000リード、1塩基当たり少なくとも30,000リード、1塩基当たり少なくとも40,000リード、1塩基当たり少なくとも50,000リード、1塩基当たり少なくとも60,000リード、1塩基当たり少なくとも70,000リード、1塩基当たり少なくとも80,000リード、1塩基当たり少なくとも90,000リード、1塩基当たり少なくとも100,000リード、1塩基当たり少なくとも110,000リード、1塩基当たり少なくとも120,000リード、1塩基当たり少なくとも130,000リード、1塩基当たり少なくとも140,000リード、1塩基当たり少なくとも150,000リード、1塩基当たり少なくとも160,000リード、1塩基当たり少なくとも170,000リード、1塩基当たり少なくとも180,000リード、1塩基当たり少なくとも190,000リード、1塩基当たり少なくとも200,000リード、1塩基当たり少なくとも250,000リード、1塩基当たり少なくとも500,000リード、1塩基当たり少なくとも1,000,000リード、または1塩基当たり少なくとも2,000,000リードであるリードの深さまでDNAのシーケンシングを行うことができる。1塩基当たり約3,000リード、1塩基当たり約4,000リード、1塩基当たり約5,000リード、1塩基当たり約6,000リード、1塩基当たり約7,000リード、1塩基当たり約8,000リード、1塩基当たり約9,000リード、1塩基当たり約10,000リード、1塩基当たり約15,000リード、1塩基当たり約20,000リード、1塩基当たり約25,000リード、1塩基当たり約30,000リード、1塩基当たり約40,000リード、1塩基当たり約50,000リード、1塩基当たり約60,000リード、1塩基当たり約70,000リード、1塩基当たり約80,000リード、1塩基当たり約90,000リード、1塩基当たり約100,000リード、1塩基当たり約110,000リード、1塩基当たり約120,000リード、1塩基当たり約130,000リード、1塩基当たり約140,000リード、1塩基当たり約150,000リード、1塩基当たり約160,000リード、1塩基当たり約170,000リード、1塩基当たり約180,000リード、1塩基当たり約190,000リード、1塩基当たり約200,000リード、1塩基当たり約250,000リード、1塩基当たり約500,000リード、1塩基当たり約1,000,000リード、または1塩基当たり約2,000,000リードであるリードの深さまでDNAのシーケンシングを行うことができる。1塩基当たり約10,000から約30,000リードまで、1塩基当たり10,000から約50,000リードまで、1塩基当たり10,000から約5,000,000リードまで、1塩基当たり50,000から約3,000,000リードまで、1塩基当たり100,000から約2,000,000リードまで、または1塩基当たり約500,000から約1,000,000リードまでのリードの深さまでDNAのシーケンシングを行うことができる。一部の実施形態では、70,000塩基未満、65,000塩基未満、60,000塩基未満、55,000塩基未満、50,000塩基未満、45,000塩基未満、40,000塩基未満、35,000塩基未満、30,000塩基未満、25,000塩基未満、20,000塩基未満、15,000塩基未満、10,000塩基未満、5,000塩基未満、および1,000塩基未満から選択されるパネルサイズで上記のリードの深さのいずれかまで、DNAのシーケンシングを行うことができる。例えば、パネルに対するリードの総数は、600,000(1,000塩基に対して1塩基当たり3,000リード)ほどの低さおよび1.4×1011(70,000塩基に対して1塩基当たり2,000,000リード)ほどの高さであり得る。一部の実施形態では、5,000塩基~70,000塩基、5,000塩基~60,000塩基、10,000塩基~70,000塩基、または10,000塩基~70,000塩基から選択されるパネルサイズで上記のリードの深さのいずれかまで、DNAのシーケンシングを行うことができる。
【0192】
リードカバレッジは、核酸分子の一方の鎖または両方の鎖からのリードを含み得る。例えば、リードカバレッジは、パネルの各ヌクレオチドにマッピングされた、少なくとも5,000、少なくとも10,000、少なくとも15,000、少なくとも20,000、少なくとも25,000、少なくとも30,000、少なくとも35,000、少なくとも40,000、少なくとも45,000、または少なくとも50,000の試料由来DNA分子の両方の鎖からのリードを含み得る。
【0193】
パネルを、固定量の塩基リードがもたらされる所望のリードの深さに最適化されるように選択することができる。
タグ付け
【0194】
本開示の一部の実施形態では、シーケンシング前に核酸ライブラリーを調製する。例えば、ゲノム核酸試料(例えば、ゲノムDNA試料)中の個々のポリヌクレオチド断片を、非固有識別子でタグ付けすること、例えば、個々のポリヌクレオチド断片を非固有にタグ付けすることによって固有に識別することができる。一部の実施形態では、核酸分子に、互いに関して非固有にタグ付けする。
【0195】
本明細書に開示されるポリヌクレオチドにタグ付けすることができる。例えば、二本鎖ポリヌクレオチドに、二本鎖分子の相補鎖(すなわち、「ワトソン」鎖および「クリック」鎖)を違うように標識するタグである二重タグを用いてタグ付けすることができる。一部の場合では、二重タグは、相補部分および非相補部分を有するポリヌクレオチドである。
【0196】
タグは、これだけに限定されないが、核酸、化学化合物、蛍光プローブ、または放射性プローブを含めた、ポリヌクレオチドに付着する任意の型の分子であってよい。タグは、オリゴヌクレオチド(例えば、DNAまたはRNA)であってもよい。タグは、既知配列、未知配列、またはその両方を含み得る。タグは、ランダム配列、所定の配列、またはその両方を含み得る。タグは、二本鎖であっても一本鎖であってもよい。二本鎖タグは、二重タグであってよい。二本鎖タグは、2つの相補鎖を含み得る。あるいは、二本鎖タグは、ハイブリダイズ部分および非ハイブリダイズ部分を含み得る。二本鎖タグは、Y形であり得、例えば、ハイブリダイズ部分がタグの一方の末端にあり、非ハイブリダイズ部分がタグの逆の末端にある。そのような例の1つは、Illuminaシーケンシングにおいて使用される「Yアダプター」である。他の例としては、ヘアピン形状アダプターまたは気泡形状アダプターが挙げられる。気泡形状アダプターは、相補配列が両面に隣接する非相補配列を有する。一部の実施形態では、Y形アダプターは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、または32ヌクレオチドの長さのバーコードを含む。一部の組合せでは。これを平滑末端修復およびライゲーションと組み合わせることができる。
【0197】
異なるタグの数は、試料中の分子の推定されるまたは所定の数よりも多くてよい。例えば、固有タグ付けに関しては、試料中の分子の推定されるまたは所定の数よりも少なくとも2倍多くの異なるタグを使用することができる。
【0198】
集合内の分子にタグ付けするために使用される異なる識別用タグの数は、例えば、範囲の下端2個、3個、4個、5個、6個、7個、8個、9個、10個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、43個、44個、45個、46個、47個、48個、または49個のいずれかから、範囲の上端50個、100個、500個、1000個、5000個および10,000個のいずれかまでの範囲であり得る。集合内の分子にタグ付けするために使用される識別用タグの数は、少なくとも2個、3個、4個、5個、6個、7個、8個、9個、10個、15個、20個、25個、30個、35個、40個、45個、50個、55個、60個またはそれよりも多くであり得る。したがって、例えば、1000億個から1兆個までの分子の集合に、4個から100個までの異なる識別用タグを用いてタグ付けすることができる。1000億個から1兆個までの分子の集合に、8個から10,000個までの異なる識別用タグを用いてタグ付けすることができる。1000億個から1兆個までの分子の集合に、16個から10,000個までの異なる識別用タグを用いてタグ付けすることができる。1000億個から1兆個までの分子の集合に、16個から5,000個までの異なる識別用タグを用いてタグ付けすることができる。1000億個から1兆個までの分子の集合に、16個から1,000個までの異なる識別用タグを用いてタグ付けすることができる。
【0199】
分子の集合は、集合内に分子がタグよりも多く存在する場合、「非固有にタグ付けされた」とみなすことができる。分子の集合は、集合内の分子の少なくとも1%、少なくとも5%、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、少なくとも45%、または少なくともまたは約50%のそれぞれが集合内の少なくとも1つの他の分子に共有される識別用タグ(「非固有タグ」または「非固有識別子」)を有する場合、非固有にタグ付けされたとみなすことができる。識別子は、単一のバーコードまたは2種のバーコードを含み得る。集団内の核酸分子の総数よりも少ないタグを用いて核酸分子をタグ付けすることにより、核酸分子の集団を非固有にタグ付けすることができる。集団に非固有にタグ付けするためには、分子の1%以下、5%以下、10%以下、15%以下、20%以下、25%以下、30%以下、35%以下、40%以下、45%以下、または50%以下に、固有にタグ付けすることができる。一部の実施形態では、核酸分子を非固有タグと配列リードからの開始および終止位置または配列の組合せによって識別する。一部の実施形態では、シーケンシングされる核酸分子の数は、識別子と開始および終止位置または配列の組合せの数よりも少ないまたはそれと等しい。
【0200】
一部の例では、本発明のタグは、分子バーコードを含む。そのような分子バーコードを使用して、試料中のポリヌクレオチドを弁別することができる。分子バーコードは、互いに異なるものであり得る。例えば、分子バーコードは、それらの間に、所定の編集距離またはハミング距離によって特徴付けることができる差異を有し得る。一部の例では、本発明の分子バーコードは、最小編集距離が1、2、3、4、5、6、7、8、9、または10である。タグ付けされていない分子からタグ付けした分子への変換(例えば、タグ付け)の効率をさらに改善するために、短いタグを利用する。例えば、ライブラリーアダプタータグは、65ヌクレオチド塩基まで、60ヌクレオチド塩基まで、55ヌクレオチド塩基まで、50ヌクレオチド塩基まで、45ヌクレオチド塩基まで、40ヌクレオチド塩基まで、または35ヌクレオチド塩基までの長さであってよい。そのような短いライブラリーバーコードの集合は、いくつもの異なる分子バーコード、例えば、最小編集距離が1、2、3またはそれよりも大きい、少なくとも2種、4種、6種、8種、10種、12種、14種、16種、18種または20種の異なるバーコードを含み得る。
【0201】
したがって、分子の集合は、1つまたは複数のタグを含み得る。一部の例では、集合内の一部の分子は、集合内の他の分子のいずれにも共有されない分子バーコードなどの識別用タグ(「識別子」)を有し得る。例えば、分子の集合の一部の例では、集合内の分子の100%または少なくとも50%、60%、70%、80%、90%、95%、97%、98%、または99%は、集合内の他の分子のいずれにも共有されない識別子または分子バーコードを含み得る。本明細書で使用される場合、分子の集合は、集合内の分子の少なくとも95%のそれぞれが、集合内の他の分子のいずれにも共有されない識別子(「固有タグ」または「固有の識別子」)を有する場合、「固有にタグ付けされた」とみなされる。一部の実施形態では、核酸分子は、互いに対して固有にタグ付けされる。分子の集合は、集合内の分子の少なくとも1%、5%、10%、15%、20%、25%、30%、35%、40%、45%、または50%のそれぞれが、集合内の少なくとも1つの他の分子に共有される識別用タグまたは分子バーコード(「非固有タグ」または「非固有識別子」)を有する場合、「非固有にタグ付けされた」とみなされる。一部の実施形態では、核酸分子は、互いに対して非固有にタグ付けされる。したがって、非固有にタグ付けされた集団では、分子の1%以下が固有にタグ付けされる。例えば、非固有にタグ付けされた集団では、分子の1%以下、5%以下、10%以下、15%以下、20%以下、25%以下、30%以下、35%以下、40%以下、45%以下、または50%以下に、固有にタグ付けすることができる。
【0202】
試料中の推定される分子の数に基づいて、いくつもの異なるタグを使用することができる。一部のタグ付け方法では、異なるタグの数は、試料中の推定される分子の数と少なくとも同じであってよい。他のタグ付け方法では、異なるタグの数は、試料中の推定される分子の数の少なくとも2倍、3倍、4倍、5倍、6倍、7倍、8倍、9倍、10倍、100倍または1,000倍であってよい。固有タグ付けでは、試料中の推定される分子の数の少なくとも2倍(またはそれよりも多く)の異なるタグを使用することができる。
【0203】
ポリヌクレオチド断片(タグ付け前)は、任意の長さの配列を含み得る。例えば、ポリヌクレオチド断片(タグ付け前)は、少なくとも50、55、60、65、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、205、210、215、220、225、230、235、240、245、250、255、260、265、270、275、280、285、290、295、300、400、500、600、700、800、900、1000、1100、1200、1300、1400、1500、1600、1700、1800、1900、2000またはそれよりも多くのヌクレオチドの長さを含み得る。ポリヌクレオチド断片は、およそ無細胞DNAの平均長であってよい。例えば、ポリヌクレオチド断片は、約160塩基の長さを含み得る。ポリヌクレオチド断片は、より大きな断片から約160塩基の長さのより小さな断片に断片化することもできる。
【0204】
二重または同類のポリヌクレオチドの少なくとも一部が互いに対して固有の識別子を有する、すなわち、異なるタグを有する限りはシーケンシングの改善を実現することができる。しかし、ある特定の実施形態では、使用するタグの数を、任意の1つの位置で開始する全ての二重分子が固有の識別子を有する見込みが少なくとも95%になるように選択する。例えば、約10,000一倍体ヒトゲノム当量の断片化されたゲノムDNA、例えば、cfDNAを含む試料では、zは2から8の間になることが予測される。そのような集団に、約10種から100種の間の異なる識別子、例えば、約2種の識別子、約4種の識別子、約9種の識別子、約16種の識別子、約25種の識別子、約36種の異なる識別子、約49種の異なる識別子、約64種の異なる識別子、約81種の異なる識別子、または約100種の異なる識別子を用いてタグ付けすることができる。
【0205】
分子バーコードを含めた識別可能な配列を有する核酸バーコードをタグ付けのために使用することができる。例えば、複数のDNAバーコードは、種々の数の、ヌクレオチドの配列を含み得る。2種、3種、4種、5種、6種、7種、8種、9種、10種、11種、12種、13種、14種、15種、16種、17種、18種、19種、20種、21種、22種、23種、24種、25種、26種、27種、28種、29種、30種またはそれよりも多くの識別可能なヌクレオチドの配列を有する複数のDNAバーコードを使用することができる。ポリヌクレオチドの一方の末端のみに付着させる場合、複数のDNAバーコードにより、2種、3種、4種、5種、6種、7種、8種、9種、10種、11種、12種、13種、14種、15種、16種、17種、18種、19種、20種、21種、22種、23種、24種、25種、26種、27種、28種、29種、30種またはそれよりも多くの異なる識別子をもたらすことができる。あるいは、ポリヌクレオチドの両末端に付着させる場合、複数のDNAバーコードにより、4種、9種、16種、25種、36種、49種、64種、81種、100種、121種、144種、169種、196種、225種、256種、289種、324種、361種、400種またはそれよりも多くの異なる識別子をもたらすことができる(ポリヌクレオチドの一方の末端のみにDNAバーコードを付着させる場合の2)。一例では、6種、7種、8種、9種または10種の識別可能なヌクレオチドの配列を有する複数のDNAバーコードを使用することができる。ポリヌクレオチドの両末端に付着させる場合、それぞれ36種、49種、64種、81種または100種の可能な異なる識別子がもたらされる。特定の例では、複数のDNAバーコードは、8種の識別可能なヌクレオチドの配列を含み得る。ポリヌクレオチドの一方の末端のみに付着させる場合、複数のDNAバーコードにより、8種の異なる識別子をもたらすことができる。あるいは、ポリヌクレオチドの両末端に付着させる場合、複数のDNAバーコードにより、64種の異なる識別子をもたらすことができる。そのようにタグ付けされた試料は、約10ngから約200ng、約1μg、約10μgのいずれかまでの範囲の断片化されたポリヌクレオチド、例えば、ゲノムDNA、例えば、cfDNAを有するものになり得る。
【0206】
ポリヌクレオチドを種々のやり方で固有に識別することができる。ポリヌクレオチドを固有のバーコードによって固有に識別することができる。例えば、試料中の任意の2つのポリヌクレオチドに2つの異なるバーコードを付着させる。バーコードは、DNAバーコードまたはRNAバーコードであってよい。例えば、バーコードは、DNAバーコードであってよい。
【0207】
あるいは、ポリヌクレオチドを、バーコードとポリヌクレオチドの1つまたは複数の内在性配列の組合せによって固有に識別することができる。バーコードは非固有タグであっても固有タグであってもよい。一部の場合では、バーコードは、非固有タグである。例えば、試料中の任意の2つのポリヌクレオチドに同じバーコードで構成されるバーコードを付着させることができるが、それでも異なる内在性配列によって2つのポリヌクレオチドを識別することができる。2つのポリヌクレオチドを、異なる内在性配列内の情報によって識別することができる。そのような情報としては、内在性配列またはその一部分の配列、内在性配列の長さ、内在性配列の場所、内在性配列の1つまたは複数のエピジェネティック修飾、または内在性配列の任意の他の特徴が挙げられる。一部の実施形態では、ポリヌクレオチドを、識別子(1種のバーコードを含むまたは2種のバーコードを含む)を配列リードからの開始配列および終止配列と組み合わせることによって識別することができる。
【0208】
非固有タグと内在性配列情報の組合せを使用して、核酸分子を明確に検出することができる。例えば、試料由来の非固有にタグ付けされた核酸分子(「親ポリヌクレオチド」)を増幅させて、後代ポリヌクレオチドを生成することができる。次いで、親ポリヌクレオチドおよび後代ポリヌクレオチドのシーケンシングを行って、配列リードを生じさせることができる。エラーを減少させるために、配列リードをコラプスして、コンセンサス配列のセットを生成する。コンセンサス配列を生成するために、配列リードを、配列リードの最初の領域の配列情報、配列リードの末端領域の配列情報、および配列リードの長さを含めた、非固有タグ内の配列情報および内在性配列情報に基づいてコラプスすることができる。一部の実施形態では、コンセンサス配列を、ローリングサークルで同じ核酸鎖を多数回シーケンシングしてコンセンサス配列を得る、循環シーケンシングによって生成する。コンセンサス配列は、分子ごとに決定することもでき(塩基のひと続きにわたってコンセンサス配列を決定する)、塩基ごとに決定することもできる(所与の位置の塩基についてコンセンサスヌクレオチドを決定する)。一部の実施形態では、増幅およびシーケンシングエラープロファイルをモデル化するために確率的モデルを構築し、分子の各位置における真のヌクレオチドの確率を推定するために使用する。一部の実施形態では、確率的モデルパラメータ推定値を、個々の試料または一緒に処理される試料のバッチまたは試料の参照セットにおいて観察されるエラープロファイルに基づいて更新する。一部の実施形態では、コンセンサス配列を、対象由来の個々のcfNA(例えば、cfDNA)分子のタグとなるバーコードを使用して決定する。
【0209】
内在性配列は、ポリヌクレオチドの末端にあってよい。例えば、内在性配列は、付着させたバーコードに隣接していてよい(例えば、間の塩基)。一部の例では、内在性配列は、少なくとも2塩基、4塩基、6塩基、8塩基、10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、または100塩基の長さであってよい。内在性配列は、分析される断片/ポリヌクレオチドの末端配列であってよい。内在性配列は、配列の長さであってよい。例えば、8種の異なるバーコードを含む複数のバーコードを試料中の各ポリヌクレオチドの両末端に付着させることができる。試料中の各ポリヌクレオチドは、バーコードとポリヌクレオチドの末端の約10塩基対の内在性配列の組合せによって識別することができる。理論に束縛されることなく、ポリヌクレオチドの内在性配列は、ポリヌクレオチド配列全体の場合もある。
【0210】
タグ付けされたポリヌクレオチドの組成物も本明細書に開示される。タグ付けされたポリヌクレオチドは、一本鎖であり得る。あるいは、タグ付けされたポリヌクレオチドは、二本鎖(例えば、二重タグ付けされたポリヌクレオチド)であり得る。したがって、本開示は、二重タグ付けされたポリヌクレオチドの組成物も提供する。ポリヌクレオチドは、任意の型の核酸(DNAおよび/またはRNA)を含み得る。ポリヌクレオチドは、本明細書に開示される任意の型のDNAを含む。例えば、ポリヌクレオチドは、DNA、例えば、断片化されたDNAまたはcfDNAを含み得る。ゲノム内のマッピング可能な塩基位置にマッピングされる組成物中のポリヌクレオチドのセットに非固有にタグ付けすることができる、すなわち、異なる識別子の数は少なくとも2、かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数よりも少ないものであってよい。異なる識別子の数は、少なくとも3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数よりも少ないものであってもよい。
【0211】
一部の例では、組成物が約1ngから約10μgまたはそれよりも多くまでになるにしたがい、異なる分子バーコードのより大きなセットを使用することができる。例えば、5種から100種の間の異なるライブラリーアダプターを使用して、cfDNA試料中のポリヌクレオチドにタグ付けすることができる。
【0212】
分子バーコードを本開示に開示されている任意の型のポリヌクレオチドに割り当てることができる。例えば、分子バーコードを無細胞ポリヌクレオチド(例えば、cfDNA)に割り当てることができる。多くの場合、本明細書に開示される識別子は、ポリヌクレオチドへのタグ付けに使用されるバーコードオリゴヌクレオチドであってよい。バーコード識別子は、核酸オリゴヌクレオチド(例えば、DNAオリゴヌクレオチド)であってよい。バーコード識別子は、一本鎖であってよい。あるいは、バーコード識別子は、二本鎖であってよい。バーコード識別子は、本明細書に開示される任意の方法を使用してポリヌクレオチドに付着させることができる。例えば、バーコード識別子は、ポリヌクレオチドに酵素を使用したライゲーションによって付着させることができる。バーコード識別子は、PCRによってポリヌクレオチドに組み入れることもできる。他の場合では、反応は、分析物に直接、または同位元素で標識されたプローブによってのいずれかで金属同位元素を付加することを含み得る。一般に、本開示の反応における固有または非固有識別子または分子バーコードの割り当ては、例えば、そのそれぞれが完全に参照により本明細書に組み込まれる、米国特許出願第2001/0053519号、第2003/0152490号、第2011/0160078号および米国特許第6,582,908号に記載されている方法およびシステムに従うことができる。
【0213】
本明細書で使用される識別子または分子バーコードは、完全に内在性であってよく、それにより、個々の断片の環状ライゲーションを実施し、その後、ランダムなせん断または標的化増幅を行うことができる。この場合、分子の新しい開始点および終止点と元の分子内ライゲーション点の組合せにより、特異的な識別子を形成することができる。
【0214】
本明細書で使用される識別子または分子バーコードは、任意の型のオリゴヌクレオチドを含み得る。一部の場合では、識別子は、所定の、ランダムな、またはセミランダムな配列のオリゴヌクレオチドであってよい。識別子は、バーコードであってよい。例えば、複数のバーコードを、バーコードが複数の中で必ずしも互いに固有ではなくなるように使用することができる。あるいは、複数のバーコードを、各バーコードが複数の中の任意の他のバーコードに対して固有になるように使用することができる。バーコードは、個別に追跡することができる特定の配列(例えば、所定の配列)を含み得る。さらに、バーコードを、バーコードと配列の組合せをライゲーションして、個別に追跡することができる特定の配列を創出することができるように個々の分子に付着させることができる(例えば、ライゲーションによって)。本明細書に記載の通り、バーコードの検出と配列リードの最初の(開始)および/または最後の(終止)位置の配列データの組合せにより、固有の同一性を特定の分子に割り当てることが可能になり得る。個々の配列リードの塩基対の長さまたは数を使用して固有の同一性をそのような分子に割り当てることもできる。本明細書に記載の通り、その結果、固有の同一性が割り当てられた核酸の一本鎖由来の断片により、その後の、親鎖由来の断片の識別が可能になる。このように、試料中のポリヌクレオチドに固有にまたは実質的に固有にタグ付けすることができる。二重タグは、縮重または半縮重ヌクレオチド配列、例えば、ランダム縮重配列を含んでよい。ヌクレオチド配列は、任意の数のヌクレオチドを含んでよい。例えば、ヌクレオチド配列は、1個(非天然ヌクレオチドを使用する場合)、2個、3個、4個、5個、6個、7個、8個、9個、10個、11個、12個、13個、14個、15個、16個、17個、18個、19個、20個、21個、22個、23個、24個、25個、26個、27個、28個、29個、30個、31個、32個、33個、34個、35個、36個、37個、38個、39個、40個、41個、42個、43個、44個、45個、46個、47個、48個、49個、50個またはそれよりも多くのヌクレオチドを含んでよい。特定の例では、配列は、7個のヌクレオチドを含んでよい。別の例では、配列は、8個のヌクレオチドを含んでよい。配列は、9個のヌクレオチドを含んでもよい。配列は、10個のヌクレオチドを含んでよい。
【0215】
バーコードは、連続したまたは連続していない配列を含み得る。少なくとも1個、2個、3個、4個、5個またはそれよりも多くのヌクレオチドを含むバーコードは、連続した配列または連続していない配列である。4つのヌクレオチドが他のヌクレオチドのいずれにも遮られていない場合。例えば、バーコードが配列TTGCを含む場合、バーコードがTTGCであれば、バーコードは連続したものである。他方では、バーコードがTTXGC(Xは核酸塩基である)であれば、バーコードは連続していないものである。
【0216】
識別子または分子バーコードは、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50またはそれよりも多くのヌクレオチドの長さであり得るn-merの配列を有し得る。本発明のタグは、任意の範囲のヌクレオチドの長さを含み得る。例えば、配列は、2~100ヌクレオチド、10~90ヌクレオチド、20~80ヌクレオチド、30~70ヌクレオチド、40~60ヌクレオチド、または約50ヌクレオチドの長さであり得る。バーコードの集団は、長さが同じまたは長さが異なるバーコードを含み得る。
【0217】
タグは、識別子または分子バーコードの下流の二本鎖固定参照配列を含み得る。あるいは、タグは、識別子または分子バーコードの上流または下流の二本鎖固定参照配列を含み得る。二本鎖固定参照配列の各鎖は、例えば、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50ヌクレオチドの長さであり得る。
【0218】
本明細書に開示されるタグ付けは、任意の方法を使用して実施することができる。ポリヌクレオチドに、アダプターをハイブリダイゼーションによってタグ付けすることができる。例えば、アダプターは、ポリヌクレオチドの配列の少なくとも一部分と相補的なヌクレオチド配列を有し得る。代替として、ポリヌクレオチドにアダプターをライゲーションによってタグ付けすることができる。
【0219】
バーコードまたはタグは、様々な技法を使用して付着させることができる。付着は、例えば、ライゲーション(平滑末端もしくは粘着末端)またはアニーリング最適化分子反転プローブを含めた方法によって実施することができる。例えば、タグ付けは1つまたは複数の酵素を使用することを含み得る。酵素はリガーゼであってよい。リガーゼはDNAリガーゼであってよい。例えば、DNAリガーゼは、T4 DNAリガーゼ、E.coli
DNAリガーゼ、および/または哺乳動物リガーゼであってよい。哺乳動物リガーゼは、DNAリガーゼI、DNAリガーゼIII、またはDNAリガーゼIVであってよい。リガーゼは、熱安定性リガーゼも含み得る。タグをポリヌクレオチドの平滑末端にライゲーションすることができる(平滑末端ライゲーション)。あるいは、タグをポリヌクレオチドの粘着末端にライゲーションすることができる(粘着末端ライゲーション)。種々の条件を最適化することによってライゲーションの効率を上昇させることができる。ライゲーションの反応時間を最適化することによってライゲーションの効率を上昇させることができる。例えば、ライゲーションの反応時間は、1時間未満、2時間未満、3時間未満、4時間未満、5時間未満、6時間未満、7時間未満、8時間未満、9時間未満、10時間未満、11時間未満、12時間未満、13時間未満、14時間未満、15時間未満、16時間未満、17時間未満、18時間未満、19時間未満、または20時間未満であり得る。特定の例では、ライゲーションの反応時間は、20時間未満である。反応におけるリガーゼ濃度を最適化することによってライゲーションの効率を上昇させることができる。例えば、リガーゼ濃度は、少なくとも10、50、100、150、200、250、300、400、500、または600単位/マイクロリットルであってよい。ライゲーションに適した酵素、酵素補助因子もしくは他の添加剤を添加するもしくはその濃度を変動させること、および/または酵素を有する溶液の温度を最適化することによって効率を最適化することもできる。反応の種々の成分を添加する順序を変動させることによって効率を最適化することもできる。ライゲーション効率を上昇させるためにタグ配列の末端にジヌクレオチドを含めることができる。タグが非相補部分(例えば、Y形アダプター)を含む場合、タグアダプターの相補部分の配列は、ライゲーション効率を促進する1つまたは複数の選択された配列を含み得る。そのような配列は、タグの末端に位置する。そのような配列は、1つ、2つ、3つ、4つ、5つ、または6つの末端塩基を含み得る。粘度が高い(例えば、レイノルズ数が低い)反応溶液を使用してライゲーション効率を上昇させることもできる。例えば、溶液のレイノルズ数は、3000未満、2000未満、1000未満、900未満、800未満、700未満、600未満、500未満、400未満、300未満、200未満、100未満、50未満、25未満、または10未満であってよい。大まかに統合された断片の分布(例えば、厳密な標準偏差)を使用してライゲーション効率を上昇させることができることも意図されている。例えば、断片サイズの変動は、20%未満、15%未満、10%未満、5%未満、または1%未満だけ変動し得る。タグ付けは、例えばポリメラーゼ連鎖反応(PCR)によるプライマー伸長も含み得る。タグ付けは、ライゲーションに基づくPCR、多重PCR、一本鎖ライゲーション、または一本鎖環状化も含み得る。タグ付け(例えば、ライゲーションによるもの)の効率を、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、少なくとも90%、少なくとも95%、または少なくとも98%である分子のタグ付けの効率(変換効率)に上昇させることができる。
【0220】
試料中の親ポリヌクレオチドをy種の異なるバーコードオリゴヌクレオチド(y=nの平方根)を含む反応混合物と混和するライゲーション反応を実施することができる。ライゲーションにより、試料中の親ポリヌクレオチドへのバーコードオリゴヌクレオチドのランダムな付着がもたらされる。次いで、反応混合物を、試料の親ポリヌクレオチドへのバーコードオリゴヌクレオチドのライゲーションをもたらすために十分なライゲーション条件下でインキュベートすることができる。一部の実施形態では、y種の異なるバーコードオリゴヌクレオチドから選択されたランダムなバーコードを親ポリヌクレオチドの両末端にライゲーションする。親ポリヌクレオチドの一方の末端または両方の末端へのy種のバーコードのランダムなライゲーションにより、y2種の固有の識別子がもたらされる。例えば、約10,000一倍体ヒトゲノム当量のcfDNAを含む試料に約36種の固有の識別子を用いてタグ付けすることができる。固有の識別子は、6種の固有のDNAバーコードを含み得る。ポリヌクレオチドの両末端への6種の固有のバーコードのライゲーションにより、36種の可能性のある固有の識別子が生じ得る。
【0221】
一部の実施形態では、約10,000一倍体ヒトゲノム当量のDNAを含む試料に、固有のバーコードのセットを親ポリヌクレオチドの両末端にライゲーションすることによって生じたいくつもの固有の識別子をタグ付けする。例えば、8種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、64種の固有の識別子を生じさせることができる。同様に、10種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、100種の固有の識別子を生じさせることができる、15種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、225種の固有の識別子を生じさせることができる、20種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、400種の固有の識別子を生じさせることができる、25種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、625種の固有の識別子を生じさせることができる、30種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、900種の固有の識別子を生じさせることができる、35種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、1225種の固有の識別子を生じさせることができる、40種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、1600種の固有の識別子を生じさせることができる、45種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、2025種の固有の識別子を生じさせることができる、および50種の固有のバーコードを親ポリヌクレオチドの両末端にライゲーションすることにより、2500種の固有の識別子を生じさせることができる。反応のライゲーション効率は、10%を超え得る、20%を超え得る、30%を超え得る、40%を超え得る、50%を超え得る、60%を超え得る、70%を超え得る、80%を超え得る、または90%を超え得る。ライゲーション条件は、断片のいずれかの末端に結合することができ、なお増幅可能である双方向アダプターの使用を含み得る。ライゲーション条件は、少なくとも1ヌクレオチド塩基の突出部をそれぞれが有する粘着末端ライゲーションアダプターを含み得る。一部の例では、ライゲーション条件は、ライゲーション効率を上昇させるために異なる塩基突出部を有するアダプターを含み得る。非限定的な例として、ライゲーション条件は、一塩基シトシン(C)突出部(すなわち、C尾部アダプター)、一塩基チミン(T)突出部(T尾部アダプター)、一塩基アデニン(A)突出部(A尾部アダプター)、および/または一塩基グアニン(G)突出部(G尾部アダプター)を有するアダプターを含み得る。ライゲーション条件は、尾部付加とは対照的に、平滑末端ライゲーションを含み得る。ライゲーション条件はアダプターおよび/またはバーコードオリゴヌクレオチドの量の慎重な設定を含み得る。ライゲーション条件は、反応混合物中の親ポリヌクレオチド断片の量と比較して2×を超える、5×を超える、10×を超える、20×を超える、40×を超える、60×を超える、80×を超える(例えば、約100×)モル過剰のアダプターおよび/またはバーコードオリゴヌクレオチドの使用を含み得る。ライゲーション条件は、T4 DNAリガーゼ(例えば、NEBNExt Ultra Ligation Module)の使用を含み得る。ある例では、リガーゼマスターミックス18マイクロリットルをライゲーション90マイクロリットル(90のうちの18部分)およびライゲーションエンハンサーと共に使用する。したがって、親ポリヌクレオチドにn種の固有の識別子を用いてタグ付けすることは、数yの異なるバーコードの使用を含み得る(y=nの平方根)。そのようにタグ付けされた試料は、約10ng~約100ng、約200ng、約300ng、約400ng、約500ng、約1μg、または約10μgのいずれかの範囲の断片化されたポリヌクレオチド、例えば、ゲノムDNA、例えば、cfDNAを有するものであり得る。試料中の親ポリヌクレオチドを識別するために使用するバーコードの数yは、試料中の核酸の量に依存する場合がある。
【0222】
変換効率を上昇させる1つの方法は、ThermoPhage一本鎖DNA(ssDNA)リガーゼ誘導体などの一本鎖DNAに対する最適な反応性のために工学的に操作されたリガーゼの使用を伴う。そのようなリガーゼは、中間の浄化ステップに起因する不十分な効率および/または喪失の蓄積を有し得る末端修復およびA尾部付加というライブラリー調製における従来のステップを迂回し、センスまたはアンチセンス開始ポリヌクレオチドのいずれかが適切にタグ付けされたポリヌクレオチドに変換される確率を2倍にすることが可能である。そのようなリガーゼにより、典型的な末端修復反応により十分に平滑末端になっていない突出部を有する二本鎖ポリヌクレオチドも変換される。このssDNA反応のための最適な反応条件は、1×反応緩衝剤(50ミリモル(mM)のMOPS(pH7.5)、1mMのDTT、5mMのMgCl2、10mMのKCl)である。50mMのATP、25mg/mlのBSA、2.5mMのMnCl2、200pmolの85nt ssDNAオリゴマーおよび5UのssDNAリガーゼと共に65℃で1時間インキュベートする。その後のPCRを使用した増幅により、タグ付けされた一本鎖ライブラリーを二本鎖ライブラリーにさらに変換し、20%を優に上回る全体的な変換効率を得ることができる。変換速度を、例えば、10%を上回るまで上昇させる他の方法としては、例えば、単独でまたは組合せで、以下のいずれかが挙げられる:アニーリング最適化分子反転プローブ、十分に制御されたポリヌクレオチドサイズ範囲での平滑末端ライゲーション、高効率ポリメラーゼの選択、融合プライマーの使用を伴うまたは伴わない粘着末端ライゲーションまたは最前線の多重増幅ステップ、標的配列内の末端塩基の最適化、反応条件(反応時間を含む)の最適化、およびライゲーションの間に反応物(例えば、望ましくない核酸断片)を浄化するための1つまたは複数のステップの導入、および緩衝剤条件の温度の最適化。粘着末端ライゲーションは、多数のヌクレオチド突出部を使用して実施することができる。粘着末端ライゲーションは、A、T、C、またはG塩基を含む一塩基突出部を使用して実施することができる。
【0223】
本開示は、タグ付けされたポリヌクレオチドの組成物も提供する。ポリヌクレオチドは、断片化されたDNA、例えば、cfDNAを含み得る。ゲノム内のマッピング可能な塩基位置にマッピングされる組成物中のポリヌクレオチドのセットに非固有にタグ付けすることができる、すなわち、異なる識別子の数は、少なくとも少なくとも2、かつマッピング可能な塩基位置にマッピングされるポリヌクレオチドの数よりも少ないものであり得る。約10ng~約10μg(例えば、約10ng~1μg、約10ng~100ng、約100ng~10μg、約100ng~1μg、約1μg~10μgのいずれか)の組成物は、2種、5種、10種、50種または100種のいずれか~100種、1000種、10,000種または100,000種のいずれかの異なる識別子を有し得る。例えば、5種から100種までの異なる識別子を使用して、そのような組成物中のポリヌクレオチドにタグ付けすることができる。
シーケンシング
【0224】
タグ付けされたポリヌクレオチドのシーケンシングを行って配列リードを生成することができる。例えば、タグ付けされた2重鎖ポリヌクレオチドのシーケンシングを行うことができる。配列リードは、タグ付けされた2重鎖ポリヌクレオチドの一方の鎖のみから生成することができる。あるいは、タグ付けされた2重鎖ポリヌクレオチドの両方の鎖により、配列リードを生成することができる。タグ付けされた2重鎖ポリヌクレオチドの2つの鎖は、同じタグを含み得る。あるいは、タグ付けされた2重鎖ポリヌクレオチドの2つの鎖は、異なるタグを含み得る。タグ付けされた2重鎖ポリヌクレオチドの2つの鎖を違うようにタグ付けし、一方の鎖(例えば、ワトソン鎖)から生成された配列リードと他方の鎖(例えば、クリック鎖)から生成された配列リードを区別することができる。シーケンシングは、各分子について多数の配列リードを生成することを伴い得る。これは、例えば、例えばPCRによるシーケンシングプロセスの間の個々のポリヌクレオチド鎖の増幅の結果として起こる。
【0225】
本明細書に開示される方法は、ポリヌクレオチドを増幅させることを含み得る。増幅は、タグ付けの前、タグ付けの後、またはその両方で実施することができる。ポリヌクレオチド増幅の結果、核酸分子またはプライマーへのヌクレオチドの組み入れをもたらし、それにより、鋳型核酸と相補的な新しい核酸分子を形成することができる。新たに形成されたポリヌクレオチド分子およびその鋳型を、追加的なポリヌクレオチドを合成するための鋳型として使用することができる。増幅されるポリヌクレオチドは、任意の核酸、例えば、ゲノムDNA、cDNA(相補DNA)、cfDNA、および循環腫瘍DNA(ctDNA)を含めたデオキシリボ核酸であってよい。増幅されるポリヌクレオチドは、RNAであってもよい。本明細書で使用される場合、1つの増幅反応は多くのラウンドのDNA複製を含み得る。DNA増幅反応としては、例えば、ポリメラーゼ連鎖反応(PCR)を挙げることができる。1つのPCR反応は、2~100「サイクル」のDNA分子の変性、アニーリング、および合成を含み得る。例えば、増幅ステップの間に2~7、5~10、6~11、7~12、8~13、9~14、10~15、11~16、12~17、13~18、14~19、または15~20サイクルを実施することができる。プライマーを含め、配列のGC含量に基づいてPCRの条件を最適化することができる。増幅プライマーを、目的の標的配列が選択されるように選択することができる。プライマーを、変換効率が最適化されるまたは最大になるように設計することができる。一部の実施形態では、プライマーは、小さな目的の領域を引き出すために、プライマー間に短い配列を含有する。一部の実施形態では、プライマーはヌクレオソーム領域を標的とし、したがって、プライマーは、ヌクレオソーム間の領域とは対照的にヌクレオソームが存在する領域にハイブリダイズし、これは、ヌクレオソーム間の領域がより高度に切断され、したがって、標的として存在する可能性が低いからである。
【0226】
一部の実施形態では、がん細胞、腫瘍微小環境、または免疫系成分(顆粒球、腫瘍浸潤性リンパ球など)においてヌクレオソームおよび他の調節機構によって示差的に保護されるゲノムの領域を標的とする。一部の実施形態では、腫瘍細胞において安定であり、かつ/または示差的に調節されない他の領域を標的とする。これらの領域内で、カバレッジ、切断部位、断片の長さ、配列の内容、断片の終点における配列の内容、または近くのゲノムの状況での配列の内容の差異を使用して、がん細胞のある特定の分類(例えば、EGFR突然変異体、KRAS突然変異体、ERBb2増幅、もしくはPD-1発現がん)、またはがんの型(例えば、肺腺癌、乳房、もしくは結腸直腸がん)が存在するかしないかを推測することができる。そのような標的化により、ある特定の部位におけるカバレッジまたは捕捉の確率を増強することによってアッセイの感度および/または特異度を増強することもできる。これらの原理は、これだけに限定されないが、ライゲーションとそれに加えてハイブリッド捕捉に基づく富化、増幅に基づく富化、配列/ゲノム位置に特異的な開始プライマーを用いたローリングサークルに基づく富化、および他の方法を含めた、標的化の方法に当てはまる。そのような方法およびその後の分析を用いて標的化することができる領域としては、これだけに限定されないが、イントロン領域、エクソン領域、プロモーター領域、TSS領域、遠位調節エレメント、エンハンサー領域、およびスーパーエンハンサー領域および/または前述のものの接合部が挙げられる。これらの方法はまた、腫瘍の起源組織および/または腫瘍量の値を推測するために、試料中に含有される変異体(例えば、生殖系列または体細胞変異体)を決定するための本明細書に記載の他の技法と組み合わせて使用することもできる。例えば、生殖系列変異体により、特定の型のがんに対する素因を決定することができ、一方、体細胞変異体は、特に、影響を受ける遺伝子、経路および変異体のパーセンテージに基づいて、特定の型のがんに相関させることができる。次いで、この情報を、調節機構ならびに/または、例えば、メチル化、ヒドロキシメチル化、アセチル化、および/もしくはRNAなどの化学修飾に関するエピジェネティックなシグネチャーと組み合わせて使用することができる。核酸ライブラリーは、がん、がんの型、特定の疾患において活性化される分子経路、起源組織ならびに腫瘍量に対応する値を検出するための感度および特異度を増強するために、DNA、DNA修飾およびRNAの組合せ分析を伴い得る。上記のそれぞれを分析するための手法は、他の箇所で概説されており、試料を種々の身体検体から得ることができる同じ患者由来の単一または多数の試料の分析と組み合わせることができる。
【0227】
核酸増幅技法を本明細書に記載のアッセイと共に使用することができる。一部の増幅技法は、これだけに限定されないが、溶液PCRおよびin situ PCRを含み得るPCR方法体系である。例えば、増幅は、PCRに基づく増幅を含み得る。あるいは、増幅は、PCRに基づかない増幅を含み得る。鋳型核酸の増幅は、1つまたは複数のポリメラーゼの使用を含み得る。例えば、ポリメラーゼは、DNAポリメラーゼまたはRNAポリメラーゼであり得る。一部の場合では、例えば、忠実度の高いポリメラーゼ(例えば、Phusion(登録商標)High-Fidelity DNA Polymerase)またはPCRプロトコールを用いて、忠実度の高い増幅を実施する。一部の場合では、ポリメラーゼは、忠実度の高いポリメラーゼであってよい。例えば、ポリメラーゼは、KAPA HiFi DNAポリメラーゼであってよい。ポリメラーゼは、Phusion DNAポリメラーゼまたはUltra IIポリメラーゼであってもよい。ポリメラーゼは、例えば断片の長さおよび/またはGC含量に起因する増幅の偏りが低減するまたは最小限になる反応条件下で使用することができる。
【0228】
PCRによるポリヌクレオチドの一本鎖の増幅により、その鎖およびその相補物の両方のコピーが生成する。シーケンシングの間、鎖およびその相補物の両方から配列リードが生成する。しかし、例えばワトソン鎖の相補物から生成した配列リードは、元のワトソン鎖にタグ付けされた二重タグの部分の相補物を有するので、そのように識別することができる。対照的に、クリック鎖またはその増幅産物から生成した配列リードは、元のクリック鎖にタグ付けされた二重タグの部分を有する。このように、ワトソン鎖の相補物の増幅産物から生成した配列リードを元の分子のクリック鎖の増幅産物から生成した相補配列リードと区別することができる。
【0229】
PCR増幅などの増幅は、一般には、ラウンドで実施される。増幅の例示的なラウンドは、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、またはそれよりも多くのラウンドの増幅を含む。例えば緩衝剤条件ならびにポリメラーゼの型および条件に関して、増幅条件を最適化することができる。例えば、非特異的な増幅の偏り、GC含量の偏り、およびサイズの偏りを低減することによって試料処理における偏りが低減するように、増幅を改変することもできる。
【0230】
一部の実施形態では、シーケンシングの前に配列を富化させることができる。富化は、特異的な標的領域に対して行うこともでき、非特異的に行うこともできる。一部の実施形態では、標的化される目的のゲノム領域を、示差的なタイリングおよび捕捉スキームを使用し、1つまたは複数のベイトセットパネルに関して選択された捕捉プローブ(「ベイト」)を用いて富化することができる。示差的なタイリングおよび捕捉スキームでは、種々の相対的濃度のベイトセットを使用して、ベイトに関連するゲノム領域にわたって示差的にタイリングし(例えば、異なる「分解能」で)、制約のセット(例えば、シーケンシング負荷量、各ベイトの有用性などのシーケンサー制約)に供し、それらを下流のシーケンシングのために所望のレベルで捕捉する。これらの標的化される目的のゲノム領域は、一塩基変異体(SNV)およびインデル(すなわち、挿入または欠失)を含み得る。標的化される目的のゲノム領域は、目的の骨格ゲノム領域(「骨格領域」)または目的のホットスポットゲノム領域(「ホットスポット領域(hot-spot region)」もしくは「ホットスポット領域(hotspot region)」もしくは「ホットスポット(hot-spot)」もしくは「
ホットスポット(hotspot)」)を含み得る。「ホットスポット」は、配列変異体に関連
する特定の遺伝子座を指し得るが、「骨格」領域は、それぞれが1つまたは複数の潜在的な配列変異体を有し得る、より大きなゲノム領域を指し得る。例えば、骨格領域は1種または複数種のがん関連突然変異を含有する領域であり得るが、ホットスポットは、再発性がんに関連する特定の突然変異を有する遺伝子座またはがんに関連する特定の再発性突然変異を有する遺伝子座であり得る。目的の骨格領域およびホットスポットゲノム領域はどちらも、一般にリキッドバイオプシーアッセイに含められる、がんを有する対象において1つまたは複数の変異体が見られることが予測され得る腫瘍関連マーカー遺伝子(例えば、BRAF、BRCA 1/2、EGFR、KRAS、PIK3CA、ROS1、TP53、およびその他)を含み得る。一部の実施形態では、目的の1つまたは複数の領域に対するプローブを伴うビオチン標識されたビーズを使用して標的配列を捕捉することができ、必要に応じて、その後、これらの領域を増幅して目的の領域を富化する。
【0231】
試料から得ることができるシーケンシングデータの量は有限であり、核酸鋳型の質、標的配列の数、特異的な配列の希少性、シーケンシング技法の限定、ならびに時間および費用などの実用的考察などの因子によって制約される。したがって、「リードバジェット(read budget)」は、試料から抽出することができる遺伝情報の量を概念化する1つのやり方である。シーケンシング実験において所定量のDNAを含む試験試料に割り当てられる塩基リードの総数を識別する、試料当たりのリードバジェットを選択することができる。リードバジェットは、例えば、増幅によって生じる冗長性リードを含めた、生じる総リードに基づくものであり得る。あるいは、リードバジェットは、試料中で検出される固有の分子の数に基づくものであり得る。ある特定の実施形態では、リードバジェットは、遺伝子座におけるコールのための二本鎖支持体の量を反映するものであり得る。すなわち、リードがDNA分子の両方の鎖に由来する遺伝子座のパーセンテージを検出する。
【0232】
リードバジェットの因子は、リードの深さおよびパネルの長さを含む。例えば、3,000,000,000リードのリードバジェットは、20,000リード/塩基の平均のリードの深さにおける150,000塩基として割り当てることができる。リードの深さは、遺伝子座においてリードを生じさせる分子の数を指し得る。本開示では、各塩基におけるリードを、パネルの骨格領域内の塩基間に、パネルのホットスポット領域内の第1の平均のリードの深さおよび塩基で、より深いリードの深さで割り当てることができる。一部の実施形態では、試料を、試料中に存在する核酸の量によって決定されるリードの深さまでシーケンシングする。一部の実施形態では、試料を、設定されたリードの深さまでシーケンシングし、したがって、異なる量の核酸を含む試料が同じリードの深さまでシーケンシングされる。例えば、核酸300ngを含む試料を、核酸の30ngを含む試料の1/10のリードの深さまでシーケンシングすることができる。一部の実施形態では、2またはそれよりも多くの異なる対象由来の核酸を、対象のそれぞれから得られる核酸の量に基づいて比率で一緒に添加することができる。
【0233】
非限定的な例として、リードバジェットが所与の試料について100,000リード計数からなる場合、それらの100,000リード計数を骨格領域のリードとホットスポット領域のリードに分けることができる。これらのリードの多数(例えば、90,000リード)を骨格領域に割り当てた結果、リードの少数(例えば、残りの10,000リード)がホットスポット領域に割り当てられる。逆に、リードの多数(例えば、90,000リード)をホットスポット領域に割り当てた結果、リードの少数(例えば、残りの10,000リード)が骨格領域に割り当てられる。したがって、当業者は、リードバジェットを割り当てて、所望のレベルの感度および特異度をもたらすことができる。ある特定の実施形態では、リードバジェットは、例えば、20,000塩基~100,000塩基にわたって、100,000,000リードから100,000,000,000リードの間、例えば、500,000,000リードから50,000,000,000リードの間、または約1,000,000,000リードから5,000,000,000リードの間であり得る。
【0234】
全てのポリヌクレオチド(例えば、増幅したポリヌクレオチド)をシーケンシングのためにシーケンシングデバイスにかけることができる。あるいは、増幅したポリヌクレオチドの全ての試料採取またはサブセットをシーケンシングのためにシーケンシングデバイスにかける。任意の元の二本鎖ポリヌクレオチドに関して、シーケンシングに関して3つの結果があり得る。第1に、配列リードは、元の分子の両方の相補鎖から(すなわち、ワトソン鎖からおよびクリック鎖からの両方)生成し得る。第2に、配列リードを、2つの相補鎖のうちの一方のみから(すなわち、ワトソン鎖からまたはクリック鎖からのいずれか、両方ではない)生成し得る。第3に、2つの相補鎖のいずれからも配列リードが生成されない場合がある。したがって、遺伝子座にマッピングされる固有の配列リードを計数することにより、遺伝子座にマッピングされる元の試料中の二本鎖ポリヌクレオチドの数が実際よりも小さく推定される。目に見えず計数されないポリヌクレオチドを推定する方法が本明細書に記載される。
【0235】
シーケンシング法は、大規模並列処理シーケンシング、すなわち、少なくとも100個、1000個、10,000個、100,000個、100万個、1000万個、1億個、または10億個のポリヌクレオチド分子のいずれかを同時に(または立て続けに)シーケンシングするものであり得る。
【0236】
シーケンシング法としては、これだけに限定されないが、ハイスループットシーケンシング、パイロシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ナノポアシーケンシング、半導体シーケンシング、ライゲーションによるシーケンシング、ハイブリダイゼーションによるシーケンシング、RNA-Seq(Illumina)、Digital Gene Expression(Helicos)、次世代シーケンシング、単一分子合成によるシーケンシング(SMSS)(Helicos)、大規模並列処理シーケンシング、Clonal Single Molecule Array(Solexa)、ショットガンシーケンシング、マクサム・ギルバートまたはサンガーシーケンシング、プライマーウォーキング、PacBio、SOLiD、Ion Torrent、またはNanoporeプラットフォームを使用したシーケンシングおよび当技術分野で公知の任意の他のシーケンシング法を挙げることができる。
【0237】
方法は、少なくとも100万、1000万、1億、5億、10億、11億、12億、15億、20億、25億、30億、35億、40億、45億、50億、55億、60億、65億、70億、80億、90億または100億の塩基対をシーケンシングすることを含み得る。一部の場合では、方法は、約10億から約70億まで、約11億から約68億まで、約12億から約65億まで、約11億から約64億まで、約15億から約70億まで、約20億から約60億まで、約25億から約55億まで、約30億から約50億までの塩基対をシーケンシングすることを含み得る。例えば、方法は、約12億から約65億までの塩基対をシーケンシングすることを含み得る。
腫瘍マーカー
【0238】
腫瘍マーカーは、1種または複数種のがんに関連する遺伝子変異体である。腫瘍マーカーは、いくつかのリソースまたは方法のいずれかを使用して決定することができる。腫瘍マーカーは、以前に発見されている場合もあり、実験または疫学的技法を使用して新規に発見される可能性もある。腫瘍マーカーががんと高度に相関する場合、腫瘍マーカーの検出により、がんが示され得る。領域または遺伝子内の腫瘍マーカーが所与のバックグラウンド集団またはデータセットについての頻度よりも大きな頻度で存在する場合、腫瘍マーカーの検出により、がんが示され得る。
【0239】
科学文献およびデータベースなどの公的に入手可能なリソースに、がんに関連することが見いだされた遺伝子変異体が詳細に記載されている可能性がある。科学文献には、1種または複数種の遺伝子変異体をがんと関連付ける実験またはゲノムワイド関連解析(GWAS)が記載されている可能性がある。データベースには、1種または複数種の腫瘍マーカーを決定するためのより包括的なリソースを提供するために科学文献などの供給源から収集された情報が集積されている可能性がある。データベースの非限定的な例としては、FANTOM、GTex、GEO、Body Atlas、INSiGHT、OMIM(Online Mendelian Inheritance in Man、omim.org)、cBioPortal (cbioportal.org)、CIViC(Clinical Interpretations of Variants in Cancer、civic.genome.wustl.edu)、DOCM(Database of Curated Mutations、docm.genome.wustl.edu)、およびICGC Data Portal (dcc.icgc.org)が挙げられる。さらなる例では、COSMIC(Catalogue of
Somatic Mutations in Cancer)データベースでは、腫瘍マーカーをがん、遺伝子、または突然変異型によって検索することが可能である。症例対照研究または関連研究(例えば、ゲノムワイド関連解析)などの実験を行うことにより、新規の腫瘍マーカーを決定することもできる。
【0240】
1種または複数種の腫瘍マーカーをシーケンシングパネルにおいて検出することができる。腫瘍マーカーは、がんに関連する1種または複数種の遺伝子変異体であり得る。腫瘍マーカーは、一塩基変異体(SNV)、コピー数変異体(CNV)、挿入または欠失(例えば、インデル)、遺伝子融合および反転から選択することができる。腫瘍マーカーは、タンパク質のレベルに影響を及ぼし得る。腫瘍マーカーは、プロモーターまたはエンハンサーに存在する可能性があり、遺伝子の転写を変更し得る。腫瘍マーカーは、遺伝子の転写および/または翻訳の有効性に影響を及ぼし得る。腫瘍マーカーは、転写されたmRNAの安定性に影響を及ぼし得る。腫瘍マーカーは、翻訳されるタンパク質のアミノ酸配列の変化をもたらし得る。腫瘍マーカーは、スプライシングに影響を及ぼし得る、特定のコドンによってコードされるアミノ酸を変化させ得る、フレームシフトをもたらし得る、または中途終止コドンをもたらし得る。腫瘍マーカーは、アミノ酸の保存的置換をもたらし得る。1種または複数種の腫瘍マーカーが、アミノ酸の保存的置換をもたらし得る。1種または複数種の腫瘍マーカーは、アミノ酸の非保存的置換をもたらし得る。
【0241】
腫瘍マーカーの1つまたは複数は、ドライバー突然変異であり得る。ドライバー突然変異は、腫瘍細胞に、その生存または再生のいずれかを増大させることによりその微小環境における選択的利点をもたらす突然変異である。腫瘍マーカーのいずれもドライバー突然変異ではない可能性がある。腫瘍マーカーの1つまたは複数は、パッセンジャー突然変異であり得る。パッセンジャー突然変異は、腫瘍細胞の適応度には影響を及ぼさないが、ドライバー突然変異と同じゲノム内に存在することからクローン性増大に関連する可能性がある突然変異である。
【0242】
腫瘍マーカーの頻度は、0.001%ほどの低さであり得る。腫瘍マーカーの頻度は、0.005%ほどの低さであり得る。腫瘍マーカーの頻度は、0.01%ほどの低さであり得る。腫瘍マーカーの頻度は、0.02%ほどの低さであり得る。腫瘍マーカーの頻度は、0.03%ほどの低さであり得る。腫瘍マーカーの頻度は、0.05%ほどの低さであり得る。腫瘍マーカーの頻度は、0.1%ほどの低さであり得る。腫瘍マーカーの頻度は、1%ほどの低さであり得る。
【0243】
単一の腫瘍マーカーは、がんを有する対象の50%よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の40%よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の30%よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の20%よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の10%よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の5%よりも多くには存在しない可能性がある。単一の腫瘍マーカーは、がんを有する対象の0.001%~50%に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の0.01%~50%に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の0.01%~30%に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の0.01%~20%に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の0.01%~10%に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の0.1%~10%に存在する可能性がある。単一の腫瘍マーカーは、がんを有する対象の0.1%~5%に存在する可能性がある。
【0244】
腫瘍マーカーの検出により、1種または複数種のがんの存在を示すことができる。検出により、卵巣がん、膵がん、乳がん、結腸直腸がん、非小細胞肺癌(例えば、扁平上皮細胞癌、または腺癌)または任意の他のがんで構成される群から選択されるがんの存在を示すことができる。検出により、卵巣がん、膵がん、乳がん、結腸直腸がん、非小細胞肺癌(扁平上皮細胞もしくは腺癌)または任意の他のがんで構成される群から選択される任意のがんの存在を示すことができる。検出により、卵巣がん、膵がん、乳がん、結腸直腸がんおよび非小細胞肺癌(扁平上皮細胞もしくは腺癌)、または任意の他のがんで構成される群から選択される複数のがんのいずれかの存在を示すことができる。検出により、本出願で言及される任意のがんの1つまたは複数の存在を示すことができる。
【0245】
1種または複数種のがんは、パネル内の少なくとも1つのエクソンにおいて腫瘍マーカーを示し得る。卵巣がん、膵がん、乳がん、結腸直腸がん、非小細胞肺癌(扁平上皮細胞または腺癌)、または任意の他のがんで構成される群から選択される1種または複数種のがんのそれぞれが、パネル内の少なくとも1つのエクソンにおいて腫瘍マーカーを示す。少なくとも3種のがんのそれぞれが、パネル内の少なくとも1つのエクソンにおいて腫瘍マーカーを示し得る。少なくとも4種のがんのそれぞれが、パネル内の少なくとも1つのエクソンにおいて腫瘍マーカーを示し得る。少なくとも5種のがんのそれぞれが、パネル内の少なくとも1つのエクソンにおいて腫瘍マーカーを示し得る。少なくとも8種のがんのそれぞれが、パネル内の少なくとも1つのエクソンにおいて腫瘍マーカーを示し得る。少なくとも10種のがんのそれぞれが、パネル内の少なくとも1つのエクソンにおいて腫瘍マーカーを示し得る。がんの全てが、パネル内の少なくとも1つのエクソンにおいて腫瘍マーカーを示し得る。
【0246】
対象ががんを有する場合、対象は、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも85%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも90%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも92%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも95%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも96%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも97%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも98%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも99%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。がんを有する対象の少なくとも99.5%が、パネル内の少なくとも1つのエクソンまたは遺伝子において腫瘍マーカーを示し得る。
【0247】
対象ががんを有する場合、対象は、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも85%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも90%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも92%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも95%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも96%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも97%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも98%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも99%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。がんを有する対象の少なくとも99.5%が、パネル内の少なくとも1つの領域において腫瘍マーカーを示し得る。
【0248】
検出を高感度および/または高特異度で実施することができる。感度は、正確に陽性と識別される陽性の割合の尺度を指し得る。一部の場合では、感度は、存在する全ての腫瘍マーカーの、検出されるもののパーセンテージを指す。一部の場合では、感度は、ある特定の疾患を有すると正確に識別される病人のパーセンテージを指す。特異度は、正確に陰性と識別される陰性の割合の尺度を指し得る。一部の場合では、特異度は、正確に識別される変更されていない塩基の割合を指す。一部の場合では、特異度は、ある特定の疾患を有さないと正確に識別される健康な人のパーセンテージを指す。以前に記載の非固有タグ付け方法により、増幅およびシーケンシングのエラーによって生成するノイズが減少することによって検出の特異度が有意に増大し、これにより、偽陽性の頻度が低減する。検出を少なくとも95%、97%、98%、99%、99.5%、もしくは99.9%の感度および/または少なくとも80%、90%、95%、97%、98%もしくは99%の特異度で実施することができる。検出を少なくとも90%、95%、97%、98%、99%、99.5%、99.6%、99.98%、99.9%または99.95%の感度で実施することができる。検出を少なくとも90%、95%、97%、98%、99%、99.5%、99.6%、99.98%、99.9%または99.95%の特異度で実施することができる。検出を少なくとも70%の特異度および少なくとも70%の感度、少なくとも75%の特異度および少なくとも75%の感度、少なくとも80%の特異度および少なくとも80%の感度、少なくとも85%の特異度および少なくとも85%の感度、少なくとも90%の特異度および少なくとも90%の感度、少なくとも95%の特異度および少なくとも95%の感度、少なくとも96%の特異度および少なくとも96%の感度、少なくとも97%の特異度および少なくとも97%の感度、少なくとも98%の特異度および少なくとも98%の感度、少なくとも99%の特異度および少なくとも99%の感度、または100%の特異度および100%の感度で実施することができる。一部の場合では、方法により、腫瘍マーカーを約80%またはそれよりも大きな感度で検出することができる。一部の場合では、方法により、腫瘍マーカーを約95%またはそれよりも大きな感度で検出することができる。一部の場合では、方法により、腫瘍マーカーを約80%またはそれよりも大きな感度、および約95%またはそれよりも大きな感度で検出することができる。
【0249】
検出は、高度に正確であり得る。正確度は、無細胞DNAにおける腫瘍マーカーの識別、および/またはがんの診断に適用することができる。上記の共変量分析などの統計学的ツールを使用して、正確度を増大させるおよび/または測定することができる。方法により、腫瘍マーカーを少なくとも80%、90%、95%、97%、98%または99%、99.5%、99.6%、99.98%、99.9%、または99.95%の正確度で検出することができる。一部の場合では、方法により、腫瘍マーカーを少なくとも95%またはそれよりも大きな正確度で検出することができる。
検出限界/ノイズ範囲
【0250】
ポリヌクレオチドのコピーおよび/または読み取りにおけるエラーによってノイズが導入され得る。例えば、シーケンシングプロセスでは、単一のポリヌクレオチドがまず増幅に供され得る。増幅によりエラーが導入される可能性があり、したがって、増幅したポリヌクレオチドのサブセットは、特定の遺伝子座に、その遺伝子座の元の塩基と同じではない塩基を含有する可能性がある。さらに、読み取りプロセスでは、任意の特定の遺伝子座の塩基が不正確に読み取られる可能性がある。結果として、配列リードの集合は、遺伝子座において、元の塩基と同じではないある特定のパーセンテージのベースコールを含む可能性がある。典型的なシーケンシング技術では、このエラー率は、一桁、例えば、2%~3%であり得る。一部の例では、エラー率は、約10%まで、約9%まで、約8%まで、約7%まで、約6%まで、約5%まで、約4%まで、約3%まで、約2%まで、または約1%までであり得る。全て同じ配列を有すると推定される分子の集合のシーケンシングを行う場合、このノイズは、元の塩基を高い信頼度で識別することができるのに十分に小さくなり得る。
【0251】
しかし、親ポリヌクレオチドの集合が特定の遺伝子座において変動するポリヌクレオチドのサブセットを含む場合、ノイズは有意な問題になり得る。例えば、無細胞DNAが生殖系列DNAだけでなく、胎児のDNAまたはがん細胞由来のDNAなどの別の供給源由来のDNAを含む場合に、そうであり得る。この場合、配列変異体を有する分子の頻度が、シーケンシングプロセスによって導入されるエラーの頻度と同じ範囲内に入る可能性がある場合、真の配列変異体はノイズと区別可能でない可能性がある。これは、例えば、試料中の配列変異体の検出に干渉し得る。例えば、配列の塩基当たりのエラー率は0.5~1%であり得る。増幅の偏りおよびシーケンシングのエラーにより、最終的なシーケンシング産物にノイズが導入される。このノイズにより、検出の感度が低下する可能性がある。非限定的な例として、頻度がシーケンシングエラー率よりも低い配列変異体はノイズと間違えられる可能性がある。
【0252】
ノイズ範囲または検出限界は、配列変異体を有する分子の頻度がシーケンシングプロセスによって導入されるエラーの頻度と同じ範囲内に入る例を指す。「検出限界」は、検出される変異体に対して少なすぎる変異体を有する分子がシーケンシングされる例も指し得る。配列変異体を有する分子の頻度は、少量の核酸分子の結果としてのエラーの頻度と同じ範囲に入り得る。非限定的な例として、核酸の試料採取される量、例えば100ngは、比較的少数の無細胞核酸分子、例えば循環腫瘍DNA分子を含む可能性があり、したがって、配列変異体の頻度は、変異体が大多数の循環腫瘍DNA分子に存在し得るにもかかわらず、低い可能性がある。あるいは、配列変異体は、稀であるまたは非常に少量の試料採取された核酸にしか存在しない可能性があり、したがって、検出された変異体はノイズおよび/またはシーケンシングエラーと区別できない。非限定的な例として、特定の遺伝子座において、腫瘍マーカーは、その遺伝子座における全てのリードの0.1%~5%にしか検出されない可能性がある。
【0253】
シーケンシングプロセスにおいて、シグナル強度、例えば、親集団内の分子によって同じ頻度で生じる配列リードの総数の差異として歪みが顕在化する可能性がある。歪みは、例えば、増幅の偏り、GCの偏り、またはシーケンシングの偏りを通じて導入される可能性がある。これは、試料中のコピー数多型の検出に干渉する可能性がある。GCの偏りにより、配列の読み取りにおけるGC含量が豊富であるまたは乏しい領域の一様でない表示がもたらされる。また、配列のリードが集団内のそれらの実数値よりも多いまたは少ない量でもたらされることにより、増幅の偏りによりコピー数多型の測定値が歪められる。
【0254】
単一の個々の分子からまたは分子のアンサンブルからのノイズおよび/または歪みを低減するための1つのやり方は、配列リードを元の個々の分子に由来するファミリーに群分けして、単一の個々の分子からまたは分子のアンサンブルからのノイズおよび/または歪みを低減することである。最初の遺伝子材料の個々の試料中のポリヌクレオチドを、シーケンスの準備ができたタグ付けされた親ポリヌクレオチドに効率的に変換することにより、最初の遺伝子材料の個々の試料中のポリヌクレオチドがシーケンスの準備ができた試料中に表される確率を上昇させることができる。これにより、最初の試料中のより多くのポリヌクレオチドに関する配列情報をもたらすことができる。さらに、タグ付けされた親ポリヌクレオチドから増幅させた後代ポリヌクレオチドを高率で試料採取すること、および、生成された配列リードを、タグ付けされた親ポリヌクレオチドの配列を表すコンセンサス配列にコラプスすることによってタグ付けされた親ポリヌクレオチドについてのコンセンサス配列を高収率で生成することにより、増幅の偏りおよび/またはシーケンシングのエラーによって導入されるノイズを低減することができ、また、検出の感度を増大させることができる。配列リードをコンセンサス配列にコラプスすることは、1つの分子から受け取られるメッセージにおけるノイズを低減するための1つのやり方である。受け取られた頻度を、増幅およびシーケンシングエラープロファイルの定義された推定値を使用し、可能性のある真のヌクレオチドのそれぞれの尤度または後の推定値に変換する確率関数を使用することが、ノイズおよび/または歪みを低減するための別のやり方である。分子のアンサンブルに関して、リードをファミリーに群分けし、ファミリーの定量値を決定することにより、例えば、複数の異なる遺伝子座のそれぞれにおける分子の数量の歪みが低減する。再度、異なるファミリーの配列リードをコンセンサス配列にコラプスすることにより、増幅および/またはシーケンシングエラーによって導入されるエラーが排除される。さらに、ファミリー情報から導き出される確率に基づいてベースコールの頻度を決定することによっても、分子のアンサンブルから受け取られるメッセージのノイズが低減する。複数の参照配列およびカバレッジ観察を使用して頻度の報告または腫瘍マーカーのコールを行うこともでき、それにより、ある位置における腫瘍マーカーを観察するための頻度が決定される。参照配列は、健康な個体由来またはがんなどの疾患または状態を有する個体由来の配列またはマーカープロファイルを含み得る。「既知の」参照試料からの頻度を使用して、マーカー検出コールを行うための閾値頻度を設定することができる。例えば、ある特定の位置に「A」を有するヌクレオチドに対して、試験対象のその位置において塩基「A」がコールされるか否かを決定するための閾値として0.1%の頻度を使用することができる。例えば、少なくとも20種、少なくとも50種、少なくとも100種、少なくとも500種、少なくとも1,000種、少なくとも2,000種、少なくとも3,000種、少なくとも4,000種、少なくとも5,000種、少なくとも6,000種、少なくとも7,000種、少なくとも8,000種、少なくとも9,000種、少なくとも10,000種、少なくとも11,000種、少なくとも12,000種、少なくとも13,000種、少なくとも14,000種、少なくとも15,000種、少なくとも16,000種、少なくとも17,000種、少なくとも18,000種、少なくとも19,000種、少なくとも20,000種、少なくとも30,000種、少なくとも40,000種、少なくとも50,000種、少なくとも60,000種、少なくとも70,000種、少なくとも80,000種、少なくとも90,000種、または少なくとも100,000種の参照配列を使用することができる。
【0255】
分子のタグ付けおよび位置情報を処理される試料内でまたは試料のバッチにわたって観察される分子の集合と比較することによって他の処理された試料からの混入分子を識別するにより、ノイズおよび/または歪みをさらに低減することができる。配列リードにおける遺伝子変異を他の配列リードの遺伝子変異と比較することにより、ノイズおよび/または歪みをさらに低減することができる。1つの配列リードにおいて観察され、他の配列リードにおいてもまた観察される遺伝子変異により、検出された変異体が実際に腫瘍マーカーであり、単なるシーケンシングエラーまたはノイズではない確率が上昇する。非限定的な例として、遺伝子変異が第1の配列リードにおいて観察され、第2の配列リードにおいても観察される場合、変異が実際に遺伝子変異であり、シーケンシングエラーではないかどうかに関してベイズ法による推測を行うことができる。
【0256】
変異体が繰り返し検出されることにより、その変異体が正確に検出される確率、尤度、および/または信頼度が増大し得る。変異体は、遺伝子データまたは遺伝子変異の2つまたはそれよりも多くのセットを比較することによって繰り返し検出され得る。遺伝子変異の2つまたはそれよりも多くのセットは、両方の試料において多数の時点で、および異なる試料において同時点で(例えば、再分析される血液試料)検出され得る。ノイズ範囲内またはノイズ閾値未満での変異体の検出では、再試料採取または低頻度の変異体の繰返し検出により、変異体が実際に変異体であり、シーケンシングエラーではない可能性がより高くなる。再試料採取は、再分析または再実行される試料などの同じ試料からのものであってもよく、異なる時点の試料からのものであってもよい。
【0257】
共変量検出により、変異体が正確に検出される確率、尤度、および/または信頼度を増大させることができる。共変量腫瘍マーカーに関しては、1つの腫瘍マーカーの存在が1つまたは複数の他の腫瘍マーカーの存在と関連する。関連する遺伝子変異が検出限界未満で存在する場合であっても、共変量遺伝子変異の検出に基づいて関連する共変量遺伝子変異の存在を推測することが可能であり得る。あるいは、共変量遺伝子変異の検出に基づいて、関連する遺伝子変異を示す診断信頼度を増大させることができる。さらに、共変量変異体を検出する一部の例では、検出限界未満で検出される共変量変異体の検出閾値を低下させることができる。共変量変異または遺伝子の非限定的な例としては、ドライバー突然変異および耐性突然変異、ドライバー突然変異およびパッセンジャー突然変異が挙げられる。共変異体または遺伝子の具体的な例は、肺がんにおいて見いだされるEGFR L858R活性化突然変異およびEGFR T790M耐性突然変異である。多数の他の共変量変異体および遺伝子が種々の耐性突然変異と関連付けられ、当業者には理解されよう。
【0258】
1つの実行では、実質的に一度にまたは複数の時点にわたって採取された複数の試料からの測定値を使用し、各変異体に対する診断信頼度指示を調整して、コピー数多型(CNV)または突然変異または腫瘍マーカーの観察の予測の信頼度を指し示すことができる。がんが進行しているのか、寛解の状態にあるのか、または安定化しているのかを決定するために、複数の時点での測定値を使用することによって信頼度を増大させることができる。診断信頼度指示は、いくつもの統計学的な方法のいずれかによって割り当てることができ、また、ある期間にわたって測定値が観察される頻度に少なくとも一部基づくことができる。例えば、最新の結果と前の結果の統計学的相関付けを行うことができる。あるいは、各診断に対して、隠れマルコフモデルを構築することができ、したがって、複数の測定値または時点からの特定の試験事象の存在の頻度に基づいて最尤法または最大帰納的決定を行うことができる。このモデルの一部として、特定の決定についてのエラーの確率および結果得られる診断信頼度指示も出力することができる。このように、パラメータの測定値、それらがノイズ範囲内に入るか否かを、信頼区間と共にもたらすことができる。経時的に試験して、信頼区間を経時的に比較することにより、がんが進行しているのか、安定化しているのか、または寛解の状態にあるのかについての予測信頼度を増大させることができる。2つの試料採取時点は、少なくとも約1マイクロ秒、1ミリ秒、1秒、10秒、30秒、1分、10分、30分、1時間、12時間、1日、1週間、2週間、3週間、1カ月、または1年隔てられていてよい。2つの時点は、約1カ月~約1年、約1年~約5年、または約3カ月以下、約2カ月以下、約1カ月以下、約3週間以下、約2週間以下、約1週間以下、約1日以下、または約12時間以下隔てられていてよい。一部の実施形態では、2つの時点は、処置の施行または外科手技の実施などの治療事象によって隔てられていてよい。2つの時点が治療事象によって隔てられている場合、検出されるCNVまたは突然変異を事象の前後で比較することができる。
【0259】
無細胞ポリヌクレオチド配列のシーケンシングデータを収集した後、1つまたは複数のバイオインフォマティクスプロセスを配列データに適用して、調節エレメント、ヌクレオソーム間隔/ヌクレオソーム結合パターン、核酸の化学修飾、コピー数多型、ならびに、これだけに限定されないが、メチル化プロファイルを含めたエピジェネティックマーカーの突然変異または変化、ならびにSNV、CNV、インデル、および/または融合などの遺伝子変異体に関するcfDNA特性などの遺伝的特徴または変異を検出することができる。コピー数多型解析が望まれる一部の場合では、配列データを、1)参照ゲノムを用いてアラインメントし、個々の分子にマッピングすることができ、2)濾過することができ、4)配列のウインドウまたはビンに分割することができ、5)各ウインドウについてカバレッジリードおよび分子を計数することができ、6)次いで、カバレッジ分子を統計学的モデリングアルゴリズムを使用して正規化することができ、7)ゲノム内の種々の位置における別個のコピー数の状態を反映する出力ファイルを生成することができる。一部の場合では、参照ゲノムの特定の遺伝子座にアラインメントされるカバレッジリード/分子または正規化されたカバレッジリードの数を計数する。突然変異分析が望まれる他の場合では、配列データを、1)参照ゲノムを用いてアラインメントし、個々の分子にマッピングすることができ、2)濾過することができ、4)変異体塩基の頻度をその特定の塩基のカバレッジリードに基づいて算出することができ、5)変異体塩基頻度を、確率論的、統計学的または確率的モデリングアルゴリズムを使用して正規化することができ、6)ゲノム内の種々の位置における突然変異の状態を反映する出力ファイルを生成することができる。マッピングのための参照ゲノムは、任意の目的の種のゲノムを含み得る。参照として有用なヒトゲノム配列は、hg19アセンブリ、GRCh38.p4、または任意の以前のもしくは入手可能なhgアセンブリを含み得る。そのような配列は、genome.ucsc.edu/index.htmlにおいて利用可能なゲノムブラウザを使用して調べることができる。他の種のゲノムとしては、例えば、PanTro2(チンパンジー)およびmm9(マウス)が挙げられる。
【0260】
一部の場合では、識別子(例えば、バーコードを含むものなど)を使用して、突然変異分析の間に配列リードを群分けすることができる。一部の場合では、配列リードを、例えば、識別子または識別子と開始/終止位置もしくは配列の組合せを使用することによってファミリーに群分けする。一部の場合では、1つまたは複数のファミリー内のヌクレオチドを参照配列と比較し、1)各ファミリー内、および2)ファミリーと参照配列の間で特定の塩基の頻度を決定することにより、ベースコールを行うことができる。ヌクレオチドベースコールは、ある位置に塩基を有するファミリーのパーセンテージなどの判断基準に基づいて行うことができる。一部の場合では、ベースコールの頻度が、複数の参照配列(例えば、健康な個体由来の配列)における頻度によって決定されるノイズ閾値よりも大きい場合に、ベースコールを報告する。患者または対象の最新の分析および前の分析からの時間的情報を使用して、分析および決定を増強する。一部の実施形態では、患者または対象からの配列情報を、健康な個体のコホート、がん患者のコホート、または患者もしくは対象由来の生殖系列DNAから得られた配列情報と比較する。生殖系列DNAは、これだけに限定することなく、体液、全血、血小板、血清、血漿、便、赤血球、白血球(white blood cell or leukocyte)、内皮細胞、組織生検材料、滑液、リンパ液、腹水、間質液もしくは細胞外液、歯肉溝滲出液を含めた細胞間の空間中の流体、骨髄、脳脊髄液、唾液、粘液、喀痰、精液、汗、尿、または任意の他の体液から得ることができる。がん患者のコホートは、患者または対象と同じ型のがんを有する場合もあり、患者または対象と同じステージのがんを有する場合もあり、その両方を有する場合もあり、どちらも有さない場合もある。一部の実施形態では、がん患者のコホート、健康な個体のコホート、または対象由来の生殖系列DNAを使用して、ある位置における塩基のベースライン頻度をもたらし、そのベースライン頻度を、対象におけるベースコールを行うのに使用する。これだけに限定することなく、健康な個体のコホート、または対象由来の生殖系列DNAにおけるある位置における塩基の頻度を対象由来の配列リードの間で検出された塩基の頻度と比較することができる。
【0261】
一部の実施形態では、本開示の方法およびシステムを使用して、0.025%またはそれ未満、0.05%またはそれ未満、0.075%またはそれ未満、または0.1%またはそれ未満のマイナー対立遺伝子頻度(MAF)を検出することができる。コピー数多型を(1)試験試料中の遺伝子についての固有の分子計数(UMC)の(2)参照試料(例えば、対照試料)中のその遺伝子についてのUMCに対する比として測定することができる。一部の実施形態では、本開示の方法およびシステムを使用して、コピー数増幅(CNA)であるコピー数多型を検出することができる。一部の実施形態では、本開示の方法およびシステムを使用して、少なくとも1.5、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、25、30、35、40、45、50、55、60、またはそれよりも多くのCNAを検出することができる。一部の実施形態では、本開示の方法およびシステムを使用して、コピー数減少(CNL)であるコピー数多型を検出することができる。一部の実施形態では、本開示の方法およびシステムを使用して、0.9未満、0.8未満、0.7未満、0.6未満、0.5未満、0.4未満、0.3未満、0.2未満、0.1未満、または0.05未満のCNLを検出することができる。
【0262】
これだけに限定されないが、核酸シーケンシング、核酸数量化、シーケンシング最適化、遺伝子発現の検出、遺伝子発現の数量化、ゲノムプロファイリング、がんプロファイリング、または発現されたマーカーの分析を含めた種々の異なる反応および/操作を本明細書に開示されるシステムおよび方法内で行うことができる。さらに、システムおよび方法には、多数の医学的適用がある。例えば、システムおよび方法を、がんを含めた種々の遺伝子疾患および障害ならびに非遺伝子疾患および障害の識別、検出、診断、処置、モニタリング、病期分類、またはリスク予測のために使用することができる。システムおよび方法を、遺伝子疾患および非遺伝子疾患の異なる処置に対する対象の応答を評価するため、または疾患の増悪および予後に関する情報をもたらすために使用することができる。
コンピュータ制御システム
【0263】
本開示は、本開示の方法を実行するようにプログラミングされたコンピュータ制御システムを提供する。
図1は、シーケンシングデータを解析し、腫瘍マーカーを検出し、がんの状態を決定するようにプログラミングされたまたは他のやり方で設定されたコンピュータシステム101を示す。コンピュータシステム101により、例えば、データを既知配列および変異体に対応させることなどの本開示の配列解析の種々の態様を調節することができる。コンピュータシステム101は、使用者の電子デバイスであってもよく、電子デバイスとは離れた場所にあるコンピュータシステムであってもよい。電子デバイスは可動性電子デバイスであってよい。
【0264】
コンピュータシステム101は、シングルコアプロセッサもしくはマルチコアプロセッサ、または並行処理用の複数のプロセッサであってよい中央処理装置(CPU、また本明細書では「プロセッサ」および「コンピュータプロセッサ」)105を含む。コンピュータシステム101はまた、メモリまたはメモリ位置110(例えば、ランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ)、電子記憶装置115(例えば、ハードディスク)、1つまたは複数の他のシステムと通信するための通信インタフェース120(例えば、ネットワークアダプター)、ならびにキャッシュ、他のメモリ、データ記憶装置および/または電子ディスプレイアダプターなどの周辺機器125も含む。メモリ110、記憶装置115、インタフェース120および周辺機器125は、マザーボードなどの通信バス(実線)を通じてCPU105と通信する。記憶装置115は、データを保管するためのデータ記憶装置(またはデータリポジトリ)であってよい。コンピュータシステム101をコンピュータネットワーク(「ネットワーク」)130に通信インタフェース120を用いて作動可能にカップリングすることができる。ネットワーク130は、インターネット、インターネットおよび/もしくはエクストラネット、またはインターネットと通信するイントラネットおよび/もしくはエクストラネットであってよい。ネットワーク130は、一部の場合では、電気通信および/またはデータネットワークである。ネットワーク130は、クラウドコンピューティングなどの、分散コンピューティングを可能にすることができる1つまたは複数のコンピュータサーバーを含み得る。ネットワーク130は、一部の場合では、コンピュータシステム101を用いて、コンピュータシステム101とカップリングしたデバイスをクライアントまたはサーバーとして動作させることを可能にするピアツーピアネットワークを実行することができる。
【0265】
CPU105により、プログラムまたはソフトウェアに具体化することができる一連の機械可読指示を実行することができる。指示をメモリ110などのメモリ位置に保管することができる。指示をCPU105に方向付けることができ、それをその後、プログラムまたは他のやり方で設定することができる。本開示の方法を実行するためのCPU105。CPU105によって実施される操作の例としては、フェッチ、復号、実行、およびライトバックを挙げることができる。
【0266】
CPU105は、集積回路などの回路の一部であってよい。システム101の1つまたは複数の他の成分を回路に含めることができる。一部の場合では、回路は、特定用途向け集積回路(ASIC)である。
【0267】
記憶装置115には、ドライバー、ライブラリーおよび保存されたプログラムなどのファイルを保管することができる。記憶装置115には、使用者データ、例えば、使用者選好および使用者プログラムを保管することができる。コンピュータシステム101は、一部の場合では、イントラネットまたはインターネットを通じてコンピュータシステム101と通信する遠隔サーバー上に位置するものなどの、コンピュータシステム101の外部の1つまたは複数の追加的なデータ記憶装置を含み得る。
【0268】
コンピュータシステム101は、ネットワーク130を通じて1つまたは複数の遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム101は、使用者(例えば、医師)の遠隔コンピュータシステムと通信することができる。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、携帯型PC)、スレートまたはタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android利用可能デバイス、Blackberry(登録商標))、または携帯情報端末が挙げられる。使用者はネットワーク930を介してコンピュータシステム101にアクセスすることができる。
【0269】
本明細書に記載の方法は、コンピュータシステム101の電子保管場所、例えば、メモリ110または電子記憶装置115などに保管されたコードを実行可能な機械(例えば、コンピュータプロセッサ)によって実行することができる。機械実行可能または機械可読コードはソフトウェアの形態で提供することができる。使用中、プロセッサ105によりコードを実行することができる。一部の場合では、記憶装置115からコードを検索し、メモリ110上に保管し、プロセッサ105からのアクセスに対する準備をすることができる。一部の状況では、電子記憶装置115を除外し、機械実行可能な指示をメモリ110に保管する。
【0270】
コードは、コードを実行するように適合させたプロセッサを有する機械で使用するためにプリコンパイルし、設定することもでき、実行時間の間にコンパイルすることもできる。コードは、コードがプリコンパイル様式またはアズコンパイル様式で実行されることが可能になるように選択することができるプログラミング言語で供給することができる。
【0271】
コンピュータシステム101などの、本明細書で提供されるシステムおよび方法の態様は、プログラミングにおいて具体化することができる。当該技術の種々の態様は、一般には、機械可読媒体の一種で実行または具体化される、機械(またはプロセッサ)実行可能コードおよび/または関連するデータの形態で「製品」または「製造品」と考えられる。機械実行可能コードは、メモリ(例えば、リードオンリーメモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクなどの電子記憶装置に保管することができる。「保管」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保管をもたらす、コンピュータ、プロセッサなど、またはその関連モジュールの有形メモリ、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブなどのいずれかまたは全てを含み得る。ソフトウェアの全てまたは一部は、時々、インターネットまたは種々の他の電気通信ネットワークを通じて通信することができる。そのような通信により、例えば、ソフトウェアを1つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサに、例えば、管理サーバーまたはホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにローディングすることを可能にすることができる。したがって、ソフトウェア要素を有し得る別の型の媒体は、例えばローカルデバイス間の物理的インタフェースを渡って、有線および光ランドラインネットワークを通じて、および種々のエアリンクを通じて使用される光波、電波および電磁波を含む。有線または無線リンク、光リンクなどの、そのような波を有する物理的要素も、ソフトウェアを有する媒体とみなされる。本明細書で使用される場合、非一時的な有形「保管」媒体に制限しなければ、コンピュータまたは機械「可読媒体」などの用語は、実行のためのプロセッサへの指示の提供に関与するあらゆる媒体を指す。
【0272】
したがって、コンピュータで実行可能なコードなどの機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体または物理的伝達媒体を含めた多くの形態をとり得る。非揮発性記憶媒体としては、例えば、光学または磁気ディスク、例えば任意のコンピュータ(単数または複数)記憶デバイスのいずれかなど、例えば、図に示されているデータベースなどを実行するために使用することができるものなどが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリなどのダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル;コンピュータシステム内のバスを含むワイヤーを含めた銅線および光ファイバーが挙げられる。搬送波伝達媒体は、高周波(RF)および赤外(IR)データ通信中に生成されるものなどの、電気もしくは電磁気シグナル、または音波もしくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般形態として、例えば、フロッピー(登録商標)ディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDもしくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、空孔のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップもしくはカートリッジ、搬送波伝達データもしくは指示、そのような搬送波を運ぶケーブルもしくはリンク、またはコンピュータがプログラミングコードおよび/もしくはデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、1つまたは複数の指示の1つまたは複数の連続を実行のためにプロセッサに運ぶことに関与し得る。
【0273】
コンピュータシステム101は、例えば、がん診断に関する情報をもたらすためのユーザインタフェース(UI)140を含む電子ディスプレイ135を含み得るまたはそれと通信し得る。UIの例としては、限定することなく、グラフィカルユーザインタフェース(GUI)およびウェブに基づくユーザインタフェースが挙げられる。
【0274】
一態様では、プロセッサおよびコンピュータメモリを含むコンピュータを含むシステムであって、コンピュータが、通信ネットワークと通信し、コンピュータメモリが、プロセッサによって実行されると(1)通信ネットワークから配列データをコンピュータメモリに受信し、(2)配列データ中の遺伝子変異体が生殖系列突然変異体を表すものであるかまたは体細胞突然変異体を表すものであるかを、本明細書に記載の方法を使用して決定し、(3)決定を、通信ネットワークを通じて報告するコードを含む、システムが本明細書で提供される。
【0275】
通信ネットワークは、インターネットに接続する任意の利用可能なネットワークであってよい。通信ネットワークは、例えば、これだけに限定することなく、電力線ブロードバンド(BPL)、ケーブルモデム、デジタル加入者回線(DSL)、ファイバー、サテライト、および無線を含めた高速伝達ネットワークを利用することができる。
【0276】
一態様では、ローカルエリアネットワーク;ローカルエリアネットワークに接続された、DNA配列データを保管するように設定されたコンピュータメモリを含む1つまたは複数のDNAシーケンサー;コンピュータがローカルエリアネットワークに接続された、コンピュータメモリおよびプロセッサを含むバイオインフォマティクスコンピュータを含むシステムであって、コンピュータが、実行されると、DNAシーケンサーに保管されているDNA配列データをコピーし、コピーされたデータをバイオインフォマティクスコンピュータ内のメモリに書き込み、本明細書に記載のステップを実施するコードをさらに含む、システムが本明細書で提供される。
【0277】
本開示の方法およびシステムは、1つまたは複数のアルゴリズムによって実行することができる。アルゴリズムは、中央処理装置105によって実行された際にソフトウェアによって実行することができる。アルゴリズムにより、例えば、がんが存在するかどうかおよび/または進行しているかどうかを決定することができる。
【0278】
本明細書において言及される全ての刊行物および特許出願は、各個々の刊行物または特許出願が具体的にかつ個別に、参照により組み込まれることが示されたものと同じく参照により本明細書に組み込まれる。
【0279】
前述のことから、本明細書には例示する目的で本開示の特定の実施形態が記載されているが、本開示の主旨および範囲から逸脱することなく種々の改変を行うことができることが理解されよう。したがって、本開示は添付の特許請求の範囲以外には限定されない。
【0280】
本開示の好ましい実施形態が本明細書において示され、記載されているが、そのような実施形態は単に例として提供されていることは当業者には明白であろう。本開示は、本明細書の中で提供される特定の例によって限定されるものではない。本開示は上述の明細書を参照して説明されているが、本明細書の実施形態の説明および図表は、限定の意味で解釈されることを意図していない。当業者は、本開示から逸脱することなく多数の変形、変化および置換をすぐに思いつくであろう。さらに、本開示の全ての態様は、種々の条件および変数に依存する本明細書に記載の特定の描写、構成または相対的な割合に限定されないことが理解されるべきである。本明細書に記載されている本開示の実施形態に対する種々の代替を本開示の実施に使用できることが理解されるべきである。したがって、本開示は、そのような代替、改変、変形または等価物のいずれをも包含するものとすることが意図される。以下の特許請求の範囲は本開示の範囲を定義するものであること、およびこれらの特許請求の範囲内に入る方法および構造ならびにそれらの等価物が包含されることが意図されている。
【実施例0281】
(実施例1)
初期がん患者においてctDNAを検出するための次世代シーケンシングアッセイ
臨床循環腫瘍DNA試験(表2の73種の遺伝子)を受けている10288名の進行がん患者(pts)からの匿名化cfDNAシーケンシングデータをこの試験に含めた。cfDNAを血漿から抽出し、数量化した。DNAライブラリーを調製し、平均のリードの深さ15,000×までシーケンシングした。Ingenuity Variant Analysisを使用して、生殖系列起源である疑いがある(対立遺伝子画分40~60%)点突然変異および小さなインデルを、American College of Medical Genetics and Genomicsガイドラインに従って分類した。肺(40%)、乳房(20%)、結腸直腸がん(CRC)(8%)、前立腺(6%)、および膵臓(3%)を含めた50種を超えるがんの型を試験した。対象の平均年齢は63.6歳(18~95歳の範囲)であり、42%が男性であった。識別された推定上の生殖系列変異体34,873種のうち、520種(1.5%)が病原性またはおそらく病原性(PV)であり、16,939種(49%)が意義不明であり、17,414種(50%)が良性またはおそらく良性であった。遺伝性がん症候群遺伝子PVを有する対象250名(2.4%)のうち、83名が高レベルの体細胞性腫瘍量に起因して除外され、167名(1.6%)が推定上の生殖系列PVのまま残った;率は、50歳未満の患者において、50歳またはそれよりも上の患者全体よりも(3.3%対1.4%、p=0.02)および乳がん患者において(4.3%対1.5%、p=0.03)高かった。結果を表4に示す。
【表4】
【0282】
付随的に識別された推定上の生殖系列PVの観察された頻度は、真の生殖系列率よりも低かったが、これらの所見から、cfDNAからの検出が臨床的に実行可能であることが例示される。重要なことに、付随的な生殖系列の所見は、腫瘍処置計画(例えば、BRCA1/2突然変異に対するPARP阻害剤)に影響を及ぼす可能性があり、また、サーベイランス/一次予防の増大によって家族の利益になる可能性がある。
(実施例2)
無細胞DNAにおける生殖系列EGFR T790M突然変異の識別
【0283】
血漿cfDNAのゲノム解析により、腫瘍遺伝子型決定と生殖系列遺伝子型決定が、腫瘍由来変異体と生殖系列変異体の正確な分解能で同時に可能になるかどうかに対処するために、NSCLC患者の10~20%に存在する既知の生殖系列変異体および発がん性突然変異の群を含めたEGFR遺伝子の体細胞変異体および生殖系列変異体を試験した。EGFR突然変異の1つ、T790Mは、生殖系列変異体として稀に検出される場合があり、その存在が家族性肺がんに関連付けられている。EGFR T790Mは、より一般には、NSCLCの患者にEGFRチロシンキナーゼ阻害剤(TKI)に対する耐性が生じた後、後天性体細胞突然変異として見られる。最初の治療後にT790M媒介性耐性を有する肺がんは、第3世代EGFR TKIであるオシメルチニブに対する感受性を示す。
【0284】
49歳、肺がんの家族歴を有する喫煙経験のない非喫煙者が、第2世代EGFRチロシンキナーゼ阻害剤(TKI)であるアファチニブで一時増悪を伴う転移性肺腺癌を示した。最初の組織遺伝子型決定により、EGFR L858RおよびT790M突然変異、ならびにCDKN2A、TP53、およびCTNNB1における他の体細胞性変更が示された。EGFRにおけるL858R突然変異に起因して、第一選択のアファチニブを開始した。しかし、患者は、治療のたった2カ月後に進行性脳転移に戻った。表5に示されている通り、照会時、血漿次世代シーケンシング(NGS)により、以前に観察されたEGFR L858R、TP53、およびCTNNB1変異体が1.4~5.3%対立遺伝子画分(AF)で実証されたが、EGFR T790M対立遺伝子は50.9%AFで検出された。
【表5】
【0285】
患者に最初のEGFR TKIに対するEGFR T790M媒介性耐性の状況で活性なEGFRチロシンキナーゼ阻害剤(TKI)であるオシメルチニブを開始し、スキャンにより肺における初期増悪が示された時点で臨床的有用性が9カ月続いていた。反復血漿NGSより、EGFR L858R変異体が0.6%AFで示されたが、T790Mは49.2%AFで比較的安定であった(
図7、701はEGFR L858Rであり、702は、EGFR T790Mであり、703は、EGFR Q787Qであり、704は、TP53 P278Rである)。次いで、患者は、臨床試験中の治験治療を受け、さらなる疾患増悪が生じた。この時点で反復血漿NGSにより、EGFR L858R、18%AF、T790M、54%AF、およびオシメルチニブに対する獲得耐性を媒介する第3のEGFR突然変異であるC797S、1.3%AFのレベルの上昇が実証された。この突然変異は、オシメルチニブに対する獲得耐性を媒介し得、肺がんの最初の診断時にEGFR T790M突然変異が存在することにより、cfDNA解析におけるそのAFが高いこと、および肺がんの家族歴と共に、EGFR T790M突然変異により生殖系列リスク対立遺伝子が表された可能性があるという疑いが増す。
ドロップレットデジタルPCR
【0286】
血液(6~10mL)をEDTAラベンダーキャップバキュテイナ管に採取し、1200gで10分間遠心分離した。血漿上清を3000gで10分間遠心分離することによってさらに清澄化した。第2の上清をクリオスタット管中、使用するまで-80℃で保管した。無細胞DNAを、QIAmp Circulating Nucleic Acid
Kit(Qiagen)を使用して単離し、ドロップレットデジタルPCR(ddPCR)を実施した。簡単に述べると、各アッセイについて、TaqMan PCR反応混合物を2×ddPCR Mastermix(Bio-Rad)からアセンブリし、40×TaqManプローブ/プライマーを作製した。自動化ドロップレット発生装置(Bio-RAD)を使用してドロップレットを生成した。PCRをエンドポイントまで実施した。PCRの後、ドロップレットをQX100またはQX200ドロップレットリーダー(Bio-Rad)のいずれかで読み取った。QuantaSoft analysis software(Bio-Rad)を用いてddPCRデータの解析を実施した。全てのddPCR試薬をBio-Radに注文した。全てのプライマーおよびプローブをLife Technologiesに特注した。プライマーおよび条件は以下の通りであった。
【0287】
EGFR L858Rフォワードプライマー、5’-GCAGCATGTCAAGATCACAGATT-3’(配列番号1);リバースプライマー、5’-CCTCCTTCTGCATGGTATTCTTTCT-3’(配列番号2);プローブ配列:5’-VIC-AGTTTGGCCAGCCCAA-MGB-NFQ-3’(配列番号3)、5’-FAM-AGTTTGGCCCGCCCAA-MGB-NFQ-3’(配列番号4)。サイクル条件:95℃×10分(1サイクル)、94℃×30秒および58℃×1分を40サイクル、ならびに10℃での保持。
【0288】
EGFR del 19フォワードプライマー、5’-GTGAGAAAGTTAAAATTCCCGTC-3’(配列番号5);リバースプライマー、5’-CACACAGCAAAGCAGAAAC-3’(配列番号6);プローブ配列:5’-VIC-ATCGAGGATTTCCTTGTTG-MGB-NFQ-3’(配列番号6)、5’-FAM-AGGAATTAAGAGAAGCAACATC-MGB-NFQ-3’(配列番号7)。サイクル条件:95℃×10分(1サイクル)、94℃×30秒および55℃×1分を40サイクル、その後、10℃で保持。
【0289】
EGFR T790M、フォワードプライマー、5’-GCCTGCTGGGCATCTG-3’(配列番号8)、リバースプライマー、5’-TCTTTGTGTTCCCGGACATAGTC-3’(配列番号9);プローブ配列:5’-VIC-ATGAGCTGCGTGATGAG-MGB-NFQ-3’(配列番号10)、5’-FAM-ATGAGCTGCATGATGAG-MGB-NFQ-3’(配列番号11)。サイクル条件:95℃×10分(1サイクル)、94℃×30秒および58℃×1分を40サイクル、その後、10℃で保持。
血漿次世代シーケンシング
【0290】
無細胞DNA管に採血した全血10mlからcfDNAを単離し、70種の遺伝子のエクソンおよび6種の遺伝子の重要なイントロンを標的とするハイブリッド捕捉によって富化させ、Illumina NextSeq500シーケンサーで平均深さ約15,000×までシーケンシングを行った。
生殖系列シーケンシング
【0291】
選択された事例に関して、匿名化された軟膜検体を提供し、EGFRのサンガーシーケンシングのためにゲノムDNAを抽出した。
統計解析
【0292】
変異体のヘテロ接合性群内のEGFRドライバー突然変異のAFとコピー数多型の値の関係を、線形回帰を使用して解析した。個々の事例についての標準偏差および平均AFの分布の確率密度関数を、ガウス近似を使用して推定し、チューキー法を使用して外れ値を識別した。目的の診断それぞれにおけるEGFR T790M有病率についての95%信頼区間を決定した。両側フィッシャーの正確確率検定を使用して異なる診断の間で有病率を比較した。
結果
【0293】
EGFR T790M突然変異を有する、進行NSCLCを有する患者85名のうち、3名は、以前の生殖系列シーケンシングに基づいて生殖系列EGFR T790M突然変異を有することが既知であったが、残りの患者は、TKI処置後に後天性EGFR T790Mを有した。T790M対立遺伝子の絶対濃度を血漿1mL当たりのコピー数の単位で試験することにより、体細胞性T790Mを有する一部の事例は、生殖系列EGFR T790Mを有する3事例よりもいっそう高濃度の血漿中突然変異体T790M対立遺伝子を有した(
図2A)。対照的に、その遺伝子座における全ての突然変異体または野生型変異体のうちの突然変異体T790Mのコピーの割合として算出されるT790MのAFを用いると、生殖系列の3事例のAFはおよそ50%を前後し、体細胞性T790M事例のAFよりも高かった(
図2A)。次いで、オシメルチニブなどの第3世代EGFR TKIを用いた処置での血漿cfDNAにおける体細胞性EGFR突然変異のレベルの変化と生殖系列EGFR突然変異のレベルの変化を試験した。第1世代TKI耐性後に後天性EGFR T790Mを有する患者では、EGFR T790M突然変異とドライバー突然変異(例えば、L858Rまたはエクソン19欠失)のどちらの濃度も治療に応答して劇的に低下した(
図2B)。対照的に、生殖系列EGFR T790M突然変異を有する患者では、EGFRドライバー突然変異は治療に応答したが、EGFR T790Mレベルは比較的安定なままであった(
図2B)。これらのデータから、血漿cfDNA中の変異体レベルの定量化を使用して、体細胞起源と生殖系列起源の腫瘍関連突然変異を識別することができるという概念実証がもたらされた。
【0294】
次世代シーケンシング(NGS)は、いくつものがんに関連する遺伝子にわたって広範囲の変異体を捕捉する潜在性を有する。血漿cfDNAにおける生殖系列EGFR突然変異および体細胞EGFR突然変異の挙動をさらに調査するために、70種の癌遺伝子および腫瘍抑制因子遺伝子のエクソン領域、および腫瘍形成再構成が生じる6種の遺伝子のイントロン領域のシーケンシングを行った。体細胞EGFR突然変異および生殖系列EGFR突然変異の分布を試験するために臨床的血漿NGSの結果のデータベースを照会し、その結果、以下:既知の体細胞突然変異(L858Rおよびエクソン19欠失)、EGFRチロシンキナーゼドメイン内の一般的な生殖系列一塩基多型(SNP)(Q787Q)(17)、およびT790Mのそれぞれについて950の連続したNSCLC試料の試験セットが識別され、それぞれのAF分布をプロットした(
図2C)。既知のSNPの分布は、AF50%および100%に集中した2つの別個の正規分布した確率分布で構成され、これは、Q787Q対立遺伝子のヘテロ接合性およびホモ接合性と矛盾しなかった。既知の体細胞性変更であるL858Rおよびエクソン19欠失の分布については、対照的に、アッセイの検出限界から始まり、90%を超えるAFまで伸長する長い尾部を有する指数関数的減衰分布が実証され、これは、実質的に変動したが、一般に低いものであった(<5%)体細胞AFと矛盾しなかった。T790Mの分布は、主にこの同じ体細胞性分布と一致した。しかし、軽微であるが別個の、正規分布した亜集団が50%AFに集中した(
図2C)。このパターンは、cfDNAにおける変異体AFの試験を、生殖系列起源または体細胞起源のいずれかであり得るEGFR T790Mのような変異体をカテゴリー化するための方法として支持するものである。
【0295】
がんにおいてEGFRドライバー突然変異を有することが公知の生殖系列EGFR T790Mを有する3事例(2事例はL858R、1事例はL861Q)からの処置前の血漿検体および処置時の血漿検体に対して血漿NGSを実施することによってAF分布をさらに試験した。血漿NGSで識別された全てのコード変異体および非コード変異体のAFを試験することにより、3群の変異体が明白に可視化された(
図3A、301はEGFR
T790Mであり、302はEGFRドライバー突然変異であり、303はTP53突然変異であり、304は他の変更であり、305はホモ接合性バンドであり、306はヘテロ接合性バンドであり、307は腫瘍バンドである)。最低AF群の変異体は、EGFRドライバーおよびTP53突然変異を含み、これは、がん由来変異体を表す。最高AF群の変異体は、100%AF付近に集中し、これは、ホモ接合性生殖系列変異体を表す。最後に、中間群の変異体は、50%付近に集中し、これは、既知の生殖系列EGFR T790M突然変異を含み、ヘテロ接合性生殖系列変異体を表すものであった。第3世代EGFR TKIを用いた処置時には(2事例はオシメルチニブを用いて、1事例はASP7283を用いて)、低AFのがん由来変異体は減少したかまたは検出不可能になり(24%→0.2%、3.7%→ND、1.1%→ND)、低AFがん由来変異体は減少したかまたは検出不可能になった。対照的に、中間群のヘテロ接合性生殖系列変異体はわずかに変化し、50%AF付近に集中したままであった(56%→49%、52%→49%、49%→50%)。興味深いことに、これらのヘテロ接合性変異体の一部はがんが治療に応答するにしたがってAFが上昇したが、その他はAFが低下したように思われた。処置時のヘテロ接合性群におけるこれらの変化は、cfDNAにおける変異体AFの変化を導く腫瘍由来コピー数多型の減少を表す可能性がある。
【0296】
次いで、上記の最初の事例の血漿NGSからの全てのコード変異体および非コード変異体を調査した(表5)。これにより、試験した生殖系列EGFR T790M事例と同様のパターンが明らかになり、患者のEGFR T790M突然変異は変異体のヘテロ接合性群に入り、およびAFは治療時にEGFR L858R突然変異と比較して最小に変化した(
図7)。
【0297】
cfDNAにおける腫瘍含有量とヘテロ接合性コピー数多型の関係をさらに試験するために、追加的な、EGFR T790Mについて陽性であった血漿NGS 63事例およびT790Mを伴わないEGFRドライバー突然変異について陽性であった血漿NGS 39事例についてデータベースを照会した。これらの105事例はそれぞれ、検出された107種のコード変異体および非コード変異体の中央値を有した。全部で10,702種の変異体全てのAF分布について調べることにより(
図3B)、約0%、49%、および100%に3つのAFピークを有する3峰性分布が明白に見られた。低AF群の変異体では、非コードエクソンおよびイントロン変異体と比較してコードミスセンス変異体およびナンセンス変異体に富み(
図3C)、これは、低AF群の変異体ががん由来変異体の群を表すことと一致した。
【0298】
潜在的な生殖系列と体細胞変異体の関係を試験するために、各血漿NGS事例を個別にEGFRドライバー突然変異の低AFから高AFの順にプロットした(
図4A、401(黒色のドット)はEGFRドライバー突然変異であり、402(大きな灰色のドット)はEGFR Q787Q(既知のSNP)であり、403はヘテロ接合性バンドの平均であり、404(中間サイズの灰色のドット)は、他のコード変更であり、405(小さな灰色のドット)は非コード変更である)。ドライバー突然変異のAFはcfDNAにおける腫瘍含有量の完全な尺度ではないが(一部の場合ではEGFR遺伝子増幅が存在するかしないかに起因する)、コホートにわたるcfDNAにおける腫瘍含有量の推定としての機能を果し得る。ヘテロ接合性群における変異体AFの分布を試験することにより、全ての変異体が25%から75%の間のAFを有し、EGFRドライバー突然変異のAFが上昇するにしたがって分布が変化することが示された。EGFRドライバーAFの上昇は、ヘテロ接合性群の標準偏差の増大(
図4B)ならびに事例と集団平均の間の絶対的な差異の増大と関連し、これらはどちらも、がん由来のコピー数多型の存在を示唆するものである。ヘテロ接合性群の変異体のAFの標準偏差を試験することにより、正規分布が94事例に当てはまったが、11事例は外れ値特性を有した(
図8A)。同様に、ヘテロ接合性群の変異体についてAFの中央値を試験することにより、正規分布が94事例に当てはまったが、11事例は外れ値特性を有した(
図8B)。これらの外れ値集団は重複したので、全部で16事例が、2つの外れ値特性のうちの1つを示し、cfDNAにおける高いコピー数多型というエビデンスを伴い、これは、生殖系列変異体のAFの変動性を引き起こす高レベルの腫瘍DNAに起因している可能性がある。
【0299】
高いコピー数多型により、生殖系列変異体のAFに予測される50%からの実質的な偏差が生じ得るので、これらの外れ値事例では生殖系列-体細胞性識別が損なわれる可能性がある。したがって、これらの外れ値の16事例は、外れ値特性を有さない89事例とは分離された(
図5)。外れ値事例のコード変異体についての視覚的考察では、生殖系列ヘテロ接合性変異体と体細胞性がん由来変異体の明白な分離を区別することは困難であるが、対照的に、高いコピー数多型のこれらの特性を有さない事例のコード変異体についての視覚的考察では(
図5、501(大きな灰色のドット)はEGFR T790Mであり、502(黒色のドット)はEGFRドライバー突然変異であり、503(小さな灰色のドット)は他のコード変更である)、AFが30%を下回るがん由来変異体の群と重複しない35~60%の範囲内のAFを有するヘテロ接合性変異体の群の明白な区別が可能になる。したがって、高いコピー数多型(したがって、高腫瘍含有量)を有する血漿NGS事例を除外することにより、血漿NGSの結果を、がん由来群内の体細胞変異体に正確に弁別し、ヘテロ接合性群内の生殖系列リスク対立遺伝子を付随的に識別することができる。
【0300】
これらの概念実証試験の論理に従って、統合バイオインフォマティクスアルゴリズムを開発し、評価して、血漿NGSを使用してアッセイした70種の遺伝子にわたって生殖系列と体細胞性変更を分離した。このアルゴリズムでは、まず、既知の生殖系列および体細胞変異体(病原性および良性)の内部および外部データベースを含めた経験的知見を使用して変異体を推定生殖系列または体細胞起源に割り当てた。例えば、EGFR Q787Q変更は、ExACデータベース(http://exac.broadinstitute.org/)において生殖系
列エキソームの約52%に存在する良性多型であり、これにより、EGFR Q787Q変更を対立遺伝子画分にかかわらず推定生殖系列起源と指定することが可能になる。逆に、EGFR L858R変更はNSCLCにおいて比較的一般的な発がん性突然変異であるが、生殖系列データベースでは見られず、これにより、EGFR L858R変更を推定体細胞起源であると指定することが可能になる。そのような経験的ビニングの結果、通常、事例当たり中央値78種の変異体が生殖系列と割り当てられ、これにより、上記の試験で記載されている通り変異体AFによってヘテロ接合性確率分布を構築することが可能になる。全ての推定体細胞突然変異(一般に、より少ない数)がこのヘテロ接合性生殖系列分布の下限未満に存在する場合、残りの割り当てられていない変異体の生殖系列-体細胞性識別は、経験的変異体分類によって記載された生殖系列分布と比べたそれらのAFに従って進行する。しかし、推定体細胞変異体のAFがヘテロ接合性生殖系列分布の下限のAFを超える、または極度の染色体不安定性が検出される(見かけのゲノムの二倍体画分によって評価して)場合、生殖系列/体細胞性識別は、重複する領域内の残りの変異体に関しては不確実になると思われ、また、変異体は体細胞性起源であると推定され、そのように報告される。この手法により、疑わしい生殖系列変異体を高い陽性的中率で識別することが可能になり、生殖系列起源の変異体に対する感度が高腫瘍DNA含有量の状況では低下することが理解される。
【0301】
次いで、このアルゴリズムを、血漿NGSで高AF(30%~75%)EGFR T790M突然変異が検出された、21事例の前向きに採取された臨床試料に適用した(
図9、901(大きな灰色のドット)はEGFR T790Mであり、902(黒色のドット)はEGFRドライバー突然変異であり、903(小さな灰色のドット)は他のコード変更である)。事例を上記のEGFR T790Mの生殖系列-体細胞性分離に基づいて2つのコホートに分離した。コホートAには、体細胞性由来変異体の分布と生殖系列由来変異体の分布により、生殖系列T790M突然変異が存在するという予測が導かれる11事例が含まれた。コホートBには、生殖系列と体細胞性の決定が高いコピー数多型および広範なヘテロ接合性群により複雑であった10事例が含まれた。次いで、各試料のゲノムDNA含有細胞画分を不可逆的に匿名化し、二重盲検様式でのEGFRシーケンシングのためにCLIA認定臨床検査室に提出し、したがって、生殖系列の結果は個々の患者のいずれについても追跡不可能であった。コホートAの11事例は全て、生殖系列EGFR T790Mを有することが確認された(陽性的中率100%、11/11)。コホートBの10事例のうち1事例が生殖系列であることが見いだされ、感度92%(11/12)および全体的な正確度95%(20/21)がもたらされた。コホートBにおける生殖系列試料の存在は、高腫瘍含有量を有し、したがって、推定体細胞突然変異のAFがヘテロ接合性生殖系列分布と重複する事例であることが疑われ、これにより、生殖系列変異体を確実に識別することが難しくなった。
【0302】
生殖系列EGFR T790Mを有する血漿NGS事例を識別するための方法が検証されたので、既存の血漿NGSデータを使用して、特定のがんの型を有する生殖系列変異体の関連に関して学習した。多種多様な成人固形腫瘍型を表す31,414名の継続的な固有の患者の臨床試験データベースを照会して、EGFR T790Mについて陽性の911事例を識別し、そのうち48事例が、上記の方法体系によって判定して生殖系列起源であった。非扁平上皮NSCLCは患者コホート全体では少数におけるがん診断であったが(41%)、これは、生殖系列EGFR T790Mを有する患者では48名のうち43名におけるがん診断であった(90%、
図6A)。さらに、残りの5名の生殖系列EGFR T790Mを有する患者のうち、3名が関連する診断(扁平上皮NSCLC、小細胞肺がん、原発不明癌)を有した。非扁平上皮NSCLCを有する患者における生殖系列EGFR T790Mの集団内頻度(43/12,774、0.34%)は、別のがん診断を有する患者において見られたものよりも実質的に高く(5/18,640、0.03%、
図6B)、後者は、一般集団のシーケンシングの試みによって報告されたものよりも中程度にだけ高かった(例えば、ExACの対立遺伝子頻度中央値0.0082%)。これらの知見は、生殖系列T790Mを有する患者が特にNSCLCに対してリスクが高いという概念と一致し、また、この対立遺伝子は、肺がんに加えて他のがんに対する実質的なリスクの上昇は付与するものではないことが示唆される。
【0303】
上記の分析から、生殖系列がんリスク対立遺伝子を調査するためのツールとしてのcfDNAゲノミクスの能力が実証される。進行中の臨床的研究の試みからの既存のデータおよび試料を使用して、cfDNA NGSプロファイル内の生殖系列変異体とがん由来の体細胞変異体を区別するためのバイオインフォマティクスアルゴリズムを開発し、検証し、それにより、治療選択ならびに遺伝リスク対立遺伝子のスクリーニングのための腫瘍遺伝子型に関する洞察をもたらすことができる単一のアッセイをもたらした。臨床試験データベースを照会して、稀な生殖系列対立遺伝子であるEGFR T790Mを探究し、非扁平上皮NSCLCを有する患者におけるこの突然変異の富化が観察された。上記のデータから、現在のところ生殖系列変異体を検出し、ある特定の状況では、それらを体細胞変異体と弁別するために、常套的な臨床ケアに使用されている血漿遺伝子型決定の能力が強調される。