(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-02-25
(54)【発明の名称】多重コピー数変異検出および対立遺伝子比定量化のための定量的アンプリコン配列決定
(51)【国際特許分類】
C12Q 1/6844 20180101AFI20220217BHJP
C12Q 1/6869 20180101ALI20220217BHJP
C12Q 1/6855 20180101ALI20220217BHJP
【FI】
C12Q1/6844 Z ZNA
C12Q1/6869 Z
C12Q1/6855 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2021538955
(86)(22)【出願日】2020-01-02
(85)【翻訳文提出日】2021-08-16
(86)【国際出願番号】 US2020012089
(87)【国際公開番号】W WO2020142631
(87)【国際公開日】2020-07-09
(32)【優先日】2019-01-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】510166102
【氏名又は名称】ウィリアム マーシュ ライス ユニバーシティ
【氏名又は名称原語表記】WILLIAM MARSH RICE UNIVERSITY
【住所又は居所原語表記】6100 Main Street,Houston,TX 77005, United States of America
(74)【代理人】
【識別番号】100102978
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100102118
【氏名又は名称】春名 雅夫
(74)【代理人】
【識別番号】100160923
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100121072
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】チャン デイビッド
(72)【発明者】
【氏名】ダイ ペン
(72)【発明者】
【氏名】ウー ルオジア
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA18
4B063QQ42
4B063QR08
4B063QR62
4B063QS25
4B063QS34
4B063QX02
(57)【要約】
DNA試料におけるターゲティングされたゲノム遺伝子座の各鎖をポリメラーゼ連鎖反応によりオリゴヌクレオチドバーコード配列で標識して、ハイスループット配列決定のためのゲノム領域を増幅させるための、定量的アンプリコン配列決定の方法が、本明細書で提供される。本方法は、各遺伝子の過剰コピーの頻度を定量化することによって、一連の関心対象の遺伝子におけるコピー数変異(CNV)の同時検出のために使用することができる。さらに、これらの方法は、多重PCRを使用した、ターゲティングされたゲノム遺伝子座についての異なる遺伝的同一性の対立遺伝子比の定量化を提供する。さらに、これらの方法は、変異の検出および変異体対立遺伝子頻度の定量化を提供する。
【選択図】
図1
【特許請求の範囲】
【請求項1】
ハイスループット配列決定のためにゲノムDNAのターゲティングされた領域を調製するための方法であって、
(a)ゲノムDNA試料を得ることと、
(b)(i)5’から3’に向かって、第1の領域、0~50ヌクレオチドの長さを有する第2の領域、少なくとも4個の縮重ヌクレオチドを含む第3の領域、および第1の標的ゲノムDNA領域に相補的である配列を含む第4の領域を含む、第1のオリゴヌクレオチド、ならびに
(ii)5’から3’に向かって、第5の領域、0~50ヌクレオチドの長さを有する第6の領域、および第2の標的ゲノムDNA領域に相補的である配列を含む第7の領域を含む、第2のオリゴヌクレオチド
を使用して、2サイクルのPCRを実行することによって前記ゲノムDNA試料の少なくとも一部を増幅させることと、
(c)ステップ(b)で使用されるアニーリング温度よりも0~10℃高いアニーリング温度で、かつ
(i)前記第1の領域の少なくとも一部の逆相補体にハイブリダイズすることができる配列を含む第3のオリゴヌクレオチド、および
(ii)前記第5の領域の少なくとも一部の逆相補体にハイブリダイズすることができる配列を含む第4のオリゴヌクレオチド
を使用して、少なくとも3サイクルのPCRを実行することによって、ステップ(b)の生成物を増幅させることと、
(d)5’から3’に向かって、第8の領域、0~50ヌクレオチドの長さを有する第9の領域、および第3の標的ゲノムDNA領域に相補的である配列を含む第10の領域を含む、第5のオリゴヌクレオチド
を使用して、少なくとも1サイクルのPCRを実行することによって、ステップ(c)の生成物を増幅させることと
を含み、前記第3の標的ゲノムDNA領域は、前記第2の標的ゲノムDNA領域よりも、前記第1の標的ゲノムDNA領域に少なくとも1ヌクレオチド近い、前記方法。
【請求項2】
ハイスループット配列決定のためにゲノムDNAの1~10,000個のターゲティングされた領域を調製するための方法である、請求項1に記載の方法。
【請求項3】
前記第3の領域は、固有分子識別子(UMI)である、請求項1または2に記載の方法。
【請求項4】
前記第3の標的ゲノムDNA領域は、前記第2の標的ゲノムDNA領域よりも、前記第1の標的ゲノムDNA領域に1~10塩基近い、請求項1~3のいずれか一項に記載の方法。
【請求項5】
前記第1の領域および前記第8の領域は、ユニバーサルプライマー結合部位である、請求項1~4のいずれか一項に記載の方法。
【請求項6】
前記第1の領域および前記第8の領域は、完全または部分的なNGSアダプター配列を含む、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記第5の領域は、ヒトゲノム中に認めることができない配列を含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
前記第5の領域は、NGSアダプター配列と異なる配列を含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記第1の領域および前記第5の領域の融解温度は、前記第4の領域および前記第7の領域の融解温度よりも0~10℃高い、請求項1~8のいずれか一項に記載の方法。
【請求項10】
前記第3の領域における前記縮重ヌクレオチドは、各々独立して、A、T、またはCのうちの1つである、請求項1~9のいずれか一項に記載の方法。
【請求項11】
前記第3の領域における前記縮重ヌクレオチドのいずれも、Gではない、請求項1~10のいずれか一項に記載の方法。
【請求項12】
各々が固有の第3の領域を有する第1のオリゴヌクレオチドの集団がある、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記ステップ(c)の生成物を精製することをさらに含む、請求項1~12のいずれか一項に記載の方法。
【請求項14】
精製することは、SPRI精製またはカラム精製を含む、請求項13に記載の方法。
【請求項15】
前記ステップ(d)の生成物を精製することをさらに含む、請求項1~14のいずれか一項に記載の方法。
【請求項16】
精製することは、SPRI精製またはカラム精製を含む、請求項15に記載の方法。
【請求項17】
(e)前記ステップ(d)の生成物を、前記第1の領域および前記第8の領域にハイブリダイズするプライマーを使用したPCRによって増幅させることであって、前記プライマーは次世代配列決定のためのインデックス配列を含む、こと
をさらに含む、請求項1~16のいずれか一項に記載の方法。
【請求項18】
前記ステップ(e)の生成物を精製することをさらに含む、請求項17に記載の方法。
【請求項19】
精製することは、SPRI精製またはカラム精製を含む、請求項18に記載の方法。
【請求項20】
(f)前記ステップ(e)の生成のハイスループットDNA配列決定を実行すること
をさらに含む、請求項17~19のいずれか一項に記載の方法。
【請求項21】
ハイスループットDNA配列決定は、次世代配列決定を含む、請求項20に記載の方法。
【請求項22】
前記第1の標的ゲノムDNA領域および前記第2の標的ゲノムDNA領域は、前記ゲノムDNAの向かい合う鎖上にある、請求項1~21のいずれか一項に記載の方法。
【請求項23】
前記第1の標的ゲノムDNA領域および前記第2の標的ゲノムDNA領域は、40ヌクレオチド~500ヌクレオチド離れている、請求項1~22のいずれか一項に記載の方法。
【請求項24】
ステップ(b)は、約30分の伸長時間を含む、請求項1~23のいずれか一項に記載の方法。
【請求項25】
ステップ(c)は、約30秒の伸長時間を含む、請求項1~24のいずれか一項に記載の方法。
【請求項26】
ステップ(d)は、約30分の伸長時間を含む、請求項1~25のいずれか一項に記載の方法。
【請求項27】
少なくとも1つの標的遺伝子の過剰コピーの頻度(FEC)を定量化するための方法であって、
(a)ゲノムDNA試料を得ることと、
(b)請求項1~26のいずれか一項に記載の方法に従ってハイスループット配列決定のために前記ゲノムDNAを調製することであって、前記第4の領域、前記第7の領域、および前記第10の領域の前記配列が、前記少なくとも1つの標的遺伝子にハイブリダイズする、ことと、
(c)請求項20に記載の方法に従ってハイスループット配列決定を実行することと、
(d)ステップ(c)で得られる配列情報に基づいて、前記少なくとも1つの標的遺伝子について前記FECを計算することと
を含む、前記方法。
【請求項28】
前記方法は、一連の標的遺伝子について前記FECを定量化するための方法であり、前記一連の標的遺伝子は、2~1000個の標的遺伝子を含む、請求項27に記載の方法。
【請求項29】
ステップ(b)は、第1のオリゴヌクレオチドの集団、第2のオリゴヌクレオチドの集団、および第5のオリゴヌクレオチドの集団を使用して実行され、前記第1、第2、および第5のオリゴヌクレオチドの集団の各々の一部は、前記一連の標的遺伝子のうちの1つに相補的である第4、第7、および第10の領域をそれぞれ含む、請求項27または28に記載の方法。
【請求項30】
前記第4、第7、および第10の領域の各々が、ヒトゲノム中に一度だけ認められる配列を含む、請求項27~29のいずれか一項に記載の方法。
【請求項31】
1つの標的遺伝子にハイブリダイズする各第1のオリゴヌクレオチドが、同じ標的遺伝子にハイブリダイズする各他の第1のオリゴヌクレオチドと比較して固有の第3の領域を有する、請求項27~30のいずれか一項に記載の方法。
【請求項32】
ステップ(b)は、参照遺伝子に相補的である第4、第7、および第10の領域をそれぞれ含む第1のオリゴヌクレオチド、第2のオリゴヌクレオチド、および第5のオリゴヌクレオチドを使用して実行される、請求項27~31のいずれか一項に記載の方法。
【請求項33】
ステップ(b)は、ハイスループット配列決定のために各標的遺伝子または参照遺伝子の一部を調製し、前記一部は、40ヌクレオチド~500ヌクレオチド長である、請求項27~32のいずれか一項に記載の方法。
【請求項34】
FECは、以下:
【数1】
として定義される、請求項27~33のいずれか一項に記載の方法。
【請求項35】
ステップ(d)は、
(i)NGSリードを各標的遺伝子の前記ターゲティングされた部分とアラインメントして、前記NGSリードを、それらがアラインメントする遺伝子座に基づいてサブグループにグループ化することと、
(ii)同じUMI配列を担持する全てのNGSリードが1つのUMIファミリーとしてグループ化されるように、各遺伝子座での前記NGSリードを、それらのUMI配列に基づいて分類することと、
(iii)PCRエラーまたはNGSエラーから生じるUMIファミリーを取り除くことと、
(iv)各遺伝子座での固有のUMI配列の数を計数することと、
(v)各標的遺伝子および参照遺伝子における各遺伝子座について、前記固有のUMI配列の数に基づいて前記FECを計算することと
を含む、請求項27~34のいずれか一項に記載の方法。
【請求項36】
ステップ(d)(iii)は、前記UMI縮重塩基設計に適合しないUMI配列を取り除くことを含む、請求項35に記載の方法。
【請求項37】
ステップ(d)(iii)は、Fminよりも小さいUMIファミリーサイズを有するUMIファミリーを取り除くことを含み、前記UMIファミリーサイズは、前記同じUMIを担持する前記リードの数であり、Fminは、2~20である、請求項35または36に記載の方法。
【請求項38】
ステップ(d)(iv)は、より大きいファミリーサイズを有する別のUMI配列と1または2個の塩基のみが異なるUMI配列を取り除くことを含む、請求項35~37のいずれか一項に記載の方法。
【請求項39】
FECは、以下:
【数2】
として定義され、式中、
【数3】
は、前記標的遺伝子座の全てまたは一部についての固有UMI数の合計であり、uは、考慮する遺伝子座の数であり、uは、前記標的遺伝子における前記遺伝子座の全数以下であり、
【数4】
は、参照遺伝子座の全てまたは一部についての固有UMI数の合計であり、vは、1つの参照について考慮する遺伝子座の数であり、vは、前記参照における遺伝子座の全数以下であり、wは、考慮する参照の数であり、wは前記参照の全数以下であり、kは、実験的な較正によって決定される、請求項27~38のいずれか一項に記載の方法。
【請求項40】
前記FECを使用して、前記標的遺伝子のコピー数変異(CNV)状態を特定する、請求項27~39のいずれか一項に記載の方法。
【請求項41】
少なくとも1つの標的ゲノム遺伝子座について異なる遺伝的同一性の対立遺伝子比を定量化するための方法であって、
(a)ゲノムDNA試料を得ることと、
(b)請求項1~26のいずれか一項に記載の方法に従ってハイスループット配列決定のために前記ゲノムDNAを調製することであって、前記第4の領域、前記第7の領域、および前記第10の領域の前記配列は、前記少なくとも1つの標的ゲノム遺伝子座付近で前記ゲノムDNAにハイブリダイズする、ことと、
(c)請求項20に記載の方法に従ってハイスループット配列決定を実行することと、
(d)ステップ(c)で得られた配列決定情報に基づいて前記少なくとも1つの標的ゲノム遺伝子座について異なる遺伝的同一性の対立遺伝子比を計算することと
を含む、前記方法。
【請求項42】
前記方法は、一連の標的ゲノム遺伝子座について異なる遺伝的同一性の前記対立遺伝子比を定量化するための方法であり、前記一連の標的ゲノム遺伝子座は、2~10,000個の標的ゲノム遺伝子座を含む、請求項41に記載の方法。
【請求項43】
ステップ(b)は、第1のオリゴヌクレオチドの集団、第2のオリゴヌクレオチドの集団、および第5のオリゴヌクレオチドの集団を使用して実行され、前記第1、第2、および第5のオリゴヌクレオチドの集団の各々の一部は、前記一連の標的ゲノム遺伝子座の少なくとも1つの付近で前記ゲノムDNAに相補的である第4、第7、および第10の領域をそれぞれ含む、請求項41または42に記載の方法。
【請求項44】
前記第4、第7、および第10の領域の各々は、ステップ(b)の条件下で、前記ゲノムDNAの非標的領域とハイブリダイズすることができない配列を含む、請求項41~43のいずれか一項に記載の方法。
【請求項45】
1つの標的ゲノム遺伝子座の付近で前記ゲノムDNAにハイブリダイズする各第1のオリゴヌクレオチドは、同じ標的ゲノム遺伝子座の付近で前記ゲノムDNAにハイブリダイズする各他の第1のオリゴヌクレオチドと比べて固有の第3の領域を有する、請求項41~44のいずれか一項に記載の方法。
【請求項46】
各標的ゲノム遺伝子座は、40ヌクレオチド~500ヌクレオチド長である、請求項41~45のいずれか一項に記載の方法。
【請求項47】
ステップ(d)は、
(i)NGSリードを前記ターゲティングされたゲノム遺伝子座とアラインメントして、前記NGSリードを、それらがアラインメントする前記遺伝子座に基づいてサブグループにグループ化することと、
(ii)前記同じUMI配列を担持する全てのNGSリードが1つのUMIファミリーとしてグループ化されるように、各遺伝子座での前記NGSリードを、それらのUMI配列に基づいて分類することと、
(iii)PCRエラーまたはNGSエラーから生じるUMIファミリーを取り除くことと、
(iv)前記遺伝的同一性を各残存UMIファミリーについて求めることと、
(v)前記固有UMI配列の数を各遺伝子座で計数することと、
(vi)前記対立遺伝子比を計算することと
を含む、請求項41~46のいずれか一項に記載の方法。
【請求項48】
ステップ(d)(iii)は、前記UMI縮重塩基設計に適合しないUMI配列を取り除くことを含む、請求項47に記載の方法。
【請求項49】
ステップ(d)(iii)は、Fminよりも小さいUMIファミリーサイズを有するUMIファミリーを取り除くことを含み、前記UMIファミリーサイズは、同じUMIを担持する前記リードの数であり、Fminは、2~20である、請求項47または48に記載の方法。
【請求項50】
ステップ(d)(iii)は、より大きいファミリーサイズを有する別のUMI配列と1または2個の塩基のみが異なるUMI配列を取り除くことを含む、請求項47~49のいずれか一項に記載の方法。
【請求項51】
ステップ(d)(iv)は、UMIファミリーにおける前記リードの少なくとも70%が関心対象の遺伝的遺伝子座において同じである場合にのみ前記遺伝的同一性を求めることを含む、請求項47~50のいずれか一項に記載の方法。
【請求項52】
前記対立遺伝子比は、R
対立遺伝子=N
1/N
2として定義され、式中、N
1は第1の遺伝的同一性についての固有UMI数であり、N
2は、前記第2の遺伝的同一性についての固有UMI数である、請求項41~51のいずれか一項に記載の方法。
【請求項53】
ステップ(d)(iv)は、各UMIファミリーの共通配列を特定することを含む、請求項47~51のいずれか一項に記載の方法。
【請求項54】
前記共通配列は、前記UMIファミリーにおいて最も高い回数で現れる配列である、請求項53に記載の方法。
【請求項55】
前記遺伝子座について前記共通配列を野生型配列と比較し、それによって前記共通配列における変異を特定することをさらに含む、請求項53または54に記載の方法。
【請求項56】
前記特定された変異の変異体対立遺伝子頻度(VAF)を計算することをさらに含む、請求項55に記載の方法。
【請求項57】
前記特定された変異の前記VAFは、前記変異を有するUMIファミリーの数/UMIファミリーの全数、として定義される、請求項56に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の参照
本出願は、2019年1月4日出願された、米国特許仮出願第62/788,375号の優先権を主張し、その内容全体が参照により本明細書に組み込まれる。
【0002】
連邦政府による資金提供を受けた研究開発の記載
本発明は、アメリカ国立衛生研究所によって認可された助成金番号R01 HG008752のもとで、政府の支援によってなされた。政府は本発明に特定の権利を有する。
【0003】
配列表の参照
本出願は配列表を含み、これはEFS-Webを介したASCII形式で提示されており、その全体が参照により本明細書に組み込まれる。2019年11月26日に作成された当該ASCIIコピーは、RICEP0058WO_ST25.txtと名付けられており、サイズが145.6キロバイトである。
【0004】
1.分野
本発明は、全般的には、分子生物学および医学の分野に関する。より具体的には、多重化コピー数変異検出および定量的アンプリコン配列決定を使用した対立遺伝子割当定量化のための組成物および方法に関する。
【背景技術】
【0005】
2.関連技術の記載
コピー数変異(CNV)は、癌形成および進行に関与する重要な癌バイオマーカーである。それらは腫瘍の著しい割合で存在し、癌タイプに応じて3%~98%である。多くのCNVは、ターゲティング療法に感受性または抵抗性を付与し、例えば、MET増幅は非小細胞肺癌においてMET TKIに対する感受性の増加を付与し、PTEN欠失はメラノーマにおいてBRAF阻害剤抵抗性を付与する。腫瘍試料では、特定遺伝子のCNVは、腫瘍の不均一性および正常細胞混入に起因して、細胞の小さい割合(<10%)でのみ存在し得る。
【0006】
変異およびインデルと異なり、CNVは、固有の配列ではなく、そのため、CNVの検出は正確な定量化を必要とする。この定量化は、DNA分子のサンプリングにおける偶然性によって困難である。例えば、遺伝子座当たり1200分子(すなわち、600個の正常細胞からの1200半数体ゲノムコピー、4ngのゲノムDNA)の標準偏差(σ)は、ポアソン分布:
【数1】
によって推定することができ、分子数の3%に対応する。この場合、1%の過剰コピーを検出することは可能ではない。理論的には、入力分子の数を増加させるか、またはより多くの遺伝子座を分析することが、同様に変動を低下させることができ、σは
【数2】
として推定することができる。ゲノムコピー数または遺伝子座数が×100増加すると、σは0.3%まで減少し、1%の過剰コピーは検出可能であろう。
【0007】
分子診断におけるCNV検出のための現在の標準法は、in situハイブリダイゼーション(ISH)であり、少数の細胞の観察に基づいてCNV状態を決定することができる。しかしながら、ISH技術は、多数のゲノム領域の同時分析を実行する能力を欠いており、蛍光および明視野顕微鏡の両方で区別可能な色調の数が限定されていることに起因する。さらに、ISHは、特殊な検査室によって実行されることを必要とする複雑な工程であり、それが広く採用されることを妨げている。
【0008】
CNV検出のための別の方法は、液滴デジタルPCR(ddPCR)であり、それはDNA分子の絶対的定量化のためのPCRをベースとした方法である。しかしながら、CNVにおけるその検出限度(LoD)は、多くの反復実験を伴う約20%過剰コピーである。ISHと同様に、ddPCRもまた、蛍光チャネルの限定された数に起因して多重化することができないことに悩まされている。アレイ比較ゲノムハイブリダイゼーションおよびSNPアレイを含むマイクロアレイをベースとした方法は、多くのCNVおよび異数性のスクリーニングのために使用される高度に多重化された方法である。しかしながら、それらは<40kbの小さいCNVまたは<30%過剰コピーの低頻度CNVを検出するには優れていない。
【0009】
次世代配列決定(NGS)は、過去10年にわたって急速に費用を低下させていることが示されているハイスループット技術である。NGSは、癌分子診断の分野において一般的である。<0.1%変異体対立遺伝子頻度のLoDを有する高度に多重化した変異検出は、NGSプラットホームで達成され、商業化されている。しかしながら、CNV検出のためのNGS法の現在のLoDは、優れたものではなく、全エクソーム配列(WES)は約30%過剰コピーのレベルでCNV発見のために使用されているが、高価であり、より低いLoDを達成するには、より多くのNGSリード(費用の比例した増加を伴う)さえ必要とする。FoundationOne市販パネルなどのより小さいハイブリッド-キャプチャーパネルは、約30%の過剰コピーのLoDを、より低い費用で達成することができる。
【0010】
診断用のNGSパネルでは、標的豊富化が、関連しないゲノム領域で浪費されるNGSリードを低下させるために必要である。標的豊富化のための2つの一般的な方法は、ハイブリッド-キャプチャーおよび多重PCRである。現在のNGSをベースとしたCNVパネルはほとんどがハイブリッド-キャプチャーをベースとしており、標的領域がビオチン化核酸プローブによって捕捉され、ストレプトアビジン磁性ビーズを使用してゲノムの残りから分離されることを意味する。ハイブリッド-キャプチャーパネルは、パネルサイズが小さい場合に低い的中率を有し、そのため、ほとんどのパネルは>100kb(すなわち、>1000プローブまたは遺伝子座)であり、これはビーズ表面、プローブ、および捕捉された標的における望ましくないDNAの非特異的結合に起因する。遺伝子座の大きい数によって、ハイブリッド-キャプチャーパネルの適用範囲は、均一ではなく、95%および5%パーセンタイルの遺伝子座が少なくとも30倍異なり、定量化にバイアスの別の層を導入する。ハイブリッド-キャプチャーパネルはまた、不完全な端修復および連結によって生じる低い変換率(すなわち、配列決定された入力分子の割合)、バイアス化したサンプリング処理を生じ、変動に関与する。
【発明の概要】
【0011】
DNA試料におけるターゲティングされたゲノム遺伝子座の各鎖を、ポリメラーゼ連鎖反応によってオリゴヌクレオチドバーコード配列で標識して、ハイスループット配列決定のためのゲノム領域を増幅させるための、定量的アンプリコン配列決定の方法が本明細書で提供される。本方法は、各遺伝子の過剰コピーの頻度を定量化することによって、一連の関心対象の遺伝子におけるコピー数変異(CNV)の同時検出のために使用することができる。さらに、これらの方法は、多重PCRを使用した、ターゲティングされたゲノム遺伝子座についての異なる遺伝的同一性の対立遺伝子比の定量化を提供する。
【0012】
一実施形態において、ハイスループット配列決定のためにゲノムDNAのターゲティングされた領域を調製するための方法が本明細書で提供され、本方法は、(a)ゲノムDNA試料を得ることと、(b)(i)5’から3’に向かって、第1の領域、0~50ヌクレオチド(例えば、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50ヌクレオチド)の長さを有する第2の領域、少なくとも4個の縮重ヌクレオチド(例えば、4、5、6、7、8、9、10、11、または12個の縮重ヌクレオチド)を含む第3の領域、および第1の標的ゲノムDNA領域に相補的である配列を含む第4の領域を含む、第1のオリゴヌクレオチド、ならびに(ii)5’から3’に向かって、第5の領域、0~50ヌクレオチド(例えば、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50ヌクレオチド)の長さを有する第6の領域、および第2の標的ゲノムDNA領域に相補的である配列を含む第7の領域を含む、第2のオリゴヌクレオチドを使用して2サイクルのPCRを実行することによって、ゲノムDNA試料の少なくとも一部を増幅させることと、(c)ステップ(b)で使用されるアニーリング温度よりも0~10℃(例えば、1~10、2~10、3~10、4~10、5~10、1~9、1~8、1~7、1~6、1~5、2~9、2~8、2~7℃、またはそこに引き出すことができる任意の範囲もしくは値)高いアニーリング温度で、かつ(i)第1の領域の少なくとも一部の逆相補体とハイブリダイズすることができる配列を含む第3のオリゴヌクレオチド、および(ii)第5の領域の少なくとも一部の逆相補体にハイブリダイズすることができる配列を含む第4のオリゴヌクレオチドを使用して、少なくとも3サイクルのPCRを実行することによってステップ(b)の生成物を増幅させることと、(d)5’から3’に向かって、第8の領域、0~50ヌクレオチド(例えば、0、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、または50ヌクレオチド)の長さを有する第9の領域、および第3の標的ゲノムDNA領域に相補的である配列を含む第10の領域を含む、第5のオリゴヌクレオチドを使用して、少なくとも1サイクルのPCRを実行することによってステップ(c)の生成物を増幅させることと、を含み、第3の標的ゲノムDNA領域は、第2の標的ゲノムDNA領域よりも、第1の標的ゲノムDNAに少なくとも1ヌクレオチド近い。
【0013】
いくつかの態様において、方法は、ハイスループット配列決定のためにゲノムDNAの1~10,000個のターゲティングされた領域(例えば、少なくとも1、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、250、500、750、1,000、2,000、3,000、4,000、もしくは5,000個、および最大で10,000、9,000、8,000、7,000、6,000、5,000、4,000、3,000、2,000、1,000、750、500、250、100、75、もしくは50個のターゲティングされた領域、またはそこに引き出すことができる任意の範囲または値)を調製するための方法である。いくつかの態様において、第3の領域は、固有分子識別子(UMI)である。いくつかの態様において、第3の標的ゲノムDNA領域は、第2の標的ゲノムDNA領域よりも、第1の標的ゲノムDNA領域に1~10(例えば、1、2、3、4、5、6、7、8、9、または10)塩基近い。いくつかの態様において、第1の領域および第8の領域は、ユニバーサルプライマー結合部位である。いくつかの態様において、第1の領域および第8の領域は、完全または部分的なNGSアダプター配列である。いくつかの態様において、第5の領域は、ヒトゲノム中に認めることができない配列を含む。いくつかの態様において、第5の領域は、NGSアダプター配列とは異なる配列を含む。いくつかの態様において、第1の領域および第5の領域の融解温度は、第4の領域および第7の領域の融解温度よりも0~10℃(例えば、1~10、2~10、3~10、4~10、5~10、1~9、1~8、1~7、1~6、1~5、2~9、2~8、2~7℃、またはそこに引き出される任意の範囲もしくは値)高い。いくつかの態様において、第3の領域における縮重ヌクレオチドは、各々独立して、A、T、またはCのうちの1つである。いくつかの態様において、第3の領域における縮重ヌクレオチドにGはない。いくつかの態様において、各々が固有の第3の領域を有する第1のオリゴヌクレオチドの集団がある。
【0014】
いくつかの態様において、本方法は、ステップ(c)の生成物を精製することをさらに含む。いくつかの態様において、精製することは、SPRI精製またはカラム精製を含む。いくつかの態様において、本方法は、ステップ(d)の生成物を精製することをさらに含む。いくつかの態様において、精製することは、SPRI精製またはカラム精製を含む。いくつかの態様において、本方法は、(e)ステップ(d)の生成物を、第1の領域および第8の領域にハイブリダイズするプライマーを使用したPCRによって増幅させることであって、プライマーが、次世代配列決定のためのインデックス配列を含む、ことを、さらに含む。いくつかの態様において、本方法は、ステップ(e)の生成物を精製することをさらに含む。いくつかの態様において、精製することは、SPRI精製またはカラム精製を含む。いくつかの態様において、本方法は、ステップ(e)の生成のハイスループットDNA配列決定を実行する(f)をさらに含む。いくつかの態様において、ハイスループットDNA配列決定は、次世代配列決定を含む。
【0015】
いくつかの態様において、第1の標的ゲノムDNA領域および第2の標的ゲノムDNA領域は、ゲノムDNAの向かい合う鎖上にある。いくつかの態様において、第1の標的ゲノムDNA領域および第2の標的ゲノムDNA領域は、40ヌクレオチド~500ヌクレオチド(例えば40、45、50、55、60、65、70、75、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、もしくは500ヌクレオチド、またはそこに引き出される任意の範囲および値)離れている。いくつかの態様において、ステップ(b)は、約30分(例えば、27、28、29、30、31、32、または33分)の伸長時間を含む。いくつかの態様において、ステップ(c)は、約30秒(例えば、27、28、29、30、31、32、または33秒)の伸長時間を含む。いくつかの態様において、ステップ(d)は、約30分(例えば、27、28、29、30、31、32、または33分)の伸長時間を含む。
【0016】
いくつかの実施形態において、少なくとも1つの標的遺伝子の過剰コピーの頻度(FEC)を定量化するための方法が本明細書で提供され、本方法は、(a)ゲノムDNA試料を得ることと、(b)本実施形態のうちのいずれか1つの方法に従ってハイスループット配列決定のためにゲノムDNAを調製することであって、第4の領域、第7の領域、および第10の領域の配列は、少なくとも1つの標的遺伝子にハイブリダイズする、ことと、(c)本実施形態のうちのいずれか1つの方法に従ってハイスループット配列決定を実行することと、(d)ステップ(c)で得られる配列決定情報に基づいて少なくとも1つの標的遺伝子についてFECを計算することと、を含む。
【0017】
いくつかの態様において、本方法は、一連の標的遺伝子についてFECを定量化するための方法であり、一連の標的遺伝子は、2~1000個の標的遺伝子(例えば、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、250、500、もしくは750個、および最大で1,000、900、800、750、700、650、600、550、500、450、400、350、300、250、200、150、100、75、50、25、20、15、10、9、8、7、6、5、4、もしくは3個のターゲティングされた領域、またはそこに引き出される任意の範囲および値)を含む。いくつかの態様において、ステップ(b)は、第1のオリゴヌクレオチドの集団、第2のオリゴヌクレオチドの集団、および第5のオリゴヌクレオチドの集団を使用して実行され、第1、第2、および第5のオリゴヌクレオチドの集団の各々の一部は、一連の標的遺伝子のうちの1つに相補的である第4、第7、および第10の領域をそれぞれ含む。いくつかの態様において、第4、第7、および第10の領域の各々は、ヒトゲノム中に一度のみ認められる配列を含む。いくつかの態様において、1つの標的遺伝子にハイブリダイズする各第1のオリゴヌクレオチドは、同じ標的遺伝子にハイブリダイズする各他の第1のオリゴヌクレオチドと比較して固有の第3の領域を有する。いくつかの態様において、ステップ(b)は、参照遺伝子に相補的である第4、第7、および第10の領域をそれぞれ含む、第1のオリゴヌクレオチド、第2のオリゴヌクレオチド、および第5のヌクレオチドを使用して実行される。いくつかの態様において、ステップ(b)は、ハイスループット配列決定のための各標的遺伝子または参照遺伝子の一部を調製し、一部は、40ヌクレオチド~500ヌクレオチド(例えば、40、45、50、55、60、65、70、75、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、もしくは500ヌクレオチド、またはそこに引き出される任意の範囲および値)長である。いくつかの態様において、FECは以下:
【数3】
として定義される。
【0018】
いくつかの態様において、ステップ(d)は、(i)NGSリードを各標的遺伝子のターゲティングされた部分とアラインメントして、NGSリードをそれらがアラインメントする遺伝子座に基づいてサブグループにグループ化することと、(ii)同じUMI配列を担持する全てのNGSリードが1つのUMIファミリーとしてグループ化されるように、各遺伝子座でのNGSリードを、それらのUMI配列に基づいて分類することと、(iii)PCRエラーまたはNGSエラーから生じるUMIファミリーを取り除くことと、(iv)各遺伝子座での固有UMI配列の数を計数することと、(v)各標的遺伝子および参照遺伝子における各遺伝子座での固有UMIの数に基づいてFECを計算することと、を含む。いくつかの態様において、ステップ(d)(iii)は、UMI縮重塩基設計に適合しないUMI配列を取り除くことを含む。いくつかの態様において、ステップ(d)(iii)は、Fminよりも小さいUMIファミリーサイズを有するUMIファミリーを取り除くことを含み、UMIファミリーサイズは、同じUMIを担持するリードの数であり、Fminは、2~20(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20)である。いくつかの態様において、ステップ(d)(iv)は、より大きいファミリーサイズを有する別のUMI配列と1または2個の塩基のみが異なるUMI配列を取り除くことを含む。
【0019】
いくつかの態様において、FECは以下:
【数4】
として定義され、式中、
【数5】
は、標的遺伝子座の全てまたは一部についての固有UMI数の合計であり、uは、考慮する遺伝子座の数であり、uは、標的遺伝子における遺伝子座の全数以下であり、
【数6】
は、参照遺伝子座の全てまたは一部についての固有UMI数の合計であり、vは、1つの参照について考慮する遺伝子座の数であり、vは、参照における遺伝子座の全数以下であり、wは、考慮する参照の数であり、wは参照の全数以下であり、kは、実験的較正によって決定される。いくつかの態様において、FECを使用して、標的遺伝子のコピー数変異(CNV)状態を特定する。
【0020】
一実施形態において、少なくとも1つの標的ゲノム遺伝子座について異なる遺伝的同一性の対立遺伝子比を定量化するための方法が本明細書で提供され、本方法は、(a)ゲノムDNA試料を得ることと、(b)本実施形態のうちのいずれか1つの方法に従ってハイスループット配列決定のためにゲノムDNAを調製することであって、第4の領域、第7の領域、および第10の領域の配列は、少なくとも1つの標的遺伝子の付近でゲノムDNAにハイブリダイズする、ことと、(c)本実施形態のうちのいずれか1つの方法に従ってハイスループット配列決定を実行することと、(d)ステップ(c)で得られる配列決定情報に基づいて、少なくとも1つの標的ゲノム遺伝子座について異なる遺伝的同一性の対立遺伝子比を計算することと、を含む。
【0021】
いくつかの態様において、本方法は、一連の標的ゲノム遺伝子座について異なる遺伝的同一性の対立遺伝子比を特定するための方法であり、一連の標的ゲノム遺伝子座は、2~10,000個の標的ゲノム遺伝子座(例えば、少なくとも、2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、75、100、250、500、750、1,000、2,000、3,000、4,000、もしくは5,000個、および最大で10,000、9,000、8,000、7,000、6,000、5,000、4,000、3,000、2,000、1,000、750、500、250、100、75、もしくは50個の標的ゲノム遺伝子座、またはそこに引き出される任意の範囲もしくは値)を含む。いくつかの態様において、ステップ(b)は、第一のオリゴヌクレオチドの集団、第2のオリゴヌクレオチドの集団、および第5のオリゴヌクレオチドの集団を使用して実行され、第1、第2、および第5のオリゴヌクレオチドの集団の各々の一部は、一連の標的ゲノム遺伝子座の少なくとも1つの付近でゲノムDNAに相補的である第4、第7、および第10の領域をそれぞれ含む。いくつかの態様において、第4、第7、および第10の領域の各々は、ステップ(b)の条件下で、ゲノムDNAの非標的領域にハイブリダイズすることができない配列を含む。いくつかの態様において、1つの標的ゲノム遺伝子座の付近でゲノムDNAにハイブリダイズする各第1のオリゴヌクレオチドは、同じ標的ゲノム遺伝子座の付近でゲノムDNAにハイブリダイズする各他の第1のオリゴヌクレオチドと比べて固有の第3の領域を有する。いくつかの態様において、各標的ゲノム遺伝子座は、40ヌクレオチド~500ヌクレオチド(例えば、40、45、50、55、60、65、70、75、80、90、100、125、150、175、200、225、250、275、300、325、350、375、400、425、450、475、もしくは500ヌクレオチド、またはそこに引き出される任意の範囲および値)長である。
【0022】
いくつかの態様において、ステップ(d)は、(i)NGSリードをターゲティングされたゲノム遺伝子座とアラインメントして、NGSリードをそれらがアラインメントする遺伝子座に基づいてサブグループにグループ化することと、(ii)同じUMI配列を担持する全てのNGSリードが1つのUMIファミリーとしてグループ化されるように、各遺伝子座でのNGSリードを、それらのUMI配列に基づいて分類することと、(iii)PCRエラーまたはNGSエラーから生じるUMIファミリーを取り除くことと、(iv)遺伝的同一性を各残存UMIファミリーについて求めることと、(v)固有UMI配列の数を各遺伝子座で計数することと、(vi)対立遺伝子比を計算することと、を含む。いくつかの態様において、ステップ(d)(iii)は、UMI縮重塩基設計に適合しないUMI配列を取り除くことを含む。いくつかの態様において、ステップ(d)(iii)は、Fminよりも小さいUMIファミリーサイズを有するUMIファミリーを取り除くことを含み、UMIファミリーサイズは、同じUMIを担持するリードの数であり、Fminは、2~20(例えば、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、または20)である。いくつかの態様において、ステップ(d)(iii)は、より大きいファミリーサイズを有する別のUMI配列と1または2個の塩基のみが異なるUMI配列を取り除くことを含む。いくつかの態様において、ステップ(d)(iv)は、UMIファミリーにおける少なくとも70%(例えば、70%、75%、80%、85%、90%、95%、または98%)のリードが関心対象の遺伝的遺伝子座において同じである場合にのみ遺伝的同一性を求めることを含む。いくつかの態様において、対立遺伝子比は、R対立遺伝子=N1/N2として定義され、式中、N1は、第1の遺伝的同一性についての固有UMI数であり、N2は、第2の遺伝的同一性についての固有UMI数である。
【0023】
いくつかの態様において、ステップ(d)(iv)は、各UMIファミリーの共通配列を特定することを含む。いくつかの態様において、共通配列は、UMIファミリーにおいて最も大きい回数で現れる配列である。いくつかの態様において、その遺伝子座について共通配列を野生型配列と比較し、それによって共通配列における変異を特定することをさらに含む。いくつかの態様において、本方法は、特定された変異の変異体対立遺伝子頻度(VAF)を計算することをさらに含む。いくつかの態様において、特定された変異のVAFは、変異を有するUMIファミリーの数/UMIファミリーの全数として定義される。
【0024】
本明細書で使用される場合、指定された構成要素に関して「本質的に含まない」は、指定された構成要素のいずれも、組成物に意図的に配合されていないか、および/または混入物質として、もしくは痕跡量のみが存在することを意味するために本明細書で使用される。したがって、ある組成物の意図しない混入から生じる指定された構成要素の合計量は、0.05%より十分に低く、好ましくは、0.01%より低い。最も好ましいのは、具体的な構成成分の量が標準的な分析方法を用いて分析できない組成物である。
【0025】
本明細書で使用されるとき、「1つの(a)」または「1つの(an)」は1つ以上を意味してもよい。特許請求の範囲で使用される場合、「~を含む」との用語と組み合わせて使用される場合、「1つの(a)」または「1つの(an)」といった用語は、1つ、または1つより多くを意味していてもよい。
【0026】
特許請求の範囲における用語「または」の使用は、本開示が代替のみおよび「および/または」を指す定義を支持するけれども、代替のみを指すまたは代替が相互に排他的であることを指すように明白に指示されない限り、「および/または」を意味するように使用される。本明細書で使用されるとき、「別の」は少なくとも第2以上を意味してもよい。
【0027】
本出願の全体を通して、用語「約」は、値が、値を決定するのに採用される装置、方法に関する誤差の固有の変動、または試験対象間に存在する変動を含むことを示すのに使用される。
【0028】
本発明の他の目的、特徴および利点は、以下の詳細な説明から明らかになるだろう。しかしながら、本発明の趣旨と範囲の中にある種々の変更および改変がこの詳細な記載から当業者に明らかになるので、詳細な記載および具体的な実施例は、本発明の好ましい実施形態を示しながら、説明目的のみで提供されることが理解されるべきである。
【図面の簡単な説明】
【0029】
添付の図面は、本明細書の一部を形成し、本発明の特定の態様をさらに示すために含まれている。本発明は、本明細書に提示する具体的な実施形態の詳細な説明と組み合わせて、これら1つ以上の図面を参照することによって、よりよく理解されるだろう。
【0030】
(
図1)QASeqプライマー設計および実験ワークフローの図式。各プライマーセットは、3つの異なるオリゴ:特異的フォワードプライマー(SfP)、特異的リバースプライマーA(SrPA)、および特異的リバースプライマーB(SrPB)を含む。各QASeqパネルは、1つのユニバーサルフォワードプライマー(UfP)および1つのユニバーサルリバースプライマー(UrP)のみが必要である。UfPまたはUrPにおける領域1または領域5の5’端に追加の塩基が存在し得る。1つの推奨されるワークフローでは、DNA試料は最初に、SfP、SrPA、DNAポリメラーゼ、dNTP、およびPCR緩衝液の全てと混合される。2サイクルの長伸長PCRが、全ての標的遺伝子座でUMIの付加のために実行される。次いで、同じ元分子への複数のUMIの付加を防ぎながら分子を増幅させるため、アニーリング温度は、UfPおよびUrP(短伸長、約30秒)を使用する約7サイクルについてPCR増幅温度で約8℃上昇させ、UfPおよびUrPの反応への添加は、サーモサイクラーでの開口チューブステップであることに注意する。SPRI磁性ビーズまたはカラムを使用した精製後、SrPBプライマー、DNAポリメラーゼ、dNTP、およびPCR緩衝液をアダプター置換のためにPCR生成物と混合し、2サイクルの長伸長(約30分)後、NGSアダプターが、プライマーダイマーまたは非特異的生成物ではなく、正しいPCR生成物にのみ付加される。SPRI磁性ビーズまたはカラムを使用した別の精製後、標準NGSインデックスPCRを実行して、ライブラリーを正規化してIlluminaシークエンサーにロードする。
(
図2)UMI交差結合エネルギーのシミュレーション。UMIとして(N)
20または(SWW)
6SWの代わりに(H)
20を使用して、配列は、平均交差結合エネルギーを低下させ、わずかなプライマー-ダイマー相互作用を示す。ここで、500例のシミュレーションを各UMIパターンについて実行し、各シミュレーションで、パターンと一致している2つの配列がランダムに生じ、これらの配列間の交差結合ΔG°を、60℃および0.18MK
+を想定して計算した。
(
図3A~B)プライマーとUMIの間のスペーサはPCRバイアスを低減する。(
図3A)プライマーとUMIの間のスペーサの重要性を評価するためのワークフロー。スペーサを有さない(セット1)、フォワードプライマーとUMIの間に5ntスペーサおよびリバースプライマーとUMIの間に5ntスペーサを有する(セット2)、またはフォワードプライマーとUMIの間に12ntスペーサおよびリバースプライマーとUMIの間に11ntスペーサを有する(セット3)、3セットのプライマーを使用して、インプット分子を別々に増幅させた。Illumina MiSeqによるNGS分析の前にインデックスを付加させた。(
図3B)3セットのプライマーにおける実験的UMIファミリーサイズ分布ヒストグラム。UMI設計パターンと一致しなかったUMI配列を取り除いた。
(
図4A~B)CNVにおけるUMIベースの絶対定量化のためのデータ分析。(
図4A)CNV検出におけるデータ分析ワークフロー。FASTQアウトプットファイルにおけるNGSリードを分析して、結果としてCNV状態を得る。標的遺伝子のFECは、
【数7】
として計算され、式中、
【数8】
は標的遺伝子座の全てまたは一部についての固有UMI数の合計であり、uは考慮される遺伝子座の数であり、
【数9】
は、参照遺伝子座の全てまたは一部についての固有UMI数の合計であり、vは、1つの参照について考慮する遺伝子座の数であり、wは、考慮する参照の数であり、kは、実験的な較正によって決定される。CNV状態は、FECに基づいて決定される。(
図4B)データ分析におけるUMIファミリーサイズおよび固有UMI数の定義:UMIファミリーサイズは、同じUMI配列を担持するリードの数であり、固有のUMI数は、1つの遺伝子座での異なるUMIの全数である。
(
図5)実験的UMIファミリーサイズ分布の例。同じNGSライブラリーにおける10個のERBB2および10個の参照アンプリコンの例示的なUMIファミリーサイズ分布20プレックスQASeq実験のための鋳型インプットとして正常な細胞株gDNA NA18562(Coriellから購入)を使用し、インプット試料は2500半数体ゲノムコピーを含む。調製したNGSライブラリーを、150万リードを使用して、Illumina MiSeq Reagent Kit v3(150サイクル)によって配列決定した。許容および破棄されたUMIの割合が円グラフとして示される。全てのUMIの中で、約20%がPCRまたは配列決定エラーによって破棄され(すなわち、G塩基がポリ(H)UMI中に認められる)、約40%が小さいファミリーサイズ(≦3)のために破棄される。
(
図6)異なる遺伝子座についての実験的固有UMI数の例。
図5に示されるデータに対応する、各遺伝子座の例示的な固有UMI数。白色バーはERBB2アンプリコンであり、灰色バーは参照アンプリコンである。インプット試料は、2500半数体ゲノムコピーを含む。調製したNGSライブラリーを、150万リードを使用して、Illumina MiSeq Reagent Kit v3(150サイクル)によって配列決定した。
(
図7)正常細胞株gDNA NA18562での実験的較正結果およびシミュレートした理論的標準偏差限度。CNV比の標準偏差(σ
CNV比)は、インプット分子数に対してプロットされる。LoDは、3σ
CNV比として見積もられ得る。異なるインプット量(75、250、750、および2500半数体ゲノムコピー)について5回繰り返して実験を実行した。実験結果は×印としてプロットした。シミュレーションは、サンプリングした分子数のポアソン分布を想定して実行した。シミュレートしたσ
CNV比(破線としてプロット)は、サンプリングの偶然性による理論的下限である。
(
図8A~C)FFPE試料でのCNV検出の実験的結果の例。同じ腫瘍からの2つの肺癌FFPEスライドを試験し、ERBB2 CNVは生じないようだった。インプット抽出DNA試料は、各NGSライブラリーについて2500半数体ゲノムコピーを含む。調製したNGSライブラリーを、150万リードを使用して、Illumina MiSeq Reagent Kit v3(150サイクル)によって配列決定した。(
図8A)UMIファミリーサイズの例示的な分布が、アンプリコンERBB2_1および参照_1についてプロットされ、許容および破棄されたUMIの割合が円グラフとして示される。(
図8B)各アンプリコン領域についての例示的な固有UMI数。白色バーはERBB2アンプリコンであり、灰色バーは参照アンプリコンである。(
図8C)CNV比が、同じ肺癌腫瘍からの2つFFPEスライドについてプロットされる。ERBB2のCNVは、先の較正データに基づいたQASeqを使用して、これらのFFPEスライドで検出されない。平均およびLoD=3σ
CNV比は、750ゲノムコピーインプット細胞株gDNAライブラリーのデータに基づいて計算され(
図7を参照)、FFPE試料と同様な固有UMI数を有する。
(
図9A~E)一次実験ワークフローを使用したプライマーダイマー低下。(
図9A)試験している最も単純なフローは、ワンポット反応だった。UMI添加後、プライマーをサーモサイクラーで開口チューブステップとして反応物に直接的に添加し、インデックスPCR(すなわち、ユニバーサルPCR)をその後に実行した。的中率はこのワークフローでは低く(0.5%)、標的外NGSリードはほとんどプライマーダイマーだった。(
図9B)SPRI精製ステップを6サイクルのユニバーサルPCR後に添加して、プライマーダイマーを低減させた。的中率は20%に改善された。(
図9C)アガロースゲルを使用したサイズ選択ステップをインデックスPCR後に加えてプライマーダイマーをさらに低減させた。的中率は
図9Bと比較して改善したが、それでも50%よりも低かった。(
図9D)ユニバーサルPCR後にアダプター置換および精製の両方を含む一次実験ワークフローは、66%の高い平均的中率を有する。(
図9E)ワークフロー
図9A~Dにおけるプライマーダイマーの源。
(
図10A~C)NGSインデックスPCRを必要としない例示的なワークフロー。(
図10A)インデックスおよびP5配列が、UfPの5’に付加され、他のインデックスおよびP7配列がSrPBの5’に付加される。アダプター置換から得られるアンプリコンは、P5、P7、および二重インデックスを含み、そのため、配列決定のために準備できている。(
図10B)インデックスおよびP7配列がSrPBの5’に付加され、インデックスプライマーがアダプター置換ステップでSrPBとともに付加される。アンプリコンは、配列決定のために準備できている。(
図10C)インデックスおよびP5配列がSfPの5’に付加され、P5配列を担持するプライマーがユニバーサルPCRステップでUfPとして使用される。他のインデックスおよびP7配列が、SrPBの5’に付加される。アンプリコンは、配列決定のために準備できている。
(
図11)QASeqプライマーの設計およびワークフローの変形。各プライマーセットは、3つの異なるオリゴ:特異的フォワードプライマー(SfP)、特異的リバースプライマーA(SrPA)、および特異的リバースプライマーB(SrPB)を含む。元の設計と比較して、SrPAのみが鋳型結合領域を必要とし、ユニバーサルリバースプライマー(UrP)は必要ではない。各QASeqパネルのみがユニバーサルフォワードプライマー(UfP)を必要とし、UfPにおける領域1の5’端で追加の塩基が存在し得る。元の実験ワークフローと比較して、より多くのサイクルのPCRがユニバーサルPCRステップで必要とされ、≧10サイクルが推奨される。
(
図12A~B)QASeqをベースとした対立遺伝子比定量化のためのデータ分析。(
図12A)対立遺伝子比定量化のためのデータ分析ワークフローFASTQアウトプットファイルにおけるNGSリードを分析して、異なる遺伝的同一性間の対立遺伝子比を得る。各ターゲティングされた遺伝子座における対立遺伝子比は、R
対立遺伝子=N
1/N
2として計算され、式中、N
1は、第1の遺伝的同一性についての固有UMI数であり、N
2は、第2の遺伝的同一性についての固有UMI数である。(
図12B)多数決に基づいて各UMIファミリーについて求める遺伝的同一性。
(
図13)負荷臨床FFPE試料におけるCNV検出の実験的結果の例。2つの既に特徴付けられたFFPE DNA試料(1つの「正常」試料および1つの「ERBB2増幅した異常」試料)を混合して、2.5%、5%、および10%ERBB2 FEC試料を得た。「正常」試料は、0%のERBB2 FECを有し、「ERBB2増幅した異常」試料は、78%のERBB2 FECを有する。実験的な正規化FEC値は、予測されるERBB2 FECに対してプロットした。「正常」試料は、5回繰り返して試験し、100プレックスCNVパネルのLoDは、「正常」試料の3標準偏差として推定した。2.5%、5%、および10%ERBB2 FEC試料におけるCNVは良好に検出されたが、これらの計算されたFECは3標準偏差範囲の外側だったためである。
(
図14)QASeqを使用した変異定量化に関するバイオインフォマティクスワークフロー。変異定量化に関するデータ処理ワークフローのまとめが示される。
(
図15)179プレックス包括パネルで観察された分子数。インプットは、8.3ng(5000個の予測された分子数)の100%Multiplex I Wild Type cfDNA Reference Standard(Horizon Discovery)だった。変換率は、62%の平均を有し、プレックスの97%は>10%の変換率を有する。
(
図16)179プレックス包括パネルにおけるエラー率。インプットは、8.3ngの100%Multiplex I Wild Type cfDNA Reference Standard(Horizon Discovery)であり、同じ試料を3回繰り返して試験した。3840個の異なる遺伝子座におけるエラー率(UMIを使用したエラー補正後)をプロットした。最大のエラー率は、0.23%、0.20%、および0.23%であり、平均エラー率は、3回繰り返して0.006%、0.005%、および0.005%だった。
(
図17)179プレックス包括パネルにおける変異定量化結果。使用した試料は、3回繰り返して試験した0.3%cfDNA Reference Standard(Horizon Discoveryからの0.1%Multiplex I cfDNA Reference Standardおよび1%Multiplex I cfDNA Reference Standardを混合して調製した)だった。6個の変異の実験的VAFは、予想されたVAFと全般的に一致し、差は、変異分子の少数(≦9)をサンプリングする際の偶発性にほとんど起因した。
【発明を実施するための形態】
【0031】
詳細な説明
元のDNA試料におけるターゲティングされたゲノム遺伝子座の各鎖をポリメラーゼ連鎖反応によりオリゴヌクレオチドバーコード配列で標識して、ハイスループット配列決定のためのゲノム領域を増幅させるための、定量的アンプリコン配列決定の方法が本明細書で提供される。また、各遺伝子の過剰コピーの頻度を定量化することによって、一連の関心対象の遺伝子におけるコピー数変異(CNV)の同時検出を可能にする方法が、本明細書で提供される。多重PCRを使用した、ターゲティングされたゲノム遺伝子座についての異なる遺伝的同一性の対立遺伝子比の定量化もまた、本開示の方法によって提供される。これらの方法は、腫瘍試料における関心対象の遺伝子におけるCNVの検出に適用することができ、ターゲティング療法の選択を誘導し、癌形成および進行の理解に役立つ。
【0032】
単一遺伝子疾患の出生前診断における現在の標準的な方法は、侵襲的で危険性のある絨毛生研または羊水穿刺から得られる胎児の遺伝子材料を配列決定することである。単一遺伝子疾患の非侵襲性出生前遺伝学的検査(NIPT)は、母体血漿における胎児由来細胞フリーDNA(cfDNA)の循環に基づいている。バックグランドの母体DNAの存在によって、特に、母体DNAが関心対象の遺伝子座でヘテロ接合である場合、胎児のcfDNAから生じる対立遺伝子比変化を確信して検出することは困難になる。液滴デジタルPCR(ddPCR)を使用して、NIPTにおいて疾患原因変異を担持する変異体対立遺伝子と野生型対立遺伝子との間の対立遺伝子比を定量化している(Lun et al.,2008)が、実際の実行可能性は、技術の正確性および信頼性によって限定されている。QASeqは、元のインプット分子の各鎖に、固有分子識別子を付加することによってDNA分子の絶対的定量化を可能にし、NIPTにおける対立遺伝子比定量化に適用することができる。そのため、QASeqは対立遺伝子比定量化のためにも使用することができる。対立遺伝子比定量化は、DNA分子の比を異なる遺伝的同一性によって定量化することを目的とする。正確な対立遺伝子比定量化は、βサラセミアおよび嚢胞性線維症などの単一遺伝子疾患のNIPTに対する手がかりである。
【0033】
I.CNVの過剰コピーの頻度
ゲノムDNA試料におけるCNVの過剰コピーの頻度(FEC)は、以下:
【数10】
として定義される。FECの正の値は、試料における標的ゲノム領域の増幅を示し、FECの負の値は、試料における標的ゲノム領域の欠失を示す。
【0034】
QASeqを使用してFECを定量化することができるが、それは腫瘍組織試料におけるCNVを含む細胞の割合に関する情報を提供しない。例えば、腫瘍試料中の1%の細胞が4コピーのERBB2を含み、残りの99%の細胞が2コピーを含む場合、FECは1%であり、腫瘍試料中の0.5%の細胞が6コピーのERBB2を含み、残りの99.5%の細胞が2コピーを含む場合、FECはまだ1%である。さらに、QASeqは、過剰コピーのゲノム位置に関する情報を提供しない。
【0035】
II.多重PCRパネル設計
QASeq多重PCRパネルでは、1つの標的遺伝子は、M(M=1~1000)セットのプライマーを必要とし、各々は標的遺伝子領域における非重複小領域(40nt~500nt、通常≦200nt)を増幅させる。パネルが複数の標的遺伝子を有する場合、各遺伝子で使用されるプライマーセットの数は同様である(約M)。パネルはまた、参照ゲノム領域を増幅させるプライマーセットの同様な数(約M)を含む。参照遺伝子座は、負荷されるゲノムDNA(gDNA)の量における内部標準として働き、それによって試料中のDNA濃度の正確な定量化を必要としない。少なくとも1つの参照プライマーセットが各パネルで使用され得る。標的遺伝子における入力分子または遺伝子座の数を増加させると、ランダムサンプリングにおける変異をともに減少させることができるため、遺伝子あたり大きい数のプライマーセットを使用して、より少ない量のDNAを含む試料タイプについてLoDを改善することができ、参照プライマーセットの数はこの場合、比例して増加させることが必要である。
【0036】
各プライマーセットは、3つの異なるオリゴ:特異的フォワードプライマー(SfP)、特異的リバースプライマーA(SrPA)、および特異的リバースプライマーB(SrPB)を含む(
図1を参照)。SfPは、5’から3’に向かって、領域1、2、3、および4を含む。領域4は、鋳型結合領域であり、領域3は、UMI領域であり、領域1は、完全または部分的なNGSアダプターであり、領域2は、UMIの均一な増幅のために付加される任意選択的なスペーサ領域(典型的には0~15nt)である。SrPAは、5’から3’に向かって、領域5、6、および7を含む。領域7は、鋳型結合領域であり、領域5は、ユニバーサル増幅のためのカスタムアダプター(すなわち、NGSアダプターと異なり、ヒトゲノム中に認められない配列)であり、領域6は、異なる遺伝子座の均一な増幅のために付加される任意選択的なスペーサ領域(典型的には0~15nt)である。SrPBは、5’~3’に、領域8、9、および10を含む。領域10は、鋳型結合領域であり、その3’端は、領域7より、領域4に少なくとも1塩基近く、領域8は、完全または部分的なNGSアダプターであり、領域9は、異なる遺伝子座の均一な増幅のために付加される任意選択的なスペーサ領域(典型的には0~15nt)である。各QASeqパネルは、1つのユニバーサルフォワードプライマー(UfP)および1つのユニバーサルリバースプライマー(UrP)のみが必要である。UfPは領域1を含み、UrPは領域5を含み、UfPまたはUrPにおける領域1または領域5の5’端に追加の塩基が存在し得る。鋳型結合領域4、7、および10の融解温度(Tm)は、PCRアニーリング温度とほぼ同じであり、UfPおよびUrPのTmは、実験的なPCR条件において領域4、7、および10よりも低くない。
【0037】
プライマーを設計するとき、有意に少ない対立遺伝子頻度(MAF)を有する一塩基多型(SNP)は、プライマー結合領域において避けられるべきであり、そうすることで、プライマーの結合親和性が、異なる患者試料におけるヌクレオチド配列変異によって影響される可能性がないであろう。さらに、プライマーが非標的領域の非特異的増幅を起こしやすい傾向がないことを確実にするために、全ヒトゲノムヌクレオチド配列は検索されるべきである。
【0038】
腫瘍試料のホルマリン固定パラフィン包理(FFPE)した標本におけるERBB2のCNVをターゲティングした例示的なパネルでは、各々が60~70ntアンプリコンを増幅させる10セットのプライマーが、ERBB2遺伝子領域において設計された。さらに、10セットの参照プライマーが設計され、各々が異なる染色体からの異なるハウスキーピング遺伝子における領域を増幅させる(表1)。プライマーは、Matlabコードを使用して自動的に設計され、上記設計原則を満たしながら、プライマー相互作用を最小限にする。さらに、集団において>0.2%MAFを有する非病原性SNPが回避された。オンラインツールであるPrimer-BLASTを使用して、各プライマーセットのみがヒトゲノムにおける1つのアンプリコンを有することを確実にした。プライマー配列は、表2に示される。
【0039】
【0040】
(表2)例示的なQASeqパネルにおけるプライマー配列
【0041】
(表3)179プレックス広範プレートにおけるプライマー配列
【0042】
III.UMI設計
NGSライブラリー調製プロセスにおいて、PCR増幅ステップは定量化変動を有意に増加し得え、元の分子数における小さい変化を識別することを困難にする。UMI技術を使用して、PCRバイアスを低下させて、元のDNA分子の絶対的定量化を達成し得る。UMIの概念は、全ての元のDNA分子に異なるDNA配列を「バーコード」として与えることであり、それによって各NGSリードの起源をバーコード配列に基づいて追跡することができる。十分なNGSリードを得ると、NGSアウトプット中に認められる固有のUMIの数は、元のDNA分子の数を反映することができる。以前、UMI技術は、低頻度変異のNGSをベースとした検出におけるエラー補正のために主に使用された。それはまた、定量化にも応用されている。各元分子を固有に標識することは、非常に多くの異なるUMI配列を使用することによって達成され、例えば、100,000個の元分子について109個の異なるUMI配列を使用することは、反復するUMIを担持する<0.006%の分子を生じる。
【0043】
ポリ(N)(すなわち、各位置でA、T、C、またはGの混合)などの縮重塩基を含むDNA配列は、しばしばUMI配列として使用される。QASeqでは、ポリ(H)(A、T、またはC)がUMIとして使用されるが、それは、ポリ(N)またはS(CまたはG)およびW(AまたはT)塩基の混合と比べて弱い交差結合エネルギーを有するためであり、シミュレーションによって示される(
図2)。(H)
20は、3.5×10
9個の異なる配列を含み、インプットとして100,000個の分子について十分であり、(H)
15は1.4×10
7個の異なる配列を含み、インプットとして6,000個の分子について十分である。
【0044】
IV.PCRバイアスを低減するスペーサ
PCR効率は、異なる配列を有するアンプリコンで変動する。UMIは多くの異なる配列からなるため、プライマーと可変的なUMI領域との間のスペーサを使用して、より均一なPCR効率を達成し得る。
【0045】
NGSを実行して、PCRバイアスにおけるスペーサの影響を評価した(
図3A)。鋳型分子は、増幅のために5’端および3’端に2つのアダプターを有し、UMI領域は、中間で(D)
15からなる。スペーサを有さない(セット1)、フォワードプライマーとUMIの間に5ntスペーサおよびリバースプライマーとUMIの間に5ntスペーサを有する(セット2)、またはフォワードプライマーとUMIの間に12ntスペーサおよびリバースプライマーとUMIの間に11ntスペーサを有する(セット3)、3セットのプライマーを使用して、鋳型を別々に増幅させた。インデックスは、PCRを介してNGS分析前に付加された。(D)
15は、1.4×10
7個の異なる配列を含む。インプット鋳型分子数は、可能な配列数よりもかなり少ないため、各固有のUMI配列のみが増幅前に1コピーを有する。同じUMIを担持する全てのNGSリードが、同じ分子からおそらく派生される。そのため、UMIファミリーサイズ(すなわち、同じUMIを担持するリードの数)は、PCR効率の指標である。
【0046】
UMIファミリーサイズ分布を、PCRバイアスにおけるスペーサの有意性を評価するために比較した(
図3B)。プライマーとUMIの間のスペーサが長いほど、より均一な分布が観察された。プライマーセット3では、スペーサ長は両端で10ntよりも長く、有意に改善された分布が達成された。
【0047】
V.QASeqワークフロー
QASeq NGSライブラリー調製ワークフローの概略が
図1に示される。最初に、DNA試料を、SfP、SrPA、DNAポリメラーゼ、dNTP、およびPCR緩衝液と混合する。2サイクルの長伸長(約30分)PCRを、全ての標的遺伝子座でのUMI付加のために実行する。その後で、1つのDNA分子における各鎖は、異なるUMIを担持するであろう。次に、同じ元分子への複数のUMIの付加を防ぎながら分子を増幅させるため、アニーリング温度を8℃上昇させ、増幅を、UfPおよびUrPを使用して、短伸長(約30秒)で、少なくとも2サイクル(例えば、約7サイクル)について実行する。反応物へのUfPおよびUrPの添加は、サーモサイクラーでのチューブ開口ステップである。SPRI磁性ビーズまたはカラムを使用した精製後、SrPBプライマー、DNAポリメラーゼ、dNTP、およびPCR緩衝液をアダプター置換のためにPCR生成物と混合し、少なくとも1サイクル(例えば、2サイクル)の長伸長(約30分)後、NGSアダプターが、プライマーダイマーまたは非特異的生成物ではなく、正しいPCR生成物にのみ付加される。SPRI磁性ビーズまたはカラムを使用した別の精製簿、標準NGSインデックスPCRを実行して、ライブラリーを正規化してIlluminaシークエンサーにロードする。
【0048】
全てのタイプのDNAポリメラーゼおよびPCRスーパーミックスを使用することができる。使用される特異的ポリメラーゼのための標準的なアニーリング、伸長、および変性温度に従うべきである(アニーリング温度を上昇させるユニバーサルPCRを除く)。
【0049】
VI.代替のQASeqワークフロー
ワークフローは、2サイクルのPCRを使用して、UMIを付加するためにSfPおよびSrPBを使用し、次いで、インデックスPCR用のインデックスプライマーを直接的に添加して実行され得る。これを試験するため、SfPとSrPBの20セットを同じ反応に使用した。本方法の実験的な的中率は、非常に低く(0.5%)、そのため、本方法は診断のためのNGSアッセイに有用ではあり得ない(
図9A)。オフターゲットNGSリードは、ほとんどがプライマーダイマーだった。第2の代替ワークフローでは、ユニバーサルPCRは、6サイクルのユニバーサルPCRのためのUfPおよびUrpを使用して実行され、これには精製ステップが続く。これらの追加のステップは、異なるライブラリーについて的中率を12~28%(平均的中率=20%)に改善した(
図9B)。第2の代替ワークフローに基づいた第3の代替ワークフローを試験した。これでは、アガロースゲルを使用したサイズ選択ステップをインデックスPCR後に加えて、さらにプライマーダイマーを低減させた。実験的な平均的中率は42%に改善したが、まだ50%よりも低かった(
図9C)。プライマーダイマー低下は、最初の実験ワークフローを使用して達成され、両方のアダプター置換およびユニバーサルPCR後の精製を含み、66%の高い平均的中率をもたらす(
図9D)。上記ワークフローにおけるプライマーダイマーの1つの源が、
図9Eに示される。SfPの3’部分がSfPBに結合するか、またはSfPBの3’部分がSfPに結合する場合、5’および3’端の両方にユニバーサル領域を有するダイマー鎖が生じ得、そのためユニバーサルまたはインデックスPCRステップで増幅され得る。
【0050】
最初のワークフローは、インデックス配列およびシークエンサーのP5/P7配列をアンプリコンの末端に付加する最終インデックスステップを含むが、しかしUMI付加、ユニバーサルPCR、またはアダプター置換ステップの際に上記配列を加え、そのためインデックスPCRステップを必要としない、代替ワークフローがある。
図10A~Cは、3つの例を示す。第一に、インデックスおよびP5配列がUfPの5’に付加され、他のインデックスおよびP7配列がSrPBの5’に付加される。アダプター置換から得られるアンプリコンは、P5、P7、および二重インデックスを含み、そのため、配列決定のために用意できている(
図10A)。第二に、インデックスおよびP7配列がSrPBの5’に付加され、この修飾SrPBは、アダプター置換ステップで正常なP5インデックスプライマーと混合される(
図10B)。第三に、インデックスおよびP5配列はSfPの5’に付加され、P5配列を担持するプライマーは、ユニバーサルPCRステップにおいてUfPとして使用される。他のインデックスおよびP7配列が、SrPBの5’に付加される(
図10C)。
【0051】
代替QASeqプライマー設計およびワークフローが、
図11に示される。各プライマーセットは3つの異なるオリゴ:特異的フォワードプライマー(SfP)、特異的リバースプライマーA(SrPA)、および特異的リバースプライマーB(SrPB)を含む。SfPは、5’から3’に向かって、領域1、2、3、および4を含む。領域4は、鋳型結合領域であり、領域3は、UMI領域であり、領域1は、完全または部分的なNGSアダプターであり、領域2は、UMIの均一増幅のために付加される任意選択的なスペーサ領域(0~15nt)である。SrPAは、領域5を含み、これは鋳型結合領域である。SrPBは、5’から3’に向かって、領域6、7、および8を含む。領域8は、鋳型結合領域であり、その3’端は、領域5より、領域4に少なくとも1塩基近く、領域6は、完全または部分的なNGSアダプターであり、領域7は、異なる遺伝子座の均一な増幅のために付加される任意選択的なスペーサ領域(0~15nt)である。各QASeqパネルは、領域1を含む、1つのユニバーサルフォワードプライマー(UfP)のみを必要とし、UfPにおける領域1の5’末端で追加の塩基が存在し得る鋳型結合領域4、5、および8の融解温度(Tm)は、PCRアニーリング温度とほぼ同じであり、UfPのTmは、実験的PCR条件で領域4、5、および8よりも低くない。元の設計と比較して、SrPAのみが鋳型結合領域を必要とし、ユニバーサルリバースプライマー(UrP)は必要ではない。実験ワークフローにおいて、より多いサイクルのPCR(例えば、少なくとも10サイクル)が、この代替プライマー設計下でユニバーサルPCRステップに必要とされる。
【0052】
VII.データ分析ワークフロー
CNV検出のためのデータ分析ワークフローの概略が
図4Aに示される。最初に、生NGSデータをアンプリコン領域にアラインメントし、任意選択的なアダプタートリミングをアラインメント前に実行することができる。非アラインメントリードを破棄し、アラインメントリードをそれらがアラインメントする遺伝子座によってグループ化される。
【0053】
そして、同じ遺伝子座にアラインメントされた全てのリードを、UMI配列によってさらに割り当て、すなわち、同じUMIを担持するリードを1つのUMIファミリーとしてグループ化する。UMIファミリーサイズは、同じUMIを担持するリードの数であり、固有UMI数は、1つの遺伝子座での異なるUMI配列の全数である(
図4B)。次いで、PCRまたはNGSエラーの結果の可能性がある全ての固有UMIファミリーが、取り除かれる。例えば、設計されたUMIパターン(例えば、ポリ(H)UMI配列中に認められるG塩基)と一致しないUMI配列は、エラーであり、取り除かれるべきである。さらに、2つのUMI配列が1~2個の塩基のみで異なる場合、小さいUMIファミリーサイズを有する1つが他から変異された可能性があり、そのため、任意選択的に取り除かれ得る。UMIエラーの除去後、ファミリーサイズ<F
minを有するUMIファミリーも取り除かれる。F
minは、UMIファミリーサイズの分布に基づいて決定され、F
min=4が使用される最も多い例であり得る。UMI除去後の固有UMI数(N)は、次のステップで使用される。
【0054】
標的遺伝子のFECは以下:
【数11】
として計算され得、式中、
【数12】
は、標的遺伝子座の全てまたは一部についての固有UMI数の合計であり、uは、考慮する遺伝子座の数であり、uは、標的遺伝子における遺伝子座の全数以下であり、
【数13】
は、参照遺伝子座の全てまたは一部についての固有UMI数の合計であり、vは、1つの参照について考慮する遺伝子座の数であり、vは、参照における遺伝子座の全数以下であり、wは、考慮する参照の数であり、wは、参照の全数以下であり、kは、実験による較正によって決定される。臨床試料でQASeqパネルを試験する前に、較正実験を、標的遺伝子の十分に特徴付けされたCNVを有するDNA試料で実行した。ddPCRによって特徴付けられたCNV状態を有する正常細胞株および腫瘍細胞株から抽出されたgDNAを、較正のために使用することができる。正常較正試料のFECは0であるべきである。アッセイのLoDはまた、較正実験によっても決定され、LoDはアッセイによって検出可能である過剰コピーの最小頻度である。臨床試料を試験して、関心対象の遺伝子におけるFECを使用してCNV状態を推測し、FEC>LoDの場合、試料は標的遺伝子の特定の増幅を含むと推測され、FEC≦LoDの場合、試料は標的遺伝子の欠失を含むと推測される。
【0055】
VIII.対立遺伝子比定量化
QASeqを適用して、1~10,000個のゲノム遺伝子座について異なる遺伝的同一性の対立遺伝子比を、多重PCRを使用して定量化することができる。ターゲティングされたゲノム遺伝子座のための多重PCRパネル設計、およびPCRによってターゲティングされたゲノム遺伝子座の各鎖をオリゴヌクレオチドバーコード配列で標識するための実験的ワークフロー、それに続くハイスループット配列決定のためのゲノム領域の増幅は、CNV検出と同様である。
【0056】
対立遺伝子比定量化のためのデータ分析ワークフローの概略が、
図12Aに示される。最初に、生NGSデータをアンプリコン領域にアラインメントし、任意選択的なアダプタートリミングをアラインメント前に実行することができる。非アラインメントリードを破棄し、アラインメントリードをそれらがアラインメントする遺伝子座によってグループ化される。各遺伝子座では、NGSリードはUMIによって割り当てられ、同じUMI配列を担持する全てのNGSリードは1つのUMIファミリーとしてグループ化する。UMIにおけるエラーを有する固有UMIファミリーは、PCRまたはNGSエラーの結果である可能性があり、データ分析ワークフローセクションに記載されるように、取り除かれる。
【0057】
各残存UMIファミリーにおける遺伝的同一性(野生型または変異)は、多数決に基づいて求められ、遺伝的同一性は同じUMIファミリーにおける少なくとも70%のメンバー(リード)によって裏付けられる必要がある。
図12Bにおける例のように、UMIファミリーサイズ=7を有するUMIファミリーでは、7リード全てが同じUMI配列を共有する(2Dバーコードによって示される)。関心対象の遺伝子座での遺伝的同一性は、6リードで「A」、1リードで「G」である。UMIファミリーにおける70%超のリードが「A」を裏付けるため、このUMIファミリーでの遺伝的同一性は、「A」と呼ばれる。「G」に対応する1リードは、PCRまたはNGSエラーの結果である。1つの共通遺伝的同一性を裏付ける70%超のリードを有さないUMIは、破棄される。
【0058】
次に、固有のUMI数N(1つの遺伝子座での異なるUMI配列の総数)は、ターゲティングされた遺伝子座で各異なる遺伝的同一性について計数され、Nは元の鎖の数を示す。標的遺伝子座の対立遺伝子比は、R対立遺伝子=N1/N2として計算され、式中、N1は、第1の遺伝的同一性についての固有UMI数であり、N2は、第2の遺伝的同一性についての固有UMI数である。
【0059】
IX.定義
本明細書で使用される「増幅」は、1つのヌクレオチド配列または複数の配列のコピー数を増加させるための任意のインビトロプロセスを指す。核酸増幅は、ヌクレオチドのDNAまたはRNAへの組み込みをもたらす。本明細書で使用される場合、1つの増幅反応は、多くの回数のDNA複製からなり得る。例えば、1つのPCR反応は、30~100「サイクル」の変性および複製からなり得る。
【0060】
「ポリメラーゼ連鎖反応」、または「PCR」は、DNAの相補鎖の同時的なプライマー伸長による特定のDNA配列のインビトロ増幅のための反応を意味する。言い換えると、PCRは、プライマー結合部位によって隣接される標的核酸の複数のコピーまたは複製のための反応であり、かかる反応は、(i)標的核酸を変性させるステップと、(ii)プライマーをプライマー結合部位にアニーリングさせるステップと、(iii)プライマーを核酸ポリメラーゼによってヌクレオシド三リン酸の存在中で伸長させるステップと、の1回以上の反復を含む。通常、反応は、サーマルサイクラー装置において各ステップに最適化された異なる温度によってサイクル化される。特定の温度、各ステップでの期間、およびステップ間の変動率は、当技術分野の当業者に周知である多くの要因に依存し、例えば、参照:McPhersonet al.,editors,PCR:A Practical ApproachおよびPCR2:A Practical Approach(IRL Press,Oxford,それぞれ1991年および1995年)によって例示される。
【0061】
「プライマー」は、ポリヌクレオチド鋳型と二本鎖を形成する際に、核酸合成の開始点として作用することができ、鋳型に沿ってその3’末端から伸長され得、それによって伸長した二本鎖が形成される、天然または合成いずれかのオリゴヌクレオチドを指す。伸長プロセスの際に添加されるヌクレオチドの配列は、鋳型ポリヌクレオチドの配列によって決定される。通常、プライマーはDNAポリメラーゼによって伸長される。プライマーは一般に、プライマー伸長生成物の合成におけるその使用に適合性のある長さのものであり、通常、長さが8~100ヌクレオチドの範囲、例えば、10~75、15~60、15~40、18~30、20~40、21~50、22~45、25~40などであり、より一般的には、18~40、20~35、21~30ヌクレオチド長の範囲、および記載された範囲の間の任意の長さであるである。典型的なプライマーは、15~45、18~40、20~30、21~25などの10~50ヌクレオチド長の任意の範囲にあり、記載された範囲の間の任意の長さであることができる。いくつかの実施形態において、プライマーは、約10、12、15、20、21、22、23、24、25、26、27、28、29、30、35、40、45、50、55、60、65、または70ヌクレオチドの長さを通常超えない。
【0062】
本明細書で使用される「組み込むこと」は、核酸ポリマーの一部になることを意味する。
【0063】
本明細書で使用される「外因的操作の非存在において」という用語は、核酸分子が改変されている溶液を変更することなく核酸分子の改変が存在していることを指す。特定の実施形態において、それはヒトの手が存在することなく、または緩衝液状態としても言及され得る、溶液状態を変化させる機械が存在することなく生じる。しかしながら、温度における変化は、改変の際に生じ得る。
【0064】
「ヌクレオシド」は、塩基-糖組み合わせ、すなわち、リン酸を欠くヌクレオチドである。用語ヌクレオシドおよびヌクレオチドの使用において特定の互換性のあることが、当技術分野で認識される。例えば、ヌクレオチドデオキシウリジン三リン酸であるdUTPは、デオキシリボヌクレオシド三リン酸である。DNAへの組み込み後、それはDNAモノマーとして機能し、形式上、デオキシウリジル酸、すなわち、dUMPまたはデオキシウリジンモノリン酸である。dUTPをDNAに組み込んでも、得られるDNAにはdUTP部分がないと言い得る。同様に、デオキシウリジンをDNAに組み込んでも、それは基質分子の一部のみであると言い得る。
【0065】
本明細書で使用される「ヌクレオチド」は、塩基-糖-リン酸組み合わせを指す。ヌクレオチドは、核酸ポリマーの、すなわち、DNAおよびRNAのモノマー単位である。本用語には、rATP、rCTP、rGTP、またはrUTPなどのリボヌクレオチド三リン酸、およびdATP、dCTP、dUTP、dGTP、またはdTTPなどのデオキシリボヌクレオチド三リン酸が含まれる。
【0066】
「核酸」または「ポリヌクレオチド」という用語は、一般に、DNA、RNA、DNA-RNAキメラ、またはそれらの誘導体もしくはアナログの少なくとも1つの分子もしくは鎖を指し、例えば、DNA(例えば、アデニン「A」、グアニン「G」、チミン「T]、およびシトシン「C」)またはRNA(例えば、A、G、ウラシル「U」、およびC)中に認められる天然由来プリンまたはピリミジン塩基などの少なくとも1つの核酸塩基が含まれる。「核酸」という用語は、「オリゴヌクレオチド」および「ポリヌクレオチド」という用語を包含する。本明細書で使用される「オリゴヌクレオチド」は、当技術分野の2つの用語である「オリゴヌクレオチド」および「ポリヌクレオチド」を、まとめて、互換的に指す。オリゴヌクレオチドおよびポリヌクレオチドは、当技術分野の異なる用語であるが、それらの間に正確な分割線はなく、それらは本明細書において互換的に使用されることに留意する。「アダプター」という用語もまた、「オリゴヌクレオチド」および「ポリヌクレオチド」という用語と互換的に使用され得る。さらに、「アダプター」という用語は、線形アダプター(一本鎖または二本鎖のいずれか)またはステムループアダプターを示すことができる。これらの定義は、一般に、少なくとも1つの一本鎖分子を指すが、特定の実施形態において、少なくとも1つの一本鎖分子に部分的、実質的、または完全に相補的である少なくとも1つの追加の鎖も包含する。そのため、核酸は、分子の鎖を含んでいる特定の配列の1つ以上の相補的鎖または「相補体」を含む、少なくとも1つの二本鎖分子または少なくとも1つの三重鎖分子を包含し得る。本明細書で使用される場合、一本鎖核酸は接頭辞「ss」によって、二本鎖核酸は接頭辞「ds]によって、三本鎖核酸は接頭辞「ts」によって、表され得る。
【0067】
「核酸分子」または「核酸標的分子」は、標準の基本的な塩基、過修飾塩基、非天然塩基、もしくはそれらの塩基の任意の組み合わせを含む任意の一本鎖または二本鎖核酸分子を指す。例えば限定されることなく、核酸分子は、4つの標準DNA塩基-アデニン、シトシン、グアニン、およびチミン、ならびに/または4つの標準RNA塩基-アデニン、シトシン、グアニン、およびウラシル、を含む。ウラシルは、ヌクレオシドが2’-デオキシリボース基を含む場合、チミンで置換することができる。核酸分子は、RNAからDNAに、そしてDNAからRNAに変換され得る。例えば、限定されることなく、mRNAは、逆転写酵素を使用して相補的DNA(cDNA)に生成され得、DNAは、RNAポリメラーゼを使用してRNAに生成され得る。核酸分子は、生物学的または合成的な起源であることができる。核酸分子の例には、ゲノムDNA、cDNA、RNA、DNA/RNAハイブリッド、増幅したDNA、既存核酸ライブラリーなどが含まれる。核酸は、ヒト試料から得られ得、血液、血清、血漿、脳脊髄液、頬掻把、生検、精液、尿、糞便、唾液、汗などが挙げられる。核酸分子は、修復処置および断片化処置などの様々な処置に供され得る。断片化処置には、機械的、音波、および流体力学的な剪断が含まれる。修復処置には、伸長および/または連結を介したニック修復、平滑末端を生じる平滑化、損傷した塩基の除去、例えば、脱アミノ化、誘導体化、脱塩基性、または交差結合化ヌクレオチドなどが含まれる。興味対象の核酸分子はまた、化学的修飾(例えば、重亜硫酸塩変換、メチル化/脱メチル化)、伸長、増幅(例えば、PCR、等温など)などに供され得る。
【0068】
「相補的」または「相補体」である核酸は、標準的なワトソン-クリック、フーグスティンもしくは非フーグスティン結合相補性規則に従って塩基対形成することができるものである。本明細書で使用される場合、「相補的」または「相補体」という用語は、上記と同じヌクレオチド比較によって評価され得るとき、実質的に相補的である核酸を指し得る。「実質的に相補的」という用語は、少なくとも1つの配列の連続した核酸塩基、または1つ以上の核酸塩基部分が分子に存在しない場合に半連続的な核酸塩基を含み、たとえ全てに満たない核酸塩基が対応する核酸塩基と塩基対を形成しない場合でさえ、少なくとも1つの核酸鎖または二本鎖にハイブリダイズすることができる、核酸を指す。特定の実施形態において、「実質的に相補的」核酸は、核酸配列の約70%、約71%、約72%、約73%、約74%、約75%、約76%、約77%、約77%、約78%、約79%、約80%、約81%、約82%、約83%、約84%、約85%、約86%、約87%、約88%、約89%、約90%、約91%、約92%、約93%、約94%、約95%、約96%、約97%、約98%、約99%、約100%、およびそれらの任意の範囲が、ハイブリダイゼーションの間に少なくとも1つの一本鎖または二本鎖核酸と塩基対を形成することができる、少なくとも1つの配列を含む。特定の実施形態において、「実質的に相補的」という用語は、ストリンジェントな条件で少なくとも1つの核酸鎖または二本鎖とハイブリダイズし得る少なくとも1つの核酸を指す。特定の実施形態において、「部分的に相補的」核酸は、低いストリンジェントな条件で少なくとも1つの一本鎖または二本鎖核酸にハイブリダイズし得る少なくとも1つの配列を含むか、または核酸塩基配列の約70%未満がハイブリダイゼーションの間に少なくとも1つの一本鎖または二本鎖核酸分子と塩基対形成することができる少なくとも1つの配列を含む。
【0069】
「非相補的」という用語は、特定の水素結合を通して少なくとも1つのワトソン-クリック塩基対を形成する能力を欠いている核酸配列を指す。
【0070】
本明細書で使用される「縮重」という用語は、同一性が所定の配列の反対として、ヌクレオチドの様々な選択から選択することができる、ヌクレオチドまたは一連のヌクレオチドを指す。特定の実施形態において、2つ以上の異なるヌクレオシドからの選択があり得る。さらなる特定の実施形態において、1つの特定の位置でのヌクレオチドの選択は、プリンのみ、ピリミジンのみ、または非対形成プリンおよびピリミジンからの選択を含む。
【0071】
「試料」は、関心対象の核酸を含有する新鮮または保存された生物学的試料または合成的に生成された供給源から得られるか、または単離される材料を意味する。試料には、少なくとも1つの細胞、胎児細胞、細胞培養、組織標本、血液、血清、血漿、唾液、尿、涙、膣分泌物、汗、リンパ液、脳脊髄液、粘膜分泌物、腹腔液、腹水、糞便、体滲出液、臍帯血、絨毛膜絨毛、羊水、胚組織、多細胞胚、溶解物、抽出物、溶液、または関心対象の免疫核酸を含むことが疑われる反応混合物が含まれる。試料はまた、非ヒト霊長類、げっ歯類、他の哺乳動物、他の動物、植物、真菌、細菌、およびウイルスなどのヒト以外の供給源も含むことができる。
【0072】
ヌクレオチド配列に関連して本明細書で使用される場合、「実質的に知られている」とは、増幅を含む核酸分子の調製を可能にするのに十分な配列情報を有することを指す。これは典型的には約100%であるが、いくつかの実施形態において、アダプター配列のいくつかの部分はランダムまたは縮重である。そのため、特定の実施形態において、実質的に知られているは、約50%~約100%、約60%~約100%、約70%~約100%、約80%~約100%、約90%~約100%、約95%~約100%、約97%~約100%、約98%~約100%、または約99%~約100%を指す。
【0073】
X.標的核酸のさらなる処理
A.DNAの増幅
多くの鋳型依存性プロセスが、所与の鋳型試料に存在する核酸を増幅するために利用可能である。最も知られている増幅方法の1つは、ポリメラーゼ連鎖反応(PCR(商標)も呼ばれる)であり、米国特許第4,683,195号、第4,683,202号、および第4,800,159号、ならびにInnis et al.,1990に詳細に記載されており、その各々が参照によって本明細書にその全体が組み込まれる。簡単に説明すると、鋳型DNAの2つの領域(各鎖について1つ)に相補的である2つの合成オリゴヌクレオチドプライマーを、過剰なデオキシヌクレオチド(dNTP)および例えば、Taq(Thermus aquaticus)DNAポリメラーゼなどの熱安定性ポリメラーゼの存在において、鋳型DNA(純粋である必要はない)を添加する。一連の温度サイクル(典型的には30~35)において、標的DNAは繰り返して、変性され(約90℃)、プライマーおよびプライマーから伸長(72℃)した娘鎖にアニーリング(一般的に50~60℃で)される。娘鎖が生成されると、それらはその後に続くサイクルで鋳型として作用する。そのため、2つのプライマー間の鋳型領域は、直線的よりもむしろ指数関数的に増幅する。
【0074】
B.DNAの配列決定
方法は、アダプター結合フラグメントのライブラリーを配列決定するためにも提供される。当業者に知られている核酸を配列決定するための任意の技術を、本開示の方法に使用することができる。DNA配列決定技術には、標識したターミネーターまたはプライマーおよびスラブまたはキャピラリーにおけるゲル分離使用を使用した古典的なジデオキシ配列決定反応(サンガー法)、可逆的に終結した標識ヌクレオチドを使用した合成による配列決定、パイロ配列決定、454配列決定、標識オリゴヌクレオチドプローブのライブラリーとの対立遺伝子特異的ハイブリダイゼーション、連結が続く標識クローンのライブラリーとの対立遺伝子特異的ハイブリダイゼーションを使用した合成による配列決定、重合化ステップ中の標識ヌクレオチドの組み込みのリアルタイムモニタリング、ならびにSOLiD配列決定が含まれる。
【0075】
核酸ライブラリーは、Nextera(商標)DNA試料調製キットなどのIllumina配列決定と互換性のある方法によって作成され得、Illumina次世代配列決定ライブラリー調製物を作成するための追加の方法は、例えば、Oyola et al.(2012)に記載されている。 他の実施形態において、核酸ライブラリーは、SOLiD(商標)またはIon Torrent配列決定法(例えば、SOLiD(登録商標)Fragment Library Construction Kit、SOLiD(登録商標)Mate-Paired Library Construction Kit、SOLiD(登録商標)ChIP-Seq Kit、SOLiD(登録商標)Total RNA-Seq Kit、SOLiD(登録商標)SAGE(商標)Kit、Ambion(登録商標)RNA-Seq Library Construction Kitなど)と互換性のある方法によって作成される。 次世代配列決定法のための追加の方法は、本発明の実施形態で使用され得るライブラリー構築のための様々な方法を含み、例えば、Pareek(2011)およびThudi(2012)に記載されている。
【0076】
特定の態様において、本開示の方法で使用される配列決定技術には、HiSeq(商標)システム(例えば、HiSeq(商標)2000およびHiSeq(商標)1000)、NextSeq(商標)500、およびIllumina,Inc.のMiSeq(商標)システムが含まれる。HiSeq(商標)システムは、ランダムに断片化されたゲノムDNAの平面的な光学的に透明な表面への付着、および固相増幅を使用して、各々が平方センチメートル当たり約1,000コピーの鋳型を含有する数百万のクラスターによる高密度配列決定フローセルを作成する、数百万の断片の大量並列配列決定に基づいている。これらの鋳型は、合成による4色DNA配列決定技術を使用して配列決定される。MiSeq(商標)システムは、Illuminaの可逆的ターミネーターベースの合成による配列決定であるTruSeq(商標)を使用する。
【0077】
本開示の方法で使用することができるDNA配列決定技術の別の例は、454配列決定(Roche)(Margulieset al.,2005)である。454配列決定には2つのステップが含まれる。第1のステップでは、DNAは約300~800塩基対のフラグメントに剪断され、フラグメントは平滑末端化される。そして、オリゴヌクレオチドアダプターをフラグメントの末端に連結させる。アダプターは、増幅およびフラグメントの配列決定のためのプライマーとして機能する。フラグメントは、5’-ビオチンタグを含有する、例えば、アダプターBを使用して、DNA捕捉ビーズ、例えば、ストレプトアビジンコーティングビーズに結合させることができる。ビーズに結合したフラグメントは、油-水エマルションの液滴内でPCR増幅される。結果は、各ビーズにおける複数コピーのクローン的に増幅したDNAフラグメントである。第2のステップでは、ビーズはウェル(ピコリットルサイズ)中で捕捉される。パイロ配列決定は、並行して各DNAフラグメントに実行される。1つ以上のヌクレオチドの付加は、配列決定装置におけるCCDカメラによって記録される光シグナルを生じる。シグナル強度は、組み込まれたヌクレオチドの数に比例する。
【0078】
本開示の方法で使用することができるDNA配列決定技術の別の例は、SOLiD技術(Life Technologies,Inc.)である。SOLiD配列決定技術では、ゲノムDNAはフラグメントに剪断され、アダプターがフラグメントの5’および3’端に結合されてフラグメントライブラリーを生じる。あるいは、アダプターをフラグメントの5’および3’端に連結させることと、フラグメントを環状化させることと、環状化フラグメントを消化して内部アダプターを生じさせることと、アダプターを得られるフラグメントの5’および3’末端に結合させて対形成したライブラリーを生じることと、によって内部アダプターを導入することができる。次いで、クローンビーズ集団を、ビーズ、プライマー、鋳型、およびPCR成分を含有するマイクロリアクター内で調製する。PCR後、鋳型を変性させて、ビーズを豊富化させて伸長した鋳型を有するビーズを分離する。選択されたビーズでの鋳型は、ガラススライドへの結合を可能にする3’修飾に供される。
【0079】
本開示の方法で使用することがDNA配列決定技術の別の例は、Ion Torrentシステム(Life Technologies,Inc.)である。Ion Torrentは、高密度アレイのマイクロ機械化ウェルを使用して、この生化学的プロセスを大量の並行方式で実行する。各ウェルは、異なるDNA鋳型を保持する。ウェルの下はイオン感受性層であり、その下は特許権のあるIonセンサーである。ヌクレオチド、例えばCが、DNA鋳型に添加されて、次いでDNAの鎖に組み込まれる場合、水素イオンが放出される。そのイオンからの電荷は、溶液のpHを変化させ、特許権のあるイオンセンサーによって検出することができる。シークエンサーは塩基を求め、化学的情報からデジタル情報に直接的に進む。Ion Personal Genome Machine(PGM(商標))シークエンサーは、チップを次々とヌクレオチドによって連続して満たす。チップを満たす次のヌクレオチドが適合しない場合、電流変化が記録されず、塩基は求められない。DNA鎖に2つの同一塩基がある場合、電圧は倍化し、チップは求められた2つの同一の塩基を記録する。これは直接的な検出-スキャンなし、カメラなし、光なし-であり、各ヌクレオチド組み込みは数秒で記録される。
【0080】
本開示の方法で使用することが配列決定技術の別の例には、Pacific Biosciencesの一分子、リアルタイム(SMRT(商標))技術が含まれる。SMRT(商標)では、4つのDNA塩基の各々は、4つの異なる蛍光色素のうちの1つに結合される。これらの色素はホスホ結合される。単一DNAポリメラーゼは、ゼロモード導波管(ZMW)の底で、鋳型一本鎖DNAの一分子によって固定化される。ZMWは、ZMWの中で、そしてそこから急速(数マイクロ秒)に拡散する蛍光ヌクレオチドのバックグランドに対して、DNAポリメラーゼによる1ヌクレオチドの組み込みの観察を可能にする封じ込め構造である。ヌクレオチドを成長する鎖に組み込むのに数マイクロ秒かかる。この時間の際、蛍光標識は励起されて蛍光シグナルを生じ、蛍光タグが切断される。対応する色素の蛍光の検出は、どの塩基が組み込まれたかを示す。プロセスは繰り返される。
【0081】
さらなる配列決定プラットホームには、CGAプラットホーム(Complete Genomics)が含まれる。CGA技術は環状DNAライブラリーの調製およびローリングサークル増幅(RCA)に基づいて、固相支持体に整列されるDNAナノボールを生じる(Drmanacet al.、2009)。Complete GenomicsのCGAプラットホームは、配列決定のために組み合わせプローブアンカー連結(cPAL)と呼ばれる新規戦略を使用する。プロセスは、アンカー分子と、固有アダプターのうちの1つとの間のハイブリダイゼーションによって開始される。4つの縮重9マーオリゴヌクレオチドが、プローブの第1の位置で特定のヌクレオチド(A、C、G、またはT)に対応する特定のフルオロフォアによって標識される。配列決定は、正しくマッチングするプローブが鋳型にハイブリダイズして、T4 DNAリガーゼを使用してアンカーに連結される反応で生じる。連結した生成物の画像化後、連結したアンカー-プローブ分子が変性される。ハイブリダイゼーション、連結、画像化、および変性のプロセスが、既知の塩基をn+1、n+2、n+3、およびn+4の位置で含有する新規セットの蛍光標識9マープローブを使用して、5回繰り返される。
【0082】
XI.キット
本明細書の技術には、DNA試料におけるコピー数変異または対立遺伝子頻度を分析するためのキットが含まれる。「キット」は、物理的構成要素の組み合わせを指す。例えば、キットは、例えば、核酸プライマー、酵素、反応緩衝液、説明書、および本明細書に記載される技術を実行するために有用である他の要素などの1つ以上の構成要素を含み得る。これらの物理的要素は、本発明を実行するために適した任意の方法で配置することができる。
【0083】
キットの構成要素は、水性媒体中または凍結乾燥した形態のいずれかでパッキングされ得る。キットの容器手段は、一般に、少なくとも1つのバイアル、テストチューブ、フラスコ、ボトル、シリンジ、または他の容器手段を含み、その中に構成要素が配置され、好ましくは、適切に小分けされる(例えば、マイクロタイタープレートのウェルに小分けされる)。キットに1つを超える構成要素がある場合、キットまた、一般に、追加の構成要素が別々に配置され得る第2、第3、または他の追加の容器も含む。しかしながら、構成要素の様々な組み合わせが、単一バイアル中に含まれ得る。本発明のキットはまた、典型的には、核酸を含むための手段、および市販のための密閉した封じ込めで任意の他の試薬容器も含む。かかる容器は、所望のバイアルが保持される射出または吹き込み成型したプラスチック容器を含み得る。キットはまた、キット構成要素を使用するため、その上、キットに含まれない任意の他の試薬の使用のための説明書を含む。説明書は、実行することができる変化を含み得る。
【実施例】
【0084】
XII.実施例
以下の実施例は、本発明の好ましい実施形態を示すために含まれる。後に続く実施例で開示した技術は、発明者により発見された技術が、本発明の実施に際して十分機能することを示し、それ故、その実施のための好ましい方式を構成すると考えることができるということが、当業者により理解されなければならない。しかしながら、当業者は、本開示の観点で、開示される具体的な実施形態において、本発明の趣旨および範囲から逸脱することなく、同じまたは同様の結果が依然として得られる多くの変更をなし得ることを理解するべきである。
【0085】
実施例1-較正結果
ERBB2 QASeqパネルの例示的な較正実験は、ERBB2増幅を含まないであろう、正常細胞株gDNA試料NA18562で実行して、定量化変動性および可能性のあるLoDを分析した。ワークフローは、「QASeqワークフロー」セクションに記載の通りだった。Taqポリメラーゼを、全てのPCRステップで使用した。変性は95℃で実行し、アニーリング/伸長は60℃(アニーリング/伸長が68℃で実行されたユニバーサルPCRステップは除く)で実行した。結合されたUMIを有する全ての元の分子は、NGSアウトプットに存在する必要があるため、15リードを各分子/UMIのために確保した。2500半数体ゲノムコピーのインプットおよび20アンプリコンパネルのため、必要とされる全リードは、約2×2500×20×15=1,500,000である。1つのDNA二本鎖における各々の鎖は、このワークフローでは異なるUMIを担持し、そのため2500半数体ゲノムコピー=5000分子数=8.3ngのgDNAであることに留意する。この実験は、Illumina MiSeq装置で実行された。
【0086】
正確な鎖のマッチングを使用してNGSリードをアンプリコン配列とアラインメントさせ、アラインメント率は異なるライブラリーで50%~70%だった。次いで、UMIファミリーサイズおよび固有UMI数が分析された。UMIファミリーサイズの分布は、最も多い遺伝子座において約20でピークだった(
図5)。明らかなPCRエラー(すなわち、ポリ(H)UMI配列で認められるG塩基)を含むUMIファミリーおよびファミリーサイズ<4を有するUMIが取り除かれた(
図5)。UMI結合率が完全である場合、固有UMI数は、試料における元の分子数と等しくあるべきである。2500半数体ゲノムコピー(5000分子)のインプットでは、632~3065の固有UMI数が遺伝子座に応じて得られた(
図6)。
【0087】
このアッセイのLoDを推定するため、ライブラリーを4つの異なるDNAインプット:75、250、750、および2500半数体ゲノムコピーのために調製し、各条件を5回繰り返した。試料のCNV比を「データ分析ワークフロー」セクションに記載のように計算した。5回繰り返しにわたるCNV比の標準偏差(σ
CNV比)を使用して、定量化変動性を評価し、アッセイのLoDは、3σ
CNV比として推定することができる。シミュレーションも実行して理論的σ
CNV比を計算した。インプット分子数が増加する場合、σ
CNV比およびLoDが低下することに留意する。σ
CNV比は、理論値よりも高く(
図7)、UMI結合バイアスおよび増幅バイアスを排除することができないためと予測された。現在の最善のσ
CNV比は、2500半数体ゲノムコピーで1%であり、控え目にみて、全ての4データポイントに基づいた線形近似を使用し、σ
CNV比=2%が得られ、したがって、推定されたLoDは、約6%の過剰コピーだった。50,000半数体ゲノムコピーインプットまでの外挿に基づいて、可能性のあるσ
CNV比は0.3%であり、LoDは約1%だった。LoDを評価する別の方法は、過剰コピーの異なる頻度を含む一連の較正試料を試験することによるものであり、過剰コピーの最も低い検出可能な頻度がLoDである。
【0088】
実施例2-FFPE試料におけるCNV検出結果
2つのFFPEスライドを、「多重PCRパネル設計」セクションおよび実施例1に記載される例示的なERBB2パネルを使用して分析した。FFPEスライド(Asterandから購入)は、ERBB2 CNVを含むことが予測されない、同じ肺癌腫瘍から得られた。最初に、DNAを、QIAamp DNA FFPE Tissue Kit(Qiagen)を使用して抽出し、試料当たり>6μgのDNAを得た。ライブラリーを、実施例1に記載されるのと同じ方法を使用して調製した。8.3ngの抽出DNAを各ライブラリーに使用し、それは2500半数体ゲノムコピーおよび5000分子インプットに相当する。各ライブラリーで確保されたNGSリードの数(1,500,000リード)は、2500半数体ゲノムコピーインプット細胞株gDNAライブラリーと同じだった。
【0089】
データ分析は、実施例1に記載されるのと同じ方法を使用して実行した。細胞株gDNAライブラリーと同様なUMIファミリーサイズ分布のパターンが得られた(
図8A)固有UMI数は、2500半数体ゲノムコピーインプットを有する細胞株gDNAライブラリーよりも小さかった。FFPE試料のUMI結合収量は、平均で細胞株gDNAのものの約1/4であり、300%超のFFPE DNAが、細胞株gDNA試料と同じLoDを達成するためにロードされる必要があることを示す(
図8B)。
【0090】
FFPE試料の計算されたCNV比が
図8Cに示される。このアッセイの推測されたLoD=15%は、750半数体ゲノムコピーインプット細胞株gDNAでの較正結果に基づいており、FFPEライブラリーと同様な固有UMI数を有する。本結果に基づき、ERBB2のCNVは、これらのFFPEスライドで検出されなかった。LoDは、インプット分子数が増加すると減少するため、2500半数体ゲノムコピーインプット細胞株gDNAでの較正結果に基づいて、6%のLoDを達成することができる。
【0091】
実施例3-負荷した臨床FFPE試料におけるCNV定量化結果
100プレックスQASeqパネルを使用して、乳癌FFPE試料におけるERBB2の倍数性を定量化した。50プレックスは、ERBB2遺伝子領域(プライマー配列について表3を参照する、プライマー名はそこで「ERBB2」を有する)についてであり、50プレックスは、参照として第17染色体の短腕(プライマー配列について表3を参照する、プライマー名はそこで「Ref」を有する)についてだった。
【0092】
2つの既に特徴付けられたFFPE DNA試料(1つの「正常」試料および1つの「ERBB2増幅した異常」試料)を混合して、2.5%、5%、および10%ERBB2 FEC試料を得た。「正常」試料DNAは、FFPE肺癌試料(Asterandから購入)から抽出し、これはERBB2増幅を有さないべきであり(FEC=0%)、「ERBB2増幅した異常」試料DNAは、FFPE乳癌試料(OriGeneから購入)から抽出し、78%のERBB2 FECを有する。試料インプットは、ライブラリー当たり8.3ngのDNA(qPCRによって定量した)だった。「正常」試料を、別々に各々8.3ngのDNAインプットで調製した5回繰り返したNGSライブラリーによって試験した。実験的に正規化したFEC値が、
図13に示される。正規化FECは、以下のように計算した。
正規化FEC
試料=(1+FEC
試料)/(1+FEC
正常試料)-1
【0093】
FEC正常試料は、5回繰り返しの平均だった。CNVのLoDは、以下のように推定した。
FECLoD=3×σ正常試料/(1+FEC正常試料)=0.85%
【0094】
ここで、σ
正常試料は、5回繰り返しの標準偏差だった。CNVは、2.5%、5%、および10%ERBB2 FEC試料で良好に検出されたが、それはそれらの計算したFECが3標準偏差範囲外であるためである(
図13を参照)。ERBB2の実験的に正規化したFECは、予測された値と十分相関する。
【0095】
実施例4-変異およびCNV定量化のための包括パネル
提供される方法(QASeq)は、CNV定量化のためだけではなく、NGSエラー補正および変異定量化のためにも使用することができる。各QASeqアンプリコンでは、fPの3’とrPinの3’の間の領域が変異検出領域(MDR)であり、MDRにおける任意の小さい変異(500bpよりも小さい塩基置換、欠失、および挿入を含む)を、0.1%~0.3%のLoDで検出することができる。これは、変異検出のための標準的な非UMI NGSよりも非常に優れており、約1%のLoDを有する。
【0096】
179プレックス包括パネルを開発し、乳癌試料における変異およびCNV定量化の両方について試験した。プレックスは全て、前のセクションに記載される3つのプライマー:fP(fP(別名SfP)、rPin(別名SrPB)、およびrPout(別名SrPA)を含む。95プライマーセットをCNV定量化のために単独で使用し、遺伝子ERBB2に45セット、および参照として第17染色体の短腕に50セットを含んだ。ERBB2遺伝子における5プライマーセットを、CNVおよび変異の定量化の両方のために使用した。別の79プライマーセットを、変異定量化のみのために使用した。UfPおよびUrPは、ユニバーサル増幅のために使用した(配列について表3を参照)。
【0097】
CNV定量化を前のセクションに記載されたのと同じ方法で行った。変異定量化に関するデータ処理ワークフローを
図14にまとめる。任意選択的なアダプタートリミング後、NGSリードをアンプリコン配列とアラインメントさせた。各遺伝子座で、リードはUMIファミリーに割り当てられ、UMI配列にエラーを有するUMIファミリーを取り除き、小さいUMIファミリーサイズ(≦3)を有するUMIファミリーも取り除いた。次いで、通常、UMIファミリーにおける最大回数を表すMDR配列である、各UMIファミリーの共通MDR配列を見出した。最後のステップは、共通配列を野生型MDR配列と比較すること、および初めから変異コーリングを実行することだった。1つの変異のVAFは、以下のように計算することができる。VAF=変異を有するUMIファミリーの数/UMIファミリーの全数
【0098】
この179プレックスパネルを、Horizon DiscoveryのMultiplex I cfDNA Reference Standard Setで試験した。3回繰り返したWild Type cfDNA Reference StandardのNGSライブラリー、および3回繰り返した0.3%cfDNA Reference Standard(0.1%cfDNA Reference Standardおよび1%cfDNA Reference Standardを混合して調製した)を試験した。試料インプットは、ライブラリー当たり8.3ngのDNA(qPCRによって定量した)だった。
【0099】
全的中率は、全てのライブラリーについて50%よりも大きく(すなわち、>50%のNGSリードがアンプリコンとアラインメントされ得る)、変換率(すなわち、配列決定されたインプット分子の割合)は62%の平均を有し、プレックスの97%は、>10%変換率を有する(
図15を参照)。UMI補正後のエラー率は、異なるヌクレオチド位置で変化し、3回繰り返したHorizon Discovery Multiplex I Wild Type cfDNA Reference Standardのライブラリーでは、最大エラー率は、0.23%、0.20%、および0.23%であり、平均エラー率は、0.006%、0.005%、および0.005%だった(
図16を参照)。変異定量化キャピラリーを、0.3%cfDNA Reference Standardを使用して検証した。6変異の実験的VAFは、全般的に予測されたVAFと一致し、差は、変異分子の小さい数(≦9)のサンプリングにおける偶発性にほとんど起因した(
図17を参照)。
【0100】
本明細書に開示され、特許請求される全ての方法は、本開示の観点で過度な実験を行うことなく、なされ、実行されてもよい。本発明の組成物および方法は、好ましい実施形態の観点で記載されてきたが、本発明の概念、趣旨および範囲を逸脱することなく、本明細書に記載の方法、工程または工程の順序に変化が加えられてもよいことは当業者には明らかであろう。より具体的には、化学的および生理学的に関連する特定の作用物質を、同じ結果または同様の結果が達成されつつ、本明細書に記載される作用物質に交換されてもよいことは明らかであろう。当業者に明らかな全てのこのような同様の代替物および改変は、添付の特許請求の範囲に定義されるような本発明の趣旨、範囲および概念の範囲内であると考えられる。
【0101】
参考文献
以下の参考文献は、本明細書に示されるものに対して補助的に例示的な手順または他の詳細を与える程度まで、本明細書に参照により組み込まれる。
【配列表】
【国際調査報告】