(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-09-05
(54)【発明の名称】低変異アレル頻度のための超高速の分子反転プローブに基づく標的化された配列決定アッセイ
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240829BHJP
【FI】
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024509505
(86)(22)【出願日】2022-08-18
(85)【翻訳文提出日】2024-04-15
(86)【国際出願番号】 IL2022050907
(87)【国際公開番号】W WO2023021518
(87)【国際公開日】2023-02-23
(32)【優先日】2021-08-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】502379147
【氏名又は名称】イェダ リサーチ アンド デベロップメント カンパニー リミテッド
(74)【代理人】
【識別番号】110002952
【氏名又は名称】弁理士法人鷲田国際特許事務所
(72)【発明者】
【氏名】シュラッシュ リラン
(72)【発明者】
【氏名】ビエズナー タミール
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QA19
4B063QQ03
4B063QQ18
4B063QQ19
4B063QQ42
4B063QQ52
4B063QR08
4B063QR55
4B063QR58
4B063QR62
4B063QS25
4B063QX02
(57)【要約】
ノイズの低減、高い特異度及び感度、並びにGCリッチ領域でのカバレッジの改善をもたらす、改善された分子反転プローブプロトコルが本願によって提供される。
【特許請求の範囲】
【請求項1】
分子反転プローブに基づく標的化されたシーケンシングのための方法であって、
a.少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、1~3時間半のハイブリダイゼーション時間にわたってインキュベートする工程であって、前記MIPが、
(i)前記標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、
(ii)前記標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域と、を含み、
それにより、前記標的核酸配列の前記第1の標的領域及び前記第2の標的領域にハイブリダイズしたMIPを得る工程と、
b.工程(a)で得られた前記ハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、前記少なくとも1つのMIPの前記第1の領域と前記第2の領域との間にネストした前記標的核酸配列に対応する配列を合成する工程であって、合成された配列を更にライゲーションして、重合及び/又はライゲーション反応混合物中の環化生成物を得る、合成する工程
とを含み、任意選択で、
c.工程(b)で得られた前記反応混合物を10~45分間酵素消化に供し、それにより前記反応混合物中に存在する直鎖状MIP又は核酸分子を消化させる工程、及び
d.前記環化生成物の前記合成された配列を増幅する工程、
のうちの少なくとも1つをさらに含む、方法。
【請求項2】
前記ハイブリダイゼーション時間が、3時間半未満である、請求項1に記載の方法。
【請求項3】
前記ハイブリダイゼーション時間が、1~3時間である、請求項1又は2に記載の方法。
【請求項4】
前記ハイブリダイゼーション時間が、1~2時間半である、請求項3に記載の方法。
【請求項5】
前記酵素消化が、15~30分間である、請求項1に記載の方法。
【請求項6】
工程(a)~(c)が、200分未満の時間内で行われる、請求項1~5のいずれか一項に記載の方法。
【請求項7】
前記少なくとも1つのMIPが、複数の異なる標的領域に対応する複数のMIPを含む、請求項1~6のいずれか一項に記載の方法。
【請求項8】
工程(d)で得られた複数の合成配列をシーケンシングすることと、目的のバリアントを特定することと、を更に含む、請求項1に記載の方法。
【請求項9】
特定されたバリアント又はそのサブグループに対して、その感度、特異度、及び精度を計算するために、機械学習アルゴリズムを適用することを更に含む、請求項8に記載の方法。
【請求項10】
前記バリアントのサブグループが、閾値未満のVAFを有するバリアントを含む、請求項9に記載の方法。
【請求項11】
前記少なくとも1つのMIPが、二本鎖プローブである、請求項1~10のいずれか一項に記載の方法。
【請求項12】
前記標的核酸配列が、ゲノム核酸配列、トランスクリプトーム核酸配列、及び循環遊離DNA(cfDNA)のうちの少なくとも1つである、請求項1~11のいずれか一項に記載の方法。
【請求項13】
前記標的核酸配列が、遺伝的及び/又はエピジェネティック変異、病的障害、感染体、微生物、及びGCリッチ領域のうちの少なくとも1つと関連付けられるか又はそれを含む核酸配列である、請求項1~12のいずれか一項に記載の方法。
【請求項14】
前記遺伝的変異が、単一ヌクレオチドバリアント(SNV)及び/又は単一ヌクレオチド多型(SNP)、挿入及び/又は欠失、(インデル)、逆位、コピー数変異(CNV)、構造変異、選択的スプライシング、ヘテロ接合性の喪失(LOH)、遺伝子融合、転座、複製、並びに反復配列多型のうちの少なくとも1つを含む、請求項13に記載の方法。
【請求項15】
前記標的核酸配列が、少なくとも1つの遺伝性、先天性、及び/又は身体性の病的障害又は状態と関連付けられる、請求項13又は14に記載の方法。
【請求項16】
前記病的障害が、腫瘍性障害、代謝状態、炎症性障害、病原体によって引き起こされる感染症、精神障害、自己免疫疾患、心血管疾患、神経変性障害、胎児の遺伝的状態、及び加齢関連状態のうちの少なくとも1つである、請求項15に記載の方法。
【請求項17】
前記加齢関連状態が、加齢関連クローン造血(ARCH)であり、前記標的核酸配列が、ARCHと関連付けられる配列である、請求項16に記載の方法。
【請求項18】
少なくとも1つの前記標的核酸配列は、ARCHを有する傾向があるヒト対象のゲノムDNAに由来する、請求項17に記載の方法。
【請求項19】
対象の少なくとも1つの試料の少なくとも1つの標的核酸配列において、病的障害と関連付けられる少なくとも1つの遺伝的及び/又はエピジェネティック変異、及び/又は少なくとも1つの病原体の少なくとも1つの核酸配列を特定することによって、前記対象における前記病的障害を診断するための方法であって、前記方法が、前記対象の少なくとも1つの試験試料又はそれから得られる任意の核酸分子において、分子反転プローブに基づく標的化されたシーケンシングを行う工程を含み、前記標的核酸配列における前記変異及び/又は前記試料における少なくとも1つの病原体の少なくとも1つの核酸配列のうちの1つ以上の存在は、前記対象が前記病的障害のリスクを有するか、そのキャリアであるか、又はそれに罹患していることを示し、前記分子反転プローブに基づく標的化されたシーケンシング法が、
a.少なくとも1つのMIPを前記対象の少なくとも1つの標的核酸配列と接触させ、1~3時間半のハイブリダイゼーション時間にわたってインキュベートする工程であって、前記MIPが、
(i)前記標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、
(ii)前記標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域と、を含み、
それにより、前記標的核酸配列の前記第1の標的領域及び前記第2の標的領域にハイブリダイズしたMIPを得る、インキュベートする工程と、
b.工程(a)で得られた前記ハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの前記第1の領域と前記第2の領域との間にネストした前記標的核酸配列に対応する配列を合成する工程であって、合成された配列を更にライゲーションして、前記反応混合物中の環化生成物を得る、合成する工程と、
c.工程(b)で得られた前記反応混合物を10~45分間酵素消化に供し、それにより前記反応混合物中に存在する直鎖状MIP又は核酸分子を消化させる工程と、
d.前記環化生成物の前記合成された配列を増幅する工程と、
を含む、方法。
【請求項20】
前記分子反転プローブに基づく標的化されたシーケンシングを実行する方法が、請求項2~13のいずれか一項に記載の方法である、請求項19に記載の方法。
【請求項21】
前記対象が、生物学的分類における動物界に属する少なくとも1種の生物又は植物界に属する少なくとも1種の生物である、請求項19又は20に記載の方法。
【請求項22】
遺伝的変異が、SNV及び/又はSNP、インデル、逆位、CNV、LOH、遺伝子融合、転座、複製、構造変異、選択的スプライシング、反復配列多型のうちの少なくとも1つを含む、請求項19~21のいずれか一項に記載の方法。
【請求項23】
病原体が、ウイルス病原体、細菌病原体、真菌病原体、寄生生物病原体、及び原生生物病原体のうちの少なくとも1種である、請求項19~22のいずれか一項に記載の方法。
【請求項24】
前記標的核酸配列が、少なくとも1種の遺伝性、先天性、及び/又は身体性の病的障害又は状態と関連付けられる、請求項19~23のいずれか一項に記載の方法。
【請求項25】
前記病的障害が、腫瘍性障害、代謝状態、炎症性障害、病原体によって引き起こされる感染症、自己免疫疾患、精神障害、心血管疾患、神経変性障害、胎児の遺伝的状態、及び加齢関連状態のうちの少なくとも1種である、請求項24に記載の方法。
【請求項26】
試験試料中の1種以上の標的微生物又は感染体の存在を検出する方法であって、前記方法が、前記試料から得られた少なくとも1つの核酸分子において分子反転プローブに基づく標的化されたシーケンシングを行う工程を含み、前記試料中の前記微生物又は感染体と関連付けられる1つ以上の標的核酸配列の存在が、前記試料中のその存在を示し、前記分子反転プローブに基づく標的化されたシーケンシングのための方法が、
a.前記試料の少なくとも1つの核酸分子を、前記微生物又は感染体と関連付けられる少なくとも1つの標的核酸配列に特異的な少なくとも1つのMIPと接触させ、1~3時間半のハイブリダイゼーション時間にわたってインキュベートする工程であって、前記MIPが、
(i)前記標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、
(ii)前記標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域と、を含み、
それにより、前記標的核酸配列の前記第1の標的領域及び前記第2の標的領域にハイブリダイズしたMIPを得る、インキュベートする工程と、
b.工程(a)で得られた前記ハイブリダイズしたMIPを、反応緩衝液中での1~20分間の重合反応に供し、それにより、前記少なくとも1つのMIPの前記第1の領域と前記第2の領域との間にネストした前記標的核酸配列に対応する配列を合成する工程であって、合成された配列を更にライゲーションして、反応混合物中の環化生成物を得る、合成する工程と
を含み、任意選択で、
c.工程(b)で得られた前記反応混合物を10~45分間酵素消化に供し、それにより前記反応混合物中に存在する直鎖状MIP又は核酸分子を消化させる工程、及び
d.前記環化生成物の合成された配列を増幅する工程、
のうちの少なくとも1つをさらに含む、方法。
【請求項27】
前記分子反転プローブに基づく標的化されたシーケンシングの方法が、請求項2~13のいずれか一項に記載の方法である、請求項26に記載の方法。
【請求項28】
前記微生物が、原核微生物又は下等真核微生物であり、前記感染体が、ウイルス病原体、細菌病原体、真菌病原体、寄生生物病原体、及び原生生物病原体のうちの少なくとも1種である、請求項26又は27に記載の方法。
【請求項29】
前記試料が、生体試料又は環境試料である、請求項26~28のいずれか一項に記載の方法。
【請求項30】
少なくとも1種の生物又は少なくとも1種の感染体の少なくとも1つの核酸配列の遺伝子型及び/又は遺伝子プロファイルを決定する方法であって、前記方法が、少なくとも1つの核酸配列を含む少なくとも1つの試験試料において分子反転プローブに基づく標的化されたシーケンシングを行う工程を含み、前記分子反転プローブに基づく標的化されたシーケンシングを行う方法が、
a.少なくとも1つのMIPを少なくとも1つの標的核酸配列と接触させ、1~3時間半のハイブリダイゼーション時間にわたってインキュベートする工程であって、前記MIPが、
(i)前記標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、
(ii)前記標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域と、を含み、
それにより、前記標的核酸配列の前記第1の標的領域及び前記第2の標的領域にハイブリダイズしたMIPを得る、インキュベートする工程と、
b.工程(a)で得られた前記ハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、前記少なくとも1つのMIPの前記第1の領域と前記第2の領域との間にネストした前記標的核酸配列に対応する配列を合成する工程であって、合成された配列を更にライゲーションして、前記反応混合物中の環化生成物を得る、合成する工程と、
c.工程(b)で得られた前記反応混合物を10~45分間酵素消化に供し、それにより前記反応混合物中に存在する直鎖状MIP又は核酸分子を消化させる工程と、
d.前記環化生成物の前記合成された配列を増幅する工程と、
を含む、方法。
【請求項31】
前記分子反転プローブに基づく標的化されたシーケンシングの方法が、請求項2~16のいずれか一項に記載の方法である、請求項30に記載の方法。
【請求項32】
前記生物が、生物学的分類における動物界、植物界、細菌界、古細菌界、原性動物界、クロミスタ界、及び真菌界のうちの少なくとも1種の少なくとも1種の生物である、請求項30又は31に記載の方法。
【請求項33】
標的核酸分子中の低変異アレル頻度(VAF)変異を、核酸分子において分子反転プローブに基づく標的化されたシーケンシングを行うことによって特定するための方法であって、
a.少なくとも1つのMIPを前記核酸分子の少なくとも1つの標的核酸配列と接触させ、1~3時間半のハイブリダイゼーション時間にわたってインキュベートする工程であって、前記MIPが、
(i)前記標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、
(ii)前記標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域と、を含み、
それにより、前記標的核酸配列の前記第1の標的領域及び前記第2の標的領域にハイブリダイズしたMIPを得る、インキュベートする工程と、
b.工程(a)で得られた前記ハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの前記第1の領域と前記第2の領域との間にネストした前記標的核酸配列に対応する配列を合成する工程であって、合成された配列を更にライゲーションして、前記重合及び/又はライゲーション反応混合物中の環化生成物を得る、合成する工程と、
を含み、任意選択で、
c.工程(b)で得られた前記反応混合物を10~45分間酵素消化に供し、それにより前記反応混合物中に存在する直鎖状MIP又は核酸分子を消化させる工程、及び
d.前記環化生成物の前記合成された配列を増幅する工程、
のうちの少なくとも1種をさらに含む、方法。
【請求項34】
前記分子反転プローブに基づく標的化されたシーケンシングが、請求項2~11のいずれか一項に記載の方法によって行われる、請求項33に記載の方法。
【請求項35】
少なくとも1つのGCリッチ領域を含む少なくとも1つの標的核酸配列において分子反転プローブに基づく標的化されたシーケンシングを行うための方法であって、
a.少なくとも1つのMIPを前記少なくとも1つの標的核酸配列と接触させ、1~3時間半のハイブリダイゼーション時間にわたってインキュベートする工程であって、前記MIPが、
(i)前記標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、
(ii)前記標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域と、を含み、
それにより、前記標的核酸配列の前記第1の標的領域及び前記第2の標的領域にハイブリダイズしたMIPを得る、インキュベートする工程と、
b.工程(a)で得られた前記ハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、前記少なくとも1つのMIPの前記第1の領域と前記第2の領域との間にネストした前記標的核酸配列に対応する配列を合成する工程であって、合成された配列を更にライゲーションして、前記重合及び/又はライゲーション反応混合物中の環化生成物を得る、工程と、
を含み、任意選択で、
c.工程(b)で得られた前記反応混合物を10~45分間酵素消化に供し、それにより前記反応混合物中に存在する直鎖状MIP又は核酸分子を消化させる工程、及び
d.前記環化生成物の前記合成された配列を増幅する工程、
のうちの少なくとも1種をさらに含む、方法。
【請求項36】
前記分子反転プローブに基づく標的化されたシーケンシングが、請求項2~11のいずれか一項に記載の方法によって行われる、請求項35に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
ノイズの低減、高い特異度及び感度、並びにGCリッチ領域でのカバレッジの改善をもたらす、改善された分子反転プローブプロトコルが本明細書に提供される。
【背景技術】
【0002】
次世代シーケンシング(next-generation sequencing、NGS)アプローチの開発は、実行ごとに大量のシーケンシングデータを生成することができるので、分子生物学研究に大変革をもたらしたが、臨床診療にはまだ広く実施されていない。完全オミクスアプローチ(全ゲノム/トランスクリプトーム/エピゲノム)は新規発見の機会を提供するが、それらは依然として費用効率が悪く、したがって診断ツールとして日常的に使用されていない。NGSを費用効率及び時間効率の良い様式で多数の試料及び用途に大衆化するために、いくつかの標的化された富化アプローチが開発されている。更に、低変異アレル頻度(variant allele frequency、VAF)変異を特定することを目的としたディープシーケンシングは、通常、標的化されたシーケンシングアプローチに基づく。
【0003】
高性能で費用効率の良い標的化されたシーケンシング技術に対する需要が高まるにつれて、概して、スケーラビリティ(試料の数と両標的の数との両方に対する)と費用との間で選択することが求められる。現在、スケーラビリティ、費用効率、単純性、及び速さの全てを叶える標的化されたシーケンシングアプローチは存在しない。ハイブリッド捕捉は高性能であるが、依然として費用及び時間がかかる[非特許文献1]。一方、アンプリコンシーケンシングは単純で費用効率が良いが、多数の標的に対してスケーラブルではない。
【0004】
分子反転プローブ(Molecular Inversion Probe、MIP)技術により、複数のゲノム領域を標的化し、経済的なワンポット反応でシーケンシングライブラリーを生成することが可能になる[2、3]。MIP技術は、完全に自動化し、スケーラブルにできる可能性があるが、その主な欠点は、その性能が低いこと(すなわち、均一性[非特許文献1]、[非特許文献3]、GCリッチ領域でのカバレッジの低減[非特許文献4])である。MIP技術の別の難点は、低VAF分析に不可欠なツールである正確なノイズモデルを欠くことである。
【0005】
あらゆる標的化されたシーケンシングアプローチのライブラリー調製工程は、プロトコルの特定の化学及び様々な工程と相関するバックグラウンドエラーシグネチャーの独自の問題を有する[非特許文献5]。したがって、本技術の固有のバックグラウンドノイズを包括的に理解し、疑わしいバリアントが本物であるかどうかを決定するためのノイズモデルを生成することが求められる[非特許文献6]。MIP低VAF分析における最新技術は、Acuna-Hidalgoらによって公開されたアルゴリズムである[非特許文献7]。この研究は、ポアソンノイズモデルに基づいて低VAFバリアントをコールするための新しい統計的アプローチを導入するが、これは、広範な検証の欠如、及び真の技術的複製が使用されないなかでMIPプロトコルの最終工程において分離された技術的複製の使用などのいくつかの注意事項を有する。これらの難点により、クロスプラットフォーム検証を伴わないMIPプロトコルのバックグラウンドノイズモデル、及びその精度に関する不確実性が残る。
【0006】
DNA試料からNGSライブラリーへのターンアラウンドタイムの短縮、低VAFでの高精度及び高感度、並びにGCリーチ領域カバレッジの改善を呈する、単純かつ迅速な標的化されたシーケンシングプロトコル、具体的には、改善された分子反転プローブプロトコルに対する必要性は満たされていない。
【先行技術文献】
【非特許文献】
【0007】
【非特許文献1】Chastain E.C.Kulkarni S.,Pfeifer J.Clinical Genomics.2015;Boston:Academic Press;37-55.
【非特許文献2】Boyle E.A.,et al.,MIPgen:optimized modeling and design of molecular inversion probes for targeted resequencing.Bioinformatics.2014;30:2670-2672.
【非特許文献3】Hiatt J.B.,et al.,Single molecule molecular inversion probes for targeted,high-accuracy detection of low-frequency variation.Genome Res.2013;23:843-854.
【非特許文献4】Almomani R.,et al.,Evaluation of molecular inversion probe versus truseq(R)custom methods for targeted next-generation sequencing.PLoS One.2020;15:e0238467.
【非特許文献5】Park G.,et al.,Characterization of background noise in capture-based targeted sequencing data.Genome Biol.2017;18:136.
【非特許文献6】Ma X.,et al.,Analysis of error profiles in deep next-generation sequencing data.Genome Biol.2019;20:50.
【非特許文献7】Acuna-Hidalgo R.,et al.,Ultra-sensitive sequencing identifies high prevalence of clonal hematopoiesis-associated mutations throughout adult life.Am.J.Hum.Genet.2017;101:50-64.
【0008】
本明細書における上記の参考文献の自任は、これら文献が現在開示されている主題の特許性にいかなる形であれ関連していることを意味するとして推論されるべきではない。
【発明の概要】
【0009】
本明細書では、現在までに知られている分子反転プローブ(MIP)に基づく標的化されたシーケンシングよりも有利なMIPに基づく標的化されたシーケンシングの方法が開示される。
【0010】
本明細書に開示される方法は、以下に詳述するように、MIPの主な課題に対処する。MIPプロトコルのノイズを詳細に分析しモデル化すること、並びに現在のMIP生化学を改変して不良な性能及びノイズ特性を増強することによって、MIPプロトコル工程を再較正し、改善されたMIPプロトコルを設計した。有利なことに、以下「iMIP」とも称するこのプロトコルは、(最後から最後まで)3時間半未満に短縮された。結果として、本iMIPプロトコルは、知られているMIPプロトコルと比較して著しく低いバックグラウンドエラー率を示した。
【0011】
更に、本iMIPプロトコルを使用することで、偽陽性バリアントの数が著しく低下した。iMIPプロトコルによってもたらされる追加の利点には、より少ないスモールファミリー(5未満)及びより多いラージファミリー(5超)、MIPプロトコルと比較したiMIPプロトコルにおいて機能するMIP中央値の有意な増加(609対558、それぞれp<0.00001;
図2B);パネル内均一性(
図2C)及びオンターゲット率(
図2D)の有意な改善;複製間の有意に高い変異アレル頻度(VAF)相関(
図7B);GCリッチ領域にわたる有意に高いカバレッジ;並びに有意に高い均一性(
図3B)が含まれる。
【0012】
本明細書に例示するように、特定されたバリアントを、この目的のために設計したMIPを使用するアンプリコンシーケンシングに供した。驚くべきことに、アンプリコンシーケンシングにより、全ての可能な単一ヌクレオチドバリアント(single nucleotide variant、SNV)改変におけるエラー率が有意に低減した。
【0013】
更に、本明細書に開示されるiMIPプロトコルにおいて使用されるMIPデータセットに対して訓練された機械学習バリアントコーラーを適用することで、最新技術と比較して、変異アレル頻度を正しくコールする精度が16.67%(p=0.004)から56.25%(p=1.4E-5)に有意に改善、すなわち、VAFが0.005超になった(Acuna-Hidalgo et al.,Am J Hum Genet,101,50-64,2017)。
【0014】
本開示の第1の態様は、分子反転プローブに基づく標的化されたシーケンシングの方法、具体的には、改善された方法に関する。いくつかの実施形態では、開示される方法は、以下の工程を含む。
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションすることで、反応混合物中の環化生成物が得られることを理解されたい。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0015】
本開示の更なる態様は、対象の少なくとも1つの試料の少なくとも1つの標的核酸配列における病的障害と関連付けられる少なくとも1つの病原体の少なくとも1つの遺伝的及び/又はエピジェネティック変異及び/又は少なくとも1つの核酸配列を特定することによって、対象における病的障害を診断するための方法に関する。より具体的には、本方法は、対象の少なくとも1つの試験試料において、又はそれから得られる任意の核酸分子において、分子反転プローブに基づく標的化されたシーケンシングを行う工程を含む。少なくとも1つの標的核酸配列における変異のうちの1つ以上の存在及び/又は病原体の少なくとも1つの核酸配列の存在は、対象が病的障害のリスクを有するか、そのキャリアであるか、又はそれに罹患していることを示すことが理解される。いくつかの実施形態では、本明細書で行われる分子反転プローブに基づく標的化されたシーケンシングの方法は、以下の工程を含む。1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を、障害と関連付けられる遺伝的変異を含有し得る対象の少なくとも1つの標的核酸配列、又は病原体の少なくとも1つの核酸配列と接触させ、MIPを標的配列とともに1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションして、反応混合物中の環化生成物を得ることを理解されたい。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0016】
本開示の更なる態様は、試験試料中の1つ以上の標的微生物又は感染体、例えば病原体の存在を検出する方法に関する。より具体的には、本方法は、試料から得られる少なくとも1つの核酸分子において分子反転プローブに基づく標的化されたシーケンシングを行う工程を含む。試料中の微生物又は感染体と関連付けられる1つ以上の標的核酸配列の存在が試料中のその存在を示すことに留意されたい。いくつかの実施形態では、開示される検出方法に適用可能な分子反転プローブに基づく標的化されたシーケンシングの方法は、以下の工程を含む。
1つの工程(a)は、試料の少なくとも1つの核酸分子を、微生物又は病原体と関連付けられる少なくとも1つの標的核酸配列に特異的な少なくとも1つのMIPと接触させ、MIPを標的配列とともに1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応緩衝液中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションして、反応混合物中の環化生成物を得ることを理解されたい。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0017】
本開示の更なる態様は、少なくとも1種の生物及び/又は少なくとも1種の感染体の少なくとも1つの核酸分子の遺伝子型及び/又は遺伝子プロファイルを、例えば、1つ以上の目的の遺伝子座で、決定する方法に関する。より具体的には、本方法は、少なくとも1つの核酸分子を含む少なくとも1つの試験試料において分子反転プローブに基づく標的化されたシーケンシングを行う工程を含む。より具体的には、本明細書で使用される分子反転プローブに基づく標的化されたシーケンシングの方法は、以下の工程を含む。
1つの工程(a)では、少なくとも1つのMIPを少なくとも1つの標的核酸配列、例えば、1つ以上の目的の遺伝子座を含む標的配列と接触させ、1~3時間半のハイブリダイゼーション時間にわたってインキュベートすること。より具体的な実施形態では、開示される方法において使用されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含んでもよい。第1のハイブリダイゼーション工程により、目的の1つ以上の多型遺伝子座を含む、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPが得られる。
【0018】
次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0019】
本開示の更なる態様は、標的核酸分子中の低変異アレル頻度(VAF)変異を、核酸分子において分子反転プローブに基づく標的化されたシーケンシングを行うことによって特定するための方法に関する。より具体的には、本方法は、以下の工程を含む。
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションすることで、重合及び/又はライゲーション反応混合物中の環化生成物が得られることを理解されたい。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0020】
本開示の更なる態様は、少なくとも1つのGCリッチ領域を含む少なくとも1つの標的核酸配列において分子反転プローブに基づく標的化されたシーケンシングを行うための方法に関し、本方法は以下の工程を含む。
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションすることで、重合及び/又はライゲーション反応混合物中の環化生成物が得られることを理解されたい。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0021】
本発明の他の目的、特徴、及び利点は、以下の説明、実施例、及び図面から明らかになる。
【0022】
本開示のある特定の実施形態は、上記の利点の一部を含んでも全部を含んでもよく、またそれらを全く含まない場合もある。1つ以上の他の技術的利点は、本明細書に含まれる図面、説明、及び特許請求の範囲から当業者には容易に明らかになることができる。更に、特定の利点を上で列挙しているが、様々な実施形態は、列挙した利点の全てを含んでも一部を含んでもよく、またそれらを全く含まない場合もある。
【0023】
本明細書に開示されている主題をより良く理解し、実際にそれがどのように実行され得るかを例示するために、これより、添付の図面を参照して、単に非限定的な例として、実施形態を説明する。
【図面の簡単な説明】
【0024】
【
図1A】MIPプロトコルにおけるバックグラウンドエラー率が増加することで、偽陽性率が高くなり、これは機械学習アルゴリズムによって改善することができる。分子反転プローブ(MIP)プロトコル(暗色、左側)とアンプリコンシーケンシングプロトコル(明色、右側)とを比較する、可能な改変の各々のバックグラウンドエラー率(log 10)の塩基当たりの分布を示す。Bonferroni補正を伴う両側Mann-Whitney-Wilcoxon検定ns:5.00e-02<p<=1.00e+00、
*:1.00e-02<p<=5.00e-02、
**:1.00e-03<p<=1.00e-02、
***:1.00e-04<p<=1.00e-03、
****:p<=1.00e-04。
【
図1B】MIPプロトコルにおけるバックグラウンドエラー率が増加することで、偽陽性率が高くなり、これは機械学習アルゴリズムによって改善することができる。最新技術のポアソン分布エラー抑制方法について計算された性能(感度、精度、及び特異度)(「ポアソン」、左列、黒色)、及び発明者の全MIPデータセットに対して訓練された機械学習バリアントコーラーについて計算された性能(「MIP」、右列、白色)を提示する。MIPプロトコルからのバリアントをアンプリコンシーケンシングによって検証し、真陽性を、アンプリコンシーケンシングの結果に基づいて定義した。変異アレル頻度(VAF)が0.005超であるバリアントを検出するための機械学習バリアントコーラー(MIP)の精度は、Fischerの直接確率検定p=1.4E-5で、有意に良好であった。
【
図2A】改善されたMIP(improved MIP、iMIP)プロトコルは、バックグラウンドエラー率が低減し、シーケンシング品質属性が改善された。iMIP(灰色)、MIP(暗灰色)、及びアンプリコン(明灰色)について計算したバックグラウンドエラー率を提示する。
【
図2B】改善されたMIP(improved MIP、iMIP)プロトコルは、バックグラウンドエラー率が低減し、シーケンシング品質属性が改善された。MIPとiMIPとの間の、選択された試料にわたる機能したMIP標的の数を提示する。Bonferroni補正による両側性のMann-Whitney-Wilcoxon検定、P値<10^-217(
****)。
【
図2C】改善されたMIP(improved MIP、iMIP)プロトコルは、バックグラウンドエラー率が低減し、シーケンシング品質属性が改善された。選択された試料にわたるMIP及びiMIPの均一性を提示する。Bonferroni補正による両側性のMann-Whitney-Wilcoxon検定、P値>10^-11(
****)。
【
図2D】改善されたMIP(improved MIP、iMIP)プロトコルは、バックグラウンドエラー率が低減し、シーケンシング品質属性が改善された。選択された試料にわたるオンターゲット率を提示する。Bonferroni補正による両側性のMann-Whitney-Wilcoxon検定、P値<10^-131(
****)。
【
図3A】iMIPプロトコルは、GCリッチ領域にわたってより良好なカバレッジ及び均一性を有する。GCリッチ遺伝子カバレッジ(GCリッチ標的は55%超のGC含量を有する)のMIP(n=535試料)とiMIP(n=905試料)との比較を提示する。各遺伝子の一部である標的が含まれ、データは、合計(標的深さ)/標的数/元のFASTQリード×100によって正規化する。SETBP1以外の全てのp値が有意であった(
****:P≦0.001)。Bonferroni補正による両側性のMann-Whitney-Wilcoxon検定。注:値は対数目盛であり、視覚化のためにゼロの値を省略した。
【
図3B】iMIPプロトコルは、GCリッチ領域にわたってより良好なカバレッジ及び均一性を有する。GCリッチ標的にわたるMIPとiMIPとの間の均一性を提示する。P値<10^-15(
****)。Bonferroni補正での両側性のMann-Whitney-Wilcoxon検定。
【
図3C】iMIPプロトコルは、GCリッチ領域にわたってより良好なカバレッジ及び均一性を有する。CEBPAにわたるMIPプロトコル及びiMIPプロトコルのカバレッジを提示し、深さは
図3Aのように正規化した。注:値は対数目盛であり、視覚化のためにゼロの値を省略した。
【
図4A】iMIPプロトコルは、8349個の標的の遺伝子型決定パネルの捕捉に成功し得る。8349個の標的にわたる170個の試料をシーケンシングするためのiMIPプロトコルの使用を提示し、ここで、オンターゲット率中央値は95%であり、FASTQにおけるリードの数と相関させた。
【
図4B】iMIPプロトコルは、8349個の標的の遺伝子型決定パネルの捕捉に成功し得る。遺伝子型決定パネルの均一性とARCHパネルの均一性との比較(Mann-Whitney-Wilcoxon検定)を提示する。
【
図4C】iMIPプロトコルは、8349個の標的の遺伝子型決定パネルの捕捉に成功し得る。遺伝子型決定パネルの全ての標的にわたる深さ中央値を提示する。
【
図4D】iMIPプロトコルは、8349個の標的の遺伝子型決定パネルの捕捉に成功し得る。ライゲーションアーム及び伸長アームのある特定のコピー数を有する遺伝子型決定パネルにおける標的の数を提示する(MIPgenソフトウェアにより計算)。MIPを群に分けた:1:1-ライゲーションアーム及び伸長アームがゲノムに1コピーを有する、1に1(一方に1つ)-アームの一方(ライゲーション又は伸長のいずれか)がゲノムに1コピーを有する、1<及び<100-ライゲーションアーム及び伸長アームが両方とも1~100コピーを有する、>100-両アームが100コピー超を有する。左のバー-全パネルのうち、群の各々におけるMIPのパーセンテージ。右のバー-全データにわたるリードのパーセンテージ。
【
図4E】iMIPプロトコルは、8349個の標的の遺伝子型決定パネルの捕捉に成功し得る。アームコピー数に基づいて標的群間で比較した深さ中央値を提示する。
【
図4F】iMIPプロトコルは、8349個の標的の遺伝子型決定パネルの捕捉に成功し得る。改善された遺伝子型決定パネル(ライゲーションアーム及び伸長アームにおける高いコピー数を伴う低減したプローブ)の性能を提示する。Boxplotを104個の試料について計算し、提示される値は、少なくとも1リード、10リード、50リード、及び100リードの深さの標的%である。
【
図5】サポートベクターマシン(support vector machine、SVM)モデルのROC曲線。本図は、低VAFサポートベクターマシン(SVM)検出モデルの感度をROC曲線として提示する。検証し、ゼロのp値を有した試料を、真であるとみなした。トレイン及びテストセットは、トレインセットについてはT=31 F=77113であり、テストセットについてはT=11 F=41528であった。
【
図6A】MIP及びiMIPからの試料は、元のfastqリードカウントの同様の分布を有した。類似した深さのFASTQファイル(4~10Mリード)を有した試料における現在のMIPプロトコルの性能である。深さ分布をプロトコルごとに評価した。分布は、2つの異なる統計アッセイに基づいて類似していた:2つの試料についてのKolmogorov-Smirnov、両側p値=0.2157及びEpps-Singleton p値=0.2550。
【
図6B】MIP及びiMIPからの試料は、元のfastqリードカウントの同様の分布を有した。類似した深さのFASTQファイル(4~10Mリード)を有した試料における現在のiMIPプロトコルの性能である。深さ分布をプロトコルごとに評価した。分布は、2つの異なる統計アッセイに基づいて類似していた:2つの試料についてのKolmogorov-Smirnov、両側p値=0.2157及びEpps-Singleton p値=0.2550。
【
図7A】iMIPは、複製された変異及びより大きいMIPファミリーにおいてVAFとVAFdupとの間で高い相関を有する。MIPプロトコル及びiMIPプロトコルにおけるファミリーサイズ分布を提示する。各MIPにおけるファミリーサイズを、MIP試料及びiMIP試料にわたって固有分子識別子(unique molecular identifier、UMI)ごとに計算した。X軸はファミリーサイズを定義し、Y軸は、各ファミリーサイズ1~4及び5超についていくつのファミリーが特定されたかを定義する。MIPとiMIPとの間の差異を、Mann-Whitney-Wilcoxon検定によって試験した:P値≦1.00e-04。
【
図7B】iMIPは、複製された変異及びより大きいMIPファミリーにおいてVAFとVAFdupとの間で高い相関を有する。iMIP試料とMIP試料との両方について複製が特定された全ての位置について、VAFとVAFdupとの間の相関(最小0.005、及び両方の複製について最小深さ100)を計算した。MIPの試料とiMIPの試料との間の線形関数の適合は、iMIPプロトコルの複製間の有意に高い相関をもたらした。MIP R2=0.6849でy=0.8524
*x+0.0431 iMIP R2=0.7134でy=0.8517
*x+0.0528(Fisherのz,z=4.9595,p値=0.0000)。
【
図8A】55%未満のGC含量を標的とするMIPは、より良好な全体的性能を有する。MIPプロトコルにおけるカバレッジが不良であったMIP(全試料にわたって平均リード深さ<50)(上のパネル)及びiMIPプロトコルにおけるそれらの対応する性能(下のパネル)を提示する。MIPは、GC含量に基づいてソートする。
【
図8B】55%未満のGC含量を標的とするMIPは、より良好な全体的性能を有する。低GC領域及びGCリッチ領域(それぞれGC含量55%未満及び55%超)における均一性及び深さ中央値をそれぞれ提示する。Mann-Whitney-Wilcoxon検定:8B及び8Cについて、それぞれ、p値=6.541e-69及びp値=2.577e-68。
【
図8C】55%未満のGC含量を標的とするMIPは、より良好な全体的性能を有する。低GC領域及びGCリッチ領域(それぞれGC含量55%未満及び55%超)における均一性及び深さ中央値をそれぞれ提示する。Mann-Whitney-Wilcoxon検定:8B及び8Cについて、それぞれ、p値=6.541e-69及びp値=2.577e-68。
【
図9】iMIPプロトコルと以前のMIPプロトコルとの間の重要な差異。
【
図10】iMipプロトコルは、バッチ効果に関係なく低減したバックグラウンドエラー率を有する。MIPプロトコル及びiMIPプロトコルの各改変及び異なるバッチ(実行)の各々についてのバックグラウンドエラー率を示すグラフである。iMIPバッチは、T→Aの例に見られるように、各交互列の右側である。MIPプロトコルの全てのバッチで見られたc→Aの二峰性のエラー率は、iMIPプロトコルでは消失した。各交互列の左側は、標準的なMIPプロトコルとは異なるMIPプロトコルを有し、Nextseq 500機器で実行したバッチを表し、他の全てのバッチは、iMIPバッチを含めてNovaseq 6000機器で実行した。
【
図11A】一塩基インデルにおけるバックグラウンドエラー率。MIPプロトコル及びiMIPプロトコルについて、Varscanから得られた変異の一塩基インデルにおけるバックグラウンドエラー率を示すグラフである。
【
図11B】一塩基インデルにおけるバックグラウンドエラー率。MIPプロトコル及びiMIPプロトコルについて、platypusからの変異の一塩基インデルにおけるバックグラウンドエラー率を示すグラフである。
【
図12A】同様の又は改善された均一性及びオンターゲット率により、ハイブリダイゼーションプロトコルが修正される。153分(iMIPプロトコル)とハイブリダイゼーション時間が103分であるiMIP修正プロトコルとの両方について、dNTP濃度の範囲についての均一性及びオンターゲット率の比較を提示する。dNTP濃度の範囲を、両方のハイブリダイゼーションプロトコルについて調べた(参考のために、iMIPプロトコルにおける標準的なdNTP濃度は、プロット中、0.059mMに一致する)。使用したパネルは、サイズが31プローブのがんパネルである。各複製を平均し、全ての平均した試料は、総リードが50K~120Kであった。
【
図12B】同様の又は改善された均一性及びオンターゲット率により、ハイブリダイゼーションプロトコルが修正される。153分(iMIPプロトコル)とハイブリダイゼーション時間が103分であるiMIP修正プロトコルとの両方について、dNTP濃度の範囲についての均一性及びオンターゲット率の比較を提示する。dNTP濃度の範囲を、両方のハイブリダイゼーションプロトコルについて調べた(参考のために、iMIPプロトコルにおける標準的なdNTP濃度は、プロット中、0.059mMに一致する)。使用したパネルは、サイズが31プローブのがんパネルである。各複製を平均し、全ての平均した試料は、総リードが50K~120Kであった。
【
図12C】同様の又は改善された均一性及びオンターゲット率により、ハイブリダイゼーションプロトコルが修正される。ハイブリダイゼーション時間が103分と比較して135分であったiMIP修正プロトコルにおける正規化した均一性及びオンターゲット率の比較である。使用したパネルは、SNP又はARCHのいずれかである。ISP146は、サイズが161プローブのSNPパネルを示す。ISP170は、サイズが339プローブのARCHパネルのサブセットを示す。ISP173は、サイズが773プローブの完全なARCHパネルを示す。SP178は、サイズが248プローブのSNPパネルを示す。各試料のデータを、試料オンターゲット%及び均一性%を、パネル当たりの各実験の103分間の反復の平均で割ることによって正規化した。135分のプログラムは、Mann Whitney U検定(p値=0.016)を使用してオンターゲット%が有意に高いことが見出されたが、均一性は有意な改善を示さなかった。
【
図13】より短いエキソヌクレアーゼ不活性化期間での同様の均一性及びオンターゲット率。エキソヌクレアーゼ不活性化条件が、5分間、80℃、90℃、又は95℃であったiMIP修正プロトコルにおける均一性及びオンターゲット率の比較である。上記のように、iMIPプロトコルにおけるエキソヌクレアーゼの不活性化は、20分間80℃であった。この分析のためのパネルは、サイズが597プローブのARCHパネルである。
【発明を実施するための形態】
【0025】
本明細書で教示する原理、使用、及び実施形態は、添付の説明及び図面を参照することでより良く理解され得る。本明細書にある説明及び図面に目を通すと、当業者であれば、過度の努力又は実験を伴わずに、本明細書の教示を実装することができるであろう。図面では、全体を通して同じ参照番号が同じ部分を指す。図面では、全体を通して同じ参照番号が同じ部分を指す。
【0026】
本出願の説明及び特許請求の範囲において、「含む(include)」及び「有する(have)」という語、並びにそれらの形態は、それらの語に関連し得るリスト内の要素に限定されない。
【0027】
当業者であれば、本発明が、目的を実行し、言及された結果及び利点、並びにそれに固有の結果及び利点を得るために十分に適合されることを容易に理解する。本明細書に提供される実施例は、好ましい実施形態の代表であり、例示であり、そして本発明の範囲に対する限定として意図されるものではない。本明細書では、以前は低性能であったが高度にスケーラビリティが高く経済的な技術であるMIP技術の改善のための二方向(すなわち、統計的及び生化学的)アプローチが開示される。この目標を達成するために、本技術のノイズパターンを大きなデータセットにおいて研究し、ベンチマークのアンプリコンに基づくシーケンシング戦略を創出して、候補のバリアントを検証した。これにより、MIPノイズ低減のための最新技術のアルゴリズムが更に改善され、高精度低VAF機械学習コールモデルが生成された。ノイズを、プロトコルタイミング及び酵素を変更することによって更に低減させた。
【0028】
図9は、本開示の改善されたMIPプロトコル(improved MIP、iMIP)と以前のMIPプロトコルとの間の主な差異を要約する。簡単に述べると、本明細書で更に詳述するように、本iMIPプロトコルの主な利点は以下のとおりである:(1)約2.5時間以下(一晩の代わりに)のより短いハイブリダイゼーションインキュベーション、(2)所用時間約10分(2.5時間の代わりに)のQ5 High-Fidelity(HF)DNAポリメラーゼを使用するギャップ充填、(3)反応混合物中に存在する直鎖状プローブ及び任意の他の直鎖状核酸配列の酵素消化が、エキソヌクレアーゼI及びエキソヌクレアーゼIIIを加えた後、15~30分間(2時間の代わりに)インキュベートすることによって行われること、(4)例えばUltra II Q5 Master Mixを使用した最終生成物の増幅。
【0029】
バックグラウンドエラー率を、各変更について、並びにMIP及びiMIPプロトコルの異なるバッチ(NGS実行)の各々について、計算した。
図10において示すように、本iMIPプロトコルは、バッチにかかわらず、バックグラウンドエラー率が低減する。MIPプロトコルの全てのバッチで見られたC→Aの二峰性エラー率は、本iMIPプロトコルでは消失した。Varscan及びカモノハシから得られた変異の一塩基インデルにおけるバックグラウンドエラー率を、それぞれ
図11A及び
図11Bのパネルに示す。
【0030】
改善されたiMIPプロトコルにより、全ての可能な交代の全体的なSNVノイズの低減が支援され、C>A交代の二峰性ノイズが排除された(例えば、
図1A参照)。いずれの理論又は作用機序にも束縛されない。このため、3時間半未満の短いiMIPプロトコルが、臨床検査室と大規模スクリーニングの試みとの両方にとって魅力的である。
【0031】
MIPプロトコルを使用する低VAFのコールは、固有分子識別子(UMI)/分子タグを利用することによって更に改善され得る(Waalkes,A.,et al.,(2017)Haematologica,102,1549-1557)。
【0032】
開示されたMIP構造はUMI(7ヌクレオチド)で構成されるが、発明者らはそれを使用しないことを選択した。これは、主に、低VAFのためのUMI利用が、サイズ5超の多数のファミリーを可能にする標的当たりのより高い深度を必要とすることを理由とする(Shugay,M.,(2017),PLoS Comput.Biol.,13,e1005480)。
【0033】
発明者らは、各試料に約200万リードを割り当てることを選択し、したがって、ファミリーの大部分は、サイズ5未満であった。それにもかかわらず、過去に、ハイブリッド捕捉プロトコルにおいて正確な統計モデルを使用することにより、UMI補正を必要とせずに正確なVAFコールが可能になることも示されており(Abelson S.,et al.,Nature.2018;559:400-404)、発明者らにより、本明細書においてMIPプロトコルについて類似した証拠が提供された。したがって、発明者らのモデルは、80%の感度及び有意に高い精度で、0.5%という低いVAFを有するバリアントの検出に好適である。より低いVAF又はより高い感度が必要とされる場合、より深いシーケンシングが、UMIの折り込み(collapsing)を加えるのと併せて使用される。しかしながら、多くの場合、これは必要とされず、開示されるプロトコルは、費用効率の良い低VAFプロトコルの必要性に答えることができる。開示されるモデル及びプロトコルは、あらゆるMIPパネルに対して一般化することができ、UMIエラー補正と組み合わせることができるが、はるかに深いシーケンシング(微小残存病変検出に必要とされ得る)の場合、UMI中のヌクレオチド数は、深さ及びVAF閾値に相関して増加させるべきである。深い標的化されたシーケンシングには、がんの早期診断及び他の適用においてその独自の必要性があるが、標的化されたシーケンシング用途の大部分は、低VAF検出を必要とせず、依然として費用が高く、長く複雑なプロトコルに悩まされている。本発明の開示は、3時間半の単一チューブ完全自動化プロトコルを提供し、このプロトコルは、その性能が著しく改善されるので、臨床使用の準備が整ったものである。
【0034】
先行技術のMIPプロトコルは、低いオンターゲット%、均一性、及びGC含量カバレッジに悪影響を受けることでよく知られている。これらのパラメータは全て、本明細書に開示されるiMIPプロトコルにおいて著しく改善された(例えば、
図2A~
図2D及び
図3A~
図3C参照)。
【0035】
近年、様々なゲノム標的及びトランスクリプトーム標的、例えば、エクソーム、ショートタンデムリピート、疾患関連標的、メチル化パターン、及びRNA発現を標的化し、シーケンシングするために、分子反転プローブが使用された。本明細書に開示されるiMIPプロトコルは、主に使用が容易な短いターンアラウンドタイムに起因して臨床現場に、それだけでなく特に小型及び中型パネルのGCリッチにおける改善された性能に起因して他の標的化されたシーケンシング用途にもMIPライブラリー調製を前進させることへの足掛かりである。
【0036】
このため、本開示の第1の態様は、分子反転プローブに基づく標的化されたシーケンシングの方法、具体的には、改善された方法に関する。いくつかの実施形態では、開示される方法は、以下の工程を含む。
【0037】
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。いくつかの実施形態では、MIPと標的核酸配列とのハイブリダイゼーションは、好適なハイブリダイゼーションミックスの存在下で行われる。なおいくつかの更なる実施形態では、インキュベーション工程は、サーマルサイクラー中で行われる。
【0038】
次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。いくつかの実施形態では、そのような配列合成は、ギャップ充填反応とも本明細書では称される。いくつかの実施形態では、重合反応を行うために、少なくとも1つのDNAポリメラーゼ及びdNTPを、ハイブリダイズされたMIPに加える。いくつかの実施形態では、少なくとも1つのリガーゼを反応に加える。なおいくつかの更なる実施形態では、反応及び/又はライゲーション反応は、サーマルサイクラー中でインキュベートすることによって行われる。
【0039】
次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。
【0040】
次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0041】
いくつかの実施形態では、消化工程及び/又は増幅工程は、任意選択の工程であってもよい。このため、いくつかの実施形態では、開示される方法は、以下の工程を含んでもよい。
【0042】
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。いくつかの実施形態では、MIPと標的核酸配列とのハイブリダイゼーションは、好適なハイブリダイゼーションミックスの存在下で行われる。なおいくつかの更なる実施形態では、インキュベーション工程は、サーマルサイクラー中で行われる。
【0043】
次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。いくつかの実施形態では、そのような配列合成は、ギャップ充填反応とも本明細書では称される。
【0044】
なおいくつかの更なる実施形態では、開示される方法は、以下の工程を含んでもよい。
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。いくつかの実施形態では、MIPと標的核酸配列とのハイブリダイゼーションは、好適なハイブリダイゼーションミックスの存在下で行われる。なおいくつかの更なる実施形態では、インキュベーション工程は、サーマルサイクラー中で行われる。
【0045】
次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。いくつかの実施形態では、そのような配列合成は、ギャップ充填反応とも本明細書では称される。
【0046】
次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。
【0047】
なお更なる任意選択の実施形態は、以下の工程を含む方法に関する。
工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。いくつかの実施形態では、MIPと標的核酸配列とのハイブリダイゼーションは、好適なハイブリダイゼーションミックスの存在下で行われる。なおいくつかの更なる実施形態では、インキュベーション工程は、サーマルサイクラー中で行われる。
【0048】
次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。いくつかの実施形態では、そのような配列合成は、ギャップ充填反応とも本明細書では称される。次の工程(c)は、環化生成物の合成配列を増幅することを伴う。
【0049】
いくつかの実施形態によれば、分子反転プローブに基づく標的化されたシーケンシングの方法が提供され、本方法は、以下の工程を含む。
工程(a)では、(i)標的核酸に相補的な第1の配列を含む第1の領域と、(ii)標的核酸に相補的な第2の配列を含む第2の領域とを含む、少なくとも1つの分子反転プローブ(MIP)が提供される。次の工程(b)は、少なくとも1つのMIPを標的核酸及びハイブリダイゼーションミックスに接触させ、サーマルサイクラー中でハイブリダイゼーション時間にわたってインキュベートし(ここで、ハイブリダイゼーション時間は1~3時間半である)、それにより、標的核酸の第1の領域及び第2の領域にハイブリダイズしたMIPを得て、ハイブリダイズしたMIPにdNTP及びDNAポリメラーゼを含む組成物を加え、サーマルサイクラー中で1~20分間インキュベートし、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸に対応する配列を合成することを伴う。次の工程(c)は、少なくとも1つのMIPを酵素消化により15~45分間消化させることを伴う。次の工程(d)は、合成された配列を増幅することを伴う。
【0050】
開示される方法は、MIPを提供及び/又は使用する。分子反転プローブ(MIP)は、例えば、5’末端及び3’末端が小さなギャップで標的に隣接するか又は標的中で分離されているループ中の標的核酸にハイブリダイズする核酸ハイブリダイゼーションプローブである。MIPは、典型的には、DNAポリメラーゼ反応の高い特異度を使用してギャップ中の標的ヌクレオチドを調べるように設計される。適切なdNTPが提供される場合、ポリメラーゼは、MIP5’末端と3’末端との間のギャップを充填し得る。例えば、標的核酸がギャップ中にアデニン「A」を有する場合、標的を鋳型として使用して、ポリメラーゼは、相補的dTTPが提供される場合、ギャップを充填することができる。ポリメラーゼは「T」を加え、ギャップ充填反応においてギャップを充填する。ギャップが充填されると、リガーゼが残りのニックを閉じ、MIPを環状化し得る。次いで、環状化したMIPを濃縮又は単離する。いくつかの実施形態では、環状化された一本鎖DNAが多くのヌクレアーゼのための基質ではないので、ハイブリダイズせず環状化しなかったMIP(本明細書において直鎖状MIPとも称する)を含む他の全ての核酸を、1つ以上のヌクレアーゼで消化させることができる。MIP反応生成物は、典型的には、増幅工程、例えば、MIP内のプライマー結合部位を使用するPCR又はローリングサークル増幅の後に、捕捉アレイ上で検出される。
【0051】
いくつかの実施形態では、開示される方法において有用なMIPは、標的核酸配列のそれぞれ第1の領域及び第2の領域に相補的な配列を含む「第1」及び「第2」の領域を含む。本明細書で使用される「相補的」という用語は、例えば、二本鎖DNA分子の2本の鎖の間、又はオリゴヌクレオチドプライマーとシーケンシング又は増幅される一本鎖核酸上のプライマー結合部位との間などの、ヌクレオチド又は核酸間のハイブリダイゼーション又は塩基対合を指す。相補的ヌクレオチドは、概して、A及びT(又はA及びU)、又はC及びGである。2つの一本鎖RNA又はDNA分子は、最適に整列及び比較され、適切なヌクレオチド挿入又は欠失を有する一方の鎖のヌクレオチドが、他方の鎖のヌクレオチドの少なくとも約70%~100%、他方の鎖のヌクレオチドの少なくとも約80%、具体的には約80%~100%、より具体的には少なくとも約90%~95%、より好ましくは約98%~100%と対合するときに、相補的であると言われる。あるいは、相補性は、RNA鎖又はDNA鎖が選択的ハイブリダイゼーション条件下でその相補体にハイブリダイズすることになるときに存在する。典型的には、選択的ハイブリダイゼーションは、少なくとも14~25ヌクレオチドのストレッチにわたって少なくとも約65%相補的、好ましくは少なくとも約75%、より好ましくは少なくとも約90%相補的であるときに生じることになる。いくつかの実施形態では、MIPの相同性領域は、例えば、調べられた目的のヌクレオチドの位置にミスマッチがない限り、目的の標的核酸内の対応する相補的配列と約100%の相補性を示す。
【0052】
更に、開示される方法において提供され使用されるMIPの相補的領域は、相同性領域とも本明細書では称され得る。本明細書で使用される「相同性領域」は、目的の標的核酸に相補的である分子反転プローブの領域である。上記のように、MIPは、典型的には、2つの相同性領域(homology region、HR)を有し、一方はプローブの5’末端又はその近傍にあり、他方は3’末端又はその近傍にある。いくつかの実施形態では、HRは、互いに当接するように、又は単一の標的ヌクレオチド若しくは複数の標的ヌクレオチドのギャップによって分離されるように、目的の標的核酸にハイブリダイズするように適合されている。いくつかの実施形態では、標的核酸配列の第1及び第2の相補的領域は、調べられる配列(例えば、SNPなど)に隣接する。複数の標的ヌクレオチドのギャップは、例えば1~約2000ヌクレオチド、例えば1~500ヌクレオチド、より好ましくは1~250ヌクレオチドを含み得る。ギャップのサイズは、意図される標的の配列、全体的なMIPのサイズ、MIPの非HR部分の量及びサイズ、アッセイの所望の目的及び関連する特徴、並びに他の因子を含む様々な因子に左右されることになる。例えば、SNPを調べるように設計されたMIPは、単一ヌクレオチドのギャップを有してもよく、一方で、多塩基挿入を調べるように設計されたMIPは、複数ヌクレオチドのギャップを有してもよい。いくつかの実施形態では、開示されるMIPの第1及び/又は第2の相同性領域は、約10~約200ヌクレオチド長、具体的には、約10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、200、又はそれ以上のヌクレオチドであってもよい。開示されるMIPの第1の相補的領域及び第2の相補的領域は、同じであっても異なっていてもよいことに更に留意されたい。
【0053】
いくつかの実施形態では、本開示において使用されるMIPプローブは、縮重相同性アーム又は相補的領域を含んでもよい。いくつかの実施形態では、開示されるMIPの相補的領域は、1つ以上の縮重塩基、具体的には約0.1%~約90%の縮重塩基を含んでもよく、したがって、縮重相同性領域又はアーム、相補的領域又はアームと本明細書では称される。より具体的には、縮重塩基とは、特定の位置における2つ以上の塩基の可能性を意味する。オリゴヌクレオチド配列は、同じ位置に複数の塩基を有するように合成することができ、これは縮重塩基と呼ばれ、また「ゆらぎ」位置又は「混合塩基」と称されることもある。IUB(International Union of Biochemistry)は、全ての可能な縮重可能性について一文字コードを確立している。一例は、同じ位置でA+Gである「R」であり、オリゴ配列の50%がその位置にAを有し、他の50%がGを有する。縮重塩基位置は、2つ、3つ、又は4つの塩基のいずれの組み合わせを有してもよい。IUB縮重塩基を使用するオリゴの化学合成は、その特定の塩基位置での反応のための各塩基のパーセンテージを送達するようにプログラムされ、自動化される。例えば、文字「N」については、各塩基の25%がカップリングのために送達される。送達及びカップリングは、各塩基について100%正確かつ効率的でない場合があり、このため、約10%の偏差が予想され、最終オリゴ配列において考慮されるべきである。縮重(混合塩基)位置については、以下のIUBコードを使用する。R=A+G、Y=C+T、M=A+C、K=G+T、S=G+C、W=A+T、H=A+T+C、B=G+T+C、D=G+A+T、V=G+A+C、N=A+C+G+T。
【0054】
更に、いくつかの実施形態では、本開示において使用されるMIPプローブは、追加の要素、例えば、識別子(UMI)、プライマーに相補的な配列などを含んでもよい。いくつかの態様では、MIPプローブは、1つ以上の固有分子識別子(UMI)を含んでもよい。UMIは、使用される特定のMIPを特定する目的のための、短い配列又は分子「タグ」で構成される固有の分子識別子である。なおいくつかの更なる実施形態では、MIPは2つのUMIを含んでもよい。更に、開示されるMIPプローブの少なくとも1つのUMIは、第1及び第2の相補的領域(又は相同性アーム)の少なくとも一方に隣接してもよい。なおいくつかの更なる実施形態では、開示されるMIPプローブの少なくとも1つのUMIは、第1及び第2の相補的領域(又はホモロジーアーム)の少なくとも一方に隣接されてもよい。更に、一部の実施形態では、UMIは、約5ヌクレオチド~約50ヌクレオチド、具体的には、5~40ヌクレオチド、5~40ヌクレオチド、5~40ヌクレオチド、5~40ヌクレオチド、具体的には、5、6、7、8、9、10ヌクレオチドを含んでもよい。いくつかの実施形態では、開示されるMIPにおいて有用なUMIは、7ヌクレオチドを含む。なおいくつかの更なる実施形態では、開示されるMIPにおいて有用なUMIは、8ヌクレオチドを含む。本明細書で使用される「隣接する」という用語は、2つの定義された領域の間に位置する核酸配列を指す。
【0055】
開示される方法の工程(a)は、標的核酸配列の少なくとも1つのMIPによるハイブリダイゼーションを伴う。本明細書で使用される「ハイブリダイゼーション」という用語は、2つの一本鎖ポリヌクレオチドが非共有結合して安定な二本鎖ポリヌクレオチドを形成するプロセスを指す。三本鎖ハイブリダイゼーションも理論的には可能である。得られた(通常は)二本鎖のポリヌクレオチドは「ハイブリッド」である。ハイブリダイゼーションは、通常、ストリンジェントな条件下、例えば、少なくとも25℃以上の温度で行われる。相補鎖の塩基組成及び長さ、有機溶媒の存在、並びに塩基ミスマッチの程度を含む他の因子がハイブリダイゼーションのストリンジェンシーに影響し得るので、パラメータの組み合わせは、いずれか1つ単独の絶対的尺度よりも重要である。開示される方法のハイブリダイゼーション工程は、標的配列への少なくとも1つのMIPのハイブリダイゼーションを成功させ、それにより、ハイブリダイズしたMIPを形成するのに好適な条件下で行われる。いくつかの実施形態では、「ハイブリダイズ条件」は、相補的配列間の特異的ハイブリダイゼーションを生じる任意の条件(時間、温度、緩衝液)を含み、例えば、標的核酸配列は、完全にマッチした相補的標的に対してプローブに少なくとも50%(例えば、同じハイブリダイゼーション条件下で定量的に)ハイブリダイズするとき、すなわち、完全にマッチしたプローブが完全にマッチした相補的標的に結合する条件下でのプローブの標的へのハイブリダイゼーションの少なくとも半分のシグナル対ノイズ比で、MIPプローブ核酸相補的領域に特異的にハイブリダイズすると言われる。
【0056】
より具体的には、いくつかの実施形態では、開示される方法の工程(a)は、好適なハイブリダイゼーション緩衝液の存在下で行われる。ハイブリダイゼーション緩衝液は、いくつかの実施形態では、アンプリガーゼ反応緩衝液を含んでもよい。より具体的には、いくつかの実施形態では、10×アンプリガーゼ反応緩衝液は、200mMのTris-HCl(pH8.3)、250mMのKCl、100mMのMgCl2、5mMのNAD、及び0.1%のTriton(登録商標)X-100を含む。いくつかの実施形態では、緩衝液の適切な濃度が使用される。より具体的には、ハイブリダイゼーション混合物は、本明細書で特定される、約2×~約0.1×のアンプリガーゼ反応緩衝液、具体的には、約0.1×~約1×のアンプリガーゼ反応緩衝液を含んでもよい。より具体的には、約0.1×、0.2×、0.3×、0.4×、0.5×、0.6×、0.7×、0.8×、0.9×、1×、又はそれ以下である。なおいくつかの更なる実施形態では、ハイブリダイゼーション混合物中のアンプリガーゼ反応緩衝液の最終濃度は、約0.80×、0.81×、0.82×、0.83×、0.84×、0.85×、0.86×、0.87×、0.88×、0.89×、0.9×、より具体的には、約0.85×のアンプリガーゼ反応緩衝液である。このため、いくつかの実施形態では、0.85×のアンプリガーゼ反応緩衝液が使用される。いくつかの実施形態では、ハイブリダイゼーション工程は、標的核酸配列及び/又はMIPプローブの一本鎖への縮重を可能にする適切な温度で行い、その後、プローブの相補的領域を標的核酸配列中の対応する相補的領域にアニーリングしてもよい。いくつかの実施形態では、縮重は、高温で好適な時間にわたって行われてもよい。本明細書で使用されるハイブリダイゼーション混合物は、いくつかの実施形態では、上で特定したハイブリダイゼーション緩衝液、少なくとも1つのMIP、及び標的核酸配列を含む混合物を意味する。したがって、非限定的な実施形態には、標的配列及び少なくとも1つのMIPを含有するハイブリダイゼーション混合物を、約90℃~約100℃の温度、具体的には、約90℃、91℃、92℃、93℃、94℃、95℃、96℃、97℃、98℃、99℃、100℃、又はそれ以上の温度、具体的には98℃で、好適な時間にわたってインキュベートすることが含まれる。例えば、約0.1分~約10分、具体的には、約0.5分、1、2、3、4、5分、又はそれ以上、具体的には3分間である。このため、いくつかの実施形態では、ハイブリダイゼーション混合物は、3分間98℃でインキュベートされる。いくつかの実施形態では、98℃での縮重に続いて、ハイブリダイゼーション混合物は、適切な温度で、適切な期間、例えば、約60℃~約100℃以上の温度で、具体的には、75℃、76℃、77℃、78℃、79℃、80℃、81℃、82℃、83℃、84℃、85℃、86℃、87℃、88℃、89℃、90℃、又はそれ以上で、具体的には85℃で、好適な期間にわたって、更にインキュベートされる。より具体的には、約0.1分~約60分間、具体的には、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40分間、又はそれ以上である。いくつかの実施形態では、混合物は、85℃で30分間インキュベートされる。なおいくつかの更なる実施形態では、混合物は、85℃で20分間インキュベートされる。更に、相補的配列のアニーリングは、いくつかの実施形態では、約30℃~約80℃以上の温度で、具体的には、約45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃以上、又はそれ以上の温度で、具体的には60℃で、好適な期間にわたって行われてもよい。例えば、約0.1分~約200分、約1分~約200分、具体的には、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150分、又はそれ以上である。いくつかの特定の実施形態では、約60分間である。なおいくつかの更なる実施形態では、40分間である。このため、いくつかの実施形態では、ハイブリダイゼーション混合物は、60℃で60分間、又は代替的に60℃で40分間インキュベートされる。更に、いくつかの実施形態では、この工程に続いて、約30℃~約80℃以上の温度、具体的には、45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、又はそれ以上の温度、具体的には56℃で、好適な期間にわたって、更なるインキュベーションを行う。例えば、約0.1分~約200分、具体的には、約5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、51、52、53、54、55、56、57、58、59、60、61、62、63、64、65、66、67、68、69、70、75、80、85、90、95、100、105、110、115、120、125、130、135、140、145、150分、又はそれ以上である。いくつかの特定の実施形態では、約60分間である。なおいくつかの更なる実施形態では、40分間である。このため、いくつかの実施形態では、ハイブリダイゼーション混合物は、56℃で60分間、又は代替的に56℃で40分間インキュベートされる。いくつかの実施形態では、反応は、重合反応が開始するまで56℃で維持される。このため、いくつかの実施形態では、この工程は、98℃で約3分間、続いて85℃で約30分間以下、次に60℃で約60分間以下、及び56℃で約60分間以下のインキュベーションを伴ってもよい。なおいくつかの代替的な実施形態では、ハイブリダイゼーション工程は、ハイブリダイゼーション混合物を、98℃で約3分間、続いて85℃で約20分間以下、次に60℃で約40分間以下、及び56℃で約40分間以下、インキュベートすることを含む。
【0057】
いくつかの実施形態では、この工程は、サーマルサイクラー中で行われてもよい。なおいくつかの更なる実施形態では、使用されるハイブリダイゼーションプログラムは、漸進的(ランプ温度)であっても一定であってもよい。
【0058】
サーモサイクラー(サーマルサイクラー、PCRマシン、又はDNA増幅器としても知られる)は、本明細書で使用される場合、ポリメラーゼ連鎖反応(polymerase chain reaction、PCR)を介してDNAのセグメントを増幅するために最も一般に使用される実験室装置である。サーマルサイクラーはまた、酵素反応(重合、エキソヌクレアーゼ、制限酵素消化、ライゲーション)を含む他の温度感受性反応を容易にするために実験室で使用されてもよい。この装置は、反応混合物を保持する管を挿入することができる穴があるサーマルブロックを有する。次に、サイクラーは、別々の予めプログラムされた段階でブロックの温度を上下させる。サーマルサイクラーのランプ速度は、あるPCR工程から別のPCR工程への経時的な温度変化を示し、通常、1秒当たりの摂氏度(℃/秒)で表される。「上昇ランプ」及び「下降ランプ」という用語は、それぞれサーマルブロックの加熱及び冷却を指す。
【0059】
なおいくつかの更なる実施形態では、開示される方法の工程(b)において、重合及び/又はライゲーションが行われる。このため、上で示したように、いくつかの実施形態では、重合及びライゲーション(b)は、工程(a)で得られたハイブリダイズしたMIPを、1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。いくつかの実施形態では、そのような配列合成は、ギャップ充填反応とも本明細書では称される。「ギャップ充填反応」は、相補的な標的核酸にハイブリダイズした分子反転プローブの5’末端と3’末端との間のポリメラーゼの作用によってギャップが充填される、本明細書に記載の反応である。多くの実施形態では、充填されたギャップは、単一ヌクレオチドからなる。しかしながら、いくつかのMIPギャップ充填反応では、ギャップは、例えば、標的核酸に特異的にハイブリダイズした第1のMIP相同性領域と第2のMIP相同性領域との間の、2つ以上のヌクレオチド、例えば、約1~約500ヌクレオチド、具体的には、約1~約450ヌクレオチド、約1~約400ヌクレオチド、約1~約350ヌクレオチド、約1~約300ヌクレオチド、約1~約250ヌクレオチド、例えば、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、150、200、250、又はそれ以上のヌクレオチドであり得る。いくつかの実施形態では、本明細書に開示される方法は、数百のヌクレオチドのギャップ、及び/又は異なる染色体間のギャップを更に包含してもよく、これは、本明細書において後でより詳細に考察するように、ゲノムトポロジー構成を定義する方法において使用され得る。合成された配列を更にライゲーションすることで、重合及び/又はライゲーション反応混合物中の環化生成物が得られることを理解されたい。
【0060】
いくつかの実施形態では、重合反応は、DNAポリメラーゼによって行われる。本明細書で使用されるポリメラーゼは、DNA合成に必要な酵素群のメンバーである。DNAポリメラーゼの主な機能は、複製中にDNAを合成することである。DNAポリメラーゼは対で働き、DNAの2本の鎖をタンデムで複製する。それらは、成長しているDNA鎖の3’-OH基にデオキシリボヌクレオチドを付加する。DNA鎖は、それらの重合活性によって5’→3’方向に成長する。アデニンはチミンと対合し、グアニンはシトシンと対合する。DNAポリメラーゼは複製プロセスを開始することができず、ヌクレオチドに付加するためにプライマーを必要とする。したがって、重合反応は、ギャップ充填反応に関連して上で示したように、適切な鋳型に対応するDNA鎖の合成である。
【0061】
5つのDNAポリメラーゼがE.coliにおいて特定されている。全てのDNAポリメラーゼは、構造、機能、並びに重合及び処理能力の速度が異なる。DNAポリメラーゼIは、polA遺伝子によってコードされる。これは単一のポリペプチドであり、組換え及び修復において役割を有する。これは、5’→3’及び3’→5’エキソヌクレアーゼ活性の両方を有する。DNAポリメラーゼIは、5’→3’エキソヌクレアーゼ活性によってRNAプライマーをラギング鎖から除去し、ギャップを充填する。DNAポリメラーゼIIは、polB遺伝子によってコードされる。これは、7つのサブユニットで構成される。その主な役割は、DNAポリメラーゼIIIの修復及びバックアップである。これは、3’→5’エキソヌクレアーゼ活性を有する。DNAポリメラーゼIIIは、E.coliにおける複製のための主要な酵素である。これは、polC遺伝子によってコードされる。これはまた、校正3’→5’エキソヌクレアーゼ活性も有する。DNAポリメラーゼIVは、dinB遺伝子によってコードされる。その主な役割は、DNA複製が複製フォークで停滞するときの、SOS応答の間のDNA修復にある。
【0062】
いくつかの実施形態によれば、DNAポリメラーゼは、当該技術分野で知られているいずれのDNAポリメラーゼであってもよい。いくつかの実施形態によれば、DNAポリメラーゼは、高忠実度DNAポリメラーゼである。高忠実度DNAポリメラーゼは、忠実度及びロバスト性能の両方について新しい基準を設定する。利用可能な最も高い忠実度の増幅(Taqよりも約280倍高い)では、Q5 DNAポリメラーゼは、超低エラー率をもたらす。Q5 DNAポリメラーゼは、処理能力を増強させるSso7d DNA結合ドメインに融合した新規ポリメラーゼで構成され、性能の速度、忠実度、及び信頼性を改善する。いくつかの実施形態によれば、GCにおける高忠実度DNAポリメラーゼは、DNA領域を富化した。いくつかの実施形態によれば、DNAポリメラーゼは、以下、Q5 High-Fidelity(HF)DNA Polymerase、Advantage(登録商標)GC Genomic LA Polymerase(Takara)、PrimeSTAR(登録商標)GXL DNA Polymerase(Takara)及びAccuPrime(商標)GC-Rich DNA Polymerase(Invitrogen)、Platinum SuperFi II DNA Polymerase(Thermo Fisher Scientific)、KAPA2G Robust HotStart PCR Kitのうちのいずれか1つ以上を含むが、これらに限定されない。更に、いくつかの特定の実施形態では、Q5高忠実度DNAポリメラーゼは、本重合反応において使用される。
【0063】
いくつかの実施形態では、重合反応を行うために、少なくとも1つのDNAポリメラーゼ及びdNTPを、ハイブリダイズされたMIPに加える。
【0064】
より具体的には、いくつかの実施形態では、本明細書で言及される反応混合物は、いくつかの実施形態では、重合反応に必要とされるいずれの好適な要素を含んでもよい。
【0065】
より具体的には、いくつかの実施形態では、重合反応は、重合反応緩衝液を使用して行われる。いくつかの実施形態では、重合反応緩衝液は、Q5 High GC Enhancer、ベータニコチンアミドアデニンジヌクレオチド(beta-nicotinamide adenine dinucleotide、NAD+)、dNTP、ベタイン、及び適切なDNAポリメラーゼのうちの少なくとも1つを含んでもよい。いくつかの実施形態では、開示される方法において使用される反応混合物は、dNTP(例えば、14pM)、ベタイン(例えば、375mM)、NAD+(例えば、1mM)、上で特定したような追加のアンプリガーゼ緩衝液、例えば、本明細書で特定するような約0.1×~約1×のアンプリガーゼ反応緩衝液を含んでもよい。より具体的には、約0.1×、0.2×、0.3×、0.4×、0.5×、0.6×、0.7×、0.8×、0.9×、1×、又はそれ以下である。なおいくつかの更なる実施形態では、重合混合物中のアンプリガーゼ反応緩衝液の最終濃度は、約0.450×、0.46×、0.47×、0.48×、0.49×、0.50×、0.51×、0.52×、0.53×、0.54×、0.55×、より具体的には、約0.50×のアンプリガーゼ反応緩衝液、アンプリガーゼ(例えば、合計1.25U)、及びQ5 High-Fidelity DNA Polymerase(例えば、0.4U)である。なおいくつかの代替的又は追加的な実施形態では、重合反応は、「Q5 Reaction Buffer」を含んでもよい。いくつかの実施形態では、5×のQ5 Reaction Bufferは、最終(1×)反応濃度で2mMのMg++を含んでもよい。このため、いくつかの実施形態では、Q5 Reaction Bufferは、約0.1×~約1×、具体的には、約0.1×、0.2×、0.3×、0.4×、0.5×、0.6×、0.7×、0.8×、0.9×、1×、又はそれ以下である。
【0066】
なおいくつかの更なる実施形態では、重合混合物中のQ5 Reaction Bufferの最終濃度は、約0.150×、0.16×、0.17×、0.18×、0.19×、0.20×、0.21×、0.22×、0.23×、0.24×、0.25×、0.26×、0.27×、0.28×、0.29×、0.30×、0.31×、0.32×、0.33×、0.34×、0.35×、より具体的には、約0.250×のアンプリガーゼ反応緩衝液である。このため、いくつかの代替的又は追加的な実施形態では、反応混合物は、Q5反応緩衝液(例えば、0.25×)を更に含んでもよい。更に、GCリッチ標的(65%以上のGC)について、増幅は、上に示したように、5×のQ5 High GC Enhancerを加えることにより改善させることができる。
【0067】
いくつかの実施形態では、少なくとも1つのリガーゼを反応に加える。なおいくつかの更なる実施形態では、反応及び/又はライゲーション反応は、サーマルサイクラー中でインキュベートすることによって行われる。より具体的には、DNAリガーゼは、本明細書で使用される場合、二重鎖DNA構造における隣接する3’-ヒドロキシル末端及び5’-リン酸塩末端のNAD依存性ライゲーションを触媒する酵素である。アンプリガーゼDNAリガーゼは、好熱性細菌に由来するので、従来のDNAリガーゼよりもはるかに高い温度で安定かつ活性である。アンプリガーゼDNAリガーゼの半減期は、65℃で48時間であり、95℃で1時間を超える。ほとんどの場合、アンプリガーゼDNAリガーゼの反応温度に対する上限は、DNA基質のTmによって決定される。最大ハイブリダイゼーションストリンジェンシーの条件下では、非特異的ライゲーションはほとんど排除される。アンプリガーゼDNAリガーゼは、平滑端又はRNA基質に対して検出可能な活性を有しない。この酵素は、7~8のpH範囲内の様々なDNAポリメラーゼ緩衝液中で活性である。任意のリガーゼを開示される方法に使用できることが理解される。
【0068】
更に、いくつかの実施形態では、重合及びライゲーション工程(b)は、適切な温度で好適な期間にわたって行われてもよい。より具体的には、いくつかの実施形態では、工程(a)で得られたハイブリダイズされたMIP産物は、約30℃~約100℃以上の温度、具体的には、45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、又はそれ以上の温度、具体的には56℃で、好適な期間にわたって、インキュベートされる。いくつかの実施形態では、好適なインキュベーション時間は、0.5、1、2、3、4、5、6、7、8、9、10分、又はそれ以上、具体的には5分であってもよい。いくつかの特定の実施形態では、反応混合物は、5分間56℃でインキュベートされる。いくつかの実施形態では、56℃でのインキュベーションに続いて、好適な温度、例えば、約30℃~約100℃以上、具体的には、55℃、56℃、57℃、58℃、59℃、60℃、61℃、62℃、63℃、64℃、65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、74℃、75℃、76℃、77℃、78℃、79℃、80℃、81℃、82℃、73℃、74℃、85℃、又はそれ以上、具体的には72℃の温度で、好適な期間にわたって、更なるインキュベーションを行う。いくつかの実施形態では、好適なインキュベーション時間は、約0.1分~約30分、具体的には、0.5、1、2、3、4、5、6、7、8、9、10分、又はそれ以上、具体的には5分であってもよい。このため、いくつかの実施形態では、反応混合物は、56℃で5分間、続いて72℃で5分間、インキュベートされる。標的核酸配列がRNAであるいくつかの実施形態では、ハイブリダイゼーション反応の前に、核酸分子は、逆転写によって、例えば逆転写酵素を使用することによって、DNA分子、具体的にはcDNA分子に変換されることを理解されたい。
【0069】
更に、いくつかの実施形態では、特定の反応工程の各々について、上で特定したような反応の終了時、及び次の工程に進む前に、反応は、低温、例えば4℃~20℃、具体的には16℃で維持されてもよい。上で示したように、いくつかの実施形態では、開示される方法は、工程(b)の重合反応の環化生成物を増幅する任意選択の工程を更に含んでもよく、又は環化生成物の消化、したがって富化が、酵素消化工程(c)によって行われる場合、工程(c)によって得られる環化生成物は、任意選択の好適な増幅方法によって増幅される。いくつかの特定の非限定的な実施形態では、増幅は、PCR反応を使用して行われる。
【0070】
「ポリメラーゼ連鎖反応」又は「PCR」は、当該技術分野でよく知られているように、DNAの相補鎖の同時プライマー伸長による特定のDNA配列のインビトロ増幅のための反応を意味する。言い換えれば、PCRは、プライマー結合部位に隣接する標的核酸の複数のコピー又は複製を作製するための反応であり、そのような反応は、以下、(i)標的核酸を縮重させる工程、(ii)プライマーをプライマー結合部位にアニーリングする工程、及び(iii)プライマーをヌクレオシド三リン酸の存在下で核酸ポリメラーゼによって伸長させる工程、のうちの1つ以上の繰り返しを含む。通常、反応は、サーマルサイクラー機器において各工程について最適化された異なる温度を通して循環される。特定の温度、各工程における持続時間、及び工程間の変化率は、当業者によく知られている多くの要因に左右される。例えば、Taq DNAポリメラーゼを使用する従来のPCRでは、二本鎖標的核酸を90℃超の温度で縮重させ、プライマーを50~75℃の範囲の温度でアニーリングし、プライマーを72~78℃の範囲の温度で伸長させてもよい。「PCR」という用語は、RT-PCR、リアルタイムPCR、ネステッドPCR、定量的PCR、マルチプレックスPCRなどを含むがこれらに限定されない、反応の派生形態を包含する。反応体積は、数百ナノリットル、例えば200nLから、数百μL、例えば200μLまでの範囲である。「逆転写PCR」又は「RT-PCR」は、標的RNAを相補的一本鎖DNAに変換し、次いでこれを増幅させる逆転写反応が先行するPCRを意味する。「ネステッドPCR」は、第1のPCRのアンプリコンが、プライマーの新しいセットを使用する第2のPCRのための試料となり、これらのうちの少なくとも1つが、第1のアンプリコンの内部位置に結合する、二段階PCRを意味する。本明細書中で使用される場合、ネステッド増幅反応に関する「初期プライマー」は、第1のアンプリコンを生成するために使用されるプライマーを意味し、「二次プライマー」は、第2のアンプリコン又はネステッドアンプリコンを生成するために使用される1つ以上のプライマーを意味する。「マルチプレックスPCR」は、複数の標的配列が同じ反応混合物中で同時に実施されるPCRを意味する。
【0071】
いくつかの実施形態では、ハイブリダイゼーション時間は3時間半未満である。
【0072】
なおいくつかの更なる実施形態では、ハイブリダイゼーション時間は1~3時間である。
【0073】
更に、いくつかの実施形態では、ハイブリダイゼーション時間は1~2時間半である。
【0074】
いくつかの実施形態では、ハイブリダイゼーション時間は、60~200分、具体的には、60、65、70、75、80、85、90、95、100、101、102、103、104、105、110、115、120、125、130、135、140、145、150、155、160、165、170、175、180、185、190、195、又は200分である。いくつかの実施形態では、ハイブリダイゼーション時間は150分以下であり、なおいくつかの代替的な実施形態では、ハイブリダイゼーション時間は135分以下であり、いくつかの更なる実施形態では、ハイブリダイゼーション時間は120分以下であり、いくつかの更なる実施形態では、ハイブリダイゼーション時間は103分以下である。
【0075】
上で示したように、重合及びライゲーション工程(b)で得られた環化生成物を、反応混合物中に存在し得る任意の直鎖状MIP又は他の直鎖状核酸分子から分離するために、開示される方法は、任意選択で、酵素消化の追加工程を含んでもよい。しかしながら、いくつかの実施形態では、消化は、少なくとも1つのエキソヌクレアーゼの使用を伴うことが理解される。「エキソヌクレアーゼ」という用語は、一本鎖及び/又は二本鎖DNAの端部から、5’から3’又は3’から5’のいずれかの方向へのヌクレオチドの除去を触媒する酵素を指す。ヌクレオチドの除去は、加水分解を介したホスホジエステル結合の切断によって達成される。ほとんどのエキソヌクレアーゼは、DNA中のニックで消化する。いくつかのエキソヌクレアーゼは、一度に1塩基を除去する。ラムダエキソヌクレアーゼはこの一例であり、5’リン酸を含有する遊離末端から咀嚼し、一方の鎖を優先的に分解して他方は分解しないことによって、二本鎖DNAを一本鎖DNAに変換する。他の例は、Exo I及びExo IIIである。T5、ExoV、又はExo VIIなどの他のエキソヌクレアーゼは、短いオリゴを除去する。T5 Exoの生成物も、個々の塩基を含む。Exo VII及びVなどのエキソヌクレアーゼは、5’から3’及び3’から5’への両方の方向で消化するが、Exo T及びExo Iなどの他のエキソヌクレアーゼは、一方向にのみ働く。Exo I及びExo Tなどのいくつかのエキソヌクレアーゼは、一本鎖DNAのみを消化し、二本鎖DNAを残す。T7 Exoなどのエキソヌクレアーゼは、二本鎖DNAのみを消化するが、T5 Exo及びExo Vなどの他のエキソヌクレアーゼは、一本鎖及び二本鎖DNAの両方を消化することができる。より具体的な実施形態では、エキソヌクレアーゼI及び/又はエキソヌクレアーゼIIIが使用される。いくつかの実施形態では、任意の形態の直鎖状MIPプローブ及び/又は核酸配列が、ギャップ充填反応後に、エキソヌクレアーゼの組み合わせを用いた消化によって除去される。エキソヌクレアーゼ混合物は、エキソヌクレアーゼI及びエキソヌクレアーゼIIIを含有する。エキソヌクレアーゼIは、一本鎖DNAを3’→5’方向に消化してもよく、遊離3’-ヒドロキシル末端を必要とするが、二本鎖DNAを消化しない。エキソヌクレアーゼIIIは、二本鎖DNAの3’-OH末端からのモノヌクレオチドの除去を触媒する3’-エキソヌクレアーゼである。これはまた、3’-リン酸基を保有し、RNase H活性を有するDNA鎖を脱リン酸化する。エキソヌクレアーゼVIIは、遊離3’又は5’端からDNAを消化する。エキソヌクレアーゼVIIは、環状化DNAに対してほとんど活性を有しないことが報告されている。
【0076】
いくつかの実施形態では、消化反応は、エキソヌクレアーゼI及び/又はエキソヌクレアーゼIIIを工程(b)の反応混合物に加え、適切な温度で好適な期間にわたってインキュベートすることによって行われる。いくつかの実施形態では、消化反応は、25℃、26℃、27℃、28℃、29℃、30℃、31℃、32℃、33℃、34℃、35℃、36℃、37℃、38℃、39℃、40℃、41℃、42℃、43℃、44℃、45℃、46℃、47℃、48℃、49℃、50℃、51℃、52℃、53℃、54℃、55℃、56℃、57℃、又はそれ以上で行われる。いくつかの実施形態では、反応物は、37℃で好適な期間にわたってインキュベートされる。いくつかの実施形態では、インキュベーション時間は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30分、又はそれ以上、具体的には10分である。いくつかの実施形態では、消化反応は、37℃で10分間行われる。更に、消化反応の後に、ヌクレアーゼの不活性化が続く。この工程は、好適な温度で好適な期間にわたって行われる。より具体的には、65℃、66℃、67℃、68℃、69℃、70℃、71℃、72℃、73℃、48℃、75℃、76℃、77℃、78℃、79℃、80℃、81℃、82℃、83℃、84℃、85℃、86℃、87℃、88℃、89℃、90℃、91℃、92℃、93℃、94℃、95℃、96℃、97℃、98℃、99℃、100℃、又はそれ以上、具体的には、80℃、90℃、又は95℃のうちのいずれか1つである。いくつかの実施形態では、不活性化工程は、約1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30分、又はそれ以上にわたって行われてもよい。いくつかの実施形態では、不活性化工程は20分間であってもよい。なおいくつかの更なる実施形態では、不活性化工程は5分間続いてもよい。
【0077】
更に、いくつかの実施形態では、消化反応は、工程(b)の混合物を37℃で10分間インキュベートすることによって行われる。更に、この工程の後に、80℃で20分間のエキソヌクレアーゼの不活性化が続く。なおいくつかの更なる実施形態では、消化工程は、混合物を開示されたエキソヌクレアーゼと37℃で10分間インキュベートした後、5分間90℃又は95℃で不活性化することによって行われる。
【0078】
いくつかの実施形態では、開示される方法の工程(a)~(c)を含むプロセス全体は、200分未満以内で行われる。より具体的には、200分又はそれ以下、199、198、197、196、195、194、193、192、191、190、189、188、187、186、185、184、183、182、181、180、179、178、177、176、175、174、173、172、171、170、169、168、167、166、165、164、163、162、161、160、159、158、157、156、155、154、153、152、151、150、159、158、157、156、155、154、153、152、151、150、149、148、147、146、145、144、143、142、141、140、139、138、137、136、135、134、133、132、131、130、129、128、127、126、125、124、123、122、121、120、119、118、117、116、115、114、113、112、111、110、109、108、107、106、105、104、103、102、101、100分、又はそれ以下である。いくつかの実施形態では、ハイブリダイゼーション時間は153分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が193~178分以内で行われ得る。いくつかの実施形態では、193又は187分以内である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は135分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が175~160分以内で行われ得る。いくつかの実施形態では、175又は160分以内である。
【0079】
いくつかの実施形態では、ハイブリダイゼーション時間は120分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが160~145分以内で行われ得る。いくつかの実施形態では、160又は145分以内である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は103分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が143~138分以内で行われ得る。いくつかの実施形態では、143又は138分以内である。
【0080】
いくつかの実施形態によれば、少なくとも1つのMIPは、複数の異なる標的領域に対応する複数のMIPを含む。本明細書で使用される「複数」という用語は、2つ以上を指す。より具体的には、開示される方法は、同じ標的核酸配列又は異なる標的核酸配列のいずれかに向けられた1~100,000以上の異なるMIPを使用してもよい。例えば、1~90,000、1~85,000、1~80,000、1~75,000、1~70,000、1~65,000、1~60,000、1~55,000、1~50,000、1~45,000、1~40,000、1~35,000、1~30,000、1~25,000、1~20,000、1~15,000、1~10,000、1~900、1~9000、1~8500、1~8000、1~7500、1~7000、1~6500、1~6000、1~5500、1~5000、1~4500、1~4000、1~3500、1~3000、1~2500、1~2000、1~1500、1~1000、1~950、1~900、1~850、1~800、1~750、1~700、1~650、1~600、1~550、1~500、1~450、1~400、1~350、1~300、1~250、1~200、1~150、1~100、1~95、1~90、1~85、1~80、1~75、1~70、1~65、1~60、1~55、1~50、1~45、1~40、1~35、1~30、1~25、1~20、1~15、1~10、具体的には、1、2、3、4、5、6、7、8、9、10、15、20、25、30、40、50、75、100、150、200、250、500、1000、10,000、100,000、又はそれ以上のMIPである。
【0081】
なおいくつかの更なる実施形態では、開示される方法は、工程(d)において得られた複数の合成された配列をシーケンシングすることと、目的のバリアントを特定することとを更に含む。
【0082】
このため、開示される方法は、そのいくつかの実施形態では、シーケンシングの追加の工程を更に含んでもよい。より具体的には、開示される方法によって得られる合成された配列は、いくつかの任意選択の実施形態では、任意の好適なシーケンシングの方法に供される。このため、標的配列のシーケンシングにより、分析された標的配列の様々なバリアントを定義することができるようになる。DNAシーケンシングは、核酸配列(DNA中のヌクレオチドの順序)を決定するプロセスである。これには、4つの塩基:アデニン、グアニン、シトシン、及びチミンの順序を決定するために使用される任意の方法又は技術が含まれる。DNAシーケンシングのためのいくつかの方法が開発され、過去20年間に商業的に利用可能になった。これらは、まとめて、サンガーシーケンシングを含む初期の方法と区別するために、「次世代」又は「第二世代」シーケンシング(next-generation sequencing、NGS)法と呼ばれた。NGS技術は、典型的には、高度にスケーラブルであることを特徴とし、ゲノム全体を一度にシーケンシングすることを可能にする。通常、これは、ゲノムを小片に断片化し、断片を無作為にサンプリングし、様々な技術のうちの1つを使用してそれをシーケンシングすることによって達成される。自動化プロセスにおいて複数の断片を一度にシーケンシングする(このため「大規模並列」シーケンシングと名付けられた)ので、全ゲノムシーケンシングが可能である。より具体的には、NGSは、従来のサンガーシーケンシング法と比較して、より短い持続時間内に大量の配列データを生成し、コストを大幅に削減する。この技法は、より短い期間で全体をシーケンシングするために使用され得る、異なる化学、マトリックス、及びバイオインフォマティクス技術を使用する。DNAシーケンシングパイプラインには、DNA断片化、NGSライブラリー調製(これらの2つは、トランスポザーゼ媒介ライブラリー調製によって組み合わせることができる)を含む様々な工程が含まれる。シーケンシング及びデータ分析。DNA断片化において、標的化されたDNAは、超音波処理及び酵素消化のような異なる方法を使用して、いくつかの小さなセグメントに破壊される。次の工程は、NGSライブラリーの調製を伴い、ここでは、断片化されたDNAの各片は、シーケンシング装置の適合性に必要とされるDNA配列(アダプター)を付加することによって、シーケンシングの準備ができているように修飾されたDNAである。概して「標的化されたシーケンシング」と称されるDNAシーケンシングのいくつかの実施形態では、所望の標的は、ライブラリー調製後に捕捉される(「プローブ捕捉」又はゲノム鋳型から増幅された「アンプリコン/MIP」)。後者において、必要とされるDNA配列は、上記のような増幅後に、又は増幅プロトコルの間に、結合される。ライブラリーは、様々なDNAシーケンシング法を使用してシーケンシングされる。各DNA断片は、これをビーズ又はフローセルなどの固体基質に接続するアダプターを一端に有し、ポリメラーゼ連鎖反応(PCR)を開始するプライマーにアニーリングする別のアダプターをも他端に有する。PCRにより、同時にシーケンシングされる同じ断片のいくつかのコピーが生成される。その結果、これらの技法は、大規模並列シーケンシング技法と称されることもある。DNAシーケンシングは、いくつかの実施形態では、NGSシーケンサーを使用して行われ得る。特定のシーケンサーでは、ライブラリーがシーケンシングマトリックス上にアップロードされる。シーケンシングが行われるプラットフォームは、シーケンシングマトリックスとして知られている。シーケンシングマトリックスは、シーケンサーに応じて異なる。例えば、Illumina NGSシーケンサーはフローセルを使用するが、Ion torrent NGSシーケンサーはシーケンシングチップを使用する。
【0083】
いくつかの世代のシーケンシング法が開発されている。本開示は、いずれの知られている方法の使用も包含する。数例を挙げると、Pyrosequencing/454 Sequencing、ABI SOLiD、Solexa/Illumina Sequencing、Pacific Biosciences Single Molecule Real Time Reads、Nanopore DNA Sequencing、Singular Genomics G4、Element Biosciences AVITI、Ultima Genomicsである。
【0084】
必要とされる短いセグメントは、ハイブリダイゼーション捕捉アッセイ、アンプリコンアッセイなどの異なる方法を使用して単離される。
【0085】
更に、いくつかの実施形態では、開示される方法は、特定されたバリアント又はそのサブグループに対して、その感度、特異度、及び精度を計算するために、機械学習アルゴリズムを適用することを更に含んでもよい。
【0086】
いくつかの実施形態では、バリアントのサブグループは、閾値未満のVAFを有するバリアントを含む。このため、本開示は、VAFが、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、0.1%、0.9%、0.8%、0.7%、0.6%、0.5%、0.4%、0.3%、0.2%、0.1%、より具体的には0.5%~0.6%、具体的には0.51%、0.52%、0.53%、0.54%、0.55%、0.56%、0.57%、0.58%、0.59%、0.6%、又はそれ以下、具体的には0.5と低く、感度が、約100%~75%、具体的には100%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、89%、88%、87%、86%、85%、84%、3%、82%、81%、80%、79%、78%、77%、76%、75%、又はそれ以下、具体的には80%の感度であり、精度が著しく高いバリアントの検出を可能にするノイズ低減を示す、高感度の改善された方法を提供する。
【0087】
開示される方法によって使用される少なくとも1つのMIPは、二本鎖プローブであってもよいことに留意されたい。しかしながら、一本鎖MIPも、開示される方法において適用可能であり得ることが理解される。
【0088】
いくつかの実施形態では、標的核酸配列は、いずれのゲノム核酸配列であってもよいことが理解される。いくつかの実施形態では、ゲノム核酸配列は、核DNA及び非核DNAを含んでもよく、直鎖状核酸又は環状核酸のいずれかであってもよい。例えば、核DNA、具体的には、染色体DNA及びマイクロバイオームDNA(例えば、腸内マイクロバイオーム)、並びにミトコンドリアDNA及び葉緑体DNA(chloroplast DNA、cpDNA)などの環状ゲノムDNAである。更に、ゲノム核酸配列は、本開示において開示される任意の生物若しくは微生物のゲノム核酸分子、又は任意の感染体、例えば、ウイルス、具体的には、本開示によって開示される任意のウイルス、又は任意のバクテリオファージ及び形質導入粒子の任意の核酸配列を更に含んでもよい。いくつかの実施形態では、標的核酸配列は、染色体又は非染色体供給源のものであってもよい。本開示によって包含される非染色体供給源の核酸配列には、トランスポゾン、プラスミド、ミトコンドリアDNA、及び葉緑体DNA、並びに任意の他の遺伝要素の核酸分子が含まれる。更に、いくつかの実施形態では、開示される方法において適用可能な標的核酸配列は、任意の循環遊離DNA(circulating free DNA、cfDNA)であってもよい。より具体的には、無細胞核酸(cell-free nucleic acid、cf-NA)は、細胞外液中に存在するいくつかのタイプのDNA(cf-DNA)及びRNA分子(無細胞非コードRNA、及びタンパク質コードRNA-mRNA)を含む。cf-DNAには2つの主要なタイプである無細胞核DNA(cell-free nuclear DNA、cf-nDNA)及び無細胞ミトコンドリアDNA(cell-free mitochondrial DNA、cf-mtDNA)がある。より具体的には、循環遊離DNA(cfDNA)は、約50~200bpの分解されたDNA断片であり、これは、血漿に放出される。cfDNAは、血流中を自由に循環する様々な形態のDNAを説明するために使用することができ、これには、循環腫瘍DNA(circulating tumor DNA、ctDNA)、無細胞ミトコンドリアDNA(cell-free mitochondrial DNA、ccf mtDNA)、及び無細胞胎児DNA(cell-free fetal DNA、cffDNA)が含まれる。更に、本開示の方法において適用可能な標的核酸配列は、いくつかの実施形態では、無細胞非コードRNA又は長鎖非コードRNAであってもよい。より具体的には、無細胞非コードRNA(cell free non-coding RNA、cf-ncRNA)は、マイクロRNA(microRNA、miRNA)、siRNA、piRNA、snRNA、snoRNA、YRNAなどを含むがこれらに限定されない低分子非コードRNA、又は偽遺伝子RNA、テロメラーゼRNA、環状RNA(circular RNA、cirRNA)などを含むがこれらに限定されない長鎖非コードRNA(long non-coding RNA、lncRNA)に関する。
【0089】
長鎖非コードRNA(lncRNA)は、本明細書で使用される場合、200 nt超の長さを有する非タンパク質コード転写物である。これらは、遺伝子間領域(長い介在非コードRNA)から、タンパク質コード遺伝子のイントロン(イントロンlncRNA)から、又は遺伝子のアンチセンス転写物として、転写され得る。これらは広範な分子機能を有する。これらは、アレル発現のエピジェネティックな調節に(例えば、雌性哺乳動物におけるX染色体量補償に)関与してもよく、タンパク質複合体のための足場として、又はそれらの利用可能性を制限するための特定の標的分子のためのデコイとして作用してもよい(例えば、lncRNAは、miRNAに対する結合部位を保有し、それらの存在量を調節する)。これらはまた、低分子非コードRNA(small non-coding RNA、sncRNA)の前駆体として機能しても、転写後遺伝子調節に関与してもよい(例えば、アンチセンスlncRNAがそれらの対応するセンス転写物に結合し、mRNAプロセシングにおけるスプライス部位認識又はスプライセオソーム動員を改変する)。
【0090】
なおいくつかの更なる実施形態では、標的配列はトランスクリプトーム核酸配列であってもよく、それによって生物のトランスクリプトーム及び/又はエクソームに関する情報が提供される。
【0091】
「目的の標的核酸」という用語は、本明細書で使用される場合、目的の標的配列を推定的に含む試料核酸を指す。MIPに関して、目的の標的配列は、MIP相同性領域に相補的な配列を含む。配列は、MIP相同性領域上の対応するヌクレオチドと一致する場合もしない場合もある1つ以上の調べられるヌクレオチドを含んでもよく、又は相補的dNTPとともに提供されるポリメラーゼの基質を提供する場合もしない場合もある。
【0092】
更に、「木庭の標的核酸配列」、「目的の核酸配列」、「目的の標的遺伝子」、「標的遺伝子」は、交換可能に使用され、いくつかの実施形態では、遺伝子又はその任意の断片若しくは誘導体を含み得るか、又はその中に含まれ得る核酸配列を指す。目的の標的核酸配列又は遺伝子は、コード若しくは非コードDNA領域、又はそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、目的の核酸配列は、コード配列を含んでもよく、このため、任意の生成物をコードするエクソン又はその断片を含んでもよい。他の実施形態では、目的の標的核酸配列は、非コード配列、例えば、開始コドン、5’非翻訳領域(5’UTR)、3’非翻訳領域(3’UTR)、又は他の調節配列、特に調節配列を含んでもよい。
【0093】
いくつかの実施形態では、目的の標的遺伝子又は核酸配列は、正常及び/又は健康な対象と比較して、哺乳動物対象において異常な発現、安定性、活性、又は機能を示す任意の核酸配列又は遺伝子若しくはその断片であってもよい。そのような標的遺伝子若しくはその任意の断片又は任意の標的核酸配列は、いくつかの実施形態では、少なくとも1つの病的状態と直接的に又は間接的に関連付けられても、リンクされても、結び付けられてもよい。より具体的には、目的の核酸配列の長さは、約100,000ヌクレオチド長、又は75,000ヌクレオチド長未満、又は50,000ヌクレオチド長未満、又は40,000ヌクレオチド長未満、又は30,000ヌクレオチド長未満、又は20,000ヌクレオチド長未満、又は15,000ヌクレオチド長未満、又は10,000ヌクレオチド長未満、又は5000ヌクレオチド長未満、又は1000ヌクレオチド長未満、又は900ヌクレオチド長未満、又は800ヌクレオチド長未満、又は700ヌクレオチド長未満、又は600ヌクレオチド長未満、又は500ヌクレオチド長未満、又は450ヌクレオチド長未満、又は400ヌクレオチド長未満、又は300ヌクレオチド長未満、又は200ヌクレオチド長未満、又は100ヌクレオチド長未満、又は50ヌクレオチド長未満、又は40ヌクレオチド長未満、又は30ヌクレオチド長未満、又は20ヌクレオチド長未満、又は10ヌクレオチド長未満であってもよい。
【0094】
開示される方法は、標的核酸配列をシーケンシングするための有効なアプローチを提供する。「核酸分子又は配列」という用語は、本明細書において頻繁に言及され、DNA、RNA、一本鎖、部分的一本鎖、部分的二本鎖、又は二本鎖核酸配列;ヌクレオチド、リボヌクレオチド、デオキシリボヌクレオチド、ヌクレオチド類似体、修飾ヌクレオチド、並びに骨格修飾、分岐点、及び非ヌクレオチド残基、基、又は架橋を含むヌクレオチドを含む配列;合成RNA、DNA、及びキメラヌクレオチド、ハイブリッド、二重鎖、ヘテロ二重鎖;並びに任意のリボヌクレオチド、デオキシリボヌクレオチド、又はそれらのキメラ対応物、及び/又は対応する相補配列及びそれらの任意の化学修飾物、に関する。修飾には、核酸リガンド塩基又は核酸リガンド全体に追加の電荷、分極率、水素結合、静電相互作用、及び官能性を組み込む他の化学基を提供するものが含まれるが、これらに限定されない。そのような修飾には、2’位の糖修飾、5位のピリミジン修飾、8位のプリン修飾、環外アミンにおける修飾、4-チオウリジンの置換、5-ブロモ又は5-ヨード-ウラシルの置換;骨格修飾、メチル化、異常な塩基対合の組み合わせ、例えば、イソ塩基、イソシチジン、及びイソグアニジンなどが含まれるが、これらに限定されない。修飾には、キャッピングなどの3’及び5’修飾も含まれ得る。
【0095】
いくつかの実施形態では、標的核酸配列は、遺伝的及び/又はエピジェネティック変異、病的障害、感染体、例えば、病原体、微生物、及びGCリッチ領域のうちの少なくとも1つと関連付けられるか又はそれを含む核酸配列である。
【0096】
いくつかの実施形態では、標的核酸配列は、病的障害と関連付けられ得る遺伝的又はエピジェネティック変異を含んでも、それと関連付けられてもよい。交換可能に使用される「関連付けられる(associated)」、「関連する(linked)」、及び「関係する(related)」という用語は、本明細書において以下に開示する病態を指す場合、少なくとも1つの疾患、障害、状態、若しくは病態、又はそれらの任意の症状を、直接的又は間接的に引き起こす、その原因となる、因果関係を共有する、偶然の頻度よりも高い頻度で共存する、のうちの少なくとも1つである任意の遺伝的又はエピジェネティック変異を意味することが理解される。なおいくつかの更なる実施形態では、標的核酸配列は、感染体、例えば病原体の核酸配列と関連付けられても、それを含んでもよい。感染体及び具体的には病原体、例えば、ウイルス、寄生生物、細菌、真菌などは、本態様によって包含され、本明細書において後に開示される。
【0097】
いくつかの実施形態では、開示されるMIPに基づく標的化されたシーケンシングの方法は、GCリッチ領域を含む標的核酸配列に特に有用である。本明細書に示すように、開示される方法は、GC領域を含むか又は高いGC含量を示す標的核酸配列に特に有効であり、適用可能である。GC含量(又はグアニン-シトシン含量)は、グアニン(G)又はシトシン(C)のいずれかであるDNA又はRNA分子中の窒素含有塩基のパーセンテージである。この尺度は、DNA中のアデニン及びチミン並びにRNA中のアデニン及びウラシルも含む、示唆された4つの全塩基のうちのG塩基及びC塩基の割合を示す。
【0098】
GC含量は、DNA若しくはRNAのある特定の断片について、又はゲノム全体について付与されてもよい。断片に言及する場合、これは、個々の遺伝子若しくは遺伝子のセクション(ドメイン)、遺伝子若しくは遺伝子クラスターの群、非コード領域、又はプライマーなどの合成オリゴヌクレオチドのGC含量を示してもよい。遺伝子領域のGC含量は、そのカバレッジに影響を与える可能性があり、50~60%のGC含量を有する領域が最も高いカバレッジを受け、一方、GC含量が高い(70~80%)又は低い(30~40%)領域は有意に減少したカバレッジを有する。
【0099】
より具体的な実施形態では、遺伝的変異は、単一ヌクレオチドバリアント(SNV)及び/又は単一ヌクレオチド多型(single-nucleotide polymorphism、SNP)、挿入及び/又は欠失、(インデル)、逆位、コピー数変異(copy number variation、CNV)、ヘテロ接合性の喪失(loss of heterozygosity、LOH)、遺伝子融合、転座、複製、構造変異、選択的スプライシング、並びに反復配列多型のうちの少なくとも1つを含む。
【0100】
本明細書で定義される「単一ヌクレオチド多型」(SNP)という用語は、DNA配列における単一塩基変化を指す。ゲノムDNA中の配列代替物を有する塩基位置をSNPとみなすには、最も頻度の低いアレル(「マイナーアレル」)が1%以上の頻度を有する必要がある。最も頻度の高いアレルは、「メジャーアレル」と称される。SNPは、通常、主にDNA中の単一ヌクレオチド置換の頻度が低いため、両アレルである。当業者には知られているように、「SNP」という用語は、通常、両方の染色体上(その場合、個体はある特定の多型についてホモ接合性であると言われる)又は単一の染色体上(その場合、個体はある特定の多型についてヘテロ接合性であると言われる)のいずれかでゲノム中に存在するとき、最も頻度の低い対立遺伝子(すなわち、マイナーアレル)を指す。知られている特定のSNPは、当業者には知られているように、通常、「SNP」、「refSNP」、又は「rs」などの接頭辞を有するアクセッション番号によって参照される固有の識別子を割り当てられる。ヌクレオチド配列変異の単一ヌクレオチド多型データベース(single nucleotide polymorphism database、dbSNP)は、NCBIウェブサイトで利用可能である。
【0101】
コピー数変動は、本明細書で使用される場合、特定の遺伝子又はDNA配列のコピー数における人それぞれの変動を意味する。
【0102】
欠失は、遺伝物質の喪失を伴う任意の変異を指す。これは、単一の失われたDNA塩基対を含む小さいものであることも、数百若しくは数千のヌクレオチドを含む大きいものであることもでき、いくつかの実施形態では、染色体の一片の事象であることもできる。
【0103】
本明細書で言及される「インデル」は、生物のゲノムにおける塩基の挿入又は欠失に関する。これは、長さが1~10,000塩基対である小さい遺伝的変異に分類される。マイクロインデルは、1~50ヌクレオチドの正味の変化をもたらすインデルとして定義される。
【0104】
挿入変異は、本明細書で使用される場合、遺伝物質の付加を伴う変異である。挿入変異は、単一の余分なDNA塩基対を含む小さいものであってもよく、染色体の断片を含む大きいものであってもよい。
【0105】
逆位は、切断され、同じ遺伝子座に再挿入されているが、逆の配向を有する染色体セグメントである。
【0106】
転座は、本明細書では、細胞又は配偶子における1つ以上の染色体セグメントの位置変化を指す。
【0107】
更に、いくつかの実施形態では、開示される方法は、核酸分子における構造的バリエーション、例えば、核酸のゲノム構成又はトポロジー構成を決定及び特定するために適用可能であり得る。より具体的には、ゲノムはそれらの配列によって定義されるが、ヌクレオチドの線形配置は、それらの最も基本的な特徴にすぎない。ゲノムの基礎的な特性は、インタクトな細胞核における三次元空間でのそれらのトポロジー構成である。機能的データと組み合わせた画像化方法及びゲノムワイドな生化学的アプローチの適用は、ゲノムトポロジー/構成の正確な性質並びに遺伝子発現及びゲノム維持におけるその調節機能を明らかにしている。本開示の文脈において、ゲノム構成は、DNA要素の線形順序及びそれらの染色体への分割を指す。ゲノム構成はまた、染色体の3D構造及び核内のDNA配列の位置を指し得る。染色体/クロマチン確認を捕捉するための技法はいくつかある。クロマチン立体配座を捕捉するためのハイスループットゲノム及びエピゲノム技法の1つの非限定的な例は、Hi-C(又は標準的なHi-C)技法である。概して、Hi-Cは、3C(染色体立体配座捕捉)、4C(オンチップの染色体立体配座捕捉/環状染色体立体配座捕捉)、及び5C(染色体立体配座捕捉カーボンコピー)を含むがこれらに限定されない一連の染色体立体配座捕捉技術の派生物とみなされる。Hi-Cは、3Cアプローチと次世代シーケンシング(NGS)アプローチとを組み合わせることによって、細胞核におけるゲノムワイドなクロマチン相互作用を包括的に検出し、C技術(染色体立体配座捕捉に基づく技術)開発及び3Dゲノミクスの始まりにおける質的飛躍とみなされてきた。
【0108】
更に、開示される方法は、エピジェネティック修飾の検出に適用可能であり得る。本明細書で言及する「エピジェネティクス」は、核酸配列における改変を伴わない遺伝性表現型変化に関する。エピジェネティクスは、遺伝子活性及び発現、並びにそれにより細胞の表現型に影響を及ぼす変化を伴うことが最も多い。エピジェネティック修飾又は変異は、いくつかの実施形態では、DNA配列又はDNA構成及び機能と関連付けられるタンパク質の共有結合修飾に関与する。いくつかの実施形態では、本明細書に開示されるエピジェネティック変異は、DNAメチル化(例えば、シトシンメチル化及びヒドロキシメチル化)、ヒストン修飾(例えば、リジンアセチル化、リジン及びアルギニンメチル化、セリン及びスレオニンリン酸化、並びにリジンユビキチン化及びSUMO化)を含む。
【0109】
いくつかの実施形態では、本明細書に開示される方法は、DNAメチル化の程度、及びパターンを調べるのに有用であり得る。DNAメチル化は、主にCpGジヌクレオチドで起こるが、非CpG部位でも見られる、DNAに対する安定な遺伝性の共有結合修飾である。メチル化は、正常な発生プロセス、並びに腫瘍形成及び他の病理学的プロセス、例えば、腫瘍抑制因子又はDNA修復遺伝子の遺伝子サイレンシングの間に観察可能な変化と関連付けられる。亜硫酸水素塩ゲノムシーケンシングは、DNAメチル化の検出のための究極基準技術とみなされ、単一塩基対分解能で5-メチルシトシンを特定するための定性的、定量的、かつ効率的なアプローチを提供する。この方法は、シトシン及び5-メチルシトシン(5-methylcytosine、5mC)のアミノ化反応が、亜硫酸水素ナトリウムの処理後に非常に異なる結果を伴って進行するという発見に基づく。したがって、本開示のMIPベースのシーケンシングの方法は、エピジェネティック修飾の特定に適用可能であり得る。
【0110】
更に、いくつかの実施形態では、標的核酸配列は、少なくとも1つの遺伝性、身体性、先天性、自発性、又は後天性の病的障害又は状態と関連付けられる。
【0111】
本明細書で定義される「遺伝性疾患」という用語は、親から遺伝する欠損遺伝子によって引き起こされる疾患又は障害を指す。遺伝性疾患は、欠陥のある劣性遺伝子の2人の健康な保因者が繁殖する場合に予想外に生じ得るが、欠陥遺伝子が優性である場合にも起こり得る。遺伝性疾患の非限定的な例としては、デュシェンヌ型筋ジストロフィー(Duchenne muscular dystrophy、DMD)、嚢胞性線維症、テイ・サックス病(GM2ガングリオシドーシス又はヘキソサミニダーゼA欠損症としても知られる)、血管拡張性失調症(Ataxia-Telangiectasia、A-T)、又は鎌状赤血球症(Sickle-cell disease、SCD)、鎌状赤血球貧血(sickle-cell anemia、SCA又は貧血)、レッシュ・ナイハン症候群(LNS(Lesch-Nyhan syndrome)、ナイハン症候群、筋萎縮性側索硬化症、シスチン症、ケリー・シーグミラー症候群、及び若年性痛風としても知られる)、色盲、ヘモクロマトーシス(又はヘモシデローシス)、血友病、フェニルケトン尿症(Phenylketonuria、PKU)、フェニルアラニンヒドロキラーゼ欠損疾患、多発性嚢胞腎疾患(PKD又はPCKD(polycystic kidney disease)、多発性嚢胞腎症候群としても知られる)、アルファガラクトシダーゼ欠損症、ファブリー病、アンダーソン・ファブリー病、びまん性体部被角血管腫、CADASIL(皮質下梗塞及び白質脳症を伴う常染色体優性脳動脈症)、皮質下梗塞及び白質脳症を伴う脳動脈障害、皮質下梗塞及び白質脳症を伴う常染色体優性アテリオパシー、カルボキシラーゼ欠損症、多発性(遅発性)、セレブロシド蓄積症候群、ゴーシェ病、舞踏アテトーゼ自傷高尿酸血症、古典的ガラクトース血症、ガラクトース血症、クローン症候群及び限局性腸炎としても知られるクローン病、色素失調症(「ブロッホ・シーメンス症候群」、「ブロッホ・サルズバーガー病」、「ブロッホ・サルズバーガー症候群」、「皮膚メラノブラスト-シス(melanoblastosis cutis)」、及び「列序性色素性母斑(naevus pigmentosus systematicus)」としても知られる)、ガラクトース血症小頭症、アルファ1アンチトリプシン欠損症(アルファ1)、アデノシンデアミナーゼ(Adenosine deaminase、ADA)欠損症、重症複合免疫不全症候群(Severe Combined Immunodeficiency、SCID)、神経線維腫症1型(neurofibromatosis type 1、NF1)、ウィスコット・アルドリッチ症候群、シュタルガルト病、ファンコニ貧血、脊髄性筋萎縮症(spinal muscular atrophy、SMA)、並びにレーバー先天性黒内障(Leber’s congenital amaurosis、LCA)が挙げられる。
【0112】
なおいくつかの更なる実施形態では、障害は先天性障害であってもよい。より具体的には、先天性障害は、出生時又は出生前に存在する医学的状態である。出生時欠損とも称されるこれらの状態は、胎児の発生段階の間に、又は親の遺伝子構成から獲得され得る。先天性障害は、妊娠中の感染又は出生時の胎児への損傷によって引き起こされ得るため、必ずしも遺伝性ではない。大奇形は、時には、客観的(例えば、耳介前タグ)であることも、より主観的(例えば、低く付いた耳)であることもある、小奇形と関連付けられる。非限定的な実施形態としては、外部障害及び内部障害、例えば、神経管欠損、小頭症、小耳症/無耳症、口腔顔面裂、臍帯ヘルニア(exomphalos)(臍帯ヘルニア(omphalocele))、腹壁破裂、尿道下裂、上肢及び下肢の減形成、湾足、内反尖足(equinovarus)/内反足(club foot)、先天性心欠陥、食道閉鎖症/気管食道瘻、大腸閉塞症/狭窄症、肛門直腸閉塞症/狭窄症、及び腎無形成/形成不全が挙げられる。
【0113】
更に、いくつかの実施形態では、障害は、身体性障害であってもよい。身体性症状障害は、以前は身体型障害として知られており、疾病又は傷害を示唆する身体的症状として現れるが、一般的な医学的状態によって又は物質の直接的影響によって完全に説明することができず、別の精神障害(例えば、パニック障害)に起因しない、任意の精神障害である。身体性症状障害は、群として、精神病のある数の診断スキームに含まれる。身体性障害はまた、身体化障害及び未分化身体型障害と称されてもよい。
【0114】
なおいくつかの更なる実施形態では、本開示において適用可能な病的障害は、例えば、任意の自然発生的又は後天的な病的障害、及び病原体への環境曝露又は任意の環境ストレス若しくは条件によって引き起こされる障害であってもよい。
【0115】
なおいくつかの更なる実施形態では、病的障害は、増殖性障害、及び/又は腫瘍性障害、代謝状態、炎症性障害、病原体によって引き起こされる感染症、精神障害、自己免疫疾患、心血管疾患、神経変性障害、胎児の遺伝的状態、及び加齢関連状態のうちの少なくとも1つであってもよい。更に、本開示によって包含される病的障害は、感染及び寄生虫疾患、内分泌、栄養疾患、免疫障害、血液及び血液形成器官の疾患、精神障害、神経系及び感覚器官の疾患、循環系の疾患、呼吸器系の疾患、消化器系の疾患、泌尿生殖器系の疾患、妊娠、出産、及び産褥の合併症、皮膚及び皮下組織の疾患、筋骨格系及び結合組織の疾患、並びに先天性異常を更に含む。
【0116】
なおいくつかの更なる実施形態では、本開示の方法は、任意の腫瘍性障害及び/又は任意の増殖性障害に適用可能であり得る。より具体的には、本発明を説明するために本明細書で使用される場合、「腫瘍性障害」、「増殖性障害」、「がん」、「腫瘍」、及び「悪性腫瘍」は全て、組織又は器官の過形成と同等に関連する。組織がリンパ系又は免疫系の一部である場合、悪性細胞は、循環細胞の非固形腫瘍を含んでもよい。他の組織又は器官の悪性腫瘍は、固形腫瘍を生じてもよい。概して、本発明の方法は、非固形腫瘍及び固形腫瘍のうちのいずれか1つに罹患している患者の診断に適用可能であり得る。本開示において企図される悪性腫瘍は、がん腫、黒色腫、リンパ腫、白血病、骨髄腫、及び肉腫のうちのいずれか1つであってもよい。
【0117】
本明細書で使用されるがん腫は、形質転換した上皮細胞からなる浸潤性悪性腫瘍を指す。あるいは、これは、未知の組織形成の形質転換細胞から構成されるが、上皮細胞に関連する特異的な分子的又は組織学的特徴(例えば、サイトケラチン又は細胞間架橋の生成)を有する悪性腫瘍を指す。
【0118】
黒色腫は、本明細書で使用される場合、メラノサイトの悪性腫瘍である。メラノサイトは、皮膚の色の原因である暗色色素であるメラニンを生じる細胞である。それらは主に皮膚に存在するが、腸及び眼を含む身体の他の部分にも見られる。黒色腫は、メラノサイトを含有する身体の任意の部分に生じ得る。
【0119】
白血病は、血液形成器官の進行性悪性疾患を指し、概して、血液及び骨髄中の白血球及びそれらの前駆体の歪んだ増殖及び発達を特徴とする。白血病は、概して、(1)疾患の期間及び特徴-急性又は慢性;(2)関与する細胞のタイプ;骨髄性(骨髄性)、リンパ性(リンパ性)、又は単球性;並びに(3)血中の異常細胞数の増加又は非増加-白血病又は非白血病(亜白血病)。
【0120】
肉腫は、形質転換された結合組織細胞から生じるがんである。これらの細胞は、骨、軟骨及び脂肪組織を形成する胚中胚葉又は中間層に由来する。これは、上皮に由来するがん腫とは対照的である。上皮は、身体全体の構造の表面の内側を覆い、乳房、結腸、及び膵臓におけるがんの起源である。
【0121】
本明細書で言及される骨髄腫は、抗体の産生に通常関与する白血球の一種である形質細胞のがんである。異常細胞の集まりは骨に蓄積し、そこでそれらは骨病変を引き起こし、骨髄に蓄積し、そこでそれらは正常血液細胞の産生を妨害する。骨髄腫のほとんどの症例はまた、腎臓の問題を引き起こし、正常な抗体産生を妨害して免疫不全をもたらし得る異常な抗体であるパラプロテインの産生を特徴とする。高カルシウム血症(高カルシウムレベル)に遭遇することが多い。
【0122】
リンパ腫は、免疫系のリンパ細胞におけるがんである。典型的には、リンパ腫はリンパ系細胞の固形腫瘍として存在する。これらの悪性細胞はリンパ節に由来することが多く、リンパ節の拡大(腫瘍)として現れる。それは他の器官にも影響を及ぼす可能性があり、その場合、それは結節外リンパ腫と呼ばれる。リンパ腫の非限定的な例としては、ホジキン病、非ホジキンリンパ腫及びバーキットリンパ腫が挙げられる。
【0123】
本開示において有用性が見出され得る更なる悪性腫瘍は、血液学的悪性腫瘍(上記のようなリンパ種、白血病、及び骨髄増殖性障害を含む)、形成不良性及び無形性貧血(ウイルス誘導性及び突発性の両方)、骨髄異形成症候群、全ての型の腫瘍随伴症候群(免疫媒介性及び突発性の両方)、及び固形腫瘍(GI管、大腸、肺、肝臓、乳房、前立腺、膵臓、及びカポジ肉腫を含み得るが、これらに限定されない。開示される方法は、固形腫瘍、例えば、口唇及び口腔、咽頭、咽頭、副鼻腔、主要唾液腺、甲状腺、食道、胃、小腸、結腸、結腸直腸、肛門管、肝臓、胆のう、肝外胆管(extraliepatic bile ducts)、ファーター膨大部、外分泌膵臓、肺、胸膜中皮腫、骨、軟部組織肉腫、皮膚、乳房、外陰、膣、子宮頸、子宮体、卵巣、卵管、妊娠性絨毛膜腫瘍、陰茎、前立腺、睾丸、腎臓、腎盂、輸尿管、膀胱、尿道の腫瘍、眼瞼のがん腫、結膜のがん腫、結膜の悪性黒色腫、ぶどう膜の悪性黒色腫、網膜芽腫、涙腺のがん腫、眼窩、脳、脊髄、血管系の肉腫、血管肉腫、及びカポジ肉腫に適用可能であってもよい。なおいくつかの更なる実施形態では、本開示の方法は、本明細書で考察される増殖性障害のうちのいずれかに適用可能であり得る。より具体的で非限定的な実施形態では、本開示の方法は、非小細胞肺がん(non-small cell lung cancer、NSCLC)黒色腫、腎細胞がん、卵巣がん、及び乳がんのうちの少なくとも1つに特に適用可能であり得る。
【0124】
更に、本明細書に開示される方法は、任意の腫瘍性障害、具体的には、任意の悪性又は非悪性増殖性障害に適用可能であることが理解される。なおいくつかの更なる実施形態では、本開示の方法及び使用は、いずれのがんにも適用可能である。このため、いくつかの例示的で非限定的な実施形態では、本開示の方法及び使用は、以下のいずれか1つに適用可能であり得る:急性リンパ芽球性白血病;急性骨髄性白血病;副腎皮質がん;AIDS関連がん;AIDS関連リンパ腫;肛門がん;虫垂がん;星状細胞腫、小児小脳又は大脳;基底細胞がん;胆管がん、肝外;膀胱がん;骨がん、骨肉腫/悪性線維性組織球腫;脳幹神経膠腫;脳腫瘍;脳腫瘍、小脳星状細胞腫;脳腫瘍、大脳星状細胞腫/悪性神経膠腫;脳腫瘍、上衣腫;脳腫瘍、髄芽腫;脳腫瘍、テント上原始神経外胚葉性腫瘍;脳腫瘍、視覚経路及び視床下部神経膠腫;乳がん;気管支腺腫/カルチノイド;バーキットリンパ腫;カルチノイド腫瘍、小児;カルチノイド腫瘍、胃腸;原発不明のがん腫;中枢神経系リンパ腫、原発性;小児小脳星状細胞腫;大脳星状細胞腫/悪性神経膠腫、小児;子宮頸がん;小児がん;慢性リンパ球性白血病;慢性骨髄性白血病;慢性骨髄増殖性障害;結腸がん;皮膚T細胞リンパ腫;線維形成性小円形細胞腫瘍;子宮内膜がん;上衣腫;食道がん;ユーイングファミリーの腫瘍におけるユーイング肉腫;頭蓋外胚細胞性腫瘍、小児;性腺外胚細胞性腫瘍;肝外胆管がん;眼のがん、眼内黒色腫;眼のがん、網膜芽細胞腫;胆のうがん;胃(Gastric)(胃(Stomach))がん;消化管カルチノイド腫瘍;消化管間質腫瘍(Gastrointestinal stromal tumor、GIST);胚細胞性腫瘍:頭蓋外、性腺外、又は卵巣;妊娠性絨毛膜腫瘍;脳幹の神経膠腫;神経膠腫、小児大脳星状細胞腫;神経膠腫、小児の視覚経路及び視床下部;胃カルチノイド;ヘアリーセル白血病;頭頸部がん;心臓がん;肝細胞(肝臓)がん;ホジキンリンパ腫;下咽頭がん;視床下部及び視覚経路神経膠腫、小児;眼内黒色腫;島細胞がん(内分泌膵臓);カポジ肉腫;腎臓がん(腎細胞がん);喉頭がん;白血病;白血病、急性リンパ芽球性(急性リンパ球性白血病とも呼ばれる);白血病、急性骨髄性白血病(急性骨髄性白血病とも呼ばれる);白血病、慢性リンパ球性(慢性リンパ球性白血病とも呼ばれる);白血病、慢性骨髄性白血病(慢性骨髄性白血病とも呼ばれる);白血病、毛様細胞;口唇及び口腔がん;肝臓がん(原発性);肺がん、非小細胞;肺がん、小細胞;リンパ腫;リンパ腫、AIDS関連;リンパ腫、バーキット;リンパ腫、皮膚T細胞;リンパ腫、ホジキン;リンパ腫、非ホジキンリンパ腫(ホジキン以外の全てのリンパ腫の古い分類);リンパ腫、一次中枢神経系;Marcus Whittle,Deadly疾患;マクログロブリン血症、ワルデンシュトレーム;骨悪性線維性組織球腫/骨肉種;髄芽腫、小児;黒色腫;黒色腫、眼内(眼);メルケル細胞がん;中皮腫、成人悪性;中皮腫、小児;潜在性原発を伴う転移性扁平上皮頸部がん;口腔がん;小児多発性内分泌腺腫症症候群;多発性骨髄腫/形質細胞新生物;菌状息肉症;骨髄異形成症候群;骨髄異形成/骨髄増殖性疾患;骨髄性白血病、慢性;骨髄性白血病、成人急性;骨髄性白血病、小児急性;骨髄腫、多発性(骨髄のがん);骨髄増殖性障害、慢性;鼻腔及び副鼻腔のがん;上咽頭がん;神経芽細胞腫;非ホジキンリンパ腫;非小細胞肺がん;口腔がん;中咽頭がん;骨肉種/骨悪性線維性組織球腫;卵巣がん;卵巣上皮がん(表面上皮間質腫瘍);卵巣胚細胞性腫瘍;卵巣低悪性度腫瘍;膵臓がん;膵臓がん、膵島細胞;副鼻腔及び鼻腔のがん;上皮小体がん;陰茎がん;咽頭がん;褐色細胞腫;松果体星状細胞腫;松果体胚細胞腫;松果体芽腫及びテント上原始神経外胚葉性腫瘍、小児;下垂体腺腫;形質細胞腫瘍/多発性骨髄腫;胸膜肺芽腫;原発性中枢神経系リンパ腫;前立腺がん;直腸がん;腎細胞がん(腎臓がん);腎盂及び輸尿管、移行上皮がん;網膜芽細胞腫;横紋筋肉腫、小児;唾液腺がん;肉腫、ユーイングファミリーの腫瘍;肉腫、カポジ肉腫;肉腫、軟組織肉腫;肉腫、子宮肉腫;セザリー症候群;皮膚がん(非黒色腫);皮膚がん(黒色腫);皮膚がん、メルケル細胞;小細胞肺がん;小腸がん;軟部組織肉腫;扁平上皮がん-皮膚がん(非黒色腫)を参照されたい;潜在性原発性、転移性の扁平上皮頸部がん;胃がん;テント上原始神経外胚葉性腫瘍、小児;T細胞リンパ腫、皮膚(菌状息肉症及びセザリー症候群);精巣がん;咽喉がん;胸腺腫、小児;胸腺腫及び胸腺がん;甲状腺がん;甲状腺がん、小児;腎盂及び輸尿管の移行上皮がん;妊娠性絨毛膜腫瘍;未知の原発部位、成人のがん;未知の原発部位、小児のがん;輸尿管及び腎盂、移行上皮がん;尿道がん;子宮がん、子宮内膜がん;子宮肉腫;膣がん;視覚経路及び視床下部神経膠腫、小児;外陰がん;ワルデンシュトレームマクログロブリン血症及びウイルムス腫瘍(腎臓がん)。いくつかの具体的で非限定的な実施形態では、標的配列は、加齢関連状態と関連付けられる。より具体的な実施形態では、加齢関連障害は、加齢性クローン造血(age-related clonal hematopoiesis、ARCH)であり得る。したがって、標的核酸配列は、ARCHと関連付けられる配列である。
【0125】
より特定の実施形態では、そのような標的配列は、CCAATエンハンサー結合タンパク質アルファ(CCAAT Enhancer Binding Protein Alpha、CEBPA)遺伝子(HGNC:1833)内に含まれるいずれの配列であってもよい。なおいくつかの更なる特定の非限定的な実施形態では、標的配列は、SET結合タンパク1(SETBP1)遺伝子(HGNC:15573)内に含まれるいずれの配列であってもよい。
【0126】
いくつかの実施形態では、少なくとも1つの標的核酸配列は、ARCHを有する傾向があるヒト対象のゲノムDNAに由来する。加齢関連クローン造血(ARCH)は、血液学的悪性腫瘍の明確な診断がない個体における、特異的、破壊的、及び再発性の遺伝的バリアントを担持する造血幹細胞及び前駆細胞(hematopoietic stem and progenitor cell、HSPC)の漸進的なクローン増殖として定義される。ARCHは、経時的な老化だけでなく、炎症、血管疾患、がん死亡率、及び血液学的悪性腫瘍の高リスクを含むいくつかの他の加齢関連の病的状態とも関連付けられる。ARCHが老化のマーカーであるのか、又はこれらの様々な病態生理において積極的な役割を果たすのかは依然として不明であるが、ARCHを治療又は更には予防することがヒトの健康に有益であると証明され得ることが本明細書で示唆される(Shlush LI.Age-related clonal hematopoiesis.Blood.2018 Feb 1;131(5):496-504)。
【0127】
本開示の更なる態様は、対象の少なくとも1つの試料の少なくとも1つの標的核酸配列における病的障害と関連付けられる少なくとも1つの病原体の少なくとも1つの遺伝的及び/又はエピジェネティック変異及び/又は少なくとも1つの核酸配列を特定することによって、対象における病的障害を診断するための方法に関する。より具体的には、本方法は、対象の少なくとも1つの試験試料において、又はそれから得られる任意の核酸分子において、分子反転プローブに基づく標的化されたシーケンシングを行う工程を含む。少なくとも1つの標的核酸配列における変異のうちの1つ以上の存在及び/又は検査される試料中の少なくとも1つの病原体の少なくとも1つの核酸配列の存在は、対象が病的障害のリスクを有するか、そのキャリアであるか、又はそれに罹患していることを示すことが理解される。いくつかの実施形態では、本明細書で行われる分子反転プローブに基づく標的化されたシーケンシングの方法は、以下の工程を含む。
【0128】
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を、障害と関連付けられる遺伝的変異を含有し得る対象の少なくとも1つの標的核酸配列と接触させ、MIPを標的配列とともに1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションすることで、反応混合物中の環化生成物が得られることを理解されたい。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0129】
いくつかの実施形態では、分子反転プローブに基づく標的化されたシーケンシングの方法は、本開示によって定義される開示される診断方法において行われる。
【0130】
より具体的には、いくつかの実施形態では、開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、3時間半未満である。
【0131】
なおいくつかの更なる実施形態では、開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、1~3時間である。
【0132】
更に、いくつかの実施形態では、開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、1~2時間半である。
【0133】
更に、いくつかの実施形態では、開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法の工程(b)において得られる反応混合物中に存在し得る全ての直鎖状MIP及び/又は核酸分子の酵素消化の工程は、約15~30分間継続してもよい。
【0134】
いくつかの実施形態では、開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法の工程(a)~(c)を含むプロセス全体は、200分未満以内に行われる。いくつかの実施形態では、ハイブリダイゼーション時間は153分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが193~178分以内で行われ得る。いくつかの実施形態では、193又は178分である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は135分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が175~160分以内で行われ得る。いくつかの実施形態では、175又は160分である。
【0135】
いくつかの実施形態では、ハイブリダイゼーション時間は120分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが160~145分以内で行われ得る。いくつかの実施形態では、160又は145分である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は103分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が143~138分以内で行われ得る。いくつかの実施形態では、143又は138分である。
【0136】
いくつかの実施形態では、開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、少なくとも1つのMIP、具体的には、複数の異なる標的領域に対応するか、それを標的とするか、又はそれに特異的である複数のMIPを使用してもよい。
【0137】
なおいくつかの更なる実施形態では、開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、工程(d)において得られた複数の合成配列をシーケンシングすることと、目的のバリアントを特定することとを更に含んでもよい。
【0138】
更に、いくつかの実施形態では、開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、特定されたバリアント又はそのサブグループに対して、その感度、特異度、及び精度を計算するために、機械学習アルゴリズムを適用することを更に含んでもよい。いくつかの実施形態では、バリアントのサブグループは、閾値未満のVAFを有するバリアントを含む。
【0139】
開示される診断方法によって使用されるMIPに基づく標的化されたシーケンシングの方法によって使用される少なくとも1つのMIPは、二本鎖プローブであり得ることに留意されたい。しかしながら、一本鎖MIPも、開示される方法において適用可能であり得ることが理解される。
【0140】
いくつかの実施形態では、本診断方法において使用される標的核酸配列は、いずれのゲノム核酸配列であってもよいことが理解される。なおいくつかの更なる実施形態では、標的配列はトランスクリプトーム核酸配列であってもよく、それによって生物のトランスクリプトーム及び/又はエクソームに関する情報が提供される。
【0141】
いくつかの実施形態では、標的核酸配列は、遺伝的変異、病的障害、病原体、微生物、及びGCリッチ領域のうちの少なくとも1つと関連付けられるか又はそれを含む核酸配列である。
【0142】
いくつかの実施形態では、本明細書に開示される診断方法は、任意の対象に適用可能である。そのような対象は、生物学的分類における動物界に属する少なくとも1種の生物又は植物界に属する少なくとも1種の生物であってもよい。
【0143】
このため、本開示の方法は、動物界に属する任意の対象に適用可能であり得る。本開示による動物界に属する生物は、任意の無脊椎動物又は脊椎動物生物を含むことが理解される。
【0144】
より具体的には、無脊椎動物は、脊索に由来する脊柱(一般に背骨又は脊椎として知られる)を保有も発達させもしない動物である。これには、脊椎動物亜門以外の全ての動物が含まれる。より具体的には、無脊椎動物としては、海綿動物門-海綿、刺胞動物門-クラゲ、ヒドラ、イソギンチャク、サンゴ、有櫛動物門-有櫛動物、扁形動物門-扁形動物、軟体動物門-軟体動物、節足動物門-節足動物、環形動物門-ミミズなどの環形動物、及び棘皮動物門-棘皮動物が挙げられる。無脊椎動物のよく知られた例としては、昆虫;カニ、ロブスター、及びそれらの近縁;カタツムリ、二枚貝、タコ、及びそれらの近縁;ヒトデ、ウニ、及びそれらの近縁;クラゲ及び蠕虫が挙げられる。
【0145】
更に、実施形態では、本開示の方法は、脊椎動物生物に適用可能であり得る。脊椎動物は、脊椎動物亜門(背骨を有する脊索動物)内の全ての種の動物を含む。脊椎動物群の動物としては、魚類、両生類、爬虫類、鳥類、及び哺乳動物(例えば、有袋類、霊長類、齧歯類、及びクジラ目)が挙げられる。
【0146】
脊椎動物は脊索動物門の圧倒的多数を表し、現在約66,000種が説明されている。脊椎動物には、無顎魚類及び有顎脊椎動物が含まれ、これらには、軟骨魚類(サメ、エイ、及びラットフィッシュ)及び硬骨魚類が含まれる。
【0147】
更に、いくつかの実施形態では、本開示の対象は、ヒト又は非ヒト哺乳動物、トリ、虫、魚、両生類、爬虫類、甲殻類、カニ、ロブスター、カタツムリ、二枚貝、タコ、ヒトデ、ウニ、クラゲ、及び蠕虫のうちのいずれか1つであってもよい。
【0148】
より具体的な実施形態では、本明細書で言及される対象は、哺乳動物であってもよい。なおいくつかの更なる実施形態では、そのような哺乳動物生物は、哺乳動物の19種の目、具体的には、偶蹄目(偶蹄目有蹄動物)、肉食目(肉食動物)、クジラ目(クジラ及びイルカ(purpoises))、翼手目(コウモリ)、皮翼目(ヒヨケザル目(colugo)又はヒヨケザル(flying lemur))、貧歯目(無歯哺乳動物)、イワタヌキ目(ハイラックス、ダシー)、食中目(昆虫捕食動物)、兎形目(ナキウサギ、ノウサギ、及びウサギ)、有袋目(有袋動物)、単孔目目(産卵哺乳動物)、奇蹄目(奇蹄目有蹄動物)、鱗甲目、鰭脚目(アザラシ及びセイウチ)、霊長目(霊長類)、長鼻目(ゾウ)、齧歯目(齧歯哺乳動物)、海牛目(ジュゴン及びマナティー)、管歯目(ツチブタ)、のいずれかのメンバーを含んでもよい。
【0149】
なおいくつかの更なる実施形態では、本開示は、霊長目の任意の生物に適用可能であり得る。より具体的には、霊長類は、2つの別個の亜目に分けられ、第1の亜目は、キツネザル、ガラゴ、及びロリス科を含む原猿亜目である。第2の亜目は真猿亜目であり、これには、メガネザル、サル、及び類人猿クレードが含まれ、これらの最後にヒトが含まれる。なおいくつかの更なる実施形態では、本開示は、hylobatidae(テナガザル)と、ponqunae(オランウータン)及びhomininae[gorillini(ゴリラ)及びhominini((panina(チンパンジー)及びhominina(ヒト))]とを含む、ヒト亜科、の任意の生物に適用可能であり得る。
【0150】
いくつかの具体的な実施形態では、本開示の方法は、任意の家畜哺乳動物、例えば、ウシ、家畜ブタ(ブタ、イノシシ(swine、hog))、ヒツジ、ウマ、ヤギ、アルパカ、ラマ、及びラクダのうちの少なくとも1つであり得る哺乳動物に適用可能であり得る。更に、いくつかの実施形態では、哺乳動物対象はヒト対象である。
【0151】
上述のように、本開示は、任意の真核生物に関し、したがって、植物界のメンバーにも適用可能であり得る。
【0152】
より具体的な実施形態では、開示される方法は、任意の植物に適用可能であり得る。より具体的な実施形態では、そのような植物は雌雄異株植物であっても雌雄同株植物であってもよい。
【0153】
より具体的には、いくつかの実施形態では、植物界の生物は、雌雄異株植物、具体的には、両性生殖を示す植物であってもよい。いくつかの特定の実施形態では、開示される方法によって診断される植物は、アサ科のもの、具体的には、大麻(ヘンプ、マリフアナ)及びカラハナソウ(ホップ)のうちのいずれか1つであってもよい。より具体的な実施形態では、アサ科の植物は、大麻(ヘンプ、マリフアナ)であってもよい。なおいくつかの更なる実施形態では、アサ科の植物は、カラハナソウ(ホップ)であってもよい。
【0154】
いくつかの実施形態では、任意の植物、例えば、シロイヌナズナ(Arabidopsis)、タバコ(Tobacco)、トマト(Solanum licopersicum)、ジャガイモ(Solanum tuberosum)などの任意のモデル植物が、本開示において適用可能である。
【0155】
なおいくつかの更なる実施形態では、セイヨウアブラナ、穀類(トウモロコシ、コムギ、オオムギ)、イネ、サトウキビ、ビート、ワタ、バナナ、キャッサバ、サツマイモ、レンズマメ、ヒヨコマメ、エンドウマメ、ダイズ、堅果類、ラッカセイ、アオウキクサ、リンゴが本開示において適用可能であり得る。
【0156】
本開示に従って適用可能な有用な一年生及び多年生、栽培又は野生、単子葉又は双子葉の陸生植物又は藻類(すなわち、珪藻、微細藻類、アオサ、ノリ、オゴノリを含む単細胞又は多細胞藻類)の非包括的リストは、作物、観賞植物、薬草(すなわち、セージ、バジル、及びミントなどのラビアセア(labiacea)、又はレモングラス、チャイブ)、草(すなわち、芝及びバイオ燃料草及び動物飼料草)、穀類(すなわち、コメ、コムギ、ライムギ、カラスムギ、トウモロコシ)、豆類(すなわち、ダイズ、マメ、レンズマメ、ヒヨコマメ、エンドウマメ、ラッカセイ)、葉菜(すなわち、ケール、ボクチョイ、クレソン、レタス、ホウレンソウ、キャベツ)、Amaranthacea(すなわち、テンサイ、ビート、キノア、ホウレンソウ)、Compositea(すなわち、ヒマワリ、レタス、アスター)、Malvaceae(すなわち、ワタ、カカオ、オクラ、ハイビスカス)、ウリ科(すなわち、キュウリ、カボチャ、メロン、スイカ)、Solanaceous種(すなわち、タバコ、ジャガイモ、トマト、ペチュニア、及びペッパー)、Umbellifera(すなわち、ニンジン、セロリ、ディル、パセリ、クミン)、Crucifera(すなわち、菜種、カラシ、アブラナ、カリフラワー、ダイコン)、ゴマ、単子葉Aspargales(すなわち、タマネギ、ニンニク、セイヨウネギ、アスパラガス、バニラ、ユリ、チューリップ、スイセン)、Myrtacea(すなわち、ユーカリ、ザクロ、グアバ)、亜熱帯果樹(すなわち、アボカド、マンゴー、レイシ、パパイヤ)、柑橘類(すなわち、オレンジ、レモン、グレープフルーツ)、Rosacea(すなわち、リンゴ、サクランボ、プラム、アーモンド、バラ)、液果植物(すなわち、ブドウ、クワ、ブルーベリー、キイチゴ、イチゴ)、堅果木(すなわち、マカデミア、ヘーゼルナッツ、ピーカン、クルミ、クリ、ブラジルナッツ、カシュー)、バナナ及びオオバコ、ヤシ(すなわち、アブラヤシ、ココナッツ、及びナツメヤシ)、常緑樹、針葉樹又は落葉樹、木質種を含むが、これらに限定されない。
【0157】
いくつかの実施形態では、本開示の診断方法は、対象における病的障害と関連付けられる病原体の少なくとも1つの核酸配列を検出し得る。いくつかの実施形態では、そのような病原体は、本開示によって定義される、ウイルス病原体、細菌病原体、真菌病原体、寄生生物病原体、及び原生生物病原体のうちの少なくとも1つである。
【0158】
更に、いくつかの実施形態では、診断された病的障害と関連付けられる遺伝的変異は、本開示の他の態様に関連して定義されるように、単一ヌクレオチドバリアント(SNV)及び/又は単一ヌクレオチド多型(SNP)、挿入及び/又は欠失、(インデル)、逆位、コピー数変異(CNV)、ヘテロ接合性の喪失(LOH)、構造変異、遺伝子融合、転座、複製、反復配列多型のうちの少なくとも1つを含む。
【0159】
いくつかの実施形態では、開示さる診断方法によって分析される標的核酸配列は、少なくとも1つの先天性、遺伝性、身体性、自発性、又は後天性の病的障害又は状態と関連付けられる。具体的には、本開示の他の態様に関連して定義される障害のいずれかである。
【0160】
更に、いくつかの実施形態では、本明細書に開示される診断方法は、任意の病的障害に適用可能であり得る。そのような病的障害は、増殖性障害、代謝状態、炎症性障害、病原体によって引き起こされる感染症、自己免疫疾患、心血管疾患、神経変性障害、胎児の遺伝的状態、及び加齢関連状態のうちの少なくとも1つである。更に、本開示によって包含される病的障害は、感染及び寄生虫疾患、内分泌、栄養疾患、免疫障害、血液及び血液形成器官の疾患、精神障害、神経系及び感覚器官の疾患、循環系の疾患、呼吸器系の疾患、消化器系の疾患、泌尿生殖器系の疾患、妊娠、出産、及び産褥の合併症、皮膚及び皮下組織の疾患、筋骨格系及び結合組織の疾患、並びに先天性異常を更に含む。
【0161】
いくつかの実施形態では、本明細書に開示される診断方法は、任意の加齢関連状態に適用可能であり得る。より具体的な実施形態では、本明細書に開示される診断方法は、対象におけるARCHを診断するために適用可能である。いくつかの実施形態では、開示される診断方法は、ARCHを有する傾向があるヒト対象に適用可能である。
【0162】
本開示の更なる態様は、試験試料中の1つ以上の標的微生物又は感染体(例えば、病原性又は非病原体)の存在を検出する方法に関する。より具体的には、本方法は、試料から得られる少なくとも1つの核酸分子において分子反転プローブに基づく標的化されたシーケンシングを行う工程を含む。試料中の微生物又は感染体と関連付けられる1つ以上の標的核酸配列の存在が試料中のその存在を示すことに留意されたい。いくつかの実施形態では、開示される検出方法に適用可能な分子反転プローブに基づく標的化されたシーケンシングの方法は、以下の工程を含む。
1つの工程(a)は、試料の少なくとも1つの核酸分子を、微生物又は感染体と関連付けられる少なくとも1つの標的核酸配列に特異的な少なくとも1つのMIPと接触させ、MIPを標的配列とともに1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションすることで、反応混合物中の環化生成物が得られることを理解されたい。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0163】
いくつかの実施形態では、分子反転プローブに基づく標的化されたシーケンシングの方法は、本開示によって定義される開示される微生物、感染体、又は病原体検出方法において行われ得る。より具体的には、いくつかの実施形態では、開示される微生物又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、3時間半未満である。なおいくつかの更なる実施形態では、開示される微生物又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、1~3時間である。更に、いくつかの実施形態では、開示される微生物又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、1~2時間半である。更に、いくつかの実施形態では、開示される微生物又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法の工程(b)において得られる反応混合物中に存在し得る全ての直鎖状MIP及び/又は核酸分子の酵素消化の工程は、約15~30分間継続してもよい。
【0164】
いくつかの実施形態では、開示される微生物又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法の工程(a)~(c)を含むプロセス全体は、200分未満以内に行われる。いくつかの実施形態では、ハイブリダイゼーション時間は153分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが193~178分以内で行われ得る。いくつかの実施形態では、193又は178分である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は135分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が175~160分以内で行われ得る。いくつかの実施形態では、175又は160分である。
【0165】
いくつかの実施形態では、ハイブリダイゼーション時間は120分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが160~145分以内で行われ得る。いくつかの実施形態では、160又は145分である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は103分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が143~138分以内で行われ得る。いくつかの実施形態では、143又は138分である。
【0166】
いくつかの実施形態では、開示される微生物又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、少なくとも1つのMIP、具体的には、複数の異なる標的領域に対応するか、それを標的とするか、又はそれに特異的である複数のMIPを使用してもよい。
【0167】
なおいくつかの更なる実施形態では、開示される微生物又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、工程(d)で得られた複数の合成配列をシーケンシングし、目的のバリアントを特定することを更に含んでもよい。
【0168】
更に、いくつかの実施形態では、開示される微生物、感染体、又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、特定されたバリアント又はそのサブグループに対して、その感度、特異度、及び精度を計算するために、機械学習アルゴリズムを適用することを更に含んでもよい。いくつかの実施形態では、バリアントのサブグループは、閾値未満のVAFを有するバリアントを含む。
【0169】
開示される微生物又は病原体検出方法によって使用されるMIPに基づく標的化されたシーケンシングの方法によって使用される少なくとも1つのMIPは、二本鎖プローブであり得ることに留意されたい。しかしながら、一本鎖MIPも、開示される方法において適用可能であり得ることが理解される。
【0170】
いくつかの実施形態では、微生物又は病原体検出方法において使用される標的核酸配列は、いずれのゲノム核酸配列であってもよい。なおいくつかの更なる実施形態では、標的配列は、トランスクリプトーム核酸配列であってもよい。なおいくつかの更なる実施形態では、標的配列は、本開示によって開示されるいずれの循環核酸分子であってもよい。更に、標的配列は、本明細書に開示される他の態様に関連して定義される核酸分子のうちのいずれかであってもよい。
【0171】
いくつかの実施形態では、標的核酸配列は、遺伝的変異、病的障害、病原体、微生物、及びGCリッチ領域のうちの少なくとも1つと関連付けられるか又はそれを含む核酸配列である。
【0172】
いくつかの実施形態では、開示される方法によって検出される微生物は、原核微生物又は下等真核微生物である。なおいくつかの更なる実施形態では、感染体、例えば、開示される方法によって検出される病原体は、ウイルス病原体、細菌病原体、真菌病原体、寄生生物病原体、及び原生生物病原体のうちの少なくとも1つである。
【0173】
本明細書で使用される場合、「病原体」という用語は、対象宿主において疾患を引き起こす感染因子を指す。病原体には、原核微生物、下等真核微生物、複雑な真核生物、ウイルス、真菌、マイコプラズマ、プリオン、寄生生物、例えば、寄生性原虫、酵母、又は線虫が含まれる。
【0174】
なおいくつかの更なる実施形態では、本開示の方法は、更なる特定の実施形態においてウイルス病原体又はウイルスであってもよい病原体を検出するために適用可能であり得る。いくつかの実施形態では、病原体は、少なくとも1つのウイルス性病原体であってもよい。
【0175】
本明細書で使用される「ウイルス」という用語は、DNA又はRNA及びタンパク質コートからなる、生きているが非細胞性の偏性細胞内寄生生物を指す。ウイルスは、直径が約20~約300nmの範囲である。クラスIウイルス(Baltimore分類)は、そのゲノムとして二本鎖DNAを有する。クラスIIウイルスは、そのゲノムとして一本鎖DNAを有する。クラスIIIウイルスは、そのゲノムとして二本鎖RNAを有する。クラスIVウイルスは、そのゲノムとして正の一本鎖RNAを有し、ゲノム自体がmRNAとして作用する。クラスVウイルスは、mRNA合成の鋳型として使用されるそのゲノムとして負の一本鎖RNAを有し、クラスVIウイルスは、正の一本鎖RNAゲノムを有するが、DNA中間体複製だけでなくmRNA合成においてもある。
【0176】
「ウイルス」という用語は、その最も広い意味で使用され、任意のウイルス、具体的には、任意のエンベロープウイルスを含むことに留意されたい。いくつかの特定の実施形態では、ウイルス病原菌は、以下の目、特に、ヘルペスウイルス目(大型真核dsDNAウイルス)、リガメンウイルス目(直鎖状のdsDNA(I群)古細菌ウイルス)、Mモノネガウイルス目(非セグメント化(-)鎖ssRNA(V群)植物性及び動物性ウイルスを含む)、ニドウイルス目((+)鎖ssRNA(IV群)ウイルスで構成される)、オルテルビラ目(DNA中間体を介して複製する一本鎖RNA及びDNAウイルス(VI群及びVII群))ピコルナウイルス目(様々な植物、昆虫、及び動物宿主に感染する小(+)鎖ssRNAウイルス)、ティモウイルス目(モノパータイト(+)ssRNAウイルス)、ブニヤウイルス目(トリパータイト(-)ssRNAウイルス含有(群V))、及びカウドウイルス目(有尾dsDNA(群I)バクテリオファージ)のうちのいずれかであってもよい。
【0177】
いくつかの実施形態では、開示される方法に適用可能なウイルス病原体は、DNAウイルス、具体的には、以下の科:アデノウイルス科、パポバウイルス科、パルボウイルス科、ヘルペスウイルス科、ポックスウイルス科、ヘパドナウイルス科、及びアネロウイルス科の任意のウイルスであってもよい。
【0178】
なおいくつかの更なる特定の実施形態では、開示される方法において適用可能なウイルス病原体は、RNAウイルス、具体的には、以下の科:レオウイルス科、ピコルナウイルス科、カリチウイルス科、トガウイルス科、アレナウイルス科、フラビウイルス科、オルトミクソウイルス科、パラミクソウイルス科、ブニヤウイルス科、ラブドウイルス科、フィロウイルス科、コロナウイルス科、アストロウイルス科、ボルナウイルス科、アルテリウイルス科、ヘペウイルス科、及びレトロウイルス科の任意のウイルスであってもよい。特に興味深いのは、アデノウイルス、パポバウイルス、ヘルペスウイルス:単純ヘルペス、水痘帯状疱疹、エプスタインバーウ(Epstein-Barr、EBV)、サイトメガロウイルス(Cytomegalo virus、CMV)、ポックスウイルス:天然痘、ワクシニア、B型肝炎(hepatitis B、HBV)、ライノウイルス、A型肝炎(hepatitis A、HBA)、ポリオウイルス、呼吸器合胞体ウイルス(respiratory syncytial virus、RSV)、中東呼吸器症候群(Middle East Respiratory Syndrome、MERS-CoV)、重症急性呼吸器症候群(Severe acute respiratory syndrome、SARS-Cov)、SARS-CoV2、コロナウイルス、風疹ウイルス、C型肝炎(hepatitis C、HBC)、アルボウイルス、狂犬病ウイルス、インフルエンザウイルスA及びB、麻疹ウイルス、ムンプスウイルス、ヒト免疫不全ウイルス(human deficiency virus、HIV)、HTLV I及びII、並びにジカウイルスの科のウイルスである。
【0179】
いくつかの特定の及び実施形態では、本開示の方法は、少なくとも1つのコロナウイルス(corona virus、CoV)を検出するのに好適であり得る。CoVはヒトにおいて一般的であり、通常、軽度から中程度の上気道疾病を引き起こす。コロナウイルスには、アルファ、ベータ、ガンマ、及びデルタとして知られる4つの主要なサブグループがある。ヒトに感染するものとして今日知られている7つのコロナウイルスは、アルファコロナウイルス229E及びNL63、並びにベータコロナウイルスOC43、HKU1、SARS-CoV及びSARS-CoV2、並びにMERS-CoV(中東呼吸器症候群、すなわちMERSを引き起こすコロナウイルス)である。SARS-CoV及びSARS-CoV2は系統Bベータコロナウイルスであり、MERS-CoVは系統Cベータコロナウイルスである。
【0180】
更に、いくつかの実施形態では、開示される方法は、細菌、いくつかの実施形態では、細菌病原体を検出するのに適用可能であり得る。この文脈における「細菌(bacteria)」(単数形では「細菌(bacterium)」)という用語は、任意のタイプの単細胞微生物を指す。本明細書において、「細菌」及び「微生物」という用語は交換可能である。この用語は、本明細書において、それらの基本的な形状に従って一般的なクラスに属する細菌、すなわち、球状(球菌)、棒状(桿菌)、らせん状(スピリラ)、コンマ状(ビブリオ)又はらせん状(スピロヘータ)、並びに単一細胞として、対、鎖又はクラスターで存在する細菌を包含する。「細菌」という用語は、本明細書で使用される場合、単一細胞として、又は単一細胞のクラスター若しくは凝集体として存在する原核微生物のいずれかを指すことに留意されたい。より具体的な実施形態では、「細菌」という用語は、具体的には、グラム陽性、グラム陰性又は抗酸性生物を指す。グラム陽性細菌は、細菌分化のグラム染色法で使用されるクリスタルバイオレット染色を保持していると認識することができ、したがって、顕微鏡下で紫色に見える。グラム陰性細菌はクリスタルバイオレットを保持せず、陽性特定を可能にする。言い換えれば、「細菌」という用語は、本明細書において、細胞膜の外側の細胞壁中により厚いペプチドグリカン層を有する細菌(グラム陽性)、及び内部細胞質細胞膜と細菌外膜との間に挟まれた細胞壁の薄いペプチドグリカン層を有する細菌(グラム陰性)に適用される。この用語は、厚いペプチドグリカン層の存在に起因してグラム陽性を染色するが、外側細胞膜も有し、したがって、モノダーム(グラム陽性)細菌とダイダーム(グラム陰性)細菌との間の遷移における中間体として示唆される、Deinococcusなどのいくつかの細菌に更に適用される。Mycobacteriumのような抗酸性生物は、その細胞壁内に、グラム染色などの従来の方法による染色に抵抗するミコール酸と呼ばれる多量の脂質物質を含有する。
【0181】
いくつかの実施形態では、開示される方法によって検出される病原体は、院内感染に関与する任意の細菌又はそのような細菌の任意の混合物であってもよい。「院内感染」は、病院で獲得される感染、すなわち、発症が表面及び/又は医療従事者などの病院環境によって優遇され、入院中に患者によって獲得される感染を指す。院内感染は、抗生物質に耐性のある生物によって引き起こされる可能性がある感染である。院内感染は、罹患率及び死亡率に影響を及ぼし、著しい経済的負担をもたらす。抗生物質耐性のレベルの上昇及び入院患者の疾病の重症度の増加を考慮すると、この問題は緊急の解決を必要とする。一般的な院内生物としては、Clostridium difficile、メチシリン耐性Staphylococcus aureus、コアグラーゼ陰性Staphylococci、バンコマイシン耐性Enteroccocci、耐性Enterobacteriaceae、Pseudomonas aeruginosa、Acinetobacter、及びStenotrophomonas maltophiliaが挙げられる。
【0182】
院内感染病原体は、グラム陽性細菌(Staphylococcus aureus、コアグラーゼ陰性ブドウ球菌)、グラム陽性球菌(Enterococcus faecalis及びEnterococcus faecium)、グラム陰性桿状生物(Klebsiella pneumonia、Klebsiella oxytoca、Escherichia coli、Proteus aeruginosa、Serratia spp.)、グラム陰性菌(Enterobacter aerogenes、Enterobacter cloacae)、好気性グラム陰性球桿菌(Acinetobacter baumanii、Stenotrophomonas maltophilia)、及びグラム陰性好気性菌(Stenotrophomonas maltophilia、以前はPseudomonas maltophiliaとして知られていた)に細分することができる。多くの他のもののなかで、Pseudomonas aeruginosaは、非常に重要な院内グラム陰性好気性桿菌病原体である。
【0183】
いくつかの実施形態では、開示される方法は、「ESKAPE」病原体の検出に適用可能であり得る。本明細書に示されるように、これらの病原体としては、Enterococcus faecium、Staphylococcus aureus、Clostidium difficile、Klebsiella pneumoniae、Acinetobacter baumanii、Pseudomonas aeruginosa、及びEnterobacterが挙げられるが、これらに限定されない。
【0184】
更なる実施形態では、本開示による病原体は、E.coli、Pseudomonas spp、具体的には、Pseudomonas aeruginosa、Staphylococcus spp、具体的には、Staphylococcus aureus、Streptococcus spp、具体的には、Streptococcus pyogenes、Salmonella spp、Shigella spp、Clostidium spp、具体的には、Clostidium difficile、Enterococcus spp、具体的には、Enterococcus faecium、Klebsiella spp、具体的には、Klebsiella pneumonia、Acinetobacter spp、具体的には、Acinetobacter baumanni、Yersinia spp、具体的には、Yersinia pestis、及びEnterobacter species、又はそれらの任意の変異体、バリアント分離株、又は任意の組み合わせのうちの少なくとも1つの細菌細胞であってもよい。
【0185】
本発明の開示に適用可能な下等真核生物としては、いくつかの実施形態では、酵母菌又は真菌、例えば、非限定的に、Pneumocystis carinii、Candida albicans、Aspergillus、Histoplasma capsulatum、Blastomyces dermatitidis、Cryptococcus neoformans、Trichophyton、及びMicrosporumを挙げることができ、これらも開示される方法に包含される。複雑な真核生物としては、蠕虫、昆虫、クモ形類、線虫、アエモーブ(aemobe)、Entamoeba histolytica、Giardia lamblia、Trichomonas vaginalis、Trypanosoma brucei gambiense、Trypanosoma cruzi、Balantidium coli、Toxoplasma gondii、Cryptosporidium、又はLeishmaniaが挙げられる。
【0186】
更に、ある特定の実施形態では、本開示の方法は、真菌病原体を検出するのに好適であり得る。「真菌(fungi)」(又は「真菌(fungus)」)は、本明細書で使用される場合、根、茎、又は葉を伴わずに不規則な塊で成長し、光合成が可能な葉緑素又は他の色素を欠いている真核生物の区分を指す。各生物(葉状体)は、単細胞性から糸状であり、グルカン若しくはキチン又はその両方を含有し、真核を含有する細胞壁によって囲繞された分岐した体細胞構造(菌糸)を保有する。「真菌」には、例えば、白癬、ヒストプラスマ症、ブラストミセス症、アスペルギルス症、クリプトコッカス症、スポロトリクム症、コクシジオイデス症、パラコクシジオイデス症、及びカンジダ症などの疾患を引き起こす真菌が含まれる。
【0187】
上述したように、本開示はまた、寄生性病原体を検出するのに好適であり得る方法を提供する。より具体的には、以前は「原生動物」界に分類されていた生物を指す「寄生性原生動物」である。それらには、アメーバ動物門、エクスカバータ、及びクロムアルベオラータに分類される生物が含まれる。例としては、Entamoeba histolytica、Plasmodium(そのいくつかはマラリアを引き起こす)、及びGiardia lambliaが挙げられる。寄生生物という用語には、体性条虫、住血吸虫、組織回虫、アメーバ、並びにマラリア原虫、トリパノソーマ、リーシュマニア、及びトキソプラズマ種によって引き起こされる感染が含まれるが、これらに限定されない。
【0188】
本明細書で使用される場合、「線虫(nematode)」という用語は回虫(roundworm)を指す。回虫は、両端に開口部を有する管状消化系を有する。線虫のいくつかの例としては、モンヒステラ基底目、ニセハリセンチュウ綱、Enoplea綱、及び双腺綱、並びに「クロマドラ網」群集が挙げられるが、これらに限定されない。
【0189】
いくつかの実施形態では、「試料」、「試験試料」、及び「検体」という用語は、本明細書及び特許請求の範囲において交換可能に使用され、その最も広い意味で使用される。これらは、生体試料及び環境試料の両方を含むことを意味し、合成起源の例を含んでもよい。この用語は、少なくとも1つの微生物、例えば病原体を含有してもよい任意の培地を指し、流体、細胞、及び/又は組織試料を含んでもよい。本明細書のいくつかの実施形態では、生体試料は流体試料である。流体試料としては、唾液、粘膜、糞便、血清、尿、血液、血漿、脳脊髄液(cerebral spinal fluid、CSF)、乳、気管支肺胞洗浄(bronchoalveolar lavage、BAL)液、体腔の洗浄から得られるすすぎ液、痰、膿が挙げられるが、これらに限定されない。更に、生体試料には、様々な身体領域(鼻、喉、膣、耳、眼、皮膚、びらん)から採取された試料、食品(固体及び流体の両方)、及び医療器具、装置、材料から採取されたスワブ、様々な表面[病院、老人ホーム、食品製造施設、屠殺場、製薬機器(カテーテルなど)、食品調製物又は包装製品)、溶液及び緩衝液]からの試料、下水などが挙げられる。
【0190】
いくつかの実施形態では、開示される微生物又は病原体検出方法は、任意の試料を使用してもよく、例えば、そのような試料は、生体試料であっても環境試料であってもよい。
【0191】
より具体的には、生体試料は、ヒトを含む動物、流体、固体(例えば、糞便)、又は組織、並びに液体及び固体食品及び飼料製品、ヒト消費用に設計された食物、動物消費用に設計された食物を含む試料、乳製品、野菜、肉及び肉副産物などの食品マトリックス及び成分、廃棄物、並びに下水から提供されてもよい。いくつかの実施形態では、生体試料には、唾液、粘膜(鼻又は口腔スワブ試料)、糞便、血清、血液、尿、医療専門家によって収集された前鼻孔検体、又は現場若しくは自宅での自己収集検体、咽頭スワブが含まれてもよい。生体試料及び検体は、ヒトから、及び様々な科の家畜の全てから、及び有蹄動物、クマ、鳥類、魚類、ウサギ類、齧歯類などを非限定的に含む、野良(feral)又は野生(wild)の動物から得られてもよい。
【0192】
更に、環境試料には、表面物質、土、土壌、水、空気、及び産業試料などの環境材料、並びに食品及び乳製品加工機器、装置、設備、器具、使い捨て及び非使い捨て品目から得られる試料が含まれる。これらの例は、本開示に適用可能な試料タイプを限定するものとして解釈されるべきではない。試料は、任意の媒体、具体的には、標的核酸分子又は配列を含有し得る液体媒体であってもよい。典型的には、事前に液体ではない物質、表面、及び試料、又は検体を、本明細書に開示される方法によって使用及び試験される液体媒体と接触させてもよい。
【0193】
いくつかの実施形態では、本開示の方法は、食物又は食品及び飲料中の少なくとも1つの微生物、具体的には病原体を検出するのに適用可能であり得る。より具体的には、「食物」という用語は、通常は植物又は動物起源の、消費される任意の物質を指す。摂食に使用される動物のいくつかの非限定的な例は、ウシ、ブタ、家禽などである。食物という用語はまた、動物に由来する製品、例えば、非限定的に、牛乳、及び牛乳、卵、肉などに由来する食品を含む。飲み物又は飲料は、ヒトによる消費のために特別に調製される液体である。飲料の非限定的な例としては、水、牛乳、アルコール性及び非アルコール性飲料、ソフトドリンク、果実エキスなどが挙げられるが、これらに限定されない。
【0194】
本開示の更なる態様は、少なくとも1つの生物の少なくとも1つの核酸分子、又は少なくとも1つの感染体の遺伝子型又は遺伝子プロファイリングを決定する方法に関する。いくつかの実施形態では、プロファイリング及び/又は遺伝子型決定は、少なくとも1つの目的の遺伝子座において、例えば、1つ以上の目的の多型遺伝子座において行われる。より具体的には、本方法は、少なくとも1つの核酸分子を含む少なくとも1つの試験試料において分子反転プローブに基づく標的化されたシーケンシングを行う工程を含む。より具体的には、本明細書で使用される分子反転プローブに基づく標的化されたシーケンシングの方法は、以下の工程を含む。
【0195】
1つの工程(a)では、少なくとも1つのMIPを、1つ以上の目的の遺伝子座を含む少なくとも1つの標的配列と接触させ、1~3時間半のハイブリダイゼーション時間にわたってインキュベートすること。より具体的な実施形態では、開示される方法において使用されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含んでもよい。第1のハイブリダイゼーション工程により、目的の1つ以上の多型遺伝子座を含む、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPが得られる。
【0196】
次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。いくつかの実施形態では、合成された配列を更にライゲーションすることで、反応混合物中の環化生成物が得られる。開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0197】
このため、開示される方法は、核酸配列の遺伝子型決定に関する。本明細書で定義される「遺伝子型決定」という用語は、個体のDNA中の特定の遺伝子座における核酸配列の特定を指す。本明細書で使用される場合、「DNAプロファイル」、「遺伝子フィンガープリント」、及び「遺伝子型プロファイル」という用語は、タンデムリピート、単一ヌクレオチド多型(SNP)などといった多型遺伝子座のコレクションにおけるアレル変異を指すように本明細書では交換可能に使用される。DNAプロファイルは、核酸試料に基づいて個体を特定するための法医学において有用である。
【0198】
いくつかの実施形態では、分子反転プローブに基づく標的化されたシーケンシングの方法は、本開示によって定義される開示される遺伝子型決定方法において行われる。
【0199】
より具体的には、いくつかの実施形態では、開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、3時間半未満である。
【0200】
なおいくつかの更なる実施形態では、開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、1~3時間である。
【0201】
更に、いくつかの実施形態では、開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法のハイブリダイゼーション時間は、1~2時間半である。
【0202】
更に、いくつかの実施形態では、開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法の工程(b)において得られる反応混合物中に存在し得る全ての直鎖状MIP及び/又は核酸分子の酵素消化の工程は、約15~30分間継続してもよい。
【0203】
いくつかの実施形態では、開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法の工程(a)~(c)を含むプロセス全体は、200分未満以内に行われる。いくつかの実施形態では、ハイブリダイゼーション時間は153分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが193~178分以内で行われ得る。いくつかの実施形態では、193又は178分である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は135分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が175~160分以内で行われ得る。いくつかの実施形態では、175又は160分である。
【0204】
いくつかの実施形態では、ハイブリダイゼーション時間は120分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが160~145分以内で行われ得る。いくつかの実施形態では、145又は160分である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は103分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が143~138分以内で行われ得る。いくつかの実施形態では、143又は138分である。
【0205】
いくつかの実施形態では、開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、少なくとも1つのMIP、具体的には、複数の異なる標的領域に対応するか、それを標的とするか、又はそれに特異的である複数のMIPを使用してもよい。
【0206】
なおいくつかの更なる実施形態では、開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、工程(d)において得られた複数の合成配列をシーケンシングすることと、目的のバリアントを特定することとを更に含んでもよい。
【0207】
更に、いくつかの実施形態では、開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法は、特定されたバリアント又はそのサブグループに対して、その感度、特異度、及び精度を計算するために、機械学習アルゴリズムを適用することを更に含んでもよい。いくつかの実施形態では、バリアントのサブグループは、閾値未満のVAFを有するバリアントを含む。
【0208】
開示される遺伝子型決定方法によって使用されるMIPに基づく標的化されたシーケンシングの方法によって使用される少なくとも1つのMIPは、二本鎖プローブであり得ることに留意されたい。しかしながら、一本鎖MIPも、開示される方法において適用可能であり得ることが理解される。
【0209】
いくつかの実施形態では、本遺伝子型決定方法において使用される標的核酸配列は、いずれのゲノム核酸配列であってもよいことが理解される。なおいくつかの更なる実施形態では、標的配列はトランスクリプトーム核酸配列であってもよく、それによって生物のトランスクリプトーム及び/又はエクソームに関する情報が提供される。
【0210】
いくつかの実施形態では、標的核酸配列は、遺伝的及び/又はエピジェネティック変異、病的障害、病原体、微生物、及びGCリッチ領域のうちの少なくとも1つと関連付けられるか又はそれを含む核酸配列である。
【0211】
より具体的な実施形態では、遺伝的変異は、単一ヌクレオチドバリアント(SNV)及び/又は単一ヌクレオチド多型(SNP)、挿入及び/又は欠失、(インデル)、逆位、コピー数変異(CNV)、構造変異、選択的スプライシング、ヘテロ接合性の喪失(LOH)、遺伝子融合、転座、複製、並びに反復配列多型のうちの少なくとも1つを含む。
【0212】
更に、いくつかの実施形態では、開示さる遺伝子型決定方法によって分析される標的核酸配列は、少なくとも1つの先天性、自発性、又は後天性の病的障害又は状態と関連付けられる。なおいくつかの更なる実施形態では、病的障害は、増殖性障害、腫瘍性障害、代謝状態、精神障害、炎症性障害、病原体によって引き起こされる感染症、自己免疫疾患、心血管疾患、神経変性障害、胎児の遺伝的状態、及び加齢関連状態のうちの少なくとも1つであってもよい。更に、本開示によって包含される病的障害は、感染及び寄生虫疾患、内分泌、栄養疾患、免疫障害、血液及び血液形成器官の疾患、精神障害、神経系及び感覚器官の疾患、循環系の疾患、呼吸器系の疾患、消化器系の疾患、泌尿生殖器系の疾患、妊娠、出産、及び産褥の合併症、皮膚及び皮下組織の疾患、筋骨格系及び結合組織の疾患、並びに先天性異常を更に含む。
【0213】
いくつかの実施形態では、遺伝子型決定される生物は、動物界に属する少なくとも1種の生物、植物界、細菌界、古細菌界、原性動物界、クロミスタ界、及び真菌界の少なくとも1つの生物である。
【0214】
このため、開示される方法によって遺伝子型決定又は遺伝的にプロファイリングされる生物は、細菌界、Archaea、Protozoa、Chromista、Plantae、Fungi、及び動物界のうちのいずれかに属する任意の生物及び/又は任意の対象であってもよい。
【0215】
より具体的には、本開示によるArchaea界の生物は、単細胞生物のドメインを構成することが理解される。これらの微生物は細胞核を欠き、したがって原核生物である。古細菌は、地球の生命の主要部分である。これらは、全ての生物の微生物叢の一部である。ヒトマイクロバイオームにおいて、これらは、腸、口、及び皮膚において重要である。
【0216】
本開示による原生動物界の生物(単数形はprotozoon又はprotozoan、複数形はprotozoa又はprotozoans)、原生動物は、他の微生物又は有機組織及び破片などの有機物を餌とする、自由生活性又は寄生性の単細胞真核生物の群に対する非公式の用語であることが理解される。原生動物の主要な群としては、鞭毛虫類、又は鞭毛藻類(運動のための鞭様オルガネラを備えた運動性細胞、例えば、Giardia lamblia);アメーバ又は肉質類(偽足又は葉状仮足を伸ばすことによって移動する細胞、例えば、Entamoeba histolytica);胞子虫、又はアピコンプレクサ類、又は胞子虫類(その成体形態が運動性の器官を欠く寄生性の胞子産生細胞、例えば、Plasmodium knowlesi);アピコンプレックス門(現在はアルベオラータに含まれる);微胞子虫(現在は真菌に含まれる);アセトスポラ(現在はリザリアに含まれる);粘液胞子虫(現在は刺胞動物に含まれる);繊毛虫類又は繊毛虫(運動及び摂食のために使用される多数の繊毛を備えた細胞、例えば、Balantidium coli)が挙げられが、これらに限定されない。
【0217】
クロミスタは、光合成オルガネラ(プラスチド)において類似の特徴を共有する単細胞及び多細胞真核性種からなる生物界である。これには、プラスチドが葉緑素cを含有する全ての原生生物、例えば、一部の藻類、珪藻類、卵菌類、及び原生動物が含まれる。これはおそらく、メンバーが全ての真核生物の共通の祖先から別個の進化群として独立して生じた多系統群である。最後の共通の祖先が既に紅藻類起源の葉緑素を保有していたと仮定されるので、非光合成形態は、光合成を行うことができる祖先から進化した。それらのプラスチドは4つの膜に囲繞されており、一部の紅藻類から獲得されたと考えられている。Chromistaは、3つの異なる群である、ヘテロコント又はストラメノパイル(褐藻類、珪藻類、水生菌など)、アプトファイト(aptophyte)、及びクリプトモナド(Cryptomonad)からなると最初に説明されている。
【0218】
fungus界の生物は、酵母及びカビ、並びによりよく知られているキノコなどの微生物を含む真核生物の群の任意のメンバーであることを理解されたい。真菌の主要な動物門(phyla)(植物門(division)と呼ばれることもある)は、主にそれらの有性生殖構造の特徴に基づいて分類されている。2019年現在、9つの主要な系統であるOpisthosporidia、Chytridiomycota、Neocallimastigomycota、Blastocladiomycota、Zoopagomycota、Mucoromycota、Glomeromycota、Ascomycota、及びBasidiomycotaが特定されている。
【0219】
本態様に適用可能な動物界又は植物界に属する生物は、本開示の他の態様に関連して定義される生物のうちのいずれかであることを理解されたい。更に、本開示によって開示される任意の細菌生物及び/又は任意の感染体(例えば、ウイルス、バクテリオファージ、又は任意の形質導入実体)も、本態様において適用可能である。
【0220】
リセット開示によって開示される遺伝子型決定及び遺伝子プロファイリング方法は、様々な用途に有用であり得、数例を挙げると、そのような用途としては、農業、健康、親検査、疫学、及び法医学的用途を挙げることができる。
【0221】
より詳細には、いくつかの実施形態では、開示される遺伝子型決定及び遺伝子プロファイリング方法は、農業ゲノミクス、又はアグリゲノミクス(農業におけるゲノミクスの適用)において適用されてもよい。いくつかの非限定的な実施形態では、本明細書に開示される方法は、種子選択、家畜改良に適用されてもよい。いくつかの非限定的な例では、本明細書に開示される方法は、望ましい形質に関連する遺伝子マーカーを特定し、栽培及び育種の決定に情報を提供する。いくつかの他の非限定的な例では、本明細書に開示される方法は、植物及び動物の選択、栄養、健康監視、トレーサビリティ、並びに獣医学的診断システムを改善するのに有用であり得る。いくつかの非限定的な例では、本明細書に開示される方法は、例えば、乾燥耐性、病害抵抗性、及びより高い収量などの所望の形質を有する植物作物の品種の開発に適用され得る。本明細書に開示される方法は、複雑な環境において、有益な農業形質を付与する遺伝的バリアントを特定し繁殖させ、捕食者、土壌条件、及び気候などのそれらの環境虫の要素に対処する性能を獲得するために、アグリゲノミクスに適用され得る。農業価値のある表現型形質の例としては、収量及び成長、病害抵抗性、非生物的ストレス適応、繁殖、栄養/最終用途品質、持続可能性などが挙げられるが、これらに限定されない。
【0222】
本明細書に開示される遺伝子型決定及び遺伝子プロファイリング方法は、漁業、作物及び家畜の健康、並びに食品の安全性及び真正性のような重要な資源の生物学的状態に関する貴重な情報を提供する際に適用されてもよい。本方法は、生態系の多様性を理解するために、様々な環境内に存在する生物を特定するために使用されてもよい。種は、それらの環境にDNAを提供し、これは容易に回収することができ、多くの場合に環境DNA(environmental DNA、eDNA)と称され、固有の遺伝的フィンガープリントに基づいて種を区別する手段として役立ち得る。このようにして、eDNAは、海水から土壌及び食物までのあらゆる状況に存在する生物のレパートリーを決定するために使用される。ゲノミクスのこの用途及び他の新たな用途は、農業に関係する資源の監視及び管理のための最良の実施を形成しており、開示される方法によって使用され得る。
【0223】
いくつかの他の実施形態では、開示される遺伝子型決定及び遺伝子プロファイリング方法は、動物育種家によって利用されてもよい。本明細書で使用される場合、「繁殖動物」という用語は、繁殖に使用される非ヒト動物(例えば、哺乳動物としての家畜、具体的には、ウマ、ヒツジ、ウシ、イヌなど、魚、及び鳥類動物)を指す。したがって、繁殖動物は、例えば雄性繁殖動物を雌性繁殖動物と交配することなどの従来の手段を使用する繁殖のために使用される動物であってもよい。あるいは、繁殖動物は、別の繁殖動物との物理的交配を行わずに1つ以上の所定の形質を有する子孫動物を生み出す目的のために、遺伝物質(例えば、繁殖動物の精子、卵子、又はミトコンドリア)のドナーとして使用される動物であってもよい。子孫動物が2頭の繁殖動物間の交配を必要とせずに生み出される場合、遺伝源物質は、単一の繁殖動物から、又は1頭以上の追加の繁殖動物からの遺伝物質と組み合わせて得られ、使用されてもよい。加えて、繁殖動物は、生きている動物であっても死亡した動物であってもよい。死亡した動物の場合、遺伝物質は、死亡前の動物から得られ、1つ以上の所定の形質を有する子孫動物を生み出す際に後で使用するために凍結保存される。
【0224】
更に、そのいくつかの態様では、開示される遺伝子型決定法及び遺伝子プロファイリング方法は、法医学的用途に適用可能であり得る。より詳細には、ヒトゲノムにおけるマーカーのサブセットの使用は、個体の個人的アイデンティティ、又はDNAフィンガープリント若しくはプロファイルを決定するために利用されてきた。これらのマーカーは、ショートタンデムリピート配列(short tandem repeated sequence、STR)及び中タンデムリピート配列(intermediate tandem repeated sequence、ITR)の位置又は遺伝子座を含み、これらは、組み合わせて、遺伝子レベルである個体を別の個体から特定するのに有用である。したがって、STRマーカーは、法医学分析、親子鑑定、並びに遺伝子疾患及びがんの検出の分野において頻繁に使用される。
【0225】
このため、本明細書に開示される遺伝子型決定及び遺伝子プロファイリング方法は、いくつかの非限定的な例ではDNA試料のアイデンティティを決定するための選択された生体マーカーを使用し得るDNAプロファイリングに適用可能であり得る。例えば、DNAプロファイルを決定するための最も一般的な分析は、生物のゲノムにおいて見出されるある数のショートタンデムリピート(STR)配列についてのプロフィールを決定することである。種の特定は、法医学的実践の最も重要な構成要素のうちの1つである。例えば、絶滅危惧種の密猟及び取引のいくつかの場合において、これは、重要な情報を提供し、警察調査を支援するために使用されてきた。食品産業では、肉製品中に存在する種の特定を達成することができ、考古学では、ヒト遺体を非ヒト遺体から区別することができる。
【0226】
更に、DNAプロファイルは、核酸試料に基づいて個体を特定するための法医学において有用である。本明細書で使用されるDNAプロファイルは、他の用途、例えば、がんを含む疾患の診断及び予後診断、がんバイオマーカー特定、遺伝分析、遺伝的多様性分析、遺伝的異常特定、少数派集団の定量化、データバンキング、法医学、犯罪ケースワーク、親子鑑定、個人特定などにも使用され得る。
【0227】
更に、本明細書に開示される方法は、任意の生物、例えば、ヒト、非ヒト霊長類、動物、植物、ウイルス、細菌、真菌などに適用することができる。そのため、本方法は、DNAプロファイリング(例えば、法医学、親子鑑定、個人特定など)及び標的ゲノムとしてのヒトに有用であるだけでなく、がん及び疾患マーカー、遺伝的異常マーカーなどの他の標的に対して、及び/又は標的ゲノムがヒトに基づいていないときにも、使用することができる。
【0228】
本開示のなお更なる態様は、マイクロバイオーム分析に適用可能であり得る遺伝子型決定及び遺伝子プロファイリング方法に関し、これにより、所与の試料セット中の微生物群集を(相対的に)特定及び定量化することが可能になる。
【0229】
更に、いくつかの実施形態では、本開示の遺伝子型決定及び遺伝子プロファイリング方法は、腫瘍分析に使用されてもよい。より具体的には、腫瘍生検は、多くの場合、健康な細胞と腫瘍細胞との混合物である。標的化PCRにより、バックグラウンド配列がほとんど又は全くないSNP及び遺伝子座のディープシーケンシングが可能になる。これは、腫瘍DNAにおけるコピー数及びヘテロ接合性の喪失の分析のために使用されてもよい。当該腫瘍DNAは、腫瘍患者の多くの異なる体液又は組織に存在し得る。これは、腫瘍再発の検出及び/又は腫瘍スクリーニングのために使用されてもよい。
【0230】
そのなおいくつかの更なる態様では、本開示の遺伝子型決定及び遺伝子プロファイリング方法は、胎児遺伝的異常の診断に有用であり得る。そのような場合、出発試料は、母体組織(例えば、血液、血漿)から得られても、胎児試料(羊水に存在する)を含有してもよい。本開示に記載される方法は、ポリヌクレオチドコピー数における小さいが統計的に有意な差異の検出を可能にするための技法を適用する。本明細書に記載されるアッセイ及びMIPプローブのための標的は、異数性、並びに他の遺伝的変異、例えば、変異、挿入、付加、欠失、転座、点変異、トリヌクレオチドリピート障害、及び/又は単一ヌクレオチド多型(SNP)を含む、胎児遺伝的異常と関連付けられる任意の遺伝子標的であることも、胎児遺伝的異常と関連付けられる対照標的であることもできる。更に、いくつかの実施形態では、本明細書に記載される方法及び組成物により、余分な染色体又は欠損した染色体、特に、出生時欠損又は流産と典型的に関連付けられる染色体の検出が可能になり得る。例えば、本明細書に記載される方法及び組成物により、常染色体トリソミー(例えば、13、15、16、18、21、又は22トリソミー)の検出が可能になり得る。他の場合には、検出されるトリソミーは、乳児が出生時欠損を持って生まれてくることを示し得る生産トリソミー(例えば、13トリソミー(パトー症候群)、18トリソミー(エドワーズ症候群)、及び21トリソミー(ダウン症候群))である。異常は、性染色体(例えば、XXY(クラインフェルター症候群)、XYY(ヤコブ症候群)、又はXXX(トリソミーX))の異常であってもよい。いくつかの実施形態では、遺伝子標的は、任意の染色体、例えば、13、18、21、X、又はYにあってもよい。更に、数例を挙げると、本明細書の方法及びシステムに基づいて決定することができる更なる胎児の状態としては、1つ以上の染色体のモノソミー(ターナー症候群としても知られるX染色体モノソミー)、1つ以上の染色体のトリソミー(13、18、21、及びX)、1つ以上の染色体のテトラソミー及びペンタソミー(ヒトにおいて、性染色体、例えば、XXXX、XXYY、XXXY、XYYY、XXXXX、XXXXY、XXXYY、XYYYY、及びXXYYYにおいて最も一般に観察される)、一倍性、三倍性(各染色体3つ、例えば、ヒトでは69染色体)、四倍性(各染色体4つ、例えば、ヒトでは92染色体)、五倍性、及び多倍性(multiploidy)が挙げられる。
【0231】
いくつかの場合、遺伝子標的は、特定の染色体上に、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、23、24、25、26、27、28、29、30、31、32、33、34、35、36、37、38、39、40、41、42、43、44、45、46、47、48、49、50、75、100、125、150、175、200、225、250、300、350、400、450、500、1,000、5,000、10,000、20,000、30,000、40,000、50,000、60,000、70,000、80,000、90,000、又は100,000個超の部位を含む。いくつかの場合、遺伝子標的は、1、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、又は22個超の異なる染色体上に標的を含む。いくつかの場合、遺伝子標的は、2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、21、22、又は23個未満の染色体上に標的を含む。いくつかの場合、遺伝子標的は、常染色体優性及び劣性障害、並びに伴性優性及び劣性障害を含む遺伝性遺伝子障害において変異することが知られている遺伝子を含む。非限定的な例としては、自己免疫疾患、神経変性疾患、がん、及び代謝障害を生じる遺伝子変異が挙げられる。いくつかの実施形態では、本方法は、遺伝子異常(トリソミーなど)と関連付けられる遺伝子標的の存在を、これを遺伝子異常と関連付けられない遺伝子標的(正常な二倍体染色体上に位置する遺伝子など)を参照して比較することによって検出する。
【0232】
更に、本明細書に開示される開示された遺伝子型決定及び遺伝子プロファイリング方法は、ヒト、動物、植物、又は他の生き物における血縁体又は祖先の標準的な親子鑑定及びアイデンティティ検査に使用されてもよい。これは、任意の種類の物質、例えば、羊水及びCVS、精子、受胎産物(product of conception、POC)に対する迅速な遺伝子型決定及びコピー数分析(CN)に使用されてもよい。これは、胚から生検された試料に対する遺伝子型決定などの単一細胞分析に使用されてもよい。これは、迅速な胚分析(生検の1日未満、1日、又は2日以内)に使用されてもよい。
【0233】
いくつかの実施形態では、本明細書に記載される方法は、SNP、コピー数、ヌクレオチドメチル化、mRNAレベル、他のタイプのRNA発現レベル、他の遺伝的及び/又はエピジェネティック特徴を特定するために使用され得る。本明細書に記載される方法は、次世代シーケンシングとともに使用されてもよい。これは、マイクロアレイ、デジタルPCRによる計数、リアルタイムPCR、質量分析などの他の下流の方法とともに使用されてもよい。
【0234】
本開示の更なる態様は、標的核酸分子中の低変異アレル頻度(VAF)変異を、核酸分子において分子反転プローブに基づく標的化されたシーケンシングを行うことによって特定するための方法に関する。より具体的には、本方法は、以下の工程を含む。
【0235】
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションすることで、反応混合物中の環化生成物が得られることを理解されたい。
【0236】
開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0237】
いくつかの実施形態では、分子反転プローブに基づく標的化されたシーケンシングの方法は、本開示によって定義される開示された低VAF変異検出法において行われる。
【0238】
より具体的には、いくつかの実施形態では、ハイブリダイゼーション時間は3時間半未満である。なおいくつかの更なる実施形態では、ハイブリダイゼーション時間は1~3時間である。
【0239】
更に、いくつかの実施形態では、ハイブリダイゼーション時間は1~2時間半である。更に、いくつかの実施形態では、工程(b)において得られる反応混合物中に存在し得る全ての直鎖状MIP及び/又は核酸分子の酵素消化の工程は、約15~30分間継続してもよい。いくつかの実施形態では、開示される方法の工程(a)~(c)を含むプロセス全体は、200分未満以内で行われる。いくつかの実施形態では、ハイブリダイゼーション時間は153分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが193~178分以内で行われ得る。いくつかの実施形態では、193又は178分以内である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は135分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が175~160分以内で行われ得る。いくつかの実施形態では、175又は160分以内である。いくつかの実施形態では、ハイブリダイゼーション時間は120分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが160~145分以内で行われ得る。いくつかの実施形態では、160又は145分以内である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は103分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が143~138分以内で行われ得る。いくつかの実施形態では、143又は138分以内である。いくつかの実施形態では、開示される方法は、少なくとも1つのMIP、具体的には、複数の異なる標的領域に対応するか、それを標的とするか、又はそれに特異的である複数のMIPを使用してもよい。
【0240】
なおいくつかの更なる実施形態では、開示される方法は、工程(d)において得られた複数の合成された配列をシーケンシングすることと、目的のバリアントを特定することとを更に含む。
【0241】
更に、いくつかの実施形態では、開示される方法は、特定されたバリアント又はそのサブグループに対して、その感度、特異度、及び精度を計算するために、機械学習アルゴリズムを適用することを更に含んでもよい。
【0242】
いくつかの実施形態では、バリアントのサブグループは、閾値未満のVAFを有するバリアントを含む。
【0243】
開示される方法によって使用される少なくとも1つのMIPは、二本鎖プローブであってもよいことに留意されたい。しかしながら、一本鎖MIPも、開示される方法において適用可能であり得ることが理解される。
【0244】
本開示の更なる態様は、少なくとも1つのGCリッチ領域を含む少なくとも1つの標的核酸配列において分子反転プローブに基づく標的化されたシーケンシングを行うための方法に関し、本方法は以下の工程を含む。
【0245】
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。
【0246】
次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションすることで、重合及び/又はライゲーション反応混合物中の環化生成物が得られることを理解されたい。
【0247】
開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0248】
いくつかの実施形態では、分子反転プローブに基づく標的化されたシーケンシングの方法は、本開示によって定義される開示されたGCリッチ領域検出法において行われる。
【0249】
より具体的には、いくつかの実施形態では、ハイブリダイゼーション時間は3時間半未満である。
【0250】
なおいくつかの更なる実施形態では、ハイブリダイゼーション時間は1~3時間である。
【0251】
更に、いくつかの実施形態では、ハイブリダイゼーション時間は1~2時間半である。更に、いくつかの実施形態では、工程(b)において得られる反応混合物中に存在し得る全ての直鎖状MIP及び/又は核酸分子の酵素消化の工程は、約15~30分間継続してもよい。いくつかの実施形態では、開示される方法の工程(a)~(c)を含むプロセス全体は、200分未満以内で行われる。いくつかの実施形態では、ハイブリダイゼーション時間は153分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが193~178分以内で行われ得る。いくつかの実施形態では、193又は178分以内である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は135分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が175~160分以内で行われ得る。いくつかの実施形態では、175又は160分以内である。いくつかの実施形態では、ハイブリダイゼーション時間は120分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが160~145分以内で行われ得る。いくつかの実施形態では、160又は145分以内である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は103分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が143~138分以内で行われ得る。いくつかの実施形態では、143又は138分以内である。いくつかの実施形態では、開示される方法は、少なくとも1つのMIP、具体的には、複数の異なる標的領域に対応するか、それを標的とするか、又はそれに特異的である複数のMIPを使用してもよい。
【0252】
なおいくつかの更なる実施形態では、開示される方法は、工程(d)において得られた複数の合成された配列をシーケンシングすることと、目的のバリアントを特定することとを更に含む。
【0253】
更に、いくつかの実施形態では、開示される方法は、特定されたバリアント又はそのサブグループに対して、その感度、特異度、及び精度を計算するために、機械学習アルゴリズムを適用することを更に含んでもよい。
【0254】
いくつかの実施形態では、バリアントのサブグループは、閾値未満のVAFを有するバリアントを含む。
【0255】
開示される方法によって使用される少なくとも1つのMIPは、二本鎖プローブであってもよいことに留意されたい。しかしながら、一本鎖MIPも、開示される方法において適用可能であり得ることが理解される。
【0256】
本開示によって提供される更なる態様は、均一性、オンターゲットリード、及びGCリッチ領域カバレッジのうちの少なくとも1つにおいて分子反転プローブに基づく標的化されたシーケンシングの性能を改善するための方法に関し、これは、(a)少なくとも1つのMIPの標的核酸配列とのハイブリダイゼーション時間を1~3時間半にすること、(b)重合反応を1~20分にすること、及び(c)酵素消化を10~45分にすること、のうちの少なくとも1つのインキュベーション時間を短縮することによって行われる。
【0257】
いくつかの実施形態では、本開示によって定義される開示される改善方法によって改善される分子反転プローブに基づく標的化されたシーケンシングの方法。
【0258】
より具体的には、そのような改善された方法は、以下の工程を含む。
1つの工程(a)は、少なくとも1つの分子反転プローブ(MIP)を少なくとも1つの標的核酸配列と接触させ、MIPを標的配列と1~3時間半のハイブリダイゼーション時間にわたってインキュベートすることを伴う。いくつかの実施形態では、本方法において提供されるMIPは、(i)標的核酸配列中の第1の標的領域に相補的な第1の配列を含む第1の領域と、(ii)標的核酸配列中の第2の標的領域に相補的な第2の配列を含む第2の領域とを含み、それにより、標的核酸配列の第1の標的領域及び第2の標的領域にハイブリダイズしたMIPを得る。
【0259】
次の工程(b)は、工程(a)で得られたハイブリダイズしたMIPを、反応混合物中での1~20分間の重合反応に供し、それにより、少なくとも1つのMIPの第1の領域と第2の領域との間にネストした標的核酸配列に対応する配列を合成することを伴う。合成された配列を更にライゲーションすることで、反応混合物中の環化生成物が得られることを理解されたい。
【0260】
開示される方法は、そのいくつかの実施形態では、少なくとも1つの追加の工程、具体的には、工程(c)及び(d)のうちの少なくとも一方を更に含んでもよい。このため、いくつかの任意選択の実施形態では、本方法は、酵素消化の工程を含んでもよい。より具体的には、次の工程(c)は、工程(b)で得られた反応混合物を10~45分間酵素消化に供し、それにより反応混合物中に存在するいずれの直鎖状MIP又は直鎖状核酸分子も消化させることを伴う。なおいくつかの更なる実施形態では、開示される方法は、増幅工程(d)を更に含んでもよい。このため、いくつかの実施形態では、次の工程(d)は、環化生成物の合成配列を増幅することを伴う。
【0261】
いくつかの実施形態では、ハイブリダイゼーション時間は3時間半未満である。
【0262】
なおいくつかの更なる実施形態では、ハイブリダイゼーション時間は1~3時間である。
【0263】
更に、いくつかの実施形態では、ハイブリダイゼーション時間は1~2時間半である。更に、いくつかの実施形態では、工程(b)において得られる反応混合物中に存在し得る全ての直鎖状MIP及び/又は核酸分子の酵素消化の工程は、約15~30分間継続してもよい。いくつかの実施形態では、開示される方法の工程(a)~(c)を含むプロセス全体は、200分未満以内で行われる。いくつかの実施形態では、ハイブリダイゼーション時間は153分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが193~178分以内で行われ得る。いくつかの実施形態では、193又は178分以内である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は135分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が175~160分以内で行われ得る。いくつかの実施形態では、175又は160分以内である。いくつかの実施形態では、ハイブリダイゼーション時間は120分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つの工程全てが160~145分以内で行われ得る。いくつかの実施形態では、160又は145分以内である。更に、いくつかの実施形態では、ハイブリダイゼーション時間は103分であり、重合時間は10分であり、消化時間は30分又は15分であり、したがって、3つ全ての工程が143~138分以内で行われ得る。いくつかの実施形態では、143又は138分以内である。いくつかの実施形態では、開示される方法は、少なくとも1つのMIP、具体的には、複数の異なる標的領域に対応するか、それを標的とするか、又はそれに特異的である複数のMIPを使用してもよい。
【0264】
なおいくつかの更なる実施形態では、開示される方法は、工程(d)において得られた複数の合成された配列をシーケンシングすることと、目的のバリアントを特定することとを更に含む。
【0265】
更に、いくつかの実施形態では、開示される方法は、ライブラリー調製において天然に生じる酵素的及び化学的バイアスを補正するために、特定されたバリアント又はそのサブグループに機械学習アルゴリズムを適用することを更に含んでもよい。当該アルゴリズムは、VAFをより正確に計算し、その感度、特異度、及び精度を増加させる。
【0266】
いくつかの実施形態では、バリアントのサブグループは、閾値未満のVAFを有するバリアントを含む。
【0267】
開示される方法によって使用される少なくとも1つのMIPは、二本鎖プローブであってもよいことに留意されたい。しかしながら、一本鎖MIPも、開示される方法において適用可能であり得ることが理解される。
【0268】
そのいくつかの態様では、本開示は、本開示の分子反転プローブに基づく標的化されたシーケンシングを行うために適合されたキットを更に提供する。いくつかの特定の実施形態では、本キットは、ハイブリダイゼーション緩衝液、例えば、アンプリガーゼ反応緩衝液を含むハイブリダイゼーション混合物を含んでもよい。なおいくつかの更なる実施形態では、重合反応緩衝液は、Q5 High GC Enhancer、ベータニコチンアミドアデニンジヌクレオチドNAD+)、dNTP、ベタイン、及び適切なDNAポリメラーゼ、具体的には、Q5高忠実度DNAポリメラーゼのうちの少なくとも1つを含んでもよい。
【0269】
本明細書で定義され、使用される全ての定義は、辞書の定義、参照により組み込まれる文献中の定義、及び/又は定義された用語の通常の意味を支配すると理解される。
【0270】
本明細書で使用される場合、「約」という用語は、言及された値よりも最大1%、より具体的には5%、より具体的には10%、より具体的には15%、場合によっては最大20%高く又は低く逸脱し得る値を示し、逸脱範囲は整数値を含み、適用可能な場合、非整数値も同様に連続範囲を構成する。本明細書で使用される場合、「約」という用語は、±10%を指す。
【0271】
本明細書及び特許請求の範囲において使用される不定冠詞「a」及び「an」は、そうでないことが明確に示されない限り、「少なくとも1つ」を意味すると理解されるべきである。本明細書及び添付の特許請求の範囲において使用される場合、単数形「a」、「an」及び「the」は、文脈によってそうでない旨が明示されない限り、複数の指示物を含むことを留意しなければならない。
【0272】
本明細書及び特許請求の範囲において使用される「及び/又は」という句は、そのように結合された要素、すなわち、ある場合には接続的に存在し、他の場合には離接的に存在する要素の「いずれか又は両方」を意味すると理解されるべきである。「及び/又は」で列挙された複数の要素は、同じように、すなわち、そのように結合された要素の「1つ以上」と解釈されるべきである。「及び/又は」節によって具体的に特定された要素以外の他の要素が、具体的に特定されたそれらの要素に関連するか関連しないかにかかわらず、任意選択的に存在し得る。したがって、非限定的な例として、「A及び/又はB」への言及は、「含む(comprising)」などのオープンエンド言語と併せて使用される場合、一実施形態では、Aのみ(任意選択的にB以外の要素を含む)、別の実施形態では、Bのみ(任意選択的にA以外の要素を含む)、更に別の実施形態では、A及びBの両方(任意選択的に他の要素を含む)などを指すことができる。など。
【0273】
本明細書及び特許請求の範囲において使用される場合、「又は」は、上で定義された「及び/又は」と同じ意味を有すると理解されるべきである。例えば、リスト内の項目を分離する場合、「又は」又は「及び/又は」は、包括的である、すなわち、複数の要素又は要素のリストのうちの少なくとも1つを含むが、2つ以上も含み、任意選択的に、追加の列挙されていない項目を含むと解釈されるものとする。「~のうちの1つのみ」若しくは「~のうちの正確に1つ」、又は特許請求の範囲において使用される場合、「~からなる」などの、それとは反対に明確に示される用語のみが、複数の要素又は要素のリストのうちの正確に1つの要素を含むことを指す。概して、本明細書で使用される「又は」という用語は、「いずれか」、「のうちの1つ」、「のうちの1つのみ」、又は「本質的に~からなる」は、排他性の用語が先行する場合、排他的な選択肢(すなわち、「一方又は他方であるが、両方ではない」)を示すものとしてのみ解釈され、特許請求の範囲で使用される場合、特許法の分野で使用される通常の意味を有するものとする。
【0274】
本明細書及び特許請求の範囲で使用される場合、1つ以上の要素のリストに関して「少なくとも1つ」という句は、要素のリスト内の要素の任意の1つ以上から選択される少なくとも1つの要素を意味するが、必ずしも要素のリスト内に具体的に列挙されたありとあらゆる要素のうちの少なくとも1つを含むとは限らず、要素のリスト内の要素の任意の組み合わせを除外するとは限らないことを理解されたい。この定義はまた、「少なくとも1つの」という句が言及する要素のリスト内で具体的に特定された要素以外の要素が、具体的に特定されたそれらの要素に関連するか関連しないかにかかわらず、任意選択的に存在し得ることを可能にする。したがって、非限定的例として、「A及びBのうちの少なくとも1つ」(又は同等に、「A又はBのうちの少なくとも1つ」、又は同等に、「A及び/又はBのうちの少なくとも1つ」)は、一実施形態では、少なくとも1つ、任意選択的に、2つ以上のAを含み、Bが存在しない(任意選択的に、B以外の要素を含む)場合、別の実施形態では、少なくとも1つの、任意選択的に2つ以上のBを含み、Aは存在しない(任意選択的にA以外の要素を含む)場合、更に別の実施形態では、少なくとも1つの、任意選択的に2つ以上を含むA、及び少なくとも1つの、任意選択的に2つ以上を含むB(及び任意選択的に他の要素を含む)場合などを指すことができる。など。
【0275】
また、そうではないと明確に示されない限り、2つ以上の工程又は行為を含む、本明細書で特許請求される任意の方法では、方法の工程又は行為の順序は、必ずしも、方法の工程又は行為が列挙される順序に限定されないことを理解されたい。
【0276】
本明細書及び以下の実施例及び特許請求の範囲を通して、「含む(comprising)」、「含む(including)」、「有する(carrying)」、「有する(having)」、「含有する(containing)」、「含む(involving)」、「保持する(holding)」、「構成される(composed of)」などの全ての移行句は、オープンエンドであり、すなわち、含むがこれらに限定されないことを意味すると理解されるべきである。具体的には、これは、述べられた整数若しくは工程又は整数若しくは工程の群の包含を意味するが、任意の他の整数若しくは工程又は整数若しくは工程の群の排除を意味しないことが理解される。United States Patent Office Manual of Patent Examining Proceduresに記載されているように、「からなる(consisting of)」及び「から本質的になる(consisting essentially of)」という移行句のみが、それぞれクローズド又はセミクローズドの移行句であるものとする。より具体的には、「含む(comprises)」、「含む(comprising)」、「含む(includes)」、「含む(including)」、「有する(having)」という用語、及びそれらの活用形は、「含むが限定されない(including but not limited to)」ことを意味する。「からなる(consisting of)」という用語は、「含み、限定される(including and limited to)」ことを意味する。「から本質的になる(consisting essentially of)」という用語は、組成物、方法又は構造が、追加の成分、工程及び/又は部分を含み得るが、追加の成分、工程及び/又は部分が、特許請求される組成物、方法又は構造の基本的かつ新規な特徴を実質的に変更しない場合のみであることを意味する。
【0277】
本発明の様々な実施形態は、範囲形式で提示される場合があることに留意されたい。範囲形式での記載は、単に便宜及び簡潔さのためのものであり、本発明の範囲に対する柔軟性のない限定として解釈されるべきではないことを理解されたい。したがって、範囲の記載は、具体的に開示された全ての可能な部分範囲並びにその範囲内の個々の数値を有すると考えられるべきである。例えば、1~6などの範囲の記載は、1~3、1~4、1~5、2~4、2~6、3~6などの部分範囲、並びにその範囲内の個々の数、例えば、1、2、3、4、5、及び6を具体的に開示しているとみなされるべきである。このことは、範囲の広さにかかわらず、適用される。数値範囲が本明細書に示されるときはいつでも、示された範囲内の任意の引用された数字(分数又は整数)を含むことが意味される。第1の示された数と第2の示された数「の間の範囲(ranging/ranges between)」及び第1の示された数「から」第2の示された数「までの範囲(ranging/ranges from)」という句は、本明細書では交換可能に使用され、第1及び第2の示された数並びにその間の全ての分数及び整数を含むことを意味する。
【0278】
本明細書中で使用される場合、「方法」という用語とは、所定のタスクを達成するための様式、手段、技術及び手順(化学的、薬理学的、生物学的、生化学的及び医学的分野の実施者に知られているか、又は知られている様式、手段、技術及び手順から容易に開発されるかのいずれかの様式、手段、技術及び手順が挙げられるが、これらに限定されない)を指す。
【0279】
明確にするために別個の実施形態の文脈で説明される本発明の特定の特徴は、単一の実施形態において組み合わせて提供されてもよいことが理解される。逆に、簡潔にするために単一の実施形態の文脈で記載されている本発明の様々な特徴はまた、別個に、又は任意の好適な下位組み合わせで、又は本発明の任意の他の記載された実施形態において好適であるように提供されてもよい。様々な実施形態の文脈において説明される特定の特徴は、実施形態がそれらの要素なしで動作不能でない限り、それらの実施形態の本質的な特徴とみなされるべきではない。
【0280】
上記で本明細書に描写され、以下の特許請求の範囲の項で特許請求される本発明の様々な実施形態及び態様は、以下の実施例において実験的裏付けがある。
【0281】
開示及び記載されているが、本発明は、本明細書に開示されている特定の例、方法工程及び組成物に限定されず、そのような方法工程及び組成物は幾分変化し得ることが理解されるべきである。本発明の範囲は、添付の特許請求の範囲及びその均等物によってのみ限定されるため、本明細書で使用される用語は、特定の実施形態を説明する目的でのみ使用され、限定することを意図するものではないことも理解されたい。
【0282】
以下の実施例は、本発明の態様を実施する際に本発明者らによって使用される技術の代表例である。これらの技術は本発明の実施のための好ましい実施形態の例示であるが、当業者は、本開示を考慮して、本発明の趣旨及び意図される範囲から逸脱することなく、多くの改変がなされ得ることを認識することが理解されるべきである。
【実施例】
【0283】
更に詳述することなく、当業者は、前述の説明を用いて、本発明を最大限に利用することができると考えられる。したがって、以下の好ましい具体的なの実施形態は、単なる例示として解釈されるべきであり、特許請求の範囲に記載された本発明を何ら限定するものではない。
【0284】
実験手順
生物資源:DNA試料は、臨床記録において知られているARCHを定義する変異を有しない健康とみなされるドナーから得た。反応当たり、50~500ng/ulの総DNAを使用した。IP標的化シーケンシングプローブ設計:分子反転プローブ(MIP)捕捉プローブを、ARCH関連の標的を捕捉するためのMIPgen[2](
図5)(Shlush L.I.Blood.2018;131:496-504、Tuval A.,Shlush L.I..Haematologica.2019;104:872-880)又は遺伝子型決定パネル(
図2)を使用して設計した。MIPは、一本鎖MIP([3]のように調製)又はオリゴミックス(LCsciences、Shen et al.,Genome Med.,5:50,2013のように調製)のいずれかであった。
【0285】
多重MIP捕捉プロトコル:1μlのDNA鋳型を、1×アンプリガーゼ緩衝液(Epicentre)中のMIPプール(プローブ当たり0.05pMの最終濃度)と一緒にハイブリダイゼーションミックスに加えた。混合物を、サーマルサイクラー中、98℃で3分間、続いて85℃で30分間、60℃で60分間、及び56℃で1回又は2回の一晩のインキュベーション期間、インキュベートした。生成物を、dNTP(15pM)、ベタイン(375mM)、NAD+(1mM)、追加のアンプリガーゼ緩衝液(0.5×)、アンプリガーゼ(合計1.25U)、及びPhusion HF(0.16U)と混合した。混合物を、56℃で60分間、続いて72℃で20分間インキュベートした。エキソヌクレアーゼI(4U)及びエキソヌクレアーゼIII(25U)を加えることで、直鎖状プローブの酵素消化を行った。混合物を、37℃で2時間、続いて80℃で20分間インキュベートした。最終生成物を、iProof HF Master Mix(Biorad)を使用して増幅した。試料をプールし、濃縮し、サイズ選択し(190~370bp)、カスタムプライマーを使用してシーケンシングした。合計で、4417個の健康な個体のDNA試料を、上記のMIPプロトコルを使用して、真の技術的複製として、各2回処理し、シーケンシングした。
【0286】
改善されたMIP(iMIP)プロトコル:1μlのDNA鋳型を、0.85×アンプリガーゼ緩衝液中のMIPプール(プローブ当たり0.04pMの最終濃度)と一緒にハイブリダイゼーションミックスに加えた。混合物を、サーマルサイクラー中、98℃で3分間、続いて85℃で30分間、60℃で60分間、及び56℃で60分間(合計153分間)、インキュベートした。生成物を、dNTP(14pM)、ベタイン(375mM)、NAD+(1mM)、追加のアンプリガーゼ緩衝液(0.5×)、アンプリガーゼ(合計1.25U)、及びQ5高忠実度DNAポリメラーゼ(0.4U)と混合した。混合物を、56℃で5分間、続いて72℃で5分間インキュベートした。エキソヌクレアーゼI(8U)及びエキソヌクレアーゼIII(50U)を加えることで、直鎖状プローブの酵素消化を行った。混合物を、37℃で10分間インキュベートした後、80℃で20分間エキソヌクレアーゼの不活性化を続けた。最終生成物を、NEBNext Ultra II Q5 Master Mix(New England Biolabs)を使用して増幅した。試料をプールし、0.75×体積濃度でビーズを使用して濃縮し、上述のようにシーケンシングした。
【0287】
ターンアラウンドタイムを短縮するために、以下の2つの代替的なより短いiMIPハイブリダイゼーションプログラムを使用した。
a)混合物を、サーマルサイクラー中、98℃で3分間、続いて85℃で20分間、61℃で40分間、及び56℃で40分間(合計103分間)、インキュベートした。
b)混合物を、サーマルサイクラー中、98℃で3分間、続いて98℃~56℃の間で-0.1℃/秒のランプ温度で温度を低下させて56℃で120分間(合計135分間)、インキュベートした。
【0288】
更に、エキソヌクレアーゼを、80℃、90℃、又は95℃で5分間不活性化してもよい。
【0289】
MIPプロトコルにおいて検出された疑わしいバリアントについてのアンプリコンシーケンシング:選択されたMIPプローブをアンプリコンプライマーとしてオーダーして、2段階アンプリコンシーケンシングを使用して標的増幅を可能にした。全ての可能性のあるバリアントを収集した後、増幅MIPを、それらが捕捉するコホート中の変異の数によってソートした(最も多いものが最初)。次に、MIPを対応するアンプリコンに変換した。この目的で、ライゲーションアームを「逆相補体」によって変換した。5’テール付加及びインデックスプライマーは、以前に記載されているとおりであった(Biezuner T.,et al.,Genome Res.2016;26:1588-1599)。全ての選択されたアンプリコンプライマーを、実験中の全てのDNA試料に適用し、いずれのサンプリングしたゲノム領域においても変異が予測されなかったシーケンシングデータの大部分を生成した。これにより、位置ごとの真/偽陽性の統計的検証が更に可能になった。選択されたプライマーを、プライマー当たり2.5uMの濃度で6プライマー対以下/混合物のプール中で混合した。1回目のPCR反応を、NEBNext Ultra II Q5 Master Mix、1ulのDNA鋳型、及びプライマーミックス(0.5uM)を混合することによって行った。PCRプログラム:30秒間の98℃の活性化、続いて、98℃での縮重、60℃でのアニーリング、及び65℃での伸長の5工程、次に98℃での縮重、65℃でのアニーリング及び伸長の25工程。最終伸長は65℃で5分間であった。反応物を1:1000に希釈し、2回目のPCR(バーコーディングPCR)は、2工程を25サイクルから12サイクルに減らしたことを除いて、1回目のPCRと同じ組成及びプロトコルであった。反応物を等体積でプールし、0.7×体積濃度のAMPure XPビーズによって精製し、Blue Pippinを使用してサイズ選択し(265~400bp)、Novaseq6000 2×151bp対ペアエンドランでシーケンシングした。
【0290】
データ前処理及びバリアントコーリング:ペアエンド2×151bpシーケンシングデータをFASTQフォーマットに変換した。BBmerge v38.62を初期設定パラメータで使用してリードをマージした後、Cutadapt v2.10を使用してライゲーション及び伸長アームをトリミングした。固有分子識別子(UMI)をトリミングし、各リードヘッダに割り当てた。処理されたリードを、BWA-MEM(Li H.Aligning sequence reads,clone sequences and assembly contigs with BWA-MEM.2013;arXiv doi:26 May 2013,プレプリント:未査読)を使用して、広域HG19から抽出されたMIP ARCHパネル配列±150塩基で構成されるカスタム参照ゲノムに整列させた[https://gatk.broadinstitute.org/hc/en-us/articles/360035890711-GRCh37-hg19-b37-humanG1Kv37-Human-Reference-Discrepancies#b37]。整列させたファイルをソートし、BAMに変換し(SAMTools V1.9(Li H.et al.,Bioinformatics.2009;25:2078-2079)、続いてAddOrReplaceReadGroups(Picard tools)、及びその後IndelRealigner(GATK v.3.7,McKenna A.,et al.,Genome Res.2010;20:1297-1303.)を使用してインデル再整列を行った。バリアントコーリングは、単一ヌクレオチドバリアント(SNV)にはmpileupを、インデルにはVarscan2 v2.3.9(Koboldt D.C.,et al.,Genome Res.2012;22:568-576)及びPlatypus v0.8.1(Rimmer A.,et al.,Nat.Genet.2014;46:912-918)を使用して行った。バリアントを、ANNOVAR(Wang K.,et al.,Nucleic Acids Res.2010;38:e164)を使用して注釈を付けた。
【0291】
MIP及びアンプリコンについてのSNVの統計分析:参照コール及び全ての位置の全ての可能なバリアントについての深さを、mpileupファイルから検索した。深さ>100の位置のみを含めた。各位置でのバックグラウンドエラー率を推定するために、最初に、全試料(DEPTH_SUM)及び代替サポートリード(ALT_READS_SUM)にわたって総リード深さを計算した。次に、試料中の代替リードの数(n)及びその位置における試料についての総深さ(N)を分析し、続いて、m=ALT_READS_SUM-n及びM=DEPTH_SUM-Nの計算を行った。MIPについては、これを各技術的複製について別個に行った。特定のVAFがバックグラウンドエラー率と有意に異なるかどうかを試験するために、ポアソン分布を使用してバリアントの分布を概算近似し、次に、各バリアント推定(stats R package)に対してポアソン直接確率検定を使用し、p値ごとにBenjamini Hochberg(BH)検定を用いて多重仮説検定について補正して、BHスコアを得た。
【0292】
予想される複製数及び複製率の計算:MIPパネル(N=4417)を用いてシーケンシングされた多数の試料からの情報、及びそれらが全て技術的複製を有していたという事実を利用するために、複製の再現性を扱う別の層のデータを追加した。したがって、技術的複製のmplieupファイルをマージして、両方の複製において深度>100を有するコンセンサス位置を定義した。各バリアントを、技術的複製のうちの1つで特定された場合にはシングルトンと定義し、両方で見出された場合には複製と定義した。次に、全ての試料IDのmplieupファイルをマージし、データセット全体におけるシングルトン(single_n)及び複製(dup_n)の数を計算した。single_cutoff及びdup_n_cutoffを定義するために、VAF≧0.006のバリアントに対してのみ同じ計数を行った。各バリアントについての予想される複製数を計算した。
【0293】
【0294】
複製率(dup_ratio)についても同様に計算した。
【数2】
【0295】
アンプリコンシーケンシング検証:MIPノイズモデルを理解するために、MIPシーケンシングをアンプリコンシーケンシングと比較した。アンプリコンシーケンシングのための標的を、ポアソン直接確率検定によって特定したVAF真バリアントに基づいて選択した。ARCHにおいて役割を果たすことが知られているバリアントに焦点を当て、ここでは、BH1及びBH2<0.002のバリアントがアンプリコンシーケンシングによる検証のために選択した。アンプリコンシーケンシングアプローチのノイズモデルを構築するために、この実験を、全ての関与するプライマーを用いて実験における全ての試料を標的化することによって拡張した。この検証を2回反復して行った。第1の反復は、84個のDNA鋳型、及び7930bpを網羅する48個のアンプリコンで構成された。第2の反復は、125個のDNA鋳型、及び7114bpを網羅する48個のアンプリコンで構成された。
【0296】
バックグラウンドエラー率の計算:バックグラウンドエラー率の計算のために、mplieupファイルを、VAF<0.05深さ>100のバリアントについてフィルタリングした。バックグラウンドエラーは、パネル全体にわたって同じ位置にある全てのシーケンシングされた塩基にわたる代替リードの数として計算した。エラー率を、MIPアンプリコン及びiMIPについて評価した。
【0297】
MIPシーケンシングにおける低VAF検出の精密化:MIPのバックグラウンドノイズはアンプリコンよりも有意に高かったので、「アンプリコンコーリング」を真の陽性として使用した。ポアソン直接確率検定(p=0、深度>100VAF>0.005)に基づいて、アンプリコンシーケンシングにおいて真のバリアントを定義すると、N=42個の真のバリアントが特定された。次に、MIPデータ中のSNVを、両方の複製についてポアソン直接確立検定p値を計算することによってコールした。データを変換して、機械学習予測アルゴリズムに適合させた。次に、様々な機械学習アルゴリズムを適用して、SVM予測の感度、特異度、及び精度を計算するために、SVM及びvanilladot Kernel(キャレットライブラリーR 4.0.4)を継続することを決定した(
図5)。
【0298】
MIP及びiMIP性能の比較:MIPプロトコルとiMIPプロトコルとを比較することができるように、元のFASTQファイルにおいて類似の深さ分布を有する試料を、Kolomogorov Smirnovのp値に基づいて選択した(それぞれ、
図6A及び
図6B)。MIP N=535試料及びiMIP N=905試料。試料全体で十分に網羅されたMIPの数を評価するために、少なくとも1つの試料において100を超えるリードを受けた標的の数を比較し、これらのMIPを作業MIPと定義した。均一性を、下記式により計算した。
【数3】
オンターゲット率は下記式によって測定した。
【数4】
【0299】
GCリッチ標的の定義:MIP標的配列を検索し、UCSCテーブルブラウザからのgc5Baseテーブルを使用してGC含量を評価した。GCリッチ領域は、GC含量>55%の領域として定義した。全ての作業MIPから、GCリッチMIPを特定し、遺伝子によってグループ分けした。
【0300】
遺伝子型決定パネル:iMIPが多数のプローブを捕捉する能力を試験するために、MIPgenを使用して、SNPを捕捉する8349個のプローブの大型パネルを設計した。そのようなパネルは、試料のプールからヒト試料を逆多重化するために使用することができる。本開示のMIPの小さいサブセットが大きい割合のリードを捕捉したこと、及び多くのMIPが最適に機能しなかったことが発見されたので、4409のセットを元のパネルから選択し、10e6リードの最小深さで104個の試料を用いてシーケンシングした。
【0301】
実施例1
MIPノイズモデルの改善
以下に詳述するように、本明細書に開示されるMIPに基づく標的化されたシーケンシング法は、改善された性能を呈する。MIPプロトコルを使用して、4417個の試料を、ARCHパネルを使用して二連でシーケンシングした。このパネルは、70134個のゲノム塩基を標的とする707個のMIPプローブで構成され、そのうちの616個のプローブを分析に使用した(「作業MIP」)。
【0302】
MIP標的化シーケンシング後の低VAFコーリングのために使用される現在のノイズモデルは、概して、ポアソン直接確率検定及び多重仮説のための補正に基づく。更に、エラー補正のための以前の方法は、ノイズを最小化するためにUMI重複排除に適用された。しかしながら、本開示におけるリードファミリーの大部分は、ファミリー/群当たり5リード未満のサイズ(コンセンサス配列の標準的なカットオフである)を有するので、UMI折り込みを使用することができなかった。ファミリー当たり5を超えるリードを有するファミリーの数が少ない理由は、開示された研究において各試料に割り当てられたリードの総数が少ないためであった。目的は、費用効果の良い様式で低VAFバリアントを検出することであったので、UMIの使用に必要とされるよりも意図的に低いカバレッジが適用されている。
【0303】
UMIを必ずしも考慮することなくMIP標的化シーケンシングプロトコル下でエラーを補正するための新しい方法を開発するために、アンプリコン及びMIPシーケンシングのバックグラウンドエラー率を比較した。アンプリコンシーケンシングにより、全ての可能な単一ヌクレオチドバリアント(SNV)改変におけるエラー率が有意に低減した(
図1A)。C>Aにおける二峰性ノイズ分布は、バッチ効果の可能性を排除する全てのMIP実験においてMIPプロトコルで認められた。これは、ライブラリー調製プロセスの間に導入されたDNA損傷によって説明され得る。MIPプロトコルによって生成される高いバックグラウンドエラー率は、MIPのための最新の統計的ノイズ低減ツールが相当な偽陽性率を生む可能性があることを示唆する。更に、アンプリコンプロトコルのより低いバックグラウンドエラー率は、アンプリコンシーケンシングによって検証されたので真である確率がより高いバリアントに対してモデルを訓練することによって、統計的ノイズ検出が改善され得ることを示唆する。したがって、アンプリコンシーケンシングデータに対して厳密な統計的カットオフを使用して真のバリアントを定義し、42個の真のバリアントを特定した。
【0304】
現在最新の統計的ノイズ低減アルゴリズムの性能を評価するために、これをMIPデータに対して適用し、アンプリコンシーケンシングから抽出された真のバリアントと比較した。この計算の結果は、下記式:
【数5】
で表される特異度は99.74%であり、下記式:
【数6】
で表される感度は80.95%であり、下記式:
【数7】
で表される精度は10%であった(
図1B)。開示される方法の精度を改善するために、過去に使用されたパラメータ(複製のVAF、深さ及びポアソン直接確率検定p値)のみを考慮に入れた機械学習アルゴリズムを使用した。このアプローチにより精度は改善されたが(50%)、感度は有意に低かった(16.67%、p=0.004)。次に、シーケンシングされた試料の数、複製比、及び大きいデータセットから抽出された他のパラメータに関する情報を追加することが、予測モデルを改善し得るという仮説を試験した。SVMモデルを使用したところ、以下の結果が得られた:99.98%の特異度、81.81%の感度、及び56.25%の有意に高い精度(p=1.4E-5、
図1B)。まとめると、
図1Bに示されるように、本明細書で開発されたプロトコルは、偽陽性バリアントの数を有意に低減させた。
【0305】
実施例2
性能を改善し、ノイズを低減させるためのMIPプロトコルの生化学の精密化
MIPプロトコルの偽陽性率を低減させることに加えて、MIPプロトコル工程を再較正し、初期プロトコルのタイミングを4時間未満(最後から最後まで)に低減させた。上述のMIP ARCHパネル及び改善されたMIPプロトコル(iMIP)を使用して、新しい1569個の試料を分析した。結果により、T>Cを除く全ての可能な改変について、以前のMIPプロトコルと比べてiMIPプロトコルにおいて有意に低いバックグラウンドエラー率が示された(
図2A)。更に、iMIPプロトコルは、T>G及びC>Aトランスバージョンにおけるアンプリコンシーケンシングと比較して有意に低いバックグラウンドエラー率を有したが、他の改変においては、アンプリコンシーケンシングが依然として優れていた(
図2A)。注目すべきことに、iMIPプロトコルは、小さいファミリーがより少なく(<5)、大きいファミリーがより多かった(>5、
図7A)。
【0306】
パネル性能に対する本明細書に開示されるiMIPプロトコルの効果を研究するために、機能するMIPの中央値数をMIPプロトコルとiMIPプロトコルとの両方について比較すると、iMIPプロトコルにおいて機能するMIPの中央値の有意な増加が示された(それぞれ、609対558、p<0.00001;
図2B)。iMIPプロトコルは、パネル内均一性(
図2C)及びオンターゲット率(
図2D)の有意な改善を更に示した。注目すべきことに、iMIPプロトコルは、小さいファミリーがより少なく(<5)、大きいファミリーがより多かった(>5)(
図7B)。
【0307】
次の目的は、特にGCリッチ領域における均一性及びオンターゲット率を改善することであり、これは、MIPプロトコルがそのような領域において機能不良であることが過去に報告されていたためである。実際に、MIPプロトコルにおいて不十分なカバレッジを提供し、iMIPプロトコルにおいてより良好なカバレッジを有したMIPの多くは、高いGCリッチ含量を呈した(
図8A)。MIPプロトコルにおいて、均一性及び平均深さは、GCリッチ領域において有意に低かった(それぞれ、
図8B及び
図8C)。更に、重要なGCリッチ領域、例えば、遺伝子CEBPA及び他のものは、ほとんどカバレッジがなかった。これらの問題を解決するために、本明細書に開示されるiMIPプロトコルを創出した。実際、このプロトコルにより、遺伝子SETBP1中のMIP以外の全ての領域について、GCリッチ領域にわたって有意に高いカバレッジがもたらされた(
図3A)。全体的な均一性も、iMIPプロトコルにおいて有意に高かった(
図3B)。様々なNGS技術にわたって困難な領域であることが知られているCEBPAのGCリッチ領域において特に、iMIPプロトコルによるカバレッジが有意に改善された(
図3C)。
【0308】
実施例3
8349個の標的の大きいパネルに対するiMIPプロトコルの性能
次に、より大きいMIPパネルにおけるiMIP性能を調べるために、iMIPプロトコルを、8349個のMIPを含有する異なる遺伝子型決定パネルで試験した。結果は、最初に、FASTQにおいて100万個を超えるリードを有する試料が、平均で95%のリードを標的上に有することを示した(
図4A)。しかしながら、より小さいARCHパネルの均一性に対する後者のパネルの均一性と比較して、大きいパネルは、均一性が有意に低い結果となった(
図4B)。この低い均一性をよりよく理解するために、マッピングされたデータのMIP特性を分析したところ、有意に少ない数のMIPがマッピングされたリードの大部分を占め(
図4C)、多くのMIPも他のものほど良好に機能しなかったことが示された。これらのMIPの起源を逆追跡することによって、これらのMIPのいくつかが、それらのアームにおいてより高いコピー数を共有することが見出された(
図4D)。興味深いことに、MIPパネルをオーダーする際にコピー数フィルターは提供されなかったが、<100及び>10000という有意なMIPアームコピー数群が2つある。これらの群は著しくクラスター化されており、このことがパネルを設計するときに重要であることを示している。異なるコピー数が異なるMIPの深さ中央値の分析により、コピー数がより高いMIPにわたるカバレッジの有意な増加が示された(
図4E)。アームコピー数フィルタリングに関する推奨が明確ではないので、異なるコピー数の群にわたる均一性を分析すると、アームの少なくとも1つにおいて1のコピー数を有するMIPを選択し、他方のアームにおけるコピー数は1より大きい任意の数であってよいとすると、最良の均一性が達成されることが結論付けられた。この仮説を検証し、試験される遺伝子型決定パネルの性能を改善するために、アームの少なくとも1つにおいて1のコピー数を有するMIPのみを含有したという点で縮小した遺伝子型決定パネル。低いカバレッジを示したMIPを、縮小した遺伝子型決定パネルから除去した。次に、縮小した遺伝子型決定パネルを有する104個の試料をシーケンシングすると、80.3%の均一性中央値及び89.6%の50×カバレッジ中央値が達成された(
図4F)。このため、結果により、数千のゲノム標的を標的化するiMIPプロトコルの能力が示される。
【0309】
実施例4
代替のより短く費用効果の良いiMIPプロトコルの性能
開示されるiMIPの均一性及び/又はオンターゲット率を維持及び/又は改善しながら、コスト及び/又はターンアラウンドタイムを更に低減させるために、本発明者らは、開示されるiMIPプロトコル(「改善されたMIP(iMIP)捕捉プロトコル」で上記した)におけるある特定のパラメータを修正することに進んだ。
【0310】
このために、本発明者らは、最初に、全体のターンアラウンドタイムを低減させる試みにおいて、より短いハイブリダイゼーションプロトコルを利用することを目指した。したがって、ギャップ充填ミックス中の様々な濃度のdNTPにわたって、iMIPハイブリダイゼーションプロトコル(153分)とより短いハイブリダイゼーションプロトコル(103分)との間で均一性及びオンターゲット率の比較を行った(
図12A及び12B)。全てのdNTP濃度にわたってiMIPとより短いプロトコルとの両方について、実質的に同様の均一性の率(
図12A)及び100%>20×の標的カバレッジ(データ割愛)が得られた。より短いハイブリダイゼーションプロトコルにより、中程度のオンターゲット率の低減が得られたが(
図12B)、これは全体としてターンアラウンドタイムを改善した。iMIPプロトコルの全体のターンアラウンドタイム(153分)を低減させながらオンターゲット率を更に改善するために、段階的な温度減少(135分)を用いる別のハイブリダイゼーションプロトコルを、より短いハイブリダイゼーションプロトコル(103分)と比較した。実際、段階的な温度減少(135分)を用いるハイブリダイゼーションプロトコルは、より短いプロトコルと比べて、同様の均一性で実質的に改善されたオンターゲット率を示した(
図12C)。本発明者らはまた、均一性及び/又はオンターゲット率に影響を及ぼすことなく、ハイブリダイゼーション工程におけるアンプリガーゼ反応緩衝液をより安価なQ5反応緩衝液(酵素:Q5 High-Fidelity DNA Polymerase-NEB #B9027とともに供給される)に置き換えることによって、この段階で費用を節約することができた(データ割愛)。
【0311】
更に、本発明者らは、iMIPプロトコルにおけるエキソヌクレアーゼ不活性化インキュベーション期間を短縮することによって、全体的なターンアラウンドタイムを更に低減させることを目指した。本発明者らは、エキソヌクレアーゼの不活性化80℃で20分間の代わりに90℃又は95℃で5分間にすることにより、全体的なターンアラウンドタイムを15分更に低減させるが、平均オンターゲット率及び均一性率は依然として維持されることを見出した(
図13)。
【0312】
本発明は、特定の実施形態を参照して開示されているが、本発明の他の実施形態及び変形が、本発明の真の精神及び範囲から逸脱することなく、他の当業者によって考案され得ることは明らかである。添付の特許請求の範囲は、全てのそのような実施形態及び等価な変形を含むと解釈されることが意図される。
【0313】
特に定義しない限り、本明細書で使用される全ての技術用語及び科学用語は、本開示が属する技術分野の当業者によって一般に理解されるものと同じ意味を有する。矛盾する場合、定義を含む本特許明細書が優先する。本明細書で使用される場合、不定冠詞「1つの(a)」及び「1つの(an)」は、文脈が特に明確に示さない限り、「少なくとも1つ」又は「1つ以上」を意味する。
【国際調査報告】