(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-06-03
(45)【発行日】2024-06-11
(54)【発明の名称】核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240604BHJP
C12M 1/00 20060101ALI20240604BHJP
【FI】
C12Q1/6869 Z
C12M1/00 A
(21)【出願番号】P 2020564200
(86)(22)【出願日】2019-05-16
(86)【国際出願番号】 US2019032755
(87)【国際公開番号】W WO2019222560
(87)【国際公開日】2019-11-21
【審査請求日】2022-05-13
(32)【優先日】2018-05-16
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2019-02-27
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】518201670
【氏名又は名称】ツインストランド・バイオサイエンシズ・インコーポレイテッド
【氏名又は名称原語表記】TWINSTRAND BIOSCIENCES, INC.
(74)【代理人】
【識別番号】110001508
【氏名又は名称】弁理士法人 津国
(72)【発明者】
【氏名】ソーク,ジェシー・ジェイ
(72)【発明者】
【氏名】バレンタイン,チャールズ・クリントン・ザ・サード
(72)【発明者】
【氏名】ダナハー,パトリック
(72)【発明者】
【氏名】ロ,ファン・イン
【審査官】小田 浩代
(56)【参考文献】
【文献】国際公開第2017/100441(WO,A1)
【文献】国際公開第2013/142389(WO,A1)
【文献】国際公開第2017/139492(WO,A1)
【文献】特表2013-532494(JP,A)
【文献】Schmitt M W. et al.,Proc Natl Acad Sci USA,2012年,Vol. 109,pp. 14508-14513
【文献】Salk J J. et al.,Nat Rev Genet,2018年03月26日,Vol. 19,pp. 269-285
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00- 3/00
C12M 1/00- 3/10
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
PubMed
(57)【特許請求の範囲】
【請求項1】
混合物から核酸のドナー源を検出し、および/または定量するための方法であって、
1つ以上のドナー源からの標的二本鎖DNA分子を含む前記混合物を提供することであって、前記標的二本鎖DNA分子が、1つ以上の遺伝的多型を含む、提供することと、
前記混合物中の複数の前記標的二本鎖DNA分子の各々についてのエラー修正配列リードを生成することであって、
前記複数の標的二本鎖DNA
分子にアダプター分子をライゲーションして、複数のアダプター-DNA分子を生成すること、
前記アダプター-DNA分子の元の第1の鎖のコピーのセット、および前記アダプター-DNA分子の元の第2の鎖のコピーのセットを生成すること、
前記元の第1の鎖および第2の鎖の1つ以上のコピーを配列決定して、第1の鎖の配列および第2の鎖の配列を提供すること、ならびに
前記第1の鎖の配列と前記第2の鎖の配列とを比較して、前記第1の鎖の配列と前記第2の鎖の配列との間の1つ以上の対応関係を特定すること、を含む、エラー修正配列リードを生成することと、
前記エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の前記混合物中に存在する核酸のドナー源を特定することと、を含む、方法。
【請求項2】
混合物から核酸のドナー源を検出し、および/または定量するための方法であって、
生の配列決定データからエラー修正配列リードを生成することであって、
前記生の配列決定データが、1つ以上のドナー源からの標的二本鎖DNA分子を含む混合物から生成され、前記標的二本鎖DNA分子が、1つ以上の遺伝的多型を含
み、
そして
生の配列決定データからの第1の鎖の配列と生の配列決定データからの第2の鎖の配列とを比較すること、ここで、第1の鎖の配列リードと第2の鎖の配列リードは、同じ標的二本鎖DNA分子に由来しており、及び
第1の鎖の配列リードと第2の鎖の配列リードとの間の1つ以上の対応関係を特定すること、を含むエラー修正配列リードを生成することと、及び
エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の前記混合物中に存在する核酸のドナー源を特定することと、を含む、方法。
【請求項3】
前記ドナー源のうちの1つ以上が、既知の遺伝子型を有する、請求項1または請求項2に記載の方法。
【請求項4】
前記ドナー源のうちの1つ以上が、未知の遺伝子型を有する、請求項1または請求項2に記載の方法。
【請求項5】
前記混合物が、1つ以上の未知の個々の遺伝子型を含み、前記エラー修正配列リードを個々の遺伝子型に逆重畳することが、
参照配列中の1つ以上の遺伝子座にマッピングする個々の標的二本鎖DNA分子内に存在するマイクロハプロタイプアレルの組み合わせを特定することと、
前記1つ以上の遺伝子座内の各遺伝子座に存在する全ての可能な遺伝子型に対する全ての可能な混合比率を評価することと、
前記特定されたマイクロハプロタイプアレルの組み合わせに十分に適合する全ての可能な個々の遺伝子型のリスト、および評価された全ての可能な混合比率を決定することと、を含む、請求項1または請求項2に記載の方法。
【請求項6】
前記混合物が、1つ以上の既知の個々の遺伝子型を含み、前記エラー修正配列リードを個々の遺伝子型に逆重畳することが、
前記混合物中の個々の標的二本鎖DNA分子内に存在するマイクロハプロタイプアレルの組み合わせを特定することと、
各既知の個々の遺伝子型から供与される各アレルの総数を合計することと、
前記混合物中に存在する各既知の遺伝子型の混合比率を決定することと、を含む、請求項1または請求項2に記載の方法。
【請求項7】
1つ以上の個々の遺伝子型を、複数の既知の遺伝子型を含むデータベースと比較して、前記1つ以上のドナー源を特定することをさらに含む、請求項1~6のいずれかに記載の方法。
【請求項8】
前記混合物が、2つ以上のドナー源を含み、前記方法が、前記エラー修正配列リード内に存在する各遺伝的多型の比率または遺伝的多型の実質的に固有の組み合わせの比率を計算することによって、前記混合物中に存在する前記2つ以上のドナー源からの各ドナー源の比率を決定することをさらに含む、請求項1~7のいずれか一項に記載の方法。
【請求項9】
前記標的二本鎖DNA分子が、1つ以上の臍帯血試料から抽出された、請求項1~3および6~8のいずれか一項に記載の方法。
【請求項10】
前記標的二本鎖DNA分子が、法医学的試料から抽出された、請求項1~8のいずれか一項に記載の方法。
【請求項11】
前記標的二本鎖DNA分子が、幹細胞移植または臓器移植を有する患者から抽出された、請求項1~3および6~8のいずれか一項に記載の方法。
【請求項12】
前記標的二本鎖DNA分子が、患者から抽出され、前記混合物中に存在する前記1つ以上のドナー源を特定することが、前記患者におけるマイクロキメリズムのレベルを測定することを含む、請求項1~8のいずれか一項に記載の方法。
【請求項13】
前記標的二本鎖DNA分子が、腫瘍試料から抽出された、請求項1~8のいずれか一項に記載の方法。
【請求項14】
前記混合物中に存在する各個々の遺伝子型の相対的存在量を定量することをさらに含む、請求項1~13のいずれか一項に記載の方法。
【請求項15】
前記1つ以上の遺伝的多型が、マイクロハプロタイプを含む、請求項1~14のいずれか一項に記載の方法。
【請求項16】
前記混合物中の複数の前記標的二本鎖DNA分子の各々についてのエラー修正配列リードを生成することが、配列決定の前に1つ以上の標的ゲノム領域を選択的に富化することをさらに含む、請求項1および3~15のいずれか一項に記載の方法。
【請求項17】
前記1つ以上の標的ゲノム領域が、ゲノム中のマイクロハプロタイプ部位を含む、請求項16に記載の方法。
【請求項18】
前記混合物中の前記標的二本鎖DNA分子が、生の配列決定データを生成する前に、1つ以上の標的ゲノム領域について選択的に富化される、請求項2~15のいずれか一項に記載の方法。
【請求項19】
前記1つ以上の標的ゲノム領域が、ゲノム中のマイクロハプロタイプ部位を含む、請求項18に記載の方法。
【請求項20】
1つ以上のプロセッサによって実行されるとき、請求項2~15および18~19のいずれか一項に記載の方法を行う命令を含む、非一時的コンピュータ可読記憶媒体。
【請求項21】
各特定されたドナー源の混合比率を計算するための命令をさらに含む、請求項20に記載の非一時的コンピュータ可読記憶媒体。
【請求項22】
混合物から核酸のドナー源を検出および/または定量するための請求項2~15および18~19のいずれか一項に記載の方法を行うためのコンピュータシステムであって、前記システムが、プロセッサ、メモリ、データベース、および前記プロセッサ(複数可)のための命令を含む非一時的コンピュータ可読記憶媒体を有する少なくとも1つのコンピュータを備え、前記プロセッサ(複数可)が、請求項2~15および18~19のいずれか一項に記載の方法を含む操作を行うための前記命令を実行するように構成されている、コンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2018年5月16日出願の米国仮特許出願第62/672,573号および2019年2月27日出願の米国仮特許出願第62/811,517号の優先権および利益を主張し、これらの開示は、その全体が参照により援用される。
【背景技術】
【0002】
異なるクローンもしくは個体に由来する混合細胞集団を解析すること、または核酸混合物内の元の供給源を追跡することは、しばしば、混合物に寄与したクローンまたは個体間で異なる特定の遺伝マーカーを追跡することを必要とする。非遺伝的手段によって(すなわち、細胞表面上で発現されるタンパク質の違いなど)、細胞を異なるクローンまたは個体から区別することが可能な場合もあるが、これは必ず可能であるということではないか、またはハイスループット用途に実験上実用的ではない場合がある。遺伝的多型は、細胞またはDNA分子の起源を定義するための便利な、予測可能で統計的に一般化可能な系譜マーカーとして使用可能である。例えば、ヒトでは、ヒトゲノムのおよそ0.1%は多型である(例えば、ヒト集団内の配列において、1000ヌクレオチド塩基のうちの1個が異なる)。一般的な形態のバリエーションとしては、中でも、単一ヌクレオチド多型/単一ヌクレオチドバリアント(SNP/SNV)、マルチヌクレオチドバリエーション(MNV)、短い挿入および欠失(インデル)、ショートタンデムリピート(STR)の長さのバリエーション、ならびに染色体間または染色体内再配列、重複、欠失、タンデム重複および反転などの他のより大きなスケールの構造バリエーション、が挙げられる。
【0003】
一般に、個体が遺伝子型を決定される場合、各個体のそれぞれの同一性は、遺伝子型におけるこれらの多型の相違を解析することによって区別することができる。遺伝子型決定のためにショートリードの次世代DNA配列決定(NGS)プラットフォームを使用する場合、SNPは、異なる個体を区別するための最も豊富で便利な形態の多型のうちの1つである。所与の多型部位におけるグローバル集団バリエーションの程度は、一般的に、集団の中で2番目に最も一般的なバリアントの頻度であるマイナーアレル頻度(MAF)によって説明される(すなわち、dbSNPなどの記録されたバリエーションのデータベースから決定される)。一例として、0.5のMAFは、概して、集団中のアレルの各々は、50%の存在量があることを意味し、0.05のMAFは、概して、1つのアレルは5%の存在量があり、他方のアレルは95%の存在量があることを意味するが、より低い頻度のアレルも存在し得る(すなわち、1つのバリアントが5%で、別のバリアントが92%で、および第3のバリアントが3%)。概して、照会される多型部位が多いほど、2つ以上の個体が互いに区別され得る可能性が高い(
図1)。ゲノムの隣接部分が一般に共遺伝している(すなわち、連鎖不均衡にある)ため、ゲノムの異なる領域(すなわち、異なる染色体上)における複数の多型部位を評価することは、典型的には、異なる個体からの細胞の混合集団に対する2つ以上の個々の寄与者を効果的に区別することができる可能性を最大化するために有利である。
【0004】
異なる個体に由来する細胞の混合物が、解析され定量される1つの方法は、個々の細胞が遺伝子型決定される単一細胞分析アプローチ(
図2)による(各独立した細胞由来のDNAまたはRNAが配列決定され、各固有の遺伝子型がカウントされる)。これは、各細胞からの派生的配列リードが、同じ細胞に関連付けることができるように、個々の試験管、プレートウェル、液滴などで別個のエンティティとして各細胞を処理することによって達成することができる(しばしば、何らかの形態の単一細胞バーコード化技術、すなわち、PMID28091601、PMID2954551、PMID30087104を使用して)。このアプローチは、単一細胞または大きなDNA分子由来の多くの多型マーカーの遺伝子型が情報学的に一緒に関連付けられる限り、有利であるが、これらのアプローチは、しばしば複雑で高価であり、頻繁に無傷の細胞または他の特別な物質(material)の調製を必要とする。
【0005】
別のアプローチは、単一分子分析であり、一緒に混合および増殖した細胞は、核酸がバルク抽出され、遺伝子型が決定され、個々の多型部位の相対的存在量がカウントされる。結果は、計算的に逆重畳を行い、各個々の供給源からの既知の遺伝子型と比較することができる(
図3)。細胞内に含まれていないDNA分子の混合物は、同様に遺伝子型が決定され、逆重畳が行われ得る。このアプローチは、単一細胞遺伝子型決定よりもより単純であるが、より高い深度まで配列決定し、より多くの多型部位を評価して混合物を技術的に解析することを必要とし得る。このアプローチはまた、よりはるかに高い配列決定精度を必要とする場合があり、従来のNGS方法であれば、特に混合物が複雑さを増すと精度が制限され得る。
【発明の概要】
【0006】
本発明の技術は、一般に、核酸混合物および/または混合細胞集団を評価および解析するための方法および関連する試薬に関する。特に、本技術の一部の実施形態は、試料中の核酸混合物(例えば、多キメラ(multichimeric)混合物、2つ以上の供給源由来の核酸の混合物など)および関連する用途を評価および解析するためにデュプレックス配列決定(Duplex Sequencing)を利用することを対象とする。例えば、本技術の様々な実施形態は、個々のアレルの直接的な特定および定量を可能にするデュプレックス配列決定方法、ならびにアレルの固有の組み合わせで、混合物をその混合物の元の供給源の比率に逆重畳することを含む。本技術の様々な態様は、中でも、前臨床および臨床癌(腫瘍)評価、鑑識(特定など)、細胞療法の混合物評価(例えば、臍帯血療法)、ヒト由来試料由来の混合物評価、マイクロキメリズムの検出、細胞製造による品質管理、食品供給における混合物特定(例えば、主要作物、魚などの株の混合物)、生物工業プロセスにおける汚染評価(例えば、細胞ベースの製造)、密接に関連する株、種、品種または疑似種の混合物の逆重畳、不正輸送動物または動物製品の特定、植物または動物の専売株の汚染または誤用、胎児DNAの多妊娠逆重畳、臓器移植由来DNAの逆重畳、における多くの用途を有する。
【0007】
一部の実施形態では、本開示は、混合物から核酸のドナー源を検出および/または定量するための方法を提供し、1つ以上のドナー源から標的二本鎖DNA分子を含む混合物を提供するステップであって、標的二本鎖DNA分子は、1つ以上の遺伝的多型を含む、提供するステップと、混合物中の複数の標的二本鎖DNA分子の各々についてエラー修正配列リードを生成するステップと、を含む。特定の実施形態では、エラー修正配列リードを生成することは、複数の標的二本鎖DNA断片にアダプター分子をライゲーションして複数のアダプター-DNA分子を生成するステップと、アダプター-DNA分子の元の第1の鎖のコピーのセットおよびアダプター-DNA分子の元の第2の鎖のコピーのセットを生成するステップと、元の第1の鎖および第2の鎖の1つ以上のコピーを配列決定して、第1の鎖の配列および第2の鎖の配列を提供するステップと、第1の鎖の配列と第2の鎖の配列とを比較して、第1の鎖の配列と第2の鎖の配列との間の1つ以上の対応関係を特定するステップと、を含む。本方法は、エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の混合物中に存在する核酸のドナー源を特定することをさらに含む。
【0008】
一部の実施形態では、本開示はまた、混合物から核酸のドナー源を検出および/または定量するための方法を提供し、生の配列決定データからデュプレックス配列決定データを生成するステップであって、生の配列決定データは、1つ以上のドナー源からの標的二本鎖DNA分子を含む混合物から生成され、標的二本鎖DNA分子は、1つ以上の遺伝的多型を含む、生成するステップと、エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の混合物中に存在する核酸のドナー源を特定するステップと、を含む。
【0009】
一部の実施形態では、混合物は、1つ以上の未知の個々の遺伝子型を含み、エラー修正配列リードを個々の遺伝子型に逆重畳することは、参照配列中の1つ以上の遺伝子座にマッピングする個々の標的二本鎖DNA分子内に存在するマイクロハプロタイプアレルの組み合わせを特定するステップと、1つ以上の遺伝子座内の各遺伝子座に存在する全ての可能な遺伝子型に対する全ての可能な混合比率を評価するステップと、特定されたマイクロハプロタイプアレルの組み合わせに十分に適合する全ての可能な個々の遺伝子型のリストおよび評価された全ての可能な混合比率を決定するステップと、を含む。
【0010】
他の実施形態では、混合物は、1つ以上の既知の個々の遺伝子型を含み、エラー修正配列リードを個々の遺伝子型に逆重畳することは、混合物中の個々の標的二本鎖DNA分子内に存在するマイクロハプロタイプアレルの組み合わせを特定するステップと、各既知の個々の遺伝子型から供与される各アレルの総数を合計するステップと、混合物中に存在する各既知の遺伝子型の混合比率を決定するステップと、を含む。
【0011】
一部の実施形態では、混合物は、2つ以上のドナー源を含み、本方法は、エラー修正配列リード内に存在する各遺伝的多型の比率、または遺伝的多型の実質的に固有の組み合わせの比率を計算することによって、混合物中に存在する2つ以上のドナー源からの各ドナー源の比率を決定することを、さらに含む。一部の実施形態では、標的二本鎖DNA分子は、1つ以上の臍帯血試料から抽出された。他の実施形態では、標的二本鎖DNA分子は、法医学的試料から抽出された。さらなる実施形態では、標的二本鎖DNA分子を、幹細胞または臓器移植を有する患者から抽出した。なおさらなる実施形態では、標的二本鎖DNA分子が、患者から抽出され、混合物中に存在する1つ以上のドナー源を特定することは、患者のマイクロキメリズムのレベルを測定することを含む。さらに他の実施形態では、標的二本鎖DNA分子は、腫瘍試料から抽出された。
【0012】
一部の実施形態では、本方法は、混合物中に存在する各個々の遺伝子型の相対的存在量を定量することを、さらに含んでもよい。他の実施形態では、1つ以上の遺伝的多型は、マイクロハプロタイプを含む。混合物中の複数の標的二本鎖DNA分子の各々についてのエラー修正配列リードを生成するステップを含む実施形態では、本方法は、配列決定の前に1つ以上の標的ゲノム領域を選択的に富化することをさらに含むことができる。デュプレックス配列決定データを生成するステップを含む実施形態では、混合物中の標的二本鎖DNA分子は、生の配列決定データを生成する前に、1つ以上の標的ゲノム領域について選択的に富化されてもよい。一部のそのような実施形態では、1つ以上の標的ゲノム領域は、ゲノム中のマイクロハプロタイプ部位を含む。
【0013】
一部の実施形態では、本方法は、混合物から核酸のドナー源を検出および/または定量することを提供し、ドナー源のうちの1つ以上は、既知の遺伝子型を有する。他の実施形態では、本方法は、混合物から核酸のドナー源を検出および/または定量することを提供し、ドナー源のうちの1つ以上が、未知の遺伝子型を有する。様々な実施形態では、本方法は、1つ以上の個々の遺伝子型を、複数の既知の遺伝子型を含むデータベースと比較して、1つ以上のドナー源を特定することを含むことができる。
【0014】
一部の実施形態では、本開示は、例えば、混合物由来の核酸のドナー源を検出および/または定量するためのシステムなどのシステムを提供する。本技術の態様に従ったシステムの様々な実施形態は、配列決定データおよび遺伝子型データに関連する情報を送信するためのコンピュータネットワークであって、情報が、生の配列決定データ、デュプレックス配列決定データ、試料情報、および遺伝子型情報のうちの1つ以上を含む、コンピュータネットワークと、1つ以上のユーザ計算デバイスと関連付けられ、コンピュータネットワークと通信するクライアントコンピュータと、複数の遺伝子型プロファイルおよびユーザ結果の記録を格納するためにコンピュータネットワークに接続されたデータベースと、コンピュータネットワークと通信し、かつ、デュプレックス配列決定データを生成するためにクライアントコンピュータから生の配列決定データおよび要求を受信し、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ化し、個々の鎖からの代表的な配列を互いに比較して、デュプレックス配列決定データを生成するように構成された、デュプレックス配列決定モジュールと、コンピュータネットワークと通信し、かつ、マイクロハプロタイプアレルを特定し、ドナー源の相対的存在量を計算して遺伝子型データを生成するように構成された、デュプレックス配列決定モジュールと、を含む。一部の実施形態では、遺伝子型プロファイルは、複数の既知のドナー源からの、マイクロハプロタイプおよび/または単一ヌクレオチド多型(SNP)情報を含む。
【0015】
一部の実施形態では、本開示は、本技術の態様に従って、本方法を行うためのコンピュータシステムを提供し、例えば、本明細書に記載のように、混合物から核酸のドナー源を検出および/または定量する。システムは、プロセッサ、メモリ、データベース、およびプロセッサ(複数可)のための命令を含む非一時的コンピュータ可読記録媒体を有する少なくとも1つのコンピュータを備えることができ、当該プロセッサ(複数可)は、本方法を含む操作を行うために当該命令を実行するように構成されている。
【0016】
一部の実施形態では、本開示は、命令を含む非一時的コンピュータ可読記憶媒体を提供し、1つ以上のプロセッサにより実行されるとき、本技術の態様に従った方法、および、例えば、本明細書に記載される方法、を行う命令を含む。特定の実施形態では、非一時的コンピュータ可読記憶媒体は、各特定されたドナー源の混合比率を計算するための命令を含む。
【0017】
なおさらなる実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、コンテンツが、少なくとも1つのコンピュータに、ドナー源物質の混合物を含む試料中の二本鎖核酸分子のデュプレックス配列決定データを提供するための方法を行わせる。例えば、いくつかの方法は、ユーザ計算デバイスから生の配列データを受信するステップと、試料中の複数の核酸分子に由来する複数の生の配列リードを含む試料特有のデータセットを生成するステップと、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ化するステップであって、グループ化が共有される単一分子識別子配列に基づく、グループ化するステップと、元の二本鎖核酸分子からの第1の鎖の配列リードと第2の鎖の配列リードとを比較して、第1の鎖の配列リードと第2の鎖の配列リードとの間に1つ以上の対応関係を特定するステップと、試料中の二本鎖核酸分子のデュプレックス配列決定データを提供するステップと、試料中の個々の二本鎖核酸分子内に存在するマイクロハプロタイプアレルの組み合わせを特定して、混合物中の1つ以上のドナー源を特定するステップと、任意選択的に、各特定されたドナー源の混合比率を計算するステップと、を含む。一部の実施形態では、そのような方法はまた、比較された第1の配列リードと第2の配列リードとの間の非相補のヌクレオチド位置を特定するステップを含み得、非相補の位置において、プロセスエラーを特定し、除外するか、または考慮しないステップも含み得る。
【0018】
他の実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、コンテンツが、少なくとも1つのコンピュータに、核酸混合物中に存在するマイクロハプロタイプを検出し、特定し、定量するための方法を行わせ、既知の供給源の遺伝子型、試料を決定し、本方法は、混合物中の個々のDNA分子内に存在するマイクロハプロタイプアレルの組み合わせを特定するステップと、各既知の供給源の遺伝子型から供与される各アレルの総数を合計するステップと、混合物中に存在する各遺伝子型の混合比率を決定するステップと、を含む。一部の実施形態では、本方法は、回帰ベースのモデルを使用することを含む、混合比率を計算するステップも含んでいてもよい。さらなる実施形態では、本方法はまた、各遺伝子型の決定された混合比率を、元の混合比率と比較するステップも含んでもよい。
【0019】
さらにさらなる実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、コンテンツが、少なくとも1つのコンピュータに、試料中の未知の遺伝子型の核酸混合物を逆重畳するための方法を行わせ、本方法は、混合物中の個々のDNA分子内に存在するマイクロハプロタイプアレルの組み合わせを特定するステップと、各遺伝子座に存在する全ての可能な遺伝子型に対する全ての可能な混合比率を評価するステップと、特定されたマイクロハプロタイプアレルの組み合わせに十分に適合する全ての可能な遺伝子型のリストおよび評価された全ての可能な混合比率を決定するステップと、を含む。一部の実施形態では、本方法はまた、試料中の未知の遺伝子型からの可能な遺伝子型を、既知の供給源の遺伝子型プロファイルを含むデータベースと比較して、ドナー源を特定するステップを含んでもよい。
【0020】
本技術の他の実施形態および態様は、以下の詳細な記載において、さらに説明される。
【図面の簡単な説明】
【0021】
本開示の多くの態様は、一緒に図面を構成する、以下の図を参照することによって、より良く理解することができる。これらの図は、限定のためではなく、例示の目的のみのためである。図中の構成要素は、必ずしも縮尺どおりではない。むしろ、本開示の原理を明確に例示することを重視する。
【0022】
【
図4-1】
図4Aは、本技術の一部の実施形態と共に使用するための核酸アダプター分子、および本技術の一実施形態に従う二本鎖核酸断片へのアダプター分子のライゲーションから得られる二本鎖アダプター核酸複合体を示す。
【
図4-2】
図4Bおよび
図4Cは、本技術の一実施形態に従う、様々なデュプレックス配列決定方法のステップの概念図である。
【
図5】
図5は、本技術の一実施形態に従う、混合物中の核酸の逆重畳のための本明細書に開示される方法および/または試薬と共に使用するネットワークコンピュータシステムの概略図である。
【
図6】
図6は、本技術の一実施形態に従って、本技術の一実施形態に従って、デュプレックス配列決定コンセンサス配列データを提供するためのルーチンを示すフロー図である。
【
図7】
図7は、本技術の一実施形態に従う、核酸混合物中に存在するマイクロハプロタイプを検出し、特定し、定量して、既知の供給源の遺伝子型を決定するためのルーチンを示すフロー図である。
【
図8】
図8は、本技術の一実施形態に従う、試料中の未知の遺伝子型の核酸混合物を逆重畳するためのルーチンを示すフロー図である。
【
図9】
図9は、本技術の一態様に従う、
図7のルーチンを使用して決定され得る遺伝子型データの一例を示す。
【
図10】
図10は、本技術の一態様に従う、
図8のルーチンを使用して決定され得る遺伝子型データの一例を示す。
【
図11】
図11は、本技術の一態様に従う、臍帯血の増殖(expansion)、続いて核酸混合物の逆重畳を分析するための方法の模式図を示す。
【
図12】
図12は、本技術の一態様に従う、
図11に記載の方法で使用されるSNPパネルの例示的なグローバル分布を提供する。
【
図13】
図13は、本技術の態様に従う、各試料についての例示的なオンターゲットデュプレックス配列決定の深度を示す棒グラフである。
【
図14】
図14は、本技術の一態様に従う、ドナー遺伝子型を差別化するために使用される11個の特異的SNPアレルを特定するパネルを示す。
【
図15A】
図15A~Bおよび
図15C~Dは、各々、ナノドロップ配列決定(各試料の左の濃い灰色の棒)によって、かつ本技術の一態様(各試料の右の薄い灰色の棒)に従って定量された、混合物中の各臍帯試料の相対的存在量を示す棒グラフである。
【
図15E】
図15Eは、本技術の一態様に従う、ナノドロップ(各試料の左の濃い灰色の棒)およびQubitフルオロメーター(各試料の右の薄い灰色の棒)測定による、各試料内のDNA定量を示す棒グラフである。
【
図16】
図16は、本技術の一態様に従う、各混合物内の各個々の臍帯血試料についての定量における倍率差を示す。
【
図17】
図17は、本技術の一態様に従う、フローサイトメトリーで決定された、個々の臍帯血試料についての、増殖前のCD34+画分の細胞、および(デュプレックス配列決定で決定された)増殖後のCD34
+画分の細胞を示す棒グラフである。
【
図18A】
図18Aは、本技術の一態様に従う、ヌクレオチド配列長の関数としてのマイクロハプロタイプ領域の頻度を示す棒グラフである。
【
図18B】
図18Bは、本技術の一態様に従う、様々な集団における1つのマイクロハプロタイプのアレル頻度の一例である。
【
図19】
図19は、本技術の一態様に従う、混合比率の推定値を示すためのデュプレックス配列決定データのシミュレートされた逆重畳の結果を示す線グラフである。
【
図20】
図20は、本技術の一態様に従う、混合物中のドナー源を決定するための線形回帰モデルの一例を示す。
【
図21】
図21は、パネルA~Dは、各々、本技術の一態様に従う、供給源1~5の真の混合比率を示す棒グラフである。
【
図22】
図22は、パネルA~Dは、本技術の一態様に従う、5つの潜在的供給源の各々について遺伝子型が事前に分かっていた場合の、混合物の各々における各個々の供給源についての推定された混合比率に対してプロットされた真の混合比率を示す。
【
図23A】
図23A、
図23B、
図23C、および
図23Dは、本技術の一態様に従う、デュプレックス配列決定を使用して、試料中で決定される各未知の遺伝子型供給源の可能性および存在量を示す、各々のヒートマップグラフである。
【
図24-1】
図24は、パネルA~Dは、本技術の一態様に従う、供給源の遺伝子型が以前に分かっていなかった場合でも、複数の供給源について決定され得るマイクロハプロタイプアレルの結果を示す。
【
図25】
図25は、本技術の一態様に従う、混合物中の試料の存在量の推定値に対して試料の実際の混合比率を比較する散布図である。
【
図26】
図26は、本技術の一態様に従う、検出された混合物中に存在する遺伝子型の比率(実線)および少なくとも1つの偽陽性(破線)を有するリードの比率をプロットする線グラフである。
【
図27】
図27は、パネルA~Cは、本技術の一態様に従う、50個の遺伝子型の3つの異なるシミュレーションされた混合物における推定値対真の混合比率を示す線プロットである。
【発明を実施するための形態】
【0023】
本技術のいくつかの実施形態の具体的な詳細が、
図1~
図27を参照することによって、以下に記載される。これらの実施形態は、例えば、これらのような方法で使用するための、混合物の逆重畳および供給源の特定のための方法、ならびに関連する試薬、キット、およびソフトウェアを含み得る。本技術の一部の実施形態は、混合物(例えば、細胞混合物、組織混合物、多キメラ生物または組織、胎児DNA、移植組織、多キメラ細胞培養物、法医学的試料、核酸混合物など)を評価および解析するためのデュプレックス配列決定を利用することを対象とする。本技術の他の実施形態は、個体または個体の群と関連する遺伝子型シグネチャ(例えば、固有の多型の組み合わせ)を決定するためにデュプレックス配列決定を利用することを対象とする。本技術のさらなる実施形態は、例えば、個体の遺伝子型シグネチャに基づいて、各供給源の混合物および相対的比率に寄与する2つ以上の遺伝物質源を特定することを対象とする。
【0024】
実施形態の多くは、デュプレックス配列決定に関して本明細書に記載されるが、本明細書に記載されるものに加えて、エラー修正配列決定リードを生成することが可能な他の配列決定モダリティは、本技術の範囲内である。これに加えて、本技術の他の実施形態は、本明細書に記載されるものとは異なる構成、構成要素または手順を有していてもよい。したがって、当業者は、本技術が、追加の要素を有する他の実施形態を含んでいてもよく、および本技術が、
図1~
図27を参照しつつ、以下に示され、記載される特徴のいくつかを含まない他の実施形態を含んでいてもよいことを、理解するであろう。
【0025】
I.特定の定義
本開示がより容易に理解されるために、まず、特定の用語を以下に定義する。以下の用語および他の用語についてのさらなる定義は、本明細書全体を通して記載される。
【0026】
本出願では、文脈から別段明確でない限り、「1つの(a)」という用語は、「少なくとも1つ」を意味すると理解され得る。本出願で使用される場合、「または」という用語は、「および/または」を意味すると理解され得る。本出願では、「~を含む(comprising)」および「~を含む(including)」という用語は、それ自体によって示されるか、または1つ以上のさらなる構成要素もしくはステップと共に示されるかにかかわらず、項目化された構成要素またはステップを包含すると理解され得る。範囲が本明細書で提示される場合、その両端が含まれる。本出願で使用される場合、「~を含む(comprise)」という用語およびこの用語の変形語、例えば、「~を含む(comprising)」および「~を含む(comprises)」は、他の付加物、構成要素、整数またはステップを除外することを意図しない。
【0027】
約:「約」という用語は、ある値を参照して本明細書で使用される場合、参照される値の文脈で、類似する値を指す。一般に、その文脈に精通している当業者は、その文脈で、「約」に包含される関連する程度の分散を理解するであろう。例えば、一部の実施形態では、「約」という用語は、参照される値の25%、20%、19%、18%、17%、16%、15%、14%、13%、12%、11%、10%、9%、8%、7%、6%、5%、4%、3%、2%、1%、またはそれ未満内の範囲の値を包含し得る。1桁の整数値の分散について、正方向または負方向のいずれかにおける1個の数値のステップが、その値の25%を超える場合、「約」は、正方向または負方向のいずれかにおいて少なくとも1、2、3、4または5の整数値を含むことが当業者によって一般的に受け入れられており、状況に応じて0を超えても超えなくてもよい。この非限定的な例は、当業者にとって明らかであろういくつかの状況において、3セントが約5セントとみなされ得るという仮説である。
【0028】
類似体:本明細書で使用される場合、「類似体」という用語は、1つ以上の特定の構造特徴、要素、構成要素または部分が参照物質と共通する物質(substance)を指す。典型的には、「類似体」は、参照物質と有意な構造類似性を示し、例えば、コアまたはコンセンサス構造が共通するが、特定の別個の様式では違いもある。一部の実施形態では、類似体は、参照物質から、例えば、参照物質の化学操作によって生成可能な物質である。一部の実施形態では、類似体は、参照物質を生成する合成プロセスと実質的に類似した合成プロセス(例えば、複数のステップが共通する)の遂行を通して生成可能な物質である。一部の実施形態では、類似体は、参照物質を生成するために使用されるものとは異なる合成プロセスの遂行を通して生成されるか、または生成可能である。
【0029】
生体試料:本明細書で使用される場合、「生体試料」または「試料」という用語は、典型的には、本明細書に記載されるように、目的の1つ以上の生物学的供給源(例えば、組織または生物または細胞培養物)から得られるか、または由来する試料を指す。一部の実施形態では、目的の供給源は、動物またはヒトなどの生物を含む。他の実施形態では、目的の供給源は、細菌、ウイルス、原生動物または真菌などの微生物を含む。さらなる実施形態では、目的の供給源は、合成組織、生物、細胞培養物、核酸または他の物質であってもよい。さらにさらなる実施形態では、目的の供給源は、植物系生物であってもよい。さらに別の実施形態では、試料は、例えば、水試料、土壌試料、考古学試料または非生物源から採取された他の試料などの環境試料であってもよい。他の実施形態では、試料は、多生物試料(例えば、混合生物試料)であってもよい。さらにさらなる実施形態では、試料は、細胞混合物または組織混合物を含んでもよい。他の実施形態では、試料は、多キメラ生物もしくは組織、移植組織、または多キメラ細胞培養物に由来し得る。さらなる実施形態では、試料は、胎児DNAを含んでもよい。さらに他の実施形態では、試料は、犯罪現場または他の法執行機関の調査(例えば、加害者、被害者、または行方不明者などを特定するためなどの法医学的事件)から採取されてもよい。他の実施形態では、試料は、(例えば、犠牲者または行方不明者を特定するために)戦争またはテロ行為の調査または考証などから採取されてもよい。他の実施形態では、試料は、考古学的研究から採取されてもよい。一部の実施形態では、生体試料は、生体組織もしくは生物流体であるか、またはこれらを含む。一部の実施形態では、生体試料は、単離されたDNAもしくは他の核酸であってもよいか、あるいは骨髄、血液、血球、幹細胞、腹水、組織試料、生検試料、またはまたは穿刺吸引試料、細胞を含む体液、遊離浮遊核酸、タンパク質に結合した核酸、リボタンパク質に結合した核酸、痰、唾液、尿、脳脊髄液、腹腔液、胸水、糞便、リンパ液、婦人科系体液、皮膚スワブ、膣スワブ、Papスメア、口腔スワブ、鼻腔スワブ、乳管洗浄もしくは気管支肺泡洗浄などの洗液もしくは洗浄液、膣液、吸引液、擦過物、骨髄標本、組織生検標本、胎児組織もしくは体液、外科標本、糞便、他の体液、分泌液、および/もしくは排泄物、および/またはこれらからの細胞などを含んでいてもよい。一部の実施形態では、生体試料は、個体から得られた細胞であるか、またはそれを含む。一部の実施形態では、得られる細胞は、試料が得られる個体由来の細胞であるか、またはこれらを含む。一部の実施形態では、細胞小器官または小胞またはエクソソームなどの細胞誘導体。特定の実施形態では、生体試料は、対象から得られる液体生検である。一部の実施形態では、試料は、任意の適切な手段によって目的の供給源から直接得られる「一次試料」である。例えば、一部の実施形態では、一次生体試料は、生検(例えば、穿刺吸引または組織生検)、手術、体液(例えば、血液(血漿またはそれから分離された血清)、リンパ液、糞便など)の採取などからなる群から選択される方法によって得られる。一部の実施形態では、文脈から明らかになるように、「試料」という用語は、一次試料を処理することによって(例えば、その1つ以上の構成要素を除去することによって、かつ/または1つ以上の薬剤をこれに加えることによって)得られる調製物を指す。例えば、半透過性膜を使用して濾過すること。このような「処理された試料」は、例えば、試料から抽出されるか、あるいは一次試料を、mRNAの増幅もしくは逆転写、特定の構成要素の単離および/または精製などの技術に供して得られる、核酸またはタンパク質を含んでいてもよい。
【0030】
癌疾患:一実施形態では、疾患または障害は、一般的に、転移し得る異常な細胞の調節障害性の増殖によって特徴付けられるような、当業者によく知られた「癌疾患」である。本技術の1つ以上の態様を使用して検出可能な癌疾患は、非限定的な例として、中でも、前立腺癌(すなわち、腺癌、小細胞)、卵巣癌(例えば、卵巣腺癌、漿液性癌または胚性癌腫、卵黄嚢腫瘍、奇形腫)、肝臓癌(例えば、HCCまたは肝細胞腫、血管肉腫)、形質細胞腫瘍(例えば、多発性骨髄腫、形質細胞性白血病、形質細胞腫、アミロイドーシス、ワルデンストレーム高ガンマグロブリン血症)、大腸癌(例えば、結腸腺癌、結腸粘液腺癌、カルチノイド、リンパ腫および直腸腺癌、直腸扁平上皮癌)、白血病(例えば、急性骨髄性白血病、急性リンパ性白血病、慢性骨髄性白血病、慢性リンパ性白血病、急性骨髄芽球性白血病、急性前骨髄球性白血病、急性骨髄単球性白血病、急性単球性白血病、急性赤白血病および慢性白血病、T細胞白血病、セザリー症候群、全身性肥満細胞症、有毛細胞白血病、慢性骨髄性白血病の急性転化)、骨髄異形成症候群、リンパ腫(例えば、びまん性大細胞型B細胞リンパ腫、皮膚T細胞リンパ腫、末梢性T細胞リンパ腫、ホジキンリンパ腫、非ホジキンリンパ腫、濾胞性リンパ腫、マントル細胞リンパ腫、MALTリンパ腫、辺縁帯細胞リンパ腫、リヒタートランスフォーメーション、ダブルヒットリンパ腫、移植関連リンパ腫、CNSリンパ腫、節外性リンパ腫、HIV関連リンパ腫、有毛細胞白血病、バリアント型有毛細胞白血病、風土病性リンパ腫、バーキットリンパ腫、移植関連リンパ増殖性新生物およびリンパ球性リンパ腫など)、子宮頸癌(扁平上皮子宮頸癌、明細胞癌、HPV関連癌腫、子宮頸部肉腫など)、食道癌(食道扁平上皮細胞癌、腺癌、特定のグレードのバレット食道、食道腺癌)、黒色腫(皮膚黒色腫、ブドウ膜黒色腫、四肢末端部黒色腫、無色素性黒色腫など)、CNS腫瘍(例えば、乏突起膠腫、星状細胞腫、多形神経膠芽腫、髄膜腫、シュワン腫、頭蓋咽頭腫など)、膵臓癌(例えば、腺癌、腺扁平上皮癌、印環細胞癌、肝様癌、コロイド癌腫、島細胞癌、膵神経内分泌癌など)、消化管間質腫瘍、肉腫(例えば、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨肉腫、血管肉腫、内皮腫肉腫、リンパ管肉腫、リンパ管内皮腫肉腫、平滑筋肉腫、ユーイング肉腫および横紋筋肉腫、紡錘細胞腫瘍など)、乳癌(例えば、炎症性癌、大葉性癌、乳管癌など)、ER陽性癌、HER-2陽性癌、膀胱癌(膀胱扁平上皮癌、膀胱小細胞癌、尿路上皮癌など)、頭頸部癌(例えば、頭頸部扁平上皮癌、HPV関連扁平上皮細胞癌、鼻咽頭癌など)、肺癌(例えば、非小細胞肺癌、大細胞癌、気管支原性肺癌、扁平上皮細胞癌、小細胞肺癌など)、転移性癌、口腔癌、子宮癌(平滑筋肉腫、平滑筋腫など)、精巣癌(例えば、セミノーマ、非セミノーマおよび胚性癌腫、卵黄嚢腫瘍など)、皮膚癌(例えば、扁平上皮細胞癌および基底細胞癌、メルケル細胞癌、黒色腫、T細胞リンパ腫など)、甲状腺癌(例えば、乳頭癌、髄様癌、甲状腺未分化癌など)、胃癌、上皮内癌、骨癌、胆道癌、眼癌、喉頭癌、腎臓癌(例えば、腎細胞癌、ウイルムス腫瘍など)、胃癌、芽細胞腫(例えば、腎芽細胞腫、髄芽細胞腫、血管芽細胞腫、神経芽細胞腫、網膜芽細胞腫など)、骨髄増殖性腫瘍(真性赤血球増加症、本態性血小板血症、骨髄線維症など)、脊索腫、滑膜腫、中皮腫、腺癌、汗腺癌、脂腺癌、嚢胞腺癌、胆管癌、絨毛癌、上皮癌、上衣腫、松果体腫、聴神経腫、シュワン腫、髄膜腫、下垂体腺腫、神経鞘腫、小腸の癌、褐色細胞腫、小細胞肺癌、腹膜中皮腫、副甲状腺機能亢進性腺腫、副腎癌、原発不明癌、内分泌系の癌、陰茎の癌、尿道の癌、皮膚または眼内の黒色腫、婦人科腫瘍、小児の固形腫瘍、または中枢神経系の新生物、原発性縦隔胚細胞腫瘍、未確定の潜在能を有するクローン性造血、くすぶり型多発性骨髄腫、意義不明の単クローン性免疫グロブリン血症、単クローン性B細胞リンパ球増加症、低グレードの癌、クローナルフィールド欠損(clonal field defects)、前癌性新生物(preneoplastic neoplasms)、尿管癌、自己免疫関連癌(すなわち、潰瘍性結腸炎、原発性硬化性胆管炎、セリアック病)、遺伝性素因と関連する癌(すなわち、BRCA1、BRCA2、TP53、PTEN、ATMなどでの遺伝子欠陥を有するもの)、および様々な遺伝的症候群、例えば、MEN1、MEN2トリソミー21など)、および子宮内で化学物質に曝露されたときに生じるもの(すなわち、ジエチルスチルベストロール[DES]に曝露した女性の女性子孫における明細胞癌)、を含む。
【0031】
決定:本明細書に記載の多くの方法論は、「決定する」ステップを含む。当業者は、本明細書を読むと、このような「決定する」ことが、例えば本明細書に明示的に言及される特定の技術を含め、当業者が利用可能な様々な技術のいずれかの使用を通して利用され得るか、または達成され得ることを理解するだろう。一部の実施形態では、決定することは、物理的な試料の操作を伴う。一部の実施形態では、決定することは、例えば、関連する分析を行うように適合されたコンピュータまたは他の処理ユニットを利用した、データまたは情報の検討および/または操作を伴う。一部の実施形態では、決定することは、供給源から関連情報および/または資料を受信することを伴う。一部の実施形態では、決定することは、試料またはエンティティの1つ以上の特徴を、比較可能な参照と比較することを伴う。
【0032】
デュプレックス配列決定(DS):本明細書で使用される場合、「デュプレックス配列決定(Duplex Sequencing、DS)」は、その最も広い意味で、個々のDNA分子の両方の鎖からの配列を比較することによって卓越した精度を達成する、タグに基づくエラー修正方法を指す。
【0033】
発現:本明細書で使用される場合、核酸配列の「発現」は、以下の事象のうちの1つ以上を指す:(1)DNA配列からのRNAテンプレートの生成(例えば、転写による)、(2)RNA転写物のプロセシング(例えば、スプライシング、編集、5’キャップ形成および/または3’末端形成による)、(3)RNAのポリペプチドもしくはタンパク質への翻訳、および/または(4)ポリペプチドもしくはタンパク質の翻訳後修飾。
【0034】
変異:本明細書で使用される場合、「変異」という用語は、核酸配列または構造に対する変化を指す。ポリヌクレオチド配列に対する変異は、複雑な複数ヌクレオチド変化の中で、試料中の点変異(例えば、単一塩基変異)、複数ヌクレオチドの変異、ヌクレオチドの欠失、配列再編成、ヌクレオチドの挿入およびDNA配列の重複を含んでいてもよい。変異は、相補的な塩基の変化(すなわち、真の変異)として、または片方の鎖上の変異があるが、他の鎖上には変異がないもの(すなわち、ヘテロ二重鎖(heteroduplex))として、二重鎖DNA分子の両方の鎖上で起きてもよく、修復されるか、破壊されるか、または誤って修復される/真の二本鎖変異へと変換される可能性を有する。変異は、同じもしくは関連する供給源および/または個体由来の対照試料に対する変化を表し得る。変異は、参照配列に対する変化を表し得る。
【0035】
非癌性疾患:別の実施形態では、疾患または障害は、ゲノム変異または損傷によって引き起こされるか、または寄与する非癌性疾患である。非限定的な例として、本技術の1つ以上の態様を使用して検出可能なこのような非癌タイプの疾患または障害は、糖尿病、自己免疫疾患または障害、不妊症、神経変性、早老症、心血管疾患、別の遺伝子介在性疾患の治療に関連する任意の疾患(すなわち、化学療法介在性神経症およびシスプラチンなどの化学療法に関連する腎不全)、アルツハイマー/認知症、肥満、心臓疾患、高血圧、関節炎、精神疾患、他の神経障害(神経線維腫症)、および多因子性遺伝障害(例えば、環境因子が引き金となる素因)を含む。
【0036】
核酸:本明細書で使用される場合、その最も広い意味で、オリゴヌクレオチド鎖に組み込まれているか、または組み込まれ得る任意の化合物および/または物質を指す。一部の実施形態では、核酸は、ホスホジエステル結合を介してオリゴヌクレオチド鎖に組み込まれているか、または組み込まれ得る化合物および/または物質である。文脈から明らかになるように、一部の実施形態では、「核酸」は、個々の核酸残基(例えば、ヌクレオチドおよび/またはヌクレオシド)を指し、一部の実施形態では、「核酸」は、個々の核酸残基を含むオリゴヌクレオチド鎖を指す。一部の実施形態では、「核酸」は、RNAであるか、またはRNAを含み、一部の実施形態では、「核酸」は、DNAであるか、またはDNAを含む。一部の実施形態では、核酸は、1つ以上の天然核酸残基であるか、1つ以上の天然核酸残基を含むか、または1つ以上の天然核酸残基からなる。一部の実施形態では、核酸は、1つ以上の核酸類似体であるか、1つ以上の核酸類似体を含むか、または1つ以上の核酸類似体からなる。一部の実施形態では、核酸類似体は、ホスホジエステル骨格を利用しない点において核酸と異なる。例えば、一部の実施形態では、核酸は、1つ以上の「ペプチド核酸」であるか、1つ以上の「ペプチド核酸」を含むか、または1つ以上の「ペプチド核酸」からなり、当該技術分野で既知であり、骨格内のホスホジエステル結合の代わりにペプチド結合を有し、本技術の範囲内であると見なされる。代替的に、または追加的に、一部の実施形態では、核酸は、ホスホジエステル結合ではなく、1つ以上のホスホロチオエート結合および/または5’-N-ホスホラミダイト結合を有する。一部の実施形態では、核酸は、1つ以上の天然ヌクレオシド(例えば、アデノシン、チミジン、グアノシン、シチジン、ウリジン、デオキシアデノシン、デオキシチミジン、デオキシグアノシンおよびデオキシシチジン)であるか、1つ以上の天然ヌクレオシドを含むか、または1つ以上の天然ヌクレオシドからなる。一部の実施形態では、核酸は、1つ以上のヌクレオシド類似体(例えば、2-アミノアデノシン、2-チオチミジン、イノシン、ピロロ-ピリミジン、3-メチルアデノシン、5-メチルシチジン、C-5プロピニルシチジン、C-5プロピニルウリジン、2-アミノアデノシン、C5-ブロモウリジン、C5-フルオロウリジン、C5-ヨードウリジン、C5-プロピニルウリジン、C5-プロピニルシチジン、C5-メチルシチジン、2-アミノアデノシン、7-デアザアデノシン、7-デアザグアノシン、8-オキソアデノシン、8-オキソグアノシン、0(6)-メチルグアニン、2-チオシチジン、メチル化塩基、インターカレーションされた塩基、およびこれらの組み合わせ)であるか、1つ以上のヌクレオシド類似体を含むか、または1つ以上のヌクレオシド類似体からなる。一部の実施形態では、核酸は、天然核酸中の糖類と比較して、1つ以上の修飾された糖類(例えば、2’-フルオロリボース、リボース、2’-デオキシリボース、アラビノースおよびヘキソース)を含む。一部の実施形態では、核酸は、RNAまたはタンパク質などの機能的遺伝子産物をコードするヌクレオチド配列を有する。一部の実施形態では、核酸は、1つ以上のイントロンを含む。一部の実施形態では、核酸は、天然源からの単離、相補性テンプレートに基づく重合による酵素合成(インビボまたはインビトロで)、組換え細胞または系における複製および化学合成のうちの1つ以上によって調製される。一部の実施形態では、核酸は、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、85、90、95、100、110、120、130、140、150、160、170、180、190、200、225、250、275、300、325、350、375、400、425、450、475、500、600、700、800、900、1000、1500、2000、2500、3000、3500、4000、4500、5000、またはそれを超える残基長である。一部の実施形態では、核酸は、部分的または完全に一本鎖であり、一部の実施形態では、核酸は、部分的または完全に二本鎖である。一部の実施形態では、核酸は、二次構造を有する分枝鎖であってもよい。一部の実施形態では、核酸は、ポリペプチドをコードするか、またはポリペプチドをコードする配列の相補である少なくとも1つの要素を含むヌクレオチド配列を有する。一部の実施形態では、核酸は、酵素活性を有する。一部の実施形態では、核酸は、例えば、リボ核酸タンパク質複合体またはトランスファーRNAにおいて、機械的な機能を果たす。
【0037】
ポリヌクレオチド損傷:本明細書で使用される場合、「ポリヌクレオチド損傷」または「核酸損傷」という用語は、薬剤またはプロセスによって直接的または間接的に引き起こされる(例えば、代謝物、または損傷性もしくは変異原性であるプロセスの誘発)、対象のデオキシリボ核酸(DNA)配列に対する損傷(「DNA損傷」)またはリボ核酸(RNA)配列に対する損傷(「RNA損傷」)を指す。損傷した核酸は、対象における疾患または障害の発症を引き起こす場合がある。ポリヌクレオチド損傷は、細胞におけるDNAの化学的および/または物理的な修飾をさらに含んでいてもよい。一部の実施形態では、損傷は、非限定的な例として、酸化、アルキル化、脱アミノ化、メチル化、加水分解、ヒドロキシル化、ニッキング、鎖内架橋、鎖間架橋、平滑末端鎖切断、付着末端二本鎖切断、リン酸化、脱リン酸化、SUMO化、グリコシル化、脱グリコシル化、プトレシニル化、カルボキシル化、ハロゲン化、ホルミル化、一本鎖ギャップ、熱からの損傷、乾燥からの損傷、UV曝露からの損傷、γ線からの損傷、X線からの損傷、電離放射線からの損傷、非電離放射線からの損傷、重粒子放射線からの損傷、核崩壊からの損傷、β放射線からの損傷、α放射線からの損傷、中性子放射線からの損傷、陽子放射線からの損傷、反物質からの損傷、宇宙放射線からの損傷、高pHからの損傷、低pHからの損傷、活性酸化種からの損傷、フリーラジカルからの損傷、過酸化物からの損傷、次亜塩素酸塩からの損傷、ホルマリンまたはホルムアルデヒドなどの組織固定からの損傷、反応性鉄からの損傷、低イオン状態からの損傷、高イオン状態からの損傷、無緩衝状態からの損傷、ヌクレアーゼからの損傷、環境曝露からの損傷、火災からの損傷、機械的ストレスからの損傷、酵素分解からの損傷、微生物からの損傷、調製の機械的剪断からの損傷、調製の酵素断片化からの損傷、インビボで自然発生した損傷、核酸抽出中に発生した損傷、配列決定ライブラリ調製中に発生した損傷、ポリメラーゼによって導入された損傷、核酸修復中に導入された損傷、核酸の末端テーリング中に発生した損傷、核酸ライゲーション中に発生した損傷、配列決定中に発生した損傷、DNAの機械的取り扱いから発生した損傷、ナノポアを通過中に発生した損傷、生物における老化の一部として発生した損傷、個体の化学物質曝露の結果として発生した損傷、変異原によって生じた損傷、発癌物質によって生じた損傷、染色体切断物質によって発生した損傷、酸素曝露によるインビボでの炎症性損傷から生じた損傷、1つ以上の鎖切断による損傷、のうちの少なくとも1つ、およびこれらの任意の組み合わせであるか、またはこれらを含む。
【0038】
参照:本明細書で使用される場合、「参照」という用語は、これに対して比較が行われる標準または対照を記載する。例えば、一部の実施形態では、目的の、薬剤、動物、個体、集団、試料、配列または値を、ある場所に存在し得るかまたは電子手段を介して遠隔的にアクセスし得る物理的またはコンピュータのデータベースにおいて、参照または対照の、薬剤、動物、個体、集団、試料、配列または値、もしくはこれらの代表と、比較する。一実施形態では、参照は、参照ゲノムまたは参照ゲノムアセンブリである。一部の実施形態では、参照または対照は、目的の試験もしくは決定と実質的に同時に試験され、および/または決定される。一部の実施形態では、参照または対照は、歴史的な参照または対照であり、任意選択的に、有形媒体で具現化される。典型的には、当業者に理解されるように、参照または対照は、評価されるものと同等の条件もしくは状況下で決定されるか、または特徴付けられる。当業者は、特定の可能な参照もしくは対照に対する信頼および/または比較を正当化するのに十分な類似性がいつ存在するかを理解するだろう。「参照試料」は、試験対象とは異なり、比較される試料と同じ方法で単離される、対象由来の試料を指す。参照試料の対象は、試験対象と遺伝的に同一であってもよく、または異なっていてもよい。
【0039】
単一分子識別子(SMI):本明細書で使用される場合、「単一分子識別子」または「SMI」という用語(特に、「タグ」、「バーコード」、「分子バーコード」、「固有分子識別子」すなわち「UMI」と呼ばれてもよい)は、より大きな異種の分子集団の中で個々の分子を実質的に区別することが可能な任意の物質(例えば、ヌクレオチド配列、核酸分子特徴)を指す。一部の実施形態では、SMIは、外因的に適用されるSMIであってもよく、または外因的に適用されるSMIを含んでいてもよい。一部の実施形態では、外因的に適用されるSMIは、縮重または半縮重した配列であってもよく、または縮重または半縮重した配列を含んでいてもよい。一部の実施形態では、実質的に縮重SMIは、ランダム固有分子識別子(R-UMI)として知られていることもある。一部の実施形態では、SMIは、既知のコードのプール内からのコード(例えば、核酸配列)を含んでいてもよい。一部の実施形態では、所定のSMIコードは、定義された固有分子識別子(D-UMI)として知られている。一部の実施形態では、SMIは、内因性SMIであってもよく、または内因性SMIを含んでいてもよい。一部の実施形態では、内因性SMIは、標的配列の特定の剪断点、標的配列を含む個々の分子の末端に関連する特徴、または個々の分子の一端にあるか、個々の分子の一端に隣接するか、もしくは個々の分子の一端から既知の距離内の特定の配列に関連する情報であってもよく、またはこれらの情報を含んでいてもよい。一部の実施形態では、SMIは、核酸分子に対する無作為または半無作為な損傷、化学修飾、酵素修飾、または他の修飾に起因する、核酸分子における配列バリエーションに関連するものであってもよい。一部の実施形態では、修飾は、メチルシトシンの脱アミノ化であってもよい。一部の実施形態では、修飾は、核酸ニックの部位を伴っていてもよい。一部の実施形態では、SMIは、外因性の要素と内因性の要素の両方を含んでいてもよい。一部の実施形態では、SMIは、物理的に隣接するSMI要素を含んでいてもよい。一部の実施形態では、SMI要素は、分子内で空間的に明確に異なってもよい。一部の実施形態では、SMIは、非核酸であってもよい。一部の実施形態では、SMIは、2つ以上の異なるタイプのSMI情報を含んでいてもよい。SMIの様々な実施形態は、国際特許公開第WO2017/100441号にさらに開示されており、その全体が参照により本明細書に援用される。
【0040】
鎖定義要素(SDE):本明細書で使用される場合、「鎖定義要素」または「SDE」という用語は、二本鎖核酸物質の特定の鎖の識別を可能にし、したがって、他の/相補鎖からの区別を可能にする任意の物質(例えば、配列決定または他の核酸インテロゲーションの後に、標的二本鎖核酸から得られる2つの一本鎖核酸各々の増幅産物を互いに実質的に区別可能にする任意の物質)を指す。一部の実施形態では、SDEは、アダプター配列中の実質的に非相補的な配列の1つ以上のセグメントであってもよく、またはこのセグメントを含んでいてもよい。特定の実施形態では、アダプター配列中の実質的に非相補的な配列のセグメントは、Y字型または「ループ」形状を含むアダプター分子によって提供されてもよい。他の実施形態では、アダプター配列中の実質的に非相補的な配列のセグメントは、アダプター配列中の隣接する相補的な配列の中央に、対になっていない「バブル」を形成してもよい。他の実施形態では、SDEは、核酸修飾を包含してもよい。一部の実施形態では、SDEは、対になった鎖の、物理的に分離した反応コンパートメントへの、物理的な分離を含んでいてもよい。一部の実施形態では、SDEは、化学修飾を含んでもよい。一部の実施形態では、SDEは、修飾された核酸を含んでもよい。一部の実施形態では、SDEは、核酸分子に対する無作為もしくは半無作為な損傷、化学修飾、酵素修飾、または他の修飾に起因する、核酸分子における配列バリエーションに関連するものであってもよい。一部の実施形態では、修飾は、メチルシトシンの脱アミノ化であってもよい。一部の実施形態では、修飾は、核酸ニックの部位を伴っていてもよい。SDEの様々な実施形態は、国際特許公開第WO2017/100441号にさらに開示されておおり、その全体が参照により本明細書に援用される。
【0041】
対象:本明細書で使用される場合、「対象」という用語は、生物、典型的には、哺乳動物、例えば、ヒト(一部の実施形態では、出生前のヒト形態を含む)、非ヒト動物(例えば、哺乳動物および非哺乳動物、限定されないが、非ヒト霊長類、マウス、ラット、ハムスター、カワウソ、ヌー、ウマ、ヒツジ、イヌ、ウシ、ブタ、ニワトリ、両生類、爬虫類、海洋生物、他のモデル生物、例えば、寄生虫、ハエ、ゼブラフィッシュなど)、およびトランスジェニック動物(例えば、トランスジェニックげっ歯類)などを指す。一部の実施形態では、対象は、関連する疾患、障害または状態に罹患している。一部の実施形態では、対象は、ある疾患、障害または状態になりやすい。一部の実施形態では、対象は、ある疾患、障害または状態の、1つ以上の症状または特徴を示す。一部の実施形態では、対象は、ある疾患、障害または状態の、症状または特徴を何ら示さない。一部の実施形態では、対象は、ある疾患、障害もしくは状態になりやすさ、またはある疾患、障害もしくは状態のリスクに特徴的な(characteristic)1つ以上の特徴(features)を有する。一部の実施形態では、対象は、診断および/または治療が実施されるか、および/または実施された個体である。さらに他の実施形態では、対象は、任意の生きている生物学的供給源または他の核酸物質、例えば、生物、細胞および/または組織、例えば、インビボ研究用のもの、例えば、真菌、原生動物、細菌、古細菌、ウイルス、培養中の単離された細胞、意図的に(例えば、幹細胞移植、臓器移植)または意図的ではない(すなわち、胎児または母体のマイクロキメリズム)細胞、または単離された核酸もしくはオルガネラ(すなわち、ミトコンドリア、葉緑体、遊離ウイルスゲノム、遊離プラスミド、アプタマー、リボザイム、または核酸の誘導体もしくは前駆体(すなわち、オリゴヌクレオチド、ジヌクレオチドトリリン酸など)を指す。さらなる実施形態では、対象は、任意の生きている、またはかつて生きていた生物学的供給源または法医学的調査または用途で得られた他の核酸物質を指す。
【0042】
実質的に:本明細書で使用される場合、「実質的に」という用語は、目的の特徴または性質の全体またはほぼ全体の程度または度合いを示す定性的な状態を指す。生物学の当業者は、生物学的現象および化学的現象が、完全に終了すること、および/または完全に終了することに向けて進むこと、または絶対的な結果を達成するか、もしくは回避することは、もしあるにしてもまれであることを理解するだろう。したがって、「実質的に」という用語は、多くの生物学的現象および化学的現象に内在する完全性の潜在的欠如を捕捉するために本明細書で使用される。
【0043】
II.デュプレックス配列決定方法ならびに関連するアダプターおよび試薬の選択された実施形態
デュプレックス配列決定は、二本鎖核酸分子からエラー修正DNA配列を生成するための方法であり、元々、国際特許公開第WO2013/142389号および米国特許第9,752,188号に記載されたもので、その両方の全体が参照により援用される。
図4A~
図4Cに示されるように、本技術の特定の態様では、デュプレックス配列決定を使用して、個々のDNA分子の両方の鎖を独立して配列決定することができ、誘導体配列リードを、超並列配列決定中に同じ二本鎖核酸親分子に由来するものとして認識することができるだけではなく、配列決定後に区別可能なエンティティとして互いに差別化することができるようになる。次いで、各鎖から得られる配列リードを、元の二本鎖核酸分子のエラー修正配列を得る目的で比較する。
【0044】
特定の実施形態では、デュプレックス配列決定を組み込む方法は、1つ以上の配列決定アダプターを、第1の鎖の標的核酸配列と第2の鎖の標的核酸配列とを含む標的二本鎖核酸分子にライゲーションして、二本鎖標的核酸複合体を生成することを含み得る(例えば、
図4A)。
【0045】
様々な実施形態では、得られる標的核酸複合体は、少なくとも1つのSMI配列を含んでいてもよく、外因的に適用される縮重または半縮重配列(例えば、
図4Aに示されるランダム化された二重鎖タグ、
図4Aで、αおよびβとして特定された配列)、標的二本鎖核酸分子の特定の剪断点に関連する内因的な情報、またはこれらの組み合わせ、を伴っていてもよい。SMIは、標的核酸分子を、いずれか単独で、またはそれらがライゲーションされた核酸断片の要素を区別することと組み合わせて、配列決定される集団の中の複数の他の分子から実質的に区別可能にすることができる。SMI要素の実質的に区別可能な特徴は、二本鎖核酸分子を形成する各々の一本鎖によって独立して保有されてもよく、各々の鎖の誘導体増幅産物が、配列決定後に同じ元の実質的に固有の二本鎖核酸分子に由来するものであると認識され得る。他の実施形態では、SMIは、さらなる情報を含んでいてもよく、および/または上に引用した刊行物に記載されるものなど、機能性を区別するこのような分子が有用である他の方法において使用されてもよい。別の実施形態では、SMI要素は、アダプターライゲーションの後に組み込まれてもよい。一部の実施形態では、SMIは、二本鎖であるが、他の実施形態では、SMIは、一本鎖である(例えば、SMIは、アダプターの一本鎖部分(複数可)上にあってもよい)。他の実施形態では、SMIは、一本鎖および二本鎖SMI配列の組み合わせである。
【0046】
一部の実施形態では、各二本鎖標的核酸配列複合体は、さらに、標的二本鎖核酸分子を形成する2つの一本鎖核酸の増幅産物を、配列決定後に互いに実質的に区別可能にする要素(例えば、SDE)を含んでいてもよい。一実施形態では、SDEは、配列決定アダプター内に含まれる非対称プライマー部位を含んでいてもよく、または他の配置において、配列非対称性をプライマー配列内ではなくアダプター分子内に導入してもよく、その結果、第1の鎖の標的核酸配列複合体と標的核酸配列複合体の第2の鎖のヌクレオチド配列における少なくとも一つの位置が、増幅および配列決定の後に互いに異なっている。他の実施形態では、SMIは、標準的(canonical)ヌクレオチド配列A、T、C、GまたはUとは異なるが、2つの増幅され配列決定された分子において少なくとも1つの標準的ヌクレオチド配列の差に変換される、2つの鎖間の別の生化学的非対称性を含んでいてもよい。さらに別の実施形態では、SDEは、増幅前に2つの鎖を物理的に分離する手段であってもよく、その結果、第1の鎖の標的核酸配列および第2の鎖の標的核酸配列からの誘導体増幅産物は、その2つの配列間の区別を維持する目的で、互いに実質的に物理的に分離された状態を維持する。第1の鎖と第2の鎖とを区別することを可能にするSDE機能を提供するための他のこのような配置および方法論、例えば、上に引用した刊行物に記載されるもの、または記載した機能目的を果たす他の方法を利用してもよい。
【0047】
少なくとも1つのSMIと少なくとも1つのSDEとを含む二本鎖標的核酸複合体を生成した後、またはこれらの要素の片方または両方がその後導入される場合、複合体は、DNA増幅(例えば、PCRを用いる)またはDNA増幅の任意の他の生化学的方法に供されてもよく、その結果、第1の鎖の標的核酸配列の1つ以上のコピーおよび第2の鎖の標的核酸配列の1つ以上のコピーが産生される(例えば、
図4B)。次いで、第1の鎖の標的核酸分子の1つ以上の増幅コピーおよび第2の標的核酸分子の1つ以上の増幅コピーを、好ましくは、「次世代」超並列DNA配列決定プラットフォームを使用して、DNA配列決定に供することができる(例えば、
図4B)。
【0048】
元の二本鎖標的核酸分子に由来する第1の鎖の標的核酸分子および第2の鎖の標的核酸分子のいずれかから生成される配列リードは、関連する実質的に固有なSMIを共有していることに基づいて特定され、SDEによって逆鎖の標的核酸分子から区別されてもよい。一部の実施形態では、SMIは、数学に基づくエラー修正コード(例えば、ハミングコード)に基づく配列であってもよく、それにより、特定の増幅エラー、配列決定エラーまたはSMI合成エラーは、元のデュプレックス(例えば、二本鎖核酸分子)の相補鎖に対してSMI配列の配列を関連付ける目的のために許容され得る。例えば、SMIが、標準的DNA塩基の完全に縮重した配列の15塩基対を含む、二本鎖外因性SMIの場合、推定で4の15乗=1,073,741,824のSMIバリアントが、完全に縮重したSMIの集団中に存在することになる。2つのSMIが、10,000個のサンプリングされたSMIの集団からのSMI配列内で1個のヌクレオチドのみが異なる配列決定データのリードから回収される場合、これが偶然に発生する確率を数学的に計算することができ、この単一塩基対の違いが、上述のタイプのエラーの1つを反映していることが起こりそうかどうかの決定を行い、そのSMI配列が、同じ元の二重鎖分子に由来するという事実を有することを決定することができる。SMIが少なくとも部分的に外因的に適用される配列であり、その配列バリアントが互いに完全に縮重したものではなく、少なくとも部分的には既知の配列である、一部の実施形態では、その既知の配列の同一性は、一部の実施形態では、上述のタイプの1つ以上のエラーが、ある既知のSMI配列の同一性を別のSMI配列の同一性へと変換しないように設計することができ、その結果、あるSMIが別のSMIであると誤って解釈されてしまう確率は減少する。一部の実施形態では、このSMI設計戦略は、ハミング符号手法またはその誘導体を含む。特定されたら、第1の鎖の標的核酸分子から生成される1つ以上の配列リードを、第2の鎖の標的核酸分子から生成される1つ以上の配列リードと比較して、エラー修正標的核酸分子配列を生成する(例えば、
図4C)。例えば、第1の鎖の標的核酸配列と第2の鎖の標的核酸配列の両方からの塩基が一致するヌクレオチド位置は、真の配列であるとみなされ、一方、この2つの鎖間で一致しないヌクレオチド位置は、技術的なエラーの可能性がある部位と認識され、この部位は、考慮されないか、除外されるか、修正されるか、または別の状況で特定されてもよい。このようにして、元の二本鎖標的核酸分子のエラー修正配列を生成することができる(
図4Cに示される)。一部の実施形態では、第1の鎖の標的核酸分子および第2の鎖の標的核酸分子から生成される各々の配列決定リードを別個にグループ化した後、第1の鎖および第2の鎖各々について一本鎖コンセンサス配列を作成してもよい。次いで、第1の鎖の標的核酸分子および第2の鎖の標的核酸分子に由来する一本鎖コンセンサス配列を比較して、エラー修正標的核酸分子配列を生成することができる(例えば、
図4C)。
【0049】
代わりに、一部の実施形態では、この2本の鎖間の配列が一致しない部位は、元の二本鎖標的核酸分子において、生物学的に由来するミスマッチの可能性がある部位として認識することができる。代わりに、一部の実施形態では、この2本の鎖間の配列が一致しない部位は、元の二本鎖標的核酸分子において、DNA合成に由来するミスマッチの可能性がある部位として認識することができる。代わりに、一部の実施形態では、この2本の鎖間の配列が一致しない部位は、損傷を受けたか、または修飾されたヌクレオチド塩基が、片方または両方の鎖に存在し、酵素プロセス(例えば、DNAポリメラーゼ、DNAグリコシラーゼまたは別の核酸修飾酵素または化学プロセス)によってミスマッチに変換された可能性がある部位として認識することができる。一部の実施形態では、この後者の知見を使用して、酵素プロセスまたは化学処理の前の核酸損傷またはヌクレオチド修飾の存在を推測することができる。
【0050】
一部の実施形態では、本技術の態様に従い、本明細書に記載するデュプレックス配列決定ステップから生成される配列決定リードをさらにフィルタリングして、DNA損傷分子(例えば、貯蔵、運搬中に、組織または血液の抽出中または抽出後に、ライブライリー調製中または調製後に損傷したなど)からの配列決定リードを除外することができる。例えば、DNA修復または修飾酵素、例えば、ウラシル-DNAグリコシラーゼ(UDG)、ホルムアミドピリミジンDNAグリコシラーゼ(FPG)および8-オキソグアニンDNAグリコシラーゼ(OGG1)を利用して、DNA損傷(例えば、インビトロでのDNA損傷またはインビボでの損傷)を除外するか、または修正することができる。これらのDNA修復酵素は、例えば、DNAから損傷した塩基を除去するグリコシラーゼである。例えば、UDGは、(シトシンの自発的な加水分解によって生じる)シトシンの脱アミノ化から生じるウラシルを除去し、FPGは、8-オキソ-グアニン(例えば、活性酸素種から生じる一般的なDNA損傷)を除去する。FPGは、リアーゼ活性も有し、脱塩基部位に1塩基ギャップを生成することができる。このような脱塩基部位は、例えば、ポリメラーゼがテンプレートをコピーすることができないため、一般的に、その後にPCRによって増幅することができない。したがって、このようなDNA損傷修復/除外酵素の使用は、真の変異を有していないが、配列決定および二重鎖配列分析の後に別の状況でエラーとして検出されない可能性がある損傷DNAを効果的に除外することができる。損傷した塩基によるエラーは、デュプレックス配列決定によって多くは修正することができるが、まれに、相補的エラーが、両方の鎖上の同じ位置に起こることが理論的にあり得るため、エラーを増やす損傷を減少させることによって、アーチファクトの確率を減少させることができる。さらに、ライブラリ調製中、配列決定されるDNAの特定の断片は、その供給源から、または処理ステップ(例えば、機械的なDNA剪断)から一本鎖であってもよい。これらの領域は、典型的には、当該技術分野で知られる「末端修復」ステップ中に二本鎖DNAに変換され、DNAポリメラーゼおよびヌクレオシド基質が、DNA試料に添加されて、5’陥凹末端を延長する。コピーされるDNAの一本鎖部分におけるDNA損傷の変異誘発性部位(すなわち、DNA二重鎖の片方または両方の末端にある一本鎖5’オーバーハングまたは内部の一本鎖ニックまたはギャップ)は、末端平滑化反応中にエラーを生じる場合があり、一本鎖変異、合成エラーまたは核酸損傷部位を二本鎖形態にして、最終的な二重鎖コンセンサス配列において真の変異であると誤って解釈される場合があり、真の変異が元の二本鎖核酸分子内に実際には存在しなかった場合に、存在したと誤って解釈される場合がある。この状況は、「偽の二重鎖」と呼ばれ、このような損傷を破壊/修復する酵素の使用によって減少させることができ、または防ぐことができる。他の実施形態では、この発生は、元の二重鎖分子の一本鎖部分が形成されるのを破壊するか、または防ぐための戦略の使用を通して低減、または除外することができる(例えば、ニックまたはギャップが残る可能性がある機械的剪断または特定の他の酵素ではなく、元の二本鎖核酸物質を断片化するために使用される特定の酵素の使用)。他の実施形態では、元の二本鎖核酸の一本鎖部分を除外するためのプロセス(例えば、S1ヌクレアーゼまたはマングビーンヌクレアーゼなどの一本鎖特異的ヌクレアーゼ)の使用を、同様の目的で利用することができる。
【0051】
さらなる実施形態では、本明細書に記載のデュプレックス配列決定ステップから生成される配列決定リードをさらにフィルタリングして、偽二重鎖のアーチファクトに最もなりやすいリードの末端をトリミングすることによって、偽の変異を除外することができる。例えば、DNA断片化は、二本鎖分子の末端に一本鎖部分を生成することができる。これらの一本鎖部分は、末端修復中に末端平滑化されてもよい(例えば、KlenowまたはT4ポリメラーゼによって)。一部の例では、ポリメラーゼは、これらの末端修復した領域においてコピーの誤りを起こし、「偽の二重鎖分子」の生成を引き起こす。ライブラリ調製のこれらのアーチファクトは、配列決定されたときに真の変異であると誤って見えてしまう場合がある。これらの末端修復機構の結果としてのエラーは、より高いリスクを有する領域で生じる可能性がある変異を除外するために配列決定リードの末端をトリミングすることによって、配列決定後の分析から除外することができるか、または減少させることができ、それにより、偽の変異の数を減少させることができる。一実施形態では、配列決定リードのこのようなトリミングは、自動的に達成することができる(例えば、通常の処理ステップ)。別の実施形態では、変異頻度は、断片末端領域について評価することができ、変異の閾値レベルが断片末端領域で観察される場合、DNA断片の二本鎖コンセンサス配列リードを生成する前に、配列決定リードのトリミングを行ってもよい。
【0052】
具体例として、一部の実施形態では、本明細書では、二本鎖標的核酸物質のエラー修正配列リードを生成する方法が提供され、二本鎖標的核酸物質を、少なくとも1つのアダプター配列にライゲーションして、アダプター-標的核酸物質複合体を形成するステップを含み、ここで、少なくとも1つのアダプター配列は、(a)二本鎖標的核酸物質の各分子を固有に標識する縮重または半縮重した単一分子識別子(SMI)配列と、(b)アダプター-標的核酸物質複合体の各鎖が、その相補鎖に対して明確に特定可能なヌクレオチド配列を有するように、アダプター-標的核酸物質複合体の第1の鎖をタグ付けする第1のヌクレオチドアダプター配列、およびアダプター-標的核酸物質複合体の第2の鎖をタグ付けする第1のヌクレオチド配列と少なくとも部分的に相補的な第2のヌクレオチドアダプター配列とを含む。次に、本方法は、アダプター-標的核酸物質複合体の各鎖を増幅して、複数の第1の鎖のアダプター-標的核酸複合体アンプリコン、および複数の第2の鎖のアダプター-標的核酸複合体アンプリコンを生成するステップを含んでいてもよい。本方法は、さらに、その第1および鎖の両方を増幅して、第1の核酸産物および第2の核酸産物を提供するステップを含んでいてもよい。本方法はまた、第1の核酸産物および第2の核酸産物の各々を配列決定して、複数の第1の鎖の配列リードおよび複数の第2の鎖の配列リードを生成するステップと、少なくとも1つの第1の鎖の配列リードおよび少なくとも1つの第2の鎖の配列リードの存在を確認するステップと、を含んでいてもよい。本方法は、さらに、少なくとも1つの第1の鎖の配列リードと少なくとも1つの第2の鎖の配列リードとを比較することと、一致しないヌクレオチド位置を考慮しないことによって、二本鎖標的核酸物質のエラー修正配列リードを生成すること、または代わりに、比較された第1の鎖の配列リードと第2の鎖の配列リードが非相補的な1つ以上のヌクレオチド位置を有する、比較された第1の鎖の配列リードと第2の鎖の配列リードを除去することとを含んでいてもよい。
【0053】
さらなる具体例として、一部の実施形態では、本明細書では、試料からDNAバリアントを特定する方法が提供され、核酸物質(例えば、二本鎖標的DNA分子)の両方の鎖を、少なくとも1つの非対称アダプター分子にライゲーションして、二本鎖標的DNA分子の第1の鎖(例えば、上鎖)に関連付けられた第1のヌクレオチド配列と、二本鎖標的DNA分子の第2の鎖(例えば、下鎖)に関連付けられた第1のヌクレオチド配列に少なくとも部分的に非相補的な第2のヌクレオチド配列と、を有するアダプター-標的核酸物質複合体を形成するステップと、アダプター-標的核酸物質の各鎖を増幅するステップとを含み、各々の鎖において、増幅されたアダプター-標的核酸産物の別個でしかも関連したセットを生成する。本方法は、さらに、複数の第1の鎖のアダプター-標的核酸産物および複数の第2の鎖のアダプター-標的核酸産物の各々を配列決定するステップと、アダプター-標的核酸物質複合体の各鎖からの少なくとも1つの増幅された配列リードの存在を確認するステップと、第1の鎖から得られた少なくとも1つの増幅された配列リードと、第2の鎖から得られた少なくとも1つの増幅された配列リードとを比較して、核酸物質(例えば、二本鎖標的DNA分子)の両方の鎖の配列が一致しているヌクレオチド塩基のみを有する核酸物質(例えば、二本鎖標的DNA分子)のコンセンサス配列リードを形成するステップと、を含むことができ、その結果、コンセンサス配列リード中の特定の位置で生じるバリアント(例えば、参照配列と比較して)が、真のDNAバリアントとして特定される。
【0054】
一部の実施形態では、本明細書では、二本鎖核酸物質から高精度のコンセンサス配列を生成する方法が提供され、個々の二重鎖DNA分子をアダプター分子でタグ付けして、タグ付けDNA物質を形成するステップであって、各アダプター分子は、(a)二重鎖DNA分子を固有に標識する縮重または半縮重した単一分子識別子(SMI)、および(b)各々のタグ付けDNA分子について、タグ付けDNA物質内の各々の個々のDNA分子の元の下鎖から、元の上鎖を区別する第1および第2の非相補的ヌクレオチドアダプター配列、を含む、タグ付けDNA物質を形成するステップと、タグ付けDNA分子の元の上鎖の複製のセットおよびタグ付けDNA分子の元の下鎖の複製のセットを生成して、増幅されたDNA物質を形成するステップと、を含む。本方法は、さらに、元の上鎖の複製からの第1の一本鎖コンセンサス配列(SSCS)、および元の下鎖の複製からの第2の一本鎖コンセンサス配列(SSCS)を生成するステップと、元の上鎖の第1のSSCSと、元の下鎖の第2のSSCSとを比較するステップと、元の上鎖の第1のSSCSおよび元の下鎖の第2のSSCSの両方の配列が相補的であるヌクレオチド塩基のみを有する高精度のコンセンサス配列を生成するステップと、を含み得る。
【0055】
さらなる実施形態では、本明細書では、混合物由来の核酸のドナー源を検出および/または定量する方法が提供され、混合物中の各二本鎖標的DNA分子の両方の鎖を、少なくとも1つの非対称アダプター分子にライゲーションして、複数のアダプター-標的DNA複合体を形成するステップであって、各アダプター-標的DNA複合体は、二本鎖標的DNA分子の第1の鎖と関連付けられた第1のヌクレオチド配列と、二本鎖標的DNA分子の第2の鎖と関連付けられた第1のヌクレオチド配列に少なくとも部分的に非相補的な第2のヌクレオチド配列とを有する、形成するステップと、各々のアダプター標的DNA複合体について、アダプター標的DNA複合体の各鎖を増幅するステップと、を含み、各鎖において、増幅されたアダプター-標的DNAアンプリコンの別個でしかも関連するセットを生成する。本方法は、さらに、複数の第1の鎖のアダプター-標的DNAアンプリコンおよび複数の第2の鎖のアダプター-標的DNAアンプリコンの各々を配列決定するステップと、アダプター-標的DNA複合体の各鎖から少なくとも1つの配列リードの存在を確認するステップと、第1の鎖から得られた少なくとも1つの配列リードと第2の鎖から得られた少なくとも1つの配列リードとを比較して、二本鎖DNA分子の一方の鎖の配列リードが、二本鎖DNA分子の他方の鎖の配列リードと一致していない(例えば、非相補的な)ヌクレオチド塩基を検出および/または定量するステップと、を含んでいてもよく、その結果、DNA損傷の部位(複数可)を検出および/または定量することができる。一部の実施形態では、本方法は、さらに、第1の鎖のアダプター-標的DNAアンプリコンからの第1の一本鎖コンセンサス配列(SSCS)および第2の鎖のアダプター-標的DNAアンプリコンからの第2の一本鎖コンセンサス配列(SSCS)を生成するステップと、元の第1の鎖の第1のSSCSおよび元の第2の鎖の第2のSSCSを比較するステップと、第1のSSCSの配列と第2のSSCSの配列が非相補的であるヌクレオチド塩基を特定して、混合物由来の核酸のドナー源を検出および/または定量するステップと、を含み得る。
【0056】
単一分子識別子配列(SMI)
様々な実施形態に従い、提供される方法および組成物は、核酸物質の各鎖上に1つ以上のSMI配列を含む。SMIは、二本鎖核酸分子から得られる各々の一本鎖によって独立して保有されていてもよく、その結果、各々の鎖の誘導体増幅産物が、配列決定後に同じ元の実質的に固有の二本鎖核酸分子に由来するものであると認識され得る。一部の実施形態では、SMIは、さらなる情報を含んでいてもよく、および/または当業者が認識するように、機能性を区別するこのような分子が有用である他の方法において使用されてもよい。一部の実施形態では、SMI要素は、核酸物質にアダプター配列をライゲーションする前、実質的に同時、または後に組み込まれてもよい。
【0057】
一部の実施形態では、SMI配列は、少なくとも1つの縮重または半縮重した核酸を含んでいてもよい。他の実施形態では、SMI配列は、縮重していなくてもよい。一部の実施形態では、SMIは、核酸分子の断片末端(例えば、ライゲーションされた核酸物質の無作為に、または半無作為に剪断された末端)またはその近傍と関連付けられた配列であってもよい。一部の実施形態では、外因性配列は、例えば、単一のDNA分子を互いに区別することが可能なSMI配列を得るために、ライゲーションされた核酸物質(例えば、DNA)の無作為に、または半無作為に剪断された末端に対応する配列と組み合わせて考慮されてもよい。一部の実施形態では、SMI配列は、二本鎖核酸分子にライゲーションされるアダプター配列の一部である。特定の実施形態では、SMI配列を含むアダプター配列は、二本鎖核酸分子の各鎖が、アダプター配列にライゲーションする後にSMIを含むような、二本鎖である。別の実施形態では、SMI配列は、二本鎖核酸分子にライゲーションする前または後に一本鎖であり、相補的SMI配列は、その逆鎖をDNAポリメラーゼを用いて伸長して、相補的二本鎖SMI配列を得ることによって生成されてもよい。他の実施形態では、SMI配列は、アダプターの一本鎖部分にある(例えば、Y字型を有するアダプターのアーム)。このような実施形態では、SMIは、二本鎖核酸分子の元の鎖に由来する配列リードのファミリーのグループ化を容易にすることができ、一部の例では、二本鎖核酸分子の元の第1の鎖と第2の鎖との間の関係を付与することができる(例えば、SMIの全てまたは一部は、ルックアップテーブルを介して関連付けられる)。実施形態では、第1の鎖および第2の鎖が異なるSMIで標識される場合、2つの元の鎖からの配列リードは、1つ以上の内因性SMI(例えば、核酸分子の断片末端または断片末端付近と関連付けられる配列などの断片特異的な特徴)を使用して関連付けられてもよく、または2つの元の鎖によって共有されるさらなる分子タグ(例えば、アダプターの二本鎖部分中のバーコード)の使用によって関連付けられてもよく、またはこれらの組み合わせであってもよい。一部の実施形態では、各SMI配列は、約1~約30核酸(例えば、1、2、3、4、5、8、10、12、14、16、18、20、またはそれ以上の縮重または半縮重した核酸)を含んでいてもよい。
【0058】
一部の実施形態では、SMIは、核酸物質およびアダプター配列の片方または両方にライゲーション可能である。一部の実施形態では、SMIは、核酸物質のT-オーバーハング、A-オーバーハング、CG-オーバーハング、脱ヒドロキシル化塩基、および平滑末端、のうちの少なくとも1つにライゲーションされてもよい。
【0059】
一部の実施形態では、SMIの配列は、単一の核酸分子を互いに区別することが可能なSMI配列を得るために、例えば、核酸物質(例えば、ライゲーションされた核酸物質)の無作為または半無作為に剪断された末端に対応する配列と組み合わせて(またはこれに従って設計されて)考慮されてもよい。
【0060】
一部の実施形態では、少なくとも1つのSMIは、例えば、剪断点自体を使用して、または剪断点に直接隣接した核酸物質中の所定の数のヌクレオチド[例えば、剪断点から2、3、4、5、6、7、8、9、10ヌクレオチド]を使用して、内因性SMIであってもよい(例えば、剪断点に関連するSMI(例えば、断片末端))。一部の実施形態では、少なくとも1つのSMIは、外因性SMI(例えば、標的核酸物質にはみられない配列を含むSMI)であってもよい。
【0061】
一部の実施形態では、SMIは、画像化部分(例えば、蛍光または別の光学的に検出可能な部分)であってもよく、または画像化部分を含んでいてもよい。一部の実施形態では、このようなSMIは、増幅ステップを必要とすることなく、検出および/または定量を可能にする。
【0062】
一部の実施形態では、SMI要素は、アダプター-標的核酸複合体上の異なる位置に位置する2つ以上の別個のSMI要素を含んでいてもよい。
【0063】
SMIの様々な実施形態は、国際特許公開第WO2017/100441号にさらに開示されており、その全体が参照により本明細書に援用される。
【0064】
鎖定義要素(SDE)
一部の実施形態では、二本鎖核酸物質の各鎖は、さらに、標的二本鎖核酸物質を形成する2つの一本鎖核酸の増幅産物を、配列決定後に実質的に互いに区別可能にする要素を含んでいてもよい。一部の実施形態では、SDEは、配列決定アダプター内に含まれる非対称プライマー部位であってもよく、またはこの部位を含んでいてもよく、あるいは他の配置において、配列非対称性を、プライマー配列内ではなくアダプター配列内に導入してもよく、その結果、第1の鎖の標的核酸配列複合体と標的核酸配列複合体の第2の鎖のヌクレオチド配列における少なくとも一つの位置が、増幅および配列決定の後で互いに異なっている。他の実施形態では、SDEは、標準的ヌクレオチド配列A、T、C、GまたはUとは異なるが、2つの増幅され配列決定された分子において少なくとも1つの標準的ヌクレオチド配列の差に変換される、2つの鎖間の別の生化学的非対称性を含んでいてもよい。さらに別の実施形態では、SDEは、増幅前に2つの鎖を物理的に分離する手段であってもよく、またはこの手段を含んでいてもよく、その結果、第1の鎖の標的核酸配列および第2の鎖の標的核酸配列からの誘導体増幅産物は、2つの誘導体増幅産物間の区別を維持する目的で、互いに実質的に物理的に分離された状態を維持する。第1の鎖と第2の鎖を区別することを可能にするSDE機能を提供するための他のこのような配置または方法論が利用されてもよい。
【0065】
一部の実施形態では、SDEは、ループ(例えば、ヘアピンループ)を形成することが可能であってもよい。一部の実施形態では、ループは、少なくとも1つのエンドヌクレアーゼ認識部位を含んでいてもよい。一部の実施形態では、標的核酸複合体は、ループ内の切断事象を容易にするエンドヌクレアーゼ認識部位を含んでいてもよい。一部の実施形態では、ループは、非標準的(non-canonical)ヌクレオチド配列を含んでいてもよい。一部の実施形態では、含まれる非標準的ヌクレオチドは、鎖切断を容易にする1つ以上の酵素によって認識されてもよい。一部の実施形態では、含まれる非標準的ヌクレオチド配列は、ループ中の鎖切断を容易にする1つ以上の化学プロセスによって標的とされてもよい。一部の実施形態では、ループは、ループ中の鎖切断を容易にする1つ以上の酵素プロセス、化学プロセスまたは物理プロセスによって標的とされ得る、修飾された核酸リンカーを含んでいてもよい。一部の実施形態では、この修飾されたリンカーは、光開裂性リンカーである。
【0066】
様々な他の分子ツールが、SMIおよびSDEとして機能し得る。剪断点およびDNAに基づくタグ以外に、対になった鎖を物理的に近接した状態に維持する単分子コンパートメント化方法、または他の非核酸タグ付け方法は、鎖に関連する機能を果たし得る。同様に、アダプター鎖を物理的に分離し得る様式でのアダプター鎖の非対称化学標識は、SDEの役割を果たすことができる。近年記載されたデュプレックス配列決定の変形例は、亜硫酸水素変換を使用して、シトシンのメチル化の形態で天然に存在する鎖の非対称性を、2つの鎖を区別する配列の違いへと変換する。この実施態様は、検出され得る変異のタイプに制限があるが、天然の非対称を利用するこの概念は、修飾ヌクレオチドを直接的に検出することができる配列決定技術を出現させるという観点で注目すべきものである。SDEの様々な実施形態は、国際特許公開第WO2017/100441号にさらに開示されており、その全体が参照により本明細書に援用される。
【0067】
アダプターおよびアダプター配列
様々な配置で、SMI(例えば、分子バーコード)、SDE、プライマー部位、フローセル配列および/または他の特徴を含むアダプター分子は、本明細書に開示される実施形態の多くと共に使用することが企図される。一部の実施形態では、提供されるアダプターは、(1)高い標的特異性がある、(2)多重化が可能である、(3)強力かつバイアスが最小限の増幅を示す、という性質のうちの少なくとも1つを有するPCRプライマー(例えば、プライマー部位)に対して相補的または少なくとも部分的に相補的な1つ以上の配列であってもよく、またはこの配列を含んでいてもよい。
【0068】
一部の実施形態では、アダプター分子は、「Y」字型、「U」字型、「ヘアピン」型であってもよく、バブル(例えば、非相補配列の一部)を有していてもよく、または他の特徴を有し得る。他の実施形態では、アダプター分子は、「Y」字型、「U」字型、「ヘアピン」型、またはバブルを含み得る。特定のアダプターは、修飾ヌクレオチドまたは非標準的ヌクレオチド、制限部位、またはインビトロで構造もしくは機能を操作するための他の特徴を含んでいてもよい。アダプター分子は、末端を有する様々な核酸物質にライゲーションしてもよい。例えば、アダプター分子は、核酸物質のT-オーバーハング、A-オーバーハング、CG-オーバーハング、複数ヌクレオチドオーバーハング、脱ヒドロキシル化塩基、平滑末端にライゲーションするのに適したものであってもよく、分子の末端は、標的の5’が脱リン酸化されているか、または別の状況で従来のライゲーションから遮断される。他の実施形態では、アダプター分子は、ライゲーション部位の5’鎖に脱リン酸化または他のライゲーションを防ぐ修飾を含んでいてもよい。後者の2つの実施形態では、このような戦略は、ライブラリ断片またはアダプター分子の二量体化を防ぐのに有用な場合がある。
【0069】
アダプター配列は、一本鎖の配列、二本鎖の配列、相補的な配列、非相補的な配列、部分的に相補的な配列、非対称配列、プライマーに結合する配列、フローセル配列、ライゲーション配列またはアダプター分子によって提供される他の配列を意味し得る。特定の実施形態では、アダプター配列は、オリゴヌクレオチドに相補的な配列によって増幅するために使用される配列を意味し得る。
【0070】
一部の実施形態では、提供される方法および組成物は、少なくとも1つのアダプター配列(例えば、核酸物質の5’末端および3’末端の各々に1つの、2つのアダプター配列)を含む。一部の実施形態では、提供される方法および組成物は、2つ以上のアダプター配列(例えば、3、4、5、6、7、8、9、10個、またはそれ以上)を含んでいてもよい。一部の実施形態では、アダプター配列の少なくとも2つは、互いに(例えば、配列によって)異なる。一部の実施形態では、各アダプター配列は、アダプター配列が互いに(例えば、配列によって)異なる。一部の実施形態では、少なくとも1つのアダプター配列は、少なくとも1つの他のアダプター配列の少なくとも一部に対して少なくとも部分的に非相補的である(例えば、少なくとも1つのヌクレオチドによって非相補的である)。
【0071】
一部の実施形態では、アダプター配列は、少なくとも1つの非標準的ヌクレオチドを含む。一部の実施形態では、非標準的ヌクレオチドは、脱塩基部位、ウラシル、テトラヒドロフラン、8-オキソ-7,8-ジヒドロ-2’デオキシアデノシン(8-オキソ-A)、8-オキソ-7,8-ジヒドロ-2’-デオキシグアノシン(8-オキソ-G)、デオキシイノシン、5’ニトロインドール、5-ヒドロキシメチル-2’-デオキシシチジン、イソ-シトシン、5’-メチル-イソシトシン、もしくはイソグアノシン、メチル化ヌクレオチド、RNAヌクレオチド、リボースヌクレオチド、8-オキソ-グアニン、光開裂性リンカー、ビオチン化ヌクレオチド、デスチオビオチンヌクレオチド、チオール修飾ヌクレオチド、アクリダイト修飾ヌクレオチド、イソ-dC、イソdG、2’-O-メチルヌクレオチド、イノシンヌクレオチド、ロック核酸、ペプチド核酸、5メチルdC、5-ブロモデオキシウリジン、2,6-ジアミノプリン、2-アミノプリンヌクレオチド、脱塩基ヌクレオチド、5-ニトロインドールヌクレオチド、アデニル化ヌクレオチド、アジドヌクレオチド、ジゴキシゲニンヌクレオチド、I-リンカー、5’ヘキシニル修飾ヌクレオチド、5-オクタジイニルdU、光開裂性スペーサー、非光開裂性スペーサー、クリックケミストリー適合性修飾ヌクレオチド、およびこれらの任意の組み合わせから選択される。
【0072】
一部の実施形態では、アダプター配列は、磁気特性を有する部分(すなわち、磁気部分)を含む。一部の実施形態では、この磁気特性は、常磁性である。アダプター配列が磁気部分を含む(例えば、磁気部分を含むアダプター配列にライゲーションされた核酸物質)一部の実施形態では、磁場が適用される場合、磁気部分を含むアダプター配列は、磁気部分を含まないアダプター配列(例えば、磁気部分を含まないアダプター配列にライゲーションされた核酸物質)から実質的に分離される。
【0073】
一部の実施形態では、少なくとも1つのアダプター配列は、SMIに対して5’に位置する。一部の実施形態では、少なくとも1つのアダプター配列は、SMIに対して3’に位置する。
【0074】
一部の実施形態では、アダプター配列は、1つ以上のリンカードメインを介して、SMIおよび核酸物質のうちの少なくとも1つに連結されてもよい。一部の実施形態では、リンカードメインは、ヌクレオチドで構成されていてもよい。一部の実施形態では、リンカードメインは、少なくとも1つの修飾ヌクレオチドまたは非ヌクレオチド分子(例えば、本開示の他箇所に記載されるもの)を含んでいてもよい。一部の実施形態では、リンカードメインは、ループであってもよいか、またはループを含んでいてもよい。
【0075】
一部の実施形態では、二本鎖核酸物質の各鎖の片方または両方の末端上のアダプター配列は、さらに、SDEを提供する1つ以上の要素を含んでいてもよい。一部の実施形態では、SDEは、アダプター配列内に含まれる非対称プライマー部位であってもよいか、またはこの部位を含んでいてもよい。
【0076】
一部の実施形態では、アダプター配列は、少なくとも1つのSDE、および少なくとも1つのライゲーションドメイン(すなわち、少なくとも1つのリガーゼの活性に修正可能なドメイン、例えば、リガーゼの活性を通して核酸物質にライゲーションするのに好適なドメイン)であってもよいか、またはこれらを含んでいてもよい。一部の実施形態では、5’から3’まで、アダプター配列は、プライマー結合部位、SDEおよびライゲーションドメインであってもよいか、またはこれらを含んでいてもよい。
【0077】
デュプレックス配列決定アダプターを合成するための様々な方法は、例えば、米国特許第9,752,188号、国際特許公開第WO2017/100441号および国際特許公開第PCT/US18/59908号(2018年11月8日に出願された)に既に記載されており、これらは全て、それらの全体が参照により本明細書に援用される。
【0078】
プライマー
一部の実施形態では、(1)高い標的特異性がある、(2)多重化が可能である、(3)強力かつバイアスが最小の増幅を示す、という特性のうちの少なくとも1つを有する1つ以上のPCRプライマーは、本技術の態様に従う様々な実施形態における使用が企図される。多くの従来の試験および商業製品は、従来のPCR-CEについての特定のこれらの基準を満たすプライマー混合物を設計している。しかしながら、これらのプライマー混合物は、MPSと共に使用するのに常に適しているというわけではないことを注記しておく。実際に、高度に多重化されたプライマー混合物を開発することは、挑戦的なことであり、時間がかかるプロセスであり得る。簡便には、IlluminaおよびPromegaの両者は、様々な標準的および非標準的なSTRおよびSNP遺伝子座の強力で効率的な増幅を示すIlluminaプラットフォームのための多重互換性プライマー混合物を近年開発した。これらのキットは、PCRを使用して、配列決定前にその標的領域を増幅するため、ペアエンド配列決定データにおける各リードの5’末端は、DNAを増幅するために使用されるPCRプライマーの5’末端に対応する。一部の実施形態では、提供される方法および組成物は、均一な増幅を確実にするように設計されたプライマーを含み、これは、様々な反応濃度、融解温度、および二次構造とプライマー内/プライマー間の相互作用を最小限にすること、を伴っていてもよい。高度に多重化されたプライマーの最適化について、例えば、当該技術分野で記載され、しばしばampliseq方法として知られている技術などのMPSの用途のために、多くの技術が記載されてきた。
【0079】
増幅
提供される方法および組成物は、様々な実施形態では、核酸物質(またはその一部、例えば、特定の標的領域または遺伝子座)を増幅し、増幅された核酸物質(例えば、アンプリコン産物のいくつかのメンバー)を形成する、少なくとも1つの増幅ステップを利用するか、または使用する。
【0080】
一部の実施形態では、核酸物質を増幅することは、SMI配列が少なくとも部分的に維持されるように、第1のアダプター配列中に存在する配列に少なくとも部分的に相補的な少なくとも1つの一本鎖オリゴヌクレオチドを使用して、元の二本鎖核酸物質からの第1の核酸鎖および第2の核酸鎖の各々に由来する核酸物質を増幅するステップを含む。増幅ステップは、さらに、第2の一本鎖オリゴヌクレオチドを使用して、目的の各鎖を増幅することを含み、このような第2の一本鎖オリゴヌクレオチドは、(a)目的の標的配列に少なくとも部分的に相補的であってもよく、または(b)少なくとも1つの一本鎖オリゴヌクレオチドと第2の一本鎖オリゴヌクレオチドが、核酸物質を効果的に増幅するように配向される様式で、第2のアダプター配列中に存在する配列に少なくとも部分的に相補的であってもよい。
【0081】
一部の実施形態では、試料中の核酸物質を増幅することは、「チューブ」(例えば、PCRチューブ)内で、エマルジョン液滴、マイクロチャンバ、および上に記載の他の例または他の既知の容器内で、核酸物質を増幅することを含んでいてもよい。
【0082】
一部の実施形態では、少なくとも1つの増幅するステップは、少なくとも1つの非標準的ヌクレオチドであるか、またはそれを含む少なくとも1つのプライマーを含む。一部の実施形態では、非標準的ヌクレオチドは、ウラシル、メチル化ヌクレオチド、RNAヌクレオチド、リボースヌクレオチド、8-オキソ-グアニン、ビオチン化ヌクレオチド、ロック核酸、ペプチド核酸、高Tm核酸バリアント、アレルを区別する核酸バリアント、本明細書の他の箇所に記載される任意の他のヌクレオチドもしくはリンカーバリアント、またはこれらの任意の組み合わせから選択される。
【0083】
任意の用途に適した増幅反応が、一部の実施形態に適合することが企図されるが、具体例として、一部の実施形態では、増幅ステップは、ポリメラーゼ連鎖反応(PCR)、ローリングサークル増幅(RCA)、多置換増幅(MDA)、等温増幅、エマルジョン内のポロニー増幅、表面、ビーズの表面、またはヒドロゲル内でのブリッジ増幅、およびこれらの任意の組み合わせ、であってもよく、またはこれらを含んでいてもよい。
【0084】
一部の実施形態では、核酸物質を増幅することは、核酸物質の各鎖の5’末端および3’末端上のアダプター配列の領域に少なくとも部分的に相補的な一本鎖オリゴヌクレオチドの使用を含む。一部の実施形態では、核酸物質を増幅することは、目的の標的領域または標的配列(例えば、ゲノム配列、ミトコンドリア配列、プラスミド配列、合成的に生成された標的核酸など)に少なくとも部分的に相補的な少なくとも1つの一本鎖オリゴヌクレオチドと、アダプター配列のある領域(例えば、プライマー部位)に少なくとも部分的に相補的な一本鎖オリゴヌクレオチドと、の使用を含む。
【0085】
一般に、安定した増幅(例えば、PCR増幅)は、反応条件に大きく依存し得る。マルチプレックスPCRは、例えば、緩衝液の組成、一価または二価カチオンの濃度、洗剤濃度、クラウディング剤(すなわち、PEG、グリセロールなど)の濃度、プライマー濃度、プライマーTm、プライマー設計、プライマーGC含有量、プライマー修飾ヌクレオチド特性およびサイクリング条件(すなわち、温度および伸長時間、ならびに温度変化速度)に対して感受性な場合がある。緩衝液の条件の最適化は、困難かつ時間がかかるプロセスである場合がある。一部の実施形態では、増幅反応は、既に知られている増幅プロトコルに従って、緩衝液、プライマープール濃度、およびPCR条件、のうちの少なくとも1つを使用してもよい。一部の実施形態では、新しい増幅プロトコルが作成されてもよく、および/または増幅反応の最適化が使用されてもよい。具体例として、一部の実施形態では、PCR最適化キット、例えば、Promega(登録商標)のPCR最適化キットを使用してもよく、このキットは、様々なPCR増幅(例えば、マルチプレックス、リアルタイム、GCリッチおよび阻害剤耐性増幅)に部分的に最適化された、いくつかの予め配合された緩衝液を含む。これらの予め配合された緩衝液は、様々なMg2+濃度およびプライマー濃度およびプライマープール比で迅速に補充することができる。これに加え、一部の実施形態では、様々なサイクリング条件(例えば、サーマルサイクリング)が、評価および/または使用されてもよい。特定の実施形態が、特定の所望の用途に適切であるかどうかを評価する際に、様々な側面の中でも、特異性、ヘテロ接合性遺伝子座についてのアレルカバレッジ比、遺伝子座間のバランスおよび深度、のうちの1つ以上を評価してもよい。増幅成功の測定は、産物のDNA配列決定、ゲルまたはキャピラリー電気泳動またはHPLCまたは他のサイズ分離方法と、その後の断片の視覚化による産物の評価、二本鎖核酸結合色素または蛍光プローブを使用する融解曲線分析、質量分析法または当該技術分野で知られている他の方法を含んでいてもよい。
【0086】
様々な実施形態に従って、様々な因子のいずれかが、特定の増幅ステップの長さ(例えば、PCR反応中のサイクル数など)に影響を与えることがある。例えば、一部の実施形態では、提供される核酸物質は、品質が劣っているか、さもなければ最適ではない場合がある(例えば、分解および/または汚染されている)。このような場合、より長い増幅ステップが、所望の産物が許容される程度に増幅されることを確実にするのに役に立つことがある。一部の実施形態では、増幅ステップは、各々の出発DNA分子から平均で3~10個の配列決定されたPCRコピーを提供し得るが、他の実施形態では、第1の鎖および第2の鎖の各々の単一コピーだけが必要とされる。特定の理論に縛られることを望むものではないが、多すぎるまたは少なすぎるPCRコピーは、アッセイ効率を低下させ、最終的には深度が低下する可能性がある。一般に、増幅(例えば、PCR)反応に使用される核酸(例えば、DNA)断片の数は、同じSMI/バーコード配列を共有するリードの数を規定し得る、主要な調節可能な変数である。
【0087】
核酸物質
タイプ
様々な実施形態に従って、様々な核酸物質のうちいずれかを使用してもよい。一部の実施形態では、核酸物質は、標準的糖-リン酸骨格内のポリヌクレオチドに対する少なくとも1つの修飾を含んでいてもよい。一部の実施形態では、核酸物質は、核酸物質中の任意の塩基内に少なくとも1つの修飾を含んでいてもよい。例えば、非限定的な例として、一部の実施形態では、核酸物質は、二本鎖DNA、一本鎖DNA、二本鎖RNA、一本鎖RNA、ペプチド核酸(PNA)、ロック核酸(LNA)のうちの少なくとも1つであるか、またはこれらを含む。
【0088】
修飾
様々な実施形態に従って、核酸物質は、特定の提供される方法または組成物が使用される用途に応じて、任意の特定のステップの前に、実質的に同時に、またはその後に、1つ以上の修飾を受けてもよい。
【0089】
一部の実施形態では、修飾は、核酸物質の少なくとも一部の修復であってもよく、またはそれを含んでいてもよい。核酸修復の任意の用途に適した方法が、一部の実施形態に適合すると企図されるものの、したがって特定の例示的な方法および組成物を以下に記載し、実施例に記載する。
【0090】
非限定的な例として、一部の実施形態では、DNA修復酵素、例えば、ウラシル-DNAグリコシラーゼ(UDG)、ホルムアミドピリミジンDNAグリコシラーゼ(FPG)および8-オキソグアニンDNAグリコシラーゼ(OGG1)を利用して、DNA損傷(例えば、インビトロでのDNA損傷)を修正することができる。上述のように、これらのDNA修復酵素は、例えば、DNAから損傷した塩基を除去するグリコシラーゼである。例えば、UDGは、(シトシンの自発的な加水分解によって生じる)シトシンの脱アミノ化から生じるウラシルを除去し、FPGは、8-オキソ-グアニン(例えば、活性酸素種から生じる最も一般的なDNA損傷)を除去する。FPGは、リアーゼ活性も有し、脱塩基部位に1塩基ギャップを生成することができる。このような脱塩基部位は、例えば、ポリメラーゼがテンプレートをコピーすることができないため、その後にPCRによって増幅することができない。したがって、このようなDNA損傷修復酵素の使用は、真の変異を有していないが、配列決定および二重鎖配列分析の後に別の状況でエラーとして検出されない可能性がある損傷DNAを効果的に除去することができる。
【0091】
上述のように、さらなる実施形態では、本明細書に記載の処理ステップから生成される配列決定リードをさらにフィルタリングして、アーチファクトに最もなりやすいリードの末端をトリミングすることによって、偽の変異を除外することができる。例えば、DNA断片化は、二本鎖分子の末端に一本鎖部分を生成することができる。これらの一本鎖部分は、末端修復中に末端平滑化されてもよい(例えばKlenowによって)。一部の例では、ポリメラーゼは、これらの末端修復した領域においてコピーの誤りを起こし、「偽の二重鎖分子」の生成を引き起こす。これらのアーチファクトは、配列決定されたときに真の変異であると見えてしまう場合がある。これらの末端修復機構の結果としてのエラーは、生じる可能性がある変異を除外するために配列決定リードの末端をトリミングすることによって、配列決定後の分析から除外することができ、それにより、偽の変異の数を減少させることができる。一部の実施形態では、配列決定リードのこのようなトリミングは、自動的に達成することができる(例えば、通常の処理ステップ)。一部の実施形態では、変異頻度は、断片末端領域について評価することができ、変異の閾値レベルが断片末端領域で観察される場合、DNA断片の二本鎖コンセンサス配列リードを生成する前に、配列決定リードのトリミングを行うことができる。
【0092】
デュプレックス配列決定の鎖比較技術によって提供される高度なエラー修正は、標準的な次世代配列決定方法と比較して、二本鎖核酸分子の配列決定エラーを数桁程度減少させる。このエラーの減少は、ほぼ全てのタイプの配列において、配列決定の精度を向上させるが、特にエラーが起こりやすいことが当該技術分野でよく知られている生化学的に厳しい配列にとって特に十分に適している場合がある。このようなタイプの配列の非限定的な一例は、ホモポリマーまたは他のマイクロサテライト/ショートタンデムリピートである。デュプレックス配列決定のエラー修正の恩恵を受けるエラーを起こしやすい配列の別の非限定的な例は、例えば、加熱、放射線、機械的ストレス、または様々な化学曝露(1つ以上のヌクレオチドポリメラーゼによる複製の最中にエラーを起こしやすい化学付加物を生成する)、によって損傷を受けた分子である。さらなる実施形態では、デュプレックス配列決定はまた、二本鎖核酸分子の集団中の少数の配列バリアントの正確な検出にも使用することができる。本出願の非限定的な一例は、対象内の非癌組織由来の多数の未変異分子の中で、癌に由来する少数のDNA分子の検出である。デュプレックス配列決定による稀少なバリアントの検出のための別の非限定的な用途は、異なる遺伝子型を有する別の個体のDNAと低存在量で混在する1個体からのDNAの法医学的検出である。
【0093】
III.核酸混合物および混合細胞集団を解析するための方法の選択された実施形態
混合試料中の遺伝子型の特定および測定の問題は、法医学および細胞ベースの療法(例えば、幹細胞移植)を含む多様な分野で生じる。本技術の態様に従って、デュプレックス配列決定を使用して、逆重畳を使用し、核酸混合物中に存在する供給源特異的遺伝子型を特定することができる。特定の実施形態では、デュプレックス配列決定を使用して、生体試料混合物中に存在する個々の核酸分子上に存在するマイクロハプロタイプを特定する。一部の実施形態では、マイクロハプロタイプを使用して、複数の遺伝子型の複合混合物を逆重畳する。
【0094】
マイクロハプロタイプは、互いに比較的短い距離(例えば、200ヌクレオチド未満、250ヌクレオチド未満、300ヌクレオチド未満、350ヌクレオチド未満、またはそれ以上)内に2つ以上の非冗長ゲノムDNA SNPを含む小さなゲノム遺伝子座であり、これらは、一般に、同じリードまたはリードペアまたは配列決定リード内に含まれ得る多型遺伝子座の群として定義される。遺伝子型決定は、次世代DNA配列決定(NGS)、サンガー配列決定、超並列配列決定、ナノポア配列決定、一分子配列決定、ハイブリダイゼーションによる配列決定、または他の関連する方法、を使用して達成することができる。領域の長さは、純粋にヌクレオチドの長さによって定義されるのではなく、むしろ、使用される任意の遺伝子型決定プラットフォーム上で「段階的」単位として遺伝子型を決定することができる配列である。例えば、Illumina,Inc.(San Diego,CA,USA)またはThermo Fisher Scientific,Inc.(Waltham,MA,USA)が製造する多くの現代のNGSプラットフォームでは、リード長/ペアリード長は、数十~数百ヌクレオチド程度である。このような長さは、これらのプラットフォームを有するマイクロハプロタイプのための実用的なサイズである。例えば、Pacific Biosciences of California,Inc.(Menlo Park,CA,USA)およびOxford Nanopore Technologies,Ltd.(Oxford,UK)が製造するシーケンサーなどのより長い配列リード技術については、実質的に使用可能なマイクロハプロタイプの長さがかなり長い。以下の実施例について、明確性と実用性のために、数十~数百ヌクレオチドの長さのマイクロハプロタイプが示されるが、これは一般的な限定として解釈されるべきではない。マイクロハプロタイプは、3~14個超の別個のアレル、またはアレルの組み合わせを有し得る。そのような多アレル遺伝子座は、多成分混合物の文脈で特に有益であり得る。デュプレックス配列決定は、特定の遺伝子型が生物学的混合物中に非常に低いレベルで存在する場合であっても、マイクロハプロタイプの検出を可能にする様式で、標準的な次世代配列決定(NGS)および一本鎖コンセンサス配列決定方法のエラー率によって隠される希少なバリアントを解析することができる。所与のマイクロハプロタイプは、所与の混合物(すなわち、異なる個体由来の混合物中のDNA分子間のマイクロハプロタイプの間に差がない)、またはいくつかの個々の多型(例えば、少なくとも約2、3、4、5、6、7、8、9、10、11.12、15、20、24、またはそれ以上)について、ほとんどゼロの「有益な」個々の多型を有していてもよい。複合マイクロハプロタイプ遺伝子型の数は、いくつか(例えば、10超、20超、30超など)であってもよいが、混合物中の成分対象が遺伝子的に十分に異ならない場合、同様に、所与の混合物が有益であってもなくてもよい。
【0095】
一部の実施形態では、本技術の態様を使用して、混合物中に約10万分の1部のレベルで生体試料内に存在する遺伝子型を検出し、定量する。本技術の他の態様は、複数の既知の遺伝子型(例えば、約5、約10、約12、約15、約20、約25、約30、約35、約40、約45、約50など)からの混合比率を正確に定量することができる。他の実施形態では、本技術の態様を使用して、少なくとも約5個(例えば、約2個、約3個、約4個、約5個、約6個など)の未知の遺伝子型の混合物を逆重畳することができる(例えば、数値またはどの遺伝源が生体試料中に存在するかについての経験的もしくは事前の知識がない)。本技術のまたさらなる態様を使用して、混合物中の極めて低い存在量源の遺伝子型を部分的に回収することができる。例えば、このような実施形態は、法医学的用途、マイクロキメリズム分析(例えば、胎児マイクロキメリズム)、宿主における生着細胞の測定(例えば、幹細胞移植後)、および他の用途に有用である。さらなる実施形態は、複合混合物(例えば、最大で少なくとも約8個の個々の遺伝子型)においてデータベースからの対象の特定を対象とする。
【0096】
IV.遺伝子型の複合混合物の逆重畳のためのシステムおよび計算環境の実施形態
好適な計算環境
以下の考察は、本開示の態様が実装され得る好適な計算環境の一般的な説明を提供する。必須ではないが、本開示の態様および実施形態は、汎用コンピュータ(例えば、サーバまたはパーソナルコンピュータ)によって実行されるルーチンなどのコンピュータで実行可能な命令の一般的な観点で記載される。当業者であれば、本開示を、インターネット家電、携帯機器、ウェアラブルコンピュータ、セルラーホンまたは携帯電話、マルチプロセッサシステム、マイクロプロセッサを使用した家電またはプログラマブル家電、セットトップボックス、ネットワークPC、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステム構成を用いて実施することができることを理解するだろう。本開示は、以下に詳細に説明するコンピュータで1つ以上の実行可能な命令を実行するように具体的にプログラミングされ、構成されているか、または構築された特殊用途のコンピュータまたはデータプロセッサで具現化されてもよい。実際に、「コンピュータ」という用語は、本明細書で一般的に使用される場合、上述のデバイスのいずれかだけではなく、任意のデータプロセッサを指す。
【0097】
本開示は、分散型計算環境でも実施可能であり、タスクまたはモジュールは、リモート処理デバイスによって行われ、これらは、ローカルエリアネットワーク(「LAN」)、ワイドエリアネットワーク(「WAN」)またはインターネットなどの通信ネットワークを介して接続している。分散計算環境において、プログラムモジュールまたはサブルーチンは、ローカルメモリ記憶デバイスおよびリモートメモリ記憶デバイスの両方に配置されてもよい。以下に記載される本開示の態様は、チップ(例えば、EEPROMチップ)中のファームウェアに格納されているか、またはインターネットもしくは他のネットワーク(無線ネットワークを含む)によって電子的に分散される磁気および光学的に読み取り可能かつ除去可能なコンピュータディスクを含め、コンピュータ可読媒体に格納されるか、または分散されてもよい。当業者は、本開示の一部が、サーバコンピュータに存在していてもよく、一方、対応する部分がクライアントコンピュータに存在していてもよいことを理解するだろう。本開示の態様に特有のデータ構造およびデータの伝送も、本開示の範囲内に包含される。
【0098】
コンピュータの実施形態(例えば、パーソナルコンピュータまたはワークステーション)は、1つ以上のユーザ入力デバイスおよびデータ格納デバイスに接続した1つ以上のプロセッサを含んでいてもよい。コンピュータは、少なくとも1つの出力デバイス(例えば、表示デバイス)および1つ以上の任意選択的なさらなる出力デバイス(例えば、プリンタ、プロッタ、スピーカ、触覚または嗅覚による出力デバイスなど)にも接続していてもよい。コンピュータは、例えば、任意のネットワーク接続、無線送受信機、またはこれら両方によって、外部のコンピュータに接続していてもよい。
【0099】
様々な入力デバイスは、キーボードおよび/またはポインティングデバイス(例えば、マウス)を含んでいてもよい。マイクロホン、ジョイスティック、ペン、タッチスクリーン、スキャナ、デジタルカメラ、ビデオカメラなど、他の入力デバイスが可能である。さらなる入力デバイスは、配列決定機(複数可)(例えば、超並列シーケンサー)、蛍光鏡および他の実験機器などを含んでいてもよい。好適なデータ記憶デバイスは、コンピュータによってアクセス可能なデータを格納することが可能な任意のタイプのコンピュータ可読媒体、例えば、磁気ハードおよびフロッピーディスクドライブ、光学ディスクドライブ、磁気カセット、テープドライブ、フラッシュメモリカード、デジタルビデオディスク(DVD)、ベルヌーイカートリッジ、RAM、ROM、スマートカードなどを含んでいてもよい。実際に、ローカルエリアネットワーク(LAN)、ワイドエリアネットワーク(WAN)またはインターネットなどのネットワークに対する接続ポートまたはノードを含め、コンピュータ可読命令およびデータを格納または送信するための任意の媒体を使用してもよい。
【0100】
本開示の態様は、様々な他の計算環境で実施され得る。例えば、ネットワークインターフェースを備える分散計算環境は、システムに1つ以上のユーザコンピュータを含んでもよく、それらは、インターネットのワールドワイドウェブ部分内のウェブサイトを含めて、コンピュータにアクセスおよびインターネットとのデータ交換を可能にするブラウザプログラムモジュールを含んでいてもよい。ユーザコンピュータは、他のプログラムモジュール(例えば、オペレーティングシステム)、1つ以上のアプリケーションプログラム(例えば、ワードプロセシングまたはスプレッドシートアプリケーション)などを含んでいてもよい。コンピュータは、様々なタイプのアプリケーションを実行するようにプログラミング可能な汎用デバイスであってもよく、またはコンピュータは、特定の機能または機能群に最適化されるか、または限定される専用デバイスであってもよい。より重要なことに、ネットワークブラウザで示されるが、以下に詳細に記載されるように、ユーザにグラフィカルユーザインターフェースを提供するための任意のアプリケーションプログラムを使用してもよい。ウェブブラウザおよびウェブインターフェースの使用は、本明細書でよく知られている例としてのみ使用される。
【0101】
インターネットまたはワールドワイドウェブ(「ウェブ」)に接続した少なくとも1つのサーバコンピュータは、本明細書で記載する電子メッセージ(例えば、ウェブページ、データストリーム、音声信号および電子画像)を受信し、ルーティングし、格納するための機能の多くまたは全てを実行することができる。インターネットが示されているが、イントラネットなどのプライベートネットワークが、いくつかの用途では実際に好ましい場合がある。ネットワークは、クライアントサーバアーキテクチャを有していてもよく、このとき、コンピュータは、他のクライアントコンピュータにサービスを提供するための専用コンピュータであるか、またはピアツーピアなどの他のアーキテクチャを有していてもよく、このとき、1つ以上のコンピュータは、サーバおよびクライアントとして同時に機能する。サーバコンピュータ(複数可)に接続するデータベースまたは複数のデータベースは、ユーザコンピュータ間で交換されるウェブページおよびコンテンツの多くを格納することができる。データベース(複数可)を含むサーバコンピュータ(複数可)は、システムに対する悪意のある攻撃を阻止し、これに格納されるメッセージおよびデータの完全性を維持するためのセキュリティ対策(例えば、ファイアウォールシステム、セキュアソケットレイヤ(SSL)、パスワード保護システム、暗号化など)を採用していてもよい。
【0102】
好適なサーバコンピュータは、特に、サーバエンジン、ウェブページ管理要素、コンテンツ管理要素およびデータベース管理要素を含んでいてもよい。サーバエンジンは、基本的な処理と、オペレーションシステムレベルタスクを実行する。ウェブページ管理要素は、ウェブページの作成および表示またはルーティングを処理する。ユーザは、これに関連付けられたURLを用い、サーバコンピュータにアクセスしてもよい。コンテンツ管理要素は、本明細書に記載する実施形態の機能の大部分を処理する。データベース管理要素は、データベースに関する格納および検索タスク、データベースへのクエリ、データベースの読み込み書き出し機能、ならびに動画、グラフィックおよび音響信号などのデータの格納を含む。
【0103】
本明細書に記載される機能ユニットの多くは、それらの実装独立性をより特定的に強調するために、モジュールと分類されている。例えば、モジュールは、様々なタイプのプロセッサによる実行のためのソフトウェアで実装され得る。実行可能コードの識別されたモジュールは、例えば、コンピュータ命令の1つ以上の物理ブロックまたは論理ブロックを含み、この1つ以上の物理ブロックまたは論理ブロックは、例えば、オブジェクト、手順または機能として整理され得る。コンピュータ命令の特定されたブロックは、物理的に一緒に配置される必要はないが、異なる位置に格納される異なる命令を含んでいてもよく、論理的に共に結合された場合、モジュールを含み、そのモジュールの指定された目的を達成する。
【0104】
モジュールはまた、カスタムVLSI回路またはゲートアレイ、論理チップなどの既製品の半導体、トランジスタまたは他の別個の要素を含むハードウェア回路として実装されてもよい。モジュールはまた、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイスなどのプログラマブルハードウェアデバイスにも実装され得る。
【0105】
実行可能コードのモジュールは、単一の命令、または多くの命令であってもよく、異なるプログラムの中で、いくつかのメモリデバイスにわたって、いくつかの異なるコードセグメントにも分散されてもよい。同様に、操作データは、本明細書ではモジュール内で識別され、示されていてもよく、任意の好適な形態で具現化され、任意の好適なタイプのデータ構造に整理されていてもよい。操作データは、単一のデータセットとして収集されてもよく、または異なる記憶デバイスにわたって含む異なる位置に分散されてもよく、システムまたはネットワークに対する単なる電子信号として少なくとも部分的に存在していてもよい。
【0106】
核酸混合物の脱逆重畳のためのシステム
本発明は、さらに、核酸混合物を含む生体試料を処理し、有線または無線のネットワークを介して配列決定データをサーバに送信して、試料のエラー修正配列リード(例えば、二重鎖配列リード、二重鎖コンセンサス配列など)、遺伝子型特定、個々の/帰属性遺伝子型の定量などを決定する、システム(例えば、ネットワーク型コンピュータシステム、ハイスループット自動化システムなど)を含む。
【0107】
以下にさらに詳細に説明されるように、また、
図5に示される実施形態に関して、混合物中の核酸の逆重畳のためのコンピュータ化されたシステムは、(1)サーバと(例えば、リモートサーバ、またはローカルに格納されたサーバ)(2)配列決定データを生成および/または送信することが可能な複数のユーザ電子計算デバイスと、(3)任意選択的に、既知の遺伝子型および関連情報(任意)を含むデータベースと、(4)電子計算デバイス、データベース、およびサーバとの間の電子通信を伝送するための有線または無線のネットワークと、を備える。このサーバは、さらに、(a)逆重畳の記録の結果および遺伝子型プロファイル(例えば、マイクロハプロタイププロファイルなど)の記録を格納するデータベースと、(b)メモリに通信可能に接続された1つ以上のプロセッサおよびプロセッサ(複数可)のための命令を含む1つ以上の非一時的コンピュータ可読記憶デバイスまたは媒体と、を備え、当該プロセッサは、
図6~8に記載される1つ以上のステップを含む操作を行うための当該命令を実行するように構成されている。
【0108】
一実施形態では、本技術は、非一時的コンピュータ可読記憶媒体をさらに含み、1つ以上のプロセッサによって実行されるとき、混合物中の1つ以上の遺伝子型の存在の決定、混合物中の各特定された遺伝子型の定量、対象/個体の遺伝物質が混合物中に存在するデータベースからの対象/個体の同一性、複数の既知の遺伝子型からの混合比率の定量、複数の未知の遺伝子型の混合物の逆重畳など、の方法を行う命令を含む。特定の実施形態では、本方法は、
図6~8に記載の1つ以上のステップを含んでいてもよい。
【0109】
本技術のさらなる態様は、混合物中の1つ以上の遺伝子型の存在の決定、混合物中の各特定された遺伝子型の定量、対象/個体の遺伝物質が混合物中に存在するデータベースからの対象/個体の同一性、複数の既知の遺伝子型からの混合比率の定量、複数の未知の遺伝子型の混合物の逆重畳など、のコンピュータを用いた方法を対象とする。特定の実施形態では、本方法は、
図6~8に記載の1つ以上のステップを含んでいてもよい。
【0110】
図5は、生体試料からの核酸混合物を逆重畳するための本明細書に開示される方法を用いた使用のための、コンピュータシステム500のブロック図であり、コンピュータプログラム製品550がそれにインストールされている。
図5は、様々な計算システムの構成要素を示しているが、当業者に既知の他のまたは異なる構成要素(例えば上述のもの)が、本開示の態様が実装され得る好適な計算環境を提供し得ることが企図される。
図6は、本技術の一実施形態に従って、デュプレックス配列決定のコンセンサス配列データを提供するためのルーチンを示すフロー図である。
図7~
図8は、核酸混合物からの遺伝子型を特定および/または定量するための様々なルーチンを示すフロー図である。本技術の態様に従って、
図7~
図8に関して記載される方法は、例えば、試料内に表される独立した生物学的供給源の数、生物学的混合物中に存在する各生物学的供給源の定量、試料データと既知の遺伝子型のデータセットとの比較から導かれた情報(個々の対象の遺伝子型を含むデータベースを含む)を含む、試料に存在する遺伝子型を含む、試料データを提供することができる。
【0111】
図5に示されるように、コンピュータシステム500は、複数のユーザ計算デバイス502、504と、有線または無線のネットワーク510と、マイクロハプロタイプを分析し、核酸混合物を個々の遺伝子型に逆重畳するためのプロセッサを含むサーバ(「DupSeq(商標)サーバ」)540と、を含み得る。実施形態では、ユーザ計算デバイス502、504を使用して、配列決定データを生成および/または送信することができる。一実施形態では、計算デバイス502、504のユーザは、遺伝物質の2つ以上の生物学的供給源を含む核酸混合物の逆重畳のための生体試料のデュプレックス配列決定方法のステップなど、本技術の他の態様を行うユーザであってもよい。一実施例では、計算デバイス502、504のユーザは、本技術の一実施形態に従って、試薬および/またはアダプターを含むキット(1、2)を用いた特定のデュプレックス配列決定方法のステップを行って、生体試料を調査する。
【0112】
図示されるように、各ユーザ計算デバイス502、504は、少なくとも1つの中央処理ユニット506と、メモリ507と、ユーザとネットワークインターフェース508とを含む。一実施形態では、ユーザデバイス502、504は、デスクトップ、ラップトップまたはタブレットコンピュータを含む。
【0113】
2つのユーザ計算デバイス502、504が示されているが、任意の数のユーザ計算デバイスがシステム500の他の構成要素に含まれていてもよく、または接続されていてもよいことが企図される。これに加え、計算デバイス502、504はまた、試料を増幅し、配列決定するためのユーザ(1)およびユーザ(2)によって使用される複数のデバイスおよびソフトウェアの代表であってもよい。例えば、計算デバイスは、配列決定機(例えば、Illumina HiSeg(商標)、Ion Torrent(商標)PGM、ABI SOLiD(商標)シーケンサー、PacBio RS、Helicos Heliscope(商標)など)、リアルタイムPCR機(例えば、ABI 7900、Fluidigm BioMark(商標)など)、マイクロアレイ機器など、であってもよい。
【0114】
上に記載の構成要素に加えて、システム500は、さらに、遺伝子型プロファイルおよび関連する情報を格納するためのデータベース530を備えていてもよい。例えば、サーバ540によってアクセス可能なデータベース530は、マイクロハプロタイプ、既知の対象の遺伝子型、および出発物質の混合比率(例えば、細胞の混合物)の記録または収集物を含んでいてもよい。特定の実施例では、データベース530は、遺伝子型プロファイルを含む第三者のデータベース532であってもよい。例えば、既知の個体の遺伝子型を含む様々な法医学的データベースを、特定の用途に関して照会することができる。別の実施形態では、このデータベースは、サーバ540とは別個にホスティングされた自立型データベース530(プライベート、またはプライベートではないもの)であってもよく、またはデータベースは、サーバ540上にホスティングされていてもよく(例えばデータベース570)、経験的に導かれた遺伝子型プロファイル572を含む。一部の実施形態では、システム500を使用して新しい遺伝子型プロファイルを生成するとき、システム500および関連する方法(例えば、本明細書に記載の方法、例えば、
図6~8の方法)の使用から生成されるデータを、データベース530および/または570にアップロードしてもよく、そのため、さらなる遺伝子型プロファイル532、572が、将来の比較作業のために生成されてもよい。
【0115】
サーバ540は、ユーザ計算デバイス502、504からの配列決定データ(例えば、生の配列決定ファイル)および関連する情報を、ネットワーク510を介して受信し、計算し、分析するように構成されていてもよい。試料特有の生の配列決定データは、デバイス502、504にインストールされているか、もしくはネットワーク510を介してサーバ540からアクセス可能であるコンピュータプログラム製品/モジュール(配列モジュール505)を使用して、または当該技術分野で良く知られている他の配列決定ソフトウェアを使用して、ローカルに計算されてもよい。次いで、生の配列データは、ネットワーク510を介してサーバ540に送信されてもよく、ユーザ結果574は、データベース570に格納されてもよい。サーバ540は、データベース570から生の配列決定データを受信するように構成され、また、例えば、本明細書に開示されるデュプレックス配列決定技術を使用してエラー修正二本鎖の配列リードを計算的に生成するように構成された、プログラム製品/モジュール「DSモジュール」512も含む。DSモジュール512は、サーバ540上に示されているが、当業者は、DSモジュール512が、代替的にデバイス502、504、または別のサーバ(図示せず)上で動作するようにホスティングされ得ることを認識するであろう。
【0116】
サーバ540は、少なくとも1つの中央処理ユニット(CPU)560、ユーザとネットワークインターフェース562(またはサーバに接続されたインターフェースを有するサーバ専用の計算デバイス)、既知または未知の生物学的供給源572の遺伝子型プロファイルを格納するための複数のコンピュータファイル/記録、および試験された試料574に関する結果(例えば、生の配列決定データ、デュプレックス配列決定データ、マイクロハプロタイプ分析、遺伝子型分析など)を格納するためのファイル/記録を含むデータベース570(例えば上に記載のもの)、を含み得る。サーバ540は、さらに、本技術の態様に従って、遺伝子型コンピュータプログラム製品(遺伝子型モジュール)550を格納したコンピュータメモリ511を含む。
【0117】
コンピュータプログラム製品/モジュール550は、非一時的コンピュータ可読媒体で具現化され、コンピュータ(例えば、サーバ540)上で実行された場合、マイクロハプロタイプを検出および特定し、混合物を個々の遺伝子型に解析し、かつ/またはそれを定量するための本明細書に開示される方法のステップを行う。本開示の別の態様は、プロセッサに遺伝子型分析(例えば、マイクロハプロタイプの計算、特定されたマイクロハプロタイプの定量、寄与する生物学的供給源への混合物の解析、遺伝子型の比較レポートなど)を実施できるように具現化されたコンピュータ可読プログラムのコードまたは命令を有する非一時的コンピュータ使用可能媒体を含むコンピュータプログラム製品/モジュール550を含む。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能な装置にロードされて、マシンを生成してもよく、その結果、コンピュータまたは他のプログラム可能な装置で実行する命令が、本明細書に記載の機能またはステップを実装する手段を生成する。これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能な装置に特定の様式で機能させるように命令し得るコンピュータ可読メモリまたは媒体に格納されてもよく、その結果、コンピュータ可読メモリまたは媒体に格納される命令は、分析を実施する命令手段を含む製造物品を生成する。また、コンピュータプログラムの命令を、コンピュータまたは他のプログラム可能な装置にロードして、コンピュータまたは他のプログラム可能な装置で行われる一連の操作ステップに、コンピュータに実装されるプロセスを生成させてもよく、その結果、コンピュータまたは他のプログラム可能な装置で実行する命令は、上に記載の機能またはステップを実装するためのステップを提供する。
【0118】
さらに、コンピュータプログラム製品/モジュール550は、任意の好適な言語および/またはブラウザに実装されてもよい。例えば、Python、Java、Scala、C言語で実装されてもよく、好ましくは、オブジェクト指向高水準プログラミング言語、例えば、Visual Basic、SmallTalk、C++などを使用して実装されてもよい。アプリケーションは、Windows(商標)98、Windows(商標)2000、Windows(商標)NTなどを含むMicrosoft Windows(商標)環境などの環境に適するように書かれていてもよい。これに加え、アプリケーションは、Macintosh(商標)、SUN(商標)、UNIXまたはLINUX環境用に書かれていてもよい。これに加え、機能ステップは、ユニバーサルプログラミング言語またはプラットフォームに依存しないプログラミング言語を用いて実装されてもよい。このようなマルチプラットフォームプログラミング言語の例として、限定されないが、ハイパーテキストマークアップランゲージ(HTML)、JAVA(商標)、JavaScript(商標)、フラッシュプログラミング言語、コモンゲートウェイインターフェース/ストラクチャードクエリーランゲージ(CGI/SQL)、プラクティカルエクストラクションレポートランゲージ(PERL)、AppleScript(商標)および他のシステムスクリプト言語、プログラミングランゲージ/ストラクチャードクエリーランゲージ(PL/SQL)などが挙げられる。Java(商標)またはJavaScript(商標)対応ブラウザ、例えば、HotJava(商標)、Microsoft(商標)Explorer(商標)またはFirefox(商標)を使用してもよい。アクティブコンテンツウェブページが使用される場合、Java(商標)アプレットまたはActiveX(商標)コントロールまたは他のアクティブコンテンツ技術を含んでいてもよい。
【0119】
システムは、多くのルーチンを呼び出す。ルーチンのいくつかが本明細書に記載されるが、当業者は、システムが実行することができる他のルーチンを特定することができる。さらに、本明細書に記載されるルーチンは、様々な様式で変更することができる。例として、例示されたロジックの順序は、並べ替えてもよく、サブステップを並列で行ってもよく、例示されたロジックを省略してもよく、他のロジックを含んでもよい、など。
【0120】
図6は、試料(例えば、生物学的混合物からの試料)中の二本鎖核酸分子についてのデュプレックス配列決定データを提供するためのルーチン600を示すフロー図である。ルーチン600は、計算デバイス(例えば、クライアントコンピュータまたはコンピュータネットワークに接続するサーバコンピュータ)によって呼び出されてもよい。一実施形態では、計算デバイスは、配列データ生成部および/または配列モジュールを含む。一例として、計算デバイスは、操作者が計算デバイスと通信するユーザインターフェースに接続した後、ルーチン600を呼び出してもよい。
【0121】
ルーチン600は、ブロック602で開始し、配列モジュールは、ユーザ計算デバイスから生の配列データを受信し(ブロック604)、試料中の複数の核酸分子に由来する複数の生の配列リードを含む試料特有のデータセットを生成する(ブロック606)。一部の実施形態では、サーバは、後で処理するために、データベースに試料特有のデータセットを格納することができる。次に、DSモジュールは、試料特有のデータセット中の生の配列データから二重鎖コンセンサス配列決定データを生成するための要求を受信する(ブロック608)。DSモジュールは、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ分けし(例えばSMI配列に基づいて)、個々の鎖からの代表的な配列を互いに比較する(ブロック610)。一実施形態では、代表的な配列は、各々の元の核酸分子からの1つまたは1つより多い配列リードであってもよい。別の実施形態では、代表的な配列は、代表的な鎖内のアラインメントおよびエラー修正から生成される一本鎖コンセンサス配列(SSCS)であってもよい。このような実施形態では、第1の鎖からのSSCSを、第2の鎖からのSSCSと比較することができる。
【0122】
ブロック612で、DSモジュールは、比較された代表的な鎖間で相補性を有するヌクレオチド位置を特定する。例えば、DSモジュールは、比較された(例えば、アラインメントされた)配列リードに沿って、ヌクレオチド塩基コールが一致するヌクレオチド位置を特定する。さらに、DSモジュールは、比較された代表的な鎖間で相補性を有さない位置を特定する(ブロック614)。したがって、DSモジュールは、比較した(例えば、アラインメントした)配列リードに沿って、ヌクレオチド塩基コールが一致しないヌクレオチド位置を特定することができる。
【0123】
次に、DSモジュールは、試料中の二本鎖核酸分子についてのデュプレックス配列決定データを提供することができる(ブロック616)。このようなデータは、処理された配列リード各々について、二重鎖コンセンサス配列の形態であってもよい。二重鎖コンセンサス配列は、一実施形態では、元の核酸分子の各鎖からの代表的な配列が一致しているヌクレオチド位置のみを含んでいてもよい。したがって、一実施形態では、一致しない位置は、エラー修正された二重鎖コンセンサス配列が高精度の配列リードであるように、除外するか、または考慮しなくてもよい。別の実施形態では、デュプレックス配列決定データは、一致しないヌクレオチド位置をさらに分析することができるように(例えば、DNA損傷を評価することができる場合に)、一致しないヌクレオチド位置に対するレポート情報を含んでいてもよい。ルーチン600は、次いで、ブロック618に続き、そこで終了してもよい。
【0124】
図7は、既知の供給源の遺伝子型試料を決定するために、核酸混合物中に存在するマイクロハプロタイプを検出し、特定し、定量するためのルーチン700を示すフロー図である。このルーチンは、
図5の計算デバイスによって呼び出すことができる。ルーチン700は、ブロック702で開始し、遺伝子型モジュールは、
図6からのデュプレックス配列決定データを分析して(例えば、ブロック616の後)、個々のDNA分子内に存在するマイクロハプロタイプアレルの組み合わせを特定し(ブロック704)、各既知の供給源の遺伝子型から供与される各アレルの総数を合計する(ブロック706)。次に、遺伝子型モジュールは、例えば、回帰ベースのモデルを使用して、混合物中に存在する各遺伝子型の混合比率を計算する(ブロック708)。このように、マイクロハプロタイプ分析は、元の生物学的供給源および核酸混合物に寄与する各供給源の相対的な比率に関する情報を提供することができる。
【0125】
遺伝子型モジュールはまた、任意選択的に、各遺伝子型の混合比率を、元の混合比率と比較して(ブロック710)(例えば、一緒に増殖された異なる生物学的供給源由来の細胞の場合)、生物学的供給源の混合物(例えば、培養中の細胞の混合物)に対する選択圧を評価し得る。次に、遺伝子型モジュールは、データベース中の試料特有のデータセットに格納され得る遺伝子型データを提供することができる(ブロック712)。ルーチン700は、次いで、ブロック714に続き、そこで終了してもよい。
図9は、ルーチン2100を使用して決定され得、データベースに格納され得る遺伝子型データ(例えば、全てのマイクロハプロタイプにわたるカウント、既知の供給源の遺伝子型、混合比率)の一例を示す。
【0126】
図8は、試料中の未知の遺伝子型の核酸混合物を逆重畳するためのルーチン800を示すフロー図である。このルーチンは、
図5の計算デバイスによって呼び出すことができる。ルーチン800は、ブロック802で開始し、遺伝子型モジュールは、
図6からのデュプレックス配列決定データを分析し(例えば、ブロック616の後)、個々のDNA分子内に存在するマイクロハプロタイプアレルの組み合わせを特定する(ブロック804)。一部の実施形態では、SNPアレルの組み合わせは、例えば、ロングリード配列決定技術を利用する場合に、特定され得る。次に、遺伝子型モジュールは、各遺伝子座に存在する全ての可能な遺伝子型に対する全ての可能な混合比率を評価する(ブロック806)。次いで、遺伝子型モジュールは、各遺伝子座について、配列データ(例えば、SNPデータ、マイクロハプロタイプデータ)に十分に適合する全ての可能な遺伝子型のリスト、および評価される全ての可能な混合比率を計算する(ブロック808)。このため、マイクロハプロタイプ/SNP分析は、元の生物学的供給源に関する遺伝情報、存在する元の生物学的供給源の数に関する情報、および核酸混合物に寄与する各供給源の相対的な比率、を提供することができる。
【0127】
遺伝子型モジュールはまた、任意選択的に、未知の供給源からの遺伝子型プロファイルを、既知の供給源の遺伝子型プロファイルを含むデータベースと比較して、複合核酸混合物に寄与する特定の生物学的供給源を特定することができる(ブロック810)(例えば、加害者、被害者、または行方不明者を特定するためなどの法医学的ケースにおいて)。一部の実施形態では、遺伝子型モジュールはまた、任意選択的に、1つ以上の既知の遺伝子型が混合物に含まれる場合、混合物データが十分に適合することができるかどうかを評価することによって、混合試料内のデータベースから遺伝子型の存在を決定することができる。
【0128】
次に、遺伝子型モジュールは、データベース中の試料特有のデータセットに格納され得る遺伝子型データを提供することができる(ブロック812)。ルーチン800は、次いで、ブロック814に続き、そこで終了してもよい。
図10は、ルーチン2100を使用して決定され得、データベースに格納され得る遺伝子型データ(例えば、マイクロハプロタイプからのカウント、可能な遺伝子型プロファイル、可能な混合比率のグリッド)の一例を示す。
【0129】
実験例
以下の章は、デュプレックス配列決定および関連する試薬を使用して核酸混合物を解析するための方法の一部の例示的な実施例を提供する。
【0130】
実施例1
臍帯血増殖:同種移植で使用するためにCD34+臍帯血幹細胞を増殖させる。複数のドナー(例えば、8人のドナー)からの臍帯血試料をプールし、培養中に一緒にnotchリガンド増殖を行った。この実施例では、デュプレックス配列決定を使用して、各ドナーからの入力されたCD34+幹細胞の相対的な比率が、増殖プロセス中に維持されたかどうかを評価した。
【0131】
この実施例では、8人の個々のドナーからの臍帯血をCD34+富化し、フロー定量した。
図11に示されるように、各臍帯血試料の一定分量からDNAを抽出し、個別に配列決定した。4つの盲検試験混合物を調製し(
図11の左側)、本明細書および米国特許第9,752,188号に以前に記載されたデュプレックス配列決定プロトコルを使用して配列決定した。配列決定後、混合物を分析し、逆重畳した。
【0132】
図11の右側に示されるこの実施例の第2の態様では、元の臍帯血試料由来の生細胞をプールし(各々可変なCD34+数)、notchリガンド増殖させた。増殖後、プールされた細胞からDNAを抽出し、配列決定した。
【0133】
その後、配列決定の結果を分析して、配列決定された混合物が、4つの盲検試験混合物(
図11の左側)の予想される混合物を再現するかどうかを決定し、また、増殖後の各臍帯試料の相対パーセンテージ(各固有の遺伝子型の代表的なDNA量に基づいて)が元の入力CD34+数を反映するかどうかを決定した。
【0134】
プローブのパネルを使用して、デュプレックス配列決定を行い、ヒトゲノム全体に散在する45個の高MAF SNP部位および16個の低MAF SNP部位を遺伝子型決定した。
図12に示されるように、この実施例で使用されるSNPパネルのグローバル分布を示す。
【0135】
この実施例で生成された混合物内で、最も低いバリアントアレル頻度(VAF)SNPが0.6%であることが分かっていた。このため、およそ3,000倍の深度まで配列決定を行い、その結果、0.6%VAFで、ホモ接合個体から約18のSNP事象、またはヘテロ接合個体から約9のSNP事象を決定する可能性があった。配列決定は、デュプレックス配列決定方法を使用して、4つの臍帯血混合物、臍帯血増殖混合物、および8人の個々のドナーの各々からの臍帯血試料の各々からの250ngのDNAに対して、およそ3000倍の固有分子深度まで行った。全ての配列決定および遺伝子型決定は、盲検で行った。
図13は、各試料についてのオンターゲットデュプレックス配列決定の深度を示す棒グラフである。
【0136】
分析には、実験試料と同時に調製されたDNA標準における交差汚染の指標のための59個のSNP部位の検査を含めた。汚染分子は見出されなかった(配列決定された222,025個の多型部位塩基対中)。59個のSNP部位を8個の臍帯血試料中で検査し、臍帯血試料中のヒトDNA交差汚染の証拠は発見されなかった。
【0137】
図14は、ドナー遺伝子型を差別化するために使用される11個の特異的SNPアレルを特定するパネルを示す。これらのSNPのうちの10個は、
図12に示される低MAFサブセット内にあった。
図14に示される個々のドナー試料の分析は、9個のSNPバリアントが個々の試料に固有であり、2つの追加のSNP部位が、ドナー試料のうちの2つにのみ存在していたことを示す。ドナー由来の元の臍帯血試料のうちの5つは、1つ以上の特異的アレルによって一意に特定され得、残りの3つの臍帯血試料は、共通のより高い頻度のSNPの推論によって特定され得る。
【0138】
図15A~15Dを参照すると、デュプレックス配列決定方法は、混合物の各々における各個々の臍帯血源を検出するための完全な感度および特異度をもたらした。例えば、
図15Dを参照すると、臍帯血混合物(すなわち、臍帯血混合物#6)のうちの1つは、全混合物の各々1%を表す2つの個々の臍帯血試料(#2、#7)を含んでいた。デュプレックス配列決定方法を使用して、これらの臍帯血試料は、総表現の1%で、検出され、正確に定量された。
【0139】
図15A~15Dを参照すると、予想されるパーセンテージ(例えば、混合物を生成するのに使用された各試料のナノドロップ分光光度計で測定された量)からの有意な量の変動があったことが認められた。理論に束縛されるものではないが、
図15A~
図15Bに示されるDNA定量においてデュプレックス配列決定アプローチとナノドロップ定量アプローチとの間に示される相違は、ナノドロップアプローチに起因する交絡因子(例えば、破壊されていないRNAの存在など)によるものと考えられる。これは、ナノドロップおよびQubitフルオロメーター測定の両方を用いた全ての試料(例えば、個々の臍帯血試料、増殖細胞から抽出されたDNA、および試験混合物から)の定量を見れば、実証される(
図15Eを参照)。示されるように、ナノドロップ測定(濃い灰色の棒)は、Qubit(薄い灰色の棒)と比較して、試料定量測定値を過剰表現しているように見えた。デュプレックス配列決定の定量アプローチとナノドロップ定量アプローチの間の定量測定の差異のさらなる証拠として、
図16は各混合物内の各個々の臍帯血試料の定量における倍率差を示している。示されるように、これらの試料の各々についての倍率差は類似しており、さらに、混合物を生成する前の定量エラーが、
図15A~15Dにおける不一致の結果を説明することを示唆した。いずれにせよ、混合物を生成するのに使用された臍帯血試料の個々の供給源、ならびにそれらの代表的な混合物に対する寄与が、正確に特定された(
図15A~15D)。
【0140】
図17は、各個々の臍帯血試料について、フローサイトメトリーで決定された増殖前の細胞のCD34+画分、および増殖後の細胞のCD34
+画分(デュプレックス配列決定によって決定された)、を示す棒グラフである。示されるように、増殖前のCD34+細胞数と増殖後の細胞数との間に強い相関がある。これらの結果は、この増殖に存在する各臍帯血試料由来の細胞が比例して増殖したことを示唆する。さらに、これらのデータは、増殖細胞が、CD34+細胞であり、Notch増殖を同じく受ける他の分化細胞ではないことを示す。
【0141】
この実施例では、デュプレックス配列決定方法を使用して、多型マーカーを使用し、生物学的混合物(例えは、8個の個体由来の臍帯血試料の混合物)を、逆重畳することができることを実証している。かなり適度な配列決定深度(例えば、3000倍)を使用して、デュプレックス配列決定方法は、試験した各合成混合物において、十分な総合的な感度と特異度で、各臍帯を十分確信的に検出することができた。理論によって束縛されないが、試験された合成混合物中の各臍帯試料の相対的存在量の相違は、混合物を作製するときのDNA定量のエラーの結果であり、デュプレックス配列決定プロセスの欠陥ではないと考えられる。
【0142】
この実施例では、増殖後の臍帯血混合物を分析するために使用されるデュプレックス配列決定方法が、Notch増殖前の各臍帯血試料由来のCD34+細胞の相対パーセンテージと非常に類似した結果をもたらしたことがさらに実証され、少なくとも本実験では、各臍帯血試料由来のCD34+細胞が、互いに相対的に増殖し、各々の相対画分が、元の混合物と同じ全画分で表されることが示唆された。
【0143】
この実施例では、デュプレックス配列決定は、核酸物質の混合物を逆重畳し、元のDNA源の存在ならびに存在量を特定するための成功裏の方法であることが実証される。したがって、デュプレックス配列決定方法は、治療用ヒト細胞の多個体培養物の存在量を費用効果的に評価する、迅速で定量的でかつ自動化可能な方法を提供する。
【0144】
各臍帯について決定されたSNP遺伝子型のパターンに基づいて、このアプローチは、SNPハプロタイプから様々な予想されるHLAハプロタイプを絞り込むことができる。例えば、祖先確率の予測(例えば、マオリ人対イヌイット人対北欧の祖先)を評価することができる。
【0145】
一般に、この実施例は8つの供給源の解像度を実証しているが、任意の必要な仕様を許容するようにパネルを設計することができる。デュプレックス配列決定は、既知の遺伝子型が事前に存在する場合、費用効果的なパネルを用いて数十の構成要素に到達し得ることが予想される。他の実施形態では、本明細書に記載されるデュプレックス配列決定アプローチでは、事前の知識なしに複数の供給源の逆重畳も可能である。
【0146】
この実施例では、特に稀な事象がなかったため、標的深度3000倍の固有分子深度を選択した。稀な事象が既知であるかまたは疑われる例では、配列決定の深度を増加することができる(例えば、約10,000倍、15,000倍、20,000倍、25,000倍、30,000倍、35,000倍、40,000倍、45,000倍、50,000倍、75,000倍、100,000倍、200,000倍、500,000倍、1,000,000倍、またはそれ以上)。バリアントは、比率(配列決定された総SNP BP当たりのバリアントSNP)として検出することができ、特定の統計的信頼度を得るために最小限の標的を超えられる限りにおいて十分な深度を用いて検出することができる。
【0147】
異なる細胞区画に選別し、臍帯血混合物中のキメリズムを定量する能力は、ある臍帯と別の臍帯が、ある系統と別の系統へと、異なるように差別化されるかどうかについての情報を提供し得る。血漿中の相対キメリズム無細胞DNAを評価する能力により、デュプレックス配列決定方法が、短い時間スケールで、あるコードと別のコードの相対的なダイオフを追跡することができる(cfDNAの半減期は、血漿中で約2.5時間である)。同様に、無細胞DNAに適用されるこのような方法は、移植されたゲノムからのDNA(例えば、腎臓、心臓、または肺などの固形臓器移植では、移植拒絶反応で生じ得る)の相対的な比率を評価することができる。
【0148】
実施例2
混合物の逆重畳のためのマイクロハプロタイプゲノム部位のデュプレックス配列決定。マイクロハプロタイプは、3つ以上のアレルの組み合わせ(例えば、約3、4、5、6、7、8、9、10、11、12、13、14、またはそれ以上の異なるアレル)を有する、互いに比較的短い距離(例えば、200ヌクレオチド未満、250ヌクレオチド未満、300ヌクレオチド未満、350ヌクレオチド未満、またはそれ以上)内の2つ以上のゲノムDNA SNPの遺伝子座である。所与のマイクロハプロタイプは、所与の混合物(すなわち、異なる個体由来の混合物中のDNA分子間のマイクロハプロタイプの間に差がない)、またはいくつかの個々の多型(例えば、少なくとも約2、3、4、5、6、7、8、9、10、11.12、15、20、24、またはそれ以上)について、ほとんどゼロの「有益な」個々の多型を有していてもよい。
図18Aに示すように、特定された有用なマイクロハプロタイプの特定のパネルにおけるマイクロハプロタイプの大部分は、200ヌクレオチド長未満である。
図18Bは、世界の様々な集団における1つのマイクロハプロタイプについてのアレル頻度の一例である。
【0149】
この実施例では、DNA混合物をプローブし、マイクロハプロタイプ領域にわたって配列決定して、混合物を、例えば特定する目的で、1つ以上の元のDNA源に逆重畳し、各供給源の存在量を決定した。マイクロハプロタイプマーカーを評価するためにプローブパネルを使用することによって、プローブ/配列決定リードあたりより多くのアレルを評価することができ、供給源を特定する上で、配列決定データに、より大きな力を与える。特定の例では、マイクロハプロタイプを含む約100個のゲノム領域に注目するプローブパネルは、約300個のアレルの特有な組み合わせを利用して、供給源(複数可)を特定することができる。プローブパネルを使用することで、デュプレックス配列決定を使用してペアエンド配列決定またはシングルエンド配列決定を行うことができる。
【0150】
ドナーの遺伝子型が既知である例では、プライベートアレルを使用して、特定のドナーを特定することができる。例えば、アレルが特定のドナーに固有である場合、ドナーの比率は、マイナーアレルを含むその遺伝子座における配列決定リードの比率に等しい。この方法論は、ドナーを特定するために必要なプライベートアレルは1リードのみであるため、低存在量の試料を評価するために使用することができる。
【0151】
別の実施例では、デュプレックス配列決定およびその後の配列決定データの逆重畳を使用して、遺伝子型(例えば、供給源)のドナーを特定することができる。例えば、プローブされた十分なアレルが与えられると、アレルの組み合わせを使用して、ドナー(複数可)を特定し、定量するための固有な遺伝子型指紋(例えば、遺伝子シグネチャ)を生成することができる。
【0152】
シミュレーションした実施例では、9個の遺伝子型は、いくつかの希少な遺伝子型といくつかの豊富な遺伝子型が混ぜ合わされた、混合物中にある。266個の異なるアレルを表す100個のマイクロハプロタイプを配列決定するためのプローブパネルを使用して、DNA混合物を、約3000倍の深度で配列決定する。この仮説的な実施例では、混合物推定を使用して、シミュレーションしたマイクロハプロタイプから生じるプライベートアレルが、各ドナーを検出した。シミュレーションでは、プライベートアレルの使用を止めた後も、データを使用して、3つの最小存在量のドナー(シミュレーション混合物の0.03%、0.3%、および1.3%)を除いて、最終的に全てのドナーを検出することができた。デュプレックス配列決定データのシミュレーションされた逆重畳の結果を
図19に示す。
【0153】
実施例3
この実施例は、混合物の逆重畳のためのマイクロハプロタイプゲノム部位のデュプレックス配列決定の一実施形態を説明する。この実施例では、4個の遺伝子座にマイナーアレルを有する患者試料が、5%、10%、20%、および40%観察された。この実施例では、これらのアレル頻度は、患者のDNAだけでは説明できない。少なくとも3つのゲノムが存在する。このシナリオに良好に適合するのは、ドナー1が10%、ドナー2が40%、および患者3が50%、であろう。逆重畳では、この戦略は、ドナー遺伝子型が、最良適合をもたらすかどうかを考慮して、観察されたアレル頻度を最もよく説明する混合比率を探すことを目的とする。一部の実施例では、機械学習方法によりこの分析が容易になる。
【0154】
デュプレックス配列決定データを解析するための逆重畳モデルの一例は、線形回帰、一般化線形モデル、またはその拡張を使用することができる。
図20は、各々がドナー内に既知の遺伝子型を有する7個のSNPを使用して、混合物内のドナー源を決定するための線形回帰モデルの一例を示す。各ドナー(β)の混合比率が決定される。
【0155】
実施例4
この実施例は、混合物の逆重畳のためのマイクロハプロタイプゲノム部位のデュプレックス配列決定の別の実施形態を説明する。この実施例では、既知の生物学的供給源からの核酸分子の混合物を有する試料に由来するデュプレックス配列決定データを使用して、混合供給源の混合比率を推定する。分析の態様は、本明細書に記載のコンピューティングシステムの様々な実施形態を使用して行うことができる(例えば、
図5を参照)。
【0156】
第1のステップでは、ルーチンは、計算デバイス、例えば、遺伝子型モジュールを有する計算デバイスによって呼び出すことができ、このようなルーチンは、各アッセイされた遺伝子座(Y)の各アレルのカウントのベクトルを呼び出すことができる。ベクトルYの一例を、表1に示す。この特定の実施例において、各遺伝子座は、2つのアレルを有し、ノーコール、または「N」値を有するが、しかしながら、このルーチンは、任意の所与の遺伝子座において任意の数のアレルを収容することができる。したがって、この実施例では、マイクロハプロタイプのデータを使用する場合、各遺伝子座は、少なくとも3つのアレル、加えて、マイクロハプロタイプ内の1つ以上のSNPが遺伝子型モジュール(例えば、ルーチン)によってコールが与えられない様々なノーコールアレル、を有することになる。
【表1】
アレル数データの例。ベクトルYは強調表示され(灰色の列)、付随するデータおよびIDは他の列にある。
【0157】
第2のステップでは、ルーチンは、Yの要素に対応する行および列を有する対角マトリックスλを定義する。λの対角要素は、それらが対応する遺伝子座における全てのアレルの総数に等しい。例えば、要素[1,1]におけるλの値は、Yの第1の位置の遺伝子座における総数に等しくなければならない。マトリックスλの一例を、表2に示す。
【表2】
マトリックスλの例。マトリックスは灰色で強調表示されており、他のデータベクトルおよびマトリックスとの整列のために行名と列名が表示されている。
【0158】
第3のステップでは、ルーチンは、Yの要素に整列する行、および個々の供給源に対応する列、を有するマトリックスをG0として供給源の遺伝子型を書き込む。ルーチンは、G0の[i,j]要素が、j番目の供給源のYにおけるi番目のアレルの遺伝子型に対応するようにG0を定義し、供給源jがアレルの0、1、または2コピーを有するかどうかに応じて、0、0.5、または1をそれに入れる。マトリックスG0の一例を、表3に示す。
【表3】
供給源遺伝子型のマトリックス、G0の例。G0は灰色で強調表示されており、他の列には、他のデータベクトルおよびマトリックスとの整列のためのIDが表示されている。
【0159】
第4のステップでは、ルーチンは、データ内のノーコール、または「N」リードを説明する。遺伝子座における「N」リードは、様々な原因から生じ、Nの確率は、遺伝子座およびアレルの両方で変化し得る。既知の遺伝子型を有する試料上での較正実験は、Nが記録される遺伝子座およびアレル特異的確率を推定することができる。
【0160】
実質上、ノーコール現象は、患者遺伝子型データの歪みをもたらす。患者が遺伝子座でアレルAについてホモ接合性である場合、その患者がアレルAの100%のカウントに寄与することは真に期待されず、値「N」のいくつかのカウントに寄与する。
【0161】
ノーコールまたは「N」リードを考慮するために、ルーチンは、シーケンサーおよび/または遺伝子型モジュール(例えば、ルーチン)によって、アレルがノーコールまたは「N」として読み取られるアレル特異的確率を考慮した修飾された遺伝子型マトリックスを生成する。表4は、このGマトリックスが、G0から、およびノーコール/Nリードの遺伝子座およびアレル特異的な比率から、どのように計算され得るかを示す。
【表4】
Gの例、ノーコールまたは「N」リードを考慮した後の供給源遺伝子型のマトリックス。Gは、灰色で強調表示されており、他の列には、他のデータベクトルおよびマトリックスとの整列のためのIDが表示されている。Gは、G0から、および「Nへの変化率」カラムから、計算することができる。
【0162】
別の実施形態では、ルーチンは、データベクトルYからの全ての呼び出されていない、または「N」アレルを破棄し、λの計算のためにこの部分Yを使用し、以下のステップでGの代わりにG0を使用するように構成され得る。
【0163】
データマトリックスが決定されると、ルーチンは供給源混合比率を推定することができる。
【0164】
この実施例では、ルーチンは、混合試料中の供給源の混合比率のベクトルをβと呼ぶ。βの一例を、表5に示す。ルーチンは、最初にβの要素を推定し、次に、これらの推定値の周りに信頼区間を設けてもよい。
【表5】
βの例では、混合比率が不明なベクトルである。β自体は灰色で強調表示され、他の値は、他のベクトルおよびマトリックスへの整列のためのIDを示す。
【0165】
次に、ルーチンは、以下のようにデータをモデル化することができる。
E(Y)=λGβ、
式中、Y、λ、G、およびβは、上に定義された通りであり、2つのベクトルまたはマトリックスの並置は、線形代数表記で標準的な、ドット積演算子を示す。この式は、所与の遺伝子座の所与のアレルについての単純な解釈を有し、予想されるリード数は、その遺伝子座における配列決定深度×試料中のそのアレルの混合比率に等しい。(試料中のアレルの混合比率、またはより正確には、その遺伝子座におけるアレルの予想されるリード比率は、ベクターGβ中のその要素と等しい。)
【0166】
このモデルは、βを推定し、その要素の信頼区間を計算するための一般化線形回帰(GLM)アプローチを含む。定義:
X=λGβ、
GLMセットアップは自然に生じる。GLMの平均モデルは、E(Y)=Xβによって与えられる(すなわち、GLMはアイデンティティリンクを有する)。GLMのファミリーは、いくつかの選択肢の1つになる。
【0167】
1.ポアソンファミリー(すなわち、X上のYのポアソン回帰の使用)。
【0168】
2.負の二項ファミリー(すなわち、X上のYの負の二項回帰の使用)は、一部の実施形態では、ポアソンファミリーよりもノイズの多いデータに対して柔軟であり得る。
【0169】
3.ガウスファミリー(すなわち、X上のYの通常の線形回帰の使用)も、いくつかの用途で使用され得る。
【0170】
上記の全ての設定では、GLMアプローチは、βの要素の推定値と信頼区間の両方を返す。
【0171】
本明細書に記載の実施例4は、既知の遺伝子型の核酸混合物を解析するための1つのアプローチを含む。当業者は、他のアプローチも使用され得ることを理解するだろう。他のアプローチの非限定的な例としては、多項回帰または二項回帰が挙げられる。別の実施形態では、GLMの回帰を使用して、遺伝子型マトリックスから各アレルの頻度を予測することができる(アレルの数を遺伝子座での総数で割ることによって計算される)。さらに別の実施形態では、制約は、ベータ(β)の要素に加えられ得る。例えば、以下の制約の任意の組み合わせは、回帰またはGLMアプローチの任意の実施形態と併せて適用され得る。
【0172】
1.ベータ(β)は、非負であるように制限され得る
【0173】
2.ベータ(β)は、その要素が全て1以下であるように、制約することができる。
【0174】
3.ベータ(β)は、その要素が正確に1に合計されるように制約され得る。
【0175】
ポアソン、二項回帰および多項回帰のような回帰法は全て、漸近理論に基づいておよその標準誤差を導出する(例えば、ワルド、スコア、または尤度比に基づく標準誤差を使用する)ため、これらの方法は、混合物中の非常に低い存在量源に対して統計的有意性を有するゼロより大きな存在量を宣言できない場合がある。このエラーを修正するために、供給源が他の供給源によって共有されていない「プライベート」アレルを有し、そのプライベートアレルが混合試料中で観察される場合、その供給源は、高い統計的信頼度を有する非ゼロ存在量で存在すると宣言することができる。供給源の存在量に対する信頼区間は、二項比率上の信頼区間を計算する多様な方法のうちのいずれかを使用して計算することができる。例えば、ウィルソン法の信頼区間を使用することができる。
【0176】
実施例5
この実施例は、混合物の逆重畳のためのマイクロハプロタイプゲノム部位のデュプレックス配列決定の別の実施形態を説明する。この実施例では、未知の生物学的供給源からの核酸分子の混合物を有する試料に由来するデュプレックス配列決定データを使用して、供給源の遺伝子型を特定し、混合供給源の混合比率を推定する。分析の態様は、本明細書に記載のコンピューティングシステムの様々な実施形態を使用して行うことができる(例えば、
図5を参照)。
【0177】
表1~表5に示すように、この実施例のデータは、上で定義されたY、λ、G0、Gおよびβを用いて、上記実施例4のようにフォーマットすることができる。しかしながら、本実施例では、我々が観察する唯一のデータは、Yおよびλであり、これはYから直接計算される。したがって、未知の遺伝子型の問題は、選択されたβがどれ程よくデータに適合するかを評価するために、βと共にG0を推定しなければならないという点で、既知の遺伝子型の問題とは異なる。
【0178】
既知の遺伝子型問題(実施例4)では、ルーチンは、βを推定し、その推定値の周りに信頼区間を設け、データに十分に適合する全ての可能なβベクトルの部分空間を効果的に画定した。未知の遺伝子型問題に対処する本実施例では、ルーチンは、データを合理的に説明することができるβベクトルの特徴を記述するように構成される。例えば、ルーチンは、観察されたデータがβの1つの非ゼロ要素のみを有する試料から生じ得るかどうか(すなわち、単一の供給源)、または供給源の混合物のみが観察されたデータをもたらし得るかどうか、を決定する。別の実施形態では、ルーチンは、観察されたデータが比較的均一な供給源の混合物から生じ得るかどうか、またはデータが、1つの供給源が支配的であるかまたは1つ以上の供給源が非常に低い存在量を有する場合にのみ、説明され得るかどうかを判定する。
【0179】
したがって、この方法は、検討中の全てのβベクトルを評価し、データを適切に説明することができるβベクトルの種類の概要を返すことを目的とする。
【0180】
この例では、アプローチを説明する。
【0181】
1.以下のように、データを設定する。
【0182】
1a.混合物中で起こり得ると考えられる供給源の最大数Kを選択する。Kはβの長さを与える。K供給源未満に対応するβベクトルは、いくつかの位置で0を有するであろう。
【0183】
1b.長さKのβベクトルのリストの形態をとる、考慮すべきβのグリッドを定義する。一実施形態では、ルーチンは、β要素の値のセットを{0、0.001、0.01、0.02、0.05、0.1、0.2、0.3、0.4、0.5、0.6、0.7、0.8、0.9、0.95、0.99、0.999、1}として定義するように構成されている。ルーチンは、次いで、減少する値を有するこのリストから全ての可能なK長の試料を取ることによってβリストを生成することができる。例えば、K=3の場合、ルーチンは、{1,1,1}、{1,1,.999}、{1,1,.99)…(供給源の遺伝子型が不明であるため、異なる順序で同じ値を有するβを2つ選択すると、データが同等によく説明される)。有効なβのリスト(すなわち、その合計が1になるβ)を得るために、ルーチンは、リスト内の各βの合計を1に再スケールするように構成される。得られたリストは、可能なβの空間にわたって詳細なグリッドを得る。
【0184】
1c.各遺伝子座について、実施例4に記載のG0マトリックスにフォーマットされる可能な遺伝子型のリストを定義する。可能な遺伝子型は、次の基準を満たす全てのマトリックスである。
【0185】
i.KカラムおよびJ列、式中、Jは、遺伝子座について観察される固有のアレルの数である。
【0186】
ii.各要素は、0、0.5、または1のいずれかである。
【0187】
iii.マトリックスの各列は、合計で1になる(各供給源が遺伝子座で二倍体であることを意味する)。
【0188】
iv.必要であれば、ルーチンは、実施例4に記載の同じアプローチを使用して、ノーコール/「N」値を考慮するためにリスト内の各G0マトリックスを変更するように構成される。以降、このマトリックスのリスト内のマトリックスを、以前の表記に準拠して、「G」マトリックスと呼ぶ。
【0189】
2.データYへのβの適合を評価する。ルーチンは、以下のアルゴリズムを使用して、リスト内の各βを、対数尤度と関連付けるように構成されている。
【0190】
2a.各βおよび各遺伝子座について、その遺伝子座からのYの値について最大の対数尤度をもたらすマトリックスGについて、遺伝子型マトリックスのリストを検索する。対数尤度は、以下のモデルのうちのいずれかを使用して計算することができる:1.Yは、平均ベクトルλGβを有するポアソンランダムベクトルである、2.Yは、平均ベクトルλGβとデータに適合する値の予め指定された値に等しいサイズパラメータとを有する負の二項分布ランダムベクトルである、または、3.Yは、平均ベクトルlog(λGβ)とデータに適合する値の予め指定された値に等しい分散パラメータとを有する対数正規ランダムベクトルである、を用いる。他の実施形態では、他のパラメトリック分布を使用してもよい。
【0191】
リスト内の各βについて、ステップ2aの出力は、各遺伝子座における最良適合Gの選択、およびこれらの最良適合Gを有するβによって得られる付随する対数尤度のセットである。
【0192】
2b.各βの対数尤度を、遺伝子座にわたるその対数尤度の合計として計算する。
【0193】
2c.許容される高対数尤度の閾値を選択する。一実施形態では、閾値の選択は、ユーザの裁量に応じた判定である。以下のアプローチは全て、閾値が自然に解釈されるスケールでβをスコアリングするための合理的な方法を提供し、それらの全ては対数尤度から計算される。1.ベイズ情報量基準(BIC)を使用することができる。2.赤池情報基準(AIC)を使用することができる。3.2つの競合する適合間の対数尤度比の-2倍に等しいカイ二乗統計を使用することができる。
【0194】
3.選択した閾値を超える対数尤度を有するリストから、全てのβを報告する。
【0195】
未知の遺伝子型の混合物から、供給源の遺伝子型を回収する。
【0196】
未知の遺伝子型の試料中の混合比率を推定することに加えて、ルーチンは、混合物中の供給源の遺伝子型を回収するように構成することができる。以下のアルゴリズム(例えば、本明細書に記載の1つ以上のコンピューティングシステムによって呼び出され得るアルゴリズム)は、そうするための1つの方法を記述する。
【0197】
1.上記のアルゴリズム/ルーチンを使用して、有効なβのセットを導出する。
【0198】
2.各遺伝子座について:
【0199】
2a.上述のアルゴリズム/ルーチンのステップ1cのように、全ての可能な遺伝子型マトリックスを計算する。
【0200】
2b.全ての有効なβに対して可能な各遺伝子型マトリックスを評価し、全ての有効なβにわたって得られた遺伝子型の最も高い対数尤度を記録する。
【0201】
2c.対数尤度閾値を選択し、少なくとも1つの有効なβと共に評価されたときに、その閾値を超える全ての遺伝子型マトリックスを報告する。
【0202】
2d.一部の場合では、考えられる遺伝子型マトリックスのセットは、特定の供給源のアレル(複数可)についてほぼ一致している(例えば、全ての可能な遺伝子型マトリックスは、最も豊富な供給源のホモ接合アレルAを含む)。この事象では、供給源の遺伝子型は、そのアレルで呼び出され得る。
【0203】
他の場合、可能な遺伝子型マトリックスは、遺伝子座で供給源の遺伝子型の約半分であり得る。例えば、全ての可能な遺伝子型マトリックスは、アレルAのコピーを有しているとして供給源1を示すが、マトリックスは、その遺伝子座での供給源の二倍体遺伝子型の他の半分については一致しない。この場合、ルーチンは、少なくとも1つのアレルAのコピーを有しているとして供給源を呼び出すように構成され得る。
【0204】
一実施形態では、計算効率を向上させるために、単一の遺伝子座において非常に低い対数尤度を有するβは、さらなる考慮から廃棄されてもよく、したがって、さらなる遺伝子座にわたってそれを評価する必要性を不要とする。
【0205】
既知の遺伝子型を有する1つ以上の供給源が、別途未知の遺伝子型の混合物中で生じる場合、この方法はまた、以下のように適合され得る:1.既知の遺伝子型を有するM源がある場合、それらを各βの第1のM要素および各Gの第1のM列と関連付ける。2.上に記載の同じ方法で、候補βのリストを生成するが、最後のK-M列が減少値を有することのみを必要とする。3.所与の遺伝子座で所与のβの対数尤度を最大化するための最良のGマトリックスを見つけるとき、M個の既知の遺伝子型を最初のM列に記入する。4.アルゴリズムの残りの部分は変えずに実行する。
【0206】
一部の実施形態では、この方法は、単離されたSNPデータ上で実行されてもよい。他の実施形態では、この方法は、複数の(2以上の)SNPを含むゲノムの短い領域であるマイクロハプロタイプからのデータ上で実行することができ、それによって、3つ以上のアレルの組み合わせが提示される。なおさらなる実施形態では、様々なルーチンは、1超のSNPにまたがるリードを返すロングリード配列決定技術からのデータを使用して実行することができる。
【0207】
計算効率を向上させるために、一実施形態では、本方法は、まずSNPレベルのデータ上で実行されて、候補βの大きなサブセットを迅速に除外することができる。次いで、この最初のステップを通過するβのみを使用して、アルゴリズムを、マイクロハプロタイプレベルのデータ上で再実行することができる。
【0208】
多数の供給源の遺伝子型およびより多数のアレルが存在する一部の場合では、可能な遺伝子型のマトリックスは、特定の用途に関して計算上難しい、非効率的、または不要なほど大きい場合がある。このような場合、検討中の各可能な混合比率ベクトルβについて、最適化アルゴリズムを通して最良適合の遺伝子型マトリックスGを求めてもよい。
【0209】
実施例6
2つ以上の供給源に由来する核酸分子の合成混合物における性能評価:異なる生物学的供給源からの精製DNAを、4つの独立した試料(例えば、各供給源物質の異なる混合比率を有する各試料)において、指定された混合比率で予め混合し、次いでこのような混合比率を盲検化した。
図21のパネルA~Dは、供給源1~5の真の混合比率を示す棒グラフである。
【0210】
続いて、配列決定された混合物が4つの盲検試験混合物の予想される混合物を再現するかどうかを決定するために、配列決定の結果を分析し(
図21、パネルA~Dに示す)、および混合試料中に存在する低頻度/希少アレルを検出する感度があるかどうかを決定した。デュプレックス配列決定は、ヒトゲノム全体わたって散在する17個のマイクロハプロタイプ部位を遺伝子型決定するためのプローブのパネルを使用して行った。
【0211】
図22のパネルA~D(それぞれ、
図21のパネルA~Dに対応する)を参照すると、デュプレックス配列決定方法は、5つの可能性のある供給源の各々について遺伝子型が事前に分かっている場合、各混合物中の各個々の供給源を検出するための完全な感度および特異度をもたらした。例えば、
図21のパネルDおよび
図22のパネルDを参照すると、盲検混合物のうちの1つ(すなわち、5つ全ての供給源の混合物を含む)は、0.5%を表す供給源(供給源1)および0.05%を表す供給源(供給源4)を含んでいた。デュプレックス配列決定方法を使用して、これらの供給源を検出し、正確に定量した(
図22、パネルD)。
【0212】
図23A~23D(それぞれ、
図21のパネルA~Dに対応する)を参照すると、デュプレックス配列決定方法は、各試料の遺伝子型および可能性のある供給源の数が事前に不明な場合でも、混合比率を推定し得ることを実証した。例えば、
図23A~23Dは、デュプレックス配列決定を使用して、試料中で決定された各供給源の尤度および存在量を示すヒートマップのグラフである。
図24のパネルA~D(それぞれ、
図23A~23Dに対応する)で実証されるように、供給源の遺伝子型が事前に不明な場合でも、複数の供給源についてマイクロハプロタイプアレルを決定することができる(例えば、
図24のパネルBを参照されたい。
図21のパネルBの混合物から、3つの供給源の遺伝子型が、信頼性をもって予測されることを実証する)。
【0213】
この実施例では、デュプレックス配列決定方法を使用して、マイクロハプロタイプを使用して生物学的混合物(例えば、5個の個体/供給源由来の核酸試料の混合物)を逆重畳し得ることが実証されている。デュプレックス配列決定方法は、非常に低い頻度のアレルまで感度を提供し、複合混合物中の希少なバリアントを検出できることが実証された。
【0214】
この実施例では、デュプレックス配列決定は、核酸物質の混合物を逆重畳し、元のDNA源の存在ならびに存在量を特定するための成功裏の方法であることが実証される。したがって、デュプレックス配列決定方法は、複数の個々の試料の存在量を費用効果的に特定および評価する迅速で定量的でかつ自動化可能な方法を提供する。
【0215】
実施例7
10万分の1の存在量で存在する遺伝子型を検出する感度を決定するための性能評価。この実施例では、混合比率を推定するために、デュプレックス配列決定方法および小さなSNVパネルを使用して、8個の試料混合物を配列決定した。
図25は、試料の実際の混合比率を混合物中の試料の存在量の推定値と比較する、散布図である。点は、8個全ての試料についての各試料の推定混合比率と予想混合比率を示し、線は、95%信頼区間を示す。点線は、同一性を示す。示されるように、デュプレックス配列決定は、存在量が10万分の1までの感度および精度を実証する。
【0216】
実施例8
データベースに存在する遺伝子型を検出する能力を決定するための性能評価。この実施例では、試料混合物をデュプレックス配列決定方法を使用して配列決定し、元の供給源の混合比率および遺伝子型を推定した。
図26は、検出された混合物中に存在する遺伝子型の比率(実線)および少なくとも1つの偽陽性を生成するシミュレーションされた混合物の比率(破線)をプロットする線グラフである。この実施例では、2~10個の供給源の1000回シミュレーションした混合物からのマイクロハプロタイプのデータを、各々4個のアレルを有する1000個の供給源および100個のマイクロハプロタイプの遺伝子型データベースに対して照会した。2~10個の異なる供給源の各々は、照会データベースからのものであった。この実施例の結果は、1~5%の偽陽性率を有する最大8個の供給源の混合物において、ほとんどの対象の特定につながった。
【0217】
実施例9
複数の遺伝子型を含む混合物において正確な定量を決定するための性能評価。この実施例では、50個の異なる遺伝子型を含む試料混合物を、デュプレックス配列決定方法を使用して配列決定し、異なる遺伝子型の混合比率を推定した。
図27のパネルA~Cは、50個の遺伝子型の3つの異なるシミュレーションされた混合物における推定対真の混合比率を示す線プロットである。黒いドットは真の比率であり、灰色の箱/ひげおよびポイントは、1000回のシミュレーションにおける推定値の内側の四分位数と極端な外れ値である。
図27のパネルA~Cは、複合混合物中の少なくとも50個の異なる遺伝子型が、デュプレックス配列決定を使用して正確に区別および定量され得ることを実証する。
【0218】
VI.結論
本技術の実施形態の上述の詳細な説明は、網羅的であること、または本技術を上述の正確な形態に限定することを意図するものではない。本技術の具体的な実施形態および実施例は、例示的な目的のために上に記載されているが、関連技術分野の当業者が認識するように、本技術の範囲内で様々な等価な修正が可能である。例えば、ステップは所与の順序で提示されているが、代替的な実施形態は、異なる順序でステップを行ってもよい。本明細書に記載の様々な実施形態を組み合わせて、さらなる実施形態を提供することもできる。本明細書に引用される全ての参考文献は、本明細書に完全に記載されるかのように、参照により援用される。
【0219】
上の記載から、本技術の特定の実施形態は、例示のために本明細書に記載されているが、本技術の実施形態の説明を不必要に曖昧にすることを回避するために周知の構造および機能は詳細には示されていないことを理解されたい。文脈が許容する場合、単数または複数の用語は、それぞれ複数または単数の用語も含み得る。
【0220】
さらに、「または」という単語が、2つ以上の項目のリストに関して他の項目から排他される単一の項目のみを意味するように明示的に限定されない限り、そのようなリストにおける「または」の使用は、(a)そのリスト内の任意の単一の項目、(b)そのリスト内の全ての項目、または(c)そのリスト内の項目の任意の組み合わせを含むと解釈される。加えて、「~を含む(comprising)」という用語は、少なくとも列挙された特徴(複数可)を含むことを意味するように、全体を通して使用され、同じ特徴の任意のより多い数および/または追加のタイプの他の特徴が排除されない。特定の実施形態は例示のために本明細書には記載されているが、本技術から逸脱することなく様々な変更が行われ得ることも理解されたい。さらに、本技術の特定の実施形態と関連付けられた利点は、それらの実施形態の文脈で説明されているが、他の実施形態も、そのような利点を示してもよく、全ての実施形態が必ずしも本技術の範囲内に収まるような利点を示す必要はない。したがって、本開示および関連技術は、本明細書に明示的に示されていないまたは記載されない他の実施形態を包含することができる。