特許7497879 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ツインストランド・バイオサイエンシズ・インコーポレイテッドの特許一覧

特許7497879核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4-1
4-2
5
6
7
8
9
10
11
12
13
14
15A
15B
15C
15D
15E
16
17
18A
18B
19
20
21
22
23A
23B
23C
23D
24-1
24-2
25
26
27

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-06-03

(45)【発行日】2024-06-11

(54)【発明の名称】核酸混合物および混合細胞集団を解析するための方法および試薬ならびに関連用途

(51)【国際特許分類】

C12Q 1/6869 20180101AFI20240604BHJP

C12M 1/00 20060101ALI20240604BHJP

【ＦＩ】

C12Q1/6869 Z

C12M1/00 A

【請求項の数】 22

(21)【出願番号】P 2020564200

(86)(22)【出願日】2019-05-16

(65)【公表番号】

(43)【公表日】2021-09-16

(86)【国際出願番号】 US2019032755

(87)【国際公開番号】W WO2019222560

(87)【国際公開日】2019-11-21

【審査請求日】2022-05-13

(31)【優先権主張番号】62/672,573

(32)【優先日】2018-05-16

(33)【優先権主張国・地域又は機関】US

(31)【優先権主張番号】62/811,517

(32)【優先日】2019-02-27

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】518201670

【氏名又は名称】ツインストランド・バイオサイエンシズ・インコーポレイテッド

【氏名又は名称原語表記】ＴＷＩＮＳＴＲＡＮＤＢＩＯＳＣＩＥＮＣＥＳ，ＩＮＣ．

(74)【代理人】

【識別番号】110001508

【氏名又は名称】弁理士法人津国

(72)【発明者】

【氏名】ソーク，ジェシー・ジェイ

(72)【発明者】

【氏名】バレンタイン，チャールズ・クリントン・ザ・サード

(72)【発明者】

【氏名】ダナハー，パトリック

(72)【発明者】

【氏名】ロ，ファン・イン

【審査官】小田浩代

(56)【参考文献】

【文献】国際公開第２０１７／１００４４１（ＷＯ，Ａ１）

【文献】国際公開第２０１３／１４２３８９（ＷＯ，Ａ１）

【文献】国際公開第２０１７／１３９４９２（ＷＯ，Ａ１）

【文献】特表２０１３－５３２４９４（ＪＰ，Ａ）

【文献】Schmitt M W. et al.，Proc Natl Acad Sci USA，2012年，Vol. 109，pp. 14508-14513

【文献】Salk J J. et al.，Nat Rev Genet，2018年03月26日，Vol. 19，pp. 269-285

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｃ１２Ｑ１／００－３／００

Ｃ１２Ｍ１／００－３／１０

ＣＡｐｌｕｓ／ＭＥＤＬＩＮＥ／ＥＭＢＡＳＥ／ＢＩＯＳＩＳ（ＳＴＮ）

ＰｕｂＭｅｄ

(57)【特許請求の範囲】

【請求項1】

混合物から核酸のドナー源を検出し、および／または定量するための方法であって、
１つ以上のドナー源からの標的二本鎖ＤＮＡ分子を含む前記混合物を提供することであって、前記標的二本鎖ＤＮＡ分子が、１つ以上の遺伝的多型を含む、提供することと、
前記混合物中の複数の前記標的二本鎖ＤＮＡ分子の各々についてのエラー修正配列リードを生成することであって、
前記複数の標的二本鎖ＤＮＡ分子にアダプター分子をライゲーションして、複数のアダプター－ＤＮＡ分子を生成すること、
前記アダプター－ＤＮＡ分子の元の第１の鎖のコピーのセット、および前記アダプター－ＤＮＡ分子の元の第２の鎖のコピーのセットを生成すること、
前記元の第１の鎖および第２の鎖の１つ以上のコピーを配列決定して、第１の鎖の配列および第２の鎖の配列を提供すること、ならびに
前記第１の鎖の配列と前記第２の鎖の配列とを比較して、前記第１の鎖の配列と前記第２の鎖の配列との間の１つ以上の対応関係を特定すること、を含む、エラー修正配列リードを生成することと、
前記エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の前記混合物中に存在する核酸のドナー源を特定することと、を含む、方法。

【請求項2】

混合物から核酸のドナー源を検出し、および／または定量するための方法であって、
生の配列決定データからエラー修正配列リードを生成することであって、
前記生の配列決定データが、１つ以上のドナー源からの標的二本鎖ＤＮＡ分子を含む混合物から生成され、前記標的二本鎖ＤＮＡ分子が、１つ以上の遺伝的多型を含み、そして
生の配列決定データからの第１の鎖の配列と生の配列決定データからの第２の鎖の配列とを比較すること、ここで、第１の鎖の配列リードと第２の鎖の配列リードは、同じ標的二本鎖ＤＮＡ分子に由来しており、及び
第１の鎖の配列リードと第２の鎖の配列リードとの間の１つ以上の対応関係を特定すること、を含むエラー修正配列リードを生成することと、及び
エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の前記混合物中に存在する核酸のドナー源を特定することと、を含む、方法。

【請求項3】

前記ドナー源のうちの１つ以上が、既知の遺伝子型を有する、請求項１または請求項２に記載の方法。

【請求項4】

前記ドナー源のうちの１つ以上が、未知の遺伝子型を有する、請求項１または請求項２に記載の方法。

【請求項5】

前記混合物が、１つ以上の未知の個々の遺伝子型を含み、前記エラー修正配列リードを個々の遺伝子型に逆重畳することが、
参照配列中の１つ以上の遺伝子座にマッピングする個々の標的二本鎖ＤＮＡ分子内に存在するマイクロハプロタイプアレルの組み合わせを特定することと、
前記１つ以上の遺伝子座内の各遺伝子座に存在する全ての可能な遺伝子型に対する全ての可能な混合比率を評価することと、
前記特定されたマイクロハプロタイプアレルの組み合わせに十分に適合する全ての可能な個々の遺伝子型のリスト、および評価された全ての可能な混合比率を決定することと、を含む、請求項１または請求項２に記載の方法。

【請求項6】

前記混合物が、１つ以上の既知の個々の遺伝子型を含み、前記エラー修正配列リードを個々の遺伝子型に逆重畳することが、
前記混合物中の個々の標的二本鎖ＤＮＡ分子内に存在するマイクロハプロタイプアレルの組み合わせを特定することと、
各既知の個々の遺伝子型から供与される各アレルの総数を合計することと、
前記混合物中に存在する各既知の遺伝子型の混合比率を決定することと、を含む、請求項１または請求項２に記載の方法。

【請求項7】

１つ以上の個々の遺伝子型を、複数の既知の遺伝子型を含むデータベースと比較して、前記１つ以上のドナー源を特定することをさらに含む、請求項１～６のいずれかに記載の方法。

【請求項8】

前記混合物が、２つ以上のドナー源を含み、前記方法が、前記エラー修正配列リード内に存在する各遺伝的多型の比率または遺伝的多型の実質的に固有の組み合わせの比率を計算することによって、前記混合物中に存在する前記２つ以上のドナー源からの各ドナー源の比率を決定することをさらに含む、請求項１～７のいずれか一項に記載の方法。

【請求項9】

前記標的二本鎖ＤＮＡ分子が、１つ以上の臍帯血試料から抽出された、請求項１～３および６～８のいずれか一項に記載の方法。

【請求項10】

前記標的二本鎖ＤＮＡ分子が、法医学的試料から抽出された、請求項１～８のいずれか一項に記載の方法。

【請求項11】

前記標的二本鎖ＤＮＡ分子が、幹細胞移植または臓器移植を有する患者から抽出された、請求項１～３および６～８のいずれか一項に記載の方法。

【請求項12】

前記標的二本鎖ＤＮＡ分子が、患者から抽出され、前記混合物中に存在する前記１つ以上のドナー源を特定することが、前記患者におけるマイクロキメリズムのレベルを測定することを含む、請求項１～８のいずれか一項に記載の方法。

【請求項13】

前記標的二本鎖ＤＮＡ分子が、腫瘍試料から抽出された、請求項１～８のいずれか一項に記載の方法。

【請求項14】

前記混合物中に存在する各個々の遺伝子型の相対的存在量を定量することをさらに含む、請求項１～１３のいずれか一項に記載の方法。

【請求項15】

前記１つ以上の遺伝的多型が、マイクロハプロタイプを含む、請求項１～１４のいずれか一項に記載の方法。

【請求項16】

前記混合物中の複数の前記標的二本鎖ＤＮＡ分子の各々についてのエラー修正配列リードを生成することが、配列決定の前に１つ以上の標的ゲノム領域を選択的に富化することをさらに含む、請求項１および３～１５のいずれか一項に記載の方法。

【請求項17】

前記１つ以上の標的ゲノム領域が、ゲノム中のマイクロハプロタイプ部位を含む、請求項１６に記載の方法。

【請求項18】

前記混合物中の前記標的二本鎖ＤＮＡ分子が、生の配列決定データを生成する前に、１つ以上の標的ゲノム領域について選択的に富化される、請求項２～１５のいずれか一項に記載の方法。

【請求項19】

前記１つ以上の標的ゲノム領域が、ゲノム中のマイクロハプロタイプ部位を含む、請求項１８に記載の方法。

【請求項20】

１つ以上のプロセッサによって実行されるとき、請求項２～１５および１８～１９のいずれか一項に記載の方法を行う命令を含む、非一時的コンピュータ可読記憶媒体。

【請求項21】

各特定されたドナー源の混合比率を計算するための命令をさらに含む、請求項２０に記載の非一時的コンピュータ可読記憶媒体。

【請求項22】

混合物から核酸のドナー源を検出および／または定量するための請求項２～１５および１８～１９のいずれか一項に記載の方法を行うためのコンピュータシステムであって、前記システムが、プロセッサ、メモリ、データベース、および前記プロセッサ（複数可）のための命令を含む非一時的コンピュータ可読記憶媒体を有する少なくとも１つのコンピュータを備え、前記プロセッサ（複数可）が、請求項２～１５および１８～１９のいずれか一項に記載の方法を含む操作を行うための前記命令を実行するように構成されている、コンピュータシステム。

【発明の詳細な説明】

【技術分野】

【0001】

関連出願の相互参照
本出願は、２０１８年５月１６日出願の米国仮特許出願第６２／６７２，５７３号および２０１９年２月２７日出願の米国仮特許出願第６２／８１１，５１７号の優先権および利益を主張し、これらの開示は、その全体が参照により援用される。

【背景技術】

【0002】

異なるクローンもしくは個体に由来する混合細胞集団を解析すること、または核酸混合物内の元の供給源を追跡することは、しばしば、混合物に寄与したクローンまたは個体間で異なる特定の遺伝マーカーを追跡することを必要とする。非遺伝的手段によって（すなわち、細胞表面上で発現されるタンパク質の違いなど）、細胞を異なるクローンまたは個体から区別することが可能な場合もあるが、これは必ず可能であるということではないか、またはハイスループット用途に実験上実用的ではない場合がある。遺伝的多型は、細胞またはＤＮＡ分子の起源を定義するための便利な、予測可能で統計的に一般化可能な系譜マーカーとして使用可能である。例えば、ヒトでは、ヒトゲノムのおよそ０．１％は多型である（例えば、ヒト集団内の配列において、１０００ヌクレオチド塩基のうちの１個が異なる）。一般的な形態のバリエーションとしては、中でも、単一ヌクレオチド多型／単一ヌクレオチドバリアント（ＳＮＰ／ＳＮＶ）、マルチヌクレオチドバリエーション（ＭＮＶ）、短い挿入および欠失（インデル）、ショートタンデムリピート（ＳＴＲ）の長さのバリエーション、ならびに染色体間または染色体内再配列、重複、欠失、タンデム重複および反転などの他のより大きなスケールの構造バリエーション、が挙げられる。

【0003】

一般に、個体が遺伝子型を決定される場合、各個体のそれぞれの同一性は、遺伝子型におけるこれらの多型の相違を解析することによって区別することができる。遺伝子型決定のためにショートリードの次世代ＤＮＡ配列決定（ＮＧＳ）プラットフォームを使用する場合、ＳＮＰは、異なる個体を区別するための最も豊富で便利な形態の多型のうちの１つである。所与の多型部位におけるグローバル集団バリエーションの程度は、一般的に、集団の中で２番目に最も一般的なバリアントの頻度であるマイナーアレル頻度（ＭＡＦ）によって説明される（すなわち、ｄｂＳＮＰなどの記録されたバリエーションのデータベースから決定される）。一例として、０．５のＭＡＦは、概して、集団中のアレルの各々は、５０％の存在量があることを意味し、０．０５のＭＡＦは、概して、１つのアレルは５％の存在量があり、他方のアレルは９５％の存在量があることを意味するが、より低い頻度のアレルも存在し得る（すなわち、１つのバリアントが５％で、別のバリアントが９２％で、および第３のバリアントが３％）。概して、照会される多型部位が多いほど、２つ以上の個体が互いに区別され得る可能性が高い（図１）。ゲノムの隣接部分が一般に共遺伝している（すなわち、連鎖不均衡にある）ため、ゲノムの異なる領域（すなわち、異なる染色体上）における複数の多型部位を評価することは、典型的には、異なる個体からの細胞の混合集団に対する２つ以上の個々の寄与者を効果的に区別することができる可能性を最大化するために有利である。

【0004】

異なる個体に由来する細胞の混合物が、解析され定量される１つの方法は、個々の細胞が遺伝子型決定される単一細胞分析アプローチ（図２）による（各独立した細胞由来のＤＮＡまたはＲＮＡが配列決定され、各固有の遺伝子型がカウントされる）。これは、各細胞からの派生的配列リードが、同じ細胞に関連付けることができるように、個々の試験管、プレートウェル、液滴などで別個のエンティティとして各細胞を処理することによって達成することができる（しばしば、何らかの形態の単一細胞バーコード化技術、すなわち、ＰＭＩＤ２８０９１６０１、ＰＭＩＤ２９５４５５１、ＰＭＩＤ３００８７１０４を使用して）。このアプローチは、単一細胞または大きなＤＮＡ分子由来の多くの多型マーカーの遺伝子型が情報学的に一緒に関連付けられる限り、有利であるが、これらのアプローチは、しばしば複雑で高価であり、頻繁に無傷の細胞または他の特別な物質（ｍａｔｅｒｉａｌ）の調製を必要とする。

【0005】

別のアプローチは、単一分子分析であり、一緒に混合および増殖した細胞は、核酸がバルク抽出され、遺伝子型が決定され、個々の多型部位の相対的存在量がカウントされる。結果は、計算的に逆重畳を行い、各個々の供給源からの既知の遺伝子型と比較することができる（図３）。細胞内に含まれていないＤＮＡ分子の混合物は、同様に遺伝子型が決定され、逆重畳が行われ得る。このアプローチは、単一細胞遺伝子型決定よりもより単純であるが、より高い深度まで配列決定し、より多くの多型部位を評価して混合物を技術的に解析することを必要とし得る。このアプローチはまた、よりはるかに高い配列決定精度を必要とする場合があり、従来のＮＧＳ方法であれば、特に混合物が複雑さを増すと精度が制限され得る。

【発明の概要】

【0006】

本発明の技術は、一般に、核酸混合物および／または混合細胞集団を評価および解析するための方法および関連する試薬に関する。特に、本技術の一部の実施形態は、試料中の核酸混合物（例えば、多キメラ（ｍｕｌｔｉｃｈｉｍｅｒｉｃ）混合物、２つ以上の供給源由来の核酸の混合物など）および関連する用途を評価および解析するためにデュプレックス配列決定（ＤｕｐｌｅｘＳｅｑｕｅｎｃｉｎｇ）を利用することを対象とする。例えば、本技術の様々な実施形態は、個々のアレルの直接的な特定および定量を可能にするデュプレックス配列決定方法、ならびにアレルの固有の組み合わせで、混合物をその混合物の元の供給源の比率に逆重畳することを含む。本技術の様々な態様は、中でも、前臨床および臨床癌（腫瘍）評価、鑑識（特定など）、細胞療法の混合物評価（例えば、臍帯血療法）、ヒト由来試料由来の混合物評価、マイクロキメリズムの検出、細胞製造による品質管理、食品供給における混合物特定（例えば、主要作物、魚などの株の混合物）、生物工業プロセスにおける汚染評価（例えば、細胞ベースの製造）、密接に関連する株、種、品種または疑似種の混合物の逆重畳、不正輸送動物または動物製品の特定、植物または動物の専売株の汚染または誤用、胎児ＤＮＡの多妊娠逆重畳、臓器移植由来ＤＮＡの逆重畳、における多くの用途を有する。

【0007】

一部の実施形態では、本開示は、混合物から核酸のドナー源を検出および／または定量するための方法を提供し、１つ以上のドナー源から標的二本鎖ＤＮＡ分子を含む混合物を提供するステップであって、標的二本鎖ＤＮＡ分子は、１つ以上の遺伝的多型を含む、提供するステップと、混合物中の複数の標的二本鎖ＤＮＡ分子の各々についてエラー修正配列リードを生成するステップと、を含む。特定の実施形態では、エラー修正配列リードを生成することは、複数の標的二本鎖ＤＮＡ断片にアダプター分子をライゲーションして複数のアダプター－ＤＮＡ分子を生成するステップと、アダプター－ＤＮＡ分子の元の第１の鎖のコピーのセットおよびアダプター－ＤＮＡ分子の元の第２の鎖のコピーのセットを生成するステップと、元の第１の鎖および第２の鎖の１つ以上のコピーを配列決定して、第１の鎖の配列および第２の鎖の配列を提供するステップと、第１の鎖の配列と第２の鎖の配列とを比較して、第１の鎖の配列と第２の鎖の配列との間の１つ以上の対応関係を特定するステップと、を含む。本方法は、エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の混合物中に存在する核酸のドナー源を特定することをさらに含む。

【0008】

一部の実施形態では、本開示はまた、混合物から核酸のドナー源を検出および／または定量するための方法を提供し、生の配列決定データからデュプレックス配列決定データを生成するステップであって、生の配列決定データは、１つ以上のドナー源からの標的二本鎖ＤＮＡ分子を含む混合物から生成され、標的二本鎖ＤＮＡ分子は、１つ以上の遺伝的多型を含む、生成するステップと、エラー修正配列リードを個々の遺伝子型に逆重畳することによって、核酸の混合物中に存在する核酸のドナー源を特定するステップと、を含む。

【0009】

一部の実施形態では、混合物は、１つ以上の未知の個々の遺伝子型を含み、エラー修正配列リードを個々の遺伝子型に逆重畳することは、参照配列中の１つ以上の遺伝子座にマッピングする個々の標的二本鎖ＤＮＡ分子内に存在するマイクロハプロタイプアレルの組み合わせを特定するステップと、１つ以上の遺伝子座内の各遺伝子座に存在する全ての可能な遺伝子型に対する全ての可能な混合比率を評価するステップと、特定されたマイクロハプロタイプアレルの組み合わせに十分に適合する全ての可能な個々の遺伝子型のリストおよび評価された全ての可能な混合比率を決定するステップと、を含む。

【0010】

他の実施形態では、混合物は、１つ以上の既知の個々の遺伝子型を含み、エラー修正配列リードを個々の遺伝子型に逆重畳することは、混合物中の個々の標的二本鎖ＤＮＡ分子内に存在するマイクロハプロタイプアレルの組み合わせを特定するステップと、各既知の個々の遺伝子型から供与される各アレルの総数を合計するステップと、混合物中に存在する各既知の遺伝子型の混合比率を決定するステップと、を含む。

【0011】

一部の実施形態では、混合物は、２つ以上のドナー源を含み、本方法は、エラー修正配列リード内に存在する各遺伝的多型の比率、または遺伝的多型の実質的に固有の組み合わせの比率を計算することによって、混合物中に存在する２つ以上のドナー源からの各ドナー源の比率を決定することを、さらに含む。一部の実施形態では、標的二本鎖ＤＮＡ分子は、１つ以上の臍帯血試料から抽出された。他の実施形態では、標的二本鎖ＤＮＡ分子は、法医学的試料から抽出された。さらなる実施形態では、標的二本鎖ＤＮＡ分子を、幹細胞または臓器移植を有する患者から抽出した。なおさらなる実施形態では、標的二本鎖ＤＮＡ分子が、患者から抽出され、混合物中に存在する１つ以上のドナー源を特定することは、患者のマイクロキメリズムのレベルを測定することを含む。さらに他の実施形態では、標的二本鎖ＤＮＡ分子は、腫瘍試料から抽出された。

【0012】

一部の実施形態では、本方法は、混合物中に存在する各個々の遺伝子型の相対的存在量を定量することを、さらに含んでもよい。他の実施形態では、１つ以上の遺伝的多型は、マイクロハプロタイプを含む。混合物中の複数の標的二本鎖ＤＮＡ分子の各々についてのエラー修正配列リードを生成するステップを含む実施形態では、本方法は、配列決定の前に１つ以上の標的ゲノム領域を選択的に富化することをさらに含むことができる。デュプレックス配列決定データを生成するステップを含む実施形態では、混合物中の標的二本鎖ＤＮＡ分子は、生の配列決定データを生成する前に、１つ以上の標的ゲノム領域について選択的に富化されてもよい。一部のそのような実施形態では、１つ以上の標的ゲノム領域は、ゲノム中のマイクロハプロタイプ部位を含む。

【0013】

一部の実施形態では、本方法は、混合物から核酸のドナー源を検出および／または定量することを提供し、ドナー源のうちの１つ以上は、既知の遺伝子型を有する。他の実施形態では、本方法は、混合物から核酸のドナー源を検出および／または定量することを提供し、ドナー源のうちの１つ以上が、未知の遺伝子型を有する。様々な実施形態では、本方法は、１つ以上の個々の遺伝子型を、複数の既知の遺伝子型を含むデータベースと比較して、１つ以上のドナー源を特定することを含むことができる。

【0014】

一部の実施形態では、本開示は、例えば、混合物由来の核酸のドナー源を検出および／または定量するためのシステムなどのシステムを提供する。本技術の態様に従ったシステムの様々な実施形態は、配列決定データおよび遺伝子型データに関連する情報を送信するためのコンピュータネットワークであって、情報が、生の配列決定データ、デュプレックス配列決定データ、試料情報、および遺伝子型情報のうちの１つ以上を含む、コンピュータネットワークと、１つ以上のユーザ計算デバイスと関連付けられ、コンピュータネットワークと通信するクライアントコンピュータと、複数の遺伝子型プロファイルおよびユーザ結果の記録を格納するためにコンピュータネットワークに接続されたデータベースと、コンピュータネットワークと通信し、かつ、デュプレックス配列決定データを生成するためにクライアントコンピュータから生の配列決定データおよび要求を受信し、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ化し、個々の鎖からの代表的な配列を互いに比較して、デュプレックス配列決定データを生成するように構成された、デュプレックス配列決定モジュールと、コンピュータネットワークと通信し、かつ、マイクロハプロタイプアレルを特定し、ドナー源の相対的存在量を計算して遺伝子型データを生成するように構成された、デュプレックス配列決定モジュールと、を含む。一部の実施形態では、遺伝子型プロファイルは、複数の既知のドナー源からの、マイクロハプロタイプおよび／または単一ヌクレオチド多型（ＳＮＰ）情報を含む。

【0015】

一部の実施形態では、本開示は、本技術の態様に従って、本方法を行うためのコンピュータシステムを提供し、例えば、本明細書に記載のように、混合物から核酸のドナー源を検出および／または定量する。システムは、プロセッサ、メモリ、データベース、およびプロセッサ（複数可）のための命令を含む非一時的コンピュータ可読記録媒体を有する少なくとも１つのコンピュータを備えることができ、当該プロセッサ（複数可）は、本方法を含む操作を行うために当該命令を実行するように構成されている。

【0016】

一部の実施形態では、本開示は、命令を含む非一時的コンピュータ可読記憶媒体を提供し、１つ以上のプロセッサにより実行されるとき、本技術の態様に従った方法、および、例えば、本明細書に記載される方法、を行う命令を含む。特定の実施形態では、非一時的コンピュータ可読記憶媒体は、各特定されたドナー源の混合比率を計算するための命令を含む。

【0017】

なおさらなる実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、コンテンツが、少なくとも１つのコンピュータに、ドナー源物質の混合物を含む試料中の二本鎖核酸分子のデュプレックス配列決定データを提供するための方法を行わせる。例えば、いくつかの方法は、ユーザ計算デバイスから生の配列データを受信するステップと、試料中の複数の核酸分子に由来する複数の生の配列リードを含む試料特有のデータセットを生成するステップと、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ化するステップであって、グループ化が共有される単一分子識別子配列に基づく、グループ化するステップと、元の二本鎖核酸分子からの第１の鎖の配列リードと第２の鎖の配列リードとを比較して、第１の鎖の配列リードと第２の鎖の配列リードとの間に１つ以上の対応関係を特定するステップと、試料中の二本鎖核酸分子のデュプレックス配列決定データを提供するステップと、試料中の個々の二本鎖核酸分子内に存在するマイクロハプロタイプアレルの組み合わせを特定して、混合物中の１つ以上のドナー源を特定するステップと、任意選択的に、各特定されたドナー源の混合比率を計算するステップと、を含む。一部の実施形態では、そのような方法はまた、比較された第１の配列リードと第２の配列リードとの間の非相補のヌクレオチド位置を特定するステップを含み得、非相補の位置において、プロセスエラーを特定し、除外するか、または考慮しないステップも含み得る。

【0018】

他の実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、コンテンツが、少なくとも１つのコンピュータに、核酸混合物中に存在するマイクロハプロタイプを検出し、特定し、定量するための方法を行わせ、既知の供給源の遺伝子型、試料を決定し、本方法は、混合物中の個々のＤＮＡ分子内に存在するマイクロハプロタイプアレルの組み合わせを特定するステップと、各既知の供給源の遺伝子型から供与される各アレルの総数を合計するステップと、混合物中に存在する各遺伝子型の混合比率を決定するステップと、を含む。一部の実施形態では、本方法は、回帰ベースのモデルを使用することを含む、混合比率を計算するステップも含んでいてもよい。さらなる実施形態では、本方法はまた、各遺伝子型の決定された混合比率を、元の混合比率と比較するステップも含んでもよい。

【0019】

さらにさらなる実施形態では、本開示は、非一時的コンピュータ可読媒体を提供し、コンテンツが、少なくとも１つのコンピュータに、試料中の未知の遺伝子型の核酸混合物を逆重畳するための方法を行わせ、本方法は、混合物中の個々のＤＮＡ分子内に存在するマイクロハプロタイプアレルの組み合わせを特定するステップと、各遺伝子座に存在する全ての可能な遺伝子型に対する全ての可能な混合比率を評価するステップと、特定されたマイクロハプロタイプアレルの組み合わせに十分に適合する全ての可能な遺伝子型のリストおよび評価された全ての可能な混合比率を決定するステップと、を含む。一部の実施形態では、本方法はまた、試料中の未知の遺伝子型からの可能な遺伝子型を、既知の供給源の遺伝子型プロファイルを含むデータベースと比較して、ドナー源を特定するステップを含んでもよい。

【0020】

本技術の他の実施形態および態様は、以下の詳細な記載において、さらに説明される。

【図面の簡単な説明】

【0021】

本開示の多くの態様は、一緒に図面を構成する、以下の図を参照することによって、より良く理解することができる。これらの図は、限定のためではなく、例示の目的のみのためである。図中の構成要素は、必ずしも縮尺どおりではない。むしろ、本開示の原理を明確に例示することを重視する。

【0022】

【図1】図１、図２、および図３は、先行技術からのＳＮＰ配列決定の態様を示す。

【図2】同上。

【図3】同上。

【図4-1】図４Ａは、本技術の一部の実施形態と共に使用するための核酸アダプター分子、および本技術の一実施形態に従う二本鎖核酸断片へのアダプター分子のライゲーションから得られる二本鎖アダプター核酸複合体を示す。

【図4-2】図４Ｂおよび図４Ｃは、本技術の一実施形態に従う、様々なデュプレックス配列決定方法のステップの概念図である。

【図5】図５は、本技術の一実施形態に従う、混合物中の核酸の逆重畳のための本明細書に開示される方法および／または試薬と共に使用するネットワークコンピュータシステムの概略図である。

【図6】図６は、本技術の一実施形態に従って、本技術の一実施形態に従って、デュプレックス配列決定コンセンサス配列データを提供するためのルーチンを示すフロー図である。

【図7】図７は、本技術の一実施形態に従う、核酸混合物中に存在するマイクロハプロタイプを検出し、特定し、定量して、既知の供給源の遺伝子型を決定するためのルーチンを示すフロー図である。

【図8】図８は、本技術の一実施形態に従う、試料中の未知の遺伝子型の核酸混合物を逆重畳するためのルーチンを示すフロー図である。

【図9】図９は、本技術の一態様に従う、図７のルーチンを使用して決定され得る遺伝子型データの一例を示す。

【図10】図１０は、本技術の一態様に従う、図８のルーチンを使用して決定され得る遺伝子型データの一例を示す。

【図11】図１１は、本技術の一態様に従う、臍帯血の増殖（ｅｘｐａｎｓｉｏｎ）、続いて核酸混合物の逆重畳を分析するための方法の模式図を示す。

【図12】図１２は、本技術の一態様に従う、図１１に記載の方法で使用されるＳＮＰパネルの例示的なグローバル分布を提供する。

【図13】図１３は、本技術の態様に従う、各試料についての例示的なオンターゲットデュプレックス配列決定の深度を示す棒グラフである。

【図14】図１４は、本技術の一態様に従う、ドナー遺伝子型を差別化するために使用される１１個の特異的ＳＮＰアレルを特定するパネルを示す。

【図15A】図１５Ａ～Ｂおよび図１５Ｃ～Ｄは、各々、ナノドロップ配列決定（各試料の左の濃い灰色の棒）によって、かつ本技術の一態様（各試料の右の薄い灰色の棒）に従って定量された、混合物中の各臍帯試料の相対的存在量を示す棒グラフである。

【図15B】同上。

【図15C】同上。

【図15D】同上。

【図15E】図１５Ｅは、本技術の一態様に従う、ナノドロップ（各試料の左の濃い灰色の棒）およびＱｕｂｉｔフルオロメーター（各試料の右の薄い灰色の棒）測定による、各試料内のＤＮＡ定量を示す棒グラフである。

【図16】図１６は、本技術の一態様に従う、各混合物内の各個々の臍帯血試料についての定量における倍率差を示す。

【図17】図１７は、本技術の一態様に従う、フローサイトメトリーで決定された、個々の臍帯血試料についての、増殖前のＣＤ３４＋画分の細胞、および（デュプレックス配列決定で決定された）増殖後のＣＤ３４^＋画分の細胞を示す棒グラフである。

【図18A】図１８Ａは、本技術の一態様に従う、ヌクレオチド配列長の関数としてのマイクロハプロタイプ領域の頻度を示す棒グラフである。

【図18B】図１８Ｂは、本技術の一態様に従う、様々な集団における１つのマイクロハプロタイプのアレル頻度の一例である。

【図19】図１９は、本技術の一態様に従う、混合比率の推定値を示すためのデュプレックス配列決定データのシミュレートされた逆重畳の結果を示す線グラフである。

【図20】図２０は、本技術の一態様に従う、混合物中のドナー源を決定するための線形回帰モデルの一例を示す。

【図21】図２１は、パネルＡ～Ｄは、各々、本技術の一態様に従う、供給源１～５の真の混合比率を示す棒グラフである。

【図22】図２２は、パネルＡ～Ｄは、本技術の一態様に従う、５つの潜在的供給源の各々について遺伝子型が事前に分かっていた場合の、混合物の各々における各個々の供給源についての推定された混合比率に対してプロットされた真の混合比率を示す。

【図23A】図２３Ａ、図２３Ｂ、図２３Ｃ、および図２３Ｄは、本技術の一態様に従う、デュプレックス配列決定を使用して、試料中で決定される各未知の遺伝子型供給源の可能性および存在量を示す、各々のヒートマップグラフである。

【図23B】同上。

【図23C】同上。

【図23D】同上。

【図24-1】図２４は、パネルＡ～Ｄは、本技術の一態様に従う、供給源の遺伝子型が以前に分かっていなかった場合でも、複数の供給源について決定され得るマイクロハプロタイプアレルの結果を示す。

【図24-2】同上。

【図25】図２５は、本技術の一態様に従う、混合物中の試料の存在量の推定値に対して試料の実際の混合比率を比較する散布図である。

【図26】図２６は、本技術の一態様に従う、検出された混合物中に存在する遺伝子型の比率（実線）および少なくとも１つの偽陽性（破線）を有するリードの比率をプロットする線グラフである。

【図27】図２７は、パネルＡ～Ｃは、本技術の一態様に従う、５０個の遺伝子型の３つの異なるシミュレーションされた混合物における推定値対真の混合比率を示す線プロットである。

【発明を実施するための形態】

【0023】

本技術のいくつかの実施形態の具体的な詳細が、図１～図２７を参照することによって、以下に記載される。これらの実施形態は、例えば、これらのような方法で使用するための、混合物の逆重畳および供給源の特定のための方法、ならびに関連する試薬、キット、およびソフトウェアを含み得る。本技術の一部の実施形態は、混合物（例えば、細胞混合物、組織混合物、多キメラ生物または組織、胎児ＤＮＡ、移植組織、多キメラ細胞培養物、法医学的試料、核酸混合物など）を評価および解析するためのデュプレックス配列決定を利用することを対象とする。本技術の他の実施形態は、個体または個体の群と関連する遺伝子型シグネチャ（例えば、固有の多型の組み合わせ）を決定するためにデュプレックス配列決定を利用することを対象とする。本技術のさらなる実施形態は、例えば、個体の遺伝子型シグネチャに基づいて、各供給源の混合物および相対的比率に寄与する２つ以上の遺伝物質源を特定することを対象とする。

【0024】

実施形態の多くは、デュプレックス配列決定に関して本明細書に記載されるが、本明細書に記載されるものに加えて、エラー修正配列決定リードを生成することが可能な他の配列決定モダリティは、本技術の範囲内である。これに加えて、本技術の他の実施形態は、本明細書に記載されるものとは異なる構成、構成要素または手順を有していてもよい。したがって、当業者は、本技術が、追加の要素を有する他の実施形態を含んでいてもよく、および本技術が、図１～図２７を参照しつつ、以下に示され、記載される特徴のいくつかを含まない他の実施形態を含んでいてもよいことを、理解するであろう。

【0025】

Ｉ．特定の定義
本開示がより容易に理解されるために、まず、特定の用語を以下に定義する。以下の用語および他の用語についてのさらなる定義は、本明細書全体を通して記載される。

【0026】

本出願では、文脈から別段明確でない限り、「１つの（ａ）」という用語は、「少なくとも１つ」を意味すると理解され得る。本出願で使用される場合、「または」という用語は、「および／または」を意味すると理解され得る。本出願では、「～を含む（ｃｏｍｐｒｉｓｉｎｇ）」および「～を含む（ｉｎｃｌｕｄｉｎｇ）」という用語は、それ自体によって示されるか、または１つ以上のさらなる構成要素もしくはステップと共に示されるかにかかわらず、項目化された構成要素またはステップを包含すると理解され得る。範囲が本明細書で提示される場合、その両端が含まれる。本出願で使用される場合、「～を含む（ｃｏｍｐｒｉｓｅ）」という用語およびこの用語の変形語、例えば、「～を含む（ｃｏｍｐｒｉｓｉｎｇ）」および「～を含む（ｃｏｍｐｒｉｓｅｓ）」は、他の付加物、構成要素、整数またはステップを除外することを意図しない。

【0027】

約：「約」という用語は、ある値を参照して本明細書で使用される場合、参照される値の文脈で、類似する値を指す。一般に、その文脈に精通している当業者は、その文脈で、「約」に包含される関連する程度の分散を理解するであろう。例えば、一部の実施形態では、「約」という用語は、参照される値の２５％、２０％、１９％、１８％、１７％、１６％、１５％、１４％、１３％、１２％、１１％、１０％、９％、８％、７％、６％、５％、４％、３％、２％、１％、またはそれ未満内の範囲の値を包含し得る。１桁の整数値の分散について、正方向または負方向のいずれかにおける１個の数値のステップが、その値の２５％を超える場合、「約」は、正方向または負方向のいずれかにおいて少なくとも１、２、３、４または５の整数値を含むことが当業者によって一般的に受け入れられており、状況に応じて０を超えても超えなくてもよい。この非限定的な例は、当業者にとって明らかであろういくつかの状況において、３セントが約５セントとみなされ得るという仮説である。

【0028】

類似体：本明細書で使用される場合、「類似体」という用語は、１つ以上の特定の構造特徴、要素、構成要素または部分が参照物質と共通する物質（ｓｕｂｓｔａｎｃｅ）を指す。典型的には、「類似体」は、参照物質と有意な構造類似性を示し、例えば、コアまたはコンセンサス構造が共通するが、特定の別個の様式では違いもある。一部の実施形態では、類似体は、参照物質から、例えば、参照物質の化学操作によって生成可能な物質である。一部の実施形態では、類似体は、参照物質を生成する合成プロセスと実質的に類似した合成プロセス（例えば、複数のステップが共通する）の遂行を通して生成可能な物質である。一部の実施形態では、類似体は、参照物質を生成するために使用されるものとは異なる合成プロセスの遂行を通して生成されるか、または生成可能である。

【0029】

生体試料：本明細書で使用される場合、「生体試料」または「試料」という用語は、典型的には、本明細書に記載されるように、目的の１つ以上の生物学的供給源（例えば、組織または生物または細胞培養物）から得られるか、または由来する試料を指す。一部の実施形態では、目的の供給源は、動物またはヒトなどの生物を含む。他の実施形態では、目的の供給源は、細菌、ウイルス、原生動物または真菌などの微生物を含む。さらなる実施形態では、目的の供給源は、合成組織、生物、細胞培養物、核酸または他の物質であってもよい。さらにさらなる実施形態では、目的の供給源は、植物系生物であってもよい。さらに別の実施形態では、試料は、例えば、水試料、土壌試料、考古学試料または非生物源から採取された他の試料などの環境試料であってもよい。他の実施形態では、試料は、多生物試料（例えば、混合生物試料）であってもよい。さらにさらなる実施形態では、試料は、細胞混合物または組織混合物を含んでもよい。他の実施形態では、試料は、多キメラ生物もしくは組織、移植組織、または多キメラ細胞培養物に由来し得る。さらなる実施形態では、試料は、胎児ＤＮＡを含んでもよい。さらに他の実施形態では、試料は、犯罪現場または他の法執行機関の調査（例えば、加害者、被害者、または行方不明者などを特定するためなどの法医学的事件）から採取されてもよい。他の実施形態では、試料は、（例えば、犠牲者または行方不明者を特定するために）戦争またはテロ行為の調査または考証などから採取されてもよい。他の実施形態では、試料は、考古学的研究から採取されてもよい。一部の実施形態では、生体試料は、生体組織もしくは生物流体であるか、またはこれらを含む。一部の実施形態では、生体試料は、単離されたＤＮＡもしくは他の核酸であってもよいか、あるいは骨髄、血液、血球、幹細胞、腹水、組織試料、生検試料、またはまたは穿刺吸引試料、細胞を含む体液、遊離浮遊核酸、タンパク質に結合した核酸、リボタンパク質に結合した核酸、痰、唾液、尿、脳脊髄液、腹腔液、胸水、糞便、リンパ液、婦人科系体液、皮膚スワブ、膣スワブ、Ｐａｐスメア、口腔スワブ、鼻腔スワブ、乳管洗浄もしくは気管支肺泡洗浄などの洗液もしくは洗浄液、膣液、吸引液、擦過物、骨髄標本、組織生検標本、胎児組織もしくは体液、外科標本、糞便、他の体液、分泌液、および／もしくは排泄物、および／またはこれらからの細胞などを含んでいてもよい。一部の実施形態では、生体試料は、個体から得られた細胞であるか、またはそれを含む。一部の実施形態では、得られる細胞は、試料が得られる個体由来の細胞であるか、またはこれらを含む。一部の実施形態では、細胞小器官または小胞またはエクソソームなどの細胞誘導体。特定の実施形態では、生体試料は、対象から得られる液体生検である。一部の実施形態では、試料は、任意の適切な手段によって目的の供給源から直接得られる「一次試料」である。例えば、一部の実施形態では、一次生体試料は、生検（例えば、穿刺吸引または組織生検）、手術、体液（例えば、血液（血漿またはそれから分離された血清）、リンパ液、糞便など）の採取などからなる群から選択される方法によって得られる。一部の実施形態では、文脈から明らかになるように、「試料」という用語は、一次試料を処理することによって（例えば、その１つ以上の構成要素を除去することによって、かつ／または１つ以上の薬剤をこれに加えることによって）得られる調製物を指す。例えば、半透過性膜を使用して濾過すること。このような「処理された試料」は、例えば、試料から抽出されるか、あるいは一次試料を、ｍＲＮＡの増幅もしくは逆転写、特定の構成要素の単離および／または精製などの技術に供して得られる、核酸またはタンパク質を含んでいてもよい。

【0030】

癌疾患：一実施形態では、疾患または障害は、一般的に、転移し得る異常な細胞の調節障害性の増殖によって特徴付けられるような、当業者によく知られた「癌疾患」である。本技術の１つ以上の態様を使用して検出可能な癌疾患は、非限定的な例として、中でも、前立腺癌（すなわち、腺癌、小細胞）、卵巣癌（例えば、卵巣腺癌、漿液性癌または胚性癌腫、卵黄嚢腫瘍、奇形腫）、肝臓癌（例えば、ＨＣＣまたは肝細胞腫、血管肉腫）、形質細胞腫瘍（例えば、多発性骨髄腫、形質細胞性白血病、形質細胞腫、アミロイドーシス、ワルデンストレーム高ガンマグロブリン血症）、大腸癌（例えば、結腸腺癌、結腸粘液腺癌、カルチノイド、リンパ腫および直腸腺癌、直腸扁平上皮癌）、白血病（例えば、急性骨髄性白血病、急性リンパ性白血病、慢性骨髄性白血病、慢性リンパ性白血病、急性骨髄芽球性白血病、急性前骨髄球性白血病、急性骨髄単球性白血病、急性単球性白血病、急性赤白血病および慢性白血病、Ｔ細胞白血病、セザリー症候群、全身性肥満細胞症、有毛細胞白血病、慢性骨髄性白血病の急性転化）、骨髄異形成症候群、リンパ腫（例えば、びまん性大細胞型Ｂ細胞リンパ腫、皮膚Ｔ細胞リンパ腫、末梢性Ｔ細胞リンパ腫、ホジキンリンパ腫、非ホジキンリンパ腫、濾胞性リンパ腫、マントル細胞リンパ腫、ＭＡＬＴリンパ腫、辺縁帯細胞リンパ腫、リヒタートランスフォーメーション、ダブルヒットリンパ腫、移植関連リンパ腫、ＣＮＳリンパ腫、節外性リンパ腫、ＨＩＶ関連リンパ腫、有毛細胞白血病、バリアント型有毛細胞白血病、風土病性リンパ腫、バーキットリンパ腫、移植関連リンパ増殖性新生物およびリンパ球性リンパ腫など）、子宮頸癌（扁平上皮子宮頸癌、明細胞癌、ＨＰＶ関連癌腫、子宮頸部肉腫など）、食道癌（食道扁平上皮細胞癌、腺癌、特定のグレードのバレット食道、食道腺癌）、黒色腫（皮膚黒色腫、ブドウ膜黒色腫、四肢末端部黒色腫、無色素性黒色腫など）、ＣＮＳ腫瘍（例えば、乏突起膠腫、星状細胞腫、多形神経膠芽腫、髄膜腫、シュワン腫、頭蓋咽頭腫など）、膵臓癌（例えば、腺癌、腺扁平上皮癌、印環細胞癌、肝様癌、コロイド癌腫、島細胞癌、膵神経内分泌癌など）、消化管間質腫瘍、肉腫（例えば、線維肉腫、粘液肉腫、脂肪肉腫、軟骨肉腫、骨肉腫、血管肉腫、内皮腫肉腫、リンパ管肉腫、リンパ管内皮腫肉腫、平滑筋肉腫、ユーイング肉腫および横紋筋肉腫、紡錘細胞腫瘍など）、乳癌（例えば、炎症性癌、大葉性癌、乳管癌など）、ＥＲ陽性癌、ＨＥＲ－２陽性癌、膀胱癌（膀胱扁平上皮癌、膀胱小細胞癌、尿路上皮癌など）、頭頸部癌（例えば、頭頸部扁平上皮癌、ＨＰＶ関連扁平上皮細胞癌、鼻咽頭癌など）、肺癌（例えば、非小細胞肺癌、大細胞癌、気管支原性肺癌、扁平上皮細胞癌、小細胞肺癌など）、転移性癌、口腔癌、子宮癌（平滑筋肉腫、平滑筋腫など）、精巣癌（例えば、セミノーマ、非セミノーマおよび胚性癌腫、卵黄嚢腫瘍など）、皮膚癌（例えば、扁平上皮細胞癌および基底細胞癌、メルケル細胞癌、黒色腫、Ｔ細胞リンパ腫など）、甲状腺癌（例えば、乳頭癌、髄様癌、甲状腺未分化癌など）、胃癌、上皮内癌、骨癌、胆道癌、眼癌、喉頭癌、腎臓癌（例えば、腎細胞癌、ウイルムス腫瘍など）、胃癌、芽細胞腫（例えば、腎芽細胞腫、髄芽細胞腫、血管芽細胞腫、神経芽細胞腫、網膜芽細胞腫など）、骨髄増殖性腫瘍（真性赤血球増加症、本態性血小板血症、骨髄線維症など）、脊索腫、滑膜腫、中皮腫、腺癌、汗腺癌、脂腺癌、嚢胞腺癌、胆管癌、絨毛癌、上皮癌、上衣腫、松果体腫、聴神経腫、シュワン腫、髄膜腫、下垂体腺腫、神経鞘腫、小腸の癌、褐色細胞腫、小細胞肺癌、腹膜中皮腫、副甲状腺機能亢進性腺腫、副腎癌、原発不明癌、内分泌系の癌、陰茎の癌、尿道の癌、皮膚または眼内の黒色腫、婦人科腫瘍、小児の固形腫瘍、または中枢神経系の新生物、原発性縦隔胚細胞腫瘍、未確定の潜在能を有するクローン性造血、くすぶり型多発性骨髄腫、意義不明の単クローン性免疫グロブリン血症、単クローン性Ｂ細胞リンパ球増加症、低グレードの癌、クローナルフィールド欠損（ｃｌｏｎａｌｆｉｅｌｄｄｅｆｅｃｔｓ）、前癌性新生物（ｐｒｅｎｅｏｐｌａｓｔｉｃｎｅｏｐｌａｓｍｓ）、尿管癌、自己免疫関連癌（すなわち、潰瘍性結腸炎、原発性硬化性胆管炎、セリアック病）、遺伝性素因と関連する癌（すなわち、ＢＲＣＡ１、ＢＲＣＡ２、ＴＰ５３、ＰＴＥＮ、ＡＴＭなどでの遺伝子欠陥を有するもの）、および様々な遺伝的症候群、例えば、ＭＥＮ１、ＭＥＮ２トリソミー２１など）、および子宮内で化学物質に曝露されたときに生じるもの（すなわち、ジエチルスチルベストロール［ＤＥＳ］に曝露した女性の女性子孫における明細胞癌）、を含む。

【0031】

決定：本明細書に記載の多くの方法論は、「決定する」ステップを含む。当業者は、本明細書を読むと、このような「決定する」ことが、例えば本明細書に明示的に言及される特定の技術を含め、当業者が利用可能な様々な技術のいずれかの使用を通して利用され得るか、または達成され得ることを理解するだろう。一部の実施形態では、決定することは、物理的な試料の操作を伴う。一部の実施形態では、決定することは、例えば、関連する分析を行うように適合されたコンピュータまたは他の処理ユニットを利用した、データまたは情報の検討および／または操作を伴う。一部の実施形態では、決定することは、供給源から関連情報および／または資料を受信することを伴う。一部の実施形態では、決定することは、試料またはエンティティの１つ以上の特徴を、比較可能な参照と比較することを伴う。

【0032】

デュプレックス配列決定（ＤＳ）：本明細書で使用される場合、「デュプレックス配列決定（ＤｕｐｌｅｘＳｅｑｕｅｎｃｉｎｇ、ＤＳ）」は、その最も広い意味で、個々のＤＮＡ分子の両方の鎖からの配列を比較することによって卓越した精度を達成する、タグに基づくエラー修正方法を指す。

【0033】

発現：本明細書で使用される場合、核酸配列の「発現」は、以下の事象のうちの１つ以上を指す：（１）ＤＮＡ配列からのＲＮＡテンプレートの生成（例えば、転写による）、（２）ＲＮＡ転写物のプロセシング（例えば、スプライシング、編集、５’キャップ形成および／または３’末端形成による）、（３）ＲＮＡのポリペプチドもしくはタンパク質への翻訳、および／または（４）ポリペプチドもしくはタンパク質の翻訳後修飾。

【0034】

変異：本明細書で使用される場合、「変異」という用語は、核酸配列または構造に対する変化を指す。ポリヌクレオチド配列に対する変異は、複雑な複数ヌクレオチド変化の中で、試料中の点変異（例えば、単一塩基変異）、複数ヌクレオチドの変異、ヌクレオチドの欠失、配列再編成、ヌクレオチドの挿入およびＤＮＡ配列の重複を含んでいてもよい。変異は、相補的な塩基の変化（すなわち、真の変異）として、または片方の鎖上の変異があるが、他の鎖上には変異がないもの（すなわち、ヘテロ二重鎖（ｈｅｔｅｒｏｄｕｐｌｅｘ））として、二重鎖ＤＮＡ分子の両方の鎖上で起きてもよく、修復されるか、破壊されるか、または誤って修復される／真の二本鎖変異へと変換される可能性を有する。変異は、同じもしくは関連する供給源および／または個体由来の対照試料に対する変化を表し得る。変異は、参照配列に対する変化を表し得る。

【0035】

非癌性疾患：別の実施形態では、疾患または障害は、ゲノム変異または損傷によって引き起こされるか、または寄与する非癌性疾患である。非限定的な例として、本技術の１つ以上の態様を使用して検出可能なこのような非癌タイプの疾患または障害は、糖尿病、自己免疫疾患または障害、不妊症、神経変性、早老症、心血管疾患、別の遺伝子介在性疾患の治療に関連する任意の疾患（すなわち、化学療法介在性神経症およびシスプラチンなどの化学療法に関連する腎不全）、アルツハイマー／認知症、肥満、心臓疾患、高血圧、関節炎、精神疾患、他の神経障害（神経線維腫症）、および多因子性遺伝障害（例えば、環境因子が引き金となる素因）を含む。

【0036】

核酸：本明細書で使用される場合、その最も広い意味で、オリゴヌクレオチド鎖に組み込まれているか、または組み込まれ得る任意の化合物および／または物質を指す。一部の実施形態では、核酸は、ホスホジエステル結合を介してオリゴヌクレオチド鎖に組み込まれているか、または組み込まれ得る化合物および／または物質である。文脈から明らかになるように、一部の実施形態では、「核酸」は、個々の核酸残基（例えば、ヌクレオチドおよび／またはヌクレオシド）を指し、一部の実施形態では、「核酸」は、個々の核酸残基を含むオリゴヌクレオチド鎖を指す。一部の実施形態では、「核酸」は、ＲＮＡであるか、またはＲＮＡを含み、一部の実施形態では、「核酸」は、ＤＮＡであるか、またはＤＮＡを含む。一部の実施形態では、核酸は、１つ以上の天然核酸残基であるか、１つ以上の天然核酸残基を含むか、または１つ以上の天然核酸残基からなる。一部の実施形態では、核酸は、１つ以上の核酸類似体であるか、１つ以上の核酸類似体を含むか、または１つ以上の核酸類似体からなる。一部の実施形態では、核酸類似体は、ホスホジエステル骨格を利用しない点において核酸と異なる。例えば、一部の実施形態では、核酸は、１つ以上の「ペプチド核酸」であるか、１つ以上の「ペプチド核酸」を含むか、または１つ以上の「ペプチド核酸」からなり、当該技術分野で既知であり、骨格内のホスホジエステル結合の代わりにペプチド結合を有し、本技術の範囲内であると見なされる。代替的に、または追加的に、一部の実施形態では、核酸は、ホスホジエステル結合ではなく、１つ以上のホスホロチオエート結合および／または５’－Ｎ－ホスホラミダイト結合を有する。一部の実施形態では、核酸は、１つ以上の天然ヌクレオシド（例えば、アデノシン、チミジン、グアノシン、シチジン、ウリジン、デオキシアデノシン、デオキシチミジン、デオキシグアノシンおよびデオキシシチジン）であるか、１つ以上の天然ヌクレオシドを含むか、または１つ以上の天然ヌクレオシドからなる。一部の実施形態では、核酸は、１つ以上のヌクレオシド類似体（例えば、２－アミノアデノシン、２－チオチミジン、イノシン、ピロロ－ピリミジン、３－メチルアデノシン、５－メチルシチジン、Ｃ－５プロピニルシチジン、Ｃ－５プロピニルウリジン、２－アミノアデノシン、Ｃ５－ブロモウリジン、Ｃ５－フルオロウリジン、Ｃ５－ヨードウリジン、Ｃ５－プロピニルウリジン、Ｃ５－プロピニルシチジン、Ｃ５－メチルシチジン、２－アミノアデノシン、７－デアザアデノシン、７－デアザグアノシン、８－オキソアデノシン、８－オキソグアノシン、０（６）－メチルグアニン、２－チオシチジン、メチル化塩基、インターカレーションされた塩基、およびこれらの組み合わせ）であるか、１つ以上のヌクレオシド類似体を含むか、または１つ以上のヌクレオシド類似体からなる。一部の実施形態では、核酸は、天然核酸中の糖類と比較して、１つ以上の修飾された糖類（例えば、２’－フルオロリボース、リボース、２’－デオキシリボース、アラビノースおよびヘキソース）を含む。一部の実施形態では、核酸は、ＲＮＡまたはタンパク質などの機能的遺伝子産物をコードするヌクレオチド配列を有する。一部の実施形態では、核酸は、１つ以上のイントロンを含む。一部の実施形態では、核酸は、天然源からの単離、相補性テンプレートに基づく重合による酵素合成（インビボまたはインビトロで）、組換え細胞または系における複製および化学合成のうちの１つ以上によって調製される。一部の実施形態では、核酸は、少なくとも２、３、４、５、６、７、８、９、１０、１５、２０、２５、３０、３５、４０、４５、５０、５５、６０、６５、７０、７５、８０、８５、９０、９５、１００、１１０、１２０、１３０、１４０、１５０、１６０、１７０、１８０、１９０、２００、２２５、２５０、２７５、３００、３２５、３５０、３７５、４００、４２５、４５０、４７５、５００、６００、７００、８００、９００、１０００、１５００、２０００、２５００、３０００、３５００、４０００、４５００、５０００、またはそれを超える残基長である。一部の実施形態では、核酸は、部分的または完全に一本鎖であり、一部の実施形態では、核酸は、部分的または完全に二本鎖である。一部の実施形態では、核酸は、二次構造を有する分枝鎖であってもよい。一部の実施形態では、核酸は、ポリペプチドをコードするか、またはポリペプチドをコードする配列の相補である少なくとも１つの要素を含むヌクレオチド配列を有する。一部の実施形態では、核酸は、酵素活性を有する。一部の実施形態では、核酸は、例えば、リボ核酸タンパク質複合体またはトランスファーＲＮＡにおいて、機械的な機能を果たす。

【0037】

ポリヌクレオチド損傷：本明細書で使用される場合、「ポリヌクレオチド損傷」または「核酸損傷」という用語は、薬剤またはプロセスによって直接的または間接的に引き起こされる（例えば、代謝物、または損傷性もしくは変異原性であるプロセスの誘発）、対象のデオキシリボ核酸（ＤＮＡ）配列に対する損傷（「ＤＮＡ損傷」）またはリボ核酸（ＲＮＡ）配列に対する損傷（「ＲＮＡ損傷」）を指す。損傷した核酸は、対象における疾患または障害の発症を引き起こす場合がある。ポリヌクレオチド損傷は、細胞におけるＤＮＡの化学的および／または物理的な修飾をさらに含んでいてもよい。一部の実施形態では、損傷は、非限定的な例として、酸化、アルキル化、脱アミノ化、メチル化、加水分解、ヒドロキシル化、ニッキング、鎖内架橋、鎖間架橋、平滑末端鎖切断、付着末端二本鎖切断、リン酸化、脱リン酸化、ＳＵＭＯ化、グリコシル化、脱グリコシル化、プトレシニル化、カルボキシル化、ハロゲン化、ホルミル化、一本鎖ギャップ、熱からの損傷、乾燥からの損傷、ＵＶ曝露からの損傷、γ線からの損傷、Ｘ線からの損傷、電離放射線からの損傷、非電離放射線からの損傷、重粒子放射線からの損傷、核崩壊からの損傷、β放射線からの損傷、α放射線からの損傷、中性子放射線からの損傷、陽子放射線からの損傷、反物質からの損傷、宇宙放射線からの損傷、高ｐＨからの損傷、低ｐＨからの損傷、活性酸化種からの損傷、フリーラジカルからの損傷、過酸化物からの損傷、次亜塩素酸塩からの損傷、ホルマリンまたはホルムアルデヒドなどの組織固定からの損傷、反応性鉄からの損傷、低イオン状態からの損傷、高イオン状態からの損傷、無緩衝状態からの損傷、ヌクレアーゼからの損傷、環境曝露からの損傷、火災からの損傷、機械的ストレスからの損傷、酵素分解からの損傷、微生物からの損傷、調製の機械的剪断からの損傷、調製の酵素断片化からの損傷、インビボで自然発生した損傷、核酸抽出中に発生した損傷、配列決定ライブラリ調製中に発生した損傷、ポリメラーゼによって導入された損傷、核酸修復中に導入された損傷、核酸の末端テーリング中に発生した損傷、核酸ライゲーション中に発生した損傷、配列決定中に発生した損傷、ＤＮＡの機械的取り扱いから発生した損傷、ナノポアを通過中に発生した損傷、生物における老化の一部として発生した損傷、個体の化学物質曝露の結果として発生した損傷、変異原によって生じた損傷、発癌物質によって生じた損傷、染色体切断物質によって発生した損傷、酸素曝露によるインビボでの炎症性損傷から生じた損傷、１つ以上の鎖切断による損傷、のうちの少なくとも１つ、およびこれらの任意の組み合わせであるか、またはこれらを含む。

【0038】

参照：本明細書で使用される場合、「参照」という用語は、これに対して比較が行われる標準または対照を記載する。例えば、一部の実施形態では、目的の、薬剤、動物、個体、集団、試料、配列または値を、ある場所に存在し得るかまたは電子手段を介して遠隔的にアクセスし得る物理的またはコンピュータのデータベースにおいて、参照または対照の、薬剤、動物、個体、集団、試料、配列または値、もしくはこれらの代表と、比較する。一実施形態では、参照は、参照ゲノムまたは参照ゲノムアセンブリである。一部の実施形態では、参照または対照は、目的の試験もしくは決定と実質的に同時に試験され、および／または決定される。一部の実施形態では、参照または対照は、歴史的な参照または対照であり、任意選択的に、有形媒体で具現化される。典型的には、当業者に理解されるように、参照または対照は、評価されるものと同等の条件もしくは状況下で決定されるか、または特徴付けられる。当業者は、特定の可能な参照もしくは対照に対する信頼および／または比較を正当化するのに十分な類似性がいつ存在するかを理解するだろう。「参照試料」は、試験対象とは異なり、比較される試料と同じ方法で単離される、対象由来の試料を指す。参照試料の対象は、試験対象と遺伝的に同一であってもよく、または異なっていてもよい。

【0039】

単一分子識別子（ＳＭＩ）：本明細書で使用される場合、「単一分子識別子」または「ＳＭＩ」という用語（特に、「タグ」、「バーコード」、「分子バーコード」、「固有分子識別子」すなわち「ＵＭＩ」と呼ばれてもよい）は、より大きな異種の分子集団の中で個々の分子を実質的に区別することが可能な任意の物質（例えば、ヌクレオチド配列、核酸分子特徴）を指す。一部の実施形態では、ＳＭＩは、外因的に適用されるＳＭＩであってもよく、または外因的に適用されるＳＭＩを含んでいてもよい。一部の実施形態では、外因的に適用されるＳＭＩは、縮重または半縮重した配列であってもよく、または縮重または半縮重した配列を含んでいてもよい。一部の実施形態では、実質的に縮重ＳＭＩは、ランダム固有分子識別子（Ｒ－ＵＭＩ）として知られていることもある。一部の実施形態では、ＳＭＩは、既知のコードのプール内からのコード（例えば、核酸配列）を含んでいてもよい。一部の実施形態では、所定のＳＭＩコードは、定義された固有分子識別子（Ｄ－ＵＭＩ）として知られている。一部の実施形態では、ＳＭＩは、内因性ＳＭＩであってもよく、または内因性ＳＭＩを含んでいてもよい。一部の実施形態では、内因性ＳＭＩは、標的配列の特定の剪断点、標的配列を含む個々の分子の末端に関連する特徴、または個々の分子の一端にあるか、個々の分子の一端に隣接するか、もしくは個々の分子の一端から既知の距離内の特定の配列に関連する情報であってもよく、またはこれらの情報を含んでいてもよい。一部の実施形態では、ＳＭＩは、核酸分子に対する無作為または半無作為な損傷、化学修飾、酵素修飾、または他の修飾に起因する、核酸分子における配列バリエーションに関連するものであってもよい。一部の実施形態では、修飾は、メチルシトシンの脱アミノ化であってもよい。一部の実施形態では、修飾は、核酸ニックの部位を伴っていてもよい。一部の実施形態では、ＳＭＩは、外因性の要素と内因性の要素の両方を含んでいてもよい。一部の実施形態では、ＳＭＩは、物理的に隣接するＳＭＩ要素を含んでいてもよい。一部の実施形態では、ＳＭＩ要素は、分子内で空間的に明確に異なってもよい。一部の実施形態では、ＳＭＩは、非核酸であってもよい。一部の実施形態では、ＳＭＩは、２つ以上の異なるタイプのＳＭＩ情報を含んでいてもよい。ＳＭＩの様々な実施形態は、国際特許公開第ＷＯ２０１７／１００４４１号にさらに開示されており、その全体が参照により本明細書に援用される。

【0040】

鎖定義要素（ＳＤＥ）：本明細書で使用される場合、「鎖定義要素」または「ＳＤＥ」という用語は、二本鎖核酸物質の特定の鎖の識別を可能にし、したがって、他の／相補鎖からの区別を可能にする任意の物質（例えば、配列決定または他の核酸インテロゲーションの後に、標的二本鎖核酸から得られる２つの一本鎖核酸各々の増幅産物を互いに実質的に区別可能にする任意の物質）を指す。一部の実施形態では、ＳＤＥは、アダプター配列中の実質的に非相補的な配列の１つ以上のセグメントであってもよく、またはこのセグメントを含んでいてもよい。特定の実施形態では、アダプター配列中の実質的に非相補的な配列のセグメントは、Ｙ字型または「ループ」形状を含むアダプター分子によって提供されてもよい。他の実施形態では、アダプター配列中の実質的に非相補的な配列のセグメントは、アダプター配列中の隣接する相補的な配列の中央に、対になっていない「バブル」を形成してもよい。他の実施形態では、ＳＤＥは、核酸修飾を包含してもよい。一部の実施形態では、ＳＤＥは、対になった鎖の、物理的に分離した反応コンパートメントへの、物理的な分離を含んでいてもよい。一部の実施形態では、ＳＤＥは、化学修飾を含んでもよい。一部の実施形態では、ＳＤＥは、修飾された核酸を含んでもよい。一部の実施形態では、ＳＤＥは、核酸分子に対する無作為もしくは半無作為な損傷、化学修飾、酵素修飾、または他の修飾に起因する、核酸分子における配列バリエーションに関連するものであってもよい。一部の実施形態では、修飾は、メチルシトシンの脱アミノ化であってもよい。一部の実施形態では、修飾は、核酸ニックの部位を伴っていてもよい。ＳＤＥの様々な実施形態は、国際特許公開第ＷＯ２０１７／１００４４１号にさらに開示されておおり、その全体が参照により本明細書に援用される。

【0041】

対象：本明細書で使用される場合、「対象」という用語は、生物、典型的には、哺乳動物、例えば、ヒト（一部の実施形態では、出生前のヒト形態を含む）、非ヒト動物（例えば、哺乳動物および非哺乳動物、限定されないが、非ヒト霊長類、マウス、ラット、ハムスター、カワウソ、ヌー、ウマ、ヒツジ、イヌ、ウシ、ブタ、ニワトリ、両生類、爬虫類、海洋生物、他のモデル生物、例えば、寄生虫、ハエ、ゼブラフィッシュなど）、およびトランスジェニック動物（例えば、トランスジェニックげっ歯類）などを指す。一部の実施形態では、対象は、関連する疾患、障害または状態に罹患している。一部の実施形態では、対象は、ある疾患、障害または状態になりやすい。一部の実施形態では、対象は、ある疾患、障害または状態の、１つ以上の症状または特徴を示す。一部の実施形態では、対象は、ある疾患、障害または状態の、症状または特徴を何ら示さない。一部の実施形態では、対象は、ある疾患、障害もしくは状態になりやすさ、またはある疾患、障害もしくは状態のリスクに特徴的な（ｃｈａｒａｃｔｅｒｉｓｔｉｃ）１つ以上の特徴（ｆｅａｔｕｒｅｓ）を有する。一部の実施形態では、対象は、診断および／または治療が実施されるか、および／または実施された個体である。さらに他の実施形態では、対象は、任意の生きている生物学的供給源または他の核酸物質、例えば、生物、細胞および／または組織、例えば、インビボ研究用のもの、例えば、真菌、原生動物、細菌、古細菌、ウイルス、培養中の単離された細胞、意図的に（例えば、幹細胞移植、臓器移植）または意図的ではない（すなわち、胎児または母体のマイクロキメリズム）細胞、または単離された核酸もしくはオルガネラ（すなわち、ミトコンドリア、葉緑体、遊離ウイルスゲノム、遊離プラスミド、アプタマー、リボザイム、または核酸の誘導体もしくは前駆体（すなわち、オリゴヌクレオチド、ジヌクレオチドトリリン酸など）を指す。さらなる実施形態では、対象は、任意の生きている、またはかつて生きていた生物学的供給源または法医学的調査または用途で得られた他の核酸物質を指す。

【0042】

実質的に：本明細書で使用される場合、「実質的に」という用語は、目的の特徴または性質の全体またはほぼ全体の程度または度合いを示す定性的な状態を指す。生物学の当業者は、生物学的現象および化学的現象が、完全に終了すること、および／または完全に終了することに向けて進むこと、または絶対的な結果を達成するか、もしくは回避することは、もしあるにしてもまれであることを理解するだろう。したがって、「実質的に」という用語は、多くの生物学的現象および化学的現象に内在する完全性の潜在的欠如を捕捉するために本明細書で使用される。

【0043】

ＩＩ．デュプレックス配列決定方法ならびに関連するアダプターおよび試薬の選択された実施形態
デュプレックス配列決定は、二本鎖核酸分子からエラー修正ＤＮＡ配列を生成するための方法であり、元々、国際特許公開第ＷＯ２０１３／１４２３８９号および米国特許第９，７５２，１８８号に記載されたもので、その両方の全体が参照により援用される。図４Ａ～図４Ｃに示されるように、本技術の特定の態様では、デュプレックス配列決定を使用して、個々のＤＮＡ分子の両方の鎖を独立して配列決定することができ、誘導体配列リードを、超並列配列決定中に同じ二本鎖核酸親分子に由来するものとして認識することができるだけではなく、配列決定後に区別可能なエンティティとして互いに差別化することができるようになる。次いで、各鎖から得られる配列リードを、元の二本鎖核酸分子のエラー修正配列を得る目的で比較する。

【0044】

特定の実施形態では、デュプレックス配列決定を組み込む方法は、１つ以上の配列決定アダプターを、第１の鎖の標的核酸配列と第２の鎖の標的核酸配列とを含む標的二本鎖核酸分子にライゲーションして、二本鎖標的核酸複合体を生成することを含み得る（例えば、図４Ａ）。

【0045】

様々な実施形態では、得られる標的核酸複合体は、少なくとも１つのＳＭＩ配列を含んでいてもよく、外因的に適用される縮重または半縮重配列（例えば、図４Ａに示されるランダム化された二重鎖タグ、図４Ａで、αおよびβとして特定された配列）、標的二本鎖核酸分子の特定の剪断点に関連する内因的な情報、またはこれらの組み合わせ、を伴っていてもよい。ＳＭＩは、標的核酸分子を、いずれか単独で、またはそれらがライゲーションされた核酸断片の要素を区別することと組み合わせて、配列決定される集団の中の複数の他の分子から実質的に区別可能にすることができる。ＳＭＩ要素の実質的に区別可能な特徴は、二本鎖核酸分子を形成する各々の一本鎖によって独立して保有されてもよく、各々の鎖の誘導体増幅産物が、配列決定後に同じ元の実質的に固有の二本鎖核酸分子に由来するものであると認識され得る。他の実施形態では、ＳＭＩは、さらなる情報を含んでいてもよく、および／または上に引用した刊行物に記載されるものなど、機能性を区別するこのような分子が有用である他の方法において使用されてもよい。別の実施形態では、ＳＭＩ要素は、アダプターライゲーションの後に組み込まれてもよい。一部の実施形態では、ＳＭＩは、二本鎖であるが、他の実施形態では、ＳＭＩは、一本鎖である（例えば、ＳＭＩは、アダプターの一本鎖部分（複数可）上にあってもよい）。他の実施形態では、ＳＭＩは、一本鎖および二本鎖ＳＭＩ配列の組み合わせである。

【0046】

一部の実施形態では、各二本鎖標的核酸配列複合体は、さらに、標的二本鎖核酸分子を形成する２つの一本鎖核酸の増幅産物を、配列決定後に互いに実質的に区別可能にする要素（例えば、ＳＤＥ）を含んでいてもよい。一実施形態では、ＳＤＥは、配列決定アダプター内に含まれる非対称プライマー部位を含んでいてもよく、または他の配置において、配列非対称性をプライマー配列内ではなくアダプター分子内に導入してもよく、その結果、第１の鎖の標的核酸配列複合体と標的核酸配列複合体の第２の鎖のヌクレオチド配列における少なくとも一つの位置が、増幅および配列決定の後に互いに異なっている。他の実施形態では、ＳＭＩは、標準的（ｃａｎｏｎｉｃａｌ）ヌクレオチド配列Ａ、Ｔ、Ｃ、ＧまたはＵとは異なるが、２つの増幅され配列決定された分子において少なくとも１つの標準的ヌクレオチド配列の差に変換される、２つの鎖間の別の生化学的非対称性を含んでいてもよい。さらに別の実施形態では、ＳＤＥは、増幅前に２つの鎖を物理的に分離する手段であってもよく、その結果、第１の鎖の標的核酸配列および第２の鎖の標的核酸配列からの誘導体増幅産物は、その２つの配列間の区別を維持する目的で、互いに実質的に物理的に分離された状態を維持する。第１の鎖と第２の鎖とを区別することを可能にするＳＤＥ機能を提供するための他のこのような配置および方法論、例えば、上に引用した刊行物に記載されるもの、または記載した機能目的を果たす他の方法を利用してもよい。

【0047】

少なくとも１つのＳＭＩと少なくとも１つのＳＤＥとを含む二本鎖標的核酸複合体を生成した後、またはこれらの要素の片方または両方がその後導入される場合、複合体は、ＤＮＡ増幅（例えば、ＰＣＲを用いる）またはＤＮＡ増幅の任意の他の生化学的方法に供されてもよく、その結果、第１の鎖の標的核酸配列の１つ以上のコピーおよび第２の鎖の標的核酸配列の１つ以上のコピーが産生される（例えば、図４Ｂ）。次いで、第１の鎖の標的核酸分子の１つ以上の増幅コピーおよび第２の標的核酸分子の１つ以上の増幅コピーを、好ましくは、「次世代」超並列ＤＮＡ配列決定プラットフォームを使用して、ＤＮＡ配列決定に供することができる（例えば、図４Ｂ）。

【0048】

元の二本鎖標的核酸分子に由来する第１の鎖の標的核酸分子および第２の鎖の標的核酸分子のいずれかから生成される配列リードは、関連する実質的に固有なＳＭＩを共有していることに基づいて特定され、ＳＤＥによって逆鎖の標的核酸分子から区別されてもよい。一部の実施形態では、ＳＭＩは、数学に基づくエラー修正コード（例えば、ハミングコード）に基づく配列であってもよく、それにより、特定の増幅エラー、配列決定エラーまたはＳＭＩ合成エラーは、元のデュプレックス（例えば、二本鎖核酸分子）の相補鎖に対してＳＭＩ配列の配列を関連付ける目的のために許容され得る。例えば、ＳＭＩが、標準的ＤＮＡ塩基の完全に縮重した配列の１５塩基対を含む、二本鎖外因性ＳＭＩの場合、推定で４の１５乗＝１，０７３，７４１，８２４のＳＭＩバリアントが、完全に縮重したＳＭＩの集団中に存在することになる。２つのＳＭＩが、１０，０００個のサンプリングされたＳＭＩの集団からのＳＭＩ配列内で１個のヌクレオチドのみが異なる配列決定データのリードから回収される場合、これが偶然に発生する確率を数学的に計算することができ、この単一塩基対の違いが、上述のタイプのエラーの１つを反映していることが起こりそうかどうかの決定を行い、そのＳＭＩ配列が、同じ元の二重鎖分子に由来するという事実を有することを決定することができる。ＳＭＩが少なくとも部分的に外因的に適用される配列であり、その配列バリアントが互いに完全に縮重したものではなく、少なくとも部分的には既知の配列である、一部の実施形態では、その既知の配列の同一性は、一部の実施形態では、上述のタイプの１つ以上のエラーが、ある既知のＳＭＩ配列の同一性を別のＳＭＩ配列の同一性へと変換しないように設計することができ、その結果、あるＳＭＩが別のＳＭＩであると誤って解釈されてしまう確率は減少する。一部の実施形態では、このＳＭＩ設計戦略は、ハミング符号手法またはその誘導体を含む。特定されたら、第１の鎖の標的核酸分子から生成される１つ以上の配列リードを、第２の鎖の標的核酸分子から生成される１つ以上の配列リードと比較して、エラー修正標的核酸分子配列を生成する（例えば、図４Ｃ）。例えば、第１の鎖の標的核酸配列と第２の鎖の標的核酸配列の両方からの塩基が一致するヌクレオチド位置は、真の配列であるとみなされ、一方、この２つの鎖間で一致しないヌクレオチド位置は、技術的なエラーの可能性がある部位と認識され、この部位は、考慮されないか、除外されるか、修正されるか、または別の状況で特定されてもよい。このようにして、元の二本鎖標的核酸分子のエラー修正配列を生成することができる（図４Ｃに示される）。一部の実施形態では、第１の鎖の標的核酸分子および第２の鎖の標的核酸分子から生成される各々の配列決定リードを別個にグループ化した後、第１の鎖および第２の鎖各々について一本鎖コンセンサス配列を作成してもよい。次いで、第１の鎖の標的核酸分子および第２の鎖の標的核酸分子に由来する一本鎖コンセンサス配列を比較して、エラー修正標的核酸分子配列を生成することができる（例えば、図４Ｃ）。

【0049】

代わりに、一部の実施形態では、この２本の鎖間の配列が一致しない部位は、元の二本鎖標的核酸分子において、生物学的に由来するミスマッチの可能性がある部位として認識することができる。代わりに、一部の実施形態では、この２本の鎖間の配列が一致しない部位は、元の二本鎖標的核酸分子において、ＤＮＡ合成に由来するミスマッチの可能性がある部位として認識することができる。代わりに、一部の実施形態では、この２本の鎖間の配列が一致しない部位は、損傷を受けたか、または修飾されたヌクレオチド塩基が、片方または両方の鎖に存在し、酵素プロセス（例えば、ＤＮＡポリメラーゼ、ＤＮＡグリコシラーゼまたは別の核酸修飾酵素または化学プロセス）によってミスマッチに変換された可能性がある部位として認識することができる。一部の実施形態では、この後者の知見を使用して、酵素プロセスまたは化学処理の前の核酸損傷またはヌクレオチド修飾の存在を推測することができる。

【0050】

一部の実施形態では、本技術の態様に従い、本明細書に記載するデュプレックス配列決定ステップから生成される配列決定リードをさらにフィルタリングして、ＤＮＡ損傷分子（例えば、貯蔵、運搬中に、組織または血液の抽出中または抽出後に、ライブライリー調製中または調製後に損傷したなど）からの配列決定リードを除外することができる。例えば、ＤＮＡ修復または修飾酵素、例えば、ウラシル－ＤＮＡグリコシラーゼ（ＵＤＧ）、ホルムアミドピリミジンＤＮＡグリコシラーゼ（ＦＰＧ）および８－オキソグアニンＤＮＡグリコシラーゼ（ＯＧＧ１）を利用して、ＤＮＡ損傷（例えば、インビトロでのＤＮＡ損傷またはインビボでの損傷）を除外するか、または修正することができる。これらのＤＮＡ修復酵素は、例えば、ＤＮＡから損傷した塩基を除去するグリコシラーゼである。例えば、ＵＤＧは、（シトシンの自発的な加水分解によって生じる）シトシンの脱アミノ化から生じるウラシルを除去し、ＦＰＧは、８－オキソ－グアニン（例えば、活性酸素種から生じる一般的なＤＮＡ損傷）を除去する。ＦＰＧは、リアーゼ活性も有し、脱塩基部位に１塩基ギャップを生成することができる。このような脱塩基部位は、例えば、ポリメラーゼがテンプレートをコピーすることができないため、一般的に、その後にＰＣＲによって増幅することができない。したがって、このようなＤＮＡ損傷修復／除外酵素の使用は、真の変異を有していないが、配列決定および二重鎖配列分析の後に別の状況でエラーとして検出されない可能性がある損傷ＤＮＡを効果的に除外することができる。損傷した塩基によるエラーは、デュプレックス配列決定によって多くは修正することができるが、まれに、相補的エラーが、両方の鎖上の同じ位置に起こることが理論的にあり得るため、エラーを増やす損傷を減少させることによって、アーチファクトの確率を減少させることができる。さらに、ライブラリ調製中、配列決定されるＤＮＡの特定の断片は、その供給源から、または処理ステップ（例えば、機械的なＤＮＡ剪断）から一本鎖であってもよい。これらの領域は、典型的には、当該技術分野で知られる「末端修復」ステップ中に二本鎖ＤＮＡに変換され、ＤＮＡポリメラーゼおよびヌクレオシド基質が、ＤＮＡ試料に添加されて、５’陥凹末端を延長する。コピーされるＤＮＡの一本鎖部分におけるＤＮＡ損傷の変異誘発性部位（すなわち、ＤＮＡ二重鎖の片方または両方の末端にある一本鎖５’オーバーハングまたは内部の一本鎖ニックまたはギャップ）は、末端平滑化反応中にエラーを生じる場合があり、一本鎖変異、合成エラーまたは核酸損傷部位を二本鎖形態にして、最終的な二重鎖コンセンサス配列において真の変異であると誤って解釈される場合があり、真の変異が元の二本鎖核酸分子内に実際には存在しなかった場合に、存在したと誤って解釈される場合がある。この状況は、「偽の二重鎖」と呼ばれ、このような損傷を破壊／修復する酵素の使用によって減少させることができ、または防ぐことができる。他の実施形態では、この発生は、元の二重鎖分子の一本鎖部分が形成されるのを破壊するか、または防ぐための戦略の使用を通して低減、または除外することができる（例えば、ニックまたはギャップが残る可能性がある機械的剪断または特定の他の酵素ではなく、元の二本鎖核酸物質を断片化するために使用される特定の酵素の使用）。他の実施形態では、元の二本鎖核酸の一本鎖部分を除外するためのプロセス（例えば、Ｓ１ヌクレアーゼまたはマングビーンヌクレアーゼなどの一本鎖特異的ヌクレアーゼ）の使用を、同様の目的で利用することができる。

【0051】

さらなる実施形態では、本明細書に記載のデュプレックス配列決定ステップから生成される配列決定リードをさらにフィルタリングして、偽二重鎖のアーチファクトに最もなりやすいリードの末端をトリミングすることによって、偽の変異を除外することができる。例えば、ＤＮＡ断片化は、二本鎖分子の末端に一本鎖部分を生成することができる。これらの一本鎖部分は、末端修復中に末端平滑化されてもよい（例えば、ＫｌｅｎｏｗまたはＴ４ポリメラーゼによって）。一部の例では、ポリメラーゼは、これらの末端修復した領域においてコピーの誤りを起こし、「偽の二重鎖分子」の生成を引き起こす。ライブラリ調製のこれらのアーチファクトは、配列決定されたときに真の変異であると誤って見えてしまう場合がある。これらの末端修復機構の結果としてのエラーは、より高いリスクを有する領域で生じる可能性がある変異を除外するために配列決定リードの末端をトリミングすることによって、配列決定後の分析から除外することができるか、または減少させることができ、それにより、偽の変異の数を減少させることができる。一実施形態では、配列決定リードのこのようなトリミングは、自動的に達成することができる（例えば、通常の処理ステップ）。別の実施形態では、変異頻度は、断片末端領域について評価することができ、変異の閾値レベルが断片末端領域で観察される場合、ＤＮＡ断片の二本鎖コンセンサス配列リードを生成する前に、配列決定リードのトリミングを行ってもよい。

【0052】

具体例として、一部の実施形態では、本明細書では、二本鎖標的核酸物質のエラー修正配列リードを生成する方法が提供され、二本鎖標的核酸物質を、少なくとも１つのアダプター配列にライゲーションして、アダプター－標的核酸物質複合体を形成するステップを含み、ここで、少なくとも１つのアダプター配列は、（ａ）二本鎖標的核酸物質の各分子を固有に標識する縮重または半縮重した単一分子識別子（ＳＭＩ）配列と、（ｂ）アダプター－標的核酸物質複合体の各鎖が、その相補鎖に対して明確に特定可能なヌクレオチド配列を有するように、アダプター－標的核酸物質複合体の第１の鎖をタグ付けする第１のヌクレオチドアダプター配列、およびアダプター－標的核酸物質複合体の第２の鎖をタグ付けする第１のヌクレオチド配列と少なくとも部分的に相補的な第２のヌクレオチドアダプター配列とを含む。次に、本方法は、アダプター－標的核酸物質複合体の各鎖を増幅して、複数の第１の鎖のアダプター－標的核酸複合体アンプリコン、および複数の第２の鎖のアダプター－標的核酸複合体アンプリコンを生成するステップを含んでいてもよい。本方法は、さらに、その第１および鎖の両方を増幅して、第１の核酸産物および第２の核酸産物を提供するステップを含んでいてもよい。本方法はまた、第１の核酸産物および第２の核酸産物の各々を配列決定して、複数の第１の鎖の配列リードおよび複数の第２の鎖の配列リードを生成するステップと、少なくとも１つの第１の鎖の配列リードおよび少なくとも１つの第２の鎖の配列リードの存在を確認するステップと、を含んでいてもよい。本方法は、さらに、少なくとも１つの第１の鎖の配列リードと少なくとも１つの第２の鎖の配列リードとを比較することと、一致しないヌクレオチド位置を考慮しないことによって、二本鎖標的核酸物質のエラー修正配列リードを生成すること、または代わりに、比較された第１の鎖の配列リードと第２の鎖の配列リードが非相補的な１つ以上のヌクレオチド位置を有する、比較された第１の鎖の配列リードと第２の鎖の配列リードを除去することとを含んでいてもよい。

【0053】

さらなる具体例として、一部の実施形態では、本明細書では、試料からＤＮＡバリアントを特定する方法が提供され、核酸物質（例えば、二本鎖標的ＤＮＡ分子）の両方の鎖を、少なくとも１つの非対称アダプター分子にライゲーションして、二本鎖標的ＤＮＡ分子の第１の鎖（例えば、上鎖）に関連付けられた第１のヌクレオチド配列と、二本鎖標的ＤＮＡ分子の第２の鎖（例えば、下鎖）に関連付けられた第１のヌクレオチド配列に少なくとも部分的に非相補的な第２のヌクレオチド配列と、を有するアダプター－標的核酸物質複合体を形成するステップと、アダプター－標的核酸物質の各鎖を増幅するステップとを含み、各々の鎖において、増幅されたアダプター－標的核酸産物の別個でしかも関連したセットを生成する。本方法は、さらに、複数の第１の鎖のアダプター－標的核酸産物および複数の第２の鎖のアダプター－標的核酸産物の各々を配列決定するステップと、アダプター－標的核酸物質複合体の各鎖からの少なくとも１つの増幅された配列リードの存在を確認するステップと、第１の鎖から得られた少なくとも１つの増幅された配列リードと、第２の鎖から得られた少なくとも１つの増幅された配列リードとを比較して、核酸物質（例えば、二本鎖標的ＤＮＡ分子）の両方の鎖の配列が一致しているヌクレオチド塩基のみを有する核酸物質（例えば、二本鎖標的ＤＮＡ分子）のコンセンサス配列リードを形成するステップと、を含むことができ、その結果、コンセンサス配列リード中の特定の位置で生じるバリアント（例えば、参照配列と比較して）が、真のＤＮＡバリアントとして特定される。

【0054】

一部の実施形態では、本明細書では、二本鎖核酸物質から高精度のコンセンサス配列を生成する方法が提供され、個々の二重鎖ＤＮＡ分子をアダプター分子でタグ付けして、タグ付けＤＮＡ物質を形成するステップであって、各アダプター分子は、（ａ）二重鎖ＤＮＡ分子を固有に標識する縮重または半縮重した単一分子識別子（ＳＭＩ）、および（ｂ）各々のタグ付けＤＮＡ分子について、タグ付けＤＮＡ物質内の各々の個々のＤＮＡ分子の元の下鎖から、元の上鎖を区別する第１および第２の非相補的ヌクレオチドアダプター配列、を含む、タグ付けＤＮＡ物質を形成するステップと、タグ付けＤＮＡ分子の元の上鎖の複製のセットおよびタグ付けＤＮＡ分子の元の下鎖の複製のセットを生成して、増幅されたＤＮＡ物質を形成するステップと、を含む。本方法は、さらに、元の上鎖の複製からの第１の一本鎖コンセンサス配列（ＳＳＣＳ）、および元の下鎖の複製からの第２の一本鎖コンセンサス配列（ＳＳＣＳ）を生成するステップと、元の上鎖の第１のＳＳＣＳと、元の下鎖の第２のＳＳＣＳとを比較するステップと、元の上鎖の第１のＳＳＣＳおよび元の下鎖の第２のＳＳＣＳの両方の配列が相補的であるヌクレオチド塩基のみを有する高精度のコンセンサス配列を生成するステップと、を含み得る。

【0055】

さらなる実施形態では、本明細書では、混合物由来の核酸のドナー源を検出および／または定量する方法が提供され、混合物中の各二本鎖標的ＤＮＡ分子の両方の鎖を、少なくとも１つの非対称アダプター分子にライゲーションして、複数のアダプター－標的ＤＮＡ複合体を形成するステップであって、各アダプター－標的ＤＮＡ複合体は、二本鎖標的ＤＮＡ分子の第１の鎖と関連付けられた第１のヌクレオチド配列と、二本鎖標的ＤＮＡ分子の第２の鎖と関連付けられた第１のヌクレオチド配列に少なくとも部分的に非相補的な第２のヌクレオチド配列とを有する、形成するステップと、各々のアダプター標的ＤＮＡ複合体について、アダプター標的ＤＮＡ複合体の各鎖を増幅するステップと、を含み、各鎖において、増幅されたアダプター－標的ＤＮＡアンプリコンの別個でしかも関連するセットを生成する。本方法は、さらに、複数の第１の鎖のアダプター－標的ＤＮＡアンプリコンおよび複数の第２の鎖のアダプター－標的ＤＮＡアンプリコンの各々を配列決定するステップと、アダプター－標的ＤＮＡ複合体の各鎖から少なくとも１つの配列リードの存在を確認するステップと、第１の鎖から得られた少なくとも１つの配列リードと第２の鎖から得られた少なくとも１つの配列リードとを比較して、二本鎖ＤＮＡ分子の一方の鎖の配列リードが、二本鎖ＤＮＡ分子の他方の鎖の配列リードと一致していない（例えば、非相補的な）ヌクレオチド塩基を検出および／または定量するステップと、を含んでいてもよく、その結果、ＤＮＡ損傷の部位（複数可）を検出および／または定量することができる。一部の実施形態では、本方法は、さらに、第１の鎖のアダプター－標的ＤＮＡアンプリコンからの第１の一本鎖コンセンサス配列（ＳＳＣＳ）および第２の鎖のアダプター－標的ＤＮＡアンプリコンからの第２の一本鎖コンセンサス配列（ＳＳＣＳ）を生成するステップと、元の第１の鎖の第１のＳＳＣＳおよび元の第２の鎖の第２のＳＳＣＳを比較するステップと、第１のＳＳＣＳの配列と第２のＳＳＣＳの配列が非相補的であるヌクレオチド塩基を特定して、混合物由来の核酸のドナー源を検出および／または定量するステップと、を含み得る。

【0056】

単一分子識別子配列（ＳＭＩ）
様々な実施形態に従い、提供される方法および組成物は、核酸物質の各鎖上に１つ以上のＳＭＩ配列を含む。ＳＭＩは、二本鎖核酸分子から得られる各々の一本鎖によって独立して保有されていてもよく、その結果、各々の鎖の誘導体増幅産物が、配列決定後に同じ元の実質的に固有の二本鎖核酸分子に由来するものであると認識され得る。一部の実施形態では、ＳＭＩは、さらなる情報を含んでいてもよく、および／または当業者が認識するように、機能性を区別するこのような分子が有用である他の方法において使用されてもよい。一部の実施形態では、ＳＭＩ要素は、核酸物質にアダプター配列をライゲーションする前、実質的に同時、または後に組み込まれてもよい。

【0057】

一部の実施形態では、ＳＭＩ配列は、少なくとも１つの縮重または半縮重した核酸を含んでいてもよい。他の実施形態では、ＳＭＩ配列は、縮重していなくてもよい。一部の実施形態では、ＳＭＩは、核酸分子の断片末端（例えば、ライゲーションされた核酸物質の無作為に、または半無作為に剪断された末端）またはその近傍と関連付けられた配列であってもよい。一部の実施形態では、外因性配列は、例えば、単一のＤＮＡ分子を互いに区別することが可能なＳＭＩ配列を得るために、ライゲーションされた核酸物質（例えば、ＤＮＡ）の無作為に、または半無作為に剪断された末端に対応する配列と組み合わせて考慮されてもよい。一部の実施形態では、ＳＭＩ配列は、二本鎖核酸分子にライゲーションされるアダプター配列の一部である。特定の実施形態では、ＳＭＩ配列を含むアダプター配列は、二本鎖核酸分子の各鎖が、アダプター配列にライゲーションする後にＳＭＩを含むような、二本鎖である。別の実施形態では、ＳＭＩ配列は、二本鎖核酸分子にライゲーションする前または後に一本鎖であり、相補的ＳＭＩ配列は、その逆鎖をＤＮＡポリメラーゼを用いて伸長して、相補的二本鎖ＳＭＩ配列を得ることによって生成されてもよい。他の実施形態では、ＳＭＩ配列は、アダプターの一本鎖部分にある（例えば、Ｙ字型を有するアダプターのアーム）。このような実施形態では、ＳＭＩは、二本鎖核酸分子の元の鎖に由来する配列リードのファミリーのグループ化を容易にすることができ、一部の例では、二本鎖核酸分子の元の第１の鎖と第２の鎖との間の関係を付与することができる（例えば、ＳＭＩの全てまたは一部は、ルックアップテーブルを介して関連付けられる）。実施形態では、第１の鎖および第２の鎖が異なるＳＭＩで標識される場合、２つの元の鎖からの配列リードは、１つ以上の内因性ＳＭＩ（例えば、核酸分子の断片末端または断片末端付近と関連付けられる配列などの断片特異的な特徴）を使用して関連付けられてもよく、または２つの元の鎖によって共有されるさらなる分子タグ（例えば、アダプターの二本鎖部分中のバーコード）の使用によって関連付けられてもよく、またはこれらの組み合わせであってもよい。一部の実施形態では、各ＳＭＩ配列は、約１～約３０核酸（例えば、１、２、３、４、５、８、１０、１２、１４、１６、１８、２０、またはそれ以上の縮重または半縮重した核酸）を含んでいてもよい。

【0058】

一部の実施形態では、ＳＭＩは、核酸物質およびアダプター配列の片方または両方にライゲーション可能である。一部の実施形態では、ＳＭＩは、核酸物質のＴ－オーバーハング、Ａ－オーバーハング、ＣＧ－オーバーハング、脱ヒドロキシル化塩基、および平滑末端、のうちの少なくとも１つにライゲーションされてもよい。

【0059】

一部の実施形態では、ＳＭＩの配列は、単一の核酸分子を互いに区別することが可能なＳＭＩ配列を得るために、例えば、核酸物質（例えば、ライゲーションされた核酸物質）の無作為または半無作為に剪断された末端に対応する配列と組み合わせて（またはこれに従って設計されて）考慮されてもよい。

【0060】

一部の実施形態では、少なくとも１つのＳＭＩは、例えば、剪断点自体を使用して、または剪断点に直接隣接した核酸物質中の所定の数のヌクレオチド［例えば、剪断点から２、３、４、５、６、７、８、９、１０ヌクレオチド］を使用して、内因性ＳＭＩであってもよい（例えば、剪断点に関連するＳＭＩ（例えば、断片末端））。一部の実施形態では、少なくとも１つのＳＭＩは、外因性ＳＭＩ（例えば、標的核酸物質にはみられない配列を含むＳＭＩ）であってもよい。

【0061】

一部の実施形態では、ＳＭＩは、画像化部分（例えば、蛍光または別の光学的に検出可能な部分）であってもよく、または画像化部分を含んでいてもよい。一部の実施形態では、このようなＳＭＩは、増幅ステップを必要とすることなく、検出および／または定量を可能にする。

【0062】

一部の実施形態では、ＳＭＩ要素は、アダプター－標的核酸複合体上の異なる位置に位置する２つ以上の別個のＳＭＩ要素を含んでいてもよい。

【0063】

ＳＭＩの様々な実施形態は、国際特許公開第ＷＯ２０１７／１００４４１号にさらに開示されており、その全体が参照により本明細書に援用される。

【0064】

鎖定義要素（ＳＤＥ）
一部の実施形態では、二本鎖核酸物質の各鎖は、さらに、標的二本鎖核酸物質を形成する２つの一本鎖核酸の増幅産物を、配列決定後に実質的に互いに区別可能にする要素を含んでいてもよい。一部の実施形態では、ＳＤＥは、配列決定アダプター内に含まれる非対称プライマー部位であってもよく、またはこの部位を含んでいてもよく、あるいは他の配置において、配列非対称性を、プライマー配列内ではなくアダプター配列内に導入してもよく、その結果、第１の鎖の標的核酸配列複合体と標的核酸配列複合体の第２の鎖のヌクレオチド配列における少なくとも一つの位置が、増幅および配列決定の後で互いに異なっている。他の実施形態では、ＳＤＥは、標準的ヌクレオチド配列Ａ、Ｔ、Ｃ、ＧまたはＵとは異なるが、２つの増幅され配列決定された分子において少なくとも１つの標準的ヌクレオチド配列の差に変換される、２つの鎖間の別の生化学的非対称性を含んでいてもよい。さらに別の実施形態では、ＳＤＥは、増幅前に２つの鎖を物理的に分離する手段であってもよく、またはこの手段を含んでいてもよく、その結果、第１の鎖の標的核酸配列および第２の鎖の標的核酸配列からの誘導体増幅産物は、２つの誘導体増幅産物間の区別を維持する目的で、互いに実質的に物理的に分離された状態を維持する。第１の鎖と第２の鎖を区別することを可能にするＳＤＥ機能を提供するための他のこのような配置または方法論が利用されてもよい。

【0065】

一部の実施形態では、ＳＤＥは、ループ（例えば、ヘアピンループ）を形成することが可能であってもよい。一部の実施形態では、ループは、少なくとも１つのエンドヌクレアーゼ認識部位を含んでいてもよい。一部の実施形態では、標的核酸複合体は、ループ内の切断事象を容易にするエンドヌクレアーゼ認識部位を含んでいてもよい。一部の実施形態では、ループは、非標準的（ｎｏｎ－ｃａｎｏｎｉｃａｌ）ヌクレオチド配列を含んでいてもよい。一部の実施形態では、含まれる非標準的ヌクレオチドは、鎖切断を容易にする１つ以上の酵素によって認識されてもよい。一部の実施形態では、含まれる非標準的ヌクレオチド配列は、ループ中の鎖切断を容易にする１つ以上の化学プロセスによって標的とされてもよい。一部の実施形態では、ループは、ループ中の鎖切断を容易にする１つ以上の酵素プロセス、化学プロセスまたは物理プロセスによって標的とされ得る、修飾された核酸リンカーを含んでいてもよい。一部の実施形態では、この修飾されたリンカーは、光開裂性リンカーである。

【0066】

様々な他の分子ツールが、ＳＭＩおよびＳＤＥとして機能し得る。剪断点およびＤＮＡに基づくタグ以外に、対になった鎖を物理的に近接した状態に維持する単分子コンパートメント化方法、または他の非核酸タグ付け方法は、鎖に関連する機能を果たし得る。同様に、アダプター鎖を物理的に分離し得る様式でのアダプター鎖の非対称化学標識は、ＳＤＥの役割を果たすことができる。近年記載されたデュプレックス配列決定の変形例は、亜硫酸水素変換を使用して、シトシンのメチル化の形態で天然に存在する鎖の非対称性を、２つの鎖を区別する配列の違いへと変換する。この実施態様は、検出され得る変異のタイプに制限があるが、天然の非対称を利用するこの概念は、修飾ヌクレオチドを直接的に検出することができる配列決定技術を出現させるという観点で注目すべきものである。ＳＤＥの様々な実施形態は、国際特許公開第ＷＯ２０１７／１００４４１号にさらに開示されており、その全体が参照により本明細書に援用される。

【0067】

アダプターおよびアダプター配列
様々な配置で、ＳＭＩ（例えば、分子バーコード）、ＳＤＥ、プライマー部位、フローセル配列および／または他の特徴を含むアダプター分子は、本明細書に開示される実施形態の多くと共に使用することが企図される。一部の実施形態では、提供されるアダプターは、（１）高い標的特異性がある、（２）多重化が可能である、（３）強力かつバイアスが最小限の増幅を示す、という性質のうちの少なくとも１つを有するＰＣＲプライマー（例えば、プライマー部位）に対して相補的または少なくとも部分的に相補的な１つ以上の配列であってもよく、またはこの配列を含んでいてもよい。

【0068】

一部の実施形態では、アダプター分子は、「Ｙ」字型、「Ｕ」字型、「ヘアピン」型であってもよく、バブル（例えば、非相補配列の一部）を有していてもよく、または他の特徴を有し得る。他の実施形態では、アダプター分子は、「Ｙ」字型、「Ｕ」字型、「ヘアピン」型、またはバブルを含み得る。特定のアダプターは、修飾ヌクレオチドまたは非標準的ヌクレオチド、制限部位、またはインビトロで構造もしくは機能を操作するための他の特徴を含んでいてもよい。アダプター分子は、末端を有する様々な核酸物質にライゲーションしてもよい。例えば、アダプター分子は、核酸物質のＴ－オーバーハング、Ａ－オーバーハング、ＣＧ－オーバーハング、複数ヌクレオチドオーバーハング、脱ヒドロキシル化塩基、平滑末端にライゲーションするのに適したものであってもよく、分子の末端は、標的の５’が脱リン酸化されているか、または別の状況で従来のライゲーションから遮断される。他の実施形態では、アダプター分子は、ライゲーション部位の５’鎖に脱リン酸化または他のライゲーションを防ぐ修飾を含んでいてもよい。後者の２つの実施形態では、このような戦略は、ライブラリ断片またはアダプター分子の二量体化を防ぐのに有用な場合がある。

【0069】

アダプター配列は、一本鎖の配列、二本鎖の配列、相補的な配列、非相補的な配列、部分的に相補的な配列、非対称配列、プライマーに結合する配列、フローセル配列、ライゲーション配列またはアダプター分子によって提供される他の配列を意味し得る。特定の実施形態では、アダプター配列は、オリゴヌクレオチドに相補的な配列によって増幅するために使用される配列を意味し得る。

【0070】

一部の実施形態では、提供される方法および組成物は、少なくとも１つのアダプター配列（例えば、核酸物質の５’末端および３’末端の各々に１つの、２つのアダプター配列）を含む。一部の実施形態では、提供される方法および組成物は、２つ以上のアダプター配列（例えば、３、４、５、６、７、８、９、１０個、またはそれ以上）を含んでいてもよい。一部の実施形態では、アダプター配列の少なくとも２つは、互いに（例えば、配列によって）異なる。一部の実施形態では、各アダプター配列は、アダプター配列が互いに（例えば、配列によって）異なる。一部の実施形態では、少なくとも１つのアダプター配列は、少なくとも１つの他のアダプター配列の少なくとも一部に対して少なくとも部分的に非相補的である（例えば、少なくとも１つのヌクレオチドによって非相補的である）。

【0071】

一部の実施形態では、アダプター配列は、少なくとも１つの非標準的ヌクレオチドを含む。一部の実施形態では、非標準的ヌクレオチドは、脱塩基部位、ウラシル、テトラヒドロフラン、８－オキソ－７，８－ジヒドロ－２’デオキシアデノシン（８－オキソ－Ａ）、８－オキソ－７，８－ジヒドロ－２’－デオキシグアノシン（８－オキソ－Ｇ）、デオキシイノシン、５’ニトロインドール、５－ヒドロキシメチル－２’－デオキシシチジン、イソ－シトシン、５’－メチル－イソシトシン、もしくはイソグアノシン、メチル化ヌクレオチド、ＲＮＡヌクレオチド、リボースヌクレオチド、８－オキソ－グアニン、光開裂性リンカー、ビオチン化ヌクレオチド、デスチオビオチンヌクレオチド、チオール修飾ヌクレオチド、アクリダイト修飾ヌクレオチド、イソ－ｄＣ、イソｄＧ、２’－Ｏ－メチルヌクレオチド、イノシンヌクレオチド、ロック核酸、ペプチド核酸、５メチルｄＣ、５－ブロモデオキシウリジン、２，６－ジアミノプリン、２－アミノプリンヌクレオチド、脱塩基ヌクレオチド、５－ニトロインドールヌクレオチド、アデニル化ヌクレオチド、アジドヌクレオチド、ジゴキシゲニンヌクレオチド、Ｉ－リンカー、５’ヘキシニル修飾ヌクレオチド、５－オクタジイニルｄＵ、光開裂性スペーサー、非光開裂性スペーサー、クリックケミストリー適合性修飾ヌクレオチド、およびこれらの任意の組み合わせから選択される。

【0072】

一部の実施形態では、アダプター配列は、磁気特性を有する部分（すなわち、磁気部分）を含む。一部の実施形態では、この磁気特性は、常磁性である。アダプター配列が磁気部分を含む（例えば、磁気部分を含むアダプター配列にライゲーションされた核酸物質）一部の実施形態では、磁場が適用される場合、磁気部分を含むアダプター配列は、磁気部分を含まないアダプター配列（例えば、磁気部分を含まないアダプター配列にライゲーションされた核酸物質）から実質的に分離される。

【0073】

一部の実施形態では、少なくとも１つのアダプター配列は、ＳＭＩに対して５’に位置する。一部の実施形態では、少なくとも１つのアダプター配列は、ＳＭＩに対して３’に位置する。

【0074】

一部の実施形態では、アダプター配列は、１つ以上のリンカードメインを介して、ＳＭＩおよび核酸物質のうちの少なくとも１つに連結されてもよい。一部の実施形態では、リンカードメインは、ヌクレオチドで構成されていてもよい。一部の実施形態では、リンカードメインは、少なくとも１つの修飾ヌクレオチドまたは非ヌクレオチド分子（例えば、本開示の他箇所に記載されるもの）を含んでいてもよい。一部の実施形態では、リンカードメインは、ループであってもよいか、またはループを含んでいてもよい。

【0075】

一部の実施形態では、二本鎖核酸物質の各鎖の片方または両方の末端上のアダプター配列は、さらに、ＳＤＥを提供する１つ以上の要素を含んでいてもよい。一部の実施形態では、ＳＤＥは、アダプター配列内に含まれる非対称プライマー部位であってもよいか、またはこの部位を含んでいてもよい。

【0076】

一部の実施形態では、アダプター配列は、少なくとも１つのＳＤＥ、および少なくとも１つのライゲーションドメイン（すなわち、少なくとも１つのリガーゼの活性に修正可能なドメイン、例えば、リガーゼの活性を通して核酸物質にライゲーションするのに好適なドメイン）であってもよいか、またはこれらを含んでいてもよい。一部の実施形態では、５’から３’まで、アダプター配列は、プライマー結合部位、ＳＤＥおよびライゲーションドメインであってもよいか、またはこれらを含んでいてもよい。

【0077】

デュプレックス配列決定アダプターを合成するための様々な方法は、例えば、米国特許第９，７５２，１８８号、国際特許公開第ＷＯ２０１７／１００４４１号および国際特許公開第ＰＣＴ／ＵＳ１８／５９９０８号（２０１８年１１月８日に出願された）に既に記載されており、これらは全て、それらの全体が参照により本明細書に援用される。

【0078】

プライマー
一部の実施形態では、（１）高い標的特異性がある、（２）多重化が可能である、（３）強力かつバイアスが最小の増幅を示す、という特性のうちの少なくとも１つを有する１つ以上のＰＣＲプライマーは、本技術の態様に従う様々な実施形態における使用が企図される。多くの従来の試験および商業製品は、従来のＰＣＲ－ＣＥについての特定のこれらの基準を満たすプライマー混合物を設計している。しかしながら、これらのプライマー混合物は、ＭＰＳと共に使用するのに常に適しているというわけではないことを注記しておく。実際に、高度に多重化されたプライマー混合物を開発することは、挑戦的なことであり、時間がかかるプロセスであり得る。簡便には、ＩｌｌｕｍｉｎａおよびＰｒｏｍｅｇａの両者は、様々な標準的および非標準的なＳＴＲおよびＳＮＰ遺伝子座の強力で効率的な増幅を示すＩｌｌｕｍｉｎａプラットフォームのための多重互換性プライマー混合物を近年開発した。これらのキットは、ＰＣＲを使用して、配列決定前にその標的領域を増幅するため、ペアエンド配列決定データにおける各リードの５’末端は、ＤＮＡを増幅するために使用されるＰＣＲプライマーの５’末端に対応する。一部の実施形態では、提供される方法および組成物は、均一な増幅を確実にするように設計されたプライマーを含み、これは、様々な反応濃度、融解温度、および二次構造とプライマー内／プライマー間の相互作用を最小限にすること、を伴っていてもよい。高度に多重化されたプライマーの最適化について、例えば、当該技術分野で記載され、しばしばａｍｐｌｉｓｅｑ方法として知られている技術などのＭＰＳの用途のために、多くの技術が記載されてきた。

【0079】

増幅
提供される方法および組成物は、様々な実施形態では、核酸物質（またはその一部、例えば、特定の標的領域または遺伝子座）を増幅し、増幅された核酸物質（例えば、アンプリコン産物のいくつかのメンバー）を形成する、少なくとも１つの増幅ステップを利用するか、または使用する。

【0080】

一部の実施形態では、核酸物質を増幅することは、ＳＭＩ配列が少なくとも部分的に維持されるように、第１のアダプター配列中に存在する配列に少なくとも部分的に相補的な少なくとも１つの一本鎖オリゴヌクレオチドを使用して、元の二本鎖核酸物質からの第１の核酸鎖および第２の核酸鎖の各々に由来する核酸物質を増幅するステップを含む。増幅ステップは、さらに、第２の一本鎖オリゴヌクレオチドを使用して、目的の各鎖を増幅することを含み、このような第２の一本鎖オリゴヌクレオチドは、（ａ）目的の標的配列に少なくとも部分的に相補的であってもよく、または（ｂ）少なくとも１つの一本鎖オリゴヌクレオチドと第２の一本鎖オリゴヌクレオチドが、核酸物質を効果的に増幅するように配向される様式で、第２のアダプター配列中に存在する配列に少なくとも部分的に相補的であってもよい。

【0081】

一部の実施形態では、試料中の核酸物質を増幅することは、「チューブ」（例えば、ＰＣＲチューブ）内で、エマルジョン液滴、マイクロチャンバ、および上に記載の他の例または他の既知の容器内で、核酸物質を増幅することを含んでいてもよい。

【0082】

一部の実施形態では、少なくとも１つの増幅するステップは、少なくとも１つの非標準的ヌクレオチドであるか、またはそれを含む少なくとも１つのプライマーを含む。一部の実施形態では、非標準的ヌクレオチドは、ウラシル、メチル化ヌクレオチド、ＲＮＡヌクレオチド、リボースヌクレオチド、８－オキソ－グアニン、ビオチン化ヌクレオチド、ロック核酸、ペプチド核酸、高Ｔｍ核酸バリアント、アレルを区別する核酸バリアント、本明細書の他の箇所に記載される任意の他のヌクレオチドもしくはリンカーバリアント、またはこれらの任意の組み合わせから選択される。

【0083】

任意の用途に適した増幅反応が、一部の実施形態に適合することが企図されるが、具体例として、一部の実施形態では、増幅ステップは、ポリメラーゼ連鎖反応（ＰＣＲ）、ローリングサークル増幅（ＲＣＡ）、多置換増幅（ＭＤＡ）、等温増幅、エマルジョン内のポロニー増幅、表面、ビーズの表面、またはヒドロゲル内でのブリッジ増幅、およびこれらの任意の組み合わせ、であってもよく、またはこれらを含んでいてもよい。

【0084】

一部の実施形態では、核酸物質を増幅することは、核酸物質の各鎖の５’末端および３’末端上のアダプター配列の領域に少なくとも部分的に相補的な一本鎖オリゴヌクレオチドの使用を含む。一部の実施形態では、核酸物質を増幅することは、目的の標的領域または標的配列（例えば、ゲノム配列、ミトコンドリア配列、プラスミド配列、合成的に生成された標的核酸など）に少なくとも部分的に相補的な少なくとも１つの一本鎖オリゴヌクレオチドと、アダプター配列のある領域（例えば、プライマー部位）に少なくとも部分的に相補的な一本鎖オリゴヌクレオチドと、の使用を含む。

【0085】

一般に、安定した増幅（例えば、ＰＣＲ増幅）は、反応条件に大きく依存し得る。マルチプレックスＰＣＲは、例えば、緩衝液の組成、一価または二価カチオンの濃度、洗剤濃度、クラウディング剤（すなわち、ＰＥＧ、グリセロールなど）の濃度、プライマー濃度、プライマーＴｍ、プライマー設計、プライマーＧＣ含有量、プライマー修飾ヌクレオチド特性およびサイクリング条件（すなわち、温度および伸長時間、ならびに温度変化速度）に対して感受性な場合がある。緩衝液の条件の最適化は、困難かつ時間がかかるプロセスである場合がある。一部の実施形態では、増幅反応は、既に知られている増幅プロトコルに従って、緩衝液、プライマープール濃度、およびＰＣＲ条件、のうちの少なくとも１つを使用してもよい。一部の実施形態では、新しい増幅プロトコルが作成されてもよく、および／または増幅反応の最適化が使用されてもよい。具体例として、一部の実施形態では、ＰＣＲ最適化キット、例えば、Ｐｒｏｍｅｇａ（登録商標）のＰＣＲ最適化キットを使用してもよく、このキットは、様々なＰＣＲ増幅（例えば、マルチプレックス、リアルタイム、ＧＣリッチおよび阻害剤耐性増幅）に部分的に最適化された、いくつかの予め配合された緩衝液を含む。これらの予め配合された緩衝液は、様々なＭｇ^２＋濃度およびプライマー濃度およびプライマープール比で迅速に補充することができる。これに加え、一部の実施形態では、様々なサイクリング条件（例えば、サーマルサイクリング）が、評価および／または使用されてもよい。特定の実施形態が、特定の所望の用途に適切であるかどうかを評価する際に、様々な側面の中でも、特異性、ヘテロ接合性遺伝子座についてのアレルカバレッジ比、遺伝子座間のバランスおよび深度、のうちの１つ以上を評価してもよい。増幅成功の測定は、産物のＤＮＡ配列決定、ゲルまたはキャピラリー電気泳動またはＨＰＬＣまたは他のサイズ分離方法と、その後の断片の視覚化による産物の評価、二本鎖核酸結合色素または蛍光プローブを使用する融解曲線分析、質量分析法または当該技術分野で知られている他の方法を含んでいてもよい。

【0086】

様々な実施形態に従って、様々な因子のいずれかが、特定の増幅ステップの長さ（例えば、ＰＣＲ反応中のサイクル数など）に影響を与えることがある。例えば、一部の実施形態では、提供される核酸物質は、品質が劣っているか、さもなければ最適ではない場合がある（例えば、分解および／または汚染されている）。このような場合、より長い増幅ステップが、所望の産物が許容される程度に増幅されることを確実にするのに役に立つことがある。一部の実施形態では、増幅ステップは、各々の出発ＤＮＡ分子から平均で３～１０個の配列決定されたＰＣＲコピーを提供し得るが、他の実施形態では、第１の鎖および第２の鎖の各々の単一コピーだけが必要とされる。特定の理論に縛られることを望むものではないが、多すぎるまたは少なすぎるＰＣＲコピーは、アッセイ効率を低下させ、最終的には深度が低下する可能性がある。一般に、増幅（例えば、ＰＣＲ）反応に使用される核酸（例えば、ＤＮＡ）断片の数は、同じＳＭＩ／バーコード配列を共有するリードの数を規定し得る、主要な調節可能な変数である。

【0087】

核酸物質
タイプ
様々な実施形態に従って、様々な核酸物質のうちいずれかを使用してもよい。一部の実施形態では、核酸物質は、標準的糖－リン酸骨格内のポリヌクレオチドに対する少なくとも１つの修飾を含んでいてもよい。一部の実施形態では、核酸物質は、核酸物質中の任意の塩基内に少なくとも１つの修飾を含んでいてもよい。例えば、非限定的な例として、一部の実施形態では、核酸物質は、二本鎖ＤＮＡ、一本鎖ＤＮＡ、二本鎖ＲＮＡ、一本鎖ＲＮＡ、ペプチド核酸（ＰＮＡ）、ロック核酸（ＬＮＡ）のうちの少なくとも１つであるか、またはこれらを含む。

【0088】

修飾
様々な実施形態に従って、核酸物質は、特定の提供される方法または組成物が使用される用途に応じて、任意の特定のステップの前に、実質的に同時に、またはその後に、１つ以上の修飾を受けてもよい。

【0089】

一部の実施形態では、修飾は、核酸物質の少なくとも一部の修復であってもよく、またはそれを含んでいてもよい。核酸修復の任意の用途に適した方法が、一部の実施形態に適合すると企図されるものの、したがって特定の例示的な方法および組成物を以下に記載し、実施例に記載する。

【0090】

非限定的な例として、一部の実施形態では、ＤＮＡ修復酵素、例えば、ウラシル－ＤＮＡグリコシラーゼ（ＵＤＧ）、ホルムアミドピリミジンＤＮＡグリコシラーゼ（ＦＰＧ）および８－オキソグアニンＤＮＡグリコシラーゼ（ＯＧＧ１）を利用して、ＤＮＡ損傷（例えば、インビトロでのＤＮＡ損傷）を修正することができる。上述のように、これらのＤＮＡ修復酵素は、例えば、ＤＮＡから損傷した塩基を除去するグリコシラーゼである。例えば、ＵＤＧは、（シトシンの自発的な加水分解によって生じる）シトシンの脱アミノ化から生じるウラシルを除去し、ＦＰＧは、８－オキソ－グアニン（例えば、活性酸素種から生じる最も一般的なＤＮＡ損傷）を除去する。ＦＰＧは、リアーゼ活性も有し、脱塩基部位に１塩基ギャップを生成することができる。このような脱塩基部位は、例えば、ポリメラーゼがテンプレートをコピーすることができないため、その後にＰＣＲによって増幅することができない。したがって、このようなＤＮＡ損傷修復酵素の使用は、真の変異を有していないが、配列決定および二重鎖配列分析の後に別の状況でエラーとして検出されない可能性がある損傷ＤＮＡを効果的に除去することができる。

【0091】

上述のように、さらなる実施形態では、本明細書に記載の処理ステップから生成される配列決定リードをさらにフィルタリングして、アーチファクトに最もなりやすいリードの末端をトリミングすることによって、偽の変異を除外することができる。例えば、ＤＮＡ断片化は、二本鎖分子の末端に一本鎖部分を生成することができる。これらの一本鎖部分は、末端修復中に末端平滑化されてもよい（例えばＫｌｅｎｏｗによって）。一部の例では、ポリメラーゼは、これらの末端修復した領域においてコピーの誤りを起こし、「偽の二重鎖分子」の生成を引き起こす。これらのアーチファクトは、配列決定されたときに真の変異であると見えてしまう場合がある。これらの末端修復機構の結果としてのエラーは、生じる可能性がある変異を除外するために配列決定リードの末端をトリミングすることによって、配列決定後の分析から除外することができ、それにより、偽の変異の数を減少させることができる。一部の実施形態では、配列決定リードのこのようなトリミングは、自動的に達成することができる（例えば、通常の処理ステップ）。一部の実施形態では、変異頻度は、断片末端領域について評価することができ、変異の閾値レベルが断片末端領域で観察される場合、ＤＮＡ断片の二本鎖コンセンサス配列リードを生成する前に、配列決定リードのトリミングを行うことができる。

【0092】

デュプレックス配列決定の鎖比較技術によって提供される高度なエラー修正は、標準的な次世代配列決定方法と比較して、二本鎖核酸分子の配列決定エラーを数桁程度減少させる。このエラーの減少は、ほぼ全てのタイプの配列において、配列決定の精度を向上させるが、特にエラーが起こりやすいことが当該技術分野でよく知られている生化学的に厳しい配列にとって特に十分に適している場合がある。このようなタイプの配列の非限定的な一例は、ホモポリマーまたは他のマイクロサテライト／ショートタンデムリピートである。デュプレックス配列決定のエラー修正の恩恵を受けるエラーを起こしやすい配列の別の非限定的な例は、例えば、加熱、放射線、機械的ストレス、または様々な化学曝露（１つ以上のヌクレオチドポリメラーゼによる複製の最中にエラーを起こしやすい化学付加物を生成する）、によって損傷を受けた分子である。さらなる実施形態では、デュプレックス配列決定はまた、二本鎖核酸分子の集団中の少数の配列バリアントの正確な検出にも使用することができる。本出願の非限定的な一例は、対象内の非癌組織由来の多数の未変異分子の中で、癌に由来する少数のＤＮＡ分子の検出である。デュプレックス配列決定による稀少なバリアントの検出のための別の非限定的な用途は、異なる遺伝子型を有する別の個体のＤＮＡと低存在量で混在する１個体からのＤＮＡの法医学的検出である。

【0093】

ＩＩＩ．核酸混合物および混合細胞集団を解析するための方法の選択された実施形態
混合試料中の遺伝子型の特定および測定の問題は、法医学および細胞ベースの療法（例えば、幹細胞移植）を含む多様な分野で生じる。本技術の態様に従って、デュプレックス配列決定を使用して、逆重畳を使用し、核酸混合物中に存在する供給源特異的遺伝子型を特定することができる。特定の実施形態では、デュプレックス配列決定を使用して、生体試料混合物中に存在する個々の核酸分子上に存在するマイクロハプロタイプを特定する。一部の実施形態では、マイクロハプロタイプを使用して、複数の遺伝子型の複合混合物を逆重畳する。

【0094】

マイクロハプロタイプは、互いに比較的短い距離（例えば、２００ヌクレオチド未満、２５０ヌクレオチド未満、３００ヌクレオチド未満、３５０ヌクレオチド未満、またはそれ以上）内に２つ以上の非冗長ゲノムＤＮＡＳＮＰを含む小さなゲノム遺伝子座であり、これらは、一般に、同じリードまたはリードペアまたは配列決定リード内に含まれ得る多型遺伝子座の群として定義される。遺伝子型決定は、次世代ＤＮＡ配列決定（ＮＧＳ）、サンガー配列決定、超並列配列決定、ナノポア配列決定、一分子配列決定、ハイブリダイゼーションによる配列決定、または他の関連する方法、を使用して達成することができる。領域の長さは、純粋にヌクレオチドの長さによって定義されるのではなく、むしろ、使用される任意の遺伝子型決定プラットフォーム上で「段階的」単位として遺伝子型を決定することができる配列である。例えば、Ｉｌｌｕｍｉｎａ，Ｉｎｃ．（ＳａｎＤｉｅｇｏ，ＣＡ，ＵＳＡ）またはＴｈｅｒｍｏＦｉｓｈｅｒＳｃｉｅｎｔｉｆｉｃ，Ｉｎｃ．（Ｗａｌｔｈａｍ，ＭＡ，ＵＳＡ）が製造する多くの現代のＮＧＳプラットフォームでは、リード長／ペアリード長は、数十～数百ヌクレオチド程度である。このような長さは、これらのプラットフォームを有するマイクロハプロタイプのための実用的なサイズである。例えば、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓｏｆＣａｌｉｆｏｒｎｉａ，Ｉｎｃ．（ＭｅｎｌｏＰａｒｋ，ＣＡ，ＵＳＡ）およびＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ，Ｌｔｄ．（Ｏｘｆｏｒｄ，ＵＫ）が製造するシーケンサーなどのより長い配列リード技術については、実質的に使用可能なマイクロハプロタイプの長さがかなり長い。以下の実施例について、明確性と実用性のために、数十～数百ヌクレオチドの長さのマイクロハプロタイプが示されるが、これは一般的な限定として解釈されるべきではない。マイクロハプロタイプは、３～１４個超の別個のアレル、またはアレルの組み合わせを有し得る。そのような多アレル遺伝子座は、多成分混合物の文脈で特に有益であり得る。デュプレックス配列決定は、特定の遺伝子型が生物学的混合物中に非常に低いレベルで存在する場合であっても、マイクロハプロタイプの検出を可能にする様式で、標準的な次世代配列決定（ＮＧＳ）および一本鎖コンセンサス配列決定方法のエラー率によって隠される希少なバリアントを解析することができる。所与のマイクロハプロタイプは、所与の混合物（すなわち、異なる個体由来の混合物中のＤＮＡ分子間のマイクロハプロタイプの間に差がない）、またはいくつかの個々の多型（例えば、少なくとも約２、３、４、５、６、７、８、９、１０、１１．１２、１５、２０、２４、またはそれ以上）について、ほとんどゼロの「有益な」個々の多型を有していてもよい。複合マイクロハプロタイプ遺伝子型の数は、いくつか（例えば、１０超、２０超、３０超など）であってもよいが、混合物中の成分対象が遺伝子的に十分に異ならない場合、同様に、所与の混合物が有益であってもなくてもよい。

【0095】

一部の実施形態では、本技術の態様を使用して、混合物中に約１０万分の１部のレベルで生体試料内に存在する遺伝子型を検出し、定量する。本技術の他の態様は、複数の既知の遺伝子型（例えば、約５、約１０、約１２、約１５、約２０、約２５、約３０、約３５、約４０、約４５、約５０など）からの混合比率を正確に定量することができる。他の実施形態では、本技術の態様を使用して、少なくとも約５個（例えば、約２個、約３個、約４個、約５個、約６個など）の未知の遺伝子型の混合物を逆重畳することができる（例えば、数値またはどの遺伝源が生体試料中に存在するかについての経験的もしくは事前の知識がない）。本技術のまたさらなる態様を使用して、混合物中の極めて低い存在量源の遺伝子型を部分的に回収することができる。例えば、このような実施形態は、法医学的用途、マイクロキメリズム分析（例えば、胎児マイクロキメリズム）、宿主における生着細胞の測定（例えば、幹細胞移植後）、および他の用途に有用である。さらなる実施形態は、複合混合物（例えば、最大で少なくとも約８個の個々の遺伝子型）においてデータベースからの対象の特定を対象とする。

【0096】

ＩＶ．遺伝子型の複合混合物の逆重畳のためのシステムおよび計算環境の実施形態
好適な計算環境
以下の考察は、本開示の態様が実装され得る好適な計算環境の一般的な説明を提供する。必須ではないが、本開示の態様および実施形態は、汎用コンピュータ（例えば、サーバまたはパーソナルコンピュータ）によって実行されるルーチンなどのコンピュータで実行可能な命令の一般的な観点で記載される。当業者であれば、本開示を、インターネット家電、携帯機器、ウェアラブルコンピュータ、セルラーホンまたは携帯電話、マルチプロセッサシステム、マイクロプロセッサを使用した家電またはプログラマブル家電、セットトップボックス、ネットワークＰＣ、ミニコンピュータ、メインフレームコンピュータなどを含む他のコンピュータシステム構成を用いて実施することができることを理解するだろう。本開示は、以下に詳細に説明するコンピュータで１つ以上の実行可能な命令を実行するように具体的にプログラミングされ、構成されているか、または構築された特殊用途のコンピュータまたはデータプロセッサで具現化されてもよい。実際に、「コンピュータ」という用語は、本明細書で一般的に使用される場合、上述のデバイスのいずれかだけではなく、任意のデータプロセッサを指す。

【0097】

本開示は、分散型計算環境でも実施可能であり、タスクまたはモジュールは、リモート処理デバイスによって行われ、これらは、ローカルエリアネットワーク（「ＬＡＮ」）、ワイドエリアネットワーク（「ＷＡＮ」）またはインターネットなどの通信ネットワークを介して接続している。分散計算環境において、プログラムモジュールまたはサブルーチンは、ローカルメモリ記憶デバイスおよびリモートメモリ記憶デバイスの両方に配置されてもよい。以下に記載される本開示の態様は、チップ（例えば、ＥＥＰＲＯＭチップ）中のファームウェアに格納されているか、またはインターネットもしくは他のネットワーク（無線ネットワークを含む）によって電子的に分散される磁気および光学的に読み取り可能かつ除去可能なコンピュータディスクを含め、コンピュータ可読媒体に格納されるか、または分散されてもよい。当業者は、本開示の一部が、サーバコンピュータに存在していてもよく、一方、対応する部分がクライアントコンピュータに存在していてもよいことを理解するだろう。本開示の態様に特有のデータ構造およびデータの伝送も、本開示の範囲内に包含される。

【0098】

コンピュータの実施形態（例えば、パーソナルコンピュータまたはワークステーション）は、１つ以上のユーザ入力デバイスおよびデータ格納デバイスに接続した１つ以上のプロセッサを含んでいてもよい。コンピュータは、少なくとも１つの出力デバイス（例えば、表示デバイス）および１つ以上の任意選択的なさらなる出力デバイス（例えば、プリンタ、プロッタ、スピーカ、触覚または嗅覚による出力デバイスなど）にも接続していてもよい。コンピュータは、例えば、任意のネットワーク接続、無線送受信機、またはこれら両方によって、外部のコンピュータに接続していてもよい。

【0099】

様々な入力デバイスは、キーボードおよび／またはポインティングデバイス（例えば、マウス）を含んでいてもよい。マイクロホン、ジョイスティック、ペン、タッチスクリーン、スキャナ、デジタルカメラ、ビデオカメラなど、他の入力デバイスが可能である。さらなる入力デバイスは、配列決定機（複数可）（例えば、超並列シーケンサー）、蛍光鏡および他の実験機器などを含んでいてもよい。好適なデータ記憶デバイスは、コンピュータによってアクセス可能なデータを格納することが可能な任意のタイプのコンピュータ可読媒体、例えば、磁気ハードおよびフロッピーディスクドライブ、光学ディスクドライブ、磁気カセット、テープドライブ、フラッシュメモリカード、デジタルビデオディスク（ＤＶＤ）、ベルヌーイカートリッジ、ＲＡＭ、ＲＯＭ、スマートカードなどを含んでいてもよい。実際に、ローカルエリアネットワーク（ＬＡＮ）、ワイドエリアネットワーク（ＷＡＮ）またはインターネットなどのネットワークに対する接続ポートまたはノードを含め、コンピュータ可読命令およびデータを格納または送信するための任意の媒体を使用してもよい。

【0100】

本開示の態様は、様々な他の計算環境で実施され得る。例えば、ネットワークインターフェースを備える分散計算環境は、システムに１つ以上のユーザコンピュータを含んでもよく、それらは、インターネットのワールドワイドウェブ部分内のウェブサイトを含めて、コンピュータにアクセスおよびインターネットとのデータ交換を可能にするブラウザプログラムモジュールを含んでいてもよい。ユーザコンピュータは、他のプログラムモジュール（例えば、オペレーティングシステム）、１つ以上のアプリケーションプログラム（例えば、ワードプロセシングまたはスプレッドシートアプリケーション）などを含んでいてもよい。コンピュータは、様々なタイプのアプリケーションを実行するようにプログラミング可能な汎用デバイスであってもよく、またはコンピュータは、特定の機能または機能群に最適化されるか、または限定される専用デバイスであってもよい。より重要なことに、ネットワークブラウザで示されるが、以下に詳細に記載されるように、ユーザにグラフィカルユーザインターフェースを提供するための任意のアプリケーションプログラムを使用してもよい。ウェブブラウザおよびウェブインターフェースの使用は、本明細書でよく知られている例としてのみ使用される。

【0101】

インターネットまたはワールドワイドウェブ（「ウェブ」）に接続した少なくとも１つのサーバコンピュータは、本明細書で記載する電子メッセージ（例えば、ウェブページ、データストリーム、音声信号および電子画像）を受信し、ルーティングし、格納するための機能の多くまたは全てを実行することができる。インターネットが示されているが、イントラネットなどのプライベートネットワークが、いくつかの用途では実際に好ましい場合がある。ネットワークは、クライアントサーバアーキテクチャを有していてもよく、このとき、コンピュータは、他のクライアントコンピュータにサービスを提供するための専用コンピュータであるか、またはピアツーピアなどの他のアーキテクチャを有していてもよく、このとき、１つ以上のコンピュータは、サーバおよびクライアントとして同時に機能する。サーバコンピュータ（複数可）に接続するデータベースまたは複数のデータベースは、ユーザコンピュータ間で交換されるウェブページおよびコンテンツの多くを格納することができる。データベース（複数可）を含むサーバコンピュータ（複数可）は、システムに対する悪意のある攻撃を阻止し、これに格納されるメッセージおよびデータの完全性を維持するためのセキュリティ対策（例えば、ファイアウォールシステム、セキュアソケットレイヤ（ＳＳＬ）、パスワード保護システム、暗号化など）を採用していてもよい。

【0102】

好適なサーバコンピュータは、特に、サーバエンジン、ウェブページ管理要素、コンテンツ管理要素およびデータベース管理要素を含んでいてもよい。サーバエンジンは、基本的な処理と、オペレーションシステムレベルタスクを実行する。ウェブページ管理要素は、ウェブページの作成および表示またはルーティングを処理する。ユーザは、これに関連付けられたＵＲＬを用い、サーバコンピュータにアクセスしてもよい。コンテンツ管理要素は、本明細書に記載する実施形態の機能の大部分を処理する。データベース管理要素は、データベースに関する格納および検索タスク、データベースへのクエリ、データベースの読み込み書き出し機能、ならびに動画、グラフィックおよび音響信号などのデータの格納を含む。

【0103】

本明細書に記載される機能ユニットの多くは、それらの実装独立性をより特定的に強調するために、モジュールと分類されている。例えば、モジュールは、様々なタイプのプロセッサによる実行のためのソフトウェアで実装され得る。実行可能コードの識別されたモジュールは、例えば、コンピュータ命令の１つ以上の物理ブロックまたは論理ブロックを含み、この１つ以上の物理ブロックまたは論理ブロックは、例えば、オブジェクト、手順または機能として整理され得る。コンピュータ命令の特定されたブロックは、物理的に一緒に配置される必要はないが、異なる位置に格納される異なる命令を含んでいてもよく、論理的に共に結合された場合、モジュールを含み、そのモジュールの指定された目的を達成する。

【0104】

モジュールはまた、カスタムＶＬＳＩ回路またはゲートアレイ、論理チップなどの既製品の半導体、トランジスタまたは他の別個の要素を含むハードウェア回路として実装されてもよい。モジュールはまた、フィールドプログラマブルゲートアレイ、プログラマブルアレイロジック、プログラマブルロジックデバイスなどのプログラマブルハードウェアデバイスにも実装され得る。

【0105】

実行可能コードのモジュールは、単一の命令、または多くの命令であってもよく、異なるプログラムの中で、いくつかのメモリデバイスにわたって、いくつかの異なるコードセグメントにも分散されてもよい。同様に、操作データは、本明細書ではモジュール内で識別され、示されていてもよく、任意の好適な形態で具現化され、任意の好適なタイプのデータ構造に整理されていてもよい。操作データは、単一のデータセットとして収集されてもよく、または異なる記憶デバイスにわたって含む異なる位置に分散されてもよく、システムまたはネットワークに対する単なる電子信号として少なくとも部分的に存在していてもよい。

【0106】

核酸混合物の脱逆重畳のためのシステム
本発明は、さらに、核酸混合物を含む生体試料を処理し、有線または無線のネットワークを介して配列決定データをサーバに送信して、試料のエラー修正配列リード（例えば、二重鎖配列リード、二重鎖コンセンサス配列など）、遺伝子型特定、個々の／帰属性遺伝子型の定量などを決定する、システム（例えば、ネットワーク型コンピュータシステム、ハイスループット自動化システムなど）を含む。

【0107】

以下にさらに詳細に説明されるように、また、図５に示される実施形態に関して、混合物中の核酸の逆重畳のためのコンピュータ化されたシステムは、（１）サーバと（例えば、リモートサーバ、またはローカルに格納されたサーバ）（２）配列決定データを生成および／または送信することが可能な複数のユーザ電子計算デバイスと、（３）任意選択的に、既知の遺伝子型および関連情報（任意）を含むデータベースと、（４）電子計算デバイス、データベース、およびサーバとの間の電子通信を伝送するための有線または無線のネットワークと、を備える。このサーバは、さらに、（ａ）逆重畳の記録の結果および遺伝子型プロファイル（例えば、マイクロハプロタイププロファイルなど）の記録を格納するデータベースと、（ｂ）メモリに通信可能に接続された１つ以上のプロセッサおよびプロセッサ（複数可）のための命令を含む１つ以上の非一時的コンピュータ可読記憶デバイスまたは媒体と、を備え、当該プロセッサは、図６～８に記載される１つ以上のステップを含む操作を行うための当該命令を実行するように構成されている。

【0108】

一実施形態では、本技術は、非一時的コンピュータ可読記憶媒体をさらに含み、１つ以上のプロセッサによって実行されるとき、混合物中の１つ以上の遺伝子型の存在の決定、混合物中の各特定された遺伝子型の定量、対象／個体の遺伝物質が混合物中に存在するデータベースからの対象／個体の同一性、複数の既知の遺伝子型からの混合比率の定量、複数の未知の遺伝子型の混合物の逆重畳など、の方法を行う命令を含む。特定の実施形態では、本方法は、図６～８に記載の１つ以上のステップを含んでいてもよい。

【0109】

本技術のさらなる態様は、混合物中の１つ以上の遺伝子型の存在の決定、混合物中の各特定された遺伝子型の定量、対象／個体の遺伝物質が混合物中に存在するデータベースからの対象／個体の同一性、複数の既知の遺伝子型からの混合比率の定量、複数の未知の遺伝子型の混合物の逆重畳など、のコンピュータを用いた方法を対象とする。特定の実施形態では、本方法は、図６～８に記載の１つ以上のステップを含んでいてもよい。

【0110】

図５は、生体試料からの核酸混合物を逆重畳するための本明細書に開示される方法を用いた使用のための、コンピュータシステム５００のブロック図であり、コンピュータプログラム製品５５０がそれにインストールされている。図５は、様々な計算システムの構成要素を示しているが、当業者に既知の他のまたは異なる構成要素（例えば上述のもの）が、本開示の態様が実装され得る好適な計算環境を提供し得ることが企図される。図６は、本技術の一実施形態に従って、デュプレックス配列決定のコンセンサス配列データを提供するためのルーチンを示すフロー図である。図７～図８は、核酸混合物からの遺伝子型を特定および／または定量するための様々なルーチンを示すフロー図である。本技術の態様に従って、図７～図８に関して記載される方法は、例えば、試料内に表される独立した生物学的供給源の数、生物学的混合物中に存在する各生物学的供給源の定量、試料データと既知の遺伝子型のデータセットとの比較から導かれた情報（個々の対象の遺伝子型を含むデータベースを含む）を含む、試料に存在する遺伝子型を含む、試料データを提供することができる。

【0111】

図５に示されるように、コンピュータシステム５００は、複数のユーザ計算デバイス５０２、５０４と、有線または無線のネットワーク５１０と、マイクロハプロタイプを分析し、核酸混合物を個々の遺伝子型に逆重畳するためのプロセッサを含むサーバ（「ＤｕｐＳｅｑ（商標）サーバ」）５４０と、を含み得る。実施形態では、ユーザ計算デバイス５０２、５０４を使用して、配列決定データを生成および／または送信することができる。一実施形態では、計算デバイス５０２、５０４のユーザは、遺伝物質の２つ以上の生物学的供給源を含む核酸混合物の逆重畳のための生体試料のデュプレックス配列決定方法のステップなど、本技術の他の態様を行うユーザであってもよい。一実施例では、計算デバイス５０２、５０４のユーザは、本技術の一実施形態に従って、試薬および／またはアダプターを含むキット（１、２）を用いた特定のデュプレックス配列決定方法のステップを行って、生体試料を調査する。

【0112】

図示されるように、各ユーザ計算デバイス５０２、５０４は、少なくとも１つの中央処理ユニット５０６と、メモリ５０７と、ユーザとネットワークインターフェース５０８とを含む。一実施形態では、ユーザデバイス５０２、５０４は、デスクトップ、ラップトップまたはタブレットコンピュータを含む。

【0113】

２つのユーザ計算デバイス５０２、５０４が示されているが、任意の数のユーザ計算デバイスがシステム５００の他の構成要素に含まれていてもよく、または接続されていてもよいことが企図される。これに加え、計算デバイス５０２、５０４はまた、試料を増幅し、配列決定するためのユーザ（１）およびユーザ（２）によって使用される複数のデバイスおよびソフトウェアの代表であってもよい。例えば、計算デバイスは、配列決定機（例えば、ＩｌｌｕｍｉｎａＨｉＳｅｇ（商標）、ＩｏｎＴｏｒｒｅｎｔ（商標）ＰＧＭ、ＡＢＩＳＯＬｉＤ（商標）シーケンサー、ＰａｃＢｉｏＲＳ、ＨｅｌｉｃｏｓＨｅｌｉｓｃｏｐｅ（商標）など）、リアルタイムＰＣＲ機（例えば、ＡＢＩ７９００、ＦｌｕｉｄｉｇｍＢｉｏＭａｒｋ（商標）など）、マイクロアレイ機器など、であってもよい。

【0114】

上に記載の構成要素に加えて、システム５００は、さらに、遺伝子型プロファイルおよび関連する情報を格納するためのデータベース５３０を備えていてもよい。例えば、サーバ５４０によってアクセス可能なデータベース５３０は、マイクロハプロタイプ、既知の対象の遺伝子型、および出発物質の混合比率（例えば、細胞の混合物）の記録または収集物を含んでいてもよい。特定の実施例では、データベース５３０は、遺伝子型プロファイルを含む第三者のデータベース５３２であってもよい。例えば、既知の個体の遺伝子型を含む様々な法医学的データベースを、特定の用途に関して照会することができる。別の実施形態では、このデータベースは、サーバ５４０とは別個にホスティングされた自立型データベース５３０（プライベート、またはプライベートではないもの）であってもよく、またはデータベースは、サーバ５４０上にホスティングされていてもよく（例えばデータベース５７０）、経験的に導かれた遺伝子型プロファイル５７２を含む。一部の実施形態では、システム５００を使用して新しい遺伝子型プロファイルを生成するとき、システム５００および関連する方法（例えば、本明細書に記載の方法、例えば、図６～８の方法）の使用から生成されるデータを、データベース５３０および／または５７０にアップロードしてもよく、そのため、さらなる遺伝子型プロファイル５３２、５７２が、将来の比較作業のために生成されてもよい。

【0115】

サーバ５４０は、ユーザ計算デバイス５０２、５０４からの配列決定データ（例えば、生の配列決定ファイル）および関連する情報を、ネットワーク５１０を介して受信し、計算し、分析するように構成されていてもよい。試料特有の生の配列決定データは、デバイス５０２、５０４にインストールされているか、もしくはネットワーク５１０を介してサーバ５４０からアクセス可能であるコンピュータプログラム製品／モジュール（配列モジュール５０５）を使用して、または当該技術分野で良く知られている他の配列決定ソフトウェアを使用して、ローカルに計算されてもよい。次いで、生の配列データは、ネットワーク５１０を介してサーバ５４０に送信されてもよく、ユーザ結果５７４は、データベース５７０に格納されてもよい。サーバ５４０は、データベース５７０から生の配列決定データを受信するように構成され、また、例えば、本明細書に開示されるデュプレックス配列決定技術を使用してエラー修正二本鎖の配列リードを計算的に生成するように構成された、プログラム製品／モジュール「ＤＳモジュール」５１２も含む。ＤＳモジュール５１２は、サーバ５４０上に示されているが、当業者は、ＤＳモジュール５１２が、代替的にデバイス５０２、５０４、または別のサーバ（図示せず）上で動作するようにホスティングされ得ることを認識するであろう。

【0116】

サーバ５４０は、少なくとも１つの中央処理ユニット（ＣＰＵ）５６０、ユーザとネットワークインターフェース５６２（またはサーバに接続されたインターフェースを有するサーバ専用の計算デバイス）、既知または未知の生物学的供給源５７２の遺伝子型プロファイルを格納するための複数のコンピュータファイル／記録、および試験された試料５７４に関する結果（例えば、生の配列決定データ、デュプレックス配列決定データ、マイクロハプロタイプ分析、遺伝子型分析など）を格納するためのファイル／記録を含むデータベース５７０（例えば上に記載のもの）、を含み得る。サーバ５４０は、さらに、本技術の態様に従って、遺伝子型コンピュータプログラム製品（遺伝子型モジュール）５５０を格納したコンピュータメモリ５１１を含む。

【0117】

コンピュータプログラム製品／モジュール５５０は、非一時的コンピュータ可読媒体で具現化され、コンピュータ（例えば、サーバ５４０）上で実行された場合、マイクロハプロタイプを検出および特定し、混合物を個々の遺伝子型に解析し、かつ／またはそれを定量するための本明細書に開示される方法のステップを行う。本開示の別の態様は、プロセッサに遺伝子型分析（例えば、マイクロハプロタイプの計算、特定されたマイクロハプロタイプの定量、寄与する生物学的供給源への混合物の解析、遺伝子型の比較レポートなど）を実施できるように具現化されたコンピュータ可読プログラムのコードまたは命令を有する非一時的コンピュータ使用可能媒体を含むコンピュータプログラム製品／モジュール５５０を含む。これらのコンピュータプログラム命令は、コンピュータまたは他のプログラム可能な装置にロードされて、マシンを生成してもよく、その結果、コンピュータまたは他のプログラム可能な装置で実行する命令が、本明細書に記載の機能またはステップを実装する手段を生成する。これらのコンピュータプログラム命令はまた、コンピュータまたは他のプログラム可能な装置に特定の様式で機能させるように命令し得るコンピュータ可読メモリまたは媒体に格納されてもよく、その結果、コンピュータ可読メモリまたは媒体に格納される命令は、分析を実施する命令手段を含む製造物品を生成する。また、コンピュータプログラムの命令を、コンピュータまたは他のプログラム可能な装置にロードして、コンピュータまたは他のプログラム可能な装置で行われる一連の操作ステップに、コンピュータに実装されるプロセスを生成させてもよく、その結果、コンピュータまたは他のプログラム可能な装置で実行する命令は、上に記載の機能またはステップを実装するためのステップを提供する。

【0118】

さらに、コンピュータプログラム製品／モジュール５５０は、任意の好適な言語および／またはブラウザに実装されてもよい。例えば、Ｐｙｔｈｏｎ、Ｊａｖａ、Ｓｃａｌａ、Ｃ言語で実装されてもよく、好ましくは、オブジェクト指向高水準プログラミング言語、例えば、ＶｉｓｕａｌＢａｓｉｃ、ＳｍａｌｌＴａｌｋ、Ｃ＋＋などを使用して実装されてもよい。アプリケーションは、Ｗｉｎｄｏｗｓ（商標）９８、Ｗｉｎｄｏｗｓ（商標）２０００、Ｗｉｎｄｏｗｓ（商標）ＮＴなどを含むＭｉｃｒｏｓｏｆｔＷｉｎｄｏｗｓ（商標）環境などの環境に適するように書かれていてもよい。これに加え、アプリケーションは、Ｍａｃｉｎｔｏｓｈ（商標）、ＳＵＮ（商標）、ＵＮＩＸまたはＬＩＮＵＸ環境用に書かれていてもよい。これに加え、機能ステップは、ユニバーサルプログラミング言語またはプラットフォームに依存しないプログラミング言語を用いて実装されてもよい。このようなマルチプラットフォームプログラミング言語の例として、限定されないが、ハイパーテキストマークアップランゲージ（ＨＴＭＬ）、ＪＡＶＡ（商標）、ＪａｖａＳｃｒｉｐｔ（商標）、フラッシュプログラミング言語、コモンゲートウェイインターフェース／ストラクチャードクエリーランゲージ（ＣＧＩ／ＳＱＬ）、プラクティカルエクストラクションレポートランゲージ（ＰＥＲＬ）、ＡｐｐｌｅＳｃｒｉｐｔ（商標）および他のシステムスクリプト言語、プログラミングランゲージ／ストラクチャードクエリーランゲージ（ＰＬ／ＳＱＬ）などが挙げられる。Ｊａｖａ（商標）またはＪａｖａＳｃｒｉｐｔ（商標）対応ブラウザ、例えば、ＨｏｔＪａｖａ（商標）、Ｍｉｃｒｏｓｏｆｔ（商標）Ｅｘｐｌｏｒｅｒ（商標）またはＦｉｒｅｆｏｘ（商標）を使用してもよい。アクティブコンテンツウェブページが使用される場合、Ｊａｖａ（商標）アプレットまたはＡｃｔｉｖｅＸ（商標）コントロールまたは他のアクティブコンテンツ技術を含んでいてもよい。

【0119】

システムは、多くのルーチンを呼び出す。ルーチンのいくつかが本明細書に記載されるが、当業者は、システムが実行することができる他のルーチンを特定することができる。さらに、本明細書に記載されるルーチンは、様々な様式で変更することができる。例として、例示されたロジックの順序は、並べ替えてもよく、サブステップを並列で行ってもよく、例示されたロジックを省略してもよく、他のロジックを含んでもよい、など。

【0120】

図６は、試料（例えば、生物学的混合物からの試料）中の二本鎖核酸分子についてのデュプレックス配列決定データを提供するためのルーチン６００を示すフロー図である。ルーチン６００は、計算デバイス（例えば、クライアントコンピュータまたはコンピュータネットワークに接続するサーバコンピュータ）によって呼び出されてもよい。一実施形態では、計算デバイスは、配列データ生成部および／または配列モジュールを含む。一例として、計算デバイスは、操作者が計算デバイスと通信するユーザインターフェースに接続した後、ルーチン６００を呼び出してもよい。

【0121】

ルーチン６００は、ブロック６０２で開始し、配列モジュールは、ユーザ計算デバイスから生の配列データを受信し（ブロック６０４）、試料中の複数の核酸分子に由来する複数の生の配列リードを含む試料特有のデータセットを生成する（ブロック６０６）。一部の実施形態では、サーバは、後で処理するために、データベースに試料特有のデータセットを格納することができる。次に、ＤＳモジュールは、試料特有のデータセット中の生の配列データから二重鎖コンセンサス配列決定データを生成するための要求を受信する（ブロック６０８）。ＤＳモジュールは、元の二本鎖核酸分子を表すファミリーからの配列リードをグループ分けし（例えばＳＭＩ配列に基づいて）、個々の鎖からの代表的な配列を互いに比較する（ブロック６１０）。一実施形態では、代表的な配列は、各々の元の核酸分子からの１つまたは１つより多い配列リードであってもよい。別の実施形態では、代表的な配列は、代表的な鎖内のアラインメントおよびエラー修正から生成される一本鎖コンセンサス配列（ＳＳＣＳ）であってもよい。このような実施形態では、第１の鎖からのＳＳＣＳを、第２の鎖からのＳＳＣＳと比較することができる。

【0122】

ブロック６１２で、ＤＳモジュールは、比較された代表的な鎖間で相補性を有するヌクレオチド位置を特定する。例えば、ＤＳモジュールは、比較された（例えば、アラインメントされた）配列リードに沿って、ヌクレオチド塩基コールが一致するヌクレオチド位置を特定する。さらに、ＤＳモジュールは、比較された代表的な鎖間で相補性を有さない位置を特定する（ブロック６１４）。したがって、ＤＳモジュールは、比較した（例えば、アラインメントした）配列リードに沿って、ヌクレオチド塩基コールが一致しないヌクレオチド位置を特定することができる。

【0123】

次に、ＤＳモジュールは、試料中の二本鎖核酸分子についてのデュプレックス配列決定データを提供することができる（ブロック６１６）。このようなデータは、処理された配列リード各々について、二重鎖コンセンサス配列の形態であってもよい。二重鎖コンセンサス配列は、一実施形態では、元の核酸分子の各鎖からの代表的な配列が一致しているヌクレオチド位置のみを含んでいてもよい。したがって、一実施形態では、一致しない位置は、エラー修正された二重鎖コンセンサス配列が高精度の配列リードであるように、除外するか、または考慮しなくてもよい。別の実施形態では、デュプレックス配列決定データは、一致しないヌクレオチド位置をさらに分析することができるように（例えば、ＤＮＡ損傷を評価することができる場合に）、一致しないヌクレオチド位置に対するレポート情報を含んでいてもよい。ルーチン６００は、次いで、ブロック６１８に続き、そこで終了してもよい。

【0124】

図７は、既知の供給源の遺伝子型試料を決定するために、核酸混合物中に存在するマイクロハプロタイプを検出し、特定し、定量するためのルーチン７００を示すフロー図である。このルーチンは、図５の計算デバイスによって呼び出すことができる。ルーチン７００は、ブロック７０２で開始し、遺伝子型モジュールは、図６からのデュプレックス配列決定データを分析して（例えば、ブロック６１６の後）、個々のＤＮＡ分子内に存在するマイクロハプロタイプアレルの組み合わせを特定し（ブロック７０４）、各既知の供給源の遺伝子型から供与される各アレルの総数を合計する（ブロック７０６）。次に、遺伝子型モジュールは、例えば、回帰ベースのモデルを使用して、混合物中に存在する各遺伝子型の混合比率を計算する（ブロック７０８）。このように、マイクロハプロタイプ分析は、元の生物学的供給源および核酸混合物に寄与する各供給源の相対的な比率に関する情報を提供することができる。

【0125】

遺伝子型モジュールはまた、任意選択的に、各遺伝子型の混合比率を、元の混合比率と比較して（ブロック７１０）（例えば、一緒に増殖された異なる生物学的供給源由来の細胞の場合）、生物学的供給源の混合物（例えば、培養中の細胞の混合物）に対する選択圧を評価し得る。次に、遺伝子型モジュールは、データベース中の試料特有のデータセットに格納され得る遺伝子型データを提供することができる（ブロック７１２）。ルーチン７００は、次いで、ブロック７１４に続き、そこで終了してもよい。図９は、ルーチン２１００を使用して決定され得、データベースに格納され得る遺伝子型データ（例えば、全てのマイクロハプロタイプにわたるカウント、既知の供給源の遺伝子型、混合比率）の一例を示す。

【0126】

図８は、試料中の未知の遺伝子型の核酸混合物を逆重畳するためのルーチン８００を示すフロー図である。このルーチンは、図５の計算デバイスによって呼び出すことができる。ルーチン８００は、ブロック８０２で開始し、遺伝子型モジュールは、図６からのデュプレックス配列決定データを分析し（例えば、ブロック６１６の後）、個々のＤＮＡ分子内に存在するマイクロハプロタイプアレルの組み合わせを特定する（ブロック８０４）。一部の実施形態では、ＳＮＰアレルの組み合わせは、例えば、ロングリード配列決定技術を利用する場合に、特定され得る。次に、遺伝子型モジュールは、各遺伝子座に存在する全ての可能な遺伝子型に対する全ての可能な混合比率を評価する（ブロック８０６）。次いで、遺伝子型モジュールは、各遺伝子座について、配列データ（例えば、ＳＮＰデータ、マイクロハプロタイプデータ）に十分に適合する全ての可能な遺伝子型のリスト、および評価される全ての可能な混合比率を計算する（ブロック８０８）。このため、マイクロハプロタイプ／ＳＮＰ分析は、元の生物学的供給源に関する遺伝情報、存在する元の生物学的供給源の数に関する情報、および核酸混合物に寄与する各供給源の相対的な比率、を提供することができる。

【0127】

遺伝子型モジュールはまた、任意選択的に、未知の供給源からの遺伝子型プロファイルを、既知の供給源の遺伝子型プロファイルを含むデータベースと比較して、複合核酸混合物に寄与する特定の生物学的供給源を特定することができる（ブロック８１０）（例えば、加害者、被害者、または行方不明者を特定するためなどの法医学的ケースにおいて）。一部の実施形態では、遺伝子型モジュールはまた、任意選択的に、１つ以上の既知の遺伝子型が混合物に含まれる場合、混合物データが十分に適合することができるかどうかを評価することによって、混合試料内のデータベースから遺伝子型の存在を決定することができる。

【0128】

次に、遺伝子型モジュールは、データベース中の試料特有のデータセットに格納され得る遺伝子型データを提供することができる（ブロック８１２）。ルーチン８００は、次いで、ブロック８１４に続き、そこで終了してもよい。図１０は、ルーチン２１００を使用して決定され得、データベースに格納され得る遺伝子型データ（例えば、マイクロハプロタイプからのカウント、可能な遺伝子型プロファイル、可能な混合比率のグリッド）の一例を示す。

【0129】

実験例
以下の章は、デュプレックス配列決定および関連する試薬を使用して核酸混合物を解析するための方法の一部の例示的な実施例を提供する。

【0130】

実施例１
臍帯血増殖：同種移植で使用するためにＣＤ３４＋臍帯血幹細胞を増殖させる。複数のドナー（例えば、８人のドナー）からの臍帯血試料をプールし、培養中に一緒にｎｏｔｃｈリガンド増殖を行った。この実施例では、デュプレックス配列決定を使用して、各ドナーからの入力されたＣＤ３４＋幹細胞の相対的な比率が、増殖プロセス中に維持されたかどうかを評価した。

【0131】

この実施例では、８人の個々のドナーからの臍帯血をＣＤ３４＋富化し、フロー定量した。図１１に示されるように、各臍帯血試料の一定分量からＤＮＡを抽出し、個別に配列決定した。４つの盲検試験混合物を調製し（図１１の左側）、本明細書および米国特許第９，７５２，１８８号に以前に記載されたデュプレックス配列決定プロトコルを使用して配列決定した。配列決定後、混合物を分析し、逆重畳した。

【0132】

図１１の右側に示されるこの実施例の第２の態様では、元の臍帯血試料由来の生細胞をプールし（各々可変なＣＤ３４＋数）、ｎｏｔｃｈリガンド増殖させた。増殖後、プールされた細胞からＤＮＡを抽出し、配列決定した。

【0133】

その後、配列決定の結果を分析して、配列決定された混合物が、４つの盲検試験混合物（図１１の左側）の予想される混合物を再現するかどうかを決定し、また、増殖後の各臍帯試料の相対パーセンテージ（各固有の遺伝子型の代表的なＤＮＡ量に基づいて）が元の入力ＣＤ３４＋数を反映するかどうかを決定した。

【0134】

プローブのパネルを使用して、デュプレックス配列決定を行い、ヒトゲノム全体に散在する４５個の高ＭＡＦＳＮＰ部位および１６個の低ＭＡＦＳＮＰ部位を遺伝子型決定した。図１２に示されるように、この実施例で使用されるＳＮＰパネルのグローバル分布を示す。

【0135】

この実施例で生成された混合物内で、最も低いバリアントアレル頻度（ＶＡＦ）ＳＮＰが０．６％であることが分かっていた。このため、およそ３，０００倍の深度まで配列決定を行い、その結果、０．６％ＶＡＦで、ホモ接合個体から約１８のＳＮＰ事象、またはヘテロ接合個体から約９のＳＮＰ事象を決定する可能性があった。配列決定は、デュプレックス配列決定方法を使用して、４つの臍帯血混合物、臍帯血増殖混合物、および８人の個々のドナーの各々からの臍帯血試料の各々からの２５０ｎｇのＤＮＡに対して、およそ３０００倍の固有分子深度まで行った。全ての配列決定および遺伝子型決定は、盲検で行った。図１３は、各試料についてのオンターゲットデュプレックス配列決定の深度を示す棒グラフである。

【0136】

分析には、実験試料と同時に調製されたＤＮＡ標準における交差汚染の指標のための５９個のＳＮＰ部位の検査を含めた。汚染分子は見出されなかった（配列決定された２２２，０２５個の多型部位塩基対中）。５９個のＳＮＰ部位を８個の臍帯血試料中で検査し、臍帯血試料中のヒトＤＮＡ交差汚染の証拠は発見されなかった。

【0137】

図１４は、ドナー遺伝子型を差別化するために使用される１１個の特異的ＳＮＰアレルを特定するパネルを示す。これらのＳＮＰのうちの１０個は、図１２に示される低ＭＡＦサブセット内にあった。図１４に示される個々のドナー試料の分析は、９個のＳＮＰバリアントが個々の試料に固有であり、２つの追加のＳＮＰ部位が、ドナー試料のうちの２つにのみ存在していたことを示す。ドナー由来の元の臍帯血試料のうちの５つは、１つ以上の特異的アレルによって一意に特定され得、残りの３つの臍帯血試料は、共通のより高い頻度のＳＮＰの推論によって特定され得る。

【0138】

図１５Ａ～１５Ｄを参照すると、デュプレックス配列決定方法は、混合物の各々における各個々の臍帯血源を検出するための完全な感度および特異度をもたらした。例えば、図１５Ｄを参照すると、臍帯血混合物（すなわち、臍帯血混合物＃６）のうちの１つは、全混合物の各々１％を表す２つの個々の臍帯血試料（＃２、＃７）を含んでいた。デュプレックス配列決定方法を使用して、これらの臍帯血試料は、総表現の１％で、検出され、正確に定量された。

【0139】

図１５Ａ～１５Ｄを参照すると、予想されるパーセンテージ（例えば、混合物を生成するのに使用された各試料のナノドロップ分光光度計で測定された量）からの有意な量の変動があったことが認められた。理論に束縛されるものではないが、図１５Ａ～図１５Ｂに示されるＤＮＡ定量においてデュプレックス配列決定アプローチとナノドロップ定量アプローチとの間に示される相違は、ナノドロップアプローチに起因する交絡因子（例えば、破壊されていないＲＮＡの存在など）によるものと考えられる。これは、ナノドロップおよびＱｕｂｉｔフルオロメーター測定の両方を用いた全ての試料（例えば、個々の臍帯血試料、増殖細胞から抽出されたＤＮＡ、および試験混合物から）の定量を見れば、実証される（図１５Ｅを参照）。示されるように、ナノドロップ測定（濃い灰色の棒）は、Ｑｕｂｉｔ（薄い灰色の棒）と比較して、試料定量測定値を過剰表現しているように見えた。デュプレックス配列決定の定量アプローチとナノドロップ定量アプローチの間の定量測定の差異のさらなる証拠として、図１６は各混合物内の各個々の臍帯血試料の定量における倍率差を示している。示されるように、これらの試料の各々についての倍率差は類似しており、さらに、混合物を生成する前の定量エラーが、図１５Ａ～１５Ｄにおける不一致の結果を説明することを示唆した。いずれにせよ、混合物を生成するのに使用された臍帯血試料の個々の供給源、ならびにそれらの代表的な混合物に対する寄与が、正確に特定された（図１５Ａ～１５Ｄ）。

【0140】

図１７は、各個々の臍帯血試料について、フローサイトメトリーで決定された増殖前の細胞のＣＤ３４＋画分、および増殖後の細胞のＣＤ３４^＋画分（デュプレックス配列決定によって決定された）、を示す棒グラフである。示されるように、増殖前のＣＤ３４＋細胞数と増殖後の細胞数との間に強い相関がある。これらの結果は、この増殖に存在する各臍帯血試料由来の細胞が比例して増殖したことを示唆する。さらに、これらのデータは、増殖細胞が、ＣＤ３４＋細胞であり、Ｎｏｔｃｈ増殖を同じく受ける他の分化細胞ではないことを示す。

【0141】

この実施例では、デュプレックス配列決定方法を使用して、多型マーカーを使用し、生物学的混合物（例えは、８個の個体由来の臍帯血試料の混合物）を、逆重畳することができることを実証している。かなり適度な配列決定深度（例えば、３０００倍）を使用して、デュプレックス配列決定方法は、試験した各合成混合物において、十分な総合的な感度と特異度で、各臍帯を十分確信的に検出することができた。理論によって束縛されないが、試験された合成混合物中の各臍帯試料の相対的存在量の相違は、混合物を作製するときのＤＮＡ定量のエラーの結果であり、デュプレックス配列決定プロセスの欠陥ではないと考えられる。

【0142】

この実施例では、増殖後の臍帯血混合物を分析するために使用されるデュプレックス配列決定方法が、Ｎｏｔｃｈ増殖前の各臍帯血試料由来のＣＤ３４＋細胞の相対パーセンテージと非常に類似した結果をもたらしたことがさらに実証され、少なくとも本実験では、各臍帯血試料由来のＣＤ３４＋細胞が、互いに相対的に増殖し、各々の相対画分が、元の混合物と同じ全画分で表されることが示唆された。

【0143】

この実施例では、デュプレックス配列決定は、核酸物質の混合物を逆重畳し、元のＤＮＡ源の存在ならびに存在量を特定するための成功裏の方法であることが実証される。したがって、デュプレックス配列決定方法は、治療用ヒト細胞の多個体培養物の存在量を費用効果的に評価する、迅速で定量的でかつ自動化可能な方法を提供する。

【0144】

各臍帯について決定されたＳＮＰ遺伝子型のパターンに基づいて、このアプローチは、ＳＮＰハプロタイプから様々な予想されるＨＬＡハプロタイプを絞り込むことができる。例えば、祖先確率の予測（例えば、マオリ人対イヌイット人対北欧の祖先）を評価することができる。

【0145】

一般に、この実施例は８つの供給源の解像度を実証しているが、任意の必要な仕様を許容するようにパネルを設計することができる。デュプレックス配列決定は、既知の遺伝子型が事前に存在する場合、費用効果的なパネルを用いて数十の構成要素に到達し得ることが予想される。他の実施形態では、本明細書に記載されるデュプレックス配列決定アプローチでは、事前の知識なしに複数の供給源の逆重畳も可能である。

【0146】

この実施例では、特に稀な事象がなかったため、標的深度３０００倍の固有分子深度を選択した。稀な事象が既知であるかまたは疑われる例では、配列決定の深度を増加することができる（例えば、約１０，０００倍、１５，０００倍、２０，０００倍、２５，０００倍、３０，０００倍、３５，０００倍、４０，０００倍、４５，０００倍、５０，０００倍、７５，０００倍、１００，０００倍、２００，０００倍、５００，０００倍、１，０００，０００倍、またはそれ以上）。バリアントは、比率（配列決定された総ＳＮＰＢＰ当たりのバリアントＳＮＰ）として検出することができ、特定の統計的信頼度を得るために最小限の標的を超えられる限りにおいて十分な深度を用いて検出することができる。

【0147】

異なる細胞区画に選別し、臍帯血混合物中のキメリズムを定量する能力は、ある臍帯と別の臍帯が、ある系統と別の系統へと、異なるように差別化されるかどうかについての情報を提供し得る。血漿中の相対キメリズム無細胞ＤＮＡを評価する能力により、デュプレックス配列決定方法が、短い時間スケールで、あるコードと別のコードの相対的なダイオフを追跡することができる（ｃｆＤＮＡの半減期は、血漿中で約２．５時間である）。同様に、無細胞ＤＮＡに適用されるこのような方法は、移植されたゲノムからのＤＮＡ（例えば、腎臓、心臓、または肺などの固形臓器移植では、移植拒絶反応で生じ得る）の相対的な比率を評価することができる。

【0148】

実施例２
混合物の逆重畳のためのマイクロハプロタイプゲノム部位のデュプレックス配列決定。マイクロハプロタイプは、３つ以上のアレルの組み合わせ（例えば、約３、４、５、６、７、８、９、１０、１１、１２、１３、１４、またはそれ以上の異なるアレル）を有する、互いに比較的短い距離（例えば、２００ヌクレオチド未満、２５０ヌクレオチド未満、３００ヌクレオチド未満、３５０ヌクレオチド未満、またはそれ以上）内の２つ以上のゲノムＤＮＡＳＮＰの遺伝子座である。所与のマイクロハプロタイプは、所与の混合物（すなわち、異なる個体由来の混合物中のＤＮＡ分子間のマイクロハプロタイプの間に差がない）、またはいくつかの個々の多型（例えば、少なくとも約２、３、４、５、６、７、８、９、１０、１１．１２、１５、２０、２４、またはそれ以上）について、ほとんどゼロの「有益な」個々の多型を有していてもよい。図１８Ａに示すように、特定された有用なマイクロハプロタイプの特定のパネルにおけるマイクロハプロタイプの大部分は、２００ヌクレオチド長未満である。図１８Ｂは、世界の様々な集団における１つのマイクロハプロタイプについてのアレル頻度の一例である。

【0149】

この実施例では、ＤＮＡ混合物をプローブし、マイクロハプロタイプ領域にわたって配列決定して、混合物を、例えば特定する目的で、１つ以上の元のＤＮＡ源に逆重畳し、各供給源の存在量を決定した。マイクロハプロタイプマーカーを評価するためにプローブパネルを使用することによって、プローブ／配列決定リードあたりより多くのアレルを評価することができ、供給源を特定する上で、配列決定データに、より大きな力を与える。特定の例では、マイクロハプロタイプを含む約１００個のゲノム領域に注目するプローブパネルは、約３００個のアレルの特有な組み合わせを利用して、供給源（複数可）を特定することができる。プローブパネルを使用することで、デュプレックス配列決定を使用してペアエンド配列決定またはシングルエンド配列決定を行うことができる。

【0150】

ドナーの遺伝子型が既知である例では、プライベートアレルを使用して、特定のドナーを特定することができる。例えば、アレルが特定のドナーに固有である場合、ドナーの比率は、マイナーアレルを含むその遺伝子座における配列決定リードの比率に等しい。この方法論は、ドナーを特定するために必要なプライベートアレルは１リードのみであるため、低存在量の試料を評価するために使用することができる。

【0151】

別の実施例では、デュプレックス配列決定およびその後の配列決定データの逆重畳を使用して、遺伝子型（例えば、供給源）のドナーを特定することができる。例えば、プローブされた十分なアレルが与えられると、アレルの組み合わせを使用して、ドナー（複数可）を特定し、定量するための固有な遺伝子型指紋（例えば、遺伝子シグネチャ）を生成することができる。

【0152】

シミュレーションした実施例では、９個の遺伝子型は、いくつかの希少な遺伝子型といくつかの豊富な遺伝子型が混ぜ合わされた、混合物中にある。２６６個の異なるアレルを表す１００個のマイクロハプロタイプを配列決定するためのプローブパネルを使用して、ＤＮＡ混合物を、約３０００倍の深度で配列決定する。この仮説的な実施例では、混合物推定を使用して、シミュレーションしたマイクロハプロタイプから生じるプライベートアレルが、各ドナーを検出した。シミュレーションでは、プライベートアレルの使用を止めた後も、データを使用して、３つの最小存在量のドナー（シミュレーション混合物の０．０３％、０．３％、および１．３％）を除いて、最終的に全てのドナーを検出することができた。デュプレックス配列決定データのシミュレーションされた逆重畳の結果を図１９に示す。

【0153】

実施例３
この実施例は、混合物の逆重畳のためのマイクロハプロタイプゲノム部位のデュプレックス配列決定の一実施形態を説明する。この実施例では、４個の遺伝子座にマイナーアレルを有する患者試料が、５％、１０％、２０％、および４０％観察された。この実施例では、これらのアレル頻度は、患者のＤＮＡだけでは説明できない。少なくとも３つのゲノムが存在する。このシナリオに良好に適合するのは、ドナー１が１０％、ドナー２が４０％、および患者３が５０％、であろう。逆重畳では、この戦略は、ドナー遺伝子型が、最良適合をもたらすかどうかを考慮して、観察されたアレル頻度を最もよく説明する混合比率を探すことを目的とする。一部の実施例では、機械学習方法によりこの分析が容易になる。

【0154】

デュプレックス配列決定データを解析するための逆重畳モデルの一例は、線形回帰、一般化線形モデル、またはその拡張を使用することができる。図２０は、各々がドナー内に既知の遺伝子型を有する７個のＳＮＰを使用して、混合物内のドナー源を決定するための線形回帰モデルの一例を示す。各ドナー（β）の混合比率が決定される。

【0155】

実施例４
この実施例は、混合物の逆重畳のためのマイクロハプロタイプゲノム部位のデュプレックス配列決定の別の実施形態を説明する。この実施例では、既知の生物学的供給源からの核酸分子の混合物を有する試料に由来するデュプレックス配列決定データを使用して、混合供給源の混合比率を推定する。分析の態様は、本明細書に記載のコンピューティングシステムの様々な実施形態を使用して行うことができる（例えば、図５を参照）。

【0156】

第１のステップでは、ルーチンは、計算デバイス、例えば、遺伝子型モジュールを有する計算デバイスによって呼び出すことができ、このようなルーチンは、各アッセイされた遺伝子座（Ｙ）の各アレルのカウントのベクトルを呼び出すことができる。ベクトルＹの一例を、表１に示す。この特定の実施例において、各遺伝子座は、２つのアレルを有し、ノーコール、または「Ｎ」値を有するが、しかしながら、このルーチンは、任意の所与の遺伝子座において任意の数のアレルを収容することができる。したがって、この実施例では、マイクロハプロタイプのデータを使用する場合、各遺伝子座は、少なくとも３つのアレル、加えて、マイクロハプロタイプ内の１つ以上のＳＮＰが遺伝子型モジュール（例えば、ルーチン）によってコールが与えられない様々なノーコールアレル、を有することになる。

【表1】

アレル数データの例。ベクトルＹは強調表示され（灰色の列）、付随するデータおよびＩＤは他の列にある。

【0157】

第２のステップでは、ルーチンは、Ｙの要素に対応する行および列を有する対角マトリックスλを定義する。λの対角要素は、それらが対応する遺伝子座における全てのアレルの総数に等しい。例えば、要素［１，１］におけるλの値は、Ｙの第１の位置の遺伝子座における総数に等しくなければならない。マトリックスλの一例を、表２に示す。

【表2】

マトリックスλの例。マトリックスは灰色で強調表示されており、他のデータベクトルおよびマトリックスとの整列のために行名と列名が表示されている。

【0158】

第３のステップでは、ルーチンは、Ｙの要素に整列する行、および個々の供給源に対応する列、を有するマトリックスをＧ０として供給源の遺伝子型を書き込む。ルーチンは、Ｇ０の［ｉ，ｊ］要素が、ｊ番目の供給源のＹにおけるｉ番目のアレルの遺伝子型に対応するようにＧ０を定義し、供給源ｊがアレルの０、１、または２コピーを有するかどうかに応じて、０、０．５、または１をそれに入れる。マトリックスＧ０の一例を、表３に示す。

【表3】

供給源遺伝子型のマトリックス、Ｇ０の例。Ｇ０は灰色で強調表示されており、他の列には、他のデータベクトルおよびマトリックスとの整列のためのＩＤが表示されている。

【0159】

第４のステップでは、ルーチンは、データ内のノーコール、または「Ｎ」リードを説明する。遺伝子座における「Ｎ」リードは、様々な原因から生じ、Ｎの確率は、遺伝子座およびアレルの両方で変化し得る。既知の遺伝子型を有する試料上での較正実験は、Ｎが記録される遺伝子座およびアレル特異的確率を推定することができる。

【0160】

実質上、ノーコール現象は、患者遺伝子型データの歪みをもたらす。患者が遺伝子座でアレルＡについてホモ接合性である場合、その患者がアレルＡの１００％のカウントに寄与することは真に期待されず、値「Ｎ」のいくつかのカウントに寄与する。

【0161】

ノーコールまたは「Ｎ」リードを考慮するために、ルーチンは、シーケンサーおよび／または遺伝子型モジュール（例えば、ルーチン）によって、アレルがノーコールまたは「Ｎ」として読み取られるアレル特異的確率を考慮した修飾された遺伝子型マトリックスを生成する。表４は、このＧマトリックスが、Ｇ０から、およびノーコール／Ｎリードの遺伝子座およびアレル特異的な比率から、どのように計算され得るかを示す。

【表4】

Ｇの例、ノーコールまたは「Ｎ」リードを考慮した後の供給源遺伝子型のマトリックス。Ｇは、灰色で強調表示されており、他の列には、他のデータベクトルおよびマトリックスとの整列のためのＩＤが表示されている。Ｇは、Ｇ０から、および「Ｎへの変化率」カラムから、計算することができる。

【0162】

別の実施形態では、ルーチンは、データベクトルＹからの全ての呼び出されていない、または「Ｎ」アレルを破棄し、λの計算のためにこの部分Ｙを使用し、以下のステップでＧの代わりにＧ０を使用するように構成され得る。

【0163】

データマトリックスが決定されると、ルーチンは供給源混合比率を推定することができる。

【0164】

この実施例では、ルーチンは、混合試料中の供給源の混合比率のベクトルをβと呼ぶ。βの一例を、表５に示す。ルーチンは、最初にβの要素を推定し、次に、これらの推定値の周りに信頼区間を設けてもよい。

【表5】

βの例では、混合比率が不明なベクトルである。β自体は灰色で強調表示され、他の値は、他のベクトルおよびマトリックスへの整列のためのＩＤを示す。

【0165】

次に、ルーチンは、以下のようにデータをモデル化することができる。
Ｅ（Ｙ）＝λＧβ、
式中、Ｙ、λ、Ｇ、およびβは、上に定義された通りであり、２つのベクトルまたはマトリックスの並置は、線形代数表記で標準的な、ドット積演算子を示す。この式は、所与の遺伝子座の所与のアレルについての単純な解釈を有し、予想されるリード数は、その遺伝子座における配列決定深度×試料中のそのアレルの混合比率に等しい。（試料中のアレルの混合比率、またはより正確には、その遺伝子座におけるアレルの予想されるリード比率は、ベクターＧβ中のその要素と等しい。）

【0166】

このモデルは、βを推定し、その要素の信頼区間を計算するための一般化線形回帰（ＧＬＭ）アプローチを含む。定義：
Ｘ＝λＧβ、
ＧＬＭセットアップは自然に生じる。ＧＬＭの平均モデルは、Ｅ（Ｙ）＝Ｘβによって与えられる（すなわち、ＧＬＭはアイデンティティリンクを有する）。ＧＬＭのファミリーは、いくつかの選択肢の１つになる。

【0167】

１．ポアソンファミリー（すなわち、Ｘ上のＹのポアソン回帰の使用）。

【0168】

２．負の二項ファミリー（すなわち、Ｘ上のＹの負の二項回帰の使用）は、一部の実施形態では、ポアソンファミリーよりもノイズの多いデータに対して柔軟であり得る。

【0169】

３．ガウスファミリー（すなわち、Ｘ上のＹの通常の線形回帰の使用）も、いくつかの用途で使用され得る。

【0170】

上記の全ての設定では、ＧＬＭアプローチは、βの要素の推定値と信頼区間の両方を返す。

【0171】

本明細書に記載の実施例４は、既知の遺伝子型の核酸混合物を解析するための１つのアプローチを含む。当業者は、他のアプローチも使用され得ることを理解するだろう。他のアプローチの非限定的な例としては、多項回帰または二項回帰が挙げられる。別の実施形態では、ＧＬＭの回帰を使用して、遺伝子型マトリックスから各アレルの頻度を予測することができる（アレルの数を遺伝子座での総数で割ることによって計算される）。さらに別の実施形態では、制約は、ベータ（β）の要素に加えられ得る。例えば、以下の制約の任意の組み合わせは、回帰またはＧＬＭアプローチの任意の実施形態と併せて適用され得る。

【0172】

１．ベータ（β）は、非負であるように制限され得る

【0173】

２．ベータ（β）は、その要素が全て１以下であるように、制約することができる。

【0174】

３．ベータ（β）は、その要素が正確に１に合計されるように制約され得る。

【0175】

ポアソン、二項回帰および多項回帰のような回帰法は全て、漸近理論に基づいておよその標準誤差を導出する（例えば、ワルド、スコア、または尤度比に基づく標準誤差を使用する）ため、これらの方法は、混合物中の非常に低い存在量源に対して統計的有意性を有するゼロより大きな存在量を宣言できない場合がある。このエラーを修正するために、供給源が他の供給源によって共有されていない「プライベート」アレルを有し、そのプライベートアレルが混合試料中で観察される場合、その供給源は、高い統計的信頼度を有する非ゼロ存在量で存在すると宣言することができる。供給源の存在量に対する信頼区間は、二項比率上の信頼区間を計算する多様な方法のうちのいずれかを使用して計算することができる。例えば、ウィルソン法の信頼区間を使用することができる。

【0176】

実施例５
この実施例は、混合物の逆重畳のためのマイクロハプロタイプゲノム部位のデュプレックス配列決定の別の実施形態を説明する。この実施例では、未知の生物学的供給源からの核酸分子の混合物を有する試料に由来するデュプレックス配列決定データを使用して、供給源の遺伝子型を特定し、混合供給源の混合比率を推定する。分析の態様は、本明細書に記載のコンピューティングシステムの様々な実施形態を使用して行うことができる（例えば、図５を参照）。

【0177】

表１～表５に示すように、この実施例のデータは、上で定義されたＹ、λ、Ｇ０、Ｇおよびβを用いて、上記実施例４のようにフォーマットすることができる。しかしながら、本実施例では、我々が観察する唯一のデータは、Ｙおよびλであり、これはＹから直接計算される。したがって、未知の遺伝子型の問題は、選択されたβがどれ程よくデータに適合するかを評価するために、βと共にＧ０を推定しなければならないという点で、既知の遺伝子型の問題とは異なる。

【0178】

既知の遺伝子型問題（実施例４）では、ルーチンは、βを推定し、その推定値の周りに信頼区間を設け、データに十分に適合する全ての可能なβベクトルの部分空間を効果的に画定した。未知の遺伝子型問題に対処する本実施例では、ルーチンは、データを合理的に説明することができるβベクトルの特徴を記述するように構成される。例えば、ルーチンは、観察されたデータがβの１つの非ゼロ要素のみを有する試料から生じ得るかどうか（すなわち、単一の供給源）、または供給源の混合物のみが観察されたデータをもたらし得るかどうか、を決定する。別の実施形態では、ルーチンは、観察されたデータが比較的均一な供給源の混合物から生じ得るかどうか、またはデータが、１つの供給源が支配的であるかまたは１つ以上の供給源が非常に低い存在量を有する場合にのみ、説明され得るかどうかを判定する。

【0179】

したがって、この方法は、検討中の全てのβベクトルを評価し、データを適切に説明することができるβベクトルの種類の概要を返すことを目的とする。

【0180】

この例では、アプローチを説明する。

【0181】

１．以下のように、データを設定する。

【0182】

１ａ．混合物中で起こり得ると考えられる供給源の最大数Ｋを選択する。Ｋはβの長さを与える。Ｋ供給源未満に対応するβベクトルは、いくつかの位置で０を有するであろう。

【0183】

１ｂ．長さＫのβベクトルのリストの形態をとる、考慮すべきβのグリッドを定義する。一実施形態では、ルーチンは、β要素の値のセットを｛０、０．００１、０．０１、０．０２、０．０５、０．１、０．２、０．３、０．４、０．５、０．６、０．７、０．８、０．９、０．９５、０．９９、０．９９９、１｝として定義するように構成されている。ルーチンは、次いで、減少する値を有するこのリストから全ての可能なＫ長の試料を取ることによってβリストを生成することができる。例えば、Ｋ＝３の場合、ルーチンは、｛１，１，１｝、｛１，１，．９９９｝、｛１，１，．９９）…（供給源の遺伝子型が不明であるため、異なる順序で同じ値を有するβを２つ選択すると、データが同等によく説明される）。有効なβのリスト（すなわち、その合計が１になるβ）を得るために、ルーチンは、リスト内の各βの合計を１に再スケールするように構成される。得られたリストは、可能なβの空間にわたって詳細なグリッドを得る。

【0184】

１ｃ．各遺伝子座について、実施例４に記載のＧ０マトリックスにフォーマットされる可能な遺伝子型のリストを定義する。可能な遺伝子型は、次の基準を満たす全てのマトリックスである。

【0185】

ｉ．ＫカラムおよびＪ列、式中、Ｊは、遺伝子座について観察される固有のアレルの数である。

【0186】

ｉｉ．各要素は、０、０．５、または１のいずれかである。

【0187】

ｉｉｉ．マトリックスの各列は、合計で１になる（各供給源が遺伝子座で二倍体であることを意味する）。

【0188】

ｉｖ．必要であれば、ルーチンは、実施例４に記載の同じアプローチを使用して、ノーコール／「Ｎ」値を考慮するためにリスト内の各Ｇ０マトリックスを変更するように構成される。以降、このマトリックスのリスト内のマトリックスを、以前の表記に準拠して、「Ｇ」マトリックスと呼ぶ。

【0189】

２．データＹへのβの適合を評価する。ルーチンは、以下のアルゴリズムを使用して、リスト内の各βを、対数尤度と関連付けるように構成されている。

【0190】

２ａ．各βおよび各遺伝子座について、その遺伝子座からのＹの値について最大の対数尤度をもたらすマトリックスＧについて、遺伝子型マトリックスのリストを検索する。対数尤度は、以下のモデルのうちのいずれかを使用して計算することができる：１．Ｙは、平均ベクトルλＧβを有するポアソンランダムベクトルである、２．Ｙは、平均ベクトルλＧβとデータに適合する値の予め指定された値に等しいサイズパラメータとを有する負の二項分布ランダムベクトルである、または、３．Ｙは、平均ベクトルｌｏｇ（λＧβ）とデータに適合する値の予め指定された値に等しい分散パラメータとを有する対数正規ランダムベクトルである、を用いる。他の実施形態では、他のパラメトリック分布を使用してもよい。

【0191】

リスト内の各βについて、ステップ２ａの出力は、各遺伝子座における最良適合Ｇの選択、およびこれらの最良適合Ｇを有するβによって得られる付随する対数尤度のセットである。

【0192】

２ｂ．各βの対数尤度を、遺伝子座にわたるその対数尤度の合計として計算する。

【0193】

２ｃ．許容される高対数尤度の閾値を選択する。一実施形態では、閾値の選択は、ユーザの裁量に応じた判定である。以下のアプローチは全て、閾値が自然に解釈されるスケールでβをスコアリングするための合理的な方法を提供し、それらの全ては対数尤度から計算される。１．ベイズ情報量基準（ＢＩＣ）を使用することができる。２．赤池情報基準（ＡＩＣ）を使用することができる。３．２つの競合する適合間の対数尤度比の－２倍に等しいカイ二乗統計を使用することができる。

【0194】

３．選択した閾値を超える対数尤度を有するリストから、全てのβを報告する。

【0195】

未知の遺伝子型の混合物から、供給源の遺伝子型を回収する。

【0196】

未知の遺伝子型の試料中の混合比率を推定することに加えて、ルーチンは、混合物中の供給源の遺伝子型を回収するように構成することができる。以下のアルゴリズム（例えば、本明細書に記載の１つ以上のコンピューティングシステムによって呼び出され得るアルゴリズム）は、そうするための１つの方法を記述する。

【0197】

１．上記のアルゴリズム／ルーチンを使用して、有効なβのセットを導出する。

【0198】

２．各遺伝子座について：

【0199】

２ａ．上述のアルゴリズム／ルーチンのステップ１ｃのように、全ての可能な遺伝子型マトリックスを計算する。

【0200】

２ｂ．全ての有効なβに対して可能な各遺伝子型マトリックスを評価し、全ての有効なβにわたって得られた遺伝子型の最も高い対数尤度を記録する。

【0201】

２ｃ．対数尤度閾値を選択し、少なくとも１つの有効なβと共に評価されたときに、その閾値を超える全ての遺伝子型マトリックスを報告する。

【0202】

２ｄ．一部の場合では、考えられる遺伝子型マトリックスのセットは、特定の供給源のアレル（複数可）についてほぼ一致している（例えば、全ての可能な遺伝子型マトリックスは、最も豊富な供給源のホモ接合アレルＡを含む）。この事象では、供給源の遺伝子型は、そのアレルで呼び出され得る。

【0203】

他の場合、可能な遺伝子型マトリックスは、遺伝子座で供給源の遺伝子型の約半分であり得る。例えば、全ての可能な遺伝子型マトリックスは、アレルＡのコピーを有しているとして供給源１を示すが、マトリックスは、その遺伝子座での供給源の二倍体遺伝子型の他の半分については一致しない。この場合、ルーチンは、少なくとも１つのアレルＡのコピーを有しているとして供給源を呼び出すように構成され得る。

【0204】

一実施形態では、計算効率を向上させるために、単一の遺伝子座において非常に低い対数尤度を有するβは、さらなる考慮から廃棄されてもよく、したがって、さらなる遺伝子座にわたってそれを評価する必要性を不要とする。

【0205】

既知の遺伝子型を有する１つ以上の供給源が、別途未知の遺伝子型の混合物中で生じる場合、この方法はまた、以下のように適合され得る：１．既知の遺伝子型を有するＭ源がある場合、それらを各βの第１のＭ要素および各Ｇの第１のＭ列と関連付ける。２．上に記載の同じ方法で、候補βのリストを生成するが、最後のＫ－Ｍ列が減少値を有することのみを必要とする。３．所与の遺伝子座で所与のβの対数尤度を最大化するための最良のＧマトリックスを見つけるとき、Ｍ個の既知の遺伝子型を最初のＭ列に記入する。４．アルゴリズムの残りの部分は変えずに実行する。

【0206】

一部の実施形態では、この方法は、単離されたＳＮＰデータ上で実行されてもよい。他の実施形態では、この方法は、複数の（２以上の）ＳＮＰを含むゲノムの短い領域であるマイクロハプロタイプからのデータ上で実行することができ、それによって、３つ以上のアレルの組み合わせが提示される。なおさらなる実施形態では、様々なルーチンは、１超のＳＮＰにまたがるリードを返すロングリード配列決定技術からのデータを使用して実行することができる。

【0207】

計算効率を向上させるために、一実施形態では、本方法は、まずＳＮＰレベルのデータ上で実行されて、候補βの大きなサブセットを迅速に除外することができる。次いで、この最初のステップを通過するβのみを使用して、アルゴリズムを、マイクロハプロタイプレベルのデータ上で再実行することができる。

【0208】

多数の供給源の遺伝子型およびより多数のアレルが存在する一部の場合では、可能な遺伝子型のマトリックスは、特定の用途に関して計算上難しい、非効率的、または不要なほど大きい場合がある。このような場合、検討中の各可能な混合比率ベクトルβについて、最適化アルゴリズムを通して最良適合の遺伝子型マトリックスＧを求めてもよい。

【0209】

実施例６
２つ以上の供給源に由来する核酸分子の合成混合物における性能評価：異なる生物学的供給源からの精製ＤＮＡを、４つの独立した試料（例えば、各供給源物質の異なる混合比率を有する各試料）において、指定された混合比率で予め混合し、次いでこのような混合比率を盲検化した。図２１のパネルＡ～Ｄは、供給源１～５の真の混合比率を示す棒グラフである。

【0210】

続いて、配列決定された混合物が４つの盲検試験混合物の予想される混合物を再現するかどうかを決定するために、配列決定の結果を分析し（図２１、パネルＡ～Ｄに示す）、および混合試料中に存在する低頻度／希少アレルを検出する感度があるかどうかを決定した。デュプレックス配列決定は、ヒトゲノム全体わたって散在する１７個のマイクロハプロタイプ部位を遺伝子型決定するためのプローブのパネルを使用して行った。

【0211】

図２２のパネルＡ～Ｄ（それぞれ、図２１のパネルＡ～Ｄに対応する）を参照すると、デュプレックス配列決定方法は、５つの可能性のある供給源の各々について遺伝子型が事前に分かっている場合、各混合物中の各個々の供給源を検出するための完全な感度および特異度をもたらした。例えば、図２１のパネルＤおよび図２２のパネルＤを参照すると、盲検混合物のうちの１つ（すなわち、５つ全ての供給源の混合物を含む）は、０．５％を表す供給源（供給源１）および０．０５％を表す供給源（供給源４）を含んでいた。デュプレックス配列決定方法を使用して、これらの供給源を検出し、正確に定量した（図２２、パネルＤ）。

【0212】

図２３Ａ～２３Ｄ（それぞれ、図２１のパネルＡ～Ｄに対応する）を参照すると、デュプレックス配列決定方法は、各試料の遺伝子型および可能性のある供給源の数が事前に不明な場合でも、混合比率を推定し得ることを実証した。例えば、図２３Ａ～２３Ｄは、デュプレックス配列決定を使用して、試料中で決定された各供給源の尤度および存在量を示すヒートマップのグラフである。図２４のパネルＡ～Ｄ（それぞれ、図２３Ａ～２３Ｄに対応する）で実証されるように、供給源の遺伝子型が事前に不明な場合でも、複数の供給源についてマイクロハプロタイプアレルを決定することができる（例えば、図２４のパネルＢを参照されたい。図２１のパネルＢの混合物から、３つの供給源の遺伝子型が、信頼性をもって予測されることを実証する）。

【0213】

この実施例では、デュプレックス配列決定方法を使用して、マイクロハプロタイプを使用して生物学的混合物（例えば、５個の個体／供給源由来の核酸試料の混合物）を逆重畳し得ることが実証されている。デュプレックス配列決定方法は、非常に低い頻度のアレルまで感度を提供し、複合混合物中の希少なバリアントを検出できることが実証された。

【0214】

この実施例では、デュプレックス配列決定は、核酸物質の混合物を逆重畳し、元のＤＮＡ源の存在ならびに存在量を特定するための成功裏の方法であることが実証される。したがって、デュプレックス配列決定方法は、複数の個々の試料の存在量を費用効果的に特定および評価する迅速で定量的でかつ自動化可能な方法を提供する。

【0215】

実施例７
１０万分の１の存在量で存在する遺伝子型を検出する感度を決定するための性能評価。この実施例では、混合比率を推定するために、デュプレックス配列決定方法および小さなＳＮＶパネルを使用して、８個の試料混合物を配列決定した。図２５は、試料の実際の混合比率を混合物中の試料の存在量の推定値と比較する、散布図である。点は、８個全ての試料についての各試料の推定混合比率と予想混合比率を示し、線は、９５％信頼区間を示す。点線は、同一性を示す。示されるように、デュプレックス配列決定は、存在量が１０万分の１までの感度および精度を実証する。

【0216】

実施例８
データベースに存在する遺伝子型を検出する能力を決定するための性能評価。この実施例では、試料混合物をデュプレックス配列決定方法を使用して配列決定し、元の供給源の混合比率および遺伝子型を推定した。図２６は、検出された混合物中に存在する遺伝子型の比率（実線）および少なくとも１つの偽陽性を生成するシミュレーションされた混合物の比率（破線）をプロットする線グラフである。この実施例では、２～１０個の供給源の１０００回シミュレーションした混合物からのマイクロハプロタイプのデータを、各々４個のアレルを有する１０００個の供給源および１００個のマイクロハプロタイプの遺伝子型データベースに対して照会した。２～１０個の異なる供給源の各々は、照会データベースからのものであった。この実施例の結果は、１～５％の偽陽性率を有する最大８個の供給源の混合物において、ほとんどの対象の特定につながった。

【0217】

実施例９
複数の遺伝子型を含む混合物において正確な定量を決定するための性能評価。この実施例では、５０個の異なる遺伝子型を含む試料混合物を、デュプレックス配列決定方法を使用して配列決定し、異なる遺伝子型の混合比率を推定した。図２７のパネルＡ～Ｃは、５０個の遺伝子型の３つの異なるシミュレーションされた混合物における推定対真の混合比率を示す線プロットである。黒いドットは真の比率であり、灰色の箱／ひげおよびポイントは、１０００回のシミュレーションにおける推定値の内側の四分位数と極端な外れ値である。図２７のパネルＡ～Ｃは、複合混合物中の少なくとも５０個の異なる遺伝子型が、デュプレックス配列決定を使用して正確に区別および定量され得ることを実証する。

【0218】

ＶＩ．結論
本技術の実施形態の上述の詳細な説明は、網羅的であること、または本技術を上述の正確な形態に限定することを意図するものではない。本技術の具体的な実施形態および実施例は、例示的な目的のために上に記載されているが、関連技術分野の当業者が認識するように、本技術の範囲内で様々な等価な修正が可能である。例えば、ステップは所与の順序で提示されているが、代替的な実施形態は、異なる順序でステップを行ってもよい。本明細書に記載の様々な実施形態を組み合わせて、さらなる実施形態を提供することもできる。本明細書に引用される全ての参考文献は、本明細書に完全に記載されるかのように、参照により援用される。

【0219】

上の記載から、本技術の特定の実施形態は、例示のために本明細書に記載されているが、本技術の実施形態の説明を不必要に曖昧にすることを回避するために周知の構造および機能は詳細には示されていないことを理解されたい。文脈が許容する場合、単数または複数の用語は、それぞれ複数または単数の用語も含み得る。

【0220】

さらに、「または」という単語が、２つ以上の項目のリストに関して他の項目から排他される単一の項目のみを意味するように明示的に限定されない限り、そのようなリストにおける「または」の使用は、（ａ）そのリスト内の任意の単一の項目、（ｂ）そのリスト内の全ての項目、または（ｃ）そのリスト内の項目の任意の組み合わせを含むと解釈される。加えて、「～を含む（ｃｏｍｐｒｉｓｉｎｇ）」という用語は、少なくとも列挙された特徴（複数可）を含むことを意味するように、全体を通して使用され、同じ特徴の任意のより多い数および／または追加のタイプの他の特徴が排除されない。特定の実施形態は例示のために本明細書には記載されているが、本技術から逸脱することなく様々な変更が行われ得ることも理解されたい。さらに、本技術の特定の実施形態と関連付けられた利点は、それらの実施形態の文脈で説明されているが、他の実施形態も、そのような利点を示してもよく、全ての実施形態が必ずしも本技術の範囲内に収まるような利点を示す必要はない。したがって、本開示および関連技術は、本明細書に明示的に示されていないまたは記載されない他の実施形態を包含することができる。

【図1】