特許7581191 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ イラミーナ　インコーポレーテッドの特許一覧

特許7581191短タンデム反復領域の変動を決定するための配列グラフ系ツール

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1A
1B
1C
1D
1E
1F
1G
1H
2
3
4
5
6
7

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】

(24)【登録日】2024-11-01

(45)【発行日】2024-11-12

(54)【発明の名称】短タンデム反復領域の変動を決定するための配列グラフ系ツール

(51)【国際特許分類】

G16B 30/10 20190101AFI20241105BHJP

C12Q 1/6869 20180101ALI20241105BHJP

C12N 15/11 20060101ALI20241105BHJP

C40B 40/06 20060101ALI20241105BHJP

【ＦＩ】

G16B30/10

C12Q1/6869 Z ZNA

C12N15/11 Z

C40B40/06

【請求項の数】 30

(21)【出願番号】P 2021518136

(86)(22)【出願日】2020-03-06

(65)【公表番号】

(43)【公表日】2022-04-20

(86)【国際出願番号】 US2020021550

(87)【国際公開番号】W WO2020181254

(87)【国際公開日】2020-09-10

【審査請求日】2023-02-09

(31)【優先権主張番号】62/815,322

(32)【優先日】2019-03-07

(33)【優先権主張国・地域又は機関】US

(73)【特許権者】

【識別番号】514202402

【氏名又は名称】イラミーナインコーポレーテッド

(74)【代理人】

【識別番号】100147485

【弁理士】

【氏名又は名称】杉村憲司

(74)【代理人】

【識別番号】230118913

【弁護士】

【氏名又は名称】杉村光嗣

(74)【代理人】

【識別番号】100181847

【弁理士】

【氏名又は名称】大島かおり

(72)【発明者】

【氏名】エゴールドルシェンコ

(72)【発明者】

【氏名】マイケルエーエバール

【審査官】鈴木和樹

(56)【参考文献】

【文献】米国特許出願公開第２０１５／０１９９４７４（ＵＳ，Ａ１）

【文献】国際公開第２０１６／０３８２２０（ＷＯ，Ａ１）

【文献】Adam M Szalkowski，Fast and robust multiple sequence alignment with phylogeny-aware gap placement，BMC Bioinformatics，[ONLINE]，第１３巻，第１２９号，2012年，ｐ．１－１１，[令和６年１月１９日検索]，インターネット＜ＵＲＬ：https://bmcbioinformatics.biomedcentral.com/articles/10.1186/1471-2105-13-129＞

(58)【調査した分野】(Int.Cl.，ＤＢ名)

Ｇ１６Ｂ５／００－９９／００

Ｃ１２Ｑ１／６８６９

Ｃ１２Ｎ１５／１１

Ｃ４０Ｂ４０／０６

(57)【特許請求の範囲】

【請求項1】

１つ以上の反復部分配列をそれぞれが含む２つ以上の反復配列を含むゲノム遺伝子座を遺伝子型決定するために、１つ以上のプロセッサ及びシステムメモリを備えるコンピュータを使用して実施される方法であって、
（ａ）前記１つ以上のプロセッサを使用して、試験用サンプルのペア・エンド・配列リードをデータベースから収集することと、
（ｂ）前記配列リードを参照ゲノムに整列させて、前記配列リードのゲノム座標を決定することと、配列リードのサブセットを選択することと、
（ｃ）前記１つ以上のプロセッサによって、前記ゲノム遺伝子座を表す配列グラフにより表される前記２つ以上の反復配列に選択された前記配列リードのサブセットを整列させることであって、前記配列グラフは、核酸配列を表す頂点及び前記頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、前記配列グラフは２つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は１つ以上のヌクレオチドの異なる繰り返し単位の反復を含む、配列リードを整列させることと、
（ｄ）前記１つ以上のプロセッサによって、前記１つ以上の反復配列に整列された前記配列リードを使用して、前記２つ以上の反復配列のために１つ以上の遺伝子型を決定することと、を含む、方法。

【請求項2】

前記２つ以上の反復配列のうちの１つの反復配列が、少なくとも１つの不完全に特定されたヌクレオチドを含む特定の繰り返し単位を含む、請求項１に記載の方法。

【請求項3】

前記特定の繰り返し単位が縮重コドンを含む、請求項２に記載の方法。

【請求項4】

前記配列グラフが、２つ以上の対立遺伝子のための２つ以上の代替経路を更に含む、請求項１～３のいずれか一項に記載の方法。

【請求項5】

前記２つ以上の対立遺伝子が、インデル又は置換を含む、請求項４に記載の方法。

【請求項6】

前記置換が、一塩基バリアント（ＳＮＶ）又は一塩基多型（ＳＮＰ）を含む、請求項５に記載の方法。

【請求項7】

前記２つ以上の代替経路に整列された配列リードを使用して、前記２つ以上の対立遺伝子を遺伝子型決定することを更に含む、請求項４に記載の方法。

【請求項8】

前記２つ以上の対立遺伝子を遺伝子型決定することが、前記２つ以上の対立遺伝子の確率を決定するために、確率モデルに前記２つ以上の代替経路の適用範囲を提供することを含む、請求項７に記載の方法。

【請求項9】

前記確率モデルが、前記対立遺伝子の前記適用範囲の関数として前記対立遺伝子の確率をシミュレートし、前記関数が、ポアソン分布、負の二項分布、二項分布、又はベータ二項分布から選択される、請求項８に記載の方法。

【請求項10】

前記ポアソン分布の速度パラメータが、ゲノム遺伝子座において観察されるリード長さ及び平均深度から推定される、請求項９に記載の方法。

【請求項11】

配列リードの前記サブセットが、配列グラフによって表される領域に、又はその付近で整列されたリードを含む、請求項１～１０のいずれか一項に記載の方法。

【請求項12】

配列リードの前記サブセットが、配列グラフによって表される領域に、又はその付近でマップを結合する非整列リードを含む、請求項１～１０のいずれか一項に記載の方法。

【請求項13】

配列リードの前記サブセットが、リードを不整合にすることに関して、既知のホットスポットである１つ以上のオフターゲット領域に整列されたリードを含む、請求項１～１０のいずれか一項に記載の方法。

【請求項14】

配列リードを前記配列グラフに整列することが、
前記配列リードと前記配列グラフの経路との間のｋｍｅｒ整合を見つけることと、
前記ｋｍｅｒ整合を、ノードと、１つ以上の自己ループを含む前記配列グラフのエッジとの完全な整列へと延長させることと、を含む、請求項１～１３のいずれか一項に記載の方法。

【請求項15】

配列リードを前記配列グラフに整列することが、前記整列の低信頼性末端を除去することによるグラフ縮小を含む、請求項１～１４のいずれか一項に記載の方法。

【請求項16】

配列リードを前記配列グラフに整列することが、
前記リードの部分配列を配列グラフに整列することと、
前記部分配列の整列を併合して、前記配列リードの完全な整列を形成することと、による整列併合を含む、請求項１～１５のいずれか一項に記載の方法。

【請求項17】

前記ゲノム遺伝子座の遺伝子座構造を含む遺伝子座仕様に基づいて前記配列グラフを生成することを更に含む、請求項１～１６のいずれか一項に記載の方法。

【請求項18】

前記配列リードがペア・エンド・リードを含み、動作（ｃ）が、
（ｉ）前記ペア・エンド・リード中のアンカーリード及びアンカー型リードを特定することであって、前記アンカーリードが、前記１つ以上の反復配列に整列しているリード又はその近くで整列しているリードであり、前記アンカー型リードが、前記アンカーリードと対になった非整列リードである、特定することと、
（ｉｉ）少なくとも前記アンカー型リードを使用して、前記１つ以上の反復配列に関する前記１つ以上の遺伝子型を決定することと、を含む、請求項１～１７のいずれか一項に記載の方法。

【請求項19】

動作（ｉｉ）が、前記アンカーリード及び前記アンカー型リードを使用して、前記１つ以上の反復配列に関する前記１つ以上の遺伝子型を決定することを含む、請求項１８に記載の方法。

【請求項20】

前記アンカーリードが、５ｋｂの反復配列内に整列される、請求項１８又は１９に記載の方法。

【請求項21】

前記非整列リードが、前記配列グラフに整列されることができない又は前記配列グラフへの整列が不十分なリードを含む、請求項１８～２０のいずれか一項に記載の方法。

【請求項22】

前記１つ以上の反復配列が、短タンデム反復（ＳＴＲ）配列を含む、請求項１～２１のいずれか一項に記載の方法。

【請求項23】

前記ＳＴＲの伸長が、脆弱Ｘ染色体症候群、筋萎縮性側索硬化症（ＡＬＳ）、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、又は歯状核赤核淡蒼球ルイ体萎縮症に関連する、請求項２２に記載の方法。

【請求項24】

前記試験用サンプルからペア・エンド・リードを生成するためにシーケンサを使用することを更に含む、請求項１～２３のいずれか一項に記載の方法。

【請求項25】

前記試験用サンプルを個体から抽出することを更に含む、請求項１～２４のいずれか一項に記載の方法。

【請求項26】

前記試験用サンプルが、血液サンプル、尿サンプル、唾液サンプル、又は組織サンプルである、請求項１～２５のいずれか一項に記載の方法。

【請求項27】

前記繰り返し単位が、１～５０個のヌクレオチドを含む、請求項１～２６のいずれか一項に記載の方法。

【請求項28】

前記リードが、前記１つ以上の反復配列のうちの少なくとも１つよりも短い、請求項１～２７のいずれか一項に記載の方法。

【請求項29】

システムであって、
システムメモリと、
１つ以上のプロセッサであって、
（ａ）データベースから試験用サンプルのペア・エンド・配列リードを収集し、
（ｂ）前記配列リードを参照ゲノムに整列させて、前記配列リードのゲノム座標を決定することと、配列リードのサブセットを選択することと、
（ｃ）配列グラフによって表される２つ以上の反復配列に選択された前記配列リードのサブセットを整列させ、前記配列グラフは、核酸配列を表す頂点及び前記頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、前記配列グラフは２つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は１つ以上のヌクレオチドの異なる繰り返し単位の反復を含み、
（ｄ）前記２つ以上の反復配列に整列された前記配列リードを使用して、前記２つ以上の反復配列について１つ以上の遺伝子型を決定するように構成されたプロセッサと、を備える、システム。

【請求項30】

プログラムコードを記憶する非一時的な機械可読媒体を含むコンピュータプログラムが記録された記録媒体であって、コンピュータシステムの１つ以上のプロセッサによって実行された場合に、前記コンピュータシステムに、核酸を含む試験用サンプル中の２つ以上の反復配列を含むゲノム遺伝子座を遺伝子型決定するための方法を実行させ、前記プログラムコードが、
（ａ）データベースから試験用サンプルのペア・エンド・配列リードを収集するためのコードと、
（ｂ）前記配列リードを参照ゲノムに整列させて、前記配列リードのゲノム座標を決定することと、配列リードのサブセットを選択することと、
（ｃ）配列グラフによって表される前記２つ以上の反復配列に選択された前記配列リードのサブセットを整列するためのコードであって、前記配列グラフは、核酸配列を表す頂点及び前記頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、前記配列グラフは２つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は１つ以上のヌクレオチドの異なる繰り返し単位の反復を含む、コードと、
（ｄ）前記２つ以上の反復配列に整列された前記配列リードを使用して、前記２つ以上の反復配列について１つ以上の遺伝子型を決定するためのコードと、を含む、コンピュータプログラムが記録された記録媒体。

【発明の詳細な説明】

【技術分野】

【0001】

（参照による組み込み）
ＰＣＴ出願形態は、本出願の一部として本明細書と同時に出願される。本出願が、同時に出願されたＰＣＴ出願形態で特定されたものの利益又は優先権を主張する各出願は、その全体が参照により本明細書に組み込まれる。

【背景技術】

【0002】

リピート伸長は、短タンデム反復（ＳＴＲ）多型を含む、特殊な部類のマイクロサテライト及びミニサテライトバリアントである。リピート伸長は、短タンデム反復が特定のサイズを超えて伸長する場合のそれらの不安定性に起因する動的変異としても知られている。不安定なリピート伸長によって引き起こされる遺伝病としては、とりわけ、脆弱Ｘ染色体症候群（ＦＸＳ）、ハンチントン病、及び筋萎縮性側索硬化症（ＡＬＳ）が挙げられる。

【0003】

リピート伸長を同定することは、特定の遺伝病の診断及び治療において重要である。しかし、反復配列を完全に横断しないショートリードを使用して反復配列を決定することは困難である。したがって、医学的に関連するリピート伸長を特定するために、ショートリードを使用する方法を開発することが望ましい。

【発明の概要】

【0004】

開示された実施形態は、遺伝病と関連し得る短タンデム反復配列などの反復配列を含むゲノム遺伝子座をシーケンシングするための方法、装置、システム、及びコンピュータプログラム製品に関する。本方法は、それぞれゲノム遺伝子座を表す配列グラフにリードを整列させることと、整列されたリードを使用してゲノム遺伝子座における１つ以上の反復配列を遺伝子型決定することと、を含む。配列グラフは、それぞれ、反復配列を表す少なくとも１つの自己ループを含む、有向グラフである。

【0005】

本開示の第１の態様は、反復配列を含むゲノム遺伝子座を遺伝子型決定するためのコンピュータ実装方法を提供する。本方法は、１つ以上のプロセッサ及びシステムメモリを含むコンピュータを使用して実行される。本方法は、１つ以上の反復部分配列をそれぞれ含む１つ以上の反復配列を遺伝子型決定するために使用することができる。本方法は、（ａ）１つ以上のプロセッサを使用して、試験用サンプルの配列リードをデータベースから収集することと、（ｂ）１つ以上のプロセッサによって、配列グラフによってそれぞれ表される１つ以上の反復配列に配列リードを整列させることであって、配列グラフは、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフは１つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は１つ以上のヌクレオチドの繰り返し単位の反復を含む、配列グラフによってそれぞれ表される１つ以上の反復配列に配列リードを整列させることと、（ｃ）１つ以上のプロセッサによって、１つ以上の反復配列に関する１つ以上の遺伝子型を、１つ以上の反復配列に整列させた配列リードを使用して決定することと、を含む。

【0006】

いくつかの実施形態では、１つ以上の反復配列うちの反復配列は、少なくとも１つの不完全に特定されたヌクレオチドを含む特定の繰り返し単位を含む。いくつかの実施形態では、特定の繰り返し単位は縮重コドンを含む。

【0007】

いくつかの実施形態では、１つ以上の自己ループは、２つ以上の反復部分配列を表す２つ以上の自己ループを含む。

【0008】

いくつかの実施形態では、配列グラフは、２つ以上の対立遺伝子のための２つ以上の代替経路を更に含む。いくつかの実施形態では、２つ以上の対立遺伝子はインデル又は置換を含む。いくつかの実施形態では、置換は、一塩基バリアント（ＳＮＶ）又は一塩基多型（ＳＮＰ）を含む。いくつかの実施形態では、本方法は、２つ以上の代替経路に整列された配列リードを使用して、２つ以上の対立遺伝子を遺伝子型決定することを更に含む。いくつかの実施形態では、２つ以上の対立遺伝子を遺伝子型決定することは、２つ以上の対立遺伝子の確率を決定するために、２つ以上の代替経路の適用範囲を確率モデルに提供することを含む。いくつかの実施形態では、確率モデルは、対立遺伝子の適用範囲の関数として対立遺伝子の確率をシミュレートするが、関数は、ポアソン分布、負の二項分布、二項分布、又はベータ二項分布から選択される。いくつかの実施形態では、ポアソン分布の速度パラメータは、ゲノム遺伝子座において観察されるリード長さ及び平均深度から推定される。

【0009】

いくつかの実施形態では、方法は、（ｂ）の前に、配列リードを参照ゲノムへと整列させて配列リードのゲノム座標を決定することと、それぞれが配列グラフによって表される１つ以上の反復配列と整列される配列リードとして、配列リードのサブセットを選択することと、を更に含む。いくつかの実施形態では、配列リードのサブセットは、配列グラフによって表される領域に、又はその付近で整列されたリードを含む。いくつかの実施形態では、配列リードのサブセットは、配列グラフによって表される領域に、又はその付近にマップを結合する非整列リードを含む。いくつかの実施形態では、配列リードのサブセットは、リードを不整合にすることに関して、既知のホットスポットである１つ以上のオフターゲット領域に整列されたリードを含む。

【0010】

いくつかの実施形態では、配列リードを配列グラフに整列させることは、配列リードと配列グラフの経路との間のｋｍｅｒ整合を見つけることと、ｋｍｅｒ整合を１つ以上の自己ループを含む配列グラフのノード及びエッジの完全な整列へと延長させることと、を含む。

【0011】

いくつかの実施形態では、配列リードを配列グラフに整列させることは、整列の低い信頼性という結果を排除することによるグラフの縮小を含む。

【0012】

いくつかの実施形態では、配列リードを配列グラフに整列させることは、リードの部分配列を配列グラフに整列させること、及び部分配列の配列を併合して配列リードの完全な配列を形成することによる整列併合を含む。

【0013】

いくつかの実施形態では、本方法は、ゲノム遺伝子座の遺伝子座構造を含む遺伝子座の仕様に基づいて、配列グラフを生成することを更に含む。

【0014】

いくつかの実施形態では、配列リードはペア・エンド・リードを含み、動作（ｃ）は、（ｉ）ペア・エンド・リード内のアンカーリード及びアンカー型リードを特定することであって、アンカーリードが１つ以上の反復配列に整列している又はその付近で整列しており、またアンカー型リードがアンカーリードと対になった非整列リードである、対になったエンド・リード内のアンカーリード及びアンカー型リードを特定することと、（ｉｉ）少なくともアンカー型リードを使用して１つ以上の反復配列に関する１つ以上の遺伝子型を決定することと、を含む。

【0015】

いくつかの実施形態では、動作（ｉｉ）は、アンカーリード及びアンカー型リードを使用して、１つ以上の反復配列に関する１つ以上の遺伝子型を決定することを含む。いくつかの実施形態では、アンカーリードは、約５ｋｂの反復配列内に整列される。いくつかの実施形態では、非整列リードは、配列グラフに整列されることができないリード、又は配列グラフへの整列が不十分なリードを含む。

【0016】

いくつかの実施形態では、１つ以上の反復配列は、短タンデム反復（ＳＴＲ）配列を含む。いくつかの実施形態では、ＳＴＲの伸長は、脆弱Ｘ染色体症候群、筋萎縮性側索硬化症（ＡＬＳ）、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、又は歯状核赤核淡蒼球ルイ体萎縮症に関連する。

【0017】

いくつかの実施形態では、本方法は、シーケンサを使用して、試験用サンプルからペア・エンド・リードを生成することを更に含む。

【0018】

いくつかの実施形態では、本方法は、試験用サンプルを個体から抽出することを更に含む。

【0019】

いくつかの実施形態では、試験用サンプルは、血液サンプル、尿サンプル、唾液サンプル、又は組織サンプルである。

【0020】

いくつかの実施形態では、繰り返し単位は１～５０個のヌクレオチドを含む。

【0021】

いくつかの実施形態では、リードは、１つ以上の反復配列のうちの少なくとも１つよりも短い。

【0022】

本開示の別の態様は、反復配列を含むゲノム遺伝子座を遺伝子型決定するためのシステムを提供する。いくつかの実施形態では、本システムは、システムメモリと、（ａ）１つ以上のプロセッサを使用して、データベースから試験用サンプルの配列リードを収集するように構成され、（ｂ）１つ以上のプロセッサによって、配列グラフによってそれぞれ表される１つ以上の反復配列に配列リードを整列させるように構成され、配列グラフは、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフは１つ以上の自己ループを含み、各自己ループは反復部分配列を表し、各反復部分配列は１つ以上のヌクレオチドの繰り返し単位の反復を含み、（ｃ）１つ以上のプロセッサによって、１つ以上の反復配列に関する１つ以上の遺伝子型を、１つ以上の反復配列に整列させた配列リードを使用して決定するように構成された、１つ以上のプロセッサと、を含む。

【0023】

いくつかの実施形態では、本システムはまた、試験用サンプルの核酸をシーケンシングするためのシーケンサも含む。

【0024】

いくつかの実施形態では、１つ以上のプロセッサは、本明細書に記載された種々の方法を実行するように構成されている。

【0025】

本開示の別の態様は、コンピュータシステムの１つ以上のプロセッサによって実行された場合に、反復配列を含むゲノム遺伝子座を遺伝子型決定するための上記方法をコンピュータシステムに実行させるプログラムコードを記憶する非一時的な機械可読媒体を含む、コンピュータプログラム製品を提供する。プログラムコードは、（ａ）データベースから試験用サンプルの配列リードを収集するためのコードと、（ｂ）配列グラフによってそれぞれ表される１つ以上の反復配列に配列リードを整列させるためのコードであって、配列グラフが、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフが１つ以上の自己ループを含み、各自己ループが反復部分配列を表し、各反復部分配列が１つ以上のヌクレオチドの繰り返し単位の反復を含む、コードと、（ｃ）１つ以上の反復配列に関する１つ以上の遺伝子型を、１つ以上の反復配列に整列させた配列リードを使用して決定するためのコードと、を含む。

【0026】

いくつかの実施形態では、プログラムコードは、本明細書に記載された方法の動作を実行するためのコードを含む。

【0027】

本明細書の実施例はヒトに関し、言語は主にヒトに関するものを対象としているが、本明細書に記載された概念は、任意の植物又は動物からのゲノムに適用可能である。本開示のこれらの並びにその他の目的及び特徴は、以下の説明及び添付の特許請求の範囲からより完全に明らかとなる、又は以下に記載される本開示の実施によって学習されてもよい。

【図面の簡単な説明】

【0028】

【図1A】参照配列上の反復配列に対する配列リードの整列における困難性を示す概略図である。

【図1B】図１Ａに示される困難を克服するために、特定の開示された実施形態による、ペア・エンド・リードを使用した配列リードの整列を示す概略図である。

【図1C】いくつかの実施形態による反復配列を含むゲノム遺伝子座を遺伝子型決定するためのプロセスを示す、フローチャートを示す。

【図1D】第１のゲノム遺伝子座を表す第１の配列グラフを示す。

【図1E】第２のゲノム遺伝子座を表す第２の配列グラフを示す。

【図1F】第３のゲノムを表す第３の配列グラフを示す。

【図1G】いくつかの実施形態による、２つのＳＴＲ配列を含むＨＴＴにおけるバリアントの遺伝子型を決定するためのプロセスの、概略図を示す。

【図1H】いくつかの実施形態による、ＳＮＶ及びＳＴＲを含むＬｙｎｃｈＩ遺伝子座におけるバリアントの遺伝子型を決定するためのプロセスの、概略図を示す。図１Ｈの左側パネルは、標的遺伝子型決定のための一般的なプロセスの概略図を示し、右側のパネルは、ＬｙｎｃｈＩ症候群に関連する遺伝子座においてバリアントを遺伝子型決定するための本プロセスの適用を示す。

【図2】サンプル中の反復配列の伸長の有無を決定するための方法の一例の、高レベル描写を提供するフロー図である。

【図3】ペア・エンド・リードを使用してリピート伸長を検出するための方法の例を示すフロー図である。

【図4】ペア・エンド・リードを使用してリピート伸長を検出するための方法の例を示すフロー図である。

【図5】リピート伸長を決定するために、対象とする任意の反復配列に関連していない非整列リードを使用する方法のフロー図である。

【図6】試験用サンプルを処理するための分散システムのブロック図である。

【図7】異なる方法を使用して、ＨＴＴ遺伝子座においてＣＡＧ及びＣＣＧＳＴＲを遺伝子型決定することの正確性を示す。

【発明を実施するための形態】

【0029】

本開示は、医学的に有意である反復配列の伸長など、対象とするリピート伸長を特定するための方法、装置、システム、及びコンピュータプログラム製品に関する。リピート伸長の例としては、脆弱Ｘ染色体症候群、ＡＬＳ、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、及び歯状核赤核淡蒼球ルイ体萎縮症などの遺伝病に関連した伸長が挙げられるが、これらに限定されない。

【0030】

特に指示がない限り、本明細書に開示された方法及びシステムの実施は、分子生物学、微生物学、タンパク質精製、タンパク質工学、タンパク質及びＤＮＡシーケンシングに一般的に使用される従来の技術及び装置、並びに当該技術分野の範囲内にある組み換えＤＮＡ分野を含む。このような技術及び装置は当業者に既知であり、多数のテキスト及び参照研究（例えば、Ｓａｍｂｒｏｏｋｅｔａｌ．，「ＭｏｌｅｃｕｌａｒＣｌｏｎｉｎｇ：ＡＬａｂｏｒａｔｏｒｙＭａｎｕａｌ」ＴｈｉｒｄＥｄｉｔｉｏｎ（ＣｏｌｄＳｐｒｉｎｇＨａｒｂｏｒ），［２００１］を参照されたい）、及びＡｕｓｕｂｅｌらの「ＣｕｒｒｅｎｔＰｒｏｔｏｃｏｌｓｉｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙ」［１９８７］）に記載されている。

【0031】

数値範囲は、その範囲を定義する数字を含む。本明細書全体を通して与えられる全ての最大数値制限は、そのようなより低い数値制限が本明細書に明示的に記載されているかのように、より低いあらゆる数値限定を含むことが意図される。本明細書全体を通して与えられる全ての最小数値限定は、そのようなより高い数値制限が本明細書に明示的に記載されているかのように、より高いあらゆる数値限定を含む。本明細書全体を通して与えられるあらゆる数値範囲は、そのようなより狭い数値範囲が全て本明細書に明示的に記載されているかのように、そのようなより広い数値範囲内に入るより狭いあらゆる数値範囲を含む。

【0032】

本明細書で提供される見出しは、本開示を制限することを意図しない。

【0033】

本明細書で特に定義されない限り、本明細書で使用される全ての技術用語及び科学用語は、当業者によって一般的に理解されるものと同じ意味を有する。本明細書に含まれる用語を含む種々の科学的辞書は、当該技術分野において既知であり、利用可能である。本明細書に記載されるものと同様又は同等の任意の方法及び材料を、本明細書に開示された実施形態の実施又は試験に使用することができることが見出されているが、いくつかの方法及び材料が記載されている。

【0034】

以下に定義される用語は、全体として明細書を参照することによってより完全に記載される。本開示は、当業者によって使用される文脈に応じて変更され得るので、記載される特定の方法論、プロトコル、及び試薬に限定されないことを理解されたい。
定義

【0035】

本発明で使用する場合、単数形「ａ」、「ａｎ」、及び「ｔｈｅ」は、文脈がそうでないことを明確に示さない限り、複数の参照を含む。

【0036】

特に指示がない限り、核酸は、５’～３’の配向で左から右に書かれ、アミノ酸配列はそれぞれ、アミノからカルボキシへの配向で左から右に書かれる。

【0037】

用語「複数」とは、２つ以上の要素を意味する。例えば、本用語は、本明細書に開示された方法を使用して、試験用サンプル及び対照サンプルにおけるリピート伸長の有意差を特定するのに十分な多数の核酸分子又は配列リードに関して、本明細書で使用される。

【0038】

用語「反復配列」とは、より短い配列の反復的な発生を含む核酸配列を意味する。より短い配列は、本明細書では「繰り返し単位」と呼ばれる。繰り返し単位の反復的な発生は、繰り返し単位の「反復」又は「複製」と呼ばれる。多くの文脈において、反復配列の位置は、タンパク質をコードする遺伝子と関連付けられる。その他の状況では、反復配列は非コード領域内にあってもよい。繰り返し単位は、繰り返し単位間の破断を有する又は有さない反復配列において生じ得る。例えば、正常なサンプルでは、ＦＭＲ１遺伝子は、ＣＧＧ反復において、例えば、（ＣＧＧ）１０＋（ＡＧＧ）＋（ＣＧＧ）９などのＡＧＧの破断を含む傾向がある。破断を含まないサンプル、並びに若干の破断を有する長い反復配列は、関連する遺伝子のリピート伸長を繰り返しやすく、これは、反復が特定の数を上回って伸長する際に遺伝病につながる可能性がある。本開示の種々の実施形態では、反復の数は、破断に関わらず、フレーム内反復として計数される。フレーム内反復を推定するための方法を、以下に更に記載する。

【0039】

種々の実施形態では、繰り返し単位は、１～１００個のヌクレオチドを含む。広く研究されている多くの繰り返し単位は、トリヌクレオチド又はヘキサンヌクレオチド単位である。十分に研究され、かつ本明細書に開示された実施形態に適用可能ないくつかのその他の繰り返し単位としては、４，５，６，８，１２，３３又は４２ヌクレオチドの単位が挙げられるが、これらに限定されない。例えば、Ｒｉｃｈａｒｄｓ（２００１）ＨｕｍａｎＭｏｌｅｃｕｌａｒＧｅｎｅｔｉｃｓ，１０，Ｎｏ．２０，２１８７－２１９４を参照されたい。本開示の用途は、それらが繰り返し単位の複数の反復又は複製を有する反復配列と比較して比較的短い限り、上記の特定の数のヌクレオチド塩基に限定されない。例えば、繰り返し単位は、少なくとも３，６，８，１０，１５，２０，３０，４０，５０個のヌクレオチドを含むことができる。代替的に又は追加的に、繰り返し単位は、最大で約１００，９０，８０，７０，６０，５０，４０，３０，２０，１０，６又は３ヌクレオチドを含むことができる。

【0040】

反復配列は、進化、発達、及び突然変異条件で伸長され得、同じ繰り返し単位の複製をより多く作成することができる。これは、フィールド内で「リピート伸長」と呼ばれる。本プロセスはまた、繰り返し単位の伸長の不安定な性質に起因する「動的変異」とも呼ばれる。いくつかのリピート伸長は、遺伝病及び病理学的症状に関連することが示されてきた。その他のリピート伸長は、十分に理解又は研究されていない。本明細書に開示された方法を使用して、既知及び新規のリピート伸長の両方を特定し得る。いくつかの実施形態では、リピート伸長を有する反復配列は、約１００，１５０，３００又は５００塩基対（ｂｐ）よりも長い。いくつかの実施形態では、リピート伸長を有する反復配列は、約１０００ｂｐ、２０００ｂｐ、３０００ｂｐ、４０００ｂｐ、５０００ｂｐ、又は１００００ｂｐ等よりも長い。

【0041】

グラフ理論では、頂点及びエッジは、そのグラフが構築される２つの基本単位である。頂点又はノードは、グラフが画定され、エッジによって接続され得る点のうちの１つである。グラフの図では、頂点は標識を有する形状によって表すことができ、エッジは、１つの頂点から別の頂点まで延在する線（非有向エッジ）又は矢印（有向エッジ）によって表される。

【0042】

エッジによって接続された２つの頂点は、エッジの端点であると言われている。グラフがエッジ（ｘ、ｙ）を含む場合、頂点ｘは、別の頂点ｙに隣接すると言われている。

【0043】

対象とされていないグラフは、頂点のセット及び（非規則的な頂点の対を接続する）１組の非有向エッジとからなり、一方、有向グラフは、頂点のセット及び（規則的な頂点の対を接続する）１組の有向エッジからなる。

【0044】

グラフ理論では、各エッジは、その端点と呼ばれる、取り付けられた２つの（又はハイパーグラフではより多くの）頂点を有する。エッジは、有向又は非有向であってもよい。対象とされていないエッジはまた線とも呼ばれ、有向エッジは円弧又は矢印とも呼ばれる。

【0045】

有向エッジは、上流頂点と下流頂点とを接続するエッジであり、上流頂点は有向エッジの前に出現し、下流頂点は有向エッジの後に出現する。

【0046】

対象とされていないエッジは２つの頂点を接続するエッジであり、いずれの頂点も、グラフ経路内で他方の前に出現し得る。

【0047】

ループ、自己ループ、及び単一ノードループは、本明細書では同じ意味で使用される。ループは、１つのノードと、両端が１つのノードに接続された末端と、を有する。

【0048】

サイクルは２つ以上の頂点を含む経路であり、サイクルの経路は同じ頂点で開始及び終了する。単純なサイクルは、開始頂点及び終了頂点以外の反復頂点又はエッジを有さないサイクルである。

【0049】

環式グラフは、少なくとも１サイクルを含むグラフである。

【0050】

非環式グラフは、任意のサイクル又は自己ループを含まないグラフである。

【0051】

対象とする非環式グラフ（ＤＡＧ）は、任意のサイクル又は自己ループを有さない有向グラフである。

【0052】

グラフ経路は、頂点及びエッジの配列であり、エッジの両端点は、配列のエッジに隣接して出現する。有向グラフのグラフ経路は、有向エッジ（又は円弧若しくは矢印）の前に出現する上流頂点と、有向エッジの後に出現する下流頂点と、を有する。

【0053】

ポアソン分布は、これらの事象が既知の定数レートで生じ、最後の事象からの時間とは無関係に発生する場合、一定の時間間隔又は空間間隔で生じる所与の数の事象の確率を表す離散確率分布である。

【0054】

完全に指定された塩基記号としては、グアニン、アデニン、チミン、及びシトシンのＧ、Ａ、Ｔ、Ｃが挙げられる。

【0055】

完全に指定されていない核酸命名法には、とりわけ、以下のようなものが挙げられる。

【0056】

プリン（アデニン又はグアニン）：Ｒ

【0057】

ピリミジン（チミン又はシトシン）：Ｙ

【0058】

アデニン又はチミン：Ｗ

【0059】

グアニン又はシトシン：Ｓ

【0060】

アデニン又はシトシン：Ｍ

【0061】

グアニン又はチミン：Ｋ

【0062】

アデニン又はチミン又はシトシン：Ｈ

【0063】

グアニン又はシトシン又はチミン：Ｂ

【0064】

グアニン又はアデニン又はシトシン：Ｖ

【0065】

グアニン又はアデニン又はチミン：Ｄ

【0066】

グアニン又はアデニン又はチミン又はシトシン：Ｎ

【0067】

用語「ペア・エンド・リード（paired end reads）」とは、核酸断片の各末端から１つのリードを取得する、ペアード・エンド・シーケンシング（paired end sequencing）から得られるリードを意味する。ペアード・エンド・シーケンシングは、インサートと呼ばれる、配列にＤＮＡを断片化することを含む。Ｉｌｌｕｍｉｎａによって使用されるいくつかのプロトコルでは、より短いインサートからのリード（例えば、約１０～数百ｂｐ）は、短いインサートのペア・エンド・リード、又は単純にペア・エンド・リードと呼ばれる。対照的に、より長いインサートからのリード（例えば、約数千ｂｐ）は、メイト・ペア・リード（mate pair reads）と呼ばれる。本開示では、短いインサートのペア・エンド・リード及び長いインサートのメイト・ペア・リードが両方とも使用されてもよく、リピート伸長を分析するためのプロセスに関して区別されない。したがって、用語「ペア・エンド・リード」は、短いインサートのペア・エンド・リード及び長いインサートのメイト・ペア・リードの両方を意味する場合もあり、これは、本明細書で後に更に記載される。いくつかの実施形態では、ペア・エンド・リードは、約２０ｂｐ～１０００ｂｐのリードを含む。いくつかの実施形態では、ペア・エンド・リードは、約５０ｂｐ～５００ｂｐ、約８０ｂｐ～１５０ｂｐ、又は約１００ｂｐのリードを含む。ペア・エンドの２つのリードは、配列決定される断片の一番端の末端に位置する必要のないことが、理解されるであろう。むしろ、１つ又は両方のリードは、断片の末端に近接することができる。更に、ペア・エンド・リードの文脈において本明細書に例示される方法は、断片の末端部又は断片のその他の部分からリードが誘導されるどうかとは無関係に、種々のペア・リードのいずれかと共に実行することができる。

【0068】

本発明で使用する場合、用語「整列」、「整列している」とは、リードを参照配列と比較し、それによって、参照配列がリード配列を含むかどうかを決定するプロセスを意味する。整列プロセスは、リードが参照配列に位置づけられ得るかどうかを決定しようとするが、常にリードが参照配列に整列されているわけではない。参照配列がリードを含む場合、リードは参照配列に位置づけられてもよい、又は特定の別の実施形態では、参照配列内の特定の位置にマッピングされてもよい。いくつかの場合において、整列は、リードが特定の参照配列のメンバーであるか否か（すなわち、リードが参照配列中に存在するか又は存在していないか）かを単に伝える。例えば、ヒト染色体１３についての参照配列に対するリードの位置合わせは、１３番染色体の参照配列中にリードが存在するかどうかを伝える。本情報を提供するツールは、セットメンバーシップテスタ（set membership tester）と呼ばれる場合がある。場合によっては、整列は、リードマップがある参照配列内の位置を更に示す。例えば、参照配列がヒトゲノム配列全体である場合、整列は、染色体１３上にリードが存在することを示してもよく、更に、リードが染色体１３の特定の鎖及び／又は部位にあることを更に示してもよい。

【0069】

整列されたリードは、参照ゲノムなどの既知の参照配列に対するそれらの核酸分子の順序に関して整合しているとして特定される１つ以上の配列である。参照配列上の整列されたリード及びその決定された位置は、配列タグを構成する。整列は手動で行うことができるが、本明細書に開示された方法を実施するために合理的な時間周期でリードを整列させることが不可能であるため、典型的にはコンピュータアルゴリズムによって実施される。配列を整列させるアルゴリズムの一例は、ＩｌｌｕｍｉｎａＧｅｎｏｍｉｃｓＡｎａｌｙｓｉｓパイプラインの一部として分散されたヌクレオチドデータ（ＥＬＡＮＤ）コンピュータプログラムの効率的な局所整列である。あるいは、ブルームフィルタ（Bloom filter）又は同様のセットメンバーシップテスタを用いて、リードを参照ゲノムに整列させることができる。その全体が参照として本明細書に組み込まれる米国特許出願第１４／３５４，５２８号（２０１４年４月２５日出願）を参照されたい。配列リードの整合は、１００％の配列整合、又は１００％未満での整合（すなわち、完全でない整合）であり得る。

【0070】

本明細書で使用される用語「マッピング」とは、整列によって、より大きい配列、例えば、参照ゲノムにリード配列を割り当てることを意味する。

【0071】

場合によっては、２つのペア・エンド・リードの１つのエンド・リードは、参照配列の反復配列に整列されるが、一方で、２つのペア・エンド・リードのその他のエンド・リードは整列されていない。このような場合、参照配列の反復配列に整列されたペア・リードは、「アンカーリード」と呼ばれる。反復配列に整列されていないが、アンカーリードと対になったペア・エンド・リードは、アンカー型リードと呼ばれる。したがって、非整列リードは、反復配列にアンカーされ、かつ反復配列と関連付けられ得る。いくつかの実施形態では、非整列リードは、参照配列に整列されることができないリードと、参照配列への整列が不十分なリードと、の両方を含む。リードが、特定の基準よりも多くの不整合な塩基を有する参照配列に整列される場合、リードの整列が不十分であると見なされる。例えば、種々の実施形態では、少なくとも約１、２、３、４、５、６、７、８、９又は１０の不整合と整列される場合には、リードの整列が不十分であると見なされる。場合によっては、ペア・リードの両方は参照配列に整列される。このような場合、種々の実施形態では、両方のリードを「アンカーリード」として分析してもよい。

【0072】

用語「ポリヌクレオチド」、「核酸」、及び「核酸分子」は同じ意味で用いられ、１つのヌクレオチドのペントースの３’位置が、ホスホジエステル基によって次のペントースの５’位置に結合されるヌクレオチドの共有結合様の配列（すなわち、ＲＮＡに関してはリボヌクレオチド、またＤＮＡに関してはデオキシリボヌクレオチド）を意味する。ヌクレオチドは、ＲＮＡ分子及び無細胞ＤＮＡ（ｃｆＤＮＡ）分子などのＤＮＡ分子を含むがこれらに限定されない、核酸の任意の形態の配列を含む。用語「ポリヌクレオチド」は、一本鎖及び二本鎖ポリヌクレオチドを含むが、これらに限定されない。

【0073】

本明細書において、用語「試験用サンプル」とは、コピー数変化に関して評価される少なくとも１つの核酸配列を有する核酸若しくは核酸の混合物を含む生物液、細胞、組織、器官、又は生物に由来するサンプルを意味する。特定の実施形態では、サンプルは少なくとも１つの核酸配列を有し、その複製数は、変異を受けたものと思われる。このようなサンプルとしては、痰／口腔流体、羊水、血液、血液分画物、又は微細針生検サンプル、尿、腹膜流体、胸膜流体などが挙げられるが、これらに限定されない。サンプルは、多くの場合、ヒト被験体（例えば、患者）から採取されるが、検定は、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタ等を含むがこれらに限定されない任意の哺乳類のサンプルにおいて、コピー数変化（ＣＮＶ）に使用することができる。サンプルは、生物学的源から得られるように、又はサンプルの特性を修正する前処理後に、直接使用してもよい。例えば、このような前処理は、血漿を血液から調製すること、粘性流体を希釈することなどを含んでもよい。前処理の方法は、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の不活性化、試薬の添加、溶解等を含んでもよいが、これらに限定されない。このような前処理方法がサンプルに対して採用される場合、このような前処理方法は、典型的には、時々、未処理の試験用サンプル（例えば、すなわち任意のこのような前処理方法（複数可）に供されないサンプル）に比例する濃度で、対象とする核酸（複数可）が試験用サンプル中に残存するようなものである。このような「処理された（treated）」又は「処理された（processed）」サンプルは、本明細書に記載された方法に関して、依然として生物学的「試験用」サンプルであると考えられる。

【0074】

対照サンプルは、陰性対照サンプル又は陽性対照サンプルであってもよい。「陰性対照サンプル」又は「影響を受けないサンプル」とは、病原性ではない範囲内の多数の反復を有する反復配列を有することが知られている、又は予想される核酸を含むサンプルを意味する。「陽性対照サンプル」又は「影響を受けるサンプル」は、病原性である範囲内の多数の反復を有する反復配列を有することが知られている、又は予想される。陰性対照サンプル中の反復配列の反復は、通常、通常の範囲を超えて伸長されていないが、陽性対照サンプル中の反復配列の反復は、通常、通常の範囲を超えて伸長されている。したがって、試験用サンプル中の核酸は、１つ以上の対照サンプルと比較することができる。

【0075】

用語「対象とする配列」とは、本明細書において、健康な個体対疾患のある個体における配列表現の差に関連する核酸配列を意味する。対象とする配列は、疾患又は遺伝的状態で伸長される染色体上の反復配列であり得る。対象とする配列は、染色体、遺伝子、コード又は非コード配列の一部であってもよい。

【0076】

本明細書において、用語「次世代配列（ＮＧＳ）」とは、クローン的に増幅された分子及び単一核酸分子の大規模な並列シーケンシングを可能にするシーケンシング法を意味する。ＮＧＳの非限定的な例としては、リバーシブル・ダイ・ターミネータ・シーケンシング（reversible dye terminators）を用いた合成によるシーケンシング（sequencing-by-synthesis）、及びライゲーションによるシーケンシング（sequencing-by-ligation）が挙げられる。

【0077】

本明細書において、用語「パラメータ」とは、物理的特性を特徴付ける数値を意味する。しばしば、パラメータは、定量データセット及び／又は定量データセット間の数値関係を数値的に特徴付ける。例えば、染色体に位置づけられる配列タグの数と、タグがマッピングされる染色体の長さとの比（又は比の関数）は、パラメータである。

【0078】

本明細書において、用語「コール基準」とは、医学的状態を有する疑いのある生物から核酸を含有する試験用サンプルなどのサンプルを特徴付けるためのカットオフとして使用される、任意の数又は量を意味する。この閾値をパラメータ値と比較することにより、このようなパラメータ値を生じさせるサンプルが、生物が医学的状態を有する、ということを示唆するかどうかを決定してもよい。特定の実施形態では、閾値は制御データセットを使用して計算され、生物におけるリピート伸長の診断限界として機能する。いくつかの実施形態では、本明細書に開示された方法から得られた結果によって閾値を超えた場合、被験体は、リピート伸長と診断され得る。本明細書に記載された方法のための適切な閾値は、サンプル又は対照サンプルの訓練セットについて計算された値を分析することによって特定され得る。閾値はまた、シーケンシング深度、リード長さ、反復配列長等の経験的パラメータから計算することもできる。あるいは、リピート伸長を有することが知られている影響を受けたサンプルを使用して、選択された閾値が、試験用セット内の影響を受けないサンプルから影響を受けるサンプルを区別するのに有用であることを確認することもできる。閾値の選択は、ユーザが分類を行う必要があることを望む信頼度に依存する。いくつかの実施形態では、適切な閾値を特定するために使用される訓練セットは、少なくとも１０、少なくとも２０、少なくとも３０、少なくとも４０、少なくとも５０、少なくとも６０、少なくとも７０、少なくとも８０、少なくとも９０、少なくとも１００、少なくとも２００、少なくとも３００、少なくとも４００、少なくとも５００、少なくとも６００、少なくとも７００、少なくとも８００、少なくとも９００、少なくとも１０００、少なくとも２０００、少なくとも３０００、少なくとも４０００，、又はそれ以上の適格サンプルを含む。より大きい適格サンプルのセットを使用して、閾値の診断有用性を改善することが有利であり得る。

【0079】

用語「リード」とは、核酸サンプルの一部から読み取られる配列リードを意味する。典型的には、必ずしもそうではないが、リードは、サンプルにおける連続的な塩基対の短い配列を表す。リードは、サンプル部分の塩基対配列（ＡＴＣＧ）によって記号的に表されてもよい。リードが参照配列と整合する、又はその他の基準を満たすかを決定するために、メモリデバイスに記憶され、適切に処理されてもよい。リードは、シーケンシング装置から直接、又はサンプルに関する記憶された配列情報から間接的に得られてもよい。場合によっては、例えば、染色体又はゲノム領域又は遺伝子に整列され、位置づけられ得る、より大きな配列又は領域を特定するために使用することができる十分な長さ（例えば、少なくとも約２５ｂｐ）のＤＮＡ配列である。

【0080】

用語「ゲノムリード」とは、個体のゲノム全体における任意のセグメントのリードに関して使用される。

【0081】

用語「部位」とは、参照ゲノム上の固有の位置（例えば、染色体ＩＤ、染色体位置及び配向）を意味する。いくつかの実施形態では、部位は、残基、配列タグ、又は配列上のセグメントの位置であってもよい。

【0082】

本発明で使用する場合、用語「参照ゲノム」又は「参照配列」とは、対象からの特定された配列を参照するために使用され得る任意の生物又はウイルスの部分的又は完全ないずれかの特定の既知のゲノム配列を指す。例えば、ヒト被験者に使用される参照ゲノム、並びに多くのその他の生物が、ＮａｔｉｏｎａｌＣｅｎｔｅｒｆｏｒＢｉｏｔｅｃｈｎｏｌｏｇｙＩｎｆｏｒｍａｔｉｏｎａｔｎｃｂｉ．ｎｌｍ．ｎｉｈ．ｇｏｖで見出される。「ゲノム」とは、核酸配列で発現される、生物又はウイルスの完全な遺伝子情報を意味する。

【0083】

各種実施形態では、参照配列は、それに整列されたリードよりも著しく大きくてもよい。例えば、それは、少なくとも約１００倍大きい、又は少なくとも約１０００倍大きい、又は少なくとも約１０，０００倍大きい、又は少なくとも約１０^５倍大きい、又は少なくとも約１０^６倍大きい、又は少なくとも約１０^７倍大きい場合がある。

【0084】

一実施例では、参照配列は、完全長ヒトゲノムのものである。このような配列は、ゲノム参照配列と呼ばれることもある。別の例では、参照配列は、１３番染色体などの特定のヒト染色体に限定される。いくつかの実施形態では、参照Ｙ染色体は、ヒトゲノムバージョンｈｇ１９からのＹ染色体配列である。このような配列は、染色体参照配列と呼ばれることもある。参照配列のその他の例としては、その他の種のゲノム、並びに任意の種の染色体、部分染色体領域（ストランドなど）等が挙げられる。

【0085】

いくつかの実施形態では、整列のための参照配列は、リードの長さの約１～約１００倍の配列長さを有してもよい。このような実施形態では、整列及びシーケンシングは、ゲノム整列又はシーケンシング全体の代わりに標的整列又はシーケンシングと見なされる。これらの実施形態では、参照配列は、典型的には、遺伝子及び／又は対象とする反復配列を含む。

【0086】

種々の実施形態では、参照配列は、複数の個体に由来する共通塩基配列又はその他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取されてもよい。

【0087】

本明細書において、用語「臨床関連配列」とは、既知である、又は遺伝的若しくは病状に関連する又は暗示されることが疑われる核酸配列を意味する。臨床関連配列の不在又は存在を決定することは、診断を判定すること、又は医学的状態の診断を確認すること、又は疾患の発症の予後を提供するのに有用であり得る。

【0088】

用語「誘導される」とは、核酸又は核酸の混合物の文脈で使用される場合に、本明細書では、核酸が生じる源から核酸（複数可）が得られる手段を意味する。例えば、一実施形態では、２つの異なるゲノムに由来する核酸の混合物は、核酸、例えば、ｃｆＤＮＡが、壊死又はアポトーシスなどの自然発生プロセスを通じて細胞によって自然に放出されたことを意味する。別の実施形態では、２つの異なるゲノムに由来する核酸の混合物は、核酸が被験体からの２つの異なる種類の細胞から抽出されたことを意味する。

【0089】

用語「基づいて」とは、特定の定量的値を得るという文脈において使用される場合、特定の定量的値を出力として計算するための入力として別の量を使用することを意味する。

【0090】

本明細書において用語「患者サンプル」とは、患者から得られた生体サンプル、すなわち、医療用注意、ケア、又は治療の受け手を意味する。患者サンプルは、本明細書に記載されたサンプルのうちのいずれかであり得る。特定の実施形態では、患者サンプルは、非侵襲的処置、例えば、末梢血サンプル又は糞便サンプルによって得られる。本明細書に記載された方法は、ヒトに限定される必要はない。したがって、患者サンプルが非ヒト哺乳動物（例えば、ネコ、ブタ、ウマ、ウシなど）からのサンプルであり得る種々の獣医学的用途が想到される。

【0091】

本明細書において、用語「生物学的流体」とは、生物学的供給源から採取される液体を意味し、例えば、血液、血清、血漿、痰、洗浄液、脳脊髄液、尿、精液、汗、涙、唾液などを含む。本発明で使用する場合、用語「血液」、「血漿」、及び「血清」は、その分画物又はその処理された部分を明示的に包含する。同様に、サンプルが生検、綿棒、スミアなどから採取される場合、「サンプル」は、生検、綿棒、スミア等から得られる処理された画分又は部分を明示的に包含する。

【0092】

本発明で使用する場合、用語「対応する」とは、異なる対象のゲノム中に存在する核酸配列、例えば、遺伝子又は染色体を意味し、これは、異なる対象のゲノム中に存在し、必ずしも全てのゲノムに同一の配列を有さないが、対象とする配列（例えば、遺伝子又は染色体）の遺伝情報ではなく同一性を提供する役割を果たす。

【0093】

本発明で使用する場合、用語「染色体」とは、ＤＮＡ及びタンパク質成分（特にヒストン）を含むクロマチンストランドに由来する、生きている細胞の本発明の有効性を有する遺伝子キャリアを意味する。従来の国際的に認識されている個々のヒトゲノム染色体番号付けシステムが本明細書で使用される。

【0094】

本発明で使用する場合、用語「ポリヌクレオチド長」とは、配列中又は参照ゲノムの領域内の核酸モノマーサブユニット（ヌクレオチド）の絶対数を意味する。用語「染色体長」とは、例えば、ＷｏｒｌｄＷｉｄｅＷｅｂ上の｜ｇｅｎｏｍｅ｜．｜ｕｃｓｃ｜．｜ｅｄｕ／ｃｇｉ－ｂｉｎ／ｈｇＴｒａｃｋｓ？ｈｇｓｉｄ＝１６７１５５６１３＆ｃｈｒｏｍＩｎｆｏＰａｇｅ＝で見出されるヒト染色体のＮＣＢＩ３６／ｈｇ１８アセンブリに提供される、塩基対で与えられる染色体の既知の長さを指す。

【0095】

本明細書において、用語「対象」とは、哺乳動物、無脊椎動物、脊椎動物、真菌、酵母、細菌、及びウイルスなどの非ヒト被験体を意味する。本明細書の実施例はヒトに関し、言語は主にヒトに関するが、本明細書に開示された概念は、任意の植物又は動物からのゲノムに適用可能であり、獣医学、動物科学、研究所、及びこのような分野において有用である。

【0096】

本発明で使用する場合、用語「プライマー」とは、伸長生成物の合成に誘導性の条件（例えば、条件は、ヌクレオチド、ＤＮＡポリメラーゼなどの誘導剤、及び好適な温度並びにｐＨを含む）下に置かれた場合に合成の開始点として作用することができる、単離されたオリゴヌクレオチドを意味する。プライマーは、増幅における最大効率のために好ましくは一本鎖であってもよい、あるいは二本鎖であってもよい。二本鎖である場合、伸長生成物を調製するために使用される前に、最初にそのストランドを分離するように処理される。プライマーは、オリゴデオキシリボヌクレオチドであってもよい。プライマーは、誘導剤の存在下で伸長生成物の合成をプライムするのに十分な長さである。プライマーの正確な長さは、温度、プライマー源、方法の使用、及びプライマー設計に使用されるパラメータを含む多くの因子に依存する。
導入

【0097】

短タンデム反復（ＳＴＲ）は、ヒトゲノム全体にわたって遍在する。ＳＴＲ生物学の我々の理解は完全であるが、出現した証拠は、ＳＴＲが基本細胞プロセスにおいて重要な役割を果たすことを示唆している。

【0098】

リピート伸長は、ＳＴＲ多型を含む、特殊な部類のマイクロサテライト及びミニサテライトバリアントである。リピート伸長は、短タンデム反復が特定のサイズを超えて伸長する場合のそれらの不安定性に起因する動的変異としても知られている。ＳＴＲ伸長は、筋萎縮性側索硬化症、フリートライヒ運動失調（ＦＲＤＡ）、ハンチントン病（ＨＤ）、及び脆弱Ｘ染色体症候群を含む、２０超の重度の神経疾患の主要な原因である。表１は、正常なサンプルにおける反復配列とは異なる、少数の病原性リピート伸長を例示する。縦列は、反復配列に関連する遺伝子、繰り返し単位の核酸配列、通常及び病原性配列の繰り返し単位の反復数、並びにリピート伸長に関連する疾患を示す。

【表1】

【0099】

リピート伸長を含む遺伝病は、多くの点で不均質である。繰り返し単位のサイズ、伸長度、罹患した遺伝子に関する位置、及び病原機構は、疾患から疾患まで変化し得る。例えば、ＡＬＳは、染色体９のオープンリーディングフレーム７２の短いアーム上に位置するＣ９ｏｒｆ７２遺伝子におけるヌクレオチドＧＧＧＧＣＣのヘキサンヌクレオチドリピート伸長を含む。対照的に、脆弱Ｘ染色体症候群は、Ｘ染色体上の脆弱Ｘ染色体精神遅滞１（ＦＭＲ１）遺伝子に影響を及ぼすＣＧＧのトリヌクレオチド反復（トリプレット反復）の伸長に関連する。ＣＧＧ反復の伸長は、正常な神経発達に必要とされる、脆弱Ｘ染色体精神遅滞タンパク質（ＦＭＲＰ）を発現させることができなかった。ＣＧＧ反復の長さに応じて、対立遺伝子は、正常（症候群による影響を受けない）、変異前（脆弱Ｘ染色体関連疾患の危険性）、又は完全変異（通常、症候群によって影響を受ける）として分類され得る。種々の推定によれば、失調症の傾向を有する保因者においては６０～２３０個の反復、及び罹患していない個体においては５～５４個の反復であるのと比較して、罹患している個体における脆弱Ｘ染色体症候群を引き起こす変異ＦＭＲ１遺伝子では、２３０～４０００個のＣＧＧ反復が存在する。ＦＭＲ１遺伝子のリピート伸長は、約５％の自閉症患者がＦＭＲ１リピート伸長を有することが見出される故に、自閉症の原因である。ＭｃＬｅｎｎａｎ，ｅｔａｌ．（２０１１），ＦｒａｇｉｌｅＸＳｙｎｄｒｏｍｅ，ＣｕｒｒｅｎｔＧｅｎｏｍｉｃｓ１２（３）：２１６－２２４。脆弱Ｘ染色体症候群の確定的診断は、ＣＧＧ反復の数を決定するための遺伝子検査を含む。

【0100】

リピート伸長関連疾患の種々の一般的な特性が、複数の研究において特定されている。リピート伸長又は動的変異は、通常、反復数の増加として発現され、変異率は反復数に関連する。繰り返し中断の損失などの稀な事象は、伸長する可能性が増加した対立遺伝子をもたらし得るが、このような事象は、創始者事象として知られている。反復配列における反復数と、リピート伸長によって引き起こされる疾患の重症度及び／又は発症との間に関係が存在し得る。

【0101】

したがって、種々の疾患の診断及び治療において、リピート伸長を特定及びコーリングすることが重要である。しかしながら、特に反復配列を完全に横断しないリードを使用して反復配列を特定することは、種々の課題を有する。最初に、リードと参照ゲノムとの間に明確な１対１のマッピングが存在しないため、反復を参照配列に整列させることは困難である。加えて、リードが参照配列に整列されている場合であっても、リードは、医学的に関連する反復配列を完全にカバーするためには短すぎる場合が多い。例えば、リードは約１００ｂｐであってもよい。比較すると、リピート伸長は、数百～数千の塩基対に及ぶことができる。脆弱Ｘ染色体症候群では、例えば、ＦＭＲ１遺伝子は、１０００反復を超えて３０００ｂｐにわたって良好に有することができる。そのため、１００ｂｐのリードは、リピート伸長の全長を位置づけることができない。更に、ショートリードをより長い配列に組み付けることは、ショートリード対長い反復という問題を克服しない場合があるが、これは、１つのリードにおける反復と別のリード上の反復との曖昧な整列により、ショートリードをより長い配列に組み付けることが困難であるためである。

【0102】

整列は、参照配列の完全性、参照配列上のリードと部位との間の非特異的な対応、又は参照配列からの有意偏差のいずれかに起因する、情報喪失の一次原因である。リード精度に影響を及ぼす系統的なシーケンシングエラー及びその他の問題は、反復配列を検出する際の失敗の二次要因である。いくつかの実験プロトコルでは、約７％のリードは、整列されていない、又はＭＡＰＱスコアが０である。研究者がシーケンシング技術及び分析ツールを改善するために作業している場合であっても、整列できない、また整列が不十分なリードの相当量が、常に存在し得る。本明細書の方法の実施形態は、リピート伸長を特定するために、整列できない又は整列が不十分なリードに依存する。

【0103】

リピート伸長を検出するためのロングリードを使用する方法は、それ自体の課題を有する。次世代シーケンシングでは、より長いリードを使用する現在利用可能な技術は、より短いリードを使用する技術よりも、より遅く、よりエラーを有する傾向にある。更に、シーケンシング無細胞ＤＮＡなどのいくつかの用途では、ロングリードは実現可能ではない。母体血液で得られた無細胞ＤＮＡを、出生前の遺伝子診断に使用することができる。無細胞ＤＮＡは、無細胞ＤＮＡを使用した典型的には２００よりも短い断片として存在する。本明細書に記載された方法の実施形態は、医学的に関連するリピート伸長を特定するために、ショートリードを使用する。

【0104】

更に、従来の方法は、複数の反復を有する複雑な遺伝子座を取り扱うように設計されていない。このような遺伝子座の重要な例としては、ＣＣＧ反復の側面に位置するＨＤを引き起こすＣＡＧ反復、アデノシンホモポリマーの側面に位置するＦＲＤＡを引き起こすＧＡＡ反復、及びＣＴ反復の側面に位置する脊髄小脳変性症８型（ＳＣＡ８）を引き起こすＣＡＧ反復が挙げられる。更により極端な例は、伸長が筋強直性ジストロフィー２型（ＤＭ２）を引き起こすＣＮＢＰ遺伝子におけるＣＣＴＧ反復である。この反復は、多型ＴＧ及びＴＣＴＧ反復に隣接しており（Ｊ．Ｅ．Ｌｅｅ及びＣｏｏｐｅｒ２００９）、この遺伝子座へのリードの正確な整列は特に困難である。別の型の複雑な反復は、少なくとも９つの疾患に関連しているポリアラニン反復（ＳｈｏｕｂｒｉｄｇｅａｎｄＧｅｃｚ２０１２）である。ポリアラニン反復は、α－アミノ酸コドンＧＣＡ、ＧＣＣ、ＧＣＧ、又はＧＣＴの繰り返しからなる。

【0105】

バリアントの集団は、整列及び遺伝子型決定の精度に影響を及ぼし得る（Ｌｉｎｃｏｌｎｅｔａｌ．２０１９）。複雑性の低い多型配列に隣接するバリアントは、バリアント発見のための方法が、このようなゲノム領域において一貫して表される又は偽のバリアントコールのクラスタを出力し得るため、更に問題となり得る。これは、一部には、シーケンシングデータにおけるこのような領域のエラー率の上昇に起因する（ＢｅｎｊａｍｉｎｉａｎｄＳｐｅｅｄ２０１２；Ｄｏｌｚｈｅｎｋｏｅｔａｌ．２０１７）。一実施例は、Ｌｙｎｃｈ症候群Ｉを引き起こす、ＭＳＨ２におけるアデノシンホモポリマーに隣接する一塩基バリアント（ＳＮＶ）である（Ｆｒｏｇｇａｔｔｅｔａｌ．１９９９）。

【0106】

本明細書に開示された実施形態は、上記のような複雑な遺伝子座を取り扱うことができる。これらは、各標的遺伝子座の一般的かつ自在的モデルとして配列グラフを使用する。

【0107】

いくつかの実施形態では、開示された方法は、ペア・エンド・シーケンシングを利用することによって、リピート伸長を特定及びコーリングする際の前述の課題に対処する。ペアード・エンド・シーケンシングは、インサートと呼ばれる、配列にＤＮＡを断片化することを含む。Ｉｌｌｕｍｉｎａによって使用されるいくつかのプロトコルでは、より短いインサートからのリード（例えば、約１０～数百ｂｐ）は、短いインサートのペア・エンド・リード、又は単純にペア・エンド・リードと呼ばれる。対照的に、より長いインサートからのリード（例えば、約数千ｂｐ）は、メイト・ペア・リード（mate pair reads）と呼ばれる。上述のように、ショートインサートのペア・エンド・リード及びロングインサートのメイト・ペア・リードは、両方とも、本明細書に開示された方法の種々の実施形態において使用されてもよい。

【0108】

図１Ａは、特にリピート伸長を有する長い反復配列のサンプルから得られた配列リードを整列させる場合に、参照配列上の反復配列に配列リードを整列させる際の特定の困難を示す概略図である。図１Ａの底部には、垂直のハッチ線によって示される比較的短い反復配列１０３を有する参照配列１０１が存在する。図の中間では、垂直のハッチ線によっても示される、リピート伸長を有する長い反復配列１０７を有する患者サンプルの仮定的な配列１０５が存在する。図の最上部には、サンプル配列１０５の対応する部位の位置に示される配列リード１０９及び１１１が示されている。例えば、リード１１１などの、これらの配列リードの一部では、いくつかの塩基対は長い反復配列１０７から生じ、垂直のハッチ線によっても示されるように、円で強調されている。これらの反復を有するリード１１１は、反復が参照配列１０１上の明確な対応位置を有さないため、参照配列１０１に整列することが潜在的に困難である。これらの潜在的な非整列リードは、参照配列１０１中の反復配列１０３と明確に関連付けることができないため、これらの潜在的な非整列リード１１１から反復配列に関する情報及び反復配列の伸長を得ることは困難である。更に、これらのリードはリピート伸長を有する長い反復配列１０７よりも短い傾向があるため、反復配列１０７の同一性又は位置についての明確な情報を直接提供することができない。加えて、リード１１１内の反復は、参照配列１０１上のそれらの曖昧な対応位置、及びリード１１１の間の曖昧な関係に起因して、それらを組み付けることが困難になる。半ハッチ及び半固体黒色として示される、サンプル中の長い反復配列１０７から部分的に生じるリードは、反復配列１０７の外側から生じる塩基によって整列されてもよい。反復配列１０７の外側でリードが有する塩基対が少なすぎる場合、リードの整列が不十分であり得る、又は整列されていない場合がある。そのため、部分的反復を有するこれらのリードの一部は、アンカー型リードとして分析されてもよく、その他のリードは、以下に更に記載されるように、アンカーリードとして分析されてもよい。

【0109】

図１Ｂは、図１Ａに示される困難を克服するために、いくつかの開示される実施形態において、ペア・エンド・リードがどのように利用され得るかを示す概略図である。ペア・エンド・シーケンシングでは、シーケンシングは、試験用サンプル中の核酸断片の両末端から生じる。図１Ｂの底部に示されているのは、参照配列１０１及びサンプル配列１０５、並びに図１Ａに示されるものと同等のリード１０９及び１１１である。図１Ｂの上部に示されているのは、試験用サンプル配列１０５から誘導された断片１２５、並びに、ペア・エンド・リードの２つのリード１３５及び１３７を得るための、リード１のプライマー領域１３１及びリード２のプライマー領域１３３である。断片１２５は、ペア・エンド・リードのためのインサートとも呼ばれる。いくつかの実施形態では、インサートは、ＰＣＲ有り又はＰＣＲ無しで増幅されてもよい。多数のＧＣ又はＧＣＣ反復を含むものなどのいくつかの反復配列は、ＰＣＲ増幅を含む従来の方法で良好に配列決定することができない。このような配列については、増幅はＰＣＲを含まなくてもよい。その他の配列については、ＰＣＲにより増幅を実行してもよい。

【0110】

図１Ｂに示されるインサート１２５は、図の下半分に示される２つの垂直矢印の側面に位置するサンプル配列１０５のセクションに対応する、又はそれから誘導される。具体的には、インサート１２５は、サンプル配列１０５内の長い反復１０７の一部に対応する反復セクション１２７を有する。インサートの長さは、種々の用途のために調節されてもよい。いくつかの実施形態では、インサートは、対象とする反復配列又はリピート伸長を有する反復配列よりも幾分短くてもよい。その他の実施形態では、インサートは、反復配列又はリピート伸長を有する反復配列と同様の長さを有してもよい。依然として更なる実施形態では、インサートは、反復配列又はリピート伸長を有する反復配列よりも幾分長くてもよい。このようなインサートは、以下に更に記載されるいくつかの実施形態では、メイト・ペア・シーケンシングのための長いインサートであってもよい。典型的には、インサートから得られるリードは、反復配列よりも短い。インサートはリードよりも長いため、ペア・エンド・リードは、単一のエンド・リードよりもサンプル中の反復配列のより長い伸張からより良好にシグナルを捕捉することができる。

【0111】

図示されるインサート１２５は、インサートの２つのエッジに２つのリードプライマー領域１３１及び１３３を有する。いくつかの実施形態では、リードプライマー領域は、インサートに固有である。その他の実施形態では、プライマー領域は、ライゲーション又は伸長によってインサートに導入される。インサートの左側末端には、リード１のプライマー１３２のインサート１２５へのハイブリダイゼーションを可能にする、リード１のプライマー領域１３１が示されている。リード１のプライマー１３２の伸長は、１３５として標識された、第１のリード又はリード１を生成する。インサート１２５の右側末端には、リード２のプライマー１３４のインサート１２５へのハイブリダイゼーションを可能にする、リード２のプライマー領域１３３が示されており、これは、１３７として標識された、第２のリード又はリード２を開始する。いくつかの実施形態では、インサート１２５はまた、インデックスバーコード領域（ここでは図示せず）もまた含んでもよく、マルチプレックス・シーケンシングプロセスにおいて異なるサンプルを特定する機構を提供してもよい。いくつかの実施形態では、ペア・エンド・リード１３５及び１３７は、合成プラットフォームによるＩｌｌｕｍｉｎａのシーケンシングによって得ることができる。このようなプラットフォーム上に実施されるシーケンシングプロセスの一例は、以降、配列方法の節で更に記載されるが、本プロセスは、２つのペア・エンド・リード及び２つのインデックスリードを作成する。

【0112】

次に、図１Ｂに示すように、得られたペア・エンド・リードは、比較的短い反復配列１０３を有する参照配列１０１に整列されてもよい。このように、一対のリードの相対位置及び方向が既知である。これにより、円１１１に示されるものなどの整列不可能又は整列が不十分なリードが、図１Ｂの底部に見られるように、リードの対応するペア・リード１０９を通して、サンプル配列１０５内の比較的長い反復配列１０７と間接的に関連付けられるようにすることを可能にする。例示的実施例では、ペア・エンド・シーケンシングから得られたリードは約１００ｂｐであり、インサートは約５００ｂｐである。本例示的設定では、２つのペア・エンド・リードの相対位置は、それらの３’末端から約３００塩基対であり、それらは反対方向を有する。リード対間の関係は、一方のリードを反復領域により良好に関連付けることを可能にする。場合によっては、対の第１のリードは、参照配列上の反復領域の側面に位置する非反復配列と整列し、対の第２のリードは、参照配列に適切には整列しない。例えば、図１Ｂの下半分に示される一対のリード１０９ａ及び１１１ａを参照すると、対の左側の１つの１０９ａは第１のリードであり、右側の１つの１１１ａは第２のリードである。２つのリード１０９ａ及び１１１ａの対を考慮すると、第２のリード１１１ａが参照配列１０１に整列されることができないという事実にも関わらず、第２のリード１１１ａをサンプル配列１０５内の反復領域１０７と関連付けることができる。第１のリード１０９ａに対する第２のリード１１１ａの距離及び方向を知ることにより、長い反復領域１０７内の第２のリード１１１ａの位置を更に決定することができる。第２のリード１１１ａにおける繰り返しの間に破断が存在する場合、参照配列１０１に対する破断の位置も決定され得る。参照に整列された左側のリード１０９ａなどのリードは、本開示のアンカーリードと呼ばれる。参照配列に整列されていないが、アンカーリードと対になった右側の１つの１１１ａなどのリードは、アンカー型リードと呼ばれる。したがって、非整列配列は、リピート伸長にアンカーされ、これに関連付けられ得る。このようにして、長いリピート伸長を検出するために、ショートリードを使用することができる。リピート伸長を検出する課題は、典型的には、シーケンシングの困難さのために伸長の長さと共に増加するが、本明細書に開示された方法は、より短いリピート伸長配列よりもより長いリピート伸長配列からのより高いシグナルを検出することができる。これは、反復配列又はリピート伸長がより長くなるにつれて、より多くのリードが伸長領域に固定され、より多くのリードが反復領域内に完全に入り、リード毎により多くの反復が生じ得るためである。

【0113】

いくつかの実施形態では、開示された方法は、アンカーリード及びアンカー型リード内に見出される反復の数の周波数分布を分析することを含む。いくつかの実施形態では、アンカー型リードのみが分析される。その他の実施形態では、アンカーリード及びアンカー型リードの両方が分析される。試験用サンプルの分布は、影響を受けたサンプルから影響を受けないサンプルを分離する経験的又は理論的に導出された基準と比較することができる。このようにして、試験用サンプルが考察中のリピート伸長を有するか否かを決定し、臨床的に関連するコールを行うことができる。

【0114】

本明細書に記載された方法及び装置は、次世代シーケンシング技術（ＮＧＳ）を採用することができ、これにより、大規模な並列シーケンシングを可能にする。特定の実施形態では、クローン的に増幅されたＤＮＡテンプレート又は単一のＤＮＡ分子は、（例えば、Ｖｏｌｋｅｒｄｉｎｇｅｔａｌ．ＣｌｉｎＣｈｅｍ５５：６４１－６５８［２００９］；ＭｅｔｚｋｅｒＭＮａｔｕｒｅＲｅｖ１１：３１－４６［２０１０］に記載）フローセル内で、大規模な並列様式で配列される。ＮＧＳのシーケンシング技術としては、ピロシーケンシング、リバーシブル・ダイ・ターミネータ塩基合成法（ｓｅｑｕｅｎｃｉｎｇ－ｂｙ－ｓｙｎｔｈｅｓｉｓｗｉｔｈｒｅｖｅｒｓｉｂｌｅｄｙｅｔｅｒｍｉｎａｔｏｒｓ）、オリゴヌクレオチドプローブライゲーションによるシーケンシング、及びイオン半導体シーケンシングが挙げられるが、これらに限定されない。個々のサンプルからのＤＮＡは、個々に配列決定することができる（すなわち、シングルプレックス・シーケンシング）、又は単一のシーケンシングラン上に、インデックス化されたゲノム分子として複数のサンプルからのＤＮＡをプールして（すなわち、マルチプレックス・シーケンシング）、数百万個までのＤＮＡ配列を生成することができる。本方法による配列情報を得るために使用可能なシーケンシング技術の例を、以下に更に記載する。

【0115】

ＤＮＡサンプルを使用する種々のリピート伸長分析は、シーケンサから参照配列への配列リードの整列又はマッピングを含む。参照配列は、全ゲノムの配列、染色体の配列、部分染色体領域の配列等であってもよい。計算の観点から、反復することにより整列の曖昧性が生じ、次に、染色体の計数レベル全体においてもバイアス及びエラーが生じ得る。種々の実施形態では、調節可能な挿入長さと結合されたペア・エンド・リードは、反復配列の整列における曖昧性を排除し、リピート伸長の検出を手助けすることができる。
配列グラフを使用した反復配列遺伝子座におけるバリアントの遺伝子型決定

【0116】

図１Ｃは、いくつかの実施形態による、反復配列を含むゲノム遺伝子座を遺伝子型決定するためのプロセス１４０を示すフローチャートを示す。いくつかの実施形態では、遺伝子座は、ゲノム位置及びゲノム位置における遺伝子座の構造を含有するバリアントカタログにおいてあらかじめ定義される。図１Ｄ、図１Ｅ、及び図１Ｆは、いくつかの実施形態による３つの異なる配列グラフを示す。

【0117】

図１Ｇは、いくつかの実施形態による、２つのＳＴＲ配列を含むＨＴＴにおけるバリアントの遺伝子型を決定するためのプロセスの、概略図を示す。図１Ｇパネル（ａ）は、ゲノム遺伝子座及びそれらの構造を遺伝子座の仕様として含む、バリアントカタログの一部を示す。例えば、反復を無視すると、遺伝子座ＨＴＴにおける配列は、ＣＡＧＣＡＡＣＡＧＣＧＧ（配列番号２）であり、遺伝子座ＣＮＢＰにおける配列は、ＣＡＧＧＣＡＧＡＣＡ（配列番号３）である。

【0118】

図１Ｈは、いくつかの実施形態による、ＳＮＶ及びＳＴＲを含むＬｙｎｃｈＩ遺伝子座におけるバリアントの遺伝子型を決定するためのプロセスの、概略図を示す。図１Ｈのボックス１６２は、遺伝子座仕様の一般構造を示し、ボックス１６３は、ＬｙｎｃｈＩ（ＭＳＨ２）の遺伝子座仕様の具体例を示す。

【0119】

異質型カタログでは、遺伝子座構造は、規則的な発現構文の制限されたサブセットを使用して指定される。例えば、ＨＤに結合された反復領域は、ＣＡＡＣＡＧの中断によって分離されたＣＡＧ及びＣＣＧ反復の可変数を有すると示す発現（ＣＡＧ）^＊ＣＡＡＣＡＧ（ＣＧＧ）^＊又は配列番号２（反復無視）によって定義することができる。ＦＲＤＡ領域に結合された領域は、発現（Ａ）^＊（ＧＡＡ）^＊に対応し、ＳＣＡ８に結合された領域は、（ＣＴＡ）^＊（ＣＴＧ）^＊に対応し、隣接する３つの反復からなるＤＭ２反復領域は、（ＣＡＧＧ）^＊（ＣＡＧＡ）^＊（ＣＡ）^＊又は配列番号３（反復無視）によって定義され、Ｌｙｎｃｈ症候群Ｉを引き起こすホモポリマーに隣接するＭＳＨ２ＳＮＶは、（Ａ｜Ｔ）（Ａ）^＊に対応する。

【0120】

更に、通常の発現は、多対立遺伝子、又はＩｎｔｅｒｎａｔｉｏｎａｌＵｎｉｏｎｏｆＰｕｒｅａｎｄＡｐｐｌｉｅｄＣｈｅｍｉｓｔｒｙ（ＩＵＰＡＣ）表記法（「ＮｏｍｅｎｃｌａｔｕｒｅｆｏｒＩｎｃｏｍｐｌｅｔｅｌｙＳｐｅｃｉｆｉｅｄＢａｓｅｓｉｎＮｕｃｌｅｉｃＡｃｉｄＳｅｑｕｅｎｃｅｓ．Ｒｅｃｏｍｍｅｎｄａｔｉｏｎｓ１９８４．ＮｏｍｅｎｃｌａｔｕｒｅＣｏｍｍｉｔｔｅｅｏｆｔｈｅＩｎｔｅｒｎａｔｉｏｎａｌＵｎｉｏｎｏｆＢｉｏｃｈｅｍｉｓｔｒｙ（ＮＣ－ＩＵＢ）」１９８６）を使用して特定することができる「縮重」塩基略号を含むことを可能にする。

【0121】

縮重コドンにおける塩基に対応する不完全に特定された塩基は、本明細書の縮重塩基と呼ばれる。塩基を縮重することにより、特定の部類の不完全なＤＮＡ反復を表すことができ、例えば、異なる塩基が同じ位置で生じ得る。本表記法を使用して、発現（ＧＣＮ）^＊によってポリアラニン反復をコードすることができ、ポリグルタミン反復は、発現（ＣＡＲ）^＊によりコードすることができる。

【0122】

いくつかの実施形態では、ゲノム遺伝子座に含まれる反復配列は、短タンデム反復（ＳＴＲ）配列を含む。いくつかの実施形態では、ＦＴＲの伸長は、脆弱Ｘ染色体症候群、筋萎縮性側索硬化症（ＡＬＳ）、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、又は歯状核赤核淡蒼球ルイ体萎縮症に関連する。

【0123】

プロセス１４０は、データベースから試験用サンプルの核酸配列リードを収集することを含む。ブロック１４２を参照されたい。いくつかの実施形態では、核酸配列のリードは最初に参照ゲノムに整列されているが、本明細書のプロセスは、以下に説明するように、配列リードを対象とするゲノム遺伝子座に再整列させる。代替的な実施形態では、リードは、最初に参照ゲノムに整列されることなく、配列グラフに直接整列され得る。

【0124】

プロセス１４０は、配列リードを、１つ以上の反復配列を含むゲノム遺伝子座についての配列に整列させることを含む。ブロック１４４を参照されたい。ゲノム遺伝子座の配列は、配列グラフのデータ構造を有するシステムメモリに記憶されたデータによって表される。配列グラフは、核酸配列を表す頂点、及び頂点を接続する有向エッジを有する有向グラフを含む。頂点内の核酸配列は、１つ以上の核酸塩基を含む。配列グラフは、１つ以上の自己ループを含む。各自己ループは、１つ以上の反復配列の反復配列を表す。各反復配列は、１つ以上のヌクレオチドの繰り返し単位の反復を含む。

【0125】

いくつかの実施形態では、配列リードは最初に参照ゲノムに整列されて、最初に整列したリードのサブセットが１つ以上の対象とする配列を表す１つ以上の配列グラフに整列される前に、リードのゲノム座標を決定する。いくつかの実施形態では、最初に整列されたリードは、数十～数千の領域（配列グラフに対応する各領域）におけるリピート伸長を決定する。実施形態の各実施中に配列グラフに再整列される最初に整列されたリードの総数は、数千～数百万のリードの範囲であり得る。

【0126】

いくつかの実施形態では、対象とする配列又は遺伝子座に最初に整列される、又はその付近にあるリードは、リードのサブセットとして選択され、サブセットは、次に、配列グラフによってそれぞれ表される配列を繰り返すように整列され、配列グラフは、１つ以上の反復配列を表す１つ以上の自己ループを有する。種々の実施形態では、対象とする配列又は遺伝子座から約１０、５０、１００、５００、１，０００、２，０００、３，０００、４，０００、５，０００、６，０００、７，０００、８，０００、９，０００、１０，０００、５０，０００、１００，０００塩基以内のリードは、対象とする配列又は遺伝子座付近であると考えられる。いくつかの実施形態では、対象とする遺伝子座から約１，０００、２，０００、３，０００、４，０００、５，０００、６，０００、７，０００、８，０００、９，０００又は１０，０００塩基内のリードは、対象とする遺伝子座付近にある。未加工のリードの一部は、例えば、曖昧さを残さずに整列させることが困難な反復配列を含むため、初期整列が不十分である可能性がある。いくつかの実施形態では、（例えば、整列スコアによって測定されるように）初期整列が不十分であるリードは、対象とする遺伝子座（ペア・エンド・リード対）に整列された、又はその付近に整列されたリードとそれぞれ対にされる。いくつかの実施形態では、リードを不整合にすることに関して既知のホットスポットであるオフターゲット領域に最初に整列されたリードは、配列グラフに整列される。

【0127】

図１Ｄ、図１Ｅ、及び図１Ｆは、いくつかの実施形態による３つの異なる配列グラフを示す。図１Ｄは、トリヌクレオチド繰り返し単位ＣＡＧを有する反復配列を含む第１のゲノム遺伝子座を表す、第１の配列グラフ１１００を示す。第１の配列グラフ１１００は、それぞれ２つの隣接配列を表す頂点１１０２及び１１１２を含む。第１の配列グラフはまた、トリヌクレオチド繰り返し単位ＣＡＧを含む反復配列を表す頂点１１０６を含む。第１の配列グラフは、頂点１１０２（隣接配列）と頂点１１０６（ＣＡＧ反復配列）とを接続する有向エッジ１１０４を含み、方向は頂点１１０２から頂点１１０６へと進む。エッジの方向は、２つの核酸配列の相対位置を示す。第１の配列グラフはまた、頂点１１０２（隣接配列）と頂点１１０６（ＣＡＧ反復配列）とを接続する有向エッジ１１０４を含み、方向は頂点１１０２から頂点１１０６へと進む。第１の配列グラフはまた、頂点１１０６（ＣＡＧ反復配列）と頂点１１１２（隣接配列）とを接続する有向エッジ１１１０を含み、方向は頂点１１０６から頂点１１１２へと進む。第１の配列グラフはまた、反復配列が、１回以上繰り返す繰り返し単位ＣＡＧ（頂点１１０６に示される）を含むことを表す自己ループ１１０８を含む。配列グラフの開始頂点から終了頂点まで進む経路は、ゲノム遺伝子座の配列を表し、この配列は、隣接配列などの反復配列付近でヌクレオチドを含む場合がある。

【0128】

図１Ｅは、第２のゲノム遺伝子座を表す第２の配列グラフ１２００を示す。第２の配列グラフ１２００は、それぞれ２つの隣接配列を表す頂点１２０２及び１２２４を含む。第２の配列グラフはまた、トリヌクレオチド繰り返し単位ＣＡＧを含む反復配列、及び、トリヌクレオチド繰り返し単位ＣＣＧをそれぞれ含む反復配列をそれぞれ表す、頂点１２０６及び頂点１２１６を含む。第２の配列グラフは、非反復配列ＣＡＡＣＡＧを表す頂点１２１２を更に含む。第２の配列グラフは、有向エッジ１２０４、１２１０、１２１４、及び１２２０を含む。これらの有向エッジは、図示されるように、頂点１２０２、１２０６、１２１２、１２１６、及び１２２４を有向的に接続する。第２の配列グラフはまた、反復配列が、１回以上繰り返す繰り返し単位ＣＡＧ（頂点１２０６に示される）を含むことを表す自己ループ１２０８を含む。第２の配列グラフはまた、反復配列が、１回以上繰り返す繰り返し単位ＣＣＧ（頂点１２１６に示される）を含むことを表す自己ループ１２１８を含む。

【0129】

図１Ｆは、第３のゲノム遺伝子座を表す第３の配列グラフ１３００を示す。第３の配列グラフ１３００は、第２の配列グラフ１２００に類似しているが、２つの対立遺伝子ＣＡＣ及びＣＡＴを表す２つの代替経路を含む。２つの対立遺伝子は、ＳＮＶ又はＳＮＰの対立遺伝子であってもよい。有向エッジ１３１０、頂点１３１２、及び有向エッジ１３１４は、ＣＡＣの第１の対立遺伝子を表す。有向エッジ１３１６、頂点１３１８、及び有向エッジ１３２０は、ＣＡＴの第２の対立遺伝子を表す。第３の配列グラフは、頂点１３０２、１３０６、１３２２、及び１３２８を含む、第２の配列グラフにおけるものと類似した要素を含む。それはまた、反復配列ＣＡＧ反復及びＣＣＧ反復を示す自己ループ１３０８及び１３２４を含む。これは、有向エッジ１３０４及び１３２６を更に含む。

【0130】

いくつかの実施形態では、配列リードは、以下に記載される技術を使用して配列グラフに整列される。

【0131】

１．Ｋｍｅｒ指数は、配列からのｋｍｅｒを与えられた際に、そのようなｋｍｅｒが開始又は終了する全てのグラフノードを列挙することができるように、グラフ全体上に構築される。場合によっては、ｋｍｅｒは、１つのノード上で開始し得、また別のノード上で終了し得る。

【0132】

２．各グラフヒットについては、２つの部分グラフを抽出するが、１つはｋｍｅｒの順方向にあり、もう１つは逆方向にある。部分グラフは、残りのリード長さまでリピート伸長を展開するが、繰り返しが伸長されていないと仮定すると、残りのリード長さよりも、ｋｍｅｒヒットから更に離れている任意のノードを含まない。手順は、幅優先検索であり、以下を含むデータ構造を生成する。

【0133】

－部分グラフ内の全てのノード配列（伸長された反復を含む）の連結

【0134】

－スミス・ウォーターマン・アルゴリズム（smith-waterman algorithm）上のバックトラッキング時に、配列においてオフセットからノードＩＤを容易に取得することができるようなノードのインデックス

【0135】

－各ノード開始オフセットに関する、エッジが入っているノード末端のオフセット配列

【0136】

－塩基がノードの開始時にある又はノードの開始時にないかどうかを示すことが容易になるような、また先行のノードの全ての末端オフセットを列挙するような、各ノードのインデックス。

【0137】

３．整列

【0138】

－アフィンギャップを支持する。

【0139】

－上記の情報及びペナルティマトリックスを所与された、配列に関する最良スコアの整列（複数可）を見つける。

【0140】

２つの差分インターフェースが利用可能である。

【0141】

－最良の整列及び第２の最良の整列スコアが報告される。

【0142】

－最良の整列及び第２の最良の整列スコアのアレイ全体。

【0143】

整列は、候補ｋｍｅｒと整列された配列の開始との間のギャップに関してペナルティを課す、グローバル整列である。いくつかの実施形態は、２つのコンパイル時間パラメータを微調整する。

【0144】

マトリックス充填のための現在のアルゴリズムは、２つの実施形態において利用可能である。

【0145】

－Ｎ^＊Ｍの複雑性を有する連続ループ。

【0146】

－固定長さのコンパイル時間パラメータの、固定サイズのループの連続ループを１６へとデフォルトで選択することにより、ｇｃｃが、ＣＰＵ上のＳＳＥ又はＡＶＸベクトル命令を自動的に認識し、変換する。

【0147】

いくつかの実施形態では、１つ以上の反復配列の反復配列の特定の繰り返し単位は、少なくとも１つの不完全に特定されたヌクレオチドを含む。いくつかの実施形態では、特定の繰り返し単位は、縮重コドンを含む。

【0148】

いくつかの実施形態では、１つ以上の自己ループは、２つ以上の反復配列を表す２つ以上の自己ループを含む。例えば、図１Ｅ、図１Ｆ、及び図１Ｇのパネル（ｂ）を参照されたい。

【0149】

いくつかの実施形態では、配列グラフは、２つ以上の対立遺伝子のための２つ以上の代替経路を更に含む。例えば、図１Ｆ、参照番号１３１２及び１３１８を参照されたい。図１Ｈも参照すると、遺伝子座ＬｙｎｃｈＩ（ＭＳＨ２）に関する参照番号１６５及び１６７ａでは、上部経路は核酸塩基Ａの頂点を含み、下部経路は核酸塩基Ｔの頂点を含む。

【0150】

いくつかの実施形態では、２つ以上の対立遺伝子はインデル又は置換を含む。いくつかの実施形態では、置換は、一塩基バリアント（ＳＮＶ）又は一塩基多型（ＳＮＰ）を含む。例えば、図１Ｆ、参照番号１３１２及び１３１８を参照されたい。

【0151】

いくつかの実施形態では、配列リードを配列グラフに整列することは、配列リードと配列グラフの経路との間のｋｍｅｒ整合を発見することと、次に、この経路を完全な整列に延長させることと、を含む。いくつかの実施形態では、整列は、経路の周囲の部分グラフを抽出することと、部分グラフ内の任意のループを非ローリングして、有向非環式グラフを取得することと、有向非環式グラフに対する配列リードのスミス・ウォーターマン整列を実行することと、を含む。

【0152】

いくつかの実施形態では、配列リードを配列グラフに整列させることは、整列の低い信頼性という結果を排除することによるグラフの縮小を含む。リードがグラフに整列された後、本方法は、その他の類似の代替的整列を検索する。これは、元のリードを元の整列の経路と重なり合うグラフを通る経路に再整列させることによって行われる。これにより、例えば、初期整列の一方又は両方の末端が低い信頼性を有する場合を検出することができ、これは、それらが異なる方法で整列された可能性があることを示す。整列の高い信頼部及び低い信頼部を検出することが可能であることにより、どの遺伝子バリアントをリードが支持するかを正確に決定することができる。

【0153】

【0154】

いくつかの実施形態では、本プロセスはまた、ゲノム遺伝子座の遺伝子座構造を含む遺伝子座の仕様に基づいて、配列グラフを生成することを含む。いくつかの実施形態では、遺伝子座の仕様は、上記で説明したようなバリアントカタログに定義される。

【0155】

ＨＴＴ遺伝子座の配列グラフへのリード整列の概略図に関する、図１Ｇのパネル（ｂ）～（ｄ）も参照されたい。図１Ｈは、遺伝子座ＬｙｎｃｈＩ（１６５）などの、配列グラフへのリードの整列を実行するための遺伝子座分析器１６４を概略的に示す。

【0156】

プロセス１４０は、配列グラフに整列された配列リードを使用して、１つ以上の反復配列の１つ以上の遺伝子型を決定することを更に含む。ブロック１４０を参照されたい。ＨＴＴ遺伝子座において２つのＳＴＲ（ＣＡＧ及びＣＣＧ）を決定することを示す、図１Ｇのパネル（ｅ）も参照されたい。ＣＡＧの反復を含む左の配列は、ＣＡＧＣＡＧＣＡＧＣＡＧＣＡＧ（配列番号４）である。ＣＣＧの反復を含む左の配列は、ＣＣＧＣＣＧＣＣＧＣＣＧＣＣＧ（配列番号５）である。

【0157】

図１Ｈは、Ａ／Ｔ対立遺伝子（１６９ａ）及びＡモノマー反復（１６９ｂ）を有するＳＮＶを含むＬｙｎｃｈＩ遺伝子座におけるバリアントを決定するための、バリアント遺伝子型決定器モジュール（１６８）を示す。図１Ｈはまた、配列整列データをキュレーティングし、それらをバリアント遺伝子型決定器（１６８）に提供するためのバリアント分析器モジュール（１６６）、及び、Ａ／Ｔ対立遺伝子（１６７ａ）及びＡモノマー反復（１６７ｂ）を有するＳＮＶのためのバリアント分析器の実施例を示す。遺伝子型から得られる遺伝子座結果は、図１Ｈのボックス１７０に示され、具体的には、Ａ／Ｔ対立遺伝子（１７１ａ）及びＡモノマー反復（１７１ｂ）を有するＳＮＶの遺伝子型として示される。

【0158】

いくつかの実施形態では、配列グラフは、２つの対立遺伝子のための２つの代替経路を含み、方法は、２つ以上の代替経路に整列された配列リードを使用して２つ以上の対立遺伝子を遺伝子型決定することを更に含む。いくつかの実施形態では、２つ以上の対立遺伝子を遺伝子型決定することは、２つ以上の対立遺伝子の確率を決定するために、２つ以上の代替経路の適用範囲を確率モデルに提供することを含む。いくつかの実施形態では、確率モデルは、対立遺伝子の適用範囲の関数として対立遺伝子の確率をシミュレートするが、関数は、ポアソン分布、負の二項分布、二項分布、又はベータ二項分布から選択される。

【0159】

いくつかの実施形態では、確率関数はポアソン分布であり、その速度パラメータは、ゲノム遺伝子座において観察されるリード長さ及び平均深度から推定される。

【0160】

ポアソン系のモデルでは、対立遺伝子の確率は以下のように表される。

【0161】

Ｐ（Ｙ＝ｙ）＝（Ｃ^ｙ×ｅ^－Ｃ）／ｙ！

【0162】

ｙは、塩基のリード確率である。

【0163】

Ｃは、ゲノム遺伝子座における平均深度である。

【0164】

いくつかの実施形態では、平均深度Ｃは

【0165】

Ｃ＝ＬＮ／Ｇとして推定される。

【0166】

Ｇは、ゲノム遺伝子座の長さである。

【0167】

Ｌは、リード長さである。

【0168】

Ｎは、全てのリードの数である。
グラフツールライブラリ

【0169】

いくつかの実施形態では、基本的な配列グラフの機能性は、グラフツールライブラリ（GraphTools library）を適用する。ライブラリは、コアグラフの抽出（グラフ自体、グラフ経路、及びグラフ整列）、それらの動作、及び線形配列をグラフに整列するためのアルゴリズムを実装する。

【0170】

いくつかの実施形態では、配列グラフは、ノード及び有向エッジからなる。グラフは、自己ループ（ノードをそれ自体に接続するエッジ）を含むことが可能だが、その他のサイクルは含まない。ノードは、コア塩基及びＩＵＰＡＣ縮重塩基コードからなる配列を含む。

【0171】

グラフ経路は、経路が第１のノード上の経路の開始位置及び最後のノード上の終了位置と一緒に通過するノードの配列によって定義される。位置は、ゼロ基準の半開放座標システムを使用して特定される。ライブラリは、経路伸長及び縮小、重複チェック、及び経路併合を含む経路上での複数の動作を定義する。

【0172】

グラフ整列は、線形クエリ配列（通常、配列決定されたリード）がグラフにどのように整列されるかをコードする。いくつかの実施形態では、グラフ整列は、グラフ経路と、グラフ経路のノードに対するクエリ配列の整列を定義する線形整列の配列、とを含む。経路上の対応する動作を使用して、グラフ整列を縮小する、又はその他のグラフ整列と併合することができる。経路縮小は、信頼性が低い整列末端を除去するための機構を提供し、一方で、整列併合は、部分配列（例えば、ｋｍｅｒ）の整列からクエリ配列の完全な整列を縫い合わせるためのグラフ整列アルゴリズムによって使用される。いくつかの実施形態では、整列アルゴリズムは、クエリ配列とグラフとの間のｋｍｅｒ整合を見つけることによって動作し、次に、この整合を完全整列に伸長させる。いくつかの実施形態では、整列は、ｋｍｅｒ整合に対応する経路の周囲の部分グラフを抽出すること（プロセス内の任意のループを非ローリングすること）を含む。次に、それは、得られた有向非環式グラフに対してスミス・ウォーターマン整列を実行する。いくつかの実施形態では、アルゴリズムは、アフィンギャップペナルティを支持し、かつ、コンパイルがＳＩＭＤコードを生成することを可能にするために、定長ループ（constant-length loops）を使用して書き込まれる。

【0173】

いくつかの実施形態では、検索アルゴリズムを用いてグラフ経路を取得することができるが、検索アルゴリズムは、整列が検索基準又は収束に達する（例えば、整列スコアが最大になる）まで、自己ループによって表される繰り返し単位の反復数を増加又は減少させることによって、経路を伸長又は縮小することを伴う。

【0174】

いくつかの実施形態では、複数のグラフ経路は、配列グラフから生成され、各グラフ経路は、自己ループによって表される繰り返し単位の特定の反復数を表す。クエリ配列は、複数のグラフ経路に整列され、次に、整列基準を満たす経路は、グラフ整列のために選択される。
アプリケーション・アーキテクチャ

【0175】

いくつかの実施形態は、標的型バリアント遺伝子型決定のための一般的なツールとして設計される（図１Ｈ）。各実行中、プログラムは、バリアントのセットを遺伝子型にするように試みる。

【0176】

バリアントカタログファイルに記載されている。互いに近接して位置するバリアントは、同じ遺伝子座にグループ化される。遺伝子座構造は、規則的な発現（ＲＥ）構文の制限されたサブセットを使用して指定される。Ｒｅｓは、コア塩基略号及びＩＵＰＡＣ縮重塩基コードからなるアルファベットの上に配列を含み、場合により、配列の中断によって分離される、１つ以上の発現（＜配列＞）？、（＜配列ａ＞｜＜配列ｂ＞）、（＜配列＞）^＊、（＜配列＞）＋を含有しなければならない。これらの表現は、挿入／欠失、置換、０回以上反復する配列、及びそれぞれ少なくとも１回反復する配列に対応する。更に、各遺伝子座の説明は、各構成バリアントの遺伝子座及び基準座標のための１組の参照領域を含む。

【0177】

作業のバルクは、初期化中に対応するＲＥからの遺伝子座を表す配列グラフを合成する遺伝子座分析器（Locus Analyzer）クラスの対象物によって、調和を保ちながら編成される。初期化後、遺伝子座分析器は、それらをグラフに整列させ、次に、得られた整列を、遺伝子座に含まれる各バリアントについて定義されるバリアント分析器（Variant Analyze）に通過させることによって、関連するリードを処理する。バリアント分析器は、関連するバリアントを遺伝子型決定するために関連する情報を抽出し、それを実際の遺伝子型決定を実行する遺伝子型決定器に通過させる。次に、各遺伝子型決定器によって出力された結果を使用して、出力ＶＣＦファイルを作成する。

【0178】

例えば、ＬｙｎｃｈＩ症候群に関連する病原性バリアントによる遺伝子座の処理に関与する遺伝子座分析器は、ＳＮＶ分析器及びＳＴＲ分析器（図Ｓ１、右パネル）を利用する。
インデル遺伝子型決定器

【0179】

いくつかのＳＴＲは、近くに小さい挿入又は欠失（インデル）を有する場合がある。このようなインデルは、ＳＴＲの隣接配列における追加の部分グラフとしてモデル化される。各対立遺伝子（又はグラフ経路）に位置づけられたリードの数は、ポアソン分布でモデル化され、その速度パラメータは、遺伝子座において観察される平均深度及びリード長さから推定される。遺伝子型の尤度は、ベイズフレームワーク下で計算される。
リピート伸長の特定

【0180】

本明細書に開示された実施形態を使用すると、従来の方法と比較して高い効率、感度、及び／又は選択性を有するリピート伸長に関連する、種々の遺伝的条件を決定することができる。本発明のいくつかの実施形態は、反復配列を完全に横断しない配列リードを使用して、脆弱Ｘ染色体症候群において精神遅滞を引き起こすＣＧＧリピート伸長などの医学的に関連するリピート伸長を特定及びコーリングするための方法を提供する。１００ｂｐのリードなどのショートリードは、多くのリピート伸長を介して配列するのに十分な長さではない。しかしながら、開示された方法で分析された場合、リピート伸長を有するサンプルは、多数の反復配列を含有する統計的に有意な過剰のリードを示す。加えて、非常に大きいリピート伸長は、両方のリードが反復配列から完全に又はほぼ完全に構成される、非整列リード対を含む。標準サンプルを使用して、バックグラウンド予想を特定する。

【0181】

従来の確信は、反復全体に及ぶリード無しでリピート伸長を検出することができないということである。リピート伸長を検出する前のアプローチは、反復配列に及ぶのに十分な長さではないリード故に非正常であった場合に、長いリードを有する標的シーケンシングを使用する。いくつかの開示された実施形態の結果は、通常（非標的）配列データを使用し、かつ約１００ｂｐのみのリード長さを使用するために、驚くべきことにある程満たされてきたが、リピート伸長を検出すことに関して非常に高い感度をもたらす。本明細書に記載される方法は、反復配列全体の長さより短いインサート長さ（すなわち、２つの配列リード及び介在配列）を有するペア・リードを使用して、リピート伸長中の繰り返し単位の数を検出することができる。

【0182】

いくつかの実施形態によるリピート伸長の存在を決定するための方法の詳細を参照すると、図２は、サンプル中の反復配列のリピート伸長の有無を判定するための実施形態の、高レベルの描写を提供するフロー図を示す。反復配列は、繰り返し単位と呼ばれる短い配列の反復的な外観を含む核酸配列である。上記表１は、繰り返し単位の例、通常及び病原性配列の反復配列における繰り返し単位の反復数、反復配列に関連する遺伝子、並びにリピート伸長に関連する疾患の例を提供する。図２のプロセス２００は、試験用サンプルのペア・エンド・リードを取得することによって開始する。ブロック２０２を参照されたい。ペア・エンド・リードは、対象とする反復配列を含む参照配列に整列されるように処理されている。いくつかの構文では、整列プロセスは、マッピングプロセスとも呼ばれる。試験用サンプルは、核酸を含み、また以下のサンプルの節に更に記載されるような体液、組織等の形態であってもよい。配列リードは、参照配列に位置づけられる整列プロセスを受けている。本開示のその他の箇所に記載されるように、種々の整列ツール及びアルゴリズムを使用して、参照配列へのリードの整列を試みてもよい。通常、整列アルゴリズムでは、いくつかのリードは、参照配列に正常に整列されているが、一方で、その他のリードは、参照配列に正常に整列されていなくてもよい、又は参照配列に整列されていなくてもよい。参照配列に連続的に整列されたリードは、参照配列上の部位に関連する。整列されたリード及びそれらの関連部位は、配列タグとも呼ばれる。上述したように、多数の反復を含むいくつかの配列リードは、参照配列と整列させることがより困難である傾向がある。リードが、特定の基準よりも多くの不整合な塩基を有する参照配列に整列される場合、リードの整列が不十分であると見なされる。種々の実施形態では、少なくとも約１、２、３、４、５、６、７、８、９又は１０の不整合と整列される場合には、リードの整列が不十分であると見なされる。その他の実施形態では、少なくとも約５％の不整合と整列される場合には、リードの整列が不十分であると見なされる。その他の実施形態では、少なくとも約１０％、１５％、又は２０％の不整合塩基と整列される場合には、リードの整列が不十分であると見なされる。

【0183】

図２に示すように、プロセス２００は、ペア・エンド・リード内のアンカーリード及びアンカー型リードを特定するように進行する。ブロック２０４を参照されたい。アンカーリードは、対象とする反復配列に整列された、又はその近くにある、ペア・エンド・リード間のリードである。例えば、アンカーリードは、インサートの配列長よりも短い配列長によって反復配列から分離された参照配列上の位置に整列させることができる。分離長さはより短くてもよい。例えば、アンカーリードは、アンカーリードの配列長さよりも短い配列長さだけ、又はアンカーリードと、アンカーリードをアンカー型リードに接続する配列（すなわち、アンカー型リードの長さを差し引いたインサートの長さ）とが組み合わされた配列長さ未満である配列長さだけ、反復配列から分離された参照配列上の位置に、整列することができる。いくつかの実施形態では、反復配列は、繰り返し単位ＣＧＧの反復を含むＦＭＲ１遺伝子における反復配列であってもよい。通常の参照配列では、ＦＭＲ１遺伝子中の反復配列は、繰り返し単位ＣＧＧの約６～３２の反復を含む。反復が２００コピーを超えて伸長すると、リピート伸長は病原性になり、脆弱Ｘ染色体症候群を引き起こす傾向がある。いくつかの実施形態では、対象とする反復配列の１０００ｂｐ以内に整列された場合に、対象とする配列の近くでリードが整列されると考えられる。その他の実施形態では、このパラメータは、約１００ｂｐ、２００ｂｐ、３００ｂｐ、４００ｂｐ、５００ｂｐ、６００ｂｐ、７００ｂｐ、８００ｂｐ、９００ｂｐ、１５００ｂｐ、２０００ｂｐ、３０００ｂｐ、５０００ｂｐ等の範囲内などに調節されてもよい。加えて、これはまた、アンカーリードと対になったリードであるが、それらの参照配列との整列が不十分である、又は整列されることができない、アンカー型リードも特定する。不十分な整列リードの更なる詳細については、上述した通りである。

【0184】

プロセス２００は、反復配列のリピート伸長が、特定されたアンカー型リードに少なくとも部分的に基づいて、試験用サンプル中に存在する可能性があるかどうかを決定することを更に含む。ブロック２０６を参照されたい。この決定工程は、以下に更に記載されるように、種々の好適な分析及び計算を含むことができる。いくつかの実施形態では、プロセスは、特定されたアンカーリード、並びにアンカー型リードを使用して、リピート伸長が存在する可能性があるかどうかを決定する。いくつかの実施形態では、特定されたアンカー及びアンカー型リードにおける反復の数が分析され、理論的に導出された又は影響を受けた対照サンプルの経験的データから導出された１つ以上の基準と比較される。

【0185】

本明細書に記載された種々の実施形態では、反復は、フレーム内反復として得られ、同じ繰り返し単位の２つの反復が同じリードフレームに入る。リードフレームは、核酸（ＤＮＡ又はＲＮＡ）分子中のヌクレオチド配列を、連続した非重複トリプレットのセットに分割する方法である。翻訳中、トリプレットはアミノ酸をコードし、コドンと呼ばれる。したがって、任意の特定の配列は、３つの可能なリードフレームを有する。いくつかの実施形態では、反復は３つの異なるリードフレームに従って計数され、３つのカウントの最大は、読み取られる対応する反復の数であると決定される。

【0186】

追加の動作及び分析を伴うプロセスの一例を図３に示す。図３は、多数の反復を有するペア・エンド・リードを使用してリピート伸長を検出するためのプロセス３００を示す、フロー図を示す。プロセス３００は、試験用サンプルを処理するための追加の上流を含む。本プロセスは、核酸を含む試験用サンプルをシーケンシングして、ペア・エンド・リードを得ることによって開始する。ブロック３０２を参照されたい。いくつかの実施形態では、試験用サンプルは、以下のサンプル節に更に記載されるように、種々の方法で得られ、調製されてもよい。例えば、試験用サンプルは、生物学的流体、例えば、血漿、又は以下に記載される任意の好適なサンプルであってもよい。サンプルは、単純な血液引き込みなどの非侵襲的処置を使用して得ることができる。いくつかの実施形態では、試験用サンプルは、核酸分子、例えば、ｃｆＤＮＡ分子の混合物を含有する。いくつかの実施形態では、試験用サンプルは、胎児及び母体ｃｆＤＮＡ分子の混合物を含有する母体血漿サンプルである。

【0187】

シーケンシング前に、核酸をサンプルから抽出する。好適な抽出プロセス及び装置は、本明細書のその他の箇所に記載される。いくつかの実施形態では、装置は、多重化されたライブラリ及び配列データを提供するために、複数のサンプルの合計からのＤＮＡを処理する。いくつかの実施形態では、装置２０は、８つ以上の試験用サンプルからのＤＮＡを並列に処理する。以下に記載されるように、シーケンシングシステムは、抽出されたＤＮＡを処理して、コード化された（例えば、バーコード化された）ＤＮＡ断片のライブラリを生成することができる。

【0188】

いくつかの実施形態では、試験用サンプル中の核酸は、以下のシーケンシングライブラリ調製セクションに更に記載されるように、マルチプレックス・シーケンシング又はシングルプレックス・シーケンシングのためのシーケンシングライブラリを調製するために、更に処理されてもよい。サンプルが処理及び調製された後、核酸のシーケンシングは、種々の方法によって実行してもよい。いくつかの実施形態では、以下の配列方法の節に更に記載される、種々の次世代シーケンシングプラットフォーム及びプロトコルが採用されてもよい。

【0189】

特定のシーケンシングプラットフォーム及びプロトコルに関わらず、ブロック３０２において、サンプル中に含有される核酸の少なくとも一部が配列決定されて、数十万、数百万、又は数百万個の配列リード（例えば、１００ｂｐのリード）を生成する。いくつかの実施形態では、リードは、ペア・エンド・リードを含む。図５に関して以下に記載されるものなどのその他の実施形態では、ペア・エンド・リードに加えて、数百、数千、又は数十万個の塩基を含むシングル・エンド・ロングリードを使用して反復配列を決定してもよい。いくつかの実施形態では、配列リードは、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、約３５ｂｐ、約３６ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約９０ｂｐ、約９５ｂｐ、約１００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、又は約５００ｂｐを含む。技術的進歩は、５００ｂｐを超えるシングル・エンド・リードを可能にし、ペア・エンド・リードが生成された場合に、約１０００ｂｐを超えるリードを可能にすることが予想される。

【0190】

プロセス３００は、ブロック３０２から得られたペア・エンド・リードを、反復配列を含む参照配列に整列させるように進行する。ブロック３０４を参照されたい。いくつかの実施形態では、反復配列は伸長しやすい。いくつかの実施形態では、リピート伸長は、遺伝病に関連することが知られている。その他の実施形態では、反復配列のリピート伸長は、遺伝病との関連性を確立するためにこれまでは研究されていない。本明細書に開示された方法は、任意の関連する病理に関わらず、反復配列及びリピート伸長の検出を可能にする。いくつかの実施形態では、リードは、例えば、ｈｇ１８のような参照ゲノムに整列される。その他の実施形態では、リードは、参照ゲノム、例えば、染色体又は染色体セグメントの一部に整列される。参照ゲノムに固有にマップするリードは、配列タグとして知られている。一実施形態では、少なくとも約３×１０^６の限定された配列タグ、少なくとも約５×１０^６の限定された配列タグ、少なくとも約８×１０^６の限定された配列タグ、少なくとも約１０×１０^６の限定された配列タグ、少なくとも約１５×１０^６の限定された配列タグ、少なくとも約２０×１０^６の限定された配列タグ、少なくとも約３０×１０^６の限定された配列タグ、少なくとも約４０×１０^６の限定された配列タグ、又は少なくとも約５０×１０^６の限定された配列タグが、参照ゲノムに固有に位置づけるリードから得られる。

【0191】

いくつかの実施形態では、プロセスは、整列前に配列リードをフィルタリングすることができる。いくつかの実施形態では、リードのフィルタリングは、誤リード及び低品質のリードをフィルタリングするためにシーケンサに実装されたソフトウエアプログラムによって有効化される、品質フィルタリングプロセスである。例えば、Ｉｌｌｕｍｉｎａ’ｓＳｅｑｕｅｎｃｉｎｇＣｏｎｔｒｏｌＳｏｆｔｗａｒｅ（ＳＣＳ）及びＣｏｎｓｅｎｓｕｓＡｓｓｅｓｓｍｅｎｔｏｆＳｅｑｕｅｎｃｅａｎｄＶａｒｉａｔｉｏｎソフトウエアプログラムは、シーケンシング反応によって生成された原画像データを強度スコア、塩基コール、品質スコア整列、及び下流分析のための生物学的に関連する情報を提供するための追加フォーマットへと変換することにより、誤リード及び低品質リードをフィルタリングする。

【0192】

特定の実施形態では、シーケンシング装置によって生成されるリードは、電子フォーマットで提供される。整列は、以下に記載されるような計算装置を使用して達成される。個々のリードは、参照ゲノムと比較されるが、これは、多くの場合、リードが参照ゲノムに固有に対応する部位を特定するには膨大（数百万個の塩基対）である。いくつかの実施形態では、整列手順は、リードと参照ゲノムとの間の不整合を制限することが可能である。場合によっては、リードにおける１、２、３以上の塩基対は、参照ゲノム内の対応する塩基対の不整合を許容し、更にマッピングは依然として行われる。いくつかの実施形態では、リードが１、２、３、又は４以下の塩基対を有する参照配列に整列された場合、リードは、整列したリードと見なされる。それに対応して、非整列リードは、整列されることができない又は整列が不十分なリードである。整列が不十分なリードは、整列したリードよりも多くの不整合を有するリードである。いくつかの実施形態では、リードが１％、２％、３％、４％、５％、又は１０％以下の塩基対を有する参照配列に整列された場合、リードは、整列したリードと見なされる。

【0193】

ペア・エンド・リードを、対象とする反復配列を含む参照配列に整列させた後、プロセス３００は、ペア・エンド・リード間のアンカーリード及びアンカー型リードを特定する。ブロック３０６を参照されたい。上述したように、アンカーリードは、反復配列に、又はその近くで整列されたエンド・リードである。いくつかの実施形態では、アンカーリードは、反復配列の１ｋｂ以内に整列されるペア・エンド・リードである。アンカーリードは、アンカー型リードと対になっているが、上述のように、参照配列に整列され得ない又は参照配列への整列が不十分である。

【0194】

プロセス３００は、反復配列の伸長の有無を決定するために、特定されたアンカーリード及び／又はアンカー型リード内の繰り返し単位の反復数を分析する。より具体的には、プロセス３００は、アンカーリード及び／又はアンカー型リード内の多数の高カウントリードを取得するために、リード内の反復数を使用することを含む。高カウントリードは、閾値よりも多くの反復を有するリードである。いくつかの実施形態では、高カウントリードは、アンカー型リードからのみ取得される。その他の実施形態では、高カウントリードは、アンカーリード及びアンカー型リードの両方から取得される。いくつかの実施形態では、反復の数が、読み取られることが可能な反復の最大数に近い場合、リードは、高カウントリードと見なされる。例えば、リードが１００ｂｐであり、考察中の繰り返し単位が３ｂｐである場合、反復の最大数は３３である。換言すれば、最大値は、ペア・エンド・リードの長さ及び繰り返し単位の長さから計算される。具体的には、繰り返しの最大数は、リード長さを繰り返し単位の長さで除算し、数字の端数を切り下げることよって取得してもよい。本実施例では、種々の実施形態は、少なくとも約２８、２９、３０、３１、３２、又は３３の反復を有する１００ｂｐのリードを、高カウントリードとして特定してもよい。反復の数は、経験的要因及び考慮事項に基づいて、高カウントリードに関して上方又は下方に調整されてもよい。種々の実施形態では、高カウントリードの閾値は、反復の最大数の少なくとも約８０％、８５％、９０％、又は９５％である。

【0195】

次に、プロセス３００は、反復配列のリピート伸長が、高カウントリードの数に基づいて存在する可能性が高いかどうかを判定する。ブロック３１０を参照されたい。いくつかの実施形態では、分析は、取得された高カウントリードをコール基準と比較し、基準を超えた場合にリピート伸長が存在する可能性が高いと決定する。いくつかの実施形態では、コール基準は、対照サンプルの高カウントリードの分布から取得される。例えば、通常の反復配列を有する又は有することを疑われることが知られている複数の対照サンプルが分析され、上記と同様の対照サンプルについて高カウントリードが取得される。対照サンプルの高カウントリードの分布を取得することができ、特定値よりも多くの高カウントリードを有する影響を受けないサンプルの確率を推定することができる。この確率は、この特定の値に設定されたコール基準を所与して、感度及び選択性の決定を可能にする。いくつかの実施形態では、コール基準は閾値に設定され、それによって、閾値よりも多くの高カウントリードを有する影響を受けないサンプルの確率が５％未満になる。換言すれば、ｐ値は０．０５よりも小さい。これらの実施形態では、反復配列が伸長するにつれて、反復配列はより長くなり、反復配列内で完全に生じることが可能であり、より多くの高カウントリードをサンプルに対して得ることができる。種々の代替実施例では、より低めのコール基準は、閾値よりもより高い高カウントリードを有する影響を受けないサンプルの確率が約１％、０．１％、０．０１％、０．００１％、０．０００１％未満等であるように選択されてもよい。コール基準は、種々の因子に基づいて上方又は下方に調整することができ、また試験の感度又は選択性を高める必要があることが理解されるであろう。

【0196】

いくつかの実施形態では、対照サンプルからの高カウントリードの数のコール基準を経験的に取得する代わりに、又はそれに加えて、リピート伸長を決定するためにコール基準を理論的に取得してもよい。ペア・エンド・リードの長さ、リピート伸長を有する配列の長さ、及びシーケンシング深度を含む多数のパラメータを考慮して、反復内に完全に存在するリードの予測数を計算することが可能である。例えば、シーケンシング深度を使用して、整列されたゲノム内のリード間の平均間隔を計算することができる。個々のサンプルを３０ｘの深度に配列決定した場合、配列決定された全塩基は、深度を乗じたゲノムのサイズに等しい。ヒトについては、これは、約３ｘ１０^９ｘ３０＝９ｘ１０^１０になる。各リードが１００ｂｐの長さである場合、この深度を達成するために必要とされる合計９ｘ１０^８のリードが存在する。ゲノムは二倍体であるため、これらのリードの半分は１つの染色体／ハプロタイプをシーケンシングし、残りはその他の染色体／ハプロタイプをシーケンシングする。ハプロタイプ当たり、４．５×１０^８個のリードが存在し、この数で全ゲノムサイズを除算することで、各リードの開始位置間の平均間隔（すなわち、平均６．７ｂｐ毎に３ｘ１０^９／４．５ｘ１０^８＝１の平均間隔）が得られる。この数を使用して、特定の個体におけるその反復配列のサイズに基づいて、反復配列内で完全になり得るリードの数を推定することができる。反復配列の合計サイズが３００ｂｐである場合、その反復配列の最初の２００ｂｐ内で開始する任意のリードは、反復配列内で完全になり得る（最後の１００ｂｐ内で開始する任意のリードは、１００ｂｐのリード長さに基づいて、少なくとも、部分的に反復配列の外側になる）。リードが６．７ｂｐ毎に整列し得ることが予想されるため、２００ｂｐ／（６．７ｂｐ／リード）＝３０のリードが、反復配列内で完全に整列することが予想される。この数の周囲に変動性があるが、これにより、任意の伸長サイズに関して反復配列内で完全になり得る全リードを推定することが可能になる。反復配列の長さ及び本方法に従って計算された反復配列中で完全に整列した対応する予想される数のリード数を、以下の実施例１の表２に示す。

【0197】

いくつかの実施形態では、コール基準は、リード内の反復配列の最初の観察と最後の観察との間の距離から計算され、したがって、反復配列及びシーケンシングエラーにおける変異を可能にする。

【0198】

いくつかの実施形態では、プロセスは、脆弱Ｘ染色体症候群、ＡＬＳ、ハンチントン病、フリートライヒ運動失調、脊髄小脳変性症、球脊髄性筋萎縮症、筋強直性ジストロフィー、マチャド・ジョセフ病、歯状核赤核淡蒼球ルイ体萎縮症等などの遺伝病の危険性の上昇を伴うサンプルが得られる個体の診断を更に含んでもよい。このような診断は、リピート伸長が試験用サンプル中に存在する可能性が高く、また遺伝子及びリピート伸長を伴う反復配列上に存在する可能性が高い、という決定に基づいてもよい。その他の実施形態では、遺伝病が知られていない場合、いくつかの実施形態は、異常に高い反復数を検出して、疾患の遺伝的原因を新たに特定することができる。

【0199】

図４は、いくつかの実施形態による、リピート伸長を検出するための別のプロセスを示すフローチャートである。プロセス４００は、高カウントリードではなく試験用サンプルのペア・エンド・リード内の反復数を使用して、リピート伸長の存在を決定する。プロセス４００は、核酸を含む試験用サンプルをシーケンシングして、ペア・エンド・リードを得ることによって開始する。プロセス３００のブロック３０２と同等のブロック４０２を参照されたい。プロセス４００は、ペア・エンド・リードを、反復配列を含む参照配列に整列させることによって継続する。プロセス３００におけるブロック３０４と同等のブロック４０４を参照されたい。本プロセスは、ペア・エンド・リードにおけるアンカーリード及びアンカー型リードを特定することによって進行するが、アンカーリードは、反復配列に整列するリード又はその近くで整列するリードであり、アンカー型リードは、アンカーリードと対になった非整列リードである。いくつかの実施形態では、非整列リードは、参照配列に整列されることができないリードと、参照配列への整列が不十分なリードと、の両方を含む。

【0200】

アンカーリード及びアンカー型リードを特定した後、プロセス４００は、試験用サンプルからアンカーリード及び／又はアンカー型リード内の反復数を取得する。ブロック４０８を参照されたい。次に、本プロセスは、試験用サンプルから取得された全てのアンカーリード及び／又はアンカー型リードに関する反復数の分布を取得する。いくつかの実施形態では、アンカー型リードからの反復数のみが分析される。その他の実施形態では、アンカーリード及びアンカー型リードの両方の反復が分析される。次に、試験用サンプルの反復数の分布を、１つ以上の対照サンプルの分布と比較する。ブロック４１０を参照されたい。いくつかの実施形態では、プロセスは、試験用サンプルの分布が対照サンプルの分布と統計的に有意に異なる場合、反復配列のリピート伸長が試験用サンプル中に存在すると決定する。ブロック４１２を参照されたい。プロセス４００は、プロセス３００に関して上述したような、高カウントリードのみを分析するプロセスとは異なる、高カウントリード並びに低カウントリードを含むリードの反復数を分析する。

【0201】

いくつかの実施形態では、試験用サンプルの分布と対照サンプルの分布との比較は、マン・ホイットニーランク試験を使用して、２つの分布が有意に異なるかどうかを決定することを含む。いくつかの実施形態では、分析は、試験用サンプルの分布が対照サンプルに対してより高い反復数に向かってより多く傾いている場合に、試験用サンプル中にリピート伸長が存在する可能性が高いと決定し、マン・ホイットニーランク試験のｐ値は、約０．０００１又は０．００００１よりも小さい。ｐ値は、試験の選択性又は感度を改善するために必要に応じて調整され得る。

【0202】

図２～図４に関して上述されたリピート伸長を検出するためのプロセスは、アンカー型リードを使用するが、これは、対象とする反復配列に整列されたリードと対になった、非整列リードである。これらのプロセスの変形形態は、医療的に適切であり得る、新しい、これまでに特定されていないリピート伸長を発見するために、両方ともいくつかの種類の反復配列でほぼ完全に構成されている、リード対の非整列リードを介して検索することを含むことができる。本方法は、反復の正確な数を定量化するものではないが、更なる定量化のためにフラグ付けされるべき極端なリピート伸長又は異常値を特定するのに強力である。本方法をより長いロングリードと組み合わせることにより、全長で最大２００ｂｐ以上の反復を特定及び定量化の両方を行うことができる。

【0203】

図５は、リピート伸長を特定するために、対象とする任意の反復配列に関連していない非整列リードを使用するプロセス５００のフロー図を示す。プロセス５００は、リピート伸長を検出するために、ゲノム全体の非整列リードを使用してもよい。本プロセスは、核酸を含む試験用サンプルをシーケンシングして、ペア・エンド・リードを得ることによって開始する。ブロック５０２を参照されたい。プロセス５００は、ペア・エンド・リードを参照ゲノムに整列させることによって進行する。ブロック５０４を参照されたい。次に、本プロセスは、ゲノム全体に関する非整列リードを特定する。非整列リードは、参照配列に整列されることができない、又は参照配列への整列が不十分である、ペア・エンド・リードを含む。ブロック５０６を参照されたい。次に、本プロセスは、非整列リードにおける繰り返し単位の反復数を分析して、リピート伸長が試験用サンプル中に存在する可能性が高いかどうかを決定する。本分析は、任意の特定の反復配列については分かりかねるものである。分析は、種々の潜在的繰り返し単位に適用することができ、試験用サンプルからの異なる繰り返し単位の反復数を、複数の対照サンプルのものと比較することができる。上記の試験用サンプルと対照サンプルとの間の比較技術を、本分析に適用することができる。比較が、試験用サンプルが繰り返し単位の異常に多数の反復を有することを示す場合、試験用サンプルが対象の特定の反復配列のリピート伸長を含むかどうかを決定するために、追加の分析が実行されてもよい。ブロック５１０を参照されたい。

【0204】

いくつかの実施形態では、追加の分析は、医学的に適切なリピート伸長を有する長い反復配列に及ぶ可能性がある、非常に長い配列リードを含む。本追加の分析におけるリードは、ペア・エンド・リードよりも長い。いくつかの実施形態では、単一分子シーケンシング又は合成ロングリードシーケンシングを使用して、ロングリードを取得する。いくつかの実施形態では、リピート伸長と遺伝病との間の関係は、当該技術分野において既知である。しかしながら、その他の実施形態では、リピート伸長と遺伝病との間の関係は、当該技術分野において確立される必要はない。

【0205】

いくつかの実施形態では、動作５１０の非整列リードにおける繰り返し単位の反復数を分析することは、図３の動作３０８と同等の高カウント分析を含む。分析は、高カウントリードの数を取得することを含み、この高カウントリードは、閾値よりも多い反復を有する非整列リードであり、また試験用サンプル中の高カウントリードの数をコール基準と比較することを含む。いくつかの実施形態では、高カウントリードの閾値は、反復の最大数の少なくとも約８０％であり、この最大値は、繰り返し単位の長さにわたるペア・エンド・リードの長さの比率として計算される。いくつかの実施形態では、高カウントリードはまた、非整列リードと対になっており、また閾値よりも反復性を有するリードも含む。

【0206】

いくつかの実施形態では、動作５１０の更なる分析の前に、プロセスは、（ａ）非整列リードと対になっており、参照ゲノム上の反復配列上で又はその近くで整列されるペア・エンド・リードを特定することと、（ｂ）動作５１０のための対象とする特定の反復配列として反復配列を提供することと、を更に含む。次に、対象とする反復配列の更なる分析は、図２～図４に関連して上述された方法のいずれかを採用することができる。
サンプル

【0207】

リピート伸長を決定するために使用されるサンプルは、対象とする１つ以上の反復配列のリピート伸長が決定される核酸を含む任意の細胞、流体、組織、又は器官から採取されたサンプルを含むことができる。胎児の診断を伴ういくつかの実施形態では、無細胞核酸、例えば、無細胞ＤＮＡ（ｃｆＤＮＡ）を母体体液から得ることが有利である。無細胞ＤＮＡを含む無細胞核酸は、血漿、血清、及び尿を含む生物学的サンプルから当該技術分野において既知の種々の方法によって得ることができる（例えば、Ｆａｎｅｔａｌ．，ＰｒｏｃＮａｔｌＡｃａｄＳｃｉ１０５：１６２６６－１６２７１［２００８］、Ｋｏｉｄｅｅｔａｌ．，ＰｒｅｎａｔａｌＤｉａｇｎｏｓｉｓ２５：６０４－６０７［２００５］、Ｃｈｅｎｅｔａｌ．，ＮａｔｕｒｅＭｅｄ．２：１０３３－１０３５［１９９６］、Ｌｏら、Ｌｏｅｔａｌ．，Ｌａｎｃｅｔ３５０：４８５－４８７［１９９７］、Ｂｏｔｅｚａｔｕｅｔａｌ．，ＣｌｉｎＣｈｅｍ．４６：１０７８－１０８４，２０００、及びＳｕｅｔａｌ．，ＪＭｏｌ．Ｄｉａｇｎ．６：１０１－１０７［２００４］を参照されたい）。

【0208】

種々の実施形態では、サンプル中に存在する核酸（例えば、ＤＮＡ又はＲＮＡ）は、使用前に（例えば、シーケンシングライブラリを調製する前に）特異的に又は非特異的に濃縮され得る。ＤＮＡは、以下の例示的実施例における核酸の例として使用される。サンプルＤＮＡの非特異的濃縮とは、ｃｆＤＮＡシーケンシングライブラリを調製する前にサンプルＤＮＡのレベルを増加させるために使用することができる、サンプルのゲノムＤＮＡ断片のゲノム増幅全体を意味する。全ゲノム増幅法は、当該技術分野において既知である。変性オリゴヌクレオチドプライムＰＣＲ法（Degenerate oligonucleotide-primed PCR（ＤＯＰ））、プライマー伸長ＰＣＲ技術（primer extension PCR technique（ＰＥＰ））、及び多置換増幅法（multiple displacement amplification（ＭＤＡ））は、全ゲノム増幅法の例である。いくつかの実施形態では、サンプルはＤＮＡに関して濃縮されていない。

【0209】

本明細書に記載された方法が適用される核酸を含むサンプルは、典型的には、上記のような生体サンプル（「試験用サンプル」）を含む。いくつかの実施形態では、リピート伸長に関してスクリーニングされる核酸は、数多くの既知の方法のいずれかによって精製又は分離される。

【0210】

したがって、特定の実施形態では、サンプルは、精製若しくは分離されたポリヌクレオチドを含む若しくはそれから本質的になる、又はサンプルは、組織サンプル、生体液サンプル、細胞サンプル等を含むことができる。好適な生体液サンプルとしては、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、リンパ液、唾液、脳脊髄液、洗浄（lavage）、骨髄懸濁液、膣流、子宮頸部液、大腿骨頚部液、脳液、腹水、乳、気道、腸道及び泌尿生殖器道の分泌物、羊水、乳、及び白血球瀉血サンプルが挙げられるが、これらに限定されない。いくつかの実施形態では、サンプルは、例えば、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、唾液、又は糞便などの、非侵襲的処置によって容易に得ることができるサンプルである。特定の実施形態では、サンプルは、末梢血サンプル、又は末梢血サンプルの血漿及び／若しくは漿液分画物である。その他の実施形態では、生体サンプルは、スワブ若しくはスミア、生検標本、又は細胞培養物である。別の実施形態では、サンプルは、２つ以上の生体サンプルの混合物であり、例えば、生体サンプルは、生体液サンプル、組織サンプル、及び細胞培養物サンプルのうちの２つ以上を含むことができる。本発明で使用する場合、用語「血液」、「血漿」、及び「血清」は、その分画物又はその処理された部分を明示的に包含する。同様に、サンプルが生検、綿棒、スミアなどから採取される場合、「サンプル」は、生検、綿棒、スミア等から得られる処理された画分又は部分を明示的に包含する。

【0211】

特定の実施形態では、サンプルは、異なる個体からのサンプル、同じ個体又は異なる個体の異なる発育段階からのサンプル、異なる罹患した個体からのサンプル（例えば、遺伝病を有する疑いのある個体）、正常な個体、個体における疾患の異なる段階で得られたサンプル、疾患に関して異なる治療を受けた個体から得られたサンプル、異なる環境因子を受けた個体からのサンプル、病状に素因を有する個体からのサンプル、感染症剤に曝露された個体からのサンプルなどが挙げられるが、これらに限定されない。

【0212】

１つの例示的であるが非限定的な実施形態では、サンプルは、妊娠した女性、例えば、妊婦から得られる、母体サンプルである。この場合、胎児における潜在的な染色体異常の早期診断を提供するために、本明細書に記載された方法を使用して、サンプルを分析することができる。母体サンプルは、組織サンプル、生体液サンプル、又は細胞サンプルであり得る。生体液としては、非限定的な例として、血液、血漿、血清、汗、涙、痰、尿、痰、耳液、リンパ液、唾液、脳脊髄液、洗浄（lavage）、骨髄懸濁液、膣流、子宮頸部液、大腿骨頚部液、脳液、腹水、乳、気道、腸道及び泌尿生殖器道の分泌物、及び白血球瀉血サンプルが挙げられる。

【0213】

特定の実施形態では、サンプルはまた、インビトロ培養された組織、細胞、又はその他のポリヌクレオチド含有供給源から得ることもできる。培養されたサンプルは、異なる培地及び条件（例えば、ｐＨ、圧力、又は温度）で維持した培養物（例えば、組織又は細胞）、異なる期間で維持した培養物（例えば、組織又は細胞）、異なる要素若しくは試薬（例えば、薬物候補、又は修飾物質）で処理した培養物（例えば、組織又は細胞）、又は異なる種類の組織及び／若しくは細胞の培養物を含むがこれらに限定されない供給源から、採取することができる。

【0214】

生物学的供給源から核酸を分離する方法は既知であり、源の性質に応じて異なり得る。当業者は、本明細書に記載された方法に必要とされるように、核酸を供給源から容易に分離することができる。場合によっては、核酸サンプル中の核酸分子を断片化することが有利であり得る。断片化はランダムであってもよい、又は、例えば、制限エンドヌクレアーゼ消化を使用して達成されるように、特異的であり得る。ランダムな断片化のための方法は、当該技術分野において既知であり、例えば、限定されたＤＮＡｓｅ消化、アルカリ処理、及び物理的剪断が挙げられる。
シーケンシングライブラリの調製

【0215】

種々の実施形態では、シーケンシングは、シーケンシングライブラリの調製を必要とする種々のシーケンシングプラットフォームで実行されてもよい。調製は、典型的には、ＤＮＡを断片化すること（超音波処理、噴霧化又は剪断）、続いて、ＤＮＡ修復及び末端研磨（鈍端又はＡオーバーハング）、及びプラットフォーム特異的アダプタライゲーションを含む。一実施形態では、本明細書に記載された方法は、次世代シーケンシング技術（ＮＧＳ）を利用することができ、それにより、複数のサンプルをゲノム分子として個々に配列決定すること（すなわち、シングルプレックス・シーケンシング）、又は、単一のシーケンシングラン上に、インデックス化されたゲノム分子を含むプールサンプルとして個々に配列決定すること（例えば、マルチプレックス・シーケンシング）を可能にする。これらの方法は、最大で数百万個のＤＮＡ配列のリードを生成することができる。種々の実施形態では、ゲノム核酸配列、及び／又はインデックス化されたゲノム核酸の配列は、例えば、本明細書に記載された次世代シーケンシング技術（ＮＧＳ）を使用して決定することができる。種々の実施形態では、ＮＧＳを使用して取得された大量の配列データの分析は、本明細書に記載されるような１つ以上のプロセッサを使用して実行することができる。

【0216】

種々の実施形態では、このようなシーケンシング技術の使用は、シーケンシングライブラリの調製を伴わない。

【0217】

しかしながら、特定の実施形態では、本明細書で企図されるシーケンシング法は、シーケンシングライブラリの調製を含む。１つの例示的なアプローチでは、シーケンシングライブラリの調製は、配列決定される準備が整ったアダプタ修飾ＤＮＡ断片（例えば、ポリヌクレオチド）のランダムな集合の生成を含む。ポリヌクレオチドのシーケンシングライブラリは、例えば、逆転写酵素の作用によって、ＲＮＡテンプレートから生成された相補的ＤＮＡ又はコピーＤＮＡであるＤＮＡ又はｃＤＮＡなどの、ＤＮＡ又はｃＤＮＡのいずれかの等価物、類似物を含む、ＤＮＡ又はＲＮＡから調製することができる。ポリヌクレオチドは、二本鎖形態（例えば、ゲノムＤＮＡ断片、ｃＤＮＡ、ＰＣＲ増幅生成物などのｄｓＤＮＡ等）において発生し得る、又は特定の実施形態では、ポリヌクレオチドは、一本鎖形態（例えば、ｓｓＤＮＡ、ＲＮＡ等）で発生し得て、ｄｓＤＮＡ形態に変換されている。例示として、特定の実施形態では、シーケンシングライブラリの調製に使用するのに好適な二本鎖ｃＤＮＡに、一本鎖ｍＲＮＡ分子をコピーすることができる。一次ポリヌクレオチド分子の正確な配列は、一般に、ライブラリ調製の方法に対して重要ではなく、既知であっても未知であってもよい。一実施形態では、ポリヌクレオチド分子はＤＮＡ分子である。より具体的には、特定の実施形態では、ポリヌクレオチド分子は、生物の遺伝子相補体全体又は実質的に生物の遺伝子相補体全体を表し、ゲノムＤＮＡ分子である（例えば、細胞ＤＮＡ、無細胞ＤＮＡ（ｃｆＤＮＡ）等）が、典型的にはイントロン配列及びエクソン配列（コード配列）、並びにプロモータ及びエンハンサ配列などの非コード調節配列を含む。特定の実施形態では、一次ポリヌクレオチド分子は、ヒトゲノムＤＮＡ分子、例えば、妊娠被験者の末梢血中に存在するｃｆＤＮＡ分子を含む。

【0218】

いくつかのＮＧＳシーケンシングプラットフォームのシーケンシングライブラリの調製は、断片サイズの特定の範囲を含むポリヌクレオチドの使用によって促進される。このようなライブラリの調製は、典型的には、リピート伸長を決定するために所望のサイズ範囲内でポリヌクレオチドを得るために、大型のポリヌクレオチド（例えば、細胞ゲノムＤＮＡ）の断片化を含む。

【0219】

断片又はインサートの長さは、リード長さよりも長く、典型的には、２つのリードの長さの合計よりも長い。

【0220】

いくつかの例示的な実施形態では、サンプル核酸（複数可）はゲノムＤＮＡとして得られるが、これは、約１００以上、約２００以上、約３００以上、約４００以上、又は約５００以上の塩基対の断片へと断片化され、ＮＧＳ法を容易に適用することができる。いくつかの実施形態では、ペア・エンド・リードは、約１００～５０００ｂｐのインサートから得られる。いくつかの実施形態では、インサートは、約１００～１０００ｂｐの長さである。これらは、通常の短いインサートのペア・エンド・リードとして実行されることがある。いくつかの実施形態では、インサートは、約１０００～５０００ｂｐの長さである。これらは、上記のように、長いインサートのメイト・ペア・リードとして実行されることがある。

【0221】

いくつかの実施形態では、長いインサートは、非常に長い、伸長した反復配列を評価するように設計される。いくつかの実施形態では、数千の塩基対によって離間されているリードを得るために、メイト・ペア・リードが適用されてもよい。これらの実行では、インサート又は断片は数百～数千塩基対の範囲であり、インサートの２つの末端上に２つのビオチン結合アダプタがある。次に、ビオチン結合アダプタは、インサートの２つの末端を結合して円形化分子を形成し、これを更に断片化する。ビオチン結合アダプタを含む細断片、及び元のインサートの２つの末端は、より短い断片を配列するように設計されたプラットフォーム上でシーケンシングするために選択される。

【0222】

断片化は、当業者に既知の多数の方法のいずれかによって達成することができる。例えば、断片化は、噴霧化、超音波処理、及びハイドロシェアを含むがこれらに限定されない機械的手段によって、達成することができる。しかしながら、機械的断片化は、典型的には、Ｃ－Ｏ結合、Ｐ－Ｏ結合及びＣ－Ｃ結合にてＤＮＡ骨格を切断し、その結果、欠損Ｃ－Ｏ、Ｐ－Ｏ、及びＣ－Ｃ結合を伴う、ブラントと３’－オーバーハング末端及び５’－オーバーハング末端との不均質な混合をもたらすが（例えば、ＡｌｎｅｍｒｉａｎｄＬｉｗａｃｋ，ＪＢｉｏｌ．Ｃｈｅｍ２６５：１７３２３－１７３３３［１９９０］、ＲｉｃｈａｒｄｓａｎｄＢｏｙｅｒ，ＪＭｏｌＢｉｏｌ１１：３２７－２４０［１９６５］を参照されたい）、これは、それらが、以降の酵素反応（例えば、シーケンシングに関してＤＮＡを調製するために必要とされるシーケンシングアダプタのライゲーション）のために必須の５’－リン酸を欠損している故に、修復される必要があり得る。

【0223】

対照的に、ｃｆＤＮＡは、典型的には、約３００個の塩基対未満の断片として存在し、その結果、断片化は、ｃｆＤＮＡサンプルを使用してシーケンシングライブラリを生成するために、典型的には必要ではない。

【0224】

典型的には、ポリヌクレオチドが強制的に断片化される（例えば、インビトロで断片化される）か、又は自然に断片として存在するかどうかは、５’－リン酸及び３’－ヒドロキシルを有するブラント末端ＤＮＡに変換される。標準的なプロトコル、例えば、本明細書のその他の箇所に記載されているようなＩｌｌｕｍｉｎａプラットフォームを使用してシーケンシングするためのプロトコルは、末端修復されたサンプルＤＮＡに対して、ｄＡ－テーリングの前に、末端修復された生成物を精製して、ライブラリ調製のアダプタ－ライゲーティング工程の前に、ｄＡ－テーリング生成物を精製するようにユーザに指示する。

【0225】

本明細書に記載された配列ライブラリの調製方法の種々の実施形態は、ＮＧＳにより配列決定され得る修飾ＤＮＡ生成物を得るために、標準的なプロトコルによって典型的に命じられている工程のうちの１つ以上を実行する必要性を排除する。略される方法（ＡＢＢ法）、１工程法、及び２工程法は、その全体が参照として本明細書に組み込まれる、特許出願第１３／５５５，０３７号（２０１２年７月２０日出願）に見出すことができるシーケンシングライブラリの調製方法の例である。
シーケンシング法

【0226】

上述のように、調製されたサンプル（例えば、シーケンシングライブラリ）は、コピー数変化を特定するための手順の一部として配列決定される。多数のシーケンシング技術のうちのいずれかを利用することができる。

【0227】

いくつかのシーケンシング技術は、以下に記載されるように、ＡｆｆｙｍｅｔｒｉｘＩｎｃ（Ｓｕｎｎｙｖａｌｅ，ＣＡ）からのハイブリダイゼーションによるシーケンシングプラットフォーム（sequencing-by-hybridization platform）、並びに４５４ＬｉｆｅＳｃｉｅｎｃｅｓ（Ｂｒａｄｆｏｒｄ，ＣＴ）、Ｉｌｌｕｍｉｎａ／Ｓｏｌｅｘａ（ＳａｎＤｉｅｇｏ，ＣＡ）、及びＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓ（Ｃａｍｂｒｉｄｇｅ，ＭＡ）からの合成によるシーケンシングプラットフォーム（sequencing-by-synthesis platforms from）、並びにＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ（ＦｏｓｔｅｒＣｉｔｙ，ＣＡ）からのライゲーションによるシーケンシングプラットフォーム（sequencing-by-ligation platform）などが市販されている。ＨｅｌｉｃｏｓＢｉｏｓｃｉｅｎｃｅｓの合成によるシーケンシング（sequencing-by-synthesis）を使用して実行される単一分子シーケンシングに加えて、その他の単一分子シーケンシング技術としては、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓのＳＭＲＴ（商標）技術、ＩＯＮＴＯＲＲＥＮＴＴＭ（商標）技術^、及び、例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓにより開発されたナノ細孔シーケンシングが挙げられるが、これらに限定されない。

【0228】

自動サンガー法は「第１世代」技術と見なされるが、自動サンガーシーケンシングを含むサンガーシーケンシングもまた、本明細書に記載された方法で採用することができる。更なる好適なシーケンシング法としては、核酸撮像技術、例えば、原子間力顕微鏡法（ＡＦＭ）又は透過電子顕微鏡法（ＴＥＭ）が挙げられるが、これらに限定されない。例示的なシーケンシング技術を、以下にて更に詳細に記載する。

【0229】

いくつかの実施形態では、開示される方法は、Ｉｌｌｕｍｉｎａの（例えば、Ｂｅｎｔｌｅｙｅｔａｌ．，Ｎａｔｕｒｅ６：５３－５９［２００９］に記載）シーケンシング合成及び可逆的ターミネータに基づくシーケンシングケミストリーを使用して、数百万個のＤＮＡ断片の大規模な並列シーケンシングによって、試験用サンプル中の核酸に関する配列情報を取得することを含む。テンプレートＤＮＡは、ゲノムＤＮＡ、例えば、細胞ＤＮＡ又はｃｆＤＮＡであり得る。いくつかの実施形態では、分離された細胞からのゲノムＤＮＡをテンプレートとして使用し、数百個の塩基対の長さへと断片化する。その他の実施形態では、ｃｆＤＮＡはテンプレートとして使用されるが、断片化は、ｃｆＤＮＡが短い断片として存在するために必要ではない。例えば、胎児のｃｆＤＮＡは、長さにして約１７０個の塩基対（ｂｐ）の断片として血流中で循環し（Ｆａｎｅｔａｌ．，ＣｌｉｎＣｈｅｍ５６：１２７９－１２８６［２０１０］）、シーケンシング前にＤＮＡの断片化を必要としない。Ｉｌｌｕｍｉｎａのシーケンシング技術は、断片化されたゲノムＤＮＡの、オリゴヌクレオチドアンカーが結合される平面的な光学的に透明な表面への取り付けに依存する。テンプレートＤＮＡを末端修復して、５’リン酸化されたブラント末端を生成し、クレノウ断片のポリメラーゼ活性を使用して、単一のＡ塩基を、ブラントリン酸化ＤＮＡ断片の３’末端に加える。この添加は、ライゲーション効率を高めるために、それらの３’末端に単一のＴ塩基のオーバーハングを有するオリゴヌクレオチドアダプタにライゲーションするためのＤＮＡ断片を調整する。アダプタオリゴヌクレオチドは、フローセルのアンカーオリゴと相補的である（リピート伸長の分析においてアンカーリード／アンカー型リードと混同されない）。制限希釈条件下で、アダプタ修飾された一本鎖テンプレートＤＮＡをフローセルに添加して、ハイブリダイゼーションによってアンカーオリゴに固定する。付着したＤＮＡ断片を伸長させ、ブリッジを増幅して、数億個のクラスタを有する超高密度シーケンシングフローセルを作製し、それぞれが同じテンプレートの約１，０００個のコピーを含有する。一実施形態では、ランダムに断片化されたゲノムＤＮＡは、クラスタ増幅を受ける前にＰＣＲを使用して増幅される。あるいは、無増幅ゲノムライブラリ調製が使用され、ランダムに断片化されたゲノムＤＮＡは、クラスタ増幅のみを使用して濃縮される（Ｋｏｚａｒｅｗａｅｔａｌ．，ＮａｔｕｒｅＭｅｔｈｏｄｓ６：２９１－２９５［２００９］）。テンプレートは、除去可能な蛍光色素を有する可逆的ターミネータを用いる、合成技術による強い４色のＤＮＡシーケンシング技術（robust four-color DNA sequencing-by-synthesis technology）を使用して、配列決定する。高感度蛍光検出は、レーザ励起及び内部全反射光学素子を使用して達成される。約数十～数百個の塩基対の短い配列リードは、参照ゲノムに対して整列され、参照ゲノムに対する短い配列リードの固有のマッピングは、特別に開発されたデータ分析パイプラインソフトウエアを使用して特定される。第１のリードが完了した後、テンプレートをその場で再生して、断片の反対側末端から第２のリードを可能にすることができる。したがって、ＤＮＡ断片のシングル・エンド・シーケンシング又はペア・エンド・シーケンシングのいずれかを使用することができる。

【0230】

本開示の種々の実施形態はペア・エンド・シーケンシングを可能にする合成によるシーケンシングを使用してもよい。いくつかの実施形態では、Ｉｌｌｕｍｉｎａによる合成プラットフォームによるシーケンシングは、クラスタ化した断片を含む。クラスタ化は、各断片分子が等温増幅されるプロセスである。いくつかの実施形態では、本明細書に記載された例として、断片は、断片の２つの末端に取り付けられた２つの異なるアダプタを有し、アダプタは、断片がフローセルレーンの表面上の２つの異なるオリゴと混成することを可能にする。断片は、断片の２つの末端に２つのインデックス配列を更に含む、又はそれに接続されるが、このインデックス配列は、マルチプレックス・シーケンシングにおいて異なるサンプルを特定するための標識を提供する。いくつかのシーケンシングプラットフォームでは、配列決定される断片は、インサートとも呼ばれる。

【0231】

いくつかの実施形態では、Ｉｌｌｕｍｉｎａのプラットフォーム内でクラスタ化するためのフローセルは、レーンを有するスライドガラスである。各レーンは、２種類のオリゴの菌叢でコーティングされたガラスチャネルである。ハイブリダイゼーションは、表面上の２種類のオリゴのうちの１つ目によって可能になる。このオリゴは、断片の一端にある第１のアダプタに対して相補的である。ポリメラーゼは、混成断片の相補鎖を生成する。二本鎖分子は変性し、元のテンプレート鎖を洗い流す。残りの鎖は、多くのその他の残りの鎖と並行して、ブリッジ適用によってクローン的に増幅される。

【0232】

ブリッジ増幅では、鎖の第２の末端上の第２のアダプタ領域は、フローセル表面上の第２の種類のオリゴと混成する。ポリメラーゼは相補鎖を生成し、二本鎖架橋分子を形成する。この二本鎖分子は変性し、２つの異なるオリゴを介してフローセルに繋留された２つの一本鎖分子をもたらす。次に、本プロセスを、数百万個のクラスタにわたって繰り返し、それを同時に発生させ、全ての断片のクローン増幅をもたらす。ブリッジ増幅後、逆鎖を切断して洗浄し、順方向鎖のみを残す。３’末端は、望ましくないプライミングを防止するためにブロックされる。

【0233】

クラスタ化後、シーケンシングは、第１のシーケンシングプライマーを伸長して第１のリードを生成することによって開始する。各サイクルでは、蛍光標識されたヌクレオチドは、成長している鎖に添加するために競合する。テンプレートの配列に基づいて１つのみが組み込まれる。各ヌクレオチドの添加後、クラスタは光源によって励起され、特徴的な蛍光信号が放出される。サイクル数は、リードの長さを決定する。発光波長及び信号強度は、塩基コールを決定する。所与のクラスタについては、全ての同一の鎖が同時に読み取られる。数億個のクラスタを、大規模な並列様式で配列する。第１のリードの完了時に、読み取られた製品を洗い流す。

【0234】

２つのインデックスプライマーを含むプロトコルの次の工程において、インデックス１プライマーを導入し、テンプレート上のインデックス１領域に混成する。インデックス領域は、マルチプレックス・シーケンシングプロセスにおいて、サンプルを脱マルチプレックスするのに有用な断片の特定を提供する。インデックス１のリードは、第１のリードと同様に生成される。インデックス１のリードが完了した後、読み取られた製品を洗い流し、鎖の３’末端を脱保護する。次に、テンプレート鎖は、フローセル上の第２のオリゴの上に折り重なり、第２のオリゴに結合する。インデックス２の配列は、インデックス１と同じ方法で読み取られる。次に、工程の完了時にインデックス２のリード製品を洗い流す。

【0235】

２つの指数を読み取った後、ポリメラーゼを使用してリード２を開始し、第２のフローセルオリゴを伸長させて、二本鎖ブリッジを形成する。この二本鎖ＤＮＡは変性し、３’末端はブロックされる。元の順方向鎖を切断して洗い流し、逆鎖を残す。リード２は、リード２のシーケンシングプライマーの導入から始まる。リード１と同様に、所望の長さが達成されるまで、シーケンシング工程が繰り返される。リード２の製品を洗い流す。この全プロセスは、全ての断片を表す、数百万個のリードを生成する。プールサンプルライブラリからの配列は、サンプル調製中に導入された固有の指数に基づいて分離される。各サンプルについて、類似の伸長の塩基コールのリードが局所的にクラスタ化される。順方向及び逆方向のリードを対にして連続配列を作成する。これらの連続配列は、バリアント特定のために参照ゲノムに整列される。

【0236】

上記の合成例によるシーケンシングは、開示された方法の多くの実施形態で使用される、ペア・エンド・リードを含む。対になった末端配列は、断片の２つの末端からの２つのリードを含む。ペア・エンド・リードは、曖昧な整列を解決するために使用される。ペア・エンド・シーケンシングは、ユーザがインサート（又は配列決定される断片）の長さを選択し、インサートのいずれかの末端を配列し、高品質の整列可能な配列データを生成することを可能にする。各ペア・リードの間の距離が既知であるため、整列アルゴリズムは、この情報を使用して、反復領域上のリードをより正確に位置づけることができる。これにより、特に、配列が難しい、ゲノムの反復領域にわたって、リードのより良好な整列がもたらされる。ペア・エンド・シーケンシングは、挿入及び欠失（インデル）並びに反転を含む再整列を検出することができる。

【0237】

ペア・エンド・リードは、異なる長さのインサート（すなわち、配列決定される異なる断片サイズ）を使用してもよい。本開示におけるデフォルトの意味として、ペア・エンド・リードは、種々のインサート長さから得られたリードを意味するために使用される。場合によっては、短いインサートのペア・エンド・リードを長いインサートのペア・エンド・リードから区別するために、後者は、具体的には、メイト・ペア・リードと呼ばれる。メイト・ペア・リードを含むいくつかの実施形態では、最初に２つのビオチン結合アダプタが、比較的長いインサート（例えば、いくつかのｋｂ）の２つの末端に取り付けられる。次に、ビオチン結合アダプタは、インサートの２つの末端をリンクして循環分子を形成する。次に、ビオチン結合アダプタを包含する細断片は、循環分子を更に断片化することによって得ることができる。次に、反対の順序で元の断片の２つの末端を含む細断片を、上記の短いインサートのペア・エンド・シーケンシングと同じ手順によって配列決定することができる。Ｉｌｌｕｍｉｎａのプラットフォームを用いたメイト・ペア・シーケンシングの更なる詳細は、以下のアドレスでオンライン出版物に示されており、その全体が参照として本明細書に組み込まれる：ｒｅｓ．ｉｌｌｕｍｉｎａ．ｃｏｍ／ｄｏｃｕｍｅｎｔｓ／ｐｒｏｄｕｃｔｓ／ｔｅｃｈｎｏｔｅｓ／ｔｅｃｈｎｏｔｅ＿ｎｅｘｔｅｒａ＿ｍａｔｅｐａｉｒ＿ｄａｔａ＿ｐｒｏｃｅｓｓｉｎｇ．ｐｄｆ

【0238】

ＤＮＡ断片のシーケンシング後、所定の長さ（例えば、１００ｂｐ）の配列リードは、既知の参照ゲノムにマッピ又は配列される。位置づけられた又は整列されたリード及び参照配列上のそれらの対応する位置は、タグとも呼ばれる。リピート伸長を決定するための本明細書に開示された多くの実施形態の分析は、整列が不十分であるリード、又は整列されることができないリード、並びに整列されたリード（タグ）を使用する。一実施形態では、参照ゲノム配列はＮＣＢＩ３６／ｈｇ１８配列であり、ｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕ／ｃｇｉ－ｂｉｎ／ｈｇＧａｔｅｗａｙ？ｏｒｇ＝Ｈｕｍａｎ＆ｄｂ＝ｈｇ１８＆ｈｇｓｉｄ＝１６６２６０１０５において、ワールドワイドウェブ（ｗｗｗ）で入手可能である。あるいは、参照ゲノム配列はＧＲＣｈ３７／ｈｇ１９であり、ｇｅｎｏｍｅ．ｕｃｓｃ．ｅｄｕ／ｃｇｉ－ｂｉｎ／ｈｇＧａｔｅｗａｙにおいて、ワールドワイドウェブ（ｗｗｗ）で入手可能である。公開配列情報のその他の供給源としては、ＧｅｎＢａｎｋ，ｄｂＥＳＴ，ｄｂＳＴＳ，ＥＭＢＬ（ｔｈｅＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＬａｂｏｒａｔｏｒｙ）、及びＤＤＢＪ（日本のＤＮＡデータベース）が挙げられる。配列を整列させるための多数のコンピュータアルゴリズムが利用可能であり、これには、ＢＬＡＳＴ（Ａｌｔｓｃｈｕｌｅｔａｌ．，１９９０）、ＢＬＩＴＺ（ＭＰｓｒｃｈ）（Ｓｔｕｒｒｏｃｋ＆Ｃｏｌｌｉｎｓ，１９９３）、ＦＡＳＴＡ（Ｐｅｒｓｏｎ＆Ｌｉｐｍａｎ，１９８８）、ＢＯＷＴＩＥ（Ｌａｎｇｍｅａｄｅｔａｌ．，ＧｅｎｏｍｅＢｉｏｌｏｇｙ１０：Ｒ２５．１－Ｒ２５．１０［２００９］）、又はＥＬＡＮＤ（Ｉｌｌｕｍｉｎａ，Ｉｎｃ．，ＳａｎＤｉｅｇｏ，ＣＡ，ＵＳＡ）が挙げられるが、限定されない。一実施形態では、血漿ｃｆＤＮＡ分子のクローン的伸長コピーの一端は、ＥｆｆｉｃｉｅｎｔＬａｒｇｅ－ＳｃａｌｅＡｌｉｇｎｍｅｎｔｏｆＮｕｃｌｅｏｔｉｄｅＤａｔａｂａｓｅｓ（ＥＬＡＮＤ）ソフトウエアを使用する、ＩｌｌｕｍｉｎａＧｅｎｏｍｅＡｎａｌｙｚｅｒに関する遺伝子情報的な整列分析により、配列及び処理される。

【0239】

１つの例示的であるが非限定的な実施形態では、本明細書に記載された方法は、（例えば、ＨａｒｒｉｓＴ．Ｄ．ｅｔａｌ．，Ｓｃｉｅｎｃｅ３２０：１０６－１０９［２００８］に記載）ＨｅｌｉｃｏｓＴｒｕｅＳｉｎｇｌｅＭｏｌｅｃｕｌｅＳｅｑｕｅｎｃｉｎｇ（ｔＳＭＳ）技術の単一分子シーケンシング技術を使用して、試験用サンプルにおいて核酸に関する配列情報を取得することを含む。ｔＳＭＳ技術では、ＤＮＡサンプルを約１００～２００個のヌクレオチドの鎖へと切断し、各ＤＮＡ鎖の３’末端にポリＡ配列を加える。各鎖は、蛍光標識されたアデノシンヌクレオチドの添加によって標識される。次に、ＤＮＡ鎖をフローセルに混成させるが、フローセル表面に固定化されたオリゴＴ捕捉部位を数百万個含む。特定の実施形態では、テンプレートは、約１億のテンプレート／ｃｍ^２の密度であり得る。フローセルは、次に、器具、例えば、ＨｅｌｉＳｃｏｐｅ（商標）シーケンサに添加され、レーザがフローセルの表面に照射され、各テンプレートの位置を明らかにする。ＣＣＤカメラは、フローセルの表面上のテンプレートの位置を位置づけることができる。次に、テンプレート蛍光標識を切断して、洗い流す。シーケンシング反応は、ＤＮＡポリメラーゼ及び蛍光標識ヌクレオチドを導入することによって開始する。オリゴ－Ｔ核酸は、プライマーとして機能する。ポリメラーゼは、テンプレート誘導様式で、標識ヌクレオチドをプライマーに組み込む。ポリメラーゼ及び非組み込みヌクレオチドを除去する。蛍光標識ヌクレオチドの誘導された取り込みを有するテンプレートは、フローセルの表面を撮像することによって特定される。撮像後、開裂工程は蛍光標識を除去した。このプロセスは所望のリード長さが達成されるまで、その他の蛍光標識ヌクレオチドで繰り返される。配列情報は、各ヌクレオチド添加工程で収集される。単一分子シーケンシング技術による全ゲノムシーケンシングは、シーケンシングライブラリの調製におけるＰＣＲ系の増幅を除外する又は典型的には排除し、また本方法は、そのサンプルのコピーの測定ではなく、サンプルの直接測定を可能にする。

【0240】

別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、（例えば、Ｍａｒｇｕｌｉｅｓ，Ｍ．ｅｔａｌ．Ｎａｔｕｒｅ４３７：３７６－３８０［２００５］に記載）４５４シーケンシング（Ｒｏｃｈｅ）を使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。４５４シーケンシングは、典型的には２つの工程を含む。第１の工程では、ＤＮＡは、約３００～８００個の塩基対の断片に剪断され、断片はブラント末端である。次に、オリゴヌクレオチドアダプタを断片の末端にライゲーションする。アダプタは、断片の増幅及びシーケンシングのためのプライマーとして機能する。断片は、例えば、５’ビオチンタグを含有するアダプタＢを使用して、ＤＮＡ捕捉ビーズ、例えば、ストレプトアビジンでコーティングされたビーズに取り付けることができる。ビーズに取り付けられた断片は、水中油型エマルションの液滴内でＰＣＲ増幅される。この結果は、各ビーズ上のクローン的に増幅されたＤＮＡ断片の複数のコピーである。第２の工程では、ビーズは、ウェル（例えば、ピコリットルサイズのウェル）内に捕捉される。それぞれのＤＮＡ断片に対して、並行して、ピロシーケンシングが実行される。１つ以上のヌクレオチドの添加は、シーケンシング器具内のＣＣＤカメラによって記録される光信号を生成する。信号強度は、組み込まれたヌクレオチドの数に比例する。ピロシーケンシングは、ヌクレオチドの添加時に放出されるピロリン酸塩（ＰＰｉ）を使用する。ＰＰｉは、アデノシン５’ホスホ硫酸の存在下でＡＴＰスルフリラーゼによってＡＴＰに変換される。ルシフェラーゼは、ルシフェリンをオキシルシフェリンに変換するためにＡＴＰを使用するが、この反応は、測定及び分析される光を生成する。

【0241】

別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、ＳＯＬｉＤ（商標）技術（ＡｐｐｌｉｅｄＢｉｏｓｙｓｔｅｍｓ）を使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。ＳＯＬｉＤ（商標）のライゲーションによるシーケンシングでは、ゲノムＤＮＡを断片に剪断して、断片の５’末端及び３’末端にアダプタを取り付けて断片ライブラリを生成する。あるいは、内部アダプタは、アダプタを断片の５’末端及び３’末端にライゲーティングし、断片を循環させ、円形化された断片を消化して内部アダプタを生成し、得られた断片の５’末端及び３’末端にアダプタを取り付けてメイト・ペア・ライブラリを生成することによって導入され得る。次に、ビーズ、プライマー、テンプレート、及びＰＣＲ成分を含有するマイクロリアクタ中で、クローン性ビーズ集団を調製する。ＰＣＲ後、テンプレートを変性させ、ビーズを濃縮してビーズを伸長したテンプレートと分離する。選択されたビーズ上のテンプレートは、ガラススライドへの結合を可能にする３’の修飾を受ける。配列は、特定の蛍光体によって特定される中央決定塩基（又は塩基対）を用いた、部分的にランダムなオリゴヌクレオチドの連続ハイブリダイゼーション及びライゲーションによって決定することができる。色が記録された後、ライゲーションされたオリゴヌクレオチドを切断し、除去し、次に本プロセスを繰り返す。

【0242】

別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、ＰａｃｉｆｉｃＢｉｏｓｃｉｅｎｃｅｓの単一分子、実時間（ＳＭＲＴ（商標））シーケンシング技術を使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。ＳＭＲＴシーケンシングでは、色素標識ヌクレオチドの連続的な組み込みは、ＤＮＡ合成中に画像化される。単一のＤＮＡポリメラーゼ分子は、配列情報を取得する個々のゼロモード波長検出器（zero-mode wavelength detectors（ＺＭＷ検出器））の底面に取り付けられ、一方で、ホスホ結合ヌクレオチドは、成長するプライマー鎖に組み込まれる。ＺＭＷ検出器は、ＺＭＷの外へ（例えば、マイクロ秒で）急速に拡散する蛍光ヌクレオチドのバックグラウンドに対する、ＤＮＡポリメラーゼによる一塩基の組み込みの観察を可能にする拘束構造を含む。それは、典型的には、ヌクレオチドを成長鎖に組み込むために数ミリ秒を要する。このとき、蛍光標識は励起され、蛍光シグナルを生成し、蛍光標識が切断される。色素の対応する蛍光の測定は、どの塩基が組み込まれたかを示す。本プロセスを繰り返して配列を提供する。

【0243】

別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、（例えば、ＳｏｎｉＧＶａｎｄＭｅｌｌｅｒＡ．ＣｌｉｎＣｈｅｍ５３：１９９６－２００１［２００７］に記載）ナノ細孔シーケンシング法を使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。ナノ細孔シーケンシングＤＮＡ分析技術は、例えば、ＯｘｆｏｒｄＮａｎｏｐｏｒｅＴｅｃｈｎｏｌｏｇｉｅｓ（Ｏｘｆｏｒｄ，ＵｎｉｔｅｄＫｉｎｇｄｏｍ）、Ｓｅｑｕｅｎｏｍ、ＮＡＢｓｙｓ等を含む多数の企業によって開発される。ナノ細孔シーケンシング法は、単一分子のＤＮＡがナノ細孔を通過する際に直接配列決定される単一分子シーケンシング技術である。ナノ細孔は、典型的には直径１ナノメートルの順序の小さい孔である。導電性流体中にナノ細孔を浸漬し、電位（電圧）を印加すると、ナノ細孔を通るイオンの伝導に起因して、僅かな電流が生じる。流れる電流の量は、ナノ細孔のサイズ及び形状に感応性である。ＤＮＡ分子がナノ細孔を通過する際、ＤＮＡ分子上の各ヌクレオチドは、異なる程度にナノ細孔を妨害し、ナノ細孔を通る電流の大きさを異なる程度に変化させる。したがって、ＤＮＡ分子がナノ細孔を通過する際の電流におけるこの変化は、ＤＮＡ配列リードをもたらす。

【0244】

別の例示的であるが非限定的な実施形態では、本明細書に記載された方法は、（米国特許公開第２００９／００２６０８２号に記載）化学感応性電界効果トランジスタ（chemical-sensitive field effect transistor（ｃｈｅｍＦＥＴ））アレイを使用して、試験用サンプル中の核酸に関する配列情報を取得することを含む。本技術の一例では、ＤＮＡ分子を反応チャンバに配置することができ、テンプレート分子をポリメラーゼに結合したシーケンシングプライマーに混成させることができる。シーケンシングプライマーの３’末端における新たな核酸鎖への１つ以上の三リン酸の組み込みは、ｃｈｅｍＦＥＴによる電流の変化として特定することができる。アレイは、複数のｃｈｅｍＦＥＴセンサを有することができる。別の実施例では、単一の核酸をビーズに取り付けることができ、核酸をビーズ上で増幅させることができ、個々のビーズをｃｈｅｍＦＥＴアレイ上の個々の反応チャンバに移し、各チャンバはｃｈｅｍＦＥＴセンサを有し、核酸を配列決定することができる。

【0245】

別の実施形態では、ＤＮＡシーケンシング技術は、半導体技術を単一のシーケンシング化学作用と対にして、化学的にコードされた情報（Ａ、Ｃ、Ｇ、Ｔ）を半導体チップ上のデジタル情報（０、１）に直接翻訳する、ＩｏｎＴｏｒｒｅｎｔ単一分子シーケンシングである。本質的に、ヌクレオチドがポリメラーゼによってＤＮＡの鎖に組み込まれた場合、水素イオンが副生成物として放出される。ＩｏｎＴｏｒｒｅｎｔは、マイクロ機械加工されたウェルの高密度アレイを使用して、本生化学的プロセスを大規模な並列方式で実施する。各ウェルは、異なるＤＮＡ分子を保持する。ウェルの下にはイオン感応層があるが、イオンセンサの下にある。ヌクレオチド、例えばＣがＤＮＡテンプレートに添加され、次にＤＮＡの鎖に組み込まれると、水素イオンが放出される。このイオンからの電荷は、ＩｏｎＴｏｒｒｅｎｔのイオンセンサによって検出することができる溶液のｐＨを変化させ得る。（本質的に世界で最も小さい固体のｐＨ計器である）シーケンサは、塩基をコールし、化学情報からデジタル情報に直接進む。次に、ＩｏｎｐｅｒｓｏｎａｌＧｅｎｏｍｅＭａｃｈｉｎｅ（ＰＧＭ（商標））シーケンサは、次々とヌクレオチドを用いてチップを浸漬させる。チップをフロードする次のヌクレオチドが一致しない場合、電圧変化は記録されず、塩基はコールされない。ＤＮＡ鎖上に２つの同一の塩基が存在する場合、電圧は二重であり得、チップは、コールされた２つの同一の塩基を記録する。直接検出により、秒単位でのヌクレオチド取り込みの記録が可能となる。

【0246】

別の実施形態では、本方法は、ハイブリダイゼーションによるシーケンシングを使用して、試験用サンプル中の核酸の配列情報を取得することを含む。ハイブリダイゼーションによる配列決定は、複数のポリヌクレオチド配列を複数のポリヌクレオチドプローブと接触させることを含み、複数のポリヌクレオチドプローブのそれぞれは、所望により、基質につながれ得る。基質は、既知のヌクレオチド配列のアレイを含む平坦な表面であってもよい。アレイに対するハイブリダイゼーションのパターンを使用して、サンプル中に存在するポリヌクレオチド配列を決定することができる。その他の実施形態では、各プローブは、ビーズ、例えば、磁気ビーズ等につながれている。ビーズへのハイブリダイゼーションは、サンプル内の複数のポリヌクレオチド配列を特定するために決定及び使用することができる。

【0247】

本明細書に記載の方法のいくつかの実施形態では、配列リードは、約２０ｂｐ、約２５ｂｐ、約３０ｂｐ、約３５ｂｐ、約４０ｂｐ、約４５ｂｐ、約５０ｂｐ、約５５ｂｐ、約６０ｂｐ、約６５ｂｐ、約７０ｂｐ、約７５ｂｐ、約８０ｂｐ、約８５ｂｐ、約ａｂｏｕｔ９０ｂｐ、約９５ｂｐ、約１００ｂｐ、約１１０ｂｐ、約１２０ｂｐ、約１３０、約１４０ｂｐ、約１５０ｂｐ、約２００ｂｐ、約２５０ｂｐ、約３００ｂｐ、約３５０ｂｐ、約４００ｂｐ、約４５０ｂｐ、又は約５００ｂｐである。技術的進歩は、５００ｂｐを超えるシングル・エンド・リードを可能にし、ペア・エンド・リードが生成された場合に、約１０００ｂｐを超えるリードを可能にすることが予想される。いくつかの実施形態では、ペア・エンド・リードは、約２０ｂｐ～１０００ｂｐ、約５０ｂｐ～５００ｂｐ、又は８０ｂｐ～１５０ｂｐである配列リードを含むリピート伸長を決定するために使用される。種々の実施形態では、ペア・エンド・リードは、リピート伸長を有する配列を評価するために使用される。リピート伸長を有する配列は、リードよりも長い。いくつかの実施形態では、リピート伸長を有する配列は、約１００ｂｐ、５００ｂｐ、１０００ｂｐ、又は４０００ｂｐよりも長い。配列リードのマッピングは、リードの配列を参照配列と比較して配列決定された核酸分子の染色体起源を決定することにより達成され、特定の遺伝子配列情報は必要ではない。僅かな不整合（リード当たり０～２の不整合）は、混合サンプル中の参照ゲノムとゲノムとの間に存在し得る微量の多型を考慮することができる。いくつかの実施形態では、参照配列に整列されたリードは、アンカーリードとして使用され、アンカーリードと対になるが、参照配列と整列し得ない又は参照配列との整列が不十分であるリードは、アンカー型リードとして使用される。いくつかの実施形態では、整列が不十分なリードは、リード当たりの不整合の割合が比較的多い場合があり、例えば、リード当たり少なくとも約５％、少なくとも約１０％、少なくとも約１５％、又は少なくとも約２０％の不整合を有し得る。

【0248】

複数の配列タグ（すなわち、参照配列に整列されたリード）は、典型的にはサンプルあたりで得られる。いくつかの実施形態では、例えば１００ｂｐの、少なくとも約３×１０^６の配列タグ、少なくとも約５×１０^６の配列タグ、少なくとも約８×１０^６の配列タグ、少なくとも約１０×１０^６の配列タグ、少なくとも約１５×１０^６の配列タグ、少なくとも約２０×１０^６の配列タグ、少なくとも約３０×１０^６の配列タグ、少なくとも約４０×１０^６の配列タグ、又は少なくとも約５０×１０^６の配列タグが、サンプル当たりの参照ゲノムへのリードのマッピングから得られる。いくつかの実施形態では、全ての配列リードは、参照ゲノムの全領域に位置づけられ、ゲノムワイドリードを提供する。その他の実施形態では、対象とする配列、例えば、染色体、染色体のセグメント、又は対象とする反復配列に位置づけられる。
リピート伸長を決定するための装置及びシステム

【0249】

シーケンシングデータ及びそれから得られる診断の分析は、典型的には、種々のコンピュータ実行アルゴリズム及びプログラムを使用して実行される。したがって、特定の実施形態は、１つ以上のコンピュータシステム又はその他の処理システム内に記憶された又はそれらを介して転送されたデータを含む、プロセスを採用する。本明細書に開示された実施形態はまた、これらの動作を実行するための装置に関する。本装置は、必要な目的のために特別に構築されてもよい、又はコンピュータに記憶されたコンピュータプログラム及び／若しくはデータ構造によって選択的に起動又は再構成される汎用コンピュータ（又はコンピュータのグループ）であってもよい。いくつかの実施形態では、プロセッサのグループは、列挙された分析動作の一部又は全てを協働して（例えば、ネットワーク又はクラウド算定を介して）、及び／又は並列に実行する。本明細書に記載された方法を実行するためのプロセッサ又はプロセッサのグループは、プログラム可能なデバイス（例えば、ＣＰＬＤ及びＦＰＧＡ）などのマイクロコントローラ及びマイクロプロセッサ、並びにゲートアレイＡＳＩＣ又は汎用マイクロプロセッサなどのプログラム不可能なデバイスを含む種々の種類のものであってもよい。

【0250】

一実施形態は、反復配列を含むゲノム遺伝子座におけるバリアントの遺伝子型を決定する際に使用するためのシステムを提供し、本システムは、核酸サンプルを受容し、サンプルから核酸配列情報を提供するためのシーケンサと、プロセッサと、当該プロセッサ上で実行するための命令をその上に記憶して、バリアントを遺伝子型決定する機械可読記憶媒体であって、バリアントが、（ａ）データベースから試験用サンプルの核酸配列リードを収集することと、（ｂ）配列グラフによってそれぞれ表される１つ以上の反復配列に配列リードを整列させることであって、配列グラフが、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフが１つ以上の自己ループを含み、各自己ループが反復部分配列を表し、各反復部分配列が１つ以上のヌクレオチドの繰り返し単位の反復を含むことと、（ｃ）１つ以上の反復配列に関する１つ以上の遺伝子型を、１つ以上の反復配列に整列させた配列リードを使用して決定することと、により遺伝子決定される、機械可読記憶媒体と、を含む。

【0251】

本明細書で提供されるシステムのいずれかの、いくつかの実施形態では、シーケンサは、次世代シーケンシング（ＮＧＳ）を実行するように構成されている。いくつかの実施形態では、シーケンサは、可逆的染料ターミネータを伴う合成による配列を使用して、大規模な並列シーケンシングを実行するように構成されている。その他の実施形態では、シーケンサは、ライゲーションによるシーケンシングを実行するように構成されている。更にその他の実施形態では、シーケンサは、単一分子シーケンシングを実行するように構成されている。

【0252】

加えて、特定の実施形態は、種々のコンピュータ実装動作を実行するためのプログラム命令及び／又はデータ（データ構造を含む）を含む、有形及び／若しくは非一時的なコンピュータ可読媒体又はコンピュータプログラム製品に関する。コンピュータ可読媒体の例としては、半導体メモリデバイス、ディスクドライブなどの磁気媒体、磁気テープ、光学媒体（ＣＤ、光磁気媒体など）、並びに読み取り専用メモリデバイス（ＲＯＭ）及びランダムアクセスメモリ（ＲＡＭ）などの、プログラム命令を記憶及び実行するように特別に構成されたハードウエアデバイスが挙げられるが、これらに限定されない。コンピュータ可読媒体は、エンドユーザによって直接制御されてもよい、又は、媒体は、エンドユーザによって間接的に制御されてもよい。直接制御された媒体の例としては、ユーザ施設及び／又はその他の構成要素と共有されていない媒体に位置する媒体が挙げられる。間接的に制御された媒体の例としては、外部ネットワークを介して、及び／又は、「クラウド」などの共有リソースを提供するサービスを介して、ユーザに間接的にアクセス可能な媒体が挙げられる。プログラム命令の例としては、コンパイラによって生成されるものなどの機械コード、及びインタプリタを使用してコンピュータによって実行され得るものよりも高レベルのコードを含むファイルの両方が挙げられる。

【0253】

種々の実施形態では、開示された方法及び装置に用いられるデータ又は情報は、電子フォーマットで提供される。このようなデータ又は情報としては、核酸サンプルから誘導されるリード及びタグ、参照配列（単独又は主に多型を提供する参照配列を含む）、リピート伸長コール、カウンセリング推奨、診断等のコールが挙げられてよい。本発明で使用する場合、電子形式で提供されるデータ又はその他の情報は、機械上での記憶及び機械間の送信のために利用可能である。従来、電子形式のデータはデジタル的に提供され、種々のデータ構造、リスト、データベース等のビット及び／又はバイトとして記憶されてもよい。データは、電子的、光学的等に具現化されてもよい。

【0254】

一実施形態は、試験用サンプル中のリピート伸長の有無を示す出力を生成するための、コンピュータプログラム製品を提供する。コンピュータ製品は、リピート伸長を決定するための上記の方法のうちの任意の１つ以上を実行するための命令を含んでもよい。説明されるように、コンピュータ製品は、その上に記録されたコンピュータ実行可能又はコンパイル可能な論理（例えば、命令）を有する非一時的な及び／又は有形コンピュータ可読媒体を含んでもよく、これにより、プロセッサが、アンカー型リード内のアンカーリード及び反復、並びにリピート伸長が存在するか又は存在しないかどうかを決定することを可能にする。一実施例では、コンピュータ製品は、プロセッサがリピート伸長を診断することを可能にするための、その上に記録されたコンピュータ実行可能又はコンパイル可能な論理（例えば、命令）を有するコンピュータ可読可能な媒体を含み、これは、反復配列への整列からの少なくとも核酸分子の一部からシーケンシングデータを受信するための受信手順と、当該受信されたデータからリピート伸長を分析するためのコンピュータ支援論理と、当該リピート伸長の有無又は種類を示す出力を生成するための出力手順と、を含む。

【0255】

考慮されているサンプルからの配列情報は、染色体反復配列に位置づけられて、対象とする反復配列に整列された又はアンカーされたペア・エンド・リードを特定し、反復配列のリピート伸長を特定することができる。種々の実施形態では、参照配列は、関係型データベース又はオブジェクトデータベースなどのデータベースに記憶される。

【0256】

ヒトが助けを借りることなく、本明細書に開示された方法の計算動作を実行することは実用的ではない、あるいは、ほとんどの場合、更に不可能である、と理解すべきである。例えば、サンプルから読み取られた単一の３０ｂｐをヒト染色体のうちのいずれか１つにマッピングすることは、計算装置の支援無しに多大な努力を要する場合がある。当然のことながら、信頼できるリピート伸長コールは、一般に、１つ以上の染色体への数千個（例えば、少なくとも約１０，０００個）あるいは数百万個のリードのマッピングを必要とするために、問題は複雑である。

【0257】

種々の実施形態では、未加工の配列リードは、１つ以上の対象とする配列を表す１つ以上の配列グラフに整列される。種々の実施形態では、少なくとも１０，０００個、１００，０００個、５００，０００個、１，０００，０００個、５，０００，０００個、又は１０，０００，０００個のリードが、１つ以上の配列グラフに整列される。種々の実施形態では、１つ以上の配列グラフは、少なくとも１個、２個、５個、１０個、５０個、１００個、５００個、１０００個、５，０００個、１０，０００個、又は５０，０００個の配列グラフを含む。

【0258】

いくつかの実施形態では、未加工の配列リードは最初に参照ゲノムに整列されて、最初に整列したリードのサブセットが１つ以上の対象とする配列を表す１つ以上の配列グラフに整列される前に、リードのゲノム座標を決定する。種々の実施形態では、少なくとも１０，０００個、１００，０００個、５００，０００個、１，０００，０００個、５，０００，０００個、１０，０００，０００個、又は１００，０００，０００個のリードが、最初に参照ゲノムに整列される。いくつかの実施形態では、最初に整列されたリードは、配列グラフに再整列されて、多数の領域（配列グラフに対応する各領域）におけるリピート伸長を決定する。実施形態の各実施中に配列グラフに再整列されるリードの総数は、数千～数百万のリードの範囲であり得る。種々の実施形態では、１０，０００，０００個のもので、リードは、各配列グラフに再整列される。種々の実施形態では、１つ以上の配列グラフは、少なくとも１個、２個、５個、１０個、５０個、１００個、５００個、１０００個、５，０００個、１０，０００個、又は５０，０００個の配列グラフを含む。

【0259】

５本明細書に開示された方法は、反復配列を含むゲノム遺伝子座におけるバリアントの遺伝子型を決定するためのシステムを使用して、実施され得る。本システムは、（ａ）サンプルから核酸配列情報を提供する試験用サンプルから核酸を受容するためのシーケンサと、（ｂ）プロセッサと、（ｃ）当該プロセッサ上で、反復配列を含むゲノム遺伝子座におけるバリアントの遺伝型決定を実行するためにその上に記憶された命令を有する、１つ以上のコンピュータ可読記憶媒体と、を含んでもよい。いくつかの実施形態では、本方法は、任意のリピート伸長を特定するための方法を実行するためにその上に記憶されたコンピュータ可読命令を有する、コンピュータ可読媒体によって、指示される。したがって、一実施形態は、コンピュータシステムの１つ以上のプロセッサによって実行された場合に、プログラムコードを記憶する非一時的な機械可読媒体を含むコンピュータプログラム製品を提供し、コンピュータシステムに、核酸を含む試験用サンプル中の反復配列のリピート伸長を特定する方法を実施させ、反復配列は、ヌクレオチドの繰り返し単位の反復を含む。プログラムコードは、（ａ）データベースから試験用サンプルの配列リードを収集するためのコードと、（ｂ）配列グラフによってそれぞれ表される１つ以上の反復配列に配列リードを整列させるためのコードであって、配列グラフが、核酸配列を表す頂点及び頂点を接続する有向エッジを伴う有向グラフのデータ構造を有し、配列グラフが１つ以上の自己ループを含み、各自己ループが反復部分配列を表し、各反復部分配列が１つ以上のヌクレオチドの繰り返し単位の反復を含む、コードと、（ｃ）１つ以上の反復配列に関する１つ以上の遺伝子型を、１つ以上の反復配列に整列させた配列リードを使用して決定するためのコードと、を含んでもよい。

【0260】

いくつかの実施形態では、命令は、反復リード及びアンカー型リードなどの方法に関連する情報、及び試験用サンプルを提供するヒト被験者の患者の医療記録におけるリピート伸長の有無を自動的に記録すること、を更に含んでもよい。患者の医療記録は、例えば、実験室、医師の診察室、病院、健康維持組織、保険会社によって保持されてもよい、又は個人医療記録方法は、試験用サンプルが採取されたヒト被験者の治療を処方、開始、及び／又は変更することを更に含んでもよい。これは、対象から採取した追加のサンプルに対して、１つ以上の追加の試験又は分析を実行することを含んでもよい。

【0261】

開示された方法はまた、任意のリピート伸長を特定するための方法を実行するように適合又は構成されたコンピュータ処理システムを使用して、実行することもできる。一実施形態は、本明細書に記載された方法を実行するように適合又は構成されたコンピュータ処理システムを提供する。一実施形態では、本装置は、本明細書のその他の箇所に記載された配列情報の種類を得るために、サンプル中の核酸分子の少なくとも一部をシーケンシングするように適合又は構成されたシーケンシングデバイスを含む。装置はまた、サンプルを処理するための構成要素を含んでもよい。このような構成要素は、本明細書のその他の箇所に記載されている。

【0262】

配列又はその他のデータは、コンピュータに入力することができる、又は直接的若しくは間接的にのどちらかで、コンピュータ可読媒体上に記憶されてもよい。一実施形態では、コンピュータシステムは、サンプルから核酸配列を読み取る及び／又は分析するシーケンシングデバイスに直接連結される。このようなツールからの配列又はその他の情報は、コンピュータシステム内のインターフェースを介して提供される。あるいは、システムによって処理された配列は、データベース又はその他のリポジトリなどの配列記憶ソースから提供される。処理装置が利用可能になると、メモリデバイス又は大容量記憶デバイスは、核酸の配列を少なくとも一時的に緩衝又は保存する。加えて、メモリデバイスは、種々の染色体又はゲノム等のタグ数を記憶してもよい。メモリはまた、配列又はマップされたデータの提示を分析するための種々のルーチン及び／又はプログラムを記憶してもよい。このようなプログラム／ルーチンは、統計分析を実行するためのプログラム等を含んでもよい。

【0263】

一実施例では、使用者は、シーケンシング装置にサンプルを提供する。データは、コンピュータに接続されたシーケンシング装置によって収集及び／又は分析される。コンピュータ上のソフトウエアは、データ収集及び／又は分析を可能にする。データは、記憶され、（モニタ又はその他の同様のデバイスを介して）表示され、及び／又は別の場所に送信され得る。コンピュータは、遠隔ユーザ（例えば、医師、科学者、又は分析医）によって利用されるハンドヘルドデバイスにデータを送信するために使用されるインターネットに接続されてもよい。データは、送信前に記憶及び／又は分析され得ることが理解される。いくつかの実施形態では、未加工データが収集され、データを分析及び／又は記憶する遠隔ユーザ又は装置に送信される。転送処理は、コンピュータ可読媒体上に記憶されたものを介して発生することができ、媒体は、エンドユーザに（例えば、メールを介して）運ばれ得る。遠隔ユーザは、建物、都市、州、国、又は大陸を含むがこれらに限定されない、同じ又は異なる地理的位置にあることができる。

【0264】

いくつかの実施形態では、方法はまた、複数のポリヌクレオチド配列（例えば、リード、タグ、及び／又は参照染色体配列）に関するデータを収集することと、データをコンピュータ又はその他の計算システムに送信することと、を含む。例えば、コンピュータは、試験室機器、例えば、サンプル採取装置、ヌクレオチド増幅装置、ヌクレオチドシーケンシング装置、又はハイブリダイゼーション装置に接続することができる。次に、コンピュータは、試験室デバイスによって集められた適用可能なデータを収集することができる。データは、任意の工程で、例えば、実時間での収集中、送信前、送信中又は送信に関連して、又は送信後に、コンピュータ上に記憶され得る。データは、コンピュータから抽出することができるコンピュータ可読媒体上に記憶することができる。収集又は記憶されたデータは、コンピュータから遠隔位置に、例えば、ローカルネットワーク又はインターネットなどの広域ネットワークを介して送信することができる。遠隔位置では、以下に記載されるように、送信されたデータに対して種々の動作を実行することができる。

【0265】

本明細書に開示されたシステム、装置、及び方法で記憶、送信、分析、及び／又は操作され得る電子的にフォーマットされたデータの種類は、とりわけ以下のものである。
試験用サンプル中の核酸をシーケンシングすることによって得られたリード
リードを、参照ゲノム又はその他の参照配列若しくは配列に整列させることによって得られるタグ
参照ゲノム又は配列
遺伝子座の同一性、位置、及び構造リードの適用範囲を示す遺伝子座仕様
バリアントの遺伝子型配列グラフグラフ経路
グラフ整列情報
リピート伸長の実際のコール
診断（コールに関連する臨床的状態）
コール及び／又は診断から誘導される更なる試験のための推奨
コール及び／又は診断から誘導される治療及び／又は監視計画

【0266】

これらの種々の種類のデータは、別個の装置を使用して、１つ以上の場所で取得、記憶、送信、分析、及び／又は操作されてもよい。処理オプションは、広域スペクトルに及ぶ。スペクトルの一方の端部において、この情報の全て又は多くは、試験用サンプルが処理される場所、例えば医師の診察室又はその他の臨床設定で保管及び使用される。その他の極端な場合、サンプルは１つの場所で取得され、異なる場所で処理され、所望により配列決定され、リードは整列され、１つ以上の異なる場所でコールが行われ、更に別の場所（サンプルが得られた場所であり得る）で診断、推奨、及び／又は計画が準備される。

【0267】

種々の実施形態では、リードはシーケンシング装置で生成され、次に、リピート伸長コールを生成するように処理される遠隔部位に送信される。本遠隔位置では、一例として、リードは、アンカーリード及びアンカー型リードを生成するために参照配列に整列される。別個の場所で採用され得る処理動作は、とりわけ以下の通りである。
サンプル収集
シーケンシングに対して予備的なサンプル処理
配列データを分析し、リピート伸長コールを導出する
診断
患者又は医療提供者に診断及び／又はコールを報告する計画を実行する更なる治療、試験、及び／又は監視のための計画を開発する
カウンセリング

【0268】

これらの動作のうちの任意の１つ以上は、本明細書のその他の箇所に記載されるように自動化されてもよい。典型的には、配列データのシーケンシング及び分析並びにリピート伸長コールの導出は、計算的に実行され得る。その他の動作は、手動で又は自動的に実行されてもよい。

【0269】

図６は、試験用サンプルからのコール又は診断を生成するための分散システムの一実施形態を示す。サンプル採取位置０１は、患者から試験用サンプルを採取するために使用される。次に、サンプルは、上記のように試験用サンプルを処理及び配列決定することができる、処理及びシーケンシング位置０３に提供される。位置０３は、サンプルを処理するための装置、並びに処理されたサンプルをシーケンシングするための装置を含む。本明細書のその他の箇所に記載されるようなシーケンシングの結果は、典型的には電子フォーマットで提供され、図６の参照番号０５によって示されるインターネットなどのネットワークに提供されるリードの集合である。

【0270】

配列データは、分析及びコール生成が実行される遠隔位置０７に提供される。この位置は、コンピュータ又はプロセッサなどの１つ以上の強力な計算デバイスを含んでもよい。場所０７における計算リソースがそれらの分析を完了し、受信した配列情報からのコールを生成した後、コールはネットワーク０５に再中継される。いくつかの実施形態では、位置０７で生成されたコールであるだけでなく、関連する診断も生成される。次に、コール及び又は診断は、図６に示されるように、ネットワークを横切って送信され、サンプル採取位置０１に戻る。説明されるように、これは、コール又は診断を生成することに関連する種々の動作が、どのように種々の位置の間で分割され得るかにおける、多くの変形形態のうちの１つである。１つの共通のバリアントは、単一の位置で、サンプル採取並びに処理及びシーケンシングを提供することを含む。別の変形形態は、分析及びコールの生成と同じ場所で処理並びにシーケンシングを提供することを含む。
実験

【実施例】

【0271】

本発明者らは、ＨＴＴ遺伝子座において広範囲のＣＡＧ及びＣＣＧ反復サイズを含むシミュレートされたデータセットに、プログラムを適用した。ＨＴＴ又はハンチンチン（Huntingtin）は、ハンチントン病（Ｈｕｎｔｉｎｇｔｏｎ病（ＨＤ））に関連した疾患遺伝子であり、神経変性障害は、線条体ニューロンの損失によって特徴付けられる。これは、ハンチンチン遺伝子において、伸長した不安定なトリヌクレオチド反復によって引き起こされると考えられており、これは、タンパク質生成物中でポリグルタミン反復として翻訳する。かなり広い範囲のトリヌクレオチド反復（９～３５）が正常な対照で特定されており、４０を超える反復数は異常であるとして記載されている。

【0272】

予想されるように、いくつかの実施形態による方法を使用して得られた精度は、両方の反復が独立して分析された場合と比較して、両方の反復を含有する配列グラフに整列された場合に、実質的に高かった。その他のＳＴＲ遺伝子型と比較して、同様の改善が観察された（図７）。

【0273】

実施形態が縮重ＤＮＡ反復の遺伝子型決定を行うことができることを実証するために、本発明者らは、１５０の健康な対照におけるＰＨＯＸ２Ｂ遺伝子及び既知の病原性伸長を保有している１つのサンプルにおいて、ポリアラニン反復を分析した。ＰＨＯＸ２Ｂは、先天性中枢性低換気症候群（congenital central hypoventilation syndrome）を引き起こすように伸長し得る、２０個のコドンのポリアラニン反復を含有する。本反復について既知のものと整合する（Ａｍｉｅｌｅｔａｌ．２００３）、全ての、しかし少数の対照が２０／２０として遺伝子型決定された。実施形態は、２０／２７として、伸長を有する唯一のサンプルを正確に遺伝子型決定する。この遺伝子型の正確性を、サンガーシーケンシングによって確認した。実施形態はまた、ＳｅｒａＣａｒｅＬｉｆｅＳｃｉｅｎｃｅｓ（ＳｕｐｐｌｅｍｅｎｔａｒｙＭａｔｅｒｉａｌｓを参照されたい）から得られたサンプルの３つのＷＧＳ複製物において、ＭＳＨ２遺伝子中のアデノシンホモポリマーに隣接する病原性ＳＮＶを正確に検出した。

【0274】

要約すると、本発明者らは、複雑な遺伝子座のより正確な遺伝子型決定の必要性に対処する新規な方法を開発した。本方法は、ポリアラニン反復を遺伝子型決定し、小さいバリアント及びその他の反復にごく近接した反復を含む困難な領域を解決することができる。本発明者らは、現在実装されている配列グラフフレームワークの柔軟性が、種々の新規なバリアントコーリング用途を可能にし得ることを期待する。
ＨＴＴ遺伝子座におけるＣＡＧ及びＣＣＧＳＴＲの分析

【0275】

ｗｇｓｉｍ（Ｌｉ，ｎ．ｄ．）を使用して、ＣＡＧ及びＣＣＧ反復遺伝子型の各組み合わせについて、ショートリードサンプルをシミュレートした。本発明者らは、リード長さを１５０、メイトエンド間の距離を３５０、メイトエンドの距離に関する標準偏差を５０、変異率及びベースエラー率を０．００１０、及びインデルの分率を０に設定した。対の数を設定して、遺伝子座の４０ｘの確率を得た。リードは、ＢＷＡ－ＭＥＭ０．７．１７－ｒ１１９４－ｄｉｒｔｙ（ＬＬ２０１３）を用いてＧＲＣｈ３７参照へと整列した。

【0276】

これらのデータを、いくつかの実施形態で２つの方法で分析した。最初に、本発明者らは、発現（ＣＡＧ）^＊ＣＡＡＣＡＧ（ＣＣＧ）^＊を使用してＨＴＴ遺伝子座の構造を特定し、リードが両方の反復を含む配列グラフに整列されることを保証する。次に、いくつかの実施形態を使用して、各反復を独立して分析する。本モードでは、リードをＣＡＧＳＴＲを表すグラフに、また別個に、ＣＣＧＳＴＲを表すグラフに整列させた。最後に、本発明者らは、配列グラフを使用しないでリードを反復領域へ整列させるＧａｎｇＳＴＲ及びＴｒｅｄＰａｒｓｅの最新バージョンを用いて、両方のリードを独立して分析した（図７）。

【0277】

図７は、ＨＴＴ遺伝子座においてＣＡＧ及びＣＣＧＳＴＲを遺伝子型決定する工程の正確性を示す。（ａ）リードが、両方の反復を含む配列グラフに整列された場合の実施形態の性能、（ｂ）反復が独立して分析される場合の実施形態の性能、（ｃ）ＧａｎｇＳＴＲの性能、（ｄ）ＴｒｅｄＰａｒｓｅの性能。シミュレーションした各サンプルについて、予想されるＳＴＲ長さから予測されるＳＴＲ長さの最大割合偏差を測定した。青い点線は、参照ゲノム中の遺伝子型に対応し、赤い実線は、病原性伸長の閾値を表す。本実施形態は、両方の反復を共に遺伝子型決定する場合に、全てのサンプルについて適切な遺伝子型を正確に予測する。共同遺伝子型決定は、反復のうちの１つがもう一方よりも著しく長い場合に、特に高い相対誤差率を示した３つのツールのいずれかを用いた両方のリードの別個の遺伝子型決定にわたって、高い利点を提供する。
データセット

【0278】

ＰＨＯＸ２Ｂポリアラニン反復の分析に使用される１５０個の無関係な対照についてのＰＣＲを含まないＷＧＳシーケンシングデータは、ポラリス・ダイバーシティ・コホート（Polaris Diversity Cohort）である。これは、ＩｎｔｅｒｎａｔｉｏｎａｌＧｅｎｏｍｅＳａｍｐｌｅＲｅｓｏｕｒｃｅ（１０００ＧｅｎｏｍｅｓＰｒｏｊｅｃｔＣｏｎｓｏｒｔｉｕｍｅｔａｌ．２０１５）（ｗｗｗ｜．｜ｉｎｔｅｒｎａｔｉｏｎａｌｇｅｎｏｍｅ｜．｜ｏｒｇ／）から選択されるサンプルからなる。ＷＧＳデータは、ＥｕｒｏｐｅａｎＧｅｎｏｍｅ－ｐｈｅｎｏｍｅＡｒｃｈｉｖｅ（ＥＧＡ；ｗｗｗ｜．｜ｅｂｉ｜．｜ａｃ｜．｜ｕｋ／ｅｇａ／ｈｏｍｅ；ＰＲＪＥＢ２０６５４）、及びＮＣＢＩＳｅｑｕｅｎｃｅＲｅａｄＡｒｃｈｉｖｅ（ＳＲＡ；ｗｗｗ｜．｜ｎｃｂｉ｜．｜ｎｌｍ｜．｜ｎｉｈ｜．｜ｇｏｖ／ｓｒａ；ｂｉｏｐｒｏｊｅｃｔ：３８７１４８）から取得することができる。サンプルの説明（ｇｉｔｈｕｂ｜｜ｃｏｍ／Ｉｌｌｕｍｉｎａ／Ｐｏｌａｒｉｓ／ｗｉｋｉ／ＨｉＳｅｑＸＤｉｖｅｒｓｉｔｙ－Ｃｏｈｏｒｔ）。

【0279】

ＰＨＯＸ２Ｂにおける２０／２７伸長を有するサンプルは、ＧｅｎｅｔｉｃｓＬａｂｏｒａｔｏｒｉｅｓＭｏｌｅｃｕｌａｒＧｅｎｅｔｉｃｓ，Ａｄｄｅｎｂｒｏｏｋｅ’ｓＴｒｅａｔｍｅｎｔＣｅｎｔｒｅ，ａｎｄＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙから入手した。

【0280】

ＳｅｒａＣａｒｅＬｉｆｅＳｃｉｅｎｃｅｓのサンプルであるＳｅｒａｓｅｑＩｎｈｅｒｉｔｅｄＣａｎｃｅｒＤＮＡＭｉｘｖ１は、病原性及びコールに対して硬性の両方であることが知られているバリアントを含有する。バリアントは、全て５０％の予想されるバリアント頻度を有する、良好に特徴付けられた細胞株ＧＭ２４３８５に合成的に添加されている。これらの改変された変異の１つは、長いホモポリマーＡ領域に直接隣接するＭＳＨ２遺伝子中のＳＮＶに対応する。

【0281】

ＩｌｌｕｍｉｎａのＴｒｕＳｅｑＰＣＲフリーキットを用いて、ＳｅｒａＣａｒｅのサンプルの３つの複製物を調製した。ＸＰワークフローを使用して、複製物をＮｏｖａＳｅｑ６０００の単一レーン上で実行し、２×１５１のリード長さで配列決定した。「ＳｅｎｔｉｅｏｎＤＮＡＳｅｑＦＡＳＴＱｔｏＶＣＦ’及び「ＷｈｏｌｅＧｅｎｏｍｅＲｅｑｕｅｎｃｉｎｇｖ８．０．０’Ｂａｓｅｓｐａｃｅａｐｐｓ（ｈｔｔｐｓ：／／ｂａｓｅｓｐａｃｅ．ｉｌｌｕｍｉｎａ．ｃｏｍ）を使用して複製物を分析した。Ｓｅｎｔｉｅｏｎは、ＳｅｎｔｉｅｏｎとしてのＢｒｏａｄ’ｓＧＡＴＫソフトウエアスイートの変形コーリング性能のプロキシと見なすことができる。ソフトウエアソリューションのいずれも、ＭＳＨ２ＳＮＶを正確に特定することができなかった。Ｆａｓｔｑファイル及び分析結果は、Ｂａｓｅｓｐａｃｅ：ｈｔｔｐｓ：／／ｂａｓｅｓｐａｃｅ．ｉｌｌｕｍｉｎａ．ｃｏｍ／ｓ／ＨＡＱＮｘＪｙＥｔＪＬＰを介して提供される。

【0282】

本開示は、その趣旨又は本質的な特徴から逸脱することなく、その他の特定の形態で具現化されてもよい。記載された実施形態は、全ての点において、例示的なものに過ぎず、限定的ではないと見なされるべきである。したがって、本開示の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示される。特許請求の範囲の意味及び均等範囲内に含まれる全ての変更は、それらの範囲内に包含されるものである。

【図1A】