IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ウルティマ ジェノミクス, インコーポレイテッドの特許一覧

特表2022-533801合成による高速フォワードシークエンシング
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2022-07-25
(54)【発明の名称】合成による高速フォワードシークエンシング
(51)【国際特許分類】
   C12Q 1/6869 20180101AFI20220715BHJP
   C12N 15/09 20060101ALN20220715BHJP
【FI】
C12Q1/6869 Z
C12N15/09 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2022512704
(86)(22)【出願日】2020-05-01
(85)【翻訳文提出日】2021-12-28
(86)【国際出願番号】 US2020031163
(87)【国際公開番号】W WO2020227143
(87)【国際公開日】2020-11-12
(31)【優先権主張番号】62/842,534
(32)【優先日】2019-05-03
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/904,274
(32)【優先日】2019-09-23
(33)【優先権主張国・地域又は機関】US
(31)【優先権主張番号】62/971,530
(32)【優先日】2020-02-07
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】521480341
【氏名又は名称】ウルティマ ジェノミクス, インコーポレイテッド
(74)【代理人】
【識別番号】100078282
【弁理士】
【氏名又は名称】山本 秀策
(74)【代理人】
【識別番号】100113413
【弁理士】
【氏名又は名称】森下 夏樹
(74)【代理人】
【識別番号】100181674
【弁理士】
【氏名又は名称】飯田 貴敏
(74)【代理人】
【識別番号】100181641
【弁理士】
【氏名又は名称】石川 大輔
(74)【代理人】
【識別番号】230113332
【弁護士】
【氏名又は名称】山本 健策
(72)【発明者】
【氏名】プラット, マーク
(72)【発明者】
【氏名】アルモジー, ギラッド
(72)【発明者】
【氏名】ブリンザ, ドミトル
(72)【発明者】
【氏名】トレパグニア, エリアン
(72)【発明者】
【氏名】バラド, オマー
(72)【発明者】
【氏名】エツィオーニ, ヨアヴ
(72)【発明者】
【氏名】オーバーストラス, フロリアン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
(57)【要約】
ポリヌクレオチドについてのカップリングされたシークエンシングリードペアを生成する方法、およびカップリングされたシークエンシングリードペアを解析する方法が、本明細書に記載される。カップリングされたシークエンシングリードペアを解析して、カップリングされたシークエンシングリードペアの中の直接シークエンシングされない遺伝子座にあるものを含むポリヌクレオチドバリアントを検出することができる。他の解析方法は、カップリングされたシークエンシングリードペアを使用してコンセンサス配列を構築または検証するステップを含むことができる。
【特許請求の範囲】
【請求項1】
カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法であって、
(a)前記ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
(b)前記ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用して前記プライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(c)ステップ(b)で伸長された前記プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して第2の領域を通してさらに伸長するステップであって、(i)前記プライマーが、前記伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、前記第2の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、前記第2の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)前記第2の領域を通した前記プライマーの伸長が、ステップ(b)における前記プライマーの伸長よりも速く進行する、ステップ;および
(d)前記ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ
を含む方法。
【請求項2】
前記第2の領域を通した前記プライマーの伸長が、前記第1の領域を通した前記プライマーの伸長より速く進行する、請求項1に記載の方法。
【請求項3】
前記第1の領域の前記シークエンシングデータを前記第3の前記シークエンシングデータと関連付けるステップをさらに含む、請求項1または2に記載の方法。
【請求項4】
カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法であって、
(a)プライマーを前記ポリヌクレオチドの第1の領域とハイブリダイズしてハイブリダイズされた鋳型を形成するステップ;
(b)前記プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して第2の領域を通して伸長するステップであって、(i)前記プライマーが、前記伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、前記第2の領域を通して伸長される、または(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、前記第2の領域のフロー順序の少なくとも1ステップで使用される、ステップ;および
(c)前記ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(b)で伸長された前記プライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ
を含む方法。
【請求項5】
前記第1の領域が、前記プライマーの標的にされる天然に存在する配列を含む、請求項4に記載の方法。
【請求項6】
前記プライマーが、前記伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、前記第2の領域を通して伸長される、請求項1から5のいずれか一項に記載の方法。
【請求項7】
前記第2の領域を通して前記プライマーを伸長するために使用される前記ヌクレオチドの少なくとも一部分が、非標識ヌクレオチドである、請求項1から6のいずれか一項に記載の方法。
【請求項8】
前記第2の領域を通して前記プライマーを伸長するために使用される前記ヌクレオチドが、非標識ヌクレオチドである、請求項1から6のいずれか一項に記載の方法。
【請求項9】
少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、前記第2の領域のフロー順序の少なくとも1ステップで使用される、請求項1から8のいずれか一項に記載の方法。
【請求項10】
前記第2の領域のフロー順序が、5つまたはそれより多くのヌクレオチドフローを含む、請求項1から9のいずれか一項に記載の方法。
【請求項11】
前記ヌクレオチドフローの各々が、単一のヌクレオチド塩基を含む、請求項10に記載の方法。
【請求項12】
前記第2の領域のフロー順序が、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%またはそれより多くにおける可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する、請求項10または11に記載の方法。
【請求項13】
前記第2の領域のフロー順序が、1フロー当り0.6のまたはそれを超える塩基組込みの効率を有する、請求項10から12のいずれか一項に記載の方法。
【請求項14】
参照配列および前記第2の領域のフロー順序を使用して前記第2の領域についての予想シークエンシングデータを決定するステップをさらに含む、請求項1から13のいずれか一項に記載の方法。
【請求項15】
前記プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して前記第3の領域を通して伸長され、前記方法が、前記第2の領域についての参照配列、前記第2の領域のフロー順序、前記第3の領域のフロー順序、および前記第3の領域についての参照配列を使用して、前記第3の領域についての予想シークエンシングデータを決定するステップをさらに含む、請求項1から14のいずれか一項に記載の方法。
【請求項16】
前記第3の領域のフロー順序が、5つまたはそれより多くのヌクレオチドフローを含む、請求項15に記載の方法。
【請求項17】
前記ヌクレオチドフローの各々が、単一のヌクレオチド塩基を含む、請求項16に記載の方法。
【請求項18】
前記第3の領域のフロー順序が、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%またはそれより多くにおける可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する、請求項16または17に記載の方法。
【請求項19】
前記第3の領域のフロー順序が、1フロー当り0.6のまたはそれを超える塩基組込みの効率を有する、請求項16から18のいずれか一項に記載の方法。
【請求項20】
前記プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して前記第3の領域を通して伸長され、前記方法が、前記第2の領域についての参照配列、前記第2の領域のフロー順序、前記第3の領域のフロー順序、および前記第3の領域の配列に関連するシークエンシングデータを使用して、前記第3の領域についての予想シークエンシングデータを決定するステップをさらに含み、前記第3の領域の配列に関連する前記シークエンシングデータが、前記第3の領域について生成される同じまたは異なるシークエンシングデータである、請求項1から19のいずれか一項に記載の方法。
【請求項21】
前記第2の領域または前記第3の領域についての前記予想参照データが、バイナリまたは非バイナリフローグラムを含む、請求項14から20のいずれか一項に記載の方法。
【請求項22】
前記第2の領域のフロー順序、および前記第2の領域についての第2の参照配列を使用して、前記第2の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含み、前記第2の参照配列が、前記試験バリアントを含む、請求項14から21のいずれか一項に記載の方法。
【請求項23】
前記プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して前記第3の領域を通して伸長され、前記方法が、前記第2の領域についての第2の参照配列、前記第2の領域のフロー順序、前記第3の領域のフロー順序、および前記第3の領域についての参照配列を使用して、前記第3の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含む、請求項22に記載の方法。
【請求項24】
前記プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して前記第3の領域を通して伸長され、前記方法が、前記第2の領域についての第2の参照配列、前記第2の領域のフロー順序、前記第3の領域のフロー順序、および前記第3の領域の配列に関連するシークエンシングデータを使用して、前記第3の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含み、前記第3の領域の配列に関連する前記シークエンシングデータが、前記第3の領域について生成される同じまたは異なるシークエンシングデータである、請求項22に記載の方法。
【請求項25】
前記第2の領域または前記第3の領域についての予想参照シークエンシングデータが、バイナリまたは非バイナリフローグラムを含む、請求項22から24のいずれか一項に記載の方法。
【請求項26】
カップリングされたシークエンシングリードペアを参照配列にマッピングする方法であって、
請求項1から25のいずれか一項に記載の方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップ;および
マッピングされなかった第1の領域もしくはその一部分、またはマッピングされなかった第3の領域もしくはその一部分を、前記第2の領域の長さを示す距離情報を使用して、前記参照配列にマッピングするステップ
を含む、方法。
【請求項27】
構造バリアントを検出する方法であって、
請求項1から25のいずれか一項に記載の方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップ;
マッピングされなかった第1の領域もしくはその一部分またはマッピングされなかった第3の領域もしくはその一部分についての参照配列内の予想遺伝子座を、前記第2の領域の長さを示す距離情報を使用して決定するステップ;
前記参照配列に基づいて前記予想遺伝子座における配列についての予想シークエンシングデータを決定するステップ;および
前記マッピングされなかった第1の領域もしくはその一部分または前記マッピングされなかった第3の領域もしくはその一部分を前記予想シークエンシングデータと比較することにより構造バリアントを検出するステップであって、前記マッピングされなかった第1の領域もしくはその一部分または前記マッピングされなかった第3の領域もしくはその一部分と前記予想シークエンシングデータとの差が、前記構造バリアントを示す、ステップ
を含む方法。
【請求項28】
構造バリアントを検出する方法であって、
請求項1から25のいずれか一項に記載の方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップを含み、マッピングされなかった第1の領域、またはマッピングされなかった第3の領域が、前記参照配列内にマッピング不可能である、方法。
【請求項29】
構造バリアントを検出する方法であって、
請求項1から25のいずれか一項に記載の方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分および第3の領域もしくはその一部分を、参照配列にマッピングするステップ;
マッピングされた第1の領域とマッピングされた第3の領域の間のマッピング距離情報を決定するステップ;および
前記マッピング距離情報を前記第2の領域の予想距離情報と比較することにより前記構造バリアントを検出するステップであって、前記マッピング距離情報と前記予想距離情報との差が前記構造バリアントを示す、ステップ
を含む方法。
【請求項30】
前記構造バリアントが、染色体融合、逆位、挿入、または欠失である、請求項27から29のいずれか一項に記載の方法。
【請求項31】
前記バリアントが、前記第2の領域内の挿入または欠失である、請求項27から30のいずれか一項に記載の方法。
【請求項32】
カップリングされたシークエンシングリードペアを参照配列にマッピングする方法であって、
請求項1から25のいずれか一項に記載の方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分および第3の領域もしくはその一部分を、参照配列の第1の位置および第2の位置を含む2つまたはそれより多くの異なる位置ペアにマッピングするステップ;および
前記第2の領域の長さを示す第1の距離情報、および前記2つまたはそれより多くの位置ペアについての前記第1の位置と前記第2の位置の間の距離を示す第2の距離情報を使用して、正しい位置を選択するステップ
を含む方法。
【請求項33】
伸長された前記プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して前記第3の領域を通して伸長される、請求項1から25のいずれか一項に従って生成された、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアントを検出する方法であって、
前記第1の領域またはその一部分を参照配列にマッピングするステップ;
(1)前記第2の領域についての参照配列、前記第2の領域のフロー順序、前記第3の領域のフロー順序、および前記第3の領域についての参照配列、または(2)前記第2の領域についての参照配列、前記第2の領域のフロー順序、前記第3の領域のフロー順序、および前記第3の領域の配列に関連する生成シークエンシングデータを使用して、前記第3の領域またはその一部分についての予想シークエンシングデータを決定するステップであって、前記第3の領域の配列に関連する生成配列データが、前記第3の領域について生成された同じまたは異なる配列データである、ステップ;および
前記第3の領域についての前記予想シークエンシングデータを前記第3の領域の配列に関連する前記生成シークエンシングデータと比較することによりバリアントの存在を検出するステップ
を含む方法。
【請求項34】
前記バリアントが、構造バリアントである、請求項33に記載の方法。
【請求項35】
前記構造バリアントが、染色体融合、逆位、挿入、または欠失である、請求項34に記載の方法。
【請求項36】
前記バリアントが、一塩基多型(SNP)である、請求項33に記載の方法。
【請求項37】
試験バリアントを検出するために使用され、前記参照配列が前記試験バリアントを含む、請求項33から36のいずれか一項に記載の方法。
【請求項38】
前記試験バリアントが、第2のポリヌクレオチド中の試験バリアント4を同定することにより選択される、請求項37に記載の方法。
【請求項39】
検出された試験バリアントと前記ポリヌクレオチドの前記第1の領域または第3の領域におけるシークエンシングされた対立遺伝子とを関連付けるステップを含む、請求項37または38に記載の方法。
【請求項40】
ポリヌクレオチドのシークエンシングされなかった領域における塩基トランスバージョンの存在を検出するためのカップリングされたシークエンシングリードペアを生成する方法であって、
(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
(b)前記ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(c)ステップ(b)において伸長された前記プライマーを、第2の領域を通して、(1)シトシンおよびチミンと(2)アデニンおよびグアニンとの交互ヌクレオチドペアを含むフロー順序を使用してさらに伸長するステップ;および
(d)前記ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長された前記プライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ
を含む方法。
【請求項41】
カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法であって、
(a)プライマーを前記ポリヌクレオチドの第1の領域とハイブリダイズしてハイブリダイズされた鋳型を形成するステップ;
(b)前記プライマーを、第2の領域を通して、(1)シトシンおよびチミンと(2)アデニンおよびグアニンとの交互ヌクレオチドペアを含むフロー順序を使用して伸長するステップ;および
(c)前記ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(b)で伸長された前記プライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ
を含む方法。
【請求項42】
前記第1の領域が、前記プライマーの標的にされる天然に存在する配列を含む、請求項41に記載の方法。
【請求項43】
前記プライマーが、前記伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、前記第2の領域を通して伸長される、請求項41または42に記載の方法。
【請求項44】
ポリヌクレオチドのシークエンシングされなかった領域における塩基トランスバージョンの存在を検出する方法であって、
前記プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して前記第3の領域を通して伸長される、請求項41から43のいずれか一項に従って生成された、カップリングされたシークエンシングリードペアの第1の領域またはその一部分および第3の領域またはその一部分を、参照配列にマッピングするステップ;
第2の領域のフロー順序、前記第3の領域のフロー順序、および前記参照配列を使用して、前記第3の領域についての予想シークエンシングデータを決定するステップ;および
前記第3の領域についての予想シークエンシングデータと前記第3の領域についての生成シークエンシングデータとの差に基づいて前記塩基トランスバージョンの存在を検出するステップ
を含む方法。
【請求項45】
前記第3の領域についての前記予想シークエンシングデータが、前記第2の領域のフロー順序、前記第3の領域のフロー順序、前記第2の領域についての参照配列、および前記第3の領域についての参照配列を使用して決定される、請求項44に記載の方法。
【請求項46】
前記第3の領域についての前記予想シークエンシングデータが、前記第2の領域のフロー順序、前記第3の領域のフロー順序、前記第2の領域についての参照配列、および前記第3の領域の配列に関連する生成配列データを使用して決定され、前記第3の領域の配列に関連する前記生成配列データが、前記第3の領域について生成された同じまたは異なる配列データである、請求項44に記載の方法。
【請求項47】
前記第3の領域についての前記予想シークエンシングデータが、バイナリまたは非バイナリフローグラムを含む、請求項44から46のいずれか一項に記載の方法。
【請求項48】
1つまたは複数のコンセンサス配列を生成する方法であって、請求項1から25のいずれか一項に従って生成された複数のカップリングされたシークエンシングリードペアをアセンブルするステップを含む、方法。
【請求項49】
1つまたは複数のコンセンサス配列から選択されたコンセンサス配列の一部分を、前記選択されたコンセンサス配列の一部分に関連する、選択された、カップリングされたシークエンシングリードを使用して検証するステップをさらに含み、前記選択された、カップリングされたシークエンシングリードを生成する際に前記第3の領域を通して伸長されるプライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長され、前記検証するステップが、
前記第2の領域のフロー順序、前記第3の領域のフロー順序、および前記選択されたコンセンサス配列の一部分を使用して、前記選択された、カップリングされたシークエンシングリードの第3の領域についての予想シークエンシングデータを決定すること;および
前記選択された、カップリングされたシークエンシングリードの前記第3の領域についての前記予想シークエンシングデータを前記第3の領域の前記生成シークエンシングデータと比較することにより、前記選択されたコンセンサス配列の一部分を検証すること
を含む、請求項48に記載の方法。
【請求項50】
試験バリアントのステータスを検証する方法であって、
請求項1から25のいずれか一項に従って生成された複数の重複するカップリングされたシークエンシングリードペアに亘る前記バリアントのステータスを比較するステップであって、前記複数の重複するカップリングされたシークエンシングリードペアが、前記試験バリアントの遺伝子座に対応する遺伝子座を含む、ステップ;
前記比較に基づいて前記バリアントのステータスを検証するステップ
を含む方法。
【請求項51】
試験試料中の短い遺伝子バリアントを検出するための方法であって、
請求項1から25のいずれか一項に記載のカップリングされたシークエンシングリードペアを生成するステップ;
前記ポリヌクレオチドの第3の領域の配列に関連する前記シークエンシングデータを前記ポリヌクレオチドの前記第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;および
前記ポリヌクレオチドの前記第2の領域における短い遺伝子バリアントの存在または非存在をコールするステップ
を含む方法。
【請求項52】
前記第1の領域の前記配列に関連する前記シークエンシングデータ、または前記第3の領域の前記配列に関連する前記シークエンシングデータが、複数のフロー位置の中の各フロー位置に取り込まれた塩基の数を示す塩基カウントを表すフローシグナルを含む、請求項1から51のいずれか一項に記載の方法。
【請求項53】
前記フローサイクル順序が、同じ順序で反復される4つの別々のフローを含む、請求項1から52のいずれか一項に記載の方法。
【請求項54】
前記フローサイクル順序が、5つまたはそれより多くの別々のフローを含む、請求項1から52のいずれか一項に記載の方法。
【請求項55】
カップリングされたシークエンシングリードペアを生成するステップが、
前記プライマーを、第4の領域のフロー順序で提供されるヌクレオチドを使用して第4の領域を通して伸長すること、ここで、(i)前記プライマーが、前記伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、前記第4の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、前記第4の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)前記第4の領域を通した前記プライマーの伸長が、前記第1の領域または前記第3の領域を通した前記プライマーの伸長よりも速く進行する;および
前記ポリヌクレオチドの第5の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用する第4を通して伸長された前記プライマーのさらなる伸長、および取り込まれた標識ヌクレオチドの存在または非存在の検出により、生成すること
を含む、請求項1から54のいずれか一項に記載の方法。
【請求項56】
前記第5の領域の前記シークエンシングデータを前記第1の領域の前記シークエンシングデータまたは前記第3の領域の前記シークエンシングデータと関連付けるステップをさらに含む、請求項55に記載の方法。
【請求項57】
前記ポリヌクレオチドが、ローリングサークル増幅を使用して増幅される、請求項1から56のいずれか一項に記載の方法。
【請求項58】
試験試料中の短い遺伝子バリアントを検出する方法であって、
(a)ローリングサークル増幅(RCA)を使用してポリヌクレオチドを増幅させて、前記ポリヌクレオチドの第1のコピーと前記ポリヌクレオチドの第2のコピーとを少なくとも含むRCA増幅ポリヌクレオチドを生成するステップ;
(b)前記RCA増幅ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
(c)前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用して前記プライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(d)前記プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの第2の領域を通してさらに伸長するステップであって、(i)前記プライマーが、前記伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの前記第2の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、前記第2の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの前記第2の領域を通した前記プライマーの伸長が、前記第1の領域を通した前記プライマーの伸長よりも速く進行する、ステップ;
(e)前記ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(f)前記ポリヌクレオチドの前記第3の領域について生成された前記シークエンシングデータを前記ポリヌクレオチドの前記第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;
(g)前記ポリヌクレオチドの前記第2の領域における前記短い遺伝子バリアントの存在をコールするステップ;
(h)前記ポリヌクレオチドの前記第2のコピーの中の前記ポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用して前記プライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;および
(i)前記ポリヌクレオチドの前記第2の領域における前記短い遺伝子バリアントのアイデンティティーをコールするステップ
を含む方法。
【請求項59】
前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの前記第2の領域を通した前記プライマーの伸長が、前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの前記第1の領域を通した前記プライマーの伸長よりも速く進行する、請求項58に記載の方法。
【請求項60】
試験試料中の短い遺伝子バリアントを検出する方法であって、
(a)ローリングサークル増幅(RCA)を使用してポリヌクレオチドを増幅させて、前記ポリヌクレオチドの第1のコピーと前記ポリヌクレオチドの第2のコピーとを少なくとも含むRCA増幅ポリヌクレオチドを生成するステップ;
(b)プライマーを前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの第1の領域にハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
(c)前記プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの第2の領域を通して伸長するステップであって、(i)前記プライマーが、前記伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの前記第2の領域を通して伸長される、ステップ;
(d)前記ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(e)前記ポリヌクレオチドの前記第3の領域について生成された前記シークエンシングデータを前記ポリヌクレオチドの前記第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;
(f)前記ポリヌクレオチドの前記第2の領域における前記短い遺伝子バリアントの存在をコールするステップ;
(g)前記ポリヌクレオチドの前記第2のコピーの中の前記ポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用して前記プライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;および
(h)前記ポリヌクレオチドの前記第2の領域における前記短い遺伝子バリアントのアイデンティティーをコールするステップ
を含む方法。
【請求項61】
前記第1の領域が、前記プライマーの標的にされる天然に存在する配列を含む、請求項60に記載の方法。
【請求項62】
前記ポリヌクレオチドの前記第2のコピーの中の前記ポリヌクレオチドの前記第2の領域の前記配列に関連する前記シークエンシングデータが、前記ポリヌクレオチドの前記第2の領域における前記短い遺伝子バリアントの存在をコールするステップに基づいて動的に生成される、請求項58から61のいずれか一項に記載の方法。
【請求項63】
前記プライマーが、前記伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの前記第2の領域を通して伸長される、請求項58から62のいずれか一項に記載の方法。
【請求項64】
前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの前記第2の領域を通して前記プライマーを伸長するために使用される前記ヌクレオチドの少なくとも一部分が、非標識ヌクレオチドである、請求項58から63のいずれか一項に記載の方法。
【請求項65】
前記ポリヌクレオチドの前記第1のコピーの中の前記ポリヌクレオチドの前記第2の領域を通して前記プライマーを伸長するために使用される前記ヌクレオチドが、非標識ヌクレオチドである、請求項58から64のいずれか一項に記載の方法。
【請求項66】
シークエンシングクラスター内のシークエンシングプライマーを同期化する方法であって、
(a)プライマーをシークエンシングクラスター内のポリヌクレオチドコピーとハイブリダイズするステップ;
(b)前記プライマーを、第1の領域のフローサイクルに従って標識ヌクレオチドを使用して前記ポリヌクレオチドコピーの第1の領域を通して伸長するステップ;
(c)前記プライマーを、1つまたは複数の再位相化フローを使用して前記ポリヌクレオチドコピーの第2の領域を通して伸長するステップであって、少なくとも2つの異なるタイプのヌクレオチドの混合物が、前記1つまたは複数の再位相化フローの各々において使用される、ステップ;および
(d)前記プライマーを、第3の領域のフローサイクルに従って標識ヌクレオチドを使用して前記ポリヌクレオチドコピーの第3の領域を通して伸長するステップ
を含む方法。
【請求項67】
3つの異なるタイプのヌクレオチド塩基の混合物が、前記1つまたは複数の再位相化フローのうちの少なくとも1つにおいて使用される、請求項66に記載の方法。
【請求項68】
前記1つまたは複数の再位相化フローが、4つまたはそれより多くのフローステップを含む、請求項66または67に記載の方法。
【請求項69】
前記1つまたは複数の再位相フローが、任意の順序で:
(i)A、CおよびGヌクレオチドを含むがTヌクレオチドを含まない混合物を含む第1のフロー;
(ii)T、CおよびGヌクレオチドを含むがAヌクレオチドを含まない混合物を含む第2のフロー;
(iii)T、AおよびGヌクレオチドを含むがCヌクレオチドを含まない混合物を含む第3のフロー;および
(iv)T、AおよびCヌクレオチドを含むがGヌクレオチドを含まない混合物を含む第4のフロー
を含む、請求項68に記載の方法。
【請求項70】
前記第1の領域の配列に関連するシークエンシングデータを、前記プライマーを前記第1の領域を通して伸長しながら取り込まれた標識ヌクレオチドの存在または非存在を検出することにより生成するステップを含む、請求項66から69のいずれか一項に記載の方法。
【請求項71】
前記第3の領域の配列に関連するシークエンシングデータを、前記プライマーを前記第3の領域を通して伸長しながら取り込まれた標識ヌクレオチドの存在または非存在を検出することにより生成するステップを含む、請求項66から70のいずれか一項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願への相互参照
本願は、2019年3月3日に出願した米国特許仮出願第62/842,534号、2019年9月23日に出願した米国特許仮出願第62/904,274号および2020年2月7日に出願した米国特許仮出願第62/971,530号に基づく優先権の利益を主張しており、前記仮出願の各々の内容は、それら全体が参照により本明細書に援用される。
【0002】
ASCIIテキストファイルでの配列表の提出
ASCIIテキストファイルでの以下の提出内容は、その全体が参照により本明細書に取り込まれる:コンピュータ可読形式(CRF)の配列表(ファイル名:165272000440SEQLIST.TXT、記録日:2020年4月27日、サイズ:5KB)。
【0003】
発明の分野
カップリングされたシークエンシングリードペアを生成するための方法、およびシークエンシング法から得られたシークエンシングデータを解析する方法を含む、ポリヌクレオチドをシークエンシングする方法が、本明細書で開示される。
【背景技術】
【0004】
背景
ペアエンドシークエンシング法は、ポリヌクレオチド分子の3’および5’末端についてのシークエンシングデータを得るために使用されている。一般に、シークエンシングプライマーが、シークエンシングすべきDNAポリヌクレオチドとハイブリダイズされ、いくつかの塩基がシークエンシングされて、ポリヌクレオチドの第1の末端についてのシークエンシングデータが得られる。次いで、第2のシークエンシングプライマーが、ポリヌクレオチドの他端付近の相補鎖とハイブリダイズされ、シークエンシングされて、ポリヌクレオチドの他端のシークエンシングデータが決定される。ポリヌクレオチドの3’および5’末端についてのシークエンシングデータは、シークエンシングデータが同じシークエンシングクラスターから得られたという事実に基づいて、カップリングされる。ペアエンドシークエンシング法は、次世代シークエンシング(NGS)プロトコルで使用されることが多い。
【0005】
しかし、旧来のペアエンドシークエンシングを使用しても、ポリヌクレオチドの3’末端と5’末端の間の領域に関する情報は得られない(またはほとんど得られない)。ある特定の解析を目的としてペアエンドシークエンシングデータを使用することができるが、ポリヌクレオチドのシークエンシングされなかった領域における特定のバリアントを検出するためにペアエンドシークエンシングデータを使用することはできない。旧来のペアエンドシークエンシング法を使用して一般に見逃されるポリヌクレオチドの領域をシークエンシングするために、ある特定のロングレンジシークエンシング技法が開発された。しかし、ロングレンジシークエンシングは、比較的遅く、かなりのシークエンシングエラーを起こしやすい。
【発明の概要】
【課題を解決するための手段】
【0006】
発明の簡単な要旨
カップリングされたシークエンシングリードペアを生成するための方法、およびシークエンシング法から得られたシークエンシングデータを解析する方法を含む、ポリヌクレオチドをシークエンシングする方法が、本明細書で開示される。
【0007】
カップリングされたシークエンシングリードペアをポリヌクレオチドから生成するための方法は、(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(b)ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(c)ステップ(b)で伸長されたプライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して第2の領域を通してさらに伸長するステップであって、(i)プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、第2の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)第2の領域を通したプライマーの伸長が、ステップ(b)におけるプライマーの伸長よりも速く進行する、ステップ;および(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップを含む。一部の実施形態では、第2の領域を通したプライマーの伸長が、ステップ(b)におけるプライマーの伸長より速く進行する。一部の実施形態では、カップリングされたシークエンシングリードペアを生成する方法は、第1の領域のシークエンシングデータを第3のシークエンシングデータと関連付けるステップを含む。
【0008】
一部の実施形態では、カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法は、(a)プライマーをポリヌクレオチドの第1の領域とハイブリダイズしてハイブリダイズされた鋳型を形成するステップ;(b)プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して第2の領域を通して伸長するステップであって、(i)プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、第2の領域を通して伸長される、または(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用される、ステップ;および(c)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(b)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップを含む。一部の実施形態では、第1の領域が、プライマーの標的にされる天然に存在する配列を含む。
【0009】
一部の実施形態では、プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、第2の領域を通して伸長される。一部の実施形態では、第2の領域を通してプライマーを伸長するために使用されるヌクレオチドの少なくとも一部分は、非標識ヌクレオチドである。一部の実施形態では、第2の領域を通してプライマーを伸長するために使用されるヌクレオチドは、非標識ヌクレオチドである。
【0010】
一部の実施形態では、少なくとも2つの異なるタイプのヌクレオチド塩基の混合物は、第2の領域のフロー順序の少なくとも1ステップで使用される。
【0011】
カップリングされたシークエンシングリードペアを生成する方法の一部の実施形態では、第2の領域のフロー順序は、5つまたはそれより多くのヌクレオチドフローを含む。一部の実施形態では、ヌクレオチドフローの各々は、単一のヌクレオチド塩基を含む。一部の実施形態では、第2の領域のフロー順序は、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%またはそれより多くにおける可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する。一部の実施形態では、誘導されるシグナル変化は、シグナル強度の変化、または新しい実質的にゼロ(もしくは新しいゼロ)もしくは新しい実質的に非ゼロ(もしくは新しい非ゼロ)シグナルである。一部の実施形態では、誘導されるシグナル変化は、新しい実質的にゼロ(もしくは新しいゼロ)または新しい実質的に非ゼロ(もしくは新しい非ゼロ)シグナルである。一部の実施形態では、第2の領域のフロー順序は、1フロー当り0.6のまたはそれを超える塩基取り込みの効率を有する。
【0012】
一部の実施形態では、カップリングされたシークエンシングリードペアを生成する方法は、参照配列および第2の領域のフロー順序を使用して第2の領域についての予想シークエンシングデータを決定するステップを含む。一部の実施形態では、プライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長され、方法は、第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列を使用して、第3の領域についての予想シークエンシングデータを決定するステップをさらに含む。一部の実施形態では、第3の領域のフロー順序は、5つまたはそれより多くのヌクレオチドフローを含む。一部の実施形態では、ヌクレオチドフローの各々は、単一のヌクレオチド塩基を含む。一部の実施形態では、第3の領域のフロー順序は、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%またはそれより多くにおける可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する。一部の実施形態では、誘導されるシグナル変化は、シグナル強度の変化、または新しい実質的にゼロ(もしくは新しいゼロ)もしくは新しい実質的に非ゼロ(もしくは新しい非ゼロ)シグナルである。一部の実施形態では、誘導されるシグナル変化は、新しい実質的にゼロ(もしくは新しいゼロ)または新しい実質的に非ゼロ(もしくは新しい非ゼロ)シグナルである。一部の実施形態では、第3の領域のフロー順序は、1フロー当り0.6のまたはそれを超える塩基組込みの効率を有する。
【0013】
カップリングされたシークエンシングリードペアを生成する方法の一部の実施形態では、プライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長され、方法は、第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連するシークエンシングデータを使用して、第3の領域についての予想シークエンシングデータを決定するステップをさらに含み、第3の領域の配列に関連するシークエンシングデータは、第3の領域について生成される同じまたは異なるシークエンシングデータである。一部の実施形態では、第2の領域または第3の領域についての予想参照データは、バイナリまたは非バイナリフローグラムを含む。一部の実施形態では、方法は、第2の領域のフロー順序、および第2の領域についての第2の参照配列を使用して、第2の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含み、第2の参照配列は、試験バリアントを含む。一部の実施形態では、プライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長され、方法は、第2の領域についての第2の参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列を使用して、第3の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含む。一部の実施形態では、プライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長され、方法は、第2の領域についての第2の参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連するシークエンシングデータを使用して、第3の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含み、第3の領域の配列に関連するシークエンシングデータは、第3の領域について生成される同じまたは異なるシークエンシングデータである。一部の実施形態では、第2の領域または第3の領域についての予想参照シークエンシングデータは、バイナリまたは非バイナリフローグラムを含む。
【0014】
一部の実施形態では、カップリングされたシークエンシングリードペアを生成する方法は、参照配列および第2の領域のフロー順序を使用して第2の領域についての予想シークエンシングデータを決定するステップを含む。一部の実施形態では、ステップ(d)で伸長されるプライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長され、方法は、第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列を使用して、第3の領域についての予想シークエンシングデータを決定するステップをさらに含む。一部の実施形態では、ステップ(d)で伸長されるプライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長され、方法は、第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連するシークエンシングデータを使用して、第3の領域についての予想シークエンシングデータを決定するステップをさらに含み、第3の領域の配列に関連するシークエンシングデータは、ステップ(d)で生成される同じまたは異なるシークエンシングデータである。一部の実施形態では、第2の領域または第3の領域についての予想参照データは、バイナリまたは非バイナリフローグラムを含む。一部の実施形態では、方法は、第2の領域のフロー順序、および第2の領域についての第2の参照配列を使用して、第2の領域についての予想試験バリアントシークエンシングデータを決定するステップを含み、第2の参照配列は、試験バリアントを含む。一部の実施形態では、ステップ(d)で伸長されるプライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長され、方法は、第2の領域についての第2の参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列を使用して、第3の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含む。一部の実施形態では、ステップ(d)で伸長されるプライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長され、方法は、第2の領域についての第2の参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連するシークエンシングデータを使用して、第3の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含み、第3の領域の配列に関連するシークエンシングデータは、ステップ(d)で生成される同じまたは異なるシークエンシングデータである。一部の実施形態では、第2の領域または第3の領域についての予想参照シークエンシングデータは、バイナリまたは非バイナリフローグラムを含む。
【0015】
実施形態では、カップリングされたシークエンシングリードペアを生成するステップは、(e)ステップ(d)で伸張したプライマーを、第4の領域のフロー順序で提供されるヌクレオチドを使用して第4の領域を通して伸長すること、ここで、(i)プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、第4の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物は、第4の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)第4の領域を通したプライマーの伸長は、ステップ(b)またはステップ(d)においてプライマーの伸長よりも速く進行する;および(f)ポリヌクレオチドの第5の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用する(e)において伸長されたプライマーのさらなる伸長、および取り込まれた標識ヌクレオチドの存在または非存在の検出により、生成することを含む。一部の実施形態では、方法は、第5の領域のシークエンシングデータを第1の領域のシークエンシングデータまたは第3の領域のシークエンシングデータと関連付けるステップをさらに含む。
【0016】
カップリングされたシークエンシングリードペアを参照配列にマッピングする方法であって、カップリングされたシークエンシングリードの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップ;およびマッピングされなかった第1の領域もしくはその一部分、またはマッピングされなかった第3の領域もしくはその一部分を、第2の領域の長さを示す距離情報を使用して、参照配列にマッピングするステップを含む、方法も本明細書に記載される。
【0017】
さらに、構造バリアントを検出する方法であって、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップ;マッピングされなかった第1の領域もしくはその一部分またはマッピングされなかった第3の領域もしくはその一部分についての参照配列内の予想遺伝子座を、第2の領域の長さを示す距離情報を使用して決定するステップ;参照配列に基づいて予想遺伝子座における配列についての予想シークエンシングデータを決定するステップ;およびマッピングされなかった第1の領域もしくはその一部分またはマッピングされなかった第3の領域もしくはその一部分を予想シークエンシングデータと比較することにより構造バリアントを検出するステップであって、マッピングされなかった第1の領域もしくはその一部分またはマッピングされなかった第3の領域もしくはその一部分と予想シークエンシングデータとの差は、構造バリアントを示す、ステップを含む方法が提供される。
【0018】
また、構造バリアントを検出する方法であって、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップを含み、マッピングされなかった第1の領域、またはマッピングされなかった第3の領域は、参照配列内にマッピング不可能である、方法が本明細書に提供される。一部の実施形態では、方法は、第2の領域の長さを示す予想距離情報に基づいて参照配列内の構造バリアントの遺伝子座を決定するステップをさらに含む。
【0019】
一部の実施形態では、マッピングされなかった第1の領域もしくはその一部分、またはマッピングされなかった第3の領域もしくはその一部分は、参照配列と比較して挿入の中に存在する。一部の実施形態では、マッピングされなかった第1の領域もしくはその一部分、またはマッピングされなかった第3の領域もしくはその一部分は、参照配列と比較して挿入の始点または終点にまたがる。
【0020】
さらに、構造バリアントを検出する方法であって、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分および第3の領域もしくはその一部分を、参照配列にマッピングするステップ;マッピングされた第1の領域とマッピングされた第3の領域の間のマッピング距離情報を決定するステップ;およびマッピング距離情報を第2の領域の予想距離情報と比較することにより構造バリアントを検出するステップであって、マッピング距離情報と予想距離情報との差が構造バリアントを示す、ステップを含む方法が本明細書に提供される。一部の実施形態では、構造バリアントは、染色体融合、逆位、挿入、または欠失である。一部の実施形態では、バリアントは、第2の領域内の挿入または欠失である。
【0021】
本明細書に記載の方法の一部の実施形態では、距離情報は、第2の領域のフロー順序に関連する情報および第2の領域における塩基の確率分布を使用して決定される。一部の実施形態では、第2の領域のフロー順序に関連する情報は、ステップ(c)においてプライマーを伸長するために同時に使用されるヌクレオチド塩基の異なるタイプの数であるる。一部の実施形態では、第2の領域における塩基の確率分布は、ゲノム内の塩基の分布から決定される。
【0022】
本明細書に記載の方法の一部の実施形態では、距離情報は、参照配列および第2の領域のフロー順序を使用して決定された第2の領域についての予想シークエンシングデータから導出される。一部の実施形態では、予想シークエンシングデータは、バイナリまたは非バイナリフローグラムを含む。
【0023】
さらに、カップリングされたシークエンシングリードペアを参照配列にマッピングする方法であって、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分および第3の領域もしくはその一部分を、参照配列の第1の位置および第2の位置を含む2つまたはそれより多くの異なる位置ペアにマッピングするステップ;および第2の領域の長さを示す第1の距離情報、および2つまたはそれより多くの位置ペアについての第1の位置と第2の位置の間の距離を示す第2の距離情報を使用して、正しい位置を選択するステップを含む方法が本明細書に記載される。一部の実施形態では、距離情報は、第2の領域のフロー順序に関連する情報および第2の領域における塩基の確率分布を使用して決定される。一部の実施形態では、第2の領域のフロー順序に関連する情報は、ステップ(c)においてプライマーを伸長するために同時に使用されるヌクレオチド塩基の異なるタイプの数である。一部の実施形態では、第2の領域における塩基の確率分布は、ゲノム内の塩基の分布から決定される。一部の実施形態では、距離情報は、参照配列および第2の領域のフロー順序を使用して決定された第2の領域についての予想シークエンシングデータから導出される。一部の実施形態では、予想参照シークエンシングデータは、バイナリまたは非バイナリフローグラムを含む。
【0024】
また、ステップ(d)において伸長されたプライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長される、上記方法のいずれかに従って生成された、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアントを検出する方法であって、第1の領域またはその一部分を参照配列にマッピングするステップ;(1)第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列、または(2)第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連する生成シークエンシングデータを使用して、第3の領域またはその一部分についての予想シークエンシングデータを決定するステップであって、第3の領域の配列に関連する生成配列データが、ステップ(d)において生成された同じまたは異なる配列データである、ステップ;および第3の領域についての予想シークエンシングデータを第3の領域の配列に関連する生成シークエンシングデータと比較することによりバリアントの存在を検出するステップを含む方法が本明細書に記載される。一部の実施形態では、バリアントは、構造バリアントである。一部の実施形態では、構造バリアントは、染色体融合、逆位、挿入、または欠失である。一部の実施形態では、バリアントは、一塩基多型(SNP)である。一部の実施形態では、試験バリアントを検出するために使用され、参照配列が試験バリアントを含む。一部の実施形態では、試験バリアントは、第2のポリヌクレオチド中の試験バリアントを同定することにより選択される。一部の実施形態では、方法は、検出された試験バリアントとポリヌクレオチドの第1の領域または第3の領域におけるシークエンシングされた対立遺伝子とを関連付けるステップをさらに含む。
【0025】
また、第3の領域を通して伸長されたプライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長される、上記の方法のいずれかに従って生成された、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアントを検出する方法であって、第1の領域またはその一部分を参照配列にマッピングするステップ;(1)第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列、または(2)第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連する生成シークエンシングデータを使用して、第3の領域またはその一部分についての予想シークエンシングデータを決定するステップであって、第3の領域の配列に関連する生成配列データが、第3の領域について生成された同じまたは異なる配列データである、ステップ;および第3の領域についての予想シークエンシングデータを第3の領域の配列に関連する生成シークエンシングデータと比較することによりバリアントの存在を検出するステップを含む方法が本明細書に記載される。一部の実施形態では、バリアントは、構造バリアントである。一部の実施形態では、構造バリアントは、染色体融合、逆位、挿入、または欠失である。一部の実施形態では、バリアントは、一塩基多型(SNP)である。一部の実施形態では、試験バリアントを検出するために使用され、参照配列が試験バリアントを含む。一部の実施形態では、試験バリアントは、第2のポリヌクレオチド中の試験バリアントを同定することにより選択される。一部の実施形態では、方法は、検出された試験バリアントとポリヌクレオチドの第1の領域または第3の領域におけるシークエンシングされた対立遺伝子とを関連付けるステップを含む。
【0026】
さらに、ポリヌクレオチドのシークエンシングされなかった領域における塩基トランスバージョンの存在を検出するためのカップリングされたシークエンシングリードペアを生成する方法であって、(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(b)ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(c)ステップ(b)において伸長されたプライマーを、第2の領域を通して、(1)シトシンおよびチミンと(2)アデニンおよびグアニンとの交互ヌクレオチドペアを含むフロー順序を使用してさらに伸長するステップ;および(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップを含む方法が本明細書に記載される。一部の実施形態では、プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、第2の領域を通して伸長される。
【0027】
また、カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法であって、(a)プライマーをポリヌクレオチドの第1の領域とハイブリダイズしてハイブリダイズされた鋳型を形成するステップ;(b)プライマーを、第2の領域を通して、(1)シトシンおよびチミンと(2)アデニンおよびグアニンとの交互ヌクレオチドペアを含むフロー順序を使用して伸長するステップ;および(c)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(b)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップを含む方法が本明細書に記載される。一部の実施形態では、第1の領域は、プライマーの標的にされる天然に存在する配列を含む。一部の実施形態では、プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、第2の領域を通して伸長される。
【0028】
一部の実施形態では、ポリヌクレオチドのシークエンシングされなかった領域における塩基トランスバージョンの存在を検出する方法は、ステップ(d)で伸長されたプライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長される、上記の方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域またはその一部分および第3の領域またはその一部分を、参照配列にマッピングするステップ;第2の領域のフロー順序、第3の領域のフロー順序、および参照配列を使用して、第3の領域についての予想シークエンシングデータを決定するステップ;および第3の領域についての予想シークエンシングデータと第3の領域についての生成シークエンシングデータとの差に基づいて塩基トランスバージョンの存在を検出するステップを含む。一部の実施形態では、第3の領域についての予想シークエンシングデータは、第2の領域のフロー順序、第3の領域のフロー順序、第2の領域についての参照配列、および第3の領域についての参照配列を使用して決定される。一部の実施形態では、第3の領域についての予想シークエンシングデータは、第2の領域のフロー順序、第3の領域のフロー順序、第2の領域についての参照配列、および第3の領域の配列に関連する生成配列データを使用して決定され、第3の領域の配列に関連する生成配列データは、ステップ(d)で生成された同じまたは異なる配列データである。一部の実施形態では、第3の領域についての予想シークエンシングデータは、バイナリまたは非バイナリフローグラムを含む。
【0029】
さらに、1つまたは複数のコンセンサス配列を生成する方法であって、複数のカップリングされたシークエンシングリードペアをアセンブルするステップを含む、方法が本明細書に記載される。一部の実施形態では、1つまたは複数のコンセンサス配列は、複数のカップリングされたシークエンシングリードペアの第2の領域の長さを示す距離情報を使用してアセンブルされる。一部の実施形態では、距離情報は、第2の領域のフロー順序に関連する情報および第2の領域における塩基の確率分布を使用して決定される。一部の実施形態では、第2の領域のフロー順序に関連する情報は、ステップ(c)においてプライマーを伸長するために同時に使用されるヌクレオチド塩基の異なるタイプの数である。一部の実施形態では、第2の領域における塩基の確率分布は、ゲノム内の塩基の分布から決定される。一部の実施形態では、距離情報は、参照配列および第2の領域のフロー順序を使用して決定された第2の領域についての予想参照シークエンシングデータから導出される。一部の実施形態では、予想参照シークエンシングデータは、バイナリまたは非バイナリフローグラムを含む。
【0030】
一部の実施形態では、1つまたは複数のコンセンサス配列を生成する方法は、1つまたは複数のコンセンサス配列から選択されたコンセンサス配列の一部分を、選択されたコンセンサス配列の一部分に関連する、選択された、カップリングされたシークエンシングリードを使用して検証するステップをさらに含み、選択された、カップリングされたシークエンシングリードを生成する際にステップ(d)で伸長されるプライマーは、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長され、検証するステップは、第2の領域のフロー順序、第3の領域のフロー順序、および選択されたコンセンサス配列の一部分を使用して、選択された、カップリングされたシークエンシングリードの第3の領域についての予想シークエンシングデータを決定すること;および選択された、カップリングされたシークエンシングリードの第3の領域についての予想シークエンシングデータを第3の領域の生成シークエンシングデータと比較することにより、選択されたコンセンサス配列の一部分を検証することを含む。
【0031】
また、試験バリアントのステータスを検証する方法であって、複数の重複するカップリングされたシークエンシングリードペアに亘るバリアントのステータスを比較するステップであって、複数の重複するカップリングされたシークエンシングリードペアは、試験バリアントの遺伝子座に対応する遺伝子座を含む、ステップ;比較に基づいてバリアントのステータスを検証するステップ含む方法が記載される。一部の実施形態では、選択された、カップリングされたシークエンシングリードペアの、第1の領域または第3の領域は、複数の重複するカップリングされたシークエンシングリードのうちの他のカップリングされたシークエンシングリードの少なくとも一部分の第2の領域と重複する。一部の実施形態では、選択された、カップリングされたシークエンシングリードの、バリアントステータスは、選択された、カップリングされたシークエンシングリードの、第1の領域または第3の領域におけるバリアントを示す。一部の実施形態では、選択された、カップリングされたシークエンシングリードの、第2の領域は、複数の重複するカップリングされたシークエンシングリードのうちの他のカップリングされたシークエンシングリードの少なくとも一部分の第2の領域と重複する。一部の実施形態では、選択された、カップリングされたシークエンシングリードの、バリアントステータスは、選択された、カップリングされたシークエンシングリードの、第2の領域におけるバリアントを示す。
【0032】
さらに、試験試料中の短い遺伝子バリアントを検出するための方法であって、上記方法のいずれかに従ってのカップリングされたシークエンシングリードペアを生成するステップ;ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータをポリヌクレオチドの第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;およびポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在または非存在をコールするステップを含む方法が本明細書に記載される。一部の実施形態では、ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータをポリヌクレオチドの第3の領域についての予想シークエンシングデータと比較するステップは、ポリヌクレオチドの第3の領域について生成されたシークエンシングデータがポリヌクレオチドの第3の領域についての予想シークエンシングデータにマッチする尤度を示すマッチスコアを決定すること;および決定されたマッチスコアを使用してポリヌクレオチドの第2の領域における短い標的遺伝子バリアントの存在または非存在をコールすることを含む。一部の実施形態では、ポリヌクレオチドの第3の領域についての予想シークエンシングデータは、ポリヌクレオチドの第3の領域の予想配列をin silicoでシークエンシングすることにより得られる、。一部の実施形態では、第1の領域の配列に関連するシークエンシングデータ、または第3の領域の配列に関連するシークエンシングデータは、複数のフロー位置の中の各フロー位置に取り込まれた塩基の数を示す塩基カウントを表すフローシグナルを含む。一部の実施形態では、フローシグナルは、各フロー位置における少なくとも1つの塩基カウントについての塩基カウント尤度を示す統計パラメーターを含む。一部の実施形態では、フローシグナルは、各フロー位置における複数の塩基カウントについての塩基カウント尤度を示す統計パラメーターを含む。一部の実施形態では、第3の領域の配列に関連するシークエンシングデータは、複数のフロー位置の中の各フロー位置に取り込まれた塩基の数を示す塩基カウントを表すフローシグナルを含み、フローシグナルは、複数の塩基カウントについての塩基カウント尤度を示す統計パラメーターを含み;方法は、シークエンシングデータ中の各フロー位置における統計パラメーターであって、そのフロー位置における予想配列の塩基カウントと一致する統計パラメーターを選択するステップ、およびシークエンシングデータセットが予想配列にマッチする尤度を示すマッチスコアを決定するステップをさらに含む。一部の実施形態では、マッチスコアは、シークエンシングデータ内のフロー位置にわたっての選択された統計パラメーターの組み合わされた値である。
【0033】
上記方法の一部の実施形態では、フローサイクル順序は、同じ順序で反復される4つの別々のフローを含む。
【0034】
上記方法の一部の実施形態では、フローサイクル順序は、5つまたはそれより多くの別々のフローを含む。
【0035】
上記方法の一部の実施形態では、カップリングされたシークエンシングリードペアを生成するステップは、プライマーを、第4の領域のフロー順序で提供されるヌクレオチドを使用して第4の領域を通して伸長すること、ここで、(i)プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、第4の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物は、第4の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)第4の領域を通したプライマーの伸長は、第1の領域または第3の領域を通したプライマーの伸長よりも速く進行する;およびポリヌクレオチドの第5の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用する第4を通して伸長されたプライマーのさらなる伸長、および取り込まれた標識ヌクレオチドの存在または非存在の検出により、生成することを含む。一部の実施形態では、方法は、第5の領域のシークエンシングデータを第1の領域のシークエンシングデータまたは第3の領域のシークエンシングデータと関連付けるステップをさらに含む。
【0036】
上記方法の一部の実施形態では、ポリヌクレオチドは、ローリングサークル増幅を使用して増幅される。
【0037】
また、試験試料中の短い遺伝子バリアントを検出する方法であって、(a)ローリングサークル増幅(RCA)を使用してポリヌクレオチドを増幅させて、ポリヌクレオチドの第1のコピーとポリヌクレオチドの第2のコピーとを少なくとも含むRCA増幅ポリヌクレオチドを生成するステップ;(b)RCA増幅ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(c)ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(d)プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用してポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してさらに伸長するステップであって、(i)プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物は、第2の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通したプライマーの伸長は、第1の領域を通したプライマーの伸長よりも速く進行する、ステップ;(e)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(f)ポリヌクレオチドの第3の領域について生成されたシークエンシングデータをポリヌクレオチドの第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;(g)ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップ;(h)ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;および(i)ポリヌクレオチドの第2の領域における短い遺伝子バリアントのアイデンティティーをコールするステップを含む方法が本明細書に記載される。一部の実施形態では、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通したプライマーの伸長は、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第1の領域を通したプライマーの伸長よりも速く進行する。一部の実施形態では、ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータは、ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップに基づいて動的に生成される。一部の実施形態では、プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長される。一部の実施形態では、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してプライマーを伸長するために使用されるヌクレオチドの少なくとも一部分は、非標識ヌクレオチドである。一部の実施形態では、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してプライマーを伸長するために使用されるヌクレオチドは、非標識ヌクレオチドである。一部の実施形態では、少なくとも2つの異なるタイプのヌクレオチド塩基の混合物は、第2の領域のフロー順序の少なくとも1ステップで使用される。一部の実施形態では、3つの異なるタイプのヌクレオチド塩基の混合物は、第2の領域のフロー順序の少なくとも1ステップで使用される。
【0038】
さらに、試験試料中の短い遺伝子バリアントを検出する方法であって、(a)ローリングサークル増幅(RCA)を使用してポリヌクレオチドを増幅させて、ポリヌクレオチドの第1のコピーとポリヌクレオチドの第2のコピーとを少なくとも含むRCA増幅ポリヌクレオチドを生成するステップ;(b)プライマーをポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第1の領域にハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(c)プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用してポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長するステップであって、(i)プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長される、ステップ;(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(e)ポリヌクレオチドの第3の領域について生成されたシークエンシングデータをポリヌクレオチドの第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;(f)ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップ;(g)ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;および(h)ポリヌクレオチドの第2の領域における短い遺伝子バリアントのアイデンティティーをコールするステップを含む方法が本明細書に記載される。一部の実施形態では、第1の領域は、プライマーの標的にされる天然に存在する配列を含む。一部の実施形態では、ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータは、ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップに基づいて動的に生成される。一部の実施形態では、プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長される。一部の実施形態では、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してプライマーを伸長するために使用されるヌクレオチドは、非標識ヌクレオチドである。一部の実施形態では、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してプライマーを伸長するために使用されるヌクレオチドは、非標識ヌクレオチドである。一部の実施形態では、少なくとも2つの異なるタイプのヌクレオチド塩基の混合物は、第2の領域のフロー順序の少なくとも1ステップで使用される。一部の実施形態では、3つの異なるタイプのヌクレオチド塩基の混合物は、第2の領域のフロー順序の少なくとも1ステップで使用される。
【0039】
また、シークエンシングクラスター内のシークエンシングプライマーを同期化する方法であって、(a)プライマーをシークエンシングクラスター内のポリヌクレオチドコピーとハイブリダイズするステップ;(b)プライマーを、第1の領域のフローサイクルに従って標識ヌクレオチドを使用してポリヌクレオチドコピーの第1の領域を通して伸長するステップ;(c)プライマーを、1つまたは複数の再位相化フローを使用してポリヌクレオチドコピーの第2の領域を通して伸長するステップであって、少なくとも2つの異なるタイプのヌクレオチドの混合物は、1つまたは複数の再位相化フローの少なくとも1つにおいて使用される、ステップ;および(d)プライマーを、第3の領域のフローサイクルに従って標識ヌクレオチドを使用してポリヌクレオチドコピーの第3の領域を通して伸長するステップを含む方法が本明細書に記載される。一部の実施形態では、3つの異なるタイプのヌクレオチド塩基の混合物は、1つまたは複数の再位相化フローのうちの少なくとも1つにおいて使用される。一部の実施形態では、1つまたは複数の再位相化フローは、4つまたはそれより多くのフローステップを含む。一部の実施形態では、1つまたは複数の再位相フローは、任意の順序で:(i)A、CおよびGヌクレオチドを含むがTヌクレオチドを含まない混合物を含む第1のフロー;(ii)T、CおよびGヌクレオチドを含むがAヌクレオチドを含まない混合物を含む第2のフロー;(iii)T、AおよびGヌクレオチドを含むがCヌクレオチドを含まない混合物を含む第3のフロー;および(iv)T、AおよびCヌクレオチドを含むがGヌクレオチドを含まない混合物を含む第4のフローを含む。一部の実施形態では、方法は、第1の領域の配列に関連するシークエンシングデータを、プライマーを第1の領域を通して伸長しながら取り込まれた標識ヌクレオチドの存在または非存在を検出することにより生成するステップを含む。一部の実施形態では、方法は、第3の領域の配列に関連するシークエンシングデータを、プライマーを第3の領域を通して伸長しながら取り込まれた標識ヌクレオチドの存在または非存在を検出することにより生成するステップを含む。
【0040】
また、1または複数台のプロセッサーと、非一過性記憶媒体であって、1つまたは複数のカップリングされたシークエンシングリードに関する情報を受信する、および上記方法のいずれかの1つまたは複数を遂行するための、1または複数台のプロセッサーにより実行可能な1つまたは複数のプログラムを含む非一過性記憶媒体とを含むシステムが本明細書に記載される。
【図面の簡単な説明】
【0041】
図1図1は、カップリングされたシークエンシングリードペアをポリヌクレオチドから生成するための例示的方法の概略図を示す。
【0042】
図2図2は、参照配列を使用して予想シークエンシングデータを生成するための例示的方法の概略図を示す。
【0043】
図3図3は、カップリングされたシークエンシングリードペアの第3の領域が2つの異なる遺伝子座に位置する場合、カップリングされたシークエンシングリードペアの第2の領域の長さを示す距離情報を使用して、カップリングされたシークエンシングリードペアを参照配列にマッピングする方法を示す。
【0044】
図4図4は、カップリングされたシークエンシングリードペアの第3の領域が反復領域に位置する場合、カップリングされたシークエンシングリードペアの第2の領域の長さを示す距離情報を使用して、カップリングされたシークエンシングリードペアを参照配列にマッピングする方法を示す。
【0045】
図5図5は、カップリングされたシークエンシングリードペアを使用して対象のゲノム内への挿入を検出する方法についての概略図を示す。
【0046】
図6図6は、カップリングされたシークエンシングリードペアを使用して構造バリアントを検出するための例示的方法を示す。
【0047】
図7図7は、対象のゲノムにおける構造バリアントを検出するためのカップリングされたシークエンシングリードペアの使用についての概略図を示し、この場合の構造バリアントは挿入である。
【0048】
図8図8は、対象のゲノムにおける構造バリアントを検出するためのカップリングされたシークエンシングリードペアの使用についての概略図を示し、この場合の構造バリアントは欠失である。
【0049】
図9図9は、対象のゲノムにおける構造バリアントを検出するためのカップリングされたシークエンシングリードペアの使用についての概略図を示し、この場合の構造バリアントは逆位である。
【0050】
図10図10は、対象のゲノムにおける構造バリアントを検出するためのカップリングされたシークエンシングリードペアの使用についての概略図を示し、この場合の構造バリアントは染色体融合である。
【0051】
図11図11は、カップリングされたシークエンシングリードペアを使用して構造バリアントを検出する例示的方法を示す。
【0052】
図12図12は、カップリングされたシークエンシングリードペアを使用して、カップリングされたシークエンシングリードペアの第2の領域の長さを示す距離情報を使用して構造バリアントを検出することができる方法の一例を実証する概略図を示す。
【0053】
図13図13は、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアントを検出する例示的方法を示す。
【0054】
図14A図14Aは、T-A-C-Gの反復フローサイクル順序を使用して5’-TATGGTCGTCGA-3’(配列番号15)の配列でプライマーを伸長させることにより得られたシークエンシングデータを示す。このシークエンシングデータは、伸長されたプライマー鎖を代表しており、容易に決定され得る相補鋳型鎖のシークエンシング情報は、実効的に等価である。
図14B図14Bは、各フロー位置における最高尤度に基づいて選択された、最も可能性が高い配列であって、シークエンシングデータが得られた配列(星印により示されている通り)を伴う、図14Aに示されているシークエンシングデータを示す。
図14C図14Cは、2つの異なる候補配列(それらの相補配列により各々表される):TATGGTCATCGA(配列番号16)(黒塗りの丸印)およびTATGGTCGTCGA(配列番号15)(白抜きの丸印)を表すトレースを伴う、図14Aに示されているシークエンシングデータを示す。シークエンシングデータが所与の配列にマッチする尤度は、各フロー位置が候補配列にマッチする尤度の積として決定することができる。
【0055】
図15-1】図15Aは、2つの候補配列H1(配列番号19)およびH2(配列番号20)(それらの相補配列により各々表されている)とアラインされた、シークエンシングリードR1(配列番号15)、R2(配列番号17)およびR3(配列番号18)(伸長されたプライマーの配列により各々表されている)のアラインメントを示す。図15Bは、H1(黒塗りの丸印)およびH2(白抜きの丸印)を表すトレースを伴う、R1に対応するシークエンシングデータを示す。図15Cは、H1(黒塗りの丸印)およびH2(白抜きの丸印)を表すトレースを伴う、R2に対応するシークエンシングデータを示す。図15Dは、H1(黒塗りの丸印)およびH2(白抜きの丸印)を表すトレースを伴う、R3に対応するシークエンシングデータを示す。
図15-2】図15Aは、2つの候補配列H1(配列番号19)およびH2(配列番号20)(それらの相補配列により各々表されている)とアラインされた、シークエンシングリードR1(配列番号15)、R2(配列番号17)およびR3(配列番号18)(伸長されたプライマーの配列により各々表されている)のアラインメントを示す。図15Bは、H1(黒塗りの丸印)およびH2(白抜きの丸印)を表すトレースを伴う、R1に対応するシークエンシングデータを示す。図15Cは、H1(黒塗りの丸印)およびH2(白抜きの丸印)を表すトレースを伴う、R2に対応するシークエンシングデータを示す。図15Dは、H1(黒塗りの丸印)およびH2(白抜きの丸印)を表すトレースを伴う、R3に対応するシークエンシングデータを示す。
【0056】
図16図16は、A-T-G-Cフローサイクル順序を使用してシークエンシングされた仮想核酸分子からのシークエンシングデータを示す。可能性のあるハプロタイプ配列(それらの相補配列により各々表される)TATGGTCG-TCGA(配列番号21)(H1)およびTATGGTCGATCG(配列番号22)(H2)を使用して、トレースを生成することができ、H1は、H2と比較して1塩基欠失を有する。シークエンシングデータは、H2候補配列とのより良いマッチを有し、インデルは、この配列ではコールされない。
【0057】
図17図17は、試験バリアントのステータスを決定するためのカップリングされたシークエンシングリードペアの比較についての例示的概略図を示す。
【0058】
図18図18は、本明細書に記載の方法を実行するために使用することができる、一実施形態によるコンピュータデバイスの例を示す。
【0059】
図19A図19Aは、ポリヌクレオチドを通したシークエンシングプライマーの伸長時に第1および第3の領域において各々のフローシークエンシングサイクル後に取り込まれた塩基から生じるシグナルを示す。第2の領域内のデータは、この領域を通してプライマー伸長が加速され、塩基組込みが検出されないため、収集されなかった。
【0060】
図19B図19Bは、ポリヌクレオチドを通したシークエンシングプライマーの伸長時に第1および第3の領域において各々のフローシークエンシングサイクル後に取り込まれた塩基から生じるシグナルを示す。第2の領域を通してデータは収集されたが、図のサイズを縮小するために示されていない。
【0061】
図20-1】図20A~20Eは、100ヌクレオチドフロー(図20A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フロー順序は、ヌクレオチドフロー101(図20B)、フロー102(図20C)、フロー103(図20D)およびフロー104(図20E)を含む、4ステップ順序である。
図20-2】図20A~20Eは、100ヌクレオチドフロー(図20A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フロー順序は、ヌクレオチドフロー101(図20B)、フロー102(図20C)、フロー103(図20D)およびフロー104(図20E)を含む、4ステップ順序である。
図20-3】図20A~20Eは、100ヌクレオチドフロー(図20A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フロー順序は、ヌクレオチドフロー101(図20B)、フロー102(図20C)、フロー103(図20D)およびフロー104(図20E)を含む、4ステップ順序である。
【0062】
図21-1】図21A~21Eは、100ヌクレオチドフロー(図21A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、別の例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フロー順序は、ヌクレオチドフロー101(図21B)、フロー102(図21C)、フロー103(図21D)およびフロー104(図21E)を含む、4ステップ順序である。
図21-2】図21A~21Eは、100ヌクレオチドフロー(図21A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、別の例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フロー順序は、ヌクレオチドフロー101(図21B)、フロー102(図21C)、フロー103(図21D)およびフロー104(図21E)を含む、4ステップ順序である。
図21-3】図21A~21Eは、100ヌクレオチドフロー(図21A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、別の例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フロー順序は、ヌクレオチドフロー101(図21B)、フロー102(図21C)、フロー103(図21D)およびフロー104(図21E)を含む、4ステップ順序である。
【0063】
図22-1】図22A~22Eは、100ヌクレオチドフロー(図22A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、別の例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フローサイクルは、ヌクレオチドフロー101(図22B)、フロー102(図22C)、フロー103(図22D)およびフロー104(図22E)を含む、4ステップ順序である。
図22-2】図22A~22Eは、100ヌクレオチドフロー(図22A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、別の例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フローサイクルは、ヌクレオチドフロー101(図22B)、フロー102(図22C)、フロー103(図22D)およびフロー104(図22E)を含む、4ステップ順序である。
図22-3】図22A~22Eは、100ヌクレオチドフロー(図22A)およびシークエンシングクラスター内のプライマーを同期化するように設計された再位相化フロー後の、別の例示的な模擬シークエンシングプロトコルで同一のポリヌクレオチド鋳型に対して伸長されたプライマーの数を示す。示されている再位相化フローサイクルは、ヌクレオチドフロー101(図22B)、フロー102(図22C)、フロー103(図22D)およびフロー104(図22E)を含む、4ステップ順序である。
【0064】
図23図23は、4つの例示的フローサイクル順序(これらのうちの、延長フローサイクル順序である、3つを含む)について、ランダムシークエンシング開始位置が得られるSNPパーミュテーションの検出の感度を示す。図23中、x軸は、フロー相(または断片化開始位置)の分率を示し、y軸は、2カ所より多くのフロー位置においてシグナル変化(すなわち、新しいゼロまたは新しい非ゼロシグナル)を誘導したSNPパーミュテーションの分率を示す。
【0065】
図24図24は、各フローが、単一のヌクレオチド塩基を各々が有する、反復4ステップフローサイクルを使用して合成ポリヌクレオチドの第2の領域がシークエンシングされる、模擬高速フォワードシークエンシングプロトコルを使用して検出された様々なSNPについての塩基検出感度を示す行列を示す。
【0066】
図25-1】図25Aは、各フローが3つの異なるヌクレオチド塩基の混合物を含む、反復4ステップフローサイクルを使用する模擬高速フォワードシークエンシングプロトコルについての、第1、第2および第3の領域におけるフローにわたっての平均塩基組込みを示す。参照塩基検出感度に対するバリアント塩基の行列が、図25Bに示されている。図25Cは、合成リードにわたっての塩基カバレッジの分布を示す。
図25-2】図25Aは、各フローが3つの異なるヌクレオチド塩基の混合物を含む、反復4ステップフローサイクルを使用する模擬高速フォワードシークエンシングプロトコルについての、第1、第2および第3の領域におけるフローにわたっての平均塩基組込みを示す。参照塩基検出感度に対するバリアント塩基の行列が、図25Bに示されている。図25Cは、合成リードにわたっての塩基カバレッジの分布を示す。
図25-3】図25Aは、各フローが3つの異なるヌクレオチド塩基の混合物を含む、反復4ステップフローサイクルを使用する模擬高速フォワードシークエンシングプロトコルについての、第1、第2および第3の領域におけるフローにわたっての平均塩基組込みを示す。参照塩基検出感度に対するバリアント塩基の行列が、図25Bに示されている。図25Cは、合成リードにわたっての塩基カバレッジの分布を示す。
【0067】
図26A図26Aは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、CとGの混合物を含有する再位相化フローが、24フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0068】
図26B図26Bは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、CとGの混合物を含有する再位相化フローが、48フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0069】
図26C図26Cは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、CとGの混合物を含有する再位相化フローが、96フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0070】
図26D図26Dは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、CとGの混合物を含有する再位相化フローが、192フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0071】
図26E図26Eは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、C、GおよびTの混合物を含有する再位相化フローが、48フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0072】
図26F図26Fは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、C、GおよびTの混合物を含有する再位相化フローが、96フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0073】
図26G図26Gは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、C、GおよびTの混合物を含有する第1の再位相化フローおよびA、CおよびGの混合物を含有する第2の再位相化フローが、96フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0074】
図26H図26Hは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、C、GおよびTの混合物を含有する第1の再位相化フローおよびA、CおよびGの混合物を含有する第2の再位相化フローが、192フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0075】
図26I図26Iは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、C、GおよびTの混合物を含有する第1の再位相化フロー、A、CおよびTの混合物を含有する第2の再位相化フロー、A、GおよびTの混合物を含有する第3の再位相化フロー、ならびにA、CおよびGの混合物を含有する第4の再位相化フローが、96フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【0076】
図26J図26Jは、対照プロトコル(105ラウンドのT-G-C-Aフローサイクル)または再位相化プロトコル(105ラウンドのT-G-C-Aフローサイクル、この場合、C、GおよびTの混合物を含有する第1の再位相化フロー、A、CおよびTの混合物を含有する第2の再位相化フロー、A、GおよびTの混合物を含有する第3の再位相化フロー、ならびにA、CおよびGの混合物を含有する第4の再位相化フローが、192フローを終えるたびに使用された)について10,000模擬フローグラムにわたって累積した全位相誤差(遅れ位相誤差+進み位相誤差)の和の分布を示す。平均および標準偏差が凡例に示されている。対照および再位相化プロトコルについての分布の積分も示されている。
【発明を実施するための形態】
【0077】
カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法、およびそのようなカップリングされたシークエンシングリードペアを解析する方法が、本明細書に記載される。カップリングされたシークエンシングリードペアを解析して、例えば、カップリングされたシークエンシングリードペアを参照配列にマッピングすること、構造バリアントを検出すること、ポリヌクレオチドのカップリングされたペアエンド間の領域におけるバリアント(例えば、SNP)を検出すること、トランスバージョンを検出すること、またはコンセンサス配列を決定もしくは検証することができる。
【0078】
ポリヌクレオチドをシークエンシングプライマーとハイブリダイズすることができ、このプライマーが、ポリヌクレオチドの第1の領域(すなわち、3’末端)を通して伸長されて、第1の領域がシークエンシングされる。次いで、プライマーは、ポリヌクレオチドの第2の領域を通して伸長され、この伸長は、第1の領域によるプライマーの伸長よりも速い速度で起こり得る。第2の領域を通した加速プライマー伸長は、「高速フォワードシークエンシング」と呼ばれることがある。本明細書中でさらに論じられるように、プライマーは、第2の領域を通して伸長される(より旧来のペアエンドシークエンシングで起こるもののように、プライマーが第2の領域を完全にスキップするのではなく)ため、たとえ第2の領域が第1の領域と同様にシークエンシングされなかったとしても、何らかの情報(一部のシークエンシングデータを含む可能性がある)を第2の領域について得ることができる。例えば、プライマーを、非標識ヌクレオチドのみを使用してプライマーを第2の領域を通して伸長することができる。シークエンシングプライマーが第2の領域を通して伸長されると、プライマーは、ポリヌクレオチドの第3の領域(すなわち、5’末端)へと伸長されて、第3の領域がシークエンシングされる。領域および第3の領域のシークエンシングデータをカップリングし、その結果、ポリヌクレオチドのカップリングされたシークエンシングリードペアを得ることができ、本明細書中でさらに説明されるように、追加のシークエンシングデータを第2の領域から導出することができる。
【0079】
一例において、カップリングされたシークエンシングリードペアをポリヌクレオチドは、(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(b)ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(c)ステップ(b)で伸長されたプライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して第2の領域を通してさらに伸長するステップであって、第2の領域を通したプライマーの伸長が、ステップ(b)におけるプライマーの伸長よりも速く進行する、ステップ;および(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップによって生成され得る。第1の領域のシークエンシングデータを第3の領域のシークエンシングデータと関連付けることができ、これが、カップリングされたシークエンシングリードペアを示す。第2の領域を通してプライマーを伸長するために使用されたヌクレオチドは、非標識であり得る。
【0080】
一部の実施形態では、ポリヌクレオチドからのカップリングされたシークエンシングリードペアを、(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(b)ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(c)ステップ(b)で伸長されたプライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して、第2の領域を通してさらに伸長するステップであって、プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、第2の領域を通して伸長される、ステップ;および(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長された前記プライマーをさらに伸長することおよび取り込まれた標識ヌクレオチドの存在または非存在を検出することにより生成するステップにより、生成することができる。第1の領域のシークエンシングデータを第3の領域のシークエンシングデータと関連付けることができ、これが、カップリングされたシークエンシングリードペアを示す。第2の領域を通してプライマーを伸長するために使用されたヌクレオチドは、非標識であり得る。
【0081】
一部の実施形態では、ポリヌクレオチドからのカップリングされたシークエンシングリードペアを、(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(b)ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(c)ステップ(b)で伸長されたプライマーを、第2の領域のフロー順序で提供されたヌクレオチドを使用して、第2の領域を通してさらに伸長するステップであって、少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、フロー順序の少なくとも1ステップで使用される、ステップ;および(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長された前記プライマーをさらに伸長することおよび取り込まれた標識ヌクレオチドの存在または非存在を検出することにより生成するステップにより、生成することができる。第1の領域のシークエンシングデータを第3の領域のシークエンシングデータと関連付けることができ、これが、カップリングされたシークエンシングリードペアを示す。第2の領域を通してプライマーを伸長するために使用されたヌクレオチドは、非標識であり得る。
【0082】
一部の実施形態では、プライマーは、シークエンシングクラスター内の複数のシークエンシング反応を再位相化する(すなわち、同期化する)ために第2の領域を通して伸長される。伸長プライマーにヌクレオチドを組み込む化学的プロセスは、不完全であることが多く、そのためシークエンシングクラスター内の鎖間の非同期化が生じる。非同期化の結果として、リード長が増加するにつれて伸長プライマーへのヌクレオチド組込みの存在または非存在を検出する際に、シグナルの劣化、したがって、精度の低下が生じ得る。再同期化は、シグナル損失の相殺をもたらすことができ、それによって、より長い有効リード長が可能になる。シークエンシング反応を再位相化するために、少なくとも2つ(例えば、2つまたは3つ)の異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の複数のステップで使用される、再位相化サイクルを使用して、プライマーが第二の領域を通して伸長される。再位相化サイクル中に組み込まれるヌクレオチドを一部の実施形態では検出することができず、その結果、得られるリードにギャップが生じることになる。しかし、配列が参照または他の配列にアラインメントされる場合、このリードギャップを管理することができる。
【0083】
たとえ第2の領域を直接または完全にシークエンシングすることができなかったとしても、参照配列を使用して第2の領域についてのシークエンシングデータを抽出することができる。例えば、シークエンシングデータを、ポリヌクレオチドの第1の領域および/または第3の領域から、伸長プライマーに取り込まれた標識ヌクレオチドの存在または非存在を検出することにより得ることができる。しかし、非標識ヌクレオチドを使用して、または取り込まれたヌクレオチドの存在もしくは非存在を検出せずに、プライマーを第2の領域を通して伸長することができる。非標識ヌクレオチドを使用することにより(または取り込まれた標識を検出するための時間をシークエンシングシステムに与えないことにより)、第2の領域を通したより迅速なプライマー伸長が可能になるが、シークエンシングデータの直接決定は可能にならない。しかし、プライマーは、所定のフロー順序で提供されるヌクレオチドを使用して第2の領域を通して伸長されるため、第2の領域におけるバリアントは、第3の領域内で決定されるシークエンシングデータに影響を与え得る。参照配列を使用して予想シークエンシングデータ(例えば、予想フローグラム)を決定することができ、このデータが生成シークエンシングデータ(例えば、検出フローグラム)と比較されて、第2の領域内のバリアントを含む、バリアントが検出される。予想シークエンシング情報(例えば、予想フローグラム)と生成シークエンシングデータ(例えば、生成フローグラム)の比較を第3の領域において(第2の領域におけるバリアントを検出するために)行なうことができる。この方法論は、旧来のペアエンドシークエンシング法に勝る有意な利点を提供し、この利点のため、ポリヌクレオチドの3’末端または5’末端についてのシークエンシングデータは、ポリヌクレオチドの3’末端と5’末端の間のポリヌクレオチドにおけるバリアントによる影響を受けない。
定義
【0084】
本明細書で使用される場合、単数形「1つの(a)」、「1つの(an)」および「その(the)」は、文脈による別段の明白な指示がない限り、複数形の言及対象を含む。
【0085】
本明細書での「約」ある値またはパラメーターへの言及は、その値またはパラメーター自体に関する変動を含む(および記載する)。例えば、「約X」に言及する記載は、「X」の記載を含む。
【0086】
「予想シークエンシングデータ」は、カップリングされたシークエンシングリードペアを生成するために使用されるポリヌクレオチドの配列、または前記ポリヌクレオチドの領域の配列が、参照配列にマッチするかどうかを予想する、シークエンシングデータを指す。
【0087】
「フロー順序」は、非終結ヌクレオチドを使用して核酸分子をシークエンシングするために使用される別々のヌクレオチドフローの順序を指す。フロー順序を反復単位のサイクルに分けることができ、反復単位のフロー順序は、「フローサイクル順序」と呼ばれる。「フロー位置」は、シークエンシングプロセス中の所与の別々のヌクレオチドフローの逐次的位置を指す。
【0088】
用語「個体」、「患者」および「対象」は、同義語として使用され、ヒトを含む動物を指す。
【0089】
用語「標識」は、本明細書で使用される場合、別の部分、例えばヌクレオチドまたはヌクレオチドアナログ、とカップリングされる、またはカップリングされ得る、検出可能な部分を指す。標識は、標識に送達されたシグナルを放出することまたはシグナルを変更することができ、したがって、標識の存在または非存在を検出することができる。一部のケースでは、カップリングは、リンカーを介してのカップリングであり得、リンカーは、切断可能、例えば、光切断可能(例えば、紫外線下で切断可能)、化学的に切断可能(例えば、ジチオトレイトール(DTT)、トリス(2-カルボキシエチル)ホスフィン(TCEP)などの、還元剤によって)、または酵素的に切断可能(例えば、エステラーゼ、リパーゼ、ペプチダーゼもしくはプロテアーゼによって)であり得る。一部の実施形態では、標識は、フルオロフォアである。
【0090】
「非終結ヌクレオチド」は、ポリメラーゼまたはトランスクリプターゼを使用してポリヌクレオチドの3’末端に結合させることができる、およびポリメラーゼまたはトランスクリプターゼを使用してそれに結合された別の非終結核酸を有することができ、そのヌクレオチドから保護基または可逆的ターミネーターを除去する必要がない、核酸部分である。天然に存在する核酸は、非終結核酸の一種である。非終結核酸は、標識されていることがあり、または未標識であることもある。
【0091】
「短い遺伝子バリアント」は、長さが連続する10塩基またはそれ未満(すなわち、長さが10、9、8、7、6、5、4、3、2または1塩基)である遺伝的多型(すなわち、突然変異)を指す。この用語は、長さが連続する10塩基またはそれ未満である、一塩基多型(SNP)、多塩基多型(MNP)およびインデルを含む。
【0092】
本明細書に記載される本発明の態様および変形形態が、態様および変形形態「からなること」および/または「から本質的になること」を含むことは理解されよう。
【0093】
値の範囲が提供される場合、その範囲の上限値と下限値の間に介在する各々の値、およびその述べられている範囲内の、任意の他の述べられているまたは介在する値が、本開示の範囲内に包含されることは、理解されるはずである。述べられている範囲が上限値または下限値を含む場合、これらの含まれる限界値のどちらかを含まない範囲もまた、本開示に含まれる。
【0094】
本明細書に記載される解析方法の一部は、配列を参照配列にマッピングすること、配列情報を判定すること、および/または配列情報を解析することを含む。相補配列を容易に決定および/または解析することができること、ならびに本明細書で提供される説明が、相補配列に関して遂行される解析方法を包含することは、当技術分野では十分に理解されよう。
【0095】
本明細書で使用される節の見出しは、単に構成のためのものであり、記載される主題を限定するものと解釈すべきでない。この説明は、当業者による本発明の実施および使用を可能にするために提供され、特許出願およびその要件に関連して提供される。記載される実施形態の様々な修飾形態が当業者には容易に分かることになり、本明細書における一般原理を他の実施形態に応用することができる。したがって、本発明は、示される実施形態に限定されるように意図されたものではなく、本発明には、本明細書に記載される原理および特徴に対応する最も広い範囲が与えられる。
【0096】
図は、様々な実施形態によるプロセスを例証する。これらの例示的プロセスでは、一部のブロックは、必要に応じて組み合わせられ、一部のブロックの順序は、必要に応じて変更され、一部のブロックは、必要に応じて割愛される。一部の例では、追加のステップが例示的プロセスと組み合わせて遂行され得る。したがって、例証される(および下記でより詳細に説明される)ような操作は、本質的に例示的なものであり、したがって、限定と見なすべきではない。
【0097】
本明細書で言及されるすべての公表文献、特許および特許出願の開示は、これにより各々その全体が参照により本明細書に取り込まれる。参照により取り込まれるいずれかの参考文献が本開示と矛盾する場合には、本開示が優先されるものとする。
フローシークエンシング法
【0098】
任意の所与のフロー位置において単一のタイプのヌクレオチドが伸長プライマーに到達できる所定のフローサイクルに従って鋳型ポリヌクレオチド分子に結合されたプライマーを伸長するステップを含む、フローシークエンシング法を使用して、シークエンシングデータを生成することができる。一部の実施形態では、特定のタイプのヌクレオチドの少なくとも一部は、標識を含み、標識されたヌクレオチドが伸長プライマーに取り込まれると、この標識が検出可能なシグナルをもたらす。そのようなヌクレオチドが伸長されたプライマーに取り込まれることにより得られる配列は、鋳型ポリヌクレオチド分子の配列の逆相補配列であるはずである。一部の実施形態では、例えば、シークエンシングデータは、標識されたヌクレオチドを使用してプライマーを伸長するステップ、および伸長プライマーに取り込まれた標識されたヌクレオチドの存在または非存在を検出するステップを含むフローシークエンシング法を使用して生成される。フローシークエンシング法は、「自然な合成によるシークエンシング」または「非終結型の合成によるシークエンシング」方法と呼ばれることもある。例示的な方法は、その全体が参照により本明細書に取り込まれる米国特許第8,772,473号に記載されている。以下の説明は、フローシークエンシング法に関して提供されるが、シークエンシングされる領域のすべてまたは一部分をシークエンシングするために他のシークエンシング法が使用され得ることは、理解されよう。
【0099】
フローシークエンシングは、ポリヌクレオチドとハイブリダイズされたプライマーを伸長するためのヌクレオチドの使用を含む。所与の塩基タイプのヌクレオチド(例えば、A、C、G、T、Uなど)をハイブリダイズされた鋳型と混合して、相補的塩基が鋳型鎖内に存在する場合には、プライマーを伸長することができる。ヌクレオチドは、例えば、非終結ヌクレオチドであり得る。ヌクレオチドが、非終結ヌクレオチドであるとき、1つより多くの連続する相補的塩基が鋳型鎖内に存在する場合には、1つより多くの連続する塩基を伸長プライマー鎖に取り込むことができる。非終結ヌクレオチドは、3’可逆的ターミネーターを有するヌクレオチドと対照をなし、一般に、連続ヌクレオチドが結合される前にブロッキング基は除去される。相補的塩基が鋳型鎖内に存在しない場合、鋳型鎖内の次の塩基と相補的であるヌクレオチドが導入されるまで、プライマー伸長は停止する。ヌクレオチドの少なくとも一部分に標識することができ、その結果、取り込みを検出することができる。最も一般的には、単一のヌクレオチドタイプのみが一度に導入される(すなわち、個々に付加される)が、ある特定の実施形態では、2つまたは3つの異なるタイプのヌクレオチドが同時に導入されることもある。この方法論は、あらゆる単一塩基の伸長後、ターミネーターが反転されて次に続く塩基の取り込みが可能になるまで、プライマー伸長が停止される、可逆的ターミネーターを使用するシークエンシング法と対比され得る。
【0100】
プライマー伸長の過程でヌクレオチドを決定された順序で導入することができ、この過程をフローサイクルにさらに分けることができる。ヌクレオチドが段階的に付加され、これにより、付加されたヌクレオチドを鋳型鎖内に存在する相補的塩基のシークエンシングプライマーの末端に組み込むことが可能になる。サイクルは、ヌクレオチドの同じ順序および異なる塩基タイプの数、またはヌクレオチドの異なる順序、および/または異なる数の異なる塩基タイプを有し得る。しかし、所与のフローステップに対応する塩基のセット(すなわち、単一フローステップで同時に使用される1つまたは複数の異なる塩基)は、この用語が本明細書で使用される場合、同じサイクルで反復されず、異なるサイクルを区別するためのマーカーとなることができる。単に例として、第1のサイクルの順序は、A-T-G-Cであり得、第2のサイクルの順序は、A-T-C-Gであり得る。さらに、1つまたは複数のサイクルが、1つまたは複数のヌクレオチドを含まないこともある。単に例として、第1のサイクルの順序は、A-T-G-Cであり得、第2のサイクルの順序は、A-T-Cであり得る。代替順序を当業者は容易に企図することができる。異なるヌクレオチドの導入と導入の間に、例えば洗浄液でシークエンシングプラットフォームを洗浄することにより、取り込まれていないヌクレオチドを除去することができる。
【0101】
ポリメラーゼを使用して、1つまたは複数のヌクレオチドをプライマーの末端に鋳型依存的に取り込むことによりシークエンシングプライマーを伸長させることができる。一部の実施形態では、ポリメラーゼは、DNAポリメラーゼである。ポリメラーゼは、天然に存在するポリメラーゼであることもあり、または合成(例えば、突然変異型)ポリメラーゼであることもある。ポリメラーゼをプライマー伸長の最初のステップで付加させることができるが、補足ポリメラーゼを、必要に応じて、シークエンシング中に、例えば、ヌクレオチドの段階的付加を用いて、またはいくつかのフローサイクル後に、付加させることができる。例示的なポリメラーゼとしては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、Bst DNAポリメラーゼ、Bst 2.0 DNAポリメラーゼ、Bst 3.0 DNAポリメラーゼ、Bsu DNAポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼ Φ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、およびSeqAmp DNAポリメラーゼが、挙げられる。
【0102】
導入されるヌクレオチドは、鋳型鎖の配列を決定する場合、標識ヌクレオチドを含むことができ、取り込まれた標識核酸の存在または非存在を検出して配列を決定することができる。標識は、例えば、光学活性標識(例えば、蛍光標識)または放射性標識であることがあり、標識により放出または変更されたシグナルを、検出器を使用して検出することができる。鋳型ポリヌクレオチドとハイブリダイズされたプライマーに取り込まれた標識ヌクレオチドの存在または非存在を検出することができ、このことによって配列の決定が(例えば、フローグラムを生成することにより)可能になる。一部の実施形態では、標識ヌクレオチドは、蛍光部分、発光部分、または他の光出射部分で標識される。一部の実施形態では、標識は、リンカーを介してヌクレオチドに結合される。一部の実施形態では、リンカーは、例えば、光化学的または化学的切断反応によって、切断可能である。例えば、標識を、検出後かつ連続ヌクレオチドの取り込み前に切断することができる。一部の実施形態では、標識(またはリンカー)は、ヌクレオチド塩基に結合されるか、または新生DNA鎖の延長に干渉しないヌクレオチド上の別の部位に結合される。一部の実施形態では、リンカーは、ジスルフィドまたはPEG含有部分を含む。
【0103】
一部の実施形態では、導入されるヌクレオチドは、非標識ヌクレオチドのみを含み、一部の実施形態では、ヌクレオチドは、標識ヌクレオチドと非標識ヌクレオチドの混合物を含む。例えば、一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約90%もしくはそれ未満、約80%もしくはそれ未満、約70%もしくはそれ未満、約60%もしくはそれ未満、約50%もしくはそれ未満、約40%もしくはそれ未満、約30%もしくはそれ未満、約20%もしくはそれ未満、約10%もしくはそれ未満、約5%もしくはそれ未満、約4%もしくはそれ未満、約3%もしくはそれ未満、約2.5%もしくはそれ未満、約2%もしくはそれ未満、約1.5%もしくはそれ未満、約1%もしくはそれ未満、約0.5%もしくはそれ未満、約0.25%もしくはそれ未満、約0.1%もしくはそれ未満、約0.05%もしくはそれ未満、約0.025%もしくはそれ未満、または約0.01%もしくはそれ未満である。一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約100%であり、約95%であるかもしくはそれより多く、約90%であるかもしくはそれより多く、約80%であるかもしくはそれより多く、約70%であるかもしくはそれより多く、約60%であるかもしくはそれより多く、約50%であるかもしくはそれより多く、約40%であるかもしくはそれより多く、約30%であるかもしくはそれより多く、約20%であるかもしくはそれより多く、約10%であるかもしくはそれより多く、約5%であるかもしくはそれより多く、約4%であるかもしくはそれより多く、約3%であるかもしくはそれより多く、約2.5%であるかもしくはそれより多く、約2%であるかもしくはそれより多く、約1.5%であるかもしくはそれより多く、約1%であるかもしくはそれより多く、約0.5%であるかもしくはそれより多く、約0.25%であるかもしくはそれより多く、約0.1%であるかもしくはそれより多く、約0.05%であるかもしくはそれより多く、約0.025%であるかもしくはそれより多く、または約0.01%であるかまたはそれより多い。一部の実施形態では、全ヌクレオチドと比較して標識ヌクレオチドの部分は、約0.01%~約100%、例えば、約0.01%~約0.025%、約0.025%~約0.05%、約0.05%~約0.1%、約0.1%~約0.25%、約0.25%~約0.5%、約0.5%~約1%、約1%~約1.5%、約1.5%~約2%、約2%~約2.5%、約2.5%~約3%、約3%~約4%、約4%~約5%、約5%~約10%、約10%~約20%、約20%~約30%、約30%~約40%、約40%~約50%、約50%~約60%、約60%~約70%、約70%~約80%、約80%~約90%、約90%~100%未満、または約90%~約100%である。
【0104】
フローグラムなどのシークエンシングデータを、取り込まれたヌクレオチドの検出およびヌクレオチド導入の順序に基づいて生成することができる。以下の鋳型配列:CTGおよびCAG、ならびにT-A-C-Gの反復フローサイクル(つまり、相補的塩基が鋳型ポリヌクレオチドに存在する場合にのみプライマーに組み込まれることになる、T、A、CおよびGヌクレオチドの逐次的付加)を例にとる。結果として生じるフローグラムが表1に示され、この表中の1は、導入されたヌクレオチドが組み込まれること示し、0は、導入されたヌクレオチドが組み込まれないことを示す。フローグラムを使用して、鋳型鎖の配列を決定することができる。
【表1】
【0105】
フローグラムは、バイナリであることもあり、ノンバイナリであることもある。バイナリフローグラムは、取り込まれたヌクレオチドの存在(1)または非存在(0)を検出する。ノンバイナリフローグラムは、各々の段階的導入から取り込まれたヌクレオチドの数をより定量的に決定することができる。例えば、CCGの配列は、2つのG塩基を組み込むことになり、標識塩基により放出されるいずれのシグナルも、単一塩基組込みの場合よりも高い強度を有することになる。このことが表1に示されている。ノンバイナリフローグラムはまた、塩基の存在または非存在を示すが、所与のステップで組み込まれる塩基の数を含む追加情報を提供することができる。
【0106】
シークエンシングデータを生成する前に、ポリヌクレオチドは、ハイブリダイズされた鋳型を生成するためにシークエンシングプライマーとハイブリダイズされる。ポリヌクレオチドをシークエンシングライブラリー調製中にアダプターにライゲーションすることができる。アダプターは、シークエンシングプライマーとハイブリダイズするハイブリダイゼーション配列を含むことができる。例えば、アダプターのハイブリダイゼーション配列は、複数の異なるポリヌクレオチドにわたって一様な配列であることがあり、シークエンシングプライマーは、一様なシークエンシングプライマーであることがある。これは、シークエンシングライブラリー内の異なるポリヌクレオチドの多重シークエンシングを可能にする。
【0107】
ポリヌクレオチドをシークエンシングのために表面(例えば、固体支持体)に結合させることができる。ポリヌクレオチドを(例えば、ブリッジ増幅または他の増幅技法により)増幅させて、ポリヌクレオチドシークエンシングコロニーを生成することができる。クラスター内の増幅されたポリヌクレオチドは、実質的に同一または相補的である(増幅プロセス中に多少のエラーが導入されることがあり、その結果、ポリヌクレオチドの一部分は、元のポリヌクレオチドと必ずしも同一でないことがある)。コロニー形成により、検出器が標識ヌクレオチド取り込みをコロニーごとに正確に検出することができるようなシグナル増幅が可能になる。一部のケースでは、コロニーは、エマルジョンPCRを使用してビーズ上に形成され、ビーズがシークエンシング面全体に分配される。シークエンシングのためのシステムおよび方法の例は、その全体が参照により本明細書に取り込まれる米国特許出願第10,344,328号において見つけることができる。
【0108】
ポリヌクレオチドとハイブリダイズされたプライマーは、ポリヌクレオチドの第1の領域、第2の領域、および第3の領域を通して伸長される。第1の領域および/または第3の領域内の配列に関連するシークエンシングデータを、上記で論じられたように生成することができる。しかし、プライマーは、加速された「高速フォワード」プロセスを使用する第2の領域(これは、第1の領域と第3の領域の間にある)を通して伸長される。つまり、ポリヌクレオチドの第1の領域と第3の領域の間の第2の領域を通したプライマーの伸長は、第1の領域および/または第3の領域を通したプライマーの伸長よりも速く進行し得る。例えば、第2の領域を通したプライマーの伸長は、伸長プライマーに取り込まれた標識ヌクレオチドの存在または非存在を検出せずに、伸長プライマーを伸張させることによって進行し得る。フローシークエンシング中に、上記で論じられたように、標識ヌクレオチドが伸長プライマーに組み込まれ、ハイブリダイズされた鋳型が洗浄され、検出器が使用されてヌクレオチドの標識からのシグナルが検出され、このシグナルが、伸長されたプライマーにヌクレオチドが取り込まれたかどうかを示す。しかし、この検出プロセスは時間がかかるため、この検出プロセスをスキップすることにより第2の領域を通したプライマーの伸長は加速され得る。一部の実施形態では、プライマーは、非標識ヌクレオチドを使用して(または非標識ヌクレオチドのみを使用して)第2の領域を通して伸長され、このことによりプライマー伸長速度はさらに加速され得る。
【0109】
代替的に、または加えて、第2の領域を通したプライマーの伸長は、第2の領域を通したプライマーの伸長中に使用されるフロー順序の少なくとも1ステップで少なくとも2つの異なるタイプのヌクレオチドの混合物を使用することにより加速され得る。例えば、GおよびCなどの2つの異なる塩基を同じステップで、同時に使用してもよく、このステップは、相補的CまたはG塩基が存在する場合にプライマーを伸長する。これは、たとえこれらの塩基が異なる塩基タイプであったとしてもプライマーへの連続塩基組込みにより、プライマーの伸長を加速させる。一部の実施形態では、フロー順序の少なくとも1ステップは、2つの異なる塩基を含む。一部の実施形態では、フロー順序の少なくとも1ステップは、3つの異なる塩基を含む。例として、表2に示されている配列番号1ならびに対応するフロー順序およびフローグラムを考える。配列番号1を含有するポリヌクレオチドとハイブリダイズされたシークエンシングプライマーを伸長するためのフロー順序プロセスは、5サイクルを含み、サイクル1、4および5は、互いに同じであり、サイクル2および3は、互いに同じである(サイクル1、4および5は、サイクル2および3とは異なる)。この例では、各サイクルは、4ステップを有し、サイクル1、4および5は、単一塩基タイプが各サイクルステップで付加される、A-C-T-Gヌクレオチドの逐次的な独立した付加を含む。サイクル2および3は、4つのサイクルステップを含み、ステップ1は、Aヌクレオチドを含まず(すなわち、C、TおよびGを含み)、ステップ2は、Cヌクレオチドを含まず(すなわち、A、TおよびGを含み)、ステップ3は、Tヌクレオチドを含まず(すなわち、A、CおよびGを含み)、ステップ4は、Gヌクレオチドを含まない(すなわち、A、CおよびTを含む)。サイクル2および3は、プライマー伸長中に同時に複数の異なるヌクレオチド塩基タイプを含むため、プライマーは、いずれかの所与のステップで単一の塩基タイプしか使用されなかった場合よりも速く伸長される。このフロー順序を使用する配列番号1鋳型に対するプライマーの伸長については、表2に示されているフローグラムから、6以下の塩基がプライマー伸長の高速フォワード部分の間に付加されることになる(サイクル3、ステップ3)。対照的に、表3は、単一ヌクレオチドが各ステップで使用される(表2のサイクル1、4および5と同様の)A-C-T-Gサイクルを使用する同じ配列番号1のフローグラムを示す。表3に示されているプライマーを伸長するために使用されたフロー順序は、ポリヌクレオチドを通してプライマーを伸長するために10サイクルの4ステップサイクルを必要とし、これは、表2で提供されるフロー順序を使用してポリヌクレオチドを通してプライマーを伸長するために使用される5サイクルの4ステップサイクルよりもかなり遅い。
【表2】
【表3】
【0110】
高速フォワード法は、直接シークエンシングされない領域を通したプライマー伸長を加速させるのに特に有用である。例えば、表2を参照して、サイクル1、4および5は、標識ヌクレオチドを段階的に使用して、第1の領域(サイクル1)および第3の領域(サイクル4および5)に関連するシークエンシングデータを生成したが、プライマーは、第1の領域と第3の領域の間の第2の領域(サイクル2およびサイクル3)を通して急速に伸長された。
【0111】
フローシークエンシングを使用するプライマー伸長は、長さが数百またはさらには数千ほどもの塩基のロングレンジシークエンシングを可能にする。フローステップまたはサイクルの数を増加または減少させて、所望のシークエンシング長を得ることができる。第1の領域または第3の領域におけるプライマーの伸長は、1つまたは複数の異なる塩基タイプを有するヌクレオチドを使用するプライマーの段階的伸長のための1つまたは複数のフローステップを含むことができる。一部の実施形態では、第1の領域におけるプライマー伸長または第3の領域におけるプライマー伸長は、1~約1000ステップの間のフローステップ、例えば、1~約10ステップの間のフローステップ、約10~約20ステップの間のフローステップ、約20~約50ステップの間のフローステップ、約50~約100ステップの間のフローステップ、約100~約250ステップの間のフローステップ、約250~約500ステップの間のフローステップ、または約500~約1000ステップの間のフローステップを含む。フローステップを同一のまたは異なるフローサイクルに分割することができる。第1の領域または第3の領域においてプライマーに取り込まれる塩基の数は、第1の領域または第3の領域の配列、およびプライマーを伸長するために使用される第1の領域または第3の領域におけるフロー順序に依存する。一部の実施形態では、第1のまたは第3の領域は、長さ約1塩基~約4000塩基、例えば、長さ約1塩基~約10塩基、長さ約10塩基~約20塩基、長さ約20塩基~約50塩基、長さ約50塩基~約100塩基、長さ約100塩基~約250塩基、長さ約250塩基~約500塩基、長さ約500塩基~約1000塩基、長さ約1000塩基~約2000塩基、または長さ約2000塩基~約4000塩基である。
【0112】
第2の領域を通したプライマー伸長は、任意の数のフローステップを通して進行し得る。一部の実施形態では、第2の領域を通したプライマーの伸長は、標識ヌクレオチドを含まず、このことにより、ポリメラーゼが失速せずにプライマーの実行可能な伸長距離がさらに増加される。一部の実施形態では、第2の領域によるプライマー伸長は、1~約10,000ステップの間のフローステップ、例えば、1~約10ステップの間のフローステップ、約10~約20ステップの間のフローステップ、約20~約50ステップの間のフローステップ、約50~約100ステップの間のフローステップ、約100~約250ステップの間のフローステップ、約250~約500ステップの間のフローステップ、約500~約1000ステップの間のフローステップ、約1000フローステップ~約2500フローステップの間、約2500フローステップ~約5000フローステップの間、または約5000フローステップ~約10,000フローテップの間のフローステップを含む。一部の実施形態では、第2の領域を通したプライマーの伸長は、約10,000ステップより多くのフローステップを含む。第2の領域においてプライマーに組み込まれる塩基の数は、第2の領域の配列、および第2の領域においてプライマーを伸長するために使用されるフロー順序に依存する。一部の実施形態では、第2の領域は、長さ約1塩基~約50,000塩基、例えば、長さ約1塩基~約10塩基、長さ約10塩基~約20塩基、長さ約20塩基~約50塩基、長さ約50塩基~約100塩基、長さ約100塩基~約250塩基、長さ約250塩基~約500塩基、長さ約500塩基~約1000塩基、長さ約1000塩基~約2000塩基、長さ約2000塩基~約2500塩基、長さ約2500~約5000塩基、長さ約5000~約10,000塩基、長さ約10,000~約25,000塩基、または長さ約25,000~約50,000塩基である。一部の実施形態では、第2の領域の長さは、長さ約50,000塩基を超える。
【0113】
プライマーの伸長は、第1の領域、第2の領域、および第3の領域を通して進行し、プライマーは、標識ヌクレオチドを使用して第1の領域および第3の領域を通して伸長される。伸長プライマーに組み込まれるヌクレオチドを検出してシークエンシングデータを生成することができる。第2の領域を通したプライマーの伸長は、例えば、伸長プライマーに組み込まれるヌクレオチドの標識の存在もしくは非存在を検出することなく、またはプライマーを伸長するために少なくとも2つの異なるタイプのヌクレオチド塩基の混合物を含むことにより(第1および/または第3を通したプライマーの伸長のほうが少ない異なるタイプのヌクレオチド塩基に頼る)、第1および/または第3の領域を通したプライマーの伸長よりも速い速度で起こり得る。プライマーの伸長は、交互パターンでさらに延長され得る。例えば、プライマーは、第3の領域を通して伸長された後、第4の領域へとさらに伸長され得る。第4の領域を通したプライマーの伸長は、例えば、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、またはプライマーを伸長するために少なくとも2つの異なるタイプのヌクレオチド塩基の混合物を含むことにより、第1および/または第3の領域を通したプライマーの伸長よりも速い速度で起こり得る。次いで、プライマーは、標識ヌクレオチドを使用して第5の領域へと伸長され得、伸長されたプライマーに取り込まれたヌクレオチドを検出することにより第5の領域についてのシークエンシングデータを生成することができる。このプロセスを何交互サイクルでも好きなだけ反復することができる。任意の2領域からのシークエンシングデータを関連付けてカップリングされたシークエンシングリードペアを生成することができ、カップリングされたシークエンシングリードペアを、本明細書中で説明されるように(例えば、選択領域間の領域を、本明細書で提供される解析方法について説明されるような「第2の領域」である考えることにより)解析することができる。
【0114】
図1は、カップリングされたシークエンシングリードペアをポリヌクレオチド(例えば、DNA)から生成するための例示的方法の概略図を示す。102で、ポリヌクレオチド104がプライマー106とハイブリダイズされて、ハイブリダイズされた鋳型が形成される。一部の実施形態では、ポリヌクレオチドは、シークエンシングライブラリー調製中に標的ポリヌクレオチドの3’にライゲーションされ得るアダプター領域108を含む。アダプター領域108は、ハイブリダイゼーション領域を含むことができ、プライマー106は、アダプター領域108のハイブリダイゼーション領域とハイブリダイズすることができる。ステップ110で、ポリヌクレオチド104の第1の領域112についてのシークエンシングデータが、標識ヌクレオチドを使用してプライマー106を伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成される。プライマーを伸長するために使用されるヌクレオチドは、非標識ヌクレオチドをさらに含むことがあるが、シークエンシングデータを生成するために、ヌクレオチド組込みを検出するために標識ヌクレオチドが使用される。一部の実施形態では、ヌクレオチドは、第1の領域112を通してプライマー106を伸長するために第1の領域のフロー順序に従って1または複数のサイクルで段階的に付加され、ハイブリダイズされた鋳型をサイクルステップに従って洗浄して、組み込まれなかったヌクレオチドを、取り込まれた標識ヌクレオチドの存在または非存在の検出の前に除去することができる。ステップ114で、プライマー106は、第2の領域のフロー順序に従ってポリヌクレオチド104の第2の領域116を通して伸長される。プライマー106は、第2の領域116を通して、ステップ110でのプライマーの伸長よりも速い速度で伸長され得る。この加速されたプライマー伸長は、この方法の「高速フォワード」部分と呼ばれることがある。ヌクレオチド(これらは、一部の実施形態では、非標識である)は、ハイブリダイズされた鋳型に第2の領域のフロー順序に従って1または複数のサイクルで段階的に付加される。一部の実施形態では、1つより多くの(例えば、2つまたは3つの)異なる塩基タイプが所与のサイクルステップで同時に使用され、このことによりプライマー伸長が加速される。一部の実施形態では、ヌクレオチドは非標識であり、このことにより、標識ヌクレオチドよりも速いプライマー伸長が可能になる。一部の実施形態では、プライマーは、ヌクレオチドの標識の存在または非存在を検出することなく、伸長される。ステップ118で、ポリヌクレオチド104の第3の領域118についてのシークエンシングデータが、標識ヌクレオチドを使用してプライマー106を伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成される。第3の領域118についてのシークエンシングデータの生成は、第1の領域112についてのシークエンシングデータの生成について説明したのと同様の方法で進行し得る。ステップ122で、第1の領域112について生成されたシークエンシングデータは、第3の領域120について生成されたシークエンシングデータと関連付けられ、その結果、ポリヌクレオチド104についてのカップリングされたシークエンシングリードペア124が得られる。第1の領域と第3の領域とを関連付けたシークエンシングデータは、第1および第3の領域の配列を含み得る。カップリングされたシークエンシングリードペア124は、第1の領域112および第3の領域120についてのシークエンシングデータを含み、これらの領域は、必ずしもシークエンシングデータが分かるとは限らない第2の領域116により隔てられている。
【0115】
ポリヌクレオチドの第1の領域についてのシークエンシングデータの生成は、本明細書に記載される実施形態の一部に従って生成されなくてもよい。例えば、シークエンシングプライマーを、標的領域とハイブリダイズすることにより、標的シークエンシングに使用することができる。標的シークエンシングでは、ポリヌクレオチドの第1の領域は既知であり、プライマーは、第1の領域に特異的に結合するように設計される。次いで、プライマーを、説明されたように第2の領域および第3の領域を通して伸長することができ、第3の領域についてのシークエンシングデータが生成されることになる。一部の実施形態では、カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法は、(a)プライマーをポリヌクレオチドの第1の領域とハイブリダイズしてハイブリダイズされた鋳型を形成するステップ;(b)プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して第2の領域を通して伸長するステップであって、(i)プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、第2の領域を通して伸長される、または(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用される、ステップ;および(c)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(b)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップを含む。
【0116】
参照配列を使用して、第1の領域、第2の領域および/または第3の領域についての予想シークエンシングデータ(例えば、フローグラム)を決定することができる。第1および第3の領域についての配列を、それらの領域について生成されたシークエンシングデータから決定することができる。例えば、表2を参照して、サイクル1は、第1の領域に関連付けられ、この配列は、塩基に対する相補配列として容易に決定され(すなわち、塩基フローA-C-T-Gは、TGACの配列に対応する)、サイクル4および5は、第3の領域に関連付けられ、この配列は、CTGAC(すなわち、G-A-C-T-Gの相補配列)として決定される。したがって、第1の領域および/または第3の領域から生成されたシークエンシングデータを使用して、第1の領域および/または第3の領域(または第1の領域および/もしく第3の領域の少なくとも一部分)を参照配列にマッピングすることができる。参照配列にマッピングされると、第2の領域および参照配列を通してプライマーを伸長するために使用されたフロー順序を使用して、第2の領域についての予想シークエンシングデータを生成することができる。
【0117】
第2の領域についての参照配列、第2の領域についてのフロー順序、第3の領域についてのフロー順序、および第3の領域の配列についての情報を使用して、第3の領域についての予想シークエンシングデータを決定することもできる。同様に、第2の領域についての参照配列、第2の領域についてのフロー順序、第1の領域についてのフロー順序、および第1の領域の配列についての情報を使用して、第1の領域についての予想シークエンシングデータを決定することができる。第3の領域(または第1の領域)の配列についての情報を、例えば、参照配列(もしくは異なる参照配列)、または生成されたシークエンシングデータ、例えば、標識ヌクレオチドを使用してプライマーを伸長し、取り込まれた標識ヌクレオチドの存在もしくは非存在を検出することにより生成されたシークエンシングデータ、または他の方法(例えば、ポリヌクレオチドの第3の領域の第3の領域を独立してシークエンシングすること)により得られたシークエンシングデータから、得ることができる。
【0118】
例として、第3の領域についての予想シークエンシングデータを、第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列を使用して決定することができる。第1の領域(またはその一部分)を参照配列にマッピングすることができ、第2の領域に対応する参照配列、および第2の領域のフロー順序を使用して、第2の領域についての予想参照シークエンシングデータを決定することができる。同様に、第3の領域についての参照配列を、第3の領域のフロー順序とともに使用して、第3の領域についての予想参照シークエンシングデータを決定することができる。同様の方法を使用して、第1の領域についての予想シークエンシングデータを決定することができる。例えば、第1の領域についての予想シークエンシングデータを、第2の領域についての参照配列、第2の領域のフロー順序、第1の領域のフロー順序、および第1の領域についての参照配列を使用して決定することができる。第3の領域(またはその一部分)を参照配列にマッピングすることができ、第2の領域に対応する参照配列、および第2の領域のフロー順序を使用して、第2の領域についての予想参照シークエンシングデータを決定することができる。同様に、第1の領域についての参照配列を、第1の領域のフロー順序とともに使用して、第1の領域についての予想参照シークエンシングデータを決定することができる。
【0119】
別の例では、第3の領域についての予想シークエンシングデータを、第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および前述の通り生成されたシークエンシングデータと同じこともあり、または異なることもある、第3の領域の配列に関連するシークエンシングデータを使用して決定することができる。第1の領域(またはその一部分)を参照配列にマッピングすることができ、第2の領域に対応する参照配列、および第2の領域のフロー順序を使用して、第2の領域についての予想参照シークエンシングデータを決定することができる。第3の領域についてのシークエンシングデータを使用して、第3の領域の配列を決定することができる。さらに、第3の領域の配列を、第3の領域のフロー順序とともに使用して、第3の領域についての予想シークエンシングデータを決定することができる。
【0120】
図2は、予想シークエンシングデータを生成するための例示的方法の概略図を示す。ステップ202で、カップリングされたシークエンシングリードペアが参照配列にマッピングされる。カップリングされたシークエンシングリードペアのマッピングは、カップリングされたシークエンシングリードペア(もしくはその一部分)の第1の領域(もしくはその一部分)の参照配列へのマッピング、カップリングされたシークエンシングリードペアの第3の領域(もしくはその一部分)の参照配列への、または第1の領域(もしくはその一部分)と第3の領域(もしくはその一部分)両方の参照配列へのマッピングを含み得る。ステップ204で、第2の領域についての予想シークエンシングデータ(例えば、予想フローグラム)が、第2の領域のフロー順序および参照配列を使用して決定される。既知のフロー順序および参照シークエンシングを用いて、予想シークエンシングデータ(つまり、ポリヌクレオチドの第2の領域が参照配列にマッチするかどうかを予想されるシークエンシングデータ)の決定を容易に達成することができる。さらに、第2の領域についての予想シークエンシングデータを使用して、第2の領域の予想5’末端を決定することができる。第2の領域の5’末端は、その領域についてのフロー順序、および第2の領域の配列によって変わり得る。したがって、第3の領域の3’末端も、第2の領域のフロー順序、および第2の領域の配列に基づいて変わり得る。なぜなら、第3の領域の3’末端は、第2の領域の5’末端に隣接しているからである。第3の領域の3’末端が(例えば、第2の領域についての予想シークエンシングデータを使用して決定して)確立されると、ステップ206に示されているように、第3の領域についての予想シークエンシングデータを決定することができる。本明細書中でさらに説明されるように、第3の領域についての予想シークエンシングデータを使用して、ポリヌクレオチドの第2の領域内のバリアントなどの、バリアントを決定することができる。
【0121】
ポリヌクレオチドが第2の領域内にバリアントを含む場合、第3の領域に関連する生成シークエンシングデータ(例えば、フローグラム)と第3の領域に関連する予想シークエンシングデータとは(配列コンテキスト、およびバリアントのサイズに依存して)異なり得る。したがって、一部の実施形態では、バリアントは、予想シークエンシングデータと生成シークエンシングデータとの差に基づいて検出される。
【0122】
参照配列は、ポリヌクレオチドと同じ種の任意の好適な配列であり得、参照配列とポリヌクレオチドの配列の間には多少の差があり得る。本明細書に記載される方法の一部の実施形態では、これらの差、すなわちバリアント、を検出することができる。一部の実施形態では、試験バリアント(すなわち、目的のバリアント)は、参照配列に含まれており、他の実施形態では、試験バリアントは、参照配列には含まれていない。一部の実施形態では、一方が、試験バリアントを含む参照配列であり、他方が、試験バリアントを含まない参照配列である、2つの異なる参照配列を用いて、解析を遂行することができる。一部の実施形態では、2つの参照配列間の唯一の差は、試験バリアントの存在または非存在である。
【0123】
本明細書に記載されるバリアント検出方法の感度は、第1、第2および/または第3の領域においてプライマーを伸長するために使用されるバリアントのコンテキストおよび/またはフロー順序に依存し得る。所与のフロー順序で見逃されるバリアントは、第1、第2および/または第3の領域において異なるフロー順序を使用することにより検出可能になり得る。したがって、本明細書に記載される方法の一部の実施形態では、ポリヌクレオチドの第1、第2および/または第3の領域のうちの1つまたは複数を通してプライマーを伸長するために、1つより多くのカップリングされたシークエンシングリードペアが異なるフロー順序を使用して生成される。
【0124】
本明細書に記載される方法で使用されるポリヌクレオチドは、任意の好適な生物源、例えば、組織試料、血液試料、血漿試料、唾液試料、糞便試料、または尿試料から得ることができる。ポリヌクレオチドは、DNAポリヌクレオチドであることもあり、またはRNAポリヌクレオチドであることもある。一部の実施形態では、RNAポリヌクレオチドは、ポリヌクレオチドをシークエンシングプライマーとハイブリダイズする前にDNAポリヌクレオチドに逆転写される。一部の実施形態では、ポリヌクレオチドは、無細胞DNA(cfDNA)、例えば、循環腫瘍DNA(ctDNA)または胎児無細胞DNAである。
【0125】
ポリヌクレオチドのライブラリーを公知の方法によって調製することができる。一部の実施形態では、ポリヌクレオチドをアダプター配列にライゲーションすることができる。アダプター配列は、カップリングされたシークエンシングリードペアの生成中に伸長されたプライマーとハイブリダイズしたハイブリダイゼーション配列を含み得る。
【0126】
一部の実施形態では、シークエンシングデータは、シークエンシングコロニー(シークエンシングクラスターとも呼ばれる)を確立する前に核酸分子を増幅することなく得られる。シークエンシングコロニーを生成するための方法としては、ブリッジ増幅またはエマルジョンPCRが挙げられる。ショットガンシークエンシング、およびコンセンサス配列のコーリングに頼る方法は、一般に、固有分子識別子(UMI)を使用して核酸分子を標識し、その核酸分子を増幅させて、独立してシークエンシングされる同じ核酸分子の非常に多数のコピーを生成する。次いで、増幅された核酸分子を表面に結合させ、ブリッジ増幅させて、独立してシークエンシングされるシークエンシングクラスターを生成し得る。次いで、UMIを使用して、独立してシークエンシングされた核酸分子を関連付けることができる。しかし、増幅プロセスは、例えばDNAポリメラーゼの限られた忠実度に起因して、核酸分子にエラーを導入し得る。一部の実施形態では、核酸分子は、シークエンシングデータを得るためのコロニーを生成するための増幅の前に増幅されない。一部の実施形態では、核酸シークエンシングデータは、固有分子識別子(UMI)を使用せずに得られる。
【0127】
一部の実施形態では、フローシークエンシング法は、ローリングサークル増幅(RCA)シークエンシングとともに使用される。RCAは、線状配列で共有結合された核酸分子の複数のコピーの形成を可能にする。例えば、Dean et al., Rapid Amplification of Plasmid and Phage DNA Using Phi29 DNA Polymerase and Multiply-Primed Rolling Circle Amplification, Genome Research, vol. 11, pp. 1095-1099 (20001);および米国特許第5,714,320号を参照されたく、これら参考文献の各々についての内容は、参照により本明細書に組み込まれる。核酸分子の複数のコピーを直線的にシークエンシングすることができるため、所与の領域は、シークエンシングが進行するにつれて「暗」モードまたは「明」モードで交互にシークエンシングされ得る。一部の実施形態では、シークエンシングモード切り替えを、動的に(および必要に応じて、自動的に)決定することができる。例えば、バリアントは、「暗」領域内で検出され得るが、わずかな情報しか生成されないため、特定のバリアントのコーリングが阻まれる。それ故、シークエンシングフローを動的に調整して、明モードでバリアントを含有する核酸の領域をシークエンシングすることができる。例えば、試験試料中の短い遺伝子バリアントを検出する方法は、(a)ローリングサークル増幅(RCA)を使用してポリヌクレオチドを増幅させて、ポリヌクレオチドの第1のコピーとポリヌクレオチドの第2のコピーとを少なくとも含むRCA増幅ポリヌクレオチドを生成するステップ;(b)RCA増幅ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(c)ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(d)プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用してポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してさらに伸長するステップであって、(i)プライマーは、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物は、第2の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通したプライマーの伸長は、第1の領域を通したプライマーの伸長よりも速く進行する、ステップ;(e)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(f)ポリヌクレオチドの第3の領域について生成されたシークエンシングデータをポリヌクレオチドの第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;(g)ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップ;(h)ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;および(i)ポリヌクレオチドの第2の領域における短い遺伝子バリアントのアイデンティティーをコールするステップを含み得る。一部の実施形態では、ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータは、ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップに基づいて動的に生成される。
伸張されたフローサイクル
【0128】
フローサイクル順序は、必ずしも4塩基フローサイクル(例えば、A、G、CおよびTを1つずつ、任意の反復順序で)に限定される必要はなく、サイクル内の塩基タイプが4タイプより多い延長フローサイクルであってもよい。延長サイクル順序を所望のサイクル数、反復して、シークエンシングプライマーを伸長することができる。例として、一部の実施形態では、延長フロー順序は、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20またはそれより多くの別々のヌクレオチドフローをフローサイクル順序で含む。サイクルは、A、G、CおよびTを少なくとも1つずつ含むことができるが、サイクルが反復される前にサイクル内の1または複数の塩基タイプを反復する。伸張されたフローサイクルは、例えば、本明細書に記載の方法に従い第2の領域を通してプライマーを伸張するために使用され得る。
【0129】
延長フローサイクル順序は、4塩基が反復されるフローサイクル順序よりも小さいゲノムバリアント(例えばSNP)のより大きな割合を検出するのに有用であり得る。例えば、形式XYZ→XQZ[ここで、Q≠Y(およびQ、X、YおよびZは、各々、A、C、GおよびTのいずれかを1つである)]の置換SNPについて192の有効な配置がある。これらの中で、168は、シークエンシングデータセット(例えば、フローグラム)において新しいシグナル(すなわち、新しい非ゼロシグナルまたは新しいゼロシグナル)を生じさせることができる。感度の良いフロー順序と組み合わせられた新しいゼロまたは非ゼロシグナルは、複数のフロー位置にわたって伝播されるシグナル(例えば、サイクルの長さよりも長く延長することができる、フローシフト)を生じさせることができ、このことにより、バリアントにおいて参照と比較して同一の末尾の配列が得られる。ホモポリマー長変化ではなく、ホモポリマーの挿入または欠失が、シグナルの相違の伝播を生じさせる結果となり得ることは注目される。残りの24のバリアントは、影響を受けたフロー位置においてホモポリマー長変化を引き起こすが、そのような変化は、シグナル変化の伝播を引き起こさない。したがって、SNPの理論上最大87.5%は、2カ所より多くのフロー位置について参照(または候補)配列とは異なる新しいシグナルを生じさせる結果となり得る。上記で論じられたように、シグナルの相違の伝播は、試験シークエンシングデータセットと誤ってマッチした候補配列との尤度差を増加させる。さらに、シグナル変化の伝播は、バリアントに及ぶフロー順序に依存する。
【0130】
ランダムに断片化された試験試料中の核酸分子のシークエンシングは、シークエンシングプライマーがフロー順序を使用して伸長された場合、バリアントのフロー順序コンテキストのランダムシフトを生じさせる結果となる。つまり、バリアントのフロー位置は、シークエンシングされる核酸分子の開始位置によって変わり得る。たとえ核酸分子配列中のすべてのシークエンシング開始位置が用いられたとしても、SNPの87.5%すべてについて、すべてのフローサイクルの組合せが2カ所より多くのフロー位置においてシグナル変化を検出できるとは限らない。例えば、4塩基フローサイクル順序T-A-C-Gは、SNPの41.7%について2カ所より多くのフロー位置において参照シークエンシングデータセットと異なる試験シークエンシングデータセットを生じさせる結果となり得る。本明細書中でさらに論じられるように、延長フローサイクル順序は、SNPの理論上最大量(すなわち、可能なSNPの87.5%、またはホモポリマー長の変化を生じさせる結果となるもの以外のすべてのSNP)のすべてが、2カ所より多くの位置において試験シークエンシングデータセットと参照シークエンシングデータセットとの差を生じさせることができるように設計されており、このことにより十分な高さのシークエンシング深度(すなわち、十分多い数の出発位置のサンプリング)が得られる。
【0131】
延長シークエンシングフロー順序は、異なる効率(すなわち、ヒト参照ゲノム配列に使用された場合のフローごとの平均取り込み数)を有し得る。一部の実施形態では、フロー順序は、約0.6のまたはそれを超える(例えば、約0.62もしくはそれを超える、約0.64もしくはそれを超える、約0.65もしくはそれを超える、約0.66もしくはそれを超える、または約0.67もしくはそれを超える)効率を有する。一部の実施形態では、フロー順序は、約0.6~約0.7の効率を有する。フローサイクル順序および対応する推定効率の例は、表4に示されている。
【0132】
一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも5%についてのSNPパーミュテーションの約50%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置(すなわち、「フロー相」)の少なくとも5%についてのSNPパーミュテーションの約60%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも5%についてのSNPパーミュテーションの約70%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所またはそれより多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも5%についてのSNPパーミュテーションの約80%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。
【0133】
一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも10%についてのSNPパーミュテーションの約50%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも10%についてのSNPパーミュテーションの約60%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも10%についてのSNPパーミュテーションの約70%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所またはそれより多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも10%についてのSNPパーミュテーションの約80%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。
【0134】
一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも20%についてのSNPパーミュテーションの約50%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも20%についてのSNPパーミュテーションの約60%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも20%についてのSNPパーミュテーションの約70%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所またはそれより多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも20%についてのSNPパーミュテーションの約80%~87.5%がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。
【0135】
一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも30%についてのSNPパーミュテーションの約50%~87.5%(または約50%~約80%)がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも30%についてのSNPパーミュテーションの約60%~87.5%(または約60%~約80%)がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所より多くのフロー位置において生じさせるように選択される。一部の実施形態では、延長シークエンシングフロー順序は、ランダムシークエンシング開始位置の少なくとも30%についてのSNPパーミュテーションの約70%~87.5%(または約70%~約80%)がSNPによって異なる、核酸分子に関連する2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を、2カ所またはそれより多くのフロー位置において生じさせるように選択される。
【0136】
一部の実施形態では、延長シークエンシングフロー順序は、表4における延長シークエンシングフロー順序のうちのいずれか1つである。「シフト感度」は、すべての可能なSNPパーミュテーションにわたって2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間のシグナルの相違を2カ所より多くのフロー位置において生じさせる最大感度を指す。「最大シフト感度」は、その感度が維持されるフロー相の最高分率ですべての可能なSNPパーミュテーションにわたって2つのシークエンシングデータセット(例えば、試験または標的シークエンシングデータセットと候補または参照シークエンシングデータセット)間でシグナルの相違を2カ所より多くのフロー位置において生じさせる最大感度を指す。
【表4-1】
【表4-2】
【表4-3】
【0137】
一部の実施形態では、フローサイクル順序は、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%における可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する。一部の実施形態では、誘導されるシグナル変化は、シグナル強度の変化、または新しい実質的にゼロ(もしくは新しいゼロ)もしくは新しい実質的に非ゼロ(もしくは新しい非ゼロ)シグナルである。一部の実施形態では、誘導されるシグナル変化は、新しい実質的にゼロ(もしくは新しいゼロ)または新しい実質的に非ゼロ(もしくは新しい非ゼロ)シグナルである。一部の実施形態では、前記フローサイクル順序は、1フロー当り0.6のまたはそれを超える塩基取り込みの効率を有する。一部の実施形態では、フローサイクルは、表4に収載されているフローサイクル順序のうちのいずれか1つである。
再位相化フロー
【0138】
1つまたは複数の再位相化フローを第2の領域としてまたは第2の領域内で使用して、シークエンシングクラスター内の並列シークエンシング反応を再位相化する(すなわち、同期化する)ことができる。シークエンシングクラスターは、共通の表面(例えば、ビーズまたはフローセル)にしっかりと結合された複数のポリヌクレオチドコピーを含む。クラスターは、例えば、ポリヌクレオチドを表面に結合させること、および結合されたポリヌクレオチドを(例えば、ブリッジ増幅により)増幅させることにより、形成することができる。ポリヌクレオチドの各々とハイブリダイズされたプライマーが、同一の鋳型に基づいてヌクレオチドを組み込むことにより同時に伸長されるので、シークエンシングデータをシークエンシングクラスターからまとめて収集することができる。しかし、伸長プライマーにヌクレオチドを組み込む化学的プロセスは、不完全であることが多く、そのためシークエンシングクラスター内の鎖間の非同期化が生じる。つまり、ある特定のプライマーは、クラスター内の他の伸長されたプライマーと比較して進行が遅いことがある。非同期化の結果として、リード長が増加するにつれて伸長プライマーへのヌクレオチド組込みの存在または非存在を検出する際に、シグナルの劣化、したがって、精度の低下が生じ得る。再同期化は、シグナル損失の相殺をもたらすことができ、それによって、より長い有効リード長が可能になる。シークエンシング反応を再位相化するために、少なくとも2つ(例えば、2つまたは3つ)の異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の複数のステップで使用される、1つまたは複数の再位相化フローを使用して、プライマーが第二の領域を通して伸長される。再位相化フロー中に組み込まれるヌクレオチドを一部の実施形態では検出することができず、その結果、得られるリードにギャップが生じることになる。しかし、配列が参照または他の配列にアラインメントされる場合、このリードギャップを管理することができる。そのような「キャッチアップフロー」を含むことにより、遅れプライマーは、クラスター内の他の伸長されたプライマーに対する遅れを取り戻すことができる。
【0139】
複数のポリヌクレオチドコピーを含むシークエンシングクラスターを(例えば、シークエンシングクラスター内で)再同期化する方法は、少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、再位相化フロー順序の少なくとも1ステップで使用される、再位相化フロー順序を使用して、ポリヌクレオチドコピーとハイブリダイズされたプライマーを伸長するステップを含み得る。一部の実施形態では、シークエンシングクラスター内のシークエンシングプライマーを同期化する方法は、(a)プライマーをシークエンシングクラスター内のポリヌクレオチドコピーとハイブリダイズするステップ;(b)プライマーを、第1の領域のフローサイクルに従って標識ヌクレオチドを使用してポリヌクレオチドコピーの第1の領域を通して伸長するステップ;(c)プライマーを、1つまたは複数の再位相化フローを使用してポリヌクレオチドコピーの第2の領域を通して伸長するステップであって、少なくとも2つの異なるタイプのヌクレオチドの混合物は、1つまたは複数の再位相化フローの各々において使用される、ステップ;および(d)プライマーを、第3の領域のフローサイクルに従って標識ヌクレオチドを使用してポリヌクレオチドコピーの第3の領域を通して伸長するステップを含む。
【0140】
複数のポリヌクレオチドコピー(例えば、シークエンシングクラスター内の)からシークエンシングリードを生成する方法は、再同期化方法を含み得る。例えば、シークエンシングリードペアを複数のポリヌクレオチドコピーから生成するための方法は、(a)ポリヌクレオチドコピーをプライマーとハイブリダイズして、ハイブリダイゼーション鋳型を形成するステップ;(b)ポリヌクレオチドコピーの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(c)ステップ(b)で伸長されたプライマーを、1つまたは複数の再位相化フローで提供されるヌクレオチドを使用して第2の領域を通してさらに伸長するステップであって、少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が1つまたは複数の再位相化フローの各々で使用される、ステップ;および(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップを含む。
【0141】
再位相化フロー順序(または再位相化フローサイクル)は、シークエンシングクラスターにおいて遅れプライマーが先導プライマーに対する遅れを取り戻すことを可能にする1つまたは複数のステップを含む。再位相化フロー順序でのステップのうちの少なくとも1つ(例えば、1つ、2つ、3つ、4つ、またはそれより多く)は、2つまたはそれより多く(例えば3つ)の異なるタイプのヌクレオチド塩基の混合物を含む。一部の実施形態では、再位相化フロー順序は、2つまたは3つの異なるタイプのヌクレオチド塩基を各々が含む、1つ、2つ、3つ、4つ、5つ、またはそれより多くのフローを含む。
【0142】
再位相化フロー順序は、再位相化フロー順序後の同期化された伸長プライマーの部分を増加させるように構成される。一部の実施形態では、再位相化フロー順序は、任意の順序で、(i)A、CおよびGヌクレオチドを含むがT(および/またはU)ヌクレオチドを含まない混合物を含むフローステップ(「非T」(および/または「非U」)ステップとも呼ばれる];(ii)T(および/またはU)、CおよびGヌクレオチドを含むがAヌクレオチドを含まない混合物を含むフローステップ(「非A」ステップとも呼ばれる);(iii)T(および/またはU)、AおよびGヌクレオチドを含むがCヌクレオチドを含まない混合物を含むフローステップ(「非C」ステップとも呼ばれる);および(iv)T(および/またはU)、AおよびCヌクレオチドを含むがGヌクレオチドを含まない混合物を含むフローステップ(「非G」ステップとも呼ばれる)を含む。
【0143】
他の再位相化フローを決定することができる。例として、一部の実施形態では、再位相化フロー(再位相化フロー順序での)は、任意の順序で、(i)AおよびCヌクレオチドを含むがGおよびT(および/またはU)ヌクレオチドを含まない混合物を含むフローステップ;(ii)T(および/またはU)およびGヌクレオチドを含むがAおよびCヌクレオチドを含まない混合物を含むフローステップ;(iii)AおよびGヌクレオチドを含むがT(および/またはU)およびCヌクレオチドを含まない混合物を含むフローステップ;(iv)T(および/またはU)およびCヌクレオチドを含むがAおよびGヌクレオチドを含まない混合物を含むフローステップ;(v)AおよびT(および/またはU)を含むがGおよびCヌクレオチドを含まない混合物を含むフローステップ;(vi)CおよびGヌクレオチドを含むがAおよびT(および/またはU)を含まない混合物を含むフローステップ;(vii)A、GおよびCヌクレオチドを含むがTヌクレオチドを含まない混合物を含むフローステップ;(viii)T(および/またはU)、AおよびGヌクレオチドを含むがCヌクレオチドを含まない混合物を含むフローステップ;(ix)C、T(および/またはU)およびAヌクレオチドを含むがGヌクレオチドを含まない混合物を含むフローステップ;および/または(x)G、CおよびT(および/またはU)ヌクレオチドを含むがAヌクレオチドを含まない混合物を含むフローステップ、のうちの1つまたは複数を含む。
【0144】
4つすべてのタイプの非終結ヌクレオチドの混合物(すなわち、A、C、GおよびT(および/またはU)を含む混合物)を含むことは、無制御プライマー伸長を生じさせる結果となり得る。しかし、3つの塩基タイプが非終結ヌクレオチドであり、1つの塩基タイプが可逆的ターミネーターを含む、4つすべてのタイプのヌクレオチドの混合物を、再位相化フロー順序で使用することができる。例えば、一部の実施形態では、再位相化フロー順序は、(i)非終結Aヌクレオチドと、非終結Cヌクレオチドと、非終結Gヌクレオチドと、可逆的ターミネーターを含むT(および/またはU)ヌクレオチドとを含む(またはそれらからなる)混合物を含むフローステップ;または(ii)非終結T(および/またはU)ヌクレオチドと、非終結Aヌクレオチドと、非終結Cヌクレオチドと、可逆的ターミネーターを含むGヌクレオチドとを含む(またはそれらからなる)混合物を含むフローステップ;または(iii)非終結Gヌクレオチドと、非終結T(および/またはU)ヌクレオチドと、非終結Aヌクレオチドと、可逆的ターミネーターを含むCヌクレオチドとを含む(またはそれらからなる)混合物を含むフローステップ;または(iv)非終結Cヌクレオチドと、非終結Gヌクレオチドと、非終結T(および/または)ヌクレオチドと、可逆的ターミネーターを含むAヌクレオチドとを含む(またはそれらからなる)混合物を含むフローステップを含む。プライマーは、可逆的ターミネーターを含むヌクレオチドが組み込まれるまで、鋳型鎖に基づいてヌクレオチドを組み込むことにより伸長され、これにより、シークエンシングクラスター内の可逆的ターミネーターを有する塩基の位置で伸長プライマーが同期化される。次いで、可逆的ターミネーターを除去することができ、次いで、シークエンシングプロセスは、同期化されたプライマーを用いて進行することができる。
【0145】
一部の実施形態では、再位相化フロー順序は、(i)C、GおよびT(および/またはU)塩基(A塩基を含まない)の混合物を含む第1の再位相化フロー、ならびにA、CおよびG塩基(Tおよび/またはU塩基を含まない)の混合物を含む第2の再位相化フローを、任意の順序で含む。
【0146】
シークエンシングクラスター内の伸長プライマーを同期化するための本明細書に記載される方法を、プライマーを伸長するために非終結ヌクレオチドを使用する、合成によるシークエンシングで使用することができる。一部の実施形態では、方法は、本明細書に記載される他の方法、例えば、本明細書に記載される高速フォワードシークエンシング法(例えば、「暗」領域を生成するシークエンシング法)と組み合わせて使用される。
カップリングされたシークエンシングリードペアの参照配列へのマッピング
【0147】
カップリングされたシークエンシングリードペアを参照配列にマッピングすることができ、この参照配列は、目的の試験バリアントを含むこともあり、または含まないこともある。第1の領域または第3の領域についてのシークエンシングデータを使用して、第1の領域または第3の領域の配列をそれぞれ導出することができる。第1の領域、もしくは第1の領域の一部分、または第3の領域、もしくは第3の領域の一部分を、参照配列にマッピングすることができる。第1の領域と第3の領域の間の距離(すなわち、第2の領域の長さ)を決定または推定することができ、それによって、マッピングされなかった第3または第1の領域についてのおおよその遺伝子座を得ることができる。すると、このおおよその遺伝子座を使用して、マッピングされなかった第1または第3の領域を参照配列に容易にマッピングすることができる。
【0148】
マッピングされた配列は、ある配列(例えば、領域の配列またはその一部分)の別の配列(例えば、参照配列)へのアラインメントを指す。マッピング可能な配列は、選択されたマッピング閾値(すなわち、マッピングスコア)に従って、別の配列(例えば、参照配列)にマッピングすることができる配列(例えば、領域の配列またはその一部分)である。したがって、マッピング不可能な配列は、選択されたマッピング閾値(マッピングスコア)に従って他の配列にマッピング可能でない配列である。スコアを、エラーリスク許容度に基づいて事前に決定する(すなわち、マッピングの前に選択する)ことができる。例えば、ある配列を別の配列にマッピングする際にスミス・ウォーターマンアルゴリズムを使用することができ、マッピング閾値を、「マッピング可能な」配列と「マッピング不可能な」配列を区別するように選択することができる。例として、マッピングスコアが+1であり、ミスマッチスコアが-1であり、ギャップ開始スコアが-2であり、ギャップ伸長スコアが-2である場合、マッピングスコア閾値は、+5であるかもしくはそれより大きく、+6であるかもしくはそれより大きく、+8であるかもしくはそれより大きく、+10であるかもしくはそれより大きく、+12であるかもしくはそれより大きく、+14であるかもしくはそれより大きく、+16であるかもしくはそれより大きく、+18であるかもしくはそれより大きく、または+20であるかもしくはそれより大きい。他のスコアまたはペナルティスコアが当業者により選択されることもある。
【0149】
カップリングされたシークエンシングリードペアの1つまたは複数の領域などの、配列を、任意の好適なマッピングソフトウェア、例えば、GATK、Bowtie、Bowtie2、BWA、BWA-MEM、Novoalign、SOAP2、SOAP3、およびその他、例えば、バローズ・ホイーラー変換(BWT)に基づくアライナーなどを用いてマッピングすることができる。例えば、Miller et al., Assembly algorithms for next-generation sequencing data, Genomics, vol. 95, pp. 315-327 (2010);Chaisson et al., De novo fragment assembly with short mate-paired reads: Does the read length matter? Genome Research, vol. 19, pp. 336-346 (2009);Mielczarek et al., Review of alignment and SNP calling algorithms for next-generation sequencing data, J. Appl. Genetics, vol. 57, pp. 71-79 (2016);Nielsen et al., Genotype and SNP calling from next-generation sequencing data, Nature Reviews Genetics, vol. 2, pp. 443-451 (2011);およびHwang et al., Systematic comparison of variant calling pipelines using gold standard personal exome variants, Sci Rep., vol. 5, 17875 (2015)を参照されたく、これらの参考文献の各々は、あらゆる目的で参照により本明細書に組み込まれる。
【0150】
参照配列に対するポリヌクレオチドの領域の遺伝子座を概算するための距離情報の使用は、ポリヌクレオチドの第2の領域内の構造バリアント(例えば、挿入または欠失)の検出に、またはゲノム内の複数のマッピング可能な遺伝子座の分解(例えば、第1の領域もしくは第3の領域が、反復領域もしくは他の非固有配列を含む場合)に、有用である。距離情報は、本明細書で論じられる場合、2点(例えば、領域の始点と終点)間の空間の量に関し、種々の基準枠で考慮され得る。例えば、物理的空間の距離情報は、塩基数または物理的距離(例えば、ポリヌクレオチドが線状に配置された場合、一次元空間でのマイクロメートル数)を指すことがある。シークエンシングデータ空間(例えば、フローグラム空間)の距離情報は、所与のフロー順序を用いて空間内のプライマーを伸長するために使用されたフローステップの数を指すこともある。物理的空間の距離情報およびシークエンシングデータ空間の距離情報は、配列(または参照配列)およびフロー順序が既知である場合、分析的に代替可能である。
【0151】
距離情報は、第2の領域の長さを示すが、必ずしも第2の領域の正確な長さではない。なぜなら、マッピングされなかった領域が距離情報により概算された位置内に最終的にマッピングされるからである。一例では、距離情報は、第2の領域のフロー順序(または第2の領域のフロー順序に関連する情報)および第2の領域における塩基の確率分布を使用して決定される。第2の領域における塩基の確率分布は、例えば、ゲノム全体にわたっての塩基の仮定分布であることがあり、または第1の領域もしくは第3の領域のマッピングされた遺伝子座に基づく、より局所的な確率であることもある。第2の領域のフロー順序に関連する情報は、例えば、第2の領域を通してプライマーを伸長するために同時に使用されるヌクレオチド塩基の異なるタイプの数であり得る。例として、第2の領域内のプライマーを伸長するために反復サイクルで3塩基フローステップを使用して(例えば、各サイクルステップが3つの他の塩基を含む、(非A)-(非C)-(非T)-(非G)のサイクルステップを使用して)、および第2の領域における塩基の分布を全体としてゲノムとほぼ同じと仮定して、プライマーは、サイクルにおけるステップごとにおおよそ4.7塩基ずつ伸長されると予想される。したがって、第2の領域の長さは、第2の領域のフロー順序でのステップの数の4.7倍と概算することができる。
【0152】
一部の実施形態では、距離情報は、第2の領域についての予想参照シークエンシングデータから導出される。本明細書中で論じられるように、第2の領域についての予想参照シークエンシングデータを、参照配列および第2の領域のフロー順序を使用して決定することができる。ポリヌクレオチドの第1または第3の領域が参照配列にマッピングされると、予想配列長を含む、予想配列情報が決定され、これにより、ポリヌクレオチドの第1の領域と第3の領域の間の長さが得られる。
【0153】
1つより多くのマッピング可能な位置が参照配列内で入手可能な場合、距離情報を使用して、カップリングされたシークエンシングリードペアを参照配列にマッピングすることができる。例えば、一部の実施形態では、第1の領域を高い信頼度で参照配列にマッピングすることができるが、第3の領域は、参照配列内の複数の異なる位置に位置し得る。一部の実施形態では、第3の領域を高い信頼度で参照配列にマッピングすることができるが、第1の領域は、参照配列内の複数の異なる位置に位置し得る。一部の実施形態では、第1の領域と第3の領域両方を、参照配列内の複数の異なる位置にマッピングすることができる。参照配列にマッピングされた第1の領域および第2の領域についての正確な位置のペアを、第2の領域についての距離情報を使用して選択することができる。例えば、カップリングされたシークエンシングリードペアを参照配列にマッピングする方法は、カップリングされたシークエンシングリードペアの第1の領域(またはその一部分)および第3の領域(またはその一部分)を、参照配列の第1の位置および第2の位置を含む2つまたはそれより多くの異なる位置ペアにマッピングするステップを含み得る。次いで、ポリヌクレオチドの第2の領域の長さを示す距離情報を、第1の位置と第2の位置の間の長さを示す位置情報と比較することができる。比較された距離情報が、互いに近似しているかまたはマッチする場合には、正しい位置ペアが選択され得る。しかし、第2の領域の長さが、第1の位置と第2の位置の間の距離と有意に異なる場合、その位置ペアは、却下され得る。
【0154】
図3は、カップリングされたシークエンシングリードペアの第2の領域の長さを示す距離情報を使用して、カップリングされたシークエンシングリードペアを参照配列にマッピングする方法を示す。カップリングされたシークエンシングリードペア304は、第1の領域306、第2の領域308および第3の領域310を含む。第1の領域306は、参照配列302の第1の参照領域312に位置し得るが、第3の領域310は、第3の参照領域、選択肢A、314と、第3の参照領域、選択肢B、316の両方に位置し得る。第1の参照領域312の終点と、第3の参照領域、選択肢A、314の始点との間の距離は、長さn塩基であり(参照配列に基づいて)、第1の参照領域312の終点と、第3の参照領域、選択肢B、316の始点との間の距離は、長さm塩基である(参照配列に基づいて)。第2の領域についての距離情報は、第2の領域の長さが、長さおおよそn塩基であることを示す。したがって、第3の領域310は、第3の参照領域、選択肢A、314に正確に位置すると、結論付けることができる。たとえ、第1の領域について複数のマッピング可能な遺伝子座および/または第3の領域についての複数のマッピング可能な遺伝子座があったとしても、同様の解析を遂行することができる。
【0155】
さらに、第1の領域または第3の領域の遺伝子座における反復領域のため、第1の領域または第3の領域を正確な位置に最終的にマッピングすることができない場合、距離情報を使用して、カップリングされたシークエンシングリードペアを参照配列にマッピングすることができる。図4は、カップリングされたシークエンシングリードペアの第3の領域が反復領域に位置する場合、カップリングされたシークエンシングリードペアの第2の領域の長さを示す距離情報を使用して、カップリングされたシークエンシングリードペアを参照配列にマッピングする方法を示す。図4は、参照配列402、およびカップリングされたシークエンシングリードペア404を示す。カップリングされたシークエンシングリードペアは、第1の領域406、第2の領域408および第3の領域410を含む。第1の領域406は、第1の参照領域412内の特定の遺伝子座に位置し得るが、第3の領域410は、反復領域414内のどこかに位置し得る。第2の領域408の長さを知ることにより、第3の領域410をより正確に反復領域414内にマッピングすることができる。例えば、第1の領域406がマッピングされてしまえば、第2の領域408の長さが、長さおおよそn塩基である場合、この距離情報を使用して、第3の領域410の位置を決めることができる。同様に、第3の領域を正確にマッピングすることができるが、第1の領域が反復領域内に位置する場合、この方法を使用することができる。
構造バリアントの検出
【0156】
ゲノムに由来するポリヌクレオチドから生成された、カップリングされたシークエンシングシークエンシングリードペアを使用して、ゲノム内の構造バリアントなどの、バリアントを検出することができる。構造バリアントとしては、挿入、欠失、逆位および染色体融合バリアントを挙げることができ、これらは、ポリヌクレオチドの第1、第2もしくは第3の領域内にあることもあり、またはポリヌクレオチドの第1、第2もしくは第3の領域にまたがる位置にあることもある。
【0157】
ゲノム内への挿入は、任意のサイズ、例えば、長さ1塩基から長さ数百もしくは数千キロ塩基またはそれを超える塩基数の間のものであり得る。さらに、挿入は、内因性挿入(つまり、対象のゲノム内の他の場所が起源である、遺伝子座に挿入された配列)であることもあり、外来性挿入(例えば、対象のゲノムに挿入されたウイルスゲノムなどの、対象ゲノム以外の供給源が起源である、遺伝子座に挿入された配列)であることもある。外来性挿入は、参照配列内に存在しない核酸配列であり、したがって、対象のゲノム内の外来性挿入バリアントの検出または位置決めについてのさらなる課題をもたらす。本明細書に記載される方法を使用して、数ある構造バリアントの中でも特に、外来性挿入を検出および/または位置決めすることができる。
【0158】
一例では、カップリングされたシークエンシングリードペアを使用してゲノム内の構造バリアント(例えば、外来性挿入)を検出する方法は、カップリングされたシークエンシングリードペアの第1の領域(またはその一部分)を参照配列にマッピングするステップ、および第3の領域(またはその一部分)を参照配列にマッピングすることを試みるステップを含む。第3の領域(またはその一部分)がマッピング不可能であった場合には、外来性挿入の存在を同定することができる。これは、参照配列が、第3の領域に対応する配列を含まないからである。同様に、カップリングされたシークエンシングリードペアを使用してゲノム内の外来性挿入を検出する方法は、カップリングされたシークエンシングリードペアの第3の領域(またはその一部分)を参照配列にマッピングするステップ、および第1の領域(またはその一部分)を参照配列にマッピングすることを試みるステップを含むこともある。第1の領域(またはその一部分)がマッピング不可能であった場合には、外来性挿入の存在を同定することができる。これは、参照配列が、第1の領域に対応する配列を含まないからである。さらに(およびどちらの例でも)、参照配列内の外来性挿入の遺伝子座を、第2の領域の長さを示す予想距離情報に基づいて決定することができる。図5は、外来性挿入を検出する例示的方法についての概略図を示す。カップリングされたシークエンシングリードペア502は、第1の領域504、第2の領域506、および第3の領域508を含み、第2の領域506は、第1の領域504と第3の領域508の間にある。第3の領域508は、対象のゲノム512に存在する外来性挿入エレメント510を含むが、参照配列514には存在しない。参照エレメント516は、対象のゲノム512と参照配列514の両方に存在するが、第1の参照領域518からの間隔が異なる。第1の領域504は、参照配列内の第1の参照領域518に位置する。しかし、第3の領域508には、それが位置する対応する領域が参照配列514内にない(すなわち、それはマッピング不可能である)。これは、第3の領域508の配列が、対象のゲノム内への外来性挿入の結果であることを示す。第2の領域506についての距離情報を使用して、第1の参照領域518に対する外来性ゲノムの遺伝子座を決定することもできる。つまり、第2の領域506が、長さおおよそn塩基である場合、外来性挿入物は、第1の領域504の末端からおおよそn塩基に位置する。
【0159】
別の例では、カップリングされたシークエンシングリードペアは、予想シークエンシングデータを使用して、および生成シークエンシングデータを予想シークエンシングデータと比較して、構造バリアント(例えば、挿入、欠失、逆位、または染色体融合)を検出するために、使用することができる。例えば、カップリングされたシークエンシングリードペアの第1の領域(もしくはその一部分)または第3の領域(もしくはその一部分)のうちの一方を参照配列にマッピングすることができる。マッピングされなかった第1の領域(もしくはその一部分)またはマッピングされなかった第3の領域(もしくはその一部分)についての参照配列内の遺伝子座を、第2の領域の長さを示す距離情報を使用して決定することができる。この距離情報は、例えば、本明細書で説明されるように、決定することができる。マッピングされなかった第1の領域(もしくはその一部分)またはマッピングされなかった第3の領域(もしくはその一部分)の遺伝子座が決定されると、その遺伝子座における予想シークエンシングデータ参照配列を決定することができる。例えば、予想配列データを、第2の領域の配列、第2の領域のフロー順序、マッピングされなかった領域の配列に関する情報、およびマッピングされなかった領域のフロー順序に基づいて決定することができる。次いで、予想シークエンシングデータを、マッピングされなかった領域の生成シークエンシングデータと比較することができる。マッピングされなかった領域のシークエンシングデータと予想シークエンシングデータとの間の距離は、その遺伝子座における構造バリアントを示す。
【0160】
図6は、カップリングされたシークエンシングリードペアを使用して構造バリアントを検出するための例示的方法を示す。ステップ602で、第1の領域またはその一部分(または第3の領域もしくはその一部分)のうちの一方が参照配列にマッピングされる。ステップ604で、参照配列内の予想遺伝子座が、第3の領域またはその一部分(または第1の領域もしくはその一部分)について決定される。つまり、第1の領域またはその一部分がステップ602中にマッピングされた場合、第3の領域またはその一部分についての予想遺伝子座は、ステップ604で決定され、第3の領域またはその一部分がステップ602中にマッピングされた場合、第1の領域またはその一部分についての予想遺伝子座は、ステップ604で決定される。ステップ606で、第3の領域またはその一部分(または第1の領域もしくはその一部分)についての決定された予想遺伝子座における予想シークエンシングデータが決定される。ステップ608で、第3の領域またはその一部分(または第1の領域もしくはその一部分)についての予想シークエンシングデータが、第3の領域またはその一部分(または第1の領域もしくはその一部分)についての決定シークエンシングデータと比較され、決定シークエンシングデータと予想シークエンシングデータとの差が、構造バリアントを示す。
【0161】
図7は、対象のゲノムにおける構造バリアントを検出するためのカップリングされたシークエンシングリードペアの使用についての概略図を示し、この場合の構造バリアントは挿入である。対象のゲノム702は、第1の領域704を含み、かつ第1の参照領域708と第2の参照領域710の間に挿入706を含む。参照配列712は、第1の領域704、第1の参照領域708、および第2の参照領域710を含むが、第1の参照領域708と第2の参照領域710の間に挿入706を含まない(挿入は、参照領域の別の部分に見られる領域に対応することもあり、または完全に外来性の配列であることもある)。カップリングされたシークエンシングリードペア714は、第1の領域716(第1の領域704に対応する)および第3の領域718(挿入706に対応する)を含み、これらの領域が第2の領域720を隔てている。カップリングされたシークエンシングリードペア714の第1の領域716は、参照配列712の第1の領域704に位置する。距離情報は、カップリングされたシークエンシングリードペア714の第2の領域720の長さを、長さおおよそn塩基と示す。したがって、第3の領域718についての予想遺伝子座722の始点は、第1の領域704の終点からおおよそn塩基の位置において開始するように決定される。次いで、予想遺伝子座についての予想シークエンシングデータを、本明細書で説明されるように決定することができる。例えば、参照配列712(例えば、第1の領域704から予想遺伝子座の間の、および/または予想遺伝子座を含む、参照配列)、第2の領域についてのフロー順序、および第3の領域についてのフロー順序を使用して、予想遺伝子座についての予想シークエンシングデータを決定することできる。図7に示されている例では、予想シークエンシングデータは、第3の領域718が第2の参照領域710であったなら、第2の参照領域710が予想遺伝子座にあるので得られたであろうシークエンシングデータに対応する。予想遺伝子座についての予想シークエンシングデータが、カップリングされたシークエンシングリードペア714の第3の領域718についての生成シークエンシングデータと異なる場合(これは図7に示されている例の状況である)、構造バリアントが検出される。
【0162】
図8は、対象のゲノムにおける構造バリアントを検出するためのカップリングされたシークエンシングリードペアの使用についての概略図を示し、この場合の構造バリアントは欠失である。対象のゲノム802は、第1の領域804、第1の参照領域806および第2の参照領域808を含む。参照配列810は、第1の領域804、第1の参照領域806、および第2の参照領域808を第1の参照領域806と第2の参照領域808の間に位置づけられる追加領域812とともに含む。追加領域812は参照配列810中に存在するが、追加領域812は対象のゲノム802から欠失している。カップリングされたシークエンシングリードペア814は、第1の領域816(第1の領域804に対応する)および第3の領域818(第2の参照領域808に対応する)を含み、これらの領域が第2の領域820を隔てている。カップリングされたシークエンシングリードペア814の第1の領域816は、参照配列810の第1の領域804に位置する。距離情報は、カップリングされたシークエンシングリードペア814の第2の領域820の長さを、長さおおよそn塩基と示す。したがって、第3の領域818についての予想遺伝子座822の始点は、第1の領域804の終点からおおよそn塩基の位置において開始するように決定される。次いで、予想遺伝子座についての予想シークエンシングデータを、本明細書で説明されるように決定することができる。例えば、参照配列812(例えば、第1の領域804から予想遺伝子座の間の、および/または予想遺伝子座を含む、参照配列)、第2の領域についてのフロー順序、および第3の領域についてのフロー順序を使用して、予想遺伝子座についての予想シークエンシングデータを決定することできる。図8に示されている例では、予想シークエンシングデータは、第3の領域818が追加領域812(対象のゲノムにおいて欠失されている)であったなら、追加領域812が予想遺伝子座にあるので得られたであろうシークエンシングデータに対応する。予想遺伝子座についての予想シークエンシングデータが、カップリングされたシークエンシングリードペア814の第3の領域818についての生成シークエンシングデータと異なる場合(これは図8に示されている例の状況である)、構造バリアントが検出される。
【0163】
図9は、対象のゲノム内の構造バリアントを検出するためのカップリングされたシークエンシングリードペアの使用についての概略図を示し、この場合の構造バリアントは逆位である。対象のゲノム902は、第1のセグメント904、第2のセグメント906、および第3のセグメント908を含む。参照配列910も、第1のセグメント904、第2のセグメント906、および第3のセグメント908を含む。しかし、参照配列910では、第2のセグメント906は、第3のセグメント908と比較して5’末端の近位にあるが、対象のゲノム902では、第2のセグメント906は、第3のセグメント908と比較して3’末端の近位にある。したがって、対象のゲノム902における第2のセグメント906および第3のセグメント908は、参照配列910と比較して逆である。カップリングされたシークエンシングリードペア912は、第1の領域914(第1のセグメント904に対応する)および第3の領域916(第3のセグメント908に対応する)を含み、これらの領域が第2の領域918を隔てている。カップリングされたシークエンシングリードペア912の第1の領域914は、参照配列910の第1のセグメント904に位置する。距離情報は、カップリングされたシークエンシングリードペア912の第2の領域918の長さを、長さおおよそn塩基と示す。したがって、第3のセグメント908についての予想遺伝子座920の始点は、第1のセグメント904の終点からおおよそn塩基の位置において開始するように決定される。次いで、予想遺伝子座についての予想シークエンシングデータを、本明細書で説明されるように決定することができる。例えば、参照配列910(例えば、第1のセグメント904から予想遺伝子座の間の、および/または予想遺伝子座を含む、参照配列)、第2の領域についてのフロー順序、および第3の領域についてのフロー順序を使用して、予想遺伝子座についての予想シークエンシングデータを決定することできる。図9に示されている例では、予想シークエンシングデータは、第3の領域916が第2のセグメント906と一致したなら、第2のセグメント906が参照配列910における予想遺伝子座にある(第3のセグメント908は、そこにない)ので得られたであろうシークエンシングデータに対応する。予想遺伝子座についての予想シークエンシングデータが、カップリングされたシークエンシングリードペア912の第3の領域916についての生成シークエンシングデータと異なる場合(これは図9に示されている例の状況である)、構造バリアントが検出される。
【0164】
図10は、対象のゲノムにおける構造バリアントを検出するためのカップリングされたシークエンシングリードペアの使用についての概略図を示し、この場合の構造バリアントは染色体融合である。染色体融合は、染色体の一部分が染色体(同じ染色体または異なる染色体のどちらか)の別の部分に融合する、染色体再編成事象の結果として生じる。参照配列1002は、第1のセグメント1004および第2のセグメント1006を含む染色体Aと、第3のセグメント1008を含む染色体Bとを含む。対象のゲノム1010は、参照ゲノム1002の地点1012および1014に染色体Aと染色体Bの染色体融合を含む。この融合により、染色体Aの3’末端と染色体Bの5’末端とを含む染色体A/B、および染色体Bの3’末端と染色体Aの5’末端とを含む染色体B/Aが生じることになる。したがって、染色体A/Bは、第1のセグメント1004および第3のセグメント1008を含み、染色体B/Aは、第2のセグメント1006を含む。カップリングされたシークエンシングリードペア1016は、対象のゲノム1010の染色体A/Bから導入され、第1の領域1018(第1のセグメント1004に対応する)および第3の領域1020(第3のセグメント1008に対応する)を含み、これらの領域が第2の領域1022を隔てている。カップリングされたシークエンシングリードペア1016の第1の領域1018は、参照配列1002の第1のセグメント1004に位置する。距離情報は、カップリングされたシークエンシングリードペア1016の第2の領域1022の長さを、長さおおよそn塩基と示す。したがって、第3のセグメント1020についての予想遺伝子座1024の始点は、第1のセグメント1004の終点からおおよそn塩基の位置において開始するように決定される。次いで、予想遺伝子座についての予想シークエンシングデータを、本明細書で説明されるように決定することができる。例えば、参照配列1002(例えば、第1のセグメント1004から予想遺伝子座、第2のセグメント1006の間の、および/または予想遺伝子座、第2のセグメント1006を含む、参照配列)の染色体A、第2の領域1022についてのフロー順序、および第3の領域1020についてのフロー順序を使用して、予想遺伝子座についての予想シークエンシングデータを決定することできる。図10に示されている例では、予想シークエンシングデータは、第3の領域1020が第2のセグメント1006と一致したなら、第2のセグメント1006が参照配列1002における予想遺伝子座にある(第3のセグメント1008は、そこにない)ので得られたであろうシークエンシングデータに対応する。予想遺伝子座についての予想シークエンシングデータが、カップリングされたシークエンシングリードペア1016の第3の1020についての生成シークエンシングデータとは異なる場合(これは図10に示されている例の状況である)、構造バリアントが検出される。
【0165】
参照配列に対して構造バリアント(例えば、挿入、欠失、染色体融合、または逆位)の接合箇所は、カップリングされたシークエンシングリードペアの第1の領域または第3の領域全体に必ずしも渡らない。一部の実施形態では、構造バリアントの少なくとも一部分は、カップリングされたシークエンシングリードペアの第1の領域または第3の領域内で終わる。それでもやはり、予想シークエンシングデータは、第1または第3の領域についての決定シークエンシングデータと異なることになる。
第2の領域内のバリアントの欠失
【0166】
一部の実施形態では、カップリングされたシークエンシングリードペアは、たとえ第2の領域を通して伸長されたプライマーへのヌクレオチドの組込みを検出する必要がなかったとしても、第2の領域内のバリアントを検出するために使用される。検出可能なバリアントには、構造バリアント(例えば、挿入、欠失、逆位、もしくは染色体融合)または一塩基多型(SNP)が含まれる。
【0167】
構造バリアント(例えば、染色体融合、逆位、挿入、または欠失)を検出する方法は、カップリングされたシークエンシングリードペアの第1の領域(またはその一部分)と第3の領域(またはその一部分)の両方を参照配列にマッピングするステップを含み得る。完全に第2の領域内で起こる逆位についての距離情報は、一般に、第2の領域のフロー順序(例えば、フローグラム空間における)に関して考慮されるが、完全に第2の領域では(例えば、少なくとも一部は第1の領域でも第3の領域でも)起こらない染色体融合、挿入または欠失についての距離情報は、物理的空間または第2の領域のフロー順序に関して考慮され得る。参照配列にマッピングされた第1の領域と参照配列にマッピングされた第3の領域との間の距離情報(すなわち、マッピング距離情報)を決定することができる。マッピング距離情報は、参照配列にマッピングされた第1の領域のマッピング位置と、参照配列にマッピングされた第3の領域のマッピング位置との間の距離、例えば、第1のマッピング領域と第3のマッピング領域の間の塩基の数を示す。カップリングされたシークエンシングリードペアの第2の領域の長さを示す予想距離情報も(例えば、第2の領域についてフロー順序および参照配列を使用して、または本明細書に別様に記載されるように)決定することができる。予想距離情報とマッピング距離情報との比較を使用して構造バリアントを検出することができる。例えば、予想距離がマッピング距離よりも短い場合には、対象のゲノム内の挿入または染色体融合バリアントなどの構造バリアントが示される。予想距離がマッピング距離よりも長い場合には、対象のゲノム内の欠失バリアントが示される。
【0168】
図11は、構造バリアントを検出する例示的な方法であって、ステップ1102で、カップリングされたシークエンシングリードペアの第1の領域(またはその一部分)および第3の領域(またはその一部分)を参照配列にマッピングすることを含む、方法を示す。ステップ1104:参照領域にマッピングされた第1の領域と参照領域にマッピングされた第3の領域の間の距離を示す、マッピング配列距離情報が、決定される。ステップ1106で、第2の領域の予想距離情報が、第2の領域の配列(例えば、参照配列からの第2の領域の配列)についての配列領域のフロー順序および情報に基づいて決定される。ステップ1108で、構造バリアントは、予想距離情報をマッピング距離情報と比較することにより同定され、マッピング距離情報と予想距離情報との差が構造バリアントを示す。
【0169】
図12は、カップリングされたシークエンシングリードペアを使用して構造バリアントを検出することができる方法の一例を実証する概略図を示す。示されている例は、対象のゲノムにおける挿入を示すが、この方法論は、他の構造バリアント(例えば、欠失または染色体融合)に同様に応用される。参照配列1202は、第1のセグメント1204および第2のセグメント1206を含む。対象のゲノム1208も、第1のセグメント1204および第2のセグメント1206を含むが、第1のセグメント1204と第2のセグメント1206の間に挿入物1210をさらに含む。対象のゲノム1208から生成された、カップリングされたシークエンシングリードペア1212は、第1のセグメント1204に対応する第1の領域1214、および第2のセグメント1206に対応する第3の領域1216を含む。第2の領域1218が第1の領域1214と第3の領域1216を隔てている。第1の領域1214および第3の領域1216の配列を、参照配列1202の第1のセグメント1204および第2のセグメント1206にそれぞれマッピングすることができる。マッピングされると、参照配列1202にマッピングされた第1の領域1214と第3の領域1216の間の距離(すなわち、参照配列1202の第1のセグメント1204と第2のセグメント1206の間の距離)を示すマッピング距離情報が、距離nとして決定される。第2の領域1218の長さについての予想距離情報も、mとして決定することができる。次いで、マッピング距離情報nを予想距離情報mと比較することにより、構造バリアントを決定することができる。
【0170】
第2の領域内のバリアント(例えば、構造バリアントまたはSNP)を検出する別の方法では、予想シークエンシングデータが決定シークエンシングデータと比較される。例えば、一部の実施形態では、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアントを検出する方法(第1の領域のフロー順序で提供されるヌクレオチドを使用して第1の領域を通して伸長されたプライマー、および/または第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長されたプライマーを用いる)は、第1の領域(もしくはその一部分)および/または第3の領域(もしくはその一部分)を参照配列にマッピングするステップを含む。次いで、他の領域またはその一部分についての予想参照シークエンシングデータ(すなわち、第1の領域またはその一部分がマッピングされる場合、他の領域は、第3の領域またはその一部分を指し、第3の領域またはその一部分がマッピングされる場合、他の領域は、第1の領域またはその一部分を指す)が、決定される。予想シークエンシングデータは、例えば、第2の領域についての参照配列、第2の領域のフロー順序、他の領域またはその一部分(例えば、第1の領域またはその一部分がマッピングされる領域である場合、第3の領域またはその一部分、および第3の領域またはその一部分がマッピングされる領域である場合、第1の領域またはその一部分)についての参照配列、および他の領域またはその一部分についてのフロー順序を使用して、決定することができる。別の例では、予想シークエンシングデータは、第2の領域についての参照配列、第2の領域のフロー順序、他の領域についてのフロー順序、および他の領域の配列に関連するシークエンシングデータ(これは、カップリングされたシークエンシングリードペアを生成する際に生成された同じシークエンシングデータであることもあり、または他の手段により生成されたシークエンシングデータであることもある)を使用して、決定される。他の領域についての決定された予想シークエンシングデータを、他の領域についての生成シークエンシングデータと比較することができる。予想シークエンシングデータと生成シークエンシングデータとの差は、バリアントの存在を示す。
【0171】
一部の実施形態では、プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長される、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアント(例えば、構造バリアント(例えば、染色体融合、逆位、挿入、もしくは欠失)またはSNP)を検出する方法は、第1の領域またはその一部分を参照配列にマッピングするステップ;(1)第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列、または(2)第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連する生成シークエンシングデータを使用して、第3の領域またはその一部分についての予想シークエンシングデータを決定するステップ;および第3の領域についての予想シークエンシングデータを第3の領域の配列に関連する生成シークエンシングデータと比較することによりバリアントの存在を検出するステップを含む。一部の実施形態では、プライマーが、第1の領域のフロー順序で提供されるヌクレオチドを使用して伸長される、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアント(例えば、構造バリアント(例えば、染色体融合、逆位、挿入、もしくは欠失)またはSNP)を検出する方法は、第3の領域またはその一部分を参照配列にマッピングするステップ;(1)第2の領域についての参照配列、第2の領域のフロー順序、第1の領域のフロー順序、および第1の領域についての参照配列、または(2)第2の領域についての参照配列、第2の領域のフロー順序、第1の領域のフロー順序、および第1の領域の配列に関連する生成シークエンシングデータを使用して、第1の領域またはその一部分についての予想シークエンシングデータを決定するステップ;および第1の領域についての予想シークエンシングデータを第1の領域の配列に関連する生成シークエンシングデータと比較することによりバリアントの存在を検出するステップを含む。
【0172】
図13は、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアントを検出する例示的方法を示す。ステップ1302で、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分が参照配列にマッピングされる。ステップ1304で、第3の領域もしくはその一部分、または第1の領域もしくはその一部分についての予想シークエンシングデータが決定される。ステップ1306で、第1の領域または第3の領域についての予想シークエンシングデータを第1の領域または第3の領域の配列に関連する生成シークエンシングデータと比較することにより、バリアントの存在が検出される。例示的なバリアント検出方法は、実施例で提供される。
【0173】
バリアントを検出する方法は、参照配列を使用することができ、この参照配列は、試験バリアントを含むこともあり、または含まないこともある。試験バリアントを、例えば、第2のポリヌクレオチド内のまたはバイオマーカーパネルからの試験バリアントを同定することによって、選択することができる。例として、試験バリアントを使用して、ポリヌクレオチドのハプロタイプを決定することができる。対立遺伝子またはバリアントをポリヌクレオチドにおいて同定することができ、本明細書に記載される方法を使用して、カップリングされたシークエンシングリードペアを生じさせたポリヌクレオチドが、同定された対立遺伝子またはバリアントを有するポリヌクレオチドと同じハプロタイプのものであるのか、異なるハプロタイプのものであるのかを判定することができる。カップリングされたシークエンシングリードペアにおいて検出された試験バリアントを、ポリヌクレオチドの第1の領域または第3の領域内のシークエンシングされた対立遺伝子と関連付けることができる。
【0174】
試験バリアントの存在を検出する場合、参照配列は、試験バリアントを含むことができ、対象のゲノム内の試験バリアントの存在を、第3の領域またはその一部分についての予想試験バリアントシークエンシングデータを第3の領域またはその一部分についての決定シークエンシングデータと比較することにより決定することができる。予想試験バリアントシークエンシングデータが決定シークエンシングデータにマッチする場合には、試験バリアントは、参照配列内で検出される。例えば、一部の実施形態では、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間の試験バリアントを検出する方法(第1の領域のフロー順序で提供されるヌクレオチドを使用して第1の領域を通して伸長されたプライマー、および/または第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長されたプライマーを用いる)は、第1の領域またはその一部分を、試験バリアントを含む参照配列にマッピングするステップを含む。次いで、他の領域またはその一部分(すなわち、第1の領域またはその一部分がマッピングされる場合、他の領域は、第3の領域またはその一部分を指す)についての試験バリアント予想参照シークエンシングデータが決定される。試験バリアント予想シークエンシングデータは、例えば、第2の領域についての試験バリアントを含む参照配列、第2の領域のフロー順序、他の領域またはその一部分についての参照配列、および他の領域またはその一部分についてのフロー順序を使用して、決定することができる。別の例では、予想シークエンシングデータは、第2の領域についての試験バリアントを有する参照配列、第2の領域のフロー順序、他の領域のフロー順序、および他の領域の配列に関連するシークエンシングデータ(これは、カップリングされたシークエンシングリードペアを生成する際に生成された同じシークエンシングデータであることもあり、または他の手段により生成されたシークエンシングデータであることもある)を使用して、決定される。他の領域についての決定された試験バリアント予想シークエンシングデータを、他の領域についての生成シークエンシングデータと比較することができる。予想シークエンシングデータと生成シークエンシングデータとのマッチが試験バリアントの存在を示す。
短い遺伝子バリアントの検出
【0175】
本明細書に記載される方法を使用して、第2の領域内の短い遺伝子バリアント(例えば、SNPまたは短いインデル(長さが、連続する10塩基未満)を(例えば、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、またはプライマーを伸長するために少なくとも2つの異なるタイプのヌクレオチド塩基の混合物を含むことにより、プライマーが第2の領域を通して伸長されると)検出することができる。第2の領域内の短い遺伝子バリアントを、下流の(例えば、第3の)領域内へのヌクレオチドの組込みを検出する際に得られるシグナルを解析することにより、検出することができる。短い遺伝子バリアントは、例えば、個体の亜集団内に見られるバリアントもしくは突然変異であることもあり、または単一もしくは特異的個体に固有のバリアントもしくは突然変異であることもある。短い遺伝子バリアントは、生殖細胞系列バリアントであることもあり、または体細胞バリアントであることもある。
【0176】
シークエンシングデータを、取り込まれたヌクレオチドの検出およびヌクレオチド導入の順序に基づいて生成することができる。以下の伸長される配列(すなわち、対応する鋳型配列の各逆相補配列):CTG、CAG、CCG、CGT、およびCAT(先行する配列も後続の配列もシークエンシング法に供されないと仮定して)、ならびにT-A-C-Gの反復フローサイクル(つまり、反復サイクル中のT、A、CおよびGヌクレオチドの逐次的付加)を例にとる。所与のフロー位置における特定のタイプのヌクレオチドは、相補的塩基が鋳型ポリヌクレオチド中に存在する場合にのみプライマーに取り込まれることになる。結果として生じる例示的なフローグラムが表5に示され、この表中の1は、導入されたヌクレオチドが取り込まれること示し、0は、導入されたヌクレオチドが取り込まれないことを示す。フローグラムを使用して、鋳型鎖の配列を導出することができる。例えば、論じられるシークエンシングデータ(例えば、フローグラム)は、伸長されたプライマー鎖およびその逆相補鎖を表し、この逆相補鎖は、鋳型鎖の配列を表すために容易に決定され得る。表5中のアスタリスク(*)は、伸長されたシークエンシング鎖(例えば、より長い鋳型鎖)に追加のヌクレオチドが取り込まれた場合にシグナルがシークエンシングデータ中に存在し得ることを示す。
【表5】
【0177】
フローグラムは、バイナリであることもあり、ノンバイナリであることもある。バイナリフローグラムは、取り込まれたヌクレオチドの存在(1)または非存在(0)を検出する。ノンバイナリフローグラムは、各々の段階的導入から取り込まれたヌクレオチドの数をより定量的に決定することができる。例えば、CCGの伸長された配列は、同じCフローの中の(例えば、フロー位置3における)伸長プライマー内への2つのC塩基の取り込みを含むことになり、標識された塩基により放出されるシグナルは、単一塩基取り込みに相当する強度レベルより高い強度を有することになる。このことが表5に示されている。ノンバイナリフローグラムはまた、塩基の存在または非存在を示し、所与のフロー位置における各伸長に取り込まれる可能性が高い塩基の数を含む追加情報を提供することができる。値が整数である必要はない。一部のケースでは、値は、所与のフロー位置に取り込まれる塩基の数の不確実性および/または確率を反映していることもある。
【0178】
一部の実施形態では、シークエンシングデータセットは、各フロー位置に取り込まれているシークエンシングされた核酸分子中の塩基の数を示す塩基カウントを表すフローシグナルを含む。例えば、表5に示されているように、T-A-C-Gフローサイクル順序を使用してCTG配列で伸長されたプライマーは、位置3に1の値を有し、これは、その位置における1の塩基カウントを示す(この1塩基は、シークエンシングされた鋳型鎖内のGと相補的であるCである)。また表5において、T-A-C-Gフローサイクル順序を使用してCCG配列で伸長されたプライマーは、位置3に2の値を有し、これは、このフロー位置にある間の伸長プライマーのその位置における2の塩基カウントを示す。ここで、2塩基は、伸長プライマー配列内のCCG配列の最初のC-C配列を指し、この配列は、鋳型鎖内のG-G配列と相補的である。
【0179】
シークエンシングデータセット内のフローシグナルは、各フロー位置における1または複数の塩基カウントについての尤度または信頼区間を示す1つまたは複数の統計パラメーターを含み得る。一部の実施形態では、フローシグナルは、シークエンシング中にシークエンシングプライマーに取り込まれる1つまたは複数の塩基の蛍光シグナルなどの、シークエンシングプロセス中に検出されるアナログシグナルから決定される。一部のケースでは、アナログシグナルを処理して統計パラメーターを生成することができる。例えば、その全体が参照により本明細書に取り込まれる公開国際特許出願WO2019084158A1に記載されているように、機械学習アルゴリズムを使用してアナログシークエンシングシグナルのコンテキスト効果について補正することができる。ゼロまたはそれを超える整数の塩基がいずれかの所与のフロー位置に取り込まれるが、所与のアナログシグナルは、そのアナログシグナルと完全にマッチしないことがある。したがって、検出されたシグナルを考えれば、フロー位置に取り込まれる塩基の数の尤度を示す統計パラメーターを決定することができる。単に例として、表5のCCG配列について、フローシグナルがフロー位置3に取り込まれた2塩基を示す尤度は、0.999であり得、フローシグナルがフロー位置3に取り込まれた1塩基を示す尤度は、0.001であり得る。フローシグナルが、各フロー位置における複数の塩基カウントについての尤度を示す統計パラメーターを含む場合、シークエンシングデータセットを疎行列としてフォーマットすることができる。単に例として、T-A-C-Gの反復フローサイクル順序を使用してTATGGTCGTCGA(配列番号15)の配列で伸長されたプライマーは、図14Aに示されているシークエンシングデータセットを生じさせる結果となり得る。統計パラメーターまたは尤度値は、例えば、シークエンシング中のアナログシグナルの検出中に存在するノイズまたは他のアーチファクトによって、異なり得る。一部の実施形態では、統計パラメーターまたは尤度が所定の閾値よりも下であった場合、実質的にゼロである所定の非ゼロ値(すなわち、何らかの非常に小さい値または無視できる値)にパラメーターを設定して、真のゼロ値を用いると計算誤差が生じるか、または可能性の低さのレベル同士、例えば、非常に可能性の低いレベル(0.0001)とあり得ないレベル(0)とが十分に区別されなくなる可能性がある、本明細書でさらに論じられる統計解析を補助することができる。
【0180】
所与の配列についてのシークエンシングデータセットの尤度を示す値を、配列アラインメントなしにシークエンシングデータセットから決定することができる。例えば、データが得られる可能性の最も高い配列を、図14Bに(図14Aに示されているのと同じデータを使用して)星印により示されているように、各フロー位置において最高尤度を有する塩基カウントを選択することにより決定することができる。したがって、プライマー伸長の配列を、各フロー位置において可能性の最も高い塩基カウントに従って決定することができる:TATGGTCGTCGA(配列番号15)。このことから、逆相補配列(すなわち、鋳型鎖)を容易に決定することができる。さらに、TATGGTCGTCGA(配列番号15)配列(または逆相補配列)が得られる、このシークエンシングデータセットの尤度を、各フロー位置における選択尤度の積として決定することができる。
【0181】
核酸分子に関連するシークエンシングデータセットを1つまたは複数の(例えば、2、3、4、5、6もしくはそれより多くの)可能性のある候補配列と比較することができる。シークエンシングデータセットと候補配列との(下記で論じられるような、マッチスコアに基づく)近似マッチは、そのシークエンシングデータセットが、近似マッチする候補配列と同じ配列を有する核酸分子から生じた可能性が高いことを示す。一部の実施形態では、シークエンシングされた核酸分子の配列を、参照配列に(例えば、バローズ・ホイーラーアラインメント(BWA)アルゴリズムまたは他の好適なアラインメントアルゴリズムを使用して)マッピングして、その配列についての遺伝子座(または1つもしくは複数の遺伝子座)を決定することができる。上記で論じられたように、フロー空間におけるシークエンシングデータセットを塩基空間に(またはフロー順序が既知である場合には、その逆に)容易に変換することができ、マッピングをフロー空間または塩基空間において行なうことができる。マッピングされた配列に対応する遺伝子座(単数)[または遺伝子座(複数)]を、本明細書に記載される解析方法のための候補配列(またはハプロタイプ配列)として動作することができる1つまたは複数のバリアント配列と、関連付けることができる。本明細書に記載される方法の1つの利点は、一部のケースではアラインメントアルゴリズムを使用するシークエンシングされた核酸分子の配列と各候補配列との一般に計算コストの高いアラインメントを必要としない点である。その代わりに、フロー空間におけるシークエンシングデータを使用して候補配列の各々についてマッチスコアを決定することができ、この操作のほうが、計算効率が良い。
【0182】
マッチスコアは、シークエンシングデータセットがいかに良く候補配列を支持するかを示す。例えば、シークエンシングデータセットが候補配列にマッチする尤度を示すマッチスコアは、各フロー位置における統計パラメーター(例えば、尤度)であって、候補配列についての予想シークエンシングデータが得られたそのフロー位置における塩基カウントに対応する統計パラメーターを選択することにより、決定することができる。選択された統計パラメーターの積によりマッチスコアを得ることができる。例えば、伸長されたプライマーについて図14Aに示されているシークエンシングデータセット、およびTATGGTCTCGA(配列番号16)の候補プライマー伸長配列を仮定する。図14C図14Aにおける同じシークエンシングデータセットを示す)は、候補配列(塗りつぶした丸印)についてのトレースを示す。比較として、TATGGTCTCGA(配列番号15)配列のトレース(図14Bを参照されたい)が、図14Cに白抜きの丸印を使用して示されている。シークエンシングデータが第1の候補配列TATGGTCATCGA(配列番号16)に対応する尤度を示すマッチスコアと、シークエンシングデータが第2の候補配列TATGGTCGTCGA(配列番号15)にマッチする尤度を示すマッチスコアとには、たとえこれらの配列が単一塩基変動分しか変わらなかったとしても、大きな差がある。図14Cで見られるように、トレース間の差は、フロー位置12に見られ、少なくとも9フロー位置(およびシークエンシングデータがさらなるフロー位置にわたって伸長する場合にはより長い可能性がある)にわたって伝播する。1または複数のフローサイクルにわたって継続するこの伝播は、「フローシフト」または「サイクルシフト」と呼ばれることがあり、シークエンシングデータセットが候補配列にマッチする場合、一般に、非常に可能性の低い事象である。
【0183】
したがって、各シークエンシングデータセットと候補配列(または各候補配列)とのマッチスコアを決定することができる。例えば、シークエンシングデータセットが、所与の候補配列に一致する尤度L(R|H)は、所与の候補配列についての各フロー位置における選択された塩基カウントの尤度(例えば、その積)を使用して、決定することができる。
【0184】
マッチスコアを使用して、試験シークエンシングデータ、および/または試験シークエンシングデータに関連する核酸分子を分類することができる。分類子は、核酸分子がバリアント(例えば、候補配列に含まれるバリアント)を含むことを示すこともあり、核酸分子が、バリアントを含まないこと示すこともあり、またはヌルコールを示すこともある。ヌルコールは、試験シークエンシングデータに関連する核酸分子におけるバリアントの存在も非存在も示さず、それどころか、マッチスコアを使用して所望の統計的信頼度でコールを行なうことができないことを示す。試験シークエンシングデータまたは核酸分子は、例えば、マッチスコアが所望の信頼度閾値よりも上であった場合、バリアントを有するものとして分類され得る。逆に、試験シークエンシングデータまたは核酸分子は、例えば、マッチスコアが所望の信頼度閾値よりも下であった場合、バリアントを有さないものとして分類され得る。
【0185】
上記の解析を応用して、2つまたはそれより多くの異なる候補配列から候補配列を選択することができる。シークエンシングデータセットが各候補配列にマッチする尤度を示すマッチスコアを決定することができる。例えば、シークエンシングデータセット内の各フロー位置における統計パラメーターであって、そのフロー位置における候補配列の塩基カウントに対応する統計パラメーターを、候補配列ごとに選択することができる。一部の実施形態では、この解析は、シークエンシングされた試験核酸分子についてのシークエンシングデータセットを生成するために使用されたのと同じフロー順序を使用して候補配列がシークエンシングされることを仮定して、候補シークエンシングについての予測シークエンシングデータを生成することを含む。このデータは、候補配列を有する核酸分子をシークエンシングすることにより、または候補配列およびフロー順序に基づいて候補シークエンシングデータセットをin silicoで生成することにより、生成することができる。例示的な候補シークエンシングデータセットは、図14Cの試験データシークエンシングデータセットの下に示されており、第1の候補配列[TATGGTCATCGA(配列番号16)]は塗りつぶした丸印トレースに対応し、第2の候補配列[TATGGTCGTCGA(配列番号15)]は白抜きの丸印トレースに対応する。一部の実施形態では、例えば、マッチスコアが2つまたはそれより多くの異なる候補配列について決定される場合、試験シークエンシングデータまたは核酸分子は、2つもしくはそれより多くの候補配列のうちの1つについてのバリアントを有するもの、2つもしくはそれより多くの候補配列のうちの1つについてのバリアントを有さないものとして分類されることがあり、またはヌルコールが2つもしくはそれより多くの候補配列間で得られることもある(例えば、候補配列のいずれについてのコールも得ることができなかった場合、もしくはマッチスコアが、同じ遺伝子座で2つもしくはそれより多くの異なるバリアントを示した場合)。
【0186】
シークエンシングデータセットのマッチスコアが、候補配列について決定されると、マッチスコアに基づいて短い遺伝子バリアントを有する候補配列(例えば、2つまたはそれより多くの候補配列の中から最高尤度マッチを有するマッチスコアをもたらす候補配列)を選択することができる。短い遺伝子バリアントを有する核酸分子の配列から生じるシークエンシングデータは、短い遺伝子バリアントを有する候補配列にマッチすることになり、その候補配列を選択することができるが、棄却された(または非選択)候補配列は、より小さい尤度マッチ(これらの候補配列について決定されたマッチスコアに基づいて)により示されるように、短い遺伝子バリアントを含まない。非選択候補配列と、選択候補配列(シークエンシングされた核酸分子シークエンシングデータセットに最も良くマッチする)とは、2カ所またはそれより多くのフロー位置において異なることがあり、これらの位置は、2カ所もしくはそれより多くの連続するフロー位置であることもあり、または2カ所もしくはそれより多くの非連続のフロー位置であることもある。一部の実施形態では、非選択候補配列と、選択候補配列とは、3カ所もしくはそれより多くの、4カ所もしくはそれより多くの、5カ所もしくはそれより多くの、6カ所もしくはそれより多くの、7カ所もしくはそれより多くの、8カ所もしくはそれより多くの、9カ所もしくはそれより多くの、または10カ所もしくはそれより多くのフロー位置において異なる。一部の実施形態では、非選択候補配列と、選択候補配列とは、1もしくは複数の、2もしくはそれより多くの、3もしくはそれより多くの、4もしくはそれより多くの、または5もしくはそれより多くのフローサイクルにわたって異なる。一部の実施形態では、非選択候補配列と選択候補配列とは、Xカ所の塩基位置において異なり、この場合、核酸分子の配列に関連するシークエンシングデータセットと、非選択候補配列とは、(X+2)カ所またはそれより多くのフロー位置において異なる。シークエンシングされた核酸分子シークエンシングデータセットが選択候補配列に最も良くマッチする、選択候補配列と非選択候補配列とで異なるフロー位置の数の増加は、シークエンシングされた核酸分子シークエンシングデータセットが、非選択候補配列を有する核酸分子のシークエンシングから得られた尤度を低下させる。
【0187】
シークエンシングされた核酸分子のシークエンシングデータセットが非選択候補配列にマッチする尤度は、好ましくは低く、例えば、0.05未満、0.04未満、0.03未満、0.02未満、0.01未満、0.005未満、0.001未満、0.0005未満、または0.0001未満である。シークエンシングされた核酸分子のシークエンシングデータセットが選択候補配列にマッチする尤度は、好ましくは高く、例えば、0.95より高く、0.96より高く、0.97より高く、0.98より高く、0.99より高く、0.995より高く、または0.999より高い。
【0188】
試験試料中の短い遺伝子バリアントを検出するための方法は、一部の実施形態では、各試験シークエンシングデータセットが試験試料中の別々の試験核酸分子に関連している、複数の試験シークエンシングデータセットを解析するステップを含み得る。核酸分子は、例えば、核酸分子の配列が参照配列とアラインメントされた場合、ある遺伝子座において少なくとも部分的に重複する。核酸分子の少なくとも一部分は、異なるシークエンシング開始位置(ある遺伝子座に対して)を有することができ、その結果、配列内の所与の塩基について異なるフロー位置、および/または異なるフロー順序コンテキストが生じることになる。このようにして、同じ候補配列を使用して、上記複数のうちの試験シークエンシングデータセットを解析することができる。候補配列ごとに、複数の試験シークエンシングデータセットが候補配列にマッチする尤度を示すマッチスコアを決定することができ、最高尤度マッチを有する(したがって、短い遺伝子バリアントを含む)候補配列を選択することができる。複数の試験シークエンシングデータセットを使用して短い遺伝子バリアントを検出するための例示的解析が、図15A~15Dに示されている。図15Aでは、3つのシークエンシングされた試験核酸分子に対応する配列(伸長されたプライマーの配列により各々表されている、R1、R2およびR3)が、2つの候補配列(H1およびH2)に関連する重複遺伝子座において参照配列とアラインメントされている。図15B図15Cおよび図15Dは、それぞれ、R1、R2およびR3についての例示的シークエンシングデータセットを、H1の塩基(黒塗りの丸印)またはH2の塩基(白抜きの丸印)に対応するシークエンシングデータセット内の各フロー位置における選択統計パラメーターとともに示す。
【0189】
1つまたは複数の決定されたマッチスコアを使用して、試験試料についての短い遺伝子バリアントの存在(もしくはアイデンティティー)または非存在をコールすることができる。一部の実施形態では、例えば、バリアントを有するものとして分類される単一核酸分子(または関連試験シークエンシングデータセット)は、例えば、マッチスコアが、所望の信頼度または事前設定された信頼度で候補配列とのマッチを示す場合、バリアントの存在、アイデンティティーまたは非存在をコールするのに十分なものであり得る。一部の実施形態では、所定数の(例えば、1つまたは複数の、2つまたはそれより多くの、3つまたはそれより多くの、4つまたはそれより多くの、5つまたはそれより多くの、などの)核酸分子(または核酸分子に関連する試験シークエンシングデータセット)は、バリアントが試験試料についてコールされる前にバリアントを有するものとして分類される。一部の実施形態では、核酸分子(または核酸分子に関連する試験シークエンシングデータセット)の数は、マッチスコアに依存して動的に選択され、例えば、高い信頼度マッチスコアでバリアントを有するものとして分類された単一核酸分子を使用してバリアントをコールすることもあり、またはより低い信頼度マッチスコアでバリアントを有するものとして分類された2つまたはそれより多くの核酸分子を使用してバリアントをコールすることもある。
【0190】
必要に応じて、シークエンシングデータセットについての別々のマッチスコアは、複数の試験シークエンシングデータセットのマッチスコアを決定するためにまとめて解析される。例えば、候補配列ごとに各試験シークエンシングデータセットについてのマッチスコアが、本明細書に記載される方法を使用して決定されると、公知のベイズ法を使用して、例えば、ゲノム解析ツールキット(GATK)に含まれているHaplotypeCallerアルゴリズムを使用して、複数の試験シークエンシングデータセットが候補配列にマッチする尤度を示すマッチスコアを決定することができ、最高尤度マッチを有する候補配列を選択することができる。例えば、DePristo et al., A framework for variation discovery and genotyping using next-generation DNA sequencing data, Nature Genetics 43, 491-498 (2011);およびPoplin et al., Scaling accurate genetic variant discovery to tens of thousands of samples, bioRxiv, www.biorxiv.org/content/10.1101/201178v3 (July 24, 2018); Hwang et al., Systematic comparison of variant calling pipelines using gold standard personal exome variants, Scientific Reports, vol. 5, no. 17875 (2015)を参照されたく、これらの各々の内容は、本明細書に取り込まれる。
【0191】
仮想実施例1-SNP検出
フローサイクル順序A-T-G-Cに従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して仮想核酸分子をシークエンシングし、その結果、図14Aに示す試験シークエンシングデータセットを得た。シークエンシングデータセットにおける各値は、各フロー位置における示されている塩基カウントが正しい尤度を示す。シークエンシングデータセットに基づいて、予備配列をTATGGTCGTCGA(配列番号15)として決定し、これを参照ゲノムの遺伝子座にマッピングする。参照ゲノムに遺伝子座を、可能性のあるハプロタイプ配列TATGGTCGTCGA(配列番号15)(H1)およびTATGGTCATCGA(配列番号16)(H2)と関連付ける。各フロー位置についてのハプロタイプ配列の塩基カウントに関連する尤度値を、ハプロタイプごとに選択する。各ハプロタイプに付与されるシークエンシングデータセットの尤度を、各フロー位置についてのハプロタイプ配列の塩基カウントに関連する尤度値を乗じることにより決定する。H1が正しい配列である場合のシークエンシングデータセットのlog尤度は、-0.015であり、H2が正しい配列である場合のシークエンシングデータセットのlog尤度は、-27.008である。したがって、H1の配列をこの核酸分子に選択する。
【0192】
仮想実施例2-インデル検出
フローサイクル順序A-T-G-Cに従って別々のヌクレオチドフローで提供される非終結ヌクレオチドを使用して仮想核酸分子をシークエンシングし、その結果、図16に示す試験シークエンシングデータセットを得た。シークエンシングデータセットにおける各値は、各フロー位置における示されている塩基カウントが正しい尤度を示す。シークエンシングデータセットに基づいて(すなわち、各フロー位置において最も可能性の高い塩基カウントを選択することにより)、予備配列をTATGGTCGATCG(配列番号22)として決定し、これを参照ゲノムの遺伝子座にマッピングする。参照ゲノムの遺伝子座を、可能性のあるハプロタイプ配列TATGGTCG-TCGA(配列番号21)(H1)およびTATGGTCGATCG(配列番号22)(H2)と関連付ける。各フロー位置についてのハプロタイプ配列の塩基カウントに関連する尤度値を、ハプロタイプごとに選択する。各ハプロタイプに付与されるシークエンシングデータセットの尤度を、各フロー位置についてのハプロタイプ配列の塩基カウントに関連する尤度値を乗じることにより決定する。H1が正しい配列である場合のシークエンシングデータセットのlog尤度は、-24.009であり、H2が正しい配列である場合のシークエンシングデータセットのlog尤度は、-0.015である。したがって、H2の配列をこの核酸分子に選択する。
【0193】
第2の(すなわち、「暗」)領域におけるバリアントに起因するシグナルの相違が、第3の領域(すなわち、ヌクレオチドの組込みが検出される領域)に伝播した場合、第2の領域におけるバリアントの結果として生じるフローシフトを、第3の領域において検出することができる。上記で論じられた仮想例では、例えば、サイクル3を「暗」または第2の領域(これは、任意のサイクル数であり得る)と考えることができ、サイクル4およびサイクル5を第3の領域(これもまた、任意のサイクル数であり得る)と考えることができるだろう。
トランスバージョンの検出
【0194】
トランスバージョンは、プリンをピリミジンと交換する、または逆にピリミジンをプリント交換する、SNPである。本明細書に記載される方法を、カップリングされたシークエンシングリードペアの第2の領域内のトランスバージョンの検出に対して特に感度が良いように、実行することができる。例えば、ピリミジン(C+T)とプリン(A+G)の交互ヌクレオチドペアを含む第2の領域のフロー順序を使用する第2の領域を通したプライマー伸長は、トランスバージョンに対して高感度であろう。
【0195】
例えば、ポリヌクレオチドにおける塩基トランスバージョンの存在を検出するためのカップリングされたシークエンシングリードペアは、(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;(b)ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;(c)ステップ(b)において伸長されたプライマーを、第2の領域を通して、(1)シトシンおよびチミンと(2)アデニンおよびグアニンとの交互ヌクレオチドペアを含むフロー順序を使用してさらに伸長するステップ;および(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップによって生成され得る。トランスバージョンは、第2の領域を通して伸長されたプライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出せずとも検出することができる。
【0196】
トランスバージョン検出のために生成された、カップリングされたシークエンシングリードペアを使用して、カップリングされたシークエンシンリードペアの第1の領域またはその一部分(または第3の領域もしくはその一部分)をマッピングすること;第2の領域のフロー順序、第3の領域のフロー順序、および参照配列を使用して第3の領域またはその一部分(または第1の領域もしくはその一部分)についての予想シークエンシングデータを決定すること;および第3の領域についての予想参照シークエンシングデータと第3の領域につての生成シークエンシングデータの差に基づいて塩基トランスバージョンの存在を検出することにより、トランスバージョンを検出することができる。
【0197】
第3の領域またはその一部分(または第1の領域もしくはその一部分)についての予想参照シークエンシングデータは、例えば、第2の領域のフロー順序、第3の領域のフロー順序、第2の領域についての参照配列、および第3の領域についての参照配列を使用することにより、決定することができる。一部の実施形態では、第3の領域についての予想参照シークエンシングデータは、第2の領域のフロー順序、第3の領域のフロー順序、第2の領域についての参照配列、および第3の領域の配列に関連する生成配列データを使用して決定され、第3の領域の配列に関連する生成配列データは、カップリングされたシークエンシングリードペアを生成した際に生成された同じまたは異なる配列データである。
バリアント検証
【0198】
複数の少なくとも部分的に重複するカップリングされたシークエンシングリードを使用して、バリアントステータスを検証することができる。シークエンシングエラーは、伸長プライマーへのヌクレオチド組込みの通常の過程で(例えば、ポリメラーゼエラーまたはリードエラーに起因して)起こることがたまにあるので、バリアント検証は、偽陽性または偽陰性の報告を最小限に抑えるのに有用であり得る。加えて、本明細書に記載される方法の感度は、第2の領域を通してプライマーを伸長する際に使用されるバリアントのコンテキストおよびフロー順序によって変わり得る。したがって、偽陽性または偽陰性エラーを最小限に抑えるために、重複するまたは少なくとも部分的に重複するカップリングされたシークエンシングリードペアを比較して、バリアントを検証することができる。バリアントを検証するために使用される複数のカップリングされたシークエンシングリードペアは、異なる始点(例えば、異なる第1の領域の始点、異なる第2の領域の始点、および/もしくは異なる第3の領域の始点)を含むことができ、または異なる第2の領域のフロー順序を使用して生成されることもある。
【0199】
目的の試験バリアントを選択することができ、複数の重複するカップリングされたシークエンシングリードペアが解析されて、カップリングされたシークエンシングリードペアの中の試験バリアントのステータス(例えば、バリアントが存在するのか、または非存在であるのか)が判定される。重複するカップリングされたシークエンシングリードペアは、試験バリアントの遺伝子座に対応する遺伝子座を含む。一部の実施形態では、試験バリアントは、カップリングされたシークエンシングリードペアの少なくとも一部分の第1の領域内にある。一部の実施形態では、試験バリアントは、カップリングされたシークエンシングリードペアの少なくとも一部分の第2の領域内にある。一部の実施形態では、試験バリアントは、カップリングされたシークエンシングリードペアの少なくとも一部分の第3の領域内にある。
【0200】
試験バリアントが遺伝子座に存在するのかまたは非存在であるのかに関するコールを行なうための許容度閾値を選択することができる。例えば、所定の閾値が試験バリアントを同定するよりも、上記複数におけるカップリングされたシークエンシングリードペアが試験バリアントを陽性同定する場合、試験バリアントが陽性コールされる。この閾値は、リスク許容度により所望通りに設定することができる。例えば、許容度閾値は、試験バリアントを同定するカップリングされたシークエンシングリードペアの60%であるかもしくはそれより高い、70%であるかもしくはそれより高い、80%であるかもしくはそれより高い、90%であるかもしくはそれより高い、または95%であるかもしくはそれより高いことがある。
【0201】
図17は、試験バリアントのステータスを決定するためのカップリングされたシークエンシングリードペアの比較についての例示的概略図を示す。複数の重複するカップリングされたシークエンシングリードペア1402が参照配列1404とアラインメントされている。遺伝子座1406において、5つの重複するカップリングされたシークエンシングリードペアのうちの4つにより、これらのカップリングされたシークエンシングリードペアの1つでは同定されないバリアントの同定が可能であった。具体的には、カップリングされたシークエンシングリードペア1408、1410、1414および1416は、それぞれ、遺伝子座1418、1420、1424および1426において同定されたバリアントを含む。各々のカップリングされたシークエンシングリードペアにおけるバリアントの遺伝子座は、参照配列1404と遺伝子座1406でアラインする。カップリングされたシークエンシングリードペア1412は、遺伝子座1422では(例えば、シークエンシングリードエラーに起因して、またはカップリングされたシークエンシングリードペア1412を生成するために使用された、第2の領域に伴うバリアントのコンテキスト、およびフロー順序のため)バリアントを同定しなかった。
コンセンサス配列の構築または検証
【0202】
本明細書に記載される方法に従って生成された、カップリングされたシークエンシングリードペアを使用して、カップリングされたシークエンシングリードペアをアセンブルすることにより1つまたは複数のコンセンサス配列を生成することができる。コンセンサス配列をアセンブルするためにペアエンドシークエンシングがこれまで使用されてきたが、ポリヌクレオチドのシークエンシングされた末端間の領域について入手可能な情報が限られていることから、誤ってアラインメントされる配列を頻繁に伴う、より低い品質のコンセンサス配列が生じることになる。例えば、あらゆる目的で参照により本明細書に組み込まれる、_およびZerbino et al., Velvet: Algorithms for de novo short read assembly using de Bruinn graphs, Genome Research, vol. 18, pp. 821-820 (2008)を参照されたい。本明細書に記載される方法は、シークエンシングされた第1の領域とシークエンシングされた第3の領域の間のシークエンシングされなかった第2の領域から、実質的により多くの情報を抽出することを可能にする。この追加情報がより堅牢かつ正確なコンセンサス配列を可能にする。
【0203】
一例では、1つまたは複数のコンセンサス配列は、カップリングされたシークエンシングリードペアの第2の領域の長さを示す距離情報を使用してアセンブルされる。この距離情報は、本明細書で説明されるように決定することができる。一例では、距離情報は、第2の領域のフロー順序(または第2の領域のフロー順序に関連する情報)および第2の領域における塩基の確率分布を使用して決定される。第2の領域における塩基の確率分布は、例えば、ゲノム全体にわたっての塩基の仮定分布であることがあり、または第1の領域もしくは第3の領域のマッピングされた遺伝子座に基づく、より局所的な確率であることもある。第2の領域のフロー順序に関連する情報は、例えば、第2の領域を通してプライマーを伸長するために同時に使用されるヌクレオチド塩基の異なるタイプの数であり得る。例として、第2の領域内のプライマーを伸長するために反復サイクルで3塩基フローステップを使用して(例えば、各サイクルステップが3つの他の塩基を含む、(非A)-(非C)-(非T)-(非G)のサイクルステップを使用して)、および第2の領域における塩基の分布を全体としてゲノムとほぼ同じと仮定して、プライマーは、サイクルにおけるステップごとにおおよそ4.7塩基ずつ伸長されると予想される。したがって、第2の領域の長さは、第2の領域のフロー順序でのステップの数の4.7倍と概算することができる。
【0204】
一部の実施形態では、距離情報は、第2の領域についての予想参照シークエンシングデータから導出される。本明細書中で論じられるように、第2の領域についての予想参照シークエンシングデータを、参照配列および第2の領域のフロー順序を使用して決定することができる。ポリヌクレオチドの第1または第3の領域が参照配列にマッピングされると、予想配列長を含む、予想配列情報が決定され、これにより、ポリヌクレオチドの第1の領域と第3の領域の間の長さが得られる。
【0205】
カップリングされたシークエンシングリードペアを使用して、1つもしくは複数のコンセンサス配列、または1つもしくは複数のコンセンサス配列の一部分を検証することができる。コンセンサス配列アセンブリーの結果として、利用可能なデータが得られる可能性のある複数の配列アセンブリーを得ることができるが、旧来のペアエンドシークエンシングデータを使用してこれらの可能な配列のどれが正しいコンセンサス配列であるのかを選択することは、困難であり得る。カップリングされたシークエンシングリードペアの第2の領域から追加情報を抽出できるため、本明細書に記載される方法を使用するとコンセンサス配列検証がより頑強になる。コンセンサス配列を検証するために、第1の領域またはその一部分(または第3の領域もしくはその一部分)を選択された参照配列にマッピングすることができる。他の領域またはその一部分についての予想シークエンシングデータ(すなわち、第1の領域もしくはその一部分がマッピングされる場合、第3の領域もしくはその一部分、または第3の領域もしくはその一部分がマッピングされる場合、第1の領域もしくはその一部分)。予想シークエンシンは、例えば、本明細書で説明されるように、決定することができる。一例では、予想シークエンシングデータは、第2の領域のフロー順序、選択されたコンセンサス配列、および第1の領域のフロー順序(予想シークエンシングデータが第1の領域もしくはその一部分についてのものである場合)または第3の領域のフロー順序(予想シークエンシングデータが第3の領域もしくはその一部分についてのものである場合)を使用して、決定される。次いで、予想シークエンシングデータを、対応する領域におけるカップリングされたシークエンシングリードペアについての生成シークエンシングデータと比較して、コンセンサス配列部分を検証することができる。生成シークエンシングデータにマッチする予想シークエンシングデータは、コンセンサス配列部分が正しくアセンブルされることを示す。生成シークエンシングデータにマッチしない予想シークエンシングデータは、コンセンサス配列部分が誤ってアセンブルされることを示す。
【0206】
一部の実施形態では、1つより多くのコンセンサス配列が構築または検証される。例えば、ある特定の生物は、倍数体生物(例えば、健常なヒトは、二倍体生物であり、各染色体(ヒト男性における性染色体を除く)の2コピーを有する。1つまたは複数の染色体コピーに対応するコンセンサス配列をアセンブルすることができる(例えば、ヒト配列における染色体ペアごとにコンセンサス配列をアセンブルしてもよい)。カップリングされたシークエンシングリードペアを倍数体生物の対応する染色体に割り当てるプロセスは、ハプロタイプ判定と呼ばれることがある。本明細書に記載される方法を使用して、ハプロタイプ判定の精度または効率を向上させることができる。例えば、本明細書に記載されるカップリングされたシークエンシングリードペアの第2の領域からの情報を使用して、試験バリアントを第1の染色体または第2の染色体(または倍数体生物からの他のさらなる染色体)と関連付けることができる。
システム、デバイスおよびレポート
【0207】
図1~17に関連して説明されたものを含む、上記で説明された操作は、図18に描かれている構成要素により、必要に応じて実行される。どのようにすれば他のプロセス、例えば、上記で説明された操作のすべてまたは一部の組合せまたは部分的組合せを図18に描かれている構成要素に基づいて実行することができるのかは、当業者には明らかであろう。どのようにすれば本明細書に記載される方法、技法、システムおよびデバイスを互いに、全体として、または部分的に組み合わせることができるのかもまた、それらの方法、技法、システムおよび/またはデバイスが、図18に描かれている構成要素により実行されるか否か、および/または提供されるか否かを問わず、当業者には明らかであろう。
【0208】
図18は、一実施形態に従ってコンピュータデバイスの例を説明する。デバイス1800は、ネットワークに接続されたホストコンピュータであることがある。デバイス1800は、クライアントコンピュータまたはサーバーであることもある。図18に示されているように、デバイス1800は、任意の好適なタイプのマイクロプロセッサーベースのデバイス、例えば、パーソナルコンピュータ、ワークステーション、サーバー、またはハンドヘルドコンピュータデバイス(携帯用電子デバイス)、例えば電話機もしくはタブレットであり得る。デバイスは、例えば、プロセッサー1810、入力デバイス1820、出力デバイス1830、記憶装置1840、および通信デバイス1860のうちの1つまたは複数を含み得る。入力デバイス1820および出力デバイス1830は、一般に、上記のものに対応することができ、コンピュータと接続可能または一体型のどちらかであり得る。
【0209】
入力デバイス1820は、入力を行なう任意の好適なデバイス、例えば、タッチスクリーン、キーボードもしくはキーパッド、マウス、または音声認識デバイスであり得る。出力デバイス1830は、出力を行なう任意の好適なデバイス、例えば、タッチパネル、触覚デバイス、またはスピーカーであり得る。
【0210】
記憶装置1840は、RAM、キャッシュメモリー、ハードドライブまたは脱着式保存ディスクを含む、電子、磁気または光メモリーなどの、記憶域を提供する任意の好適なデバイスであり得る。通信デバイス1860は、ネットワークを用いてシグナルを送信および受信することができる任意の好適なデバイス、例えば、ネットワークインターフェースチップまたはデバイスを含み得る。コンピュータの構成要素を、任意の好適な方法で、例えば物理的バスを介してまたは無線で、接続することができる。
【0211】
記憶装置1840に記憶され、プロセッサー1810により実行され得る、ソフトウェア1850は、例えば、本開示の機能性を具現化する(例えば、上記のデバイスで具現化されるような)プログラミングを含むことができる。
【0212】
上記のものなどの命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、任意の非一過性コンピュータ可読記憶媒体であって、ソフトウェアに関連する命令を命令実行システム、装置またはデバイスから取り出し、命令を実行することができる可読記憶媒体の中に、ソフトウェア1850を記憶および/またはトランスポートすることもできる。本開示に関して、コンピュータ可読記憶媒体は、命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、プログラミングを収容または記憶することができる任意の媒体、例えば、記憶装置1840であり得る。
【0213】
上記のものなどの命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、任意のトランスポート媒体であって、ソフトウェアに関連する命令を命令実行システム、装置またはデバイスから取り出し、命令を実行することができるトランスポート媒体の中に、ソフトウェア1850を伝播することもできる。本開示に関して、トランスポート媒体は、命令実行システム、装置もしくはデバイスで使用するための、またはそれと接続している、プログラミングを伝える、伝播するまたはトランスポートすることができる、任意の媒体であり得る。トランスポート可読媒体としては、電子、磁気、光、電磁または赤外有線もしくは無線伝播媒体を挙げることができるが、これらに限定されない。
【0214】
デバイス1800をネットワークに接続することができ、これは任意の好適なタイプの相互接続通信システムであり得る。ネットワークは、任意の好適な通信プロトコルを実行することができ、ネットワークを任意の好適なセキュリティープロトコルにより保護することができる。ネットワークは、ネットワークシグナルの通信および受信を実行することができる任意の好適な構成のネットワークリンク、例えば、無線ネットワーク接続、T1もしくはT3ライン、ケーブルネットワーク、DSL、または電話線を含むことができる。
【0215】
デバイス1800は、ネットワークでの操作に好適な任意の操作システムを実装することができる。ソフトウェア1850を任意の好適なプログラミング言語、例えば、C、C++、Java(登録商標)またはPythonで書くことができる。様々な実施形態では、本開示の機能性を具現化するアプリケーションソフトウェアを、例えば、異なる配置で、例えばクライアント/サーバー構成で、またはウェブベースのアプリケーションもしくはウェブサービスのようなウェブブラウザによって、展開することができる。
【0216】
本明細書に記載される方法は、解析方法を使用して決定された情報を報告するステップ、および/または解析方法を使用して決定された情報を含むレポートを生成するステップを、必要に応じてさらに含む。例えば、一部の実施形態では、方法は、対象に由来する(例えば、対象のゲノム内の)ポリヌクレオチドにおけるバリアントの同定に関する__を報告するステップまたはそれを含むレポートを生成するステップをさらに含む。報告される情報、またはレポートの中の情報は、例えば、参照配列にマッピングされたカップリングされたシークエンシングリードペアの遺伝子座、検出されたバリアント(例えば、検出された構造バリアントまたは検出されたSNP)、1つもしくは複数のアセンブルされたコンセンサス配列、および/または1つもしくは複数のアセンブルされたコンセンサス配列についての検証統計量に関連し得る。受信者、例えば、臨床医、対象または研究者に、レポートを配布することができ、または情報を報告することができる。
例示的実施形態
【0217】
以下の実施形態は、例示的なものであり、請求項記載の本発明の範囲を限定するように意図されたものではない。
【0218】
実施形態1.カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法であって、
(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
(b)ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(c)ステップ(b)で伸長されたプライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して第2の領域を通してさらに伸長するステップであって、(i)プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、第2の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)第2の領域を通したプライマーの伸長が、ステップ(b)におけるプライマーの伸長よりも速く進行する、ステップ;および
(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ
を含む方法。
【0219】
実施形態2.第2の領域を通したプライマーの伸長が、第1の領域を通したプライマーの伸長より速く進行する、実施形態1の方法。
【0220】
実施形態3.第1の領域のシークエンシングデータを第3のシークエンシングデータと関連付けるステップをさらに含む、実施形態1または2の方法。
【0221】
実施形態4.カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法であって、
(a)プライマーをポリヌクレオチドの第1の領域とハイブリダイズしてハイブリダイズされた鋳型を形成するステップ;
(b)プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用して第2の領域を通して伸長するステップであって、(i)プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、第2の領域を通して伸長される、または(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用される、ステップ;および
(c)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(b)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ
を含む方法。
【0222】
実施形態5.第1の領域が、プライマーの標的にされる天然に存在する配列を含む、実施形態4の方法。
【0223】
実施形態6.プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、第2の領域を通して伸長される、実施形態1から5のいずれか1つの方法。
【0224】
実施形態7.第2の領域を通してプライマーを伸長するために使用されるヌクレオチドの少なくとも一部分が、非標識ヌクレオチドである、実施形態1から6のいずれか1つの方法。
【0225】
実施形態8.第2の領域を通してプライマーを伸長するために使用されるヌクレオチドが、非標識ヌクレオチドである、実施形態1から6のいずれか1つの方法。
【0226】
実施形態9.少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用される、実施形態1から8のいずれか1つの方法。
【0227】
実施形態10.第2の領域のフロー順序が、5つまたはそれより多くのヌクレオチドフローを含む、実施形態1から9のいずれか1つの方法。
【0228】
実施形態11.ヌクレオチドフローの各々が、単一のヌクレオチド塩基を含む、実施形態10の方法。
【0229】
実施形態12.第2の領域のフロー順序が、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%またはそれより多くにおける可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する、実施形態10または11の方法。
【0230】
実施形態13.第2の領域のフロー順序が、1フロー当り0.6のまたはそれを超える塩基組込みの効率を有する、実施形態10から12のいずれか1つの方法。
【0231】
実施形態14.参照配列および第2の領域のフロー順序を使用して第2の領域についての予想シークエンシングデータを決定するステップをさらに含む、実施形態1から13のいずれか1つの方法。
【0232】
実施形態15.プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長され、方法が、第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列を使用して、第3の領域についての予想シークエンシングデータを決定するステップをさらに含む、実施形態1から14のいずれか1つの方法。
【0233】
実施形態16.第3の領域のフロー順序が、5つまたはそれより多くのヌクレオチドフローを含む、実施形態15の方法。
【0234】
実施形態17.ヌクレオチドフローの各々が、単一のヌクレオチド塩基を含む、実施形態16の方法。
【0235】
実施形態18.第3の領域のフロー順序が、2カ所より多くのフロー位置において、ランダムシークエンシング開始位置の5%またはそれより多くにおける可能なSNPパーミュテーションの50%またはそれより多くについてのシグナル変化を誘導する、実施形態16または17の方法。
【0236】
実施形態19.第3の領域のフロー順序が、1フロー当り0.6のまたはそれを超える塩基組込みの効率を有する、実施形態16から18のいずれか1つの方法。
【0237】
実施形態20.プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長され、方法が、第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連するシークエンシングデータを使用して、第3の領域についての予想シークエンシングデータを決定するステップをさらに含み、第3の領域の配列に関連するシークエンシングデータが、第3の領域について生成される同じまたは異なるシークエンシングデータである、実施形態1から19のいずれか1つの方法。
【0238】
実施形態21.第2の領域または第3の領域についての予想参照データが、バイナリまたは非バイナリフローグラムを含む、実施形態14から20のいずれか1つの方法。
【0239】
実施形態22.第2の領域のフロー順序、および第2の領域についての第2の参照配列を使用して、第2の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含み、第2の参照配列が、試験バリアントを含む、実施形態14から21のいずれか1つの方法。
【0240】
実施形態23.プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長され、方法が、第2の領域についての第2の参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列を使用して、第3の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含む、実施形態22の方法。
【0241】
実施形態24.プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長され、方法が、第2の領域についての第2の参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連するシークエンシングデータを使用して、第3の領域についての予想試験バリアントシークエンシングデータを決定するステップをさらに含み、第3の領域の配列に関連するシークエンシングデータが、第3の領域について生成される同じまたは異なるシークエンシングデータである、実施形態22の方法。
【0242】
実施形態25.第2の領域または第3の領域についての予想参照シークエンシングデータが、バイナリまたは非バイナリフローグラムを含む、実施形態22から24のいずれか1つの方法。
【0243】
実施形態26.カップリングされたシークエンシングリードペアを参照配列にマッピングする方法であって、
実施形態1から25のいずれか1つの方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップ;および
マッピングされなかった第1の領域もしくはその一部分、またはマッピングされなかった第3の領域もしくはその一部分を、第2の領域の長さを示す距離情報を使用して、参照配列にマッピングするステップ
を含む、方法。
【0244】
実施形態27.構造バリアントを検出する方法であって、
実施形態1から25のいずれか一項に記載の方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップ;
マッピングされなかった第1の領域もしくはその一部分またはマッピングされなかった第3の領域もしくはその一部分についての参照配列内の予想遺伝子座を、第2の領域の長さを示す距離情報を使用して決定するステップ;
参照配列に基づいて予想遺伝子座における配列についての予想シークエンシングデータを決定するステップ;および
マッピングされなかった第1の領域もしくはその一部分またはマッピングされなかった第3の領域もしくはその一部分を予想シークエンシングデータと比較することにより構造バリアントを検出するステップであって、マッピングされなかった第1の領域もしくはその一部分またはマッピングされなかった第3の領域もしくはその一部分と予想シークエンシングデータとの差が、構造バリアントを示す、ステップ
を含む方法。
【0245】
実施形態28.構造バリアントを検出する方法であって、
実施形態1から25のいずれか1つの方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分または第3の領域もしくはその一部分を、参照配列にマッピングするステップを含み、マッピングされなかった第1の領域、またはマッピングされなかった第3の領域が、参照配列内にマッピング不可能である、方法。
【0246】
実施形態29.第2の領域の長さを示す予想距離情報に基づいて参照配列内の構造バリアントの遺伝子座を決定するステップをさらに含む、実施形態28の方法。
【0247】
実施形態30.マッピングされなかった第1の領域もしくはその一部分、またはマッピングされなかった第3の領域もしくはその一部分が、参照配列と比較して挿入の中に存在する、実施形態27から29のいずれか1つの方法。
【0248】
実施形態31.マッピングされなかった第1の領域もしくはその一部分、またはマッピングされなかった第3の領域もしくはその一部分が、参照配列と比較して挿入の始点または終点にまたがる、実施形態27から29のいずれか1つの方法。
【0249】
実施形態32.構造バリアントを検出する方法であって、
実施形態1から25のいずれか1つの方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分および第3の領域もしくはその一部分を、参照配列にマッピングするステップ;
マッピングされた第1の領域とマッピングされた第3の領域の間のマッピング距離情報を決定するステップ;および
マッピング距離情報を第2の領域の予想距離情報と比較することにより構造バリアントを検出するステップであって、マッピング距離情報と予想距離情報との差が構造バリアントを示す、ステップ
を含む方法。
【0250】
実施形態33.構造バリアントが、染色体融合、逆位、挿入、または欠失である、実施形態27から32のいずれか1つの方法。
【0251】
実施形態34.バリアントが、第2の領域内の挿入または欠失である、実施形態27から32のいずれか1つの方法。
【0252】
実施形態35.距離情報が、第2の領域のフロー順序に関連する情報および第2の領域における塩基の確率分布を使用して決定される、実施形態26から32のいずれか1つの方法。
【0253】
実施形態36.第2の領域のフロー順序に関連する情報が、第2の領域を通してプライマーを伸長するために同時に使用されるヌクレオチド塩基の異なるタイプの数である、実施形態35の方法。
【0254】
実施形態37.第2の領域における塩基の確率分布が、ゲノム内の塩基の分布から決定される、実施形態35または36の方法。
【0255】
実施形態38.距離情報が、参照配列および第2の領域のフロー順序を使用して決定された第2の領域についての予想シークエンシングデータから導出される、実施形態26~35のいずれか1つの方法。
【0256】
実施形態39.予想シークエンシングデータが、バイナリまたは非バイナリフローグラムを含む、実施形態38の方法。
【0257】
実施形態40.カップリングされたシークエンシングリードペアを参照配列にマッピングする方法であって、
実施形態1から25のいずれか1つの方法に従って生成された、カップリングされたシークエンシングリードペアの第1の領域もしくはその一部分および第3の領域もしくはその一部分を、参照配列の第1の位置および第2の位置を含む2つまたはそれより多くの異なる位置ペアにマッピングするステップ;および
第2の領域の長さを示す第1の距離情報、および2つまたはそれより多くの位置ペアについての第1の位置と第2の位置の間の距離を示す第2の距離情報を使用して、正しい位置を選択するステップ
を含む方法。
【0258】
実施形態41.距離情報が、第2の領域のフロー順序に関連する情報および第2の領域における塩基の確率分布を使用して決定される、実施形態40の方法。
【0259】
実施形態42.第2の領域のフロー順序に関連する情報が、第2の領域を通してプライマーを伸長するために同時に使用されるヌクレオチド塩基の異なるタイプの数である、実施形態41の方法。
【0260】
実施形態43.第2の領域における塩基の確率分布が、ゲノム内の塩基の分布から決定される、実施形態41または42の方法。
【0261】
実施形態44.距離情報が、参照配列および第2の領域のフロー順序を使用して決定された第2の領域についての予想シークエンシングデータから導出される、実施形態40の方法。
【0262】
実施形態45.予想参照シークエンシングデータが、バイナリまたは非バイナリフローグラムを含む、実施形態44の方法。
【0263】
実施形態46.伸長されたプライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長される、実施形態1から25のいずれか1つに従って生成された、カップリングされたシークエンシングリードペアの2つのシークエンシングされた領域間のバリアントを検出する方法であって、
第1の領域またはその一部分を参照配列にマッピングするステップ;
(1)第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域についての参照配列、または(2)第2の領域についての参照配列、第2の領域のフロー順序、第3の領域のフロー順序、および第3の領域の配列に関連する生成シークエンシングデータを使用して、第3の領域またはその一部分についての予想シークエンシングデータを決定するステップであって、第3の領域の配列に関連する生成配列データが、第3の領域について生成された同じまたは異なる配列データである、ステップ;および
第3の領域についての予想シークエンシングデータを第3の領域の配列に関連する生成シークエンシングデータと比較することによりバリアントの存在を検出するステップ
を含む方法。
【0264】
実施形態47.バリアントが、構造バリアントである、実施形態46の方法。
【0265】
実施形態48.構造バリアントが、染色体融合、逆位、挿入、または欠失である、実施形態47の方法。
【0266】
実施形態49.バリアントが、一塩基多型(SNP)である、実施形態46の方法。
【0267】
実施形態50.試験バリアントを検出するために使用され、参照配列が試験バリアントを含む、実施形態46から49のいずれか1つの方法。
【0268】
実施形態51.試験バリアントが、第2のポリヌクレオチド中の試験バリアントを同定することにより選択される、実施形態50の方法。
【0269】
実施形態52.検出された試験バリアントとポリヌクレオチドの第1の領域または第3の領域におけるシークエンシングされた対立遺伝子とを関連付けるステップを含む、実施形態50または51の方法。
【0270】
実施形態53.ポリヌクレオチドのシークエンシングされなかった領域における塩基トランスバージョンの存在を検出するためのカップリングされたシークエンシングリードペアを生成する方法であって、
(a)ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
(b)ポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(c)ステップ(b)において伸長されたプライマーを、第2の領域を通して、(1)シトシンおよびチミンと(2)アデニンおよびグアニンとの交互ヌクレオチドペアを含むフロー順序を使用してさらに伸長するステップ;および
(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(c)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ
を含む方法。
【0271】
実施形態54.カップリングされたシークエンシングリードペアをポリヌクレオチドから生成する方法であって、
(a)プライマーをポリヌクレオチドの第1の領域とハイブリダイズしてハイブリダイズされた鋳型を形成するステップ;
(b)プライマーを、第2の領域を通して、(1)シトシンおよびチミンと(2)アデニンおよびグアニンとの交互ヌクレオチドペアを含むフロー順序を使用して伸長するステップ;および
(c)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してステップ(b)で伸長されたプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ
を含む方法。
【0272】
実施形態55.第1の領域が、プライマーの標的にされる天然に存在する配列を含む、実施形態54の方法。
【0273】
実施形態56.プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、第2の領域を通して伸長される、実施形態54または55の方法。
【0274】
実施形態57.ポリヌクレオチドのシークエンシングされなかった領域における塩基トランスバージョンの存在を検出する方法であって、
プライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して第3の領域を通して伸長される、実施形態54から56のいずれか1つに従って生成された、カップリングされたシークエンシングリードペアの第1の領域またはその一部分および第3の領域またはその一部分を、参照配列にマッピングするステップ;
第2の領域のフロー順序、第3の領域のフロー順序、および参照配列を使用して、第3の領域についての予想シークエンシングデータを決定するステップ;および
第3の領域についての予想シークエンシングデータと第3の領域についての生成シークエンシングデータとの差に基づいて塩基トランスバージョンの存在を検出するステップ
を含む方法。
【0275】
実施形態58.第3の領域についての予想シークエンシングデータが、第2の領域のフロー順序、第3の領域のフロー順序、第2の領域についての参照配列、および第3の領域についての参照配列を使用して決定される、実施形態57の方法。
【0276】
実施形態59.第3の領域についての予想シークエンシングデータが、第2の領域のフロー順序、第3の領域のフロー順序、第2の領域についての参照配列、および第3の領域の配列に関連する生成配列データを使用して決定され、第3の領域の配列に関連する生成配列データが、第3の領域について生成された同じまたは異なる配列データである、実施形態57の方法。
【0277】
実施形態60.第3の領域についての予想シークエンシングデータが、バイナリまたは非バイナリフローグラムを含む、実施形態57から59のいずれか1つの方法。
【0278】
実施形態61.1つまたは複数のコンセンサス配列を生成する方法であって、実施形態1から25のいずれか1つに従って生成された複数のカップリングされたシークエンシングリードペアをアセンブルするステップを含む、方法。
【0279】
実施形態62.1つまたは複数のコンセンサス配列が、複数のカップリングされたシークエンシングリードペアの第2の領域の長さを示す距離情報を使用してアセンブルされる、実施形態61の方法。
【0280】
実施形態63.距離情報が、第2の領域のフロー順序に関連する情報および第2の領域における塩基の確率分布を使用して決定される、実施形態61の方法。
【0281】
実施形態64.第2の領域のフロー順序に関連する情報が、第3の領域を通してプライマーを伸長するために同時に使用されるヌクレオチド塩基の異なるタイプの数である、実施形態63の方法。
【0282】
実施形態65.第2の領域における塩基の確率分布が、ゲノム内の塩基の分布から決定される、実施形態63または64の方法。
【0283】
実施形態66.距離情報が、参照配列および第2の領域のフロー順序を使用して決定された第2の領域についての予想参照シークエンシングデータから導出される、実施形態62の方法。
【0284】
実施形態67.予想参照シークエンシングデータが、バイナリまたは非バイナリフローグラムを含む、実施形態66の方法。
【0285】
実施形態68.1つまたは複数のコンセンサス配列から選択されたコンセンサス配列の一部分を、選択されたコンセンサス配列の一部分に関連する、選択された、カップリングされたシークエンシングリードを使用して検証するステップをさらに含み、選択された、カップリングされたシークエンシングリードを生成する際に第3の領域を通して伸長されるプライマーが、第3の領域のフロー順序で提供されるヌクレオチドを使用して伸長され、検証するステップが、
第2の領域のフロー順序、第3の領域のフロー順序、および選択されたコンセンサス配列の一部分を使用して、選択された、カップリングされたシークエンシングリードの第3の領域についての予想シークエンシングデータを決定すること;および
選択された、カップリングされたシークエンシングリードの第3の領域についての予想シークエンシングデータを第3の領域の生成シークエンシングデータと比較することにより、選択されたコンセンサス配列の一部分を検証すること
を含む、実施形態61から67のいずれか1つの方法。
【0286】
実施形態69.試験バリアントのステータスを検証する方法であって、
実施形態1から25のいずれか1つに従って生成された複数の重複するカップリングされたシークエンシングリードペアに亘るバリアントのステータスを比較するステップであって、複数の重複するカップリングされたシークエンシングリードペアが、試験バリアントの遺伝子座に対応する遺伝子座を含む、ステップ;
比較に基づいてバリアントのステータスを検証するステップ
を含む方法。
【0287】
実施形態70.選択された、カップリングされたシークエンシングリードペアの、第1の領域または第3の領域が、複数の重複するカップリングされたシークエンシングリードのうちの他のカップリングされたシークエンシングリードの少なくとも一部分の第2の領域と重複する、実施形態69の方法。
【0288】
実施形態71.選択された、カップリングされたシークエンシングリードの、バリアントステータスが、選択された、カップリングされたシークエンシングリードの、第1の領域または第3の領域におけるバリアントを示す、実施形態69または70の方法。
【0289】
実施形態72.選択された、カップリングされたシークエンシングリードの、第2の領域が、複数の重複するカップリングされたシークエンシングリードのうちの他のカップリングされたシークエンシングリードの少なくとも一部分の第2の領域と重複する、実施形態71の方法。
【0290】
実施形態73.選択された、カップリングされたシークエンシングリードの、バリアントステータスが、選択された、カップリングされたシークエンシングリードの、第2の領域におけるバリアントを示す、実施形態71または72の方法。
【0291】
実施形態74.試験試料中の短い遺伝子バリアントを検出するための方法であって、
実施形態1から25のいずれか1つのカップリングされたシークエンシングリードペアを生成するステップ;
ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータをポリヌクレオチドの第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;および
ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在または非存在をコールするステップ
を含む方法。
【0292】
実施形態75.
ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータをポリヌクレオチドの第3の領域についての予想シークエンシングデータと比較するステップが、ポリヌクレオチドの第3の領域について生成されたシークエンシングデータがポリヌクレオチドの第3の領域についての予想シークエンシングデータにマッチする尤度を示すマッチスコアを決定すること;および
決定されたマッチスコアを使用してポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在または非存在をコールすること
を含む、実施形態74の方法。
【0293】
実施形態76.ポリヌクレオチドの第3の領域についての予想シークエンシングデータが、ポリヌクレオチドの第3の領域の予想配列をin silicoでシークエンシングすることにより得られる、実施形態74または75の方法。
【0294】
実施形態77.第1の領域の配列に関連するシークエンシングデータ、または第3の領域の配列に関連するシークエンシングデータが、複数のフロー位置の中の各フロー位置に取り込まれた塩基の数を示す塩基カウントを表すフローシグナルを含む、実施形態1から76のいずれか1つの方法。
【0295】
実施形態78.フローシグナルが、各フロー位置における少なくとも1つの塩基カウントについての塩基カウント尤度を示す統計パラメーターを含む、実施形態77の方法。
【0296】
実施形態79.フローシグナルが、各フロー位置における複数の塩基カウントについての塩基カウント尤度を示す統計パラメーターを含む、実施形態78の方法。
【0297】
実施形態80.
第3の領域の配列に関連するシークエンシングデータが、複数のフロー位置の中の各フロー位置に取り込まれた塩基の数を示す塩基カウントを表すフローシグナルを含み、フローシグナルが、複数の塩基カウントについての塩基カウント尤度を示す統計パラメーターを含み;
方法が、シークエンシングデータ中の各フロー位置における統計パラメーターであって、そのフロー位置における予想配列の塩基カウントと一致する統計パラメーターを選択するステップ、およびシークエンシングデータセットが予想配列にマッチする尤度を示すマッチスコアを決定するステップをさらに含む、
実施形態75または76の方法。
【0298】
実施形態81.マッチスコアが、シークエンシングデータ内のフロー位置にわたっての選択された統計パラメーターの組み合わされた値である、実施形態80の方法。
【0299】
実施形態82.フローサイクル順序が、同じ順序で反復される4つの別々のフローを含む、実施形態1から81のいずれか1つの方法。
【0300】
実施形態83.フローサイクル順序が、5つまたはそれより多くの別々のフローを含む、実施形態1から81のいずれか1つの方法。
【0301】
実施形態84.カップリングされたシークエンシングリードペアを生成するステップが、
プライマーを、第4の領域のフロー順序で提供されるヌクレオチドを使用して第4の領域を通して伸長すること、ここで、(i)プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、第4の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第4の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)第4の領域を通したプライマーの伸長が、第1の領域または第3の領域を通したプライマーの伸長よりも速く進行する;および
ポリヌクレオチドの第5の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用する第4を通して伸長されたプライマーのさらなる伸長、および取り込まれた標識ヌクレオチドの存在または非存在の検出により、生成すること
を含む、実施形態1から83のいずれか1つの方法。
【0302】
実施形態85.第5の領域のシークエンシングデータを第1の領域のシークエンシングデータまたは第3の領域のシークエンシングデータと関連付けるステップをさらに含む、実施形態84の方法。
【0303】
実施形態86.ポリヌクレオチドが、ローリングサークル増幅を使用して増幅される、実施形態1から85のいずれか1つの方法。
【0304】
実施形態87.試験試料中の短い遺伝子バリアントを検出する方法であって、
(a)ローリングサークル増幅(RCA)を使用してポリヌクレオチドを増幅させて、ポリヌクレオチドの第1のコピーとポリヌクレオチドの第2のコピーとを少なくとも含むRCA増幅ポリヌクレオチドを生成するステップ;
(b)RCA増幅ポリヌクレオチドをプライマーとハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
(c)ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第1の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(d)プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用してポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してさらに伸長するステップであって、(i)プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長されるか、(ii)少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用されるか、または(iii)ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通したプライマーの伸長が、第1の領域を通したプライマーの伸長よりも速く進行する、ステップ;
(e)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(f)ポリヌクレオチドの第3の領域について生成されたシークエンシングデータをポリヌクレオチドの第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;
(g)ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップ;
(h)ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;および
(i)ポリヌクレオチドの第2の領域における短い遺伝子バリアントのアイデンティティーをコールするステップ
を含む方法。
【0305】
実施形態88.ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通したプライマーの伸長が、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第1の領域を通したプライマーの伸長よりも速く進行する、実施形態87の方法。
【0306】
実施形態89.試験試料中の短い遺伝子バリアントを検出する方法であって、
(a)ローリングサークル増幅(RCA)を使用してポリヌクレオチドを増幅させて、ポリヌクレオチドの第1のコピーとポリヌクレオチドの第2のコピーとを少なくとも含むRCA増幅ポリヌクレオチドを生成するステップ;
(b)プライマーをポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第1の領域にハイブリダイズして、ハイブリダイズされた鋳型を形成するステップ;
(c)プライマーを、第2の領域のフロー順序で提供されるヌクレオチドを使用してポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長するステップであって、(i)プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在もしくは非存在を検出することなく、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長される、ステップ;
(d)ポリヌクレオチドの第3の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーをさらに伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;
(e)ポリヌクレオチドの第3の領域について生成されたシークエンシングデータをポリヌクレオチドの第3の領域の予想配列についての予想シークエンシングデータと比較するステップ;
(f)ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップ;
(g)ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータを、標識ヌクレオチドを使用してプライマーを伸長すること、および取り込まれた標識ヌクレオチドの存在または非存在を検出することにより、生成するステップ;および
(h)ポリヌクレオチドの第2の領域における短い遺伝子バリアントのアイデンティティーをコールするステップ
を含む方法。
【0307】
実施形態90.第1の領域が、プライマーの標的にされる天然に存在する配列を含む、実施形態89の方法。
【0308】
実施形態91.ポリヌクレオチドの第2のコピーの中のポリヌクレオチドの第2の領域の配列に関連するシークエンシングデータが、ポリヌクレオチドの第2の領域における短い遺伝子バリアントの存在をコールするステップに基づいて動的に生成される、実施形態87から90のいずれか1つの方法。
【0309】
実施形態92.プライマーが、伸長プライマーに取り込まれたヌクレオチドの標識の存在または非存在を検出することなく、ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通して伸長される、実施形態87から91のいずれか1つの方法。
【0310】
実施形態93.ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してプライマーを伸長するために使用されるヌクレオチドの少なくとも一部分が、非標識ヌクレオチドである、実施形態87から92のいずれか1つの方法。
【0311】
実施形態94.ポリヌクレオチドの第1のコピーの中のポリヌクレオチドの第2の領域を通してプライマーを伸長するために使用されるヌクレオチドが、非標識ヌクレオチドである、実施形態87から92のいずれか1つの方法。
【0312】
実施形態95.少なくとも2つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用される、実施形態87から94のいずれか1つの方法。
【0313】
実施形態96.3つの異なるタイプのヌクレオチド塩基の混合物が、第2の領域のフロー順序の少なくとも1ステップで使用される、実施形態87から95のいずれか1つの方法。
【0314】
実施形態97.シークエンシングクラスター内のシークエンシングプライマーを同期化する方法であって、
(a)プライマーをシークエンシングクラスター内のポリヌクレオチドコピーとハイブリダイズするステップ;
(b)プライマーを、第1の領域のフローサイクルに従って標識ヌクレオチドを使用してポリヌクレオチドコピーの第1の領域を通して伸長するステップ;
(c)プライマーを、1つまたは複数の再位相化フローを使用してポリヌクレオチドコピーの第2の領域を通して伸長するステップであって、少なくとも2つの異なるタイプのヌクレオチドの混合物が、1つまたは複数の再位相化フローの少なくとも1つにおいて使用される、ステップ;および
(d)プライマーを、第3の領域のフローサイクルに従って標識ヌクレオチドを使用してポリヌクレオチドコピーの第3の領域を通して伸長するステップ
を含む方法。
【0315】
実施形態98.3つの異なるタイプのヌクレオチド塩基の混合物が、1つまたは複数の再位相化フローのうちの少なくとも1つにおいて使用される、実施形態97の方法。
【0316】
実施形態99.1つまたは複数の再位相化フローが、4つまたはそれより多くのフローステップを含む、実施形態97または98の方法。
【0317】
実施形態100.1つまたは複数の再位相フローが、任意の順序で:
(i)A、CおよびGヌクレオチドを含むがTヌクレオチドを含まない混合物を含む第1のフロー;
(ii)T、CおよびGヌクレオチドを含むがAヌクレオチドを含まない混合物を含む第2のフロー;
(iii)T、AおよびGヌクレオチドを含むがCヌクレオチドを含まない混合物を含む第3のフロー;および
(iv)T、AおよびCヌクレオチドを含むがGヌクレオチドを含まない混合物を含む第4のフロー
を含む、実施形態99の方法。
【0318】
実施形態101.第1の領域の配列に関連するシークエンシングデータを、プライマーを第1の領域を通して伸長しながら取り込まれた標識ヌクレオチドの存在または非存在を検出することにより生成するステップを含む、実施形態97から100のいずれか1つの方法。
【0319】
実施形態102.第3の領域の配列に関連するシークエンシングデータを、プライマーを第3の領域を通して伸長しながら取り込まれた標識ヌクレオチドの存在または非存在を検出することにより生成するステップを含む、実施形態97から101のいずれか1つの方法。
【0320】
実施形態103.
1または複数台のプロセッサーと、
非一過性記憶媒体であって、
1つまたは複数のカップリングされたシークエンシングリードに関する情報を受信する、および
実施形態26~52および57~86のいずれか1つの方法を遂行する
ための、1または複数台のプロセッサーにより実行可能な1つまたは複数のプログラムを含む非一過性記憶媒体と
を含むシステム。
【0321】
実施形態104.1つまたは複数のカップリングされたシークエンシングリードが、実施形態1~25、53~56、および87~96のいずれか1つの方法に従って生成される、実施形態103のシステム。
【実施例
【0322】
本願の例示的実施形態として提供する以下の非限定的実施例を参照することにより、本願をよりよく理解することができる。以下の実施例を、実施形態をより十分に説明するために提示するが、いかなる点においても本願の広い範囲を限定するものと解釈すべきでない。本願のある特定の実施形態を本明細書で示し、説明したが、このような実施形態を単なる例として提供することは明らかであろう。本発明の趣旨および範囲から逸脱しない非常に多くの変形形態、変更形態および置換形態に当業者なら想到するであろう。本明細書に記載する実施形態の様々な代替形態を、本明細書に記載する方法を実施する際に利用することができることは、理解されるはずである。
(実施例1)
【0323】
高速フォワード領域を含むフローシークエンシング法を使用して、および標準フローシークエンシング法(すなわち、高速フォワード領域を含まないフローシークエンシング法)をさらに使用して、262塩基を有する核酸構築物をシークエンシングした。ポリヌクレオチドをアダプター配列にライゲーションしビーズに繋留し、これを増幅しシークエンシング表面と会合させた。シークエンシングプライマーをアダプター配列内のハイブリダイゼーション領域とハイブリダイズし、フローシークエンシング法の開始を可能にした。第1の方法では、単一タイプの蛍光標識された非終結ヌクレオチドの交互フローを使用してシークエンシングプライマーを伸長することにより62塩基をシークエンシングし、各ステップ後のヌクレオチド組込みを、蛍光検出器を使用して判定した。次の177塩基を、各フローが、存在する4つのヌクレオチドのうちの3つを有する、未標識の非終結ヌクレオチドの交互フロー(すなわち「高速フォワード」モード)に曝露して、プライマーを第2の領域を通して伸長させた。「暗」(すなわち、取り込まれたヌクレオチドの検出なし)の第2の領域を通したプライマーの伸長後、別の23塩基は、単一タイプの蛍光標識された非終結ヌクレオチドのシークエンシングされた交互フローであり、各ステップ後のヌクレオチド組込みを、蛍光検出器を使用して判定した。結果を図19Aに示し、この図は、横アクセス上にフローステップ数、および縦アクセス上にシークエンシングシグナル(すなわち、正規化蛍光シグナル)の測度を示す。この方法は、高速フォワードレジメンに従って高品質シークエンシングデータをもたらす。
【0324】
同じ262塩基構築物を、介在高速フォワードレジメンを用いずに全面的に標準フローシークエンシング法でシークエンシングした。つまり、全262塩基は、単一タイプの蛍光標識された非終結ヌクレオチドのシークエンシングされた交互フローであり、各ステップ後のヌクレオチド組込みを、蛍光検出器を使用して判定した。結果を図19Bに示し、この図は、図を圧縮するために、対応する177塩基領域からのデータを含まない。
【0325】
シークエンシング構築物は、高速フォワードフローシークエンシング法を使用すると、標準フローシークエンシング法よりも迅速に前進する。ポリヌクレオチドの両端からのシークエンシングデータを関連付けてカップリングされたシークエンシングリードペアを生成し、解析することができる。
(実施例2)
【0326】
配列番号4内のバリアント(配列番号1の参照配列と比較して塩基位置15にC→G単一ヌクレオチド多型バリアントがある)の検出をこの実施例で説明する。プライマーを配列番号4の5’末端のハイブリダイゼーション配列とハイブリダイズすること、およびフローシークエンシング法を使用してプライマーを伸長することにより、配列番号4についてのカップリングされたシークエンシングリードペアを生成することができる。この実施例では、5サイクルを使用し、サイクル1を使用して、第1の領域を通してプライマーを伸長し、サイクル2およびサイクル3を使用して、第2の領域を通してプライマーを伸長し、サイクル4およびサイクル5を使用して、第3の領域を通してプライマーを伸長する。サイクル1、サイクル4およびサイクル5は、標識ヌクレオチドを使用してプライマーを伸長し、プライマーへのヌクレオチドの組込みを、サイクルステップを終えるたびに検出する。対照的に、サイクル2およびサイクル3中のプライマーへのヌクレオチドの組込みをスキップすることができる。各サイクルは、4つのステップを有し、サイクル1、4および5が、A-C-T-G標識ヌクレオチドの逐次的な独立した付加を含み、単一塩基タイプを各サイクルステップで付加し、標識ヌクレオチドの組込みを各ステップ後に検出する。サイクル2およびサイクル3を「高速フォワード」モードで実行し、これらのサイクルは、4つのサイクルステップを含み、ステップ1は、Aヌクレオチドを含まず(すなわち、C、TおよびGを含み)、ステップ2は、Cヌクレオチドを含まず(すなわち、A、TおよびGを含み)、ステップ3は、Tヌクレオチドを含まず(すなわち、A、CおよびGを含み)、ステップ4は、Gヌクレオチドを含まない(すなわち、A、CおよびTを含む)。ヌクレオチド組込みをサイクル2およびサイクル3の高速フォワードモード中に検出しない。サイクル2および3は、プライマー伸長中に同時に複数の異なるヌクレオチド塩基タイプを含むため、いずれかの所与のステップで単一の塩基タイプしか使用されなかった場合よりも速くプライマーを伸長する。配列番号1(参照配列)および配列番号4(SNP配列)についてのフローグラムを表6に示す。シークエンシングデータは、配列番号1の第3の領域(サイクル4およびサイクル5)が3’-CTGAC-5’(配列番号5)であること、および配列番号4の第3の領域(サイクル4およびサイクル5)が3’-CCTGC-5’(配列番号7)であることを示す。配列番号1と配列番号4の間のシークエンシングデータ間の差は、第2の領域内のバリアントの存在を示す。
【表6】
【表7】
【表8】
【表9】
(実施例3)
【0327】
配列番号8内のバリアント(これは、配列番号1の参照配列と比較して塩基位置23の後にATC挿入物を含む)の検出をこの実施例で説明する。第2の領域を通しての高速フォワード部分を含むフローシークエンシング法を使用して、配列番号1および配列番号8についてのカップリングされたシークエンシングリードを生成することができる。この実施例では、5サイクルを使用し、サイクル1を使用して、第1の領域を通してプライマーを伸長し、サイクル2およびサイクル3を使用して、第2の領域を通してプライマーを伸長し、サイクル4およびサイクル5を使用して、第3の領域を通してプライマーを伸長する。サイクル1、サイクル4およびサイクル5は、標識ヌクレオチドを使用してプライマーを伸長し、プライマーへのヌクレオチドの組込みを、サイクルステップを終えるたびに検出する。対照的に、サイクル2およびサイクル3中のプライマーへのヌクレオチドの組込みをスキップすることができる。各サイクルは、4つのステップを有し、サイクル1、4および5は、A-C-T-G標識ヌクレオチドの逐次的な独立した付加を含み、単一塩基タイプを各サイクルステップで付加し、標識ヌクレオチドの組込みを各ステップ後に検出する。サイクル2およびサイクル3を「高速フォワード」モードで実行し、これらのサイクルは、4つのサイクルステップを含み、ステップ1は、Aヌクレオチドを含まず(すなわち、C、TおよびGを含み)、ステップ2は、Cヌクレオチドを含まず(すなわち、A、TおよびGを含み)、ステップ3は、Tヌクレオチドを含まず(すなわち、A、CおよびGを含み)、ステップ4は、Gヌクレオチドを含まない(すなわち、A、CおよびTを含む)。ヌクレオチド組込みをサイクル2およびサイクル3の高速フォワードモード中に検出しない。サイクル2および3は、プライマー伸長中に同時に複数の異なるヌクレオチド塩基タイプを含むため、いずれかの所与のステップで単一の塩基タイプしか使用されなかった場合よりも速くプライマーを伸長する。配列番号1(参照配列)および配列番号8についてのフローグラムを表7に示す。シークエンシングデータは、配列番号1の第3の領域(サイクル4およびサイクル5)が3’-CTGAC-5’(配列番号5)であること、および配列番号8の第3の領域(サイクル4およびサイクル5)が3’-AC-5’であることを示す。配列番号1と配列番号8の間のシークエンシングデータ間の差は、第2の領域内のバリアントの存在を示す。
(実施例4)
【0328】
配列番号9内のバリアント(これは、配列番号1の参照配列と比較して塩基位置17の後にGCCTGCA(配列番号13)塩基の欠失を含む)の検出をこの実施例で説明する。第2の領域を通しての高速フォワード部分を含むフローシークエンシング法を使用して、配列番号1および配列番号9についてのカップリングされたシークエンシングリードを生成することができる。この実施例では、5サイクルを使用し、サイクル1を使用して、第1の領域を通してプライマーを伸長し、サイクル2およびサイクル3を使用して、第2の領域を通してプライマーを伸長し、サイクル4およびサイクル5を使用して、第3の領域を通してプライマーを伸長する。サイクル1、サイクル4およびサイクル5は、標識ヌクレオチドを使用してプライマーを伸長し、プライマーへのヌクレオチドの組込みを、サイクルステップを終えるたびに検出する。対照的に、サイクル2およびサイクル3中のプライマーへのヌクレオチドの組込みをスキップすることができる。各サイクルは、4つのステップを有し、サイクル1、4および5は、A-C-T-G標識ヌクレオチドの逐次的な独立した付加を含み、単一塩基タイプを各サイクルステップで付加し、標識ヌクレオチドの組込みを各ステップ後に検出する。サイクル2およびサイクル3を「高速フォワード」モードで実行し、これらのサイクルは、4つのサイクルステップを含み、ステップ1は、Aヌクレオチドを含まず(すなわち、C、TおよびGを含み)、ステップ2は、Cヌクレオチドを含まず(すなわち、A、TおよびGを含み)、ステップ3は、Tヌクレオチドを含まず(すなわち、A、CおよびGを含み)、ステップ4は、Gヌクレオチドを含まない(すなわち、A、CおよびTを含む)。ヌクレオチド組込みをサイクル2およびサイクル3の高速フォワードモード中に検出しない。サイクル2および3は、プライマー伸長中に同時に複数の異なるヌクレオチド塩基タイプを含むため、いずれかの所与のステップで単一の塩基タイプしか使用されなかった場合よりも速くプライマーを伸長する。配列番号1(参照配列)および配列番号9についてのフローグラムを表8に示す。シークエンシングデータは、配列番号1の第3の領域(サイクル4およびサイクル5)が3’-CTGAC-5’(配列番号5)であること、および配列番号9の第3の領域(サイクル4およびサイクル5)が3’-AC-5’であることを示す。配列番号1と配列番号8の間のシークエンシングデータ間の差は、第2の領域内のバリアントの存在を示す。
(実施例5)
【0329】
配列番号12内のバリアント(これは、配列番号1の参照配列と比較して塩基位置17の後にGCCTGCA(配列番号13)塩基の逆位を含む)の検出をこの実施例で説明する。第2の領域を通しての高速フォワード部分を含むフローシークエンシング法を使用して、配列番号1および配列番号12についてのカップリングされたシークエンシングリードを生成することができる。この実施例では、5サイクルを使用し、サイクル1を使用して、第1の領域を通してプライマーを伸長し、サイクル2およびサイクル3を使用して、第2の領域を通してプライマーを伸長し、サイクル4およびサイクル5を使用して、第3の領域を通してプライマーを伸長する。サイクル1、サイクル4およびサイクル5は、標識ヌクレオチドを使用してプライマーを伸長し、プライマーへのヌクレオチドの組込みを、サイクルステップを終えるたびに検出する。対照的に、サイクル2およびサイクル3中のプライマーへのヌクレオチドの組込みをスキップすることができる。各サイクルは、4つのステップを有し、サイクル1、4および5は、A-C-T-G標識ヌクレオチドの逐次的な独立した付加を含み、単一塩基タイプを各サイクルステップで付加し、標識ヌクレオチドの組込みを各ステップ後に検出する。サイクル2およびサイクル3を「高速フォワード」モードで実行し、これらのサイクルは、4つのサイクルステップを含み、ステップ1は、Aヌクレオチドを含まず(すなわち、C、TおよびGを含み)、ステップ2は、Cヌクレオチドを含まず(すなわち、A、TおよびGを含み)、ステップ3は、Tヌクレオチドを含まず(すなわち、A、CおよびGを含み)、ステップ4は、Gヌクレオチドを含まない(すなわち、A、CおよびTを含む)。ヌクレオチド組込みをサイクル2およびサイクル3の高速フォワードモード中に検出しない。サイクル2および3は、プライマー伸長中に同時に複数の異なるヌクレオチド塩基タイプを含むため、いずれかの所与のステップで単一の塩基タイプしか使用されなかった場合よりも速くプライマーを伸長する。配列番号1(参照配列)および配列番号12についてのフローグラムを表9に示す。シークエンシングデータは、配列番号1の第3の領域(サイクル4およびサイクル5)が3’-CTGAC-5’(配列番号5)であること、および配列番号12の第3の領域(サイクル4およびサイクル5)が3’-G-5’であることを示す。配列番号1と配列番号12の間のシークエンシングデータ間の差は、第2の領域内のバリアントの存在を示す。
(実施例6)
【0330】
合成によるシークエンシングは、一般に、ヌクレオチドの伸長プライマーへの不完全な組込みを有する。経時的に、シークエンシングクラスター内で、プライマーは非同期化されることがあり、その結果、シグナルが分解され、塩基組込みコールを行なう信頼度が低下することになる。シークエンシングクラスター内のプライマー非同期化を、10,000の同一の鋳型鎖を有するシークエンシングクラスターを仮定すること、および各フローが単一のヌクレオチドを有する、A-C-T-Gのフロー順序を仮定して、非終結ヌクレオチドを使用して鋳型鎖をシークエンシングすることにより模擬した。組込み失敗(すなわち、ヌクレオチドが組み込まれているはずであることを鋳型が示したときにヌクレオチドが伸長プライマー鎖に組み込まれなかった)の確率を0.5%に設定した。図20Aは、100番目のフローがG非終結ヌクレオチドを有する100フロー後に各リード塩基において伸長されたプライマー(鎖)の数を示す。シークエンシングクラスターは、次に予想される組み込まれるヌクレオチドがAであるようなGヌクレオチドが伸長プライマーに取り込まれた先導シークエンシングプライマーとハイブリダイズされた鋳型、次に予想される組み込まれるヌクレオチドがCであるようなGヌクレオチドが伸長プライマーに取り込まれた第1の遅れプライマーとハイブリダイズされた鋳型、およびヌクレオチドが100番目のフローからの伸長プライマーに組み込まれなかった第2の遅れプライマーとハイブリダイズされた鋳型を含む。第1の遅れプライマーおよび第2の遅れプライマーは、伸長プライマーへの予想ヌクレオチドの組込みがシークエンシングプロセス中のある地点で失敗した、プライマーを表す。再位相化フロー順序を使用する伸長プライマーの同期化を、同期化フロー順序を使用して模擬した。フロー101で、G、CおよびA非終結ヌクレオチドの混合物を使用してプライマーを伸長し(図20B)、先導プライマーと同期化されるまで第1および第2の遅れプライマーを伸長した。フロー101は、Tヌクレオチドを含まなかったため、さらに伸長されなかった。模擬同期化フロー順序は、G、CおよびT非終結ヌクレオチドの混合物を有するフロー102(図20C)、G、TおよびA非終結ヌクレオチドの混合物を有するフロー103(図20D)、およびT、AおよびC非終結ヌクレオチドの混合物を有するフロー104(図20E)に継続した。
【0331】
図21A~21Eおよび図22A~22Eに見られるように追加の配列を使用して模擬同期化フロー順序を試験した。同期化フロー順序および異なる鋳型配列を使用して、他の良好な模擬実験を行なった。
(実施例7)
【0332】
100万を超える延長シークエンシングフロー順序を、すべての可能なSNPのセットにわたって2カ所より多くのフロー位置においてシグナル変化[XYZ→XQZ、ここで、Q≠Y(およびQ、X、YおよびZは、各々、A、C、GおよびTのいずれかを1つである)]を誘導するそれらの尤度について、in silicoで検定した。すべての有効な2塩基フローパーミュテーションで最低12塩基の配列を有するように延長フロー順序を設計し、逐次的塩基反復を有するフロー順序を除去した。フロー順序のすべての可能な開始位置を検定して、2カ所より多くのフロー位置においてシグナル変化を誘導する延長フロー順序の感度を評定した。図23および表4は、この解析の例示的結果を示す。図23中のx軸は、フロー相(または断片化開始位置)の分率を示し、y軸は、2カ所より多くのフロー位置においてシグナル変化を誘導したSNPパーミュテーションの分率を示す。いくつかのフロー順序は、リード(またはフロー開始位置)のおおよそ10%についてすべての可能な(87.5%)SNPパーミュテーションで2つまたはそれより多くのシグナルの相違を誘導する。4塩基周期的フローは、可能なSNPのたった42%でサイクルシフトを誘導するだけであるが、すべてのリードまたはフロー相でこれを行なう。効率の最終評価をヒト参照ゲノムの100万リードサブセットに対して遂行して、実行可能性を確立した。これは、現実の生物にはパターンおよび偏りがある配列をフロー順序がいかに効率的に伸長するかの実際的な評価基準である。
(実施例8)
【0333】
SNPを検出するための高速フォワードシークエンシングの感度を試験するために、シークエンシング法をin silicoで模擬して、hg38参照ゲノム内のおおよそ1,140,000の合成核酸分子をシークエンシングし、各々の合成核酸分子は、2キロ塩基セグメントであり、参照ゲノム内にランダムに始点があった。各々の合成シークエンシングリードから502bpセグメントを生成し、この約502bpセグメントの中の各塩基に対してクエリが実行される3つ可能な単一塩基突然変異(すなわち、合計500×約1.14M×3の可能なバリアント(すなわち、ABC→ADC、ここでB≠D))すべてに対してSNP検出についてのクエリを実行した。各SNPバリアントABC→ADCについて、(A=BかつD=C)または(A=DかつB=C)の場合、いずれのSNPもフローグラムにおいて新しいゼロシグナルも新しい非ゼロシグナルも生成しないことになるので、SNPを検出不能と考えた。参照塩基検出感度に対するバリアント塩基の行列が、図24に示されている。
【0334】
次いで、各フローが、中央(第2の)領域に3つのヌクレオチドの混合物を含む、4ステップフローサイクルを使用して、合成核酸分子をin silicoでシークエンシングした。各ステップが単一のヌクレオチド塩基タイプを含む、4ステップフローサイクルに従って、80のヌクレオチドフローを使用して、合成核酸分子の第1の領域をシークエンシングした。シークエンシングプライマーは、第1の領域において80フローで54±7塩基(1フロー当り約0.675塩基)にわたって伸長した。各ステップが3つのヌクレオチド塩基タイプを含み1つのヌクレオチド塩基タイプを含まない(すなわち、(i)A、C、T、および非G;(ii)G、A、C、および非T;(iii)T、G、A、および非C;および(iv)C、T、G、および非A)、4ステップフローサイクルに従って、200ヌクレオチドを使用して、合成核酸分子の第2の領域をシークエンシングした。シークエンシングプライマーは、第2の領域において200フローで915±89塩基(1フロー当り約4.575塩基)にわたって伸長した。各ステップが単一のヌクレオチド塩基タイプを含む、4ステップフローサイクルに従って、80のヌクレオチドフローを使用して、合成核酸分子の第3の領域をシークエンシングした。シークエンシングプライマーは、第3の領域において80フローで54±7塩基(1フロー当り約0.675塩基)にわたって伸長した。各々の合成バリアント核酸分子についての第3の(下流の)領域のフローグラムを、対応する合成野生型核酸分子についての第3の領域のフローグラムと比較した。対応する合成野生型核酸分子と比較して、合成バリアント核酸分子の第3の領域における新しい非ゼロフローグラムエントリーおよび/または新しいゼロフローグラムエントリーは、第2の領域に導入されたSNPの検出を示した。図25Aは、第1、第2および第3の領域におけるフローにわたっての平均塩基組込みを示す。参照塩基検出感度に対するバリアント塩基の行列を図25Bに示す。図25Cは、合成リードにわたっての塩基カバレッジの分布を示す。
(実施例9)
【0335】
2つまたは3つの異なるヌクレオチド塩基の混合物を有する再位相化フローステップを使用する再位相化の効果を、模擬シークエンシング方法論を使用して研究した。各々が長さ600bpのおおよそ10,000の合成シークエンシングリードを、ヒトゲノムからランダム開始部位選択により合成した。対照群では、模擬フローグラムを、105ラウンドのT-G-C-Aフローサイクル(合計420フロー)を使用する合成シークエンシングリードのin silicoシークエンシングにより生成した。遅れ位相の確率(すなわち、鋳型が、ヌクレオチドが組み込まれているはずであることを示すときに伸長プライマー鎖に組み込まれなかったヌクレオチドの、正しく取り込まれたヌクレオチドに対する分率)を0.2%に設定し、進み位相の確率(すなわち、追加のヌクレオチドが各フロー後に伸長プライマーに取り込まれた、シークエンシングリードの分率)を0.5%に設定した。対照群についての平均リード長は、322bp±18bpであった。
【0336】
一連の試験群では、模擬フローグラムを、以下の条件のうちの1つを除いて、105ラウンドのT-G-C-Aフローサイクル(合計420フロー)を使用する合成シークエンシングリードのin silicoシークエンシングにより生成した:(1)24フローを終えるたびに、CとGの混合物を含有する再位相化フローを挿入した(図26A);(2)48フローを終えるたびに、CとGの混合物を含有する再位相化フローを挿入した(図26B);(3)96フローを終えるたびに、CとGの混合物を含有する再位相化フローを挿入した(図26C);(4)192フローを終えるたびに、CとGの混合物を含有する再位相化フローを挿入した(図26D);(5)48フローを終えるたびに、CとGとTの混合物を含有する再位相化フローを挿入し、その後、単一のAフローを(冗長フローを回避するために)挿入した後、対照プロトコルによるT-G-C-Aサイクルに戻った(図26E);(6)96フローを終えるたびに、CとGとTの混合物を含有する再位相化フローを挿入し、その後、単一のAフローを(冗長フローを回避するために)挿入した後、対照プロトコルによるT-G-C-Aサイクルに戻った(図26F);(7)96フローを終えるたびに、CとGとTの混合物を含有する再位相化フローを挿入し、その後、AとCとGの混合物を含有する再位相化フローを挿入した(図26G);(8)192フローを終えるたびに、CとGとTの混合物を含有する再位相化フローを挿入し、その後、AとCとGの混合物を含有する再位相化フローを挿入した(図26H);(9)96フローを終えるたびに、CとGとTの混合物を含有する再位相化フローを挿入し、その後、AとCとTの混合物を含有する再位相化フローを挿入し、その後、AとGとTの混合物を含有する再位相化フローを挿入し、その後、AとCとGの混合物を含有する再位相化フローを挿入した(図26I);または(10)192フローを終えるたびに、CとGとTの混合物を含有する再位相化フローを挿入し、その後、AとCとTの混合物を含有する再位相化フローを挿入し、その後、AとGとTの混合物を含有する再位相化フローを挿入し、その後、AとCとGの混合物を含有する再位相化フローを挿入した(図26J)。
【0337】
試験した再位相化フローのいずれについての使用も、最小限のシークエンシングデータ損失で、in silicoシークエンシングの全ラウンド後に対照と比較して全位相誤差(すなわち、遅れ誤差も進み誤差も導入されていない名目上シークエンシングされた鎖に対する、遅れ位相誤差を有する鎖の分率と進み位相誤差を有する鎖の分率の合計)の実質的減少をもたらした。図26A~26Jは、対照プロトコルおよびそれぞれの再位相化フロープロトコル各々についての全位相誤差の和の分布を示す。CとGの混合物を含有する再位相化フローの使用は、再位相化フローごとに約1bpの平均プライマー伸長(すなわち、シークエンシングギャップ)しか生成せずに、24フローを終えるたびに、平均総累計位相誤差を31.2±9.6%に低減させ(51.5±1.3%対照と比較して)(図26A)、48フローを終えるたびに、平均総累計位相誤差を36.9±9.7%に低減させ(図26B)、96フローを終えるたびに、平均総累計位相誤差を40.2±10.1%に低減させ(図26C)、192フローを終えるたびに、平均総累計位相誤差を42.8±10.4%に低減させた(図26D)。CとGとTの混合物を含有する再位相化フローの使用は、再位相化フローごとに約5bpの平均プライマー伸長しか生成せずに、48フローを終えるたびに、平均総累計位相誤差を28.5±10.6%に低減させ(図26E)、96フローを終えるたびに、平均総累計位相誤差を31.1±12.2%に低減させた(図26F)。CとGとTの混合物を含有する第1の再位相化フロー、およびAとCとGの混合物を含有する第2の再位相化フローの使用は、再位相化二重フローごとに約9bpの平均プライマー伸長しか生成せずに、96フローを終えるたびに、平均総累計位相誤差を25.3±10.6%に低減させ(図26G)、192フローを終えるたびに、平均総累計位相誤差を26.6±12.6%に低減させた(図26H)。CとGとTの混合物を含有する第1の再位相化フロー、AとCとTの混合物を含有する第2の再位相化フロー、およびAとGとTの混合物を含有する第3の再位相化フロー、およびAとCとGの混合物を含有する第4の再位相化フローの使用は、再位相化四重フローごとに約18bpの平均プライマー伸長しか生成せずに、96フローを終えるたびに、平均総累計位相誤差を20.6±9.4%に低減させ(図26I)、および192フローを終えるたびに、平均総累計位相誤差を20.9±11.2%に低減させた(図26J)。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11
図12
図13
図14A
図14B
図14C
図15-1】
図15-2】
図16
図17
図18
図19A
図19B
図20-1】
図20-2】
図20-3】
図21-1】
図21-2】
図21-3】
図22-1】
図22-2】
図22-3】
図23
図24
図25-1】
図25-2】
図25-3】
図26A
図26B
図26C
図26D
図26E
図26F
図26G
図26H
図26I
図26J
【配列表】
2022533801000001.app
【国際調査報告】