(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-02-20
(45)【発行日】2024-02-29
(54)【発明の名称】ゲノムアセンブリのためのフェージングされたリードセットの生成とハプロタイプフェージング
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240221BHJP
C12P 19/34 20060101ALI20240221BHJP
G16B 30/20 20190101ALI20240221BHJP
【FI】
C12Q1/6869 Z
C12P19/34 Z
G16B30/20
(21)【出願番号】P 2018543207
(86)(22)【出願日】2017-02-23
(86)【国際出願番号】 US2017019099
(87)【国際公開番号】W WO2017147279
(87)【国際公開日】2017-08-31
【審査請求日】2020-02-20
【審判番号】
【審判請求日】2022-01-26
(32)【優先日】2016-02-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2016-02-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2016-03-09
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】517286593
【氏名又は名称】ダブテイル ゲノミクス エルエルシー
(74)【代理人】
【識別番号】100082072
【氏名又は名称】清原 義博
(74)【復代理人】
【識別番号】110003797
【氏名又は名称】弁理士法人清原国際特許事務所
(72)【発明者】
【氏名】グリーン,リチャード イー.,ジュニア
(72)【発明者】
【氏名】ロクザー,ダニエル エス.
(72)【発明者】
【氏名】ハートレー,ポール
(72)【発明者】
【氏名】ブランシェット,マルコ
【合議体】
【審判長】福井 悟
【審判官】上條 肇
【審判官】藤井 美穂
(56)【参考文献】
【文献】国際公開第2014/121091(WO,A1)
【文献】国際公開第2016/019360(WO,A1)
【文献】Genome Res.,2016.02.04,Vol.26,p.342-350
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00 - 3/00
JSTPlus/JMEDPlus/JST7580(JDreamIII)
PubMed
(57)【特許請求の範囲】
【請求項1】
第1のDNA分子から長距離フェーズ情報を生成する方法であって、
前記方法は、
(a)第1のセグメント、第2のセグメント、および第3のセグメントを有する第1のDNA分子を提供する工程であって、第1のセグメント、第2のセグメント、および第3のセグメントのいずれも第1のDNA分子上で隣接せず、および、第1のセグメント、第2のセグメント、および第3のセグメントが、第1のDNA分子の共通のホスホジエステル骨格とは無関係にDNA結合部分に結合する、工程と、
(b)第1のセグメント、第2のセグメント、および第3のセグメントが共通のホスホジエステル骨格によって結合されないように、第1のDNA分子を切断する工程と、
(c)再アセンブルされた第1のDNA分子を形成するために、ホスホジエステル結合によって第2のセグメントに第1のセグメントを取り付け、第2のセグメントと第3のセグメントを取り付ける工程と、
(d)単一の配列決定リードの第1のセグメントと第2のセグメントとの間の接合部および第2のセグメントと第3のセグメントとの間の接合部を含む再アセンブルされた第1のDNA分子の少なくとも4kbの連続する配列を配列決定する工程と、を含み、
第1のセグメント配列、第2のセグメント配列、および第3のセグメント配列が第1のDNA分子からの長距離フェーズ情報を表す、方法。
【請求項2】
DNA結合部分は複数のDNA結合分子を含む、請求項1に記載の方法。
【請求項3】
前記複数のDNA結
合分子
が、DNA結合タンパク質の集
団を含む、請求項2に記載の方法。
【請求項4】
前記複数のDNA結
合分子
が、DNA結合ナノ粒子の集
団を含む、請求項2に記載の方法。
【請求項5】
第1のDNA分子を架橋剤へ接触させる工程を含む、請求項1に記載の方法。
【請求項6】
第1のDNA分子を切断する工程は、制限エンドヌクレアーゼに接触させることを含む、請求項1に記載の方法。
【請求項7】
第1のDNA分子を切断する工程は、非特異的なエンドヌクレアーゼに接触させることを含む、請求項1に記載の方法。
【請求項8】
第1のDNA分子を切断する工程は、タグメンテーション酵素に接触させることを含む、請求項1に記載の方法。
【請求項9】
第1のDNA分子を切断する工程は、トランスポサーゼに接触させることを含む、請求項1に記載の方法。
【請求項10】
第1のDNA分子を切断する工程は、第1の
DNA分子を剪断することを含む、請求項1に記載の方法。
【請求項11】
(c)の前に、前記第1のセグメント、前記第2のセグメント、又は前記第3のセグメントの少なくとも1つの露出した末端にタグを加える工程を含む、請求項1に記載の方法。
【請求項12】
タグは標識された塩基、メチル化された塩基、ビオチン化された塩基、ウリジン、および非標準の塩基からなる群から選択される少なくとも1つのタグを含む、請求項11に記載の方法。
【請求項13】
第1のセグメントの粘着末端にアニールするオーバーハングを含むリンカーオリゴを加える工程を含む、請求項1-12のいずれか1つに記載の方法。
【請求項14】
取り付ける工程はライゲートすることおよびDNA一本鎖ニック修復からなる群から選択される方法を含む、請求項1に記載の方法。
【請求項15】
第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも10kb離される、請求項1に記載の方法。
【請求項16】
配列決定する工程は、単一分子のロングリード配列決定を含む、請求項1に記載の方法。
【請求項17】
ロングリード配列決定は、少なくとも5kbのリードを含む、請求項16に記載の方法。
【請求項18】
再アセンブルされた
第1のDNA分子は、第1のDNA分子の一方の末端で、5’末端を3’末端に結合するヘアピン部分を含む、請求項1に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本出願は、全体として参照により本明細書に明確に組み込まれる2016年2月23日に出願された米国仮出願第62/298,906号の利益を主張するものであり、本出願はさらに、全体として参照により本明細書に明確に組み込まれる2016年2月23日に出願された米国仮出願第62/298,966号の利益を主張し、および、本出願はさらに、全体として参照により本明細書に明確に組み込まれる2016年3月9日に出願された米国仮出願第62/305,957号の利益を主張するものである。
【背景技術】
【0002】
二倍体または倍数体のゲノムを有するもの、あるいは相当な量の反復配列または同一の配列を含むものなどの複雑なDNAサンプルのハプロタイプのフェーズ情報を決定することは、理論上も実際にも困難なままである。困難さは、高反復領域あるいは同一の配列の長いストレッチによって分離されている所望の遺伝子座から生じ、リード情報の標準的なアセンブリが遺伝子座の対立遺伝子にフェーズ情報を割り当てるのに不十分なほどである。
【発明の概要】
【0003】
染色体などの分節上に再配列された核酸分子の生成とロングリード配列決定などの配列決定を介する核酸配列データの正確なフェージングに関連する方法、組成物、およびシステムが本明細書に開示されている。
【0004】
第1のDNA分子から長距離フェーズ情報を生成する方法が本明細書で開示され、該方法は、a)第1のセグメントと第2のセグメントとを有する第1のDNA分子を提供する工程であって、第1のセグメントと第2のセグメントが第1のDNA分子上で隣接しない、工程と、b)第1のセグメントと第2のセグメントが、第1のDNA分子の共通のホスホジエステル骨格とは無関係にDNA結合部分に結合するように、DNA結合部分に第1のDNA分子を接触させる工程と、c)第1のセグメントと第2のセグメントが共通のホスホジエステル骨格によって結合されないように、第1のDNA分子を切断する工程と、d)再アセンブルされた第1のDNA分子を形成するためにホスホジエステル結合によって第2のセグメントに第1のセグメントを取り付ける工程と、e)単一の配列決定リードの第1のセグメントと第2のセグメントとの間の接合部を含む再アセンブルされた第1のDNA分子の少なくとも4kbの連続する配列を配列決定する工程であって、第1のセグメント配列と第2のセグメント配列が第1のDNA分子からの長距離フェーズ情報を表す、工程を含む。いくつかの態様では、DNA結合部分は、DNA結合タンパク質などの複数のDNA結合分子を含む。いくつかの態様では、DNA結合タンパク質の集団は、核タンパク、広範にはヌクレオソームを含み、あるいは場合によっては、より具体的にヒストンを含む。いくつかの態様では、複数のDNA結合部分へ第1のDNA分子を接触させる工程は、DNA結合ナノ粒子の集団に接触させることを含む。しばしば、第1のDNA分子は、第1のDNA分子上で第1のセグメントあるいは第2のセグメントに隣接していない第3のセグメントを有し、(b)の接触させる工程は、第3のセグメントが第1のDNA分子の共通のホスホジエステル骨格とは無関係に、DNA結合部分に結合されるように行われ、(c)の切断する工程は、第3のセグメントが共通のホスホジエステル骨格によって第1のセグメントと第2のセグメントに結合されないように行われ、取り付ける工程は、再アセンブルされた第1のDNA分子を形成するためにホスホジエステル結合によって第2のセグメントに第3のセグメントを取り付けることを含み、(e)の配列決定された連続する配列は、単一の配列決定リードの第2のセグメントと第3のセグメントとの間に接合部を含む。該方法は、ホルムアルデヒドなどの架橋剤へ第1のDNA分子を接触させる工程をしばしば含む。いくつかの態様では、DNA結合部分は、複数のDNA結合部分を含む表面に結合される。いくつかの態様では、DNA結合部分は、ビーズを含む固体のフレームワークに結合される。いくつかの態様では、第1のDNA分子を切断する工程は、非特異的なエンドヌクレアーゼ、タグメンテーション酵素、あるいはトランスポサーゼなどの制限エンドヌクレアーゼに接触させることを含む。いくつかの態様では、第1のDNA分子を切断する工程は、第1の分子を剪断することを含む。随意に、該方法は、少なくとも1つの露出した末端にタグを加える工程を含む。典型的なタグは標識された塩基、メチル化された塩基、ビオチン化された塩基、ウリジン、あるいは他の非標準の塩基を含む。いくつかの態様では、タグは平滑末端を有する露出した末端を生成する。いくつかの態様では、該方法は、第1のセグメントの粘着末端のくぼんだ鎖に少なくとも1つの塩基を加える工程を含む。いくつかの態様では、該方法は、第1のセグメントの粘着末端にアニール化されるオーバーハングを含むリンカーオリゴを加える工程を含む。いくつかの態様では、リンカーオリゴは、第1のセグメントの粘着末端にアニール化されるオーバーハングと、第2のセグメントの粘着末端にアニール化されるオーバーハングとを含む。いくつかの態様では、リンカーオリゴは2つの5’リン酸塩部分を含まない。いくつかの態様では、取り付ける工程はライゲートする工程を含む。いくつかの態様では、取り付ける工程はDNA一本鎖ニック修復を含む。いくつかの態様では、第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも10kb離される。いくつかの態様では、第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも15kb離される。いくつかの態様では、第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも30kb離される。いくつかの態様では、第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも50kb離される。いくつかの態様では、第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも100kb離される。いくつかの態様では、配列決定は、単一分子のロングリード配列決定を含む。いくつかの態様では、ロングリード配列決定は、少なくとも5kbのリードを含む。いくつかの態様では、ロングリード配列決定は、少なくとも10kbのリードを含む。いくつかの態様では、第1の再アセンブルされたDNA分子は、第1のDNA分子の一方の末端で、5’末端~3’末端を結合するヘアピン部分を含む。いくつかの態様では、該方法は、第1のDNA分子の第2の再アセンブルされたバージョンを配列決定する工程を含む。いくつかの態様では、第1のセグメントと第2のセグメントは各々少なくとも500bpである。いくつかの態様では、第1のセグメント、第2のセグメント、および第3のセグメントは、各々少なくとも500bpである。
【0005】
ゲノムアセンブリの方法が本明細書で開示され、該方法は、a)ある構造に複合体化された第1のDNA分子を得る工程と、b)第1の露出した末端と第2の露出した末端を形成するために第1のDNA分子を切断する工程であって、第1の露出した末端と第2の露出した末端が上記切断前に分子上で隣接していなかった、工程と、c)第3の露出した末端と第4の露出した末端を形成するために第1のDNA分子を切断する工程であって、第3の露出した末端と第4の露出した末端が上記切断前に分子上で隣接していなかった、工程と、d)第1の接合部を形成するために、上記第1の露出した末端と上記第2の露出した末端を取り付ける工程と、e)第2の接合部を形成するために、上記第3の露出した末端と上記第4の露出した末端を取り付ける工程と、f)単一の配列決定リード中で上記第1の接合部と上記第2の接合部にわたって配列決定する工程と、g)複数のコンティグの第1のコンティグに、上記第1の接合部の第1の側の配列をマッピングする工程と、h)複数のコンティグの第2のコンティグに、上記第1の接合部の第2の側の配列をマッピングする工程と、i)複数のコンティグの第2のコンティグに、上記第2の接合部の第1の側の配列をマッピングする工程と、j)複数のコンティグの第3のコンティグに、上記第2の接合部の第2の側の配列をマッピングする工程と、k)ゲノムアセンブリの共通のフェーズに、上記第1のコンティグ、上記第2のコンティグ、および上記第3のコンティグを割り当てる工程とを含む。いくつかの態様では、上記複数のコンティグはショットガン配列データから生成される。いくつかの態様では、上記複数のコンティグは単一分子のロングリードデータから生成される。いくつかの態様では、上記単一分子のロングリードデータは上記複数のコンティグを含む。いくつかの態様では、上記複数のコンティグは、上記第1の接合部と上記第2の接合部での配列決定によって同時に得られる。いくつかの態様では、上記マーカーオリゴでの配列決定は少なくとも10kbの配列決定を含む。いくつかの態様では、上記構造は、再構成されたクロマチンを形成するために、第1のDNA分子に結合されたDNA結合部分の集団を含む。いくつかの態様において、上記の再構成されたクロマチンは橋架剤に接触させる。いくつかの態様では、上記橋架剤はホルムアルデヒドを含む。いくつかの態様では、DNA結合部分の上記集団はヒストンを含む。いくつかの態様では、DNA結合部分の上記集団はナノ粒子を含む。いくつかの態様では、上記構造は天然のクロマチンを含む。いくつかの態様では、第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも10kb離される。いくつかの態様では、第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも15kb離される。いくつかの態様では、第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも30kb離される。いくつかの態様では、第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも50kb離される。いくつかの態様では、第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも100kb離される。いくつかの態様では、該方法は、第1のDNA分子の第2のコピーを配列決定する工程を含む。
【0006】
a)第1のセグメント、b)第2のセグメント、および、c)第3のセグメントを含む少なくとも5kbの再配列された核酸分子が本明細書で開示され、上記第1のセグメントと上記第2のセグメントは第1の接合部で結合され、および、上記第2のセグメントと上記第3のセグメントは第2の接合部で結合され、上記第1のセグメント、上記第2のセグメント、および上記第3のセグメントは、再配列されていない核酸分子において少なくとも10kb離れたフェーズに存在し、および、上記再配列された核酸分子の少なくとも70%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、第1のセグメント、第2のセグメント、および第3のセグメントは、ゲノムの共通の核酸分子からの別々のゲノム核酸配列を含む。いくつかの態様では、第1のセグメント、第2のセグメント、および第3のセグメントは、再配列された核酸において再配置される順序でゲノム中の共通の分子に存在する。いくつかの態様では、上記核酸分子は少なくとも30kbの長さである。いくつかの態様では、上記核酸は、二本鎖の終端でヘアーピンループを含み、その結果、分子は、30kbの逆方向反復を含む一本鎖を含んでいる。いくつかの態様では、上記核酸は、二本鎖の環状分子である。いくつかの態様では、上記再配列された核酸分子の少なくとも80%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子の少なくとも85%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子の少なくとも90%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子の少なくとも95%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子の少なくとも99%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも80%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも85%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも90%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも95%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、上記再配列された核酸分子のセグメントの少なくとも99%は、上記共通の再配列されていない核酸分子にマッピングされる。いくつかの態様では、再配列された核酸は本明細書に開示された方法のいずれかの工程によって生成される。
【0007】
サンプル核酸分子のフェージングされた配列を生成する方法が本明細書で開示され、該方法は、a)サンプル核酸分子から本明細書に開示されるような第1の再配列された核酸分子を生成する工程と、b)サンプル核酸分子から本明細書に開示されるような第2の再配列された核酸分子を生成する工程と、および、c)第1の再配列された核酸分子と第2の再配列された核酸分子を配列決定する工程を含み、第1の再配列された核酸分子と第2の再配列された核酸分子は独立して生成される。
【0008】
サンプル核酸分子のフェージングされた配列を生成する方法が本明細書に開示され、該方法は、a)サンプル核酸分子から本明細書に開示されるような第1の再配列された核酸分子を配列決定する工程と、b)サンプル核酸分子から本明細書に開示されるような第2の再配列された核酸分子を配列決定する工程であって、第1の再配列された核酸分子と第2の再配列された核酸分子が独立して生成される、工程と、c)本明細書に開示されるような第1の再配列された核酸分子と、本明細書に開示されるような第2の再配列された核酸分子の配列を組み立てる工程であって、組み立てられた配列がサンプル核酸分子の再配列されていないフェージングされた配列である、工程とを含む。いくつかの態様では、第1の再配列された核酸分子を配列決定する工程は、少なくとも1kbの配列リードを生成することを含む。いくつかの態様では、第1の再配列された核酸分子を配列決定する工程は、少なくとも2kbの配列リードを生成することを含む。いくつかの態様では、第1の再配列された核酸分子を配列決定する工程は、少なくとも5kbの配列リードを生成することを含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第1の再配列された分子の少なくとも70%を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第2の再配列された分子の少なくとも70%を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第1の再配列された分子の少なくとも80%を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第2の再配列された分子の少なくとも80%を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第1の再配列された分子の少なくとも90%を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第2の再配列された分子の少なくとも90%を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第1の再配列された分子の少なくとも95%を割り当てる工程を含む。いくつかの態様では、該方法は、単一のゲノム分子の共通のフェーズに、上記第2の再配列された分子の少なくとも95%を割り当てる工程を含む。
【0009】
ロングリード配列データをフェージングする方法が本明細書に開示され、該方法は、a)本明細書に開示された任意の核酸サンプルから配列データを得る工程と、b)本明細書に開示されるような任意の再配列された核酸からロングリード配列データを得る工程と、c)再配列された核酸からのロングリード配列データを、核酸サンプルからの配列データにマッピングする工程と、d)再配列された核酸からのロングリード配列データによってマッピングされた核酸サンプルからの配列データを、共通のフェーズに割り当てる工程とを含む。
【0010】
DNA配列決定技術によって核酸サンプルから生成された核酸データセットにフェーズ情報を提供する方法が本明細書に開示され、該方法は、a)DNA配列決定技術のリード長よりも大きな距離だけ離れた第1のセグメントと第2のセグメントを有する上記核酸サンプルの核酸を得る工程と、b)第1のセグメントと第2のセグメントがDNA配列決定技術のリード長未満の距離離れるように、核酸を組み換える工程と、;c)第1のセグメントと第2のセグメントがDNA配列決定技術の単一のリードに現われるように、DNA配列決定技術を使用して、組み換えられた核酸を配列決定する工程と、d)第1のセグメント配列を含むデータセットの配列リードと、第2のセグメント配列を含むデータセットの配列リードを、共通のフェーズに割り当てる工程とを含む。いくつかの態様では、DNA配列決定技術は、少なくとも10kbのリード長を有するリードを生成する。いくつかの態様では、組み換える工程は、本明細書に開示された任意の方法の工程を行うことを含む。いくつかの態様では、第1のセグメントと第2のセグメントは、セグメント末端を示すリンカーオリゴによって分離される。
【0011】
本明細書に開示されるような複数の分子から得られた配列情報を含む核酸配列データベースが本明細書に開示され、ここで、共通の足場へマッピングされるそのセグメントの70%未満を有する分子に対応する配列情報は、少なくとも1つの分析から除外される。
【0012】
本明細書に開示されるような複数の分子から得られた配列情報を含む核酸配列データベースが本明細書に開示され、ここで、共通の足場へマッピングされるその配列情報の70%未満を有する分子に対応する配列情報は、少なくとも1つの分析から除外される。
【0013】
ロングリード配列データをフェージングする方法が本明細書に開示され、該方法は、a)本明細書に開示された任意の核酸サンプルから配列データを得る工程と、b)本明細書に開示される任意の再配列された核酸の再配列された核酸からロングリード配列データを得る工程と、c)再配列された核酸の第1のセグメント、第2のセグメント、および第3のセグメントを、核酸サンプルからの配列データ~核酸サンプル配列データにマッピングする工程と、d)少なくとも2つのセグメントが共通の足場へマッピングされるとき、共通のフェーズに上記セグメントの配列変異を割り当てる工程を含む。いくつかの態様では、第1のセグメントは、核酸サンプルからの配列データに関連して一塩基多型を含む。いくつかの態様では、第1のセグメントは、核酸サンプルからの配列データに関連して挿入を含む。いくつかの態様では、第1のセグメントは、核酸サンプルからの配列データに関連して欠失を含む。いくつかの態様では、該方法は、第1の共通の足場にマッピングされるセグメントの第1のセットを、第1の共通の足場の共通のフェーズに割り当てる工程と、第2の共通の足場にマッピングされるセグメントの第2のセットを、第2の共通の足場の共通のフェーズに割り当てる工程を含む。
【0014】
核酸サンプルの核酸配列ライブラリーが本明細書に開示され、上記核酸配列ライブラリーは、平均リード長を有する核酸配列リードの集団を含み、上記リードの少なくとも1つは、第1の核酸セグメントの少なくとも500のベースと、第2の核酸セグメントの少なくとも500のベースを含み、上記第1の核酸セグメントと上記第2の核酸セグメントは、上記核酸サンプルの共通の分子上の上記平均リード長よりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記第1の核酸セグメントと上記第2の核酸セグメントは、10kbよりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記第1の核酸セグメントと上記第2の核酸セグメントは、20kbよりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記第1の核酸セグメントと上記第2の核酸セグメントは、50kbよりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記第1の核酸セグメントと上記第2の核酸セグメントは、100kbよりも大きな距離だけ離れたフェーズ内で見られる。いくつかの態様では、上記リードの少なくとも1つは第1の核酸セグメントの少なくとも1kbを含む。いくつかの態様では、上記リードの少なくとも1つは第1の核酸セグメントの少なくとも5kbを含む。いくつかの態様では、上記リードの少なくとも1つは第1の核酸セグメントの少なくとも10kbを含む。いくつかの態様では、上記リードの少なくとも1つは第1の核酸セグメントの少なくとも20kbを含む。いくつかの態様では、上記リードの少なくとも1つは第1の核酸セグメントの少なくとも50kbを含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも80%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも85%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも90%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも95%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも99%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも99.9%を含む。
【0015】
核酸サンプルの核酸配列ライブラリーが本明細書に開示され、上記核酸配列ライブラリーは、少なくとも1kbの平均長さを有する核酸配列リードの集団を含み、上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの配列の少なくとも300のベースを含み、上記2つの別々のフェーズ内領域は、核酸サンプル中で10kbよりも大きな距離離れている。いくつかの態様では、上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの配列の少なくとも500のベースを含む。いくつかの態様では、上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの少なくとも1kbの配列を含む。いくつかの態様では、上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの少なくとも2kbの配列を含む。いくつかの態様では、上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの少なくとも5kbの配列を含む。いくつかの態様では、上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの少なくとも10kbの配列を含む。いくつかの態様では、上記2つの別々のフェーズ内領域は、核酸サンプル中で20kbよりも大きな距離だけ離れている。いくつかの態様では、上記2つの別々のフェーズ内領域は、核酸サンプル中で30kbよりも大きな距離だけ離れている。いくつかの態様では、上記2つの別々のフェーズ内領域は、リードの少なくとも1%において核酸サンプル中で50kbよりも大きな距離だけ離れている。いくつかの態様では、上記2つの別々のフェーズ内領域は、リードの少なくとも1%において核酸サンプル中で100kbよりも大きな距離だけ離れている。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも80%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも85%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも90%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも95%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも99%を含む。いくつかの態様では、核酸配列ライブラリーは、上記核酸サンプルの少なくとも99.9%を含む。
【0016】
核酸サンプルから生成された核酸ライブラリーが本明細書に開示され、ここで、核酸サンプルの核酸配列の少なくとも80%は、核酸ライブラリーで表され、核酸サンプルのフェーズ内配列セグメントは、核酸サンプルのフェーズ内セグメントの離れた位置にある少なくとも1つのペアが単一の配列リードで読まれるように、再配列され、上記ライブラリーの配列決定が、核酸サンプルの少なくとも80%にまたがるコンティグ情報と、上記核酸サンプルのフェージングされた配列を生成するために、上記コンティグ情報を順序付けて配向するのに十分なフェーズ情報を同時に生成する。いくつかの態様では、核酸サンプルの核酸配列の少なくとも90%は、核酸ライブラリーで表される。いくつかの態様では、核酸サンプルの核酸配列の少なくとも95%は、核酸ライブラリーで表される。いくつかの態様では、核酸サンプルの核酸配列の少なくとも99%は、核酸ライブラリーで表される。いくつかの態様では、核酸サンプルの核酸配列の上記80%は、せいぜい100,000のライブラリー構成要素から得られる。いくつかの態様では、核酸サンプルの核酸配列の上記80%は、せいぜい10,000のライブラリー構成要素から得られる。いくつかの態様では、核酸サンプルの核酸配列の上記80%は、せいぜい1,000のライブラリー構成要素から得られる。いくつかの態様では、核酸サンプルの核酸配列の上記80%は、せいぜい500のライブラリー構成要素から得られる。いくつかの態様では、サンプルはゲノムサンプルである。いくつかの態様では、サンプルは真核生物のゲノムサンプルである。いくつかの態様では、サンプルは植物のゲノムサンプルである。いくつかの態様では、サンプルは動物のゲノムサンプルである。いくつかの態様では、サンプルは哺乳動物のゲノムサンプルである。いくつかの態様では、サンプルは真核単細胞生物のゲノムサンプルである。いくつかの態様では、サンプルはヒトゲノムサンプルである。いくつかの態様では、核酸ライブラリーはフェーズ情報を保護するためにバーコード化されない。いくつかの態様では、上記ライブラリーのリードは、第1の領域からの少なくとも1kbの配列と、第1の領域とインフェーズ(in phase)であり、かつ、サンプル中の第1の領域から50kbを超えて離れている第2の領域からの少なくとも100ベースの配列とを含む。
【0017】
配列決定デバイス上で配列決定するための核酸分子を構成する方法が本明細書に開示され、核酸分子は少なくとも100kbの配列を含み、上記少なくとも100kbの配列は、配列決定デバイスのリード長より大きな長さによって離れた第1のセグメントと第2のセグメントを含み、該方法は、第1のセグメントと第2のセグメントが配列決定デバイスのリード長未満だけ離れるように、核酸分子の第2のセグメントに対する第1のセグメントの相対位置を変更する工程を含み、第1のセグメントと第2のセグメントのためのフェーズ情報は維持され、核酸分子のせいぜい10%が除去される。いくつかの態様では、該方法は、第1のセグメントと第2のセグメントの少なくとも一部にまたがるリードを生成する工程を含む。いくつかの態様では、該方法は、核酸分子の配列の共通のフェーズに、第1のセグメントと第2のセグメントを割り当てる工程を含む。いくつかの態様では、核酸分子のせいぜい5%が除去される。いくつかの態様では、核酸分子のせいぜい1%が除去される。いくつかの態様では、第1のセグメントと第2のセグメントは、構成前に核酸分子中で少なくとも10kb離れている。いくつかの態様では、第1のセグメントと第2のセグメントは、構成前に核酸分子中で少なくとも50kb離れている。いくつかの態様では、第1のセグメントと第2のセグメントは、上記構成後に、接合部マーカーによって分離される。いくつかの態様では、該方法は、核酸の末端にステムループを取り付ける工程を含み、それによって、分子を一本鎖に変換する。いくつかの態様では、該方法は、核酸分子を環状化させる工程を含む。いくつかの態様では、該方法は、DNAポリメラーゼに核酸分子を取り付ける工程を含む。いくつかの態様では、該方法は、第1のセグメントと第2のセグメントがホスホジエステル骨格とは無関係に一緒に保持されるように、核酸分子を結合する工程と、少なくとも2つの位置で第1のセグメントと第2のセグメントとの間のホスホジエステル骨格を切断する工程と、第1のセグメントと第2のセグメントが配列決定デバイスのリード長未満だけ離れるように、第1のセグメントを第2のセグメントへ再度取り付ける工程とを含む。いくつかの態様では、上記の切断する工程と上記の再度取り付ける工程は、上記核酸分子からの配列情報の喪失を引き起こさない。
【0018】
第1の核酸分子からの長距離フェーズ情報を生成する方法が本明細書に開示され、該方法は、a)第1のセグメント、第2のセグメント、および第3のセグメントを有する第1の核酸分子を含むサンプルを提供する工程であって、第1のセグメント、第2のセグメント、および第3のセグメントのいずれも第1の核酸分子上では隣接しておらず、第1のセグメント、第2のセグメント、および第3のセグメントが第1の核酸分子の共通のホスホジエステル骨格とは無関係にフレームワークに結合するように、第1の核酸分子はフレームワークに接触する、工程と、b)第1のセグメント、第2のセグメント、および第3のセグメントが共通のホスホジエステル骨格によって結合されないように、第1の核酸分子を切断する工程と、c)第1のセグメントを第2のセグメントに接続し、第2のセグメントを第3のセグメントに接続する工程と、d)第1のセグメント、第2のセグメント、および第3のセグメントを含む第1の核酸分子の第1の部分を配列決定する工程であって、それによって、第1のセグメント配列情報、第2のセグメント配列情報、および第3のセグメント配列情報を生成し、ここで、第1のセグメント配列情報、第2のセグメント配列情報、および第3のセグメント配列情報が、第1の核酸分子に関する長距離フェーズ情報を提供する、工程を含む。いくつかの態様では、フレームワークは再構成されたクロマチンを含む。いくつかの態様では、フレームワークは天然のクロマチンを含む。いくつかの態様では、切断する工程は制限酵素を用いて行われる。いくつかの態様では、切断する工程はフラグメンターゼを用いて行われる。いくつかの態様では、該方法は、配列決定の前に、多くても2つのセグメントを含む第1の核酸分子の第2の部分をサンプルから取り除く工程を含む。いくつかの態様では、該方法は、第1のセグメント配列情報、第2のセグメント配列情報、および第3のセグメント配列情報を使用して、第1の核酸分子の配列を組み立てる工程を含む。
【0019】
核酸分子を配列決定する方法が本明細書に開示され、該方法は、a)共通のホスホジエステル骨格を共有する第1のセグメント、第2のセグメント、および第3のセグメントを含む第1の核酸分子を得る工程であって、上記第1のセグメント、第2のセグメント、および第3のセグメントのいずれも上記第1の核酸分子上では隣接していない、工程と、b)第1のセグメント、第2のセグメント、および第3のセグメントがその共通のホスホジエステル骨格とは無関係に関連付けられるように、上記核酸分子を分割する工程と、c)第1のセグメント、第2のセグメント、および第3のセグメントを結合する連続的なホスホジエステル骨格がないように、フラグメントを生成するために核酸分子を切断する工程と、d)上記第1のセグメント、第2のセグメント、および第3のセグメントが共通のホスホジエステル骨格を共有する再配列された核酸分子上で連続的になるように、上記フラグメントをライゲートする工程と、e)上記再配列された核酸分子の少なくとも5,000のベースが単一リード中で配列決定されるように、上記再配列された核酸分子の少なくとも一部を配列決定する工程を含む。いくつかの態様では、分割する工程は、 上記第1のセグメント、第2のセグメント、および第3のセグメントがその共通のホスホジエステル骨格とは無関係に共通の複合体中で結合するように、上記核酸分子を結合部分へ接触させる工程を含む。いくつかの態様では、複数のDNA結合分子へ第1の核酸分子を接触させる工程は、DNA結合タンパク質の集団に接触させることを含む。いくつかの態様では、DNA結合タンパク質の集団は核タンパクを含む。いくつかの態様では、DNA結合タンパク質の集団はナノ粒子を含む。いくつかの態様では、DNA結合タンパク質の集団はヒストンを含む。いくつかの態様では、複数のDNA結合部分へ核酸分子を接触させる工程は、DNA結合ナノ粒子の集団に接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、制限エンドヌクレアーゼに接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、非特異的なエンドヌクレアーゼに接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、タグメンテーション酵素に接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、トランスポサーゼに接触させることを含む。いくつかの態様では、核酸分子を切断する工程は、第1の分子を剪断することを含む。いくつかの態様では、分割する工程は、サンプルの他の核酸分子から上記核酸分子を分離することを含む。いくつかの態様では、分割する工程は、上記核酸サンプルを希釈することを含む。いくつかの態様では、分割する工程は、上記核酸分子をエマルジョンの微小液滴へ分布させることを含む。
【0020】
生物のゲノムのゲノムフェーズ情報を表す核酸分子が本明細書に開示され、上記核酸分子は単一のゲノム分子にマッピングされる少なくとも20kbの核酸配列情報を含み、上記配列情報はゲノム分子中のその位置に対して再配列されたセグメントを含み、上記生物のゲノムに独自にマッピングされる配列情報の少なくとも70%は、単一のゲノム分子にマッピングされる。いくつかの態様では、核酸分子は、少なくとも20のセグメントを含む。いくつかの態様では、上記セグメントは上記生物のゲノムにおいて隣接しない。
【0021】
少なくとも20kbの少なくとも100の核酸分子成分を含む核酸ライブラリーが本明細書に開示され、成分は、生物のゲノムの再配列されたセグメントを含み、ライブラリー構成要素からの独自にマッピングするセグメントの少なくとも70%は、共通のゲノム分子にマッピングされ、成分は、核酸結合部分に結合されない。
【0022】
少なくとも20kbの少なくとも100の核酸分子成分に対応する配列を含む核酸データセットが本明細書に開示され、成分は、生物のゲノムの少なくとも5つの再配列されたセグメントを含み、上記再配列されたセグメントの70%未満が共通の足場へマッピングされる成分は、下流の分析から除外される。
【0023】
少なくとも20kbの少なくとも100の核酸分子成分に対応する配列を含む核酸データセットが本明細書に開示され、成分は、生物のゲノムの少なくとも5つの再配列されたセグメントを含み、上記配列の70%未満が共通の足場へマッピングされる成分は、下流の分析から除外される。
【図面の簡単な説明】
【0024】
本開示の新規な特徴は、とりわけ、本明細書に記載の添付の請求項と要約と発明を実施するための形態で説明される。本開示の特徴と利点についてのよりよい理解は、本開示の原則が用いられている例示的な実施形態を説明する以下の詳細な記載と添付の図面を参照することによって得られる。
【
図1】他のすべての自由端と適合するハイブリダイゼーションである、一本鎖オーバーハングを備えた多くの自由端を有する消化された再構成されたクロマチン凝集体を描く。
【
図2】1つの塩基が埋められ、個々の一本鎖オーバーハングを再アニーリングと再ライゲーションに適合しないようにした、
図1の消化された再構成されたクロマチン凝集体を描く。
【
図3】再構成された凝集体の修飾された自由端と適合する終点オリゴヌクレオチドでライゲートされた、
図2の部分的に埋められた消化された再構成されたクロマチン凝集体を描く。
【
図4】
図3のライゲーション反応と、その後のDNA結合タンパク質からの放出に起因する中断されたDNA分子を描く。ゲノムのセグメントはそれぞれ、その既知の配列によって識別可能な終点オリゴヌクレオチドによって表現されている。ゲノムのセグメントはすべて、その再構成された出発クロマチン凝集体の中のインプット分子のある領域を表す。したがって、このセット中のリードは調整されたハプロタイプフェージング解析され、アセンブリまたはハプロタイプのフェーズ再構成に使用することができる。
【
図5】Chicagoペアのコンカテマー生成を描く。上部のパネルでは、Chicagoリードペアは、消化された再構成されたクロマチン凝集体のビオチン化された末端(ライゲーション後にビオチン化され切断された場合の
図1の末端など)をまとめてライゲートすることにより生成される。これらの分子はストレプトアビジンでコーティングされたビーズ上で捕えられる。その後、増幅アダプターが加えられる。すべての分子はバルク増幅され、ストレプトアビジンビーズ上清から集められる。最後に、これらの分子はまとめてバルクライゲート(bulk ligated)、ロングリード配列決定技術を使用して読み取り可能な長鎖分子を生成するためにまとめてライゲートされたバルクである。埋め込まれたリードペアは増幅アダプターによって識別可能である。
【
図6】
図4に描かれた分子あるいは
図5で生成された長鎖分子などの中断された分子にバーコード化する様子を描く。最初に、バーコードと、終点オリゴヌクレオチドとは逆の補体とからなるバーコード化されるオリゴヌクレオチドの送達が行われる。その後、これらのバーコード化されたオリゴヌクレオチドは、その生成物がバーコード、終点配列、およびいくつかのゲノム配列を含むように、拡張される。
【
図7】ライゲーション工程の前(「BF」)、およびライゲーション工程の後(「AF」)の2つのサンプルのゲル電気泳動分析を描いており、長い再配列された分子を形成するための成功に終わったライゲーションを実証している。
【
図8】再配列されたゲノムライブラリーから得られたデータを提示する。
【
図9A】10kbのビンへ分離されたリードの及ぶ距離の度数分布を描く。
【
図9B】1kbのビンへ分離されたリードの及ぶ距離の度数分布を描く。
【
図10】本開示の実施のためのコンピュータシステムを描く。
【発明を実施するための形態】
【0025】
ロングリードあるいはショートリードの配列決定技術を使用して、ゲノムアセンブリとハプロタイプフェージングを含む用途のための、フェージング解析されたリードセットを含むリードセットを生成する方法が本明細書に開示される。核酸分子は結合可能であり(例えば、クロマチン構造内で)、内部末端を露出するために切断可能であり、接合部で他の露出した末端へ再度取付可能であり、結合から解放可能であり、および配列決定可能である。この技術は、複数の配列セグメントを含む核酸分子を生成することができる。核酸分子内の複数の配列セグメントは保存されたフェーズ情報を有することができ、その一方で、天然のまたは出発位置および配向に対して再配列可能である。接合部の一方の側にある配列セグメントは、サンプル核酸分子の同じフェーズから来るものと確信することができる。
【0026】
高分子量DNAを含む核酸分子は、少なくとも1つの核酸結合部分上で結合または固定化可能である。例えば、インビトロのクロマチン凝集体へ組み立てられ、および、ホルムアルデヒド処理で固定されたDNAは、本明細書に記載される方法と一致している。核酸結合あるいは固定化のアプローチとしては、限定されないが、インビトロか再構成されたクロマチンアセンブリ、天然のクロマチン、DNA結合タンパク質凝集体、ナノ粒子、DNA結合ビーズ、またはDNA結合物質を使用してコーティングされたビーズ、ポリマー、合成DNA結合分子、あるいは他の固体または実質的に固体の親和性分子が挙げられる。場合によっては、ビーズは、固体相の可逆的な固定(SPRI)ビーズ(例えば、Beckman-Coulter Agencourt AMPure XPビーズなどの負に帯電したカルボキシル基を有するビーズ)である。
【0027】
配列決定デバイス上でリード距離よりも大きな距離だけ核酸分子上で離れている(例えば、10kb、50kb、100kb、またはそれ以上)第1のセグメントと第2のセグメントを有する核酸分子が、それらの共通のホスホジエステル結合とは無関係に一緒に結合されるように、本明細書に記載されたものなどの核酸結合部分に結合された核酸は保持可能である。こうした結合された核酸分子の切断に際して、第1のセグメントと第2のセグメントの露出された末端を互いにライゲートしてもよい。場合によっては、固体表面上の結合された核酸分子間にオーバーラップがほとんどないか、あるいはまったくないような濃度で核酸分子は結合され、そうすることで、切断された分子の露出した内部末端が再度ライゲートされるか、切断の前に共通の核酸ソース上でインフェーズであった他のセグメントからの露出した末端にのみ再度取り付けられるようになる。結果的に、DNA分子は切断可能であり、切断されて露出された内部末端は、フェーズ情報を喪失することなく、例えばランダムに再度ライゲート可能である。
【0028】
結合された核酸分子は、酵素および非酵素的なアプローチの任意の数のうちの1つによって内部末端を露出するために切断可能である。例えば、核酸分子は、一本鎖のオーバーハングを残す制限エンドヌクレアーゼなどの制限酵素を使用して消化することができる。他の制限エンドヌクレアーゼも企図されるが、例えば、MboI消化はこの目的に適している。制限エンドヌクレアーゼのリストは、例えば、ほとんどの分子生物学生成物のカタログで入手可能である。核酸切断用の他の非限定的な技術は、トランスポサーゼ、タグメンテーション酵素複合体、トポイソメラーゼ、非特異的なエンドヌクレアーゼ、DNA修復酵素、RNAガイドヌクレアーゼ、フラグメンターゼ、あるいは代替的な酵素を使用することを含む。トランスポサーゼは、例えば、結合していない左右の境界と組み合わせて使用されることで、トランスポサーゼにより送達されたオリゴヌクレオチド配列を取り付けることによって特徴づけられる核酸の配列の依存しない切断部を作ることができる。機械的な手段(例えば、超音波処理、剪断)、加熱手段(例えば、温度変化)、あるいは電磁気手段(例えば、紫外線照射などの照射)を含む物理的手段も使用して切断を生成することができる。
【0029】
この段階の核酸の固定は、当初の分子のフェーズ情報が保存されるように、切断された核酸分子フラグメントを物理的非常に近接した状態に保つことができる。1つの核酸結合部分から結果として生じる典型的なクロマチン凝集体が
図1に概略的に示される。例えば、クロマチン凝集体への固定化の利点は、共通の核酸分子の別々の領域を、ホスホジエステル骨格とは無関係に一緒に維持することができ、そうすることで、フェーズ情報がホスホジエステル骨格の切断時に失われないということである。この利点も、切断の前に核酸分子が取り付けられる代替的な足場を介して伝えられる。
【0030】
随意に、一本鎖の「粘着」末端のオーバーハングを修飾することで、再アニーリングと再ライゲーションを防ぐ。例えば、粘着末端は、1つのヌクレオチドとポリメラーゼを加えるなどすることで、部分的に埋められる(
図2)。このように、一本鎖末端全体を埋めることはできないが、末端を修飾することで、以前は相補的な末端による再ライゲーションが防がれる。5’GATC 5プライムオーバーハングを残すMboI消化の例では、グアノシンヌクレオチド三リン酸塩だけが加えられる。これは第1の相補的塩基(「C」)の「G」のみの埋め込みをもたらし、5’GATオーバーハングをもたらす。この工程により、遊離した粘着末端は互いに再ライゲーションに適合しなくなるが、下流での適用のために粘着末端が保存される。代替的に、平滑末端は、オーバーハングでの完全な埋め込み、平滑末端生成酵素による制限消化、一本鎖DNAエキソヌクレアーゼを用いる処理、あるいは非特異的な切断によって生成される。場合によっては、トランスポサーゼを用いて、DNA分子の露出した内部末端へ、平滑末端または粘着末端を有するアダプター末端を取り付ける。
【0031】
随意に、「終点オリゴヌクレオチド」が導入される(
図3)。この終点オリゴヌクレオチドは切断/再ライゲーション部位をマークする。いくつかの終点オリゴヌクレオチドは両末端上に一本鎖オーバーハングを有し、これは、露出した核酸サンプルの内部末端上で生成された部分的に埋められたオーバーハングと適合する。終点オリゴヌクレオチドの一例が以下に示される。場合によっては、一本鎖オーバーハングを有する二本鎖オリゴヌクレオチドは、その5’末端での5’リン酸塩の除去などによって修飾され、その結果、ライゲーション中にコンカテマーを形成することができない。代替的に、平滑終点オリゴヌクレオチドが使用されるか、あるいは、切断部位は明確な終点オリゴヌクレオチドを使用してマークされない。トランスポサーゼが使用されるときなどのいくつかのシステムでは、終点は、トランスポソーム(transpososome)境界配列の追加と、その後の、境界配列の互いに対する、あるいは終点オリゴへのライゲーションによって、達成される。典型的な終点オリゴが以下に提示される。しかしながら、代替的な終点オリゴは、本明細書に記載される開示と一致しており、配列、長さ、オーバーハングの存在または不在、あるいは5’脱リン酸化などの修飾で異なる。
【0032】
【化1】
場合によっては、終点オリゴヌクレオチドの二本鎖の領域は変動する。終点オリゴヌクレオチドの関連する特徴はそのオーバーハングの配列であり、核酸サンプルに対するライゲーションを可能にするが、自動ライゲーションあるいはコンカテマー形成を除いて随意に修飾される。終点オリゴヌクレオチドは、下流の配列反応で容易に識別されるように、標的核酸分子で生じないか、あるいは、生じる可能性が低い配列を含むことがしばしば好ましい。終点オリゴは、例えば、既知のバーコード配列、あるいはランダムに生成された独自の識別子配列を用いて、随意にバーコード化される。独自の識別子配列は、核酸分子中の、あるいはサンプル中の複数の接合部が同じ独自の識別子でバーコード化されることのないように設計することが可能である。
【0033】
切断された末端は、直接、あるいは、オリゴ(例えば終点オリゴ)を介して、例えば、リガーゼまたは同様の酵素を使用して、互いに取り付けることができる。固定化された高分子量核酸分子の遊離した一本鎖末端が直接、あるいは終点オリゴヌクレオチド(
図3)にライゲートされるように、ライゲーションは進行可能である。利用時、終点オリゴヌクレオチドは、2つのライゲート可能な末端を有し得ることから、このライゲーションは高分子量核酸分子の領域を一緒に効果的に鎖でつなぐことができる。終点のない2つの露出した末端を直接接続するためのアプローチのように、2つの露出した末端間の中断配列または分子の付着をもたらす代替的なアプローチも使用することができる。
【0034】
その後、核酸を核酸結合部分から遊離することができる。インビトロのクロマチン凝集体の場合、これは、架橋を逆にするか、あるいはタンパク成分を消化するか、あるいは、架橋を逆にして、かつ、タンパク成分を消化する両方によって、達成することが可能である。多くの代替物も企図されるが、適切な手法はプロテイナーゼKを用いる複合体の処理である。他の結合技術については、リンカー分子の切断あるいは基質の分解などの適切な方法を使用することができる。
【0035】
こうした技術に起因する核酸分子は様々な関連する特徴を有し得る。核酸分子内の配列セグメントは、その天然または出発の位置および配向に対して再配列可能であるが、フェーズ情報は保存される。結果的に、接合部の一方の側の配列セグメントは共通のサンプル分子の共通のフェーズに確信的に割り当てることができる。したがって、各セグメントの一部または全体が単一の分子配列決定デバイスを一回実行するだけで配列決定され、決定的なフェーズの割り当てが可能となるように、分子上で互いから遠く離れたセグメントを、上記のような技術を駆使して、一緒に集めることができるか、あるいは、近くに集めることができる。代替的に、場合によっては、もともと隣接していたセグメントは、結果として生じた核酸の1つから分離するようになり得る。場合によっては、再ライゲーションの少なくとも約50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%、あるいは100%が切断前に共通する核酸ソース上でインフェーズであったセグメント間にあるように、核酸分子を再度ライゲートすることができる。
【0036】
結果として生じた分子の他の関連する特徴は、場合によっては、もともとの分子の配列は、最後の中断されたあるいは再配列された分子において、恐らくは再配列されるが保存されるということである。例えば、場合によっては、結果として生じた分子を生成する際に、もとの分子のわずか1%、2%、3%、4%、5%、10%、15%、あるいは20%しか失われない。結果的に、相決定因子として有用なことに加えて、結果として生じた分子がもとの分子配列の実質的な割合を保持することから、結果として生じた分子を随意に用いて、デノボ配列決定で有用な、あるいは、以前に生成されたコンティグ情報の独立した立証として、コンティグ情報などの配列情報を同時に生成する。
【0037】
いくつかの結果として生じた分子のライブラリーの別の特徴は、切断接合部が結果として生じた分子の集団の複数のメンバーに共通ではないということである。すなわち、同じ開始核酸分子のその異なるコピーは、様々なパターンの接合と再配列で終わることになる。ランダムな切断接合部は、非特異的な切断分子によって、あるいは制限エンドヌクレアーゼの選択または消化パラメータの変動を介して生成可能である。
【0038】
分子に特異的な切断部位を有する結果は、場合によっては、終点オリゴヌクレオチドが、悪影響がない程度までの「終点分子」の再組み換えと再ライゲーションをもたらすプロセスから随意に除外されるということである。3つ以上の再組み換えられた分子のセグメントを整列させることによって、当業者は、切断部位がライブラリーの大部分の他のメンバー中に存在していないため容易に識別されることがわかる。すなわち、3つ以上の再組み換えられた分子が局所的に整列されると、セグメントは分子のすべてに共通することがわかるが、セグメントの縁は分子の間で変動することがある。セグメントの局所的な配列の類似性が終わる場所を明記することによって、当業者は「中断されていない」再配列された核酸分子中で切断接合部をマッピングすることができる。
【0039】
結果として生じる核酸分子(例えば、
図4を参照)は、例えば、ロングリードシーケンサー上で配列決定可能である。結果として生じる配列リードは、もともとのインプット分子から、使用されている場合には終点オリゴの配列から、核酸配列の間で交互に起こるセグメントを含んでいる。これらのリードは、終点オリゴヌクレオチド配列を使用して、各リードから配列データを分割するためにコンピューターによって処理可能であるか、あるいは接合部を同定するために他の方法で処理される。各リード内の配列セグメントは単一のインプット高分子量DNA分子からのセグメントであり得る。もともとの核酸分子は、染色体などのゲノム配列またはその分画を含むことができる。セグメントリードのセットは、もとの核酸分子では不連続であり得るが、長距離のハプロタイプフェージングされたデータを明らかにすることがある。これらのデータはデノボゲノムアセンブリと、入力ゲノム中のヘテロ接合位置のフェージングに使用することができる。接合部間の配列は源の核酸サンプル中の近接する核酸配列を示し、その一方で、接合部にわたる配列は、核酸サンプル中でインフェーズであるが配置された足場では隣接するセグメントから遠く離れることもある核酸セグメントを示す。
【0040】
接合部は様々なアプローチによって特定することができる。終点オリゴが使用される場合、接合部は終点オリゴ配列を含むリードで特定可能である。代替的に、接合部は、以前に生成されたコンティグ配列データセットなどの核酸分子のための第2の配列源(および、好ましくは第3の配列源)、あるいは、独立して導き出された接合部を有する第2の独立して生成されたDNA鎖状分子との比較によって特定可能である。配列が整列されると、例えば、特定の位置への配列の品質または信頼は、1つのセグメントがどこで終わり、別のセグメントがどこで始まるかを示すことができる。制限酵素が切断を生成するために使用される場合、制限酵素認識部位を含む配列は、潜在的に接合部を含むかどうかについて評価可能である。例えば、核酸が支持部に結合していた間、いくつかの制限酵素認識部位が酵素によっては物理的にアクセス可能ではなかったことがあるように、すべての制限酵素認識部位が接合部を含むとは限らないこともあることに留意する。統計的な情報も接合部を特定する際に使用することができ、例えば、接合部間の長さセグメントは、特定の平均値であるか、あるいは特定の分布に従うと予測されることもある。
【0041】
本明細書に記載の操作の利点は、隣接していない分子の領域を近接させながら分子のフェーズ情報を保護することができるため、ロングリードなどの単一リード中で配列決定するのに適切な距離で単一の核酸分子に含まれるようになる。したがって、単一のロングリード操作の距離(例えば、10kb、15kb、20kb、30kb、50kb、100kb、あるいはそれ以上)よりも大きな距離だけ出発サンプル中で分離される領域は局所的に近接され、該領域は長距離の配列決定反応の単一のリードによってカバーされる距離の範囲内にある。したがって、もともとのサンプル中の単一のリードに関する配列決定技術の範囲を越えて分離される領域は、フェーズで保存された再配列された分子中の単一反応で読み取られる。
【0042】
結果として生じた再配列された分子は配列決定可能であり、その配列情報は、独立してあるいは同時に生成された配列リードまたはコンティグ情報に、あるいは、既知の基準ゲノム配列(例えば、ヒトゲノムの既知の配列)にマッピング可能である。結果として生じた再配列された分子リード上で隣接するセグメントはインフェーズであると推定される。これに応じて、こうしたセグメントが異種のコンティグにまたは長距離の配列リードにマッピングされる場合、リードは、配列アセンブリ中の共通の分子の共通のフェーズに割り当てられる。
【0043】
代替的に、複数の独立して生成された結果として生じた再配列された分子が同時に配列決定される場合、フェージングされたサンプルデータはこれらの分子から随意に生成され、そうすることで、接合部によって分離されたセグメント配列はインフェーズであると推論され、その一方で、接合部によって分離されていない配列は、サンプルそれ自体において近接している核酸の伸張を表し、かつ、フェーズの決定に役立つのと同様に、例えば、デノボ配列の決定に役立つ。しかしながら、追加的に、あるいは代替物として、同時に配列決定された複数の独立して生成された結果として生じた再配列された分子は、依然として、独立して生成された足場あるいはコンティグ情報と比較可能である。
【0044】
本明細書に提示される方法と組成物は、とりわけ、配列決定技術におけるリード長さ(例えば、10kb、20kb、50kb、100kb、500kb以上、)よりも大きな距離だけ分離した分子セグメントについて、長距離のフェーズ情報を保存することができ、一方で、セグメントが単一リードによってカバーされるのに十分なほど隣接または近接している場合に、再配列されたあるいはしばしば「中断された」分子で隣接していないセグメントを提供する。
【0045】
いくつかの例では、結果として生じた再配列された分子は配列決定のために天然の分子と組み合わされる。使用される場合、天然の分子は、終点配列の欠如により情報学的に認識および利用可能である。天然の分子はショートまたはロングリード技術を使用して配列決定され、そのアセンブリは、再配列された分子またはライブラリーの配列決定によって生成されたフェーズ情報とセグメント配列情報によってガイドされる。
【0046】
核酸抽出
本明細書中の開示と共に使用するのに適している核酸の抽出および精製の方法は、当該技術分野で周知である。例えば、核酸は、フェノール、フェノール/クロロホルム/イソアミルアルコール、あるいはTRIzolおよびTriReagentを含む同様の製剤での有機抽出により精製される。抽出技術の他の限定されない例は、以下を含む:(1)自動核酸抽出器、例えばApplied Biosystems(Foster City, Calif.)から入手可能なModel 341 DNA Extractorの使用を伴うまたは伴わない、例えばフェノール/クロロホルムの有機試薬(Ausubel et al., 1993)を使用する、エタノール沈殿が後続する有機抽出;(2)固定相吸着法(米国特許第5,234,809号;Walsh et al., 1991);および(3)典型的に「塩析」方法と称される沈澱法などの、塩で誘導された核酸沈澱法(Miller et al., (1988))。核酸の単離および/または精製の別の例は磁性粒子の使用を含み、核酸は特異的または非特異的に磁性粒子に結合し、その後磁石を使用してビーズを単離し、洗浄し、そしてビーズから核酸を溶出することができる(例えば米国特許第5,705,628号を参照)。幾つかの実施形態において、上記の単離方法は、サンプルから不要なタンパク質を取り除くのに役立つ酵素消化工程、例えばプロテイナーゼKまたは他のプロテアーゼによる消化より始められてもよい。例えば米国特許第7,001,724号を参照。望ましい場合、RNase阻害剤を、溶解緩衝液に添加することができる。特定の細胞またはサンプル型について、前記プロトコルにタンパク質変性/消化の工程を加えることが望ましい場合もある。精製方法は、DNA、RNA、またはその両方を単離することを目的とし得る。抽出手順の間またはその後にDNAとRNAの両方が一緒に単離されると、更なる工程を利用して、一方または両方を他とは別々に精製することができる。抽出した核酸の細分画を生成することもでき、例えば、サイズ、配列、または他の物理的若しくは化学的特性による精製が行われる。最初の核酸単離工程に加えて、過剰または不要な試薬、反応物、または産物を除去するなどのために、本開示の方法における工程の後に核酸の精製を実施することができる。
【0047】
核酸の鋳型分子は、例えば2003年10月9日に公開された米国特許出願公開第2002/0190663号A1に記載の通り得ることができる。通常、核酸は、Maniatis, et al., Molecular Cloning: A Laboratory Manual, Cold Spring Harbor, N.Y., pp. 280-281 (1982, その全体において引用により本明細書に組み込まれる)に記載されるものなどの様々な技術によって生体サンプルから抽出される。場合によっては、核酸は、最初に生体サンプルから抽出され、次いでインビトロで架橋され得る。場合によっては、天然の会合タンパク質(例えばヒストン)を、核酸から更に除去することができる。幾つかの実施形態において、本開示は、例えば、組織、細胞培養物、体液、動物組織、植物、細菌、真菌、またはウイルスから単離されるDNAを含めた、高分子量二本鎖DNAへと容易に適用される。
【0048】
幾つかの実施形態において、核酸の鋳型分子(例えばDNAまたはRNA)は、タンパク質、脂質、および非鋳型核酸などの、様々な他の成分を含有する生体サンプルから単離することができる。核酸の鋳型分子は、動物、植物、細菌、真菌、または他の細胞生物、あるいはウイルスから得られる任意の細胞材料から得られ、あるいは、人工的に合成される場合もある。本開示での使用のための生体サンプルは、ウイルスの粒子または調製物を含む。核酸の鋳型分子は、生物から直接、あるいは、生物から得た生体サンプル、例えば血液、尿、脳脊髄液、精液、唾液、痰、便、および組織から得ることができる。任意の組織または体液の標本が、本開示の核酸のためのソースであってもよい。核酸の鋳型分子はまた、初代細胞培養物または細胞株などの培養細胞から単離され得る。鋳型核酸が得られる細胞または組織は、ウイルスまたは他の細胞内病原体に感染され得る。サンプルはまた、生体標本、cDNAライブラリ、ウイルスDNA、またはゲノムDNAから抽出された総体的なRNAであり得る。サンプルはまた、細胞構造がない起源から単離されたDNA、例えば冷凍装置から増幅/単離されたDNAを含んでもよい。
【0049】
高分子量DNAを含む核酸分子は、核酸結合部分上で結合されまたは固定され得る。例えば、インビトロのクロマチン凝集体へとアセンブリされ且つホルムアルデヒド処置で固定されたDNAは、本明細書の方法に一貫している。核酸を結合または固定する方法は、限定されないが、インビトロのまたは再構成クロマチンのアセンブリ、天然のクロマチン、DNA結合タンパク質凝集体、ナノ粒子、DNA結合物質を使用して被覆されたDNA結合ビーズ、ポリマー、合成DNA結合分子、または他の固体あるいはほぼ固体の親和性分子を含む。場合によっては、ビーズは、固相可逆的固定化(SPRI)ビーズである(例えば、Beckman-Coulter Agencourt AMPure XPビーズなどの負に帯電したカルボキシル基を含むビーズ)。
【0050】
本明細書に記載されるものなどの核酸結合部分に結合されるものといった核酸は、配列決定デバイス上でのリード距離よりも長い距離(例えば、10kb、50kb、100kb以上)だけ核酸分子上で分離された第1のセグメントおよび第2のセグメントを持つ核酸分子が、それらの共通のホスホジエステル結合とは独立して共に結合されるように保持され得る。そのような結合された核酸分子の切断に際し、第1のセグメントおよび第2のセグメントの露出した末端は、互いに対しライゲートし得る。場合によっては、核酸分子は、固体表面上で結合された核酸分子間に重なりがほとんどあるいは全くないような濃度で結合され、それにより、切断された分子の晒された内部端は恐らく再びライゲートして、切断の前に共通の核酸源上でインフェーズであった他のセグメントから露出した末端にのみ再び結合するようになる。結果的に、DNA分子は切断され、切断され晒された内部端は、フェーズ情報の損失無しに、例えば無作為に再びライゲートされ得る。場合によっては、核酸分子は、再ライゲーションのうち少なくとも約50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%、または100%が、切断の前に共通の核酸源上でインフェーズであるように、再びライゲートされ得る。
【0051】
場合によっては、表面上の結合された核酸の表面密度は、結合のために利用可能にされた表面積の量を通じて制御される。例えば、核酸を結合するために使用されるビーズの大きさの選択は、核酸間の距離、または結合された核酸の平均表面密度に影響を及ぼし、あるいはこれを制御する場合がある。より大きなビーズ表面は、結合された核酸間のより大きな距離を結果としてもたらす場合がある。この結果、核酸または核酸複合体の間の分子間でのライゲーション事象の速度の減少がもたらされ得る。使用されるビーズは、直径が約100ナノメートル(nm)、約200nm、300nm、400nm、500nm、600nm、700nm、800nm、900nm、1マイクロメートル(μm)、1.1μm、1.2μm、1.3μm、1.4μm、1.5μm、1.6μm、1.7μm、1.8μm、1.9μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、11μm、12μm、13μm、14μm、15μm、16μm、17μm、18μm、19μm、20μm、21μm、22μm、23μm、24μm、25μm、26μm、27μm、28μm、29μm、30μm、31μm、32μm、33μm、34μm、35μm、36μm、37μm、38μm、39μm、40μm、41μm、42μm、43μm、44μm、45μm、46μm、47μm、48μm、49μm、50μm、55μm、60μm、65μm、70μm、75μm、80μm、85μm、90μm、95μm、100μm、200μm、300μm、400μm、500μm、600μm、700μm、800μm、900μm、または1ミリメートル(mm)であり得る。使用されるビーズは、直径が少なくとも約100ナノメートル(nm)、約200nm、300nm、400nm、500nm、600nm、700nm、800nm、900nm、1マイクロメートル(μmm)、1.1μm、1.2μm、1.3μm、1.4μm、1.5μm、1.6μm、1.7μm、1.8μm、1.9μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、11μm、12μm、13μm、14μm、15μm、16μm、17μm、18μm、19μm、20μm、21μm、22μm、23μm、24μm、25μm、26μm、27μm、28μm、29μm、30μm、31μm、32μm、33μm、34μm、35μm、36μm、37μm、38μm、39μm、40μm、41μm、42μm、43μm、44μm、45μm、46μm、47μm、48μm、49μm、50μm、55μm、60μm、65μm、70μm、75μm、80μm、85μm、90μm、95μm、100μm、200μm、300μm、400μm、500μm、600μm、700μm、800μm、900μm、または1ミリメートル(mm)であり得る。使用されるビーズは、直径が多くとも約100ナノメートル(nm)、約200nm、300nm、400nm、500nm、600nm、700nm、800nm、900nm、1マイクロメートル(μmmm)、1.1μm、1.2μm、1.3μm、1.4μm、1.5μm、1.6μm、1.7μm、1.8μm、1.9μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、11μm、12μm、13μm、14μm、15μm、16μm、17μm、18μm、19μm、20μm、21μm、22μm、23μm、24μm、25μm、26μm、27μm、28μm、29μm、30μm、31μm、32μm、33μm、34μm、35μm、36μm、37μm、38μm、39μm、40μm、41μm、42μm、43μm、44μm、45μm、46μm、47μm、48μm、49μm、50μm、55μm、60μm、65μm、70μm、75μm、80μm、85μm、90μm、95μm、100μm、200μm、300μm、400μm、500μm、600μm、700μm、800μm、900μm、または1ミリメートル(mm)であり得る。
【0052】
核酸結合部分の複合体形成
核酸は、核酸分子の切断後にフェーズ情報を維持するために核酸結合部分に結合され得る。多くの核酸結合部分は、本明細書中の開示と一致する足場を形成する。本明細書中の開示に適切なものの一部は、フェーズ情報が核酸分子の切断および再ライゲーション後に失われないように複数の点で核酸に結合する。
【0053】
場合によっては、核酸結合部分は、クロマチンを形成するヒストンなどのタンパク質の分類であるか、またはそれを含む。クロマチンは、再構成クロマチンまたは天然のクロマチンであり得る。場合によっては、核酸結合分子は、マイクロアレイ、スライド、チップ、マイクロウェル、カラム、チューブ、粒子、またはビーズなどの固形支持体上に分配される。幾つかの例において、固形支持体は、ストレプトアビジンおよび/またはアビジンで覆われる。他の例において、固形支持体は抗体で覆われ得る。更に、固体支持体は、ガラス、金属、セラミック、または高分子材料を付加的または代替的に含み得る。幾つかの実施形態において、固形支持体は核酸マイクロアレイ(例えばDNAマイクロアレイ)である。他の実施形態において、固形支持体は常磁性ビーズであり得る。
【0054】
場合によっては、DNAサンプルは複数の会合分子(association molecule)に架橋される。様々な場合、会合分子はアミノ酸を含む。多くの場合、会合分子はペプチドまたはタンパク質を含む。更なる場合、会合分子はヒストンを含む。他の場合、会合分子はナノ粒子を含む。場合によっては、ナノ粒子は白金ベースのナノ粒子である。他の場合、ナノ粒子はDNA介入物、またはその任意の誘導体である。更なる場合、ナノ粒子はビス介入物(bisintercalator)、またはその任意の誘導体である。特定の場合、会合分子は、第1のDNA分子とは異なるソースに由来する。架橋は、本明細書に開示されるようなプロトコルの一部として実行され、あるいは以前に実行されている。例えば、以前に固定されたサンプル(例えば、ホルマリン固定/パラフィン包埋(FFPE))は、本開示の技術で処理され且つ分析され得る。
【0055】
構造を形成する核酸結合部分の一例は、再構成クロマチンである。再構成クロマチンは、様々な特徴にわたり細胞/生物内に形成されたクロマチンから分化されている。最初に、再構成クロマチンは、場合によっては分離された裸のDNAから生成される。多くのサンプルについて、裸のDNAサンプルの収集は、体液を集めること、頬または直腸の領域を拭き取ること、上皮サンプルを得ることなど、様々な非侵襲的なものから侵襲的な方法の何れか1つを使用することによって、達成される。これら方法は一般的に、天然のクロマチンの単離よりも容易であり、迅速であり、且つ高価ではない。
【0056】
第2に、クロマチンの再構成は、ゲノムアセンブリおよびハプロタイプフェージングのための人工物を生成する、染色体間のおよび他の長い範囲の相互作用の形成を実質的に少なくする。場合によっては、サンプルには、本開示の方法および組成物に従い、約30、29、28、27、26、25、24、23、22、21、20、19、18、17、16、15、14、13、12、11、10、9、8、7、6、5、4、3、2、1、0.5、0.4、0.3、0.2、0.1、0.01、0.001%、またはそれより下未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約30%未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約25%未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約20%未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約15%未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約10%未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約5%未満の染色体間または分子間の架橋がある。幾つかの例において、サンプルには、約3%未満の染色体間または分子間の架橋がある場合がある。更なる例において、サンプルには、約1%未満の染色体間または分子間の架橋がある場合がある。染色体間の相互作用は、インフェーズではない分子部分間の相互作用を表わすので、それらの減少または除去は、本開示の幾つかの目標、即ち、フェージングされた核酸情報の効果的で迅速なアセンブリに有益である。
【0057】
第3に、架橋が可能な部位の頻度、従ってポリヌクレオチド内の分子内架橋の頻度は、調整可能である。例えば、DNA対ヒストンの比率は変わる場合があり、それにより、ヌクレオソーム密度を望ましい値に調整することができる。場合によっては、ヌクレオソーム密度は、生理的レベルより下に減らされる。従って、架橋の分布は、より長い範囲の相互作用を支持するように変更することができる。幾つかの実施形態において、架橋密度が変動するサブサンプルが、短いおよび長い範囲両方の会合を覆うように調製され得る。
【0058】
例えば、架橋条件は、架橋の少なくとも約1%、約2%、約3%、約4%、約5%、約6%、約7%、約8%、約9%、約10%、約11%、約12%、約13%、約14%、約15%、約16%、約17%、約18%、約19%、約20%、約25%、約30%、約40%、約45%、約50%、約60%、約70%、約80%、約90%、約95%、または約100%が、サンプルDNA分子上で少なくとも約50kb、約60kb、約70kb、約80kb、約90kb、約100kb、約110kb、約120kb、約130kb、約140kb、約150kb、約160kb、約180kb、約200kb、約250kb、約300kb、約350kb、約400kb、約450kb、または約500kb離れているDNAセグメントに結合するように、調整され得る。
【0059】
再構成クロマチンなどの核酸結合部分の足場の重要な利益は、それらのホスホジエステル結合から独立してその構成要素の核酸の物理的結合情報を維持するということである。従って、安定性を維持するように随意に架橋された、再構成クロマチンによって共に保持される核酸は、内部標識化において生じ得るため、ホスホジエステル結合が壊れた場合であっても、それらの近接性を維持する。再構成クロマチンが原因で、断片は、たとえ切断されたとしても付近に残り、それにより内部標識化プロセス中にフェーズまたは物理的結合の情報を維持する。故に、露出した末端は、再びライゲートされると、共通の分子の共通のフェーズに由来するセグメントへとライゲートする。
【0060】
再構成クロマチンのアセンブリ
核酸分子の切断および再配列中のフェーズ情報の維持のための核酸結合部分上への核酸の組み込みは、場合によっては核酸サンプル上への再構成クロマチンの組み込みを介して遂行される。本明細書で使用されるような再構成クロマチンは、核酸上への天然のクロマチン構成要素のアセンブリから、非生物粒子への核酸の結合まで、広く使用される。
【0061】
従来の感覚で再構成クロマチンに言及すると、コアヒストンおよびDNAのヌクレオソームへの組み込みは、シャペロンタンパク質および関連するアセンブリ因子により媒介される。これら因子のほぼ全ては、コアヒストン結合タンパク質である。ヌクレオソームアセンブリタンパク質-1(NAP-1)などのヒストンシャペロンの一部は、ヒストンH3およびH4に結合する嗜好性を示す。新しく合成されたヒストンがアセチル化され、次にクロマチンへのアセンブリ後に引き続き脱アセチル化されることも観察された。それ故、ヒストンのアセチル化または脱アセチルを媒介する因子は、クロマチンアセンブリプロセスにおいて重要な役割を果たす。
【0062】
一般に、2つのインビトロの方法がクロマチンを再構成またはアセンブルするために開発されているが、これら方法に対する変形が考慮される。方法の1つのセットはATPから独立したアセンブリを含むが、別のセットはATPに依存している。
【0063】
クロマチンを再構成するためのATPから独立した方法は、ヒストンシャペロンとして作用するようにタンパク質様NAP-1または塩を加えたDNAまたはコアヒストンを含んでいる。この方法の結果、細胞中の天然のコアヌクレオソーム粒子を正確に模倣しないDNA上にヒストンの無作為な配置がもたらされる。これらの粒子は、規則的に順序づけられ、拡張されたヌクレオソームアレイではなく、使用されるDNA配列が通常は250bpよりも長くないので、頻繁にモノヌクレオソームと呼ばれる(Kundu, T. K. et al., Mol. Cell 6: 551-561, 2000)。より大きな長さのDNA配列上の順序づけられたヌクレオソームの拡張アレイを生成するために、ATP依存性のプロセスを通じてクロマチンをアセンブリしなければならない。
【0064】
過ヨウ素酸ヌクレオソームアレイのATP依存性のアセンブリは、天然のクロマチンに見られるものと同様であり、DNA配列、コアヒストン粒子、シャペロンタンパク質、およびATPを利用するクロマチンアセンブリ因子を必要とする。ACF(ATPを利用するクロマチンのアセンブリ因子およびリモデリング因子)またはRSF(リモデリングとスペーシングの因子)は、インビトロでクロマチンへのヌクレオソームの拡張され順序づけられたアレイを生成するために使用される、2つの広く研究されたアセンブリ因子である。
【0065】
代替的なアセンブリ方法、例えば再構成クロマチンを構成するためにヒストンに依存しない方法も、考慮される。広く定義された幾つかのタイプの再構成クロマチンを形成するために、DNA結合部分を核酸に加えることができる。
【0066】
幾つかの実施形態において、非天然のクロマチンアナログが考慮される。核酸結合を容易にするために正に覆われた外面、または核酸への架橋のために活性化可能な表面、あるいは核酸結合を容易にするために正に覆われた外面と核酸への架橋のために活性化可能な表面の両方をもつナノ粒子などのナノ粒子が、本明細書で考慮される。幾つかの実施形態において、ナノ粒子はシリコンを含む。
【0067】
場合によっては、本明細書に開示される方法は、ナノ粒子に関連付けられたDNAと共に使用される。幾つかの例において、ナノ粒子は正に帯電される。例えば、ナノ粒子は、アミン基、および/またはアミン含有分子で覆われる。DNAとナノ粒子は、天然のまたは再構成のクロマチンと同様に凝集且つ凝縮する。更に、ナノ粒子に結合されたDNAは、生物学的ヌクレオソーム(即ちクロマチン)の順序付けたアレイを模倣する様式で凝集体に誘導される。ナノ粒子に基づく方法は、あまり高価ではなく、迅速にアセンブルすることが可能となり、再構成クロマチンを使用するよりも優れた回収速度をもたらし、および/またはDNA入力要件の減少を可能にする。
【0068】
因子の数は、溶液中のナノ粒子の濃度、ナノ粒子対DNAの比率、および使用されるナノ粒子の大きさを含む、縮合の程度および形態に影響を及ぼすように変更され得る。場合によっては、ナノ粒子は、約1ng/mL、2ng/mL、3ng/mL、4ng/mL、5ng/mL、6ng/mL、7ng/mL、8ng/mL、9ng/mL、10ng/mL、15ng/mL、20ng/mL、25ng/mL、30ng/mL、40ng/mL、50ng/mL、60ng/mL、70ng/mL、80ng/mL、90ng/mL、100ng/mL、120ng/mL、140ng/mL、160ng/mL、180ng/mL、200ng/mL、250ng/mL、300ng/mL、400ng/mL、500ng/mL、600ng/mL、700ng/mL、800ng/mL、900ng/mL、1μg/mL、2μg/mL、3μg/mL、4μg/mL、5μg/mL、6μg/mL、7μg/mL、8μg/mL、9μg/mL、10μg/mL、15μg/mL、20μg/mL、25μg/mL、30μg/mL、40μg/mL、50μg/mL、60μg/mL、70μg/mL、80μg/mL、90μg/mL、100μg/mL、120μg/mL、140μg/mL、160μg/mL、180μg/mL、200μg/mL、250μg/mL、300μg/mL、400μg/mL、500μg/mL、600μg/mL、700μg/mL、800μg/mL、900μg/mL、1mg/mL、2mg/mL、3mg/mL、4mg/mL、5mg/mL、6mg/mL、7mg/mL、8mg/mL、9mg/mL、10mg/mL、15mg/mL、20mg/mL、25mg/mL、30mg/mL、40mg/mL、50mg/mL、60mg/mL、70mg/mL、80mg/mL、90mg/mL、または100mg/mLより大きな濃度でDNAに加えられる。場合によっては、ナノ粒子は、約1ng/mL、2ng/mL、3ng/mL、4ng/mL、5ng/mL、6ng/mL、7ng/mL、8ng/mL、9ng/mL、10ng/mL、15ng/mL、20ng/mL、25ng/mL、30ng/mL、40ng/mL、50ng/mL、60ng/mL、70ng/mL、80ng/mL、90ng/mL、100ng/mL、120ng/mL、140ng/mL、160ng/mL、180ng/mL、200ng/mL、250ng/mL、300ng/mL、400ng/mL、500ng/mL、600ng/mL、700ng/mL、800ng/mL、900ng/mL、1μg/mL、2μg/mL、3μg/mL、4μg/mL、5μg/mL、6μg/mL、7μg/mL、8μg/mL、9μg/mL、10μg/mL、15μg/mL、20μg/mL、25μg/mL、30μg/mL、40μg/mL、50μg/mL、60μg/mL、70μg/mL、80μg/mL、90μg/mL、100μg/mL、120μg/mL、140μg/mL、160μg/mL、180μg/mL、200μg/mL、250μg/mL、300μg/mL、400μg/mL、500μg/mL、600μg/mL、700μg/mL、800μg/mL、900μg/mL、1mg/mL、2mg/mL、3mg/mL、4mg/mL、5mg/mL、6mg/mL、7mg/mL、8mg/mL、9mg/mL、10mg/mL、15mg/mL、20mg/mL、25mg/mL、30mg/mL、40mg/mL、50mg/mL、60mg/mL、70mg/mL、80mg/mL、90mg/mL、または100mg/mL未満の濃度でDNAに加えられる。場合によっては、ナノ粒子は、約1:10000、1:5000、1:2000、1:1000、1:500、1:200、1:100、1:50、1:20、1:10、1:5、1:2、1:1、2:1、5:1、10:1、20:1、50:1、100:1、200:1、500:1、1000:1、2000:1、5000:1、または10000:1よりも大きな重量対重量(w/w)の比率でDNAに加えられる。場合によっては、ナノ粒子は、約1:10000、1:5000、1:2000、1:1000、1:500、1:200、1:100、1:50、1:20、1:10、1:5、1:2、1:1、2:1、5:1、10:1、20:1、50:1、100:1、200:1、500:1、1000:1、2000:1、5000:1、または10000:1未満の重量対重量(w/w)の比率でDNAに加えられる。場合によっては、ナノ粒子は、約1nm、1nm、2nm、3nm、4nm、5nm、6nm、7nm、8nm、9nm、10nm、15nm、20nm、25nm、30nm、40nm、50nm、60nm、70nm、80nm、90nm、100nm、120nm、140nm、160nm、180nm、200nm、250nm、300nm、400nm、500nm、600nm、700nm、800nm、900nm、1μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、15μm、20μm、25μm、30μm、40μm、50μm、60μm、70μm、80μm、90μm、または100μmより大きな直径を持つ。場合によっては、ナノ粒子は、約1nm、1nm、2nm、3nm、4nm、5nm、6nm、7nm、8nm、9nm、10nm、15nm、20nm、25nm、30nm、40nm、50nm、60nm、70nm、80nm、90nm、100nm、120nm、140nm、160nm、180nm、200nm、250nm、300nm、400nm、500nm、600nm、700nm、800nm、900nm、1μm、2μm、3μm、4μm、5μm、6μm、7μm、8μm、9μm、10μm、15μm、20μm、25μm、30μm、40μm、50μm、60μm、70μm、80μm、90μm、または100μm未満の直径を持つ。
【0069】
更に、ナノ粒子は、磁界(常磁性のナノ粒子の場合の)の適用により、または共有結合(例えば、ポリ-リジンで被覆された基材への架橋による)により、固形基板(例えばビーズ、スライド、またはチューブの壁)に固定されてもよい。ナノ粒子の固定は、ライゲーションの効率を改善し、それにより、望ましくない産物(ノイズ)に対する望ましい産物(シグナル)の数を増大させ得る。
【0070】
再構成クロマチンは、DNAクロマチン複合体を更に安定させるためにホルムアルデヒドなどの架橋剤と随意に接触させられる。
【0071】
核酸の切断
結合された核酸は、内部の二本鎖末端を晒すために処理され得る。切断は、制限エンドヌクレアーゼなどの制限酵素で処理され得る。代替的な切断方法は、本明細書における開示とも一致している。例えば、トランスポサーゼは、トランスポサーゼが送達されたオリゴ核酸分子の結合によって印付けられる核酸中の配列から独立した破壊を作り出すように、結合されていない左および右の境界オリゴ核酸分子と組み合わせて随意に使用される。オリゴ核酸分子は、場合によっては、終点に適合可能な(punctuation-compatible)オーバーハングを含むように、あるいは互いに適合可能となるように合成され、それにより、オリゴ核酸分子は、互いにライゲートされ、且つ終点分子として機能する。この種の代替的な方法の利益は、切断が配列に依存せず、従って、2つの核酸分子の配列が局所的に同一であっても、核酸の1つのコピーと別のコピーまでおそらく変動するということである。
【0072】
場合によっては、晒された核酸末端は、例えば制限エンドヌクレアーゼへの接触による結果として、望ましくは粘着末端である。場合によっては、制限エンドヌクレアーゼは、予測可能なオーバーハングを切断するために使用され、その後、DNA断片上で予測可能なオーバーハングに相補的なオーバーハングを含む核酸末端(終点オリゴヌクレオチド)のライゲーションを行う。幾つかの実施形態において、制限エンドヌクレアーゼが生成されたオーバーハングの5’および/または3’の末端が部分的に埋められる。場合によっては、オーバーハングは単一のヌクレオチドで埋められる。
【0073】
幾つかの例において、オーバーハングを持つDNA断片は、ライゲーション反応などにおいて、相補的なオーバーハングを持つ終点オリゴヌクレオチド、オリゴヌクレオチド、アダプターオリゴヌクレオチド、またはポリヌクレオチドなどの1以上の核酸に結合され得る。例えば、単一のアデニンは、鋳型の独立したポリメラーゼを使用して末端が修復されたDNA断片の3’末端に加えられ、その後、3’末端で各々がチミンを持つ1以上の終点オリゴヌクレオチドへのライゲーションが行われ得る。幾つかの実施形態において、オリゴヌクレオチドまたはポリヌクレオチドなどの核酸は、1以上のヌクレオチドでの3’末端の伸長、その後の5’リン酸化により修飾された平滑末端のニ本鎖DNA分子に結合される。場合によっては、3’末端の伸長は、マグネシウムを含む適切な緩衝液中の1以上のdNTPの存在下で、Klenowポリメラーゼまたは本明細書で提供される適切なポリメラーゼのうち何れかといったポリメラーゼにより、あるいは、末端のデオキシヌクレオチドトランスフェラーゼの使用により、実行される。幾つかの実施形態において、平滑末端を持つ標的ポリヌクレオチドは、平滑末端を含む1以上のアダプターに結合される。DNA断片の分子の5’末端のリン酸化は、例えば、ATPおよびマグネシウムを含有する適切な緩衝液においてT4ポリヌクレオチドキナーゼにより実行され得る。断片化DNA分子は随意に、例えばホスファターゼなどの当該技術で既知の酵素の使用により、5’末端または3’末端を脱リン酸化するために処理され得る。
【0074】
終点オリゴヌクレオチド
場合によっては、終点オリゴヌクレオチドが、晒された切断末端を接続する際に使用され得る。終点オリゴヌクレオチドは、フェーズを維持する再配列を受けるサンプル分子の2つの切断された内部末端を架橋するように、標的ポリヌクレオチドに結合され得るオリゴヌクレオチドを含んでいる。終点オリゴヌクレオチドは、DNA、RNA、ヌクレオチドアナログ、非標準のヌクレオチド、標識化ヌクレオチド、修飾されたヌクレオチド、またはそれらの組み合わせを含み得る。多くの例において、二本鎖終点オリゴヌクレオチドは、互いにハイブリダイズされる2つの別個のオリゴヌクレオチド(「オリゴヌクレオチドデュプレックス」とも称される)を含み、ハイブリダイゼーションは、1つ以上の平滑末端、1つ以上の3’オーバーハング、1つ以上の5’オーバーハング、不適正および/または非対合のヌクレオチドから結果として生じる1つ以上のバルジ、またはこれらの任意の組み合わせを残し得る。幾つかの例において、異なる終点オリゴヌクレオチドが、連続的な反応においてまたは同時に、ポリヌクレオチドを標的とするために結合される。例えば、第1および第2の終点オリゴヌクレオチドが同じ反応に加えられ得る。代替的に、終点オリゴの集団は場合によっては均一である。
【0075】
終点オリゴヌクレオチドを、標的ポリヌクレオチドと組み合わせる前に取り扱うことができる。例えば、末端リン酸塩が除去され得る。そのような修飾は、サンプル分子の切断された内部末端ではなく、互いに対する終点オリゴの位置を排除する。
【0076】
終点オリゴヌクレオチドは、様々な配列因子のうち1つ以上を含んでおり、限定されないが、配列またはその補体をアニールする1つ以上の増幅プライマー、配列またはその補体をアニールする1つ以上の配列決定プライマー、1つ以上のバーコード配列、多数の異なる終点オリゴヌクレオチドまたは異なる終点オリゴヌクレオチドの亜群の中で共有される1つ以上の共通配列、1つ以上の制限酵素認識部位、1つ以上の標的ポリヌクレオチドオーバーハングに相補的な1つ以上のオーバーハング、1つ以上のプローブ結合部位、1つ以上のランダムまたはほぼランダムな配列、およびそれらの組み合わせが挙げられる。幾つかの例において、2つ以上の配列因子は、互いに隣接しておらず(例えば、1つ以上のヌクレオチドにより分離される)、あるいは、部分的または完全に重なって互いに隣接している。例えば、配列をアニールする増幅プライマーはまた、配列をアニールする配列決定プライマーとして役立つ。特定の例において、配列因子は、3’末端またはその付近に、5’末端またはその付近に、あるいは終点オリゴヌクレオチドの内部に位置付けられる。
【0077】
代替的な実施形態において、終点オリゴは、配列決定反応において占められる配列情報の量を最小化するように二本鎖分子の完全性を維持するための塩基の最小の補体を含み、あるいは、ライゲーションのための最適な数の塩基を含み、または終点オリゴの長さは恣意的に決定される。
【0078】
幾つかの実施形態において、終点オリゴヌクレオチドは、1つ以上の標的ポリヌクレオチドに相補的である、5’オーバーハング、3’オーバーハング、またはその両方を含む。特定の例において、相補的なオーバーハングは、長さが1以上のヌクレオチドであり、限定されないが、長さが1、2、3、4、5、6、7、8、9、10、11、12、13、14、15以上のヌクレオチドが挙げられる。例えば、相補的なオーバーハングは、長さが約1、2、3、4、5、または6のヌクレオチドである。幾つかの実施形態において、終点オリゴヌクレオチドのオーバーハングは、制限エンドヌクレアーゼ消化または他のDNA切断方法によって生成された標的ポリヌクレオチドのオーバーハングに相補的である。
【0079】
終点オリゴヌクレオチドは、少なくともそれらが構成される1つ以上の配列因子を収容するのに十分な、任意の適切な長さを持つ場合がある。幾つかの実施形態において、終点オリゴヌクレオチドは、長さが約4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200以上の、それら未満の、あるいはそれらより上のヌクレオチドである。幾つかの例において、終点オリゴヌクレオチドは、長さが5~15のヌクレオチドである。更なる例において、終点オリゴヌクレオチドは長さが約20~約40ヌクレオチドである。
【0080】
好ましくは、終点オリゴヌクレオチドは、例えば5’リン酸塩の切除(アルカリフォスファターゼ処理を介して、またはそのような部分が無い状態で合成によりデノボで)によって修飾され、その結果、多量体を形成するために互いにライゲートしない。3’OH(ヒドロキシル)部分は、切断された核酸上で5’リン酸塩にライゲートすることができ、それにより第1または第2の核酸セグメントに対するライゲーションを支持する。
【0081】
アダプターオリゴヌクレオチド
アダプターは、標的ポリヌクレオチドに結合され得る配列を持つ任意のオリゴヌクレオチドを含んでいる。終点粘着体オリゴヌクレオチドは、DNA、RNA、ヌクレオチドアナログ、非標準のヌクレオチド、標識化ヌクレオチド、修飾されたヌクレオチド、またはそれらの組み合わせを含み得る。幾つかの例において、アダプターオリゴヌクレオチドは、一本鎖、二本鎖、または部分的に二重である。一般に、部分的に二重のアダプターオリゴヌクレオチドは、1つ以上の一本鎖領域および1つ以上の二本鎖領域を含む。二本鎖アダプターオリゴヌクレオチドは、互いにハイブリダイズされる2つの別個のオリゴヌクレオチド(「オリゴヌクレオチドデュプレックス」とも称される)を含み、ハイブリダイゼーションは、1つ以上の平滑末端、1つ以上の3’オーバーハング、1つ以上の5’オーバーハング、不適正および/または非対合のヌクレオチドから結果として生じる1つ以上のバルジ、またはこれらの任意の組み合わせを残し得る。幾つかの実施形態において、一本鎖アダプターオリゴヌクレオチドは、互いとハイブリダイズすることができる2つ以上の配列を含む。2つのそのようなハイブリダイズ可能な配列が一本鎖アダプターに含まれていると、ハイブリダイゼーションはヘアピン構造(ヘアピンアダプター)を産出する。アダプターオリゴヌクレオチドの2つのハイブリダイズされた領域がハイブリダイズされていない領域によって互いに分離されと、「バブル」構造が結果として生じる。バブル構造を含むアダプターオリゴヌクレオチドは、内部のハイブリダイゼーションを含む単一のアダプターオリゴヌクレオチドから成るか、あるいは互いにハイブリダイズされた2つ以上のアダプターオリゴヌクレオチドを含む。アダプターオリゴヌクレオチドにおける2つのハイブリダイズ可能な配列間などでの内部配列ハイブリダイゼーションは、幾つかの例において、一本鎖アダプターオリゴヌクレオチド中に二本鎖構造を生成する。幾つかの例において、ヘアピンアダプターおよび二本鎖アダプター、または異なる配列のなどの、異なる種類のアダプターオリゴヌクレオチドは、組み合わせで使用される。特定の場合、ヘアピンアダプター中のハイブリダイズ可能な配列は、オリゴヌクレオチドの末端の一方または両方を含んでいる。どの末端もハイブリダイズ可能な配列に含まれない時、両末端は「自由(free)」または「オーバーハング」である。一端のみがアダプター中で別の配列にハイブリダイズされる時、他端は3’オーバーハングまたは5’オーバーハングなどのオーバーハングを形成する。5’-末端ヌクレオチドおよび3’-末端ヌクレオチドの両方が互いにハイブリダイズ可能な配列に含まれ、それにより5’-末端ヌクレオチドおよび3’-末端ヌクレオチドが相補的になり且つ互いとハイブリダイズする時、末端は「平滑」と称される。場合によっては、異なるアダプターオリゴヌクレオチドは、連続的な反応においてまたは同時に、ポリヌクレオチドを標的とするために結合される。例えば、第1および第2のアダプターオリゴヌクレオチドが同じ反応に加えられる。幾つかの例において、アダプターオリゴヌクレオチドは標的ポリヌクレオチドと組み合わせる前に取り扱われる。例えば、末端リン酸塩が追加または除去され得る。
【0082】
アダプターオリゴヌクレオチドは、様々な配列因子のうち1つ以上を含み、限定されないが、配列またはその補体をアニールする1つ以上の増幅プライマー、配列またはその補体をアニールする1つ以上の配列決定プライマー、1つ以上のバーコード配列、多数の異なるアダプターまたは異なるアダプターの亜群の中で共有される1つ以上の共通配列、1つ以上の制限酵素認識部位、1つ以上の標的ポリヌクレオチドオーバーハングに相補的な1つ以上のオーバーハング、1つ以上のプローブ結合部位(例えば、Illumina, Inc.により開発されたものなど、大規模並列配列決定のためのフローセルなどの配列決定プラットフォームへの結合のためのもの)、1つ以上のランダムまたはほぼランダムな配列(例えば、1つ以上の位置で2つ以上の異なるヌクレオチドのセットから無作為に選択された1つ以上のヌクレオチドであり、異なるヌクレオチドの各々はランダム配列を含むアダプターのプールの中で表わされる1つ以上の位置で選択される)、およびそれらの組み合わせが挙げられる。多くの例において、2つ以上の配列因子は、互いに隣接しておらず(例えば、1つ以上のヌクレオチドにより分離される)、あるいは、部分的または完全に重なって互いに隣接し得る。例えば、配列をアニールする増幅プライマーはまた、配列をアニールする配列決定プライマーとして役立つ。配列因子は、3’末端またはその付近に、5’末端またはその付近に、あるいはアダプターオリゴヌクレオチドの内部に位置付けられる。アダプターオリゴヌクレオチドがヘアピンなどの二次構造を形成することができる時、配列因子は、二次構造の外部に部分的または完全に、二次構造の内部に部分的または完全に、あるいは二次構造に関与する配列間に位置付けることができる。例えば、アダプターオリゴヌクレオチドがヘアピン構造を含む時、配列因子は、ハイブリダイズ可能な配列(「ループ」)間の配列の中を含む、ハイブリダイズ可能な配列(「ステム」)の内部または外部に部分的または完全に位置付けることができる。幾つかの実施形態において、異なるバーコード配列を持つ複数の第1のアダプターオリゴヌクレオチドにおける第1のアダプターオリゴヌクレオチドは、複数における全ての第1のアダプターオリゴヌクレオチド中で共通の配列因子を含む。幾つかの実施形態において、全ての第2のアダプターオリゴヌクレオチドは、第1のアダプターオリゴヌクレオチドにより共有される共通配列要素とは異なる、全ての第2のアダプターオリゴヌクレオチドに共通の配列因子を含む。配列因子の差異は、異なるアダプターの少なくとも一部が、例えば、配列長さの変化、1つ以上のヌクレオチドの欠失または挿入、あるいは1つ以上のヌクレオチド位置でのヌクレオチド組成の変化(塩基の変化または塩基の修飾など)が原因で完全には整列しないようなものであり得る。幾つかの実施形態において、アダプターオリゴヌクレオチドは、1つ以上の標的ポリヌクレオチドに相補的である、5’オーバーハング、3’オーバーハング、またはその両方を含む。相補的なオーバーハングは、長さが1以上のヌクレオチドであり、限定されないが、長さが1、2、3、4、5、6、7、8、9、10、11、12、13、14、15以上のヌクレオチドが挙げられる。例えば、相補的なオーバーハングは、長さが約1、2、3、4、5、または6のヌクレオチドであり得る。相補的なオーバーハングは固定配列を含み得る。相補的なオーバーハングは、1つ以上のヌクレオチドのランダム配列を付加的または代替的に含んでもよく、その結果、1つ以上のヌクレオチドが1つ以上の位置で2つ以上の異なるヌクレオチドのセットから無作為に選択され、異なるヌクレオチドの各々は、ランダム配列を含む相補的なオーバーハングを備えたアダプターオリゴヌクレオチドのプールの中で表わされる1つ以上の位置にて選択される。幾つかの実施形態において、アダプターオリゴヌクレオチドのオーバーハングは、制限エンドヌクレアーゼ消化の切断方法によって生成された標的ポリヌクレオチドのオーバーハングに相補的である。幾つかの実施形態において、アダプターオリゴヌクレオチドのオーバーハングはアデニンまたはチミンから成る。
【0083】
アダプターオリゴヌクレオチドは、少なくともそれらが構成される1つ以上の配列因子を収容するのに十分な、任意の適切な長さを持つ場合がある。幾つかの実施形態において、アダプターオリゴヌクレオチドは、長さが約4、5、6、7、8、9、10、15、20、25、30、35、40、45、50、55、60、65、70、75、80、90、100、200以上の、それら未満の、あるいはそれらより上のヌクレオチドである。幾つかの例において、アダプターオリゴヌクレオチドは、長さが5~15のヌクレオチドである。更なる例において、アダプターオリゴヌクレオチドは長さが約20~約40ヌクレオチドである。
【0084】
好ましくは、アダプターオリゴヌクレオチドは、例えば5’リン酸塩の切除(アルカリフォスファターゼ処理を介して、またはそのような部分が無い状態で合成によりデノボで)によって修飾され、その結果、多量体を形成するために互いにライゲートしない。3’OH(ヒドロキシル)部分は、切断された核酸上で5’リン酸塩にライゲートすることができ、それにより第1または第2の核酸セグメントに対するライゲーションを支持する。
【0085】
核酸サンプルのフェーズ情報の判定
核酸サンプルのフェーズ情報を測定ために、核酸は、例えば本明細書で議論される抽出法によって最初に獲得される。多くの場合、核酸はその後、核酸分子の切断の後にフェーズ情報を維持するように固体表面に結合される。好ましくは、核酸分子は、再構成クロマチンを生成するために核酸結合タンパク質と共にインビトロでアセンブリされるが、他の適切な固体表面は、核酸結合タンパク質凝集体、ナノ粒子、核酸結合ビーズ、または、核酸結合物質、ポリマー、合成核酸結合分子、あるいは他の固体またはほぼ固体の親和性分子で覆われたビーズを含む。核酸サンプルはまた、天然のクロマチンの場合のように固体表面に既に結合された状態で得ることができる。天然のクロマチンは、ホルマリン固定/パラフィン包埋(FFPE)されたまたは同様に維持されたサンプルの形態などで既に固定されている状態で得ることができる。
【0086】
核酸結合部分への結合の後、結合された核酸分子は切断され得る。切断は、あらゆる酵素方法および非酵素方法を含む任意の適切な核酸切断実体で実行される。好ましくは、DNA切断は、制限エンドヌクレアーゼ、フラグメンターゼ(fragmentase)、またはトランスポサーゼで実行される。代替的または付加的に、核酸切断は、他の制限酵素、トポイソメラーゼ、非特異的エンドヌクレアーゼ、核酸修復酵素、RNAで誘導されたヌクレアーゼ、または代替的な酵素で達成される。切断を生成するために、機械的手段(例えば音波処理、剪断)、熱手段(例えば温度変化)、または電磁気手段(例えば紫外線照射などの照射)を含む物理的手段も使用することができる。核酸切断は、使用される切断方法に依存して、「粘着」オーバーハングまたは平滑末端の何れかを持つ自由核酸末端を産生する。粘着オーバーハング末端が生成されると、粘着末端は随意に、再ライゲーションを妨げるために部分的に埋められる。代替的に、オーバーハングは、平滑末端を産生するために完全に埋められる。
【0087】
多くの場合、オーバーハング末端は、dNTPで部分的にまたは完全に埋められ、これは随意に標識される。そのような場合、dNTPは、ビオチン化され、硫酸化され、フルオロフォアに結合され、脱リン酸化され、または他のあらゆるヌクレオチド修飾を受ける場合があり得る。ヌクレオチド修飾はまた、メチル化(例えば5-mC、5-hmC、5-fC、5-caC、4-mC、6-mA、8-oxoG、8-oxoA)などの後成的修飾を含み得る。標識または修飾は、ナノポア配列決定によって検知可能な後成的修飾などの、配列決定中に検知可能なものから選択することができ;このように、ライゲーション結合の位置は配列決定中に検出することができる。これらの標識または修飾はまた、結合または富化のために標的とされ得;例えば、メチル-シトシンを標的とする抗体は、メチル-シントンで埋められた平滑末端を捕捉し、標的化し、結合し、または標識するために使用され得る。非天然ヌクレオチド、非標準ヌクレオチド、または修飾されたヌクレオチド、および核酸アナログも、平滑末端の充填の位置を標識するために使用され得る。非標準ヌクレオチドまたは修飾されたヌクレオチドは、プソイドウリジン(Ψ)、ジヒドロウリジン(D)、イノシン(I)、7-メチルグアノシン(m7G)、キサンチン、ヒポキサンチン、プリン、2,6-ジアミノプリン、および6,8-ジアミノプリンを含み得る。核酸アナログは、ペプチド核酸(PNA)、モルホリノおよびロックド核酸(LNA)、グリコール核酸(GNA)、およびトレオース核酸(TNA)を含み得る。場合によっては、オーバーハングは、ビオチンの無いdNTPなどの、標識化されていないdNTPで埋められる。場合によっては、トランスポゾンでの切断など、充填を必要としない平滑末端が生成される。トランスポサーゼが2つの結合されていない終点オリゴヌクレオチドを挿入する場合、これら自由平滑末端が生成される。しかし、終点オリゴヌクレオチドは、望ましいものとして粘着末端または平滑末端を持つように合成される。ヒストンなどの試料サンプルに関連付けられるタンパク質も、修飾され得る。例えば、ヒストンは、アセチル化(例えばリジン残基にて)および/またはメチル化(例えばリジンとアルギニン残基にて)され得る。
【0088】
次に、切断された核酸分子は未だに固体表面に結合されている一方、自由核酸末端は共に結合される。結合は、場合によっては、ライゲーションを通じて、自由末端間で、あるいはオリゴヌクレオチドなどの別個の実体で生じる。場合によっては、オリゴヌクレオチドは終点オリゴヌクレオチドである。そのような場合、終点分子末端は、切断された核酸分子の自由末端と互換性をもつ。多くの場合、終点分子はオリゴヌクレオチドのコンカテマー化(concatemerization)を防ぐために脱リン酸化される。大半の場合、終点分子は、切断された核酸分子の自由核酸末端へと各末端の上でライゲートされる。多くの場合、このライゲーション工程の結果、切断された核酸分子の再配列がもたらされ、その結果、出発核酸分子において互いに本来隣接していなかった2つの自由末端はここで、ペアエンドにおいて結合される。
【0089】
切断された核酸分子の自由末端の結合の後、再配列された核酸サンプルは、あらゆる標準の酵素方法および非酵素方法を使用して核酸結合実体から放たれる。例えば、インビトロの再構成クロマチンの場合、再配列された核酸分子は、核酸結合タンパク質を変性または分解することによって放たれる。他の例において、架橋は逆転される。また他の例において、親和性相互作用は逆転されまたは遮断される。放たれた核酸分子は、入力核酸分子と比べて再配列される。終点分子が使用される場合、結果として生じる再配列された分子は、再配列された核酸分子の全体にわたって散在する終点オリゴヌクレオチドにより、終点化された分子(punctuated molecule)と称される。これらの場合、終点に隣接する核酸セグメントはペアエンドを構築する。
【0090】
本明細書に開示される方法の切断および結合の工程中に、核酸分子がこれらプロセスの全体にわたって固体表面に結合されるので、フェーズ情報が維持される。これにより、一塩基変異多型(SNP)などの他のマーカーからの情報に依存することなく、フェーズ情報の分析が可能とされ得る。本明細書に開示される方法および組成物を使用して、場合によっては、核酸分子内の2つの核酸セグメントは、元々の核酸分子上に存在していたよりも近くにあるように、再配列される。多くの例において、出発核酸サンプルにおける2つの核酸セグメントの元々の分離距離は、標準配列決定技術の平均のリード長よりも長い。例えば、入力核酸サンプル内の2つの核酸セグメント間の出発分離距離は、約10kb、12.5kb、15kb、17.5kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kb、125kb、150kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、またはそれ以上である。好ましい例において、再配列された2つのDNAセグメント間の分離距離は、標準配列決定技術の平均のリード長未満である。例えば、再配列されたDNA分子内の2つの再配列されたDNAセグメントを分離する距離は、約50kb、40kb、30kb、25kb、20kb、17kb、15kb、14kb、13kb、12kb、11kb、10kb、9kb、8kb、7kb、6kb、5kb、またはそれ以下である。好ましい場合、分離距離は、ロングリード配列決定機械の平均のリード長のもの未満である。これらの場合、再配列されたDNAサンプルが核酸結合部分から放たれ、配列決定されると、フェーズ情報が判定され、デノボの配列足場を生成するのに十分な配列情報が生成される。
【0091】
再配列された核酸分子のバーコーディング
幾つかの例において、本明細書に記載される、放たれて再配列された核酸分子は、配列決定前に更に処理される。例えば、再配列された核酸分子内に含まれる核酸セグメントは、バーコード化され得る。バーコーディングは、配列のリードのより容易なグルーピングを可能にし得る。例えば、バーコードは、同じ再配列された核酸分子から生じる配列を識別するために使用され得る。バーコードはまた、個々の結合を一意に識別するために使用され得る。例えば、各結合は、結合を一意に識別することができる固有の(例えば、無作為に生成された)バーコードで印をつけられ得る。同じ再配列された核酸分子から生じる配列を識別するための第1のバーコード、および個々の結合を一意に識別するための第2のバーコードなど、複数のバーコードを共に使用することができる。
【0092】
バーコーディングは、多数の技術を介して達成され得る。場合によっては、バーコードは、終点オリゴ内の配列として含稀得る。他の場合、放たれて再配列された核酸分子は、少なくとも2つのセグメントを含むオリゴヌクレオチドに接触させることができ:1つのセグメントはバーコードを含み、別のセグメントは終点配列に相補的な配列を含む。終点配列へとアニールした後、バーコード化されたオリゴヌクレオチドは、ポリメラーゼで拡張されて、同じ終点化された核酸分子からバーコード化された分子を産出する。終点化された核酸分子は、中でフェーズ情報が維持されている入力核酸分子の再配列されたバージョンであるため、生成されたバーコード化された分子はまた、同じ入力核酸分子から由来する。これらバーコード化された分子は、バーコード配列、終点相補的配列、およびゲノム配列を含む。
【0093】
終点を含むまたは含まない再配列された核酸分子について、分子は他の手段によってバーコード化され得る。例えば、再配列された核酸分子は、再配列された核酸分子からの配列を組み込むために拡張され得る、バーコード化されたオリゴヌクレオチドに接触され得る。バーコードは、終点配列に、制限酵素認識部位に、対象の部位(例えばゲノム関心領域)に、またはランダム部位(例えばバーコードオリゴヌクレオチド上の無作為のn-量体配列による)に、ハイブリダイズすることができる。再配列された核酸分子は、サンプル中の他の再配列された核酸分子から適切な濃縮および/または分離(例えば空間的または時間的な分離)を使用してバーコードに接触させることができ、その結果、複数の再配列された核酸分子は、同じバーコード配列において得られない。例えば、再配列された核酸分子を含む溶液は、1つの再配列された核酸分子のみが、バーコードまたは与えられたバーコード配列を含むバーコードの群に接触させられるような濃度に希釈され得る。バーコードは、自由溶液中で、流体区分中で(例えば液滴またはウェル)、あるいはアレイ上で(例えば特定のアレイスポットにて)、再配列された核酸分子に接触され得る。
【0094】
バーコード化された核酸分子(例えば拡張産物)は、例えば、ショートリード配列決定機械上で配列決定することができ、フェーズ情報は、共通のフェーズへの同じバーコードを持つ配列のリードのグループ化によって判定される。代替的に、配列決定の前に、バーコード化された産物は、例えばロングリード配列決定技術を使用して配列決定される長い分子を生成するために、例えばバルクライゲーション(bulk ligation)を介して共に結合され得る。これらの場合、埋め込まれたリードペアは、増幅アダプターおよび終点配列を介して識別可能である。更なるフェーズ情報は、リードペアのバーコード配列から得られる。
【0095】
ペアエンドでのフェーズ情報の判定
本明細書には更に、ペアエンドからフェーズ情報を判定するための方法および組成物が提供される。ペアエンドは、開示された方法の何れかまたは提供された実施例に更に例示されるものによって生成され得る。例えば、後に切断される固体表面に結合される核酸分子の場合、自由末端の再ライゲーションの後、再びライゲートされた核酸セグメントは、例えば制限消化によって固相が結合した核酸分子から放たれる。この放出の結果、複数のペアエンドがもたらされる。場合によっては、ペアエンドは、増幅アダプターにライゲートされ、増幅され、且つ短距離技術で配列決定される。これらの場合、多数の異なる核酸結合部分に結合した核酸分子からのペアエンドは、配列決定されたサンプル内にある。しかし、ペアエンドの結合の何れかの側について、結合隣接配列は共通の分子の共通のフェーズから由来することが、確信的に結論付けられる。ペアエンドが終点オリゴヌクレオチドに結合される時、配列決定のリードにおけるペアエンドの結合は、終点オリゴヌクレオチド配列によって識別される。他の場合、ペアエンドは修飾されたヌクレオチドによって結合され、これは、使用される修飾されたヌクレオチドの配列に基づいて識別され得る。
【0096】
代替的に、ペアエンドの放出後、自由のペアエンドは、増幅アダプターにライゲートされ、増幅され得る。これらの場合、複数のペアエンドはその後、ロングリード配列決定技術を使用して読み取られる長い分子を生成するために、共にバルクライゲートされる。他の例において、放出されたペアエンドは、増幅工程を介入させることなく互いにバルクライゲートされる。いずれの場合も、埋め込まれたリードペアは、終点配列または修飾されたヌクレオチドなどの、結合配列に隣接している天然DNA配列を介して識別可能である。連結されたペアエンドは、長い配列デバイス上で読み取られ、多数の結合のための配列情報が得られる。ペアエンドは複数の異なる核酸結合部分に結合したDNA分子から由来するので、増幅アダプター配列に隣接するものなどの2つの個々のペアエンドに及ぶ配列は、多数の異なるDNA分子にマッピングされると見出される。しかし、ペアエンドの結合の何れかの側について、結合隣接配列は共通の分子の共通のフェーズから由来することが、確信的に結論付けられる。例えば、終点化された分子から由来するペアエンドの場合、終点配列に隣接する配列は、共通のDNA分子へと確信的に割り当てられる。好ましい場合、本明細書に開示される方法および組成物を使用して個々のペアエンドが連結されるので、単一のリードにおいて複数のペアエンドを配列決定することができる。
【0097】
配列決定方法
本明細書に開示される方法および組成物は、インプットDNAサンプルと比べて再配列されたセグメントを含む長いDNA分子を生成するために使用され得る。これら分子は、あらゆる配列決定技術を使用して配列決定される。好ましくは、長い分子は、標準のロングリード配列決定技術を使用して配列決定される。付加的または代替的に、、精製された長い分子は、ショートリード配列決定技術と互換性を持たせるために、本明細書に開示されるように修飾され得る。
【0098】
典型的なロングリード配列決定技術は、ナノポア配列決定技術、およびPacific Biosciences Single Molecule Real Time(SMRT)配列決定などの他のロングリード配列決定技術を含むが、これらに限定されない。ナノポア配列決定技術は、Oxfordのナノポア配列決定技術(例えばGridION,MinION)およびGeniaの配列決定技術を含むが、これらに限定されない。
【0099】
配列のリード長は、少なくとも約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb、または10Mbであり得る。配列のリード長は、約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb、または10Mbであり得る。場合によっては、配列のリード長は少なくとも約5kbである。場合によっては、配列のリード長は約5kbである。
【0100】
幾つかの例において、本明細書に開示される方法および組成物を使用するので生成される、長い再配列されたDNA分子は、配列決定アダプターの一端の上でライゲートされる。好ましい例において、配列決定アダプターはヘアピンアダプターであり、その結果、逆方向反復を持つ自己アニーリング単鎖分子がもたらされる。これらの場合、分子は配列決定酵素を通じて供給され、逆方向反復の各側の完全長の配列が得られる。ほとんどの場合、結果として生じる配列のリードは、各々がフェーズ情報を運ぶ再配列されたセグメントを持つ終点化されたDNA分子などのDNA分子の2倍のカバレッジに相当する。好ましい例において、核酸サンプルのデノボ足場を独立して生成するのに十分な配列が生成される。
【0101】
代替的に、本明細書に開示される方法および組成物を使用して生成される、長い再配列されたDNA分子は、望ましい長さの二本鎖分子の集団を形成するために切断される。これらの場合、これら分子は一本鎖アダプターに対し各末端の上でライゲートされる。結果は、両末端でヘアーピンループによってキャッピングされる二本鎖DNA鋳型である。環状分子は連続的な配列決定技術によって配列決定される。長い二本鎖セグメントを含む分子の連続的なロングリード配列決定の結果、各分子の単一の連続的なリードが生じる。短い二本鎖セグメントを含む分子の連続的な配列決定の結果、分子の複数のリードが生じ、これは、単独で、あるいは分子のコンセンサス配列を確認するための連続的なロングリード配列情報と共に使用される。ほとんどの場合、終点オリゴヌクレオチドによって印付けられたゲノムセグメントの境界が識別され、終点境界に隣接している配列はインフェーズであると結論付けられる。好ましい場合、核酸サンプルのデノボ足場を独立して生成するのに十分な配列が生成される。
【0102】
場合によっては、再配列された核酸分子は、長さに基づく配列決定のために選択される。長さに基づく選択は、より多くの再配列されたセグメントを含む再配列された核酸分子のために選択するように使用され得、その結果、ほんの少数の再配列されたセグメントを含む、より短い再配列された核酸分子は、配列決定されず、あるいはより少数の数で配列決定される。より多くの再配列されたセグメントを含む、再配列された核酸分子は、より少数の再配列されたセグメントを含む分子よりも多くのフェーズ情報を提供することができる。再配列された核酸は、少なくとも1、2、3、4、5、6、7、8、9、10、またはそれ以上の再配列されたセグメントを含むもののために選択され得る。例えば、再配列された核酸分子は、少なくとも100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、2kb、3kb、4kb、5kb、6kb、7kb、8kb、9kb、10kb、20kb、30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、2Mb、3Mb、4Mb、5Mb、6Mb、7Mb、8Mb、9Mb、10Mb、またはそれ以上の長さのために選択され得る。長さに基づく選択は、選ばれた長さよりも下の再配列された核酸分子の100%を除いて、確固たる除外(firm exclusion)であり得る。代替的に、長さに基づく選択は、選択された長さより下の再配列された核酸分子の少なくとも99.999%、99.99%、99.9%、99%、98%、97%、96%、95%、94%、93%、92%、91%、90%、85%、80%、75%、70%、65%、60%、55%、50%、45%、40%、35%、30%、25%、20%、15%、10%、5%、4%、3%、2%、または1%を除く、より長い分子のための富化であり得る。核酸の長さの選択は様々な技術によって実行することができ、限定されないが、電気泳動法(例えばゲルまたはキャピラリー)、濾過、ビーズ結合(例えばSPRIビーズのサイズ選択)、および流れに基づく方法が挙げられる。
【0103】
フェージングされた配列アセンブリ
本明細書に記載される方法および組成物を使用して生成された配列決定データは、好ましい実施形態において、フェージングされたデノボ配列アセンブリを生成するために使用される。
【0104】
幾つかの例において、複数の再配列された(および随意に終点化された)DNA分子が、本明細書に開示されるように生成され、続いて、ロングリード配列決定技術を使用して配列決定される。複数の再配列された(および随意に終点化された)DNA分子からの配列が比較され、多くの場合、第1の再配列された(および随意に終点化された)分子がその構成要素セグメントのためのフェーズ情報を判定するために使用され、一方で、第2の(および付加的な)再配列された(および随意に終点化された)DNA分子の再配列されなかった(および随意に終点化された)領域との比較が、第1の終点化された分子のセグメントを順序付けるために使用される。このプロセスを相互に繰り返すと、フェーズおよび順序の情報が、複数の再配列された分子の各々における多数のセグメントについて判定される。好ましい場合、結果として生じるアセンブリされた配列は、再配列が生じる前のインプットDNA分子のフェージングされた配列であり、核酸サンプルのデノボのフェージングされたアセンブリを表す。
【0105】
代替的に、本明細書に開示される方法および組成物を使用して生成されるような再配列されたDNA分子は、ロングリード配列決定技術を使用して配列決定され、平行して、インプットDNAは標準のショートリードショットガン配列決定技術を使用して配列決定される。これらの場合、サンプルからのショットガン配列は、再配列されたDNA分子から精製されたロングリードデータにマッピングされ、および/または、再配列された分子からのフェージングされたゲノム配列のリードは、同時に生成されたショートリード配列決定から得られた配列決定データにマッピングされる。場合によっては、ショートリード一部は、ロングリードが生成された配列にマッピングされる。そのような場合、この重なりは、短い配列のリードが、再配列されたDNA分子の長い配列のリードから生成されたゲノム配列と同じフェーズに割り当てられることを可能にする。
【0106】
フェージングされた配列アセンブリの生成と関連性がない情報は廃棄することができる。一例において、本明細書で議論されるような再配列されたDNA分子が生成され且つ配列決定される。再配列されたDNA分子は、染色体Aにマッピングされるセグメント、および染色体Bにマッピングされるセグメントを含むと見出される。場合によっては、染色体Bにマッピングされるセグメントの配列リード情報が廃棄されるかあるいは使用されず、染色体Aにマッピングされるセグメントのみがフェージングされた配列情報を生成するために使用される。他の場合、染色体Aにマッピングされるセグメントの配列のリード情報が染色体Aに関するフェージングされた配列情報を生成するために使用され、一方で染色体Bにマッピングされるセグメントの配列のリード情報は染色体Bに関するフェージングされた配列情報を生成するために使用されるが、染色体Aセグメントと染色体Bセグメントとの間の結合に関する情報は未使用のままか、あるいは廃棄される。
【0107】
サンプルは、染色体間の近接性または結合の情報を減らすまたは除去するために取り扱うことができる。例えば、細胞サンプルは、本明細書に記載されるような再配列および配列決定の前に有糸分裂で凍結され得、それにより、細胞中の染色体の通常の三次元構造を妨害する。これにより、染色体間のライゲーションを減らすまたは排除することができる。別の例において、ヒストン翻訳後修飾が、分析の前に除去され得る。
【0108】
核酸配列ライブラリー
本明細書にはまた、核酸配列ライブラリーの生成のための方法および組成物が開示される。再配列された分子が配列決定され、配列リードが分析される。与えられたリードに関して、配列セグメントが観察され、複数の再配列されたセグメントへとパースされ得る。句切りオリゴが利用される場合、句切り要素によって局所的に中断されてない配列セグメントが観察され得る。配列セグメントにおける配列情報は、インフェーズであると推定され、局所的に正確に順序付けられ、方向付けられる。接合部のどちらの側のセグメントも、一般的なサンプル核酸分子上で互いにインフェーズであると推論されるが、必ずしも、再配列された核酸分子上で互いに対して正確に順序付けられ、方向付けられないと推論される。再配列の恩恵は、互いから遠く離れて位置付けられたセグメントが、時に近位に移され、その結果、サンプル分子において、同一の、フェージングするのが困難な配列の大きな距離だけ離されていたとしても、共通のリードにおいて読み取られ、共通のフェーズに確信的に割り当てられるということである。別の恩恵は、セグメント配列自体が、元のサンプル配列のほとんど、略すべて、またはすべてを含み、その結果、フェーズ情報に加えて、幾つかの場合において、コンティグ情報が、幾つかの場合におけるデノボ配列アセンブリを実行するのに十分であると決定されるということである。このデノボ配列は、新規の足場またはコンティグのセットを生成するか、あるいは前にまたは独立して生成されたコンティグまたは足場配列のセットを増大させるために随意に使用される。
【0109】
配列決定ライブラリーなどにおける再配列された分子は、少なくとも2、3、4、5、6、7、8、9、10、またはそれ以上の セグメントを含むことができ、ここで、セグメントは、元のインプット核酸分子(例えば、インプットゲノムDNA)上の他のセグメントに隣接していない。幾つかの場合では、与えられた再配列された分子上のセグメントの少なくとも約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99%、99.999%、または100%は、共通の足場にマッピングする。幾つかの場合では、平均で配列決定ライブラリーなどの再配列された分子の集団にわたって、与えられた再配列された分子上のセグメントの少なくとも約50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、96%、97%、98%、99%、99.9%、99.99% 99.999%、また100%が、共通の足場にマッピングする。
【0110】
セグメントは、長さが約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2.0kb、2.5kb、3.0kb、3.5kb、4.0kb、4.5kb、5.0kb、5.5kb、6.0kb、6.5kb、7.0kb、7.5kb、8.0kb、8.5kb、9.0kb、9.5kb、10.0kb、またはそれ以上であり得る。セグメントは、長さが少なくとも約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2.0kb、2.5kb、3.0kb、3.5kb、4.0kb、4.5kb、5.0kb、5.5kb、6.0kb、6.5kb、7.0kb、7.5kb、8.0kb、8.5kb、9.0kb、9.5kb、10.0kb、またはそれ以上であり得る。セグメントは、長さが最大で約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2.0kb、2.5kb、3.0kb、3.5kb、4.0kb、4.5kb、5.0kb、5.5kb、6.0kb、6.5kb、7.0kb、7.5kb、8.0kb、8.5kb、9.0kb、9.5kb、10.0kb、またはそれ以上であり得る。
【0111】
再配列された分子は、長さが少なくとも約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2.0kb、2.5kb、3.0kb、3.5kb、4.0kb、4.5kb、5.0kb、5.5kb、6.0kb、6.5kb、7.0kb、7.5kb、8.0kb、8.5kb、9.0kb、9.5kb、10.0kb、またはそれ以上である、少なくとも2、3、4、5、6、7、8、9、10、またはそれ以上のセグメントを有することができる。幾つかの場合では、再配列された分子は、長さが少なくとも500bpである少なくとも3つのセグメントを有する。幾つかの場合では、再配列された分子は、長さが少なくとも500bpである少なくとも4つのセグメントを有する。幾つかの場合では、再配列された分子は、長さが少なくとも500bpである少なくとも5つのセグメントを有する。幾つかの場合では、再配列された分子は、長さが少なくとも500bpである少なくとも6つのセグメントを有する。
【0112】
再配列された分子は、再配列された分子におけるすべてのセグメントにわたって合計されたときに、1つの元の核酸分子から(例えば、1つの染色体から)、少なくとも100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2.0kb、2.5kb、3.0kb、3.5kb、4.0kb、4.5kb、5.0kb、5.5kb、6.0kb、6.5kb、7.0kb、7.5kb、8.0kb、8.5kb、9.0kb、9.5kb、または10.0kbを含むことができる。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、1つの元の核酸分子から(例えば、1つの染色体から)少なくとも1000bpを含む。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、1つの元の核酸分子から(例えば、1つの染色体から)少なくとも2000bpを含む。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、1つの元の核酸分子から(例えば、1つの染色体から)少なくとも3000bpを含む。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、1つの元の核酸分子から(例えば、1つの染色体から)少なくとも4000bpを含む。幾つかの場合では、再配列された分子におけるすべてのセグメントにわたって合計されたときに、1つの元の核酸分子から(例えば、1つの染色体から)少なくとも5000bpを含む。
【0113】
幾つかの場合では、マッピングは、特有のマッピングが強制されて実行され得る。幾つかの場合では、セグメントの約50%、45%、40%、35%、30%、25%、20%、15%、10%、5%、4%、3%、2%、1%、0.1%、0.01%、または0.001%未満が、漠然とマッピングする(例えば、複数の特定にマッピングする)。
【0114】
配列決定ライブラリーは、少なくとも約10、100、1000、10,000、100,000、100万、110万、120万、130万、140万、150万、160万、170万、180万、190万、200万、300万、400万、500万、600万、700万、800万、900万、1000万、2000万、3000万、4000万、5000万、6000万、7000万、8000万、9000万、1億、2億、3億、4億、5億、6億、7億、8億、9億、10億、20億、30億、40億、50億、60億、70億、80億、90億、100億、1000億、2000億、3000億、4000億、5000億、6000億、7000億、8000億、9000億、または1兆の再配列された分子を含むことができる。
【0115】
配列決定ライブラリーにおける再配列された分子は、特定の認識配列、ハイブリダイゼーション配列、ヘアピン(例えば、SMRTbellのための)、タグ(例えば、NanoTags)、ラベル、色素、またはバーコードなどの、配列決定のための必要なアダプター、ラベル、または他のコンポーネントを含むことができる。
【0116】
幾つかの場合では、複数の再配列されたDNA分子が本明細書に開示されるように生成され、続けてロングリードの配列決定技術を使用して配列決定される。再配列された分子はそれぞれ、配列決定され、配列リードが分析される。好ましい例では、配列リードは、平均すると配列反応に対して少なくとも約5kbまたは少なくとも約10kbとなる。他の例では、配列リードは、平均すると少なくとも約5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、16kb、17kb、18kb、19kb、20kb、21kb、22kb、25kb、30kb、35kb、40kb、またはそれ以上となる。好ましい例では、第1のセグメントの少なくとも500ベースおよび第2のセグメントの500ベースを含む配列リードが特定され、第1および第2のセグメントは、元のサンプルインプット核酸上で隣接していない。セグメントは、句切りオリゴ配列によって結合され得る。他の例では、配列リードは、第1のDNAセグメントの少なくとも約100ベース、200ベース、300ベース、400ベース、500ベース、600ベース、700ベース、800ベース、900ベース、1000ベース、またはそれ以上、および第2のDNAセグメントの少なくとも約100ベース、200ベース、300ベース、400ベース、500ベース、600ベース、700ベース、800ベース、900ベース、1000ベース、またはそれ以上を含む。幾つかの例では、第1および第2のセグメント配列は、足場ゲノムにマッピングされ、少なくとも100kbだけ離されているコンティグにマッピングすることがわかる。他の例では、分離距離は、少なくとも約8kb、9kb、10kb、12.5kb、15kb、17.5kb、20kb、25kb、30kb、35kb、40kb、45kb、50kb、60kb、70kb、80kb、90kb、100kb、125kb、150kb、200kb、300kb、400kb、500kb、600kb、700kb、800kb、900kb、1Mb、またはそれ以上である。ほとんどの場合、第1のコンティグおよび第2のコンティグはそれぞれ、単一のヘテロ接合位置を含み、そのフェーズは足場において決定されていない。好ましい例では、第1のコンティグのヘテロ接合位置は、ロングリードの第1のセグメントにおよび、第2のコンティグのヘテロ接合位置は、ロングリードの第2のセグメントに及ぶ。そのような場合、リードは各々、それらのコンティグのそれぞれのヘテロ接合領域におよび、リードセグメントの配列は、第1のコンティグの第1の対立遺伝子および第2のコンティグの第1の対立遺伝子がインフェーズであることを示唆している。第1および第2の核酸セグメントからの配列が、単一の長い配列リードにおいて検出される場合、第1および第2の核酸セグメントが、インプットDNAサンプル中の同じDNA分子上に含まれることが断定される。これらの好ましい実施形態では、本明細書に開示される方法および組成物によって生成された核酸配列ライブラリーは、ゲノム足場上で互いから遠く離れて位置付けられているコンティグに対するフェーズ情報を提供する。
【0117】
代替的に、複数のペアエンドの分子が、本明細書に記載されるように生成され、続いて、ロングリード配列決定技術を使用して配列決定される。幾つかの場合では、ライブラリーに対する平均のリード長さは、約1kbであると決定される。他の場合では、ライブラリーに対する平均のリード長さは、約100bp、200bp、300bp、400bp、500bp、600bp、700bp、800bp、900bp、1kb、1.1kb、1.2kb、1.3kb、1.4kb、1.5kb、2.0kb、2.5kb、3.0kb、3.5kb、4.0kb、4.5kb、5.0kb、5.5kb、6.0kb、6.5kb、7.0kb、7.5kb、8.0kb、8.5kb、9.0kb、9.5kb、10.0kb、またはそれ以上である。多くの例では、ペアエンドの分子は、インプットDNAサンプル内で、インフェーズであり、10kbを超える距離だけ離されている、第1のDNAセグメントおよび第2のDNAセグメントを含む。幾つかの例では、2つのそのようなDNAセグメント間の分離距離は、約5kb、6kb、7kb、8kb、9kb、10kb、11kb、12kb、13kb、14kb、15kb、20kb、23kb、25kb、30kb、32kb、35kb、40kb、50kb、60kb、75kb、100kb、200kb、300kb、400kb、500kb、750kb、1Mbより長いか、またはそれ以上である。ほとんどの場合、配列リードは、ペアエンドの分子から生成され、それらのうちの幾つかは、第1の核酸セグメントからの配列の少なくとも300ベースおよび第2の核酸セグメントからの配列の少なくとも300ベースを含む。他の例では、配列リードは、第1のDNAセグメントの少なくとも約50ベース、100ベース、150ベース、200ベース、250ベース、300ベース、350ベース、400ベース、450ベース、500ベース、550ベース、600ベース、650ベース、700ベース、750ベース、800ベース、またはそれ以上、および第2のDNAセグメントの少なくとも約50ベース、100ベース、150ベース、200ベース、250ベース、300ベース、350ベース、400ベース、450ベース、500ベース、550ベース、600ベース、650ベース、700ベース、750ベース、800ベース、またはそれ以上を含む。第1および第2の核酸セグメントからの配列が、単一の配列リードにおいて検出される場合、第1および第2の核酸セグメントが、インプットDNAサンプル中の同じDNA分子上のインフェーズであることが断定され得る。そのような場合、生成された配列ライブラリーは、DNAセグメントに対するフェーズ情報を作成し、該DNAセグメントは、それらを配列決定するために使用される配列決定技術のリード長を超える長さだけ核酸サンプルにおいて離されている。
【0118】
代替的に、複数の配列リードが、本明細書に開示されるように再配列されたDNA核酸配列ライブラリーから生成される。幾つかの場合では、本明細書に開示されるようにおよび提供される実施例に記載されるように、ライブラリーはフェーズ情報を伝達し、その結果、セグメント接合部のいずれの側のセグメントも単一の分子上でインフェーズであると決定される。幾つかの例では、生成された配列リードは、インプットDNAサンプルの核酸配列の少なくとも80%を表わす。他の例では、生成された配列リードは、インプットDNAサンプルの核酸配列の少なくとも約45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%を表わす。好ましい例では、配列リードは、インプットDNAサンプルの少なくとも80%に及ぶデノボのコンティグ情報を生成するために使用される。他の例では、配列リードは、インプットDNAサンプルの少なくとも約45%、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%、または100%に及ぶデノボのコンティグ情報を生成するために使用される。ほとんどの場合、配列リードは、フェーズ情報を決定するために使用され、該フェーズ情報は、随意に、インプットDNAサンプルのフェージングされた配列アセンブリを生成するためにコンティグを互いに対して順序付け、方向付けるように続けて使用される。好ましい実施形態では、再配列されたDNA分子から生成された核酸配列ライブラリーは、フェーズ情報を伝達し、好ましくは、合計の核酸配列の大部分を含む配列情報も包含し、その結果、デノボの配列アセンブリが同時に生成される。
【0119】
再配列された分子のライブラリーの配列決定は、少なくとも約1X、2X、3X、4X、5X、6X、7X、8X、9X、10、11X、12X、13X、14X、15X、16X、17X、18X、19X、20X、21X、22X、23X、24X、25X、26X、27X、28X、29X、30X、31X、32X、33X、34X、35X、336X、37X、38X、39X、40X、41X、42X、43X、44X、45X、46X、47X、48X、49X、50X、55X、60X、65X、70X、75X、80X、85X、90X、95X、100X、またはそれ以上の配列包括度を達成するために実行され得る。
【0120】
保存されたDNA分子フェージング
さらに、本明細書には、好ましい実施形態において、ほぼ全体のインプット核酸分子を含む核酸配列をフェージングするおよびデノボアセンブルするための方法および組成物が開示される。
【0121】
本開示の技術は、限定されないが、一塩基多型(SNP)、挿入または欠失(INDEL)、および構造変異体(SV)を含む、様々なマーカーをフェージングするために使用され得る。例えば、再配列されたDNA分子上で一緒の2つ以上のセグメントの存在は、セグメントの配列がインフェーズであると推論するために使用され得る。これは、マーカーの既知のフェージングに依存しないフェージングを可能にする。幾つかの場合では、SNPはフェージングされる。幾つかの場合では、INDELはフェージングされる。幾つかの場合では、SVはフェージングされる。フェージングは、1つ以上のマーカーに関連して確認され得る。幾つかの場合では、フェージングは、SNPに関連して確認される。幾つかの場合では、フェージングは、SNPに関係なく確認される。幾つかの場合では、フェージングは、INDELに関連して確認される。幾つかの場合では、フェージングは、INDELに関係なく確認される。幾つかの場合では、フェージングは、SVに関連して確認される。幾つかの場合では、フェージングは、SVに関係なく確認される。幾つかの例では、当該技術分野で既知の標準方法を使用して、高分子量(HMW)の核酸サンプルが抽出される。ほとんどの場合、これらのHMW核酸サンプルは、長さが少なくとも100kbである少なくとも幾つかの核酸分子を含む。100kbの核酸分子の1つ以上は、標準の配列決定技術の平均のリード長より長い距離だけ離れている第1の核酸セグメントおよび第2の核酸セグメントを含む。他の例では、核酸サンプルは、長さが少なくとも約30kb、40kb、50kb、60kb、70kb、80kb、90kb、100kb、110kb、120kb、130kb、140kb、150kb、またはそれ以上である、少なくとも幾つかの核酸分子を含み、それらの1つ以上は、本明細書に記載される技術などの標準の配列決定技術の平均のリード長より長い距離だけ離れている、少なくとも第1の核酸セグメントおよび第2の核酸セグメントを含む。
【0122】
フェーズ情報がそのような例であることを決定するために、第1および第2の核酸セグメントは、単一の配列決定リード内で検出される必要がある。それ故、第1および第2の核酸セグメントの相対位置は、第1および第2のDNAセグメントが、標準の配列決定技術の平均のリード長未満である距離だけ離れているように、変更されなければならない。望ましいフェーズ情報を生成するために、この再配列は、結果としてフェーズ情報の損失につながるべきではない。好ましい例では、この再配列は、本明細書に開示されるおよび提供される実施例内に記載されるような方法および組成物によって達成される。好ましい例では、フェーズを維持する再配列の間、開始核酸分子の10%以下が欠失される。すなわち、第1のセグメントおよび第2のセグメントは、単純に介在配列を欠失することによっては近位に移されない。むしろ、セグメントは、大多数の介在配列の欠失なしで互いに相対的に再配列される。他の例では、開始核酸分子の約2%、5%、7%、10%、12%、13%、14%、15%、20%、23%、25%、30%、35%、40%、50%、55%、60%、70%、80%、90%、または95%が欠失される。好ましい例では、配列決定に従って、ほぼ全体のインプット核酸分子が保存されているため、生成された配列リードは、ほぼ全体のインプット核酸分子が配列決定され、アセンブルされ、フェージングされるように、デノボ生成されたコンティグをアセンブルし、順序付け、および方向付けるために使用される。
【0123】
用途
本開示の技術は、限定されないが、デノボ配列アセンブリ(フェージングされた配列アセンブリを含む)の生成、リードの足場へのマッピング(フェージング情報を含む)、フェージング情報の決定、および構造変異体の同定を含む、様々な遺伝学およびゲノミクスの用途に使用することができる。
【0124】
本明細書に開示される技術は、限定しない例として、法医学、農業、環境学、再生可能エネルギー、疫学または疾患の集団発生、および種の保存を含む、多くの分野に有用である。
【0125】
本開示の技術は、癌などの疾患状態を診断するために使用することができる。本開示の技術は、臨床的に重要な領域のフェージング、構造変異体の解析、偽遺伝子(例えばSTRC)の分解、癌における新薬の開発につながるような構造変異体に対して標的とされたパネル、および他の用途のために使用することができる。例えば、直線的に遠く離れたまたは別々の染色体上にあるゲノムの領域間の過剰な近接ライゲーション事象は、癌のような疾患を暗示し得る。
【0126】
罹患しているまたは罹患している疑いのある組織からの天然クロマチンは、本開示の技術を使用して分析され得る。そのような組織サンプル内のゲノムの三次元アーキテクチャは、例えば、組織容積内の異なる特定からの幾つかのサンプルを分析することによって解析され得る。
【0127】
デノボゲノムアセンブリなどに関する幾つかの場合では、生物学的または病理学的なシグナルは、これらのデータから削除され得る。例えば、近接ライゲーションに先立って三次元アーキテクチャ中にロックする定着剤を加える前に、有糸分裂停止を引き起こすか、またはヘテロクロマチンまたはゲノムアーキテクチャの他の局所的特徴を破壊する試薬によって、細胞を処置することができる。そのような場合、結果として生じるデータは、診断的有用性を欠くが、ゲノムアセンブリに最大限に有用であり得る。
【0128】
本明細書に開示されるように生成された分子およびライブラリーは、二倍体生物のゲノムアセンブリにおける起源の具体的な分子または起源の姉妹染色分体に配列情報を割り当てるために行われるなどの、ゲノムアセンブリおよびコンティグまたは他の配列情報のフェージングに関連する用途などの、多くの用途に使用される。
【0129】
分子が配列決定され、隣接するセグメントが、共通のコンティグまたは足場の連続する塩基へのマッピングとして特定される。セグメント間の接合部は、塩基が共通のコンティグまたは足場の連続する塩基へのマッピングを止める領域として特定される。幾つかの場合では、ゲノムの複数の領域にマッピングする核酸配列(反復配列など)は廃棄される。代替的に、特に反復配列の一端または両端が共通の足場にマッピングする、および反復配列の末端で一意にマッピングする配列のための配列位置間の差が、足場に含まれている反復領域と一致している場合、反復領域は、その隣接したユニーク配列を有する共通セグメントに割り当てられる。
【0130】
好ましい実施形態では、本明細書に開示されるような分子またはライブラリーの構成要素の隣接セグメントは、ゲノムの共通の分子の共通のフェーズに割り当てられる。すなわち、セグメントがマッピングするコンティグは、共通のフェーズに割り当てられ、1つまたは両方のセグメントによって示される一塩基多型、挿入、欠失、トランスバージョン、転座または他の核酸特徴は、共通の分子に割り当てられる。
【0131】
しばしば、セグメントのすべてまたは大多数は、共通の足場またはコンティグにマッピングし、それによって、ライブラリーの単一の分子上のそれらの共存は、1つまたは両方のセグメントによって示される一塩基多型、挿入、欠失、トランスバージョン、転座または他の核酸特徴が、共通の分子に割り当てられることを示唆している。幾つかの場合では、セグメントの少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%以上、あるいはセグメント配列の少なくとも50%、55%、60%、65%、70%、75%、80%、85%、90%、91%、92%、93%、94%、95%、96%、97%、98%、99%、または99%以上は、共通の足場にマッピングする。
【0132】
幾つかの場合では、セグメントが物理的結合またはフェーズ情報を反映するようにライゲートする可能性を確かなものとするかまたはそれを増大させるために、あるいはライゲートされたセグメントが、起源の共通の物理的な分子から生じるように、分子の生成を増強することは有益である。多くのアプローチがこの目的を達成する。
【0133】
本明細書に議論されるように、幾つかの場合では、ライブラリーは、クロマチンまたは他の核酸結合部分がアセンブルされた単離された核酸分子の切断および再ライゲーションによって生成される。分子を単離することによって、例えば、それらを核酸結合タンパク質または他の天然クロマチン構成要素から分離することによって、個々の分子を互いに分離させることが可能になる。別々のセグメントがそれらの共通のホスホジエステル骨格とは無関係に一緒に保持されるように、単離された核酸分子を結合することよって、起源の分子のセグメントに共通のフェーズ情報は、切断されたセグメントが、2つのセグメントに共通の起源の分子に由来する第2のセグメントに再結合するように、切断および再ライゲーションのプロセスの間に保存される。この頻度は、例えば、クロマチンアセンブリの前に分子を希釈することによって、あるいは別々の分子からのセグメントがライゲートする傾向にある密度を下回る密度の共通の表面上の異なる位置に核酸分子を付けることによってなどの、任意数のアプローチによって増加される。消化およびアセンブリのために分子を固定するためにSPRIビーズなどのビーズが使用されるときに、より大きな表面積を有しているビーズを選択すること、または結合に利用可能な合計の表面積全体を増大させるようにより多くのビーズを加えることによって、幾つかの場合において、分子間のライゲーション事象の機会が減少する。
【0134】
代替的に、幾つかの場合では、細胞が固定剤を使用して処置されるときなどに生じる、天然クロマチンによって結合される核酸分子の中での分子間相互作用を低減するための工程が実施される。そのような工程の例は、分子間相互作用が最小限にされるように、細胞をそれらの細胞周期における時点で活発に標的とする工程を含む。これは、幾つかの場合において、染色体が、分子間のライゲーション事象につながり得るサブ核構造へとアセンブルされそうにないときに、細胞を、それらのヌクレイン酸に選択的にアクセスするように有糸分裂中に凍結または固定することによって達成される。代替的にまたは組み合わせて、三次元のマッピング情報を削除し、同時に、単一の分子からのセグメントが配列決定/フェージング情報のためのライブラリー生成において互いにライゲートする確率を高めるために、細胞、核、または細胞から単離されたクロマチンは、ヒストンの翻訳後修飾を除去するように処置される。
【0135】
再配列されたライブラリー形成における分子間のライゲーション事象を減少させるための生化学的または「ウェットラボ(wet-lab)」のアプローチに加えて、フェーズ決定に対する分子間のライゲーション事象の影響を低減するための計算上のアプローチも利用可能である。例えば、幾つかの場合では、個々の分子は、ライゲートされた再配列された分子における一意にマッピングするセグメントのマッピング分布を評価することによってスクリーニングされる。閾値を超える恐らく異なる分子にマッピングするセグメントを含む分子は除外される。すなわち、幾つかの場合では、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%未満、または最大99%まで、あるいはそれ以上で共通の足場に一意にマッピングするセグメントを含む分子のための配列情報は、さらなる分析から除外される。典型的な場合では、この閾値は、70%または約70%、80%または約80%、あるいは90%または約90%である。これらの場合では、第1の共通の足場以外の場所にマッピングするセグメントのパーセンテージを含む分子の配列は、分析から除外される。
【0136】
同様に、幾つかの場合では、50%、55%、60%、65%、70%、75%、80%、85%、90%、95%未満、または最大99%まで、あるいはそれ以上で共通の足場にマッピングする凝集した(aggregate)一意にマッピングする配列を含む分子のための配列情報は、さらなる分析から除外される。典型的な場合では、この閾値は、70%または約70%、80%または約80%、あるいは90%または約90%である。
これらの場合では、第1の共通の足場以外の場所にマッピングする一意にマッピングする配列のパーセンテージを含む分子の配列は、分析から除外される。
【0137】
代替的にまたは組み合わせて、1つを超える足場に一意にマッピングするセグメントを含む分子の配列は、SNPデータ、挿入データ、欠失データ、反転データ、または配列決定されたセグメントにおいて捕捉され得る他のゲノム再配列情報などの配列情報を失うことなく、フェーズ結論(phase conclusions)に対する影響を最小限にするなどのように、さらに処理される。例えば、(優性にまたは排他的に)2つの足場に一意にマッピングするセグメントを含む分子配列に関して、第1の足場にマッピングするセグメントが、その足場の共通のフェーズに割り当てられる一方で、第2の足場にマッピングするセグメントは、第2の足場の共通のフェーズに割り当てられる。すなわち、第1の共通の足場にマッピングするセグメントが、その足場上の共通のフェーズに割り当てられる一方で、第2の共通の足場にマッピングするセグメントは、第2の足場のための共通のフェーズ情報に有益であると判定されるが、第1の足場にマッピングする(一意にマッピングするなど)セグメントは、第2の足場にマッピングするセグメントに対するフェーズ情報に関しては有益であると判定されない。
【0138】
代替的に、幾つかの場合では、第1の足場に一意にマッピングするセグメントの第1の集団および第2の足場に一意にマッピングするセグメントの第2の集団を含む、複数の独立した分子配列が得られる。これらの場合では、第1の足場および第2の足場が、例えば、分析中のサンプルゲノムにおける転座が原因で、実際に核酸サンプルにおけるインフェーズであることが随意に推論される。
【0139】
これらのアプローチは、再配列されたライブラリー、および再配列されたライブラリーの配列データが導き出される基礎分子のフェーズに関して有益であろう分子配列のための選択的な富化を可能にする。
【0140】
幾つかの場合では、配列情報およびフェーズ情報を得るために、ライブラリー生成および配列分析が併用して使用される。幾つかのそのような場合において、例えば、ロングリード配列決定技術と適合性のあるおよびそのような技術のリードにおいて容易に特定される、修飾されたヌクレオチド塩基を使用して、ライゲーション接合部が標識される。実施例がここで提供される。
【0141】
そのような接合部マーカーを使用して、オンは特定することができる、セグメント配列とは無関係の高い信頼度を有するセグメント接合部を特定することができる。結果的に、ライブラリー建築における配列の再配列は、サンプル中で生じる「再配列事象」と容易に区別され、サンプル核酸配列またはアーキテクチャを反映している。そのような事象は、例えば、挿入、欠失、反転、トランスバージョンまたは転座を含む。そのような事象が、修飾された核酸などの接合部マーカーによってタグ付けされていないときの、セグメント中のそのような事象の観察は、事象が基礎となるサンプル配列を反映することを示唆している。
【0142】
代替的にまたは組み合わせて、分子構造に関する幾らかの信頼度を提供するために、ライブラリーのカバレッジの深さに依存してもよい。すなわち、複数の独立して生成されたライブラリー構成要素を配列決定する際に、共通の再配列プロフィルを共有している複数の、独立して生成されたセグメントが発見され得る。そのようなプロフィルが、複数の独立して由来するライブラリー構成要素に共通の「再配列事象」を含む場合、ライブラリー構成要素が示唆し得る「再配列事象」が、ライブラリー生成プロセスの産物であることよりもむしろ基礎的なサンプル配列を反映していると推論され得る。
【0143】
広く多様なライブラリー構成要素は、本開示と一致している。ライブラリー構成要素は、配列決定技術がライブラリーを配列決定することに最も効率的に使用されるように、一般的なロングリード配列決定技術の単一のリードよりも平均で長いことが好ましい。しかしながら、これは絶対的な要件ではなく、長距離の配列決定作業(long range sequencing run)の長さより短い構成要素を含む、優性に含む、またはそれらから成るライブラリーは、本開示と一致している。
【0144】
本明細書に開示されるライブラリーは、ライブラリーにおいて表わされたサンプル全体のそれらの分画、平均または中央値の再配列された分子サイズ、セグメントサイズ、および1分子当たりのセグメントの数が様々であり得る。多くの実施形態では、ライブラリーは、単一のロングリードがライブラリーの分子構成要素の3つのセグメントの少なくとも一部に及ぶように構成される。多くの実施形態では、フェーズ内にあるがゲノムサンプル全体にわたって分散されたセグメントが、共通の分子の共通のフェーズへのそれらの割り当てを促進するために、隣接するまたはそうでなければ単一の長距離の配列リードに含まれるように再構成されるように、ライブラリーは構成される。
【0145】
<コンピューターシステムおよびそれらの動作の改善>
本明細書に記載されるような方法は、幾つかの場合において、例えば、メモリ(1010)、または電子記憶装置(1015)などの、サーバー(1001)の電子記憶位置に保存された、マシン(またはコンピュータープロセッサ)実行可能コード(またはソフトウェア)によって実施される。使用中に、コードはプロセッサ(1005)によって実行され得る。幾つかの場合では、コードは、電子記憶装置(1015)から取得され、プロセッサ(1005)による容易なアクセスのためのメモリ(1010)上に保存することができる。幾つかの状況において、電子記憶装置(115)は除外することができ、マシン実行可能命令がメモリ(1010)に保存される。代替的に、コードは、第2のコンピューターシステム(1040)上で実行することができる。
【0146】
サーバー(1001)などの本明細書に提供されるシステムおよび方法の態様は、プログラミングにおいて具体化され得る。技術の様々な態様は、典型的にマシン(またはプロセッサ)実行可能コードおよび/または一種のマシン可読媒体において具体化される関連データの形態で「産物」または「製品」として考えられ得る。マシン実行可能コードは、電子記憶装置、そのようなメモリ(例えば、リードオンリーメモリメモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスクに保存することができる。「記憶」型の媒体は、ソフトウェアプログラミングに関するいかなる時にも非一時的な記憶を提供し得る、様々な半導体メモリ、テープドライブ、ディスクドライブなどの、コンピューター、プロセッサなどの有形メモリ、またはそれらの関連するモジュールのいずれかまたはすべてを含むことができる。ソフトウェアのすべてまたは一部は、インターネットまたは様々な他の通信ネットワークを介して時々通信される。そのような通信は、例えば、1つのコンピューターまたはプロセッサから別のコンピューターまたはプロセッサへの、例えば、管理サーバーまたはホストコンピューターからアプリケーションサーバーのコンピュータープラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を有し得る別のタイプの媒体は、有線および光地上通信のネットワークおよび様々なエアリンクを介した、ローカル装置間の物理インターフェースにわたって使用されるものなどの含む、光波、電波、および電磁波を含む。有線または無線のリンク、光リンクなどの、そのような波を運ぶ物理要素は、ソフトウェアを有する媒体としても考えられ得る。本明細書で使用されるように、非一時的な、有形の「記憶」媒体に制限されない限り、コンピューターまたはマシン「可読媒体」などの用語、実行のためにプロセッサに命令を提供することに関与する媒体を指すことができる。
【0147】
したがって、コンピューター実行可能コードなどのマシン可読媒体は、限定されないが、有形記憶媒体、搬送波媒体、または物理的な送信媒体を含む、多くの形態をとり得る。不揮発性記憶装置媒体は、例えば、システムを実施するために使用され得るものなどの、コンピューターなどにおける記憶デバイスのいずれかなどの、光ディスクまたは磁気ディスクを含むことができる。有形送信媒体は以下を含むことができる:同軸ケーブル、銅線、およびファイバーオプティクス(コンピューターシステム内にバスを含むワイヤーを含む)。搬送波送信媒体は、無線周波(RF)および赤外線(IR)データ通信中に生成されたものなどの、電気信号または電磁気信号、あるいは音波または光波の形態をとり得る。それ故、コンピューター可読媒体の共通の形態は、例えば、以下を含む:フロッピーディスク、フレキシブルディスク、ハードディスク、磁気テープ、他の磁気媒体、CD-ROM、DVD、DVD-ROM、他の光学媒体、パンチカード、紙テープ(paper tame)、穴のパターンを有する他の物理的な記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、他のメモリチップまたはカートリッジ、データまたは命令を輸送する搬送波、ケーブル、またはそのような搬送波を輸送するリンク、あるいはコンピューターがプログラミングコードおよび/またはデータを読み取り得る他の媒体。コンピューター可読媒体のこれらの形態の多くは、実行のためにプロセッサに1つ以上の命令の1つ以上の配列を運ぶことに関係し得る。
【0148】
コンピューターシステムは、例えば、サンプル収集、サンプル処理、配列生成および配列分析を含む、本明細書に記載される方法における1つ以上の工程を実施するために使用されてもよい。
【0149】
クライアントサーバーおよび/またはリレーショナルデータベースのアーキテクチャは、本明細書に記載された方法のいずれかにおいて使用することができる。一般に、クライアントサーバーアーキテクチャは、ネットワーク上のコンピューターまたはプロセスがそれぞれ、クライアントまたはサーバーのいずれかである、ネットワークアーキテクチャである。サーバーコンピューターは、ディスクドライブ(ファイルサーバー)、プリンター(プリントサーバー)、またはネットワークトラフィック(ネットワークサーバー)の管理に対する専用の高性能コンピューターであり得る。クライアントコンピューターは、PC(パーソナルコンピューター)またはユーザーがアプリケーションを実行するワークステーションの他に、本明細書に開示されるような例となる出力デバイスを含むことができる。クライアントコンピューターは、ファイル、デバイス、およびさらに処理パワーなどのリソースのためのサーバーコンピューターに依存し得る。サーバーコンピューターは、データベース機能性のすべてを処理する。クライアントコンピューターは、フロントエンドのデータ管理を処理するソフトウェアを有することができ、ユーザーからデータ入力を受信することができる。
【0150】
計算を実行した後に、プロセッサは、出力を、計算などから、例えば、入力デバイスまたは記憶装置に、同じまたは異なるコンピューターシステムの別の記憶装置に、または出力デバイスに戻すことができる。プロセッサからの出力は、データディスプレイ、例えば、ディスプレイスクリーン(例えば、デジタルデバイス上のモニターまたはスクリーン)、プリントアウト、データ信号(例えばパケット)、グラフィカルユーザーインターフェース(例えばウェブページ)、アラーム(例えば、フラッシングライトまたはサウンド)、または上記のいずれかの組み合わせによって表示され得る。一実施形態では、出力は、ネットワーク(例えば無線ネットワーク)を通して出力デバイスに伝送される。出力デバイスは、ユーザーによってデータ処理コンピューターシステムから出力を受信するために使用され得る。出力がユーザーによって受信された後、ユーザーは、ユーザーが医療関係者である場合の医学的処置などの、行動指針を決定することができるか、または実行することができる。幾つかの実施形態では、出力デバイスは入力デバイスと同じデバイスである。典型的な出力デバイスは、限定されないが、電話、無線電話、携帯電話、PDA、フラッシュメモリドライブ、光源、音波発生装置、ファックス、コンピューター、コンピューターモニター、プリンター、iPod(登録商標)、およびウェブページを含む。ユーザーステーションは、サーバーによって処理された情報を出力するためにプリンターまたはディスプレイモニターと通信し得る。そのようなディスプレイ、出力デバイス、およびユーザーステーションは、被験体またはその介護者に警告を送信するために使用され得る。
【0151】
本開示に関連するデータは、受信者による受信および/またはレビューのためにネットワークまたは接続を介して送信することができる。受信者は、限定されないが、レポートが属する被験体;またはその介護者、例えば、医療従事者、管理者、他の医療専門家、または他の介護人;および/または遺伝子型決定分析を実行したまたは命令した人または実体;遺伝子カウンセラーであり得る。受信者はまた、そのようなレポートを保存するためのローカルシステムまたはリモートシステム(例えば、サーバーまたは「クラウドコンピューティング」アーキテクチャの他のシステム)であり得る。一実施形態では、コンピューター可読媒体は、生体サンプルの分析の結果の送信に適した媒体を含む。
【0152】
本明細書に開示されるようなデータセットおよび配列ライブラリーは、ヘテロ接合の二倍性の真核生物ゲノムの配列決定によって得られるものなどの、核酸配列情報のコンピュータベースのフェーズ割り当てと一致している。そのようなデータを分析するコンピューターは、リードを足場へと割り当て、幾つかの場合では、サンプルゲノムに対する「エンド・ツー・エンド(end-to-end)」の染色体地図全体を含む地図を生成し得る。しかしながら、ほとんどのアプローチは、ヘテロ接合配列が配列決定技術のリード長よりも長い長さだけ離されるときに、共通のフェーズにヘテロ接合配列を割り当てることができない。したがって、ヘテロ接合の遺伝子座は、大抵のコンピュータベースのゲノムアセンブリのアプローチの使用では共通のフェーズに正確にマッピングされない。
【0153】
ヘテロ接合の遺伝子座が、単一のロングリードによって生成された配列距離を超える距離だけ離されているときでさえ、本明細書に開示される方法、データベースおよびシステムは、共通のフェーズへのヘテロ接合の配列情報の割り当てを可能にする。そのため、本明細書に開示される方法、データベース、およびシステムは、ゲノム配列決定およびゲノム配列アセンブリに関連するコンピューターシステムの性能の改善を提供する。例えば、本開示の技術は、計算速度の改善を可能にすることができ、それによって、計算時間または計算の負担を低減する。これらの技術はまた、一時的メモリおよび非一時的データ記憶装置の要件を含む、メモリ要件の低減を可能にする。幾つかの場合では、本開示の技術は、以前に計算不可能であった計算を可能にする。
【0154】
詳細な説明は、以下の付番された実施形態に関連してさらに補足される。
1.第1のDNA分子から長距離フェーズ情報を生成する方法であって、上記方法は、a)第1のセグメントと第2のセグメントとを有する第1のDNA分子を提供する工程であって、第1のセグメントと第2のセグメントが第1のDNA分子上で隣接しない、工程と、b)第1のセグメントと第2のセグメントが、第1のDNA分子の共通のホスホジエステル骨格とは無関係にDNA結合部分に結合するように、DNA結合部分に第1のDNA分子を接触させる工程と、c)第1のセグメントと第2のセグメントが共通のホスホジエステル骨格によって結合されないように、第1のDNA分子を切断する工程と、d)再アセンブルされた第1のDNA分子を形成するためにホスホジエステル結合によって第2のセグメントに第1のセグメントを取り付ける工程と、e)単一の配列決定リードの第1のセグメントと第2のセグメントとの間の接合部を含む再アセンブルされた第1のDNA分子の少なくとも4kbの連続する配列を配列決定する工程を含み、第1のセグメント配列と第2のセグメント配列が第1のDNA分子からの長距離フェーズ情報を表す、方法。
2.DNA結合部分は複数のDNA結合分子を含む、付番された実施形態1の方法。
3.複数のDNA結合部分へ第1のDNA分子を接触させる工程は、DNA結合タンパク質の集団に接触させることを含む、付番された実施形態1または2の方法。
4.DNA結合タンパク質の集団は核タンパク質を含む、付番された実施形態1-3のいずれか1つの方法。
5.DNA結合タンパク質の集団はヌクレオソームを含む、付番された実施形態1-4のいずれか1つの方法。
6.DNA結合タンパク質の集団はヒストンを含む、付番された実施形態1-5のいずれか1つの方法。
7.複数のDNA結合部分へ第1のDNA分子を接触させる工程は、DNA結合ナノ粒子の集団に接触させることを含む、付番された実施形態1-6のいずれか1つの方法。
8.第1のDNA分子は、第1のDNA分子上で第1のセグメントあるいは第2のセグメントに隣接していない第3のセグメントを有し、(b)の接触させる工程は、第3のセグメントが第1のDNA分子の共通のホスホジエステル骨格とは無関係に、DNA結合部分に結合されるように行われ、(c)の切断する工程は、第3のセグメントが共通のホスホジエステル骨格によって第1のセグメントと第2のセグメントに結合されないように行われ、取り付ける工程は、再アセンブルされた第1のDNA分子を形成するためにホスホジエステル結合によって第2のセグメントに第3のセグメントを取り付けることを含み、(e)の配列決定された連続する配列は、単一の配列決定リードの第2のセグメントと第3のセグメントとの間に接合部を含む、付番された実施形態1-7のいずれか1つの方法。
9.第1のDNA分子を架橋剤へ接触させる工程を含む、付番された実施形態1-9のいずれか1つの方法。
10.第1のDNA分子を架橋剤へ接触させる工程を含む、付番された実施形態1-9のいずれか1つの方法。
11.架橋剤はホルムアルデヒドである、付番された実施形態1-10のいずれか1つの方法。
12.架橋剤はホルムアルデヒドである、付番された実施形態1-11のいずれか1つの方法。
13.DNA結合部分は、複数のDNA結合部分を含む表面に結合される、付番された実施形態1-12のいずれか1つの方法。
14.DNA結合部分は、ビーズを含む固体のフレームワークに結合される、付番された実施形態1-13のいずれか1つの方法。
15.第1のDNA分子を切断する工程は、制限エンドヌクレアーゼに接触させることを含む、付番された実施形態1-14のいずれか1つの方法。
16.第1のDNA分子を切断する工程は、非特異的なエンドヌクレアーゼに接触させることを含む、付番された実施形態1-15のいずれか1つの方法。
17.第1のDNA分子を切断する工程は、タグメンテーション酵素に接触させることを含む、付番された実施形態1-16のいずれか1つの方法。
18.第1のDNA分子を切断する工程は、トランスポサーゼに接触させることを含む、付番された実施形態1-17のいずれか1つの方法。
19.第1のDNA分子を切断する工程は、第1の分子を剪断することを含む、付番された実施形態1-18のいずれか1つの方法。
20.少なくとも1つの露出した末端にタグを加える工程を含む、付番された実施形態1-19のいずれか1つの方法。
21.タグは標識された塩基を含む、付番された実施形態1-20のいずれか1つの方法。
22.タグはメチル化された塩基を含む、付番された実施形態1-21のいずれか1つの方法。
23.タグはビオチン化された塩基を含む、付番された実施形態1-22のいずれか1つの方法。
24.タグはウリジンを含む、付番された実施形態1-23のいずれか1つの方法。
25.タグは非標準の塩基を含む、付番された実施形態1-24のいずれか1つの方法。
26.タグは平滑末端を有する露出した末端を生成する、付番された実施形態1-25のいずれか1つの方法。
27.第1のセグメントの粘着末端のくぼんだ鎖に少なくとも1つの塩基を加える工程を含む、付番された実施形態1-26のいずれか1つの方法。
28.第1のセグメントの粘着末端にアニール化されるオーバーハングを含むリンカーオリゴを加える工程を含む、付番された実施形態1-27のいずれか1つの方法。
29.リンカーオリゴは、第1のセグメントの粘着末端にアニール化されるオーバーハングと、第2のセグメントの粘着末端にアニール化されるオーバーハングとを含む、付番された実施形態1-28のいずれか1つの方法。
30.リンカーオリゴは2つの5’リン酸塩部分を含まない、付番された実施形態1-29のいずれか1つの方法。
31.取り付ける工程はライゲートする工程を含む、付番された実施形態1-30のいずれか1つの方法。
32.取り付ける工程はDNA一本鎖ニック修復を含む、付番された実施形態1-31のいずれか1つの方法。
33.第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも10kb離される、付番された実施形態1-32のいずれか1つの方法。
34.第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも15kb離される、付番された実施形態1-33のいずれか1つの方法。
35.第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも30kb離される、付番された実施形態1-34のいずれか1つの方法。
36.第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも50kb離される、付番された実施形態1-35のいずれか1つの方法。
37.第1のセグメントと第2のセグメントは、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも100kb離される、付番された実施形態1-36のいずれか1つの方法。
38.配列決定する工程は、単一分子のロングリード配列決定を含む、付番された実施形態1-37のいずれか1つの方法。
39.ロングリード配列決定は、少なくとも5kbのリードを含む、付番された実施形態1-38のいずれか1つの方法。
40.ロングリード配列決定は、少なくとも10kbのリードを含む、付番された実施形態1-39のいずれか1つの方法。
41.第1の再アセンブルされたDNA分子は、第1のDNA分子の一方の末端で、5’末端~3’末端を結合するヘアピン部分を含む、付番された実施形態1-40のいずれか1つの方法。
42.第1のDNA分子の第2の再アセンブルされたバージョンを配列決定する工程を含む、付番された実施形態1-42のいずれか1つの方法。
43.第1のセグメントと第2のセグメントは各々少なくとも500bpである、付番された実施形態1-42のいずれか1つの方法。
44.第1のセグメント、第2のセグメント、および第3のセグメントは、各々少なくとも500bpである、付番された実施形態1-43のいずれか1つの方法。
45.ゲノムアセンブリの方法であって、該方法は、a)ある構造に複合体化された第1のDNA分子を得る工程と、b)第1の露出した末端と第2の露出した末端を形成するために第1のDNA分子を切断する工程であって、第1の露出した末端と第2の露出した末端が上記切断前に分子上で隣接していなかった、工程と、c)第3の露出した末端と第4の露出した末端を形成するために第1のDNA分子を切断する工程であって、第3の露出した末端と第4の露出した末端が上記切断前に分子上で隣接していなかった、工程と、d)第1の接合部を形成するために、上記第1の露出した末端と上記第2の露出した末端を取り付ける工程と、e)第2の接合部を形成するために、上記第3の露出した末端と上記第4の露出した末端を取り付ける工程と、f)単一の配列決定リード中で上記第1の接合部と上記第2の接合部にわたって配列決定する工程と、g)複数のコンティグの第1のコンティグに、上記第1の接合部の第1の側の配列をマッピングする工程と、h)複数のコンティグの第2のコンティグに、上記第1の接合部の第2の側の配列をマッピングする工程と、i)複数のコンティグの第2のコンティグに、上記第2の接合部の第1の側の配列をマッピングする工程と、j)複数のコンティグの第3のコンティグに、上記第2の接合部の第2の側の配列をマッピングする工程と、k)ゲノムアセンブリの共通のフェーズに、上記第1のコンティグ、上記第2のコンティグ、および上記第3のコンティグを割り当てる工程とを含む、方法。
46.上記複数のコンティグはショットガン配列データから生成される、付番された実施形態45の方法。
47.上記複数のコンティグは単一分子のロングリードデータから生成される、付番された実施形態45または46の方法。
48.上記単一分子のロングリードデータは上記複数のコンティグを含む、付番された実施形態45-47のいずれか1つの方法。
49.上記複数のコンティグは、上記第1の接合部と上記第2の接合部での配列決定によって同時に得られる、付番された実施形態45-48のいずれか1つの方法。
50.上記マーカーオリゴでの配列決定は少なくとも10kbの配列決定を含む、付番された実施形態45-49のいずれか1つの方法。
51.上記構造は、再構成されたクロマチンを形成するために、第1のDNA分子に結合されたDNA結合部分の集団を含む、付番された実施形態45-50のいずれか1つの方法。
52.上記の再構成されたクロマチンは橋架剤に接触させる、付番された実施形態45-5のいずれか1つの方法。
53.上記橋架剤はホルムアルデヒドを含む、付番された実施形態45-52のいずれか1つの方法。
54.DNA結合部分の上記集団はヒストンを含む、付番された実施形態45-53のいずれか1つの方法。
55.DNA結合部分の上記集団はナノ粒子を含む、付番された実施形態45-54のいずれか1つの方法。
56.上記構造は天然のクロマチンを含む、付番された実施形態45-55のいずれか1つの方法。
57.第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも10kb離される、付番された実施形態45-56のいずれか1つの方法。
58.第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも15kb離される、付番された実施形態45-57のいずれか1つの方法。
59.第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも30kb離される、付番された実施形態45-58のいずれか1つの方法。
60.第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも50kb離される、付番された実施形態45-59のいずれか1つの方法。
61.第1の露出した末端と第2の露出した末端は、第1のDNA分子を切断する前に、第1のDNA分子上で少なくとも100kb離される、付番された実施形態45-60のいずれか1つの方法。
62.第1のDNA分子の第2のコピーを配列決定する工程を含む、付番された実施形態45-61のいずれか1つの方法。
63.a)第1のセグメント、b)第2のセグメント、および、c)第3のセグメントを含む少なくとも5kbの再配列された核酸分子であって、d)上記第1のセグメントと上記第2のセグメントは第1の接合部で結合され、および、e)上記第2のセグメントと上記第3のセグメントは第2の接合部で結合され、上記第1のセグメント、上記第2のセグメント、および上記第3のセグメントは、再配列されていない核酸分子において少なくとも10kb離れたフェーズに存在し、および、上記再配列された核酸分子の少なくとも70%は、上記共通の再配列されていない核酸分子にマッピングされる、再配列された核酸分子。
64.第1のセグメント、第2のセグメント、および第3のセグメントは、ゲノムの共通の核酸分子からの別々のゲノム核酸配列を含む、付番された実施形態63の再配列された核酸。
65.第1のセグメント、第2のセグメント、および第3のセグメントは、再配列された核酸において再配置される順序でゲノム中の共通の分子に存在する、付番された実施形態63または64の1つの再配列された核酸。
66.上記核酸分子は少なくとも30kbの長さである、付番された実施形態63-65のいずれか1つの再配列された核酸。
67.上記核酸は、二本鎖の終端でヘアーピンループを含み、その結果、分子は、30kbの逆方向反復を含む一本鎖を含んでいる、付番された実施形態63-66のいずれか1つの再配列された核酸。
68.上記核酸は、二本鎖の環状分子である、付番された実施形態63-67のいずれか1つの再配列された核酸。
69.上記再配列された核酸分子の少なくとも80%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-68のいずれか1つの再配列された核酸。
70.上記再配列された核酸分子の少なくとも85%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-69のいずれか1つの再配列された核酸。
71.上記再配列された核酸分子の少なくとも90%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-70のいずれか1つの再配列された核酸。
72.上記再配列された核酸分子の少なくとも95%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-71のいずれか1つの再配列された核酸。
73.上記再配列された核酸分子の少なくとも99%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-72のいずれか1つの再配列された核酸。
74.上記再配列された核酸分子のセグメントの少なくとも80%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-73のいずれか1つの再配列された核酸。
75.上記再配列された核酸分子のセグメントの少なくとも85%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-74のいずれか1つの再配列された核酸。
76.上記再配列された核酸分子のセグメントの少なくとも90%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-75のいずれか1つの再配列された核酸。
77.上記再配列された核酸分子のセグメントの少なくとも95%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-76のいずれか1つの再配列された核酸。
78.上記再配列された核酸分子のセグメントの少なくとも99%は、上記共通の再配列されていない核酸分子にマッピングされる、付番された実施形態63-77のいずれか1つの再配列された核酸。
79.再配列された核酸は付番された実施形態1-62のいずれか1つ以上の方法の工程によって生成される、付番された実施形態63-78のいずれか1つの再配列された核酸。
80.サンプル核酸分子のフェージングされた配列を生成する方法であって、該方法は、a)サンプル核酸分子から付番された実施形態63-78のいずれか1つの第1の再配列された核酸分子を生成する工程と、b)サンプル核酸分子から付番された実施形態63-78のいずれか1つの第2の再配列された核酸分子を生成する工程と、および、c)第1の再配列された核酸分子と第2の再配列された核酸分子を配列決定する工程を含み、第1の再配列された核酸分子と第2の再配列された核酸分子は独立して生成される、方法。
81.サンプル核酸分子のフェージングされた配列を生成する方法であって、該方法は、a)サンプル核酸分子から付番された実施形態63-78のいずれか1つの第1の再配列された核酸分子を配列決定する工程と、b)サンプル核酸分子から付番された実施形態63-78のいずれか1つの第2の再配列された核酸分子を配列決定する工程であって、第1の再配列された核酸分子と第2の再配列された核酸分子が独立して生成される、工程と、c)付番された実施形態63-78のいずれか1つの第1の再配列された核酸分子と、付番された実施形態63-78のいずれか1つの第2の再配列された核酸分子の配列を組み立てる工程であって、組み立てられた配列がサンプル核酸分子の再配列されていないフェージングされた配列である、工程とを含む、方法。
82.第1の再配列された核酸分子を配列決定する工程は、少なくとも1kbの配列リードを生成することを含む、付番された実施形態80または81の方法。
83.第1の再配列された核酸分子を配列決定する工程は、少なくとも2kbの配列リードを生成することを含む、付番された実施形態80-82のいずれか1つの方法。
84.第1の再配列された核酸分子を配列決定する工程は、少なくとも5kbの配列リードを生成することを含む、付番された実施形態80-83のいずれか1つの方法。
85.単一のゲノム分子の共通のフェーズに、上記第1の再配列された分子の少なくとも70%を割り当てる工程を含む、付番された実施形態80-84のいずれか1つの方法。
86.単一のゲノム分子の共通のフェーズに、上記第2の再配列された分子の少なくとも70%を割り当てる工程を含む、付番された実施形態80-85のいずれか1つの方法。
87.単一のゲノム分子の共通のフェーズに、上記第1の再配列された分子の少なくとも80%を割り当てる工程を含む、付番された実施形態80-86のいずれか1つの方法。
88.単一のゲノム分子の共通のフェーズに、上記第2の再配列された分子の少なくとも80%を割り当てる工程を含む、付番された実施形態80-87のいずれか1つの方法。
89.単一のゲノム分子の共通のフェーズに、上記第1の再配列された分子の少なくとも90%を割り当てる工程を含む、付番された実施形態80-88のいずれか1つの方法。
90.単一のゲノム分子の共通のフェーズに、上記第2の再配列された分子の少なくとも90%を割り当てる工程を含む、付番された実施形態80-89のいずれか1つの方法。
91.単一のゲノム分子の共通のフェーズに、上記第1の再配列された分子の少なくとも95%を割り当てる工程を含む、付番された実施形態80-90のいずれか1つの方法。
92.単一のゲノム分子の共通のフェーズに、上記第2の再配列された分子の少なくとも95%を割り当てる工程を含む、付番された実施形態80-91のいずれか1つの方法。
93.ロングリード配列データをフェージングする方法であって、該方法は、a)付番された実施形態63-78のいずれか1つの酸サンプルから配列データを得る工程と、b)付番された実施形態63-78のいずれか1つの再配列された核酸からロングリード配列データを得る工程と、c)付番された実施形態63-78のいずれか1つの再配列された核酸からのロングリード配列データを、核酸サンプルからの配列データにマッピングする工程と、d)付番された実施形態63-78のいずれか1つの再配列された核酸からのロングリード配列データによってマッピングされた核酸サンプルからの配列データを、共通のフェーズに割り当てる工程とを含む、方法。
94.DNA配列決定技術によって核酸サンプルから生成された核酸データセットにフェーズ情報を提供する方法であって、該方法は、a)DNA配列決定技術のリード長よりも大きな距離だけ離れた第1のセグメントと第2のセグメントを有する上記核酸サンプルの核酸を得る工程と、b)第1のセグメントと第2のセグメントがDNA配列決定技術のリード長未満の距離離れるように、核酸を組み換える工程と、;c)第1のセグメントと第2のセグメントがDNA配列決定技術の単一のリードに現われるように、DNA配列決定技術を使用して、組み換えられた核酸を配列決定する工程と、d)第1のセグメント配列を含むデータセットの配列リードと、第2のセグメント配列を含むデータセットの配列リードを、共通のフェーズに割り当てる工程とを含む、方法。
95.DNA配列決定技術は、少なくとも10kbのリード長を有するリードを生成する、付番された実施形態94の方法。
96.組み換える工程は、本明細書に開示された任意の方法の工程を行うことを含む、付番された実施形態94-94のいずれか1つの方法。
97.第1のセグメントと第2のセグメントは、セグメント末端を示すリンカーオリゴによって分離される、付番された実施形態94-94のいずれか1つの方法。
98.付番された実施形態63-78のいずれか1つの複数の分子から得られた配列情報を含む核酸配列データベースであって、ここで、共通の足場へマッピングされるそのセグメントの70%未満を有する分子に対応する配列情報は、少なくとも1つの分析から除外される、核酸配列データベース。
99.付番された実施形態63-78のいずれか1つの複数の分子から得られた配列情報を含む核酸配列データベースであって、ここで、共通の足場へマッピングされるその配列情報の70%未満を有する分子に対応する配列情報は、少なくとも1つの分析から除外される,核酸配列データベース。
100.ロングリード配列データをフェージングする方法であって、該方法は、a)付番された実施形態63-78のいずれか1つの核酸サンプルから配列データを得る工程と、b)付番された実施形態63-78のいずれか1つの再配列された核酸の再配列された核酸からロングリード配列データを得る工程と、c)付番された実施形態63-78のいずれか1つの再配列された核酸の第1のセグメント、第2のセグメント、および第3のセグメントを、核酸サンプルからの配列データ~核酸サンプル配列データにマッピングする工程と、d)少なくとも2つのセグメントが共通の足場へマッピングされるとき、共通のフェーズに上記セグメントの配列変異を割り当てる工程を含む、方法。
101.第1のセグメントは、核酸サンプルからの配列データに関連して一塩基多型を含む、付番された実施形態100の方法。
102.第1のセグメントは、核酸サンプルからの配列データに関連して挿入を含む、付番された実施形態100または101の方法。
103.第1のセグメントは、核酸サンプルからの配列データに関連して欠失を含む、付番された実施形態100-102のいずれか1つの方法。
104.第1の共通の足場にマッピングされるセグメントの第1のセットを、第1の共通の足場の共通のフェーズに割り当てる工程と、第2の共通の足場にマッピングされるセグメントの第2のセットを、第2の共通の足場の共通のフェーズに割り当てる工程を含む、付番された実施形態100-103のいずれか1つの方法。
105.核酸サンプルの核酸配列ライブラリーであって、上記核酸配列ライブラリーは、平均リード長を有する核酸配列リードの集団を含み、上記リードの少なくとも1つは、第1の核酸セグメントの少なくとも500ベースと、第2の核酸セグメントの少なくとも500ベースを含み、上記第1の核酸セグメントと上記第2の核酸セグメントは、上記核酸サンプルの共通の分子上の上記平均リード長よりも大きな距離だけ離れたフェーズ内で見られる、核酸配列ライブラリー。
106.上記第1の核酸セグメントと上記第2の核酸セグメントは、10kbよりも大きな距離だけ離れたフェーズ内で見られる、付番された実施形態105の核酸配列ライブラリー。
107.上記第1の核酸セグメントと上記第2の核酸セグメントは、20kbよりも大きな距離だけ離れたフェーズ内で見られる、付番された実施形態105または106の核酸配列ライブラリー。
108.上記第1の核酸セグメントと上記第2の核酸セグメントは、50kbよりも大きな距離だけ離れたフェーズ内で見られる、付番された実施形態105-107のいずれか1つの核酸配列ライブラリー。
109.上記第1の核酸セグメントと上記第2の核酸セグメントは、100kbよりも大きな距離だけ離れたフェーズ内で見られる、付番された実施形態105-108のいずれか1つの核酸配列ライブラリー。
110.上記リードの少なくとも1つは第1の核酸セグメントの少なくとも1kbを含むことを特徴とする、付番された実施形態105-109のいずれか1つの核酸配列ライブラリー。
111.上記リードの少なくとも1つは第1の核酸セグメントの少なくとも5kbを含むことを特徴とする、付番された実施形態105-110のいずれか1つの核酸配列ライブラリー。
112.上記リードの少なくとも1つは第1の核酸セグメントの少なくとも10kbを含むことを特徴とする、付番された実施形態105-111のいずれか1つの核酸配列ライブラリー。
113.上記リードの少なくとも1つは第1の核酸セグメントの少なくとも20kbを含むことを特徴とする、付番された実施形態105-112のいずれか1つの核酸配列ライブラリー。
114.上記リードの少なくとも1つは第1の核酸セグメントの少なくとも50kbを含むことを特徴とする、付番された実施形態105-113のいずれか1つの核酸配列ライブラリー。
115.核酸配列ライブラリーは、上記核酸サンプルの少なくとも80%を含むことを特徴とする、付番された実施形態105-114のいずれか1つの核酸配列ライブラリー。
116.核酸配列ライブラリーは、上記核酸サンプルの少なくとも85%を含むことを特徴とする、付番された実施形態105-115のいずれか1つの核酸配列ライブラリー。
117.核酸配列ライブラリーは、上記核酸サンプルの少なくとも90%を含むことを特徴とする、付番された実施形態105-116のいずれか1つの核酸配列ライブラリー。
118.核酸配列ライブラリーは、上記核酸サンプルの少なくとも95%を含むことを特徴とする、付番された実施形態105-117のいずれか1つの核酸配列ライブラリー。
119.核酸配列ライブラリーは、上記核酸サンプルの少なくとも99%を含むことを特徴とする、付番された実施形態105-118のいずれか1つの核酸配列ライブラリー。
120.核酸配列ライブラリーは、上記核酸サンプルの少なくとも99.9%を含むことを特徴とする、付番された実施形態105-119のいずれか1つの核酸配列ライブラリー。
121.上記核酸配列ライブラリーは、少なくとも1kbの平均長さを有する核酸配列リードの集団を含み、上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの配列の少なくとも300塩基を含み、上記2つの別々のフェーズ内領域は、核酸サンプル中で10kbよりも大きな距離離れている、核酸配列ライブラリー。
122.上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの配列の少なくとも500塩基を含むことを特徴とする、付番された実施形態121の核酸配列ライブラリー。
123.上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの少なくとも1kbの配列を含むことを特徴とする、付番された実施形態121または122のいずれか1つの核酸配列ライブラリー。
124.上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの少なくとも2kbの配列を含むことを特徴とする、付番された実施形態121から123のいずれか1つの核酸配列ライブラリー。
125.上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの少なくとも5kbの配列を含むことを特徴とする、付番された実施形態121から124のいずれか1つの核酸配列ライブラリー。
126.上記リードは独立して、核酸サンプルの2つの別々のフェーズ内領域からの少なくとも10kbの配列を含むことを特徴とする、付番された実施形態121から125のいずれか1つの核酸配列ライブラリー。
127.上記2つの別々のフェーズ内領域は、核酸サンプル中で20kbよりも大きな距離だけ離れていることを特徴とする、付番された実施形態121から126のいずれか1つの核酸配列ライブラリー。
128.上記2つの別々のフェーズ内領域は、核酸サンプル中で30kbよりも大きな距離だけ離れていることを特徴とする、付番された実施形態121から127のいずれか1つの核酸配列ライブラリー。
129.上記2つの別々のフェーズ内領域は、リードの少なくとも1%において核酸サンプル中で50kbよりも大きな距離だけ離れていることを特徴とする、付番された実施形態121から128のいずれか1つの核酸配列ライブラリー。
130.上記2つの別々のフェーズ内領域は、リードの少なくとも1%において核酸サンプル中で100kbよりも大きな距離だけ離れていることを特徴とする、付番された実施形態121から129のいずれか1つの核酸配列ライブラリー。
131.核酸配列ライブラリーは、上記核酸サンプルの少なくとも80%を含むことを特徴とする、付番された実施形態121-130のいずれか1つの核酸配列ライブラリー。
132.核酸配列ライブラリーは、上記核酸サンプルの少なくとも85%を含むことを特徴とする、付番された実施形態121-131のいずれか1つの核酸配列ライブラリー。
133.核酸配列ライブラリーは、上記核酸サンプルの少なくとも90%を含むことを特徴とする、付番された実施形態121-132のいずれか1つの核酸配列ライブラリー。
134.核酸配列ライブラリーは、上記核酸サンプルの少なくとも95%を含むことを特徴とする、付番された実施形態121-133のいずれか1つの核酸配列ライブラリー。
135.核酸配列ライブラリーは、上記核酸サンプルの少なくとも99%を含むことを特徴とする、付番された実施形態121-134のいずれか1つの核酸配列ライブラリー。
136.核酸配列ライブラリーは、上記核酸サンプルの少なくとも99.9%を含むことを特徴とする、付番された実施形態121-135のいずれか1つの核酸配列ライブラリー。
137.核酸サンプルから生成される核酸ライブラリーであって、核酸サンプルの核酸配列の少なくとも80%は、核酸ライブラリーで表され、核酸サンプルのフェーズ内配列セグメントは、核酸サンプルのフェーズ内セグメントの離れた位置にある少なくとも1つのペアが単一の配列リードで読まれるように、再配列され、上記ライブラリーの配列決定が、核酸サンプルの少なくとも80%にまたがるコンティグ情報と、上記核酸サンプルのフェージングされた配列を生成するために、上記コンティグ情報を順序付けて配向するのに十分なフェーズ情報を同時に生成する、ことを特徴とする核酸ライブラリー。
138.核酸サンプルの核酸配列の少なくとも90%は、核酸ライブラリーで表わされることを特徴とする、付番された実施形態137の核酸ライブラリー。
139.核酸サンプルの核酸配列の少なくとも95%は、核酸ライブラリーで表わされることを特徴とする、付番された実施形態137から138のいずれか1つの核酸ライブラリー。
140.核酸サンプルの核酸配列の少なくとも99%は、核酸ライブラリーで表わされることを特徴とする、付番された実施形態137から139のいずれか1つの核酸ライブラリー。
141.核酸サンプルの核酸配列の上記80%は、せいぜい100,000のライブラリー成分から得られることを特徴とする、付番された実施形態137から140のいずれか1つの核酸ライブラリー。
142.核酸サンプルの核酸配列の上記80%は、せいぜい10,000のライブラリー成分から得られることを特徴とする、付番された実施形態137から141のいずれか1つの核酸ライブラリー。
143.核酸サンプルの核酸配列の上記80%は、せいぜい1,000のライブラリー成分から得られることを特徴とする、付番された実施形態137から142のいずれか1つの核酸ライブラリー。
144.上核酸サンプルの核酸配列の上記80%は、せいぜい500のライブラリー成分から得られることを特徴とする、付番された実施形態137から143のいずれか1つの核酸ライブラリー。
145.サンプルはゲノムサンプルであることを特徴とする、付番された実施形態137から144のいずれか1つの核酸ライブラリー。
146.サンプルは真核生物のゲノムサンプルであることを特徴とする、付番された実施形態137から145のいずれか1つの核酸ライブラリー。
147.サンプルは植物のゲノムサンプルであることを特徴とする、付番された実施形態137から146のいずれか1つの核酸ライブラリー。
148.サンプルは動物のゲノムサンプルであることを特徴とする、付番された実施形態137から147のいずれか1つの核酸ライブラリー。
149.サンプルは哺乳動物のゲノムサンプルであることを特徴とする、付番された実施形態137から148のいずれか1つの核酸ライブラリー。
150.サンプルは真核単核生物のゲノムサンプルであることを特徴とする、付番された実施形態137から149のいずれか1つの核酸ライブラリー。
151.サンプルはヒトゲノムサンプルであることを特徴とする、付番された実施形態137から150のいずれか1つの核酸ライブラリー。
152.核酸ライブラリーはフェーズ情報を保護するためにバーコード化されないことを特徴とする、付番された実施形態137から151のいずれか1つの核酸ライブラリー。
153.上記ライブラリーのリードは、第1の領域からの少なくとも1kbの配列と、第1の領域とフェーズ内にありかつサンプル中の第1の領域から50kbを超えて離れている第2の領域からの少なくとも100塩基の配列を含む、ことを特徴とする、付番された実施形態137から152のいずれか1つの核酸ライブラリー。
154.配列決定デバイス上で配列決定するために核酸分子を構成する方法であって、核酸分子は少なくとも100kbの配列を含み、上記少なくとも100kbの配列は、配列決定デバイスのリード長より大きな長さによって離れた第1のセグメントと第2のセグメントを含み、該方法は、第1のセグメントと第2のセグメントが配列決定デバイスのリード長未満だけ離れるように、核酸分子の第2のセグメントに対する第1のセグメントの相対位置を変更する工程を含み、第1のセグメントと第2のセグメントのためのフェーズ情報は維持され、核酸分子のせいぜい10%が欠失する、方法。
155.第1のセグメントと第2のセグメントの少なくとも一部にまたがるリードを生成する工程を含む、付番された実施形態154の方法。
156.核酸分子の配列の共通のフェーズに、第1のセグメントと第2のセグメントを割り当てる工程を含む、付番された実施形態154-155のいずれか1つの方法。
157.核酸分子のせいぜい5%が欠失することを特徴とする、付番された実施形態154から156のいずれか1つの方法。
158.核酸分子のせいぜい1%以下が欠失することを特徴とする、付番された実施形態154から157のいずれか1つの方法。
159.第1のセグメントと第2のセグメントとは、構成前に核酸分子中で少なくとも10kb離れていることを特徴とする、付番された実施形態154から158のいずれか1つの方法。
160.第1のセグメントと第2のセグメントは、構成前に核酸分子中で少なくとも50kb離れていることを特徴とする、付番された実施形態154から159のいずれか1つの方法。
161.第1のセグメントと第2のセグメントは、上記構成後に、接合部マーカーによって分離されることを特徴とする、付番された実施形態154から160のいずれか1つの方法。
162.核酸の末端にステムループを取り付ける工程を含み、それによって、分子を一本鎖に変換する工程を含む、付番された実施形態154から161のいずれか1つの方法。
163.核酸分子を環状化する工程を含む、付番された実施形態154から162のいずれか1つの方法。
164.DNAポリメラーゼに核酸分子を取り付ける工程を含む、付番された実施形態154から163のいずれか1つの方法。
165.第1のセグメントと第2のセグメントがホスホジエステル骨格とは無関係に一緒に保持されるように、核酸分子を結合する工程と、少なくとも2つの位置で第1のセグメントと第2のセグメントとの間のホスホジエステル骨格を切断する工程と、第1のセグメントと第2のセグメントが配列決定デバイスのリード長未満だけ離れるように、第1のセグメントを第2のセグメントへ再度取り付ける工程とを含む、付番された実施形態154から164のいずれか1つの方法。
166.上記の切断する工程と上記の再度取り付ける工程は、上記核酸分子からの配列情報の喪失を引き起こさない、付番された実施形態154から165のいずれか1つの方法。
167.第1の核酸分子からの長距離フェーズ情報を生成する方法であって、該方法は:a)第1のセグメント、第2のセグメント、および第3のセグメントを有する第1の核酸分子を含むサンプルを提供する工程であって、第1のセグメント、第2のセグメント、および第3のセグメントのいずれも第1の核酸分子上では隣接しておらず、第1のセグメント、第2のセグメント、および第3のセグメントが第1の核酸分子の共通のホスホジエステル骨格とは無関係にフレームワークに結合するように、第1の核酸分子はフレームワークに接触する、工程と、b)第1のセグメント、第2のセグメント、および第3のセグメントが共通のホスホジエステル骨格によって結合されないように、第1の核酸分子を切断する工程と、c)第1のセグメントを第2のセグメントに接続し、第2のセグメントを第3のセグメントに接続する工程と、d)第1のセグメント、第2のセグメント、および第3のセグメントを含む第1の核酸分子の第1の部分を配列決定する工程であって、それによって、第1のセグメント配列情報、第2のセグメント配列情報、および第3のセグメント配列情報を生成し、ここで、第1のセグメント配列情報、第2のセグメント配列情報、および第3のセグメント配列情報が、第1の核酸分子に関する長距離フェーズ情報を提供する、工程と、を含む方法。
168.フレームワークは再構成されたクロマチンを含むことを特徴とする、付番された実施形態167の方法。
169.フレームワークは天然のクロマチンを含むことを特徴とする、付番された実施形態167から168のいずれか1つの方法。
170.切断する工程は制限酵素を用いて行われることを特徴とする、付番された実施形態167から169のいずれか1つの方法。
171.切断する工程はフラグメンターゼ(fragmentase)を用いて行われることを特徴とする、付番された実施形態167から170のいずれか1つの方法。
172.配列決定の前に、多くとも2つのセグメントを含む第1の核酸分子の第2の部分をサンプルから取り除く工程をさらに含む、付番された実施形態167から171のいずれか1つの方法。
173.第1のセグメント配列情報、第2のセグメント配列情報および第3のセグメント配列情報を用いて第1の核酸分子の配列をアセンブルする工程をさらに含む、付番された実施形態167から172のいずれか1つの方法。
174.核酸分子を配列決定する方法であって、該方法は:共通のホスホジエステル骨格を共有する、第1のセグメント、第2のセグメントおよび第3のセグメントを含む第1の核酸分子を得る工程であって、第1のセグメント、第2のセグメントおよび第3のセグメントのいずれも、上記第1の核酸分子上では隣接していない、工程と;第1のセグメント、第2のセグメント、および第3のセグメントがその共通のホスホジエステル骨格とは無関係に関連付けられるように、上記核酸分子を分割する工程と;第1のセグメント、第2のセグメント、および第3のセグメントを結合する連続的なホスホジエステル骨格がないように、フラグメントを生成するために核酸分子を切断する工程と;記第1のセグメント、第2のセグメント、および第3のセグメントが共通のホスホジエステル骨格を共有する再配列された核酸分子上で連続的になるように、上記フラグメントをライゲートする工程と;上記再配列された核酸分子の少なくとも5,000のベースが単一リード中で配列決定されるように、上記再配列された核酸分子の少なくとも一部を配列決定する工程と、を含む方法。
175.分割は、上記第1のセグメント、第2のセグメントおよび第3のセグメントが、その共通のホスホジエステル骨格から独立した共通の複合体中で結合するように、上記核酸分子を結合部分に接触させる工程を含むことを特徴とする、付番された実施形態174の方法。
176.核酸分子を複数のDNA結合分子に接触させる工程は、DNA結合タンパク質の集団に接触させる工程を含む、付番された実施形態174から175のいずれか1つの方法。
177.DNA結合タンパク質の集団は、核タンパク質を含むことを特徴とする、付番された実施形態174から176のいずれか1つの方法。
178.DNA結合タンパク質の集団は、ヌクレオソームを含むことを特徴とする、付番された実施形態174から177のいずれか1つの方法。
179.DNA結合タンパク質の集団は、ヒストンを含むことを特徴とする、付番された実施形態174から178のいずれか1つの方法。
180.複数のDNA結合部分へ核酸分子を接触させる工程は、DNA結合ナノ粒子の集団に接触させることを含むことを特徴とする、付番された実施形態174から179のいずれか1つの方法。
181.核酸分子を切断する工程は、制限エンドヌクレアーゼに接触させることを含むことを特徴とする、付番された実施形態174から180のいずれか1つの方法。
182.核酸分子を切断する工程は、非特異的なエンドヌクレアーゼに接触させることを含むことを特徴とする、付番された実施形態174から181のいずれか1つの方法。
183.核酸分子を切断する工程は、タグメンテーション酵素に接触させることを含むことを特徴とする、付番された実施形態174から182のいずれか1つの方法。
184.核酸分子を切断する工程は、トランスポサーゼに接触させることを含むことを特徴とする、付番された実施形態174から183のいずれか1つの方法。
185.核酸分子を切断する工程は、第1の分子を剪断することを含むことを特徴とする、付番された実施形態174から184のいずれか1つの方法。
186.分割する工程は、サンプルの他の核酸分子から上記核酸分子を分離することを含むことを特徴とする、付番された実施形態174から185のいずれか1つの方法。
187.分割する工程は、上記核酸サンプルを希釈することを特徴とする、付番された実施形態174から186のいずれか1つの方法。
188.割する工程は、上記核酸分子をエマルジョンの微小液滴へ分布させることを含むことを特徴とする、付番された実施形態174から187のいずれか1つの方法。
189.生物のゲノムのゲノムフェーズ情報を表す核酸分子であって、上記核酸分子は単一のゲノム分子にマッピングされる少なくとも20kbの核酸配列情報を含み、上記配列情報はゲノム分子中のその位置に対して再配列されたセグメントを含み、上記生物のゲノムに独自にマッピングされる配列情報の少なくとも70%は、単一のゲノム分子にマッピングされることを特徴とする、核酸分子。
190.核酸分子は、少なくとも20のセグメントを含むことを特徴とする、付番された実施形態189の核酸分子。
191.上記セグメントは上記生物のゲノムにおいて隣接しないことを特徴とする、付番された実施形態189から190のいずれか1つの核酸分子。
192.少なくとも20kbの少なくとも100の核酸分子成分を含む核酸ライブラリーであって、成分は、生物のゲノムの再配列されたセグメントを含み;ライブラリー成分の一意にマッピングされるセグメントの少なくとも70%は、共通のゲノム分子にマッピングされ;成分は核酸結合部分に結合されないことを特徴とする、核酸ライブラリー。
193.少なくとも20kbの少なくとも100の核酸分子成分に対応する配列を含む核酸データセットであって、成分は、生物のゲノムの少なくとも5つの再配列されたセグメントを含み、上記再配列されたセグメントの70%未満が共通の足場へマッピングされる成分は、下流の分析から除外されることを特徴とする、核酸データセット。
194.少なくとも20kbの少なくとも100の核酸分子成分に対応する配列を含む核酸データセットであって、成分は、生物のゲノムの少なくとも5つの再配列されたセグメントを含み、上記配列の70%未満が共通の足場へマッピングされる成分は、下流の分析から除外されることを特徴とする、核酸データセット。
【0155】
図を参照すると、本明細書に記載された特定の実施形態の実例が見られる。
図1では、句切られ、再配列されたフェーズを保存する核酸分子を構成するプロセスにおける中間体が見られる。単一の核酸分子を、再構成されたクロマチン複合体などの核酸結合部分に結合させ、および、複合体と架橋するためにホルムアルデヒドに接触させた。複合体は、核酸分子の内部ループのみがクラスターから突き出るように、まとめて再構成されたクロマチンと呼ばれる核酸結合成分とクラスターを形成する単一の核酸開始分子(nucleic acid starting molecule)を含む。
図1に描写されるように、突き出るループは、制限エンドヌクレアーゼMboIを使用して切断されて粘着末端を生成する。
【0156】
代替的な実施形態では、核酸分子は、SPRI被覆ビーズまたは他の核酸結合剤被覆ビーズなどの、ビーズまたは表面に結合される。核酸サンプルは、ビーズあたり1つの核酸分子のみが結合するような条件下、または結合した核酸が切断後にクロスライゲート(cross-ligate)しないような条件下で結合される。また、切断は、他の制限エンドヌクレアーゼ、トランスポサーゼ、タグメンテーション酵素、非特異的エンドヌクレアーゼ、トポイソメラーゼまたはエンドヌクレアーゼ活性を有する他の薬剤を用いて、交互に達成される。
【0157】
図2では、
図1の切断された核酸複合体が、オーバーハングの単一の位置を埋めるように、核酸ポリメラーゼおよびdGTPの単一の集団を用いて処理されているのが見られる。埋め込み工程は、後の工程で複合体の粘着末端がクロスアニーリングおよびライゲートするのを防止する。場合によっては、該工程は除外され、複合体は句切りオリゴ(punctuation oligo)なしでクロスライゲートすることができる。交互に、平滑末端が生成されるか、または制限エンドヌクレアーゼではなくトランスポザーゼの作用を介してタグメンテーションアダプターが付加される。
【0158】
図3は、複合体の露出した末端に句切りオリゴをアニーリングおよびライゲートした後の
図1および
図2の複合体を示す。句切りオリゴは核酸塩基配列としてではなく細い実線として描写されている。句切りオリゴは、例えば、5’リン酸基を除去することにより、コンカテマー化(concatemerization)を防止するように随意に修飾される。句切りオリゴは、
図2において修飾されたように、自由粘着末端と適合するように随意に設計される。他の実施形態では、切断された核酸末端は、介在する句切りオリゴなしで、互いに直接ライゲートされうる。
【0159】
図4は、プロテイナーゼKを用いた処理を通じて、再構成されたクロマチンからの架橋および遊離を逆転させた後の放出された句切られた核酸分子を示す。最終産物の句切られた核酸(end-product punctuated nucleic acid)は、句切りオリゴ (401)の分だけ離されたセグメント(400)を含む。セグメントは、元の核酸分子のフェーズ情報を保存するが、開始分子に対してランダムに順序付けられ方向付けられる。句切られた分子を配列決定すると、デノボコンティグを生成するのに十分な配列情報が生成されるように、実質的にすべての元の核酸分子の配列は句切られた分子の中に存在する。
【0160】
ロングリード配列決定デバイスを使用して句切られた核酸を配列決定する際、局所的な順序および方向、ならびにフェーズ情報が導き出される、切断されていないセグメントに対応する配列の伸張が観察される。句切りオリゴ配列に及ぶ長い配列リードの領域もまた観察される。句切りオリゴのいずれかの側のこれらの配列セグメントは、互いとフェーズ内にある(および、句切られた分子上の他のセグメントとフェーズ内にある)ことが知られているが、正しい順序および方向になる可能性は低い。再配列プロセスの利点は、サンプル分子上で互いに非常に離れたセグメントが、単一のリードに及ぶように近接させられるということである。別の利点は、元のサンプル分子の配列情報は、デノボコンティグ情報が同時に生成されるように、大部分は保存されるということである。
【0161】
図5は、本開示の代替的な実施形態を示す。一連の短いペアエンド(500)は、それぞれ対で結合された配列がフェーズ内にあることを示し、(例えば、増幅アダプター(501)を用いて)アダプタータグ付けされ、連鎖状のペアエンドマルチマー(502)を形成するためにライゲートされる。個々のペア、または、それらが一意にマッピングされるコンティグは、共通のフェーズに確信的に割り当てられる。増幅アダプタの一方のリードペアユニットは、コンカテマーアセンブリで追加の措置がとられなければ、互いに順序、方向、またはフェーズ関係を有するとは推論されない。
【0162】
図5の連鎖状の分子の利点は、複数のペアエンドのリードは、より多数のショートランリードにおいてではなく、単一またはより少数のロングリード反応において配列決定される単一の分子にアセンブルされる、ということである。しかしながら、個々のペアエンドのセグメントの長さはより短いため、開始サンプルの全体的な配列は、連鎖状の分子に保存されない可能性があり、デノボ配列決定を複雑にする。
【0163】
図6は代替的なシナリオを示し、それによって、句切られた核酸分子(600)は、短リード配列決定のための鋳型を生成するために使用される。句切られた核酸分子は、句切り配列にアニーリングし、かつ、ビン特異的オリゴヌクレオチドバーコード(602)を含む、プライマー(601)の集団に接触する。次いで、プライマーを伸長させて、例えば、句切られた核酸分子に相補的な配列(603)を組み込むことができる。このアプローチを通じて、フェーズ情報がバーコード情報から導き出される。利点は、ショートリードの配列決定が促進されるということである。
【0164】
図7は、ライゲーション工程(「BF」)前およびライゲーション工程(「AF」)後の、2つのサンプルのゲル電気泳動分析を示す。左端のレーンは、上から下へ48500、15000、7000、4000、3000、2500、2000、1500、1200、900、600、400、250および100 bpであるサイズのDNAラダーを包含している。左から2つ目および3つ目のレーンは、ライゲーション前後のサンプル1をそれぞれ包含している。左から4つ目および5つ目のレーンは、ライゲーション前後のサンプル2をそれぞれ包含している。ライゲートされたサンプル1およびサンプル2の両方が、7000~48500bpの範囲でDNAの暗いバンドを示し、これはいずれかのライゲーション前のレーンのバンドよりもはるかに大きい。サンプル1は、合計約200ngのDNAを有する、マイクロリットルあたり約7ナノグラム(ng/μL)のDNAを含み、サンプル2は、合計約3.4μgのDNAを有する、約115ng/μLのDNAを含む。
【0165】
図8は、サンプルについての配列決定情報に関する代表的な情報を示す。1,000,000以上の循環的なコンセンサス配列(CSS)のリードが生成され、300,000のリード(25%)はマッピングされない。1,500,000のマッピングされたセグメント(-q 1)および1,350,000のマッピングされたセグメント(-q 20)がある。1つのマッピングされたセグメントでのリードについては、n=500,000;2つのマッピングされたセグメントでのリードについては、n=175,000;3つのマッピングされたセグメントでのリードについては、n=75,000;4つのマッピングされたセグメントでのリードについては、n=30,000;5つのマッピングされたセグメントについてのリードについては、n=15,000;6つのマッピングされたセグメントでのリードについては、n=7,000;表1は、X個のマッピングセグメントの最大数でのリードからのクローンカバレッジ(clone coverage)を示す。
【0166】
図9Aおよび
図9Bは、10kbのビン(
図9A)および1Kbのビン(
図9B)で、1サンプルにつきX個のマッピングされたセグメントでのリードが及ぶ距離の度数分布を示す。y軸は、PacBio CCSリードの数を示す(軸は下から上に: 1、10、100、1000、10000)。x軸は、リードが及ぶ距離を示す(軸は左から右に:
図9A: 0、200000、400000、600000、800000、1000000;
図9B: 0、20000、40000、60000、80000、100000)。度数分布は、1つのマッピングされたセグメント(901、911)、2つのマッピングされたセグメント(902、912)、3つのマッピングされたセグメント(903、913)、4つのマッピングされたセグメント(904、914)および5つのマッピングされたセグメント(905、915)でのリードのために示される。
【0167】
図10は、本明細書に記載される方法を実施するために適合される典型的なコンピュータシステム(1000)を表す。システム(1000)は、本明細書に記述された典型的な方法を実施するようにプログラムされた中央コンピュータサーバー(1001)を含む。サーバー(1001)は、シングルコアプロセッサ、マルチコアプロセッサ、または並列処理のための複数のプロセッサでありうる、中央処理装置(CPUまたは「プロセッサ」)(1005)を含む。サーバー(1001)はまた、メモリ(1010)(例えばランダムアクセスメモリ、リードオンリーメモリ、フラッシュメモリ)と;電子記憶装置(1015)(例えばハードディスク)と;1つ以上の他のシステムと通信するための通信インターフェース(1020)(例えばネットワークアダプタ)と;キャッシュ、他のメモリ、データストレージ、および/または電子ディスプレイアダプタ、を含みうる周辺機器(1025)と、を含む。メモリ(1010)、記憶装置(1015)、インターフェース(1020)、および周辺機器(1025)は、マザーボードなどの通信バス(実線)を介してプロセッサ(1005)と通信する。記憶装置(1015)は、データを保存するためのデータ記憶装置であってもよい。サーバー(1001)は、通信インタフェース(1020)を用いてコンピュータネットワーク(「ネットワーク」)(1030)に作動可能に連結される。ネットワーク(1030)は、インターネット、イントラネット、および/または、エクストラネット、インターネットと通信しているイントラネットおよび/またはエクストラネット、遠距離通信、またはデータネットワークであってもよい。ネットワーク(1030)は、場合によっては、サーバー(1001)を用いて、サーバー(1001)に連結されたデバイスがクライアントまたはサーバーとして動作することを可能にしうるピアツーピアネットワークを実施することができる。
【0168】
記憶装置(1015)は、被験体の報告、および/または世話人との通信、配列データ、個体に関するデータ、または本発明に関連するデータの任意の態様などのファイルを保存することができる。
【0169】
サーバーは、ネットワーク(1030)を通じて1つ以上のリモートコンピュータシステムと通信することができる。1つ以上のリモートコンピュータシステムは、例えばパソコン、ラップトップ、タブレット、電話、スマートフォンまたは携帯情報端末であってもよい。
【0170】
いくつかの状況では、システム(1000)は単一のサーバー(1001)を含んでいる。他の状況では、システムは、イントラネット、エクストラネットおよび/またはインターネットを介して互いに通信する複数のサーバーを含む。
【0171】
サーバー(1001)は、例えば、多型、突然変異、病歴、家族歴、人口統計データ、および/または潜在的に関連しうる他の情報などの、測定データ、被験体由来の患者情報を保存するように適合させることができる。このような情報は、記憶装置(1015)またはサーバー(1001)上に保存することができ、このようなデータはネットワークを通じて送信することができる。
【0172】
本明細書に使用されるように、核酸セグメントは、それらがフェーズ内にある場合、少なくとも部分的に単一のリード内にある場合に、「近接して」いる。
【0173】
<実施例>
実施例1.いくつかのロングリードの配列決定アプローチは、二倍体DNAサンプルにおいていくつかの突然変異をフェーズできない
特定のヒト疾患の処置は、機能的な遺伝子産物の存在に依存する。この遺伝子産物がある状態では、治療的分子が代謝されて有効な代謝産物を産出する。遺伝子産物がない状態で、治療的分子は蓄積し、患者に有害となる。
【0174】
患者のゲノムはショットガン配列決定され、2つの点突然変異が処置の有効性に必要な遺伝子産物をコードする遺伝子座にマッピングされることが判定される。2つの点突然変異は、アセンブルされたショットガン足場において30kb離される。2つの点突然変異についてのフェーズ情報は利用不可能であり、したがって、実務者は、患者が野生型対立遺伝子および二重変異対立遺伝子を保有しているかどうか、または代替的に、患者が、一方は遺伝子座の5’末端に、もう1つは遺伝子座の3’末端にある2つの単一変異ヌル対立遺伝子を独立して保有しているかどうかを判定することができない。
【0175】
DNAは患者から抽出され、サンプルはロングリード配列決定マシン上で配列決定される。平均的な単一のロングリードの限界は10-15kbである。リードは、患者は、第1および第2の突然変異の両方についてヘテロ接合性であることを確認する。しかしながら、患者のゲノムにおける突然変異は30kb離れていると仮定すると、生成された配列情報を使用してフェーズ情報を得ることができない。結果として、実務者は、患者が野生型対立遺伝子および二重変異ヌル対立遺伝子を保有しており、したがって治療的分子を用いた治療に適格であるかどうか、または、患者は2つの単一突然変異ヌル対立遺伝子を保有し、したがって治療的分子を代謝することができないかどうかを判定することができない。患者は処置を拒否され、症状に苦しみ続ける。
【0176】
この実施例は、特に突然変異がホモ接合型DNAの長い伸長の分だけ離れている場合、ショットガンリードと組み合わせて使用される長距離配列決定アプローチは正確に段階的に突然変異を行わないことを実証する。さらに、この実施例は、フェーズ情報をゲノム配列に正確に割り当てることができないと、患者の健康に影響を及ぼすことを例証する。
【0177】
実施例2.二倍体DNAサンプルにおける突然変異の成功したフェージング
実施例1の患者由来のDNAを、本明細書に開示されるアプローチを使用してフェーズ解析に供する。
【0178】
DNAは実施例1に記載の患者から抽出される。句切られた挿入シャッフル分子のライブラリーが、フェーズ情報が保存され、一方で配列セグメントの相対的な位置が再配列されるように生成される。
【0179】
抽出されたDNAは、再構成されたクロマチンへとインビトロでアセンブルされる。再構成されたクロマチンは、制限酵素MboIで切断される。結果として生じる粘着末端は、制限酵素に生成されたオーバーハングの再ライゲーションを防止するために、単一の塩基を用いて部分的に埋められる。消化されたDNAサンプルのオーバーハングに部分的に埋められた5’末端および3’末端を有する句切りオリゴヌクレオチドを、DNAリガーゼとともにDNAサンプルに添加する。オリゴヌクレオチドのコンカテマー化を回避するために、句切りオリゴヌクレオチドは、5’リン酸基を欠いている。このライゲーション工程は、もともとは互いに隣接していない末端がライゲーション後に互いに隣接するために、DNAセグメントの再編成をもたらす。このプロセス中にDNA分子が架橋され再構成されたクロマチン足場に結合するので、フェーズ情報は維持される。
【0180】
完全なゲノム情報を、フェーズ判定とは無関係なショットガン配列工程を使用せずに得られるように、十分な配列情報が判定される。患者は、対象の遺伝子における第1および第2のヌル突然変異についてヘテロ接合性であると判定される。
【0181】
さらに、2つの突然変異を含む第1および第2のDNAセグメントがフェーズ情報の損失なしに再配列され、15kb未満の配列がそれらを離しているようなライブラリー分子が観察される。再配列された領域にわたるリードが生成され、第1および第2のヌル突然変異を含むことがわかった。再配列されたDNAサンプル中の第1および第2のDNAセグメントが、15kb未満離れているので、2つの突然変異は、両方とも単一の配列決定リードで検出されることができ、フェージング情報をもたらす。このフェージング情報は、患者が二重突然変異対立遺伝子を有することを判定するために使用される。異なる接合点を有するが、遺伝子座の第1および第2のヘテロ接合領域におよぶ第1および第2のセグメントも有する、第2のリードが観察される。再配列された分子における第1の領域および第2の領域は、両方とも野生型配列をコードすることが観察される。
【0182】
フェーズを保存する再配列を含む追加の分子が配列決定される。追加の分子は、互いに関する様々な位置で句切り挿入物(punctuation inserts)を有することがわかった。再配列された分子のいずれも、単一のヌル突然変異および単一の野生型対立遺伝子を保有しない。代わりに、両方のヘテロ接合領域に及ぶ配列リードの全てが、両方の遺伝子座に野生型対立遺伝子を、または、両方の遺伝子座にヌル変異を含む。
【0183】
患者のゲノムが二重変異ヌル対立遺伝子および野生型対立遺伝子を含むことが判定される。処置は効果的である可能性が高いと結論付けられる。患者は治療的分子を投与され、患者の状態は治療的分子の有益な活性によって緩和される。
【0184】
この実施例は、本明細書に開示される方法および組成物が、単一鋳型ライブラリーからのデノボ配列の生成およびフェージングを同時に可能にすることを例示する。個別のショットガン配列決定ライブラリーおよびフェーズ判定ライブラリーは必要ではなく、それにより、実質的に配列決定のコストを低減する。
【0185】
この実施例はまた、本明細書に開示される方法および組成物は、分子の大部分が同一であったとしても正確かつ重複して分子をフェージングさせ、および、ヘテロ接合位置は、使用される配列決定技術におけるリードの長さの2倍超である同一領域の分だけ離れていることを例示する。
【0186】
実施例3.いくつかのロングリードの配列決定のアプローチはトランスポゾンが豊富な作物DNAサンプルのフェージングの失敗
トウモロコシゲノムのおよそ90%がトランスポゾンなどの転移因子であると推測される。いくつかのトランスポゾンの反復の性質のために、対立遺伝子のフェージングは困難である。改良された収量および改良された栄養成分を有するトウモロコシ株を生産するために、トウモロコシ二重変異系統が望まれている。両方の突然変異が優勢であり、染色体の対向する末端に見出される。高収量のトウモロコシ株を高カロテノイドレベルのトウモロコシ株に交配させてヘテロ接合性の系統を産生させ、次いで自家交配させて分離子孫を生成する。
【0187】
子孫のいくつかは収量の向上と栄養成分の増加を実証することが観察されている。プロジェクトの次の工程は、高収量かつ高栄養含有株の1つを、胴枯れ病耐性(blight resistance)を示す株と交配することである。胴枯れ病耐性突然変異は、高収量突然変異または改良された栄養含有量突然変異のいずれかと同じDNA分子に含まれている場合、効力を失うことが知られている。タイムリーかつ高価な下流配列決定および表現型決定実験を最小化するために、同じDNA分子上に高収量および高栄養含有量の突然変異を含む親株と胴枯れ病耐性株との交配を実施することが望ましい。
【0188】
最初の交配由来の2つの親系統はほぼ同質遺伝子系統であり、そのゲノムの変異が最小になるように育種される。その結果、フェーズ判定を容易にするために利用できるマーカーはごくわずかしかない。配列決定のために数千の得られた苗からDNAを抽出して、同じDNA分子上のフェーズ内の収量および栄養の突然変異を含むものを判定する。収量遺伝子およびカロテノイド遺伝子は、反復性の高度に保存された転移因子によって離されるため、かつ、これらの突然変異とは別の系統間にはほとんど変化がないので、ショートリードの配列決定マシンはフェージング情報を提供できない。収量遺伝子の突然変異およびカロテノイド遺伝子の突然変異は染色体の対向する末端で見出されるので、両方の突然変異はロングリードの配列決定技術による単一のロングリード上で検出することができない。その結果、何千もの実生のうちのいずれかが、単一の染色体のフェーズ内に高収量の突然変異と高栄養の突然変異との所望の組み合わせを有するかどうかは知られていない。プロジェクトは予算内にとどまることができないことがわかったため、プロジェクトは中止される。
【0189】
実施例4.トランスポゾンが豊富な作物DNAサンプルのフェージングの成功
実施例3の実生のトウモロコシ由来のDNAサンプルが抽出され、セグメントがシャッフルされたフェーズを保存する配列決定ライブラリーを生成するために修飾される。結果として生じる再配列されたDNA分子は、ロングリードの配列決定マシン上で配列決定される。1つ以上の句切りオリゴヌクレオチドによって離された、収量の突然変異の遺伝子座および栄養の突然変異の遺伝子座に及ぶ単一の配列リードが得られる。2つの良性変異が単一の分子上のフェーズ内にあることを示すリードが、実生のサンプルのうちのいくつかについて観察される。開発途上国で必要とされる増大した栄養をもたらす強力なトウモロコシ株を生産するために、確認されたフェーズ内の高収量および改善された栄養成分含有株の1つが選択され、胴枯れ病耐性株と交配される。
【0190】
この実施例は、本明細書に開示される方法および組成物が、複数の反復因子を有する複雑なゲノムについてのフェーズ情報を判定するためにどのように使用されるかを実証する。この技術は、関連する作物種などの複雑なゲノムにおいても、正確で迅速なフェーズ判定を可能にする。
【0191】
実施例5.判別不能なフェーズを備えた突然変異を妨げる核酸
二倍体生物は、遺伝物質の各染色体の2つのコピーを含む。少なくとも30kbの同一の配列の分だけ離れている2つの突然変異が、二倍体ゲノムの単一の染色体上に存在する。DNAサンプルを、平均リード長が15kbであるロングリードの配列決定マシンで配列決定する。2つの突然変異が同一または異なる核酸分子に含まれているかどうかを判定することは不可能である。
【0192】
実施例6.核酸サンプルのフェーズ情報の判定
DNAを実施例5の生物から抽出する。DNAを、再構成されたクロマチンを生成するためにDNA結合タンパク質でインビトロでアセンブルする。再構成されたクロマチンは粘着末端を生産するために切断され、これは再ライゲーションを防止するために部分的に埋められる。部分的に埋められた粘着末端に適合する末端を有する句切りオリゴヌクレオチドを、DNAリガーゼと共にクロマチンサンプルに加える。いくつかの例では、オリゴヌクレオチドのコンカテマー化を回避するために、句切りオリゴヌクレオチドは、脱リン酸化されている。再ライゲートされたクロマチンサンプルのDNAセグメントは、開始DNAサンプルと比較して再配列されるが、分子が句切りプロセスを通じてクロマチンタンパク質に結合されるのでフェーズ情報は維持される。いくつかの例では、ゲノム内の2つの突然変異は15kb未満だけ離れるように再配列される。この場合、離れている距離は、ロングリード配列決定機器の平均のリード長未満である。再配列されたDNAサンプルがクロマチンタンパク質から放たれ、配列決定される時、フェーズ情報が判定され、および、デノボ配列足場を生成するのに十分な配列情報が生成される。
【0193】
実施例7.核酸サンプルのフェーズ情報の判定 - 平滑ライゲーション
DNAを実施例5の生物から抽出し、インビトロでDNA結合タンパク質を用いて再アセンブルして、再構成されたクロマチンを生成する。DNAを平滑末端を生産するために切断する。平滑末端を有する句切りオリゴヌクレオチドは、切断されたDNAサンプルの平滑末端にライゲートされる。オリゴヌクレオチドのコンカテマー化を回避するために、句切りオリゴヌクレオチドは、脱リン酸化されている。実施例6でのように、再配列されたDNAサンプルをクロマチンタンパク質から放ち、配列決定する。再配列されたDNAサンプルがクロマチンタンパク質から放たれ、配列決定される時、フェーズ情報が判定され、および、デノボ配列足場を生成するのに十分な配列情報が生成される。
【0194】
実施例8.句切り分子のバーコード化 - ショートリード
実施例6-7のいずれかで記述されるように、句切りオリゴヌクレオチドを含むDNAサンプルが生成される。DNA結合タンパク質からの放出後、句切られたDNA分子と呼ばれる自由DNAサンプルを少なくとも2つのセグメントを含むオリゴヌクレオチドに接触させる。1つのセグメントはバーコードを含み、第2のセグメントは句切り配列に補足的な配列を含む。句切り配列にアニーリングした後、バーコード化されたオリゴヌクレオチドをポリメラーゼで拡張して、同じDNA分子からのバーコード化された分子を産出する。これらのバーコード化された分子は、バーコード配列、句切り相補配列およびゲノムの配列を含む。拡張産物をショートリードの配列決定マシンで配列決定し、および、同じバーコードを有する配列リードを共通のフェーズへとグループ化することにより、フェーズ情報を判定する。
【0195】
実施例9.句切り分子のバーコード化 - ロングリード
実施例8でのように、DNAサンプルを抽出し、句切り、バーコード化する。拡張後、バーコード化された産物を一緒にバルクライゲートして、ロングリード配列決定技術を用いて読み取られる長い分子を生成する。埋められたリードペアは、増幅アダプタおよび句切り配列を介して識別可能である。さらに詳しいフェーズ情報はリードペアのバーコード配列から得られる。
【0196】
実施例10.トランスポゾン句切りを用いたフェーズ情報の判定
実施例5のDNAサンプルを抽出し、インビトロでDNA結合タンパク質を用いて再アセンブルして、再構成されたクロマチンを生成する。2つの結合していない句切りオリゴヌクレオチドに結合したトランスポサーゼをDNAサンプルに加える。トランスポサーゼは露出したDNAセグメントを切断し、DNAに2つの句切りオリゴヌクレオチドを挿入する。所与のトランスポサーゼの句切りオリゴヌクレオチドは結合されないため、この挿入は2つの自由DNA末端を結果としてもたらし、各々が2つの句切りオリゴヌクレオチドのうちの1つによって終結し、かつ、各々が再構成されたクロマチンに繋ぎ止められてフェーズ情報を保存する。DNAリガーゼをサンプルに添加して、平滑DNA末端を一緒に連結し、DNAセグメントの再配列をもたらすが、DNA分子がこのプロセス全体を通じてクロマチンタンパク質に結合されるのでフェーズ情報は維持される。実施例6でのように、再配列されたDNAサンプルをクロマチンタンパク質から放出し、配列決定して、フェーズ情報を判定する。
【0197】
実施例11.トランスポゾン句切りを用いたフェーズ情報の判定 - ショートリード
実施例10に記載の通り、DNAサンプルを抽出し、再構成されたクロマチンへとインビトロで再アセンブルし、トランスポサーゼで句切った。平滑末端の再ライゲーションに続いて、再ライゲートされたDNAセグメントを、制限消化によってタンパク質DNA複合体から放出し、複数のペアエンドを結果としてもたらし、これらを続いて増幅アダプタにライゲートする。増幅に続いて、ペアエンドを短い範囲技術(short reach technology)で配列決定する。句切り接合部のいずれの側についても、句切りに隣接する配列は、共通の分子の共通のフェーズに由来すると確信的に結論付けられる。
【0198】
実施例12.トランスポゾン句切りを用いたフェーズ情報の決定 - ロングリード
実施例10に記載の通り、DNAサンプルを抽出し、再構成されたクロマチンへとインビトロで再アセンブルし、トランスポサーゼで句切った。平滑末端の再ライゲーションに続いて、再ライゲートされたDNAセグメントを、制限消化によってタンパク質DNA複合体から放出し、複数のペアエンドを結果としてもたらし、これらを続いて増幅アダプタにライゲートする。増幅後、複数のペアエンドを一緒にバルクライゲートして、ロングリードの配列決定技術を用いて読み取られる長い分子を生成する。埋められたリードペアは、トランスポサーゼ句切り配列に隣接する天然のDNA配列を介して識別可能である。連鎖状の句切られた接合部は、長い配列デバイス上で読み取られ、かつ、複数の接合部についての配列情報が得られる。接合部は複数の異なる染色体にマッピングされることが分かる。しかしながら、句切り接合部のいずれの側についても、句切りに隣接する配列は、共通の分子の共通のフェーズに由来すると確信的に結論付けられる。
【0199】
実施例13.Chicagoペア(Chicago pairs)のコンカテマー生成
DNAサンプルを抽出し、インビトロでDNA結合タンパク質を用いて再アセンブルして、再構成されたクロマチンを生成する。DNAを粘着末端を生産するために切断する。粘着末端は、ビオチン化ヌクレオチドで埋められ、続いて、Chicagoペアと呼ばれるDNAセグメントペアを生成するために、埋められた末端の平滑ライゲーションが行われる。これらの再シャッフルされた核酸は、クロマチンタンパク質から放出され、切断されストレプトアビジン結合ライゲーション接合部が単離される。増幅アダプタはChicagoペアの自由端に加えられる。増幅に続いて、Chicagoペアは、ロングリードの配列技術を使用して読まれる長い分子を生成するために、一緒にバルクライゲートされる。埋められたリードペアは、増幅アダプタを介して識別可能である。ビオチン化塩基を導入するために使用される「埋め込みプロセス(fill-in process)」中で生成された配列反復も、フェーズ内配列内で接続する接合部を識別するために使用される。
【0200】
ライゲートされたコンカテマーは、ロングリードの配列決定デバイスの単一のリードにおいて配列決定される。個々の接合部が連鎖状であるので、1回のリードで複数の接合部を配列決定することができる。
【0201】
実施例14.ヘアピンDNA分子のフェージング
実施例6、7、9、10、または12のいずれかで生成されたような、長い句切られたDNA分子が、一方の末端でヘアピンアダプターにライゲートされ、逆方向反復を有する自己アニーリング一本鎖分子を生じる。分子は配列決定酵素を介して供給され、逆方向反復の各側の全長配列が得られる。結果として生じた配列のリードは、それぞれがフェーズ情報を伝達する、複数の再配列されたセグメントを有する句切られたDNA分子の2xカバレッジに対応する。核酸サンプルのデノボ足場を独立して生成するために十分な配列が生成される。
【0202】
実施例15.環状化DNA分子のフェージング
実施例6、7、9、10、または12のいずれかにおいて生成されたような長い、句切られたDNA分子が、所望の長さの二本鎖分子の集団を形成するために切断される。これらの分子は各末端で一本鎖アダプタにライゲートされる。成果は、両端のヘアピンループによってキャップされた二本鎖DNA鋳型である。環状の分子は連続的な配列決定技術によって配列決定される。長い二重鎖セグメントを含む分子の連続的なロングリードの配列決定は、各分子の単一の近接しているリードをもたらす。短い二重鎖セグメントを含む分子の連続的な配列決定は、分子の複数のリードをもたらし、これは分子のコンセンサス配列を確認するために、単独で、または連続的なロングリード配列情報と共に、使用される。句切りオリゴでマークされたゲノムセグメント境界が識別され、句切り境界に隣接する配列がフェーズ内にあると結論付けられる。核酸サンプルのデノボ足場を独立して生成するために十分な配列が生成される。
【0203】
実施例16.複数の句切られたDNA分子を用いたフェージングされた配列アセンブリ
複数の句切られたDNA分子が、実施例6、7、9、10、または12のいずれかにおいて記載されたように生成され、続いて、ロングリードの配列決定技術を使用して配列決定される。複数の句切られたDNA分子からの配列を比較する。上記複数のDNA分子の2つの分子は共通する配列を共有しているが、独立して由来し、異なる句切りオリゴを有していることが観察される。第1の分子の所与の句切りオリゴについては、配列は句切りオリゴの各々の一方上で判定され、句切りオリゴのいずれかの側の配列セグメントは、共通の分子上でフェーズ内にあることが結論付けられる。しかしながら、フェーズ内セグメントの相対的な位置は明らかではない。
【0204】
第1の句切られたDNA分子の1つのセグメントが、第2の句切られたDNA分子の配列と比較される。第1の分子の句切りオリゴの近くのセグメント末端が、第2の句切られたDNA分子のセグメントの内部にマッピングされることが分かる。第1の句切られたDNA分子の句切りオリゴを超えて整列する第2の句切られたオリゴのセグメントの配列は、第1の句切りDNA分子にマッピングされ、遠位のセグメントが同定される。ガイドとして第2のDNA分子セグメントを使用すると、第1の句切られたDNA分子の2つのセグメントが、元の核酸サンプルにおいて互いに隣接して位置づけられていたことが判定される。
【0205】
すなわち、第1の句切られた分子は、その構成セグメントのフェーズ情報を判定するために使用され、一方で、第2の(および付加的な)句切られたDNA分子の句切られていない領域との比較を使用して、第1の句切られた分子のセグメントを順序付ける。このプロセスを相互に繰り返して、フェーズ情報および順序情報が、複数の句切りオリゴのそれぞれにおける大多数のセグメントについて判定される。
【0206】
結果として生じたアセンブルされた配列は、再配列が起こる前のインプットDNA分子のフェージングされた配列であり、核酸サンプルのデノボなフェージングされたアセンブリを表す。
【0207】
実施例17.ロングリードの配列データでのショートリード配列決定データのフェージング
句切られたDNA分子が実施例6、7、9、10、または12のいずれかにおいて記述されたように生成され、続いて、ロングリードの配列決定技術を使用して配列決定される。平行して、インプットDNAは標準的なショートリードのショットガン配列決定技術を使用して配列決定される。サンプルからのショットガン配列は、再配列されたDNA分子から生成されたロングリードのデータにマッピングされる。句切られた分子のフェージングされたゲノムの配列は、同時に生成されたショートリード配列決定から得られた配列決定データにマッピングされる。ショートリードのうちのいくつかはロングリードの生成された配列にマッピングされる。このオーバーラップは、短い配列のリードを、句切られたDNA分子の長い配列決定リードから生成されたゲノム配列と同じフェーズに割り当てることを可能にする。
【0208】
実施例18.核酸配列ライブラリー-ロングリード
複数の句切られたDNA分子が実施例6、7、9、10、または12のいずれかにおいて記述されたように生成し、続いて、ロングリードの配列決定技術を使用して配列決定した。句切られた分子をそれぞれ配列決定し、配列リードが分析する。配列リードは配列反応につき平均10kbである。少なくとも第1のセグメントの500塩基および第2のセグメントの500塩基を含む配列リードが識別され、句切りオリゴ配列によって接合される。第1および第2のセグメント配列は足場ゲノムにマッピングされ、少なくとも100kb離れているコンティグにマッピングされるとわかる。
【0209】
第1のコンティグおよび第2のコンティグはそれぞれ、単一のヘテロ接合の位置を含み、そのフェーズは足場においては判定されない。第1のコンティグのヘテロ接合の位置はロングリードの第1のセグメントにわたり、第2のコンティグのヘテロ接合の位置は、ロングリードの第2のセグメントの500塩基にわたる。
【0210】
リードは各々そのコンティグのそれぞれのヘテロ接合の領域にまたがる。リードセグメントの配列は、第1のコンティグの第1の対立遺伝子および第2のコンティグの第1の対立遺伝子がフェーズ内にあることを示す。第1および第2の核酸セグメントからの配列が単一の長い配列リード中で検出されるので、第1および第2の核酸セグメントがインプットDNAサンプル中の同じDNA分子上に含まれることが判定される。
【0211】
この実施例は、句切り分子からのロングリードが、ゲノム足場上で互いから離れて位置づけられるコンティグについてのフェーズ情報を提供することを示している。この実施例は、句切りオリゴに隣接する各セグメントのサイズは、正確なマッピングを容易にするのに十分に大きく、ヘテロ接合位置に及ぶ可能性を高めるので、マッピングが高い信頼度で行われることも示している。
【0212】
実施例19.核酸配列ライブラリー-ショートリード
実施例8または11のいずれかに記載のように、複数のペアエンド分子が生成され、続いてロングリード配列決定技術を用いて配列決定される。ライブラリーについての平均のリード長は1kbであると判定された。ペアエンド分子は、インプットDNA試料内でフェーズ内にあり、かつ10kbを超える距離ほど離している第1のDNAセグメントおよび第2のDNAセグメントを含む。配列リードはペアエンド分子から生成され、これらのうちのいくつかは、第1の核酸セグメントからの配列の少なくとも300塩基、および第2の核酸セグメントからの配列の少なくとも300塩基を含む。第1および第2の核酸セグメントからの配列が単一の配列リードにおいて検出されるので、第1および第2の核酸セグメントが、インプットDNAサンプル中の同じDNA分子の上のフェーズ内にあることが判定される。
【0213】
この実施例は、本明細書に教示されるような再配列され句切られた分子を使用すると、配列決定に使用される配列決定技術のリード長よりも長く核酸サンプル中で離れているDNAセグメントについてのフェーズ情報を産出する配列ライブラリーを生成する、ということを示している。
【0214】
実施例20.核酸配列ライブラリー-同時フェージングされたDNAアセンブリ
複数の配列リードが句切られたDNAライブラリーから生成される。ライブラリーは、句切り事象のいずれかの側のセグメントが単一の分子上でフェーズ内にあると判定されるように、実施例18または19に記載されているとおりフェーズ情報を伝える。加えて、生成された配列リードは、インプットDNAサンプルの核酸配列の少なくとも80%を表す。配列リードはインプットDNAサンプルの少なくとも80%に及ぶデノボコンティグ情報を生成するために使用される。さらに、配列リードはフェーズ情報を判定するために使用され、これは、続いて、インプットDNAサンプルのフェージングされた配列アセンブリを生成するために互いに関するコンティグを順序付けおよび方向付けるために使用される。
【0215】
この実施例は、句切られたDNA分子がフェーズ情報を伝達し、場合によっては全核酸配列の実質的な部分を含む配列情報を含み、結果、デノボ配列アセンブリが同時に生成されるということを示す。
【0216】
実施例21.DNA分子フェージング
少なくとも100kbの長さのすくなくともいくつかのDNA分子を含む高分子量(HMW)のDNAサンプルを抽出する。100kbのDNA分子のうちの1つは、標準的な配列決定技術の平均のリード長より長い距離だけ離れている第1のDNAセグメントおよび第2のDNAセグメントを含む。核酸サンプルは二倍体であるが、配列が同一の大きな領域を含み、フェーズ判定を複雑にしている。
【0217】
確信的なフェーズ判定のためには、第1および第2のDNAセグメントを単一の配列決定リード内で検出する必要がある。したがって、第1および第2のDNAセグメントが標準的な配列決定技術の平均のリード長未満の距離だけ離れているように、第1および第2のDNAセグメントの相対的位置は変更されなければならない。この再配列はフェーズ情報の損失をもたらしてはならない。この再配列は、本明細書に開示された方法によって、かつ、実施例6、7、または10のいずれかに記載されたとおりに達成される。フェーズを維持する再配列のあいだ、開始HMW DNA分子の多くとも10%が欠失する。すなわち、第1のセグメントおよび第2のセグメントは単に介在する配列の除去によってのみでは近接しない。もっと正確に言えば、セグメントは、介在する配列の大部分を除去すること無く互いに関して再配列される。配列決定に続いて、インプットDNA分子全体が保存されているため、生成された配列のリードを新規に生成されたコンティグをアセンブルし、順序付け、および方向付けるために使用して、ほとんど全てのインプットDNA分子が配列決定され、アセンブルされ、フェージングされる。
【0218】
実施例22.哺乳類細胞の培養の分析
哺乳類細胞の培養のサンプルは本明細書に記述された技術を使用して分析される。簡潔に言うと、哺乳動物細胞の細胞培養物を成長させる。細胞を架橋させ、架橋を停止させ、細胞ペレットを-20℃で保存する。細胞をホモジナイズし、核を溶解緩衝液中に回収する。ホモジネート中の核をSPRIビーズに結合し、DpnII制限酵素を使用して消化する。末端をビオチン-11-dCTPなしで充填し、平滑末端をライゲートする。架橋結合を逆にし、DNAを配列決定のために回収し、浄化(clean up)し、調製する。配列決定は、Pacific Biosciences SMRTのロングリードの配列決定を用いて実施する。場合によっては、DNAは、配列決定の前に、少なくとも約6kbの長さの分子についてサイズの選択をすることができる。
【0219】
ライゲーションが適切に行われることを確実にするために2つのサンプルを試験する。
図7は、別々のサンプルにおける成功したライゲーションを示す結果の代表例である。各サンプルについて、ライゲーションは、実質的により高分子量の核酸へのシフトを導いたことが確認される。
【0220】
図8では、このようなライブラリー生成プロセスの結果が見られる。1,000,000以上の循環的なコンセンサス配列(CSS)のリードのうち、300,000のみがマッピングされない。1,500,000のマッピングされたセグメント(-q 1)および1,350,000のマッピングされたセグメント(-q 20)がある。1つのマッピングされたセグメントでのリードについては、n=500,000;2つのマッピングされたセグメントでのリードについては、n=175,000;3つのマッピングされたセグメントでのリードについては、n=75,000;4つのマッピングされたセグメントでのリードについては、n=30,000;5つのマッピングされたセグメントについてのリードについては、n=15,000;6つのマッピングされたセグメントでのリードについては、n=7,000;これは、セグメントが容易に同定され、および、ライブラリー生成プロトコルを配列決定することで、複数の再配列されたセグメントにわたるリードが生成されることを実証する。
【0221】
表1は、示された数のマッピングセグメントを有するリードからのクローンカバレッジを示す。本明細書に示されるように、ライブラリー生成プロトコルは、2以上のマッピングセグメントを有するクローンの数によって示されるような貴重なフェージング情報をもたらしながら、全体のセグメント配列において実質的に全体のゲノムカバレッジをもたらす。多くのゲノムは反復配列を有しているために、一意的にマッピングされたセグメントの数は、再構成されたライブラリー成分の分子中のセグメントの総数の過小な見積となる。
【0222】
【0223】
図9Aおよび
図9Bは、10kbのビン(
図9A)および1Kbのビン(
図9B)へとソートされる、1サンプルにつきX個のマッピングされたセグメントでのリードが及ぶ距離の度数分布を示す。この図中のデータは、ゲノム配列情報(しばしば多型を含む)とフェーズ情報との両方を提供するために、本明細書に開示されるライブラリー生成プロトコルが、認識可能な接合部にライゲートされた一意にマッピングされる複数のセグメントを有するリードをもたらし、その結果、たとえ多形がサンプルのゲノム中で配列の長さより長い距離で生じ、ヘテロ接合性のマーカーを有さない配列によって離れていたとしても、これらの多型を互いに対してフェージングすることができる、という結論を再確認する。