(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-12-10
(45)【発行日】2024-12-18
(54)【発明の名称】ペアエンドライブラリータグ組成物及びそれのMGIシーケンシングプラットフォームにおける使用
(51)【国際特許分類】
C40B 70/00 20060101AFI20241211BHJP
C12Q 1/6869 20180101ALI20241211BHJP
C12Q 1/6876 20180101ALI20241211BHJP
C40B 40/06 20060101ALI20241211BHJP
【FI】
C40B70/00 ZNA
C12Q1/6869 Z
C12Q1/6876 Z
C40B40/06
(21)【出願番号】P 2023511829
(86)(22)【出願日】2020-12-28
(86)【国際出願番号】 CN2020139919
(87)【国際公開番号】W WO2022036977
(87)【国際公開日】2022-02-24
【審査請求日】2023-02-14
(31)【優先権主張番号】202010838955.X
(32)【優先日】2020-08-19
(33)【優先権主張国・地域又は機関】CN
(73)【特許権者】
【識別番号】523051996
【氏名又は名称】ナノディグンバイオ (ナンジン) バイオテクノロジー カンパニー リミテッド
【氏名又は名称原語表記】NANODIGMBIO (NANJING) BIOTECHNOLOGY CO., LTD
(74)【代理人】
【識別番号】110002066
【氏名又は名称】弁理士法人筒井国際特許事務所
(72)【発明者】
【氏名】ワン,ビャオ
(72)【発明者】
【氏名】フー,ユーガン
(72)【発明者】
【氏名】ウー,チアン
【審査官】福間 信子
(56)【参考文献】
【文献】中国特許出願公開第111534518(CN,A)
【文献】国際公開第2020/118596(WO,A1)
【文献】中国特許出願公開第111455469(CN,A)
【文献】中国特許出願公開第106497920(CN,A)
(58)【調査した分野】(Int.Cl.,DB名)
C12N
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
ペアエンドライブラリー
タグ組成物であって、前記ペアエンドライブラリー
タグ組成物は、複数の5’末端のライブラリー
タグと、複数の3’末端のライブラリー
タグとを含み、複数の前記5’末端のライブラリー
タグの長さは、全て同じであり、複数の前記3’末端のライブラリー
タグの長さは、全て同じであり、且つ前記ペアエンドライブラリー
タグ組成物において、同じ位置で各塩基の出現回数は同じであり、
前記複数の前記5’末端のライブラリー
タグの長さは、複数の前記3’末端のライブラリー
タグの長さと同じであり、
前記ペアエンドライブラリー
タグ組成物において、任意の2種類の前記ライブラリー
タグの間に、少なくとも3つの塩基の違いが存在し、且つ、任意の1種類の前記ライブラリー
タグ中に連続する同一塩基数が3以下であり、
任意の1種類の前記ライブラリー
タグのGC含有量は、40%~60%であり、
前記ペアエンドライブラリー
タグ組成物は、4
タグバランスのペアエンドライブラリー
タグの組み合せ、又は8
タグバランスのペアエンドライブラリー
タグの組み合せを含み、前記4
タグバランスのペアエンドライブラリー
タグの組み合せは、4n個の前記5’末端のライブラリー
タグと、4n個の前記3’末端のライブラリー
タグとの組み合せを指し、前記8
タグバランスのペアエンドライブラリー
タグの組み合せは、8n個の前記5’末端のライブラリー
タグと、8n個の前記3’末端のライブラリー
タグとの組み合せを指しており、ここで、nは1以上の自然数であり、
前記4
タグバランスのペアエンドライブラリー
タグの組み合せにおいて、前記5’末端のライブラリー
タグは、表1に示す96群中の任意の一群又は複数群から選択され、前記3’末端のライブラリー
タグ群は、表1に示す96群中の、前記5’末端のライブラリー
タグ群と異なる任意の一群又は複数群から選択され、
前記8
タグバランスのペアエンドライブラリー
タグの組み合せにおいて、前記5’末端のライブラリー
タグは、表2に示す48群中の任意の一群又は複数群から選択され、前記3’末端のライブラリー
タグ群は、表2に示す48群中の、前記5’末端のライブラリー
タグ群と異なる任意の一群又は複数群から選択される、
ペアエンドライブラリー
タグ組成物。
【請求項2】
MGIシーケンシングプラットフォームに基づくペアエンドライブラリー
タグ付けの増幅プライマー組成物であって、前記増幅プライマー組成物は、複数のペアエンドライブラリー
タグ付けの増幅プライマー対の組み合せを含み、各前記増幅プライマー対は、5’末端のライブラリー
タグと、3’末端のライブラリー
タグとを含み、
複数の前記増幅プライマー対の5’末端のライブラリー
タグの長さは、全て同じであり、複数の前記増幅プライマー対の3’末端のライブラリー
タグの長さは、全て同じであり、且つ、同じ位置で各塩基の出現回数は同じであり、
複数の前記増幅プライマー対の5’末端のライブラリー
タグの長さは、複数の前記増幅プライマー対の3’末端のライブラリー
タグの長さと同じであり、
前記増幅プライマー組成物において、任意の2種類のライブラリー
タグの間に、少なくとも3つの塩基の違いが存在し、且つ、任意の1種類のライブラリー
タグ中に連続する同一塩基数が3以下であり、
複数の前記5’末端のライブラリー
タグと複数の前記3’末端のライブラリー
タグのGC含有量は、いずれも40%~60%であり、
前記増幅プライマー組成物は、4
タグバランスの4n個の増幅プライマー対の組み合せ、又は8
タグバランスの8n個の増幅プライマー対の組み合せを含み、前記4
タグバランスのペアエンドライブラリー
タグの組み合せは、4n個の前記5’末端のライブラリー
タグと、4n個の前記3’末端のライブラリー
タグとの組み合せを指し、前記8
タグバランスのペアエンドライブラリー
タグの組み合せは、8n個の前記5’末端のライブラリー
タグと、8n個の前記3’末端のライブラリー
タグとの組み合せを指しており、ここで、nは1以上の自然数であり、
前記4
タグバランスの4n個の増幅プライマー対において、前記5’末端のライブラリー
タグは、表1に示す96群中の任意の一群又は複数群から選択され、前記3’末端のライブラリー
タグ群は、表1に示す96群中の、前記5’末端のライブラリー
タグ群と異なる任意の一群又は複数群から選択され、
前記8
タグバランスの8n個の増幅プライマー対において、前記5’末端のライブラリー
タグは、表2に示す48群中の任意の一群又は複数群から選択され、前記3’末端のライブラリー
タグ群は、表2に示す48群中の、前記5’末端のライブラリー
タグ群と異なる任意の一群又は複数群から選択される、
増幅プライマー組成物。
【請求項3】
各前記増幅プライマー対は、5’末端共通増幅配列と、3’末端共通増幅配列とをさらに含み、前記5’末端共通増幅配列は、前記5’末端のライブラリー
タグの上流に位置する共通配列と、前記5’末端のライブラリー
タグの下流に位置する共通配列とを含み、前記3’末端共通増幅配列は、前記3’末端のライブラリー
タグの上流に位置する共通配列と、前記3’末端のライブラリー
タグの下流に位置する共通配列とを含み、
前記5’末端のライブラリー
タグの上流に位置する共通配列は、SEQ ID NO:793であり、前記5’末端のライブラリー
タグの下流に位置する共通配列は、SEQ ID NO:794であり、前記3’末端のライブラリー
タグの上流に位置する共通配列は、SEQ ID NO:795であり、前記3’末端のライブラリー
タグの下流に位置する共通配列は、SEQ ID NO:796であり、或いは、
前記5’末端のライブラリー
タグの上流に位置する共通配列は、SEQ ID NO:793であり、前記5’末端のライブラリー
タグの下流に位置する共通配列は、SEQ ID NO:797であり、前記3’末端のライブラリー
タグの上流に位置する共通配列は、SEQ ID NO:795であり、前記3’末端のライブラリー
タグの下流に位置する共通配列は、SEQ ID NO:798である、
請求項2に記載の増幅プライマー組成物。
【請求項4】
請求項2に記載の増幅プライマー組成物を含む、
シーケンシングライブラリー構築試薬キット。
【請求項5】
前記試薬キットは、バブルアダプターをさらに含み、前記バブルアダプターは、第1アダプター配列と、第2アダプター配列とを含み、前記第1アダプター配列はSEQ ID NO:769であり、前記第2アダプター配列はSEQ ID NO:770であり、或いは、前記第1アダプター配列はSEQ ID NO:773であり、前記第2アダプター配列はSEQ ID NO:774である、
請求項4に記載の試薬キット。
【請求項6】
請求項4又は5に記載の試薬キットを採用して構築する、
MGIシーケンシングプラットフォームに基づくシーケンシングライブラリーの構築方法。
【請求項7】
請求項1に記載のペアエンドライブラリー
タグ組成物、又は請求項2に記載の増幅プライマー組成物を含む、
シーケンシングライブラリー。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、血漿DNAライブラリー構築の領域に関し、具体的には、ペアエンドライブラリータグ組成物及びそれのMGIシーケンシングプラットフォームにおける使用に関する。
【背景技術】
【0002】
MGIハイスループットシーケンサーのシーケンシング過程では、より多くのサンプルのシーケンシングを実現するために、各サンプルを異なるタグ配列(Index)で標記してシーケンシングした後に分割する必要がある。しかし、既存のMGIシーケンシングプラットフォームは基本的にシングルエンドタグのライブラリーを使用している。シングルエンドタグ(Index)には天然の欠陥が存在するため、サンプル間のクロストークが発生しやすい。合成、実験操作及びシーケンシングの各ステップにタグアダプター又はプライマーによる汚染で、クロストークが避けられないため、サンプル間の低頻度のクロストークを解決する必要があり、現在のところ、サンプル間のクロストークを効果的に除去できるペアエンドタグの方法が最適である。
【0003】
ペアエンドタグを採用することは、シングルエンドタグを採用することと比較して、シーケンスデータを分割する場合には、シーケンサーがタグ配列を正確に読み取ることができるかどうかは、シーケンスデータの有効分割に重大な影響を与える。ペアエンドタグ配列の読み取りに問題があると、シーケンスデータの有効分割率が低下し、シーケンシングコストが上昇することになる。
【0004】
従って、如何に、ペアエンドタグの方式で混合シーケンスのライブラリーを標記して、一方ではサンプルのクロストーク現象を減らし、他方では多サンプル混合シーケンシング後のデータの有効分割率を向上させることは、問題となっている。
【発明の概要】
【発明が解決しようとする課題】
【0005】
本発明の主な目的は、現在のMGIシーケンシングプラットフォームがシングルエンドタグを利用してライブラリーを標記する際のサンプルクロストークという問題を解決するために、ペアエンドライブラリータグ組成物及びそれのMGIシーケンシングプラットフォームにおける使用を提供することである。
【課題を解決するための手段】
【0006】
上記の目的を実現するために、本出願の第1の態様によれば、ペアエンドライブラリータグ組成物が提供され、ペアエンドライブラリータグ組成物は、複数の5’末端のライブラリータグと、複数の3’末端のライブラリータグとを含み、複数の5’末端のライブラリータグの長さは、全て同じであり、複数の3’末端のライブラリータグの長さは、全て同じであり、且つ、ペアエンドライブラリータグ組成物において、同じ位置で各塩基の出現回数は同じである。
【0007】
さらに、複数の5’末端のライブラリータグの長さは、複数の3’末端のライブラリータグの長さと同じであり、好ましくはいずれも6~10bpの間のいずれかの固定長さであり、好ましくは、ペアエンドライブラリータグ組成物において、任意の2種類のライブラリータグの間に、少なくとも3つの塩基の違いが存在し、且つ、任意の1種類のライブラリータグ中に連続する同一塩基数が3以下であり、好ましくは、任意の1種類のライブラリータグのGC含有量は40~60%であり、好ましくは、ペアエンドライブラリータグ組成物は、4タグバランスのペアエンドライブラリータグの組み合せ、又は8タグバランスのペアエンドライブラリータグの組み合せを含み、ここで、4タグバランスのペアエンドライブラリータグの組み合せは、4n個の5’末端のライブラリータグと、4n個の3’末端のライブラリータグとの組み合せであり、8タグバランスのペアエンドライブラリータグの組み合せは、8n個の5’末端のライブラリータグと、8n個の3’末端のライブラリータグとの組み合せであり、ここで、nは1以上の自然数である。
【0008】
さらに、4タグバランスのペアエンドライブラリータグの組み合せにおいて、5’末端のライブラリータグは、表1に示す96群中の任意の一群又は複数群から選択され、3’末端のライブラリータグ群は、表1に示す96群中の、5’末端のライブラリータグ群と異なる任意の一群又は複数群から選択される。
【0009】
さらに、8タグバランスのペアエンドライブラリータグの組み合せにおいて、5’末端のライブラリータグは、表2に示す48群中の任意の一群又は複数群から選択され、3’末端のライブラリータグ群は、表2に示す48群中の、5’末端のライブラリータグ群と異なる任意の一群又は複数群から選択される。
【0010】
本発明の第2の態様によれば、MGIシーケンシングプラットフォームに基づくペアエンドライブラリータグ付けの増幅プライマー組成物が提供され、該増幅プライマー組成物は、複数のペアエンドライブラリータグ付けの増幅プライマー対の組み合せを含み、各増幅プライマー対は、5’末端のライブラリータグと、3’末端のライブラリータグとを含み、複数の増幅プライマー対の5’末端のライブラリータグの長さは、全て同じであり、複数の増幅プライマー対の3’末端のライブラリータグの長さは、全て同じであり、且つ同じ位置で各塩基の出現回数は同じである。
【0011】
さらに、複数の増幅プライマー対の5’末端のライブラリータグの長さは、複数の増幅プライマー対の3’末端のライブラリータグの長さと同じであり、好ましくは、5’末端のライブラリータグと3’末端のライブラリータグの長さは、いずれも6~10bpの間のいずれかの固定長さであり、好ましくは、増幅プライマー組成物において、任意の2種類のライブラリータグの間に、少なくとも3つの塩基の違いが存在し、且つ、任意の1種類のライブラリータグ中に連続する同一塩基数が3以下であり、好ましくは、複数の5’末端のライブラリータグと複数の3’末端のライブラリータグのGC含有量は、いずれも40~60%であり、好ましくは、増幅プライマー組成物は、4タグバランスの4n個の増幅プライマー対の組み合せ、又は8タグバランスの8n個の増幅プライマー対の組み合せを含み、nは1以上の自然数である。
【0012】
さらに、4タグバランスの4n個の増幅プライマー対において、5’末端のライブラリータグは、表1に示す96群中の任意の一群又は複数群から選択され、3’末端のライブラリータグ群は、表1に示す96群中の、5’末端のライブラリータグ群と異なる任意の一群又は複数群から選択され、好ましくは、8タグバランスの8n個の増幅プライマー対において、5’末端のライブラリータグは、表2に示す48群中の任意の一群又は複数群から選択され、3’末端のライブラリータグ群は、表2に示す48群中の、5’末端のライブラリータグ群と異なる任意の一群又は複数群から選択される。
【0013】
さらに、各増幅プライマー対は、5’末端共通増幅配列と、3’末端共通増幅配列とをさらに含み、5’末端共通増幅配列は、5’末端のライブラリータグの上流に位置する共通配列と、5’末端のライブラリータグの下流に位置する共通配列とを含み、3’末端共通増幅配列は、3’末端のライブラリータグの上流に位置する共通配列と、3’末端のライブラリータグの下流に位置する共通配列と、を含み、好ましくは、5’末端のライブラリータグの上流に位置する共通配列は、SEQ ID NO:793であり、5’末端のライブラリータグの下流に位置する共通配列は、SEQ ID NO:794であり、3’末端のライブラリータグの上流に位置する共通配列は、SEQ ID NO:795であり、3’末端のライブラリータグの下流に位置する共通配列は、SEQ ID NO:796であり、或いは、
5’末端のライブラリータグの上流に位置する共通配列は、SEQ ID NO:793であり、5’末端のライブラリータグの下流に位置する共通配列は、SEQ ID NO:797であり、3’末端のライブラリータグの上流に位置する共通配列は、SEQ ID NO:795であり、3’末端のライブラリータグの下流に位置する共通配列は、SEQ ID NO:798である。
【0014】
本発明の第3の態様によれば、上記のいずれかの増幅プライマー組成物を含むシーケンシングライブラリー構築試薬キットが提供される。
【0015】
さらに、試薬キットは、バブルアダプターを含み、バブルアダプターは、第1アダプター配列と、第2アダプター配列とを含み、第1アダプター配列はSEQ ID NO:769であり、第2アダプター配列はSEQ ID NO:770であり、或いは、第1アダプター配列はSEQ ID NO:773であり、第2アダプター配列はSEQ ID NO:774である。
【0016】
本発明の第4の態様によれば、上記試薬キットを採用して構築する、MGIシーケンシングプラットフォームに基づくシーケンシングライブラリーの構築方法が提供される。
【0017】
本発明の第5の態様によれば、シーケンシングライブラリーが提供され、該シーケンシングライブラリーは、上記ペアエンドライブラリータグ組み合せ、又は上記のいずれかの増幅プライマー組成物を含む。
【発明の効果】
【0018】
本発明の技術スキームを適用し、ペアエンドライブラリータグ及び最適化されたペアエンドライブラリータグ組み合せを導入し、ペアエンドライブラリータグを利用してデータ分割を行うことにより、合成、実験及びシーケンシング過程時に生じるクロストーク問題を解決することができ、検出結果をより正確にすることができる。
【0019】
さらに、ペアエンドライブラリータグ組み合せ中の各5’末端のライブラリータグの長さが同じであり、3’末端のライブラリータグの長さも同じであることを制御し、且つ同じ位置で各塩基の出現回数は同じであることを限定することにより、該組成物中のペアエンドタグの塩基の出現確率が同じであるため、該組成物中のペアエンドタグ付けのアダプター又はライブラリー増幅プライマーを合成する場合、ペアエンドライブラリータグ塩基のバランスの良い複数のライブラリーを得ることができ、これらの複数のライブラリーを混合してシーケンシングする際に、これらの混合ライブラリー中の各ライブラリーのペアエンドタグの読み取り正確性が高く、さらにライブラリーの有効分割率を向上させる。
【図面の簡単な説明】
【0020】
本出願の一部を構成する明細書の添付図面は、本発明のさらなる理解を提供するために用いられ、本発明の概略的な実施例及びその説明は、本発明を説明するために用いられ、本発明の不当な制限を構成するものではない。添付の図面は、下記の通りである。
【0021】
【
図1A】シングルエンド
タグではなくペアエンド
タグを使用するMGIシーケンシングプラットフォームのクロストーク除去のための利点を示す。
【
図1B】シングルエンド
タグではなくペアエンド
タグを使用するMGIシーケンシングプラットフォームのクロストーク除去のための利点を示す。
【
図1C】シングルエンド
タグではなくペアエンド
タグを使用するMGIシーケンシングプラットフォームのクロストーク除去のための利点を示す。
【
図2A】MGIのシングルエンド
タグアダプターを示す。
【
図2B】MGIのシングルエンド
タグアダプターを示す。
【
図3A】MGI的ペアエンド
タグアダプターを示す。
【
図3B】MGI的ペアエンド
タグアダプターを示す。
【
図4】MGIプラットフォームの2種類のペアエンド
タグのライブラリー構築の実現過程を示す。
【
図5】本発明のペアエンド
タグスキームはシングルエンド
タグアンプリコンスキームと互換性があることを示す。
【
図6】本出願のペアエンド
タグ増幅プライマーはシングルエンド
タグの分子
タグアダプターと互換性があることを示す。
【
図7A】4バランスと8バランス
タグ配列塩基バランス型を示す。
【
図7B】4バランスと8バランス
タグ配列塩基バランス型を示す。
【
図8】4バランスと8バランスの多混合過程中の塩基バランスの比較を示す。
【
図9】2種類ライブラリー構築スキームの収量比較を示す。
【
図10】4バランスと8バランスの12混合シーケンシング過程中のデータ分割差を示す。
【発明を実施するための形態】
【0022】
矛盾がない限り、本出願の実施例は特定の例示に過ぎず、一意に限定されるものではなく、本出願の実施例及び実施例における特徴は互いに組み合わせることができることに留意されたい。以下、本発明を実施例に関連させて詳細に説明する。
【0023】
用語の説明
ペアエンドタグアダプター:ハイスループットシーケンシングの時、各断片の末端にユニバーサルシーケンスアダプターを付加する必要があり、アダプターの非相補領域にそれぞれ有する可変配列領域配列は、タグ配列であり、それはシーケンシングの時にデータの分割に使用される。
【0024】
タグ配列塩基バランス:DNA配列は、A、T、G、Cの4種類の塩基からなり、シーケンシング過程中に効率よく読み取るために、タグ配列の各位置に均等な割合の塩基が存在するように1群のタグ配列を組み立てる。
【0025】
背景技術で述べたように、MGIのハイスループットシーケンサーは、シングルエンドタグ配列でライブラリーを構築すると、ある程度の割合のサンプル間のクロストークが発生する(これは、Illuminaのシーケンシングプラットフォームにも存在する現象で、MGIプラットフォームとIlluminaプラットフォームとがシーケンシング過程が大きく異なるものの、アダプター配列合成、ライブラリー構築及びハイブリダイゼーション捕捉過程では、どうしてもサンプル間のタグクロストークを引き起こすことは避けられない)。
【0026】
図1Aに示すように、実験で1%のクロストークがある場合、アダプター合成、ライブラリー構築、ハイブリダイゼーション捕捉又はシーケンシングにかかわらず、すべて同じクロストーク効果を持つことになる。現在、サンプル間のクロストークを解决する最良の方法は、ライブラリー構築の過程でペアエンド
タグ配列を導入することであり、
図1Bに示すように、クロストークの問題を解决するには、各実験ステップをできるだけ制御しながらペアエンド
タグ配列を導入する方法しかない。
図1Cに示すように、ペアエンド
タグスキームは、シングルエンドスキームよりもクロストークを100倍(1%から0.01%)低減する。
【0027】
従って、本出願は、MGIシーケンシングプラットフォームのサンプルクロストーク問題を解决するために、MGIの既存のシングルエンドタグをペアエンドタグに変更することによっても解決を試みている。具体的な開発の考え方や経緯は以下の通りである。
【0028】
MGIのライブラリー構築スキームは、IllumiaのY型アダプターと異なるバブルアダプターを採用し、MGIのシングルエンド
タグはアダプター内に融合すること(
図2Bを参照)であってもよく、分離されたスキーム(
図2Aを参照)であってもよいが、ペアエンド
タグの配列は、前端配列と融合することはできず(
図3Bを参照し、前端で
タグ配列を融合すると、前端相補領域が7bpしかないため、中間の泡状構造がより長くなり、この構造は安定性が非常に悪く、実現効率が悪く、
タグ配列プライマーとユニバーサルアダプターとが分離された截断型スキームよりも実現効果は悪い)、ユニバーサルアダプター及び分離されたペアエンド
タグの増幅プライマー構造形式のみを採用できる(
図3Aを参照)。
【0029】
発明者らは、
図3Aに示す構造形式に従ってペアエンド
タグをライゲーションしたが、実際使用の過程で、バブルアダプターの中間泡状が大きすぎてアニール二次構造の安定性に影響を与え、アニールが不十分だとアダプターライゲーション効率(平均ライゲーション効率は20%~40%である)に影響を与えることが分かった。MGIのバブルアダプターは、IlluminaのY型アダプターのペアエンド
タグの様にお互いに融合させることができることとは異なる。
【0030】
さらなる研究から分かるように、MGIの
バブルアダプターの中間領域非対合塩基は、
図4中のスキーム1に示すように、30±5bpであってもよく、この時に対合塩基が20±2bpである場合、より安定なアニーリングライゲーションを形成しやすく、ライゲーション効率を向上でき、中間領域非対合塩基は、
図4中のスキーム2に示すように、45±5bpであってもよく、この時に対合塩基が25±2bpである場合、形成されたアニーリングライゲーションがより安定で、ライゲーション効率もより高くなる。
【0031】
そして、発明者らは、スキーム2と比較して、スキーム1は、第1に、泡状領域が30±5bpであるアダプターはアニーリングが安定で、相補を必要とする領域が少なく、安定でライゲーションに寄与する、第2に、シングルエンド
タグのアンプリコンに適合し、
図5のようにアンプリコンをシングルエンドとペアエンド
タグで切り替えられる、第3に、
図6のようにシングルエンド分子
タグアダプターと互換性がある、というメリットを有することを見出した。
【0032】
さらなる研究の結果、発明者らは、上記スキーム1がスキーム2よりも優れているにもかかわらず、ペアエンド
タグ付けのMGIシーケンシングプラットフォームのシーケンスライブラリーを得ようとする場合、スキーム1又はスキーム2のいずれかがその目的を達成することも見出した。ペアエンド
タグで構築したライブラリーをさらに利用してシーケンシング及びシーケンシング後のデータ分割を行う場合、
図1Bに示すように、MGIのペアエンド
タグアダプターは、データを分割するためには両端の
タグ配列がいずれも正しいことが必要であり、シーケンシング時の塩基バランス要件がシングルエンド
タグよりもさらに厳しいことを発明者らは見出した。
【0033】
つまり、ペアエンドタグは、サンプルのクロストーク問題を解決するものの、シーケンスの塩基バランス要件が非常に厳しく、塩基バランスが悪いとシーケンスデータの正確な読み取りに重大な影響を与え、データの効果的な分割に影響を及ぼす。
【0034】
さらに正確にデータを分割するために、ペアエンドタグの塩基数がすべて10である場合を例として、発明者らは、1)各タグ配列の間に、3つの塩基の違いが存在する、2)各本配列のGC含有量を0.4~0.6の間に制御する、3)同じ連続する塩基数が3以下である、という塩基スクリーニング規則に従って、ペアエンドタグに対して塩基バランスを最適化した。
【0035】
そして、該タグ配列が増幅プライマー3’末端の共通プライマーとヘアピンフォールドなどの二次構造を形成し、従って該増幅プライマーの増幅効率を低下させ、同時に混合ライブラリー全体中の各タグ塩基のバランスに影響を与え、さらに後続の各タグの読み取り正確性に影響を与え、それによってシーケンスデータ分割の正確性を低下させないかを評価するように、前記規則に従ってスクリーニングされた各本タグ配列の二次構造評価を行った。
【0036】
上記スクリーニングと最適化規則に従って、本出願では、384種類の4
タグバランスと384種類の8
タグバランスの配列を最適化する。4
タグバランスとは、4個1群の
タグ配列バランスであり、
図7Aに示すように(表4中の前の1~4号
タグに対応する)、4個1群の
タグ配列は、
タグの1から10位に、各塩基A、T、GとCをそれぞれ1つ有する。同様に、8
タグバランスとは、8個1群の
タグ配列バランスであり、
図7Bに示すように(表5中の前の1~8号
タグに対応する)、8個1群の
タグ配列は、
タグの1から10位に、各塩基A、T、GとCをそれぞれ2つ有する。
【0037】
本出願の複数回の試験によると、4個1群のバランスは、最小のバランス単位であり、最適な組み合せであることが明らかになった。4バランスの組み合せは、4個、8個、12個及び16個などの4の倍数のバランス組み合せを組み立てることができるが、8バランスの組み合せは、8個と16個などの8の倍数のバランス組み合せを組み立てる必要がある。
【0038】
図8に示すように(左側の4バランス組み合せの
タグ配列は、表1中の最初の4群増幅プライマー群に付けられたライブラリー
タグ組み合せに対応し、右側の8バランス組み合せのライブラリー
タグは、表2中の最初の2群増幅プライマー群に付けられたライブラリー
タグ組み合せに対応する)、4個ライブラリー
タグを混合してシーケンシングする場合、4バランス中の各塩基がバランスしているため、各塩基の割合は25%であるが、8バランス組み合せのライブラリー
タグを採用する場合、各塩基の割合は0~50%である。
【0039】
8の倍数、例えば8個又は16個のサンプルを混合してシーケンシングする場合、ライブラリータグを組み合って各塩基の割合は25%で、バランスが取れている。12個のサンプルを混合してシーケンシングする場合、8バランス組み合せのライブラリータグ中の各塩基の割合は16.7%~33.3%の間にある。
【0040】
なお、4バランスの非整数倍は8バランスの組み合せよりもバランスが良く、4バランスの適用は、MGIシーケンサーのスケジューリングに有利である。MGIシーケンサーのシーケンススループットが高くなるにつれて、本出願に最適化された384種類の4バランスのタグ組み合せを採用して、互いに近接した各4個を1群にするのはスケジューリングに有利である(表1の4バランスの384種類のタグ配列を参照)。最適化された384種類の8バランスのタグ組み合せは、互いに近接した各8個を1群にするのは、同様にスケジューリングに有利である(表2の8バランスの384種類のタグ配列を参照)。
【0041】
好ましくは、本出願中の2種類のバランスタグは、ペアエンド増幅プライマーを組み立てる時、プライマー1配列が384種類の番号のフォワード配列であり、プライマー2が384種類の番号のリバース配列であり、本発明の一好ましい推奨配列方式に過ぎない。実際応用中で、実際のニーズに合わせて配置を組み合わせることも可能である。例えば、下記の表1に示すように、プライマー1として96群中のいずれかを選択した場合、プライマー2として残りの95群中のいずれかを選択することができる。
【0042】
もちろん、混合したサンプルの数が4より多い場合、例えば8や12であっても、プライマー1として選択されたタグ群番号が、プライマー2として選択されたタグ群番号と異なっていればよい。例えば、プライマー1として最初の3群を選択し、プライマー2として残りの93群から任意の3群を選択することができる。類推すると、4の整数倍のサンプルを混合してシーケンスを行う場合、この規則に従ってペアエンライブラリータグを選択することができる。
【0043】
混合したサンプルが4の整数倍ではない場合、サンプルシーケンスデータ量の多い4つを1群のバランスタグ組み合せに優先的に配置し、サンプルシーケンス量の4より少ないサンプルをさらなる1群のバランスの他のタグ組み合せに配置してライブラリーを構築してシーケンシングを行い、この場合、4バランスの組み合せを配置することは、8バランスの組み合せより明らかに有利である。4バランスの組み合せは、4の整数倍の半分が8バランスのものより有利なこと(4,12,20)に加え、非整数倍の組み合せも8バランスの組み合せを上回り、4n+1と4n+2の場合でも8バランス組み合せの同じサンプル混合シーケンスよりもバランスが良くなっている。
【0044】
したがって、4バランスは、8バランスとの比較では、1)4バランスの組み合せでバランスしたサンプルの組み合せ種類は8バランスの2倍である、2)バランスしていない3群の組み合せにおいて、4n+1と4n+2の組み合せも8バランスの組み合せよりバランスが良い、3)サンプル間のシーケンスデータ量に差がある場合、4バランスのものはバランスに近い組み合わせで配置しやすく、ビッグデータサンプルがバランスの組み合せで優先的に配置され、小さなシーケンス量のサンプルがバランスされなくてもよい、というメリットがある。
【0045】
【0046】
【0047】
4バランス群の方のデータ分割率が高いのは、シーケンサーがバランス構成の塩基をより正確に読み取るからで、塩基がバランスしていないと、間違って読み取られ、データ分割率が低くなることを招く。12個のサンプルを等しい割合で混合してシーケンシングする場合、それぞれ4バランスと8バランスの
タグ配列でライブラリーを構築してシーケンシングし、データの分割結果から見ると、
図10に示すように、4バランスの
タグ配列は、12個のサンプルのデータ分割はあまり変動せず、8バランスの
タグ配列は、12個のサンプルのデータ分割が一部のサンプルで著しく低くなる。
【0048】
上記の研究結果に基づいて、出願人は本出願の技術スキームを提案した。
【0049】
本出願の一典型的な実施形態において、ペアエンドライブラリータグ組成物が提供され、該ペアエンドライブラリータグ組成物は、複数の5’末端のライブラリータグと、複数の3’末端のライブラリータグとを含み、複数の5’末端のライブラリータグの長さは、全て同じであり、複数の3’末端のライブラリータグの長さは、全て同じであり、且つ、ペアエンドライブラリータグ組成物において、同じ位置で各塩基の出現回数は同じである。
【0050】
本出願で提供されたペアエンドライブラリータグ組成物は、該組み合せ中の各5’末端のライブラリータグの長さが同じであり、3’末端のライブラリータグの長さも同じであることを限定し、且つ同じ位置で各塩基の出現回数は同じであることを限定することにより、該組成物中のペアエンドタグの塩基の出現確率が同じであるため、該組成物中のペアエンドタグ付けのアダプター又はライブラリー増幅プライマーを合成する場合、ペアエンドライブラリータグ塩基のバランスの良い複数のライブラリーを得ることができ、これらの複数のライブラリーを混合してシーケンシングする際に、これらの混合ライブラリー中の各ライブラリーのペアエンドタグの読み取り正確性が高く、さらにライブラリーの有効分割率が向上させる。
【0051】
ライブラリータグの塩基バランスと読み取り正確性をさらに向上させるために、一好ましい実施例では、複数の5’末端のライブラリータグの長さは、複数の3’末端のライブラリータグの長さと同じであり、好ましくはいずれも6~10bpの間のいずれかの固定長さであり、両端におけるライブラリータグの長さは同じであるため、サンプルを分割する際に、両端におけるライブラリータグのサンプルの由来判定に関わる塩基数が同じであるため、両端ライブラリーが提供する支持の確率は同じであり、一端ライブラリータグが長く、提出する支持の参照確率が高く、他端ライブラリータグが短く、提供する支持の参照確率が低く、それにより、分割結果がある一端に依存するライブラリータグの分割結果に偏ってしまうことを回避することができる。
【0052】
好ましくは、ペアエンドライブラリータグ組成物において、任意の2種類のライブラリータグの間に、少なくとも3つの塩基の違いが存在し、且つ任意の1種類のライブラリータグ中に連続する同一塩基数が3以下であり、好ましくは、任意の1種類のライブラリータグのGC含有量はいずれも40~60%である。上記塩基最適化原則を満たすライブラリータグを組み合せて使用する場合、塩基読み取りのバランスがよく、読み取り結果がより正確で、データ分割率も高くなる。
【0053】
好ましくは、ペアエンドライブラリータグ組成物は、4タグバランスのペアエンドライブラリータグの組み合せ、又は8タグバランスのペアエンドライブラリータグの組み合せを含み、ここで、4タグバランスのペアエンドライブラリータグの組み合せは、4n個の5’末端のライブラリータグと、4n個の3’末端のライブラリータグとの組み合せであり、8タグバランスのペアエンドライブラリータグの組み合せは、8n個の5’末端のライブラリータグと、8n個の3’末端のライブラリータグとの組み合せであり、nは1以上の自然数である。
【0054】
一好ましい実施例では、4タグバランスのペアエンドライブラリータグの組み合せにおいて、5’末端のライブラリータグは、表1に示す96群中の任意の一群又は複数群から選択され、3’末端のライブラリータグ群は、表1に示す96群中の、5’末端のライブラリータグ群と異なる任意の一群又は複数群から選択される。
【0055】
一好ましい実施例では、8タグバランスのペアエンドライブラリータグの組み合せにおいて、5’末端のライブラリータグは、表2に示す48群中の任意の一群又は複数群から選択され、3’末端のライブラリータグ群は、表2に示す48群中の、5’末端のライブラリータグ群と異なる任意の一群又は複数群から選択される。
【0056】
本出願の第2の典型的な実施形態において、MGIシーケンシングプラットフォームに基づくペアエンドライブラリータグ付けの増幅プライマー組成物が提供され、該増幅プライマー組成物は、複数のペアエンドライブラリータグ付けの増幅プライマー対の組み合せを含み、各増幅プライマー対は、5’末端のライブラリータグと、3’末端のライブラリータグとを含み、複数の増幅プライマー対の5’末端のライブラリータグの長さは、全て同じであり、複数の増幅プライマー対の3’末端のライブラリータグの長さは、全て同じであり、且つ同じ位置で各塩基の出現回数は同じである。
【0057】
該組み合せ中の各増幅プライマー対の5’末端のライブラリータグの長さが同じであり、3’末端のライブラリータグの長さも同じであることを限定し、且つ同じ位置で各塩基の出現回数は同じであることを限定することにより、組み立てられた該増幅プライマー組成物中のペアエンドタグは、複数の混合サンプルシーケンスのサンプルを標記する際に、タグ塩基の読み取りはバランスを確保し、読み取り結果がより正確で、さらに該タグに基づいて分割されたサンプルデータがより正確で、サンプル分割率が向上させる。
【0058】
上記混合サンプルの5’末端ライブラリータグ長さが同じで、且つ5’末端ライブラリータグ長さが同じであることに基づいて、ライブラリータグの塩基バランス及び読み取り正確性をさらに向上させるために、一好ましい実施例では、上記複数の増幅プライマー対の5’末端のライブラリータグの長さは、複数の増幅プライマー対の3’末端のライブラリータグの長さと同じである。
【0059】
各対の増幅プライマー中の両端のライブラリータグの長さは同じであるため、サンプルを分割する際に、両端におけるライブラリータグのサンプルの由来判定に関わる塩基数が同じであるため、両端ライブラリーが提供する支持の確率は同じであり、一端のより長いライブラリータグが、より高い支持の参照確率を提供し、他端のより短いライブラリータグが、より低い参照確率を提供し、それにより、分割結果がある一端に依存するライブラリータグの分割結果に偏ってしまうことを回避することができる。
【0060】
より好ましくは、5’末端のライブラリータグと3’末端のライブラリータグの長さは、いずれも6~10bpの間のいずれかの固定長さであり、より好ましくは10bpである。ここで好ましい長さは10bpであり、6bpや8bpなどの他の長さに比べて、より大きな区分度とより多くの選択組み合わせの有益な効果がある。
【0061】
塩基のよりバランスするライブラリータグを提供するために、一好ましい実施例では、上記増幅プライマー組成物において、任意の2種類ライブラリータグの間に、少なくとも3つの塩基の違いが存在し、且つ任意の1種類のライブラリータグ中に連続する同一塩基数が3以下であり、より好ましくは、複数の5’末端のライブラリータグと複数の3’末端のライブラリータグのGC含有量はいずれも40~60%である。上記塩基最適化原則を満たすライブラリータグを組み合せて使用する場合、塩基読み取りのバランスがよく、読み取り結果がより正確で、データ分割率も高くなる。
【0062】
一好ましい実施例では、上記増幅プライマー組成物は、4群のタグバランスの4n個の増幅プライマー対の組み合せ、又は8群のタグバランスの8n個の増幅プライマー対の組み合せを含み、ここで、nは1以上の自然数である。より好ましくは、4群のタグバランスの4n個の増幅プライマー対において、5’末端のライブラリータグは、上記表1に示す96群中の任意の一群又は複数群から選択され、3’末端のライブラリータグ群は、表1に示す96群中の、5’末端のライブラリータグ群と異なる任意の一群又は複数群から選択される。ここでの群数は実際のニーズに応じて決定される。表1中の96群タグ配列の組み合せは、読み取り正確性が高いため、データ分割がより正確で、分割率も高くなる。
【0063】
他の好ましい実施例では、8群のタグバランスの8n個の増幅プライマー対において、5’末端のライブラリータグは、表2に示す48群中の任意の一群又は複数群から選択され、3’末端のライブラリータグ群は、上記表2に示す48群中の、5’末端のライブラリータグ群と異なる任意の一群又は複数群から選択される。
【0064】
上記増幅プライマー組成物において、各増幅プライマー対は、5’末端共通増幅配列と、3’末端共通増幅配列とをさらに含み、5’末端共通増幅配列は、5’末端のライブラリータグの上流に位置する共通配列と、5’末端のライブラリータグの下流に位置する共通配列とを含み、3’末端共通増幅配列は、3’末端のライブラリータグの上流に位置する共通配列と、3’末端のライブラリータグの下流に位置する共通配列とを含む。上記各幅プライマー対中の共通増幅配列の具体的な配列は、MGIの既存のシーケンシングプラットフォームの共通配列に応じて決定される。
【0065】
本出願の上記改善されたライブラリータグを含む増幅プライマー対を利用して形成された増幅プライマー組み合せは、混合シーケンシングを行う際に、ライブラリータグの読み取り正確率を向上させ、さらに各サンプルのシーケンスデータの分割正確性と分割率を向上させることができる。
【0066】
上記によれば、ライブラリー構築は、比較的短いバブルアダプター(即ち中間領域非対合塩基数が30±5bpである)を採用してもよく、比較的長いバブルアダプター(中間領域非対合塩基数が45±5bpである)を採用してもよい。したがって、ここでの増幅プライマー対中の共通配列は、バブルアダプターの長さに応じて、比較的長い又は比較的短い共通増幅配列に調整することもできる。
【0067】
一好ましい実施例では、比較的短いバブルアダプターの使用に対応し、5’末端のライブラリータグの上流に位置する共通配列は、SEQ ID NO:793であり、5’末端のライブラリータグの下流に位置する共通配列は、SEQ ID NO:794であり、3’末端のライブラリータグの上流に位置する共通配列は、SEQ ID NO:795であり、3’末端のライブラリータグの下流に位置する共通配列は、SEQ ID NO:796である。
【0068】
他の好ましい実施例では、比較的長いバブルアダプターの使用に対応し、5’末端のライブラリータグの上流に位置する共通配列は、SEQ ID NO:793であり、5’末端のライブラリータグの下流に位置する共通配列は、SEQ ID NO:797であり、3’末端のライブラリータグの上流に位置する共通配列は、SEQ ID NO:795であり、3’末端のライブラリータグの下流に位置する共通配列は、SEQ ID NO:798である。
【0069】
本出願の第3の典型的な実施形態において、上記のいずれかの増幅プライマー組成物を含む、MGIシーケンシングプラットフォームに基づくライブラリー構築試薬キットが提供される。上記塩基バランスを有する増幅プライマー中のペアエンドライブラリータグは、混合シーケンシング後の各サンプルのタグ配列を正確に読み取ることができ、混合サンプルデータのサンプル分割正確性と分割率を向上させることができる。
【0070】
ライブラリー構築の利便性をさらに向上させるために、上記試薬キットは、MGIシーケンシングプラットフォームのバブルアダプターをさらに含んでもよく、バブルアダプターは、第1アダプター配列と、第2アダプター配列とを含み、第1アダプター配列はSEQ ID NO:769であり、第2アダプター配列はSEQ ID NO:770であり、或いは、第1アダプター配列はSEQ ID NO:773であり、第2アダプター配列はSEQ ID NO:774である。改善された短バブルアダプターは、比較的長いバブルアダプターと比べて、アダプターのライゲーションステップの安定性と効率が高いことに加えて、アダプターライゲーション後のPCR増幅などの手順において、比較的長いバブルアダプターよりも互換性がある。
【0071】
本出願の第4の典型的な実施形態において、上記のいずれかの試薬キットを採用して構築する、MGIシーケンシングプラットフォームに基づくシーケンスライブラリーの構築方法がさらに提供される。本出願の上記試薬キットを利用して構築してなるライブラリーは、混合シーケンシングする際に、ライブラリータグのバランスが良く、ライブラリータグを読み取る時の読み取り正確性が高く、後続の各サンプルのシーケンスデータ分割もより正確で、データ分割率も高くなる。
【0072】
本出願の第5の典型的な実施形態において、上記のいずれかの増幅プライマー組成物を含み、又は上記のいずれかの方法を採用して構築してなる、シーケンシングライブラリーが提供される。該シーケンシングライブラリー中の複数のサンプルのライブラリータグはバランスが良く、シーケンシング後のライブラリータグの読み取り正確性が高く、後続のライブラリー分割率も高くなる。
【0073】
本出願の有益な効果について、具体的な実施例に関連して以下にさらに説明する。説明すべきものとして、以下の実施例は、NadPrepTM DNAライブラリー構築試薬キット(for MGI)、商品番号:1002212/NadPrep(R)血漿遊離DNAペアエンド分子タグライブラリー構築試薬キット(for MGI)、商品番号:1003811取扱説明書V1.0(納昂達(南京)生物科技有限公司)で提供されたライブラリー構築プロセスを用いて実施される。具体的なプロセスを簡単に説明すると、次のようになる。
【0074】
DNAサンプル断片化---末端修復とA付加---アダプターライゲーション---断片スクリーニング---PCR増幅---ライブラリー精製、定量と品質検査---MGIプラットフォームでのシーケンシング又は標的捕捉後のシーケンシング。
【0075】
また、以下の実施例は例示に過ぎず、本出願の方法を以下の方法のみに限定するものではないことに留意されたい。
【0076】
実施例1 ライブラリー構築のスキーム1とスキーム2
具体的な手順:NadPrepTM DNAライブラリー構築試薬キット(for MGI)(201909Version2.0)説明書を参照
唯一の違いはバブルアダプター配列と増幅プライマー配列の違いである。
【0077】
(1)スキーム1:
バブルアダプター配列:
SEQ ID NO:769に示すアダプター配列1とSEQ ID NO:770に示すアダプター配列2:
SEQ ID NO:769:(31b)/phos/agtcggaggccaagcggtcttaggaagacaa、
SEQ ID NO:770(40bp):ttgtcttcctaacaggaacgacatggctacgatccgact*t。
【0078】
SEQ ID NO:771に示す増幅プライマー1とSEQ ID NO:772に示す増幅プライマー2:
SEQ ID NO:771:(64bp)
【0079】
【0080】
スキーム1の特点:
1. アダプター部の相補領域は7+13bp(20±2bpの範囲に属する)であり、中間泡状構造領域は20+12bp(30±5bpの範囲に属する)である。
2.増幅プライマーは比較的長い。
【0081】
このようなメリットには、次の点がある。
1.泡状領域が短いため、アニール構造は安定している。
2.増幅プライマーは、シングルエンドのアンプリコンスキームと分子タグアダプタースキームの両方と互換性がある(出願番号201910229527.4の血漿ライブラリー構築分子タグ特許を参照)。
【0082】
(2)スキーム2:
アダプター配列
SEQ ID NO:773に示すアダプター配列1とSEQ ID NO:774に示すアダプター配列2。
SEQ ID NO:773(35bp):
/phos/agtcggaggccaagcggtcttaggaagacaatcag。
SEQ ID NO:774(59bp):
ctgattgtcttcctaagcaactccttggctcacagaacgacatggctacgatccgactt。
SEQ ID NO:775に示す増幅プライマー1とSEQ ID NO:776に示す増幅プライマー2。
【0083】
SEQ ID NO:775:(51bp)
/phos/ctctcagtacgtcagcagttnnnnnnnnnncaactccttggctcacagaac。ここで、nnnnnnnnnnの前の配列(/phos/CTCtcagtacgtcagcagtt)を、依然としてSEQ ID NO:793とし、nnnnnnnnnnの後の配列(caactccttggctcacagaac)をSEQ ID NO:797とする。
【0084】
SEQ ID NO:776:(50bp)
gcatggcgaccttatcagnnnnnnnnnnttgtcttcctaagaccgcttgg。ここで、nnnnnnnnnnの前の配列(gcatggcgaccttatcag)を、依然としてSEQ ID NO:795とし、nnnnnnnnnnの後の配列(ttgtcttcctaagaccgcttgg)をSEQ ID NO:798とする。
【0085】
このスキームの特徴は、以下である。
1.アダプターの相補領域は7+17bp(25±2bpの範囲に属する)であり、中間泡状構造領域は34+12bp(45±5bpの範囲に属する)である。
2.増幅プライマーが短く、増幅プライマーの部分を参照する。
【0086】
スキーム1と比べて、該スキームは以下のデメリットがある。
1.泡状領域が比較的長いため、アニーリング構造が比較的安定しない。
2.増幅プライマーの互換性が悪く、他のスキームと互換性がない(増幅プライマー配列が比較的短いため、スキーム1の泡状領域との重複領域が欠落し、スキーム1のアダプター配列との互換性がない)。
【0087】
スキーム1とスキーム2の具体的なアダプター構造と増幅プライマーの増幅結果を
図4に示すが、最終的にどちらもMGIでペアエンド
タグライブラリーを実現することができて、実験中にそれぞれ25ngと100ngの投入量のライブラリー構築実験をして、具体的な情報は下表に示す。
【0088】
【0089】
スキーム1とスキーム2はどちらも適切にライブラリーを構築することに成功し、ライブラリー収量も比較的近かった(
図9を参照)。しかし、スキーム2は、MGIプラットフォームのシングルエンド
タグで開発されたアンプリコンと分子
タグアダプターとの互換性がない。
【0090】
実施例2 4バランスと8バランスの12個のサンプル混合データ分割の比較
ペアエンドタグのスキームは、サンプル間のクロストーク(タグスキップとも呼ばれる)を効果的に除去することができますが、データの分割には両端におけるタグが正しくなければ、有効なシーケンスデータを分割することができないため、シーケンシング時のタグバランス要件がシングルエンドタグよりも厳しくなる。
【0091】
本出願は、4バランスと8バランスの2つのスキームを最適化しており、本実施例はそれぞれ4バランスと8バランスを用いて、12個のライブラリーを混合して試験を行い、2つのスキームの各サンプルに対する有効分割率を検測し、具体的な実験ステップと情報は以下の通りである。
【0092】
具体的なステップ:ライブラリー構築ステップは、シングルエンドタグアダプターをペアエンドタグアダプターのライブラリー構築スキームに変更すること以外、NadPrepTM DNAライブラリー構築試薬キット(for MGI)(201909Version2.0)説明書を参照する。
【0093】
実験に使用した4バランスペアエンドタグ配列は、以下の表4に示すように、隣接した4個を1群でバランスし、各群は太字又は非太字のフォントで区別され、タグ1は384本の配列のフォワード配列であり、タグ2は384本のタグのリバース配列である。プライマー1のタグ1とプライマー2のタグ384は、第1群のペアエンドタグプライマー組み合せを組み立て、プライマー1のタグ2とプライマー2の383は、第2群のペアエンドタグプライマー組み合せを組み立て、これらを順に配列して384種類の組み合せになる。
【0094】
8バランスの配列方式は、4バランスの配列方式と同じで、唯一の違いは8個を1群でバランスし、表5に示すように、12群のライブラリータグを一緒に置くと、最初の8個がバランスし、最後の4個がバランスしていないが、それに応じて、4バランスの組み合せの12群のライブラリータグを一緒に置くのは完全にバランスしている。
【0095】
【0096】
【0097】
同じヒトゲノム標準品をそれぞれ12個の4バランスと12個の8バランスのペアエンドタグ配列でライブラリーを構築し、12個の4バランスのライブラリーは、ペアエンドタグ配列が表4中の列の順序に示し、12個の8バランスのライブラリーは、ペアエンドタグ配列が表5中の列の順序に示す。4バランスと8バランスのライブラリーは、それぞれMGIシーケンシングプラットフォーム上でペアエンドタグシーケンシングと分析を行った。
【0098】
2つの混合サンプルライブラリーで得られたデータに対して2ラウンドの分割を行い、第1ラウンドは最大フォールト許容分割(シーケンシングフォールトも分割したスキーム)を用い、第2ラウンドは、各
タグに1つのフォールトのみを許容する分割を行った。データ分割後の結果、
図10に示すように、4バランスの12個のライブラリー混合データの分割率はより安定しており、8バランスの12個のライブラリー混合データの分割変動は比較的大きい。これは、ペアエンド
タグの厳格なバランスがMGIシーケンサーの有効分割により有利であり、その中で8バランス設計はデータの有効分割率をある程度高めることができ、4バランス設計はデータの分割効果により優れていることを示している。
【0099】
実施例3
本出願の8バランス48群タグ配列と、華大社製の8バランスの12群タグ配列との間の性能差を確保するため、本出願の8バランス48群タグ配列は、華大社製の8バランスの12群タグ配列との使用する際の互換性があるように設計され、従って、本出願の8バランス48群タグ配列は、華大社製の8バランスの12群タグ配列との間に、任意の2本の配列に3つの塩基の違いが存在する。
【0100】
また、主な相違点は以下の通りである。
1.本発明のタグ配列は、GC%含有量が40%~60%と、よりバランスの塩基構成であるのに対し、華大社製のものはGC%含有量が20%~80%である。
2.本発明のタグ配列は、増幅ライブラリーの増幅効率をバランスよく生産するために、スキーム1のアダプター配列とのマッチング計算を行ったが、華大社製の配列の増幅効率は、ある個別の配列において、増幅バランス要件を満たしていない。
【0101】
上記の増幅バランスの性能差をさらに検証するために、本発明のMDI001-MDI008の8バランスタグ配列と華大社製のMGI001-MGI008的8バランスタグ配列(表6に示す)をそれぞれ1群選択し、本発明のスキーム1でライブラリーを構築して測定を行った。両者とも100ngのDNA投入量を用い、5サイクル増幅後に回收してライブラリー収量を測定し、結果は表7に示す。
【0102】
表7に示すように、本発明の8バランスの1群は収量がバランスであるが、華大社製のものに、収量が正常値の半分を下回るライブラリーを1つ有し、これは本発明の最適化されたタグ配列はバランスが良くなり、増幅効率がより安定したことを示している。同時に、現在のMGIシーケンサーのスループットが比較的高いので、本発明の2群384種類のタグは、華大社製の120種類のタグに比べて、多サンプルの混合シーケンシングのスループット要件によく満たすことができる。
【0103】
【0104】
【0105】
上記実施例の説明から分かるように、本出願は、MGIシーケンシングプラットフォーム上にペアエンドライブラリータグを導入し、サンプル両端のタグ配列によるデータ分割を行うことにより、合成、実験ステップ及びシーケンシング過程時に生じるクロストーク問題を解消し、検出結果をより正確にすることができる。
【0106】
また、本出願は、MGIシーケンシングプラットフォームのバブルアダプターに対して、この特殊構造をテストして最適化することにより、バブルアダプター中間の非対合領域が30±5bp、対合塩基が20±2bpである場合、最適な効果が得られ、このような構成のバブルアダプターはアニーリングが最も安定しているとともに、対応する増幅プライマーは延長された増幅プライマーであり、シングルエンドタグのアンプリコンと分子タグアダプターとの互換性があることを見出した。
【0107】
該構成構造のバブルアダプターは延長された増幅プライマー(ペアエンドライブラリータグ付け)と組み合わせてライブラリーを構築する場合、既存のMGIプラットフォームのシングルエンドタグソリューションのモジュールと互換性があり、MGIシーケンサーにおける使用を容易にする。
【0108】
上述の基礎の上で、本出願は、シーケンス後のデータ分割をよりよく配置するために、4バランスと8バランスの各384種類のタグ配列を最適化し、MGIシーケンサーのハイスループットシーケンシングとデータ分割に最適なソリューションを提供する。
【0109】
以上の説明は、本発明の好ましい実施例に過ぎず、本発明を限定するものではなく、当業者にとって様々な変更、変形が可能であることは言うまでもない。本発明の精神および原理の範囲内で行われた変更、等価置換、改良などは、本発明の保護範囲に含まれるものとする。
【配列表】