特許第6089106号(P6089106)IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ プレジデント アンド フェローズ オブ ハーバード カレッジの特許一覧

<>
  • 特許6089106-核酸を用いた情報記憶方法 図000006
  • 特許6089106-核酸を用いた情報記憶方法 図000007
  • 特許6089106-核酸を用いた情報記憶方法 図000008
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6089106
(24)【登録日】2017年2月10日
(45)【発行日】2017年3月1日
(54)【発明の名称】核酸を用いた情報記憶方法
(51)【国際特許分類】
   C12N 15/09 20060101AFI20170220BHJP
   G06F 19/10 20110101ALI20170220BHJP
   C12Q 1/68 20060101ALI20170220BHJP
【FI】
   C12N15/00 A
   G06F19/10ZNA
   C12Q1/68 Z
【請求項の数】24
【全頁数】28
(21)【出願番号】特願2015-523204(P2015-523204)
(86)(22)【出願日】2013年7月17日
(65)【公表番号】特表2015-533077(P2015-533077A)
(43)【公表日】2015年11月19日
(86)【国際出願番号】US2013050815
(87)【国際公開番号】WO2014014991
(87)【国際公開日】20140123
【審査請求日】2016年5月9日
(31)【優先権主張番号】61/673,690
(32)【優先日】2012年7月19日
(33)【優先権主張国】US
(31)【優先権主張番号】61/676,081
(32)【優先日】2012年7月26日
(33)【優先権主張国】US
【早期審査対象出願】
(73)【特許権者】
【識別番号】507044516
【氏名又は名称】プレジデント アンド フェローズ オブ ハーバード カレッジ
(74)【代理人】
【識別番号】100079049
【弁理士】
【氏名又は名称】中島 淳
(74)【代理人】
【識別番号】100084995
【弁理士】
【氏名又は名称】加藤 和詳
(72)【発明者】
【氏名】チャーチ、 ジョージ エム.
【審査官】 名和 大輔
(56)【参考文献】
【文献】 特表2006−522356(JP,A)
【文献】 国際公開第03/025123(WO,A1)
【文献】 米国特許第06312911(US,B1)
【文献】 Jonathan P.L. COX,Long-term data storage in DNA,TRENDS in Biotechnology,2001年,Vol.19, No.7,Pages 247-250
(58)【調査した分野】(Int.Cl.,DB名)
C12N 15/
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
特定のフォーマットの情報を、それぞれが対応ビットバーコードを有する、ビットストリームの複数ビット列へと変換すること、
前記複数ビット列を1塩基当たり1ビットのエンコーディングを用いて複数の対応オリゴヌクレオチド配列へと変換すること、
前記複数の対応オリゴヌクレオチド配列を合成すること、および
合成した前記複数の対応オリゴヌクレオチド配列を保存すること
を含む、ヌクレオチドを用いた情報記憶方法。
【請求項2】
前記オリゴヌクレオチド配列が、データブロック配列、前記ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む、請求項1に記載の方法。
【請求項3】
複数のオリゴヌクレオチド配列を増幅すること、
増幅した前記オリゴヌクレオチド配列をシークエンシングすること、
前記オリゴヌクレオチド配列をビット列へと変換すること、および
前記ビット列を特定のフォーマットの情報へと変換すること
を含む、特定のフォーマットの情報のビット列をコードする複数の合成オリゴヌクレオチド配列から前記特定のフォーマットの情報を回収する方法。
【請求項4】
前記オリゴヌクレオチド配列が、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む、請求項3に記載の方法。
【請求項5】
複数のオリゴヌクレオチド配列を増幅すること、
増幅した前記オリゴヌクレオチド配列をシークエンシングすること、
前記オリゴヌクレオチド配列をビット列へと変換すること、
前記ビット列を特定のフォーマットの情報へと変換すること、および
前記特定のフォーマットの情報を可視化すること
を含む、特定のフォーマットの情報のビット列をコードする複数の合成オリゴヌクレオチド配列から前記特定のフォーマットの情報にアクセスする方法。
【請求項6】
前記オリゴヌクレオチド配列が、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む、請求項5に記載の方法。
【請求項7】
特定のフォーマットの情報をビットストリームへと変換すること、
第一のビット列を対応するオリゴヌクレオチド配列へとエンコードすること、
前記オリゴヌクレオチド配列を合成すること、
前記オリゴヌクレオチド配列をシークエンシングすること、
前記オリゴヌクレオチド配列をビット列へとデコードすること、
前記ビット列をビットストリームへとアセンブルすること、および
前記ビットストリームを前記特定のフォーマットの情報へと変換すること
を含む、ヌクレオチドを用いた情報記憶方法。
【請求項8】
前記オリゴヌクレオチド配列が、データブロック配列、前記ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む、請求項7に記載の方法。
【請求項9】
特定のフォーマットの情報を第一のビットストリームへと変換すること、
第一のビット列を対応オリゴヌクレオチド配列へとエンコードすること、
前記オリゴヌクレオチド配列を合成すること、
前記オリゴヌクレオチド配列をシークエンシングすること、
前記オリゴヌクレオチド配列を第二のビット列へとデコードすること、
前記第二のビット列を第二のビットストリームへとアセンブルすること、および
前記第二のビットストリームを前記特定のフォーマットの情報へと変換すること
を含む、ヌクレオチドを用いた情報記憶方法。
【請求項10】
前記オリゴヌクレオチド配列が、データブロック配列、前記ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む、請求項9に記載の方法。
【請求項11】
第一のフォーマットの情報を第一のビットストリームへと変換すること、
第一のビット列を対応オリゴヌクレオチド配列へとエンコードすること、
前記オリゴヌクレオチド配列を合成すること、
前記オリゴヌクレオチド配列をシークエンシングすること、
前記オリゴヌクレオチド配列を第二のビット列へとデコードすること、
前記第二のビット列を第二のビットストリームへとアセンブルすること、および
前記第二のビットストリームを第二のフォーマットの情報へと変換すること
を含む、ヌクレオチドを用いた情報記憶方法。
【請求項12】
前記オリゴヌクレオチド配列が、データブロック配列、前記ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む、請求項11に記載の方法。
【請求項13】
増幅したオリゴヌクレオチド配列をシークエンシングすること、
前記オリゴヌクレオチド配列をビット列へと変換すること、および
前記ビット列を特定のフォーマットの情報へと変換すること
を含む、特定のフォーマットの情報のビット列をコードする複数の合成オリゴヌクレオチド配列から前記特定のフォーマットの情報を回収する方法。
【請求項14】
前記オリゴヌクレオチド配列が、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む、請求項13に記載の方法。
【請求項15】
増幅したオリゴヌクレオチド配列をシークエンシングすること、
前記オリゴヌクレオチド配列をビット列へと変換すること、
前記ビット列を特定のフォーマットの情報へと変換すること、および
前記特定のフォーマットの情報を可視化すること
を含む、特定のフォーマットの情報のビット列をコードする複数の合成オリゴヌクレオチド配列から前記特定のフォーマットの情報にアクセスする方法。
【請求項16】
前記オリゴヌクレオチド配列が、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む、請求項15に記載の方法。
【請求項17】
前記1塩基当たり1ビットのエンコーディングが、0についてAまたはCを、1についてTまたはGを含む、請求項1に記載の方法。
【請求項18】
前記ビット列が、0についてAまたはCを、1についてTまたはGを含む、1塩基当たり1ビットのエンコーディングを用いている、請求項3に記載の方法。
【請求項19】
前記ビット列が、0についてAまたはCを、1についてTまたはGを含む、1塩基当たり1ビットのエンコーディングを用いている、請求項5に記載の方法。
【請求項20】
前記ビット列が、0についてAまたはCを、1についてTまたはGを含む、1塩基当たり1ビットのエンコーディングを用いている、請求項7に記載の方法。
【請求項21】
前記ビット列が、0についてAまたはCを、1についてTまたはGを含む、1塩基当たり1ビットのエンコーディングを用いている、請求項9に記載の方法。
【請求項22】
前記ビット列が、0についてAまたはCを、1についてTまたはGを含む、1塩基当たり1ビットのエンコーディングを用いている、請求項11に記載の方法。
【請求項23】
前記ビット列が、0についてAまたはCを、1についてTまたはGを含む、1塩基当たり1ビットのエンコーディングを用いている、請求項13に記載の方法。
【請求項24】
前記ビット列が、0についてAまたはCを、1についてTまたはGを含む、1塩基当たり1ビットのエンコーディングを用いている、請求項15に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連する出願データ
本出願は、2012年7月19日出願の米国特許仮出願第61/673,690号および2012年7月26日出願の米国特許仮出願第61/676,081号からの優先権を主張するものであり、各々の出願は、その全体が全ての目的のため、本明細書に参照により取り込まれる。
【0002】
政府の権益の記載
本発明は、米国海軍研究事務所(US Office of Naval Research)が与える助成金番号N000141010144の政府の援助を受けて成されたものである。政府は本発明に一定の権利を有する。
【0003】
分野
本発明は、概して、1または複数の核酸配列を用いた情報記憶方法に関する。
【背景技術】
【0004】
人類のデジタル世界は、急速に成長している。例えば、2011年には1.8ゼタバイト(1021)の情報が作成および複製され、この量は2年ごとに倍化している(文献1参照。"Extracting Value from Chaos" (IDC, Framingham, MA 2011); world wide web site emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.)。アーカイバルデータ記憶は、多くの場合、ハードドライブ、光学メディア、および磁気テープの形式であり、これらの推奨寿命は5〜30年である(文献2参照。J. Rothenberg, Scientific American 272, 42-47 (1995))。デジタル情報が蓄積し続けるにつれて、より高密度でより長期間の記憶のための手段(solution)が必要となる。DNAは、情報記憶のための媒体として多くの潜在的利点を有する(文献3参照。C. Bancroft, T. Bowler, B. Bloom, C. T. Clelland, Science 293, 1763-1765 (2001))。DNAへの一般的デジタル情報のエンコードの最初の例は、1988年の35ビットであった(文献7参照。J. Davis, Art Journal 55, 70-74 (1996))。最近の研究では、データのDNAへの圧縮と暗号化(通常、大文字に限られる)、および生細胞におけるその実行可能性が検討されている(文献3、8、および9参照。C. Bancroft, T. Bowler, B. Bloom, C. T. Clelland, Science 293, 1763-1765 (2001)., C. Gustafsson, Nature 458, 703 (2009), and D. G. Gibson et al., Science 329, 52-56 (2010).)。
【発明の概要】
【課題を解決するための手段】
【0005】
本開示の実施形態は、ヌクレオチドを含む1または複数の核酸配列を情報記憶媒体として用いる方法に関する。一般的なヌクレオチドとしては、A、C、G、およびTが挙げられる。本開示の態様は、次世代シーケンシングおよび合成技術を用いた、デジタル情報の強固で大規模な読み取りおよび書き込み方法に関し、そのような方法の一例が図1Aに模式的に示される。ある態様によれば、テキストおよび/または画像は、メガビットへと変換される。ある態様によれば、テキストおよび/または画像は、ビットストリームを含むメガビットへと変換される。次に、メガビットは、オリゴヌクレオチドへとエンコードされる。ある態様によれば、オリゴヌクレオチドには、データブロック配列が含まれる。ある態様によれば、オリゴヌクレオチドには、ビットストリーム中におけるデータブロックの位置を指定するための(バーコード配列などの)アドレス配列が含まれる。ある態様によれば、オリゴヌクレオチドには、オリゴヌクレオチドの両端に増幅およびシークエンシングのための隣接共通配列が含まれる。ある態様によれば、オリゴヌクレオチドには、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するための(バーコード配列などの)アドレス配列、ならびにオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てが含まれる。
【0006】
本開示のある態様によれば、1塩基あたり1ビットがエンコードされる。この態様によれば、単一のメッセージが複数の様式で、すなわち、0はAまたはCで、数字1はGまたはTでエンコードされる。したがって、本開示のこの態様により、極端なGC含量、リピート、または二次構造などの、読み込みまたは書き出しが困難な特徴が回避される。
【0007】
ある態様によれば、ビットストリームは、アドレスされたデータブロックに分けられる。この態様によれば、構築が困難な長いDNAコンストラクトが回避され得る。
【0008】
ある態様によれば、個々のオリゴヌクレオチドの多数のコピーが合成、保存、およびシークエンシングされる。合成およびシークエンシングの際のエラーは、ほとんど同時に発生しないので、各分子コピーは他のコピーにおけるエラーを修正する。
【0009】
ある態様によれば、in vitroで処理が行われる。この態様によれば、in vitroアプローチにより、in vivoアプローチによるクローニングおよび安定性の問題が回避される。
【0010】
ある態様によれば、DNA合成およびシークエンシングの両方においてハイスループット次世代技術を用いて、大量の情報をエンコードおよびデコードすることが可能となる。
【0011】
ある態様によれば、特定のフォーマットの情報を、それぞれが対応ビットバーコードを有する、ビットストリームの複数ビット列へと変換すること、前記複数ビット列を1塩基当たり1ビットのエンコーディングを用いて複数の対応オリゴヌクレオチド配列へと変換すること、前記複数の対応オリゴヌクレオチド配列を合成すること、および合成した前記複数の対応オリゴヌクレオチド配列を保存することを含む、ヌクレオチドを用いた情報記憶方法が提供される。ある態様によれば、オリゴヌクレオチド配列は、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む。
【0012】
ある態様によれば、複数のオリゴヌクレオチド配列を増幅すること、増幅した前記オリゴヌクレオチド配列をシークエンシングすること、前記オリゴヌクレオチド配列をビット列へと変換すること、および前記ビット列を特定のフォーマットの情報へと変換することを含む、特定のフォーマットの情報のビット列をコードする複数の合成オリゴヌクレオチド配列から前記特定のフォーマットの情報を回収する方法が提供される。ある態様によれば、オリゴヌクレオチド配列は、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む。
【0013】
ある態様によれば、複数のオリゴヌクレオチド配列を増幅すること、増幅した前記オリゴヌクレオチド配列をシークエンシングすること、前記オリゴヌクレオチド配列をビット列へと変換すること、前記ビット列を特定のフォーマットの情報へと変換すること、および前記特定のフォーマットの情報を可視化することを含む、特定のフォーマットの情報のビット列をコードする複数の合成オリゴヌクレオチド配列から前記特定のフォーマットの情報にアクセスする方法が提供される。ある態様によれば、オリゴヌクレオチド配列は、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む。
【0014】
ある態様によれば、特定のフォーマットの情報をビットストリームへと変換すること、ビット列を対応するオリゴヌクレオチド配列へとエンコードすること、前記オリゴヌクレオチド配列を合成すること、前記オリゴヌクレオチド配列をシークエンシングすること、前記オリゴヌクレオチド配列をビット列へとデコードすること、前記ビット列をビットストリームへとアセンブルすること、および前記ビットストリームを特定のフォーマットの情報へと変換することを含む、ヌクレオチドを用いた情報記憶方法が提供される。ある態様によれば、オリゴヌクレオチド配列は、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む。
【0015】
第一のフォーマットの情報を第一のビットストリームへと変換すること、第一のビット列を対応オリゴヌクレオチド配列へとエンコードすること、前記オリゴヌクレオチド配列を合成すること、前記オリゴヌクレオチド配列をシークエンシングすること、前記オリゴヌクレオチド配列を第二のビット列へとデコードすること、前記第二のビット列を第二のビットストリームへとアセンブルすること、および前記第二のビットストリームを第二のフォーマットの情報へと変換することを含む、ヌクレオチドを用いた情報記憶方法が提供される。ある態様によれば、オリゴヌクレオチド配列は、データブロック配列、ビットストリーム中におけるデータブロックの位置を指定するためのアドレス配列、またはオリゴヌクレオチドの両端に位置する増幅およびシークエンシングのための隣接共通配列、のうちの、1つまたは複数または全てを含む。
【0016】
ある態様によれば、情報は、DNAを用い、DNA密度を利用して記憶される。ある態様によれば、理論的最大値で、DNAは、1ヌクレオチド(nt)あたり2ビット、または約4グラムのナトリウム塩中で1.8ゼタバイトをエンコード可能である(文献4参照。使用材料および方法についてはScience Onlineで閲覧可能である)。ある態様によれば、ミリグラム単位のDNAにより市販のオリゴサイズおよび当業者に公知のシークエンシング技術(48ビットバーコード+128ビットペイロード)を達成可能であり、100×のカバー度ではペタバイト(1015)を達成可能である。この量で1536ウエルプレートに記憶してエクサバイトを得ることが出来、これが1000枚(0.5m角立方体)ではゼタバイト(8×1021ビット)となる。記憶データのサブセットは、混合物中で保存でき、直交(すなわち、クロスプライミングが最小の)隣接プライマーを用いて別々に回収することが可能である。Church GM, Kieffer-Higgins S (1988) Multiplex Sequencing; and Kosuri S, Eroshenko N, LeProust E, Super M, Way J, Li JB, Church GM (2010) A Scalable Gene Synthesis Platform Using High-Fidelity DNA Microchips. Nature Biotech. 28(12): 1295-9参照。
【0017】
ある態様によれば、DNAの保管に平面は必要ではなく、容易に保存され、千年後でも回復されている(文献5および文献6参照。J. Bonnet et al., Nucleic Acids Research 38, 1531-1546 (2010)、S. Paabo et al., M. A. Uyterlinde et al., Eds. Annual Review of Genetics 38, 645-679 (2004))。ある態様によれば、DNAの最も重要な生物学的役割のため、天然の読み込み酵素および書き出し酵素は入手可能であり、DNAは予見可能な未来においても可読スタンダードであり続けることが保証される。
【0018】
本発明の前述および他の特徴と利点は、以下の例示的実施形態の詳細な記載および添付の図面からより十分理解されるであろう。
【図面の簡単な説明】
【0019】
図1A】DNA情報記憶の模式図。エンコードされたhtml文書内の文の12バイト部分を、全文書内におけるエンコードビットの位置を指定する19ビットバーコード(赤)を有するビット(青)へと変換する。次に、1塩基あたり1ビットのエンコーディング(ac=0、TG=1)を用い、4以上のヌクレオチドリピートを避けてGC含量のバランスをとりながら、ビット列をDNAへとエンコードする。全体で5.27メガビットのhtml文書は、54,898オリゴヌクレオチドを使用する。これを合成し、DNAマイクロチップから溶出した。増幅後(全オリゴヌクレオチドに共通のプライマー配列は示していない)、次世代シーケンシングを用いてオリゴヌクレオチドライブラリーをシークエンシングした。正しいバーコードおよび正しい長さを有する個々の読み取り値(read)をコンセンサスについてスクリーニングし、次にビットへと再変換して元の文書を得た。全体で、書き出し、増幅、および読み取りにより、5.27メガビット中10ビットのエラーが生じた。
図1B】他の技術との比較。報告または市販ユニットにおけるエンコードされたビットのlog10により測定した現在のスケーラビリティ(scalability)に対して、情報密度(ビット/mmのlog10)をプロットした(文献4参照。使用材料および方法についての情報はScience Onlineで閲覧可能)。
図2】設計ライブラリーの各メンバーについての観察数のヒストグラム。
【発明を実施するための形態】
【0020】
本発明は、オリゴマーを用いた情報記憶方法に関する。このようなオリゴマーは、モノマーから形成することができる。例示的なモノマーとしては、ヌクレオチドが挙げられる。例示的なオリゴマーとしては、オリゴヌクレオチドが挙げられる。ある態様によれば、ビット列をヌクレオチド配列へと変換する情報をエンコードする方法が提供され、前記ヌクレオチド配列はオリゴヌクレオチドである。ある態様によれば、市販の核酸合成方法が用いられる。ある態様によれば、市販の核酸増幅方法が用いられる。ある態様によれば、市販の核酸シークエンシング方法が用いられる。
【0021】
ある態様によれば、テキストおよび/または画像を有するhtml文書などのhtmlフォーマットの情報など、特定のフォーマットの情報の1または複数の部分をビット、すなわち0および1へと変換し、ビットバーコードを追加してビット列、すなわち一般に理解されるような0および1の列を形成する。ビットへと変換可能な他のフォーマットの情報は、当業者に公知である。ある態様によれば、ビットへと変換されるhtmlフォーマットの情報の部分は、バイト部分と呼ばれることがある。ビットバーコードは、htmlフォーマットの情報全体におけるエンコードビットの位置を指定することができる。次に、1塩基あたり1ビットのエンコーディング(ac=0、TG=1)を用いて、ビット列をヌクレオチドの配列、すなわち、オリゴヌクレオチドまたはDNAへと変換(エンコード)し、対応するエンコードされたオリゴヌクレオチド配列を形成する;すなわち、オリゴヌクレオチド配列はビット列に対応するまたはビット列をコードする。ある態様によれば、4以上のヌクレオチドリピートを避けてGC含量のバランスをとる。htmlフォーマットの情報の一部または全体に対応する複数のビット列が作成される。したがって、複数の対応するエンコードオリゴヌクレオチド配列が作成され、これらは併せてライブラリーと呼ばれることがある。エンコードオリゴヌクレオチド配列のライブラリーは、htmlフォーマットの情報を表す。次に、エンコードされたオリゴヌクレオチド配列を、DNAマイクロチップの使用などの当業者に公知の方法を用いて合成する。次に、合成されたオリゴヌクレオチドを、当業者に公知の方法を用いて増幅し、オリゴヌクレオチドライブラリーを形成する。次に、オリゴヌクレオチドライブラリーを、次世代シーケンス法などの当業者に公知の方法を用いてシークエンシングする。次に、シークエンシングされたオリゴヌクレオチドを、htmlフォーマットの情報に対応するビット列へと変換する。ビット列は、当業者に公知の方法を用いて前記フォーマットの情報へと変換可能である。前記フォーマットの情報は、当業者に公知の方法および機器を用いて、可視化または表示可能である。
【0022】
本明細書における、核酸化学、生化学、遺伝学、および分子生物学の用語および記号は、これらの分野の標準的な取り決めおよび教科書、例えば、Komberg and Baker, DNA Replication, Second Edition (W.H. Freeman, New York, 1992); Lehninger, Biochemistry, Second Edition (Worth Publishers, New York, 1975); Strachan and Read, Human Molecular Genetics, Second Edition (Wiley-Liss, New York, 1999); Eckstein, editor, Oligonucleotides and Analogs: A Practical Approach (Oxford University Press, New York, 1991); Gait, editor, Oligonucleotide Synthesis: A Practical Approach (IRL Press, Oxford, 1984)などの用語及び記号に従う。
【0023】
本明細書において、用語「ビット(bit)」は、当業者にとっての一般的な意味に従って理解されるものである。用語「ビット」は、「2進数(binary digit)」の縮約形であり、電子計算および通信における情報の基本容量を指す物であってもよい。「ビット」は、1または0(1またはゼロ)のいずれかのみを表す。種々のシステムにおいて、二状態デバイスを用いてこの表現を実行することができる。
【0024】
本明細書において、用語「核酸分子」、「核酸配列」、「核酸断片」、および「オリゴマー」は、相互互換的に使用され、これらに限定されないが、種々の長さであってもよい多量体型ヌクレオチドを含むことを意図し、デオキシリボヌクレオチドまたはリボヌクレオチド、あるいはこれらの類似体を含む。本発明で用いられるオリゴマーは、完全にデザインされていても、部分的にデザイン(すなわち、部分的にランダム化)されていても、完全にランダム化されていてもよい。本発明のある態様によれば、核酸プールには、一本鎖90量体DNAが含まれる。
【0025】
一般に、「増幅」には、プライマーを用いた酵素合成の繰り返しによって、核酸分子のコピーを作成することが含まれる。「In situ」増幅は、溶液中ではなく、支持体またはビーズ上に配置された鋳型核酸分子を用いて増幅が行われることを示す。In situ増幅法は、米国特許第6,432,360号に記載される。
【0026】
温度、鎖置換、およびプルーフリーディングなどの特性が異なれば、種々のポリメラーゼの選択が存在する。増幅は、上述の通り等温でもよく、また、下記文献に記載のMultiple displacement amplification(MDA)など、同様の応用であってもよい;Dean et ah, Comprehensive human genome amplification using multiple displacement amplification, Proc. Natl. Acad. Sci. U.S.A., vol. 99, p. 5261-5266. 2002; also Dean et al, Rapid amplification of plasmid and phage DNA using phi29 DNA polymerase and multiply-primed rolling circle amplification, Genome Res., vol. 1 1, p. 1095-1099. 2001 ; また、Aviel-Ronen et al, Large fragment Bst DNA polymerase for whole genome amplification of DNA formalin- fixed paraffin-embedded tissues, BMC Genomics, vol. 7, p. 312. 2006。増幅はまた、Mullis et al., Specific enzymatic amplification of DNA in vitro: The polymerase chain reaction. Cold Spring Harbor Symp. Quant. Biol, vole 51, p. 263-273. 1986により普及した従来のポリメラーゼ連鎖反応(PCR)のように、異なった温度計画(regimen)のサイクルであってもよい。ゲノム増幅により適用可能な変法は、Zhang et al. , Whole genome amplification from a single cell: implications for genetic analysis, Proc. Natl. Acad. Sci. U.S.A., vol. 89, p. 5847-5851. 1992; および Telenius et al, Degenerate oligonucleotide -primed PCR: general amplification of target DNA by a single degenerate primer, Genomics, vol. 13, p. 718-725. 1992に記載される。その他の方法としては、Mitra and Church, In situ localized amplification and contact replication of many individual DNA molecules, Nuc. Acid. Res., vole 27, pages e34. 1999に記載のPolony PCR、Shendure et al., Accurate multiplex polony sequencing of an evolved bacterial genome, Science, vol. 309, p. 1728-32. 2005; and Williams et al, Amplification of complex gene libraries by emulsion PCR, Nat. Methods, vol. 3, p. 545-550. 2006に記載のエマルジョンPCR(ePCR)が挙げられる。任意の増幅方法を、先験的(a priori)に、逆転写ステップと組み合わせて、RNAを増幅してもよい。ある態様によれば、十分な感度を有するプローブ、レポーター、および検出システムを用い、記載された、鋳型とハイブリダイズしない核酸構造を用いて、一分子検出が可能となることが記載されているため、増幅は絶対に必要というわけではない。システムにおける感度を適合させる方法としては、励起源(例えば、照明)および検出(例えば、光検出器、光電子増倍管)の選択が挙げられる。シグナルレベルを適合させる方法としては、レポーターのスタッキングを可能にするプローブが挙げられ、高強度レポーター(例えば、量子ドット)を用いることも出来る。
【0027】
本開示において有用な増幅方法には、核酸を、ハイブリダイゼーションおよび鎖伸長を促進する条件下で核酸に特異的にハイブリダイズする1または複数のプライマーと接触させること、が含まれていてもよい。例示的な核酸増幅方法としては、ポリメラーゼ連鎖反応法(PCR)(例えば、Mullis et al. (1986) Cold Spring Harb. Symp. Quant. Biol. 51 Pt 1 :263およびCleary et al. (2004) Nature Methods 1 :241;ならびに米国特許第4,683,195号および同第4,683,202号参照)、アンカーPCR、RACE PCR、ライゲーション連鎖反応(LCR)(例えば、Landegran et al. (1988) Science 241 : 1077-1080; および Nakazawa et al. (1994) Proc. Natl. Acad. Sci. U.S.A. 91 :360-364参照)、自己持続的(self-sustained)配列複製法(Guatelli et al. (1990) Proc. Natl. Acad. Sci. U.S.A. 87: 1874)、転写増幅系(Kwoh et al. (1989) Proc. Natl. Acad. Sci. U.S.A. 86: 1173)、Qβレプリカーゼ(Lizardi et al. (1988) BioTechnology 6: 1197)、再帰的PCR(Jaffe et al. (2000) J. Biol. Chem. 275:2619;およびWilliams et al. (2002) J. Biol. Chem. 277:7790)、米国特許第6,391,544号、同第6,365,375号、同第6,294,323号、同第6,261,797号、同第6,124,090号、および同第5,612,199号に記載の増幅方法、または当業者に公知の技術を用いたその他の核酸増幅方法が挙げられる。例示的な実施形態においては、本明細書に開示の方法はPCR増幅を利用する。
【0028】
ある例示的実施形態では、核酸配列の増幅方法が提供される。例示的な核酸増幅方法としては、ポリメラーゼ連鎖反応法(PCR)(例えば、Mullis et al. (1986) Cold Spring Harb. Symp. Quant. Biol. 51 Pt 1 :263およびCleary et al. (2004) Nature Methods 1 :241 ; ならびに米国特許第4,683,195号および同第4,683,202号参照)、アンカーPCR、RACE PCR、ライゲーション連鎖反応(LCR)(例えば、Landegran et al. (1988) Science 241 : 1077-1080; およびNakazawa et al. (1994) Proc. Natl. Acad. Sci. U.S.A. 91 :360-364参照)、自己持続的(self-sustained)配列複製法(Guatelli et al. (1990) Proc. Natl. Acad. Sci. U.S.A. 87: 1874)、転写増幅系(Kwoh et al. (1989) Proc. Natl. Acad. Sci. U.S.A. 86: 1173)、Qβレプリカーゼ(Lizardi et al. (1988) BioTechnology 6: 1197)、再帰的PCR(Jaffe et al. (2000) J. Biol. Chem. 275:2619; and Williams et al. (2002) J. Biol. Chem. 277:7790)、米国特許第6,391,544号、同第6,365,375号、同第6,294,323号、同第6,261,797号、同第6,124,090号、および同第5,612,199号に記載の増幅方法、等温増幅(例えば、ローリングサークル型増幅(RCA)、超分岐ローリングサークル型増幅(HRCA)、鎖置換増幅(SDA)、ヘリカーゼ依存性増幅(HDA)、PWGA)、または当業者に周知の技術を用いたその他の核酸増幅方法が挙げられる。
【0029】
「ポリメラーゼ連鎖反応」または「PCR」は、DNA相補鎖の同時プライマー伸長により、特定のDNA配列をin Vitro増幅する反応を指す。つまり、PCRは、(i)標的核酸を変性するステップ、(ii)プライマー結合部位にプライマーをアニーリングするステップ、および(iii)ヌクレオシド三リン酸の存在下で核酸ポリメラーゼによりプライマー伸長するステップの1回または複数回の繰り返しを含む、プライマー結合部位に挟まれた標的核酸の複数のコピーまたは複写物を作成する反応である。通常、反応は、サーマルサイクラー装置により各ステップに最適化した異なる温度のサイクルで行われる。具体的な温度、各ステップでの継続時間、およびステップ間の変化率は、例えば、文献McPherson et al., editors, PCR: A Practical Approach and PCR2: A Practical Approach(それぞれIRL Press, Oxford, 1991および1995)に例示されるような当業者に周知の多くの要因に依存する。例えば、Taqポリメラーゼを用いる従来のPCRでは、二重鎖標的核酸を90℃より高い温度で変性し、プライマーを50℃〜75℃の範囲の温度でアニールし、プライマーを68℃〜78℃の範囲の温度で伸長してもよい。
【0030】
用語「PCR」には、これらに限定されないが、RT−PCR、リアルタイムPCR、ネステッドPCR、定量的PCR、マルチプレックスPCR、およびアセンブリPCRなどの、反応の派生型が含まれる。反応容量は、数百ナノリットル(例えば、200nL)から数百マイクロリットル(例えば、200μL)に渡る。「逆転写PCR」あるいは「RT−PCR」は、先行して標的RNAを相補的一本鎖DNAへと変換する逆転写反応が行われ、次に該DNAが増幅されるPCRを意味する(例えば、Tecott et al., 米国特許第5,168,038号)。「リアルタイムPCR」は、反応産物、すなわち増幅産物の量を反応の進行と共にモニタリングするPCRを意味する。リアルタイムPCRには、反応産物のモニタリングに用いられる検出化学の点で主に異なる多くの形式がある(例えば、Gelfand et al.、米国特許第5,210,015号(「Taqman」)、Wittwer et al.、米国特許第6,174,670号および同第6,569,627号(インターカレート色素)、Tyagi et al.、米国特許第5,925,517号(モレキュラービーコン))。リアルタイムPCRの検出化学は、Mackay et al., Nucleic Acids Research, 30: 1292- 1305 (2002)に概説されている。「ネステッドPCR」は、第一のPCRの増幅産物が、新しいプライマーセットを用いる第二のPCRのためのサンプルとなる二段階PCRを意味し、該プライマーの少なくとも一つが第一の増幅産物の内側に結合する。本明細書において、ネステッド増幅反応についての「一次プライマー」は、第一の増幅産物の産生に用いられるプライマーを意味し、「二次プライマー」は、二次増幅産物またはネステッド増幅産物の産生に用いられる1または複数のプライマーを意味する。「マルチプレックスPCR」は、複数の標的配列(または単一標的配列、および1または複数の参照配列)のPCRが同一の反応混合物中で同時に行われるPCRを意味する(例えば、Bernard et al. (1999) Anal. Biochem., 273:221-228(2色のリアルタイムPCR))。通常、増幅される各配列に対して異なるプライマーセットが用いられる。「定量的PCR」は、サンプルまたは標本中の1または複数の特異的標的配列の存在量の測定を目的としたPCRである。以下の文献Freeman et al., Biotechniques, 26: 1 12-126 (1999); Becker-Andre et al., Nucleic Acids Research, 17:9437-9447 (1989); Zimmerman et al., Biotechniques, 21 :268-279 (1996); Diviacco et al., Gene, 122:3013-3020 (1992); Becker-Andre et al., Nucleic Acids Research, 17:9437-9446 (1989)などに例示されるように、定量的PCR技術は当業者に周知である。
【0031】
本開示において有用なシークエンシング方法としては、Shendure et al., Accurate multiplex polony sequencing of an evolved bacterial genome, Science, vol. 309, p. 1728- 32. 2005; Drmanac et al., Human genome sequencing using unchained base reads on self- assembling DNA nanoarrays, Science, vol. 327, p. 78-81. 2009; McKernan et al., Sequence and structural variation in a human genome uncovered by short-read, massively parallel ligation sequencing using two-base encoding, Genome Res., vol. 19, p. 1527-41. 2009; Rodrigue et al., Unlocking short read sequencing for metagenomics, PLoS One, vol. 28, el 1840. 2010; Rothberg et al., An integrated semiconductor device enabling non- optical genome sequencing, Nature, vol. 475, p. 348-352. 2011 ; Margulies et al., Genome sequencing in microfabricated high-density picolitre reactors, Nature, vol. 437, p. 376-380. 2005; Rasko et al. Origins of the E. coli strain causing an outbreak of hemolytic-uremic syndrome in Germany, N. Engl. J. Med., Epub. 2011; Hutter et al., Labeled nucleoside triphosphates with reversibly terminating aminoalkoxyl groups, Nucleos. Nucleot. NucL, vol. 92, p. 879-895. 2010; Seo et al., Four-color DNA sequencing by synthesis on a chip using photocleavable fluorescent nucleotides, Proc. Natl. Acad. Sci. USA., Vol. 102, P. 5926-5931 (2005); Olejnik et al.; Photocleavable biotin derivatives: a versatile approach for the isolation of biomolecules, Proc. Natl. Acad. Sci. U.S.A., vol. 92, p. 7590-7594. 1995、米国特許公開第5,750,34号、同第2009/0062129号、および同第2009/0191553号が挙げられる。
【0032】
一般に、用語「核酸分子」、「核酸配列」、「核酸断片」、「オリゴヌクレオチド」、および「ポリヌクレオチド」は、相互互換的に使用され、これらに限定されないが、種々の長さであってもよい多量体型核酸を含むことを意図し、デオキシリボヌクレオチド(DNA)またはリボヌクレオチド(RNA)、あるいはこれらの類似体であってもよい。オリゴヌクレオチドは通常、4種のヌクレオチド塩基、アデニン(A)、シトシン(C)、グアニン(G)、およびチミン(T)(ポリヌクレオチドがRNAの場合は、チミン(T)の代わりにウラシル(U))の特異的配列からなる。したがって、用語「オリゴヌクレオチド配列」は、ポリヌクレオチド分子のアルファベット表示であるか、あるいは、この用語は、ポリヌクレオチド分子自体を指すものとしても適用可能である。このアルファベット表示は、中央処理装置を有するコンピューターのデータベースに入力可能であり、機能ゲノム科学および相同性検索などの生物情報学用途に使用可能である。任意に、オリゴヌクレオチドは、1または複数の非標準的なヌクレオチド、核酸類似体、および/または修飾ヌクレオチドを含んでいてもよい。
【0033】
本開示の実施形態には、当業者に公知の天然オリゴマーまたは合成オリゴマーが含まれる。このようなオリゴマーとしては、オリゴヌクレオチドまたはポリヌクレオチド(例えば、DNAまたはRNA)、ポリペプチド(コラーゲンおよびバンコマイシンなど)、ポリケチド(脂質およびテトラサイクリンなど)、多糖(セルロースおよびデンプンなど)、ポリテルペン(コレステロールおよびゴムなど)、ポリアミノ酸(リグニンおよびポリアルカロイドなど)、ポリピロール(ヘムおよびビタミンB12など)、およびポリエステル(PHA、PHVなど)が挙げられる。オリゴマーとしては、生体模倣型の結合を有するものが挙げられる。米国特許公開第2008/0096253号の表1を参照。オリゴマーとしてはまた、ポリシロキサン、ポリアクリルアミドなどを含む直鎖ポリマーなどの、非生物学的ポリマーが挙げられる。このようなオリゴマーは、十分な熱安定性を有するか、またはナノ細孔もしくはその他のポリマーシークエンシング装置における検出が容易なものであってもよい。
【0034】
修飾ヌクレオチドの例としては、これらに限定されないが、ジアミノプリン、ST、5−フルオロウラシル、5−ブロモウラシル、5−クロロウラシル、5−ヨードウラシル、ヒポキサンチン、キサンチン、4−アセチルシトシン、5−(カルボキシヒドロキシメチル)ウラシル、5−カルボキシメチルアミノメチル−2−チオウリジン、5−カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、β−D−ガラクトシルキュエオシン、イノシン、N6−イソペンテニルアデニン、1−メチルグアニン、1−メチルイノシン、2,2−ジメチルグアニン、2−メチルアデニン、2−メチルグアニン、3−メチルシトシン、5−メチルシトシン、N6−アデニン、7−メチルグアニン、5−メチルアミノメチルウラシル、5−メトキシアミノメチル−2−チオウラシル、β−D−マンノシルキュエオシン、5′−メトキシカルボキシメチルウラシル、5−メトキシウラシル、2−メチルチオ−D46−イソペンテニルアデニン、ウラシル−5−オキシ酢酸(v)、ウイブトキソシン(wybutoxosine)、擬ウラシル(pseudouracil)、キュエオシン、2−チオシトシン、5−メチル−2−チオウラシル、2−チオウラシル、4−チオウラシル、5−メチルウラシル、ウラシル−5−オキシ酢酸メチルエステル、ウラシル−5−オキシ酢酸(v)、5−メチル−2−チオウラシル、3−(3−アミノ−3−N−2−カルボキシプロピル)ウラシル、(acp3)w、および2,6−ジアミノプリンなどが挙げられる。核酸分子はまた、塩基部分(例えば、相補的ヌクレオチドと水素結合を一般的に形成可能な1または複数の原子、および/または相補的ヌクレオチドと水素結合を通常は形成可能でない1または複数の原子)、糖部分、またはリン酸骨格において修飾されていてもよい。核酸分子はまた、N−ヒドロキシスクシンイミドエステル(NHS)などのアミン反応性基の共有結合を可能にする、アミノアリル−dUTP(aa−dUTP)およびアミノへキシルアクリルアミド−dCTP(aha−dCTP)などのアミン修飾基を含んでいてもよい。
【0035】
本開示のオリゴヌクレオチドにおける標準的なDNA塩基対またはRNA塩基対の代替物は、より高い1立方mmあたりのビット密度、より高い安全性(天然毒の突発的または意図的な合成に対する耐性)、光プログラム化ポリメラーゼによるより簡便な識別、またはより低度の二次構造をもたらすことができる。de novo合成および/または増幅合成のための天然ポリメラーゼおよび変異型ポリメラーゼに適合するこのような代替塩基対は、Betz K, Malyshev DA, Lavergne T, Welte W, Diederichs K, Dwyer TJ, Ordoukhanian P, Romesberg FE, Marx A (2012) KlenTaq polymerase replicates unnatural base pairs by inducing a Watson-Crick geometry, Nature Chem. Biol. 8:612-614; Seo YJ, Malyshev DA, Lavergne T, Ordoukhanian P, Romesberg FE. J Am Chem Soc. 2011 Dec 14; 133(49): 19878-88, Site-specific labeling of DNA and RNA using an efficiently replicated and transcribed class of unnatural base pairs; Switzer CY, Moroney SE, Benner SA. (1993) Biochemistry. 32(39): 10489-96. Enzymatic recognition of the base pair between isocytidine and isoguanosine; Yamashige R, Kimoto M, Takezawa Y, Sato A, Mitsui T, Yokoyama S, Hirao I. Nucleic Acids Res. 2012 Mar;40(6):2793-806. Highly specific unnatural base pair systems as a third base pair for PCR amplification; および Yang Z, Chen F, Alvarado JB, Benner SA. J Am Chem Soc. 2011 Sep 28; 133(38): 15105-12, Amplification, mutation, and sequencing of a six-letter synthetic genetic system.に記載されている。
【0036】
以下の6対(A−T、G−C、Z−P、Ds−Px、NAM−SSICS、イソC−イソG)は、ポリメラーゼと適合することが示されており、互いに直交している(すなわち、相互対形成率が低い)。
【0037】
【化1】
【0038】
【化2】
【0039】
ある例示的実施形態では、オリゴヌクレオチド配列は、1または複数のホスホロアミダイトリンカーを用いて、および/または当業者に公知のライゲーション法によるシークエンシングによって調製してもよい。オリゴヌクレオチド配列を、任意の適切な方法、例えば、本明細書の以下に記載の方法およびBeaucage and Carruthers ((1981) Tetrahedron Lett. 22: 1859)に記載の方法などの標準的なホスホロアミダイト法もしくはMatteucci et al. (1981) J. Am. Chem. Soc. 103:3185)によるトリエステル法など、または市販の自動オリゴヌクレオチド合成装置または当業者に公知のハイスループット高密度アレイ法を用いるその他の化学的方法により調製してもよい(米国特許第5,602,244号、同第5,574,146号、同第5,554,744号、同第5,428,148号、同第5,264,566号、同第5,141,813号、同第5,959,463号、同第4,861,571号、および同第4,659,774号を参照。これらの米国特許は、その全体が全ての目的のため、参照により本明細書に取り込まれる)。予備合成されたオリゴヌクレオチドを様々な業者から商業的に入手してもよい。
【0040】
ある例示的実施形態では、オリゴヌクレオチド配列は、当業者に公知の種々のマイクロアレイ技術を用いて調製してもよい。予め合成されたオリゴヌクレオチド配列および/またはポリヌクレオチド配列を基材に結合してもよく、以下の文献に記載の光による制御を用いた方法(light-directed methods)、フローチャネルおよびスポッテイィング法、インクジェット法、ピンに基づいた方法、およびをビーズに基づいた方法を用いてin situで合成してもよい(McGall et al. (1996) Proc. Natl. Acad. Sci. U.S.A. 93: 13555; Synthetic DNA Arrays In Genetic Engineering, Vol. 20: 111, Plenum Press (1998); Duggan et al. (1999) Nat. Genet. S21 : 10; Microarrays: Making Them and Using Them In Microarray Bioinformatics, Cambridge University Press, 2003; 米国特許公開第2003/0068633号および同第2002/0081582号、米国特許第6,833,450号、同第6,830,890号、同第6,824,866号、同第6,800,439号、同第6,375,903号、および同第5,700,637号、および国際公開WO04/031399号、同WO04/031351号、同WO04/02986号、同WO03/100012号、同WO03/066212号、同WO03/065038号、同WO03/064699号、同WO03/064027号、同WO03/064026号、同WO03/046223号、同WO03/040410号、および同WO02/24597号)。
【0041】
ある例示的実施形態では、本明細書に記載の1または複数のオリゴヌクレオチド配列は、支持体(例えば、固体支持体および/または半固体支持体)上に固定される。ある態様では、オリゴヌクレオチド配列は、本明細書に記載のホスホロアミダイトリンカーのうち1つまたは複数を用いて支持体上に結合させることができる。適切な支持体としては、これらに限定されないが、スライド、ビーズ、チップ、粒子、鎖、ゲル、シート、チューブ、球体、容器、キャピラリー、パッド、スライス、フィルム、およびプレートなどが挙げられる。種々の実施形態では、固体支持体は、生物学的支持体、非生物学的支持体、有機支持体、無機支持体、またはこれらの任意の組み合わせであってもよい。実質的に平面の支持体を用いる場合、支持体を、例えば、トレンチ、溝、ウエル、または化学的障壁(例えば、疎水性コーティングなど)で物理的に複数の領域に分けてもよい。ある例示的実施形態では、支持体はマイクロアレイである。本明細書における用語「マイクロアレイ」は、ある態様において、固定化ハイブリダイゼーションプローブをそれぞれ含む空間的に定義された一連の非重複領域または部位のアレイが表面上に存在する、実質上平面的な該表面を有する固相支持体を含むある種のアッセイを指す。「実質上平面的」は、表面上の、プローブサイトなどの、対象となる特徴または対象が、表面上または表面下に広がる体積を占め、且つ該体積の寸法が表面の寸法に対して小さいことを意味する。例えば、光ファイバー束の面上に配置されたビーズは、プローブ部位の実質上平面的な表面を形成し、多孔性平面基材上に配置または合成されたオリゴヌクレオチドは、実質上平面的な表面を形成する。空間的に規定された部位は、その位置および該位置における固定化プローブが何であるかが既知または決定可能であるという点において、さらに「アドレス可能」であってもよい。
【0042】
マイクロアレイ上に固定化されたオリゴヌクレオチドとしては、アッセイ反応において作成された、または該反応から作成された、核酸が挙げられる。一般的に、マイクロアレイ上のオリゴヌクレオチドまたはポリヌクレオチドは一本鎖であり、通常は5′末端または3′末端により固相支持体に共有結合している。ある例示的実施形態によれば、プローブは、本明細書に記載の切断可能なリンカーのうち1つまたは複数を介して固定化されている。マイクロアレイにおける核酸を含む非重複領域の密度は、一般的に100/cmより大きく、より一般的には1000/cmより大きい。核酸プローブに関するマイクロアレイ技術は、以下の例示的文献に概説されている:Schena, Editor, Microarrays: A Practical Approach (IRL Press, Oxford, 2000); Southern, Current Opin. Chem. Biol, 2: 404-410 (1998);Nature Genetics Supplement, 21: 1-60 (1999);およびFodor et al。米国特許第5,424,186号、同第5,445,934号、および同第5,744,305号。
【0043】
支持体にオリゴヌクレオチドを固定化する方法は、当技術分野で公知である(ビーズ: Dressman et al. (2003) Proc. Natl. Acad. Sci. USA 100:8817, Brenner et al. (2000) Nat. Biotech. 18:630, Albretsen et al. (1990) Anal. Biochem. 189:40, and Lang et al. Nucleic Acids Res. (1988) 16: 10861;ニトロセルロース:Ranki et al. (1983) Gene 21 :77;セルロース: Goldkorn (1986) Nucleic Acids Res. 14:9171;ポリスチレン:Ruth et al. (1987) Conference of Therapeutic and Diagnostic Applications of Synthetic Nucleic Acids, Cambridge U.K;テフロン−アクリルアミド:Duncan et al. (1988) Anal. Biochem. 169: 104;ポリプロピレン:Polsky- Cynkin et al. (1985) Clin. Chem. 31 : 1438;ナイロン:Van Ness et al. (1991) Nucleic Acids Res. 19:3345;アガロース:Polsky-Cynkin et al., Clin. Chem. (1985) 31 : 1438;およびセファクリル:Langdale et al. (1985) Gene 36:201;ラテックス:Wolf et al. (1987) Nucleic Acids Res. 15:291 1).
【0044】
本明細書において、用語「結合」は、共有結合的相互作用および非共有結合的相互作用の両方を指す。共有結合的相互作用は、1対の電子(すなわち単結合)、2対の電子(すなわち二重結合)、または3対の電子(すなわち三重結合)の共有により形成される2個の原子またはラジカル間の化学結合である。共有結合的相互作用は、電子対相互作用または電子対結合としても当技術分野で公知である。非共有結合的相互作用としては、これらに限定されないが、ファンデルワールス相互作用、水素結合、弱化学結合(すなわち、短距離非共有結合力を介する)、疎水性相互作用、およびイオン結合などが挙げられる。非共有結合的相互作用の概説は、Alberts et al., in Molecular Biology of the Cell, 3d edition, Garland Publishing, 1994を参照のこと。
【0045】
本開示におけるシークエンシングプライマーは、標的ポリヌクレオチドの既知の結合領域に結合可能であり、本開示のオリゴヌクレオチドプローブのライゲーションを容易にすることが可能なものである。シークエンシングプライマーは、例えば、DNAWorks、またはGene2Oligoなどのコンピュータープログラムを用いて設計してもよい。結合領域は長さにより異なるが、シークエンシングプライマーに結合可能な程度に長い必要がある。標的ポリヌクレオチドは、複数の異なった結合配列を有していてもよく、それにより標的ポリヌクレオチドの種々の部分のシークエンシングが可能となる。シークエンシングプライマーは、連続的なライゲーションサイクルの間、これらがハイブリダイズしたままとなるよう、高度に安定な二本鎖を形成するよう選択される。シークエンシングプライマーは、ライゲーションが5′から3′方向または3′から5′方向のいずれか、あるいはこれら両方に進行可能なように選択可能である。シークエンシングプライマーは、ハイブリダイゼーション効率を促進するため、または安定性を向上するため、またはある一端もしくは他端からの伸長を阻害するために修飾ヌクレオチドまたは修飾結合を含んでいてもよい。
【0046】
ある態様によれば、一本鎖DNA鋳型(ssDNA)を上記に記載のRCAにより調製して、シークエンシングプライマーと共に用いる。または一本鎖鋳型をエマルジョン中のビーズまたはナノ粒子と結合させ、ePCRにより増幅させる。これにより単一の増幅ssDNA鋳型を有するクローンビーズが得られる。
【0047】
いくつかの鋳型ヌクレオチド配列を平行して同定する目的で、鋳型をpH7.4のPBS緩衝液で希釈し、ビオチン−ストレプトアビジン、アザイド−アルキル(例えば、クリックケミストリー)、NHS−エステル、またはシラン処理(例えば、アルデヒドシラン、エポキシシラン、アミノシラン)などの種々の結合方法を用いて、パターン化基材または非パターン化基材に結合させる。ある態様によれば、SiO固体表面などのパターン化表面にロロニー(rolony)を結合させ、1%アミノシラン(v/v)で処理し、一定期間(通常、5分〜2時間)相互作用させる。その後、Wash1緩衝液を用いて、未結合の鋳型を洗い流す。
【0048】
次に、シークエンシングプライマーを調製し、該シークエンシングプライマーハイブリダイゼーション部位にハイブリダイズさせる。ある態様によれば、鋳型の既知の配列にハイブリダイズできるシークエンシングプライマーが調製され得る。あるいは、鋳型調製中に、既知の核酸配列を有するアダプターが、ライゲーション、増幅、転位、または組み換えによって、当業者に公知であり本明細書に記載される方法に従って、未知の核酸配列に付加される。あるいはまた、一定レベルの縮重を有するシークエンシングプライマーを用いて、鋳型に沿った特定の位置にハイブリダイズさせることができる。ある態様によれば、プライマー縮重を用いて、プライマーを鋳型に沿って半ばランダムにハイブリダイズさせることが可能となる。プライマー縮重を当業者に公知の統計的方法に基づいて選択し、プライマーが鋳型の長さに沿ってある間隔でハイブリダイズすることを容易にする。この態様によれば、例えば100塩基ごと、200塩基ごと、2000塩基ごと、100,000塩基ごとなど、N塩基ごとの結合を容易にする、一定の縮重を有するプライマーが設計される。鋳型の長さに沿ったプライマーの結合は、プライマーの設計、およびプライマー設計が鋳型の長さに沿っておよそN塩基ごとに結合するであろう統計的尤度に基づいている。シークエンシングプライマーP1はライゲーションにより伸長するため、シークエンシングプライマーの末端基は、通常、DNAリガーゼによりオリゴヌクレオチドプローブと容易に共有結合で結合できるように合成される。ライゲーションが、シークエンシングプライマーの5′末端とオリゴヌクレオチドプローブの3′末端との間で起こる場合、シークエンシングプライマー上にはリン酸基(5′−PO)が、オリゴヌクレオチドプローブ上には水酸基(3′−OH)が存在するべきであり、逆もまた同様である。シークエンシングプライマーをシークエンシングプライマーハイブリダイゼーション部位にハイブリダイズさせるために、5×SSPE緩衝液で希釈した1μMのシークエンシングプライマーを用いる。次に、この混合物を室温より高い温度で数分間インキュベートして適切なアニーリングを促す(通常25℃〜55℃の温度で1〜5分間)。
【0049】
ある態様によれば、オリゴヌクレオチド配列は、当業者に公知のインクジェット技術、当業者に公知の電気化学技術、当業者に公知のマイクロ流体技術、当業者に公知の光生成酸、または当業者に公知の光脱保護モノマーを用いて調製してもよい。このような技術は、高速でのオリゴヌクレオチド作成、低コスト、より少ない毒性化学物質、より高い携帯性、およびde novo(デジタルまたはアナログ)合成によりDNA生化学(例えば、修飾、ポリメラーゼ、ハイブリダイゼーションなど)を挟む(interleave)能力という利点を有する。例えば、カメラ光学系から直接の、またはデジタルマイクロミラー表示装置(DMD)からの、空間的にパターン化された光を、溶液化学と共に用いてもよい。米国特許公開第2003/0228611号参照。例えば、末端デオキチヌクレオチジルトランスフェラーゼ(TdT)またはポリ(A)ポリメラーゼなどの鋳型非依存的ポリメラーゼ、あるいはTaqまたはPhi29誘導体などの鋳型依存的ポリメラーゼは、5′→3′エキソヌクレアーゼドメインの活性部位(もし存在するなら)へのアゾベンゼンアミノ酸の取り込みにより、基本的なポリメラーゼ機能、塩基特異性または忠実性を、光によるプログラム可能なものとしてもよい(Hoppmann C, Schmieder P, Heinrich N, Beyermann M. (2011) Chembiochem. l2(17):2555-9. doi: 10.1002/cbic.201100578. Epub 2011 Oct 13, Photoswitchable click amino acids: light control of conformation and bioactivity参照)。
【0050】
光感受性ニューロン(光遺伝学)は、イオン感受性ポリメラーゼを誘発可能であるか(Zamft B, Marblestone A, Kording K, Schmidt D, Martin-Alarcon D, Tyo K, Boyden E, Church GM(2012) Measuring Cation Dependent DNA Polymerase Fidelity Landscapes by Deep Seuencing. PLoS One, in press参照)、またはある用途では、イオン束パターン自体が記憶されたデータセットを構築し得る。
【0051】
de novoポリマーは、ポリメラーゼ増幅をしてまたはせずに、記憶および読み込み可能である。増幅は、温度サイクリングによるものであっても、等温によるものであってもよい。増幅産物は、現在の化学的合成に便利であるような短いものであっても(100〜200量体)、あるいはポリメラーゼを用いて達成可能であろう最大1Mbpであってもよい。
【0052】
取り込まれた核酸の種類は、a)dNTP溶液の循環パターンにおけるその時点で存在する特定のdNTP(またはrNTPもしくは他のモノマー種)と一致する光パルスの交差、b)「ケージ化」(すなわち、光活性化可能または光不活性化可能な)dNTP、rNTP、またはカチオン、c)塩基特異的で光調節された立体的選択性または立体構造選択性(Hoppmann C, Schmieder P, Heinrich N, Beyermann M. (2011) Chembiochem. l2(17):2555-9. doi: 10.1002/cbic.201 100578. Epub 2011 Oct 13. Photoswitchable click amino acids: light control of conformation and bioactivity参照)により決定され得る。ポリ(A)ポリメラーゼの、他のrNTPと比較してのATpに対する特異性は、光感受性アミノ酸結合(架橋または未架橋のアゾベンゼンなど)により模倣可能な立体構造の変化に起因するため、ポリ(A)ポリメラーゼは特に有用である。
【0053】
本発明を以下の実施例により更に説明するが、これらの実施例は、限定するものであると解釈されてはならない。明細書に記載された全ての文献、特許出願、および公開された特許出願は、すべての目的において、その全体が本明細書中に参照により取り込まれる。
【実施例】
【0054】
実施例1
DNAを用いて記憶される書面情報
Basic Books(ニューヨーク州、ニューヨーク)から刊行予定の「Regenesis」(Church GM and Regis E)と呼ばれるHTML版の草案文書を、最新のフォーマッティング、画像、およびジャバスクリプトを示すものとして選択した。典型的なウエブページと同様、特殊文字およびフォントについてASCIIおよびUNICODEと下位互換性のある、可変幅エンコードであるUniversal Character Set Transformation Format、8ビット(UTF−8)を用いた。JPEGエンコード(通常、品質損失が小さい10:1データ圧縮)された白黒の11画像が含まれていた。これらは、Base64フォーマットのhtml中に「インライン」(つまり、別個のファイルではなく)埋め込みされていた。これらのJPEGセグメントのうちの任意のものの中央におけるコンセンサスビットエラーは、当該セグメント内で下流に位置するデータにのみ影響を及ぼす。テキスト中のビットエラーは、該エラーを含むオリゴヌクレオチド中の最大12文字に影響を及ぼす。ジャバスクリプトは、カーソル位置に追従して動的に湾曲可能な37バイトのテキスト文字列(遺伝子コードのニーモニックエンコード)の単純な表示である。本開示によれば、DNAは(その他のデジタルメディアと同様に)、デジタル機械用の実行可能な命令をエンコード可能である。
【0055】
実施例2
書面情報のDNAへのエンコード
文書を(埋め込みjpg画像を有する)htmlフォーマットへと変換した。文書をビット型で読み込み、次に個々のビットを、0についてはAまたはCに、1についてはTまたはGへと変換した。3個を超えて続くホモポリマーを許可せずに、塩基をランダムに選択した。ビットストリームのアドレスは19ビット長であり連続的に番号付与されており、0000000000000000001から始まる。スクリプトBits2DNA.pl(コード欄を参照)は、htmlファイルをDNAセグメントへとエンコードするために用いられるプログラムである。
【0056】
実施例3
合成および増幅
Agilent Oligo Library Synthesisマイクロアレイプラットフォーム上で、54,898個のオリゴヌクレオチドを合成した。AgilentでDNAを溶出し、100μL TE(10mM Tris−Cl pH7.5、0.1mM EDTA)中の約10ピコモルのオリゴヌクレオチドプールを得た。
【0057】
以下のようにライブラリーを増幅した。各200nMのMD−テスト−1FプライマーおよびMD−テスト−1Rプライマーを用いた50μLのPCR増幅反応中に1μL(約10フェムトモルの期待値)のライブラリーを用い、BioRad CFX96 Real−Time PCR機でSybr Fast Master Mix(Kapa Biosystems)を用いた6サイクルの増幅を行い、増幅の間、Sybr Geenチャンネルをモニタリングした。
95℃、3分
95℃、10秒
60℃、30秒
Sybr Geenチャンネルの読み込み
ステップ2へ戻り、計10サイクル
68℃、30秒
4℃で保持
【0058】
得られたPCR産物は、製造者の説明書に従い、Qiagen MinElute PCRクリーンアップカラムを用いて、10μLのBuffer EB(10mM Tris−Cl、pH8.5)中に精製した。NanoDrop2000c分光光度計で測定したところ、溶出DNAの濃度は、36.8ng/μL(A260/A280=1.85)であった。
【0059】
1μLの(水で)1:11希釈された増幅産物のチューブ2つを、同じ条件ではあるが、今回は200nMのPE−PCRプライマー1.0−FおよびPE−PCRプライマー2.0−Rを用いて9サイクル増幅した。製造者(Agencourt)の指示に従ってAmpureビーズを用いてPCR反応物を浄化して残存プライマーを除去し、50μLのTEに再懸濁した。NanoDropおよびアガロースゲルによるイメージングの両方で定量化した最終産物は、約22ng/μLであった。用いたプライマーは以下の通りであり、*はホスホロチオエート結合を示す。
【0060】
>MD−テスト−1F
ACACTCTTTCCCTACACGACGCTCTTCCGATC*T
>MD−テスト−1R
CTCGGCATTCCTGCTGAACCGCTCTTCCGATC*T
>PE−PCRプライマー1.0−F
AATGATACGGCGACCACCGAGATCTACACTCTTTCCCTACACGACGCTCTTCCG ATC*T
>PE−PCRプライマー2.0−R
CAAGCAGAAGACGGCATACGAGATCGGTCTCGGCATTCCTGCTGAACCGCTCT TCCGATC*T
【0061】
実施例4
シークエンシングおよび処理
HiSeq2000の1レーンに14pMのライブラリー(14fmol、1:1000の増幅ライブラリー)を1mLロードすることにより、ペアエンドとなった100個のリードを用いて増幅ライブラリーをシークエンシングした。レーンから、Q30以上が87.14%であり平均Qスコアが34.16である346,151,426,000,000個のペアリードを得た。ペアとなった100bpのリードを有する115bpのコンストラクトの配列が決定されたので、SeqPrep(11 J. St. John, SeqPrep https://github.com/jstjohn/SeqPrep (2011)参照)を用い、以下のコマンドを用いて重複するリードを単一のコンティグへと組み合わせた。(HiSeqレーンの単一タイルに対して):SeqPrep -f MTMC2_NoIndex_L006_Rl_002.fastq.gz-rMTMC2_NoIndex_L006_R2_002.fastq.gz -1 tile2rl .fastq.gz -2 tile2r2.fastq.gz -s tile2merged, fastq.gz -E tile2-align.txt.gz -o 50 -m 0.1 -n 0.8。
【0062】
SeqPrepの後、292,371,030個のコンティグが形成された。コンティグをBowtie2 version 2.0.0−beta5(17 B. Langmead, S. L. Salzberg, Nature Methods 9, 357-360 (2012)参照)およびSamTools version 0.1.18(18 H. Li et al., Bioinformatics 25, 2078-2079 (2009)参照)を用いて、以下のコマンド:zcat *merged* | bowtie2 -p 10 -end-to-end -x ../../../agilentlib -U - | samtools view -bS - > alltiles- merged.bamによりリファレンスとアライメントした。
【0063】
アライメントにより、267,993,389個(92%)が、合成ライブラリーの1メンバーにアライメントされ、平均カバー度は4882±1261(標準偏差±1)であった。完全長115bpのコンティグとなるSeqPrep後のコンティグをフィルターし、190,284,472個のリードが得られ、平均カバー度は3419±998であった。ライブラリーの各メンバーの平均では、約69.5%±0.4のリードが完全長であった。最もリード数の少ないコンストラクトはオリゴmd−37545であり、これは、115bpのフィルタリング前に94個のリード、フィルタリング後に9個のリードを有しており、結果として得られるこのオリゴに対するコンセンサスは、依然として正しいものであった。
【0064】
図2は、設計ライブラリーの各メンバーについての観察数のヒストグラムである。SeqPrepからコンティグを作成した(すなわち、リード間が重なっている)全リードを、Bowtie2を用いて合成ライブラリーに対してアライメントし、ビン化、およびプロットを行った(赤)。115bp長のコンティグについてのみ、同じ情報を緑で示した。差し込み図は、分布テールの拡大図である。
【0065】
実施例5
エラー
コンセンサスライブラリーから、設計配列とリード配列との不一致が見いだされ、これらを以下の表1にまとめた。示す通り、22個の不一致があり、そのうちの10個がビットエラーとなった(太字)。大部分のエラー(20/22)は配列の最後の15塩基以内にあり、この部分はシークエンシング時のカバー度が1しかない。さらに、大部分のエラー(18/22)は、少なくとも3個の連続した繰り返しヌクレオチドを生み出した。4以上の繰り返しヌクレオチド(灰色のボックス)のホモポリマーリードを排除することにより不一致は12個となり、そのうち7個はビットエラーである。
【0066】
【表1】
【0067】
表1は、設計ライブラリーとリードライブラリーとの不一致を示す。各エラーを一行で示し、エラーが関連するバーコード、オリゴ中の(115のうちの)位置、エラーのタイプ、エラーがビット変化をもたらしたか否か、元のコンテキスト、および新しいコンテキスト(エラー部位はダッシュの中央)を示し、最後に、エラーが、フィルター除去できたであろう4塩基の並びを生じたか否かを示す。ビットエラーを生じた行を太字で示し、4連続の塩基の並びに基づいたフィルター除去が出来たであろう行を網掛けで示す。
【0068】
【表2】
【0069】
実施例6
データ密度の算出
理論上のDNA密度を、一本鎖DNAの1ヌクレオチドあたり2ビットを用いて計算した。使用したDNAの分子量は、ATGCのバランスがとれたライブラリーのナトリウム塩についての平均330.95g/mol/ヌクレオチドの無水重量を基にした。これにより2.75×10−22gあたり1ビットの重量密度となり、3.96g中に1.8×1021バイトが記憶可能である。当然、実際の最大値は、所望の冗長度、バーコーディング、およびエンコードのスキームの種類によって数桁低い密度であろう。図1Bには、この理論的最大値の計算は用いなかった。
【0070】
図1Bにプロットされたデータは、全く異なる技術間の比較である。厚さが報告されていない平面密度の算出の場合、深さとして100μmを選択した(これは、ハードドライブ盤より約10倍小さく、現行のフラッシュメモリスタックより33%小さい)。現行の情報エンコード密度(159bpあたり96ビット)、および記憶装置内のDNAの合成カバー度を100倍と想定した。純水の密度である約1g/cmの体積を想定したが、これは恐らく乾燥DNAに対してやや低い見積もりである。
【0071】
表2
表2は、種々のメディアにおけるデータ密度を比較するために、図1Bで用いられたデータを示す。大きく異なる情報エンコード技術を比較するために、種々の仮定をすることですべてのデータ密度情報を体積データ密度へと変換した。市販技術に対しては、入手可能な場合には、基材厚について入手可能な情報を用いた。フラッシュメモリの場合は、クラス最高のデータ密度を、異なる製造者が提供するチップ積層厚と組み合わせた。デモンストレーションされたデータ記憶技術に対しては、基材厚についての報告はなかった。したがって、100μmの厚さを仮定したが、これは積層型フラッシュ記憶技術の現行の厚さの1/3である。全てのデモンストレーションは真空中、4°Kにて行われているため、公開されたこれらの技術に対しては、上記は非現実的である可能性がある。乾燥DNAの密度は水の密度で近似したが、これは過小評価の可能性がある。クローン化DNAを用いたその他の生物学的デモンストレーションに対しては、個々の細胞の体積を体積として用いた。最後に、灰色の行は、その他のデータ点によって曖昧であるため図1Bに示されていないが、完全性のために表に含まれる。
【0072】
実施例7
コード
Bits2DNA.pl
# cd "\Perl\gmc\Bin_DNA"
# \Perl\bin\perl Bits2DNA.pl GMC Jul-2011 & 27-May-2012
# docstore.mik.ua/orelly/perl/cookbook/ch02_05.htm (bin) ch01_05.htm (char)
# http://perldoc.perl.org/functions/pack.html rand.html
# Each oligo is L(19)+8N(12)= 115 bp, long flanked by 22-mer amplification primers.
# DNA Encoded Artifacts Registry (DEAR) to coordinate global standards.

open IN,"in.html"; open OUT,">Bits2DNA.txt"; binmode IN;
$t{"0"}="a"; $t{"1"}="G"; # lowercase a,c = zero bit.
$t{"a"}="c"; $t{"G"}="T"; $t{"c"}="a"; $t{"T"}="G";
$u1=""; $u2=""; $u3=""; # Initialize; keep homopolymer runs < 4
$N=12; # Length of segment in bytes (not including segment number)
$L=19; # 2^19 = 524,288 = max number of oligos L=00010011
$seed=2; srand($seed); # remove this line to get a random seed
print int2bp(262144)," ",int2bp(262145);
$f="CTACACGACGCTCTTCCGATCT"; # forward 'universal' sequencing & amplification primer
$r="AGATCGGAAGAGCGGTTCAGCA"; # reverse 22-mer primer

$n=0; print OUT $f,int2bp(0),""; ###
while (read (IN, $text, 65536)) {
@ascii_num = unpack("C*", $text);
foreach $val (@ascii_num) {
print OUT byt2bp($val); ###
$n++;
if($n%$N==0){
print OUT $r,"\n",$f,int2bp($n/$N),""; ###
} # N bases per output line
} # each byte
} # 65 Kbytes
for ($k=$n%$N; $k<$N; $k++){
print OUT byt2bp(int(rand(256))); ###
} # pad last data line to keep all oligos same size.
print OUT "$r\n"; ###

sub byt2bp { # convert rightmost 8 bits (MSB first byte) to 8 bp
my $b = unpack("B32", pack("N", shift));
$p="";
for ($i=24; $i<=31; $i++){
$x=substr($b,$i,1); # bits 24 to 31 inclusive
$u=$t{$x};
if(rand(2)<1){$u=$t{$u};} # pick synonym a=c; G=T
if(($u eq $u1) && ($u eq $u2) && ($u eq $u3)){$u=$t{$u};}
$u1=$u2; $u2=$u3; $u3=$u; # Shift previous base string
$p = $p.$u;
}
return $p;
}
sub int2bp { # convert rightmost $L bits of 32 bit integers to $L bp
my $b = unpack("B32", pack("N", shift));
$p="";
for ($i=31; $i>=32-$L; $i--){
$x=substr($b,$i,1); # bits 31 to $L
$u=$t{$x};
if(rand(2)<1){$u=$t{$u};} # pick synonym a=c; G=T
if(($u eq $u1) && ($u eq $u2) && ($u eq $u3)){$u=$t{$u};}
$u1=$u2; $u2=$u3; $u3=$u; # Shift previous base string
$p = $p.$u;
}
return $p;
}

buildConsensus.py
import sys

#builds consensus sequence from individual base counts
def getConsensus(finalbuckets):
sequence = ''
for i in range(len(finalbuckets)):
letterindex = finalbuckets[i].index(max(finalbuckets[i]))
if letterindex == 0:
sequence += 'A'
elif letterindex == 1:
sequence += 'C'
elif letterindex == 2:
sequence += 'G'
elif letterindex == 3:
sequence += 'T'
return sequence


oligolength = 115
currentbarcode = ''
#initialize vector to building consensus
buckets = [[0 for col in range(4)] for row in range(oligolength)]

for line in sys.stdin:
splitline = line.split()
count = int(splitline[0])
barcode = splitline[1]
sequence = splitline[2]
if not barcode == currentbarcode:
if not currentbarcode == '':
print getConsensus(buckets)

buckets = [[0 for col in range(4)] for row in range(oligolength)]
currentbarcode = barcode
for i in range(oligolength):
if sequence[i] == 'A':
buckets[i][0] += count
elif sequence[i] == 'C':
buckets[i][1] += count
elif sequence[i] == 'G':
buckets[i][2] += count
elif sequence[i] == 'T':
buckets[i][3] += count

#print final consensus
print getConsensus(buckets)
【0073】
実施例8
処理の概要
ある態様によれば、53,426語、11個のJPG画像、および1個のJavascriptプログラムを含むhtmlコードされた草案文書が、5.27メガビットに変換された(文献4参照。材料および方法についての情報は、Science Onlineで閲覧可能)。次にビットを、各々が96ビットのデータブロック(96ヌクレオチド)、ビットストリーム(19ヌクレオチド)中におけるデータブロックの位置を指定する19ビットのアドレス、および増幅およびシークエンシングのための22ヌクレオチドの隣接共通配列をコードする、54,898個の159ヌクレオチド長オリゴヌクレオチド上にエンコードした。このオリゴヌクレオチドライブラリーは、インクジェット印刷された高忠実度DNAマイクロチップにより合成した(文献10参照。E. M. LeProust et al.,Nucleic Acids Research 38, 2522-2540 (2010))。エンコードされた文書を読みこむため、限定サイクルPCR(limited-cycle PCR)によりライブラリーを増幅し、次にIllumina HiSeqの一つのレーンでシークエンシングした。シークエンシングエラーの効果を減らすため、重複するペアエンドの100ヌクレオチドリードを連結した(文献11参照。J. St. John, SeqPrep https://github.com/jstjohn/SeqPrep (2011))。次に、予想される115ヌクレオチド長および完全なバーコード配列を与えたリードのみを用いて、各データブロックの各塩基において、平均約3000倍のカバー度でコンセンサスを作成した。全てのデータブロックを(527万中)計10ビットのエラーで回復し、このエラーは、配列カバー度が1しかないオリゴ末端にあるホモポリマーの並びの中に主に位置していた(文献4参照。材料および方法についての情報は、Science Onlineで閲覧可能)。
【0074】
本明細書に開示の実施形態の密度は、100倍の合成カバー度で、約5.5ペタビット/mmであった。本明細書に開示の実施形態のスケールは、約5.27メガビットであった。本明細書に記載の方法ステップは、市販の材料および装置を用いて実行された。図1Bは情報密度の比較であり、本開示(「本研究」)の実施形態が他の記憶メディアと比較してより高い情報密度をもたらすことを示している。ある態様によれば、実施形態には、密度、配布/配信(distribution)、およびエラー率を向上するための圧縮、冗長エンコード、パリティ検査、およびエラー修正が含まれる。ある態様によれば、DNAライブラリーは、直交増幅を可能にする特異的プライマー部位を用いて、物理的単離をしないで保存することも可能である(文献12参照。S. Kosuri et al., Nature Biotechnology 28, 1295-1299 (2010))。ある態様によれば、読み込み、書き込み、および記憶の能力を最大化するため、DNA以外のポリマーまたはDNA修飾体を用いることも可能である(文献13参照。S. A. Benner, Z. Yang, F. Chen, Comptes Rendus Chimie 14, 372-387 (2011))。ある態様によれば、携帯型の1分子シークエンサーを用いてDNAへとエンコードされた情報を読み取ってもよい(文献15参照。E. Pennissi, Science 336, 534-537 (2012))。ある態様によれば、アドレス化データブロックをライブラリー合成およびコンセンサスシークエンシングと組み合わせて用いる一般的アプローチは、市販のDNAシークエンシング技術およびDNA合成技術と適合している。ある態様によれば、情報記憶などの代替的な消費者レベルのDNAの使用により、合成技術およびシークエンシング技術を改善する新たな技術の開発が加速されるであろう(文献16参照。S. Kosuri, A. M. Sismour, ACS Synth Biol 1, 109- 110 (2012))。
【0075】
本明細書で特定される文献および以下の参考文献は、その全体が全ての目的のため、本明細書に参照により取り込まれ、本開示全体にわたって対応する番号により参照される。
【0076】
3. "Extracting Value from Chaos" (IDC, Framingham, MA 2011); world wide web site emc.com/collateral/analyst-reports/idc-extracting-value-from-chaos-ar.pdf.
4. J. Rothenberg, Scientific American 272, 42-47 (1995).
5. C. Bancroft, T. Bowler, B. Bloom, C. T. Clelland, Science 293, 1763-1765 (2001).
6. Information on materials and methods is available on Science Online
7. J. Bonnet et al., Nucleic Acids Research 38, 1531-1546 (2010).
8. S. Paabo et al., M. A. Uyterlinde et al., Eds. Annual Review of Genetics 38, 645-679 (2004).
9. J. Davis, Art Journal 55, 70-74 (1996).
10. C. Gustafsson, Nature 458, 703 (2009).
11. D. G. Gibson et al., Science 329, 52-56 (2010).
12. E. M. LeProust et al., Nucleic Acids Research 38, 2522-2540 (2010).
13. J. St. John, SeqPrep https://github.com/jstjohn/SeqPrep (2011)
14. S. Kosuri et al., Nature Biotechnology 28, 1295-1299 (2010).
15. S. A. Benner, Z. Yang, F. Chen, Comptes Rendus Chimie 14, 372-387 (2011).
16. P. A . Carr, G. M. Church, Nature Biotechnology 27, 1151-62 (2009).
17. E. Pennissi, Science 336, 534-537 (2012)
18. S. Kosuri, A. M. Sismour, ACS Synth Biol 1, 109-1 10 (2012)
19. B. Langmead, S. L. Salzberg, Nature Methods 9, 357-360 (2012).
20. H. Li et al., Bioinformatics 25, 2078-2079 (2009).
21. Ecma International, Data interchange on read-only 120mm optical data disks (CD-ROM), (ECMA Standard 130, Geneva, Switzerland 1996, world wide website ecma- international.org/publications/files/ECMA-ST/Ecma- 130.pdf.)
22. Ecma International, 120 mm DVD - Read-Only Disk, (ECMA Standard 267, Geneva, Switzerland 2001, world wide website ecma-international.org/publications/files/ECMA- ST/Ecma-267.pdf.)
23. Blu-Ray Disc Association, White Paper - Blu-Ray Disc Format (2nd Edition, Universal City, CA 2010, world wide website blu- raydisc.com/Assets/Downloadablefile/general_bluraydiscformat- 15263.pdf.)
24. Oracle, StorageTek T 10000 Family Tape Cartridge (Oracle, Redwood Shores, CA 2010, world wide website oracle.com/us/products/servers-storage/storage/tape- storage/033617.pdf.)
25. SanDisk, SanDisk Develops Smallest 128Gb NAND Flash Memory Chip (SanDisk, Milipitas, CA 2012, world wide website www.sandisk.com/about-sandisk/press- room/press-releases/2012/sandisk-develops-worlds-smallest- 128gb-nand- flash-memory- chip.)
26. Toshiba, NAND Flash Memory in Multi Chip Package (Toshiba, Tokyo, Japan, 2011, world wide website toshiba-components.com/memory/mcp.html.)
27. Seagate, Seagate Reaches 1 Terabit Per Square Inch Milestone In Hard Drive Storage With New Technology Demonstration (Seagate, Cupertino, CA 2012, world wide website seagate.com/about/newsroom/press-releases/terabit-milestone-storage-seagate- pr/?paramChannelName=newsroom.)
28. S. Loth et al., Science 335, 196- 199 (2010).
29. D. M. Eigler, E. K. Schweizer, Nature 344, 524-526 (1990).
30. C. R. Moon, L. S. Mattos, B. K. Foster, G. Zeltzer, H. C. Manoharan, Nature Nanotechnology 4, 167-172 (2009).
31. T. Grotjohann et al., Nature 478, 204-208 (2011).
32. H. E. Kubitschek, J Bacteriol 172, 94-101 (1990).
33. "Screening Framework Guidance for Providers of Synthetic Double- Stranded DNA" Federal Registrar 75, 62820-62832 (2010) FR Doc No: 2010-25728.
【0077】
均等物
そのほかの実施形態も当業者には明らかであろう。以上の説明は、明瞭性の目的のためにのみ与えられるものであり、単なる例示である。本発明の趣旨および範囲は上記の例に限定されず、請求の範囲により包含される。上記に記載された全ての刊行物、特許、および特許出願は、個々の刊行物または特許出願が参照により取り込まれることが具体的に記された場合と同程度に、全ての目的のため、本明細書中に参照により取り込まれる。
図1A
図1B
図2