特許6674518 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ ヨーロピアン・モレキュラー・バイオロジー・ラボラトリー（イー・エム・ビー・エル）の特許一覧

特許6674518ＤＮＡでのデジタル情報の高容量記憶

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】特許公報(B2)

(11)【特許番号】6674518

(24)【登録日】2020年3月10日

(45)【発行日】2020年4月1日

(54)【発明の名称】ＤＮＡでのデジタル情報の高容量記憶

(51)【国際特許分類】

G16B 50/00 20190101AFI20200323BHJP

G06N 3/12 20060101ALI20200323BHJP

【ＦＩ】

G16B50/00

G06N3/12 130

【請求項の数】9

【外国語出願】

【全頁数】27

(21)【出願番号】特願2018-177183(P2018-177183)

(22)【出願日】2018年9月21日

(62)【分割の表示】特願2015-514530(P2015-514530)の分割

【原出願日】2013年5月31日

(65)【公開番号】特開2019-23890(P2019-23890A)

(43)【公開日】2019年2月14日

【審査請求日】2018年10月10日

(31)【優先権主張番号】61/654,295

(32)【優先日】2012年6月1日

(33)【優先権主張国】US

(73)【特許権者】

【識別番号】301076083

【氏名又は名称】ヨーロピアンモレキュラーバイオロジーラボラトリー

【氏名又は名称原語表記】ＥｕｒｏｐｅａｎＭｏｌｅｃｕｌａｒＢｉｏｌｏｇｙＬａｂｏｒａｔｏｒｙ

(74)【代理人】

【識別番号】100091502

【弁理士】

【氏名又は名称】井出正威

(72)【発明者】

【氏名】ゴールドマン，ニック

(72)【発明者】

【氏名】バーニー，ジョン

【審査官】関博文

(56)【参考文献】

【文献】国際公開第０３／０２５１２３（ＷＯ，Ａ２）

【文献】特開２００５−０７２７７２（ＪＰ，Ａ）

【文献】米国特許第６３１２９１１（ＵＳ，Ｂ１）

【文献】英国特許出願公開第２３７６６８６（ＧＢ，Ａ）

【文献】特表２００６−５２２３５６（ＪＰ，Ａ）

【文献】特開２００５−０５５９００（ＪＰ，Ａ）

【文献】 Jonathan P.L.cox et，Long-term data storage in DNA，TRENDS in Biotechnology，２００１年７月１日，Vol.19 No.7，p.247-250

【文献】 THOMAS P.Niedringhaus et al，Landscape of Next-Generation Sequencing Technologies，analytical chemistry，２０１１年６月１５日，vol.83 no.12，p.4327-4341

(58)【調査した分野】（Int.Cl.，ＤＢ名）

Ｇ１６Ｂ１０／００−９９／００

Ｇ０６Ｎ３／１２

(57)【特許請求の範囲】

【請求項1】

情報（２１０）を記憶するための方法であって、
− 前記情報（２１０）をバイトで符号化すること、
− 前記符号化されたバイトをある形式を用いて少なくとも１つのＤＮＡヌクレオチドによって表し、ＤＮＡ配列（２３０）を生成すること（７２０）、
− 前記ＤＮＡ配列（２３０）を重複する複数のＤＮＡセグメント（２４０）に分割すること（７３０）、
− 前記複数のＤＮＡセグメント（２４０）のそれぞれに索引情報（２５０）をＤＮＡ符号化（７６０）して追加（７７０）することにより付加すること（７５０）、
− 前記複数のＤＮＡセグメント（２４０）を合成すること（７９０）、および
− 前記合成されたＤＮＡセグメント（２４０）を保管すること（７９５）、
を含み、
上記索引情報（２５０）は、それが付加されたＤＮＡセグメント（２４０）のヌクレオチドの前記ＤＮＡ配列（２３０）中の位置を示すものである、方法。

【請求項2】

前記合成されたＤＮＡセグメントへのアダプタの付加をさらに含む、請求項１に記載の方法。

【請求項3】

前記バイトを符号化するためにｂａｓｅ−３方式を使用する、請求項１または２に記載の方法。

【請求項4】

前記符号化されたバイトを少なくとも１つのＤＮＡヌクレオチドによって表すのに用いられる前記形式が、前記ＤＮＡヌクレオチドの隣接するものが異なるように設計される、請求項１〜３のいずれか一項に記載の方法。

【請求項5】

前記索引情報（２５０）にパリティ・チェックを付加することをさらに含む、請求項１〜４のいずれか一項に記載の方法。

【請求項6】

前記合成されたＤＮＡセグメント（２４０）の交互に並ぶものを逆相補の関係にする、請求項１〜５のいずれか一項に記載の方法。

【請求項7】

前記符号化されたバイトを少なくとも１つのＤＮＡヌクレオチドによって表すのに用いられる前記形式が、長い自己相補の合成ＤＮＡセグメントを回避するように設計される、請求項１〜６のいずれか一項に記載の方法。

【請求項8】

前記合成されたＤＮＡセグメントを復号化して前記情報（２１０）を再構築することをさらに含む、請求項１〜７のいずれか一項に記載の方法。

【請求項9】

請求項１から８のいずれか一項に記載の方法に従って情報（２１０）を記憶した複数のＤＮＡセグメント（２４０）からなる、不揮発性の非一時的な記憶媒体。

【発明の詳細な説明】

【技術分野】

【0001】

本開示は、ＤＮＡにデジタル情報を記憶するための方法および装置に関する。

【背景技術】

【0002】

ＤＮＡは、長期間にわたりコンパクトな形で簡単に記憶された莫大な量の情報を保持する能力を有する（参考文献１、２）。ＤＮＡをデジタル情報に対する記憶装置として使用するという考えは、１９９５年から存在していた（参考文献３）。ＤＮＡ記憶の自然法則による実装形態は、今まで、わずかな量の情報、通常は少数の数字または英語のテキストからなる単語を記憶するだけであった（参考文献４〜８）。発明者らは、磁気的な基板または光学的な基板に対するデータ記憶ではなく、自然法則によるＤＮＡに、符号化された任意のサイズのデジタル情報を大規模に記憶および回復することを意識していない。

【0003】

現在、ＤＮＡの合成は、生物医学的な用途に注目が集まる専門技術である。ＤＮＡ合成の費用は、過去１０年間にわたり着実に下がってきている。本明細書に開示するように、どんな時間スケールにおけるＤＮＡ分子でのデータ記憶が、希ではあるが３〜５年ごとの定期的な新しい媒体への転送を伴う、現在のテープでのデータ記憶の長期アーカイビング・プロセスより費用効果が高くなるかを推測することは興味深い。ＤＮＡ合成に関する現在の「既成」の技術は、１米ドルあたり約１００バイトの価格に相当する。ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓ（カリフォルニア州サンタクララ）が市販するより新しい技術は、この費用を実質的に下げることができる。しかしながら、テープ媒体間の定期的な転送について考慮することも必要である。問題は、このデータ転送のための費用と、この費用が固定であるか徐々に減少するかどうかの両方である。かなり額の費用が固定であると考えられる場合には、テープ媒体での定期的なデータ記憶より、データ記憶にＤＮＡ分子を使用する方が費用効果が高い時間の範囲が存在する。４００年（少なくとも８０回の媒体転送）後には、ＤＮＡ分子を用いたこのデータ記憶が、既に費用効果的になっている可能性がある。

【0004】

本開示では、これまでに扱われたよりも多くの情報を記憶する、実用的な符号化−復号化の手順について記載する。発明者らは、５つのコンピュータ・ファイル−ハードディスク記憶の総計７５７０５１バイト（７３９ｋＢ）、推定５．２×１０^６ビットのシャノン情報（参考文献９）を有する−をＤＮＡコードに符号化した。発明者らは、引き続きこのＤＮＡを合成し、合成したＤＮＡを米国から英国を経てドイツへ移し、ＤＮＡの配列を決定し、５つのコンピュータ・ファイルすべてを１００％の精度で再構築した。

【0005】

５つのコンピュータ・ファイルは、英語のテキスト（全１５４篇のシェイクスピアのソネット）、古典的な科学論文（参考文献１０）のＰＤＦ文書、ＪＰＥＧのカラー写真、および２６秒の演説（ＭａｒｔｉｎＬｕｔｈｅｒＫｉｎｇの「ＩＨａｖｅＡＤｒｅａｍ」の演説より）を収容したＭＰ３フォーマットのオーディオ・ファイルを含んでいた。このデータ記憶は、知られているこれまでのＤＮＡベースの記憶の約８００倍の情報に相当し、ずっと多様なデジタル・フォーマットを網羅している。結果は、ＤＮＡ記憶がますます現実的になり、将来的には、デジタル情報をアーカイブする費用効果的な手段を提供する可能性があり、また既に低アクセスの数十年のアーカイビング作業には費用効果的であり得ることを証明している。

【0006】

容易に得られる条件の下で情報を安定的に記憶するＤＮＡの高い能力（参考文献１、２）によって、ＤＮＡは、１９９５以来、情報記憶のための魅力的な対象になっている（参考文献３）。情報密度に加えて、ＤＮＡ分子は情報担体としての証明された実績を有し、またＤＮＡ分子の寿命が長いことが知られており、地球上の生命の基礎として、ＤＮＡ分子を操作、保管および読み取るための方法は、ＤＮＡに基づく知能の高い生命体が存続する限り、依然として継続的な技術革新の主題となるであろう（参考文献１、２）。生きているベクターＤＮＡ（参考文献５〜８）（イン・ビボのＤＮＡ分子）と合成されたＤＮＡ（参考文献４、１）（イン・ビトロのＤＮＡ）の両方に基づくデータ記憶システムが提案されている。イン・ビボのデータ記憶システムは、いくつかの欠点を有する。そうした欠点には、生きているベクター生物中のＤＮＡ分子の生存能力に影響を与えずに操作可能な量、ゲノムの要素および位置に対する制約が含まれる。そうした生きているベクター生物の例には、それだけに限らないがバクテリアが含まれる。生存能力の低下は、容量の減少、および情報の符号化方式の複雑さの増加を包含する。さらに、生殖細胞系および体細胞変異によって、記憶された情報および復号化された情報の忠実度が経時的に低下し、場合により、生きているＤＮＡの記憶条件に対する要件が注意深く調節される。

【0007】

対照的に、「単離されたＤＮＡ（すなわち、イン・ビトロのＤＮＡ）はより簡単に「書き込まれ」、また何万年も前のサンプルから非生存のＤＮＡの例をごく普通に取り出していること（参考文献１１〜１４）は、よく準備された非生存のＤＮＡのサンプルが、容易に得られる手のかからない環境（すなわち、低温で乾燥した暗い環境）において非常に長い寿命を有するはずであることを示している（参考文献１５〜１７）。

【0008】

ＤＮＡでの情報（データとも呼ぶ）の記憶に関するこれまでの研究は、通常、人間が読み取り可能なメッセージを符号化した形でＤＮＡに「書き込む」こと、次いでＤＮＡの配列を決定し、配列を復号化することによって、符号化された人間が読み取り可能なメッセージを「読み取る」ことに集中していた。ＤＮＡ計算の分野での研究は、原理的に大規模な連想（内容アドレス）記憶装置を可能にする方式を生み出してきたが（参考文献３、１８〜２０）、この研究を実用的なＤＮＡ記憶方式として発展させる試みはなかった。図１は、これまでの１４件の研究でうまく符号化および回復された情報の量を示している（ｙ軸の対数目盛に留意されたい）。各点は、これまでの１４件の実験（白丸）および本開示（黒丸）について示されている。こうして記憶された人間が読み取り可能なメッセージの最大量は、約６５００ビットのシャノン情報量（参考文献９）に相当する、１２８０文字の英語のテキスト（参考文献８）である。

【0009】

ＴｈｅＩｎｄｉａｎＣｏｕｎｃｉｌｏｆＳｃｉｅｎｔｉｆｉｃａｎｄＩｎｄｕｓｔｒｉａｌＲｅｓｅａｒｃｈは、ＤＮＡに情報を記憶するための方法を教示する、米国特許出願公開第２００５／００５３９６８号（Ｂｈａｒａｄｗａｊら）を出願している。米国特許出願公開第２００５／００５３９６８号の方法は、拡張ＡＳＣＩＩ文字セットの各文字を表す４つのＤＮＡ塩基を用いる符号化方法の使用を含む。次いで、デジタル情報、暗号化キーを含む合成ＤＮＡ分子が作製され、それぞれの側にプライマ配列が配置される。最後に、合成されたＤＮＡが記憶用のＤＮＡに組み込まれる。ＤＮＡの量が多すぎる場合には、情報をいくつかのセグメントに分断することができる。米国特許出願公開第２００５／００５３９６８号に開示される方法は、セグメントの１つのヘッダ・プライマをセグメントの次のもののテール・プライマと合わせることによって、分断されたＤＮＡセグメントを再構築することが可能である。

【0010】

ＤＮＡに情報を記憶するための技法を記載する他の特許公開も知られている。例えば米国特許第６，３１２，９１１号は、コード化されたメッセージをＤＮＡに隠すためのステガノグラフィ法を教示している。その方法は、ゲノムＤＮＡのサンプルの中にＤＮＡで符号化されたメッセージを隠し、その後、さらにＤＮＡのサンプルをマイクロドットに隠すことを含む。この米国特許第６，３１２，９１１号の出願は、特に機密情報を隠すためのものである。そうした情報は、一般に限られた長さのものであり、したがって、その文書は、より長い情報の項目をどのように記憶するかについては論じていない。同じ発明者らが、国際公開第０３／０２５１２３号として公開された国際公開出願を出願している。

【発明の概要】

【課題を解決するための手段】

【0011】

情報の項目を記憶するための方法が開示される。その方法は、情報の項目中のバイトを符号化することを含む。符号化されたバイトをある形式を用いてＤＮＡヌクレオチドによって表し、ＤＮＡ配列をイン・シリコで生成する。次のステップでは、ＤＮＡ配列を複数の重複するＤＮＡセグメントに分割し、その複数のＤＮＡセグメントに索引情報を付加する。最後に、複数のＤＮＡセグメントを合成し保管する。

【0012】

ＤＮＡセグメントに索引情報を付加することは、情報の項目を表すＤＮＡ配列におけるセグメントの位置を、一意的に識別することが可能であることを意味する。ヘッド・プライマとテール・プライマを合わせることに依存する必要がなくなる。これにより、セグメントの１つを正確に再現することができなかった場合でも、情報の項目のほぼ全体を回復することが可能になる。索引情報が存在しない場合には、ＤＮＡ配列内の位置を明確に識別できない「オーファン」セグメントのためにセグメントを互いに合わせることができなければ、情報の項目全体を正確に再現することができない恐れがある。

【0013】

重複するＤＮＡセグメントの使用は、情報の項目の記憶にある程度の冗長性を組み込むことを意味する。ＤＮＡセグメントの１つが復号化できない場合も、符号化されたバイトを、ＤＮＡセグメントの隣接するものから回復することが依然として可能である。したがって、システムには冗長性が組み込まれる。

【0014】

知られているＤＮＡ合成技法を用いて、ＤＮＡセグメントの複数の複製を作製することができる。これにより、ＤＮＡセグメントの複製の一部が損なわれ、復号化できない場合でも、情報の項目を復号化することを可能にする、さらなる冗長性がもたらされる。

【0015】

本発明の一態様では、符号化のために使用される表現形式は、ＤＮＡヌクレオチドの隣接するものが異なるように設計される。これは、ＤＮＡセグメントの合成、再現および配列決定（読み取り）の信頼性を高めるものである。

【0016】

本発明のさらなる態様では、索引情報にパリティ・チェックを追加する。このパリティ・チェックによって、ＤＮＡセグメントの誤った合成、再現または配列決定を識別することが可能になる。パリティ・チェックは、誤り修正情報も含むように拡張することができる。

【0017】

合成されたＤＮＡセグメントの交互のものは、逆相補の関係にする。これらは、ＤＮＡにさらなる冗長性をもたらし、ＤＮＡセグメントのいずれかが損なわれた場合に利用することができる情報が多くなることを意味する。

【図面の簡単な説明】

【0018】

【図1】ＤＮＡに記憶され、うまく回復された情報の量の時間の関数としてのグラフである。

【図2】本開示の方法の一例を示す図である。

【図3】経時的な記憶の費用効果に関するグラフである。

【図4】自己逆相補パターンを有するモチーフを示す図である。

【図5】符号化の効率を示す図である。

【図6】誤り率を示す図である。

【図7】方法の符号化の流れ図である。

【図8】方法の復号化の流れ図である。

【発明を実施するための形態】

【0019】

今までのＤＮＡ記憶の実用的な実装に対する主な課題の１つは、特定の設計に対してＤＮＡの長い配列を生成するのが難しいことであった。ＤＮＡの長い配列は、長いテキスト項目およびビデオなど、大きいデータ・ファイルを記憶するために必要である。設計されたＤＮＡそれぞれの複数の複製を伴う符号化を用いることも好ましい。そうした冗長性は、以下に説明するように、符号化および復号化の両方の誤りを防ぐ。それぞれの（場合により大きい）メッセージを符号化するために、個々の長いＤＮＡ鎖に基づくシステムを用いることは費用効果的ではない（参考文献８）。発明者らは、メッセージ全体を符号化する仮想的なより長いＤＮＡ分子におけるＤＮＡセグメントの位置を示すために、ＤＮＡセグメントそれぞれに関連付けられた「索引」情報を用いる方法を開発してきた。

【0020】

発明者らは、既存の高スループット技術においてより高い誤り率に関連付けられることが知られているＤＮＡホモポリマー（すなわち、１つより多い同じ塩基の連続）を禁止することを含む、符号化されたメッセージのＤＮＡセグメントからの回復性を高めるコード理論による方法を用いた。発明者らはさらに、パリティ・チェック・ビット（参考文献９）に似た単純な誤り検出要素を、コード内の索引情報に組み込んだ。それだけに限らないが、誤り訂正コード（参考文献９）を含むより複雑な方式、実際には情報科学に現在採用されているデジタル・データ・セキュリティ（例えばＲＡＩＤベースの方式（参考文献２１））の実質的に任意の形を、ＤＮＡ記憶方式の将来的な発展形態において実装することが可能になるであろう（参考文献３）。

【0021】

発明者らは、本開示のＤＮＡ記憶に関する概念実証として、符号化する５つのコンピュータ・ファイルを選択した。ファイルを人間が読み取り可能な情報に限定せず、一般的なフォーマットの範囲を用いたファイルを選んだ。これにより、本開示の教示が任意のタイプのデジタル情報を記憶できることが立証された。ファイルは、全１５４篇のシェイクスピアのソネット（ＴＸＴフォーマット）、参考文献１０の完全なテキストおよび図（ＰＤＦフォーマット）、ＥＭＢＬ−ＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅの中解像度のカラー写真（ＪＰＥＧ２０００フォーマット）、ＭａｒｔｉｎＬｕｔｈｅｒＫｉｎｇの「ＩＨａｖｅＡＤｒｅａｍ」の演説からの２６秒の抜粋（ＭＰ３フォーマット）、および（人間が読み取り可能なテキスト・ファイルとして）各バイトをｂａｓｅ−３のディジットに変換するために本研究で用いたハフマン・コードを定義するファイルを含んでいた。

【0022】

ＤＮＡ記憶のために選択された５つのファイルは、以下の通りであった。

【0023】

ｗｓｓｎｔｌ０．ｔｘｔ−１０７７３８バイト−ＡＳＣＩＩテキスト・フォーマット全１５４篇のシェイクスピアのソネット（ＰｒｏｊｅｃｔＧｕｔｅｎｂｅｒｇ、ｈｔｔｐ：／／ｗｗｗ．ｇｕｔｅｎｂｅｒｇ．ｏｒｇ／ｅｂｏｏｋｓ／１０４１より）

【0024】

ｗａｔｓｏｎｃｒｉｃｋ．ｐｄｆ−２８０８６４バイト−ＰＤＦフォーマット文書ＤＮＡの構造について記載したＷａｔｓｏｎとＣｌｉｃｋ（１９５３）の刊行物（参考文献１０）（Ｎａｔｕｒｅのウェブサイト、ｈｔｔｐ：／／ｗｗｗ．ｎａｔｕｒｅ．ｃｏｍ／ｎａｔｕｒｅ／ｄｎａ５０／ａｒｃｈｉｖｅ．ｈｔｍｌより、より高い圧縮、したがってより小さいファイル・サイズを得るために変更）

【0025】

ＥＢＩ．ｊｐ２−１８４２６４バイト−ＪＰＥＧ２０００フォーマットの画像ファイルＥＭＢＬ−ＥｕｒｏｐｅａｎＢｉｏｉｎｆｏｒｍａｔｉｃｓＩｎｓｔｉｔｕｔｅ（所有画像）のカラー写真（１６．７Ｍカラー、６４０×４８０ピクセルの解像度）

【0026】

ＭＬＫ＿ｅｘｃｅｒｐｔ＿ＶＢＲ＿４５−８５．ｍｐ３−１６８５３９バイト−ＭＰ３フォーマットのサウンド・ファイルＭａｒｔｉｎＬｕｔｈｅｒＫｉｎｇの「ＩＨａｖｅＡＤｒｅａｍ」の演説からの２６秒の長さの抜粋（ｈｔｔｐ：／／ｗｗｗ．ａｍｅｒｉｃａｎｒｈｅｔｏｒｉｃ．ｃｏｍ／ｓｐｅｅｃｈｅｓ／ｍｌｋｉｈａｖｅａｄｒｅａｍ．ｈｔｍより、より高い圧縮を得るために変更：通常４８−５６ｋｂｐｓの可変ビット速度；４４．１ｋＨｚの標本化周波数）

【0027】

Ｖｉｅｗ＿ｈｕｆｆ３．ｃｄ．ｎｅｗ−１５６４６バイト−ＡＳＣＩＩファイル各バイトをｂａｓｅ−３のディジット（ｔｒｉｔ）に変換するために本研究で用いたハフマン・コードを定義する、人間が読み取り可能なファイル

【0028】

５つのコンピュータ・ファイルは、５．２×１０^６ビットのシャノン情報量、または符号化および回復された人間が設計した情報の、記憶されたことが知られているこれまでの最大量の８００倍にほぼ等しい、合計７５７０５１バイトを含む（図１参照）。

【0029】

コンピュータ・ファイルのそれぞれのＤＮＡ符号化は、ソフトウェアを用いて計算し、その方法を図７に示す。本明細書に記載する本発明の一態様７００では、ステップ７２０において、各コンピュータ・ファイル２１０を構成するバイトを、各バイトを５つまたは６つの塩基で置き換えて（以下参照）ＤＮＡ配列２３０を形成する、符号化ファイル２２０を生成するための符号化方式によって、ホモポリマーを伴わないＤＮＡ配列２３０として表した。符号化方式に用いるコードは、ラン・レングス制限チャネルに対する最適な情報容量に近い（すなわち、繰り返されるヌクレオチドがない）簡単な符号化を可能にするように構築した。しかしながら、他の符号化方式を用いることも可能であることが理解されるであろう。

【0030】

結果として生じるイン・シリコのＤＮＡ配列２３０は、標準的なオリゴヌクレオチド合成によって容易に生成するには長すぎる。したがって、ステップ７３０において、ＤＮＡ配列２３０のそれぞれを、７５塩基の重複を有する、長さ１００塩基の重複するセグメント２４０に分割した。任意の特定の塩基の連続に持ち込まれる系統的な合成の誤りの危険性を低減するために、次いでステップ７４０において、セグメントの交互に並ぶものをそれらの逆相補に変換されたが、これは、各塩基が４回、すなわちそれぞれの方向に２回「書き込まれる」ことを意味する。次いでステップ７５０において、各セグメントに、セグメント２４０が由来するコンピュータ・ファイル、およびそのコンピュータ・ファイル２１０内でのその位置の決定を可能にする索引情報２５０に加えて、簡単な誤り検出情報を付加した。ステップ７６０において、この索引情報２５０も繰り返しのないＤＮＡヌクレオチドとして符号化し、ステップ７７０において、ＤＮＡセグメント２４０の１００の情報記憶塩基に追加した。ＤＮＡセグメント２４０の７５塩基の重複を有する１００塩基の長さへの分割は、純粋に任意であることが理解されるであろう。他の長さおよび重複を用いることも可能であり、これは本発明を制限するものではない。

【0031】

全部で、５つのコンピュータ・ファイルのすべてが１５３３３５列のＤＮＡによって表された。ＤＮＡの列のそれぞれが、（元のデジタル情報に加えて索引情報を符号化する）１１７のヌクレオチドを含んでいた。用いた符号化方式は、合成されたＤＮＡが天然（生物）由来のものを有していないことを明白にする、合成ＤＮＡの様々な特徴（例えば、均一なセグメント長、ホモポリマーがないことなど）を有していた。したがって、合成されたＤＮＡが、意図的な設計および符号化された情報を有することが明らかである（参考文献２）。

【0032】

これまでに言及したように、例えば拡張された誤り訂正特性を提供するために、ＤＮＡセグメント２４０に他の符号化方式を用いることが可能である。より多くのまたはより大きいファイルの符号化を可能にするために、索引情報の量を増やすことも簡単であろう。ＮｅｓｔｅｄＰｒｉｍｅｒＭｏｌｅｃｕｌａｒＭｅｍｏｒｙ（ＮＰＭＭ）方式（参考文献１９）が、１６．８Ｍのユニークなアドレスでその実用的な最大容量に達していることが示唆されているが（参考文献２０）、本開示の方法が、これを上回り、ほぼ任意の大量の情報の符号化を可能にするように拡張できない理由はないと思われる。

【0033】

ＤＮＡセグメント２４０における系統的なパターンを回避するためのコード化方式に対する拡張の１つは、情報を付加変更することであろう。これを実施する２つの方法を試みた。第１の方法は、ＤＮＡセグメント２４０内の情報の「シャッフリング」を伴った。シャッフリングのパターンが分かれば、情報を取り出すことができる。本開示の一態様では、ＤＮＡセグメント２４０の異なるものには、異なるパターンのシャッフルを用いた。

【0034】

他の方法は、ＤＮＡセグメント２４０のそれぞれの情報に、ある程度の不規則性を加えることである。このために、一連の乱数を用いることが可能であり、一連の乱数とＤＮＡセグメント２４０内の符号化された情報を含むディジットのモジュラー加算を用いる。使用された一連の乱数が分かれば、復号化中にモジュラー減算によって情報を簡単に取り出すことができる。本開示の一態様では、ＤＮＡセグメント２４０の異なるものには異なる一連の乱数を用いた。

【0035】

ステップ７２０におけるデジタル情報の符号化は、以下のように行った。ハードディスク・ドライブに記憶されたデジタル情報の５つのコンピュータ・ファイル２１０（図２Ａに示す）を、ソフトウェアを用いて符号化した。ステップ７２０で符号化する５つのコンピュータ・ファイル２１０のそれぞれの各バイトは、表１（後述）に列挙する、目的に合うように設計されたハフマン・コードを用いてｂａｓｅ−３のディジット（「ｔｒｉｔ」０、１および２）によるＤＮＡ塩基の配列として表し、符号化されたファイル２２０を生成した。この例示的なコード化方式を、図２Ｂに概略的に示す。２５６の考え得るバイトのそれぞれを、５つまたは６つのｔｒｉｔによって表した。その後、ｔｒｉｔのそれぞれを、前のヌクレオチドとは異なる３つのヌクレオチドから選択したＤＮＡヌクレオチド２３０として符号化した（図２Ｃ）。換言すれば、本開示のこの態様に対して選択された符号化方式では、ホモポリマーがないことを保証するために、３つのヌクレオチドのそれぞれが、用いた前のヌクレオチドとは異なっていた。図２Ｄに示すように、結果として生じるＤＮＡ配列２３０を、ステップ７３０において、１００塩基の長さのＤＮＡセグメント２４０に分割した。ＤＮＡセグメントのそれぞれは、容易に合成される長さのＤＮＡセグメントを与え、かつ冗長性を与えるように、前のＤＮＡセグメントと７５塩基だけ重複していた。ＤＮＡセグメントの交互に並ぶものは、逆相補の関係にした。

【0036】

索引情報２５０は、ファイル識別用の２つのｔｒｉｔ（この実装形態では、３^２＝９のファイルの区別を可能にする）、内部のファイル位置情報用の１２のｔｒｉｔ（１つのファイルにつき、３^１２＝５３１４４１の位置を可能にする）、および１つの「パリティ・チェック」用のｔｒｉｔを含んでいた。索引情報２５０は、ステップ７６０で繰り返しのないＤＮＡヌクレオチドとして符号化し、ステップ７７０で１００の情報記憶塩基に追加した。索引付きのＤＮＡセグメント２４０のそれぞれは、各端部に、実験の「読み取り」段階の間にＤＮＡセグメント２４０全体を逆相補の形にしたかどうかを示す、「ホモポリマーなし」の規則に合致した、ステップ７８０で追加された１つのさらなる塩基を有していた。

【0037】

全部で、５つのコンピュータ・ファイル２１０は、それぞれが（元のデジタル情報および索引情報を符号化する）１１７（１＋１００＋２＋１２＋１＋１）のヌクレオチドを含む、１５３３３５列のＤＮＡによって表された。

【0038】

本明細書に記載する本発明の態様における各列のデータ符号化の構成要素は、ＤＮＡ塩基１つあたり５．０７ビットのシャノン情報量を含むことが可能であり、それは、ラン・レングスを１に制限したｂａｓｅ−４チャネルの場合のＤＮＡ塩基１つあたり５．０５ビットという理論的な最適条件に近い。索引実装２５０によって、３^１４＝４７８２９６９のユニークなデータ位置が可能になる。ファイルおよび内部のファイル位置を指定するために使用する索引ｔｒｉｔ（したがって塩基）の数を、２つだけ増やして１６にすることによって、ＮＰＭＭ方式（参考文献１９、２０）の場合の実際的な最大値である１６．８Ｍを超える、３^１６＝４３０４６７２１のユニークな位置が得られる。

【0039】

また、ステップ７９０のＤＮＡ合成プロセスを用いて、オリゴヌクレオチド（オリゴ）のそれぞれの各端部に３３ｂｐのアダプタを組み込み、Ｉｌｌｕｍｉｎａの配列決定用プラットフォームでの配列決定を容易にした：
５’側アダプタ：ＡＣＡＣＴＣＴＴＴＣＣＣＴＡＣＡＣＧＡＣＧＣＴＣＴＴＣＣＧＡＴＣＴ
３’側アダプタ：ＡＧＡＴＣＧＧＡＡＧＡＧＣＧＧＴＴＣＡＧＣＡＧＧＡＡＴＧＣＣＧＡＧ

【0040】

ステップ７９０では、これまでに各ＤＮＡセグメント設計の約１．２×１０^７の複製を生成したと言われている（参考文献２２、２３）、ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓのＯＬＳ（ＯｌｉｇｏＬｉｂｒａｒｙＳｙｎｔｈｅｓｉｓ、オリゴ・ライブラリ合成）プロセスの更新バージョンを用いて、１５３３３５のＤＮＡセグメント設計２４０を３回の別個の作業で合成した（ＤＮＡセグメント２４０を各作業に無作為に割り当てた）。誤りは、５００塩基に約１回の誤りしか起こらず、ＤＮＡセグメント２４０の異なる複製に独立に起こることが分かった。ＡｇｉｌｅｎｔＴｅｃｈｎｏｌｏｇｉｅｓは、以前に開発されたホスホラミダイト化学（参考文献２４）を適合させ、ＡｇｉｌｅｎｔのＳｕｒｅＰｒｉｎｔｉｎｓｉｔｕマイクロアレイ合成プラットフォームに、インクジェット印刷およびフロー・セル反応器の技術を採用した。無水チャンバ内でのインクジェット印刷によって、きわめて少量のホスホラミダイトを２次元平坦面上の限られた結合領域に送達することが可能になり、結果として、数十万の塩基が並行して付加される。続いて、フロー・セル反応器の中で酸化および脱トリチル化が行われる。ＤＮＡ合成が完了すると、オリゴヌクレオチドが表面から切断され、脱保護される（参考文献２５）。

【0041】

ＤＮＡセグメントの複数の複製を容易に作製することを可能にするために、ＤＮＡセグメントにアダプタを付加した。アダプタのないＤＮＡセグメントでは、ＤＮＡセグメントの端部に追加の基を加えることによって複数の複製を合成するために、化学反応を「キック・スタートさせる」追加の化学プロセスが必要になる。

【0042】

数千倍過剰のホスホラミダイトおよびアクティベータの溶液を用いることによって、最大約９９．８％の結合効率が得られる。同様に、数百万倍過剰の脱トリチル化剤は、５’−水酸基の保護基の除去をほぼ完了させる。フロー・セル反応器での制御されたプロセスによって、最も支配的な副反応である脱プリン化が著しく低減された（参考文献２２）。最大２４４０００のユニークな配列を並行して合成し、約１〜１０ピコモルのオリゴのプールとして送達することが可能である。

【0043】

凍結乾燥したオリゴの３つのサンプルを、トリス緩衝液中で終夜４℃で培養し、定期的にピペットによる混合およびボルテックスを行い、最後に５０℃で１時間、５ｎｇ／ｍｌの濃度まで培養した。不溶性物質のままであるため、サンプルをさらに５日間、毎日２〜４回混合しながら４℃で放置した。次いで、サンプルを、５０℃で１時間、６８℃で１０分間培養し、ＡｍｐｕｒｅＸＰ常磁性ビーズ（ＢｅｃｋｍａｎＣｏｕｌｔｅｒ）上で残存する合成副生成物を除き、ステップ７９５において保管することができた。図８に、配列決定および復号化について示す。

【0044】

ステップ８１０において、ペアエンド式のＩｌｌｕｍｉｎａのＰＣＲプライマ、および高忠実度のＡｃｃｕＰｒｉｍｅ試薬（Ｉｎｖｉｔｒｏｇｅｎ）、Ｔａｑポリメラーゼおよびピュロコックス（Ｐｙｒｏｃｏｃｃｕｓ）・ポリメラーゼと熱安定性のアクセサリ・タンパク質との組み合わせを用いて、結合されたオリゴのサンプルを増幅した（等しいＡ／ＴとＧ／Ｃの処理を与えるように設計された、サーモサイクラの条件（参考文献２６）を用いる２２のＰＣＲサイクル）。増幅された生成物は、Ａｇｉｌｅｎｔ２１００バイオアナライザでビーズ精製および定量化を行い、ＩｌｌｕｍｉｎａＨｉＳｅｑ２０００でペアエンド・モードのＡＹＢソフトウェアを用いて配列決定し、１０４塩基の読み取りを生成した。

【0045】

デジタル情報の復号化は、以下のように行った。ステップ８２０において、両端から各オリゴの中央の９１塩基の配列を決定し、したがって、全長（１１７塩基）のオリゴの迅速な計算、および設計に一致しない配列の読み取りの除去は簡単であった。ステップ８３０において、符号化プロセスを正確に反対にするコンピュータ・ソフトウェアを用いて、配列の読み取りを復号化した。パリティ・チェック用のｔｒｉｔが誤りを示した配列の読み取り、またはいずれの段階でも明瞭に復号化することができない、もしくは再構築されたコンピュータ・ファイルに割り当てることができない配列の読み取りは、ステップ８４０でその後の考察から除いた。

【0046】

いずれの復号化ファイルでも大多数の位置が、複数の異なる配列決定後のＤＮＡオリゴにおいて検出され、ステップ８５０では、単純な多数決を用いて、ＤＮＡ合成または配列決定の誤りによって引き起こされたいかなる矛盾も解決した。この手順８６０の完了後、５つの元のコンピュータ・ファイル２１０のうちの４つが、完全に再構築された。５つめのコンピュータ・ファイルは、いかなる配列決定後の読み取りからも回復されなかった、それぞれ２５塩基からなる２つの領域を修正するために、手動による介入が必要であった。

【0047】

ステップ８５０での復号化の間に、（ｂａｓｅ−３によるバイトへの復号化の前の）イン・シリコでＤＮＡのレベルに再構築された１つのファイル（最終的に、ｗａｔｓｏｎｃｒｉｃｋ．ｐｄｆであることが確認された）が、配列決定後のオリゴのいずれからも回復されなかった２５塩基からなる２つの領域を含んだことが分かった。符号化の重複するセグメント構造を考えれば、４つの連続した重複セグメントのいずれか１つは、この位置に対応する塩基を含んでいたことになるため、それぞれの領域は、合成または配列決定される４つの連続したセグメントの破損（ｆａｉｌｕｒｅ）を示していた。２つの領域を調べると、検出されない塩基が、以下の２０塩基のモチーフの長い繰り返しに含まれることが示された：
５’ＧＡＧＣＡＴＣＴＧＣＡＧＡＴＧＣＴＣＡＴ３’

【0048】

このモチーフの繰り返しは、自己逆相補パターンを有することが分かった。それを図４に示す。

【0049】

長い自己逆相補のＤＮＡセグメントは、ＤＮＡセグメントが、本文書に記載する方法に使用したプロトコルに用いたｓｅｑｕｅｎｃｉｎｇ−ｂｙ−ｓｙｎｔｈｅｓｉｓ反応を妨げる、内部の直線状ではないステム・ループ構造を形成する可能性があるために、Ｉｌｌｕｍｉｎａのペアエンド・プロセスを用いて容易に配列決定することができなかった可能性がある。したがって、イン・シリコのＤＮＡ配列を、繰り返しのモチーフ・パターンを修復するように変更し、次いで後続の復号化ステップにかけた。それ以上の問題には遭遇せず、最終的に復号化されたファイルは、ファイルｗａｔｓｏｎｃｒｉｃｋ．ｐｄｆと完全に合致した。将来的には、設計されたＤＮＡセグメントのいずれにも長い自己相補領域が存在しないことを保証するコードを用いることが可能になるであろう。

【0050】

ハフマン・コード化方式の例
表１は、バイト値（０〜２５５）をｂａｓｅ−３に変換するために用いられる、例示的なハフマン・コード化方式の一例を示している。情報を高度に圧縮するには、各バイト値が等しい頻度で出現すべきであり、また１バイトあたりのｔｒｉｔの平均数は、（２３９＊５＋１７＊６）／２５６＝５．０７である。１バイトあたりのｔｒｉｔの理論上の最大数は、ｌｏｇ（２５６）／ｌｏｇ（３）＝５．０５である。

【0051】

【表1】

【0052】

ファイルの符号化
任意のコンピュータ・ファイル２１０を、（しばしば、

【数2】

と２^８−１の間の数、すなわちセット｛０．．．２５５｝内の値として解釈される）バイトの列

【数1】

として表す。列

【数3】

をハフマン・コードを用いて符号化し、ｂａｓｅ−３に変換する。これにより、ｔｒｉｔ

【数4】

として文字の列Ｓ_１が生成される。

【0053】

次に、列Ｓ_１の（文字の）長さを計算する関数としてｌｅｎ（）を記述し、ｎ＝ｌｅｎ（Ｓ_１）と定義する。ｎをｂａｓｅ−３で表し、前に０を付加して、ｌｅｎ（Ｓ_２）＝２０になるようなｔｒｉｔの列Ｓ_２を生成する。列の連結Ｓ_４＝Ｓ_１．Ｓ_２．Ｓ_３（式中、Ｓ_３は多くて２４のゼロからなる列であり、ｌｅｎ（Ｓ_４）が２５の整数倍になるように選択する）を形成する。

【0054】

以下の表に示す方式を用いて、Ｓ_４を、繰り返されるヌクレオチド（ｎｔ）がない、｛Ａ、Ｃ、Ｇ、Ｔ｝の中の文字からなるＤＮＡ列Ｓ_５に変換する。Ｓ_４の最初のｔｒｉｔを、表の「Ａ」行を用いてコード化する。それぞれの後続のｔｒｉｔについては、前の文字変換によって決められた行から文字を取得する。

【0055】

【表2】

【0056】

表：繰り返されるヌクレオチドがないことを保証するＤＮＡ符号化に対するｂａｓｅ−３

【0057】

符号化する各ｔｒｉｔｔについて、使用した前のヌクレオチド

【数5】

でラベル付けされた行、およびｔでラベル付けされる列を選択し、対応する表のセル内のｎｔを用いて符号化する。

【0058】

Ｎ＝ｌｅｎ（Ｓ_５）と定義し、ＩＤを元のファイルを識別し、所与の実験の中でユニークな２ｔｒｉｔの列とする（１回の実験で、異なるファイル

【数6】

からのＤＮＡの混合を可能にする）。Ｓ_５を長さ１００ｎｔの重複するＤＮＡセグメント２４０に分割し、ＤＮＡセグメント２４０のそれぞれを、ＤＮＡセグメント２４０の前のものから２５ｎｔだけオフセットする。これは、好都合には、

【数7】

で索引付けした（（Ｎ／２５）−３）のＤＮＡセグメント２４０が存在することを意味する。ＤＮＡセグメントｉはＦ_ｉで示され、Ｓ_５の（ＤＮＡ）文字２５_ｉ．．．２５_ｉ＋９９を含む。

【0059】

各ＤＮＡセグメントＦ_ｉを、さらに以下のように処理する：

【0060】

ｉが奇数である場合には、ＤＮＡセグメントＦ_ｉを逆相補の形にする。

【0061】

ｉ３をｉのｂａｓｅ−３表現とし、ｌｅｎ（ｉ３）＝１２となるように、先頭に必要なだけゼロを追加する。ＩＤおよびｉ３における奇数位置のｔｒｉｔの合計（ｍｏｄ３）としてＰ、すなわちＩＤ_１＋ｉ３_１＋ｉ３_３＋ｉ３_５＋ｉ３_７＋ｉ３_９＋ｉ３_１１を計算する。（Ｐは、ＩＤおよびｉについて符号化された情報内の誤りをチェックする「パリティｔｒｉｔ」−パリティ・ビットに類似−の役目を果たす。）

【0062】

索引情報２５０の列ＩＸ＝ＩＤ．ｉ２．Ｐ（２＋１２＋１＝１５のｔｒｉｔを含む）を形成する。上記の表に示したものと同じ方法を用い、Ｆ_ｉの最後の文字によって決まるコード表の行から始めて、ＩＸをＤＮＡで符号化した（ステップ７６０）ものをＦ_ｉに追加し、索引付きのセグメントＦ’_ｉを得る。

【0063】

Ｆ’_ｉに対して、ＡまたはＴを前に付加し、ＣまたはＧを追加することによってＦ’’_ｉを形成する−無作為に、常にではないが可能な場合には繰り返されるヌクレオチドがないように、ＡとＴの間およびＣとＧの間で選択する。これにより、ＤＮＡの配列決定の間に逆相補の形にした（ステップ２４０）ＤＮＡセグメント２４０を、逆相補の形にしていないものと区別することが可能であることが保証される。前者は、Ｇ｜Ｃで始まりＴ｜Ａで終わり；後者はＡ｜Ｔで始まりＣ｜Ｇで終わる。

【0064】

セグメントＦ’’_ｉを、ステップ７９０で実際のＤＮＡオリゴヌクレオチドとして合成し、ステップ７９０で保管し、ステップ８２０での配列決定のために供給することができる。

【0065】

復号化
復号化は、単にステップ７２０における符号化の反対であり、長さ１１７のヌクレオチドからなる配列決定したＤＮＡセグメント２４０Ｆ’’_ｉから始まる。ＤＮＡ配列決定手順の間（例えばＰＣＲ反応の間）に、フラグメントがＡ｜Ｔで始まりＣ｜Ｇで終わっているか、またはＧ｜Ｃで始まりＴ｜Ａで終わっているかどうかを観察することによって、後続の逆転のために逆相補を識別することができる。これら２つの「配向」用のヌクレオチドを除き、各ＤＮＡセグメント２４０の１１５の残りのヌクレオチドを、最初の１００の「メッセージ」のヌクレオチド、および残りの１５の「索引情報２５０」のヌクレオチドに分割することができる。索引情報のヌクレオチド２５０を復号化して、ファイルの識別子ＩＤおよび位置インデックスｉ３、したがってｉを決定することができ、またパリティｔｒｉｔＰを調べることによって、誤りを検出することができる。位置索引情報２５０によって、ＤＮＡで符号化されたファイル２３０の再構築が可能になり、次いでそれを、前述の符号化表の逆を用いてｂａｓｅ−３に、次いで所与のハフマン・コードを用いて元のバイトに変換することができる。

【0066】

データ記憶に関する議論
ＤＮＡ記憶は、従来のテープ・ベースの記憶またはディスク・ベースの記憶とは異なる特性を有する。この例では、約７５０ｋＢの情報を１０ｐｍｏｌのＤＮＡとして合成し、約１テラバイト／グラムの情報記憶密度を得た。ＤＮＡ記憶は動力を必要とせず、控えめな見積もりでも（場合により）数千年にわたって実用的な状態のままである。

【0067】

ＤＮＡのアーカイブは、プライマ対にＰＣＲを適用し、続いて、結果として生じるＤＮＡ溶液を等分（分割）することによって、大規模並列の形で複製することも可能である。配列決定プロセスにおけるこの技術の実際的な実証例では、この手順を複数回行ったが、これを、情報を大規模に複製し、次いでこの情報を２つ以上の場所に物理的に送るために明示的に使用することもできた。複数の場所での情報の保管は、任意のアーカイビング方式にさらなる頑健性をもたらし、基本的に設備間でのきわめて大規模なデータの複製操作に有用となり得るであろう。

【0068】

この例における復号化の帯域幅は、ディスク（約１テラビット／秒）またはテープ（１４０メガビット／秒）と比べると、３．４ビット／秒であり、待ち時間も長い（この例では約２０日）。将来の配列決定技術が、この両方の要因を改善するであろうことが期待される。

【0069】

本開示のＤＮＡ記憶またはテープ記憶のいずれかを用いたアーカイビングの総費用をモデル化すると、重要なパラメータは、テープ記憶技術と媒体の間の移行の頻度および固定費用であることが示される。図３は、ＤＮＡ記憶が費用効果的である時間スケールを示している。上側の太い曲線は、それより上では本開示で教示されるＤＮＡ記憶がテープより安価であるブレークイーブン時間（ｘ軸）を示している。これは、テープのアーカイブは、３年ごとに読み取りおよび再書き込みを行わなければならない（ｆ＝１／３）と仮定し、ＤＮＡ記憶の合成費用とテープ転送の固定費用（ｙ軸）の相対的な費用に依存するものである。下側の太い曲線は、５年ごとのテープ転送に対応する。下側の太い曲線より下の領域は、転送が５年ごとより頻繁に行われると、ＤＮＡ記憶が費用効果的である場合を示しており；２つの太い曲線の間では、転送が３〜５年ごとに行われると、ＤＮＡ記憶が費用効果的であり；上側の太い曲線より上では、転送が３年ごとより低い頻度で行われると、テープの方が安価である。点線の水平な線は、ＤＮＡ合成のテープ転送に対する相対的な費用の範囲、１２５〜５００（現在の値）、および１２．５〜５０（ＤＮＡ合成の費用が１桁下がった場合に得られる）を示している。点線の垂直な線は、対応するブレークイーブン時間を示している。すべての軸において対数目盛であることに留意されたい。

【0070】

長期のデジタル・アーカイビングに関する１つの論点は、ＤＮＡベースの記憶がより大規模な利用までどのように進むかである。情報を符号化するために必要な合成ＤＮＡの塩基の数は、記憶する情報の量に伴って直線的に増大する。短いＤＮＡセグメント２４０から全長のファイルを再構築するために必要な索引情報も、考慮しなければならない。索引情報２５０は、索引付けするＤＮＡセグメント２４０の数の対数として増大するだけである。必要な合成ＤＮＡの総量は、ほぼ直線状に増大する。しかしながら、索引のために、ＤＮＡセグメント２４０のそれぞれのますます多くの部分が必要とされるようになる。また将来的にさらに長い列の合成が可能になることを期待することは合理的であるが、方式の性質は、データと索引情報２５０の両方に利用可能なヌクレオチドは１１４と一定であるという慎重な制約の下でモデル化した。

【0071】

情報の総量が増加するにつれて、符号化の効率はゆっくりと低下するだけである（図５）。実験（メガバイト規模）では、符号化方式は８８％の効率である。図５は、効率が、ペタバイト（ＰＢ、１０^１５バイト）規模のデータ記憶では＞７０％、エクサバイト（ＥＢ、１０^１８バイト）規模のデータ記憶では＞６５％に依然として留まり、ＤＮＡベースの記憶が、現在の大域データのボリュームより何桁も大きい規模で依然として実現可能であることを示している。図５は、データのボリュームが何桁にもわたって増加すると、（記憶される単位情報あたりの）費用がゆっくりと上昇することも示している。最新の技術を用いて利用可能な合成ＤＮＡセグメント２４０の長さを考慮した場合、効率および費用はさらに有利になる。記憶する情報の量が増加するにつれて、復号化にはより多くのオリゴの配列を決定すること求められる。符号化された情報の１バイトあたりの復号化の経費が固定されることは、各塩基を読み取る回数が少なくなり、したがって、コード化の誤りに遭遇する可能性が高くなることを意味する。配列包括度の減少が復号化する塩基ごとの誤り率に及ぼす影響をモデル化するスケーリング解析の拡張によって、符号化された情報の量が増加して大域データの規模になり、それを超えるとき、誤り率はきわめてゆっくりと増加するだけであることが明らかになった。これはまた、１，３０８倍の平均配列包括度が、信頼性のある復号化に必要とされるものをかなり超えていたことを示唆している。これは、７９．６×３１０^６の読み取りペアから副次標本を選び（ｓｕｂｓａｍｐｌｅ）、より低い包括度を用いた実験をシミュレートすることによって確かめられた。

【0072】

図５は、包括度が１０分の１に（またはそれ以上）低下しても、変わらない復号化文字が得られることを示しており、それはさらに、ＤＮＡ記憶法の頑健性を示している。ＤＮＡベースの記憶の用途は、政治および歴史の記録など広範なアクセスの見込みが低い長期のアーカイブに対しては、既に経済的に実用可能であり得る。科学関係の状況における例は、合計８０ＰＢの大型ハドロン衝突装置のデータを記憶し、１年につき１５ＰＢ増大する、ＣＥＲＮのＣＡＳＴＯＲシステムである。ディスク上には１０％しか保持されず、ＣＡＳＴＯＲが磁気テープのフォーマット間で定期的に移行する。より古いデータのアーカイブは、可能性のある将来の事象の検証のために必要であるが、アクセス率は、収集後２〜３年でかなり低下する。さらなる例は、天文学、医学および惑星間探査に見出される。

【0073】

図５は、記憶する情報の量が増加するときの符号化の効率および費用の変化を示している。ｘ軸（対数目盛）は、符号化する情報の総量を表す。３ゼタバイト（３ＺＢ、３×１０^２１バイト）の大域データの推定値を含む、一般的なデータ規模が示されている。左のｙ軸の目盛は、データ符号化に利用可能な合成塩基の割合として測定された符号化の効率を示している。右のｙ軸は、現在の合成費用のレベル（実線）と２桁減少した場合（点線）の両方における符号化費用に関する対応する効率を示している。

【0074】

図６は、回復する塩基あたりの誤り率（ｙ軸）を、標本抽出された元の７９．６×１０^６の読み取りペアの割合（ｘ軸；対数目盛）によって表された配列包括度の関数として示している。１つの曲線は、人間の介入なしに回復された４つのファイルを表し：元の読み取りの≧２％を用いると、誤りはゼロになる。もう１つの曲線は、我々の理論上の誤り率のモデルからモンテカルロ・シミュレーションによって得られるものである。最後の曲線は、手動による修正を必要としたファイル（ｗａｔｓｏｎｃｒｉｃｋ．ｐｄｆ）を表し：可能な最小の誤り率は０．００３６％である。囲まれた領域は、挿入図として拡大して示してある。

【0075】

データ記憶に加えて、本開示の教示をステガノグラフィに用いることも可能である。

【0076】

参考文献
１．Ｂａｎｃｒｏｆｔ，Ｃ．、Ｂｏｗｌｅｒ，Ｔ．、Ｂｌｏｏｍ，Ｂ．およびＣｌｅｌｌａｎｄ，Ｃ．Ｔ．Ｌｏｎｇ−ｔｅｒｍｓｔｏｒａｇｅｏｆｉｎｆｏｒｍａｔｉｏｎｉｎＤＮＡ．Ｓｃｉｅｎｃｅ２９３、１７６３〜１７６５（２００１）
２．Ｃｏｘ，Ｊ．Ｐ．Ｌ．Ｌｏｎｇ−ｔｅｒｍｄａｔａｓｔｏｒａｇｅｉｎＤＮＡ．ＴＲＥＮＤＳＢｉｏｔｅｃｈ．１９、２４７〜２５０（２００１）
３．Ｂａｕｍ，Ｅ．Ｂ．Ｂｕｉｌｄｉｎｇａｎａｓｓｏｃｉａｔｉｖｅｍｅｍｏｒｙｖａｓｔｌｙｌａｒｇｅｒｔｈａｎｔｈｅｂｒａｉｎ．Ｓｃｉｅｎｃｅ２６８、５８３〜５８５（１９９５）
４．Ｃｌｅｌｌａｎｄ，Ｃ．Ｔ．、Ｒｉｓｃａ，Ｖ．およびＢａｎｃｒｏｆｔ，Ｃ．ＨｉｄｉｎｇｍｅｓｓａｇｅｓｉｎＤＮＡｍｉｃｒｏｄｏｔｓ．Ｎａｔｕｒｅ３９９、５３３〜５３４（１９９９）
５．Ｋａｃ，Ｅ．Ｇｅｎｅｓｉｓ（１９９９）ｈｔｔｐ：／／ｗｗｗ．ｅｋａｃ．ｏｒｇ／ｇｅｎｉｎｆｏ．ｈｔｍｌオンライン・アクセス２０１２年４月２日
６．Ｗｏｎｇ，Ｐ．Ｃ．、Ｗｏｎｇ，Ｋ．−Ｋ．およびＦｏｏｔｅ，Ｈ．Ｏｒｇａｎｉｃｄａｔａｍｅｍｏｒｙ．ＵｓｉｎｇｔｈｅＤＮＡａｐｐｒｏａｃｈ．Ｃｏｍｍ．ＡＣＭ４６、９５〜９８（２００３）
７．Ａｉｌｅｎｂｅｒｇ，Ｍ．およびＲｏｔｓｔｅｉｎ，Ｏ．Ｄ．ＡｎｉｍｐｒｏｖｅｄＨｕｆｆｍａｎｃｏｄｉｎｇｍｅｔｈｏｄｆｏｒａｒｃｈｉｖｉｎｇｔｅｘｔ、ｉｍａｇｅｓ、ａｎｄｍｕｓｉｃｃｈａｒａｃｔｅｒｓｉｎＤＮＡ．Ｂｉｏｔｅｃｈｎｉｑｕｅｓ４７、７４７〜７５４（２００９）
８．Ｇｉｂｓｏｎ，Ｄ．Ｇ．らＣｒｅａｔｉｏｎｏｆａｂａｃｔｅｒｉａｌｃｅｌｌｃｏｎｔｒｏｌｌｅｄｂｙａｃｈｅｍｉｃａｌｌｙｓｙｎｔｈｅ−ｓｉｚｅｄｇｅｎｏｍｅ．Ｓｃｉｅｎｃｅ３２９、５２〜５６（２０１０）
９．ＭａｃＫａｙ，Ｄ．Ｊ．Ｃ．ＩｎｆｏｒｍａｔｉｏｎＴｈｅｏｒｙ、Ｉｎｆｅｒｅｎｃｅ、ａｎｄＬｅａｒｎｉｎｇＡｌｇｏｒｉｔｈｍｓ．（ＣａｍｂｒｉｄｇｅＵｎｉｖｅｒｓｉｔｙＰｒｅｓｓ、２００３）
１０．Ｗａｔｓｏｎ，Ｊ．Ｄ．およびＣｒｉｃｋ，Ｆ．Ｈ．Ｃ．Ｍｏｌｅｃｕｌａｒｓｔｒｕｃｔｕｒｅｏｆｎｕｃｌｅｉｃａｃｉｄｓ．Ｎａｔｕｒｅ１７１、７３７〜７３８（１９５３）
１１．Ｓｈａｐｉｒｏ，Ｂ．らＲｉｓｅａｎｄｆａｌｌｏｆｔｈｅＢｅｒｉｎｇｉａｎｓｔｅｐｐｅｂｉｓｏｎ．Ｓｃｉｅｎｃｅ３０６、１５６１〜１５６５（２００４）
１２．Ｐｏｉｎａｒ，Ｈ．Ｋ．らＭｅｔａｇｅｎｏｍｉｃｓｔｏｐａｌｅｏｇｅｎｏｍｉｃｓ：ｌａｒｇｅ−ｓｃａｌｅｓｅｑｕｅｎｃｉｎｇｏｆｍａｍｍｏｔｈＤＮＡ．Ｓｃｉｅｎｃｅ３１１、３９２〜３９４（２００５）
１３．Ｗｉｌｌｅｒｓｌｅｖ，Ｅ．らＡｎｃｉｅｎｔｂｉｏｍｏｌｅｃｕｌｅｓｆｒｏｍｄｅｅｐｉｃｅｃｏｒｅｓｒｅｖｅａｌａｆｏｒｅｓｔｅｄｓｏｕｔｈｅｒｎＧｒｅｅｎｌａｎｄ．Ｓｃｉｅｎｃｅ３１７、１１１〜１１４（２００７）
１４．Ｇｒｅｅｎ，Ｒ．Ｅ．らＡｄｒａｆｔｓｅｑｕｅｎｃｅｏｆｔｈｅＮｅａｎｄｅｒｔｈａｌｇｅｎｏｍｅ．Ｓｃｉｅｎｃｅ３２８、７１０〜７２２（２０１０）
１５．Ａｎｃｈｏｒｄｏｑｕｙ，Ｔ．Ｊ．およびＭｏｌｉｎａ，Ｍ．Ｃ．ＰｒｅｓｅｒｖａｔｉｏｎｏｆＤＮＡ．ＣｅｌｌＰｒｅｓｅｒｖａｔｉｏｎＴｅｃｈ．５、１８０〜１８８（２００７）
１６．Ｂｏｎｎｅｔ，Ｊ．らＣｈａｉｎａｎｄｃｏｎｆｏｒｍａｔｉｏｎｓｔａｂｉｌｉｔｙｏｆｓｏｌｉｄ−ｓｔａｔｅＤＮＡ：ｉｍｐｌｉｃａｔｉｏｎｓｆｏｒｒｏｏｍｔｅｍｐｅｒａｔｕｒｅｓｔｏｒａｇｅ．Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．３８、１５３１〜１５４６（２０１０）
１７．Ｌｅｅ，Ｓ．Ｂ．、Ｃｒｏｕｓｅ，Ｃ．Ａ．およびＫｌｉｎｅ，Ｍ．Ｃ．ＯｐｔｉｍｉｚｉｎｇｓｔｏｒａｇｅａｎｄｈａｎｄｌｉｎｇｏｆＤＮＡｅｘｔｒａｃｔｓ．ＦｏｒｅｎｓｉｃＳｃｉ．Ｒｅｖ．２２、１３１〜１４４（２０１０）
１８．Ｔｓａｆｔａｒｉｓ，Ｓ．Ａ．およびＫａｔｓａｇｇｅｌｏｓ，Ａ．Ｋ．ＯｎｄｅｓｉｇｎｉｎｇＤＮＡｄａｔａｂａｓｅｓｆｏｒｔｈｅｓｔｏｒａｇｅａｎｄｒｅｔｒｉｅｖａｌｏｆｄｉｇｉｔａｌｓｉｇｎａｌｓ．ＬｅｃｔｕｒｅＮｏｔｅｓＣｏｍｐ．Ｓｃｉ．３６１１、１１９２〜１２０１（２００５）
１９．Ｙａｍａｍｏｔｏ，Ｍ．、Ｋａｓｈｉｗａｍｕｒａ，Ｓ．、Ｏｈｕｃｈｉ，Ａ．およびＦｕｒｕｋａｗａ，Ｍ．Ｌａｒｇｅ−ｓｃａｌｅＤＮＡｍｅｍｏｒｙｂａｓｅｄｏｎｔｈｅｎｅｓｔｅｄＰＣＲ．ＮａｔｕｒａｌＣｏｍｐｕｔｉｎｇ７、３３５〜３４６（２００８）
２０．Ｋａｒｉ，Ｌ．およびＭａｈａｌｉｎｇａｍ，Ｋ．ＤＮＡｃｏｍｐｕｔｉｎｇ：ａｒｅｓｅａｒｃｈｓｎａｐｓｈｏｔ．（Ａｔａｌｌａｈ、Ｍ．Ｊ．およびＢｌａｎｔｏｎ、Ｍ．（編）ＡｌｇｏｒｉｔｈｍｓａｎｄＴｈｅｏｒｙｏｆＣｏｍｐｕｔａｔｉｏｎＨａｎｄｂｏｏｋ、第２巻第２版３１−１〜３１−２４ページ（Ｃｈａｐｍａｎ＆Ｈａｌｌ、２００９））
２１．Ｃｈｅｎ，Ｐ．Ｍ．、Ｌｅｅ，Ｅ．Ｋ．、Ｇｉｂｓｏｎ，Ｇ．Ａ．、Ｋａｔｚ，Ｒ．Ｈ．およびＰａｔｔｅｒｓｏｎ，Ｄ．Ａ．ＲＡＩＤ：ｈｉｇｈ−ｐｅｒｆｏｒｍａｎｃｅ、ｒｅｌｉａｂｌｅｓｅｃｏｎｄａｒｙｓｔｏｒａｇｅ．ＡＣＭＣｏｍｐｕｔｉｎｇＳｕｒｖｅｙｓ２６、１４５〜１８５（１９９４）
２２．ＬｅＰｒｏｕｓｔ，Ｅ．Ｍ．らＳｙｎｔｈｅｓｉｓｏｆｈｉｇｈ−ｑｕａｌｉｔｙｌｉｂｒａｒｉｅｓｏｆｌｏｎｇ（１５０ｍｅｒ）ｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｓｂｙａｎｏｖｅｌｄｅｐｕｒｉｎａｔｉｏｎｃｏｎｔｒｏｌｌｅｄｐｒｏｃｅｓｓ．Ｎｕｃｌ．ＡｃｉｄｓＲｅｓ．３８、２５２２〜２５４０（２０１０）
２３．Ｋｏｓｕｒｉ，Ｓ．らＡｓｃａｌａｂｌｅｇｅｎｅｓｙｎｔｈｅｓｉｓｐｌａｔｆｏｒｍｕｓｉｎｇｈｉｇｈ−ｆｉｄｅｌｉｔｙＤＮＡｍｉｃｒｏｃｈｉｐｓ．ＮａｔｕｒｅＢｉｏｔｅｃｈ．２８、１２９５〜１２９９（２０１０）
２４．Ｂｅａｕｃａｇｅ，Ｓ．Ｌ．およびＣａｒｕｔｈｅｒｓ，Ｍ．Ｈ．Ｄｅｏｘｙｎｕｃｌｅｏｓｉｄｅｐｈｏｓｐｈｏｒａｍｉｄｉｔｅｓ−ａｎｅｗｃｌａｓｓｏｆｋｅｙｉｎｔｅｒｍｅｄｉａｔｅｓｆｏｒｄｅｏｘｙｐｏｌｙｎｕｃｌｅｏｔｉｄｅｓｙｎｔｈｅｓｉｓ．ＴｅｔｒａｈｅｄｒｏｎＬｅｔｔ．２２、１８５９〜１８６２（１９８１）
２５．Ｃｌｅａｒｙ，Ｍ．Ａ．らＰｒｏｄｕｃｔｉｏｎｏｆｃｏｍｐｌｅｘｎｕｃｌｅｉｃａｃｉｄｌｉｂｒａｒｉｅｓｕｓｉｎｇｈｉｇｈｌｙｐａｒａｌｌｅｌｉｎｓｉｔｕｏｌｉｇｏｎｕｃｌｅｏｔｉｄｅｓｙｎｔｈｅｓｉｓ．ＮａｔｕｒｅＭｅｔｈｏｄｓ１，２４１〜２４８（２００４）
２６．Ａｉｒｄ，Ｄ．らＡｎａｌｙｓｉｎｇａｎｄｍｉｎｉｍｉｚｉｎｇＰＣＲａｍｐｌｉｆｉｃａｔｉｏｎｂｉａｓｉｎＩｌｌｕｍｉｎａｓｅｑｕｅｎｃｉｎｇｌｉｂｒａｒｉｅｓ．ＧｅｎｏｍｅＢｉｏｌ．１２、Ｒ１８（２０１１）

【図1】