(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-10-29
(45)【発行日】2024-11-07
(54)【発明の名称】核酸ベースのデータ記憶のためのシステム
(51)【国際特許分類】
G16B 50/00 20190101AFI20241030BHJP
G11C 13/00 20060101ALI20241030BHJP
【FI】
G16B50/00
G11C13/00
(21)【出願番号】P 2022113073
(22)【出願日】2022-07-14
(62)【分割の表示】P 2019547252の分割
【原出願日】2017-11-16
【審査請求日】2022-07-14
(32)【優先日】2016-11-16
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2017-02-09
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2017-03-02
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】519173978
【氏名又は名称】カタログ テクノロジーズ, インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】ナサニエル ロクエト
(72)【発明者】
【氏名】ヒョンジュン パク
(72)【発明者】
【氏名】スワップニル ピー. バティア
(72)【発明者】
【氏名】ダレン アール. リンク
【審査官】山田 倍司
(56)【参考文献】
【文献】特表2015-533077(JP,A)
【文献】国際公開第2004/009844(WO,A1)
【文献】特表2015-529864(JP,A)
【文献】欧州特許出願公開第02983297(EP,A1)
【文献】国際公開第2016/059610(WO,A1)
【文献】国際公開第2015/144858(WO,A1)
【文献】James Bornholt et al.,A DNA-Based Archival Storage System,Proceedings of the Twenty-First International Conference on Architectural Support for Programming Languages and Operating Systems,March 2016,pp.637-649
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
G11C 11/18-11/30
11/42-13/06
25/00
(57)【特許請求の範囲】
【請求項1】
統合型核酸ベースの記憶システムであって、
1つ以上の核酸配列にデジタル情報を書き込むように構成されたデータ符号化ユニットであって、前記データ符号化ユニットは、塩基毎の核酸合成がない場合に前記1つ以上の核酸配列に前記デジタル情報を書き込む、データ符号化ユニットと、
前記デジタル情報を符号化する前記1つ以上の核酸配列を記憶するように構成された記憶ユニットと、
前記1つ以上の核酸配列に符号化された前記デジタル情報にアクセスし、読み取るように構成された読取ユニットと、
前記データ符号化ユニット、前記記憶ユニット、および前記読取ユニットに動作可能に結合された1つ以上のコンピュータプロセッサであって、前記1つ以上のコンピュータプロセッサは、(i)前記デジタル情報を、複数の記号の配列に解析することであって、前記複数の記号の配列の個々の記号は明確に異なる個々の識別子にマップされ、前記識別子は前記複数の記号の配列における個々の記号の相対位置である識別子ランクを規定し、前記個々の記号に対応する前記識別子をアセンブリすることによって識別子ライブラリが生成され、前記識別子ライブラリにおける前記個々の識別子の存在は第1の記号値に対応し、前記識別子ライブラリにおける前記個々の識別子の不在は第2の記号値に対応する、解析することと、(ii)前記デジタル情報を前記1つ以上の核酸配列に符号化するように前記データ符号化ユニットに指図することと、(iii)前記1つ以上の核酸配列に符号化された前記デジタル情報を記憶するように前記記憶ユニットに指図することと、(iv)前記1つ以上の核酸配列に記憶された前記デジタル情報にアクセスし、前記識別子ライブラリの中で表される識別子を判定して前記デジタル情報を解読するように前記読取ユニットに指図することとを行うように、個別にまたは集合的にプログラムされている、1つ以上のコンピュータプロセッサと
を備えるシステム。
【請求項2】
前記複数の記号のうちの個々の記号は、1つ以上の前記識別子に対応する、請求項1に記載のシステム。
【請求項3】
前記個々の識別子は、1つ以上の成分を備える、請求項1に記載のシステム。
【請求項4】
前記
1つ以上の成分のうちの個々の成分は、別個の核酸配列を備える、請求項3に記載のシステム。
【請求項5】
前記データ符号化ユニットは、前記デジタル情報に対応する識別子の1つ以上のセットを備える1つ以上の識別子ライブラリを生成する、請求項1に記載のシステム。
【請求項6】
前記デジタル情報を読み取ることは、前記1つ以上の識別子ライブラリ中の識別子の前記1つ以上のセットを識別することを含む、請求項5に記載のシステム。
【請求項7】
前記システムは、自動化される、請求項1に記載のシステム。
【請求項8】
前記システムは、ネットワーク化される、請求項1に記載のシステム。
【請求項9】
前記システムは、ゼロまたは低重力環境内で動作するように構成されている、請求項1に記載のシステム。
【請求項10】
前記システムは、大気圧を下回る圧力もしくは真空下圧力、または、大気圧を上回る圧力において動作するように構成されている、請求項1に記載のシステム。
【請求項11】
前記システムは、電源または発電方法を備える、請求項1に記載のシステム。
【請求項12】
前記システムは、放射線遮蔽を備える、請求項1に記載のシステム。
【請求項13】
前記生成された識別子ライブラリは、汎用ライブラリである、請求項1に記載のシステム。
【請求項14】
複数のモジュールをさらに備える、請求項1に記載のシステム。
【請求項15】
第1のモジュールは、識別子ライブラリを作成する、請求項14に記載のシステム。
【請求項16】
第2のモジュールは、前記個々の識別子または識別子反応の削除を実装する、請求項14に記載のシステム。
【請求項17】
第3のモジュールは、前記識別子ライブラリの中に存在しない前記個々の識別子から、前記識別子ライブラリの中に存在する前記個々の識別子を分離する、請求項16に記載のシステム。
【請求項18】
第4のモジュールは、前記識別子ライブラリを1つ以上のパーティションにグループ化またはプールする、請求項14に記載のシステム。
【請求項19】
前記1つ以上のコンピュータプロセッサは、1つ以上の反応コンパートメント、容器、パーティション、または基質を、前記識別子ライブラリまたは汎用ライブラリの生成の前、後、または、前および後の両方で、前記システムから分離しているディスク、プレート、フィルム、ファイバ、テープ、またはスレッド上に搭載または貯蔵するように
、個別にまたは集合的にプログラムされている請求項14に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
相互参照
本出願は、2016年11月16日に出願された米国仮特許出願番号第62/423,058号、2017年2月9日に出願された米国仮特許出願番号第62/457,074号、および2017年3月2日に出願された米国仮特許出願番号第62/466,304号の利益を主張しており、これら仮特許出願の各々は、参考として本明細書中に全体が援用される。
【背景技術】
【0002】
背景
核酸デジタルデータ記憶は、情報を符号化し(encoding)、長い時間周期にわたって記憶するための安定したアプローチであり、データは、磁気テープまたはハードドライブ記憶システムよりも高い密度で記憶される。加えて、低温および乾燥条件で貯蔵される核酸分子に記憶されたデジタルデータは、60,000年と同程度に長いまたはそれよりも長い時間後に読み出されることができる。
【0003】
核酸分子に記憶されたデジタルデータにアクセスするために、核酸分子が、配列決定され得る。したがって、核酸デジタルデータ記憶は、頻繁にアクセスされないが、長い時間周期にわたって記憶またはアーカイブされる大量の情報を有する、データを記憶するための理想的な方法であり得る。
【0004】
現在の方法は、配列内の塩基対塩基関係がデジタル情報(例えば、2進コード)に直接変換するように、デジタル情報(例えば、2進コード)を塩基毎の核酸配列に符号化することに依拠する。デジタルで符号化された情報のビットストリームまたはバイトに読み込まれ得る、塩基毎の配列に記憶されたデジタルデータのシークエンシングは、エラーを起こしやすく、塩基毎のデノボ核酸合成が高価であり得るため費用がかかり得る。核酸デジタルデータ記憶を実施する新しい方法のための機会は、あまり費用がかからず、商業的に実装することがより容易である、データを符号化し、読み出すためのアプローチを提供し得る。
【発明の概要】
【課題を解決するための手段】
【0005】
要旨
一意の核酸配列を伴うビットストリーム内の各ビット場所を規定するステップと、プール内の対応する一意の核酸配列の存在または不在によって、その場所におけるビット値を規定するステップとを含む、プール内の一意の核酸配列の存在または不在下でビット値情報を符号化することによって、塩基毎の合成を伴わずに核酸(例えば、デオキシリボ核酸、DNA)分子内のデジタル情報を符号化するための方法およびシステム。しかし、より一般的には、核酸配列の一意のサブセットによってバイトストリーム内の一意のバイトを規定する。また、組み合わせゲノム方略(例えば、複数の核酸配列のアセンブリまたは核酸配列の酵素ベースの編集)を使用して、塩基毎の合成を伴わずに一意の核酸配列を生成するための方法も開示される。
【0006】
ある側面では、本開示は、(a)デジタル情報を記号の配列にコード化(coding)し、1つまたはそれを上回るコードブックを使用して記号の配列をコードワードに変換するステップと、(b)コードワードをコード化された記号の配列に解析する(parsing)ステップと、(c)コード化された記号の配列を複数の識別子にマップするステップであって、複数の識別子のうちの個々の識別子は、1つまたはそれを上回る核酸配列を備える、ステップと、(d)識別子ライブラリを列挙する(enumerating)ステップであって、コード化された記号の配列のうちの各記号は、1つまたはそれを上回る識別子によって符号化される、ステップと、(e)1つまたはそれを上回るコードブックおよび複数の識別子の説明を識別子ライブラリに付加するステップとを含む、デジタル情報を核酸配列にコード化するための方法を提供する。
【0007】
いくつかの実施形態では、コード化された記号の配列は、記号の固定アルファベットからとられる記号を備える。いくつかの実施形態では、本方法はさらに、コード化された配列を第2の記号の配列に変換するステップを含む。いくつかの実施形態では、第2の記号の配列は、形式的データ構造を備える。いくつかの実施形態では、形式的データ構造は、ツリー構造、トライ構造、テーブル構造、キー値ディクショナリ構造、およびセットから成る群から選択される、1つまたはそれを上回る要素を備える。いくつかの実施形態では、形式的データ構造は、範囲クエリ、ランククエリ、カウントクエリ、メンバーシップクエリ、最近傍クエリ、合致クエリ、選択クエリ、またはそれらの任意の組み合わせによってクエリ可能である。
【0008】
いくつかの実施形態では、本方法はさらに、第2の記号の配列をワードの配列に解析するステップを含む。いくつかの実施形態では、本方法はさらに、1つまたはそれを上回るコードブックを使用して、ワードの配列をコードワードの配列に変換するステップを含む。いくつかの実施形態では、本方法はさらに、コードワードの配列を第3の記号の配列に変換するステップを含む。いくつかの実施形態では、ワードの配列をコードワードの配列に変換するステップは、第3の記号の配列の中の1つまたはそれを上回るタイプの記号の数を最小限にする。
【0009】
いくつかの実施形態では、コード化された記号の配列は、1つまたはそれを上回る記号のブロックを備える。いくつかの実施形態では、ワードの配列をコードワードの配列に変換するステップは、第3の記号の配列の中の1つまたはそれを上回る記号のブロックのうちの各記号のブロックの中で固定数の1つまたはそれを上回るタイプの記号を生成する。いくつかの実施形態では、コードブックは、1つまたはそれを上回るエラー保護記号をコードワードの配列のうちの個々のコードワードに付加する。いくつかの実施形態では、1つまたはそれを上回るエラー保護記号は、ワードの配列のうちの1つまたはそれを上回るワードから算出される。
【0010】
いくつかの実施形態では、複数の識別子は、識別子の組み合わせ空間から選択される。いくつかの実施形態では、複数の識別子のうちの個々の識別子は、1つまたはそれを上回る成分を備える。いくつかの実施形態では、1つまたはそれを上回る成分のうちの個々の成分は、核酸配列を備える。いくつかの実施形態では、核酸配列は、明確に異なる配列である。
【0011】
いくつかの実施形態では、記号の列の中の各記号は、2つの可能性として考えられる記号値のうちの1つである。いくつかの実施形態では、記号の列の各位置における1つの記号値は、識別子ライブラリの中の明確に異なる識別子の不在によって表されてもよい。いくつかの実施形態では、2つの可能性として考えられる記号値は、0および1のビット値であり、記号の列の中の0のビット値を伴う個々の記号は、識別子ライブラリの中の明確に異なる識別子の不在によって表されてもよく、記号の列の中の1のビット値を伴う個々の記号は、識別子ライブラリの中の明確に異なる識別子の存在によって表されてもよく、逆も同様である。いくつかの実施形態では、識別子ライブラリの中の個々の識別子の存在は、2進列の中の第1の記号値に対応し、識別子ライブラリからの個々の識別子の不在は、2進列の中の第2の記号値に対応する。いくつかの実施形態では、第1の記号値は、「1」であり、第2の記号値は、「0」である。いくつかの実施形態では、第1の記号値は、「0」であり、第2の記号値は、「1」である。いくつかの実施形態では、識別子ライブラリは、補助的核酸配列を備える。いくつかの実施形態では、補助的核酸配列は、第1の記号の配列または第1の記号の配列の符号化についてのメタデータを備える。いくつかの実施形態では、補助的核酸配列は、デジタル情報に対応せず、補助的核酸配列は、識別子ライブラリ内で符号化されるデジタル情報を隠す。
【0012】
いくつかの実施形態では、1つまたはそれを上回る識別子は、1つまたはそれを上回る成分の組み合わせアセンブリによって生成される。いくつかの実施形態では、本方法はさらに、汎用識別子ライブラリを構築するステップを含む。いくつかの実施形態では、識別子ライブラリは、識別子ライブラリの中に存在しない個々の識別子を分解または除外することによって、汎用識別子ライブラリから構築される。いくつかの実施形態では、汎用識別子ライブラリを構築するステップは、1つまたはそれを上回る反応を使用するステップを含む。いくつかの実施形態では、識別子ライブラリの中に存在しない個々の識別子に対応する1つまたはそれを上回る反応は、除去、削除、分解、もしくは阻害される。いくつかの実施形態では、1つまたはそれを上回る反応は、成分、テンプレート、および/または試薬から成り、成分、テンプレート、および/または試薬は、フィルム、スレッド、ファイバ、もしくは他の基質上に装填される。いくつかの実施形態では、成分、テンプレート、および/または試薬は、フィルム、スレッド、ファイバ、もしくは他の基質を刻印、絡合、編組、挟持、または織成することによって、相互に隣接して配列される。
【0013】
別の側面では、本開示は、記号の配列を符号化する識別子ライブラリを生成するように構成される、アセンブリユニットであって、識別子ライブラリは、複数の識別子の少なくともサブセットを備える、アセンブリユニットと、アセンブリユニットに動作可能に結合される、1つまたはそれを上回るコンピュータプロセッサであって、(i)デジタル情報を記号の配列にコード化し、1つまたはそれを上回るコードブックを使用して記号の配列をコードワードに変換し、(ii)コードワードをコード化された記号の配列に解析し、(iii)コード化された記号の配列を複数の識別子にマップし、複数の識別子のうちの個々の識別子は、1つまたはそれを上回る核酸配列を備え、(iv)識別子ライブラリを生成するようにアセンブリユニットに指図し、コード化された記号の配列のうちの各記号は、1つまたはそれを上回る識別子によって符号化され、(v)1つまたはそれを上回るコードブックおよび複数の識別子の説明を識別子ライブラリに付加するようにアセンブリユニットに指図するように、個別に、もしくは集合的にプログラムされる、1つまたはそれを上回るコンピュータプロセッサとを備える、デジタル情報を核酸配列にコード化するためのシステムを提供する。
【0014】
いくつかの実施形態では、1つまたはそれを上回る識別子は、1つまたはそれを上回るアセンブリ反応においてアセンブルされる。いくつかの実施形態では、1つまたはそれを上回るアセンブリ反応の1つまたはそれを上回る生成物は、識別子ライブラリを生成するように組み合わせられる。
【0015】
いくつかの実施形態では、アセンブリユニットは、1つまたはそれを上回る容器を備える。いくつかの実施形態では、1つまたはそれを上回る容器は、パーティションである。いくつかの実施形態では、アセンブリユニットは、試薬、成分の1つまたはそれを上回る層、1つまたはそれを上回るテンプレート、もしくはそれらの任意の組み合わせを備える。いくつかの実施形態では、アセンブリユニットは、試薬、成分の1つまたはそれを上回る層、1つまたはそれを上回るテンプレート、もしくはそれらの任意の組み合わせを受容するように構成される。いくつかの実施形態では、アセンブリユニットは、識別子ライブラリを出力するように構成される。
【0016】
いくつかの実施形態では、アセンブリユニットは、反応モジュールを備える。いくつかの実施形態では、反応モジュールは、試薬、1つまたはそれを上回る層、1つまたはそれを上回るテンプレート、もしくはそれらの任意の組み合わせを収集するように構成される。いくつかの実施形態では、試薬は、酵素、1つまたはそれを上回る核酸配列、緩衝剤、補因子、もしくはそれらの任意の組み合わせを含む。いくつかの実施形態では、試薬は、反応モジュールに進入することに先立ってマスタ混合に合体される。いくつかの実施形態では、反応モジュールは、アセンブリ反応をインキュベートまたは攪拌するように構成され、アセンブリ反応は、1つまたはそれを上回る識別子を生成する。いくつかの実施形態では、反応モジュールは、検出器ユニットを備え、検出器ユニットは、1つまたはそれを上回る識別子のアセンブリを監視する。
【0017】
いくつかの実施形態では、本システムはさらに、記憶ユニットを備え、アセンブリユニットは、生成された識別子ライブラリを記憶ユニットに転送する。いくつかの実施形態では、記憶ユニットは、1つまたはそれを上回るプール、容器、もしくはパーティションを備える。いくつかの実施形態では、記憶ユニットは、1つまたはそれを上回る識別子ライブラリを、1つまたはそれを上回るプール、1つまたはそれを上回る容器、もしくは1つまたはそれを上回るパーティションに合体する。
【0018】
いくつかの実施形態では、本システムはさらに、1つまたはそれを上回る識別子を選択するように構成される選択ユニットを備える。いくつかの実施形態では、選択ユニットは、サイズ選択モジュール、親和性捕捉モジュール、ヌクレアーゼ切断モジュール、またはそれらの任意の組み合わせを備える。
【0019】
いくつかの実施形態では、本システムはさらに、1つまたはそれを上回る核酸配列を合成するように構成される核酸合成ユニットを備える。いくつかの実施形態では、1つまたはそれを上回る核酸配列は、塩基毎の合成を用いて構築される。
【0020】
いくつかの実施形態では、アセンブリユニットは、1つまたはそれを上回る識別子をアセンブルするための複数の反応を生成する。いくつかの実施形態では、アセンブリユニットは、識別子ライブラリの中の複数の識別子の少なくともサブセットを生成しない個々の反応を複数の反応から選択的に除去する。
【0021】
いくつかの実施形態では、アセンブリユニットは、核酸配列がコーティングされた材料のエレクトロウェッティング、噴霧、印刷、レーザアブレーション、織成または編組もしくは絡合、スリップ技術、刻印、レーザ印刷、または液滴マイクロ流体工学のうちの1つまたはそれを上回るものを使用し、識別子ライブラリを生成する。
【0022】
いくつかの実施形態では、1つまたはそれを上回るコンピュータプロセッサは、発見的技法を使用し、識別子ライブラリを生成するための反応の数を最小限にするように、または識別子ライブラリを生成するためのいくつかの反応を設定するために要する時間を最小限にするように、個別に、もしくは集合的にプログラムされる。いくつかの実施形態では、発見的技法は、セット上被覆発見的問題解決法または装置の進行経路を最小限にする発見的問題解決法を備える。
【0023】
別の側面では、本開示は、1つまたはそれを上回る核酸配列にデジタル情報を書き込むように構成される、データ符号化ユニットであって、塩基毎の核酸合成がない場合に1つまたはそれを上回る核酸配列にデジタル情報を書き込む、データ符号化ユニットと、デジタル情報を符号化する、1つまたはそれを上回る核酸配列を記憶するように構成される、記憶ユニットと、1つまたはそれを上回る核酸配列内で符号化されるデジタル情報にアクセスし、読み取るように構成される、読取ユニットと、データ符号化ユニット、記憶ユニット、および読取ユニットに動作可能に結合される、1つまたはそれを上回るコンピュータプロセッサであって、(i)デジタル情報を1つまたはそれを上回る核酸配列に符号化するようにデータ符号化ユニットに指図し、(ii)1つまたはそれを上回る核酸配列に符号化されるデジタル情報を記憶するように記憶ユニットに指図し、(iii)1つまたはそれを上回る核酸配列に記憶されたデジタル情報にアクセスし、解読(decode)するように読取ユニットに指図するように、個別に、もしくは集合的にプログラムされる、1つまたはそれを上回るコンピュータプロセッサとを備える、統合型核酸ベースの記憶システムを提供する。
【0024】
いくつかの実施形態では、1つまたはそれを上回るコンピュータプロセッサは、デジタル情報を複数の記号に解析する。いくつかの実施形態では、複数の記号は、複数の識別子にマップされる。いくつかの実施形態では、複数の記号のうちの個々の記号は、複数の識別子のうちの1つまたはそれを上回る識別子に対応する。いくつかの実施形態では、複数の識別子は、複数の成分を備える。いくつかの実施形態では、複数の成分のうちの個々の成分は、明確に異なる核酸配列を備える。
【0025】
いくつかの実施形態では、データ符号化ユニットは、デジタル情報に対応する識別子の1つまたはそれを上回るセットを備える、1つまたはそれを上回る識別子ライブラリを生成する。いくつかの実施形態では、デジタル情報を読み取るステップは、1つまたはそれを上回る識別子ライブラリの中の識別子の1つまたはそれを上回るセットを識別するステップを含む。
【0026】
いくつかの実施形態では、本システムは、自動化される。いくつかの実施形態では、本システムは、ネットワーク化される。いくつかの実施形態では、本システムは、ゼロまたは低重力環境内で動作するように構成される。いくつかの実施形態では、本システムは、大気圧を下回る、または真空下、もしくは大気圧を上回る圧力において動作するように構成される。いくつかの実施形態では、本システムは、電源または発電方法を備える。いくつかの実施形態では、本システムは、放射線遮蔽を備える。
【0027】
いくつかの実施形態では、生成される識別子ライブラリは、汎用ライブラリである。いくつかの実施形態では、本システムはさらに、複数のモジュールを備える。いくつかの実施形態では、第1のモジュールは、識別子ライブラリを作成する。いくつかの実施形態では、第2のモジュールは、個々の識別子または識別子反応の削除を実装する。いくつかの実施形態では、第3のモジュールは、識別子ライブラリの中に存在しない個々の識別子から、識別子ライブラリの中に存在する個々の識別子を分離する。いくつかの実施形態では、第4のモジュールは、識別子ライブラリを1つまたはそれを上回るパーティションにグループ化もしくはプールする。いくつかの実施形態では、1つまたはそれを上回るパーティションは、本システムから分離して貯蔵される。いくつかの実施形態では、1つまたはそれを上回る反応コンパートメント、容器、パーティション、もしくは基質は、識別子ライブラリまたは汎用ライブラリの生成の前、後、もしくは前および後の両方で、システムから分離しているディスク、プレート、ファイバ、テープ、またはスレッド上に搭載もしくは貯蔵される。
【0028】
本開示の付加的側面および利点は、本開示の例証的実施形態のみが示され、説明される、以下の発明を実施するための形態から、当業者に容易に明白となるであろう。認識されるであろうように、本開示は、他の異なる実施形態が可能であり、そのいくつかの詳細は、全て本開示から逸脱することなく、種々の明白な点で修正が可能である。故に、図面および説明は、制限的ではなくて本質的に例証的と見なされるものである。
本願明細書は、例えば、以下の項目も提供する。
(項目1)
デジタル情報を核酸配列にコード化するための方法であって、
(a)前記デジタル情報を記号の配列にコード化し、1つまたはそれを上回るコードブックを使用して前記記号の配列をコードワードに変換するステップと、
(b)前記コードワードをコード化された記号の配列に解析するステップと、
(c)前記コード化された記号の配列を複数の識別子にマップするステップであって、前記複数の識別子のうちの個々の識別子は、1つまたはそれを上回る核酸配列を備える、ステップと、
(d)識別子ライブラリを列挙するステップであって、前記コード化された記号の配列のうちの各記号は、1つまたはそれを上回る識別子によって符号化される、ステップと、
(e)前記1つまたはそれを上回るコードブックおよび前記複数の識別子の説明を前記識別子ライブラリに付加するステップと、
を含む、方法。
(項目2)
前記コード化された記号の配列は、記号の固定アルファベットからとられる記号を備える、項目1に記載の方法。
(項目3)
前記コード化された配列を第2の記号の配列に変換するステップをさらに含む、項目1に記載の方法。
(項目4)
前記第2の記号の配列は、形式的データ構造を備える、項目3に記載の方法。
(項目5)
前記形式的データ構造は、ツリー構造、トライ構造、テーブル構造、キー値ディクショナリ構造、およびセットから成る群から選択される、1つまたはそれを上回る要素を備える、項目4に記載の方法。
(項目6)
前記形式的データ構造は、範囲クエリ、ランククエリ、カウントクエリ、メンバーシップクエリ、最近傍クエリ、合致クエリ、選択クエリ、またはそれらの任意の組み合わせによってクエリ可能である、項目4に記載の方法。
(項目7)
前記第2の記号の配列をワードの配列に解析するステップをさらに含む、項目4に記載の方法。
(項目8)
前記1つまたはそれを上回るコードブックを使用して、前記ワードの配列を前記コードワードの配列に変換するステップをさらに含む、項目7に記載の方法。
(項目9)
前記コードワードの配列を第3の記号の配列に変換するステップをさらに含む、項目8に記載の方法。
(項目10)
前記ワードの配列を前記コードワードの配列に変換するステップは、前記第3の記号の配列の中の1つまたはそれを上回るタイプの記号の数を最小限にする、項目9に記載の方法。
(項目11)
前記コード化された記号の配列は、1つまたはそれを上回る記号のブロックを備える、項目8に記載の方法。
(項目12)
前記ワードの配列を前記コードワードの配列に変換するステップは、前記第3の記号の配列の中の前記1つまたはそれを上回る記号のブロックのうちの各記号のブロックの中で固定数の1つまたはそれを上回るタイプの記号を生成する、項目11に記載の方法。
(項目13)
コードブックは、1つまたはそれを上回るエラー保護記号を前記コードワードの配列のうちの個々のコードワードに付加する、項目8に記載の方法。
(項目14)
前記1つまたはそれを上回るエラー保護記号は、前記ワードの配列のうちの1つまたはそれを上回るワードから算出される、項目13に記載の方法。
(項目15)
前記複数の識別子は、識別子の組み合わせ空間から選択される、項目1に記載の方法。
(項目16)
前記複数の識別子のうちの個々の識別子は、1つまたはそれを上回る成分を備える、項目1に記載の方法。
(項目17)
前記1つまたはそれを上回る成分のうちの個々の成分は、核酸配列を備える、項目16に記載の方法。
(項目18)
前記核酸配列は、明確に異なる配列である、項目17に記載の方法。
(項目19)
前記識別子ライブラリの中の前記個々の識別子の存在は、第1の記号値に対応し、前記識別子ライブラリからの前記個々の識別子の不在は、第2の記号値に対応する、項目1に記載の方法。
(項目20)
前記第1の記号値は、「1」であり、前記第2の記号値は、「0」である、項目19に記載の方法。
(項目21)
前記第1の記号値は、「0」であり、前記第2の記号値は、「1」である、項目19に記載の方法。
(項目22)
前記識別子ライブラリは、補助的核酸配列を備える、項目1に記載の方法。
(項目23)
前記補助的核酸配列は、前記第1の記号の配列または前記第1の記号の配列の符号化についてのメタデータを備える、項目22に記載の方法。
(項目24)
前記補助的核酸配列は、デジタル情報に対応せず、前記補助的核酸配列は、前記識別子ライブラリ内で符号化される前記デジタル情報を隠す、項目22に記載の方法。
(項目25)
前記1つまたはそれを上回る識別子は、1つまたはそれを上回る成分の組み合わせアセンブリによって生成される、項目1に記載の方法。
(項目26)
汎用識別子ライブラリを構築するステップをさらに含む、項目1に記載の方法。
(項目27)
前記識別子ライブラリは、前記識別子ライブラリの中に存在しない前記個々の識別子を分解または除外することによって、前記汎用識別子ライブラリから構築される、項目26に記載の方法。
(項目28)
前記汎用識別子ライブラリを構築するステップは、1つまたはそれを上回る反応を使用することを含む、項目26に記載の方法。
(項目29)
前記識別子ライブラリの中に存在しない前記個々の識別子に対応する前記1つまたはそれを上回る反応は、除去、削除、分解、もしくは阻害される、項目28に記載の方法。
(項目30)
前記1つまたはそれを上回る反応は、成分、テンプレート、および/または試薬を含み、前記成分、前記テンプレート、および/または前記試薬は、フィルム、スレッド、ファイバ、もしくは他の基質上に装填される、項目28に記載の方法。
(項目31)
前記成分、前記テンプレート、および/または前記試薬は、前記フィルム、前記スレッド、前記ファイバ、もしくは前記他の基質を刻印、絡合、編組、挟持、または織成することによって、相互に隣接して分配される、もしくは配列される、項目30に記載の方法。(項目32)
デジタル情報を核酸配列にコード化するためのシステムであって、
(a)記号の配列を符号化する識別子ライブラリを生成するように構成される、アセンブリユニットであって、前記識別子ライブラリは、複数の識別子の少なくともサブセットを備える、アセンブリユニットと、
(b)前記アセンブリユニットに動作可能に結合される、1つまたはそれを上回るコンピュータプロセッサであって、(i)前記デジタル情報を記号の配列にコード化し、1つまたはそれを上回るコードブックを使用して前記記号の配列をコードワードに変換し、(ii)前記コードワードをコード化された記号の配列に解析し、(iii)前記コード化された記号の配列を複数の識別子にマップし、前記複数の識別子のうちの個々の識別子は、1つまたはそれを上回る核酸配列を備え、(iv)識別子ライブラリを生成するように前記アセンブリユニットに指図し、前記コード化された記号の配列のうちの各記号は、1つまたはそれを上回る識別子によって符号化され、(v)前記1つまたはそれを上回るコードブックおよび前記複数の識別子の説明を前記識別子ライブラリに付加するように前記アセンブリユニットに指図するように、個別に、もしくは集合的にプログラムされる、1つまたはそれを上回るコンピュータプロセッサと、 を備える、システム。
(項目33)
前記1つまたはそれを上回る識別子は、1つまたはそれを上回るアセンブリ反応においてアセンブルされる、項目32に記載のシステム。
(項目34)
前記1つまたはそれを上回るアセンブリ反応の1つまたはそれを上回る生成物は、前記識別子ライブラリを生成するように組み合わせられる、項目33に記載のシステム。
(項目35)
前記アセンブリユニットは、1つまたはそれを上回る容器を備える、項目32に記載のシステム。
(項目36)
前記1つまたはそれを上回る容器は、パーティションである、項目35に記載のシステム。
(項目37)
前記アセンブリユニットは、試薬、成分の1つまたはそれを上回る層、1つまたはそれを上回るテンプレート、もしくはそれらの任意の組み合わせを備える、項目32に記載のシステム。
(項目38)
前記アセンブリユニットは、試薬、成分の1つまたはそれを上回る層、1つまたはそれを上回るテンプレート、もしくはそれらの任意の組み合わせを受容するように構成される、項目32に記載のシステム。
(項目39)
前記アセンブリユニットは、前記識別子ライブラリを出力するように構成される、項目32に記載のシステム。
(項目40)
前記アセンブリユニットは、反応モジュールを備える、項目32に記載のシステム。
(項目41)
前記反応モジュールは、試薬、1つまたはそれを上回る層、1つまたはそれを上回るテンプレート、もしくはそれらの任意の組み合わせを収集するように構成される、項目40に記載のシステム。
(項目42)
前記試薬は、酵素、1つまたはそれを上回る核酸配列、緩衝剤、補因子、もしくはそれらの任意の組み合わせを含む、項目41に記載のシステム。
(項目43)
前記試薬は、前記反応モジュールに進入することに先立ってマスタ混合に合体される、項目42に記載のシステム。
(項目44)
前記反応モジュールは、アセンブリ反応をインキュベートまたは攪拌するように構成され、前記アセンブリ反応は、前記1つまたはそれを上回る識別子を生成する、項目40に記載のシステム。
(項目45)
前記反応モジュールは、検出器ユニットを備え、前記検出器ユニットは、前記1つまたはそれを上回る識別子のアセンブリを監視する、項目40に記載のシステム。
(項目46)
記憶ユニットをさらに備え、前記アセンブリユニットは、前記生成された識別子ライブラリを前記記憶ユニットに転送する、項目32に記載のシステム。
(項目47)
前記記憶ユニットは、1つまたはそれを上回るプール、容器、もしくはパーティションを備える、項目46に記載のシステム。
(項目48)
前記記憶ユニットは、1つまたはそれを上回る識別子ライブラリを、前記1つまたはそれを上回るプール、前記1つまたはそれを上回る容器、もしくは前記1つまたはそれを上回るパーティションに合体する、項目47に記載のシステム。
(項目49)
前記1つまたはそれを上回る識別子を選択するように構成される選択ユニットをさらに備える、項目32に記載のシステム。
(項目50)
前記選択ユニットは、サイズ選択モジュール、親和性捕捉モジュール、ヌクレアーゼ切断モジュール、またはそれらの任意の組み合わせを備える、項目49に記載のシステム。
(項目51)
前記1つまたはそれを上回る核酸配列を合成するように構成される核酸合成ユニットをさらに備える、項目32に記載のシステム。
(項目52)
前記1つまたはそれを上回る核酸配列は、塩基毎の合成を用いて構築される、項目51に記載のシステム。
(項目53)
前記アセンブリユニットは、前記1つまたはそれを上回る識別子をアセンブルするための複数の反応を生成する、項目26に記載のシステム。
(項目54)
前記アセンブリユニットは、前記識別子ライブラリの中の前記複数の識別子の前記少なくともサブセットを生成しない個々の反応を前記複数の反応から選択的に除去する、項目53に記載のシステム。
(項目55)
前記アセンブリユニットは、核酸配列がコーティングされた材料のエレクトロウェッティング、噴霧、印刷、レーザアブレーション、織成または編組もしくは絡合、スリップ技術、刻印、レーザ印刷、または液滴マイクロ流体工学のうちの1つまたはそれを上回るものを使用し、前記識別子ライブラリを生成する、項目32に記載のシステム。
(項目56)
前記1つまたはそれを上回るコンピュータプロセッサは、発見的技法を使用し、前記識別子ライブラリを生成するための反応の数を最小限にするように、または前記識別子ライブラリを生成するためのいくつかの反応を設定するために要する時間を最小限にするように、個別に、もしくは集合的にプログラムされる、項目32に記載のシステム。
(項目57)
前記発見的技法は、セット上被覆発見的問題解決法または装置の進行経路を最小限にする発見的問題解決法を備える、項目56に記載のシステム。
(項目58)
統合型核酸ベースの記憶システムであって、
1つまたはそれを上回る核酸配列にデジタル情報を書き込むように構成される、データ符号化ユニットであって、塩基毎の核酸合成がない場合に前記1つまたはそれを上回る核酸配列に前記デジタル情報を書き込む、データ符号化ユニットと、
前記デジタル情報を符号化する、前記1つまたはそれを上回る核酸配列を記憶するように構成される、記憶ユニットと、
前記1つまたはそれを上回る核酸配列内で符号化される前記デジタル情報にアクセスし、読み取るように構成される、読取ユニットと、
前記データ符号化ユニット、前記記憶ユニット、および前記読取ユニットに動作可能に結合される、1つまたはそれを上回るコンピュータプロセッサであって、(i)前記デジタル情報を前記1つまたはそれを上回る核酸配列に符号化するように前記データ符号化ユニットに指図し、(ii)前記1つまたはそれを上回る核酸配列に符号化される前記デジタル情報を記憶するように前記記憶ユニットに指図し、(iii)前記1つまたはそれを上回る核酸配列に記憶された前記デジタル情報にアクセスし、解読するように前記読取ユニットに指図するように、個別に、もしくは集合的にプログラムされる、1つまたはそれを上回るコンピュータプロセッサと、
を備える、システム。
(項目59)
前記1つまたはそれを上回るコンピュータプロセッサは、前記デジタル情報を複数の記号に解析する、項目58に記載のシステム。
(項目60)
前記複数の記号は、複数の識別子にマップされる、項目59に記載のシステム。
(項目61)
前記複数の記号のうちの個々の記号は、前記複数の識別子のうちの1つまたはそれを上回る識別子に対応する、項目60に記載のシステム。
(項目62)
前記複数の識別子は、複数の成分を備える、項目60に記載のシステム。
(項目63)
前記複数の成分のうちの個々の成分は、明確に異なる核酸配列を備える、項目62に記載のシステム。
(項目64)
前記データ符号化ユニットは、前記デジタル情報に対応する識別子の1つまたはそれを上回るセットを備える、1つまたはそれを上回る識別子ライブラリを生成する、項目60に記載のシステム。
(項目65)
前記デジタル情報を読み取るステップは、前記1つまたはそれを上回る識別子ライブラリの中の前記識別子の1つまたはそれを上回るセットを識別することを含む、項目64に記載のシステム。
(項目66)
前記システムは、自動化される、項目58に記載のシステム。
(項目67)
前記システムは、ネットワーク化される、項目58に記載のシステム。
(項目68)
前記システムは、ゼロまたは低重力環境内で動作するように構成される、項目58に記載のシステム。
(項目69)
前記システムは、大気圧を下回る、または真空下、もしくは大気圧を上回る圧力において動作するように構成される、項目58に記載のシステム。
(項目70)
前記システムは、電源または発電方法を備える、項目58に記載のシステム。
(項目71)
前記システムは、放射線遮蔽を備える、項目58に記載のシステム。
(項目72)
生成される前記識別子ライブラリは、汎用ライブラリである、項目58に記載のシステム。
(項目73)
複数のモジュールをさらに備える、項目58に記載のシステム。
(項目74)
第1のモジュールは、識別子ライブラリを作成する、項目73に記載のシステム。
(項目75)
第2のモジュールは、前記個々の識別子または識別子反応の削除を実装する、項目73に記載のシステム。
(項目76)
第3のモジュールは、前記識別子ライブラリの中に存在しない前記個々の識別子から、前記識別子ライブラリの中に存在する前記個々の識別子を分離する、項目75に記載のシステム。
(項目77)
第4のモジュールは、前記識別子ライブラリを1つまたはそれを上回るパーティションにグループ化もしくはプールする、項目73に記載のシステム。
(項目78)
1つまたはそれを上回る反応コンパートメント、容器、パーティション、もしくは基質は、前記識別子ライブラリまたは汎用ライブラリの生成の前、後、もしくは前および後の両方で、前記システムから分離しているディスク、プレート、ファイバ、テープ、またはスレッド上に搭載もしくは貯蔵される、項目73に記載のシステム。
(参照による引用)
【0029】
本明細書で記述される全ての出版物、特許、および特許出願は、各個々の出版物、特許、または特許出願が、参照することによって組み込まれるように具体的かつ個別に示された場合と同一の程度に、参照することによって本明細書に組み込まれる。参照することによって組み込まれる出版物および特許または特許出願が、本明細書に含有される本開示と矛盾する程度まで、本明細書は、いずれのそのような矛盾する資料にも取って代わる、および/または優先することを意図している。
【図面の簡単な説明】
【0030】
本発明の新規の特徴は、添付の請求項で詳細に記載される。本発明の特徴および利点のさらなる理解は、本発明の原理が利用される例証的実施形態を記載する、以下の発明を実施する形態、および付随する図面(また、本明細書では「図」(figureおよびFIG.))を参照して、得られるであろう。
【0031】
【
図1】
図1は、核酸配列に記憶されたデジタル情報を符号化する、書き込む、アクセスする、読み取る、および解読するためのプロセスの概観を図式的に図示する。
【
図2】
図2Aおよび2Bは、オブジェクトまたは識別子(例えば、核酸分子)を使用して、「アドレスにおけるデータ」と称されるデジタルデータを符号化する方法を図式的に図示する。
図2Aは、ランクオブジェクト(またはアドレスオブジェクト)をバイト値オブジェクト(またはデータオブジェクト)と組み合わせて、識別子を作成するステップを図示する。
図2Bは、ランクオブジェクトおよびバイト値オブジェクト自体が他のオブジェクトの組み合わせ連結である、アドレス方法におけるデータの実施形態を図示する。
【
図3】
図3Aおよび3Bは、オブジェクトまたは識別子(例えば、核酸配列)を使用して、デジタル情報を符号化する例示的方法を図式的に図示する。
図3Aは、ランクオブジェクトを識別子として使用して、デジタル情報を符号化するステップを図示する。
図3Bは、アドレスオブジェクト自体が他のオブジェクトの組み合わせ連結である、符号化方法の実施形態を図示する。
【
図4】
図4は、情報を核酸配列(例えば、デオキシリボ核酸)に書き込むための方法の概観を図式的に図示する。
【
図5】
図5は、mレベルのn次ツリーとして編成された識別子の例示的組み合わせ空間を図式的に図示する。
【
図6】
図6は、ビットストリームを書き込むために構築される識別子の数を最小限にするための例示的方法を図式的に図示する。
【
図7】
図7は、ワードをコードワードに再マップし、エラー検出のための一様な加重コードワードを確実にするための例示的方法を図式的に図示する。
【
図8】
図8は、最小反応セット生成によって書込時間を最小限にするための例示的方法を図式的に図示する。
【
図9】
図9は、識別子へのアドレスの等尺性マッピングおよびデータの二重符号化を図式的に図示する。
【
図10】
図10は、不正解読に対する保護のために符号化および解読を隠すための例示的方法を図式的に図示する。
【
図12】
図12は、成分動作のためにエレクトロウェッティングを使用する方法を図式的に図示する。
【
図13】
図13は、成分を分配するための例示的印刷ベースの方法を示す。
【
図16】
図16は、織成または編組によって識別子を生成する例示的方法を図式的に図示する。
【
図17】
図17は、成分のセットから識別子を生成するための例示的方法を図式的に図示する。
【
図18】
図18は、別個のフィルムまたはスレッドから識別子を生成するための例示的方法を図式的に図示する。
【
図19】
図19は、減算を使用し、情報を書き込むための例示的方法を図式的に図示する。
【
図20】
図20は、ハイブリダイゼーションによって読み取る例示的方法を図式的に図示する。
【
図21】
図21は、ナノ細孔シークエンシングによって読み取る例示的方法を図式的に図示する。
【
図22】
図22は、本明細書で提供される方法を実施するようにプログラムまたは別様に構成されるコンピュータ制御システムを示す。
【発明を実施するための形態】
【0032】
詳細な説明
本発明の種々の実施形態が、本明細書で示され、説明されているが、そのような実施形態は一例のみとして提供されることが当業者に明白となるであろう。多数の変形例、変更、および代用が、本発明から逸脱することなく、当業者に想起され得る。本明細書で説明される本発明の実施形態の種々の代替案が採用され得ることを理解されたい。
【0033】
本明細書で使用されるような用語「デジタルメッセージ」は、概して、核酸分子を符号化するために提供される記号の配列を指す。デジタルメッセージは、核酸分子に書き込まれるオリジナルテキストであってもよい。
【0034】
本明細書で使用されるような用語「記号」は、概して、デジタル情報の単位の表現を指す。デジタル情報は、記号の列に分割または変換されてもよい。実施例では、記号は、ビットであってもよく、ビットは、「0」および「1」の値を有してもよい。
【0035】
本明細書で使用されるような用語「明確に異なる」または「一意の」は、概して、群の中の他のオブジェクトと区別可能であるオブジェクトを指す。例えば、明確に異なるまたは一意の核酸配列は、いかなる他の核酸配列とも同一の配列を有していない、核酸配列であってもよい。明確に異なるまたは一意の核酸分子は、いかなる他の核酸配列とも同一の配列を有していなくてもよい。明確に異なるまたは一意の核酸配列もしくは分子は、別の核酸配列または分子と類似領域を共有してもよい。
【0036】
本明細書で使用されるような用語「成分」は、概して、核酸配列を指す。成分は、明確に異なる核酸配列であってもよい。成分は、他の核酸配列または分子を生成するように、1つまたはそれを上回る他の成分と連結される、もしくはアセンブルされてもよい。
【0037】
本明細書で使用されるような用語「層」は、概して、成分の群またはプールを指す。各層は、1つの層内の成分が別の層内の成分と異なるように、明確に異なる成分のセットを含んでもよい。1つまたはそれを上回る層からの成分は、1つまたはそれを上回る識別子を生成するようにアセンブルされてもよい。
【0038】
本明細書で使用されるような用語「識別子」は、概して、より大きいビット列内のビット列の位置および値を表す、核酸分子または核酸配列を指す。より一般的には、識別子は、記号の列の中の記号を表す、またはそれに対応する、任意のオブジェクトを指し得る。いくつかの実施形態では、識別子は、1つまたは複数の連結された成分を備えてもよい。
【0039】
本明細書で使用されるような用語「組み合わせ空間」は、概して、成分等のオブジェクトの開始セット、およびこれらのオブジェクトを修正して識別子を形成する方法に関する規則の許容セットから生成され得る、全ての可能性として考えられる明確に異なる識別子のセットを指す。成分をアセンブルまたは連結させることによって作製される識別子の組み合わせ空間サイズは、成分の層の数、各層内の成分の数、および識別子を生成するために使用される特定のアセンブリ方法に依存し得る。
【0040】
本明細書で使用されるような用語「識別子ランク」は、概して、セットの中の識別の順序を定義する関係を指す。
【0041】
本明細書で使用されるような用語「識別子ライブラリ」は、概して、デジタル情報を表す記号列の中の記号に対応する、識別子の集合を指す。いくつかの実施形態では、識別子ライブラリの中の所与の識別子の不在は、特定の位置における記号値を示してもよい。1つまたはそれを上回る識別子ライブラリは、識別子のプール、群、またはセットにおいて組み合わせられてもよい。各識別子ライブラリは、識別子ライブラリを識別する一意のバーコードを含んでもよい。
【0042】
本明細書で使用されるような用語「汎用ライブラリ」は、概して、成分等のオブジェクトの開始セット、およびこれらのオブジェクトを修正して識別子を形成する方法に関する規則の許容セットから生成され得る、全ての可能性として考えられる明確に異なる識別子のセットに対応する、識別子の集合を指す。
【0043】
本明細書で使用されるような用語「ワード」は、概して、記号の列のブロックを指す。ブロックの長さは、固定されてもよい、または固定されなくてもよい。記号の列は、L個の記号の長さを備える、1つまたはそれを上回るワードに分割されてもよい。実施例では、16個の記号の長さの記号の列は、それぞれ4つの記号の長さである、4つのワードに分割されてもよい。
【0044】
本明細書で使用されるような用語「コードワード」は、概して、ワードをコード化する記号列を指す。列の長さは、固定されてもよい、または固定されなくてもよい。ソースビットストリームは、続いて、コードブックを使用してコードワードに変換される、ワードに解析されてもよい。コードブックは、ワードをコードワードに相関させてもよい。コードワードは、書込時間を短縮する、識別子構築を削減する、または書込エラーを検出するように、選択されてもよい。
【0045】
本明細書で使用されるような用語「核酸」は、概して、デオキシリボ核酸(DNA)、リボ核酸(RNA)、またはそれらの変異体を指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)、およびウラシル(U)、またはそれらの変異体から選択される、1つまたはそれを上回るサブユニットを含んでもよい。ヌクレオチドは、A、C、G、T、またはU、もしくはそれらの変異体を含むことができる。ヌクレオチドは、成長核酸鎖に組み込まれ得る、任意のサブユニットを含むことができる。そのようなサブユニットは、1つまたはそれを上回る相補的A、C、G、T、もしくはUに特有である、またはプリン(すなわち、AまたはG、もしくはそれらの変異体)またはピリミジン(すなわち、C、T、またはU、もしくはそれらの変異体)に相補的である、A、C、G、T、またはU、もしくは任意の他のサブユニットであることができる。いくつかの実施例では、核酸は、一本鎖または二本鎖であり得、ある場合には、核酸分子は、円形である。
【0046】
本明細書で使用されるような用語「核酸分子」または「核酸配列」は、概して、種々の長さを有し得る、ヌクレオチドの多量体型またはポリヌクレオチド、すなわち、デオキシリボヌクレオチド(DNA)またはリボヌクレオチド(RNA)のいずれか、もしくはそれらの類似体を指す。本明細書で使用されるようなオリゴヌクレオチドは、概して、一本鎖核酸配列を指し、典型的には、4つのヌクレオチド塩基、すなわち、アデニン(A)、シトシン(C)、グアニン(G)、およびチミン(T)(ポリヌクレオチドがRNAであるときはチミン(T)の代わりにウラシル(U))の具体的配列から構成される。用語「核酸配列」は、ポリヌクレオチド分子のアルファベット表現を指し得る。代替として、本用語は、物理的なポリヌクレオチド自体に適用されてもよい。本アルファベット表現は、中央処理装置を有するコンピュータ内のデータベースに入力され、核酸配列または核酸分子を、デジタル情報を符号化する記号またはビットにマップするために使用されることができる。核酸配列またはオリゴヌクレオチドは、1つまたはそれを上回る非標準ヌクレオチド、ヌクレオチド類似体、および/または修飾ヌクレオチドを含んでもよい。
【0047】
修飾ヌクレオチドの実施例は、限定されないが、ジアミノプリン、5-フルオロウラシル、5-ブロモウラシル、5-クロロウラシル、5-ヨードウラシル、ヒポキサンチン、キサンチン、4-アセチルシトシン、5-(カルボキシヒドロキシルメチル)ウラシル、5-カルボキシメチルアミノメチル1-2-チオウリジン、5-カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ-D-ガラクトシルキューオシン、イノシン、N6-イソペンテニルアデニン、1-メチルグアニン、1-メチルイノシン、2、2-ジメチルグアニン、2-メチルアデニン、2-メチルグアニン、3-メチルシトシン、5-メチルシトシン、N6-アデニン、7-メチルグアニン、5-メチルアミノメチルウラシル、5-メトキシアミノメチル1-2-チオウラシル、ベータ-D-マンノシルキューオシン、5′-メトキシカルボキシメチルウラシル、5-メトキシウラシル、2-メチルチオ-D46-イソペンテニルアデニン、ウラシル-5-オキシ酢酸(v)、ワイブトキソシン、シュードウラシル、キューオシン、2-チオシトシン、5-メチル-2-チオウラシル、2-チオウラシル、4-チオウラシル、5-メチルウラシル、ウラシル-5-オキシ酢酸メチルエステル、ウラシル-5-オキシ酢酸(v)、5-メチル-2-チオウラシル、3-(3-アミノ-3-N-2-カルボキシプロピル)ウラシル、(acp3)w、2、6-ジアミノプリン、および同等物を含む。核酸分子はまた、塩基部分(例えば、典型的には、相補的ヌクレオチドと水素結合を形成するために利用可能である1つまたはそれを上回る原子において、および/または典型的には、相補的ヌクレオチドと水素結合を形成することが可能ではない1つまたはそれを上回る原子において)、糖部分、またはリン酸骨格において修飾されてもよい。核酸分子はまた、N-ヒドロキシスクシンイミドエステル(NHS)等のアミン反応性部分の共有結合を可能にするためのアミノアリル-dUTP(aa-dUTP)およびアミノヘキシルアクリルアミド-dCTP(aha-dCTP)等のアミン修飾基を含有してもよい。
【0048】
本明細書で使用されるような用語「プライマ」は、概して、ポリメラーゼ連鎖反応(PCR)等の核酸合成のための始点としての役割を果たす核酸鎖を指す。実施例では、DNAサンプルの複製中に、複製を触媒する酵素が、DNAサンプルに付着したプライマの3′末端において複製を開始し、逆鎖をコピーする。
【0049】
本明細書で使用されるような用語「ポリメラーゼ」または「ポリメラーゼ酵素」は、概して、ポリメラーゼ反応を触媒することが可能な任意の酵素を指す。ポリメラーゼの実施例は、限定ではないが、核酸ポリメラーゼを含む。ポリメラーゼは、自然発生する、または合成されることができる。例示的ポリメラーゼは、Φ29ポリメラーゼまたはその誘導体である。ある場合には、転写酵素またはリガーゼ(すなわち、結合の形成を触媒する酵素)が、新しい核酸配列を構築するために、ポリメラーゼと併せて、またはポリメラーゼの代替として、使用される。ポリメラーゼの実施例は、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、修飾ポリメラーゼE、大腸菌DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼI29(phi29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼs、Tbrポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3′-5′エクソヌクレアーゼ活性を伴うKlenow断片ポリメラーゼ、およびそれらの変異体、修飾生成物、ならびに誘導体を含む。
【0050】
2進コードの形態のコンピュータデータ等のデジタル情報は、記号の配列または列を備えることができる。2進コードは、例えば、2つの2進記号、典型的には、ビットと称される0および1を有する、2進数システムを使用して、テキストまたはコンピュータプロセッサ命令を符号化する、もしくは表してもよい。デジタル情報は、非2進記号の配列を備え得る、非2進コードの形態で表されてもよい。各符号化された記号は、一意のビット列(または「バイト」)に再び割り当てられることができ、一意のビット列またはバイトは、バイトの列またはバイトストリームに配列されることができる。所与のビットのビット値は、2つの記号のうちの1つ(例えば、0または1)であることができる。N個のビットの列を備え得る、バイトは、合計2N個の一意のバイト値を有することができる。例えば、8ビットを備えるバイトは、合計28または256個の可能性として考えられる一意のバイト値を生成することができ、256バイトはそれぞれ、バイトで符号化され得る、256個の可能性として考えられる明確に異なる記号、文字、または命令のうちの1つに対応することができる。未加工データ(例えば、テキストファイルおよびコンピュータ命令)は、バイトの列またはバイトストリームとして表されることができる。未加工データを備える、Zipファイルまたは圧縮データファイルもまた、バイトストリームの中に記憶されることができ、これらのファイルは、圧縮形態でバイトストリームとして記憶され、次いで、コンピュータによって読み取られる前に未加工データに展開されることができる。
【0051】
本開示の方法およびシステムは、それぞれがオリジナル情報の1つまたはそれを上回るビットを表し得る、複数の識別子内でコンピュータデータまたは情報を符号化するために使用されてもよい。いくつかの実施例では、本開示の方法およびシステムは、それぞれ、オリジナル情報の2ビットを表す識別子を使用して、データまたは情報を符号化する。
【0052】
デジタル情報を核酸に符号化するための前の方法は、費用および時間がかかり得る、核酸の塩基毎の合成に依拠している。代替的方法は、効率を向上させ、デジタル情報を符号化するための塩基毎の核酸合成への依拠を低減させることによって、デジタル情報記憶の商業的実現可能性を向上させ、全ての新しい情報記憶要求のために明確に異なる核酸配列のデノボ合成を排除してもよい。
【0053】
新しい方法は、塩基毎またはデノボ核酸合成(例えば、ホスホロアミダイト合成)に依拠する代わりに、成分の組み合わせ配列を備える、複数の識別子または核酸配列内のデジタル情報(例えば、2進コード)を符号化することができる。したがって、新しい方略は、情報記憶の第1の要求のために明確に異なる核酸配列(または成分)の第1のセットを産生してもよく、その後、後続の情報記憶要求のために同一の核酸配列(または成分)を再利用することができる。これらのアプローチは、情報・DNA符号化および書込プロセスにおける核酸配列のデノボ合成の役割を低減させることによって、DNAベースの情報記憶の費用を有意に削減することができる。また、各伸長核酸への各塩基の循環送達を要求する、ホスホロアミダイト化学またはテンプレートを含まないポリメラーゼベースの核酸伸長等の塩基毎の合成の実装と異なり、成分からの識別子構築を使用する、情報・DNA書込の新しい方法は、循環核酸伸長を使用しない場合がある、高度に並列化可能なプロセスである。したがって、新しい方法は、より古い方法と比較して、デジタル情報をDNAに書き込む速度を増加させてもよい。
(情報を符号化し、核酸配列に書き込むための方法)
【0054】
ある側面では、本開示は、核酸配列に書き込むための記号の配列をコード化するための方法を提供する。核酸配列に書き込むための記号の配列をコード化するための方法は、(a)1つまたはそれを上回るコードブックを使用して、記号の配列をコードワードに変換するステップと、(b)コードワードをコード化された記号の配列に解析するステップと、(c)コード化された記号の配列を複数の識別子にマップするステップと、(d)識別子ライブラリを生成するステップと、(e)1つまたはそれを上回るコードブックおよび複数の識別子の説明を識別子ライブラリに付加するステップとを含んでもよい。コード化された記号の配列のうちの各記号は、1つまたはそれを上回る識別子によって符号化されてもよい。
【0055】
図1は、情報を核酸配列に符号化し、情報を核酸配列に書き込み、核酸配列に書き込まれた情報を読み取り、読み取られた情報を解読するための概観プロセスを図示する。デジタル情報またはデータは、1つまたはそれを上回る記号の列に変換されてもよい。実施例では、記号は、ビットであり、各ビットは、「0」または「1」のいずれかの値を有する。各記号は、その記号を表すオブジェクト(例えば、識別子)にマップまたは符号化されてもよい。各記号は、明確に異なる識別子によって表されてもよい。明確に異なる識別子は、成分から構成される核酸分子であってもよい。成分は、核酸配列であってもよい。デジタル情報は、情報に対応する識別子ライブラリを生成することによって、核酸配列に書き込まれてもよい。識別子ライブラリは、デジタル情報の各記号に対応する識別子を物理的に構築することによって、物理的に生成されてもよい。デジタル情報の全てまたは任意の部分が、一度にアクセスされてもよい。実施例では、識別子のサブセットが、識別子ライブラリからアクセスされる。識別子のサブセットは、識別子を配列決定および識別することによって、読み取られてもよい。識別された識別子は、デジタルデータを解読するように、それらの対応する記号と関連付けられてもよい。
図1は、塩基毎の合成を使用することなく、情報を核酸配列に符号化し、情報を核酸配列に書き込み、核酸配列に書き込まれた情報を読み取り、読み取られた情報を解読するための概観プロセスを図示する。デジタル情報またはデータは、1つまたはそれを上回る記号の列に変換されてもよい。実施例では、記号は、ビットであり、各ビットは、「0」または「1」のいずれかの値を有する。各記号は、その記号を表す物理的オブジェクト(例えば、識別子)にマップまたは符号化されてもよい。各記号は、明確に異なる識別子によって表されてもよい。明確に異なる識別子は、成分から構成される核酸分子であってもよい。成分は、核酸配列であってもよい。デジタル情報は、情報に対応する識別子ライブラリを生成することによって、核酸配列に書き込まれてもよい。識別子ライブラリは、デジタル情報の各記号に対応する識別子をアセンブルすることによって、生成されてもよい。デジタル情報の全てまたは任意の部分が、一度にアクセスされてもよい。実施例では、識別子のサブセットが、識別子ライブラリから除去される。識別子のサブセットは、識別子を識別することによって、読み取られてもよい。識別された識別子は、デジタルデータを解読するように、それらの対応する記号と関連付けられてもよい。
【0056】
図1のアプローチを使用して、情報を符号化し、読み取るための方法は、例えば、ビットストリームを受信するステップを含むことができる。これは、識別子ランクを使用して、ビットストリームの中の各1ビット(「1」のビット値を伴うビット)を明確に異なる核酸識別子にマップするステップを含んでもよい。1のビット値に対応する(かつ0のビット値の識別子を除外する)識別子のコピーを備える、核酸サンプルプールまたは識別子ライブラリを構築する。サンプルを読み取るステップは、分子生物学方法(例えば、シークエンシング、ハイブリダイゼーション、PCR等)を使用するステップと、識別子ライブラリの中で表される識別子を判定するステップと、(再度、各識別子が対応するオリジナルビットストリームの中のビットを識別するように、識別子ランクを参照して)「1」のビット値をこれらの識別子に対応するビットに、「0」のビット値を他の場所に割り当て、したがって、情報を符号化されたオリジナルビットストリームに解読するステップとを含むことができる。
【0057】
N個の明確に異なるビットの列を符号化するステップは、可能性として考えられる識別子として、同等数の一意の核酸配列を使用することができる。情報符号化への本アプローチは、記憶する情報の新しいアイテム(N個のビットの列)毎に識別子のデノボ合成を使用してもよい。他の事例では、記憶する情報の新しいアイテム毎に識別子(数がNと同等である、またはそれ未満である)を新たに合成することのコストは、情報の新しいアイテムを符号化するステップが、事前合成(または事前加工)された識別子を機械的に選択し、ともに混合して、識別子ライブラリを形成するステップを伴い得るように、全ての可能性として考えられる識別子の1回限りのデノボ合成および後続の維持によって削減されることができる。他の事例では、(1)記憶する情報の新しいアイテム毎の最大N個の識別子のデノボ合成、または(2)記憶する情報の新しいアイテム毎のN個の可能性として考えられる識別子を維持し、そこから選択すること、もしくはそれらの任意の組み合わせのコストの両方は、核酸配列の数(N未満、ある場合には、Nよりもはるかに少ない)を合成および維持し、次いで、酵素反応を通してこれらの配列を修飾し、記憶する情報の新しいアイテム毎に最大N個の識別子を生成することによって、削減されてもよい。
【0058】
識別子は、読取、書込、読取、アクセス、コピー、および削除動作のために、合理的に設計および選択されてもよい。識別子は、書込エラー、突然変異、分解、および読取エラーを最小限にするように、設計および選択されてもよい。
【0059】
図2Aおよび2Bは、オブジェクトまたは識別子(例えば、核酸分子)内のデジタルデータを符号化する、「アドレスにおけるデータ」と称される、例示的方法を図式的に図示する。
図2Aは、個々の識別子が、識別子ランクを規定する単一の成分を、バイト値を規定する単一の成分と連結させることによって構築される、識別子ライブラリにビットストリームを符号化するステップを図示する。一般に、アドレス方法におけるデータは、2つのオブジェクト、すなわち、バイト値を識別する「バイト値オブジェクト」(または「データオブジェクト」)である、1つのオブジェクト、および識別子ランク(またはオリジナルビットストリームの中のバイトの相対位置)を識別する「ランクオブジェクト」(または「アドレスオブジェクト」)である、1つのオブジェクトを備えることによって、情報をモジュール式に符号化する、識別子を使用する。
図2Bは、各ランクオブジェクトが、成分のセットから組み合わせ的に構築され、各バイト値オブジェクトが、成分のセットから組み合わせ的に構築され得る、アドレス方法におけるデータの実施例を図示する。ランクおよびバイト値オブジェクトのそのような組み合わせ構築は、オブジェクトが単一成分のみから作製された場合(例えば、
図2A)よりも多くの情報が識別子に組み込まれることを可能にする。
【0060】
図3Aおよび3Bは、オブジェクトまたは識別子(例えば、核酸配列)を使用して、デジタル情報を符号化する別の例示的方法を図式的に図示する。
図3Aは、識別子が識別子ランクを規定する単一成分から構築される、識別子ライブラリにビットストリームを符号化するステップを図示する。特定のランク(またはアドレス)における識別子の存在は、「1」のビット値を規定し、特定のランク(またはアドレス)における識別子の不在は、「0」のビット値を規定する。本タイプの符号化は、単にランク(オリジナルビットストリームの中のビットの相対位置)を符号化する識別子を使用し、識別子ライブラリの中のこれらの識別子の存在または不在を使用して、それぞれ、「1」または「0」のビット値を符号化してもよい。情報を読み取り、解読するステップは、識別子ライブラリの中に存在する識別子を識別するステップと、「1」のビット値をそれらの対応するランクに割り当てるステップと、「0」のビット値を他の場所に割り当てるステップとを含んでもよい。
図3Bは、各可能性として考えられる組み合わせ構築がランクを規定するように、各識別子が成分のセットから組み合わせ的に構築され得る、例示的符号化方法を図示する。そのような組み合わせ構築は、識別子が単一成分のみから作製された場合(例えば、
図3A)よりも多くの情報が識別子に組み込まれることを可能にする。例えば、成分セットは、5つの明確に異なる成分を備えてもよい。5つの明確に異なる成分は、それぞれ、5つの成分のうちの2つを備える、10個の明確に異なる識別子を生成するようにアセンブルされてもよい。10個の明確に異なる識別子はそれぞれ、ビットストリームの中のビットの位置に対応するランク(またはアドレス)を有してもよい。識別子ライブラリは、ビット値「1」の位置に対応する、これら10個の可能性として考えられる識別子のサブセットを含み、長さ10のビットストリーム内のビット値「0」の位置に対応する、これら10個の可能性として考えられる識別子のサブセットを除外してもよい。
【0061】
図4は、情報を核酸配列に書き込むための概観方法を示す。情報を書き込むことに先立って、情報は、記号の列に変換され、複数の識別子に符号化されてもよい。情報を書き込むステップは、可能性として考えられる識別子を産生するための反応を設定するステップを含んでもよい。反応は、コンパートメントの中に入力物を堆積させることによって設定されてもよい。入力物は、核酸、成分、酵素、または化学試薬を含んでもよい。コンパートメントは、ウェル、管、表面上の位置、マイクロ流体デバイスの中のチャンバ、またはエマルション内の液滴であってもよい。複数の反応が、複数のコンパートメントの中で設定されてもよい。実施例では、1つまたはそれを上回る反応が、汎用ライブラリを生成するように設定されてもよい。反応は、続けて、プログラムされた温度インキュベーションまたは循環を通して識別子を産生してもよい。反応は、選択的または普遍的に除去(例えば、削除)されてもよい。反応はまた、1つのプールの中にそれらの識別子を収集するように、選択的または普遍的に中断、統合、および精製されてもよい。複数の識別子ライブラリからの識別子が、同一のプールの中に収集されてもよい。個々の識別子は、それが属する識別子ライブラリを識別するためのバーコードまたはタグを含んでもよい。代替として、または加えて、バーコードは、符号化された情報のためのメタデータを含んでもよい。補助的核酸または識別子もまた、識別子ライブラリとともに識別子プールの中に含まれてもよい。補助的核酸または識別子は、符号化された情報のためのメタデータを含む、または符号化された情報を難読化する役割を果たしてもよい。
【0062】
識別子ランクは、識別子の順序付けを判定するため方法を含むことができる。本方法は、全ての識別子およびそれらの対応するランクを伴うルックアップテーブルを含むことができる。本方法はまた、識別子を構成する全ての成分のランクを伴うルックアップテーブルと、これらの成分の組み合わせを備える任意の識別子の順序付けを判定するための機能とを含むことができる。そのような方法は、辞書式順序付けと称され得、辞書の中の言葉がアルファベット順に順序付けられる様式に類似し得る。アドレスにおけるデータ符号化方法では、識別子ランク(識別子のランクオブジェクトによって符号化される)が、ビットストリーム内のバイトの位置(識別子のバイト値オブジェクトによって符号化される)を判定するために使用されてもよい。例示的符号化方法では、現在の識別子の識別子ランク(識別子自体全体によって符号化される)が、ビットストリーム内の「1」のビット値の位置を判定するために使用されてもよい。
【0063】
識別子は、成分核酸配列を組み合わせ的にアセンブルすることによって構築されてもよい。例えば、情報は、分子の定義された群(例えば、組み合わせ空間)から核酸分子(例えば、識別子)のセットをとることによって、符号化されてもよい。分子の定義された群の各可能性として考えられる識別子は、層に分割され得る成分の事前加工されたセットからの核酸配列(例えば、成分)のアセンブリであってもよい。各個々の識別子は、固定順序で全層から1つの成分を連結させることによって構築されてもよい。例えば、M個の層が存在し、各層がn個の成分を有する場合には、最大C=nM個の一意の識別子が、構築されてもよく、最大2C個の異なる情報のアイテムまたはC個のビットが、符号化および記憶されてもよい。例えば、メガビットの情報の記憶は、1×106個の明確に異なる識別子またはサイズC=1×106の組み合わせ空間を使用してもよい。本実施例における識別子は、異なる方法で編成される種々の成分からアセンブルされてもよい。アセンブリは、それぞれn=1×103個の成分を含有する、M=2つの事前加工された層から作製されてもよい。代替として、アセンブリは、それぞれn=1×102個の成分を含有する、M=3つの層から作製されてもよい。本実施例が図示するように、より多数の層を使用して、同一量の情報を符号化することは、成分の合計数がより小さくなることを可能にし得る。より少数の全成分を使用することは、書込コストの観点から有利であり得る。
【0064】
実施例では、それぞれ、xおよびy個の核酸配列(例えば、成分)をそれぞれ伴う、2つの層XおよびYから始めることができる。Xからの各核酸配列は、Yからの各核酸配列にアセンブルされることができる。2つのセットの中で維持される核酸配列の総数は、xおよびyの総和であってもよいが、核酸分子の総数、故に、生成され得る可能性として考えられる識別子は、xおよびyの積であってもよい。Xからの配列が、任意の順序でYの配列にアセンブルされることができる場合、さらに多くの核酸配列(例えば、識別子)が、生成されることができる。例えば、生成される核酸配列(例えば、識別子)の数は、アセンブリ順がプログラム可能であり得る場合、xおよびyの積の2倍であり得る。生成され得る全ての可能性として考えられる核酸配列の本セットは、XYと称され得る。XYの中の一意の核酸配列のアセンブルされた単位の順序は、明確に異なる5′および3′末端を伴う核酸を使用して制御されることができ、制限消化、ライゲーション、ポリメラーゼ連鎖反応(PCR)、およびシークエンシングが、配列の明確に異なる5′および3′末端に関して起こってもよい。そのようなアプローチは、それらのアセンブリ生成物の組み合わせおよび順序内の情報を符号化することによって、N個の明確に異なるビットを符号化するために使用される核酸配列(例えば、成分)の総数を削減することができる。例えば、100ビットの情報を符号化するために、10個の明確に異なる核酸分子(例えば、成分)の2つの層が、10*10または100個の明確に異なる核酸分子(例えば、識別子)を産生するように固定順序でアセンブルされてもよい、または5個の明確に異なる核酸分子(例えば、成分)の1つの層および10個の明確に異なる核酸分子(例えば、成分)のもう1つの層が、100個の明確に異なる核酸分子(例えば、識別子)を産生するように任意の順序でアセンブルされてもよい。
【0065】
各層内の核酸配列(例えば、成分)は、一意の(または明確に異なる)配列、または中央のバーコード、一方の端部上の共通ハイブリダイゼーション領域、および別の他の端部上の別の共通ハイブリダイゼーション領域を含んでもよい。バーコードは、層内の全配列を一意に識別するために十分な数のヌクレオチドを含有してもよい。例えば、典型的には、バーコード内の塩基位置毎に、4つの可能性として考えられるヌクレオチドが存在する。したがって、3塩基バーコードは、43=64個の核酸配列を一意に識別してもよい。バーコードは、無作為に生成されるように設計されてもよい。代替として、バーコードは、識別子の構築化学またはシークエンシングに複雑な事態を生成し得る配列を回避するように設計されてもよい。加えて、バーコードは、それぞれが他のバーコードから最小ハミング距離を有し、それによって、塩基分解突然変異または読取エラーがバーコードの適切な識別に干渉し得る可能性を減少させるように、設計されてもよい。
【0066】
核酸配列(例えば、成分)の一方の端部上のハイブリダイゼーション領域は、各層内で異なり得るが、ハイブリダイゼーション領域は、層内の要素毎に同一であり得る。隣接する層は、それらの成分上に、それらが相互と相互作用することを可能にする相補的ハイブリダイゼーション領域を有するものである。例えば、層Xからの任意の成分は、相補的ハイブリダイゼーション領域を有し得るため、層Yからの任意の成分に付着することが可能であり得る。反対端上のハイブリダイゼーション領域は、第1の端部上のハイブリダイゼーション領域と同一の目的を果たしてもよい。例えば、層Yからの任意の成分は、一方の端部上の層Xの任意の成分および反対端上の層Zの任意の成分に付着してもよい。
【0067】
識別子を構築するための、それぞれ異なる層(例えば、X、Y、またはZ)からの2つまたはそれを上回る成分の組み合わせアセンブリは、ポリメラーゼ連鎖反応(PCR)、ライゲーション、または組み換えを使用して、達成されてもよい。一般に、2つまたはそれを上回る明確に異なる核酸配列を連結させるための任意の方法が、識別子ライブラリの中の識別子を構築するために使用されてもよい。ある事例では、可能性として考えられる識別子の組み合わせ空間の全てまたは一部は、デジタル情報が符号化される、または書き込まれ得る前に、構築されてもよく、次いで、書込プロセスは、すでに存在しているセットから(標的情報を符号化する)識別子を機械的に選択およびプールするステップを伴ってもよい。他の事例では、識別子は、データ符号化または書込プロセスの1つまたはそれを上回るステップが起こった後に(すなわち、情報が書き込まれるにつれて)、構築されてもよい。識別子を構築するための方法は、限定されないが、成分を重複延長PCRと連結させるステップ(またはポリメラーゼ循環アセンブリ)、付着末端ライゲーション、リコンビナーゼアセンブリ、テンプレート指向ライゲーション(または架橋鎖ライゲーション)、バイオブリックアセンブリ、ゴールデンゲートアセンブリ、ギブソンアセンブリ、およびリガーゼ循環反応アセンブリを含む。識別子を構築するための方法はまた、親核酸配列(または親識別子)から核酸配列(例えば、成分)を削除するステップ、または核酸配列(例えば、成分)を親識別子の中に挿入するステップを含んでもよい。実施例では、識別子は、複数の成分から構成される親識別子から生成されてもよい。成分は、一意の識別子を生成するように、親識別子から切断される、またはその中に挿入されてもよい。親識別子を修飾するための酵素は、二本鎖特異的ヌクレアーゼ、一本鎖特異的ヌクレアーゼ、およびCas9を含んでもよい。
【0068】
酵素反応が、異なる層からの成分をアセンブルするために使用されてもよい。アセンブリは、各層の成分が隣接する層の成分のための具体的ハイブリダイゼーションまたは付着領域を有するため、ワンポット反応において起こることができる。例えば、層Xからの核酸配列(例えば、成分)X1、セットYからの核酸配列Y1、およびセットZからの核酸配列Z1は、アセンブルされた核酸分子(例えば、識別子)X1Y1Z1を形成してもよい。加えて、複数の核酸分子(例えば、識別子)が、各層からの複数の核酸配列を含むことによって、1つの反応においてアセンブルされてもよい。例えば、前の実施例のワンポット反応にY1およびY2の両方を含むことは、2つのアセンブルされた生成物(例えば、識別子)、すなわち、X1Y1Z1およびX1Y2Z1を生じさせてもよい。本反応多重化は、複数の識別子が物理的に構築され得る場合に、書込時間を加速するために使用されてもよい。核酸配列のアセンブリは、約1日、12時間、10時間、9時間、8時間、7時間、6時間、5時間、4時間、3時間、2時間、または1時間未満、もしくはそれと等しい時間周期で実施されてもよい。符号化されたデータの正確度は、少なくとも約90%、95%、96%、97%、98%、99%に等しい、またはそれを上回り得る。
【0069】
情報を核酸配列に書き込むステップは、情報を記号の列に解析するステップと、記号の列を一意の識別子にマップするステップと、記号の列に対応する識別子を備える、識別子ライブラリを生成するステップとを含んでもよい。識別子ライブラリは、識別子ランク毎に識別子を備えてもよい、または選択された記号値(例えば、0または1)に対応する場合、識別子ランクの識別子を除外してもよい。情報は、記号の列を備えてもよい。実施例では、記号の列は、記号の固定有限アルファベットからとられる記号を備える。記号の列は、第2の記号の配列に変換されてもよい。第2の記号の配列は、形式的データ構造を備えてもよい。第2の記号の配列は、ワードに解析されてもよい。ワードは、コードブックを使用して、コードワードに変換されてもよい。コードブックは、明示的コードブックまたは暗示的コードブックであってもよい。コードワードは、第3の記号の列に解析されてもよい。第3の記号の列のうちの各記号は、一意の識別子にマップされてもよい。識別子のセット(例えば、識別子ライブラリ)は、各記号が1つまたはそれを上回る識別子内で符号化され得るように、列挙もしくは定義されてもよい。識別子のセット(例えば、識別子ライブラリ)は、1つまたはそれを上回るコードブック、データ構造、および組み合わせ空間に関連する情報を含む、もしくはそれに付加させてもよい。
【0070】
形式的データ構造は、ツリー、トライ、テーブル、セット、キー値ディクショナリ、および多次元ベクトルのセットを含んでもよい。形式的データ構造は、限定されないが、範囲クエリ、ランククエリ、カウントクエリ、メンバーシップクエリ、最近傍クエリ、合致クエリ、選択クエリ、もしくはそれらの任意の組み合わせを含む、1つまたはそれを上回るクエリタイプによって、クエリを行われることが可能であり得る。形式的データ構造を備える第2の記号の配列は、ビットストリームを符号化するために使用される識別子の数を最小限にするように、ワードの配列に解析されてもよい。ソースビットストリームの各ビットは、組み合わせ空間内の識別子と関連付けられてもよい。
【0071】
識別子の組み合わせ空間は、T個の全成分のライブラリから1つまたはそれを上回る構築アルゴリズムによって産生され得る、一意の識別子を備えてもよい。一実施形態では、構築アルゴリズムは、i番目の層がNi個の成分を含有する、M個の層を備えるデカルト積方式を使用して、識別子を産生してもよい。組み合わせ空間内の識別子の数は、層の数、各層内の成分の数、および識別子をアセンブルするために使用される方法に依存し得る。
図5は、M個の層と、各層内のN個の成分とを備える、積方式を使用する、識別子の例示的組み合わせ空間を図示する。本実施例では、M=4およびN=2である。
図5のアイテム501-504は、本実施例では、層を示す。アイテム511および512は、本実施例では、層1内の2つの成分を示す。同様に、アイテム509-510、507-508、および505-506は、層2、3、および4に属する成分を示す。成分は、本方式から生じる16個の明確に異なる識別子の組み合わせ空間を図示するように、反復パターンでレイアウトされる。組み合わせ空間内で各識別子を生成するための組み合わせアルゴリズムの事例におけるステップは、アイテム513に示される樹形図として図示され得る。樹形図は、M個の層に分割されてもよい。各層は、その層内の成分に利用可能な選択肢を表すノードを含有する。例えば、層1では、「a」と標識されたノードから生じる2つの矢印は、アイテム511および512によって表される層1内の2つの成分の選択を図示する。層2では、ノードbから生じる矢印は、層1内の成分511の選択が条件とされた、要素509および510として示される層2内の成分の選択を表す。各ノードから生じる左右の矢印は、アイテム515内の層に図示される成分のパターンに対応する。各ノードから生じる矢印は、積方式に関して定義される成分ランキングに従って順序付けられる。「a」と標識された最上ノードから開始して底部ノードのうちのいずれかまで樹形図を下る各パスは、明確に異なる識別子に対応する。1つのそのようなパスは、アイテム514によって図示される。本実施例では合計16個である、全ての識別子の組み合わせ空間は、アイテム518によって示される。アイテム517は、本組み合わせ空間を使用して符号化され得る、例示的ビットストリーム内の1つのビット値を示す。ビットストリーム内の各ビットは、ビットの下に描写される、明確に異なる識別子に対応する。一実施形態では、ビットの値は、構築された識別子ライブラリからの識別子の包含または除外によって表される。ビットストリームを符号化するために、値「1」を有するビットに対応する全ての識別子が、構築およびプールされてもよい一方で、値「0」を伴うビットに対応するものは、除外されてもよい。除外された識別子は、濃いオーバーレイでマークされ、アイテム519は、「0」の値を有する第10のビットに対応する、1つのそのような除外された識別子を示す。
【0072】
情報は、DAA方式と略される、アドレス方式におけるデータを用いて、識別子に符号化されてもよい。ソースビットストリームは、固定長Lのワードに分割されてもよい。ビットストリームは、次いで、Lビット記号(例えば、各記号がLビットを備える)の記号ストリームであると解釈されてもよい。一意の識別子は、記号ストリーム内の記号毎に(例えば、Lビットを備える記号毎に)構築され、ともにプールまたはグループ化されてもよい。一実施形態では、識別子は、各層内にN個の成分を伴うM個の層を備える、積方式を使用して、構築されてもよい。各識別子は、2つの部分(またはオブジェクト)に分解されてもよい。第1の部分は、最大k<M個の層を備えてもよく、記号のアドレスに関する情報を提供してもよい。一意の識別子の第2の部分は、M-k個の層からの成分を備えてもよく、記号の値に関する情報を提供してもよい。代替として、または加えて、ソースビットストリームは、長さがLビットのワードのストリームに分割されてもよい。コードブックが、4つの塩基A、T、C、およびGを備える、核酸アルファベットにわたって、ワードをコードワードにマップするために使用されてもよい。各コードワードは、4つの塩基から構築されてもよい。Lビットワード毎の識別子は、対応する合成されたコードワードを、そのコードワードのアドレスを規定する成分のアセンブリにアセンブルまたは連結させることによって、構築されてもよい。
【0073】
ソースビットストリームを識別子ライブラリに書き込むことに先立って、ソースビットストリームは、中間ビットストリームに符号化されてもよい。ソースビットストリームは、ワードに分割されてもよい。別のコードワードが、ワードを置換するように選定されてもよい。コードワードの長さは、それが対応するワードの長さを上回る、それと等しい、またはそれよりも小さくあり得る。一実施形態では、ある数N(X)のY記号を含有する各ワードXは、より少数または多数のY記号を含有するコードワードと置換されてもよい。例えば、N(X)個の「1」記号を含有するワードは、N(X)よりも少ない「1」記号を含有するコードワードと置換されてもよい。例示的符号化方法では、これは、与えられたデジタル情報を符号化するために使用される、識別子ライブラリサイズの縮小をもたらし得る。物理的にアセンブルされた識別子の数を最小限にすることは、情報を識別子に書き込み、識別子内で符号化される情報を読み取るための時間を短縮し得る。
図6は、拡張コードワードを使用してビットストリームを書き込むために構築される識別子の数を最小限にするための例示的方法を図式的に図示する。ビットストリームは、ワードに分割されてもよく、本実施例では、各ワードは、2ビットの固定長であってもよい。2ビットを備えるワードのリストは、「00」、「01」、「10」、および「11」を含む。各ワードは、ビットストリームの中で0回またはそれを上回って出現してもよい。例えば、ビットストリーム「0110101010011101」は、2ビットワード{01,10,10,10,10,01,11,01}に分割されてもよく、「00」ワードは、0回出現し、「01」ワードは、3回出現し、「10」ワードは、4回出現し、「11」ワードは、1回出現する。本ワードの配列の中の「1」記号の総数は、9であり、符号化方法が、ビットストリームを表すために9つの明確に異なる識別子のアセンブリを余儀なくさせ得ることを示す。しかしながら、ワードは、より少ない識別子が与えられたビットストリームを符号化するために使用され得るように、再コード化されてもよい。
【0074】
核酸に符号化されるデジタル情報は、最初に、記号の配列に変換され、次いで、1つまたはそれを上回るクエリタイプに従う形式的データ構造に編成されてもよい。本データ構造は、次いで、第2の記号の列に直列化されてもよい。本第2の記号の列は、エラー保護、暗号化、書込速度最適化、もしくは識別子ライブラリサイズ最小限化を含む、1つまたはそれを上回る目的のために、1つまたはそれを上回るコードブックを使用してコード化されてもよい。
図6は、識別子ライブラリサイズを最小限にするための例示的方法を示す。アイテム620は、それに関する表記が
図5に説明された、組み合わせ空間の樹形図表現を示す。本実施例では、アイテム621は、16個のビット値のビットストリームからのビット値を示す。アイテム622は、値「1」を伴うビットストリーム内のビット値に対応する、識別子のセットを示す。したがって、そのままで、本符号化は、値「1」を伴う9つのビットに対応する、9つの明確に異なる識別子のアセンブリを要求し得る。しかしながら、本識別子ライブラリのサイズは、新しい3ビットコードワードが、より少ない「1」記号を有し、より小さい識別子ライブラリにつながるように、2ビットワードを3ビットコードワードにマップするコードブックを使用して、ビットストリームを再符号化することによって、縮小されてもよい。
【0075】
本再符号化方法の実施例では、ビットストリームは、8つの順次隣接2ビットワードに分割されてもよく、各2ビットワードの発生の数は、記録されてもよい。本実施例では、これらのカウントは、カウント列の下で表623に示される。可能性として考えられる3ビットコードワードの全ては、行列を形成するように列として列挙され、セル(i,j)は、2ビットワードiを明確に異なる3ビットコードワードjにマップすることのコストを含有する。本コストは、コードワード内の「1」記号の数およびオリジナルビットストリーム内のワードの発生の数の積をとり、本ワード・コードワード代用を使用して構築されるために使用され得る、識別子の数を算出することによって、算出されてもよい。例えば、ワード「01」は、オリジナビットストリーム内で3回発生する。これがコードワード「111」にマップされる場合には、再コード化されたビットストリーム内の本代用に起因する「1」記号の数は、3から12まで増加してもよい。これらのコストは、全てのそのような可能性として考えられる代用に関して計算される。アイテム623によって示される、そのように取得される行列は、加重二部グラフに変換されてもよく、最小加重完全合致が、Kuhn-Munkresアルゴリズムのようなアルゴリズムを使用して取得されてもよい。最小完全合致は、全ての選定されたセルの総和が最小限にされ得るように、行列623内の各行および列の中の正確に1つのセルを選定することと同等であり得る。1つのそのような最小再符号化における各セルのコストは、共有セルとともに表623に示される。本最小再符号化では、ワード「00」は、コードワード「011」に、「01」は「001」に、「10」は「000」に、「11」は「010」に、マップされる。そのようにコード化される新しいビットストリームは、合計4つの「1」記号を有する。コストは、したがって、オリジナルビットストリームにおける9から、新しい再符号化されたビットストリームにおける4まで削減されてもよい。新しいビットストリームは、アイテム624によって樹形図に示される3ビットコードワードを備える。各3ビットコードワードは、アイテム625によって描写される、2ビットコードワードのオリジナルセットからの2ビットコードワードを一意にマップする。アイテム626は、アセンブルされる新しい識別子ライブラリを示す。
【0076】
デジタル情報を符号化する記号の選択は、符号化エラーの検出および/または訂正を可能にすることができる。記号ストリームを再符号化し、オリジナル列の中の記号から算出されるエラー保護記号を含むことは、核酸を使用して記号ストリームを書き込むプロセス中に遭遇されるエラーの検出または訂正を可能にすることができる。一実施形態では、記号ストリームは、固定長ワードに分割されてもよく、1つまたはそれを上回るエラー保護記号列は、各そのようなワードから算出され、再コード化された列を取得するようにワードに付加されてもよい。例えば、K個の識別子の固定長ブロックの中で構築される識別子の数が、数えられてもよい。本カウントが偶数である場合には、余剰識別子が、ブロックに追加されてもよく、カウントが奇数である場合には、そのような余剰識別子は、追加されなくてもよい。組み合わせ空間は、これらの余剰識別子が適応され得るように選定されてもよい。そのような識別子のブロックが読み取られるとき、次いで、識別子が誤って省略される、または余剰識別子が誤って追加される、任意の書込エラーは、各ブロックが偶数の識別子を有するという要求される性質を無効にし得るため、そのような事象が検出されてもよい。別の実施形態では、K個の識別子の固定長ブロックの中の識別子の数が、数えられ、カウントを差し引いたKが算出される。エラー保護値と呼ばれる、本値は、ブロックに付加され、符号化されてもよい。組み合わせ空間は、これらのエラー保護値に対応する識別子が適応され得るように選定されてもよい。この場合、ブロックおよびエラー保護値が読み取られるとき、次いで、識別子が誤って省略された、任意のエラーが検出されてもよい。省略された識別子がオリジナルブロックの中にあり得る場合には、これは、不一致エラー保護値によって反映されてもよい。省略された識別子がエラー保護値の中にある場合には、より低い値が、エラーがエラー保護値にあり得ることを示してもよい。ブロックおよび値の両方にエラーがある場合には、不一致は、エラーの検出につながり得る。別の実施形態では、記号ストリームは、W個の記号の固定長ワードに分割されてもよい。各ワードは、次いで、各コードワードが固定数Vの識別子の構築につながるように、コードワードに再マップされてもよい。
図7は、本一様な加重コードワードエラー検出方式を図式的に図示する。アイテム727は、
図7の樹形図に示されるビットストリームを符号化するために構築され得る、識別子ライブラリを示す。オリジナルビットストリームでは、任意の固定ワード長Wに関して、識別子の数は、一定ではなく、例えば、W=2に関して、最初の6つのワードのそれぞれの中に1つの識別子、および第2のワードの中に2つの識別子が存在し得る。表727は、長さW=2のワードを長さV=4のコードワードにマップする、再符号化用の例示的コードブックを示す。例示的コードブックは、それぞれ、ワード「00」、「01」、「10」、および「11」を、コードワード「0011」、「0101」、「0110」、および「1001」にマップする。全てのコードワードが正確に2つの「1」記号を有するため、およびワードおよびコードワード長が固定されるため、結果として生じるビットストリームは、4つの記号の長さの全コードワードの中に正確に2つの「1」記号を有する。これは、730に示される再符号化されたビットストリームに関する例示的樹形図に図示される。アイテム729は、アイテム728によって示されるもの等の明確に異なるコードワードにマップするワードを示す。識別子ライブラリの中で予期される識別子の固定率および数により、任意の欠落している識別子エラーが、解読時に検出されることができる。
【0077】
書込時間は、多値ブール関数であると入力ビットストリームを解釈することによって、最小限にされてもよい。一実施形態では、入力ビットストリームは、それに書込時間最小限化を受けさせる前に、固定長Lのブロックに分割されてもよい。入力ビットストリームは、ソースビットストリームを表す多値代数式を取得するように、espresso-mvまたはmvsis等の発見的論理最小限化アルゴリズムを受けてもよい。一実施形態では、入力ビットストリームは、識別子を構築するためのM層積方式を使用して、符号化されてもよい。本実施形態では、入力ビットストリームは、単一のブール出力を伴うM入力多値ブール関数として解釈されてもよい。ブール関数に関して、関数の1セットは、関数が「1」の値を出力する、関数への全ての入力のセットとして定義されてもよい。論理最小限化からの技法を使用して、ブール関数は、積和式を備える、代数式に変換されてもよい。取得される式は、ソースビットストリームの1セットの中の全識別子を含む。式の中の各項は、単一の反応コンパートメント(例えば、パーティションまたは反応容器)の中で実行され得る(多重方式で構築される)識別のセットに変換されてもよい。取得される式は、使用される反応コンパートメントの数を最小限にし、単一のコンパートメントの中でアセンブルされる識別子の数を最大限にするために使用されてもよい。式はまた、例えば、書込時間が設定する反応コンパートメントの数に比例し得る場合、識別子アセンブリ反応を設定するために使用される合計時間を最小限にするために使用されてもよい。類似方法が、ソースビットストリームからのビットのサブセットにクエリを行うために使用される反応を設定するために、使用されてもよい。
【0078】
図8は、反応セット最小限化のための例示的方法の出力を図式的に示す。全てのNiの積が少なくともLであるように、層iが、それぞれ、Ni個の成分を有する、長さLのビットストリームおよびM個の層を用いた積方式を考慮されたい。層内の各成分は、0~Ni-1の範囲内の整数で標識されてもよい。長さLのビットストリームは、M個の変数のブール関数Fとして解釈されてもよく、各変数Viは、0~Ni-1のNi個の値のうちの1つをとってもよい。これらの変数値の全ての組み合わせは、M次元ベクトルとして表されてもよく、変数Viの値は、ベクトルの第i次元内の整数として表されてもよい。これらのベクトルを入力として、およびビットストリーム内の各ビット値を出力として使用し、ブール関数Fが、定義されてもよい。積方式がLよりも大きいサイズの組み合わせ空間を有する場合には、これらの付加的入力ベクトルにおけるFの出力は、明確に異なる「無関係」値であると定義されてもよい。
【0079】
図8は、アイテム832に示されるような長さ64ビットのビットストリームとして表現可能である、アイテム831に描写される情報が、各層内に13および5個の成分を伴う2つの層を備える、積方式を通して符号化される、実施例を示す。定義されるブール関数Fは、各ベクトルが2次元であり得る、65個の可能性として考えられる入力ベクトルを備える。各次元変数V1およびV2は、13および5個の値をとり、V1は、0~12の範囲内の値をとり、V2は、0~4の範囲内の値をとる。全ての可能性として考えられる変数値の組み合わせのセットは、樹形図として描写され得る。上記で定義されるような関数Fの出力が「1」である場合もまた、矢印のサブセットを備える、樹形図として描写され得る。本樹形図は、
図8の上部に示される。Fが値「1」をとる、変数値の組み合わせのセットは、ビットストリームを符号化するように構築されることが要求される識別子のセットと一致する。したがって、樹形図の根元から樹形図に描写される個々の値までのパスは、各識別子をアセンブルするために要求される反応のセットと一致する。本実施例では、アイテム833および834によって示される矢印は、符号化されるビットストリーム内の3つのビットに対応するパスの1つのセットを示す。これら3つのパスはまた、これら3つのビットを符号化するためにアセンブルされることが要求される、3つの識別子に対応する。Fのこれらの「1」値を表すベクトルが、値0、3、および4をとって、それらの2次元で異なるため、それらの対応する識別子もまた、第2の層内で異なり、第2の層内で第0、第3、および第4の成分をとる。3つ全ての識別子は、それらの第1の層内で、値V1=10に対応する同一の成分を有する。その結果として、3つ全ての識別子は、成分V1=10およびセット{0,3,4}からの成分V2との単一の反応においてアセンブルされてもよい。組み合わせ(10,0)、(10,3)、および(10,4)の結果として生じるセットは、構築される識別子の正しいセットに対応する。樹形図から、13個のそのような反応セットが、与えられたビットストリームを符号化するために要求される。しかしながら、樹形図は、因数ツリーのそれぞれの中の全ての識別子が単一反応においてアセンブルされ得るように、発見的問題解決法誘導型検索を使用して、樹形図のセットに分解されてもよい。例えば、アセンブルされる全ての識別子がFの「1」値に対応するように、ある値V2=vの代わりにV1の全ての値がともにグループ化される、貪欲な発見的問題解決法が、使用されてもよい。アイテム835は、V2=0およびV1={3,4,5}である、値のセットを示す。別の実施形態では、複数の発見的解決法が、Fの「1」値を網羅する最小セットを取得するように組み合わせられてもよい。別の実施形態では、論理最小限化からの発見的技法[Brayton et al. Logic Minimization Algorithms for VLSI Synthesis Kluwer Academic Publishers(参照することによって本明細書に完全に組み込まれる)]が、反応セットの数を最小限にするために使用されてもよい。標識「発見的検索誘導型最適化解決法」の下に示される5つの樹形図はともに、Fの全ての「1」値を網羅する。結果として、5つの反応セットが、オリジナル樹形図内の13個のコンパートメントではなくて、5つの別個のコンパートメント内で設定するために使用されてもよい。
【0080】
各記号(例えば、ビットストリーム内のビット)は、組み合わせ空間内の一意の識別子のうちの1つまたはそれを上回るものにマップされてもよい。識別子のセットが、判定され、コンピュータメモリの中で列挙される、または識別子ライブラリの中へ識別子のセットを組み合わせ的にアセンブルすることによって生成されてもよい。デジタル情報が識別子ライブラリに符号化されるように提示されるとき、一実施形態では、デジタル情報の中の各記号は、組み合わせ空間内の明確に異なる識別子にマップされることができる。所与のビットストリームを、組み合わせ方式から生成され、ある選定された数の成分を備える、組み合わせ空間にマップする膨大な数の方法(例えば、積方式または順列方式、もしくはある他の方式)が存在し得る。これらのマッピングのうちのいくつかは、符号化されたデータが後にクエリを行われるときに、クエリの数を削減することに有益であり得る。具体的には、組み合わせ空間の中へ記号をマップした後にオリジナル記号ストリーム内の記号の局所性を留保するマッピングは、クエリに回答するために使用されるアクセスの数を削減することに有用であり得る。アクセスは、識別子ライブラリまたは識別子のプールから、アクセス配列と称される単一の核酸配列によって表される、識別子のセットを選択するための要求であってもよい。一実施形態では、識別子が成分からアセンブルされるとき、単一のアクセスを用いて、特定の成分を備える全ての識別子のセットにアクセスしてもよい。成分の核酸配列は、本実施例では、アクセス配列であってもよい。オリジナル記号の局所性を留保するマッピング群は、等尺性マッピングと呼ばれる。また、単一のデジタルメッセージが、その独自の成分ライブラリをそれぞれ伴う、2つの直交組み合わせ空間にマップされてもよく、同一のデジタルメッセージを表す、2つの直交識別子ライブラリをもたらす。2つのマッピングは、クエリの2つのセットへのアクセスの数を削減することに有益であり得る。複数のマッピングを使用する、本タイプの符号化は、マルチ符号化と呼ばれ得、マッピングの数が2つのマッピングに固定され得るときに、二重符号化と呼ばれ得る。
【0081】
図9は、識別子へのアドレスの等尺性マッピングおよびデータの二重符号化を図式的に図示する。デジタルメッセージを符号化するプロセスは、情報を記号の配列に変換するステップと、記号の配列を、1つまたはそれを上回るクエリタイプに従う形式的データ構造を伴う第2の記号の配列に変換するステップとを含んでもよい。
図9は、符号化されるデジタル情報がアイテム936に示される2次元画像であり得る、実施例を示す。アイテム937は、影付きの円が画像の右下象限を表す、画像の概略図を示す。記号のオリジナル配列、この場合、ビット値は、それらが提示される順序で符号化されてもよい。本順序は、アイテム938に描写され、積方式に関する結果として生じる樹形図は、アイテム939に描写される。画像の右下象限が読み取られる場合には、これは、符号化されたビットストリーム内の影付きの円にクエリを行うことをもたらし得る。組み合わせ空間では、これは、4つの識別子に関するクエリに変換してもよい。本実施例では、積方式における各層が、それぞれ2つの成分を有すると仮定して、2つのクエリ、すなわち、成分101
*から始まる全ての識別子および成分111
*から始まる全ての識別子に関するクエリが、使用されてもよく、
*は、その層内の任意の成分を伴う識別子が、クエリの回答として返され得ることを表す。画像の近傍領域が、組み合わせ空間内で近傍にない識別子にマップされるように、画像の下象限が組み合わせ空間にマップされ得るため、2つのクエリが使用される。
【0082】
アイテム941は、画像の近傍領域が近傍識別子にマップされる、代替的マッピングを示す。これは、等尺性(すなわち、距離留保)マッピングと呼ばれ得る。この場合、1つのクエリが使用されてもよく、11**から開始する全ての識別子が、クエリに回答するために十分である。これは、多列テーブル、トライ、ツリー、セット、およびベクトルを含む、多次元データ構造に一般化されてもよい。より一般的には、積方式は、最適化および並列化され得る多くのタイプのデータのクエリにより、一意に多次元的な方法でデータを符号化する。アイテム945は、4つの次元X、Y、Z、およびWを備える、多次元データセットを示す。X、Y、Zはそれぞれ、本実施例では、2つの値をとり、第4の次元Wは、4つの値をとる。各4次元ベクトルは、本実施例では、単一のビット値に対応する。概して、これは、整数値に拡張されてもよい。アイテム946は、4層積方式を使用して、本32ビットのビットストリームを符号化するための樹形図を示す。具体的には、積方式構造は、オリジナルデータ構造の次元性を留保し、次元X、Y、Zは、2進層にマップされてもよく、4つの値をとる次元Wは、4つの成分を伴う層にマップされてもよい。さらに、アイテム947および948は、同一の組み合わせ空間へのデータセットの2つのマッピングを示す。2つのマッピングは、組み合わせ空間内の識別子の近位領域にマップされるデータ構造の領域が異なる。アイテム947のマッピングでは、X=0、Y=0およびX=1、Y=1に対応するデータ領域が、近位にない識別子にマップされる一方で、アイテム948のマッピングでは、それらは、近位識別子にマップされる。アイテム949は、影のないビット値に関する可能性として考えられるクエリを示す。アイテム952は、アイテム947に示されるマッピングを使用して、これらのビット値を読み出すために使用される成分アクセスの配列を示す。本実施例では、クエリは、層W内の成分0に関して、単一のアクセスを使用して回答されてもよい。アイテム50は、より複雑なクエリを示し、これは、成分W=0およびY=1に関して、2つの並列アクセスによって回答されてもよく、その後に、成分X=1への直列アクセスが続く。これは、アイテム950の中の全ての影のない値に関してクエリに回答する。アイテム951は、より複雑なクエリを示す。アイテム947のマッピングを使用して、本クエリは、4つを上回るアクセスを要求し得る。しかしながら、アイテム948のマッピングを使用して、本クエリは、1つのアクセスを使用して回答されてもよく、その後に、単一の分解ステップが続く。分解ステップは、具体的パターンを備える全ての識別子を削除する。本実施例では、パターンは、層Wからの成分1である。このようにして、組み合わせ空間へのデータ構造のマッピングは、データクエリに回答することの複雑性を低減させ得る。いくつかの実施形態では、同一のデータ構造の複数のマッピングが、成分の直交または区別可能なセットを使用して、識別子の単一のプール内で符号化されてもよい。これは、アイテム947および948に示されるマッピングに描写され、2つの識別子ライブラリは、アイテム945に示されるデータ構造を符号化してもよく、クエリは、各マッピングによって使用されるアクセスの数に応じて、いずれかのマッピングを使用して回答されてもよい。
【0083】
識別子ライブラリに符号化するために提示されるデジタル情報は、不正解読から保護され得る情報を含有してもよい。本明細書に説明される、情報をDNAに書き込む方法は、符号化された情報の不正解読に対する付加的レベルの保護を提供してもよい。暗号化、認可、難読化、および破壊のための生化学的方法が、符号化された情報を保護するために使用されてもよい。一実施形態では、情報は、識別子ライブラリの中へのデコイ識別子の包含によって符号化および難読化されてもよい。デコイ識別子は、符号化のために提示されるオリジナルデジタル情報の一部であり、デコイキーを保持していないと、解読のプロセスを法外に高価かつ解決困難にするように含まれる、いかなる情報も符号化しない識別子であってもよい。デコイキーは、成分を備える識別子を選択することが、オリジナル識別子ライブラリを構成する識別子のうちのいくつかもしくは全てを単離し得るように、または逆に、成分を備える全ての識別子を削除することが、いくつかもしくは全てのデコイ識別子を削除し得るように、成分の配列のセットであってもよい。
【0084】
図10は、不正解読に対する保護のために符号化および解読を隠すための例示的方法を図式的に図示する。ビットストリームが、一意の識別子に符号化されてもよく、識別子ライブラリが、アセンブルされてもよい。付加的核酸配列が、識別子ライブラリに追加されてもよい。付加的または補助的核酸配列は、類似長であってもよく、情報を解読するためのキーがないと、一意の識別子と区別不可能であり得る。情報を解読するステップは、識別子のプールに、一意の識別子が補助的核酸配列から抽出されるまで、標的核酸配列を選択および/または分解するステップのうちの1つまたはそれを上回るものを受けさせるステップを含んでもよい。アイテム1056は、各層が2つの成分を含有する、5層積方式を使用する、ビットストリームの符号化を描写する樹形図を示す。オリジナルビットストリームは、アイテム1057によって示され、値を包囲する円として示される、16個のビットを備える。しかしながら、本ビットストリームは、16個のビットを符号化するために使用されるよりも大きい組み合わせ空間内で符号化され、残りの定義されていない記号は、例えば、アイテム1058によって示されるような空白の円として示される。示される5層2進方式は、32個の明確に異なる識別子の組み合わせ空間を可能にする。オリジナルビットストリーム内の「1」ビット値に対応する識別子のうちのいくつかは、アイテム1060に示される。オリジナルビットストリーム内のいかなるビット値にも対応しない、残りの識別子のうちのいくつかは、アイテム1059によって示され、「潜在的デコイ識別子」として標識される。これらの識別子は、オリジナルビットストリーム内のビット値に対応する識別子とそれらを区別するために十分である、最小数の成分を示すように影が付けられている。これらの識別子は、潜在的デコイ識別子と呼ばれる。デコイ識別子であるように選定される識別子およびオリジナルビットストリーム内のビット値に対応するように選定される識別子の選択は、本実施例では、恣意的であり得るが、ビットストリームのデータ構造、クエリ制約、および使用される難読化または隠蔽の強度によって統制されてもよい。潜在的デコイ識別子のセットから、いくつかのデコイ識別子が、アイテム1062に示されるように、オリジナルビットストリームを符号化する識別子ライブラリの中に含まれるように選定され、「選択されたデコイ識別子」として標識される。ビットストリームは、ビット値に対応する識別子およびオリジナルビットストリーム内のいかなるビット値にも対応しないデコイ識別子を両方とも含有する、識別子のプールに符号化されてもよい。したがって、プールのいかなる不正解読も、選択されたデコイ識別子のセットについての情報がない場合に、オリジナルビットストリームを忠実に解読されることは可能ではあり得ない。デコイ識別子の選定されたセットを表す、成分の配列のセットは、デコイキーと呼ばれ得る。本実施例に関するデコイキーは、アイテム1064によって示され、成分の2つの配列、すなわち、層0-4からの成分1、0、1、1および層0-3からの成分0、1、1を含有する。デコイキーは、以下の方法で解釈されてもよい。デコイキー内の成分の配列の中の各成分は、アクセスクエリに対応する。その成分クエリに合致する全ての識別子が、現在のプールからアクセスされる。成分の配列の中の最後の成分は、アクセスされなくてもよく、代わりに、現在のプールからその成分に合致する全ての識別子を削除するために使用されてもよい。表1063は、1064に示されるデコイキーを実行するために要求されるステップを示す。樹形
図1061に描写される全ての識別子のプールから始まって、削除が後に続く一連のアクセスは、オリジナルビットストリームに対応する正確な識別子ライブラリの存続をもたらし、全てのデコイ識別子は、除去される。存続している識別子は、表1063の影付きのセルに示される。
(情報を核酸配列に符号化し、そこから情報を解読するためのシステム)
【0085】
デジタル情報を核酸(例えば、DNA)に符号化するためのシステムは、ファイルおよびデータ(例えば、未加工データ、圧縮zipファイル、整数データ、ならびに他の形態のデータ)をバイトに変換し、バイトを核酸の区画または配列、典型的には、DNA、もしくはそれらの組み合わせに符号化するためのシステム、方法、およびデバイスを備えることができる。
【0086】
ある側面では、本開示は、情報を核酸配列に書き込むためのシステムを提供する。情報を核酸配列に書き込むためのシステムは、アセンブリユニットと、1つまたはそれを上回るコンピュータプロセッサとを備えてもよい。アセンブリユニットは、記号の配列を符号化する識別子ライブラリを生成するように構成されてもよい。識別子ライブラリは、複数の識別子の少なくともサブセットを備えてもよい。1つまたはそれを上回るコンピュータプロセッサは、アセンブリユニットに動作可能に結合されてもよい。コンピュータプロセッサは、(i)1つまたはそれを上回るコードブックを使用して記号の配列をコードワードに変換し、(ii)コードワードをコード化された記号の配列に解析し、(iii)コード化された記号の配列を複数の識別子にマップし、(iv)識別子ライブラリを生成するようにアセンブリユニットに指図し、(v)1つまたはそれを上回るコードブックおよび複数の識別子の説明を識別子ライブラリに付加するようにアセンブリユニットに指図するように、個別に、もしくは集合的にプログラムされてもよい。コード化された記号の配列のうちの各記号は、1つまたはそれを上回る識別子によって符号化されてもよい。
【0087】
別の側面では、本開示は、核酸ベースのデータ記憶のための統合システムを提供する。核酸ベースのデータ記憶のための統合システムは、データ符号化ユニットと、記憶ユニットと、読取ユニットと、1つまたはそれを上回るコンピュータプロセッサとを備えてもよい。データ符号化ユニットは、デジタル情報を核酸配列に書き込むように構成されてもよい。記憶ユニットは、デジタル情報を符号化する核酸配列を記憶するように構成されてもよい。読取ユニットは、核酸配列内で符号化されるデジタル情報にアクセスし、読み取るように構成されてもよい。1つまたはそれを上回るコンピュータプロセッサは、データ符号化ユニット、記憶ユニット、および読取ユニットに結合されてもよい。1つまたはそれを上回るコンピュータプロセッサは、(i)デジタル情報を核酸配列に符号化するようにデータ符号化ユニットに指図し、(ii)核酸配列に符号化されるデジタル情報を記憶するように記憶ユニットに指図し、(iii)核酸配列に記憶されたデジタル情報にアクセスし、解読するように読取ユニットに指図するように、個別に、もしくは集合的にプログラムされてもよい。デジタル情報は、塩基毎の核酸合成がない場合に核酸配列内で符号化されてもよい。
【0088】
本システムは、1つまたはそれを上回るコンピュータプロセッサと、コンピュータプロセッサを制御およびプログラムするためのヒューマンマシンインターフェース(HMI)とを備えてもよい。本システムは、本明細書の他の場所に説明されるような任意の方法を使用して、デジタル情報を符号化および再コード化してもよい。本システムは、識別子ライブラリを構成する識別子のリストを生成してもよい。代替として、または加えて、外部コンピュータ処理ユニットが、識別子ライブラリを構成する識別子配列のリストを生成してもよい。本システムは、識別子配列のリストを受信するためのインターフェースを有してもよい。インターフェースユニットは、識別子配列のリストを、システムの下流ユニットまたはモジュールが識別子を生成およびプールするための命令に変換してもよい。
【0089】
本システムは、アセンブリモジュールを有してもよい。アセンブリモジュールは、複数の基質(例えば、成分)および反応物質(例えば、酵素)を受容し、1つまたはそれを上回る識別子ライブラリを構成する識別子を産生するための複数の反応を出力するように構成されてもよい。1つまたはそれを上回る識別子が、所与の反応において産生されてもよい。1つまたはそれを上回る識別子が、複数の反応において産生されてもよい。複数の反応は、約1、2、4、6、8、10、20、30、50、75、100、150、200、300、400、500、750、1,000、10,000、1×105、1×106、1×107、1x108、1×109を上回るまたはそれと等しい、もしくはより多くの反応を備えてもよい。複数の反応は、約1×109、1×108、1×107、1×106、1×105、10,000、1,000、750、500、400、300、200、150、100、75、50、30、20、10、8、6、4、2未満またはそれと等しい、もしくはより少ない反応を備えてもよい。1つまたはそれを上回る反応は、同時に、もしくは連続的に行われてもよい。1つまたはそれを上回る、もしくは複数の反応は、識別子ライブラリを生成するように組み合わせられてもよい。アセンブリユニットは、選択された識別子を生成しない複数の反応のうちの1つまたはそれを上回るものを選択的に除去してもよい。アセンブリユニットは、1つまたはそれを上回る区分、容器、もしくはパーティションを備えてもよい。アセンブリユニットは、複数の区分、容器、またはパーティションを備えてもよい。各区分、容器、またはパーティションは、1つまたはそれを上回るアセンブリ反応を生成、貯蔵、維持、促進、もしくは終了してもよい。
【0090】
アセンブリユニットは、反応モジュールを備えてもよい。反応モジュールは、試薬、1つまたはそれを上回る核酸配列、1つまたはそれを上回る成分、1つまたはそれを上回るテンプレート、もしくはそれらの任意の組み合わせを収集してもよい。反応モジュールは、アセンブリ反応をインキュベートまたは攪拌して、1つまたはそれを上回る識別子を生成するように構成されてもよい。反応モジュールは、加えて、検出ユニットを備えてもよい。検出ユニットは、識別子のアセンブリを監視してもよい。反応モジュールは、複数のパーティションを備えてもよい。複数のパーティションはそれぞれ、1つまたはそれを上回るアセンブリ反応を備えてもよい。複数のパーティションは、化学修飾表面のウェルまたは液滴であってもよい。
【0091】
基質もしくは入力物は、1つまたはそれを上回る、Mと同程度の数の層を含んでもよい。各層は、1つまたはそれを上回る成分を含んでもよい。各層内の成分は、他の層内の成分と明確に異なり得る。基質はまた、識別子アセンブリ反応を指図および促進するためのアセンブリテンプレート、プライマ、プローブ、ならびに任意の他の要素を含んでもよい。試薬は、酵素、緩衝剤、核酸配列、補因子、またはそれらの任意の組み合わせを含んでもよい。酵素は、生細胞内の対応する組み換え遺伝子の過剰発現によって産生されてもよい。試薬は、個々のアセンブリ反応において組み合わせられてもよい、またはアセンブリ反応に追加されることに先立ってマスタ混合として組み合わせられてもよい。
【0092】
本システムはさらに、記憶ユニット(例えば、データベース)を備えてもよい。アセンブリユニットは、1つまたはそれを上回る識別子ライブラリを出力してもよい。1つまたはそれを上回る識別子ライブラリは、記憶ユニットによって受信されてもよい。記憶ユニットは、1つまたはそれを上回るプール、容器、もしくはパーティションを備えてもよい。記憶ユニットは、個々の識別子ライブラリを1つまたはそれを上回る付加的識別子ライブラリと組み合わせて、識別子ライブラリの1つまたはそれを上回るプールを形成してもよい。各個々の識別子ライブラリは、各ライブラリからの識別子が識別され、相互と区別されることを可能にするためのバーコードまたはタグを備えてもよい。記憶ユニットは、識別子ライブラリの長期貯蔵のための条件(例えば、識別子の劣化を低減させるための条件)を提供してもよい。識別子ライブラリは、粉末、液体、または固体形態で貯蔵されてもよい。データベースは、紫外線保護、低温(例えば、冷蔵または冷凍)、および分解化学物質ならびに酵素からの保護を提供してもよい。データベースに移送されることに先立って、識別子ライブラリは、凍結乾燥または冷凍されてもよい。識別子ライブラリは、メチレンジアミン四酢酸(EDTA)、他の金属キレート剤、もしくはヌクレアーゼを非活性化するための他の反応阻止試薬、および/または核酸分子の安定性を維持するための緩衝剤を含んでもよい。
【0093】
本システムはさらに、選択ユニットを備えてもよい。選択ユニットは、識別子ライブラリから、もしくは識別子ライブラリの群から、1つまたはそれを上回る識別子を選択するように構成されてもよい。アセンブリユニットは、全ての可能性として考えられる反応を設定し、組み合わせ空間を生成してもよく、選択ユニットは、標的識別子を産生しない反応を選択的に除去し、標的識別子を産生する反応を留保してもよい。選択ユニットは、反応を除去するための光学的もしくは機械的アブレーションモジュール、分解酵素を非標的反応に送達するためのディスペンサ、またはプライマもしくは親和性タグ付きプローブを標的反応に送達するためのディスペンサを備えてもよい。選択ユニットは、記憶されたデータを査定することを促進してもよい。核酸分子(例えば、識別子)に記憶された情報にアクセスするステップは、組み合わせられる識別子ライブラリの群またはプールから識別子ライブラリの一部もしくは識別子ライブラリを選択的に除去することによって、実施されてもよい。データするにアクセスステップは、アクセスされるデータに対応する識別子を選択的に捕捉もしくは増幅するステップ、および/またはアクセスされるデータに対応しない識別子を除去するステップによって、実施されてもよい。識別子を選択するための方法は、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、および分解タグ付きプローブを使用するステップを含んでもよい。識別子のプール(例えば、識別子ライブラリ)は、各端部における共通配列、各端部における可変配列、または各端部における共通配列もしくは可変配列の1つを伴う識別子を備えてもよい。識別子は、各端部における同一の共通配列、または各端部における異なる共通配列を含有してもよい。識別子ライブラリは、単一のライブラリが1つより多くの識別子ライブラリのプールまたは群から選択的にアクセスされることを可能にする、そのライブラリと明確に異なる共通配列を備えてもよい。共通配列または可変配列は、プライマ結合部位であってもよい。1つまたはそれを上回るプライマは、識別子上の共通領域に結合してもよい。プライマが結合された結合識別子は、PCRによって増幅されてもよい。増幅された識別子は、増幅されていない識別子の数を有意に超えてもよい。
【0094】
識別子の共通配列は、1つまたはそれを上回るプローブと相補性を共有してもよい。1つまたはそれを上回るプローブは、アクセスされる識別子に結合もしくは交配してもよい。プローブは、親和性タグを備えてもよい。親和性タグは、ビーズに結合し、ビーズ、少なくとも1つのプローブ、および少なくとも1つの識別子を含む、錯体を生成してもよい。ビーズは、磁性であり得、選択ユニットは、1つまたはそれを上回る磁気もしくは電子エリアを備えてもよい。ビーズは、アクセスされる識別子を収集および抽出してもよい。代替として、または加えて、ビーズは、アクセスされない識別子を収集してもよい。識別子は、読取に先立って、変性条件下でビーズから除去されてもよい。親和性タグは、カラムに結合してもよく、選択ユニットは、1つまたはそれを上回る親和性カラムを備えてもよい。アクセスされる識別子は、カラムを通して流動し得る、アクセスされる識別子のカラムに結合してもよく、アクセスされない識別子は、カラムに結合してもよい。カラムに結合されたアクセスする識別子は、読取に先立って、カラムから非結合または変性されてもよい。識別子にアクセスするステップは、同時に1つまたはそれを上回るプローブを識別子ライブラリに適用するステップ、もしくは連続的に1つまたはそれを上回るプローブを識別子ライブラリ/識別子ライブラリの群に適用するステップを含んでもよい。実施例では、1つまたはそれを上回る識別子ライブラリが、組み合わせられ、各識別子ライブラリは、1つまたはそれを上回る明確に異なる共通配列を備える。プローブの1つのセットが、識別子の第1のサブセットを抽出するように、ライブラリに適用されてもよい。続いて、プローブの第2のセットが、識別子の第2のサブセットを抽出するように、ライブラリに適用されてもよい。本動作は、全ての識別子が抽出されるまで繰り返されてもよい。
【0095】
識別子の共通配列は、1つまたはそれを上回るプローブと相補性を共有してもよい。プローブは、識別子の共通配列に結合する、またはそれと交配してもよい。プローブは、分解酵素のための標的であってもよい。実施例では、1つまたはそれを上回る識別子ライブラリが、組み合わせられてもよい。プローブのセットが、識別子ライブラリのうちの1つと交配してもよい。プローブのセットは、RNAを含んでもよく、RNAは、Cas9酵素を誘導してもよい。Cas9酵素は、1つまたはそれを上回る識別子ライブラリに導入されてもよい。プローブと交配される識別子は、Cas9酵素によって分解されてもよい。アクセスされる識別子は、分解酵素によって分解されなくてもよい。別の実施例では、識別子は、一本鎖であり得、識別子ライブラリは、アクセスされない識別子を選択的に分解する一本鎖特異的エンドヌクレアーゼと組み合わせられてもよい。アクセスされる識別子は、一本鎖特異的エンドヌクレアーゼによる分解からそれらを保護するように、識別子の相補的セットと交配されてもよい。アクセスされる識別子は、サイズ選択クロマトグラフィ(例えば、アガロースゲル電気泳動)等のサイズ選択によって、分解生成物から分離されてもよい。選択ユニットは、1つまたはそれを上回るサイズ選択技法を実施することが可能であり得る。代替として、または加えて、分解されない識別子は、分解生成物が増幅されないように、(例えば、PCRを使用して)選択的に増幅されてもよい。未分解識別子は、未分解識別子の各端部に交配し、したがって、分解または切断された識別子の各端部に交配しない、プライマを使用して、増幅されてもよい。
【0096】
識別子を構成する、または識別子の構築を支援する、個々の核酸配列(例えば、成分およびテンプレート)は、本システムによって合成されてもよい、もしくは本システムの外部で合成および増幅されてもよい。本システムはさらに、核酸合成モジュールを備えてもよい。核酸合成モジュールは、成分およびテンプレートの塩基毎の構築を実施してもよい。核酸配列(例えば、成分およびテンプレート)は、ホスホロアミダイト化学を使用して、構築されてもよい。成分は、最初に、ホスホロアミダイト化学を使用して構築されてもよく、次いで、PCRが、オリジナルホスホロアミダイトテンプレートを複製するために使用されてもよい。成分は、最初に、ホスホロアミダイト化学を使用して構築されてもよく、次いで、テンプレートのコピーが、成分を1つまたはそれを上回る高コピーベクターにクローン化することによって産生されてもよい。ベクターは、ベクターが埋込核酸配列とともに細胞成長中に複製され得る、生細胞に変換されてもよい。ベクターは、細胞培養から単離されてもよく、成分は、制限消化を使用して、ベクトルから単離されてもよい。二本鎖核酸配列は、2つの核酸鎖のうちの1つと相補性を共有する親和性タグ付きプローブを使用することによって、一本鎖核酸配列に変換されてもよい。
【0097】
本システムは、識別子ライブラリを生成するために使用される反応の数、したがって、書込時間を最小限にするための技法を使用してもよい。1つまたはそれを上回る技法は、発見的技法を含んでもよい。発見的技法は、成分から識別子の所与のセットを構築するために使用される、反応のコンパートメント化されたセットのうちのセットを最小限にしてもよい。発見的技法は、セット上被覆発見的問題解決法を含んでもよい。書込装置によって移動される物理的距離もまた、書込時間を削減するように最小限にされてもよい。
図8は、最小反応セット生成によって書込時間を最小限にするための例示的方法を図示する。
【0098】
本システムは、圧力、真空、または吸引を使用して、流体(例えば、試薬、成分、テンプレート)を移送してもよい。アセンブリユニットは、1つまたはそれを上回る核酸配列を1つまたはそれを上回る試薬混合物と組み合わせてもよい。アセンブリユニットは、核酸配列でコーティングされた材料のエレクトロウェッティング、噴霧、印刷、レーザアブレーション、織成または編組、スリップ技術、刻印、レーザ印刷、もしくは液滴マイクロ流体工学のうちの1つまたはそれを上回るものを使用し、基質(例えば、酵素、成分、およびテンプレート)を反応に合体してもよい。アセンブリユニットは、生体分子を共同設置し、生体分子の複数の共同設置セットを生成してもよい。生体分子の共同設置セットは、識別子を生成してもよい。例えば、成分を相互に連結させる代わりに、各層からの明確に異なる成分をビーズ等の共有基質にアセンブルすることによる。種々の技法が、生体分子のセットを共同設置するために使用されてもよい。実施例として、明確に異なる成分のセットを相互に連結させることによって、識別子を構築する代わりに、識別子は、成分をビーズ等の共有基質に関連付けることによって構築されてもよい。別の実施例として、明確に異なる成分のセットを相互に連結させることによって、識別子を構築する代わりに、識別子は、成分をそれぞれ、成分の関連性を識別するバーコード配列にアセンブルすることよって、構築されてもよい。
【0099】
成分カルーセルが、生体分子のセットを共同設置するために使用されてもよい。
図11は、例示的成分カルーセルの上から見下ろした
図1108および上面
図1108の線1110に沿った成分カルーセルの断面
図1109を示す。本実施例では、成分カルーセルは、複数の入口ポートと、複数の出口ポートとを備える。入口ポートは、カルーセルの外周上にあってもよく、出口ポートは、カルーセルの内周上にあってもよい。各入口ポートは、単一の入力物(典型的には、成分であるが、おそらく、核酸、酵素、または反応混合物でもある)を、出口ポートに接続される反応チャンバの中に選択的に導入してもよい。1つの入力物を導入した後、カルーセルは、1つの位置を偏移させ、隣接する入力物を反応チャンバに選択的に導入してもよい。本プロセスは、選択された数の入力物が組み合わせられ得るまで、繰り返してもよい。
【0100】
成分カルーセルは、相互に面するように構成される平面を伴う2つの基板1101および1102から構成されてもよい。
図11に示される実施形態では、2つの表面は、相互に対して回転するように構成される。ある場合には、2つの表面の間に油または別の潤滑剤を導入し、摺動摩擦を低減させることが有利である。任意の潤滑流体が使用されることができるが、フッ素化油が、油の中へ、またはチャンバの間の生物学的物質の移動を最小限にするために使用されてもよい。本実施例では、入口1103および出口1104ポートは、基板1101のうちの1つの中で対に配列される貫通孔から成る。第2の基板1102は、各一対の貫通孔のための1つのチャンバ1105を有する。2つの基板の表面が、相互に面し、接触して設置されるとき、第2の基板1102内のチャンバ1105は、第1の基板内の溝またはチャネル1106と整合し、貫通孔対の間の流路を完成させる。2つの基板は、2つの表面が完全回転を通して相互を越えて摺動すると、連続的に、各流路が全チャンバを通して接続されるような方法で、相互に対して摺動するように設計される。このようにして、全ての入力は、各チャンバに選択的に追加されることができる。例えば、一実施形態では、第1の基板内の72対の貫通孔および第2の基板内の72個のチャンバが存在する。本システムは、表面が5度を通して送り出される度に、異なる成分がチャンバの中に選択的に導入され得るように、構成される。完全回転の終わりに、出口1107は、反応混合物がボーラス1111としてチャンバから駆動されることを可能にする。チャンバから反応をパージした後、これは、後続の反応に再利用されることができる。典型的には、1つの経路が、反応ボーラス1111を除去するために使用され、以降の流路が、反応チャンバをクリアするために使用され、反応チャンバの中へのマスタ混合の導入は、随意に、別個の流路を有することができる、またはマスタ混合は、各入力物とともに導入されてもよい。本実施例では、残りの70個の流路は、70個の一意の入力物が、所与の反応チャンバの中に連続的に導入されることを可能にする。入力物が3つの成分の22個の層および4つの成分の1つの層の中で分配される成分の場合、積方式の組み合わせ空間は、4
*3
22=1.2×10
11個の識別子を生成するために十分である。96個の成分を促進するために流路の数をわずかに増加させると、96個の成分を、層あたり3つの成分を伴う32個の層に配列し、最大1.8e15個の一意の識別子を生成することが可能である。いくつかの実施形態では、チャンバは、第1の入力物を導入することに先立って、油またはガスで充填される。いくつかの実施形態では、油またはガスが、最後の入力物および反応マスタ混合が導入された後に反応チャンバから反応を駆動するために使用される。チャンバまたは導入され得る入力物の数には制限がない。いくつかの実施形態では、10個またはそれよりも少ないチャンバが、使用され、いくつかの実施形態では、10~100個のチャンバが、使用され、他の実施形態では、100~1,000個のチャンバが、使用され、他の実施形態では、1,000個を上回るチャンバが、使用される。チャンバの中に導入され得る生物学的物質のタイプには制限がない。ある事例では、入力物は、ペプチド合成のためのアミノ酸または因子であることができ、他の場合では、入力物は、小分子を合成するための反応物質であることができ、他の場合では、入力物は、細胞、細菌、ウイルス、液滴または他の粒子、もしくは溶解緩衝剤、または細胞溶解物内もしくは細胞、細菌、ウイルス、または他の粒子の表面上の生物学的物質をタグ付けする、増幅する、結合する、もしくは識別するための試薬を含んでもよい。ある事例では、チャンバは、1時間あたり数回または1分あたり数回の割合で、ポート対の間で送り出される。しかしながら、本送り出し頻度は、恣意的タイミングであることができ、高速であるように選択されてもよい。ある場合には、1秒あたり1回または1秒あたり10回、もしくは1秒あたり100回または1秒あたり1,000回、もしくは1秒あたり10,000回またはそれを上回る。外部流体制御が、要求に応じて入力物をチャンバの中に選択的に導入するために使用されてもよい。
【0101】
エレクトロウェッティングが、生体分子のセットを共同設置するために使用されてもよい。
図12は、入力動作のためのエレクトロウェッティングの方法を図示する。入力物(例えば、核酸、成分、テンプレート、酵素、または反応混合)が、別個のポート1201を通して導入されてもよい。各ポート1201は、1つの入力物または入力物の混合物を導入してもよい。液滴が、エレクトロウェッティングを使用して生成され、識別子をアセンブルするための選択された入力物を一緒にするように組み合わせられてもよい。液滴は、電圧を電極パッチ1202に選択的に印加することによって、作成され、組み合わせられ、混合され、分割される。いくつかの実施形態では、これらの電極パッチは、正方形のアレイに配列される。パッチは、典型的には、低い電気伝導度を伴う絶縁コーティングによって、液滴から分離されるように構成される。エレクトロウェッティングデバイスは、上部が開放している、または上部が閉鎖されてもよい。エレクトロウェッティングチャンバは、油等の絶縁流体を含有し得る。シリコン油、鉱油、または炭化水素油等の任意の油が、使用されてもよい。実施例では、フッ素化油が、使用される。他の添加剤の界面活性剤混合物が、液滴油界面またはチャンバ壁との界面のいずれかにおける表面エネルギーを修正することによって、デバイス性能を改良するために利用されてもよい。
【0102】
エレクトロウェッティングアプローチは、ピコリットル未満からナノリットルに及ぶ少量の流体を作成および操作するために利用されることができる。例えば、
図12は、プログラム可能な方法で入力物を選択的に組み合わせるように構成されるエレクトロウェッティングデバイスを図示する。システムは、エレクトロウェッティングアプローチを使用して、同時に数十、数百、数千、数万、数百万個、またはそれを上回る液滴を処理するように容易に構成される。いくつかの実施形態では、液滴を組み合わせ、次いで、組み合わせられた液滴を2つの混合液滴に分割することが有利であり得る。ある場合には、混合は、略直交方向に組み合わせ、分割することによって、増進されることができる。分割された液滴はそれぞれ、次いで、異なる後続の入力物を受容することができる。本プロセスは、識別子構築のための全ての要求される入力物が液滴の中に導入されるまで、繰り返されてもよい。例えば、成分C
1,1(層1の成分1)を含有する液滴1203および成分C
2,1(層2の成分1)を含有する液滴1204が、混合液滴1205C
1,1C
2,1に合体され、混合液滴は、両方の成分を有する。混合液滴は、続いて、類似混合組成を両方とも有する、2つの娘液滴1206に分割されることができる。第3の層からの成分C
3,11207およびC
3,21208を有する、付加的液滴は、最初の3つの層からの成分を含有する、液滴1209および1210を形成するように、混合液滴1206の中に導入されることができる。液滴の組み合わせ、混合、および分割の本プロセスは、適切な識別子を構築するために使用される成分が完成するまで、反復されることができる。ある場合には、識別子をアセンブルまたは構築するためのマスタ混合が、核酸入力物とともに、または別個の入力液滴の中のいずれかで、導入されてもよい。積方式に関して、各層からの少なくとも1つの成分が、完全な識別子がアセンブルされるために液滴の中に導入されてもよい。多重反応では、1つまたはそれを上回る層からの複数の成分が、所与の液滴の中に導入されてもよい。液滴分割を利用する実施形態では、異なる初期濃度における成分を有し、各成分の平衡濃度を促進することが有利であり得る。液滴が同一の電極アレイ上の異なる場所で処理され得る、並列性質に起因して、数千、数百万、または数十億もの液滴反応条件が1秒あたりに設定される、恣意的に高い割合で液滴を処理することが可能であり得る。
【0103】
印刷ベースの方法が、生体分子を共同設置するために使用されてもよい。
図13は、入力物を分配するための例示的印刷ベースの方法を示す。入力物(例えば、核酸、成分、テンプレート、酵素、または反応混合)は、固定反応領域中で直接分配または印刷することによって、これらの領域中で一緒にされてもよい。反応領域は、基板1301上の別個の場所であってもよい。成分入力物1306は、別個の領域中で識別子にアセンブルされてもよい。表面は、変動する疎水性の領域を作成するように、化学修飾でパターン化されてもよい。変動する疎水性の領域は、1つの領域から隣接領域までの入力物の移動を阻害するために有用であり得る。領域は、約0.1マイクロメートル(μm)、0.5μm、1μm、2μm、4μm、6μm、8μm、10μm、20μm、40μm、60μm、80μm、100μmを上回るまたはそれと等しい、もしくはそれを上回る寸法を有してもよい。領域は、約100μm、80μm、60μm、40μm、20μm、10μm、8μm、6μm、4μm、2μm、1μm、0.5μm、0.1μm未満またはそれと等しい、もしくはそれを下回る寸法を有してもよい。反応領域は、壁等の物理的障壁によって分離されてもよい。壁は、マイクロウェルを作製するように別様に平坦な表面上にリソグラフィで形成されることができる。代替として、または加えて、マイクロウェルは、プラスチック基板に成形またはエンボス加工されることができる。マイクロウェル容積は、約0.1ピコリットル(pL)、1pL、10pL、100pL、1ナノリットル(nL)、10nLを上回るまたはそれと等しい、もしくはより大きくあり得る。マイクロウェル容積は、約10nL、1nL、100pL、10pL、1pL、0.1pL未満またはそれと等しい、もしくはより小さくあり得る。基板は、ガラス、紙、またはプラスチックフィルムを含んでもよい。基板は、随意に、疎水性、エンボス加工されたウェル、エッチングされたウェル、成形特徴、堆積特徴等の1つまたはそれを上回る方法を使用して、パターン化されてもよい。リールツーリールシステム1302では、ローラが、分配することに先立って、基板にくぼみを直接パターン化するために使用されてもよい。基板は、固定プリントヘッドの下で平行移動してもよい、または随意に、プリントヘッドは、基板の表面にわたって平行移動してもよい。分配は、多種多様な商業的に利用可能な印刷アプローチを利用してもよい。プリントヘッドは、1、10、100、1,000、10,000個を上回るまたはそれと等しい、もしくはより多くのノズルを備えてもよい。プリントヘッドの各ノズルは、同一の入力を分配してもよい、もしくは1つまたはそれを上回るノズルは、明確に異なる入力を分配してもよい。いくつかの実施形態では、所与のノズルが単一の入力物を分配し得るように、十分な数のプリントヘッドが、利用される。例えば、各プリントヘッドが4つの入力物を分配する場合、50個のプリントヘッドの集合が、200個の入力物を分配することができる。帯状部上に分配するように整合されるプリントヘッドを伴うそのような配列は、随意に、全ての入力物を全ての反応領域に分配するように、全てのプリントヘッドの下を通過する基板のリールツーリール動作と組み合わせられてもよい。プリントヘッド内の各ノズルは、1秒あたり10、100、1,000、20,000、50,000、または100,000回、もしくはそれを上回る分配の割合で、分配してもよい。各ノズルは、1秒あたり50,000回の分配において動作する、1,000個のノズルを伴うプリントヘッドが、1秒あたり最大5千万回分配し得るように、並行して動作するように構成されてもよい。プリントドライバは、より高いまたは低い頻度およびドロップオンデマンド動作を可能にし得、これらのうちのいずれかは、入力物を分配するために利用されることができる。これらのシステムは、限定されないが、インクジェット、バブルジェット(登録商標)、および圧電アレイを含む。ある場合には、静電荷および電場が、液滴の設置を指向ならびに制御するために使用される。他の場合では、静電的に中性の液滴が、分配される。
【0104】
動作時にプリントヘッドと同様に、レーザ前方移送は、1つの基板1304から受容表面1305に入力物1303を含む材料を選択的に移送するための光学的技法である。レーザパルスの精密な位置付けは、材料の移送を選択的に制御する。レーザ焦点、パルス幅、電力、および場所を制御することによって、移送される材料の量は、基板上への所与の入力物の移送をパターン化するように制御されることができる。各入力物の順次移送は、反応の収集を調製するためのロバストな機構および時間効率的方法を提供する。いくつかの実施形態では、蛍光または吸収性染料等の光学的に検出可能なマーカが、撮像ベースの点検を増進し、入力物が意図される通りに反応の中へ分配されていることを確認するように、入力流体の中に導入されてもよい。
【0105】
(1)250個のビットの全隣接(すなわち、隣接し、互いに素である)伸張が、正確に75個の「1」のビット値を有する、一様な加重形態に列を再コード化すること、(2)例示的符号化方法を使用し、再コード化されたビットストリームを識別子ライブラリに符号化する(ライブラリから「0」のビット値に対応する識別子を除外する)こと、および(3)積方式を使用し、8つの層に分割された成分を用いて識別子を構築することによって、1.0×1012ビット列を符号化し、書き込む。例示的プロトコルでは、250個の可能性として考えられる識別子の各順次セットから正確に75個の識別子のサブセットを備える、コードワードが、オリジナル情報列から長さ216ビットの順次ワードを符号化するために使用されてもよい。この250から75を選定する一様な符号化アプローチを使用し、1テラビット(1×1012ビット)列の中の216個のビットワードを表すとき、少なくとも(250/216)*1.0×1012=1.15×1012個の明確に異なる識別子の組み合わせ空間が、使用されてもよい。本実施例では、各層内に20個の成分を伴う7つの層および1,000個の成分を伴う第8の層を使用する。利用可能な識別子は、本実施例では、次いで、1000*207=1.28×1012であり、これは、1.15×102の最小要求数を超える。故に、1.0×1012個のビットを一意に表すことが十分であり得る。多重化アセンブリ反応は、最初の7層のそれぞれからの1つの成分および第8の層からの75*4=300個の成分を各反応に分配し、単一の多重反応体積において4つのコードワードを表す成分をアセンブルすることによって、構成されることができる。最初の7つの層からの7つの成分は、第8の層からの300個の成分とアセンブルし、オリジナルの1.0×1012ビットストリームの一意の4*216=864ビット部分を表す、300個の一意の識別子を生成する。1.0×1012ビット列全体を表す識別子ライブラリが、1.0×1012/864=1.16e9個の反応を使用して、アセンブルされることができ、各反応は、最初の7つの層のそれぞれからの1つの成分と、第8の層からの300個の成分(または全ての層の間で合計307個の成分)とを有する。反応間の100ミクロン分離を使用して、約12.8平方メートル(m2)の領域が、本実施例では、反応で被覆されてもよい。1秒あたり5,000回の分配において動作する単一のプリントヘッド上で、1つの成分あたり160個のノズルを使用して、1.16×109個全ての反応が、30分未満で対処されることができる。それぞれ、1つの成分あたり160個のノズルを使用し、1秒あたり5,000回の分配において動作する、4つの成分を分配する10個のプリントヘッドを伴うアセンブリは、約12.6時間の連続分配動作で、1,140個全ての成分を1.16×109個全ての反応に分配することができる。
【0106】
マイクロ流体注入が、生体分子を共同設置するために使用されてもよい。
図14は、入力物のマイクロ流体注入の実施例を示す。マイクロ流体デバイスは、プラスチック基板を射出成形またはエンボス加工すること、もしくはガラスチャネルをエッチングすること、またはポリマーを架橋すること等の任意の方法によって、構築されてもよい。流体が、ポートを通してマイクロ流体デバイスの中に導入され、電気浸透流、外部圧力もしくは真空、または容積式ポンプ等の任意の方法によって、駆動されることができる。一実施形態では、マスタ混合流1401が、オイル流を形成するように、キャリアオイル流1402およびマスタ混合の液滴1403の中に導入される。いくつかの実施形態では、マスタ混合液滴は、1nLまたはより大きくあり得、他の実施形態では、それらは、体積が100pL未満、または50pL未満、もしくは10pL未満、または5pL未満、もしくは1pLである。マスタ混合液滴は、チャネル壁に接触してもよい、またはキャリアオイルの層は、チャネル壁から液滴を分離してもよい。キャリアオイルは、炭化水素、フッ化炭素、シリコン、または鉱油、もしくは油の任意の組み合わせ等の任意の油であってもよい。実施例では、油は、フッ化炭素油である。いくつかの実施形態では、油はさらに、界面活性剤または他の添加剤を含んでもよい。マスタ混合は、水性流体を含んでもよい。入力物は、ポートを通したマイクロ流体デバイスおよび主要チャネル1404に交差する複数の入力流1405の中に導入される。入力物(例えば、成分もしくはテンプレート等の核酸、酵素、または試薬)は、1つまたはそれを上回る注入オリフィスを通過するにつれて、液滴に選択的に追加されてもよい。注入は、主要チャネルの近傍に位置する電極1406への電圧の印加を通した電場の選択的印加を通して、制御されてもよい。電極は、絶縁層によってチャネルから分離されてもよい。一実施形態では、全ての可能性として考えられる明確に異なる識別子産生反応液滴が、生成されてもよく、液滴の標的亜集団が、チャネル内で選別分岐を使用して収集されてもよい。選別は、限定されないが、電場勾配、レーザパルス、気泡、圧電アクチュエータ、外部弁、音響波、または任意の他の選別機構を使用するステップを含む、任意の方法によって達成されてもよい。別の実施形態では、標的識別子産生反応を含有する液滴が、生成される。反応は、それらが行われるマイクロ流体デバイス上または外のいずれかで完了してもよい。液滴は、マイクロ流体デバイス上または外のいずれかで反応リザーバ1407の中に収集されてもよい。
【0107】
各識別子は、成分をアセンブルすることによって積方式を用いて構築されてもよく、各層からの少なくとも1つの成分が、同一の液滴の中に導入される。複数の識別子が、少なくとも1つの層から少なくとも2つの成分を導入することによって、液滴の中でアセンブルされてもよい。各ピコインジェクタは、成分流1405と、外部電場1406を印加する方法とを備える。成分は、酵素的に識別子にアセンブルされる。いくつかの実施形態では、成分流体1405はさらに、酵素またはマスタ混合を含む。一例として、10個のピコインジェクタの10個のセットを備える、マイクロ流体デバイスは、それぞれ、10個の成分の10個の層からの成分の任意の組み合わせが、100個のピコインジェクタのセットを使用して、流動液滴の中に導入され得るように構成される。本例示的システムは、積方式を用いて構築される1010個の一意の識別子を生成することが可能であり得る。N×M個のピコインジェクタがNM個の識別子を構築し得るように、各層内でN個のピコインジェクタ(例えば、成分入力)を用いてM個の層に容易に一般化することができる。より一般的には、1つの層がxN個のピコインジェクタを用いて多重層として設計される場合には、xN個の識別子の構築が、各液滴において多重化されることができる。他の層よりも多くの成分を伴う1つの層を有することの利点は、層が、同一の液滴中で複数の識別子をアセンブルするための多重層として使用され得、したがって、情報を書き込むために要求される液滴の総数を削減することである。各液滴は、最大で全ての成分を受容し得る多重層を除いて、各層から1つの成分を受容し、xN個の識別子が、各液滴中で構築される。
【0108】
積方式を用いて識別子をアセンブルするために成分が層に分割され得る方法に融通性が存在し得る。例えば、200個のピコインジェクタの所与のセットの中の入力物は、それぞれ10個の成分を伴う10個の層(また、それらを分配するためのピコインジェクタ)および100個の成分を伴う多重層である、成分の11個の層に分割されてもよい。識別子の組み合わせ空間は、次いで、1010×100=1012のサイズを有してもよい。代替として、同一の200個のピコインジェクタを使用し、それらを4つの成分の40個の層および40個の成分の多重層に分割してもよい。組み合わせ空間サイズは、次いで、440×40=4.8×1025であってもよい。より多くの層が、典型的には、より長いDNA識別子をもたらしてもよい。
【0109】
例示的液滴マイクロ流体システムでは、識別子は、積方式を用いて、16個の成分の12個の層からアセンブルされる。本実施例では、マイクロ流体デバイスは、層毎に16個のピコインジェクタ(16×12=192個のピコインジェクタ)を有するように構成される。次いで、1612=2.8×1024個の一意の識別子をアセンブルすることが可能であり得る。10の11個の層および100を伴う1つの層の代替的編成(11×10+100=210個のピコインジェクタ)は、1011×100=1013個の一意の識別子の組み合わせ空間を作成する。100個の識別子の全ブロックからの18個の識別子のサブセットを備えるコードワードと、一様な加重符号化を併用して、オリジナルの圧縮ビットストリームから長さ64ビットのワードを符号化してもよい。オリジナルの1.0e12ビット列を表すために、1.56×1010個の液滴が、使用されることができる。100個の並列デバイス上で180,845個の液滴/秒または1,809個の液滴/秒の割合において、1.0e12ビット列が、24時間でDNAに書き込まれることができる。使用される各ピコインジェクタにおいて100pLの初期液滴体積および10pLの追加を用いると、1つの液滴あたり100pL+100pL(最初の10個の層)+180pL(多重層)=380pLである。380×10-12×1.5×1010個の液滴=5.7Lの全液滴体積が、使用される。液滴中の識別子の酵素アセンブリ後、次いで、各液滴の内容物は、組み合わせられ、貯蔵に備えて濃縮または凍結乾燥されることができる。
【0110】
成分霧の選択的凝縮は、生体分子を共同設置するために使用されてもよい。
図15は、生体分子の共同設置のための成分霧の選択的凝縮の実施例を示す。霧ノズル1501は、ミクロンまたはサブミクロンサイズの液滴1502の霧もしくは雲を生成してもよい。液滴は、1つまたはそれを上回る入力(例えば、成分もしくはテンプレート等の核酸配列、酵素、または試薬)を含んでもよい。霧雲が、振動膜、エレクトスプレー、ネブライザ、または任意の他の方法を使用して、生成されてもよい。霧は、液滴を薄膜トランジスタアレイ1503に指向してもよい。薄膜トランジスタアレイは、霧を凝縮するための個々の電極1504またはトランジスタアレイの具体的領域中で霧液滴を選択的に凝縮するための平面内切替構成等の電極対1505を利用してもよい。入力物が、1度に1つ、または複数の入力物の群で、アレイ1503上に導入されてもよい。アレイは、入力の順次導入の合間に乾燥させられてもよい。入力物がアレイ上に指向された後、マスタ混合が、アレイ識別子が構築され得る全反応ポット上に導入されてもよい。
【0111】
スリップ技術、エラストマ弁を伴うマイクロ流体デバイス、および接触刻印等の他の方法が、識別子の厳選ライブラリを生成するために使用されてもよい。スリップ技術は、複数のチャンバまたはパーティションの中への成分の並列導入のための並列入力流を備えてもよい。チャンバは、摺動して、異なるコンパートメントへのアクセスを可能にしてもよい。実施例では、成分は、エラストマ弁を通してチャンバの中に導入されてもよい。別の実施例では、マイクロ流体チャネルは、各バレルのチャネルが1つの層の成分を追加するために使用され得るように、直列に設置されたバレルの周囲に沿った場所であってもよい。バレルは、1つのチャネル直径の増分によって相互に対して回転されてもよい。
【0112】
種々の方法は、組み合わせ空間から全ての可能性として考えられる識別子を生成するために使用されてもよい。
図16は、織成または編組によって識別子を生成する例示的方法を図式的に図示する。可撓性材料は、具体的領域中で具体的成分を用いてコーティングされてもよい。材料は、プラスチック、金属、スレッド、または天然材料であってもよい。可撓性材料は、アセンブルされる成分を併置するように、ともに織成、編組、または挟持、もしくは絡合されてもよい。成分の区画は、編組および織成接合点において集結してもよく、反応体積に分離されてもよい。全ての識別子が構築された後、符号化されるビットストリームと一致するサブセットを含む、識別子の任意のサブセットが、削除されてもよい。構築された識別子もしくは確立された識別子産生反応のセットから識別子を削除することによって、または識別子にアセンブルされる併置成分を削除することによって、情報が符号化され得る、方法群は、減法書込方法群と呼ばれる。一実施形態では、成分は、スレッドまたはフィルム上に位置してもよい。アイテム1601-1604は、4つのスレッドまたはフィルムが成分の具体的パターンでマークされる、実施例を描写する。例えば、1601と標識されたスレッドまたはフィルムの長さは、2つの領域に分割され、領域0は、標識1611によって示されるように、層0からの成分0を装填され、領域1は、標識1612によって示されるように、層0からの成分1を装填される。1602と標識されたスレッドまたはフィルムの長さは、同様に、4つの領域に分割され、領域0は、層1の成分0(1609と標識される)を装填され、領域1は、層1の成分1(1610と標識される)を装填され、領域2は、層1の成分0を装填され、領域3は、層1の成分1を装填される。一般に、Ni個の成分を含有するi番目の層に対応する、フィルムまたはスレッドもしくはファイバは、Ni-1
*Ni個の領域に分割され、各領域は、Ni個の成分のリストを通して順序正しく繰り返し循環して、i番目の層内のNi個の成分のうちの1つを装填される。基質上に成分の領域を編成し、それらに成分を装填する本方法は、組み合わせマーキングと呼ばれる。他のパターン、順序、および方法もまた、フィルムおよびスレッド上に成分を編成するために使用されてもよい。一実施形態では、各スレッドまたはフィルムもしくはファイバは、単一の成分を装填されてもよい。そのような単一成分のスレッドまたはファイバもしくはフィルムのセットは、1613および1614に示されるように、グリッドに織成されてもよい。本実施例では、水平スレッドと垂直スレッドとの間の各交差点は、1615に描写されるように、2つの成分を併置する。別の実施形態では、多くのスレッドは、単一の場所において交差させられてもよく、したがって、複数の成分を併置する。これらの交差点は、識別子を構築するために使用されてもよい、またはそのように併置される成分のセットは、別の場所で識別子をアセンブルするように、これらの部位から抽出されてもよい。一実施形態では、各スレッドは、上記で説明されるような領域および成分の具体的パターンを有してもよい。これらのスレッドは、1617に描写されるようなネットワークを形成するように、ともに編組されてもよい。本編組ネットワークの領域は、1616に描写されるように、識別子を構築するために使用される全ての成分を併置してもよい。編組ネットワークのこれらの領域は、反応部位として使用されてもよい、またはこれらの領域においてそのように併置される成分のセットは、これらの場所から抽出され、別の場所で識別子をアセンブルするために使用されてもよい。別の実施形態では、各層Ni内の成分の数が全ての他の層内の成分の数に対して比較的素数である、積方式が、設定されてもよい。すなわち、iがjに等しくない、層iおよびj内の成分の数を表す、任意の対NiおよびNjに関して、NiがNjを分割することも逆もない。2つのスレッドまたはフィルムもしくはファイバが、5および6と標識された2つの成分を含有するスレッド0、ならびに7、8、9、A、およびBと標識された5つの成分を含有するスレッド1とともに示される、実施例が、1618に示される。これらの層内の成分の数、すなわち、2および5は、2が5を割らず、逆も同様であるため、比較的素数である。成分は、スレッド上に装填され、循環的順序で繰り返される。したがって、スレッド0は、示されるように、2つの成分5、6、5、6等の反復配列を有し、スレッド1は、示されるように、5つの成分7、8、9、A、B、7、8、9、A、B等の反復配列を有する。一実施形態では、これらのスレッドは、1つのスレッド上に成分を装填された各領域が、別のスレッド上に別の成分を装填された対応する領域と整合され得るように、ともに挟持または絡合もしくは併置されてもよい。各スレッド上の成分の数が比較的素数であるため、成分の全ての可能性として考えられる組み合わせが、挟持または絡合部位において生成される。これらの部位においてそのように併置される成分は、これらの成分から識別子を構築するために反応部位として使用されてもよい、または別の場所で識別子を構築するためにそのように併置される成分を抽出するために使用されてもよい。別の実施形態では、比較的素数である成分の数を用いた類似方式が、スレッドの編組ネットワークを生成するために使用されてもよい。水平編組スレッドは、1621に示される。水平スレッドは、垂直スレッド内の成分の数の積と同じ回数で繰り返されてもよい。
【0113】
図17は、成分のセットから識別子を生成するための例示的方法を図式的に図示する。成分は、最初に、1723に示される別個のリザーバの中に貯蔵される。リザーバはまた、アセンブリ試薬および他の器具を貯蔵してもよい。成分は、その実施例が1724に示される、反応コンパートメントのセットの中に併置されてもよい。印刷または流体操作等の輸送方式を使用して、成分の各組み合わせは、1726に示されるように、個々のコンパートメントの中に併置される。これらのコンパートメントは、ここで、複数の生化学プロセスを使用して、識別子をアセンブルするための部位として使用されてもよい。
【0114】
図18は、別個のフィルムまたはスレッドから識別子を生成するための例示的方法を図式的に図示する。1832は、それぞれ、組み合わせマーキング方式またはある他のマーキング方式を使用してマークされ得る、スレッドまたはフィルムもしくはファイバまたは基質の回転セットとして入力物を受け取り、各個々のスレッドまたはフィルムもしくは基質上の各対応する領域中で成分を収集する、コロケータと呼ばれるデバイスを示す。収集された成分が、1833に示される出力フィルムまたはスレッドもしくはファイバ上に併置される。各スレッドまたはファイバ上の各領域がコロケータを通過すると、成分の新しい組み合わせが、1834によって描写されるように、出力フィルムまたはスレッド上の新しい領域中で生成されてもよい。アイテム1835は、識別子をアセンブルするために反応部位として使用され得る、併置成分の概略図を示す。アイテム1836は、コロケータの一実施形態の接近図を示す。アイテム1837は、成分を収集する方法の一実施形態を示す。本実施例では、コロケータは、通過するファイバまたはスレッドもしくはフィルムを通して孔を穿孔し、穿孔片または断片を収集して、それらを出力基質に出力する。別の実施形態では、コロケータは、剥離または吸引し、もしくは他の機械または電気もしくは光学または磁気もしくは編組または織成もしくは挟持または刻印機構を使用して、全てのフィルムまたはスレッドからの成分を出力フィルムまたはスレッドもしくは基質に併置してもよい。
【0115】
減法書込方法は、前もって構築された識別子ライブラリもしくは識別子産生反応の確立されたライブラリから識別子を削除することによって、または識別子にアセンブルされるように調製される併置成分を削除することによって、所与のデジタルメッセージが符号化されるものであってもよい。一実施形態では、本ライブラリは、組み合わせ空間内の全ての可能性として考えられる識別子を備える。減法は、要求に応じて識別子の具体的な所与のセットを構築することの複雑性を除去し得るため、有利であり得る。むしろ、識別子の構築は、符号化される具体的デジタルメッセージから独立し得、任意の符号化要求に先立って実施されてもよい。加えて、符号化のプロセスは、識別子の生化学的アセンブリまたは構築ではなくて、書込の時点でより単純な削除動作を要求し得る。一実施形態では、減法書込方法は、全ての可能性として考えられる識別子を生成するための方法を要求する。一実施形態では、符号化が積方式とともに使用されるとき、全ての可能性として考えられる識別子が、層毎に成分の単純配列を事前装填し、次いで、事前装填された成分流を組み合わせることによって、生成されてもよい。成分の事前装填された配列は、成分流が組み合わせられるときに、全ての可能性として考えられる成分の組み合わせが生成されるようなものであってもよい。これは、印刷、スレッディング、編組、織成、絡合、挟持、刻印、および他の方法を使用して、達成されてもよい。
【0116】
図19は、減算を使用し、情報を書き込むための例示的方法を図式的に図示する。減算標的識別子は、酵素的に(例えば、CRISPR/Casシステムを使用して)、または切断、光学、熱、電子、静的、もしくは放電、または他の荷電粒子ビーム、選別、液体噴射、音響、機械的剥離、もしくは穿孔方法によって、除去されてもよい。成分が識別子を形成するように併置されるがまだ反応していない、ある実施形態では、各場所における成分は、不要な識別子産生反応設定が減算された後にアセンブルされてもよい。アイテム1927は、4つの2進層を備える積方式を使用して符号化される所与のビットストリームの樹形図を図示する。本実施例では、組み合わせ空間は、16個の明確に異なる識別子を備える。16個の全ての識別子は、最初に、1925に示されるように、個々のコンパートメントの中へ併置されてもよい。次いで、これらの識別子は、
図9で概説される考慮事項の通りに、符号化される情報の中の個々の記号、本実施例ではビット値にマップされてもよい。いったんビットと識別子との間の対応が固定されると、識別子を構築するために使用される成分のセットを含有する、各コンパートメントが、ビットストリーム内のビット値にマップされてもよい。その値が「0」であるビットにマップされるコンパートメント毎に、そのコンパートメント内の成分は、識別子がそのコンパートメント内でアセンブルされないように、破壊または削除もしくは別様に操作されてもよい(アイテム1930)。ビット値「1」を伴うビットにマップされるコンパートメント毎に、そのコンパートメント内の成分は、識別子をアセンブルするために使用される全ての試薬を供給され、削除または破壊されない(アイテム1931)。別の実施形態では、全ての識別子が、アセンブルされ、「0」のビット値に対応するものは、アセンブリ後に削除または破壊される。最終的に、全ての存続している識別子が、与えられたビットストリームを符号化し、コンパクトな形式で記憶するように、ともにプールされる。
【0117】
本システムは、生成された識別子ライブラリを読み取るためのユニットを備えてもよい。実施例では、核酸符号化データを解読するステップは、Illuminaシークエンシング等の核酸鎖の塩基毎のシークエンシングによって、またはキャピラリ電気泳動によるフラグメンテーション分析等の具体的核酸配列の存在もしくは不在を示すシークエンシング技法を利用することによって、達成されてもよい。シークエンシングは、可逆的ターミネータの使用を採用してもよい。シークエンシングは、天然または非天然(例えば、工学的)ヌクレオチドもしくはヌクレオチド類似体の使用を採用してもよい。代替として、または加えて、核酸配列を復号するステップは、限定されないが、光学、電気化学、または化学信号を生成する任意の方法を含む、種々の分析技法を使用して実施されてもよい。限定されないが、ポリメラーゼ連鎖反応(PCR)、デジタルPCR、サンガーシークエンシング、高スループットシークエンシング、合成によるシークエンシング、単一分子シークエンシング、ライゲーションによるシークエンシング、RNA-Seq(Illumina)、次世代シークエンシング、デジタル遺伝子発現(Helicos)、クローン単一マイクロアレイ(Solexa)、ショットガンシークエンシング、マキサム・ギルバートシークエンシング、または大規模並列シークエンシングを含む、種々のシークエンシングアプローチが、使用されてもよい。
【0118】
種々の読出方法が、符号化された核酸から情報を引き出すために使用されることができる。実施例では、マイクロアレイ(または任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、および種々のシークエンシングプラットフォームが、符号化された配列を読み出すために、または拡張デジタル符号化データによって、さらに使用されることができる。データ(例えば、特定のバーコードに属するデータ)のサブセットは、前方向に5′バーコードに結合する1つのプライマおよび逆方向に共通3′配列に結合する1つのプライマとのPCRによって、プールからアクセスされることができる。
【0119】
アクセスされたデータは、同一のデバイスの中で読み取られてもよい、またはアクセスされたデータは、別のデバイスに転送されてもよい。読取デバイスは、識別子を検出および識別するための検出ユニットを備えてもよい。検出ユニットは、識別子の存在または不在を識別するためのシーケンサ、ハイブリダイゼーションアレイ、または他のユニットの一部であってもよい。シークエンシングプラットフォームは、具体的には、核酸配列に符号化される情報を解読し、読み取るために設計されてもよい。シークエンシングプラットフォームは、一本または二本鎖核酸分子を配列決定することに専念してもよい。シークエンシングプラットフォームは、個々の塩基を読み取ること(例えば、塩基毎のシークエンシング)によって、または核酸分子内に組み込まれる核酸配列全体の存在もしくは不在を検出することによって、核酸符号化データを解読してもよい。代替として、シークエンシングプラットフォームは、Illuminaシークエンシングまたはキャピラリ電気泳動によるフラグメンテーション分析等のシステムであってもよい。代替として、または加えて、核酸配列を解読するステップは、限定されないが、光学、電気化学、または化学信号を生成する任意の方法を含む、デバイスによって実装される種々の分析技法を使用して、実施されてもよい。
【0120】
識別子ライブラリ内の識別子を識別するステップは、任意の識別またはシークエンシング方法を使用して、実施されてもよい。
図20は、ハイブリダイゼーションによって符号化された情報を読み取る例示的方法を図式的に図示する。読取ユニットは、1つまたはそれを上回るハイブリダイゼーションアレイを備えてもよい。ハイブリダイゼーションアレイは、表面または支持体2002に結合される識別子2001を備えてもよい。識別子は、光学検出を使用して、単一分子分解能または分子群の分解能を可能にするように空間的に配向されてもよい。識別子の1つまたはそれを上回る成分と相補性を共有するプローブ配列2003が、アレイに導入されてもよい。プローブ配列は、1つまたはそれを上回るフルオロフォア2004を含んでもよい。実施例では、プローブは、フルオロフォアおよび消光剤2005を含む。消光剤は、別の染料またはフルオロフォアもしくは消光本体であってもよい。識別子へのプローブのハイブリダイゼーションは、フルオロフォアおよび消光剤を分離し、検出可能な信号を作成してもよい。他の実施形態では、プローブは、具体的プローブまたはプローブの具体的セットを示す光学シグネチャとして検出され得る、フルオロフォアの列を含む。個々の成分が、面積の光学撮像または共焦点技法を用いる等の面積の走査によって検出されてもよい。プローブの順次導入、プローブの撮像および除去が、所与の識別子上の成分のうちのいくつかまたは全てを識別するために使用されてもよい。即時に識別され得る成分の数に限界が存在しなくてもよい。異なる成分へのプローブは、異なる光学シグネチャを有してもよい、または同一の光学シグネチャを有してもよい。
【0121】
識別子配列を検出するための別の方法は、ナノ細孔シークエンシングを含んでもよい。
図21は、ナノ細孔シークエンシングによって読み取る例示的方法を図式的に図示する。分子は、電圧が細孔またはチャネルを横断して印加される、細孔またはチャネルを通して進行するときに、一意のインピーダンスシグネチャを有してもよい。いくつかの既存の核酸シークエンシングプラットフォームは、本性質を使用し、核酸分子中の塩基対の配列を判定する。これらのプラットフォームは、核酸のより長い分子を配列決定し、非天然ヌクレオチド、ならびに天然および非天然ヌクレオチドの両方を修飾するために使用され得る化学部分の存在または不在を検出することができるという利点を有する。実施例では、識別子配列2103が、識別子配列の成分に交配するプローブ2104と組み合わせられる。プローブは、細孔2101を通して進行しながら一意のインピーダンス信号を生成する分子を含んでもよい。細孔またはチャネルは、基質2102内にナノメートルスケールであるように微細加工されてもよく、基質は、生体膜または結晶性材料を含んでもよい。代替として、または加えて、各層内の各成分は、一意のインピーダンスシグネチャを生成する一意の分子を含んでもよい。一意の分子は、配列ベースのヌクレオチド/タンパク質/ハイブリッドタグ、ヌクレオチドの化学修飾、蛍光プローブ、またはそれらの任意の組み合わせを含んでもよい。いくつかの実施形態では、信号は、細孔またはチャネルを通した電流であってもよく、他の実施形態では、検出可能な信号は、細孔またはチャネルに隣接するインピーダンス検出器によって検出される。信号2105のバーストは、個々の識別子を示すシグネチャを提供する。
【0122】
核酸分子に記憶されたデータを符号化する、書き込む、および読み取るためのシステムは、自動化されてもよい、または自動化されなくてもよい。システムは、データへのクラウドベースのアクセスを可能にするようにネットワーク化されてもよい、または本システムは、ネットワーク化されなくてもよい。本システムは、ゼロもしくは低重力環境内で、および/または高もしくは低大気圧または真空下で動作することが可能であり得る。本システムは、識別子ならびに他の内部電子機器、化学物質、および酵素の分解を防止するように、電磁波および他の放射線から遮蔽されてもよい。本システムは、外部電源を使用してもよい、または電源を備えてもよい。本システムは、発電方法を備えてもよい。本システムのユニットのうちの1つまたはそれを上回るものは、モジュール式であり得、モバイルデバイスであってもよい。モジュールまたはモバイルデバイスは、第三者車両に配設または内蔵されてもよい。本システムのモジュールもしくはユニットのうちの1つまたはそれを上回るものは、物理的に、もしくはデジタルで外部機械と相互作用してもよい。例えば、本システムは、外部機械から物理的もしくはデジタル入力をとってもよい、または本システムは、物理的材料もしくはデジタル情報を外部機械に出力してもよい。
【0123】
核酸分子内の情報記憶は、限定されないが、長期情報記憶、機密情報記憶、および医療情報の記憶を含む、種々の用途を有してもよい。実施例では、個人の医療情報(例えば、医療履歴および記録)が、核酸分子に記憶され、身に着けて持ち運ばれてもよい。情報は、身体の外部に(例えば、ウェラブルデバイス内に)、または身体の内部に(例えば、経皮カプセル内に)記憶されてもよい。患者が診療所または病院に運ばれたとき、サンプルが、デバイスまたはカプセルから採取されてもよく、情報が、核酸シーケンサの使用を用いて解読されてもよい。核酸分子内の医療記録の個人記憶は、コンピュータおよびクラウドベースの記憶システムの代替物を提供してもよい。核酸分子内の医療記録の個人記憶は、医療記録がハッキングされる事例または普及率を低減させ得る。医療記録のカプセルベースの記憶に使用される核酸分子は、ヒトゲノム配列に由来してもよい。ヒトゲノム配列の使用は、カプセル破損および漏出の場合に核酸配列の免疫原性を減少させ得る。
【0124】
本明細書に説明される組み合わせアセンブリ方法は、アミノ酸鎖を符号化するDNAライブラリを作成するために使用されてもよい。アミノ酸鎖は、ペプチドまたはタンパク質であってもよい。DNA成分は、組み合わせライブラリの全ての要素に共通し得る、機能的または構造的不活性コドンに沿って接合点を形成してもよい。DNA成分は、処理されたペプチドまたはタンパク質が可変アミノ酸鎖の間に瘢痕を有していないように、イントロンに沿って接合点を形成してもよい。各組み合わせDNA分子は、別個の反応チャンバ内でアセンブルされてもよい。生体内発現検定が、発現を検出するように実施されてもよい。各組み合わせDNA分子は、ともにプールされてもよく、個々の生体外発現検定は、液滴に分子をカプセル化することによって実施されてもよい。生体内発現検定が、分子を細胞に変換することによって実施されてもよい。DNAは、具体的アミノ酸鎖変異体含む細胞および液滴が識別されるように、バーコードとして作用してもよい。検定は、細胞/液滴が蛍光強度によってビンに選別され、各組み合わせDNA配列を特定の出力と相関させる目的のために配列決定され得るように、蛍光出力を有することができる。組み合わせDNA分子は、RNAを符号化してもよい。プールされた検定は、出力自体がRNA豊富である場合に、液滴または細胞の外側で行われてもよい(例えば、RNAアプタマスクリーニングおよび試験)。組み合わせDNAは、細胞の内側の遺伝子を上方調整または下方調整する、CRISPR gRNAもしくはマイクロRNAの組み合わせを符号化してもよい。組み合わせDNAライブラリは、組み合わせ遺伝子調整が細胞摂動中に細胞性質に影響を及ぼす方法を試験するように、細胞に変換されてもよい。組み合わせDNAライブラリは、経路内の遺伝子の組み合わせを符号化してもよい。各DNA成分は、遺伝子発現構築物を含有してもよく、DNA成分は、遺伝子の間の不活性DNA配列に沿って接合点を形成してもよい。DNA配列は、細胞に変換されてもよく、遺伝子過剰発現の異なる組み合わせが異なる細胞摂動中に細胞性質に影響を及ぼす方法が、調査されてもよい。
(コンピュータ制御システム)
【0125】
本開示は、本開示の方法を実装するようにプログラムされる、コンピュータシステムを提供する。
図22は、デジタル情報を核酸配列に符号化する、および/または核酸配列に由来する情報を読み取る(例えば、解読する)ようにプログラムもしくは別様に構成される、コンピュータシステム2201を示す。コンピュータシステム2201は、例えば、符号化されたビットストリームまたはバイトストリームからの所与のビットもしくはバイトのビット値およびビット場所情報等の本開示の符号化ならびに解読手順の種々の側面を調整することができる。
【0126】
コンピュータシステム2201は、単一コアまたはマルチコアプロセッサ、もしくは並列処理用の複数のプロセッサであり得る、中央処理装置(CPU、本明細書ではまた、「プロセッサ」および「コンピュータプロセッサ」)2205を含む。コンピュータシステム2201はまた、メモリまたはメモリ場所2210(例えば、ランダムアクセスメモリ、読取専用メモリ、フラッシュメモリ)、電子記憶ユニット2215(例えば、ハードディスク)、1つまたはそれを上回る他のシステムと通信するための通信インターフェース2220(例えば、ネットワークアダプタ)、ならびにキャッシュ、他のメモリ、データ記憶装置、および/または電子ディスプレイアダプタ等の周辺デバイス2225も含む。メモリ2210、記憶ユニット2215、インターフェース2220、および周辺デバイス2225は、マザーボード等の通信バス(実線)を通してCPU2205と通信する。記憶ユニット1115は、データを記憶するためのデータ記憶ユニット(またはデータレポジトリ)であり得る。コンピュータシステム2201は、通信インターフェース2220の助けを借りて、コンピュータネットワーク(「ネットワーク」)1130に動作可能に結合されることができる。ネットワーク2230は、インターネット、インターネットおよび/またはエクストラネット、もしくはインターネットと通信しているイントラネットおよび/またはエクストラネットであり得る。ネットワーク2230は、ある場合には、電気通信および/またはデータネットワークである。ネットワーク2230は、クラウドコンピューティング等の分散コンピューティングを可能にし得る、1つまたはそれを上回るコンピュータサーバを含むことができる。ネットワーク2230は、ある場合には、コンピュータシステム2201の助けを借りて、コンピュータシステム2201に結合されたデバイスがクライアントまたはサーバとして挙動することを可能にし得る、ピアツーピアネットワークを実装することができる。
【0127】
CPU2205は、プログラムまたはソフトウェアで具現化され得る、一連の機械可読命令を実行することができる。命令は、メモリ2210等のメモリ場所に記憶されてもよい。命令は、後に、本開示の方法を実装するようにCPU2205をプログラムまたは別様に構成し得る、CPU2205に指向されることができる。CPU2205によって行われる動作の実施例は、フェッチ、解読、実行、およびライトバックを含むことができる。
【0128】
CPU2205は、集積回路等の回路の一部であり得る。システム2201の1つまたはそれを上回る他の構成要素が、回路に含まれることができる。ある場合には、回路は、特定用途向け集積回路(ASIC)である。
【0129】
記憶ユニット2215は、ドライバ、ライブラリ、および保存されたプログラム等のファイルを記憶することができる。記憶ユニット2215は、ユーザデータ、例えば、ユーザ選好およびユーザプログラムを記憶することができる。コンピュータシステム2201は、ある場合には、イントラネットまたはインターネットを通してコンピュータシステム2201と通信している遠隔サーバ上に位置するもの等の、コンピュータシステム2201の外部にある1つまたはそれを上回る付加的データ記憶ユニットを含むことができる。
【0130】
コンピュータシステム2201は、ネットワーク2230を通して1つまたはそれを上回る遠隔コンピュータシステムと通信することができる。例えば、コンピュータシステム2201は、核酸の配列に符号化または解読されるデータを分析する経過においてユーザによって使用され得る、ユーザの遠隔コンピュータシステムまたは他のデバイスもしくは機械(例えば、核酸配列内の窒素塩基の順序を化学的に判定するためのシーケンサまたは他のシステム)と通信することができる。遠隔コンピュータシステムの実施例は、パーソナルコンピュータ(例えば、ポータブルPC)、スレートまたはタブレットPC(例えば、AppleiPad(登録商標)、SamsungGalaxy Tab)、電話、スマートフォン(例えば、AppleiPhone(登録商標)、Android使用可能デバイス、Blackberry)、または携帯情報端末を含む。ユーザは、ネットワーク2230を介してコンピュータシステム2201にアクセスすることができる。
【0131】
本明細書に説明されるような方法は、例えば、メモリ2210または電子記憶ユニット2215上等のコンピュータシステム2201の電子記憶場所上に記憶された機械(例えば、コンピュータプロセッサ)実行可能コードを介して実装されることができる。機械実行可能または機械可読コードは、ソフトウェアの形態で提供されることができる。使用中に、コードは、プロセッサ2205によって実行されることができる。ある場合には、コードは、記憶ユニット2215から読み出され、プロセッサ2205による容易なアクセスのためにメモリ2210上に記憶されることができる。ある状況では、電子記憶ユニット1115は、排除されることができ、機械実行可能命令が、メモリ2210上に記憶される。
【0132】
コードは、コードを実行するように適合されるプロセッサを有する機械と併用するために事前にコンパイルおよび構成されることができる、または実行時間中にコンパイルされることができる。コードは、事前コンパイルされた、またはコンパイルされた時点の様式で、コードが実行されることを可能にするように選択され得る、プログラミング言語で供給されることができる。
【0133】
コンピュータシステム2101等の本明細書で提供されるシステムおよび方法の側面は、プログラミングで具現化されることができる。本技術の種々の側面は、典型的には、一種の機械可読媒体上で搬送される、またはその中で具現化される、機械(もしくはプロセッサ)実行可能コードおよび/または関連データの形態の「製品」もしくは「製造品」と考えられてもよい。機械実行可能コードは、メモリ(例えば、読取専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)またはハードディスク等の電子記憶ユニット上に記憶されることができる。「記憶」型媒体は、ソフトウェアプログラミングのためにいかなる時でも非一過性の記臆装置を提供し得る、コンピュータ、プロセッサ、もしくは同等物の有形メモリ、または種々の半導体メモリ、テープドライブ、ハードドライブ、および同等物等のそれらの関連モジュールのうちのいずれかもしくは全てを含むことができる。ソフトウェアの全てまたは部分は、時として、インターネットまたは種々の他の電気通信ネットワークを通して通信されてもよい。そのような通信は、例えば、1つのコンピュータまたはプロセッサから別のコンピュータまたはプロセッサへ、例えば、管理サーバまたはホストコンピュータからアプリケーションサーバのコンピュータプラットフォームへのソフトウェアのロードを可能にし得る。したがって、ソフトウェア要素を持ち得る別のタイプの媒体は、ローカルデバイス間の物理的インターフェースを横断し、有線および光学地上通信線ネットワークを通し、かつ種々のエアリンクを経由して使用されるような光波、電波、および電磁波を含む。有線もしくは無線リンク、光学リンク、または同等物等のそのような波動を搬送する物理的要素もまた、ソフトウェアを持つ媒体と見なされてもよい。本明細書で使用されるように、非一過性の有形「記憶」媒体に制限されない限り、コンピュータまたは機械「可読媒体」等の用語は、実行のために命令をプロセッサに提供することに参加する任意の媒体を指す。
【0134】
したがって、コンピュータ実行可能コード等の機械可読媒体は、有形記憶媒体、搬送波媒体、または物理的伝送媒体を含むが、それらに限定されない、多くの形態を成してもよい。不揮発性記憶媒体は、例えば、図面に示されるデータベース等を実装するために使用されるような、任意のコンピュータまたは同等物の中の記憶デバイスのうちのいずれか等の光学または磁気ディスクを含む。揮発性記憶媒体は、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリを含む。有形伝送媒体は、同軸ケーブル、すなわち、コンピュータシステム内のバスを備えるワイヤを含む、銅線および光ファイバを含む。搬送波伝送媒体は、電気もしくは電磁信号、または高周波(RF)および赤外線(IR)データ伝送中に生成されるもの等の音波もしくは光波の形態をとってもよい。コンピュータ可読媒体の一般的な形態は、したがって、例えば、フロッピー(登録商標)ディスク、フレキシブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVDまたはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを伴う任意の他の物理的記憶媒体、RAM、ROM、PROMおよびEPROM、FLASH-EPROM、任意の他のメモリチップまたはカートリッジ、データもしくは命令を輸送する搬送波、そのような搬送波を輸送するケーブルまたはリンク、もしくはコンピュータがプログラミングコードおよび/またはデータを読み取り得る任意の他の媒体を含む。コンピュータ可読媒体のこれらの形態の多くは、実行するために1つまたはそれを上回る命令の1つまたはそれを上回るシーケンスをプロセッサに搬送することに関与し得る。
【0135】
コンピュータシステム2201は、例えば、DNA記憶データに符号化または解読される、核酸、未加工データ、ファイル、および圧縮または展開zipファイルを符号化または解読している、機械またはコンピュータシステムによって符号化される、もしくは読み取られる、クロマトグラフ、配列、ならびにビット、バイト、またはビットストリームを含む、配列出力データを提供するためのユーザインターフェース(UI)2240を備える、電子ディスプレイ2235を含む、またはそれと通信することができる。UIの実施例は、限定ではないが、グラフィカルユーザインターフェース(GUI)およびウェブベースのユーザインターフェースを含む。
【0136】
本開示の方法およびシステムは、1つまたはそれを上回るアルゴリズムを介して実装されることができる。アルゴリズムが、中央処理装置2205による実行時にソフトウェアを介して実装されることができる。アルゴリズムは、例えば、デジタル情報を符号化することに先立って、未加工データまたはzipファイル圧縮データからデジタル情報をコード化するためのカスタマイズされた方法を判定するために、DNAインデックスおよび未加工データまたはzipファイル圧縮もしくは展開データと併用されることができる。
【0137】
本発明の好ましい実施形態が本明細書で示され、説明されているが、そのような実施形態は、一例のみとして提供されることが当業者に明白となるであろう。本発明が本明細書内で提供される具体的実施例によって限定されることは意図されない。本発明は、前述の明細書を参照して説明されているが、本明細書の実施形態の説明および例証は、限定的な意味で解釈されるように意図されていない。多数の変形例、変更、および代用が、ここで、本発明から逸脱することなく、当業者に想起されるであろう。さらに、本発明の全ての側面は、種々の条件および変数に依存する、本明細書に記載される具体的描写、構成、または相対的割合に限定されないことを理解されたい。本明細書に説明される本発明の実施形態の種々の代替物が、本発明を実践する際に採用され得ることを理解されたい。したがって、本発明はまた、任意のそのような代替物、修正、変形例、または均等物も網羅するものとすると考慮される。以下の請求項は、本発明の範囲を定義し、それにより、これらの請求項およびそれらの均等物の範囲内の方法および構造が対象となることが意図される。