IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ カタログ テクノロジーズ, インコーポレイテッドの特許一覧

特表2024-542197ブロックチェーン及び非代替性トークンの核酸格納
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-11-13
(54)【発明の名称】ブロックチェーン及び非代替性トークンの核酸格納
(51)【国際特許分類】
   C40B 40/06 20060101AFI20241106BHJP
   C12Q 1/6869 20180101ALI20241106BHJP
   C12Q 1/686 20180101ALI20241106BHJP
   C12Q 1/34 20060101ALI20241106BHJP
   C12Q 1/6844 20180101ALI20241106BHJP
   C12Q 1/6806 20180101ALI20241106BHJP
【FI】
C40B40/06
C12Q1/6869 Z
C12Q1/686 Z
C12Q1/34
C12Q1/6844 Z
C12Q1/6806 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024529480
(86)(22)【出願日】2022-11-18
(85)【翻訳文提出日】2024-07-03
(86)【国際出願番号】 US2022050435
(87)【国際公開番号】W WO2023091683
(87)【国際公開日】2023-05-25
(31)【優先権主張番号】63/281,395
(32)【優先日】2021-11-19
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.ANDROID
(71)【出願人】
【識別番号】519173978
【氏名又は名称】カタログ テクノロジーズ, インコーポレイテッド
(74)【代理人】
【識別番号】100079108
【弁理士】
【氏名又は名称】稲葉 良幸
(74)【代理人】
【識別番号】100109346
【弁理士】
【氏名又は名称】大貫 敏史
(74)【代理人】
【識別番号】100117189
【弁理士】
【氏名又は名称】江口 昭彦
(74)【代理人】
【識別番号】100134120
【弁理士】
【氏名又は名称】内藤 和彦
(72)【発明者】
【氏名】カンバラ,トレイシー
(72)【発明者】
【氏名】レコウ,ニック
(72)【発明者】
【氏名】ヴァラダラジャル,ガネシュクマール
(72)【発明者】
【氏名】ジョーンズ,シェリル
(72)【発明者】
【氏名】バティア,スワップニル,ピー.
(72)【発明者】
【氏名】ミム,ショーン
(72)【発明者】
【氏名】パク,ヒョンジュン
(72)【発明者】
【氏名】リーク,デヴィン
(72)【発明者】
【氏名】ギルデア,ケヴィン
(72)【発明者】
【氏名】ラムリデン,ミリアム
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ42
4B063QR08
4B063QR10
4B063QR42
4B063QR55
4B063QR62
4B063QS25
4B063QX01
(57)【要約】
【課題】DNA格納及びDNA計算をブロックチェーン技術、特に非中央集権台帳及び非代替性トークン(NFT)と統合する技術。
【解決手段】これらの技術の幾つかの実施態様は、ブロックチェーン鍵をDNA分子に格納するシステム及び方法である。これらの技術の幾つかの実施態様は、例えば資産トークン化のために、NFT情報を格納するシステム及び方法である。本明細書に開示される技術は、生物学的ブロックチェーンを実施するために展開されることもできる。
【選択図】図2
【特許請求の範囲】
【請求項1】
ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法であって、
ブロックチェーン取引の鍵を表すデジタル情報を核酸分子の鍵に格納することであって、それにより、核酸分子の前記ライブラリを取得する、格納することと、
核酸分子の前記ライブラリの少なくとも一部をシーケンシングすることであって、それにより、シーケンシング読出しを取得する、シーケンシングすることと、
前記鍵を表す記号列に前記シーケンシング読出しを変換することと、
前記記号列を適用することであって、それにより、ブロックチェーン取引の一部である電子データファイルにアクセスする、適用することと、
を含む方法。
【請求項2】
前記鍵は秘密鍵である、請求項1に記載の方法。
【請求項3】
前記鍵は公開鍵である、請求項1に記載の方法。
【請求項4】
変換することは、復号化マップを使用して前記シーケンシング読出しを前記記号列にマッピングすることを含む、請求項1~3のいずれか1項に記載の方法。
【請求項5】
前記復号化マップは、非代替性トークン(NFT)であるか又は前記NFTを含む、請求項4に記載の方法。
【請求項6】
前記ブロックチェーン取引は暗号通貨取引である、請求項1~5のいずれか1項に記載の方法。
【請求項7】
核酸分子の前記ライブラリの少なくとも一部をコピーすることを含む、請求項1~6のいずれか1項に記載の方法。
【請求項8】
少なくとも1つの化学的計算ステップを実行することを含む、請求項1~7のいずれか1項に記載の方法。
【請求項9】
前記計算は少なくとも1つのブール論理ゲート演算を含む、請求項8に記載の方法。
【請求項10】
追跡又は認証のためにオブジェクトにタグ付けする方法であって、
ブロックチェーンにおける非代替性トークン(NFT)の所有権を表すデジタル情報を核酸分子に格納することであって、それにより、核酸分子のライブラリを取得する、格納することと、
前記オブジェクトに、前記ライブラリを構成するタグを関連付けることであって、それにより、追跡及び認証に向けてタグ付けられたオブジェクトを取得する、関連付けることと、
を含む方法。
【請求項11】
前記デジタル情報は、NFTへの公開鍵を表す、請求項10に記載の方法。
【請求項12】
核酸分子の前記ライブラリは、液滴に封入される、請求項10又は11に記載の方法。
【請求項13】
核酸分子の前記ライブラリはバイアルに格納される、請求項10~12のいずれか1項に記載の方法。
【請求項14】
核酸分子の前記ライブラリは凍結乾燥される、請求項10又は11に記載の方法。
【請求項15】
核酸分子の前記ライブラリは、前記オブジェクトの表面に適用される、請求項10~14のいずれか1項に記載の方法。
【請求項16】
核酸分子の前記ライブラリは、生物学的胞子を使用して前記オブジェクトに適用される、請求項10~15のいずれか1項に記載の方法。
【請求項17】
核酸分子の前記ライブラリは、前記オブジェクトへの微量注入プリントにより適用される、請求項10~15のいずれか1項に記載の方法。
【請求項18】
前記デジタル情報は、前記オブジェクトの記述を含む、請求項10~17のいずれか1項に記載の方法。
【請求項19】
前記ライブラリは、DNA鎖の幾つかのコピーを含み、前記デジタル情報は、DNA鎖の前記幾つかのコピーにより表される、請求項10~18のいずれか1項に記載の方法。
【請求項20】
前記デジタル情報は、前記ライブラリにおけるDNA鎖の長さ又は重量により表される、請求項10~19のいずれか1項に記載の方法。
【請求項21】
前記オブジェクトは物理的オブジェクトである、請求項10~20のいずれか1項に記載の方法。
【請求項22】
前記オブジェクトは仮想オブジェクトである、請求項10~20のいずれか1項に記載の方法。
【請求項23】
ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法であって、
コンピュータネットワークの第1のプロセッサにより、ブロックチェーンのアイテムの取引を要求することと、
前記コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、前記取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することと、
前記取引データブロックを複数のノードが関連付けられた前記コンピュータネットワークの複数のプロセッサにブロードキャストすることと、
前記複数のノードが関連付けられた前記プロセッサにより、前記取引を検証することと、
前記コンピュータネットワークの1つ又は複数のプロセッサにより、前記取引データブロックを前記ブロックチェーンに追加することであって、それにより、更新されたブロックチェーンを取得する、追加することと、
前記更新されたブロックチェーンのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、前記更新されたブロックチェーンの前記デジタル情報を表す核酸分子の前記ライブラリを取得する、格納することと、
前記取引を完了することと、
を含む方法。
【請求項24】
核酸分子の前記ライブラリは、コピーされ、1つ又は複数のノードに分配される、請求項23に記載の方法。
【請求項25】
核酸分子の前記ライブラリはシーケンシングされて、配列情報を取得する、請求項23又は24に記載の方法。
【請求項26】
前記配列情報は、コピーされ、1つ又は複数のノードに分配される、請求項25に記載の方法。
【請求項27】
ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法であって、
コンピュータネットワークの第1のプロセッサにより、複数の核酸分子にコードされたブロックチェーンのアイテムの取引を要求することと、
前記コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、前記取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することと、
前記取引データブロックのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、前記取引データブロックのデジタル情報を表す核酸分子の前記ライブラリを取得する、格納することと、
を含む方法。
【請求項28】
核酸分子の前記ライブラリを中央レジスタに転送することと、
前記中央レジスタにより前記取引を検証することと、
前記中央レジスタにより、核酸分子の前記ライブラリを前記ブロックチェーンに追加することであって、それにより、複数の核酸分子にコードされた更新されたブロックチェーンを取得する、追加することと、
前記取引を完了することと、
を含む、請求項27に記載の方法。
【請求項29】
コンピュータネットワークの第1のプロセッサにより、複数の核酸分子にコードされたブロックチェーンのアイテムの取引を要求することと、
前記コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、前記取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することと、
前記取引データブロックのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、前記取引データブロックのデジタル情報を表す核酸分子の前記ライブラリを取得する、格納することと、
核酸分子の前記ライブラリをコピーすることであって、それにより、前記ライブラリの複数のコピーを取得する、コピーすることと、
前記コピーを複数のノードに転送することであって、各ノードは、前記ブロックチェーンをコードする複数の核酸分子を含む、転送することと、
前記ノードにより前記取引を検証することと、
各ノードにより、前記ライブラリのコピーを、前記ブロックチェーンをコードする複数の核酸分子に追加することであって、それにより、更新されたブロックチェーンを取得する、追加することと、
前記取引を完了することと、
を含む、請求項28に記載の方法。
【請求項30】
コンピュータネットワークの第1のプロセッサにより、複数の核酸分子を表す配列情報にコードされたブロックチェーンのアイテムの取引を要求することと、
前記コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、前記取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することと、
前記取引データブロックのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、前記取引データブロックのデジタル情報を表す核酸分子の前記ライブラリを取得する、格納することと、
核酸分子の前記ライブラリをシーケンシングすることであって、それにより、ライブラリ配列情報を取得する、シーケンシングすることと、
前記ライブラリ配列情報を複数のノードが関連付けられた前記コンピュータネットワークの複数のプロセッサにブロードキャストすることと、
前記複数のノードが関連付けられた前記プロセッサにより、前記取引を検証することと、
前記コンピュータネットワークの1つ又は複数のプロセッサにより、前記配列情報を前記ブロックチェーンに追加することであって、それにより、更新されたブロックチェーンを取得する、追加することと、
前記取引を完了することと、
を含む、請求項28に記載の方法。
【請求項31】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値及び前記記号列内の記号位置を有する、受信することと、
(b)第1の識別子核酸分子を形成することであって、
(1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、前記M個の層の各々から1つの成分核酸分子を選択すること、
(2)前記M個の選択された成分核酸分子を区画に堆積させること、
(3)第1及び第2の層からの前記成分核酸分子が前記識別子核酸分子の前記第1及び第2の末端分子に対応し、第3の層における前記成分核酸分子が前記識別子核酸分子の第3の分子に対応し、前記第1の識別子核酸分子において前記M個の層の物理的順序を規定するように、(2)における前記M個の選択された成分核酸分子を物理的にアセンブルすることであって、それにより、第1及び第2の末端分子と、前記第1の末端分子と前記第2の末端分子との間に位置する前記第3の分子とを有する前記第1の識別子核酸分子を形成する、物理的にアセンブルすること、
を行うことにより行われる、形成することと、
(c)複数の追加の識別子核酸分子を形成することであって、前記追加の識別子核酸分子は各々、(1)第1及び第2の末端分子と、前記第1の末端分子と前記第2の末端分子との間に位置する第3の分子とを有し、(2)各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の前記第1の末端分子、前記第2の末端分子、及び前記第3の分子の少なくとも1つは、(b)における前記第1の識別子核酸分子の標的分子と同一であり、プローブが、前記記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項32】
前記少なくとも1つの追加の識別子核酸分子の前記第1及び第2の末端分子の少なくとも一方は、(b)における前記第1の識別子核酸分子の標的分子と同一である、請求項31に記載の方法。
【請求項33】
前記M個の選択された成分核酸分子を物理的にアセンブルすることは、前記成分核酸分子のライゲーションを含む、請求項31又は32に記載の方法。
【請求項34】
各層からの前記成分核酸分子は、別の層からの成分核酸分子の少なくとも1つの粘着末端と相補的な少なくとも1つの粘着末端を含み、(b)及び(c)における前記識別子核酸分子の形成のための粘着末端ライゲーションを可能にする、請求項31~33のいずれか1項に記載の方法。
【請求項35】
(c)における前記少なくとも1つの追加の識別子核酸分子の前記第1の分子は、(b)における前記識別子核酸分子の前記第1の末端分子と同一であり、(c)における前記少なくとも1つの追加の識別子核酸分子の前記第2の末端分子は、(b)における前記識別子核酸分子の前記第2の末端分子と同一である、請求項31~34のいずれか1項に記載の方法。
【請求項36】
前記プローブを使用することであって、それにより、前記第1の識別子核酸分子及び前記複数の追加の識別子核酸分子における少なくとも幾つかの識別子核酸分子の前記標的分子にハイブリダイズし、連続記号位置を有する各記号に対応する識別子核酸分子を選択する、使用することを更に含む、請求項31~35のいずれか1項に記載の方法。
【請求項37】
単一PCR反応を適用することであって、それにより、連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を増幅する、適用することを更に含む、請求項31~36のいずれか1項に記載の方法。
【請求項38】
連続記号位置を有する各記号に対応する前記少なくとも2つの識別子核酸分子は、前記識別子核酸分子の前記第3の分子中の特定の成分核酸分子を標的とする別のPCR反応により更に増幅可能である、請求項37に記載の方法。
【請求項39】
各層における前記成分核酸分子は、第1及び第2の末端領域を用いて構造化され、前記M個の層のうちの1つからの各成分核酸分子の前記第1の末端領域は、前記M個の層のうちの別の層からの任意の成分核酸分子の前記第2の末端領域に結合するような構造である、請求項31~38のいずれか1項に記載の方法。
【請求項40】
Mは3以上である、請求項31~39のいずれか1項に記載の方法。
【請求項41】
前記記号列内の各記号位置は、対応する異なる識別子核酸分子を有する、請求項31~40のいずれか1項に記載の方法。
【請求項42】
(b)及び(c)における前記識別子核酸分子は、各々が前記M個の層の各々からの1つの成分核酸分子を含む、可能な識別子核酸分子の組合せ空間のサブセットを表す、請求項31~41のいずれか1項に記載の方法。
【請求項43】
(d)における前記プール中の識別子核酸分子の有無は、前記記号列内の前記対応する各記号位置の前記記号値を表す、請求項42に記載の方法。
【請求項44】
連続記号位置を有する前記記号は、類似のデジタル情報を符号化する、請求項31~43のいずれか1項に記載の方法。
【請求項45】
前記M個の層の各々における成分核酸分子の数の分布は、非均一である、請求項31~44のいずれか1項に記載の方法。
【請求項46】
前記第3の層が前記第1の層又は前記第2の層のいずれよりも多くの成分核酸分子を含む場合、(d)における前記プールにアクセスするために使用されるPCRクエリは、前記第3の層が前記第1の層又は前記第2の層のいずれよりも少ない成分核酸分子を含む場合よりも大きな、アクセスされる識別子核酸分子のプールを生成する、請求項45に記載の方法。
【請求項47】
前記第3の層が前記第1の層又は前記第2の層のいずれよりも少ない成分核酸分子を含む場合、(d)における前記プールにアクセスするために使用されるPCRクエリは、前記第3の層が前記第1の層又は前記第2の層のいずれよりも多くの成分核酸分子を含む場合よりも小さな、アクセスされる識別子核酸分子のプールを生成し、前記より小さな、アクセスされる識別子核酸成分のプールは、前記記号列中の前記記号へのより高分解能のアクセスに対応する、請求項46に記載の方法。
【請求項48】
前記第1の層は最高優先度を有し、前記第2の層は2番目に高い最高優先度を有し、残りのM-2個の層は、前記第1の末端分子と前記第2の末端分子との間の対応する成分核酸分子を有する、請求項31~47のいずれか1項に記載の方法。
【請求項49】
(d)における前記プールは、前記第1及び第2の末端分子に特定の成分核酸分子を有する、前記プール中の全ての識別子核酸分子に1回のPCR反応でアクセスするのに使用することが可能である、請求項48に記載の方法。
【請求項50】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有し、前記デジタル情報は、ベクトルの集まりにより表される画像データを含む、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、前記M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、前記複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項51】
前記M個の層の少なくとも幾つかは、前記画像データの異なる特徴に対応する、請求項50に記載の方法。
【請求項52】
前記異なる特徴は、x座標、y座標、及び強度値又は強度値範囲を含む、請求項51に記載の方法。
【請求項53】
前記画像データを核酸分子に格納することにより、ランダムアクセス方式を使用して、色値について任意の近隣ピクセルに問い合わせることが可能になる、請求項50~52のいずれか1項に記載の方法。
【請求項54】
前記画像データを核酸分子に格納することにより、前記画像データの元の分解能の数分の一で前記画像データを復号化することが可能になる、請求項50~53のいずれか1項に記載の方法。
【請求項55】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有し、前記デジタル情報は、ベクトルの集まりにより表される画像データを含む、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、前記M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、前記複数の識別子核酸分子の各々は、(1)第1及び第2の末端分子と、前記第1の末端分子と前記第2の末端分子との間に位置する第3の分子とを有し、(2)各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の前記第1の末端分子、前記第2の末端分子、及び前記第3の分子の少なくとも1つは、(b)における前記第1の識別子核酸分子の標的分子と同一であり、単一のプローブが、前記記号列内で関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項56】
前記画像データを核酸分子に格納することにより、前記画像データの元の分解能の数分の一で前記画像データを復号化することが可能になり、前記画像データを前記数分の一で復号化することは、関心のあるフレームを識別するために監視画像のアーカイブ又はビデオアーカイブにおいて特定の視覚的特徴を探すのに使用される、請求項55に記載の方法。
【請求項57】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、クリックケミストリを使用して前記M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、前記複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項58】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、前記M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、前記複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、(e)前記プールに収集された少なくとも幾つかのデータを削除することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項59】
配列に特異的なプローブを使用することであって、それにより、(d)における前記プールから選択識別子核酸分子をプルダウンして、データを選択的に削除する、使用することを更に含む、請求項58に記載の方法。
【請求項60】
前記選択識別子核酸分子は、CRISPRベースの方法を使用して選択的に削除される、請求項59に記載の方法。
【請求項61】
(d)における前記プール中の前記識別子核酸分子を難読化して、データを非選択的に削除することを更に含む、請求項58~60のいずれか1項に記載の方法。
【請求項62】
超音波処理、オートクレーブ、漂白、塩基、酸、臭化エチジウム、又は他のDNA改変剤を用いた処置、照射、燃焼、及び非特異的ヌクレアーゼ消化を使用して、(d)における前記プールからの前記識別子核酸分子を分解して、データを非選択的に削除することを更に含む、請求項58~61のいずれか1項に記載の方法。
【請求項63】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)固定長以下のサイズの1つ又は複数のブロックに前記記号列を分割することと、
(c)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、前記M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(d)複数の識別子核酸分子を形成することであって、前記複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、(e)粉体、液体、又は固体の形態を有するプールに、(c)及び(d)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項64】
前記記号列、処理要件、又は前記デジタル情報の意図される用途に基づいて各ブロックの前記サイズを決定することを更に含む、請求項63に記載の方法。
【請求項65】
各ブロックのハッシュを計算することを更に含む、請求項63又は64に記載の方法。
【請求項66】
1つ又は複数の誤り検出及び修正を各ブロックに適用することと、1つ又は複数の誤り保護バイトを計算することとを更に含む、請求項63~65のいずれか1項に記載の方法。
【請求項67】
符号化又は復号化中、化学条件を最適化するコードワードのセットに前記1つ又は複数のブロックをマッピングすることを更に含む、請求項63~66のいずれか1項に記載の方法。
【請求項68】
コードワードの前記セットは、固定数の識別子核酸分子が、ライタシステムにおける各反応区画で、各反応区画内及び複数の反応区画にわたり概ね等しい濃度でアセンブルされるような固定重量を有する、請求項67に記載の方法。
【請求項69】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、前記M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、前記複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
(e)(d)における前記識別子核酸分子を使用して、AND、OR、NOT、又はNANDを含むブール論理演算が関わる計算を前記記号列に対して実行することであって、それにより、核酸分子の新しいプールを生成する、実行することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項70】
前記計算は、前記識別子核酸分子のいずれも復号化することなく、(d)における識別子核酸分子の前記プールに対して実行されて、前記記号列中の任意の前記記号を取得する、請求項69に記載の方法。
【請求項71】
前記計算を実行することは、ハイブリダイゼーション及び切断を含む一連の化学動作を含む、請求項69又は70に記載の方法。
【請求項72】
(a)における前記記号列はaと示され、サブビットストリームsを含み、(d)における前記プール中の前記複数の識別子核酸分子は2本鎖であり、dsAと示され、前記方法は、dsBと示され、サブビットストリームtを含むbと示される別の記号列を表す、別の複数の識別子核酸分子の別のプールを取得することを更に含み、前記計算は、一連のステップをdsA及びdsBに対して実行することによりサブビットストリームs及びtに対して実行される、請求項69~71のいずれか1項に記載の方法。
【請求項73】
dsA及びdsBに対する前記一連のステップは、初期化ステップを実行することを含み、前記初期化ステップは、
(9)dsAにおける前記2本鎖識別子核酸分子をAと示されるポジティブ1本鎖形態に変換することと、
(10)dsAにおける前記2本鎖識別子核酸分子をAと示されるネガティブ1本鎖形態に変換することであって、AはAの逆相補である、変換することと、
(11)dsBにおける前記2本鎖識別子核酸分子をBと示されるポジティブ1本鎖形態に変換することと、
(12)dsBにおける前記2本鎖識別子核酸分子をBと示されるネガティブ1本鎖形態に変換することであって、BはBの逆相補である、変換することと、
(13)sに対応するdsA中の識別子核酸分子としてdsPを選択することと、
(14)sに対応するA中の識別子核酸分子としてPを選択することと、
(15)tに対応するdsBにおける識別子核酸分子としてdsQを選択することと、
(16)tに対応するB中の識別子核酸分子としてQを選択することと、
を含む、請求項72に記載の方法。
【請求項74】
(9)sに対応する識別子核酸分子を削除するようにA又はdsAを更新することと、
(10)tに対応する識別子核酸分子を削除するようにB又はdsBを更新することと、
を更に含む、請求項73に記載の方法。
【請求項75】
前記計算はAND演算であり、dsA及びdsBに対する前記一連のステップは、
(1)A及びBを組み合わせ、相補的核酸分子をハイブリダイズし、完全相補的2本鎖核酸分子を核酸分子の前記新しいプールとして選択することにより、aとbとの間で前記AND演算を実行すること、又は
(2)P及びQを組み合わせ、相補的核酸分子をハイブリダイズし、完全相補的核酸分子を核酸分子の前記新しいプールとして選択することにより、sとtとの間で前記AND演算を実行すること
を更に含む、請求項72~74のいずれか1項に記載の方法。
【請求項76】
前記完全相補的核酸分子を選択することは、クロマトグラフィ、ゲル電気泳動、1本鎖特異的エンドヌクレアーゼ、1本鎖特異的エクソヌクレアーゼ、又はそれらの組合せを使用することを含む、請求項75に記載の方法。
【請求項77】
前記計算はOR演算であり、dsA及びdsBに対する前記一連のステップは、
(c)dsA及びdsBを組み合わせて核酸分子の前記新しいプールを生産することにより、aとbとの間で前記OR演算を実行すること、又は
(d)dsP及びdsQを組み合わせて核酸分子の前記新しいプールを生産することにより、sとtとの間で前記OR演算を実行すること
を更に含む、請求項72~74のいずれか1項に記載の方法。
【請求項78】
核酸分子の前記新しいプールを含むようにA又はdsAを更新することを更に含む、請求項74~77のいずれか1項に記載の方法。
【請求項79】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、前記M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することと、
(d)(b)及び(c)における前記識別子核酸分子を別個のビンに区画化することであって、各ビンは異なる記号値に対応する、区画化することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項80】
第1のタイプの記号の前記ビンは、前記第1のタイプの記号を有する記号位置に対応する識別子核酸分子を含む、請求項79に記載の方法。
【請求項81】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分のセットから選択されたM個の選択された成分を区画に堆積させ、前記M個の選択された成分を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、前記複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項82】
前記M個の選択された成分の個々の成分は、複数の部分を含み、各部分は核酸分子を含み、各部分は、1つ又は複数の化学的方法により同じ識別子にリンクされる、請求項81に記載の方法。
【請求項83】
前記複数の部分は各々、異なるデータ格納動作に対して別個の機能目的を果たす、請求項82に記載の方法。
【請求項84】
前記機能目的は、核酸ハイブリダイゼーションによるシーケンシングの容易さ及びアクセスの容易さを含む、請求項83に記載の方法。
【請求項85】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)塩基エディタを適用することにより、親識別子中の1つ又は複数の塩基をプログラマブルに変異させることにより第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項86】
前記塩基エディタはdCas9デアミナーゼを含む、請求項85に記載の方法。
【請求項87】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、前記M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、前記複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【請求項88】
請求項87に記載の方法の適用であって、前記適用は、情報の暗号化、実体の認証、又はランダム化が関わる適用でのエントロピー源としての使用を含む、適用。
【請求項89】
請求項81又は87に記載の方法の適用であって、1つ又は複数のばらばらの識別子ライブラリからの識別子核酸分子が、実体又は物理的場所を一意に識別するのに使用される、適用。
【請求項90】
デジタル情報を幾つかのランダムDNA種の区画に符号化することを含む、請求項30~89のいずれか1項に記載の方法。
【請求項91】
可能なDNA種の大きな組合せプールからDNA種をランダムにサンプリング及びシーケンシングすることにより、ランダムデータを生成することを含む、請求項30~90のいずれか1項に記載の方法。
【請求項92】
可能なDNA種の大きな組合せプールからDNA種のサブセットをランダムにサンプリング及びシーケンシングすることにより、ランダムデータを生成及び格納することを含む、請求項30~91のいずれか1項に記載の方法。
【請求項93】
DNA種の前記サブセットは増幅されて、それぞれの種の複数のコピーを作成する、請求項92に記載の方法。
【請求項94】
誤りチェック及び修正用の核酸分子が、DNA種の前記サブセットに追加されて、ロバスト将来読出しを可能にする、請求項92又は93に記載の方法。
【請求項95】
DNA種の前記サブセットは、一意の分子を用いてバーコード化され、DNA種のバーコード化されたサブセットのプールにおいて組み合わせされる、請求項92に記載の方法。
【請求項96】
DNA種のバーコード化されたサブセットの前記プール中のDNA種の特定のサブセットは、PCR又は核酸捕捉用の入力核酸プローブを用いてアクセス可能である、請求項95に記載の方法。
【請求項97】
(1)規定されたセットからのDNA種のサブセットで構成されるDNA鍵と、(2)鍵を受け入れ、アーチファクトをローカルにアンロックするために合致する鍵を探すか又は他の場所で前記アーチファクトにアクセスするためにハッシュ化されたトークンを返すDNAリーダとを含むシステムを用いて、物理又は仮想的なオブジェクトをセキュア化及び認証する方法。
【請求項98】
デジタル情報を核酸分子に格納することは、
(a)記号列として前記デジタル情報を受信することであって、前記記号列中の各記号は、記号値と、前記記号列内の記号位置とを有する、受信することと、
(b)第1の識別子核酸分子を形成することであって、
(1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、前記M個の層の各々から1つの成分核酸分子を選択すること、
(2)前記M個の選択された成分核酸分子を区画に堆積させること、
(3)(2)における前記M個の選択された成分核酸分子を物理的にアセンブルして、少なくとも1つの標的分子を含む指定された成分を含む前記第1の識別子核酸分子を形成し、前記指定された成分を含む前記第1の識別子核酸分子のアクセスを可能にすること、
を行うことにより行われる、形成することと、
(c)複数の追加の識別子核酸分子を物理的にアセンブルすることであって、前記複数の追加の識別子核酸分子は各々、前記指定された成分を有し、前記指定された成分は、(b)における前記第1の識別子核酸分子の前記少なくとも1つの標的分子を含み、プローブが、前記記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、アセンブルすることと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における前記識別子核酸分子を収集することと、
を含む、請求項1~30のいずれか1項に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
[0001] 本願は、2021年11月19日付けで出願された「NUCLEIC ACID STORAGE FOR BLOCKCHAIN AND NON-FUNGIBLE TOKENS」と題する米国仮特許出願第63/281,395号の優先権及び利益を主張するものである。上記引用した出願の全内容は参照により本明細書に援用される。
【背景技術】
【0002】
背景
[0002] ブロックチェーンは、ネットワーク(例えばコンピュータネットワーク)のノード間で共有され、暗号方法を使用してリンクされる分散データベースにおいて記録(「ブロック」)のリストを提供する。ブロックチェーンは、情報を例えばデジタル形式で格納する使用することができる。ブロックチェーンは一般に、取引の安全で非中央集権された記録を維持するために、暗号通貨システム、例えばビットコインで使用されている。ブロックチェーンは典型的には、公開分散台帳として使用されるためにピアツーピアネットワークにより管理される。いわゆるノードは集合的に、新しいブロックを通信及び検証するためにプロトコルに準拠する。(新しい)各ブロックは、新しいブロックに先行するブロックについての情報を含むため、ブロックはチェーンを形成し、各追加ブロックが、それに先行するブロックを補強する。したがって、ブロックチェーンは、記録されると、任意の所与のブロックにおけるデータは、全ての後続ブロックを改変せずには遡及的に改変することができないため、データの変更に対する耐性を有する。したがって、実際に、ブロックチェーンは、データの安全な記録を提供するとともに、信頼できる第三者の必要性をなくす。
【0003】
[0003] ブロックチェーンに一般に格納される特定タイプのデータは、非代替性トークン(NFT)である。NFTは、格納、販売、及び/又は取引することができる。NFTは、一意の署名及び所有権の証明として機能することができ、特定の資産と関連付けることができる。そのような資産は、仮想/デジタルであってもよく又は物理的(例えば、ファイル又は物理的な物体)であってもよい。例えば、資産を使用又はコピーするためのライセンスをNFTに関連付けることができ、NFT(及び関連付けられたライセンス)は、デジタル市場で転送(例えば、取引又は販売)することができる。
【発明の概要】
【課題を解決するための手段】
【0004】
概要
[0004] 本明細書に記載されるのは、DNA格納及びDNA計算をブロックチェーン技術、特に非中央集権台帳及び非代替性トークン(NFT)と統合する技術である。これらの技術の幾つかの実施態様は、ブロックチェーン鍵をDNA分子に格納するシステム及び方法である。秘密鍵をDNAに格納することは、例えば、ブロックチェーンと鍵との間にエアギャップを形成することにより及び/又は秘密復号化方式にDNAを読み取り情報をデジタルデータに翻訳するように求めることにより、追加のセキュリティの層を提供する。これらの技術の幾つかの実施態様は、例えば資産トークン化のために、NFT情報を格納するシステム及び方法である。デジタルトークンは、DNAにコードすることができ、したがって、永続的で安全なリンクをデジタル資産(例えばNFT)と物理的又は仮想的オブジェクト(例えば、スニーカー又はデジタルグラフィックス)との間に提供する。本明細書に開示される技術は、生物学的ブロックチェーンを実施するために展開されることもできる。ブロックチェーンは、DNA格納及びDNA計算をコンセンサスの基礎として使用して強化することができ、永続的なアーカイブ及びセキュリティの改善を提供する。
【0005】
[0005] 一態様において、本明細書に提供されるのは、ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法である。本方法は、ブロックチェーン取引の鍵を表すデジタル情報を核酸分子の鍵に格納することであって、それにより、核酸分子のライブラリを取得する、格納することを含む。本方法は、核酸分子のライブラリの少なくとも一部をシーケンシングすることであって、それにより、シーケンシング読出しを取得する、シーケンシングすることと、鍵を表す記号列にシーケンシング読出しを変換することとを含む。本方法は、記号列を適用することであって、それにより、ブロックチェーン取引の一部である電子データファイルにアクセスする、適用することを含む。
【0006】
[0006] 一態様において、本明細書に提供されるのは、ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法である。本方法は、コンピュータネットワークの第1のプロセッサにより、ブロックチェーンのアイテムの取引を要求することを含む。本方法は、コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することを含む。取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む。本方法は、取引データブロックを複数のノードが関連付けられたコンピュータネットワークの複数のプロセッサにブロードキャストすることを含む。本方法は、複数のノードが関連付けられたプロセッサにより、取引を検証することと、コンピュータネットワークの1つ又は複数のプロセッサにより、取引データブロックをブロックチェーンに追加することであって、それにより、更新されたブロックチェーンを取得する、追加することとを含む。本方法は、更新されたブロックチェーンのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、更新されたブロックチェーンのデジタル情報を表す核酸分子のライブラリを取得する、格納することと、取引を完了することとを含む。
【0007】
[0007] 一態様において、本明細書に提供されるのは、ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法である。本方法は、コンピュータネットワークの第1のプロセッサにより、複数の核酸分子にコードされたブロックチェーンのアイテムの取引を要求することを含む。本方法は、コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することを含む。本方法は、取引データブロックのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、取引データブロックのデジタル情報を表す核酸分子のライブラリを取得する、格納することを含む。
【0008】
図面の簡単な説明
[0008] 本明細書に記載の技術の新規特徴は、特に添付の特許請求の範囲に記載される。本発明の原理が利用される例示的な実施態様を記載する以下の詳細な説明及び添付図面(本明細書では「図(Figure)」及び「図(FIG.)」とも)を参照することにより、本発明の特徴及び利点のよりよい理解が得られよう。
【図面の簡単な説明】
【0009】
図1】[0009]一例のブロックチェーン取引のブロック図である。
図2】[0010]DNAコード化秘密鍵を使用した一例のブロックチェーン取引のブロック図である。
図3】[0011]DNAコード化公開鍵を使用した一例のブロックチェーン取引のブロック図である。
図4】[0012]DNA識別子のライブラリを使用して物理的又は仮想的なオブジェクトをNFTにリンクする一例のプロセスを示すブロック図である。
図5】[0013]取引が、電子的にオンラインで実施され、非中央集権ネットワークを通して管理され、取引の記録が、ネットワークに分配されるDNA識別子を使用してコードされる一例のブロックチェーン取引のブロック図である。
図6】[0014]取引が、電子的にオンラインで実施され、非中央集権ネットワークを通して管理され、取引の記録がDNA識別子を使用してコードされ、配列情報がネットワークに分配される一例のブロックチェーン取引のブロック図である。
図7】[0015]取引がDNA識別子を使用して実施され、中央信頼機関を通して管理される一例のブロックチェーン取引のブロック図である。
図8】[0016]取引がDNA識別子を使用して実施され、非中央集権ネットワークを通して管理される一例のブロックチェーン取引のブロック図である。
図9】[0017]取引がDNA識別子の配列情報を使用して実施され、非中央集権ネットワークを通して管理される一例のブロックチェーン取引のブロック図である。
図10】[0018]核酸配列に格納されたデジタル情報の符号化、書き込み、アクセス、問い合わせ、読み取り、及び復号化のプロセスの全体像を模式的に示す。
図11A】[0019]オブジェクト又は識別子(例えば核酸分子)を使用して、「データアットアドレス」と称されるデジタルデータを符号化する一例の方法を模式的に示し、ランクオブジェクト(又はアドレスオブジェクト)をバイト値オブジェクト(又はデータオブジェクト)と組み合わせて識別子を作成することを示す。
図11B】[0019]オブジェクト又は識別子(例えば核酸分子)を使用して、「データアットアドレス」と称されるデジタルデータを符号化する一例の方法を模式的に示し、ランクオブジェクト及びバイト値オブジェクト自体が他のオブジェクトの組合せ連結であるデータアットアドレス方法の一実施形態を示す。
図12A】[0020]オブジェクト又は識別子(例えば核酸配列)を使用してデジタル情報を符号化する一例の方法を模式的に示し、ランクオブジェクトを識別子として使用したデジタル情報の符号化を示す。
図12B】[0020]オブジェクト又は識別子(例えば核酸配列)を使用してデジタル情報を符号化する一例の方法を模式的に示し、アドレスオブジェクト自体が他のオブジェクトの組合せ連結である符号化方法の一実施形態を示す。
図13】[0021]可能な識別子(C、x軸)の組合せ空間と、所与のサイズ(輪郭線)の情報を格納するために構築し得る識別子の平均数(k、y軸)との関係の、対数空間における等高線図を示す。
図14】[0022]情報を核酸配列(例えばデオキシリボ核酸)に書き込む方法の全体像を模式的に示す。
図15A】[0023]区別可能な成分(例えば核酸配列)を組合せによりアセンブルすることにより識別子(例えば核酸分子)を構築するための、「積方式」と称される一例の方法を示し、積方式を使用して構築された識別子のアーキテクチャを示す。
図15B】[0023]区別可能な成分(例えば核酸配列)を組合せによりアセンブルすることにより識別子(例えば核酸分子)を構築するための、「積方式」と称される一例の方法を示し、積方式を使用して構築し得る識別子の組合せ空間の一例を示す。
図16】[0024]成分(例えば核酸配列)から識別子(例えば核酸分子)を構築するためにオーバーラップ伸長ポリメラーゼ連鎖反応を使用することを模式的に示す。
図17】[0025]成分(例えば核酸配列)から識別子(例えば核酸分子)を構築するために粘着末端ライゲーションを使用することを模式的に示す。
図18】[0026]成分(例えば核酸配列)から識別子(例えば核酸分子)を構築するためにリコンビナーゼアセンブリを使用することを模式的に示す。
図19A】[0027]鋳型指向ライゲーションを示し、成分(例えば核酸配列)から識別子(例えば核酸分子)を構築するために鋳型指向ライゲーションを使用することを模式的に示す。
図19B】[0027]鋳型指向ライゲーションを示し、1つのプールされた鋳型指向ライゲーション反応において6つの核酸配列(例えば成分)から組合せにより各々アセンブルされた256種の区別可能な核酸配列のコピー数(存在数)のヒストグラムを示す。
図20A】[0028]並び替えられた成分(例えば核酸配列)を有する識別子(例えば核酸分子)を構築するための「順列方式」と称される方法の一例を模式的に示し、順列方式を使用して構築された識別子のアーキテクチャを示す。
図20B】[0028]並び替えられた成分(例えば核酸配列)を有する識別子(例えば核酸分子)を構築するための「順列方式」と称される方法の一例を模式的に示し、順列方式を使用して構築することができる識別子の組合せ空間の一例を示す。
図20C】[0028]並び替えられた成分(例えば核酸配列)を有する識別子(例えば核酸分子)を構築するための「順列方式」と称される方法の一例を模式的に示し、鋳型誘導型ライゲーションを用いた順列方式の実施態様の一例を示す。
図20D】[0028]並び替えられた成分(例えば核酸配列)を有する識別子(例えば核酸分子)を構築するための「順列方式」と称される方法の一例を模式的に示し、並び替えられ、繰り返された成分を有する識別子を構築するために図20Cからの実施態様をいかに変更することができるかの一例を示す。
図20E】[0028]並び替えられた成分(例えば核酸配列)を有する識別子(例えば核酸分子)を構築するための「順列方式」と称される方法の一例を模式的に示し、図20Dからの実施態様の例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がいかに導かれ得るかを示す。
図20F】[0028]並び替えられた成分(例えば核酸配列)を有する識別子(例えば核酸分子)を構築するための「順列方式」と称される方法の一例を模式的に示し、並び替えられ、繰り返された成分を有する識別子を構築するために鋳型誘導型ライゲーション及びサイズ選択をいかに使用するかの別の例を示す。
図20G】[0028]並び替えられた成分(例えば核酸配列)を有する識別子(例えば核酸分子)を構築するための「順列方式」と称される方法の一例を模式的に示し、サイズ選択により特定の識別子を望ましくない副産物から切り離すことに失敗し得る場合の一例を示す。
図21A】[0029]より大きな数であるM個の可能な成分のうちの任意の数であるK個のアセンブルされた成分(例えば核酸配列)を用いて識別子(例えば核酸分子)を構築するための「MchooseK」方式と称される方法の一例を模式的に示し、MchooseK方式を使用して構築された識別子のアーキテクチャを示す。
図21B】[0029]より大きな数であるM個の可能な成分のうちの任意の数、K個のアセンブルされた成分(例えば核酸配列)を用いて識別子(例えば核酸分子)を構築するための「MchooseK」方式と称される方法の一例を模式的に示し、MchooseK方式を使用して構築することができる識別子の組合せ空間の一例を示す。
図21C】[0029]より大きな数であるM個の可能な成分のうちの任意の数、K個のアセンブルされた成分(例えば核酸配列)を用いて識別子(例えば核酸分子)を構築するための「MchooseK」方式と称される方法の一例を模式的に示し、鋳型誘導型ライゲーションを使用したMchooseK方式の実施態様の一例を示す。
図21D】[0029]より大きな数であるM個の可能な成分のうちの任意の数、K個のアセンブルされた成分(例えば核酸配列)を用いて識別子(例えば核酸分子)を構築するための「MchooseK」方式と称される方法の一例を模式的に示し、図21Cからの実施態様の例により、核酸サイズ選択を用いて除去することができる望ましくない副産物がいかに導かれるかを示す。
図22A】[0030]区画化された成分を有する識別子を構築するための「区画化方式」と称される方法の一例を模式的に示し、区画化方式を使用して構築することができる識別子の組合せ空間の例を示す。
図22B】[0030]区画化された成分を有する識別子を構築するための「区画化方式」と称される方法の一例を模式的に示し、鋳型誘導型ライゲーションを使用した区画化方式の実施態様の一例を示す。
図23A】[0031]幾つかの可能な成分に由来する任意の成分の列で構成された識別子を構築するための「無制約列(unconstrained string)」(又はUSS)方式と称される方法の一例を模式的に示し、USS方式を使用して構築することができる識別子の組合せ空間の一例を示す。
図23B】[0031]幾つかの可能な成分に由来する任意の成分の列で構成された識別子を構築するための「無制約列」(又はUSS)方式と称される方法の一例を模式的に示し、鋳型誘導型ライゲーションを使用したUSS方式の実施態様の一例を示す。
図24A】[0032]親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される方法の一例を模式的に示し、成分削除方式を使用して構築することができる識別子の組合せ空間の一例を示す。
図24B】[0032]親識別子から成分を除去することによって識別子を構築するための「成分削除」と称される方法の一例を模式的に示し、2本鎖標的化切断及び修復を使用した成分削除方式の実施態様の例を示す。
図25】[0033]リコンビナーゼを親識別子に適用することによって更なる識別子を構築することができる、リコンビナーゼ認識部位を有する親識別子を模式的に示す。
図26A】[0034]より多数の識別子に由来する幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部にアクセスするための方法の例の概要を模式的に示し、ポリメラーゼ連鎖反応、親和性タグ付きプローブ、及び分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の一例を示す。
図26B】[0034]より多数の識別子に由来する幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部にアクセスするための方法の例の概要を模式的に示し、ポリメラーゼ連鎖反応を使用して「OR」又は「AND」演算を実行して複数の指定成分を含有する識別子にアクセスするための方法の一例を示す。
図26C】[0034]より多数の識別子に由来する幾つかの特定の識別子にアクセスすることにより、核酸配列に格納された情報の一部にアクセスするための方法の例の概要を模式的に示し、親和性タグを使用して「OR」又は「AND」演算を実行して複数の指定成分を含有する識別子にアクセスするための方法の一例を示す。
図27A】[0035]核酸分子に符号化されたデータの符号化、書き込み、及び読み取りの一例を示し、5,856ビットのデータの符号化、書き込み、及び読み取りの一例を示す。
図27B】[0035]核酸分子に符号化されたデータの符号化、書き込み、及び読み取りの一例を示し、62,824ビットのデータの符号化、書き込み、及び読み取りの一例を示す。
図28】[0036]本明細書に提示される方法を実装するようにプログラミングされた又は他のやり方で構成されたコンピュータシステムを示す。
図29】[0037]2本鎖成分の単一の親セット由来の任意の2つの選択された2本鎖成分のアセンブリの方式の例を示す。
図30】[0038]2つのオリゴ、X及びYで構成される可能な粘着末端成分構造を示す。
図31】[0039]複数の機能部を有する成分から識別子を構築する一例を示す。
図32A】[0040]PCRベースのランダムアクセスに対する識別子ランクの効果の一例を示す。
図32B】[0040]PCRベースのランダムアクセスに対する識別子ランクの効果の一例を示す。
図33A】[0041]PCRベースのランダムアクセスに対する非均一成分分布を有する識別子アーキテクチャの効果の一例を示す。
図33B】[0041]PCRベースのランダムアクセスに対する非均一成分分布を有する識別子アーキテクチャの効果の一例を示す。
図34】[0042]PCRベースのランダムアクセスに対する識別子アーキテクチャにおける層の増大の効果の一例を示す。
図35】[0043]9つの記号のアルファベットにわたるマルチビン位置符号化方式の一例を示す。
図36】[0044]4ビット列の9つの可能なメッセージのいずれも符号化できるようにする2つの識別子の識別子ライブラリと、3つのビンのビンセットとを有するマルチビン識別子分配符号化方式の一例を示す。
図37】[0045]6ビット列の64の可能なメッセージのいずれも符号化できるようにする2つの識別子のライブラリと、3つのビンのビンセットとを有する識別子の再使用を伴うマルチビン識別子分配符号化方式の一例を示す。
図38】[0046]整数分割を用いて情報をDNAにコードする一例を示す。
図39】[0047]ソースビットストリームを準備し、ライタにより解釈される構築プログラム仕様に変換するアルゴリズムモジュールを含む符号化パイプラインの一例を示す。
図40】[0048]識別子ライブラリを直列化形式で表すためのデータ構造の一実施形態の一例を示す。
図41】[0049]2つのソースビットストリームと、識別子プールで規定された演算を使用した計算に向けて準備された汎用識別子ライブラリとの一例を示す。
図42】[0050]識別子ライブラリがインビトロ計算用のプラットフォームとしていかに使用され得るかを示す、識別子プールで実行される論理演算の3つの例の入力及び結果を示す。
図43A】[0051]画像ファイルを格納し、複数の分解能で画像ファイルを読み取る一例を示す。
図43B】[0051]画像ファイルを格納し、複数の分解能で画像ファイルを読み取る一例を示す。
図43C】[0051]画像ファイルを格納し、複数の分解能で画像ファイルを読み取る一例を示す。
図43D】[0051]画像ファイルを格納し、複数の分解能で画像ファイルを読み取る一例を示す。
図43E】[0051]画像ファイルを格納し、複数の分解能で画像ファイルを読み取る一例を示す。
図43F】[0051]画像ファイルを格納し、複数の分解能で画像ファイルを読み取る一例を示す。
図43G】[0051]画像ファイルを格納し、複数の分解能で画像ファイルを読み取る一例を示す。
図44】[0052]ランダムビット列の作成に使用し得るエントロピーを生成する一例の方法を示す。
図45A】[0053]エントロピー(ランダムビット列)を生成及び格納する一例の方法を示す。
図45B】[0053]エントロピー(ランダムビット列)を生成及び格納する一例の方法を示す。
図45C】[0053]エントロピー(ランダムビット列)を生成及び格納する一例の方法を示す。
図46A】[0054]入力を使用してランダムビット列を編成及びアクセスする一例の方法を示す。
図46B】[0054]入力を使用してランダムビット列を編成及びアクセスする一例の方法を示す。
図47】[0055]物理的DNA鍵を使用してアーチファクトへのアクセスをセキュア化及び認証する一例の方法を示す。
【発明を実施するための形態】
【0010】
説明
[0056] 本明細書に記載されるのは、化学格納、例えばDNA格納及び化学的計算、例えばDNA計算をブロックチェーン技術、特に非中央集権台帳及び非代替性トークン(NFT)と統合する技術である。本技術は、(I)既存のブロックチェーン技術の強化、(II)生物学的識別子とリンクするデジタル資産、及び/又は(III)生物学的ブロックチェーン及びメタバース技術に関するシステム及び方法を含む。
【0011】
[0057] DNA分子におけるデータストレージは、全てのインターネットネットワークとブロックチェーン鍵との間にエアギャップを提供することができる。さらに、本明細書に記載の技術は、長期のブロックチェーンの歴史にわたりそのブロックチェーンからDNA分子にデータを自動的に持続させる既存のブロックチェーンの読み取り専用ノードを提供するのに使用することができる(持続とは、データを作成したプロセスが停止した後であっても又はそれが実行中の機械の電源が落ちた後であってもデータが存在し続けることを意味する)。
【0012】
[0058] 本明細書に記載されるのは、化学格納、例えばDNA格納及び化学的計算、例えばDNA計算をブロックチェーン技術と統合する技術である。これらの技術の幾つかの実施態様は、ブロックチェーン鍵を化学実体、例えば、RNA、タンパク質、アプタマー等に格納するシステム及び方法である。したがって、DNAに関して本明細書に記載される技術は、他のタイプの分子、例えば生体分子、例えば、RNA、タンパク質、アプタマー等で実施することも可能である。
【0013】
[0059] 現在、分子-データマッピングを表示又は転送する標準的な方法は存在していない。本明細書に記載のように、そのマッピングへの追加暗号化層の数がはるかに少ない状態でDNA分子からデータに移る現行標準はない。本明細書に記載の技術は例えば、そのマッピングに加えて暗号化層を含む、例えばDNA分子からデータへの分子-データマッピングに使用することができる。
【0014】
(I)既存のブロックチェーン及びNFTシステムへの改良
[0060] 本明細書に記載されるのは、化学格納、例えばDNA格納及びDNA計算をブロックチェーン技術に統合する技術である。これらの技術の幾つかの実施態様は、ブロックチェーン鍵をDNA分子に格納するシステム及び方法である。ブロックチェーン鍵は、ブロックチェーンでアドレスとして機能する公開鍵(数字の長い列)を含むデータ列である。秘密鍵は、所有者にデジタル資産へのアクセス又はその他の方法でブロックチェーンと対話する手段を与えるパスワードと同様に機能する。図1は、一例のブロックチェーン取引を示す。送信者は平文を送信し、平文は公開鍵(意図される受信者の公開鍵)を使用して暗号化される。公開鍵は、受信者の秘密鍵と数学的にリンクするが、受信者の秘密鍵とは異なる。秘密鍵は、暗号化されたテキストを解読するために受信者により使用される。
【0015】
[0061] 本明細書に記載されるのは、デジタル情報(例えば、ブロックチェーン取引又はブロックチェーン鍵を表す情報)を核酸配列にコードする技術である。そのようなデジタル情報を核酸配列にコードする方法は、(a)デジタル情報を記号列に翻訳することと、(b)記号列を複数の識別子にマッピングすることと、(c)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを含む。識別子は読み取られ(シーケンシングされ)て、そこに格納されたデジタル情報を取り出す(復号化する)。本明細書に記載の符号化/復号化技術はいずれも、本明細書に記載のようにブロックチェーン鍵を符号化及び/又は復号化するのに使用することができる。
【0016】
[0062] 本明細書に記載の技術は、リンクをデジタル領域と物理世界との間にリンクを提供することができ、それにより、例えば、電子システムから独立した情報の追加のバックアップを提供及び/又は追加のセキュリティ層を提供する。上述の識別子ライブラリは、本明細書に記載のように、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成することができる。例えば、識別子は、オーバーラップ伸長ポリメラーゼ連鎖反応(OEPCR)を使用してプロダクト方式に従って構築されてもよく又は粘着末端ライゲーションを使用して積方式に従ってアセンブルされてもよい。識別子ライブラリは、任意のデジタルシステムとは別個に格納することができ、例えば、ブロックチェーンにおける複数のノードにコピー及び分配することができる。情報は、例えば、次世代シーケンシング(NGS)技法又はナノポアシーケンシングを使用したシーケンシングを含め、分子生物学技法を使用して取り出す(読み取る)ことができる。
【0017】
[0063] 本明細書に記載の技術は、例えば、DNAを使用してストレージセキュリティの1つ又は複数の追加の層を提供するために、(ブロックチェーン)鍵をDNAに格納するために使用することができる。一般に、ブロックチェーン鍵は、「ホットウォレット」(インターネットに接続されたデバイス上の鍵)又は「コールドウォレット」(インターネットに接続されていないデバイス上の鍵又は鍵の手書きのマークを有する紙等のアナログ形態の鍵)に格納することができる。コールドウォレットはDNAを使用することもできる。DNAコールドウォレットは、暗号化され、DNA、例えば溶液又は固溶体中に格納され、鍵をブロックチェーンで使用するにはシーケンシング及び復号化を必要とする鍵を含むことができる。
【0018】
[0064] DNAコールドウォレットは、長続きし、安全であり且つオンライン攻撃への耐性があるようにブロックチェーンの鍵をいかに格納するかという課題に対処することができる。格納技術は全て、それらに関連する種々の程度のセキュリティ、使用しやすさ、及び待ち時間を有する。ブロックチェーン鍵を格納するホットウォレットレベルの技術は、短い待ち時間及び低セキュリティを有する。ブロックチェーン鍵を格納するコールドウォレットレベルの技術は、非常に長い待ち時間を有するが、非常に高いセキュリティを有する。例えばDNAを使用してブロックチェーン鍵を格納する幾つかの方法がユーザに存在する。
【0019】
[0065] 幾つかのコールドストレージ解決策が消費者に存在するとともに、コールドウォレット自体をユーザが大半のブロックチェーンで作成する技術も存在する。本明細書に記載の技術は、鍵をサンプルから取り出すにはDNAシーケンサ、DNA-データマッピング、及びユーザ解読が必要である、コールドウォレットをDNAサンプルにコードすることに由来する追加レベルのセキュリティを提供することができる。
【0020】
[0066] 図2は、DNAコードされた秘密鍵を使用したブロックチェーン取引の一例を示す。送信者は平文を送信し、平文は公開鍵(意図される受信者の公開鍵)を使用して暗号化される。公開鍵は、受信者の秘密鍵と数学的にリンクするが、受信者の秘密鍵とは異なる。暗号化されたテキストを解読するために受信者により使用される秘密鍵は、本明細書に記載のように、DNA分子、例えば、識別子ライブラリにコードされる。テキストを解読するためには、後述のように、秘密鍵を構成するデジタル情報が、DNA配列を読み取り(例えば、DNAシーケンサ、例えばNGSデバイスを使用して)、配列をデコードする(例えば、配列を記号列、例えば2進データ列にマッピングする)ことにより取得される。
【0021】
[0067] 本明細書に記載のように、秘密(又は公開)鍵をコードしたDNA鎖に対して又はDNA鎖により、1つ又は複数の(化学)計算ステップを実行することができる。幾つかの実施態様では、秘密(又は公開)鍵をコードするのに使用される識別子は、本明細書に記載のように1つ又は複数の論理ゲート要素を含むことができる。その計算は、分子のプールから実際のデジタル情報を読み取る又はデコードする必要なく実行することができる。計算は、AND、OR、NOT、又はNAND演算等のブール論理ゲートの任意の組合せを含むことができる。
【0022】
[0068] 鍵複製の既存の技術は、手動複製又は何らかのコンピュータ対応複製方法のいずれかに限られ、これらは両方とも攻撃又はエラーのいずれかを受けやすい。それとは対照的に、本明細書に記載の技術は、デコード又はシーケンシングなしで且つ物理的場所への格納なしで容易に複製することができ、数千年にわたりデータの完全性を維持するDNAサンプル鍵を提供する。従来のコンピュータ格納媒体は、この期間にわたり完全性を維持することはできない。
【0023】
[0069] 本明細書に記載の技術は、例えば図3に示されるように、オブジェクトに分配又は適用される公開鍵のDNAサンプルを作成するのに使用することができる。一実施態様例では、本明細書に記載の技術は、例えば後述、ブロックチェーン上で公開鍵にリンクするオブジェクトに識別子を適用するのに使用することができる。例えば、これらの識別子は、オブジェクトに取り付ける、例えば、オブジェクトに噴霧又はバイアル若しくはパウチ内で提供することができる。これらの識別子は高度に複雑であり長持ちすることができる。既存の技術は、長いテキスト列、バーコード、QRコード(登録商標)、又は近距離(近接場)識別子に制限される。既存の技術は、プリントされるインクの寿命に又はプラスチック若しくは電子タグの寿命により制限される。
【0024】
[0070] 本明細書に記載の技術は、長期にわたりウォレット鍵をDNAに格納する追加のセキュリティを提供することができる。ウォレット鍵をDNAに格納することは、追加の機器(例えば、DNAシーケンサ及び/又はラボ)を必要とするとともに、DNAサンプル内に格納された秘密鍵を抽出するためにDNA-データマッピング鍵を必要とするため、追加のセキュリティ層を提供する。この技術は、復号容易性及び/又はハッキングからのウォレット鍵の分離を提供し、DNA分子を元の2進データに復号化するためのエアギャップ及び技術ギャップの両方でもって、高セキュリティに繋がる。例えば、後述、DNAは容易に複製され、物理的な物体に取り付けるために大量に作成することができるため、配布のための公開鍵のDNAコピーには大きな利点がある。
【0025】
[0071] 本明細書に記載の技術は、NFTとしてのDNAコード方式に使用することができる。本明細書において後述するように、コード方式は、DNA分子とデータのバイトとの間の一意のマッピングである。DNAサンプルの複製及びそれらの転送は容易であり得る一方で、データを復号化し、DNAのサンプルを利用するには、デジタル情報(例えば、データバイト)へのそれらのDNA分子のマッピング情報も必要である。このマッピング情報は、データセットに一意であり、NFTとして使用することができる。即ち、DNAに格納された情報の解読に必要な情報(DNAマッピング)自体がNFT(例えば、「デコードNFT」)であることができる。したがって、本明細書においてNFTとして説明されるDNA-データ暗号化マッピングの格納は、所与のDNAライブラリの復号可能性に対する所有を可能にすることができる。これは任意の実体がDNAライブラリ(例えば、NFT又はブロックチェーン鍵をコードするDNAサンプル)を持てるようにするが、デコードNFTの所有者しかDNAライブラリを復号化する能力を持てない。
【0026】
[0072] 本明細書に記載の技術は、グラフィカルに作成することができ、DNA分子で作られない公開鍵の表現と併用することができる。表現は「分子空間」にあり、分子空間は、そのデータを表すDNA分子の表現である。グラフィカル表現は、スキャン又は機械を使用して若しくは眼で自動的に解釈することができる何らかの標準化された可視化である。
【0027】
[0073] 公開鍵又は秘密鍵をDNAに格納する上記技術は、ブロックチェーン技術の他の構成要素に適用することもできる。例えば、本明細書に記載の技術は、既存のブロックチェーンのDNAコールドストレージノードに使用することもできる。例えば、本技術は、ブロックチェーンからの、そのブロックチェーンでの過去の全ての取引の記録を含む全ての過去ブロックの長期格納に使用することができる。ブロックチェーンをバックアップする既存の技術は、ブロックチェーンにおけるノードである。これらのノード及びノードの格納ディスクは、DNA格納ほど長持ちせず、したがって、既存の技術は、格納に使用するディスクの寿命に制限されるため、DNAほど長い寿命をデータに提供しない。本明細書に記載の技術は、成長し続けるDNAライブラリにチェーン中の確認されたブロックを連続して書き込む非投票/マイニングノードを設定することにより、ブロックチェーンの超長期寿命を保証することができる。DNAに格納された記録は、複製され、ブロックチェーンの1つ又は複数の(物理的な)ノードに分配することができる。
【0028】
(II)物理世界へのデジタル資産のリンク(認証)
[0074] 本明細書に記載されるのは、化学格納、例えばDNA格納及び計算をブロックチェーン技術に統合する技術、例えば、非代替性トークン(NFT)を現実世界のオブジェクト(例えば、物理的な物体又はデジタルオブジェクト)にリンクする技術である。これらの技術の幾つかの実施態様は、例えば、資産トークン化のためにNFT情報を格納するシステム及び方法である。資産トークン化とは、発行者が分散台帳又はブロックチェーン(例えば、電子若しくは化学的ブロックチェーン)において、デジタル資産又は物理的資産のいずれかを表すデジタルトークンを作成するプロセスである。デジタルトークンはDNAにコードすることができ、したがって、例えば図4に示されるように、デジタル資産(例えばNFT)と物理的な物体又は仮想オブジェクト(例えば、スニーカー又はデジタルグラフィックス)との間にリンクを提供することができる。
【0029】
[0075] 本明細書に記載されるのは、デジタル情報(例えば、NFTを表す情報)を核酸配列にコードする技術である。そのようなデジタル情報を核酸配列にコードする方法は、(a)デジタル情報を記号列に翻訳することと、(b)記号列を複数の識別子にマッピングすることと、(c)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを含む。識別子は物理的な物体に適用する(例えば、取り付ける)ことができる。識別子は、オブジェクトから取り出されて読まれ(例えば、シーケンシングされ)、そこに格納されたデジタル情報を取り出す(復号化する)ことができる。本明細書に記載の符号化/復号化技術はいずれも、本明細書に記載のようにNFTを符号化及び/又は復号化するのに使用することができる。
【0030】
[0076] 識別子ライブラリは、本明細書に記載のように、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成することができる。例えば、識別子は、オーバーラップ伸長ポリメラーゼ連鎖反応(OEPCR)を使用して積方式に従って構築されてもよく又は粘着末端ライゲーションを使用して積方式に従ってアセンブルされてもよい。ライブラリ構築プロセスは、生物学的トークン生成器として実施することができる。この生成器は、定期的に又は必要に応じてサンプリングされて、新しいNFTをコードする新しいセットを取り出すことができる識別子分子を連続して生成するプロセスを含む。本明細書に記載のランダムな生物学的プロセスは、例えば、各NFTの一意性を保証するために使用することができる。
【0031】
[0077] 幾つかの実施態様では、NFTを表す情報は、識別子として使用されるDNA鎖のコピー数に符号化することができる。幾つかの実施態様では、NFTを表す情報は、識別子として使用されるDNA鎖の長さ及び/又は重量に符号化することができる。そのような符号化方式は、翻訳/マッピング符号化方式よりもロバストであることができ、デジタル情報を符号化する(そして読み取る)必要がないため、より高速に読み取ることができる。一実施態様例では、一種のDNA鎖の量が、NFTを識別するのに十分であることができる。一実施態様例では、2つ以上の種のDNA鎖の相対量が、NFTを識別するのに十分であることができる。
【0032】
[0078] 1つ又は複数の(化学的)計算ステップが、本明細書に記載のように、NFTをコードするDNA鎖に対して又はNFTをコードするDNA鎖により実行することができる。幾つかの実施態様では、NFTをコードするのに使用される識別子は、本明細書に記載のように1つ又は複数の論理ゲート要素を含むことができる。その計算は、分子のプールから実際のデジタル情報を読み取る又はデコードする必要なく実行することができる。計算は、AND、OR、NOT、又はNAND演算等のブール論理ゲートの任意の組合せを含むことができる。
【0033】
[0079] 本明細書に記載の技術は、DNA識別子を物理的な物体に接続する(例えば取り付ける)ことができ、DNA識別子は、ブロックチェーン、例えば、本明細書に記載のような生物学的ブロックチェーン又は仮想/デジタルブロックチェーンにおけるNFTの所有権を指す。これらの技術は、例えば、オブジェクトを順次タグ付けして、代替性アイテムから非代替性アイテムに変換する(例えば、野球のボールvsワールドシリーズでのウイニングボール)ことを含む。幾つかの用途では、本明細書に開示される技術は、限定はされないが、DNA識別子の液滴への封入及び表面、生物学的胞子に適用することができ又は微量注入プリントを使用して適用されるDNA識別子の安定した製造を含むことができる。幾つかの実施態様では、DNA識別子は、液体形態(例えば、DNA分子を含むインク)でオブジェクトに適用することができる。DNA識別子にコードされた情報を取り出すために、(乾燥した)インクを含むオブジェクトのエリアを拭き取ることができ、DNAをシーケンシングすることができる。DNA識別子は、物理的な物体と関連付ける(例えば、物理的に取り付ける)ことができるバイアル又は封止されたパウチ内に液体形態又は乾燥形態で格納することもできる。これに加えて又は代えて、DNAは、例えば顕微鏡又は他の光学デバイスを使用して分析することができる磁性又は光学性タグを含むことができる。
【0034】
[0080] 物理的資産の所有権は、所有権及び出所のデジタル記録により強化することができる。物理的商品の価値は、その来歴又は真正性をトレースし検証することができる場合、上がることができる。デジタル資産と物理的資産との間のリンクは、安全であり、耐久性があり、且つ偽造又は改竄が困難であるべきである。幾つかの実施態様では、リンクは不可視(例えば、ダイアモンド上で)であり、物理的商品の性能に影響せず(例えば、織物において)、消費するのに安全であることもできる(例えば、農業、例えば海産物において)。本明細書に記載のような識別子の形態のDNAタグはこれらの特徴を提供する。
【0035】
[0081] 幾つかの既存の技術は、QRコード(登録商標)、NFCタグ、又は靴のどこかにプリントされたRFIDタグを介して物理的な物体(例えば、スニーカー、芸術作品、イベントのチケット)をデジタルトークンに結びつける。同様に、収集価値のある物理的な玩具もNFTにリンクされて、真正性及び出所を保証する。そのような各玩具には、フィギュアの足に、スキャンすることができる物理的なタグが付いている。これらの各事例において、リンク技術には耐久性がない。玩具の場合、タグは、耐改竄性であるように意図的に構築され、したがって、タグが除去又は切断されると、「スキャン」可能ではなくなり、消費者が収集価値のある玩具の出所及び真正性を証明する能力を阻害する。本明細書に記載の技術は、認証がブロックチェーンにリンクされないサプライチェーン認証用のDNAタグ付けを超える。本明細書に記載の技術は、データを符号化するが、単に製品を識別するバーコードとして機能するDNAタグを超える。
【0036】
[0082] 本明細書に記載の技術の幾つかの実施態様では、物理的商品は、DNA識別子(識別子タグ配列)のライブラリを含むタグを通してデジタル資産にリンクすることができる。識別子タグ配列は、オブジェクトを表すNFTを表すようにコードすることができ、そのNFT及びオブジェクトのアクセスへの公開鍵としてブロックチェーンにリンクすることができる。物理的商品の所有者には秘密鍵(例えば、上述したようにDNAにオードされた秘密鍵)を与えることもでき、秘密鍵は、所有者がNFTを取引又は所有権を一般に主張できるようにする。
【0037】
[0083] 幾つかの実施態様では、識別子タグは、噴霧、コーティング、凍結乾燥されたペレット、液体、ゲル、液滴への封入として製造されてもよく、生物有機体にクローニングされてもよく、又はそれらの任意の組合せであってもよい。ブロックチェーンにリンクされた識別子タグは、偽造又は破損が容易であり得るQRコード(登録商標)又は同様のタグよりも高いセキュリティを提供することができる。本明細書に記載の技術は、改竄がより困難であり、物理的資産とデジタル資産との間により長寿命のリンクを提供する。さらに、本明細書に記載の識別子タグは、QRコード(登録商標)又は他のタグとは異なり不可視であることができ、認証のより隠密な方法を提供する。この不可視性は、物理的商品の性能又は美観が可視のタグにより悪影響を受ける状況で有用であることもできる。
【0038】
[0084] 幾つかの実施態様では、本明細書に記載の識別子タグは、オブジェクトに瞬時タグ付けして、それらを代替性から非代替性にできるようにするように製造され包装することができる。例えば、試合中にファンが捕った野球のボール-そのボールの価値は即座に上がり得、即時タグ付け戦略は、その瞬間の将来の認証を可能にする。この場合、ファンは、例えば、NFTをコードするDNA識別子ライブラリを含む噴霧を適用することができる。本明細書に記載の識別子タグは、物理的資産又はデジタル資産の説明等のデータをタグ自体に符号化することができる。幾つかの実施態様では、識別子タグに符号化されたデータに対して計算機能を実行して、真正性を確認することができる。
【0039】
[0085] 幾つかの実施態様では、物理的商品と仮想商品との間リンクを提供するのではなく、物理的商品は識別子タグ自体、例えば、液体、固体、ゲル中のDNA又は他の形態(例えば、宝石に埋め込まれる)であることができる。
【0040】
[0086] 幾つかの実施態様では、有機体、例えば人間のDNAをDNA識別子又はDNAタグに統合することができる。例えば、DNAタグ(例えば、バイアル、液滴、又は他のDNA担体)は、本明細書に記載のようにデジタル情報をコードしたDNA識別子に加えて、有機体のDNA又はその断片を含むことができる。幾つかの実施態様では、有機体のDNAは、NFTと関連する物理的資産の所有者のDNAであることができる。幾つかの実施態様では、有機体のDNAは秘密鍵として機能することができる。
【0041】
[0087] 一実施態様例では、本明細書に記載の技術は、DNA識別子(識別子タグ配列)のライブラリを含むタグを通して、物理的な技術作品をデジタル資産にリンクするのに使用することができる。幾つかの実施態様では、芸術家自身のDNA(又はその断片)を技術作品と関連するDNA識別子又はDNAタグに統合することができる。
【0042】
[0088] 幾つかの実施態様では、本明細書に記載のようにDNAタグを使用してタグ付けられた物理的な物体は、有機体、例えば生物であることができる。有機体は細胞であってもよく又は多細胞有機体であってもよい。DNA識別子は、物理的な物体について上述したように有機体と関連付けられてもよく又はDNA識別子は有機体の1つ若しくは複数の細胞に存在してもよい。幾つかの実施態様では、DNA識別子は、細胞外空間、例えば、血液中又は他の体液中に存在してもよい。有機体のタグ付けは、流体に懸濁したDNA識別子を有機体に注入することを通して行うことができる。幾つかの実施態様では、DNA識別子は、例えばトランスフェクション技法を使用して1つ又は複数の細胞に送達される。
【0043】
[0089] 幾つかの実施態様では、物理的商品にデジタル資産又はトークンをリンクする上記技術は、仮想商品又はデジタル商品と併用することもできる。仮想/デジタル商品は、データファイル、例えばデジタル化された画像(例えば、.jpeg、.gif、.tiff、又は.bmpファイル)、デジタルビデオクリップ(例えば、.avi又は.mpgファイル)、オーディオクリップ(例えば、.mp3又は.wavファイル)、又は任意の他のデジタルファイル(例えば、テキストドキュメント、スプレッドシート、又は他のそのようなファイル)であることができる。一実施形態例では、コンサートをデジタルで記録することができ、ビデオデータファイル、オーディオデータファイル、又は両方として格納することができる。データファイルを表すNFTを表すために、識別子タグ配列をコードすることができ、そのNFT及びデジタルオブジェクトにアクセスしているために公開鍵としてブロックチェーンにリンクすることができる。
【0044】
[0090] 幾つかの実施態様では、デジタルドキュメント、画像、又はビデオファイルのようなデジタル商品は、アーカイブ目的でDNAライブラリにコードすることができる。デジタル商品は高価値であることができ、数十年又は数世紀等の長期にわたり保存されることが望まれ得る。デジタル商品をコードしたDNAサンプル又はDNA分子は、DNAライブラリにコードされたデジタル商品の真正性を証明するように操作することができる。そのような一方式では、DNA分子は認証機関のみが既知の割合で変更された塩基、例えばアイソトープを含むことができる。幾つかの実施態様では、方式は公開され得る。一方式では、DNAを含むDNAサンプルの組成又は容器の内容物は認証機関のみが既知であり得る。一方式では、デジタル商品をコードするDNAに加えて、デコイDNA分子を含む1つ又は複数の他のデコイライブラリが、デジタル商品をコードするDNAサンプルに存在することができる。デコイライブラリをターゲットライブラリから分離することの詳細は、認証機関のみが既知であり得る。これらの方式を使用すると、本明細書に記載のようにDNA、例えばDNA識別子ライブラリにコードされたデジタル商品は、デジタル商品をコードした厳密にオリジナルのサンプルであると認証することができる。幾つかの実施態様では、DNAは、PCR等のDNAをコピーする従来の方法を阻止するように設計又は変更し得る。例えば、2本鎖DNA鎖は、鎖の完全な編成を阻止するように末端に人工的に結合し、例えば、DNA鎖にわたるホスホロチオエート結合を使用してプライマー結合の効率を下げることができる。幾つかの実施態様では、一部又は全ての塩基は、例えばクリックケミストリを使用して、取り付けられた追加の合成化学基、例えばアジドを有することができる。このようにして、DNAライブラリにコードされたデジタル商品は、容易なコピーを妨げることができ、単一のオリジナルコピーのみの保存を保証する。
【0045】
[0091] 幾つかの実施態様では、本明細書に記載の識別子タグは耐改竄性であることができる。識別子タグは、タグを他者によるコピー不可能にするように合成することができる。識別子タグは、改竄された場合、DNAを破壊し(例えば、改竄が試薬とDNAとの化学反応を生じさせる)、物理的商品とデジタル商品との間のリンクを失うデバイスに封入することができる。DNAの安定性は、識別子タグを長期にわたり使用することのプラスの属性であるが、場合によっては、DNAを破壊する能力が望ましい特徴であり得る。
【0046】
(III)生物学的ブロックチェーン及びメタバース
[0092] 本明細書に記載の技術は、DNA識別子の常に進化し続けるライブラリに基づくブロックチェーンを実施するのに使用することもできる。ブロックチェーンでの取引及び取引に伴った新しいブロックの作成には、データのブロックを表すDNA識別子を作成し、前のブロックからの既に存在する識別子のセットにそれらの識別子を追加する必要があり得る。任意の時点でのDNAライブラリのシーケンシングを使用して、コンセンサス(分散プロセス又はマルチエージェントシステム間で単一のデータ値又はネットワークの単一の状態への一致を達成するためのフォールトトレラントメカニズム)及びデータの検証を確立することができる。本技術は、シーケンシングのために、資産として代替性又は非代替性トークンを提供することもできる。
【0047】
[0093] 本明細書に記載の技術は、生物学的ブロックチェーンを実施するのに展開することができる。ブロックチェーンは、広範囲の契約、コイン、及び他の使用事例での非中央集権コンセンサスを提供することができる。ブロックチェーンは、コンセンサスの基礎としてDNA格納及び計算を使用して一般に強化することができる。幾つかの実施態様では、非中央集権特徴は、複数のDNA合成設備をリンクすることにより達成することができる。サンプルをシーケンシングする動作は、DNAライブラリ内の前のブロックを検証するのに使用することができる。
【0048】
[0094] ブロックチェーンの既存の技術は、元々は作者不明のナカモトサトシによって書かれた公開コードベースを記述した当初のビットコイン論文に基づく。ブロックチェーンは、速度、スループット、コンセンサスタイプ、並びに開発者及びユーザのコミュニティにおいて異なり得る。本明細書に記載の生物学的ブロックチェーンは、チェーンが、存在の有無を2進(又はテキスト)データに復号化することができるDNA分子の成長し続けるライブラリであるという点で他の既存のブロックチェーンと異なる。ブロックチェーンは、定期的にサンプリングすることができる1つ又は複数のバイオリアクタに存在することができる。
【0049】
[0095] 既存のブロックチェーンは、固有のハードドライブディスクの長寿命化を達成できない。所与のブロックチェーンの所与のノードは、平均で20年を超えては復号化可能ではない。DNAライブラリは、はるかに長い期間にわたり格納することができる。本明細書に記載の技術は、変更不可能であるが追記可能なDNA分子のライブラリをブロックチェーンとして使用し、ライブラリへの所与の書き込みジョブ追加をブロック追加として使用し、DNAライブラリのシーケンシングを検証(マイニング)として使用する、ブロックチェーン技術への拡張を提供する。
【0050】
[0096] ブロックチェーンにおけるコンセンサスアルゴリズムの大半は、プルーフオブワーク(ある当事者が他の当事者に対して、特定量の特定の計算努力が費やされたことを証明する、例えば暗号通貨取引の検証に使用されるコンセンサスメカニズムの一種)又はプルーフオブステーク(暗号通貨の所有者がコインを出資することができ、それにより、取引の新しいブロックをチェックし、それらをブロックチェーンに追加する権利を所有者に与える、例えば暗号通貨取引の検証に使用されるコンセンサスメカニズムの一種)のいずれかである。本明細書に記載の技術は、DNAシーケンシングのプルーフに基づくコンセンサスシステム及び方法を含む。このプルーフは、過去の取引を検証することができるとともに、新たに書かれた取引を検証することもできる。ブロックチェーンネットワークでのシーケンシング及びマイニングを動機付けるために、ネイティブ又は合成を問わずトークンを与えることができる。
【0051】
[0097] 図5は、取引がオンラインで電子的に実施され、非中央集権ネットワークを通して管理され、取引の記録が、ネットワークに分配されるDNA識別子を使用して符号化される一例のブロックチェーン取引の流れ図である。取引は電子的に要求され、取引データは、ブロックとしてオンラインで電子的に表される。取引は、ネットワークにより電子的に検証され、新しいブロックがブロックチェーンに追加される。この取引及び/又は全ブロックチェーンの記録は、本明細書に記載のようにデジタル情報をDNAにコードする技術を使用してDNAにコードされる。DNA記録は次いでコピーされ、ブロックチェーンの各ノードに送信することができる。取引はここで完了する。
【0052】
[0098] 図6は、取引が、電子的にオンラインで実施され、非中央集権ネットワークを通して管理され、取引の記録がDNA識別子を使用してコードされ、配列情報がネットワークに分配される一例のブロックチェーン取引の流れ図である。取引は電子的に要求され、取引データは、ブロックとしてオンラインで電子的に表される。取引は、ネットワークにより電子的に検証され、新しいブロックがブロックチェーンに追加される。この取引及び/又は全ブロックチェーンの記録は、本明細書に記載のようにデジタル情報をDNAにコードする技術を使用してDNAにコードされる。DNAは次いでシーケンシングされ、配列情報(例えばデジタル情報)は次いで、ブロックチェーンの各ノードに送信すされる。取引はここで完了する。
【0053】
[0099] 図7は、取引がDNA識別子を使用して実施され、中央信頼機関を通して管理される一例のブロックチェーン取引の流れ図である。取引は(例えば電子的に)要求され、取引データは、本明細書に記載のようにデジタル情報をDNAにコードする技術を使用してDNAにコードされる。DNAは次いで、例えばバイアル(又は他の格納実施態様)に格納され、バイアルは次いで中央リポジトリ又は公証人のレジストリに移される。公証人は取引を検証する。既存のブロックチェーンの1つ又は複数のDNAブロックがバイアルにトランスペアレント且つ改変不可能なように追加される。取引はここで完了する。
【0054】
[00100] 図8は、取引がDNA識別子を使用して実施され、非中央集権ネットワークを通して管理される一例のブロックチェーン取引の流れ図である。取引は(例えば電子的に)要求され、取引データは、本明細書に記載のようにデジタル情報をDNAにコードする技術を使用してDNAにコードされる。DNAは次いでコピーされ、例えばバイアル(又は他の格納実施態様)に格納され、バイアルは次いでネットワーク、例えばブロックチェーン取引における各ノードに分配される。ネットワーク(又はその一部)は取引を検証する。既存のブロックチェーンの1つ又は複数のDNAブロックは、トランスペアレントに且つ変更不可能なようにバイアルに追加される。取引はここで完了する。
【0055】
[00101] 図9は、取引がDNA識別子の配列情報を使用して実施され、非中央集権ネットワークを通して管理される一例のブロックチェーン取引の流れ図である。取引は(例えば電子的に)要求され、取引データは、本明細書に記載のようにデジタル情報をDNAにコードする技術を使用してDNAにコードされる。DNAは次いでシーケンシングされ、配列情報がコピーされ、ネットワーク、例えばブロックチェーン取引における各ノードに分配される。ネットワーク(又はその一部)は取引を検証する。既存のブロックチェーンの1つ又は複数のDNAブロック配列は、トランスペアレントに且つ変更不可能なように配列に追加される。取引はここで完了する。
【0056】
[00102] NFT及びブロックチェーンについての本明細書の記載の技術は、メタバースにおける種々の用途で使用されるように適合可能でもある。デジタル情報をコードするDNA識別子は、単独で又はメタバース端末、例えば仮想現実(VR)及び/又は拡張現実(AR)デバイスと組み合わせて使用されて、例えば、ユーザの身元情報を確認することができる。幾つかの実施態様では、DNA識別子は、例えば、AR若しくはVRデバイス又はそのプログラムされた機能をアンロックするために「デジタル指紋」として機能することができる。DNA識別子は、ウォレットに格納されてもよく又は上述したようにユーザに取り付けられ(噴霧され)、端末で読み取られてもよい。
【0057】
[00103] 上述のブロックチェーン及びNFT技術と併用することができるよりもデジタルデータ格納の構成及び方法について以下説明する。
【0058】
[00104] 「記号」という用語は一般に、本明細書で使用される場合、デジタル情報の単位の表現を指す。デジタル情報は、記号列に分割又は翻訳することができる。一例では、記号はビットであり得、「0」又は「1」の値を有し得る。
【0059】
[00105] 「区別可能な」又は「一意の」という用語は、本明細書で使用される場合、群の中の他のオブジェクトと区別することができるオブジェクトを一般に指す。例えば、区別可能な又は一意の核酸配列は、いかなる他の核酸配列とも同じ配列を有さない核酸配列であり得る。区別可能な又は一意の核酸分子は、いかなる他の核酸分子とも同じ配列を有さなくてよい。区別可能な又は一意の核酸配列又は分子は、別の核酸配列又は分子と類似領域を共有することもある。
【0060】
[00106] 「成分」という用語は、本明細書で使用される場合、核酸配列を一般に指す。成分は、区別可能な核酸配列であり得る。成分は、他の核酸配列又は分子を生成するように、1つ又は複数の他の成分と連結又はアセンブルされ得る。
【0061】
[00107] 「層」という用語は、本明細書で使用される場合、成分の群又はプールを一般に指す。各層は、1つの層内の成分が別の層内の成分と異なるような、1セットの区別可能な成分を含み得る。1つ又は複数の層からの成分がアセンブルされて、1つ又は複数の識別子を生成し得る。
【0062】
[00108] 「識別子」という用語は、本明細書で使用される場合、より大きいビット列内のビット列の位置及び値を表す核酸分子又は核酸配列を一般に指す。より一般的には、識別子は、記号列中の記号を表す、又は記号列中の記号に対応する、任意のオブジェクトを指し得る。幾つかの実施形態では、識別子は、1つ又は複数の連結された成分を含み得る。
【0063】
[00109] 用語「組合せ空間」という用語は、本明細書で使用される場合、成分等のオブジェクトの出発セットと、識別子を形成するためにこれらのオブジェクトを修正する方法に関する規則の許容されるセットとから生成され得る、生じ得る区別可能な全ての識別子のセットを一般に指す。成分をアセンブルする又は連結させることにより作成される識別子の組合せ空間のサイズは、成分の層の数、各層内の成分の数、及び識別子の生成に使用される特定のアセンブリ方法に依存し得る。
【0064】
[00110] 「識別子ランク」という用語は、本明細書で使用される場合、セット中の識別子の順序を規定する関係を一般に指す。
【0065】
[00111] 「識別子ライブラリ」という用語は、本明細書で使用される場合、デジタル情報を表す記号列中の記号に対応する識別子の集まりを一般に指す。幾つかの実施形態では、識別子ライブラリ中の所与の識別子の非存在は、特定の位置における記号値を示すことができる。1つ又は複数の識別子ライブラリは、識別子のプール、群、又はセットの中で組み合わせることができる。各識別子ライブラリは、識別子ライブラリを識別する一意のバーコードを含み得る。
【0066】
[00112] 「核酸」という用語は、本明細書で使用される場合、デオキシリボ核酸(DNA)、リボ核酸(RNA)、又はこれらのバリアントを一般に指す。核酸は、アデノシン(A)、シトシン(C)、グアニン(G)、チミン(T)、及びウラシル(U)、又はそのバリアントから選択される1つ又は複数のサブユニットを含み得る。ヌクレオチドは、A、C、G、T若しくはU、又はそのバリアントを含み得る。ヌクレオチドは、成長核酸鎖に組み込むことができる任意のサブユニットを含み得る。そのようなサブユニットは、A、C、G、T、若しくはUであることもあり、或いはより多くの相補的A、C、G、T、若しくはUのうちの1つに特異的であり得る又はプリン(即ち、A若しくはG、又はそのバリアント)若しくはピリミジン(即ち、C、T若しくはU、又はそのバリアント)と相補的であり得る任意の他のサブユニットであることもある。幾つかの例では、核酸は1本鎖状又は2本鎖状であり得、幾つかの場合、核酸分子は環状である。
【0067】
[00113] 「核酸分子」又は「核酸配列」という用語は、本明細書で使用される場合、デオキシリボヌクレオチド(DNA)若しくはリボヌクレオチド(RNA)のいずれか又はその類似体である、種々の長さを有し得る、ポリマー形態のヌクレオチド又はポリヌクレオチドを一般に指す。「核酸配列」という用語は、ポリヌクレオチドのアルファベット表現を指すことがあり、代替的には、この用語は、物理的なポリヌクレオチド自体に適用されることもある。このアルファベット表現を、中央処理装置を有するコンピュータ内のデータベースに入力し、核酸配列又は核酸分子を記号又はビットにマッピングするために、デジタル情報を符号化するために、使用することができる。核酸配列又はオリゴヌクレオチドは、1つ又は複数の非標準ヌクレオチド、ヌクレオチド類似体、及び/又は改変ヌクレオチドを含むこともある。
【0068】
[00114] 「オリゴヌクレオチド」は、本明細書で使用される場合、1本鎖核酸配列を一般に指し、アデニン(A)、シトシン(C)、グアニン(G)及びチミン(T)という、又はポリヌクレオチドがRNAの場合はアデニン(A)、シトシン(C)、グアニン(G)、及びウラシル(U)という4つのヌクレオチド塩基の特異的配列で典型的に構成される。
【0069】
[00115] 改変ヌクレオチドの例としては、限定はされないが、ジアミノプリン、5-フルオロウラシル、5-ブロモウラシル、5-クロロウラシル、5-ヨードウラシル、ヒポキサンチン、キサンチン、4-アセチルシトシン、5-(カルボキシヒドロキシメチル)ウラシル、5-カルボキシメチルアミノメチル-2-チオウリジン、5-カルボキシメチルアミノメチルウラシル、ジヒドロウラシル、ベータ-D-ガラクトシルキューオシン、イノシン、N6-イソペンテニルアデニン、1-メチルグアニン、1-メチルイノシン、2,2-ジメチルグアニン、2-メチルアデニン、2-メチルグアニン、3-メチルシトシン、5-メチルシトシン、N6-アデニン、7-メチルグアニン、5-メチルアミノメチルウラシル、5-メトキシアミノメチル-2-チオウラシル、ベータ-D-マンノシルキューオシン、5’-メトキシカルボキシメチルウラシル、5-メトキシウラシル、2-メチルチオ-D46-イソペンテニルアデニン、ウラシル-5-オキシ酢酸(v)、ワイブトキソシン、シュードウラシル、キューオシン、2-チオシトシン、5-メチル-2-チオウラシル、2-チオウラシル、4-チオウラシル、5-メチルウラシル、ウラシル-5-オキシ酢酸メチルエステル、ウラシル-5-オキシ酢酸(v)、5-メチル-2-チオウラシル、3-(3-アミノ-3-N-2-カルボキシプロピル)ウラシル、(acp3)w、2,6-ジアミノプリン等が挙げられる。核酸分子は、塩基部分が(例えば、相補的ヌクレオチドと水素結合を形成するために通常は利用可能である1つ若しくは複数の原子が、及び/又は相補的ヌクレオチドと水素結合を形成することが通常はできない1つ若しくは複数の原子が)修飾されていることもあり、糖部分が修飾されていることもあり、又はリン酸骨格が修飾されていることもある。核酸分子は、N-ヒドロキシスクシンイミドエステル(NHS)等のアミン反応性部分の共有結合を可能にするためにアミノアリル-dUTP(aa-dUTP)及びアミノヘキシルアクリルアミド(aminohexhylacrylamide)-dCTP(aha-dCTP)等のアミン修飾基を含有することもある。
【0070】
[00116] 「プライマー」という用語は、本明細書で使用される場合、ポリメラーゼ連鎖反応(PCR)等の核酸合成のための出発点としての役立つ核酸鎖を一般に指す。一例では、DNAサンプルの複製中に、複製を触媒する酵素が、DNAサンプルに結合したプライマーの3’末端で複製を開始し、反対側の鎖をコピーする。プライマー設計についての詳細を含む、PCRに関する詳細情報については、化学的方法セクションDを参照のこと。
【0071】
[00117] 「ポリメラーゼ」又は「ポリメラーゼ酵素」という用語は、本明細書で使用される場合、ポリメラーゼ反応を触媒することができる任意の酵素を一般に指す。ポリメラーゼの例としては、限定ではないが、核酸ポリメラーゼが挙げられる。ポリメラーゼは、天然に存在することもあり、又は合成されることもある。ポリメラーゼの例は、Φ29ポリメラーゼ又はその誘導体である。幾つかの場合、転写酵素又はリガーゼ(即ち、結合の形成を触媒する酵素)が、新たな核酸配列を構築するために、ポリメラーゼと併せて又はポリメラーゼの代替として使用される。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、熱安定性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、PfuポリメラーゼPwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、SsoポリメラーゼPocポリメラーゼ、Pabポリメラーゼ、MthポリメラーゼES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’→5’エクソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、並びにこれらのバリアント、改変産物及び誘導体が挙げられる。PCRと共に使用することができる更なるポリメラーゼについては、並びにポリメラーゼ特性がPCRにいかなる影響を与え得るのかに関する詳細については、化学的方法セクションDを参照のこと。
【0072】
[00118] 「種」という用語は、本明細書で使用される場合、同じ配列の1つ又は複数のDNA分子を一般に指す。「種」が複数の意味で使用される場合、その複数の種中のあらゆる種が区別可能な配列を有すると仮定し得るが、これは「種」の代わりに「区別可能な種」と書くことにより明確にされることがある。
【0073】
[00119] 2進コードの形態での、コンピュータデータ等のデジタル情報は、記号の配列又は記号列を含み得る。2進コードは、例えば、ビットと称される2つの2進記号、典型的には0及び1、を有する2進法を使用して、テキスト又はコンピュータプロセッサ命令を符号化又は表すことができる。デジタル情報は、非2進記号の配列を含み得る非2進コードの形で表すことができる。符号化された各記号を、一意のビット列(又は「バイト」)に再び割り当てることができ、一意のビット列又はバイトを、バイト列又はバイトストリームに配列することができる。所与のビットについてのビット値は、2つの記号のうちの1つ(例えば、0又は1)であり得る。Nビットの列を含むことができるバイトは、合計2の一意のバイト値を有することができる。例えば、8ビットを含むバイトは、合計2又は256の可能な一意のバイト値を生じさせることができ、256バイトの各々は、バイトで符号化することができる256の可能な区別可能な記号、文字又は命令のうちの1つに対応し得る。生データ(例えば、テキストファイル及びコンピュータ命令)を、バイト列又はバイトストリームとして表すことができる。zipファイル、又は生データを含む圧縮データファイルを、バイトストリームで格納することもでき、これらのファイルを圧縮形でバイトストリームとして格納し、そしてその後、コンピュータにより読み取られる前に生データに復元することができる。
【0074】
[00120] 本開示の方法及びシステムを使用して、1ビット又は複数のビットの一次情報を各々が表すことができる複数の識別子で、コンピュータデータ又は情報を符号化することができる。幾つかの例では、本開示の方法及びシステムは、2ビットの一次情報を各々が表す識別子を使用してデータ又は情報を符号化する。
【0075】
[00121] デジタル情報を核酸に符号化するための以前の方法は、核酸の塩基毎の合成に依拠しており、これは費用が嵩み、時間がかかり得る。代替方法は、効率を向上させることができ、デジタル情報を符号化するための塩基毎の核酸合成への依拠を低減させることによりデジタル情報格納の商業的実現可能性を向上させることができ、あらゆる新たな情報格納要求のための区別可能な核酸配列のデノボ合成を無くすことができる。
【0076】
[00122] 新規方法は、塩基毎又はデノボ核酸合成(例えば、ホスホルアミダイト合成)に依拠するのではなく、成分の組合せ配列を含む複数の識別子又は核酸配列にデジタル情報(例えば、2進コード)を符号化することができる。このように、新規戦略は、情報格納の第1の要求のために区別可能な核酸配列(又は成分)の第1のセットを生成することができ、その後、後続の情報格納要求のために同じ核酸配列(又は成分)を再利用することができる。これらの手法は、DNAへの情報の符号化及び書き込みプロセスにおける核酸配列のデノボ合成の役割を低減することにより、DNAベースの情報格納の費用を有意に削減することができる。さらに、各伸長核酸への各塩基の循環送達を使用し得る塩基毎の合成、例えばホスホルアミダイト化学ベースの又は鋳型なしのポリメラーゼベースの核酸伸長、の実施態様と異なり、成分からの識別子構築を使用してDNAに情報を書き込む新規方法は、循環核酸伸長を必ずしも使用しない高度に並列化可能なプロセスである。したがって、新規方法は、昔ながらの方法と比較してDNAへのデジタル情報の書き込み速度を上昇させることができる。
【0077】
情報を核酸配列に符号化し、書き込む方法
[00123] 一態様では、本開示は、情報を核酸配列に符号化する方法を提供する。核酸配列に情報を符号化する方法は、(a)情報を記号列に変換することと、(b)記号列を複数の識別子にマッピングすることと、(c)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築することとを含み得る。複数の識別子のうちの個々の識別子は、1つ又は複数の成分を含み得る。1つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。記号列中の各位置における各記号は、区別可能な識別子に対応し得る。個々の識別子は、記号列中の個々の位置の個々の記号に対応し得る。さらに、記号列中の各位置における1つの記号は、識別子の非存在に対応し得る。例えば、「0」及び「1」の2進記号(例えば、ビット)列における「0」の出現の各々は、識別子の非存在に対応し得る。
【0078】
[00124] 別の態様では、本開示は、核酸ベースのコンピュータデータ格納のための方法を提供する。核酸ベースのコンピュータデータ格納のための方法は、(a)コンピュータデータを受信することと、(b)コンピュータデータを符号化する核酸配列を含む核酸分子を合成することと、(c)核酸配列を有する核酸分子を格納することとを含み得る。コンピュータデータは、核酸分子の各々の配列ではなく、合成された核酸分子の少なくともサブセットに符号化することができる。
【0079】
[00125] 別の態様では、本開示は、核酸配列に情報を書き込み格納する方法を提供する。この方法は、(a)情報を表す仮想識別子ライブラリを受信又は符号化することと、(b)識別子ライブラリを物理的に構築することと、(c)識別子ライブラリの1つ又は複数の物理的コピーを1つ又は複数の別々の位置に格納することとを含み得る。識別子ライブラリの個々の識別子は、1つ又は複数の成分を含み得る。1つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。
【0080】
[00126] 別の態様では、本開示は、核酸ベースのコンピュータデータ格納のための方法を提供する。核酸ベースのコンピュータデータ格納のための方法は、(a)コンピュータデータを受信することと、(b)コンピュータデータを符号化する少なくとも1つの核酸配列を含む核酸分子を合成することと、(c)少なくとも1つの核酸配列を含む核酸分子を記憶させることとを含み得る。核酸分子を合成することは、塩基毎の核酸合成が存在しない場合であり得る。
【0081】
[00127] 別の態様において、本開示は、情報を核酸配列に書き込み格納する方法を提供する。情報を核酸配列に書き込み格納する方法は、(a)情報を表し、得仮想識別子ライブラリを受信又は符号化することと、(b)識別子ライブラリを物理的に構築することと、(c)識別子ライブラリの1つ又は複数の物理的なコピーを1つ又は複数の別個の場所に格納することとを含み得る。識別子ライブラリのうちの個々の識別子は、1つ又は複数の成分を含み得る。1つ又は複数の成分のうちの個々の成分は、核酸配列を含み得る。
【0082】
[00128] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、(b)第1の識別子核酸配列を形成することであって、(1)M個の異なる層に分けられた区別可能な成分核酸配列のセットから、M個の層の各々から1つの成分核酸配列を選択すること、(2)M個の選択された成分核酸配列を区画に堆積させること、(3)第1及び第2の層からの成分核酸配列が識別子核酸配列の第1及び第2の末端配列に対応し、第3の層における成分核酸配列が識別子核酸配列の第3の配列に対応し、第1の識別子核酸配列においてM個の層の物理的順序を規定するように、(2)におけるM個の選択された成分核酸配列を物理的にアセンブルすることであって、それにより、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有する第1の識別子核酸配列を形成する、物理的にアセンブルすることを行うことにより行われる、形成することと、(c)複数の追加の識別子核酸配列を形成することであって、追加の識別子核酸配列は各々、(1)第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、(2)各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、形成することと、(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸配列を収集することとを含む。
【0083】
[00129] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有し、デジタル情報は、ベクトルの集まりにより表される画像データを含む、受信することと、(b)M個の異なる層に分けられる区別可能な成分核酸配列のセットから選択されたM個の選択された成分核酸配列を区画に堆積させることにより、第1の識別子核酸配列を形成することと、(c)複数の識別子核酸配列を形成することであって、上記複数の識別子核酸配列は各々、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内で関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、形成することと、(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸配列を収集することとを含み、画像データを核酸配列に格納することにより、ランダムアクセス方式を使用して、色値について任意の近隣ピクセルに問い合わせることが可能になる。
【0084】
[00130] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、(b)M個の異なる層に分けられる区別可能な成分核酸配列のセットから選択されたM個の選択された成分核酸配列を区画に堆積させることにより、第1の識別子核酸配列を形成することと、(c)複数の識別子核酸配列を物理的にアセンブルすることであって、複数の識別子核酸配列の各々は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内で関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、アセンブルすることと、(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸配列を収集することとを含む。
【0085】
[00131] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、(b)固定長以下のサイズの1つ又は複数のブロックに記号列を分割することと、(c)M個の異なる層に分けられる区別可能な成分核酸配列のセットから選択されたM個の選択された成分核酸配列を区画に堆積させることにより、第1の核酸配列を形成することと、(d)複数の識別子核酸配列を物理的にアセンブルすることであって、複数の識別子核酸配列の各々は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内で関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、アセンブルすることと、(e)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸配列を収集することとを含む。
【0086】
[00132] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、(b)M個の異なる層に分けられる区別可能な成分核酸配列のセットから選択されたM個の選択された成分核酸配列を区画に堆積させることにより、第1の核酸配列を形成することと、(c)複数の識別子核酸配列を物理的にアセンブルすることであって、複数の識別子核酸配列の各々は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内で関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、アセンブルすることと、(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸配列を収集することと、(e)(d)における識別子核酸配列を使用して、AND、OR、NOT、又はNANDを含むブール論理演算が関わる計算を記号列に対して実行して、核酸分子の新しいプールを生成することとを含む。
【0087】
[00133] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、(b)(1)M個の異なる層に分けられた区別可能な成分核酸配列のセットから、M個の層の各々から1つの成分核酸配列を選択すること、(2)M個の選択された成分核酸配列を区画に堆積させることを行うことにより、第1の識別子核酸配列を形成することと、(c)複数の識別子核酸配列を物理的にアセンブルすることであって、複数の識別子核酸配列の各々は、第1及び第2の末端配列と、第1の末端配列と第2の末端配列との間に位置する第3の配列とを有し、各記号位置に対応し、少なくとも1つの追加の識別子核酸配列の第1の末端配列、第2の末端配列、及び第3の配列の少なくとも1つは、(b)における第1の識別子核酸配列の標的配列と同一であり、単一のプローブが、記号列内で関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、アセンブルすることと、(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸配列を収集することとを含む。
【0088】
[00134] 別の態様において、本開示は、デジタル情報を核酸配列に格納する方法を提供し、方法は、(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、(b)(1)M個の異なる層に分けられた区別可能な成分核酸配列のセットから、M個の層の各々から1つの成分核酸配列を選択すること、(2)M個の選択された成分核酸配列を区画に堆積させること、(3)(2)におけるM個の選択された成分核酸配列を物理的にアセンブルすることであって、それにより、指定された成分を含む第1の識別子核酸配列を形成し、指定された成分は少なくとも1つの標的配列を含み、指定された成分を含む識別子のアクセスを可能にする、アセンブルすることを行うことにより、第1の識別子核酸配列を形成することと、(c)複数の識別子核酸配列を物理的にアセンブルすることであって、複数の識別子核酸配列は各々、指定された成分を有し、指定された成分は、(b)における第1の識別子核酸配列の少なくとも1つの標的配列を含み、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸配列を選択できるようにする、アセンブルすることと、(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸配列を収集することとを含む。
【0089】
[00135] 図10は、情報を核酸配列にコードし、情報を核酸配列に書き込み、核酸配列に書き込まれた情報を読み取り、読み取られた情報をデコードする全体像プロセスを示す。デジタル情報又はデータは、1つ又は複数の記号列に翻訳することができる。一例では、記号はビットであり、各ビットは「0」又は「1」のいずれかの値を有し得る。各記号はその記号を表すオブジェクト(例えば識別子)にマッピング又は符号化することができる。各記号は、区別可能な識別子により表すことができる。区別可能な識別子は、成分で構成される核酸分子であり得る。成分は核酸配列であり得る。デジタル情報は、情報に対応する識別子ライブラリを生成することにより核酸配列に書き込まれ得る。識別子ライブラリは、デジタル情報の各記号に対応する識別子を物理的に構築することにより物理的に生成され得る。一度にデジタル情報の全て又は任意の部分にアクセスし得る。一例では、識別子ライブラリから識別子のサブセットがアクセスされる。識別子をシーケンシングし識別することにより、識別子のサブセットが読み取られ得る。デジタルデータを復号化するために、識別された識別子には対応する記号が関連付けられ得る。
【0090】
[00136] 図10の手法を使用して情報を符号化及び読み取る方法は、例えば、ビットストリームを受信することと、識別子ランク又は核酸インデックスを使用して、ビットストリーム中の各1ビット(ビット値「1」を有するビット)を区別可能な核酸識別子にマッピングすることとを含むことができる。ビット値1に対応する識別子のコピーを含む(且つビット値0の識別子を含まない)核酸サンプルプール又は識別子ライブラリを構築すること。サンプルを読み取ることは、分子生物学的方法を使用する(例えば、シーケンシング、ハイブリダイゼーション、PCR等)ことと、どの識別子が識別子ライブラリ内で表されているかを特定することと、それらの識別子に対応するビットにビット値「1」を割り当て、その他の場合にはビット値「0」を割り当て(ここでも、各識別子が対応する元のビットストリーム中のビットを識別するために識別子ランクを参照する)、そうして情報を符号化された元のビットストリームに復号化することとを含むことができる。
【0091】
[00137] N個の区別可能なビットの列の符号化は、等しい数の一意の核酸配列を可能な識別子として使用することができる。情報符号化のこの手法は、格納する情報(Nビット列)の新しい各アイテムで識別子(例えば核酸分子)のデノボ合成を使用し得る。他の場合、格納する情報の新しい各アイテムで識別子(N以下に等しい数)を新たに合成するコストは、情報の新しいアイテムを符号化することが、予め合成された(又は予め組み立てられた)識別子を機械的に選択して一緒に混合して、識別子ライブラリを形成することを含み得るようなワンタイムデノボ合成及び可能な全ての識別子を続けて維持することにより削減することができる。他の場合、(1)格納する情報の新しい各アイテムでN個までの識別子のデノボ合成若しくは(2)格納する情報の新しい各アイテムでN個の可能な識別子の維持及びそこからの選択のコストの両方又はそれらの任意の組合せは、幾つかの(N未満、幾つかの場合ではNよりもはるかに少ない)核酸配列を合成して維持し、次いで酵素反応を通してこれらの配列を改変して、格納する新しい各情報アイテムに最高でN個の識別子を生成することにより低減することができる。
【0092】
[00138] 識別子は、読み取り、書き込み、アクセス、コピー、及び削除動作を容易にするように合理的に設計及び選択することができる。識別子は、書き込みエラー、変異、劣化、及び読み取りエラーを最小に抑えるように設計及び選択することができる。合成核酸ライブラリ(識別子ライブラリ等)を含むDNA配列の合理的な設計についての化学的方法セクションHを参照のこと。
【0093】
[00139] 図11A及び図11Bは、オブジェクト又は識別子(例えば核酸分子)にデジタルデータを符号化する、「データアットアドレス」と称される一例の方法を模式的に示す。図11Aは識別子ライブラリへのビットストリームの符号化を示し、個々の識別子は、バイト値を指定する単一の成分を有する識別子ランクを指定する単一の成分を連結又はアセンブルすることにより構築される。一般に、データアットアドレス方法は、モジュール式で2つのオブジェクトを含むことにより情報を符号化する識別子を使用する:1つのオブジェクトは、バイト値を識別する「バイト値オブジェクト」(又は「データオブジェクト」)であり、1つのオブジェクトは、識別子ランク(又は元のビットストリームにおけるバイトの相対位置)を識別する「ランクオブジェクト」(又は「アドレスオブジェクト」)である。図11Bは、各ランクオブジェクトが、成分のセットから組合せにより構築され得、各バイト値オブジェクトが、成分のセットから組み合わせにより構築され得るデータアットアドレス方法の一例を示す。ランクオブジェクト及びバイト値オブジェクトの組み合わせによる構築は、仮にオブジェクトが単一の成分だけで作られる(例えば、図11A参照)場合よりもより多くの情報を識別子に書き込めるようにする。
【0094】
[00140] 図12A及び図12Bは、オブジェクト又は識別子(例えば核酸配列)にデジタル情報を符号化する方法の別の例を模式的に示す。図12Aは、識別子ライブラリへのビットストリームの符号化を示し、識別子は、識別子ランクを指定する単一の成分から構築される。特定のランク(又はアドレス)に識別子が存在することは、ビット値「1」を指定し、特定のランク(又はアドレス)に識別子が不在であることは、ビット値「0」を指定する。このタイプの符号化は、ランクのみ(元のビットストリームにおけるビットの相対位置)を符号化し、識別子ライブラリにおけるそれらの識別子の有無を使用してビット値「1」又は「0」をそれぞれ符号化する識別子を使用し得る。情報の読み取り及び復号化は、識別子ライブラリに存在する識別子を識別し、それらの対応するランクにビット値「1」を割り当て、その他の場合にはビット値「0」を割り当てることを含み得る。図12Bは、各識別子が、可能な各組合せ構造がランクを指定するように、成分のセットから組み合わせにより構築することができる一例の符号化方法を示す。そのような組合せ構造は、仮にオブジェクトが単一の成分だけで作られる(例えば、図12A参照)場合よりもより多くの情報を識別子に書き込めるようにする。例えば、成分セットは5つの区別可能な成分を含み得る。5つの区別可能な成分がアセンブルされて、各々が5つの成分のうちの2つを含む10個の区別可能な識別子を生成し得る。10個の区別可能な識別子は各々、ビットストリームにおけるビットの位置に対応するランク(又はアドレス)を有し得る。識別子ライブラリは、ビット値「1」の位置に対応する10個の可能な識別子のサブセットを含み得、長さ10のビットストリーム内のビット値「0」の位置に対応する10個の可能な識別子のサブセットを除外し得る。
【0095】
[00141] 図13は、図12A及び図12Bに示される符号化方法を使用して、可能な識別子の組合せ空間(C、x軸)とビット単位の所与のオリジナルサイズ(D、等高線)の情報を格納するために物理的に構築される識別子の平均数(k、y軸)との関係の、対数空間における等高線図を示す。このプロットは、サイズDの元情報がCビット列(CはDよりも大きい値であり得る)に再符号化されると仮定し、ここで、幾つかのビットkはビット値「1」を有する。さらに、プロットは、核酸への情報の符号化が再符号化されたビット列で実行され、ビット値が「1」である位置の識別子は構築され、ビット値が「0」である位置の識別子は構築されないと仮定する。仮定に従うと、可能な識別子の組合せ空間は、再符号化されたビット列におけるあらゆる位置を識別するためにサイズCを有し、サイズDのビット列を符号化するために使用される識別子の数は、D=log(Cchoosek)であるようなものであり、ここで、Cchoosekは、C個の可能性からk個の順序なし結果を選ぶ幾つかの方法の数式であり得る。したがって、可能な識別子の組合せ空間が、所与の情報アイテムのサイズ(ビット単位)を超えて大きくなるにつれて、その所与の情報を格納するために使用される、物理的に構築される識別子の数は下がり得る。
【0096】
[00142] 図14は、情報を核酸配列に書き込む方法の全体像を示す。情報を書き込むに先立って、情報は記号列に翻訳され、複数の識別子に符号化され得る。情報の書き込みは、可能な識別子を生成するために反応をセットアップすることを含み得る。反応は、入力を区画に堆積させることにより準備し得る。入力は核酸、成分、鋳型、酵素、又は化学試薬を含み得る。区画は、ウェル、チューブ、表面上の位置、マイクロ流体デバイス内のチャンバ、又はエマルジョン内の液滴であり得る。複数の反応を複数の区画でセットアップし得る。反応は、プログラムされた温度のインキュベーション又はサイクリングを通して識別子の生成に進み得る。反応は、選択的又は普遍的に除去(例えば、削除)し得る。反応は選択的又は普遍的に中断、統合、及び精製されて、識別子を1つのプールに収集することもできる。複数の識別子ライブラリからの識別子は、同じプールに収集され得る。個々の識別子は、どの識別子ライブラリに属するかを識別するためのバーコード又はタグを含み得る。これに代えて又は加えて、バーコードは符号化された情報のメタデータを含み得る。補足核酸又は識別子を識別子ライブラリと共に識別子プールに含めることもできる。補足核酸又は識別子は、符号化された情報のメタデータを含んでもよく又は符号化された情報を不明瞭化若しくは隠すように機能してもよい。
【0097】
[00143] 識別子ランク(例えば核酸インデックス)は、識別子の順序を決める方法又は鍵を構成することができる。方法は、全ての識別子及びそれらの対応するランクを有するルックアップテーブルを含むことができる。方法は、識別子を構成する全ての成分のランクと、それらの成分の組合せを含む任意の識別子の順序を決める関数とを有するルックアップテーブルを含むこともできる。そのような方法は、辞書式順序と称することができ、辞書において言葉がアルファベット順に並べられる様式と類似し得る。データアットアドレス符号化方法では、識別子ランク(識別子のランクオブジェクトにより符号化される)が、ビットストリーム内のバイトの位置(識別子のバイト値オブジェクトにより符号化される)を特定することに使用され得る。代替の方法では、現在の識別子の識別子ランク(識別子全体自体により符号化される)は、ビットストリーム内のビット値「1」の位置を特定するのに使用され得る。
【0098】
[00144] 鍵は、区別可能なバイトをサンプル内の識別子(例えば核酸分子)の一意のサブセットに割り当て得る。例えば、簡単な形態では、鍵はバイト中の各ビットを、そのビットの位置を指定する一意の核酸配列に割り当て得、次いで、サンプル内のその核酸配列の有又は無が、1又は0のビット値をそれぞれ指定し得る。核酸サンプルから符号化された情報を読み取ることは、シーケンシング、ハイブリダイゼーション、又はPCRを含む任意の数の分子生物学的技法を含むことができる。幾つかの実施形態では、符号化されたデータセットを読み取ることは、データセットの一部を再構築すること、又は各核酸サンプルから符号化されたデータセット全体を再構築することを含み得る。配列を読み取ることができる場合、核酸インデックスを一意の核酸配列の有又は無と共に使用することができ、核酸サンプルはビットストリームに復号化することができる(例えば、複数のビット、1バイト、複数のバイトの各列、又は複数のバイトの列)。
【0099】
[00145] 識別子は、成分核酸配列を組合せによりアセンブルすることにより構築し得る。例えば、情報は、規定の分子群(例えば組合せ空間)から核酸分子(例えば識別子)のセットをとることにより符号化し得る。規定の分子群の可能な各識別子は、層に分けることができる成分の予め組み立てられたセットから核酸配列(例えば成分)を組み立てたものであり得る。個々の各識別子は、一定順であらゆる層から1つの成分を連結することにより構築し得る。例えば、M個の層があり、各層がn個の成分を有し得る場合、最高でC=n個の一意の識別子を構築し得、最高で2個の異なる情報アイテム又は最高でCビットを復号化及び格納することができる。例えば、1メガビットの情報の格納は1×10個の区別可能な識別子又はサイズC=1×10の組合せ空間を使用し得る。この例での識別子は、異なる方法で編成された多様な成分からアセンブルすることができる。アセンブリは、各々がn=1×10個の成分を含むM=2の予め組み立てられた層から作ることができる。代替的には、アセンブリは、各々がn=1×10個の成分を含むM=3の層から作ることができる。幾つかの実施態様では、アセンブリはM=2、M=3、M=4、M=5、又はそれよりも多くの層から作ることができる。この例が示すように、より多数の層を使用して同量の情報を符号化することにより、成分の総数を少なくすることができる。総数がより少ない成分の使用は、書き込みコストの点で有利であり得る。
【0100】
[00146] 一例では、各々がx成分及びy成分(例えば核酸配列)をそれぞれ有する2セットの一意の核酸配列又は層X及びYで開始することができる。Xからの各核酸配列は、Yからの各核酸配列にアセンブルすることができる。2セットに保持される核酸配列の総数はx及びyの和であり得るが、生成することができる核酸、ひいては可能な識別子の総数は、xとyの積であり得る。Xからの配列をYの配列に任意の順序でアセンブルすることができる場合、更に多くの核酸配列(例えば識別子)を生成することができる。例えば、生成される核酸配列(例えば識別子)の数は、アセンブリの順序がプログラム可能な場合、xとyの積の2倍であり得る。生成することができる可能な全ての核酸配列のこのセットは、XYと呼ばれ得る。XYにおける一意の核酸配列のアセンブルされたユニットの順序は、区別可能な5’及び3’末端を有する核酸を使用して制御することができ、制限酵素消化、ライゲーション、ポリメラーゼ連鎖反応(PCR)、及びシーケンシングは、配列の区別可能な5’及び3’末端に対して行われ得る。そのような手法は、アセンブリプロダクトの組合せ及び順序に情報を符号化することにより、N個の区別可能なビットを符号化するのに使用される核酸配列(例えば成分)の総数を低減することができる。例えば、100ビットの情報を符号化するために、10個の区別可能な核酸分子(例えば成分)の2層を一定順でアセンブルして、10*10即ち100の区別可能な核酸分子(例えば識別子)を生成してもよく又は5つの区別可能な核酸分子(例えば成分)の1層及び10個の区別可能な核酸分子(成分)の別の層を任意の順序でアセンブルして、100個の区別可能な核酸分子(例えば識別子)を生成してもよい。
【0101】
[00147] 各層内の核酸配列(例えば成分)は、一意の(即ち区別可能な)配列又はバーコードを一末端上の中間共通ハイブリダイゼーション領域及び他方の末端上の別の共通ハイブリダイゼーション領域に含み得る。バーコードは、層内のあらゆる配列を一意に識別するのに十分な数のヌクレオチドを含み得る。例えば、典型的には、バーコード内の各塩基位置に4つの可能なヌクレオチドがある。したがって、3つの塩基バーコードは4=64個の核酸配列を一意に識別し得る。バーコードはランダムに生成されるように設計し得る。代替的には、バーコードは、識別子の構築化学又はシーケンシングに対して複雑性を生み出す恐れがある配列を回避するように設計し得る。さらに、バーコードは、各々がその他のバーコードから最小ハミング距離を有し得、それにより、塩基分解能での変異又は読み取りエラーがバーコードの適宜識別に干渉し得る尤度を下げるように設計し得る。DNA配列の合理的な設計については化学的方法セクションHを参照のこと。
【0102】
[00148] 核酸配列(例えば成分)の一末端におけるハイブリダイゼーション領域は各層で異なり得るが、ハイブリダイゼーション領域は、層内の各メンバで同じであり得る。隣接層は、互いと相互作用できるようにする相補的なハイブリダイゼーション領域を成分上に有する層である。例えば、層Xからの任意の成分は、相補的なハイブリダイゼーション領域を有し得るため、層Yからの任意の成分に付着することが可能であり得る。逆の末端上のハイブリダイゼーション領域は、第1の末端上のハイブリダイゼーション領域と同じ目的を果たし得る。例えば、層Yからの任意の成分は、一末端上の層Xの任意の成分及び逆の末端上の層Zの任意の成分に付着し得る。
【0103】
[00149] 図15A及び図15Bは、一定順で各層からの区別可能な成分(例えば核酸配列)を組合せによりアセンブルすることにより、識別子(例えば核酸分子)を構築する、「積方式(product scheme)」と称される一例の方法を示す。図15Aは、積方式を使用して構築された識別子のアーキテクチャを示す。識別子は、一定順で各層からの単一の成分を組み合わせることにより構築し得る。各々がN個の成分を有するM層の場合、N個の可能な識別子が存在する。図15Bは、積方式を使用して構築し得る識別子の組合せ空間の一例を示す。一例では、組合せ空間は、各々が3つの区別可能な成分を含む3層から生成し得る。成分は、各層からの一成分を一定順で組み合わせることができるように組み合わせることができる。このアセンブリ方法の全体組合せ空間は、27個の可能な識別子を含み得る。
【0104】
[00150] 図16図19は、積方式(図6参照)を実施する化学的方法を示す。図16図19に示される方法は、一定順で2つ以上の区別可能な成分をアセンブルする任意の他の方法と共に、例えば、識別子ライブラリ内の任意の1つ又は複数の識別子を生成するのに使用することができる。識別子は、本明細書に開示される方法又はシステム中、随時、図16図19に記載の実施方法のいずれを使用して構築されてもよい。幾つかの場合、可能な識別子の組合せ空間の全て又は一部は、デジタル情報が符号化又は書き込まれる前に構築され得、その場合、書き込みプロセスは、既に存在するセットから識別子(情報を符号化した)を機械的に選択しプールすることを含み得る。他の場合、識別子は、データ符号化又は書き込みプロセスの1つ又は複数のステップが行われた後(即ち、情報が書き込まれるにつれて)、構築されてよい。
【0105】
[00151] 酵素反応を使用して、異なる層又はセットからの成分をアセンブルし得る。各層の成分(例えば核酸配列)は隣接層の成分に特異的なハイブリダイゼーション又は付着領域を有するため、アセンブリはワンポット反応で行うことができる。例えば、層Xからの核酸配列(例えば成分)X1、層Yからの核酸配列Y1、及び層Zからの核酸配列Z1が、アセンブルされた核酸分子(例えば識別子)X1Y1Z1を形成し得る。さらに、各層からの複数の核酸配列を含むことにより、複数の核酸分子(例えば識別子)を1回の反応でアセンブルすることができる。例えば、Y1及びY2の両方を前例のワンポット反応に含むことにより、2つのアセンブルされたプロダクト(例えば識別子)X1Y1Z1及びX1Y2Z1を生成し得る。この反応多重化を使用して、物理的に構築された複数の識別子の書き込み時間を加速化し得る。これはアセンブリ効率に関連するため、DNA配列の合理的な設計についての詳細については化学的方法セクションHを参照のこと。核酸配列のアセンブリは、約1日、12時間、10時間、9時間、8時間、7時間、6時間、5時間、4時間、3時間、2時間、又は1時間以下の時間期間で実行し得る。符号化されたデータの正確性は、約90%以上、約95%以上、約96%以上、約97%以上、約98%以上、約99%以上、又は99%超であり得る。
【0106】
[00152] 識別子は、図16に示されるように、オーバーラップ伸長ポリメラーゼ連鎖反応(OEPCR)を使用して積方式に従って構築されてよい。各層における各成分は、隣接層からの成分の配列末端上の共通ハイブリダイゼーション領域と同種の及び/又は相補的であり得る共通ハイブリダイゼーション領域を配列末端上に有する2本鎖又は1本鎖(図に示されるように)核酸配列を含み得る。個々の識別子は、成分X~Xを含む層X(又は層1)からの1つの成分(例えば一意の配列)、Y~Yを含む層Y(又は層2)からの第2の成分(例えば一意の配列)、及びZ~Zを含む層Z(又は層3)からの第3の成分(例えば一意の配列)を連結することにより構築し得る。層Xからの成分は、層Yからの成分の3’末端を相補的に共有する3’末端を有し得る。したがって、層X及びYからの1本鎖成分は、3’末端において一緒にアニールされ得、PCRを使用して伸長されて2本鎖核酸分子を生成し得る。生成された2本鎖核酸分子を融解して、層Zからの成分の3’末端と相補性を共有する3’末端を生成することができる。層Zからの成分を、生成された核酸分子とアニールすることができ、伸長して、層X、Y及びZからの単一成分を固定された順序で含む一意の識別子を生成することができる。OEPCRについては化学的方法セクションAを参照のこと。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照のこと)又は最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照のこと)を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から分離することができる。2つのプローブ(一方は、2つの最外層の各々に対するものである)での逐次的核酸捕捉を実行して、完全にアセンブルされた識別子産物を、反応中に形成され得る他の副産物から分離することもできる(化学的方法セクションFを参照のこと)。
【0107】
[00153] 識別子を、図17に示されているように、粘着末端ライゲーションを使用して積方式に従ってアセンブルすることができる。1本鎖3’突出を有する2本鎖成分(例えば、2本鎖DNA(dsDNA))を各々が含む3つの層を使用して、区別可能な識別子をアセンブルすることができる。例えば、成分X-Xを含む層X(又は層1)からの1つの成分と、Y-Yを含む層Y(又は層2)からの第2の成分と、Z-Zを含む層Z(又は層3)からの第3の成分とを含む識別子。層Xからの成分を層Yからの成分と組み合わせるために、層Xの成分は、図17にaと表示されている共通3’突出を含むことができ、層Yの成分は、共通の相補的3’突出、aを含むことができる。層Yからの成分を層Zからの成分と組み合わせるために、層Yの要素は、図17にbと表示されている共通3’突出を含むことができ、層Zの要素は、共通の相補的3’突出、bを含むことができる。層X成分の3’突出は、層Y成分の3’末端と相補的であることができ、層Y成分の他方の3’突出は、層Z成分の3’末端と相補的であることができ、このことにより、これらの成分のハイブリダイゼーション及びライゲーションが可能になる。しかるが故に、層Xからの成分は、層X又は層Zからの他の成分とハイブリダイズすることができず、同様に層Yからの成分は、層Yからの他の要素とハイブリダイズすることができない。さらに、層Yからの単一の成分は、層Xの単一の成分及び層Zの単一の成分とライゲーションすることができ、このことにより、完全な識別子が確実に形成される。粘着末端ライゲーションについては化学的方法セクションBを参照のこと。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照のこと)又は最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照のこと)を実行して、識別子産物を反応中に形成され得る他の副産物から分離することができる。2つのプローブ(一方は、2つの最外層の各々に対するものである)での逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から分離することもできる(化学的方法セクションFを参照のこと)。
【0108】
[00154] 粘着末端ライゲーションのための粘着末端は、各層の成分を制限エンドヌクレアーゼで処理することにより生成することができる(制限酵素反応についての詳細情報については化学的方法セクションCを参照のこと)。幾つかの実施形態では、複数の層の成分を、成分の1つの「親」セットから生成することができる。例えば、2本鎖成分の単一の親セットが各末端に相補的制限部位(例えば、BamHI及びBglIIの制限部位)を有し得る実施形態。任意の2つの成分をアセンブリに選択し、一方又は他方の相補的制限酵素(例えば、BglII又はBamHI)で個別に消化することができ、その結果、相補的粘着末端が得られ、これらを互いにライゲーションすることができ、その結果、不活性跡(inert scar)をもたらす。産物核酸配列は、各末端に相補的制限部位(例えば、5’末端にBamHI、及び3’末端にBglII)を含むこともあり、さらに、そのような核酸配列を同じプロセスに従って親セットからの別の成分にライゲーションすることができる。このプロセスは、無限に循環し得る(図20)。親がN個の成分を含む場合には、各サイクルは、N個の成分の追加の層を積方式に加えることに相当し得る。
【0109】
[00155] セットX(例えば、dsDNAのセット1)からの要素とセットY(例えば、dsDNAのセット2)からの要素とを含む核酸の配列を構築するためにライゲーションを使用する方法は、2本鎖配列の2つ又はそれより多くのプール(例えば、dsDNAのセット1及びdsDNAのセット2)を得るステップ又は構築するステップであって、第1のセット(例えば、dsDNAのセット1)が、粘着末端(例えば、a)を含み、第2のセット(例えば、dsDNAのセット2)が、第1のセットの粘着末端と相補的である粘着末端(例えば、a)を含む、ステップを含み得る。第1のセット(例えば、dsDNAのセット1)からの任意のDNAと第2のセット(例えば、dsDNAのセット2)からのDNAの任意のサブセットとを組み合わせ、アセンブルし、次いで、互いにライゲーションして、第1のセットからの要素と第2のセットからの要素とを有する単一の2本鎖DNAを形成することができる。
【0110】
[00156] 識別子を、図18に示されているように、部位特異的組換えを使用して積方式に従ってアセンブルすることができる。3つの異なる層からの成分をアセンブルすることにより、識別子を構築することができる。層X(又は層1)の成分は、分子の一方の側にattBリコンビナーゼ部位を有する2本鎖分子を含むことができ、層Y(又は層2)からの成分は、一方の側にattPリコンビナーゼ部位及び他方の側にattBリコンビナーゼ部位を有する2本鎖分子を含むことができ、層Z(又は層3)の成分は、分子の一方の側にattPリコンビナーゼ部位を含むことができる。対の中のattB及びattP部位は、それらの下付文字により示されているように、それらの対応するリコンビナーゼ酵素の存在下で組換えが可能である。層Xからの1つの成分が層Yからの1つの成分と会合し、層Yからの1つの成分が層Zからの1つの成分と会合するように、各層の1つの成分を組み合わせることができる。1つ又は複数のリコンビナーゼ酵素の適用は、順序付けられた成分を含む2本鎖識別子を生成するように成分を組み換えることができる。DNAサイズ選択(例えば、ゲル抽出を用いる)、又は最外層に隣接するプライマーを用いるPCRを実行して、識別子産物を反応中に形成され得る他の副産物から分離することができる。一般に、attBとattPの複数の直交対を使用することができ、各対を使用して追加の層からの成分をアセンブルすることができる。大きいセリンのリコンビナーゼファミリについては、attBとattPの最大6つの直交対をリコンビナーゼ毎に生成することができ、複数の直交リコンビナーゼを同様に実行することもできる。例えば、BxbI及びPhiC31等の2つの大きいセリンリコンビナーゼの各々から6つの直交対である、attBとattPの12の直交対を使用することにより、13層をアセンブルすることができる。attBとattPの対の直交性により、1つの対からのattB部位が別の対のattP部位と反応しないことが保証される。これにより、異なる層からの成分を固定された順序でアセンブルすることが可能になる。リコンビナーゼ媒介組換え反応は、実行されるリコンビナーゼ系に依存して可逆的であることもあり、又は不可逆的であることもある。例えば、大きいセリンリコンビナーゼファミリは、いずれの高エネルギー補因子も必要とすることなく不可逆的組換え反応を触媒し、これに対してチロシンリコンビナーゼファミリは、可逆的反応を触媒する。
【0111】
[00157] 識別子を、図19Aに示されているように、鋳型誘導型ライゲーション(TDL)を使用して積方式に従って構築することができる。鋳型誘導型ライゲーションは、識別子を形成するための成分の順序付けられたライゲーションを容易にするために、「鋳型」又は「ステープル」と称される1本鎖核酸配列を利用する。鋳型は、隣接する層からの成分に同時にハイブリダイズし、それらを互いに(5’末端に対して3’末端)隣接した状態で保持し、その間にリガーゼがそれらをライゲーションする。図19Aからの例では、1本鎖成分の3つの層又はセットが組み合わせられる。配列aと相補的である共通配列aをそれらの3’末端に共有する成分の第1の層(例えば、層X又は層1);配列b及びcと相補的である共通配列b及びcをそれらの5’及び3’末端にそれぞれ共有する成分の第2の層(例えば、層Y又は層2);配列dと相補的であり得る共通配列dをそれらの5’末端に共有する成分の第3の層(例えば、層Z又は層3);及び2つの鋳型のセット、又は第1のステープルが配列a(5’→3’)を含み、第2のステープルが配列c(5’→3’)を含む、2つの「ステープル」のセット。この例では、各層からの1つ又は複数の成分を選択し、ステープルとの反応に混合することができ、これらのステープルは、識別子を形成するための各層からの1つの成分の定義された順序でのライゲーションを相補的アニーリングにより容易にすることができる。TDLについては化学的方法セクションBを参照のこと。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照のこと)又は最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照のこと)を実行して、識別子産物を反応中に形成され得る他の副産物から分離することができる。2つのプローブ(一方は、2つの最外層の各々に対するものである)での逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から分離することもできる(化学的方法セクションFを参照のこと)。
【0112】
[00158] 図19Bは、6層TDLで各々アセンブルされた256の区別可能な核酸配列についてのコピー数(存在量)のヒストグラムを示す。縁層(最初の層及び最後の層)の各々は1つの成分を有し、内層(残りの4つの4層)の各々は4つの成分を有した。各縁層成分は、10塩基ハイブリダイゼーション領域を含む28塩基であった。各内層成分は、5’末端の10塩基共通ハイブリダイゼーション領域と、10塩基可変(バーコード)領域と、3’末端の10塩基共通ハイブリダイゼーション領域とを含む、30塩基であった。3本の鋳型鎖の各々は、長さ20塩基であった。256の区別可能な配列全てを、1つの反応が成分及び鋳型、T4ポリヌクレオチドキナーゼ(成分をリン酸化するために)、並びにT4リガーゼ、ATP、及び他の適切な反応試薬の全てを含有する多重方式で、アセンブルした。反応を37度で30分間、次いで室温で1時間インキュベートした。シーケンシングアダプターをPCRでの反応産物に添加し、産物をIllumina MiSeq装置でシーケンシングした。合計192910のアセンブルされた配列読み取りのうちの区別可能なアセンブルされた配列各々についての相対コピー数が示されている。この方法の他の実施形態は、2本鎖成分を使用することがあり、その場合、これらの成分は、ステープルにアニールすることができる1本鎖バージョンを形成するために最初に融解される。この方法(即ち、TDL)の他の実施形態又は派生型を使用して、積方式で達成され得るものより複雑な識別子の組合せ空間を構築することができる。
【0113】
[00159] ゴールデンゲートアセンブリ、ギブソンアセンブリ、及びリガーゼサイクリング反応アセンブリを含め、種々の他の化学的実施態様を使用して、積方式に従って識別子を構築することができる。
【0114】
[00160] 図20A及び図20Bは、成分(例えば核酸配列)を並べ替えて識別子(例えば核酸分子)を構築するための、「順列方式」と称される方法の一例を模式的に示す。図20Aは、順列方式を使用して構築された識別子のアーキテクチャを示す。識別子を、プログラム可能な順序で各層からの単一成分を組み合わせることにより構築することができる。図20Bは、順列方式を使用して構築することができる識別子の組合せ空間の例を示す。一例では、1つの区別可能な成分を各々が含む3つの層から、サイズ6の組合せ空間を生成することができる。成分は任意の順序で連結することができる。一般に、各々がN個の成分を有するM個の層を用いて、順列方式は合計NM!個の識別子の組合せ空間を可能にする。
【0115】
[00161] 図20Cは、鋳型誘導型ライゲーション(TDL、化学的方法セクションBを参照のこと)を用いる順列方式の実施態様の一例を示す。複数の層からの成分は、縁足場と呼ばれる、固定された左末端成分と固定された右末端成分との間でアセンブルされる。これらの縁足場は、組合せ空間内の全ての識別子で同じであり、したがって、これらの縁足場は実施のための反応マスターミックスの一部として添加することができる。異なる層からの成分が反応中に識別子に組み込まれる順序が反応に選択される鋳型に依存するように、鋳型又はステープルが、任意の2層又は足場間の任意の可能な接合部に存在する。M個の層について層の任意の可能な並べ替えを可能にするために、可能な接合部(足場との接合部を含む)毎にM+2M個の区別可能な選択可能なステープルが存在し得る。これらの鋳型のうちのM個(灰色の陰付き)は、層とそれら自体の間の接合部を形成し、ここに記載されるような並べ替えアセンブリに関しては含まれないことがある。しかし、それらを含めることで、図20D~Gに示されているような反復成分を含む識別子を用いてより大きい組合せ空間を可能にすることができる。DNAサイズ選択(例えば、ゲル抽出を用いる;化学的方法セクションEを参照のこと)又は最外層に隣接するプライマーを用いるポリメラーゼ連鎖反応(PCR)(化学的方法セクションDを参照のこと)を実行して、識別子産物を反応中に形成され得る他の副産物から分離することができる。2つの最外層の各々について1つである2つのプローブでの逐次的核酸捕捉を実行して、識別子産物を反応中に形成され得る他の副産物から分離することもできる(化学的方法セクションFを参照のこと)。
【0116】
[00162] 図20D~Gは、反復成分を有する識別子についての特定の事例を含むように順列方式を拡張することができる方法の一例を示す。図20Dは、並べ替えられている及び反復している成分を有する識別子を構築するために使用することができる図20Cからの実施態様の方法の一例を示す。例えば、識別子は、2つの区別可能な成分からアセンブルされた合計3つの成分を含み得る。この例では、層からの成分は、識別子中に複数回存在し得る。同じ成分の隣接した連結は、隣接する相補的ハイブリダイゼーション領域を有するステープル、例えば、図中のa(5’→3’)ステープルを同じ成分の3’末端と5’末端の両方に使用することにより、達成することができる。一般に、M個の層の場合、M個のそのようなステープルが存在する。この実施態様での反復している成分の組込みは、図20Eに示されているように、縁足場間でアセンブルされる1を超える長さ(即ち、1、2、3、4、又はそれより多くの成分を含む)の核酸配列を生成することができる。図20Eは、図20Dからの実施態様の例が、識別子に加えて、縁足場間でアセンブルされる非標的化核酸配列をもたらし得る方法を示す。適切な識別子をPCRで非標的化核酸配列から分離することができない。なぜなら、それらは、縁に同じプライマー結合部位を共有するからである。しかしながら、この例では、アセンブルされる核酸配列各々は一意の長さを有するように設計することができるので(例えば、全ての成分が同じ長さを有する場合)、DNAサイズ選択(例えば、ゲル抽出を用いる)を実行して、標的化された識別子(例えば、上からの2番目の配列)を非標的化配列から分離することができる。サイズ選択については化学的方法セクションEを参照のこと。図20Fは、反復している成分を有する識別子の構築が、区別可能な長さだが等しい端配列を有する複数の核酸配列を同じ反応中に生成し得る別の例を示す。この方法では、1つの層中の成分と他の層中の成分を交互パターンでアセンブルする鋳型を使用することができる。図20Eに示されている方法と同様に、サイズ選択を使用して設計長の識別子を選択することができる。図20Gは、反復している成分を有する識別子の構築が、等しい端配列及び一部の核酸配列(例えば、上から3番目と4番目、及び上から6番目と7番目)については等しい長さを有する、複数の核酸配列を生成し得る例を示す。この例では、等しい長さを共有する核酸配列は、PCR及びDNAサイズ排除を実行した場合であっても一方を構築することができず、他方の構築もないような、個々の識別子である両方から、除外され得る。
【0117】
[00163] 図21A~21Dは、より大きな数であるM個の可能な成分のうちの任意の数であるK個のアセンブルされた成分(例えば核酸配列)を有する識別子(例えば核酸分子)を構築するための「MchooseK方式」と称される方法の一例を模式的に示す。図21Aは、MchooseK方式を使用して構築された識別子のアーキテクチャを示す。この方法を使用して、識別子は、全ての層の任意のサブセットにおける各層からの1つの成分をアセンブルすることにより構築される(例えば、M個の可能な層のうちのk個の層から成分を選択する)。図21Bは、MchooseK方式を使用して構築することができる識別子の組合せ空間の一例を示す。このアセンブリ方式では、組合せ空間は、M個の層、層毎にN個の成分、及び成分数Kの識別子長の場合、N個のMchooseKの可能な識別子を含み得る。一例では、各々が1つの成分を含む5つの層がある場合、2つの成分を各々含む最大10の区別可能な識別子をアセンブルすることができる。
【0118】
[00164] MchooseK方式は、図21Cに示されているように、鋳型誘導型ライゲーション(化学的方法セクションBを参照のこと)を使用して実行することができる。順列方式についてのTDL実施態様(図20C)と同様に、この例での成分は、反応マスターミックスに含まれることもあり、含まれないこともある、縁足場間でアセンブルされる。M個の層、例えば、左縁足場がランク1であり得、右縁足場がランクM+1であり得る場合、2~Mの事前に定義されたランクを有するM=4層に成分を分割することができる。鋳型は、より低いランク~より高いランクをそれぞれ有する任意の2成分の3’→5’ライゲーションのための核酸配列を含む。((M+1)+M+1)/2個のそのような鋳型がある。区別可能な層からの任意のK個の成分の個々の識別子は、対応するK+1個のステープルが縁足場とK個の成分をそれらのランク順に接合するために使用されるライゲーション反応でそれらの選択された成分を組み合わせることにより、構築することができる。このような反応設定は、縁足場間で標的識別子に対応する核酸配列を生じさせることができる。代替的には、全ての鋳型を含む反応ミックスを選ばれた成分と組み合わせて標的識別子をアセンブルすることができる。この代替方法は、図21Dに示されているように、区別可能な長さだが同じ端配列を有する(全ての成分長が等しい場合)種々の核酸配列を生成することができる。標的識別子(一番下)を、副産物核酸配列からサイズにより分離することができる。核酸サイズ選択については化学的方法セクションEを参照のこと。
【0119】
[00165] 図22A及び22Bは、区画化された成分を有する識別子を構築するための「区画化方式」と称される方法の一例を模式的に示す。図22Aは、区画化方式を使用して構築することができる識別子の組合せ空間の一例を示す。異なる層の任意の2つの成分間に任意の区画(空間的分類成分)を必要に応じて配置して各層からの1つの成分を固定された順序でアセンブルすることにより、個々の識別子を構築することができる。例えば、1セットの成分を、1つの区画成分と、1つの成分を各々が含有する4つの層とに組織化することができる。各層からの成分を固定された順序で組み合わせることができ、単一区画成分を層間の種々の位置にアセンブルすることができる。この組合せ空間における識別子は、8つの可能な識別子の組合せ空間を作成するために、区画成分を含まないこと、第1の層からの成分と第2の層からの成分の間に区画を含むこと、第2の層からの成分と第3の層からの成分の間に区画を含むこと等がある。一般に、N個の成分を各々が有するM個の層とp個の区画成分とを用いて、N(p+1)M-1個の可能な識別子を構築することができる。この方法は種々の長さの識別子を生成することができる。
【0120】
[00166] 図22Bは、鋳型誘導型ライゲーション(化学的方法セクションBを参照のこと)を使用する区画化方式の実施態様の一例を示す。鋳型は、M個の層の各々から1つの成分を固定された順序で互いにライゲーションするための核酸配列を含む。区画成分毎に、鋳型の追加の対が存在し、これらにより、任意の2つの隣接する層からの成分間における区画成分のライゲーションが可能になる。例えば、対のうちの一方の鋳型(例えば、配列g(5’→3’)を有する)が、層1(配列bを有する)の3’末端が区画成分(配列gを有する)の5’末端にライゲーションするのを可能にするような、及び対のうちのもう一方の鋳型(例えば、配列c(5’→3’)を有する)が、区画成分(配列hを有する)の3’末端が層2(配列cを有する)の5’末端にライゲーションするのを可能にするような、鋳型の対。隣接する層の任意の2つの成分の間に区画を挿入するために、これらの層を互いにライゲーションするための標準鋳型を反応に含めなくてもよく、その位置で区画をライゲーションするための鋳型の対を反応において選択してもよい。現行の例では、層1と層2の間の区画成分の標的化は、鋳型c(5’→3’)ではなく鋳型c(5’→3’)と鋳型g(5’→3’)の対を反応のための選択に使用することができる。成分を、反応ミックスに(最初の層及びM番目の層にそれぞれライゲーションするためのそれらの対応する鋳型と共に)含めることができる縁足場間で、アセンブルすることができる。一般に、M個の層及びp個の区画成分の場合、合計約M-1+2(M-1)個の選択可能な鋳型をこの方法に使用することができる。区画化方式のこの実施態様は、区別可能な長さだが同じ端配列を有する種々の核酸配列を反応で生成することができる。標的識別子を、副産物核酸配列からDNAサイズ選択により分離することができる。具体的には、ちょうど1つの核酸配列産物が、ちょうどM個の層成分を有することができる。層成分が、区画成分と比較して十分大きく設計されている場合、識別子内の成分の特定の区分化にかかわらず識別子を選択することができる(且つどの非標的化副産物も選択されることがない)普遍的サイズ選択領域を定義することが可能であり得、それによって、複数の反応から複数の区画化された識別子を同じサイズ選択ステップで分離することが可能になる。核酸サイズ選択については化学的方法セクションEを参照のこと。
【0121】
[00167] 図23A及び図23Bは、幾つかの可能な成分からの成分の任意の列で構成されている識別子を構築するための「無制約列方式」又は「USS」と称される方法の一例を模式的に示す。図23Aは、無制約列方式を使用して構築することができる3成分(又は4足場)長識別子の組合せ空間の一例を示す。無制約列方式は、1つ又は複数の層から各々取られた1つ又は複数の区別可能な成分を有する長さK成分の個々の識別子を構築し、この場合、各々の区別可能な成分は、識別子内のK成分位置のいずれかに出現し得る(これにより反復が可能になる)。例えば、1つの成分を各々が含む2つの層の場合、可能な3成分長識別子は8つある。一般に、1つの成分を各々が有するM個の層に関しては、長さKの成分の可能な識別子はM個ある。図23Bは、鋳型誘導型ライゲーション(化学的方法セクションBを参照のこと)を使用する無制約列方式の実施態様の一例を示す。この方法では、K+1個の1本鎖状の順序付けられた足場DNA成分(2個の縁足場及びK-1個の内部足場を含む)が反応ミックス中に存在する。個々の識別子は、隣接する足場のあらゆる対の間でライゲーションした単一の成分を含む。例えば、足場Aと足場B間でライゲーションした成分、足場Cと足場Dとの間でライゲーションした成分等(K個全ての隣接する足場接合部が成分により占有されるまで)。反応では、異なる層から選択された成分が、それらを適切な足場上にアセンブルするように方向付けるステープルの選択された対と共に、足場に導入される。例えば、ステープルa(5’→3’)とステープルA(5’→3’)の対は、5’末端領域「a」と3’末端領域「b」とを有する層1成分を、L足場とA足場の間でライゲーションするように方向付ける。一般に、M個の層及びK+1個の足場で、2K個の選択可能なステープルを使用して長さKの任意のUSS識別子を構築することができる。成分を足場に5’末端で接続するステープルと同じ成分を足場に3’末端で接続するステープルは分離しているため、核酸副産物は、標的識別子と等しい縁足場との、しかしK個未満の成分(K+1個未満の足場)との、又はK個より多い成分(K+1個より多い足場)との、反応で形成し得る。標的化された識別子は、ちょうどK個の成分(K+1個の足場)を用いて形成することができ、したがって、全ての成分が等しい長さになるように設計され、全ての足場が等しい長さになるように設計された場合、DNAサイズ選択のような技術によって選択可能であり得る。核酸サイズ選択に関しては化学的方法セクションEを参照のこと。1層当たり1つの成分が存在し得る無制約列方式についての特定の実施形態では、その成分は、(1)識別バーコード、(2)足場への5’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域、及び(3)足場への3’末端のステープル媒介ライゲーションのためのハイブリダイゼーション領域という3つの役割の全てを満たす単一の区別可能な核酸配列を専ら含み得る。
【0122】
[00168] 図23Bに示されている内部足場は、それらが、ある成分への足場のステープル媒介5’ライゲーションと別の(必ずしも区別可能である必要はない)成分への足場のステープル媒介3’ライゲーションとの両方に同じハイブリダイゼーション配列を使用するように設計することができる。したがって、図23Bにおいて描かれている1足場2ステープルのスタック式ハイブリダイゼーション事象は、足場とステープルの各々との間で起こり、したがって、5’成分ライゲーション及び3’成分ライゲーションの両方を可能にする統計学的前後(back-and-force)ハイブリダイゼーション事象を表す。無制約列方式の他の実施形態では、2つの連結されたハイブリダイゼーション領域-ステープル媒介3’ライゲーションのための区別可能な3’ハイブリダイゼーション領域及びステープル媒介5’ライゲーションのための区別可能な5’ハイブリダイゼーション領域-を伴う足場を設計することができる。
【0123】
[00169] 図24A及び図24Bは、親識別子からの核酸配列(又は成分)を削除することにより識別子を構築するための「成分削除方式」と称される方法の一例を模式的に示す。図24Aは、成分削除方式を使用して構築することができる可能な識別子の組合せ空間の一例を示す。この例では、親識別子は複数の成分を含み得る。親識別子は、約2、3、4、5、6、7、8、9、10、20、30、40、50、若しくはそれを超える数より多い又は約2、3、4、5、6、7、8、9、10、20、30、40、50、若しくはそれを超える数に等しい数の成分を含み得る。個々の識別子は、N個の可能な成分から任意の数の成分を選択的に削除して、サイズ2の「完全」組合せ空間をもたらすことにより又はN個の可能な成分から固定数Kの成分を削除して、かくてサイズNchooseKの「NchooseK」組合せ空間をもたらすことにより、構築することができる。3個の成分を有する親識別子を用いる一例では、完全組合せ空間は8であり得、3choose2組合せ空間は3であり得る。
【0124】
[00170] 図24Bは、2本鎖標的化切断及び修復(DSTCR)を使用する成分削除方式の実施態様の一例を示す。親配列は、ヌクレアーゼ特異的標的部位(長さ4塩基又はそれ未満の塩基数であり得る)が隣接している成分を含む1本鎖DNA基質であり得、この場合、親は、標的部位に対応する1つ又は複数の2本鎖特異的ヌクレアーゼと共にインキュベーションされ得る。個々の成分は、親の成分DNA(及び隣接ヌクレアーゼ部位)に結合する相補的1本鎖DNA(又は切断鋳型)での削除について標的化され得、その結果、ヌクレアーゼにより両端が切断され得る、親上の安定した2本鎖配列が形成される。別の1本鎖DNA(又は修復鋳型)は、親の結果として生じる分離した末端(これらの間に成分配列が存在した)とハイブリダイズし、それらをライゲーションのために、直接的にせよ、親のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、置換配列により架橋させるにせよ、一緒にされる。本発明者らはこの方法を「2本鎖標的化切断」(DSTC)と称する。サイズ選択を使用して、特定の数の成分が削除された識別子を選択することができる。核酸サイズ選択については化学的方法セクションEを参照のこと。
【0125】
[00171] これに代えて又は加えて、親識別子は、どの2つの成分にも同じ配列が隣接しないようにスペーサ配列により隔てられている成分を含む2本鎖又は1本鎖核酸基質であることもある。親識別子は、Cas9ヌクレアーゼと共にインキュベートされ得る。個々の成分は、成分の縁に結合してその隣接部位でのCas9媒介切断を可能にするガイドリボ核酸(切断鋳型)での削除について標的化され得る。1本鎖核酸(修復鋳型)は、親識別子の結果として生じる、分離した末端(例えば、これらの末端間に成分配列が存在した)にハイブリダイズすることができ、かくて、それらをライゲーションのために一緒にされる。ライゲーションを直接行ってもよく、又は親のライゲーションされた配列が、Cas9によって標的化され得るスペーサ配列をもはや含有しないように、置換配列で末端を架橋させることによって行ってもよい。本発明者らは、この方法を「配列特異的な標的化切断及び修復」又は「SSTCR」と称する。
【0126】
[00172] 識別子は、DSTCRの派生型を使用して親識別子に成分を挿入することにより構築することができる。親識別子は、区別可能な核酸配列内に各々が埋め込まれているヌクレアーゼ特異的標的部位(これらは長さが4塩基又はそれ未満の塩基数であり得る)を含む1本鎖核酸基質であり得る。親識別子は、標的部位に対応する1つ又は複数の2本鎖特異的ヌクレアーゼと共にインキュベートされ得る。親識別子の個々の標的部位は、親識別子の標的部位及び区別可能な周囲核酸配列に結合する相補的1本鎖核酸(切断鋳型)での成分挿入について標的化され得、その結果、2本鎖部位が形成される。2本鎖部位をヌクレアーゼにより切断することもできる。別の1本鎖核酸(修復鋳型)は、親識別子の結果として生じる分離した末端にハイブリダイズし、それらをライゲーションのために、親のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、成分配列により架橋させて一緒にされる。代替的には、SSTCRの派生型を使用して、親識別子に成分を挿入することができる。親識別子は、2本鎖核酸又は1本鎖核酸であり得、親は、Cas9ヌクレアーゼと共にインキュベートされ得る。親識別子の区別可能な部位は、ガイドRNA(切断鋳型)での切断について標的化され得る。1本鎖核酸(修復鋳型)は、親識別子の分離した末端にハイブリダイズし、それらをライゲーションのために、親識別子のライゲーションされた配列が、ヌクレアーゼにより標的化される活性部位をもはや含有しないように、成分配列により架橋させて、一緒にされる。サイズ選択を使用して、特定の数の成分が挿入された識別子を選択することができる。
【0127】
[00173] 図25は、リコンビナーゼ認識部位を有する親識別子を模式的に示す。異なるパターンの認識部位は、異なるリコンビナーゼにより認識され得る。リコンビナーゼの所与のセットについての全ての認識部位は、それらの間の核酸が、リコンビナーゼが適用されると切除され得るように、配列される。図25に示されている核酸鎖は、それに適用されるリコンビナーゼのサブセットに依存して2=32の異なる配列を採用することができる。幾つかの実施形態では、図25に描かれているように、DNAのセグメントを切除、シフト、反転及び転置するためにリコンビナーゼを使用して一意の分子を生成して、異なる核酸分子を作出することができる。一般に、N個のリコンビナーゼを用いて、2個の可能な識別子を親から構築することができる。幾つかの実施形態では、異なるリコンビナーゼからの認識部位の複数の直交対を、1つのリコンビナーゼの適用が、下流のリコンビナーゼが適用された場合に起こる組換え事象のタイプに影響を与えるように、オーバーラップ方式で親識別子上に配列することができる(全体が参照により本明細書に援用されるRoquet et al.,Synthetic recombinase-based state machines in living cells, Science 353(6297):aad8559(2016)を参照のこと)。このようなシステムは、N個のリコンビナーゼの順序づけ、N!毎に異なる識別子を構築することが可能であり得る。リコンビナーゼは、チロシンファミリのリコンビナーゼ、例えば、Flp及びCreであってもよく、又は大きいセリンリコンビナーゼファミリのリコンビナーゼ、例えば、PhiC31、BxbI、TP901若しくはA118であってもよい。大きいセリンリコンビナーゼファミリからのリコンビナーゼの使用は、それらが不可逆的組換えを容易にし、したがって、他のリコンビナーゼより効率的に識別子を生成することができるため、有利であり得る。
【0128】
[00174] 幾つかの例では、多数のリコンビナーゼを区別可能な順序で適用することにより多くの区別可能な核酸配列になるように、単一核酸配列をプログラムすることができる。リコンビナーゼの数であるMが、大きいセリンリコンビナーゼファミリについて7未満であり得るか又は7であり得る場合、異なるサブセットの中のM個のリコンビナーゼを異なる順序で適用することにより、おおよそ約eM!個の区別可能な核酸配列を生成することができる。リコンビナーゼの数であるMが、7を超え得る場合、生成され得る配列の数は、3.9ほどである;例えば、全体が参照により本明細書に援用される、Roquet et al.,Synthetic recombinase-based state machines in living cells,Science 353(6297):aad8559(2016)を参照のこと。1つの共通配列から異なるDNA配列を生成するための更なる方法は、CRISPR-Cas、TALEN、及びジンクフィンガーヌクレアーゼ等の、標的化核酸編集酵素を含み得る。リコンビナーゼ、標的化編集酵素等により生成される配列は、前の方法、例えば、本願の図のいずれか及び開示において開示される方法のいずれかと併せて、使用することができる。
【0129】
[00175] 符号化すべき情報のビットストリームが、任意の単一核酸分子により符号化され得るものより大きい場合、情報を分割し、核酸配列バーコードでインデックス化することができる。さらに、N個の核酸分子のセットからのサイズkの核酸分子の任意のサブセットを選択して、log(Nchoosek)ビットの情報を生成することができる。バーコードをサイズkのサブセット内の核酸分子上にアセンブルして、更により長いビットストリームを符号化することができる。例えば、M個のバーコードを使用して、Mlog(Nchoosek)ビットの情報を生成することができる。あるセット内の利用可能な核酸分子の数N、及び利用可能なバーコードの数Mを考慮して、サイズk=kのサブセットを、1つの情報を符号化するためのプール内の分子の総数を最小限にするように選択することができる。デジタル情報を符号化する方法は、ビットストリームを分割するステップと、個々の要素を符号化するステップとを含み得る。例えば、6個のビットを含むビットストリームを、各成分が2個のビットを含む3つの成分に分割することができる。2ビット成分各々をバーコード化して情報カセットを形成し、一緒に群化又はプールして、情報カセットのハイパープールを形成することができる。
【0130】
[00176] バーコードは、符号化すべきデジタル情報の量が、1つのプールだけに適合し得る量を超える場合、情報インデックス化を容易にすることができる。例えば、核酸インデックスを使用して符号化された一意の核酸配列を有するタグを含めることにより、図12で開示される手法を階層化することによって、より長いビット列及び/又は複数のバイトを含む情報を符号化することができる。情報カセット又は識別子ライブラリは、所与の配列が対応するビットストリームの成分を示すバーコード又はタグに加えて、位置及びビット値情報を提供する一意の核酸配列を含む窒素含有塩基又は核酸配列を含むことができる。情報カセットは、1つ又は複数の一意の核酸配列並びにバーコード又はタグを含むことができる。情報カセット上のバーコード又はタグは、情報カセット及び情報カセットに含まれる任意の配列についての参照を提供することができる。例えば、情報カセット上のタグ又はバーコードは、ビットストリームのどの部分又はビットストリームのどのビット成分についての情報(例えば、ビット値及びビット位置情報)を一意の配列が符号化しているのかを示すことができる。
【0131】
[00177] バーコードを使用して、ビットでの情報を、可能な識別子の組合せ空間のサイズよりも多く、プールに符号化することができる。例えば10ビットの配列を、各バイトが5ビットを含む2セットのバイトに分けることができる。各バイトを、可能な区別可能な識別子5個の1セットにマッピングすることができる。最初は、バイト毎に生成された識別子は同じであり得るが、それらを別々のプールで保持することができ、そうでなければ、情報を読み取る者が、特定の核酸配列が属するのがどのバイトであるのかを見分けることができない可能性がある。しかしながら、符号化された情報が当てはまるバイトに対応する標識(例えば、第1の5ビットを提供するために、バーコード1を、核酸プール内の配列に結合させることができ、及び第2の5ビットを提供するために、バーコード2を、核酸プール内の配列に結合させることができる)を用いて各識別子をバーコード化又はタグ付けし、そしてその後、それら2つのバイトに対応する識別子を組み合わせて1つのプール(例えば、「ハイパープール」又は1つ若しくは複数の識別子ライブラリ)にすることができる。1つ又は複数の組み合わせられた識別子ライブラリの各識別子ライブラリは、所与の識別子を所与の識別子ライブラリに属するものとして識別する、区別可能なバーコードを含み得る。識別子ライブラリ中の各識別子にバーコードを付加させる方法は、PCR、ギブソン、ライゲーション、又は所与のバーコード(例えば、バーコード1)が所与の核酸サンプルプールに(例えば、バーコード1が核酸サンプルプール1に、及びバーコード2が核酸サンプルプール2に)結合できるようにする任意の他の手法を使用することを含み得る。シーケンシング法を用いてハイパープールからのサンプルを読み取ることができ、バーコード又はタグを使用してシーケンシング情報を構文解析することができる。識別子ライブラリ及びバーコードをM個のバーコードとN個の可能な識別子のセット(組合せ空間)で使用する方法は、MとNの積に相当する長さを有するビットストリームを符号化することができる。
【0132】
[00178] 幾つかの実施形態では、識別子ライブラリをウェルのアレイに格納することができる。ウェルのアレイは、n個の列とq個の行を有すると定義することができ、各ウェルは、ハイパープール内の2つ又はそれより多くの識別子ライブラリを含むことができる。各ウェル内の符号化された情報は、ウェルの各々に収容されている情報よりも大きいn×qサイズの1つの大きい連続した情報項目を構成し得る。ウェルのアレイ内の1つ若しくは複数のウェルからアリコートを取り、シーケンシング、ハイブリダイゼーション、又はPCRを使用して符号化を読み取ることができる。
【0133】
[00179] 核酸サンプルプール、ハイパープール、識別子ライブラリ、識別子ライブラリの群、又は核酸サンプルプール若しくはハイパープールを収容しているウェルは、情報のビットに対応する一意の核酸分子(例えば、識別子)及び複数の補足核酸配列を含み得る。補足核酸配列は、符号化データに対応しないこともある(例えば、ビット値に対応しない)。補足核酸サンプルは、サンプルプールに格納された情報をマスク又は隠蔽することができる。補足核酸配列は、生物学的供給源に由来することもあり、合成的に生成されることもある。生物学的供給源に由来する補足核酸配列は、無作為に断片化された核酸配列を含むこともあり、又は合理的に断片化された配列を含むこともある。生物学的に誘導された補足核酸は、特に、合成的に符号化された情報(例えば、識別子の組合せ空間)が天然遺伝情報(例えば、断片化されたゲノム)と似ているように作成された場合、合成的に符号化された情報と一緒に天然遺伝情報を提供することにより、サンプルプール内のデータ含有核酸を隠す又は分かりにくくすることができる。一例では、識別子は、生物学的供給源に由来し、補足核酸は、生物学的供給源に由来する。サンプルプールは、識別子と補足核酸配列の複数のセットを含有し得る。識別子と補足核酸配列の各セットは、異なる生物に由来することもある。一例では、識別子は、1つ又は複数の生物に由来し、補足核酸配列は、単一の、異なる生物に由来する。補足核酸配列は、1つ又は複数の生物に由来することもあり、識別子は、補足核酸が由来する生物とは異なる単一の生物に由来することがある。識別子と補足核酸配列の両方が、複数の異なる生物に由来することもある。鍵を使用して、識別子と補足核酸配列を区別することができる。
【0134】
[00180] 補足核酸配列は、書き込まれた情報についてのメタデータを格納することができる。メタデータは、一次情報源及び/又は一次情報の意図された受信者を決定及び/又は許可するための追加の情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するために及び書き込むために使用した装置及び方法、並びに識別子への一次情報の書き込み日時についての追加情報を含み得る。メタデータは、一次情報の形式、一次情報を符号化するために及び書き込むために使用した装置及び方法、並びに核酸配列への一次情報の書き込み日時についての追加の情報を含み得る。メタデータは、核酸配列への情報の書き込み後に一次情報に加えられた修正についての追加情報を含み得る。メタデータは、一次情報に対する注釈、又は外部情報への1つ若しくは複数の参照を含み得る。これに代えて又は加えて、メタデータは、識別子に結合された1つ若しくは複数のバーコード又はタグに記憶されることもある。
【0135】
[00181] 識別子プール内の識別子は、互いに同じ、類似している又は異なる長さを有し得る。補足核酸配列は、識別子の長さ未満である長さ、識別子の長さと実質的に等しい長さ、又は識別子の長さより長い長さを有し得る。補足核酸配列は、識別子の平均長の1塩基以内、2塩基以内、3塩基以内、4塩基以内、5塩基以内、6塩基以内、7塩基以内、8塩基以内、9塩基以内、10塩基以内、又はそれを超える塩基数以内である、平均長を有し得る。一例では、補足核酸配列は、識別子と同じ又は実質的に同じ長さである。補足核酸配列の濃度は、識別子ライブラリ中の識別子の濃度未満であることもあり、識別子の濃度と実質的に等しいこともあり、又は識別子の濃度より高いこともある。補足核酸の濃度は、識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%若しくはそれ未満より低いこともあり、又は識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%若しくはそれ未満に等しいこともある。補足核酸の濃度は、識別子の濃度の約1%、10%、20%、40%、60%、80%、100%
、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%若しくはそれを超える%より高いこともあり、又は識別子の濃度の約1%、10%、20%、40%、60%、80%、100%、125%、150%、175%、200%、1000%、1×10%、1×10%、1×10%、1×10%、1×10%若しくはそれを超える%に等しいこともある。より高い濃度は、難読化又はデータの隠蔽に有益であり得る。一例では、補足核酸配列の濃度は、識別子プール中の識別子の濃度より実質的に高い(例えば、1×10%高い)。
【0136】
核酸配列に格納されたデータをコピーする及びそのようなデータにアクセスする方法
[00182] 別の態様では、本開示は、核酸配列に符号化された情報をコピーする方法を提供する。核酸配列に符号化された情報をコピーする方法は、(a)識別子ライブラリを提供することと、(b)識別子ライブラリの1つ又は複数のコピーを構築することとを含み得る。識別子ライブラリは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。
【0137】
[00183] 別の態様では、本開示は、核酸配列に符号化された情報にアクセスする方法を提供する。核酸配列に符号化された情報にアクセスする方法は、(a)識別子ライブラリを提供することと、(b)識別子ライブラリから識別子ライブラリ中に存在する識別子の一部又はサブセットを抽出することとを含み得る。識別子ライブラリは、より大きい組合せ空間からの複数の識別子のサブセットを含み得る。複数の識別子のうちの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。
【0138】
[00184] 情報は、本明細書の他の箇所に記載されているように1つ又は複数の識別子ライブラリに書き込むことができる。識別子は、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。格納されたデータは、識別子ライブラリ中の又は1つ若しくは複数の識別子ライブラリ中の個々の識別子のコピーを生成することによりコピーすることができる。識別子の一部がコピーされることもあり、又はライブラリ全体がコピーされることもある。コピーは、識別子ライブラリ中の識別子を増幅することにより行うことができる。1つ又は複数の識別子ライブラリが組み合わせられるとき、単一の識別子ライブラリがコピーされることもあり、又は複数の識別子ライブラリがコピーされることもある。識別子ライブラリが補足核酸配列を含む場合、補足核酸配列は、コピーされることもあり、又はコピーされないこともある。
【0139】
[00185] 識別子ライブラリ中の識別子は、1つ又は複数の共通プライマー結合部位を含むように構築し得る。1つ又は複数の結合部位は、各識別子の縁に位置することもあり、又は各識別子の全体にわたって織り交ぜられていることもある。プライマー結合部位は、識別子ライブラリ特異的プライマー対又はユニバーサルプライマー対が識別子に結合すること及び識別子を増幅することを可能にし得る。識別子ライブラリ中の全ての識別子又は1つ若しくは複数の識別子ライブラリ中の全ての識別子は、複数のPCRサイクルにより複数回複製し得る。従来のPCRを使用して識別子をコピーし得、識別子は各PCRサイクルに伴って指数関数的に複製し得る。識別子のコピーの数は、各PCRサイクルに伴って指数関数的に増加し得る。線形PCRを使用して識別子をコピーし得、識別子を各PCRサイクルに伴って線形に複製することができる。識別子のコピーの数を、各PCRサイクルに伴って線形に増加させることができる。識別子をPCR増幅の前に環状ベクターにライゲーションすることができる。環状ベクターは、識別子挿入部位の各末端にバーコードを含み得る。識別子を増幅するためのPCRプライマーは、ベクターからプライミングするように設計することができ、したがって、バーコード化された縁は、識別子に伴って増幅産物に含まれる。増幅中に、識別子間の組換えの結果として、各々の縁に無相関のバーコードを含むコピーされた識別子が生じ得る。無相関のバーコードは、識別子の読み取り時に検出可能であり得る。無相関のバーコードを含有する識別子を偽陽性と見なすことができ、情報復号プロセス中は無視することができる。化学的方法セクションDを参照のこと。
【0140】
[00186] 情報は、情報の各ビットを一意の核酸分子に割り当てることにより符号化し得る。例えば、2つの核酸配列を各々が有する3つのサンプルセット(X、Y、及びZ)は、8個の一意の核酸分子にアセンブルし、下記の8個のデータビットを符号化し得る。
N1=X1Y1Z1
N2=X1Y1Z2
N3=X1Y2Z1
N4=X1Y2Z2
N5=X2Y1Z1
N6=X2Y1Z2
N7=X2Y2Z1
N8=X2Y2Z2
したがって、列の中の各ビットを対応する核酸分子に割り当てることができる(例えば、N1は、第1のビットを指定することができ、N2は、第2のビットを指定することができ、N3は、第3のビットを指定することができる等)。ビット列全体を核酸分子の組合せに割り当てることができ、この場合、「1」のビット値に対応する核酸分子が、組合せ又はプールに含まれる。例えば、UTF-8符号化では、文字「K」を8ビット列コード01001011によって表すことができ、この8ビット列コードを4つの核酸分子の存在によって符号化することができる(例えば、上の例ではX1Y1Z2、X2Y1Z1、X2Y2Z1、及びX2Y2Z2)。
【0141】
[00187] 情報には、シーケンシング又はハイブリダイゼーションアッセイによってアクセスし得る。例えば、プライマー又はプローブは、核酸配列の共通領域又はバーコード化領域に結合するように設計し得る。これにより、核酸分子の任意の領域の増幅が可能になり得る。次いで、増幅産物は、増幅産物のシーケンシングにより又はハイブリダイゼーションアッセイにより読み取ることができる。文字「K」を符号化する上の例では、データの前半が目的のものである場合、X1核酸配列のバーコード領域に特異的なプライマー及びZセットの共通領域に結合するプライマーを使用して、核酸分子を増幅し得る。これにより、0100を符号化し得る配列Y1Z2を返すことができる。Y1核酸配列のバーコード領域に結合するプライマー及びZセットの共通配列に結合するプライマーを用いて核酸分子を更に増幅することにより、そのデータの部分列にもアクセスし得る。これにより、部分列01を符号化するZ2核酸配列を返し得る。代替的には、シーケンシングを用いずに特定の核酸配列の存在又は非存在についてチェックすることにより、データにアクセスすることもできる。例えば、Y2バーコードに特異的なプライマーを用いる増幅は、Y1バーコードではなくY2バーコードについての増幅産物を生成し得る。Y2増幅産物の存在は、「1」のビット値を知らせることができる。代替的には、Y2増幅産物の非存在は、「0」のビット値を知らせることができる。
【0142】
[00188] PCRベースの方法を使用して、識別子又は核酸サンプルプールからのデータにアクセスすること及びそのようなデータをコピーすることができる。プール又はハイパープール内の識別子に隣接する共通プライマー結合部位を使用して、情報を含有する核酸を容易にコピーすることができる。代替的には、等温増幅等の他の核酸増幅手法を使用して、サンプルプール又はハイパープール(例えば、識別子ライブラリ)からデータを容易にコピーすることもできる。核酸増幅に関しては化学的方法セクションDを参照のこと。サンプルがハイパープールを含む例では、識別子の一方の縁にある特異的バーコードにフォワード方向に結合するプライマーを、識別子の反対側の縁にある共通配列にリバース方向に結合する別のプライマーと共に使用することにより、情報の特定のサブセット(例えば、特定のバーコードに関連する全ての核酸)にアクセスすること及びそのようなサブセットを取得することができる。種々の読み取り方法を使用して、符号化された核酸から情報を引き出すことができ、例えば、マイクロアレイ(又は任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、及び種々のシーケンシングプラットフォームを更に使用して、符号化された配列を読み取ること及び伸長によりデジタル符号化されたデータを読み取ることができる。
【0143】
[00189] 核酸分子(例えば、識別子)に格納された情報へのアクセスは、識別子ライブラリ若しくは識別子のプールから非標的化識別子の一部を選択的に除去することにより又は例えば、複数の識別子ライブラリのプールから識別子ライブラリの全ての識別子を選択的に除去することにより行うことができる。本明細書で使用される場合、「アクセス」及び「クエリ」は同義で使用することができる。データへのアクセスを、識別子ライブラリ又は識別子のプールから標的化された識別子を選択的に捕捉することにより行うこともできる。標的化された識別子は、より長い情報項目の中の目的のデータに対応し得る。識別子のプールは、補足核酸分子を含むこともある。補足核酸分子は、符号化された情報についてのメタデータを含有することがあり、情報に対応する識別子を隠蔽又はマスクするために使用されることもある。補足核酸分子は、標的化された識別子へのアクセス中に抽出されることもあり、又は抽出されないこともある。図26A図26Cは、より多くの数の識別子からの幾つかの特定の識別子にアクセスすることにより核酸配列に格納された情報の一部にアクセスする方法の例の概要を模式的に示す。図26Aは、ポリメラーゼ連鎖反応、親和性タグ付きプローブ及び分解標的化プローブを使用して指定成分を含有する識別子にアクセスするための方法の例を示す。PCRベースのアクセスの場合、識別子のプール(例えば、識別子ライブラリ)は、各末端に共通配列を有する、各末端に可変配列を有する、又は各末端に共通配列若しくは可変配列の一方を有する識別子を含み得る。共通配列又は可変配列は、プライマー結合部位であることもある。1つ又は複数のプライマーが、識別子の縁の共通又は可変領域に結合し得る。プライマーが結合している識別子を、PCRにより増幅することができる。増幅される識別子は、増幅されない識別子より数が大幅に上回り得る。読み取り中に、増幅された識別子を識別することができる。識別子ライブラリからの識別子は、その末端の一方又は両方にそのライブラリとは区別可能な配列を含むことができ、したがって、1つより多くの識別子ライブラリのプール又は群から単一のライブラリに選択的にアクセスすることを可能にする。
【0144】
[00190] 核酸捕捉と称されることもあるプロセスである、親和性タグベースのアクセスの場合、プール内の識別子を構成する成分は、1つ又は複数のプローブと相補性を共有し得る。1つ又は複数のプローブは、アクセスされることになる識別子に結合又はハイブリダイズすることができる。プローブは親和性タグを含み得る。親和性タグは、膜、ウェル、カラム、又はビーズ等の固相担体上で捕捉し得る。ビーズを固相担体として使用する場合、親和性タグは、ビーズに結合して、ビーズと少なくとも1つのプローブと少なくとも1つの識別子とを含む複合体を生成し得る。ビーズは磁性であり得、磁石と一緒に、ビーズは、アクセスされることになる識別子を収集し、分離することができる。読み取りの前に、識別子を変性条件下でビーズから除去し得る。これに代えて又は加えて、ビーズは、非標的化識別子を収集し、それらをプールの残部から隔離除去することができ、プールの残部を洗浄して別々の容器に移し、読み取ることができる。カラムを使用する場合、親和性タグはカラムに結合することができる。アクセスされることになる識別子は、捕捉用のカラムに結合し得る。続けて、カラムに結合した識別子は、読み取りの前に、カラムから溶出又は変性させ得る。代替的には、非標的化識別子をカラムに選択的に標的化することができ、その一方で、標的化された識別子は、カラムを通って流れ得る。固相担体に結合した識別子は、例えば、酸、塩基、酸化、還元、熱、光、金属イオン触媒、変位、若しくは脱離化学反応等の条件への暴露により又は酵素切断により固相担体から除去し得る。特定の実施形態では、アクセスされる識別子は、切断可能なリンケージ部分を通して固体支持体に付着し得る。例えば、固相担体は、標的化された識別子に共有結合するための切断可能なリンカーを提供するように官能化し得る。リンカー部分は6原子以上の長さであり得る。幾つかの実施形態では、切断可能なリンカーはTOPS(1合成当たり2個のオリゴヌクレオチド)リンカー、アミノリンカー、化学的切断可能リンカー、又は光切断可能リンカーであり得る。標的化された識別子へのアクセスは、1つ若しくは複数のプローブを識別子のプールに同時に適用することを含むこともあり又は1つ若しくは複数のプローブを識別子のプールに逐次的に適用することを含むこともある。核酸捕捉に関しては化学的方法セクションFを参照のこと。
【0145】
[00191] 分解ベースのアクセスの場合、プール内の識別子を構成する成分は、1つ又は複数の分解標的化プローブと相補性を共有し得る。プローブは、識別子の区別可能な成分に結合又はハイブリダイズすることができる。プローブは、エンドヌクレアーゼ等の分解酵素の標的になり得る。一例では、1つ又は複数の識別子ライブラリを組み合わせ得る。プローブのセットは、識別子ライブラリのうちの1つとハイブリダイズし得る。プローブのセットは、RNAを含むことがあり、RNAは、Cas9酵素を誘導し得る。Cas9酵素を1つ又は複数の識別子ライブラリに導入し得る。プローブとハイブリダイズした識別子は、Cas9酵素により分解されることがある。アクセスされることになる識別子は、分解酵素により分解されないこともある。別の例では、識別子は1本鎖状であり得、識別子ライブラリは、アクセスされることにならない識別子を選択的に分解する1本鎖特異的エンドヌクレアーゼ、例えばS1ヌクレアーゼと組み合わせられ得る。アクセスされることになる識別子は、識別子の相補的セットとハイブリダイズされて、それらを1本鎖特異的エンドヌクレアーゼによる分解から保護し得る。アクセスされることになる識別子は、サイズ選択クロマトグラフィ(例えばアガロースゲル電気泳動)等のサイズ選択により分解産物から分離し得る。これに代えて又は加えて、分解されない識別子は選択的に増幅し得(例えば、PCRを使用して)、したがって、分解産物は増幅されない。分解されていない識別子の各末端にハイブリダイズする、したがって、分解又は切断された識別子の各末端にはハイブリダイズしないプライマーを使用して、分解されていない識別子を増幅することができる。
【0146】
[00192] 図26Bは、ポリメラーゼ連鎖反応を使用して「OR」又は「AND」演算を実行して複数の成分を含有する識別子にアクセスするための方法の一例を示す。一例では、2つのフォワードプライマーが左末端の識別子の区別可能なセットに結合する場合、識別子のこれらのセットの結合の「OR」増幅は、右末端の識別子の全てに結合するリバースプライマーと共にマルチプレックスPCR反応において2つのフォワードプライマーを一緒に使用することにより達成し得る。別の例では、1つのフォワードプライマーが左末端の識別子のセットに結合し、1つのリバースプライマーが右末端の識別子のセットに結合する場合、識別子のこれら2セットの交差点の「AND」増幅は、フォワードプライマーとリバースプライマーをPCR反応においてプライマー対として一緒に使用することにより達成することができる。
【0147】
[00193] 図26Cは、親和性タグを使用して「OR」又は「AND」演算を実行して複数の成分を含有する識別子にアクセスするための方法の一例を示す。一例では、親和性プローブ「P1」が、成分「C1」を有する全ての識別子を捕捉し、別の親和性プローブ「P2」が、成分「C2」を有する全ての識別子を捕捉する場合、P1及びP2を同時に使用することによりC1又はC2を有する全ての識別子のセットを捕捉し得る(「OR」演算に対応する)。同じ成分及びプローブを用いる別の例では、P1及びP2を逐次的に使用することによりC1及びC2を有する全ての識別子のセットを捕捉し得る(「AND」演算に対応する)。
【0148】
核酸配列に格納された情報を読み取る方法
[00194] 別の態様では、本開示は、核酸配列に符号化された情報を読み取る方法を提供する。核酸配列に符号化された情報を読み取る方法は、(a)識別子ライブラリを提供することと、(b)識別子ライブラリ中に存在する識別子を識別することと、(c)識別子ライブラリ中に存在する識別子から記号列を生成することと、(d)記号列から情報をコンパイルすることとを含み得る。識別子ライブラリは、組合せ空間からの複数の識別子のサブセットを含み得る。識別子のサブセットの個々の識別子各々は、記号列中の個々の記号に対応し得る。識別子は、1つ又は複数の成分を含み得る。成分は、核酸配列を含み得る。
【0149】
[00195] 情報は、本明細書の他の箇所に記載されているように1つ又は複数の識別子ライブラリに書き込むことができる。識別子は、本明細書の他の箇所に記載の任意の方法を使用して構築することができる。本明細書の他の箇所に記載の任意の方法を使用して、格納されたデータはコピーすることができ、格納されたデータにアクセスすることができる。
【0150】
[00196] 識別子は、符号化された記号の位置、符号化された記号の値、又は符号化された記号の位置と値の両方に関する情報を含み得る。識別子は、符号化された記号の位置に関する情報を含むことがあり、識別子ライブラリ中の識別子の存在又は非存在は、記号の値を示し得る。識別子ライブラリ中の識別子の存在は、2進列中の第1の記号値(例えば、第1のビット値)を示し得、識別子ライブラリ中の識別子の非存在は、2進列中の第2の記号値(例えば、第2のビット値)を示し得る。2進法で、識別子ライブラリ中の識別子の存在又は非存在に対してビット値を基づかせることで、アセンブルされる識別子の数を低減し得、したがって、書き込み時間を短縮し得る。一例では、識別子の存在は、マッピングされた位置における「1」のビット値を示し得、識別子の非存在は、マッピングされた位置における「0」のビット値を示し得る。
【0151】
[00197] 1つの情報に対する記号(例えば、ビット値)の生成は、記号(例えばビット)をマッピング又は符号化し得る識別子の存在又は非存在を識別することを含み得る。識別子の存在又は非存在の判断は、識別子の存在を検出するために本識別子をシーケンシングすること、又はハイブリダイゼーションアレイを使用することを含み得る。一例では、符号化された配列の復号化及び読み取りは、シーケンシングプラットフォームを使用して実行し得る。シーケンシングプラットフォームの例は、2014年12月18日付けで米国特許出願公開第2014-0371100A1号として公開された、「METHOD OF NUCLEIC ACID AMPLIFICATION」と題する2014年8月21日付けで出願された米国特許出願第14/465,685号;2013年9月5日付けで米国特許出願公開第2013-0231254A1号として公開された、「METHOD OF NUCLEIC ACID AMPLIFICATION」と題する2013年5月2日に出願された米国特許出願第13/886,234号;及び2009年10月8日付けで米国特許出願公開第2009-0253141A1号として公開された、「MTHODS AND APPARATUSES FOR ANALYZING POLYNUCLEOTIDE SEQUENCES」と題する2009年3月9日に出願された米国特許出願第12/400,593号に記載されており、これらの各々は、全体が参照により本明細書に援用される。
【0152】
[00198] 一例では、核酸符号化データの復号化は、Illumina(登録商標)Sequencing等の核酸鎖の塩基毎のシーケンシングにより達成することができ、又はキャピラリー電気泳動による断片化解析等の特定の核酸配列の存在若しくは非存在を示すシーケンシング技術を利用することにより達成することができる。シーケンシングは、可逆的ターミネータの使用を利用することもある。シーケンシングは、天然又は非天然(例えば、操作された)ヌクレオチド又はヌクレオチド類似体の使用を利用することもある。これに代えて又は加えて、核酸配列の復号化は、光学的、電気化学的又は化学的シグナルを生成する任意の方法を含むがこれらに限定されない多様な分析技術を使用して行うことができる。ポリメラーゼ連鎖反応(PCR)、デジタルPCR、サンガーシーケンシング、高スループットシーケンシング、合成によるシーケンシング、単一分子シーケンシング、ライゲーションによるシーケンシング、RNA-Seq(Illumina)、次世代シーケンシング、デジタル遺伝子発現(Helicos)、クローナルシングルマイクロアレイ(Solexa)、ショットガンシーケンシング、マクサム(Maxim)・ギルバートシーケンシング、又は大規模並列シーケンシングを含むがこれらに限定されない多様なシーケンシング手法を使用することができる。
【0153】
[00199] 符号化された核酸から情報を引き出すために、種々の読み取り方法が使用可能である。一例では、マイクロアレイ(又は任意の種類の蛍光ハイブリダイゼーション)、デジタルPCR、定量的PCR(qPCR)、及び種々のシーケンシングプラットフォームを更に使用して、符号化された配列及び伸長によりデジタル符号化されたデータを読み取ることができる。
【0154】
[00200] 識別子ライブラリは、情報についてのメタデータを提供する補足核酸配列、情報を隠蔽若しくはマスクする補足核酸配列、又はメタデータの提供も情報のマスクもする補足核酸配列を更に含み得る。補足核酸は、識別子の識別と同時に識別することができる。代替的には、補足核酸は、識別子を識別する前又は識別した後、識別されてもよい。一例では、補足核酸は、符号化された情報の読み取り中に識別されない。補足核酸配列は、識別子と区別できないこともある。識別子インデックス又は鍵を使用して、補足核酸分子と識別子を差別化し得る。
【0155】
[00201] 使用される核酸分子の数を減らせるように入力ビット列を再符号化することにより、データの符号化及び復号効率を高めることができる。例えば、符号化方法で3つの核酸分子(例えば、識別子)にマッピングされ得る「111」部分列が高度に出現する入力列を受信した場合、それを、核酸分子の空集合にマッピングされ得る「000」部分列に再符号化することができる。「000」の代替入力部分列を「111」に再符号化することもできる。この再符号化方法は、データセット中の「1」の数が低減され得るため、データを符号化するために使用される核酸分子の総量を低減させることができる。この例では、データセットの総サイズを、新しいマッピング命令を指定するコードブックに対応するように増加させることができる。符号化及び復号効率を高めるための代替方法は、可変長を短縮するように入力列を再符号化することであり得る。例えば、「111」を「00」に再符号化することができ、これは、データセットのサイズを縮小し、データセット中の「1」の数を低減させることができる。
【0156】
[00202] 検出を容易にするために識別子を特異的に設計することにより、核酸符号化データを復号する速度及び効率を制御し(例えば、高め)得る。例えば、検出を容易にするために設計される核酸配列(例えば、識別子)は、それらの光学的、電気化学的、化学的又は物理学的特性に基づいて呼び出すこと及び検出することがより容易であるヌクレオチドの大部分を含む核酸配列を含み得る。操作された核酸配列は、1本鎖状又は2本鎖状のいずれであってもよい。操作された核酸配列は、核酸配列の検出可能な特性を向上させる合成又は非天然ヌクレオチドを含むこともある。操作された核酸配列は、全て天然ヌクレオチドを含むこともあり、全て合成若しくは非天然ヌクレオチドを含むこともあり、又は天然ヌクレオチドと合成ヌクレオチドと非天然ヌクレオチドの組合せを含むこともある。合成ヌクレオチドとしては、ヌクレオチド類似体、例えば、ペプチド核酸、ロックド核酸、グリコール核酸及びトレオース核酸を挙げることができる。非天然ヌクレオチドとしては、dNaM、3-メトキシ-2-ナフチル基を含有する人工ヌクレオシド、及びd5SICS、6-メチルイソキノリン-1-チオン-2-イル基を含有する人工ヌクレオシドを挙げることができる。操作された核酸配列は、増強された光学的特性等の単一の増強された特性のために設計されることもあり、又は設計される核酸配列は、増強された光学的及び電気化学的特性若しくは増強された光学的及び化学的特性等の複数の増強された特性を伴って設計されることもある。DNA設計に関しては化学的方法セクションHを参照のこと。
【0157】
[00203] 操作された核酸配列は、核酸配列の光学的、電気化学的、化学的、又は物理的特性を向上させない反応性天然、合成、及び非天然ヌクレオチドを含むこともある。核酸配列の反応性成分は、核酸配列に向上した特性を付与する化学的部分の付加を可能にし得る。各核酸配列は、単一の化学的部分を含むこともあり、又は複数の化学的部分を含むこともある。化学的部分の例としては、蛍光部分、化学発光部分、酸性又は塩基性部分、疎水性又は親水性部分、及び核酸配列の酸化状態又は反応性を変更する部分が挙げられるが、これらに限定されない。
【0158】
[00204] シーケンシングプラットフォームを核酸配列に符号化された情報の復号及び読み取りのために特異的に設計し得る。シーケンシングプラットフォームは、1本鎖核酸分子のシーケンシング専用であってもよく又は2本鎖核酸分子のシーケンシング専用であってもよい。シーケンシングプラットフォームは、個々の塩基を読み取ること(例えば、塩基毎のシーケンシング)により又は核酸分子(例えば識別子)に組み込まれた全核酸配列(例えば成分)の存在若しくは非存在を検出することにより、核酸符号化データを復号化し得る。シーケンシングプラットフォームは、無差別な試薬の使用、より長い読み取り長の使用、及び検出可能な化学的部分の付加による特定の核酸配列の検出の使用を含み得る。シーケンシング中に多くの無差別な試薬を使用することにより、より速い塩基呼び出しを可能にすることにより読み取り効率を高め得、その結果としてシーケンシング時間を短縮し得る。より長い読み取り長の使用により、符号化された核酸のより長い配列を読み取り毎に復号化することが可能になり得る。検出可能な化学的部分タグの付加は、化学的部分の存在又は非存在により核酸配列の存在又は非存在の検出を可能にし得る。例えば、情報のビットを符号化する各核酸配列に、一意の光学的、電気化学的、又は化学的シグナルを生成する化学的部分でタグ付けすることができる。その一意の光学的、電気化学的、又は化学的シグナルの存在又は非存在は、「0」又は「1」ビット値を示し得る。核酸配列は、単一の化学的部分を含むこともあり、又は複数の化学的部分を含むこともある。データを符号化するための核酸配列の使用の前に、化学的部分を核酸配列に付加させることができる。これに代えて又は加えて、データの符号化後だが、データを復号する前に、化学的部分を核酸配列に付加させることができる。化学的部分タグを核酸配列に直接付加させることができ、又は核酸配列が合成又は非天然ヌクレオチドアンカーを含むことができ、そのアンカーに化学的部分タグを付加させることができる。
【0159】
[00205] 符号化及び復号化エラーを最小限にする又は検出するために、一意のコードを適用することができる。符号化及び復号エラーは、偽陰性(例えば、無作為サンプル抽出に含まれない核酸分子又は識別子)によって起こることがある。エラー検出コードの一例は、識別子ライブラリに含まれている可能な識別子の連続セット中の識別子の数を計数するチェックサム配列であり得る。識別子ライブラリの読み取り中に、チェックサムは、識別子のその連続セットからの取得期待数を示すことができ、識別子は、その期待数が満たされるまで読み取りのためのサンプル抽出を継続することができる。幾つかの実施形態では、チェックサム配列をR識別子の連続セット毎に含めることができ、この場合のRは、サイズが1、2、5、10、50、100、200、500若しくは1000に等しい又はそれより大きいこともあり、又は1000、500、200、100、50、10、5若しくは2未満であることもある。Rの値が小さいほど、エラー検出は良好である。幾つかの実施形態では、チェックサムは、補足核酸配列であり得る。例えば、7個の核酸配列(例えば、成分)を含むセットを、積方式で識別子を構築するための核酸配列(層X中の成分X1~X3、及び層Y中のY1~Y3)と補足チェックサムのための核酸配列(X4~X7及びY4~Y7)という2つの群に分けることができる。チェックサム配列X4~X7は、層Xの0、1、2又は3個の配列が層Yの各メンバとアセンブルさせるかどうかを示すことができる。代替的には、チェックサム配列Y4~Y7は、層Yの0、1、2又は3個の配列が層Xの各メンバとアセンブルされるかどうかを示すことができる。この例では、識別子{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3}を有する元の識別子ライブラリを、次のプールになるようにチェックサムを含むように補足することができる:{X1Y1、X1Y3、X2Y1、X2Y2、X2Y3、X1Y6、X2Y7、X3Y4、X6Y1、X5Y2、X6Y3}。チェックサム配列をエラー補正に使用することもできる。例えば、上記データセットにおけるX1Y1の非存在、並びにX1Y6及びX6Y1の存在は、X1Y1核酸分子がデータセットから欠けているという推測を可能にし得る。チェックサム配列は、識別子が、識別子ライブラリのサンプル抽出又は識別子ライブラリのアクセスされる部分から欠けているかどうかを示すことができる。欠けているチェックサム配列の場合、PCR又は親和性タグ付きプローブハイブリダイゼーション等のアクセス方法は、それを増幅及び/又は分離することができる。幾つかの実施形態では、チェックサムは、補足核酸配列でないこともある。その場合、チェックサムを情報に直接符号化することができ、その結果、それらは識別子により表される。
【0160】
[00206] データ符号化及び復号化のノイズは、パリンドロームとして識別子を構築することにより、例えば、積方式において単一成分ではなく成分のパリンドローム対を使用することにより低減し得る。次いで、異なる層からの成分の対をパリンドローム様式(例えば、成分X及びYについてXYではなくYXY)で互いにアセンブルし得る。このパリンドローム方法は、より多くの数の層(例えば、XYZではなくZYXYZ)に拡張し得、このパリンドローム方法により、識別子間の誤った交差反応の検出が可能になり得る。
【0161】
[00207] 識別子への過剰(例えば、大過剰)な補足核酸配列の付加は、シーケンシングによる符号化された識別子の回収を妨げる恐れがある。情報の復号の前に、識別子を補足核酸配列によって濃縮し得る。例えば、識別子末端に特異的なプライマーを使用する核酸増幅反応により、識別子を濃縮し得る。これに代えて又は加えて、特異的プライマーを使用するシーケンシング(例えば、合成によるシーケンシング)により、サンプルプールを濃縮することなく情報を復号化し得る。両方の復号方法において、復号鍵がなければ、又は識別子の組成について何かのことが分かっていなければ、情報を濃縮又は復号することは困難であり得る。親和性タグベースのプローブの使用等の代替アクセス方法を利用することもできる。
【0162】
2進配列データを符号化するためのシステム
[00208] デジタル情報を核酸(例えば、DNA)に符号化するためのシステムは、ファイル及びデータ(例えば、生データ、圧縮されたzipファイル、整数データ、及び他の形態のデータ)をバイトに変換し、バイトを核酸、一般にはDNAのセグメント又は配列、又はこれらの組合せに符号化するためのシステム、方法及びデバイスを含み得る。
【0163】
[00209] 一態様では、本開示は、核酸を使用して2進配列データを符号化するためのシステムを提供する。核酸を使用して2進配列データを符号化するためのシステムは、デバイス及び1つ又は複数のコンピュータプロセッサを含み得る。デバイスは、識別子ライブラリが構築されるように構成し得る。(i)情報を記号列に翻訳するため、(ii)記号列を複数の識別子にマッピングするため、及び(iii)複数の識別子の少なくともサブセットを含む識別子ライブラリを構築するために、1つ又は複数のコンピュータプロセッサを個別に又は集合的にプログラミングし得る。複数の識別子の個々の識別子は、記号列の個々の記号に対応し得る。複数の識別子の個々の識別子は、1つ又は複数の成分を含み得る。1つ又は複数の成分の個々の成分は核酸配列を含み得る。
【0164】
[00210] 別の態様では、本開示は、核酸を使用して2進配列データを読み取るためのシステムを提供する。核酸を使用して2進配列データを読み取るためのシステムは、データベース及び1つ又は複数のコンピュータプロセッサを含み得る。データベースは、情報を符号化する識別子ライブラリを格納し得る。(i)識別子ライブラリ中の識別子を識別するため、(ii)(i)で識別された識別子から複数の記号を生成するため、及び(iii)複数の記号から情報をコンパイルするために、1つ又は複数のコンピュータプロセッサを個別に又は集合的にプログラミングすることができる。識別子ライブラリは、複数の識別子のサブセットを含み得る。複数の識別子の各個の識別子は、記号列内の個々の記号に対応し得る。識別子は1つ又は複数の成分を含み得る。成分は核酸配列を含み得る。
【0165】
[00211] デジタルデータを符号化するためのシステムを使用する方法の非限定的な実施形態は、デジタル情報をバイトストリームの形態で受け取るステップを含み得る。バイトストリームを個々のバイトに構文解析し、核酸インデックス(又は識別子のランク)を使用してバイト内のビットの位置をマッピングし、ビット値1又はビット値0のいずれかに対応する配列を識別子に符号化する。デジタルデータを取得するステップは、1つ又は複数のビットにマッピングされる核酸の配列(例えば、識別子)を含む核酸サンプル又は核酸プールについてシーケンシングし、識別子のランクを参照してその識別子が核酸プール内に存在するかどうかを確認し、各配列についての位置及びビット値情報を、デジタル情報の配列を含むバイトに復号化することを含み得る。
【0166】
[00212] 核酸分子に符号化され、書き込まれた情報を符号化し、書き込み、コピーし、アクセスし、読み取り、復号するためのシステムは、単一の統合されたユニットであってもよく、上述の操作の1つ又は複数が実行されるように構成された複数のユニットであってもよい。情報を核酸分子(例えば、識別子)に符号化し、書き込むためのシステムは、デバイス及び1つ又は複数のコンピュータプロセッサを含み得る。1つ又は複数のコンピュータプロセッサは、情報が記号列(例えば、ビットの列)に構文解析されるようにプログラミングすることができるものである。コンピュータプロセッサは、識別子のランクを生じさせることができるものである。コンピュータプロセッサは、記号を2つ又はそれよりも多くのカテゴリーにカテゴリー化するものである。1つのカテゴリーは、識別子ライブラリ中の対応する識別子の存在によって表される記号を含み得、他のカテゴリーは、識別子ライブラリ中の対応する識別子の非存在によって表される記号を含み得る。コンピュータプロセッサは、識別子ライブラリ中に識別子が存在することによって表される記号に対応する識別子をアセンブルするようにデバイスを方向付けることができるものである。
【0167】
[00213] デバイスは、複数の領域、セクション、又は区画を含み得る。識別子をアセンブルするための試薬及び成分は、デバイスの1つ又は複数の領域、セクション、又は区画に格納し得る。層は、デバイスのセクションの別々の領域に格納し得る。層は、1つ又は複数の一意の成分を含み得る。1つの層内の成分は、別の層の成分と重複しない一意のものであり得る。領域又はセクションは容器を含み得、区画はウェルを含み得る。各層は別々の容器又は区画に格納し得る。各試薬又は核酸配列は、別々の容器又は区画に格納し得る。それに代えて又は加えて、試薬を組み合わせて、識別子構築のためのマスターミックスを形成し得る。デバイスは、試薬、成分、及び鋳型をデバイスの1つのセクションから別のセクションに組み合わされるように転送し得る。デバイスは、アセンブリ反応を完了させるための状況を提供し得る。例えば、デバイスは、加熱、撹拌、及び反応進行の検出を提供し得る。構築された識別子は、1つ又は複数のその後の反応を受けるように向けられて、識別子の1つ又は複数の末端にバーコード、共通配列、可変配列、又はタグを付加し得る。次いで、識別子は領域又は区画に向けられて、識別子ライブラリを生成し得る。1つ又は複数の識別子ライブラリは、デバイスの各領域、セクション、又は個々の区画に格納し得る。デバイスは、圧力、真空、又は吸引を使用して流体(例えば、試薬、成分、鋳型)を転送し得る。
【0168】
[00214] 識別子ライブラリは、デバイスに格納することができる又は別々のデータベースに移すことができる。データベースは、1つ又は複数の識別子ライブラリを含み得る。データベースは、識別子ライブラリを長期格納するための条件(例えば、識別子の分解を低減するための条件)をもたらすものであり得る。識別子ライブラリは、粉末、液体、又は固体の形態で格納し得る。より安定な格納のために識別子の水溶液を凍結乾燥させることができる(凍結乾燥に関する詳細情報に関しては化学的方法セクションGを参照のこと)。代替的には、識別子は酸素の不在下で格納し得る(例えば嫌気性格納状況)。データベースは、紫外線光防護、温度の低下(例えば、冷蔵又は凍結)、並びに分解性化学物質及び酵素からの保護を提供し得る。データベースに移す前に、識別子ライブラリは凍結乾燥又は凍結し得る。識別子ライブラリは、ヌクレアーゼを不活化するためにエチレンジアミン四酢酸(EDTA)及び/又は核酸分子の安定性を維持するために緩衝液を含み得る。
【0169】
[00215] データベースは、識別子に情報を書き込む、情報をコピーする、情報にアクセスする、又は情報を読み取るデバイスと結合していてもよく、デバイスを含んでもよく、デバイスとは分離されていてもよい。コピー、アクセス又は読み取りの前に識別子ライブラリの一部をデータベースから除去することができる。データベースから情報をコピーするデバイスは、情報を書き込むデバイスと同じデバイスであっても異なるデバイスであってもよい。情報をコピーするデバイスは、アリコートの識別子ライブラリをデバイスから抽出し、そのアリコートを試薬及び構成成分と組み合わせて、識別子ライブラリの一部又は全部を増幅することができる。デバイスは、増幅反応の温度、圧力、及び撹拌を制御することができるものである。デバイスは、区画を含んでよく、1つ又は複数の増幅反応を、識別子ライブラリを含む区画で行うことができる。デバイスは、識別子の1つよりも多くのプールを同時にコピーすることができる。
【0170】
[00216] コピーされた識別子をコピーデバイスからアクセスデバイスに移し得る。アクセスデバイスは、コピーデバイスと同じデバイスであってよい。アクセスデバイスは、別々の領域、セクション、又は区画を含み得る。アクセスデバイスは、親和性タグと結合した識別子を分離するための1つ又は複数のカラム、ビーズレザバー、又は磁気領域を有し得る(核酸捕捉に関しては化学的方法セクションFを参照のこと)。その代わりに、又はそれに加えて、アクセスデバイスは、1つ又は複数のサイズ選択ユニットを有し得る。サイズ選択ユニットは、アガロースゲル電気泳動又は核酸分子をサイズ選択するための任意の他の方法を含み得る(核酸サイズ選択に関する詳細情報については化学的方法セクションEを参照のこと)。コピー及び抽出は、デバイスの同じ領域で実施されてもよく、デバイスの異なる領域で実施されてもよい(核酸増幅に関しては化学的方法セクションDを参照のこと)。
【0171】
[00217] アクセスされたデータを同じデバイスにおいて読み取ることができ、アクセスされたデータを別のデバイスに移すことができる。読み取りデバイスは、識別子を検出し、識別するための検出ユニットを含み得る。検出ユニットは、シーケンサ、ハイブリダイゼーションアレイ、又は識別子の存在又は非存在を識別するための他のユニットの一部であってよい。シーケンシングプラットフォームは、核酸配列に符号化された情報の復号及び読み取りのために特別に設計されたものであってよい。シーケンシングプラットフォームは、1本鎖又は2本鎖核酸分子のシーケンシング専用のものであってよい。シーケンシングプラットフォームは、個々の塩基を読み取ることによって(例えば、塩基ごとのシーケンシング)、又は核酸分子(例えば、識別子)内に組み入れられた核酸配列全体(例えば、成分)の存在若しくは非存在を検出することによって核酸符号化データを復号することができるものである。代替的には、シーケンシングプラットフォームは、Illumina(登録商標)シーケンシング等のシステム又はキャピラリー電気泳動による断片化解析であってよい。その代わりに、又はそれに加えて、核酸配列の復号は、これだけに限定されないが、光学的シグナル、電気化学的シグナル、又は化学的シグナルを生じさせる任意の方法を含めた、デバイスによって実装される種々の解析技法を使用して実施することができる。
【0172】
[00218] 核酸分子中への情報格納は、これだけに限定されないが、長期の情報格納、機密情報格納、及び医学的情報の格納を含めた種々の適用を有し得る。ある例では、人の医学的情報(例えば、病歴及び診療記録)を核酸分子中に格納し、その彼又は彼女に保有させることができる。情報は、体外に格納することもでき(例えば、着用できるデバイス中に)、又は体内に格納することもできる(例えば、皮下カプセル中に)。患者が診療所又は病院に運び込まれた場合に、サンプルをデバイス又はカプセルから取得することができ、核酸シーケンサを使用して情報を復号することができる。核酸分子中への個人的な診療記録の格納により、コンピュータ及びクラウドに基づく格納システムの代替をもたらすことができる。核酸分子中への個人的な診療記録の格納により、診療記録がハッキングされる事例又は蔓延を減少させることができる。カプセルに基づく診療記録の格納に使用される核酸分子は、ヒトゲノム配列に由来するものであってよい。ヒトゲノム配列を使用することにより、万一カプセルが破損し漏出した場合の核酸配列の免疫原性を低減することができる。
【0173】
コンピュータシステム
[00219] 本開示は、本開示の方法を実装するようにプログラミングされたコンピュータシステムを提供する。図28は、デジタル情報を核酸配列に符号化し、及び/又は核酸配列から導き出された情報を読み取る(例えば、復号する)ようにプログラミングされた又は他のやり方で構成されたコンピュータシステム1901を示す。コンピュータシステム1901は、例えば、符号化されたビットストリーム又はバイトストリーム由来の所与のビット又はバイトについてのビット値及びビット位置情報等の、本開示の符号化及び復号手順の種々の態様を調節することができるものである。
【0174】
[00220] コンピュータシステム1901は、中央処理装置(CPU、本明細書では「プロセッサ」及び「コンピュータプロセッサ」とも)1905を含み、これは、シングルコアプロセッサ若しくはマルチコアプロセッサ、又は並行処理のための複数のプロセッサであってよい。コンピュータシステム1901はまた、メモリ又はメモリ位置1910(例えば、ランダムアクセスメモリ、読み取り専用メモリ、フラッシュメモリ)、電子記憶装置1915(例えば、ハードディスク)、1つ又は複数の他のシステムと通信するための通信インタフェース1920(例えば、ネットワークアダプター)、並びにキャッシュ、他のメモリ、データストレージ及び/又は電子ディスプレイアダプター等の周辺機器1925も含む。メモリ1910、記憶装置1915、インタフェース1920及び周辺機器1925は、CPU1905と、マザーボード等の通信バス(実線)を通じて通信する。記憶装置1915は、データを格納するためのデータストレージユニット(又はデータリポジトリ)であってよい。コンピュータシステム1901は、通信インタフェース1920を利用してコンピュータネットワーク(「ネットワーク」)1930と作動可能に結合することができる。ネットワーク1930は、インターネット、インターネット及び/又はエクストラネット、又はインターネットと通信しているイントラネット及び/又はエクストラネットであり得る。ネットワーク1930は、一部の場合、電気通信及び/又はデータネットワークであり得る。ネットワーク1930は、1つ又は複数のコンピュータサーバーを含んでよく、それにより、クラウドコンピューティング等の分散コンピューティングを可能にすることができる。ネットワーク1930は、幾つかの場合コンピュータシステム1901を利用して、ピアツーピアネットワークを実装することができ、それにより、コンピュータシステム1901と結合したデバイスをクライアント又はサーバーとして動かすことを可能にすることができるものである。
【0175】
[00221] CPU1905は、プログラム又はソフトウェアで具体化することができる機械可読命令のシークエンスを実行することができるものである。命令は、メモリ1910等のメモリ位置に記憶させることができるものである。命令をCPU1905に方向付けることができ、その後、それにより、CPU1905を、本開示の方法を実装するようにプログラムする又は他のやり方で構成することができる。CPU1905により実施される操作の例は、フェッチ、復号、実行、及びライトバック(writeback)を含み得る。
【0176】
[00222] CPU1905は、集積回路等の回路の一部であってよい。システム1901の1つ又は複数の他の構成要素を回路に含めることができる。幾つかの場合、回路は、特定用途向け集積回路(ASIC)である。
【0177】
[00223] 記憶装置1915は、例えばドライバー、ライブラリ及び保存プログラム等、ファイルを格納することができるものである。記憶装置1915は、ユーザデータ、例えば、ユーザの好み及びユーザプログラムを格納することができるものである。コンピュータシステム1901は、幾つかの場合、例えばコンピュータシステム1901とイントラネット又はインターネットを通じて通信する遠隔サーバー上に位置する等コンピュータシステム1901に対して外付けである、1つ又は複数の追加的なデータストレージユニットを含み得る。
【0178】
[00224] コンピュータシステム1901は、1つ又は複数の遠隔コンピュータシステムとネットワーク1930を通じて通信することができるものである。例えば、コンピュータシステム1901は、ユーザの遠隔コンピュータシステム又は核酸の配列に符号化又は復号されたデータの解析過程でユーザが使用することができる他のデバイス及び/又は機構(例えば、シーケンサ又は核酸配列中の窒素含有塩基の順序を化学的に決定するための他のシステム)と通信することができるものである。遠隔コンピュータシステムの例としては、パーソナルコンピュータ(例えば、携帯型PC)、スレート又はタブレットPC(例えば、Apple(登録商標)iPad(登録商標)、Samsung(登録商標)Galaxy Tab)、電話機、スマートフォン(例えば、Apple(登録商標)iPhone(登録商標)、Android使用可能デバイス、Blackberry(登録商標))、又は携帯情報端末が挙げられる。ユーザは、コンピュータシステム1901にネットワーク1930を介してアクセスすることができる。
【0179】
[00225] 本明細書に記載の方法は、例えば、メモリ1910又は電子記憶装置1915等、コンピュータシステム1901の電子ストレージ場所に格納された機械(例えば、コンピュータプロセッサ)により実行可能なコードによって実装することができる。機械により実行可能な又は機械により可読のコードは、ソフトウェアの形態で提供することができる。使用中、コードをプロセッサ1905によって実行することができる。幾つかの場合、コードを記憶装置1915から取得し、プロセッサ1905による即時アクセスのためにメモリ1910に記憶させることができる。状況によっては、電子記憶装置1915を除外し、機械により実行可能な命令をメモリ1910に記憶させることができる。
【0180】
[00226] コードは、コードを実行するように適合させたプロセッサを有する機械を用いた使用のためにプレコンパイルし、構成することもでき、実行時間中にコンパイルすることもできる。コードは、コードがプレコンパイル様式で又は同時コンパイル様式(as-compiled fashion)で実行されることが可能になるように選択することができるプログラミング言語中に供給することができる。
【0181】
[00227] コンピュータシステム1901等の本明細書に提示されるシステム及び方法の態様は、プログラミングに具体化することができる。当該技術の種々の態様は、一般には機械可読媒体の一種に保有させる又は具体化される機械(又はプロセッサ)実行可能なコード及び/又は関連データの形態の「製品」又は「製造品」と考えることができる。機械により実行可能なコードは、メモリ(例えば、読み取り専用メモリ、ランダムアクセスメモリ、フラッシュメモリ)又はハードディスク等の電子記憶装置に記憶させ得る。「ストレージ」型媒体は、ソフトウェアプログラミングのために任意の時点で非一時的保存をもたらすことができる、コンピュータの有形メモリ、プロセッサ等、又はその関連モジュール、例えば、種々の半導体メモリ、テープドライブ、ディスクドライブ等のいずれか又は全てを含み得る。ソフトウェアの全て又は一部は、時々インターネット又は種々の他の電気通信ネットワークを通じて通信させ得る。そのような通信により、例えば、ソフトウェアを1つのコンピュータ又はプロセッサから別のコンピュータ又はプロセッサに、例えば、管理サーバー又はホストコンピュータからアプリケーションサーバーのコンピュータプラットフォームにロードすることが可能になる。したがって、ソフトウェア要素を運ぶことができる別の型の媒体として、有線及び光陸線ネットワークを通じて及び種々のエアリンクを通じてローカルデバイス間の物理的インタフェースを横切って使用されるもの等の光波、電波及び電磁波が挙げられる。有線又は無線リンク、光リンク等のそのような波を運ぶ物理的要素も、ソフトウェアを有する媒体と見なすことができる。本明細書で使用される場合、非一時的有形「ストレージ」媒体に制限されていなければ、コンピュータ又は機械「可読媒体」等の用語は、実行のためにプロセッサに命令をもたらすことに関与するあらゆる媒体を指す。
【0182】
[00228] したがって、コンピュータで実行可能なコード等の機械可読媒体は、これだけに限定されないが、有形記憶媒体、搬送波媒体又は物理的送信媒体を含めた多くの形態をとる。不揮発性記憶媒体としては、例えば、光学ディスク又は磁気ディスク、例えば、任意のコンピュータ中のストレージデバイス等、例えば、図に示されているデータベース等を実装するために使用することができるものが挙げられる。揮発性記憶媒体としては、そのようなコンピュータプラットフォームのメインメモリ等のダイナミックメモリが挙げられる。有形伝達媒体としては、同軸ケーブル;コンピュータシステム内に母線を含む電線を含めた銅線及び光ファイバーが挙げられる。搬送波伝送媒体は、電気シグナル若しくは電磁気シグナル、又は高周波(RF)及び赤外(IR)データ通信中に生じるもの等の音波若しくは光波の形態をとり得る。したがって、コンピュータ可読媒体の一般的な形態としては、例えば、フロッピーディスク、フレシキブルディスク、ハードディスク、磁気テープ、任意の他の磁気媒体、CD-ROM、DVD若しくはDVD-ROM、任意の他の光学媒体、パンチカード紙テープ、孔のパターンを有する任意の他の物理的記憶媒体、RAM、ROM、PROM及びEPROM、FLASH-EPROM、任意の他のメモリチップ若しくはカートリッジ、搬送波伝達データ若しくは命令、そのような搬送波を輸送するケーブル若しくはリンク、又はコンピュータがプログラミングコード及び/又はデータを読み取ることができる任意の他の媒体が挙げられる。これらの形態のコンピュータ可読媒体の多くは、実行のために1つ又は複数の命令の1つ又は複数のシークエンスをプロセッサに運ぶことに関与し得る。
【0183】
[00229] コンピュータシステム1901は、例えば、クロマトグラフ、配列、並びに、DNA記憶データに符号化又は復号される核酸、生データ、ファイル及び圧縮又は復元されたzipファイルを符号化又は復号している機械又はコンピュータシステムによって符号化される又は読み取られるビット、バイト、又はビットストリームを含む配列出力データをもたらすための、ユーザインタフェース(UI)1940を含む電子ディスプレイ1935を含み得る又はそれと通信し得る。UIの例としては、限定することなく、グラフィカルユーザインタフェース(GUI)及びウェブに基づくユーザインタフェースが挙げられる。本開示の方法及びシステムは、1つ又は複数のアルゴリズムを介して実装することができる。アルゴリズムは、中央処理装置1905により実行されるとソフトウェアを介して実装することができる。デジタル情報を符号化する前に、デジタル情報を生データ又はzipファイルに圧縮されたデータにコーディングするためのカスタマイズされた方法を決定するために、アルゴリズムを、例えば、DNAインデックス及び生データ又はzipファイルに圧縮若しくは復元されたデータを用いて使用することができる。
【0184】
化学的方法セクション
A.オーバーラップ伸長PCR(OEPCR)アセンブリ
[00230] OEPCRでは、ポリメラーゼ及びdNTP(dATP、dTTP、dCTP、dGTP又はそのバリアント若しくは類似体を含むデオキシヌクレオチド三リン酸)を含む反応で成分をアセンブルする。成分は、1本鎖核酸であっても2本鎖核酸であってもよい。互いに隣接するアセンブルされる成分は、相補的な3’末端、相補的な5’末端、又は1つの成分の5’末端と隣接する成分の3’末端の間の相同性を有し得る。これらの末端領域は、「ハイブリダイゼーション領域」と称され、OEPCR中の成分間のハイブリダイズした接合部の形成を容易にすることを意図し、ここで、1つの入力成分(又はその相補物)の3’末端がその意図された隣接成分(又はその相補物)の3’末端とハイブリダイズする。次いで、アセンブルされた2本鎖産物をポリメラーゼ伸長によって形成することができる。次いで、この産物を、その後のハイブリダイゼーション及び伸長を通じてより多くの成分にアセンブルすることができる。図16は、3つの核酸をアセンブルするためのOEPCRの概略図例を示す。
【0185】
[00231] 幾つかの実施形態では、OEPCRは、3つの温度:融解温度、アニーリング温度、及び伸長温度の間をサイクルさせることを含み得る。融解温度は、2本鎖核酸を1本鎖核酸に変えること、並びに成分内又は成分間での二次構造又はハイブリダイゼーションの形成を除去することを意図する。典型的には、融解温度は、高く、例えば、摂氏95度を超える。幾つかの実施形態では、融解温度は、少なくとも摂氏96度、97度、98度、99度、100度、101度、102度、103度、104度、又は105度であり得る。他の実施形態では、融解温度は、最大で摂氏95度、94度、93度、92度、91度、又は90度であり得る。融解温度が高いほど核酸及びそれらの二次構造の解離が改善されるが、核酸又はポリメラーゼの分解等の副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも1秒間、2秒間、3秒間、4秒間、5秒間、又はそれよりも長く、例えば、30秒間、1分間、2分間、又は3分間にわたって適用し得る。
【0186】
[00232] アニーリング温度は、意図された隣接成分(又はそれらの相補物)の相補的な3’末端間のハイブリダイゼーションの形成を容易にすることを意図する。幾つかの実施形態では、アニーリング温度は、意図されたハイブリダイズした核酸形成の算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、上記融解温度から摂氏10度又はそれよりも高い温度以内であり得る。幾つかの実施形態では、アニーリング温度は、少なくとも摂氏25度、30度、50度、55度、60度、65度、又は70度であり得る。融解温度は、成分間の意図されたハイブリダイゼーション領域の配列に依存し得る。ハイブリダイゼーション領域が長いほど融解温度が高くなり得、グアニン又はシトシンヌクレオチドのパーセント含量が高いハイブリダイゼーション領域ほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたOEPCR反応用の成分を設計することが可能であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、又は30秒間にわたって、又はそれよりも長く適用し得る。
【0187】
[00233] 伸長温度は、1つ又は複数のポリメラーゼ酵素によって触媒される、ハイブリダイズした3’末端の核酸鎖延長を開始させ、またそれを容易にすることを意図する。幾つかの実施形態では、伸長温度を、ポリメラーゼが核酸結合強度、延長スピード、延長安定性、又は忠実度に関して最適に機能する温度に設定することができる。幾つかの実施形態では、伸長温度は、少なくとも摂氏30度、40度、50度、60度、又は70度、又はそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、30秒間、40秒間、50秒間、又は60秒間にわたって、又はそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の1キロベース当たり約15~45秒間であり得る。
【0188】
[00234] OEPCRの幾つかの実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、2ステップ温度サイクルを3ステップ温度サイクルの代わりに使用することができる。組み合わせたアニーリング及び伸長温度の例としては、摂氏60度、65度、又は72度が挙げられる。
【0189】
[00235] 幾つかの実施形態では、OEPCRは1つの温度サイクルで実行し得る。そのような実施形態には、ただ2つの成分の意図されたアセンブリが伴い得る。他の実施形態では、OEPCRを複数の温度サイクルで実施することができる。OEPCRにおけるいかなる所与の核酸も、1つのサイクルでは最大で1つの他の核酸としかアセンブルできない。これは、アセンブリ(又は伸長又は延長)を核酸の3’末端でしか行うことができず、また、各核酸は3’末端を1つしか有することができないからである。したがって、複数の成分のアセンブリには複数の温度サイクルが必要になり得る。例えば、4種の成分のアセンブルには、3つの温度サイクルが伴い得る。6種の成分のアセンブルには5つの温度サイクルが伴い得る。10種の成分のアセンブルには9つの温度サイクルが伴い得る。幾つかの実施形態では、最低限必要なものよりも多くの温度サイクルを使用することによりアセンブリ効率を上昇させることができる。例えば、2種の成分をアセンブルするために4つの温度サイクルを使用することにより、1つの温度サイクルのみを使用するよりも多くの産物をもたらすことができる。これは、成分のハイブリダイゼーション及び延長が、各サイクルにおいて成分の総数のうちごく一部で起こる統計学的事象だからである。したがって、アセンブルされた成分の総画分は、サイクルの増加と共に増加させることができる。
【0190】
[00236] 温度サイクリングの考慮事項に加えて、OEPCRにおける核酸配列の設計がそれらの互いとのアセンブリの効率に影響を及ぼす可能性がある。長いハイブリダイゼーション領域を有する核酸は、所与のアニーリング温度で、短いハイブリダイゼーション領域を有する核酸と比較してより効率的にハイブリダイズし得る。これは、より長いハイブリダイズした産物はより多数の安定な塩基対を含有し、したがって、全体的なハイブリダイズした産物がより短いハイブリダイズした産物よりも安定であり得るからである。ハイブリダイゼーション領域は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、又はそれよりも多くの塩基の長さを有し得る。
【0191】
[00237] 高グアニン又はシトシン含量のハイブリダイゼーション領域は、所与の温度で、低グアニン又はシトシン含量のハイブリダイゼーション領域よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりも安定な塩基対を形成するからである。ハイブリダイゼーション領域は、0%から100%の間の任意のグアニン又はシトシン含量(GC含量としても既知)を有し得る。
【0192】
[00238] ハイブリダイゼーション領域の長さ及びGC含量に加えて、OEPCRの効率に影響を及ぼし得る核酸配列設計の態様が更に多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とのハイブリダイゼーション産物を形成するその能力が妨げられる恐れがある。これらの二次構造は、ヘアピンループを含み得る。核酸についての可能な二次構造の型及びそれらの安定性(例えば、融解温度)は、配列に基づいて予測し得る。設計空間検索アルゴリズムを使用して、効率的なOEPCRのための適当な長さ及びGC含量の基準を満たす核酸配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避し得る。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、tabu検索のようなメタ-ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約付き組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、又はこれらの組合せを含み得る。
【0193】
[00239] 同様に、ホモ二量体(同じ配列の核酸分子とハイブリダイズする核酸分子)及び望ましくないヘテロ二量体(それらの意図されたアセンブリパートナーに加えて他の核酸配列とハイブリダイズする核酸配列)の形成により、OEPCRが妨げられる恐れがある。核酸内の二次構造と同様に、ホモ二量体及びヘテロ二量体の形成は、核酸設計の間にコンピュータによる計算方法及び設計空間検索アルゴリズムを使用して予測し、説明し得る。
【0194】
[00240] より長い核酸配列又はより高いGC含量により、OEPCRでの望ましくない二次構造、ホモ二量体、及びヘテロ二量体の形成の増加が生じ得る。したがって、幾つかの実施形態では、より短い核酸配列又はより低いGC含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いハイブリダイゼーション領域又は高いGC含量を使用する設計戦略が打ち消され得る。そのように、幾つかの実施形態では、高いGC含量の長いハイブリダイゼーション領域を使用するが低いGC含量の短い非ハイブリダイゼーション領域を使用することによってOEPCRを最適化することができる。核酸の全体的な長さは、少なくとも10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、又は100塩基、又はそれよりも多くの塩基であり得る。幾つかの実施形態では、アセンブリ効率が最適化される核酸のハイブリダイゼーション領域の最適な長さ及び最適なGC含量が存在し得る。
【0195】
[00241] OEPCR反応におけるより多数の区別可能な核酸は、予測されるアセンブリ効率に干渉し得る。これは、より多数の区別可能な核酸配列により、望ましくない分子間相互作用、特にヘテロ二量体の形態のより高い確率が生じ得るからである。したがって、多数の成分をアセンブルするOEPCRの幾つかの実施形態では、効率的なアセンブリのための核酸配列の制約はよりストリンジェントになり得る。
【0196】
[00242] 予測される最終的なアセンブルされた産物を増幅するためのプライマーをOEPCR反応に含め得る。次いで、OEPCR反応を、単に構成する成分間でより多くのアセンブリを作成することによってだけでなく、完全なアセンブルされた産物を従来のPCRの様式で指数関数的に増幅することによっても(化学的方法セクションDを参照のこと)アセンブルされた産物の収量を改善するために、より多くの温度サイクルを用いて実行し得る。
【0197】
[00243] アセンブリ効率を改善するために添加剤をOEPCR反応に含めることができる。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)、又はこれらの組合せの添加。添加剤含量(重量/体積)は、少なくとも0%、1%、5%、10%、20%、又はそれよりも多くであり得る。
【0198】
[00244] 種々のポリメラーゼをOEPCRのために使用することができる。ポリメラーゼは、天然に存在するものであっても合成されたものであってもよい。ポリメラーゼの例は、Φ29ポリメラーゼ又はその誘導体である。幾つかの場合、新しい核酸配列を構築するために、転写酵素又はリガーゼ(即ち、結合の形成を触媒する酵素)をポリメラーゼと併せて又はポリメラーゼの代替として使用する。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’へのエクソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、並びにそのバリアント、改変製品及び誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定且つ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Phusionポリメラーゼのような一部のポリメラーゼは、核酸延長の間のより高い忠実度に寄与し得る3’から5’へのエクソヌクレアーゼ活性を示し得る。一部のポリメラーゼは延長の間にリーディング配列を置き換え得、一方、他のポリメラーゼは、それらを分解し得る又は延長を停止し得る。Taqのような一部のポリメラーゼは、アデニン塩基を核酸配列の3’末端に組み入れる。このプロセスはA尾部付加と称され、また、アデニン塩基の付加により、意図された隣接成分間の設計された3’相補性が破壊され得るので、このプロセスはOEPCRに対して阻害性であり得る。
【0199】
[00245] OEPCRは、ポリメラーゼサイクリングアセンブリ(又はPCA)とも称し得る。
【0200】
B.ライゲーションアセンブリ
[00246] ライゲーションアセンブリでは、別々の核酸を、1つ又は複数のリガーゼ酵素及び追加的な補因子を含む反応でアセンブルする。補因子は、アデノシン三リン酸(ATP)、ジチオスレイトール(DTT)、又はマグネシウムイオン(Mg2+)を含み得る。ライゲーションの間、1つの核酸鎖の3’末端を別の核酸鎖の5’末端と共有結合により連結し、したがって、アセンブルされた核酸を形成する。ライゲーション反応の成分は、平滑末端化された2本鎖DNA(dsDNA)、1本鎖DNA(ssDNA)、又は部分的にハイブリダイズした1本鎖DNAであり得る。核酸の末端を1つにまとめる戦略は、リガーゼ酵素の実行可能な基質の頻度を増大させるものであり、したがって、リガーゼ反応の効率を改善するために使用し得る。平滑末端化されたdsDNA分子は、リガーゼ酵素が作用し得る疎水性スタックを形成する傾向があるが、核酸を1つにまとめるためのより上首尾の戦略は、それらがアセンブルすることが意図されている成分の突出との相補性を有する5’又は3’1本鎖突出のいずれかを有する核酸成分を使用することであり得る。後者の例では、塩基-塩基ハイブリダイゼーションに起因してより安定な核酸2重鎖が形成され得る。
【0201】
[00247] 2本鎖核酸が一方の末端に突出鎖を有する場合、同じ末端の他方の鎖は、「くぼみ」と称し得る。まとめると、くぼみと突出は、「粘着末端(cohesive-end)」としても既知の「粘着末端(sticky end)」を形成する。粘着末端は、3’突出と5’くぼみ、又は5’突出と3’くぼみのいずれであってもよい。2つの意図された隣接成分間の粘着末端は、相補性を有し、したがって、両方の粘着末端の突出がハイブリダイズし、したがって、各突出末端が他の成分のくぼみの始まりと直接隣接するように設計し得る。これにより、リガーゼの作用によって「シール」する(リン酸ジエステル結合を通じて共有結合により連結する)ことができる「ニック」(2本鎖DNA切断)が形成される。3つの核酸をアセンブルするための粘着末端ライゲーションの概略図例については図17を参照のこと。一方の鎖又は他方の鎖、又は両方の鎖のいずれのニックもシールすることができる。熱力学的に、粘着末端を形成する分子の上の鎖及び下の鎖は、会合した状態と解離した状態を移動し得、したがって、粘着末端は、一過性の形成であり得る。しかしながら、2種の成分間の粘着末端2重鎖の一方の鎖に沿ったニックがシールされると、逆の鎖のメンバが解離したとしても共有結合性の連結が残存する。次いで、連結した鎖が、逆の鎖の意図された隣接メンバが結合することができる鋳型になり、シールすることができるニックが再度形成される。
【0202】
[00248] 粘着末端は、dsDNAを1つ又は複数のエンドヌクレアーゼで消化することによって作成し得る。エンドヌクレアーゼ(制限酵素と称し得る)は、dsDNA分子のいずれかの末端又は両末端の特異的な部位(制限部位と称することができる)を標的化し、互い違いの切断を作成し得(時には消化と称される)、したがって、粘着末端が残される。制限酵素消化に関しては化学的方法セクションCを参照のこと。消化により、パリンドローム突出(それ自体の逆相補物である配列を有する突出)が残され得る。その場合、同じエンドヌクレアーゼで消化される2種の成分は、リガーゼを用いてそれに沿ってアセンブルすることができる相補的な粘着末端を形成し得る。消化及びライゲーションは、エンドヌクレアーゼ及びリガーゼが適合する場合には同じ反応において共に行うことができる。反応は、摂氏4度、10度、16度、25度、又は37度等の均一温度で行うことができる。又は、反応は、複数の温度間、例えば、摂氏16度と摂氏37度の間のサイクルであってよい。複数の温度間でサイクルさせることにより、サイクルの異なる部分の間に消化及びライゲーションを各々それらのそれぞれの最適な温度で進行させることが可能になる。
【0203】
[00249] 消化及びライゲーションを別々の反応で実行することが有益な場合がある。例えば、所望のリガーゼ及び所望のエンドヌクレアーゼが異なる条件で最適に機能する場合。又は例えば、ライゲーション産物がエンドヌクレアーゼの新しい制限部位を形成する場合。これらの例では、制限酵素消化、次いでライゲーションを別々に実施することがより良好であり得、また、おそらく、制限酵素をライゲーションの前に除去することが更に有益であり得る。核酸を酵素からフェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、及び/又はシリカ膜吸着、洗浄、及び溶出によって分離することができる。複数のエンドヌクレアーゼを同じ反応において使用することができるが、エンドヌクレアーゼが互いに干渉せず、同様の反応条件下で機能することを確実にするために注意を払うべきである。2種のエンドヌクレアーゼを使用し、一方のエンドヌクレアーゼによりdsDNA成分の両末端に直交性の(非相補的な)粘着末端を作成し得る。
【0204】
[00250] エンドヌクレアーゼ消化により、粘着末端にリン酸化された5’末端が残される。リガーゼは、リン酸化された5’末端に対してのみ機能することができ、リン酸化されていない5’末端に対しては機能することができない。そのように、消化とライゲーションの間に中間の5’リン酸化ステップのいかなる必要もない場合がある。粘着末端にパリンドローム突出を有する消化されたdsDNA成分はそれ自体とライゲーションする可能性がある。自己ライゲーションを防止するために、ライゲーション前に上記dsDNA成分を脱リン酸化することが有益であり得る。
【0205】
[00251] 複数のエンドヌクレアーゼが異なる制限部位を標的化し得るが、適合する突出(互いに逆相補物である突出)が残される。2種のそのようなエンドヌクレアーゼを用いて作成された粘着末端のライゲーション産物では、ライゲーション部位にいずれのエンドヌクレアーゼの制限部位も含有しないアセンブルされた産物がもたらされ得る。そのようなエンドヌクレアーゼにより、ただ2つのエンドヌクレアーゼを使用し、反復的な消化-ライゲーションサイクルを実行することによってプログラム可能に複数の成分をアセンブルし得るバイオブリックアセンブリ等のアセンブリ方法の基礎が形成される。図20は、エンドヌクレアーゼBamHI及びBglIIを適合する突出と共に使用した消化-ライゲーションサイクルの例を示す。
【0206】
[00252] 幾つかの実施形態では、粘着末端を作成するために使用されるエンドヌクレアーゼは、IIS型制限酵素であり得る。これらの酵素は、固定数の塩基をこれらの酵素の制限部位から特定の方向に切り出し、したがって、これらの酵素によって生成される突出の配列をカスタマイズすることができる。突出配列はパリンドロームである必要はない。同じIIS型制限酵素を使用して、複数の異なる粘着末端を同じ反応において又は複数の反応において作成することができる。さらに、1つ又は複数のIIS型制限酵素を使用して、適合する突出を有する成分を同じ反応で又は複数の反応で作成することができる。IIS型制限酵素によって生成される2つの粘着末端間のライゲーション部位は、それにより新しい制限部位が形成されないように設計し得る。さらに、IIS型制限酵素部位を、dsDNAにおいて、制限酵素が粘着末端を有する成分を生成する際にそれ自体の制限部位を切断するように位置させ得る。したがって、IIS型制限酵素により生成した複数の成分間のライゲーション産物は、いかなる制限部位も含有しない場合がある。
【0207】
[00253] IIS型制限酵素を反応においてリガーゼと混合して、成分の消化とライゲーションを一緒に実行し得る。反応の温度を2つ又はそれよりも多くの値の間でサイクルさせて、最適な消化及びライゲーションを促進し得る。例えば、消化は摂氏37度で最適に実行し得、ライゲーションは摂氏16度で最適に実行し得る。より一般的には、反応は少なくとも摂氏0度、5度、10度、15度、20度、25度、30度、35度、40度、45度、50度、55度、60度、又は65度又はそれよりも高い温度値の間をサイクルさせ得る。組み合わせた消化及びライゲーション反応を使用して、少なくとも2種、3種、4種、5種、6種、7種、8種、9種、10種、11種、12種、13種、14種、15種、16種、17種、18種、19種、又は20種の成分、又はそれよりも多くをアセンブルし得る。IIS型制限酵素を活用して粘着末端を作成するアセンブリ反応の例としては、Golden Gate Assembly(Golden Gateクローニングとしても既知)又はモジュラークローニング(MoCloとしても既知)が挙げられる。
【0208】
[00254] ライゲーションの幾つかの実施形態では、エクソヌクレアーゼを使用して、粘着末端を有する成分を作成し得る。3’エクソヌクレアーゼを使用して、dsDNAから3’末端をチューバックし(chew back)、したがって、5’突出を作成する。同様に、5’エクソヌクレアーゼを使用して、dsDNAから5’末端をチューバックし、したがって、3’突出を作成する。異なるエクソヌクレアーゼは異なる性質を有し得る。例えば、エクソヌクレアーゼは、ssDNAに作用するかどうかに関わりなく、リン酸化された5’末端に作用するのかリン酸化されていない5’末端に作用するのかに関わりなく、ニックで開始することができるかどうかに関わりなく、又はそれらの活性を5’くぼみ、3’くぼみ、5’突出、若しくは3’突出において開始することができるかどうかに関わりなく、それらのヌクレアーゼ活性の方向が異なり得る(5’から3’へ又は3’から5’へ)。異なる型のエクソヌクレアーゼとしては、ラムダエクソヌクレアーゼ、RecJ、エクソヌクレアーゼIII、エクソヌクレアーゼI、エクソヌクレアーゼT、エクソヌクレアーゼV、エクソヌクレアーゼVIII、エクソヌクレアーゼVII、ヌクレアーゼBAL_31、T5エクソヌクレアーゼ、及びT7エクソヌクレアーゼが挙げられる。
【0209】
[00255] エクソヌクレアーゼを反応においてリガーゼと一緒に使用して、複数の成分をアセンブルし得る。反応は、固定温度で行うこともでき、各々がリガーゼ又はエクソヌクレアーゼそれぞれに理想的な複数の温度の間をサイクルさせることもできる。ポリメラーゼをアセンブリ反応にリガーゼ及び5’→3’エクソヌクレアーゼと一緒に含めることができる。そのような反応における成分は、互いに隣接してアセンブルすることが意図された成分がそれらの縁に相同な配列を共有するように設計し得る。例えば、成分Yとアセンブルされる成分Xは、5’-z-3’形態の3’縁配列を有し得、成分Yは、5’-z-3’形態の5’縁配列を有し得、ここで、zは、任意の核酸配列である。そのような形態の相同な縁配列は、「ギブソンオーバーラップ」と称し得る。5’エクソヌクレアーゼによりギブソンオーバーラップを有するdsDNA成分の5’末端がチューバックされると、互いとハイブリダイズする適合する3’突出が作成される。次いで、ハイブリダイズした3’末端がポリメラーゼの作用によって鋳型成分の末端まで又は一方の成分の伸長した3’突出が隣接成分の5’くぼみを満たす点まで伸長し、それにより、リガーゼによってシールすることができるニックが形成され得る。ポリメラーゼ、リガーゼ、及びエクソヌクレアーゼを一緒に使用するそのようなアセンブリ反応は、多くの場合、「ギブソンアセンブリ」と称される。ギブソンアセンブリは、T5エクソヌクレアーゼ、Phusionポリメラーゼ、及びTaqリガーゼを使用し、反応を摂氏50度でインキュベートすることによって実行し得る。上記例では、好熱性リガーゼであるTaqを使用することにより、反応における3つの型の酵素全てに適した温度である摂氏50度で反応を進行させることが可能になる。
【0210】
[00256] 「ギブソンアセンブリ」という用語は、一般に、ポリメラーゼ、リガーゼ、及びエクソヌクレアーゼが関与する任意のアセンブリ反応を指す。ギブソンアセンブリを使用して、少なくとも2種、3種、4種、5種、6種、7種、8種、9種、10種、又はそれより多くの成分をアセンブルし得る。ギブソンアセンブリは、一段階の等温性反応として行うこともでき、又は、1つ若しくは複数の温度でのインキュベーションを伴う多段階反応として行うこともできる。例えば、ギブソンアセンブリは、少なくとも30度、40度、50度、60度、又は70度、又はそれよりも低い温度で行うことができる。ギブソンアセンブリのインキュベーション時間は、少なくとも1分間、5分間、10分間、20分間、40分間、又は80分間であり得る。
【0211】
[00257] ギブソンアセンブリ反応は、意図された隣接成分間のギブソンオーバーラップが特定の長さであり、ヘアピン、ホモ二量体、又は望ましくないヘテロ二量体等の望ましくないハイブリダイゼーション事象を回避する配列等の配列特徴を有する場合、最適に行うことができる。一般に、少なくとも20塩基のギブソンオーバーラップが推奨される。しかしながら、ギブソンオーバーラップは、長さが少なくとも1塩基、2塩基、3塩基、5塩基、10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、100塩基、又はそれよりも多くの塩基であり得る。ギブソンオーバーラップのGC含量は、0%から100%の間のいずれかであり得る。
【0212】
[00258] ギブソンアセンブリは、一般に、5’エクソヌクレアーゼを用いて説明されるが、この反応は、3’エクソヌクレアーゼを用いて行うこともできる。3’エクソヌクレアーゼによりdsDNA成分の3’末端がチューバックされると、ポリメラーゼにより、3’末端が伸長することによって作用が打ち消される。この動的プロセスを、2種の成分(ギブソンオーバーラップを共有する)の5’突出(エクソヌクレアーゼによって作成される)がハイブリダイズし、ポリメラーゼにより一方の成分の3’末端がその隣接成分の5’末端に到達するのに十分に伸長し、したがって、リガーゼによってシールすることができるニックが残されるまで続けることができる。
【0213】
[00259] ライゲーションの幾つかの実施形態では、粘着末端を有する成分は、酵素的なものとは対照的に、完全な相補性を共有しない2つの1本鎖核酸又はオリゴを一緒に混合することによって合成的に作成し得る。例えば、2つのオリゴ、オリゴX及びオリゴYを、オリゴのいずれか一方又は両方の全体を構成する塩基のより大きな列の部分列を形成する相補的な塩基の連続した列に沿ってのみ完全にハイブリダイズするように設計し得る。この相補的な塩基の列は「インデックス領域」と称される。インデックス領域がオリゴXの全体及びオリゴYの5’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴY由来の3’突出を有する他方に粘着末端を有する成分を形成する(図30A)。インデックス領域がオリゴXの全体及びオリゴYの3’末端のみを占有する場合、オリゴは、一緒になって、一方に平滑末端を有し、オリゴY由来の5’突出を有する他方に粘着末端を有する成分を形成する(図30B)。インデックス領域がオリゴXの全体を占有し、オリゴYのいずれの末端も占有しない場合(インデックス領域がオリゴYの中央に埋め込まれていることを意味する)、オリゴは、一緒になって、オリゴY由来の3’突出を有する一方及びオリゴY由来の5’突出を有する他方に粘着末端を有する成分を形成する(図30C)。インデックス領域がオリゴXの5’末端のみ及びオリゴYの5’末端のみを占有する場合、オリゴは、一緒になって、オリゴY由来の3’突出を有する一方及びオリゴX由来の3’突出を有する他方に粘着末端を有する成分を形成する(図30D)。インデックス領域がオリゴXの3’末端のみ及びオリゴYの3’末端のみを占有する場合、オリゴは、一緒になって、オリゴY由来の5’突出を有する一方及びオリゴX由来の5’突出を有する他方に粘着末端を有する成分を形成する(図30E)。上述の例では、突出の配列は、インデックス領域の外側のオリゴ配列によって定義される。これらの突出配列は、ライゲーションのために成分がハイブリダイズする領域であるので、ハイブリダイゼーション領域と称し得る。
【0214】
[00260] 粘着末端ライゲーションにおけるオリゴのインデックス領域及びハイブリダイゼーション領域は、成分の適当なアセンブリが容易になるように設計し得る。長い突出を有する成分は、所与のアニーリング温度で、短い突出を有する成分と比較してより効率的に互いとハイブリダイズし得る。突出は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、15塩基、20塩基、30塩基、又はそれよりも多くの塩基の長さを有し得る。
【0215】
[00261] 高グアニン又はシトシン含量を含有する突出を有する成分は、それらの相補的な成分と、所与の温度で、低グアニン又はシトシン含量を含有する突出を有する成分よりも効率的にハイブリダイズし得る。これは、グアニンとシトシンが、アデニンとチミンよりもより安定な塩基対を形成するからである。突出は、0%から100%の間のいずれかのグアニン又はシトシン含量(GC含量としても既知)を有し得る。
【0216】
[00262] 突出配列と同様に、オリゴのインデックス領域のGC含量及び長さもライゲーション効率に影響を及ぼし得る。これは、各成分の上の鎖及び下の鎖が安定に結合していれば粘着末端成分がより効率的にアセンブルすることができるからである。したがって、より高いGC含量、より長い配列、及びより高い融解温度を促進する他の特徴を有するインデックス領域を設計し得る。しかしながら、インデックス領域及び突出配列の両方に関して、ライゲーションアセンブリの効率に影響を及ぼし得るオリゴ設計の態様が更に多く存在する。例えば、成分内での望ましくない二次構造の形成により、その意図された隣接成分とアセンブルされた産物を形成するその能力が妨げられる恐れがある。これは、インデックス領域内、突出配列内、又はその両方の二次構造に起因して起こり得る。これらの二次構造は、ヘアピンループを含み得る。オリゴの可能な二次構造の型及びそれらの安定性(例えば、融解温度)は、配列に基づいて予測することができる。設計空間検索アルゴリズムを使用して、有効な成分を形成するための適当な長さ及びGC含量の基準を満たすオリゴ配列を決定すると同時に、潜在的に阻害性の二次構造を有する配列を回避し得る。設計空間検索アルゴリズムは、遺伝的アルゴリズム、ヒューリスティック検索アルゴリズム、tabu検索のようなメタ-ヒューリスティック検索戦略、分枝限定検索アルゴリズム、動的プログラミングに基づくアルゴリズム、制約された組合せ最適化アルゴリズム、最急降下に基づくアルゴリズム、ランダム化検索アルゴリズム、又はこれらの組合せを含み得る。
【0217】
[00263] 同様に、ホモ二量体(同じ配列のオリゴとハイブリダイズするオリゴ)及び望ましくないヘテロ二量体(それらの意図されたアセンブリパートナーに加えて他のオリゴとハイブリダイズするオリゴ)の形成により、ライゲーションが妨げられる恐れがある。成分内の二次構造と同様に、ホモ二量体及びヘテロ二量体の形成を予測し、オリゴ設計の間にコンピュータによる計算方法及び設計空間検索アルゴリズムを使用して説明することができる。
【0218】
[00264] より長いオリゴ配列又はより高いGC含量により、ライゲーション反応内での望ましくない二次構造、ホモ二量体、及びヘテロ二量体の形成の増加が生じ得る。したがって、幾つかの実施形態では、より短いオリゴ又はより低いGC含量を使用することにより、より高いアセンブリ効率が導かれ得る。これらの設計原理により、より効率的なアセンブリに関して、長いオリゴ又は高いGC含量を使用する設計戦略が打ち消され得る。そのように、各成分を構成するオリゴに関して、ライゲーションアセンブリ効率が最適化されるような最適な長さ及び最適なGC含量が存在し得る。ライゲーションに使用されるオリゴの全体的な長さは、少なくとも10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、又は100塩基、又はそれよりも多くの塩基であり得る。ライゲーションに使用されるオリゴの全体的なGC含量は、0%から100%の間のいずれかであり得る。
【0219】
[00265] 粘着末端ライゲーションに加えて、ライゲーションは、1本鎖核酸間でステープル(又は鋳型又は架橋)鎖を使用して行うこともできる。この方法は、ステープル鎖ライゲーション(SSL)、鋳型誘導型ライゲーション(TDL)、又は架橋鎖ライゲーションと称し得る。3つの核酸をアセンブルするためのTDLの概略図例については図19Aを参照のこと。TDLでは、2つの1本鎖核酸を鋳型上に隣接してハイブリダイズさせ、したがって、リガーゼによってシールし得るニックを形成する。粘着末端ライゲーションと同じ核酸設計考慮事項がTDLにも当てはまる。鋳型とそれらの意図された相補的な核酸配列の間のより強力なハイブリダイゼーションにより、ライゲーション効率の上昇を導くことができる。したがって、鋳型の両側でのハイブリダイゼーション安定性(又は融解温度)を改善する配列特徴により、ライゲーション効率を改善し得る。これらの特徴は、より長い配列の長さ及びより高いGC含量を含み得る。鋳型を含めたTDLにおける核酸の長さは、少なくとも5塩基、10塩基、20塩基、30塩基、40塩基、50塩基、60塩基、70塩基、80塩基、90塩基、又は100塩基、又はそれよりも多くの塩基であり得る。鋳型を含めた核酸のGC含量は、0%から100%の間のいずれかであり得る。
【0220】
[00266] TDLでは、粘着末端ライゲーションと同様に、配列空間検索アルゴリズムを用いる核酸構造予測ソフトウェアを使用することにより、望ましくない二次構造を回避する成分及び鋳型配列を設計するために注意を払い得る。TDLにおける成分は、2本鎖の代わりに1本鎖であり得るので、露出した塩基に起因して、(粘着末端ライゲーションと比較して)望ましくない二次構造の発生率がより高くなる可能性がある。
【0221】
[00267] TDLは、平滑末端化されたdsDNA成分を用いて実施することもできる。そのような反応では、ステープル鎖が2つの1本鎖核酸を適当に架橋するためには、まずステープルが、完全な1本鎖相補物を置き換える又は部分的に置き換えることが必要な可能性がある。dsDNA成分を用いたTDL反応を容易にするために、dsDNAを最初に高温でインキュベートすることで融解させ得る。次いで、反応を冷却し、したがって、ステープル鎖がそれらの適当な核酸相補物にアニールできるようにし得る。このプロセスは、dsDNA成分と比較して比較的高い濃度の鋳型を使用することによって更に一層効率的なものにすることができ、したがって、結合に関して鋳型が適当な全長ssDNA相補物に打ち勝つことが可能になる。2つのssDNA鎖がそれらの鋳型及びリガーゼによってアセンブルされると、そのアセンブルされた核酸が逆の全長ssDNA相補物の鋳型になり得る。したがって、TDLを用いた平滑末端化されたdsDNAのライゲーションは、融解(より高い温度でのインキュベーション)及びアニーリング(より低い温度でのインキュベーション)の複数のラウンドを通じて改善し得る。このプロセスは、リガーゼサイクリング反応、又はLCRと称し得る。融解温度及びアニーリング温度は核酸配列に依存する。融解温度及びアニーリング温度は、少なくとも摂氏4度、10度、20度、20度、30度、40度、50度、60度、70度、80度、90度、又は100度であり得る。温度サイクルの数は、少なくとも1回、5回、10回、15回、20回、15回、30回、又はそれよりも多くであり得る。
【0222】
[00268] 全てのライゲーションは、固定温度反応又は多重温度反応で実行し得る。ライゲーション温度は、少なくとも摂氏0度、4度、10度、20度、20度、30度、40度、50度、又は60度又はそれよりも高い温度であり得る。リガーゼ活性に最適な温度は、リガーゼの型に応じて異なり得る。さらに、反応において成分が隣り合う又はハイブリダイズする速度は、それらの核酸配列に応じて異なり得る。より高いインキュベーション温度により、より速い拡散を促進し、したがって、成分が一時的に隣り合う又はハイブリダイズする頻度を増大させ得る。しかしながら、温度の上昇により、塩基対水素結合の破壊、したがって、これらの隣り合った又はハイブリダイズした成分2重鎖の安定性の低下も生じ得る。ライゲーションの最適な温度は、アセンブルされる核酸の数、それらの核酸の配列、リガーゼの型、並びに反応添加剤等の他の因子に依存し得る。例えば、4塩基の相補的な突出を有する2つの粘着末端成分は、摂氏4度でT4リガーゼを用いると、摂氏25度でT4リガーゼを用いるよりも速くアセンブルし得る。しかし、25塩基の相補的な突出を有する2つの粘着末端成分は、摂氏25度でT4リガーゼを用いると、摂氏4度でT4リガーゼを用いるよりも速くアセンブルすることができ、また、おそらく、4塩基の突出をいずれの温度でライゲーションするよりも速くアセンブルすることができる。ライゲーションの幾つかの実施形態では、アニーリングのために、リガーゼの添加前に成分を加熱し、ゆっくりと冷却することが有益であり得る。
【0223】
[00269] ライゲーションを使用して、少なくとも2、3、4、5、6、7、8、9、10、11、12、13、14、15、16、17、18、19、20、又はそれよりも多くの核酸をアセンブルし得る。ライゲーションインキュベーション時間は、最大で30秒間、1分間、2分間、5分間、10分間、20分間、30分間、1時間、又はそれよりも長い時間であり得る。より長いインキュベーション時間により、ライゲーション効率を改善することができる。
【0224】
[00270] ライゲーションには5’リン酸化末端を有する核酸が必要な場合がある。5’リン酸化末端を有さない核酸成分は、T4ポリヌクレオチドキナーゼ(又はT4 PNK)等のポリヌクレオチドキナーゼとの反応でリン酸化することができる。ATP、マグネシウムイオン、又はDTT等の他の補因子が反応中に存在し得る。ポリヌクレオチドキナーゼ反応は、摂氏37度で30分間行うことができる。ポリヌクレオチドキナーゼ反応温度は、少なくとも摂氏4度、10度、20度、20度、30度、40度、50度、又は60度であり得る。ポリヌクレオチドキナーゼ反応のインキュベーション時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、又はそれよりも長い時間であり得る。代替的には、核酸成分は、改変された5’リン酸化を用いて合成的に(酵素的なものとは対照的に)設計し、製造することができる。それらの5’末端にアセンブルされる核酸のみにリン酸化が必要になり得る。例えば、TDLにおける鋳型は、アセンブルされるものではないので、リン酸化されていなくてよい。
【0225】
[00271] ライゲーション効率を改善するために、添加剤をライゲーション反応に含めることができる。例えば、ジメチルスルホキシド(DMSO)、ポリエチレングリコール(PEG)、1,2-プロパンジオール(1,2-Prd)、グリセロール、Tween(登録商標)-20又はこれらの組合せの添加。PEG6000が特に有効なライゲーション増強剤であり得る。PEG6000は、クラウディング剤として作用することによってライゲーション効率を上昇させ得る。例えば、PEG6000は、リガーゼ反応溶液中の空間を占める凝集した小塊を形成し、リガーゼと成分をより近づけ得る。添加剤含量(重量/体積)は、少なくとも0%、1%、5%、10%、20%、又はそれよりも多くであり得る。
【0226】
[00272] 種々のリガーゼはライゲーションに使用することが可能である。リガーゼは、天然に存在するものであってもよく又は合成されたものであってもよい。リガーゼの例としては、T4 DNAリガーゼ、T7 DNAリガーゼ、T3 DNAリガーゼ、Taq DNAリガーゼ、9oN(商標)DNAリガーゼ、E.coli DNAリガーゼ、及びSplintR DNAリガーゼが挙げられる。異なるリガーゼは、異なる温度で安定且つ最適に機能し得る。例えば、Taq DNAリガーゼは熱安定性であり、T4 DNAリガーゼは熱安定性ではない。さらに、異なるリガーゼは異なる性質を有する。例えば、T4 DNAリガーゼは平滑末端化されたdsDNAをライゲーションすることができるが、T7 DNAリガーゼは平滑末端化されたdsDNAをライゲーションすることができない。
【0227】
[00273] ライゲーションを使用して、シーケンシングアダプターを核酸のライブラリに付着させ得る。例えば、ライゲーションを、核酸ライブラリの各メンバの末端の共通の粘着末端又はステープルを用いて実行し得る。核酸の一方の末端の粘着末端又はステープルが他方の末端のものと区別可能な場合、シーケンシングアダプターを非対称にライゲーションし得る。例えば、フォワードシーケンシングアダプターを核酸ライブラリのメンバの一方の末端にライゲーションし得、リバースシーケンシングアダプターを核酸ライブラリのメンバの他方の末端にライゲーションし得る。代替的には、平滑末端化されたライゲーションを使用して、アダプターを平滑末端化された2本鎖核酸のライブラリに付着させ得る。フォークアダプターを使用して、各末端で等価である平滑末端又は粘着末端のいずれかを有する核酸ライブラリにアダプターを非対称に付着させ得る(例えば、A尾部等)。
【0228】
[00274] ライゲーションは、熱失活(例えば、摂氏65度で少なくとも20分間のインキュベーション)、変性剤の添加、又はEDTA等のキレート剤の添加によって阻害され得る。
【0229】
C.制限酵素消化
[00275] 制限酵素消化は、制限エンドヌクレアーゼ(又は制限酵素)が核酸上のそれらの同類の制限部位を認識し、その後、上記制限部位を含有する核酸を切断する(又は消化する)反応である。I型、II型、III型、又はIV型制限酵素を制限酵素消化のために使用し得る。II型制限酵素が核酸消化のための最も効率的な制限酵素であり得る。II型制限酵素は、パリンドローム制限部位を認識し、認識部位内の核酸を切断し得る。上記制限酵素(及びそれらの制限部位)の例としては、AatII(GACGTC)、AfeI(AGCGCT)、ApaI(GGGCCC)、DpnI(GATC)、EcoRI(GAATTC)、NgeI(GCTAGC)、及び更に多くが挙げられる。DpnI及びAfeI等の幾つかの制限酵素は、それらの制限部位を中央で切断することができ、したがって、平滑末端化されたdsDNA産物が残される。EcoRI及びAatII等の他の制限酵素は、それらの制限部位を中心から外れて切断し、したがって、粘着末端(又は互い違いの末端)を有するdsDNA産物が残される。幾つかの制限酵素は、不連続の制限部位を標的化し得る。例えば、制限酵素AlwNIは、制限部位CAGNNNCTGを認識し、ここで、Nは、A、T、C、又はGのいずれかであり得る。制限部位は、長さ少なくとも2塩基、4塩基、6塩基、8塩基、10塩基、又はそれよりも多くの塩基であり得る。
【0230】
[00276] 幾つかのII型制限酵素は、それらの制限部位の外側の核酸を切断する。この酵素は、IIS型又はIIG型制限酵素に下位分類し得る。上記酵素は、パリンドロームでない制限部位を認識し得る。上記制限酵素の例としては、GAAACを認識し、2塩基(同じ鎖)及び6塩基(逆の鎖)更に下流に互い違いの切断を作成するBbsIが挙げられる。別の例としては、GGTCTCを認識し、1塩基(同じ鎖)及び5塩基(逆の鎖)更に下流に互い違いの切断を作成するBsaIが挙げられる。上記制限酵素をゴールデンゲートアセンブリ又はモジュラークローニング(MoClo)に使用し得る。BcgI(IIG型制限酵素)等の幾つかの制限酵素は、その認識部位の両末端に互い違いの切断を作成し得る。制限酵素は、それらの認識部位から少なくとも1塩基、5塩基、10塩基、15塩基、20塩基、又はそれよりも遠く離れた核酸を切断し得る。上記制限酵素は、それらの認識部位の外側で互い違いの切断を作成し得るので、得られる核酸突出の配列を任意に設計し得る。これは、得られる核酸突出の配列が制限部位の配列と結合する、それらの認識部位内に互い違いの切断を作成する制限酵素とは対照的である。制限酵素消化によって作成される核酸突出は、長さ少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、又はそれよりも多くの塩基であり得る。制限酵素により核酸を切断する場合、得られる5’末端はホスフェートを含有する。
【0231】
[00277] 1つ又は複数の核酸配列が、制限酵素消化反応に含まれ得る。同様に、1つ又は複数の制限酵素が一緒に制限酵素消化反応に使用され得る。制限酵素消化は、カリウムイオン、マグネシウムイオン、ナトリウムイオン、BSA、S-アデノシル-L-メチオニン(SAM)、又はこれらの組合せを含めた添加剤及び補助因子を含み得る。制限酵素消化反応は、摂氏37度で1時間インキュベートし得る。制限酵素消化反応は、少なくとも摂氏0度、10度、20度、30度、40度、50度、又は60度の温度でインキュベートし得る。最適な消化温度は酵素に依存し得る。制限酵素消化反応は、最大で1分間、10分間、30分間、60分間、90分間、120分間、又はそれよりも長くインキュベートし得る。より長いインキュベーション時間により、消化の増大をもたらし得る。
【0232】
D.核酸増幅
[00278] 核酸増幅は、ポリメラーゼ連鎖反応又はPCRを用いて実行し得る。PCRでは、核酸の出発プール(鋳型プール又は鋳型と称される)をポリメラーゼ、プライマー(短い核酸プローブ)、ヌクレオチド三リン酸(例えば、dATP、dTTP、dCTP、dGTP、及びその類似体又はバリアント等)、並びにベタイン、DMSO、及びマグネシウムイオン等の追加的な補助因子及び添加剤と組み合わせ得る。鋳型は、1本鎖核酸であってもよく又は2本鎖核酸であってもよい。プライマーは、鋳型プール中の標的配列に相補的であり、ハイブリダイズするように合成的に構築された短い核酸配列であり得る。プライマーは、鋳型プール中の標的配列を含む各識別子核酸配列に結合して、標的配列を含む識別子核酸配列のみを選択し得る。典型的には、PCR反応には2種のプライマーが存在し、一方は標的鋳型の上の鎖のプライマー結合性部位に相補的であり、他方は第1の結合性部位よりも下流の、標的鋳型の下の鎖のプライマー結合性部位に相補的である。これらのプライマーがそれらの標的に結合する5’から3’への配向は、それらの間の核酸配列を首尾よく複製し、指数関数的に増幅するために、互いに向かい合っていなければならない。「PCR」とは、典型的には、特に上記形態の反応を指し得るが、より一般的には、あらゆる核酸増幅反応を指すためにも使用され得る。
【0233】
[00279] 幾つかの実施形態では、PCRは、3つの温度:融解温度、アニーリング温度、及び伸長温度の間をサイクルさせることを含み得る。融解温度は、2本鎖核酸を1本鎖核酸に変えること並びにハイブリダイゼーション産物及び二次構造の形成を除去することを意図する。典型的には、融解温度は、高く、例えば、摂氏95度を超える。幾つかの実施形態では、融解温度は、少なくとも摂氏96度、97度、98度、99度、100度、101度、102度、103度、104度、又は105度であり得る。他の実施形態では、融解温度は、最大で摂氏95度、94度、93度、92度、91度、又は90度であり得る。融解温度が高いほど核酸及びそれらの二次構造の解離が改善されるが、核酸又はポリメラーゼの分解等の副作用も引き起こされる恐れがある。融解温度は、反応に少なくとも1秒間、2秒間、3秒間、4秒間、5秒間、又はそれよりも長く、例えば、30秒間、1分間、2分間、又は3分間にわたって適用し得る。複雑な又は長い鋳型を用いたPCRにはより長い最初の融解温度ステップが推奨される場合がある。
【0234】
[00280] アニーリング温度は、プライマーとそれらの標的鋳型の間のハイブリダイゼーションの形成を容易にすることを意図する。幾つかの実施形態では、アニーリング温度は、プライマーの算出された融解温度と対応し得る。他の実施形態では、アニーリング温度は、上記融解温度から摂氏10度又はそれよりも高い温度以内であり得る。幾つかの実施形態では、アニーリング温度は、少なくとも摂氏25度、30度、50度、55度、60度、65度、又は70度であり得る。融解温度は、プライマーの配列に依存し得る。プライマーが長いほど融解温度が高くなり得、グアニン又はシトシンヌクレオチドのパーセント含量が高いプライマーほど融解温度が高くなり得る。したがって、特定のアニーリング温度で最適にアセンブルするように意図されたプライマーを設計することが可能であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、又は30秒間にわたって、又はそれよりも長く適用することができる。アニーリングを確実にすることを補助するために、プライマー濃度を高くする又は量を飽和させ得る。プライマー濃度は、500ナノモル濃度(nM)であり得る。プライマー濃度は、最大で1nM、10nM、100nM、1000nM、又はそれよりも高い濃度であり得る。
【0235】
[00281] 伸長温度は、1つ又は複数のポリメラーゼ酵素によって触媒されるプライマーの3’末端核酸鎖延長を開始させ、容易にすることを意図する。幾つかの実施形態では、伸長温度をポリメラーゼが核酸結合強度、延長スピード、延長安定性、又は忠実度に関して最適に機能する温度に設定することができる。幾つかの実施形態では、伸長温度は、少なくとも摂氏30度、40度、50度、60度、又は70度、又はそれよりも高い温度であり得る。アニーリング温度は、反応に少なくとも1秒間、5秒間、10秒間、15秒間、20秒間、25秒間、30秒間、40秒間、50秒間、又は60秒間にわたって、又はそれよりも長く適用することができる。推奨される伸長時間は、予測される延長の1キロベース当たりおよそ15~45秒間であり得る。
【0236】
[00282] PCRの幾つかの実施形態では、アニーリング温度と伸長温度は同じであってよい。したがって、2ステップ温度サイクルを3ステップ温度サイクルの代わりに使用することができる。組み合わせたアニーリング及び伸長温度の例としては、摂氏60度、65度、又は72度が挙げられる。
【0237】
[00283] 幾つかの実施形態では、PCRは1つの温度サイクルで実行し得る。そのような実施形態は、標的化された1本鎖鋳型核酸を2本鎖核酸に変えることを伴い得る。他の実施形態では、PCRを複数の温度サイクルで実行し得る。PCRが効率的であれば、各サイクルで標的核酸分子の数が2倍になり、それにより、元の鋳型プールからの標的化された核酸鋳型の数の指数関数的な増加が生じることが予想される。PCRの効率は変動し得る。したがって、各ラウンドで複製される標的化された核酸の実際のパーセントは、100%より多い又は少ない可能性がある。各PCRサイクルで変異した及び組み換えられた核酸等の望ましくないアーチファクトが導入される可能性がある。この潜在的な害を縮小するために、忠実度が高く処理能力が高いポリメラーゼを使用し得る。さらに、限られた数のPCRサイクルを使用することができる。PCRは、最大で1、5、10、15、20、25、30、35、40、45、又はそれよりも多くのサイクルを伴い得る。
【0238】
[00284] 幾つかの実施形態では、複数の区別可能な標的核酸配列を1つのPCRで一緒に増幅することができる。各標的配列が共通のプライマー結合性部位を有する場合、全ての核酸配列を、同じプライマーセットを用いて増幅することができる。代替的には、PCRは、各々が区別可能な核酸を標的化することが意図された複数のプライマーを含み得る。上記PCRは多重PCRと称することができる。PCRは、最大で1種、2種、3種、4種、5種、6種、7種、8種、9種、10種、又はそれよりも多くの区別可能なプライマーを伴い得る。複数の区別可能な核酸標的を有するPCRでは、各PCRサイクルにより、標的化された核酸の相対的な分布が変化する可能性がある。例えば、均一な分布が歪んだ又は非均一に分布したものになる可能性がある。この潜在的な害を縮小するために、最適なポリメラーゼ(例えば、高忠実度及び配列頑強性を有する)及び最適なPCR条件を使用し得る。アニーリング及び伸長の温度及び時間等の因子を最適化し得る。さらに、限られた数のPCRサイクルを使用し得る。
【0239】
[00285] PCRの幾つかの実施形態では、鋳型中のその標的化プライマー結合性部位に対して塩基ミスマッチを有するプライマーを使用して標的配列を変異させ得る。PCRの幾つかの実施形態では、5’末端に余分の配列(突出として既知)を有するプライマーを使用して、その標的化された核酸に配列を付着させ得る。例えば、5’末端にシーケンシングアダプターを含有するプライマーを使用して、シーケンシングのための核酸ライブラリを調製及び/又は増幅し得る。特定のシーケンシング技術のための十分な富化のために、シーケンシングアダプターを標的化するプライマーを使用して核酸ライブラリを増幅し得る。
【0240】
[00286] 幾つかの実施形態では、プライマーが鋳型の一方の鎖のみ(両方の鎖ではなく)標的化する線形PCR(又は非対称PCR)が使用される。線形PCRでは、各サイクルから複製される核酸はプライマーと相補的なものではなく、したがって、プライマーはその核酸に結合しない。したがって、プライマーは、各サイクルで元の標的鋳型のみを複製し、したがって、線形(指数関数的なものとは対照的な)増幅になる。線形PCRからの増幅は従来の(指数関数的な)PCRほど高速でない可能性があるが、最大収量はより大きい可能性がある。理論的に、線形PCRにおけるプライマー濃度は、従来のPCRではそうなるような、サイクルの増加及び収量の上昇での制限因子にはならない。指数関数的増幅後線形増幅PCR(Linear-After-The-Exponential-PCR)(又はLATE-PCR)は、特に高収量を可能にし得る線形PCRの改変バージョンである。
【0241】
[00287] 核酸増幅の幾つかの実施形態では、融解、アニーリング、及び伸長のプロセスは単一の温度で行われ得る。そのようなPCRは、等温性PCRと称し得る。等温性PCRでは、プライマー結合に有利になるように十分に相補的な核酸の鎖を互いから解離させる又は置き換えるために温度に依存しない方法を活用し得る。戦略としては、ループ媒介性等温増幅、鎖置換増幅、ヘリカーゼ依存性増幅法、及びニッキング酵素増幅反応が挙げられる。等温性核酸増幅は、最大で摂氏20度、30度、40度、50度、60度、又は70度又はそれよりも高い温度で行われ得る。
【0242】
[00288] 幾つかの実施形態では、PCRは、サンプル中の核酸の量を定量化するための蛍光プローブ又は色素を更に含み得る。例えば、色素は2本鎖核酸に挿入され得る。上記色素の例はSYBR Greenである。蛍光プローブは、蛍光単位が付着した核酸配列であってもよい。蛍光単位は、プローブが標的核酸とハイブリダイズし、その後伸長ポリメラーゼ単位から改変されると放出され得る。上記プローブの例としては、TaqManプローブが挙げられる。そのようなプローブをPCR及び光学的測定ツール(励起及び検出のための)と併せて使用して、サンプル中の核酸濃度を定量化し得る。このプロセスは、定量的PCR(qPCR)又はリアルタイムPCR(rtPCR)と称し得る。
【0243】
[00289] 幾つかの実施形態では、PCRは、複数の鋳型分子のプールに対してではなく単一の分子鋳型に対して(単一分子PCRと称し得るプロセスで)実行し得る。例えば、エマルジョン-PCR(ePCR)を使用して、単一の核酸分子を油エマルジョン中の水滴の中に封入し得る。水滴はPCR試薬も含み得、水滴は、PCRのための必要な温度サイクリングが可能な温度調節された環境で保持し得る。このように、複数の自己完結型PCR反応を同時に高スループットで行うことができる。界面活性剤を用いて油エマルジョンの安定性を改善し得る。マイクロ流体チャネルを通じて圧力を用いて液滴の動きを制御し得る。マイクロ流体デバイスは、液滴を作成するため、液滴を分割するため、液滴を合体させるため、材料を液滴中に注射するため、並びに液滴をインキュベートするために使用し得る。油エマルジョン中の水滴のサイズは、少なくとも1ピコリットル(pL)、10pL、100pL、1ナノリットル(nL)、10nL、100nL、又はそれよりも大きいサイズであり得る。
【0244】
[00290] 幾つかの実施形態では、単一分子PCRは固相担体上で実行し得る。例としては、Illumina固相増幅法又はその変形が挙げられる。鋳型プールを固相担体に暴露させ、ここで、固相担体は、鋳型を特定の空間分解能で固定化することができるものである。次いで、各鋳型の空間的近傍でブリッジ増幅を行い、それにより、単一分子を担体上で高スループット様式で増幅し得る。
【0245】
[00291] 高スループット単一分子PCRは、互いに妨げる可能性がある区別可能な核酸のプールを増幅するために有用であり得る。例えば、複数の区別可能な核酸が共通配列領域を共有する場合、この共通領域に沿った核酸間の組換えがPCR反応中に起こり、その結果、新しい、組み換えられた核酸がもたらされる可能性がある。単一分子PCRでは、区別可能な核酸配列が互いに区画化され、したがって、相互作用することができないので、この潜在的な増幅エラーが防止される。単一分子PCRは、シーケンシングのための核酸を調製するために特に有用であり得る。単一分子PCRは、鋳型プール中の幾つかの標的の絶対的定量化のためにも有用であり得る。例えば、デジタルPCR(又はdPCR)では、区別可能な単一分子PCR増幅シグナルの頻度を使用して、サンプル中の出発核酸分子の数を推定する。
【0246】
[00292] PCRの幾つかの実施形態では、全ての核酸に共通するプライマー結合性部位に対するプライマーを使用し、核酸の群を非差別的に増幅し得る。例えば、プール中の全ての核酸に隣接するプライマー結合性部位に対するプライマー。これらの共通部位を一般的な増幅に用いて合成核酸ライブラリを作成又はアセンブルし得る。しかしながら、幾つかの実施形態では、例えば、プライマーを上記標的化された核酸のサブセットにおいてのみ存在するプライマー結合性部位と使用することにより、PCRを使用して、標的化された核酸のサブセットをプールから選択的に増幅し得る。合成核酸ライブラリは、サブライブラリをより一般的なライブラリから選択的に増幅するために、目的の潜在的サブライブラリに属する核酸全てがそれらの縁に共通のプライマー結合性部位を共有する(サブライブラリ中では共通するが、他のサブライブラリとは区別可能な)ように作成又はアセンブルすることができる。幾つかの実施形態では、PCRを核酸アセンブリ反応(例えば、ライゲーション又はOEPCR等)と組み合わせて、完全にアセンブルされた又は潜在的に完全にアセンブルされた核酸を部分的にアセンブルされた又はミスアセンブルされた(又は意図されたものではない若しくは望ましくない)副産物から選択的に増幅し得る。例えば、アセンブリは、核酸を各縁配列上のプライマー結合性部位と、完全にアセンブルされた核酸産物のみが増幅のための必須の2つのプライマー結合性部位を含有するようにアセンブルすることを伴い得る。上記例では、部分的にアセンブルされた産物は、プライマー結合性部位を有する縁配列のいずれも含有しない又はその一方のみを含有する可能性があり、したがって、増幅されないはずである。同様に、ミスアセンブルされた(又は意図されたものではない若しくは望ましくない)産物は、縁配列のいずれも含まないか若しくはその一方のみを含有する、又は両方の縁配列を含有するが誤った配向である若しくは誤った量の塩基によって分離され得る。したがって、上記ミスアセンブルされた産物は、増幅されないか又は増幅されて誤った長さの産物が作成されるはずである。後者の場合、誤った長さの増幅されたミスアセンブルされた産物は、正しい長さの増幅された完全にアセンブルされた産物から、アガロースゲルでのDNA電気泳動、続くゲル抽出等の核酸サイズ選択方法によって分離し得る(化学的方法セクションEを参照のこと)。
【0247】
[00293] 核酸増幅の効率を改善するために、PCRに添加剤を含め得る。例えば、ベタイン、ジメチルスルホキシド(DMSO)、非イオン性界面活性剤、ホルムアミド、マグネシウム、ウシ血清アルブミン(BSA)、又はこれらの組合せの添加。添加剤含量(重量/体積)は、少なくとも0%、1%、5%、10%、20%、又はそれよりも多くであり得る。
【0248】
[00294] 種々のポリメラーゼがPCRのために使用可能である。ポリメラーゼは、天然に存在するものであってもよく又は合成されたものであってもよい。ポリメラーゼの例は、Φ29ポリメラーゼ又はその誘導体である。場合によっては、新しい核酸配列を構築するために、転写酵素又はリガーゼ(即ち、結合の形成を触媒する酵素)がポリメラーゼと併せて又はポリメラーゼの代替として使用される。ポリメラーゼの例としては、DNAポリメラーゼ、RNAポリメラーゼ、耐熱性ポリメラーゼ、野生型ポリメラーゼ、改変ポリメラーゼ、E.coli DNAポリメラーゼI、T7 DNAポリメラーゼ、バクテリオファージT4 DNAポリメラーゼΦ29(ファイ29)DNAポリメラーゼ、Taqポリメラーゼ、Tthポリメラーゼ、Tliポリメラーゼ、Pfuポリメラーゼ、Pwoポリメラーゼ、VENTポリメラーゼ、DEEPVENTポリメラーゼ、Ex-Taqポリメラーゼ、LA-Tawポリメラーゼ、Ssoポリメラーゼ、Pocポリメラーゼ、Pabポリメラーゼ、Mthポリメラーゼ、ES4ポリメラーゼ、Truポリメラーゼ、Tacポリメラーゼ、Tneポリメラーゼ、Tmaポリメラーゼ、Tcaポリメラーゼ、Tihポリメラーゼ、Tfiポリメラーゼ、Platinum Taqポリメラーゼ、Tbrポリメラーゼ、Phusionポリメラーゼ、KAPAポリメラーゼ、Q5ポリメラーゼ、Tflポリメラーゼ、Pfutuboポリメラーゼ、Pyrobestポリメラーゼ、KODポリメラーゼ、Bstポリメラーゼ、Sacポリメラーゼ、3’から5’へのエクソヌクレアーゼ活性を有するクレノウ断片ポリメラーゼ、並びにそのバリアント、改変産物及び誘導体が挙げられる。異なるポリメラーゼは、異なる温度で安定且つ最適に機能し得る。さらに、異なるポリメラーゼは異なる性質を有する。例えば、Phusionポリメラーゼのような一部のポリメラーゼは、核酸延長の間、より高い忠実度に寄与し得る3’から5’へのエクソヌクレアーゼ活性を示し得る。一部のポリメラーゼは延長の間リーディング配列を置き換え得、一方、他のポリメラーゼは、それらを分解し得る又は延長を停止し得る。Taqのような一部のポリメラーゼは、アデニン塩基を核酸配列の3’末端に組み入れる。さらに、一部のポリメラーゼは、他のポリメラーゼよりも高い忠実度及び処理能力を有し得、増幅された核酸収量のために最小の変異を有することが重要である場合、及び区別可能な核酸の分布のために増幅全体を通して均一な分布を維持することが重要である場合のシーケンシング調製等のPCR適用により適切であり得る。
【0249】
E.サイズ選択
[00295] サイズ選択技法を使用して特定のサイズの核酸をサンプルから選択し得る。幾つかの実施形態では、サイズ選択はゲル電気泳動又はクロマトグラフィを使用して実行し得る。核酸の液体サンプルは、固定相又はゲル(又はマトリックス)の一方の端子にロードし得る。ゲルの負端子は核酸サンプルがロードされる端子になり、ゲルの正端子は逆の端子になるようにゲルにわたって電圧差をかけ得る。核酸は負に荷電したリン酸骨格を有するので、ゲルを横切って正端子に移動する。核酸のサイズにより、核酸がゲルを通る相対的な移動スピードが決まる。したがって、サイズが異なる核酸は、ゲル上でそれらが移動するにつれて分解される。電圧差は、100V又は120Vであり得る。電圧差は、最大で50V、100V、150V、200V、250V、又はそれよりも大きい差異であり得る。電圧差が大きいほど核酸移動のスピード及びサイズ分解能が大きくなり得る。しかしながら、電圧差が大きいと、核酸又はゲルの損傷も生じ得る。より大きなサイズの核酸を分解するために、より大きな電圧差が推奨される場合がある。典型的な移動時間は15分間から60分間の間であり得る。移動時間は、最大で10分間、30分間、60分間、90分間、120分間、又はそれよりも長い時間であり得る。より高い電圧と同様に、より長い移動時間により、より良好な核酸分解能を導くことができるが、核酸損傷の増大が導かれ得る。より大きなサイズの核酸を分解するために、より長い移動時間が推奨される場合がある。例えば、200塩基の核酸を250塩基の核酸から分解するためには、120Vという電圧差及び30分という移動時間が十分であり得る。
【0250】
[00296] ゲル、又はマトリックスの性質は、サイズ選択プロセスに影響を及ぼし得る。ゲルは、一般には、TAE(トリス-酢酸-EDTA)又はTBE(トリス-ホウ酸-EDTA)等の伝導性緩衝液中に分散したアガロース又はポリアクリルアミド等のポリマー物質を含む。ゲル中の物質(例えば、アガロース又はアクリルアミド)の含量(重量/体積)は、最大で5%、1%、2%、3%、5%、10%、15%、20%、25%、又はそれよりも多くであり得る。含量が高いほど移動スピードが低下し得る。より小さな核酸を分解するために、より高い含量が好ましい場合がある。2本鎖DNA(dsDNA)を分解するためにはアガロースゲルがより良好であり得る。1本鎖DNA(ssDNA)を分解するためにはポリアクリルアミドゲルがより良好であり得る。好ましいゲル組成物は、核酸型及びサイズ、添加剤(例えば、色素、染料、変性溶液、又はローディング緩衝液)の適合性並びに見込まれる下流の適用(例えば、ゲル抽出、次いでライゲーション、PCR、又はシーケンシング)に依存し得る。アガロースゲルは、ゲル抽出に関してポリアクリルアミドゲルよりも単純であり得る。抽出プロセスにおけるボラート(酵素阻害剤)持ち越し汚染により下流の酵素反応が阻害される可能性があるので、TAEはTBEほど良好な伝導体ではないが、同様にゲル抽出に関してはより良好であり得る。
【0251】
[00297] ゲルは、SDS(ドデシル硫酸ナトリウム)又は尿素等の変性溶液を更に含み得る。SDSは、例えば、タンパク質を変性させるため又は核酸を潜在的に結合したタンパク質から分離するために使用し得る。尿素は、DNAの二次構造を変性させるために使用し得る。例えば、尿素により、dsDNAをssDNAに変換することができる、又は尿素により、フォールディングされたssDNA(例えば、ヘアピン)をフォールディングされていないssDNAに変換し得る。ssDNAを正確に分解するために尿素-ポリアクリルアミドゲル(TBEを更に含む)が使用可能である。
【0252】
[00298] サンプルをゲルに異なるフォーマットで組み入れることができる。幾つかの実施形態では、ゲルは、サンプルを手動でロードすることができるウェルを含み得る。1つのゲルが複数の核酸サンプルを流すための複数のウェルを有し得る。他の実施形態では、ゲルを、核酸サンプルを自動的にロードするマイクロ流体チャネルに付着させることができる。各ゲルは幾つかのマイクロ流体チャネルの下流にあってもよく、ゲル自体が別々のマイクロ流体チャネルを占有していてもよい。ゲルの寸法が核酸検出(又は可視化)の感度に影響を及ぼし得る。例えば、薄いゲル又はマイクロ流体チャネルの内側にあるゲル(例えば、バイオアナライザ又はテープステーション中のもの等)により、核酸検出の感度を改善することができる。核酸検出ステップは、正しいサイズの核酸断片を選択し、抽出するために重要であり得る。
【0253】
[00299] 核酸サイズ参照のためにゲルにラダーをロードし得る。ラダーは、核酸サンプルを比較することができる種々のサイズのマーカーを含有し得る。異なるラダーは異なるサイズ範囲及び分解能を有し得る。例えば、50塩基のラダーは、50塩基、100塩基、150塩基、200塩基、250塩基、300塩基、350塩基、400塩基、450塩基、500塩基、550塩基、及び600塩基のところにマーカーを有し得る。上記ラダーは、50塩基から600塩基のサイズ範囲内の核酸を検出し、選択するために有用であり得る。ラダーは、サンプル中の種々のサイズの核酸の濃度を推定するための標準物質として使用することもできる。
【0254】
[00300] 核酸サンプル及びラダーをローディング緩衝液と混合して、ゲル電気泳動(又はクロマトグラフィ)プロセスを容易にし得る。ローディング緩衝液は、核酸の移動の追跡を補助するための色素及びマーカーを含有し得る。ローディング緩衝液は、核酸サンプルがサンプルローディングウェル(ランニング緩衝液中に浸されていてもよい)の底部に沈むことを確実にするために、ランニング緩衝液(例えば、TAE又はTBE)よりも密度の高い試薬(例えば、グリセロール等)を更に含み得る。ローディング緩衝液は、SDS又は尿素等の変性剤を更に含み得る。ローディング緩衝液は、核酸の安定性を改善するための試薬を更に含み得る。例えば、ローディング緩衝液は、核酸をヌクレアーゼから保護するためのEDTAを含有し得る。
【0255】
[00301] 幾つかの実施形態では、ゲルは、核酸に結合し、異なるサイズの核酸を光学的に検出するために使用し得る染料を含み得る。染料は、dsDNA、ssDNA、又はその両方に特異的なものであってよい。異なる染料を異なるゲル物質に適合させることができる。幾つかの染料は、可視化のために光源光(又は電磁波)からの励起を必要とする。光源光は、UV(紫外線)又は青色光であり得る。幾つかの実施形態では、染料をゲルに電気泳動前に添加し得る。他の実施形態では、染料をゲルに電気泳動後に添加し得る。染料の例としては、臭化エチジウム(EtBr)、SYBR Safe、SYBR Gold、銀染色、又はメチレンブルーが挙げられる。特定のサイズのdsDNAを可視化するための信頼できる方法は、例えば、アガロースTAEゲルをSYBR Safe又はEtBr染色と一緒に使用することであり得る。特定のサイズのssDNAを可視化するための信頼できる方法は、例えば、尿素-ポリアクリルアミドTBEゲルをメチレンブルー又は銀染色と一緒に使用することであり得る。
【0256】
[00302] 幾つかの実施形態では、ゲルを通る核酸の移動を、電気泳動に加えて他の方法によって駆動することができる。例えば、重力、遠心分離、真空、又は圧力を使用して、核酸を駆動してゲルを通し、その結果、それらの核酸をサイズに応じて分解することができる。
【0257】
[00303] 刃又は剃刀を使用して特定のサイズの核酸をゲルから抽出して、核酸を含有するゲルのバンドを切り出すことができる。切り出しが特定のバンドで的確に行われること、及び、切り出しにより、異なる望ましくないサイズのバンドに属し得る核酸が首尾よく排除されることを確実にするために、適当な光学的検出技法及びDNAラダーを使用することができる。ゲルバンドを緩衝液と一緒にインキュベートしてゲルバンドを溶解させ、したがって、核酸を緩衝溶液中に放出させることができる。加熱又は物理的撹拌により、溶解のスピードを上げることができる。代替的には、ゲルバンドを、緩衝液中で、ゲル溶解を必要とせずにDNAの緩衝溶液中への拡散を可能にするために十分に長くインキュベートすることができる。次いで、緩衝液を残りの固相ゲルから、例えば、吸引又は遠心分離によって分離し得る。次いで、核酸を溶液からフェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、及び/又はシリカ膜吸着等の標準の精製又は緩衝液交換技法、洗浄、並びに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。
【0258】
[00304] ゲル切り出しの代替として、特定のサイズの核酸を、ゲルから流出させることによってゲルから分離することができる。移動している核酸は、ゲルに埋め込まれた又はゲルの最後にあるたらい(又はウェル)を通過し得る。移動プロセスについて時間を計る又は光学的にモニタリングし、したがって、特定のサイズの核酸群がたらいに入ったら、サンプルをたらいから収集することができる。収集は、例えば吸引によって行うことができる。次いで、核酸を、収集された溶液からフェノール-クロロホルム抽出、エタノール沈殿、磁気ビーズ捕捉、及び/又はシリカ膜吸着等の標準の精製又は緩衝液交換技法、洗浄、並びに溶出を使用して精製することができる。このステップで核酸を濃縮することもできる。
【0259】
[00305] 核酸サイズ選択のための他の方法としては、質量分光測定又は膜に基づく濾過を挙げることができる。膜に基づく濾過の幾つかの実施形態では、核酸を、dsDNA、ssDNA、又はその両方のいずれかに優先的に結合し得る膜(例えば、シリカ膜)を通過させる。膜は、少なくとも特定のサイズの核酸を優先的に捕捉するように設計し得る。例えば、膜は、20塩基未満、30塩基未満、40塩基未満、50塩基未満、70塩基未満、90塩基未満、又はそれよりも多くの塩基未満の核酸を濾過して取り除くように設計し得る。上記膜に基づくサイズ選択技法は、ゲル電気泳動又はクロマトグラフィほどストリンジェントでない可能性がある。
【0260】
F.核酸捕捉
[00306] 親和性タグ付き核酸は、核酸捕捉のための配列特異的なプローブとして使用し得る。プローブは、核酸のプール内の標的配列と相補的になるように設計し得る。その後、プローブを核酸プールと一緒にインキュベートし、その標的とハイブリダイズし得る。インキュベーション温度は、ハイブリダイゼーションを容易にするためにプローブの融解温度を下回るようにし得る。インキュベーション温度は、プローブの融解温度を摂氏5度下回る温度まで、10度下回る温度まで、15度下回る温度まで、20度下回る温度まで、25度下回る温度まで、又はそれよりも大きく下回るまでであり得る。ハイブリダイズした標的を、親和性タグに特異的に結合する固相担体に捕捉することができる。固相担体は、膜、ウェル、カラム、又はビーズであり得る。複数のラウンドの洗浄により、ハイブリダイズしなかった核酸を全て標的から除去することができる。洗浄は、洗浄の間の標的配列の安定な固定化を容易にするためにプローブの融解温度を下回る温度で行うことができる。洗浄温度は、プローブの融解温度を摂氏5度下回る温度まで、10度下回る温度まで、15度下回る温度まで、20度下回る温度まで、25度下回る温度まで、又はそれよりも大きく下回る温度までであり得る。最終的な溶出ステップにより、核酸標的を固相担体から、並びに親和性タグ付きプローブから回収することができる。溶出ステップは、核酸標的の溶出緩衝液中への放出を容易にするためにプローブの融解温度を上回る温度で行い得る。溶出温度は、プローブの融解温度を摂氏5度上回る温度まで、10度上回る温度まで、15度上回る温度まで、20度上回る温度まで、25度上回る温度まで、又はそれよりも大きく上回る温度までであり得る。
【0261】
[00307] 特定の実施形態では、固相担体に結合したオリゴヌクレオチドは、例えば、酸、塩基、酸化、還元、熱、光、金属イオン触媒、変位、又は脱離化学反応等の条件への暴露により又は酵素切断により、固相担体から除去することができる。特定の実施形態では、オリゴヌクレオチドは、切断可能なリンケージ部分を通して固体担体に取り付けることができる。例えば、固体担体は、標的化されたオリゴヌクレオチドに共有結合するための切断可能なリンカーを提供するように官能化することができる。幾つかの実施形態では、リンカー部分は原子6個以上分の長さであり得る。幾つかの実施形態では、切断可能なリンカーはTOPS(1合成当たり2個のオリゴヌクレオチド)リンカー、アミノリンカー、又は光切断可能なリンカーであり得る。
【0262】
[00308] 幾つかの実施形態では、固相担体上のストレプトアビジンによって固定化される親和性タグとしてビオチンを使用し得る。ビオチン化オリゴは、核酸捕捉プローブとして使用するために設計し、製造し得る。オリゴの5’末端又は3’末端がビオチン化され得る。オリゴの内部のチミン残基をビオチン化し得る。オリゴ上のビオチンを増加させることにより、ストレプトアビジン担体でのより強力な捕捉をもたらし得る。オリゴの3’末端のビオチンにより、PCRの間にオリゴが伸長するのを遮断し得る。ビオチンタグは、標準のビオチンのバリアントであってよい。例えば、ビオチンバリアントは、ビオチン-TEG(トリエチレングリコール)、二重ビオチン、PCビオチン、デスチオビオチン-TEG、及びアジ化ビオチンであり得る。二重ビオチンにより、ビオチン-ストレプトアビジン親和性を増大させ得る。ビオチン-TEGは、TEGリンカーで分離された核酸上のビオチン基に付着する。これにより、ビオチンが核酸プローブの機能、例えば、その標的とのハイブリダイゼーションに干渉するのを防止することができる。核酸ビオチンリンカーをプローブに付着させることもできる。核酸リンカーは、標的とハイブリダイズすることが意図されていない核酸配列を含み得る。
【0263】
[00309] ビオチン化核酸プローブは、その標的にいかによくハイブリダイズすることができるかを考慮して設計し得る。融解温度を高く設計された核酸プローブは、それらの標的により強力にハイブリダイズし得る。より長い核酸プローブ、並びにGC含量がより高いプローブは、融解温度が上昇するので、より強力にハイブリダイズし得る。核酸プローブは、少なくとも5塩基、10塩基、15塩基、20塩基、30塩基、40塩基、50塩基、又は100塩基、又はそれよりも多くの塩基の長さを有し得る。核酸プローブは、0%から100%の間のいずれかのGC含量を有し得る。プローブの融解温度がストレプトアビジン担体の温度許容度を超えないことを確実にするために注意を払い得る。核酸プローブは、オフターゲットの核酸を有するヘアピン、ホモ二量体、及びヘテロ二量体等の阻害性二次構造が回避されるように設計し得る。プローブ融解温度とオフターゲットの結合の長さ間にトレードオフが存在し得る。融解温度が高く、オフターゲットの結合が低い最適なプローブの及びGC含量が存在し得る。合成核酸ライブラリは、その核酸が効率的なプローブ結合性部位を含むように設計し得る。
【0264】
[00310] 固相ストレプトアビジン基質は、磁気ビーズであり得る。磁気ビーズは、磁気ストリップ又はプレートを使用して固定化され得る。磁気ストリップ又はプレートを容器と接触させて、磁気ビーズを容器に固定化する。逆に、磁気ストリップ又はプレートを容器から取り出して、磁気ビーズを容器壁から溶液中に放出させ得る。異なるビーズの性質がそれらの適用に影響を及ぼし得る。ビーズは種々のサイズを有し得る。例えば、ビーズは、直径1マイクロメートル(μm)~3マイクロメートル(μm)のいずれかであり得る。ビーズは、最大で1マイクロメートル、2マイクロメートル、3マイクロメートル、4マイクロメートル、5マイクロメートル、10マイクロメートル、15マイクロメートル、20マイクロメートル又はそれを超える直径を有し得る。ビーズ表面は、疎水性又は親水性であり得る。ビーズは、遮断性タンパク質、例えばBSAでコーティングされ得る。使用前に、ビーズが核酸に非特異的に結合することを防止するために、ビーズを洗浄するか又は遮断性溶液等の添加剤で前処理し得る。
【0265】
[00311] ビオチン化プローブは、磁性ストレプトアビジンビーズと結合され、それから、核酸サンプルプールと一緒にインキュベートされ得る。このプロセスは、直接捕捉と呼ぶことができる。代替的に、ビオチン化プローブを核酸サンプルプールと一緒にインキュベートし、それから、磁性ストレプトアビジンビーズを添加し得る。このプロセスは、間接的な捕捉と呼ぶことができる。間接的な捕捉方法により、標的の収率を改善し得る。核酸プローブが短いほど、磁気ビーズに結合するために必要な時間量を少なくし得る。
【0266】
[00312] 核酸プローブと核酸サンプルの最適なインキュベーションは、プローブの融解温度を摂氏1~10度又はそれよりも大きく下回る温度で行われ得る。インキュベーション温度は、最大で摂氏5度、10度、20度、30度、40度、50度、60度、70度、80度、又はそれよりも高い温度であり得る。推奨されるインキュベーション時間は1時間であり得る。インキュベーション時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、90分間、120分間、又はそれよりも長い時間であり得る。インキュベーション時間が長いほど良好な捕捉効率を導くことができる。ビオチン-ストレプトアビジン結合を可能にするために、ストレプトアビジンビーズの添加後に更に10分間のインキュベーションを行い得る。この追加的な時間は、最大で1分間、5分間、10分間、20分間、30分間、60分間、90分間、120分間、又はそれよりも長い時間であり得る。インキュベーションは、ナトリウムイオン等の添加剤を伴う緩衝化溶液中で行い得る。
【0267】
[00313] 核酸プールが1本鎖核酸である場合(2本鎖とは対照的に)、プローブとその標的のハイブリダイゼーションを改善することができる。ssDNAプールをdsDNAプールから調製することには、一般にプール中の全ての核酸配列の縁に結合する1つのプライマーを用いて線形PCRを実施することが必要になり得る。核酸プールが合成により作成又はアセンブルされたものである場合、この共通のプライマー結合性部位を合成設計に含めることができる。線形PCRの産物はssDNAになる。核酸捕捉のためのより多くの出発ssDNA鋳型をより多くの線形PCRのサイクルで生成することができる。PCRに関しては化学的方法セクションDを参照のこと。
【0268】
[00314] 核酸プローブが標的とハイブリダイズし、磁性ストレプトアビジンビーズと結合した後、ビーズを磁石によって固定化し、幾つかのラウンドの洗浄を行い得る。非標的核酸を除去するためには3~5回の洗浄で十分であり得るが、それよりも多い又は少ないラウンドの洗浄を使用し得る。増やした洗浄各々により、標的化されていない核酸を更に減少し得るが、標的核酸の収量も低下し得る。洗浄ステップの間の標的核酸とプローブの適当なハイブリダイゼーションを容易にするために、低インキュベーション温度を使用することができる。摂氏60度、50度、40度、30度、20度、10度、又は5度又はそれよりも低いという低さの温度を使用し得る。洗浄緩衝液は、ナトリウムイオンを伴うトリス緩衝化溶液を含み得る。
【0269】
[00315] ハイブリダイズした標的の磁気ビーズ-結合したプローブからの最適な溶出は、プローブの融解温度と等しい又はそれよりも高い温度で行われ得る。温度が高いほど、標的のプローブからの解離が容易になる。溶出温度は、最大で摂氏30度、40度、50度、60度、70度、80度、又は90度、又はそれよりも高い温度であり得る。溶出インキュベーション時間は、最大で1分間、2分間、5分間、10分間、30分間、60分間又はそれよりも長い時間であり得る。典型的なインキュベーション時間はおよそ5分間であり得るが、より長いインキュベーション時間により、収量を改善することができる。溶出緩衝液は、EDTA等の添加剤を伴う水又はトリス緩衝化溶液であってよい。
【0270】
[00316] 区別可能な部位のセットの少なくとも1つ又は複数を含有する標的配列の核酸捕捉は、それらの部位の各々に対して複数の別個のプローブを用いて1つの反応で実行し得る。区別可能な部位のセットのあらゆるメンバを含む標的配列の核酸捕捉は、その特定の部位に対するプローブを使用して別個の各部位に対して1つの反応である一連の捕捉反応で実行し得る。一連の捕捉反応後の標的の収率は、低い可能性があるが、その後、捕捉された標的をPCRで増幅し得る。核酸ライブラリが合成により設計されたものである場合、標的は、PCRのために共通のプライマー結合部位を有するように設計し得る。
【0271】
[00317] 一般的な核酸捕捉のために共通のプローブ結合性部位を有する合成核酸ライブラリを作成又はアセンブルし得る。これらの共通部位は、完全にアセンブルされた又は潜在的に完全にアセンブルされた核酸をアセンブリ反応から選択的に捕捉し、それにより、部分的にアセンブルされた又はミスアセンブルされた(又は意図されたものではない若しくは望ましくない)副産物を濾過して取り除くために使用し得る。例えば、アセンブリは、各縁配列にプローブ結合性部位を有する核酸を、完全にアセンブルされた核酸産物のみが、各プローブを使用して一連の2つの捕捉反応を通るのに必要な必須の2つのプローブ結合性部位を含有するようにアセンブルすることを含み得る。上記例では、部分的にアセンブルされた産物は、プローブ部位のいずれも含まないか又は一方のみを含み得、したがって、最終的に捕捉されないはずである。同様に、ミスアセンブルされた(又は意図されたものではない若しくは望ましくない)産物は、縁配列のいずれも含有しない又はその一方のみを含有する可能性がある。したがって、上記ミスアセンブルされた産物は、最終的に捕捉されない可能性がある。ストリンジェンシーを増大させるために、アセンブリの各成分に共通のプローブ結合性部位を含め得る。各成分に対してプローブを使用したその後の一連の核酸捕捉反応により、完全にアセンブルされた産物(各成分を含有する)のみをアセンブリ反応のあらゆる副産物から分離し得る。続くPCRにより、標的富化を改善することができ、その後のサイズ選択により、標的ストリンジェンシーを改善し得る。
【0272】
[00318] 幾つかの実施形態では、核酸捕捉を使用して、標的化された核酸のサブセットをプールから選択的に捕捉することができる。例えば、上記標的化された核酸のサブセットにおいてのみ存在する結合性部位を有するプローブを使用することによる。合成核酸ライブラリは、サブライブラリをより一般的なライブラリから選択的に捕捉するために、目的の潜在的なサブライブラリに属する核酸の全てが共通のプローブ結合性部位を共有する(サブライブラリ中では共通であるが、他のサブライブラリとは区別可能な)ように作成又はアセンブルし得る。
【0273】
G.凍結乾燥
[00319] 凍結乾燥は脱水プロセスである。核酸及び酵素の両方は凍結乾燥し得る。凍結乾燥された物質はより長い寿命を有し得る。凍結乾燥プロセスを通して機能的産物(例えば、活性酵素)を維持するために、化学的安定剤等の添加剤を使用し得る。スクロース及びトレハロース等の二糖を化学的安定剤として使用し得る。
【0274】
H.DNA設計
[00320] 合成ライブラリ(例えば識別子ライブラリ)を構築するための核酸の配列(例えば成分)は、合成、シーケンシング、及びアセンブリの複雑化が回避されるように設計し得る。さらに、配列は、合成ライブラリの構築費用が低減するように、且つ合成ライブラリを格納することができる寿命が改善されるように設計し得る。
【0275】
[00321] 核酸は、合成するのが難しい場合がある長いホモポリマーの列(又は繰り返された塩基配列)が回避されるように設計し得る。核酸は、2を超える、3を超える、4を超える、5を超える、6を超える、7を超える、又はそれよりも長いホモポリマーの長さが回避されるように設計し得る。さらに、核酸は、それらの合成プロセスを阻害する可能性があるヘアピンループ等の二次構造の形成が回避されるように設計し得る。例えば、予測ソフトウェアを使用して、安定な二次構造を形成しない核酸配列を生成し得る。合成ライブラリを構築するための核酸は、短く設計し得る。核酸が長いほど合成が難しく、費用がかかる可能性がある。核酸が長いほど、合成の間の変異の機会も増大する。核酸(例えば成分)は、最大で5塩基、10塩基、15塩基、20塩基、25塩基、30塩基、40塩基、50塩基、60塩基又はそれよりも多くの塩基であり得る。
【0276】
[00322] アセンブリ反応の成分になる核酸は、そのアセンブリ反応が容易になるように設計し得る。それぞれOEPCR及びライゲーションに基づくアセンブリ反応のための核酸配列の考慮事項に関する詳細情報については化学的方法セクションA及びBを参照のこと。効率的なアセンブリ反応には、一般には、隣接成分間のハイブリダイゼーションが伴う。配列は、これらのオンターゲットのハイブリダイゼーション事象が促進されると同時に潜在的なオフターゲットのハイブリダイゼーションが回避されるように設計し得る。ロックド核酸(LNA)等の核酸塩基修飾を使用して、オンターゲットのハイブリダイゼーションを強化し得る。これらの修飾核酸は、例えば、ステープル鎖ライゲーションにおけるステープルとして又は付着鎖ライゲーションにおける粘着末端として使用し得る。合成核酸ライブラリ(又は識別子ライブラリ)を構築するために使用し得る他の修飾塩基としては、2,6-ジアミノプリン、5-ブロモdU、デオキシウリジン、反転dT、反転ジデオキシ-T、ジデオキシ-C、5-メチルdC、デオキシイノシン、Super T、Super G、又は5-ニトロインドールが挙げられる。核酸は、1つ又は複数の同じ又は異なる修飾塩基を含有し得る。上記修飾塩基の幾つかは、より高い融解温度を有し、したがって、アセンブリ反応において特異的なハイブリダイゼーション事象を容易にするために有用であり得る天然の塩基類似体(例えば、5-メチルdC及び2,6-ジアミノプリン)である。上記修飾塩基の幾つかは、全ての天然の塩基に結合することができ、したがって、望ましい結合性部位内に可変配列を有し得る核酸とのハイブリダイゼーションを容易にするために有用であり得るユニバーサル塩基(例えば、5-ニトロインドール)である。アセンブリ反応におけるそれらの有益な役割に加えて、これらの修飾塩基は、プライマー及びプローブの核酸のプール内のそれらの標的核酸との特異的な結合を容易にするので、プライマー(例えば、PCR用)及びプローブ(例えば、核酸捕捉用)に有用であり得る。それぞれ核酸増幅(又はPCR)及び核酸捕捉についての更なる核酸設計考慮事項に関しては化学的方法セクションD及びFを参照のこと。
【0277】
[00323] 核酸は、シーケンシングが容易になるように設計し得る。例えば、核酸は、二次構造、一続きのホモポリマー、反復配列、及びGC含量が高すぎる又は低すぎる配列等の典型的なシーケンシング複雑化が回避されるように設計し得る。特定のシーケンサ又はシーケンシング方法は、エラープローンであり得る。合成ライブラリ(例えば、識別子ライブラリ)を構成する核酸配列(又は成分)は、互いからの特定のハミング距離で設計することができる。このように、シーケンシングにおいて塩基分解能エラーが高い率で生じる場合であっても、エラーを含有する配列の一続きをなおそれらの最も可能性がある核酸(又は成分)にマッピングし戻すことができる。核酸配列は、少なくとも1塩基、2塩基、3塩基、4塩基、5塩基、6塩基、7塩基、8塩基、9塩基、10塩基、11塩基、12塩基、13塩基、14塩基、15塩基、又はそれよりも多くの塩基の変異というハミング距離で設計し得る。ハミング距離の代替距離測定基準を使用して、設計される核酸間の最小の必要距離を規定することもできる。
【0278】
[00324] 幾つかのシーケンシング方法及び機器では、アダプター配列又はプライマー結合性部位等の特定の配列を含有させるために入力核酸が必要になる。これらの配列は、「方法特異的配列」と称し得る。上記シーケンシング機器及び方法の典型的な予備的ワークフローには、方法特異的配列を核酸ライブラリにアセンブルすることが伴う。しかしながら、合成核酸ライブラリ(例えば、識別子ライブラリ)が特定の機器又は方法でシーケンシングされることが前もって分かっている場合には、これらの方法特異的配列は、ライブラリ(例えば、識別子ライブラリ)を含む核酸(例えば、成分)中に設計し得る。例えば、合成核酸ライブラリのメンバ自体が個々の核酸成分からアセンブルされるのと同じ反応ステップで、合成核酸ライブラリのメンバ上にシーケンシングアダプターをアセンブルし得る。
【0279】
[00325] 核酸は、DNA損傷を容易にし得る配列が回避されるように設計し得る。例えば、部位特異的ヌクレアーゼに対する部位を含有する配列を回避し得る。別の例として、UVB(紫外線-B)光により、隣接するチミンがピリミジン二量体を形成し、次いでそれによりシーケンシング及びPCRが阻害されることが引き起こされ得る。したがって、合成核酸ライブラリがUVBに暴露される環境で格納されることが意図されている場合、その核酸配列を隣接するチミン(即ち、TT)が回避されるように設計することが有益であり得る。
【0280】
[00326] 化学的方法セクションに含まれる情報は全て、上述の技術、方法、プロトコル、システム、及びプロセスをサポートし、可能にすることを意図する。
【0281】
アジド-アルキン修飾を用いて成分から識別子をアセンブルする方法
[00327] 化学的及び/又は生物学的ライゲーション方法を使用して2つ以上の核酸成分を一緒にライゲーションし、識別子を作成し得る。幾つかの実施形態では、「クリックケミストリ」等の化学的ライゲーション方法対酵素ライゲーション等の生物学的方法に伴う利点が存在し得る。
【0282】
[00328] クリックケミストリ又は銅触媒アジド-アルキン付加環化(CuAAC)は、ヒュスゲン1,3-双極子付加環化反応の変形形態である。反応において、アルキン基及びアジド基は、反応してトリアゾールホスホジエステル模倣体を形成する。現行の方法は、Cu(I)イオンを使用してこの反応の特異性、速度及び収率を増加させる。反応は、一部のアルキンで速くなり得、およそ1分の反応完了時間が報告されている。反応時間は、30秒、60秒、90秒、120秒、150秒、180秒又はそれより長い時間であり得る。反応は、ロバストでもあり得、広いpH範囲に対して耐性を示す。
【0283】
[00329] クリックケミストリを使用する化学的ライゲーションは、鋳型(又はステープル若しくはスプリント)オリゴヌクレオチドを用いて2つの1本鎖核酸成分間で起こり得る。代替的に、化学的ライゲーションは、共通する相補的突出(又は粘着末端)が存在する場合、2本鎖核酸成分間でも起こり得る。クリックケミストリによる化学的ライゲーションを使用して、上述した積方式(図15)、順列方式(図20)、MchooseK方式(図21)、区画方式(図22)又は無制約列方式(図23)に従って識別子を構築し得る。
【0284】
[00330] クリックケミストリを使用した成分のライゲーションでは、ある成分が少なくとも1つのアルキン基を有し、別の成分が少なくとも1つのアジド基を有する必要がある。ある成分の3’末端が別の成分の5’末端にライゲーションするように隣接する成分上に相補的修飾が位置する限り、いずれの修飾も一方の核酸成分の5’末端または3’末端に配置することができる。
【0285】
[00331] 幾つかの異なるタイプのアルキン-アジド結合がクリックケミストリで使用され得る。PCR等の分子生物学的方法に適合するアルキン-アジド結合は、識別子の生成に特に適し得る。識別子の特定のプールが1つ又は複数のアルキン-アジド結合を含む場合、識別子は、PCRを使用して、それらの自然形態(塩基間にホスホジエステル結合を有する)にコピーされ得る。
【0286】
多要素成分から識別子を組み立てる方法
[00332] 識別子を含む成分は、異なる機能を有する2つ以上の部分に分割され得る。例えば、各成分は、2つの部分を有し得る:データアクセスのために核酸プローブにハイブリダイズすることが意図される1つの長い部分及びシーケンシングの読み取りが意図される別の短い部分。2つの部分は、分離され得、最終的な識別子産物が2つの機能的に異なる領域を有するように、各縁部で識別子に組み付けられることが意図される。片側の1つの領域は、化学的アクセスのためのものであり、逆側の1つの領域は、シーケンシングのためのものである。
【0287】
[00333] 図31は、各層からの成分が積方式に従って一緒になる、識別子の粘着末端ライゲーションアセンブリでのこの概念の一例の概略図を与える。第1の層は、連結した2部成分により識別子アセンブリプロセスの核となり、後続層は、両縁部から識別子に組み付けられる分離した2部成分を含む。粘着末端の上の記号は、それらの配列を表す。異なる記号を有する粘着末端は、直交する。記号の隣の星印は、逆相補鎖を表す。例えば、「a」及び「a」は、互いの逆相補鎖であり、したがってライゲーション中にハイブリダイズして産物を形成することになる。
【0288】
塩基エディタを用いて識別子を構築する方法
[00334] 塩基エディタを使用して、親識別子内の特定の座に位置する塩基をプログラム可能に変異させ、新しい識別子を構築し得る。一実施形態では、塩基エディタは、シトシン(C)をウラシル(U)に変換するシチジンデアミナーゼに融合したdCas9タンパク質であり得る。親識別子は、ガイドRNA(gRNA)が結合する幾つかの直交標的を有するように設計され得る。標的座は、その座で結合したdCas9-デアミナーゼの活性範囲内に1つ又は複数のシトシンを含有し得る。活性範囲は、座内の1塩基、2塩基、3塩基、4塩基、5塩基、6塩基又はそれより多くの塩基であり得る。続けて、親識別子をdCas9-デアミナーゼ及び特定の座に関するgRNAのサブセットと共にインキュベートすると、それらの標的座の各々で1つ又は複数のシトシンからウラシルへの変異が生じ得る。さらに、DNAポリメラーゼは、ウラシルをチミンとして認識し、したがって変異した識別子に対してPCRを実行することにより、相補的変異(グアニンからアデニンへ)が同様に生じ得る。N個の直交標的座を有する親識別子は、dCas9-デアミナーゼ及びN個のgRNA(各々が親における別個の座を標的とする)の異なるサブセットを適用することにより、2個の別個の娘識別子配列にプログラム可能に変換され得る。したがって、この方式で構築される可能な識別子の組合せ空間は、N個のgRNA入力に対してNビットの情報を格納し得る。
【0289】
[00335] 幾つかの実施形態では、親配列の任意の所与の標的座は、変異効率の増大を促進するために上鎖及び下鎖の両方に標的化シトシンを含有し得る。その上、効率的なgRNA標的化を生じさせるために、各座は、PAM部位に隣接しなければならない。しかしながら、PAM配列は、工学的に操作された異なるCas9バリアントの使用に応じて様々であり得る。
【0290】
[00336] dCas9-デアミナーゼ融合体は、2つの融合タンパク質間にリンカー配列を含み得る。最適なリンカー長は、効率的な標的化変異でアミノ酸16個分の長さであり得る。リンカー長は、少なくともアミノ酸0個、1個、5個、10個、15個、20個、25個又はそれより多くのアミノ酸個数分の長さであり得る。複数のシチジンデアミナーゼの1つを使用し得る。シチジンデアミナーゼの例には、APOBEC1、AID、CDA1又はAPOBEC3Gがある。dCas9の代わりに活性なCas9ニッカーゼを使用し得るが、その場合、識別子構築反応にDNA修復酵素を含むことが同様に必要であり得る。
【0291】
[00337] 塩基エディタを用いて識別子を構築する別の実施形態では、dCas9に融合したアデニンデアミナーゼ(dCas9に融合したシチジンデアミナーゼとは対照的に又はそれに加えて)を使用して、gRNAによりアクセス可能な親識別子の被定義座でアデニンをイノシンに変異させ得る。イノシンは、DNAポリメラーゼによりグアニンとして解釈される。したがって、塩基編集座のPCRにより、逆鎖上で相補的なチミンからシトシンへの変異が生じ得る。
【0292】
DNAに格納した情報を削除する方法
[00338] 核酸を使用して格納したデータを確実に削除(又は消去)できることは、セキュリティ、プライバシー及び規制上の理由から有益であり得る。データの消去は、核酸内の共有結合の切断、シーケンシングされる能力を破壊するような核酸の非可逆的修飾、それらを非可逆的に封入若しくは吸着させること又はより多くの核酸若しくは他の材料を付加して、核酸の元の集合を読み取り不能若しくは読み取り不可にすることを伴い得る。これらの方法は、選択的に実行され得るか又は非選択的に実行され得る。選択プロセスは、削除プロセスと別であり得る。例えば、識別子ライブラリから開始して、配列特異的プローブを使用して、削除する識別子のサブセットをプルダウンし得る。別の例として、サイズ又は質量対電荷比による選択した識別子の精製を他の選択的又は非選択的削除方法と併せて行い得る。
【0293】
[00339] ライブラリから核酸を削除する選択的方法は、削除する核酸のサブセットをプルダウンするための配列特異的プローブの使用、1つ又は複数の標的配列を含有する選択した核酸を切断するためのCRISPRに基づく方法の使用及びサイズ又は質量対電荷比により核酸を選択するための精製技術の使用を含む。
【0294】
[00340] ライブラリからの情報符号化核酸を削除するための非選択的方法は、超音波処理、オートクレーブ処理、漂白、塩基、酸、臭化エチジウム又は他のDNA修飾剤を用いた処理、照射(例えば、紫外光を用いた)、燃焼及びDNアーゼI等の非特異的ヌクレアーゼ消化(インビトロ又はインビボ)を含む。他の方法を使用して、核酸をアクセス又はシーケンシングから不明瞭化するか、隠すか又は物理的に保護し得る。方法は、封入、希釈、元の核酸を不明瞭化するためのランダム核酸の付加及び核酸の下流のシーケンシングを防止する他の作用剤の付加を含み得る。一実施形態では、核酸に格納されたデータは、エラープローンポリメラーゼ、例えば校正機能が欠如したポリメラーゼによる増幅を用いて不明瞭化され得る。
【0295】
[00341] 値の定義された期間と共に核酸に格納されたデータの場合、指定された時点でデータを自動的に削除する方法を使用することが有益であり得る。例えば、データは、必須の法定期間後に削除されるようにスケジュールされ得る。別の例として、データは、転送中であり、時間通りにその宛先に到達しない場合、削除されるようにスケジュールされ得る。一実施形態では、スケジュールされた核酸の削除は、定義された速度又は指定された時点で直ちに作用する分解剤の使用を伴い得る。別の実施形態では、スケジュールされた核酸の削除は、経時的に分解する核酸カプセル又は保護ケーシングの使用を伴い得る。別の実施形態では、核酸は、異なる分解速度を促進するために異なる温度又は異なる環境で保持され得る。例えば、分解速度を速めるために、高温又は高湿度におけるものである。別の実施形態では、核酸は、より急速な分解のためにより不安定な形態に変換され得る。例えば、DNAをより不安定なRNAに変換し得る。
【0296】
[00342] 核酸削除の確認は、シーケンシング、PCR、又は定量的PCRを用いて達成され得る。
【0297】
効率的なランダムアクセスに向けて識別子を設計し、ランク付けする方法
[00343] 本明細書に記載のシステム及び方法は、符号化され、格納された情報から任意の分布のビットを効率的にランダムアクセス検索できるようにする。データが、ライブラリ中の識別子の標的化されたサブセットを増幅するためにエッジ層(又は末端配列)に使用される成分特異的プライマーと共に格納されている場合、符号化された情報のある割合を効率的に検索し得る。効率的なアクセスは、格納されたデータから情報の選択された部分を検索するために必要なPCRステップ数の減少を含み得る。例えば、本明細書に記載の方法を使用して格納されたデータのセットにおいて、L/2未満の逐次的なPCRステップで識別子にアクセスし得、ここで、Lは、識別子を含む層の数である。識別子のアーキテクチャ及び識別子ランク付けシステムは、識別子プールのランダムアクセス性質に影響を及ぼす。識別子のランクは、それが表すビットの位置に対応する。識別子ランクは、各層に現れ得る可能な各成分の順序から辞書学的に決定され得、戦略的に定義され得る。例えば、識別子の縁部にある層には、識別子の中央にある層よりも高い優先順位を割り当てることができ、したがってランダムアクセス(例えば、識別子のエッジ層に結合するPCRプライマーを用いる)により、連続する又は関連する一続きの符号化されたビットに対応する連続ランクを有する識別子が返される。「優先順位」が高いことは、アクセスの深さが深いことと類似している-例えば、優先順位が高い要素は、優先順位が低い要素よりもアクセスが容易である。
【0298】
[00344] 識別子のアーキテクチャ及び識別子ランク付けシステムは、識別子プールからの特定の識別子のサブセットにランダムアクセスできるようにする。幾つかの実施態様では、識別子プール内の各識別子核酸配列は、記号列内での記号値及び記号位置に対応する。さらに、プール内の識別子核酸配列の有無は、記号列内の対応する各記号位置の記号値を表し得る。
【0299】
[00345] 特定の実施態様では、連続記号位置を有する記号は、類似のデジタル情報を符号化する。本明細書で使用される場合、類似のデジタル情報は、同じ構造のデータ(即ち画像データ又は2進コード列)を含み得る。類似のデジタル情報は、情報内に含有されるデータを指すこともできる。例えば、特定の強度の赤色を用いて符号化された全ての画像データの位置は、連続記号位置に一緒にグループ化され得る。代替的に、連続記号位置を有する記号は、類似のデジタル情報を符号化しなくてもよい。例えば、連続記号位置は、x座標、y座標又は強度値若しくは強度値範囲等のデータ(即ち画像データ)内の種々の特徴に対応し得る。図32は、3層A、B及びCの積方式により生成される識別子の一例を示し、各層は、2つの成分1及び2を有する。3層A、B及びCの各々からの成分は、その順序で組み立てられる。各識別子のランクは、各層に特定の順序を割り当て、次いで各層内の各成分に特定の順序を割り当て、次いで識別子に順序を辞書学的に割り当てることにより決定され得る。図32Aは、層の辞書式順序を物理的識別子で順序付けられたものと同様に定義することから得られたランクを示す。そのような識別子プールに、識別子の縁部(例えば、成分A1及び成分C1)に結合するプライマーを使用したPCR反応を用いて問い合わせた場合、アクセスされた識別子は、非連続ランクを有し、1つのPCR反応で連続するビット列にランダムにアクセスすることが不可能になる。本明細書に記載の特定の実施態様では、識別子の縁部(例えば、成分A1及び成分C1)は、「末端配列」又は「末端分子」と称される。しかしながら、連続する一続き内のビットは、関連する情報を符号化することが多いため、多くの場合、連続する一続きのビット(連続してランク付けされた識別子によって表される)にランダムにアクセスすることが理想的である。プローブを使用して連続する一続きのビット内の各ビットにアクセスして、複数の識別子核酸配列内の各識別子核酸配列の標的末端配列にハイブリダイズさせて、連続記号位置を有する各記号に対応する識別子核酸配列を選択し得る。図32Bは、識別子の縁部(又は末端配列)に結合するプライマーを使用した1つのPCR反応で連続する一続きのビットを問い合わせることを可能にするために、層A、B、及びCの辞書式順序をいかに変え得るかを示す。この戦略は、層の物理的順序付けと同じ層の辞書式順序付けを使用するものではない。代わりに、この戦略は、識別子の縁部(又は末端配列)にある層に優先順位がより高い辞書式順序を割り当て、識別子の中央にある層に優先順位がより低い順序を割り当てるものである。
【0300】
[00346] 組合せ空間の基礎をなす区画方式における成分の分布は、PCR反応でアクセスし得る記号数に影響を及ぼし得る。図23は、3つの層A、B、及びCの積方式により生成される識別子の一例を示し、成分は、層にわたって不均一に分布している。具体的には、2つの層は、2つの成分1及び2を有し、1つの層は、3つの成分1、2、及び3を有する。上述の識別子ランク付け原理によれば、物理的順序付けがA、B、次いでCであるにもかかわらず、層の辞書式順序は、A、C、次いでBである。これは、識別子のエッジ層(又は末端配列)に結合するPCRプライマーを用いたランダムアクセスが、連続するランク(連続する一続きのビットに対応する)を有する識別子を返すようなものである。具体的には、特定の識別子核酸配列の第1の及び第2の末端配列は、連続する一続きのビットに対応する複数の識別子核酸配列間で共有される。図33Aは、識別子の中央層により多くの成分が位置する場合、PCRクエリ(各々が縁部成分(又は末端配列)に結合するプライマーを用いる)によりアクセスされる識別子のプールがより大きくなり得ることを示す。それに対応して、一度にアクセスすることができるビット数が大きくなり得る。図33Bは、識別子のエッジ層(又は末端配列)により多くの成分が位置する場合、同等なPCRクエリによりアクセスされる識別子のプールがより小さくなり得ることを示す。それに対応して、より高分解能でビットにアクセスすることができる。
【0301】
[00347] 識別子を構築するための積方式における層の数も、PCRクエリ毎にアクセスすることができる記号数に影響を及ぼし得る。図34は、5つの層A、B、C、D及びEの積方式により生成される識別子の一例を示し、各層は、2つの成分1及び2を有する。上記識別子ランク付け原理を進めると、層の辞書式順序は、最高の優先順位を最外層(A及びE)に割り当て、次に高い優先順位を外側から2番目の層(B及びD)に割り当て、最低の優先順位を中央層(層C)に割り当てる。本明細書で使用される場合、優先順位は、データアクセスの深さ(又はレベル)を指し、優先順位が高いことは、深さが浅いことに対応し、優先順位が低いことは、深さが深いことに対応する。例えば、大量の本からの1冊の本(即ち層A及びE)へのアクセスは、最高優先順位とみなされ、その本内の1章へのアクセスは、次に高い優先順位(即ち層B及びD)とみなされ、その本のその章内の1段落へのアクセスは、最低の優先順位(即ち層C)とみなされる。より多くの層がある場合、層の辞書式順序付けは、このように続き、その結果、より少ないPCRクエリを使用して連続する又は関連する一続きのビットを検索することができる。最外層中の成分(A1及びE1)に関連する全ての識別子は、1つのPCR反応で問い合わせ得る。次いで、外側から2番目の層中の成分(B1及びD1)に結合するプライマーを使用した追加のPCR反応を用いて、更に高い分解能(即ちより低い優先順位又はより深い)のクエリを実行し得る。識別子のアーキテクチャにより多くの層がある場合、逐次的なPCR反応は、このように続き、一層分解能が高いクエリを達成し得る。しかしながら、2つの逐次的なPCR反応を使用して、4つの成分A1、B1、D1、及びE1に関連する全ての識別子を問い合わせることの代替としてのものである。A1-B1を一緒に及びE1-D1を一緒に結合するが、成分自体ではいずれにも結合せず、したがって、その結果として、PCRクエリが、A1及びE1後にB1及びD1が逐次的にPCRクエリされる場合と同じ識別子にアクセスするように、PCRプライマーを設計することが可能である(特に成分が十分に短い配列を有するように設計されている場合)。
【0302】
DNA及び複数のビンを用いて情報を符号化する方法
[00348] 情報は、「マルチビン方式」を使用してDNA識別子を用いて符号化され得る。そのような方式の一実施態様では、b個のビンが存在し、各ビンは、識別子の分離したセットを保持する。各ビンは、一意の[logb]ビット記号を用いてラベルされ、これは、本明細書ではラベル又はビンラベルと呼ばれ得る。lビットのビットストリームは、l/logb「ワード」に分割され、各ワードは、長さ[logb]ビットを有する。任意のワードwがビンラベルであり得る。
【0303】
[00349] 具体的には、マルチビン方式は、「マルチビン位置符号化方式」であり得る。このマルチビン方式では、ビットストリーム中の各ワードwの位置を表すために一意の識別子を構築し、ラベルwを有する一意のビンに入れる。このマルチビン実施態様では、lビットの情報を符号化するために、l/logbの識別子を作成し、厳密に1つのビンに存在する厳密に1つの識別子により各ビットを符号化する。これを「マルチビン位置符号化方式」と称する。
【0304】
[00350] 上記マルチビン位置符号化方式は、以下の例により説明することができる。35個のビンを考え、各ビンに、句読を含む英語アルファベットの別個の記号をラベルする。英語テキストの段落の符号化は、以下のように達成される。各記号xについて、段落内のxの全ての出現が識別される。テキスト中の各文字に昇順で番号付けすることにより、それらの整数アドレスを取得する。幾つかの特定の記号xのアドレスに対応する全ての識別子が作成され、xでラベルされた単一のビンに集める。したがって、テキスト中のxが出現する全ての位置は、xでラベルされたビン中の識別子によって表される。
【0305】
[00351] 図35は、マルチビン位置符号化方式の一例を示し、記号ストリーム中の各記号型の位置は、その記号型に確保されたビンに記録される。この図は、「A BEACH CAFE」という句の一例が1とラベルされることを示す。この例では、9つの記号型「A」、「B」、「C」、「D」、「E」、「F」、「G」、「H」及び「_」(スペースを表す)で構成される9文字のアルファベットを仮定する。このアルファベット中の各記号は、各記号に対応する別個のビンを割り当てられ、その記号で名付けられる。例えば、空のビン「D」は、ラベル7により示される。例えば、ビン「F」のラベルは、ラベル6により示される。符号化される句をアルファベットから記号に分け、ラベル3により示されるように、識別子ライブラリに1対1の対応でマッピングする。記号が出現する都度、対応する識別子のその記号に確保されたビンへの追加がトリガーされる。例えば、符号化される句(「A BEACH CAFE」強調付加)中に記号「A」が3回出現するため、ビンAは、3つの識別子(ラベル4)を有する。さらに、ビン「A」中の3つの識別子は、その記号が出現する位置を指し示す。マッピングされる句(「A BEACH CAFE」)には文字「D」及び「G」が出現しないため、ビン「D」及び「G」は、空である。
【0306】
[00352] マルチビン方式の別の実施態様では、lビットのビットストリームは、1、2、...、bとラベルされたbビンへの識別子の分布に暗黙的に符号化される。この方式では、長さlビットの全てのビットストリームのセットと、b個のビン中へのd個の識別子の全ての分布のセットとの間にマッピングが設計される。d個の識別子のb個のビンへの分布は、0≦b<bであるような整数ラベル(b、b、...、b)のベクトルであり、負でない各整数bは、i番目の識別子に割り当てられた一意のビンのラベルである。割り当てられた各ビンラベルは、b個の可能なラベルから自由に選択することができるため、b個の可能な分布が存在する。
【0307】
[00353] 図36は、情報を符号化するための識別子分布の使用に基づくマルチビン方式の一例を示す。図36は、識別子2つの識別子ライブラリ(1とラベルされる)及び3つの名付けられたビン(0、1、2)のビンの集合を用いた一例を示す。ビンの各行(各行が3つの名付きビン0、1、2を含む)は、3つのビンに区画された2つの識別子の分布の一例を示す。表(6とラベルされる)は、各分布にマッピングされた、任意だが固定されているビットストリームを示す。例えば、3つのビンの4行目(5とラベルされる)は、2つの識別子が1と名付けられたビンに入っている一方、ビン0及びビン2は、空である分布を示す。この分布は、ビットストリーム0011に任意にマッピングされる。同様に、3つのビンの2行目は、2つの識別子が0と名付けられたビン及び1と名付けられたビンに入っている一方、3番目のビンは、空のままである分布を示す。この分布は、ビットストリーム0001(3とラベルされる)にマッピングされる。次の行は、1と名付けられたビンが空のままである分布を示す。これは、ビットストリーム0010に対応する。あらゆるそのようなビットストリームを所与として、その対応する分布が構築され保存される。このように、このマルチビン識別子分布方式を使用し、十分な数のビン及び識別子を使用して、あらゆるビットストリームを符号化し得る。
【0308】
[00354] マルチビン方式の別の実施形態では、識別子は、2つ以上のビンに存在し得る。この方式では、lビットのビットストリームは、1、2、...、bとラベルされたビンへの識別子の分布に暗黙的に符号化される。この方式では、各ビンは、識別子のサブセットを含む。したがって、この方式では、長さlビットの全てのビットストリームのセットと、全ての識別子サブセットのセットの全てのbサブセットのセットとの間にマッピングが設計される。bサブセットとは、b個の要素を含むセットを意味する。例えば、組合せ空間内に合計d個の識別子が存在する場合、全ての識別子サブセットのセットは、2個のセットを含み、これをDで示す。この方式では、長さlの全てのビットストリームと、b個のセットを含むDの任意のサブセットとの間のマッピングを使用し、長さがlogdbを超えないビットストリームを符号化することができる。別の実施形態では、各ビンは別個のサブセットを含む。この場合、この方式により、長さが
【数1】
を超えないビットストリームを符号化することができる。
【0309】
[00355] 図37は、識別子が2つ以上のビンに現れ得る場合、情報を符号化するための識別子分布の使用に基づくマルチビン方式の一例を示す。この方式を、再使用を伴う識別子分布と称する。図28は、識別子2つの識別子ライブラリ(8及び9とラベルされる)並びに3つのビン(ビン0、1、2)を伴う一例を示す。2つの識別子及び3つのビンを使用して、6ビット(b、ここで、各bは、ビットストリーム中の単一のビットに対応し、xは、ビットストリーム中の各ビットの位置を示す)を符号化する。図の上部は、それぞれビットb(4とラベルされる)、b及びbに対応する可能な識別子のサブセットを示す。識別子の任意のサブセットが任意のビンに含まれ得る。したがって、3つのビンの各ビンは、4つの選択肢を含み得る:識別子なし、単一の識別子(8とラベルされる)、他方の識別子(9とラベルされる)又は両方の識別子(8及び9)。この例は、3つのビンを伴うため、各サブセットは、各行に3回示される(ラベル2)。3つのビンの各々は、厳密に1つのサブセットを含み得るが、全てのサブセットで三重になることが許容される。これは、サブセットを繋ぐ線(ラベル3)で示されている。左から右への各パスは、3つのビンに含められるサブセットの集合に対応する。表(7とラベルされる)に示されるように、識別子の各分布は、特定のビットストリームにマッピングされる。一実施形態では、各ビンのサブセットを00、01、10及び11と名付けることにより、ビットストリームを推測し得る。したがって、例えば、ラベル5により示される分布は、3つのビンの各々に空の識別子のサブセットが含まれるように選択されるため、ビットストリーム000000に対応し、このサブセットは、00と名付けられる。同様に、ラベル6により示される分布は、ビン0にサブセット01が含まれ、ビン1にサブセット01が含まれ、ビン2にサブセット10が含まれるように選択されるため、ビットストリーム010110に対応する。この図は、64個の可能な分布の更なる数例を示す(図中の破線の項目により暗に示される)。
【0310】
[00356] マルチビン符号化方式は、そのような方式を用いて符号化されたデータを復号化するには、全てのビンにアクセスして復号化する必要があり得るため、データの安全なアーカイブに用途を有し得る。例えば、マルチビンにより符号化された識別子ライブラリをソースビットストリームにマッピングして戻すために、各ビンに存在する識別子セットを取得することが必要であり得、なぜなら、マルチビン方式では、ビットストリームが複数のビンにおける別個の識別子の分布にマッピングされ、それにより一般にビンの適切なサブセットからソースビットストリームの任意の有意な部分列を復号化することが不可能になるためである。
【0311】
[00357] 別の実施形態では、マルチビン方式を使用し、複数の直交性識別子ライブラリを使用してソースビットストリームを符号化し得る。得られたマルチビンライブラリは、幾つかの最小濃度のビンの任意のサブセットからの復号化を可能にするように組み合わされ得る。例えば、ソースビットストリームは、それぞれ5つの直交性ライブラリ及び3つのビンを使用して符号化され得る。次いで、得られた15個のビンは、3つのビンの任意のサブセットからのビットストリームの復号化を可能にするように組み合わされ得る。実際には、ビンは、基板上の管、ウェル又はスポット等の物理的位置であり得る。
【0312】
[00358] 幾つかの実施形態では、ビンは、基板上の管、ウェル、又はスポット等の物理的位置であり得る。他の実施形態では、ビンは、特定のバーコード配列等、集合内の全ての識別子に共有されるより抽象化された結び付きであり得る。
【0313】
DNA及び整数区画化を用いて情報を符号化する方法
[00359] 用語「整数区画」法は、DNAのランダム配列の区画に情報を格納する符号化戦略を指すために使用される。図38は、5つのステップにより概説される整数区画法の一実施形態を示す。DNAは、灰色又は黒色の棒及び記号を含む列として示されている。示されている各DNAは、別個の種を表す。「種」は、同じ配列の1つ又は複数のDNA分子と定義される。「種」が複数の意味で使用される場合、複数の種のうちのあらゆる種が別個の配列を有すると仮定し得るが、これは、ときに「種」の代わりに「別個の種」と記すことで明確にされ得る。
【0314】
[00360] 方法実施形態のステップ1において、各々が「カウント」と称される非常に多数の種のプールから開始される。カウントは、縁部に共通の配列(黒色及び薄い灰色の棒)、次いで中央に別個の配列(N...N)を有するように設計され得る。縮重オリゴヌクレオチド合成戦略を使用して、このカウントの出発プールを迅速及び安価に製造することができる。ステップ2において、カウントをビン(ステップ2に示されている矩形)に区画化する。いずれのカウントがいずれのビンに区画化されるかは、重要ではなく、重要であるのは、各ビンに区画化されるカウントの数のみである。したがって、区画化は、単一のカウントを出発プールからランダムにサンプリングし、次いでそのカウントを特定のビン(例えば、ステップ2に示されている5つのビンの1つ)に割り当てることにより行われ得る。単一のカウントは、プールから小さい液滴でサンプリングされ得る。ビンは、反応容器である。例えば、ビンは、マイクロ流体チャネル内のチャンバ又は基板上の位置であり得る。カウントは、マイクロ流体デバイスを通してチャンバに又はプリントを通して基板上の位置に割り当て得る。各ビンは、バーコードと称される別個のDNA種を含む。バーコードは、縁部に共通の配列(薄い灰色及び濃い灰色の棒)を有し、中央に各ビンを識別する別個の配列(B0、B1、B2、B3、B4、...)を有するように設計され得る。ステップ3において、バーコードの共通の縁配列をカウントの共通の縁配列に組み付ける。例えば、バーコードの共通の縁配列は、粘着末端ライゲーション又はギブソンアセンブリにより組み立てるように構成され得る。ステップ4において、各ビンから組み立てられたDNA分子を、ステップ5に示される格納のための最終的なプールに統合する。最終的なプール内の種は、カウントが各ビンにいかに区画化されたかに関する情報の全てを含む。この情報は、シーケンシングにより復元され得る。所与の例では、シーケンシングデータは、第1のビン(B0)が2つのカウントを有し、第2のビン(B1)が3つのカウントを有し、第3のビン(B2)が1つのカウントを有し、第4のビン(B3)が1つのカウントを有し、第5のビン(B4)が2つのカウントを有するように、9つのカウントが5つのビンに区画化されたことを黙示し得る。これは、整数「9」を順序和「2+3+1+1+2」として数学的に書き換えることと同等であり、これは、「合成」(composition)として知られている。この方法のパラメータが常に合計9つのカウント及び5つのビンを有するように固定される場合、この例で記録される特定の合成は、13choose4の可能な合成の可能性があるため、log2(13choose4)ビットの情報を含む。このプロセスの任意の時点において、格納されている情報に干渉することなく各種の複数のコピーが存在し得るか又は作成され得る(例えば、PCRを用いて)。これにより、分解から保護するため及びシーケンシングを促進するために、最終的なプールを増幅することが可能になる。一般に、整数区画システムがn個の区画化されたカウント及びk個のビンの固定されたパラメータ値を有する場合、方法を実施して、log[(n+k-1)choose(k-1)]ビットの情報を格納し得る。数学的には、この情報がシステムの「弱合成」(weak compositions)数を測定すると言える。しかしながら、これは、各ビンのバーコード配列が分かっている場合のみである。各ビンのバーコード配列が分かっていない場合(例えば、バーコード自体がランダム配列である場合)でも、方法をなお実施して、
【数2】
を格納し得、ここで、Pj(n)は、厳密にj部分に入る区画数nである。
【0315】
DNAに情報を符号化するためのデータパイプライン設計の方法
[00361] DNAに書き込まれる入力ビットストリームは、「コーデック」と略される計算符号化-復号化パイプラインにより処理される。図39は、コーデックの符号化部分の一例の高レベルブロック図を示す。ソースビットストリーム及びそれをDNAに書き込む要求を受信すると、コーデックは、ソースビットストリームを、ブロックサイズとして知られる固定長を超えないサイズの1つ又は複数のブロックに分割する。コーデックは、ソースビットストリーム(即ち記号列)、処理要件及びビットストリームの内容(即ちデジタル情報)の意図される用途に基づいて適切なブロックサイズを決定する。例えば、100Gビットのビットストリームは、各々の長さが1Gビットである100個のブロック若しくは各々の長さが100Mビットである1000個のブロックに分割し得るか、又は何らかの他の方法で分割し得る。
【0316】
[00362] コーデックは、1つ又は複数のハッシュアルゴリズムを使用して各ブロックのハッシュを計算し得る。ハッシュアルゴリズムは、ハッシュ及び他のメタデータ、例えばブロック長及びブロックアドレスをブロックに付加し得る。
【0317】
[00363] コーデックは、1つ又は複数の誤り検出及び修正アルゴリズムを各ブロックに適用し、1つ又は複数の誤り保護バイトを計算し得る。次いで、コーデックは、元のブロックを誤り保護情報と組み合わせて、誤り保護されたブロックを取得し得る。例えば、コーデックは、畳込み符号化をブロック内のビットに適用し、リードソロモン又は抹消符号化をブロック内のバイトのチャンクに適用し、リードソロモン又は抹消誤り保護バイトをブロックの各チャンクに付加し得る。コーデックは、誤り保護メタデータを各ブロックに付加し得る。
【0318】
[00364] 誤り保護情報の計算において、コーデックは、特定の代数フィールドサイズを選択して、誤り保護算出を行い得る。フィールドサイズによりソースワード長が決まり得、これは、任意のビット数、例えば4、8、12、16、20、24、28、32、36、40、44、48、64、又は128ビット等であり得る。ソースワードは、ソースビットストリームを含むビットの連続列(固定長)である。コーデックは、特定のフィールドサイズ及びワード長を計算の複雑さ及び誤り保護考慮事項に基づいて選択され得る。例えば、8ビットのワード長は、計算上効率的であり得るが、16ビットのワード長でより良好な誤り保護を提供し得る。コーデックは、探索アルゴリズムを使用して、1つ又は複数の目的関数に基づいてパラメータ値の最適なセットを識別し得る。例えば、コーデックは、ライタハードウェアシステム内の独立した反応区画の数、パラメータ値の特定の構成下でビットストリームを符号化するために必要な一意の識別子の数、何らかの他の関数又は関数の何らかの組合せを費用関数として使用し得る。
【0319】
[00365] コーデックは、誤り保護されたブロックに別の符号化ステップを更に適用して、書込み又は読み取り性能を改善し得る。コーデックは、誤り保護されたブロック内の各ワードを新しいコードワードにマッピングし得る。コーデックは、探索アルゴリズムを使用して、性質の特定のセットを有するコードワードのセットを生成し得る。例えば、コーデックは、可変長のコードワード、同じ固定数の「1」ビット値を有するコードワード、互いから指定されたハミング距離を有するコードワード又はそのような特徴の何らかの組合せのコードワードを生成し得る。コーデックは、最良のコードワード長、重み、ハミング距離又はコードワードの他の特徴の決定において、ソースワード長、ライタハードウェア速度及び利用可能な成分の総数を含むパラメータのセットを使用し得る。コーデックは、これらのコードワードを用いた誤り検出又は修正情報の別の層を含み得る。例えば、コーデックは、厳密にk個の「1」ビット値を有する長さnのコードワードを生成し得、それらのビットの2つは、ハイビット又はロービットとして知られており、パリティビットとして機能する。ハイビットは、パリティビットが1の場合に設定され、そうでなければロービットが設定される。そのような誤り保護ビットの1つ又は複数の対は、コードワードの種々の部分を保護し得る。
【0320】
[00366] コーデックは、コードワードの特定のセットを選択して、符号化中又は復号化中、最適化された化学的条件を保証し得る。例えば、コーデックは、固定された重みのコードワードを生成して、固定された同一数の識別子がライタシステム内の各反応区画において、各区画内で及び複数の区画にわたりおよそ等濃度で組み立てられることを保証し得る。コーデックは、各反応区画において同数の識別子が組み立てられ、整数のコードワードが符号化されるようにコードワード長及び区画方式を選択し得る。
【0321】
[00367] コーデックは、識別子の複数のセットを使用して、ソースビットストリーム内のビットの一部又は全部を符号化するように選択され得る。識別子は、直交性の識別子ライブラリに由来するものであり得、同じ識別子ライブラリに属するものであり得る。識別子は、ソースビットストリーム又はソースビットストリームからのビットの組合せを符号化し得る。ビットの組合せを符号化する識別子の複数のセットを使用することで、コーデックは、全てのビットを確実に復号化するために必要なサンプルのサイズを縮小することが可能であり得る。コーデックは、各ソースブロックに1つ又は複数の出力ブロックを生成し得る。出力ブロックは、リストとして又はツリーを含む何らかの他のタイプのデータ構造として組み立てられるべき識別子のセットを記述し得る。コーデックは、指定された識別子を組み立てるようにデバイスに命令する1つ又は複数のコマンドファイルを生成し得る。例えば、コーデックは、液体ハンドリングロボット又はインク含有成分を用いるインクジェットプリンタを制御するコマンドファイルを生成し得る。コーデックは、デバイスと通信し、デバイスからの情報に基づいてブロックファイルを最適化し得る。例えば、デバイスは、アセンブリエラー率を報告し得、コーデックは、誤り保護性能がより高い新しいブロックファイルを生成し得る。コーデックは、ブロックファイル又はコマンドをファイルとして又はネットワークを介して送信し得る。コーデックは、1つ又は複数のコンピュータを介して計算プロセスを実行し得る。
【0322】
情報ライタへの指示を指定する方法
[00368] 本明細書では、識別子ライブラリを構築する任意のシステムを「ライタ」と称する。例えば、ライタの幾つかの実施形態は、プリントに基づく方法を使用して、識別子の構築のために成分を並置し得る。プリントに基づく方法は、各々が1つ又は複数の核酸分子を基板にプリントすることが可能な1つ又は複数のプリントヘッドの使用を伴い得る。
【0323】
[00369] 組み立てる識別子ライブラリが指定され、指定ファイルのセットを介してライタに送信される。ブロックデータファイルは、ライタにより生成される識別子のセットを指定する。ブロックデータファイルは、データ圧縮アルゴリズムを使用して圧縮され得る。ブロックを含む識別子は、限定されないが、ツリー、トライ、リスト、又はビットマップ等の直列化されたデータ構造の形態で指定され得る。
【0324】
[00370] 例えば、積方式を使用して生成される識別子ライブラリは、成分ライブラリ区画方式(成分が識別子のアーキテクチャ内の層に分割される様式)を含むブロックメタデータファイル及び各層で使用される可能な成分の名称のリストを用いて指定され得る。ブロックデータファイルは、直列化されたトライデータ構造として編成された、生成される識別子を含み得、直列化されたトライデータ構造では、トライのルートからリーフへの各パスは、識別子を表し、パスに沿った各ノードは、その識別子のその層において使用すべき成分名を指定する。ブロックデータファイルは、ルートから開始し、各ノードの左側の子ノードに行った後、ノード自体に行き、次いで右側の子ノードに行く順序でトラバースすることにより、このトライを直列化することを含み得る。
【0325】
[00371] 図40は、識別子ライブラリを表すデータ構造及び直列化の一実施形態を示す。あるビットストリームを符号化する識別子ライブラリが示されている(ラベル11)。ツリーのルートから任意のリーフまでの各パスは、単一の識別子を表し、識別子内の成分は、パスに沿って遭遇するノードの名称により指定される。ラベル6は、成分名及び区切り記号を主に含むデータ構造の直列化された表現を示す。直列化された形態は、構築者固有区画方式の指定(ラベル5)から始まる。この場合、各層に3つ、2つ、3つ及び5つの成分を含む4つの層を有する産物コンストラクトが使用される。直列化における残りの項目は、1と記されるもののように、データ構造外のパスを概述する。直列化において4とラベルされるセグメントは、ツリーのルートから始まり、第1の層のノード0、次いで第2の層のノード0、第3の層のノード0及び最後の層のリーフ0まで下るパスを概述する。区画方式は、4つの層を有するため、この段階で完全な識別子を出力し得るとアルゴリズムが推測する。より一般的には、直列化のこのセグメント(7とラベルされる)は、最終的な層の代替成分の全てを指定する。特定の層の識別子ライブラリに含まれるべき代替の全てが列挙された場合、区切り記号(この例ではピリオド)が直列化に含められてこの状態を記す。これは、ツリーのパスに示されているように、アルゴリズムが層を上がる引き金となる(3とラベルされる)。直列化における成分識別子の次のセグメント(16とラベルされる)は、識別子の次のセットを記述する。このようにして、識別子ライブラリ全体を平らなシリアルファイルで簡潔に表し得る。
【0326】
識別子を用いた計算方法
[00372] 化学的演算を使用して、識別子ライブラリに符号化されたデータに対して計算を実行することが可能であり得る。そのような演算は、アーカイブ全体の任意のサブセット又はアーカイブ全体に対して並行化して実行され得るため、これを行うことが有利であり得る。さらに、計算は、データを復号化せずにインビトロで実行され得、したがってセキュリティを保証しながら計算することが可能になる。幾つかの実施態様では、AND、OR、NOT及びNAND等のブール論理演算を含む計算は、各ビット位置を表す識別子を使用して符号化されたビットストリームに対して実行され、識別子の存在によりビット値「1」が符号化され、識別子の非存在によりビット値「0」が符号化される。
【0327】
[00373] 幾つかの実施態様では、全ての識別子は、1本鎖核酸分子として構築される(又は最初に2本鎖核酸分子として構築され、次いで1本鎖形態に分離される)。任意の1本鎖識別子xについて、識別子は、xの逆相補鎖としてxにより示される。1本鎖識別子の任意のセットSについて、S内の各識別子の逆相補鎖のセットをSと示す。ライブラリ内の可能な全ての1本鎖識別子をUで示し、その逆相補鎖のセットをUで示す。これらのセットをユニバース及びユニバースと称する。U及びU により、ユニバース及びユニバースセットの第2の対を示し、それにより、これらのセット中の各識別子は、化学的方法により標的とするか又は選択することができる探索領域として知られている追加の核酸配列で増補される。
【0328】
[00374] 所与の識別子ライブラリに対する計算は、ハイブリダイゼーション及び切断を含む一連の化学的演算により実施され得る。これらの演算の要約を以下に記載する。各演算は、入力として識別子のプールをとり、演算を実行し、出力として識別子のプールを返す。
【0329】
[00375] 初歩的な例として、下記の表に示すように、第1のライブラリL1及び第2のライブラリL2は、それぞれ8ビットを含む。2つのライブラリ間のビット毎の「OR」演算及び2つのライブラリ間のビット毎の「AND」演算の結果も示されている。化学的ステップにより実行されるこれらの演算(及び追加の演算)の詳細について更に詳細に後述する。
【0330】
【表1】
【0331】
[00376] 各ライブラリの各ビットは、記号位置を含む識別子として符号化される。記号位置での識別子の不在は0を示し、記号位置での識別子の存在は1を示す。この例では、ライブラリ内の識別子は2本鎖である。
【0332】
[00377] 2つのライブラリL1及びL2に対してOR演算を実行するために、2つのライブラリプールが組み合わせられる。両方のライブラリの識別子は、OR演算に向けて2本鎖状態のまま残され得る。OR演算は、L1又はL2のいずれかに1が存在するか否かを示すため、2つのプールの組合せは、完全に決定されたOR演算出力である(上のOR列に記載のように)。最大で同じ記号位置に2倍の識別子コピーが存在することになり(元のライブラリと比較して)、これは、依然としてその記号位置(即ち記号位置b5)における1の存在を示す。幾つかの実施態様では、2本鎖識別子を変性させて2つの1本鎖を生成し得る(即ち各2本鎖識別子でセンス又は「ポジティブ」鎖1つ及びアンチセンス又は「ネガティブ」鎖1つ)。得られた2つの相補的な1本鎖を「ポジティブ」鎖及び「ネガティブ」鎖と称する。幾つかの実施態様では、ライブラリのサブセクションを選択し得、OR演算を実行し得、OR演算の結果で既存のライブラリの一方又は両方内の既存のビット値を置換し得る。
【0333】
[00378] 2つのライブラリL1及びL2に対してAND演算を実行するために、まず2本鎖識別子を変性させて2つの1本鎖(即ち各2本鎖識別子でセンス鎖1つ及びアンチセンス鎖1つ)を生成する。ここでも、得られた2つの相補的な1本鎖を「ポジティブ」鎖及び「ネガティブ」鎖と称する。ポジティブ鎖及びネガティブ鎖を別々のプールに分離する。実際には、これは、ポジティブ鎖又はネガティブ鎖のいずれかに対してアフィニティタグ付きプローブを使用することにより達成され得る(核酸捕捉については、化学的方法セクションFを参照のこと)。識別子は、この目的のために共通のプローブ標的を含むように設計され得る。次いで、第1のライブラリからの2本鎖識別子のポジティブ鎖(例えば、センス鎖)及び第2のライブラリからの2本鎖識別子のネガティブ鎖(例えば、アンチセンス鎖)を一緒にプールし、相補的な1本鎖がハイブリダイズできるようにする。両方のライブラリ(例えば、上記の表に示されているL1及びL2)に既存の識別子が存在すると仮定すると、得られた組み合わされたプールは、DNAの1本鎖と、ハイブリダイゼーションの実行が可能になった後のDNAの2本鎖との組合せを有することになる。完全に2本鎖の識別子は、その識別子が第1のライブラリL1及び第2のライブラリL2の両方に存在したことを示す。完全に2本鎖の識別子をプールから選択して、AND演算出力を生成し得る。例えば、S1ヌクレアーゼ又はマングビーンヌクレアーゼ等の1本鎖特異的ヌクレアーゼを使用して、1本鎖識別子(及び部分的に1本鎖の識別子)を小さい単位に切断することで1本鎖識別子を選択的に除去し得る。完全に2本鎖の識別子は、切断から保護され、次いで化学的方法セクションFに記載の核酸捕捉技法又は化学的方法セクションEに記載のサイズ選択技法等の技法を使用して分離され得る。例えば、核酸プールは、完全に相補的な2本鎖DNAのみが特定の長さで流れるように、クロマトグラフィゲルに流れ得る。組み合されたプール出力は、上記表のAND列に示されている。これらのAND演算及びOR演算を実行するために必要なステップの詳細及び更なる例を以下に記載する。
【0334】
[00379] 本明細書に記載のランダムアクセス方法を使用して、ライブラリの一部分を抽出し得る。例えば、ライブラリのサブセクションをランダムアクセスにより抽出し得る。論理演算(例えば、OR又はAND)をサブセクションに適用し得る。幾つかの実施態様では、得られた識別子のセットでライブラリ内のサブセクションの元の値を置換し得る。
【0335】
[00380] 演算single(X)は、識別子のプール(2本鎖及び/又は1本鎖)をとり、1本鎖核酸識別子のみを返す(全ての2本鎖識別子を除去する)。演算double(X)は、識別子のプール(2本鎖及び/又は1本鎖)をとり、2本鎖識別子のみを返す(全ての1本鎖識別子を除去する)。演算make-single(X)及びmake-single(X)は、全ての2本鎖核酸識別子をそれらの1本鎖形態に変換する(アスタリスクが付いているバージョンではネガティブ鎖を返し、アスタリスクが付いていないバージョンではポジティブ鎖を返す)。演算get(X,q)は、クエリqにマッチする全ての識別子のプールを返す。q=「全て」の場合、クエリは、全ての識別子にマッチし、全ての識別子に対して動作する。演算delete(X,q)は、クエリqを満たす全ての識別子(2本鎖又は1本鎖)を削除する。クエリは、上述したように、ランダムアクセスにより実施され得る。演算combine(P,Q)は、P又はQ中の全ての識別子を含むプールを返す。本明細書では、演算assign(X,Y)は、Yの結果を変数名Xに割り当てるものと定義する。簡潔にするために、この演算を以下の形態でも示す:X=Y。割り当て演算は、いかなる「汚染」問題も伴わずに変数を再使用できるようにする理想的な条件下で実行されるものと仮定する。
【0336】
[00381] 以下では、いずれも長さlのビットストリームa及びbがそれぞれ2本鎖識別子ライブラリdsA及びdsBに書き込まれたと仮定し、幾つかのサブビットストリームs=a,...,a及びt=b,...,bに対する計算に関心を払い、計算の結果は、サブビットストリームsに格納される。即ち、最初に、initialize(dsA,dsB,s,t)演算により示される以下の演算が、指定された順序で実行されたと仮定する。
【0337】
【表2】
【0338】
[00382] 図41は、識別子ライブラリを用いた計算のセットアップの一例を示す。この図は、抽象木データ構造(4とラベルされる)として描かれた識別子の組合せ空間の一例を示す。この例では、ツリーの各レベルで2成分間の選択を行う(ラベル2により示される)。ツリーのルートからの各パスは、一意の識別子に対応し(ラベル3の例により示されるように)、その順序(又はランク)を決定する。ラベル4は、1本鎖ユニバーサル識別子ライブラリを示す。ラベル5は、例えば、「a」と称される特定のビットストリームを符号化する1本鎖識別子ライブラリを示す。ラベル7は、7ビットを含む「s」と称される「a」のサブビットストリームを示す。同様に、ラベル10は、同じ長さのビットストリーム「b」のサブビットストリーム「t」を示す。initialize(dsA,dsB,s,t)を計算するための初期化手順に記載のように、計算されるサブビットストリームは、プールP及びQ(それぞれ6及び9とラベルされる)において入手可能であり、計算可能な状態である。
【0339】
[00383] 演算AND(s,t)は、ビットストリームs及びt中のビットのビット毎の論理積と定義され、以下の順の演算を使用して実施され得る。
【0340】
【表3】
【0341】
[00384] 演算NOT(s)は、ビットストリームs中のビットのビット毎の論理否定と定義され、以下の順の演算を使用して実施され得る。
【0342】
【表4】
【0343】
[00385] 演算OR(s,t)は、ビットストリームs及びt中のビットのビット毎の論理和と定義され、以下の順の演算を使用して実施し得る。
【0344】
【表5】
【0345】
幾つかの実施態様では、OR(s,t)演算は、dsAとdsBとをプール中で組み合わせ、その結果、O(OR(s,t)演算の出力)と称される識別子の組合せを生成することを含み得る。
【0346】
[00386] 演算NAND(s,t)は、ビットストリームs及びt中のビットの連言のビット毎の論理否定と定義され、以下の順の演算を使用して実施し得る。
【0347】
【表6】
【0348】
[00387] 一実施形態では、演算single(X)は、まず、Xからの1本鎖識別子がユニバーサル識別子とハイブリダイズするようにXをU又はU と組み合わせることを含み得る。さらに、U及びU 中のユニバーサル識別子は、特別な探索領域を有するため、ユニバーサル識別子にハイブリダイズするこれらの分子は、標的化されてアクセスされ得る。
【0349】
[00388] 一実施形態では、演算double(X)は、X中の識別子をS1ヌクレアーゼ等の1本鎖特異的ヌクレアーゼで処理し、次いで得られたDNAのプールをゲルに流し、切断されなかった識別子(したがって完全に2本鎖の識別子)のみを分離することを含み得る。
【0350】
[00389] 図42は、識別子ライブラリにより符号化されたビットストリーム「s」及び「t」に対して論理演算をいかに実行し得るかの一例を示す。この図では、計算が行われているプールに相補的であるようなユニバーサルライブラリ(14とラベルされる)を使用する。AND/NANDと記された列は、ビットストリーム「s」及び「t」(それぞれ5及び7とラベルされる)の連言をいかに計算し得るかを示す。プールが正しいユニバーサルライブラリ(U又はU)を使用して再形式化されていると仮定する。2つのプールが組み合わされると、相補的な1本鎖識別子がハイブリダイズし、示されているように、2重の識別子を形成する(例えば、ラベル9)。得られたプール(10とラベルされる)中の2本鎖識別子の集合は、AND計算の結果を符号化する。2本鎖産物を分離することにより、AND(s,t)を表す識別子ライブラリが与えられる。代替的に、1本鎖産物を分離することにより、NAND(s,t)を表す識別子ライブラリが与えられる。ORと記された列は、ビットストリーム「s」及び「t」の選言をいかに計算し得るかを示す。「s」及び「t」を表す識別子を含むプールが組み合わされる場合、得られるライブラリは、OR(s,t)の表現を含む。NOTと記された列は、ビットストリーム「s」の否定をいかに計算し得るかを示す。ここで、ビットストリーム「s」を表す1本鎖識別子ライブラリは、相補的なユニバーサル識別子ライブラリと組み合わされる(15とラベルされる)。結果として(19とラベルされる)、形成された全ての2本鎖産物(例えば、18とラベルされる)は、「s」中の「1」ビットを表し、破棄され得る。残りの1本鎖産物(例えば、17とラベルされる)は、「s」中の「0」ビットを表し、したがってNOT(s)における「1」ビットに対応する。これらの1本鎖産物は、NOT(s)を表す識別子ライブラリを与え、更なる計算に使用され得る。
【0351】
画像データを符号化し、読み取る方法
[00390] 識別子ライブラリは、識別子内に符号化されたビットストリームの内容に依存しないが、その大きいサイズ及び自然的な長期にわたる社会的価値に起因して、画像データをアーカイブすることにおいて特に有用であり得る。したがって、識別子ライブラリは、画像データのために特別に設計された符号化方式及び形式を用いてそのようなデータを符号化するのに有用であり得る。「画像データ」は、何らかの次元のベクトルの集合として暗黙的に又は明確に提示され、局所性を有するデータを指す。提示されたベクトルは、ベクトル間で距離の概念を有し、すぐ近くにあるベクトル同士は、問い合わせ、演算又は解釈を一緒に受ける。例えば、写真画像では、各ピクセルは、ピクセルの位置及びその色値を記述するベクトルであり、近くのピクセルは、典型的には、写真において1つ又は複数のオブジェクトの領域を形成し、したがって一体として解釈及び演算を受ける可能性が高い。
【0352】
[00391] 一実施態様では、画像は、画像符号化方式を用いて識別子ライブラリにマッピングされ、元の多次元画像からのベクトルは、空間充填曲線等の数学関数により定義される直線的順序付けで順序付けられる。提示されたベクトルの幾つか又は全ての次元に沿った可能な値は、成分ライブラリ中の特定の成分にマッピングすることができ、ベクトルの幾つか又は全ての次元は、識別子構築のために積方式内の層にマッピングすることができる。本明細書では、これをネイティブ画像符号化と称する。例えば、識別子構築のために、幅xピクセル及び高さyピクセルのグレースケール画像を積方式にマッピングし得、第1の層の成分は、ピクセルのx座標を表し、第2の層の成分は、ピクセルのy座標を表し、第3の層の成分は、ピクセルのグレースケール強度を表す。例えば、RGBカラー画像は、赤色チャネル、青色チャネル及び緑色チャネルのそれぞれに1つずつ、3つの直交性識別子ライブラリを用いて同様に表され得る。別の実施形態では、色相-彩度-明度等の他の代替カラーモデルも同様に表すことができる。別の実施形態では、ピクセルの位置を指定する座標は、上述したように表すことができるが、第3の層の成分は、強度値を指定する代わりに、強度値を指定するビット列中のビット位置をそれぞれ表し、各成分を有する識別子の有無がそれぞれ「1」又は「0」の値を指定する。例えば、前者の実施形態では、第3の層は、256個の成分を含み得、特定のピクセルにおける各成分は、256個の可能な強度値の1つを指定し、後者の実施形態では、第3の層は、8個の成分を含み得、特定のピクセルにおけるこれらの成分の各サブセットは、256個の可能な強度値の1つを指定する。
【0353】
[00392] 幾つかの実施態様では、一部又は全部の成分に値の範囲が関連付けられる。例えば、色値層(第3の層)の成分は、そのカラーチャネルにおける色値の間隔を表すものと定義され得る。例えば、赤色チャネル識別子の第3の層の各成分は、特定の赤の色値にマッピングされる代わりに、±10点の赤の色値範囲にマッピングされ得る。
【0354】
[00393] 幾つかの実施態様では、上で定義されたように画像が符号化される場合、PCR又はハイブリダイゼーション捕捉等の上述したランダムアクセス方式を使用して、画像における任意のデカルトセクション(近傍ピクセル)を色値に関して問い合わせ得る。さらに、符号化方式が、第3の層の各成分により強度値が指定されるようなものである場合、ランダムアクセス方式を使用して任意の色値を関連するピクセル座標に関して問い合わせ得る。
【0355】
[00394] 幾つかの実施態様では、ネイティブ画像符号化を用いて符号化された画像は、複数の分解能で復号化され得る。例えば、およそ3xy個の識別子を使用したRGBカラーモデルを用いて符号化された幅xピクセル及び高さyピクセルの画像は、識別子の半分の一様ランダムなサブセットをサンプリングすることにより、元の分解能の半分で復号化され得る。元の画像の内容は、画像処理及び内挿技法を使用して、サンプリングされた識別子からより低い分解能で再構築され得る。画像の復号化には、より小さいサンプルが使用されるため、復号化の費用及び時間が低減する。
【0356】
[00395] 幾つかの実施態様では、複数の画像の低分解能での復号化及び画像処理を使用して、アーカイブにおける目的の画像又は画像のセクションを識別し得る。この後、これらの画像又は画像のセクションの高分解能での復号化が続き得る。特徴のこのセットは、例えば、特定の視覚的特徴が探し求められている監視画像の大きいアーカイブの解析において有用であり得る。別の適用では、ビデオアーカイブを静止画像フレームの大きいアーカイブとして扱い得る。この適用では、ランダムアクセス及び低分解能での復号化により、目的のフレームを識別し得る。次いで、周囲のフレームをより高い分解能で復号化して、目的のビデオセグメントを再構築し得る。このようにして、大きい画像又はビデオアーカイブを高密度で何世紀にもわたって格納し得、それでもなお低費用で並行して問い合わせることが可能である。
【0357】
[00396] 以下では、画像データの格納及び多分解能読み取りの一例について記載する。圧縮されていない画像ファイルは、各識別子又は識別子の各連続群が画像のピクセルを表すように識別子に符号化され得る。例えば、画像がビットマップとして格納され、各ビットが、2色(例えば、白色又は黒色)のうちの1色を有することができるピクセルである場合、ビットマップ中の各ビットは、識別子によって表され得、その識別子の有無によりそれぞれ一方の色又は他方の色を表し得る。画像を読み取るために、識別子ライブラリをランダムにサンプリングし得る(標準の次世代シーケンシング技術を用いて予期されるものと同様に)。画像のリードバック分解能は、読み取りのサンプルサイズを定義することにより指定され得る。したがって、低分解能バージョンの画像は、高分解能バージョンよりも安い価格でリードバックされ得る。これは、画像をリードバックする目的が細密な画像の詳細を必要としない場合に有用であり得る。代替的に、低分解能バージョンの1つの画像又は幾つかの画像を検査して、問い合わせる(アクセスする)位置をより高い分解能で特定し得る。
【0358】
[00397] この多分解能制御リードバックの原理を更に実証するために、ビットマップとして格納された犬の画像の例(図43)を検討する。図43Aの元画像は、1476800ピクセル(1300×1136ピクセル)であり、各ピクセルは、ビット(白色又は黒色)として格納されている。各ビットが識別子であり、黒色ピクセルの識別子のみを構築することにより画像を符号化すると、どのようなことが起こるかをシミュレートする。これには、131820個の識別子が必要である。図43Bは、識別子の総数の10倍(サンプルサイズ1318200)のシミュレートされたサンプリングから得られた画像を示す。これは、元画像と同様の細部を有する。図43Cは、識別子の総数と同等な数(サンプルサイズ131820)のシミュレートされたサンプリングから得られた画像を示す。図43Dは、識別子の総数の10分の1の識別子(サンプルサイズ13182)のシミュレートされたサンプリングから得られた画像を示す。黒色ピクセルは、非常にまばらであるため、画像を可視化することが難しい。各濃色ピクセルのサイズを増幅して、元画像の再作成を促進し得る。図43Eは、同じ画像を示すが、各黒色ピクセルは、25ピクセルまで増幅されている。この分解能では、元画像の幾らかの細部、例えば毛の線が喪失する可能性がある。しかしながら、より粗い細部、例えば眼及び鼻は、依然として目に見える。図43Fは、識別子の総数の100分の1の識別子(サンプルサイズ1318)のシミュレートされたサンプリングから得られた画像を示す。黒色ピクセルは、非常にまばらであるため、画像を可視化することが難しい。ここでも、各濃色ピクセルのサイズを増幅して、元画像の再作成を促進し得る。図43Gは、同じ画像を示すが、各黒色ピクセルは、25ピクセルまで増幅されている。元画像の多くの細部が失われている可能性があるが、画像は、それでも犬の形状及びそのカラーパターンについての幾らかの細部を示す。
【0359】
[00398] 画像の各ピクセルが2色よりも多くの可能な色を有する場合でも、同等な多分解能リードバックを実行し得る。例えば、各ピクセルが2色の代わりに256色の可能な色を有する場合、各ピクセルは、8つの識別子のサブセットで表し得る。各ピクセルがそれぞれ256の可能な強度の3つのカラーチャネル、例えばRGBを有する場合、画像は、各チャネルに対応する3つの直交性識別子ライブラリに格納され得る。
【0360】
DNAを用いたデータの無作為化、暗号化、及び認証の方法
[00399] DNAを使用してランダムビットストリームを生成し、格納する能力は、暗号法及び組み合わせアルアルゴリズムにおける計算に適用され得る。多くの暗号化アルゴリズム、例えばデータ暗号化標準(DES)は、セキュリティを保証するためにランダムビットを使用する必要がある。他の暗号化アルゴリズム、例えば高度暗号化標準(AES)は、暗号鍵の使用を必要とする。典型的には、これらのランダムビット及び鍵は、ランダム性の安全なソースを使用して生成され、なぜなら、ランダムビット又は鍵における系統的なパターン又は偏りは、いずれも暗号化されたメッセージへの攻撃及び破壊に利用され得るためである。さらに、暗号化に使用される鍵は、典型的には、復号化のためにアーカイブされている必要がある。暗号化方法のセキュリティの強さは、アルゴリズムに使用される鍵の長さに依存する。一般に、鍵が長いほど、暗号化が強力になる。ワンタイムパッドのような方法は、最も安全な暗号化方法の1つであるが、それらには非常に長い鍵が必要であることに起因して、適用が限られる。
【0361】
[00400] 本明細書に記載の方法を使用して、数十、数百、数千、数万、又はそれより多くのビット長のランダム鍵の極めて大きい集合を生成し、アーカイブし得る。一実施形態では、各核酸分子が以下の設計を満たす核酸ライブラリを生成し得る:k<n塩基の可変領域を有するn塩基の長さを有する。可変領域内の塩基は、ライブラリの構築中にランダムに選択することが許容される。例えば、nは、100であり得、kは、80であり得;したがって、異なる分子1050個のサイズであるライブラリを潜在的に生成し得る。分子1000個のサイズであるそのようなライブラリのランダムサンプルは、例えば、シーケンシングされて、暗号化のために使用し得る最大1000ビットのランダム鍵を取得し得る。
【0362】
[00401] 別の実施形態では、上述した核酸鍵(鍵を表す核酸分子)を識別子に付着させ、それにより鍵セットの順序付き集合を得ることができる。順序付き鍵セットを使用して、暗号化に関して種々の関係者により鍵が使用される順序を同期させ得る。例えば、積方式を使用して識別子ライブラリを組み合わせにより構築し、1012個の一意の識別子を得ることができる。マイクロ流体法を使用し、核酸鍵を用いて各識別子を並置し、組み立てて、一意の識別子及びランダム鍵を含む核酸サンプルを形成し得る。識別子ライブラリ中の識別子は、順序付きのため、鍵も任意の指定された順序で順序付け、アクセス、及びシーケンシングされ得る。
【0363】
[00402] 幾つかの実施態様では、識別子に付着した鍵を使用して、入力識別子をランダムビット列にマッピングするランダム関数のインスタンスを生成し得る。そのようなランダム関数は、ハッシュ等、値の計算が容易であるが、所与の値から逆を行うことが難しい関数を必要とする適用において有用であり得る。そのような適用では、各々に一意の識別子が組み立てられた鍵のライブラリをランダム関数として使用する。値をハッシュする場合、その値は、識別子にマッピングされる。次に、ハイブリダイゼーション捕捉又はPCR等のランダムアクセス法を使用して、鍵ライブラリから識別子にアクセスする。識別子は、ランダム塩基の配列を含む鍵に付着する。この鍵はシーケンシングされ、ビット列に変換され、ランダム関数の出力として使用される。
【0364】
[00403] 核酸分子ライブラリは、安価及び迅速にコピーすることができ、小さい体積で内密に輸送できることから、上述したように生成される核酸鍵セットは、多数の暗号鍵を、地理的に離れている複数の関係者に定期的に安全及び内密に配布しなければならない状況において有用であり得る。さらに、鍵は、非常に長期間にわたって確実にアーカイブすることができ、それにより暗号化されたアーカイブデータを安全に格納することが可能になる。
【0365】
[00404] 図44図47は、ランダムな又は暗号化された、DNAに格納されたデータを作成、格納、アクセス、及び使用する方法の実施形態を示す。DNAは、灰色及び黒色の棒並びに記号を含む列として示されている。示されている各DNAは、区別可能な種を表す。「種」は、同じ配列の1つ又は複数のDNA分子と定義される。「種」が複数の意味で使用される場合、複数の種の中のあらゆる種が区別可能な配列を有すると仮定し得るが、これは、ときに「種」の代わりに「区別可能な種」と記すことにより明示される。
【0366】
[00405] 図44は、DNAの大きい組合せ空間及びシーケンサを使用したエントロピー(又はランダムデータ)生成器の一例を示す。方法は、シードと称されるDNA種のランダムプールから開始される。シードは、理想的には、一様な分布のDNAの定義された組合せセットのあらゆる種、例えば50塩基を有する全てのDNA種(450種のメンバを有する)を含むべきである。しかしながら、完全な組合せ空間は、あらゆるメンバをシードで表すには大きすぎることがあり、したがって、シードは、組合せ空間全体の代わりに組合せ空間のランダムサブセットを含むことが許容される。シード種は、縁部に共通の配列(黒色及び薄い灰色の棒)、次いで中央に別個の配列(N...N)を有するように設計され得る。この出発シードを迅速及び安価な様式で製造するために、縮重オリゴヌクレオチド合成戦略を使用し得る。共通の縁配列により、PCRを用いた又は特定の読み取り(又はシーケンシング)方法に適合したシードの増幅が可能になり得る。縮重オリゴヌクレオチド合成の代替として、組合せDNAアセンブリ(1つの反応に多重化される)もシードを急速及び安価に生成するために使用することができる。シーケンサは、シードから種をランダムにサンプリングし、したがってサンプリングをランダムな順序で行う。任意の所与の時点でシーケンサにより読み取られている種には、不確実性が存在するため、システムは、エントロピー生成器として分類され得、乱数又はランダムなストリームのデータを例えば暗号鍵として生成するために使用され得る。
【0367】
[00406] 図45Aは、ランダムに生成されたデータをDNAに格納する方法の一例の概略図を示す。方法は、(1)シードと称されるDNA種の大きいランダムプールから開始される。シードは、理想的には、一様な分布のDNAの定義された組合せセットのあらゆる種、例えば50塩基を有する全てのDNA種(450種のメンバを有する)を含むべきである。しかしながら、完全な組合せ空間は、あらゆるメンバをシードで表すには大きすぎることがあり、したがって、シードは、組合せ空間のランダムサブセットを含むことが許容される。シードはそれ自体、縮重オリゴヌクレオチド合成又は組合せDNAアセンブリから生成され得る。(2)シード中の種のランダムサブセットを取ることにより、ランダムデータ(又はエントロピー)が生成される。例えば、これは、シード溶液の比例する割合の体積を取ることにより実現され得る。例えば、シード溶液が1マイクロリットル(μL)当たり推定100万種からなる場合、シード溶液(よく混合されたものであると仮定する)から1ナノリットル(nL)の一定分量(aliquot)を取ることにより、およそ1000種のランダムサブセットを選択し得る。代替的に、シード溶液の一定分量をナノポア膜に流し、膜を通過した種のみを収集することによりサブセットを選択し得る。膜を通過する種の数の計数は、ナノポアにわたる電圧の差異を測定することにより実現され得る。このプロセスは、望ましい数のシグネチャが検出されるまで(例えば、100、1000、10000又はそれよりも多くの種のシグネチャ)続けられ得る。別の代替方法として、単一の種を小さい液滴中に分離し得る(例えば、油エマルジョンを用いる)。単一の種を伴う小さい液滴を蛍光シグネチャにより検出し、一連のマイクロ流体チャネルにより選別して収集チャンバに入れ得る。(3)識別子として選択された各種は、識別子と称することができ、さらに、選択された種の完全なサブセットは、「ランダム識別子ライブラリ」又はRILと称することができる。RIL中の情報を安定化して分解から保護するために、種の末端上の共通の配列に結合するPCRプライマーを用いてRILを増幅し得る。RIL中の識別子(したがってその中に格納されたデータ)を特定するために、RILは、シーケンシングされ得る。真の識別子は、サンプル中の、定義されたノイズ閾値を超えて富化されている種により定義され得る。(4)RIL中に含まれるデータが特定されると、追加の誤り調査及び誤り修正種をRILに加え得る。例えば、予期される識別子数に関する情報を含む「整数DNA」(例えば、チェックサム又はパリティチェック)をRILに加え得る。整数DNAにより、情報の全てを収集するためにRILをどの程度深くシーケンシングするかを知ることが可能になり得る。
【0368】
[00407] RILに一意のDNAタグをバーコード付けし得る。次いで、任意の所与のRILに、その一意のDNAタグに対するハイブリダイゼーションアッセイ(又はPCR)を用いて個々にアクセスすることができるように、幾つかのバーコード付けされたRILを一緒にプールし得る。一意のDNAタグは、組み合わせにより組み立てられ得るか、又は合成されてから、対応するRILに組み立てられ得る。図45Bは、各々が100個のランダム塩基を含む4種を含むRILの一例を示す。可能な種の組合せ空間は、4100であり、したがって、RILは、log(4100choose4)≒725ビットの情報を含み得る。図45Cも、各々が100個のランダム塩基を含む4種を含むRILの一例を示す。4100個の組合せ空間から選択された4種の特定の順序付けられていない組合せで情報を格納すること(図45Bのように)の代替として、各種の最後の90個のランダム塩基は、log(490)=180ビットの情報を格納するために確保され得る一方、最初の10個のランダム塩基は、4種の各々に格納される情報間の相対的な順序を確立するために確保され得る。相対的な順序は、4塩基の定義された順序付けに基づく10塩基の列の辞書式順序付けにより定義され得る(英語の単語をアルファベットの文字の順に従って順序付ける方法と同様に)。情報をRILに割り当てるこの方法は、図45Bに記載の方法よりも2進列にマッピングするための計算が高速であり得る。
【0369】
[00408] 前の図(図45)では、複数のRILにバーコード付けし、それらを一緒にプールするための戦略を考察している。そうするにあたり、入力-出力マッピングが作成され、入力は、バーコードハイブリダイゼーションプローブ(個々のRILにアクセスするためのもの)に対応し、出力は、ランダムデータ列(標的化されたRILにより符号化されるもの)に対応する。この方法では、組み合わされたプールからの検索のために所定のバーコードをランダムデータに組み立てるが、図46Aは、バーコード(データにアクセスするためのもの)がランダムデータ自体と共にランダムに生成される、核酸プローブとランダムデータ列との間の入力-出力マッピングを作成するための異なる方法を示す。例えば、バーコードは、1つ又は複数の種の両縁部に現れ得るDNAの短い配列の対であり得る。この実施形態では、可能なバーコードの組合せ空間は、プール中の可能な全ての種の総数と比較して、各バーコードに偶然に1つ又は複数の種が関連付けられるように小さいものであり得る。例えば、バーコードが種のランダムなDNA配列の各縁部の3塩基(共通の配列が隣接する)である場合、4=4096個の可能なバーコードが存在し、したがって、それらにアクセスするために構築することができるプライマー対は、4=4096個存在する(12ビット入力に対応する)。およそ400Kの種を有するようにDNAのプールを選択した場合、各バーコードは、平均でおよそ100種に関連付けられる。この実施形態では、RILは、各バーコードに関連付けられる種のサブセットにより定義される。先の例に続き、各種が、バーコード付けに使用された塩基(又は配列)に加えて25個のランダム塩基(又はランダム配列)を含む場合、100種のRILに関連付けられるバーコードは、最大log(425choose100)≒4475ビットの情報を含み得る。
【0370】
[00409] 図46Bは、バーコード付きRILのプールにアクセスし、格納されたランダムデータをそこから読み取る方式の一実施態様を示す。シーケンサ(又はリーダ)は、出力を返す前に配列データを操作する関数を更に含み得る。例えば、ハッシュ関数により、出力データ列を使用して逆の化学的クエリを実行し、入力を見つけることを難しくすることができる。この関数は、例えば、入力が認証のために使用される鍵又は証明である場合に有用であり得る。
【0371】
[00410] 問い合わせ可能な(又はアクセス可能な)データのランダム列を生成し、格納する方法は、暗号鍵(ランダムデータ列から生成される)を生成し、アーカイブするために特に有用であり得る。各入力を使用して、異なる暗号鍵にアクセスし得る。例えば、各入力は、非公開のアーカイブデータベースにおける特定の使用者、時間範囲及び/又はプロジェクトに対応し得る。非公開のアーカイブデータベース中の暗号化されたデータ(潜在的に非常に大きい量のデータに達する)をアーカイブサービスプロバイダーにより従来の媒体に格納させることができる一方、暗号鍵は、所有者がDNAに格納させることができる。さらに、特定の入力に対して化学的アクセスプロトコルを実行するために必要な潜在的な待ち時間及び高度性により、ハッキングに対する暗号化方法のセキュリティバリアを高め得る。
【0372】
[00411] 図47は、アーチファクトへのアクセスを保証及び認証するためのシステムの一例を示す。このシステムは、可能な種の大きいプールからとられたDNAの種の特定の組合せを含む物理的な鍵を必要とする。「識別子鍵」とも称される種の標的組合せは、例えば、組合せマイクロ流体チャネル、エレクトロウェッティング若しくはプリントデバイスにより自動的に又はピペッティングにより手動で生成され得る。ロックが内蔵されているリーダ又はシーケンサにより、マッチする識別子鍵が確証され、アーチファクトへのアクセスが可能になる。代替的に、リーダは、アーチファクトへのアクセスを直接ロック解除する代わりに、アーチファクトへのアクセスに使用することができるトークンを返す証明トークンシステムとして挙動し得る。トークンは、例えば、リーダの組込みハッシュ関数により生成され得る。
【0373】
DNAを用いて実体を追跡し、オブジェクトにタグ付けする方法
[00412] 溶媒中に融解した識別子ライブラリは、物理的な物体中又はそれらの表面上に噴霧、拡散、分注、又は注入されて、オブジェクトに情報をタグ付けし得る。例えば、一意の識別子ライブラリを使用して、オブジェクトの一種の別個のインスタンスにタグ付けし得る。オブジェクト上の識別子ライブラリタグは、一意のバーコードとして作用し得るか、又は製品番号、製造若しくは出荷日、製造部位若しくはオブジェクトの履歴、例えば以前の所有者の取引リストに関する任意の他の情報等のより高度な情報を含み得る。識別子を使用してオブジェクトをタグ付けすることの主な利点は、識別子が検出不可能であり、耐久性があり、膨大な数のオブジェクト事例に個々にタグ付けするのに十分に適することである。
【0374】
[00413] 別の実施形態では、1つ又は複数の物理的位置に識別子ライブラリからの一意の識別子をタグ付けし得る。例えば、物理的部位A、B、及びCに識別子ライブラリを遍在的にタグ付けし得る。部位Aを訪問するか又は部位Aに接触する実体、例えば伝達手段、人又は任意の他のオブジェクトは、意図的に又は非意図的に識別子ライブラリのサンプルを受け取り得る。後に実体にアクセスした際、サンプルを実体から集め、化学的に処理し、復号化して、実体が訪問した部位を識別し得る。実体は、2つ以上の部位を訪問し得、2つ以上のサンプルを受け取り得る。同様のプロセスを使用して、識別子ライブラリが分離されている場合、実体が訪問した部位の一部又は全部を識別し得る。そのような方式は、実体を内密に追跡することに適用性があり得る。この方式を使用する幾つかの利点は、識別子が特異的に探さなければ検出不可能であること、生物学的に不活性になるように設計することができること及び膨大な数の部位又は実体に一意にタグ付けするために使用可能であることである。
【0375】
[00414] 別の実施形態では、識別子ライブラリは、実体にタグ付けされ得る。実体は、注入された識別子のサンプルを訪問した部位に残し得る。これらのサンプルを集め、処理し、復号化して、いずれの実体が部位を訪問した可能性があるかを識別し得る。
【0376】
組合せDNAアセンブリの方法及びシステムの適用
[00415] 大規模な定義された識別子のセットに成分を組合せにより組み合わせる本明細書に記載の方法及びシステムについて、情報技術(例えば、データ格納、計算及び暗号法)に関連するものとしてこれまで説明してきた。しかしながら、これらのシステム及び方法は、より一般的には、高スループット組合せDNAアセンブリの任意の適用に使用し得る。
【0377】
[00416] 一実施形態では、アミノ酸鎖を符号化する組合せDNAのライブラリを作成し得る。それらのアミノ酸鎖は、ペプチド又はタンパク質のいずれかを表し得る。アセンブリのためのDNA断片は、コドン配列を含み得る。断片がそれに沿って組み立てられる接合部は、組合せライブラリの全てのメンバに共通する機能的又は構造的に不活性なコドンであり得る。代替的に、断片がそれに沿って組み立てられる接合部は、後にプロセシングされたペプチド鎖に翻訳されるメッセンジャーRNAから最終的に除去されるイントロンであり得る。特定の断片は、コドンではなく、コドンの各組合せ列で一意にタグ付けされた(他の組み立てられたバーコードと組み合わせて)バーコード配列であり得る。組み立てられた産物(バーコード+コドンの列)を一緒にプールし、インビトロ発現アッセイのために液滴中に封入し得るか、又は一緒にプールし、インビボ発現アッセイのために細胞に導入してそれを形質転換し得る。アッセイは、蛍光出力を有し得、したがって液滴/細胞を蛍光強度により選別してビン内に入れ、その後、それらのDNAバーコードを、各コドン列を特定の出力と相関付けるためにシーケンシングし得る。
【0378】
[00417] 別の実施形態では、RNAを符号化する組合せDNAのライブラリを作成し得る。例えば、組み立てられたDNAは、マイクロRNA又はCRISPR gRNAの組合せを表し得る。プールされたインビトロ又はインビボのいずれかにおけるRNA発現アッセイを、液滴又は細胞のいずれかを用い、またいずれの液滴又は細胞がいずれのRNA配列を含むかに関する追跡を維持するためにバーコードを用いて上記のように実行し得る。しかしながら、出力自体がRNAシーケンシングデータである場合、一部のプールされたアッセイを液滴又は細胞の外で行い得る。そのようなプールされたアッセイの例としては、RNAアプタマースクリーニング及び試験(例えばSELEX)が挙げられる。
【0379】
[00418] 別の実施形態では、代謝経路内の遺伝子を符号化する組合せDNAのライブラリを作成し得る。各DNA断片は、遺伝子発現コンストラクトを含み得る。断片がそれに沿って組み立てられる接合部は、遺伝子間にある不活性なDNA配列を表し得る。液滴又は細胞のいずれかを用いると共に、いずれの液滴又は細胞がいずれの遺伝子経路を含むかに関する追跡を維持するためのバーコードを用いて、プールされたインビトロ又はインビボのいずれかにおける遺伝子経路発現アッセイを上述したように実行し得る。
【0380】
[00419] 別の実施形態では、異なる遺伝子調節エレメントの組合せを有する組合せDNAのライブラリを作成し得る。遺伝子調節エレメントの例には、5’非翻訳領域(UTR)、リボソーム結合部位(RBS)、イントロン、エクソン、プロモータ、ターミネータ及び転写因子(TF)結合部位がある。プールされたインビトロ又はインビボのいずれかにおける遺伝子発現アッセイは、液滴又は細胞のいずれかを用いると共に、いずれの液滴又は細胞がいずれの遺伝子調節コンストラクトを含むかに関する追跡を維持するためのバーコードを用いて、上述したように実行し得る。
【0381】
[00420] 別の実施形態では、組合せDNAアプタマーのライブラリを作成し得る。リガンドに結合するDNAアプタマーの能力を試験するためにアッセイを実行することができる。
【0382】
[00421] 一般に、本明細書に記載の主題及び機能動作の態様は、本明細書に開示された構造及びそれらの構造的同等物を含むデジタル電子回路、コンピュータソフトウェア、ファームウェア、若しくはハードウェアで又はそれらの1つ若しくは複数の組合せで実施することができる。本明細書に記載の主題の態様は、1つ又は複数のコンピュータプログラム製品、即ち、データ処理装置により実行され又はデータ処理装置の動作を制御する、コンピュータ可読媒体に符号化されたコンピュータプログラム命令の1つ又は複数のモジュールとして実施することができる。コンピュータ可読媒体は、機械可読記憶装置、機械可読記憶基板、メモリデバイス、機械可読伝播信号に影響を及ぼす組成物、又はそれらの1つ若しくは複数の組合せであることができる。「データ処理装置」という用語は、例としてプログラマブルプロセッサ、コンピュータ、又は複数のプロセッサ若しくはコンピュータを含む、データを処理するための全ての装置、デバイス、及び機械を包含する。装置は、ハードウェアに加えて、コンピュータプログラムの実行環境を作成するコード、例えば、プロセッサファームウェア、プロトコルスタック、データベース管理システム、オペレーティングシステム、又はそれらの1つ若しくは複数の組合せを構成するコードを含むことができる。伝播信号は、人工的に生成された信号、例えば、適した受信機装置に送信するために情報を符号化するのに生成される機械生成の電子信号、光信号、又は電磁信号である。
【0383】
[00422] コンピュータプログラム(プログラム、ソフトウェア、ソフトウェアアプリケーション、スクリプト、又はコードとしても知られる)は、コンパイル型言語又はインタープリタ型言語を含め、任意の形態のプログラミング言語で書くことができ、スタンドアロンプログラムとして又はモジュール、コンポーネント、サブルーチン、若しくは計算環境での使用に適した他のユニットとしてを含め、任意の形態で展開することができる。コンピュータプログラムは、ファイルシステムにおけるファイルに対応し得る。プログラムは、他のプログラム若しくはデータ(例えば、マークアップ言語ドキュメントに格納された1つ若しくは複数のスクリプト)を保持するファイルの一部、プログラム専用の単一のファイル、又は複数の強調ファイル(例えば、1つ若しくは複数のモジュール、サブプログラム、若しくはコードの一部を格納するファイル)に格納することができる。コンピュータプログラムは、1つの場所に配置され又は複数の場所にわたり分散し、通信ネットワークにより相互接続される1つ又は複数のコンピュータで実行されるようにデプロイすることができる。
【0384】
[00423] 本明細書に記載のプロセス及び論理フローは、1つ又は複数のコンピュータプログラムを実行して、入力データに対して演算し出力を生成することにより機能を実行する1つ又は複数のプログラマブルプロセッサにより実行することができる。プロセス及び論理フローは、専用論理回路、例えば、FPGA(フィールドプログラマブルゲートアレイ)又はASIC(特定用途向け集積回路)により実行されてもよく、装置は専用論理回路として実装されてもよい。
【0385】
[00424] コンピュータプログラムの実行に適したプロセッサは、例として、汎用マイクロプロセッサ及び専用マイクロプロセッサの両方並びに任意の種類のデジタルコンピュータの任意の1つ又は複数のプロセッサを含む。一般に、プロセッサは、命令及びデータを読み取り専用メモリ、ランダムアクセスメモリ、又は両方から受信する。コンピュータの基本要素は、命令を実行するためのプロセッサと、命令及びデータを格納するための1つ又は複数のメモリデバイスとである。一般に、コンピュータは、データを格納するための1つ若しくは複数の大容量記憶装置、例えば、磁気ディスク、磁気光学ディスク、又は光ディスクも含み、又は大容量記憶装置からデータを受信する又は大容量記憶装置にデータを転送する又はその両方を行うように動作可能に結合される。しかしながら、コンピュータはそのようなデバイスを有する必要はない。
【0386】
[00425] 本開示の追加の態様及び利点は、本開示の例示的な実施形態のみが示され説明される以下の詳細な説明から当業者には容易に明らかになろう。気付かれるように、本開示は、他の異なる実施形態も可能であり、その幾つかの細部は種々の明確な点において変更可能であり、これらは全て本開示から逸脱しない。したがって、図面及び説明は制限ではなく例示的な性質のものとして見なされるべきである。
【0387】
[00426] 開示される例は、本明細書に記載の1つ又は複数の他の特長との組合せ又は部分組合せで実施することができる。多様な装置、システム、及び方法が、本開示に基づいて実施可能であり、なお本発明の範囲内である。また、上述した又は先に例示した種々の特徴は、他のシステムと組み合わせられてもよく若しくは統合されてもよく、又は特定の特徴が省かれてもよく若しくは実施されなくてもよい。
【0388】
[00427] 本開示の種々の実施態様を本明細書において示し説明してきたが、そのような実施態様が例としてのみ提供されることが当業者には明らかであろう。ここで当業者ならば、本開示から逸脱せずに多くの変形、変更、及び置換を思いつくであろう。本開示を実施するに当たり、本明細書に記載の開示の実施態様への種々の代替が採用されてもよいことを理解されたい。
【0389】
[00428] 本明細書で引用した全ての引用文献は全体的に参照により援用され、本明細書の一部をなす。
【0390】
例示の例
項目1.ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法であって、
ブロックチェーン取引の鍵を表すデジタル情報を核酸分子の鍵に格納することであって、それにより、核酸分子のライブラリを取得する、格納することと、
核酸分子のライブラリの少なくとも一部をシーケンシングすることであって、それにより、シーケンシング読出しを取得する、シーケンシングすることと、
鍵を表す記号列にシーケンシング読出しを変換することと、
記号列を適用することであって、それにより、ブロックチェーン取引の一部である電子データファイルにアクセスする、適用することと、
を含む方法。
項目2.鍵は秘密鍵である、項目1に記載の方法。
項目3.鍵は公開鍵である、項目1に記載の方法。
項目4.変換することは、復号化マップを使用してシーケンシング読出しを記号列にマッピングすることを含む、項目1~3のいずれか1項に記載の方法。
項目5.復号化マップは、非代替性トークン(NFT)であるか又はNFTを含む、項目4に記載の方法。
項目6.ブロックチェーン取引は暗号通貨取引である、項目1~5のいずれか1項に記載の方法。
項目7.核酸分子のライブラリの少なくとも一部をコピーすることを含む、項目1~6のいずれか1項に記載の方法。
項目8.少なくとも1つの化学的計算ステップを実行することを含む、項目1~7のいずれか1項に記載の方法。
項目9.計算は少なくとも1つのブール論理ゲート演算を含む、項目8に記載の方法。
項目10.追跡又は認証のためにオブジェクトにタグ付けする方法であって、
ブロックチェーンにおける非代替性トークン(NFT)の所有権を表すデジタル情報を核酸分子に格納することであって、それにより、核酸分子のライブラリを取得する、格納することと、
オブジェクトに、ライブラリを構成するタグを関連付けることであって、それにより、追跡及び認証に向けてタグ付けられたオブジェクトを取得する、関連付けることと、
を含む方法。
項目11.デジタル情報は、NFTへの公開鍵を表す、項目10に記載の方法。
項目12.核酸分子のライブラリは、液滴に封入される、項目10又は11に記載の方法。
項目13.核酸分子のライブラリはバイアルに格納される、項目10~12のいずれか1項に記載の方法。
項目14.核酸分子のライブラリは凍結乾燥される、項目10又は11に記載の方法。
項目15.核酸分子のライブラリは、オブジェクトの表面に適用される、項目10~14のいずれか1項に記載の方法。
項目16.核酸分子のライブラリは、生物学的胞子を使用してオブジェクトに適用される、項目10~15のいずれか1項に記載の方法。
項目17.核酸分子のライブラリは、オブジェクトへの微量注入プリントにより適用される、項目10~15のいずれか1項に記載の方法。
項目18.デジタル情報は、オブジェクトの記述を含む、項目10~17のいずれか1項に記載の方法。
項目19.ライブラリは、DNA鎖の幾つかのコピーを含み、デジタル情報は、DNA鎖の幾つかのコピーにより表される、項目10~18のいずれか1項に記載の方法。
項目20.デジタル情報は、ライブラリにおけるDNA鎖の長さ又は重量により表される、項目10~19のいずれか1項に記載の方法。
項目21.オブジェクトは物理的オブジェクトである、項目10~20のいずれか1項に記載の方法。
項目22.オブジェクトは仮想オブジェクトである、項目10~20のいずれか1項に記載の方法。
項目23.ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法であって、
コンピュータネットワークの第1のプロセッサにより、ブロックチェーンのアイテムの取引を要求することと、
コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することと、
取引データブロックを複数のノードが関連付けられたコンピュータネットワークの複数のプロセッサにブロードキャストすることと、
複数のノードが関連付けられたプロセッサにより、取引を検証することと、
コンピュータネットワークの1つ又は複数のプロセッサにより、取引データブロックをブロックチェーンに追加することであって、それにより、更新されたブロックチェーンを取得する、追加することと、
更新されたブロックチェーンのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、更新されたブロックチェーンのデジタル情報を表す核酸分子のライブラリを取得する、格納することと、
取引を完了することと、
を含む方法。
項目24.核酸分子のライブラリは、コピーされ、1つ又は複数のノードに分配される、項目23に記載の方法。
項目25.核酸分子のライブラリはシーケンシングされて、配列情報を取得する、項目23又は24に記載の方法。
項目26.配列情報は、コピーされ、1つ又は複数のノードに分配される、項目25に記載の方法。
項目27.ブロックチェーンでの使用に向けて核酸分子のライブラリを準備する方法であって、
コンピュータネットワークの第1のプロセッサにより、複数の核酸分子にコードされたブロックチェーンのアイテムの取引を要求することと、
コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することと、
取引データブロックのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、取引データブロックのデジタル情報を表す核酸分子のライブラリを取得する、格納することと、
を含む方法。
項目28.核酸分子のライブラリを中央レジスタに転送することと、
中央レジスタにより取引を検証することと、
中央レジスタにより、核酸分子のライブラリをブロックチェーンに追加することであって、それにより、複数の核酸分子にコードされた更新されたブロックチェーンを取得する、追加することと、
取引を完了することと、
を含む、項目27に記載の方法。
項目29.コンピュータネットワークの第1のプロセッサにより、複数の核酸分子にコードされたブロックチェーンのアイテムの取引を要求することと、
コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することと、
取引データブロックのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、取引データブロックのデジタル情報を表す核酸分子のライブラリを取得する、格納することと、
核酸分子のライブラリをコピーすることであって、それにより、ライブラリの複数のコピーを取得する、コピーすることと、
コピーを複数のノードに転送することであって、各ノードは、ブロックチェーンをコードする複数の核酸分子を含む、転送することと、
ノードにより取引を検証することと、
各ノードにより、ライブラリのコピーを、ブロックチェーンをコードする複数の核酸分子に追加することであって、それにより、更新されたブロックチェーンを取得する、追加することと、
取引を完了することと、
を含む、項目28に記載の方法。
項目30.コンピュータネットワークの第1のプロセッサにより、複数の核酸分子を表す配列情報にコードされたブロックチェーンのアイテムの取引を要求することと、
コンピュータネットワークの第2のプロセッサにより、取引データブロックを生成することであって、取引データブロックは、送信者情報、受信者情報、取引金額、及び要求日から選択された少なくとも1つのデータアイテムを含む、生成することと、
取引データブロックのデジタル情報を表すデジタル情報を核酸分子に格納することであって、それにより、取引データブロックのデジタル情報を表す核酸分子のライブラリを取得する、格納することと、
核酸分子のライブラリをシーケンシングすることであって、それにより、ライブラリ配列情報を取得する、シーケンシングすることと、
ライブラリ配列情報を複数のノードが関連付けられたコンピュータネットワークの複数のプロセッサにブロードキャストすることと、
複数のノードが関連付けられたプロセッサにより、取引を検証することと、
コンピュータネットワークの1つ又は複数のプロセッサにより、配列情報をブロックチェーンに追加することであって、それにより、更新されたブロックチェーンを取得する、追加することと、
取引を完了することと、
を含む、項目28に記載の方法。
項目31.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値及び記号列内の記号位置を有する、受信することと、
(b)第1の識別子核酸分子を形成することであって、
(1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、M個の層の各々から1つの成分核酸分子を選択すること、
(2)M個の選択された成分核酸分子を区画に堆積させること、
(3)第1及び第2の層からの成分核酸分子が識別子核酸分子の第1及び第2の末端分子に対応し、第3の層における成分核酸分子が識別子核酸分子の第3の分子に対応し、第1の識別子核酸分子においてM個の層の物理的順序を規定するように、(2)におけるM個の選択された成分核酸分子を物理的にアセンブルすることであって、それにより、第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とを有する第1の識別子核酸分子を形成する、物理的にアセンブルすること、
を行うことにより行われる、形成することと、
(c)複数の追加の識別子核酸分子を形成することであって、追加の識別子核酸分子は各々、(1)第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とを有し、(2)各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、及び第3の分子の少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目32.少なくとも1つの追加の識別子核酸分子の第1及び第2の末端分子の少なくとも一方は、(b)における第1の識別子核酸分子の標的分子と同一である、項目31に記載の方法。
項目33.M個の選択された成分核酸分子を物理的にアセンブルすることは、成分核酸分子のライゲーションを含む、項目31又は32に記載の方法。
項目34.各層からの成分核酸分子は、別の層からの成分核酸分子の少なくとも1つの粘着末端と相補的な少なくとも1つの粘着末端を含み、(b)及び(c)における識別子核酸分子の形成のための粘着末端ライゲーションを可能にする、項目31~33のいずれか1項に記載の方法。
項目35.(c)における少なくとも1つの追加の識別子核酸分子の第1の分子は、(b)における識別子核酸分子の第1の末端分子と同一であり、(c)における少なくとも1つの追加の識別子核酸分子の第2の末端分子は、(b)における識別子核酸分子の第2の末端分子と同一である、項目31~34のいずれか1項に記載の方法。
項目36.プローブを使用することであって、それにより、第1の識別子核酸分子及び複数の追加の識別子核酸分子における少なくとも幾つかの識別子核酸分子の標的分子にハイブリダイズし、連続記号位置を有する各記号に対応する識別子核酸分子を選択する、使用することを更に含む項目31~35のいずれか1項に記載の方法。
項目37.単一PCR反応を適用することであって、それにより、連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を増幅する、適用することを更に含む項目31~36のいずれか1項に記載の方法。
項目38.連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子は、識別子核酸分子の第3の分子中の特定の成分核酸分子を標的とする別のPCR反応により更に増幅可能である、項目37に記載の方法。
項目39.各層における成分核酸分子は、第1及び第2の末端領域を用いて構造化され、M個の層のうちの1つからの各成分核酸分子の第1の末端領域は、M個の層のうちの別の層からの任意の成分核酸分子の第2の末端領域に結合するような構造である、項目31~38のいずれか1項に記載の方法。
項目40.Mは3以上である、項目31~39のいずれか1項に記載の方法。
項目41.記号列内の各記号位置は、対応する異なる識別子核酸分子を有する、項目31~40のいずれか1項に記載の方法。
項目42.(b)及び(c)における識別子核酸分子は、各々がM個の層の各々からの1つの成分核酸分子を含む、可能な識別子核酸分子の組合せ空間のサブセットを表す、項目31~41のいずれか1項に記載の方法。
項目43.(d)におけるプール中の識別子核酸分子の有無は、記号列内の対応する各記号位置の記号値を表す、項目42に記載の方法。
項目44.連続記号位置を有する記号は、類似のデジタル情報を符号化する、項目31~43のいずれか1項に記載の方法。
項目45.M個の層の各々における成分核酸分子の数の分布は、非均一である、項目31~44のいずれか1項に記載の方法。
項目46.第3の層が第1の層又は第2の層のいずれよりも多くの成分核酸分子を含む場合、(d)におけるプールにアクセスするために使用されるPCRクエリは、第3の層が第1の層又は第2の層のいずれよりも少ない成分核酸分子を含む場合よりも大きな、アクセスされる識別子核酸分子のプールを生成する、項目45に記載の方法。
項目47.第3の層が第1の層又は第2の層のいずれよりも少ない成分核酸分子を含む場合、(d)におけるプールにアクセスするために使用されるPCRクエリは、第3の層が第1の層又は第2の層のいずれよりも多くの成分核酸分子を含む場合よりも小さな、アクセスされる識別子核酸分子のプールを生成し、より小さな、アクセスされる識別子核酸成分のプールは、記号列中の記号へのより高分解能のアクセスに対応する、項目46に記載の方法。
項目48.第1の層は最高優先度を有し、第2の層は2番目に高い最高優先度を有し、残りのM-2個の層は、第1の末端分子と第2の末端分子との間の対応する成分核酸分子を有する、項目31~47のいずれか1項に記載の方法。
項目49.(d)におけるプールは、第1及び第2の末端分子に特定の成分核酸分子を有する、プール中の全ての識別子核酸分子に1回のPCR反応でアクセスするのに使用することが可能である、項目48に記載の方法。
項目50.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有し、デジタル情報は、ベクトルの集まりにより表される画像データを含む、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目51.M個の層の少なくとも幾つかは、画像データの異なる特徴に対応する、項目50に記載の方法。
項目52.異なる特徴は、x座標、y座標、及び強度値又は強度値範囲を含む、項目51に記載の方法。
項目53.画像データを核酸分子に格納することにより、ランダムアクセス方式を使用して、色値について任意の近隣ピクセルに問い合わせることが可能になる、項目50~52のいずれか1項に記載の方法。
項目54.画像データを核酸分子に格納することにより、画像データの元の分解能の数分の一で画像データを復号化することが可能になる、項目50~53のいずれか1項に記載の方法。
項目55.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有し、デジタル情報は、ベクトルの集まりにより表される画像データを含む、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、複数の識別子核酸分子の各々は、(1)第1及び第2の末端分子と、第1の末端分子と第2の末端分子との間に位置する第3の分子とを有し、(2)各記号位置に対応し、少なくとも1つの追加の識別子核酸分子の第1の末端分子、第2の末端分子、及び第3の分子の少なくとも1つは、(b)における第1の識別子核酸分子の標的分子と同一であり、単一のプローブが、記号列内で関連する記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目56.画像データを核酸分子に格納することにより、画像データの元の分解能の数分の一で画像データを復号化することが可能になり、画像データを数分の一で復号化することは、関心のあるフレームを識別するために監視画像のアーカイブ又はビデオアーカイブにおいて特定の視覚的特徴を探すのに使用される、項目55に記載の方法。
項目57.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、クリックケミストリを使用してM個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目58.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、(e)プールに収集された少なくとも幾つかのデータを削除することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目59.配列に特異的なプローブを使用することであって、それにより、(d)におけるプールから選択識別子核酸分子をプルダウンして、データを選択的に削除する、使用することを更に含む項目58に記載の方法。
項目60.選択識別子核酸分子は、CRISPRベースの方法を使用して選択的に削除される、項目59に記載の方法。
項目61.(d)におけるプール中の識別子核酸分子を不明瞭化して、データを非選択的に削除することを更に含む項目58~60のいずれか1項に記載の方法。
項目62.超音波処理、オートクレーブ、漂白、塩基、酸、臭化エチジウム、又は他のDNA改変剤を用いた処置、照射、燃焼、及び非特異的ヌクレアーゼ消化を使用して、(d)におけるプールからの識別子核酸分子を分解して、データを非選択的に削除することを更に含む項目58~61のいずれか1項に記載の方法。
項目63.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)固定長以下のサイズの1つ又は複数のブロックに記号列を分割することと、
(c)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(d)複数の識別子核酸分子を形成することであって、複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、(e)粉体、液体、又は固体の形態を有するプールに、(c)及び(d)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目64.記号列、処理要件、又はデジタル情報の意図される用途に基づいて各ブロックのサイズを決定することを更に含む項目63に記載の方法。
項目65.各ブロックのハッシュを計算することを更に含む項目63又は64に記載の方法。
項目66.1つ又は複数の誤り検出及び修正を各ブロックに適用することと、1つ又は複数の誤り保護バイトを計算することとを更に含む項目63~65のいずれか1項に記載の方法。
項目67.符号化又は復号化中、化学条件を最適化するコードワードのセットに1つ又は複数のブロックをマッピングすることを更に含む項目63~66のいずれか1項に記載の方法。
項目68.コードワードのセットは、固定数の識別子核酸分子が、ライタシステムにおける各反応区画で、各反応区画内及び複数の反応区画にわたり概ね等しい濃度でアセンブルされるような固定重量を有する、項目67に記載の方法。
項目69.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
(e)(d)における識別子核酸分子を使用して、AND、OR、NOT、又はNANDを含むブール論理演算が関わる計算を記号列に対して実行することであって、それにより、核酸分子の新しいプールを生成する、実行することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目70.計算は、識別子核酸分子のいずれも復号化することなく、(d)における識別子核酸分子のプールに対して実行されて、記号列中の任意の記号を取得する、項目69に記載の方法。
項目71.計算を実行することは、ハイブリダイゼーション及び切断を含む一連の化学動作を含む、項目69又は70に記載の方法。
項目72.(a)における記号列はaと示され、サブビットストリームsを含み、(d)におけるプール中の複数の識別子核酸分子は2本鎖であり、dsAと示され、方法は、dsBと示され、サブビットストリームtを含むbと示される別の記号列を表す、別の複数の識別子核酸分子の別のプールを取得することを更に含み、計算は、一連のステップをdsA及びdsBに対して実行することによりサブビットストリームs及びtに対して実行される、項目69~71のいずれか1項に記載の方法。
項目73.dsA及びdsBに対する一連のステップは、初期化ステップを実行することを含み、初期化ステップは、
(1)dsAにおける2本鎖識別子核酸分子をAと示されるポジティブ1本鎖形態に変換することと、
(2)dsAにおける2本鎖識別子核酸分子をAと示されるネガティブ1本鎖形態に変換することであって、AはAの逆相補である、変換することと、
(3)dsBにおける2本鎖識別子核酸分子をBと示されるポジティブ1本鎖形態に変換することと、
(4)dsBにおける2本鎖識別子核酸分子をBと示されるネガティブ1本鎖形態に変換することであって、BはBの逆相補である、変換することと、
(5)sに対応するdsA中の識別子核酸分子としてdsPを選択することと、
(6)sに対応するA中の識別子核酸分子としてPを選択することと、
(7)tに対応するdsBにおける識別子核酸分子としてdsQを選択することと、
(8)tに対応するB中の識別子核酸分子としてQを選択することと、
を含む、項目72に記載の方法。
項目74.(9)sに対応する識別子核酸分子を削除するようにA又はdsAを更新することと、
(10)tに対応する識別子核酸分子を削除するようにB又はdsBを更新することと、
を更に含む項目73に記載の方法。
項目75.計算はAND演算であり、dsA及びdsBに対する一連のステップは、
(1)A及びBを組み合わせ、相補的核酸分子をハイブリダイズし、完全相補的2本鎖核酸分子を核酸分子の新しいプールとして選択することにより、aとbとの間でAND演算を実行すること、又は
(2)P及びQを組み合わせ、相補的核酸分子をハイブリダイズし、完全相補的核酸分子を核酸分子の新しいプールとして選択することにより、sとtとの間でAND演算を実行すること
を更に含む、項目72~74のいずれか1項に記載の方法。
項目76.完全相補的核酸分子を選択することは、クロマトグラフィ、ゲル電気泳動、1本鎖特異的エンドヌクレアーゼ、1本鎖特異的エクソヌクレアーゼ、又はそれらの組合せを使用することを含む、項目75に記載の方法。
項目77.計算はOR演算であり、dsA及びBに対する一連のステップは、
(a)dsA及びdsBを組み合わせて核酸分子の新しいプールを生産することにより、aとbとの間でOR演算を実行すること、又は
(b)dsP及びdsQを組み合わせて核酸分子の新しいプールを生産することにより、sとtとの間でOR演算を実行すること
を更に含む、項目72~74のいずれか1項に記載の方法。
項目78.核酸分子の新しいプールを含むようにA又はdsAを更新することを更に含む項目74~77のいずれか1項に記載の方法。
項目79.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することと、
(d)(b)及び(c)における識別子核酸分子を別個のビンに区画化することであって、各ビンは異なる記号値に対応する、区画化することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目80.第1のタイプの記号のビンは、第1のタイプの記号を有する記号位置に対応する識別子核酸分子を含む、項目79に記載の方法。
項目81.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分のセットから選択されたM個の選択された成分を区画に堆積させ、M個の選択された成分を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目82.M個の選択された成分の個々の成分は、複数の部分を含み、各部分は核酸分子を含み、各部分は、1つ又は複数の化学的方法により同じ識別子にリンクされる、項目81に記載の方法。
項目83.上記複数の部分は各々、異なるデータ格納動作に対して別個の機能目的を果たす、項目82に記載の方法。
項目84.上記機能目的は、核酸ハイブリダイゼーションによるシーケンシングの容易さ及びアクセスの容易さを含む、項目83に記載の方法。
項目85.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)塩基エディタを適用することにより、親識別子中の1つ又は複数の塩基をプログラマブルに変異させることにより第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、各識別子核酸分子は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目86.塩基エディタはdCas9デアミナーゼを含む、項目85に記載の方法。
項目87.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)M個の異なる層に分けられる区別可能な成分核酸分子のセットから選択されたM個の選択された成分核酸分子を区画に堆積させ、M個の選択された成分核酸分子を物理的にアセンブルすることにより、第1の識別子核酸分子を形成することと、
(c)複数の識別子核酸分子を形成することであって、複数の識別子核酸分子の各々は各記号位置に対応する、形成することと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
項目88.項目87に記載の方法の適用であって、適用は、情報の暗号化、実体の認証、又はランダム化が関わる適用でのエントロピー源としての使用を含む、適用。
項目89.項目81又は87に記載の方法の適用であって、1つ又は複数のばらばらの識別子ライブラリからの識別子核酸分子が、実体又は物理的場所を一意に識別するのに使用される、適用。
項目90.デジタル情報を幾つかのランダムDNA種の区画に符号化することを含む、項目30~89のいずれか1項に記載の方法。
項目91.可能なDNA種の大きな組合せプールからDNA種をランダムにサンプリング及びシーケンシングすることにより、ランダムデータを生成することを含む、項目30~90のいずれか1項に記載の方法。
項目92.可能なDNA種の大きな組合せプールからDNA種のサブセットをランダムにサンプリング及びシーケンシングすることにより、ランダムデータを生成及び格納することを含む、項目30~9’のいずれか1項に記載の方法。
項目93.DNA種の上記サブセットは増幅されて、それぞれの種の複数のコピーを作成する、項目92に記載の方法。
項目94.誤りチェック及び修正用の核酸分子が、DNA種の上記サブセットに追加されて、ロバストな特徴読出しを可能にする、項目92又は93に記載の方法。
項目95.DNA種の上記サブセットは、一意の分子を用いてバーコード化され、DNA種のバーコード化されたサブセットのプールにおいて組み合わせされる、項目92に記載の方法。
項目96.DNA種のバーコード化されたサブセットの上記プール中のDNA種の特定のサブセットは、PCR又は核酸捕捉用の入力核酸プローブを用いてアクセス可能である、項目95に記載の方法。
項目97.(1)規定されたセットからのDNA種のサブセットで構成されるDNA鍵と、(2)鍵を受け入れ、上記アーチファクトをローカルにアンロックするために合致する鍵を探すか又は他の場所でアーチファクトにアクセスするためにハッシュ化されたトークンを返すDNAリーダとを含むシステムを用いて、物理又は仮想的なオブジェクトをセキュア化及び認証する方法。
項目98.デジタル情報を核酸分子に格納することは、
(a)記号列としてデジタル情報を受信することであって、記号列中の各記号は、記号値と、記号列内の記号位置とを有する、受信することと、
(b)第1の識別子核酸分子を形成することであって、
(1)M個の異なる層に分けられた区別可能な成分核酸分子のセットから、M個の層の各々から1つの成分核酸分子を選択すること、
(2)M個の選択された成分核酸分子を区画に堆積させること、
(3)(2)におけるM個の選択された成分核酸分子を物理的にアセンブルして、少なくとも1つの標的分子を含む指定された成分を含む第1の識別子核酸分子を形成し、指定された成分を含む第1の識別子核酸分子のアクセスを可能にすること、
を行うことにより行われる、形成することと、
(c)複数の追加の識別子核酸分子を物理的にアセンブルすることであって、複数の追加の識別子核酸分子は各々、指定された成分を有し、指定された成分は、(b)における第1の識別子核酸分子の少なくとも1つの標的分子を含み、プローブが、記号列内で連続記号位置を有する各記号に対応する少なくとも2つの識別子核酸分子を選択できるようにする、アセンブルすることと、
(d)粉体、液体、又は固体の形態を有するプールに、(b)及び(c)における識別子核酸分子を収集することと、
を含む、項目1~30のいずれか1項に記載の方法。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11A
図11B
図12A
図12B
図13
図14
図15A
図15B
図16
図17
図18
図19A
図19B
図20A
図20B
図20C
図20D
図20E
図20F
図20G
図21A
図21B
図21C
図21D
図22A
図22B
図23A
図23B
図24A
図24B
図25
図26A
図26B
図26C
図27A
図27B
図28
図29
図30
図31
図32A
図32B
図33A
図33B
図34
図35
図36
図37
図38
図39
図40
図41
図42
図43A-43C】
図43D-43E】
図43F-43G】
図44
図45A
図45B
図45C
図46A
図46B
図47
【国際調査報告】