特表2024-542016 | 知財ポータル「IP Force」

知財求人 - 知財ポータルサイト「IP Force」

▶ インターナショナル・ビジネス・マシーンズ・コーポレーションの特許一覧

特表2024-542016複合断片を使用するＤＮＡデータ・ストレージ

書誌要約請求の範囲詳細な説明課題実施例実施するための形態図面の説明

目に優しい文字サイズ小中大 PDF Top

< >

1
2
3
4
5
6
7
8
9
10
11

(19)【発行国】日本国特許庁(JP)

(12)【公報種別】公表特許公報(A)

(11)【公表番号】

(43)【公表日】2024-11-13

(54)【発明の名称】複合断片を使用するＤＮＡデータ・ストレージ

(51)【国際特許分類】

G16B 50/00 20190101AFI20241106BHJP

【ＦＩ】

G16B50/00

【審査請求】未請求

【予備審査請求】未請求

(21)【出願番号】P 2024525608

(86)(22)【出願日】2022-11-16

(85)【翻訳文提出日】2024-04-30

(86)【国際出願番号】 EP2022082087

(87)【国際公開番号】W WO2023094234

(87)【国際公開日】2023-06-01

(31)【優先権主張番号】17/533,720

(32)【優先日】2021-11-23

(33)【優先権主張国・地域又は機関】US

(81)【指定国・地域】

(71)【出願人】

【識別番号】390009531

【氏名又は名称】インターナショナル・ビジネス・マシーンズ・コーポレーション

【氏名又は名称原語表記】ＩＮＴＥＲＮＡＴＩＯＮＡＬＢＵＳＩＮＥＳＳＭＡＣＨＩＮＥＳＣＯＲＰＯＲＡＴＩＯＮ

【住所又は居所原語表記】ＮｅｗＯｒｃｈａｒｄＲｏａｄ，Ａｒｍｏｎｋ，ＮｅｗＹｏｒｋ１０５０４，ＵｎｉｔｅｄＳｔａｔｅｓｏｆＡｍｅｒｉｃａ

(74)【代理人】

【識別番号】100112690

【弁理士】

【氏名又は名称】太佐種一

(74)【代理人】

【識別番号】100120710

【弁理士】

【氏名又は名称】片岡忠彦

(72)【発明者】

【氏名】益田幸治

(72)【発明者】

【氏名】山根敏志

(57)【要約】

情報をポリヌクレオチドに格納するためのコンピュータ実装方法であって、複数の種類のヌクレオチド断片を使用することであり、ヌクレオチド断片のそれぞれが、個々に異なる塩基配列を有する、使用することと、複数の複合断片を構成することであり、複合断片のそれぞれが、異なる比率でヌクレオチド断片を含む前記ヌクレオチド断片のセットを有する、構成することと、エンコーダにより情報を複合断片にコード化することとを含む方法が提供される。

【特許請求の範囲】

【請求項1】

情報をポリヌクレオチドに格納するためのコンピュータ実装方法であって、
複数の種類のヌクレオチド断片を使用することであり、前記ヌクレオチド断片のそれぞれは、個々に異なる塩基配列を有する、前記使用することと、
複数の複合断片を構成することであり、前記複合断片のそれぞれは、異なる比率で前記ヌクレオチド断片を含む前記ヌクレオチド断片のセットを有する、前記構成することと、
エンコーダにより前記情報を前記複合断片にコード化することと
を含む方法。

【請求項2】

ポリヌクレオチド配列を生成することをさらに含み、前記複合断片の前記ヌクレオチド断片のそれぞれが、前記ポリヌクレオチド配列のそれぞれの同じ位置に組み込まれる、請求項１に記載のコンピュータ実装方法。

【請求項3】

前記エンコーダが、デジタル情報のビットを前記複合断片のセットにマッピングする、請求項１に記載のコンピュータ実装方法。

【請求項4】

前記複合断片の状態ベクトルが、

【数1】

として与えられ、ここで、σ_ｉ＝０、１、２、…、ｋがｉ番目の断片の番号である、請求項１に記載のコンピュータ実装方法。

【請求項5】

解像度が、

【数2】

として与えられる、請求項４に記載のコンピュータ実装方法。

【請求項6】

前記状態ベクトルの完全なセットが、

【数3】

として与えられる、請求項５に記載のコンピュータ実装方法。

【請求項7】

コード化に使用される状態ベクトルの前記完全なセットのサブセットが、

【数4】

として与えられる、請求項６に記載のコンピュータ実装方法。

【請求項8】

Σ_ｍが、

【数5】

の間の平均距離を最大化するように選択される、請求項７に記載のコンピュータ実装方法。

【請求項9】

デジタル情報を複合断片のセットにマッピングすることと、
断片をアセンブルして、配列の位置における混合比が状態ベクトルを表すように、前記複合断片を生化学的に連結し、コード化ＤＮＡ分子を生成することと、
所定の深さの前記コード化ＤＮＡ分子のプールからサンプリングし、各複合断片の読取りをカウントすることと、
前記混合比を周波数ベクトルから推測し、最も近い状態ベクトルを特定し、バイナリ表示に戻すようマッピングすることと
をさらに含む、請求項１に記載のコンピュータ実装方法。

【請求項10】

複合断片にコード化された情報を解釈するためのコンピュータ実装方法であって、
ポリヌクレオチド配列を解析して、前記ポリヌクレオチド配列のそれぞれの塩基配列を決定することと、
前記ポリヌクレオチド配列のそれぞれの位置に対応する前記複合断片のそれぞれについての配列比を取得することと、
デコーダにより、前記複合断片のそれぞれについての前記配列比に基づいて前記情報をデコードすることと
を含む方法。

【請求項11】

前記複合断片のそれぞれは、異なる比率でヌクレオチド断片のセットを有する、請求項１０に記載のコンピュータ実装方法。

【請求項12】

前記ヌクレオチド断片のそれぞれは、個々に異なる塩基配列を有する、請求項１１に記載のコンピュータ実装方法。

【請求項13】

前記複合断片のそれぞれは、各ポリヌクレオチド配列の同じ位置に組み込まれる、請求項１２に記載のコンピュータ実装方法。

【請求項14】

シークエンサが、所定の深さの前記コード化情報のプールからサンプリングし、前記複合断片のそれぞれの読取りをカウントする、請求項１０に記載のコンピュータ実装方法。

【請求項15】

前記デコーダが、前記複合断片の最も近い状態ベクトルを特定する、請求項１０に記載のコンピュータ実装方法。

【請求項16】

前記デコーダが、前記複合断片をバイナリ表示にさらにマッピングする、請求項１５に記載のコンピュータ実装方法。

【請求項17】

情報をポリヌクレオチドに格納するためのコンピュータ・プログラム製品であって、
プログラム命令が組み込まれたコンピュータ可読記憶媒体を含み、前記プログラム命令が、コンピュータが、
複数の種類のヌクレオチド断片を使用し、
複数の複合断片を構成し、
エンコーダにより前記情報を前記複合断片にコード化する
ように、前記コンピュータによって実行可能であり、
前記ヌクレオチド断片のそれぞれは、個々に異なる塩基配列を有し、
前記複合断片のそれぞれは、異なる比率で前記ヌクレオチド断片を含む前記ヌクレオチド断片のセットを有する、コンピュータ・プログラム製品。

【請求項18】

前記ポリヌクレオチド配列が生成され、前記複合断片の前記ヌクレオチド断片のそれぞれが、前記ポリヌクレオチド配列のそれぞれの同じ位置に組み込まれる、請求項１７に記載のコンピュータ・プログラム製品。

【請求項19】

前記エンコーダが、デジタル情報のビットを前記複合断片のセットにマッピングする、請求項１７に記載のコンピュータ・プログラム製品。

【請求項20】

前記複合断片の状態ベクトルが、

【数6】

として与えられ、ここで、σ_ｉ＝０、１、２、…、ｋがｉ番目の断片の番号である、請求項１７に記載のコンピュータ・プログラム製品。

【請求項21】

前記状態ベクトルの完全なセットが、

【数7】

として与えられる、請求項２０に記載のコンピュータ・プログラム製品。

【請求項22】

コード化に使用される状態ベクトルの前記完全なセットのサブセットが、

【数8】

として与えられる、請求項２１に記載のコンピュータ・プログラム製品。

【請求項23】

複合断片にコード化された情報を解釈するためのコンピュータ・プログラム製品であって、
プログラム命令が組み込まれたコンピュータ可読記憶媒体を含み、前記プログラム命令が、コンピュータが、
ポリヌクレオチド配列を解析して、前記ポリヌクレオチド配列のそれぞれの塩基配列を決定し、
前記ポリヌクレオチド配列のそれぞれの位置に対応する前記複合断片のそれぞれについての配列比を取得し、
デコーダにより、前記複合断片のそれぞれについての前記配列比に基づいて前記情報をデコードする
ように、前記コンピュータによって実行可能である、コンピュータ・プログラム製品。

【請求項24】

前記複合断片のそれぞれは、異なる比率でヌクレオチド断片のセットを有し、前記ヌクレオチド断片のそれぞれが、個々に異なる塩基配列を有し、前記複合断片のそれぞれが、各ポリヌクレオチド配列の同じ位置に組み込まれる、請求項２３に記載のコンピュータ・プログラム製品。

【請求項25】

情報をポリヌクレオチドに格納するためのシステムであって、
デジタル情報を複合断片のセットにマッピングするためのエンコーダと、
配列の位置における混合比が状態ベクトルを表すように、前記複合断片を生化学的に連結し、コード化ＤＮＡ分子を生成するための断片アセンブリと、
所定の深さの前記コード化ＤＮＡ分子のプールからサンプリングし、各複合断片の読取りをカウントするためのシークエンサと、
前記混合比を周波数ベクトルから推測し、最も近い状態ベクトルを特定し、バイナリ表示に戻すようマッピングするためのデコーダと
を備えるシステム。

【請求項26】

前記複合断片の状態ベクトルが、

【数9】

として与えられ、ここで、σ_ｉ＝０、１、２、…、ｋがｉ番目の断片の番号である、請求項２５に記載のシステム。

【請求項27】

コンピュータ・プログラムであって、前記プログラムがコンピュータ上で実行されたときに、請求項１～１６のいずれか一項に記載の方法を実行するように構成されたプログラム・コード手段を含むコンピュータ・プログラム。

【発明の詳細な説明】

【技術分野】

【0001】

本発明は、一般に、ＤＮＡデータ・ストレージに関し、より詳細には、複合断片を使用するＤＮＡデータ・ストレージのための方法およびシステムに関する。

【背景技術】

【0002】

デジタル・ユニバースは、２０２５年までに年間約１７５ゼタバイトのデータを追加する可能性がある。１７５ゼタバイトは、１７５の後にゼロが２１個続く。その情報量を維持するために、大規模データ・センタおよび膨大なエネルギー・リソースが必要になる。研究者らは、持続可能な安定した代替手段としてＤＮＡを支持している。

【0003】

多くの人は、ＤＮＡについて考えるとき、コンピュータではなく生命のことを考える。しかしながら、ＤＮＡは、それ自体、生物に関する情報を伝えるための４文字のコードである。ＤＮＡ分子は、それぞれ文字によって識別される４種類の塩基またはヌクレオチド、すなわち、アデニン（Ａ）、チミン（Ｔ）、グアニン（Ｇ）、およびシトシン（Ｃ）から構成されている。これらはすべてのＤＮＡコードの基礎であり、地球上のすべての生物を構築するための取扱説明書を提供する。

【0004】

かなりよく理解されている技術であるＤＮＡ合成は、医学、医薬品、およびバイオ燃料開発において広く使用されているが、これらはほんの一部の適用にすぎない。この技術は、Ａ、Ｃ、Ｇ、Ｔの特定の配列によって示される様々な配置に塩基を編成する。これらの塩基は、互いにねじれた鎖（よく知られた二重らせん）で巻き付いて分子を形成する。これらの文字を配列に配置することにより、生物に形成方法を伝えるコードが作成される。

【0005】

ＤＮＡ分子の完全なセットは、ゲノム、すなわち、人の身体の青写真を構成する。ＤＮＡ分子を合成すること、すなわちゼロから作ることによって、研究者らは、文字Ａ、Ｃ、Ｇ、Ｔの長い文字列を特定しまたは書き込み、その後、これらの配列を読み戻すことができることを見出した。このプロセスは、コンピュータがバイナリ情報を格納する方法に類似している。そのことから、このプロセスは、バイナリ・コンピュータ・ファイルを分子にコード化するための短い概念的ステップであった。

【0006】

この方法は機能することがわかっているが、現在、ＤＮＡコード化ファイルの読取りおよび書込みには時間がかかる。ＤＮＡに１つの塩基を付加するのに、約１秒かかる。この速度でアーカイブ・ファイルを書き込むには、数十年かかる可能性があるが、一度に多くの分子に書き込む超並列動作を含む、より高速な方法が、研究で開発されている。

【0007】

ＡＤＳＣｏｄｅｘは、正に、０と１とをＡ、Ｃ、Ｇ、Ｔの４文字の組合せの配列に変換する方法を示す。Ｃｏｄｅｘは、バイナリへ戻すデコードも処理する。ＤＮＡをいくつかの方法によって合成することができ、ＡＤＳＣｏｄｅｘは、これらの方法すべてに対応することができる。

【0008】

残念なことに、従来のデジタル・システムと比較して、ＤＮＡ合成による分子ストレージへの書込み中のエラー率は非常に高い。これらのエラーは、デジタル世界とは異なるソースから生じるため、修正がより難しい。デジタル・ハード・ディスクでは、０が１に反転するまたは１が０に反転するとバイナリ・エラーが生じる。ＤＮＡでは、挿入エラーおよび削除エラーから問題が生じる。例えば、ユーザは、Ａ－Ｃ－Ｇ－Ｔと書いているが、Ａと書こうとして何も表示されないことがあるため、文字の配列が左にずれる、またはＡＡＡと入力することがある。

【0009】

通常のエラー修正コードは、この種の問題に対して十分に機能しないため、ＡＤＳＣｏｄｅｘは、データを認証するエラー検出コードを追加している。ソフトウェアは、データをバイナリに戻すよう変換するときに、コードが一致することを確認するためにテストする。一致しない場合、認証が成功するまで、塩基、すなわち文字を除去または追加する。しかしながら、問題は依然として残っている。

【0010】

したがって、ＤＮＡデータ・ストレージのためのより効率的な方法が必要である。

【発明の概要】

【0011】

本発明の一態様によれば、情報をポリヌクレオチドに格納するためのコンピュータ実装方法（コンピュータに実装される方法）が提供される。コンピュータ実装方法は、複数の種類のヌクレオチド断片を使用することであり、ヌクレオチド断片のそれぞれが、個々に異なる塩基配列を有する、使用することと、複数の複合断片を構成することであり、複合断片のそれぞれが、異なる比率でヌクレオチド断片を含むヌクレオチド断片のセットを有する、構成することと、エンコーダを介して情報を複合断片にコード化することとを含む。

【0012】

本発明の別の態様によれば、複合断片にコード化された情報を解釈するためのコンピュータ実装方法が提供される。コンピュータ実装方法は、ポリヌクレオチド配列を解析して、ポリヌクレオチド配列のそれぞれの塩基配列を決定することと、ポリヌクレオチド配列のそれぞれの位置に対応する複合断片のそれぞれについての配列比を取得することと、デコーダにより、複合断片のそれぞれについての配列比に基づいて情報をデコードすることとを含む。

【0013】

本発明の別の態様によれば、情報をポリヌクレオチドに格納するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、プログラム命令が組み込まれたコンピュータ可読記憶媒体を含み、プログラム命令は、コンピュータが、複数の種類のヌクレオチド断片を使用し、複数の複合断片を構成し、エンコーダを介して情報を複合断片にコード化するように、コンピュータによって実行可能であり、ヌクレオチド断片のそれぞれが、個々に異なる塩基配列を有し、複合断片のそれぞれが、異なる比率でヌクレオチド断片を含むヌクレオチド断片のセットを有する。

【0014】

本発明の別の態様によれば、複合断片にコード化された情報を解釈するためのコンピュータ・プログラム製品が提供される。コンピュータ・プログラム製品は、プログラム命令が組み込まれたコンピュータ可読記憶媒体を含み、プログラム命令は、コンピュータが、ポリヌクレオチド配列を解析して、ポリヌクレオチド配列のそれぞれの塩基配列を決定し、ポリヌクレオチド配列のそれぞれの位置に対応する複合断片のそれぞれについての配列比を取得し、デコーダにより、複合断片のそれぞれについての配列比に基づいて情報をデコードするように、コンピュータによって実行可能である。

【0015】

本発明のさらに別の態様によれば、情報をポリヌクレオチドに格納するためのシステムが提供される。システムは、デジタル情報を複合断片のセットにマッピングするためのエンコーダと、配列の位置における混合比が状態ベクトルを表すように、複合断片を生化学的に連結し、コード化ＤＮＡ分子を生成するための断片アセンブリと、所定の深さのコード化ＤＮＡ分子のプールからサンプリングし、各複合断片の読取りをカウントするためのシークエンサと、混合比を周波数ベクトルから推測し、最も近い状態ベクトルを特定し、バイナリ表示に戻すようマッピングするためのデコーダとを備える。

【0016】

１つの好ましい実施形態において、ポリヌクレオチド配列は、複合断片のヌクレオチド断片のそれぞれが、ポリヌクレオチド配列のそれぞれの同じ位置に組み込まれるように生成される。

【0017】

別の好ましい実施形態において、エンコーダは、デジタル情報のビットを複合断片のセットにマッピングする。

【0018】

さらに別の好ましい実施形態において、複合断片の状態ベクトルが、

【数1】

として与えられ、ここで、σ_ｉ＝０、１、２、…、ｋはｉ番目の断片の番号である。

【0019】

さらに別の好ましい実施形態において、解像度が、

【数2】

として与えられる。

【0020】

さらに別の好ましい実施形態において、状態ベクトルの完全なセットが、

【数3】

として与えられる。

【0021】

さらに別の好ましい実施形態において、コード化に使用される状態ベクトルの完全なセットのサブセットが、

【数4】

として与えられる。

【0022】

さらに別の好ましい実施形態において、Σ_ｍが、

【数5】

の間の平均距離を最大化するように選択される。

【0023】

１つの好ましい実施形態において、複合断片のそれぞれは、異なる比率でヌクレオチド断片のセットを有する。

【0024】

別の好ましい実施形態において、ヌクレオチド断片のそれぞれが、個々に異なる塩基配列を有する。

【0025】

さらに別の好ましい実施形態において、複合断片のそれぞれが、各ポリヌクレオチド配列の同じ位置に組み込まれる。

【0026】

さらに別の好ましい実施形態において、シークエンサが、所定の深さのコード化情報のプールからサンプリングし、複合断片のそれぞれの読取りをカウントする。

【0027】

さらに別の好ましい実施形態において、デコーダが、複合断片の最も近い状態ベクトルを特定する。

【0028】

さらに別の好ましい実施形態において、デコーダが、複合断片をバイナリ表示にさらにマッピングする。

【0029】

本発明の利点は、少なくとも、所与の値ｋについて、状態｜Φ^ｎ，ｋ｜の数がｎによって大幅に増加し得ることを含むことである。複合断片手法（ｎ＞４）は、単一の合成サイクル（例えば、ビット／合成）でより多くの情報を圧縮することができ、有利である。加えて、閾値精度（例えば、９０％）を実現するために必要な「深さ」は、ｎではなくｋのみによって増加する。したがって、複合断片手法は、読出し精度およびコストに妥協することなく、より高いビット／合成を実現することができるため、有利である。合成のコストおよび時間は、複合断片（ｎ＞４）によって実現されるビット／合成と複合ＤＮＡ（ｎ＝４）のビット／合成にとの比率に比例する倍率で改善され、有利である。さらに、ｎを増加させること、ならびに効率的な断片アセンブリ技術およびマイクロ流体工学技術を使用すること、複合ＤＮＡ手法と比較して速度およびコストにおけるそれぞれ少なくとも３倍および２倍の改善を推定することによって、改善を実現することができる。

【0030】

他の有利な結果は、浅いシークエンシング（shallow sequencing）、冗長性、および効率的な読出しに関連する。例えば、浅いシークエンシングに関し、所与のビット／合成値を実現するために、複合断片手法は、より小さいｋの値を可能にする。必要な精度を実現するには、より浅い配列で十分であり、読出しコストが大幅に削減される。冗長性に関し、複合断片によって取得された多数の状態により、断片の異なるセットを使用して同じデータの冗長表示が可能になり、独自のエラー緩和技術の実装のための柔軟性およびロバスト性が提供される。効率的な読出しに関し、読出し効率を大幅に高めるために、ナノポア・シークエンサを使用して、単一のヌクレオチドを識別することとは対照的に、断片の異なる信号パターンを認識することによって、複合断片を読み出すことができる。

【0031】

例示的な実施形態が、異なる主題を参照して説明されることに留意すべきである。特に、一部の実施形態は、方法タイプの請求項を参照して説明され、他の実施形態は、装置タイプの請求項を参照して説明される。しかしながら、当業者は、上記および以下の説明から、別段の通知がない限り、１つのタイプの主題に属する特徴の任意の組合せに加えて、異なる主題に関する特徴の任意の組合せ、特に方法タイプの請求項の特徴と装置タイプの請求項の特徴との任意の組合せも、本明細書内に記載されていると考えられることを推測するだろう。

【0032】

これらその他の特徴および利点は、例示的な実施形態の以下の詳細な説明から明らかになり、以下の詳細な説明は、添付図面と関連して読まれるべきである。

【0033】

本発明は、以下の図面を参照して、好ましい実施形態の以下の説明において詳細を提供する。

【図面の簡単な説明】

【0034】

【図1】本発明の実施形態による、例示的な複合断片、すなわち、断片の混合比を含むＤＮＡ配列の位置の表示のブロック／フロー図である。

【図2】本発明の実施形態による、図１の複合断片を使用する、例示的なコード化およびデコード・システムならびに方法のブロック／フロー図である。

【図3】本発明の実施形態による、複合断片をコード化およびデコードする例示的な方法のブロック／フロー図である。

【図4】本発明の実施形態による、情報をポリヌクレオチドに格納するための例示的な方法のブロック／フロー図である。

【図5】本発明の実施形態による、複合断片のそれぞれは異なる比率でヌクレオチド断片のセットを有する、複合断片にコード化された情報を解釈するための例示的な方法のブロック／フロー図である。

【図6】本発明の実施形態による、単一の合成サイクルでより多くの情報を圧縮することを示す図である。

【図7】本発明の実施形態による、読出し精度およびコストに妥協することなく、より高いビット／合成を実現することを示す図である。

【図8】本発明の実施形態による、複合断片によって実現されるビット／合成の比率に比例する倍率で合成のコストおよび時間を改善することを示す図である。

【図9】本発明の実施形態による、ＤＮＡデータ・ストレージに複合断片を使用するための例示的な処理システムのブロック／フロー図である。

【図10】本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック／フロー図である。

【図11】本発明の実施形態による、例示的な抽象化モデル層の概略図である。

【発明を実施するための形態】

【0035】

図面全体を通して、同一または同様の参照符号は、同一または同様の要素を表す。

【0036】

本発明による実施形態は、複合断片を使用するＤＮＡデータ・ストレージのための方法およびデバイスを提供する。

【0037】

世界のすべてのデータ、すべてのデジタル写真およびツイート、国際的な金融部門のすべての記録、すべての衛星画像、氷河の融解の画像、現代科学の多くの基礎となるすべてのシミュレーションなどの多くのものが、どこかに届く必要がある。「クラウド」は、決して雲ではない。それは、巨大な倉庫内にあるデジタル・データ・センタであり、数兆数百万ものバイトを格納する（および低温で維持する）ために膨大な量の電気を消費する。構築、電力供給、および運営に数十億ドルの費用がかかり、これらのデータ・センタは、データ・ストレージの必要性が急激に増大し続けるため、存続に苦労する可能性がある。ＤＮＡは、データ・ストレージに対する世界の貪欲な意欲を満たすために大いに期待されている。この技術には、新しいツールと、使い慣れたツールを適用する新しい方法とが必要である。いつか、世界の最も貴重なアーカイブが、ケシの実のサイズの分子の集まりに新しい居場所を見つけても、驚くことではない。

【0038】

ＤＮＡデータ・ストレージのプロセスは、ＤＮＡ合成、ＤＮＡシークエンシング、ならびにコード化およびデコード・アルゴリズムを組み合わせて、従来の媒体で可能なものよりも高い耐久性および高い密度で情報をＤＮＡに圧縮する。情報は、１グラム当たり１７エクサバイトになり得る。その結果、ＤＮＡは、既存のシリコンベースの記憶媒体よりも密度および耐久性が優れているため、デジタル情報記憶媒体として大きな関心を集めている。例えば、ＤＮＡは、ほとんどのコンパクトなソリッド・ステート・ハード・ドライブの少なくとも１０００倍の密度があり、ほとんどの安定した磁気テープの少なくとも３００倍の耐久性がある。ＤＮＡの４文字のヌクレオチド・コードは、コンピュータおよび他の電子デバイスが文字、数字、または他の文字を表すために使用するバイナリ・デジタル・コードと同様に活用できる適切なコード化環境を提供する。これらの利点にもかかわらず、ＤＮＡを化学的に合成するコストが法外に高いため、ＤＮＡは情報記憶媒体としてまだ普及していない。

【0039】

本発明の例示的な実施形態は、複合断片を使用してＤＮＡを有利に格納することによって、このような問題を軽減する。

【0040】

本発明を、所与の例示的なアーキテクチャに関して説明するが、他のアーキテクチャ、構造、基板材料、プロセスの特徴、およびステップ／ブロックを、本発明の範囲内で変化させることができることを理解されたい。明確にするために、ある一定の特徴をすべての図に示すことはできないことに留意すべきである。これは、任意の特定の実施形態、または説明図、または特許請求の範囲を限定するものと解釈されることを意図するものではない。

【0041】

図１は、本発明の実施形態による、例示的な複合断片、すなわち、断片の混合比を含むＤＮＡ配列の位置の表示のブロック／フロー図である。

【0042】

ヌクレオチド１０は、ヌクレオチド断片２０に組み込まれる。

【0043】

ヌクレオチド１０は、アデニン１２（Ａ）、チミン１８（Ｔ）、グアニン１６（Ｇ）、およびシトシン１４（Ｃ）を含む。これらは、すべてのＤＮＡコードの基礎となる。

【0044】

断片２０が生成される。例えば、第１の断片２２、第２の断片２４、第３の断片２６、および第４の断片２８が生成される。各断片２２、２４、２６、２８は、ヌクレオチド１０の異なる配列である。

【0045】

次に、複合断片３０が作成されることが有利である。

【0046】

複合断片について、ｎ≦４^ｌの断片が、エラー防止対策に基づいて選択され、

【数6】

によって決まる比率で混合されることが有利である。

【0047】

複合断片の状態ベクトルは、

【数7】

として与えられ、ここで、σ_ｉ＝０、１、２、…、ｋはｉ番目の断片の番号である。

【0048】

例えば、状態ベクトル３２（σ_１）、３４（σ_２）、３６（σ_３）、３８（σ_ｎ）が生成される。

【0049】

解像度が、

【数8】

として与えられる。

【0050】

状態ベクトルの完全なセットが、

【数9】

として与えられる。

【0051】

ｍ個の状態ベクトルΣ_ｍのサブセットが、コード化に使用するためにΦ^ｎ，ｋから選択される。

【数10】

【0052】

Σ_ｍを、ベクトル

【数11】

の間の平均距離を最大化するように戦略的に選択することができる。

【0053】

したがって、複合断片は、断片の混合比を含むＤＮＡ配列の位置の表示である。

【0054】

図２は、本発明の実施形態による、図１の複合断片を使用する、例示的なコード化およびデコード・システムならびに方法４０のブロック／フロー図である。

【0055】

エンコーダ４４が、バイナリ・データ４２を受け取る。バイナリ・データ４２を、ｐビットのデジタル情報と呼ぶことができる。エンコーダ４４は、ｐビットのデジタル情報をｍ個の複合断片のセットにマッピングする。マッピングを、｛０，１｝^ｐ→Σ_ｍと表すことができる。

【0056】

次に、断片アセンブリ４６を使用して、配列の位置における混合比が状態ベクトル

【数12】

を表すように、断片を生化学的に連結することが有利である。断片アセンブリ４６において、状態ベクトルは、

【数13】

として与えられる。

【0057】

次に、コード化ＤＮＡ４８が生成される。

【0058】

シークエンサ５０が、所定の「深さ」のコード化ＤＮＡ分子４８のプールからサンプリングし、各複合断片の読取りをカウントする。

【0059】

デコーダ５２が、混合比を周波数ベクトルＭから推測し、最も近い

【数14】

を特定し、バイナリ表示５４に戻すようマッピングすることが有利である。

【0060】

したがって、コード化方式は、複合断片を使用して、情報密度、合成速度、およびコストパフォーマンス指標を改善することが有利である。複合断片は、断片の混合比を含むＤＮＡ配列の位置の表示である。したがって、例示的な実施形態は、複合断片を使用して、複合解像度を十分に低く維持しながら、アルファベットの数を増加させる。例示的な実施形態のこのコード化方式は、データをＤＮＡに格納するためのコストおよび時間を、複合ＤＮＡと比較して少なくとも２分の１に削減し、有利である。例示的な方法は、エラー修正のための追加の利点も提供する。

【0061】

図３は、本発明の実施形態による、複合断片をコード化およびデコードする例示的な方法のブロック／フロー図である。

【0062】

ブロック６０で、エンコーダにより、ｐビットのデジタル情報をｍ個の複合断片のセットにマッピングする。

【0063】

ブロック６２で、断片アセンブリにより、配列の位置における混合比が状態ベクトル

【数15】

を表すように、断片を生化学的に連結する。

【0064】

ブロック６４で、シークエンサにより、所定の「深さ」のコード化ＤＮＡ分子のプールからサンプリングし、各断片の読取りをカウントする。

【0065】

ブロック６６で、デコーダにより、混合比を周波数ベクトルＭから推測し、最も近い

【数16】

を特定し、次にバイナリ表示に戻すようマッピングする。

【0066】

図４は、本発明の実施形態による、情報をポリヌクレオチドに格納するための例示的な方法のブロック／フロー図である。

【0067】

ブロック７０で、複数の種類のヌクレオチド断片を設け、ヌクレオチド断片のそれぞれが、個々に異なる塩基配列（Ａ、Ｇ、Ｃ、Ｔ）を有する。

【0068】

ブロック７２で、複数の複合断片を構成し、複合断片のそれぞれは、異なる比率でヌクレオチド断片を含むヌクレオチド断片のセットを有する。

【0069】

ブロック７４で、情報を複合断片にコード化する。

【0070】

図５は、本発明の実施形態による、複合断片のそれぞれは異なる比率でヌクレオチド断片のセットを有する、複合断片にコード化された情報を解釈するための例示的な方法のブロック／フロー図である。

【0071】

ブロック８０で、ポリヌクレオチド配列を解析して、ポリヌクレオチド配列のそれぞれの塩基配列を決定する。

【0072】

ブロック８２で、ポリヌクレオチド配列のそれぞれの位置に対応する複合断片のそれぞれについての配列比を取得する。

【0073】

ブロック８４で、複合断片のそれぞれについての配列比に基づいて情報をデコードする。

【0074】

図６は、本発明の実施形態による、単一の合成サイクルでより多くの情報を圧縮することを示す図である。

【0075】

図表９０は、ｘ軸に解像度（ｋ）、ｙ軸にビット／合成を示す。ｎが大きいほど、ビット／合成が大きくなる。

【0076】

本発明の利点は、少なくとも、所与の値ｋについて、状態｜Φ^ｎ，ｋ｜の数がｎによって大幅に増加し得ることを含むことである。複合断片手法（ｎ＞４）は、単一の合成サイクル（例えば、ビット／合成）でより多くの情報を圧縮することができ、有利である。

【0077】

図７は、本発明の実施形態による、読出し精度およびコストに妥協することなく、より高いビット／合成を実現することを示す図である。

【0078】

図表１００は、ｘ軸に解像度（ｋ）、ｙ軸に、９０％の精度の読出しに必要な「深さ」を示す。

【0079】

加えて、さらなる利点は、閾値精度（例えば、９０％）を実現するために必要な「深さ」が、ｎではなくｋのみによって増加することを含む。したがって、複合断片手法は、読出し精度およびコストに妥協することなく、より高いビット／合成を実現することができるため、有利である。

【0080】

図８は、本発明の実施形態による、複合断片によって実現されるビット／合成の比率に比例する倍率で合成のコストおよび時間を改善することを示す図である。

【0081】

図表１１０は、ｘ軸に解像度（ｋ）、ｙ軸に複合ＤＮＡと比べた改善を示す。ｎが大きいほど、複合ＤＮＡと比べた改善が大きくなる。

【0082】

合成のコストおよび時間は、複合断片（ｎ＞４）によって実現されるビット／合成と複合ＤＮＡ（ｎ＝４）のビット／合成との比率に比例する倍率で有利に改善される。さらに、ｎを増加させること、ならびに効率的な断片アセンブリ技術およびマイクロ流体工学技術を使用することにより改善を実現でき、複合ＤＮＡ手法と比較して速度およびコストにおけるそれぞれ少なくとも３倍および２倍の改善が推定される。

【0083】

要約すると、図６～図８に関し、他の有利な結果は、浅いシークエンシング、冗長性、および効率的な読出しに関連する。例えば、浅いシークエンシングに関し、所与のビット／合成値を実現するために、複合断片手法は、より小さいｋの値を可能にする。必要な精度を実現するには、より浅い配列で十分であり、読出しコストが大幅に削減される。冗長性に関し、複合断片によって取得された多数の状態により、断片の異なるセットを使用して同じデータの冗長表示が可能になり、固有のエラー緩和技術の実装のための柔軟性およびロバスト性をもたらす。効率的な読出しに関し、読出し効率を大幅に高めるために、ナノポア・シークエンサを使用して、単一のヌクレオチドを識別することとは対照的に、断片の異なる信号パターンを認識することによって、複合断片を読み出すことができる。

【0084】

図９は、本発明の実施形態による、ＤＮＡデータ・ストレージに複合断片を使用するための例示的な処理システムのブロック／フロー図である。

【0085】

図９は、コンピューティング・デバイス２０５を備えるシステム２００のコンポーネントのブロック図である。図９は、一実装形態の例示を単に提供するものであり、異なる実施形態を実装可能な環境に関するいかなる限定をも示唆するものではないことを理解すべきである。図示の環境に対する多くの修正を行うことができる。

【0086】

コンピューティング・デバイス２０５は通信ファブリック２０２を含み、通信ファブリック２０２は、コンピュータ・プロセッサ２０４、メモリ２０６、永続ストレージ２０８、通信ユニット２１０、および入力／出力（Ｉ／Ｏ）インターフェース２１２の間の通信を提供する。通信ファブリック２０２は、プロセッサ（マイクロプロセッサ、通信およびネットワーク・プロセッサなど）、システム・メモリ、周辺デバイス、ならびにシステム内の任意の他のハードウェア・コンポーネントの間で、データまたは制御情報あるいはその両方を渡すように設計された任意のアーキテクチャで実装されてもよい。例えば、通信ファブリック２０２は、１つまたは複数のバスで実装されてもよい。

【0087】

メモリ２０６、キャッシュ・メモリ２１６、および永続ストレージ２０８は、コンピュータ可読記憶媒体である。本実施形態において、メモリ２０６は、ランダム・アクセス・メモリ（ＲＡＭ）２１４を含む。別の実施形態において、メモリ２０６は、フラッシュ・メモリであってもよい。一般に、メモリ２０６は、任意の適切な揮発性または不揮発性のコンピュータ可読記憶媒体を含むことができる。

【0088】

本発明の一部の実施形態において、プログラム２２５が含まれ、このプログラム２２５は、コンピューティング・デバイス２０５のコンポーネントとしてのＤＮＡ処理チップ２２２によって動作する。他の実施形態において、プログラム２２５は、永続ストレージ２０８に格納され、メモリ２０６の１つまたは複数のメモリを介してそれぞれのコンピュータ・プロセッサ２０４のうちの１つまたは複数と共に、（複合断片を使用するＤＮＡデータ・ストレージを実装するために）ＤＮＡ処理チップ２２２によって実行される。本実施形態において、永続ストレージ２０８は、磁気ハード・ディスク・ドライブを含む。磁気ハード・ディスク・ドライブの代わりにまたはそれに加えて、永続ストレージ２０８は、ソリッド・ステート・ハード・ドライブ、半導体ストレージ・デバイス、読取り専用メモリ（ＲＯＭ）、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭ）、フラッシュ・メモリ、または、プログラム命令もしくはデジタル情報を格納できる任意の他のコンピュータ可読記憶媒体を含むことができる。

【0089】

永続ストレージ２０８によって使用される媒体は、取外し可能であってもよい。例えば、取外し可能なハード・ドライブを永続ストレージ２０８に使用することができる。他の例として、永続ストレージ２０８の一部でもある別のコンピュータ可読記憶媒体に転送するためにドライブに挿入される光ディスクおよび磁気ディスク、サム・ドライブ、ならびにスマート・カードが挙げられる。

【0090】

これらの例では、通信ユニット２１０は、分散データ処理環境のリソースを含む他のデータ処理システムまたはデバイスとの通信を提供する。これらの例では、通信ユニット２１０は、１つまたは複数のネットワーク・インターフェース・カードを含む。通信ユニット２１０は、物理的な通信リンクおよび無線通信リンクのいずれかまたは両方を使用して通信を提供することができる。深層学習プログラム２２５を、通信ユニット２１０を通じて永続ストレージ２０８にダウンロードすることができる。

【0091】

Ｉ／Ｏインターフェース２１２は、コンピューティング・システム２００に接続され得る他のデバイスとのデータの入力および出力を可能にする。例えば、Ｉ／Ｏインターフェース２１２は、キーボード、キーパッド、タッチ・スクリーン、または他の適切な入力デバイス、あるいはその組合せなどの外部デバイス２１８への接続を提供することができる。外部デバイス２１８は、例えば、サム・ドライブ、携帯型光ディスクまたは磁気ディスク、およびメモリ・カードなどの携帯型コンピュータ可読記憶媒体を含むこともできる。

【0092】

ディスプレイ２２０は、データをユーザに表示するための機構を提供し、例えば、コンピュータ・モニタであってよい。

【0093】

図１０は、本発明の実施形態による、例示的なクラウド・コンピューティング環境のブロック／フロー図である。

【0094】

本発明は、クラウド・コンピューティングに関する詳細な説明を含むが、本明細書に記載される教示の実装はクラウド・コンピューティング環境に限定されるものではないことを理解されたい。むしろ、本発明の実施形態は、現在既知であるか、または今後開発される任意の他の種類のコンピューティング環境と共に実装することができる。

【0095】

クラウド・コンピューティングは、最小限の管理労力またはサービスのプロバイダとの対話によって迅速にプロビジョニングおよびリリースされ得る構成可能なコンピューティング・リソース（例えば、ネットワーク、ネットワーク帯域幅、サーバ、処理、メモリ、ストレージ、アプリケーション、仮想マシン、およびサービス）の共用プールへの便利なオンデマンド・ネットワーク・アクセスを可能にするためのサービス配信のモデルである。このクラウド・モデルは、少なくとも５つの特徴と、少なくとも３つのサービス・モデルと、少なくとも４つの配備モデルとを含むことができる。

【0096】

特徴は以下の通りである。

【0097】

オンデマンド・セルフサービス：クラウド消費者は、サービスのプロバイダとの人的対話を必要とせずに、必要に応じて自動的に、サーバ時間およびネットワーク・ストレージなどのコンピューティング機能を一方的にプロビジョニングすることができる。

【0098】

広帯域ネットワーク・アクセス：機能はネットワークを介して利用可能であり、異種のシンまたはシック・クライアント・プラットフォーム（例えば、携帯電話、ラップトップ、およびＰＤＡ）による使用を促進する標準機構を通じてアクセスされる。

【0099】

リソース・プール：マルチテナント・モデルを使用して複数の消費者に対応するために、プロバイダのコンピューティング・リソースがプールされ、需要に応じて異なる物理リソースおよび仮想リソースが動的に割り当てられ、再割当てされる。消費者は一般に、提供されるリソースの正確な場所について制御することができないかまたは知らないが、より高い抽象化レベルの場所（例えば、国、州、またはデータセンタ）を指定できるという点で、場所独立感がある。

【0100】

迅速な順応性：機能は、迅速かつ順応的に、場合によっては自動的にプロビジョニングされて、迅速にスケール・アウトすることができ、かつ迅速にリリースされて、迅速にスケール・インすることができる。消費者にとって、プロビジョニングのために利用可能な機能は、多くの場合、無制限であるように見え、いつでも任意の量を購入することができる。

【0101】

従量制サービス：クラウド・システムが、サービスの種類（例えば、ストレージ、処理、帯域幅、およびアクティブ・ユーザ・アカウント）に適切な何らかの抽象化レベルの計量機能を活用することによって、リソースの使用を自動的に制御し、最適化する。リソース使用量を監視、制御、および報告して、利用サービスのプロバイダおよび消費者の両方に透明性を提供することができる。

【0102】

サービス・モデルは以下の通りである。

【0103】

サービスとしてのソフトウェア（ＳａａＳ）：消費者に提供される機能は、クラウド・インフラストラクチャ上で実行されるプロバイダのアプリケーションを使用することである。アプリケーションは、ウェブ・ブラウザ（例えば、ウェブ・ベースの電子メール）などのシン・クライアント・インターフェースを通じて様々なクライアント・デバイスからアクセス可能である。消費者は、限られたユーザ固有アプリケーション構成設定を例外として、ネットワーク、サーバ、オペレーティング・システム、ストレージ、または個々のアプリケーション機能も含む、基礎となるクラウド・インフラストラクチャを管理または制御しない。

【0104】

サービスとしてのプラットフォーム（ＰａａＳ）：消費者に提供される機能は、クラウド・インフラストラクチャ上に、プロバイダによってサポートされるプログラミング言語およびツールを使用して作成された、消費者作成アプリケーションまたは消費者取得アプリケーションを配備することである。消費者は、ネットワーク、サーバ、オペレーティング・システム、またはストレージを含む基礎となるクラウド・インフラストラクチャを管理または制御しないが、配備されたアプリケーションと、場合によってはアプリケーション・ホスティング環境構成とを制御することができる。

【0105】

サービスとしてのインフラストラクチャ（ＩａａＳ）：消費者に提供される機能は、処理、ストレージ、ネットワーク、およびその他の基本的なコンピューティング・リソースをプロビジョニングすることであり、消費者は、オペレーティング・システムおよびアプリケーションを含み得る任意のソフトウェアを配備および実行することができる。消費者は、基礎となるクラウド・インフラストラクチャを管理または制御しないが、オペレーティング・システム、ストレージ、配備されたアプリケーションを制御することができ、場合によっては選択されたネットワーキング・コンポーネント（例えば、ホスト・ファイアウォール）の限定的な制御を行うことができる。

【0106】

配備モデルは以下の通りである。

【0107】

プライベート・クラウド：このクラウド・インフラストラクチャは、組織のためにのみ運用される。これは、組織または第３者によって管理されてよく、オンプレミスまたはオフプレミスに存在してよい。

【0108】

コミュニティ・クラウド：このクラウド・インフラストラクチャは、いくつかの組織によって共用され、共通の関心事（例えば、任務、セキュリティ要件、ポリシ、およびコンプライアンス事項）を有する特定のコミュニティをサポートする。これは、組織または第３者によって管理されてよく、オンプレミスまたはオフプレミスに存在してよい。

【0109】

パブリック・クラウド：このクラウド・インフラストラクチャは、一般人または大規模業界団体が利用することができ、クラウド・サービスを販売する組織によって所有される。

【0110】

ハイブリッド・クラウド：このクラウド・インフラストラクチャは、２つ以上のクラウド（プライベート、コミュニティ、またはパブリック）の複合体であり、それらのクラウドは、固有のエンティティのままであるが、データおよびアプリケーションの移植性を可能にする標準化技術または専有技術（例えば、クラウド間のロード・バランシングのためのクラウド・バースティング）によって共に結合される。

【0111】

クラウド・コンピューティング環境は、ステートレス性、疎結合性、モジュール性、および意味的相互運用性に焦点を合わせたサービス指向型である。クラウド・コンピューティングの核心にあるのは、相互接続されたノードのネットワークを含むインフラストラクチャである。

【0112】

次に図１０を参照して、本発明の使用事例を可能にするクラウド・コンピューティング環境４５０を示す。図示するように、クラウド・コンピューティング環境４５０は、１つまたは複数のクラウド・コンピューティング・ノード４１０を含み、この１つまたは複数のクラウド・コンピューティング・ノード４１０と、例えば、パーソナル・デジタル・アシスタント（ＰＤＡ）もしくは携帯電話４５４Ａ、デスクトップ・コンピュータ４５４Ｂ、ラップトップ・コンピュータ４５４Ｃ、または自動車コンピュータ・システム４５４Ｎ、あるいはその組合せなどの、クラウド消費者によって使用されるローカル・コンピューティング・デバイスとが、通信することができる。ノード４１０は相互に通信することができる。ノード４１０は、前述したプライベート・クラウド、コミュニティ・クラウド、パブリック・クラウド、またはハイブリッド・クラウド、またはそれらの組合せなどの１つまたは複数のネットワークにおいて、物理的または仮想的にグループ化（図示せず）され得る。これにより、クラウド・コンピューティング環境４５０は、インフラストラクチャ、プラットフォーム、またはソフトウェア、あるいはその組合せを、クラウド消費者がそのためにローカル・コンピューティング・デバイス上でリソースを維持する必要がないサービスとして提供することができる。図１０に示すコンピューティング・デバイス４５４Ａ～４５４Ｎの種類は、単なる例示であり、コンピューティング・ノード４１０およびクラウド・コンピューティング環境４５０が、（例えば、ウェブ・ブラウザを使用して）任意の種類のネットワークまたはネットワーク・アドレス可能接続あるいはその両方を介して任意の種類のコンピュータ化デバイスと通信することができるものと理解される。

【0113】

図１１は、本発明の実施形態による、例示的な抽象化モデル層の概略図である。図１１に示すコンポーネント、層、および機能は、単なる例示であり、本発明の実施形態はこれらに限定されないことを予め理解すべきである。図示するように、以下の層および対応する機能が提供される。

【0114】

ハードウェアおよびソフトウェア層５６０は、ハードウェア・コンポーネントおよびソフトウェア・コンポーネントを含む。ハードウェア・コンポーネントの例として、メインフレーム５６１、縮小命令セット・コンピュータ（ＲＩＳＣ）・アーキテクチャ・ベースのサーバ５６２、サーバ５６３、ブレード・サーバ５６４、ストレージ・デバイス５６５、ならびにネットワークおよびネットワーキング・コンポーネント５６６が挙げられる。一部の実施形態において、ソフトウェア・コンポーネントとして、ネットワーク・アプリケーション・サーバ・ソフトウェア５６７およびデータベース・ソフトウェア５６８が挙げられる。

【0115】

仮想化層５７０は抽象化層を提供し、この抽象化層から、仮想エンティティの以下の例、すなわち、仮想サーバ５７１、仮想ストレージ５７２、仮想プライベート・ネットワークを含む仮想ネットワーク５７３、仮想アプリケーションおよびオペレーティング・システム５７４、ならびに仮想クライアント５７５を提供することができる。

【0116】

一例において、管理層５８０は、以下に記載の機能を提供することができる。リソース・プロビジョニング５８１は、クラウド・コンピューティング環境内でタスクを実行するために利用されるコンピューティング・リソースおよび他のリソースの動的調達を行う。計量および価格設定５８２は、リソースがクラウド・コンピューティング環境内で利用されるときの費用追跡、およびこれらのリソースの消費に対する請求書発行またはインボイス処理を行う。一例において、これらのリソースは、アプリケーション・ソフトウェア・ライセンスを含むことができる。セキュリティは、クラウド消費者およびタスクの本人確認と、データおよび他のリソースの保護とを行う。ユーザ・ポータル５８３は、消費者およびシステム管理者にクラウド・コンピューティング環境へのアクセスを提供する。サービス・レベル管理５８４は、必要なサービス・レベルが満たされるように、クラウド・コンピューティング・リソース割当ておよび管理を行う。サービス品質保証契約（ＳＬＡ）の計画および履行５８５は、将来の要件がＳＬＡに従って予測されるクラウド・コンピューティング・リソースの事前手配および調達を行う。

【0117】

作業負荷層５９０は、クラウド・コンピューティング環境をそのために利用することができる機能の例を提供する。この層から提供できる作業負荷および機能の例として、マッピングおよびナビゲーション５４１、ソフトウェア開発およびライフサイクル管理５９２、仮想教室教育配信５９３、データ解析処理５９４、トランザクション処理５９５、およびＤＮＡデータ・ストレージ４０が挙げられる。

【0118】

本発明は、システム、方法、またはコンピュータ・プログラム製品、あるいはその組合せであってよい。コンピュータ・プログラム製品は、本発明の態様をプロセッサに実行させるためのコンピュータ可読プログラム命令を有する１つまたは複数のコンピュータ可読記憶媒体を含むことができる。

【0119】

コンピュータ可読記憶媒体は、命令実行デバイスによって使用するための命令を保持し格納することができる有形デバイスであってよい。コンピュータ可読記憶媒体は、例えば、電子ストレージ・デバイス、磁気ストレージ・デバイス、光学ストレージ・デバイス、電磁ストレージ・デバイス、半導体ストレージ・デバイス、または上記の任意の適切な組合せであってよいが、これらに限定されない。コンピュータ可読記憶媒体のより具体的な例の非網羅的なリストには、以下のもの、すなわち、携帯型コンピュータ・ディスケット、ハード・ディスク、ランダム・アクセス・メモリ、読取り専用メモリ、消去可能なプログラマブル読取り専用メモリ（ＥＰＲＯＭもしくはフラッシュ・メモリ）、スタティック・ランダム・アクセス・メモリ、携帯型コンパクト・ディスク読取り専用メモリ（ＣＤ－ＲＯＭ）、デジタル・バーサタイル・ディスク（ＤＶＤ）、メモリ・スティック、フロッピ（Ｒ）・ディスク、パンチカードもしくは命令が記録されている溝内の隆起構造などの機械的に符号化されたデバイス、および上記の任意の適切な組合せが含まれる。本明細書で使用されるコンピュータ可読記憶媒体は、電波もしくは他の自由に伝搬する電磁波、導波路もしくは他の伝送媒体を伝搬する電磁波（例えば、光ファイバ・ケーブルを通過する光パルス）、または電線を介して伝送される電気信号などの、一過性の信号自体であると解釈されるべきではない。

【0120】

本明細書に記載のコンピュータ可読プログラム命令は、コンピュータ可読記憶媒体からそれぞれのコンピューティング／処理デバイスにダウンロードすることができ、または、ネットワーク、例えばインターネット、ローカル・エリア・ネットワーク、ワイド・エリア・ネットワーク、または無線ネットワーク、あるいはその組合せを介して、外部コンピュータまたは外部ストレージ・デバイスにダウンロードすることができる。ネットワークは、銅伝送ケーブル、光伝送ファイバ、無線伝送、ルータ、ファイアウォール、スイッチ、ゲートウェイ・コンピュータ、またはエッジ・サーバ、あるいはその組合せを含むことができる。各コンピューティング／処理デバイスにおけるネットワーク・アダプタ・カードまたはネットワーク・インターフェースが、ネットワークからコンピュータ可読プログラム命令を受信し、それらのコンピュータ可読プログラム命令を、それぞれのコンピューティング／処理デバイス内のコンピュータ可読記憶媒体に格納するために転送する。

【0121】

本発明の動作を実行するためのコンピュータ可読プログラム命令は、アセンブラ命令、命令セット・アーキテクチャ（ＩＳＡ）命令、マシン命令、マシン依存命令、マイクロコード、ファームウェア命令、状態設定データ、あるいはＳｍａｌｌｔａｌｋ（Ｒ）、Ｃ＋＋などのオブジェクト指向プログラミング言語および「Ｃ」プログラミング言語もしくは同様のプログラミング言語などの従来の手続き型プログラミング言語を含む、１つまたは複数のプログラミング言語の任意の組合せで書かれたソース・コードまたはオブジェクト・コードであってよい。コンピュータ可読プログラム命令は、全体的にユーザのコンピュータ上で、一部がユーザのコンピュータ上で、独立型ソフトウェア・パッケージとして、一部がユーザのコンピュータ上かつ一部がリモート・コンピュータ上で、または全体的にリモート・コンピュータもしくはサーバ上で実行することができる。後者の場合、リモート・コンピュータは、ローカル・エリア・ネットワーク（ＬＡＮ）もしくはワイド・エリア・ネットワーク（ＷＡＮ）を含む任意の種類のネットワークを介してユーザのコンピュータに接続することができ、または（例えば、インターネット・サービス・プロバイダを使用してインターネットを介して）外部コンピュータに接続することができる。一部の実施形態において、本発明の態様を実行するために、例えば、プログラマブル論理回路、フィールド・プログラマブル・ゲート・アレイ（ＦＰＧＡ）、またはプログラマブル・ロジック・アレイ（ＰＬＡ）を含む電子回路が、コンピュータ可読プログラム命令の状態情報を利用して電子回路をパーソナライズすることにより、コンピュータ可読プログラム命令を実行することができる。

【0122】

本発明の実施形態による方法、装置（システム）、およびコンピュータ・プログラム製品のフローチャート図またはブロック図あるいはその両方を参照しながら、本発明の態様について本明細書で説明している。フローチャート図またはブロック図あるいはその両方の各ブロック、およびフローチャート図またはブロック図あるいはその両方におけるブロックの組合せは、コンピュータ可読プログラム命令によって実装できることが理解されよう。

【0123】

これらのコンピュータ可読プログラム命令は、コンピュータまたは他のプログラマブル・データ処理装置のプロセッサによって実行される命令が、フローチャートまたはブロック図あるいはその両方の１つもしくは複数のブロックまたはモジュールに指定される機能／動作を実施する手段を作り出すべく、汎用コンピュータ、専用コンピュータ、または他のプログラマブル・データ処理装置の少なくとも１つのプロセッサに提供されてマシンを作り出すものであってよい。

【0124】

これらのコンピュータ可読プログラム命令は、命令が格納されたコンピュータ可読記憶媒体が、フローチャートまたはブロック図あるいはその両方の１つもしくは複数のブロックまたはモジュールに指定される機能／動作の態様を実施する命令を含んだ製品を含むべく、コンピュータ可読記憶媒体に格納されて、コンピュータ、プログラマブル・データ処理装置、または他のデバイス、あるいはその組合せに特定の方式で機能するように指示できるものであってもよい。

【0125】

コンピュータ可読プログラム命令は、コンピュータ、他のプログラマブル装置、または他のデバイスで実行される命令が、フローチャートまたはブロック図あるいはその両方の１つもしくは複数のブロックまたはモジュールに指定される機能／動作を実施するように、コンピュータによって実施されるプロセスを作り出すべく、コンピュータ、他のプログラマブル・データ処理装置、または他のデバイスにロードされ、コンピュータ、他のプログラマブル装置、または他のデバイス上で一連の動作ブロック／ステップを実行させるものであってもよい。

【0126】

図におけるフローチャートおよびブロック図は、本発明の様々な実施形態による、システム、方法、およびコンピュータ・プログラム製品の可能な実装のアーキテクチャ、機能、および動作を示す。これに関して、フローチャートまたはブロック図における各ブロックは、指定された論理機能を実施するための１つまたは複数の実行可能命令を含む、命令のモジュール、セグメント、または部分を表すことができる。一部の代替実装形態において、ブロックに記載された機能は、図に記載された順序以外で生じる場合がある。例えば、連続して示す２つのブロックは、実際には、実質的に同時に実行することができ、またはそれらのブロックは、時には、関与する機能に応じて、逆の順序で実行することができる。ブロック図またはフローチャート図あるいはその両方の各ブロック、およびブロック図またはフローチャート図あるいはその両方におけるブロックの組合せは、指定された機能もしくは動作を実行する、または専用ハードウェアとコンピュータ命令との組合せを実行する専用ハードウェア・ベースのシステムによって実施することができることにも留意されたい。

【0127】

本明細書における、本原理の「１つの実施形態」または「一実施形態」およびそれらの他の変形形態への言及は、実施形態に関連して説明される特定の機能、構造、または特徴などが、本原理の少なくとも１つの実施形態に含まれることを意味する。したがって、本明細書全体を通して様々な箇所に現れる「１つの実施形態において」または「一実施形態において」という言い回しおよび任意の他の変形は、必ずしもすべて同じ実施形態を指すわけではない。

【0128】

「／」、「または～あるいはその両方」、「～のうちの少なくとも１つ」のうちいずれかの使用は、例えば、「Ａ／Ｂ」、「ＡまたはＢあるいはその両方」、「ＡおよびＢのうちの少なくとも１つ」の場合、第１の列挙される選択肢（Ａ）のみの選択、または第２の列挙される選択肢（Ｂ）のみの選択、または両方の選択肢（ＡおよびＢ）の選択を包含することを意図することを理解されたい。さらなる例として、「Ａ、Ｂ、またはＣ、あるいはその組合せ」および「Ａ、Ｂ、およびＣのうち少なくとも１つ」の場合、そのような言い回しは、第１の列挙される選択肢（Ａ）のみの選択、または第２の列挙される選択肢（Ｂ）のみの選択、または第３の列挙される選択肢（Ｃ）のみの選択、または第１の列挙される選択肢と第２の列挙される選択肢（ＡおよびＢ）のみの選択、または第１の列挙される選択肢と第３の列挙される選択肢（ＡおよびＣ）のみの選択、または第２の列挙される選択肢と第３の列挙される選択肢（ＢおよびＣ）のみの選択、または３つの選択肢（ＡおよびＢおよびＣ）のすべての選択を包含することを意図する。これは、当該技術分野および関連技術分野において当業者によって容易に明らかであるように、列挙される多くの項目に対しても拡大することができる。

【0129】

複合断片を使用するＤＮＡデータ・ストレージのための方法およびシステムの好ましい実施形態（これは例示することを意図したものであり、限定することを意図していない）について説明したが、上記の教示に照らして、当業者によって修正および変形を行うことができることに留意されたい。したがって、説明された特定の実施形態において変更を行うことができ、これらは、添付の特許請求の範囲によって概説されるような発明の範囲内にあることを理解されたい。

【図1】

【図2】

【図3】

【図4】

【図5】

【図6】

【図7】

【図8】

【図9】

【図10】

【図11】

【手続補正書】

【提出日】2024-11-05

【手続補正1】

【補正対象書類名】特許請求の範囲

【補正対象項目名】全文

【補正方法】変更

【補正の内容】

【特許請求の範囲】

【請求項1】

情報をポリヌクレオチドに格納する方法であって、
個々に異なる塩基配列を有する複数の種類のヌクレオチド断片を使用することと、
前記ヌクレオチド断片のセットを有する複数の複合断片を構成することであり、前記ヌクレオチド断片の前記セットは、それぞれ異なる比率で前記ヌクレオチド断片を含む、前記構成することと、
エンコーダにより前記情報を前記複合断片にコード化することと
を含む方法。

【請求項2】

前記コード化することは、デジタル情報を前記複合断片のセットにマッピングすることを含む、請求項１に記載の方法。

【請求項3】

ポリヌクレオチド配列を生成することをさらに含み、前記複合断片の前記ヌクレオチド断片のそれぞれは、前記ポリヌクレオチド配列のそれぞれの同じ位置に組み込まれる、請求項１に記載の方法。

【請求項4】

前記複合断片の状態ベクトルが、

【数1】

として与えられ、ここで、σ_ｉ＝０、１、２、…、ｋがｉ番目の断片の番号である、請求項１に記載の方法。

【請求項5】

解像度が、

【数2】

として与えられる、請求項４に記載の方法。

【請求項6】

前記状態ベクトルの完全なセットが、

【数3】

として与えられる、請求項５に記載の方法。

【請求項7】

コード化に使用される状態ベクトルの前記完全なセットのサブセットが、

【数4】

として与えられる、請求項６に記載の方法。

【請求項8】

Σ_ｍが、

【数5】

の間の平均距離を最大化するように選択される、請求項７に記載の方法。

【請求項9】

デジタル情報を前記複合断片のセットにマッピングすることと、
断片をアセンブルして、配列の位置における混合比が状態ベクトルを表すように、前記複合断片を生化学的に連結し、コード化ＤＮＡ分子を生成することと、
所定の深さの前記コード化ＤＮＡ分子のプールからサンプリングし、各複合断片の読取りをカウントすることと、
前記混合比を周波数ベクトルから推測し、最も近い状態ベクトルを特定し、バイナリ表示に戻すようマッピングすることと
をさらに含む、請求項１に記載の方法。

【請求項10】

複合断片にコード化された情報を解釈するための方法であって、
ポリヌクレオチド配列を解析して、前記ポリヌクレオチド配列のそれぞれの塩基配列を決定することと、
前記ポリヌクレオチド配列のそれぞれの位置に対応する前記複合断片のそれぞれについての配列比を取得することと、
デコーダにより、前記複合断片のそれぞれについての前記配列比に基づいて前記情報をデコードすることと
を含む方法。

【請求項11】

前記複合断片のそれぞれは、異なる比率でヌクレオチド断片のセットを有する、請求項１０に記載の方法。

【請求項12】

前記ヌクレオチド断片のそれぞれは、個々に異なる塩基配列を有する、請求項１１に記載の方法。

【請求項13】

前記複合断片のそれぞれは、各ポリヌクレオチド配列の同じ位置に組み込まれる、請求項１２に記載の方法。

【請求項14】

シークエンサが、所定の深さの前記コード化情報のプールからサンプリングし、前記複合断片のそれぞれの読取りをカウントする、請求項１０に記載の方法。

【請求項15】

前記デコーダが、前記複合断片の最も近い状態ベクトルを特定する、請求項１０に記載の方法。

【請求項16】

前記デコーダが、前記複合断片をバイナリ表示にさらにマッピングする、請求項１５に記載の方法。