IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ エフ.ホフマン−ラ ロシュ アーゲーの特許一覧

(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】オンラインベースコール圧縮
(51)【国際特許分類】
   G16B 50/50 20190101AFI20241016BHJP
   G01N 27/00 20060101ALI20241016BHJP
   G16B 30/00 20190101ALI20241016BHJP
   C12M 1/00 20060101ALI20241016BHJP
   C12Q 1/6869 20180101ALN20241016BHJP
   C12Q 1/686 20180101ALN20241016BHJP
【FI】
G16B50/50
G01N27/00 Z
G16B30/00
C12M1/00 A
C12Q1/6869 Z
C12Q1/686 Z
【審査請求】有
【予備審査請求】未請求
(21)【出願番号】P 2024520562
(86)(22)【出願日】2022-10-04
(85)【翻訳文提出日】2024-05-28
(86)【国際出願番号】 US2022045624
(87)【国際公開番号】W WO2023059599
(87)【国際公開日】2023-04-13
(31)【優先権主張番号】63/251,979
(32)【優先日】2021-10-04
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.SWIFT
3.PYTHON
(71)【出願人】
【識別番号】591003013
【氏名又は名称】エフ. ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100118902
【弁理士】
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【弁理士】
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100196508
【弁理士】
【氏名又は名称】松尾 淳一
(74)【代理人】
【識別番号】100161908
【弁理士】
【氏名又は名称】藤木 依子
(72)【発明者】
【氏名】マニオン,ジョン
(72)【発明者】
【氏名】ハン,ジェームズ
(72)【発明者】
【氏名】ククリカル,ミロスラフ
(72)【発明者】
【氏名】トルクノフ,デニス
【テーマコード(参考)】
2G060
4B029
4B063
【Fターム(参考)】
2G060AA05
2G060AA15
2G060AD06
2G060AF20
2G060AG03
2G060AG11
2G060HC10
2G060KA09
4B029AA07
4B029BB20
4B029FA15
4B063QA20
4B063QQ42
4B063QQ52
4B063QS25
4B063QS36
4B063QS39
(57)【要約】
高いシーケンシングスループットのために、回路は、シーケンシング装置によってリアルタイムで生成されたリードデータを圧縮することができる。種々の圧縮技術を使用することができる。生データのストリームを処理して、生のリードデータストリームを生成することができる。生のリードデータストリームは、ヘッダデータサブストリーム、ベースコールサブストリーム、および品質スコアサブストリームを含むデータのサブストリームを含むことができる。サブストリームを、別々のスレッドを使用して抽出および圧縮することができ、圧縮データを再び結合させることができる。同じ核酸分子の異なるコピーに対応するシーケンスリードをクラスタ化し、コンセンサスリードを生成するために使用することができる。コンセンサスリードを生成するために使用されるシーケンスリードの数を、コンセンサスリードが実質的に正確である場合にしきい値までに制限することができる。制限に達した後に、同じ核酸分子に対応する任意の新たな生のリードデータからのデータを破棄することができる。
【選択図】図20
【特許請求の範囲】
【請求項1】
推論回路によって、
複数のセルを含むセンサチップから、少なくとも100,000個の核酸分子のうちのそれぞれの核酸分子の各々の位置についての複数の測定値を含む生データの第1のストリームを受信することと、
前記少なくとも100,000個の核酸分子についてのヘッダ情報、ベースコールデータ、および品質スコアを含むリードデータの第2のストリームを生成することと、
前記第2のストリームから、前記少なくとも100,000個の核酸分子の各々を識別するヘッダ情報の第1のサブストリームを抽出することと、
第1のスレッドによって、前記ヘッダ情報の第1のサブストリームを圧縮し、圧縮済みヘッダ情報を生成することと、
前記第2のストリームから、前記少なくとも100,000個の核酸分子の各々の各々の位置におけるベースコールを提供するベースコールデータの第2のサブストリームを抽出することと、
第2のスレッドによって、前記ベースコールデータの第2のサブストリームを圧縮し、圧縮済みベースコールデータを生成することと、
前記第2のストリームから、前記少なくとも100,000個の核酸分子の各々の各々の位置における各々のベースコールの品質スコアを提供する品質スコアデータの第3のサブストリームを抽出することと、
第3のスレッドによって、前記品質スコアデータの第3のサブストリームを圧縮し、圧縮済み品質スコアデータを生成することと、
前記圧縮済みヘッダ情報、前記圧縮済みベースコールデータ、および前記圧縮済み品質スコアデータを出力することと
を実行することを含む方法。
【請求項2】
前記圧縮済みヘッダ情報、前記圧縮済みベースコールデータ、および前記圧縮済み品質スコアデータは、出力の前に結合される、請求項1に記載の方法。
【請求項3】
前記圧縮済みヘッダ情報、前記圧縮済みベースコールデータ、および前記圧縮済み品質スコアデータの結合は、負荷バランシングを使用して実行される、請求項2に記載の方法。
【請求項4】
前記ベースコールデータは、前記少なくとも100,000個の核酸分子の各々についてのベースコールのシーケンスを含み、前記ベースコールデータの第2のサブストリームを圧縮することは、
それぞれの核酸に対応するベースコールの各々のシーケンスについて、
前記シーケンスを参照シーケンスに整合させ、ゲノム位置情報を得ることと、
前記シーケンスと前記参照シーケンスとの間に1つ以上の相違が存在するかどうかを識別することと、
相違があればエンコードして、前記相違を特定する符号を生成することと、
前記参照シーケンス内の前記ゲノム位置情報で、前記参照シーケンスに一致する前記シーケンスの少なくとも一部分を置き換えることと、
前記符号および前記ゲノム位置情報を使用して、前記圧縮済みベースコールデータを生成することと
を含む、請求項1に記載の方法。
【請求項5】
前記置き換えされたゲノム位置情報は、前記参照シーケンスに一致する前記シーケンス内のゲノム位置の範囲を特定する、請求項4に記載の方法。
【請求項6】
前記第1のスレッド、前記第2のスレッド、および前記第3のスレッドは、順番に実行される、請求項1に記載の方法。
【請求項7】
推論回路によって、
複数のセルを含んでいるセンサチップから、少なくとも100,000個の核酸分子のうちのそれぞれの核酸分子の各々の位置についての複数の測定値を含む生データを受信することであって、前記少なくとも100,000個の核酸分子の少なくとも一部分は、核酸分子のクラスタを含み、クラスタの前記核酸分子は、同じテンプレート核酸分子に対応する、生データを受信することと、
それぞれの核酸分子の各々の位置について、
前記生データを使用して、前記位置におけるヌクレオチドを決定することにより、シーケンスリードを生成することと、
前記少なくとも100,000個の核酸分子についての各々のシーケンスリードについて、
前記シーケンスリードに対応する特定のクラスタを識別し、前記特定のクラスタについてのカウンタを増加させることと、
第1のクラスタについての第1のカウンタがしきい値よりも大きいと判定することと、
前記第1のカウンタが前記しきい値よりも大きいとの判定に応答して、前記第1のクラスタに対応するシーケンスリードを廃棄することと
を実行することを含む方法。
【請求項8】
前記しきい値を上回る前記シーケンスリードは、廃棄される、請求項7に記載の方法。
【請求項9】
前記シーケンスリードは、分子内コンセンサスリードである、請求項7に記載の方法。
【請求項10】
前記分子内コンセンサスリードは、
前記核酸分子から、各々のヌクレオチドに対応する1つ以上のレポータ要素を含む代理分子を作成することと、
前記代理分子をナノポアに複数回通し、複数のサブリードを得ることと、
前記複数のサブリードを比較することによって前記分子内コンセンサスリードを決定することと
によって決定される、請求項9に記載の方法。
【請求項11】
前記シーケンスリードは、前記核酸分子に付着したヌクレオチドに対応する1つ以上のバーコードシーケンスを含み、
前記特定のクラスタは、1つ以上の特定のバーコードシーケンスに割り当てられ、
前記シーケンスリードに対応する前記特定のクラスタを識別することは、
前記シーケンスリードの1つ以上のバーコードシーケンスを前記1つ以上の特定のバーコードシーケンスと比較して、一致を判定すること
を含む、請求項7に記載の方法。
【請求項12】
新たなシーケンスリードについてのクラスタを、前記新たなシーケンスリードの前記1つ以上のバーコードシーケンスが既存のクラスタに割り当てられた前記1つ以上の特定のバーコードシーケンスに一致しない場合に作成することをさらに含む、請求項11に記載の方法。
【請求項13】
前記シーケンスリードに対応する前記特定のクラスタを識別することは、
前記シーケンスリードを参照シーケンスに整合させ、ゲノム位置を決定することと、
前記ゲノム位置を、前記特定のクラスタの割り当てられたゲノム位置と比較することと
を含む、請求項7に記載の方法。
【請求項14】
前記ゲノム位置は、開始ゲノム位置および終了ゲノム位置を含み、前記特定のクラスタの前記割り当てられたゲノム位置は、前記特定のクラスタの別のシーケンスリードを使用して決定されている、請求項13に記載の方法。
【請求項15】
前記推論回路から、前記カウンタが前記しきい値よりも大きくなる前の前記第1のクラスタに対応するシーケンスリードを出力することをさらに含む、請求項7に記載の方法。
【請求項16】
核酸分子のクラスタは、前記テンプレート核酸分子のコピーを製作することによって生成される、請求項7に記載の方法。
【請求項17】
前記コピーは、PCRを使用して生成される、請求項16に記載の方法。
【請求項18】
クラスタの前記シーケンスリードを使用してコンセンサスシーケンスリードを生成することをさらに含む、請求項7に記載の方法。
【請求項19】
請求項1~18のいずれか一項に記載の方法の動作を実行するようにコンピュータシステムを制御するための複数の命令を格納したコンピュータ可読媒体を備えるコンピュータ製品。
【請求項20】
請求項19に記載のコンピュータ製品と、
前記コンピュータ可読媒体に格納された命令を実行するための1つ以上のプロセッサと
を備えるシステム。
【請求項21】
請求項1~18のいずれか一項に記載の方法を実行するための手段を備えるシステム。
【請求項22】
請求項1~18のいずれか一項に記載の方法を実行するように構成されたシステム。
【請求項23】
請求項1~18のいずれか一項に記載の方法の工程をそれぞれ実行するモジュールを備えるシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連特許出願の相互参照
本出願は、2021年10月4日に出願された米国仮特許出願第63/251,979号の優先権の利益を主張し、この米国仮特許出願は、あらゆる目的のために参照により本明細書に組み込まれる。
【背景技術】
【0002】
ナノポア装置などのシーケンシング装置を、生体試料中の核酸の迅速なシーケンシングに使用することができる。シーケンシング装置は、生体試料からの核酸分子における(直接的または間接的な)ヌクレオチドの検出に関連する信号に対応する生データを生成することができる。次いで、装置内のセンサによって生成された生データを、シーケンシングされる分子中の検出されたヌクレオチドのタイプおよび順序の決定に対応する生リードデータに(例えば、シーケンシングシステムの別の部分によって)変換することができる。ヌクレオチドのタイプおよびヌクレオチドのシーケンスにおけるその順序を決定することは、ベースコールとしても知られている。生リードデータは、収集された信号の品質に関連するデータなどの他の情報を含むことができる。
【0003】
より速い速度で信号を検出するようにシーケンシング装置の能力を向上させることで、大量の生データが生じるようになる。結果として、大量の生リードデータが生じる可能性があり、これが、信号のレートを制限し、したがってシーケンシングのスループットを制限しかねないボトルネックなどの問題を引き起こす可能性がある。
【発明の概要】
【0004】
本開示は、広くには、核酸シーケンシングに関し、より具体的には、高いシーケンシングスループットを可能にすることができる実施形態に関する。例えば、いくつかの実施形態(例えば、推論回路)は、シーケンシング装置(例えば、ナノポアベースのシーケンシング装置)から受信した生データを使用して生成されたリードデータを圧縮することができる。出力ボトルネックがエラーを引き起こすことがなく、あるいはシーケンシング装置の動作可能速度が人為的に制限されることがないように、さまざまな圧縮技術を使用して、出力データの量を減らすことができる。
【0005】
一実施形態によれば、生データを、複数のセルを含むセンサチップから受信することができる。生データは、核酸分子の各位置に関する複数の測定値を含むことができる。生データは、少なくとも100,000個の核酸分子についての測定値を含むことができる。核酸分子についてのヘッダ情報、ベースコールデータ、および品質スコアを含むリードデータのストリームを生成することができる。リードデータのストリームから、ヘッダ情報の第1のサブストリームを抽出することができる。ヘッダ情報は、各々の核酸分子を識別することができる。第1のスレッドを使用し、ヘッダ情報の第1のサブストリームを圧縮することによって、圧縮済みヘッダ情報を生成することができる。リードデータのストリームから、ベースコールデータの第2のサブストリームを抽出することができる。ベースコールデータのサブストリームは、各々の核酸分子の各位置におけるベースコールを提供することができる。第2のスレッドを使用し、ベースコールデータの第2のサブストリームを圧縮することによって、圧縮済みベースコールデータを生成することができる。リードデータのストリームから、品質スコアデータの第3のサブストリームを抽出することができる。品質スコアデータのサブストリームは、各々の核酸分子の各位置における各々のベースコールの品質スコアを提供することができる。第3のスレッドを使用し、品質スコアデータの第3のサブストリームを圧縮することによって、圧縮済み品質スコアデータを生成することができる。種々の実施態様において、データのサブストリームは、別々に出力されても、結合させて出力されてもよい。例えば、圧縮済みヘッダ情報、圧縮済みベースコールデータ、および圧縮済み品質スコアデータのうちの2つ以上を結合させて、圧縮済みデータのストリームを生成することができる。その後に、圧縮済みデータのストリームを出力することができる。
【0006】
生リードデータを圧縮するためのいくつかの実施形態において、テンプレート核酸分子に対応するベースコールデータのサブストリームからのシーケンスリードを、参照シーケンス(例えば、参照ゲノム)に整合させることができる。参照シーケンスは、天然に存在する核酸シーケンス(例えば、ヒトゲノム)または合成核酸シーケンス(例えば、遺伝子操作されたDNAまたはRNA)を含み得る。合成シーケンスは、天然に存在するアミノ酸または合成アミノ酸(例えば、合成ヌクレオシドおよび/またはヌクレオチド類似体を含むアミノ酸)を含み得る。シーケンスリードの位置を、参照シーケンスに対して決定することができる。ベースコールデータからのシーケンスリードと参照シーケンスとの間の類似性および相違を、各々のヌクレオチドについて識別することができる。シーケンスリードを、識別された類似性および相違に基づいて生成されるコードを使用してエンコードすることができる。次いで、エンコードされたシーケンスリードを、エンコードされたシーケンスのコード内のパターン(例えば、反復コードまたはコードのシーケンス)およびゲノム位置情報を使用して圧縮することができる。ベースコールデータのサブストリームからのシーケンスリード内のシーケンス(例えば、ベース対タイプ)情報の少なくとも一部分を、リード情報が参照と一致する場合にゲノム位置情報(すなわち、参照に対応するゲノム位置)で置き換えることができ、相違についてのコードを、一致しないヌクレオチドについて使用することができる。したがって、位置情報は、連続した様相で参照シーケンスと一致するシーケンスの少なくとも一部分についてのシーケンスリード情報を置換することができる。
【0007】
ベースコールデータからのシーケンスリードに対応する品質スコアデータのサブストリームも、相応にエンコードおよび圧縮することができる。品質スコアデータのエンコーディングは、参照ゲノムを必要としなくてもよい。例えば、品質スコアデータは、離散的な(または、定量的な)品質スコアを具体的な(または、定性的な)品質スコア(例えば、カテゴリデータ)に変換することによって圧縮されてよい。品質スコアの圧縮に関するさらなる詳細は、以下で提供される。
【0008】
リードのゲノム位置およびコードを、コードの圧縮と共に、リアルタイムで生成することができる。ゲノム位置およびコードを決定するために使用される推論回路は、処理のために一時的にデータを記憶するローカルメモリを含むことができる。ローカルメモリは、推論回路に組み合わせられたメモリであってよく、同じ集積回路上にあっても、高スループットバスを介して接続されてもよい。推論回路(例えば、整合および記憶のステップを実行する)は、例えば、グラフィックス処理装置(GPU)、フィールドプログラマブルゲートアレイ(FPGA)、中央演算装置(CPU)、またはこれらの組み合わせを含むことができる。他の処理ユニットを使用して本明細書に記載の方法を実行してもよい。
【0009】
いくつかの実施形態においては、ヘッダ情報の第1のサブストリーム、ベースコールデータの第2のサブストリーム、および品質スコアデータの第3のサブストリームを、同時に圧縮することができる。計算リソースの異なる部分(例えば、CPU、GPU、FPGA処理ユニット、メモリ、など)をサブストリームの各々に割り当てることができる。サブストリームの各々を処理するために割り当てられる計算リソースの各部分のサイズを、負荷バランシングシステムによって管理することができる。負荷バランシングシステムを、最終出力が同期され、所与の核酸についての圧縮済みヘッダデータ、リードデータ、および品質スコアデータが同時に出力可能となるように、各々のサブストリームがほぼ同じ期間の間に圧縮されるように最適化することができる。
【0010】
シーケンスリードをクラスタ化するためのいくつかの実施形態において、コンセンサスシーケンスリードを、テンプレート核酸分子について、テンプレート核酸分子のコピーに対応する2つ以上のシーケンスリードに基づいて生成することができる。コンセンサスシーケンスリードを、シーケンスリードのクラスタ化の前または後に生成することができる。コンセンサスシーケンスリードを、各々のクラスタについて、新たなシーケンスリードがクラスタに割り当てられるときに生成することができ、あるいはコンセンサスシーケンスリードを、クラスタのシーケンスリードを出力する前または後に、クラスタ内のシーケンスリードの数がしきい値に達した後に生成することができる。同じテンプレートに対応するシーケンスリードが、上記および本明細書の他の箇所に記載されるように一緒にクラスタ化されてよく、あるいは2つ以上のシーケンスリードのバーコードおよび/または位置情報(例えば、整合の結果としての)に基づく識別によって、シーケンスリードが同じ核酸分子または分子ファミリに対応すると識別されてもよい。2つ以上のシーケンスリードを1つのコンセンサスリードにコンパイルすることができ、これを推論回路またはパイプライン内の後の回路で行うことができる。推論回路で行われる場合、コンセンサスシーケンスリードは、同じ核酸分子または分子ファミリからさらに多くの生データが生成されるにつれて進化することができる。コンセンサスシーケンスリードを、上記および本明細書の他の箇所に記載されるように、参照ゲノムと比較して各々の核酸(例えば、DNAベースまたはRNAベース)について生成される位置およびコード(例えば、整合情報に基づいてヌクレオチドをエンコードする)に基づいて圧縮することができる。
【0011】
カットオフ量(しきい値)を、核酸分子または分子ファミリに関するコンセンサスシーケンスリードを生成するために使用されるシーケンスリードの数について決定することができる。このようにして、カットオフ量を超えるシーケンスリードを廃棄することができるので、コンセンサスリードが後の回路によって決定される場合に推論回路から出力されるべきシーケンスリードが少なくて済む。そのような廃棄は、特定のテンプレート核酸が増幅されすぎる場合(例えば、シーケンシングに先立つPCRにおいて)に有益であり得る。あるいは、コンセンサスが推論回路によって生成される場合に、コンセンサスを構築するために核酸分子のシーケンスリードのすべてを使用するのではなく、むしろ充分な数だけを使用することによって、計算リソースおよびメモリを節約することができる。核酸分子または分子ファミリに関するコンセンサスシーケンスリードを、このようにして実質的に生成することができる。カットオフ値は、上記または本明細書の他の箇所に記載されるように、クラスタ化に関連するしきい値に対応してもよい。
【0012】
一実施形態によれば、生データを、複数のセルを含むセンサチップから受信することができる。生データは、核酸分子の各位置に関する複数の測定値を含むことができる。生データは、少なくとも100,000個の核酸分子についての測定値を含むことができる。少なくとも100,000個の核酸分子の一部は、核酸分子のクラスタを含むことができる。核酸分子のクラスタを、テンプレート核酸分子のコピーを製作することによって生成することができる。コピーを、ポリメラーゼ連鎖反応(PCR)を使用して製作することができる。クラスタの核酸分子は、同じテンプレート核酸分子に対応できる。シーケンスデータを、核酸分子の生データから、核酸分子のシーケンス内の各位置についてヌクレオチドを決定することによって、推論回路によって生成することができる。次いで、少なくとも100,000個の核酸分子のシーケンスリードをクラスタ化することができる。カウンタが、各クラスタのサイズ(例えば、クラスタに割り当てられたシーケンスリードの数)のカウントを保持することができる。クラスタのサイズは、特定のしきい値(カットオフ量)で制限されてよい。したがって、各々のシーケンスリードがシーケンスリードに対応する特定のクラスタに割り当てられると、そのクラスタのカウンタ増分が(すなわち、1だけ)増加する。次いで、クラスタのカウンタを所定のしきい値と比較することができる。カウンタがしきい値より大きい場合、クラスタに割り当てられたシーケンスリードを廃棄する(すなわち、メモリから除去する)ことができる。カウンタがしきい値より小さい場合、シーケンスリードを、クラスタに対応するシーケンスリードに追加することができる。しきい値以上のカウンタを有するクラスタに対応するシーケンスリードを出力することができる。出力をメモリデバイス(例えば、ディスク、クラウドベースのストレージ、など)に送信することができる。各々のクラスタについて、コンセンサスリードが、各々のクラスタに割り当てられたシーケンスリードに基づいて生成されてよい。次いで、コンセンサスリードを圧縮し、シーケンシングシステムから(例えば、記憶装置に)出力することができる。
【0013】
シーケンスリードをクラスタ化するためのいくつかの実施形態において、シーケンスリードは、核酸分子に付着したヌクレオチドに対応する1つ以上のバーコードシーケンスを含むことができる。特定のクラスタを、1つ以上の特定のバーコードシーケンスに割り当てることができる。シーケンスリードに対応する特定のクラスタの識別は、一致を判定するために、シーケンスリードの1つ以上のバーコードシーケンスを、1つ以上のクラスタが割り当てられている1つ以上の特定のバーコードシーケンスと比較することを含むことができる。新たなシーケンスリードの1つ以上のバーコードシーケンスが、既存のクラスタが割り当てられたバーコードシーケンスのいずれにも一致しない場合に、新たなシーケンスリードのためのクラスタを生成することができる。シーケンスリードに対応する特定のクラスタの識別は、シーケンスリードの内容を、各々のクラスタが割り当てられているシーケンスの内容と比較することを含むこともできる(例えば、バーコードシーケンスの比較と同様)。例えば、これは、ゲノム位置を決定するために参照ゲノムにシーケンスリードを整合させることによって行われてよい。次いで、ゲノム位置を、1つ以上のクラスタが割り当てられている1つ以上のゲノム位置と比較することができる。ゲノム位置は、開始ゲノム位置および終了ゲノム位置を含むことができる。特定のクラスタのゲノム位置を、特定のクラスタの別のシーケンスリードを使用して(例えば、シーケンスリードおよび特定のクラスタ内のシーケンスリードの内容間のペアまたは多重整合によって)決定することができる。
【0014】
本発明のこれらの実施形態および他の実施形態は、以下で詳細に説明される。例えば、他の実施形態は、本明細書に記載の方法に関連するシステム、装置、およびコンピュータ可読媒体に関する。
【0015】
本発明の実施形態の性質および利点を、以下の詳細な説明および添付の図面を参照して、よりよく理解することができる。
【図面の簡単な説明】
【0016】
図1】ナノポアベースのシーケンシングチップ内のセルの一実施形態を示している。
図2】ナノポアベースのシーケンシングチップ内のセルの一実施形態を示している。
図3】Nano-SBS技術を用いてヌクレオチドシーケンシングを行うセルの一実施形態を示している。
図4】プレロードされたタグを用いてヌクレオチドシーケンシングを実行しようとしているセルの実施形態を示している。
図5】プレロードされたタグを用いたシーケンシングプロセスの一実施形態を示している。
図6A】ナノポアベースのシーケンシングチップのセル内の回路の一実施形態を示しており、回路を、セル内に脂質二重層が形成されているかどうかを、すでに形成された脂質二重層を破壊することなく検出するように構成することができる。
図6B図6Aに示した回路と同じナノポアベースのシーケンシングチップのセル内の回路を示している。図6Aと比較して、作用電極と対向電極との間の脂質膜/二重層を示す代わりに、作用電極および脂質膜/二重層の電気的特性を表す電気モデルを示している。
図7】ACサイクルの明期間および暗期間においてナノポアセルからキャプチャされたデータポイントの例を示している。
図8】特定の実施形態によるシーケンシング機器ハードウェア構成の一実施形態を示している。
図9】特定の実施形態による生リードデータを圧縮する例示的な方法を説明するフローチャートを示している。
図10】特定の実施形態による複数のスレッドを使用してリードデータストリームを圧縮する例示的な方法を説明するフローチャートを示している。
図11A】特定の実施形態による生リードデータ圧縮システムの一実施形態を示している。
図11B】本開示の一実施形態によるスレッドが1つ以上の処理ユニット上にスケジュールすることができるソフトウェアスレッドである場合の一例を示している。
図12】特定の実施形態によるベースコードデータのサブストリームを圧縮する例示的な方法を説明するフローチャートを示している。
図13】特定の実施形態によるシーケンシングデータの圧縮の実験結果を示している。
図14】特定の実施形態によるシーケンシングデータの圧縮の実験結果を示している。
図15】特定の実施形態によるシーケンシングデータの圧縮の実験結果を示している。
図16】特定の実施形態によるシーケンシングデータの圧縮の実験結果を示している。
図17】特定の実施形態によるシーケンシングデータの圧縮の実験結果を示している。
図18】特定の実施形態によるシーケンシングデータの圧縮の実験結果を示している。
図19】特定の実施形態による増幅プロセスの一例を示している。
図20】特定の実施形態によるシーケンスリードデータクラスタ化システムの一実施形態を示している。
図21】特定の実施形態によるシーケンシングデータの量を減らすためにリードデータをクラスタ化する例示的な方法を説明するフローチャートを示している。
図22】特定の実施形態によるナノポアを使用して読み取られる分子(例えば、xpandomer分子)の複数のパスの生データを示している。
図23】本発明の実施形態による分子内コンセンサスを生成するためのシーケンシングを示している。
図24】特定の実施形態によるシステムおよび方法において使用可能な例示的なコンピュータシステムのブロック図を示している。
【発明を実施するための形態】
【0017】
定義
「核酸」は、一本鎖または二本鎖のいずれかの形態のデオキシリボヌクレオチドまたはリボヌクレオチドおよびそれらのポリマーを指してよい。この用語は、既知のヌクレオチド類似体あるいは修飾された主鎖の残基または連鎖を含む核酸を包含することができ、これらは、合成、天然型、および非天然型であり、参照核酸と同様の結合特性を有し、参照ヌクレオチドと同様のやり方で代謝される。そのような類似体の例として、ホスホロチオエート、ホスホラミダイト、メチルホスホネート、キラルメチルホスホネート、2-O-メチルリボヌクレオチド、ペプチド核酸(PNAs)を挙げることができるが、これらに限定されるわけではない。核酸は、元の核酸に挿入された代理分子によって表されてもよく、各々の代理分子が特定のヌクレオチドに対応する。
【0018】
とくに示されない限り、特定の核酸シーケンスは、暗に、それらの保存的に修飾された変種(例えば、縮重コドン置換体)、および相補的シーケンス、ならびに明示されたシーケンスも包含する。具体的には、縮重コドン置換体は、1つ以上の選択された(または、すべての)コドンの3番目の位置が、混合塩基および/またはデオキシイノシン残基で置換されたシーケンスを生成することによって達成され得る(Batzer et al.,Nucleic Acid Res.19:5081(1991);Ohtsuka et al.,J.Biol.Chem.260:2605-2608(1985);Rossolini et al.,Mol.Cell.Probes 8:91-98(1994))。核酸という用語は、遺伝子、cDNA、mRNA、オリゴヌクレオチド、およびポリヌクレオチドと互換的に使用される。
【0019】
「ヌクレオチド」という用語は、天然に存在するリボヌクレオチドまたはデオキシリボヌクレオチドモノマーを指すのに加えて、文脈が明確に別のことを示さない限り、ヌクレオチドが使用されている特定の文脈(例えば、相補的塩基へのハイブリダイゼーション)に関して機能的に同等である誘導体および類似体を含むそれらの関連の構造的変種(例えば、SBXシーケンシングに使用されるX-NTP)を指すと理解され得る。
【0020】
用語「タグ」は、原子または分子、あるいは原子または分子の集合体であってよい検出可能な部分を指すことができる。タグは、光学、電気化学、磁気、または静電(例えば、誘導、容量)シグネチャを提供することができ、このシグネチャを、ナノポアの助けによって検出することができる。典型的には、ヌクレオチドは、タグに取り付けられると、「タグ付けされたヌクレオチド」と呼ばれる。タグを、リン酸塩部分を介してヌクレオチドに取り付けることができる。
【0021】
「生データ」または「生信号データ」という用語は、シーケンシング装置内のセンサによって生成されたデータを指す。生データは、核酸分子のシーケンシングに関連するシグナル値を含む。
【0022】
「ナノポア」は、膜内に形成され、あるいは他のやり方で設けられた細孔、チャネル、または通路を指す。膜は、脂質二重層などの有機膜、または高分子材料で形成された膜などの合成膜であってよい。ナノポアを、例えば相補型金属酸化膜半導体(CMOS)または電界効果トランジスタ(FET)回路などのセンシング回路またはセンシング回路に接続された電極に隣接または近接させて配置することができる。いくつかの例において、ナノポアは、約0.1ナノメートル(nm)~約1000nm程度の特徴的な幅または直径を有する。いくつかのナノポアは、タンパク質である。
【0023】
用語「明期間」は、一般に、タグ付けされたヌクレオチドのタグが、AC信号を通じて印加された電界によって、ナノポア内に押し込まれる期間を指すことができる。用語「暗期間」は、一般に、タグ付けされたヌクレオチドのタグが、AC信号を通じて印加された電界によって、ナノポアから押し出される期間を指すことができる。ACサイクルは、明期間および暗期間を含み得る。異なる実施形態において、ナノポアセルを明期間(または、暗期間)にするためにナノポアセルに印加される電圧信号の極性は異なってよい。明期間および暗期間は、基準電圧に対する交流信号の異なる部分に対応することができる。
【0024】
用語「信号値」は、シーケンシングセルから出力されるシーケンシング信号の値を指すことができる。特定の実施形態によれば、シーケンシング信号は、1つ以上のシーケンシングセルの回路内の一地点から測定および/または出力される電気的信号であってよく、例えば、信号値は、電圧または電流であってよい(あるいは、電圧または電流を表すことができる)。信号値は、電圧および/または電流の直接測定の結果を表すことができ、さらには/あるいは間接的な測定値を表してもよく、例えば、信号値は、電圧または電流が指定値に到達するまでに要した時間の測定値であってよい。信号値は、シーケンシング装置の特徴と相関する任意の測定可能な量を表してよい。例えば、ナノポアシーケンシング装置において、ナノポアの抵抗率、およびナノポア(挿通され、かつ/または挿通されていない)の抵抗率および/またはコンダクタンスの導出を可能にするものが、信号値に影響を及ぼすことができる。別の例として、信号値は、例えば、ポリメラーゼで核酸へと触媒されたヌクレオチドに付着した蛍光体からの光の強度に対応することができる。
【0025】
「生リードデータ」または「リードデータ」という用語は、生データまたは生信号データから生成されたデータを指す。生リードデータは、リードデータストリームを含む。リードデータストリームは、識別子またはヘッダサブストリーム、核酸ベースコールサブストリーム、および品質スコアサブストリームを含むそれぞれの核酸分子に対応するデータのサブストリームを含む。
【0026】
「ベースコールデータ」という用語は、核酸シーケンスの所与の位置のヌクレオチド(例えば、ヌクレオチドのチッ素含有ベース)を識別する生データから生成されたデータを指す。ベースコールデータ内の各々のエントリは、ヌクレオチドを表し、対応するヌクレオチドに関する1つのコードを含むことができる。ベースコールデータは、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)、およびウラシル(U)などの一次ヌクレオチド、あるいは合成ヌクレオチドを含むことができる。さらに、ベースコールデータは、未決定ヌクレオチドなどの他の可能なベースコールを含み得る。
【0027】
用語「品質スコアデータ」は、核酸について正しく作製されたベースコール(例えば、4つのベース間の)の精度の信頼性の尺度を提供する生データから生成されたデータを指す。品質スコアは、単一分子の観察に固有の確率的挙動を反映することができる。ベースコールの品質は、時間またはリード長につれて低下することがないかもしれないが、所与の核酸について異なる時点においてランダムに異なるベースコールに関して異なる品質スコアが存在し得る。あるいは、リードにおけるベースの品質スコアは、リード長またはリード内のベースの位置に対する依存性を示し得る。ベースコールの品質スコアが高いほど、ベースコールが正しいという信頼性が高いことを示すことができる。例えば、確率分布関数(PDF)のピークに近い信号値は、PDFのピークから遠い信号値よりも高い品質スコアを有するベースコールをもたらすことができる。
【0028】
「ヘッダデータ」および「リードIDデータ」という用語は、より大きなリードの集合体においてリードを識別する情報を指す。例えば、生データの一部分について生成された生リードデータのストリームは、その部分の生リードデータのストリームにわたって同じヘッダデータを有する。生データは、同じ核酸分子(例えば、テンプレート核酸分子)または異なる核酸分子(例えば、異なるテンプレート核酸分子)について同時に、または異なる時間に生成された生データの複数の部分を含むことができる。
【0029】
「コンセンサスシーケンスリード」、「コンセンサスシーケンス」、「コンセンサスリード」、または「コンセンサス」という用語は、同じテンプレート核酸分子または分子ファミリに対応する複数のシーケンスリードを整合させることによって生成された核酸シーケンスリードを指す。コンセンサスシーケンスリードは、複数のシーケンスリードを互いに整合させることによって生成されてよい。あるいは、複数のシーケンスリードの各々を参照ゲノムに整合させることによる。
【0030】
「リアルタイム」または「ライブ」という用語は、核酸分子からの生データを、生データの生成に等しい速度またはさらに高い速度で処理することを指す。生データのリアルタイム処理により、生データまたはリードデータを長期メモリ(例えば、ディスク、ハードドライブ、クラウドストレージ、または任意の外部メモリ装置)に格納する必要がなくなる。
詳細な説明
【0031】
本明細書に開示される技術は、シーケンシング装置から生成された1つ以上の核酸分子のシーケンシングデータの分析に関し、より具体的には、シーケンシング装置(例えば、ナノポアベースのシーケンシング装置)によって生成されたシーケンスリードデータの効率的な処理(例えば、圧縮、フィルタ処理、または廃棄)に関する。シーケンシング装置は、きわめて高い速度で生データを生成することができる。生データを(例えば、シーケンシングシステムの別の部分によって)処理して、生リードデータと呼ばれる核酸分子のシーケンス情報(例えば、RNAまたはDNAシーケンス)を含む出力を提供することができる。この出力の送信および/または記憶においてボトルネックが存在すると、シーケンシングのスループットが制限されかねない。したがって、シーケンシング装置の生データ生成と同等の速度で出力を送信および格納するために、出力をリアルタイムで処理および圧縮する必要がある。次いで、圧縮済みのデータを、例えば記憶装置に記憶するために、シーケンシング装置から送信することができる。
【0032】
場合によっては、例えば各セルにおける新たなDNA分子による異なるシーケンシングの実行など、一連のシーケンシングプロセスが、同じシーケンシング装置で行われる。2つの連続したシーケンシングプロセスの間の時間またはターンアラウンド時間は、各々のシーケンシングプロセスにおいて生成された生データをシーケンシング装置の下流のチャネルからオフロードするには不充分であるかもしれない。したがって、各々のシーケンシングプロセスにおいて生成されたデータの分析および圧縮を、データが生成されるときにリアルタイムで実行することができる。これにより、ターンアラウンド時間の前または最中に圧縮されたデータの格納を完了させることを可能にできる。
【0033】
生データのストリームを(例えば、推論チップによって)処理して、生リードデータストリームを生成することができる。生のリードデータストリームは、ヘッダデータサブストリーム、ベースコールサブストリーム、および品質スコアサブストリームを含むデータのサブストリームを含むことができる。ヘッダデータは、核酸分子に対応する生のリードデータストリームおよびそのサブストリームを識別することができる情報、ならびにシーケンシング装置およびシーケンシングプロセスに対応する他の情報(例えば、シーケンシング装置情報、シーケンシングの時間、など)を含むことができる。ベースコールデータサブストリームは、シーケンスリード内の対応する各位置のヌクレオチド情報(すなわち、ヌクレオチドに関するベースコールコード)を含むことができる。品質スコアデータサブストリームは、ベースコールデータサブストリームからのシーケンスリード内の各々のヌクレオチドに対応する各々のベースコールについての信頼値を含むことができる。サブストリームを、別々のスレッドを使用して抽出および圧縮することができる。いくつかの実施態様においては、圧縮後のデータを再び結合させることができる。
【0034】
いくつかの実施形態において、生のリードデータストリームのベースコールデータサブストリームからのシーケンスリードは、シーケンスリードを参照ゲノムに整合させることによって圧縮される。シーケンスリードを、シーケンスリード内のヌクレオチドを整合情報で置換することによってエンコードすることができる。エンコーディングは、シーケンスリードからのヌクレオチドが参照ゲノムシーケンスと一致するかどうか、あるいは不一致が存在するかどうかを区別することができる。不一致は、挿入、欠失、スキップ、またはソフトクリップを含むことができる。参照ゲノムに対する各々のヌクレオチドのエンコーディングおよび位置を、シーケンスリードを圧縮するために使用することができる。例えば、一連の一致したヌクレオチドを、参照ゲノムに対する開始位置および終了位置を有する位置範囲に圧縮することができる。
【0035】
いくつかの実施形態において、テンプレート核酸分子は、シーケンシングに先立つライブラリ調製において増幅されてよい。したがって、テンプレートの複数の核酸分子(例えば、コピーおよびオリジナル)をシーケンシングすることができる。次いで、これらの核酸分子またはその一部分に対応する生データを、(例えば、異なる時点において)シーケンシング装置によって生成することができる。同じ核酸分子の異なるコピーに対応する2つ以上の生データの(例えば、生リードデータからの)シーケンスリードをクラスタ化し、核酸分子のコンセンサスリードを生成するために使用することができる。コンセンサスリードを生成するために使用されるシーケンスリードの数を、カットオフ数(しきい値)に制限することができ、あるいはコンセンサスリードが完全または実質的に正確であると考えられるまで制限することができる。制限/カットオフに達した後に、同じ核酸分子またはその一部分に対応する新たな生リードデータからのデータは、廃棄され、さらなる分析から除外されてよい。対応する新たな生リードデータは、メモリ内のデータ量およびメモリから出力される必要があるデータ量を低減するために、機器から除去されてよい。
I.ナノポアシステム
【0036】
ナノポアセンサチップ内のナノポアセルは、多数の異なるやり方で実装されてよい。例えば、いくつかの実施形態において、異なるサイズおよび/または化学構造のタグが、シーケンシングされる核酸分子内の異なるヌクレオチドに取り付けられてよい。いくつかの実施形態において、シーケンシングされる核酸分子のテンプレートに対する相補ストランドが、異なるポリマータグ付けのヌクレオチドをテンプレートとハイブリダイズすることによって合成されてよい。いくつかの実施態様において、核酸分子および取り付けられたタグは、両方ともナノポアを通って移動でき、ナノポアを通るイオン電流が、ヌクレオチドに取り付けられたタグの特定のサイズおよび/または構造ゆえに、ナノポア内に存在するヌクレオチドを示し得る。いくつかの実施態様においては、タグのみがナノポア内へと移動させられてよい。さらに、ナノポア内の異なるタグを検出するために、多数の異なるやり方が存在し得る。
A.ナノポアシーケンシングセル
【0037】
図1が、特定の実施形態によるナノポアベースのシーケンシングチップ内のナノポアセル100の一実施形態を説明する簡略化された構造である。ナノポアセル100は、酸化物106などの誘電体材料によって形成されたウェルを含み得る。ウェルを覆うために、ウェルの表面上に膜102が形成され得る。いくつかの実施形態において、膜102は脂質二重層であってよい。例えば可溶性タンパク質ナノポア膜貫通分子複合体(PNTMC)および目的の検体を含んでよいバルク電解質114が、セルの表面上に配置される。単一のPNTMC104が、エレクトロポレーションによって膜102に挿入され得る。アレイ内の個々の膜は、化学的にも電気的にも互いに接続されていない。したがって、アレイ内の各セルは、独立したシーケンシング機械であり、PNTMCに関連した単一のポリマー分子に固有のデータを生成する。PNTMC104は、検体に対して作用し、本来であれば不透過性の二重層を通過するイオン電流を変調する。
【0038】
アナログ測定回路112が、電解質108の薄膜によって覆われた作用電極110(例えば、金属で構成される)に接続される。電解質の薄膜108は、イオン不透過性の膜102によってバルク電解質114から絶縁されている。PNTMC104が、膜102を横切り、バルク液体から作用電極110へとイオン電流を流す唯一の経路を提供する。セルは、電気化学的電位センサである対向電極(CE)116をさらに含む。セルは、参照電極117をさらに含む。
【0039】
図2が、特定の実施形態によるポリヌクレオチドまたはポリペプチドの特性評価に使用することができるナノポアセンサチップ内の例示的なナノポアセル200の実施形態を示している。ナノポアセル200は、誘電体層201および204から形成されたウェル205と、ウェル205を覆って形成された脂質二重層214などの膜と、脂質二重層214上の脂質二重層214によってウェル205から分離された試料チャンバ215とを含んでよい。ウェル205は、電解質206を含んでよく、試料チャンバ215は、例えば可溶性タンパク質ナノポア膜貫通分子複合体(PNTMC)などのナノポアと、目的の検体(例えば、シーケンシングされる核酸分子)とを含むバルク電解質208を保持してよい。
【0040】
ナノポアセル200は、ウェル205の底部の作用電極202と、試料チャンバ215内に配置された対向電極210とを含み得る。信号源228が、作用電極202と対向電極210との間に電圧信号を印加することができる。単一のナノポア(例えば、PNTMC)が、電圧信号によって引き起こされるエレクトロポレーションプロセスによって脂質二重層214に挿入されてよく、それにより、脂質二重層214内にナノポア216を形成する。アレイ内の個々の膜(例えば、脂質二重層214または他の膜構造)は、互いに化学的にも電気的にも接続されなくてよい。したがって、アレイ内の各々のナノポアセルは、独立したシーケンシング機械であってよく、目的の検体に作用し、本来であれば不透過性の脂質二重層を通るイオン電流を変調するナノポアに関連した単一のポリマー分子に固有のデータを生成する。
【0041】
図2に示されるように、ナノポアセル200は、シリコン基板などの基板230上に形成されてよい。誘電体層201が、基板230上に形成されてよい。誘電体層201の形成に使用される誘電体材料は、例えば、ガラス、酸化物、チッ化物、などを含み得る。電気刺激を制御し、ナノポアセル200から検出された信号を処理するための電気回路222が、基板230上および/または誘電体層201内に形成されてよい。例えば、複数のパターン化された金属層(例えば、金属1~金属6)が誘電体層201内に形成されてよく、複数の能動デバイス(例えば、トランジスタ)が基板230上に製造されてよい。いくつかの実施形態において、信号源228が電気回路222の一部として含まれる。電気回路222は、例えば、アンプ、積分器、アナログ-デジタル変換器、ノイズフィルタ、フィードバック制御ロジック、および/または他のさまざまな構成要素を含み得る。電気回路222は、メモリ226に接続されたプロセッサ224にさらに接続されてよく、プロセッサ224は、シーケンシングデータを分析して、アレイにおいてシーケンシングされたポリマー分子のシーケンスを決定することができる。
【0042】
作用電極202は、誘電体層201上に形成されてよく、ウェル205の底部の少なくとも一部を形成し得る。いくつかの実施形態において、作用電極202は、金属電極である。非ファラデー伝導の場合、作用電極202は、例えば、白金、金、チッ化チタン、およびグラファイトなど、腐食および酸化に耐える金属または他の材料で製作されてよい。例えば、作用電極202は、電気めっきされた白金を有する白金電極であってよい。別の例において、作用電極202は、チッ化チタン(TiN)作用電極であってよい。作用電極202は、多孔性であってよく、それにより、その表面積および作用電極202に関連する結果として生じるキャパシタンスを増加させる。ナノポアセルの作用電極は、別のナノポアセルの作用電極から独立していてよいため、本開示において、作用電極をセル電極と呼ぶことがある。
【0043】
誘電体層204が、誘電体層201の上方に形成されてよい。誘電体層204は、ウェル205を取り囲む壁を形成する。誘電体層204の形成に使用される誘電体材料は、例えば、ガラス、酸化物、一チッ化ケイ素(SiN)、ポリイミド、または他の適切な疎水性絶縁材料を含み得る。誘電体層204の上面は、シラン化されてよい。シラン化は、誘電体層204の上面の上方に疎水性層220を形成し得る。いくつかの実施形態において、疎水性層220は、約1.5ナノメートル(nm)の厚さを有する。
【0044】
誘電体層204によって形成されたウェル205は、作用電極202の上方に電解質206を含む。電解質206は、緩衝化されてよく、塩化リチウム(LiCl)、塩化ナトリウム(NaCl)、塩化カリウム(KCl)、グルタミン酸リチウム、グルタミン酸ナトリウム、グルタミン酸カリウム、酢酸リチウム、酢酸ナトリウム、酢酸カリウム、塩化カルシウム(CaCl)、塩化ストロンチウム(SrCl)、塩化マンガン(MnCl)、および塩化マグネシウム(MgCl)のうちの1つ以上を含んでよい、いくつかの実施形態において、電解質206は、約3ミクロン(μm)の厚さを有する。
【0045】
さらに図2に示されているように、膜が誘電体層204の上に形成され、ウェル205をまたいで広がってよい。いくつかの実施形態において、膜は、疎水性層220の上に形成された脂質単分子層218を含み得る。この膜がウェル205の開口部に到達すると、脂質単分子層218は、ウェル205の開口部を横切って広がる脂質二重層214に変遷することができる。脂質二重層は、例えば、ジフィタノイル-ホスファチジルコリン(DPhPC)、1,2-ジフィタノイル-sn-グリセロ-3-ホスホコリン、1,2-ジ-O-フィタニル-sn-グリセロ-3-ホスホコリン(DoPhPC)、パルミトイル-オレオイル-ホスファチジルコリン(POPC)、ジオレオイル-ホスファチジル-メチルエステル(DOPME)、ジパルミトイルホスファチジルコリン(DPPC)、ホスファチジルコリン、ホスファチジルエタノールアミン、ホスファチジルセリン、ホスファチジン酸、ホスファチジルイノシトール、ホスファチジルグリセロール、スフィンゴミエリン、1,2-ジ-O-フィタニル-sn-グリセロール、1,2-ジパルミトイル-sn-グリセロ-3-ホスホエタノールアミン-N-[メトキシ(ポリエチレングリコール)-350]、1,2-ジオレオイル-sn-グリセロ-3-ホスホエタノールアミン-N-ラクトシル、GM1ガングリオシド、リゾホスファチジルコリン(LPC)、またはこれらの任意の組み合わせから選択されるリン脂質を含んでよく、あるいはそのようなリン脂質で構成されてよい。
【0046】
図示のとおり、脂質二重層214に、例えば単一のPNTMCによって形成される単一のナノポア216が埋め込まれる。上記のように、ナノポア216は、エレクトロポレーションによって脂質二重層214に単一のPNTMCを挿入することによって形成されてよい。ナノポア216は、脂質二重層214の両側の間で目的の検体の少なくとも一部分および/または小さなイオン(例えば、Na、K、Ca2+、CI)を通過させるために充分な大きさであってよい。
【0047】
試料チャンバ215は、脂質二重層214の上方に位置し、特性評価の対象の検体の溶液を保持することができる。溶液は、バルク電解質208を含み、最適なイオン濃度に緩衝され、ナノポア216を開いた状態に保つために最適なpHに維持された水溶液であってよい。ナノポア216は、脂質二重層214を横切り、バルク電解質208から作用電極202へのイオンの流れの唯一の経路を提供する。ナノポア(例えば、PNTMC)および目的の検体に加えて、バルク電解質208は、塩化リチウム(LiCl)、塩化ナトリウム(NaCl)、塩化カリウム(KCl)、グルタミン酸リチウム、グルタミン酸ナトリウム、グルタミン酸カリウム、酢酸リチウム、酢酸ナトリウム、酢酸カリウム、塩化カルシウム(CaCl)、塩化ストロンチウム(SrCl)、塩化マンガン(MnCl)、および塩化マグネシウム(MgCl)のうちの1つ以上をさらに含み得る。
【0048】
対向電極(CE)210は、電気化学的電位センサであってよい。いくつかの実施形態において、対向電極210は、複数のナノポアセル間で共有されてよく、したがって共通電極と呼ばれることがある。いくつかの場合、共通の電位および共通の電極は、すべてのナノポアセル、または少なくとも特定のグループ内のすべてのナノポアセルに共通であってよい。共通電極を、ナノポア216に接触しているバルク電解質208に共通電位を印加するように構成することができる。対向電極210および作用電極202は、脂質二重層214を横切って電気刺激(例えば、電圧バイアス)を提供するために信号源228に接続されてよく、脂質二重層214の電気的特性(例えば、抵抗、キャパシタンス、およびイオン電流の流れ)を感知するために使用されてよい。いくつかの実施形態において、ナノポアセル200は、参照電極212をさらに含むことができる。
【0049】
いくつかの実施形態において、検証または品質管理の一部として、ナノポアセルの作成中にさまざまなチェックを行うことができる。ひとたびナノポアセルが作成されると、例えば、所望のとおりに作動するナノポアセル(例えば、各セル内の1つのナノポア)を識別するために、さらなる検証ステップを実行することができる。そのような検証チェックは、物理的チェック、電圧較正、オープンチャネル較正、および単一のナノポアを有するセルの識別を含むことができる。
B.合成によるナノポアベースのシーケンシング
【0050】
ナノポアセンサチップ内のナノポアセルは、合成(Nano-SBS)技術による単一分子ナノポアベースのシーケンシングを使用する並行シーケンシングを可能にし得る。
【0051】
図3が、Nano-SBS技術を使用してヌクレオチドのシーケンシングを行うナノポアセル300の実施形態を示している。Nano-SBS技術において、シーケンシングされるテンプレート332(例えば、ヌクレオチド酸分子または目的の別の検体)およびプライマが、ナノポアセル300の試料チャンバ内のバルク電解質308に導入されてよい。例として、テンプレート332は、円形または直線状であってよい。核酸プライマは、4つの異なってポリマータグ付けされたヌクレオチド338が付加され得るテンプレート332の一部にハイブリダイゼーションされてよい。
【0052】
いくつかの実施形態においては、酵素(例えば、DNAポリメラーゼなどのポリメラーゼ334)が、テンプレート332への相補ストランドの合成に使用するために、ナノポア316に関連付けられる。例えば、ポリメラーゼ334は、ナノポア316に共有結合し得る。ポリメラーゼ334は、一本鎖核酸分子をテンプレートとして用いるプライマ上へのヌクレオチド338の取り込みを触媒し得る。ヌクレオチド338は、ヌクレオチドがA、T、G、またはCの4つの異なるタイプのうちの1つであるタグ種(「タグ」)を含み得る。タグ付けされたヌクレオチドがポリメラーゼ334と正しく複合するとき、タグを、脂質二重層314および/またはナノポア316を横切って印加される電圧によって生成される電界の存在下で生じる力などの電気的な力によって、ナノポア内に引き込む(ロードする)ことができる。タグの尾部が、ナノポア316の筒内に位置し得る。ナノポア316の筒内に保時されたタグは、タグの別個の化学構造および/またはサイズゆえに、固有のイオン遮断信号340を生成することで、タグが取り付けられた付加されたベースを電子的に識別する。
【0053】
本明細書において使用されるとき、「ロードされ」あるいは「挿通され」たタグは、例えば0.1ミリ秒(ms)~10000msなどの感知可能な時間にわたってナノポア内に位置し、さらには/あるいはナノポア内またはナノポアの付近にとどまるタグであってよい。いくつかの場合、タグは、ヌクレオチドから解放される前にナノポア内にロードされる。いくつかの例においては、ロードされたタグが、ヌクレオチドの取り込みの事象において解放された後にナノポアを通過する(さらには/あるいは、ナノポアによって検出される)確率が適度に高く、例えば90%~99%である。
【0054】
いくつかの実施形態においては、ポリメラーゼ334がナノポア316に接続される前に、ナノポア316のコンダクタンスが高くてよく、例えば約300ピコジーメンス(300pS)などであってよい。ナノポアにタグがロードされると、タグの別個の化学構造および/またはサイズゆえに、固有のコンダクタンス信号(例えば、信号340)が生成される。例えば、ナノポアのコンダクタンスが、タグ付けされたヌクレオチドの4つのタイプのうちの1つにそれぞれ対応する約60pS、80pS、100pS、または120pSになり得る。次いで、ポリメラーゼは、異性化およびリン酸転移反応を経て、ヌクレオチドを成長中の核酸分子に組み込み、タグ分子を解放することができる。
【0055】
いくつかの場合において、タグ付けされたヌクレオチドのいくつかが、核酸分子(テンプレート)の現在の位置に一致(相補的ベース)しない場合がある。核酸分子とベース対にならないタグ付けされたヌクレオチドも、ナノポアを通過し得る。これらの対になっていないヌクレオチドを、正しく対になったヌクレオチドがポリメラーゼに関連付けられたままである時間スケールよりも短い時間スケール内で、ポリメラーゼによって拒絶することができる。対になっていないヌクレオチドに結合したタグが、ナノポアを迅速に通過し、短期間(例えば、10ms未満)の間だけ検出され得る一方で、対になったヌクレオチドに結合したタグは、ナノポア内にロードされ、長期間(例えば、少なくとも10ms)にわたって検出可能である。したがって、対になっていないヌクレオチドを、ヌクレオチドがナノポア内で検出される時間に少なくとも部分的に基づいて、下流のプロセッサによって識別することができる。
【0056】
ロードされた(挿通された)タグを含むナノポアのコンダクタンス(または、等価的に抵抗)を、ナノポアを通過する電流を介して測定することにより、タグ種、したがって目下の位置にあるヌクレオチドの識別をもたらすことができる。いくつかの実施形態においては、直流(DC)信号をナノポアセルに印加することができる(例えば、ナノポアを通るタグの移動の方向が反転しないように)。しかしながら、直流を使用してナノポアセンサを長い期間にわたって作動させると、電極の組成が変化し、ナノポアをまたぐイオン濃度が不均衡なものになり、ナノポアセルの寿命に悪影響を及ぼしかねない他の望ましくない影響が生じる可能性もある。交流(AC)波形を印加することで、電子移動を減らして、これらの望ましくない影響を回避し、後述のような特定の利点をもたらすことができる。タグ付けされたヌクレオチドを利用する本明細書に記載の核酸シーケンシング方法は、印加されるAC電圧と完全に共存可能であり、したがってAC波形を使用して、これらの利点を達成することができる。
【0057】
AC検出サイクル中に電極を再充電させることができることは、犠牲電極、通電反応において分子的特徴が変わる電極(例えば、銀を含む電極)、または通電反応において分子的特徴が変わる電極が使用される場合に、好都合であり得る。電極は、直流信号が使用されるとき、検出サイクル中に消耗し得る。再充電は、電極が小型である場合(例えば、電極が、1平方ミリメートル毎に少なくとも500個の電極を有する電極のアレイを提供するように充分に小さい場合)に問題になる可能性がある電極の完全な消耗など、電極が消耗限度に達することを防ぐことができる。電極寿命は、場合により、電極の幅に対応し、少なくとも部分的に電極の幅に依存する。
【0058】
ナノポアを通過するイオン電流を測定するための好適な条件は、当業者に知られており、例が本明細書に提供される。測定は、膜およびポアを横切って印加される電圧により実行され得る。いくつかの実施形態において、用いられる電圧は、-400mV~+400mVの範囲にあってよい。用いられる電圧は、-400mV、-300mV、-200mV、-150mV、-100mV、-50mV、-20mV、および0mVから選択される下限と、+10mV、+20mV、+50mV、+100mV、+150mV、+200mV、+300mV、および+400mVから別途選択される上限とを有する範囲にあることが好ましい。用いられる電圧は、100mV~240mVの範囲にあることがさらに好ましく、160mV~240mVの範囲にあることが最も好ましい。より高い印加電位を用いるナノポアにより、異なるヌクレオチド間の識別を向上させることができる。AC波形およびタグ付けされたヌクレオチドを使用する核酸のシーケンシングは、その全体が参照により本明細書に組み込まれる2013年11月6に出願された「Nucleic Acid Sequencing Using Tags」という名称の米国特許出願公開第2014/0134616号明細書に記載されている。米国特許出願公開第2014/0134616号明細書に記載のタグ付けされたヌクレオチドに加えて、シーケンシングを、例えば、5つの一般的な核酸塩基、すなわちアデニン、シトシン、グアニン、ウラシル、およびチミンの(S)-グリセロールヌクレオシド三リン酸塩(gNTPs)などの糖または非環式部分を欠くヌクレオチド類似体を用いて実行することができる(Horhota et al.,Organic Letters,8:5345-5347[2006])。
【0059】
いくつかの実施態様においては、これに加え、あるいは代えて、電流値などの他の信号値を測定し、ナノポアに挿通されたヌクレオチドを識別するために使用することができる。
【0060】
図4が、プレロードされたタグを用いてヌクレオチドシーケンシングを実行しようとしているセルの一実施形態を示している。ナノポア401が、膜402内に形成される。酵素(例えば、DNAポリメラーゼなどのポリメラーゼ403)がナノポアに関連付けられる。いくつかの場合、ポリメラーゼ403は、ナノポア401に共有結合する。ポリメラーゼ403は、シーケンシングされる核酸分子404に関連付けられる。いくつかの実施形態において、核酸分子404は環状である。いくつかの場合、核酸分子404は直線状である。いくつかの実施形態においては、核酸プライマ405が、核酸分子404の一部分にハイブリダイズされる。ポリメラーゼ403は、一本鎖核酸分子404をテンプレートとして使用して、プライマ405へのヌクレオチド406の取り込みを触媒する。ヌクレオチド406は、タグ種(「タグ」)407を備える。
【0061】
図5は、プレロードされたタグを用いた核酸シーケンシングのためのプロセス500の一実施形態を示している。段階Aが、図4で説明したとおりの構成要素を示している。段階Cが、ナノポアにロードされたタグを示している。「ロードされた」タグは、例えば0.1ミリ秒(ms)~10000msなどの感知可能な時間にわたってナノポア内に位置し、さらには/あるいはナノポア内またはナノポアの付近にとどまるタグであってよい。いくつかの場合、プレロードされたタグは、ヌクレオチドから解放される前に、ナノポア内にロードされる。いくつかの事例においては、タグがヌクレオチドの取り込みの事象において解放された後にナノポアを通過する(さらには/あるいは、ナノポアによって検出される)確率が適度に高く、例えば90%~99%である場合、タグがプレロードされる。
【0062】
段階Aにおいて、タグ付けされたヌクレオチド(4つの異なるタイプ、すなわちA、T、G、またはCのうちの1つ)はポリメラーゼに関連付けられていない。段階Bにおいて、タグ付けされたヌクレオチドが、ポリメラーゼに関連付けられる。段階Cにおいて、ポリメラーゼは、ナノポアにドッキングしている。タグは、ドッキングの際に、膜および/またはナノポアを横切って印加される電圧によって生成される電界の存在において生じる力などの電気力によって、ナノポア内に引き込まれる。
【0063】
関連付けられたタグ付けされたヌクレオチドのいくつかは、核酸分子と塩基対を形成していない。これらの対になっていないヌクレオチドは、典型的には、正しく対になっているヌクレオチドがポリメラーゼに関連付けられたままである時間スケールよりも短い時間スケール内に、ポリメラーゼによって拒絶される。対になっていないヌクレオチドは、ポリメラーゼに一時的にのみ関連付けられるため、図5に示されるプロセス500が、典型的には段階Dを過ぎて進行することがない。例えば、対になっていないヌクレオチドは、段階Bにおいて、あるいはプロセスが段階Cに進んだ直後に、ポリメラーゼによって拒絶される。
【0064】
種々の実施形態において、ポリメラーゼがナノポアにドッキングする前、ナノポアのコンダクタンスは、約300ピコシーメンス(300pS)であってよい。他の例として、段階Cにおいて、ナノポアのコンダクタンスは、4つのタイプのタグ付けされたヌクレオチドのうちの1つにそれぞれ対応する約60pS、80pS、100pS、または120pSであってよい。ポリメラーゼは、異性化およびリン酸転移反応を経て、ヌクレオチドを成長中の核酸分子に組み込み、タグ分子を解放する。とくには、タグがナノポア内に保持されると、タグの異なる化学構造に起因して固有のコンダクタンス信号(例えば、図3の信号310を参照)が生成されることにより、付加された塩基が電子的に識別される。サイクル(すなわち、段階A~Eまたは段階A~F)を繰り返すことにより、核酸分子のシーケンシングが可能になる。段階Dにおいて、解放されたタグはナノポアを通過する。
【0065】
いくつかの場合、図5の段階Fに見られるように、成長中の核酸分子に組み込まれていないタグ付けされたヌクレオチドも、ナノポアを通過する。組み込まれていないヌクレオチドが、場合によっては、ナノポアによって検出され得るが、本方法は、ヌクレオチドがナノポアにおいて検出される時間に少なくとも部分的に基づいて、組み込まれたヌクレオチドと組み込まれていないヌクレオチドとを区別するための手段を提供する。組み込まれていないヌクレオチドに結合したタグは、ナノポアを迅速に通過し、短期間(例えば、10ms未満)だけ検出されるが、組み込まれたヌクレオチドに結合したタグは、ナノポアにロードされ、長期間(例えば、少なくとも10ms)にわたって検出される。
【0066】
ナノポアベースのシーケンシングに関するさらなる詳細を、例えば、「Nanopore-Based Sequencing With Varying Voltage Stimulus」という名称の米国特許出願第14/577,511号、「Nanopore-Based Sequencing With Varying Voltage Stimulus」という名称の米国特許出願第14/971,667号、「Non-Destructive Bilayer Monitoring Using Measurement Of Bilayer Response To Electrical Stimulus」という名称の米国特許出願第15/085,700号、および「Electrical Enhancement Of Bilayer Formation」という名称の米国特許出願第15/085,713号に見つけることができる。
C.代理分子を使用したナノポアベースのシーケンシング
【0067】
別の例として、eXpansion(SBX)によるシーケンシングを使用することができる。そのような技術において、化学は、DNAのシーケンスを、Xpandomer分子などの測定容易な代理分子に変換する。いくつかの実施態様において、Xpandomer合成は、拡張可能なヌクレオシド三リン酸(X-NTP)がテンプレート依存性ポリメラーゼ系複製の基質として作用するDNA複製の天然の機能に基づく。Xpandomer合成は、各々のDNA塩基に1つずつの4つの容易に区別されるX-NTP(高信号対雑音レポータとも呼ばれる)に基づくことができる。操作されたポリメラーゼは、これらの修飾ヌクレオチドをXpandomerに組み込み、ライブラリから標的核酸テンプレートを正確にコピーすることができる。Xpandomer分子がナノポアを通過すると、各々の塩基レポータ(レポータエレメント)の別個の電気信号を容易に識別して、高精度かつ高スループットのナノポアに基づく核酸シーケンシングを可能にすることができる。
【0068】
代理分子(例えば、Xpandomer)は、以下の様相でテンプレート核酸分子から形成され得る。代理分子は、複数のユニットを含むことができる。各々のユニットは、1つ以上のレポータコード部分(レポータエレメントとも呼ばれる)を含み得る。レポータコードは、異なるヌクレオチド(例えば、A、T、C、G)に対応し得る。レポータコードは、ナノポアにおいて異なる電気信号を生成することができ、したがってヌクレオチドシーケンスの識別を可能にする。代理分子を、複数のリードを可能にするために、数回にわたってナノポアを通過して往復させることができる。
【0069】
いくつかの例として、ナノポアを用いた拡張によるシーケンシング(SBX)は、2020年5月14日に出願された国際公開第2020/236526号「Translocation control elements,reporter codes,and further means for translocation control for use in nanopore sequencing」および2008年6月19日に出願された米国特許第7,939,259号「High throughput nucleic acid sequencing by expansion」に記載されており、これらの両方の全内容は、あらゆる目的のために参照により本明細書に組み込まれる。
II.測定回路
【0070】
図6Aが、脂質膜/二重層612を横切って電圧が印加されるように、電気回路600の一部としてのセル作用電極614および対向電極616の間に位置する脂質膜または脂質二重層612を示している。脂質二重層は、2層の脂質分子からなる薄膜である。脂質膜は、脂質分子数個(3つ以上)分の厚さを有する膜である。さらに、脂質膜/二重層612は、バルク液体/電解質618と接触する。作用電極614、脂質膜/二重層612、および対向電極616が、図1の作用電極、脂質二重層、および対向電極と比較して上下逆さまに描かれていることに留意されたい。いくつかの実施形態において、対向電極は、複数のセル間で共有され、したがって、共通電極とも呼ばれる。共通電極を、共通電極を電圧源Vliq620に接続することにより、測定セル内の脂質膜/二重層に接触するバルク液体に共通電位を印加するよう構成することができる。共通電位および共通電極は、すべての測定セルに共通である。共通電極とは対照的に、各々の測定セル内に作用セル電極が存在し、作用セル作用電極614は、他の測定セルの作用セル電極とは独立に別個の電位を印加するように構成可能である。
【0071】
図6Bが、ナノポアベースのシーケンシングチップのセル内の電気回路600について、図6Aに示した回路の別の一変種を示している。図6Aと比較して、作用電極と対向電極との間の脂質膜/二重層を示す代わりに、作用電極および脂質膜/二重層の電気的特性を表す電気モデルが示されている。
【0072】
図6Bは、ナノポアセル200などのナノポアセルの電気モデルを表す電気回路600(図2の電気回路222の一部分を含んでよい)を示している。上述のように、いくつかの実施形態において、電気回路600は、ナノポアセンサチップ内の複数のナノポアセルまたはすべてのナノポアセル間で共有されてよく、それゆえに共通電極と呼ばれることもある対向電極640(例えば、対向電極210)を含む。共通電極を、電圧源Vliq620に接続することによって、ナノポアセルにおける脂質二重層(例えば、脂質二重層214)に接触するバルク電解質(例えば、バルク電解質208)に共通電位を印加するよう構成することができる。いくつかの実施形態においては、AC非ファラデーモードを利用して電圧VliqをAC信号(例えば、方形波)で変調し、ナノポアセル内で脂質二重層に接触するバルク電解質に印加することができる。いくつかの実施形態において、Vliqは、±200~250mVの大きさと、例えば25~600Hzの間の周波数とを有する矩形波である。対向電極640と脂質二重層との間のバルク電解質を、例えば100μF以上の大きなキャパシタ(図示せず)によってモデル化することができる。
【0073】
さらに、図6Bは、作用電極602(例えば、作用電極202)および脂質二重層(例えば、脂質二重層214)の電気的性質を表す電気モデル622を示している。電気モデル622は、脂質二重層に関連付けられたキャパシタンスをモデル化するキャパシタCbilayer626と、ナノポア内の特定のタグの存在に基づいて変化し得るナノポアに関連付けられた可変抵抗をモデル化する抵抗器Rpore628とを含む。さらに、電気モデル622は、二重層キャパシタンスcdblを有し、セルの作用電極602およびウェル(例えば、ウェル205)の電気的性質を表すキャパシタCdbl624を含む。作用電極602は、他のナノポアセル内の作用電極から独立した別個の電位を印加するように構成されてよい。
【0074】
パスデバイス606は、電気回路600に対する脂質二重層および作用電極の接続または切り離しに使用することができるスイッチであり得る。パスデバイス606は、ナノポアセルの脂質二重層を横切って印加される電圧刺激を有効化または無効化するために、メモリビットによって制御されてよい。脂質二重層を形成すべく脂質が堆積させられるまで、2つの電極間のインピーダンスは、ナノポアセルのウェルが封止されていないためきわめて低く、したがって、パスデバイス606を、短絡状態を回避するために開いたままに保つことができる。パスデバイス606を、脂質溶媒がナノポアセルに堆積させられ、ナノポアセルのウェルが封止された後に、閉じることができる。
【0075】
電気回路600は、オンチップ積分キャパシタCint608(ncap)をさらに含み得る。積分キャパシタCint608は、リセット信号603を使用してスイッチ601を閉じることで、積分キャパシタCint608を電圧源Vpre605に接続することにより、事前に充電されてよい。いくつかの実施形態において、電圧源Vpre605は、例えば900mVの大きさを有する固定の正の電圧を提供する。スイッチ601が閉じられているとき、積分キャパシタCint608は、電圧源Vpre605の正の電圧レベルまで事前に充電され得る。
【0076】
積分キャパシタCint608が事前に充電された後に、リセット信号603を使用してスイッチ601を開き、積分キャパシタCint608を電圧源Vpre605から切り離すことができる。この時点で、電圧源Vliqのレベルに応じて、対向電極640の電位は、作用電極602(および、積分キャパシタCint608)の電位より高いレベルにあってよく、あるいはその反対であってよい。例えば、電圧源Vliqからの方形波の正位相(例えば、AC電圧源信号サイクルの明期間または暗期間)の間、対向電極640の電位は、作用電極602の電位より高いレベルにある。電圧源Vliqからの方形波の負位相(例えば、AC電圧源信号サイクルの暗期間または明期間)の間、対向電極640の電位は、作用電極602の電位より低いレベルにある。したがって、いくつかの実施形態において、積分キャパシタCint608は、明期間の間に、電圧源Vpre605の事前に充電された電圧レベルから、より高いレベルまでさらに充電されてよく、暗期間の間に、対向電極640と作用電極602との間の電位差ゆえに、より低いレベルまで放電されてよい。他の実施形態において、充電および放電は、それぞれ暗期間および明期間に発生し得る。
【0077】
積分キャパシタCint608は、1kHz、5kHz、10kHz、または100kHzよりも高くてよく、あるいはさらに高くてもよいアナログ-デジタル変換器(ADC)610のサンプリング速度に依存する固定された期間にわたって充電または放電されてよい。例えば、1kHzのサンプリング速度で、積分キャパシタCint608は、約1msの期間にわたって充電/放電されてよく、次いで、積分期間の終わりにおいて電圧レベルがADC610によってサンプリングおよび変換されてよい。特定の電圧レベルが、ナノポア内の特定のタグ種に対応し、したがってテンプレート上の目下の位置にあるヌクレオチドに対応すると考えられる。
【0078】
ADC 610によってサンプリングされた後に、積分キャパシタCint608は、積分キャパシタCint608が再び電圧源Vpre605に接続されるようにリセット信号603を使用してスイッチ601を閉じることにより、再び事前に充電されてよい。積分キャパシタCint608を事前に充電するステップと、積分キャパシタCint608の充電または放電を一定の期間にわたって待機するステップと、ADC 610によって積分キャパシタの電圧レベルをサンプリングおよび変換するステップとを、シーケンシングプロセスの全体を通して周期的に繰り返すことができる。
【0079】
デジタルプロセッサ630は、例えば、正規化、データバッファリング、データフィルタリング、データ圧縮、データ削減、イベント抽出、またはナノポアセルのアレイからのADC出力データの種々のデータフレームへのアセンブリングのために、ADC出力データを処理することができる。いくつかの実施形態において、デジタルプロセッサ630は、塩基判定などのさらなる下流の処理を実行することができる。デジタルプロセッサ630を、(例えば、GPU、FPGA、ASIC、などの内部の)ハードウェアとして実装でき、あるいはハードウェアとソフトウェアとの組み合わせとして実装することができる。
【0080】
したがって、ナノポアを横切って印加される電圧信号を、ナノポアの特定の状態を検出するために使用することができる。ナノポアについて生じ得る状態の1つは、タグが取り付けられたポリホスフェートがナノポアの筒に存在しない場合の開放チャネル状態である。ナノポアについて生じ得る他の4つの状態は、それぞれ、4つの異なるタイプのタグが取り付けられたポリリン酸ヌクレオチド(A、T、G、またはC)のうちの1つがナノポアの筒内に保持されているときの状態に対応する。ナノポアについて生じ得るさらに別の状態は、脂質二重層が破れた場合である。
【0081】
積分キャパシタCint608における電圧レベルが一定の期間の後に測定されるとき、ナノポアの異なる状態は、異なる電圧レベルの測定値をもたらすことができる。これは、積分キャパシタCint608における電圧の減衰(放電による減少または充電による増加)の速度(すなわち、時間に対する積分キャパシタCint608の電圧のグラフの傾きの急峻さ)が、ナノポアの抵抗(例えば、抵抗器Rpore628の抵抗)に依存するからである。より詳しくは、異なる状態のナノポアに関する抵抗が、分子(タグ)の別個の化学構造に起因して異なるため、これに対応して異なる電圧減衰の速度が観察され、これを使用してナノポアの異なる状態を識別することができる。電圧減衰曲線は、RC時定数τ=RCの指数関数曲線であってよく、Rは、ナノポアに関する抵抗(すなわち、Rpore 628)であり、Cは、Rと並列な膜に関するキャパシタンス(すなわち、キャパシタCbilayer 626)である。ナノポアセルの時定数は、例えば、約200~500msであってよい。減衰曲線は、二重層の詳細な実施態様に起因して、指数曲線に正確には一致しないかもしれないが、減衰曲線は、指数曲線に類似でき、単調であり、したがってタグの検出を可能にする。
【0082】
いくつかの実施形態において、開放チャネル状態にあるナノポアに関する抵抗は、100MOhm~20GOhmの範囲内にあり得る。いくつかの実施形態において、タグがナノポアの筒の内部に存在する状態にあるナノポアに関する抵抗は、200MOhm~40GOhmの範囲内にあり得る。他の実施形態において、積分キャパシタCint608は省略されてもよく、なぜならば、それでもなおADC610へと導かれる電圧は電気モデル622内の電圧減衰によって変化するからである。
【0083】
積分キャパシタCint608における電圧の減衰の速度は、さまざまなやり方で決定され得る。上述したように、電圧減衰の速度は、一定の時間区間における電圧減衰を測定することによって決定され得る。例えば、積分キャパシタCint608における電圧を、最初に時刻t1においてADC610によって測定でき、その後に、電圧は、時刻t2においてADC610によって再び測定される。時間に対する積分キャパシタCint608の電圧曲線の傾きがより急であるとき、電圧差はより大きく、電圧曲線の傾きがより緩やかなとき、電圧差はより小さい。このように、電圧差を、積分キャパシタCint608の電圧の減衰の速度、したがってナノポアセルの状態を決定するための測定基準として使用することができる。
【0084】
他の実施形態においては、電圧減衰の速度を、選択された電圧減衰量のために必要な時間を測定することによって決定することができる。例えば、電圧が第1の電圧レベルV1から第2の電圧レベルV2まで低下または上昇するために必要な時間を測定することができる。時間に対する電圧の曲線の勾配が急であるほど、必要な時間は短くなり、時間に対する電圧の曲線の勾配が急でない場合、必要な時間は長くなる。このように、必要な時間を測定して、積分キャパシタCint608における電圧Vncapの減衰の速度、したがってナノポアセルの状態を決定するための測定基準として用いることができる。当業者であれば、例えば電流測定技術など、ナノポアの抵抗を測定するために使用することができるさまざまな回路を理解できるであろう。
【0085】
いくつかの実施形態において、電気回路600は、チップ上に作られるパスデバイス(例えば、パスデバイス606)および追加のキャパシタ(例えば、積分キャパシタCint608)を含まなくてもよく、これにより、ナノポアベースのシーケンシングチップのサイズを小さくすることができる。膜(脂質二重層)の薄いという特性により、膜(キャパシタCbilayer626)に関するキャパシタンスは、チップ上の追加のキャパシタンスを必要とすることなく、それ単体で、必要なRC時定数を生み出すために充分であり得る。したがって、キャパシタCbilayer626を、積分キャパシタとして使用することができ、電圧信号Vpreによって事前に充電し、その後に電圧信号Vliqによって放電または充電することができる。本来であれば電気回路内のチップ上に作られる追加のキャパシタおよびパスデバイスを除くことにより、ナノポアシーケンシングチップにおける単一のナノポアセルのフットプリントを大幅に縮小することができ、したがって、ナノポアシーケンシングチップをさらに多くのセルを含む(例えば、ナノポアシーケンシングチップ内に数百万個のセルを有する)ように容易にスケーリングすることができる。
【0086】
図7が、ACサイクルの明期間および暗間期においてナノポアセルからキャプチャされたデータポイントの例を示している。図7には、データポイントの変化が、説明を目的として誇張されている。作用電極または積分キャパシタに印加される電圧(VPRE)は、例えば900mVなどの一定のレベルにある。ナノポアセルの対向電極に印加される電圧信号510(VLIQ)は、矩形波として示されるAC信号であり、デューティサイクルは、例えば約40%であるが、50%以下などの任意の適切な値であってよい。
【0087】
明期間720において、電圧源Vliq620によって対向電極に印加される電圧信号は、作用電極に印加される電圧VPREより低く、その結果、タグは、作用電極および対向電極に印加される異なる電圧レベルによって引き起こされる電界によって、ナノポアの筒内に押し込まれ得る(例えば、タグ上の電荷および/またはイオンの流れゆえに)。スイッチ601が開かれると、ADCよりも前のノードにおける(例えば、積分キャパシタにおける)電圧が、低下する。電圧データポイントが取得された後に(例えば、指定の期間の後に)、スイッチ601を閉じることができ、測定ノードにおける電圧は、再びVPREへと増加する。プロセスを、複数の電圧データポイントを測定するために繰り返すことができる。このようにして、複数のデータポイントが、明期間の間に取得されてよい。
【0088】
図7に示されるように、VLIQ信号の符号の変化後の明期間における第1のデータポイント722は、後続のデータポイント724より低いかもしれない。これは、ナノポア内にタグが存在せず(開放チャネル)、それゆえに抵抗が小さく、放電速度が高いからであるかもしれない。いくつかの場合に、第1のデータポイント722は、図7に示されるように、VLIQのレベルを超えるかもしれない。これは、信号をチップ上キャパシタに結合させる二重層のキャパシタンスに起因する可能性がある。データポイント724は、挿通事象が生じた後、すなわちタグがナノポアの筒内に押し込まれた後に取得されてよく、この場合、ナノポアの抵抗、したがって積分キャパシタの放電の速度は、ナノポアの筒内に押し込まれたタグの特定のタイプに依存する。データポイント724は、以下で述べられるように、Cdbl624における電荷の蓄積ゆえに、各々の測定について僅かに減少し得る。
【0089】
暗期間730において、対向電極に印加される電圧信号710(VLIQ)は、作用電極に印加される電圧(VPRE)よりも高く、したがって、タグがナノポアの筒から押し出されると考えられる。スイッチ601が開かれると、電圧信号710(VLIQ)の電圧レベルがVPREよりも高いために、測定ノードにおける電圧が上昇する。電圧データポイントが取得された後に(例えば、指定の期間の後に)、スイッチ601を閉じることができ、測定ノードにおける電圧は、再びVPREへと低下する。プロセスは、複数の電圧データポイントを測定するために繰り返すことができる。このように、第1のポイントデルタ732および後続のデータポイント734を含む複数のデータポイントが、暗期間の間に取得され得る。上述したように、暗期間において、ヌクレオチドタグはナノポアから押し出され、したがって、正規化における使用に加えて、ヌクレオチドタグについての最小限の情報が取得される。
【0090】
さらに、図7は、明期間740において、たとえ対向電極に印加される電圧信号710(VLIQ)が作用電極に印加される電圧(VPRE)よりも低くても、挿通事象が生じない(開放チャネル)ことを示している。したがって、ナノポアの抵抗は低く、積分キャパシタの放電の速度は高い。結果として、第1のデータポイント742および後続のデータポイント744を含む取得されたデータポイントは、低い電圧レベルを示す。
【0091】
明期間または暗期間の間に測定される電圧は、(例えば、1つのタグがナノポア内にあるときの所与のACサイクルの明モードの間に行われる)ナノポアの一定の抵抗の各々の測定について、ほぼ同じであると期待できるが、これは、電荷が二重層キャパシタCdbl624に蓄積される場合には当てはまらないかもしれない。この電荷の蓄積は、ナノポアセルの時定数をより長くさせる可能性がある。結果として、電圧レベルがずれることにより、測定値が、サイクル内の各々のデータポイントについて減少する可能性がある。このように、サイクル内で、データポイントは、図7に示されるように、或るデータポイントと別のデータポイントとでいくらか変化する可能性がある。
III.生リードデータ圧縮アーキテクチャ
【0092】
いくつかの実施形態において、シーケンシングシステムは、シーケンシングを実行して生データを生成するセンサよりも下流の1つ以上の要素の能力を超える速度で、生リードデータを生成する可能性がある。1つ以上の要素として、データを記憶または分析するために使用されるデータ処理システム内の要素を挙げることができる。1つ以上の要素は、バスのチャネル容量または記憶容量を含み得る。データの生成と後続の分析および/または保存との速度の差は、データ過負荷をもたらし、シーケンシング装置の性能を低下させる可能性がある。したがって、生リードデータをローカルにてリアルタイムで圧縮する方法およびシステムが、本明細書に開示される。
A.シーケンシングシステム
【0093】
図8が、ハードウェア構成およびシステムの異なる構成要素間の通信チャネルを含むシーケンシングシステムの一実施形態を示している。シーケンシングセンサ810が、生データを生成し、生データは、或るレート815で推論回路820(推論チップとも呼ばれる)に送信される。推論回路820は、生データから、ベースコール、品質スコア、および他のサブストリーム(例えば、ヘッダ情報)を含む生リードデータのストリームを生成する。いくつかの実施形態において、レート815は、少なくとも12ギガバイト毎秒(GB/s)であってよい。
【0094】
生リードデータまたはそのサブストリーム、ならびに生データおよび任意の中間データを、或るレート835でメモリ830と推論回路820との間で送信することができる。種々の実施形態において、レート835は、少なくとも約50GB/s、60GB/s、70GB/s、80GB/s、100GB/s、150GB/s、200GB/s、または200GB/s以上である。メモリ830は、生データ、生リードデータ、またはそれらの一部をバッファすることができる。
【0095】
生リードデータストリームを、或るレート825および845で記憶装置840へと送信および記憶装置840から送信することができる。記憶装置840は、推論チップと同じ機器上に位置することができるデータ記憶装置(例えば、ソリッドステートドライブなどのハードドライブまたはハードディスク)であるオンステーションストレージであってよい。レート825および845は、約1.3~2GB/sであってよい。いくつかの実施形態において、記憶装置840(オンシステムストレージとして示されている)からのデータの出力のレート845は、入力レート825より低くてもよい。このようなレートは単なる例であり、下流のスループットが上流で生成されるデータ量よりも少なく、したがってボトルネックが存在することを示すために使用されている。種々の実施形態は、精度を維持する特定のやり方でデータを圧縮または廃棄することによって、このボトルネックに対処することができる。
【0096】
ネットワーク推論コントローラ(NIC)850を使用して、記憶装置840から外部ドライブまたはディスクにデータを或るレート855でオフロードすることができる。NICは、約1.25GB/s(10Gb/s)の高い転送速度を提供することができる。この例に示されるように、生データの生成のレート815は、記憶装置840へのデータ伝送および記憶装置840からのデータ伝送のレートよりもはるかに速い。したがって、データを推論回路820での生成時にリアルタイムで圧縮する必要がある。
【0097】
例として、推論回路820は、複数のコアまたはチップを含むことができる。例えば、いくつかの実施形態は、有線ベースのシリアルマルチレーン近距離通信リンク(例えば、NVlink)などのきわめて広い帯域幅のリンクによって接続された複数のGPU(例えば、4つ、6つ、8つ、など)を有することができる。いくつかの場合、或るGPUのダイナミックランダムアクセスメモリ(DRAM)が、次のGPUのDRAMにもアクセスすることができる。
B.リアルタイムでの生リードデータ圧縮
【0098】
図9が、シーケンシング装置(例えば、ナノポアベースのシーケンシング装置)によって生成された生データから得られた生リードデータのリアルタイム圧縮の方法を示すフローチャートである。生データは、1つ以上の核酸分子またはその一部分のシーケンシングデータを含み得る。生リードデータを、生データから生成することができる。生データを、例えば加速コンピューティングハードウェア(例えば、図8の推論回路820)によって生リードデータを生成するために、一次分析パイプラインによって処理することができる。次いで、生リードデータは、ローカルに(例えば、バッファに)保存されてよく、あるいは(例えば、方法900を使用することによる)圧縮のためにリアルタイムで提供されてよい。生データおよび/または生リードデータは、約5秒(s)、3s、2s、1s、0.5s、0.1s、またはそれ未満の間、メモリにバッファされてよい。データをバッファする期間は、データのリアルタイム処理を確実にするために、実行サイクル(例えば、シーケンシング装置が生データを生成するために必要な時間)のわずかな割合にすぎず、あるいは実行サイクルよりも大幅に短い。いくつかの場合、生リードデータは、生データから生成されるときに(例えば、方法900による)圧縮のために提供される。
【0099】
ステップ910において、核酸分子の生リードデータが(例えば、推論回路820またはメモリ830から)受信される。生リードデータを、推論回路820の別の部分によって受信することができる。生リードデータを、例えば、その全体があらゆる目的のために参照により本明細書に組み込まれる米国特許出願第15/669,207号に開示されている技術を使用するベースコールモジュールによって、生データから生成することができる。
【0100】
ステップ920において、例えばベースコールサブストリーム、品質スコアサブストリーム、およびヘッダサブストリームなどのサブストリームを、生リードデータから生成することができる。ベースコールサブストリームのベースコールデータは、複数の核酸分子(例えば、少なくとも100,000個の核酸分子)またはその一部分の各々についてのベースコールのシーケンスを含むことができる。別個のシーケンシングプロセスあるいは別個の分子またはその一部分に対応するシーケンシングデータを区別するために、ヘッダデータサブストリームを生成することができる。同様に、品質スコアサブストリームが、生リードストリームの各々について生成されてよい。一次分析パイプラインが、シーケンシング装置からの生データを、リアルタイムでベースコール、品質スコア、およびヘッダサブストリームを含む生リードデータに変換することができる。生リードの生成のレートは、おおむね約1000リード/秒、10,000リード/秒、100,000リード/秒、1,000,000リード/秒、10,000,000リード/秒、100,000,000リード/秒、1,000,000,000リード/秒、またはさらに高くてもよい。
【0101】
いくつかの実施形態において、一次分析パイプラインは、リアルタイムでステップ920を実行する。例えば、一次分析は、シーケンシングセルが所与のシーケンシングセル(すなわち、所与の核酸分子)に関する完全な生データをもたらすとすぐに、シーケンシング装置からの生データを生リードデータに変換することができる。あるいは、一次分析パイプラインは、準リアルタイム方式でステップ920を実行することができる。いくつかの実施形態において、生データは、分子トレース検出事象の平均時間よりも長くてもよい期間にわたってバッファされる。生データは、この時間の間に蓄積されてよく、これは時間チャンクと呼ばれる。時間チャンクのデータを処理することができ、所与の時間チャンクからのすべてのリードを実質的に同時に生成することができる。時間チャンクは、約0.1秒、1秒、または10秒続いてよい。時間チャンクは、少なくとも約0.1秒、1秒、10秒、またはそれ以上続いてよい。時間チャンクは、最大で約10秒、1秒、0.1秒、またはそれ未満の長さであってよい。
【0102】
いくつかの実施形態において、生リードデータの一部を一時的に保存することができる。次いで、生リードデータを後の時点で圧縮することができる。いくつかの実施形態において、シーケンシング装置の下流のチャネルは、シーケンシング装置による生成の速度で生データまたは生リードデータを転送、分析、または保存する能力を、有していないかもしれない。これらの場合、生データおよび/または生リードデータを、データの転送または保存の前に圧縮することができる。
【0103】
ステップ930において、生リードデータストリームは圧縮される。いくつかの実施形態においては、生リードデータ内の各々のサブストリームが、別々に圧縮される。生リードデータ内の異なるサブストリームが、同時または順次に分析および圧縮されてよい。例えば、ヘッダサブストリーム、ベースコールデータのサブストリーム、および品質スコアデータサブストリームが、順序付けられた様相または順序付けられていない様相で(例えば、1つの計算スレッドとして機能することができる複数のスレッドを連続して使用して)次々に処理されてよい。いくつかの実施形態において、サブストリームは並列に圧縮される。圧縮に関するさらなる詳細は、以下で提供される。
【0104】
ステップ940において、圧縮されたデータサブストリームは、記憶のためにディスクに転送される。これにより、未圧縮のデータ(例えば、生データまたは生リードデータ)のディスクへの書き込みおよび/またはディスクからの読み出しの必要性を排除することができる。生リードデータはシーケンシング装置によってきわめて高いレートで生成されるため、ディスクへの大量の生データおよび/または生リードデータの書き込みが、例えば利用可能なメモリの限られたサイズ、I/O帯域幅、またはバスチャネルの容量の制限などのシステムにおける制約ゆえに、実現不可能であるかもしれない。いくつかの場合、生リードデータの圧縮されたサブストリームが組み合わせられ、単一の圧縮済みデータストリーム内のシーケンシング装置から生成されたシーケンシングデータに対応する圧縮済みデータが生成される。
【0105】
いくつかの場合、ステップ920~930において、時間チャンクからの生リードデータが圧縮される。生リードデータは、別々の時間チャンクから同時または順次に圧縮されてもよい。各々の時間チャンクからの圧縮されたデータを、メモリ(例えば、バッファ)に格納することができる。次いで、別々の時間チャンクからの圧縮されたデータを、単一の圧縮済みデータストリームへと結合させることができる。これは、核酸分子からのデータが異なる時間チャンクにおいて生成される場合に使用され得る。結合させた圧縮データを、後の時間チャンクにおいて生成される同じ核酸分子からの圧縮されたデータを合併させることができるように、メモリ(例えば、バッファ)に格納することができる。
C.別々のスレッドおよび負荷バランシングを使用したリードデータサブストリームの圧縮
【0106】
図10が、シーケンシング装置(例えば、ナノポアベースのシーケンシング装置)によって生成された生データを圧縮する別の例示的な方法を説明するフローチャートである。
【0107】
ステップ1010において、生データの第1のストリームがセンサチップから受信される。生データは、複数の核酸分子の各位置に関する複数の測定値を含んでよい。複数の核酸分子は、少なくとも2、3、4、5、10、50、100、1000、10,000、100,000、500,000、100万、またはさらに多くの核酸分子を含んでよい。センサチップは、各々が別個の核酸分子をシーケンシングする複数のシーケンシングセルを含んでよい。いくつかの実施形態において、センサチップから受信される生データは、同じ核酸分子またはその一部分に対応する複数の核酸のシーケンシングデータを含んでよい。いくつかの実施形態において、センサチップ内の複数のセルのうちの2つ以上から受信される生データは、シーケンス内容または参照ゲノムに対するそれらの位置に関して互いに相関しないシーケンシングデータを含んでよい。例えば、複数のセルからのセンサチップによって生成された生データは、参照シーケンスに対する異なる位置に属してよい2つ以上の核酸分子に対応するシーケンシング情報を含み得る。
【0108】
ステップ1020において、一次分析パイプラインが、センサチップから受信した生データから生リードデータの第2のストリームを生成する。生リードデータを、例えば、その全体があらゆる目的のために参照により本明細書に組み込まれる米国特許出願公開第2018/0037948号明細書に開示されている技術を使用するベースコールモジュールによって、生データから生成することができる。
【0109】
生リードデータストリームの各々は、1つの核酸分子またはゲノム内の特定の位置に対応し得る。いくつかの場合、バーコード(例えば、一意またはランダムなシーケンス識別子)を核酸分子に取り付けて、分子を識別することができる。バーコードは、シーケンシングの前に核酸分子に取り付けられてよい。例えば、一意の分子識別子(UMI)、分子バーコード、またはランダムバーコードが、シーケンシング前のライブラリ調製の際に核酸分子またはその一部分に取り付けられてよい。そのようなバーコードに対応するベースコールデータが、リアルタイムで核酸分子を識別するために使用されてよい。
【0110】
核酸分子またはゲノム上の特定の位置に対応する生データからステップ1020で生成された生リードデータの第2のストリームを、データサブストリームに分離することができる。データサブストリームは、ヘッダデータサブストリーム、品質スコアサブストリーム、およびベースコールデータサブストリームを含むことができる。
【0111】
ステップ1030において、ヘッダデータサブストリームが、生リードデータの第2のストリームから抽出される。ヘッダデータは、抽出に使用することができる特定のフォーマットを有することができる。他の例においては、特定のデータタグ(例えば、ビットまたは文字の任意のセット)を使用して、例えばヘッダデータをベースコールデータから分離するなど、異なるタイプのデータを分離することができる。
【0112】
ステップ1040において、ヘッダデータサブストリームが圧縮されて、圧縮済みヘッダ情報が生成される。ヘッダデータサブストリームの分析および圧縮は、1つ以上の計算スレッド(スレッド)によって実行されてよい。いくつかの場合、ヘッダデータサブストリームを圧縮するプロセスは、1つ以上の第1のスレッドによって実行される。スレッドは、並列または直列に実行されてよい。上述のように、シーケンシングチップによって生成された生データは、ゲノム内の異なる核酸分子または位置に対応するシーケンシング情報を含み得る。ヘッダデータは、生データにおける複数のリードのうちの1つのリードを識別する情報を含み得る。いくつかの実施形態において、ヘッダデータは、文字列またはテキストを含む。したがって、ヘッダデータをテキストとして圧縮することができる。いくつかの実施形態において、ヘッダデータサブストリームは、複数のデータサブフィールドから構成される。個々のデータサブフィールドは、各サブフィールドのデータ仕様を用いて認識されうる。例えば、サブフィールドは、データの文字長または区切り文字によって表現され得る。あるいは、ヘッダデータは、バイナリ符号化された後に圧縮(例えば、可逆または非可逆ビット圧縮)されてもよい。
【0113】
ステップ1050において、ベースコールデータサブストリームが、生リードデータの第2のストリームから抽出される。ベースコールデータは、複数の核酸分子(例えば、少なくとも100,000個の核酸分子)またはその一部分の各々についてのベースコールのシーケンスを含むことができる。ベースコールデータサブストリームは、生リードデータからのシーケンスリードにおける各位置についてのヌクレオチドタイプまたはベースコールを含む。抽出は、異なるサブストリームにわたって同様の技術を使用することができる。
【0114】
ステップ1060において、ベースコールデータサブストリームが圧縮されて、圧縮済みベースコールデータが生成される。いくつかの場合、ベースコールデータの圧縮は、全データが実質的に保存される可逆圧縮である。換言すると、可逆圧縮は、データの一部の除去を含む不可逆圧縮と対照的に、データの一部を除去することなくデータのサイズを縮小する。ベースコールデータサブストリームの分析および圧縮は、1つ以上のスレッドによって実行されてよい。ベースコールデータサブストリームを分析および圧縮するために使用される計算スレッドは、ヘッダデータサブストリームの分析および圧縮に使用されるスレッドとは異なってよい。いくつかの場合、ベースコールデータサブストリームを圧縮するプロセスは、1つ以上の第2のスレッドによって実行される。第2のスレッドは、並列に、順次に、またはこれらの任意の組み合わせにて動作してよい1つ以上の計算スレッドを含み得る。本明細書で説明されるスレッドは、ソフトウェアスレッドまたはハードウェアスレッドであってよい。
【0115】
ステップ1070において、品質スコアデータサブストリームが、生リードデータの第2のストリームから抽出される。品質スコアデータサブストリームは、シーケンスリード内の所与の位置におけるベースコールが正しい確率を含む。品質スコアは、1つのASCII値(例えば、1文字)として符号化されてよい。品質スコアは、具体的な値(例えば、0~1、0~100、または0~1000の確率値)を離散値またはカテゴリ値(例えば、低品質、高品質、超高品質、または超低品質、あるいは同じカテゴリを示す離散的な数値)に変換することによって符号化されてよい。品質スコアは、各々のベースコールに関連する複数の特徴に関する複数の値を含んでよい(多値特徴)。各々のベースコールに関する品質スコアは、例えば、ベースコールが正しいという確率スコアまたは信頼スコア、ならびにベースコールが不一致である確率を示す不一致(例えば、挿入、欠失、スキップ、またはソフトクリップを含む)の可能性に関する複数のスコアを含んでよい。したがって、置換スコア、挿入スコア、または欠失スコア、あるいは他のタイプのスコアが存在できる。特徴は、不一致確率以外の特徴を含んでもよい。さらに、スコアは、スコアの線形結合であり得る。
【0116】
ステップ1080において、品質スコアデータサブストリームが圧縮されて、圧縮済み品質スコアデータが生成される。いくつかの場合、品質スコアデータの圧縮は不可逆圧縮である。品質スコアデータサブストリームの分析および圧縮は、1つ以上のスレッドによって実行されてよい。品質スコアデータサブストリームを分析および圧縮するために使用される計算スレッドは、ヘッダデータサブストリームまたはベースコールデータサブストリームの分析および圧縮に使用されるスレッドとは異なってよい。いくつかの場合、品質スコアデータサブストリームを圧縮するプロセスは、第3のスレッドによって実行される。第3のスレッドは、並列に、順次に、またはこれらの任意の組み合わせにて動作してよい1つ以上の計算スレッドを含み得る。
【0117】
ステップ1090において、圧縮済みヘッダデータ、圧縮済みベースコールデータ、および圧縮済み品質スコアデータを随意により結合させて、圧縮済みデータの第3のストリームを生成することができる。いくつかの実施形態において、圧縮済みヘッダデータ、圧縮済みベースコールデータ、および圧縮済み品質スコアデータは、メモリ(例えば、記憶装置、ディスク、またはクラウドストレージ)に別々に記憶される。異なるサブストリームを、別々のスレッドを使用して処理および圧縮することができる。
【0118】
負荷バランシングシステムを使用して、各スレッドに割り当てられる計算リソースを管理することができる。いくつかの実施形態において、負荷バランシングシステムは、任意の所与の時間においてアイドルであるコンピューティングユニットの数を最小化するように計算リソースを割り当てる。これにより、処理能力を最大化し、処理時間を最小化することができる。いくつかの場合、負荷バランシングシステムは、すべてのサブストリームの圧縮プロセスがほぼ同時に完了することを保証するように、異なるスレッドに計算リソースを割り当てる。計算リソースは、コンピューティングユニット(例えば、CPU、GPU、FPGA、メモリ、I/O帯域幅、など)を含み得る。
【0119】
1つ以上のヌクレオチドのベースコールデータサブストリーム、ヘッダデータサブストリーム、および品質スコアデータサブストリームのシーケンスリードデータは、一度に処理および圧縮されてよい。圧縮済みデータストリームを、一度に1つ以上のヌクレオチドの圧縮済みデータを加算することによって生成することができる。不完全な圧縮済みデータストリームを、断続的にローカルメモリ(例えば、SRAM)に格納することができる。次いで、完全な圧縮済みデータを、記憶装置(例えば、ソリッドステートドライブなどのハードドライブ)に格納することができる。
D.負荷バランシング
【0120】
生リードデータを、センサチップから得られた生データから生成することができる。生リードデータストリームは、ベースコールデータ、品質スコアデータ、およびヘッダデータの2つ以上のサブストリームを含み得る。サブストリームの各々は、他のサブストリームのデータとは(例えば、内容またはフォーマットにおいて)異なってよいデータを含み得る。したがって、各々のサブストリームデータの分析および圧縮は、異なって(例えば、異なるアルゴリズム、スレッド、または異なるハードウェアを使用して)実行され得る。本明細書において、ベースコールサブストリーム、品質スコア(qスコアまたはQスコア)サブストリーム、およびヘッダデータサブストリームを圧縮するためのシステムおよび方法が開示される。
【0121】
図11Aが、生リードデータ圧縮システム1100の一実施形態を示している。生リードデータ1110を、上述したように、(例えば、ベースコールモジュールを使用することによって)シーケンシング装置から受信した生データから生成することができる。使用される構成に応じて、種々のモジュール(エンジン)は随意であってよい。
【0122】
次いで、データのサブストリームを、抽出エンジン1120を使用して生リードデータから抽出することができる。抽出エンジン1120は、生リードデータを分析して、ヘッダデータの第1のサブストリーム、ベースコールデータの第2のサブストリーム、および品質管理データの第3のサブストリームを生成することができる。抽出エンジン1120は、データのタイプを識別する特定の文字、または異なるタイプのデータを分離する分離マーカを検索するロジックを備えることができる。生リードデータ1110は、分離マーカの後ろの次のデータのタイプを予め指定できるように、異なるタイプのデータ部分を指定の順序で備えることができる。
【0123】
次いで、サブストリームの各々を、別々の計算スレッドによって処理および圧縮することができる。第1のスレッド1130が、ヘッダデータの第1のサブストリームを圧縮するために使用されてよい。第2のスレッド1140が、ベースコールデータの第2のサブストリームを圧縮するために使用されてよい。第3のスレッド1150が、品質スコアデータの第3のサブストリームを圧縮するために使用されてよい。いくつかの場合、第1、第2、および第3のスレッドは、1つ以上の計算スレッドを含んでよい。いくつかの場合、2つ以上のサブストリームが単一のスレッドを使用して処理および圧縮されてよい。さらに、第1、第2、および第3のスレッドは、同期エンジン1160と通信してもよい。スレッドは、1つ以上の処理ユニットに割り当てられてよいソフトウェアスレッドに対応し得る(例えば、同じ処理ユニットに割り当てられた場合にはタイムシェアリングされ、異なる処理ユニットにおいては並列に実行される)。
【0124】
同期エンジン1160は、種々の機能を実行し得る。例えば、同期エンジンは、スレッドのスケジューリングを協調させることができる。例えば、同期エンジン1160は、1つ以上の処理ユニット(例えば、CPU、GPU、FPGA、または仮想マシン)によって処理されるように1つ以上のスレッドを割り当てることによって負荷バランシングを実行することができる。割り当ては、種々のストリームのデータ量の既知の比率、または圧縮技術の複雑さ(例えば、ベースコール圧縮は参照シーケンスへの整合を必要とする)に基づくことができる。同期エンジン1160は、例えば、特定のサブストリームが遅れていることを示す所与のサブストリームについてバッファされているデータのサイズに関する動的情報を受信することができる。そのような場合、同期エンジン1160は、そのサブストリームにより多くのリソース(例えば、時間またはハードウェア)を割り当てることができる。さらに、同期エンジン1160は、メモリユニット(例えば、メモリキャッシュまたはバッファ)に1つ以上のスレッドを割り当てることができる。同期エンジン1160は、サブストリームがほぼ同じレートで圧縮され、あるいはほぼ同時に出力されることを保証するように、スレッドにリソースを割り当てることができる。次いで、同期エンジン1160は、圧縮されたサブストリームを結合エンジン1170に送信することができる。
【0125】
いくつかの実施形態において、特定のサブストリームに専用のハードウェアリソースは、専用(例えば、ASIC)であってよい。そのような状況において、同期エンジン1160は、特定のシーケンシングセル(例えば、同じ核酸)のすべての圧縮されたデータをサブストリームにおいて識別できるように、出力されるデータを協調させることができ、そのような同期されたデータを、互いに束ねて、例えば結合エンジン1170へと下流に送信することができる。他の実施形態において、スレッドは、圧縮後のデータを結合エンジン1170に直接提供することができ、同期エンジン1160は存在しなくてもよい。
【0126】
結合エンジン1170は、圧縮されたサブストリームのうちの2つ以上を合併させて、生リードデータ1110に対応する単一の圧縮済みデータを生成することができる。いくつかの場合、核酸分子は(例えば、時間チャンクにて)不連続的にシーケンシングされ得る。結合エンジン1170は、2つ以上の生リードデータからの(例えば、別々の時間チャンクからの)結合させた圧縮済みデータを格納するためのバッファを備えることができる。次いで、結合エンジン1170は、異なる生リードデータからの結合および圧縮済みデータを単一の圧縮済みデータに合併させることができる。次いで、結合エンジン1170からの結合および圧縮済みデータを、入出力(I/O)ユニット1180に送信することができる。あるいは、圧縮済みサブストリームは、例えば結合が実行されず、代わりに圧縮されたサブストリームが準備ができたときに出力される場合、I/O1180に直接送信されてもよい。各々のサブストリームの別々のチャンクをバッファし、チャンクにて出力することができる。
【0127】
図11Bが、ソフトウェアスレッドをスケジューリングするための負荷バランシングシステム1181の一例を示している。負荷バランシングシステム1181は、同期エンジン(例えば、同期エンジン1160)の一部であってよい。1つ以上のソフトウェアスレッド1185が、(例えば、抽出エンジン1120を使用して)生データから抽出された1つ以上のサブストリームを処理および圧縮することができる。スケジューラ1187は、1つ以上のスレッド1185を計算処理ユニット1190に割り当てることができる。計算処理ユニット1190は、1つ以上の処理ユニット(例えば、CPU、GPU、FPGA、または仮想マシン)を備えることができる。スケジューラ1187は、各々のスレッドを、1つ以上のCPU、1つ以上のGPU、またはこれらの組み合わせに割り当てることができる。いくつかの場合、2つ以上のスレッドを単一の処理ユニット(CPU、GPU、またはFPGA)に割り当ててもよい。
【0128】
スケジューラ1187は、種々のスレッドのデータ量の既知の比率に少なくとも部分的に基づいて、スレッドを処理ユニット1190に割り当てることができる。割り当ては、例えば、特定のスレッドが遅れていることを示す所与のスレッドについてバッファされているデータのサイズに関する動的情報に少なくとも部分的に基づくことができる。スケジューラ1187は、ソフトウェアスレッド1185がほぼ同じレートで処理され、あるいはほぼ同時に出力されることを保証することができる。各々のスレッドは、圧縮されたサブストリームまたはその一部をメモリ1192に出力することができる。メモリ1192は、1つ以上の一時記憶ユニット(例えば、キャッシュメモリ)を備えることができる。いくつかの場合、1つ以上のスレッドからの出力を、処理ユニット1190によって結合させて、結合圧縮済みデータを生成することができ、あるいは結合エンジン(例えば、結合エンジン1170)によって処理されるべき1つの出力にパッケージ化することができる。負荷バランシングシステム1181は、同期エンジン1160について上述した他のプロセスのいずれかを実行することができる。
IV.圧縮技術
A.リード圧縮のための参照ベースの手法
【0129】
図12が、シーケンシング装置(例えば、ナノポアベースのシーケンシング装置)によって生成された生リードデータからのベースコールサブストリームを圧縮するための方法1200を説明するフローチャートである。ベースコールデータは、少なくとも100,000個の核酸分子の各々、あるいは少なくとも2、3、4、5、10、50、100、1000、10,000、100,000、500,000、100万、またはさらに多くの核酸分子などの他の数の分子についてのベースコールのシーケンス(シーケンスリードとも呼ばれる)を含むことができる。核酸分子に対応するシーケンスリードについて、ベースコールデータは、シーケンスリード内の各位置に関するベースコールを含む。方法1200を、それぞれの核酸に対応するベースコールの各々のシーケンスについて実行することができる。圧縮は、上述したベースコールデータの第2のサブストリームの圧縮であってよい。
【0130】
ベースコールデータサブストリームは、以下でシーケンスリードまたはリードと呼ばれる核酸分子(例えば、DNAまたはRNA)中のベースのシーケンスを格納する。ベースコールデータサブストリーム中のシーケンスリードは、A、T、C、G、U、またはNからなる文字列としての核酸シーケンスを含んでよく、各々の文字は、アデニン(A)、チミン(T)、グアニン(G)、シトシン(C)、ウラシル(U)、または未決定もしくは曖昧(N)を示す。
【0131】
ステップ1210において、シーケンスリードが、ゲノム位置情報を得るために参照シーケンスに整合させられる。このシーケンス整合を、(これらに限定されないが)BLAST、FASTA、Bowtie、BWA、BFAST、SHRiMP、SSAHA2、NovoAlign、およびSOAPなどの種々のソフトウェアパッケージ、またはソフトウェアで具現化された技術、あるいは当業者に公知の他の技術を使用して行うことができる。参照シーケンスは、hg18またはhg38などのヒト参照シーケンスであってよい。
【0132】
シーケンス整合は、リードが整合する参照シーケンス内の位置を識別する識別子を生成することができる。例えば、識別子は、シーケンスリードが整合する参照ゲノム(例えば、ヒトゲノム)からの染色体(例えば、ヒト染色体)上の参照シーケンスのゲノム開始位置およびゲノム終了位置を含み得る。したがって、参照ゲノムに対する整合位置が決定され得る。例えば、リードの最初または最後の整合位置(例えば、参照シーケンスの3’または5’末端に最も近い)が、整合位置または整合ウィンドウを識別するために使用され得る。整合座標を記憶するために他の方法が使用されてもよい。いくつかの場合、リードは、プラス鎖またはマイナス鎖であってよい。リードがシーケンスリードを逆相補することなく整合する場合、リードは「プラス」鎖と見なされる。シーケンスリードが整合前に逆相補されるべきである場合、整合は「マイナス」鎖と見なされる。最適な整合を、シーケンスを整合させるための任意の適切なアルゴリズムを使用して決定することができ、その非限定的な例として、Smith-Watermanアルゴリズム、Needleman-Wunschアルゴリズム、Burrows-Wheeler変換に基づくアルゴリズム(例えば、Burrows Wheeler Aligner)、ClustalW、Clustal X、BLAST(例えば、http://www.ncbi.nlm.nih.gov/のBLASTn)、Novoalign(Novocraft Technologies)、ELAND(Illumina,San Diego,Calif.)、SOAP(soap.genomics.org.cnで入手可能)、およびMaq(maq.sourceforge.netで入手可能)が挙げられる。
【0133】
ステップ1220において、シーケンスリードと参照ゲノムとの間の差異が識別される。差異は、例えば、置換、挿入、または欠失など、さまざまな形態であり得る。
【0134】
ステップ1230において、識別された差異を含む整合の結果を使用して、シーケンスリードをエンコードすることができる。表1が、14の可能なエンコーディングを使用してA、T、C、およびGを含むリードをエンコードするために使用することができる例示的なチャートを示している。表1に示したエンコーディングは一例にすぎず、変更可能である。次いで、シーケンスリードを、エンコーディングを使用してテキストまたはビット列にエンコードすることができる。ベースレベルでエンコードされたビット列またはテキストを、その後のステップで圧縮することができる。エンコーディングは、一致、4つの置換、4つのソフトクリップ(リードの終わりが整合していない)、4つの挿入、および削除を含む。
【表1】
【0135】
ステップ1240において、参照シーケンス内のゲノム位置情報で、参照シーケンスに一致するシーケンスの少なくとも一部分が置き換えられる。例えば、シーケンスの先頭のヌクレオチドの一部が参照シーケンスと一致し、次いで1つ以上の不一致が存在する場合、最初の部分のヌクレオチドを、参照シーケンスに対する開始位置、部分の長さを示す数字、および不一致を表すコードで置き換えることができる。その場合、1つ以上の不一致は、エンコードされたままであってよい。一致するシーケンスの任意の部分を、第1の一致するヌクレオチドの位置に対応する開始位置および一致するシーケンスの部分の長さによって、同様に置き換えることができる(すなわち、シーケンスデータを圧縮するために)。シーケンス一致に関するコードは、含まれても、含まれなくてもよい。参照シーケンスと一致するシーケンスの部分は、ベース2つ、ベース3つ、ベース5つ、ベース10個、ベース20個、ベース30個、ベース40個、ベース100個、ベース500個、またはさらに長くてもよい。次いで、その部分を、例えば、染色体番号、参照シーケンスと一致する部分の最初のヌクレオチドの位置についての開始位置、およびその部分の長さを含むわずか3つの数字のみで置き換えることができる。いくつかの実施形態において、リードの長さは、一致するベースの位置および識別の一部として格納されなければならず、最終的な圧縮データをデコードするために使用され得る。
【0136】
ステップ1250において、位置情報、エンコードされたベースコール、またはそれらの組み合わせを使用して、ベースコールデータサブストリームの圧縮済みベースコールデータが生成される。例えば、エンコードされたシーケンスリードは、リードの最も左側(または、最も右側)の位置などの参照ゲノムに対する位置、リードと参照シーケンスとの間の一致が存在する位置、ならびに挿入、欠失、または任意の他のエンコードされた不一致は存在する位置を含み得る。次いで、エンコードされたシーケンスリードの圧縮が、例えば、参照と一致するリードの部分を位置番号または番号のウィンドウで置き換えることによって実行され得る。位置およびエンコードされたシーケンスの異なる組み合わせを、シーケンスリードを圧縮するために使用することができる。
B.圧縮戦略および達成可能な圧縮率に影響を及ぼすリードおよび品質スコアの特性
【0137】
ベースコールデータおよび品質スコアデータの基本特性は、ベースコールおよび/または品質スコア(qスコア)値を生成するために使用されるビット数を含む。ベースコールデータおよび品質スコアデータのこれらの基本特性は、圧縮率に影響を与える可能性がある。表2が、4つの異なるシナリオを示しており、ベースコールは、ベースコールあたり2ビットを使用して生成され、各々の品質スコア値を生成するためのビット数が、0から6ビットまでさまざまである。いくつかの実施形態においては、品質スコア値を、7ビット、6ビット、4ビット、3ビット、2ビット、1ビット、または0ビット(例えば、品質スコアが決定されない場合)を使用して生成することができる。品質スコアは、第1の分解能を使用して指定されてよい。品質スコアは、より低い分解能へのダウンサンプリングによって圧縮されてもよい。ダウンサンプリングは、データの少なくとも一部がデータを圧縮するプロセスにおいて失われる可能性がある非可逆圧縮をもたらす。例えば、品質スコアは、具体的な値(例えば、0~1、0~100、または0~1000の確率値)を離散値またはカテゴリ値(例えば、低品質、高品質、超高品質、または超低品質、あるいは同じカテゴリを示す離散的な数値)に変換することによって符号化されてよい。例えば、0~1000の品質スコアを、4つの四分位に分離することができ、各々の四分位を、2つ以上のビットを使用してエンコードすることができる。
【表2】
【実施例
【0138】
C.実施例
図13図18が、シーケンシングを行った一組のDNA分子について、各々の個別のサブストリームおよび圧縮および結合後のデータの圧縮率の結果を示している。種々のサブストリームからのデータを、オープンソース圧縮方法を使用して圧縮した。各行は、圧縮方法の一意のパラメータの組み合わせを表す。図13図18における種々の列は、「orig_siz」、「comp_sz」、「comp_ratio」、および「bit_per_bp」を含み、これらはそれぞれ、圧縮前のデータサブストリームの元のサイズ(orig_siz)、圧縮後のサブストリームのデータのサイズ(comp_sz)、圧縮されたデータサイズに対する元のデータサイズの比(comp_ratio)、および圧縮率を示すDNAリードシーケンスのベース対あたりの格納ビット数(bit_per_bp)を表す。
【0139】
図13は、ヘッダデータサブストリームの圧縮の結果を示している。8つの圧縮方法(zlib、zstd、lzma、gzip、lz4、snappy、blosclz、lz4hc)のさまざまなパラメータの組み合わせを使用して、データを圧縮した。達成された最高の圧縮比率は、約64であり、約0.006の圧縮率(bit_per_bp)をもたらした。
【0140】
図14は、整合染色体名情報の圧縮からの結果を示している。圧縮アルゴリズムは、約70という圧縮比率および約0.0007の圧縮率を達成した。
【0141】
図15は、整合開始位置情報の圧縮からの結果を示している。達成された最高の圧縮比率は、約2.24であり、0.16の圧縮率をもたらした。
【0142】
図16は、特定のアライナおよびビットエンコーディングを使用したリードシーケンスの圧縮からの結果を示している。データのビットエンコード後のサイズ(pack_sz)は、元のデータのサイズの約半分であった。次いで、ビットエンコード後のデータを、圧縮方法を使用して圧縮した。最高の圧縮比率は、約32であり、0.26の圧縮率(bit_per_bp)をもたらした。
【0143】
図17は、圧縮からの要約結果を示している。
【0144】
図18は、特定のアライナおよびテキストエンコーディングを使用したリードシーケンスの圧縮からの結果を示している。
【表3】
【0145】
表3のデータは、参照ゲノムの所与の構成からのものであり、所与のデータセットをエンコードしている。これらの値は、エンコーディングおよびゲノム(例えば、ヒト対大腸菌)に基づいて変化する可能性があり、データセットごとに変化する可能性がある。第1の行(DNA)は、参照シーケンスに対するエンコーディングおよびエンコード後のシーケンスの圧縮の後のデータセット内のリードにおけるベースごとに必要なビット数に対応する。第2の行は、位置情報(整合参照id、位置、およびストランド)である。品質スコアの圧縮には、ベースあたり0.24ビットが必要である。
V.クラスタ、コンセンサスリード、およびリードデータの削減
【0146】
前述のように、センサの下流のいくつかのチャネルの能力と比較して、シーケンシング装置による生データ生成の速度がより高いことで、信号のレートを制約しかねないボトルネックなどの問題が引き起こされることにより、シーケンシングのスループットが制限される可能性がある。この問題に、下流のチャネルを通って伝達されるデータの量を削減することによって対処することができる。本明細書で提供されるシステムおよび方法は、シーケンシング装置の性能(例えば、速度、精度、など)に悪影響を及ぼすことなく、リアルタイムで核酸分子に対応するシーケンシングデータの量を減少させることに関する。より具体的には、本明細書で提供される方法およびシステムを、識別子(例えば、一意の分子識別子(UMI)、ランダムシーケンスバーコード(randomer)、またはシーケンスリードの内容)に基づく核酸分子または分子ファミリに対応するシーケンスリードの迅速な識別のために使用することができる。次いで、この情報をリアルタイムで使用して、シーケンリードを廃棄または保持することができる。
【0147】
シーケンスリードを廃棄してもよい場合の一例は、同じテンプレート核酸分子の複数のコピーに対応するリードのクラスタの場合である。そのようなシーケンスリードのクラスタを使用して、コンセンサスシーケンスリードを決定することができる。しかしながら、テンプレート核酸のコンセンサスシーケンスを決定するために、特定の数(しきい値)のシーケンスリードのみが必要とされ得る。しきい値を超えるシーケンスリードは廃棄されてよい。
【0148】
したがって、本明細書において提供される方法およびシステムを、識別子に基づいて核酸分子または分子ファミリに対応するシーケンスリードを迅速に識別するために使用することができる。次いで、この情報をリアルタイムで使用して、対応するリードをディスクに保存しないと決定することができ、あるいは途中までシーケンシングされた分子のシーケンシングを停止し、シーケンシング装置から分子を片付ける(例えば、ナノポアベースのシーケンシング装置においてナノポアから分子を除去する)ことさえ可能である。クラスタリングおよび帯域幅節約技術のさらなる詳細は、後述される。
A.テンプレート分子のバーコード化
【0149】
シーケンシング技術は完全ではなく、テンプレート核酸分子のシーケンシングにおいて誤りが生じやすい。さらに、テンプレート核酸分子の単一のコピーが、シーケンシングの前または最中に失われ、あるいは損傷する可能性がある。したがって、第1の(テンプレート)核酸分子の複数のコピーをシーケンシングに使用することができる。第1の核酸分子を、試料(例えば、腫瘍組織試料、液体生検、または任意の他の生体試料)から得ることができる。第1の核酸分子の複数のコピーを、例えばポリメラーゼ連鎖反応(PCR)による増幅を使用して生成することができる。
【0150】
さらに、第1の核酸分子は、増幅前に分子バーコードを分子に取り付けることによってバーコード化され得る。次いで、バーコード化されたテンプレート分子の増幅により、同じバーコードを有するテンプレートの複数のコピーを生成することができる。バーコードは、「固有分子識別子」(UMI)シーケンス(例えば、核酸分子の集団を、集団内の各分子に異なる識別子が関連付けられるようにラベリングするために用いられるシーケンス)を含んでよい。バーコードおよびUMI技術、ならびに核酸分子をバーコードまたはUMIシーケンスでラベリングする方法は、当技術分野で公知である。例えば、Fu et al.(2014),PNAS 111:1891-1896、Islam et al.(2014)Nat Methods 11:163-168、Kivioja et al.,Nat Methods 9:72-74(2012)、米国特許第5,604,097号明細書、米国特許第7,537,897号明細書、米国特許第8,715,967号明細書、米国特許第8,835,358号明細書、および国際公開第2013/173394号パンフレットを参照されたい。
【0151】
図19が、分子バーコードを用いた増幅プロセスの一実施形態を示している。テンプレート核酸分子1910を増幅して、テンプレート核酸分子1910のコピーである第1組の子孫分子1920を生成することができる。その後の増幅を行って、連続増幅によってテンプレートのさらなるコピーを生成することができる。例えば、第2組の子孫分子1930を、子孫分子1920から増幅することができる。さらに、第3組の子孫分子1940を、子孫分子1940から生成することができる。分子バーコードは、テンプレート核酸分子1910の一方または両方の末端1912および1914に取り付けることができる。子孫分子1920、1930、1940も、テンプレート核酸分子1910と同じバーコードを有し得る。類似の分子バーコード(例えば、ランダムバーコードおよび/またはUMI)を有するテンプレートおよびその子孫分子を含む複数の分子を、分子ファミリと見なすことができる。
【0152】
増幅は、PCRを使用して実行されてよい。バーコードは、UMIまたは核酸のランダムシーケンスを含んでよい。バーコードは、2つ、3つ、4つ、5つ、6つ、7つ、8つ、9つ、10個、20個、30個、40個、またはさらに多くのヌクレオチドの長さであってよい。いくつかの場合、バーコードは、最大で約50個、40個、30個、20個、10個、または5個のヌクレオチドの長さである。テンプレートは、少なくとも約2個、4個、8個、16個、32個、64個、128個、256個、512個、1024個、2048個、またはさらに多くの子孫分子(すなわち、テンプレートの増幅コピー)を生成するために、1回、2回、3回、4回、5回、6回、7回、8回、9回、10回、50回、100回、またはさらに多数回のサイクルにわたって増幅されてよい。
【0153】
次いで、テンプレートおよび増幅されたコピーを、シーケンシング装置によるシーケンシングのためにさらに調製することができる。いくつかの場合、テンプレートに類似する複数の核酸分子をバーコード化および増幅して、シーケンシング装置によって処理することができる。複数の分子を、1つ以上の試料から得ることができる。例えば、100個の分子、1000個の分子、100,000個の分子、100万個の分子、10億個の分子、またはさらに多くの分子をバーコード化および増幅して、シーケンシング装置によって処理することができる。次いで、これらの分子のシーケンシングから生成された生データを、エンコーディング、整合技術の使用、クラスタリング、またはコンセンサスシーケンスリードの構築を含む本開示で提供される方法およびシステムのいずれかによって処理および圧縮することができる。
B.シーケンスリードのクラスタリング
【0154】
異なるバーコード化増幅核酸分子の集団をプールし、シーケンシングのためにシーケンシング装置に提供することができる。いくつかの場合、数百、数千、数百万、数十億、またはさらに多くのバーコード化増幅分子をプールして、シーケンシング装置によってシーケンシングすることができる。テンプレート分子およびそのコピーを、ランダムにシーケンシングすることができる(すなわち、同じ分子のコピーが、異なる時刻または時間チャンクにおいてシーケンシングされてよい)。生データは、上記および本明細書の他の箇所に記載されているように、高速で、核酸分子の集団について、シーケンシング装置によって生成され得る。生データは、シーケンス情報のストリームを含んでよく、生データの各ストリームは、分子ファミリからの核酸分子(例えば、バーコード化核酸分子)に対応する。
【0155】
同じテンプレート核酸分子(すなわち、同じクラスタの一部である)にすべてが対応するシーケンスリードのコンセンサスを決定するシリコン内での分子間コンセンサス分析と組み合わせて、ライブラリ調製においてUMIおよびPCR戦略を使用することについて、いくつかの望ましくない局面が存在する。いくつかの場合、増幅およびサンプリングプロセスが、
UMIラベリング核酸分子(または、UMI分子ファミリ)にわたって不均一な表現をもたらす。サンプリングは、増幅プロセスにおいて生成された分子のランダムサンプリングを含み得る。例えば、増幅された分子の一部(すなわち、元のテンプレート分子を含む)をシーケンシングのためにサンプリングすることができる。シーケンシングに先立って異なる分子ファミリを生成するための増幅プロセスにおける異なるパラメータ(例えば、PCRサイクルの数)は、分子ファミリに異なる数の核酸分子を含ませ得る。これは、例えば、過剰増幅(例えば、PCRを使用)によって引き起こされ得る。あるいは、いくつかの場合、核酸分子の初期量(例えば、濃度)が、試料中の他の核酸分子より多く、同じバーコードおよび内容(すなわち、ヌクレオチドシーケンス)を有するより多くの子孫を含む分子ファミリをもたらし得る。したがって、核酸分子または分子ファミリに対応するシーケンシング装置によって生成されたシーケンスリードの量が、異なる分子または分子ファミリにわたって有意に異なり得る。結果として、核酸分子または分子ファミリが、過剰または過少にサンプリングされ得る。これは、シーケンシングエラーなどの他の要因によっても起こり得る。
【0156】
これは、アッセイの観点から望ましくないかもしれない。例えば、特定のアッセイが、各々のUMI分子ファミリについて或る所望のカバレッジの深さ(例えば、10x)を有する場合、結果として得られる分子間コンセンサスファミリ(クラスタ)は、その平均10倍のリード深さに達し得るが、ファミリ間の分散は大きいであろう。したがって、いくつかの分子ファミリが、不充分な表現しか有しないかもしれない一方で、他の分子ファミリは、必要とされるよりも桁違いに多いリードを有し得る。カバレッジの深さが極端に大きいファミリが、アッセイにあまり利益をもたらし得ない一方で、メンバーシップ数が所望の深さよりも少ないUMI分子ファミリは、高品質のコンセンサスリードを生成することができないであろう。例えば、UMIを使用してラベリングされた各ファミリは、ゲノム内の関心領域を表し得る。すべての関心領域についてアッセイの必要性を満たすために、すべての関心領域が少なくとも必要最小限の深さによってカバーされるように、シーケンシングスループットの要件を高めなければならない。関心領域は、DNAまたは捕捉プローブの増幅によって行われ得るように、標的化シーケンシング、例えばそれらの領域からのDNAの濃縮の対象であり得る。
【0157】
図20が、シーケンスリードデータクラスタ化システム2000の一実施形態を示している。生リードデータが、入力2010として受信される。生リードデータを、上記または本明細書の他の箇所に記載されるように、シーケンシング装置(すなわち、複数のセルを含むセンサチップ)から受信した生データから推論回路によって生成することができる。次いで、生リードデータを抽出エンジン2020に送信することができ、抽出エンジンにおいて、テンプレート分子のシーケンスリード内の各位置に関するヌクレオチド情報を含むベースコールデータが、生リードデータから抽出される。次いで、ベースコールデータを、クラスタ化エンジン2030によって処理することができ、そのさらなる詳細は以下で説明される。
【0158】
クラスタ化エンジン2030は、クラスタカウントモジュール2040へのクラスタのサイズを含むことによってクラスタ情報を決定し得る。クラスタのサイズは、クラスタに割り当てられたリードの現在のカウントに対応することができる。次いで、生リードデータを含むデータを、クラスタカウントモジュール2040によって行われた比較に基づいて、圧縮エンジン2050に送信することができ、あるいは廃棄することができる。サイズがすでにしきい値を超えている場合、さらなるリードを廃棄することができる。次いで、圧縮エンジンに送信されたリードデータを、本明細書に記載の方法のいずれかを使用して処理および圧縮し、I/O2060に送信することができる。
【0159】
クラスタ化エンジン2030は、バーコードモジュール2031、整合モジュール2032、およびクラスタ化モジュール2033を備えてよい。さらに、クラスタ化エンジン2030は、クラスタデータベース2034を含んでも、あるいはクラスタデータベース2034にアクセス可能であってもよい。バーコードモジュール2031は、シーケンスリードにおいてバーコードシーケンスを識別することができる。整合モジュール2032は、シーケンスリードと、クラスタに対応するシーケンスまたは参照シーケンスとの間のシーケンス整合を実施することができる。次いで、シーケンスリードを、整合モジュール2032からの出力(例えば、参照シーケンスに対するシーケンス類似性またはリード位置)に少なくとも部分的に基づいて、クラスタ化モジュール2033によってクラスタに割り当てることができる。クラスタ化モジュール2033は、シーケンスリードをクラスタ化することができ、各クラスタは、同じテンプレート核酸分子または分子ファミリに対応するシーケンスリードを含む。
【0160】
クラスタデータベース2034は、新たなリードが既存のクラスタに属するかどうか、あるいは新たなクラスタを生成すべきかどうかを判定するために、クラスタの各々に対応する情報を含むことができる。この情報は、識別子2038にてクラスタデータベース2034に格納されてよい。識別子2038は、クラスタに割り当てられた1つ以上のシーケンスリードのバーコード情報および/または位置情報に対応する情報を含み得る(例えば、参照シーケンスに対する開始および/または終了位置)。さらに、クラスタの識別子は、(例えば、クラスタ内の別のシーケンスリードまたはクラスタ内のすべてのリードのコンセンサスリードの)シーケンスリードコンテンツを含み得る。例えば、シーケンスリードの開始および/または停止座標が、識別子またはその一部として使用され得る。コンセンサスが推論回路上で決定されるいくつかの場合において、コンセンサスシーケンスを、各々のシーケンスリードがクラスタに割り当てられるにつれて増分的に各クラスタについて生成することができる。そのような場合、各クラスタについて、コンセンサスシーケンスまたはその位置を、識別子2038に記憶することができる。
【0161】
クラスタに割り当てられたシーケンスリードの数を、カウンタ2036内のそのクラスタのカウンタ値として、クラスタデータベース2034に格納することができる。各々の特定のクラスタのカウンタ値は、新たなシーケンスリードがその特定のクラスタに割り当てられるにつれて増分的に増加し得る。クラスタデータベース2034内の情報は、検索エンジン内の種々のモジュール(すなわち、2031、2032、および2033)によってアクセスされてよい。
【0162】
クラスタ化モジュール2033は、バーコードモジュール2031および/または整合モジュール2032からの出力、ならびに識別子2038内の情報に基づいて、シーケンスリードをクラスタに割り当て得る。したがって、シーケンスリードは、シーケンスまたはその位置(例えば、参照シーケンスに対して)を識別子2038と比較して一致を判定することによって、クラスタに割り当てられ得る。
【0163】
バーコードは、ランダムシーケンスバーコード、UMI、またはこれらの組み合わせを含み得る。バーコードモジュール2031は、リアルタイムでシーケンスリード内のバーコードシーケンスを識別することができる。次いで、バーコードモジュール2031は、シーケンスリードのバーコードシーケンスを、(例えば、クラスタデータベース2034内の識別子2038からの)異なるクラスタに対応するバーコードシーケンスと(例えば、シーケンス整合によって)比較することができる。さらに、バーコードモジュール2031は、1つ以上のシーケンスリードのバーコードシーケンスを互いに比較して、それらを異なるクラスタに割り当てることができる。例えば、シーケンスリードの特定のバーコードシーケンスがクラスタデータベース2034に存在しない場合(すなわち、特定のバーコードを有する核酸分子が、それまでにシーケンシングされていない)。いくつかの場合、クラスタ化モジュール2033は、バーコードモジュール2031に部分的に基づいてシーケンスリードを異なるクラスタに割り当てる。
【0164】
シーケンスリードは、整合モジュール2032を使用して分析され得る。整合モジュール2032は、シーケンスリードを参照シーケンスおよび/または1つ以上の他のシーケンスリードに整合させることができる。整合モジュール2032の出力は、新たなシーケンスリードを(例えば、クラスタ化モジュール2033によって)クラスタ化するために、バーコードモジュール2031からの出力に加えて(あるいは、バーコードモジュール2031からの出力から独立して)使用され得る。特定のシーケンスリードについて、整合モジュール2032が既存のクラスタのいずれにおいても(例えば、参照シーケンスに対するシーケンスコンテンツまたは位置を比較することによって)類似のシーケンスを発見しない場合、クラスタ化モジュール2033は、シーケンスリードを新たなクラスタに割り当て得る。
【0165】
一例において、整合モジュール2032は、シーケンスリードを(例えば、参照ゲノムの)参照シーケンスに整合させることができ、次いで、整合モジュール2032は、参照シーケンスに対するシーケンスリードの位置を決定することができる。次いで、シーケンスリードの位置をクラスタのシーケンスの位置と比較して、シーケンスリードに対応するクラスタを識別することができる。
【0166】
別の例において、整合モジュール2032は、シーケンスリードを、そのクラスタを表すクラスタにすでに割り当てられたシーケンスリードに整合させることができる。あるいは、整合モジュール2032は、多重シーケンス整合アルゴリズムを備えてもよい。次いで、シーケンスリードを、多重シーケンス整合アルゴリズムによって、クラスタ内のシーケンスリードのうちの2つ以上(または、すべてのシーケンスリード)に整合させることができる。シーケンス類似性基準(例えば、最小類似度)を考慮して、シーケンスリードをクラスタに割り当てることができる。シーケンスリードを、シーケンスリードに整合させられたときに最も高いシーケンス類似性をもたらすクラスタに割り当てることができる。
【0167】
さらに別の例において、整合モジュール2032は、シーケンスリードを、クラスタのシーケンスを表すコンセンサスシーケンスに整合させることができる。コンセンサスシーケンスを、新たなシーケンスリードが各々のクラスタに割り当てられるにつれて増分的に各々のクラスタについて生成することができる。シーケンス類似性基準(例えば、最小類似度)を整合の出力に適用して、シーケンスリードをクラスタに割り当てることができる。シーケンスリードを、シーケンスリードに整合させられたときに最も高いシーケンス類似性を生じたコンセンサスを有するクラスタに割り当てることができる。
【0168】
いくつかの実施形態において、クラスタのコンセンサスリードを、クラスタ内のすべてのリードを圧縮することができる参照として使用することができる。例えば、クラスタに100個のリードが存在し、各々のリードの長さが約350bpであり、試料に真の欠失があり、欠失がそれらのリードのほぼすべてに現れると仮定する。次に、参照に対して各々のリードのデルタ圧縮を独立して実行する代わりに、コンセンサスリードを参照に対する欠失と共に格納することができる。次いで、各々のリードを圧縮するために、リードをコンセンサスリードにマッピングし、コンセンサスに対してデルタ圧縮を実行することができる。これにより、そのクラスタ内のリードについてより高い圧縮率をもたらすことができる。
【0169】
整合モジュール2032による最適な整合を、シーケンスを整合させるための任意の適切なアルゴリズムを使用して決定することができ、その非限定的な例として、Smith-Watermanアルゴリズム、Needleman-Wunschアルゴリズム、Burrows-Wheeler変換に基づくアルゴリズム(例えば、Burrows Wheeler Aligner)、ClustalW、Clustal X、BLAST(例えば、http://www.ncbi.nlm.nih.gov/のBLASTn)、Novoalign(Novocraft Technologies)、ELAND(Illumina,San Diego,Calif.)、SOAP(soap.genomics.org.cnで入手可能)、およびMaq(maq.sourceforge.netで入手可能)が挙げられる。2つ以上のシーケンスリードは、それらが中程度、高度、またはきわめて高度のシーケンス類似性を有する場合、同じコンテンツを有し得る。いくつかの場合、同じコンテンツを有する2つ以上のシーケンスは、少なくとも約70%、80%、90%、95%、99%、またはこれを上回るシーケンス類似性を有し得る。いくつかの場合において、2つ以上のシーケンスリードは、それらが少なくとも94%のシーケンス類似性を有するとき、同じであると見なされる。
【0170】
バーコードが存在せず、あるいはバーコードが2つ以上のクラスタと一致する場合、整合モジュール2032からの出力を使用してクラスタ化を実行することができる。例えば、整合モジュール2032は、新たなシーケンスリードを、同様のバーコードを有するクラスタに対応するシーケンスに整合させることができる。出力を、例えば一組のシーケンスリードのクラスタ化において、シーケンスリードをクラスタに割り当て、あるいは新たなクラスタを生成するために使用することができる。シーケンスリードを既存のクラスタに割り当てることができない場合、クラスタ化モジュール2033からの出力をクラスタ化モジュール2033によって使用し、クラスタ化アルゴリズムを用いて新たなクラスタを生成することができる。いくつかのクラスタ化アルゴリズムは、単一リンケージクラスタ化を使用し、特定のしきい値を超える類似性を有するシーケンスの推移閉包を構築する。これらのアルゴリズムの例として、BLASTClust(nih.gov)およびCluSTr(ebi.ac.uk/clustr)が挙げられる。UCLUST(drive5.com/usearch)およびCD-HIT(cd-hit.org)は、各々のクラスタの代表シーケンスを識別し、新たなシーケンスが代表シーケンスに充分に類似している場合、新たなシーケンスをそのクラスタに割り当て、シーケンスが一致しない場合、そのシーケンスが新たなクラスタの代表シーケンスとなるグリーディな(greedy)アルゴリズムを使用する。類似性スコアは多くの場合にシーケンス整合に基づく。シーケンスクラスタ化は、代表シーケンスの非冗長セットを作成するために頻繁に使用される。
C.過剰表現データの廃棄
【0171】
異なる分子にわたってシーケンスリードの量のバランスをとるために、クラスタ化エンジン2030を使用してクラスタ化されたシーケンスリードを、各々のクラスタについてカウントすることができる。各々のクラスタは、核酸分子または分子ファミリに対応し得る。クラスタは、同じ核酸分子または分子ファミリに対応する1つ以上のシーケンスリードを含み得る。クラスタのサイズ(すなわち、クラスタに割り当てられたシーケンスリードの数)は、1つ以上のクラスタにおいて他のクラスタと比べた過剰表現を低減するように制御することができる。クラスタのサイズを、本明細書で上述したようにカウンタによって監視することができる。クラスタ化モジュール2033がシーケンスリードを特定のクラスタに割り当てるとき、カウンタは、そのクラスタのサイズを増やすことができる。
【0172】
クラスタのサイズを、ボトルネックによって生じる制約を低減するために、メモリに記憶され、かつ/または(例えば、記憶装置へと)送信され得るデータ(例えば、核酸分子または分子ファミリに対応するシーケンスリードデータ)の量を低減するように制御することができる。いくつかの場合、クラスタサイズを制御するためにしきい値を適用することができる。クラスタ化エンジン2030からの出力を、クラスタカウントモジュール2040に提供することができる。クラスタ化エンジンからの出力は、シーケンスリードデータ(または、ベースコールデータ)、およびシーケンスリードが割り当てられたクラスタ情報(例えば、クラスタ識別およびカウンタ値)を含み得る。クラスタカウントチェックは、クラスタ情報内のカウンタ値をしきい値と比較することができる。特定のクラスタのカウンタがしきい値を超える場合、その特定のクラスタに割り当てられた新たなシーケンスリードは、システムから廃棄されてよい。あるいは、この新たなシーケンスリードに関連する途中までシーケンシングされた分子のシーケンシング手順を停止させてもよく、対応する核酸分子をシーケンシング装置から片付けてもよい(例えば、ナノポアベースのシーケンシング装置においてナノポアから核酸分子を除去することによって)。クラスタカウント値がしきい値を下回る場合、クラスタカウントモジュール2040は、クラスタ化エンジン2030から受信した出力を下流のモジュールに送信することができる。
【0173】
いくつかの場合、クラスタカウントモジュール2040は、上記または本明細書の他の箇所に記載された方法のいずれかを使用してデータを処理および圧縮するために、圧縮エンジン2050にデータを送信する。いくつかの場合、圧縮エンジン(例えば、本明細書において第IV節などで説明した技術を使用する)は、シーケンスリードデータを処理して、核酸分子または分子ファミリに対応するクラスタについてのコンセンサスシーケンスリードを生成することができる。あるいは、クラスタカウントモジュール2040は、例えば記憶装置への記憶のために、データを入出力(I/O)2060に直接送信することができる。上記(すなわち、データの切り詰め)および本明細書の他の箇所に記載のとおりのデータ削減は、メモリの使用を改善し、ボトルネック(例えば、バス容量およびI/O速度が、センサチップによる生データ生成よりも低い)によってシステムに課される制約を低減するので、コンピュータならびにシーケンシング装置の性能を改善することができる。
D.フローチャート
【0174】
クラスタ化およびコンセンサスリードの構築を含む本明細書で提供される方法およびシステムを使用して、オーバーサンプリングの問題を軽減するとともに、各々の核酸分子の正確なヌクレオチドシーケンスを生成するために各々の核酸分子または分子ファミリについて保存される必要があるデータ量を減らすことが可能である。
【0175】
図21は、シーケンスリードをクラスタ化してシーケンシングデータの量を減らすための本開示のいくつかの実施形態による方法2100のフローチャートを示している。
【0176】
ステップ2110において、生データがセンサチップから受信される。生データは、複数の核酸分子のそれぞれの核酸分子の各位置に関する複数の測定値を含んでよい。複数の核酸分子は、少なくとも2、3、4、5、10、50、100、1000、10,000、100,000、またはさらに多くの核酸分子を含んでよい。センサチップは、各々が1つ以上の別個の核酸分子をシーケンシングする複数のシーケンシングセルを含んでよい。複数の核酸分子(例えば、少なくとも100,000個の核酸分子)の少なくとも一部は、核酸分子のクラスタを含むことができる。クラスタの核酸分子は、同じテンプレート核酸分子に対応し得る。
【0177】
ステップ2120において、それぞれの核酸分子の各位置について、生データを使用して、その位置のヌクレオチドを決定することにより、それぞれの核酸分子に関するシーケンスリードを生成することができる。いくつかの場合、テンプレートはバーコード化される(例えば、固有分子識別子(UMI)またはランダム識別子(randomer)を使用)。次いで、バーコード化されたテンプレートのシーケンスリードは、バーコードのシーケンスおよび核酸シーケンスのシーケンス情報を含み得る。バーコードは、UMI、randomer、またはこれらの組み合わせを含む1つ以上のバーコードを含むことができる。
【0178】
ステップ2130において、複数の核酸分子(例えば、少なくとも100,000個の核酸分子)の各シーケンスリードについて、特定のクラスタが識別され得る。クラスタは、シーケンスリードに対応し得る。特定のバーコードが特定のクラスタに割り当てられてよい(例えば、UMIなどのようにバーコードが一意である場合)。いくつかの場合、特定のクラスタが1つ以上の特定のバーコードシーケンスに対応し得る。シーケンスリードに対応する特定のクラスタを、シーケンスリードの1つ以上のバーコードシーケンスを、特定のクラスタが対応する1つ以上の特定のバーコードシーケンスと比較することによって、識別することができる。一致と判定された場合、シーケンスリードをその特定のクラスタに割り当てることができる。シーケンスリードの1つ以上のバーコードシーケンスが既存のクラスタに割り当てられた1つ以上の特定のバーコードシーケンスに一致しない場合に、シーケンスリードに対応する新たなクラスタを生成することができる。
【0179】
シーケンスリードに対応する特定のクラスタの識別は、特定のクラスタのゲノム位置をシーケンスリードのゲノム位置と比較することを含み得る。ゲノム位置は、シーケンス(例えば、シーケンスリード、または特定のクラスタが対応するシーケンス)を参照シーケンスに整合させることによって決定され得る。ゲノム位置は、参照シーケンスに対する開始ゲノム位置および終了ゲノム位置を含み得る。特定のクラスタのゲノム位置は、その特定のクラスタにすでに割り当てられているシーケンスリードのゲノム位置に対応し得る。
【0180】
いくつかの場合、2つ以上のクラスタに同じバーコード(例えば、randomer)を割り当てることができる。次いで、1つ以上のクラスタに割り当てられた核酸シーケンスのシーケンス情報を比較することができる。1つ以上のクラスタに割り当てられた核酸シーケンスのシーケンス情報は、互いに相違し得る。換言すると、核酸シーケンスおよびrandomerの情報を含む固有シーケンスリードが、各クラスタに割り当てられ得る。ここで、各々の固有シーケンスリードは、異なるテンプレート核酸分子に対応する。次いで、テンプレート核酸のコピーを作製することによって、クラスタを生成することができる。コピーは、ポリメラーゼ連鎖反応(PCR)を使用して生成され得る。
【0181】
ステップ2140において、各シーケンスリードについて特定のクラスタが識別されると、特定のクラスタのカウンタが増やされてよい。カウンタは、特定のクラスタに割り当てられたシーケンスリードの数を記録し得る。
【0182】
ステップ2150において、第1のクラスタの第1のカウンタをしきい値と比較して、第1のカウンタがしきい値より大きいか否かを判断してもよい。しきい値は、予め決定されてよい(例えば、ユーザによって提供される)。しきい値は、シーケンスリードの長さ、シーケンスリードの核酸コンテンツ(例えば、A、T、C、G、またはUベース)、シーケンシングに関連するエラー率、増幅(例えば、PCR)、および/またはバーコード化を含む1つ以上の因子に基づいて計算され得る。しきい値は、約10、20、30、40、50、60、またはさらに大きくてよい。
【0183】
ステップ2160において、第1のカウンタがしきい値よりも大きいとの判断に応答して、第1のクラスタに対応するシーケンスリードは廃棄され得る。第1のクラスタに割り当てられたシーケンスリードの数がしきい値より小さい場合、シーケンスリードは、クラスタに関連付けられたまま(すなわち、メモリに記憶されたまま)であってよい。カウンタがしきい値以下である場合、クラスタに対応するシーケンスリードは出力され得る(例えば、推論回路から)。第1のカウンタがしきい値以上である第1のクラスタに割り当てられたシーケンスリードは、廃棄されてよい。クラスタに割り当てられるシーケンスリードの数を制限することにより、保存またはシーケンシングシステムから送信され得るデータの量を減少させることができる。したがって、これは、前述または本明細書の他の箇所で説明したように、システム内のボトルネックによって生じる制約を軽減することができる。
E.クラスタごとの分子間コンセンサスリードの形成
【0184】
上述のように、各クラスタは、核酸分子に対応する複数のシーケンスリードを含み得る。クラスタ内のデータ量を減らすために、シーケンスリードを、コンセンサスシーケンスを表す単一のシーケンスリードに畳むことができる。このコンセンサスは、複数の核酸分子からのシーケンスリードが使用されるため、分子間コンセンサスである。単一の核酸分子から決定される分子内コンセンサスは、次の項で説明される。クラスタのコンセンサスシーケンスは、単一のヌクレオチドシーケンスであり、すべての位置が、そのクラスタ内のすべてのシーケンスリードの中で最も一般的にコールされるヌクレオチドである。コンセンサスシーケンスは、クラスタ内のすべてのシーケンスリード間で多重整合を行うことによって生成され得る。あるいは、コンセンサスシーケンスは、クラスタ内の各シーケンスリードを参照ゲノムに整合させることによって生成され得る。次いで、多重整合または参照ゲノムへの整合におけるすべての位置について、すべてのリードの中で最も一般的なヌクレオチドを選択することができる。
【0185】
各々のシーケンスリードは、核酸の増幅およびシーケンシングのプロセスの最中にランダムに生じ得るランダムエラーを含み得る。したがって、複数のシーケンスリードから生成されるコンセンサスシーケンスは、核酸分子をより正確に表し得る。より多くのシーケンスリードからコンセンサスシーケンスリードを形成することで、核酸分子の実際のシーケンスにより正確に対応し得るコンセンサスシーケンスリードがもたらされ得る。他方で、コンセンサスリードの生成にあまりにも多くのシーケンスリードが含まれると、より多くの時間ならびにより多くのメモリおよび計算リソースが消費され得る。したがって、正確なコンセンサスデータの生成を最適化するために、コンセンサスの構築に使用されるシーケンスリードの数にカットオフを適用することができる。例えば、きわめて正確なコンセンサスシーケンスが、最大で約100、50、40、30、20、10、またはさらに少ないシーケンスリードから生成され得る。
【0186】
クラスタのサイズのしきい値データは、このカットオフ値に直接対応し得る。いくつかの場合、クラスタのサイズのしきい値は、このカットオフ値に少なくとも部分的に基づき得る。いくつかの場合、クラスタのサイズのしきい値は、このカットオフ値と同じであり得る。例えば、核酸シーケンスに対応するコンセンサスリードが、カットオフ値と同等またはカットオフ値未満の数のシーケンスリードのみを使用して生成される。カットオフ値を超える数のシーケンスリードを有する核酸分子に対応する任意のシーケンスリードは、システムから廃棄(例えば、メモリから削除)され得る。いくつかの場合、コンセンサスリードは、シーケンスリードの数が核酸分子についてのカットオフ値に達するとすぐに、下流のモジュールまたはI/Oへの送信時に生成され得る。
【0187】
いくつかの場合、コンセンサスリードにおいて高品質を保証するために、第2のカットオフ値が使用され得る。第2のカットオフ値は、コンセンサスシーケンスを生成するために使用されるシーケンスリードの数についての下限を含み得る。いくつかの場合、コンセンサスシーケンスを構築するために、少なくとも2つ、3つ、5つ、10個、20個、30個、40個、50個、60個、またはさらに多くのシーケンスリードが使用される。例えば、コンセンサスリードは、核酸分子に対応する第2のカットオフを超える数のシーケンスリードが提供されない限り、生成または出力されなくてよい。いくつかの場合、メッセージを生成して、核酸分子に対応するシーケンスリードの数が、コンセンサスリードを生成するのに充分でないことを示すことができる。
F.分子内コンセンサス
【0188】
いくつかの実施形態において、核酸分子は、複数回シーケンシングされてよく、それにより、複数のシーケンスリード(サブリードとも呼ばれる)がもたらされる。例えば、分子をナノポア内を通って往復させることができ、通過のたびにシーケンスリードがもたらされる。このような例において、分子内コンセンサスを生成することができる。分子内コンセンサスを、各々の位置において、個々のサブリードにまたがるその位置での多数派ベースコールに基づいて決定することができる。複数回の通過が、個々のサブリードのいずれか1つよりも正確な最終リード(分子内コンセンサス)を提供することができる。
【0189】
図19に記載のとおり、子孫分子1940の各々がシーケンシングされる。これらの子孫分子1940の各々について、xpandomer分子を生成することができる。xpandomer分子をナノポアに複数回通すことにより、複数のシーケンスリードを得ることができる。次いで、分子内コンセンサスを決定することができる。次いで、各々の子孫分子の分子内コンセンサスを使用して、分子間コンセンサスを決定することができる。
【0190】
図22が、ナノポアを使用して読み取られるxpandomer分子の複数回の通過の生データを示している。xpandomer分子は、同じ分子を複数回読み取るためにナノポアに捕捉することができる。「捕捉された」分子の例が、図22の生のトレースに示されており、単一のxpandomerが期間2、3、4、5において捕捉されている。このシナリオにおいて、同じ分子がさらに4回読み取られ、同じ分子からのこれらのサブリードが、時間的に近接して生じる。時間におけるリードのこの自然なクラスタ化は、コンセンサスリードの形成に有利である。
【0191】
データ移動の観点から、分子間コンセンサスの1つの欠点は、オンライン処理に容易には対応できないこと、またはオンライン方式で実行することが少なくともより困難であることである。同じ分子ファミリ内のメンバーに対応するリードは、ランの過程にわたって時間的にランダムに分散する。したがって、個々の分子ファミリのリードメンバーのための所定の時間的位置の欠如に鑑み、コンセンサスのために必要とされるリードクラスタ化工程を開始するために、ランの終わりまで待つことがより容易である。捕捉分子の手法は、この問題を回避する。サブリードが時間において連続していることが既知であるため、その時点でコンセンサスを決定することができ、コンセンサスのみを次の段階に渡すことができる。リード自体は廃棄されてよい。
【0192】
図23が、ナノポアシーケンシングからもたらされて組み合わせられた捕捉生リード系列の図である。リード系列を、分子内コンセンサスを生成するために使用することができる。長さは、長さが116bpである標的核酸分子に対応する。核酸分子、例えばXpandomerなどの代理分子を、30パルスの順方向サイクルおよび25パルスの逆方向サイクルでナノポアを通って移動させた。各パルスは、1つのヌクレオチド読み取り(例えば、1つ以上のレポータ要素に対応する)を移動させる。
【0193】
合計で20サイクルを使用して、分子の全長をカバーした。各サイクルのリードを上部に示す。各サイクルは重複するリードを含むため、個々のヌクレオチドは数回シーケンシングされる。コンセンサスリードは、「捕捉コンセンサスリード(Trapped Consensus Read)」の下に示されている。捕捉コンセンサスリードの下に、ヌクレオチドがシーケンシングされた回数が示されている。例えば、AAGCTの最初のサブシーケンスは、2回シーケンシングされる。TCTGGTで始まる中央部分は、6回シーケンシングされる。明期間の順方向パルスの数が暗期間の逆方向パルスの数よりも多いサイクルへの変更の前に、初期の順方向および逆方向サイクルが同じ数のパルスを有するように設定されるならば、分子の始まりを複数回シーケンシングすることができる。分子がナノポアを完全に出るまで順方向および逆方向パルスを継続することによって、分子の末端を複数回シーケンシングすることができる。
VI.コンピュータシステム
【0194】
本明細書で言及されるコンピュータシステムのいずれも、任意の適切な数のサブシステムを利用し得る。そのようなサブシステムの例は、図24においてコンピュータシステム10内に示されている。いくつかの実施形態において、コンピュータシステムは、単一のコンピュータ装置を含み、サブシステムは、コンピュータ装置のコンポーネントであってよい。他の実施形態において、コンピュータシステムは、各々が内部コンポーネントを有するサブシステムである複数のコンピュータ装置を含むことができる。コンピュータシステムは、デスクトップおよびラップトップコンピュータ、タブレット、携帯電話機、ならびに他のモバイルデバイスを含むことができる。
【0195】
図24に示されるサブシステムは、システムバス75を介して相互接続される。プリンタ74、キーボード78、記憶装置79、ディスプレイアダプタ82に接続されたモニタ76、などのさらなるサブシステムが示されている。I/Oコントローラ71に接続される周辺機器および入力/出力(I/O)デバイスを、入力/出力(I/O)ポート77(例えば、USB、FireWire(登録商標))などの当技術分野で知られている任意のいくつかの手段によって、コンピュータシステムに接続することができる。例えば、I/Oポート77または外部インターフェース81(例えば、イーサネット、Wi-Fi、など)を使用して、コンピュータシステム10をインターネットなどの広域ネットワーク、マウス入力装置、またはスキャナに接続することができる。システムバス75を介した相互接続により、中央処理装置73は、各々のサブシステムと通信し、システムメモリ72または記憶装置79(例えば、ハードドライブなどの固定ディスク、または光ディスク)からの複数の命令の実行、ならびにサブシステム間の情報の交換を制御することができる。システムメモリ72および/または記憶装置79は、コンピュータ可読媒体を具現化し得る。他のサブシステムは、カメラ、マイクロフォン、加速度計、などのデータ収集装置85である。本明細書において言及されたあらゆるデータを、或るコンポーネントから別のコンポーネントへと出力すること、およびユーザへと出力することが可能である。
【0196】
コンピュータシステムは、例えば、外部インターフェース81、内部インターフェース、あるいは或るコンポーネントから別のコンポーネントへと接続および取り外しが可能なリムーバブル記憶デバイスによって互いに接続される複数の同じコンポーネントまたはサブシステムを含むことができる。いくつかの実施形態において、コンピュータシステム、サブシステム、または装置は、ネットワークを介して通信することができる。そのような場合、或るコンピュータをクライアントと見なし、別のコンピュータをサーバと見なすことができ、各々が同じコンピュータシステムの一部であってよい。クライアントおよびサーバの各々が、複数のシステム、サブシステム、またはコンポーネントを含むことができる。
【0197】
実施形態の態様は、ハードウェア(例えば、特定用途向け集積回路またはフィールドプログラマブルゲートアレイ)を使用し、さらには/あるいは一般的にプログラム可能なプロセッサとともにコンピュータソフトウェアを使用して、モジュール方式または統合方式で、制御ロジックの形態で実装され得る。本明細書において使用されるとき、プロセッサは、シングルコアプロセッサ、同じ集積チップ上のマルチコアプロセッサ、あるいは単一の回路基板上に位置し、もしくはネットワーク化された複数の処理ユニットを含む。本明細書において提供される開示および教示に基づいて、当業者であれば、ハードウェアおよびハードウェアとソフトウェアとの組み合わせを使用して本発明の実施形態を実現するための他のやり方および/または方法を知り、理解するであろう。
【0198】
本出願で説明されるソフトウェアコンポーネントまたは機能はいずれも、例えばJava、C、C++、C#、Objective-C、またはSwiftなどの任意の好適なコンピュータ言語、あるいは、例えば従来技術またはオブジェクト指向の技術を使用するPerlまたはPythonなどのスクリプト言語を使用して、プロセッサによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、一連の命令または指令として、保管および/または伝達のためにコンピュータ可読媒体上に格納されてよい。適切な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、読み出し専用メモリ(ROM)、ハードドライブまたはフロッピーディスクなどの磁気媒体、あるいはコンパクトディスク(CD)またはDVD(デジタル多用途ディスク)などの光学媒体、フラッシュメモリ、などを含むことができる。コンピュータ可読媒体は、このような記憶デバイスまたは伝送デバイスの任意の組み合わせであってよい。
【0199】
さらに、そのようなプログラムは、インターネットを含むさまざまなプロトコルに準拠する有線、光、および/または無線ネットワークを介した伝送に適合したキャリア信号を使用して符号化および伝送されてよい。したがって、コンピュータ可読媒体を、そのようなプログラムでエンコードされたデータ信号を使用して生成することができる。プログラムコードでエンコードされたコンピュータ可読媒体は、互換性のあるデバイスとともにパッケージ化されても、他のデバイスとは別個に(例えば、インターネットダウンロードを介して)提供されてもよい。このようなコンピュータ可読媒体はいずれも、単一のコンピュータ製品(例えば、ハードドライブ、CD、またはコンピュータシステム全体)上、またはその内部に位置してもよく、システムまたはネットワーク内の異なるコンピュータ製品上、またはその内部に存在してもよい。コンピュータシステムは、本明細書に記載の結果のいずれかをユーザに提供するためのモニタ、プリンタ、または他の適切なディスプレイを含み得る。
【0200】
本明細書に記載のいずれも方法も、ステップを実行するように構成することができる1つ以上のプロセッサを含むコンピュータシステムで完全に、または部分的に実行され得る。したがって、実施形態は、本明細書に記載のいずれかの方法のステップを実行するように構成され、おそらくはそれぞれのステップまたはそれぞれのステップ群を実行する異なるコンポーネントを備えているコンピュータシステムを対象とすることができる。本明細書における方法のステップは、番号付けされたステップとして提示されているが、同時に実行されても、異なる順序で実行されてもよい。加えて、これらのステップの一部は、他の方法からの他のステップの一部とともに使用されてもよい。また、ステップの全体または一部は、随意であってよい。さらに、いずれの方法のいずれのステップも、これらのステップを実行するためのモジュール、ユニット、回路、または他の手段で実行され得る。
【0201】
特定の実施形態の固有の詳細を、本発明の実施形態の精神および範囲から逸脱することなく、任意の適切なやり方で組み合わせることが可能である。しかしながら、本発明の他の実施形態は、各々の個別の態様に関する特定の実施形態、またはこれらの個別の態様の特定の組み合わせを対象とすることができる。
【0202】
本発明の例示的な実施形態の上記の説明は、例示および説明の目的で提示されている。網羅的であることや、本発明を記載された厳密な形態に限定することは意図されておらず、上記の教示に照らして多数の修正および変形が可能である。
【0203】
「a」、「an」、または「the」という記載は、そのようでないと具体的に示されない限り、「1つ以上」を意味するように意図される。「または(or)」の使用は、「包括的論理和(inclusive or)」を意味するように意図され、そうでないことが具体的に示されない限り、「排他的論理和(exclusive or)」を意味することは意図されていない。「第1の」構成要素への言及は、第2の構成要素が提供されることを必ずしも必要としない。さらに、「第1の」または「第2の」構成要素への言及は、明示的に規定されない限り、言及された構成要素を特定の位置に限定するものではない。
【0204】
本明細書において言及されたすべての特許、特許出願、刊行物、および説明文は、それらの全体があらゆる目的のために参照によって援用される。いずれも先行技術として認めたわけではない。
図1
図2
図3
図4
図5
図6A
図6B
図7
図8
図9
図10
図11A
図11B
図12
図13
図14
図15
図16
図17
図18
図19
図20
図21
図22
図23
図24
【手続補正書】
【提出日】2024-05-28
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
推論回路によって、
複数のセルを含むセンサチップから、少なくとも100,000個の核酸分子のうちのそれぞれの核酸分子の各々の位置についての複数の測定値を含む生データの第1のストリームを受信することと、
前記少なくとも100,000個の核酸分子についてのヘッダ情報、ベースコールデータ、および品質スコアを含むリードデータの第2のストリームを生成することと、
前記第2のストリームから、前記少なくとも100,000個の核酸分子の各々を識別するヘッダ情報の第1のサブストリームを抽出することと、
第1のスレッドによって、前記ヘッダ情報の第1のサブストリームを圧縮し、圧縮済みヘッダ情報を生成することと、
前記第2のストリームから、前記少なくとも100,000個の核酸分子の各々の各々の位置におけるベースコールを提供するベースコールデータの第2のサブストリームを抽出することと、
第2のスレッドによって、前記ベースコールデータの第2のサブストリームを圧縮し、圧縮済みベースコールデータを生成することと、
前記第2のストリームから、前記少なくとも100,000個の核酸分子の各々の各々の位置における各々のベースコールの品質スコアを提供する品質スコアデータの第3のサブストリームを抽出することと、
第3のスレッドによって、前記品質スコアデータの第3のサブストリームを圧縮し、圧縮済み品質スコアデータを生成することと、
前記圧縮済みヘッダ情報、前記圧縮済みベースコールデータ、および前記圧縮済み品質スコアデータを出力することと
を実行することを含む方法。
【請求項2】
前記圧縮済みヘッダ情報、前記圧縮済みベースコールデータ、および前記圧縮済み品質スコアデータは、出力の前に結合される、請求項1に記載の方法。
【請求項3】
前記圧縮済みヘッダ情報、前記圧縮済みベースコールデータ、および前記圧縮済み品質スコアデータの結合は、負荷バランシングを使用して実行される、請求項2に記載の方法。
【請求項4】
前記ベースコールデータは、前記少なくとも100,000個の核酸分子の各々についてのベースコールのシーケンスを含み、前記ベースコールデータの第2のサブストリームを圧縮することは、
それぞれの核酸に対応するベースコールの各々のシーケンスについて、
前記シーケンスを参照シーケンスに整合させ、ゲノム位置情報を得ることと、
前記シーケンスと前記参照シーケンスとの間に1つ以上の相違が存在するかどうかを識別することと、
相違があればエンコードして、前記相違を特定する符号を生成することと、
前記参照シーケンス内の前記ゲノム位置情報で、前記参照シーケンスに一致する前記シーケンスの少なくとも一部分を置き換えることと、
前記符号および前記ゲノム位置情報を使用して、前記圧縮済みベースコールデータを生成することと
を含む、請求項1に記載の方法。
【請求項5】
前記置き換えされたゲノム位置情報は、前記参照シーケンスに一致する前記シーケンス内のゲノム位置の範囲を特定する、請求項4に記載の方法。
【請求項6】
前記第1のスレッド、前記第2のスレッド、および前記第3のスレッドは、順番に実行される、請求項1に記載の方法。
【請求項7】
推論回路によって、
複数のセルを含んでいるセンサチップから、少なくとも100,000個の核酸分子のうちのそれぞれの核酸分子の各々の位置についての複数の測定値を含む生データを受信することであって、前記少なくとも100,000個の核酸分子の少なくとも一部分は、核酸分子のクラスタを含み、クラスタの前記核酸分子は、同じテンプレート核酸分子に対応する、生データを受信することと、
それぞれの核酸分子の各々の位置について、
前記生データを使用して、前記位置におけるヌクレオチドを決定することにより、シーケンスリードを生成することと、
前記少なくとも100,000個の核酸分子についての各々のシーケンスリードについて、
前記シーケンスリードに対応する特定のクラスタを識別し、前記特定のクラスタについてのカウンタを増加させることと、
第1のクラスタについての第1のカウンタがしきい値よりも大きいと判定することと、
前記第1のカウンタが前記しきい値よりも大きいとの判定に応答して、前記第1のクラスタに対応するシーケンスリードを廃棄することと
を実行することを含む方法。
【請求項8】
前記しきい値を上回る前記シーケンスリードは、廃棄される、請求項7に記載の方法。
【請求項9】
前記シーケンスリードは、分子内コンセンサスリードである、請求項7に記載の方法。
【請求項10】
前記分子内コンセンサスリードは、
前記核酸分子から、各々のヌクレオチドに対応する1つ以上のレポータ要素を含む代理分子を作成することと、
前記代理分子をナノポアに複数回通し、複数のサブリードを得ることと、
前記複数のサブリードを比較することによって前記分子内コンセンサスリードを決定することと
によって決定される、請求項9に記載の方法。
【請求項11】
前記シーケンスリードは、前記核酸分子に付着したヌクレオチドに対応する1つ以上のバーコードシーケンスを含み、
前記特定のクラスタは、1つ以上の特定のバーコードシーケンスに割り当てられ、
前記シーケンスリードに対応する前記特定のクラスタを識別することは、
前記シーケンスリードの1つ以上のバーコードシーケンスを前記1つ以上の特定のバーコードシーケンスと比較して、一致を判定すること
を含む、請求項7に記載の方法。
【請求項12】
新たなシーケンスリードについてのクラスタを、前記新たなシーケンスリードの前記1つ以上のバーコードシーケンスが既存のクラスタに割り当てられた前記1つ以上の特定のバーコードシーケンスに一致しない場合に作成することをさらに含む、請求項11に記載の方法。
【請求項13】
前記シーケンスリードに対応する前記特定のクラスタを識別することは、
前記シーケンスリードを参照シーケンスに整合させ、ゲノム位置を決定することと、
前記ゲノム位置を、前記特定のクラスタの割り当てられたゲノム位置と比較することと
を含む、請求項7に記載の方法。
【請求項14】
前記ゲノム位置は、開始ゲノム位置および終了ゲノム位置を含み、前記特定のクラスタの前記割り当てられたゲノム位置は、前記特定のクラスタの別のシーケンスリードを使用して決定されている、請求項13に記載の方法。
【請求項15】
前記推論回路から、前記カウンタが前記しきい値よりも大きくなる前の前記第1のクラスタに対応するシーケンスリードを出力することをさらに含む、請求項7に記載の方法。
【請求項16】
核酸分子のクラスタは、前記テンプレート核酸分子のコピーを製作することによって生成される、請求項7に記載の方法。
【請求項17】
前記コピーは、PCRを使用して生成される、請求項16に記載の方法。
【請求項18】
クラスタの前記シーケンスリードを使用してコンセンサスシーケンスリードを生成することをさらに含む、請求項7に記載の方法。
【請求項19】
請求項1~18のいずれか一項に記載の方法を実行するようにコンピュータシステムを制御するための複数の命令を格納したコンピュータ可読媒体。
【請求項20】
請求項1~18のいずれか一項に記載の方法を実行するコンピュータシステム。

【国際調査報告】