(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-03-09
(45)【発行日】2022-03-17
(54)【発明の名称】交流信号によって駆動されるナノポアDNA配列決定システム由来の不規則信号におけるノイズの測定および除去
(51)【国際特許分類】
G01N 27/00 20060101AFI20220310BHJP
G01N 33/50 20060101ALI20220310BHJP
C12Q 1/6869 20180101ALI20220310BHJP
C12M 1/34 20060101ALI20220310BHJP
【FI】
G01N27/00 Z
G01N33/50 P
C12Q1/6869 Z
C12M1/34 Z
(21)【出願番号】P 2020535651
(86)(22)【出願日】2018-12-19
(86)【国際出願番号】 EP2018085734
(87)【国際公開番号】W WO2019129555
(87)【国際公開日】2019-07-04
【審査請求日】2020-07-31
(32)【優先日】2017-12-28
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】591003013
【氏名又は名称】エフ.ホフマン-ラ ロシュ アーゲー
【氏名又は名称原語表記】F. HOFFMANN-LA ROCHE AKTIENGESELLSCHAFT
(74)【代理人】
【識別番号】100118902
【氏名又は名称】山本 修
(74)【代理人】
【識別番号】100106208
【氏名又は名称】宮前 徹
(74)【代理人】
【識別番号】100120112
【氏名又は名称】中西 基晴
(72)【発明者】
【氏名】バジャージ,カピル・エム・エス
【審査官】吉田 将志
(56)【参考文献】
【文献】米国特許出願公開第2017/0089858(US,A1)
【文献】特開2010-066012(JP,A)
【文献】特表2017-534889(JP,A)
【文献】特開2010-256268(JP,A)
(58)【調査した分野】(Int.Cl.,DB名)
G01N 27/00 - G01N 27/10
G01N 27/14 - G01N 27/24
G01N 33/50
C12Q 1/6869
C12M 1/34
(57)【特許請求の範囲】
【請求項1】
ナノポアを含む配列決定セルであって、前記ナノポアが、ヌクレオチドに連結したタグを受け取るように構成され、それにより充填事象を生み出す、前記配列決定セル;
前記配列決定セルの前記ナノポアにわたって交流信号を印加する信号発生器であって、前記交流信号の各サイクルが第1の部分および第2の部分を含み、前記第2の部分の電圧レベルが前記第1の部分の電圧レベルに対して参照電圧の反対である、前記信号発生器;
前記交流信号の複数のサイクルの前記第1の部分の間に第1の電圧データのセットを取得するアナログデジタル変換器であって、前記第1の電圧データのセットの各データポイントが異なる時間における前記ナノポアの抵抗の値に対応し、前記ナノポアの前記抵抗は前記タグが前記ナノポア内に受け取られるときに変化する、前記アナログデジタル変換器;ならびに
デジタルプロセッサであって、
シフトされた電圧データのセットを前記第1の電圧データのセットから決定することであって、ここで、前記第1の電圧データのセットおよび前記シフトされた電圧データのセットのデータポイントの各サイクルが指定の数のデータポイントを含むものである;
前記第1の電圧データのセットのデータポイントと前記シフトされた電圧データのセットの対応するデータポイントとの差分を計算することによって、差分データ値を計算すること;
複数のノイズデータポイントを、第1の閾値よりも大きい値を有する前記差分データ内のデータポイントとして識別すること;
複数のノイズデータポイントを、第1の閾値よりも大きい差分データ値を有するデータポイントとして識別すること;ならびに
前記第1の電圧データのセットから前記複数のノイズデータポイントを除去することによって、ノイズ除去された第1の電圧データのセットを決定すること;
を行うように構成される、前記デジタルプロセッサ;
を備える、システムまたは器具。
【請求項2】
配列決定セルを使用する方法であって、
前記配列決定セルのナノポアにわたって交流信号を印加するステップであって、前記ナノポアがヌクレオチドに連結したタグを受け取るように構成され、それにより充填事象を生み出し、前記交流信号の各サイクルが第1の部分および第2の部分を含み、前記第2の部分の電圧レベルが前記第1の部分の電圧レベルに対して参照電圧の反対である、前記ステップ;
前記交流信号の複数のサイクルの前記第1の部分の間に第1の電圧データのセットを取得するステップであって、前記第1の電圧データのセットの各データポイントが異なる時間における前記ナノポアの抵抗の値に対応し、前記ナノポアの前記抵抗は前記タグが前記ナノポア内に受け取られるときに変化する、前記ステップ;
シフトされた電圧データのセットを前記第1の電圧データのセットから決定するステップであって、前記第1の電圧データのセットおよび前記シフトされた電圧データのセットのデータポイントの各サイクルが、指定の数のデータポイントを含む、前記ステップ;
前記第1の電圧データのセットのデータポイントと前記シフトされた電圧データのセットの対応するデータポイントとの差分を計算することによって、差分データ値を計算するステップ;
複数のノイズデータポイントを、第1の閾値よりも大きい差分データ値を有するデータポイントとして識別するステップ;ならびに
前記第1の電圧データのセットから前記複数のノイズデータポイントを除去することによって、ノイズ除去された第1の電圧データのセットを決定するステップ;
を含む、前記方法。
【請求項3】
前記ノイズ除去された第1の電圧データのセット内の1つまたは複数のデータポイントを使用して前記充填事象を識別するステップ;
前記充填事象のレベルを決定するステップ;および
前記レベルを使用して、前記配列決定セル内の核酸内へ組み込まれるヌクレオチドを決定するステップ;
をさらに含む、請求項2に記載の方法。
【請求項4】
前記複数のノイズデータポイントを識別する前記ステップが、第2の閾値よりも小さい差分データ値を有するデータポイントを識別することをさらに含む、請求項2に記載の方法。
【請求項5】
前記複数のノイズデータポイントを識別する前に前記差分データをフィルタリングするステップをさらに含む、請求項2に記載の方法。
【請求項6】
前記差分データをフィルタリングする前記ステップが、ウェーブレットノイズ除去された差分データを計算することを含む、請求項5に記載の方法。
【請求項7】
前記差分データをフィルタリングするために使用されるウェーブレットが、ハールウェーブレットである、請求項6に記載の方法。
【請求項8】
前記複数のノイズデータポイントを識別する前記ステップが、前記複数のノイズデータポイントを前記第1の閾値よりも大きいウェーブレットノイズ除去された差分データ値を有するデータポイントとして識別することを含む、請求項7に記載の方法。
【請求項9】
請求項2~8に記載の方法のいずれかの動作を実施するようにコンピュータシステムを制御するための複数の命令を格納するコンピュータ可読媒体を備えるコンピュータ製品。
【請求項10】
請求項9に記載のコンピュータ製品;および
前記コンピュータ可読媒体に格納された命令を実行するための1つまたは複数のプロセッサ;
を備えるシステムまたは器具。
【請求項11】
複数の配列決定セルを含む配列決定チップであって、第1の配列決定セルがナノポアを含み、前記ナノポアがヌクレオチドに連結したタグを受け取るように構成され、それにより充填事象を生み出す、前記配列決定チップ;
前記第1の配列決定セルの前記ナノポアにわたって交流信号を印加する信号発生器であって、前記交流信号の各サイクルが第1の部分および第2の部分を含み、前記第2の部分の電圧レベルが前記第1の部分の電圧レベルに対して参照電圧の反対である、前記信号発生器;
前記交流信号の複数のサイクルの前記第1の部分の間に第1の信号値データのセットを取得するアナログデジタル変換器であって、前記第1の信号値データのセットの各データポイントが異なる時間における前記ナノポアの抵抗の値に対応し、前記ナノポアの前記抵抗は前記タグが前記ナノポア内に受け取られるときに変化する、前記アナログデジタル変換器;ならびに
請求項2~8のいずれかに記載の方法を実施するように構成される1つまたは複数のプロセッサ;
を備えるシステムまたは器具。
【発明の詳細な説明】
【背景技術】
【0001】
[0001]内径が1ナノメートル程度のポアサイズを有するナノポア膜装置は、迅速なヌクレオチド配列決定において見込みを示してきた。電圧信号が導電性流体に浸漬されたナノポアにわたって印加されるとき、電界は、イオンを、ナノポアを通り導電性流体内を移動させ得る。ナノポアを通る導電性流体内でのイオンの移動は、わずかなイオン電流をもたらし得る。印加電圧は、分子をさらに移動させ、ナノポア内へ、ナノポアを通り、またはナノポアの外に、配列させ得る。イオン電流(または対応する電圧)のレベルは、ナノポアおよびナノポア内に移動された個々の分子の、サイズおよび化学的構造に依存する。
【0002】
[0002]ナノポアを通り移動するDNA分子(または配列決定されることになる他の核酸分子)の代替として、分子(例えば、DNA鎖に加えられたヌクレオチド)は、個々のサイズおよび/または構造の個々のタグを含み得る。ナノポアを含む回路内のイオン電流または電圧(例えば、積分コンデンサでの)は、分子に対応するナノポアの抵抗の測定方法として測定され得て、それによりナノポア内の個々の分子、および核酸の特定の位置の特定のヌクレオチドの検出が可能になる。
【0003】
[0003]ナノポアベースの配列決定チップは、DNA配列決定のために使用され得る。ナノポアベースの配列決定チップは、アレイとして構成される大量のセンサセルを組み込み得る。例えば、1,000,000セルのアレイは、1000列×1000行のセルを含み得る。
【0004】
[0004]測定される電圧は、製造ばらつきに起因して、チップごとに、および同じチップのセルごとに異なり得る。したがって、セル内の特定の核酸または他の重合体内の正しいヌクレオチドとなり得る、またはそれに対応し得る正しい分子を決定するのは困難である場合がある。
【0005】
[0005]したがって、改善された技術が配列決定のために望まれる。
【発明の概要】
【0006】
[0006]様々な実施形態は、マルチセルナノポアベースの配列決定チップのセルからの出力信号の処理に関連した技術およびシステムを提供する。改善されたマルチセルナノポアベースの配列決定チップは、本明細書に開示される様々な実施形態を用いることにより構築され得る。例えば、実施形態は、配列決定信号内の非理想性を補償することができる配列決定信号処理を実施するためのシステムおよび方法を含み得る。非理想性は、充填状態または開放チャネル状態以外のタグ-ナノポアシステムの1つまたは複数の状態の発生によって引き起こされ得る。例えば、タグ-ナノポアシステムの1つまたは複数の中間状態によって引き起こされるノイズが補償され得る。
【0007】
[0007]いくつかの実施形態によると、配列決定信号内のノイズは、例えば、中間状態によって引き起こされるノイズ信号と、例えば、開放チャネル状態および/または充填状態によって引き起こされるクリーン信号とを区別することができる改善された信号処理技術を使用して除去され得る。改善された信号処理技術は、ノイズポイントを識別し、それらを配列決定信号から除去するために、期間ごとの差分スキームに続いて閾値化手順を用いる。1つの実施形態では、期間ごとの差分信号は、取得された配列決定信号をAC駆動信号の1つのAC期間だけ時間シフトし、次いで時間シフトされた配列決定信号を取得された信号から減じることによって決定される。差分信号は、高い振幅および/または分散を有する部分、ならびに低い振幅および/または分散を有する部分を含むことになる。次いで、閾値が、次の通りに期間ごとの差分信号に適用され得る。閾値よりも大きいすべてのポイントは、ノイズであることが決定され、次いで、期間ごとの差分信号内の閾値を介して識別されるノイズポイントに対応する取得された配列決定信号データポイントは、取得された配列決定信号から除去される。
【0008】
[0008]いくつかの実施形態では、閾値の範囲内に入るポイントのみがノイズポイントとして識別され、除去されるように、2つ以上の閾値が使用され得る。
【0009】
[0009]いくつかの実施形態では、差分データは、ノイズポイントを識別するために1つまたは複数の閾値と比較する前に、フィルタリングされるか、平滑化されるか、または別途ノイズ除去され得る。例えば、ウェーブレットべースのノイズ除去技術は、ノイズ除去された期間ごとの信号を生成するために期間ごとの信号に適用され得る。次いで、1つまたは複数の閾値が、ノイズピークのセットを識別するために、このノイズ除去された期間ごとの信号に適用される。いくつかの実施形態では、ウェーブレットベースのノイズ除去技術は、ハールウェーブレットに依拠し得る。
【0010】
[0010]他の実施形態は、本明細書に説明される方法と関連付けられたシステム、携帯型消費者デバイス、およびコンピュータ可読媒体に向けられる。
【0011】
[0011]本発明の実施形態の特質および利点のより良い理解は、以下の詳細な説明および添付の図面により得られ得る。
【図面の簡単な説明】
【0012】
【
図1】[0012]ナノポアセルのアレイを備えるナノポアセンサチップの一実施形態の上面図である。
【
図2】[0013]ポリヌクレオチドまたはポリペプチドを特徴づけるために使用され得る、ナノポアセンサチップ内のナノポアセルの一実施形態である。
【
図3】[0014]ナノポアベースの、合成による配列決定(ナノ-SBS)技術を用いてヌクレオチド配列決定を実行するナノポアセルの一実施形態である。
【
図4】[0015]ナノポアセル内の電気回路の一実施形態である。
【
図5】[0016]本開示のある態様による、ACサイクルの明期間および暗期間中にナノポアセルから取得されたデータポイントの例を示す図である。
【
図6】[0017]本開示のある態様による、電圧データの周期性を例証するサンプルデータを示す図である。
【
図7】[0018]本開示のある態様による、差分データを決定するための電圧データのシフトを例証し、電圧データが1つの充填事象を有する、図である。
【
図8】[0019]本開示のある態様による、差分データを決定するための電圧データのシフトを例証し、電圧データが3つの充填事象を有する、図である。
【
図9A】[0020]本開示のある態様による、本明細書では偽充填バックグラウンドノイズ(PTBN)と称されるノイズ源の影響下にある、生のサンプル配列決定信号を例証する図である。
【
図9B】[0020]本開示のある態様による、本明細書では偽充填バックグラウンドノイズ(PTBN)と称されるノイズ源の影響下にある、生のサンプル配列決定信号を例証する図である。
【
図10A】[0021]本開示のある態様による、今度は高速取得ノイズ(FCN)として知られるノイズ源の影響下にある、生のサンプル配列決定信号を例証する図である。
【
図10B】[0021]本開示のある態様による、今度は高速取得ノイズ(FCN)として知られるノイズ源の影響下にある、生のサンプル配列決定信号を例証する図である。
【
図11】[0022]本開示のある態様による、生の配列決定信号が、閾値化技術を使用してどのようにノイズ除去されるかを例証する図である。
【
図12A】[0023]
図12Aは、本開示のある態様による、生の期間ごとの差分信号とハールウェーブレットノイズ除去された期間ごとの差分信号との比較の一例を例証する図である。
図12Bは、本開示のある態様による、生の期間ごとの差分信号とハールウェーブレットノイズ除去された期間ごとの差分信号との比較の一例を例証する図である。
【
図12B】[0023]
図12Aは、本開示のある態様による、生の期間ごとの差分信号とハールウェーブレットノイズ除去された期間ごとの差分信号との比較の一例を例証する図である。
図12Bは、本開示のある態様による、生の期間ごとの差分信号とハールウェーブレットノイズ除去された期間ごとの差分信号との比較の一例を例証する図である。
【
図12C】[0023]
図12Aは、本開示のある態様による、生の期間ごとの差分信号とハールウェーブレットノイズ除去された期間ごとの差分信号との比較の一例を例証する図である。
図12Bは、本開示のある態様による、生の期間ごとの差分信号とハールウェーブレットノイズ除去された期間ごとの差分信号との比較の一例を例証する図である。
【
図13】[0024]ある実施形態による、配列決定セルを使用する例となる方法を例証するフローチャートである。
【
図14A】[0025]
図14Aは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図14B】
図14Bは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図14C】
図14Cは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図14D】
図14Dは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図15A】[0026]
図15Aは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図15B】
図15Bは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図15C】
図15Cは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図15D】
図15Dは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図16A】[0027]
図16Aは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図16B】
図16Bは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図16C】
図16Cは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図16D】
図16Dは、本開示のある態様による、ノイズ除去技術を使用して処理されるサンプルデータを例証する図である。
【
図17】[0028]本開示のある態様による、コンピュータシステムを例証する図である。
【発明を実施するための形態】
【0013】
用語
[0029]別途規定のない限り、本明細書で使用される技術的および科学的用語は、当業者により一般的に理解されるものと同じ意味を有する。本明細書に説明されるものに類似する、または等価である、方法、デバイス、および材料が、開示された技術の実践において使用され得る。以下の用語は、頻繁に使用される特定の用語の理解を促進するために提供され、本開示の範囲を制限することは意味しない。本明細書で使用される省略形は、化学的および生物学的分野におけるそれらの慣習的な意味を有する。
【0014】
[0030]「核酸」は、デオキシリボヌクレオチドまたはリボヌクレオチド、および一本または二本鎖のいずれかの形態の、その重合体を指し得る。この用語は、合成の、自然発生的、非自然発生的であり、参照核酸と同様の結合特性を有し、参照ヌクレオチドと同様の挙動で代謝する、周知のヌクレオチドの類似物または修飾された主鎖の残基または連鎖を含む核酸を包含し得る。そのような類似物の例は、それだけには限らないが、ホスホロチオエート、ホスホルアミダイト、メチルホスホン酸塩、キラルメチルホスホン酸塩、2-O-メチルリボヌクレオチド、ペプチド核酸(PNAs)を含み得る。別途示されない限り、特定の核酸配列は、保存的に改変されたその変異体(例えば、縮重コドン置換)および相補的配列、ならびに明示的に示される配列も暗に包含する。具体的には、縮重コドン置換は、1つまたは複数の選択された(またはすべての)コドンの3番目の位置が混合塩基および/またはデオキシイノシン残基で置換される配列を生成することによって達成され得る(Batzerら、Nucleic Acid Res.19:5081(1991);Ohtsukaら、J.Biol.Chem.260:2605-2608(1985);Rossoliniら、Mol.Cell.Probes8:91-98(1994))。用語、核酸は、遺伝子、cDNA、mRNA、オリゴヌクレオチド、およびポリヌクレオチドと交換可能に用いられ得る。
【0015】
[0031]用語「鋳型」は、DNA合成のためのDNAヌクレオチドの相補的鎖へ複製される一本鎖核酸分子を示し得る。場合によっては、鋳型は、mRNAの合成中に複製されるDNAの配列を示し得る。
【0016】
[0032]用語「プライマ」は、DNA合成の開始点を提供する短い核酸配列を示し得る。DNAポリメラーゼなどのDNA合成を触媒する酵素は、新らたなヌクレオチドをDNA複製用プライマに加え得る。
【0017】
[0033]「ポリメラーゼ」は、鋳型を標的としたポリヌクレオチドの合成を実施する酵素を指す。この用語は、全長ポリペプチドとポリメラーゼ活性を有するドメインとの両方を包含する。DNAポリメラーゼは、当業者にとっては周知であり、パイロコッカス・フリオサス、テルモコッカス・リトラリス、およびサーモトガ・マリティマから単離されるか、またはそれに由来するDNAポリメラーゼ、またはそれらの改変体を含むが、これらに限定されない。それらは、DNA依存性ポリメラーゼ、および逆転写酵素などのRNA依存ポリメラーゼの両方を含む。DNA依存性のDNAポリメラーゼの少なくとも5つのファミリーが知られているが、大半はファミリーA、B、およびCに分類される。様々なファミリー間に配列類似性はほとんどない、またはまったくない。大半のファミリーAポリメラーゼは、ポリメラーゼ、3’から5’へのエキソヌクレアーゼ活性、および5’から3’へのエキソヌクレアーゼ活性を含む複数の酵素機能を含み得る一本鎖タンパク質である。ファミリーBポリメラーゼは、典型的には、ポリメラーゼおよび3’から5’へのエキソヌクレアーゼ活性を有する単一触媒ドメイン、ならびにアクセサリー因子を有する。ファミリーCポリメラーゼは、典型的には、重合および3’から5’へのエキソヌクレアーゼ活性を有するマルチサブユニットタンパク質である。大腸菌においては、DNAポリメラーゼI(ファミリーA)、II(ファミリーB)、およびIII(ファミリーC)という3種類のDNAポリメラーゼが見つかっている。真核細胞においては、DNAポリメラーゼα、δ、およびεという3つの異なるファミリーBポリメラーゼが、核複製に関わり、ポリメラーゼγというファミリーAポリメラーゼが、ミトコンドリアDNA複製に使用される。他の種類のDNAポリメラーゼとしては、ファージポリメラーゼが挙げられる。同様に、RNAポリメラーゼは、典型的には、真核RNAポリメラーゼI、II、およびIIIと、バクテリアRNAポリメラーゼならびにファージおよびウイルスポリメラーゼとを含む。RNAポリメラーゼは、DNA依存性およびRNA依存性であり得る。
【0018】
[0034]「ナノポア」は、膜内に形成される、または別途提供される、細孔、チャネル、または通路を指す。膜は、脂質二重層などの有機膜、または重合体材料で形成される膜などの合成膜であり得る。ナノポアは、例えば、相補型金属酸化膜半導体(CMOS)または電界効果トランジスタ(FET)回路などの、感知回路、または感知回路に結合された電極に隣接して、または近接して配設され得る。いくつかの例では、ナノポアは、0.1ナノメートル(nm)程度~約1000nmの特徴的な幅または直径を有する。いくつかのナノポアはタンパク質である。
【0019】
[0035]「ヌクレオチド」は、自然発生的なリボヌクレオチドまたはデオキシリボヌクレオチドモノマーを指すことに加えて、文脈が明白に別のことを示さない限りは、ヌクレオチドが使用されている特定の文脈に関して機能的に等価である(例えば、相補的塩基へのハイブリダイゼーション)派生物および類似物を含む、その関連した構造変異体を指すことが理解され得る。
【0020】
[0036]「タグ」は、原子もしくは分子であり得る検出可能な部分、または原子もしくは分子の集合を指し得る。タグは、光学的、電気化学的、磁気的、または静電の(例えば、誘導性、容量性の)特徴的性質を提供することができ、この特徴的性質は、ナノポアを用いて検出され得る。典型的には、ヌクレオチドがタグに取り付けられると、それは、「タグ付けされたヌクレオチド」と呼ばれる。タグは、ホスフェート部分を介してヌクレオチドに取り付けられ得る。
【0021】
[0037]本明細書で用いられるとき、用語「明期間」は、通常、タグ付けされたヌクレオチドのタグが、AC信号を通して印加される電界によってナノポア内に押し込まれる期間を指す。用語「暗期間」は、通常、タグ付けされたヌクレオチドのタグが、AC信号を通して印加される電界によってナノポア外に押し出される期間を指す。ACサイクルは、明期間および暗期間を含み得る。異なる実施形態では、ナノポアセルを明期間(または暗期間)内に入れるためにナノポアセルに印加される電圧信号の極性は、異なり得る。
【0022】
[0038]基礎モデルでは、配列決定セルのナノポア-タグシステムは、開放チャネル状態、またはC、G、A、およびTヌクレオチドに対応するタグの4つの充填状態のうちの1つという5つの状態のうちの1つであり得る。しかしながら、実践では、ナノポア-タグシステムの動態は、この基礎モデルよりも複雑な場合があり、4つの充填状態に加えて、いくつかの他の中間状態が、追加のノイズが配列決定信号に追加されることをもたらし得る。
【0023】
[0039]一般に、1つまたは複数の実施形態は、1つまたは複数の中間状態によって引き起こされるノイズを含む配列決定信号からノイズを除去するために使用され得る。例えば、本明細書に開示される信号処理技術は、真の信号(用語「真の信号」は、本明細書では、開放チャネル状態および充填状態によって引き起こされる配列決定信号を指す)と、上で述べられる中間状態など、開放チャネルまたは充填チャネル以外の状態によって引き起こされるノイズ信号との1つまたは複数の差分を利用することができる。より具体的には、実施形態は、ノイズ信号が期間ごとの差分信号内に真の信号よりも著しく高い振幅/分散を保有するという観察に基づいて、ノイズ信号を真の信号と区別するために使用され得る期間ごとの差分技術を用いることができる。言い換えると、期間ごとの差分信号の開放チャネル部分および充填チャネル部分は共に、期間ごとの信号の中間状態部分よりも低い振幅を保有する。
【0024】
[0040]したがって、本明細書に開示される技術は、閾値を期間ごとの差分信号に適用し、次いで、閾値よりも大きい、またはそれに等しい期間ごとの差分値のセットをノイズとして識別することによって、真の信号をノイズから分離するための方法を提供する。期間ごとの差分信号内のノイズポイントのセットが一旦識別されると、元の配列決定信号は、期間ごとのノイズポイントと関連付けられるポイントを除去することによってノイズ除去され得る。次いで、このノイズ除去された配列決定信号は、必要な場合には、さらに処理され得、最終的には、より正確なナノポアベースのDNA配列を生み出す塩基分類プロセスへの入力として使用され得る。本明細書で使用される場合、ノイズ除去された信号という用語は、元の信号よりも少ないノイズを含む信号を含むことが意図される。そのようなものとして、ノイズ除去された信号は、本開示の範囲から逸脱することなく、残留ノイズを依然として含み得る。
【0025】
I.ナノポアベースの配列決定チップ
[0041]
図1は、ナノポアセル150のアレイ140を備えるナノポアセンサチップ100の一実施形態の上面図である。各ナノポアセル150は、ナノポアセンサチップ100のシリコン基板上に集積化された制御回路を備える。いくつかの実施形態では、側壁136は、アレイ140に含まれ、ナノポアセル150のグループを分離し得て、その結果、各グループは、特徴づけのための異なるサンプルを受け取り得る。各ナノポアセルは、核酸を配列決定するために用いられ得る。いくつかの実施形態では、ナノポアセンサチップ100は、カバープレート130を備え得る。いくつかの実施形態では、ナノポアセンサチップ100は、コンピュータプロセッサなどの他の回路とインタフェースする複数のピン110も備え得る。
【0026】
[0042]いくつかの実施形態では、ナノポアセンサチップ100は、例えばマルチチップモジュール(MCM)またはシステムインパッケージ(SiP)などのように同一のパッケージ内に複数チップを含み得る。チップは、例えば、メモリ、プロセッサ、フィールドプログラマブルゲートアレイ(FPGA)、特定用途向け集積回路(ASIC)、データコンバータ、高速I/Oインタフェースなどを含み得る。
【0027】
[0043]いくつかの実施形態では、ナノポアセンサチップ100は、例えば、脂質懸濁液または他の膜構造化懸濁液、分析物溶液、および/または他の液体、懸濁液、または固体を送達するためのピペット、ロボットアーム、コンピュータプロセッサ、ならびに/あるいはメモリなどの分析物送達メカニズムを含む、本明細書で開示されるプロセスの多様な実施形態を実行する(例えば、自動的に実行する)ための多様な構成要素を含み得るナノチップワークステーション120に結合され(例えば、ドッキングされ)得る。複数のポリヌクレオチドが、ナノポアセル150のアレイ140上で検出され得る。いくつかの実施形態では、各々のナノポアセル150は、個別にアドレス可能であり得る。
【0028】
II.ナノポア配列決定セル
[0044]ナノポアセンサチップ100内のナノポアセル150は、多数の異なる方法で実施され得る。例えば、いくつかの実施形態では、異なるサイズおよび/または化学的構造のタグが、配列決定されるために、核酸分子内の異なるヌクレオチドに取り付けられ得る。いくつかの実施形態では、配列決定されることになる核酸分子の鋳型への相補鎖が、別の仕方で重合体がタグ付けされたヌクレオチドを鋳型とハイブリッド形成することによって、合成され得る。いくつかの実施態様では、核酸分子および取り付けられたタグは、両方ともナノポアを通り移動し、ナノポアを通過するイオン電流が、ヌクレオチドに取り付けられたタグの個々のサイズおよび/または構造によって、ナノポア内に存在するヌクレオチドを示し得る。いくつかの実施態様では、タグだけが、ナノポア内へ移動し得る。ナノポア内で異なるタグを検出するために、多数の異なる方法も存在し得る。
【0029】
A.ナノポア配列決定セル構造
[0045]
図2は、ポリヌクレオチドまたはポリペプチドを特徴づけるために使用され得る、
図1のナノポアセンサチップ100内のナノポアセル150のような、ナノポアセンサチップ内の一例のナノポアセル200の一実施形態を示す。ナノポアセル200は、誘電体層201および204から形成されたウェル205と、ウェル205を覆って形成された脂質二重層214と、脂質二重層214上の、脂質二重層214によってウェル205から分離された試料室215とを、含み得る。ウェル205は、ある体積の電解質206を収容し得て、試料室215は、例えば、可溶性タンパク質ナノポア膜貫通分子複合体(PNTMC)などのナノポア、および対象の分析物(例えば、配列決定されることになる核酸分子)を収容するバルク電解質208を保持し得る。
【0030】
[0046]ナノポアセル200は、ウェル205の底部に作用電極202と、試料室215内に配置された対電極210とを含み得る。信号源228は、電圧信号を作用電極202と対電極210との間に印加し得る。単一のナノポア(例えば、PNTMC)が、電圧信号による電気穿孔法プロセスによって脂質二重層214内へと挿入され、それにより脂質二重層214内のナノポア216を形成し得る。アレイ内の個々の膜(例えば、脂質二重層214または他の膜構造)は、化学的にも電気的にも互いに接続されていないこともある。それゆえ、アレイ内の各ナノポアセルは、独立した配列決定機械であり、対象の分析物に対して作用し、そうでなければ不透過性の脂質二重層を介してイオン電流を調節するナノポアに関連付けられる、単一のポリマー分子に固有のデータを生成する。
【0031】
[0047]
図2に示すように、ナノポアセル200は、シリコン基板などの基板230上に形成され得る。誘電体層201は、基板230上に形成され得る。誘電体層201を形成するために用いられる誘電体材料は、例えば、ガラス、酸化物、窒化物、その他を含み得る。電気的刺激を制御し、ナノポアセル200から検出されるデータを処理する電気回路222は、基板230上および/または誘電体層201内部に形成され得る。例えば、複数のパタニングされた金属層(例えば、金属1~金属6)が、誘電体層201内に形成され、複数の能動デバイス(例えば、トランジスタ)が、基板230上に製造され得る。いくつかの実施形態では、信号源228は、電気回路222の一部に含まれる。電気回路222は、例えば、増幅器、積算器、アナログデジタル変換器、ノイズフィルタ、フィードバック制御ロジック、および/または多様な他の構成要素を含み得る。電気回路222は、メモリ226に結合されるプロセッサ224にさらに結合され得、プロセッサ224は、アレイ内に配列されている重合体分子の配列を決定するために、配列決定データを分析することができ、また、1つまたは複数の指令を電気回路222に提供し得る。
【0032】
[0048]作用電極202は、誘電体層201上に形成され、ウェル205の底部の少なくとも一部を形成し得る。いくつかの実施形態では、作用電極202は、金属電極である。非ファラデー性伝導のために、作用電極202は、腐食および酸化に耐性を示す、例えば、白金、金、チタン窒化物、およびグラファイトなどの金属または他の材料で形成され得る。例えば、作用電極202は、電気めっきを用いた白金電極であってもよい。別の実施例では、作用電極202は、チタン窒化物(TiN)作用電極であってもよい。作用電極202は、多孔質であってもよく、それによりその表面積および結果として生じる作用電極202に付随するキャパシタンスを増大させ得る。ナノポアセルの作用電極は、別のナノポアセルの作用電極から独立していることもあることから、作用電極は、本開示内でセル電極と呼ばれ得る。
【0033】
[0049]誘電体層204は、誘電体層201上に形成され得る。誘電体層204は、ウェル205を囲む壁を形成する。誘電体層204を形成するために用いられる誘電体材料は、例えば、ガラス、酸化物、シリコン一窒化物(SiN)、ポリイミド、または他の適切な疎水性の絶縁材料を含み得る。誘電体層204の上面は、シラン処理され得る。シラン処理は、誘電体層204の上面の上に疎水性層220を形成し得る。いくつかの実施形態では、撥水性層220は、約1.5ナノメートル(nm)の厚さを有する。
【0034】
[0050]誘電体層の壁204によって形成されるウェル205は、作用電極202の上の電解質206の体積を含む。電解質206の体積は、緩衝性を有し、以下の、塩化リチウム(LiCl)、塩化ナトリウム(NaCl)、塩化カリウム(KCl)、グルタミン酸リチウム、グルタミン酸ナトリウム、グルタミン酸カリウム、酢酸リチウム、酢酸ナトリウム、酢酸カリウム、塩化カルシウム(CaCl2)、塩化ストロンチウム(SrCl2)、塩化マンガン(MnCl2)、および塩化マグネシウム(MgCl2)、のうちの1つまたは複数を含み得る。いくつかの実施形態では、電解質206の体積は、約3マイクロメートル(μm)の厚さを有する。
【0035】
[0051]
図2にも示すように、膜は、誘電体層204の上面に形成され、ウェル205全体に及ぶ。いくつかの実施形態では、膜は、疎水性層220の上面に形成された脂質単一層218を含み得る。膜がウェル205の開口に達したとき、脂質単一層218は、ウェル205の開口全体に及ぶ脂質二重層214に遷移し得る。脂質二重層は、例えば、ジフィタノイル-ホスファチジルコリン(DPhPC)、1,2-ジフィタノイル-sn-グリセロ-3-ホスホコリン、1,2-ジ-O-フィタニル-sn-グリセロ-3-ホスホコリン(DoPhPC)、パルミトイル-オレオイル-ホスファチジルコリン(POPC)、ジオレオイル-ホスファチジル-メチルエステル(DOPME)、ジパルミトイルホスファチジルコリン(DPPC)、ホスファチジルコリン、ホスファチジルエタノールアミン、ホスファチジルセリン、ホスファチジン酸、ホスファチジルイノシトール、ホスファチジルグリセロール、スフィンゴミエリン、1,2-ジ-O-フィタニル-sn-グリセロール、1,2-ジパルミトイル-sn-グリセロ-3-ホスホエタノールアミン-N-[メトキシ(ポリエチレングリコール)-350]、1,2-ジパルミトイル-sn-グリセロ-3-ホスホエタノールアミン-N-[メトキシ(ポリエチレングリコール)-550]、1,2-ジパルミトイル-sn-グリセロ-3-ホスホエタノールアミン-N-[メトキシ(ポリエチレングリコール)-750]、1,2-ジパルミトイル-sn-グリセロ-3-ホスホエタノールアミン-N-[メトキシ(ポリエチレングリコール)-1000]、1,2-ジパルミトイル-sn-グリセロ-3-ホスホエタノールアミン-N-[メトキシ(ポリエチレングリコール)-2000]、1,2-ジオレオイル-sn-グリセロ-3-ホスホエタノールアミン-N-ラクトシル、GM1ガングリオシド、リゾホスファチジルコリン(LPC)またはその任意の組合せから選択されるリン脂質を含み、またはそれらから構成され得る。
【0036】
[0052]示したように脂質二重層214には、例えば、単一のPNTMCによって形成された単一のナノポア216が埋め込まれる。上述のように、ナノポア216は、単一のPNTMCを脂質二重層214内に電気穿孔法によって挿入することによって、形成され得る。ナノポア216は、対象の分析物および/または小さなイオン(例えば、Na+、K+、Ca2+、Cl-)の少なくとも一部分を脂質二重層214の両側間を通過させるのに十分に大きくてもよい。
【0037】
[0053]試料室215は、脂質二重層214を覆っており、特徴づける対象の分析物の溶液を保持し得る。溶液は、バルク電解質208を含み、最適なイオン濃度への緩衝性を有し、ナノポア216を開口状態に維持するために最適なpHに維持された水性溶液であり得る。ナノポア216は、脂質二重層214を横切り、バルク電解質208から作用電極202へのイオン流のための唯一の経路を提供する。ナノポア(例えば、PNTMC)および対象の分析物に加えて、バルク電解質208は、塩化リチウム(LiCl)、塩化ナトリウム(NaCl)、塩化カリウム(KCl)、グルタミン酸リチウム、グルタミン酸ナトリウム、グルタミン酸カリウム、酢酸リチウム、酢酸ナトリウム、酢酸カリウム、塩化カルシウム(CaCl2)、塩化ストロンチウム(SrCl2)、塩化マンガン(MnCl2)、および塩化マグネシウム(MgCl2)、のうちの1つまたは複数をさらに含み得る。
【0038】
[0054]対電極(CE)210は、電気化学的電位センサであり得る。いくつかの実施形態では、対電極210は、複数ナノポアセル間で共有され、それゆえ、共通電極とも称され得る。いくつかの場合では、共通の電位および共通電極は、すべてのナノポアセルに対して、または少なくとも個々のグループ内のすべてのナノポアセルに対して共通であり得る。共通電極は、共通の電位を、ナノポア216と接触するバルク電解質208に印加するように構成可能である。対電極210および作用電極202は、脂質二重層214にわたる電気的刺激(例えば、電圧バイアス)を供給するための信号源228に結合され、脂質二重層214の電気的特性(例えば、抵抗、電気容量、およびイオン電流)を検知のために用いられ得る。いくつかの実施形態では、ナノポアセル200は、参照電極212も含み得る。
【0039】
[0055]いくつかの実施形態では、多様なチェックが、較正の一部としてナノポアセルの作成中に実施され得る。ナノポアセルが作成された後、さらなる較正ステップが、例えば、所望されるように(例えば、セル中に1ナノポア)実行しているナノポアセルを識別するために、実行されてもよい。そのような較正チェックは、物理的チェック、電圧較正、開放流路較正、および単一のナノポアを有するセルの識別を含み得る。
【0040】
B.ナノポア配列決定セルの信号検出
[0056]ナノポアセンサチップ100内のナノポアセル150などのナノポアセンサチップ内のナノポアセルは、合成による単分子ナノポアベースの配列決定(ナノ-SBS)技術を用いる並行配列決定を可能にし得る。
【0041】
[0057]
図3は、ナノ-SBS技術を用いてヌクレオチド配列決定を実行するナノポアセル300の一実施形態を示す。ナノ-SBS技術では、配列決定されることになる鋳型332(例えば、ヌクレオチド酸分子または別の対象の分析物)およびプライマは、ナノポアセル300の試料室内のバルク電解質308内に導入され得る。例として、鋳型332は、円形状または直線状であり得る。核酸プライマは、4つの別の仕方で重合体がタグ付けされたヌクレオチド338が付加され得る、鋳型332の一部にハイブリッド形成され得る。
【0042】
[0058]いくつかの実施形態では、酵素(例えば、DNAポリメラーゼなどのポリメラーゼ334)が、鋳型332への相補鎖を合成するのに用いるナノポア316に関連付けられ得る。例えば、ポリメラーゼ334は、ナノポア316に共有結合していてもよい。ポリメラーゼ334は、ヌクレオチド338のプライマ上への、一本鎖核酸分子を鋳型として用いる取り込みを触媒する。ヌクレオチド338は、4つの異なるタイプA、T、GまたはCのうちの1つであるヌクレオチドを伴うタグ種(「タグ」)を含み得る。タグ付けされたヌクレオチドが、ポリメラーゼ334と正しく複合体を形成するとき、タグは、電気的な力、例えば、脂質二重層314および/またはナノポア316にわたって印加される電圧により生成される電界の存在下で生成される力によってナノポア内に引き込まれ(装填され)得る。タグの尾部は、まず、出入口313を介してナノポア316に入り、次いで、ナノポア316の筒317内へ引き込まれ得る。次いで、タグは、ナノポア316の筒317内に保たれ、タグの別個の化学的な構造および/またはサイズにより、固有のイオン遮断信号340を生成し得、それにより、タグが取り付けられた付加された塩基を、電子的に同定する。
【0043】
[0059]本明細書で用いられるとき、「装填された」または「充填された」タグは、認識可能な長さの時間、例えば、0.1ミリ秒(ms)から10000msの間、ナノポア内に位置決めされる、および/または、ナノポア内または近くに留まるタグでもよい。いくつかの場合では、タグは、ヌクレオチドから放出される前に、ナノポア内に装填される。いくつかの例では、装填されたタグが、ヌクレオチド組み込み事象の際に放出された後にナノポアを通過する(および/またはナノポアにより検出される)確率が適度に高く、例えば90%から99%である。
【0044】
[0060]いくつかの実施形態では、ポリメラーゼ334がナノポア316に連結される前に、ナノポア316のコンダクタンスは、例えば約300ピコジーメンス(300pS)のように高いことがあり得る。タグがナノポア内に装填されるとき、固有のコンダクタンス信号(例えば、信号340)は、タグの別個の化学構造および/またはサイズにより生成される。例えば、ナノポアのコンダクタンスは、約60pS、80pS、100pSまたは120pSであり、それぞれは、タグ付けされたヌクレオチドの4つのタイプのうちの1つに対応する。ポリメラーゼは、次に異性化およびリン酸基転移反応を経て、ヌクレオチドを成長している核酸分子内に組み込み、タグ分子を放出する。
【0045】
[0061]いくつかの場合では、タグ付けされたヌクレオチドのいくつかは、核酸分子(鋳型)の目下の位置(相補的塩基)と一致し得ない。核酸分子と塩基対合されていないタグ付けされたヌクレオチドも、ナノポアを通過し得る。これらの対合されていないヌクレオチドは、典型的には、正しく対合されたヌクレオチドがポリメラーゼと結合したままである時間スケールより短い時間スケール内で、ポリメラーゼによって拒絶される。対合されていないヌクレオチドに結合されたタグは、ナノポアを迅速に通過し、短期間(例えば、10ms未満)の間検出され得て、一方、対合したヌクレオチドに結合されたタグは、ナノポア内に装填され、長期間(例えば、少なくとも10ms)の間検出され得る。それゆえ、対合されていないヌクレオチドは、ヌクレオチドがナノポア内で検出される時間に少なくとも部分的に基づいて、下流のプロセッサによって識別され得る。
【0046】
[0062]装填された(充填された)タグを含むナノポアのコンダクタンス(または等価的に抵抗)が、ナノポアを通過する電流を介して測定され得て、タグ種の識別、それによる目下の位置にあるヌクレオチドを提供する。いくつかの実施形態では、直流(DC)信号が、ナノポアセルに印加され得る(例えば、タグがナノポアを通って移動する方向が反転しないように)。しかし、直流を用いた長期間のナノポアセンサの運転は、電極の組成を変化させ得て、ナノポア全体のイオン濃度を不平衡にさせ、ナノポアセルの寿命に影響し得る他の望ましくない効果を有し得る。交流(AC)波形を印加することは、電界移動を低減し、これらの望ましくない効果を回避し、下記のある一定の利点を有し得る。タグ付けされたヌクレオチドを利用する本明細書で説明される核酸配列決定方法は、印加されるAC電圧に完全に共存可能であり、それゆえAC波形が、これらの利点を達成するために用いられ得る。
【0047】
[0063]AC検出サイクルの間に電極を再充電する能力は、犠牲電極、電流通過反応で分子特性を変化させる電極(例えば、銀を含む電極)、または電流通過反応で分子特性を変化させる電極が使用されるとき、有益であり得る。電極は、直流信号が使用されるとき、検出サイクル中に消耗し得る。再充電は、電極が小さいとき(例えば、平方ミリメートル当たり少なくとも500の電極を有する電極アレイに供給するために十分に小さいとき)問題になり得る、電極が完全に枯渇するなどの消耗限界に到達することを防止し得る。電極寿命は、場合によっては、電極幅と共に進み、少なくとも部分的に、それに依存する。
【0048】
[0064]ナノポアを通過するイオン電流を測定する好適な状態は、当技術分野で知られており、例が本明細書で提供される。測定は、膜および細孔にわたって印加される電圧により実行され得る。いくつかの実施形態では、電圧は、-400mV~+400mVの範囲にあり得る。用いられる電圧は、-400mV、-300mV、-200mV、-150mV、-100mV、-50mV、-20mV、および0mVから選択される下限と、+10mV、+20mV、+50mV、+100mV、+150mV、+200mV、+300mV、および+400mVから別々に選択される上限とを有する範囲にあることが好ましい。用いられる電圧は、100mV~240mVの範囲にあることがさらに好ましく、160mV~240mVの範囲にあることが最も好ましい。増大された印加電位を用いたナノポアによって異なるヌクレオチド間の識別能力を増大させることが可能である。AC波形およびタグ付けされたヌクレオチドを用いた核酸の配列決定は、その全体が引用することにより本明細書に組み込まれる、2013年11月6日に提出された「Nucleic Acid Sequencing Using Tags(タグを用いた核酸配列決定)」という名称の米国特許公開第US2014/0134616で説明されている。米国2014/0134616で説明されたタグ付けされたヌクレオチドに加えて、配列決定は、例えば、5つの一般的な核酸塩基、アデニン、シトシン、グアニン、ウラシル、およびチミンの(S)-グリセロール・ヌクレオシド・三リン酸塩(gNTPs)などの糖または非環式の部分を欠く、ヌクレオチド類似物を用いて実行され得る(Horhotaら、Organic Letters、8:5345-5347[2006])。
【0049】
C.ナノポア配列決定セルの電気回路
[0065]
図4は、ナノポアセル200などのナノポアセル内の電気回路400(
図2の電気回路222の一部分を含み得る)の一実施形態を示す。上述のように、いくつかの実施形態では、電気回路400は、ナノポアセンサチップ内の複数のナノポアセルまたはすべてのナノポアセル間で共有され得、それゆえ、共通電極とも称され得る対電極210を含む。共通電極は、交流電圧源420(V
LIQ)に接続することによって、共通の電位を、ナノポアセル内の脂質二重層(例えば、脂質二重層214)と接触するバルク電解質(例えば、バルク電解質208)に印加するように構成されることが可能である。いくつかの実施形態では、AC非ファラデー性モードが、電圧V
LIQをAC信号(例えば、方形波)で変調するために利用され、それをナノポアセル内で脂質二重層に接触するバルク電解質に印加し得る。いくつかの実施形態では、V
LIQは、±200~250mVの大きさおよび例えば25~400Hzの周波数を有する方形波である。対電極210と脂質二重層(例えば、脂質二重層214)との間のバルク電解質は、例えば100μF以上などの大きなコンデンサ(図示せず)によってモデル化され得る。
【0050】
[0066]
図4は、作用電極(例えば、作用電極202)および脂質二重層(例えば、脂質二重層214)の電気特性を表す電気モデル422も示す。電気モデル422は、脂質二重層に関連付けられたキャパシタンスをモデル化するコンデンサ426(C
Bilayer)と、ナノポア内の個々のタグの存在に基づいて変化し得る、ナノポアに関連付けられた可変抵抗をモデル化する抵抗器428(R
PORE)とを含む。電気モデル422は、2重層キャパシタンス(C
Double Layer)を有し、作用電極202およびウェル205の電気特性を表すコンデンサ424も含む。作用電極202は、他のナノポアセル内の作用電極から独立した別個の電位を印加するように構成され得る。
【0051】
[0067]パスデバイス406は、脂質二重層および作用電極を電気回路400から接続または切断するために使用され得るスイッチである。パスデバイス406は、電圧刺激がナノポアセル内の脂質二重層にわたって印加されることを有効化または無効化するために、制御線407によって制御され得る。脂質が、脂質二重層を形成するために堆積される前では、2つの電極間のインピーダンスは、セルのウェルが封止されていないため、非常に低く、それゆえパスデバイス406は、短絡状態を回避するために開路に維持され得る。パスデバイス406は、脂質溶媒がナノポアセルに堆積されてナノポアセルのウェルを封止した後、閉じられ得る。
【0052】
[0068]電気回路400は、オンチップ積分コンデンサ408(ncap)をさらに含み得る。積分コンデンサ408は、リセット信号403を使用してスイッチ401を閉じ、その結果、積分コンデンサ408が電圧源VPRE405に接続されることによって、事前充電され得る。いくつかの実施形態では、電圧源VPRE405は、例えば、900mVの大きさの固定の参照電圧を提供する。スイッチ401が閉じられているとき、積分コンデンサ408は、電圧源VPRE405の参照電圧レベルまで事前充電され得る。
【0053】
[0069]積分コンデンサ408が事前充電された後、リセット信号403が使用されスイッチ401が開路され、その結果、積分コンデンサ408は、電圧源VPRE405から切断される。この時点では、電圧源VLIQのレベルにより、対電極210の電位は、作用電極202(および積分コンデンサ408)の電位より高いレベルにあるか、その反対でもあり得る。例えば、電圧源VLIQからの方形波の正位相の間(例えば、AC電圧源信号サイクルの明または暗期間)、対電極210の電位は、作用電極202の電位より高いレベルにある。電圧源VLIQからの方形波の負位相の間(例えば、AC電圧源信号サイクルの暗または明期間)、対電極210の電位は、作用電極202の電位より低いレベルにある。したがって、いくつかの実施形態では、積分コンデンサ408は、対電極210と作用電極202との間の電位差により、明期間の間に電圧源VPRE405の事前充電された電圧レベルからさらに高いレベルまで充電され、暗期間中により低いレベルに放電され得る。他の実施形態では、充電および放電は、それぞれ暗期間および明期間に発生し得る。
【0054】
[0070]積分コンデンサ408は、1kHz、5kHz、10kHz、100kHz、またはそれを超え得る、アナログデジタル変換器(ADC)410のサンプリング速度による固定された期間に、充電または放電され得る。例えば、1kHzのサンプリング速度で、積分コンデンサ408は、約1msの期間中、充電/放電し、次に、電圧レベルがサンプリングされ、積分期間の終わりにADC410によって変換され得る。個々の電圧レベルは、ナノポア内の個々のタグ種に対応し、それゆえ、鋳型上の目下の位置でのヌクレオチドに対応し得る。
【0055】
[0071]ADC410によるサンプリングされた後、積分コンデンサ408は、リセット信号403を使用しスイッチ401を閉じ、その結果、積分コンデンサ408が電圧源VPRE405に再接続されることによって、再び事前充電され得る。積分コンデンサ408を事前充電するステップと、積分コンデンサ408が充電または放電する一定の期間待機するステップと、積分コンデンサの電圧レベルをADC410によってサンプリングおよび変換するステップとが、配列決定プロセスの間中サイクルで繰り返され得る。
【0056】
[0072]デジタルプロセッサ430は、例えば、正規化、データバッファリング、データフィルタリング、データ圧縮、データ削減、イベント抽出、またはナノポアセルアレイからのADC出力データを多様なデータフレームへのアセンブリングなどのために、ADC出力データを処理し得る。いくつかの実施形態では、デジタルプロセッサ430は、塩基判定などのさらに下流の処理を実行し得る。デジタルプロセッサ430は、ハードウェア(例えば、GPU、FPGA、ASICなどの内部の)またはハードウェアとソフトウェアとの組合せとして実装され得る。
【0057】
[0073]したがって、ナノポアにわたって印加される電圧信号は、ナノポアの個々の状態を検出するために用いられ得る。ナノポアの可能な状態の1つは、タグが取り付けられたポリホスフェートがナノポアの筒に存在しない場合、開放チャネル状態であり、本明細書では、ナノポアの未充填状態とも称される。ナノポアの別の4つの可能な状態は、タグが取り付けられたポリホスフェートヌクレオチドの4つの異なるタイプ(A、T、GまたはC)のうちの1つがナノポアの筒内に保持されるときの状態に各々対応する。ナノポアのさらに別の可能な状態は、脂質二重層が断裂するときである。
【0058】
[0074]積分コンデンサ408での電圧レベルが、固定された期間後に測定されるとき、ナノポアの異なる状態は、異なる電圧レベルの測定値をもたらし得る。これは、積分コンデンサ408(すなわち、時間に対する積分コンデンサ408の電圧のグラフの傾きの程度)での電圧減衰率(放電による減少または充電による増大)が、ナノポアの抵抗(例えば、抵抗器RPORE428の抵抗)に依存するからである。より詳しくは、異なる状態のナノポアに関連付けられた抵抗が、分子(タグ)の別個の化学構造に起因して異なるので、異なる対応する電圧減衰率は、観察され得るようになり、ナノポアの異なる状態を識別するために用いられ得る。電圧減衰曲線は、RC時定数τ=RCを有する指数関数曲線であり得て、ここで、Rは、ナノポアに関連付けられた抵抗(すなわち、RPORE428)であり、Cは、Rに並列の膜に関連付けられたキャパシタンス(すなわち、コンデンサ426(CBilayer))である。ナノポアセルの時定数は、例えば、約200~500msであり得る。減衰曲線は、二重層の詳細な実施により、指数関数曲線に正確に一致し得ないが、減衰曲線は、指数関数曲線に類似し、単調であり得て、それゆえ、タグの検出を可能にする。
【0059】
[0075]いくつかの実施形態では、開放チャネル状態にあるナノポアに関連付けられた抵抗は、100Mohm~20Gohmまでの範囲内にあり得る。いくつかの実施形態では、タグが、ナノポアの筒内部に存在する状態にあるナノポアに関連付けられた抵抗は、200MOhm~40GOhmまでの範囲内にあり得る。他の実施形態では、積分コンデンサ408は、ADC410へ導く電圧が、電気モデル422内の電圧減衰によりやはり変化することになるため、省略され得る。
【0060】
[0076]積分コンデンサ408での電圧の減衰率は、異なる方法で決定され得る。上で説明したように、電圧減衰率は、一定の時間間隔の間の電圧減衰を測定することによって決定され得る。例えば、積分コンデンサ408での電圧は、最初に時間t1でADC410により測定され、次に、電圧は、時間t2でADC410により再び測定される。時間曲線に対する積分コンデンサ408での電圧の傾きがより急であるとき、電圧差はより大きく、電圧曲線の傾きがより緩やかなとき、電圧差はより小さい。このように、電圧差は、積分コンデンサ408での電圧の減衰率を、ゆえに、ナノポアセルの状態を決定するための測定基準として用いられ得る。
【0061】
[0077]他の実施形態では、電圧減衰率は、選択された電圧減衰量のために必要な持続時間を測定することによって決定され得る。例えば、電圧が第1の電圧レベルV1から第2の電圧レベルV2に降下または増大するのに必要な時間が測定され得る。時間に対する電圧曲線の傾きがより急であるとき、必要な時間はより少なく、時間に対する電圧曲線の傾きがより緩やかなとき、必要な時間はより大きい。このように、必要な測定時間は、積分コンデンサncap408での電圧の減衰率を、ゆえに、ナノポアセルの状態を決定するための測定基準として用いられ得る。当業者には、例えば、電流測定技術を含む、ナノポアの抵抗を測定するために必要とされ得る多様な回路を理解されよう。
【0062】
[0078]いくつかの実施形態では、電気回路400は、オンチップに、パスデバイス(例えば、パスデバイス406)および追加のコンデンサ(例えば、積分コンデンサ408(ncap))を含まないことがあり、それによりナノポアベースの配列決定チップのサイズの削減を支援する。膜(脂質二重層)の薄い性質のため、膜に関連付けられたキャパシタンス(例えば、コンデンサ426(CDilayer))のみで、追加のオンチップのキャパシタンスを必要とすることなく必要なRC時定数を生み出すのに十分とすることができる。それゆえ、コンデンサ426は、積分コンデンサとして使用され得て、電圧信号VPREによって事前充電され、続いて、電圧信号VLIQによって放電または充電され得る。そうでなければ電気回路内にオンチップで作製される追加のコンデンサおよびパスデバイスをなくすことにより、ナノポア配列決定チップ内の単一のナノポアセルのフットプリントを著しく減少させることができ、それにより、(例えば、ナノポア配列決定チップ内の数百万ものセルを有する)ますます多くのセルを含むためにナノポア配列決定チップを拡大することが容易になる。
【0063】
D.ナノポアセル内でのデータサンプリング
[0079]核酸の配列決定を実行するために、積分コンデンサ(例えば、積分コンデンサ408(ncap))またはコンデンサ426(CBilayer)の電圧レベルは、タグ付けされたヌクレオチドが核酸に加えられている間に、ADC(例えば、ADC410)によってサンプリングされ変換され得る。ヌクレオチドのタグは、例えば、VLIQがVPREより低いような印加電圧のとき、対電極および作用電極を介して印加される、ナノポアにわたる電界によって、ナノポアの筒内へと押し入れられ得る。
【0064】
1.充填
[0080]充填事象は、タグ付けされたヌクレオチドが、鋳型(例えば、核酸断片)に取り付けられ、タグがナノポアの筒の内外に進むときにあたる。これは、充填事象の間に複数回発生し得る。タグが、ナノポアの筒内にあるとき、ナノポアの抵抗は、より高く、より低い電流がナノポアを通り流れ得る。
【0065】
[0081]配列決定の間、タグは、いくつかのACサイクル状態でナノポア内に存在しないことがあり(開放チャネル状態と呼ぶ)、この場合電流は、ナノポアのより低い抵抗のために、最も高い。タグがナノポアの筒内へ引き込まれるとき、ナノポアは、明モードである。タグがナノポアの筒外へと押し出されるとき、ナノポアは、暗モードである。
【0066】
2.明および暗期間
[0082]ACサイクルの間、積分コンデンサでの電圧は、ADCによって複数回サンプリングされ得る。例えば、ある実施形態では、AC電圧信号が、システム全体に、例えば、約100Hzで印加され、ADCの取得速度は、セルあたり約2000Hzであり得る。このように、ACサイクル(AC波形のサイクル)毎に取得される約20のデータポイント(電圧測定値)が存在し得る。AC波形の1サイクルに対応するデータポイントは、1セットと呼ばれ得る。ACサイクル毎のデータポイントの1セット内には、例えば、明モード(期間)に対応し得る、VLIQがVPREより低いときキャプチャされるサブセットが存在し得て、このときタグは、ナノポアの筒内へと押し込まれる。別のサブセットは、暗モード(期間)に対応し得て、このときタグは、例えば、VLIQがVPREより高いとき、印加される電界によってナノポアの筒外へと押し出される。
【0067】
3.測定電圧
[0083]データポイント毎に、スイッチ401が開路のとき、積分コンデンサ(例えば、積分コンデンサ408(ncap)またはコンデンサ426(CBilayer))における電圧は、例えば、VLIQがVPREより高いとき、VPREからVLIQに増大し、VLIQがVPREより低いとき、VPREからVLIQに減少するように、VLIQによる充電/放電の結果として減衰する挙動で変化していく。最終的な電圧値は、VLIQから作用電極の電荷だけずれる。積分コンデンサでの電圧レベルの変化率は、ナノポアを含み、結果としてナノポア内の分子(例えば、タグ付けされたヌクレオチドのタグ)を含み得る、二重層の抵抗の値によって支配され得る。電圧レベルは、スイッチ401が開路した後の所定時間に測定され得る。
【0068】
[0084]スイッチ401は、データ収集速度で動作し得る。スイッチ401は、通常、ADCによる測定の直後の2回のデータ取得間の比較的短時間、閉路され得る。スイッチは、複数データポイントがVLIQの各ACサイクルの各サブ期間(明または暗)の間収集されることを可能にする。スイッチ401が開路のままのとき、積分コンデンサでの電圧レベルおよび、それゆえ、ADCの出力値は、完全に減衰し、そこに留まり得る。代わりに、スイッチ401が閉じられているとき、積分コンデンサは、再び(VPREまで)再充電され、別の測定のための準備が整う。こうして、スイッチ401は、複数データポイントが各ACサイクルの各サブ期間(明または暗)にわたって収集されることを可能にする。そのような複数の測定は、固定されたADC(例えば、平均化され得る、より多数の測定による8ビットから14ビット)を用いたより高い分解能を可能にさせ得る。複数の測定は、ナノポア内に充填される分子に関する動態情報をさらに提供し得る。時間の情報により、どれだけの長さで充填が発生するかの決定を可能にさせ得る。これは、核酸鎖に加えられる複数のヌクレオチドが配列決定されつつあるか否かを判定することを支援することにも用いられ得る。
【0069】
[0085]
図5は、ACサイクルの明期間および暗期間中のナノポアセルから取得されたデータポイントの例を示す。
図5では、データポイントでの変化は、図解目的用に強調されている。作用電極または積分コンデンサに印加される電圧(V
PRE)は、例えば、900mVなどの一定のレベルにある。ナノポアセルの対電極に印加される電圧信号510(V
LIQ)は、方形波として示されるAC信号であり、このときデューティサイクルは、50%以下、例えば約40%のような任意の好適な値であり得る。
【0070】
[0086]明期間520の間、対電極に印加される電圧信号510(VLIQ)は、作用電極に印加される電圧VPREより低く、その結果、タグは、作用電極および対電極に印加される、異なる電圧レベルに起因する電界によって、ナノポアの筒内に押し込まれ得る(例えば、タグ上の電荷および/またはイオンの流れにより)。スイッチ401が開路のとき、ADCの前のノードでの(例えば、積分コンデンサでの)電圧は、減少していく。電圧データポイントが取得された後(例えば、指定された期間の後)、スイッチ401は、閉路され得て、測定ノードでの電圧は、VPREへと再び戻るように増大していく。プロセスは、複数の電圧データポイントを測定するために繰り返され得る。このようにして、複数のデータポイントは、明期間の間に取得され得る。
【0071】
[0087]
図5に示すように、V
LIQ信号の符号の変化の後の明期間内の第1のデータポイント522(第1のポイントデルタ(FPD)とも呼ばれる)は、後続のデータポイント524よりも低いことがあり得る。これは、ナノポア内にタグが存在しないからであり(開流路)、それゆえ、それは低抵抗および高放電率を有するためであり得る。いくつかの例では、第1のデータポイント522は、
図5に示すようなV
LIQレベルを超え得る。これは、信号をオンチップコンデンサに結合する二重層のキャパシタンスに起因し得る。データポイント524は、充填事象が発生した、すなわち、タグがナノポアの筒内に押し込まれた後取得され得て、この場合ナノポアの抵抗、およびそれゆえの積分コンデンサの放電速度は、ナノポアの筒内に押し込まれるタグの個々のタイプに依存する。データポイント524は、以下で説明するように、C
Double Layer424で生成される電荷により、測定毎にわずかに減少し得る。
【0072】
[0088]暗期間530の間、対電極に印加される電圧信号510(VLIQ)は、作用電極に印加される電圧VPREより高く、その結果、いずれのタグも、ナノポアの筒外に押し出され得る。スイッチ401が開路のとき、測定ノードでの電圧は、電圧信号510(VLIQ)の電圧レベルがVPREより高いので、増大する。電圧データポイントが取得された後(例えば、指定された期間の後)、スイッチ401は、閉路され得て、測定ノードでの電圧は、VPREへと再び戻るように減少していく。プロセスは、複数の電圧データポイントを測定するために繰り返され得る。このように、複数のデータポイントは、第1のポイントデルタ532および後続のデータポイント534を含む暗期間の間に取得され得る。上述のように、暗期間の間に、いずれのヌクレオチドタグもナノポアの外に押し出され、それゆえ、任意のヌクレオチドタグに関する最小限度の情報が取得され、さらに正規化に用いられる。
【0073】
[0089]
図5は、明期間540の間、対電極に印加される電圧信号510(V
LIQ)は、作用電極に印加される電圧V
PREより低いにもかかわらず、充填事象が発生しない(開経路)ことも示す。したがって、ナノポアの抵抗は低く、積分コンデンサの放電速度は高い。結果的に、第1のデータポイント542および後続のデータポイント544を含む、取得されたデータポイントは、低電圧レベルを示す。
【0074】
[0090]明または暗期間の間に測定される電圧は、ナノポアの一定の抵抗(例えば、1つのタグがナノポア内にある間に所与のACサイクルの明モードの間に形成される)の測定毎にほぼ同一であると期待され得るが、このことは、電荷が2重層コンデンサ424(C
Double Layer)で生成する場合であり得ない。この電荷生成は、ナノポアセルの時定数をより長くさせる結果をもたらし得る。結果的に、電圧レベルは移動し、それにより測定値がサイクル内のデータポイント毎に減少するという結果をもたらし得る。このように、サイクル内で、データポイントは、
図5に示すように、ある程度データポイントから別のデータポイントへ変化し得る。
【0075】
4.塩基決定
[0091]ナノポアセンサチップの有効なナノポアセル毎に、生成モードが、核酸を配列決定するために実行され得る。配列決定中に取得されるADC出力データは、より高い精度を提供するために、正規化され得る。正規化は、サイクル形状およびベースラインシフトなどの偏位効果を引き起こし得る。正規化の後、実施形態は、充填された経路の電圧のクラスタを決定し得て、ここで各クラスタは、異なるタグ種、およびそれゆえの異なるヌクレオチドに対応する。クラスタは、所与のヌクレオチドに対応する所与の電圧の確率を算出するために使用され得る。別の例として、クラスタは、異なるヌクレオチド(塩基)間での差別化のための分離電圧を決定するために用いられ得る。
【0076】
[0092]配列決定処理に関するさらなる詳細は、例えば、「Nanopore-Based Sequencing With Varying Voltage Stimulus(電圧刺激を変化させるナノポアベースの配列決定)」という名称の米国特許公開第2016/0178577、「Nanopore-Based Sequencing With Varying Voltage Stimulus(電圧刺激を変化させるナノポアベースの配列決定)」という名称の米国特許公開第2016/0178554、「Non-Destructive Bilayer Monitoring Using Measurement Of Bilayer Response To Electrical Stimulus(電気的刺激に応答した二重層の測定を用いた非破壊二重層モニタリング)」という名称の米国特許出願第15/085,700、および「Electrical Enhancement Of Bilayer Formation(二重層形成の電気的促進)」という名称の米国特許出願第15/085,713の中で見つけることができ、これらの開示はあらゆる目的のためにそれらの全体が参照により本明細書に組み込まれる。
【0077】
5.電圧値の周期性
[0093]
図6は、いくつかの実施形態に従って実行するテスト配列決定のためのサンプル明および暗期間データを示す。明期間データは、図の上部分601に示され、暗期間データは、図の下部分603に示される。電圧データの周期性は、
図4に関して上に説明されるように、交流(AC)電圧源、例えば、AC電圧源420によって提供される交流信号によって引き起こされる。
図6に示される各データポイントは、パスデバイス406の開放に対するある特定の時間期間後、ナノポアセル回路のノードにおける、例えば、
図4内のn
capにおける、電圧のADC測定によって得られる。各測定について、n
capにおける電圧は、V
PREで開始し(V
PREは、破線612として示される)、次いで減衰して、ACサイクル内の期間(明または暗)に応じて+/-V
LIQに近づく。ある特定の時間減衰後、ADCは電圧値を測定する。
図6は、これらの測定された電圧値の集合を示し、すなわち、各データポイントは、V
PREからV
LIQまでのRC減衰曲線の単一ポイントサンプルである。
図6に示される例では、データ取得速度は、約1,976Hzである。各期間内で、ポイントごとの電圧の変動は、セル内の電荷生成によって、部分的に引き起こされ、積分コンデンサ(例えば、使用される回路に応じてコンデンサ408またはコンデンサ426)の充電/放電についての根本の電圧減衰曲線に全体的なシフトをもたらす。
【0078】
[0094]
図6は、明モードの開放チャネル状態からのデータ、例えば、7番目のACサイクルの明期間の開始直後に現れる充填事象610に先行する明モードデータ620を示す。その後の開放チャネル値および他のACサイクル内の充填事象も時間の経過と共に示される。いくつかの実施形態では、ここで示されるように、明期間内の測定されたADC値は、実際には、充填状態および開放チャネル状態の両方についてサイクルごとにかなり繰り返し可能である。これは、1つの明期間のデータ内のシステマティックオフセットおよびノイズが、暗チャネルデータを使用する必要なしに、隣接する(あるいは、その後の非隣接の)明期間のデータを使用して補償され得るという可能性を開く。以下の章は、電圧データの周期性を利用する1つまたは複数の実施形態を詳述する。
【0079】
III.期間ごとの差分信号を使用したノイズの識別および特徴付け
[0095]理想化されたシナリオでは、配列決定セルのナノポア-DNA-タグシステムは、開放チャネル状態またはC、G、A、およびTに対応するタグの4つの充填状態のうちの1つという5つの状態のうちの1つであり得る。
図3に関して上に論じられるように、充填事象の間、タグの尾部は、まず、出入口313を介してナノポア316に入ることができ、次いで、尾部は、ナノポア316の筒317内へ引き込まれ得る。タグがナノポア316の筒317内に保たれると、固有のイオン遮断信号が生成され、それにより、タグが取り付けられた付加された塩基を、電子的に同定する。
【0080】
[0096]しかしながら、実践では、ナノポア-DNA-タグシステムの動態は、上に説明される理想の充填動態よりも複雑な場合があり、これらの非理想性が、追加のノイズがイオン遮断信号に追加されることをもたらし得る。例えば、タグは、筒内に保たれることなくナノポアを非常に素早く通過し得る。タグは、筒に一時的に入るだけで、その後、出入口を介して再び出る場合がある。加えて、タグは、出入口内へ入り、そこでは、タグが筒内へ効果的に引き込まれることを可能にしない折り畳まれた構成を貫き得る。この場合、折り畳まれたタグは、出入口を介して再びナノポアを出るまでのある時間期間にわたって出入口に保たれ得る。ナノポア-DNA-タグの多くの潜在的な中間状態が可能であり、各々が、配列決定信号上のノイズに寄与し得る。いくつかの場合では、これらのいわゆる「中間状態」は、予測される充填チャネル値に等しいか、またはほぼ等しい信号値を保有することさえあり得、したがって、下流の配列決定エラーをもたらす充填塩基として、意図せず識別され得る。関連したシステムの他の潜在的な中間状態は、Magliaら、Enhanced Translocation of Single DNA Molecules Through α-Hemolysin Nanopores by Manipulation of Internal Charge,Proc Natl Acad Sci U.S.A.2008 Dec16;105(50):19720-19725に説明される。これらの状態は、本明細書では中間状態と称されるが、任意の未充填状態または未開放チャネル状態が、配列決定信号上のノイズに寄与し得、そのようなものとして、本開示の実施形態は、本明細書に説明される特定の物理的源を有するノイズ源に限定されないということを理解されたい。
【0081】
[0097]いくつかの場合では、物理的動態中間状態のタイムスケールは、真実の充填事象と関連付けられたタイムスケールとは異なり得る。加えて、また何らかの関連で、中間状態の間の経時的な配列決定信号の振幅における分散は、開放チャネル状態および/または4つの充填チャネル状態の両方の間の経時的な分散とは異なり得る。有利には、本明細書に開示される信号処理技術は、真の信号(開放チャネルおよび/または充填信号)とノイズ信号(上に説明される中間状態を含む、他の状態によって引き起こされる)との間の、例えば、タイムスケールおよび分散における差分を利用することができ、これらの技術は、配列決定信号をノイズ除去するために使用され得る。より具体的には、特定の実施形態によると、期間ごとの差分技術は、ノイズを含む配列決定信号の部分を識別するために使用され得、その結果として、これらのポイントは、開放チャネル状態または充填状態のいずれかであるより高い割合のポイントを含むノイズ除去された信号を残して除去され得る。
【0082】
A.期間ごとの差分方法の概論
[0098]特定の実施形態によると、ノイズ信号は、本明細書では期間ごとの差分と称される技術を使用して識別および分析され得る。期間ごとの差分の1つの形態は、同時係属の米国特許出願第15/628,353号内で説明され、この開示は、あらゆる目的のためにその全体が引用により本明細書に組み込まれる。特定の実施形態によると、本明細書では「差分データ」とも称される期間ごとの差分信号を決定するために、データの1つのサイクルが、データの別のサイクルから減じられ得る。例えば、近接するサイクルから発生する対応するデータポイントは、以下にさらに詳細に説明されるような差分データを獲得するために、互いから(例えば、最近接、第二近接など)減じられ得る。
【0083】
[0099]
図7は、複数サイクル1~4のデータポイントのセットを示し、各サイクルが、
図7の各プロットの上に位置するBラベルおよびDラベルによって示される、それぞれの明期間および暗期間を有する。2つのシフトされたデータセットは、生の配列決定データから生成され得、各々がメモリに格納され得る。信号710は、半分の期間だけ左にシフトされる生データ(本明細書ではleft_adcと称される)であり、データ720は、半分の期間だけ右にシフトされる生データ(本明細書ではright_adcと称される)である。この実施形態は、正味1期間シフトの例を示すが、本開示の範囲から逸脱することなく、他のシフト、例えば、2期間シフト、3期間シフトなどが可能である。さらに、生データは、半期において2回シフトすることと対照的に、1つの完全な期間シフトされるシフトされたデータと一緒に、使用され得る。次いで、処理された差分データ730(本明細書ではp2p_diffと称される)が、2つのシフトされたadc信号を減じることによって作成され得、この場合、以下の通りである。
p2p_diff=left_adc-right_adc (1)
【0084】
[0100]いくつかの実施形態では、処理された差分データ730(p2p_diff)の第1のサイクルは、生のサイクル1から生のサイクル2を減じることによって得られる。処理された差分データ730(p2p_diff)の第2のサイクルは、生のサイクル2から生のサイクル3を減じることによって得られる。処理された差分データ730(p2p_diff)の第3のサイクルは、生のサイクル4から生のサイクル3を減じることによって得られる、というように続く。処理された差分データ730において、生データからの単一の充填事象770は複製され、まず正のピーク(事象ピーク750)として現れ、続いて負のピーク(事象ピーク760)として再び現れる。
【0085】
[0101]当業者は、事象ピーク750および760が、通常、反対符号であり、したがって、正および負の修飾子が、単に一例として本明細書では使用される、ということを理解するものとする。この単一の充填事象についての正および負のピークは、2つのシフトされたデータセット間の正味の時間シフトに等しい量(この例では1つの完全な期間)だけ時間的な隔たりがある。しかしながら、正味の時間シフトは、複数サイクルにわたって持続する充填事象ではより長い場合がある。
【0086】
[0102]
図7は、処理された差分データ730を計算するためのポイント別の期間ごとの差分方法を示すが、任意の差分スキームが、本開示の範囲から逸脱することなく使用され得、例えば、シフトは、単一または複数の期間だけいずれかの方向(右から左または左から右)におけるものであってもよい。
図7は、単一期間だけ左から右へ(正味)シフトすることによる最近接差分を示す。しかしながら、差分は、根本の信号に関するより粗いスケール情報を提供し得る期間の倍だけシフトすることによって取られ得る。
【0087】
[0103]第1のサイクルおよび/または最後のサイクルについての差分は、シフトされたサイクルのうちの1つについて第1のサイクルデータまたは最後のサイクルデータが存在しない場合があることから、決定されない場合がある。したがって、これらの領域は、本明細書では「無効領域」と称される。第1の無効領域740の例が
図7に示される。
【0088】
[0104]
図8は、上の
図7に説明される同じシフト方法を使用するが、今回はわずかに異なる性質の生データを有する、差分技術の実施形態を例証する。ここに示されるように、いくつかの実施形態では、充填事象は、2つ以上のACサイクルにわたって続き得る。例えば、
図8のデータでは、充填事象は、充填事象810、820、および830によって示される3つのサイクルにわたって続き、各々は、それぞれサイクル2、3、および4の間に発生する。しかしながら、これらの充填事象の各々についての生データにおける反復性に起因して、第1の充填事象810および最後の充填事象830のみが、処理された差分データ内にそれぞれ正のピーク840および負のピーク850として現れ得る。
【0089】
B.期間ごとの差分を使用したノイズ信号の特徴付け
[0105]上に説明される期間ごとの差分技術が、ノイズ信号を配列決定信号から区別するためにどのように使用され得るかを例証するため、ノイズレス条件下の開放チャネル細孔の場合を検討する。そのような条件では、AC信号の後続期間からの明モード値は等しくなる(ゲインドリフトなしおよびオフセットドリフトなしと仮定して)。より数学的に述べると、時間tにおいて取得される開放チャネル信号はOC
t(i)によって得られ、後続期間(t=t+nT)中に取得されるノイズレス信号は、OC
t+nT(i)によって得られると見なし、式中、Tは、AC信号の期間であり、nは正数である)。このとき、期間ごとの差分信号は、以下のように書くことができる。
D
p-to-p(i)=OC
t+nT(i)-OC
t(i) (2)
開放チャネルレベルが期間ごとにドリフトしない理想のケースでは、すべてのiについて、OC
t+nT(i)=OC
t(i)であり、したがって
【数1】
である。言い換えると、この理想のケースでは、AC信号の異なる期間からの明モード信号間の期間ごとの差分は、常にゼロでなければならない。
【0090】
[0106]ここでランダムノイズが明モード信号に追加される場合、1番目の期間内の1つのポイントに追加されるノイズが、2番目の期間内の対応するポイントに追加されるノイズと同じであるという保証はない。数学的に述べると、時間tにおけるノイズの多い信号は、OCt(i)+δnt(i)によって得られ、任意の後続サイクルにおけるノイズの多い信号は、OCt+nT(i)+δnt+nT(i)によって得られ、式中、δnt(i)およびδnt+nT(i)は、時間tおよびn期間後の時間t+nTにおける信号上のノイズを表す。この場合、差分信号は、もはやゼロではなく、むしろ、ノイズ項間の差分によって得られる。
Dp-to-p(i)=δnt+nT(i)-δnt(i) (3)
ノイズの多い信号の場合における大きさDp-to-pの正確な値は、一般に、ノイズの動態のタイムスケール(AC信号の期間Tと比較して)、ノイズの振幅、およびノイズ源を説明する確率分布の形態に依存する。
【0091】
[0107]充填ケースは、充填事象が多くの場合、AC信号のいくつかのサイクルにわたって繰り返すことから、上に説明される開放チャネルのケースに類似する。したがって、ノイズフリーシステムでは、差分信号は、1つの正のピーク、それに続いていくつかのゼロのサイクル、および次いで負のピーク(または、2つの信号間のシフトに応じてその逆)を有することになる。しかしながら、ノイズの追加後、正のピークと負のピークとの間の介在領域内に非ゼロの期間ごとの差分信号が存在することになる。そのようなケースは、
図8において上に示されたものであり、ここでは充填事象が、AC信号の3サイクル(サイクル2~4)にわたって存続し、期間ごとの差分信号は、充填事象の開始の印となる正のピーク840、その後に続く、充填事象の終わりの印となる負のピーク850を示す。正のピーク840と負のピーク850との間の介在ポイントは、ゼロに集中しているが、充填事象の間の配列決定信号上のノイズに対応するゼロ周囲の変動を保有する。
【0092】
[0108]等式(3)の観点から、期間ごとの差分信号の振幅D
p-to-p(i)は、ノイズの振幅に依存し得、そのようなものとして、信号上のノイズの測定として使用され得る。高い振幅D
p-to-p(i)を保有する信号の部分は、ノイズである可能性が高いが、低い振幅D
p-to-p(i)を有する信号の部分は、真の信号(開放チャネルまたは充填事象)である可能性が高い。
図9~
図11は、上のポイントをさらに例証するためにテストデータのサンプルを示す。
【0093】
[0109]
図9A~
図9Bは、本明細書では偽充填バックグラウンドノイズ(PTBN)と称されるノイズ源の影響下にある、生のサンプル配列決定信号を示す。
図9Aのプロットは、充填事象が発生しなかった場合における、明モードデータ901および暗モードデータ902の両方を示す。したがって、明モードデータ901の全体は、開放チャネル信号値のみを含む。しかしながら、明モードデータ901の最後の500msにおいて、フレーム903内に示される明モードデータによって強調されるように、PTBNが発生し始める。システムは依然として開放チャネル状態にあるにもかかわらず、PTBNは、有効な充填事象を表すレベルに非常に近い、あるいはそれに等しい信号値を結果としてもたらす。したがって、PTBNが塩基分類の前に除去されない場合、配列決定エラーが生じ得る。
【0094】
[0110]
図9Bは、明モード信号データ901から計算される期間ごとの差分信号を示す。
図9Bは、期間ごとの差分信号内のポイントの大半の振幅が、PTBNが発生している時間期間の間(およそ3.1sから3.3sまでの時間期間の間)著しくより高いことを明白に示す。その一方で、正常な開放チャネル状態の間(およそ0sから3.1sまでの時間期間の間)、期間ごとの信号内のポイントの大半の振幅は、より低い。したがって、配列決定信号内の1つまたは複数のポイントは、閾値レベルを上回る振幅を有する期間ごとの差分信号内のポイントを識別することによって、高確率のPTBNノイズポイントとして識別され得る。これらのポイントが一旦識別されると、それらは、
図11~
図13に関して以下により詳細に説明されるように、ノイズ除去された信号を生み出すために元の信号から除去され得る。
【0095】
[0111]
図10A~
図10Bは、本明細書では高速取得ノイズ(FCN)と称されるノイズ源の影響下にある、生のサンプル配列決定信号を示す。いくつかの場合では、ある種のFCNは、細孔とのタグの高速動的衝突の結果として引き起こされ得る。例えば、FCNは、タグが、ナノポアの出入口に繰り返し入るが、その後タグが完全に充填される前に、出入口を介して再びナノポアから素早く出る場合に発生し得る。タグが退出後にナノポアに近いままである場合、同じプロセスが経時的に繰り返し発生し得、配列決定信号上のノイズをもたらす。
図10Aのプロットは、充填事象が発生しなかった場合における、明モードデータ1001および暗モードデータ1002の両方を示す。したがって、明モードデータ1001の全体は、開放チャネル信号値のみを含む。しかしながら、最初の125ms以外では、明モードデータ1001は、FCNの対象となる。PTBNの場合のように、システムは依然として開放チャネル状態にあるにもかかわらず、FCNは、有効な充填事象を表すレベルに非常に近い、あるいはそれに等しい信号値を結果としてもたらし得る。したがって、FCNが塩基分類の前に除去されない場合、配列決定エラーが生じ得る。
【0096】
[0112]
図10Bは、明モード信号データ1001から計算される期間ごとの差分信号を示す。
図10Bは、期間ごとの差分信号内のポイントの大半の振幅が、FCNが発生している時間期間の間(およそ0.125sから3.7sまでの時間期間の間)著しくより高いことを明白に示す。その一方で、正常な開放チャネル状態の間(およそ0sから0.125sまでの時間期間の間)、期間ごとの信号内のポイントの大半の振幅は、より低い。したがって、配列決定信号内の1つまたは複数のポイントは、閾値レベルを上回る振幅を有する期間ごとの差分信号内のポイントを識別することによって、高確率のFCNノイズポイントとして識別され得る。これらのポイントが一旦識別されると、それらは、
図11~
図13に関して以下により詳細に説明されるように、ノイズ除去された信号を生み出すために元の信号から除去され得る。
【0097】
IV.差分データを使用したノイズ除去
[0113]
図10~
図11に関して上に紹介されるように、いくつかの場合では、特定の種類のノイズは、ノイズによる影響を受けないクリーンな開放チャネル状態の差分信号よりも著しく大きい期間ごとの差分信号を呈し得る。したがって、1つまたは複数のノイズポイントは、何らかの閾値を上回る値を有する期間ごとの信号に寄与するポイントを識別することによって、差分信号から識別され得る。逆に、閾値を下回って発生するすべてのポイントは、真の信号(開放チャネルまたは充填チャネルデータ)として識別され得る。多くの異なる可能性が期間ごとの差分に基づいて信号をノイズ除去するために存在するが、2つの技術が、例証の目的のために以下に説明される。
【0098】
[0114]第1の技術は、「生の」期間ごとの差分信号に対して1つまたは複数の閾値を使用する。第2の技術は、まず期間ごとの差分信号をノイズ除去/平滑化し、次いで第1の方法と同一の様式で1つまたは複数の閾値を使用して、ノイズ除去された期間ごとの信号内のノイズポイントを識別する中間ステップを使用する。第2の方法では、期間ごとの差分信号をノイズ除去するための任意の方法が用いられ得るが、期間ごとの信号内の充填事象の特定の形態(鋭い負の方形ピークおよび正の方形ピークの対)に起因して、ハールマザーウェーブレットを使用してノイズ除去することが、以下により詳細に説明されるように特に有利である。
【0099】
A.生の差分データ対して閾値を使用するノイズ除去
[0115]
図11は、生の配列決定信号が、生の期間ごとの差分データに適用されるような閾値化技術を使用してどのようにノイズ除去されるかを示す。
図11の上部パネル1119は、明モードデータ1103および暗モードデータ1105の両方を有する生の配列決定信号を示す。およそ255.9秒にちょうど先行して、明モードデータ1103にさらに示されるのは、充填事象1107である。この充填事象1107は、1107aおよび1107bにおける信号内の2つの低下によって見られ得るように、2つのAC期間にわたって存続する。明モードデータ1103にさらに示されるのは、いくつかの潜在的なノイズデータポイント、例えば、潜在的なノイズポイント1109および1111である。
【0100】
[0116]
図11の下部パネル1125は、上部パネル1119に示される生の配列決定信号に対する1つの期間シフトから計算される、結果として生じる生の期間ごとの差分信号を示す。下部パネル1125にさらに示されるのは、それぞれ+/-5.0の期間ごとの差分値にセットされる2つの閾値1113および1117である。生の信号をノイズ除去するために、+/-5.0閾値よりも大きい期間ごとの差分値と関連付けられたすべてのポイントは、ノイズポイントとして識別され得る。特定の実施形態によると、期間ごとの差分を計算するために使用される生の信号内の両方のポイントが、ノイズポイントとして識別され得る。代替的に、ポイントのうちの一方のみ、例えば、差分を計算するために使用される第1または第2のポイントが、ノイズポイントとして識別され得る。
【0101】
[0117]
図11の2番目のパネル1121は、+/-3よりも大きい期間ごとの差分値を結果としてもたらすすべてのポイントを選択することによって決定されるノイズポイントのセットを示す(白丸として示される)。実際の充填事象の正および負のピークはまた、この手順において除去されるが、これが、必ずしも配列決定データからの充填信号のすべてを消去するわけではないということに留意されたい。
図8に関して上に論じられるように、ほとんどの場合、充填事象は、多くのACサイクルにわたって存続し、したがって、充填事象のまさに最後および充填事象のまさに最初と関連付けられたデータのみが、閾値技術を使用して除去されることになるが、これは、これらが、期間ごとの差分信号内の大きい値を呈する唯一のポイントであるためである。開始ピークと終了ピークとの間の介在領域において、データは、ゼロ周囲を変動するが、このデータが、
図8に示される期間ごとのデータに最もよく見られるように、充填データポイントを含むことが理由で、依然として、実際、有用な信号に対応する。
【0102】
[0118]有利には、正のピークと負のピークとの間にある充填状態データにおける差分データ振幅は、開放チャネルにおける差分データ振幅に匹敵するが、1つまたは複数のノイズ源、例えば、
図9~
図10に関して上に説明されるようなPTBNおよびFCNによる影響を受ける他のエリアにおける差分データ振幅よりも著しく小さい。したがって、差分データに適用される閾値化手順は、配列決定「真の」信号値(充填および開放チャネルポイント)と1つまたは複数のノイズ源によって引き起こされ得る偽の信号値(差分データ内の他の大きい振幅ポイント)とを区別することができる。ノイズポイント(2番目のパネル内の白丸)が期間ごとの閾値を使用して一旦識別されると、それらは、生の信号から除去され得、
図11の3番目のパネル1123に示されるようなノイズ除去された配列決定信号を結果としてもたらす。ノイズ除去された信号は、パネル1119に示される生の信号よりも著しくクリーンであるが、依然として、およそ255.9秒の直前に位置する明白な充填信号1127を含むということが見て分かる。
【0103】
[0119]ここに示される例は、単一のセット閾値のみを適用するが、複数の閾値のセットが、閾値の1つまたは複数の範囲内に入るデータポイントだけを除去するために適用され得る。代替的に、異なる閾値を異なる時に、例えば、データ自体の性質、および特定のノイズ源が存在するか否かに応じて使用する、適応閾値が適用され得る。
【0104】
[0120]他の場所、例えば、「Formation and Calibration of Nanopore Sequencing Cells」という表題の米国特許出願第15/632,190号、「Normalization and Baseline Shift Removal by Rotation in Added Data Dimensions」という表題の米国仮特許出願第62/591,099号、および「Period-to-Period Analysis of AC Signals from Nanopore Sequencing」という表題の米国特許出願第15/628,353号に説明されるように、配列決定信号(この場合、ノイズ除去された配列決定信号)は、さらなる処理、例えば、カルマンフィルタ等によるさらなるフィルタリング、または、2次元変換によるさらなる処理のために下流に供給され得、ノイズ除去された配列決定信号の信号値からDNA配列を識別するために塩基分類処理において分析され得、これら特許の開示は、あらゆる目的のためそれらの全体が引用により本明細書に組み込まれる。
【0105】
B.ウェーブレットノイズ除去された差分データに対して閾値を使用するノイズ除去
[0121]特定の実施形態によると、上に説明される閾値化手順は、それ自体がいくつかの他の手段により以前にノイズ除去されているか、フィルタリングされているか、または平滑化されている期間ごとの差分信号に対して用いられ得る。任意のノイズ除去/フィルタリング/平滑化手順は、この様式で差分信号を事前前処理するために使用され得る。特定の実施形態によると、期間ごとの差分信号内の充填事象の形状に起因して、ハールマザーウェーブレットを用いたウェーブレットノイズ除去プロセスが、信号を効果的にノイズ除去するために使用され得る。
図12Cは、最初の6つのハールウェーブレットの例を示し、また、ウェーブレットのこの形態が、期間ごとの差分信号内の充填事象に酷似することを例証する(すなわち、ウェーブレットの基本形状は、期間ごとの差分信号の充填事象に類似して、正および負の方形波を含む)。
【0106】
[0122]ウェーブレットノイズ除去のプロセスは、3つのステップを含み得る。第一に、ノイズの多い信号のマルチレベル離散ウェーブレット分解が、分解の各レベルjについてウェーブレット詳細係数のセットを得るために実施される。例えば、5レベル分解は、詳細係数の5つのセットを有する。より具体的には、離散ウェーブレット分解は、所与のマザーウェーブレットψ(t)についてチャイルドウェーブレットの離散セットのウェーブレット係数を計算することと解釈され得、チャイルドウェーブレットは、マザーウェーブレットを2のべき乗によりシフトおよびスケーリングすることによって生成される。したがって、各レベルjについて、チャイルドウェーブレットのセットは、
【数2】
であり、式中、jは、スケールまたはレベルパラメータと称され、kは、シフトパラメータであり、両方とも整数である。等式(4)により規定されるチャイルドウェーブレットのセットを使用すると、長さ2
Nを有する信号x(t)の詳細係数γ
jk(レベルjについて)は、信号x(t)を、以下の積分
【数3】
に従って固定されるチャイルドウェーブレットのセットjに投影することによって算出され得、式中、kは、0~2
N-1の範囲にわたる。したがって、レベルLまで及ぶマルチレベル離散ウェーブレット分解の出力は、詳細係数γ
1k,γ
2k,…,γ
LkのL個のセットである。言葉で述べると、各レベルjについて、詳細係数は、ポイント1,2
j,2
2j,...,2
Nにおいてサンプリングされるマザーウェーブレットの拡張、反映、および正規化されたバージョンでノイズの多い信号x(t)の畳み込みを行うことによって計算される。したがって、各レベルについて、ノイズの多い信号が100,000のデータポイントを含む場合、100,000の詳細係数が存在することになる。
【0107】
[0123]詳細係数が決定された後、閾値化プロセスが、何らかの閾値化規則に従って各レベルの係数のセットを修正するために適用される。ウェーブレットノイズ除去スキームにおいて使用される閾値化関数の具体的な形態は様々であり得るが、いわゆる「hard」および「soft」閾値化技術が多くの場合使用される。両方の閾値化スキームは、閾値よりも小さい大きさを有するすべての詳細係数をゼロに設定する。しかしながら、hardおよびsoft閾値化は、それらがどのようにして、閾値より大きいか、またはそれに等しい大きさを有する残りの詳細係数を処理するかにおいて異なる。soft閾値化では、残りの詳細係数の大きさは、詳細係数値から閾値を減じることによって減少される。hard閾値化では、残りの詳細係数は変更されない。
【0108】
[0124]閾値化された詳細係数は、やがてはウェーブレット係数として使用され、これにより、フィルタリングされた信号を再構築することから、閾値化プロセスの効果は、ノイズの多いデータ信号に酷似するウェーブレット関数の再構築された信号における相対的重要性を効果的に増大させるが、そのデータポイントにおいてノイズの多い信号に似ていないウェーブレット関数を処分するか、またはそれに重点を置かないことである。
【0109】
[0125]閾値化された詳細係数が一旦計算されると、ノイズ除去された信号は、閾値化された係数を使用した逆ウェーブレット変換によって再構築される。この再構築された信号は、より少ないノイズを有するが依然として信号を高周波数成分に保つ、フィルタリングされたデータ信号を提供する。
【0110】
[0126]多くのウェーブレットベースの信号処理ライブラリは、ノイズの多い信号およびパラメータのセットを入力として受け取り、ウェーブレットノイズ除去された信号を出力する関数を実施することによって多段階ノイズ除去プロセスを簡略化することができるウェーブレットノイズ除去関数を含む。1つのそのような例は、Matlab科学技術計算プラットフォーム内で利用可能である関数‘wden’である。この関数は、いくつかのパラメータを、wden(X、TPTR、SORH、SCAL、N、‘wname’)の形態をとる関数による入力として受け取る。Xは、ノイズの多い信号であり、TPTRは、閾値選択規則(例えば、SURE閾値化、universal閾値化、minimax閾値化など)を含む文字ベクトルであり、SORHは、適用されることになる閾値化の種類(soft閾値化またはhard閾値化)を設定するパラメータであり、SCALは、倍数的閾値再スケーリングを使用するか否かの選択であり、パラメータ‘N’は、マルチレベル離散ウェーブレット分解のレベルを規定し、最後に、‘wname’は、分解および再構成のために使用されるべきウェーブレットの名前(例えば、様々なドブシーウェーブレット、ハールウェーブレット、Coiflets、Symletsなど)である。Python「pywt」ライブラリ等内に見られるものなど、他の類似のウェーブレットパッケージが使用されてもよい。上記は、単に例証の目的のために本明細書に提供され、任意のウェーブレットノイズ除去プロセスが、本開示の範囲から逸脱することなく用いられ得る。
【0111】
[0127]
図12A~
図12Bは、特定の実施形態に従う、「hard」閾値化を用いたいわゆる「ユニバーサル閾値」を使用する5レベルハールウェーブレットノイズ除去の結果を示す。いわゆる「ユニバーサル閾値」λ
Lは、各レベルLについて規定され、以下によって得られ、
【数4】
式中、σ
Lは、所与のレベルについてのノイズの標準偏差であり、nは、サンプルサイズである。
【0112】
[0128]標準偏差を直接計算するよりも、分解の結果として提供されたウェーブレット係数を使用して標準偏差を推測することがしばしば有用である。より具体的には、ウェーブレット分解では、ノイズσLの標準偏差は、以下のようにウェーブレット係数の絶対値の中間値(MAD)から推測され得る。
σL=MADL/0.6745
「ユニバーサル閾値」の使用の根拠は、それがサンプルサイズnの仮定された独立同分布(i.i.d)ノーマルノイズシーケンスの予測された最大値よりも小さいすべてのウェーブレット係数を除去し、したがって信号対ノイズの観点から最適であることである。
【0113】
[0129]
図12Aは、生の期間ごとの差分信号1203とハールウェーブレットノイズ除去された期間ごとの差分信号1205との比較の一例を示す。比較から見て分かるように、ハールウェーブレットノイズ除去は、生の期間ごとの差分信号の低振幅部分を効果的に除去し、高振幅部分の些細ではない変動を保ち、それにより、
図11に関して上に説明される閾値化手順を使用したノイズポイントの改善された識別を提供することができる基部の期間ごとの信号を提供する。例えば、
図12Bに示されるように、期間ごとの差分信号が、ウェーブレット方法を使用してそれ自体がノイズ除去された後、ノイズポイントのセットが、
図11に関して上に説明されるものと同一の様式で1つまたは複数の閾値1209および1211を適用することによって、そのウェーブレットノイズ除去された期間ごとの信号から決定され得る。
【0114】
[0130]
図13は、特定の実施形態による、配列決定セルを使用する例となる方法を例証するフローチャートである。より具体的には、
図13は、いくつかの実施形態による、ナノポア配列決定からのAC信号の期間ごとの分析を使用して配列決定信号をノイズ除去する方法を例証する。
【0115】
[0131]ステップ1310において、交流信号(本明細書では「AC信号」とも称される)は、配列決定セルのナノポアにわたって印加される。そのようなAC信号は、
図4に関して上に説明されるAC電圧源420(本明細書ではAC「信号発生器」とも称される)に類似する、AC信号発生器によって提供される方形波であってもよい。いくつかの実施形態では、AC信号は、交流信号の各サイクルが第1の部分(本明細書では「明モード」または「明期間」と称される)および第2の部分(本明細書では「暗モード」または「暗期間」と称される)を含んでいる複数サイクル長であってもよい。第2の部分の電圧レベルは、第1の部分の電圧レベルに対して、参照電圧の反対である(V
LIQは、
図5に示される実施形態ではV
PREより上または下のいずれかである)。
図1~
図2に関して上に説明されるように、いくつかの実施形態では、ナノポアは、ヌクレオチドに連結したタグを受け取るように構成され、それにより充填事象を生み出す。
【0116】
[0132]ステップ1320において、第1の電圧データのセット(本明細書では「シフトされていない電圧データ」または「生の電圧データ」とも称される)が、
図4に関して上に説明されるように、例えば、ADC410によって取得される。いくつかの実施形態では、第1の電圧データのセットは、交流信号の複数サイクルの第1の部分(例えば、明期間)の間に取得される。第1の電圧データのセットの例は、
図5の明期間520に示されるデータポイント、および
図7~
図8に示されるように、「B」期間内を特徴とするすべてのポイントも含む。
図7~
図8に示されるように、第1の電圧データのセットは、AC信号の複数サイクルにわたって取得される電圧データポイントを含み得る。上に説明されるように、電圧データは、異なる時間におけるナノポアの抵抗の値に対応(すなわち、依存)し、ナノポアの抵抗は、タグがナノポア内で受け取られるときに変化する。
【0117】
[0133]ステップ1330において、電圧データの時間シフトされたセットは、例えば、
図4において上に示されるデジタルプロセッサ430によって、取得された生の電圧データから決定される。シフトされたデータの例は、上に論じられるように、
図7~
図8に示される。いくつかの実施形態では、電圧データの生のセットおよびシフトされた電圧データのセットのデータポイントの各サイクルは、指定された数のデータポイントを含み、生のシフトされていないデータは、明期間内に15のデータポイントを含み得、シフトされたデータは、明期間内に対応する15のデータポイントを含み得る。シフトされたデータがシフトされていないデータに対して時間シフトされることが理由で、シフトされたデータのデータポイントおよびシフトされていないデータのデータポイントは、例えば上の
図7~
図8に関して、上に論じられるように、AC信号の異なるサイクルからのものである。
【0118】
[0134]ステップ1340において、差分データは、シフトされていない電圧データのセットのデータポイントとシフトされた電圧データのセットの対応するデータポイントとの差分を計算することによって、例えば、
図4において上に示されるデジタルプロセッサ430によって計算される。いくつかの例では、対応するデータポイントは、それぞれのサイクル内で同じ位置を有するが、異なるサイクル内に存在し得る。例えば、シフトされていないデータのサイクル1に由来するシフトされていないデータポイント、およびシフトされていないデータのサイクル2に由来するシフトされたデータポイントでは、差分データは、以下の様式で計算され得る:まず、差分データポイントが、サイクル2の第1のポイントからサイクル1からの第1のポイントを減じることによって計算され得、次に、第2の差分データポイントが、サイクル2の第2のポイントからサイクル1からの第2のポイントを減じることによって計算され得る、というように続く。本開示の利点を有する当業者は、差分を実施するために多くの異なる方式が存在すること、および上に説明される単一ポイント方法が多くのうちの単なる一例を意味するということを理解するものとする。例えば、各サイクルからの複数データポイントは、減算の前に平均化もしくはフィルタリングされ得るか、または差分は、本開示の範囲から逸脱することなく、最近接減算、第二最近接減算等に基づいて計算され得る。
【0119】
[0135]任意選択的に、差分データは、例えば、フィルタリング、平滑化、および/またはノイズ除去によって、さらに処理され得る。上に説明されるように、差分データがステップ1340において一旦計算されると、ノイズ除去された差分データを生成するために、ウェーブレットノイズ除去技術が使用され得る。このノイズ除去された差分データは、以下のステップ1350に供給され得るが、さらに任意選択的には、ノイズ除去された差分信号は、ステップ1350に関して以下に説明されるように、追加の閾値をデータに適用する必要なしに、対応する、フィルタリングされた、平滑化された、またはノイズ除去された、電圧データのセットを復旧するために反転され得る。ノイズ除去された差分データからノイズ除去された電圧データのセットを再計算するために、元の電圧データと時間シフトされた電圧データとの和信号を使用する必要があり得る。例えば、Aが元の電圧データであり、Bが時間シフトされた電圧データである場合、和信号Sは、
【数5】
と書くことができ、差分信号Dは、
【数6】
と書くことができ、AまたはBは、それぞれS+DまたはS-Dを計算することによって復旧され得る。したがって、いくつかの実施形態では、和信号および差分信号の両方が、メモリに格納され、ノイズ除去された差分データからノイズ除去された電圧データのセットを再構築するために後に使用され得る。
【0120】
[0136]ステップ1350において、複数のノイズポイントは、(生の差分データを使用するか、またはノイズ除去された差分データを使用するかのいずれかで)識別される。この識別は、1つまたは複数の閾値よりも大きい差分データポイントのセットを識別するようにプログラムされる、デジタルプロセッサによって、例えば、デジタルプロセッサ430によって、達成され得る。例えば、
図11において、パネル1121は、識別されたノイズポイントのセットを白丸で示す。これらのノイズポイントは、+/-5よりも大きい差分データポイントと関連付けられたデータポイントであることが決定された。
【0121】
[0137]ステップ1360において、ノイズ除去された電圧データは、第1の電圧データのセットからノイズポイントを除去することによって生成される。例えば、5より大きい差分データポイントが10番目および20番目の電圧データポイントの差分から計算される場合において、10番目および20番目のデータポイントは共に、最終的なノイズ除去されたデータにおいて除去され得る。代替的に、10番目のポイントのみまたは20番目のポイントのみが除去され得る。
【0122】
[0138]特定の実施形態によると、ノイズ除去されたデータは、いくつかの異なる目的のために使用され得る。例えば、データは、ベースラインシフトおよび/またはゲインドリフトを除去するためにさらに処理され得、米国特許出願第15/632,190号、米国仮特許出願第62/591,099号、および米国特許出願第15/669,207号に説明されるように、正規化され、次いで塩基分類のために使用され得、これら特許はあらゆる目的のためにそれらの全体が参照により本明細書に組み込まれる。いくつかの実施形態では、1つまたは複数の充填事象は、ノイズ除去されたデータ内の1つまたは複数のデータポイントを使用して信号処理システムによって識別され得、またそれらのレベルに基づいて、システムは、配列決定セル内の核酸内に組み込まれたヌクレオチドを決定することができる。
【0123】
[0139]加えて、ノイズ除去されたデータは、期間ごとの差分信号の別のサイクルを計算するために使用され得る。この場合、第2の期間ごとの差分が計算される前に、除去されたノイズデータが1つまたは複数の置換値に置き換えられるデータ代入プロセス。例えば、欠陥データは、2つの隣接する値の中間である補間値に置き換えられ得るか、または欠陥データは、ゼロに置き換えられ得る。本開示の利益を有する当業者によって理解されるように、多くの異なるデータ代入方法が用いられ得る。いくつかの場合では、代入方法は、著しくシフトしないように、および塩基分類のために使用される配列決定信号ヒストグラム内のピーク値の、選択され得る。
【0124】
V.結果
[0140]
図14A~
図16Dは、本明細書に説明されるノイズ除去技術を使用したサンプルデータを示す。より具体的には、
図14A~
図16Dは、配列決定信号が、生の期間ごとの差分データ上の閾値を使用してノイズポイントを決定することによって、どのようにノイズ除去され得るかを示す(ウェーブレットノイズ除去の事前処理ステップはこの例では用いられない)。
【0125】
[0141]各図は、3つの異なるプロットのセットを示す。上部プロットは、生の配列決定信号を示し、中央プロットは、ノイズ除去された信号を示し、下部プロットは、ノイズポイントが、これらのポイントが閾値よりも大きい期間ごとの差分信号を有していたことが理由で、除去されたことを示す。
図14Aは、最大閾値で始まり、この閾値は、後の図ほど減少する。各図は、同じ信号値のセットで始まり、プロットごとの差分のみが、期間ごとの差分信号からノイズポイントを決定するための閾値の選択における変化である。
【0126】
[0142]
図14Aは、+/-31ADCカウントという比較的大きい閾値を使用してノイズ除去する効果を示す。
図14の下部プロットから推論され得るように、非常に少ないポイントが、31よりも大きい期間ごとの差分を有する。t=3.75s近くに現れるノイズポイント1401のみが除去され、全データの0.006%のみを表す。したがって、31という閾値は、信号を効果的にノイズ除去するには高すぎると仮定され得る。
【0127】
[0143]
図14Bは、+/-25ADCカウントというわずかに低い閾値を使用してノイズ除去する効果を示す。
図14Bの下部プロットから分かるように、ノイズポイントの2つのはっきりと異なるグループ。有利には、これらのノイズポイントは、ADCカウント内にランダムに分散されず、むしろ、グループ1403は、およそ160というADC値のすぐ下を中心とし、グループ1405は、100ADCカウントのすぐ上を中心とする。これらのデータポイントは、共通のノイズ源:PTBNによって引き起こされるため、これら2つのADC値の周りに集まる。PTBMノイズ信号の一部分は、各図の上部プロット内では、取得の長さ全体のように見えるものを走る、ポイントの薄い線、例えば、線1407として見られ得る。
図14Bの下部プロットに示される、また中央プロットに示されるノイズ除去された信号から除去される、ノイズデータポイントの数は、全データの0.197%のみを表す。
【0128】
[0144]
図14Cは、+/-21ADCカウントというわずかに低い閾値を使用してノイズ除去する効果を示す。
図14Cの下部プロットから分かるように、
図14B内に存在していたノイズポイントの2つのはっきりと異なるグループは、依然として存在し、さらに多くのポイントを保有するように見える。
図14Cの下部プロットに示される、また中央プロットに示されるノイズ除去された信号から除去される、ノイズデータポイントの数は、全データの0.795%のみを表す。この閾値は、PTBNクラスタ1409が、ノイズ除去されたデータを示す中央プロット内で依然として可視であるため、PTBNを完全に除去するには依然として十分に低くないように見える。
【0129】
[0145]
図14Dは、+/-15ADCカウントというさらに低い閾値を使用してノイズ除去する効果を示す。
図14Cの下部プロットに示される、また中央プロットに示されるノイズ除去された信号から除去される、ノイズデータポイントの数は、ここでは全データの2.263%のみを表す。この場合、PTBNクラスタは、
図14Dの中央プロットに示されるノイズ除去された信号から完全に除去されるように見える。
【0130】
[0146]
図15A~
図15Dは、+/-11、+/-9、+/-7、および+/-5という次第に低くなる閾値の効果を示し、これらは、それぞれデータの2.964%、3.292%、3.695%、および4.291%を除去する。+/-7という比較的低い閾値においてさえ、ノイズ除去は、ノイズ除去された信号においてさえも、開放チャネルまたは充填チャネルデータを劣化させていないように見える。
【0131】
[0147]
図16A~
図16Dは、+/-4、+/-3、+/-2、および+/-1という次第に低くなる閾値の効果を示し、これらは、それぞれデータの4.735%、5.53%、9.792%、および38.722%を除去する。注目すべきことには、唯一2の閾値が、データのおよそ90%を依然として維持し、差分データポイントの90%が2より小さいかまたはそれに等しい値を有することを暗示する。閾値が1という最小値に設定されて初めて、本方法は、大量のデータを除去し始め、その時でさえ、
図16Dに示されるデータは、この例では、差分データの60%超が+/-1および0の値(そのような低い閾値の場合に唯一可能なADCポイント)を有することを証明する。そのような発見は、この技術が、開放チャネルおよび充填チャネルデータに劇的に影響を及ぼすことなく、ノイズポイントを効果的に除去するために使用され得ることを暗示する。実際、
図16Dに示される+/-1の場合でさえ、クリーンにされた信号を示す中央プロットは、充填事象のクラスタ、例えば、開放チャネルベースラインより下で明白に可視であるクラスタ1603を伴う、比較的ノイズフリーの配列決定信号を有するように見える。
【0132】
VI.コンピュータシステム
[0148]本明細書で説明したコンピュータシステムの任意のものは、任意の適切な数のサブシステムを利用し得る。そのようなサブシステムの例は、
図17のコンピュータシステム1710内で示した。いくつかの実施形態では、コンピュータシステムは、単一のコンピュータ装置を含み、ここでサブシステムは、コンピュータ装置の構成要素であり得る。他の実施形態では、コンピュータシステムは、各々がサブシステムであり、内部に構成要素を有する、複数のコンピュータ装置を含み得る。コンピュータシステムは、デスクトップおよびラップトップコンピュータ、タブレット、携帯電話、ならびに他の携帯機器を含み得る。
【0133】
[0149]
図17で示したサブシステムは、システムバス1775を介して相互接続されている。プリンタ1774、キーボード1778、記憶デバイス1779、ディスプレイアダプタ1782に結合されているモニタ1776、およびその他などの付加的なサブシステムを示す。I/O制御装置1771に結合された外付けおよび入出力(I/O)デバイスは、入出力(I/O)ポート1777(例えば、USB、Fire Wire(登録商標))などの当技術分野で知られている任意の数の手段によって、コンピュータシステムに接続され得る。例えば、I/Oポート1777または外部インタフェース1781(例えば、イーサネット、Wi-Fi、など)は、コンピュータシステム1710をインターネットなどの広域ネットワーク、マウス入力装置、またはスキャナに接続するために用いられ得る。システムバス1775を介した相互接続により、サブシステム間での情報交換を可能にするだけでなく、セントラルプロセッサ1773が、各サブシステムと通信すること、システムメモリ1772または記憶デバイス1779(例えば、ハードドライブまたは光ディスクなどの固定ディスク)からの複数の命令実行を制御することを可能にする。システムメモリ1772および/または記憶デバイス1779は、コンピュータ可読媒体を含み得る。別のサブシステムは、カメラ、マイクロフォン、加速度計、その他などのデータ収集デバイス1785である。本明細書で説明したデータの任意のものは、ある構成要素から別の構成要素へ出力され得て、ユーザに出力され得る。
【0134】
[0150]コンピュータシステムは、例えば、外部インタフェース1781によって、または内部インタフェースによって、共に接続される、複数の同一の構成要素またはサブシステムを含み得る。いくつかの実施形態では、コンピュータシステム、サブシステム、または装置は、ネットワークを通して通信し得る。そのような事例では、あるコンピュータは、クライアント、別のコンピュータは、サーバと考えることができ、ここで各々は、同一のコンピュータシステムの一部であり得る。クライアントおよびサーバは、各々複数のシステム、サブシステム、または構成要素を含み得る。
【0135】
[0151]実施形態の態様は、ハードウェア(例えば、特定用途向け集積回路またはフィールドプログラマブルゲートアレイ)を用いて、および/またはモジュラーまたは統合された様式の一般にプログラム可能なプロセッサを伴う、コンピュータソフトウェアを用いて、制御ロジックの形態で実施され得る。本明細書で使用されるとき、プロセッサは、同一の集積チップ上のシングルコアプロセッサ、マルチコアプロセッサ、または単一の回路基板上のマルチプロセシングユニット、あるいはネットワーク接続されたプロセッサを含む。本開示および本明細書で提供された教示に基づいて、ハードウェアならびにハードウェアおよびソフトウェアの組合せを用いて、本発明の実施形態を実施するための他の方法および/または方法が、当業者には、知られ、かつ理解されよう。
【0136】
[0152]本出願で説明されるソフトウェアの構成要素または機能の任意のものは、例えばJava、C、C++、C#、Objective-C、Swiftなどの任意の好適なコンピュータ言語、または例えば、従来のまたはオブジェクト指向の技術を用いたPerlもしくはPythonなどのスクリプト言語を用いてプロセッサによって実行されるソフトウェアコードとして実装され得る。ソフトウェアコードは、一連の命令または指令として、保存および/または伝送用の、コンピュータ可読媒体上に格納され得る。好適な非一時的コンピュータ可読媒体は、ランダムアクセスメモリ(RAM)、リードオンリーメモリ(ROM)、ハードドライブ、フロッピーディスクなどの磁気媒体、コンパクトディスク(CD)もしくはDVD(デジタル多用途ディスク)などの光学的媒体、またはフラッシュメモリ、などを含み得る。コンピュータ可読媒体は、そのような記憶または伝送デバイスの任意の組合せであり得る。
【0137】
[0153]そのようなプログラムは、さらにエンコードされ、インターネットを含む、多様なプロトコルに従う有線、光学、および/または無線ネットワークを介した伝送に適応された、搬送波信号を用いて伝送され得る。そのように、コンピュータ可読媒体は、そのようなプログラムを用いてエンコードされたデータ信号を使用して作成され得る。プログラムコードを用いてエンコードされたコンピュータ可読媒体は、互換性のあるデバイスを用いて包装され得て、または別個に他のデバイスから供給され得る(例えば、インターネットでのダウンロード)。任意のそのようなコンピュータ可読媒体は、個々のコンピュータ製品(例えば、ハードドライブ、CD、または完全なコンピュータシステム)上にまたは内部に備えられ得て、また、システムまたはネットワーク内部の異なるコンピュータ製品上にまたは内部に存在し得る。コンピュータシステムは、本明細書で説明した成果の任意のものをユーザに提供するための、モニタ、プリンタ、または他の好適なディスプレイを含み得る。
【0138】
[0154]本明細書で説明した方法の任意のものは、ステップを実行するように構成され得る1つまたは複数のプロセッサを含むコンピュータシステムを用いて、全体的にまたは部分的に実行され得る。したがって、各ステップまたはステップの各グループを実行する異なる構成要素を潜在的に有する、本明細書で説明した方法の任意のもののステップを、実行するように構成されたコンピュータシステムに、実施形態は、向けられ得る。番号を付されたステップが提示されたが、本明細書の方法のステップは、同時にまたは異なる順序で実行され得る。さらに、これらのステップの部分は、他の方法からの他のステップの部分と共に用いられ得る。また、ステップのすべてまたは部分は、任意選択的であり得る。さらに、任意の方法の任意のステップは、モジュール、ユニット、回路、またはこれらのステップを実行するための他の手段を用いて、実行され得る。
【0139】
[0155]個々の実施形態の個別の詳細が、本発明の実施形態の技術概念および範囲から逸脱することのなく、任意の好適な方法で組み合わされ得る。しかし、本発明の他の実施形態は、各々の個別の態様に関する特定の実施形態に、またはこれらの個別の態様の特定の組合せに、向けられ得る。
【0140】
[0156]列挙の「a」、「an」、または「the」は、具体的にそうでないことに示さない限り、「1つまたは複数」を意味することを意図する。「or」のを使用法は、具体的にそうでないことに示さない限り、「排他的論理和」でなく、「包含的論理和」を意味することを意図する。「第1の」構成要素への言及は、第2の構成要素がもたらされることを必ずしも必要としない。さらに「第1の」または「第2の」構成要素への言及は、明確に規定されない限り、言及された構成要素を特定の位置に限定しない。