(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】6042859
(24)【登録日】2016年11月18日
(45)【発行日】2016年12月14日
(54)【発明の名称】DNAシークエンシング用アレイの正確なアラインメント及びレジストレーションのための方法及び装置
(51)【国際特許分類】
C12M 1/00 20060101AFI20161206BHJP
C12Q 1/68 20060101ALI20161206BHJP
C12N 15/09 20060101ALI20161206BHJP
G01N 37/00 20060101ALI20161206BHJP
G06T 1/00 20060101ALI20161206BHJP
【FI】
C12M1/00 A
C12Q1/68 A
C12N15/00 F
C12N15/00 A
G01N37/00 102
G06T1/00 305C
【請求項の数】15
【全頁数】28
(21)【出願番号】特願2014-235627(P2014-235627)
(22)【出願日】2014年11月20日
(62)【分割の表示】特願2013-508222(P2013-508222)の分割
【原出願日】2011年4月27日
(65)【公開番号】特開2015-42185(P2015-42185A)
(43)【公開日】2015年3月5日
【審査請求日】2014年11月20日
(31)【優先権主張番号】13/092,618
(32)【優先日】2011年4月22日
(33)【優先権主張国】US
(31)【優先権主張番号】61/330,130
(32)【優先日】2010年4月30日
(33)【優先権主張国】US
(73)【特許権者】
【識別番号】510121651
【氏名又は名称】コンプリート・ゲノミックス・インコーポレーテッド
(74)【代理人】
【識別番号】100064621
【弁理士】
【氏名又は名称】山川 政樹
(74)【代理人】
【識別番号】100098394
【弁理士】
【氏名又は名称】山川 茂樹
(72)【発明者】
【氏名】ステイカー,ブライアン・ピイ
【審査官】
福澤 洋光
(56)【参考文献】
【文献】
特表2009−500004(JP,A)
【文献】
特表2006−501807(JP,A)
【文献】
米国特許出願公開第2005/0049797(US,A1)
【文献】
米国特許第07323681(US,B1)
【文献】
米国特許第06591196(US,B1)
(58)【調査した分野】(Int.Cl.,DB名)
C12M 1/00−3/10
C12Q 1/00−1/70
C12N 1/00−15/90
CA/MEDLINE/BIOSIS/WPIDS(STN)
PubMed
JSTPlus/JMEDPlus/JST7580(JDreamIII)
(57)【特許請求の範囲】
【請求項1】
生化学実験を観察そして特定するために使用する装置であって、前記装置は、
所定の空間、二次元のアレイパターンによって配置された光学的に解像可能な個々の表面部位であって、生化学実験をサポートするように修飾されている、表面部位を有する固体平面基板を含み;
前記表面部位は、前記基板の表面上のイメージフィールドスポットの所定の二次元の周期的アレイ内のスポットに位置し;かつ
前記イメージフィールドスポットの部分は、少なくとも1つの既知の欠失パターンに従って前記アレイから欠失させられていることを含む、装置。
【請求項2】
前記二次元の周期的アレイの欠失パターンは疑似ランダムである、請求項1に記載の装置。
【請求項3】
前記表面部位以外の基板は生体分子の非特異的結合を減少させるように化学処理されている、請求項1に記載の装置。
【請求項4】
生化学実験の実行に使用する方法であって、
基板上の生化学的部位の所定の二次元空間パターンを提供することによって、イメージング用の基板を準備して位置を確定し、かつ前記基板上で生化学的部位の位置を合わせること;
前記基板上の画像中で生化学的部位に対応するイメージフィールドスポットを検出すること;
グリッドオフセットを決定するために、二次元グリッドを前記基板上の生化学的部位のイメージフィールドスポットと整列させること;並びに
前記グリッドポイントの位置を空間二次元フィールド内の既知の位置に合わせることを含み、この位置を合わせる工程は、前記イメージフィールドスポットを前記基板上のイメージフィールドスポットの第一の既知のイメージ欠失パターンと交差相関させて、フィールド内の絶対位置を決定することを含む、方法。
【請求項5】
前記空間パターンの前記欠失パターンは疑似ランダムとなるように選ばれる、請求項4に記載の方法。
【請求項6】
前記位置を合わせるステップは、前記イメージフィールドスポットを、前記基板上のイメージフィールドスポットの位置を特定する第二の既知の欠失パターンとさらに交差相関させることを含む、請求項4に記載の方法。
【請求項7】
前記準備するステップは、前記イメージからバックグラウンド光レベルの減算を含む、
請求項4に記載の方法。
【請求項8】
前記減算するステップは、ピクセルの定義されたアレイ内に最も暗い強度を発見し、前記定義されたアレイの各ピクセルから前記強度を減算することを含む、請求項7に記載の方法。
【請求項9】
前記イメージフィールドスポットは、各フィールドスポットに関連する最も明るいピクセルの位置を選択することを含む検出するステップを含む請求項4に記載の方法。
【請求項10】
アラインメントを行うステップは、各グリッドポイントと各フィールドスポット間で最小二乗距離を有する試験された組合せをフィールドスポットのパターン中に見出すために、回転、スケール、x−オフセット、及びy−オフセットの様々な組合せを繰り返し試験するステップを含む、請求項4に記載の方法。
【請求項11】
アラインメントを行うステップは、
強度群によってイメージフィールドスポットを列挙するステップ;
群平均スポット輝度を最も近いグリッドポイントからの群平均距離に対してプロットするステップ;及び
前記最も近いグリッドポイントからの群平均距離が閾値未満となる群の全イメージフィールドスポットに対して精密フィッティングする工程を繰り返すステップを含む、請求項4に記載の方法。
【請求項12】
イメージングステップは、前記生化学的部位のそれぞれの分子の複数の異なる蛍光標識と接触するよう構成され、準備するステップは、
イメージデータの更なる処理のため、前記基板の少なくとも1つの蛍光特定イメージを取得することを含む、請求項4に記載の方法。
【請求項13】
前記交差相関は、欠失グリッドポイントの3%未満を有するパターンと接触することを含む、請求項4に記載の方法。
【請求項14】
生化学実験の実行に使用する方法であって、
生化学実験が行われる部位のアレイを有する固体平面基板を提供し、前記アレイは隣接部位間の周期的距離で所定の二次元空間によって特徴づけられ、
ピクセルのアレイを有するイメージングシステムを使用する前記生化学実験によって放出される光を観察し、前記アレイはピクセル間の一定距離によって特徴づけられ、前記生化学実験によって放出される光は、前記ピクセルのアレイのスポットにフォーカスされ、
前記各スポットは生化学実験に対応し、
前記生化学実験の観察と特定のため、前記ピクセル間の距離の整数倍ではない前記スポット間の距離を含み、
前記スポットの部分は、少なくとも1つの既知の欠失パターンに従って前記アレイから欠失させられていることを含む、
方法。
【請求項15】
前記生化学実験は、DNAナノボールを用いるコンビナトリアルプローブ−アンカーライゲーションを含む、請求項14に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
本発明は、生化学的解析のためのイメージングに関し、より具体的には、ハイスループットゲノムシークエンシングで用いる高密度生化学アレイをイメージングするための方法及びシステムに関する。
【背景技術】
【0002】
化学的及び/又は生物学的種のハイスループット解析は、診断及び治療の分野における重要なツールである。生化学アレイにより、複数の生化学実験を同時並行で行なうことが可能になる。この能力は、各実験を少量で行ない、かつこれらの実験を密集させる技術の開発から生じる。基板上の付着した化学的及び/又は生物学的種のアレイは、特定の標的配列を規定し、遺伝子発現パターンを解析し、特定のアレル変異を同定し、DNA配列のコピー数を決定し、かつゲノム規模でタンパク質(例えば、転写因子及び他の調節分子)の結合部位を同定するように設計することができる。具体的な例では、ヒトゲノムプロジェクトの出現は、核酸、例えば、DNA(デオキシリボ核酸)及びRNA(リボ核酸)をシークエンシングするための25の改良された方法の開発を必要とした。半数体ヒトゲノムの全3,000,000,000塩基配列の決定は、数多くの疾患の遺伝的基礎を特定する基盤を提供した。しかしながら、統計的に有意な数のヒトゲノムと関連する遺伝子変異を同定するためには相当な努力がなされなければならず、改良されたハイスループット解析法は、この努力を大いに助けることができる。
【0003】
ハイスループット解析法は、従来、解析用の化学物質及び/又は生物学的種のアレイを含むフローセルとして知られる、アッセイ装置を利用している。この生物学的種は、通常、イメージングシステムで読み取ることができる複数の蛍光色でタグ付けされる。
【0004】
観察、取得、及び解析すべきデータの量が膨大であるため、ゲノムシークエンシング解析の重要な因子は、アッセイ機器の処理量である。処理量は、コストに直接的な影響を及ぼす。イメージングシステムは、他の技術と比較して、大量のデータを取得することができるが、そのようなシステムの処理量は、カメラ速度やスポット当たりのピクセル数によって限定される。カメラ速度は、固有の物理的制約によって限定され、スポット当たりの最小ピクセル数は1である。スポット当たりのピクセル数を最小限まで減らすことが望ましいが、通常、実際の機器のスポット当たりのピクセルは多い。
【0005】
基板上の付着部位と関連するスポットから放出された光からピクセルに捕捉された画像は、解析可能なものとするために、整列させ、位置を合わせなければならない。基板上のレジストレーションマークやレジストレーションガイドを含む従来のレジストレーション技術は、基板上にスペースを必要とし、解析に利用可能な部位の数、ひいては、単位時間当たりの解析量を減少させる。
【0006】
DNAチップのためのいくつかの異なる手法が開発されている。1つの手法では、DNA断片のコンビナトリアルアレイをチップ上で作製し、これらをハイブリダイゼーションによるシークエンシングに用いる。別の手法では、DNAを同じ目的で表面にランダムにアレイ化する。1つの研究グループは、DNAポリメラーゼのアレイを用いて、塩基毎のシークエンシングを観察しようと試みている。また別の研究グループは、コンビナトリアルプローブ−アンカーライゲーションによって調べられる自己集合DNAナノアレイを用いている。これらの手法は、特にその生化学的詳細において互いに全く異なるが、それらは全て、アレイ中の個々の実験で生成されたデータを文字通り「見る」のに蛍光イメージング技術に依存している。
【0007】
異なる色の色素(例えば、赤色、緑色、青色、又は黄色)が各々1つに対応するように生化学反応を設計することにより、蛍光イメージングを用いて、DNA塩基−A、C、G、又はT−を同定する。その後、蛍光顕微鏡でDNA実験を観察してもよい。観察された色は、その特定の工程でのDNA塩基を示す。したがって、DNAチップからのデータの抽出は、チップ上での何百万回又は何十億回もの生化学実験によって放出される蛍光の色の記録に依存する。
【0008】
本明細書に記載の技術の実施は、特に示さない限り、当業者の能力の範囲内にある、有機化学、ポリマー技術、分子生物学(組換え技術を含む)、細胞生物学、生化学、及びシークエンシング技術の従来技術及び説明を利用することができる。そのような従来技術としては、ポリマーアレイ合成、ポリヌクレオチドのハイブリダイゼーション及びライゲーション、並びに標識を用いたハイブリダイゼーションの検出が挙げられる。好適な技術の具体的な説明は、本明細書中の実施例を参照することにより得ることができる。しかしながら、当然、他の等価な従来手順を用いることもできる。そのような従来技術及び説明は、標準的な実験マニュアル、例えば、Green,et al.編(1999),Genome Analysis:A Laboratory Manual Series(I〜IV巻);Weiner,Gabriel,Stephens編(2007),Genetic Variation:A Laboratory Manual;Dieffenbach,Dveksler編(2003),PCR Primer:A Laboratory Manual;Bowtell and Sambrook(2003),DNA Microarrays:A Molecular Cloning Manual;Mount(2004),Bioinformatics:Sequence and Genome Analysis;Sambrook and Russell(2006),Condensed Protocols from Molecular Cloning:A Laboratory Manual;and Sambrook and Russell(2002),Molecular Cloning:A Laboratory Manual(全てCold Spring Harbor Laboratory Press刊);Stryer,L.(1995)Biochemistry(第4版)W.H.Freeman,New York N.Y.;Gait,"Oligonucleotide Synthesis:A Practical Approach" 1984,IRL Press,London;Nelson and Cox(2000),Lehninger,Principles of Biochemistry 第3版,W.H.Freeman Pub.,New York,N.Y.;及びBerg et al.(2002)Biochemistry,第5版,W.H.Freeman Pub.,New York,N.Y.に見出すことができ、これらは全て、本願に対する先行技術文献である。
【0009】
本明細書及び添付の特許請求の範囲で使用される場合、単数形の「1つの(a)」、「1つの(an)」、及び「その(the)」には、文脈上そうでないことが示されない限り、複数の指示物が含まれる。したがって、例えば、「1つのチャネンル」に対する言及は、アッセイ基板上で利用可能な1以上のチャンネルを指し、また、「その方法」に対する言及は、当業者に公知の等価な工程及び方法に対する言及を含む、などである。
【0010】
特に定義されない限り、本明細書で使用される技術用語及び科学用語は全て、本発明が属する分野の当業者が一般に理解している意味と同じ意味を持つ。本明細書で言及される刊行物は全て、ここに記載される発明と関連して使用し得る、装置、製剤、及び方法を説明していると理解されたい。
【0011】
値の範囲が提供されている場合、その範囲の上限と下限の間にある各介在値、及びその明記された範囲内の任意の他の明記された値又は介在値が本発明に包含されることが理解される。これらのより小さい範囲の上限と下限は、そのより小さい範囲に独立に含まれることができ、明記された範囲内の任意の特に除外される境界によって変わるが、これらもまた本発明に包含される。明記された範囲が境界の一方又は両方を含む場合、その含まれる境界のどちらか又は両方を除外した範囲も本発明に含まれる。
【0012】
以下の説明では、本発明がより完全に理解されるように、数多くの具体的詳細を示す。
しかしながら、本開示を読めば、これらの具体的詳細の1つ又は複数を伴わずに本発明を実施し得ることが当業者には明白になるだろう。本発明が不明瞭になるのを避けるために、当業者によく知られる周知の特徴及び手順が記載されていない場合もある。
【0013】
選択された定義
「アンプリコン」は、ポリヌクレオチド増幅反応の産物を意味する。すなわち、それは、1以上の開始配列から複製されるポリヌクレオチドの集団である。アンプリコンは、限定するものではないが、ポリメラーゼ連鎖反応(PCR)、線形ポリメラーゼ反応、核酸配列に基づく増幅、環依存的増幅、及び同様の反応を含む、種々の増幅反応によって生成することができる(例えば、米国特許第4,683,195号;同第4,965,188号;同第4,683,202号;同第4,800159号;同第5,210,015号;同第6,174,670号;同第5,399,491号;同第6,287,824号、及び同第5,854,033号;並びに米国公開特許出願第2006/0024711号を参照されたい)。
【0014】
本明細書における「付着部位」又は「部位」は、生体活性構造物を結合させることができる基板上に規則的なパターンで配置された官能化位置を指す。実際の部位は、シラン化プロセスによって酸化物表面に付着させられた正電荷を有する反応性アミンのサブミクロン領域である。
【0015】
「環依存的複製」又は「CDR」は、環状鋳型の同じ鎖にアニールする1以上のプライマーを用いて、この鋳型のただ1つの鎖に相当する産物を生成させる環状鋳型の多重置換増幅を指す。CDRでは、さらなるプライマー結合部位は生成されず、産物の量は、経時的に直線的にしか増加しない。使用されるプライマー(複数可)は、ランダムな配列(例えば、1以上のランダムヘキサマー)であってもよく、又は所望の産物の増幅について選択するための特定の配列を有していてもよい。最終産物をさらに修飾することなく、CDRによって、直列の多コピーの環状鋳型鎖、すなわち、多コピーの鋳型鎖の一本鎖の線状コンカテマーを有する線状コンストラクトが生成されることが多い。
【0016】
「環依存的増幅」又は「CDA」は、環状鋳型の両方の鎖にアニールするプライマーを用いて、この鋳型の両方の鎖に相当する産物を生成させ、一連の多重ハイブリダイゼーション、プライマー伸張、及び鎖置換事象を生じさせる環状鋳型の多重置換増幅を指す。これにより、プライマー結合部位の数が指数関数的に増加し、結果として、経時的に生成される産物の量が指数関数的に増加する。使用されるプライマーは、ランダムな配列(例えば、ランダムヘキサマー)であってもよく、又は所望の産物の増幅について選択するための特定の配列を有していてもよい。CDAによって、コンカテマー状の二本鎖断片の組が形成される。
【0017】
本明細書で使用される「フィールド」は、二次元の解析サブユニットであり、通常、カメラにより取得され、解析目的でまとめられるデータを指す。
【0018】
本明細書で使用される「グリッド」は、ピクセルから構築された画像中の情報の位置を解析するために利用される抽象的カルテシアンパターンを指す。この目的でのグリッドは、x及びyに一定の周期性を有し、好ましくは正方形である。グリッドの位置は、ピクセル基準座標系で好都合に特定される。
【0019】
本明細書で使用される「リガンド」は、直接的に又は特定の結合パートナーを介して、アッセイ基板上の分子に共有結合的に又は非共有結合的に付着し得る分子を指す。本発明により利用され得るリガンドの例としては、抗体、細胞膜受容体、特定の抗原決定基(例えば、ウイルス、細胞、又は他の材料)と反応性があるモノクローナル抗体及び抗血清、薬物、ポリヌクレオチド、核酸、ペプチド、共因子、レクチン、糖類、多糖類、細胞、細胞膜、並びにオルガネラが挙げられるが、これらに限定されない。
【0020】
「マイクロアレイ」又は「アレイ」は、アレイの各々の部位がオリゴヌクレオチド又はポリヌクレオチドの多くのコピーを含み、これらの部位が空間的に離れているように、核酸を含む部位のアレイを担持する表面を有する固相支持体を指し、この表面は、本実施形態では必ず、平面的又は実質的に平面的な表面である。アレイのオリゴヌクレオチド又はポリヌクレオチドは、基板に共有結合的に結合していてもよく、又は非共有結合的に結合していてもよい。従来のマイクロアレイ技術は、例えば、Schena編(2000)、Microarrays:A Practical Approach(IRL Press,Oxford)に概説されている。
【0021】
「核酸」及び「オリゴヌクレオチド」は、本明細書では、ヌクレオチドモノマーのポリマーを意味するために用いられる。本明細書で使用される場合、これらの用語は、二本鎖形態を指すこともできる。核酸及びオリゴヌクレオチドを構成するモノマーは、規則的なパターンのモノマー間相互作用、例えば、ワトソン−クリック型の塩基対合、塩基の積層、フーグスティーン型又は逆フーグスティーン型の塩基対合などによって天然ポリヌクレオチドに特異的に結合し、二重鎖又は三重鎖形態を形成することができる。そのようなモノマー及びそのヌクレオシド間結合は、天然のものであってもよく、又はその類似体、例えば、天然もしくは非天然の類似体であってもよい。非天然類似体としては、ペプチド核酸、ロックされた核酸、ホスホロチオエートヌクレオシド間結合、標識、例えば、蛍光体、又はハプテンの付着を可能にする連結基を含む塩基などを挙げることができる。オリゴヌクレオチド又は核酸の使用が、ポリメラーゼによる伸長、リガーゼによるライゲーション、又は同様の反応などの酵素処理を必要とするとき、当業者は、それらの事例におけるオリゴヌクレオチド又は核酸が、ヌクレオシド間結合、糖部分、又は任意の位置もしくはいくつかの位置の塩基の特定の類似体が酵素反応と適合しない場合、そのような類似体を含まないことを理解するであろう。核酸は、典型的には、数モノマー単位(例えば、それらが通常「オリゴヌクレオチド」と呼ばれる場合、5〜40)から数十万以上のモノマー単位までの範囲のサイズを有する。核酸又はオリゴヌクレオチドが、「ATGCCTG」などの文字(大文字又は小文字)の配列によって表される場合、特に示さない限り、又は文脈から明らかでない限り、ヌクレオチドは左から右へ5'→3'の順序であり、「A」はデオキシアデノシンを表し、「C」はデオキシシチジンを表し、「G」はデオキシグアノシンを表し、「T」はチミジンを表し、「I」はデオキシイノシンを表し、「U」はウリジンを表すことが理解されるであろう。特に記述しない限り、専門用語及び原子番号の振り方は、Strachan and Read,Human Molecular Genetics 2(Wiley−Liss,New York,1999)に開示されている内容に従う。通常、核酸は、ホスホジエステル結合によって連結された天然ヌクレオシド(例えば、デオキシアデノシン、デオキシシチジン、デオキシグアノシン、DNAの場合にはデオキシチミジン、又はRNAの場合にはそのリボース対応物)を含む;しかしながら、それらは、非天然ヌクレオチド類似体、例えば、修飾された塩基、糖、又はヌクレオシド間結合を含むこともできる。酵素が、例えば、一本鎖DNA、RNA/DNA二重鎖といった、活性のための特定のオリゴヌクレオチド又は核酸基質要件を有する場合、オリゴヌクレオチド又は核酸基質の適切な組成の選択は、特に、専門書、例えば、Sambrook et al,Molecular Cloning,第2版(Cold Spring Harbor Laboratory,New York,1989)及び同様の参考文献などの手引きがあれば、当業者の知識で十分に対応できることが当業者には明らかであろう。本明細書で使用される場合、「標的核酸セグメント」は、シークエンシング又は再シークエンシングのために標的とされる核酸を指す。
【0022】
「ピクセル」は、分割できない位置での検出光のレベルを伝えるカメラの分割できない光感受性要素である。単色のピクセルは、単一の光検出要素である。色のフィルターを用いて、ピクセルで受容した光のスペクトルを決定することができる。
【0023】
「プライマー」は、ポリヌクレオチド鋳型とともに二重鎖を形成したときに、核酸合成の開始点として働き、かつ伸長した二重鎖が形成されるように鋳型に沿ってその3'末端から伸長することができる、天然又は合成のいずれかのオリゴヌクレオチドを意味する。伸長プロセスの間に付加されるヌクレオチドの配列は、鋳型ポリヌクレオチドの配列によって決定される。通常、プライマーは、DNAポリメラーゼによって伸長される。プライマーは、通常、9〜40ヌクレオチドの範囲の長さを有するか、又はいくつかの実施形態では、14〜36ヌクレオチドの範囲の長さを有する。
【0024】
本明細書で使用される「プローブ」は、未知配列の核酸内の相補配列を調べるために用いられる、天然又は合成のいずれかのオリゴヌクレオチドを指す。標的ポリヌクレオチドに対する特異的プローブのハイブリダイゼーションは、標的ポリヌクレオチド配列内のプローブに相補的な特異的配列を示す。
【0025】
核酸との関連における「シークエンシング」は、核酸中のヌクレオチドの配列に関する情報の決定を意味する。そのような情報は、核酸の部分的な配列情報及び完全な配列情報の同定又は決定を含むことができる。配列情報は、様々な程度の統計的信頼性又は信頼度で決定することができる。一態様では、この用語は、標的核酸中の異なるヌクレオチドから始まる核酸中の複数の連続するヌクレオチドの実体及び順序の決定を含む。
【0026】
本明細書で使用される「スポット」は、蛍光分子から放出される光の位置を指す。スポットは、必ずしも付着部位の中心にあるわけではない。
【0027】
「基板」は、剛体又は半剛体表面(単数又は複数)を有する材料又は材料の群を指す。この文脈では、基板の少なくとも1つの表面は、実質的に平らであるが、本発明に関連しない他の文脈では、異なる化合物の合成領域を、例えば、ウェル、隆起した領域、ピン、エッチングされた溝などで物理的に分離することが望ましい場合がある。他の実施形態によれば、基板(複数可)は、ビーズ、樹脂、ゲル、マイクロスフェアの形態、又は他の幾何学的形状を取る。本発明では、基板の表面は、解析を促進するために平面構造に限定される。
【0028】
本明細書で使用される場合、「Tm」という用語は、「融解温度」との関連で用いられる。融解温度は、二本鎖核酸分子の集団が半分解離して一本鎖になる温度である。核酸のTmを計算するためのいくつかの式が当技術分野で周知である。標準的な参考文献に示されているように、Tm値の簡単な推定値は、核酸が1M NaClの水溶液中にある場合、式Tm=81.5+0.41(%G+C)により計算することができる(例えば、Anderson and Young,Quantitative Filter Hybridization,in Nucleic Acid Hybridization(1985)を参照されたい)。他の参考文献(例えば、Allawi,H.T.& Santa Lucia,J.,Jr.,Biochemistry 36,10581−94(1997))には、Tmの計算のために、構造及び環境特性、並びに配列特性を考慮する別の計算方法が含まれている。
【0029】
従来の解析スライドは、1"×3"のシリコンチップからなり、このシリコンチップの表面に、官能化部位のアレイが作り出される。この部位は、シラン化プロセスによって酸化物表面に付着させられる正電荷を有する反応性アミンのサブミクロン領域である。周囲の領域は、中性の非反応性メチル基からなる。この部位は、4.5mm幅のレーンの中に、解析スライドの狭い方向に向かって配置されている。現在、19mm×60mmのカバースリップが、接着剤を用いてチップに結合させられている。接着剤は、最大4.5mm×19mmのレーンを形成する。カバースリップとシリコンスライドの間の間隔は、約50μmである。この50μmの間隔は、50μmのガラスビーズを接着剤に添加することによって維持される。
【0030】
導入ポートには5mm必要となるので、19mm幅のカバースリップは、最大25mm幅のシリコンスライドよりも実質的に小さい。導入部は、ピペットでレーンの上部に流体を分注する領域である。毛細管力によって、試薬がレーンの上部からカバースリップ下の隙間に移動する。スライドの下部では、余分な流体を排出するために、さらに1mmの距離が必要である。
【0031】
カバースリップの直下のレーンの上部と下部には、1mm〜4mmの侵入防止領域がある。試薬の蒸発、カバースリップのアラインメント精度、及び導入ポートの狭さゆえの接着剤の侵入のために、この侵入防止領域が必要である。これらの許容値を全て考慮すると、解析スライドの使用可能幅は、従来のスライドの可能な計25mmのうちの約12〜15mmである。
【0032】
既知の設計では、12個の4.5mmレーンが解析スライド上に構築される。これにより、54mmの最大使用可能幅が得られる。しかしながら、1レーン当たり1mmが接着剤レーンに割り当てられる。これにより、わずか42mmの最大使用可能幅しか得られない。より少ないレーンを作ることができるが、これは、ボンド線面積の減少とアラインメントガイドの喪失のために、チップを不安定にすることが観察されている。
【0033】
これらの寸法を考慮すると、従来のスライドのチップの全体の有用な面積率は、約(12.5mm×42mm)/(25mm×75mm)=28%である。必要なのは、使用可能な面積を増加させる設計、及び正確なアラインメントを実現するプロセスである。
【0034】
以下は、本発明が利用される開発中の解析技術の説明である。
【0035】
最近、全ゲノム研究のための有望な手法が、Radoje Drmanacが率いる本発明の出願人のグループによって導入された("Human Genome Sequencing Using Unchained Base Reads on Self− Assembling DNA Nanoarrays",Radoje Drmanac et al.,Science,327,p78−81,Jan 1,2010(これは、米国法の下では先行技術ではない))。コンビナトリアルプローブアンカーライゲーション化学を用いて、自己集合DNAナノボールのパターン化ナノアレイ由来の各塩基を独立にアッセイした。3つのヒトゲノムを、100,000塩基当たり約1個の誤った変異体という精度でシークエンシングした。このプラットフォームの精度の高さ、コストの低さ、及び拡張性により、大規模な遺伝子研究で稀少な変異体を検出するための完全なヒトゲノムシークエンシングが可能になる。
【0036】
Drmanacの研究における生化学的実験は、約25mm×75mmの大きさの長方形のチップ上で行なわれた。各チップは、報告によれば、規則的な長方形のパターンでその上にアレイ化された約10億個のDNAナノボールを有していた。このアレイ構造を視覚化することが有用である。
図1は、そのような生化学アレイチップ100の概念図を示す。ナノボールの数が膨大であるため、チップが概念的にフィールド;例えば、フィールド105に分割されている。典型的なフィールドサイズを0.5mm×1.5mmとし得るが、正確なサイズは重要でない。扱いやすいサイズのフィールドは、イメージング解析を扱いやすい塊で行なうことを可能にする。ステップ・アンド・リピートのイメージングシステムでは、フィールドサイズは、システムの視野に対応することができ;連続スキャニングシステムでは、フィールドサイズは、データ処理に好都合な単位であることができる。
【0037】
図2を参照すると、生化学アレイチップのフィールド200の概念図が示されている。このフィールドは、DNAシークエンシング実験が行なわれるスポット(例えば、スポット205、210、215)のアレイを含む。
図2のフィールドは、わずか数百個のスポットで描かれているが、実際のフィールドは、約10,000〜1,000,000個のスポットを含むことができる。挿入
図220は、6個のスポットを示し、これらのスポットから、4つの色:青色(「B」)、赤色(「R」)、黄色(「Y」)、及び緑色(「G」)のうちのいずれかの蛍光を観察することができる。使用される実際の色は、選ばれる蛍光色素の選択によって決まり、色素放出スペクトルデータに関して特定することができる。挿入
図220に示す6個のスポットは、各々異なるスペクトルを読み取る6つの同時並行のDNA実験から読み出されるデータに対応する。この場合、蛍光データは、挿入
図225に示すように、アデニン(「A」)、グアニン(「G」)、シトシン(「C」)、及びチミン(「T」)を示す。
【0038】
DNAチップ上の各部位は、配列が決定されるべきDNAの鎖を含むことが意図される。
図2に示す挿入
図220の読出しは、鎖中のDNAの配列を決定する際の単一の工程に対応する。読取りプロセスは何回も繰り返される。
【0039】
チップ上のどのスポットを見ているかを正確に把握することが重要である;そうでなければ、蛍光色を記録することで得られるデータは無意味である。フィールドスポット、すなわち、蛍光色素分子が光を放出する位置は、名目上、規則的な長方形のパターンで存在する。DNAナノボールは、チップ上に規定されたDNA付着部位の中心に必ずしも正確に位置するわけではないので、実際のパターンは正確なものではない。フィールドスポットはカメラで見られ、カメラの画像センサーは、光感受性ピクセルの規則的な長方形のアレイを含む。
【0040】
必要なのは、処理量を増加させ、それによりシークエンシング能力を向上させるために、チップ上の情報含有量を最大化し、レジストレーション標的を提供し、かつイメージングシステムの対照情報を提供するメカニズム及び方法論である。
【発明の概要】
【課題を解決するための手段】
【0041】
本発明によれば、ゲノムシークエンシングのシステム及び方法において、光学解析を受けるナノボールの平面アレイの画像の正確なアラインメント及び正確なレジストレーションを達成するプロトコルが提供される。わずかなオフセットを修正する正確なアラインメントは、最小化技術及びモアレ平均化を用いて、サブ周期のx−yオフセット、スケール、及び回転の誤差を修正することによって達成される。モアレ平均化では、倍率は、イメージング要素のピクセル周期が部位周期の非整数倍となるように意図的に設定される。正確なレジストレーションは、予め規定された部位の組、本明細書では、欠失部位又は留保部位を提供することによって達成され、その場合、ナノボールは、アレイの部位をパターンマッチング方式で絶対位置特定のためのレジストレーションマーカーとして用いることができるように、基板への付着が妨げられている。
【0042】
具体的な実施形態では、DNAナノボールは、アレイにおいて留保部位以外の部位で自己集合し、対応するマスク(交差相関に用いられる数学的鋳型)を用いて、アレイを絶対位置に合わせることができる疑似ランダム部位又は欠失の微小マーカーの二次元パターンを残す。二次元空間誤差、スケーリング誤差、及び回転誤差の最小化を用い、さらにモアレ平均化を適用して、最良フィットグリッド内のイメージング光学の光学解像度を超える極めて高い精度で、画像解析フィールド内の全てのDNAナノボールのアレイからの光のスポットに対するアラインメントを達成することができる。したがって、それが既知の位置と相関しているという十分な信頼性をもって情報を引き出すことができ、同時に、チップ上に搭載することができる情報量が最大化される。
【0043】
具体的な実施形態では、欠失パターンは、アレイの1%超かつ3%未満を含む。欠失スポット位置は、絶対位置レジストレーションを助けるために、疑似ランダムパターンに従って選ばれることが好ましい。局所的レジストレーションは、明確な範囲が欠失パターンの周期未満である限り、規則的な欠失パターンで可能となる。
【0044】
他のタイプの情報は、行/列による同定パターンである。各フィールドは、チップ上のフィールドの位置を特定する固有の欠失パターンを有し、これにより、チップ上のフィールドの位置の独立した確認が可能になる。これにより、複数の欠失パターンがアレイに組み込まれる。これらの欠失パターンの各々は、互いに実質的に直交するように選択される。
【0045】
具体的な実施形態では、精密アラインメント技術は、ヤコビアンベースの距離最小化法を利用する。
【0046】
本発明の主な目的は、最大量の情報を引き出すことができるように、基板上の使用可能な官能化部位の数を最大化することである。本発明の他の目的は、付着部位での要素の迅速な解析を可能にし、高密度の部位を提供し、試薬の使用を最小限に抑え、汚染を最小限に抑え、機械的に頑健であり、イメージングのために十分平らであり、低コストであり、かつ容易に製造されるチップ設計を提供することである。
【0047】
本発明は、添付の図面と関連させて以下の詳細な説明を参照することにより、より良く理解されるであろう。
【図面の簡単な説明】
【0048】
【
図1】生化学アッセイチップ(従来技術)の概念図である。
【
図2】生化学アッセイチップ(従来技術)のフィールドの概念図である。
【
図3】本発明によるアレイチップアッセイでのイメージング及び生化学的処理のための2段階プロセスを示す概念図である。
【
図4】本発明によるアッセイシステムの一実施形態の透視図である。
【
図5A】アッセイチップの代表的なトップサイド担体の側面図である。
【
図6】本発明によるアラインメントエンジンの機能ブロック図である。
【
図7】アラインメント決定に用いられる実際のフィールド及び関連する解析グリッドを示す概念図である。
【
図8】
図8A−8Cは、回転、スケール、及びオフセットを示す図である。
【
図9】モアレ平均化の必要性を説明するためのフィールドスポット対ピクセルの一次元アラインメントを示す図である。
【
図11】
図6のアラインメントシステムの基本的な流れ図である。
【
図12】フィールドスポットのイメージングを示す図である。
【
図13】
図13A−13Bは、アラインメント前後のフィールド及びグリッドパターンを示す図である。
【
図14】反復粗フィット手順の工程の疑似コード表である。
【
図15】本発明による解析的な精密グリッドフィット手順に関係するベクトルを示すグラフである。
【
図16】本発明によるピーク閾値識別の結果を示すグラフである。
【
図17A】整列させられているが、フィールドとの位置合わせがされていないグリッドを示す図である。
【
図17B】整列させられ、フィールドとの位置合わせがされているグリッドを示す図である。
【
図18】本発明による疑似ランダム位置で欠失を有するチップのフィールドの図である。
【
図19】グリッドオフセットデータを示すグラフである。
【
図20】サブピクセルグリッドアラインメントを示す図である。
【発明を実施するための形態】
【0049】
図3は、以下に記載するようなアレイチップアッセイで用いられるイメージング及び生化学的処理工程の概念図である。
図3において、挿入
図300〜320は、それらが、チップ上の数個のスポットにおける観察を示すという点で、
図2の挿入
図220と似ている。挿入
図300、310、及び320は、蛍光データを読み出すアラインメント及びイメージング工程を示し;挿入
図305及び315は、イメージング工程とイメージング工程の間に行なわれる生化学的処理工程を示す。チップ上の1つのスポットにおけるDNAの配列は、イメージング工程と生化学的処理工程を繰り返すことにより決定される。例えば、挿入
図300において、1つの青色蛍光スポット「B」が丸で囲まれている。この同じスポットは、挿入
図310では赤色(丸い「R」)の蛍光を発し、挿入
図320では緑色(丸い「G」)の蛍光を発する。したがって、1つのスポットにおける3サイクルのイメージング及び生化学的処理により、蛍光配列「BRG」(青色、赤色、緑色)が明らかにされる。このことを、例示目的で、DNA配列AGT(アデニン、グアニン、チミン)に対応するものとして
図3に示す。
【0050】
図3の各々の「整列させ、位置を合わせる」工程は、実際、使用される4つの色素の色に対応する4つの画像の取得を含むことができる。超高密度システムでは、光学及び検出装置を検出すべき各波長に合わさなければならない。
【0051】
シークエンシングを、コンビナトリアルプローブ−アンカーライゲーションを用いて自己集合DNAナノボールアレイ上で行なう場合、生化学的処理工程(例えば、305、315)は、アラインメント及びイメージング工程(例えば、300、310、320)よりも顕著に長く時間がかかる。生化学的処理の間に他のチップをイメージングすることができるように、チップは、その間、イメージング装置から取り外される。
【0052】
図4は、官能化シリコンチップ12を有するフロースライドを示す代表的なアッセイシステム10を示したものである。このシリコンチップ上で、光学解析すべきDNAサンプルは、花崗岩のテーブル20に支持された二次元変換ステージ18に支持された真空チャック16により保持された担体14に取り付けられる。対物レンズ22は、シリコンチップ12の表面を観察し、アラインメントエンジン26に情報を供給するイメージングシステム24に画像を提供するように配置される(
図6)。
【0053】
イメージングシステム24は、4チャンネルの蛍光検出システム(見えない)を含み、この検出系では、各チャンネルは、チップ12上の各々の付着部位における遺伝子材料の鎖の塩基の種類のうちの1つの蛍光を測定する。光は、スポット又は領域で発生し、光のピークは、その部位のどこかに由来する。この場合、T、G、C、及びA(チロシン、グアニン、シトシン、及びアデニン)の存在の測定は、それぞれ、Fam、Cy3、Texas Red、及びCy5色素によって行なわれる。各々の色のためのフィルター28を所定の位置に動かし、1フィールド当たり合計4つの画像を得るために1色当たり1つの画像を取得する。この工程は、多重イメージングシステムと多重フィルターを用いて組み合わせることができる。
【0054】
図5A及び
図5Bを参照すると、チップ12が取り付けられる担体14の一実施形態の概略図が示されている。1つのチャンネル13を示した側面図(
図5A)において、サンプルは表面15上にあり、流体は、入力ポート17からアクセスでき、出力ポート19から排出される。上面図(
図5B)において、チャンネル13のような、複数の並列チャンネルがあることが分かり、それらは各々、チップと担体の間の距離間隔よりも実質的に大きい幅を有する。チャンネル13に沿った部位の蛍光を観察する手段がある限りにおいて、他のチップ/担体設計を用いることができる。
【0055】
図6を参照すると、好適なエンジン26が、2Dアラインメント及びレジストレーションプロセスを行なうために用いられる機能要素によって示されている。関与するプロセスは、以下で、例えば、
図11と関連させて、さらに説明されている。解析エンジン26は、第一に、アレイ内の基本となるパターンの画像を取得し、第二に、このパターンを整列させ、第三に、この画像の位置を合わせるという3つの主要操作を実施するために作動する。このプロセス、及びチップ12上の材料のパターン化アレイからの光学データを入力として用いることに対する準備として、パターン化アレイを、ノイズを削除するために用いられるバックグラウンドマスクによってまず特徴付ける。最も暗い部位をバックグラウンド減算器30で、モルフォロジカルオープニング(要素32)又はブロック・バイ・ブロックミニマ(要素34)と呼ばれるプロセスによって、解析グリッドから削除する。この2つのプロセスのうち、モルフォロジカルオープニングプロセスの方がより正確ではあるが、より遅いと考えられており、それを単独で又は他のプロセスと組み合わせて、バックグラウンド減算関数の出力を得ることができる。
【0056】
次に、二次元ピーク検出器36が、通常、5×5又は3×3のアレイのチップ12(
図12参照)からイメージングされたピクセルの小さいブロック上でピーク検出を行ない、使用可能なデータを収集するために蛍光の局所最大値を光学的に同定する。この小さいブロックは、物体をチップ12のX軸とY軸を横切って、また、X軸とY軸に沿って動かすときに、重複する場合がある。
【0057】
その後、グリッドアラインメントサブシステム38を起動する。グリッドアラインメントサブシステム38の操作の基礎になる因子を理解することは有益である。チップ12の画像にフィットするグリッドパターンを生成させる第一の操作は、4つの主な自由度:以下で説明する、スケール、回転、並びにXオフセット及びYオフセットの影響を受ける。光学において非点収差又は歪曲収差が存在する場合、より多くの自由度を含めることができる。非点収差は、グリッドのX軸とY軸の間で異なるスケール係数を生じさせる。径方向の倍率変動は、いくつかの可能性のある歪曲収差のうちの1つである。各々のさらなる変動度によって、他方の軸における一定量の不確実性が加わることになる。各々のさらなる自由度によって、解析時間の点でコストがかかることにもなり、したがって、通常は、4つの自由度しか用いられない。通常、グリッドアラインメントプロセスには4つの入れ子プロセスがある。第一は、ブルートフォース式のパラメータサンプリングを実施して、グリッドを迅速かつ大雑把にスポットにフィッティングさせる粗フィット42である。第二は、粗フィット42で得られたフィットの解析的最適化が行なわれる第一段階の精密フィット44である。その後、データをピーク閾値設定プロセス46に送り、以下で説明するような、プロセシングのためのさらなる候補スポットを特定する。その次は、グリッドアラインメント38を微調整するための第二段階の精密フィットによる解析的最適化48である。
【0058】
第二の操作は、グリッドレジストレーションサブシステム40によって、レジストレーションが完全なものとなるようにグリッドパターンのレジストレーションが終了するまで行なわれる。この操作において、画像中のグリッドパターンの位置が探し出される。その目的は、どのグリッドパターンがイメージングされているのかを特定することである。これは、部位占有を見ることによって達成される。以下で説明するように、欠失パターンに基づいて行なわれる部位占有試験には:全てのフィールドに共通のグリッド欠失を用いる試験49、及び行/列欠失を用いて特定のグリッドの行と列を特定する試験51の2種類がある。
【0059】
したがって、前述の2Dアラインメント及びレジストレーションエンジンに関係する4つのプロセスは、(1)バックグラウンド減算、(2)ピーク検出、(3)グリッドアラインメント、及び(4)グリッドレジストレーションである。それらを以下でより詳細に説明する。
【0060】
バックグラウンド減算
バックグラウンド減算は、迷光を抑制するのに必要なプロセスである。蛍光システムにおける迷光は勾配を有することがある。これらの勾配は、フロースライド上の欠陥や染みの結果であることがある。したがって、バックグラウンド減算は常に必要である。
【0061】
いくつかの異なるバックグラウンド減算法がある。画像を強度として保存し、負数は許容しない。バックグラウンド減算は、通常、領域内の最小強度ピクセルの発見とその強度の較正からなる。最も簡単な技術は、最小ピクセルの強度を小さなサブ領域内で探し出すブロックバックグラウンド減算である。それよりも少しましな結果をもたらす方法は、領域内の最小ピクセルを探し出すモルフォルジカルバックグラウンドプロセスであり、この場合、その領域は、画像全体をスキャンしたウィンドウとして定義される。このプロセスは、はるかに長い計算時間を必要とするので、ブロック減算よりも遅い。他のバックグラウンド減算法を用いてもよい。
【0062】
ピーク検出
ピークは、3×3もしくは5×5の領域、又は(2n+1×2n+1)(式中、n=1、2、3、4....である)で規定されるより大きい領域のいずれかで最大となるピクセルを同定することによって見出される。選ばれるフィルターのサイズは、グリッドの固有のピッチと対象とするスポットのサイズの関数である。本目的のために、ピッチは、1スポット当たり4ピクセル以下であり、また、スポットサイズは、1〜10ピクセルを占めるので、3×3グリッド及び5×5グリッドが好ましい。
【0063】
グリッドアラインメント
グリッドパターンの整列は、ヤコビアン変換の特性を利用する。これは、ポイントの抽象的グリッド405をスポットの実際のフィールド400にフィッティングさせることにより示される。
【0064】
図7を参照すると、フィールドスポットの記録を助けるために、抽象的グリッド405を用いる。グリッドは、フィールド400のフィールドスポットのパターンをできるだけ密接にフィッティングさせる理想的なアレイの座標を表す。グリッドは、それが厳密に正方形であり、一定の周期性を有するという意味で理想的である。
【0065】
唯一の観察可能な量は、画像センサーにおけるピクセル強度であるので、グリッドがピクセル参照フレームのどこに位置するのかを正確に知ることは有用である。
図8A、8B、及び8Cは、それぞれ、グリッド回転誤差、グリッドスケール誤差、及びグリッドオフセット誤差の概念を示している。グリッド位置の探索は、これらの誤差をできる限り減らすことを含むプロセスである。回転誤差は、
図8Aのように、フィールドとグリッドが互いに対して回転するときに生じる。スケール誤差は、
図8Bのように、グリッドがフィールドの周期性と異なる周期性を有するときに生じる。オフセット誤差は、グリッドが、面内で;例えば、
図8Cに示すように、X又はY方向にずれるときに生じる。1つのタイプのオフセット誤差は、グリッドポイントとグリッドポイントの間の距離の半分未満のオフセットである。レジストレーション誤差として知られる第二のタイプのオフセット誤差は、整数のグリッド周期のオフセットである。
【0066】
グリッドポイントはフィールドスポットにフィッティングされるが、フィールドスポットは、無限に高い解像度で見ることができないので、観察は、離散的カメラピクセルによるしかない。整数の関係性を避けるように、フィールドスポットの周期とカメラピクセルの周期の比を慎重に選ぶことで、グリッドアラインメント操作の精度が高くなる。まず、
図9に示すように、フィールド周期がピクセル周期の整数倍である場合のフィールドスポットをイメージングする1次元の例を考える。
図9において、スポット600、605などを含むフィールドスポットのラインは、周期、又はスポット間の間隔Λfを有する。ピクセル620、625、630などを含むカメラピクセルのラインは、周期Λpを有する。
図9の例では、Λf=nΛp(式中、nは整数)である。スポットのラインをピクセルのラインとともに観察することを考える。画像「A」では、スポットは、ピクセルの中心に整列させられている。画像「B」では、スポットは、ピクセルの左上の隅に整列させられている。しかしながら、ピクセルだけを用いて、画像「A」と画像「B」を区別することはできない。ピクセルは、光がそのどこに位置するかを決定することができない。したがって、
図9の例では、ピクセル、したがって、グリッドは、0.707Λpほども誤整列させられることがあり、誤差を検出するのは難しい。
【0067】
1つの解決策は、
図10のフィールドスポットをイメージングする概念的な一次元の例に示されているように、ピクセル周期の整数倍ではないフィールド(及びグリッド)周期を選ぶことである。
図10では、スポット700、705などを含むフィールドスポットのラインは、周期、又はスポット間の間隔Λfを有する。ピクセル720、725、730などを含むカメラピクセルのラインは、周期Λpを有する。
図10の例では、8Λf=9Λp(同じく、Λf=1.125Λp)である。ピクセルが「1」から「9」で標識されている740で示されるように、スポットのラインをピクセルのラインとともに観察することを考える。フィールドスポット1及び9とピクセル1及び9は、9ピクセル毎にのみ正確なアラインメントが見られることを示している。スポットとピクセルの相対位置は互いに、介在するピクセル全体に広がる。ボックス750は、互いに重畳されたピクセル「1」から「9」の拡大図である。スポットは、拡大された重畳ピクセル全体に均一に広がる。スポット周期とピクセル周期の差は、ピクセルの長さを同じ幅でサンプリングするスポットを生じさせる。重畳750の全スポット位置の平均から、最良フィットフィールド位置(すなわち、グリッド位置)が推定され、その誤差は、係数
【数1】
(式中、Nは、反復と反復の間のピクセル数であり;この例では、N=9である)によって低減される。
【0068】
明らかなことだが、フィールドスポットは、無限に小さい範囲を有するのではなく、実際、光は、ある空間分布で放出される。表意記号760は、点光源から標準偏差σによって特徴付けられるガウス範囲を有する源への一般化を示す。その場合、達成することができるフィット誤差は、
【数2】
に比例する。
【0069】
ピクセル周期の整数倍ではないフィールド(及びグリッド)周期を選ぶことにより、サブピクセル解像度でのグリッドフィッティングが可能になる。
図9及び10は、フィールドアレイとピクセルアレイの間で意図的なモアレパターンを作成する一次元の例のみを示す。実際のシステムでは、同じ原理を二次元で適用する。しかしながら、二次元モアレパターンの恩恵は、垂直の一次元モアレパターンの単純な連続適用よりも大きい。
【0070】
重畳ピクセル750において、サンプリングされるフィールドスポット位置は、ピクセルを左から右に横断するライン上にある。モアレ原理を垂直方向に適用するが、2つ別々の(例えば、XとY)フィッティング手順を実施することによって、示されているようなラインで、かつ垂直線に沿ってピクセルをサンプリングするスポットが得られる。しかしながら、以下で見るように、二次元のグリッドフィッティングは、X誤差とY誤差を別々に最小化するのではなく、グリッド位置とフィールドスポットの間の二乗距離(例えば、Δx
2+Δy
2)を1段階で最小化することを含む。二乗距離が最小化された量であるとき、重畳ピクセル領域全体をサンプリングする。
【0071】
図10の例では、フィールドスポットとピクセルが、9ピクセル毎に一列に並び、それにより、モアレ縞又はうなり周期が規定されている。1つのフィールドに見られる縞の数は、通常、およそ10〜20個になるように選ばれる。縞の真直性を用いて、フィールド歪曲収差を検出することができる。
【0072】
二次元でできるだけ正確にグリッドをフィールドにフィッティングさせる手順の結果として、カメラ画像センサー内のピクセルの座標系の観察されたフィールドにフィットした規則的な長方形のグリッドが得られる。
図11は、本発明によるシステムで利用され、
図6のエンジンに対応するグリッドアラインメント及びレジストレーション手順における工程を示す。
図11において、工程805、810、815、820、825、830、及び835は、通常、示されている順序で実施される;しかしながら、この工程の順序は、この手順の必要条件ではない。さらに、全ての状況で全ての工程が必要とされるわけではなく;そのため、これらの工程のうちのいくつかは省略することができる。例えば、全ての状況で、ピーク閾値設定識別825や精密グリッドフィット830が必要とされるわけではない(例えば、高い精度が必要とされない場合)。
【0073】
カメラの画像センサーによって記録されるフィールドの画像から始めて、工程805は、その画像からバックグラウンドシグナルレベルを差し引く。工程810は、フィールドスポットを検出する;すなわち、蛍光色素によって放出されるシグナルが画像中のどこに現われるかを探し出す。工程815は、反復手順を用いて、フィールドスポットに対する粗グリッドフィットを行なう。工程820は、解析的手順を用いて、フィールドスポットに対する精密グリッドフィット行なう。工程825では、フィールドスポットをピーク閾値設定識別によって再び対象化する。工程830は、再び対象化されたフィールドスポットに対して行なわれる解析的手順を用いた、フィールドスポットに対する2回目の精密グリッドフィットである。工程835は、適切なオフセットでグリッドの位置を合わせる;つまり、任意のモジュログリッド周期誤差を修正する。
【0074】
図12は、フィールドスポットのイメージングの概念図を示す。
図12では、いくつかのフィールドスポットがボックス905で示されている。スポットは、様々な輝度を有し;蛍光を全く放出しないスポットもあれば、明るいスポットもある。DNAシークエンシングシステムで取得される典型的なフィールドでは、一度に1つの蛍光色しかイメージングされないので、フィールドスポットの4分の1以下しか見えない。したがって、フィールドはまばらであってもよい。
【0075】
挿入
図910は、画像センサー内のピクセルによって記録された数個のスポットを示す。単一のフィールドスポットからの光は、2ピクセル以上で検出することができる。若干のバックグラウンドノイズ−最も近いフィールドスポットからの放出がないときにゼロよりも大きい輝度を記録するピクセルもある。
図12に概説した手順における最初の工程は、前述のような、バックグラウンド減算である。バックグラウンド減算の1つの方法は、画像中の最も暗いピクセルによって記録された輝度を取得し、その輝度を画像中の全てのピクセルから差し引くことである。例えば、挿入
図910では、ピクセル915が最も暗く、その輝度を挿入図中の全てのピクセルから差し引くことができる。バックグラウンド減算は、通常、フィールド内のスポットのサブセットに相当するピクセルの連続するブロックに対して行なわれる;すなわち、フィールドの画像中の全てのピクセルに対して一度に行なわれるわけではない。
【0076】
バックグラウンドレベルが画像から差し引かれると、フィールドスポットが検出される。1つの手法は、ピクセルのサブユニット、例えば、5×5アレイを検討し、最も明るいピクセルの位置がフィールドスポットの位置であると指定することである。フィールドスポットを検出するための別の方法は、ガウス分布をピクセル輝度レベルに当てはめ、最良フィット分布のピークに最も近いピクセルの位置を用いることである。挿入
図910において、白い三角形は、フィールドスポットの位置として特定されたピクセル、例えば、ピクセル920を示す。
【0077】
フィールドスポットが特定されれば、グリッドをフィールドスポットにフィッティングさせるプロセスを開始することができる。出発点として、画像センサー内のピクセルと整列されるグリッドを規定することができる。グリッドフィッティングは、グリッドをできる限り密接にフィールドスポットと整列させるように、グリッドを調整することを含む。
【0078】
最良フィットを見つけるために、グリッドの回転、スケール(すなわち、倍率)、並びに側方(x及びy)オフセットという4つのパラメータを調整する。非点収差、歪曲収差、反り、及び他の種類の誤差のより正確なフィッティングを可能にするより多くのパラメータを用いてグリッドを設計してもよい。これらのより高次の誤差は、レンズ、チップ基板、又は変換ステージの欠陥などの因子によるものである。これらの誤差は、イメージングシステムで動的に補償するのが、回転、スケール、及びオフセットよりも不便である。
【0079】
図13A及び
図13Bは、二次元アラインメントの前(「A」)及び後(「B」)のフィールド1000及びグリッド1005の概念図である。アラインメント後、グリッド周期を法とするオフセット誤差を除いて、フィールドスポットの位置とグリッドポイントの位置は実質的に一致する。(グリッド周期と等しい距離だけの規則的なグリッドの変換は、グリッドの末端の位置、又は同じくその起点が分からなくても、グリッドを変化させない。起点を見つけるための又はグリッドの「位置を合わせる」ための方法は以下に記載されている。)
【0080】
グリッドアラインメントは、反復粗フィット手順と解析的精密フィット手順(単数又は複数)の両方を含む。反復粗フィット手順の結果として、各グリッドポイントが任意の他のフィールドスポットよりも正確なフィールドスポットに近いフィットが得られる。
図13では、フィールド1000とグリッド1005が、「A」において正しく整列されておらず、グリッドポイントが、正確なフィールドスポットよりも不正確なフィールドスポットに近くなることがある。「B」では、各グリッドポイントは、グリッド周期を法として、その正確なフィールドスポットに最も近い。
【0081】
図14は、反復粗グリッドフィット手順における工程の疑似コード表である。ボックス1100中の工程は、パラメータ値の四次元のメッシュに関する関数を評価するループが四重に入れ子になったものである。変化するパラメータは、:グリッド回転(「θ」)、グリッド倍率又はスケール(「S」)、グリッドX変換又はオフセット(「X」)、及びグリッドY変換又はオフセット(「Y」)である。各メッシュスポットで評価される関数Fは、各グリッドポイントと最も近いフィールドスポットの間の二乗距離の和:
【数3】
(式中、ベクトル
【数4】
は、フィールドスポットの位置であり、ベクトル
【数5】
は最も近いグリッドポイント又はグリッド内の参照の位置であり、和Fは、フィールドスポット全体である)である。
【0082】
検討する各(θ,S,X,Y)組合せについてFの値を記録する。Fの最小値が得られる組合せは、この反復手順を用いて入手可能な最良フィットである。パラメータ値のより細かいメッシュを通り抜けるにはより多くの時間がかかるので、有限ステップサイズのΔθ、ΔS、ΔX、及びΔYは、粗フィットを実施するのに必要な時間の長さに影響を与える。最適な(θ,S,X,Y)組合せは、ほぼ確実に、メッシュ点とメッシュ点の間にあるので、粗フィッティング手順から最適フィットが得られる可能性は低い。ステップ幅[θmin,θmax]、[Smin,Smax]、[Xmin,Xmax]、[Ymin,Ymax]は、各グリッドポイントがその正確なフィールドスポットに最も近いものとなる解がパラメータメッシュに含まれるように選ばれる。
【0083】
一般に、フィールドスポットの組を処理するとき、何個の蛍光シグナル(例えば、DNAナノボール由来のもの)を探せばよいかということは予め分からない。フィールドスポットのわずか数パーセントから50パーセント又はそれ以上までの範囲を「照らす」ことができる。フィールドスポットであるように見える他のピクセルは、単にノイズである可能性がある。したがって、粗フィット手順では、明るいフィールドスポットだけを用いる。通常、検出されるフィールドスポットのうちの最も明るい15%だけを粗フィッティングに含めるが、具体的な閾値は、技術的選択の問題である。
【0084】
反復フィット又は粗フィットが行なわれれば、解析的精密グリッドフィット手順によってフィットが最適化される。概念的には、精密グリッドフィットは、(どれほど明確なものであっても)各グリッドポイントを最も近いフィールドスポットにゴムバンドで接続し、その後、グリッドを適応させることに相当する。
図15は、精密グリッドフィット手順に関係するベクトルを示す。
図15において、r=(xi,yi)は、フィールドスポットであり、一方、rgrid=(pmi,pni)は、正方形グリッドのグリッドポイントである。ここで、pは、グリッドポイント(交互に、「ピッチ」、「周期」、「スケール」、又は「倍率」と呼ばれる)の間隔であり、mi及びniは、フィールドスポットに最も近いグリッドポイントを選択する整数インデックスである。ベクトル
【数6】
は、グリッド変位ベクトルであり、ベクトル、
【数7】
は、フィールドと、グリッド及びグリッド変位の和のベクトルとの間の誤差である。この誤差は、フィールド、及び
【数8】
(式中、θは、x−y平面に垂直な軸の周りのフィールドに対するグリッドの回転を表す)による変位に関する。精密フィット手順の目的は、グリッドとフィールドの誤差を最小化するx0、y0、θ、及びpの最適値を見つけることである。これらの値を見つけるために、二乗誤差の和を:
【数9】
(式中、Nは、フィールドスポットの数である)と表す。次に、4つの独立変数x0、y0、θ、及びpの各々に関するχ
2の偏導関数を0とすることにより、(ヤコビアン変換として知られる)以下の方程式の組が得られる:
【数10】
【0085】
ここでは、小角度近似値のcosθ=1及びsinθ=θを用いて、方程式が線形化されており、和は、以下の慣例に従って表される:
【数11】
必要に応じて、行列方程式の解を求め、x0、y0、θ、及びpを得る。
【0086】
最初の精密グリッドフィットが得られれば、ピーク閾値識別、その後のさらなる精密フィットにより、フィットのさらなる改善を達成することができる。粗フィット及び精密フィットの第一段階では、ごく一部のフィールドスポットしか検討されない。通常、検出されたフィールドスポットのうちの最も明るい15%しか、第一段階の精密フィッティングに含まれないが、実際のパーセンテージは、技術的選択の問題である。最も明るいスポットだけを第一段階に用いる理由は、より暗いスポットの多くがノイズであり得るということである。しかしながら、粗フィッティング及び精密フィッティングの後、ピーク閾値識別によって、どのスポットをフィットに含めるべきかを最評価することができる。
【0087】
フィールドスポットをフィットに含めるための使用可能な輝度閾値を規定するために、最初の粗フィッティング及び精密フィッティングで用いられるものだけでなく、全てのフィールドスポットをグループに分類する。グループは、例えば、最も明るい50個のスポット、次の最も明るい50個のスポット、又は最初の1000個と次の1000個などである。(数は、グループ内の全スポットの平均二乗距離誤差が統計的有意性を有する程度に十分大きければよい。)次に、これらのグループを平均二乗距離誤差対輝度のグラフにプロットする。
図16は、通常のフィールドのピーク閾値識別データのグラフ1305である。
図16において、平均二乗距離誤差が小さいグループのフィールドスポットは、平均二乗距離誤差が大きいグループのフィールドスポットよりも明るい。このグラフは、より暗いスポットのグループの平均二乗距離誤差が急に大きくなるかなり急なカーブを有する。閾値をこのスポットの近くに引くことができる(例えば、
図16に引かれた閾値1310)。平均二乗距離誤差が閾値よりも小さいグループのフィールドスポットの数は、通常、粗フィット及び第一段階の精密フィットで用いられるフィールドスポットの数の15%よりも有意に多い。次に、このより多くの数のフィールドスポットを用いて、
図15と関連させて記載されている精密フィット手順を繰り返すことができる。
図16において、例えば、閾値1310を下回る最も暗いスポット、すなわち、破線1315の右側にあるスポットよりも明るいフィールドスポットは全て、2回目の精密フィットに含めることができる。
【0088】
この時点で、グリッドを整列させ、同様に、それを蛍光スポットのフィールドに対しても整列させることができる。グリッドは、依然として、X方向とY方向の整数のグリッド周期だけフィールドからずれている場合がある。
図17Aは、フィールドと整列させられているが、適切なオフセットでまだ位置合わせがされていないグリッドの概念図を示す。
図17Aでは、「A」において、フィールド1400とグリッド1405は整列させられているが、位置合わせされていない。
図17Bでは、「B」において、フィールド1400とグリッド1405が適切に位置合わせされている。しかしながら、これまでに記載したアラインメント及びフィッティング手順では、
図17Aと17Bの状況「A」と「B」を区別することができない。したがって、さらなるレジストレーション手順が必要である。
【0089】
本発明によるレジストレーションは、フィールドスポットの疑似ランダム欠失パターンを用いて効率的に達成することができる。
図18は、本発明による疑似ランダム欠失パターンを有する二次元フィールド1500の概念図を示す。アレイは、生化学実験、例えば、DNAナノボールを用いるプローブ−アンカーライゲーションをサポートする何十億もの部位を含むことができること、及び表面部位以外の基板の部分は、生化学実験をサポートしないことが理解される。そのような領域は、生体分子の非特異的結合を減少させるように化学処理されている。フィールド内のスポットの一部、例えば、スポット1505及び1510は、欠落している、すなわち、欠失している。蛍光タグ化生体分子が、これらのスポットで見られる可能性は低く、したがって、どのスポットが欠落しているかという知識は、フィールドの位置をグリッドに正確に合わせるために用いることができる。
【0090】
自己集合DNAナノボールアレイ用のチップを、半導体リソグラフィー技術、並びに直接描画eビーム技術及びミクロ接触プリンティング技術を用いてパターン化することができる。例えば、正電荷を有するアミン基を、フィールドアレイ内の負電荷を有するDNAナノボールに結合するようにパターン化することができる。フィールドアレイ内のスポットの欠失は、アミン基をパターン化するために用いられるリソグラフィーマスク(複数可)から特徴を取り除くことによって達成することができる。特定のフィールドスポットの位置にアミン基がない場合、DNAナノボールは付着しないと考えられる。
【0091】
疑似ランダム欠失パターンは、交差相関技術を用いてフィールドアレイの既知の「マスク」パターン又は疑似ランダムパターンと一致させることによって、レジストレーションに用いられる。マスクの位置をフィールドと適切に合わせた場合、穴が欠失スポットと並ぶので、光はほとんど見られない。マスクが、いくらかの数のフィールド周期だけフィールドからずれた場合、偶然穴に入ったスポットからの光はマスクを通過する。マスクを通過する光の量は、マスクとフィールドの位置が合わされている場合を除き、全変位にほぼ等しい。
【0092】
図19に、グラフ1605におけるグリッドレジストレーションデータの例を示す。このグラフは、0〜81のフィールド周期のオフセットの輝度を示している。これら81個のラスターパターンオフセットは、XオフセットとYオフセットの二次元9×9フィールドのラスターパターンオフセットである。グリッド周期数40を除く、各々のオフセットについて、疑似ランダムパターンとして現われるフィールドスポットの輝度は、およそ425任意輝度単位である。オフセット40では、輝度はゼロに近い。81個のオフセット周期のラスターパターンであるため、オフセット40は、X=4、Y=4を表す。これは、グリッドの位置をフィールドに合わせるために必要なオフセットである。
【0093】
疑似ランダム欠失パターンを用いて、フィールドを特定するだけでなく、グリッドポイントの位置をフィールドスポットに合わせることもできる。
図18を例として参照すると、各フィールドに、全てのフィールドに共通し、かつレジストレーションに用いられる第一の疑似ランダム欠失パターンが提供されている。さらに、各フィールドは、さらに2つの疑似ランダム欠失パターン:
図6のシステムと関連させて示されている、チップ上の特定のフィールドの行を特定するパターンとチップ上の特定のフィールドの列を特定するパターンを有することもできる。したがって、各々の観察されたフィールドパターンは、レジストレーションに用いられる共通の疑似ランダム欠失パターンに対して、及びチップ上のどこにフィールドがあるかを決定するための数十個の他の疑似ランダム欠失パターンに対して交差相関させられる。フィールドスポットの約3%が疑似ランダムパターンで欠失していることが望ましい;しかしながら、わずか1%の欠失を含むたった1組のパターンでまずまずの結果が得られる。3%よりも多い欠失パターンは、ごくわずかしか精度を増加させずに、使用可能な空間を消費するが、1%未満の欠失パターンは、レジストレーションにおいて許容できない可能性のある誤差を生み出す。
【0094】
ここに記載のアラインメント及びレジストレーション技術は、高密度生化学アレイ実験で観察されたフィールドスポットの迅速かつ正確な同定を可能にする。これらの技術は、実験が、カルテシアン座標アレイ上で、そうでなければ可能なフィールドスポット1つ当たりより少ないピクセルで行なわれるのを可能にする。理想的なグリッドにフィッティングするフィールドスポットの位置がサブピクセル精度で決定される。したがって、各フィールドスポットの輝度は、フィールドスポット付近のピクセルによって記録されるピクセル強度の加重平均として計算することができる。
図20は、どのようにしてサブピクセルグリッドアラインメントを用いることができるかの例を示している。
【0095】
図20では、代表的な9×9ブロックのピクセル(ピクセル1715、1720、1725、1730、1735、1740、1745、1750、及び1755)が示されている。フィールドスポット1705の位置は、上記のグリッドアラインメント及びレジストレーション技術によって決定されている。円1710は、フィールドスポット1705から放出される光の横断範囲を概念的に示したものである。円1710は、例えば、ガウス分布の1σ半径とみなすことができる。仮に、フィールドスポット1705の位置がピクセル精度でしか分からないならば、スポットの輝度を、ピクセル1735によって報告される輝度とみなしてもよい。又は、ピクセル1735の輝度に50%の重みを付け、ピクセル1720、1730、1740、及び1750の各々の輝度にそれぞれ12.5%の重みを付けてもよい。しかしながら、フィールドスポット位置の高精度のサブピクセル推量を考慮すると、本発明に従ってより正確な重み付けが可能となる。
図20の例では、例えば、ピクセル1730、1735、1745、及び1750の重みは、それぞれ、20%、50%、10%、及び20%であり、各ピクセルと円1710の重複に相当する。
【0096】
ゲノム研究や他の高密度生化学アレイの使用は、商業的に実現可能なデータ取得速度を達成するために、先進的なイメージング法、例えば、本明細書に記載のイメージング法を必要としている。高密度に配列されたアレイチップ並びに先進的なアラインメント及びレジストレーション技術は、大規模なヒトゲノム研究を推進するシステムの重要な要素である。
【0097】
さらに、本発明の装置及び機械は、未知配列の核酸の生化学的研究のための数多くの方法において有用である。例えば、本発明の解析スライドは、ハイブリダイゼーションに基づく方法、例えば、米国特許第6,864,052号;同第6,309,824号;及び同第6,401,267号、並びに米国公開特許出願第2005/0191656号に開示されているもの;合成法によるシークエンシング、例えば、米国特許第6,210,891号、同第6,828,100号;同第6,833,246号;同第6,911,345号;Ronaghi et al(1998),Science,281:363−365;及びLi et al,Proc.Natl.Acad.Sci,100:414−419(2003)に開示されているもの;並びにライゲーションに基づく方法、例えば、国際公開第1999019341号、国際公開第2005082098号、国際公開第2006073504号、及びShendure et al.(2005),Science,309:1728−1739とともに用いることができる。関連法によって許容される程度まで、これらの刊行物の内容は、あらゆる目的のために参照により本明細書に組み込まれる。
【0098】
特定の態様では、多重解析スライドは、複数の生化学的なシークエンシング反応を用いるハイスループット解析で用いられる。フローセル型の解析スライドは、例えば、シークエンシング反応系において、並列に、又は前後に配置させることができる。複数のフローセルは、複数のフローセル内の各核酸の実体を反応プロセス全体を通してモニタリングすることができるように、ランダムに又は所定の様式でフローセルの基板に付着した核酸又はプライマーを任意に含む。核酸又はプライマーの少なくとも一部が個々に光学的に解像可能であるように、核酸又はプライマーを表面に付着させることができる。
【0099】
実施形態の好ましい一態様では、本発明のシステムで用いられるフロースライドは、未知配列の核酸が固定された基板を含む。本発明の実施形態の特定の態様では、圧着手段は、複数のフローセルをまとめて圧着することができる。通常、1個から約12又は16個のフローセルを単一の圧着手段によって同時に圧着することができる。フロースライドは、実質的に水平又は実質的に垂直な形で、圧着手段に配置させることができるが、これら2つの位置の間にあるどの位置も可能であり得る。
【0100】
本明細書は、方法、システム、及び/又は構造、並びにここに記載されている技術の例となる態様におけるそれらの使用の完全な説明を提供するものである。本技術の様々な態様が、ある程度の具体性をもって、又は1以上の個々の態様に関連して、上で記載されているが、当業者であれば、それに関する技術の精神又は範囲を逸脱することなく、開示されている態様に多くの変更を加えることができるであろう。ここに記載されている技術の精神及び範囲を逸脱することなく、多くの態様を作ることができるので、適切な範囲は、以下に添付されている特許請求の範囲に属する。したがって、他の態様が意図される。さらに、別の形で明示的に特許請求されないか、又は特定の順序が特許請求項の範囲の用語によって本質的に必要とされない限り、どの操作も任意の順序で行なうことができることが理解されるべきである。上記の説明に含まれ、また、添付の図面に示される事物は全て、単に特定の態様を示すものと解釈されるものとし、示された実施形態に限定されるものではないことが意図される。以下の特許請求の範囲で定義されるような本技術の基本的要素から逸脱することなく、詳細又は構造を変更することができる。任意の対応する実用的用途の請求項において、「手段」という用語が用いられない限り、その中で列挙された特徴又は要素はいずれも、米国特許法第112条6項の規定によるミーンズ・プラス・ファンクション限定とみなされるべきではない。