IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

<>
  • 特許-フェージング補正方法 図1
  • 特許-フェージング補正方法 図2
  • 特許-フェージング補正方法 図3
  • 特許-フェージング補正方法 図4
  • 特許-フェージング補正方法 図5
  • 特許-フェージング補正方法 図6
  • 特許-フェージング補正方法 図7
  • 特許-フェージング補正方法 図8
  • 特許-フェージング補正方法 図9
  • 特許-フェージング補正方法 図10
  • 特許-フェージング補正方法 図11
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2024-09-26
(45)【発行日】2024-10-04
(54)【発明の名称】フェージング補正方法
(51)【国際特許分類】
   C12M 1/00 20060101AFI20240927BHJP
   C12Q 1/6869 20180101ALI20240927BHJP
【FI】
C12M1/00 A
C12Q1/6869 Z
【請求項の数】 25
(21)【出願番号】P 2022115294
(22)【出願日】2022-07-20
(62)【分割の表示】P 2019537179の分割
【原出願日】2018-01-05
(65)【公開番号】P2022132542
(43)【公開日】2022-09-08
【審査請求日】2022-08-18
(31)【優先権主張番号】62/443,294
(32)【優先日】2017-01-06
(33)【優先権主張国・地域又は機関】US
【前置審査】
(73)【特許権者】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100102978
【弁理士】
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100205707
【弁理士】
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100160923
【弁理士】
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【弁理士】
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【弁理士】
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【弁理士】
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100188433
【弁理士】
【氏名又は名称】梅村 幸輔
(74)【代理人】
【識別番号】100128048
【弁理士】
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【弁理士】
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100114340
【弁理士】
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100214396
【弁理士】
【氏名又は名称】塩田 真紀
(74)【代理人】
【識別番号】100121072
【弁理士】
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】ラングロア ロバート
(72)【発明者】
【氏名】ベリッツ ポール
【審査官】長谷川 強
(56)【参考文献】
【文献】国際公開第2015/084985(WO,A2)
(58)【調査した分野】(Int.Cl.,DB名)
C12M 1/00
C12Q 1/6869
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
メモリと
現在のベースコールサイクルを実行するための1つまたは複数のプロセッサと
を含む、核酸シーケンサーであって、
該1つまたは複数のプロセッサが、
(a)該現在のベースコールサイクルの間に、核酸塩基が読み取られる複数の部位であって、核酸塩基のタイプを表す色を示す該複数の部位を表すデータを取得し、
(b)該現在のベースコールサイクルの間に、該複数の部位の第1の色値を取得し、
(c)該現在のベースコールサイクルの間に、該第1の色値をプロセッサバッファに格納し、
(d)該複数の部位の第2の色値であって、該現在のベースコールサイクルの直前の前のベースコールサイクルの間に該メモリに格納された、第2の色値を取り出し、
(e)該複数の部位の第3の色値であって、該前のベースコールサイクルの直前のものである、該現在のベースコールサイクルの2つ前のベースコールサイクルの間に該メモリに格納された、第3の色値を取り出し、
(f)該現在のベースコールサイクルの直前の前のベースコールサイクルの間に格納された該第2の色値と、該プロセッサバッファに格納された該第1の色値とから、プレフェージング補正を決定し、
g)該プレフェージング補正
該第2の色値と
該第3の色値と
から、該現在のベースコールサイクルのための補正された色値を決定する
ように設計または構成されている、
前記核酸シーケンサー。
【請求項2】
前記1つまたは複数のプロセッサが、前記補正された色値を使用することによって前記現在のベースコールサイクルを実行し、前記複数の部位のためのベースコールを行うようにさらに設計または構成されている、請求項1に記載の核酸シーケンサー。
【請求項3】
前記1つまたは複数のプロセッサが、
前記現在のベースコールサイクルの直前の前記前のベースコールサイクルの間に格納された前記第2の色値と
前記前のベースコールサイクルの直前の前記2つ前のベースコールサイクルの間に格納された前記第3の色値と
から、フェージング補正を決定するようにさらに設計または構成されている、請求項1に記載の核酸シーケンサー。
【請求項4】
前記1つまたは複数のプロセッサが、前記第1の色値を前記メモリに格納するようにさらに設計または構成されている、請求項1に記載の核酸シーケンサー。
【請求項5】
前記1つまたは複数のプロセッサが、前記補正された色値を決定した後、前記メモリに格納された前記第3の色値を前記第1の色値で上書きするようにさらに設計または構成されている、請求項1に記載の核酸シーケンサー。
【請求項6】
前記メモリが複数のタイルバッファに分割され、それぞれが前記複数の部位を含む基板上のタイルの単一の画像を表すデータを格納するように設計されている、請求項1に記載の核酸シーケンサー。
【請求項7】
前記メモリが512ギガバイト以下の記憶容量を有する、請求項1に記載の核酸シーケンサー。
【請求項8】
前記1つまたは複数のプロセッサが、ベースコールの間にリアルタイムで(a)~(g)を実行するようにさらに設計または構成されている、請求項1に記載の核酸シーケンサー。
【請求項9】
前記複数の部位で核酸を合成する、請求項1に記載の核酸シーケンサー。
【請求項10】
前記核酸シーケンサーの2つのチャネルのみから色値が決定される、請求項1に記載の核酸シーケンサー。
【請求項11】
前記核酸シーケンサーの4つのチャネルから色値が決定される、請求項1に記載の核酸シーケンサー。
【請求項12】
基板をさらに含み、
基板が、
前記複数の部位と、
フローセルであって、タイルに論理的に分割され、各タイルは該フローセルの領域を表し、ベースコール間に核酸塩基のタイプを表す色を示すように試薬を該複数の部位と相互作用させる、フローセルと
を含む、
請求項1に記載の核酸シーケンサー。
【請求項13】
現在のベースコールサイクルを実行するための1つまたは複数のプロセッサとメモリとを含む核酸シーケンサーによって、該現在のベースコールサイクルの間に、取得された画像データからの補正された色値を決定する方法であって、以下の工程:
(a)該現在のベースコールサイクルの間に、核酸塩基が読み取られる複数の部位を表すデータを取得する工程であって、該複数の部位が、核酸塩基のタイプを表す色を示す、工程;
(b)該現在のベースコールサイクルの間に、該複数の部位の第1の色値を取得する工程;
(c)該現在のベースコールサイクルの間に、該第1の色値をプロセッサバッファに格納する工程;
(d)該複数の部位の第2の色値を取り出す工程であって、該第2の色値が、該現在のベースコールサイクルの直前の前のベースコールサイクルの間にメモリに格納されたものである、工程;
(e)該複数の部位の第3の色値であって、該前のベースコールサイクルの直前のものである、該現在のベースコールサイクルの2つ前のベースコールサイクルの間に該メモリに格納された、第3の色値を取り出す工程;
(f)該現在のベースコールサイクルの直前の前のベースコールサイクルの間に格納された該第2の色値と、該プロセッサバッファに格納された該第1の色値とから、プレフェージング補正を決定する工程;および
g)該プレフェージング補正
該第2の色値と
該第3の色値と
から、該現在のベースコールサイクルのための補正された色値を決定する工程
を含む、前記方法。
【請求項14】
前記補正された色値を使用して複数の部位についてベースコールを行うことによって、前記現在のベースコールサイクルが実行される工程をさらに含む、請求項13記載の方法。
【請求項15】
前記現在のベースコールサイクルの直前の前記前のベースコールサイクルの間に格納された前記第2の色値と
前記前のベースコールサイクルの直前の前記2つ前のベースコールサイクルの間に格納された前記第3の色値と
から、フェージング補正を決定する工程をさらに含む、請求項13記載の方法。
【請求項16】
前記第1の色値を前記メモリに格納する工程をさらに含む、請求項13に記載の方法。
【請求項17】
前記補正された色値を決定した後、前記メモリに格納された前記第3の色値を前記第1の色値で上書きする工程をさらに含む、請求項13に記載の方法。
【請求項18】
前記メモリが512ギガバイト以下の記憶容量を有する、請求項13に記載の方法。
【請求項19】
前記メモリが複数のタイルバッファに分割され、それぞれが前記複数の部位を含む基板上のタイルの単一の画像を表すデータを格納するように設計されている、請求項13に記載の方法。
【請求項20】
ベースコールの間にリアルタイムで(a)~(g)を実行する工程をさらに含む、請求項13に記載の方法
【請求項21】
前記核酸シーケンサーが前記複数の部位で核酸を合成する、請求項13に記載の方法。
【請求項22】
前記核酸シーケンサーの2つのチャネルのみから色値が決定される、請求項13に記載の方法。
【請求項23】
前記核酸シーケンサーの4つのチャネルから色値が決定される、請求項13に記載の方法。
【請求項24】
前記複数の部位がフローセルを含む基板の一部であり、該フローセルはタイルに論理的に分割され、各タイルは部位のサブセットを含む該フローセルの領域を表し、該サブセットは画像取得システムからの単一の画像に取り込まれる、請求項13に記載の方法。
【請求項25】
動作(a)の前に、
試薬を前記フローセルに提供し、ベースコール間に核酸塩基のタイプを表す色を示すように該試薬を部位と相互作用させる工程
をさらに含む、請求項24に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、参照によりその全体があらゆる目的で本明細書に組み入れられる、2017年1月6日に出願された、「PHASING CORRECTION」という名称の米国仮特許出願第62/443294号の利益を主張する。
【背景技術】
【0002】
背景
本開示は核酸の配列決定に関する。より具体的には、本開示は、フェージング補正を用いたリアルタイムシーケンシングのためのシステムおよび方法に関する。
【0003】
フローセルまたは他の基板上の特定の部位において、すべて同じ配列を有する(サンプル処理によって意図せずに導入された限られた変異を伴いうる)核酸分子の複数のコピーが一緒に解析される。信頼できるベースコールを可能にするのに十分なシグナルが生成されることを確実にするために十分なコピーが使用される。部位における核酸分子のコレクションはクラスタと呼ばれる。
【0004】
フェージングは、クラスタ内の複数の核酸分子の配列決定から生じる意図しないアーチファクトを表す。フェージングは、クラスタ内の単一分子からの蛍光などのシグナルが相互の同期を失う割合である。多くの場合、フェージングという用語は、いくつかの遅れた分子からの夾雑シグナルについて使用され、プレフェージングという用語が、先に進んだ他の分子からの夾雑シグナルについて使用される。フェージングとプレフェージングとは合わさって、シーケンシング装置およびケミストリがいかにうまく機能しているかを説明する。
【発明の概要】
【0005】
概要
本開示のいくつかの局面は、ベースコールサイクルの間に核酸シーケンサーによって取得された画像データから補正された色値を決定する方法に関し、シーケンサーは、画像取得システムと、1つまたは複数のプロセッサと、メモリとを含む。そのような方法は、(a)核酸塩基が読み取られる複数の部位を含む基板(例えば、フローセルの一部分)の画像を取得する動作と、(b)基板の画像から複数の部位の色値を測定する動作と、(c)色値をシーケンサーの1つまたは複数のプロセッサのプロセッサバッファに格納する動作と、(d)複数の部位の部分的に位相補正された色値を取り出す動作であって、この部分的に位相補正された色値は、直前のベースコールサイクルの間にシーケンサーのメモリに格納されたものである、動作と、(e)プレフェージング補正を決定する動作と、(f)補正された色値を決定する動作と、を特徴とし得る。様々な実施態様において、これらの動作はすべて1つのベースコールサイクルの間に行われる。特定の態様において、本方法は、補正された色値を使用して複数の部位のためのベースコールを行う動作をさらに含む。
【0006】
配列決定している間に、各部位は核酸塩基のタイプを表す色を示す。測定され格納される色値は特定の波長または波長範囲での強度または他の強度値であり得る。いくつかの実施態様では、色値はシーケンサーの2つのチャネルのみから決定される。いくつかの実施態様では、色値はシーケンサーの4つのチャネルから取得される。本開示はカラーシグナルのフェージング補正に焦点を当てているが、この概念は同一の配列を有する核酸のクラスタを配列決定する間に生成される他のタイプのシグナルに適用される。そうした他のシグナルの例には、可視スペクトル外の放射、イオン濃度などが含まれる。
【0007】
特定の態様において、(f)で補正された色値を決定する動作は、(i)プロセッサバッファ内の色値と、(ii)直前のサイクルの間に格納された部分的に位相補正された値と、(iii)プレフェージング補正とを使用する。特定の態様において、(e)でプレフェージング補正を決定する動作は、(i)直前のベースコールサイクルの間に格納された部分的に位相補正された色値と、(ii)プロセッサバッファ内の色値とを使用する。
【0008】
特定の態様において、プレフェージング補正は重みを含む。そのような態様では、補正された色値を決定する動作は、重みを基板の画像から測定された複数の部位の色値で乗算することを含み得る。
【0009】
特定の実施態様において、方法は、直後のベースコールサイクルのためのフェージング補正を決定することをさらに含む。一例として、直後のベースコールサイクルのためのフェージング補正を決定することは、(i)シーケンサーのメモリに格納された部分的に位相補正された色値と(ii)プロセッサバッファ内の色値とを解析する動作を含む。直後のベースコールサイクルのためのフェージング補正を決定することを含む特定の態様において、方法は、(i)シーケンサーのメモリに格納された複数の部位の色値にフェージング補正を適用することによって直後のベースコールサイクルのための部分的に位相補正された色値を生成することと、(ii)直後のベースコールサイクルのための部分的に位相補正された色値をシーケンサーのメモリに格納することとをさらに含む。特定の態様において、直後のベースコールサイクルのための部分的に位相補正された色値を生成することは、(i)複数の部位のフェージング補正された色値と(ii)(b)で測定された基板の画像からの複数の部位の色値とを合計することをさらに含む。いくつかの実施態様において、直後のベースコールサイクルのための部分的に位相補正された色値を格納する動作は、部分的に補正された色値をシーケンサーのメモリのタイルバッファに格納する。
【0010】
特定の態様において、方法は、核酸シーケンサーによる配列リードの取得中にリアルタイムで実行される。特定の態様において、核酸シーケンサーは、複数の部位で核酸を合成することによって配列決定を行う。基板がフローセルを含む特定の態様では、フローセルはタイルに論理的に分割され、各タイルは部位のサブセットを含むフローセルの領域を表し、このサブセットは画像取得システムからの単一の画像に取り込まれる。
【0011】
そうしたシステムを用いたいくつかの態様では、動作(d)(複数の部位の部分的に位相補正された色値を取り出す)において、部分的に位相補正された色値はシーケンサーのメモリのタイルバッファに前に格納されたものであり、タイルバッファは基板の個々のタイルの画像を表すデータを格納するために指定される。特定の態様では、メモリは約512ギガバイト以下または約256ギガバイト以下の記憶容量を有する。特定の態様では、例えば、メモリは、2つのフローセル上のタイルの総数に含まれるデータを格納するのに必要な容量の2倍未満の記憶容量を有する。いくつかの態様では、本明細書に記載される処理により少なくとも約50ギガバイトが節約され、いくつかの態様では少なくとも約100ギガバイトが節約される。
【0012】
いくつかの実施態様では、動作(a)(基板の画像を取得する)の前に、方法は、フローセルに試薬を提供し、ベースコールサイクルの間に核酸塩基のタイプを表す色を示すように試薬を部位と相互作用させることをさらに含む。そのような実施態様では、方法は、動作(f)(補正された色値を決定する)の後に、(i)新たに準備した試薬をフローセルに提供し、次のベースコールサイクルについて核酸塩基のタイプを表す色を示すように新たに準備した試薬を部位と相互作用させることと、(ii)次のベースコールサイクルについて動作(a)~(e)を繰り返すことと、をさらに含み得る。そのような方法は、ベースコールサイクルについて動作(a)~(f)を行うための第1のプロセッサスレッドを作成することと、次のベースコールサイクルについて動作(a)~(f)を行うための第2のプロセッサスレッドを作成することとをさらに含み得る。特定の態様において、方法は、プロセッサバッファと、(f)で補正された色値を決定するために使用される第2のプロセッサバッファとを割り振ることをさらに含む。
【0013】
本開示の特定の他の局面は、画像取得システムと、メモリと、1つまたは複数のプロセッサとである各要素を特徴とし得る核酸シーケンサーであって、1つまたは複数のプロセッサが、(a)核酸塩基が読み取られる複数の部位(部位は、例えば、核酸塩基のタイプを表す色を示す)を含む基板の画像を表すデータを取得し、(b)基板の画像から複数の部位の色値を取得し、(c)色値をプロセッサバッファに格納し、(d)ベースコールサイクルについて複数の部位の部分的に位相補正された色値を取り出し(部分的に位相補正された色値は直前のベースコールサイクルの間にシーケンサーのメモリに格納されたものである)、(e)プレフェージング補正を決定し、(f)例えば、(i)プロセッサバッファ内の色値、(ii)直前のサイクルの間に格納された部分的に位相補正された値、および(iii)プレフェージング補正から、補正された色値を決定するように設計または構成されている、核酸シーケンサーに関する。
【0014】
プレフェージング補正を決定するための命令または他の構成は、(i)直前のベースコールサイクルの間に格納された部分的に位相補正された色値と、(ii)プロセッサバッファ内の色値とからプレフェージング補正を決定するための構成を含み得る。
【0015】
特定の態様では、メモリは、基板上のタイルの単一の画像を表すデータを格納するように各々指定された、複数のタイルバッファに分割される。特定の態様では、メモリは、約550ギガバイト未満の記憶容量を有する(いくつかの例では、これは、2つのフローセル上のタイルの総数に含まれるデータを格納するのに必要な容量の2倍未満である)。
【0016】
プロセッサは、記載の動作を、実行可能な機械可読命令を受け取るなどの様々な方法で行うように構成され得る。場合によっては、プロセッサは、ファームウェアやデジタル信号処理コアなどのカスタム処理コアを用いてプログラムされる。様々な態様において、(1つまたは複数の)プロセッサは、上述した方法動作のいずれかまたはそれ以上を行う(かつ/または制御する)ように設計または構成される。
【0017】
いくつかの実施態様では、本明細書に開示されるフェージング補正機構は、メモリ(例えばランダムアクセスメモリ(RAM))をより効率的に利用することによってシーケンシングのコストを大幅に削減する。いくつかの態様はこれらのフェージング補正の特徴をシーケンシングプラットフォーム上でのリアルタイム解析(RTA)の状況において用いる。
【0018】
[本発明1001]
画像取得システムと1つまたは複数のプロセッサとメモリとを含む核酸シーケンサーによって、ベースコールサイクルの間に、取得された画像データからの補正された色値を決定する方法であって、以下の工程:
(a)核酸塩基が読み取られる複数の部位を含む基板の画像を取得する工程であって、該部位が、核酸塩基のタイプを表す色を示す、工程;
(b)該基板の画像から該複数の部位の色値を測定する工程;
(c)該色値をシーケンサーの1つまたは複数のプロセッサのプロセッサバッファに格納する工程;
(d)該複数の部位の部分的に位相補正された色値を取り出す工程であって、該部分的に位相補正された色値が、直前のベースコールサイクルの間にシーケンサーのメモリに格納されたものである、工程;
(e)該直前のベースコールサイクルの間に格納された該部分的に位相補正された色値と
前記プロセッサバッファに格納された色値と
から、プレフェージング補正を決定する工程;および
(f)該プロセッサバッファ内の色値と
該直前のサイクルの間に格納された該部分的に位相補正された値と
該プレフェージング補正と
から、補正された色値を決定する工程
を含む、前記方法。
[本発明1002]
前記複数の部位のベースコールを行うために前記補正された色値を使用する工程をさらに含む、本発明1001の方法。
[本発明1003]
プレフェージング補正が重みを含み、補正された色値を決定する工程が、該重みを基板の画像から測定された前記複数の部位の前記色値で乗算することを含む、本発明1001または1002の方法。
[本発明1004]
直後のベースコールサイクルのためのフェージング補正を決定する工程をさらに含む、前記本発明のいずれかの方法。
[本発明1005]
直後のベースコールサイクルのためのフェージング補正を決定する工程が、
前記シーケンサーのメモリに格納された前記部分的に位相補正された色値と
前記プロセッサバッファに格納された前記色値と
を解析することを含む、
本発明1004の方法。
[本発明1006]
前記シーケンサーのメモリに格納された前記複数の部位の色値に前記フェージング補正を適用することによって前記直後のベースコールサイクルのための部分的に位相補正された色値を生成する工程、および
前記直後のベースコールサイクルのための前記部分的に位相補正された色値を前記シーケンサーのメモリに格納する工程
をさらに含む、本発明1004の方法。
[本発明1007]
前記直後のベースコールサイクルのための前記部分的に位相補正された色値を生成する工程が、
前記複数の部位の前記フェージング補正された色値と
(b)で測定された、基板の画像からの複数の部位の色値と
を合計することをさらに含む、
本発明1006の方法。
[本発明1008]
前記直後のベースコールサイクルのための前記部分的に位相補正された色値を格納する工程が、前記部分的に補正された色値を前記シーケンサーのメモリのタイルバッファに格納する、本発明1006の方法。
[本発明1009]
前記核酸シーケンサーによって配列リードの取得中にリアルタイムで行われる、前記本発明のいずれかの方法。
[本発明1010]
前記核酸シーケンサーが前記複数の部位で核酸を合成する、前記本発明のいずれかの方法。
[本発明1011]
前記色値が前記シーケンサーの2つのチャネルのみから決定される、前記本発明のいずれかの方法。
[本発明1012]
前記色値が前記シーケンサーの4つのチャネルから取得される、本発明1001~1010のいずれかの方法。
[本発明1013]
前記基板がフローセルを含み、該フローセルはタイルに論理的に分割され、各タイルは部位のサブセットを含む該フローセルの領域を表し、該サブセットは前記画像取得システムからの単一の画像に取り込まれる、前記本発明のいずれかの方法。
[本発明1014]
動作(d)において、部分的に位相補正された色値が前記シーケンサーのメモリのタイルバッファに格納されたものであり、該タイルバッファは前記基板上の個々のタイルの画像を表すデータを格納するために指定される、本発明1013の方法。
[本発明1015]
前記メモリが約512ギガバイト以下の記憶容量を有する、本発明1014の方法。
[本発明1016]
動作(a)の前に、フローセルに試薬を提供し、ベースコールサイクルの間に核酸塩基のタイプを表す色を示すように該試薬を部位と相互作用させる工程をさらに含む、本発明1013の方法。
[本発明1017]
動作(f)の後に、
新たに準備した試薬をフローセルに提供し、次のベースコールサイクルについて核酸塩基のタイプを表す色を示すように該新たに準備した試薬を前記部位と相互作用させる工程、および
次のベースコールサイクルについて動作(a)~(e)を繰り返す工程
をさらに含む、本発明1016の方法。
[本発明1018]
前記ベースコールサイクルについて動作(a)~(f)を行うための第1のプロセッサスレッドを作成する工程、および次のベースコールサイクルについて動作(a)~(f)を行うための第2のプロセッサスレッドを作成する工程をさらに含む、本発明1017の方法。
[本発明1019]
前記プロセッサバッファと
(f)で補正された色値を決定するために使用される第2のプロセッサバッファと
を割り振る工程をさらに含む、前記本発明のいずれかの方法。
[本発明1020]
画像取得システムと
メモリと
1つまたは複数のプロセッサと
を含む、核酸シーケンサーであって、
該1つまたは複数のプロセッサが、
(a)核酸塩基が読み取られる複数の部位であって核酸塩基のタイプを表す色を示す該部位を含む基板の画像を表すデータを取得し、
(b)該基板の画像から該複数の部位の色値を取得し、
(c)該色値をプロセッサバッファに格納し、
(d)ベースコールサイクルについて該複数の部位の部分的に位相補正された色値であって直前のベースコールサイクルの間に前記メモリに格納された該部分的に位相補正された色値を取り出し、
(e)該直前のベースコールサイクルの間に格納された該部分的に位相補正された値と
前記プロセッサバッファに格納された色値と
から、プレフェージング補正を決定し、
(f)該プロセッサバッファ内の色値と
該直前のサイクルの間に格納された該部分的に位相補正された値と
該プレフェージング補正と
から、補正された色値を決定する
ように設計または構成されている、
前記核酸シーケンサー。
[本発明1021]
前記メモリが複数のタイルバッファに分割され、各タイルバッファは前記基板上のタイルの単一の画像を表すデータを格納するように指定されている、本発明1020の核酸シーケンサー。
[本発明1022]
前記メモリが約512ギガバイト以下の記憶容量を有する、本発明1020または1021の核酸シーケンサー。
[本発明1023]
前記1つまたは複数のプロセッサが、前記複数の部位のベースコールを行うために前記補正された色値を使用するようにさらに設計または構成されている、本発明1020~1022のいずれかの核酸シーケンサー。
[本発明1024]
前記プレフェージング補正が重みを含み、前記1つまたは複数のプロセッサが、該重みを前記基板の画像から測定された前記複数の部位の前記色値で乗算することによって前記補正された色値を決定するように設計または構成されている、本発明1020~1023のいずれかの核酸シーケンサー。
[本発明1025]
前記1つまたは複数のプロセッサが、直後のベースコールサイクルのためのフェージング補正を決定するようにさらに設計または構成されている、本発明1020~1024のいずれかの核酸シーケンサー。
[本発明1026]
前記1つまたは複数のプロセッサが、
前記メモリに格納された前記部分的に位相補正された色値と
前記プロセッサバッファに格納された前記色値と
を解析することによって前記直後のベースコールサイクルのための前記フェージング補正を決定するように設計または構成されている、
本発明1025の核酸シーケンサー。
[本発明1027]
前記1つまたは複数のプロセッサが、
前記メモリに格納された前記複数の部位の色値に前記フェージング補正を適用することによって前記直後のベースコールサイクルのための部分的に位相補正された色値を生成し、
該直後のベースコールサイクルのための該部分的に位相補正された色値を前記メモリに格納する
ようにさらに設計または構成されている、
本発明1025の核酸シーケンサー。
[本発明1028]
前記1つまたは複数のプロセッサが、
前記複数の部位の前記フェージング補正された色値と
(b)で測定された、基板の画像からの複数の部位の色値と
を合計することによって前記直後のベースコールサイクルのための前記部分的に位相補正された色値を生成するように設計または構成されている、
本発明1027の核酸シーケンサー。
[本発明1029]
前記1つまたは複数のプロセッサが、前記直後のベースコールサイクルのための前記部分的に位相補正された色値を、該部分的に補正された色値を前記メモリのタイルバッファに格納することによって格納するように設計または構成されている、本発明1027の核酸シーケンサー。
[本発明1030]
前記1つまたは複数のプロセッサが、ベースコールの間にリアルタイムで(a)~(f)を行うように設計または構成されている、本発明1020~1029のいずれかの核酸シーケンサー。
[本発明1031]
前記複数の部位で核酸を合成するためのシステムをさらに含む、本発明1020~1030のいずれかの核酸シーケンサー。
[本発明1032]
前記1つまたは複数のプロセッサが、2つのチャネルのみから前記色値を取得するように設計または構成されている、本発明1020~1031のいずれかの核酸シーケンサー。
[本発明1033]
前記1つまたは複数のプロセッサが、4つのチャネルから前記色値を取得するように設計または構成されている、本発明1020~1031のいずれかの核酸シーケンサー。
[本発明1034]
前記基板がフローセルを含み、該フローセルはタイルに論理的に分割され、各タイルは部位のサブセットを含む該フローセルの領域を表し、該サブセットは前記画像取得システムからの単一の画像に取り込まれる、本発明1020~1033のいずれかの核酸シーケンサー。
[本発明1035]
動作(d)において、部分的に位相補正された色値が前記シーケンサーのメモリのタイルバッファに格納されたものであり、該タイルバッファは前記基板上の個々のタイルの画像を表すデータを格納するために指定される、本発明1034の核酸シーケンサー。
[本発明1036]
前記1つまたは複数のプロセッサが、動作(a)の前に、フローセルに試薬を提供し、ベースコールサイクルの間に核酸塩基のタイプを表す色を示すように該試薬を部位と相互作用させるようにさらに設計または構成されている、本発明1034の核酸シーケンサー。
[本発明1037]
前記1つまたは複数のプロセッサが、動作(f)の後に、
新たに準備した試薬をフローセルに提供し、次のベースコールサイクルについて核酸塩基のタイプを表す色を示すように該新たに準備した試薬を前記部位と相互作用させ、
次のベースコールサイクルについて動作(a)~(e)を繰り返す
ようにさらに設計または構成されている、
本発明1036の核酸シーケンサー。
[本発明1038]
前記1つまたは複数のプロセッサが、
前記ベースコールサイクルについて動作(a)~(f)を行うための第1のプロセッサスレッドを作成し、
次のベースコールサイクルについて動作(a)~(f)を行うための第2のプロセッサスレッドを作成する
ようにさらに設計または構成されている、
本発明1037の核酸シーケンサー。
[本発明1039]
前記1つまたは複数のプロセッサが、前記プロセッサバッファと、(f)で補正された色値を決定するための第2のプロセッサバッファとを割り振るようにさらに設計または構成されている、本発明1020~1038のいずれかの核酸シーケンサー。
本開示の上記その他の特徴を、関連付けられた図面を参照して、以下でさらに詳細に提示する。
【図面の簡単な説明】
【0019】
図1】核酸クラスタから取られた画像データのリアルタイム解析のためのハードウェアを有するシーケンサーのブロック図である。
図2】フェージングおよびプレフェージングの概念を説明するために使用される2チャネルシーケンシングデータの図である。
図3】各々が多くのクラスタを含む複数のタイルを含むフローセルアーキテクチャを示す。
図4】フローセルのタイルまたは他の画像化された部分におけるクラスタの、2つまたはそれよりも多いカラーチャネルの各々についての光強度値であり得る強度データを含むデータアレイを示す。
図5】フェージング補正をリアルタイムで実行するための第1の処理構成および方法を概略的に示す。
図6図5に示されるプロセッサおよびメモリの構成を用い得るベースコールプロセスを示す流れ図である。
図7】システムメモリに対する要件を低減させる、フェージング補正をリアルタイムで実行するための第2の処理構成および方法を概略的に示す。
図8】システムメモリに対する要件をさらに低減させる、フェージング補正をリアルタイムで実行するための第3の処理構成および方法を概略的に示す。
図9図8およびいくつかの実施態様では図7のプロセッサおよびメモリの構成で用いられ得る最初の数回の処理サイクルを示すハイレベル流れ図である。
図10】完全にフェージング補正されたベースコールを実行する処理サイクルを示す流れ図である。このようなサイクルは、タイルのクラスタを配列決定するときに3回目以降の処理サイクルで行われ得る。
図11】メインメモリ削減アルゴリズムを使用したフェージング補正方法についての比較データを示す。
【発明を実施するための形態】
【0020】
詳細な説明
定義
数値範囲は範囲を規定する数値を含む。本明細書を通して与えられるあらゆる最大数値限定は、あらゆるより低い数値限定を、あたかもそのようなより低い数値限定が本明細書に明記されているかのように含むことが意図されている。本明細書を通して与えられるあらゆる最小数値限定は、あらゆるより高い数値限定を、あたかもそのようなより高い数値限定が本明細書に明記されているかのように含む。本明細書を通して与えられるあらゆる数値範囲は、そのようなより広い数値範囲内に入るあらゆるより狭い数値範囲を、あたかもそのようなより狭い数値範囲が本明細書に明記されているかのように含む。
【0021】
本明細書に設けられた見出しは本開示を限定するためのものではない。
【0022】
本明細書で特に定義しない限り、本明細書で使用されるすべての科学技術用語は、当業者によって一般に理解されるものと同義である。本明細書に含まれる用語を含む様々な科学辞書は周知であり、当業者が入手可能である。本明細書に記載されるものと同様または同等の任意の方法および材料が本明細書に開示される態様の実施または試験において利用されるが、一部の方法および材料が記載されている。
【0023】
以下で定義される用語は、本明細書全体を参照すればより十分に説明される。本開示は記載される特定の方法、プロトコル、および試薬に限定されず、それらは当業者によって使用される状況に応じて変化し得ることを理解されたい。
【0024】
本明細書で使用する場合、単数形の用語(a, an, the)は、文脈上明らかにそうでないことが示されない限り、複数形の言及を含む。「複数」という用語は、複数の要素を指す。例えば、この用語は本明細書では、本明細書に開示されている方法を使用して相ごとに処理されたアイランド(phased island)を生成するためのいくつかのリードに関して使用される。
【0025】
「部分」という用語は本明細書では、文脈から明らかなように、総量が1つの完全なゲノム、1つの完全な染色体、または1つの完全なハプロタイプの配列情報を下回る生物学的サンプル中のゲノム、染色体、またはハプロタイプの配列情報の量に関して使用される。
【0026】
本明細書における「サンプル」という用語は通常、配列決定される核酸または少なくとも1つの核酸配列を含む核酸の混合物を含む体液、細胞、組織、器官、または生物に由来するサンプルを指す。そのようなサンプルには、痰/口腔液、羊水、脳脊髄液、血液、血液分画(例えば、血清や血漿)、細針生検サンプル(例えば、外科生検、細針生検など)、尿、唾液、精液、汗、涙、腹水、胸水、洗浄液、組織外植片、器官培養物、および他の任意の組織もしくは細胞調製物、またはそれらの、もしくはそれらから単離された分画もしくは派生物が含まれるが、これに限定されない。
【0027】
サンプルはしばしばヒト対象(例えば患者)から採取されるが、サンプルは、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを含むがこれらに限定されない、染色体を有する任意の生物から採取することができる。サンプルは、生物学的起源から取得されたものとして直接使用されてもよく、またはサンプルの特性を改変するための前処理の後に使用されてもよい。例えば、そのような前処理は、血液から血漿を調製すること、粘性流体を希釈することなどを含み得る。前処理の方法はまた、濾過、沈殿、希釈、蒸留、混合、遠心分離、凍結、凍結乾燥、濃縮、増幅、核酸断片化、妨害成分の不活性化、試薬の添加、溶解なども含み得るが、これらに限定されない。そのような(1つまたは複数の)前処理方法がサンプルに関して用いられる場合、そのような前処理方法は通常、関心対象の(1つまたは複数の)核酸が試験サンプル中に、場合によっては未処理の試験サンプル(例えば、いかなるそのような前処理方法も施されないサンプル)中の濃度に比例する濃度で残存するようなものである。そのような「処理された」または「加工された」サンプルは、本明細書に記載される方法に関して依然として生物学的「試験」サンプルであると見なされる。
【0028】
「ポリヌクレオチド」、「核酸」、および「核酸分子」という用語は区別なく使用され、1つのヌクレオチドのペントースの3’位がホスホジエステル基によって次のペントースの5’位に結合している共有結合したヌクレオチド(すなわち、RNAのリボヌクレオチドおよびDNAのデオキシリボヌクレオチド)の配列を指す。ヌクレオチドは、RNA分子およびDNA分子を含むがこれに限定されない任意の形態の核酸の配列を含む。「ポリヌクレオチド」という用語は、一本鎖ポリヌクレオチドおよび二本鎖ポリヌクレオチドを含むが、これに限定されない。
【0029】
一本鎖ポリヌクレオチド分子は、DNAまたはRNAとして一本鎖形態で発生したものであっても、二本鎖DNA(dsDNA)形態で発生したもの(例えば、ゲノムDNAセグメント、PCRおよび増幅の産物など)であってもよい。よって、一本鎖ポリヌクレオチドは、ポリヌクレオチド二本鎖のセンス鎖またはアンチセンス鎖であり得る。標準的な技術を使用した記載の方法における使用に適した一本鎖ポリヌクレオチド分子の調製方法は当技術分野において周知である。一次ポリヌクレオチド分子の正確な配列は一般に、開示の態様にとって重要ではなく、既知であっても未知であってもよい。一本鎖ポリヌクレオチド分子は、イントロンとエキソン両方の配列(コード配列)を含むゲノムDNA分子(例えば、ヒトゲノムDNA)、ならびにプロモーター配列やエンハンサー配列などの非コード調節配列を表すことができる。
【0030】
本明細書に記載される核酸は、提供される方法における使用に適した任意の長さのものとすることができる。例えば、標的核酸は、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも75、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも500、または少なくとも1000kbの長さ以上とすることができる。
【0031】
フローセルまたはシーケンシングのための他の基板の状況においては、「部位」という用語はシーケンシングが行われる小領域を指す。多くの態様において、部位は、そこからシーケンシングデータが取得される単一核酸配列の複数の、通常は多数のコピーを含む。部位から取得された配列データは「リード」であり得る。
【0032】
「多型」または「遺伝的多型」という用語は、本明細書では、1つの遺伝子座における2つ以上の対立遺伝子の同じ集団における出現に関して使用される。多型の様々な形態には、単一ヌクレオチド多型、縦列反復、微小欠失、挿入、挿入欠失、およびその他の多型が含まれる。
【0033】
「ベースコール」は、ポリヌクレオチド配列中の特定の位置についての配列データへの割り当て塩基(ヌクレオチドタイプ)である。ベースコールは、配列決定されている核酸中の位置ごとにシーケンサーによって出力され得る。コールの質はベースコールに帰せられることもある。
【0034】
「リード」という用語は、核酸サンプルの一部分から読み取られた配列を指す。必ずではないが、通常は、リードはサンプル中の連続した塩基対の短い配列を表す。リードは、サンプル部分の(ATCGでの)塩基対配列によって記号的に表され得る。リードはメモリデバイスに格納され、それが参照配列と一致するかまたは他の基準を満たすかを判断するために適宜に処理され得る。リードは、シーケンシング装置から直接取得されるか、またはサンプルに関する格納された配列情報から間接的に取得され得る。場合によっては、リードは、例えば、整列させ、染色体またはゲノム領域または遺伝子に具体的に割り当てることができるより大きな配列または領域を同定するために使用することができる十分な長さ(例えば少なくとも約25bp)のDNA配列である。
【0035】
本明細書における「次世代シーケンシング(Next Generation Sequencing, NGS)」という用語は、クローン増幅分子と単一核酸分子との超並列シーケンシングを可能にするシーケンシング方法を指す。NGSの非限定的な例には、可逆的ダイターミネーターを使用した合成によるシーケンシング、および連結によるシーケンシングが含まれる。
【0036】
本明細書における「パラメーター」という用語は、物理特性またはその特性の表現を特徴付ける数値を指す。状況によっては、パラメーターは定量的データセットおよび/または定量的データセット間の数値関係を数値的に特徴付ける。例えば、ヒストグラムに適合された標準分布の平均および分散はパラメーターである。
【0037】
本明細書における「閾値」という用語は、サンプル、核酸、またはそれらの部分(例えば、リード)を特徴付けるためのカットオフとして使用される任意の数を指す。閾値は、そのような値を生じさせるソースが、示唆する、特定の方法で分類されるべきかどうか判断するために測定または計算された値と比較され得る。閾値は経験的または解析的に確定することができる。閾値の選択は、ユーザーが分類を行うために持たせたい信頼度に依存する。場合によっては閾値は特定の目的のために(例えば、感度と選択性のバランスをとるために)選択される。
【0038】
リアルタイム解析は、DNAシーケンシングランの間にデータ取得のバックグラウンドで処理およびデータ解析が行われるプロセスおよびシステムを指す。リアルタイム解析システムの一例が、参照によりその全体が本明細書に組み入れられる米国特許第8965076号に記載されている。
【0039】
フェージングのための状況
シーケンシング装置
図1に、典型的な核酸シーケンサー100またはそのようなシーケンサーを含むシステムのいくつかの特徴のブロック図を示す。特に、システム100は、フローセル101と、画像取得システム103と、1つまたは複数のバッファ107を有する1つまたは複数のプロセッサ105と、複数のタイルバッファ111を含むシステムメモリ(メインメモリとも呼ばれる)109とを含む。通常、システムメモリ109は、1つまたは複数のプロセッサ105のいずれかを含む集積回路の一部ではないデバイス上に設けられる。特定の態様では、システムメモリは、ランダムアクセスメモリすなわちRAM、例えば、DRAMなどの揮発性メモリ、ソリッドステートハードドライブ、またはハードディスクドライブである。
【0040】
フローセルおよび画像取得システムは、核酸シーケンシングの分野で理解されている原理に従って設計または構成された構成要素を含み、それらについては本明細書では詳述しない。適切な画像解析システムおよび関連付けられたフローセルが、カリフォルニア州サンディエゴのIllumina,Inc.から入手可能なMiSeqやHiSeqシリーズなどの核酸シーケンサーにおいて用いられる。さらなる情報については、各々参照により全体として本明細書に組み入れられる、米国特許第8241573号、米国特許第9193996号、および米国特許第8951781号を参照されたい。
【0041】
一般に、開示の方法との使用に適した核酸配列は、複数の標的核酸の並行した迅速かつ効率的な検出を提供する。それらは、増幅試薬および/またはシーケンシング試薬を1つまたは複数の固定化DNA断片に送達することができる流体素子を含むことができ、システムはポンプ、バルブ、リザーバー、流体ラインなどの構成要素を含む。標的核酸を検出するための統合システムにおいてフローセルを構成および/または使用することができる。例示的なフローセルは、例えば、各々参照により全体として本明細書に組み入れられる、米国特許出願公開第2010/0111768号および米国特許出願第13/273666号に記載されている。フローセルについて例示されているように、統合システムの流体素子のうちの1つまたは複数を増幅方法と検出方法の両方に使用することができる。例えば、統合システムの流体素子のうちの1つまたは複数を増幅方法と、シーケンシング方法におけるシーケンシング試薬の送達とに使用することができる。あるいは、統合システムは、増幅方法を実行するためと検出方法を実行するための別々の流体システムを含むこともできる。
【0042】
本開示の目的では、フローセルはまず、配列決定され、次いでシーケンシングプロセスと関連付けられる様々な試薬に曝露される核酸サンプルを受け取り、固定化するかまたはそれ以外の方法で捕捉することを理解すれば十分である。特定の態様では、シーケンシングプロセスは、合成による配列プロセスであるが、他のシーケンシング技術も用いられ得る。
【0043】
画像取得システム103は、シーケンシングが行われるフローセル上の部位を照らすための蛍光励起部品(例えば、レーザーや関連付けられたミラーおよびレンズ)などの光学部品と、複数の部位を有するフローセルの部分の蛍光の画像を取り込むための画像取り込み部品とを含む。画像取得システムによって取り込まれたデータは、任意の所与のシーケンシングサイクルに任意の所与の部位でどのヌクレオチドが読み取られているかを判断するのに適した情報を含む。
【0044】
リアルタイム解析を可能にするために、シーケンサー100は通常、画像取得システム103からの画像データを解釈して格納する搭載プロセッサおよびメモリを含む。シーケンサーに適したプロセッサの例には、IntelのXeon E5クラスが含まれる。通常、プロセッサ105は、1つの画像取得サイクルの間に取られた画像データを一時的に格納する複数のバッファ107を含む。図示の態様では、プロセッサバッファはシステムメモリ内で割り振られる。所与のプロセッサバッファは、リアルタイム解析の間にフローセルの領域の画像データを解析するために作成された特定のプロセッサスレッドと関連付けられ得る。特定の態様では、スレッドによって解析される画像データは、1つの画像取得サイクルの間に取り込まれた1つのタイル(後述)のものである。特定の態様では、バッファは約400ギガバイトのデータを格納することができる。本明細書で使用する場合、スレッドとは、どんな動作を実行するかをプロセッサに知らせる命令の順序付きシーケンスである。命令は、特定の機械語命令セットの中から選択された実行可能な機械コード、すなわちハードウェアプロセッサに組み込まれた「ネイティブ命令」を使用してプロセッサを構成する。
【0045】
機械語命令セット、すなわちネイティブ命令セットは、(1つまたは複数の)ハードウェアプロセッサ、またはCPUに知られており、本質的にそれらに組み込まれている。これは、システムおよびアプリケーションソフトウェアがハードウェアプロセッサと通信するための「言語」である。各ネイティブ命令は、処理アーキテクチャによって認識され、算術関数、アドレス指定関数、または制御関数のための特定のレジスタ、特定のメモリ位置またはオフセット、およびオペランドを解釈するために使用される特定のアドレス指定モジュールを指定することができる個別のコードである。順次実行されるこれらの単純なネイティブ命令を組み合わせることによって、あるいはそれ以外に制御フロー命令によって指図されるように、より複雑な演算が構築される。
【0046】
システムメモリ109は複数のタイルバッファ111を含み、各タイルバッファは1つの画像取得サイクルの間にフローセルから取得された画像データの部分を格納するように構成される。この例のタイルバッファがそう呼ばれるのは、それらが1つのタイル分の画像データを保持するように構成されているからである。以下でより十分に説明するように、タイルとは、1つの画像取得サイクルの間に取られた単一の画像内に取り込むことができるフローセルの領域である。タイルバッファ111は、プロセッサバッファ107よりも長い期間にわたって画像データを格納することが意図されている。特定の態様では、タイルバッファ111は少なくとも2つの画像取得サイクルにわたって画像データを格納する。本出願ではフローセルのタイルからのデータをバッファするバッファについて説明しているが、開示の態様はこの量のデータを格納するバッファに限定されない。特に指示するかまたは文脈上明らかでない限り、「タイルバッファ」という場合それは、フローセルの一部分からの画像データを格納する任意のタイプのバッファを含むと理解され、その画像データは本明細書に記載されるように単位として処理される。
【0047】
ベースコールを行うために、1つまたは複数のプロセッサ105は、システムメモリ109から提供されたデータおよびプロセッサバッファ107に格納されたデータを処理する。通常は、1つの画像取得サイクルの間に1つの部位に対して1回のベースコールが行われる。
【0048】
図示のように、1つまたは複数のプロセッサ105とメインメモリ109は双方向にデータを共有する。さらに、1つまたは複数のプロセッサ105は、画像取得システム103から画像データを受け取る。特定の態様では、画像取得システム103は、フローセル101上のシーケンシング部位を励起し、それらの部位から光シグナルを受け取ることによってフローセル101からデータを取得する。特定の態様では、画像取得システム103によって受け取られるシグナルは、システム103が適切な波長の光でフローセル101を照らすときに生じる蛍光シグナルである。そのような態様では、蛍光シグナルは複数の色の強度値として提供される。
【0049】
サイクルの概念は本開示を通して使用される。1つのシーケンシングサイクルは、画像に取り込まれた1つまたは複数の部位の各々からの単一のヌクレオチドの読み取りを含む。この読み取りをベースコールを行うという。本明細書に記載される様々な態様では、(1つまたは複数の)プロセッサおよびメモリの観点から見た1つの「計算」サイクルは、ベースコールと画像取り込みの両方を、ただし異なるヌクレオチドについて行い、ベースコールは読み取られまたは呼び出されているヌクレオチドの配列において画像取り込みよりも遅れる。例えば、1つの計算サイクルにおいて、1つまたは複数のプロセッサは、シーケンシングサイクルnでヌクレオチドのためのベースコールを行い、同時にシーケンシングサイクルn+1でヌクレオチドのための画像取り込みを行う。よって、1つの計算サイクルにおいて、シーケンサーは、(a)シーケンシングサイクルn+1でヌクレオチドのための未修正画像データを格納、処理し、(b)シーケンシングサイクルnでヌクレオチドのためのベースコールを行う。このサイクルごとの処理におけるプロセッサバッファおよびタイルバッファの使用について以下でより詳細に説明する。
【0050】
フェージング全般
フローセルまたは他の基板上の特定の部位で、すべて同じ配列を有する(サンプル処理によって意図せずに導入された限られた変異を伴いうる)核酸分子の複数のコピーが一緒に解析される。信頼できるベースコールを可能にするのに十分なシグナルが生成されることを確実にするために十分なコピーが使用される。部位における核酸分子のコレクションはクラスタと呼ばれる。場合によっては、配列決定されていないクラスタは一本鎖核酸分子のみを含む。
【0051】
フェージングは、クラスタ内の複数の核酸分子の配列決定から生じる意図しないアーチファクトを表す。フェージングは、クラスタ内の単一分子からの蛍光などのシグナルが相互の同期を失う割合である。多くの場合、フェージングという用語は、いくつかの遅れた分子からの夾雑シグナルについて使用され、プレフェージングという用語が、先に進んだ他の分子からの夾雑シグナルについて使用される。フェージングとプレフェージングとは合わさって、シーケンシング装置およびケミストリがいかにうまく機能しているかを説明する。
【0052】
数字は低い方がよい。0.10/0.10の値は、各ベースコールサイクルにおいてクラスタ内の分子の0.10%が遅れていることと0.10%が先に進んでいることの両方を意味する。言い換えると、実際のシグナルの0.20%がサイクルごとに失われて、ノイズの原因となる。別の例では、0.20/0.20は、1サイクルあたり実際のシグナルの0.4%が失われることを意味し、その場合、(補正なしの)250サイクル後にノイズがシグナルと等しくなるはずである。
【0053】
シーケンサーのリアルタイム解析部品は、シーケンシングが進行するのと同時に正しいレベルのフェージング補正を適用するために、フェージングおよびプレフェージングを決定し得る。これは、現在のサイクルの前または後にベースコールに基づいて各シーケンサーチャネルにシグナルを人為的に出し入れすることによって働く。
【0054】
以前は、フェージングおよびプレフェージングは、規定のサイクル数(例えば、各リードの最初の12サイクル)にわたって推定され、次いですべての後続のサイクルに適用された。最近のシーケンサーの中には、経験的フェージング補正と呼ばれるアルゴリズムを用いて、ある範囲の補正を試し、最高の純正度(chastity)(シグナル純度)をもたらすものを選択することによってサイクルごとにフェージング補正を最適化するものがある。経験的フェージング補正は、性能の改善をもたらすが、より大きな計算リソースを必要とする。
【0055】
従来のシーケンサーでは、各塩基が固有の蛍光色素の色を有し、例えば、チミンは緑、シトシンは赤、グアニンは青、アデニンは黄である。ベースコールの情報を取り込むために、4チャネルシーケンサーは、タイルまたはフローセルの他の部分の4つの画像を取る。シーケンサーの中には現在、2つのチャネルだけを有し、したがってフローセルの同じ部分の2つの画像だけを取るものがある。2チャネルシーケンサーは、塩基ごとに色素の混合を使用し、2つの画像に赤と緑のフィルターを使用する。2チャネルシーケンサーの一例では、赤または緑の画像で見られるクラスタは、それぞれC塩基およびT塩基として解釈される。赤と緑両方の画像で観察されるクラスタはA塩基としてフラグが立てられ、標識なしのクラスタはG塩基として同定される。
【0056】
図2に、配列...ACGTAAG...を有する核クラスタのシーケンシング中のフェージングを示す。図示のように、最初のGのベースコールサイクルの間、蛍光シグナルの98.4%はGのシグナルを現在生成している配列に由来し、蛍光シグナルの1.5%は前の塩基Cのシグナルを現在生成している配列に由来し、蛍光シグナルの1.1%は次の塩基Tのシグナルを現在生成している配列に由来する。前の塩基Cのシグナル寄与はフェージングからのものであり、次の塩基Tからのシグナル寄与はプレフェージングからのものである。
【0057】
このGのベースコールのフェージング補正が、図2の右側のグラフに反映されている。2チャネルシーケンサーについて図示されるように、蛍光シグナルを二次元プロットに表すことができ、「緑軸」上の最大強度シグナルはTを表し、「赤軸」上の最大強度はCを表し、軸間の中間の最大強度はAを表し、両軸上の最小強度はGを表す。フェージング誤差なしでは、Gのシグナルは赤軸と緑軸の両方でゼロ強度を有するはずである。そうではなく、考察されるフェージング誤差ありでは、蛍光シグナルは緑軸と赤軸の両方で若干の強度寄与を有する。この例では、プレフェージング補正は緑軸上でシグナル強度をゼロまで減少させ、フェージング補正は赤軸上でシグナル強度をゼロまで減少させる。同様の補正が、塩基T、塩基C、および塩基Aのベースコールに対しても行われ得る。
【0058】
タイルおよびフローセル
説明したように、フローセルはシーケンシング情報が収集される複数の部位を含む。特定の態様では、フローセルの各部位は同じ配列を共有する一本鎖核酸のクラスタを含む。リアルタイムシーケンシングで使用される単一の画像は、何百万ものそのようなクラスタを含み得る。典型的なフローセルは非常に大きいので、その全領域をカバーするためには何百または何千でさえもの別々の画像を必要とする。特定の態様では、リアルタイム解析に用いられるプロセッサおよび関連付けられたメモリは、1サイクルのベースコールを行うために現在これらすべての画像を処理する。いくつかの実施態様では、プロセッサおよびメモリは、1つのベースコールサイクルの間に2つ以上のフローセルにわたって取得されたすべての画像を同時に処理する。図3に、Illumina,Inc.から提供されているいくつかのシーケンサーにおいて使用されるフローセルアーキテクチャを概略的に示す。図示の例では、シーケンサーは、2つのフローセル、フローセル1およびフローセル2に対して同時にベースコールを行う。特定の態様では、各フローセルは、2つの面の各々、下面内の上面にシーケンシング部位を有する。そのような場合、シーケンサーは各ベースコールサイクルの間に上面と下面の両方を画像化する。図3に示すように、各フローセル面は4つのレーン、L1、L2、L3、およびL4を含む。当然ながら他の数も可能である。各面の各レーンは、帯(swath)と呼ばれる複数の細区画を有し得る。各帯はさらに、順番に複数のタイルに分割される。例えば、1帯あたり約120個のタイルがあり得る。各々2つの面を有し、各面が4つのレーンを有し、各レーンが6つの帯を有し、各帯が120個のタイルを有する2つのフローセルを考えると、1サイクルあたり数千個のタイルのデータが解析される必要がある。様々な態様では、各タイル画像(またはフローセルの一部分からの他の画像)が単一のプロセッサスレッドによって処理される。特定の態様では、図3に示されるアーキテクチャを有するフローセルを用いるシーケンサーが、各ベースコールサイクルにおいて8000個以上のタイルのデータを処理する。そのような場合、リアルタイム処理論理は、各ベースコールサイクルで8000以上のプロセッサスレッドを用いることになる。
【0059】
1サイクルの間に取り込まれた1つのタイルからのデータをアレイとしてメモリに格納することができ、アレイ内の各エントリはタイル内の単一のクラスタのチャネルごとの色値を表す。図4に2チャネル構成でのアレイが示されている。一例として、色強度検出器は、チャネルごとに約400から1500のシグナルカウントを生成することができる。システムメモリ内のタイルバッファはアレイ内のすべての情報、言い換えると、1つのベースコールサイクルにおけるタイル上のすべてのクラスタの色値を格納するように構成される。プロセッサバッファも同様に、アレイ内のすべての情報を格納するように構成され得る。
【0060】
フェージングプロセス
ランの全長にわたってタイルごとに2サイクルまたは3サイクルのクラスタ強度が保存されなければならないというフェージング補正の要件から、配列データのリアルタイム解析の大きなメモリ負担が生じる。700nmのフローセルを有するIllumina HiSeqXでは、これは73ギガバイトのメモリを占有する。この負担は十分に大きいため(このプラットフォーム上の)データのほとんどがソリッドステートハードドライブにキャッシュされる。
【0061】
説明したように、フェージング補正は、クラスタ内のいくつかの核酸鎖の位相ずれシーケンシングに対処するために画像の強度値を調整する。フェージング補正はこれを、現在のベースコールサイクルの測定されたクラスタ色強度値(またはシーケンシング方法で測定された他のシグナル)から開始し、前のベースコールサイクルからの測定された強度値を使用してかつ/または後のベースコールサイクルからの測定された強度値を使用して補正値を加算または減算することによって達成する。様々な実施態様において、ベースコールを行うためのフェージング補正された強度値は図5の下部に示されている式を適用する。式に示されているように、画像内の現在のベースコールサイクルのためのフェージング補正された強度値は、現在のベースコールサイクルのための測定された強度値から第1の係数と直前のベースコールサイクルにおける測定された強度値との積を減算し、第2の係数と直後のベースコールサイクルにおける測定された強度値との積を減算したものに等しく、
補正された強度=-αIn-1+In-bIn+1
式中、In-1、In、およびIn+1は、それぞれ、直前のベースコールサイクル、現在のベースコールサイクル、および直後のベースコールサイクルにおけるタイル内のクラスタの強度値である。係数aおよび係数bは、それぞれ、フェージング係数およびプレフェージング係数(重みとも呼ばれる)である。これらは、タイルのベースコールサイクルごとに新しく計算され得る。
【0062】
図2に戻って、(画像中の単一のクラスタについての)図示の配列中の3番目の塩基の測定された強度値は、図2の右側のグラフ中に点として示されている。この測定された強度値に対するプレフェージング補正は、測定された強度値から水平軸まで下した垂直矢印によって反映されている。フェージング補正された強度値の式において、このプレフェージング補正は係数bと次の連続するベースコールサイクルの間に測定された強度値との積によって表される。さらに、測定された強度値は、グラフ上の水平矢印によって表されるフェージング補正によって補正される。このフェージング補正は、測定された強度値から、係数aと直前のベースコールサイクルの測定された強度値との積を減算することによって実施される。係数aおよび係数bは多数の方法によって決定され得るが、多くの実施態様においてこれらはベースコールサイクルごとに新規に計算される。フェージング補正で使用されるべき係数を決定するための方法の説明は、参照によりその全体が本明細書に組み入れられる、Belitzらによる、2015年6月11日に公開された公開番号WO2015/084985を有する国際特許出願に記載されている。
【0063】
特定の態様では、フェージングアルゴリズムは、ベースコールサイクルの間にクラスタ強度データの累積純正度(または同様の測定基準)を最大化することによって経験的にフェージング係数を決定する。このアルゴリズムの一実施態様は、全部または多くのフェージング係数にわたって反復し、どの係数が最善の結果を与えるかを判断する。例えば、フェージングアルゴリズムは、純正度フィルターを通らないクラスタの数を数える費用関数を用いたパターン探索を使用してサイクルごとにaおよびbを最適化し得る。よって、aおよびbはデータ品質を最大化するように選択される。
【0064】
いくつかの態様では、フェージング係数は、シーケンシングランを通して(例えば、リードの生成中に)進行中の解析として決定される。この手法の結果として、初期のサイクルの間になされた不正確なフェージング推定は後のサイクルに悪影響を及ぼさなくなる。
【0065】
いくつかの方法は、クラスタ強度値の純正度を、同じベースコールサイクルについて決定されたその他のクラスタ強度値のガウス重心までの相対距離の関数として決定する。2チャネルシステムが使用されると仮定すると、重心は理想的には2つのチャネルのA、T、C、およびGの強度の予期される位置と整合する(図2参照)。特定の態様では、次式を使用して純正度を計算することができ、
純正度=1-D1/(D1+D2)
式中、D1は最も近いガウス重心までの距離であり、D2は次に近い重心までの距離である。この手法を利用して、強度値の平均純正度(品質)が最大化されるときに、aおよびbの正しい値が選択される。これらの値が特定されると、すべてのクラスタ値に補正を適用することができ、ベースコールを直接行うことができる。2チャネルデータセットにガウス分布を適合させる方法は、先に参照により組み入れられた公開番号WO2015/084985を有する国際特許出願に記載されている。
【0066】
いくつかの態様では、フェージング補正は、シーケンシングランの間にほぼすべてのサイクルで計算される。いくつかの態様では、フェージング補正は、シーケンシングランの間にすべてのサイクルで計算される。いくつかの態様では、同じサイクルにおける画像化された面の異なる位置について別々のフェージング補正が計算される。例えば、いくつかの態様では、個々のフローセルレーンなどの、画像化された面の個々のレーンごとに別々のフェージング補正が計算される。いくつかの態様では、フローセルレーン内の画像化された帯など、レーンのサブセットごとに別々のフェージング補正が計算される。いくつかの態様では、例えばタイルごとなど、個々の画像ごとに別々のフェージング補正が計算される。特定の態様では、サイクルごとタイルごとに別々のフェージング補正が計算される。
【0067】
リードが長くなるにつれて、フェージング補正において高次の項がより重要になる可能性がある。よって、特定の態様では、これを補正するために、二次の経験的フェージング補正を計算することができる。例えば、いくつかの態様では、方法は、次式によって定義される二次フェージング補正を含み、
I(サイクル)=-aI(サイクル-2)-AI(サイクル-I)+I(サイクル)-BI(サイクル+1)-bI(サイクル+2)
式中、Iは強度を表し、a、A、B、およびbはフェージング補正に対する一次項および二次項を表す。特定の態様では、計算はa、A、B、およびbにわたって最適化される。
【0068】
図5に、リアルタイムでフェージング補正を実行するための処理構成および方法を概略的に示す。図示の態様では、プロセッサ502は、プロセッサが、画像、例えばタイルの画像内のクラスタからベースコールを行うように求められときに、新しい処理スレッド503を作成する。新しいスレッドはタイルごとベースコールサイクルごとに生成され得る。図示の態様では、プロセッサ502は、タイル(および指定された処理スレッド)のベースコールサイクルごとに単一のプロセッサバッファ505を供与する。プロセッサバッファは、現在のベースコールサイクルnのフェージング補正を実行するためにプロセッサによって計算処理操作される強度値を一時的に格納する。図示の態様では、プロセッサは、特定のベースコールサイクルの間に取り込まれた画像データを格納するために1つずつ、3つのバッファを含むシステムメモリ507とインターフェースする。図3に示されるフローセルアーキテクチャの場合、各バッファは1つのタイルのクラスタの画像データを格納し、ゆえにバッファはタイルバッファと呼ばれる。当然ながら、他のフローセルアーキテクチャおよび/または画像取得システムでは、バッファはより多くのまたはより少ないクラスタデータを格納し得る。便宜上、本明細書ではタイルバッファを参照する。各タイルバッファは、1つのベースコールサイクルの間に取り込まれた1つのタイル(またはフローセルの他の部分)のデータを格納する。画像データは、図4に示されるようなデータのアレイとして提供され得る。
【0069】
図示のように、システムメモリ507は、(プロセッサによって処理される現在のベースコールサイクルと比較した)直前のベースコールサイクルの強度値を一時的に格納するタイルバッファ509と、現在のベースコールサイクルの間に測定された強度値を格納するタイルバッファ511と、直後のベースコールサイクルの強度値を格納するタイルバッファ513とを含む。やはり、タイルバッファ509、タイルバッファ511、およびタイルバッファ513の各々は、1つのベースコールサイクルnの間の1つのタイルの測定データを含む。
【0070】
図示のように、スレッド503は、1つのベースコールサイクルの間に、タイルバッファ509、タイルバッファ511、およびタイルバッファ513の各々における強度値を利用する。強度値は、プロセッサバッファ505に連続してロードされ、図5の下部に提示されているフェージング補正式を実施するように操作される。図5のプロセッサおよびメモリの構成に示されるようにベースコールプロセスが完了した後、プロセッサバッファは、フェージング補正されたベースコールを行うために使用される調整された強度値を保持する。
【0071】
図6に、図5に示されるプロセッサおよびメモリの構成を用い得るベースコールプロセスの流れ図を示す。図6に示されるように、プロセス601は新しいベースコールサイクルを開始して、プロセッサスレッドを作成し、そのスレッドにプロセッサバッファを割り振る。プロセスブロック603を参照されたい。その後、プロセッサは、現在の処理サイクルと同時に取られたフローセルタイル(またはフローセルの他の適切な部分)の画像から強度データを抽出する。図示の実施態様では、取り込まれた画像および関連付けられた強度値は、現在のベースコールサイクル(現在の処理反復)ではなく、次の連続するベースコールサイクルのための一次強度値である。言い換えると、現在の処理サイクルは、直前の処理サイクルで収集された画像データのためのベースコールを行う。よって、プロセス601のプロセスブロック605に示されるように、抽出された強度値には参照符号In+1が与えられており、nは現在のベースコールサイクルを表す。別の言い方をすると、処理サイクルは、(i)ベースコールサイクルnのための塩基の呼び出しと、(ii)ベースコールサイクルn+1のための画像データの取り込みの両方を行う。
【0072】
新しく抽出された強度データは、図4に示されるようにアレイの形態で提供されてもよく、システムメモリの利用可能なタイルバッファ(例えば、タイルバッファ513)に格納される。特定の態様では、このタイルバッファは、前に使用されたがもはやベースコールには不要になった強度データを格納したタイルバッファである。
【0073】
現在の処理サイクルにおいて、プロセス601はまた、現在の計算サイクルの前の計算サイクルの間に格納された強度データも取り出す。プロセスブロック607を参照されたい。取り出された強度データは現在のベースコールサイクルのためのものであり、参照符号Inが与えられている。取り出された強度データは、図5に示されるようにシステムメモリのタイルバッファ511などの適切なタイルバッファから取得される。
【0074】
さらに、プロセス601は、現在のベースコールサイクルの2サイクル前に格納された強度データも取り出す。プロセスブロック609を参照されたい。一例として、図5を参照すると、そのような強度データはシステムメモリのタイルバッファ509から取得され得る。動作609で取り出された強度値のアレイはIn-1で識別される。
【0075】
動作605、動作607、および動作609は連続して行われるように図示されているが、この動作順序は柔軟であり、プロセッサは、フェージング補正を組み込むベースコールと矛盾しない限り任意の順序が許容されるように実施することができる。
【0076】
現在のベースコールサイクルの強度値(プロセスブロック607)および直前のベースコールサイクルの強度値(処理ブロック609)を取り出すと、プロセッサは、フェージング補正を行うために必要とする利用可能なすべての強度値を有する。プロセッサはこれを、まず現在のベースコールサイクルのプレフェージング補正重みbおよびフェージング補正重みaを決定することによって行う。プロセスブロック611を参照されたい。プロセスブロック611は、次の連続するベースコールサイクルの抽出された強度値を、現在および直前のベースコールサイクルの強度値と一緒に使用してこれが達成され得ることを示している。次いで、フェージング補正重みおよびプレフェージング補正重みを使用して、プロセッサはプロセスブロック613に示されるように現在のベースコールサイクルのためのフェージング補正された強度値を計算する。補正値は考察されているタイル内のクラスタのものである。計算はブロック613に示される式を用い得る。フェージング補正された強度値を使用して、プロセッサはプロセスブロック615に示されるように現在のベースコールサイクルのためのコールを行う。
【0077】
この時点で、現在のベースコールサイクルのための処理は完了し、ベースコールの次の反復が実行され得る。別のベースコールサイクルを実行するかどうかの判断は、考察されているタイルのクラスタに配列決定されるべきさらなるヌクレオチドがあるかどうかを判断するブロック617に示されている。なければ、プロセスはブロック619に示されるように完了する。もしあれば、プロセス制御はプロセスブロック621に渡され、そこでプロセッサはサイクルカウントを増分する。これにより、現在のベースコールサイクルの強度値Inが、直前のベースコールサイクルの強度値In-1に実質的に索引付けされる。同時に、直後のベースコールサイクルの強度値(In+1)が、新しい現在のベースコールサイクルの強度値(In)になる。これらの増分は、タイルバッファに格納された強度データに適用された索引に関して行われる。
【0078】
フェージングプロセス(メインメモリの削減)
図5および図6の手法は、シーケンサーおよびこれと関連付けられたリアルタイム解析システムがメモリの制約を受けない限り、うまく機能することができる。しかしながら、全ゲノムシーケンシングを行うために用いられるシーケンサーなどの特定の最新のシーケンサーにおいて処理されなければならないデータ量を考えると、特に商業的に実現可能なコストでは利用可能なメモリが不十分である可能性がある。したがって、ベースコールサイクルの間にフローセル(または複数のフローセル)を完全に画像化するのに必要なデータ量の3倍を格納すると深刻な支障が生じる可能性がある。
【0079】
図5および図6に表されているようなフェージングアルゴリズムは、特に標準的でないサンプル、例えば低多様度のサンプルに関して、シーケンシング結果を著しく向上させるという点で、リアルタイム解析に対する重要な寄与となる。しかしながら、次世代シーケンシングシステムのスループットが増大するにつれて、課せられるメモリ負担はより大きくなる。以下の態様は、既に部分的にフェージング補正されたデータから学習されたフェージング重みを使用することによってメモリ負担を軽減する。フェージング重みおよびプレフェージング重みは独立して学習され、しかも高品質のシーケンシング結果を提供することができる。いくつかの例では、メインメモリ要件は、2つのフローセル上のタイルの総数に含まれるデータを格納するために必要とされる容量の2倍未満である。
【0080】
特定の態様では、フェージング補正されたベースコールのためのプロセッサおよびメモリの構成は、システムメモリに対する要件を低減させるように調整される。この仕組みの一例が図7に示されている。強度値は上述したように補正され、例えば、フェージング重みおよびプレフェージング重みが計算され、直前および直後のサイクルに適用される。しかしながら、図7の例では、システムメモリ707は、フェージング補正のためにただ2つのみのタイルバッファ、すなわちタイルバッファ709とタイルバッファ711を使用する。この例では、プロセッサ702は、図5の例に反して、2つの関連付けられたプロセッサバッファ、すなわち、メモリ707から取り出された強度値を格納して処理するプロセッサバッファ705と新しく取り込まれた画像強度値In+1を格納して使用するプロセッサバッファ706とを有する処理スレッド703を用いる。図示の例では、プロセッサバッファはメインメモリにおいて割り振られているが、これは必ずしも必須ではない。いくつかの態様では、プロセッサバッファは異なる物理メモリ内またはプロセッサチップ上でさえも割り振られる。
【0081】
タイルバッファをプロセッサバッファで置き換えることにより総メモリ要件が実質的に削減される。複数のプロセッサおよび/またはマルチスレッド処理を使用することにより、少数のプロセッサで多数のタイルを処理する。一例として、システム内のタイルの数はおよそ1000~2000程度であり得るが、これらすべてのタイルを処理するプロセッサの数は約20である。理論上、そのようなシステムはおよそ50倍程度のメモリ削減を実現することができる。いくつかの実施態様では、削減はおよそ20倍程度である。
【0082】
この実施態様では、現在の処理サイクルにおいてタイル画像から取り込まれた強度値(In+1)はプロセッサにローカルに格納され、フェージング重みおよびプレフェージング重みを計算し、続いてベースコールを行うために使用される。いくつかの実施態様では、このプロセスが完了した後で初めて、直近に取り込まれた強度値(In+1)がシステムメモリ707のタイルバッファに格納される。
【0083】
いくつかの態様において、プロセッサおよびシステムメモリは、図8に示されるように構成される。図7のプロセッサ/メモリ構成と同様に、プロセッサ802は、2つのプロセッサバッファ、すなわち、システムメモリ807(タイルバッファ811)からの強度値を一時的に格納するためのプロセッサバッファ805、および現在の処理サイクルの間に取り込まれた強度値(In+1)を一時的に格納するためのプロセッサバッファ806と各々関連付けられた、処理スレッド803を用いる。この構成を効果的かつ効率的に機能させるために、タイルバッファ811に格納された強度値は部分的にフェージング補正されなければならない。これを達成するための機構の例を以下で説明する。図7のプロセッサバッファ705および図8のプロセッサバッファ805はメインメモリから強度をロードし、次いでそれらの強度を操作してベースコールに用いられる補正強度を生成する。図示の例では、プロセッサバッファはメインメモリにおいて割り振られているが、これは必ずしも必須ではない。いくつかの態様では、プロセッサバッファは異なる物理メモリ内またはプロセッサチップ上でさえも割り振られる。
【0084】
図9に、図8の、およびいくつかの実施態様では図7のプロセッサおよびメモリの構成と共に用いられ得るプロセス901のハイレベル図を提示する。図9に示されるように、第1および第2の処理サイクルは、タイル内の画像化されたクラスタに対して完全なフェージング補正を実行するには不十分な情報を用いる。しかしながら、最初のサイクルではフェージングは大きな問題ではない。
【0085】
完全なフェージング補正を実行するためには、シーケンサーは画像データの3つの連続したサイクルを必要とする。最初の処理サイクルでは、シーケンサーはベースコールを行わず、次の処理、すなわち最初のベースコールが行われるサイクルのための強度データを格納するにすぎない。
【0086】
図示のように、プロセス901はプロセスブロック903から開始し、そこで第1の処理サイクルのためにスレッドが作成される。このスレッド内の命令は、最初のシーケンシングサイクル、すなわちクラスタの最初のヌクレオチドが読み取られるサイクルの間にクラスタの画像からの強度データ(I1)の抽出を指示する。プロセスブロック905を参照されたい。画像データはシステムメモリ内のタイルバッファに格納される。この時点で、最初の処理サイクルは実質的に完了する。
【0087】
プロセスは引き続きプロセスブロック907に進み、そこで2回目の処理サイクルに備えて新しいスレッドが作成される。このプロセスでは、第1および第2のプロセッサバッファが2回目の処理サイクルに割り振られる。ブロック907を参照されたい。まとめると、プロセスブロック907、909、911、913、915、917、919、921、および923が、プロセスブロック907で生成されたスレッドおよびプロセッサバッファを使用して実行される2回目の処理サイクルの間に行われる。
【0088】
図示のように、プロセッサは次のベースコールサイクルのための画像から強度データ(I2)を抽出し、そのデータを第1のプロセッサバッファに格納する。プロセスブロック909を参照されたい。次に、2回目の処理サイクルの間に、プロセッサは、その強度データが現在のベースコールサイクルのためのものである、最初の処理サイクルの間にタイルバッファに格納された強度データ(I1)を取り出す。ブロック911を参照されたい。最初および2回目の処理サイクルの間に収集された強度データを使用して、プロセッサは、現在のベースコールサイクル(すなわち、リードにおける最初のベースコール)のためのプレフェージング重みbを計算することができる。プロセスブロック913を参照されたい。最初の2サイクルの強度値とプレフェージング重みとを用いて、プロセッサは2回目のベースコールサイクルのための補正された強度データ値(I2)を計算する。補正された強度データ値は第2のプロセッサバッファに格納され得る。プロセスブロック915を参照されたい。次に、プロセッサは、ブロック915で取得された補正された強度データ値を使用して2回目のベースコールサイクルのベースコールを行う。プロセスブロック917を参照されたい。
【0089】
この時点で、シーケンシングプロセスは次のベースコールサイクルの準備を始める準備ができている。シーケンシングプロセスはプロセスブロック919で開始して、次の(すなわち2回目の)ベースコールサイクルの強度データ(I2)と、タイルバッファに格納された現在のベースコールサイクルの強度データ(I1)とを使用してフェージング補正重みaを決定する。フェージング補正重みaを使用して、プロセッサは次に、プロセスブロック921に示される式に従ってこの2回目の処理サイクルの間に抽出された現在未補正の強度データ(I2)および1回目の処理サイクルの強度データ値(I1)からフェージング補正された(ただしプレフェージング補正されていない)強度データ値を計算する。これにより、2回目のベースコールサイクルのための部分的に補正された強度値アレイ(I2(部分補正済み))が得られる。シーケンサーは、プレフェージング補正を実行する前に次の処理サイクルを待たねばならない。しかしながら、この時点で計算の大部分は完了し、単一の画像のアレイデータを次のベースコールサイクルで使用するためにタイルバッファに格納することができる。このために、プロセッサは、(I2(部分補正済み)がタイルバッファ内のI1に取って代わるように)フェージング補正された(ただしプレフェージング補正されていない)強度データをタイルバッファに格納する。プロセスブロック923を参照されたい。
【0090】
この時点で、1回目および2回目の処理サイクルが完了し、2回目の処理サイクルである1回目のベースコールサイクルのベースコールが行われる。後続のベースコールサイクルは、図10に記載されているように完全なフェージング補正を用いて行われ得る。プロセスブロック925を参照されたい。
【0091】
図10に、完全にフェージング補正されたベースコールを実行する処理サイクルの間に行われ得る動作シーケンスを示す。そのようなサイクルは、タイルのクラスタを配列決定する3回目以降の処理サイクルで行われ得る。特定の態様では、図10に示される動作シーケンスは、図9のプロセスブロック925に対応する。
【0092】
図示のように、プロセスは、スレッドと、関連付けられた第1および第2のプロセッサバッファとを割り振ることから開始する。プロセスブロック1003を参照されたい。次に、プロセッサは、次のベースコールサイクルのための画像から強度データ値(In+1)を抽出し、それらの値を第1のプロセッサバッファに格納する。プロセスブロック1005を参照されたい。同時に、プロセッサは、前のベースコールサイクルの間に格納された部分的に補正された強度データ値(非限定的な例として、図9の態様におけるI2(部分補正済み)、すなわちIn-a(In-1))を取り出す。これらの値はここでは、現在のベースコールサイクルの強度値(In)を表す。それらは前にシステムメモリのタイルバッファに格納されたものであり、ここでそこから取り出される。プロセスブロック1007を参照されたい。フェージング補正されたものである、現在のベースコールサイクルのための部分的に補正された強度データ値を用いれば、プロセッサは、強度データの補正を完了し、現在のベースコールサイクルの必要なベースコールを行うためにプレフェージング補正を実行しさえすればよい。このために、プロセッサは、現在のベースコールサイクルのためのプレフェージング補正重みbを決定する。プロセッサはこれを、次のサイクルの、画像データから取り出したばかりの抽出された強度データ(In+1)を、現在のベースコールサイクルのための前に部分的に補正された強度データと一緒に使用して行う。タイルバッファから取り出されたばかりのこの部分的に補正されたデータを想起されたい。部分的に補正された強度データは、式In-a(In-1)で表され得る。プロセスブロック1009を参照されたい。
【0093】
現在のベースコールサイクルについて計算されたプレフェージング補正重みbがあれば、プロセッサは、現在のベースコールサイクルのための完全にフェージング補正された強度データアレイ(In)を計算するために必要なすべてを有する。計算はプロセスブロック1009に示されるように実行される。結果として得られる完全に補正された強度データ値は第2のプロセッサバッファに格納される。プロセスブロック1011を参照されたい。その後、プロセッサは、第2のプロセッサバッファに格納された補正された強度データ値を使用して現在のベースコールサイクルのベースコールを行う。プロセスブロック1013を参照されたい。
【0094】
現在の処理サイクルは、次の処理サイクルの間に実行される次のベースコールサイクルの準備を開始することができる。図示の態様では、プロセッサは、現在のベースコールサイクルに利用可能な強度データを使用して次のベースコールサイクルのためのフェージング補正重みaを決定する。プロセスブロック1015を参照されたい。次のベースコールサイクル強度データはプロセス動作1005で抽出され、第1のプロセッサバッファに格納されたことを想起されたい。現在のベースコールサイクルのための部分的に補正された強度値が現在のベースコールを行うためにタイルバッファから取り出された。同じ部分的に補正された強度値がここでは次のベースコールサイクルのフェージング補正重みaを計算するために使用される。ここで計算された次のベースコールサイクルのためのフェージング補正重みを用いて、プロセッサは、プロセスブロック1017に示されるように、フェージング補正された(ただしプレフェージング補正されていない)強度データ値を計算する。プロセッサは次いで、次のベースコールサイクルのためのこれらのフェージング補正された強度データ値をタイルバッファに格納する。プロセスブロック1019を参照されたい。
【0095】
本発明よりも前には、ベースコール精度はフェージング補正された強度からプレフェージング重みを学習することによって損なわれるであろうと想定されていた。しかしながら、本発明の結果は、不正確さがほとんどまたは全く生じないことを示している。いくつかの実施態様では、画像データは圧縮され(例えば、不可逆圧縮)、部分的に位相補正されたデータでさえも圧縮される。どちらの場合も、精度を損なうことなく圧縮を実行できることが実証されている。一例として、圧縮なしで、一実施態様はタイルごとに2つのフロートバッファを使用する(フロートバッファは4バイトのサイズである)。圧縮ありで、一実施態様はシングルバイトバッファを使用し、よって4倍少ないメモリを実現する。
【0096】
この時点で、現在の処理サイクルは実質的に完了するので、プロセッサは現在のタイルのクラスタの配列決定において実行する必要がある次のサイクルがあるかどうかを判断する。判定ブロック1021を参照されたい。クラスタからそれ以上塩基を読み取る必要がない場合、プロセスは完了し、それ以上の処理サイクルは実行されない。しかしながら、1つまたは複数の追加のシーケンシングサイクルが必要な場合、プロセス制御はプロセスブロック1023に向けられ、そこでプロセッサは現在のサイクルを増分し、その時点でタイルバッファに格納された部分的に補正された強度データ値が現在になる。すなわち、それらの値は新しいベースコールサイクルのための値になる。プロセス制御は次いでプロセスブロック1003に戻り、そこで次の処理サイクルが開始する。
【実施例
【0097】
説明したように、特定の態様は、既に部分フェージング補正されたデータから学習されたフェージング重みを使用することによってメモリ負担を軽減する。しかしながら、フェージング重みおよびプレフェージング重みが独立して学習され、しかも高品質のシーケンシング結果を提供することができることは明らかではなかった。図11に示される例は、それらが可能であることを証明している。
【0098】
図示のように、2つの比較を行い、各々でベースラインプロセス(例えば、図5および図6のプロセス)と、メインメモリ要件を低減させるために最適化された新しいプロセス(例えば、図8および図10のプロセス)とを使用した。各比較において、同じシーケンサーおよびサンプルを用いた。具体的には、Illumina HiSeqX装置を2色素のケミストリを使用するように変換した。シーケンサーの出力画像を保存し、2つのフェージングアルゴリズムを両方とも同じシーケンシング画像で試験し、完全に制御されたテストを行った。「クラスタPF」は、シーケンサーによって出力されるスループットを示し、整列%は、参照ゲノムに首尾よく整列したクラスタの数を示し、「誤り率%」は、参照ゲノムと比較したソフトウェアによって呼び出された配列の平均誤り率を示す。
【0099】
シーケンシング結果は、メモリ効率の良いフェージングアルゴリズムがベースラインアルゴリズムと同等であることを実証している。この実施例では、メモリ効率の良いプロセスによって誤り率が約3%増加し、これはメインメモリの削減によって相殺される(いくつかの実施態様では420ギガバイトから340ギガバイトになると推定される)。
【0100】
シーケンシング方法
上記のように、本開示は核酸サンプルの配列決定に関する。ベースコールのために1つまたは複数の情報チャネル、特に光チャネルを使用するいくつかのシーケンシング技術のいずれかが使用され得る。特に適用可能な技術は、核酸がアレイ内の固定位置に(例えば、クラスタとして)付着しており、アレイが繰り返し画像化されるものである。画像が、例えば、あるヌクレオチド塩基タイプを別のものと区別するために使用される異なる標識と一致する異なるカラーチャネルで取得される態様が特に適用可能である。いくつかの態様において、標的核酸のヌクレオチド配列を決定するプロセスは自動化プロセスとすることができる。特定の態様は、合成によるシーケンシング(sequencing-by-synthesis、「SBS」)技術を含む。ここでは合成によるシーケンシング技術が強調されているが、他のシーケンシング技術も用いられ得る。
【0101】
多くの実施態様において、SBS技術は、鋳型鎖に対するヌクレオチドの反復付加による新生核酸鎖の酵素による伸長を含む。SBSの従来の方法では、単一のヌクレオチドモノマーが各送達においてポリメラーゼの存在下で標的ヌクレオチドに与えられ得る。しかしながら、本明細書に記載される方法では、送達においてポリメラーゼの存在下で標的核酸に複数のタイプのヌクレオチドモノマーを提供することができる。
【0102】
SBSは、ターミネーター部分を有するヌクレオチドモノマーまたはいかなるターミネーター部分も欠くヌクレオチドモノマーを利用することができる。ターミネーターを欠くヌクレオチドモノマーを利用する方法は、例えば、パイロシーケンシングやγ-リン酸標識ヌクレオチドを使用したシーケンシングを含む。ターミネーターを欠くヌクレオチドモノマーを使用する方法では、各サイクルで付加されるヌクレオチドの数は一般に可変であり、鋳型配列およびヌクレオチド送達モードに依存する。ターミネーター部分を有するヌクレオチドモノマーを利用するSBS技術では、ジデオキシヌクレオチドを利用する従来のサンガーシーケンシングの場合のように使用されるシーケンシング条件下でターミネーターを実質的に不可逆的とすることもでき、またはSolexa(現在はIllumina,Inc.)によって開発されたシーケンシング方法の場合のようにターミネーターを可逆的とすることもできる。
【0103】
SBS技術は、標識部分を有するヌクレオチドモノマーまたは標識部分を欠くヌクレオチドモノマーを利用することができる。したがって、標識の蛍光などの標識の特性、分子量や電荷などのヌクレオチドモノマーの特性、ピロリン酸塩の放出などのヌクレオチドの取り込みの副産物などに基づいて取り込み事象を検出することができる。シーケンシング試薬中に2つ以上の異なるヌクレオチドが存在する態様においては、異なるヌクレオチドが互いに識別可能であり得るか、あるいは使用される検出技術の下で2つ以上の異なる標識は識別不可能であり得る。例えば、シーケンシング試薬中に存在する異なるヌクレオチドは異なる標識を有することができ、Solexa(現在はIllumina、Inc.)によって開発されたシーケンシング方法によって例示されるようにそれらを適切な光学系を使用して区別することができる。
【0104】
いくつかの態様は、パイロシーケンシング技術を含む。パイロシーケンシングは、特定のヌクレオチドが新生鎖に取り込まれる際の無機ピロリン酸(PPi)の放出を検出する(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.and Nyren,P.(1996)「Real-time DNA sequencing using detection of pyrophosphate release.」Analytical Biochemistry 242(1),84-9;Ronaghi,M.(2001)「Pyrosequencing sheds light on DNA sequencing.」Genome Res.11(1),3-11;Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)「A sequencing method based on real-time pyrophosphate.」Science 281(5375),363;米国特許第6210891号;米国特許第6258568号、および米国特許第6274320号、これらの開示は参照によりその全体が本明細書に組み入れられる)。パイロシーケンシングでは、ATPスルフリラーゼによって直ちにアデノシン三リン酸(ATP)に変換されることによって放出されたPPiを検出することができ、生成されたATPのレベルはルシフェラーゼ生成光子を介して検出される。配列決定されるべき核酸をアレイ内の特徴に付着させることができ、アレイを画像化して、アレイの特徴におけるヌクレオチドの取り込みのために生成される化学発光シグナルを捕捉することができる。アレイを特定のヌクレオチドタイプ(A、T、CまたはGなど)で処理した後に画像を取得することができる。各ヌクレオチドタイプの付加後に取得される画像は、アレイ内のどの特徴が検出されるかに関して異なることになる。画像におけるこれらの違いは、アレイ上の特徴の異なる配列内容を反映している。しかしながら、各特徴の相対位置は画像内では不変のままである。画像は、本明細書に記載される方法を使用して格納、処理および解析することができる。例えば、各異なるヌクレオチドタイプでアレイを処理した後に取得された画像を、可逆的ターミネーターベースのシーケンシング方法のための異なる検出チャネルから取得された画像について本明細書で例示されたのと同じ方法で処理することができる。
【0105】
SBSの別の例示的なタイプでは、サイクルシーケンシングは、例えば、その開示が参照により本明細書に組み入れられる、国際公開公報第04/018497号および米国特許第7057026に記載される切断可能な、または光退色可能な色素標識を含む可逆的ターミネーターヌクレオチドの段階的付加によって達成される。この手法は、Solexa(現在はIllumina Inc.)によって商品化されており、また各々参照により本明細書に組み入れられる国際公開公報第91/06678号および国際公開公報第07/123744号に記載されている。終端を無効にすることと蛍光標識を切断することの両方が可能な蛍光標識ターミネーターを利用できることにより、効率的な循環可逆的終端(cyclic reversible termination(CRT))シーケンシングが円滑化される。これらの修飾ヌクレオチドを効率的に取り込みそこから伸長するようにポリメラーゼを共操作(co-engineer)することもできる。
【0106】
可逆的ターミネーターベースのシーケンシングの態様において、標識はSBS反応条件下での伸長を実質的に阻害しない場合もある。しかしながら、検出標識は、例えば切断や分解によって除去可能であり得る。配列された核酸特徴への標識の取り込みに続いて画像を取り込むことができる。特定の態様では、各サイクルは4つの異なるヌクレオチドタイプのアレイへの同時送達を含み、各ヌクレオチドタイプはスペクトル的に異なる標識を有する。次いで、4つの異なる標識のうちの1つに対して選択される検出チャネルを各々使用して、4つの画像を取得することができる。あるいは、異なるヌクレオチドタイプを順次に付加することができ、各付加工程の間にアレイの画像を取得することができる。そのような態様では、各画像は特定のタイプのヌクレオチドを取り込んでいる核酸特徴を示すことになる。各特徴の配列内容が異なるために異なる画像には異なる特徴が存在するかまたは存在しないことになる。しかしながら、特徴の相対位置は画像内では不変のままである。このような可逆的ターミネーターSBS法から取得された画像を、本明細書に記載されるように格納、処理および解析することができる。画像取り込み工程に続いて、標識を除去することができ、後続のヌクレオチド付加および検出のサイクルのために可逆的ターミネーター部分を除去することができる。標識が検出された後で特定のサイクルにおいて後続のサイクルの前に標識を除去することにより、バックグラウンドシグナルおよびサイクル間のクロストークが低減されるという利点を得ることができる。
【0107】
特定の態様では、ヌクレオチドモノマーの一部または全部が可逆的ターミネーターを含むことができる。そのような態様では、可逆的ターミネーター/切断可能な蛍光体は、3’エステル結合を介してリボース部分に結合された蛍光体を含むことができる(Metzker,Genome Res.15:1767-1776(2005)、参照により本明細書に組み入れられる)。他の手法は、ターミネーターケミストリを蛍光標識の切断から分離している(Ruparel et al.,Proc Natl Acad Sci USA 102:5932-7(2005)、参照によりその全体が本明細書に組み入れられる)。Ruparelらは、小さな3’アリル基を使用して伸長をブロックするが、パラジウム触媒を用いた短時間処理によって容易に脱ブロックすることができる可逆的ターミネーターの開発を記載した。フルオロフォアは、長波長UV光への30秒間の曝露によって容易に切断され得る光切断性リンカーを介して塩基に付着された。よって、ジスルフィド還元または光切断のどちらかを切断性リンカーとして使用することができる。可逆的終端の別の手法は、dNTPにかさ高い色素を配置した後に起きる自然終端の使用である。dNTP上の帯電したかさ高い色素の存在は、立体障害および/または静電障害により有効なターミネーターとして働くことができる。色素が除去されない限り、1回の取り込み事象の存在によりさらなる取り込みが妨げられる。色素の切断により蛍光体が除去され、終端が実質的に無効になる。修飾ヌクレオチドの例は、その開示が参照により全体として本明細書に組み入れられる、米国特許第7427673号および米国特許第7057026号にも記載されている。
【0108】
本明細書に記載される方法およびシステムと共に利用できるさらなる例示的SBSシステムおよび方法は、参照によりその全体が本明細書に組み入れられる、米国特許出願公開第2007/0166705号、米国特許出願公開第2006/0188901号、米国特許第7057026号、米国特許出願公開第2006/0240439号、米国特許出願公開第2006/0281109号、国際公開公報第05/065814号、米国特許出願公開第2005/0100900号、国際公開公報第06/064199号、国際公開公報第07/010251号、米国特許出願公開第2012/0270305号、および米国特許出願公開第2013/0260372号に記載されている。
【0109】
いくつかの態様は、4未満の異なる標識を使用した4つの異なるヌクレオチドの検出を利用することができる。例えば、米国特許出願公開第2013/0079232号の組み入れられた資料に記載されている方法およびシステムを利用してSBSを行うこともできる。第一の例として、一対のヌクレオチドタイプを同じ波長で、ただし他方と比較した対の一方のメンバの強度の差に基づいて、または対の他方のメンバについて検出されたシグナルと比較した見かけのシグナルを出現または消失させる(例えば、化学修飾、光化学修飾または物理修飾による)対の一方のメンバに対する変更に基づいて区別することができる。第2の例として、4つの異なるヌクレオチドタイプのうちの3つを特定の条件下で検出することができ、第4のヌクレオチドタイプはそれらの条件下で検出可能な標識を欠くか、またはそれらの条件下で最小限に検出される(例えば、バックグラウンド蛍光による最小限の検出など)。最初の3つのヌクレオチドタイプの核酸への取り込みはそれらのそれぞれのシグナルの存在に基づいて決定することができ、第4のヌクレオチドタイプの核酸への取り込みは任意のシグナルの欠如または最小限の検出に基づいて決定することができる。第3の例として、1つのヌクレオチドタイプは2つの異なるチャネルで検出される(1つまたは複数の)標識を含むことができ、他のヌクレオチドタイプはチャネルのうちのただ1つだけで検出される。前述の3つの例示的な構成は、相互に排他的とは見なされず、様々な組み合わせで使用することができる。3つすべての例を組み合わせた例示的な態様は、第1のチャネルで検出される第1のヌクレオチドタイプ(例えば、第1の励起波長によって励起されたときに第1のチャネルで検出される標識を有するdATP)、第2のチャネルで検出される第2のヌクレオチドタイプ(例えば、第2の励起波長によって励起されたときに第2のチャネルで検出される標識を有するdCTP)、第1と第2両方のチャネルで検出される第3のヌクレオチドタイプ(例えば、第1および/または第2の励起波長で励起されたときに両方のチャネルで検出される少なくとも1つの標識を有するdTTP)、ならびにどのチャネルでも検出されないか、または最小限に検出される標識を欠いた第4のヌクレオチドタイプ(例えば、標識を有さないdGTP)を使用する蛍光ベースのSBS法である。
【0110】
さらに、米国特許出願公開第2013/0079232号の組み入れられた資料に記載されているように、単一チャネルを用いてシーケンシングデータを取得することができる。そのようないわゆる一色素シーケンシングの手法では、第1のヌクレオチドタイプは標識されるが、標識は第一の画像が生成された後に除去され、第2のヌクレオチドタイプは第1の画像が生成された後に初めて標識される。第3のヌクレオチドタイプは第1および第2両方の画像にその標識を保持し、第4のヌクレオチドタイプは両方の画像において未標識のままである。
【0111】
いくつかの態様は、連結によるシーケンシング技術を利用することができる。そのような技術は、DNAリガーゼを利用してオリゴヌクレオチドを取り込みそのようなオリゴヌクレオチドの取り込みを同定する。オリゴヌクレオチドは通常、オリゴヌクレオチドがハイブリダイズする配列中の特定のヌクレオチドの同一性と相関する異なる標識を有する。他のSBS法と同様に、標識されたシーケンシング試薬で核酸特徴のアレイを処理した後に続いて画像を取得することができる。各画像は、特定のタイプの標識を取り込んだ核酸特徴を示すことになる。各特徴の配列内容が異なるために異なる画像には異なる特徴が存在するかまたは存在しないことになるが、特徴の相対位置は画像内では不変のままである。連結ベースのシーケンシング方法から取得された画像を、本明細書に記載されるように格納、処理および解析することができる。本明細書に記載される方法およびシステムと共に利用することができる例示的なSBSシステムおよび方法は、その開示が参照により全体として本明細書に組み入れられる、米国特許第6969488号、米国特許第6172218号、および米国特許第6306597号に記載されている。
【0112】
いくつかの態様はナノポアシーケンシングを利用することができる(Deamer,D.W.&Akeson,M.「Nanopores and nucleic acids:prospects for ultrarapid sequencing.」Trends Biotechnol.18,147-151(2000);Deamer,D.and D.Branton,「Characterization of nucleic acids by nanopore analysis.」Acc.Chem.Res.35:817-825(2002);Li,J.,M.Gershow,D.Stein,E.Brandin,and J.A.Golovchenko,「DNA molecules and configurations in a solid-state nanopore microscope」Nat.Mater.2:611-615(2003)、これらの開示は参照によりその全体が本明細書に組み入れられる)。そのような態様では、標的核酸はナノポアを通過する。ナノポアは合成ポアや、α-ヘモリジンなどの生体膜タンパク質であり得る。標的核酸がナノポアを通過する際に、ポアの電気伝導度の変動を測定することによって各塩基対を同定することができる。(米国特許第7001792号;Soni,G.V.&Meller,「A.Progress toward ultrafast DNA sequencing using solid-state nanopores.」Clin.Chem.53,1996-2001(2007);Healy,K.「Nanopore-based single-molecule DNA analysis.」Nanomed.2,459-481(2007);Cockroft,S.L.,Chu,J.,Amorin,M.&Ghadiri,M.R.「A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution.」J.Am.Chem.Soc.130,818-820(2008)、これらの開示は参照によりその全体が本明細書に組み入れられる)。ナノポアシーケンシングから取得されたデータを、本明細書に記載されるように格納、処理および解析することができる。特に、データは、光学画像および本明細書に記載される他の画像の例示的な処理に従って画像として処理することができる。
【0113】
いくつかの態様は、DNAポリメラーゼ活性のリアルタイムモニタリングを含む方法を利用することができる。ヌクレオチドの取り込みは、例えば、米国特許第7329492号および米国特許第7211414号(各々参照により本明細書に組み入れられる)に記載されるように、フルオロフォアを有するポリメラーゼとγ-リン酸標識ヌクレオチドとの間の蛍光共鳴エネルギー移動(fluorescence resonance energy transfer(FRET))相互作用によって検出することができ、またはヌクレオチドの取り込みは、例えば、米国特許第7315019号(参照により本明細書に組み入れられる)に記載されるようにゼロモード導波路で、例えば、米国特許第7405281号および米国特許出願公開第2008/0108082号(各々参照により本明細書に組み入れられる)に記載されるように、蛍光ヌクレオチドアナログおよび操作されたポリメラーゼを使用して検出することができる。照明は、蛍光標識されたヌクレオチドの取り込みが低バックグラウンドで観測できるように、表面繋留ポリメラーゼの周りのゼプトリットル(zeptoliter)規模の体積に制約することができる(Levene,M.J.et al.「Zero-mode waveguides for single-molecule analysis at high concentrations.」Science 299,682-686(2003);Lundquist,P.M.et al.「Parallel confocal detection of single molecules in real time.」Opt.Lett.33,1026-1028(2008);Korlach,J.et al.「Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures.」Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)、これらの開示は参照によりその全体が本明細書に組み入れられる)。そのような方法から取得された画像を、本明細書に記載されるように格納、処理および解析することができる。
【0114】
いくつかのSBSの態様は、ヌクレオチドの伸長生成物への取り込み時に放出されたプロトンの検出を含む。例えば、放出されたプロトンの検出に基づくシーケンシングは、Ion Torrent(Guilford,CT、Life Technologiesの子会社)から市販されている電気検出器および関連技術または、各々参照により本明細書に組み入れられる、米国特許出願公開第2009/0026082号、米国特許出願公開第2009/0127589号、米国特許出願公開第2010/0137143号、および米国特許出願公開第2010/0282617号に記載されるシーケンシング方法およびシステムを使用することができる。結合平衡除外(kinetic exclusion)を使用して標的核酸を増幅するための本明細書に記載される方法は、プロトンを検出するために使用される基板に容易に適用することができる。より具体的には、本明細書に記載される方法は、プロトンを検出するために使用されるアンプリコンのクローン集団を作製するために使用することができる。
【0115】
上記のSBS方法は、複数の異なる標的核酸が同時に操作されるように多重フォーマットで有利に実行することができる。特定の態様では、異なる標的核酸を共通の反応容器中で、または特定の基板の表面上で処理することができる。これにより、シーケンシング試薬の好都合な送達、未反応試薬の除去、および取り込み事象が多重に行われ得る。表面に結合された標的核酸を使用する態様では、標的核酸はアレイ形式であり得る。アレイ形式では、標的核酸を、通常は空間的に区別できるように表面に結合することができる。標的核酸は、直接共有結合、ビーズもしくは他の粒子への結合、または表面に結合されたポリメラーゼもしくは他の分子への結合によって結合することができる。アレイは、各部位(特徴とも呼ばれる)に標的核酸の単一のコピーを含むことができ、または同じ配列を有する複数のコピーが各部位または特徴に存在することもできる。複数のコピーは、ブリッジ増幅やエマルジョンPCRなどの増幅方法によって作製することができる。
【0116】
本明細書に記載される方法は、例えば、少なくとも約10特徴/cm2、100特徴/cm2、500特徴/cm2、1,000特徴/cm2、5,000特徴/cm2、10,000特徴/cm2、50,000特徴/cm2、100,000特徴/cm2、1,000,000特徴/cm2、5,000,000特徴/cm2またはそれ以上を含む様々な密度のいずれかで特徴を有するアレイを使用することができる。
【0117】
本明細書に記載される方法は、複数の標的核酸の迅速かつ効率的な検出を並行して提供することができる。したがって、本開示は、上に例示したような当技術分野で公知の技術を使用して核酸を調製および検出することができる統合システムを提供する。よって、本開示の統合システムは、増幅試薬および/またはシーケンシング試薬を1つまたは複数の固定化DNA断片に送達することができる流体素子を含むことができ、システムはポンプ、バルブ、リザーバー、流体ラインなどの構成要素を含む。標的核酸を検出するための統合システムにおいてフローセルを構成および/または使用することができる。例示的なフローセルは、例えば、各々参照により本明細書に組み入れられる、米国特許出願公開第2010/0111768号および米国特許出願第13/273666号に記載されている。フローセルについて例示されているように、統合システムの流体素子のうちの1つまたは複数を増幅方法および検出方法に使用することができる。核酸シーケンシングの態様を例にとると、統合システムの流体素子のうちの1つまたは複数を、本明細書に記載される増幅方法と、上に例示したようなシーケンシング方法におけるシーケンシング試薬の送達とに使用することができる。あるいは、統合システムは、増幅方法を実行するためと検出方法を実行するための別々の流体システムを含むこともできる。増幅された核酸を作製するとともに核酸の配列を決定することもできる統合シーケンシングシステムの例には、MiSeq(商標)プラットフォーム(Illumina,Inc.,San Diego,CA)および、参照により本明細書に組み入れられる、米国特許出願第13/273666号に記載されている装置が含まれる。
【0118】
本明細書に記載される方法のいくつかの態様では、マップされた配列タグは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、または約500bpの配列リードを含む。場合によっては、ペアエンドリードが生成されるときに500bpを超えるシングルエンドリードが約1000bpを超えるリードに用いられる。配列タグのマッピングは、タグの配列を参照の配列と比較して、配列決定された核酸分子の染色体起点を決定することによって達成され、特定の遺伝配列情報は不要である。多少のミスマッチ(1配列タグあたり0~2個のミスマッチ)は、参照ゲノムと混合サンプル中のゲノムとの間に存在し得る小さな多型を説明するために許容され得る。
【0119】
シーケンシングデータのリアルタイム解析のためのシステムおよび装置
シーケンシングデータの解析は通常、様々なコンピューター実行アルゴリズムおよびプログラムを使用して行われる。したがって、特定の態様は、1つまたは複数のコンピューターシステムまたは他の処理システムに格納されているかまたはそれらを介して転送されるデータを含むプロセスを用いる。本明細書に開示される態様はまた、これらの動作を実行するための装置にも関する。この装置は、必要とされる目的のために特に構成されていてもよく、またはコンピューターに格納されたコンピュータープログラムおよび/もしくはデータ構造によって選択的に活動化または再構成される汎用コンピューター(またはコンピューター群)であってもよい。いくつかの態様では、一群のプロセッサが、記載された解析動作の一部または全部を(例えば、ネットワークやクラウドコンピューティングを介して)協調的にかつ/または並行して行う。本明細書に記載される方法を行うためのプロセッサまたはプロセッサ群は、プログラマブルデバイス(例えば、CPLDやFPGA)や、ゲートアレイASICや汎用マイクロプロセッサなどの非プログラマブルデバイスなどのマイクロコントローラーおよびマイクロプロセッサを含む様々なタイプのものであり得る。
【0120】
さらに、特定の態様は、様々なコンピューター実装動作を行うためのプログラム命令および/またはデータ(データ構造を含む)を含む有形の、かつ/または非一時的なコンピューター可読媒体またはコンピュータープログラム製品に関する。コンピューター可読媒体の例には、半導体メモリデバイス、ディスクドライブ、磁気テープなどの磁気媒体、CDなどの光媒体、光磁気媒体、ならびに読取り専用メモリ(ROM)やランダムアクセスメモリ(RAM)などの、プログラム命令を格納し実行するように特に構成されたハードウェアデバイスを含むがこれに限定されない。コンピューター可読媒体はエンドユーザーによって直接制御されてもよく、または媒体はエンドユーザーによって間接的に制御されてもよい。直接制御される媒体の例には、ユーザー施設に位置する媒体および/または他の実体と共有されていない媒体が含まれる。間接的に制御される媒体の例には、外部ネットワークを介してかつ/または「クラウド」などの共有リソースを提供するサービスを介してユーザーから間接的にアクセス可能な媒体が含まれる。プログラム命令の例には、コンパイラーによって生成されるような機械コードとインタープリターを使用してコンピューターによって実行され得るより高水準のコードを含むファイルの両方が含まれる。
【0121】
様々な態様において、開示の方法および装置で用いられるデータまたは情報は電子フォーマットで提供される。そのようなデータまたは情報には、核酸サンプル由来のリード、参照配列の特定の領域と整列する(例えば、染色体または染色体セグメントと整列する)タグのカウントまたは密度、隣接するリードまたは断片間の分離距離、そのような分離距離の分布、診断などが含まれ得る。本明細書で使用する場合、電子フォーマットで提供されるデータまたは他の情報は、機械への格納および機械間の伝送に利用可能である。従来、電子フォーマットのデータはデジタル方式で提供され、様々なデータ構造、リスト、データベースなどにおいてビットおよび/またはバイトとして格納され得る。データは、電子的方式、光学的方式などで具体化され得る。
【0122】
一態様は、フェージング係数およびプレフェージング係数、ならびにフェージング補正された強度値および関連付けられたベースコールを決定するためのコンピュータープログラム製品を提供する。コンピューター製品は、フェージングおよびベースコールのための上述した方法のうちの任意の1つまたは複数を行うための命令を含み得る。説明したように、コンピューター製品は、プロセッサが、リードを整列させ、整列したリードから断片および/またはアイランドを同定し、ヘテロ接合多型の、挿入欠失対立遺伝子を含む対立遺伝子を同定し、染色体の部分を相ごとに処理し、染色体およびゲノムをハプロタイピングすることを可能にするためのコンピューター実行可能またはコンパイル可能な論理(命令など)が記録されている非一時的な、かつ/または有形のコンピューター可読媒体を含み得る。一例では、コンピューター製品は、(1)プロセッサが核酸サンプルについての強度データ(例えば、2つ以上のチャネルからの色強度データ)に対してフェージング補正を実行することを可能にするためのコンピューター実行可能な、またはコンパイル可能な論理(命令など)が格納されているコンピューター可読媒体、(2)核酸サンプルのベースコールを行うためのコンピューター支援論理、および(3)核酸サンプルを特徴付ける出力を生成するための出力手順、を含む。
【0123】
本明細書に開示される方法の計算処理操作を人間が自力で行うことは現実的ではなく、ほとんどの場合は不可能ですらあることを理解されたい。例えば、1つのベースコールサイクルの間にたった1つのタイルのフェージング係数を生成することさえも、計算処理装置の支援なしでは何年もの努力を要するであろう。当然ながら、信頼性の高いNGSシーケンシングは一般に、少なくとも数千から数百万ものリードについてのフェージング補正およびベースコールを必要とするので、問題は悪化する。
【0124】
本明細書に開示される方法は、核酸サンプルを配列決定するためのシステムを使用して行うことができる。システムは、(a)サンプルからの核酸配列情報を提供する試験サンプルから核酸を受け取るシーケンサーと、(b)プロセッサと、(c)シーケンサーからのデータを評価するためにプロセッサ上で実行するための命令が格納されている1または複数のコンピューター可読記憶媒体と、を含み得る。コンピューター可読記憶媒体はまた、フローセル上のクラスタからの部分的にフェージング補正された強度データも格納し得る。
【0125】
いくつかの態様では、方法は、配列の位相を決定するための方法を実行するためのコンピューター可読命令が格納されているコンピューター可読媒体によって指示される。よって、一態様は、コンピューターシステムの1つまたは複数のプロセッサによって実行されると、コンピューターシステムにDNAサンプルを配列決定するための方法を実施させるコンピューター実行可能命令が格納されている1つまたは複数のコンピューター可読の非一時的な記憶媒体を含むコンピュータープログラム製品を提供する。方法は、(a)核酸塩基が読み取られる複数の部位を含む基板の画像を表すデータ(例えば画像自体)を取得すること、(b)基板の画像から複数の部位の色値(または個々の塩基/ヌクレオチドを表す他の値)を取得すること、(c)色値をプロセッサバッファに格納すること、(d)ベースコールサイクルの間に複数の部位の部分的に位相補正された色値を取り出すことであり、この部分的に位相補正された色値は直前のベースコールサイクルの間にシーケンサーのメモリに格納されたものであること、(e)(i)直前のベースコールサイクルの間に格納された部分的に位相補正された値と(ii)プロセッサバッファ内の色値とからプレフェージング補正を決定すること、ならびに(f)(i)プロセッサバッファ内の色値と、(ii)直前のサイクルの間に格納された部分的に位相補正された値と、(iii)プレフェージング補正とから、補正された色値を決定すること、を含む。
【0126】
配列その他のデータを、直接または間接的にコンピューターに入力するか、またはコンピューター可読媒体に格納することができる。様々な態様において、コンピューターシステムは、サンプルからの核酸の配列を読み取り、かつ/または解析するシーケンシング装置に搭載されているかまたは直接結合されている。そのようなツールからの配列その他の情報は、データ伝送インターフェースを介してコンピューターシステム(または単に搭載の処理ハードウェア)に提供される。さらに、メモリデバイスは、リード、ベースコール品質情報、フェージング係数情報なども格納し得る。メモリはまた、配列データを解析し提示するための様々なルーチンおよび/またはプログラムも格納し得る。そのようなプログラム/ルーチンは、統計解析などを行うためのプログラムを含み得る。
【0127】
一例では、ユーザーがサンプルをシーケンシング装置に提供する。データは、コンピューターに接続されているシーケンシング装置によって収集および/または解析される。コンピューター上のソフトウェアがデータ収集および/または解析を可能にする。データは、格納し、(モニターまたは他の同様の装置を介して)表示し、かつ/または別の場所に送信することができる。コンピューターは、リモートユーザー(例えば、医師、科学者または解析者)によって利用されるハンドヘルド機器にデータを送信するために使用されるインターネットに接続され得る。データは送信前に格納および/または解析できることを理解されたい。いくつかの態様では、生データが収集され、データを解析および/または格納することになるリモートのユーザーまたは装置に送信される。例えば、リードは、それらが生成されると同時に、またはその直後に送信され、整列され、それ以外に遠隔で解析され得る。送信はインターネットを介して行うことができるが、衛星または他の接続を介しても行うこともできる。あるいは、データをコンピューター可読媒体に格納することもでき、その媒体をエンドユーザーに(例えばメールを介して)出荷することもできる。リモートユーザーは、建物、都市、州、国または大陸を含むがこれに限定されない、同じまたは異なる地理的位置にいることができる。
【0128】
いくつかの態様では、方法はまた、複数のポリヌクレオチド配列に関するデータ(例えば、リード)を収集すること、およびそのデータをコンピューターまたは他の計算システムに送信することも含む。例えば、コンピューターは実験装置、例えば、サンプル収集装置や、ポリヌクレオチド増幅装置や、ヌクレオチドシーケンシング装置に接続することができる。収集または格納されたデータは、例えば、ローカルネットワークやインターネットなどの広域ネットワークを介して、コンピューターから遠隔地に送信することができる。遠隔地では、送信されたデータに対して様々な操作を行うことができる。
【0129】
本明細書で提供されるシステムのうちのいずれかのいくつかの態様において、シーケンサーは、次世代シーケンシング(NGS)を行うように構成される。いくつかの態様では、シーケンサーは、可逆的ダイターミネーターを用いた合成によるシーケンシングを使用して超並列シーケンシングを行うように構成される。他の態様では、シーケンサーは単一分子シーケンシングを行うように構成される。
【0130】
結論
本開示は、その精神または本質的な特徴から逸脱することなく他の特定の形態で具体化され得る。説明した態様は、あらゆる点で例示的なものにすぎず、限定的なものではないと見なされるべきである。したがって、本開示の範囲は、以上の説明によってではなく添付の特許請求の範囲によって示される。特許請求の範囲と均等の意味および範囲内にあるすべての変更は特許請求の範囲内に包含されるものである。
図1
図2
図3
図4
図5
図6
図7
図8
図9
図10
図11