(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-01
(45)【発行日】2022-04-11
(54)【発明の名称】ヌクレオチド配列決定データの2次分析のためのシステムおよび方法
(51)【国際特許分類】
G16B 30/00 20190101AFI20220404BHJP
C12M 1/00 20060101ALI20220404BHJP
C12Q 1/6869 20180101ALI20220404BHJP
【FI】
G16B30/00
C12M1/00 Z
C12Q1/6869 Z
【外国語出願】
(21)【出願番号】P 2020091991
(22)【出願日】2020-05-27
(62)【分割の表示】P 2019519631の分割
【原出願日】2017-10-06
【審査請求日】2020-09-24
(32)【優先日】2016-10-07
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100107489
【氏名又は名称】大塩 竹志
(72)【発明者】
【氏名】フランシスコ ジョゼ ガルシア
(72)【発明者】
【氏名】コム ラスィ
(72)【発明者】
【氏名】アーロン デイ
(72)【発明者】
【氏名】マイケル ジェイ. カーニー
【審査官】梅岡 信幸
(56)【参考文献】
【文献】米国特許出願公開第2011/0270533(US,A1)
【文献】MILLER JASON R,ASSEMBLY ALGORITHMS FOR NEXT-GENERATION SEQUENCING DATA,GENOMICS,米国,2010年03月06日,VOL:95, NR:6,PAGE(S):315 - 327,https://reader.elsevier.com/reader/sd/pii/S0888754310000492?token=F3E86BEEE6621170D668880A53C6EABC5EE7BFA59453C6843518EA58B128DECB810DD6F89AE0C62C0A515DD4E5C17D0E
(58)【調査した分野】(Int.Cl.,DB名)
G16B 5/00-99/00
C12M 1/00- 3/10
C12Q 1/00- 3/00
(57)【特許請求の範囲】
【請求項1】
配列決定システムによって生成されたデータを用いてポリヌクレオチドを配列決定するためのシステムであって、前記データは、並列に生成された複数のリードを含み、前記複数のリードのそれぞれは、サンプルヌクレオチド配列の断片を表すものであり、前記システムは:
参照ヌクレオチド配列を含むメモリと、
プロセッサであって、以下の工程:
複数のリードのうちの1つのリードの第1のヌクレオチド部分配列を配列決定システムから受け取る工
程;
第1の処理を使用して前記参照ヌクレオチド配列上での前記リードの第1の複数の候補位置を決定するために、前記第1のヌクレオチド部分配
列と、前記参照ヌクレオチド配
列とを比較する工程;
前記第1のヌクレオチド部分配列が、前記決定された第1の複数の候補位置に基づいて、前記参照ヌクレオチド配列に第1の信頼度で整列するか否かを決定する工程であって、前記第1の信頼度は、前記決定された第1の複数の候補位置における前記第1のヌクレオチド部分配
列と前記参照ヌクレオチド配
列との間のミスマッチ数の閾値である、工程;
前記複数のリードのうちの1つのリードの第2のヌクレオチド部分配列を前記配列決定システムから受け取る工程であって
、前記第2のヌクレオチド部分配列は、前記第1のヌクレオチド部分配列と、前記複数のリードのうちの1つのリードの1または複数の追加のヌクレオチドとを含む、工程;
前記第1のヌクレオチド部分配列が前記第1の信頼度で前記参照ヌクレオチド配列に整列する場合には、
前記第2のヌクレオチド部分配列における1または複数の追加のヌクレオチドを、前記決定された候補位置に続く前記参照ヌクレオチド配列の次の部分と比較する第2の処理を使用して、前記参照ヌクレオチド配列に整列するリードの第2の複数の候補位置を決定するために、前記第2のヌクレオチド部分配
列と、前記参照ヌクレオチド配
列とを比較する工程;
前記第2のヌクレオチド部分配列が前記第1の信頼度で前記参照ヌクレオチド配列に整列していない場合には、
前記第1の処理が前記第2のヌクレオチド部分配列上で繰り返される工程、
を含む方法を行う命令を実行するように構成されたプロセッサと
を含むシステム。
【請求項2】
ポリヌクレオチドを配列決定するためのシステムであって、
配列決定試薬を使用して生の配列決定データを生成するように構成された配列決定システムと、
参照ヌクレオチド配列を含むメモリと、
二次分析を行う方法を実行する命令を実行し、前記二次分析の結果に基づいて、配列決定実行が完了する前に終了させることができるかどうかを判断し、かつ前記配列決定システムを制御して前記配列決定実行を終了させるように構成されたプロセッサとを含み、前記方法は、
前記配列決定システムからリードの第1のヌクレオチド部分配列を受け取る工程であって、前記第1のヌクレオチド部分配列は一次分析に由来するものである、工程と、
第1の処理を使用して前記参照ヌクレオチド配列上での前記リードの第1の複数の候補位置を決定するために、前記第1のヌクレオチド部分配列を処理する工程と、
前記決定された候補位置に基づいて、前記第1のヌクレオチド部分配列が、閾値信頼度を超えて前記参照ヌクレオチド配列に整列するかどうかを決定する工程と、
配列決定システムから第2のヌクレオチド部分配列を受け取る工程であって、前記第2のヌクレオチド部分配列は、前記第1のヌクレオチド部分配列と1または複数の追加のヌクレオチドを含む、工程と、
前記第1のヌクレオチド部分配列が前記閾値信頼度を超えて前記参照ヌクレオチド配列に整列される場合に、前記第2のヌクレオチド部分配列中の1または複数の追加のヌクレオチドを前記参照ヌクレオチド配列に整列させる第2の処理、または、
前記第2のヌクレオチド部分配列が前記閾値信頼度を超えて前記参照ヌクレオチド配列に整列されない場合に、前記第2のヌクレオチド部分配列について前記第1の処理を繰り返す工程であって、前記第2の処理は、前記第1の処理よりも計算上効率的である、工程
を用いて、前記参照ヌクレオチド配列に整列するリードの第2の複数の候補位置を決定するために、前記第2のヌクレオチド部分配列を処理する工程
を含む、システム。
【請求項3】
前記第2のヌクレオチド部分配
列が、ミスマッチ数または正確なマッチの確率に基づいて、前記第1の処理または前記第2の処理のいずれかを使用して、前記参照ヌクレオチド配
列と比較される、請求項1または請求項2に記載のシステム。
【請求項4】
前記第1のヌクレオチド部分配列は、長さが1またはこれより多くのヌクレオチドである、請求項1~3のいずれか一項に記載のシステム。
【請求項5】
前記第2のヌクレオチド部分配列は、長さが1またはこれより多くのヌクレオチドである、請求項1~4のいずれか一項に記載のシステム。
【請求項6】
前記第2の処理は、メモリ使用量またはコンピューテーションオペレーションの回数において、前記第1の処理より計算上効率的である、請求項1~5のいずれか一項に記載のシステム。
【請求項7】
前記プロセッサは、前記第1のヌクレオチド部分配列が前記参照ヌクレオチド配列に整列される場合に、前記第1の複数の候補位置のうちの少なくとも1つに相当するデータを保存するようにさらに構成される、請求項1~6のいずれか一項に記載のシステム。
【請求項8】
前記プロセッサは、前記リードが前記参照ヌクレオチド配列に整列されたままである場合に、前記第2の複数の候補位置のうちの少なくとも1つに相当するデータを保存するようにさらに構成される、請求項7に記載のシステム。
【請求項9】
前記第2のヌクレオチド部分配列を、前記第2の処理を使用して処理する工程は、MapQスコアを決定するために、単純アラインメントを行うことを包含する、請求項1~8のいずれか一項に記載のシステム。
【請求項10】
前記単純アラインメントを行うことは、前記第1の複数の候補位置に基づいて、前記第2のヌクレオチド部分配列と、前記参照ヌクレオチド配列上の前記第2のヌクレオチド部分配列に対応する配列とを比較する工程を含む、請求項9に記載のシステム。
【請求項11】
前記第2のヌクレオチド部分配列を、前記第2の処理を使用して処理する工程は、さらに、前記リードの第2の複数の候補位置のそれぞれについてマッピング品質(MapQ)スコアを決定する工程を含む、請求項9または請求項10に記載のシステム。
【請求項12】
単純アライメントスコアがMapQスコアを含む、請求項11に記載のシステム。
【請求項13】
前記プロセッサは、前記第1の複数の候補位置のうちの少なくとも1つまたは前記第2の複数の候補位置のうちの少なくとも1つを含む前記第1の処理または第2の処理の出力に対してバリアント呼び出しを行うようにさらに構成される、請求項1~12のいずれか一項に記載のシステム。
【請求項14】
前記第1の処理または第2の処理の出力に対してバリアント呼び出しを行うことは、
第1のバリアント呼び出し処理または第2のバリアント呼び出し処理を用いて、前記第1の処理または第2の処理の出力に対してバリアント呼び出しを行うことを含み、前記第2のバリアント呼び出し処理は、前記第2のヌクレオチド部分配列のバリアント呼び出しにおいて前記第1のバリアント呼び出し処理よりも計算上効率的である、請求項13に記載のシステム。
【請求項15】
前記バリアント呼び出しが、前記バリアント呼び出し評価基準に基づいて前記第1の処理または第2の処理の出力を用いて行われる、請求項13または請求項14に記載のシステム。
【請求項16】
前記バリアント呼び出し評価基準は、前記参照ヌクレオチド配列の位置において呼び出される多くの異なる塩基タイプに基づいて決定される、請求項15に記載のシステム。
【請求項17】
前記第1のヌクレオチド部分配列を処理する工程は、前記配列決定システムが、配列決定実行の間に前記第2のヌクレオチド部分配列を決定する前に完了する、請求項1~16のいずれか一項に記載のシステム。
【請求項18】
前記配列決定システムは、逐次合成配列決定を行う方法を実行して、前記第1のヌクレオチド部分配列を決定する、請求項1~17のいずれか一項に記載のシステム。
【請求項19】
配列決定システムによって生成されたデータを用いてポリヌクレオチドを効率的に配列決定するためのコンピュータに実行される方法であって、前記データは、並列に生成された複数のリードを含み、前記複数のリードのそれぞれは、サンプルヌクレオチド配列の断片を表すものであり、前記方法は:
複数のリードのうちの1つのリードの第1のヌクレオチド部分配列を配列決定実行の間に配列決定システムから受け取る工
程と、
第1の処理または第2の処理を使用して、前記第1のヌクレオチド部分配
列と、参照ヌクレオチド配
列とを比較するために、前記参照ヌクレオチド
配列に基づいて前記リードの第1のヌクレオチド部分配列の二次分析を行う工程であって、前記第2の処理は、前記二次分析を行う際に前記第1の処理よりも計算上効率的であり、前記二次分析は、
前記第1のヌクレオチド部分配
列と前記参照ヌクレオチド配
列とを比較して、前記第1のヌクレオチド部分配列との類似度が高い候補位置における前記参照ヌクレオチド配列の第1のヌクレオチド部分配列を決定し、前記第1のヌクレオチド部分配
列と前記候補位置における前記参照ヌクレオチド配列の第1のヌクレオチド部分配
列との間のミスマッチ数を決定する工程を含む、工程と、
を含み、前記第1のヌクレオチド部分配列がミスマッチ数の閾値で前記参照ヌクレオチド配列に整列される場合、前記第2の処理は、前記複数のリードのうちの1つのリードのさらなるヌクレオチド配列を、前記決定された候補位置に続く前記参照ヌクレオチド配列の次の部分と直接比較する、方法。
【請求項20】
ポリヌクレオチドを効率的に配列決定するためのコンピュータに実行される方法であって、
リードの第1のヌクレオチド部分配列を配列決定実行の間に配列決定システムから受け取る工程であって、前記第1のヌクレオチド部分配列は一次分析に由来するものである、工程と、
第1の処理または第2の処理を使用して
、参照ヌクレオチド
配列に基づいて前記リードの第1のヌクレオチド部分配列の二次分析を行う工程であって、前記第2の処理は、前記二次分析を行う際に前記第1の処理よりも計算上効率的である工程であって、前記二次分析は、
前記第1のヌクレオチド部分配列と前記参照ヌクレオチド配列とを比較して、前記第1のヌクレオチド部分配列との類似度が高い前記参照ヌクレオチド配列の第1のヌクレオチド部分配列を決定し、前記第1のヌクレオチド部分配列と前記参照ヌクレオチド配列の第1のヌクレオチド部分配列との間の
ミスマッチ数を決定する工程を含む、工程と、
前記二次分析の結果に基づいて、配列決定実行が完了する前に終了させることができるかどうかを判断し、かつ前記配列決定システムを制御して前記配列決定実行を終了させる工程と
を含む、方法。
【請求項21】
前記二次分析を行う工程は、前記参照ヌクレオチド配列に整列する前記リードの第1の複数の候補位置を決定するために、前記第1のヌクレオチド部分配
列と前記参照ヌクレオチド配
列とを比較することを含み、
前記ミスマッチ数が前の反復において閾値を超えている場合には、前記第1の処理を行い、
そうでなければ、第2の処理を行い、
前記第2の処理は、前記リードの第1の複数の候補位置を決定するために、前記第1の処理よりも計算上効率的である、請求項19または請求項20に記載の方法。
【請求項22】
前記方法は、前記第2の処理を使用し
て第2のヌクレオチド部分配列を処理する工程
を含み、前記第2の処理を使用して前記第2のヌクレオチド部分配列を処理する工程は、MapQスコアを決定するために、単純アラインメントを行うことを包含する、請求項19~21のいずれか一項に記載の方法。
【請求項23】
前記二次分析の結果は、前記第1の処理の出力、前記第2の処理の出力、またはこれらの任意の組み合わせを含む、請求項21または請求項22に記載の方法。
【請求項24】
前記二次分析を行う工程は、以下:
第1の処理または第2の処理の出力に対して、第1のバリアント呼び出し処理または第2のバリアント呼び出し処理を使用してバリアント呼び出しを行うことであって、前記第2のバリアント呼び出し処理は、前記第1のヌクレオチド部分配列のバリアント呼び出しにおいて前記第1のバリアント呼び出し処理より計算上効率的であること、を含む前記第1のヌクレオチド部分配列のバリアント呼び出しを行うことを包含する、請求項19~23のいずれか一項に記載の方法。
【請求項25】
前記二次分析の結果は、前記第1のバリアント呼び出し処理の出力、前記第2のバリアント呼び出し処理の出力、またはこれらのいずれかの組み合わせを含む、請求項24に記載の方法。
【請求項26】
前記配列決定実行の間に前記二次分析の結果をユーザーに提供する工程をさらに包含する、請求項19~25のいずれか一項に記載の方法。
【請求項27】
前記二次分析の結果は、固定された区間で前記ユーザーに提供される、請求項26に記載の方法。
【請求項28】
前記二次分析の結果は、前記ユーザーの要求に応じて、前記ユーザーに提供される、請求項26に記載の方法。
【請求項29】
前記二次分析を行う工程は、前記リードの前記第1のヌクレオチド部分配列の二次分析を、前記配列決定実行の前の配列決定区間からの結果に基づいて行うことを包含する、請求項19~28のいずれか一項に記載の方法。
【請求項30】
配列決定システムによって生成されたデータを用いてポリヌクレオチドを配列決定するためのコンピュータに実行される方法であって、前記データは、並列に生成された複数のリードを含み、前記複数のリードのそれぞれは、サンプルヌクレオチド配列の断片を表すものであり、前記方法は:
複数のリードのうちの1つのリードの第1のヌクレオチド部分配列を配列決定システムから受け取る工
程と、
第1の処理を使用し
て参照ヌクレオチド配列上での前記リードの第1の複数の候補位置を決定するために、前記第1のヌクレオチド部分配
列と、前記参照ヌクレオチド配
列とを比較する工程と、
前記第1のヌクレオチド部分配列が、前記決定された第1の複数の候補位置に基づいて、前記参照ヌクレオチド配列に第1の信頼度で整列するか否かを決定する工程であって、前記第1の信頼度は、前記決定された第1の複数の候補位置における前記第1のヌクレオチド部分配
列と前記参照ヌクレオチド配
列との間のミスマッチ数の閾値である、工程と、
前記複数のリードのうちの1つのリードの第2のヌクレオチド部分配列を前記配列決定システムから受け取る工程であって
、前記第2のヌクレオチド部分配列は、前記第1のヌクレオチド部分配列と、前記複数のリードのうちの1つのリードの1または複数の追加のヌクレオチドとを含む、工程と、
前記第1のヌクレオチド部分配列が前記第1の信頼度で前記参照ヌクレオチド配列に整列する場合には、
前記第2のヌクレオチド部分配列における1または複数の追加のヌクレオチドを、前記決定された候補位置に続く前記参照ヌクレオチド配列の次の部分に直接整列させる第2の処理を使用して、前記参照ヌクレオチド配列に整列するリードの第2の複数の候補位置を決定するために、前記第2のヌクレオチド部分配
列と、前記参照ヌクレオチド配
列とを比較する工程と、
前記第2のヌクレオチド部分配列が前記第1の信頼度で前記参照ヌクレオチド配列に整列していない場合には、
前記第1の処理が前記第2のヌクレオチド部分配列上で繰り返される工程と
を含む方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願
本願は、2016年10月7日に出芽された米国仮出願番号第62/405824号に基づく優先権を主張しており;その内容は、その全体が参考として本明細書中に援用される。
【0002】
背景
分野
本開示は、一般に、DNA配列決定の分野に関し、より詳細には、次世代配列決定適用のためにリアルタイム二次分析を行うためのシステムおよび方法に関する。
【背景技術】
【0003】
関連技術の説明
遺伝子変異は、配列リードにおいて-参照配列に対して-バリアントを識別することによって識別され得る。バリアントを識別するために、被験体に由来するサンプルは、配列リードを得るために、配列決定機器を使用して完全に配列決定され得る。配列リードを得た後、その配列リードは、バリアント呼び出しの前にアセンブルまたは整列され得る。従って、バリアントを識別する工程は、連続して行われかつ配列決定プロセスの完了後に行うために時間を浪費し得る別個の工程を包含する。
【発明の概要】
【課題を解決するための手段】
【0004】
要旨
本明細書で開示されるのは、ポリヌクレオチドを配列決定するためのシステムおよび方法である。一実施形態において、上記システムは、以下を含む:参照ヌクレオチド配列を含むメモリ;プロセッサであって、以下の工程:リードの第1のヌクレオチド部分配列を配列決定システムから受け取る工程;上記参照配列上での上記リードの第1の複数の候補位置を決定するために、上記第1のヌクレオチド部分配列を第1のアラインメントパスを使用して処理する工程;上記第1のヌクレオチド部分配列が、上記決定された候補位置に基づいて上記参照配列に整列するか否かを決定する工程;第2のヌクレオチド部分配列を上記配列決定システムから受け取る工程;上記参照配列に整列する上記リードの第2の複数の候補位置を決定するために、上記第2のヌクレオチド部分配列を処理する工程であって、上記リードが上記参照配列に整列する場合には、第2のアラインメントパス、およびそうでなければ、第1のアラインメントパスを使用し、ここで上記第2のアラインメントパスは、上記リードの上記第2の複数の候補位置を決定するために、上記第1のアラインメントパスより計算上効率的である工程を包含する方法を行う命令を実行するように構成されたプロセッサ。
【0005】
一実施形態において、上記方法は、第1のヌクレオチド部分配列を、配列決定実行の間に配列決定システムから受け取る工程;およびリードの上記第1のヌクレオチド部分配列の二次分析を、第1の分析パスまたは第2の分析パスを使用して、参照配列に基づいて行う工程であって、ここで上記第2の分析パスは、上記二次分析を行うにあたって上記第1のプロセシングパスより計算上効率的である工程を包含する。
特定の実施形態において、例えば、以下が提供される:
(項目1)
ポリヌクレオチドを配列決定するためのシステムであって:
参照ヌクレオチド配列を含むメモリ;
プロセッサであって、以下の工程:
リードの第1のヌクレオチド部分配列を配列決定システムから受け取る工程;
該参照配列上での該リードの第1の複数の候補位置を決定するために、該第1のヌクレオチド部分配列を、第1のアラインメントパスを使用して処理する工程;
該第1のヌクレオチド部分配列が、該決定された候補位置に基づいて該参照配列に整列するか否かを決定する工程;
第2のヌクレオチド部分配列を該配列決定システムから受け取る工程;
該参照配列に整列する該リードの第2の複数の候補位置を決定するために、該第2のヌクレオチド部分配列を処理する工程であって、
該リードが該参照配列に整列される場合には、第2のアラインメントパス、そして
そうでなければ、第1のアラインメントパスを使用し、ここで該第2のアラインメントパスは、該リードの該第2の複数の候補位置を決定するために、該第1のアラインメントパスより計算上効率的である、工程、を包含する方法を行う命令を実行するように構成されたプロセッサ、を含むシステム。
(項目2)
前記第2のヌクレオチド部分配列は、アラインメント品質評価基準に基づいて、前記第1のアラインメントパスまたは前記第2のアラインメントパスを使用して処理される、項目1に記載のシステム。
(項目3)
前記第1のヌクレオチド部分配列は、長さが1またはこれより多くのヌクレオチドである、項目1に記載のシステム。
(項目4)
前記第2のヌクレオチド部分配列は、長さが1またはこれより多くのヌクレオチドである、項目1に記載のシステム。
(項目5)
前記第2のアラインメントパスは、メモリ使用量またはコンピューテーションオペレー
ションの回数において、前記第1のアラインメントパスより計算上効率的である、項目1に記載のシステム。
(項目6)
前記プロセッサは、前記第1のヌクレオチド部分配列が前記参照配列に整列される場合に、前記第1の複数の候補位置のうちの少なくとも1つに相当するデータを保存するようにさらに構成される、項目1に記載のシステム。
(項目7)
前記プロセッサは、前記リードが前記参照配列に整列したままである場合に、前記第2の複数の候補位置のうちの少なくとも1つに相当するデータを保存するようにさらに構成される、項目6に記載のシステム。
(項目8)
前記第2のヌクレオチド部分配列を、前記第2のアラインメントパスを使用して処理する工程は、単純アラインメントスコアを決定するために、単純アラインメントを行うことを包含する、項目1に記載のシステム。
(項目9)
前記単純アラインメントを行うことは、前記第1の複数の候補位置に基づいて、前記第2のヌクレオチド部分配列と前記参照配列上の該第2のヌクレオチド部分配列の相当する配列とを比較することを包含する、項目8に記載のシステム。
(項目10)
前記第2のヌクレオチド部分配列を、第2のプロセシングパスを使用して処理する工程は、前記リードの前記第2の複数の候補位置の各々についてマッピング品質(MapQ)スコアを決定する工程をさらに包含する、項目8に記載のシステム。
(項目11)
前記単純アラインメントスコアは、前記MapQスコアを含む、項目10に記載のシステム。
(項目12)
前記プロセッサは、前記第1の複数の候補位置のうちの少なくとも1つまたは前記第2の複数の候補位置のうちの少なくとも1つを含む前記第1のまたは第2のアラインメントパスの出力に対してバリアント呼び出しを行うようにさらに構成される、項目1に記載のシステム。
(項目13)
前記第1のまたは第2のアラインメントパスの出力に対して前記バリアント呼び出しを行う工程は、
該第1のまたは第2のアラインメントパスの出力に対して、第1のバリアント呼び出しパスまたは第2のバリアント呼び出しパスを使用してバリアント呼び出しを行うことであって、ここで該第2のバリアント呼び出しパスは、前記第2の部分配列のバリアント呼び出しにおいて、該第1のバリアント呼び出しパスより計算上効率的であることを包含する、項目12に記載のシステム。
(項目14)
前記バリアント呼び出しは、バリアント呼び出し評価基準に基づいて、前記第1のまたは第2のアラインメントパスの出力を使用して行われる、項目12に記載のシステム。
(項目15)
前記バリアント呼び出し評価基準は、前記参照配列の位置において呼び出される多くの異なる塩基タイプに基づいて決定される、項目14に記載のシステム。
(項目16)
前記第1のヌクレオチド部分配列を処理する工程は、前記配列決定システムが、配列決定実行の間に前記第2のヌクレオチド部分配列を決定する前に完了する、項目1に記載のシステム。
(項目17)
前記配列決定システムは、逐次合成配列決定を行う方法を実行して、前記第1の部分配
列を決定する、項目1に記載のシステム。
(項目18)
ポリヌクレオチドを配列決定するための方法であって、該方法は、
配列決定実行の間に、リードの第1のヌクレオチド部分配列を、配列決定システムから受け取る工程;および
該リードの該第1のヌクレオチド部分配列の二次分析を、第1の分析パスまたは第2の分析パスを使用して参照配列に基づいて行う工程であって、ここで該第2の分析パスは、該二次分析を行うにあたって前記第1のプロセシングパスより計算上効率的である工程、を包含する方法。
(項目19)
前記二次分析を行う工程は、前記参照配列に整列する前記リードの第1の複数の候補位置を決定するために、前記第1のヌクレオチド部分配列を処理することであって:
該リードが該参照配列に整列されない場合には、第1のアラインメントパス、そして
そうでなければ、第2のアラインメントパスを使用し、ここで該第2のアラインメントパスは、該リードの該第1の複数の候補位置を決定するために、該第1のアラインメントパスより計算上効率的であること、を包含する、項目18に記載の方法。
(項目20)
前記第2のヌクレオチド部分配列を、前記第2のアラインメントパスを使用して処理することは、単純アラインメントスコアを決定するために、単純アラインメントを行うことを包含する、項目19に記載の方法。
(項目21)
前記二次分析の結果は、前記第1のアラインメントパスの出力、前記第2のアラインメントパスの出力、またはこれらのうちの任意の組み合わせを含む、項目19に記載の方法。
(項目22)
前記二次分析を行う工程は、以下:
第1のまたは第2のアラインメントパスの出力に対して、第1のバリアント呼び出しパスまたは第2のバリアント呼び出しパスを使用してバリアント呼び出しを行うことであって、ここで該第2のバリアント呼び出しパスは、前記第1の部分配列のバリアント呼び出しにおいて該第1のバリアント呼び出しパスより計算上効率的であること、を含む前記第1のヌクレオチド部分配列のバリアント呼び出しを行うことを包含する、項目18に記載の方法。
(項目23)
前記二次分析の結果は、前記第1のバリアント呼び出しパスの出力、前記第2のバリアント呼び出しパスの出力、またはこれらのうちのいずれかの組み合わせを含む、項目22に記載の方法。
(項目24)
前記配列決定実行の間に前記二次分析の結果をユーザーに提供する工程をさらに包含する、項目18に記載の方法。
(項目25)
前記二次分析の結果は、固定された区間で前記ユーザーに提供される、項目24に記載の方法。
(項目26)
前記二次分析の結果は、前記ユーザーの要求に応じて、該ユーザーに提供される、項目24に記載の方法。
(項目27)
前記二次分析を行う工程は、前記リードの前記第1のヌクレオチド部分配列の二次分析を、前記配列決定実行の先の配列決定区間からの結果に基づいて行うことを包含する、項目18に記載の方法。
【図面の簡単な説明】
【0006】
【
図1】
図1は、リアルタイム分析を行うための例示的な配列決定システムを示す模式図である。
【0007】
【
図2】
図2は、リアルタイム分析を行うための例示的なコンピューターシステムの機能的ブロック図を示す。
【0008】
【
図3】
図3は、逐次合成配列決定を行うための例示的方法のフローチャートである。
【0009】
【
図4】
図4は、塩基呼び出しを行うための例示的方法のフローチャートである。
【0010】
【
図5A】
図5Aおよび
図5Bは、例示的な反復アラインメントおよびバリアント呼び出しを示す。
【
図5B】
図5Aおよび
図5Bは、例示的な反復アラインメントおよびバリアント呼び出しを示す。
【0011】
【
図6】
図6は、リアルタイム二次配列分析を行うための例示的方法のフローチャートである。
【0012】
【0013】
【
図8】
図8は、16塩基区間でのリード生成の模式図である。
【0014】
【
図9A】
図9Aは、リアルタイム二次分析を行うための例示的方法のフローチャートである。
【
図9B】
図9Bは、Kマーごとに処理されるデータを示す予測線グラフである。
【0015】
【
図10】
図10は、リアルタイム二次分析を行うための例示的方法の別のフローチャートである。
【0016】
【発明を実施するための形態】
【0017】
詳細な説明
以下の詳細な説明において、添付の図面に対して参照が行われる。添付の図面は、本明細書の一部を形成する。図面において、類似記号は、状況が別段規定しなければ、代表的には類似の構成要素を識別する。詳細な説明、図面、および特許請求の範囲において記載される例証的実施形態は、限定することを意味しない。他の実施形態が利用され得、本明細書に示される主題の趣旨または範囲から逸脱することなく他の変更が行われ得る。本開示の局面が、本明細書で一般的に記載されかつ図面の中で図示されるように、広く種々の異なる構成で取り合わせられ得、置き換えられ得、組み合わされ得、分離され得、そして設計され得、これらの全てが、本明細書中で明示的に企図されることは、容易に理解される。
【0018】
本明細書で開示されるのは、ヌクレオチド配列決定データの二次分析を時間効率的様式において行うためのシステムおよび方法である。いくつかの実施形態において、上記方法は、配列リードが配列決定システムによって生成される間に、二次分析を反復して行う工程を包含する。二次分析は、参照配列(例えば、ヒト参照ゲノム配列)への配列リードのアラインメントおよびサンプルとその参照との間の差異を検出するためのこのアラインメントの利用の両方を包含し得る。二次分析は、遺伝子の差異の検出、バリアント検出および遺伝子決定、一塩基多型(SNPs)、小さな挿入および欠失(インデル)、ならびにDNAにおける構造的変化(例えば、コピー数バリアント(CNVs)および染色体再配置)の識別を可能にし得る。
【0019】
配列リードが生成される間に二次分析を行うことによって、そのシステムおよび方法は、リアルタイムで(またはゼロもしくは低レイテンシで)、予備バリアント呼び出しを反復して決定し得る。バリアント決定の最終結果は、配列決定実行の終了後まもなく(または終了直後に)利用可能になり得る。あるいは、配列決定実行は、バリアント呼び出しが実行の間に十分な信頼度で利用可能であれば、早期に終結され得る。いくつかの実施形態において、バリアント決定(例えば、バリアント呼び出し)に関する情報のみが、配列決定システムから転送される。これは、外部にあるシステムにおいてバリアント決定を行うことと比較して、必要とされるデータ帯域を低減または最小化し得る。さらに、バリアント情報のみが、さらなる処理のためにコンピューティングシステム(例えば、クラウドコンピューティングシステム)に送られ得る。この実施形態において、配列決定実行は、配列決定プロセス全体の完了前に終結され得る。例えば、目的の病原体が何であるかが、配列決定実行の多数の配列決定サイクルの後に決定される場合、その配列決定実行は、終結され得る。従って、特定の回答(例えば、病原体識別)までの時間は、短縮され得る。一実施形態において、そのシステムの出力および中間結果としては、複製のヒストグラム、正確なマッチ、単一または二重のSNPs、および単一および二重のインデルを含み得る。
【0020】
定義
別段定義されなければ、本明細書で使用される技術用語および科学用語は、本開示が属する分野の当業者によって一般的に理解されるものと同じ意味を有する。例えば、Singletonら, Dictionary of Microbiology and Molecular Biology 第2版, J. Wiley & Sons(New York, NY 1994);Sambrookら, Molecular Cloning, A Laboratory Manual, Cold Springs Harbor Press(Cold Springs Harbor, NY 1989)を参照のこと。本開示の目的のために、以下の用語が以下で定義される。
【0021】
リアルタイム二次分析を行うための配列決定機
本明細書で開示されるのは、時間および/またはコンピューティング資源効率的様式において、二次分析を反復して行うためのシステムおよび方法である、二次分析は、参照配列(例えば、ヒト参照ゲノム配列)への配列リードのアラインメントおよびサンプルと参照との間の差異を検出するためのこのアラインメントの利用の両方を包含し得る。二次分析は、遺伝的差異の検出、バリアント検出および遺伝子決定、一塩基多型(SNPs)、小さな挿入および欠失(インデル)、ならびにDNAにおける構造的変化(例えば、コピー数バリアント(CNVs)および染色体再配置)の識別を可能にし得る。二次分析は、配列決定データが次の配列決定サイクルのために生成されている最中に、1つの配列決定サイクルに関して行われ得る。
【0022】
図1は、リアルタイム二次分析を行うための例示的な配列決定システム100を示す模式図である。配列決定システム100によって利用される配列決定法の非限定的な例としては、逐次合成配列決定を行う方法およびHeliscope単一分子配列決定法を含み得る。配列決定システム100は、配列決定システム100の一部である流体システム104によって供給される配列決定試薬を使用して、生の配列決定データを生成するように構成された光学システム102を含み得る。その生の配列決定データは、光学システム102によって捕捉される蛍光画像を含み得る。配列決定システム100の一部であるコンピューターシステム106は、通信チャネル108aおよび108bを介して、光学システム102および流体システム104を制御するように構成され得る。例えば、光学システム102のコンピューターインターフェース110は、コンピューターシステム106と通信チャネル108aを通じて通信するように構成され得る。
【0023】
配列決定反応の間に、流体システム104は、1またはこれより多くの試薬チューブ112を通じて、取り付けステージ116上に配置されたフローセル114へのおよびそのフローセル114からの試薬の流れを方向付け得る。その試薬は、例えば、蛍光標識されたヌクレオチド、緩衝液、酵素、および切断試薬であり得る。フローセル114は、少なくとも1つの流体チャネルを含み得る。フローセル114は、パターン化アレイフローセルまたはランダムアレイフローセルであり得る。フローセル114は、少なくとも1つの流体チャネルにおいて配列決定されるべき一本鎖ポリヌクレオチドの複数のクラスターを含み得る。そのポリヌクレオチドの長さは、例えば、200塩基から1000塩基までの範囲に及んで変動し得る。そのポリヌクレオチドは、フローセル114の1またはこれより多くの流体チャネルに付着され得る。いくつかの実施形態において、フローセル114は、複数のビーズを含み得、ここで各ビーズは、配列決定されるべきポリヌクレオチドの複数のコピーを含み得る。取り付けステージ116は、光学システム102の他の構成要素と関連して、フローセル114の適切なアラインメントおよび動きを可能にするように構成され得る。一実施形態において、取り付けステージ116は、フローセル114をレンズ118と整列させるために使用され得る。
【0024】
光学システム102は、所定の波長にある光を生成するように構成された複数のレーザー120を含み得る。レーザー120によって生成される光は、光ファイバーケーブル122を通過して、フローセル114において蛍光標識を励起し得る。レンズ118(フォーカサー124に取り付けられる)は、z軸に沿って動き得る。そのフォーカスした蛍光発光は、検出器126、例えば、電荷結合素子(CCD)センサまたは相補型金属酸化膜半導体(CMOS)センサによって検出され得る。
【0025】
光学システム102のフィルタアセンブリ128は、フローセル114において蛍光標識の蛍光発光をフィルタにかけるように構成され得る。フィルタアセンブリ128は、第1のフィルタおよび第2のフィルタを含み得る。各フィルタは、システムにおいて使用されている蛍光分子のタイプに依存して、ロングパスフィルタ、ショートパスフィルタ、またはバンドパスフィルタであり得る。第1のフィルタは、検出器126によって第1の蛍光標識の蛍光発光を検出するように構成され得る。第2のフィルタは、検出器126によって第2の蛍光標識の蛍光発光を検出するように構成され得る。フィルタアセンブリ128において2つのフィルタがあると、検出器126は、蛍光発光の2種の異なる波長を検出し得る。
【0026】
いくつかの実施形態において、光学システム102は、蛍光発光を分割するように構成されたダイクロイック要素(dichroic)を含み得る。光学システム102は、2つの検出器(第1の波長にある蛍光発光を検出するための第1のフィルタを連結した第1の検出器、および第2の波長にある蛍光発光を検出するための第2のフィルタを連結した第2の検出器)を含み得る。
【0027】
使用時に、配列決定されるべきポリヌクレオチドを有するサンプルは、フローセル114の中に載せられ、取り付けステージ116に配置される。コンピューターシステム106は、次いで、流体システム104を作動して、配列決定サイクルを開始する。配列決定反応の間に、コンピューターシステム106は、通信インターフェース108bを通じて流体システム104に命令して、試薬(例えば、ヌクレオチドアナログ)をフローセル114へと供給する。通信インターフェース108aおよびコンピューターインターフェース110を通じて、コンピューターシステム106は、光学システム102のレーザー120を制御して、所定の波長にある光を発生させ、配列決定されている最中のポリヌクレオチドにハイブリダイズされる成長中のプライマーへと組み込まれる蛍光標識に連結されたヌクレオチドアナログ上で光るように構成される。コンピューターシステム106は、光学システム102の検出器126を制御して、蛍光画像中のヌクレオチドアナログの発光スペクトルを捕捉する。コンピューターシステム106は、検出器126からの蛍光画像を受け取り、その受け取った蛍光画像を処理して、配列決定されている最中のポリヌクレオチドのヌクレオチド配列を決定する。
【0028】
コンピューターシステム
配列決定システム100のコンピューターシステム106は、上記で考察されるように、光学システム102および流体システム104を制御するように構成され得る。コンピューターシステム106に関しては多くの構成が可能であるが、一実施形態は、
図2に図示される。
図2に示されるように、コンピューターシステム106は、メモリ204、記憶装置206、および通信インターフェース208と電子的に通信状態にあるプロセッサ202を含み得る。一実施形態において、コンピューターシステム106は、配列アラインメントを行い、バリアント呼び出しを生成するために、フィールドプログラマブルゲートアレイ(FPGA)、グラフィクス処理ユニット(GPU)、および/またはベクトル中央演算処理装置(CPU)を含む。
【0029】
プロセッサ202は、流体システム104に、配列決定反応の間に試薬をフローセル114へと供給させる命令を実行するように構成され得る。プロセッサ202は、光学システム102のレーザー120を制御して、所定の波長にある光を生成する命令を実行し得る。プロセッサ202は、光学システム102の検出器126を制御し、データを検出器126から受け取る命令を実行し得る。プロセッサ202は、検出器126から受け取ったデータ(例えば、蛍光画像)を処理し、検出器126から受け取ったデータに基づいて、ポリヌクレオチドのヌクレオチド配列を決定する命令を実行し得る。
【0030】
メモリ204は、配列決定システム100の電源が入っているときに、コンピューターシステム106の機能を発揮するようにプロセッサ202を構成するための命令を保存するように構成され得る。配列決定システム100の電源が切られているときには、記憶装置206が、コンピューターシステム106の機能を発揮するようにプロセッサ202を構成するための命令を保存し得る。通信インターフェース208は、コンピューターシステム106と、光学システム102、流体システム104の間の通信を促進するように構成され得る。
【0031】
コンピューターシステム106は、配列決定システム100の配列決定結果(バリアント呼び出しのような二次分析の結果を含む)をディスプレイするためのディスプレイデバイス(示さず)と通信するように構成されたユーザーインターフェース210を含み得る。ユーザーインターフェース210は、配列決定システム100のユーザーからの入力を受け取るように構成され得る。コンピューターシステム106の光学システムインターフェース212および流体システムインターフェース214は、光学システム102および流体システム104を、
図1に図示される通信リンク108aおよび108bを通じて制御するように構成され得る。例えば、光学システムインターフェース212は、光学システム102のコンピューターインターフェース110と、通信リンク108aを通じて通信し得る。
【0032】
コンピューターシステム106は、検出器126から受け取ったデータを使用して、ポリヌクレオチドのヌクレオチド配列を決定するように構成された核塩基決定機216を含み得る。核塩基決定機216は、検出器126によって捕捉された蛍光画像を使用して、フローセル114におけるポリヌクレオチドクラスターの位置のテンプレートを生成し得る。核塩基決定機216は、生成された位置テンプレートに基づいて、検出器126によって捕捉された蛍光画像においてフローセル114におけるポリヌクレオチドクラスターの位置を記録し得る。核塩基決定機216は、蛍光画像から蛍光発光の強度を抽出して、抽出された強度を生成し得る。核塩基決定機216は、その抽出された強度からポリヌクレオチドの塩基を決定し得る。核塩基決定機216は、決定されたポリヌクレオチドの塩基の品質スコアを決定し得る。
【0033】
コンピューターシステム106は、反復アライナー218およびバリアント呼び出し側220(例えば、Strelkaバリアント呼び出し側)(sites.google.com/site/strelkasomaticvariantcaller/home/faq)を含み得る。配列決定サイクルの間に、反復アライナー218は、核塩基決定機216によって決定された配列リードを、参照配列へと整列させ得る。その整列された配列リードは、関連付けスコアを有し得る。そのスコアは、配列リードが参照配列に正確に整列された確率(例えば、ミスマッチパーセンテージ)であり得る。いくつかの実行において、コンピューターシステム106は、配列リードを参照配列に整列させるために、およびバリアント呼び出しを決定するために、ハードウェア(例えば、フィールドプログラマブルゲートアレイ(FPGA)またはグラフィクス処理ユニット(GPU))を含み得る。いくつかの実施形態において、反復アライナー218およびバリアント呼び出し側220は、コンピューターシステム106とは別個のコンピューターシステムによって実行され得る。いくつかの実施形態において、コンピューターシステム106は、配列決定システム100の一体型構成要素であり得る。いくつかの実施形態において、光学システム102、流体システム104、および/またはコンピューターシステム106は、1つの機械の中に一体化され得る。
【0034】
逐次合成配列決定を行う方法
図3は、配列決定システム100を利用して逐次合成配列決定を行うための例示的方法300のフローチャートである。方法300がブロック305で開始した後、フラグメント化二本鎖ポリヌクレオチドフラグメントを含むフローセル114は、ブロック310で受け取られる。そのフラグメント化二本鎖ポリヌクレオチドフラグメントは、デオキシリボ核酸(DNA)サンプルから生成され得る。そのDNAサンプルは、種々の供給源、例えば、生物学的サンプル、細胞サンプル、環境サンプル、またはこれらのうちのいずれかの組み合わせに由来し得る。DNAサンプルは、患者に由来する生物学的流体、組織、および細胞のうちの1またはこれより多くを含み得る。例えば、そのDNAサンプルは、血液、尿、脳脊髄液、胸膜液、羊水、精液、唾液、骨髄、生検サンプル、またはこれらのうちのいずれかの組み合わせから採取され得るか、またはこれらを含み得る。
【0035】
DNAサンプルは、目的の細胞に由来するDNAを含み得る。その目的の細胞は、変動し得、いくつかの実施形態では、悪性表現型を発現し得る。いくつかの実施形態において、その目的の細胞は、腫瘍細胞、骨髄細胞、がん細胞、幹細胞、内皮細胞、ウイルス感染した細胞、病原性の、寄生生物の細胞、またはこれらのうちのいずれかの組み合わせを含み得る。
【0036】
フラグメント化二本鎖ポリヌクレオチドフラグメントの長さは、200塩基から1000塩基までの範囲に及び得る。フラグメント化二本鎖ポリヌクレオチドフラグメントを含むフローセル114がブロック310において一旦受け取られると、方法300は、ブロック315へと進み、このブロックにおいてその二本鎖ポリヌクレオチドフラグメントは、フローセル(例えば、フローセル114)の1またはこれより多くのチャネルの内表面に付着されたポリヌクレオチドフラグメントのクラスターへとブリッジ増幅される。フローセルの1またはこれより多くのチャネルの内表面は、2タイプのプライマー(例えば、第1のプライマータイプ(P1)および第2のプライマータイプ(P2))を含み得、そのDNAフラグメントは、周知の方法によって増幅され得る。
【0037】
フローセル114内でクラスターを生成した後、方法300は、逐次合成配列決定を行うプロセスを開始し得る。その逐次合成配列決定を行うプロセスは、一本鎖ポリヌクレオチドフラグメントのクラスターのヌクレオチド配列を決定する工程を包含し得る。配列5’-P1-F-A2R-3’を有する一本鎖ポリヌクレオチドフラグメントのクラスターの配列を決定するために、配列A2F(これは、配列A2Rに相補的である)を有するプライマーは、ブロック320において、0個、1個、または2個の標識を有するヌクレオチドアナログとともに添加されてDNAポリメラーゼによって伸長されて、成長中のプライマー-ポリヌクレオチドを形成し得る。
【0038】
各配列決定サイクルの間に、4タイプのヌクレオチドアナログは、その成長中のプライマー-ポリヌクレオチドへと添加されて組み込まれ得る。その4タイプのヌクレオチドアナログは、異なる改変を有し得る。例えば、第1のタイプのヌクレオチドは、いかなる蛍光標識とも結合体化していないデオキシグアノシン三リン酸(dGTP)のアナログであり得る。第2のタイプのヌクレオチドは、第1のタイプの蛍光標識とリンカーを介して結合体化したデオキシチミジン三リン酸(dTTP)のアナログであり得る。第3のタイプのヌクレオチドは、第2のタイプの蛍光標識とリンカーを介して結合体化したデオキシシチジン三リン酸(dCTP)のアナログであり得る。第4のタイプのヌクレオチドは、第1のタイプの蛍光標識および第2のタイプの蛍光標識の両方と、1またはこれより多くのリンカーを介して結合体化したデオキシアデノシン三リン酸(dATP)のアナログであり得る。リンカーは、1またはこれより多くの切断基を含み得る。その後の配列決定サイクルの前に、蛍光標識は、ヌクレオチドアナログから除去され得る。例えば、蛍光標識をヌクレオチドアナログに付着させるリンカーは、そのリンカーが、ホスフィン試薬によって各組み込みサイクル後に切断され得、それによって、その蛍光標識をその後の配列決定サイクルから放出するように、例えば、炭素上にアジドおよび/またはアルコキシ基を含み得る。
【0039】
ヌクレオチド三リン酸は、配列決定が制御され、僅か1個のヌクレオチドアナログが各サイクルにおいて各伸長中のプライマー-ポリヌクレオチド上に付加され得るように、3’位において可逆的にブロックされ得る。例えば、ヌクレオチドアナログの3’リボース位は、アルコキシおよびアジド官能基の両方を含み得、これらは、ホスフィン試薬での切断によって除去可能であり得、それによって、さらに伸長され得るヌクレオチドを作り得る。ヌクレオチドアナログの組み込みの後に、流体システム104は、任意の組み込まれていないヌクレオシドアナログおよび酵素を除去するために、フローセル114の1またはこれより多くのチャネルを洗浄し得る。その後の配列決定サイクルの前に、可逆的な3’ブロックは、別のヌクレオチドアナログが各伸長中のプライマー-ポリヌクレオチド上に付加され得るように、除去され得る。
【0040】
ブロック325において、レーザー(例えば、レーザー120)は、所定の波長で2種の蛍光標識を励起し得る。ブロック330において、その蛍光標識からのシグナルは、検出され得る。蛍光標識を検出する工程は、例えば、2種のフィルタを使用する検出器126によって、第1の波長および第2の波長において、2種の蛍光画像で蛍光発光を捕捉する工程を包含し得る。第1の蛍光標識の蛍光発光は、第1の波長にまたはその付近にあり得、第2の蛍光標識の蛍光発光は、第2の波長にまたはその付近にあり得る。その蛍光画像は、後にオフラインで処理するために保存され得る。いくつかの実施形態において、その蛍光画像は、各クラスターにおいて成長中のプライマー-ポリヌクレオチドの配列をリアルタイムで決定するために処理され得る。
【0041】
オンラインでのリアルタイム蛍光画像化処理において、検出される蛍光シグナルを含む蛍光画像は、ブロック335において処理され得、組み込まれたヌクレオチドの塩基が決定され得る。決定された各ヌクレオチド塩基に関して、品質スコアがブロック340において決定され得る。決定ブロック345において、例えば、シグナルの品質に基づいて、または所定の塩基数の後に、より多くのヌクレオチドを検出するか否か、決定が行われ得る。より多くのヌクレオチドが検出されることになる場合、次の配列決定サイクルのヌクレオチド決定は、ブロック320において行われ得る。いくつかの実施形態において、標識されたヌクレオチドは、クラスターに相当するDNA鎖のうちの一方の末端に付加され得る。その標識されたヌクレオチドはまた、クラスターに相当するDNA鎖のうちの他方の末端に付加され得る。DNA鎖のうちの一方の末端にあるリードは、しばしばリード1セットといわれ、DNA鎖のうちの他方の末端にあるそれらリードは、しばしばリード2セットといわれる。単一のポリヌクレオチド二重鎖上の2つの場所に由来する配列の2またはこれより多くのリードの決定を可能にする配列決定技術は、ペアエンド(paired-end)(PE)配列決定法として公知である。単一のポリヌクレオチド二重鎖上の2つの場所に由来する配列のその2またはこれより多くのリードは、リード1セット、リード2セットなどといわれる。ペアエンド配列決定法は、米国特許出願番号14/683,580に記載されている;その内容は、その全体において本明細書に参考として援用される。ペアエンドアプローチの利点は、単一のテンプレートに由来する2つのストレッチを配列決定することから得られることになる情報が、ランダム様式で2つの独立したテンプレートのうちの各々を配列決定するより有意に多いことである。
【0042】
次の配列決定サイクルの前に、蛍光標識は、ヌクレオチドアナログから除去され得、その可逆的な3’ブロックは、別のヌクレオチドアナログが各伸長中のプライマー-ポリヌクレオチド上に付加され得るように除去され得る。蛍光画像がすべて処理された後、方法300は、ブロック350において終結し得る。
【0043】
塩基呼び出し
塩基呼び出しは、グアニン(G)、チミン(T)、シトシン(C)、またはアデニン(A)であると配列決定されている最中の、成長中のプライマー-ポリヌクレオチドのクラスターへと組み込まれたヌクレオチドの塩基を決定するプロセスをいい得る。
図4は、配列決定システム100を利用して、塩基呼び出しを行うための例示的方法400のフローチャートである。
図3で図示されるブロック335において検出されたシグナルを処理する工程は、方法400の塩基呼び出しを行う工程を包含し得る。ブロック405において開始した後、所定の波長の光が、レーザーを使用して生成され得る。その生成された光は、ブロック410においてヌクレオチドアナログ上で光り得る。例えば、コンピューターシステム106は、その光学システムインターフェース212および通信チャネル108aを通じて、レーザー120に所定の波長にある光を生成させ得る。
【0044】
レーザーで生成された光は、フローセル(例えば、フローセル114)の1またはこれより多くのチャネルの内表面上に付着された成長中のプライマー-ポリヌクレオチドへと組み込まれたヌクレオチドアナログ上で光り得る。プライマー-ポリヌクレオチドは、配列決定プライマーにハイブリダイズされた一本鎖ポリヌクレオチドフラグメントのクラスターを含み得る。ヌクレオチドアナログは各々、0個、1個、または2個の蛍光標識を含み得る。その2個の蛍光標識は、第1の蛍光標識および第2の蛍光標識であり得る。その蛍光標識は、レーザーで生成された光によって励起された後、蛍光発光を発し得る。例えば、第1の蛍光標識は、例えば、第1の蛍光画像において捕捉され得る第1の波長にある蛍光発光を生じ得る。第2の蛍光標識は、例えば、第2の蛍光画像において捕捉され得る第2の波長にある蛍光発光を生じ得る。
【0045】
ヌクレオチドアナログは、第1のタイプのヌクレオチド、第2のタイプのヌクレオチド、第3のタイプのヌクレオチド、および第4のタイプのヌクレオチドを含み得る。その第1のタイプのヌクレオチド、例えば、デオキシグアノシン三リン酸(dGTP)のアナログは、第1の蛍光標識にも第2の蛍光標識にも結合体化されない。第2のタイプのヌクレオチド、例えば、デオキシチミジン三リン酸(dTTP)のアナログは、第1のタイプの蛍光標識と結合体化され得るが、第2のタイプの蛍光標識には結合体化されない。第3のタイプのヌクレオチド、例えば、デオキシシチジン三リン酸(dCTP)のアナログは、第2のタイプの蛍光標識と結合体化され得るが、第1のタイプの蛍光標識とは結合体化されない。第4のタイプのヌクレオチド、例えば、デオキシアデノシン三リン酸(dATP)のアナログは、第1の蛍光標識および第2のタイプの蛍光標識の両方と結合体化され得る。
【0046】
ブロック415において、第1の波長および第2の波長にあるヌクレオチドアナログの蛍光発光は、少なくとも1つの検出器を使用して検出され得る。例えば、検出器126は、2つの蛍光画像(第1の波長にある第1の蛍光画像および第2の波長にある第2の蛍光画像)を捕捉し得る。その2つの蛍光画像を光学システム102から受け取った後、核塩基決定機216は、その2つの蛍光画像において蛍光発光の存在または非存在を決定し得る。
【0047】
第1のタイプのヌクレオチドは、第1の蛍光標識にも第2の蛍光標識にも結合体化されていないので、その第1のタイプのヌクレオチドは、第1の波長にあるかまたは第2の波長にある蛍光発光を、全くまたは最小限にしか生成できない。決定ブロック420において、蛍光発光が検出されない場合、そのヌクレオチドは、第1のタイプのヌクレオチド(例えば、dGTP)であると決定され得る。何らかのまたは最小限を超える蛍光発光が検出される場合、方法400は、決定ブロック425へと進み得る。
【0048】
第2のタイプのヌクレオチドは、第1のタイプの蛍光標識と結合体化され、第2のタイプの蛍光標識とは結合体化されないので、その第2のタイプのヌクレオチドは、第1の波長にある蛍光発光を生成し得、第2の波長にある蛍光発光を全くまたは最小限にしか生成できない。決定ブロック425において、第2の波長にある蛍光発光は、第2の蛍光画像において検出されず、かつ決定ブロック420から、第1の波長にある蛍光発光が第1の蛍光画像において検出される場合、ヌクレオチドは、第2のタイプのヌクレオチド(例えば、dTTP)であると決定され得る。蛍光発光が第2波長において検出される場合、方法400は、決定ブロック430へと進み得る。
【0049】
第3のタイプのヌクレオチドは、第2のタイプの蛍光標識と結合体化され、第1のタイプの蛍光標識とは結合体化されないので、その第3のタイプのヌクレオチドは、第2の波長にある蛍光発光を生成し得、第1の波長にある蛍光発光を全くまたは最小限にしか生成できない。決定ブロック430において、第1の波長にある蛍光発光が第1の蛍光画像において検出されず、かつ決定ブロック425から、第2の波長にある蛍光発光が第2の蛍光画像において検出される場合、ヌクレオチドは、第3のタイプのヌクレオチド(例えば、dCTP)であると決定され得る。
【0050】
第4のタイプのヌクレオチドは、第1のタイプの蛍光標識および第2のタイプの蛍光標識の両方と結合体化されるので、その第4のタイプのヌクレオチドは、第1の波長または第2の波長にある蛍光発光を生成し得る。決定ブロック430において、蛍光発光が第1の蛍光画像で第1の波長において検出され、かつ決定ブロック425から、蛍光発光が第2の蛍光画像で第2の波長において検出され得る場合、ヌクレオチドは、第4のタイプのヌクレオチド(例えば、dATP)であると決定され得る。
【0051】
フローセル114は、配列決定されるべき成長中のプライマー-ポリヌクレオチドのクラスターを含み得る。決定ブロック435において、所定の配列決定サイクルに対して処理されるべき蛍光発光を有する少なくとももう1個のクラスターが存在する場合、方法400は、ブロック410において継続し得る。一本鎖ポリヌクレオチドのクラスターがそれ以上処理されるべきではない場合、方法400は、ブロック440において終了し得る。
【0052】
配列決定法
本明細書で記載される方法は、種々の核酸配列決定技術とともに使用され得る。特に適用可能な技術は、核酸がアレイの中の固定された位置に付着され、その結果、それらの相対的な位置が変化せず、そしてそのアレイが反復して画像化されるものである。画像が異なるカラーチャネルにおいて、例えば、一方のヌクレオチド塩基タイプを別のものから区別するために使用される異なる標識が同時に存在して得られる実施形態は、特に適用可能である。いくつかの実施形態において、標的核酸のヌクレオチド配列を決定するプロセスは、自動化プロセスであり得る。好ましい実施形態としては、逐次合成配列決定を行う(「SBS」)技術が挙げられる。
【0053】
「逐次合成配列決定を行う(「SBS」)技術」は、一般に、テンプレート鎖に対するヌクレオチドの反復付加を通じて、発生しようとしている核酸鎖の酵素による伸長を包含する。SBSの旧来の方法において、単一のヌクレオチドモノマーは、各送達においてポリメラーゼの存在下で標的ヌクレオチドに提供され得る。しかし、本明細書で記載される方法において、1種より多くのタイプのヌクレオチドモノマーが、送達においてポリメラーゼの存在下で標的核酸に提供され得る。
【0054】
反復アラインメントおよびバリアント呼び出し
図5Aおよび
図5Bは、一実施形態に従う例示的な反復アラインメントおよびバリアント呼び出しプロセスを示す。ある数の最小限の配列決定サイクルを画像化した後、リアルタイム一次分析が、各整列されていないリードに関する塩基呼び出しおよび品質スコアを決定するために行われ得る。
図5Aにおいて、示される最小限の数の配列決定サイクルは、3である。いくつかの実施形態において、最小限の配列決定サイクルは、16、32、またはこれより多くのサイクルであり得る。塩基呼び出しおよび品質スコア決定は、
図3を参照して上記で例証される。各リードは、最も可能性の高いアラインメントが選択された状態で参照配列に整列され得、次いで、そのリードは、積み重ねられて、バリアント呼び出しが行われ得る。
【0055】
図5Aにおいて、一次分析は、整列されていない配列リード(例えば、CCA 504a、TTA 504d、およびTAG 504k)を、フローセル上で示された16個のクラスターから決定する工程を包含する。一次分析という標題の下では、各クラスターは、文字列として表される(各文字は、配列決定されたポリヌクレオチドを表す)。最小限の数のサイクルが一旦配列決定された(例えば、3サイクル)後、二次分析は、その16個の配列リードを、
図5Aにおいて二次分析という標題の下で示される参照配列(GATTACATAAGATTCTTTCATCG 508)に整列させる工程を包含し得る。二次分析の図において、参照配列の下に整列された配列は、ポリヌクレオチドの積み重ねを構成する。例として、配列リードCCA 504a(「一次分析」という標題の下での列1)、TTA 504d(列4)、およびTAG 504k(列11)は、参照配列508のTTACAT 512部分配列内でそれぞれ配列ACA、TTA、およびTACに、それぞれ1個、0個、および1個のミスマッチとともに整列され得る。従って、TTACAT 512部分配列の第3の位置は、正確性のある程度の確率を伴って、参照配列508においてAの代わりにC 516aであると決定され得、TTACAT 512部分配列の第4の位置は、正確性のある程度の確率を伴って、参照配列においてCの代わりにG 516bであると決定され得る。参照配列の他のバリアントは、同様に決定され得る。
【0056】
新たな配列決定サイクルが行われ、塩基呼び出しが決定されるにつれて、アラインメント確率は、さらに正確になり得、そのリードアラインメントは、新たな最も可能性の高いアラインメントにシフトし得る。このシフトは、影響を及ぼされる領域において行われるべき新たなバリアント呼び出しを誘発する。
図5Bにおいて、第4の配列決定サイクルの後に、第3の配列決定サイクルからの配列決定リードCCA 504a、TTA 504d、およびTAG 504kは、それぞれ、CCAT 504a’(「一次分析」という標題の下での列1)、TTAC 504d’(列4)、およびTAGG 504k’(列11)になる。その配列リードCCAT 504a’およびTTAC 504d’はなお、それぞれ1個および0個のミスマッチを伴って、参照配列508のTTACAT 512部分配列に整列され得る。配列リードCCAT 504a’およびTTAC 504d’に関しては、そのアラインメント位置は、
図5Aで示される反復と
図5Bで示される反復との間で変化しない;TTACAT 512部分配列の第3の位置は、参照配列においてAの代わりにC 516aであると決定され得る。リードTAGG 504k’をTTACAT 512部分配列に整列させることは、2個のミスマッチを要求する。しかし、配列リードTAGG 504k’は、より高い確率を伴って、参照配列508のTAAG520に整列され得る。なぜならこのアラインメントは、1個のみのミスマッチを有するからである。
図5Aおよび
図5Bの例は、配列決定実行が進行するにつれてアラインメント位置がシフトし得、バリアント呼び出しが改善し得ることを示す。
【0057】
いくつかの実施形態において、配列リードを参照配列に整列させる工程は、各配列リードに関するノード上でリーフとして最も可能性の高いアラインメントのリストを維持することを包含する。各リーフは、関連付けられた確率を有し得る。ある閾値未満に低下する確率を伴うリーフは、トリミングされ得る。
【0058】
リアルタイム二次分析
図6は、リアルタイム二次配列分析を行うための例示的方法600のフローチャートである。方法600がブロック605で開始した後、配列決定サイクルの画像化データは、ブロック610において受け取られ得る。例えば、コンピューターシステム106は、その画像化データを検出器126から受け取り得る。ブロック615において、塩基が決定され得、その塩基の品質スコアが決定され得る。画像化データを生成し、塩基を決定し、その決定された塩基の品質を決定する工程は、
図3~4を参照しながら上記で例証される。各配列決定サイクルの後に、配列決定リードの長さは、1ヌクレオチド長くなり得る。例えば、31回目の配列決定サイクルの後に、その配列決定リードは、長さが31ヌクレオチドであり、32回目の配列決定サイクルの後に、その配列決定リードは、長さが1ヌクレオチド長くなって、32ヌクレオチドになる。
【0059】
決定ブロック620において、ある数の最小限の配列決定サイクルが行われたか否かが、決定され得る。最小限の配列決定サイクルは、16サイクル、32サイクル、またはこれより多くのサイクルであり得る。行われる配列決定サイクルのサイクルが、要求される最小限の配列決定サイクルより少ない場合、方法600は、ブロック610へと進む。行われる配列決定サイクルの数が、要求される少なくとも最小限の配列決定サイクルである場合、方法600は、ブロック625へと進む。
【0060】
ブロック625において、決定される配列リードは、参照配列に整列され得る。方法600は、異なる実行において異なるアラインメント方法を利用し得る。アラインメント方法の非限定的な例としては、グルーバルアラインメント(例えば、Needleman-Wunschアルゴリズム)、局所アラインメント、ダイナミックプログラミング(例えば、Smith-Watermanアルゴリズム)、ヒューリスティックアルゴリズムまたは確率論的方法、プログレッシブ法、繰り返し法、モチーフ検索またはプロファイル分析(profile analysis)、遺伝的アルゴリズム、焼きなまし法(simulated annealing)、ペアワイズアラインメント、多重配列アラインメントが挙げられる。
【0061】
ブロック630において、バリアントが決定され得る。最初のバリアントは、所定のバリアント閾値に達した後にのみ呼び出され得る。バリアント閾値は、考えられるPCRまたは配列決定エラーに起因して重要であり得る。バリアント閾値は、参照配列の対応する位置における塩基とは異なる参照配列の位置への塩基のアラインメントに基づき得る。
【0062】
図5Aにおいて、バリアント閾値は、1つの観察である。従って、TTACATの第3の位置は、参照配列においてAの代わりにCであると決定され得る。バリアント閾値が2またはこれより大きい場合、Cバリアントは、特定の配列決定サイクルにおいてブロック630で呼び出されない。
図5Bにおいて、TTACATの第3の位置は、バリアント閾値が多くて2回の観察である場合、参照配列においてAの代わりにCであると決定され得る。いくつかの実施形態において、バリアント閾値は、参照配列の特定の位置に整列される全ての塩基のパーセンテージ(例えば、1%、5%、10%、25%、50%、またはこれより大きい)であり得る。以下でさらに詳細に記載されるように、最も可能性の高いアラインメントは、各配列リードに関するノード上でリーフとして保存され得る。各リーフは、関連付けられた確率を有し得る。ある閾値未満に低下する確率を伴うリーフは、トリミングされ得る。従って、参照配列上のヌクレオチド位置に関して呼び出されるバリアントは、その後のサイクルの間にさらに正確になり得るかまたは脱落し得る。
【0063】
読まれるべきヌクレオチドがまだ存在するか、または全ての配列決定サイクルが完了しているかは、決定ブロック635において決定がなされ得る。この決定は、例えば、シグナルの品質または所定の塩基数の後に基づき得る。読まれるべきヌクレオチドがまだ存在し、全ての配列決定サイクルが完了しているわけではない場合、方法600は、ブロック610へと進み、このブロックにおいて配列決定データは、次の配列決定サイクルのために生成され得る。読まれるべきヌクレオチドがもう存在せず、全ての配列決定サイクルが完了している場合、方法600は、ブロック650において終了する。
【0064】
いくつかの実施形態において、ブロック625およびブロック630、ならびにブロック610およびブロック615は、最小限の数の配列決定サイクルが行われた後に、並行して行われ得る。例えば、32回の配列決定サイクルが行われた後に、方法は、ブロック625へと進んで、長さが32ヌクレオチドである配列リードのアラインメントを行う。方法600がブロック625においてアラインメントを、およびブロック630においてバリアント呼び出しを行う間に、次の配列決定サイクル(すなわち、33回目の配列決定サイクル)が行われ得る。従って、バリアントは、33回目の配列決定サイクルが完了する前にブロック630において決定され得る。そして方法600は、配列決定サイクルが行われている間に、アラインメントおよびバリアント呼び出しをリアルタイムで(またはゼロもしくは低レイテンシで)可能にし得る。さらに、先の配列決定サイクルの間に呼び出されたバリアントは、その後のサイクルの間にさらに正確になり得る。従って、
図6で図示されるバリアント呼び出しは、反復プロセスであり得る。例えば、32回目の配列決定サイクルの後にまたは33回目の配列決定サイクルの間に呼び出されたバリアントは、呼び出された最初のバリアントであり得る。その後の配列決定サイクルの間に、その呼び出されたバリアントは、さらに正確になり得る(特定のヌクレオチド位置に関して以前に呼び出されたバリアントは、もはや呼び出されず、脱落することを含む)。別の例としては、
図5Aおよび
図5Bに示されるように、TTACATの第4の位置に関するバリアントは、第3のサイクルの後にGであると呼び出されたが、その位置に関するバリアントは、第4の位置の後で呼び出されなかった。
【0065】
別の実施形態において、配列決定プロセスは、全ての配列決定サイクルが完了している時間の前に終結され得る。例えば、特定の標的バリアントが全ての配列決定サイクルの完了前に識別される場合、その配列決定プロセスは終結し得る。これは、システムが試薬に関するコストを節約し、標的バリアント呼び出しが行われる前に全てのサイクルを完了する必要があるシステムより早く、所望の結果を提供することを可能にする。
【0066】
いくつかの実施形態において、アラインメントは、ブロック625において行われなくてもよく、バリアントは、配列決定サイクルごとにブロック630において呼び出されてもよい。例えば、アラインメントが行われ得、バリアントは、n回目の配列決定サイクルごとに呼び出される(ここでnは、1、2、3、4、5、10、20、またはこれより多くの回数の配列決定サイクルである)。いくつかの実施形態において、ブロック625において行われるアラインメントの頻度およびブロック630において呼び出されるバリアントは、先の配列決定サイクルにおいて呼び出されるバリアントの数に基づき得る。例えば、多数のバリアントが1つの配列決定サイクルにおいて呼び出される場合、アラインメントおよびバリアント呼び出しは、より高い頻度で(例えば、次のサイクル)またはより低い頻度で行われてもよい。別の例として、1つの配列決定サイクルにおいてバリアントが呼び出されなかったか、または新たなバリアントが呼び出されなかった場合、アラインメントおよびバリアント呼び出しは、より高い頻度でまたはより低い頻度で(例えば、次のサイクルにはない)行われてもよい。
【0067】
いくつかの実施形態において、ブロック630におけるバリアント呼び出しは、参照配列の領域に対して選択的に行われ得る。整列されている最中の参照配列の一部は、異なる実行において異なり得る。例えば、バリアント呼び出しは、参照配列への配列リードのアラインメントが先の配列決定サイクルの間に(例えば、配列決定サイクルの直前に)変化した場合に、参照配列の領域に対して選択的に行われ得る。別の例として、整列されている最中の参照配列のその領域は、既知の一塩基多型(SNP)位置に基づいて決定され得る。
【0068】
いくつかの実施形態において、リアルタイム二次配列分析を行うための方法600は、各リードに関するツリー構造に基づき得る。そのツリーのルートは、配列のスタートを示す「$」をつけて区別され得る。そのルートの子ノードは、4個の考えられる塩基呼び出し:「A」、「C」、「G」および「T」に相当する。そのツリーにおける各ノードは、これと関連付けられる3個の変数を有し得る:現在のリード(配列Wといわれる)からの塩基に伴って、ルートからそのノードへと至る現在のブランチの配列(配列Sといわれる)の差異の総数、そして配列Sとマッチする参照中の全ての位置に関して、参照配列のBurrows-Wheeler Transform(BWT)における開始インデックスおよび停止インデックス。BWTの重要な特性は、共通する開始配列を有する全ての列が、変換において連続的であることは保証されているので、配列Sとマッチする参照への個々のインデックスのリストを維持するよりむしろ、開始インデックスおよび停止インデックスを追跡することが十分であることである。これは、ヒト参照ゲノムへのリードのマッピングの場合には価値あることである。なぜなら非常に多くの反復領域が存在するからである。
【0069】
次いで、ルートの各子ノードには、それ自体に4つの考えられる塩基「A」、「C」、「G」および「T」に相当する4つの子ノードがある。繰り返すと、現在のリードWの配列にともなう差異の数は、追跡され得る。例えば、最初の2サイクルのリードが、「C」、そして次に「T」であった場合、そのリードは、ルート->C->Tによって定義されるツリーを通るパスを有し得る。従って、合計の蓄積された差異は、最後のTノードに関してゼロである。対照的に、ルート->A->Gによって定義されるパスに関しては、Gノードにおける合計の蓄積された差異は、2である。なぜならAもGも、現在のリードにおける相当するサイクルとマッチしないからである。
【0070】
いくつかの実施形態において、受容可能である参照との差異の数に関する限界は、定義され得る。一旦その限界に達した後、そのブランチは無効であり、もはやその後のサイクルにおいて分析されない。適切なインデックスとともに、BWT変換は、各ノードにおいて必要な計算を一定のO(1)時間で行うために使用され得る。コンピューテーションに必要とされるメモリの量、およびツリーにおけるノードの数は、許容可能なエラー閾値の総数によって影響を及ぼされる。いくつかの実施形態において、小さな挿入および欠失のサポートは、実行され得る。
【0071】
いくつかの実施形態において、より複雑な再配置は、複数のシードを通じて取り扱われる。すなわち、特定のリードがどこにもマッチしないと見出される場合、そのプロセスは、リードの他の部分がどこかにマッピングされると見込んで、いくらか後のサイクルにおいて再び始まり得る。これらのリードの全てが追跡され得るので、より複雑な分析(例えば、Smith-Watermanアルゴリズムのようなダイナミックプログラミング法)が、利用可能なコンピューティング能力が存在する場合に行われ得る。
【0072】
代替の実施形態
さらなる実施形態は、配列決定リードの反復処理を含む二次分析のためのシステムおよび方法である。二次分析は、参照配列(例えば、ヒト参照ゲノム配列)への配列リードのアラインメントおよびサンプルと参照との間の差異を検出するためのこのアラインメントの利用(例えば、バリアント検出および呼び出し)の両方を包含し得る。1つの実行において、アラインメントおよびバリアント呼び出し結果は、配列決定機が実行を終了する前に得られ得る。例えば、これらの結果は、利用可能なコンピューティング資源に依存する時間区間で提供され得る。これは、前の反復からの中間アラインメント結果を、現在の反復からのアラインメント結果で拡張することによって達成され得る。その現在の反復からのアラインメント結果は、現在の反復の新たに配列決定された塩基と、以前に整列された位置における参照配列からの塩基とを比較することによって生成される。その比較の結果は、前の反復からのアラインメント結果と合わせられ、その合わされた出力は、次の反復のために保存される。
【0073】
図7Aおよび
図7Bは、二次分析の旧来の方法(
図7A)と本開示の実施形態の二次分析(
図7B)とを比較する模式図である。
図7Aは、二次分析の旧来の方法に関して、リードにおける塩基の完全なセットが配列決定されるまでアラインメントが進まないことを図示する。アラインメントプロセスは、多重アラインメント処理工程を含み得る。第1のアラインメント処理工程は、リードにおいて配列決定された塩基の完全なセットが利用可能になるのを待つ。アラインメントプロセスが完了した後、バリアント呼び出し側プロセス(多重バリアント呼び出し側処理工程を含む)が始まり得る。第1のバリアント呼び出し側処理工程は、アラインメントデータの完全なセットが利用可能になるのを待つ。
【0074】
図7Bは、本開示の一実施形態に従う二次分析の反復方法を図示する。示されるように、アラインメントおよびバリアント呼び出しは、リアルタイムで実行し、反復結果を生成する。処理は、固定された区間で予定され得る。その固定された区間は、N個の塩基の部分配列の到着を含み得る(ここでNは、正の整数(例えば、16)である)。例えば、処理は、16塩基の区間で起こり得る。別の例として、処理は、1個、2個、4個、8個、16個、32個、64個、128個、151個、またはこれより多くの塩基の区間で起こり得る。1つの実行において、処理は、1~152の間の任意の数の区間で、最も好ましくは16±8の区間で起こり得る。一実施形態において、その区間は、1つの反復から別の反復まで変化し得る。配列決定システム(例えば、
図1中の配列決定システム100)は、
図8で図示されるとおりの16塩基の区間で配列リードを生成し得る。あるいは、各処理区間における塩基の数は、異なり得る。例えば、第1の区間は、16塩基が配列決定された後に処理され得、第2の反復は、18塩基が配列決定された後に処理され得る。反復における塩基の数は、1程度に低くてもよいし、リードにおける塩基の数程度に高くてもよい。
【0075】
図7Bに記載されるプロセスは、ペアエンド配列決定技術が使用される場合、リード1セットまたはリード2セットに適用され得る。さらに、リード1セットを処理するときに捕捉された情報は、リード2セットに適用され得る。例えば、アラインメント工程を、リード1セットが配列決定される間にまたはその後に、従来の方法を使用して実行することは可能であり、この情報は、リード2ポリヌクレオチドが配列決定される場合に、リード2セットを処理するために使用され得る。
【0076】
ここで
図8を参照すると、一本鎖ポリヌクレオチドの多重リード804a~804dが、配列決定機器から生成され得る。これらの一本鎖ポリヌクレオチドは、長さが151塩基であり得る(塩基0から塩基150までとして言及される)。これら一本鎖ポリヌクレオチドの配列は、上記で記載される逐次合成配列決定を行う方法で決定され得る。16回の配列決定サイクルの反復0(第1の反復)の後に、配列リードの16塩基は、配列決定システムによって決定され得る。例えば、塩基0から塩基15の配列リードは、リード0(804a)に関して生成され、塩基0~塩基15の配列リードは、リード1(804b)に関して決定されるなど。別の16回の配列決定サイクルの反復1(第2の反復)の後に、配列のさらなる16塩基が各リードに関して決定される。例えば、塩基16から塩基31は、リード0(804a)に関して生成される。配列決定システムは、各クラスターの塩基128から塩基143の配列リードが反復8において生成されるまで、16塩基区間でリードを生成し続け得る。配列決定システムは、反復9(最後の反復)において各クラスターの塩基144から塩基151のリードを生成し得る。代替の実施形態において、各反復において生成される塩基の数は、異なり得る(反復あたりの塩基の数は、利用可能なコンピューティング資源によって決定される)。例えば、第1の処理区間は、16塩基からなり得る一方で、第2の処理区間は、18塩基からなり得る。処理区間における塩基の最小数は、1であり、処理区間における塩基の最大数は、リードの長さに等しい。
【0077】
図7Bを参照すると、アラインメントは、図示されるように16塩基の区間で起こり得る。バリアント呼び出しは、アラインメントが完了した後に、16の区間で起こり得る。例えば、リアルタイム二次分析のための配列決定システムは、1.3時間ごとに配列リードの16塩基を出力し得る。リアルタイム二次分析のために、アラインメントおよびバリアント呼び出しを行うために必要とされる合計時間は、ユーザーが配列リードの次の16塩基が利用可能である前に行われたバリアント呼び出しへのアクセスを有し得るように、1.3時間以内であるべきである。
【0078】
一実施形態において、処理は、固定された反復工程なしで、利用可能なコンピューター資源に関して可能な限り早く連続して起こり得る。分析は、自己調節し得、可能な限り配列決定進捗に近い。アラインメントおよびバリアント呼び出し結果は、必要に応じていつでも生成され得る。
【0079】
代替の実施形態-アラインメント
図9Aは、リアルタイム二次分析を行うための例示的方法900のフローチャートである。方法900は、2つのパスを含む:旧来の二次分析法の低信頼度・高コンピューテーションプロセシングパスおよび本開示の一実施形態に従う高信頼度・低コンピューテーションプロセシングパス。低信頼度・高プロセシングパスおよび高信頼度・低プロセシングパスは、それぞれ、青色のパスおよび黄色のパスとして本明細書で言及される。
【0080】
低信頼度・高コンピューテーションプロセシングパスは、参照配列への各リードの配列アラインメントを含み得る。このパスに関して、リードの利用可能な反復からの全ての塩基は、そのリードを参照配列に整列させるために使用される。例えば、反復0および反復1が各々16塩基からなる場合、32塩基がアライナーによって処理される。多くの従来のアラインメント技術のうちの1つは、低信頼度・高コンピューテーションパスのために使用され得る。配列アラインメントが一旦完了した後、マッピングおよびアラインメント位置は、保存およびスコア付けされ得る。全てのリードが整列された後、バリアントが呼び出され得る。
【0081】
方法900は、高信頼度・低コンピューテーションプロセシングパスを追加することによって、二次分析の旧来の方法を改良する。反復0において、方法900は、多くの配列決定サイクルが完了して、各リードの多くの塩基を生成するのを待つ。例えば、方法900は、配列決定の16サイクルが完了して、各リードの16塩基を生成するのを待ち得る。反復0の間に、各リードの16塩基は、低信頼度・高コンピューテーションプロセシングパスに従って分析および処理される。その旧来の方法は、青色のパスとして本明細書で言及される。反復1および任意のその後の反復の間に、各リードの次の16塩基が、低信頼度・高コンピューテーションプロセシングパスまたは高信頼度・低コンピューテーションプロセシングパスのいずれかに従って分析される。そのリードが直前の反復において十分な信頼度で整列された場合、現在の反復の16塩基は、高信頼度・低コンピューテーションプロセシングパスに従って分析される。そうでなければ、現在の反復の16塩基は、高信頼度・低コンピューテーションプロセシングパスに従って分析される。
【0082】
リードが直前の反復において十分な信頼度で整列された場合、現在の反復の16塩基は、参照配列の次の16塩基に整列される。このアラインメントは、単純アラインメントと本明細書でいわれ、これは、従来の配列アラインメントと比較して低い処理を要する。参照配列全体への配列アラインメントの代わりに、現在の反復の16塩基と参照配列の次の16塩基との間のミスマッチの数が、決定され得る。ミスマッチの数が閾値を上回る場合、その16塩基の処理は、低信頼度・高コンピューテーションプロセシングパスに戻り得る。isAligned変数は、低信頼度・高プロセシングパスに戻る際に、0または偽に設定され得る。ミスマッチの数は、現在の反復の16塩基または現在の反復および前の反復の全ての塩基に関して決定され得る。
【0083】
ミスマッチの数が閾値を下回る場合、16塩基の処理は、高信頼度・低コンピューテーションプロセシングパスの中に留まり得、特定のリードのアラインメント結果が保存され得る。代替の評価基準は、そのisAligned変数が0または偽に設定されるか否かを決定するように系統立てられ得る。例えば、ミスマッチの数が閾値を下回る場合、(MAPping Quality) MapQスコアが計算され得る。そのMapQスコアは、-10log10 Pr{mapping position is wrong(マッピング位置は誤りである)}に等価であり得、最も近い整数に丸められ得る。よって、現在マッピングされているあるランダムリードの確率が0.99であった場合、そのMapQスコアは、20(すなわち、0.01*-10のlog10)であるはずである。正確なマッチの確率が0.999に増大した場合、そのMapQスコアは、30に増大する。逆に、正確なマッチの確率はゼロに向かう傾向にあるので、そのMapQスコアも同様である。
【0084】
16塩基の処理が高信頼度・低コンピューテーションプロセシングパスに留まる場合、リードは、積み重ねに寄与し得る(多重リードが参照配列の類似の位置に整列される場合、これらのリードが参照配列上で互いの上に「積み重なる」ようになる)。16塩基の処理が、低信頼度・高コンピューテーションプロセシングパスに戻る場合、リードは、重ね合わせから除去され得る。一実施形態において、リードは、候補の数、配列アラインメント位置の総数が、閾値(例えば、1000)より低い場合にのみ、低信頼度・高コンピューテーションプロセシングパスにおいて処理される。リードが処理される場合のアラインメントの結果は、保存される。
【0085】
図9Bは、
図9Aに示される方法900を使用して2つのプロセシングパスによって処理されるデータの量の概念プロットである。16回の配列決定サイクルの後、各リードの16塩基が、配列決定システムによって生成される。そのリードは、反復0の間に低信頼度・高コンピューテーションプロセシングパスにおいて全て処理される。32回の配列決定サイクルの後に、その候補のうちのおよそ75%が、反復1の後に整列されると考えられる。これらの候補は、反復2の間に高信頼度・低コンピューテーションプロセシングパスにおいて処理される。反復2の後に、その候補のうちのおよそ90%が整列されると考えられ、反復3の間に、高信頼度・低コンピューテーションプロセシングパスにおいて処理される。リードが高信頼度・低コンピューテーションプロセシングパスにおいて処理される場合に、より少ないコンピューティングおよび処理が要求された。なぜなら単純アラインメントのみが要求されるからである。多くのデータが高信頼度・低コンピューテーションプロセシングパスにおいて処理されかつより少ない処理がこのパスにおいて要求されるので、要求される合計時間は、リードが低信頼度・高コンピューテーションプロセシングパスにおいて処置されるのみである場合より短い。従って、アラインメントおよびバリアント呼び出し結果は、配列決定機が実行を終了する前に得られ得る。これらの結果は、利用可能なコンピューティング資源に依存する時間区間でユーザーに提供され得る。よって、方法900は、リアルタイム二次分析を可能にするために時間効率的様式において二次分析を行い得る。
【0086】
図9Cは、
図10に記載されるアライナーの推定される実行時間改善を示す。「塩基」データは、
図10の中の「既存処理(Existing Processing)」(従来のまたは青色のパス)のみを使用して精製される。「リード1を載せる(Load Read 1)」データは、リード1セットからのデータが整列され、事前に保存され、次いで、リード2セットにおけるデータの処置を加速するために利用される場合に、低下した処理サイクルを示す。方法900は、高信頼度・低コンピューテーションプロセシングパスのために単純アライナーの2つのタイプ:正確なマッチをスキップする単純アライナーまたは単一のミスマッチをスキップする単純なアライナー、のうちの1つを実行し得る。単一のマッチをスキップする単純アライナーは、ゼロ個または単一のミスマッチを許容する。「正確なマッチをスキップする(Skip Exact Matches)」データは、現在の反復の16塩基が、以前に決定された参照位置における参照配列の16塩基と正確にマッチすれば、従来の(青色の)パスがスキップされる場合に低下した処理サイクルを示す。「単一のミスマッチをスキップする(Skip Single Mismatches)」データは、現在の反復の16塩基が、せいぜい1個のミスマッチを有する以前に決定された参照位置において参照配列の16塩基に整列されれば、従来の(青色の)パスがスキップされる場合に低下した処理サイクルを示す。
図9Cは、ベースラインと比較して、方法900は、単一のミスマッチが高信頼度・低コンピューテーションプロセシングパスにおいて検出されたときに従来の処理をスキップした単純アライナーを利用する場合、実行時間が3倍短縮されることを示す。これらの数字は全ての処理工程を含まないプロトタイププロセッサによって生成されたものであり、結果として、期待値の投影であることに注意のこと。
【0087】
図10は、リアルタイム二次分析を行うための例示的方法1000の別のフローチャートである。方法1000および
図9Aに示される方法900は、同じ低信頼度・高コンピューテーションプロセシングパスおよび異なる高信頼度・低コンピューテーションプロセシングパスを実行し得る。方法1000の高信頼度・低コンピューテーションプロセシングパスは、単純アラインメントの後にMapQスコアを生成し、MapQスコアを使用して、高信頼度・低コンピューテーションプロセシングパスにおいて処理し続けるか、低信頼度・高プロセシングパスに戻るのかを決定する。
【0088】
実行時間の高パーセンテージが、リードの小さなパーセンテージで起こる。いくつかの実施形態において、方法900または方法1000の低信頼度・高コンピューテーションプロセシングパスは、評価基準を使用して決定される場合の成功の信頼度が低い場合、整列および保存工程をスキップし得る。一実施形態において、評価基準が生成され得、この評価基準は、部分配列が参照配列に整列し得る候補位置の数を示す。アラインメント成功の信頼度は、候補位置の数が多い場合には低い。第2の実施形態において、アラインメント成功の信頼度は、配列における塩基の多様性が低い場合には低い。塩基の多様性は、例えば、部分配列における特有のnマーの数を計数することによって決定され得、ここでそのnマーは、部分配列自体の長さより短いかまたはその長さに等しい長さを有する部分配列における塩基の配列である。
【0089】
代替の実施形態-バリアント呼び出し側
図11Aおよび
図11Bは、既存のバリアント呼び出し法、Strelkaスモールバリアント呼び出し側(
図11A)、および本開示のバリアント呼び出し法(
図11B)の単純化したフロー図を示す。
図11Aは、スモールバリアント呼び出し側が、入力としてアライナーから生成された積み重ね情報を使用することを示す。積み重ねから、スモールバリアント呼び出し側は、アクティブ領域として公知の配列バリエーションの領域を識別する。次に、デノボリアセンブリは、そのアクティブ領域に適用され得る。各ゲノム位置において、ゲノム位置における配列決定されたポリヌクレオチドが、A、C、T、またはGである可能性を決定するために、確率が生成される。これらの確率から、バリアントが検出され得る。
【0090】
図11Bは、本発明において開示されるとおりのバリアント呼び出し側の実施形態を示す。この実施形態において、ゲノム位置におけるポリヌクレオチドが高信頼度で決定され得るか否かを決定するために、評価基準が生成される。例えば、高信頼度決定は、所定のゲノム位置における全てのポリヌクレオチドが同じである場合に生成され得る。あるいは、高信頼度決定は、ゲノム位置における同じタイプのポリヌクレオチドの数が閾値より高い場合に、行われ得る。高信頼度を決定するための代替の評価基準はまた、実行され得る。ポリヌクレオチドが高信頼度で決定され得る場合、その確率の系統立て(formulation of the probabilities)は、スキップされ得、単純バリアント呼び出し工程が実行され得る。例えば、単純バリアント呼び出し側は、高信頼度で検出される任意のバリアントを呼び出し得る。
【0091】
確率工程の生成および既存のバリアント呼び出し法のバリアント呼び出し工程は、合わせて、バリアント呼び出し側のコンピューティングおよび処理のうちの40%までを要求し得る。
図11Bは、既存のバリアント呼び出し法の低信頼度・高コンピューテーションプロセシングパス、および高信頼度・低コンピューテーションプロセシングパスの両方を実行するバリアント呼び出し法1100を示す。高信頼度・低コンピューテーションプロセシングパスを追加することによって、Strelkaバリアント呼び出し側を最適化し、処理を40%近く減少させた。高信頼度・低コンピューテーションプロセシングパスは、代替のバリアント呼び出し側に追加され得る。
【0092】
図7Bに示されるように、バリアント呼び出し側は、反復処理ウインドウ内で実行され得る。
図11Aまたは
図11Bのバリアント呼び出し側は、反復処理ウインドウ内で反復して実行され得る。さらに、バリアント呼び出し側の1より多くのタイプが、反復処理ウインドウ内で実行され得る。例えば、スモールバリアント呼び出し側(例えば、Strelka)、および代替のバリアント呼び出し側(例えば、構造バリアント呼び出し側またはコピー数バリアント呼び出し側)は、反復処理ウインドウ内で実行され得る。
【0093】
以前に記載された実施形態のうちの少なくともいくつかにおいて、ある実施形態において使用される1またはこれより多くの要素は、このような置き換えが技術的に可能でないのでなければ、別の実施形態において交換可能に使用され得る。種々の他の省略、追加および改変が、特許請求された主題の範囲から逸脱することなく、上記の方法および構造に対して行われ得ることは、当業者によって認識される。全てのこのような改変および変更は、添付の特許請求の範囲によって規定されるように、主題の範囲内に入ることが意図される。
【0094】
本明細書での実質的に任意の複数形および/または単数形の用語の使用に関しては、当業者は、状況および/または適用に適している場合には、複数形から単数形および/または単数形から複数形へと解釈し得る。種々の単数形/複数形の入れ替えは、明瞭性のために、本明細書で明示的に示され得る。
【0095】
一般に、本明細書で使用される用語、および特に添付の特許請求の範囲(例えば、添付の特許請求項の範囲の本体部分)において使用される用語が、概して「非限定の(open)」用語として意図される(例えば、用語「含む、包含する(including)」は、「が挙げられるが、これらに限定されない(including but not limited to)」と解釈されるべきであり、用語「有する(having)」は、「少なくとも有する(having at least)」と解釈されるべきであり、用語「含む、包含する(includes)」は、「が挙げられるが。これらに限定されない(includes but is not limited to)」と解釈されるべきである、など)は、当業者によって理解される。導入された請求項の記載の具体的数字が意図される場合、このような意図が請求項の中で明示的に記載され、そしてこのような記載がない場合には、このような意図が存在しないことは、当業者によってさらに理解される。例えば、理解の助けとして、以下の添付の特許請求の範囲は、請求項の記載を導入するために導入句「少なくとも1(at least one)」および「1またはこれより多く(one or more)」の使用を含み得る。しかし、このような語句の使用は、不定冠詞「1つの、ある(a)」または「1つの、ある(an)」による請求項の記載の導入が、同じ請求項が導入句「1またはこれより多く」または「少なくとも1」、および「1つの、ある(a)」または「1つの、ある(an)」のような不定冠詞を含む場合にすら、このような導入された請求項の記載を含む任意の特定の請求項を、1つのみのこのような記載を含む実施形態に限定することを示唆するとは解釈されるべきでない(例えば、「1つの、ある(a)」および/または「1つの、ある(an)」は、「少なくとも1」または「1またはこれより多く」を意味すると解釈されるべきである);請求項の記載を導入するために使用される定冠詞の使用に関しても同じことが当てはまる。さらに、導入された請求項の記載の具体的な数が明示的に記載されている場合ですら、当業者は、このような記載が少なくともその記載された数を意味すると解釈されるべきであることを認識する(例えば、「2つの記載(two recitations)」というそのままの記載は、他の修飾語がなければ、少なくとも2つの記載、または2またはこれより多くの記載を意味する)。さらに、「A、B、およびCのうちの少なくとも1つなど(at least one of A, B, and C, etc.)」に類似の慣例が使用されるそれらの場合には、概してこのような解釈は、当業者がその慣例を理解する意味において意図される(例えば、「A、B、およびCのうちの少なくとも1つを有するシステム(a system having at least one of A, B, and C)」は、Aのみ、Bのみ、Cのみ、AおとびBを一緒に、AおよびCを一緒に、BおよびCを一緒に、ならびに/またはA、B、およびCを一緒に有するシステムが挙げられるがこれらに限定されない、など)。「A、B、およびCのうちの少なくとも1つなど」に類似の慣例が使用されるそれらの場合において、概してこのような解釈は、当業者がその慣例を理解する意味において意図される(例えば、「A、B、およびCのうちの少なくとも1つを有するシステム」は、Aのみ、Bのみ、Cのみ、AおとびBを一緒に、AおよびCを一緒に、BおよびCを一緒に、ならびに/またはA、B、およびCを一緒に有するシステムが挙げられるがこれらに限定されない、など)。実質的に任意の離節語、および/または2またはこれより多くの選択肢的な用語を表す語句は、説明の中であろうが、請求項の中であろうが、図面の中であろうが、その用語のうちの一方、その用語のうちのいずれか、または両方の用語を含むという可能性を企図することが理解されるべきであることは、当業者によってさらに理解される。例えば、語句「AまたはB(A or B)」は、「A」もしくは「B」、または「AおよびB」の可能性を含むことが理解される。
【0096】
さらに、本開示の特徴および局面が、マーカッシュグループに関して記載される場合、当業者は、本開示がまたそれによって、マーカッシュグループの任意の個々のメンバーまたはメンバーの下位グループに関して記載されることを認識する。
【0097】
当業者によって理解されるように、任意のおよび全ての目的のために、例えば、書面による説明を提供するという点から、本明細書で開示される全ての範囲はまた、任意のおよび全ての考えられる部分範囲およびその部分範囲の組み合わせを包含する。任意の列挙された範囲は、十分に記載されておりかつその同じ範囲が少なくとも1/2、1/3、1/4、1/5、1/10などへと分解されることを可能にすると容易に理解され得る。非限定的な例として、本明細書で考察される各範囲は、下1/3、中央1/3、および上1/3などへと容易に分解され得る。同様に当業者によって理解されるように、「まで」、「少なくとも」、「より大きい」、「より小さい」などのような全ての文言は、記載される数字を含み、上記で考察されるように部分範囲へとその後に分解され得る範囲に言及する。最後に、当業者によって理解されるように、範囲は、各個々のメンバーを含む。従って、例えば、1~3個の物品を有する群は、1個、2個、または3個の物品を有する群に言及する。同様に、1~5個の物品を有する群は、1個、2個、3個、4個または5個の物品を有する群に言及するなど。
【0098】
種々の局面および実施形態が本明細書で開示されてきたが、他の局面および実施形態が当業者に明らかである。本明細書で開示される種々の局面および実施形態は、例証目的であり、限定するとは意図されず、その真の範囲および趣旨は、以下の特許請求の範囲によって示される。