(19)【発行国】日本国特許庁(JP)
(12)【公報種別】特許公報(B2)
(11)【特許番号】
(24)【登録日】2022-04-01
(45)【発行日】2022-04-11
(54)【発明の名称】不均一分子長を有するユニーク分子インデックスセットの生成およびエラー補正のための方法およびシステム
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20220404BHJP
C12Q 1/6876 20180101ALI20220404BHJP
C12M 1/00 20060101ALI20220404BHJP
C12N 15/09 20060101ALI20220404BHJP
【FI】
C12Q1/6869 Z ZNA
C12Q1/6876 Z
C12M1/00 A
C12N15/09 Z
(21)【出願番号】P 2019559268
(86)(22)【出願日】2018-01-05
(86)【国際出願番号】 US2018012669
(87)【国際公開番号】W WO2018136248
(87)【国際公開日】2018-07-26
【審査請求日】2020-12-14
(32)【優先日】2017-01-18
(33)【優先権主張国・地域又は機関】US
(73)【特許権者】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100102978
【氏名又は名称】清水 初志
(74)【代理人】
【識別番号】100102118
【氏名又は名称】春名 雅夫
(74)【代理人】
【識別番号】100160923
【氏名又は名称】山口 裕孝
(74)【代理人】
【識別番号】100119507
【氏名又は名称】刑部 俊
(74)【代理人】
【識別番号】100142929
【氏名又は名称】井上 隆一
(74)【代理人】
【識別番号】100148699
【氏名又は名称】佐藤 利光
(74)【代理人】
【識別番号】100128048
【氏名又は名称】新見 浩一
(74)【代理人】
【識別番号】100129506
【氏名又は名称】小林 智彦
(74)【代理人】
【識別番号】100205707
【氏名又は名称】小寺 秀紀
(74)【代理人】
【識別番号】100114340
【氏名又は名称】大関 雅人
(74)【代理人】
【識別番号】100121072
【氏名又は名称】川本 和弥
(72)【発明者】
【氏名】ウー ケビン
(72)【発明者】
【氏名】チャオ チェン
(72)【発明者】
【氏名】チュアン ハン-ユ
(72)【発明者】
【氏名】ソ アレックス
(72)【発明者】
【氏名】タナー スティーブン
(72)【発明者】
【氏名】グロス スティーブン エム.
【審査官】西垣 歩美
(56)【参考文献】
【文献】国際公開第2016/176091(WO,A1)
【文献】米国特許出願公開第2014/0024541(US,A1)
【文献】米国特許出願公開第2015/0275289(US,A1)
【文献】Teemu Kivioja,Nature Methods,2012年,9,72-74
(58)【調査した分野】(Int.Cl.,DB名)
C12Q 1/00-3/00
C12M 1/00-3/10
C12N 15/00-15/90
JSTPlus/JMEDPlus/JST7580(JDreamIII)
CAplus/MEDLINE/EMBASE/BIOSIS(STN)
(57)【特許請求の範囲】
【請求項1】
サンプル由来の核酸分子をシーケンシングするための方法であって、以下の工程:
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、非ランダムユニーク分子インデックスを含み、
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、かつ可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成
し、かつ、
該セット中の各々のvNRUMIが、少なくとも2個のヌクレオチドだけ該セット中の他のどのvNRUMIとも異なる、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vNRUMIのセットに関連する複数のリードを得る工程;
(d)
前記複数のリードの各リードについて、前記vNRUMIのセットに関するアライメントスコアを得ることにより、該複数のリードの中で、同じvNRUMIに関連するリードを特定する工程
であって、各アライメントスコアが、リードの部分配列とvNRUMIとの間の類似度を示し、該部分配列が、該リードの、該vNRUMIに由来するヌクレオチドが位置する可能性が高い領域内にある、工程;および
(e)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、方法。
【請求項2】
前記アライメントスコアが、前記リードの部分配列と前記vNRUMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく、請求項
1記載の方法。
【請求項3】
前記ヌクレオチドの編集が、ヌクレオチドの置換、付加、および欠失を含む、請求項
2記載の方法。
【請求項4】
各アライメントスコアが、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない、請求項
2記載の方法。
【請求項5】
リードとvNRUMIとの間のアライメントスコアを得ることが、
(a)該vNRUMIと、該リードの部分配列の全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;
(b)該リードの部分配列と、該vNRUMIの全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;ならびに
(c)(a)および(b)において算出されたアライメントスコアの中で最も大きなアライメントスコアを、該リードと該vNRUMIとの間のアライメントスコアとして得ること
を含む、請求項
4記載の方法。
【請求項6】
前記部分配列の長さが、前記vNRUMIのセットの中で最も長いvNRUMIの長さと等しい、請求項
1記載の方法。
【請求項7】
(d)における前記同じvNRUMIに関連するリードを特定する工程が、
前記複数のリードの各リードについて、前記アライメントスコアに基づいて、前記vNRUMIのセットから少なくとも1つのvNRUMIを選択すること;および
該複数のリードの各リードを、該リードについて選択された該少なくとも1つのvNRUMIと関連付けること
をさらに含む、請求項
1記載の方法。
【請求項8】
前記vNRUMIのセットから前記少なくとも1つのvNRUMIを選択することが、該vNRUMIのセットの中で最も高いアライメントスコアを有するvNRUMIを選択することを含む、請求項
7記載の方法。
【請求項9】
前記少なくとも1つのvNRUMIが、2つ以上のvNRUMIを含む、請求項
7記載の方法。
【請求項10】
(d)および(e)の前記同じvNRUMIとして、前記2つ以上のvNRUMIのうちの1つを選択する工程をさらに含む、請求項
9記載の方法。
【請求項11】
(a)において付加される前記アダプターが、
(i)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供すること;
(ii)該オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択することであって、該オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、該オリゴヌクレオチド配列のサブセットが前記vNRUMIのセットを形成する、こと;ならびに
(iii)二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アーム、および該vNRUMIのセットの少なくとも1つのvNRUMIを各々が含む該アダプターを合成すること
によって得られる、請求項1記載の方法。
【請求項12】
前記閾値が3である、請求項
11記載の方法。
【請求項13】
前記vNRUMIのセットが、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む、請求項1記載の方法。
【請求項14】
(e)が、前記同じvNRUMIに関連するリードを折りたたんでグループにして、前記サンプル中のDNA断片の配列についてのコンセンサスヌクレオチド配列を得ることを含む、請求項1記載の方法。
【請求項15】
前記コンセンサスヌクレオチド配列が、前記リードの品質スコアに一部基づいて得られる、請求項
14記載の方法。
【請求項16】
(e)が、
前記同じvNRUMIに関連するリードの中で、参照配列における同じリード位置または類似のリード位置を有するリードを特定すること、ならびに
(i)該同じvNRUMIに関連するリードおよび(ii)該参照配列における該同じリード位置または類似のリード位置を有するリードを使用して、前記DNA断片の配列を決定すること
を含む、請求項1記載の方法。
【請求項17】
前記vNRUMIのセットが、約10,000種以下の異なるvNRUMIを含む、請求項1記載の方法。
【請求項18】
前記vNRUMIのセットが、約1,000種以下の異なるvNRUMIを含む、請求項
17記載の方法。
【請求項19】
前記vNRUMIのセットが、約200種以下の異なるvNRUMIを含む、請求項
18記載の方法。
【請求項20】
前記サンプル中のDNA断片にアダプターを付加する工程が、該サンプル中のDNA断片の両端にアダプターを付加することを含む、請求項1記載の方法。
【請求項21】
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、非ランダムユニーク分子インデックスを含み、
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成
し、かつ、
該セット中の各々のvNRUMIが、少なくとも2個のヌクレオチドだけ該セット中の他のどのvNRUMIとも異なる、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該vNRUMIのセットに関連する複数のリードを得る工程;および
(d)
前記複数のリードの各リードについて、前記vNRUMIのセットに関するアライメントスコアを得ることにより、該複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程
であって、各アライメントスコアが、リードの部分配列とvNRUMIとの間の類似度を示し、該部分配列が、該リードの、該vNRUMIに由来するヌクレオチドが位置する可能性が高い領域内にある、工程
を含む、方法。
【請求項22】
前記同じvNRUMIに関連するリードのカウント数を得る工程をさらに含む、請求項
21記載の方法。
【請求項23】
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、ユニーク分子インデックス(UMI)を含み、かつ
該アダプターのユニーク分子インデックス(UMI)が、少なくとも2つの異なる分子長を有し、可変長のユニーク分子インデックス(vUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該vUMIのセットに関連する複数のリードを得る工程;および
(d)
前記複数のリードの各リードについて、前記vUMIのセットに関するアライメントスコアを得ることにより、該複数のリードの中で、同じ可変長のユニーク分子インデックス(vUMI)に関連するリードを特定する工程
であって、各アライメントスコアが、リードの部分配列とvUMIとの間の類似度を示し、該部分配列が、該リードの、該vUMIに由来するヌクレオチドが位置する可能性が高い領域内にある、工程
を含む、方法。
【請求項24】
前記同じvUMIに関連するリードを使用して、前記サンプル中のDNA断片の配列を決定する工程をさらに含む、請求項
23記載の方法。
【請求項25】
前記同じvUMIに関連するリードのカウント数を得る工程をさらに含む、請求項
23記載の方法。
【請求項26】
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、ユニーク分子インデックス(UMI)のセット中のユニーク分子インデックス(UMI)を含む、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該UMIのセットに関連する複数のリードを得る工程;
(d)該複数のリードの各リードについて、該UMIのセットに関するアライメントスコアを得る工程であって、各アライメントスコアが該リードの部分配列とUMIとの間の類似度を示す、工程;
(e)該アライメントスコアを使用して、該複数のリードの中で、同じUMIに関連するリードを特定する工程;および
(e)該同じUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、方法。
【請求項27】
前記アライメントスコアが、前記リードの前記部分配列と前記UMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく、請求項
26記載の方法。
【請求項28】
各アライメントスコアが、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない、請求項
27記載の方法。
【請求項29】
前記UMIのセットが、少なくとも2つの異なる分子長のUMIを含む、請求項
26記載の方法。
【請求項30】
プログラムコードを記憶している非一時的機械可読媒体を含むコンピュータプログラム製品であって、該プログラムコードが、コンピュータシステムの1つまたは複数のプロセッサによって実行されると、サンプル由来の核酸分子をシーケンシングするための方法を該コンピュータシステムに実施させ、該プログラムコードが、以下のコード:
(a)複数の増幅されたポリヌクレオチドの複数のリードを得るためのコードであって、該複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、
該アダプターが非ランダムユニーク分子インデックスを含み、
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成
し、かつ、
該セット中の各々のvNRUMIが、少なくとも2個のヌクレオチドだけ該セット中の他のどのvNRUMIとも異なる、コード;
(b)
前記複数のリードの各リードについて、前記vNRUMIのセットに関するアライメントスコアを得ることにより、該複数のリードの中で、同じvNRUMIに関連するリードを特定するためのコード
であって、各アライメントスコアが、リードの部分配列とvNRUMIとの間の類似度を示し、該部分配列が、該リードの、該vNRUMIに由来するヌクレオチドが位置する可能性が高い領域内にある、コード;および
(c)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定するためのコード
を含む、コンピュータプログラム製品。
【請求項31】
コンピュータシステムであって、
1つまたは複数のプロセッサ;
システムメモリ;ならびに
サンプル中の関心対象の配列の配列情報を決定するための方法を該コンピュータシステムに実施させるコンピュータが実行可能な命令を記憶している1つまたは複数のコンピュータ可読記憶媒体であって、該命令が
(a)複数の増幅されたポリヌクレオチドの複数のリードを得る工程であって、複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、
該アダプターが、非ランダムユニーク分子インデックスを含み、
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成
し、かつ、
該セット中の各々のvNRUMIが、少なくとも2個のヌクレオチドだけ該セット中の他のどのvNRUMIとも異なる、工程;
(b)
前記複数のリードの各リードについて、前記vNRUMIのセットに関するアライメントスコアを得ることにより、該複数のリードの中で、同じvNRUMIに関連するリードを特定する工程
であって、各アライメントスコアが、リードの部分配列とvNRUMIとの間の類似度を示し、該部分配列が、該リードの、該vNRUMIに由来するヌクレオチドが位置する可能性が高い領域内にある、工程;および
(c)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、コンピュータ可読記憶媒体
を含む、コンピュータシステム。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、米国特許法第119条(e)の下、2017年1月18日に出願された表題:METHODS AND SYSTEMS FOR GENERATION AND ERROR-CORRECTION OF UNIQUE MOLECULAR INDEX SETS WITH HETEROGENEOUS MOLECULAR LENGTHSの米国仮特許出願第62/447,851号の恩典を主張するものであり、これは、全ての目的のために参照によってその全体が本明細書に組み入れられる。
【背景技術】
【0002】
背景
次世代シーケンシング技術は、ますます高速化するシーケンシングを提供し、より大きなシーケンシング深度を可能にしている。しかしながら、シーケンシングの正確性および感度は様々な原因(例えば、サンプルの欠陥、ライブラリー調製中のPCR、濃縮、クラスタ化、およびシーケンシング)に由来するエラーおよびノイズによって影響を受けるので、シーケンシング深度を大きくするだけでは、母体血漿中の胎児セルフリーDNA(cfDNA)、循環腫瘍DNA(ctDNA)、および病原体におけるサブクローナル変異などにおける、対立遺伝子頻度が非常に低い配列を確実に検出することはできない。それ故、様々なエラー原因に起因するシーケンシングの不正確性を抑制しながら、少量かつ/または対立遺伝子頻度の低いDNA分子の配列を決定するための方法を開発することが望まれている。
【発明の概要】
【0003】
概要
本開示の実施態様は、ユニーク分子インデックス(unique molecular index)(UMI)を使用して核酸断片配列を決定するための、方法、装置、システム、およびコンピュータプログラム製品に関する。いくつかの実施態様において、UMIは、非ランダムUMI(NRUMI)または可変長の非ランダムユニーク分子インデックス(vNRUMI)を含む。
【0004】
本開示の一局面は、サンプル由来の核酸分子をシーケンシングするための方法を提供する。該方法は、(a)サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、非ランダムユニーク分子インデックスを含み、かつ、アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;(b)DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;(c)複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vNRUMIのセットに関連する複数のリードを得る工程;(d)複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程;および(e)同じvNRUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程を含む。
【0005】
いくつかの実施態様において、同じvNRUMIに関連するリードを特定する工程は、複数のリードの各リードについて、vNRUMIのセットに関するアライメントスコアを得ることを含み、各アライメントスコアは、リードの部分配列とvNRUMIとの間の類似度を示し、該部分配列は、該リードの、vNRUMIに由来するヌクレオチドが位置する可能性が高い領域内にある。
【0006】
いくつかの実施態様において、アライメントスコアは、リードの部分配列とvNRUMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく。いくつかの実施態様において、ヌクレオチドの編集は、ヌクレオチドの置換、付加、および欠失を含む。いくつかの実施態様において、各アライメントスコアは、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない。
【0007】
いくつかの実施態様において、リードとvNRUMIとの間のアライメントスコアを得ることは、(a)vNRUMIとリードの部分配列の全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;(b)リードの部分配列とvNRUMIの全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;ならびに(c)(a)および(b)において算出されたアライメントスコアの中で最も大きなアライメントスコアを、リードとvNRUMIとの間のアライメントスコアとして得ることを含む。
【0008】
いくつかの実施態様において、部分配列の長さは、vNRUMIのセットの中で最も長いvNRUMIの長さと等しい。いくつかの実施態様において、(d)における同じvNRUMIに関連するリードを特定する工程は、複数のリードの各リードについて、アライメントスコアに基づいてvNRUMIのセットから少なくとも1つのvNRUMIを選択すること;および複数のリードの各リードを、リードについて選択された少なくとも1つのvNRUMIと関連付けることをさらに含む。
【0009】
いくつかの実施態様において、vNRUMIのセットから少なくとも1つのvNRUMIを選択する工程は、vNRUMIのセットの中で最も高いアライメントスコアを有するvNRUMIを選択する工程を含む。いくつかの実施態様において、少なくとも1つのvNRUMIは、2つ以上のvNRUMIを含む。
【0010】
いくつかの実施態様において、該方法は、(d)および(e)の同じvNRUMIとして2つ以上のvNRUMIのうちの1つを選択する工程をさらに含む。
【0011】
いくつかの実施態様において、(a)において付加されるアダプターは、(i)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供すること;(ii)オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択することであって、オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、オリゴヌクレオチド配列のサブセットがvNRUMIのセットを形成する、こと;ならびに(iii)二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アーム、およびvNRUMIのセットの少なくとも1つのvNRUMIを各々が含むアダプターを合成することによって得られる。いくつかの実施態様において、閾値は3である。いくつかの実施態様において、vNRUMIのセットは、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む。
【0012】
いくつかの実施態様において、(e)の決定をする工程は、同じvNRUMIに関連するリードを折りたたんで(collapse)グループ化し、サンプル中のDNA断片の配列についてのコンセンサスヌクレオチド配列を得ることを含む。いくつかの実施態様において、コンセンサスヌクレオチド配列は、リードの品質スコアに一部基づいて得られる。
【0013】
いくつかの実施態様において、(e)の決定する工程は、同じvNRUMIに関連するリードの中で、参照配列における同じリード位置または類似のリード位置を有するリードを特定する工程、ならびに、(i)同じvNRUMIに関連するリードおよび(ii)参照配列における同じリード位置または類似のリード位置を有するリードを使用してDNA断片の配列を決定する工程を含む。
【0014】
いくつかの実施態様において、vNRUMIのセットは、約10,000種以下の異なるvNRUMIを含む。いくつかの実施態様において、vNRUMIのセットは、約1,000種以下の異なるvNRUMIを含む。いくつかの実施態様において、vNRUMIのセットは、約200種以下の異なるvNRUMIを含む。
【0015】
いくつかの実施態様において、サンプル中のDNA断片にアダプターを付加する工程は、サンプル中のDNA断片の両端にアダプターを付加する工程を含む。
【0016】
本開示の別の局面は、シーケンシングアダプターを調製するための方法であって、(a)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供する工程;(b)オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択する工程であって、オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、オリゴヌクレオチド配列のサブセットが可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;ならびに(c)複数のシーケンシングアダプターを合成する工程であって、各シーケンシングアダプターが、二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アームおよびvNRUMIのセットの少なくとも1つのvNRUMIを含む工程を含む、方法に関する。
【0017】
いくつかの実施態様において、(b)は、(i)オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列を選択する工程;(ii)選択されたオリゴヌクレオチドをオリゴヌクレオチド配列の拡大セットに加える工程、および選択されたオリゴヌクレオチドをオリゴヌクレオチド配列のセットから除去して、オリゴヌクレオチド配列の低減されたセットを得る工程;(iii)低減されたセットから、距離関数を最大化するインスタントオリゴヌクレオチド配列を選択する工程であって、距離関数が、インスタントオリゴヌクレオチド配列と拡大セット中の任意のオリゴヌクレオチド配列との間の最小編集距離であり、かつ、距離関数が閾値を満たす、工程;(iv)インスタントオリゴヌクレオチドを拡大セットに加える工程、および低減されたセットからインスタントオリゴヌクレオチドを除去する工程;(v)(iii)および(iv)を1または複数回繰り返す工程;ならびに(vi)vNRUMIのセットを形成するオリゴヌクレオチド配列のサブセットとして拡大セットを提供する工程を含む。
【0018】
いくつかの実施態様において、(v)は、距離関数がもはや閾値を満たすことがなくなるまで(iii)および(iv)を繰り返す工程を含む。
【0019】
いくつかの実施態様において、(v)は、拡大セットが規定サイズに達するまで(iii)および(iv)を繰り返す工程を含む。
【0020】
いくつかの実施態様において、インスタントオリゴヌクレオチド配列または拡大セット中のオリゴヌクレオチド配列は、オリゴヌクレオチド配列のセットの中で最も長いオリゴヌクレオチド配列よりも短く、該方法は、(iii)の前に、(1)チミン塩基またはチミン塩基+4つの塩基のいずれかをインスタントオリゴヌクレオチド配列または拡大セット中のオリゴヌクレオチド配列に追加し、それによって、オリゴヌクレオチド配列のセットの中で最も長いオリゴヌクレオチド配列と同じ長さを有する延長された配列を生成する工程、および(2)延長された配列を使用して、最小編集距離を算出する工程をさらに含む。いくつかの実施態様において、編集距離は、レーベンシュタイン距離である。いくつかの実施態様において、閾値は3である。
【0021】
いくつかの実施態様において、該方法は、(b)の前に、前記オリゴヌクレオチド配列のセットから特定のオリゴヌクレオチド配列を除去して、オリゴヌクレオチド配列のフィルタリングされたセットを得る工程;および該オリゴヌクレオチド配列のフィルタリングされたセットを、オリゴヌクレオチド配列のセットとして提供する工程であって、該セットから前記サブセットが選択される、工程をさらに含む。
【0022】
いくつかの実施態様において、特定のオリゴヌクレオチド配列は、3つ以上の連続する同一塩基を有するオリゴヌクレオチド配列を含む。いくつかの実施態様において、特定のオリゴヌクレオチド配列は、グアニン塩基とシトシン塩基の合計数が2よりも少ないオリゴヌクレオチド配列、およびグアニン塩基とシトシン塩基の合計数が4よりも多いオリゴヌクレオチド配列を含む。
【0023】
いくつかの実施態様において、特定のオリゴヌクレオチド配列は、最後の2つの位置に同じ塩基を有するオリゴヌクレオチド配列を含む。いくつかの実施態様において、特定のオリゴヌクレオチド配列は、1つまたは複数のシーケンシングプライマーの3'末端にマッチする部分配列を有するオリゴヌクレオチド配列を含む。
【0024】
いくつかの実施態様において、特定のオリゴヌクレオチド配列は、オリゴヌクレオチド配列の最後の位置にチミン塩基を有するオリゴヌクレオチド配列を含む。
【0025】
いくつかの実施態様において、vNRUMIのセットは、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む。
【0026】
本開示のさらなる局面は、サンプル由来の核酸分子をシーケンシングするための方法であって、(a)サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、非ランダムユニーク分子インデックスを含み、かつ、アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;(b)DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;(c)複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vNRUMIのセットに関連する複数のリードを得る工程;および(d)複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程を含む、方法に関する。
【0027】
いくつかの実施態様において、該方法は、同じvNRUMIに関連するリードのカウント数を得る工程をさらに含む。
【0028】
本開示の別の局面は、サンプル由来の核酸分子をシーケンシングするための方法であって、(a)サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、ユニーク分子インデックス(UMI)を含み、かつ、アダプターのユニーク分子インデックス(UMI)が、少なくとも2つの異なる分子長を有し、可変長のユニーク分子インデックス(vUMI)のセットを形成する、工程;(b)DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;(c)複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vUMIのセットに関連する複数のリードを得る工程;および(d)複数のリードの中で、同じ可変長のユニーク分子インデックス(vUMI)に関連するリードを特定する工程を含む、方法に関する。
【0029】
いくつかの実施態様において、該方法は、同じvUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程をさらに含む。
【0030】
いくつかの実施態様において、該方法は、同じvUMIに関連するリードのカウント数を得る工程をさらに含む。
【0031】
本開示のなお別の局面は、サンプル由来の核酸分子をシーケンシングするための方法であって、(a)サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、ユニーク分子インデックス(UMI)のセット中のユニーク分子インデックス(UMI)を含む、工程;(b)DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;(c)複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、UMIのセットに関連する複数のリードを得る工程;(d)複数のリードの各リードについて、UMIのセットに関するアライメントスコアを得る工程であって、各アライメントスコアがリードの部分配列とUMIとの間の類似度を示す、工程;(e)アライメントスコアを使用して、複数のリードの中で、同じUMIに関連するリードを特定する工程;および(e)同じUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程を含む、方法に関する。
【0032】
いくつかの実施態様において、アライメントスコアは、リードの部分配列とUMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく。いくつかの実施態様において、各アライメントスコアは、配列の始点でのミスマッチにはペナルティーを科すが、配列の終点でのミスマッチにはペナルティーを科さない。いくつかの実施態様において、UMIのセットは、少なくとも2つの異なる分子長のUMIを含む。
【0033】
また、開示の方法を実施してDNA断片配列を決定するためのシステム、装置、およびコンピュータプログラム製品も提供される。
【0034】
本開示の一局面は、コンピュータシステムの1つまたは複数のプロセッサによって実行されると、ユニーク分子インデックス(UMI)を使用してサンプル中の関心対象の配列の配列情報を決定するための方法をコンピュータシステムに実施させる、プログラムコードを記憶している非一時的機械可読媒体を含む、コンピュータプログラム製品を提供する。プログラムコードは、上の方法を行うための命令を含む。
【0035】
本明細書における例は、ヒトに関するものであり、そして、言語は、主にヒトの問題に向けられるが、本明細書に記載の概念は、任意のウイルス、植物、動物または他の生物由来の核酸にも、その集団(メタゲノム、ウイルス集団など)にも適用可能である。本開示のこれらの特徴および他の特徴は、図面および添付の特許請求の範囲を参照しながら、以下の説明からより完全に明らかになるか、または、本明細書において以下に示す通りの本開示の実践によって学ぶことができる。
[本発明1001]
サンプル由来の核酸分子をシーケンシングするための方法であって、以下の工程:
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、かつ可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vNRUMIのセットに関連する複数のリードを得る工程;
(d)該複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程;および
(e)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、方法。
[本発明1002]
前記同じvNRUMIに関連するリードを特定する工程が、前記複数のリードの各リードについて、前記vNRUMIのセットに関するアライメントスコアを得ることを含み、各アライメントスコアが、リードの部分配列とvNRUMIとの間の類似度を示し、該部分配列が、該リードの、該vNRUMIに由来するヌクレオチドが位置する可能性が高い領域内にある、本発明1001の方法。
[本発明1003]
前記アライメントスコアが、前記リードの部分配列と前記vNRUMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく、本発明1002の方法。
[本発明1004]
前記ヌクレオチドの編集が、ヌクレオチドの置換、付加、および欠失を含む、本発明1003の方法。
[本発明1005]
各アライメントスコアが、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない、本発明1003の方法。
[本発明1006]
リードとvNRUMIとの間のアライメントスコアを得ることが、
(a)該vNRUMIと、該リードの部分配列の全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;
(b)該リードの部分配列と、該vNRUMIの全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;ならびに
(c)(a)および(b)において算出されたアライメントスコアの中で最も大きなアライメントスコアを、該リードと該vNRUMIとの間のアライメントスコアとして得ること
を含む、本発明1005の方法。
[本発明1007]
前記部分配列の長さが、前記vNRUMIのセットの中で最も長いvNRUMIの長さと等しい、本発明1002の方法。
[本発明1008]
(d)における前記同じvNRUMIに関連するリードを特定する工程が、
前記複数のリードの各リードについて、前記アライメントスコアに基づいて、前記vNRUMIのセットから少なくとも1つのvNRUMIを選択すること;および
該複数のリードの各リードを、該リードについて選択された該少なくとも1つのvNRUMIと関連付けること
をさらに含む、本発明1002の方法。
[本発明1009]
前記vNRUMIのセットから前記少なくとも1つのvNRUMIを選択することが、該vNRUMIのセットの中で最も高いアライメントスコアを有するvNRUMIを選択することを含む、本発明1008の方法。
[本発明1010]
前記少なくとも1つのvNRUMIが、2つ以上のvNRUMIを含む、本発明1008の方法。
[本発明1011]
(d)および(e)の前記同じvNRUMIとして、前記2つ以上のvNRUMIのうちの1つを選択する工程をさらに含む、本発明1010の方法。
[本発明1012]
(a)において付加される前記アダプターが、
(i)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供すること;
(ii)該オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択することであって、該オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、該オリゴヌクレオチド配列のサブセットが前記vNRUMIのセットを形成する、こと;ならびに
(iii)二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アーム、および該vNRUMIのセットの少なくとも1つのvNRUMIを各々が含む該アダプターを合成すること
によって得られる、本発明1001の方法。
[本発明1013]
前記閾値が3である、本発明1012の方法。
[本発明1014]
前記vNRUMIのセットが、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む、本発明1001の方法。
[本発明1015]
(e)が、前記同じvNRUMIに関連するリードを折りたたんでグループにして、前記サンプル中のDNA断片の配列についてのコンセンサスヌクレオチド配列を得ることを含む、本発明1001の方法。
[本発明1016]
前記コンセンサスヌクレオチド配列が、前記リードの品質スコアに一部基づいて得られる、本発明1015の方法。
[本発明1017]
(e)が、
前記同じvNRUMIに関連するリードの中で、参照配列における同じリード位置または類似のリード位置を有するリードを特定すること、ならびに
(i)該同じvNRUMIに関連するリードおよび(ii)該参照配列における該同じリード位置または類似のリード位置を有するリードを使用して、前記DNA断片の配列を決定すること
を含む、本発明1001の方法。
[本発明1018]
前記vNRUMIのセットが、約10,000種以下の異なるvNRUMIを含む、本発明1001の方法。
[本発明1019]
前記vNRUMIのセットが、約1,000種以下の異なるvNRUMIを含む、本発明1018の方法。
[本発明1020]
前記vNRUMIのセットが、約200種以下の異なるvNRUMIを含む、本発明1019の方法。
[本発明1021]
前記サンプル中のDNA断片にアダプターを付加する工程が、該サンプル中のDNA断片の両端にアダプターを付加することを含む、本発明1001の方法。
[本発明1022]
シーケンシングアダプターを調製するための方法であって、
(a)少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供する工程;
(b)該オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択する工程であって、該オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、該オリゴヌクレオチド配列のサブセットが可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;ならびに
(c)複数のシーケンシングアダプターを合成する工程であって、各シーケンシングアダプターが、二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アーム、および該vNRUMIのセットの少なくとも1つのvNRUMIを含む、工程
を含む、方法。
[本発明1023]
(b)が、
(i)前記オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列を選択すること;
(ii)該選択されたオリゴヌクレオチドをオリゴヌクレオチド配列の拡大セットに加えること、および該選択されたオリゴヌクレオチドを前記オリゴヌクレオチド配列のセットから除去して、オリゴヌクレオチド配列の低減されたセットを得ること;
(iii)該低減されたセットから、距離関数を最大化するインスタントオリゴヌクレオチド配列を選択することであって、該距離関数が、該インスタントオリゴヌクレオチド配列と該拡大セット中の任意のオリゴヌクレオチド配列との間の最小編集距離であり、かつ、該距離関数が前記閾値を満たす、こと;
(iv)該インスタントオリゴヌクレオチドを該拡大セットに加えること、および該インスタントオリゴヌクレオチドを該低減されたセットから除去すること;
(v)(iii)および(iv)を1または複数回繰り返すこと;ならびに
(vi)前記vNRUMIのセットを形成する前記オリゴヌクレオチド配列のサブセットとして該拡大セットを提供すること
を含む、本発明1022の方法。
[本発明1024]
(v)が、前記距離関数がもはや前記閾値を満たすことがなくなるまで(iii)および(iv)を繰り返すことを含む、本発明1023の方法。
[本発明1025]
(v)が、前記拡大セットが規定サイズに達するまで(iii)および(iv)を繰り返すことを含む、本発明1023の方法。
[本発明1026]
前記インスタントオリゴヌクレオチド配列または前記拡大セット中のオリゴヌクレオチド配列が、前記オリゴヌクレオチド配列のセットの中で最も長いオリゴヌクレオチド配列よりも短く、前記方法が、(iii)の前に、(1)チミン塩基またはチミン塩基+4つの塩基のいずれかを該インスタントオリゴヌクレオチド配列または該拡大セット中のオリゴヌクレオチド配列に追加し、それによって、該オリゴヌクレオチド配列のセットの中で最も長いオリゴヌクレオチド配列と同じ長さを有する延長された配列を生成すること、および(2)該延長された配列を使用して、前記最小編集距離を算出することをさらに含む、本発明1023の方法。
[本発明1027]
前記編集距離が、レーベンシュタイン距離である、本発明1022の方法。
[本発明1028]
前記閾値が3である、本発明1022の方法。
[本発明1029]
(b)の前に、前記オリゴヌクレオチド配列のセットから特定のオリゴヌクレオチド配列を除去して、オリゴヌクレオチド配列のフィルタリングされたセットを得る工程;および該オリゴヌクレオチド配列のフィルタリングされたセットを、前記オリゴヌクレオチド配列のセットとして提供する工程であって、該セットから前記サブセットが選択される、工程をさらに含む、本発明1022の方法。
[本発明1030]
前記特定のオリゴヌクレオチド配列が、3つ以上の連続する同一塩基を有するオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1031]
前記特定のオリゴヌクレオチド配列が、グアニン塩基とシトシン塩基の合計数が2よりも少ないオリゴヌクレオチド配列、およびグアニン塩基とシトシン塩基の合計数が4よりも多いオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1032]
前記特定のオリゴヌクレオチド配列が、最後の2つの位置に同じ塩基を有するオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1033]
前記特定のオリゴヌクレオチド配列が、1つまたは複数のシーケンシングプライマーの3'末端にマッチする部分配列を有するオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1034]
前記特定のオリゴヌクレオチド配列が、該オリゴヌクレオチド配列の最後の位置にチミン塩基を有するオリゴヌクレオチド配列を含む、本発明1029の方法。
[本発明1035]
前記vNRUMIのセットが、6ヌクレオチドのvNRUMIおよび7ヌクレオチドのvNRUMIを含む、本発明1022の方法。
[本発明1036]
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該vNRUMIのセットに関連する複数のリードを得る工程;および
(d)該複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程
を含む、方法。
[本発明1037]
前記同じvNRUMIに関連するリードのカウント数を得る工程をさらに含む、本発明1036の方法。
[本発明1038]
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、
各アダプターが、ユニーク分子インデックス(UMI)を含み、かつ
該アダプターのユニーク分子インデックス(UMI)が、少なくとも2つの異なる分子長を有し、可変長のユニーク分子インデックス(vUMI)のセットを形成する、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該vUMIのセットに関連する複数のリードを得る工程;および
(d)該複数のリードの中で、同じ可変長のユニーク分子インデックス(vUMI)に関連するリードを特定する工程
を含む、方法。
[本発明1039]
前記同じvUMIに関連するリードを使用して、前記サンプル中のDNA断片の配列を決定する工程をさらに含む、本発明1038の方法。
[本発明1040]
前記同じvUMIに関連するリードのカウント数を得る工程をさらに含む、本発明1038の方法。
[本発明1041]
サンプル由来の核酸分子をシーケンシングするための方法であって、
(a)該サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、ユニーク分子インデックス(UMI)のセット中のユニーク分子インデックス(UMI)を含む、工程;
(b)該DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;
(c)該複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、該UMIのセットに関連する複数のリードを得る工程;
(d)該複数のリードの各リードについて、該UMIのセットに関するアライメントスコアを得る工程であって、各アライメントスコアが該リードの部分配列とUMIとの間の類似度を示す、工程;
(e)該アライメントスコアを使用して、該複数のリードの中で、同じUMIに関連するリードを特定する工程;および
(e)該同じUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、方法。
[本発明1042]
前記アライメントスコアが、前記リードの前記部分配列と前記UMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく、本発明1041の方法。
[本発明1043]
各アライメントスコアが、配列の始点でのミスマッチにはペナルティーを科すが、該配列の終点でのミスマッチにはペナルティーを科さない、本発明1042の方法。
[本発明1044]
前記UMIのセットが、少なくとも2つの異なる分子長のUMIを含む、本発明1041の方法。
[本発明1045]
プログラムコードを記憶している非一時的機械可読媒体を含むコンピュータプログラム製品であって、該プログラムコードが、コンピュータシステムの1つまたは複数のプロセッサによって実行されると、サンプル由来の核酸分子をシーケンシングするための方法を該コンピュータシステムに実施させ、該プログラムコードが、以下のコード:
(a)複数の増幅されたポリヌクレオチドの複数のリードを得るためのコードであって、該複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、
該アダプターが非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、コード;
(b)該複数のリードの中で、同じvNRUMIに関連するリードを特定するためのコード;および
(c)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定するためのコード
を含む、コンピュータプログラム製品。
[本発明1046]
コンピュータシステムであって、
1つまたは複数のプロセッサ;
システムメモリ;ならびに
サンプル中の関心対象の配列の配列情報を決定するための方法を該コンピュータシステムに実施させるコンピュータが実行可能な命令を記憶している1つまたは複数のコンピュータ可読記憶媒体であって、該命令が
(a)複数の増幅されたポリヌクレオチドの複数のリードを得る工程であって、複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、
該アダプターが、非ランダムユニーク分子インデックスを含み、かつ
該アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;
(b)該複数のリードの中で、同じvNRUMIに関連するリードを特定する工程;および
(c)該同じvNRUMIに関連するリードを使用して、該サンプル中のDNA断片の配列を決定する工程
を含む、コンピュータ可読記憶媒体
を含む、コンピュータシステム。
【0036】
参照による組み入れ
本明細書において言及される全ての特許、特許出願および他の刊行物は、これらの参考文献内で開示される全ての配列を含め、それぞれの個々の刊行物、特許または特許出願が参照によって組み入れられることを具体的かつ個々に示されているかのように、参照によって本明細書に明示的に組み入れられる。引用される全ての文書は、関係する部分において、本明細書におけるそれらの引用の文脈によって示される目的のために、参照によってそれらの全体が本明細書に組み入れられる。しかしながら、いかなる文書の引用も、それが本開示に対する先行技術であるという承認として解釈されるべきではない。
【図面の簡単な説明】
【0037】
【
図1A】UMIを使用して核酸断片をシーケンシングするワークフロー例を示すフローチャートである。
【
図1B】
図1Aに示されているワークフローの最初の工程で利用されるDNA断片/分子およびアダプターを示す。
【
図1C】vNRUMIを使用してエラーを抑制する、DNA断片のシーケンシングプロセスを示すブロックダイヤグラムである。
【
図1D】vNRUMIを有するシーケンシングアダプターを製造するためのプロセス140を図示している。
【
図1E】リードの部分配列またはクエリー配列(Q)をvNRUMIセット中の2つの参照配列(S1およびS2)と比較することができる方法の例を示す。
【
図1F】グローカルアライメントスコアがグローバルアライメントスコアよりも良好なエラー抑制を如何に提供することができるかの例を図示している。
【
図2A】様々な実施態様において採用され得る5つの異なるアダプター設計の概略図を示している。
【
図2B】2つのアーム上に2つの物理UMIを有するアダプターが関与するPCR反応においてUMIジャンピングが起こる仮定プロセスを図示している。
【
図2C】NRUMIを使用した配列リードのリード品質スコアを対照条件と対比させたデータを示す。
【
図3A】本明細書に開示のいくつかの方法に従って二本鎖断片にアダプターをライゲーションする工程の材料および反応産物を示すダイヤグラムである。
【
図4A】本明細書に開示の方法が、二本鎖DNA断片の配列を決定する際の異なるエラー原因をどのように抑制することができるかを図示している。
【
図5】物理UMIおよび仮想UMIを付加して長いペアエンドリードを効率的に得る工程の概略図を示している。
【
図6】試験サンプルを処理するための分散システムのブロックダイヤグラムである。
【
図7】特定の態様に係る計算装置として役立つことができるコンピュータシステムを図示している。
【発明を実施するための形態】
【0038】
詳細な説明
本開示は、核酸、とりわけ、母体血漿中の胎児cfDNAまたは癌患者の血液中の循環腫瘍DNA(ctDNA)などの限定された量または低い濃度を有する核酸をシーケンシングするための、方法、装置、システムおよびコンピュータプログラム製品に関する。
【0039】
数値範囲は、該範囲を規定する数字を包含する。本明細書全体にわたって与えられる全ての最大数値限界は、より小さい数値限界が本明細書に明示的に書かれているかのように、そのより小さい数値限界全てを含むことを意図する。本明細書全体にわたって与えられる全ての最小数値限界は、より大きい数値限界が本明細書に明示的に書かれているかのように、そのより大きい数値限界全てを含む。本明細書全体にわたって与えられる全ての数値範囲は、そのようなより広い数値範囲に含まれる、より狭い数値範囲が全て本明細書に明示的に書かれているかのように、そのより狭い数値範囲全てを含む。
【0040】
本明細書において提供される見出しは、本開示を限定することを意図したものではない。
【0041】
本明細書において他に規定のない限り、本明細書において使用される全ての技術用語および科学用語は、当業者によって一般的に理解されるものと同じ意味を有する。本明細書に含まれる用語を含む様々な科学辞典は、当業者に周知であり、利用可能である。本明細書に記載するものと類似または同等の任意の方法および材料を、本明細書に開示の態様の実践または試験に使用することが可能であるが、一部の方法および材料が記載される。
【0042】
すぐ下で定義される用語は、本明細書全体を参照してより完全に説明される。記載される特定の方法論、プロトコルおよび試薬は、当業者が使用する状況に応じて変動し得るので、本開示がこれらの方法論、プロトコルおよび試薬に限定されないことを理解すべきである。
【0043】
定義
本明細書において使用される場合、単数形の用語「1つ(a)」、「1つ(an)」および「その(the)」は、文脈が明らかに他のことを示していない限り、複数の指示対象を含む。
【0044】
他に指示のない限り、それぞれ、核酸は左から右に5'から3'の方向で書かれ、アミノ酸配列は左から右にアミノからカルボキシの方向で書かれる。
【0045】
ユニーク分子インデックス(UMI)は、個々のDNA分子を互いに区別するために使用され得る、DNA分子に付加されるかまたはDNA分子において特定されるヌクレオチドの配列である。UMIを使用してDNA分子が特定されることから、UMIはユニーク分子識別子とも称される。例えば、Kivioja, Nature Methods 9, 72-74 (2012)を参照されたい。UMIは、これらが関連するDNA分子と一緒にシーケンシングされ、それによって、リード配列が、あるソースDNA分子のものなのか別のものなのかが判定され得る。用語「UMI」は、本明細書において、ポリヌクレオチドの配列情報と物理的ポリヌクレオチドそれ自体の両方を指すために使用される。
【0046】
一般的に、単一ソース分子の複数の実体(instance)がシーケンシングされる。Illumina社のシーケンシング技術を使用したシーケンシング・バイ・シンセシス(sequencing by synthesis)の場合、ソース分子は、フローセルへの送達前に、PCR増幅され得る。PCR増幅されるか否かに関わりなく、フローセルに加えられた個々のDNA分子は、ブリッジ増幅またはExAmp増幅されてクラスタを生成する。クラスタ内の各分子は、同じソースDNA分子に由来するが、別々にシーケンシングされる。エラー補正および他の目的のために、単一クラスタ由来の全てのリードが同じソース分子に由来するものであると特定されるかを見極めることが重要であり得る。UMIはこのグループ化を可能にする。DNA分子の複数の実体を生成するために増幅または別様にコピーされるDNA分子は、ソースDNA分子と称される。
【0047】
ソースDNA分子に関連するエラーに加えて、エラーは、UMIに関連する領域においても起こり得る。いくつかの実施態様において、後者のタイプのエラーは、UMIのプールの中で最も可能性が高いUMIにリード配列をマッピングすることによって、補正され得る。
【0048】
UMIは、あるサンプルのリードを他のサンプルのリードと区別するために一般的に使用されるバーコードと似ているが、UMIは、むしろ、多くのDNA分子が一緒にシーケンシングされるときに、あるソースDNA分子を別のものと区別するために使用される。シーケンシングランにおいて、複数のサンプルよりも一サンプル中にはるかに多くのDNA分子が存在し得るので、典型的には、シーケンシングランにおいて、別個のバーコードよりもはるかに多くの別個のUMIが存在する。
【0049】
述べたように、UMIは、個々のDNA分子に付加され得るかまたは個々のDNA分子において特定され得る。いくつかの実施態様において、UMIをDNA分子に物理的に連結または結合させる方法によって(例えば、ポリメラーゼ、エンドヌクレアーゼ、トランスポザーゼなどによる、ライゲーションまたは転移によって)、UMIはDNA分子に付加され得る。それ故、これらの「付加された」UMIは物理UMIとも称される。いくつかの状況においては、これらは外因性UMIとも称され得る。ソースDNA分子内で特定されるUMIは、仮想UMIと称される。一部の状況においては、仮想UMIは、内因性UMIとも称され得る。
【0050】
物理UMIには、多くの定義のされ方がある。例えば、物理UMIは、アダプターに挿入されるか、そうでなければシーケンシングしようとするソースDNA分子に組み込まれる、ランダム、偽ランダム、もしくは部分的にランダムなヌクレオチド配列、または非ランダムなヌクレオチド配列であり得る。いくつかの実施態様において、物理UMIは、それらの各々が、サンプル中に存在する任意の所与のソースDNA分子を一意に特定すると期待されるほど、ユニークであり得る。各々が物理UMIを有するアダプターの集合を生成し、シーケンシングしようとする断片または他のソースDNA分子に該アダプターを結合させると、個々のシーケンシングされた分子は、各々、該分子を他の全ての断片と区別するのを助けるUMIを有する。そのような実施態様において、非常に多数(例えば、数千~数百万)の異なる物理UMIを使用して、サンプル中のDNA断片を一意に特定し得る。
【0051】
当然ながら、物理UMIは、ありとあらゆるソースDNA分子に対してこの一意性を確保するのに十分な長さを有していなければならない。いくつかの実施態様において、より少ないユニーク分子識別子を他の特定技法と併用することで、シーケンシングプロセス中に各ソースDNA分子を一意に特定することを確保することができる。そのような実施態様では、複数の断片またはアダプターが同じ物理UMIを有し得る。アライメント位置または仮想UMIなどの他の情報を物理UMIと組み合わせることで、リードが単一のソースDNA分子/断片に由来することを一意に特定し得る。いくつかの実施態様において、アダプターは、比較的少ない非ランダム配列(例えば、120種の非ランダム配列)に限定される物理UMIを含む。そのような物理UMIは、非ランダムUMIとも称される。いくつかの実施態様において、非ランダムUMIを、配列位置情報、配列位置、および/または仮想UMIと組み合わせて、同じソースDNA分子に起因するリードを特定し得る。特定されたリードを組み合わせて、本明細書に記載されているように、ソースDNA分子の配列を反映するコンセンサス配列を得ることができる。物理UMI、仮想UMI、および/またはアライメント位置を使用して、同じまたは関連性のあるUMIまたは位置を有するリードを特定することができ、続いて、その特定されたリードを組み合わせて、1つまたは複数のコンセンサス配列を得ることができる。コンセンサス配列を得るためにリードを組み合わせるプロセスは、リードの「折りたたみ」とも称され、これは本明細書において以下でさらに説明する。
【0052】
「仮想ユニーク分子インデックス」または「仮想UMI」は、ソースDNA分子中のユニークな部分配列である。いくつかの実施態様において、仮想UMIは、ソースDNA分子の末端または末端の近くに位置する。1つまたは複数のそのようなユニークな末端位置は、単独でまたは他の情報との組み合わせで、ソースDNA分子を一意に特定し得る。別個のソースDNA分子の数および仮想UMI中のヌクレオチドの数に依存して、1つまたは複数の仮想UMIは、サンプル中のソースDNA分子を一意に特定することができる。場合によっては、ソースDNA分子を特定するために、2つの仮想ユニーク分子識別子の組み合わせが必要である。そのような組み合わせは極めて珍しく、おそらくサンプル中に1回だけ見出され得る。場合によっては、1つまたは複数の仮想UMIと1つまたは複数の物理UMIとの組み合わせが一緒に、ソースDNA分子を一意に特定し得る。
【0053】
「ランダムUMI」は、1つまたは複数の配列長が与えられた全ての可能な異なるオリゴヌクレオチド配列からなるUMIのセットから、交換の有無に関係のないランダムなサンプルとして選択された、物理UMIと見なしてよい。例えば、UMIのセット中の各UMIが、n個のヌクレオチドを有する場合、該セットは、互いに異なる配列を有する4n個のUMIを含む。4n個のUMIから選択されるランダムサンプルが、ランダムUMIを構成する。
【0054】
逆に、「非ランダムUMI」(NRUMI)は、本明細書において使用される場合、ランダムUMIではない物理UMIを指す。いくつかの態様において、非ランダムUMIは、特定の実験または用途のために予め定義される。特定の態様において、ルールを使用して、あるセットについての配列を生成するか、または、該セットからサンプルを選択して、非ランダムUMIを得る。例えば、あるセットの配列は、該配列が特定の1つまたは複数のパターンを有するように生成され得る。いくつかの実施態様において、各配列は、特定の数(例えば、2、3または4個)のヌクレオチドだけ、セット中の他のどの配列とも異なる。すなわち、当該特定の数よりも少ないヌクレオチドを交換することでは、非ランダムUMI配列を任意の他の利用可能な非ランダムUMI配列に変換することはできない。いくつかの実施態様において、シーケンシングプロセスにおいて使用されるNRUMIのセットは、特定の配列長が与えられた可能なUMIを、全てではなく、より少なく含む。例えば、6ヌクレオチドを有するNRUMIのセットは、合計46=4096種の可能な異なる配列の代わりに、合計96種の異なる配列を含み得る。
【0055】
可能な異なる配列を全てではなくより少なく有するセットから非ランダムUMIが選択されるいくつかの実施態様において、非ランダムUMIの数は、ソースDNA分子の数より少なく、時には著しく少ない。そのような実施態様において、非ランダムUMIの情報を、仮想UMI、参照配列上のリード位置、および/またはリードの配列情報などの他の情報と組み合わせて、同じソースDNA分子に由来する配列リードを特定し得る。
【0056】
用語「可変長の非ランダム分子インデックス」(vNRUMI)は、非ランダム選択プロセスを使用して、可変分子長(または不均一長)のUMIのプールから選択されるvNRUMIのセット中のUMIを指す。vNRUMIという用語は、UMI分子とUMI配列の両方を指すために使用される。いくつかの実施態様において、UMIのプールから特定のUMIが除去されて、UMIのフィルタリングされたプールが提供され得、次いで、そのプールがvNRUMIのセットを生成するために使用される。
【0057】
いくつかの実施態様において、各vNRUMIは、少なくとも規定の編集距離だけ、プロセスにおいて使用されるセット中の他のどのvNRUMIとも異なる。いくつかの実施態様において、シーケンシングプロセスにおいて使用されるvNRUMIのセットは、関係する分子長が与えられた可能なUMIを全てではなくより少なく含む。例えば、6および7ヌクレオチドを有するvNRUMIのセットは、(合計46+47=20480種の可能な異なる配列の代わりに)合計120種の異なる配列を含み得る。他の実施態様において、配列は、セットからランダムには選択されない。代わりに、いくつかの配列が他の配列よりも高い確率で選択される。
【0058】
用語「分子長」は、配列長とも称され、ヌクレオチドにおいて測定することができる。分子長という用語はまた、分子サイズ、DNAサイズ、および配列長という用語と互換的に使用される。
【0059】
編集距離は、一方の文字列を他方の文字列に変換するのに必要な操作の最小数をカウントすることによって2つの文字列(例えば、語)が互いにどれだけ異なるかを定量する測定基準である。バイオインフォマティクスにおいては、編集距離を使用してDNA配列(文字A、C、G、およびTの文字列として見ることができる)の類似度を定量することができる。
【0060】
異なる形態の編集距離は、異なる文字列操作セットを使用する。レーベンシュタイン距離は、一般的なタイプの編集距離である。レーベンシュタイン距離の文字列操作は、文字列における文字の削除(欠失)、挿入、および置換の数を考慮する。いくつかの実施態様において、編集距離の他の変形が使用され得る。例えば、操作セットを制限することによって編集距離の他の変形を得ることができる。最長共通部分配列(LCS)距離は、2つのみの編集操作として挿入および削除(欠失)をいずれも単位コストで伴う編集距離である。同様に、置換だけを可能にすることによってハミング距離が得られるが、これは長さが等しい文字列に制限される。ジャロ・ウィンクラー距離は、置き換えだけが許容される編集距離から得ることができる。
【0061】
いくつかの実施態様において、異なる文字列操作には、編集距離に対して異なる重みが付けられることができる。例えば、置換操作には値3の重みが付けられ得る一方、インデルには値2の重みが付けられ得る。いくつかの実施態様において、異なる種類のマッチには、異なる重みが付けられ得る。例えば、A-AマッチにG-Gマッチの2倍の重みが付けられてもよい。
【0062】
アライメントスコアは、アライメント法を使用して決定された2つの配列の類似度を示すスコアである。いくつかの実施態様において、アライメントスコアは、編集(例えば、文字列における文字の欠失、挿入、および置換)の数を考慮する。いくつかの実施態様では、アライメントスコアは、マッチの数を考慮する。いくつかの実施態様では、アライメントスコアは、マッチの数と編集の数の両方を考慮する。いくつかの実施態様では、マッチの数と編集の数は、アライメントスコアに対して均等に重み付けされる。例えば、アライメントスコアを、マッチの数-挿入の数-欠失の数-置換の数として算出することができる。他の実施態様では、マッチの数と編集の数に異なる重みを付けることができる。例えば、アライメントスコアを、マッチの数×5-挿入の数×4-欠失の数×4-置換の数×6として算出することができる。
【0063】
用語「ペアエンドリード」は、核酸断片の各末端から1つのリードを得るペアエンドシーケンシングから得られるリードを指す。ペアエンドシーケンシングは、DNAをインサートと呼ばれる配列に断片化することを伴う。Illumina社によって使用されるようないくつかのプロトコルにおいて、より短いインサート(例えば、数十~数百bpオーダー)に由来するリードは、短いインサートペアエンドリードまたは単にペアエンドリードと称される。対照的に、より長いインサート(例えば、数千bpオーダー)に由来するリードは、メイトペアリードと称される。本開示において、短いインサートペアエンドリードおよび長いインサートメイトペアリードの両方が使用され得るが、DNA断片の配列を決定するためのプロセスに関しては区別されない。それ故、用語「ペアエンドリード」は、短いインサートペアエンドリードと長いインサートメイトペアリードの両方を指し得るが、これらについては、本明細書において以下でさらに記載する。いくつかの態様において、ペアエンドリードは、約20bp~1000bpのリードを含む。いくつかの態様において、ペアエンドリードは、約50bp~500bp、約80bp~150bp、または約100bpのリードを含む。
【0064】
本明細書において使用される場合、用語「アライメント」および「アラインすること」は、リードを参照配列と比較し、それによって参照配列がリード配列を含有するか否かを決定するプロセスを指す。アライメントプロセスは、本明細書において使用される場合、リードを参照配列にマッピングできるかを判断しようとするものだが、参照配列にアラインされるリードが常にもたらされるわけではない。参照配列がリードを含有する場合、リードが参照配列にマッピングされ得、または特定の態様においては、参照配列の特定の位置にマッピングされ得る。場合によっては、アライメントは単に、リードが特定の参照配列のメンバーであるか否か(すなわち、リードが参照配列中に存在するかしないか)を教えるだけである。例えば、リードをヒトの13番染色体の参照配列にアライメントすることは、該リードが13番染色体の参照配列に存在するか否かを教えるであろう。
【0065】
当然ながら、アライメントツールは、本出願において記載していない、バイオインフォマティクスにおける多くの追加の局面および多くの他の用途を有する。例えば、アライメントを使用して、2つの異なる種由来の2つのDNA配列がどれほど類似しているかを決定することもでき、したがって、系統樹においてこれらがどれほど緊密に関係しているかの尺度を提供する。
【0066】
本明細書におけるいくつかの実施態様において、本明細書において以下でさらに記載する通り、リードの部分配列と、参照配列としてのvNRUMIとの間でアライメントを行って、アライメントスコアを決定する。次いで、リードと複数のvNRUMIとの間のアライメントスコアを使用して、どのvNRUMIがリードと関連するまたはマッピングされるかを決定することができる。
【0067】
いくつかの場合、アライメントはさらに、参照配列におけるリードがマッピングされる位置を示す。例えば、参照配列が全ヒトゲノム配列である場合、アライメントは、13番染色体上にリードが存在することを示し得、さらに13番染色体の特定の鎖および/または部位にリードがあることを示し得る。いくつかのシナリオでは、アライメントツールは、a)有効なアライメントが全て発見されるわけではない点、および、b)いくつかの得られたアライメントが有効でないという点で、不完全である。これは、様々な理由、例えば、リードがエラーを含有し得ることに起因して起き、そして、シーケンシングされたリードは、ハロタイプの違いに起因して参照ゲノムとは異なり得る。いくつかの用途では、アライメントツールは、内蔵ミスマッチトレランスを含み、これは、ある程度の塩基対のミスマッチを許容し、さらに、リードを参照配列にアラインさせることを可能にする。これは、そうしなければ見逃されていたであろう有効なリードのアライメントを特定するのを助けることができる。
【0068】
アラインされたリードは、参照ゲノムなどの既知の参照配列に対する核酸分子の順序という点でマッチすると特定された、1つまたは複数の配列である。アラインされたリードおよびその決定された参照配列上の位置が、配列タグを構成する。アライメントは、手動で行うこともできるが、本明細書に開示の方法を実施するための妥当な時間でリードをアラインさせることは不可能であることから、典型的にはコンピュータアルゴリズムによって実施される。配列のアライメントに関するアルゴリズムの一例は、本明細書において以下でさらに記載する通り、リードのプレフィックス配列をvNRUMIと比較するためのグローバル-ローカル(グローカル)ハイブリッドアライメント法である。別のアライメント法の例は、Illumina Genomics Analysis pipelineの一部として配布されるEfficient Local Alignment of Nucleotide Data(ELAND)コンピュータプログラムである。あるいは、ブルームフィルタまたは類似のセットメンバーシップテスターを利用して、リードを参照ゲノムにアラインさせてもよい。2014年4月25日に出願された米国特許出願第14/354,528号(参照によってその全体が本明細書に組み入れられる)を参照されたい。アライメントにおける配列リードのマッチングは、100%配列マッチまたは100%未満(すなわち、不完全なマッチ)であり得る。追加のアライメント法は、2016年4月15に出願された米国特許出願第15/130,668号(代理人整理番号ILMNP008)に開示されており、これは、参照によってその全体が組み入れられる。
【0069】
本明細書において使用される用語「マッピング」は、アライメントによって、リード配列を、より大きな配列(例えば参照ゲノム)に割り当てることを指す。
【0070】
用語「ポリヌクレオチド」、「核酸」、および「核酸分子」は、互換的に使用され、あるヌクレオチドのペントースの3'位置が次のペントースの5'位置にホスホジエステル基によって接続された、共有結合により連結されたヌクレオチド(すなわち、RNAの場合はリボヌクレオチド、DNAの場合はデオキシリボヌクレオチド)の配列を指す。ヌクレオチドは、セルフリーDNA(cfDNA)分子などの、RNA分子およびDNA分子を非限定的に含む任意の形態の核酸の配列を含む。用語「ポリヌクレオチド」は、非限定的に、一本鎖ポリヌクレオチドおよび二本鎖ポリヌクレオチドを含む。
【0071】
本明細書における用語「試験サンプル」は、コピー数の変異および他の遺伝子変化(例えば、限定されないが、単一ヌクレオチド多型、挿入、欠失、および構造的変異)についてスクリーニングしようとする少なくとも1つの核酸配列を有する核酸または核酸の混合物を含む、サンプル、典型的には、生体液、細胞、組織、臓器、または生物に由来するサンプルを指す。特定の態様において、サンプルは、そのコピー数が変異を受けている疑いのある少なくとも1つの核酸配列を有する。そのようなサンプルは、喀痰/口腔液、羊水、血液、血液画分、または細針生検サンプル、尿、腹水、胸膜液などを含むが、それらに限定されない。サンプルは、ヒト対象(例えば、患者)から採取されることが多いが、イヌ、ネコ、ウマ、ヤギ、ヒツジ、ウシ、ブタなどを非限定的に含む任意の哺乳動物からのサンプルに対しても、野生由来の微生物集団または患者由来のウイルス集団のような混合集団からのサンプルに対しても、アッセイを使用することができる。サンプルは、生物学的供給源から得たものをそのまま使用してもよいし、サンプルの特徴を改変するための予備処置の後に使用してもよい。例えば、そのような予備処置には、血液から血漿を調製すること、粘性液を希釈することなどが含まれ得る。予備処置の方法は、濾過、沈殿、希釈、蒸留、混合、遠心分離、凝固、凍結乾燥、濃縮、増幅、核酸断片化、干渉成分の非活性化、試薬の追加、溶解などを伴い得るが、それらに限定されない。そのような予備処置法がサンプルに対して利用される場合、そのような予備処置法は、典型的には、関心対象の核酸を試験サンプル中に残留させる、場合によっては未処置の試験サンプル(例えば、すなわち、そのような予備処置法のいずれも受けていないサンプル)の濃度に比例した濃度で残留させるような、予備処置法である。そのような「処置された」または「処理された」サンプルはなお、本明細書に記載の方法に関する生物学的「試験」サンプルであると見なされる。
【0072】
本明細書における用語「次世代シーケンシング(NGS)」は、クローン増幅された分子および単一核酸分子の大規模並列シーケンシングを可能にするシーケンシング法を指す。NGSの非限定例は、可逆性ダイターミネーターを使用したシーケンシング・バイ・シンセシス、およびシーケンシング・バイ・ライゲーションを含む。
【0073】
用語「リード」は、核酸サンプルの一部に由来する配列リードを指す。典型的には、リードは、サンプル中の隣接した塩基対の短い配列を表すが、必ずしもそうとは限らない。リードは、塩基の正確性についての確率推定値(クオリティスコア)と共に、サンプル部分の塩基対配列によってA、T、C、およびGで記号により表され得る。リードは、メモリデバイスに保存され、必要に応じて処理されて、それが参照配列とマッチするかまたは他の基準を満たすかが決定され得る。リードは、シーケンシング装置から直接的に得てもよいし、サンプルに関する保存された配列情報から間接的に得てもよい。いくつかの場合、リードは、より大きな配列または領域を特定するために使用することができる、例えば、染色体またはゲノム領域または遺伝子にアラインおよびマッピングすることができる、十分な長さ(例えば、少なくとも約20bp)のDNA配列である。
【0074】
用語「部位」および「アライメント位置」は、互換的に使用され、参照ゲノム上のユニークな位置(すなわち、染色体ID、染色体位置および向き)を指す。いくつかの態様において、部位は、参照配列上の残基の位置、配列タグの位置、またはセグメントの位置であり得る。
【0075】
本明細書において使用される場合、用語「参照ゲノム」または「参照配列」は、対象由来の特定された配列を参照するために使用され得る、任意の生物またはウイルスの、部分的であるか完全であるかに関係のない、任意の特定の既知の遺伝子配列を指す。例えば、ヒト対象および他の多くの生物に対して使用される参照ゲノムは、ncbi.nlm.nih.govのNational Center for Biotechnology Informationに見出される。「ゲノム」は、核酸配列で表される、生物またはウイルスの完全な遺伝情報を指す。しかしながら、至適基準の参照ゲノムでさえギャップおよびエラーを含むと予想されることから、「完全な」は相対的な概念であることが理解される。
【0076】
いくつかの実施態様において、vNRUMI配列は、リードのプレフィックス配列がアラインされる参照配列として使用され得る。アライメントは、リードのプレフィックス配列とvNRUMIとの間のアライメントスコアを提供し、これを使用して、同じvNRUMIに関連するリードを折りたたむためのプロセスにおいてリードとvNRUMIが関連するかを判定することができる。
【0077】
様々な態様において、参照配列は、それにアラインされるリードよりも大幅に大きい。例えば、参照配列は、少なくとも約100倍大きく、または少なくとも約1000倍大きく、または少なくとも約10,000倍大きく、または少なくとも約105倍大きく、または少なくとも約106倍大きく、または少なくとも約107倍大きくてもよい。
【0078】
一例では、参照配列は、完全長ヒトゲノムの配列である。そのような配列は、ゲノム参照配列と称され得る。別の例では、参照配列は、13番染色体などの特定のヒト染色体に限定される。いくつかの態様において、参照Y染色体は、ヒトゲノムバージョンhg19由来のY染色体配列である。そのような配列は、染色体参照配列と称され得る。参照配列の他の例には、他の種のゲノム、ならびに、任意の種の染色体、サブ染色体領域(例えば鎖)などが含まれる。
【0079】
いくつかの態様において、アライメントのための参照配列は、リードの長さの約1~約100倍の配列長を有し得る。そのような態様において、アライメントおよびシーケンシングは、全ゲノムアライメントまたはシーケンシングの代わりに、的をしぼったアライメントまたはシーケンシングと見なされる。これらの態様において、参照配列は、典型的には、関心対象の遺伝子配列および/または他の制約付き配列を含む。この意味で、リードの部分配列のvNRUMIに対するアライメントは、的をしぼったアライメントの一形態である。
【0080】
様々な態様において、参照配列は、複数の個体に由来するコンセンサス配列または他の組み合わせである。しかしながら、特定の用途では、参照配列は、特定の個体から採取され得る。
【0081】
用語「由来する」は、本明細書において、核酸または核酸の混合物の文脈において使用される場合、核酸がその起源となる供給源から得られるという意味を指す。例えば、一態様において、2つの異なるゲノムに由来する核酸の混合物は、核酸、例えばcfDNAが、ネクローシスまたはアポトーシスなどの天然に存在するプロセスを通じて、細胞によって天然に放出されたことを意味する。別の態様において、2つの異なるゲノムに由来する核酸の混合物は、核酸が、対象由来の2つの異なるタイプの細胞から抽出されたことを意味する。
【0082】
本明細書における用語「生体液」は、生物学的供給源から採取された液体を指し、例えば、血液、血清、血漿、喀痰、洗浄液、脳脊髄液、尿、精液、汗、涙液、唾液などを含む。本明細書において使用される場合、用語「血液」、「血漿」、および「血清」は、それらの画分または処理された部分も明示的に包含する。同様に、サンプルが生検、スワブ、スメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する処理された画分または部分も明示的に包含する。
【0083】
本明細書において使用される場合、用語「染色体」は、DNAおよびタンパク質成分(とりわけヒストン)を含むクロマチン鎖に由来する、生細胞の遺伝性を担う遺伝子キャリアを指す。国際的に認められた従来の個体ヒトゲノム染色体ナンバリングシステムが本明細書において利用される。
【0084】
用語「プライマー」は、本明細書において使用される場合、伸長産物の合成が誘導される条件下に置かれたときに、合成の開始点として作用することができる単離されたオリゴヌクレオチドを指す(例えば、該条件には、ヌクレオチド、DNAポリメラーゼなどの誘導物質、必要なイオンおよび分子、ならびに適切な温度およびpHが含まれる)。プライマーは、増幅の効率が最大となるために好ましくは一本鎖であり得るが、代替的に二本鎖でもあり得る。二本鎖の場合、プライマーは、伸長産物を調製するために使用される前に、その鎖を分離するようにまず処理される。プライマーは、オリゴデオキシリボヌクレオチドであり得る。プライマーは、誘導物質の存在下で伸長産物の合成を刺激するのに十分に長い。プライマーの正確な長さは、温度、プライマーの起源、方法の使用およびプライマー設計に使用されるパラメーターを含めた多くの要因に依存するだろう。
【0085】
序論および背景
次世代シーケンシング(NGS)技術は、急速に発展しており、先端研究および科学に新しいツールを提供すると同時に、遺伝情報および関連性のある生体情報に依拠した医療サービスも提供する。NGS法は、大規模並列的に行われ、生体分子の配列情報を決定するためにますますの高速化をもたらす。しかしながら、NGS法の多くおよび関連するサンプル操作技法は、エラーを導入し、その結果、得られた配列が数百塩基対に1エラー~数千塩基対に1エラーに及ぶ比較的高いエラー率を有する。生殖細胞系列変異などの遺伝性の遺伝子情報を決定する際には、試験サンプルにおいて同じゲノムの多くのコピーを提供する大部分の体細胞全体でそのような情報が一致することから、そのようなエラー率は時に許容される。配列の1コピーを読み取ることから生じるエラーは、同じ配列の多くのコピーをエラーなしで読み取るときには、小さな影響または除去できるほどの影響しか有さない。例えば、配列の1コピー由来のエラーのあるリードを参照配列に適切にアラインさせることができない場合、それは簡単に分析から除かれ得る。同じ配列の他のコピー由来のエラーのないリードはなお、有効な分析に十分な情報を提供し得る。あるいは、同じ配列由来の他のリードと異なる塩基対を有するリードを除く代わりに、既知または未知のエラー原因から生じたものとしてその異なる塩基対を無視することができる。
【0086】
しかしながら、そのようなエラー補正アプローチは、対立遺伝子頻度が低い配列(例えば、腫瘍組織由来の核酸、循環腫瘍DNA、母体血漿中の低濃度胎児cfDNA、病原体の薬剤抵抗性変異などで見られる、サブクローナル体細胞変異)を検出する場合には上手く機能しない。これらの例では、ある配列部位において1つのDNA断片は関心対象の体細胞変異を保有し得るが、同じ配列部位において多くの他の断片は関心対象の変異を有さない。そのようなシナリオでは、変異DNA断片に由来する配列リードまたは塩基対は、従来のシーケンシングにおいては、使用されないかまたは誤って解釈される恐れがあり、そのため、関心対象の変異を検出するための情報が失われる。
【0087】
これらの様々なエラー原因に起因して、シーケンシング深度を大きくするだけでは、対立遺伝子頻度が非常に低い(例えば、<1%)体細胞変異を確実に検出することはできない。本明細書に開示のいくつかの実施態様は、対立遺伝子頻度の低いサンプルなどの関心対象の有効な配列のシグナルが低い状況下でエラーを効果的に抑制する、二重シーケンシング法を提供する。
【0088】
ユニーク分子インデックス(UMI)は、シーケンシングノイズを抑制するために複数のリードからの情報の利用を可能にする。UMIは、アライメント位置などの状況情報と一緒に、各リードの起源を特定のオリジナルDNA分子まで追跡することを可能にする。同じDNA分子によって複数のリードが生じたとして、計算アプローチを使用して、実際の変異(すなわち、オリジナルDNA分子中に生物学的に存在する変異)を、シーケンシングエラーによって人工的に導入された変異と区別することができる。変異は、挿入、欠失、多ヌクレオチド変異、単一ヌクレオチド変異、および構造的変異を含むことができるが、それらに限定されない。この情報を使用して、DNA分子の真の配列を推測することができる。本発明者等は、この計算方法論をリードの折りたたみ(read collapsing)と呼ぶ。このエラー低減技術は、いくつかの重要な用途を有する。セルフリーDNA分析の状況において、極めて低い頻度(すなわち<1%)で重要な変異が生じることが多い;したがって、それらのシグナルは、シーケンシングエラーによって打ち消され得る。UMIに基づくノイズの低減は、これらの低頻度変異をより一層正確に分類することを可能にする。UMIおよびリードの折りたたみはまた、PCR複製物を高カバレッジデータで特定することを助けることもでき、それによってより正確な変異頻度測定が可能になる。
【0089】
いくつかの実施態様では、ランダムUMIが使用され、この場合、ランダム配列がDNA分子に結合され、当該ランダム配列がUMIバーコードとして使用された。しかし、いくつかの実施態様では、意図的に設計された非ランダムUMIのセットを使用することによって、より簡単な製造が可能となった。このアプローチは非ランダムであるので、UMIは、非ランダムUMI(NRUMI)と称される。いくつかの実施態様では、NRUMIのセットは、均一長配列(例えば、n=6ヌクレオチド長)からなる。これらのNRUMI分子はA-テーリングプロセスによってDNA分子にライゲーションされるため、7番目(n+1番目)のリードは、常にチミン(T)である。この均一性は、この塩基の下流のリードサイクルにわたって伝播する、リード品質の劣化を引き起こし得る。この効果は、
図2Cに図示されている。
【0090】
この課題は、4種の色素を使用してシーケンシングされるパターン化されていないフローセルにおいてはそれほど顕著ではないかもしれないが、2種の色素を使用してシーケンシングされるパターン化されたフローセルにおいては、ベースコーリングが本質的により困難になるので、その重大性が大きくなる可能性が高い。いくつかの実施態様において、新規プロセスを使用して、種々の長さが入り混じったNRUMIセットを生成し、そのような可変長のNRUMI(vNRUMI)を一意に特定し、これらのvNRUMI内のエラーを補正する。このプロセスは、不均一長のDNAバーコードの生成および識別において多様性を提供する。実験結果は、vNRUMI法が従来の解決策よりもロバストである(すなわち、シーケンシングエラーをより補正することができる)ことを示す。
【0091】
いくつかの実施態様において、vNRUMIセットを反復して構築するために、グリーディアルゴリズムが使用される。当該アルゴリズムは、各反復において、選択された配列が、それ自体と、既に選択されている任意のvNRUMIとの間の最小レーベンシュタイン距離を最大化するように、vNRUMI候補のプールから配列を選び出す。複数の配列がこの測定基準の最大値を共有する場合、前記アルゴリズムは、そのような配列のうちの1つを、より短い長さの配列を優先してランダムに選択する。この距離測定基準は、得られたvNRUMIセット内で良好なエラー補正を実行するために少なくとも3である必要があり;この条件を満たすことができない場合、プロセスは、新しいvNRUMIをセットに加えることを停止し、セットを現状に戻す。類似の特徴を有するvNRUMIの異なるセットを生成するようにこのプロセス全体を繰り返すことができる。
【0092】
アダプターは、リードが由来するDNA断片の鎖がどれかを決定することを可能にする物理UMIを含むことができる。いくつかの態様は、これを巧みに利用して、DNA断片の一方の鎖に由来するリードについての第一のコンセンサス配列、および相補鎖についての第二のコンセンサス配列を決定する。多くの態様において、コンセンサス配列は、全てまたは大部分のリードにおいて検出されるヌクレオチドを含むが、少数のリードにおいて現れるヌクレオチドは除外される。種々のコンセンサス基準を用い得る。UMIまたはアライメント位置に基づいてリードを組み合わせてコンセンサス配列を得るプロセスは、リードの「折りたたみ」とも称される。物理UMI、仮想UMI、および/またはアライメント位置を使用して、第一のコンセンサス配列および第二のコンセンサス配列についてのリードが同じ二本鎖断片に由来するかを判断することができる。それ故、いくつかの態様において、同じDNA分子/断片について得られた第一および第二のコンセンサス配列を使用して第三のコンセンサス配列が決定され、第三のコンセンサス配列は、第一のコンセンサス配列および第二のコンセンサス配列に共通のヌクレオチドを含むが、その2つの間で矛盾しているものは除外される。代わりの実施態様では、同じ断片の両鎖から得られる2つのコンセンサス配列を比較する代わりに、同じ断片の2つの鎖に由来する全てのリードを折りたたむことによって、ただ1つのコンセンサス配列が直接得られる。最後に、断片の両鎖に由来するリードで一致した塩基対を含む、第三のコンセンサス配列またはただ1つのコンセンサス配列から、断片の配列が決定され得る。
【0093】
いくつかの態様において、前記方法は、異なるタイプのインデックスを組み合わせて、リードが由来するソースポリヌクレオチドを決定する。例えば、当該方法は、物理UMIと仮想UMIの両方を使用して、単一DNA分子に由来するリードを特定し得る。物理UMIに加えて、第二の形態のUMIを使用することによって、ソースポリヌクレオチドを決定するのに物理UMIのみが使用されるときよりも、物理UMIは短くてよい。このアプローチは、ライブラリー調製の性能に最小限の影響しか与えず、追加のシーケンシングリード長を必要としない。
【0094】
本開示の方法の用途は、以下を含む:
・体細胞変異を検出するためのエラー抑制。例えば、対立遺伝子頻度が0.1%未満の変異の検出は、循環腫瘍DNAの液体生検において極めて肝要である。
・高品質の長いリード(例えば、1×1000bp)を得るための、プレフェージング、フェージング、および他のシーケンシングエラーの補正。
・固定されたリード長に対するサイクル時間の減少、ならびに本方法による増加したフェージングおよびプレフェージングの補正。
・仮想の長いペアエンドリードを作製するための断片の両側でのUMIの使用。例えば、二通りで500+50を行うことによって、2×500リードをステッチする。
・関心対象の配列に関係する核酸断片の定量またはカウント。
【0095】
UMIを使用して核酸断片をシーケンシングするためのワークフロー
図1Aは、UMIを使用して核酸断片をシーケンシングするためのワークフロー例100を示すフローチャートである。ワークフロー100は、実施態様の一部の例にすぎない。いくつかの実施態様は、ここで示されていない追加の操作を伴うワークフローを利用してもよく、他の実施態様は、ここで示される操作のうちのいくつかを省略してもよいことが理解される。例えば、いくつかの実施態様は、操作102および/または操作104を必要としない。また、ワークフロー100は、全ゲノムシーケンシングに利用される。的をしぼったシーケンシングに係るいくつかの実施態様において、特定の領域にハイブリダイズしてそれを濃縮する操作工程が操作110と112の間に適用され得る。
【0096】
操作102は、二本鎖DNAの断片を提供する。DNA断片は、例えば、ゲノムDNAを断片化するか、自然に断片化されたDNA(例えば、cfDNAまたはctDNA)を集めるか、または、RNAからDNA断片を合成することによって得られ得る。いくつかの実施態様において、RNAからDNA断片を合成するために、まず、polyA選択またはリボソームRNAの枯渇を使用してメッセンジャーRNAまたは非コードRNAを精製し、次に、選択したmRNAを化学的に断片化し、ランダムヘキサマープライミングを使用して一本鎖cDNAに変換する。cDNAの相補鎖を生成し、ライブラリー構築に使える状態の二本鎖cDNAを作る。ゲノムDNA(gDNA)から二本鎖DNA断片を得るために、インプットgDNAを、例えば流体力学的剪断、噴霧化、酵素的断片化などによって断片化して、適切な長さ、例えば、約1000bp、800bp、500または200bpの断片を生成する。例えば、噴霧化は、短時間でDNAを800bp未満のピースへと粉砕することができる。このプロセスは、二本鎖DNA断片を生成する。
【0097】
いくつかの実施態様において、断片化されたまたは損傷したDNAは、追加の断片化の必要なしに処理され得る。例えば、ホルマリン固定されたパラフィン包埋(FFPE)DNAまたは特定のcfDNAは時として、追加の断片化工程が必要ないほどに十分に断片化されている。
【0098】
図1Bは、
図1Aのワークフロー100の最初の工程で利用されるDNA断片/分子およびアダプターを示す。ただ1つの二本鎖断片が
図1Bにおいて図示されているが、数千~数百万のサンプル断片をワークフローにおいて同時に調製することができる。物理的方法によるDNA断片化は、3'オーバーハング、5'オーバーハング、および平滑末端の混合物を含む、不均一末端を生成する。オーバーハングの長さは様々であり、末端はリン酸化されていてもされていなくてもよい。操作102のゲノムDNAの断片化から得られる二本鎖DNA断片の一例を、
図1Bに断片123として示している。
【0099】
断片123は、左端の3'オーバーハングと右端に示されている5'オーバーハングの両方を有し、かつ、いくつかの実施態様において仮想UMIとして使用され得る断片中の2つの配列を示すρおよびφの印が付けられているが、これは、単独でまたは断片にライゲーションしようとするアダプターの物理UMIと組み合わせて使用されたとき、断片を一意に特定し得る。UMIは、ソースポリヌクレオチドとその相補鎖を含むサンプル中の単一DNA断片と一意に関連する。物理UMIは、ソースポリヌクレオチド、その相補鎖、またはソースポリヌクレオチドに由来するポリヌクレオチドに連結される、オリゴヌクレオチドの配列である。仮想UMIは、ソースポリヌクレオチド内、その相補鎖内、またはソースポリヌクレオチドに由来するポリヌクレオチド内の、オリゴヌクレオチドの配列である。このスキーム内で、物理UMIを外的UMIまたは外因性UMIと、仮想UMIを内的UMIまたは内因性UMIと呼ぶ場合もある。
【0100】
2つの配列ρおよびφは、実際には、各々、同じゲノム部位の2つの相補的配列を指すが、簡略化するため、これらは、本明細書に示されている二本鎖断片のいくつかのただ1つの鎖で示される。ρおよびφなどの仮想UMIをワークフローの後の工程で使用して、単一DNAソース断片の一方の鎖または両方の鎖から生じるリードを特定するのを助けることができる。そのように特定されたリードを用いて、当該リードを折りたたんでコンセンサス配列を得ることができる。
【0101】
DNA断片が物理的方法によって生成される場合、ワークフロー100は進行して、5'-リン酸化末端を有する平滑末端断片を生成するエンドリペア操作104を行う。いくつかの実施態様において、この工程は、断片化から生じたオーバーハングを、T4 DNAポリメラーゼおよびクレノウ酵素を使用して平滑末端に変換する。これらの酵素の3'から5'のエキソヌクレアーゼ活性は3'オーバーハングを取り除き、5'から3'のポリメラーゼ活性は5'オーバーハングを埋める。加えて、この反応におけるT4ポリヌクレオチドキナーゼが、DNA断片の5'末端をリン酸化する。
図1Bにおける断片125は、エンドリペアされた平滑末端産物の一例である。
【0102】
エンドリペア後、ワークフロー100は、断片の3'末端をアデニル化する操作106に進むが、これは、単一dATPを平滑断片の3'末端に付加してアダプターライゲーション反応中にこれらが互いにライゲーションするのを防ぐことから、A-テーリングまたはdA-テーリングとも称される。
図1Bの二本鎖分子127は、3'-dAオーバーハングおよび5'-リン酸末端を伴う平滑末端を有するA-テール化断片を示す。
図1Bの項目129に見られるような2つのシーケンシングアダプターの各々の3'末端上の単一「T」ヌクレオチドは、2つのアダプターをインサートにライゲーションするための、インサートの各末端上の3'-dAオーバーハングに相補的なオーバーハングを提供する。
【0103】
3'末端をアデニル化した後、ワークフロー100は、断片の両端に二本鎖アダプターを部分的にライゲーションする操作108に進む。いくつかの実施態様において、反応に使用されるアダプターは、配列リードを単一のソースポリヌクレオチドに関連付ける異なる物理UMIを含み、これは一本鎖DNA断片であっても二本鎖DNA断片であってもよい。いくつかの実施態様において、反応に使用される物理UMIのセットは、ランダムUMIである。いくつかの実施態様において、反応に使用される物理UMIのセットは、非ランダムUMI(NRUMI)である。いくつかの実施態様において、反応に使用される物理UMIのセットは、可変長の非ランダムUMI(vNRUMI)である。
【0104】
図1Bの項目129は、断片の末端近くに2つの仮想UMIρおよびφを含む二本鎖断片にライゲーションしようとする、2つのアダプターを図示している。様々な実施態様が、リードを得て関心対象の配列を検出するためにIllumina社のNGSプラットフォームを使用し得るので、これらのアダプターは、Illuminaプラットフォームのシーケンシングアダプターに基づいて示されている。左に示されているアダプターは、その二本鎖領域に物理UMIαを含む一方、右のアダプターは、その二本鎖領域に物理UMIβを含む。5'変性末端を有する鎖において、5'から3'の方向で、アダプターは、P5配列、インデックス配列、リード2プライマー配列、および物理UMI(αまたはβ)を有する。3'変性末端を有する鎖において、3'から5'の方向で、アダプターは、P7'配列、インデックス配列、リード1プライマー配列、および物理UMI(αまたはβ)を有する。
【0105】
P5オリゴヌクレオチドおよびP7'オリゴヌクレオチドは、Illumina社のシーケンシングプラットフォームのフローセルの表面に結合した増幅プライマーに相補的である。いくつかの実施態様において、インデックス配列は、サンプルのソースを追跡する手段を提供し、それによって、シーケンシングプラットフォームにおいて多数のサンプルの多重化が可能になる。他の設計のアダプターおよびシーケンシングプラットフォームを様々な実施態様において使用してもよい。アダプターおよびシーケンシング技術については、以下のセクションでさらに記載する。
【0106】
図1Bに図示されている反応は、別個の配列をゲノム断片に加える。上記の同じ断片に由来するライゲーション産物120が
図1Bに図示されている。このライゲーション産物120は、その上部鎖において、5'-3'方向で、物理UMIα、仮想UMIρ、仮想UMIφ、および物理UMIβを有する。ライゲーション産物はまた、その下部鎖において、5'-3'方向で、物理UMIβ、仮想UMIφ、仮想UMIρ、および物理UMIαを有する。本開示は、Illumina社によって提供されるもの以外のシーケンシング技術およびアダプターを使用した方法を具現化する。
【0107】
ここの例となるアダプターは、アダプターの二本鎖領域上に物理UMIを有するが、いくつかの実施態様は、
図2Aのアダプター(i)および(iv)などの一本鎖領域上に物理UMIを有するアダプターを使用する。
【0108】
いくつかの実施態様において、このライゲーション反応の産物は、アガロースゲル電気泳動または磁性ビーズによって精製および/またはサイズ選択される。サイズ選択されたDNAは、次いで、PCR増幅されて、両端上にアダプターを有する断片が濃縮される。ブロック110を参照されたい。上に述べたように、いくつかの実施態様において、DNA断片の特定の領域にハイブリダイズしてそれを濃縮する操作を適用して、シーケンシングのための領域を標的にしてもよい。
【0109】
次に、ワークフロー100は進行して、PCR産物を、例えばIllumina社のプラットフォーム上で、クラスタ増幅させる。操作112を参照されたい。PCR産物のクラスタ化によって、種々のサンプルを追跡するためにアダプター上の種々のインデックス配列を使用して、ライブラリーをプールして(例えば、1レーン当たり最大12サンプルで)多重化することができる。
【0110】
クラスタ増幅後、Illumina社のプラットフォーム上でのシーケンシング・バイ・シンセシスによって、シーケンシングリードを得ることができる。操作114を参照されたい。本明細書に記載のアダプターおよびシーケンシングプロセスは、Illumina社のプラットフォームに基づいているが、他のシーケンシング技術、とりわけNGS方法を、Illumina社のプラットフォームの代わりにまたはそれに加えて使用してもよい。
【0111】
ワークフロー100は、同じ物理UMIおよび/または同じ仮想UMIを有するリードを折りたたんで1つまたは複数のグループにし、それによって、1つまたは複数のコンセンサス配列を得ることができる。操作116を参照されたい。いくつかの実施態様において、物理UMIは、ランダムUMIである。いくつかの実施態様において、物理UMIは、非ランダムUMIである。いくつかの実施態様において、物理UMIは、可変長のランダムUMIである。いくつかの実施態様において、物理UMIは、可変長の非ランダムUMI(vNRUMI)である。コンセンサス配列は、折りたたまれたグループ中のリード全域でコンセンサス基準に一致するかまたはそれを満たすヌクレオチド塩基を含む。いくつかの実施態様において、物理UMIは単独で、DNA断片をタグ化してリードを折りたたむのに十分な情報を提供し得る。そのような実施態様は、DNA断片を一意にタグ化するのに十分な多数の物理UMIを必要とするだろう。他の実施態様において、物理UMI、仮想UMI、および位置情報を様々な方法で組み合わせて、リードを折りたたんで、断片の配列または少なくともその一部を決定するためのコンセンサス配列を得てもよい。いくつかの実施態様では、物理UMIを仮想UMIと組み合わせて、リードを折りたたむ。他の実施態様では、物理UMIおよびリード位置を組み合わせて、リードを折りたたむ。リード位置情報を、種々の位置測定値(例えば、リードのゲノム座標、参照配列上の位置、または染色体の位置)を使用した様々な技法によって得てもよい。さらなる実施態様では、物理UMI、仮想UMI、およびリード位置を組み合わせて、リードを折りたたむ。
【0112】
最後に、ワークフロー100は、1つまたは複数のコンセンサス配列を使用して、サンプル由来の核酸断片の配列を決定する。操作118を参照されたい。これは、核酸断片の配列を第三のコンセンサス配列または上記の単一コンセンサス配列として決定する工程を伴い得る。
【0113】
操作108~119に類似する操作を含む特定の実施態様では、非ランダムUMIを使用してサンプル由来の核酸分子をシーケンシングするための方法は、(a)サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターがNRUMIを含み、かつ、アダプターのNRUMIが少なくとも2つの異なる分子長を有してvNRUMIのセットを形成する、工程;(b)DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;(c)複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vNRUMIのセットに関連する複数のリードを得る工程;(d)複数のリードの中で、同じvNRUMIに関連するリードを特定する工程;および(e)同じvNRUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程を伴う。
【0114】
別の実施態様では、核酸分子をシーケンシングするために可変長のランダムUMIが使用される。当該方法は、(a)サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、ユニーク分子インデックス(UMI)を含み、かつ、アダプターのユニーク分子インデックス(UMI)が、少なくとも2つの異なる分子長を有し、可変長のユニーク分子インデックス(vUMI)のセットを形成する、工程;(b)DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;(c)複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vUMIのセットに関連する複数のリードを得る工程;および(d)複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vUMI)に関連するリードを特定する工程を含む。いくつかの実施態様は、同じvUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程をさらに含む。
【0115】
いくつかの実施態様において、核酸断片をシーケンシングするために使用されるUMIは、固定長のランダムUMI、固定長の非ランダムUMI、可変長のランダムUMI、可変長の非ランダムUMI、またはそれらの任意の組み合わせであり得る。これらの実施態様において、核酸断片をシーケンシングするための方法は、(a)サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが、ユニーク分子インデックス(UMI)のセット中のユニーク分子インデックス(UMI)を含む、工程;(b)DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;(c)複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、UMIのセットに関連する複数のリードを得る工程;(d)複数のリードの各リードについて、UMIのセットに関するアライメントスコアを得る工程であって、各アライメントスコアがリードの部分配列とUMIとの間の類似度を示す、工程;(e)アライメントスコアを使用して、複数のリードの中で、同じUMIに関連するリードを特定する工程;および(e)同じUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程を含む。いくつかの実施態様において、アライメントスコアは、リードの部分配列とUMIとの間のヌクレオチドのマッチおよびヌクレオチドの編集に基づく。いくつかの実施態様において、各アライメントスコアは、配列の始点でのミスマッチにはペナルティーを科すが、配列の終点でのミスマッチにはペナルティーを科さない。
【0116】
いくつかの実施態様において、配列リードは、ペアエンドリードである。各リードは、非ランダムUMIを含むか、ペアエンドリードを介して非ランダムUMIに関連するかのいずれかである。いくつかの実施態様において、リード長は、DNA断片よりも短いか、または、断片長の半分よりも短い。そのような場合、全断片の完全配列は、場合によっては決定されない。むしろ、断片の2つの末端が決定される。例えば、DNA断片は、500bp長であってよく、それから2つの100bpペアエンドリードを導くことができる。この例では、断片の各末端の100塩基を決定することができ、断片の中央の300bpは他のリードの情報を使用することなしには決定され得ない。いくつかの実施態様において、2つのペアエンドリードが重なるほど十分に長い場合、2つのリードから全断片の完全配列が決定され得る。例えば、
図5に関連して記載される例を参照されたい。
【0117】
いくつかの実施態様において、アダプターは、アダプターの二本鎖領域に二重非ランダムUMIを有し、かつ、各リードは、一方の末端上に第一の非ランダムUMI、他方の末端上に第二の非ランダムUMIを含む。
【0118】
vNRUMIを使用して核酸断片をシーケンシングするための方法
いくつかの実施態様において、DNA断片をシーケンシングするためのアダプターにvNRUMIが組み込まれる。vNRUMIは、上記したものなどのワークフローにおいて起こる異なるタイプのエラーを抑制するためのメカニズムを提供する。エラーのいくつかは、サンプル処理段階において起こり得る(例えば、サンプル処理における欠失、付加、および置換)。他のエラーは、シーケンシング段階において起こり得る。いくつかのエラーは、DNA断片に由来する塩基に位置し得るが、他のエラーは、アダプター中のUMIに対応する塩基に位置し得る。
【0119】
いくつかの実施態様は、vNRUMI中および配列リード中のエラーを検出および補正するための新規プロセスを提供する。高レベルでは、(潜在的にミスリードされた)vNRUMIおよびその下流塩基を含有するリードを考慮して、プロセスは、グローバル-ローカル(グローカル)ハイブリッドアライメント戦略を使用し、リードの最初の数塩基を既知のvNRUMIにマッチさせ、それによって、リードのプレフィックス配列と既知のvNRUMIとの間のアライメントスコアを得る。最も高いグローカルアライメントスコアを有するvNRUMIが、リードに関連するvNRUMIであると決定され、これは、リードを他の同じvNRUMIに関連するリードと折りたたみ、それによってエラーを補正するメカニズムを提供する。いくつかの実施態様におけるグローカルアライメントスコアの取得およびグローカルアライメントスコアを使用したvNRUMIのマッチングのための擬似コードが、以下の通り提供される。
【0120】
【0121】
非従来型の距離測定基準を利用することは、注目に値する。DNAバーコードに関する他の同等な方法論では、ほとんどが編集距離を定量するヒューリスティクス、すなわちレーベンシュタイン距離、ハミング距離、またはそれらの派生物を採用する。概念上、アライメントスコアは、配列類似度に似た測定基準を提供するが、1つの重要な違いがある:それは、変化に加えてマッチをカウントする。マッチ認識ヒューリスティクスは、可変長NRUMIのいくつかの実施態様における利点のいくつかの基礎となる。
【0122】
いくつかの実施態様では、従来のNeedleman-Wunschグローバルアライメントも従来のSmith-Watermanローカルアライメント法も使用されず、新規ハイブリッドアプローチが使用される。すなわち、アライメントは、アライメントの開始点においてNeedleman-Wunschアプローチを使用し、そこでの編集にはペナルティーを科すが、アライメントの終点においてSmith Watermanローカルアライメントの概念を活用し、最終編集にはペナルティーを科さない。この意味で、最新のアライメントアプローチは、グローバルコンポーネントおよびローカルコンポーネントの両方を包含し、それ故、グローカルアライメントアプローチと称される。シーケンシング中の挿入または欠失ミスの事象では、アライメントは大幅にシフトするであろう。単一点変異にペナルティーを科さないのと同じく、このグローバルアプローチはその単一事象にペナルティーを科さない。ギャップを追跡することが可能であれば、これを達成することが可能になる。
【0123】
グローカルアライメントアプローチは、不均一長のバーコードプールと共に働く能力を有し、これは従来の方法論とは区別される特徴である。
【0124】
マッチを特定する際に、いくつかの実施態様は、同順位の場合は複数のvNRUMIマッチを「最良」として回答(return)することができる。上の擬似コードは最良と回答されたセットおよび二番目に良いと回答されたセットを反映するだけであるが、いくつかの実施態様は、二番目に良いセット、三番目に良いセット、四番目に良いセットなどの2つだけではなくそれ以上のvNRUMIのセットを回答する能力を有する。良好なマッチのより多くの情報を提供することにより、プロセスは、vNRUMIの1つまたは複数の候補マッチに関連するリードを折りたたむことによって、より良くエラーを補正し得る。
図1Cは、DNA断片に起こるエラー、およびDNA断片のソース分子を標識するために使用されるUMIにおけるエラーを、vNRUMIを使用して抑制する、DNA断片をシーケンシングするためのプロセスを示すブロックダイヤグラムである。プロセス130は、サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程から始まる。ブロック131を参照されたい。アダプターのうちの各アダプターは、非ランダムユニーク分子インデックスを有する。アダプターの非ランダムユニーク分子インデックスは、少なくとも2つの異なる分子長を有し、可変長の非ランダム分子インデックス(vNRUMI)のセットを形成する。
【0125】
いくつかの実施態様において、アダプターは、DNA断片の各末端に結合されるか、ライゲーションされるか、挿入されるか、組み込まれるか、またはそれ以外の方法で連結される。いくつかの実施態様において、DNA断片を含有するサンプルは、血液サンプルである。いくつかの実施態様において、DNA断片は、セルフリーDNA断片を含有する。いくつかの実施態様において、DNA断片は、腫瘍から生じるセルフリーDNAを含み、そして、サンプル中のDNA断片の配列は、腫瘍の指標となる。
【0126】
プロセス130は、DNA-アダプター産物を増幅して複数の増幅されたポリヌクレオチドを得る工程に進む。ブロック132を参照されたい。プロセス130は、複数の増幅されたポリヌクレオチドをシーケンシングし、それによって、vNRUMIのセットに関連する複数のリードを得る工程をさらに伴う。ブロック133を参照されたい。さらに、プロセス130は、複数のリードの中から、同じvNRUMIに関連するリードを特定する工程を伴う。ブロック134を参照されたい。最後に、プロセス130は、同じvNRUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程を含む。
【0127】
上に述べたように、
図1Cに図示されているプロセス130は、vNRUMIを使用してDNA断片をシーケンシングするための方法を提供する。プロセス130は、サンプルのDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程(ブロック131)から始まる。プロセス130はまた、DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程(ブロック132);複数の増幅されたポリヌクレオチドをシーケンシングして、それによってvNRUMIのセットに関連する複数のリードを得る工程(ブロック133);同じvNRUMIに関連するリードを特定する工程(ブロック134);および同じvNRUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程(ブロック135)を伴う。サンプルは、血液サンプル、血漿サンプル、組織サンプル、または、本明細書の他の箇所に記載の通りのサンプルのうちの1つであり得る。いくつかの実施態様において、工程131において付加されるアダプターを、
図1Dに図示されているプロセス140などのプロセスから得ることができる。
【0128】
いくつかの実施態様において、アダプターのvNRUMIは、少なくとも2つの異なる分子長を有する。いくつかの実施態様において、vNRUMIのセットは、2種の異なる分子長を有する。いくつかの実施態様において、vNRUMIは、6または7ヌクレオチドを有する。いくつかの実施態様において、vNRUMIは、2種よりも多い異なる分子長を有し、例えば、3、4、5、6、7、8、9、10、20、またはより多くの異なる分子長を有する。いくつかの実施態様において、分子長は、4~100の範囲から選択される。いくつかの実施態様において、分子長は、4~20の範囲から選択される。いくつかの実施態様において、分子長は、5~15の範囲から選択される。
【0129】
いくつかの実施態様において、vNRUMIのセットは、約10,000種以下の異なるvNRUMIを含む。いくつかの実施態様において、vNRUMIのセットは、約1000種以下の異なるvNRUMIを含む。いくつかの実施態様において、vNRUMIのセットは、約200種以下の異なるvNRUMIを含む。
【0130】
いくつかの実施態様において、同じvNRUMIに関連するリードを特定する工程134は、複数のリードの各リードについて、vNRUMIに関するアライメントスコアを得る工程を伴う。各アライメントスコアは、リードの部分配列とvNRUMIとの間の類似度を示す。当該部分配列は、vNRUMIに由来するヌクレオチドが位置する可能性が高いリード領域内にある。言い換えれば、いくつかの実施態様において、部分配列は、vNRUMIが位置すると予想される領域に第一のヌクレオチドを含む。いくつかの実施態様において、部分配列のサイズは、vNRUMIのセットの中で最も大きなvNRUMIのサイズと等しい。
【0131】
いくつかの実施態様において、アライメントスコアは、リードの部分配列とvNRUMIとの間のヌクレオチドのマッチおよびミスマッチ/編集に基づく。いくつかの実施態様において、ヌクレオチドの編集は、ヌクレオチドの置換、付加、および欠失を含む。いくつかの実施態様において、アライメントスコアは、配列(例えば、リードの部分配列またはvNRUMIの参照配列)の始点での編集にはペナルティーを科すが、当該配列の終点での編集にはペナルティーを科さない。アライメントスコアは、リードの部分配列とvNRUMI参照配列との間の類似度を反映する。
【0132】
いくつかの実施態様において、リードとvNRUMIとの間のアライメントスコアを得る工程は、(a)vNRUMIとリードの部分配列の全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;(b)リードの部分配列とvNRUMIの全ての可能なプレフィックス配列の各々との間のアライメントスコアを算出すること;ならびに(c)(a)および(b)において算出されたアライメントスコアの中で最も大きなアライメントスコアを、リードとvNRUMIとの間のアライメントスコアとして得ることを伴う。
【0133】
いくつかの実施態様において、リードの部分配列の長さは、vNRUMIのセットの中で最も長いvNRUMIの長さと等しい。
【0134】
いくつかの実施態様において、同じvNRUMIに関連するリードを特定する工程は、複数のリードの各リードについて、アライメントスコアに基づいてvNRUMIのセットから少なくとも1つのvNRUMIを選択すること;および複数のリードの各リードを、リードについて選択された少なくとも1つのvNRUMIと関連付けることを含む。いくつかの実施態様において、vNRUMIのセットから少なくとも1つのvNRUMIを選択する工程は、vNRUMIのセットの中で最も高いアライメントスコアを有するvNRUMIを選択することを含む。
【0135】
いくつかの実施態様において、最も高いアライメントスコアについて、1つのvNRUMIが特定される。いくつかの実施態様において、最も高いアライメントスコアについて、2つ以上のvNRUMIが特定される。そのような場合、リードに関する状況情報を使用して、リードに関連すべき2つ以上のvNRUMIのうちの1つを選択し、DNA断片中の配列を決定してよい。例えば、1つのvNRUMIについて特定されたリードの総数を別のvNRUMIについて特定されたリードの総数と比較することができ、より高い総数が、DNA断片のソースを示すために使用されるべき1つのvNRUMIを決定する。別の例では、リードの配列情報または参照配列上のリードの位置を使用して、リードに関連する特定されたvNRUMIのうちの1つを選択してよく、選択されたvNRUMIが、配列リードのソースを決定するために使用される。
【0136】
いくつかの実施態様において、最も高いアライメントスコアのうちの2つ以上を使用して、潜在的な任意の断片のソースを示す2つ以上のvNRUMIを特定してよい。状況情報を上に述べた通りに使用して、vNRUMIのどれがDNA断片の実際のソースを示すかを決定してよい。
【0137】
図1Eは、リードの部分配列またはクエリー配列(Q)をvNRUMIセット
中の2つの参照配列と比較することができる方法の例を示す。クエリー配列Qはリード配列の最初の7ヌクレオチドを含み、リードはvNRUMIに由来すると予想されている。
【0138】
クエリー配列Qは、7ヌクレオチドGTCTTCGを含む。Qは、vNRUMIセットγの中で最も長いvNRUMIと同じ長さを有する。アライメントスコア表150は、QおよびS1のプレフィックス配列についてのアライメントスコアを示す。例えば、セル151は、Qのプレフィックス配列(GTCTTC)およびS1の完全配列(AACTTC)についてのアライメントスコアを示す。アライメントスコアは、2つの配列間のマッチの数も2つの配列間の編集の数も考慮する。マッチするヌクレオチドそれぞれについて、スコアは1だけ上がる;欠失、付加、または置換それぞれについて、スコアは1だけ下がる。対照的に、レーベンシュタイン距離は、付加、欠失、および置換の数だけを考慮し、2つの配列間のマッチの数を考慮しない編集距離である。
【0139】
Qのプレフィックス配列(GTCTTC)およびS1(AACTTC)を、ヌクレオチドごとに比較すると、GとAとの間にミスマッチが、ミTとAとの間にスマッチが、CとCとの間にマッチが、TとTとの間にマッチが、TとTとの間にマッチが、CとCとの間にマッチがある。それ故、セル151に示されている通り、2つのプレフィックス配列についてのアライメントスコアは2である。アライメントスコアは、ヌクレオチドGを有する配列Qの末端にペナルティーを科さない。
【0140】
アライメントスコア表150において、太字のアライメントスコアが付された右端列は、クエリー配列Qの全ての可能な部分配列と参照vNRUMI配列S1の全ての可能なプレフィックス配列との間のアライメントスコアを示す。アライメントスコア表150の最終行は、完全配列S1とQの全ての可能なプレフィックス配列との間のアライメントスコアを示す。様々な実施態様において、右端列および最終行における最も高いアライメントスコアは、QとS1との間のグローカルアライメントスコアとして選択される。この例では、セル151は、QとS1との間のグローカルアライメントスコア、またはg(Q,S1)として決定される最も高い値を有する。
【0141】
最終行および右端列における最も高いアライメントスコアは、2つの配列の間のグローカルアライメントスコアとして使用される。ここで例示されているアライメントスコアでは、異なる文字列操作に等しい重みが付けられている。アライメントスコアは、マッチの数-挿入の数-欠失の数-置換の数=マッチ数-レーベンシュタイン距離として算出されている。しかし、上で述べたように、いくつかの実施態様では、アライメントスコアの算出において、異なる文字列操作には異なる重みが付けられてもよい。例えば、いくつかの実施態様では(
図1Eには示されていないが)、アライメントスコアは、マッチの数×5-挿入の数×4-欠失の数×4-置換の数×6として、または他の重み値を使用して算出されてもよい。
【0142】
上記の実施態様では、アライメントスコアは、マッチおよび編集の効果を線形に、すなわち加算および/または減算によって組み合わせている。他の実施態様では、アライメントスコアは、マッチおよび編集の効果を非線形に、例えば乗算または対数操作によって組み合わせることができる。
【0143】
右端列および最終行におけるアライメントスコアは、一方のプレフィックス配列と他方の完全配列との間の類似度を示す。プレフィックス配列の始点が完全配列の始点とマッチしないとき、アライメントスコアにペナルティーが科される。この意味で、アライメントスコアは、グローバルコンポーネントを有する。その一方で、プレフィックス配列の終点が完全配列の終点とマッチしないとき、配列アライメントスコアにペナルティーは科されない。この意味で、アライメントスコアは、ローカルコンポーネントを有する。それ故、右端列および最終行におけるアライメントスコアを「グローカル」アライメントスコアと記載することができる。QとS1との間のグローカルアライメントスコアは、右端列および最終行における最も大きなアライメントスコアであり、Qプレフィックス配列GTCTTCおよびS1(AACTTC)の場合は、セル151における2である。
【0144】
GとAの間にミスマッチが、TとAの間にミスマッチが、CTTCについて4つのマッチがあるので、Qプレフィックス配列GTCTTCとS1(AACTTC)との間のレーベンシュタイン距離も2である。これらの2つの配列について、レーベンシュタイン距離およびアライメントスコアは同じである。
【0145】
グローカルアライメントスコアと比較して、純粋なグローバルアライメントスコアは、一方で完全配列Qを、他方で完全配列S1を必要とし、それは、表150の右下隅におけるアライメントスコアである。
【0146】
図1Eにおける表152は、クエリー配列Qおよび参照配列S2(CGCTTCG)についてのアライメントスコアを示す。右端列および最終行における最も高いアライメントスコアは、セル153における値4を有している。それは、QとS2との間のグローカルアライメントスコア、またはg(Q,S2)である。両比較において2つの配列の間に2つのミスマッチがあるので、QとS2との間のレーベンシュタイン距離は、QとS1との間のレーベンシュタイン距離と同一である。しかし、QとS2との間でマッチするヌクレオチドはQとS1との間よりも多いので、g(Q,S2)はg(Q,S1)よりも大きい。すなわち、グローカルアライメントスコアは、ヌクレオチドの編集だけ(レーベンシュタイン距離がそうであるように)でなく、配列間のヌクレオチドのマッチも考慮する。
【0147】
図1Eは、レーベンシュタイン距離は配列における編集の数だけを考慮するが、グローカルアライメントスコアは配列間の編集の数とマッチの数の両方を考慮するので、グローカルアライメントスコアは、レーベンシュタイン距離または編集距離よりも良好なエラー補正を提供することができることを図示している。
図1Fは、グローカルアライメントスコアは、配列の終点における挿入、欠失、または置換に起因するミスマッチに過剰なペナルティーを科すことがないので、グローカルアライメントスコアは、グローバルアライメントスコアよりも良好なエラー抑制を提供することができることを示す例を提供する。
【0148】
図1Fにおける例は、vNRUMI配列の異なるセット
を使用する。サンプル処理プロセスにおいて、S1を使用してDNA分子を標識する。この分子の配列は
である。シーケンシングの間、単一の挿入エラーが起こり、m
0に配列GCAが挿入されて、
が生じる。このエラーを補正して、この配列の適切なUMIを回復させるために、プロセスは、最初の7つの塩基対をクエリー配列Q=TTGGCATと捉える。プロセスは、Qをγ中の各配列と比較する。
【0149】
g(Q,S1)についてのアライメントスコア表160が得られ、
図1Fに示されている。同様に、g(Q,S2)についてのアライメントスコア表163が得られる。
【0150】
グローカルアライメントスコアの代わりにグローバルアライメントスキームが使用される場合、セル161および164における右下隅のスコアが使用され、それは両方の場合に値2を有する。Q(TTGGCAT)およびS1(TTGTGAC)の最適アライメントは、TTG-GCATとTTGTG-ACとをアラインすることによるものであり、ここで、ダッシュ記号は、挿入またはギャップを表す。このアライメントは、5つのマッチ、2つの挿入、および1つの置換を伴い、アライメントスコア5-2-1=2を提供する。Q(TTGGCAT)およびS2(GGCCAT)の最適アライメントは、TTGGC-ATと-GGCCATとをアラインすることによるものである。このアライメントは、5つのマッチおよび3つの挿入を伴い、アライメントスコア5-3=2を提供する。グローバルアライメントスコアを使用して、S1およびS2のどちらが実際のvNRUMIである可能性がより高いかを最終判断することはできない。
【0151】
しかし、最終行および最終列における最大値を使用するグローカルアライメントスキームを使用することによって、プロセスは、Qのプレフィックス配列TTGGCおよびS1(TTGTGAC)についてのアライメントスコア3を得て、これがS1のグローカルスコアとなり、S2についてのグローカルスコア(2)よりも高い。よって、プロセスは、QをS1と正確に関連付けることができる。
【0152】
図1Cに戻ると、工程135は、同じvNRUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程を伴う。いくつかの実施態様において、DNA断片の配列を決定する工程は、同じvNRUMIに関連するリードを折りたたんで、コンセンサス配列を得る工程を伴い、これは本明細書において以下でさらに記載する通りに達成することができる。いくつかの実施態様において、コンセンサス配列は、リードの配列だけでなく、リードの品質スコアにも基づく。追加的にまたは代替的に、リードの位置などの他の状況情報を使用して、コンセンサス配列を決定してもよい。
【0153】
いくつかの実施態様では、DNA断片の配列を決定する工程は、参照配列における同じ位置または類似の位置を有するリードを特定することも伴う。次いで、当該方法は、同じvNRUMIに関連し、かつ参照配列における同じ位置または類似の位置を有するリードを使用して、DNA断片の配列を決定する。
【0154】
いくつかの実施態様では、DNA断片の配列を決定する工程は、同じvNRUMIに関連するリードの中で、共通の仮想UMIまたは類似の仮想UMIを共有するリードを特定することであって、共通の仮想UMIがDNA断片に見出される、ことを伴う。当該方法はまた、同じvNRUMIに関連し、かつ同じ仮想UMIまたは細胞仮想UMIを共有するリードだけを使用して、DNA断片の配列を決定することを伴う。
【0155】
いくつかの実施態様において、vNRUMIを有するシーケンシングアダプターを、
図1Dに図示されておりかつ本明細書において以下でさらに記載されているプロセスによって調製することができる。
【0156】
UMIの設計
物理UMI
上記のアダプターのいくつかの実施態様において、アダプター中の物理UMIは、ランダムUMIを含む。いくつかの実施態様において、各ランダムUMIは、DNA断片に付加される他のランダムUMIのどれとも異なる。言い換えれば、ランダムUMIは、配列長が与えられた全ての可能な異なるUMIを含むUMIのセットから交換なしでランダムに選択される。他の実施態様では、ランダムUMIは、交換ありでランダムに選択される。これらの実施態様において、2つのアダプターは、偶然に起因して同じUMIを有し得る。
【0157】
いくつかの実施態様において、プロセスにおいて使用される物理UMIは、本明細書において以下でさらに記載する通り、選択されたUMIの間の相違を最大化するグリーディアプローチを使用して候補配列のプールから選択されるNRUMIのセットである。いくつかの実施態様において、NRUMIは、可変または不均一の分子長を有し、vNRUMIのセットを形成する。いくつかの実施態様において、候補配列のプールは、反応またはプロセスで使用されるUMIのセットを選択するために提供される前に、特定の配列を除去するようにフィルタリングされる。
【0158】
ランダムUMIは、同じ配列長の非ランダムUMIよりも多数のユニークUMIを提供する。言い換えれば、ランダムUMIは、非ランダムUMIよりもユニークである可能性が高い。しかし、いくつかの実施態様では、非ランダムUMIは、製造するのがより容易であるかまたはより高い変換効率を有し得る。非ランダムUMIを配列位置および仮想UMIなどの他の情報と組み合わせる場合、非ランダムUMIは、DNA断片のソース分子にインデックスを付ける効率的なメカニズムを提供することができる。
【0159】
vNRUMIの構築
いくつかの実施態様において、vNRUMIを有するシーケンシングアダプターを、
図1Dに図示されているグリーディアプローチによって調製することができる。当該プロセスは、(a)2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供する工程;および(b)オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択する工程であって、サブセット中のオリゴヌクレオチド配列間の全ての編集距離が閾値を満たす、工程を伴う。オリゴヌクレオチド配列のサブセットは、vNRUMIのセットを形成する。当該方法は、(c)
図2Aに図示されている通りの二本鎖のハイブリダイズした領域、一本鎖の5'末端、一本鎖の3'末端、およびvNRUMIのセット中の少なくとも1つのvNRUMIを有する、複数のシーケンシングアダプターを合成する工程も伴う。
【0160】
図1Dは、vNRUMIを有するシーケンシングアダプターを製造するためのプロセス140を図示している。プロセス140は、少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセット(β)を提供する工程から始まる。ブロック141を参照されたい。
【0161】
様々な実施態様において、非ランダムUMIは、UMI配列内のエラーを検出するための手段、変換効率、アッセイ適合性、GC含量、ホモポリマー、および製造考慮事項を非限定的に含む様々な要因を考慮して調製される。
【0162】
いくつかの実施態様において、操作141の前に、vNRUMIのセットの特定の分子長が与えられた全ての可能なヌクレオチドの順列の完全セットから、オリゴヌクレオチド配列のいくつかが除去される。例えば、vNRUMIが6および7ヌクレオチドの分子長を有する場合、全ての可能な配列の順列は、46+47=20480配列の完全プールを含む。特定のオリゴヌクレオチド配列をプールから除去して、オリゴヌクレオチド配列のセットβを提供する。
【0163】
いくつかの実施態様では、3つ以上の連続する同一塩基を有するオリゴヌクレオチド配列をプールから除去して、セットβを提供する。いくつかの実施態様では、グアニン塩基とシトシン塩基(GとC)の合計数が2よりも少ないオリゴヌクレオチド配列が除去される。いくつかの実施態様では、グアニン塩基とシトシン塩基の合計数が4よりも多いオリゴヌクレオチド配列が除去される。いくつかの実施態様では、配列の最後の2つの位置に同じ塩基を有するオリゴヌクレオチド配列が除去される。当該配列は、DNA断片に結合する末端とは反対側の末端から開始する。
【0164】
いくつかの実施態様では、任意のシーケンシングプライマーの3'末端とマッチする部分配列を有するオリゴヌクレオチド配列が除去される。
【0165】
いくつかの実施態様では、ヌクレオチド配列の最後の位置にチミン(T)塩基を有するオリゴヌクレオチド配列が除去される。処理された核酸断片のA-テール末端に結合したvNRUMIは、vNRUMI配列およびvNRUMI配列の末端にアニーリングされたT塩基を有するリードの部分配列をもたらし、ここでTはA-テール上のA塩基の相補である。最後の位置にT塩基を有する候補配列を取り除くことは、そのような候補配列と任意のvNRUMIに由来するリードの部分配列との間の混乱を回避する。
【0166】
プロセス140は、βからオリゴヌクレオチド配列(S0)を選択する工程に進む。ブロック142を参照されたい。いくつかの実施態様において、S0は、オリゴヌクレオチド配列のセットからランダムに選択され得る。
【0167】
プロセス140は、オリゴヌクレオチド配列の拡大セットγにS0を加えてセットβからS0を除去する工程をさらに伴う。ブロック143を参照されたい。
【0168】
プロセス140は、βからオリゴヌクレオチド配列Siを選択する工程をさらに伴い、Siは、Siと、セットγにおける任意のオリゴヌクレオチド配列との間の最小編集距離である距離関数d(Si,γ)を最大化する。ブロック144を参照されたい。いくつかの実施態様において、編集距離は、レーベンシュタイン距離である。
【0169】
いくつかの実施態様において、配列がvNRUMIの最大長よりも短い場合、レーベンシュタイン距離または編集距離を算出するときに、配列の末端に1つまたは複数の塩基が追加される。いくつかの実施態様において、配列がvNRUMIの最大長よりも一塩基短い場合、配列の末端にチミン(T)塩基が加えられる。このT塩基が加えられると、本明細書の他の箇所に記載の通りのdA-テーリング処理を受けているDNA断片の末端のA塩基に相補的な、アダプターの末端におけるT塩基オーバーハングを反映する。いくつかの実施態様において、配列がvNRUMIの最大長よりも2塩基以上短い場合、配列の末端にT塩基が加えられ、次いで、当該T塩基の後に1つまたは複数のランダム塩基が加えられて、vNRUMIの最大長と等しい分子長を有する配列が生成される。言い換えれば、ランダム塩基の複数の異なる組み合わせをT塩基の後に追加して、可能な観察される配列の全てに及ぶ配列を生成することができる。例えば、vNRUMIが6および8の長さを有する場合、TA、TC、TG、およびTTを追加することによって、6merの4種の派生物を取得し得る。
【0170】
プロセス140は進行して、距離関数d(Si,γ)が閾値を満たすかを判定する。いくつかの実施態様において、閾値は、距離関数(例えば、延長されたレーベンシュタイン距離)が少なくとも3であることを必要とし得る。距離関数d(Si,γ)が閾値を満たす場合、プロセスは進行して、拡大セットγにSiを加えて、セットβからSiを除去する。判定145の分岐「はい」とブロック146を参照されたい。距離関数が閾値を満たさない場合、プロセス140は、拡大セットγにSiを加えず、プロセスは進行して、複数のシーケンシングアダプターを合成し、ここで、各シーケンシングアダプターは、拡大セットγにおいて少なくとも1つのvNRUMIを有する。ブロック148へ向かう判定145の分岐「いいえ」を参照されたい。
【0171】
工程146の後、プロセス140は、セットβからのさらなる配列を検討する必要があるかを判定する操作をさらに伴う。その必要がある場合、プロセスはブロック144に戻り、セットβから、距離関数を最大化するさらなるオリゴヌクレオチド配列を選択する。セットβからさらなる配列がさらに検討される必要があるかを判定するために様々な要因が検討され得る。例えば、いくつかの実施態様において、所望の数の配列が得られたとき、プロセスはもはや、配列セットデータからさらなる配列を検討する必要はない。
【0172】
さらなる配列を検討する必要はないと判定された場合、プロセス140は進行して複数のシーケンシングアダプターを合成し、ここで、各アダプターは、配列セットγにおいて少なくとも1つのvNRUMIを有する。操作148へ向かう操作147の分岐「いいえ」を参照されたい。いくつかの実施態様において、各シーケンシングアダプターは、シーケンシングアダプターの一方の鎖にvNRUMIを有する。いくつかの実施態様において、
図2Aに図示されている形態のうちのいずれかを有するシーケンシングアダプターが操作148において合成される。いくつかの実施態様において、各シーケンシングアダプターは、ただ1つのvNRUMIを有する。いくつかの実施態様において、各アダプターは、シーケンシングアダプターの各鎖にvNRUMIを有する。いくつかの実施態様において、各シーケンシングアダプターは、シーケンシングアダプターの二本鎖のハイブリダイズした領域中の各鎖にvNRUMIを有する。
【0173】
いくつかの実施態様において、プロセスは、以下の擬似コードによって実施することができる。
【0174】
次に、上記のプロセスおよびアルゴリズムに従ってどのようにvNRUMIを取得できるかを説明するための単純な例(toy example)を提示する。この単純な例は、5つの候補配列のプールからどのようにvNRUMIを生成できるかを示し、次にこれを使用して、観察される配列リードがマッピングされる。これは、本発明者等が実際に使用/遭遇したよりも大幅に小さい配列空間にわたる単純な例であるので、vNRUMIの特徴の全ての局面に対応できるわけではないことに留意されたい。
【0175】
この単純な例では、プロセスは、6merおよび7merのセットから開始して3つのvNRUMI配列のセットを構築することを目的とする(しかし、わずか2つのvNRUMI配列をもたらした)。簡略化のために、可能な6merおよび7merの全空間は以下の5つの配列からなると仮定する。
AACTTC
AACTTCA
AGCTTCG
CGCTTCG
CGCTTC
【0176】
これらの5つの配列全てが、実装される任意の生化学的フィルタを通過したと仮定することに留意されたい。このアルゴリズムは、非常に高いレベルで、選択された配列間の編集距離(レーベンシュタイン距離)を最大化しながら、インプット配列プールをサブセットに分ける。これを、各反復で距離関数を最大化する配列を選び出すグリーディアプローチを使用して行う。この場合、距離関数は、加えられる配列と、既にこのセットにある任意の配列との間の最小編集距離である。これは、以下の通り数学的に表すことができる。
d(s,γ)=min(レーベンシュタイン(s,x)∀x∈γ)
【0177】
以下の例では、構築されるvNRUMIセット(n=3)はγで示されており、インプット候補配列のセットはβで示されている。
【0178】
γに配列がないので、距離関数dは、5つの配列の各々について定められない。最良の選択について同順位の事象では、本発明者等は常に、より短い配列を優先して同順位の候補のうちの1つをランダムに選び出す。ここで、この例では、6mer配列AACTTCを選び出す。この配列がγに加えられ、候補配列のプールから除去される。
【0179】
距離測定基準d(s,γ)∀s∈βが算出される。
【0180】
d(AACTTCA,γ)=1、これは、γ中の単一要素からAACTTCAになるのに1つの編集(Aの付加)しか利用しないからであり、それ故に距離関数は1である。
【0181】
d(AGCTTCG,γ)=2、これは、この配列からγ中に既にある配列になるのに2つの編集を利用するからである。
【0182】
d(CGCTTCG,γ)=3、これは、この配列からγ中に既にある配列になるのに3つの編集を利用するからである。
【0183】
d(CGCTTC,γ)=2、比較する配列が6merであるので、いくつかの実施態様において、「T」塩基をその末端に加えて、「A」テールに相補的なT塩基がアダプター配列にアニーリングされるアニーリングプロセスを模倣する。その論理的根拠は、実践者がNRUMIを後で特定しようとするとき、最初の6merおよび最初の7merの両方を考慮するという点である。このT塩基を加えることによって、7merに注目すると、それでも任意の他のNRUMIに近づき過ぎということはないことが確かである。CGCTTCTとAACTTCとを比較すると、2つの編集が必要である。
【0184】
配列CGCTTCGによってもたらされる最大距離関数は3であり、この距離は最小閾値(3)をクリアするので、プロセスは、γにCGCTTCGを加え、それをβから除去する。
【0185】
次に、vNRUMIセットにおいて配列が所望の数(3)より少ないので、プロセスは進行して、距離測定基準d(s,γ)∀s∈βを算出する。
【0186】
d(AACTTCA,γ)=1。先の工程での算出の通り、この配列と第一のvNRUMI配列s1=AACTTCとの間の編集距離は1である。この配列と第二のvNRUMI配列s2=CGCTTCGとの間の編集距離は3である。距離関数は、クエリー配列と任意の存在する配列との間の全ての編集距離の最小値を利用し、min(3,1)=1であるので、距離関数は1である。
【0187】
d(AGCTTCG,γ)=1。先の工程での算出の通り、この配列とs1との間の編集距離は2である。この配列とs2との間の編集距離は1である。それ故、距離関数は、2および1のうちの小さい方(すなわち1)である。
【0188】
d(CGCTTC,γ)=1。先のように、プロセスは、この配列にTを追加してCGCTTCTにする。延長されたクエリーとs1との間の距離は、先の工程での算出の通り、2である。延長されたクエリーとs2との間の距離は1であり、したがって距離関数は1である。
【0189】
全ての候補配列について全ての距離関数を算出することで、これらのどれもが、編集距離は少なくとも3という本発明者等の不変要件を満たさない。この要件は、1つのvNRUMI配列が似ている別のものに変異するランダム変異の可能性を非常に低くする。それ故、本発明者等は、この2つのvNRUMI配列からなるセット
に戻す。2つのvNRUMI配列が、上記の
図1EにおけるS1およびS2と同じであること、そして、これらが、
図1Eに関して記載されている通り、リードに関連して、リードのソースセグメントを決定することもできることに留意されたい。
【0190】
仮想UMI
仮想UMIに目を向けると、ソースDNA分子の末端位置でまたはその末端位置に関して定められる仮想UMIは、末端位置の位置が一部の断片化手順および天然に存在するcfDNAのように概ねランダムである場合、個々のソースDNA分子を一意またはほぼ一意に定めることができる。サンプルが比較的少ないソースDNA分子を含有する場合、仮想UMIはそれ自体で個々のソースDNA分子を一意に特定することができる。各々ソースDNA分子の異なる末端に関連する2つの仮想UMIの組み合わせを使用することで、仮想UMIのみでソースDNA分子を一意に特定することができる可能性が高まる。当然ながら、1つまたは2つの仮想UMIのみではソースDNA分子を一意に特定することができない場合であっても、そのような仮想UMIと1つまたは複数の物理UMIとの組み合わせは成功し得る。
【0191】
2つのリードが同じDNA断片に由来する場合、同じ塩基対を有する2つの部分配列はまた、リードにおいて同じ相対位置を有するであろう。対照的に、2つのリードが2つの異なるDNA断片に由来する場合、同じ塩基対を有する2つの部分配列が、リードにおいて厳密に同じ相対位置を有する可能性は低い。それ故、2つ以上のリード由来の2つ以上の部分配列が、同じ塩基対および2つ以上のリード上の同じ相対位置を有する場合、2つ以上のリードが同じ断片に由来すると推測することができる。
【0192】
いくつかの実施態様において、DNA断片の末端またはその近くの部分配列は、仮想UMIとして使用される。この設計選択は、いくつかの実用面での利点を有する。まず、リード上のこれらの部分配列の相対位置は、これらがリードの始点かまたはその近くにあり、システムが仮想UMIを見つけるのにオフセットを使用する必要がないことから、簡単に確認される。さらに、断片の末端の塩基対が最初にシーケンシングされるため、その塩基対は、リードが比較的短くても利用可能である。さらに、長いリードにおいて先に決定される塩基対は、後で決定される塩基対よりもシーケンシングエラー率が低い。しかしながら、他の実施態様において、リードの末端から離れて位置する部分配列を仮想UMIとして使用することができるが、リードが同じ断片から得られたと推測するには、そのリード上の相対位置を確認することを必要とし得る。
【0193】
リードにおける1つまたは複数の部分配列を仮想UMIとして使用し得る。いくつかの実施態様において、各々ソースDNA分子の異なる末端から追跡される2つの部分配列が、仮想UMIとして使用される。様々な実施態様において、仮想UMIは、約24塩基対もしくはより短い、約20塩基対もしくはより短い、約15塩基対もしくはより短い、約10塩基対もしくはより短い、約9塩基対もしくはより短い、約8塩基対もしくはより短い、約7塩基対もしくはより短い、または約6塩基対もしくはより短い。いくつかの実施態様において、仮想UMIは約6~10塩基対である。他の実施態様において、仮想UMIは約6~24塩基対である。
【0194】
アダプター
上の
図1Aに関してワークフロー例100に記載したアダプター設計に加えて、他のアダプター設計を、本明細書に開示の方法およびシステムの様々な実施態様において使用してもよい。
図2Aは、様々な実施態様において採用され得る、UMIを有する5つの異なるアダプター設計の概略図を示している。
【0195】
図2A(i)は、標準的なIllumina社のTruSeq(登録商標)デュアルインデックスアダプターを示す。アダプターは、部分的に二本鎖であり、2本の鎖に対応する2つのオリゴヌクレオチドがアニーリングすることによって形成される。その2本の鎖は、dsDNA断片がライゲーションしようとする末端で2つのオリゴヌクレオチドがアニーリングすることを可能にする、多数の相補的な塩基対(例えば、12~17bp)を有する。ペアエンドリードの両端でライゲーションしようとするdsDNA断片は、インサートとも称される。他の塩基対は2本の鎖において相補的ではなく、2つの柔軟なオーバーハングを有する分岐型のアダプターを生じる。
図2A(i)の例では、相補的塩基対は、リード2プライマー配列およびリード1プライマー配列の一部である。リード2プライマー配列の下流は、単一ヌクレオチド3'-Tオーバーハングであり、これはシーケンシングしようとするdsDNA断片の単一ヌクレオチド3'-Aオーバーハングに相補的なオーバーハングを提供し、これはその2つのオーバーハングのハイブリダイゼーションを容易にすることができる。リード1プライマー配列は、相補鎖の5'末端にあり、これにリン酸基が結合する。リン酸基は、リード1プライマー配列の5'末端がDNA断片の3'-Aオーバーハングにライゲーションするために必要である。アダプターは、柔軟な5'オーバーハングを有する鎖(上側の鎖)においては、5'から3'の方向に、P5配列、i5インデックス配列、およびリード2プライマー配列を有する。アダプターは、柔軟な3'オーバーハングを有する鎖においては、3'から5'の方向に、P7'配列、i7インデックス配列、およびリード1プライマー配列を有する。P5およびP7'オリゴヌクレオチドは、Illumina社のシーケンシングプラットフォームのフローセルの表面に結合した増幅プライマーに相補的である。いくつかの実施態様において、インデックス配列は、サンプルのソースを追跡する手段を提供し、それによって、シーケンシングプラットフォーム上で複数のサンプルの多重化が可能になる。
【0196】
図2A(ii)は、
図2A(i)に示されている標準的なデュアルインデックスアダプターのi7インデックスの代わりに単一の物理UMIを有するアダプターを示す。このアダプター設計は、
図1Bに関連して上記したワークフロー例に示されているものを示している。特定の態様において、物理UMIαおよびβは、二本鎖アダプターの5'アームのみにあるように設計され、各鎖にただ1つの物理UMIを有するライゲーション産物をもたらす。比較すると、アダプターの両鎖に物理UMIを組み込むと、各鎖に2つの物理UMIを有するライゲーション産物がもたらされ、物理UMIのシーケンシングにかかる時間とコストを倍加させる。しかしながら、本開示は、
図2A(iii)~2A(vi)に図示されているように、アダプターの両鎖において物理UMIを利用する方法を具現化し、これは、異なるリードを折りたたんでコンセンサス配列を得るのに利用され得る追加の情報を提供する。
【0197】
いくつかの実施態様では、アダプターにおける物理UMIには、ランダムUMIが含まれる。いくつかの実施態様では、アダプターにおける物理UMIには、非ランダムUMIが含まれる。
【0198】
図2A(iii)は、標準的なデュアルインデックスアダプターに2つの物理UMIが加えられたアダプターを示す。ここに示されている物理UMIは、ランダムUMIであっても非ランダムUMIであってもよい。第一の物理UMIはi7インデックス配列の上流にあり、第二の物理UMIはi5インデックス配列の上流にある。
図2A(iv)も、標準的なデュアルインデックスアダプターに2つの物理UMIが加えられたアダプターを示す。第一の物理UMIはi7インデックス配列の下流にあり、第二の物理UMIはi5インデックス配列の下流にある。同様に、2つの物理UMIは、ランダムUMIであっても非ランダムUMIであってもよい。
【0199】
2つのアームの一本鎖領域に2つの物理UMIを有するアダプター(例えば、2A(iii)および2A(iv)に示されているアダプター)は、2つの非相補的な物理UMIに関連する先験的または事後的情報が既知である場合、二本鎖DNA断片の2本の鎖を結びつけ得る。例えば、研究者は、UMI 1およびUMI 2の配列を
図2A(iv)に示されている設計の同じアダプターに統合する前に、それらの配列を知ることができる。この関連情報を使用して、UMI 1およびUMI 2を有するリードは、アダプターをライゲーションさせたDNA断片の2本の鎖に由来する、と推測し得る。それ故、同じ物理UMIを有するリードだけでなく、2つの非相補的な物理UMIのいずれかを有するリードも折りたたんでよい。興味深いことに、かつ、以下に考察するように、「UMIジャンピング」と称される現象は、アダプターの一本鎖領域上の物理UMI間の関連性の推測を難しくし得る。
【0200】
図2A(iii)および
図2A(iv)におけるアダプターの2本の鎖上の2つの物理UMIは、同じ部位に位置しないし、互いに相補的でもない。しかし、本開示は、アダプターの2本の鎖上の同じ部位にありかつ/または互いに相補的である物理UMIを利用する方法を具現化する。
図2A(v)は、アダプターの末端またはその近くの二本鎖領域において2つの物理UMIが相補的である、デュアルアダプターを示す。2つの物理UMIは、ランダムUMIであっても非ランダムUMIであってもよい。
図2A(vi)は、
図2A(v)のアダプターと似ているがより短いアダプターを示し、それは、インデックス配列もフローセル表面増幅プライマーに相補的なP5およびP7'配列も含まない。同様に、2つの物理UMIは、ランダムUMIであっても非ランダムUMIであってもよい。
【0201】
一本鎖アーム上に1つまたは複数の一本鎖物理UMIを有するアダプターと比較して、二本鎖領域に二本鎖物理UMIを有するアダプターは、
図2A(v)および
図2A(vi)に示されているように、アダプターがライゲーションされる二本鎖DNA断片の2本の鎖の間に直接的な結びつきを提供することができる。二本鎖物理UMIの2本の鎖は互いに相補的であることから、二本鎖UMIの2本の鎖の間の関連性は、相補的な配列によって本質的に示され、先験的情報も事後的情報も必要なしにこの関連性を確立することができる。この情報を使用して、アダプターの二本鎖物理UMIの2つの相補的配列を有するリードは、アダプターがライゲーションした同じDNA断片に由来すると推測し得るが、物理UMIの2つの相補的配列は、DNA断片の一方の鎖の3'末端および他方の鎖の5'末端にライゲーションされる。それ故、2つの末端に同じ順番で2つの物理UMI配列を有するリードだけでなく、2つの末端に逆の順番で2つの相補的配列を有するリードも折りたたんでよい。
【0202】
いくつかの態様において、短い物理UMIはアダプターに組み込むことがより容易であるので、比較的短い物理UMIを利用することが有利であり得る。さらに、より短い物理UMIは、増幅された断片においてシーケンシングすることがより速く、より容易である。しかし、物理UMIが非常に短くなると、異なる物理UMIの総数が、サンプル処理に必要なアダプター分子の数よりも少なくなり得る。十分なアダプターを提供するためには、同じUMIを2つ以上のアダプター分子において繰り返さなければならないだろう。そのようなシナリオでは、同じ物理UMIを有するアダプターが、複数のソースDNA分子にライゲーションされ得る。しかしながら、これらの短い物理UMIは、仮想UMIおよび/またはリードのアライメント位置などの他の情報と組み合わせたときに十分な情報を提供して、リードが特定のソースポリヌクレオチドまたはサンプル中のDNA断片に由来すると一意に特定し得る。これは、同じ物理UMIが2つの異なる断片にライゲーションされ得るとしても、2つの異なる断片が偶然同じアライメント位置を有する可能性も、仮想UMIとして機能するマッチング部分配列を有する可能性も低いからである。そのため、2つのリードが同じ短い物理UMIおよび同じアライメント位置(または同じ仮想UMI)を有する場合、2つのリードは同じDNA断片に由来する可能性が高い。
【0203】
さらに、いくつかの実施態様において、リードの折りたたみは、インサートの2つの末端における2つの物理UMIに基づく。そのような実施態様において、2つの非常に短い物理UMI(例えば、4bp)を組み合わせてDNA断片のソースを決定し、2つの物理UMIの組み合わせた長さは、異なる断片を区別するための十分な情報を提供する。
【0204】
様々な実施態様において、物理UMIは、約12塩基対もしくはより短い、約11塩基対もしくはより短い、約10塩基対もしくはより短い、約9塩基対もしくはより短い、約8塩基対もしくはより短い、約7塩基対もしくはより短い、約6塩基対もしくはより短い、約5塩基対もしくはより短い、約4塩基対もしくはより短い、または約3塩基対もしくはより短い。物理UMIが非ランダムUMIであるいくつかの実施態様において、UMIは、約12塩基対もしくはより短い、約11塩基対もしくはより短い、約10塩基対もしくはより短い、約9塩基対もしくはより短い、約8塩基対もしくはより短い、約7塩基対もしくはより短い、または約6塩基対である。
【0205】
UMIジャンピングは、
図2A(ii)~(iv)のアダプターのように、アダプターの一方のアームまたは両方のアーム上の物理UMI間の関連性の推測に影響を与え得る。これらのアダプターをDNA断片に付加する場合、増幅産物は、サンプル中の実際の断片数よりも多くのユニーク物理UMIを有する断片を含み得ることが観察されてきた。
【0206】
さらに、両方のアーム上に物理UMIを有するアダプターが付加されるとき、一方の末端に共通の物理UMIを有する増幅された断片は、もう一方の末端に別の共通の物理UMIを有すると考えられる。しかしながら、時にそうではない場合がある。例えば、一増幅反応の反応産物において、いくつかの断片がその2つの末端上に第一の物理UMIおよび第二の物理UMIを有し得;他の断片が第二の物理UMIおよび第三の物理UMIを有し得;さらに他の断片が第一の物理UMIおよび第三の物理UMIを有し得;なおさらなる断片が第三の物理UMIおよび第四の物理UMIを有し得るなどがある。この例では、これらの増幅された断片のソース断片を確認するのは困難であり得る。外見上、増幅プロセス中、物理UMIは別の物理UMIによって「スワップアウト」させられ得る。
【0207】
このUMIジャンピング問題に対応するための考えられる1つのアプローチは、両方のUMIを共有する断片のみを同じソース分子に由来するとみなす一方で、ただ1つのUMIを共有する断片は分析から除外されるであろう。しかしながら、ただ1つの物理UMIを共有するこれらの断片のいくつかは、実際には、両方の物理UMIを共有する断片と同じ分子に由来し得る。物理UMIを1つのみ共有する断片を考察から除外することによって、有用な情報が失われ得る。別の考えられるアプローチは、1つの共通の物理UMIを有する任意の断片を同じソース分子に由来するとみなす。しかし、このアプローチは、断片の2つの末端上の2つの物理UMIを下流の分析のために組み合わせることはできない。さらに、上記の例では、いずれのアプローチ下でも、第一の物理UMIおよび第二の物理UMIを共有する断片は、第三の物理UMIおよび第四の物理UMIを共有する断片と同じソース分子に由来するとみなされないだろう。これは正しい場合もそうでない場合もある。第三のアプローチは、
図2A(v)~(vi)のアダプターのような、両鎖の一本鎖領域に物理UMIを有するアダプターを使用することによって、UMIジャンピング問題に対応し得る。UMIジャンピングの根底にある仮定のメカニズムについての説明が以下でさらに説明される。
【0208】
図2Bは、両方の鎖の二本鎖領域に物理UMIを有するアダプターが関与するPCR反応においてUMIジャンピングが起こる仮定プロセスを図示している。2つの物理UMIは、ランダムUMIであっても非ランダムUMIであってもよい。UMIジャンピングの根底にある実際のメカニズムおよびここに記載の仮定プロセスは、本明細書に開示のアダプターおよび方法の利用に影響を及ぼさない。PCR反応は、少なくとも1つの二本鎖ソースDNA断片202ならびにアダプター204および206を提供する工程から始まる。アダプター204および206は、
図2A(iii)~(iv)に図示されているアダプターに類似している。アダプター204は、その5'アーム上にP5アダプター配列およびα1物理UMIを有する。アダプター204はまた、その3'アーム上にP7'アダプター配列およびα2物理UMIを有する。アダプター206は、その5'アーム上にP5アダプター配列およびβ2物理UMIを有し、かつ、その3'アーム上にP7'アダプター配列およびβ1物理UMIを有する。プロセスは、アダプター204およびアダプター206を断片202にライゲーションさせてライゲーション産物208を得る工程に進む。プロセスは、ライゲーション産物208を変性させ、一本鎖の変性断片212をもたらす工程に進む。その一方で、反応混合物はしばしば、この段階では余剰アダプターを含む。プロセスが既に、Solid Phase Reversible Immobilization(SPRI)ビーズを使用するなどして過剰なアダプターを除去する工程を伴うとしても、いくつかのアダプターは反応混合物になお残る。このような残りのアダプターは、アダプター210として図示されており、アダプター210は、これがその3'アームおよび7'アームそれぞれに物理UMIγ1およびγ2を有することを除き、アダプター206に類似している。変性断片212を生成する変性条件はまた、そのP5アダプター配列の近くに物理UMIγ2を有する変性アダプターオリゴヌクレオチド214を生成する。
【0209】
次いで、一本鎖アダプター断片214が一本鎖DNA断片212にハイブリダイズされ、PCRプロセスは、一本鎖アダプター断片214を伸長させ、DNA断片212に相補的な中間体インサート216を生成する。様々なPCR増幅サイクルの間、異なる物理UMIδ、ε、およびζを含むアダプターのP7'鎖のPCR伸長から、中間体アダプター断片218、220、および222がもたらされ得る。中間体アダプター断片218、220、および222は全て、5'末端上にP7'配列を有し、それぞれ、物理UMIδ、εおよびζを有する。中間体アダプター断片218、220、および222の3'末端は中間体インサート216の領域217に相補的であるので、後続のPCRサイクルにおいて、中間体アダプター断片218、220、および222は、中間体断片216またはそのアンプリコンにハイブリダイズすることができる。ハイブリダイズした断片のPCR伸長によって、一本鎖DNA断片224、226、および228が生成される。DNA断片224、226、および228は、5'末端上で3つの異なる物理UMI(δ、ε、およびζ)、および3'末端上で物理UMIγ2で標識され、このことは、同じDNA断片202に由来するヌクレオチド配列に異なるUMIが結合される「UMIジャンピング」を示している。
【0210】
本開示のいくつかの実施態様において、
図2A(v)~(vi)におけるアダプターなどの、アダプターの両方の鎖の二本鎖領域に物理UMIを有するアダプターを使用することで、UMIジャンピングを防止または低減させ得る。これは、1つのアダプターの二本鎖領域の物理UMIが、他の全てのアダプター上の物理UMIとは異なる事実に起因するものであり得る。これは、中間体アダプターオリゴヌクレオチドと中間体断片との間の相補性を低減させ、それによって、中間体オリゴヌクレオチド222と中間体断片220について示されるようなハイブリダイゼーションを回避し、それによって、UMIジャンピングを低減または防止することに役立つ。
【0211】
リードの折りたたみおよびコンセンサス配列の取得
UMIを使用する様々な実施態様において、同じUMIを有する複数の配列リードを折りたたんで1つまたは複数のコンセンサス配列を得て、次いでこれを使用して、ソースDNA分子の配列を決定する。同じソースDNA分子の別個の事例から複数の別個のリードが生成され得、これらのリードを比較することで、本明細書に記載の通りにコンセンサス配列が生成され得る。この事例は、シーケンシング前にソースDNA分子を増幅することによって生成され得、その結果、各々がソースDNA分子の配列を共有する別個の増幅産物に対して別個のシーケンシング操作が行われる。当然ながら、増幅によって、別個の増幅産物の配列に差をもたらすエラーが導入され得る。Illumina社のシーケンシング・バイ・シンセシスなどのいくつかのシーケンシング技術の状況では、ソースDNA分子またはその増幅産物は、フローセルの領域に連結されたDNA分子のクラスタを形成する。クラスタの分子は集合体としてリードを提供する。典型的には、コンセンサス配列を提供するために少なくとも2つのリードが必要である。本開示の態様において、100、1000、および10,000のシーケンシング深度が、対立遺伝子頻度が低い(例えば、約1%以下)コンセンサスリードを生じさせるのに有用なシーケンシング深度の例である。
【0212】
いくつかの実施態様では、UMIまたはUMIの組み合わせを共有しているリードの100%で一致しているヌクレオチドが、コンセンサス配列に含まれる。他の実施態様では、コンセンサス基準は100%未満であることができる。例えば、90%のコンセンサス基準を使用してもよいが、これは、グループのリードの90%以上に存在する塩基対がコンセンサス配列に含まれることを意味する。様々な実施態様において、コンセンサス基準を、約30%、約40%、約50%、約60%、約70%、約80%、約90%、約95%、または約100%に設定してもよい。
【0213】
物理UMIおよび仮想UMIによる折りたたみ
複数のUMIを含むリードを折りたたむために複数の技法を使用してもよい。いくつかの実施態様では、共通の物理UMIを共有するリードを折りたたんで、コンセンサス配列を得てもよい。いくつかの実施態様では、共通の物理UMIがランダムUMIである場合、ランダムUMIは、サンプル中のDNA断片の特定のソース分子を特定するのに十分にユニークであり得る。他の実施態様では、共通の物理UMIが非ランダムUMIである場合、UMIはそれ自体、特定のソース分子を特定するのに十分にユニークではない場合がある。いずれの場合も、物理UMIを仮想UMIと組み合わせてソース分子のインデックスを提供してもよい。
【0214】
上記ならびに
図1B、3A、および4に図示されているワークフロー例では、いくつかのリードは、α-ρ-φ UMIを含む一方で、他のリードは、β-φ-ρ UMIを含む。物理UMIαは、αを有するリードを生成する。ワークフローにおいて使用される全てのアダプターが異なる物理UMI(例えば、異なるランダムUMI)を有する場合、アダプター領域にαを有するリードは全て、DNA断片の同じ鎖に由来する可能性が高い。同様に、物理UMIβはβを有するリードを生成し、当該リードは全て、DNA断片の同じ相補鎖に由来する可能性が高い。それ故、1つのコンセンサス配列を得るためにαを含む全てのリードを折りたたむことと、別のコンセンサス配列を得るためにβを含む全てのリードを折りたたむことが有用である。これは、
図4B~4Cにおいて第一レベルの折りたたみとして図示されている。グループの全てのリードがサンプル中の同じソースポリヌクレオチドに由来するので、コンセンサス配列に含まれる塩基対は、ソースポリヌクレオチドの真の配列を反映する可能性が高い一方で、コンセンサス配列から除外される塩基対は、ワークフローにおいて導入された変異またはエラーを反映する可能性が高い。
【0215】
加えて、仮想UMIρおよびφは、一方または両方の仮想UMIを含むリードが同じソースDNA断片に由来するかを判定するための情報を提供することができる。仮想UMIρおよびφはソースDNA断片に内在するので、仮想UMIの活用は、実際には、調製またはシーケンシングに諸経費を追加することはない。リードから物理UMIの配列を得た後、該リードにおける1つまたは複数の部分配列を仮想UMIと決定してもよい。仮想UMIが十分な塩基対を含みかつリード上の同じ相対位置を有する場合、該仮想UMIによって、該リードが該ソースDNA断片に由来していると一意に特定され得る。それ故、仮想UMIρおよびφの一方または両方を有するリードを折りたたんでコンセンサス配列を得てもよい。
図3Aおよび
図4A~4Cに示されているように、ただ1つの物理UMIが各鎖の第一レベルのコンセンサス配列に割り当てられている場合、仮想UMIおよび物理UMIの組み合わせが、第二レベルの折りたたみを導く情報を提供することができる。しかし、いくつかの実施態様では、仮想UMIを使用したこの第二レベルの折りたたみは、インプットDNA分子が過剰にあるかまたは断片化がランダムでない場合、困難であり得る。
【0216】
代わりの態様において、両端に2つの物理UMIを有するリード(例えば、
図3Bならびに
図4Dおよび4Eに示されているリード)を、物理UMIおよび仮想UMIの組み合わせに基づいて、第二レベルの折りたたみで折りたたんでもよい。これは特に、物理UMIが短すぎて、仮想UMIを使用することなしにはソースDNA断片を一意に特定することができない場合に有用である。これらの態様では、第二レベルの折りたたみは、
図3Bに示されているように二重の物理UMIを用いて、同じDNA分子由来のα-ρ-φ-βコンセンサスリードおよびβ-φ-ρ-αコンセンサスリードを折りたたむことによって実施することができ、それによって、全リード間で一致しているヌクレオチドを含むコンセンサス配列を得ることができる。
【0217】
本明細書に記載のUMIおよび折りたたみスキームを使用することで、様々な態様は、断片が非常に低い対立遺伝子頻度を有する対立遺伝子を含むとしても、断片の決定配列に影響を与える異なるエラー原因を抑制することができる。同じUMI(物理UMIおよび/または仮想UMI)を共有するリードは、一緒にグループ化される。グループ化されたリードを折りたたむことによって、PCR、ライブラリー調製、クラスタ化、およびシーケンシングエラーに起因するバリアント(SNVおよび小インデル)を排除することができる。
図4A~4Eは、ワークフロー例に開示されている方法が、二本鎖DNA断片の配列を決定する際の異なるエラー原因をどのように抑制することができるかを図示している。図示されているリードは、
図3Aおよび4A~4Cではα-ρ-φまたはβ-φ-ρ UMI、
図3B、4D、および4Eではα-ρ-φ-βまたはβ-φ-ρ-α UMIを含む。αおよびβ UMIは、
図3Aおよび4A~4Cでは一重物理UMIである。αおよびβ UMIは、
図3B、4D、および4Eでは二重UMIである。仮想UMI ρおよびφは、DNA断片の末端に位置する。
【0218】
図4A~4Cに示されているような一重物理UMIを使用する方法は、まず、第一レベルの折りたたみとして図示されている、同じ物理UMIαまたはUMIβを有するリードを折りたたむ工程を伴う。第一レベルの折りたたみは、物理UMIαを有するリードについてのαコンセンサス配列を得て、そのリードは、二本鎖断片の一方の鎖に由来する。第一レベルの折りたたみはまた、物理UMIβを有するリードについてのβコンセンサス配列を得て、そのリードは、二本鎖断片の別の鎖に由来する。第二レベルの折りたたみでは、該方法は、αコンセンサス配列およびβコンセンサス配列から第三のコンセンサス配列を得る。第三のコンセンサス配列は、同じ二重仮想UMIρおよびφを有するリード由来のコンセンサス塩基対を反映し、そのリードは、ソース断片の2つの相補鎖に由来する。最後に、二本鎖DNA断片の配列が第三のコンセンサス配列として決定される。
【0219】
図4D~4Eに示されているような二重物理UMIを使用する方法は、まず、第一レベルの折りたたみとして図示されている、物理UMIαおよびβを5'-3'方向にα→βの順序で有するリードを折りたたむ工程を伴う。第一レベルの折りたたみは、物理UMIαおよびβを有するリードについてのα-βコンセンサス配列を得て、そのリードは、二本鎖断片の第一の鎖に由来する。第一レベルの折りたたみはまた、物理UMIβおよびαを5'-3'方向にβ→αの順序で有するリードについてのβ-αコンセンサス配列を得て、そのリードは、二本鎖断片の第一の鎖に相補的な第二の鎖に由来する。第二レベルの折りたたみでは、該方法は、α-βコンセンサス配列およびβ-αコンセンサス配列から第三のコンセンサス配列を得る。第三のコンセンサス配列は、同じ二重仮想UMIρおよびφを有するリード由来のコンセンサス塩基対を反映し、そのリードは、断片の2本の鎖に由来する。最後に、二本鎖DNA断片の配列が第三のコンセンサス配列として決定される。
【0220】
図4Aは、第一レベルの折りたたみがどのようにシーケンシングエラーを抑制し得るかを図示している。シーケンシングエラーは、サンプルおよびライブラリーの調製(例えば、PCR増幅)後にシーケンシングプラットフォームで起こる。シーケンシングエラーは、種々のエラーのある塩基を種々のリードに導入し得る。真陽性の塩基はソリッドフォントの文字で示し、偽陽性の塩基はハッチングをかけた文字で示している。α-ρ-φファミリーの異なるリードにおける偽陽性ヌクレオチドは、αコンセンサス配列から除外されている。α-ρ-φファミリーリードの左端に図示されている真陽性ヌクレオチド「A」は、αコンセンサス配列で維持される。同様に、β-φ-ρファミリーの異なるリードにおける偽陽性ヌクレオチドはβコンセンサス配列から除外されており、真陽性ヌクレオチド「A」は維持されている。ここで図示されている通り、第一レベルの折りたたみは、シーケンシングエラーを効果的に除去することができる。
図4Aはまた、仮想UMIρおよびφに依拠する任意の第二レベルの折りたたみを示す。この第二レベルの折りたたみは、上で説明したようにエラーをさらに抑制し得るが、そのようなエラーは
図4Aには図示されていない。
【0221】
PCRエラーは、クラスタ化増幅の前に起こる。それ故、PCRプロセスによって一本鎖DNAに導入された1つのエラーのある塩基対は、クラスタ化増幅中に増幅され、それによって、複数のクラスタおよびリードに出現し得る。
図4Bおよび
図4Dに図示されている通り、PCRエラーによって導入された偽陽性塩基対は、多くのリードに出現し得る。α-ρ-φ(
図4B)またはα-β(
図4D)ファミリーリードにおける「T」塩基およびβ-φ-ρ(
図4B)またはβ-α(
図4D)ファミリーリードにおける「C」塩基がそのようなPCRエラーである。対照的に、
図4Aに示されているシーケンシングエラーは、同じファミリーの1つまたは少数のリードに出現する。PCRシーケンシングエラーはファミリーの多くのリードに出現するので、シーケンシングエラーは第一レベルの折りたたみによって除去される(例えば、GおよびAは、
図4Bではα-ρ-φファミリーから、
図4Dではα-βファミリーから除去される)としても、1つの鎖におけるリードの第一レベルの折りたたみによってはPCRエラーは除去されない。しかし、PCRエラーは一本鎖DNAに導入されるため、ソース断片の相補鎖およびそれに由来するリードは、通常、同じPCRエラーを有さない。それ故、ソース断片の2本の鎖に由来するリードに基づく第二レベルの折りたたみは、
図4Bおよび4Dの下部に示されているように、PCRエラーを効果的に除去することができる。
【0222】
いくつかのシーケンシングプラットフォームでは、ホモポリマーエラーが起こり、わずかなインデルエラーが、単一ヌクレオチドを繰り返すホモポリマーに導入される。
図4Cおよび
図4Eは、本明細書に記載の方法を使用したホモポリマーエラー補正を図示している。α-ρ-φ(
図4C)またはα-ρ-φ-β(
図4E)ファミリーリードでは、2つの「T」ヌクレオチドが上から二番目のリードから欠失しており、1つの「T」ヌクレオチドが上から三番目のリードから欠失している。β-φ-ρ(
図4C)またはβ-φ-ρ-α(
図4E)ファミリーリードでは、1つの「T」ヌクレオチドが上から一番目のリードに挿入されている。
図4Aに図示されているシーケンシングエラーと同じく、ホモポリマーエラーはPCR増幅後に起こり、それ故、種々のリードが種々のホモポリマーエラーを有する。結果として、第一レベルの折りたたみは、インデルエラーを効果的に除去することができる。
【0223】
1つまたは複数の共通の非ランダムUMIと1つまたは複数の共通の仮想UMIを有するリードを折りたたむことによってコンセンサス配列を得てもよい。さらに、下記の通り、コンセンサス配列を得るために位置情報を使用してもよい。
【0224】
位置による折りたたみ
いくつかの実施態様において、リードを処理して参照配列にアラインさせ、参照配列におけるリードのアライメント位置を決定する(位置測定)。しかしながら、上で説明していないいくつかの実施態様において、位置測定は、k-mer類似度解析およびリード-リードアライメントによって達成される。この第二の実施態様は、2つの利点を有する:第一に、それは、ハロタイプの違いまたは転座に起因して参照にマッチしないリードを折りたたむことができる(エラー補正)、第二に、それは、アライナアルゴリズムに依存しないことにより、アライナが引き起こす人工物(アライナにおけるエラー)の可能性が取り除かれることである。いくつかの実施態様において、同じ位置測定情報を共有するリードを折りたたんで、ソースDNA断片の配列を決定するためのコンセンサス配列を得てよい。いくつかの状況においては、アライメントプロセスは、マッピングプロセスとも称される。配列リードは、アライメントプロセスを受けて、参照配列にマッピングされる。様々なアライメントツールおよびアルゴリズムを使用して、本開示の他の箇所に記載するように、リードを参照配列にアラインさせてよい。いつものように、アライメントアルゴリズムでは、いくつかのリードは、上手く参照配列にアラインされる一方で、他のものは、参照配列に上手くアラインされないことも参照配列に不完全にアラインされることもある。参照配列に上手くアラインされるリードは、参照配列上の部位に関連する。アラインされたリードおよびその関連部位は、配列タグとも称される。多数の繰り返しを含有するいくつかの配列リードは、参照配列にアラインさせることがより難しい傾向がある。特定の基準を超える数のミスマッチ塩基を有する参照配列にリードがアラインされるとき、リードは不完全にアラインされると見なされる。様々な態様において、リードが少なくとも約1、2、3、4、5、6、7、8、9または10のミスマッチでアラインされるとき、リードは、不完全にアラインされると見なされる。他の態様において、リードが少なくとも約5%のミスマッチでアラインされるとき、リードは、不完全にアラインされると見なされる。他の態様において、リードが少なくとも約10%、15%または20%のミスマッチ塩基でアラインされるとき、リードは、不完全にアラインされると見なされる。
【0225】
いくつかの実施態様において、本開示の方法は、位置情報と物理UMI情報を組み合わせて、DNA断片のソース分子にインデックスを付ける。同じリード位置および同じ非ランダムまたはランダム物理UMIを共有する配列リードを折りたたんで、断片の配列またはその一部を決定するためのコンセンサス配列を得てよい。いくつかの実施態様において、同じリード位置、同じ非ランダム物理UMIおよびランダム物理UMIを共有する配列リードを折りたたんで、コンセンサス配列を得てよい。そのような実施態様において、アダプターは、非ランダム物理UMIおよびランダム物理UMIの両方を含み得る。いくつかの実施態様において、同じリード位置および同じ仮想UMIを共有する配列リードを折りたたんで、コンセンサス配列を得てよい。
【0226】
リード位置情報は、異なる技法によって得てよい。例えば、いくつかの実施態様において、ゲノム座標を使用して、リード位置情報を提供してよい。いくつかの実施態様において、リードがアラインされる参照配列上の位置を使用して、リード位置情報を提供することができる。例えば、染色体におけるリードの開始位置および停止位置を使用して、リード位置情報を提供してよい。いくつかの実施態様において、リード位置は、それが同一の位置情報を有する場合、同じと見なされる。いくつかの実施態様において、リード位置は、位置情報間の違いが規定の基準よりも小さい場合、同じと見なされる。例えば、2、3、4または5未満の塩基対が異なる開始ゲノム位置を有する2つのリードは、同じリード位置を有するリードと見なすことができる。他の実施態様において、リード位置は、その位置情報を変換して、特定の位置間隔でマッチさせることができる場合、同じと見なされる。参照配列は、シーケンシングの前に提供されてよく、例えば、参照配列は、周知で広く使用されているヒトゲノム配列であってもよく、サンプルをシーケンシングする間に得られるリードから決定されてもよい。
【0227】
特定のシーケンシングプラットフォームおよびプロトコルに関係なく、サンプルに含有される核酸の少なくとも一部をシーケンシングして、数万、数十万または数百万の配列リード、例えば100bpリードを生成する。いくつかの態様において、配列リードは、約20bp、約25bp、約30bp、約35bp、約36bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bp、約500bp、約800bp、約1000bpまたは約2000bpを含む。
【0228】
いくつかの態様において、リードは、参照ゲノム、例えばhg19にアラインされる。他の態様において、リードは、参照ゲノムの一部、例えば、染色体または染色体セグメントにアラインされる。参照ゲノムに一意にマッピングされるリードは、配列タグとして既知である。一態様において、少なくとも約3×106の適格配列タグ、少なくとも約5×106の適格配列タグ、少なくとも約8×106の適格配列タグ、少なくとも約10×106の適格配列タグ、少なくとも約15×106の適格配列タグ、少なくとも約20×106の適格配列タグ、少なくとも約30×106の適格配列タグ、少なくとも約40×106の適格配列タグまたは少なくとも約50×106の適格配列タグが、参照ゲノムに一意にマッピングされるリードから得られる。
【0229】
用途
様々な用途において、本明細書に開示のエラー補正戦略は、1つまたは複数の以下の恩恵を提供し得る:(i)対立遺伝子頻度が非常に低い体細胞変異を検出する、(ii)フェージング/プレフェージングエラーを軽減することによってサイクル時間を減少させる、および/または(iii)リードの後部におけるベースコールの品質を増強することによってリード長を増加させるなど。対立遺伝子頻度が低い体細胞変異の検出に関わる用途および論理的根拠は上で考察している。
【0230】
特定の態様において、本明細書に記載の技法は、約2%以下、約1%以下、または約0.5%以下の頻度を有する対立遺伝子の信頼性の高いコールを可能にし得る。そのような低頻度は、癌患者における腫瘍細胞から生じるcfDNAに共通する。いくつかの態様において、ここに記載の技法は、メタゲノムサンプル中の希少な株の特定、ならびに、例えば、患者が複数のウイルス株に感染しているおよび/または医学的処置を受けているとき、ウイルス集団または他の集団における希少バリアントの検出を可能にし得る。
【0231】
特定の態様において、本明細書に記載の技法は、より短いシーケンシング化学のサイクル時間を可能にし得る。短くなったサイクル時間は、シーケンシングエラーを増加させるが、上記の方法を使用してこれを補正することができる。
【0232】
UMIを伴ういくつかの実施態様において、セグメントの2つの末端由来の一対のペアエンド(PE)リードについて、非対称のリード長を使用したペアエンドシーケンシングから、長いリードを得てよい。例えば、あるペアエンドリードで50bpと別のペアエンドリードで500bpを有するリード対は、別のリード対と一緒に「ステッチ(stich)」されて、1000bpの長いリードを生成することができる。これらの実施態様は、低い対立遺伝子頻度の長い断片の決定のためにより速いシーケンシング速度を提供し得る。
【0233】
図5は、物理UMIおよび仮想UMIを付加することによってこの種の用途において長いペアエンドリードを効率的に得る例の概略図を示している。同じDNA断片の両鎖由来のライブラリーがフローセル上でクラスタ化される。ライブラリーのインサートサイズは1Kbより長い。シーケンシングは、非対称のリード長(例えば、リード1=500bp、リード2=50bp)で行われ、長い500bpリードの品質を確保する。2本の鎖をステッチして、1000bpの長いPEリードを500+50bpシーケンシングのみで生じさせることができる。
【0234】
サンプル
DNA断片配列を決定するために使用されるサンプルは、関心対象の配列を決定しようとする、核酸を含めた、任意の細胞、流体、組織または臓器から採取されるサンプルを含むことができる。癌の診断を伴ういくつかの態様において、循環腫瘍DNAを対象の体液、例えば血液または血漿から得てよい。胎児の診断を伴ういくつかの態様において、母体体液からセルフリー核酸、例えば、セルフリーDNA(cfDNA)を得ることが有利である。セルフリーDNAを含むセルフリー核酸を、血漿、血清および尿を非限定的に含む生物学的サンプルから、当技術分野において公知の様々な方法によって得ることができる(例えば、Fan et al., Proc Natl Acad Sci 105:16266-16271 [2008]: Koide et al., Prenatal Diagnosis 25:604-607 [2005]; Chen et al., Nature Med. 2: 1033-1035 [1996]; Lo et al., Lancet 350: 485-487 [1997]; Botezatu et al., Clin Chem. 46: 1078-1084, 2000;およびSu et al., J Mol. Diagn. 6: 101-107 [2004] を参照されたい)。
【0235】
様々な態様において、サンプル中に存在する核酸(例えば、DNAまたはRNA)を、使用前に(例えば、シーケンシングライブラリーを調製する前に)、特異的にまたは非特異的に濃縮することができる。サンプルDNAの非特異的濃縮は、cfDNAシーケンシングライブラリーを調製する前にサンプルDNAのレベルを増加させるために使用できる、サンプルのゲノムDNA断片の全ゲノム増幅を指す。全ゲノム増幅のための方法は、当技術分野において公知である。縮重オリゴヌクレオチドプライムPCR(degenerate oligonucleotide-primed PCR)(DOP)、プライマー伸長PCR技法(primer extension PCR technique)(PEP)および多置換増幅(multiple displacement amplification)(MDA)が全ゲノム増幅法の例である。いくつかの態様において、サンプルは、DNAについて濃縮されない。
【0236】
本明細書に記載の方法が適用される核酸を含むサンプルは、典型的には、上記の通りの生物学的サンプル(「試験サンプル」)を含む。いくつかの態様において、シーケンシングしようとする核酸は、多数の周知の方法のいずれかによって精製または単離される。
【0237】
したがって、特定の態様において、サンプルは、精製もしくは単離されたポリヌクレオチドを含むかもしくはそれから本質的になるか、または、それは、組織サンプル、生体液サンプル、細胞サンプルなどのサンプルを含むことができる。好適な生体液サンプルは、血液、血漿、血清、汗、涙液、喀痰、尿、喀痰、耳流出物(ear flow)、リンパ液、唾液、脳脊髄液、破出液、骨髄懸濁物、膣流出物(vaginal flow)、経頸管洗浄液、脳液、腹水、母乳、呼吸器、腸管および泌尿生殖器の分泌物、羊水、母乳ならびに白血球除去サンプルを含むが、それらに限定されない。いくつかの態様において、サンプルは、非侵襲的な手順によって容易に取得可能であるサンプル、例えば、血液、血漿、血清、汗、涙液、喀痰、尿、排泄物、喀痰、耳流出物、唾液または糞便である。特定の態様において、サンプルは、末梢血サンプル、または、末梢血サンプルの血漿および/もしくは血清画分である。他の態様において、生物学的サンプルは、スワブもしくはスメア、生検材料、または細胞培養物である。別の態様において、サンプルは、2つ以上の生物学的サンプルの混合物であり、例えば、生物学的サンプルは、生体液サンプル、組織サンプル、および細胞培養物サンプルのうちの2つ以上を含むことができる。本明細書において使用される場合、用語「血液」、「血漿」および「血清」は、それらの画分または処理された部分を明示的に包含する。同様に、サンプルが生検、スワブ、スメアなどから採取される場合、「サンプル」は、生検、スワブ、スメアなどに由来する処理された画分または部分を明示的に包含する。
【0238】
特定の態様において、サンプルは、異なる個体由来のサンプル、異なる発達段階の同じまたは異なる個体由来のサンプル、異なる疾患の個体(例えば、遺伝性疾患を有する疑いのある個体)由来のサンプル、正常な個体由来のサンプル、異なる疾患段階の個体において得られたサンプル、ある疾患について異なる処置を受けた個体から得られたサンプル、異なる環境因子に曝された個体由来のサンプル、病理学的素因を有する個体由来のサンプル、感染性病原体に曝された個体由来のサンプルなどを非限定的に含む供給源から得ることができる。
【0239】
1つの例示的だが非限定的な態様において、サンプルは、妊娠した雌体、例えば妊娠した女性から得られる母体サンプルである。この場合、サンプルを、本明細書に記載の方法を使用して分析し、胎児の潜在的染色体異常についての出生前診断を提供することができる。母体サンプルは、組織サンプル、生体液サンプルまたは細胞サンプルであることができる。生体液は、非限定的な例として、血液、血漿、血清、汗、涙液、喀痰、尿、喀痰、耳流出物、リンパ液、唾液、脳脊髄液、破出液、骨髄懸濁物、膣流出物、経頸管洗浄液、脳液、腹水、母乳、呼吸器、腸管および泌尿生殖器の分泌物ならびに白血球除去サンプルを含む。
【0240】
特定の態様において、サンプルはまた、インビトロ培養した組織、細胞または他のポリヌクレオチドを含有する供給源から得ることもできる。培養したサンプルは、異なる培地および条件(例えば、pH、圧力または温度)で維持された培養物(例えば、組織または細胞)、異なる長さの期間維持された培養物(例えば、組織または細胞)、異なる因子または試薬(例えば、薬物候補または調節因子)で処置された培養物(例えば、組織または細胞)、または異なるタイプの組織および/または細胞の培養物を非限定的に含む供給源から採取することができる。
【0241】
生物学的供給源から核酸を単離する方法は、周知であり、供給源の性質に応じて異なるであろう。当業者であれば、本明細書に記載の方法のために必要に応じて、供給源から核酸を容易に単離することができる。いくつかの例では、核酸サンプルにおいて核酸分子を断片化することが有利であり得る。断片化は、ランダムであっても、例えば制限エンドヌクレアーゼ消化を使用して達成されるような、特別なものであってもよい。ランダム断片化のための方法は、当技術分野において周知であり、例えば、限定DNAse消化、アルカリ処理および物理的剪断を含む。
【0242】
シーケンシングライブラリーの調製
様々な態様において、シーケンシングライブラリーの調製を必要とする様々なシーケンシングプラットフォームでシーケンシングを行ってよい。調製は、典型的には、DNAを断片化(超音波処理、噴霧化または剪断)とそれに続く、DNA修復および末端ポリッシング(平滑末端またはAオーバーハング)、ならびにプラットフォーム特異的アダプターライゲーションを伴う。一態様において、本明細書に記載の方法は、複数のサンプルをゲノム分子として(すなわち、一重シーケンシング)またはインデックスを付けたゲノム分子を含むプールされたサンプルとして(例えば、多重シーケンシング)単一シーケンシングランで個々にシーケンシングすることが可能である、次世代シーケンシング技術(NGS)を利用することができる。これらの方法は、最大数十億のDNA配列のリードを生成することができる。様々な態様において、ゲノム核酸および/またはインデックスを付けたゲノム核酸の配列を、例えば、本明細書に記載の次世代シーケンシング技術(NGS)を使用して決定することができる。様々な態様において、NGSを使用して得られた大量の配列データの解析を、本明細書に記載の通り1つまたは複数のプロセッサを使用して行うことができる。
【0243】
様々な態様において、そのようなシーケンシング技術の使用は、シーケンシングライブラリーの調製を伴わない。
【0244】
しかしながら、特定の態様において、本明細書において想定されるシーケンシング法は、シーケンシングライブラリーの調製を伴う。1つの例示的なアプローチでは、シーケンシングライブラリー調製は、シーケンシングに使える状態のアダプター修飾DNA断片(例えば、ポリヌクレオチド)のランダム収集物の生成を伴う。ポリヌクレオチドのシーケンシングライブラリーは、DNAもしくはcDNAのいずれかの同等物、類似体、例えば、相補的なDNAもしくはcDNA、またはRNA鋳型から生成されるコピーDNAを含むDNAまたはRNAから、逆転写酵素の作用によって調製することができる。ポリヌクレオチドは、二本鎖形態(例えば、dsDNA、例えばゲノムDNA断片、cDNA、PCR増幅産物など)で生じ得る、または特定の態様においては、ポリヌクレオチドは、一本鎖形態(例えば、ssDNA、RNAなど)で生じ得、dsDNA形態に変換されている。例えば、特定の態様において、一本鎖mRNA分子は、シーケンシングライブラリーを調製する際の使用に適した二本鎖cDNAにコピーされ得る。主なポリヌクレオチド分子の正確な配列は、一般に、ライブラリー調製の方法にとって重要ではなく、既知であっても未知であってもよい。一態様において、ポリヌクレオチド分子は、DNA分子である。より特定すると、特定の態様において、ポリヌクレオチド分子は、生物の全遺伝的相補体を表すか、または、生物の全遺伝的相補体を実質的に表し、該ポリヌクレオチド分子は、ゲノムDNA分子(例えば、細胞DNA、セルフリーDNA(cfDNA)など)であり、これは、典型的には、イントロン配列およびエクソン配列(コーディング配列)の両方、ならびに、プロモータおよびエンハンサー配列などの非コーディング調節配列を含む。特定の態様において、主なポリヌクレオチド分子は、ヒトゲノムDNA分子、例えば、妊娠した対象の末梢血に存在するcfDNA分子を含む。
【0245】
いくつかのNGSシーケンシングプラットフォームのためのシーケンシングライブラリーの調製は、特定の範囲の断片サイズを含むポリヌクレオチドの使用によって容易になる。そのようなライブラリーの調製は、典型的には、所望のサイズ範囲におけるポリヌクレオチドを得るための、大きいポリヌクレオチド(例えば、細胞ゲノムDNA)の断片化を伴う。
【0246】
ペアエンドリードを、本明細書に開示のシーケンシング法およびシステムに使用してよい。断片またはインサート長は、リード長より長く、時に2つのリードの長さの合計より長い場合がある。
【0247】
いくつかの例示的な態様において、サンプル核酸は、ゲノムDNAとして得られ、これを断片化に供して、NGS方法を容易に適用することができるおよそ50、100、200、300、400、500、600、700、800、900、1000、2000または5000塩基対より長い断片にする。いくつかの態様において、ペアエンドリードは、約100~5000bpのインサートから得られる。いくつかの態様において、インサートは、約100~1000bp長である。これらは時に、通常の短いインサートペアエンドリードとして実現される。いくつかの態様において、インサートは、約1000~5000bp長である。これらは時に、上記の通り長いインサートメイトペアリードとして実現される。
【0248】
いくつかの実施態様において、長いインサートは、非常に長い配列を評価するために設計される。いくつかの実施態様において、メイトペアリードを適用して、数千塩基対だけ間隔を置いたリードを得てよい。これらの実施態様において、インサートまたは断片は、インサートの2つの末端上に2つのビオチン接続アダプターを有し、数百~数千塩基対に及ぶ。次に、ビオチン接続アダプターは、インサートの2つの末端を接続して環状分子を形成し、これを次にさらに断片化する。ビオチン接続アダプターおよびオリジナルのインサートの2つの末端を含む部分断片は、より短い断片をシーケンシングするために設計されたプラットフォームでのシーケンシング用に選択される。
【0249】
断片化は、当業者に公知の多数の方法のいずれかによって達成することができる。例えば、断片化は、噴霧化、超音波処理およびハイドロシェアを非限定的に含む機械的手段によって達成することができる。しかしながら、機械的断片化は、典型的には、DNA骨格をC-O、P-OおよびC-C結合で切断して、平滑末端と破壊されたC-O、P-Oおよび/C-C結合を有する3'-および5'-オーバーハング末端の不均一混合物をもたらし(例えば、Alnemri and Liwack, J Biol. Chem 265:17323-17333 [1990]; Richards and Boyer, J Mol Biol 11:327-240 [1965]を参照されたい)、これは、シーケンシング用のDNAを調製するのに必要な後続の酵素反応、例えば、シーケンシングアダプターのライゲーションに必須の5'-リン酸を欠くことから、修復が必要となり得る。
【0250】
対照的に、cfDNAは、典型的には、約300未満の塩基対の断片として存在し、その結果、断片化は、典型的には、cfDNAサンプルを使用したシーケンシングライブラリーの生成に必要ない。
【0251】
典型的には、ポリヌクレオチドが強制的に断片化されている(例えば、インビトロ断片化されている)か、または天然に断片として存在しているかに関わらず、これらは、5'-リン酸および3'-ヒドロキシルを有する平滑末端DNAに変換される。標準的なプロトコル、例えば、
図1Aおよび
図1Bに関する上のワーフクロー例に記載の通りのIllumina社のプラットフォームを使用してシーケンシングするためのプロトコルは、ユーザーに、サンプルDNAをエンドリペアすること、3'末端をアデニル化またはdA-テーリングする前にエンドリペアされた産物を精製すること、および、ライブラリー調製のアダプターライゲーション工程の前にdA-テーリング産物を精製することを指示する。
【0252】
本明細書に記載の配列ライブラリー調製の方法の様々な態様は、NGSによってシーケンシングすることができる修飾DNA産物を得るのに典型的には標準プロトコルによって命じられる、1つまたは複数の工程を実行する必要をなくす。簡略法(abbreviated method)(ABB法)、1工程法(1-step method)および2工程法(2-step method)がシーケンシングライブラリーの調製法の例であり、これは2012年7月20日に出願された特許出願13/555,037号に見ることができ、これは参照によってその全体が組み入れられる。
【0253】
シーケンシング法
本明細書に記載の方法および装置は、大規模並列シーケンシングを可能にする次世代シーケンシング技術(NGS)を利用してよい。特定の態様において、クローン増幅されたDNA鋳型または単一DNA分子がフローセル内で大規模並列的にシーケンシングされる(例えば、Volkerding et al. Clin Chem 55:641-658 [2009]; Metzker M Nature Rev 11:31-46 [2010]に記載の通り)。NGSのシーケンシング技術は、パイロシーケンシング、可逆性ダイターミネーターを用いたシーケンシング・バイ・シンセシス、オリゴヌクレオチドプローブライゲーションによるシーケンシング、およびイオン半導体シーケンシングを含むが、それらに限定されない。個々のサンプル由来のDNAを個々にシーケンシング(すなわち、一重シーケンシング)するか、または、複数のサンプル由来のDNAをプールして、インデックス付きゲノム分子として単一シーケンシングランでシーケンシング(すなわち、多重シーケンシング)して、最大数億のDNA配列リードを生成することができる。本方法に従って配列情報を得るために使用することができるシーケンシング技術の例をここにさらに記載する。
【0254】
下記の通りのAffymetrix Inc.(Sunnyvale, CA)のシーケンシング・バイ・ハイブリダイゼーションプラットフォーム、454 Life Sciences(Bradford, CT)、Illumina/Solexa(Hayward, CA)およびHelicos Biosciences(Cambridge, MA)のシーケンシング・バイ・シンセシスプラットフォーム、ならびにApplied Biosystems(Foster City, CA)のシーケンシング・バイ・ライゲーションプラットフォームなどのいくつかのシーケンシング技術が市販されている。Helicos Biosciencesのシーケンシング・バイ・シンセシスを使用して行われる単一分子シーケンシングに加えて、他の単一分子シーケンシング技術は、Pacific BiosciencesのSMRT(商標)技術、ION TORRENT(商標)技術、および、例えばOxford Nanopore Technologiesによって開発されたナノポアシーケンシングを含むが、それらに限定されない。
【0255】
自動化サンガー法は、「第一世代」技術として考えられているが、自動化サンガーシーケンシングを含むサンガーシーケンシングも、本明細書に記載の方法において利用することができる。追加の好適なシーケンシング法は、核酸イメージング技術、例えば、原子間力顕微鏡(AFM)または透過型電子顕微鏡(TEM)を含むが、それらに限定されない。例示的なシーケンシング技術を以下にさらに詳細に記載する。
【0256】
いくつかの態様において、本開示の方法は、Illumina社のシーケンシング・バイ・シンセシスおよび可逆性ターミネーターに基づくシーケンシング化学(例えば、Bentley et al., Nature 6:53-59 [2009]に記載の通り)を使用した数百万のDNA断片の大規模並列シーケンシングによって、試験サンプル中の核酸に関する配列情報を得る工程を伴う。鋳型DNAは、ゲノムDNA、例えば、細胞DNAまたはcfDNAであることができる。いくつかの態様において、単離細胞に由来するゲノムDNAが鋳型として使用され、それは、数百塩基対の長さまで断片化される。他の態様において、cfDNAまたは循環腫瘍DNA(ctDNA)が鋳型として使用され、cfDNAまたはctDNAは短い断片として存在するので断片化の必要はない。例えば、胎児cfDNAは、およそ170塩基対(bp)長の断片として血流中を循環し(Fan et al., Clin Chem 56:1279-1286 [2010])、シーケンシングの前にDNAの断片化は必要ない。Illumina社のシーケンシング技術は、断片化ゲノムDNAを、オリゴヌクレオチドアンカーが結合した平坦で光学的に透明な表面に結合させることに依拠する。鋳型DNAをエンドリペアして5'-リン酸化平滑末端を生成し、クレノウ断片のポリメラーゼ活性を使用して単一のA塩基を平滑リン酸化DNA断片の3'末端に付加する。この付加は、オリゴヌクレオチドアダプターへのライゲーション用のDNA断片を調製し、該DNA断片はライゲーションの効率を高めるためその3'末端に単一のT塩基のオーバーハングを有する。アダプターオリゴヌクレオチドは、フローセルのアンカーオリゴに相補的である。限界希釈条件下において、アダプター修飾一本鎖鋳型DNAをフローセルに加え、ハイブリダイゼーションによりアンカーオリゴに固定する。結合されたDNA断片を伸長し、ブリッジ増幅して、各々同じ鋳型の約1,000コピーを含有するクラスタを数億有する超高密度シーケンシングフローセルを生じる。一態様において、PCRを使用してランダムに断片化したゲノムDNAを増幅した後に、それをクラスタ増幅に供する。あるいは、増幅不要ゲノムライブラリー調製を使用し、ランダムに断片化したゲノムDNAを、クラスタ増幅単独を使用して濃縮する(Kozarewa et al., Nature Methods 6:291-295 [2009])。いくつかの用途において、鋳型を、除去可能な蛍光色素を有する可逆性ターミネーターを利用するロバストな4色DNAシーケンシング・バイ・シンセシス技術を使用してシーケンシングする。高感度蛍光検出は、レーザ励起および全内部反射光学を使用して達成される。約数十~数百の塩基対の短い配列リードを参照ゲノムに対してアラインさせ、参照ゲノムに対する短い配列リードの一意のマッピングは、特別に開発されたデータ解析パイプラインソフトウェアを使用して特定される。第一の読み取りの完了後、鋳型をその場で再生成して、断片の反対側の末端からの第二の読み取りを可能にすることができる。したがって、DNA断片のシングルエンドシーケンシングまたはペアエンドシーケンシングのいずれかを使用することができる。
【0257】
本開示の様々な態様は、ペアエンドシーケンシングを可能にするシーケンシング・バイ・シンセシスを使用してよい。いくつかの態様において、Illumina社によるシーケンシング・バイ・シンセシスプラットフォームは、断片のクラスタ化を伴う。クラスタ化は、各断片分子が等温で増幅されるプロセスである。いくつかの態様において、ここに記載の例として、断片は、断片の2つの末端に結合した2つの異なるアダプターを有し、該アダプターは、フローセルレーンの表面において断片が2つの異なるオリゴとハイブリダイズすることを可能にする。断片は、断片の2つの末端に2つのインデックス配列をさらに含むかまたはそれに接続され、そのインデックス配列は、多重シーケンシングにおいて異なるサンプルを特定するための標識を提供する。いくつかのシーケンシングプラットフォームでは、両端からシーケンシングしようとする断片は、インサートとも称される。
【0258】
いくつかの実施態様において、Illumina社のプラットフォームにおけるクラスタ化用のフローセルは、レーン付きのスライドガラスである。各レーンは、2つのタイプのオリゴ(例えば、P5オリゴおよびP7'オリゴ)のローンでコートされたガラスチャネルである。ハイブリダイゼーションは、表面の2つのタイプのオリゴの第一オリゴにより可能になる。このオリゴは、断片の一方の末端上の第一のアダプターに相補的である。ポリメラーゼは、ハイブリダイズした断片の相補鎖を生じる。二本鎖分子は変性し、オリジナルの鋳型鎖は洗い流される。残存鎖は、他の多くの残存鎖と並行して、ブリッジ適用を介してクローン増幅される。
【0259】
クラスタ化を伴うブリッジ増幅および他のシーケンシング法において、鎖は折り重なり、鎖の第二の末端の第二のアダプター領域が、フローセル表面の第二のタイプのオリゴとハイブリダイズする。ポリメラーゼは、相補鎖を生成し、二本鎖のブリッジ分子を形成する。この二本鎖分子は変性し、2つの異なるオリゴを介してフローセルに係留した2つの一本鎖分子をもたらす。プロセスは次に、何度も繰り返され、数百万のクラスタについて同時に行われ、全断片のクローン増幅をもたらす。ブリッジ増幅後、逆鎖が切断され、洗い流され、フォワード鎖のみが残る。3'末端がブロックされ、望ましくないプライミングが防止される。
【0260】
クラスタ化後、シーケンシングは、第一のシーケンシングプライマーを伸長させて第一のリードを生成することから始まる。各サイクルで、蛍光タグ化されたヌクレオチドが成長鎖への付加と競合する。ただ1つが鋳型の配列に基づき組み込まれる。各ヌクレオチドの付加後、クラスタは光源によって励起され、特徴的な蛍光シグナルが放出される。サイクル数がリードの長さを決定する。発光波長およびシグナル強度がベースコールを決定する。所与のクラスタでは、全ての同一鎖が同時に読み取られる。数億のクラスタが大規模並列にシーケンシングされる。第一の読み取りの完了時、リード産物は洗い流される。
【0261】
2つのインデックスプライマーを伴うプロトコルの次の工程では、インデックス1プライマーが、鋳型上のインデックス1領域に導入およびハイブリダイズされる。インデックス領域は、断片の特定を提供し、これは、多重シーケンシングプロセスにおいてサンプルを逆多重化するのに有用である。インデックス1リードは、第一のリードと同様に生成される。インデックス1リードの完了後、リード産物が洗い流され、鎖の3'末端が脱保護される。鋳型鎖は次に、折り重なり、フローセル上の第二のオリゴに結合する。インデックス2配列がインデックス1と同様に読み取られる。次に、インデックス2リード産物が工程の完了時に洗い流される。
【0262】
2つのインデックスを読み取った後、リード2は、ポリメラーゼを使用することによって第二のフローセルオリゴを伸長させ、二本鎖のブリッジを形成することから始まる。この二本鎖DNAは変性し、3'末端はブロックされる。オリジナルのフォワード鎖は切断され、洗い流され、逆鎖が残る。リード2は、リード2シーケンシングプライマーの導入から始まる。リード1と同様に、所望の長さが達成されるまでシーケンシング工程が繰り返される。リード2産物は洗い流される。このプロセス全体は、全断片を表す数百万のリードを生成する。プールされたサンプルライブラリーからの配列は、サンプル調製中に導入されたユニークインデックスに基づき分離させられる。各サンプルについて、類似の長さのベースコールのリードが局所的にクラスタ化される。フォワードリードおよびリバースリードが対合して、隣接した配列を生じる。これらの隣接した配列は、バリアントの特定のために参照ゲノムにアラインされる。
【0263】
上記のシーケンシング・バイ・シンセシス例は、ペアエンドリードを伴い、これは本開示の方法の態様の多くにおいて使用される。ペアエンドシーケンシングは、断片の2つの末端由来の2つのリードを伴う。ペアエンドリードを使用して、あいまいなアライメントを分解する。ペアエンドシーケンシングは、ユーザーがインサートの長さ(またはシーケンシングしようとする断片)を選択し、インサートのいずれかの末端をシーケンシングし、高品質のアライン可能な配列データを生成することを可能にする。各ペアリード間の距離は既知であるので、アライメントアルゴリズムはこの情報を使用して、リードを反復領域にわたってより正確にマッピングすることができる。これは、とりわけ、シーケンシングするのが難しいゲノムの反復領域にわたって、リードのより良好なアライメントをもたらす。ペアエンドシーケンシングは、挿入および欠失(インデル)ならびに逆位を含む再配置を検出することができる。
【0264】
ペアエンドリードは、異なる長さ(すなわち、シーケンシングしようとする異なる断片サイズ)のインサートを使用してよい。本開示の規定の意味として、ペアエンドリードは、様々なインサート長から得られるリードを指すために使用される。いくつかの例では、短いインサートペアエンドリードと長いインサートペアエンドリードを識別するため、後者は特にメイトペアリードと称される。メイトペアリードを伴ういくつかの態様において、2つのビオチンジャンクションアダプターがまず、比較的長いインサート(例えば、数kb)の2つの末端に結合される。ビオチンジャンクションアダプターは次に、インサートの2つの末端を連結して環状分子を形成する。次に、環状分子をさらに断片化することによってビオチンジャンクションアダプターを包含する部分断片を得ることができる。次に、オリジナルの断片の2つの末端を反対の配列順で含む部分断片を、上記の短いインサートペアエンドシーケンシングと同じ手順によってシーケンシングすることができる。Illumina社のプラットフォームを使用したメイトペアシーケンシングのさらなる詳細は、以下のアドレスのオンライ刊行物に示されており、これはその全体が参照によって組み入れられる:res.illumina.com/documents/products/technotes/technote_nextera_matepair_data_processing.pdf。
【0265】
DNA断片のシーケンシング後、所定の長さ、例えば100bpの配列リードが、既知の参照ゲノムにマッピング(アライメント)することによって配置される。マッピングされたリードおよびその対応する参照配列上の位置は、タグとも称される。該手順の別の態様において、位置測定は、k-mer共有およびリード-リードアライメントによって実現される。本明細書に開示の多くの態様の解析は、アラインされたリード(タグ)だけでなく、不完全にアラインされたかまたはアラインされることができないリードも使用する。一態様において、参照ゲノム配列は、NCBI36/hg18配列であり、これはWorld Wide Webのgenome.ucsc.edu/cgi-bin/hgGateway?org=Human&db=hg18&hgsid=166260105)で利用可能である。あるいは、参照ゲノム配列は、GRCh37/hg19またはGRCh38であり、これはWorld Wide Webのgenome.ucsc.edu/cgi-bin/hgGatewayで利用可能である。他の公的な配列情報源は、GenBank、dbEST、dbSTS、EMBL(the European Molecular Biology Laboratory)およびDDBJ(the DNA Databank of Japan)を含む。BLAST(Altschul et al., 1990)、BLITZ(MPsrch)(Sturrock & Collins, 1993)、FASTA(Person & Lipman, 1988)、BOWTIE(Langmead et al., Genome Biology 10:R25.1-R25.10 [2009])またはELAND(Illumina, Inc., San Diego, CA, USA)を非限定的に含む、多数のコンピュータアルゴリズムが配列をアラインするのに利用可能である。一態様において、クローン拡大させた血漿cfDNA分子のコピーの1つの末端をシーケンシングし、Efficient Large-Scale Alignment of Nucleotide Databases(ELAND)ソフトウェアを使用するIllumina Genome Analyzer用のバイオインフォマティクスアライメント解析によって処理する。
【0266】
また、他のシーケンシング法を使用して、配列リードおよびそのアライメントを得てもよい。追加の好適な方法は、2016年4月15日に出願された米国特許出願第15/130,668号に記載されており、これはその全体が参照によって組み入れられる。
【0267】
本明細書に記載の方法のいくつかの態様において、配列リードは、約20bp、約25bp、約30bp、約35bp、約40bp、約45bp、約50bp、約55bp、約60bp、約65bp、約70bp、約75bp、約80bp、約85bp、約90bp、約95bp、約100bp、約110bp、約120bp、約130、約140bp、約150bp、約200bp、約250bp、約300bp、約350bp、約400bp、約450bpまたは約500bpである。技術的な利点は、500bpを超える単一末端リードを可能にし、ペアエンドリードが生成されるときは約1000bpを超えるリードが可能になることが期待される。いくつかの態様において、ペアエンドリードを使用して、関心対象の配列を決定し、これは、約20bp~1000bp、約50bp~500bpまたは80bp~150bpである配列リードを含む。様々な態様において、ペアエンドリードを使用して、関心対象の配列を評価する。関心対象の配列は、リードより長い。いくつかの態様において、関心対象の配列は、約100bp、500bp、1000bpまたは4000bpより長い。配列リードのマッピングは、リードの配列を参照の配列と比較して、シーケンシングされる核酸分子の染色体起源を決定することによって達成され、特別な遺伝子配列情報は必要ない。わずかなミスマッチ(1リード当たり0~2ミスマッチ)が、参照ゲノムと混合サンプル中のゲノムとの間に存在し得る少数の多型の原因となり得る。いくつかの態様において、参照配列にアラインされるリードは、アンカーリードとして使用され、アンカーリードとは対であるが参照にアラインできないかまたは不完全にアラインされるリードがアンカー付きリードとして使用される。いくつかの態様において、不完全にアラインされたリードは、1リード当たり比較的大きいミスマッチ率、例えば、1リード当たり少なくとも約5%、少なくとも約10%、少なくとも約15%または少なくとも約20%のミスマッチを有し得る。
【0268】
複数の配列タグ(すなわち、参照配列にアラインされるリード)は、典型的には、1サンプル当たり得られる。いくつかの態様において、例えば100bpの、少なくとも約3×106の配列タグ、少なくとも約5×106の配列タグ、少なくとも約8×106の配列タグ、少なくとも約10×106の配列タグ、少なくとも約15×106の配列タグ、少なくとも約20×106の配列タグ、少なくとも約30×106の配列タグ、少なくとも約40×106の配列タグまたは少なくとも約50×106の配列タグが、サンプルごとにリードを参照ゲノムへマッピングすることから得られる。いくつかの態様において、全ての配列リードが参照ゲノムの全領域にマッピングされ、ゲノム全般のリードを提供する。他の態様において、リードが関心対象の配列にマッピングされる。
【0269】
UMIを使用したシーケンシングのための装置およびシステム
明らかであるように、本発明の特定の態様は、1つまたは複数のコンピュータシステムに保存されるかまたはそれを通して転送される命令および/またはデータの制御下で作用するプロセスを利用する。特定の態様はまた、これらの操作を行うための装置に関する。この装置は、必要な目的のために特別に設計および/もしくは構築されてもよいし、1つまたは複数のコンピュータプログラムおよび/またはコンピュータに保存されているかそうでなければコンピュータが利用可能であるデータ構造によって選択的に構成される汎用コンピュータであってもよい。特に、様々な汎用機器を、本明細書の教示に従って書かれたプログラムで使用してもよいし、必要な方法工程を行うためにより特殊化された装置を構築することもより都合がよい場合がある。多種多様なこれらの機器の特定の構造が以下に示され、説明される。
【0270】
特定の態様はまた、本明細書に記載の通り生成された結果(例えば、クエリー結果)またはデータ構造のいずれかを保存するための機能(例えば、コードおよびプロセス)を提供する。そのような結果またはデータ構造は、典型的には、コンピュータ可読媒体に、少なくとも一時的に保存される。結果またはデータ構造はまた、表示、印刷などの様々な様式のいずれかのアウトプットであってもよい。
【0271】
本発明のコンピュータプログラム製品および計算装置での使用に適した有形のコンピュータ可読媒体の例は、ハードディスク、フロッピーディスクおよび磁気テープなどの磁気媒体;CD-ROMディスクなどの光媒体;光磁気媒体;半導体記憶デバイス(例えば、フラッシュメモリ)、ならびに、読み取り専用記憶デバイス(ROM)およびランダムアクセスメモリ(RAM)などのプログラム命令を保存および実行するように特別に構成されたハードウェアデバイス、時には、特定用途向け集積回路(ASIC)、プログラマブルロジックデバイス(PLD)およびコンピュータ可読命令を伝達するための信号伝送媒体、例えばローカルエリアネットワーク、ワイドエリアネットワークおよびインターネットを含むが、それらに限定されない。本明細書において提供されるデータおよびプログラム命令はまた、搬送波または他の輸送媒体(電子または光導電経路を含む)に収録されてもよい。本発明のデータおよびプログラム命令はまた、搬送波または他の輸送媒体(例えば、光回線、電気回線および/または放送電波)に収録されてもよい。
【0272】
プログラム命令の例は、低レベルコード、例えばコンパイラによって生成される低レベルコード、ならびにインタプリタを使用してコンピュータで実行され得るより高いレベルのコードを含む。さらに、プログラム命令は、マシンコード、ソースコードおよび/または計算機の操作を直接的もしくは間接的に制御する任意の他のコードであり得る。コードは、インプット、アウトプット、演算、条件節、分岐、反復ループなどを指定し得る。
【0273】
シーケンシングデータの解析およびそれに由来する診断は、典型的には、様々なコンピュータによって実行されるアルゴリズムおよびプログラムを使用して行われる。それ故、特定の態様は、1つまたは複数のコンピュータシステムまたは他の処理システムに保存されているかまたはそれを通して転送されるデータを伴うプロセスを利用する。本明細書に開示の態様はまた、これらの操作を行うための装置に関する。この装置は、必要な目的のために特別に構築されてもよいし、コンピュータプログラムおよび/またはコンピュータに保存されているデータ構造によって選択的に作動するかまたは再構成される汎用コンピュータ(またはコンピュータ群)であってもよい。いくつかの態様において、プロセッサ群は、列記された解析操作の一部または全てを、共同的に(例えば、ネットワークまたはクラウドコンピューティングを介して)および/または並行して行う。本明細書に記載の方法を行うためのプロセッサまたはプロセッサ群は、プログラム可能デバイスなどのマイクロコントローラおよびマイクロプロセッサ(例えば、CPLDおよびFPGA)ならびにゲートアレイASICなどの非プラグラム可能デバイス、または汎用マイクロプロセッサを含む様々なタイプのものであってよい。
【0274】
一実施態様は、核酸を含む試験サンプル中の対立遺伝子頻度が低い配列を決定する際に使用するためのシステムを提供し、該システムは、核酸サンプルを受け取り、サンプルからの核酸配列情報を提供する、シーケンサー;プロセッサ;および前記プロセッサで実行するための命令が保存された機械可読記憶媒体であって、試験サンプル中の関心対象の配列を、(a)サンプル中のDNA断片にアダプターを付加して、DNA-アダプター産物を得る工程であって、各アダプターが非ランダムユニーク分子インデックスを含み、かつ、アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;(b)DNA-アダプター産物を増幅して、複数の増幅されたポリヌクレオチドを得る工程;(c)シーケンサーを使用して、複数の増幅されたポリヌクレオチドをシーケンシングして、それによってvNRUMIのセットに関連する複数のリードを得る工程;(d)プロセッサによって、複数のリードの中で、同じ可変長の非ランダムユニーク分子インデックス(vNRUMI)に関連するリードを特定する工程;および(e)同じvNRUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定する工程によって決定する、機械可読記憶媒体を含む。
【0275】
本明細書において提供されるシステムのいずれかのいくつかの態様において、シーケンサーは、次世代シーケンシング(NGS)を行うように構成される。いくつかの態様において、シーケンサーは、可逆性ダイターミネーターを用いたシーケンシング・バイ・シンセシスを使用した大規模並列シーケンシングを行うように構成される。他の態様において、シーケンサーは、シーケンシング・バイ・ライゲーションを行うように構成される。なお他の態様において、シーケンサーは、単一分子シーケンシングを行うように構成される。
【0276】
別の実施態様は、核酸合成装置、プロセッサおよびシーケンシングアダプターを調製するための前記プロセッサで実行するための命令が保存された機械可読記憶媒体を含む、システムを提供する。命令は、(a)プロセッサによって、少なくとも2つの異なる分子長を有するオリゴヌクレオチド配列のセットを提供する工程;(b)プロセッサによって、オリゴヌクレオチド配列のセットからオリゴヌクレオチド配列のサブセットを選択する工程であって、オリゴヌクレオチド配列のサブセットのオリゴヌクレオチド配列間の全ての編集距離が閾値を満たし、オリゴヌクレオチド配列のサブセットが可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、工程;ならびに(c)核酸合成装置を使用して、複数のシーケンシングアダプターを合成する工程であって、各シーケンシングアダプターが、二本鎖のハイブリダイズした領域、一本鎖の5'アーム、一本鎖の3'アームおよびvNRUMIのセットの少なくとも1つのvNRUMIを含む工程を含む。
【0277】
加えて、特定の態様は、様々なコンピュータが実行する操作を行うためのプログラム命令および/またはデータ(データ構造を含む)を含む、有形かつ/または非一時的なコンピュータ可読媒体またはコンピュータプログラム製品に関する。コンピュータ可読媒体の例は、半導体記憶デバイス、ディスクドライブなどの磁気媒体、磁気テープ、CDなどの光媒体、光磁気媒体、ならびに読み取り専用記憶デバイス(ROM)およびランダムアクセスメモリ(RAM)などのプログラム命令を保存および実行するように特別に構成されたハードウェアデバイスを含むが、それらに限定されない。コンピュータ可読媒体は、エンドユーザーによって直接的に制御されても、エンドユーザーによって間接的に制御されてもよい。直接的に制御される媒体の例は、ユーザーファシリティに配置された媒体および/または他のエンティティと共有されない媒体を含む。間接的に制御される媒体の例は、外部ネットワークを介しておよび/または「クラウド」などのサービス提供共有リソースを介してユーザーに間接的にアクセス可能な媒体を含む。プログラム命令の例は、マシンコード、例えばコンパイラによって生成されるマシンコードと、インタプリタを使用してコンピュータで実行され得るより高いレベルのコードを含有するファイルの両方を含む。
【0278】
様々な態様において、本開示の方法および装置において利用されるデータまたは情報は、電子フォーマットで提供される。そのようなデータまたは情報は、核酸サンプルに由来するリードおよびタグ、参照配列(多型のみまたは主に多型を提供する参照配列を含む)、癌診断コールなどのコール、カウンセリング勧告、診断などを含み得る。本明細書において使用される場合、電子フォーマットで提供されるデータまたは他の情報は、機械における保存および機械間の転送に利用可能である。慣用的に、電子フォーマットのデータはデジタル方式で提供され、様々なデータ構造、リスト、データベースなどでビットおよび/またはバイトとして保存され得る。データは、電子的、光学的などで収録され得る。
【0279】
一態様は、試験サンプル中の関心対象のDNA断片の配列を示すアウトプットを生成するためのコンピュータプログラム製品を提供する。コンピュータ製品は、関心対象の配列を決定するための上記方法のいずれか1つまたは複数を行うための命令を含有し得る。説明したように、コンピュータ製品は、関心対象の配列を決定するためのプロセッサを作動させるために記録されたコンピュータ実行可能なまたはコンピュータに準拠したロジック(例えば命令)を有する、非一時的および/または有形のコンピュータ可読媒体を含み得る。一例では、コンピュータ製品は、病状を診断するかまたは関心対象の核酸配列を決定するためのプロセッサを作動させるために記録されたコンピュータ実行可能なまたはコンピュータに準拠したロジック(例えば命令)を有する、コンピュータ可読媒体を含む。
【0280】
助けを受けないヒトにとって本明細書に開示の方法の計算操作を行うことは、現実的ではないかまたは多くの場合に可能ですらないということを理解すべきである。例えば、あるサンプル由来の単一の30bpリードをヒト染色体のいずれか1つにマッピングするには、計算装置の補助なしでは数年の労力を要し得る。当然ながら、対立遺伝子頻度が低い変異の信頼できるコールは一般に、数千(例えば、少なくとも約10,000)または数百万のリードを1つまたは複数の染色体にマッピングすることが必要であるので、問題は複雑である。
【0281】
本明細書に開示の方法は、試験サンプル中の関心対象の配列を決定するためのシステムを使用して行うことができる。システムは、(a)試験サンプル由来の核酸を受け取り、サンプル由来の核酸配列情報を提供するための、シーケンサー;(b)プロセッサ;および(c)試験サンプル中の関心対象の配列を決定するための、前記プロセッサで実行するための命令が保存された1つまたは複数のコンピュータ可読記憶媒体を含み得る。いくつかの態様において、該方法は、関心対象の配列を決定するための方法を実施するためのコンピュータ可読命令が保存されたコンピュータ可読媒体によって命令される。したがって、一態様は、コンピュータシステムの1つまたは複数のプロセッサによって実行されると、試験サンプル中の核酸断片の配列を決定するための方法をコンピュータシステムに実施させる、プログラムコードを記憶している非一時的機械可読媒体を含む、コンピュータプログラム製品を提供する。プログラムコードは、(a)複数の増幅されたポリヌクレオチドの複数のリードを得るためのコードであって、複数の増幅されたポリヌクレオチドの各ポリヌクレオチドが、DNA断片に結合されたアダプターを含み、アダプターが非ランダムユニーク分子インデックスを含み、かつ、アダプターの非ランダムユニーク分子インデックスが、少なくとも2つの異なる分子長を有し、可変長の非ランダムユニーク分子インデックス(vNRUMI)のセットを形成する、コード;(b)複数のリードの中で、同じvNRUMIに関連するリードを特定するためのコード;および(c)同じvNRUMIに関連するリードを使用して、サンプル中のDNA断片の配列を決定するためのコードを含み得る。
【0282】
いくつかの態様において、プログラムコードまたは命令は、該方法に関する情報を自動的に記録することをさらに含み得る。患者の医療記録は、例えば、研究所、医師のオフィス、病院、健康維持機構、保険会社または個人の健康記録ウェブサイトによって維持され得る。さらに、プロセッサが実行した解析の結果に基づき、該方法は、試験サンプルが採取されたヒト対象の処置を指示し、開始し、かつ/または変更することをさらに伴い得る。これは、対象から採取された追加のサンプルに対して1つまたは複数の追加の試験または解析を行うことを伴い得る。
【0283】
本開示の方法はまた、関心対象の配列を決定するための方法を行うように適合または構成されたコンピュータ処理システムを使用して行うこともできる。一態様は、本明細書に記載の通りの方法を行うように適合または構成されたコンピュータ処理システムを提供する。一態様において、装置は、本明細書の他の箇所に記載の配列情報のタイプを得るために、サンプル中の核酸分子の少なくとも一部をシーケンシングするために適合または構成されたシーケンシングデバイスを含む。装置はまた、サンプルを処理するためのコンポーネントを含み得る。そのようなコンポーネントは、本明細書の他の箇所に記載される。
【0284】
配列または他のデータを、直接的または間接的に、コンピュータにインプットするかまたはコンピュータ可読媒体に保存することができる。一態様において、コンピュータシステムは、サンプル由来の核酸の配列を読み取りおよび/または解析するシーケンシングデバイスに直接結合される。そのようなツールからの配列または他の情報は、コンピュータシステムのインターフェースを介して提供される。あるいは、システムによって処理された配列は、データベースまたは他のリポジトリなどの配列記憶ソースから提供される。いったん処理装置に利用可能になれば、記憶デバイスまたは大容量記憶デバイスは、核酸の配列を少なくとも一時的にバッファーリングするかまたは保存する。加えて、記憶デバイスは、様々な染色体またはゲノムなどのタグカウントを保存し得る。メモリはまた、表示された配列またはマッピングされたデータを解析するための様々なルーチンおよび/またはプログラムを保存し得る。このようなプログラム/ルーチンは、統計分析などを行うためのプログラムを含み得る。
【0285】
一例では、ユーザーは、サンプルをシーケンシング装置に提供する。データは、コンピュータに接続されたシーケンシング装置によって収集および/または解析される。コンピュータ上のソフトウェアは、データ収集および/またはデータ解析を可能にする。データは、保存され、表示され(モニタまたは他の類似のデバイスを介して)、かつ/または別の位置に送ることができる。コンピュータは、インターネットに接続され得、これを使用して、遠隔ユーザー(例えば、医師、科学者または分析者)によって利用されるハンドヘルドデバイスにデータを転送する。データを転送の前に保存および/または解析できることが理解される。いくつかの態様において、生データが収集され、データを解析および/または保存する遠隔ユーザーまたは装置に送られる。転送はインターネットを介して起き得るが、衛星または他の接続を介しても起き得る。あるいは、データはコンピュータ可読媒体に保存することができ、媒体はエンドユーザーに(例えば、メールを介して)送ることができる。遠隔ユーザーは、建物、市、州、国または大陸を非限定的に含む、同じまたは異なる地理的位置にいることができる。
【0286】
いくつかの態様において、該方法はまた、複数のポリヌクレオチド配列に関するデータ(例えば、リード、タグおよび/または参照染色体配列)を収集する工程、および、データをコンピュータまたは他の計算システムに送る工程を含む。例えば、コンピュータは、研究所の機器、例えば、サンプル収集装置、ヌクレオチド増幅装置、ヌクレオチドシーケンシング装置またはハイブリダイゼーション装置に連結させることができる。コンピュータは次に、研究所のデバイスにより集められた適用可能なデータを収集することができる。データは、任意の工程、例えば、収集される間のリアルタイムで、送信前、送信中、送信と同時、または送信後に、コンピュータに保存することができる。データは、コンピュータから取り出すことができるコンピュータ可読媒体に保存することができる。収集または保存されたデータは、コンピュータから遠隔の位置へ、例えばローカルネットワークまたはインターネットなどのワイドエリアネットワークを介して転送することができる。遠隔位置では、下記の通り、様々な操作を転送データに対して行うことができる。
【0287】
本明細書に開示のシステム、装置、および方法において保存、転送、解析および/または操作され得る電子フォーマット化されたデータのタイプには、以下のものがある:
試験サンプル中の核酸をシーケンシングすることによって得られるリード
リードを参照ゲノムまたは他の参照配列または配列にアラインすることによって得られるタグ
参照ゲノムまたは配列
試験サンプルを影響あり、影響なし、またはコールなしとコールするための閾値
関心対象の配列に関係する医学的状態についての実際のコール
診断(コールに関連する臨床状態)
コールおよび/または診断から導かれたさらなる試験の勧告
コールおよび/または診断から導かれた処置および/またはモニタリング計画。
【0288】
これらの様々なタイプのデータは、別個の装置を使用して、1つまたは複数の位置で、得られ、保存され、転送され、解析され、かつ/または操作され得る。処理オプションは広範囲に及ぶ。その範囲の一端では、この情報の全てまたは多くが、試験サンプルが処理される位置、例えば、医師のオフィスまたは他の臨床現場で保存および使用される。その一方で、サンプルが、ある位置で得られ、それが異なる位置で処理および場合によりシーケンシングされ、リードがアラインされ、そして、コールが1つまたは複数の異なる位置で行われ、診断、勧告および/または計画が、さらに別の位置(サンプルを得た位置であり得る)で準備される。
【0289】
様々な態様において、リードがシーケンシング装置を用いて生成され、次に遠隔地に転送し、そこでこれらを処理して、関心対象の配列を決定する。この遠隔位置では、例えば、リードが参照配列にアラインされ、アンカーおよびアンカーリードを生成する。中でも、別個の位置で利用され得る処理操作は、以下である:
サンプル収集
シーケンシングの準備としてのサンプル処理
シーケンシング
配列データの解析および医療コールの導出
診断
患者または医療供給者への診断および/またはコールの報告
さらなる処置、試験および/またはモニタリングのための計画の作成
計画の実行
カウンセリング。
【0290】
これらの操作のいずれか1つまたは複数は、本明細書の他の箇所に記載の通り自動化され得る。典型的には、シーケンシングおよび配列データの解析および医療コールの導出は、コンピュータで行われる。他の操作は、手動で行われても自動で行われてもよい。
【0291】
図6は、試験サンプルからのコールまたは診断を生成するための分散システムの一実施態様を示す。サンプル収集位置01は、患者から試験サンプルを得るために使用される。サンプルは次いで、処理およびシーケンシング位置03に提供され、そこで試験サンプルは、上記の通り処理およびシーケンシングされ得る。位置03は、サンプルを処理するための装置および処理したサンプルをシーケンシングするための装置を含む。シーケンシングの結果は、本明細書の他の箇所に記載の通り、リードの集合であり、これは典型的には電子フォーマットで提供され、インターネットなどのネットワークに提供され、これは、
図6の参照番号05に示されている。
【0292】
配列データは、遠隔位置07に提供され、そこで解析およびコール生成が行われる。この位置は、コンピュータまたはプロセッサなどの1つまたは複数の強力な計算デバイスを含み得る。位置07での計算リソースが解析を完了し、受け取った配列情報からコールを生成した後、コールはネットワーク05に中継される。いくつかの実施態様において、コールが位置07で生成されるだけでなく、関連する診断も生成される。コールおよび/または診断は次に、
図6に図示されている通り、ネットワークに転送され、サンプル収集位置01に戻される。説明したように、これは、コールまたは診断の生成に関連する様々な操作が様々な位置にどのように分類され得るかについての多くのバリエーションのうちの1つにすぎない。ある共通のバリアントは、単一の位置におけるサンプル収集ならびに処理およびシーケンシングの提供を伴う。別のバリエーションは、解析およびコール生成と同じ位置での処理およびシーケンシングの提供を伴う。
【0293】
図7は、シンプルブロックフォーマットで、適切に構成または設計されたとき、特定の態様に係る計算装置として役立つことができる典型的なコンピュータシステムを図示している。コンピュータシステム2000は、主記憶装置2006(典型的には、ランダムアクセスメモリまたはRAM)、主記憶装置2004(典型的には、読み取り専用メモリまたはROM)を含む、記憶デバイスに結合されているいくつものプロセッサ2002(中央処理ユニットまたはCPUとも称される)を含む。CPU 2002は、プログラム可能デバイスなどのマイクロコントローラおよびマイクロプロセッサ(例えば、CPLDおよびFPGA)ならびにゲートアレイASICなどの非プラグラム可能デバイスまたは汎用マイクロプロセッサを含む様々なタイプのものであり得る。図示されている態様において、主記憶装置2004は、データおよび命令をCPUに一方向に転送するために働き、そして、主記憶装置2006は、典型的にはデータおよび命令を双方向に転送するために使用される。これらの主記憶装置デバイスは共に、上記のものなどの任意の好適なコンピュータ可読媒体を含み得る。また、大容量記憶デバイス2008も主記憶装置2006に双方向に結合され、追加のデータ記憶容量を提供し、上記のコンピュータ可読媒体のいずれかを含み得る。大容量記憶デバイス2008は、プログラム、データなどを保存するために使用され得、典型的にはハードディスクなどの二次記憶媒体である。しばしば、そのようなプログラム、データなどは、CPU 2002での実行のために一次メモリ2006に一時的にコピーされる。大容量記憶デバイス2008内に保管された情報は、適切な場合に、主記憶装置2004の一部として標準的な様式で組み込まれ得ると理解されよう。CD-ROM 2014などの特定の大容量記憶デバイスもまた、データをCPUまたは主記憶装置に一方向に渡し得る。
【0294】
CPU 2002はまた、1つまたは複数のインプット/アウトプットデバイス、例えば、核酸シーケンサー(2020)、核酸合成装置(2022)、ビデオモニタ、トラックボール、マウス、キーボード、マイクロホン、タッチ感応ディスプレイ、トランスデューサカード読み取り装置、磁気もしくは紙テープ読み取り装置、タブレット、スタイラス、音声もしくは手書き文字認識装置、USBポート、または他の周知のインプットデバイス、例えば当然ながら他のコンピュータに接続する、インターフェース2010に結合される。最後に、CPU 2002は、場合により、データベースもしくはコンピュータなどの外部デバイスまたは2012で一般に示されているような外部接続を使用した電気通信ネットワークに結合され得る。そのような接続によって、CPUが、本明細書に記載の方法工程を行う過程で、ネットワークから情報を受け取るかまたはネットワークに情報をアウトプットすると想定される。いくつかの実施態様において、核酸シーケンサーまたは核酸合成装置は、インターフェース2010を介する代わりにまたはそれに加えて、ネットワーク接続2012を介してCPU 2002に通信可能に連結され得る。
【0295】
一態様において、コンピュータシステム2000などのシステムは、本明細書に記載のタスクの一部または全てを行うことができるデータインポート、データ相関および照会システムとして使用される。データファイルを含む情報およびプログラムは、研究者によるアクセスまたはダウンロードによってネットワーク接続2012を介して提供されることができる。あるいは、そのような情報、プログラムおよびファイルは、記憶デバイス上で研究者に提供されることができる。
【0296】
具体的な態様において、コンピュータシステム2000は、サンプルからデータを取得するマイクロアレイ、ハイスループットスクリーニングシステムまたは核酸シーケンサー(2020)などのデータ取得システムに直接結合される。そのようなシステムからのデータは、システム2000による解析用にインターフェース2010を介して提供される。あるいは、システム2000によって処理されたデータは、データベースまたは関係するデータの他のリポジトリなどのデータ記憶ソースから提供される。いったん装置2000に入ると、主記憶装置2006または大容量記憶装置2008などの記憶デバイスは、関係するデータを少なくとも一時的にバッファーリングするかまたは保存する。メモリはまた、配列リード、UMI、配列リードの決定、配列リードの折りたたみおよびリードにおけるエラー補正のためのコードなどを含む、データをインポート、解析および提示するための様々なルーチンおよび/またはプログラムを保存し得る。
【0297】
特定の態様において、本明細書において使用されるコンピュータは、任意のタイプのコンピュータ(例えば、デスクトップ、ラップトップ、タブレットなど)、メディアコンピュータプラットフォーム(例えば、ケーブル、衛星セットトップボックス、デジタルビデオレコーダなど)、ハンドヘルドコンピュータデバイス(例えば、PDA、電子メールクライアントなど)、携帯電話または任意の他のタイプのコンピュータもしくは通信プラットフォームであり得る、ユーザー端末を含み得る。
【0298】
特定の態様において、本明細書において使用されるコンピュータはまた、ユーザー端末と通信するサーバーシステムを含み得、そのサーバーシステムは、サーバーデバイスまたは分散型サーバーデバイスを含み得、かつ、メインフレームコンピュータ、ミニコンピュータ、スーパーコンピュータ、パーソナルコンピュータ、またはそれらの組み合わせを含み得る。また、本発明の範囲から逸脱することなく複数のサーバーシステムが使用され得る。ユーザー端末およびサーバーシステムは、ネットワークを通じて互いに通信し得る。ネットワークは、本発明の範囲を限定することなしに、例えば、LAN(ローカルエリアネットワーク)、WAN(ワイドエリアネットワーク)、MAN(首都圏ネットワーク)、ISDN(デジタル総合サービスネットワーク)などの有線ネットワーク、ならびに、無線LAN、CDMA、Bluetoothおよび衛星通信ネットワークなどの無線ネットワークを含み得る。
【実施例】
【0299】
実験項
実施例1
vNRUMI法と他のバーコード法の比較
表1は、いくつかの実施態様に係るvNRUMIの塩基対不均一性とNRUMIの塩基対不均一性の比較を示す。この120種のvNRUMIのセットは、50種の6merおよび70種の7merからなる。NRUMIのセットは、全体で218種の6merからなり、ここで任意の2つのNRUMI間の最小編集距離は閾値を上回る。表1は、218種のバーコードまたは128種のバーコードの各々が等量で存在した(例えば、各UMIが1000個ある)と仮定している。7番目の塩基について、新たなvNRUMIセットは、オリジナルのNRUMIセットよりもはるかに良好な不均一性を有し、1塩基当たり5%組成の推奨最小値を大きく上回る。したがって、vNRUMI設計が、特定のサイクルでの塩基対多様性の欠如という前述の課題に対処することが明らかである。6merのみからなる他のバーコードセットは、以下に示されているオリジナルのNRUMIセットと類似した1塩基当たりの不均一性を有する。
【0300】
【0301】
上記のNRUMIおよびvNRUMIを使用して、インシリコシミュレーション研究を行って、10,000個のバーコードをシミュレートし、各塩基を独立に変異させることによって全ての単一バーコードを変異させ、オリジナルのUMI配列を回復させようとした。シミュレーションでは、各塩基で2%の変異率(SNVの可能性1%、サイズ1のインデルの可能性1%)を使用した。この変異率は典型的なIlluminaシーケンシングエラー率よりも著しく高いことに留意されたい。10,000のシミュレーションは各々、少なくとも1つの変異を含有した。
【0302】
UMIを使用した他の方法とのさらなる比較を提供するために、既存のアプローチnxCodeに従って生成された長さ6ntの114種のNRUMI配列のセットもこのシミュレーション研究において使用する。http://hannonlab.cshl.edu/nxCode/nxCode/main.htmlを参照されたい。これらの配列を上記と同じ変異プロセスに供した。nxCodeアプローチは、変異を決定するために確率モデルを使用し、等しい分子長を有するNRUMIのセットを得るためにセミグリーディアプローチを使用する。vNRUMI、NRUMI、およびnxCodeセットの間の比較結果を表2に見出すことができる。
【0303】
(表2)異なるUMI設計についてのエラー補正率を比較するベンチマーク結果
【0304】
vNRUMIセットは120種のUMIを有し、そのうち50種のUMIは6ntの長さを有し、そして、70種のUMIは7ntの長さを有する。NRUMIセットは、長さ6の218種の配列を有する。従来のアプローチnxCodeは、長さ6ntの114種の配列のNRUMIセットを使用する。セットの平均サイズは、セットに含まれるユニーク配列の平均数である。
【0305】
表2では、最近隣のセットがその中にただ1つの配列を有する場合として、一意の補正が定義される;言い換えれば、上記のUMIマッチングおよび補正アルゴリズムは、最も可能性の高い真のvNRUMIについての明確な示唆を与えた。vNRUMI方法論では、そのような一意に補正可能な配列の数が、NRUMIおよびnxCodeよりもはるかに大きいことに留意されたい。また、最も近い/二番目に近いセットの平均サイズは、vNRUMIアプローチにおいて他の解決策よりもはるかに小さい一方で、そのセット内にオリジナルの変異のないバーコードが含有される比率はほぼ等しい。このことは、リードの折りたたみの間に、状況情報が使用されて、これらの最も近い/二番目に近いセットから正確なUMIが選択されるので重要である。より少ない間違った配列でこのリードの折りたたみ工程を提供することで、間違った選択をする可能性を減少させ、最終的に、ノイズを抑制してバリアントを検出する能力を改善することができる。
【0306】
注目に値することは、NRUMIおよびnxCodeアプローチが、他の過去のバーコード付加戦略と同じく、バーコード配列が全て均一長のものであると仮定することである。このシミュレーションを作る上で、3種のアプローチの間の直接比較を提供するために、NRUMIおよびnxCodeアプローチの性能を制限している可能性のある、NRUMIおよびnxCodeアプローチによって記載されるエラーを補正するためのオリジナルの方法を使用しなかった。しかし、表2のデータは、vNRUMIアプローチの潜在なエラー補正改善能力に対する知見を提供し、これは、次の実施例においてさらに説明される。
【0307】
実施例2
vNRUMIおよびNRUMIを使用したDNA断片の回復
別のインシリコ研究のセットにおいて、vNRUMIおよびNRUMIのリード回復能を試験する。この研究は、ランダムCOSMIC変異を選び出し、その変異を含有する単一DNA断片を生成する。断片サイズは、平均166、標準偏差40を有する。シミュレーションは、この断片の両端にランダムUMIを付加する。それは、ART(例えば、https://www.niehs.nih.gov/research/resources/software/biostatistics/art/を参照されたい)を使用して、このUMI-断片-UMI分子の10個のペアエンドリードをシミュレートし、そして、このリードをバローズ・ウィーラー・アライナー(BWA)を使用してアラインする。例えば、http://bio-bwa.sourceforge.net/を参照されたい。
【0308】
次いで、プロセスは、アライメントを独占所有権のあるリードコラプサーReCoに挿入して、それが、オリジナルの断片配列を回復させ、追加のリードに対してプロセスを繰り返すことができるか判断する。
【0309】
表3は、回復できた断片の数および割合(%)を示す。
【0310】
(表3)NRUMI設計およびvNRUMI設計についてのエラー補正率
【0311】
vNRUMI法は、固定長のNRUMI法よりも多くの断片を回復させた。カイ二乗検定は、有意差があることを示す。χ2=4.297、両側P値=0.0382。α=0.05を使用して、vNRUMI法は、NRUMI法の欠点に対応しながら、NRUMI法と比較して統計的により良好なエラー補正性能を達成した。
【0312】
NRUMI戦略は、不均一長のNRUMIセットを取り扱う。これは、アライメント品質の低下を引き起こす塩基対多様性の問題に対応する。
【0313】
生化学的な制限条件を満たす可変長UMIのセットを生成するためおよびミスリードされたUMIをマッピングしてUMIを補正するための新規プロセスが提供される。新規アプローチは、均一長のバーコードによってシーケンシング品質の低下がもたらされる問題に対処する。ミスマッチのみを追跡することとは対照的に、マッチおよびミスマッチの数を認識するマッチングスキームの使用は、エラー補正能力の改善を可能にする。当該実施態様は、追加の機能を提供しながら、既存の解決策と同等であるかまたはそれを上回る。
【0314】
本開示は、その精神または本質的特徴から逸脱することなく、他の特定の形態で具体化され得る。記載の態様は、あらゆる点において単なる例示に過ぎず、限定的ではないと見なされるべきである。本開示の範囲は、それ故、前述の説明ではなく添付の特許請求の範囲によって示される。特許請求の範囲の意味および均等範囲に入る変更は全て、本発明の範囲内にあると受け入れられるべきである。
【配列表】