(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-02
(54)【発明の名称】帰属ハプロタイプを用いたグラフ参照ゲノム及び塩基コールアプローチ
(51)【国際特許分類】
G16B 30/10 20190101AFI20240925BHJP
【FI】
G16B30/10
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023579814
(86)(22)【出願日】2022-08-05
(85)【翻訳文提出日】2024-03-21
(86)【国際出願番号】 US2022074632
(87)【国際公開番号】W WO2023049558
(87)【国際公開日】2023-03-30
(32)【優先日】2021-09-21
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】マイケル・エー・エバレー
(57)【要約】
本開示は、特定のサンプルゲノムに対してカスタマイズされたグラフ参照ゲノムを生成し、カスタマイズされたグラフ参照ゲノムを利用してサンプルゲノムに対する最終的なヌクレオチド塩基コールを決定するためのシステム、非一時的コンピュータ可読媒体、及び方法に関する。例示のために、開示されるシステムは、特定のゲノム領域に対応する帰属ハプロタイプを表す様々なパスを含むカスタマイズされたグラフ参照ゲノムを生成することができる。更に、又はあるいは、開示されるシステムは、最終ヌクレオチド塩基コールを生成するための基礎として、サンプルゲノムについての直接及び帰属ヌクレオチド塩基コールを決定し、比較することができる。いくつかのそのような場合において、開示されるシステムは、直接ヌクレオチド塩基コールに対応する配列決定メトリクスに基づいて、又はゲノム座標を含むゲノム領域の可変性に基づいて、ゲノム座標についての直接ヌクレオチド塩基コール及び帰属ヌクレオチド塩基コールを重み付けする(及びそれらの間で選択する)。
【特許請求の範囲】
【請求項1】
システムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
サンプルゲノムのヌクレオチド-断片リードのサブセットから、前記サンプルゲノム内のゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールのサブセットを決定することと、
変異体-ヌクレオチド-塩基コールの前記サブセットに基づいて、前記サンプルゲノムに対応する前記ゲノム領域についてハプロタイプを帰属させることと、
前記サンプルゲノムについて、前記ゲノム領域に対応する前記帰属されたハプロタイプを表すパスを含むグラフ参照ゲノムを生成させることと、
前記サンプルゲノムのヌクレオチド-断片リードを、前記グラフ参照ゲノム内の帰属ハプロタイプを表すパスと比較することに基づいて、前記サンプルゲノムの前記ゲノム領域内のヌクレオチド-塩基コールを決定することと、を行わせる命令を含む非一時的コンピュータ可読媒体と、を含む、システム。
【請求項2】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記ゲノム領域を取り囲む一塩基多型(SNP)を決定することによって、前記ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールの前記サブセットを決定することと、
前記SNPに基づいて前記サンプルゲノムに対応する前記ハプロタイプを帰属させることによって、前記ゲノム領域の前記ハプロタイプを帰属することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、集団ハプロタイプのハプロタイプデータベースから前記ゲノム領域についての前記ハプロタイプを帰属することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項4】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記サンプルゲノム内の追加のゲノム領域に対応する変異体-ヌクレオチド-塩基コールを決定することと、
前記変異体-ヌクレオチド-塩基コールに基づいて、前記追加のゲノム領域について追加の帰属ハプロタイプを決定することと、
前記追加の帰属されたハプロタイプを表す追加のパスを含む前記グラフ参照ゲノムを生成することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記ゲノム領域内のヌクレオチド塩基コールのサブセットについてのクオリティメトリクスがクオリティメトリクス閾値を満たさないと決定することと、
前記クオリティメトリクス閾値を満たさないヌクレオチド塩基コールの前記サブセットに対する前記クオリティメトリクスに基づいて、前記ゲノム領域を低信頼度コール領域として同定することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記サンプルゲノムの前記ヌクレオチド断片リードと、前記帰属されたハプロタイプを表す前記パスとの比較に基づいて、前記ゲノム領域内のゲノム座標についての直接ヌクレオチド塩基コールを決定することと、
前記ゲノム領域についての前記帰属されたハプロタイプに基づいて、前記ゲノム領域内の前記ゲノム座標についての帰属されたヌクレオチド塩基コールを決定することと、
前記直接ヌクレオチド塩基コール及び前記帰属されたヌクレオチド塩基コールに基づいて、前記ゲノム領域内の前記ゲノム座標についての最終ヌクレオチド塩基コールを決定することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項7】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記ゲノム座標についての前記直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することと、
前記ゲノム領域の前記配列決定メトリクス及び可変性に基づいて、前記直接ヌクレオチド塩基コールに第1の重みを割り当て、前記帰属されたヌクレオチド塩基コールに第2の重みを割り当てることによって、前記ゲノム座標についての前記最終ヌクレオチド塩基コールを決定することを行わせる命令を更に含む、請求項6に記載のシステム。
【請求項8】
前記ゲノム領域が、可変数タンデムリピート(VNTR)、構造変異体、挿入、又は欠失の少なくとも一部を含む、請求項1に記載のシステム。
【請求項9】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
線形参照ゲノムから前記ゲノム領域のゲノム座標を決定することと、
前記線形参照ゲノムと、前記線形参照ゲノムの前記ゲノム座標に位置する前記ゲノム領域に対応する前記帰属されたハプロタイプを表す前記パスとを含む前記グラフ参照ゲノムを生成することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項10】
少なくとも1つのプロセッサによって実行されると、コンピューティング装置に、
サンプルゲノムのヌクレオチド-断片リードのサブセットから、前記サンプルゲノム内のゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールのサブセットを決定することと、
前記サンプルゲノムについて、変異体-ヌクレオチド-塩基コールの前記サブセットに基づいて前記ゲノム領域に対応するハプロタイプを帰属させることと、
前記サンプルゲノムについて、前記帰属されたハプロタイプに基づいて前記ゲノム領域について帰属されたヌクレオチド塩基コールを決定することと、
前記サンプルゲノムについて、前記ゲノム領域についての直接ヌクレオチド塩基コール、及び前記直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することと、
前記帰属されたヌクレオチド-塩基コール、前記直接ヌクレオチド-塩基コール、及び前記配列決定メトリクスに基づいて、前記ゲノム領域についての最終ヌクレオチド-塩基コールを決定することを行わせる、命令を記憶した非一時的コンピュータ可読媒体。
【請求項11】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
前記サンプルゲノムについて、前記ゲノム領域に対応する前記帰属されたハプロタイプを表すパスを含むグラフ参照ゲノムを生成させることと、
前記サンプルゲノムのヌクレオチド-断片リードを、前記グラフ参照ゲノム内の帰属されたハプロタイプを表すパスと比較することに基づいて、前記ゲノム領域についての前記直接ヌクレオチド-塩基コールを決定することを行わせる命令を更に含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項12】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
前記サンプルゲノムについて、線形参照ゲノムと、前記ゲノム領域に対応する前記帰属されたハプロタイプを表すパスとを含むグラフ参照ゲノムを生成することと、
ゲノム座標に対応するヌクレオチド-塩基-断片リードと、前記線形参照ゲノム内の前記ゲノム座標における対応するヌクレオチド塩基との間の不一致を同定することに基づいて、前記ゲノム領域の内側又は外側の前記ゲノム座標についての直接変異体-ヌクレオチド-塩基コールを決定することを行わせる命令を更に含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項13】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
グラフ参照ゲノム内の線形参照ゲノムとアライメントされた前記サンプルゲノムからのヌクレオチド断片リードの第1のサブセットに基づいてヌクレオチド塩基コールを決定することと、
前記グラフ参照ゲノムからの1つ以上の帰属ハプロタイプを表すパスとアライメントされた前記サンプルゲノムからのヌクレオチド断片リードの第2のサブセットに基づいてヌクレオチド塩基コールを決定することとで、前記直接ヌクレオチド-塩基コールを決定することを行わせる命令を更に含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項14】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記直接ヌクレオチド塩基コールについての深度メトリクス、リードデータクオリティメトリクス、コールデータクオリティメトリクス、又はマッピングクオリティメトリクスを決定することによって、前記直接ヌクレオチド塩基コールに対応する前記配列決定メトリクスを決定させる命令を更に含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項15】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記帰属されたヌクレオチド塩基コール、前記直接ヌクレオチド塩基コール、及び前記配列決定メトリクスに基づいて前記最終ヌクレオチド塩基コールを決定するために、塩基コール機械学習モデルを利用することによって、前記ゲノム領域についての前記最終ヌクレオチド塩基コールを決定することを行わせる命令を更に含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項16】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記ゲノム領域の可変性及び前記直接ヌクレオチド塩基コールに対応する前記配列決定メトリクスのうちの1つ以上に基づいて、前記帰属されたヌクレオチド塩基コールのうちの1つ以上とは異なるように前記直接ヌクレオチド塩基コールのうちの1つ以上を重み付けすることによって、前記ゲノム領域に対する前記最終ヌクレオチド塩基コールを決定することを行わせる命令を更に含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項17】
前記ゲノム領域の前記可変性が、前記ゲノム領域の遺伝子型可変性及び前記ゲノム領域の長さを含み、
前記配列決定メトリクスのうちの1つ以上が、ヌクレオチド断片リードに対応する前記直接ヌクレオチド塩基コールについてのリードデータクオリティメトリクス又はマッピングクオリティメトリクスと、前記ヌクレオチド断片リードに対応する前記直接ヌクレオチド塩基コールについてのコールデータクオリティメトリクスとを含む、請求項16に記載の非一時的コンピュータ可読媒体。
【請求項18】
方法であって、
サンプルゲノムについて、ゲノム領域についての直接ヌクレオチド塩基コール及び前記直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することと、
前記サンプルゲノムについて、前記ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールに基づいて、前記ゲノム領域に対応するハプロタイプを帰属させることと、
前記サンプルゲノムについて、前記帰属されたハプロタイプに基づいて前記ゲノム領域について帰属されたヌクレオチド塩基コールを決定することと、
前記直接ヌクレオチド塩基コール、前記配列決定メトリクス、及び前記帰属されたヌクレオチド塩基コールに基づいて、前記ゲノム領域についての最終ヌクレオチド塩基コールを決定することと、を含む、方法。
【請求項19】
前記直接ヌクレオチド塩基コールに対応する前記配列決定メトリクスを決定することが、前記直接ヌクレオチド塩基コールについての深度メトリクス、リードデータクオリティメトリクス、コールデータクオリティメトリクス、又はマッピングクオリティメトリクスを決定することを含む、請求項18に記載の方法。
【請求項20】
前記ゲノム領域についての前記最終ヌクレオチド塩基コールを決定することが、前記帰属されたヌクレオチド塩基コール、前記直接ヌクレオチド塩基コール、及び前記配列決定メトリクスに基づいて前記最終ヌクレオチド塩基コールを決定するために、塩基コール機械学習モデルを利用することを含む、請求項18に記載の方法。
【請求項21】
前記ゲノム領域についての前記最終ヌクレオチド塩基コールを決定することが、前記直接ヌクレオチド塩基コールについてのゲノム座標の遺伝子型可変性と、ヌクレオチド断片リードに対応する前記直接ヌクレオチド塩基コールについてのリードデータクオリティメトリクス又は前記ヌクレオチド断片リードに対応する前記直接ヌクレオチド塩基コールについてのコールデータクオリティメトリクスのうちの1つ以上とに基づいて、直接ヌクレオチド塩基コールを帰属されたヌクレオチド塩基コールとは異なるように重み付けすることを含む、請求項18に記載の方法。
【請求項22】
前記ゲノム領域についての前記最終ヌクレオチド-塩基コールを決定することが、塩基コール機械学習モデルを利用して、
ゲノム座標についての帰属されたヌクレオチド-塩基コールとは異なるように直接ヌクレオチド-塩基コールを重み付けし、
前記直接ヌクレオチド-塩基コール又は前記帰属されたヌクレオチド-塩基コールのうちの1つを、前記ゲノム座標についての最終ヌクレオチド-塩基コールとして選択することを含む、請求項18に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年9月21日に出願された「A GRAPH REFERENCE GENOME AND BASE-CALLING APPROACH USING IMPUTED HAPLOTYPES」と題する米国仮出願第63/246,626号の利益及び優先権を主張するものであり、その内容は参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
近年、バイオテクノロジー企業及び研究機関は、ヌクレオチド塩基(又は全ゲノム)の配列を決定し、参照ゲノムの参照塩基とは異なるヌクレオチド塩基に対する変異体コールを同定するためのハードウェア及びソフトウェアプラットフォームを改善している。例えば、いくつかの既存の核酸配列決定プラットフォームは、既存のサンガー配列決定を使用することによって、又は合成による配列決定(SBS)を使用することによって、配列内の個々のヌクレオチド塩基を決定する。SBSを使用する場合、既存のプラットフォームは、より大きな塩基コールデータセットからより正確なヌクレオチド塩基コールを検出するために、並行して合成されている数万以上のオリゴヌクレオチドを監視することができる。例えば、SBSプラットフォームにおけるカメラは、そのようなオリゴヌクレオチドに組み込まれたヌクレオチド塩基からの照射された蛍光タグの画像を捕捉することができる。そのような画像を捕捉した後、既存のSBSプラットフォームは、塩基コールデータ(又は画像データ)を、ヌクレオチドリードを参照ゲノムとアライメントさせる配列決定データ分析ソフトウェアを有するコンピューティング装置に送信する。アライメントされたヌクレオチド-断片リードに基づいて、既存のSBSプラットフォームは、ゲノム領域に対するヌクレオチド-塩基コールを決定し、サンプルの核酸配列内の変異体を同定することができる。
【0003】
これらの最近の進歩にもかかわらず、既存のヌクレオチド塩基配列決定プラットフォーム及び配列決定データ分析ソフトウェア(合わせて、以下、既存の配列決定システム)は、特にコール困難なゲノム領域中の塩基について、塩基コールを不正確に決定することがある。そのようなコールすることが困難なゲノム領域は、歴史的に(又は所与のサンプルについて)、線形参照ゲノムと良好にアライメントすることができないことが多いヌクレオチドリードを含むか、又は正常な閾値を下回る塩基コールクオリティ及びマッピングクオリティスコアなどの低品質の配列決定メトリクスを示すヌクレオチド塩基コールを生成するゲノム領域を含み得る。例えば、既存の配列決定システムは、稀な変異体又は可変数タンデムリピート(VNTR)領域などの高い可変性を含むゲノム領域について、不正確なマッピング又は不正確なヌクレオチド塩基コールを頻繁に生成する。何十年もコールが困難な領域において正確なヌクレオチド塩基コールを生成することができなかったにもかかわらず、既存の配列決定システムは、変異体コーラ又は他の配列決定データ分析ソフトウェアについての入力データを、(i)線形参照ゲノムと比較したリードからの直接ヌクレオチド塩基コール、及び(ii)そのような直接ヌクレオチド塩基コールに対応する配列決定メトリクスに制限することが多い。
【0004】
いくつかの既存の配列決定システムは、グラフ参照ゲノムに関するアライメント精度及び塩基コール精度の問題を解決しようと試みるが、既存のグラフ参照ゲノムは、多くのサンプルゲノムによって示される対立遺伝子に十分に類似する(又は無関係な)対立遺伝子についての過剰な代替パスを含むことが多い。例えば、いくつかの既存の配列決定システムは、集団にわたって共通及び非共通の両方である対立遺伝子についての多数の代替ゲノム配列及びパスを含む一般グラフゲノムを利用する。そのような代替配列及びパスは、多くのサンプルゲノムの対立遺伝子に類似し得るが、一致しないため、汎用グラフゲノムは、既存の配列決定システムに、多数のサンプルについて変異体をミスアライメントさせるか、又は見逃すことを頻繁に引き起こす。したがって、汎用グラフ参照ゲノムを利用することによって、既存の配列決定システムは、ゲノムサンプルからのリードとのミスマッチアライメントの可能性を増加させることができる。
【0005】
アライメント精度の問題に加えて、既存のグラフ参照ゲノムは、かさばることが多く、かなりのメモリ及び計算リソースを消費する。実際、いくつかの既存のグラフ参照ゲノムは、所与のゲノムサンプルに無関係である代替ゲノム配列のための無数の代替パスを含み得る。これらの無数の代替パスは、不必要なメモリを消費する可能性がある。メモリを浪費することに加えて、汎用グラフ参照ゲノムは、ヌクレオチド-塩基コールを行うときに代替配列への一致を含めるか除外するかを決定するために、既存の配列決定システムのコンピュータ処理時間を増加させることが多い。
【発明の概要】
【0006】
本開示は、当技術分野における前述の(又は他の問題)のうちの1つ以上を解決することができる方法、非一時的コンピュータ可読媒体、及びシステムの実施形態を説明する。特に、開示されるシステムは、特定のサンプルゲノムのためにカスタマイズされたグラフ参照ゲノムを生成し、カスタマイズされたグラフ参照ゲノムを利用して、サンプルゲノムのためのヌクレオチド塩基コールを決定することができる。例えば、開示されるシステムは、サンプルゲノムのゲノム領域を取り囲む変異体ヌクレオチド塩基コール(例えば、一塩基多型)を決定し、変異体ヌクレオチド塩基コールに基づいてゲノム領域に対応するハプロタイプを帰属させることができる。開示されたシステムは、その後、帰属ハプロタイプを表すパスを含むサンプルゲノムのグラフ参照ゲノムを生成することができる。サンプルゲノムのヌクレオチド断片リードを、ゲノム領域の帰属ハプロタイプを表すパスと比較することに基づいて、開示されるシステムは、ゲノム領域内のヌクレオチド塩基コールを決定することができる。
【0007】
サンプルカスタマイズされたグラフゲノムに加えて、又はその代替として、1つ以上の実施形態では、開示されるシステムは、最終ヌクレオチド塩基コールを生成するための基礎として、サンプルゲノムについての直接及び帰属ヌクレオチド塩基コールを決定及び比較する。例えば、開示されるシステムは、線形又はグラフ参照ゲノムとアライメントされたヌクレオチド断片リードに基づいて、直接ヌクレオチド塩基コール(及び対応する配列決定メトリクス)を決定することができる。そのような直接的なヌクレオチド塩基コールは、ゲノム領域を取り囲む変異体ヌクレオチド塩基コールを含んでもよい。そのような変異体-ヌクレオチド-塩基コールに基づいて、開示されたシステムは、ゲノム領域についてハプロタイプを帰属させ、帰属されたハプロタイプに基づいて帰属されたヌクレオチド-塩基コールを決定することができる。直接ヌクレオチド塩基コール、対応する配列決定メトリクス、及び帰属されたヌクレオチド塩基コールに基づいて、開示されるシステムは、参照ゲノムに関してサンプルゲノムについての最終ヌクレオチド塩基コールを決定する。例えば、開示されるシステムは、重み付けモデル(例えば、塩基コール機械学習モデル)を利用して、直接及び帰属ヌクレオチド-塩基コールの両方に重みを割り当てて、サンプルゲノムについての最終ヌクレオチド-塩基コールを決定することができる。
【0008】
本開示の1つ以上の実施形態の追加の特徴及び利点は、以下の説明に記載され、一部は説明から明らかになるか、又はかかる例示的な実施形態の実施によって習得され得る。
【図面の簡単な説明】
【0009】
発明を実施するための形態は、以下で簡単に説明されるように、添付の図面の使用を通して追加の特異性及び詳細を1つ以上の実施形態に提供する。
【
図1】カスタマイズされた配列決定システムが1つ以上の実施形態に従って動作することができる環境の図を示す。
【
図2A】1つ以上の実施形態に従うグラフ参照ゲノムを生成及び利用するカスタマイズされた配列決定システムの概要を示す。
【
図2B】1つ以上の実施形態による、帰属されたヌクレオチド-塩基コール、直接ヌクレオチド-塩基コール、及び配列決定メトリクスに基づいて最終ヌクレオチド-塩基コールを決定するカスタマイズされた配列決定システムの概要を示す。
【
図3A】1つ以上の実施形態による、ハプロタイプデータベースを利用してゲノム領域に対応するハプロタイプを帰属するカスタマイズされた配列決定システムの例を示す。
【
図3B】1つ以上の実施形態による、ハプロタイプデータベースを利用してゲノム領域に対応するハプロタイプを帰属するカスタマイズされた配列決定システムの例を示す。
【
図4A】1つ以上の実施形態による、グラフ参照ゲノムを生成し、サンプルゲノムのヌクレオチド断片リードをグラフ参照ゲノムとアライメントさせるカスタマイズされた配列決定システムを示す。
【
図4B】1つ以上の実施形態による、グラフ参照ゲノムを生成し、サンプルゲノムのヌクレオチド断片リードをグラフ参照ゲノムとアライメントさせるカスタマイズされた配列決定システムを示す。
【
図5】1つ以上の実施形態による、対立遺伝子頻度に対する、サンプル特異的グラフ参照ゲノムを使用するカスタマイズされた配列決定システムについての非参照遺伝子型一致率を示すグラフを示す。
【
図6】1つ以上の実施形態に従って、最終ヌクレオチド塩基コールを決定するために、直接ヌクレオチド塩基コール、配列決定メトリクス、及び帰属ヌクレオチド塩基コールを利用するカスタマイズされた配列決定システムを示す。
【
図7A】1つ以上の実施形態による、塩基コール機械学習モデルを訓練及び利用する、カスタマイズされた配列決定システムを示す。
【
図7B】1つ以上の実施形態による、塩基コール機械学習モデルを訓練及び利用する、カスタマイズされた配列決定システムを示す。
【
図8】1つ以上の実施形態による、グラフ参照ゲノムを生成及び利用するための一連の動作のフローチャートを示す。
【
図9】1つ以上の実施形態による、帰属されたヌクレオチド-塩基コール、直接ヌクレオチド-塩基コール、及び配列決定メトリクスに基づいて最終ヌクレオチド-塩基コールを決定するための一連の動作のフローチャートを示す。
【
図10】1つ以上の実施形態による、帰属されたヌクレオチド-塩基コール、直接ヌクレオチド-塩基コール、及び配列決定メトリクスに基づいて最終ヌクレオチド-塩基コールを決定するための一連の動作のフローチャートを示す。
【
図11】本開示の1つ以上の実施形態を実装するために、例示的なコンピューティング装置のブロック図を示す。
【発明を実施するための形態】
【0010】
本開示は、特定のサンプルゲノムに対してカスタマイズされたハプロタイプパスを有するグラフ参照ゲノムを生成し、カスタマイズされたグラフ参照ゲノムを利用してサンプルゲノムに対するヌクレオチド塩基コールを決定することができるカスタマイズされた配列決定システムの1つ以上の実施形態を記載する。例えば、カスタマイズされた配列決定システムは、サンプルゲノムの標的ゲノム領域を取り囲む一塩基多型(SNP)又は他の変異体ヌクレオチド塩基コールを決定し、次いで、取り囲む変異体ヌクレオチド塩基コールに基づいて、ゲノム領域に対応するハプロタイプを帰属させることができる。そのような帰属ハプロタイプ及び線形参照ゲノムから、カスタマイズされた配列決定システムは、サンプルゲノムについて、帰属ハプロタイプを表すパスを含むグラフ参照ゲノムを生成することができる。サンプルゲノムのヌクレオチド断片リードを、標的ゲノム領域-及びグラフ参照ゲノム内の他のそのような領域-について帰属されたハプロタイプを表すパスと比較することに基づいて、開示されるシステムは、ゲノム領域及び他のそのような領域内のヌクレオチド塩基コールを決定することができる。場合によっては、カスタマイズされた配列決定システムはまた、ヌクレオチド断片リードをカスタマイズされたグラフ参照ゲノムに含まれる線形参照ゲノムにアライメントさせることによって、ヌクレオチド塩基コールを決定する。
【0011】
そのような標的ゲノム領域を同定する前に、1つ以上の実施形態では、カスタマイズされた配列決定システムは、配列決定マシンによって配列決定されたサンプルゲノムのヌクレオチド断片リードを表すデータを受信する。ヌクレオチド断片リードについてのそのようなデータは、配列決定マシンによって決定されたヌクレオチド塩基コールの配列を含む。リードデータを受信した後、カスタマイズされた配列決定システムは、ヌクレオチド断片リードを線形参照ゲノムとアライメントさせることができる。アライメントされたヌクレオチド断片リードに基づいて、カスタマイズされた配列決定システムは、線形参照ゲノムに応答して、ゲノム座標及びサンプルゲノムの領域に対する直接ヌクレオチド塩基コールを決定することができる。
【0012】
上記のように、ヌクレオチド-塩基コールを決定する場合、いくつかのコール困難なゲノム領域は、他の配列決定の課題の中でも、アライメント精度又は塩基コール精度の問題を示し得る。一部の実施形態では、カスタマイズされた配列決定システムは、サンプルゲノム内のコールすることが困難なゲノム領域(及び時には困難でないゲノム領域)を標的ゲノム領域として同定する。例えば、カスタマイズされた配列決定システムは、ヌクレオチド塩基コール及び/又はヌクレオチド断片リードが、対応する閾値を下回る不十分な塩基コールクオリティメトリクス、マッピングクオリティメトリクス、及び/又は深度メトリクスを示す低信頼度コールゲノム領域などの不十分な品質のゲノム領域を同定する。更なる例として、カスタマイズされた配列決定システムは、ゲノム領域の一部(又は全部)をカバーするヌクレオチド断片リードを欠くゲノム領域を同定することができる。
【0013】
標的ゲノム領域が同定されると、1つ以上の実施形態では、カスタマイズされた配列決定システムは、それぞれの標的ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールを決定する。例えば、カスタマイズされた配列決定システムは、標的ゲノム領域の閾値距離内の変異体コールを決定する。例示のために、カスタマイズされた配列決定システムは、標的ゲノム領域からの塩基対の閾値数(例えば、600塩基対;10,000塩基対、又は50,000塩基対)以内のSNP又はその他の変異体を決定できる。以下で更に説明するように、カスタマイズされた配列決定システムは、標的ゲノム領域に対応する1つ以上のハプロタイプの一部であるSNP(又は他の変異体)を決定することができる。
【0014】
変異体-ヌクレオチド-塩基コールに基づいて、カスタマイズされた配列決定システムは、それぞれの標的領域についてハプロタイプを帰属させる。例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システムは、標的ゲノム領域に隣接する変異体ヌクレオチド-塩基コールに基づいて、ハプロタイプデータベースから標的領域についてのハプロタイプを統計的に推測する。例えば、カスタマイズされた配列決定システムは、SNP又は他の変異体-ヌクレオチド-塩基コールに基づいて、データベース中の対応するハプロタイプ参照パネルからのコール困難領域(例えば、低信頼度コール領域)についてのハプロタイプを帰属させる。したがって、カスタマイズされた配列決定システムは、SNP又は他の変異体-ヌクレオチド-塩基コールをハプロタイプ参照パネルと比較して、標的ゲノム領域に対応する可能性が高いハプロタイプを同定することができる。
【0015】
ゲノム領域について帰属されたハプロタイプに基づいて、1つ以上の実施形態では、カスタマイズされた配列決定システムは、サンプルゲノムについてカスタマイズされたグラフ参照ゲノムを生成する。例示のために、カスタマイズされた配列決定システムは、線形参照ゲノム及び上記で考察された標的ゲノム領域についての帰属ハプロタイプを表すパスの両方を含むグラフ参照ゲノムを生成することができる。コールすることが困難な領域に加えて、グラフ参照ゲノムはまた、困難でないゲノム領域に対する帰属ハプロタイプを表すパスを追加又は含むことができる。
【0016】
カスタマイズされたグラフ参照ゲノムを使用することによって、カスタマイズされた配列決定システムは、サンプルゲノムの標的ゲノム領域に対する最終的なヌクレオチド塩基コールを決定することができる。そうするために、1つ以上の実施形態では、カスタマイズされた配列決定システムは、ヌクレオチド断片リードをグラフ参照ゲノムとアライメントさせる。例えば、カスタマイズされた配列決定システムは、ヌクレオチド断片リードを、グラフ参照ゲノムのパス、又は対応するヌクレオチド断片リードに対して最高品質のマッピングメトリクスを有する線形参照ゲノムの一部とアライメントさせることができる。一部の実施形態では、カスタマイズされた配列決定システムは、グラフ参照ゲノムに含まれる線形参照ゲノムの標的ゲノム領域又は部分に対する帰属ハプロタイプを表すいずれかのパスとアライメントさせたヌクレオチド断片リードに基づいて、サンプルゲノムのゲノム座標に対する最終的なヌクレオチド塩基コールを決定する。
【0017】
上述したように、カスタマイズされたグラフ参照ゲノムを使用することに加えて、又はその代わりに、カスタマイズされた配列決定システムは、直接ヌクレオチド塩基コール、対応する配列決定メトリクス、及び帰属ヌクレオチド塩基コールに基づいて最終ヌクレオチド塩基コールを決定することができる。例えば、カスタマイズされた配列決定システムは、線形又はグラフ参照ゲノムとアライメントさせたヌクレオチド断片リードに基づいて、直接ヌクレオチド塩基コール(及び対応する配列決定メトリクス)を決定することができる。そのような直接的なヌクレオチド塩基コールは、ゲノム領域を取り囲む変異体ヌクレオチド塩基コールを含み得る。変異体-ヌクレオチド-塩基コールに基づいて、カスタマイズされた配列決定システムは、ゲノム領域についてハプロタイプを帰属させ、帰属ハプロタイプに基づいて帰属ヌクレオチド-塩基コールを決定することができる。上記のように、場合によっては、カスタマイズされた配列決定システムは、帰属されたハプロタイプを表すパスを有するグラフ参照ゲノムを更に生成し、グラフ参照ゲノムを使用してサンプルゲノムに対する直接ヌクレオチド塩基コールを更に決定する。直接ヌクレオチド塩基コール、対応する配列決定メトリクス、及び帰属ヌクレオチド塩基コールに基づいて、開示されるシステムは、最終ヌクレオチド塩基コールを決定する。例えば、カスタマイズされた配列決定システムは、重み付けモデル又は塩基コール機械学習モデルを利用して、直接及び帰属ヌクレオチド-塩基コールの両方に重みを割り当てて、サンプルゲノムについての最終ヌクレオチド-塩基コールを決定することができる。
【0018】
すぐ上に示したように、いくつかの実施形態では、カスタマイズされた配列決定システムは、ヌクレオチド断片リードを参照ゲノムとアライメントさせ、アライメントされたヌクレオチド断片リードに基づいてサンプルゲノムに対する直接ヌクレオチド塩基コールを決定する。例えば、カスタマイズされた配列決定システムは、ヌクレオチド断片リードを線形参照ゲノム又はグラフ参照ゲノムとアライメントさせることに基づいて、直接ヌクレオチド塩基コールを決定する。ゲノム座標をカバーするアライメントされたヌクレオチド断片リードの塩基コールにより、場合によっては、カスタマイズされた配列決定システムは、確率モデル(例えば、ベイジアン確率モデル)を適用して、サンプルゲノムのゲノム座標についての直接ヌクレオチド塩基コール(例えば、直接変異体ヌクレオチド塩基コール)を決定する。
【0019】
直接ヌクレオチド塩基コールを決定する間、カスタマイズされた配列決定システムは、直接ヌクレオチド塩基コールに対応する様々な配列決定メトリクスを決定し、利用することができる。例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システムは、サンプルゲノムのゲノム座標におけるヌクレオチド塩基コールのリード深さを定量化する深度メトリクスを決定する。別の例として、いくつかの実施形態では、カスタマイズされた配列決定システムは、参照ゲノムとのヌクレオチド断片リードのアライメントの品質を定量化するマッピングクオリティメトリクスを決定する。更に別の例として、カスタマイズされた配列決定システムは、ヌクレオチド塩基コールの品質又は信頼性を要約するコールデータクオリティメトリクスを決定することができる。
【0020】
参照ゲノムに基づく直接的なヌクレオチド塩基コールに加えて、カスタマイズされた配列決定システムは、1つ以上のゲノム領域に対応する帰属ハプロタイプに基づく帰属ヌクレオチド塩基コールを決定することができる。上記のように、1つ以上の実施形態では、カスタマイズされた配列決定システムは、サンプルゲノムのゲノム領域を取り囲むSNP(又は他の変異体ヌクレオチド塩基コール)を決定し、取り囲む変異体ヌクレオチド塩基コールに基づいてゲノム領域に対応するハプロタイプを帰属させる。帰属されたハプロタイプに基づいて、特定の場合において、カスタマイズされた配列決定システムは、ゲノム領域について帰属されたヌクレオチド塩基コールを決定するために、可能性のあるハプロタイプを統計的に推測する。
【0021】
直接ヌクレオチド塩基コール、対応する配列決定メトリクス、及び帰属ヌクレオチド塩基コールに基づいて、開示されるシステムは、最終ヌクレオチド塩基コールを決定する。1つ以上の実施形態では、例えば、カスタマイズされた配列決定システムは、重み付けモデルを利用して、直接ヌクレオチド塩基コール及び帰属ヌクレオチド塩基コールのそれぞれの重みを決定する。1つ以上の実施形態では、カスタマイズされた配列決定システムは、直接ヌクレオチド塩基コールに対応する配列決定メトリクス及び以下に記載される他の因子に基づいて重みを決定することができる。ゲノム座標についての重み付けされた直接及び帰属ヌクレオチド塩基コールから、カスタマイズされた配列決定システムは、最終的なヌクレオチド塩基コールを選択又は他の方法で決定することができる。例えば、場合によっては、カスタマイズされた配列決定システムは、塩基コール機械学習モデルを使用して、(例えば、重み付けによって)直接及び帰属ヌクレオチド塩基コールから最終的なヌクレオチド塩基コールを決定する。
【0022】
上記で示唆したように、カスタマイズされた配列決定システムは、既存の配列決定システム及び方法を上回るいくつかの技術的利点及び利益を提供する。例えば、カスタマイズされた配列決定システムは、サンプルゲノムのためにカスタマイズされたグラフ参照ゲノムを利用することによって、リードアライメントの精度及びヌクレオチド塩基コール精度を改善する。より具体的には、カスタマイズされた配列決定システムは、サンプルゲノムのゲノム領域に対する帰属ハプロタイプを表すパスを含むグラフ参照ゲノムを生成する。特定のサンプルについて選択された代替コンティグについてのパスを有するグラフ参照ゲノムを利用することによって、カスタマイズされた配列決定システムは、無関係な又は多すぎる代替パスで混乱した汎用グラフ参照ゲノムよりも、特に、より複雑な又は「困難な」領域(例えば、低信頼度コール領域)について、ヌクレオチド断片リードをグラフ参照ゲノムとより正確にアライメントさせることができる。カスタマイズされたグラフ参照ゲノムとの改善されたアライメントのために、カスタマイズされた配列決定システムはまた、既存の配列決定システムよりも、より正確なヌクレオチド塩基コールを、そのようなコールが参照ゲノムの参照塩基と一致するか又は異なるというより高い信頼度で決定することができる。
【0023】
アライメント及び塩基コール精度を改善することに加えて、カスタマイズされた配列決定システムは、グラフ参照ゲノムを使用する配列決定システムの計算速度及びメモリを改善する。無関係な又は過剰な対立遺伝子についてのパスを含む汎用グラフ参照ゲノムとは対照的に、カスタマイズされた配列決定システムは、サンプルゲノムの変異体に基づいて帰属されるハプロタイプを表すパスがより少ない状態で有意により小さなグラフ参照ゲノムを保存するために必要なメモリを低減する。処理及びメモリ記憶などの計算リソースを非効率的に使用するのではなく、汎用ハプロタイプパス又は対立遺伝子パスとの過剰な数の可能なリードアライメントマッチの間で決定する際に、カスタマイズされた配列決定システムは、サンプルのゲノム領域について帰属されたハプロタイプを表すより少ない(及びより関連性のある)パス及びより少ないパスマッチによるより効率的なマッピングを有するカスタマイズされたグラフ参照ゲノムを使用することによって、計算処理及び他のリソースを節約する。
【0024】
精度の改善に加えて、カスタマイズされた配列決定システムは、従来のグラフゲノムよりも柔軟なカスタマイズされたグラフゲノムを生成することができる。上記で示唆されるように、1つ以上の実施形態では、カスタマイズされた配列決定システムは、変異体コールファイル(例えば、VCF)からの選択された変異体コールデータに基づいて、ハプロタイプを帰属させる。例示すると、いくつかの場合において、カスタマイズされた配列決定システムは、カスタマイズされたグラフ参照ゲノムのパスを表すためにハプロタイプを帰属させるための基礎として、VCFから、他のゲノム領域ではなく、コール困難領域(例えば、低信頼度コール領域)を取り囲む変異体-ヌクレオチド-塩基コールを選択的に同定する。いくつかの既存の配列決定システムが行うように、変異体コールファイルからの各変異体-ヌクレオチド-塩基コールを使用してグラフ参照ゲノムを生成するのではなく、カスタマイズされた配列決定システムは、グラフ参照ゲノムをカスタマイズするための変異体コールデータをより選択的に同定することができる。
【0025】
追加的又は代替的に、1つ以上の実施形態では、カスタマイズされた配列決定システムは、直接及び帰属ヌクレオチド塩基コールに基づいて最終的なヌクレオチド塩基コールを決定するとき、コール困難なゲノム領域、リードカバレッジのないゲノム領域、又は他のゲノム領域において、既存の配列決定システムよりも塩基コールを決定する精度を改善する。直接ヌクレオチド塩基コールと帰属ヌクレオチド塩基コールとの間で重み付け及び選択することによって、カスタマイズされた配列決定システムは、クオリティ閾値未満の配列決定メトリクスを示す直接ヌクレオチド塩基コールを、特定のゲノム座標又は領域において正確である可能性がより高い帰属ヌクレオチド塩基コールで置き換えることができる。上記のように、カスタマイズされた配列決定システムは、標的ゲノム領域についてのそのような帰属されたヌクレオチド塩基コールを、標的ゲノム領域についての統計的に推測されたハプロタイプに基づいて決定することができる。同様に、場合によっては、カスタマイズされた配列決定システムは、ヌクレオチド断片リードによるカバレッジがほとんどないか全くないゲノム領域について、(直接的なヌクレオチド塩基コールではなく)帰属ヌクレオチド塩基コールを決定及び選択することによって精度を改善することができる。直接及び帰属ヌクレオチド塩基コールに依存することに加えて、いくつかの場合において、カスタマイズされた配列決定システムは、既存の配列決定システムが考慮しない更なる間接的証拠(例えば、ローカル変異体、帰属ハプロタイプ、及び変異体頻度)に依存することによって、ゲノム領域についての最終的なヌクレオチド塩基コールの精度を改善し得る。
【0026】
上記で示唆したように、一部の実施形態では、カスタマイズされた配列決定システムは、直接及び帰属ヌクレオチド-塩基コールの両方を分析する一番最初の塩基コール機械学習モデルを利用することによって、最終ヌクレオチド-塩基コールの精度を改善する。例示のために、塩基コール機械学習モデルは、訓練サンプルゲノム及び対応するグラウンドトゥルース塩基コールについての配列決定メトリクスに基づいて、ゲノム座標についての帰属ヌクレオチド塩基コール又は直接ヌクレオチド塩基コールがより正確であるかどうかを区別するように訓練することができる。より具体的には、1つ以上の実施形態では、カスタマイズされた配列決定システムは、直接ヌクレオチド-塩基コール、配列決定メトリクス、及び帰属ヌクレオチド-塩基コールに基づいて最終ヌクレオチド-塩基コールを決定するために、塩基コール機械学習モデルを訓練する。したがって、カスタマイズされた配列決定システムは、塩基コール機械学習モデルを利用して、上述の様々なデータタイプを含む様々なデータに基づいて、最終的なヌクレオチド塩基コールを効率的かつ正確に決定することができる。
【0027】
前述の議論によって示されるように、本開示は、カスタマイズされた配列決定システムの特徴及び利点を説明するために、種々の用語を利用する。ここで、かかる用語の意味に関して更なる詳細を提供する。例えば、本明細書で使用される場合、「ヌクレオチド断片リード」又は単に「リード」という用語は、サンプルヌクレオチド配列の全部又は一部からの1つ以上のヌクレオチド塩基(又はヌクレオチド塩基対)の推定配列を指す。特に、ヌクレオチド断片リードは、ゲノムサンプルに対応する配列決定ライブラリからのヌクレオチド断片(又はモノクローナルヌクレオチド断片の群)に対するヌクレオチド塩基コールの決定又は予測された配列を含む。例えば、場合によっては、配列決定装置は、ヌクレオチド-サンプルスライドのナノ細孔を通過した、蛍光タグ付けを介して決定した、又はフローセル内のウェルから決定した、ヌクレオチド塩基に対するヌクレオチド-塩基コールを生成することによってヌクレオチド-断片リードを決定する。
【0028】
更に、本明細書で使用される場合、「ヌクレオチド-塩基コール」(又は時には単に「塩基コール」)という用語は、配列決定サイクル中のサンプルゲノムのゲノム座標又はオリゴヌクレオチドについての特定のヌクレオチド塩基(又はヌクレオチド-塩基対)の決定又は予測を指す。特に、ヌクレオチド塩基コールは、(i)ヌクレオチドサンプルスライド上のオリゴヌクレオチド内に組み込まれたヌクレオチド塩基のタイプの決定若しくは予測(例えば、リードベースのヌクレオチド塩基コール)、又は(ii)デジタル出力ファイルにおける変異体コール若しくは非変異体コールを含む、サンプルゲノム内のゲノム座標若しくは領域に存在するヌクレオチド塩基のタイプの決定若しくは予測を示すことができる。場合によっては、ヌクレオチド断片リードについて、ヌクレオチド塩基コールは、(例えば、フローセルのウェル内の)ヌクレオチドサンプルスライドのオリゴヌクレオチドに付加された蛍光タグ付きヌクレオチドから生じる強度値に基づくヌクレオチド塩基の決定又は予測を含む。あるいは、核酸塩基コールは、ヌクレオチド-サンプルスライドのナノ細孔を通過するヌクレオチドから生じるクロマトグラムピーク又は電流変化からの核酸塩基決定又は予測を含む。対照的に、ヌクレオチド-塩基コールはまた、ゲノム座標又は帰属ハプロタイプに対応するヌクレオチド-断片リードに基づく、変異体コールファイル又は他の塩基コール出力ファイルについての、サンプルゲノムのゲノム座標におけるヌクレオチド塩基の最終予測を含み得る。したがって、ヌクレオチド-塩基コールは、ゲノム座標及び参照ゲノムに対応する塩基コール、例えば、参照ゲノムに対応する特定の位置における変異体又は非変異体の表示を含むことができる。実際、ヌクレオチド-塩基コールは、一塩基多型(SNP)、挿入若しくは欠失(インデル)、又は構造変異体の一部である塩基コールを含むがこれらに限定されない変異体コールを指すことができる。上記で示唆されるように、単一ヌクレオチド塩基コールは、DNAについてはアデニンコール、シトシンコール、グアニンコール、若しくはチミンコール(A、C、G、Tと略される)、又はRNAについてはウラシルコール(チミンコールの代わりに)(Uと略される)を含み得る。
【0029】
本明細書で使用される場合、「直接証拠」という用語は、参照ゲノムとアライメントされたヌクレオチド断片リードから決定された塩基コールデータを指す。例えば、直接的な証拠としては、ヌクレオチド-断片リードに対するヌクレオチド-塩基コール、対応する配列決定メトリクス、又はヌクレオチド-塩基コールに対応する標的ゲノム座標若しくは領域において参照ゲノムとアライメントされたヌクレオチド-断片リードに基づいて決定された他の塩基コールデータが挙げられる。対照的に、「間接的証拠」という用語は、標的ゲノム座標又は領域の周囲又は隣接ゲノム領域に関する塩基コールデータ又はゲノムデータを表す。このような間接的証拠としては、標的ゲノム座標又はゲノム領域を取り囲む変異体-ヌクレオチド-塩基コール及び帰属ハプロタイプ、変異体対立遺伝子頻度、及び/又はゲノム座標又は領域に対応する集団ハプロタイプが挙げられるが、これらに限定されない。間接的証拠は、標的ゲノム座標又は領域における参照ゲノムと直接比較したヌクレオチド断片リードからの塩基コールデータを含まない。
【0030】
関連して、本明細書で使用される場合、「変異体-ヌクレオチド-塩基コール」という用語は、参照ゲノムの参照塩基(又は複数の参照塩基)と異なるか又は変動するヌクレオチド-塩基コールを指す。例示すると、変異体-ヌクレオチド-塩基コールは、参照ゲノムの1つ以上の参照塩基とは異なるSNP、インデル、又は構造変異体を含み得る(又はその一部であり得る)。更に、本明細書で使用される場合、「直接ヌクレオチド塩基コール」という用語は、ヌクレオチド断片リードと参照ゲノム(例えば、線形参照ゲノム又はグラフ参照ゲノム)との比較に基づいて決定されるヌクレオチド塩基コールを指す。したがって、直接ヌクレオチド塩基コールは、ゲノム座標及び対応する配列決定メトリクスをカバーするヌクレオチド断片リードに基づく、サンプルゲノム内のゲノム座標又は領域に存在するヌクレオチド塩基のタイプの決定又は予測を含む。更に、本明細書で使用される場合、「直接不変ヌクレオチド塩基コール」という用語は、ヌクレオチド断片リードと参照ゲノムとの比較に基づいて、参照ゲノムからの参照塩基と一致するヌクレオチド塩基コールを指す。例示のために、カスタマイズされた配列決定システムは、ヌクレオチド塩基コールに対応するゲノム座標において参照ゲノムと直接アライメントされたヌクレオチド断片リードに基づいて、直接不変ヌクレオチド塩基コールを決定することができる。
【0031】
本明細書で使用される場合、「帰属」という用語は、ゲノム座標又はゲノム領域について遺伝子型を統計的に推論又は推定することを指す。より具体的には、帰属は、サンプルゲノムのゲノム領域に対応するハプロタイプを統計的に推論することを指すことができる。例えば、帰属は、ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールを利用して、そのゲノム領域に対応するハプロタイプを決定することを指すことができる。1つ以上の実施形態では、カスタマイズされた配列決定システムはまた、ハプロタイプデータベース及び隠れマルコフモデルからの参照パネルを利用して、ハプロタイプを帰属させる。本明細書において更に記載されるように、カスタマイズされた配列決定システムは、標的ゲノム領域を取り囲む又は隣接するだけでなく、標的ゲノム領域に対応する1つ以上のハプロタイプの一部であるSNP(又は他の変異体)に基づいて、標的ゲノム領域についてのハプロタイプを帰属することができる。例えば、20個のSNPが標的ゲノム領域においてハプロタイプを形成する場合、カスタマイズされた配列決定システムは、標的ゲノム領域について決定されたそのようなSNPのうちの15個を使用して、どのハプロタイプがサンプルゲノム中に存在するかを同定し、それによって、標的ゲノム領域についての1つ以上のハプロタイプの残りの5個のSNPを帰属させることができる。
【0032】
更に、本明細書で使用される場合、「帰属されたヌクレオチド塩基コール」という用語は、帰属されたハプロタイプ及び/又は変異体頻度に基づいて決定されたゲノム座標についてのヌクレオチド塩基コールを指す。例えば、帰属されたヌクレオチド塩基コールは、ゲノム座標又は領域を取り囲む又は隣接する変異体ヌクレオチド塩基コール及び統計的推論に基づく、サンプルゲノム内のゲノム座標又は領域に存在するヌクレオチド塩基のタイプの決定又は予測を含む。いくつかの場合において、帰属されたヌクレオチド塩基コールは、帰属によって決定された最も可能性の高い又は可能性の高いハプロタイプからのゲノム座標又はゲノム領域についてのヌクレオチド塩基を表す。更に例示すると、一部の実施形態では、帰属されたヌクレオチド塩基コールは、変異体頻度、ローカル変異体ヌクレオチド塩基コール、及び/又はゲノム座標若しくは領域に対応する集団ハプロタイプを反映するサンプルゲノムのゲノム座標若しくは領域についての推論又は予測されたヌクレオチド塩基を含む。
【0033】
更に、本明細書で使用される場合、「最終ヌクレオチド-塩基コール」という用語は、ゲノム座標について決定され、塩基コール出力ファイル(例えば、変異体コールファイル)に含まれるか又は使用されるヌクレオチド-塩基コールを指す。例示すると、1つ以上の実施形態では、最終ヌクレオチド-塩基コールという用語は、(i)変異体コールファイル中の変異体-ヌクレオチド-塩基コールなど、ゲノム座標についての塩基コール出力ファイルに含まれるヌクレオチド-塩基コール、又は(ii)ヌクレオチド-塩基コールが参照塩基と同じであるため、変異体コールファイルからヌクレオチド-塩基コールを除外する最終決定など、参照塩基と同じであり、ヌクレオチド-塩基コールが塩基コール出力ファイルに含まれるか又は塩基コール出力ファイルから除外されるゲノム座標についてのヌクレオチド-塩基コールを含む。以下に記載されるように、カスタマイズされた配列決定システムは、同じゲノム座標に対応する直接ヌクレオチド塩基コール及び帰属ヌクレオチド塩基コールの中から(又はそれらに基づいて)最終ヌクレオチド塩基コールを選択することができる。
【0034】
また、本明細書中で使用される場合、「サンプルゲノム」という用語は、配列決定を受ける標的ゲノム又はゲノムの一部をいう。例えば、サンプルゲノムは、サンプル生物から単離又は抽出されたヌクレオチドの配列(又はそのような単離若しくは抽出された配列のコピー)を含む。特に、サンプルゲノムは、サンプル生物から(全体又は一部が)単離又は抽出され、窒素複素環塩基から構成される全ゲノムを含む。例えば、核酸ポリマーは、デオキシリボ核酸(DNA)、リボ核酸(RNA)、又は核酸の他のポリマー形態若しくは以下に記載される核酸のキメラ若しくはハイブリッド形態のセグメントを含むことができる。いくつかの場合において、サンプルゲノムは、キットによって調製又は単離され、配列決定装置によって受け取られたサンプル中に見出されるものである。
【0035】
また本明細書で使用される場合、「ハプロタイプ」という用語は、生物中に存在し(又は集団からの生物中に存在し)、1つ以上の祖先から遺伝するヌクレオチド配列を指す。特に、ハプロタイプは、集団の生物に存在し、単一の親からそれぞれそのような生物によって一緒に遺伝される対立遺伝子又は他のヌクレオチド配列を含むことができる。1つ以上の実施形態では、ハプロタイプは、一緒に遺伝される傾向がある同じ染色体上のSNPのセットを含む。いくつかの場合において、ハプロタイプ又は異なるハプロタイプのセットを表すデータは、ハプロタイプデータベースに保存されるか、又はそうでなければアクセス可能である。更に、「帰属ハプロタイプ」は、サンプルゲノム中に存在すると推定又は統計的に推測されるハプロタイプを指す。例えば、帰属ハプロタイプは、ゲノム座標又は領域を取り囲む又は隣接するSNPに基づいて、ゲノム座標又は領域について統計的に推測されたハプロタイプであり得る。上記のように、帰属されたハプロタイプは、標的ゲノム領域を取り囲み、カスタマイズされた配列決定システムがハプロタイプを帰属させるSNP又は他の変異体-ヌクレオチド-塩基コールを含み得る。関連して、「集団ハプロタイプ」は、特定の又は規定された集団内に存在するハプロタイプをいう。
【0036】
更に、本明細書で使用される場合、「ゲノム座標」という用語は、ゲノム(例えば、生物のゲノム又は参照ゲノム)内のヌクレオチド塩基の特定の場所又は位置を指す。いくつかの場合において、ゲノム座標は、ゲノムの特定の染色体についての識別子及び特定の染色体内のヌクレオチド塩基の位置についての識別子を含む。例えば、ゲノム座標(単数又は複数)は、染色体(例えば、chr1又はchrX)の番号、名称、又は他の識別子、及び染色体(例えば、chr1:1234570又はchr1:1234570~1234870)の識別子に続く番号付けされた位置などの特定の位置(単数又は複数)を含み得る。更に、特定の実施において、ゲノム座標は、参照ゲノムの供給源(例えば、ミトコンドリアDNA参照ゲノムについてはmt、又はSARS-CoV-2ウイルスについては参照ゲノムについてはSARS-CoV-2)、及び参照ゲノムについての供給源内のヌクレオチド塩基の位置(例えば、mt:16568又はSARS-CoV-2:29001)を指す。対照的に、特定の場合において、ゲノム座標は、染色体又は供給源(例えば、29727)を参照せずに、参照ゲノム内のヌクレオチド塩基の位置を指す。
【0037】
更に、本明細書で使用される場合、「ゲノム領域」は、ゲノム座標の範囲を指す。ゲノム座標と同様に、ある特定の実施形態では、ゲノム領域は、染色体についての識別子及び特定の位置(複数可)、例えば、染色体についての識別子に続く番号付けされた位置(例えば、chr1:1234570~1234870)によって同定され得る。
【0038】
上記のように、ゲノム座標は、参照ゲノム内の位置を含む。そのような位置は、特定の参照ゲノム内であり得る。本明細書で使用される場合、「参照ゲノム」という用語は、生物についての遺伝子の代表例(複数可)としてアセンブルされたデジタル核酸配列を指す。配列長にかかわらず、いくつかの場合において、参照ゲノムは、特定の種の生物の代表として科学者又は統計モデルによって決定されたデジタル核酸配列における遺伝子の例示的なセット又は核酸配列のセットを表す。例えば、直鎖状ヒト参照ゲノムは、Genome Reference ConsortiumからのGRCh38又は他のバージョンの参照ゲノムであり得る。
【0039】
更に、本明細書中で使用される場合、「グラフ参照ゲノム」という用語は、線形参照ゲノム及びハプロタイプ又は他の代替核酸配列を表すパスの両方を含む参照ゲノムを含み得る。特に、グラフ参照ゲノムは、線形参照ゲノムと、ハプロタイプデータベースから特定のサンプルゲノムについて同定された帰属ハプロタイプに対応するパスとを含むことができる。ほんの一例として、グラフ参照ゲノムは、Illumina DRAGEN Graph Reference Genome hg19を含み得る。対照的に、本開示はまた、線形参照ゲノムと、サンプルゲノムのために選択又はカスタマイズされた帰属ハプロタイプを表すパスとを含むグラフ参照ゲノムを記載する。
【0040】
更に、本明細書で使用される場合、「低信頼度コール領域」という用語は、対応する配列決定メトリクスについての1つ以上の閾値を満たさない1つ以上の配列決定メトリクスに対応するゲノム座標の範囲を指す。特に、低信頼度コール領域は、クオリティ又はアライメントについての閾値を満たさない対応するクオリティメトリクス又は他の配列決定メトリクスを有するゲノム座標の範囲を含み得る。例示すると、低信頼度コール領域は、VNTR、大きな挿入又は欠失、様々な異なる変異を有する領域、及び/又は他のタイプのゲノム変異を(全体的又は部分的に)含むゲノム領域を含み得る。
【0041】
また、本明細書で使用される場合、「配列決定メトリクス」という用語は、個々のヌクレオチド塩基コール(又はヌクレオチド塩基コールの配列)が、参照ゲノムのゲノム座標若しくはゲノム領域に対して、又はヌクレオチド断片リードからのヌクレオチド塩基コールに対して、アライメント、比較、又は定量化する程度を示す定量的測定又はスコアを指す。例えば、配列決定メトリクスは、(i)個々のヌクレオチド-塩基コールが、参照ゲノムのゲノム座標若しくは参照塩基をアライメント、マッピング、若しくはカバーする程度、又は(ii)ヌクレオチド-塩基コールが、マッピング、ミスマッチ、塩基コールクオリティ、若しくは他の生の配列決定メトリクスに関して、参照若しくは代替ヌクレオチドリードと比較する程度を示す定量的測定又はスコアを含む。以下で説明するように、配列決定メトリクスは、異なるタイプのクオリティメトリクスを含むことができる。
【0042】
直前に示したように、「クオリティメトリクス」という用語は、1つ以上のゲノム座標に対応するヌクレオチド塩基コール又はヌクレオチド断片リードの精度、信頼度、又は量を示すメトリクス又は他の定量的測定値を指す。特に、クオリティメトリクスは、1つ以上の予測されたヌクレオチド塩基コールが不正確であるか、又はヌクレオチド断片リードがミスアライメントであるか、又は定量的閾値(例えば、深度)未満である可能性を示す値を含む。例えば、いくつかの実装形態では、クオリティメトリクスは、以下で更に説明するように、コールデータクオリティメトリクス、リードデータクオリティメトリクス、又はマッピングクオリティメトリクスを備えることができる。
【0043】
更に、本明細書で使用される場合、「リードデータクオリティメトリクス」という用語は、ヌクレオチド断片リードに対応する品質及び/又は確実性を定量化するメトリクス又は他の測定を指す。特に、リードデータクオリティメトリクスは、複数のリード(例えば、すべてのリードが特定のゲノム座標と重複する)又は複数のサイクル(例えば、すべてのサイクル)にわたって特定のゲノム座標において例示的な核酸配列(例えば、参照ゲノム又は帰属ハプロタイプ)のヌクレオチド塩基と一致しないヌクレオチド塩基の総数を反映するメトリクスを含み得る。加えて、又は代替として、リードデータクオリティメトリクスは、例えば、ゲノム座標をカバーするヌクレオチド塩基の配列決定リード内の平均又は中央値位置を決定することによって、サンプル核酸配列についてのリード位置メトリクスを反映するメトリクスを含むことができる。
【0044】
更に、本明細書中で使用される場合、「コールデータクオリティメトリクス」という用語は、ヌクレオチド塩基コールの精度又は確実性を定量化するメトリクス又は他の測定をいう。コールデータクオリティメトリクスは、例えば、塩基コールクオリティメトリクス、コール可能性メトリクス、又は身体クオリティメトリクスを含むことができる。最初の例に関して、「塩基コールクオリティメトリクス」は、ヌクレオチド塩基コールの精度を示す特定のスコア又は他の測定値を指す。特に、塩基コールクオリティメトリクスは、ゲノム座標に対する1つ以上の予測されたヌクレオチド塩基コールがエラーを含む可能性を示す値を含む。例えば、特定の実施において、塩基コールクオリティメトリクスは、任意の所与のヌクレオチド-塩基コールのエラー確率を予測するQスコア(例えば、Phredクオリティスコア)を含むことができる。例示すると、クオリティスコア(又はQスコア)は、ゲノム座標における不正確なヌクレオチド塩基コールの確率が、Q20スコアについては100分の1、Q30スコアについては1,000分の1、Q40スコアについては10,000分の1などに等しいことを示し得る。
【0045】
更に、本明細書で使用される場合、「コール可能性メトリクス」という用語は、ゲノム座標における正しいヌクレオチド-塩基コール(例えば、変異体-ヌクレオチド-塩基コール)を示すことを定量化するメトリクス又は他の測定を指す。例示すると、コール可能性メトリクスは、Illumina,Inc.によって実装されるように、合格遺伝子型コールを有する非N参照位置の割合又はパーセンテージを含むことができる。更に、いくつかの実装形態では、カスタマイズされた配列決定システム104は、ゲノム分析ツールキット(GATK)のバージョンを使用して、コール可能性メトリクスを決定する。
【0046】
更に、本明細書で使用される場合、「体細胞クオリティメトリクス」という用語は、腫瘍サンプルゲノム中の異常なヌクレオチド断片リードの数を決定する確率を推定するメトリクス又は他の測定値を指す。例えば、体細胞クオリティメトリクスは、腫瘍及び正常BAMファイルにおける異常リード及び正常リードのカウントを考慮して、フィッシャーの正確確率検定を使用して、腫瘍サンプルゲノムにおける所与の(又はより極端な)数の異常リードを決定する確率の推定値を表すことができる。場合によっては、カスタマイズされた配列決定システム104は、Phredアルゴリズムを使用して体細胞クオリティメトリクスを決定し、体細胞クオリティメトリクスを、0~60の範囲であるクオリティスコア(又はQスコア)などのPhredスケーリングされたスコアとして表す。そのようなクオリティスコアは、-10 log10(確率変数は体細胞である)に等しくてもよい。
【0047】
また、本明細書で使用される場合、「マッピングクオリティメトリクス」という用語は、参照ゲノムとのヌクレオチド断片リード又は他のサンプルヌクレオチド配列のアライメントの品質又は確実性を定量化するメトリクス又は他の測定を指す。特に、マッピングクオリティメトリクスという用語は、ゲノム座標におけるヌクレオチド塩基コールについてのマッピングクオリティ(MAPQ)スコアを含むことができ、MAPQスコアは、最も近い整数に丸められた-10 log10 Pr{マッピング位置が間違っている}を表す。平均又は中央値マッピングクオリティの代替として、いくつかの実施形態では、マッピングクオリティメトリクスは、ゲノム座標において参照ゲノムとアライメントするすべてのヌクレオチド断片リードについてのマッピングクオリティの全分布を指す。
【0048】
本明細書で更に使用される場合、「深度メトリクス」という用語は、サンプルゲノム又は他の核酸配列のゲノム座標に対応又は重複するヌクレオチド断片リードの数(又はヌクレオチド断片リードからのヌクレオチド塩基コールの数)を定量化するメトリクスを指す。深度メトリクスは、例えば、配列決定の間にゲノム座標において決定及びアライメントされたヌクレオチド塩基コールの数を定量化することができる。いくつかの場合において、カスタマイズされた配列決定システムは、1の正規化深度が二倍体を指し、0.5の正規化深度が一倍体を指すスケールを使用する。それに加えて、又はその代わりに、カスタマイズされた配列決定システムは、ゲノム座標又はゲノム領域における予想される又は閾値深度カバレッジ未満のヌクレオチド塩基コールの数を定量化する深度メトリクスを利用することができる。
【0049】
更に、本明細書中で使用される場合、「遺伝子型可変性」という用語は、特定のゲノム領域についてのヌクレオチド塩基についての遺伝子型におけるバリエーションの程度をいう。特に、遺伝子型可変性は、ゲノム領域及び/又はハプロタイプがグラフ参照ゲノムとアライメントする可能性を定量化するメトリクス又は測定を含み得る。更に、1つ以上の実施形態では、遺伝子型可変性は、参照ゲノムに関して特定のゲノム領域における可能性のあるヌクレオチド塩基(又はヌクレオチド塩基配列)の数又は幅を反映し得る。
【0050】
以下の段落は、例示的な実施形態及び実装を描写する例示的な図に関して、カスタマイズされた配列決定システムを説明する。例えば、
図1は、カスタマイズされた配列決定システム104が1つ以上の実施形態に従って動作するシステム環境(又は「環境」)100の概略図を示す。示されるように、環境100は、ネットワーク112を介してユーザクライアント装置108及び配列決定装置114に接続された1つ以上のサーバ装置102を含む。
図1は、カスタマイズされた配列決定システム104の実施形態を示すが、本開示は、以下の代替的な実施形態及び構成を説明する。
【0051】
図1に示されるように、サーバ装置102、ユーザクライアント装置108、及び配列決定装置114は、ネットワーク112を介して接続される。したがって、環境100の構成要素の各々は、ネットワーク112を介して通信することができる。ネットワーク112は、コンピューティング装置が通信することができる任意の適切なネットワークを含む。例示的なネットワークを、
図11に関連して以下で更に詳細に説明する。
【0052】
図1によって示されるように、配列決定装置114は、核酸ポリマー又は他の核酸ポリマーを配列決定するための装置を含む。いくつかの実施形態では、配列決定装置114は、サンプルから抽出された核酸セグメント又はオリゴヌクレオチドを分析して、配列決定装置114上で直接的又は間接的のいずれかで本明細書に記載されるコンピュータ実装方法及びシステムを利用して、データを生成する。より具体的には、配列決定装置114は、ヌクレオチド-サンプルスライド内で、サンプルから抽出された核酸セグメントを受け取り、分析する。1つ以上の実施形態では、配列決定装置114は、SBSを利用し、核酸ポリマーを配列決定する。いくつかの実施形態では、配列決定装置114は、ネットワーク112を介して通信することに加えて、又は代替として、ネットワーク112を迂回し、ユーザクライアント装置108と直接通信する。加えて、
図1に示されるように、1つ以上の実施形態では、配列決定装置114は、カスタマイズされた配列決定システム104を含む。
【0053】
図1によって更に示されるように、サーバ装置102は、ヌクレオチド塩基呼び出し又は核酸ポリマーの配列決定のためのデータなどのデジタルデータを生成、受信、分析、保存、及び送信することができる。
図1に示されるように、配列決定装置114は、ヌクレオチド断片リードを表すデータを含む、配列決定装置114からの様々なデータを送信し得る(及びサーバ装置(複数可)102は受信し得る)。サーバ装置102は、ユーザクライアント装置108とも通信することができる。特に、サーバ装置(複数可)102は、ヌクレオチド断片リード、直接ヌクレオチド塩基コール、帰属ヌクレオチド塩基コール、及び/又は配列決定メトリクスについてのデータをユーザクライアント装置108に送信することができる。
図1に更に示されるように、サーバ装置102は、配列決定システム104を含むことができる。1つ以上の実施形態では、以下で更に説明されるように、カスタマイズされた配列決定システム104は、サンプルゲノムのためにカスタマイズされたグラフ参照ゲノム106を生成する。したがって、サーバ装置102はまた、グラフ参照ゲノム106をユーザクライアント装置108に送信することができる。
【0054】
いくつかの実施形態では、サーバ装置102は、サーバの分散集合を含み、サーバ装置102は、ネットワーク112にわたって分散され、異なる物理的場所に位置する、いくつかのサーバ装置を含む。サーバ装置102は、コンテンツサーバ、アプリケーションサーバ、通信サーバ、ウェブホスティングサーバ、又は別のタイプのサーバを含むことができる。
【0055】
図1に更に示され、表されるように、ユーザクライアント装置108は、デジタルデータを生成し、記憶し、受信し、送信することができる。特に、ユーザクライアント装置108は、サーバ装置102及び/又は配列決定装置114から、ヌクレオチド断片リード、直接ヌクレオチド塩基コール、帰属ヌクレオチド塩基コール、配列決定メトリクス、及び/又はグラフ参照ゲノムのデータを受信することができる。したがって、ユーザクライアント装置108は、最終的なヌクレオチド断片の読み取りを、グラフィカルユーザインターフェース内で、ユーザクライアント装置108に関連付けられたユーザに提示することができる。
【0056】
図1に示すユーザクライアント装置108は、様々なタイプのクライアント装置を含むことができる。例えば、いくつかの実施形態では、ユーザクライアント装置108は、デスクトップコンピュータ若しくはサーバ、又は他のタイプのクライアント装置等の非モバイル装置を含む。更に他の実施形態では、ユーザクライアント装置108は、ラップトップ、タブレット、携帯電話、又はスマートフォンなどのモバイル装置を含む。ユーザクライアント装置108に関する更なる詳細は、
図11に関して以下で説明する。
【0057】
図1に更に示されるように、ユーザクライアント装置108は、配列決定アプリケーション110を含む。配列決定アプリケーション110は、ユーザクライアント装置108上に記憶され、実行されるウェブアプリケーション又はネイティブアプリケーション(例えば、モバイルアプリケーション、デスクトップアプリケーション)であってもよい。配列決定アプリケーション110は、(実行されると)ユーザクライアント装置108に、カスタマイズされた配列決定システム104からデータを受信させ、配列決定装置114及び/又はサーバ装置102からデータを提示させる命令を含むことができる。更に、配列決定アプリケーション110は、変異体コールファイルからの変異体-ヌクレオチド-塩基コールなど、グラフ参照ゲノムに関するヌクレオチド-塩基コールについてのデータを表示するようにユーザクライアント装置108に命令することができる。
【0058】
図1に更に示されるように、カスタマイズされた配列決定システム104は、配列決定アプリケーション110の一部として、ユーザクライアント装置108上又は配列決定装置114上に位置してもよい。したがって、いくつかの実施形態では、カスタマイズされた配列決定システム104は、ユーザクライアント装置108上に(例えば、完全に又は部分的に位置して)実装される。上述したように、更に他の実施形態では、カスタマイズされた配列決定システム104は、配列決定装置114など、環境100の1つ以上の他の構成要素によって実装される。特に、カスタマイズされた配列決定システム104は、サーバ装置102、ネットワーク112、ユーザクライアント装置108、及び配列決定装置114にわたって様々な異なる方法で実装することができる。
【0059】
図1は、ネットワーク112を介して通信する環境100の構成要素を示しているが、ある特定の実装形態では、環境100の構成要素は、ネットワークを迂回して互いに直接通信することもできる。例えば、前述したように、いくつかの実施形態では、ユーザクライアント装置108は、配列決定装置114と直接通信することができる。加えて、いくつかの実施形態では、ユーザクライアント装置108は、カスタマイズされた配列決定システム104と直接通信する。更に、カスタマイズされた配列決定システム104は、サーバ装置102又は環境100内の他の場所に収容された、又はそれによってアクセスされる1つ以上のデータベースにアクセスすることができる。
【0060】
上記に示されるように、カスタマイズされた配列決定システム104は、サンプルゲノム(又はサンプルゲノムの群)のためにカスタマイズされたグラフ参照ゲノムを生成し、グラフ参照ゲノムを使用してサンプルゲノムのヌクレオチド塩基コールを決定することができる。
図2Aは、そのようなカスタマイズされたグラフ参照ゲノムを生成及び利用するためのプロセス200の概要を示す。
図2Aに示すように、カスタマイズされた配列決定システム104は、サンプルゲノム中の特定のゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールを決定する。カスタマイズされた配列決定システム104は、その後、変異体-ヌクレオチド-塩基コールを利用して、ゲノム領域に対応するハプロタイプを帰属させる。カスタマイズされた配列決定システム104は、帰属ハプロタイプを表すパスを含むカスタマイズされたグラフ参照ゲノムを更に生成する。一部の実施形態では、次いで、カスタマイズされた配列決定システム104は、ゲノム領域についてのヌクレオチド断片リードをグラフ参照ゲノム内のパスと比較することによって、サンプルゲノムについてのヌクレオチド塩基コールを決定する。
【0061】
直前に示し、
図2Aに示すように、カスタマイズされた配列決定システム104は、ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールを決定する動作202を実行することができる。そのようなゲノム領域を同定するために、いくつかの場合において、カスタマイズされた配列決定システム104は、(例えば、1つ以上の配列決定サイクルからの)サンプルゲノムについてのヌクレオチド断片リードを表すデータを配列決定するか、又は受け取る。カスタマイズされた配列決定システム104は、ヌクレオチド断片リードと参照ゲノム(例えば、線形参照ゲノム)との比較に基づいて、変異体-ヌクレオチド-塩基コール(又は他のヌクレオチド-塩基コール)及び配列決定メトリクスを更に決定する。ヌクレオチド塩基コールを決定すると、カスタマイズされた配列決定システム104は、対応するクオリティ閾値未満の配列決定メトリクスを示すヌクレオチド塩基コールを有する標的ゲノム領域を同定する。
【0062】
標的ゲノム領域を同定すると、カスタマイズされた配列決定システム104は、ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールを同定することができる。例示のために、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、変異体-ヌクレオチド-塩基コールについてゲノム領域からの所定の数の塩基対内を検索する。具体的には、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ゲノム領域内の閾値数の塩基対(例えば、ゲノム領域から10,000~50,000塩基対)内のSNP又は他の変異体-ヌクレオチド-塩基コールを同定する。上記のように、そのような同定されたSNP(又は他の変異体-ヌクレオチド-塩基コール)は、カスタマイズされた配列決定システム104が標的ゲノム領域に存在するように帰属するハプロタイプの一部であり得る。SNPの代わりに、いくつかの場合において、カスタマイズされた配列決定システム104は、挿入、欠失、又は逆位などのゲノム領域を取り囲む他の変異体型を同定する。
【0063】
図2Aに更に示されるように、カスタマイズされた配列決定システム104は、変異体-ヌクレオチド-塩基コールに基づいてゲノム領域についてハプロタイプを帰属させる動作204を行うことができる。例示のために、ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールを決定する際に、カスタマイズされた配列決定システム104は、ハプロタイプデータベース206からゲノム領域についてのハプロタイプを帰属することができる。1つ以上の実施形態では、ハプロタイプデータベース206は、ハプロタイプのヌクレオチド塩基配列を表すデータ、及びハプロタイプに対応する他のデータ(例えば、ハプロタイプについての対応するゲノム座標、ハプロタイプについて共通の周囲の変異体ヌクレオチド塩基コール、及び/又はハプロタイプに関連する集団)を含む。
【0064】
1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ゲノム領域に存在する可能性が高いハプロタイプを統計的確率で統計的に推論することによって、ゲノム領域についてハプロタイプを帰属させる。より具体的には、いくつかの態様において、カスタマイズされた配列決定システム104は、ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールを、特定のハプロタイプに関連する共通変異体-ヌクレオチド-塩基コールと比較することによって、ハプロタイプを帰属させる。カスタマイズされた配列決定システム104は、ゲノム領域を取り囲むSNPを、ハプロタイプデータベース206内のハプロタイプに関連するSNPと比較することができる。例示すると、カスタマイズされた配列決定システム104は、ゲノム領域とハプロタイプデータベース206中のハプロタイプとの間で共通であるSNPを決定することができる。したがって、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ゲノム領域に存在する可能性が高いハプロタイプデータベース206からハプロタイプを同定するために、統計的推論及び共有される変異体-ヌクレオチド-塩基コール(例えば、SNP)の量を利用する。
【0065】
1つ以上の実施形態では、カスタマイズされた配列決定システム104は、カスタマイズされたグラフ参照ゲノムを生成するために、ゲノム領域の帰属ハプロタイプを利用する。例示すると、
図2Aに示されるように、カスタマイズされた配列決定システム104は、変異体-ヌクレオチド-塩基コールに基づいてゲノム領域についての帰属ハプロタイプのパスを含むグラフ参照ゲノムを生成する動作208を実行することができる。より具体的には、カスタマイズされた配列決定システム104は、グラフ参照ゲノムに含めるためのゲノム領域に対応する帰属ハプロタイプを表すパスを追加又は生成することができる。実際に、カスタマイズされた配列決定システム104は、グラフ参照ゲノム中の複数の標的ゲノム領域についてそのようなパスを追加することができる。
【0066】
1つ以上の実施形態では、カスタマイズされた配列決定システム104は、隠れマルコフモデルを利用して関連する遺伝子型を同定することによって、ハプロタイプを帰属させる。例示のために、いくつかの態様において、隠れマルコフモデルは、ハプロタイプがゲノム領域に対応する可能性を決定することによってハプロタイプを同定する。より具体的には、カスタマイズされた配列決定システム104は、ゲノム領域に対応する可能性が高いハプロタイプを同定するために、ハプロタイプデータベース及びハプロタイプパターン(例えば、周囲の変異体-ヌクレオチド-塩基コール)を利用する隠れマルコフモデル(HMM)を利用することができる。
【0067】
HMM帰属を実施する場合、例えば、カスタマイズされた配列決定システム104は、Na Li and Matthew Stephens,「Modeling Linkage Unequilibrium and Identifying Recombination Hotspot Using Single-Nucleotide Polymorphism Data」、165Genetics2213-2233(2003)によって記載されるアプローチに基づく帰属モデルを利用することができ、この文献は、参照によりその全体が本明細書に組み込まれる。例示のために、いくつかの場合において、カスタマイズされた配列決定システム104は、標的ゲノム領域又は座標におけるサンプルゲノムの遺伝子型を、参照パネルからのハプロタイプのモザイクとしてモデル化する。カスタマイズされた配列決定システム104は、標的ゲノム領域又は座標を取り囲む又は隣接する決定された変異体ヌクレオチド塩基コール(例えば、SNP)に基づいて、サンプルゲノムが標的ゲノム領域又は座標においてハプロタイプの対を含む確率を更に決定する。いくつかのそのような場合において、カスタマイズされた配列決定システム104は、観察された変異体ヌクレオチド塩基コール及び近傍のゲノム領域又は座標において推測されたハプロタイプの類似性に基づいて、ハプロタイプが標的ゲノム領域又は座標に存在する確率を決定することによって、(i)標的ゲノム領域又は座標と(ii)近傍のゲノム領域又は座標との間の潜在的な連鎖を説明する。ハプロタイプの対についての確率を決定した後、いくつかの場合において、カスタマイズされた配列決定システム104は、標的ゲノム領域又は座標についての帰属ハプロタイプとして、最も高い確率及び/又は閾値確率を超える確率を示すハプロタイプを選択する。本開示は、
図3A及び
図3Bを参照して、以下のハプロタイプ帰属の更なる例及び説明を提供する。
【0068】
上述のように、カスタマイズされた配列決定システム104は、カスタマイズされたグラフ参照ゲノムを利用して、ゲノム領域についてのヌクレオチド塩基コールを決定することができる。例示すると、
図2Aに示すように、カスタマイズされた配列決定システム104は、サンプルゲノムのヌクレオチド断片リードをグラフ参照ゲノム内の帰属ハプロタイプを表すパスと比較することによって、部分的にゲノム領域のヌクレオチド塩基コールを決定する動作210を実行する。上記で示唆したように、カスタマイズされた配列決定システム104は、同様に、サンプルゲノムのヌクレオチド断片リードを、グラフ参照ゲノム内の帰属ハプロタイプ又は線形参照ゲノムの部分を表すいずれかのパスと比較することによって、サンプルゲノム内の他のゲノム領域についてのヌクレオチド塩基コールを決定することができる。
【0069】
上述のように、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードを、線形参照ゲノム又は帰属ハプロタイプを表すパスのいずれかとアライメントさせて、直接変異体ヌクレオチド塩基コール又は直接不変ヌクレオチド塩基コールを決定する。例示のために、カスタマイズされた配列決定システム104は、ヌクレオチド-断片リードを、グラフ参照ゲノムからの参照塩基に一致するヌクレオチド-塩基コールとアライメントさせることができる。より具体的には、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ヌクレオチド塩基コールに対応するゲノム座標又は領域において参照ゲノムと直接アライメントされたヌクレオチド断片リードに基づいて、直接不変ヌクレオチド塩基コールを決定する。カスタマイズされた配列決定システム104は、統計的推論を利用して、グラフ参照ゲノムに含まれる異なる可能性のあるハプロタイプパスを決定するので、カスタマイズされた配列決定システム104は、低信頼度コール領域、ヌクレオチド断片リードによるカバレッジがほとんどないゲノム領域、又はサンプル内の他のゲノム領域について、変異体ヌクレオチド塩基コール(又は他のヌクレオチド塩基コール)をより正確に決定することができる。
【0070】
アライメントされたヌクレオチド断片リードに基づいて直接ヌクレオチド塩基コールをより正確に決定することに加えて、カスタマイズされた配列決定システム104はまた、帰属されたヌクレオチド塩基コールを決定及び考慮することができる。例示のために、カスタマイズされた配列決定システム104は、間接的証拠(例えば、標的ゲノム領域、集団ハプロタイプ、及び/若しくは変異体頻度の周りの変異体ヌクレオチド塩基コール又は標的ゲノム領域に隣接する変異体ヌクレオチド塩基コール)に基づいて、ヌクレオチド塩基コールを決定し得る。
図2Bは、参照ゲノムに対する直接ヌクレオチド塩基コール、直接ヌクレオチド塩基コールに対応する配列決定メトリクス、及びサンプルゲノムの特定のゲノム領域に対する帰属ヌクレオチド塩基コールに基づいて、サンプルゲノムのゲノム座標に対する最終ヌクレオチド塩基コールを決定するカスタマイズされた配列決定システム104の概要220を示す。
【0071】
図2Bに示されるように、例えば、カスタマイズされた配列決定システム104は、直接ヌクレオチド塩基コール及び配列決定メトリクスを決定する動作222を行う。いくつかの実施形態では、カスタマイズされた配列決定システム104は、サンプルゲノムに対応するヌクレオチド断片リードを受信又は決定する。例えば、場合によっては、カスタマイズされた配列決定システム104は、配列決定装置114上でSBSを実行して、ヌクレオチド-サンプルスライド(例えば、フローセル)中のクラスターに対応するヌクレオチド-断片リードに対するヌクレオチド-塩基コールを決定する。あるいは、カスタマイズされた配列決定システム104は、サンプルゲノムについてのそのようなヌクレオチド断片リードについてのヌクレオチド塩基コールを表すデータを配列決定装置から受信する。
【0072】
カスタマイズされた配列決定システム104がヌクレオチド断片リードについてのデータをどのように受信するかにかかわらず、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードを参照ゲノムに対してアライメントさせることによって、サンプルゲノムのゲノム座標又は領域についての直接ヌクレオチド塩基コールを決定する。例示すると、いくつかの実施形態では、カスタマイズされた配列決定システム104は、ゲノム配列のヌクレオチド断片リードを参照ゲノムにマッピングし、確率モデル(例えば、ベイズ確率モデル)を適用して、サンプルゲノムのゲノム座標の直接ヌクレオチド塩基コール(例えば、変異体ヌクレオチド塩基コール)を決定する。以下で更に説明するように、カスタマイズされた配列決定システム104は、その後、周囲のゲノム領域についてハプロタイプを帰属させるための塩基として、又は最終的なヌクレオチド塩基コールを決定するための塩基として、変異体ヌクレオチド塩基コールを使用することができる。
【0073】
直接ヌクレオチド塩基コールを決定することに加えて、カスタマイズされた配列決定システム104はまた、直接ヌクレオチド塩基コールに対応する配列決定メトリクスを受信又は決定することができる。そのような配列決定メトリクスは、ヌクレオチド断片リードに対応する様々な精度及び/又は確実性メトリクス(例えば、深度メトリクス、リードデータクオリティメトリクス、マッピングデータクオリティメトリクス)を示すことができる。加えて、そのような配列決定メトリクスは、直接ヌクレオチド塩基コールの確実性又は品質(例えば、コールデータクオリティメトリクス、塩基クオリティドロップオフ(BQD)スコア)を示すことができる。
【0074】
図2Bに更に示されるように、1つ以上の実施形態では、動作222は、直接ヌクレオチド塩基コールを決定するために、線形参照ゲノムを利用する動作224又はグラフ参照ゲノムを利用する動作226を含む。上述したように、いくつかの実施形態では、カスタマイズされた配列決定システム104は、サンプルゲノムに対応するヌクレオチド断片リードを受信又は決定する。したがって、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードを線形参照ゲノム又はグラフ参照ゲノムのいずれかにアライメントさせて、直接ヌクレオチド塩基コールを決定することができる。
【0075】
直接的な変異体-ヌクレオチド-塩基コール(又は他のヌクレオチド-塩基コール)を決定することに加えて、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、帰属されたヌクレオチド-塩基コールを決定する。例示すると、
図2Bに示されるように、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ゲノム領域に対応するハプロタイプを帰属させる動作228を行う。
図2Aに関して上述したように、カスタマイズされた配列決定システム104は、ゲノム領域を取り囲む又は隣接する変異体-ヌクレオチド-塩基コールに基づいて、ゲノム領域のゲノム座標に対応するハプロタイプを帰属させることができる。
【0076】
1つ以上の実施形態では、カスタマイズされた配列決定システム104はまた、変異頻度を利用することを含む、他の因子を利用して、ハプロタイプを帰属させる。一部の実施形態では、変異体頻度は、特定のハプロタイプが標的ゲノム座標又は領域で生じる可能性を示す。上記で更に示唆されるように、いくつかの実施形態では、カスタマイズされた配列決定システム104は、サンプルゲノムに対応する特定の集団及び/又は民族群にどのゲノム変異体が共通であるかを示す「局所」変異体-ヌクレオチド-塩基コールデータに基づいて、ゲノム領域について最も可能性の高いハプロタイプを帰属させる。カスタマイズされた配列決定システム104は、標的ゲノム領域の閾値塩基対距離内のSNP又は他の変異体-ヌクレオチド-塩基コールに基づいて、ゲノム領域について最も可能性の高いハプロタイプをフィルタリング又は絞り込むことができる。
【0077】
更に例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、集団ハプロタイプ頻度を利用して、サンプルゲノムに対応する集団に対してより可能性が高い(又はより一般的な)ハプロタイプを帰属させる。したがって、カスタマイズされた配列決定システム104は、帰属ハプロタイプを決定するために生じるハプロタイプの可能性を示す様々な頻度及び/又は集団データを利用することができる。
【0078】
図2Bに更に示すように、カスタマイズされた配列決定システム104は、帰属されたヌクレオチド塩基コールを決定する動作230を行う。1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ゲノム領域に対する最も可能性の高いハプロタイプからゲノム領域内の各ゲノム座標に対するヌクレオチド塩基コールを同定することによって、帰属されたヌクレオチド塩基コールを決定する。いくつかの場合において、例えば、カスタマイズされた配列決定システム104は、ゲノム領域について帰属されたハプロタイプをランク付けし、帰属されたヌクレオチド塩基コールを同定するための最高ランクの帰属されたハプロタイプを選択する。
【0079】
更に、
図2Bに示されるように、カスタマイズされた配列決定システム104は、直接ヌクレオチド塩基コールを決定する動作232を任意選択で実行することができ、動作232は、カスタマイズされたグラフ参照ゲノムを利用する動作234を含む。
図2Aに関して上述したように、カスタマイズされた配列決定システム104は、カスタマイズされたグラフ参照ゲノムを生成し、利用することができる。いくつかの実施形態では、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードをカスタマイズされたグラフ参照ゲノムにアライメントさせて、直接ヌクレオチド塩基コールを決定する。例示すると、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードを、カスタマイズされたグラフ参照内の線形グラフゲノム又はカスタマイズされたグラフ参照ゲノム内の帰属ハプロタイプパスのいずれかにアライメントさせて、直接ヌクレオチド塩基コールを決定する。そのような実施形態では、カスタマイズされた配列決定システム104は、最終的なヌクレオチド塩基コールを決定するための基礎として、動作222で決定された直接ヌクレオチド塩基コールではなく、カスタマイズされたグラフ参照ゲノムを用いて動作232で決定された直接ヌクレオチド塩基コールを使用する。
【0080】
図2Bに更に示されるように、カスタマイズされた配列決定システム104はまた、帰属されたヌクレオチド塩基コール、直接ヌクレオチド塩基コール、及び配列決定メトリクスに基づいて最終ヌクレオチド塩基コールを決定する動作236を行う。1つ以上の実施形態では、カスタマイズされた配列決定システム104は、配列決定メトリクスを利用して、直接ヌクレオチド塩基コール又は帰属ヌクレオチド塩基コールのいずれかから特定のゲノム座標についての最終ヌクレオチド塩基コールを選択する。帰属されたヌクレオチド塩基コールは、ある特定の標的ゲノム領域に限定され得るが、場合によっては、カスタマイズされた配列決定システム104は、直接ヌクレオチド塩基コール又は帰属されたヌクレオチド塩基コールのいずれかから、サンプルゲノム内の各ゲノム座標に対する最終ヌクレオチド塩基コールを選択することができる。
【0081】
上記のように、いくつかの実施形態では、カスタマイズされた配列決定システム104は、重み付けモデルを利用して、最終的なヌクレオチド塩基コールを決定する。例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、直接ヌクレオチド塩基コール及び/又はヌクレオチド塩基コールが基づくヌクレオチド断片リードの品質を反映する配列決定メトリクスに基づいて、直接ヌクレオチド塩基コールを重み付けする。更に、いくつかの実施形態では、カスタマイズされた配列決定システム104は、帰属されたヌクレオチド塩基コールを決定するために使用されるハプロタイプの可変性及び/又は頻度に基づいて、帰属されたヌクレオチド塩基コールを重み付けする。
【0082】
重み付けモデルに加えて、又は重み付けモデルの代替として、いくつかの実施形態では、カスタマイズされた配列決定システム104は、機械学習モデルを利用して、最終ヌクレオチド塩基コールを決定する。以下に更に記載されるように、いくつかの実施形態では、カスタマイズされた配列決定システム104は、塩基コール機械学習モデルを利用して、直接ヌクレオチド塩基コール、配列決定メトリクス、及び帰属ヌクレオチド塩基コールに基づいてヌクレオチド塩基コールを決定する。カスタマイズされた配列決定システム104は、ゲノム座標に対する直接ヌクレオチド塩基コール又は帰属ヌクレオチド塩基コールのいずれかを選択することによって、最終ヌクレオチド塩基コールを予測するように、塩基コール機械学習モデルを訓練することができる。
【0083】
上述したように、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、サンプルゲノムのゲノム領域についてハプロタイプを帰属させる。
図3A~
図3Bは、ゲノム領域についてハプロタイプを帰属させるかどうかを決定し、(場合によっては)線形参照ゲノムに関して標的ゲノム領域についてハプロタイプを帰属させる、カスタマイズされた配列決定システム104を示す。より具体的には、
図3Aは、ヌクレオチド-断片リードの不十分な深さ及び標的ゲノム領域を取り囲む対応する変異体ヌクレオチド-塩基コールに基づいてハプロタイプを帰属しないことを決定するカスタマイズされた配列決定システム104を示す。対照的に、
図3Aはまた、標的ゲノム領域を取り囲む変異体ヌクレオチド塩基コール(ヌクレオチド断片リードに由来する)に基づいて標的領域についてハプロタイプを帰属させることを決定するカスタマイズされた配列決定システム104を示す。
【0084】
図3Aによって示唆されるように、カスタマイズされた配列決定システム104は、配列決定装置を利用して、サンプルゲノムについてのヌクレオチド断片リードを決定するか、又はサンプルゲノムについてのヌクレオチド断片リードを表すデータを受信する。カスタマイズされた配列決定システム104は、ヌクレオチド断片リードを線形グラフ参照ゲノムと更にアライメントさせる。したがって、
図3Aは、線形グラフ参照ゲノムにアライメントされたサンプルゲノムのヌクレオチド断片リードの低深度領域視覚化300を示す。同様に、
図3Aは、線形グラフ参照ゲノムにアライメントされた同じ(又は異なる)サンプルゲノムのヌクレオチド断片リードの高深度領域視覚化308を示す。
【0085】
図3Aに示されるように、低深度領域視覚化300は、低信頼度コール領域302及びゲノム領域306を含む。対照的に、高深度領域視覚化308は、低信頼度コール領域310及びゲノム領域312を含む。説明のために、低深度領域視覚化300及び高深度領域視覚化308は、線形参照ゲノムの部分に対するサンプルゲノムのサンプルゲノム領域(すべてのゲノム領域ではない)を示す。
【0086】
図3Aによって更に示唆されるように、カスタマイズされた配列決定システム104は、配列決定の間に決定され、線形参照ゲノムのゲノム座標においてアライメントされたヌクレオチド断片リードのヌクレオチド塩基コールに対応する深度メトリクス及び他の配列決定メトリクスを決定する。カスタマイズされた配列決定システム104は、様々なスケール及びタイプを利用して深度メトリクスを決定することができる。いくつかの実施形態では、例えば、カスタマイズされた配列決定システム104は、各ゲノム座標に重複又は対応するヌクレオチド断片リードの数を定量化することによって、深度メトリクスを決定する。
図3Aによって示唆されるように、例えば、カスタマイズされた配列決定システム104は、(i)低深度領域可視化300内のゲノム座標がゲノム座標あたり1倍~15倍の深さを有し、(ii)高深度領域可視化308内のゲノム座標がゲノム座標あたり30倍(又はそれ以上)の深さを有することを決定する。更に、低深度領域視覚化300は、より短いヌクレオチド断片リードを含む。
【0087】
決定された深度メトリクス、他の配列決定メトリクス、又は以下で説明される他の要因に基づいて、カスタマイズされた配列決定システム104は、サンプルゲノムからの低信頼度コール領域又は他のゲノム領域を、帰属のための標的ゲノム領域として同定することができる。例示すると、ある特定の実施形態では、カスタマイズされた配列決定システム104は、クオリティ閾値を満たさないマッピングクオリティメトリクスを有するヌクレオチド断片リードに対応する低信頼度コール領域を同定する。例えば、カスタマイズされた配列決定システム104は、MAPQスコアの分布に基づいて相対閾値未満のMAPQスコアを有するゲノム領域を同定することなどによって、閾値MAPQ未満のMAPQスコアを有するヌクレオチド断片リードを有するゲノム領域を低信頼度コール領域として同定することができる。
【0088】
更に、又はあるいは、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、閾値コールデータクオリティメトリクスを満たさないコールデータクオリティメトリクスを有するヌクレオチド塩基コールに対応する低信頼度コール領域を同定する。例えば、カスタマイズされた配列決定システム104は、閾値塩基コールクオリティメトリクス(例えば、Q20、Q30)を下回る塩基コールクオリティメトリクスを有するヌクレオチド塩基コールを有するゲノム領域を同定することができる。同様に、カスタマイズされた配列決定システム104は、閾値コール可能性メトリクス又は閾値体細胞クオリティメトリクスをそれぞれ下回るコール可能性メトリクス又は体細胞クオリティメトリクスを有するヌクレオチド塩基コールを有するゲノム領域を同定することができる。
【0089】
マッピングクオリティメトリクス又はコールデータクオリティメトリクスに加えて(又はその代わりに)、場合によっては、カスタマイズされた配列決定システム104は、ゲノム領域をカバーするか又は重複するヌクレオチド断片リードが、閾値深度メトリクスを満たさない深度メトリクスを示す場合、ゲノム領域を低信頼度コール領域として同定する。例えば、カスタマイズされた配列決定システム104は、ゲノム領域をカバーするか又はゲノム領域と重複するヌクレオチド断片リードが、深さの平均20又は30ヌクレオチド断片リード未満の深さメトリクスを有する場合、ゲノム領域を低信頼度コール領域として同定することができる。
【0090】
上記で示唆したように、カスタマイズされた配列決定システム104はまた、クオリティメトリクスの組み合わせに基づいてゲノム領域を低信頼度コール領域として同定することができる。例えば、カスタマイズされた配列決定システム104は、対応するヌクレオチド断片リード又はヌクレオチド塩基コールの一部、パーセンテージ、又は範囲が、閾値クオリティメトリクスの閾値割合(例えば、2/3)又は閾値クオリティメトリクスのセット(例えば、閾値マッピングクオリティメトリクス、閾値コールデータクオリティメトリクス、閾値深度メトリクス)からの各閾値クオリティメトリクスを満たす場合、ゲノム領域を低信頼度コール領域として同定する。例えば、上述のクオリティメトリクス及び対応する閾値クオリティメトリクスのうちの1つ以上に基づいて、カスタマイズされた配列決定システム104は、低深度領域視覚化300に示される低信頼度コール領域302及び高深度領域視覚化308に示される低信頼度コール領域310を同定する。
【0091】
低信頼度コール領域に加えて、いくつかの実施形態では、カスタマイズされた配列決定システム104は、帰属のために、又は代替ハプロタイプを同定するために、他の標的ゲノム領域を同定する。例えば、場合によっては、カスタマイズされた配列決定システム104は、配列決定マシン又は配列決定パイプラインが、閾値クオリティメトリクスを満たさない配列決定メトリクスを履歴的に生成したか、又は閾値パーセンテージ(例えば、サンプルゲノムの20%又は30%が代替ハプロタイプを実証する)を上回る代替ハプロタイプを履歴的に同定したゲノム領域を(標的ゲノム領域として)同定することがある。更なる例として、カスタマイズされた配列決定システム104は、特定の民族性又は地理的領域のサンプルゲノムから、閾値クオリティメトリクスを満たさない配列決定メトリクスを履歴的に生成したゲノム領域、又は閾値パーセンテージを上回る代替ハプロタイプを履歴的に同定したゲノム領域を(標的ゲノム領域として)同定する場合がある。
【0092】
上記の履歴因子のうちの1つ以上に基づいて、例えば、カスタマイズされた配列決定システム104は、低深度領域可視化300に示されるゲノム領域304及び高深度領域可視化308に示されるゲノム領域312を(標的ゲノム領域として)同定する。例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、特定の地理的領域、ハプロタイプ群、民族性などに対応する履歴配列決定データを利用する。したがって、カスタマイズされた配列決定システム104は、配列決定マシンが、クオリティメトリクス閾値、マッピングクオリティ閾値、又は他の対応するクオリティ閾値を下回る配列決定メトリクスを有するヌクレオチド塩基コールを生成した低信頼度コール領域を同定することができる。したがって、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、現在のゲノムサンプルがそのようなゲノム領域において低品質を示さない場合であっても、履歴的に低信頼度のコール領域について帰属ハプロタイプを表すカスタマイズされたグラフゲノムにおける1つ以上のパスを含む。
【0093】
しかしながら、深度メトリクスにおける差異のために、低深度領域可視化300及び高深度領域可視化308は、カスタマイズされた配列決定システム104が、いくつかの場合においてハプロタイプを帰属させることができるが、他の場合においてハプロタイプを帰属させることができないゲノム領域を含む。例えば、サンプルゲノムについての低深度領域視覚化300は、ハプロタイプ帰属を実行するための変異体-ヌクレオチド-変異体コールに対応するヌクレオチド-断片リードについて不十分な深度を示す。特に、低信頼度コール領域302を取り囲むヌクレオチド変異体コール301a、301b、及び301cに対応する(又はそれをカバーする)ヌクレオチド断片リード、並びにゲノム領域304を取り囲むヌクレオチド変異体コール301c及び301dに対応する(又はそれをカバーする)ヌクレオチド断片リードは、不十分な深さを有する。言い換えれば、低深度領域視覚化300は、ハプロタイプを帰属させるために、低信頼度コール領域302又はゲノム領域304を取り囲むSNP又は他の変異体-ヌクレオチド-塩基コールにおいて十分な深度(例えば、30倍超)を欠く。
【0094】
対照的に、サンプルゲノムについての高深度領域視覚化308は、低信頼度コール領域310についてハプロタイプを帰属させるために、変異体-ヌクレオチド-変異体コールに対応するヌクレオチド-断片リードについて十分な深度を示す。特に、低信頼度コール領域310を取り囲むヌクレオチド変異体コール301e、301f、及び301gに対応する(又はそれをカバーする)ヌクレオチド断片リード、並びにゲノム領域312を取り囲むヌクレオチド変異体コール301g及び301hに対応する(又はそれをカバーする)ヌクレオチド断片リードは、十分な深さを示す。言い換えれば、高深度領域視覚化308は、ハプロタイプを帰属させるために、低信頼度コール領域310及びゲノム領域312を取り囲むSNP又は他の変異体-ヌクレオチド-塩基コールにおいて十分な深さ(例えば、30倍超)を示す。
【0095】
例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードを線形参照ゲノムにアライメントさせて、ハプロタイプデータベースからの可能性のあるハプロタイプのセットの基礎として変異体ヌクレオチド塩基コールを決定する。アライメントされたヌクレオチド断片リードに基づいて、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、30xリードカバレッジで、又は配列データの初期リードを利用することによって、サンプルゲノムからSNPを決定する。最初のリードを使用する例として、2×150塩基対配列決定ランの第1の又は最初の50塩基対は、通常の35×全ゲノム配列決定ランについて約6×リードカバレッジと同等である。そのような配列決定ランの第1の又は最初の50塩基対が決定されると、いくつかの実施形態では、カスタマイズされた配列決定システム104は、標的ゲノム領域のハプロタイプを帰属し、したがって、特定のサンプルゲノムのためにカスタマイズされたグラフ参照ゲノムを生成することができる。上記で概説したようなカバレッジを用いて、カスタマイズされた配列決定システム104は、ハプロタイプを帰属させるために、約1倍リード深さまでのローパス帰属を行うことができる。したがって、いくつかの実施形態では、カスタマイズされた配列決定システム104は、ローパスハプロタイプ帰属を実行するために初期リードを利用することができる。
【0096】
低信頼度コール領域310及びゲノム領域312を標的ゲノム領域として同定し、対応する深度メトリクスが帰属に十分であると決定した後、カスタマイズされた配列決定システム104は、ハプロタイプデータベース314を利用して、ハプロタイプを帰属する動作316を実行することができる。いくつかの実施形態では、カスタマイズされた配列決定システム104は、ハプロタイプデータベース314を利用して、ゲノム領域312ではなく、低信頼度コール領域310についてハプロタイプを帰属させる。対照的に、いくつかの態様において、カスタマイズされた配列決定システム104は、ハプロタイプデータベース314を利用して、低信頼度コール領域310及びゲノム領域312の両方についてのハプロタイプを決定する。
【0097】
1つ以上の実施形態では、ハプロタイプデータベース314は、種々のハプロタイプ及び関連するデータを含む。例示のために、ハプロタイプデータベース314は、ハプロタイプゲノム配列及び対応するゲノム座標を含む。更に、いくつかの実施形態では、ハプロタイプデータベース314はまた、ハプロタイプ配列に対応するメタデータ(例えば、ハプロタイプ、ハプロタイプに関連する集団又は民族群に共通の周囲の変異体ヌクレオチド塩基コール、及び/又はハプロタイプに関する他のデータ)を含む。
【0098】
上述したように、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ハプロタイプデータベース314を利用して、ハプロタイプを帰属させる。より具体的には、カスタマイズされた配列決定システム104は、ゲノム領域に存在する十分な可能性を有するハプロタイプをハプロタイプデータベース314から同定することによって、ゲノム領域についてのハプロタイプを帰属することができる。例示のために、カスタマイズされた配列決定システム104は、低信頼度コール領域310を取り囲む変異体-ヌクレオチド-塩基コールを、ハプロタイプデータベース314内のハプロタイプに関連する変異体-ヌクレオチド-塩基コールと比較することができる。例示すると、カスタマイズされた配列決定システム104は、低信頼度コール領域310とハプロタイプデータベース314中のハプロタイプとの間で共通であるSNPを決定することができる。低信頼度コール領域310と候補ハプロタイプとの間で共通のSNP(又は他の変異ヌクレオチド塩基コール)に基づいて、カスタマイズされた配列決定システム104は、どのハプロタイプが低信頼度コール領域310内に存在する可能性が高いかを統計的に推論する。
【0099】
例えば、いくつかの実施形態では、カスタマイズされた配列決定システム104は、隠れマルコフモデル(HMM)を適用して、低信頼度コール領域310のハプロタイプを帰属させる。例示すると、いくつかの実施形態では、カスタマイズされた配列決定システム104は、隠れマルコフモデルを利用して、ハプロタイプデータベース314から帰属ハプロタイプを同定することができる。より具体的には、カスタマイズされた配列決定システム104は、隠れマルコフモデルを利用して、ゲノム領域に対応する可能性のあるハプロタイプを同定するために、ゲノム領域及びハプロタイプデータベース314中のハプロタイプに対応するハプロタイプパターン(例えば、周囲の変異体-ヌクレオチド-塩基コール)を比較することができる。いくつかの実施形態では、例えば、カスタマイズされた配列決定システム104は、隠れマルコフモデルを使用して、Genetic Variants Predictive of Cancer Risk、国際公開第2013/035/114a1号(2013年3月14日公開)、又はA.Kong et al.,Detection of Sharing by Descent,Long-Range Phasing and Haplotype Imputation,Nat.Genet.40,1068-75(2008)で説明されているハプロタイプを帰属する。更に、又は代わりに、カスタマイズされた配列決定システム104は、fastPHASE、BEAGLE、MACH、又はIMPUTEなどの利用可能なソフトウェアを使用してハプロタイプを帰属させるために隠れマルコフモデルを使用する。
【0100】
図3Aに示すように、ハプロタイプを帰属させることに加えて、カスタマイズされた配列決定システム104は、更なるハプロタイプを同定する動作318を行う。より具体的には、いくつかの態様において、カスタマイズされた配列決定システム104は、ゲノム領域312におけるゲノム領域312中の対立遺伝子について、ハプロタイプデータベース314から代替ハプロタイプを同定する。例えば、1つ以上の実施形態では、システムは、グラフ参照ゲノムに含めるために、ゲノム領域312に対して非常に一般的なハプロタイプを同定する。いくつかの実施形態、カスタマイズされた配列決定システム104は、サンプルゲノムに対応する1つ以上の民族性及び/又は地理的領域について指定された閾値(例えば、20%又は30%)を超えて存在するハプロタイプを同定する。
【0101】
上記のように、カスタマイズされた配列決定システム104は、様々なゲノム領域についてハプロタイプを帰属することができる。例えば、カスタマイズされた配列決定システム104は、VNTR、構造変異体、挿入、欠失、又は逆位を(全体的又は部分的に)含むゲノム領域についてハプロタイプを帰属させることができる。したがって、標的ゲノム領域は、VNTR、構造変異体、挿入、欠失、又は逆位に対応するか又はそれを表すヌクレオチド塩基のセット(又は欠失ヌクレオチド塩基のセット)の一部又は全部を含み得る。
図3Bは、カスタマイズされた配列決定システム104がハプロタイプを帰属させる低信頼度コール領域の例を示す。より具体的には、
図3Bは、サンプルゲノム321の一部についての参照データ及び配列決定メトリクスを示す。特に、
図3Bは、サンプルゲノム321の一部に対応する線形参照ゲノムからのゲノム座標マーカ322と、サンプルゲノム321の一部に対応する線形参照ゲノムからの遺伝子コード領域324とを示す。ゲノム座標マーカ322によって示されるように、サンプルゲノム321の部分は、約155,180キロベース~155,200キロベースの範囲のゲノム座標を有する20キロベース長である。この範囲内で、参照ゲノムは、TRIM46の遺伝子326a、MUC1の遺伝子326b、MIR92Bの遺伝子326c、及びTHBS3の遺伝子326dを含む。
【0102】
参照データに加えて、
図3Bは、塩基コールクオリティメトリクスのための塩基コールクオリティグラフィック328と、サンプルゲノム321の部分に対応するマッピングクオリティメトリクスのためのマッピングクオリティグラフィック332とを示す。例示のために、塩基コールクオリティグラフィック328は、閾値メトリクス(例えば、Q30又はQ37)を満たすサンプルゲノム321の部分内のヌクレオチド塩基コールの割合又はパーセンテージを示し、濃いバーの長さは、閾値メトリクスを満たさない塩基コールクオリティメトリクスを有するヌクレオチド塩基コールのより大きな割合又はパーセンテージを示す。塩基コールクオリティグラフィック328に加えて、
図3Bは、マッピングクオリティグラフィック332を示す。マッピングクオリティグラフィック332は、閾値メトリクス(例えば、相対MAPQスコア又はMAPQ 40)を満たすサンプルゲノム321の部分に対応するヌクレオチド断片リードの割合又はパーセンテージを示し、濃いバーの長さは、閾値メトリクスを満たさないマッピングクオリティメトリクスを有するヌクレオチド断片リードのより大きな割合又はパーセンテージを示す。
【0103】
上記のように、いくつかの実施形態では、カスタマイズされた配列決定システム104は、塩基コールクオリティメトリクス及び/又はマッピングクオリティメトリクスを利用して、1つ以上の低クオリティメトリクスに対応する低信頼度コール領域を同定することができる。
図3Bに示されるように、例えば、カスタマイズされた配列決定システム104は、塩基コールクオリティメトリクス及びマッピングクオリティメトリクスの両方についてのより低いクオリティメトリクスに対応する低信頼度コール領域330を同定する。具体的には、低信頼度コール領域330は、MUC1の遺伝子326b内のVNTRを(全体的に又は部分的に)含む。
【0104】
上記で示唆したように、カスタマイズされた配列決定システム104は、ハプロタイプデータベース314を利用して、低信頼度コール領域330についてハプロタイプを帰属させる動作316を実行することができる。例示すると、カスタマイズされた配列決定システム104は、低信頼度コール領域330に存在する可能性が高いハプロタイプをハプロタイプデータベース314から決定することによって、低信頼度コール領域330についてのハプロタイプを帰属することができる。上記のように、いくつかの態様において、カスタマイズされた配列決定システム104は、低信頼度コール領域330及び低信頼度コール領域330に対応する(又はそのゲノム座標内の)ハプロタイプデータベース314中のハプロタイプの両方を取り囲むSNP(又は他の変異体-ヌクレオチド-塩基コール)を決定することができる。例えば、低信頼度コール領域330の閾値数の塩基対内のSNPであって、ハプロタイプデータベース314からのハプロタイプに一致するSNPに基づいて、カスタマイズされた配列決定システム104は、低信頼度コール領域330についてハプロタイプを帰属させる。
【0105】
上述のように、カスタマイズされた配列決定システム104は、標的ゲノム領域について帰属ハプロタイプを使用することによって、特定のサンプルゲノムについてカスタマイズされたグラフ参照ゲノムを生成することができる。
図4Aは、特定のサンプルゲノムについてそのようなカスタマイズされたグラフ参照ゲノムを生成するカスタマイズされた配列決定システム104の概要を示す。より具体的には、
図4Aは、線形参照ゲノム400と、サンプルゲノムの様々なゲノム領域に対応する帰属ハプロタイプを表すパス404a~404dとの両方を含むグラフ参照ゲノム402を生成するカスタマイズされた配列決定システム104を示す。
【0106】
上述したように、グラフ参照ゲノム402は線形参照ゲノム400を含む。したがって、カスタマイズされた配列決定システム104は、後方互換性のためのベースラインとして線形参照ゲノム400を使用してグラフ参照ゲノム402を生成する。言い換えれば、カスタマイズされた配列決定システム104は、最終的なヌクレオチド塩基コールを決定する前に、サンプルゲノムからのヌクレオチド断片リードを線形参照ゲノム400の任意の部分とアライメントさせることができる。
【0107】
線形参照ゲノム400に加えて、グラフ参照ゲノム402は、ゲノム領域に対応するハプロタイプを表すパス404a~404dを含む。したがって、パス404a~404dは、特定のゲノム領域について線形参照ゲノム400内に既に存在するハプロタイプとは異なる帰属ハプロタイプを表す。例示すると、パス404aは、線形参照ゲノム400に対する欠失を表し、パス404bは、線形参照ゲノム400の参照塩基とは異なる単一ヌクレオチド変異体を含み、パス404cは、線形参照ゲノム400からのヌクレオチド部分配列の複製(又は複製の挿入)を含み、パス404dは、線形参照ゲノム400からのヌクレオチド部分配列の逆位を含む。したがって、パス404a~404dの各々は、線形参照ゲノム400内に既に存在するハプロタイプとは異なるゲノム領域についての帰属ハプロタイプを表す。
【0108】
図4Aに示されるように、パス404a~404dは例として示されており、カスタマイズされた配列決定システム104は、様々な帰属ハプロタイプから様々なパスを決定することができる。
図4Aには示されていないが、カスタマイズされた配列決定システム104は、グラフ参照ゲノム内の単一のゲノム領域についての異なる帰属ハプロタイプを表すパスを含むことができる。例えば、カスタマイズされた配列決定システム104は、ゲノム領域について2つ又は3つの最も可能性の高い代替ハプロタイプを含むことができる。例示のために、カスタマイズされた配列決定システム104は、第1のハプロタイプ及び第2のハプロタイプがそれぞれ、サンプルゲノムにおいて観察される同じ周囲の変異体-ヌクレオチド-塩基コールを有するサンプルゲノムの30%に存在することを決定する。カスタマイズされた配列決定システム104は、変異体-ヌクレオチド-塩基コールを考慮したそれらのそれぞれの確率に基づいて、第1のハプロタイプ及び第2のハプロタイプを表すグラフ参照ゲノムにおけるパスを含むことができる。
【0109】
上述したように、カスタマイズされた配列決定システム104は、サンプルゲノムからのヌクレオチド断片リードをグラフ参照ゲノム402にアライメントさせて、ゲノム領域に対する最終的なヌクレオチド塩基コールを決定することができる。グラフ参照ゲノム402は、帰属ハプロタイプに基づく線形参照ゲノム及びパス404a~404dの両方を含むので、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードを線形参照ゲノム400及びパス404a~404dのいずれか又は両方とアライメントさせることができる。
【0110】
図4Bは、帰属ハプロタイプを表すパスを含むいくつかのゲノム領域に沿って、サンプルゲノムからのヌクレオチド断片リードをグラフ参照ゲノム402とアライメントさせるカスタマイズされた配列決定システム104を示す。
図4Bに示されるように、カスタマイズされた配列決定システム104は、部分的に、ヌクレオチド断片リード406a及び406bからの変異体を帰属ハプロタイプに対応するパス404a~404dとアライメントさせることによって、ヌクレオチド断片リード406a及び406bをグラフ参照ゲノム402とアライメントさせる。
【0111】
図4Bによって示されるように、サンプルゲノムは、いくつかのゲノム領域においてヘテロ接合性である。ヌクレオチド断片リード406aのアライメントによって示されるように、サンプルゲノムは、パス404a及び404cとアライメントするが、パス404bとはアライメントしない対立遺伝子を含む。対照的に、ヌクレオチド断片リード406bのアライメントによって示されるように、サンプルゲノムは、パス404b及び404dとアライメントするが、パス404a及び404cとはアライメントしない対立遺伝子を含む。グラフ参照ゲノム402は線形参照ゲノム400及びパス404a~404dの両方を含むので、カスタマイズされた配列決定システム104は、ヌクレオチド断片リード406a及び406bからの各リードをグラフ参照ゲノム402とアライメントさせることに成功する。
【0112】
サンプルゲノムは、
図4Beに示されるゲノム座標又は領域において異なる対立遺伝子を含むので、カスタマイズされた配列決定システム104は、ヌクレオチド断片リード406a又は406bのうちの1つ以上を、線形参照ゲノム400自体とミスアライメントするか、又はより低い精度でアライメントする可能性が高い。したがって、カスタマイズされた配列決定システム104は、サンプルゲノムの特定のゲノム領域に対する帰属ハプロタイプを表すパス404a~404dを含むグラフ参照ゲノム402を利用することによって、アライメントを改善する。グラフ参照ゲノム402は、他の除外されたハプロタイプよりも低信頼度コール領域(又は他のゲノム領域)においてサンプルゲノムに存在する可能性が高い帰属ハプロタイプを含むので、カスタマイズされた配列決定システム104は、従来の線形参照ゲノムに対して正確なアライメントの確率を増加させる。
【0113】
そのような改善されたアライメントに部分的に起因して、カスタマイズされた配列決定システム104は、同様に、グラフ参照ゲノム402に関して変異体-ヌクレオチド-塩基コール(又は他の最終ヌクレオチド-塩基コール)を決定する信頼度を改善することができる。ヌクレオチド断片リード406a及び406bをグラフ参照ゲノム402とより良好にアライメントさせると、カスタマイズされた配列決定システム104は、サンプルゲノムが、線形参照ゲノム400又はパス404a~404dによって表される帰属ハプロタイプのいずれかの参照塩基を変化させるか又は一致させるヌクレオチド塩基を含むかどうかを正確に決定する可能性がより高い。
【0114】
アライメント及び塩基コール精度の改善の一部として、いくつかの実施形態では、カスタマイズされた配列決定システム104は、異なるサンプルサイズからのハプロタイプのパネルを含むハプロタイプデータベースを使用する。1つ以上の実施形態に従って、
図5は、配列決定システムが、異なるサンプルサイズの参照パネルに基づいて種々の対立遺伝子頻度のSNPを正確に帰属させる非参照一致率についての曲線下面積(AUC)を規定する受信者動作特性(ROC)曲線を有するグラフ500を示す。
図5によって示されるように、ROC曲線は、カスタマイズされた配列決定システム104が、ハプロタイプデータベースにおける参照パネルのサンプルサイズが増加するにつれて、SNPをより正確に帰属させることを示す。
【0115】
異なる参照パネルについての帰属の精度を試験するために、例えば、研究者らは、配列決定マシンによって配列決定されたサンプルを表すデータから約20%のSNPを除去した。続いて、カスタマイズされた配列決定システム104は、様々なサンプルサイズの参照パネルに基づいて、サンプルからのSNPについてハプロタイプを帰属させた。
図5によって示されるように、第1の参照パネル502aは、100個のサンプル由来の約200個のハプロタイプを含み、第2の参照パネル502bは、500個のサンプル由来の約1,000個のハプロタイプを含み、第3の参照パネル502cは、1,000個のサンプル由来の約2,000個のハプロタイプを含み、そして第4の参照パネル502dは、2,503個のサンプル由来の約5,006個のハプロタイプを含んだ。
【0116】
グラフ500に示されるように、100個のサンプルを有する第1の参照パネル502aを使用するカスタマイズされた配列決定システム104についてのROC曲線は、SNPについての対立遺伝子頻度にわたって除去されたSNPを帰属させるための最も低い非参照一致率を示す。対照的に、2,503個のサンプルを有する第4の参照パネル502dを使用するカスタマイズされた配列決定システム104についてのROC曲線は、SNPについての対立遺伝子頻度にわたって、除去されたSNPを帰属させるための最も高い非参照一致率を示す。しかし、ROC曲線にかかわらず、非参照一致率は、対立遺伝子頻度とともに増加し、その後、0.10をわずかに超える対立遺伝子頻度で最大一致でプラトーに達する。したがって、いくつかの実施形態では、カスタマイズされた配列決定システム104は、帰属ハプロタイプの精度を増加させるために、2,503個以上のサンプルの参照パネルを有するハプロタイプデータベースを使用する。
【0117】
上記のように、比較的高いサンプルサイズ又は任意のサンプルサイズの参照パネルを有するハプロタイプデータベースを使用することに加えて、カスタマイズされた配列決定システム104は、標的ゲノム領域を取り囲むSNPを有するゲノム座標についてヌクレオチド断片リードの深さが増加するにつれて、ゲノム領域についてハプロタイプを帰属させる精度を増加させる。例えば、いくつかの実施形態では、カスタマイズされた配列決定システム104は、ハプロタイプを帰属させるために30倍の深さを有するヌクレオチド断片リードに基づくSNPを使用する。同じ参照パネルであっても、30倍の深さを有するヌクレオチド断片リードからのSNPは、ローパス全ゲノム配列決定(lpWGS)よりも、全ゲノムのSBSからおよそ3倍の変異情報を与える。
【0118】
上述したように、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、直接ヌクレオチド塩基コール、配列決定メトリクス、及び間接ヌクレオチド塩基コールに基づいて、サンプルゲノムに対する最終ヌクレオチド塩基コールを決定する。
図6は、参照ゲノムに関して最終的なヌクレオチド塩基コールを決定するために、重み付けモデルにおいて直接ヌクレオチド塩基コール及び帰属ヌクレオチド塩基コールを重み付けするカスタマイズされた配列決定システム104の例を示す。更に、
図7A~
図7Bに関して以下で考察されるように、カスタマイズされた配列決定システム104は、機械学習モデルを利用して、そのような最終ヌクレオチド塩基コールを決定することができる。
【0119】
図6に示すように、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードを参照ゲノムとアライメントさせる動作608を実行することができる。
図4A~
図4Bに関して上述したように、カスタマイズされた配列決定システム104は、サンプルゲノムから配列決定されたヌクレオチド断片リードを、線形参照ゲノム又はグラフ参照ゲノムのいずれかとアライメントさせることができる。
【0120】
上記で示唆したように、カスタマイズされた配列決定システム104は、各ヌクレオチド断片リードを参照ゲノムとアライメントさせて、変異体ヌクレオチド塩基コールを含む参照ゲノムに関して直接ヌクレオチド塩基コール602を決定する。例示のために、カスタマイズされた配列決定システム104は、ヌクレオチド断片リード及び線形参照ゲノム又はグラフ参照ゲノムのいずれかに対するアライメントに基づいて、直接ヌクレオチド塩基コール602を決定する。したがって、カスタマイズされた配列決定システム104は、サンプルゲノムからの「直接」証拠に基づいて直接ヌクレオチド塩基コール602を決定する。上記で示唆したように、いくつかの実施形態では、この直接的な証拠は、グラフ参照ゲノム中のハプロタイプを表すパスにアライメントさせることを含む。
【0121】
そのような直接ヌクレオチド塩基コールに加えて、カスタマイズされた配列決定システム104は、マッピングのためのものを含む、ヌクレオチド断片リード及び/又は直接ヌクレオチド塩基コールに対応する配列決定メトリクス604を決定する。いくつかの場合において、配列決定メトリクス604は、ヌクレオチド断片リード、ヌクレオチド塩基コール、及び/又はそれらのアライメントの質及び/又は確実性を反映する。例示すると、
図6に示されるように、配列決定メトリクス604は、深度メトリクス610、リードデータクオリティメトリクス612、コールデータクオリティメトリクス614、及び/又はマッピングクオリティメトリクス616を含むことができる。
【0122】
例えば、カスタマイズされた配列決定システム104は、配列決定中に特定のゲノム座標において決定及びアライメントされたヌクレオチド塩基コールの深さの定量化として深さメトリクス610を決定することができる。実際、いくつかの実施形態では、カスタマイズされた配列決定システム104は、ゲノム領域内のゲノム座標の深度の平均に基づいて、サンプルゲノムのゲノム領域についての深度メトリクス610を決定する。上述のように、カスタマイズされた配列決定システム104はまた、深度メトリクス610のための種々のスケール及びメトリクスタイプを利用することができる。例えば、いくつかの実施形態では、カスタマイズされた配列決定システム104は、閾値深度カバレッジ未満のヌクレオチド塩基コールの数を定量化する深度メトリクスを決定する。
【0123】
上記のように、カスタマイズされた配列決定システム104はまた、サンプルゲノムからのヌクレオチド断片リードについてリードデータクオリティメトリクス612を決定することができる。例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、グラフ参照ゲノムの1つ以上のパスを含む、参照ゲノムのヌクレオチド塩基に一致しないサンプルゲノム中のヌクレオチド塩基の総数に基づいて、リードデータクオリティメトリクス612を決定する。加えて、又は代替として、カスタマイズされた配列決定システム104は、配列決定中に複数のサイクルにわたってリードデータクオリティメトリクス612を決定することができる。更に、カスタマイズされた配列決定システム104は、サンプルゲノム内のゲノム座標をカバーするヌクレオチド断片リード内の平均又は中央値位置を決定することによって、サンプルゲノムについてのリード位置メトリクスに基づいてリードデータクオリティメトリクス612を決定することができる。
【0124】
いくつかの実施形態では、カスタマイズされた配列決定システム104は、ヌクレオチド断片リード内のヌクレオチド塩基に対するヌクレオチド塩基コール、又は参照ゲノムに対する直接ヌクレオチド塩基コールのいずれかに対応するコールデータクオリティメトリクス614を更に決定する。いくつかの実施形態では、カスタマイズされた配列決定システム104は、ヌクレオチド塩基コールに対応する品質及び/又は確実性を定量化することによって、コールデータクオリティメトリクス614を決定する。例えば、カスタマイズされた配列決定システム104は、ヌクレオチド断片リードについての配列決定サイクル内の任意の所与のヌクレオチド塩基コール、又は参照ゲノムに対するゲノム座標に対する任意の所与の直接ヌクレオチド-塩基コールのエラー確率を予測する塩基コールクオリティメトリクス(例えば、Phred品質スコア又はQスコア)を決定することができる。例示すると、いくつかの実施形態では、カスタマイズされた配列決定システム104は、Q20などの閾値クオリティスコアを満たすゲノム領域内のヌクレオチド塩基コールのパーセンテージ又はサブセットとしてコールデータクオリティメトリクス614を決定する。追加的又は代替的に、カスタマイズされた配列決定システム104は、ヌクレオチド断片リード内のヌクレオチド塩基又は直接的なヌクレオチド塩基コールのいずれかについて、コール可能性メトリクス又は体細胞クオリティメトリクスをコールデータクオリティメトリクス614として決定する。
【0125】
更に上述したように、カスタマイズされた配列決定システム104は、サンプルゲノムからのヌクレオチド断片リードについてマッピングクオリティメトリクス616を決定することができる。いくつかの実施形態では、カスタマイズされた配列決定システム104は、参照ゲノムとのヌクレオチド断片リードのアライメントの品質及び/又は確実性を定量化することによって、マッピングクオリティメトリクス616を決定する。いくつかの実施形態では、カスタマイズされた配列決定システム104は、ゲノム座標におけるヌクレオチド断片リードのヌクレオチド塩基コールに対するマッピングクオリティ(MAPQ)スコアを決定する。例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、最も近い整数に丸められた、-10 log10 Pr{マッピング位置が間違っている}を表すMAPQスコアを決定する。いくつかの実施形態では、カスタマイズされた配列決定システム104は、サンプル領域のゲノム領域内のヌクレオチド断片リードのマッピングクオリティメトリクスの平均又は中央値を決定する。
【0126】
直接ヌクレオチド塩基コール602を決定することに加えて、カスタマイズされた配列決定システム104は、帰属ヌクレオチド塩基コール606を決定する。例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、特定のサンプルゲノムに対する変異体に関連する統計情報に対応する「間接的」証拠に基づいて、帰属されたヌクレオチド塩基コール606を決定する。
図6に示されるように、1つ以上の実施形態では、帰属ヌクレオチド塩基コール606を決定することは、ローカルヌクレオチド塩基コール、集団ハプロタイプ、及び変異頻度に基づいて帰属ヌクレオチド塩基コール606を決定する動作618を含むことができる。
【0127】
より具体的には、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、サンプルゲノムに対応する集団データを決定し、利用する。例示すると、いくつかの実施形態では、カスタマイズされた配列決定システム104は、特定のサンプルゲノムに対応する集団及び/又は民族群に関するデータを同定又は受信する。したがって、カスタマイズされた配列決定システム104は、集団に共通のローカルヌクレオチド塩基コールを同定することができる。例示のために、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、サンプルゲノムに対応する同定された集団又は民族群に対応する参照ゲノムを利用する。更に、いくつかの実施形態では、カスタマイズされた配列決定システム104は、サンプルゲノム中のゲノム領域のゲノム座標におけるヌクレオチド塩基コールを同定する。したがって、カスタマイズされた配列決定システム104は、帰属されたヌクレオチド塩基コール606を決定するためのハプロタイプの基準点として、同定されたヌクレオチド塩基コールを利用することができる。
【0128】
上記で示唆及び言及したように、カスタマイズされた配列決定システム104は、サンプルゲノムに対応する集団データを決定又は受信する。したがって、カスタマイズされた配列決定システム104は、サンプルゲノムに特異的な集団に対応するハプロタイプを同定することによって、サンプルゲノムに対応する集団ハプロタイプ頻度を決定することができる。1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ハプロタイプデータベースを利用して、地理的領域又は民族群に特異的な参照パネルを同定することなどによって、集団ハプロタイプを同定する。
【0129】
更に、カスタマイズされた配列決定システム104は、変異頻度を利用して、帰属ヌクレオチド塩基コール606を決定することができる。1つ以上の実施形態では、カスタマイズされた配列決定システム104は、サンプルゲノムについて同定された集団に対応するゲノム変異体を同定する。より具体的には、カスタマイズされた配列決定システム104は、サンプルゲノムについて同定されたゲノム領域(例えば、低信頼度コールゲノム領域)のゲノム座標に対応するゲノム変異体を同定することができる。したがって、カスタマイズされた配列決定システム104は、集団について、及び特定のゲノム領域の高頻度変異に対応するヌクレオチド塩基コールを同定することができる。したがって、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、帰属されたヌクレオチド塩基コール606として、同定された変異体からのヌクレオチド塩基コールを利用する。
【0130】
上記のように、いくつかの実施形態では、カスタマイズされた配列決定システム104は、集団ハプロタイプを利用して、参照パネル又は他の集団ハプロタイプに基づいてサンプルゲノムのゲノム座標又は標的ゲノム領域についてハプロタイプを帰属させる。例示のために、カスタマイズされた配列決定システム104は、周囲の変異体-ヌクレオチド-塩基コールに基づいてゲノム領域に対応するハプロタイプを帰属させることができる。更に、いくつかの実施形態では、カスタマイズされた配列決定システム104は、変異頻度及び集団データを利用して、帰属ハプロタイプを決定する。更に、カスタマイズされた配列決定システム104は、帰属ハプロタイプに基づいて帰属ヌクレオチド塩基コールを決定することができる。より具体的には、いくつかの実施形態では、カスタマイズされた配列決定システム104は、ゲノム座標又は領域についての尤度に従って帰属ハプロタイプをランク付けし、ゲノム座標又は領域について最高ランクのハプロタイプから帰属ヌクレオチド塩基コールを決定する。
【0131】
一部の実施形態では、カスタマイズされた配列決定システム104は、ローカルヌクレオチド塩基コールに対応するヌクレオチド塩基コール、集団ハプロタイプに対応するヌクレオチド塩基コール、及び高頻度変異体に対応するヌクレオチド塩基コールのうちの1つ以上に基づいて、帰属ヌクレオチド塩基コール606を決定する。例示すると、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ローカルヌクレオチド塩基コール、集団ハプロタイプ、及び変異体頻度のうちの1つ以上の頻度に基づいて最も高い尤度を有するヌクレオチド塩基コールに基づいて、帰属されたヌクレオチド塩基コール606を選択する。例えば、カスタマイズされた配列決定システム104は、ローカルヌクレオチド塩基コール、集団ハプロタイプ、及び高頻度変異体のそれぞれの頻度を利用する統計的推論を利用することができる。
【0132】
上記のように、いくつかの実施形態では、カスタマイズされた配列決定システム104は、標的ゲノム領域についての帰属ハプロタイプを表すパスを含むカスタマイズされたグラフ参照ゲノムを生成する。したがって、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、最初に直接的なヌクレオチド塩基コールを決定するときに標的ゲノム領域を取り囲む又は隣接する変異体ヌクレオチド塩基コール(例えば、SNP)を決定し、次いで変異体ヌクレオチド塩基コールを使用してハプロタイプを帰属させる。一部の実施形態では、グラフ参照ゲノムは、変異体頻度、ローカル変異体-ヌクレオチド-塩基コール、及び集団ハプロタイプを利用して決定された帰属ハプロタイプを含む。カスタマイズされたグラフ参照ゲノムを使用する場合、最初に決定された直接ヌクレオチド塩基コールを使用するのではなく、カスタマイズされた配列決定システム104は、サンプルゲノムからのヌクレオチド断片リードとカスタマイズされたグラフ参照ゲノムとの比較に基づいて直接ヌクレオチド塩基コールを決定する。そのような実施形態では、カスタマイズされた配列決定システム104は、以下に説明されるように、最終ヌクレオチド塩基コールを決定するための基礎として、線形参照ゲノム又は汎用グラフ参照ゲノムを使用して決定される直接ヌクレオチド塩基コールではなく、カスタマイズされたグラフ参照ゲノムを用いて決定される直接ヌクレオチド塩基コールを使用する。
【0133】
直接ヌクレオチド塩基コール602及び帰属ヌクレオチド塩基コール606を決定することに加えて、
図6に更に示されるように、カスタマイズされた配列決定システム104は、直接ヌクレオチド塩基コール602、配列決定メトリクス604、及び帰属ヌクレオチド塩基コール606に基づいて最終ヌクレオチド塩基コールを決定する動作620を行うことができる。いくつかの場合において、例えば、カスタマイズされた配列決定システム104は、動作620において、ゲノム座標についての直接ヌクレオチド塩基コール及び帰属ヌクレオチド塩基コールを重み付けし、ゲノム座標についての最終ヌクレオチド塩基コールとして直接又は帰属ヌクレオチド塩基コールのいずれかを選択する。例示のために、カスタマイズされた配列決定システム104は、対応するデータクオリティに基づいて直接ヌクレオチド塩基コール602を重み付けし、ゲノム領域の変異困難性に基づいて帰属ヌクレオチド塩基コール606を重み付けする。
【0134】
直前に示唆したように、カスタマイズされた配列決定システム104は、対応する配列決定メトリクスに基づいて、直接ヌクレオチド塩基コール602からの直接ヌクレオチド塩基コールを重み付けすることができる。例示すると、いくつかの実施形態では、カスタマイズされた配列決定システム104は、直接ヌクレオチド塩基コールを決定するために使用されるヌクレオチド断片リードの品質及び/又は直接ヌクレオチド塩基コールを決定するために利用されるコール及びアライメントプロセスの品質に基づいて、直接ヌクレオチド塩基コールを重み付けする。例えば、カスタマイズされた配列決定システム104は、深度メトリクス、リードデータクオリティメトリクス、コールデータクオリティメトリクス、及び/又はマッピングクオリティメトリクスを利用して、直接ヌクレオチド塩基コールを重み付けすることができる。
図6に示されるように、カスタマイズされた配列決定システム104は、対応するデータの質に比例して直接ヌクレオチド塩基コールを重み付けする。同様に、カスタマイズされた配列決定システム104は、直前に記載された方法を使用して、ゲノム領域内の各ゲノム座標について(又はサンプルゲノム内の各ゲノム座標について)直接ヌクレオチド塩基コールを重み付けすることができる。
【0135】
更に、カスタマイズされた配列決定システム104は、帰属されたヌクレオチド-塩基コール606からの帰属されたヌクレオチド-塩基コールを、対応する変異体信頼困難性に基づいて重み付けすることができる。1つ以上の実施形態では、カスタマイズされた配列決定システム104は、ゲノム座標又はゲノム領域における分散の頻度、ゲノム座標又は領域における変異体(又は変異体型)の尤度、及び/又はゲノム領域の長さのうちの1つ以上に基づいて、ゲノム座標又はゲノム領域に対応する変異体「信頼困難性」を決定する。例示のために、カスタマイズされた配列決定システム104は、ゲノム座標又は領域、及び/又は比較的大きなゲノム領域におけるハプロタイプによって表されるような比較的高い程度の変異体(又は変異体タイプ)を有するゲノム座標又は領域において、対立遺伝子頻度によって測定されるような比較的より頻繁なバリエーションを有するゲノム領域又は座標におけるヌクレオチド塩基コールを正確に帰属する可能性が低い。そのようなゲノム座標又は領域についての帰属されたヌクレオチド塩基コールは、比較的高い変異体信頼困難性を示す。したがって、いくつかの実施形態では、カスタマイズされた配列決定システム104は、ゲノム座標又は領域に対応する変異体信頼困難性に反比例して帰属ヌクレオチド塩基コールを重み付けする。同様に、カスタマイズされた配列決定システム104は、ちょうど記載された方法を使用して、ゲノム領域中の各ゲノム座標について(又はサンプルゲノム中の各ゲノム座標について)帰属ヌクレオチド塩基コールを重み付けすることができる。
【0136】
一部の実施形態では、カスタマイズされた配列決定システム104は、各座標についての直接ヌクレオチド塩基コール及び帰属ヌクレオチド塩基コールを重み付けすることによって、標的ゲノム領域の各ゲノム座標についての最終ヌクレオチド塩基コールを決定する。例えば、いくつかの場合において、カスタマイズされた配列決定システム104は、ゲノム座標についての比較的高いデータクオリティ及び比較的高い変異体信頼困難性に対応する直接ヌクレオチド塩基コールを決定する。そのような例では、カスタマイズされた配列決定システム104は、高い変異体信頼困難性に対応する帰属ヌクレオチド塩基コールではなく、高いデータクオリティに対応する直接ヌクレオチド塩基コールをゲノム座標の最終ヌクレオチド塩基コールとして選択する可能性が高い。
【0137】
別の例では、カスタマイズされた配列決定システム104は、比較的低いデータクオリティ及び比較的低い変異体困難性に対応するゲノム座標に対する直接ヌクレオチド塩基コールを決定する。この例では、カスタマイズされた配列決定システム104は、低いデータクオリティを示す配列決定メトリクスに対応する直接ヌクレオチド塩基コールではなく、低い変異体困難性に対応する帰属ヌクレオチド塩基コールを最終ヌクレオチド塩基コールとして選択する可能性が高い。
【0138】
いくつかの実施形態では、カスタマイズされた配列決定システム104は、満たされない場合、ゲノム座標に対する帰属されたヌクレオチド塩基コールの自動選択をもたらす配列決定メトリクスの閾値を実装することができる。例示すると、これらの実施形態では、カスタマイズされた配列決定システム104は、直接ヌクレオチド塩基コールの任意の潜在的な選択に対して最小のデータクオリティを必要とする。例えば、カスタマイズされた配列決定システム104は、最小Qスコア又は最小MAPQを決定及び利用することができる。
【0139】
重み付けモデルに加えて、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、機械学習モデルを利用して、最終的なヌクレオチド塩基コールを決定することができる。
図7A~
図7Bは、それぞれ、最終的なヌクレオチド-塩基コールを決定するための塩基コール機械学習モデルの訓練及び適用を示す。より具体的には、
図7A~
図7Bは、直接ヌクレオチド塩基コール、配列決定メトリクス、及び帰属ヌクレオチド塩基コールに基づいて最終的なヌクレオチド塩基コールを決定するための機械学習モデルの訓練及び適用を示す。
【0140】
図7Aにおける訓練の概要として、カスタマイズされた配列決定システム104は、塩基コール機械学習モデル708に、訓練直接ヌクレオチド塩基コール、訓練直接ヌクレオチド塩基コールに対応する訓練配列決定メトリクス、及びゲノム座標についての訓練帰属ヌクレオチド塩基コールを反復して入力することができる。訓練データに基づいて、塩基コール機械学習モデルは、ゲノム座標についての直接ヌクレオチド塩基コール又は帰属ヌクレオチド塩基コールのいずれかを選択することなどによって、各訓練反復においてゲノム座標についての予測ヌクレオチド塩基コールを生成する。カスタマイズされた配列決定システム104は、その後、予測されたヌクレオチド-塩基コールをゲノム座標についてのグラウンドトゥルース塩基コールと比較して、損失を決定し、損失に基づいて塩基コール機械学習モデルを調整する。
【0141】
図7Aに示されるように、カスタマイズされた配列決定システム104は、ゲノム座標についての訓練直接ヌクレオチド塩基コール701、訓練直接ヌクレオチド塩基コール701に対応する訓練配列決定メトリクス703、及びゲノム座標についての訓練帰属ヌクレオチド塩基コール705を受信する。例えば、カスタマイズされた配列決定システム104は、深度メトリクス、リードデータクオリティメトリクス、コールデータクオリティメトリクス、及び/又はマッピングクオリティメトリクスを含む、
図6に関して上記で議論される配列決定メトリクスのタイプを利用することができる。
【0142】
図7Aに更に示されるように、カスタマイズされた配列決定システム104は、訓練直接ヌクレオチド-塩基コール701、訓練配列決定メトリクス703、及び訓練帰属ヌクレオチド-塩基コール705を、塩基コール機械学習モデル708に提供する。入力コール及びメトリクスに基づいて、
図7Aに示されるように、塩基コール機械学習モデルは、ゲノム座標に対する予測されたヌクレオチド塩基コール707を生成する。場合によっては、例えば、塩基コール機械学習モデルは、訓練直接ヌクレオチド塩基コール701又は訓練帰属ヌクレオチド塩基コール705のいずれかを予測ヌクレオチド塩基コール707として選択する。訓練直接ヌクレオチド塩基コール701又は訓練帰属ヌクレオチド塩基コール705のいずれかを選択するために、いくつかの実施形態では、塩基コール機械学習モデル708は、ゲノム座標に対する訓練帰属ヌクレオチド塩基コールとは異なるように訓練直接ヌクレオチド塩基コールを重み付けすることができる。
【0143】
図7Aに更に示されるように、カスタマイズされた配列決定システム104は、ゲノム座標についての予測されたヌクレオチド塩基コール707を、ゲノム座標についてのグラウンドトゥルース塩基コール710と比較する。1つ以上の実施形態では、カスタマイズされた配列決定システム104は、損失関数711を利用して、予測されたヌクレオチド塩基コール707をグラウンドトゥルース塩基コール710と比較する。損失関数711を使用することによって、カスタマイズされた配列決定システム104は、予測されたヌクレオチド塩基コール707とグラウンドトゥルース塩基コール710との間の差異又は損失を決定する。いくつかの実施形態では、カスタマイズされた配列決定システム104は、塩基コール機械学習モデル708内の1つ以上の重みを調整するために、損失を逆伝播することができる。
【0144】
図7Aによって更に示唆されるように、カスタマイズされた配列決定システム104は、訓練反復を実行することができる。例示すると、カスタマイズされた配列決定システム104は、損失関数711を利用して、各ゲノム座標について、予測されたヌクレオチド塩基コールとグラウンドトゥルース塩基コールとの比較に基づいて、塩基コール機械学習モデル708の重みを反復的に調整することができる。調整後、塩基コール機械学習モデル708は、改善された予測ヌクレオチド塩基コールを生成することができる。いくつかの場合において、カスタマイズされた配列決定システム104は、カスタマイズされた配列決定システム104が、損失関数711からの後続の損失が最小閾値内であるか、又は訓練反復の閾値数に達したと決定するまで、訓練反復を実行する。
【0145】
塩基コール機械学習モデル708は、様々な形態をとることができる。例えば、1つ以上の実施形態では、塩基コール機械学習モデル708は、様々なタイプの決定木、サポートベクターマシン(SVM)、ベイジアンネットワーク、又は畳み込みニューラルネットワーク(CNN)などのニューラルネットワークを含むことができる。いくつかの実施形態では、カスタマイズされた配列決定システム104は、塩基コール機械学習モデル708として、多くの層を有する畳み込みディープニューラルネットワーク又はリカレントニューラルネットワークを利用する。塩基コール機械学習モデル708がニューラルネットワークである実施形態では、カスタマイズされた配列決定システム104は、クロスエントロピー損失関数、L1損失関数、又は平均二乗誤差損失関数を損失関数711として利用することができる。1つ以上の更なる実施形態では、カスタマイズされた配列決定システム104は、塩基コール機械学習モデル708として、ランダムフォレストモデル、多層パーセプトロン、又は線形回帰、ディープ表形式学習アーキテクチャ、ディープ学習変換器(例えば、自己注意ベースの表形式変換器)、又はロジスティック回帰を利用する。
【0146】
上記で特定された形態に加えて、場合によっては、塩基コール機械学習モデル708は、勾配ブーストツリーのアンサンブルを含む。勾配ブーストツリーの後者の実施形態に関して、カスタマイズされた配列決定システム104は、損失関数711として平均二乗誤差損失関数(例えば、回帰のための)を利用することができる。加えて、又は代替として、カスタマイズされた配列決定システム104は、損失関数711として(例えば、分類のための)対数損失関数を利用することができる。いくつかの実施形態では、カスタマイズされた配列決定システム104は、塩基コール機械学習モデル708に対して修正又は調整を行って、後続の訓練反復のための損失関数711からの損失の尺度を低減する。
【0147】
勾配ブーストツリーの場合、例えば、カスタマイズされた配列決定システム104は、損失関数711によって決定された誤差の勾配に対して塩基コール機械学習モデル708を訓練する。例えば、カスタマイズされた配列決定システム104は、過剰適合を回避するために目的関数を規則化しながら、(例えば、無限次元の)凸最適化問題を解く。特定の実施態様では、カスタマイズされた配列決定システム104は、過小表現クラスに対する補正を強調するために勾配をスケーリングする(例えば、直接ヌクレオチド塩基コールよりも有意に多くの帰属ヌクレオチド塩基コールが存在する場合)。
【0148】
いくつかの実施形態では、カスタマイズされた配列決定システム104は、最適化問題を解くことの一部として、各連続する訓練反復について、新たな弱学習器(例えば、新たなブーストツリー)を塩基コール機械学習モデル708に追加する。例えば、カスタマイズされた配列決定システム104は、損失関数711からの損失を最小化する特徴(例えば、配列決定メトリクス)を見つけ、その特徴を現在の反復のツリーに追加するか、又はその特徴を有する新しいツリーの構築を開始する。
【0149】
訓練に加えて、又は訓練を伴わずに、いくつかの実施形態では、カスタマイズされた配列決定システム104は、塩基コール機械学習モデル708の訓練されたバージョンを適用する。
図7Bは、ゲノム座標についての最終的なヌクレオチド塩基コール714を決定するために、訓練された塩基コール機械学習モデル712を適用するカスタマイズされた配列決定システム104を示す。
図7Bに示されるように、カスタマイズされた配列決定システム104は、訓練された塩基コール機械学習モデル712に:ゲノム座標についての直接ヌクレオチド塩基コール702、直接ヌクレオチド塩基コール702に対応する配列決定メトリクス704、及びゲノム座標についての帰属ヌクレオチド塩基コール706を入力する。直接ヌクレオチド塩基コール702、配列決定メトリクス704、及び帰属ヌクレオチド塩基コール706に基づいて、訓練された塩基コール機械学習モデル712は、ゲノム座標のための最終ヌクレオチド塩基コール714を生成する。直接ヌクレオチド塩基コール702又は帰属ヌクレオチド塩基コール706のいずれかを選択するために、いくつかの実施形態では、訓練された塩基コール機械学習モデル712は、ゲノム座標について帰属ヌクレオチド塩基コールとは異なるように直接ヌクレオチド塩基コールを重み付けすることができる。
【0150】
図7Bに更に示されるように、1つ以上の実施形態では、カスタマイズされた配列決定システム104システムは、訓練された塩基コール機械学習モデル712を使用して、サンプルゲノムの1つ以上の標的ゲノム領域内の各ゲノム座標について、又はサンプルゲノム内の各ゲノム座標について、最終ヌクレオチド塩基コールを決定することができる。例示のために、カスタマイズされた配列決定システム104は、訓練された塩基コール機械学習モデル712を利用して、ゲノム領域内の各ゲノム座標について帰属ヌクレオチド塩基コール及び直接ヌクレオチド塩基コールの中から選択することができる。加えて、1つ以上の実施形態では、カスタマイズされた配列決定システム104は、訓練された塩基コール機械学習モデル712を利用して、サンプルゲノム全体の各ゲノム座標に対する最終塩基コールを決定する。
【0151】
図1~
図7B、対応する本文、及び実施例は、配列決定システムのいくつかの異なる方法、システム、装置、及び非一時的コンピュータ可読媒体を提供する。上記に加えて、1つ以上の実施形態はまた、
図8~
図10に示される特定の結果を達成するための動作を含むフローチャートの観点から説明することもできる。
図8~
図10は、より多くの又はより少ない動作で実行されてもよい。更に、動作は、異なる順序で実行されてもよい。更に、本明細書で説明される動作は、互いに並行して、又は同じ若しくは同様の動作の異なる例と並行して、繰り返されるか、又は実行され得る。
【0152】
上述したように、
図8は、1つ以上の実施形態による、ヌクレオチド断片リードをグラフ参照ゲノムと比較することに基づいてヌクレオチド塩基コールを決定するための一連の動作800のフローチャートを示す。
図8は、一実施形態による動作を示すが、代替実施形態は、
図8に示される動作のいずれかを省略、追加、再配列、及び/又は修正してもよい。
図8の動作は、方法の一部として実行することができる。あるいは、非一時的コンピュータ可読媒体は、1つ以上のプロセッサによって実行されると、コンピューティング装置に
図8の動作を実行させる命令を含むことができる。いくつかの実施形態では、システムは、
図8の動作を実行することができる。
【0153】
図8に示すように、一連の動作800は、ヌクレオチド断片リードのサブセットから、ゲノム領域を取り囲む変異体ヌクレオチド塩基コールのサブセットを決定するための動作802を含む。特に、動作802は、サンプルゲノムのヌクレオチド-断片リードのサブセットから、サンプルゲノム内のゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールのサブセットを決定することを含むことができる。具体的には、動作802は、ゲノム領域内のヌクレオチド塩基コールのサブセットのクオリティメトリクスがクオリティメトリクス閾値を満たさないことを決定することと、クオリティメトリクス閾値を満たさないヌクレオチド塩基コールのサブセットのクオリティメトリクスに基づいてゲノム領域を低信頼度コール領域として同定することとを含むことができる。更に、動作802は、ゲノム領域が、可変数縦列反復(VNTR)、構造変異体、挿入、又は欠失の少なくとも一部を含むことを含むことができる。上記のように、動作802を実行するとき、ゲノム領域を取り囲む変異体ヌクレオチド塩基コールのサブセットを決定することは、2×150配列決定ランの最初の50塩基対からの、又は約1倍リード深度でのヌクレオチド断片リードのサブセットに基づくものであることができる。
【0154】
更に、一連の動作800は、変異体ヌクレオチド塩基コールのサブセットに基づいてゲノム領域についてのハプロタイプを帰属させるための動作804を含む。特に、動作804は、変異体-ヌクレオチド-塩基コールのサブセットに基づいて、サンプルゲノムに対応するゲノム領域についてハプロタイプを帰属させることを含むことができる。具体的には、動作804は、ゲノム領域を取り囲む一塩基多型(SNP)を決定することによってゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールのサブセットを決定することと、SNPに基づいてサンプルゲノムに対応するハプロタイプを帰属させることによってゲノム領域についてのハプロタイプを帰属させることとを含むことができる。また、1つ以上の実施形態では、動作804は、集団ハプロタイプのハプロタイプデータベースからゲノム領域についてのハプロタイプを帰属させることを含む。
【0155】
更に、一連の動作800は、ゲノム領域に対応する帰属ハプロタイプを表すパスを含むグラフ参照ゲノムを生成するための動作806を含む。特に、動作806は、サンプルゲノムについて、ゲノム領域に対応する帰属ハプロタイプを表すパスを含むグラフ参照ゲノムを生成することを含むことができる。具体的には、動作806は、サンプルゲノム内の追加のゲノム領域に対応する変異体-ヌクレオチド-塩基コールを決定することと、変異体-ヌクレオチド-塩基コールに基づいて追加のゲノム領域について追加の帰属ハプロタイプを決定することと、追加の帰属ハプロタイプを表す追加のパスを含むグラフ参照ゲノムを生成することとを含むことができる。更に、動作806は、線形参照ゲノムからゲノム領域についてのゲノム座標を決定することと、線形参照ゲノム及び線形参照ゲノムのゲノム座標に位置するゲノム領域に対応する帰属ハプロタイプを表すパスを含むグラフ参照ゲノムを生成することとを含むことができる。
【0156】
また、一連の動作800は、サンプルゲノムのヌクレオチド断片リードをハプロタイプを表すパスと比較することに基づいて、ゲノム領域内のヌクレオチド塩基コールを決定するための動作808を含む。特に、動作808は、サンプルゲノムのヌクレオチド断片リードをグラフ参照ゲノム内の帰属ハプロタイプを表すパスと比較することに基づいて、サンプルゲノムのゲノム領域内のヌクレオチド塩基コールを決定することを含むことができる。例えば、動作808は、サンプルゲノムのヌクレオチド断片リードをグラフ参照ゲノム内の帰属ハプロタイプを表すパスとアライメントさせることに基づいて、サンプルゲノムのゲノム領域内のヌクレオチド塩基コールを決定することを含むことができる。具体的には、動作808は、サンプルゲノムのヌクレオチド断片リードと帰属ハプロタイプを表すパスとの比較に基づいてゲノム領域内のゲノム座標についての直接ヌクレオチド塩基コールを決定することと、ゲノム領域についての帰属ハプロタイプに基づいてゲノム領域内のゲノム座標についての帰属ヌクレオチド塩基コールを決定することと、直接ヌクレオチド塩基コール及び帰属ヌクレオチド塩基コールに基づいてゲノム領域内のゲノム座標についての最終ヌクレオチド塩基コールを決定することとを含むことができる。
【0157】
更に、動作808は、ゲノム座標についての直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することと、ゲノム領域の配列決定メトリクス及び可変性に基づいて、第1の重みを直接ヌクレオチド塩基コールに割り当て、第2の重みを帰属ヌクレオチド塩基コールに割り当てることによって、ゲノム座標についての最終ヌクレオチド塩基コールを決定することとを含むことができる。
【0158】
上述したように、
図9は、1つ以上の実施形態に従って、帰属されたヌクレオチド塩基コール、直接ヌクレオチド塩基コール、及び配列決定メトリクスに基づいてヌクレオチド塩基コールを決定するための一連の動作900のフローチャートを示す。
図9は、一実施形態による動作を示すが、代替実施形態は、
図9に示される動作のいずれかを省略、追加、再配列、及び/又は修正してもよい。
図9の動作は、方法の一部として実行することができる。あるいは、非一時的コンピュータ可読媒体は、1つ以上のプロセッサによって実行されると、コンピューティング装置に
図9の動作を実行させる命令を含むことができる。いくつかの実施形態では、システムは、
図9の動作を実行することができる。
【0159】
図9に示すように、一連の動作900は、サンプルゲノムのヌクレオチド断片リードのサブセットから、ゲノム領域を取り囲む変異体ヌクレオチド塩基コールのサブセットを決定するための動作902を含む。特に、動作902は、サンプルゲノムのヌクレオチド-断片リードのサブセットから、サンプルゲノム内のゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールのサブセットを決定することを含むことができる。上記のように、動作902を実行するとき、ゲノム領域を取り囲む変異体ヌクレオチド塩基コールのサブセットを決定することは、2×150配列決定ランの最初の35塩基対、最初の50塩基対、最初の75塩基対、又は他の最初の数の塩基対からの、又は約1×リード深度でのヌクレオチド断片リードのサブセットに基づくものであることができる。
【0160】
図9に示すように、一連の動作900は、サンプルゲノムについて、変異体ヌクレオチド塩基コールコールのサブセットに基づいてゲノム領域に対応するハプロタイプを帰属させるための動作904を含む。特に、動作904は、サンプルゲノムについて、変異体-ヌクレオチド-塩基コールのサブセットに基づいてゲノム領域に対応するハプロタイプを帰属させることを含むことができる。
【0161】
図9に示すように、一連の動作900は、ハプロタイプに基づいてゲノム領域に対する帰属ヌクレオチド塩基コールを決定するための動作906を含む。特に、動作906は、サンプルゲノムについて、帰属ハプロタイプに基づいてゲノム領域について帰属ヌクレオチド塩基コールを決定することを含むことができる。
【0162】
図9に示されるように、一連の動作900は、ゲノム領域についての直接ヌクレオチド塩基コール及び直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定するための動作908を含む。特に、動作908は、サンプルゲノムについて、ゲノム領域についての直接ヌクレオチド塩基コール及び直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することを含むことができる。具体的には、動作908は、直接ヌクレオチド塩基コールについての深度メトリクス、リードデータクオリティメトリクス、コールデータクオリティメトリクス、又はマッピングクオリティメトリクスを決定することによって、直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することを含むことができる。
【0163】
図9に示されるように、一連の動作900は、帰属されたヌクレオチド塩基コール、直接ヌクレオチド塩基コール、及び配列決定メトリクスに基づいて、ゲノム領域についての最終ヌクレオチド塩基コールを決定するための動作910を含む。特に、動作910は、帰属ヌクレオチド-塩基コール、直接ヌクレオチド-塩基コール、及び配列決定メトリクスに基づいて、ゲノム領域についての最終ヌクレオチド-塩基コールを決定することを含むことができる。具体的には、動作910は、サンプルゲノムのヌクレオチド-断片リードのサブセットから、サンプルゲノム内のゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールのサブセットを決定することと、サンプルゲノムについて、変異体-ヌクレオチド-塩基コールのサブセットに基づいてゲノム領域に対応するハプロタイプを帰属することと、サンプルゲノムについて、帰属ハプロタイプに基づいてゲノム領域について帰属ヌクレオチド-塩基コールを決定することと、サンプルゲノムについて、ゲノム領域についての直接ヌクレオチド-塩基コール及び直接ヌクレオチド-塩基コールに対応する配列決定メトリクスを決定することと、ゲノム領域についての最終ヌクレオチド-塩基コールを、帰属ヌクレオチド-塩基コール、直接ヌクレオチド-塩基コール及び配列決定メトリクスに基づいて決定することとを含むことができる。
【0164】
更に、動作910は、帰属されたヌクレオチド-塩基コール、直接ヌクレオチド-塩基コール、及び配列決定メトリクスに基づいて最終ヌクレオチド-塩基コールを決定するために、塩基コール機械学習モデルを利用することによって、ゲノム領域についての最終ヌクレオチド-塩基コールを決定することを含むことができる。更に、動作910は、ゲノム領域の可変性及び直接ヌクレオチド塩基コールに対応する配列決定メトリクスのうちの1つ以上に基づいて、帰属ヌクレオチド塩基コールのうちの1つ以上とは異なるように直接ヌクレオチド塩基コールのうちの1つ以上を重み付けすることによって、ゲノム領域についての最終ヌクレオチド塩基コールを決定することを含むことができる。また、動作910は、ゲノム領域の可変性が、ゲノム領域の遺伝子型可変性及びゲノム領域の長さを含み、配列決定メトリクスのうちの1つ以上が、ヌクレオチド断片リードに対応する直接ヌクレオチド塩基コールについてのリードデータクオリティメトリクス又はマッピングクオリティメトリクス、及びヌクレオチド断片リードに対応する直接ヌクレオチド塩基コールについてのコールデータクオリティメトリクスを含むことを含むことができる。
【0165】
1つ以上の実施形態では、一連の動作900は、サンプルゲノムについて、線形参照ゲノムと、ゲノム領域に対応する帰属ハプロタイプを表すパスとを含むグラフ参照ゲノムを生成することと、ゲノム座標に対応するヌクレオチド-塩基-断片リードと、線形参照ゲノム内のゲノム座標における対応するヌクレオチド塩基との間の不一致を同定することに基づいて、ゲノム領域の内側又は外側のゲノム座標についての直接変異体-ヌクレオチド-塩基コールを決定することとを含むことができる。また、一連の動作900は、サンプルゲノムについて、ゲノム領域に対応する帰属ハプロタイプを表すパスを含むグラフ参照ゲノムを生成することと、サンプルゲノムのヌクレオチド断片リードをグラフ参照ゲノム内の帰属ハプロタイプを表すパスと比較することに基づいて、ゲノム領域についての直接ヌクレオチド塩基コールを決定することとを含むことができる。特に、サンプルゲノムのヌクレオチド断片リードをパスと比較することは、サンプルゲノムのヌクレオチド断片リードをグラフ参照ゲノム内の帰属ハプロタイプを表すパスとアライメントさせることを含むことができる。
【0166】
加えて、1つ以上の実施形態では、一連の動作900は、グラフ参照ゲノム内の線形参照ゲノムとアライメントされたサンプルゲノムからのヌクレオチド断片リードの第1のサブセットに基づいてヌクレオチド塩基コールを決定すること、及びグラフ参照ゲノムからの1つ以上の帰属ハプロタイプを表すパスとアライメントされたサンプルゲノムからのヌクレオチド断片リードの第2のサブセットに基づいてヌクレオチド塩基コールを決定することによって、直接ヌクレオチド塩基コールを決定することを含む。
【0167】
上述したように、
図10は、1つ以上の実施形態に従って、直接ヌクレオチド塩基コール、配列決定メトリクス、及び帰属ヌクレオチド塩基コールに基づいてヌクレオチド塩基コールを決定するための一連の動作1000のフローチャートを示す。
図10は、一実施形態による動作を示すが、代替実施形態は、
図10に示される動作のいずれかを省略、追加、再配列、及び/又は修正してもよい。
図10の動作は、方法の一部として実行することができる。あるいは、非一時的コンピュータ可読媒体は、1つ以上のプロセッサによって実行されると、コンピューティング装置に
図10の動作を実行させる命令を含むことができる。いくつかの実施形態では、システムは、
図10の動作を実行することができる。
【0168】
図10に示されるように、一連の動作1000は、ゲノム領域についての直接ヌクレオチド塩基コール及び直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定するための動作1002を含む。特に、動作1002は、サンプルゲノムについて、ゲノム領域についての直接ヌクレオチド塩基コール及び直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することを含むことができる。直接ヌクレオチド塩基コールを決定することは、サンプルゲノム及び参照ゲノムからのヌクレオチド断片リード間のアライメントに基づいて直接ヌクレオチド塩基コールを決定することを含むことができる。具体的には、動作1002は、直接ヌクレオチド塩基コールについての深度メトリクス、リードデータクオリティメトリクス、コールデータクオリティメトリクス、又はマッピングクオリティメトリクスを決定することによって、直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することを含むことができる。
【0169】
図10に示されるように、一連の動作1000は、ゲノム領域を取り囲む変異体ヌクレオチド塩基コールに基づいてゲノム領域に対応するハプロタイプを帰属させるための動作1004を含む。特に、動作1004は、サンプルゲノムについて、ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールに基づいてゲノム領域に対応するハプロタイプを帰属させることを含むことができる。
【0170】
図10に示すように、一連の動作1000は、ハプロタイプに基づいてゲノム領域に対する帰属ヌクレオチド塩基コールを決定するための動作1006を含む。特に、動作1006は、サンプルゲノムについて、帰属ハプロタイプに基づいてゲノム領域について帰属ヌクレオチド塩基コールを決定することを含むことができる。
【0171】
図10に示されるように、一連の動作1000は、直接ヌクレオチド塩基コール、配列決定メトリクス、及び帰属ヌクレオチド塩基コールに基づいて、ゲノム領域についての最終ヌクレオチド塩基コールを決定するための動作1008を含む。特に、動作1008は、直接ヌクレオチド塩基コール、配列決定メトリクス、及び帰属ヌクレオチド塩基コールに基づいて、ゲノム領域についての最終ヌクレオチド塩基コールを決定することを含むことができる。具体的には、動作1008は、帰属されたヌクレオチド-塩基コール、直接ヌクレオチド-塩基コール、及び配列決定メトリクスに基づいて最終ヌクレオチド-塩基コールを決定するために、塩基コール機械学習モデルを利用することを含むことができる。
【0172】
更に、動作1008は、ゲノム領域についての最終ヌクレオチド塩基コールを決定することが、直接ヌクレオチド塩基コールについてのゲノム座標の遺伝子型可変性と、ヌクレオチド断片リードに対応する直接ヌクレオチド塩基コールについてのリードデータクオリティメトリクス又はヌクレオチド断片リードに対応する直接ヌクレオチド塩基コールについてのコールデータクオリティメトリクスのうちの1つ以上とに基づいて、直接ヌクレオチド塩基コールを帰属ヌクレオチド塩基コールとは異なるように重み付けすることを含むことを含むことができる。更に、動作1008は、塩基コール機械学習モデルを利用して、ゲノム座標に対する帰属ヌクレオチド塩基コールとは異なるように直接ヌクレオチド塩基コールに重み付けし、ゲノム座標に対する最終ヌクレオチド塩基コールとして直接ヌクレオチド塩基コール又は帰属ヌクレオチド塩基コールのうちの1つを選択することを含むことができる。
【0173】
本明細書に記載の方法は、様々な核酸配列決定技術と併せて使用することができる。特に適用可能な技術は、核酸を、それらの相対的位置が変化しないようにアレイ内の固定位置に付着させ、アレイが繰り返し画像化されるものである。例えば、1つのヌクレオチド塩基型を別のヌクレオチド塩基型と区別するために使用される異なる標識と一致する異なる色チャネルで画像が得られる実施形態は、特に適用可能である。いくつかの実施形態では、標的核酸のヌクレオチド配列を決定するプロセスは、自動化プロセスであり得る。好ましい実施形態は、合成による配列決定(sequencing-by-synthesis「SBS」)技術を含む。
【0174】
SBS技術は、一般に、鋳型鎖に対するヌクレオチドの反復的付加による、新生核酸鎖の酵素的伸長を伴う。SBSの従来の方法では、単一のヌクレオチドモノマーが、各送達においてポリメラーゼの存在下で標的ヌクレオチドに提供され得る。しかしながら、本明細書に記載の方法では、送達中のポリメラーゼの存在下で、複数の種類のヌクレオチドモノマーを標的核酸に提供することができる。
【0175】
SBSは、ターミネータ部分を有するヌクレオチドモノマー、又は任意のターミネータ部分を欠くヌクレオチドモノマーを利用することができる。ターミネータを欠くヌクレオチドモノマーを利用する方法としては、例えば、以下に更に詳細に記載されるように、γ-リン酸標識ヌクレオチドを使用するピロ配列決定及び配列決定が挙げられる。ターミネータを含まないヌクレオチドモノマーを使用する方法では、各サイクルに添加されるヌクレオチドの数は、概ね可変であり、テンプレート配列及びヌクレオチド送達のモードに依存する。ターミネータ部分を有するヌクレオチドモノマーを利用するSBS技術では、ターミネータは、ジデオキシヌクレオチドを利用する従来のSanger配列決定の場合のように使用される配列決定条件下で有効に不可逆的であり得るか、又はターミネータは、Solexa(現Illumina)によって開発された配列決定方法の場合のように可逆的であることができる。
【0176】
SBS技術は、標識部分を有するヌクレオチドモノマー、又は標識部分を欠くヌクレオチドモノマーを使用することができる。したがって、標識の蛍光などの標識の特性、分子量又は電荷などのヌクレオチドモノマーの特性、ピロリン酸の放出などのヌクレオチドの組み込みの副生成物などに基づいて、組み込みイベントを検出することができる。2つ以上の異なるヌクレオチドが配列決定試薬中に存在する実施形態では、異なるヌクレオチドは、互いに区別可能であり得るか、又は代替的に、2つ以上の異なる標識は、使用される検出技術の下で区別することができる。例えば、配列決定試薬中に存在する異なるヌクレオチドは、異なる標識を有することができ、それらは、Solexa(現Illumina)によって開発された配列決定方法によって例示される適切な光学系を使用して区別することができる。
【0177】
好ましい実施形態としては、パイロ配列決定技術が挙げられる。パイロ配列決定は、特定のヌクレオチドが新生鎖に組み込まれるときに無機ピロリン酸塩(PPi)の放出を検出する(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.and Nyren,P.(1996)「Real-time DNA sequencing using detection of pyrophosphate release.」Analytical Biochemistry 242(1),84-9、Ronaghi,M.(2001)「Pyrosequencing sheds light on DNA sequencing.」Genome Res.11(1),3-11、Ronaghi,M.、Uhlen,M.、及びNyren,P.「A sequencing method based on real-time pyrophosphate」(1998)、Science 281(5375),363、米国特許第6,210,891号、同第6,258,568号及び同第6,274,320号、参照によりその開示の全体が本明細書に組み込まれる)。パイロ配列決定において、放出されたPPiは、ATPスルフラーゼによってアデノシン三リン酸(adenosine triphosphate、ATP)に即座に変換されることによって検出することができ、生成されたATPのレベルはルシフェラーゼで生成された光子を介して検出される。配列決定される核酸は、アレイ中の特徴部に結合させることができ、アレイは、アレイの特徴部にヌクレオチドを組み込むことにより生成される化学発光シグナルを捕捉するために画像化することができる。アレイを特定のヌクレオチド型(例えば、A、T、C、又はG)で処理した後に、画像を得ることができる。各ヌクレオチド型の添加後に得られる画像は、アレイ内のどの特徴部が検出されるかに関して異なる。画像内のこれらの差異は、アレイ上の特徴部の異なる配列コンテンツを反映する。しかしながら、各特徴部の相対的な位置は、画像内で変わらないままである。画像は、本明細書に記載の方法を使用して記憶、処理、及び分析することができる。例えば、アレイを各異なるヌクレオチド型で処理した後に得られる画像は、可逆的ターミネータベースの配列決定方法についての異なる検出チャネルから得られる画像について、本明細書に例示されるものと同じ方法で処理することができる。
【0178】
別の例示的な種類のSBSでは、サイクル配列決定は、例えば、その開示が参照により組み込まれる、国際公開第04/018497号及び米国特許第7,057,026号に記載されているような切断可能な又は光漂白可能な色素標識を含む可逆的ターミネータヌクレオチドを段階的に付加することによって達成される。この手法は、Solexa(now Illumina Inc.)によって商品化されており、国際公開第91/06678号及び同第07/123,744号にも記載されており、これらのそれぞれは、参照により本明細書に組み込まれる。終端の両方を逆転させることができ、蛍光標識が切断された蛍光標識ターミネータの可用性は、効率的な循環可逆的終端(cyclic reversible termination、CRT)配列決定を容易にする。ポリメラーゼはまた、これらの修飾されたヌクレオチドを効率的に組み込み、かつそこから伸長するように共操作することもできる。
【0179】
好ましくは、可逆的ターミネータベースの配列決定実施形態では、標識は、SBS反応条件下での伸長を実質的に阻害しない。しかしながら、検出標識は、例えば、切断又は分解によって除去可能であることができる。画像は、アレイ化された核酸特徴部への標識の組み込み後に撮影することができる。特定の実施形態では、各サイクルは、アレイへの4つの異なるヌクレオチド型の同時送達を伴い、各ヌクレオチド型は、スペクトル的に異なる標識を有する。次に、4つの異なる標識の1つに選択的な検出チャネルをそれぞれ使用して、4つの画像を得ることができる。代替的に、異なるヌクレオチド型を順次追加することができ、各追加ステップの間にアレイの画像を得ることができる。このような実施形態では、各画像は、特定の型のヌクレオチドを組み込んだ核酸特徴部を示す。各特徴部の配列コンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しない。しかしながら、特徴部の相対的な位置は、画像内で変わらないままである。このような可逆的ターミネータ-SBS方法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。画像撮影ステップに続いて、標識を除去することができ、その後のヌクレオチド添加及び検出のサイクルについて可逆的ターミネータ部分を除去することができる。特定のサイクルで検出された後、及び後続のサイクルの前に標識を除去すると、サイクル間のバックグラウンド信号及びクロストークを低減できるという利点がある。有用な標識及び除去方法の例を以下に記載する。
【0180】
特定の実施形態では、ヌクレオチドモノマーの一部又はすべては、可逆的ターミネータを含むことができる。このような実施形態では、可逆的ターミネータ/切断可能なフルオロフォア(fluor)は、3’エステル結合を介してリボース部分に結合したフルオロフォア(fluor)を含むことができる(Metzker,Genome Res.15:1767-1776(2005)、これは参照により本明細書に組み込まれる)。他の手法は、ターミネータの化学を蛍光標識の切断から分離している(参照によりその全体が本明細書に組み込まれる、Ruparel et al.,Proc Natl Acad Sci USA 102:5932-7(2005))。Ruparelらは、少量の3’アリル基を使用して伸長をブロックするが、パラジウム触媒で短時間処理することにより容易に脱ブロックすることができる可逆性ターミネータの開発について説明している。フルオロフォアは、長波長UV光への30秒の曝露によって容易に切断することができる光切断可能リンカーを介して基に付着された。したがって、ジスルフィド還元又は光切断のいずれかを切断可能なリンカーとして使用することができる。可逆的終端への別の手法は、dNTP上に嵩高な染料を配置した後に続く自然終端の使用である。dNTP上の帯電した嵩高な染料の存在は、立体障害及び/又は静電障害を介して効果的なターミネータとして作用することができる。1つの組み込みイベントの存在は、染料が除去されない限り、それ以上の結合を防止する。染料の切断は、フルオロフォア(fluor)を除去し、終端を効果的に逆転させる。修飾ヌクレオチドの例はまた、米国特許第7,427,673号及び米国特許第7,057,026号に記載されており、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0181】
本明細書に記載の方法及びシステムとともに利用することができる追加の例示的なSBSシステム及び方法は、米国特許出願公開第2007/0166705号、米国特許出願公開第2006/0188901号、米国特許第7,057,026号、米国特許出願公開第2006/0240439号、米国特許出願公開第2006/0281109号、国際公開第05/065814号、米国特許出願公開第2005/0100900号、国際公開第06/064199号、国際公開第07/010,251号、米国特許出願公開第2012/0270305号、及び米国特許出願公開第2013/0260372号に記載されており、これらの開示は、参照によりその全体が本明細書に組み込まれる。
【0182】
いくつかの実施形態は、4つ未満の異なる標識を使用する4つの異なるヌクレオチドの検出を利用することができる。例えば、SBSは、組み込まれた資料である米国特許出願公開第2013/0079232号に記載される方法及びシステムを使用して実施することができる。第1の例として、ヌクレオチド型の対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別されることができる。第2の例として、4つの異なるヌクレオチド型のうちの3つを特定の条件下で検出することができ、一方、第4のヌクレオチド型は、それらの条件下で検出可能な標識がないか、又はそれらの条件下で最小限に検出される(例えば、バックグラウンド蛍光による最小限の検出など)。最初の3つのヌクレオチド型を核酸に組み込むことは、それらの対応するシグナルの存在に基づいて決定することができ、第4のヌクレオチド型を核酸に組み込むことは、任意のシグナルの不在又は最小限の検出に基づいて決定することができる。第3の例として、1つのヌクレオチド型は、2つの異なるチャネルで検出される標識を含むことができ、一方、他のヌクレオチド型は、チャネルのうちの1つ以下で検出される。前述の3つの例示的な構成は、相互に排他的であるとはみなされず、様々な組み合わせで使用することができる。3つすべての例を組み合わせた例示的な実施形態は、第1のチャネルで検出される第1のヌクレオチド型(例えば、第1の励起波長によって励起されたときに第1のチャネルで検出される標識を有するdATP)、第2のチャネルで検出される第2のヌクレオチド型(例えば、第2の励起波長によって励起されたときに第2のチャネルで検出される標識を有するdCTP)、第1及び第2のチャネルの両方において検出される第3のヌクレオチド型(例えば、第1及び/又は第2の励起波長によって励起されたときに両方のチャネルで検出される少なくとも1つの標識を有するdTTP)、及びいずれのチャネルでも検出されないか、又は最小限に検出される標識を欠く第4のヌクレオチド型(例えば、標識のないdGTP)を使用する蛍光ベースのSBS方法である。
【0183】
更に、組み込まれた資料である米国特許出願公開第2013/0079232号に記載のように、配列決定データは、単一のチャネルを使用して得ることができる。このようないわゆる1つの染料配列決定方法では、第1のヌクレオチド型は標識されるが、第1の画像が生成された後に標識が除去され、第2のヌクレオチド型は、第1の画像が生成された後にのみ標識される。第3のヌクレオチド型は、第1及び第2の画像の両方においてその標識を保持し、第4のヌクレオチド型は、両方の画像において標識されていないままである。
【0184】
いくつかの実施形態は、ライゲーション技術による配列決定を利用することができる。このような技術は、DNAリガーゼを利用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組み込みを同定する。オリゴヌクレオチドは、典型的には、オリゴヌクレオチドがハイブリダイズする配列中の特定のヌクレオチドの同一性と相関する異なる標識を有する。他のSBS方法と同様に、標識された配列決定試薬で核酸配列のアレイを処理した後、画像を得ることができる。各画像は、特定の型の標識を組み込んだ核酸特徴部を示す。各特徴部の配列コンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しないが、特徴部の相対的な位置は、画像内で変わらないままである。ライゲーションベースの配列決定方法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。本明細書に記載の方法及びシステムとともに利用することができる例示的なSBSシステム及び方法は、米国特許第6,969,488号、米国特許第6,172,218号、及び米国特許第6,306,597号に記載されており、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0185】
いくつかの実施形態は、ナノ細孔配列決定を利用することができる(Deamer,D.W.& Akeson,M.「Nanopores and nucleic acids:prospects for ultrarapid sequencing.」Trends Biotechnol.18,147-151(2000)、Deamer,D.and D.Branton,「Characterization of nucleic acids by nanopore analysis」.Acc.Chem.Res.35:817-825(2002)、Li,J.,M.Gershow,D.Stein,E.Brandin,and J.A.Golovchenko,「DNA molecules and configurations in a solid-state nanopore microscope」 Nat.Mater.2:611-615(2003)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。そのような実施形態では、標的核酸はナノ細孔を通過する。ナノ細孔は、α-ヘモリジンなどの合成孔又は生体膜タンパク質であることができる。標的核酸がナノ細孔を通過するとき、各塩基対は、細孔の電気コンダクタンスの変動を測定することによって同定することができる。(米国特許第7,001,792号、Soni,G.V.& Meller,「A.Progress toward ultrafast DNA sequencing using solid-state nanopores.」Clin.Chem.53,1996-2001(2007)、Healy,K.「Nanopore-based single-molecule DNA analysis.」Nanomed.2,459-481(2007)、Cockroft,S.L.,Chu,J.,Amorin,M.& Ghadiri,M.R.「A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution.」J.Am Chem.Soc.130,818-820(2008)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。ナノ細孔配列決定から得られるデータは、本明細書に記載されるように、保存、処理、及び分析することができる。具体的には、データは、本明細書に記載される光学画像及び他の画像の例示的な処理に従って、画像として処理することができる。
【0186】
いくつかの実施形態は、DNAポリメラーゼ活性のリアルタイムモニタリングを伴う方法を利用することができる。ヌクレオチドの組み込みは、例えば、各々が参照により本明細書に組み込まれる、米国特許第7,329,492号及び米国特許第7,211,414号に記載されているようなフルオロフォア含有ポリメラーゼとγ-ホスフェート標識ヌクレオチドとの間の蛍光共鳴エネルギー移動(FRET)相互作用を介して検出することができ、又はヌクレオチドの組み込みは、例えば、参照により本明細書に組み込まれる米国特許第7,315,019号に記載されているようなゼロモード導波路、並びに、例えば、各々が参照により本明細書に組み込まれる、米国特許第7,405,281号及び米国特許出願公開第2008/0108082号に記載されているような蛍光ヌクレオチド類似体及び操作ポリメラーゼを使用して検出することができる。照明は、蛍光標識されたヌクレオチドの組み込みが低バックグラウンドで観察され得るように、表面繋留ポリメラーゼの周囲のゼプトリットルスケールの体積に制限することができる(Levene,M.J.et al.「Zero-mode waveguides for single-molecule analysis at high concentrations.」Science,299,682-686(2003)、Lundquist,P.M.et al.「Parallel confocal detection of single molecules in real time.」Opt.Lett.33,1026-1028(2008)、Korlach,J.et al.「Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures.」Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。このような方法から得られる画像は、本明細書に記載されるように、記憶、処理、及び分析することができる。
【0187】
いくつかのSBS実施形態は、伸長産物へのヌクレオチドの組み込み時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づく配列決定は、Ion Torrent(Guilford,CT、Life Technologiesの子会社)から市販されている電気検出器及び関連技術を使用し得る、又は、米国特許出願公開第2009/0026082(A1)号、同第2009/0127589(A1)号、同第2010/0137143(A1)号、若しくは同第2010/0282617(A1)号に記載されている配列決定方法及びシステムであり、これらの各々は、参照により本明細書に組み込まれる。動力学的除外を使用して標的核酸を増幅するための本明細書に記載の方法は、プロトンを検出するために使用される基質に容易に適用することができる。より具体的には、本明細書に記載の方法を使用し、プロトンを検出するために使用されるアンプリコンのクローン集団を産生することができる。
【0188】
上記のSBS方法は、複数の異な標的核酸が同時に操作されるように、多重形式で有利に実施することができる。特定の実施形態では、異なる標的核酸は、共通の反応容器又は特定の基質の表面上で処理することができる。これにより、配列決定試薬の簡便な送達、未反応試薬の除去、及び取り込み事象の検出が多重方式で可能になる。表面結合された標的核酸を使用する実施形態では、標的核酸は、アレイ形式であることができる。アレイ形式では、標的核酸は、典型的には、空間的に区別可能な方式で表面に結合されることができる。標的核酸は、直接共有結合、ビーズ若しくは他の粒子への結合、又は表面に結合したポリメラーゼ若しくは他の分子への結合によって結合され得る。アレイは、各部位(特徴とも称される)における標的核酸の単一コピーを含むことができ、又は同じ配列を有する複数のコピーは、各部位若しくは特徴に存在することができる。複数のコピーは、以下で更に詳細に記載されるブリッジ増幅又はエマルジョンPCRなどの増幅方法によって生成することができる。
【0189】
本明細書に記載の方法は、例えば、少なくとも約10個の特徴部/cm2、100個の特徴部/cm2、500個の特徴部/cm2、1,000個の特徴部/cm2、5,000個の特徴部/cm2、10,000個の特徴部/cm2、50,000個の特徴部/cm2、100,000個の特徴部/cm2、1,000,000個の特徴部/cm2、5,000,000個の特徴部/cm2、又はそれ超を含む、様々な密度のいずれかの特徴部を有するアレイを使用することができる。
【0190】
本明細書に記載の方法の利点は、複数の標的核酸の迅速かつ効率的な検出を並行して提供することである。したがって、本開示は、上記で例示されるものなどの当該技術分野において既知の技術を使用して核酸を調製及び検出することができる統合システムを提供する。したがって、本開示の統合システムは、増幅試薬及び/又は配列決定試薬を1つ以上の固定化されたDNA断片に送達することができる流体構成要素を含むことができ、システムは、ポンプ、弁、リザーバ、流体ラインなどの構成要素を含む。フローセルは、標的核酸を検出するための統合システムで構成及び/又は使用することができる。例示的なフローセルは、例えば、米国特許第2010/0111768(A1)号及び米国特許出願第13/273,666号に記載され、これらの各々は、参照により本明細書に組み込まれる。フローセルについて例示されるように、統合システムの流体構成要素の1つ以上を増幅方法及び検出方法に使用することができる。核酸配列決定の実施形態を一例として取ると、統合システムの流体構成要素の1つ以上を、本明細書に記載の増幅方法、及び上記に例示したような配列決定方法における配列決定試薬の送達に使用することができる。代替的に、統合システムは、増幅方法を実施し、検出方法を実施するための別々の流体システムを含むことができる。増幅された核酸を作成し、また核酸の配列を決定することができる統合配列決定システムの例としては、MiSeq(商標)プラットフォーム(Illumina Inc.,San Diego,CA)、及び参照により本明細書に組み込まれる、米国特許出願第13/273,666号に記載の装置が挙げられるが、これらに限定されない。
【0191】
上記の配列決定システムは、配列決定装置によって受け取られたサンプル中に存在する核酸ポリマーを配列決定する。本明細書で定義されるように、「サンプル」及びその誘導体は、最も広い意味で使用され、標的を含むことが疑われる任意の試料、培養物などを含む。いくつかの実施形態では、サンプルは、DNA、RNA、PNA、LNA、キメラ又はハイブリッド形態の核酸を含む。サンプルは、1つ以上の核酸を含有する任意の生物学的試料、臨床試料、外科試料、農業試料、大気試料又は水試料を含むことができる。この用語はまた、任意の単離された核酸サンプル、例えば、ゲノムDNA、新鮮凍結又はホルマリン固定パラフィン包埋核酸試料を含む。サンプルは、単一個体、遺伝的に関連するメンバーからの核酸サンプルのコレクション、遺伝的に関連しないメンバーからの核酸サンプル、腫瘍サンプル及び正常組織サンプルのような単一個体からの核酸サンプル(適合)、又は母体被験体から得られた母体及び胎児DNAのような遺伝物質の2つの異なる形態を含む単一供給源からのサンプル、又は植物又は動物DNAを含むサンプル中の混入細菌DNAの存在に由来し得ることも想定される。いくつかの実施形態では、核酸物質の供給源は、例えば新生児スクリーニングに典型的に使用されるような新生児から得られた核酸を含むことができる。
【0192】
核酸サンプルは、ゲノムDNA(genomic DNA、gDNA)などの高分子量物質を含むことができる。サンプルは、FFPE又は保管されたDNAサンプルから得られた核酸分子などの低分子量物質を含むことができる。別の実施形態では、低分子量物質は、酵素的又は機械的に断片化されたDNAを含む。サンプルは、無細胞循環DNAを含むことができる。いくつかの実施形態では、サンプルは、生検、腫瘍、擦過物、スワブ、血液、粘液、尿、血漿、精液、毛髪、レーザ捕捉顕微解剖、外科的切除、及び他の臨床的又は実験室で得られたサンプルから得られた核酸分子を含むことができる。いくつかの実施態様では、サンプルは、疫学、農業、法医学又は病原性のサンプルであることができる。いくつかの実施態様では、サンプルは、ヒト又は哺乳動物源などの動物から得られた核酸分子を含むことができる。別の実施態様では、サンプルは、植物、細菌、ウイルス又は真菌などの非哺乳類源から得られた核酸分子を含むことができる。いくつかの実施態様では、核酸分子の供給源は、保存された又は絶滅したサンプル若しくは種であり得る。
【0193】
更に、本明細書中に開示される方法及び組成物は、法医学サンプルからの分解及び/又は断片化されたゲノムDNAなどの低品質核酸分子を有する核酸サンプルを増幅するのに有用であり得る。一実施態様では、法医学サンプルは、犯罪現場から得られた核酸、行方不明者DNAデータベースから得られた核酸、法医学調査と関連した研究所から得られた核酸を含むことができ、又は法執行機関、1つ以上のミリタリーサービス若しくはそのような隊員によって得られた法医学サンプルを含むことができる。核酸サンプルは、例えば、口腔スワブ、紙、布、又は唾液、血液、若しくは他の体液で含浸され得る他の基質に由来する、精製されたサンプル又は溶解物を含む粗DNAであり得る。したがって、いくつかの実施態様では、核酸サンプルは、ゲノムDNAなどの、少量のDNA又は断片化されたDNAの部分を含むことができる。いくつかの実施形態では、標的配列は、限定されるものではないが、血液、痰、血漿、精液、尿及び血清を含む1つ以上の体液に存在することができる。いくつかの実施態様では、標的配列は、犠牲者の毛髪、皮膚、組織サンプル、剖検又は遺体から得ることができる。いくつかの実施態様では、1つ以上の標的配列を含む核酸は、死亡した動物又はヒトから得ることができる。いくつかの実施態様では、標的配列は、微生物、植物又は昆虫学的DNAなど非ヒトDNAから得られた核酸を含むことができる。いくつかの実施形態では、標的配列又は増幅された標的配列は、ヒト同定を目的とする。いくつかの実施形態では、本開示は、概して、法医学サンプルの特徴を同定するための方法に関する。いくつかの実施形態では、本開示は、概して、本明細書に開示された1つ以上の標的特異的プライマー、又は本明細書に概説されたプライマー設計基準を用いて設計された1つ以上の標的特異的プライマーを使用するヒト同定方法に関する。一実施形態では、少なくとも1つの標的配列を含む法医学サンプル又はヒト同定サンプルは、本明細書に開示された標的特異的プライマーのいずれか1つ以上を用いて、又は本明細書に概説されたプライマー基準を用いて増幅することができる。
【0194】
カスタマイズされた配列決定システム104の構成要素は、ソフトウェア、ハードウェア、又はその両方を含むことができる。例えば、カスタマイズされた配列決定システム104の構成要素は、コンピュータ可読記憶媒体上に記憶され、1つ以上のコンピューティング装置(例えば、ユーザクライアント装置108)のプロセッサによって実行可能な1つ以上の命令を含むことができる。1つ以上のプロセッサによって実行されると、カスタマイズされた配列決定システム104のコンピュータ実行可能命令は、コンピューティング装置に、本明細書で説明される泡検出方法を実行させることができる。あるいは、カスタマイズされた配列決定システム104の構成要素は、特定の機能又は機能群を実行するための専用処理装置などのハードウェアを含むことができる。加えて、又は代替として、カスタマイズされた配列決定システム104の構成要素は、コンピュータ実行可能命令及びハードウェアの組み合わせを含むことができる。
【0195】
更に、カスタマイズされた配列決定システム104に関して本明細書で説明される機能を実行するカスタマイズされた配列決定システム104の構成要素は、例えば、スタンドアロンアプリケーションの一部として、アプリケーションのモジュールとして、アプリケーションのプラグインとして、他のアプリケーションによって呼び出され得るライブラリ関数(複数可)として、及び/又はクラウドコンピューティングモデルとして実装され得る。したがって、カスタマイズされた配列決定システム104の構成要素は、パーソナルコンピューティング装置又はモバイル装置上のスタンドアロンアプリケーションの一部として実装され得る。加えて、又は代替として、カスタマイズされた配列決定システム104の構成要素は、限定するものではないが、Illumina BaseSpace、Illumina DRAGEN、又はIllumina TruSightソフトウェアを含む、配列決定サービスを提供する任意のアプリケーションにおいて実装されてもよい。「Illumina」、「BaseSpace」、「DRAGEN」、及び「TruSight」は、米国及び/又は他の国におけるIllumina,Inc.の登録商標又は商標である。
【0196】
本開示の実施形態は、以下でより詳細に論じられるように、例えば、1つ以上のプロセッサ及びシステムメモリ等のコンピュータハードウェアを含む、専用又は汎用コンピュータを含み、又は利用してもよい。本開示の範囲内の実施形態はまた、コンピュータ実行可能命令及び/又はデータ構造を搬送又は記憶するための物理的及び他のコンピュータ可読媒体を含む。特に、本明細書で説明されるプロセスのうちの1つ以上は、非一時的コンピュータ可読媒体において具現化され、1つ以上のコンピューティング装置(例えば、本明細書で説明されるメディアコンテンツアクセス装置のうちのいずれか)によって実行可能な命令として少なくとも部分的に実装されてもよい。概して、プロセッサ(例えば、マイクロプロセッサ)は、非一時的コンピュータ可読媒体(例えば、メモリなど)から命令を受信し、それらの命令を実行し、それによって、本明細書で説明するプロセスのうちの1つ以上を含む、1つ以上のプロセスを実行する。
【0197】
コンピュータ可読媒体は、汎用コンピュータシステム又は専用コンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ実行可能命令を記憶するコンピュータ可読媒体は、非一時的コンピュータ可読記憶媒体(装置)である。コンピュータ実行可能命令を搬送するコンピュータ可読媒体は、伝送媒体である。したがって、限定ではなく例として、本開示の実施形態は、少なくとも2つの明確に異なる種類のコンピュータ可読媒体、すなわち非一時的コンピュータ可読記憶媒体(装置)及び伝送媒体を含むことができる。
【0198】
非一時的コンピュータ可読記憶媒体(装置)は、RAM、ROM、EEPROM、CD-ROM、(例えば、RAMに基づく)ソリッドステートドライブ(SSD)、フラッシュメモリ、相変化メモリ(PCM)、他のタイプのメモリ、他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気ストレージ装置、又はコンピュータ実行可能命令若しくはデータ構造の形態で所望のプログラムコード手段を記憶するために使用することができ、汎用若しくは専用コンピュータによってアクセスすることができる任意の他の媒体を含む。
【0199】
「ネットワーク」は、コンピュータシステム及び/又はモジュール及び/又は他の電子装置間の電子データの移送を可能にする1つ以上のデータリンクとして定義される。情報が、ネットワーク又は別の通信接続(ハードワイヤード、ワイヤレス、又はハードワイヤード若しくはワイヤレスの組み合わせのいずれか)を介してコンピュータに転送又は提供されるとき、コンピュータは、その接続を伝送媒体として適切に認識する。伝送媒体は、コンピュータ実行可能命令又はデータ構造の形態で所望のプログラムコード手段を搬送するために使用することができ、汎用又は専用コンピュータによってアクセスすることができるネットワーク及び/又はデータリンクを含むことができる。上記の組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。
【0200】
更に、様々なコンピュータシステム構成要素に到達すると、コンピュータ実行可能命令又はデータ構造の形態のプログラムコード手段は、伝送媒体から非一時的コンピュータ可読記憶媒体(装置)に(又はその逆に)自動的に転送されることができる。例えば、ネットワーク又はデータリンクを介して受信されたコンピュータ実行可能命令又はデータ構造は、ネットワークインターフェースモジュール(例えば、NIC)内のRAMにバッファリングされ、次いで、最終的に、コンピュータシステムRAM及び/又はコンピュータシステムにおけるより揮発性の低いコンピュータ記憶媒体(装置)に転送されることができる。したがって、非一時的コンピュータ可読記憶媒体(装置)は、伝送媒体も(又は更に主に)利用するコンピュータシステム構成要素に含まれることができることを理解されたい。
【0201】
コンピュータ実行可能命令は、例えば、プロセッサで実行されると、汎用コンピュータ、専用コンピュータ、又は専用処理装置に、ある機能又は機能群を実行させる命令及びデータを含む。いくつかの実施形態では、コンピュータ実行可能命令は、汎用コンピュータ上で実行され、汎用コンピュータを、本開示の要素を実装する専用コンピュータに変える。コンピュータ実行可能命令は、例えば、バイナリ、アセンブリ言語などの中間フォーマット命令、又は更にソースコードであってもよい。主題は、構造的特徴及び/又は方法論的動作に特有の言語で説明されているが、添付の特許請求の範囲において定義される主題は、説明された特徴又は上述の動作に必ずしも限定されないことを理解されたい。むしろ、説明された特徴及び動作は、特許請求の範囲を実装する例示的な形態として開示される。
【0202】
当業者は、本開示が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベース又はプログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、PDA、タブレット、ページャ、ルータ、スイッチなどを含む、多くのタイプのコンピュータシステム構成を有するネットワークコンピューティング環境で実施され得ることを理解するであろう。本開示はまた、ネットワークを介して(ハードワイヤードデータリンク、ワイヤレスデータリンク、又はハードワイヤード及びワイヤレスデータリンクの組み合わせのいずれかによって)リンクされたローカル及びリモートコンピュータシステムが両方ともタスクを実行する分散システム環境において実施され得る。分散システム環境では、プログラムモジュールは、ローカルメモリ記憶装置及びリモートメモリ記憶装置の両方に位置することができる。
【0203】
本開示の実施形態は、クラウドコンピューティング環境において実装することもできる。本明細書では、「クラウドコンピューティング」は、構成可能なコンピューティングリソースの共有プールへのオンデマンドネットワークアクセスを可能にするためのモデルとして定義される。例えば、クラウドコンピューティングは、構成可能なコンピューティングリソースの共有プールへのユビキタスで便利なオンデマンドアクセスを提供するために、市場で使用されることができる。構成可能なコンピューティングリソースの共有プールは、仮想化を介して迅速に設定され、低い管理労力又はサービスプロバイダ対話で公開され、次いで、それに応じて拡大縮小されることができる。
【0204】
クラウドコンピューティングモデルは、例えば、オンデマンドセルフサービス、広域ネットワークアクセス、リソースプーリング、迅速な弾力性、測定されたサービス等の種々の特性から構成することができる。クラウドコンピューティングモデルはまた、例えば、Software as a Service(SaaS)、Platform as a Service(PaaS)、及びInfrastructure as a Service(IaaS)などの様々なサービスモデルを公開することができる。クラウドコンピューティングモデルは、プライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウドなどの異なる展開モデルを使用して展開することもできる。本明細書及び特許請求の範囲において、「クラウドコンピューティング環境」は、クラウドコンピューティングが採用される環境である。
【0205】
図11は、上記で説明したプロセスのうちの1つ以上を実行するように構成され得るコンピューティング装置1100のブロック図を示す。コンピューティング装置1100などの1つ以上のコンピューティング装置が、カスタマイズされた配列決定システム104を実装することができることが理解されよう。
図11によって示されるように、コンピューティング装置1100は、プロセッサ1102、メモリ1104、ストレージ(記憶)装置1106、I/Oインターフェース1108、及び通信インターフェース1110を含むことができ、これらは、通信インフラストラクチャ1112によって通信可能に結合されることができる。ある特定の実施形態では、コンピューティング装置1100は、
図11に示されるものよりも少ない又は多い構成要素を含むことができる。以下の段落は、
図11に示されるコンピューティング装置1100の構成要素を更に詳細に説明する。
【0206】
1つ以上の実施形態では、プロセッサ1102は、コンピュータプログラムを構成する命令などの命令を実行するためのハードウェアを含む。限定ではなく、例として、ワークフローを動的に修正するための命令を実行するために、プロセッサ1102は、内部レジスタ、内部キャッシュ、メモリ1104、又はストレージ装置1106から命令を取り出し(又はフェッチし)、それらを復号して実行することができる。メモリ1104は、データ、メタデータ、及びプロセッサによる実行のためのプログラムを記憶するために使用される揮発性又は不揮発性メモリであってもよい。記憶装置1106は、本明細書に記載の方法を実行するためのデータ又は命令を記憶するための、ハードディスク、フラッシュディスクドライブ、又は他のデジタル記憶装置などの記憶装置を含む。
【0207】
I/Oインターフェース1108は、ユーザが、コンピューティング装置1100に入力を提供し、コンピューティング装置から出力を受信し、そうでなければコンピューティング装置にデータを転送し、コンピューティング装置からデータを受信することを可能にする。I/Oインターフェース1108は、マウス、キーパッド若しくはキーボード、タッチスクリーン、カメラ、光学スキャナ、ネットワークインターフェース、モデム、他の既知のI/O装置、又はかかるI/Oインターフェースの組み合わせを含むことができる。I/Oインターフェース1108は、限定はしないが、グラフィックスエンジン、ディスプレイ(例えば、ディスプレイスクリーン)、1つ以上の出力ドライバ(例えば、ディスプレイドライバ)、1つ以上のオーディオスピーカ、及び1つ以上のオーディオドライバを含む、ユーザに出力を提示するための1つ以上の装置を含むことができる。ある特定の実施形態では、I/Oインターフェース1108は、ユーザに提示するためにグラフィカルデータをディスプレイに提供するように構成される。グラフィカルデータは、1つ以上のグラフィカルユーザインターフェース及び/又は特定の実装に役立ち得る任意の他のグラフィカルコンテンツを表してもよい。
【0208】
通信インターフェース1110は、ハードウェア、ソフトウェア、又はその両方を含むことができる。いずれにしても、通信インターフェース1110は、コンピューティング装置1100と1つ以上の他のコンピューティング装置又はネットワークとの間の通信(例えば、パケットベースの通信など)のための1つ以上のインターフェースを提供することができる。限定ではなく例として、通信インターフェース1110は、Ethernet(イーサネット)(登録商標)若しくは他の有線ベースのネットワークと通信するためのネットワークインターフェースコントローラ(NIC)若しくはネットワークアダプタ、又はWI-FIなどのワイヤレスネットワークと通信するためのワイヤレスNIC(WNIC)若しくはワイヤレスアダプタを含むことができる。
【0209】
更に、通信インターフェース1110は、様々なタイプの有線又は無線ネットワークとの通信を容易にすることができる。通信インターフェース1110はまた、様々な通信プロトコルを使用して、通信を容易にすることもできる。通信インフラストラクチャ1112はまた、コンピューティング装置1100の構成要素を互いに結合するハードウェア、ソフトウェア、又はその両方を含むことができる。例えば、通信インターフェース1110は、1つ以上のネットワーク及び/又はプロトコルを使用して、特定のインフラストラクチャによって接続された複数のコンピューティング装置が互いに通信して、本明細書で説明するプロセスの1つ以上の態様を実行することを可能にすることができる。例示すると、配列決定プロセスは、複数の装置(例えば、クライアント装置、配列決定装置、及びサーバ装置)が配列決定データ及びエラー通知などの情報を交換することを可能にすることができる。
【0210】
前述の明細書において、本開示は、その特定の例示的な実施形態を参照して説明された。本開示の様々な実施形態及び態様は、本明細書で論じられる詳細を参照して説明され、添付の図面は様々な実施形態を示す。上記の説明及び図面は、本開示の例示であり、本開示を限定するものとして解釈されるべきではない。本開示の様々な実施形態の完全な理解を提供するために、多数の特定の詳細が説明される。
【0211】
本開示は、その趣旨又は本質的な特徴から逸脱することなく、その他の特定の形態で具現化されてもよい。記載された実施形態は、すべての点において、例示的なものに過ぎず、限定的ではないとみなされるべきである。例えば、本明細書で説明される方法は、より少ない又はより多いステップ/動作を用いて行われてもよく、又はステップ/動作は、異なる順序で行われてもよい。更に、本明細書で説明されるステップ/動作は、互いに並行して、又は同じ若しくは同様の動作の異なる例と並行して、繰り返されるか、又は実行され得る。したがって、本願の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示される。特許請求の範囲の意味及び均等範囲内に含まれるすべての変更は、それらの範囲内に包含されるものである。
【手続補正書】
【提出日】2024-03-22
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
システムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
単一個体からのサンプルゲノムのヌクレオチド断片リードのサブセットを参照ゲノムとアライメントさせ、
前記単一個体からの前記サンプルゲノムのヌクレオチド-断片リードの
前記アライメントされたサブセット
の前記参照ゲノムとの比較から、前記
単一個体からの前記サンプルゲノム内のゲノム領域を取り囲む
直接変異体-ヌクレオチド-塩基コールのサブセットを決定することと、
直接変異体-ヌクレオチド-塩基コールの前記サブセットに基づいて、前記
単一個体からの前記サンプルゲノムに対応する前記ゲノム領域についてハプロタイプを帰属させることと、
前記
単一個体からの前記サンプルゲノムについて、前記
参照ゲノムと、前記単一個体からの前記サンプルゲノム内の前記ゲノム領域に対応する前記帰属されたハプロタイプを表すパス
とを含む
カスタマイズされたグラフ参照ゲノムを生成させることと、
前記
単一個体からの前記サンプルゲノムの
1つ以上のヌクレオチド-断片リードを、前記
カスタマイズされたグラフ参照ゲノム内の帰属ハプロタイプを表すパスと比較することに基づいて、前記
単一個体からの前記サンプルゲノムの前記ゲノム領域内の
最終ヌクレオチド-塩基コールを決定することと、を行わせる命令を含む非一時的コンピュータ可読媒体と、を含む、システム。
【請求項2】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記ゲノム領域を取り囲む一塩基多型(SNP)を決定することによって、前記ゲノム領域を取り囲む
直接変異体-ヌクレオチド-塩基コールの前記サブセットを決定することと、
前記SNPに基づいて前記
単一個体からの前記サンプルゲノムに対応する前記ハプロタイプを帰属させることによって、前記ゲノム領域の前記ハプロタイプを帰属することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、集団ハプロタイプのハプロタイプデータベースから前記ゲノム領域についての前記ハプロタイプを帰属することを行わせる命令を更に含む、請求項
1又は2に記載のシステム。
【請求項4】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記
単一個体からの前記サンプルゲノム内の追加のゲノム領域に対応する変異体-ヌクレオチド-塩基コールを決定することと、
前記変異体-ヌクレオチド-塩基コールに基づいて、前記追加のゲノム領域について追加の帰属ハプロタイプを決定することと、
前記追加の帰属されたハプロタイプを表す追加のパスを含む前記
カスタマイズされたグラフ参照ゲノムを生成することを行わせる命令を更に含む、請求項1
~3のいずれか一項に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記ゲノム領域内のヌクレオチド塩基コールのサブセットについてのクオリティメトリクスがクオリティメトリクス閾値を満たさないと決定することと、
前記クオリティメトリクス閾値を満たさないヌクレオチド塩基コールの前記サブセットに対する前記クオリティメトリクスに基づいて、前記ゲノム領域を低信頼度コール領域として同定することを行わせる命令を更に含む、請求項1
~4のいずれか一項に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記
単一個体からの前記サンプルゲノムの前記
1つ以上のヌクレオチド断片リードと、前記帰属されたハプロタイプを表す前記パスとの比較に基づいて、前記ゲノム領域内のゲノム座標についての直接ヌクレオチド塩基コールを決定することと、
前記ゲノム領域についての前記帰属されたハプロタイプに基づいて、前記ゲノム領域内の前記ゲノム座標についての帰属されたヌクレオチド塩基コールを決定することと、
前記直接ヌクレオチド塩基コール及び前記帰属されたヌクレオチド塩基コールに基づいて、前記ゲノム領域内の前記ゲノム座標についての
前記最終ヌクレオチド塩基コールを決定すること
によって、前記最終ヌクレオチド塩基コールのうちの最終ヌクレオチド塩基コールを
決定させる命令を更に含む、請求項1
~5のいずれか一項に記載のシステム。
【請求項7】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記ゲノム座標についての前記直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することと、
前記ゲノム領域の前記配列決定メトリクス及び可変性に基づいて、前記直接ヌクレオチド塩基コールに第1の重みを割り当て、前記帰属されたヌクレオチド塩基コールに第2の重みを割り当てることによって、前記ゲノム座標についての前記最終ヌクレオチド塩基コールを決定することを行わせる命令を更に含む、請求項6に記載のシステム。
【請求項8】
前記ゲノム領域が、可変数タンデムリピート(VNTR)、構造変異体、挿入、又は欠失の少なくとも一部を含む、請求項1
~7のいずれか一項に記載のシステム。
【請求項9】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
線形参照ゲノムから前記ゲノム領域のゲノム座標を決定することと、
前記線形参照ゲノムと、前記線形参照ゲノムの前記ゲノム座標に位置する前記ゲノム領域に対応する前記帰属されたハプロタイプを表す前記パスとを含む前記
カスタマイズされたグラフ参照ゲノムを生成することを行わせる命令を更に含む、請求項1
~8のいずれか一項に記載のシステム。
【請求項10】
少なくとも1つのプロセッサによって実行されると、コンピューティング装置に、
単一個体からのサンプルゲノムのヌクレオチド断片リードのサブセットを参照ゲノムとアライメントさせ、
前記単一個体からの前記サンプルゲノムのヌクレオチド-断片リードの
前記アライメントされたサブセット
の前記参照ゲノムとの比較から、前記
単一個体からの前記サンプルゲノム内のゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールのサブセットを決定することと、
前記
単一個体からの前記サンプルゲノムについて、変異体-ヌクレオチド-塩基コールの前記サブセットに基づいて前記ゲノム領域に対応するハプロタイプを帰属させることと、
前記
単一個体からの前記サンプルゲノムについて、前記帰属されたハプロタイプに基づいて前記ゲノム領域について帰属されたヌクレオチド塩基コールを決定することと、
前記
単一個体からの前記サンプルゲノムについて、前記ゲノム領域についての直接ヌクレオチド塩基コール、及び前記直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することと、
前記
配列決定メトリクスに基づいて、前記帰属されたヌクレオチド-塩基コールを前記直接ヌクレオチド-塩基コール
と比較することにより、前記ゲノム領域についての最終ヌクレオチド-塩基コールを決定することを行わせる、命令を記憶した非一時的コンピュータ可読媒体。
【請求項11】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
前記
単一個体からの前記サンプルゲノムについて、前記ゲノム領域に対応する前記帰属されたハプロタイプを表すパスを含む
カスタマイズされたグラフ参照ゲノムを生成させることと、
前記
単一個体からの前記サンプルゲノムのヌクレオチド-断片リードを、前記
カスタマイズされたグラフ参照ゲノム内の帰属されたハプロタイプを表すパスと比較することに基づいて、前記ゲノム領域についての前記直接ヌクレオチド-塩基コールを決定することを行わせる命令を更に含む、請求項10に記載の非一時的コンピュータ可読媒体。
【請求項12】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
前記
単一個体からの前記サンプルゲノムについて、線形参照ゲノムと、前記ゲノム領域に対応する前記帰属されたハプロタイプを表すパスとを含む
カスタマイズされたグラフ参照ゲノムを生成することと、
ゲノム座標に対応するヌクレオチド-塩基-断片リードと、前記線形参照ゲノム内の前記ゲノム座標における対応するヌクレオチド塩基との間の不一致を同定することに基づいて、前記ゲノム領域の内側又は外側の前記ゲノム座標についての直接変異体-ヌクレオチド-塩基コールを決定することを行わせる命令を更に含む、請求項10
又は11に記載の非一時的コンピュータ可読媒体。
【請求項13】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
カスタマイズされたグラフ参照ゲノム内の線形参照ゲノムとアライメントされた前記
単一個体からの前記サンプルゲノムからのヌクレオチド断片リードの第1のサブセットに基づいてヌクレオチド塩基コールを決定することと、
前記
カスタマイズされたグラフ参照ゲノムからの1つ以上の帰属ハプロタイプを表すパスとアライメントされた前記
単一個体からの前記サンプルゲノムからのヌクレオチド断片リードの第2のサブセットに基づいてヌクレオチド塩基コールを決定することとで、前記直接ヌクレオチド-塩基コールを決定することを行わせる命令を更に含む、請求項10
~12のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項14】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記ゲノム領域の可変性及び前記直接ヌクレオチド塩基コールに対応する前記配列決定メトリクスのうちの1つ以上に基づいて、前記帰属されたヌクレオチド塩基コールのうちの1つ以上とは異なるように前記直接ヌクレオチド塩基コールのうちの1つ以上を重み付けすることによって、前記ゲノム領域に対する前記最終ヌクレオチド塩基コールを決定することを行わせる命令を更に含む、請求項10
~13のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項15】
前記ゲノム領域の前記可変性が、前記ゲノム領域の遺伝子型可変性及び前記ゲノム領域の長さを含み、
前記配列決定メトリクスのうちの1つ以上が、ヌクレオチド断片リードに対応する前記直接ヌクレオチド塩基コールについてのリードデータクオリティメトリクス又はマッピングクオリティメトリクスと、前記ヌクレオチド断片リードに対応する前記直接ヌクレオチド塩基コールについてのコールデータクオリティメトリクスとを含む、請求項
14に記載の非一時的コンピュータ可読媒体。
【請求項16】
方法であって、
単一個体からのサンプルゲノムのヌクレオチド断片リードを参照ゲノムとアライメントさせることと、
前記
単一個体からの前記サンプルゲノム
の前記アライメントされたヌクレオチド断片リードと前記参照ゲノムとの比較から、前記単一個体からの前記サンプルゲノムのゲノム領域についての直接ヌクレオチド塩基コール
、及び前記直接ヌクレオチド塩基コールに対応する配列決定メトリクスを決定することと、
前記
単一個体からの前記サンプルゲノムについて、前記ゲノム領域を取り囲む変異体-ヌクレオチド-塩基コールに基づいて、前記ゲノム領域に対応するハプロタイプを帰属させることと、
前記
単一個体からの前記サンプルゲノムについて、前記帰属されたハプロタイプに基づいて前記ゲノム領域について帰属されたヌクレオチド塩基コールを決定することと、
前記
配列決定メトリクスに基づいて、前記直接ヌクレオチド塩基コール
を前記帰属されたヌクレオチド塩基コール
と比較することにより、前記ゲノム領域についての最終ヌクレオチド塩基コールを決定することと、を含む、方法。
【請求項17】
前記直接ヌクレオチド塩基コールに対応する前記配列決定メトリクスを決定することが、前記直接ヌクレオチド塩基コールについての深度メトリクス、リードデータクオリティメトリクス、コールデータクオリティメトリクス、又はマッピングクオリティメトリクスを決定することを含む、請求項
16に記載の方法。
【請求項18】
前記ゲノム領域についての前記最終ヌクレオチド塩基コールを決定することが、前記帰属されたヌクレオチド塩基コール、前記直接ヌクレオチド塩基コール、及び前記配列決定メトリクスに基づいて前記最終ヌクレオチド塩基コールを決定するために、塩基コール機械学習モデルを利用することを含む、請求項
16又は17に記載の方法。
【請求項19】
前記ゲノム領域についての前記最終ヌクレオチド塩基コールを決定することが、前記直接ヌクレオチド塩基コールについてのゲノム座標の遺伝子型可変性と、
前記アライメントされたヌクレオチド断片リードに対応する前記直接ヌクレオチド塩基コールについてのリードデータクオリティメトリクス又は前記
アライメントされたヌクレオチド断片リードに対応する前記直接ヌクレオチド塩基コールについてのコールデータクオリティメトリクスのうちの1つ以上とに基づいて、直接ヌクレオチド塩基コールを帰属されたヌクレオチド塩基コールとは異なるように重み付けすることを含む、請求項
16~18のいずれか一項に記載の方法。
【請求項20】
前記ゲノム領域についての前記最終ヌクレオチド-塩基コールを決定することが、塩基コール機械学習モデルを利用して、
ゲノム座標についての帰属されたヌクレオチド-塩基コールとは異なるように直接ヌクレオチド-塩基コールを重み付けし、
前記直接ヌクレオチド-塩基コール又は前記帰属されたヌクレオチド-塩基コールのうちの1つを、前記ゲノム座標についての最終ヌクレオチド-塩基コールとして選択することを含む、請求項
16~19のいずれか一項に記載の方法。
【国際調査報告】