(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-07-30
(54)【発明の名称】ヌクレオチドベースコールを再較正するための機械学習モデル
(51)【国際特許分類】
G16B 30/00 20190101AFI20240723BHJP
G16B 40/00 20190101ALI20240723BHJP
【FI】
G16B30/00
G16B40/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023579781
(86)(22)【出願日】2022-07-19
(85)【翻訳文提出日】2023-12-26
(86)【国際出願番号】 US2022073899
(87)【国際公開番号】W WO2023004323
(87)【国際公開日】2023-01-26
(32)【優先日】2021-07-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ギャヴィン・デレク・パーナビー
(72)【発明者】
【氏名】アルン・ヴィスヴァーナス
(72)【発明者】
【氏名】アントワーヌ・ジーン・デジョング
(57)【要約】
本開示は、コール生成モデルのヌクレオチドベースコール(例えば、バリアントコール)を再較正するために機械学習モデルを利用することができる方法、非一時的コンピュータ可読媒体、及びシステムを説明する。例えば、開示されるシステムは、コール再較正機械学習モデルをトレーニング及び利用して、試料ヌクレオチド配列に関連付けられた配列決定メトリックに基づいて、予測バリアントコール分類セットを生成することができる。バリアントコール分類のセットを活用して、開示されるシステムは、ゲノム座標に対応するヌクレオチドベースコール(例えば、バリアントコール)を更に更新又は修正することができる。実際、開示されるシステムは、コール生成モデルを利用して、試料配列のヌクレオチドリードのための配列決定メトリックに基づいて、初期ヌクレオチドベースコールを生成することができ、コール再較正機械学習モデルを更に利用して、同じ配列決定メトリックのサブセット又は他の配列決定メトリックから初期ヌクレオチドベースコールを更新又は再較正するための分類予測を生成することができる。
【特許請求の範囲】
【請求項1】
システムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
試料ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記配列決定メトリックに基づいて、前記ゲノム座標におけるバリアントを識別する精度を示す1つ以上のバリアントコール分類を生成することと、
前記1つ以上のバリアントコール分類に基づいて、前記ゲノム座標についての最終ヌクレオチドベースコールを決定することと、を行わせる命令を含む、非一時的コンピュータ可読媒体と、を備える、システム。
【請求項2】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記1つ以上のバリアントコール分類に基づいて、前記最終ヌクレオチドベースコールのためのベースコール品質メトリックを増加させることと、
増加させられた前記ベースコール品質メトリックが品質フィルタを通過すると判定することと、
増加させられた前記ベースコール品質メトリックに基づいて、前記最終ヌクレオチドベースコールを含むバリアントコールファイルを生成することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記1つ以上のバリアントコール分類に基づいて、前記最終ヌクレオチドベースコールのためのベースコール品質メトリックを減少させることと、
減少させられた前記ベースコール品質メトリックが品質フィルタを通過しないと判定することと、
減少させられた前記ベースコール品質メトリックが前記品質フィルタを通過しないことに基づいて、前記最終ヌクレオチドベースコールを除外するフィルタ後バリアントコールファイルを生成することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項4】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
1つ以上の配列決定メトリックに基づいてコール生成モデルを利用して、前記ゲノム座標についての初期ヌクレオチドベースコールを決定することと、
前記コール再較正機械学習モデルからの前記1つ以上のバリアントコール分類に基づいて、バリアントコールファイル及び前記初期ヌクレオチドベースコールに対応する1つ以上のデータフィールドを修正することと、によって、前記ゲノム座標についての前記最終ヌクレオチドベースコールを決定すること、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記1つ以上のバリアントコール分類に基づいて、コール品質、遺伝子型、又は遺伝子型品質のうちの1つ以上のためのバリアントコールファイルに対応する1つ以上のデータフィールドを修正すること、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、リードベースの配列決定メトリック、コールモデル生成の配列決定メトリック、又は外部ソースの配列決定メトリックのうちの1つ以上を決定することによって、前記ヌクレオチドベースコールのための前記配列決定メトリックを決定すること、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項7】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、コール生成モデルからバリアントコーラー配列決定メトリック並びにマッピング及びアラインメント配列決定メトリックを決定することによって、前記コールモデル生成の配列決定メトリックを決定すること、を行わせる命令を更に含む、請求項6に記載のシステム。
【請求項8】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記ヌクレオチドベースコールのための他の配列決定メトリックから導出される再操作された配列決定メトリックを決定することによって、前記ヌクレオチドベースコールのための前記配列決定メトリックを決定すること、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項9】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、偽陽性分類、遺伝子型エラー分類、又は真陽性分類のうちの1つ以上を生成することによって、前記1つ以上のバリアントコール分類を生成すること、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項10】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記配列決定メトリックが前記最終ヌクレオチドベースコールに与える影響のそれぞれの尺度を示す、前記配列決定メトリックについての寄与尺度を決定することと、
クライアント装置上での表示のために、前記配列決定メトリックのうちの1つ以上に対応する前記寄与尺度の視覚化を提供することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項11】
少なくとも1つのプロセッサによって実行されると、コンピューティング装置に、
試料ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記配列決定メトリックに基づいて、前記ゲノム座標におけるバリアントを識別する精度を示す1つ以上のバリアントコール分類を生成することと、
前記1つ以上のバリアントコール分類に基づいて、前記ゲノム座標についての最終ヌクレオチドベースコールを決定することと、を行わせる命令を含む、非一時的コンピュータ可読媒体。
【請求項12】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記ゲノム座標に対応する一塩基多型、欠失、又は挿入を含むバリアントコールの一部として前記最終ヌクレオチドベースコールを決定すること、を行わせる命令を更に含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項13】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、初期ヌクレオチドベースコールの遺伝子型を更新されたヌクレオチドベースコールの更新された遺伝子型に変更することによって、前記ゲノム座標についての前記最終ヌクレオチドベースコールを決定すること、を行わせる命令を更に含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項14】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記コール再較正機械学習モデルを利用して、前記ゲノム座標についての前記最終ヌクレオチドベースコールの遺伝子型に対応する1つ以上の分類を生成することによって、前記1つ以上のバリアントコール分類を生成すること、を行わせる命令を更に含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項15】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
コール生成モデルからバリアントコーラー配列決定メトリック並びにマッピング及びアラインメント配列決定メトリックを決定することによって、前記配列決定メトリックを決定することと、
前記コール再較正機械学習モデルを利用して、前記バリアントコーラー配列決定メトリック並びに前記マッピング及びアラインメント配列決定メトリックに基づいて、前記1つ以上のバリアントコール分類を生成することと、を行わせる命令を更に含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項16】
コンピュータ実装方法であって、
試料ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記配列決定メトリックに基づいて、前記ゲノム座標におけるバリアントを識別する精度を示す1つ以上のバリアントコール分類を生成することと、
前記1つ以上のバリアントコール分類に基づいて、前記ゲノム座標についてのバリアントコールを決定することと、を含む、コンピュータ実装方法。
【請求項17】
前記1つ以上のバリアントコール分類に基づいて、前記バリアントコールのためのベースコール品質メトリックを更新することと、
前記バリアントコールのための前記ベースコール品質メトリックが品質フィルタを通過すると判定することと、
前記ベースコール品質メトリックが前記品質フィルタを通過することに基づいて、前記バリアントコールを含むバリアントコールファイルを生成することと、を更に含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記1つ以上のバリアントコール分類を生成することが、機械学習分類器を利用して、
前記バリアントコールが偽陽性である偽陽性確率、
前記バリアントコールの遺伝子型が正しくない遺伝子型エラー確率、又は
前記バリアントコールが真陽性である真陽性確率、のうちの1つ以上を生成すること、を含む、請求項16に記載のコンピュータ実装方法。
【請求項19】
前記配列決定メトリックを決定することが、前記試料ヌクレオチド配列の前記ヌクレオチドリードから導出されたメトリックを含むリードベース配列決定メトリック、コール生成モデルを介して生成されたコールモデル生成の配列決定メトリック、又は1つ以上の外部データベースから識別された外部ソースの配列決定メトリック、のうちの1つ以上を決定することを含む、請求項16に記載のコンピュータ実装方法。
【請求項20】
前記配列決定メトリックが前記ゲノム座標についての前記バリアントコールに与える影響のそれぞれの尺度を示す前記配列決定メトリックについての寄与尺度を決定することを更に含む、請求項16に記載のコンピュータ実装方法。
【請求項21】
前記コール再較正機械学習モデルが、ニューラルネットワーク、深層学習トランスフォーマ、勾配ブースト決定ツリー、ランダムフォレストモデル、サポートベクターマシン、線形回帰、又はロジスティック回帰のうちの1つ以上を含む、請求項16に記載のコンピュータ実装方法。
【発明の詳細な説明】
【技術分野】
【0001】
(関連出願の相互参照)
本出願は、2021年7月23日に出願された「MACHINE-LEARNING MODEL FOR RECALIBRATING NUCLEOTIDE-BASE CALLS」と題する米国特許出願第17/384,423号の利益及び優先権を主張し、その内容は、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
配列決定及びバリアントコーリングにおけるこれらの最近の進歩にもかかわらず、既存の配列決定データ分析ソフトウェアは、過剰な数の偽陽性及び偽陰性を識別するバリアントコーラーを含むことが多い。例えば、いくつかの状況において、既存のソフトウェアは、参照配列内にそのようなバリアントがない部位又は座標における過剰な数のバリアントを誤って識別するバリアントコーラーを適用する。別の例として、既存のバリアントコーラーは、試料配列が参照配列の参照塩基とは異なる実際のバリアントを含む部位又は座標において、試料配列中の過剰な数の非バリアント部分配列を誤って識別することが多い。実際、既存のバリアントコーラーは、あるレベルの精度を達成するが、それらの限界のために、偽陽性を減少させ、偽陰性を回復させる際に改善の余地を依然として残している。例えば、ヘモグロビンβ(HBB)遺伝子における特定の一塩基多型(single nucleotide polymorphism、SNP)を識別するバリアントコールは、重要な意味を有し得る。例えば、バリアントコーラーが第11染色体上のrs344でSNPを識別する場合、バリアントコーラーは、鎌状赤血球貧血の遺伝的原因を正確に識別することができるか、又は疾患の原因を見落とし得るかのいずれかである。更なる例として、ヘモグロビンサブユニットα1(HbA1)又はヘモグロビンサブユニットα2(HbA2)遺伝子の1つ以上のコピーの欠失を正確又は不正確に識別するバリアントコールは、遺伝した血液疾患の遺伝的原因の正確な識別、又は遺伝子欠失の完全な見逃しのいずれかをもたらし得る。
【0003】
前述の不正確さに寄与する要因として、多くの既存のヌクレオチドベース配列決定プラットフォーム及び配列決定データ分析ソフトウェア(合わせて、以下、既存の配列決定システム)は、ヌクレオチドベースコールを決定する際に、限られたデータセットのみを活用する。例えば、既存の配列決定システムは、ヌクレオチドベースコールを決定するために、リード深度、ミスマッチ数、及びマッピング品質などの、試料配列のヌクレオチドリードから直接抽出された情報に排他的に依存することが多い。ヌクレオチドリードからの配列情報は、ヌクレオチドベースコールを決定するための貴重な洞察を提供することができるが、これらのデータのみに依存する既存のシステムは、ヌクレオチドベースコールを正確に決定することになると、性能が低下する可能性がある。実際、生の配列データに依存するいくつかの既存の配列決定システムは、より複雑なモデルと比較して、試料配列中のSNP、インデル、又は他のバリアントを不正確に決定する。実際、既存の配列決定システムは、米国食品医薬品局(Food and Drug Administration、FDA)のTruth Challengesにおいて、偽陰性バリアント又は偽陽性バリアントを識別することが多い。
【0004】
バリアントコールを不正確に決定することに加えて、いくつかの既存の配列決定システムはまた、過度に複雑なモデルを用いて計算リソースを非効率的に費やす。具体的には、いくつかの既存の配列決定システムのバリアントコーラーは、計算コストが高く、遅い。実際に、いくつかの既存のシステムは、トレーニング及び適用するために大規模な計算リソース(例えば、計算時間、処理能力、及びメモリ)を必要とする深層学習アーキテクチャ又は何らかの他のニューラルネットワークアーキテクチャを有するバリアントコーラーを利用する。例えば、いくつかの既存のシステムは、トレーニング後であっても、単一の試料配列に対するヌクレオチドベースコールを生成するために複数のコンピューティング装置にわたって多くの時間を要する深層学習アーキテクチャを利用する。
【0005】
複雑なネットワークを有する既存の配列決定システムの更なる欠点として、多くのこのようなシステムは、配列データを解釈不可能にするモデルアーキテクチャを利用する。より具体的には、いくつかの既存のディープニューラルネットワークは、バリアントコールを生成するための基礎として、様々な層及びニューロンにわたって1つのベクトルから別のベクトルに変更しながら、配列データを何度も変換及び操作する。多くの場合、これらのディープニューラルネットワークの内部データは解釈不可能であり、ニューラルネットワークアーキテクチャ自体の外部では何らかの形で利用することが不可能である。
【発明の概要】
【課題を解決するための手段】
【0006】
本開示は、コール生成モデルのヌクレオチドベースコール(例えば、バリアントコール)を再較正するために機械学習モデルを利用することができる方法、非一時的コンピュータ可読媒体、及びシステムの実施形態を説明する。例えば、開示されるシステムは、コール再較正機械学習モデルをトレーニング及び利用して、試料ヌクレオチド配列に関連付けられた配列決定メトリックから分類予測セット(例えば、バリアントコール分類)を生成することができる。分類予測セットを活用して、開示されるシステムは、試料配列についてのヌクレオチドベースコールを更に更新又は修正することができる。実際、開示されるシステムは、(i)コール生成モデルを利用して、試料配列のヌクレオチドリードのための配列決定メトリックに基づいて、参照ゲノムのゲノム座標に関して初期ヌクレオチドベースコール(例えば、初期バリアントコール)を生成することができ、(ii)コール再較正機械学習モデルを利用して、同じ配列決定メトリックのサブセットから初期ヌクレオチドベースコールを更新又は再較正するための分類予測を生成することができる。再較正後、開示されたシステムは、バリアントコールファイル又は他のベースコール出力ファイルにおいて、更新された又は再較正されたヌクレオチドベースコールを最終ヌクレオチドベースコール(例えば、最終バリアントコール)として出力することができる。
【0007】
コール再較正機械学習モデルを利用して、ヌクレオチドベースコールを生成するための配列決定メトリックを更新することによって、開示されるシステムは、既存の配列決定システムよりも精度、効率、及び速度を改善することができる。以下で更に説明されるように、例えば、開示されたコール再較正機械学習モデルは、バリアントコーリングのためのより複雑なニューラルネットワークよりも、より良い精度及びより速い計算時間でバリアントコールを決定する。加えて、開示されるシステムは、アクセス可能で解釈可能なフォーマットでデータを処理するコール再較正機械学習モデルを利用することによって、正確なバリアントコールに影響を与える因子の解釈可能性を改善することができる。実際に、開示されるシステムの改善された解釈可能性のために、いくつかの実施形態では、開示されるシステムは、配列決定メトリックが結果として生じるヌクレオチドベースコールに与える影響のそれぞれの尺度を視覚的に描写するために、個々の配列決定メトリックと関連付けられる種々の寄与尺度の可視化を生成及び提供することができる。
【図面の簡単な説明】
【0008】
詳細な説明は、以下に簡単に説明される図面を参照する。
【
図1】1つ以上の実施形態によるベースコーラー再較正システムを含む配列決定システムのブロック図を示す。
【
図2】1つ以上の実施形態によるベースコーラー再較正システムを利用してヌクレオチドベースコールを生成する概要を示す。
【
図3】
図3A及び
図3Bは、1つ以上の実施形態による配列決定メトリックを生成すること又は決定することを示す。
【
図3C】1つ以上の実施形態による配列決定メトリックを生成すること又は決定することを示す。
【
図4】1つ以上の実施形態によるコール再較正機械学習モデルを利用して、バリアントコール分類を生成し、ヌクレオチドベースコールを再較正することを示す。
【
図5】1つ以上の実施形態によるコール再較正機械学習モデルをトレーニングするための例示的なプロセスを示す。
【
図6】1つ以上の実施形態によるクライアント装置上に表示される例示的な寄与尺度インターフェースを示す。
【
図7A】1つ以上の実施形態によるコール再較正機械学習モデルを利用するベースコーラー再較正システムに関連する精度改善を示すグラフを示す。
【
図7B】1つ以上の実施形態によるコール再較正機械学習モデルを利用するベースコーラー再較正システムに関連する精度改善を示すグラフを示す。
【
図8】1つ以上の実施形態によるベースコーラー再較正システムを非再較正のシステムと比較するグラフを示す。
【
図9】1つ以上の実施形態による1つ以上の実施形態によるコール再較正機械学習モデルからのバリアントコール分類に基づいてヌクレオチドベースコールを生成するための一連の動作のフローチャートを示す。
【
図10】本開示の1つ以上の実施形態による例示的なコンピューティング装置のブロック図を図示する。
【発明を実施するための形態】
【0009】
本開示は、コール生成モデル及びコール再較正機械学習モデルを利用して、試料ヌクレオチド配列に対するヌクレオチドベースコールを生成及び再較正するベースコーラー再較正システムの実施形態を説明する。特に、ベースコーラー再較正システムは、コール生成モデルを利用して、試料ヌクレオチド配列のヌクレオチドリードから識別又は取得された配列決定メトリックから初期ヌクレオチドベースコール(例えば、参照ゲノムに関してバリアントコール又は非バリアントコールを識別するベースコール)を生成することができる。更に、ベースコーラー再較正システムは、コール再較正機械学習モデルを利用して、コール品質、コールに関連付けられた遺伝子型、及び/又は遺伝子型に関連付けられた遺伝子型品質などの様々なコールメトリックを更新することによって、初期ヌクレオチドベースコールを再較正し、その精度を改善することができる。コール再較正機械学習モデルを利用してメトリックを更新することによって、ベースコーラー再較正システムは、試料ヌクレオチド配列のヌクレオチドベースコールから偽陽性を除去することができ、及び/又は試料ヌクレオチド配列のヌクレオチドベースコールから偽陰性を回復することができる。
【0010】
上述したように、特定の実施形態では、ベースコーラー再較正システムは、試料ヌクレオチド配列から配列決定メトリックを抽出又は決定する。例えば、ベースコーラー再較正システムは、試料ヌクレオチド配列からのヌクレオチドリードのヌクレオチドベースコールから配列決定メトリックを決定する。実際、いくつかの場合では、ベースコーラー再較正システムは、(例えば、特定のゲノム座標における)試料ヌクレオチド配列の蛍光イメージングを介して取り込まれた又は決定されたヌクレオチドリードから、ヌクレオチドベースコールセットを生成又は決定する。リードベースのヌクレオチドベースコールから、いくつかの実施形態では、ベースコーラー再較正システムは、様々な配列決定メトリック(例えば、リードから及び/又はコール生成モデルの異なるコンポーネントから取得される様々なタイプの配列決定メトリック)を決定又は抽出する。
【0011】
詳述すると、特定の実装形態では、ベースコーラー再較正システムは、異なるソースに関連付けられた異なるタイプの配列決定メトリックを決定する。例えば、ベースコーラー再較正システムは、試料ヌクレオチド配列のヌクレオチドリードから導出されたメトリックを含むリードベースの配列決定メトリックを決定する。更に、ベースコーラー再較正システムは、様々なヌクレオチド属性、マッピングチャレンジ、及び配列決定バイアスに関連付けられたゲノム配列を示す1つ以上の外部データベースから識別された外部ソースの配列決定メトリックを決定する。更に、ベースコーラー再較正システムは、バリアントコーラー又は他のコール生成モデルを介して生成されたコールモデル生成の配列決定メトリック、例えば、他のシステム又はパーティーにアクセス可能でないベースコーラー再較正システムの内部の変数(例えば、独自品質スコア、塩基コンテキスト、リードフィルタリング、独自仮説スコア、及び他のメトリック)を決定する。実際、いくつかの場合では、ベースコーラー再較正システムは、バリアントコーリング配列決定メトリック及びマッピングアラインメント配列決定メトリックの形態でコールモデル生成の配列決定メトリックを決定し、各タイプは、コール生成モデルの異なるコンポーネントによって抽出される。
【0012】
更に言及されるように、特定の実装形態では、ベースコーラー再較正システムは、ヌクレオチドベースコール若しくはバリアントコールデータ又はヌクレオチドベースコールに関連付けられたフィールドを修正又は改善するために、配列決定メトリックから予測分類セットを生成する。より具体的には、ベースコーラー再較正システムは、コール再較正機械学習モデルを利用して、配列決定メトリックから、特定のゲノム座標(例えば、試料ヌクレオチド配列からのヌクレオチドリードのヌクレオチドベースコールに対応するゲノム座標)においてバリアントを識別する精度に影響を与えるか又は反映する3つのバリアントコール分類からなるセットを生成する。例えば、ベースコーラー再較正システムは、コール再較正機械学習モデルを利用して、i)偽陽性分類(例えば、ヌクレオチドベースコールが偽陽性バリアントである確率)、ii)遺伝子型エラー分類(例えば、ヌクレオチドベースコールの遺伝子型を誤って識別する確率)、及びiii)真陽性分類(例えば、ヌクレオチドベースコールが真陽性バリアントである確率)、を含むバリアントコール分類を生成する。したがって、いくつかの場合では、バリアントコール分類は、バリアントコーラー中間スコアメトリックを表す。
【0013】
バリアントコール分類から、ベースコーラー再較正システムは、あるゲノム座標についての最終ヌクレオチドベースコール(例えば、バリアントコール又は非バリアントコールを示す最終ヌクレオチドベースコール)(のメトリック)を更に修正又は更新することができる。例えば、ベースコーラー再較正システムは、バリアントコール分類を利用して、ヌクレオチドベースコールを示すか又は表すデジタルコールファイル(例えば、バリアントコールフォーマットファイル又は他のベースコール出力ファイル)内のコール品質、遺伝子型、及び遺伝子型品質に対応するデータフィールドを更新する。実際、上で言及したように、いくつかの実施形態では、ベースコーラー再較正システムは、コール生成モデルを利用して、ゲノム座標についての配列決定メトリックから最終ヌクレオチドベースコールを生成又は決定する。
【0014】
加えて、ベースコーラー再較正システムは、バリアントコール分類を利用して、精度を改善するためにヌクレオチドベースコールを更新することができる。ある特定の実装形態では、ベースコーラー再較正システムは、コール再較正機械学習モデルを利用してバリアントコール分類を生成する一方で、コール生成モデルも利用してバリアントコール分類に基づいてヌクレオチドベースコールを生成する。実際に、いくつかの実施形態では、ベースコーラー再較正システムは、(i)コール生成モデルを利用して初期ヌクレオチドベースコールを生成し、(ii)コール再較正機械学習モデルを利用してヌクレオチドベースコールのバリアントコールファイルに対応するデータフィールドを修正する。いくつかの場合では、ベースコーラー再較正システムは、データフィールドのうちの1つ以上に基づいてヌクレオチドベースコールを更に編集し、編集されたヌクレオチドベースコールを有するバリアントコールファイルを生成する。対照的に、いくつかの場合では、ベースコーラー再較正システムは、コール生成モデルからの初期ヌクレオチドベースコールを伴わずに、コール生成モデルのための配列決定メトリックとコール再較正機械学習モデルからのバリアントコール分類との両方に基づいて、ゲノム座標についての最終ヌクレオチドベースコールを決定する。例えば、いくつかの実施形態では、コール生成モデルは、(更新される初期バリアントコールを生成することなく)バリアントコール分類を考慮した最終バリアントコールを出力し得る。対照的に、ある特定の場合では、コール生成モデルは、最初に、潜在的なバリアントコールに対応する信頼度又は品質がバリアントコールファイルに含めるための閾値を満たさないと判定し得るが、(ベースコール品質メトリックを更新するバリアントコール分類を考慮した後に)バリアントコールファイルにバリアントコールを含めると判定し得る。このようにしてコール再較正機械学習モデル及びコール生成モデルを実装した結果として、ベースコーラー再較正システムは、偽陰性コールを回復し、及び/又はコール生成モデルによって最初に行われた偽陽性コールを除去する。
【0015】
1つ以上の実施形態では、ベースコーラー再較正システムは更に、配列決定メトリックのうちの1つ以上に関連付けられた寄与尺度を決定する。特に、ベースコーラー再較正システムは、各配列決定メトリック又は配列決定メトリックのサブセットが最終ヌクレオチドベースコールに与えるインパクト又は影響の尺度を決定する。例えば、あるゲノム座標対別のゲノム座標におけるコールを決定する際に、いくつかのメトリックは、他のメトリックよりも重く重み付けされ得る。実際、コール生成モデル及びコール再較正機械学習モデルのアクセス可能性及び解釈可能性に起因して、ベースコーラー再較正システムは、ヌクレオチドベースコールを生成するために使用される内部配列決定メトリックにアクセスすることができ、どのメトリックがヌクレオチドベースコール(例えば、バリアントコール)の再較正を引き起こしているか又は行わせているかを最終的に判定する際に、それぞれの寄与尺度を決定することができる。いくつかの場合では、ベースコーラー再較正システムは更に、クライアント装置上に表示するために寄与尺度の視覚化を生成及び提供する。
【0016】
上記で示唆したように、ベースコーラー再較正システムは、バリアントコーラー及び他の配列決定データ分析ソフトウェアを含む、既存の配列決定システムに対していくつかの利点、利益、及び/又は改善を提供する。例えば、ベースコーラー再較正システムは、新しいアプリケーションを実行するように一意にトレーニングされる、第1の種類の機械学習モデル(コール再較正機械学習モデル)を導入する。生の抽出されたメトリックから排他的にヌクレオチドベースコールを生成する従来のバリアントコーラーとは異なり、ベースコーラー再較正システムは、外部及び内部配列決定メトリックから特定のバリアントコール分類を生成する固有のコール再較正機械学習モデルを利用する。実際、いくつかの場合では、ベースコーラー再較正システムは、コール再較正機械学習モデルを利用して、バリアントコール分類を生成するためにコール再較正機械学習モデルによって使用される同じメトリック(又は同じメトリックのサブセット)からコール生成モデルによって生成されたヌクレオチドベースコールを更新する。
【0017】
第1の種類の機械学習モデルを導入することに加えて、既存の配列決定システムと比較して、ゲノム分類システムは、ヌクレオチドベースコールの精度を改善する。実際に、いくつかの既存の配列決定システムは、ある程度の精度でヌクレオチドベースコールを生成するが、それにもかかわらず、これらのシステムは、過剰な数の偽陽性バリアントコールを識別し(例えば、参照配列中に何も存在しないバリアントを識別することによって)、かつ/又は過剰な数の偽陰性バリアントコールをフィルタ除外する(例えば、ゲノム位置が実際にバリアントを有する場合、その位置を非バリアントとして識別することによって)。ベースコーラー再較正システムは、コール再較正機械学習モデルを利用して多数の偽陽性を除去し、多数の偽陰性を回復することによって、既存のシステムの精度を改善する。コール再較正機械学習モデルからのバリアントコール分類に基づいて初期ヌクレオチドベースコールを編集するか、又は最終ヌクレオチドベースコールを生成することによって、ベースコーラー再較正システムは、固有の機械学習出力を使用して、既存のバリアントコーラー又はバリアントコーリングの機械学習モデルよりも良好な精度でベースコールを再較正することができる。例えば、ベースコーラー再較正システムは、コール再較正機械学習モデルを利用して、内部(例えば、独自的かつモデル特異的)と外部配列決定メトリックとの両方からバリアントコール分類を生成し、これにより、以前にフィルタ除外されたバリアントヌクレオチドベースコールの回復及び/又は以前にフィルタ除外されなかった非バリアントヌクレオチドベースコールの除去がもたらされる。
【0018】
改善された精度に少なくとも部分的に寄与して、ベースコーラー再較正システムは、既存の配列決定システムよりも改善された柔軟性を示す。例えば、上で言及したように、既存の配列決定システムは、ヌクレオチドベースコールを生成するために、特定のベースコールのための内部配列決定メトリックに排他的に依存するバリアントコーラーを、そのような内部配列決定メトリックを再操作若しくは修正することなく、又は対応するヌクレオチドベースコールのゲノム座標に関連する外部ソースの配列決定メトリックを分析することなく、利用することがある。対照的に、いくつかの実施形態では、ベースコーラー再較正システムは、外部と内部配列決定メトリックとの両方を生成及び操作する。実際、いくつかの場合では、ベースコーラー再較正システムは、ベイズ確率モデルを機械学習技法と効率的に組み合わせることによって、コール生成モデルのバリアントコーラーコンポーネント及びマッピング及びアラインメントコンポーネントからコールモデル生成の配列決定メトリックを決定する。加えて、ベースコーラー再較正システムは、コール再較正機械学習モデルを利用して、1つ以上の配列決定メトリックから更新されたヌクレオチドベースコール(例えば、バリアントコール分類から)を生成する。
【0019】
精度及び柔軟性の改善に加えて、特定の実施形態では、ベースコーラー再較正システムは、効率及び速度を改善する。上記のように、いくつかの既存の配列決定システムは、配列決定行程からのバリアントコールを用いてファイルを実装及び生成するためでさえにも、多くの時間(例えば、サーバ上で実行する複数のプロセッサで5~8時間)及び大量の計算リソースを必要とする、計算コストが高く、遅いニューラルネットワークアーキテクチャ(例えば、畳み込みニューラルネットワークなどの深層学習アーキテクチャ)を利用する。そのような深層学習アーキテクチャは更に、トレーニングするのに数日(又は数週間)を必要とする可能性がある。逆に、ベースコーラー再較正システムは、コール生成モデルとコール再較正機械学習モデルとの両方のために比較的軽量で高速のアーキテクチャを利用する。実際、従来のシステムによって必要とされる複数のプロセッサにわたる多くの時間とは対照的に、ベースコーラー再較正システムは、多くの場合、試料ヌクレオチド配列についてのヌクレオチドベースコールを生成するために、単一のフィールドプログラマブルゲートアレイ又は単一のプロセッサ上で30分未満(コール生成モデルとコール再較正機械学習モデルとの両方を合わせて)のランタイムを必要とする。したがって、ベースコーラー再較正システムは、バリアントコーリングに対する多くの深層学習アプローチよりもはるかに高速であり、計算コストが低い。多くの既存の深層学習ベースのシステムよりも、ベースコーラー再較正システムのモデルは、実装するのに高速であり、かつ計算コストが低いだけでなく、ベースコーラー再較正システムのモデルは、トレーニングするのに、はるかに高速であり、計算コストが低い。
【0020】
改善された速度及び効率の一部として、いくつかの実施形態では、ベースコーラー再較正システムは、各コールがコール生成モデルによって処理される際に、コール毎にヌクレオチドベースコールを再較正する。実際、ベースコーラー再較正システムは、ヌクレオチドベースコールを再較正するためのバリアントコール分類を生成することができ(例えば、コール再較正機械学習モデルを利用する)、一方で、1つ以上の配列決定メトリックとともにバリアントコール分類からヌクレオチドベースコールを生成することもできる。いくつかの実施形態では、ベースコーラー再較正システムは、コール再較正機械学習モデルと並行してコール生成モデルを利用して、初期ヌクレオチドベースコールを修正又は再較正するための初期ヌクレオチドベースコール及びバリアントコール分類を同時に生成する。
【0021】
既存の配列決定システムに対する更なる利点として、ある特定の実装形態では、ベースコーラー再較正システムは、ヌクレオチドベースコールの精度に影響を及ぼす個々のメトリックに対する変更を特定又は容易にすることができる。多くの従来のシステムのニューラルネットワークアーキテクチャは、潜在的特徴を有する内部モデルデータのいかなる解釈も不可能にするが、ベースコーラー再較正システムは、個々の配列決定メトリックの効果の解釈を容易にするモデルアーキテクチャを利用する。より具体的には、いくつかの場合では、ベースコーラー再較正システムは、ヌクレオチドベースコールを生成するプロセス全体を通して使用される個々の配列決定メトリックの抽出及び分析を可能にするコール生成モデル及びコール再較正機械学習モデルを利用する。実際に、ベースコーラー再較正システムは、特定のゲノム座標におけるヌクレオチドベースコールを決定することに関与する配列決定メトリックについてのそれぞれの寄与尺度を決定することができる。
【0022】
前述の議論によって示唆されるように、本開示は、ベースコーラー再較正システムの特徴及び利点を説明するために、種々の用語を利用する。本開示で使用されるこれらの用語の意味に関して、更なる詳細が以下に提供される。本開示で使用される場合、例えば、「試料ヌクレオチド配列」又は「試料配列」という用語は、試料生物から単離又は抽出されたヌクレオチドの配列(又はそのような単離又は抽出された配列のコピー)を指す。特に、試料ヌクレオチド配列は、試料生物から単離又は抽出され、窒素複素環塩基から構成される核酸ポリマーのセグメントを含む。例えば、試料ヌクレオチド配列は、デオキシリボ核酸(deoxyribonucleic acid、DNA)、リボ核酸(ribonucleic acid、RNA)、又は核酸の他のポリマー形態若しくは以下に記載される核酸のキメラ若しくはハイブリッド形態のセグメントを含むことができる。より具体的には、いくつかの場合において、試料ヌクレオチド配列は、キットによって調製又は単離され、配列決定装置によって受け取られた試料中に見出されるものである。
【0023】
本明細書で更に使用される場合、「ヌクレオチドベースコール」(又は時には単に「コール」)という用語は、配列決定サイクル中の試料ゲノムのゲノム座標又はオリゴヌクレオチドについての特定のヌクレオチドベース(又はヌクレオチドベース対)の決定又は予測を指す。特に、ヌクレオチドベースコールは、(i)ヌクレオチド試料スライド上のオリゴヌクレオチド内に組み込まれているヌクレオチドベースのタイプの決定若しくは予測(例えば、リードベースのヌクレオチドベースコール)、又は(ii)デジタル出力ファイルにおけるバリアントコール若しくは非バリアントコールを含む、試料ゲノム内のゲノム座標若しくは領域に存在するヌクレオチドベースのタイプの決定若しくは予測を示すことができる。いくつかの場合では、ヌクレオチドリードについて、ヌクレオチドベースコールは、ヌクレオチド試料スライド(例えば、フローセルのウェル内)のオリゴヌクレオチドに付加された蛍光タグ付きヌクレオチドから生じる強度値に基づくヌクレオチドベースの決定又は予測を含む。あるいは、核酸ベースコールは、ヌクレオチド試料スライドのナノポアを通過するヌクレオチドから生じるクロマトグラムピーク又は電流変化へのヌクレオチドベースの決定又は予測を含む。対照的に、ヌクレオチドベースコールはまた、ゲノム座標に対応するヌクレオチドリードに基づく、バリアントコールファイル又は他のベースコール出力ファイルのための、試料ゲノムのゲノム座標におけるヌクレオチドベースの初期又は最終予測を含むことができる。したがって、ヌクレオチドベースコールは、ゲノム座標及び参照ゲノムに対応するベースコール、例えば、参照ゲノムに対応する特定の位置におけるバリアント又は非バリアントの表示を含むことができる。実際、ヌクレオチドベースコールは、一塩基多型(SNP)、挿入若しくは欠失(インデル)、又は構造バリアントの一部であるベースコールを含むがこれらに限定されないバリアントコールを指すことができる。ヌクレオチドベースコールを使用することによって、配列決定システムは、核酸ポリマーの配列を決定する。例えば、単一ヌクレオチドベースコールは、DNAについてのアデニンコール、シトシンコール、グアニンコール、若しくはチミンコール(A、C、G、Tと略される)、又はRNAについてのウラシルコール(チミンコールの代わりに)(Uと略される)を含むことができる。
【0024】
関連して、本明細書で使用される場合、「ヌクレオチドリード」という用語は、試料ヌクレオチド配列の全部又は一部からの1つ以上のヌクレオチドベース(又はヌクレオチドベース対)の推定配列を指す。特に、ヌクレオチドリードは、ゲノム試料に対応する配列決定ライブラリからのヌクレオチドフラグメント(又はモノクローナルヌクレオチドフラグメントの群)についての決定又は予測されたヌクレオチドベースコールの配列を含む。例えば、ベースコーラー再較正システムは、ヌクレオチド試料スライドのナノポアを通過した、蛍光タグ付けを介して決定された、又はフローセル内のウェルから決定された、ヌクレオチドベースについてのヌクレオチドベースコールを生成することによって、ヌクレオチドリードを決定する。
【0025】
上記のように、いくつかの実施形態では、ベースコーラー再較正システムは、ヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定する。本明細書で使用される場合、「配列決定メトリック」という用語は、個々のヌクレオチドベースコール(又はヌクレオチドベースコールの配列)が、参照ゲノムのゲノム座標若しくはゲノム領域に対して、ヌクレオチドリードからのヌクレオチドベースコールに対して、又は外部ゲノム配列決定若しくはゲノム構造に対して、アラインメント、比較、又は定量化する程度を示す定量的測定又はスコアを指す。例えば、配列決定メトリックは、(i)個々のヌクレオチドベースコールが、参照ゲノムのゲノム座標又は参照ベースをアラインメント、マッピング、又はカバーする程度、(ii)ヌクレオチドベースコールが、マッピング、ミスマッチ、ベースコール品質、又は他の生の配列決定メトリックに関して参照又は代替ヌクレオチドリードと比較する程度、又は(iii)ヌクレオチドベースコールに対応するゲノム座標若しくは領域が、マッピング可能性、反復ベースコール含量、DNA構造、若しくは他の一般化されたメトリックを実証する程度、を示す定量的測定又はスコアを含む。
【0026】
いくつかの実施形態では、ベースコーラー再較正システムは、異なるソースから様々なタイプの配列決定メトリック、例えば、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及びコールモデル生成の配列決定メトリックを決定する。本明細書で使用される場合、「リードベースの配列決定メトリック」という用語は、試料ヌクレオチド配列のヌクレオチドリードから導出された配列決定メトリックを指す。例えば、リードベースの配列決定メトリックは、参照配列とヌクレオチドリードとの間の差異を検出するために統計的検定を適用することによって決定される配列決定メトリックを含む。例えば、リードベースの配列決定メトリックは、マッピング品質間の比較を示す比較マッピング品質分布メトリック、又はミスマッチカウント間の比較を示す比較ミスマッチカウントメトリックを含むことができる。
【0027】
対照的に、「外部ソースの配列決定メトリック」は、1つ以上の外部データベースから識別又は取得された配列決定メトリックを指す。例えば、外部ソースの配列決定メトリックは、ベースコーラー再較正システムの外部で利用可能なヌクレオチドのマッピング可能性、複製タイミング、又はDNA構造に関するメトリックを含む。
【0028】
更に、「コールモデル生成の配列決定メトリック」は、コール生成モデルによって生成又は抽出される内部のモデル固有配列決定メトリックを指す。例えば、コールモデル生成の配列決定メトリックは、コール生成モデルのバリアントコーラーコンポーネントを介して抽出又は決定されたバリアントコーリング配列決定メトリックと、コール生成モデルのマッピング及びアラインメントコンポーネントを介して抽出又は決定されたマッピング及びアラインメント配列決定メトリックと、を含む。上で示したように、コールモデル生成の配列決定メトリックは、試料核酸配列が例示的核酸配列のゲノム座標とアラインメントする程度を定量化するアラインメントメトリック、例えば、欠失サイズメトリック又はマッピング品質メトリックを含むことができる。更に、コールモデル生成の配列決定メトリックは、例示的な核酸配列のゲノム座標における試料核酸配列についてのヌクレオチドベースコールの深度を定量化する深度メトリック、例えば、フォワード・リバース深度メトリック又は正規化深度メトリックを含むことができる。コールモデル生成の配列決定メトリックは、ヌクレオチドベースコールの品質又は精度を定量化するコール品質メトリック、例えば、ヌクレオチドベースコール品質メトリック、コール可能性メトリック、又は体細胞品質メトリックも含むことができる。
【0029】
本明細書で使用される場合、用語「ベースコール品質メトリック」は、ヌクレオチドベースコールの精度を示す特定のスコア又は他の尺度を指す。特に、ベースコール品質メトリックは、ゲノム座標についての1つ以上の予測ヌクレオチドベースコールがエラーを含む可能性を示す値を含む。例えば、特定の実施において、ベースコール品質メトリックは、任意の所与のヌクレオチドベースコールのエラー確率を予測するQスコア(例えば、Phred品質スコア)を含むことができる。例示のために、品質スコア(又はQスコア)は、あるゲノム座標における不正確なヌクレオチドベースコールの確率が、Q20スコアについて100分の1、Q30スコアについて1,000分の1、Q40スコアについて10,000分の1などに等しいことを示し得る。
【0030】
関連して、本明細書で使用される場合、「再操作された配列決定メトリック」という用語は、他のヌクレオチドベースコール、標準若しくは参照に対して、又は特定の目的若しくはタスクに対して標的化されたものについて、ヌクレオチドベースコール(例えば、リードについてのヌクレオチドベースコール又はバリアントコール)を測定又は比較するために、更新、修正、増強、改良、又は再操作された配列決定メトリックを指す。例えば、再操作された配列決定メトリックは、生の配列決定メトリックに対する修正、又は生の配列決定メトリックの組み合わせを含むことができる。いくつかの実施形態では、例えば、ベースコーラー再較正システムは、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及び/又はコールモデル生成の配列決定メトリックのうちの1つ以上を、再操作された配列決定メトリックとして生成する。いくつかの場合では、再操作された配列決定メトリックは、ベースコーラー再較正システムによって生成され、したがって、ベースコーラー再較正システム独自又はその内部にあり、第三者システムに利用可能ではない配列決定メトリックを指す。例示的な再操作された配列決定メトリックは、参照配列及び代替サポートヌクレオチドリードに関連付けられたマッピング品質分布間の比較を示す比較マッピング品質分布メトリック、又は参照配列及び代替サポートヌクレオチドリードの塩基品質間の比較を示す比較塩基品質メトリックを含む。
【0031】
本明細書で更に使用される場合、「ゲノム座標」という用語は、ゲノム(例えば、生物のゲノム又は参照ゲノム)内のヌクレオチドベースの特定の場所又は位置を指す。いくつかの場合において、ゲノム座標は、ゲノムの特定の染色体についての識別子及び特定の染色体内のヌクレオチドベースの位置についての識別子を含む。例えば、ゲノム座標(単数又は複数)は、染色体の番号、名称、又は他の識別子(例えば、chr1又はchrX)、及び染色体の識別子に続く番号付けされた位置(例えば、chr1:1234570又はchr1:1234570~1234870)などの特定の位置(単数又は複数)を含み得る。更に、特定の実装形態では、ゲノム座標は、参照ゲノムのソース(例えば、ミトコンドリアDNA参照ゲノムについてはmt、又はSARS-CoV-2ウイルスの参照ゲノムについてはSARS-CoV-2)、及び参照ゲノムについてのソース内のヌクレオチドベースの位置(例えば、mt:16568又はSARS-CoV-2:29001)を指す。対照的に、特定の場合では、ゲノム座標は、染色体又はソース(例えば、29727)を参照せずに、参照ゲノム内のヌクレオチドベースの位置を指す。
【0032】
上記のように、ゲノム座標は、参照ゲノム内の位置を含む。そのような位置は、特定の参照ゲノム内であり得る。本明細書で使用される場合、「参照ゲノム」という用語は、生物の遺伝子及び他の遺伝子配列の代表例(又は複数の代表例)としてアセンブルされたデジタル核酸配列を指す。配列長にかかわらず、いくつかの場合では、参照ゲノムは、特定の種の生物を代表するものとして科学者によって決定された、例示的な遺伝子セット又はデジタル核酸配列における核酸配列セットを表す。例えば、線状ヒト参照ゲノムは、Genome Reference ConsortiumからのGRCh38又は他のバージョンの参照ゲノムであり得る。更なる例として、参照ゲノムは、線状参照ゲノムと祖先ハプロタイプからの核酸配列を表すパスとの両方を含む参照グラフゲノム、例えば、Illumina DRAGEN Graph Reference Genome hg19を含み得る。
【0033】
上で示唆したように、ベースコーラー再較正システムは、機械学習モデルを利用して、配列決定メトリックを修正し、ヌクレオチドベースコールを更新することができる。本明細書で使用される場合、「機械学習モデル」という用語は、データの使用に基づく経験を通じて特定のタスクについて自動的に改善するコンピュータアルゴリズム又はコンピュータアルゴリズムの集合を指す。例えば、機械学習モデルは、精度及び/又は有効性を改善するために1つ以上の学習技法を利用することができる。例示的な機械学習モデルは、様々なタイプの決定ツリー、サポートベクターマシン、ベイジアンネットワーク、又はニューラルネットワークを含む。いくつかの場合では、コール再較正機械学習モデルは、一連の勾配ブースト決定ツリー(例えば、XGBoostアルゴリズム)であり、他の場合では、コール再較正機械学習モデルは、ランダムフォレストモデル、多層パーセプトロン、線形回帰、サポートベクターマシン、深層表学習アーキテクチャ、深層学習変換器(例えば、自己注意ベースの表変換器)、又はロジスティック回帰である。
【0034】
いくつかの場合では、ベースコーラー再較正システムは、コール再較正機械学習モデルを利用して、配列決定メトリックに基づいてヌクレオチドベースコールを修正又は更新する。本明細書で使用される場合、「コール再較正機械学習モデル」という用語は、バリアントコール分類を生成する機械学習モデルを指す。例えば、いくつかの場合では、コール再較正機械学習モデルは、配列決定メトリックに基づいてバリアントコールの様々な確率又は予測を示すバリアントコール分類を生成するようにトレーニングされる。したがって、いくつかの場合では、コール再較正機械学習モデルは、バリアントコール再較正機械学習モデルである。ある特定の実施形態では、コール再較正機械学習モデルは、複数のサブモデルを含むか、又は別のコール再較正機械学習モデルと連携して動作する。例えば、第1のコール再較正機械学習モデル(例えば、勾配ブーストツリーのアンサンブル)は、第1のバリアントコール分類セットを生成し、第2のコール再較正機械学習モデル(例えば、ランダムフォレスト)は、第2のバリアントコール分類セットを生成する。
【0035】
関連して、「バリアントコール分類」という用語は、1つ以上の配列決定メトリックに基づくヌクレオチドベースコールのいくつかの態様に関連付けられた、確率、スコア、又は他の定量的測定値を示すコール再較正機械学習モデルから予測分類を指す。いくつかの場合では、バリアントコール分類は、ヌクレオチドベースコールのための遺伝子型が正確である予測確率を含む。例えば、いくつかの実施形態では、コール再較正機械学習モデルは、以下のバリアントコール分類のうちの1つ以上を生成する:i)ヌクレオチドベースコールが偽陽性である確率を示す偽陽性分類、ii)遺伝子型(例えば、特定の位置におけるバリアントコールのためのヘテロ接合性又はホモ接合性遺伝子型の指標)が不正確である確率を示す遺伝子型エラー分類、及び/又はiii)ヌクレオチドベースコールが真陽性である確率を示す真陽性分類。したがって、いくつかの場合では、バリアントコール分類は、バリアントコーラー中間スコアメトリックを表す。
【0036】
言及したように、いくつかの実施形態では、コール再較正機械学習モデルは、ニューラルネットワークとすることができる。「ニューラルネットワーク」という用語は、分類又は近似未知関数を決定するための入力に基づいてトレーニング及び/又は調整することができる機械学習モデルを指す。例えば、ニューラルネットワークは、ニューラルネットワークに与えられる複数の入力に基づいて、通信し、複雑な関数を近似し、出力(例えば、生成されたデジタル画像)を生成するように学習する、相互接続された人工ニューロン(例えば、層に編成された)のモデルを含む。いくつかの場合では、ニューラルネットワークは、深層学習技法を実装してデータ内の高レベル抽象化をモデル化するアルゴリズム(又はアルゴリズムセット)を指す。例えば、ニューラルネットワークは、畳み込みニューラルネットワーク、リカレントニューラルネットワーク(例えば、LSTM)、グラフニューラルネットワーク、自己注意変換ニューラルネットワーク、又は生成敵対的ニューラルネットワークを含むことができる。
【0037】
上記のように、ベースコーラー再較正システムは、ゲノム座標においてバリアントを識別する可能性を示すか又は反映するバリアントコール分類を生成することができる。本明細書で使用される場合、「バリアント」という用語は、参照配列又は参照ゲノム中の対応するヌクレオチドベース(又は複数のヌクレオチドベース)とアラインメントしないか、異なるか、又は変化する、ヌクレオチドベース又は複数のヌクレオチドベースを指す。例えば、バリアントは、SNP、インデル、又は参照配列の対応するゲノム座標におけるヌクレオチドベースとは異なる試料ヌクレオチド配列におけるヌクレオチドベースを示す構造バリアントを含む。これらの並びに沿って、「バリアントヌクレオチドベースコール」は、特定のゲノム座標におけるバリアントを含むヌクレオチドベースコールを指す。逆に、「非バリアントヌクレオチドベースコール」は、ゲノム座標における非バリアントを含むヌクレオチドベースコールを指す。
【0038】
言及したように、いくつかの実施形態では、ベースコーラー再較正システムは、バリアントコールファイルに対応するデータフィールドを修正する。本明細書で使用される場合、「バリアントコールファイル」という用語は、ヌクレオチドベースコール(例えば、バリアントコール)に関する他の情報とともに、参照ゲノムと比較した1つ以上のヌクレオチドベースコール(例えば、バリアントコール)を示す又は表すデジタルファイルを指す。例えば、バリアントコールフォーマット(variant call format、VCF)ファイルは、メタ情報行、ヘッダ行、及び各データ行が単一ヌクレオチドベースコール(例えば、単一バリアント)に関する情報を有するデータ行を含む、特定のゲノム座標におけるバリアントに関する情報を有するテキストファイルフォーマットを指す。以下に更に記載されるように、ベースコーラー再較正システムは、ベースコール品質メトリックのための品質フィルタを通過するか若しくは通過しないバリアントヌクレオチドベースコールを含むプレフィルタバリアントコールファイル、又は品質フィルタを通過するが品質フィルタを通過しないバリアントヌクレオチドベースコールを除外するバリアントヌクレオチドベースコールを含むポストフィルタバリアントコールファイルを含む、異なるバージョンのバリアントコールファイルを生成することができる。いくつかの実施形態では、ベースコーラー再較正システムは、バリアントコールファイルに関連付けられたヌクレオチドベースコールのメトリックに対応するデータフィールド、例えば、コール品質、遺伝子型、及び遺伝子型品質のためのフィールドを修正する。本明細書で使用される場合、「コール品質」という用語は、バリアントコールファイル内のデータフィールドに関して使用される場合、バリアントが所与の場所に存在する可能性又は確率の尺度又は指標を指す。したがって、VCFファイルに対応するコール品質フィールド(又はQUALフィールド)は、試料ゲノムのゲノム座標がバリアントを含む確率を表す、Phredスケーリングされた品質又はQスコアなどのベースコール品質メトリックを含み得る。同様に、「遺伝子型品質」は、フィールドに関して使用される場合、ヌクレオチドベースコールのための特定の予測遺伝子型が正しい可能性又は確率を指す。
【0039】
上記したように、いくつかの実施形態では、ベースコーラー再較正システムは、コール生成モデルを利用して、ゲノム座標についてのヌクレオチドベースコールを生成する。本明細書で使用される場合、「コール生成モデル」という用語は、ヌクレオチドベースコール及び関連するメトリックを含む、試料ヌクレオチド配列のヌクレオチドリードから配列決定データを生成する確率モデルを指す。したがって、いくつかの場合では、コール生成モデルは、バリアントコール生成モデルであり得る。例えば、いくつかの場合では、コール生成モデルは、試料ヌクレオチド配列のヌクレオチドリードに基づいてバリアントコールを生成するベイズ確率モデルを指す。そのようなモデルは、リードパイルアップ(例えば、単一のゲノム座標に対応する複数のヌクレオチドリード)に対応する配列決定メトリックを処理又は分析することができ、これには、マッピング品質、塩基品質、及び外来リード、欠落リード、ジョイント検出などを含む様々な仮説が含まれる。コール生成モデルは、同様に、マッピング及びアラインメント、ソート、重複マーキング、リードパイルアップ深さの計算、並びにバリアントコーリングのための、異なるソフトウェアアプリケーション又はコンポーネントを含むが、これらに限定されない複数のコンポーネントを含み得る。いくつかの場合では、コール生成モデルは、バリアントコーリング関数並びにマッピング及びアラインメント関数のためのILLUMINA DRAGENモデルを指す。
【0040】
上で言及したように、ある特定の記載された実施形態では、ベースコーラー再較正システムは、個々の配列決定メトリックに関連付けられた寄与尺度を生成又は決定する。本明細書で使用される場合、「寄与尺度」という用語は、ベースコール出力ファイル(例えば、バリアントコールファイル)、ベースコール出力ファイル内の所与のヌクレオチドベースコール、又は(特に)所与のバリアントコールのためのフィールドの所与の再較正に対して配列決定メトリックが有する効果、影響、又はインパクトの尺度を指す。例えば、寄与尺度は、ヌクレオチドベースコールを決定する際に、1つの配列決定メトリックが、異なるヌクレオチドベースコールよりも(及び他の配列決定メトリックと比較して)どの程度の役割を果たすかを示す。
【0041】
以下の段落は、例示的な実施形態及び実装形態を描写する例示的な図に関して、ベースコーラー再較正システムを説明する。例えば、
図1は、ベースコーラー再較正システム106が1つ以上の実施形態に従って動作するシステム環境(又は「環境」)100の概略図を示す。図示されるように、環境100は、ネットワーク112を介してユーザクライアント装置108及び配列決定装置114に接続された1つ以上のサーバ装置102を含む。
図1は、ベースコーラー再較正システム106の一実施形態を示すが、本開示は、代替実施形態及び構成を以下に説明する。
【0042】
図1に示されるように、サーバ装置102、クライアント装置108、及び配列決定装置114は、ネットワーク112を介して互いに通信することができる。ネットワーク112は、コンピューティング装置が通信することができる任意の適切なネットワークを含む。例示的なネットワークを、
図10に関連して以下で更に詳細に説明する。
【0043】
図1によって示されるように、配列決定装置114は、核酸ポリマーを配列決定するための装置を含む。いくつかの実施形態では、配列決定装置114は、試料から抽出された核酸セグメント又はオリゴヌクレオチドを分析して、配列決定装置114上で直接的又は間接的のいずれかで(本明細書に記載される)コンピュータ実装方法及びシステムを利用して、ヌクレオチドリード又は他のデータを生成する。より具体的には、配列決定装置114は、ヌクレオチド試料スライド(例えば、フローセル)内で、試料から抽出された核酸配列を受け取り、分析する。1つ以上の実施形態では、配列決定装置114は、SBSを利用して、核酸ポリマーをヌクレオチドリードに配列決定する。いくつかの実施形態では、配列決定装置114は、ネットワーク112を介して通信することに加えて、又は代替として、ネットワーク112を迂回し、クライアント装置108と直接通信する。
【0044】
図1によって更に示されるように、サーバ装置102は、ヌクレオチドベースコールを決定するための、又は核酸ポリマーを配列決定するためのデータなどのデジタルデータを生成、受信、分析、記憶、及び送信し得る。
図1に示されるように、配列決定装置114は、配列決定装置114からコールデータを送信し得る(及びサーバ装置102は、コールデータを受信し得る)。サーバ装置102は、クライアント装置108とも通信することができる。特に、サーバ装置102は、バリアントコールファイル、又はヌクレオチドベースコール、配列決定メトリック、エラーデータ、又はコール品質、遺伝子型、及び遺伝子型品質などのヌクレオチドベースコールに関連付けられた他のメトリックを示す他の情報、を含むデータを、クライアント装置108に送信することができる。
【0045】
いくつかの実施形態では、サーバ装置102は、分散したサーバの集合を含み、サーバ装置102は、ネットワーク112にわたって分散され、同じ若しくは異なる物理的場所に位置する、いくつかのサーバ装置を含む。また、サーバ装置102は、コンテンツサーバ、アプリケーションサーバ、通信サーバ、ウェブホスティングサーバ、又は別のタイプのサーバを含むことができる。
【0046】
図1に更に示されるように、サーバ装置102は、配列決定システム104を含むことができる。概して、配列決定システム104は、配列決定装置114から受信した配列決定データなどのコールデータを分析して、核酸ポリマーについてのヌクレオチドベース配列を決定する。例えば、配列決定システム104は、配列決定装置114から生データを受信し、核酸セグメントについてのヌクレオチドベース配列を決定することができる。いくつかの実施形態では、配列決定システム104は、DNA及び/又はRNAセグメント又はオリゴヌクレオチド中のヌクレオチドベースの配列を決定する。核酸ポリマーについての配列を処理及び決定することに加えて、配列決定システム104はまた、1つ以上のゲノム座標についての1つ以上のヌクレオチドベースコールを示すバリアントコールファイルを生成する。
【0047】
今述べたように、また
図1に示されるように、ベースコーラー再較正システム106は、配列決定装置114からの配列決定メトリックなどのコールデータを分析して、試料核酸配列についてのヌクレオチドベースコールを決定する。ベースコーラー再較正システム106は、コール生成モデル及びコール再較正機械学習モデルを含む。いくつかの実施形態では、ベースコーラー再較正システム106は、試料ヌクレオチド配列についての配列決定メトリックを決定する。配列決定メトリックから導出又は調製されたデータに基づいて、ベースコーラー再較正システム106は、コール生成モデルをトレーニング及び適用して、ゲノム座標に対応する試料配列についてのヌクレオチドベースコールを決定する。ベースコーラー再較正システム106は更に、コール再較正機械学習モデルを利用して、バリアントコール分類セットを生成し、偽陽性確率、遺伝子型エラー確率、及び/又は真陽性確率などの様々な確率に基づいてヌクレオチドベースコールを更新又は修正する。そのようなデータに基づいて、例えば、ベースコーラー再較正システム106は、バリアントコールファイルに対応するデータフィールドを更新して、精度を改善するためにヌクレオチドベースコールを更新することができる。
【0048】
図1に更に図示され、かつ示されるように、クライアント装置108は、デジタルデータを生成し、記憶し、受信し、送信することができる。特に、クライアント装置108は、配列決定装置114から配列決定メトリックを受信することができる。更に、クライアント装置108は、サーバ装置102と通信して、ヌクレオチドベースコール、及び/又はコール品質、遺伝子型指標、及び遺伝子型品質などの他のメトリック、を含むバリアントコールファイルを受信することができる。したがって、クライアント装置108は、グラフィカルユーザインターフェース内のヌクレオチドベースコールに関する情報を、クライアント装置108に関連付けられたユーザに提示又は表示することができる。例えば、クライアント装置108は、特定のヌクレオチドベースコールに関する個々の配列決定メトリックに関連付けられた、又はそれに起因する、様々な寄与尺度の視覚化又は描写を含む寄与尺度インターフェースを提示することができる。
【0049】
図1に図示するクライアント装置108は、様々なタイプのクライアント装置を含むことができる。例えば、いくつかの実施形態では、クライアント装置108は、デスクトップコンピュータ若しくはサーバ、又は他のタイプのクライアント装置等の非モバイル装置を含む。更に他の実施形態では、クライアント装置108は、ラップトップ、タブレット、携帯電話、又はスマートフォンなどのモバイル装置を含む。クライアント装置108に関する更なる詳細は、
図10に関して以下で説明する。
【0050】
図1に更に図示されるように、クライアント装置108は、配列決定アプリケーション110を含む。配列決定アプリケーション110は、クライアント装置108上に記憶され、実行されるウェブアプリケーション又はネイティブアプリケーション(例えば、モバイルアプリケーション、デスクトップアプリケーション)であり得る。配列決定アプリケーション110は、(実行されると)クライアント装置108に、ベースコーラー再較正システム106からデータを受信させ、クライアント装置108における表示のために、バリアントコールファイルからのデータを提示させる命令を含むことができる。更に、配列決定アプリケーション110は、クライアント装置108に、ヌクレオチドベースコールの配列決定メトリックについての寄与尺度の可視化を表示するように命令することができる。
【0051】
図1に更に図示されるように、ベースコーラー再較正システム106は、配列決定アプリケーション110の一部として、クライアント装置108上に、又は配列決定装置114上に位置し得る。したがって、いくつかの実施形態では、ベースコーラー再較正システム106は、クライアント装置108上に(例えば、完全に又は部分的に位置して)実装される。更に他の実施形態では、ベースコーラー再較正システム106は、配列決定装置114など、環境100の1つ以上の他の構成要素によって実装される。特に、ベースコーラー再較正システム106は、サーバ装置102、ネットワーク112、クライアント装置108、及び配列決定装置114にわたって様々な異なる方法で実装することができる。例えば、ベースコーラー再較正システム106は、サーバ装置102からクライアント装置108及び/又は配列決定装置114にダウンロードすることができ、ベースコーラー再較正システム106の機能の全部又は一部は、環境100内のそれぞれの装置において実行される。
【0052】
図1に更に図示されるように、環境100は、データベース116を含む。データベース116は、バリアントコールファイル、試料ヌクレオチド配列、ヌクレオチドリード、ヌクレオチドベースコール、及び配列決定メトリックなどの情報を記憶することができる。いくつかの実施形態では、サーバ装置102、クライアント装置108、及び/又は配列決定装置114は、データベース116と通信して(例えば、ネットワーク112を介して)、バリアントコールファイル、試料ヌクレオチド配列、ヌクレオチドリード、ヌクレオチドベースコール、及び配列決定メトリックなどの情報を記憶及び/又はアクセスする。いくつかの場合では、データベース116は、コール再較正機械学習モデル及び/又はコール生成モデルなどの1つ以上のモデルも記憶する。
【0053】
図1は、ネットワーク112を介して通信する環境100の構成要素を図示しているが、ある特定の実装形態では、環境100の構成要素は、ネットワークを迂回して互いに直接通信することもできる。例えば、前述したように、いくつかの実装形態では、クライアント装置108は、配列決定装置114と直接通信することができる。加えて、いくつかの実施形態では、クライアント装置108は、ベースコーラー再較正システム106と直接通信する。更に、ベースコーラー再較正システム106は、サーバ装置102又は環境100内の他の場所に収容された、又はそれによってアクセスされる1つ以上のデータベースにアクセスすることができる。
【0054】
上で示したように、ベースコーラー再較正システム106は、1つ以上のバリアントコール分類に基づいてヌクレオチドベースコールを決定することができる。特に、ベースコーラー再較正システム106は、コール再較正機械学習モデルを利用して配列決定メトリックからバリアントコール分類を決定することができ、生成されたバリアントコール分類からヌクレオチドベースコールに関連付けられた様々なメトリックを決定又は更新することができる。
図2は、1つ以上の実施形態による、ベースコーラー再較正システム106がバリアントコール分類に基づいてヌクレオチドベースコールを決定するために実行する動作の例示的なシーケンスを示す。
【0055】
図2に図示されるように、ベースコーラー再較正システム106は、配列決定メトリックを決定するために動作202を実行する。特に、ベースコーラー再較正システム106は、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及びコールモデル生成の配列決定メトリックなどの配列決定メトリックを決定する。例えば、ベースコーラー再較正システム106は、試料ヌクレオチド配列からのヌクレオチドリードの様々なヌクレオチドベースコールに関する様々な属性又はデータを示す配列決定メトリックを決定する。様々なタイプの配列決定メトリックを決定することに関する更なる詳細は、
図3A~
図3Cを参照して以下で提供される。
【0056】
図2に更に図示されるように、ベースコーラー再較正システム106は、バリアントコール分類を生成するために動作204を実行する。より具体的には、ベースコーラー再較正システム106は、コール再較正機械学習モデルを利用して、配列決定メトリックからバリアントコール分類を生成(又は更新若しくは改良)する。詳述すると、ベースコーラー再較正システム106は、コール再較正機械学習モデルを利用して、1つ以上の配列決定メトリックを処理又は分析し、分類セット(例えば、遺伝子型に関連する予測確率)を生成する。例えば、ベースコーラー再較正システム106は、コール再較正機械学習モデルを利用して、配列決定メトリックに基づいて、対応するヌクレオチドベースコールの遺伝子型に関連付けられた特定の確率を示すバリアントコール分類セットを生成する。
【0057】
いくつかの実施形態では、ベースコーラー再較正システム106は、コール再較正機械学習モデル(
図2では「FP」として表される)を利用して偽陽性分類を生成する。例えば、ベースコーラー再較正システム106は、ヌクレオチドベースコール(例えば、遺伝子型コール)が偽陽性バリアントである確率、又はヌクレオチドベースコールが、参照ヌクレオチド配列に関する試料ヌクレオチド配列内にバリアントが実際に存在しないバリアントを示す確率、を示す偽陽性分類を生成する。ベースコーラー再較正システム106は、コール再較正機械学習モデルによって一緒に考慮される1つ以上の配列決定メトリックから偽陽性分類を生成する。
【0058】
特定の実装形態では、ベースコーラー再較正システム106はまた(又は代替的に)、遺伝子型エラー分類(
図2では「遺伝子型エラー」として表される)を生成する。より具体的には、ベースコーラー再較正システム106は、コール再較正機械学習モデルを利用して、ヌクレオチドベースコールに関連付けられた遺伝子型が正しくない確率を決定する。例えば、ベースコーラー再較正システム106は、ヌクレオチドベースコールについてhet/homエラーが存在する確率を決定する。ここで、ヌクレオチドベースコールは、試料ゲノム内のゲノム座標又は領域におけるヌクレオチドベースについてヘテロ接合性遺伝子型を示し得、試料ゲノムのヌクレオチドベースは、対応するゲノム座標又は領域において実際にホモ接合性である。逆に、ベースコーラー再較正システム106は、対応するヌクレオチドベースがヘテロ接合性である場合に、ヌクレオチドベースコールのための遺伝子型がホモ接合性であると決定する確率を決定する。
【0059】
1つ以上の実施形態では、ベースコーラー再較正システム106はまた(又は代替的に)、真陽性分類(
図2において「TP」として表される)を生成する。特に、ベースコーラー再較正システム106は、コール再較正機械学習モデルを利用して、ヌクレオチドベースコール(例えば、遺伝子型コール)が真陽性バリアントである確率、又はヌクレオチドベースコールが試料ヌクレオチド配列内の真のバリアントを示し、バリアントが対応するゲノム座標において参照ヌクレオチド配列内に実際に存在する確率を決定する。バリアントコール分類を生成することに関する更なる詳細は、後続の図を参照して以下に提供される。
【0060】
図2に更に図示されるように、ベースコーラー再較正システム106はまた、バリアントコール分類に基づいてヌクレオチドベースコールを決定するための動作206を実行する。より詳細には、ベースコーラー再較正システム106は、参照ゲノム内のゲノム座標における試料ヌクレオチド配列についてのヌクレオチドベースコールを決定する。ヌクレオチドベースコールを決定又は生成するために、いくつかの実施形態では、ベースコーラー再較正システム106は、コール生成モデルを利用して初期ヌクレオチドベースコールを決定し、コール再較正機械学習モデルによって生成されたバリアントコール分類に基づいて特定の初期ヌクレオチドベースコールを編集又は更新する。
【0061】
詳述すると、ベースコーラー再較正システム106は、コール生成モデルを利用して、配列決定メトリック(例えば、動作204においてバリアントコール分類を生成するために使用される同じ配列決定メトリックのうちの1つ以上)を処理又は分析し、配列決定メトリックからヌクレオチドベースコールを決定する。例えば、ベースコーラー再較正システム106は、いくつかのベイジアン確率モデル又はアルゴリズムを適用して、異なるヌクレオチドベース、品質メトリック、マッピングメトリック、ジョイントメトリック、及びバリアントコールファイル内に含めるための試料ヌクレオチド配列内に生じる他のデータについての様々な確率を導出する。確率モデルから、ベースコーラー再較正システム106は、対応するゲノム座標における試料ゲノムの予測ヌクレオチドベースを示す最終ヌクレオチドベースコール(例えば、参照ゲノムからの参照ベースに対する差異又は同一性を示すコール)を決定する。
【0062】
図2に更に図示されるように、ある特定の実装形態では、ベースコーラー再較正システム106は、(例えば、動作204を介して決定されるような)初期バリアントコール分類を利用して、ヌクレオチドベースコールを生成し、再較正し、決定し、修正し、又は増強する。詳述すると、ベースコーラー再較正システム106は、3つのバリアントコール分類に関連付けられた確率を利用して、ヌクレオチドベースコールに関連付けられた特定のメトリックを決定又は更新する。例えば、ベースコーラー再較正システム106は、コール品質、遺伝子型、及び遺伝子型品質などのメトリックについて、バリアントコールファイルに対応するデータフィールドを修正する。
【0063】
いくつかの場合では、ベースコーラー再較正システム106は、バリアントコール分類から外挿して、コール品質、遺伝子型、及びヌクレオチドベースコールに関連付けられた遺伝子型品質などのバリアントコールファイルに対応するメトリックを決定する。実際に、遺伝子型エラー分類を利用することによって、ベースコーラー再較正システム106は、初期ヌクレオチドベースコールにおける、又はそれに関連付けられた特定のエラーを修復することができる。例えば、ベースコーラー再較正システム106がヌクレオチドベースコールについて高い偽陽性確率を決定した場合、ベースコーラー再較正システム106は、コール再較正機械学習モデルを適用してバリアントフィルタとして機能して、ヌクレオチドベースコールに関連付けられたコール品質を修正(例えば、低減)する。別の例として、ベースコーラー再較正システム106は、システムが以前にhet/homエラーをフィルタ除外するか又は二重にペナルティを課す場合(例えば、システムが正しくないヌクレオチドベースコールを生成し、これが更に正しいヌクレオチドベースコールを見落とすことになる場合)、遺伝子型エラー確率を利用して、ヌクレオチドベースコールの遺伝子型及び/又は遺伝子型品質を修正する。
【0064】
ある特定の実施形態では、ベースコーラー再較正システム106は、単一のバリアントコール分類を考慮して、ヌクレオチドベースコールのためのデータフィールド(例えば、コール品質、遺伝子型、又は遺伝子型品質)を修正する。他の実施形態では、ベースコーラー再較正システム106は、複数のバリアントコール分類を一度に(例えば、重み付けされた組み合わせで)考慮して、コール品質、遺伝子型、及び/又は遺伝子型品質のための1つ以上のデータフィールドを修正又は更新する。ヌクレオチドベースコールの生成及び修正に関する更なる詳細は、後続の図を参照して以下に提供される。
【0065】
1つ以上の実装形態では、ベースコーラー再較正システム106は、ヌクレオチドベースコールを決定するプロセスの間又はその最中に(例えば、動作204を介して)バリアントコール分類を生成する。例えば、ベースコーラー再較正システム106は、コール再較正機械学習モデル及びコール生成モデルを同時に実装して、ヌクレオチドベースコール及びそのヌクレオチドベースコールを修正するためのバリアントコール分類を生成する。ベースコーラー再較正システム106は更に、ヌクレオチドベースコールのバリアントコールファイルに対応するデータフィールドを修正して、最終ヌクレオチドベースコールを生成する(例えば、プレフィルタ又はポストフィルタバリアントコールファイル内で)。実際に、ベースコーラー再較正システム106は、バリアントコール分類並びにコール生成モデルによって処理された配列決定メトリック(例えば、バリアントコール分類を生成するために使用される同じ配列決定メトリックのうちの1つ以上)から、最終的な(例えば、再較正された)ヌクレオチドベースコールを生成する。上述のように、この同時の又は並行の動作は、ヌクレオチドベースコールが初めに生成されるときにそれらを再較正することによって(1つの動作を他の動作の前に実行するのではなく)、ベースコーラー再較正システム106に、改善された計算効率及び増加した速度を与える。
【0066】
1つ以上の実装形態では、ベースコーラー再較正システム106は、ヌクレオチドベースコールを、SNP、欠失、挿入、又は構造バリエーションの一部として決定する。例えば、ベースコーラー再較正システム106は、参照配列中にAが存在する試料ヌクレオチド配列中のGを識別することによって、ヌクレオチドベースコールがゲノム座標(例えば、chr1:151863125)におけるSNPを表すと決定する。別の例として、ベースコーラー再較正システム106は、参照配列中にGTAACが存在する試料ヌクレオチド配列中の単一のGを識別することによって、1つ以上のゲノム座標(例えば、chr1:49263256)の周囲のヌクレオチドベースコールが欠失を示すと決定する。
【0067】
更なる例として、ベースコーラー再較正システム106は、参照配列中にTが存在する試料ヌクレオチド配列中のTTTCCの配列を識別することによって、ヌクレオチドベースコールの配列がゲノム座標(例えば、chr1:7602080)における挿入を表すと決定する。実際、いくつかの場合では、挿入は、参照配列のゲノム座標において単一の参照ベースを置き換えるヌクレオチドベースコールの配列を含む。
【0068】
上で言及したように、ある特定の記載された実施形態では、ベースコーラー再較正システム106は、ヌクレオチドベースコールのための配列決定メトリックを決定又は抽出する。特に、ベースコーラー再較正システム106は、試料ヌクレオチド配列からのヌクレオチドリードに対応するコールから、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及びコールモデル生成の配列決定メトリックなどの配列決定メトリックを決定する。
図3A~
図3Cは、1つ以上の実施形態による配列決定メトリックを決定することを示す。具体的には、
図3Aは、リードベースの配列決定メトリックを決定することを示し、
図3Bは、コールモデル生成の配列決定メトリックを決定することを示し、
図3Cは、外部ソースの配列決定メトリックを決定することを示す。
【0069】
図3Aに図示されるように、ベースコーラー再較正システム106は、ヌクレオチドリード302にアクセスし、検索し、取得し、決定し、又は生成する。特に、ベースコーラー再較正システム106は、配列決定装置114を利用して、試料ヌクレオチド配列(例えば、試料ゲノム)からの領域についてのヌクレオチドベースコールを含む、ヌクレオチドリード302を決定する。例えば、ベースコーラー再較正システム106は、合成による配列決定(sequencing-by-synthesis、SBS)技法及び/又はサンガー(Sanger)配列決定技法を利用してヌクレオチドリード302を生成し、フローセル内のウェルからの及び/又は蛍光タグ付けを介してのオリゴヌクレオチドクラスタについてのヌクレオチドベースコールを決定する。より具体的には、ベースコーラー再較正システム106は、クラスタ生成及びSBS化学を利用して、フローセル中の何百万又は何十億ものクラスタを配列決定する。SBS化学の間、各クラスタについて、ベースコーラー再較正システム106は、リアルタイム分析(real-time analysis、RTA)ソフトウェアを介して配列決定のサイクル毎にヌクレオチドリード302からのヌクレオチドベースコールを記憶する。
【0070】
図3Aに更に図示されるように、いくつかの実施形態では、ベースコーラー再較正システム106は、リード処理及びマッピング304を行う。例えば、ベースコーラー再較正システム106は、RTAソフトウェアを利用して、個々のベースコールデータファイル(又はBCL)の形態でベースコールデータを記憶する。いくつかの場合では、ベースコーラー再較正システム106は、
図3Bに図示されるように、BCLファイルを配列データ308に更に変換する(例えば、BCLからFASTQへの変換を介して)。
図3Aに図示されるように、ベースコーラー再較正システム106は、単一のゲノム座標に対応する複数のヌクレオチドリード302又はヌクレオチドベースコールを含む複数リードカバレッジ(例えば、リードパイルアップ)を生成する。
【0071】
特に、ある特定の実施形態では、ベースコーラー再較正システム106は、ヌクレオチドリードを参照ゲノムとアラインメントさせるか、又はリードアラインメントに関する情報を受信する。具体的には、ベースコーラー再較正システム106は、所与のリードのどのヌクレオチドベースが参照配列のどのゲノム座標とアラインメントするかを決定する(又はアラインメントを示す情報を受信する)。異なるリードは、異なる長さを有し、異なるヌクレオチドベースを含む。したがって、いくつかの場合では、ベースコーラー再較正システム106は、各リードの各ヌクレオチドを分析して、リードが参照配列に関して「適合」する場所、例えば、リード内のベースが参照中のベースとアラインメントする場所を決定する(又はそれを示す情報を受信する)。いくつかの場合では、ベースコーラー再較正システム106は、単一のゲノム座標において多くのリードをアラインメントさせ、したがってリードパイルアップをもたらす。
【0072】
ある特定の実施形態では、ベースコーラー再較正システム106は、追加の統計的検定を実施して、参照ヌクレオチド配列に関連付けられたメトリックと代替サポートヌクレオチドリードに関連付けられたメトリックとの間の差異を決定又は検出する。これらの統計的検定を通して、ベースコーラー再較正システム106は、生の配列決定メトリックを再操作して、リードベースの配列決定メトリック306を決定する。いくつかの場合では、ベースコーラー再較正システム106は、(i)試料ヌクレオチド配列と例示的ヌクレオチド配列(例えば、参照ゲノム又は祖先ハプロタイプからのヌクレオチド配列)のゲノム座標とのアラインメントを定量化するためのアラインメントメトリック、(ii)例示的ヌクレオチド配列のゲノム座標における試料ヌクレオチド配列についてのヌクレオチドベースコールの深度を定量化するための深度メトリック、又は(iii)例示的ヌクレオチド配列のゲノム座標における試料ヌクレオチド配列についてのヌクレオチドベースコールの品質を定量化するためのコール品質メトリック、のうちの1つ以上を含む生の配列決定メトリックを決定又は抽出する。例えば、ベースコーラー再較正システム106は、マッピング品質メトリック(例えば、
図3Aに示されるMAPQメトリック)、ソフトクリッピングメトリック、又は参照ゲノムとの試料配列のアラインメントを測定する他のアラインメントメトリックを決定する。別の例として、ベースコーラー再較正システム106は、フォワード・リバース深度メトリック(若しくは他のそのような深度メトリック)又はバリアントヌクレオチドベースコールについてのコール可能性メトリック(若しくは他のそのようなコール品質メトリック)を決定する。
【0073】
直前に述べたように、いくつかの実施形態では、ベースコーラー再較正システム106は、生の配列決定メトリックを再操作して、参照ヌクレオチド配列に関連付けられたメトリックを様々なサポート代替ヌクレオチドリードに関連付けられたメトリックと比較するためにより有益なリードベースの配列決定メトリック306を生成する。例えば、ベースコーラー再較正システム106は、参照配列に関する試料配列についての種々のメトリックを決定し、更に、代替サポート配列に関する試料配列についての種々のメトリックを決定する。加えて、ベースコーラー再較正システム106は、参照配列に関連付けられたメトリックと代替サポートリードに関連付けられたメトリックとの間の比較分析を行う。
【0074】
例えば、ベースコーラー再較正システム106は、試料ヌクレオチド配列(例えば、試料ゲノム)のヌクレオチドベースが参照配列にどのようにマッピングされるかを、ヌクレオチドベースが様々な代替サポートリードにどのようにマッピングされるかと比較する。いくつかの場合では、ベースコーラー再較正システム106は、代替サポートリードに関連付けられたマッピング品質と比較するために、参照配列に関連付けられたマッピング品質を決定する。例えば、ベースコーラー再較正システム106は、参照配列をサポートするリードと代替対立遺伝子をサポートするリードとの対比の分布における差異を反映するマッピング品質統計を決定する。
【0075】
これらの場合又は他の場合では、ベースコーラー再較正システム106は、試料配列と参照配列との間、及び参照配列と代替サポートリードとの間のミスマッチカウントを決定する。ベースコーラー再較正システム106は更に、ミスマッチカウントを比較して、比較ミスマッチカウントメトリックを決定する。更に、ベースコーラー再較正システム106は、参照配列に関する試料配列についてのソフトクリッピングメトリックを決定し、代替サポートリードに関するソフトクリッピングメトリックを更に決定する。ベースコーラー再較正システム106はまた、参照配列と代替サポートリードとの間のソフトクリッピングメトリックを比較して、比較ソフトクリッピングメトリックを生成する。更にまた、ベースコーラー再較正システム106は、参照配列及び代替サポートリードに関するベースコール品質メトリックを比較し、かつ/又は参照配列に関する試料配列のクエリ位置を代替サポートリードに関するクエリ位置と比較する。
【0076】
図3Aに更に図示されるように、ベースコーラー再較正システム106は、比較及び/又は他の統計的検定を利用して、以下を含むリードベースの配列決定メトリック306を生成する:i)参照配列に関するマッピング品質と代替サポートリードに関するマッピング品質とを比較するマッピング品質分布を示す比較マッピング品質分布メトリック、ii)参照配列におけるベースに関する二次マッピングと代替サポートリードにおけるベースに関する二次マッピングとの比較を示す比較二次マッピングアラインメントメトリック、iii)参照配列に関するミスマッチヌクレオチドベースと代替サポートリードに関するミスマッチベースとの比較を示す比較ミスマッチカウントメトリック、iv)参照配列に関するソフトクリッピングメトリックと代替サポートリードに関するソフトクリッピングメトリックとの比較を示す比較ソフトクリッピングメトリック、v)ヌクレオチドリード302のリード深度と1つ以上の平均リード深度(例えば、特定のゲノム座標における局所平均リード深度及びある領域内の多数のゲノム座標にわたるグローバル平均リード深度)との間の比較を示す1つ以上のリード深度比較メトリック、vi)参照配列に関するベース品質と代替サポートリードに関するベース品質(例えば、ヌクレオチドリード302における全体的なベース品質、初期ベース品質、及び後期ベース品質)との比較を示す1つ以上の比較ベース品質メトリック、vii)参照配列に関するクエリ位置と代替サポートリードに関するクエリ位置との比較を示す比較クエリ位置メトリック、viii)ヌクレオチドベースコールのホモポリマー及び周期性を示す1つ以上のコンテキスト情報メトリック、ix)ヌクレオチドリード302の1つ以上に関連付けられた鎖バイアスを示す鎖バイアスメトリック、及びx)ヌクレオチドリード302に関連付けられたリード方向バイアスを示すリード方向バイアスメトリック。いくつかの場合では、ベースコーラー再較正システム106は、リードベースの配列決定メトリック306の一部として、追加又は代替のリードベースの配列決定メトリックを生成又は再操作する。
【0077】
リードベースの配列決定メトリック306に加えて、
図3Bに図示されるように、ベースコーラー再較正システム106は、コールモデル生成の配列決定メトリック312を生成する。特に、ベースコーラー再較正システム106は、コール生成モデル310を利用して、配列データ308からコールモデル生成の配列決定メトリックを生成する。例えば、ベースコーラー再較正システム106は、
図3Aに関して記載されるリード処理及びマッピング304に基づいて配列データ308を抽出又は決定する。いくつかの場合では、ベースコーラー再較正システム106は、BCL及びFASTQファイルなどの1つ以上のデジタルファイルの一部として配列データ308を生成する。
【0078】
そのようなファイルを生成するために、いくつかの実施形態では、配列決定装置114(又はベースコーラー再較正システム106)は、クラスタ生成及びSBS化学を利用して、フローセル中の何百万又は何十億ものクラスタを配列決定する。SBS化学の間、各クラスタについて、配列決定装置114(又はベースコーラー再較正システム106)は、リアルタイム分析(RTA)ソフトウェアを介して配列決定のサイクル毎にヌクレオチドリード302からのヌクレオチドベースコールを記憶する。配列決定装置114(又はベースコーラー再較正システム106)は、RTAソフトウェアを利用して、個々のベースコールデータファイル(又はBCL)の形態でベースコールデータを更に記憶する。いくつかの場合では、配列決定装置114(又はベースコーラー再較正システム106)は更に、BCLファイルを配列データ308に変換する(例えば、BCLからFASTQへの変換を介して)。例えば、配列決定装置114(又はベースコーラー再較正システム106)は、ヌクレオチドリード302からFASTQファイルを生成し、FASTQファイルは、配列データ308を含む。
【0079】
いくつかの場合では、ベースコーラー再較正システム106は、試料配列から初期品質フィルタを通過する各クラスタのための配列データ308を生成する。例えば、ベースコーラー再較正システム106は、各クラスタについてエントリを生成し、各エントリは、以下の4つの行(又は配列データの4つの項目)を含む:i)配列決定行程及びクラスタについての情報を有する配列識別子、ii)配列を構成するヌクレオチドベースコール(例えば、A、C、T、G、及び/又はNコールの配列)、iii)セパレータ(例えば、「+」記号)、及びiv)ヌクレオチドベースコール(Phred+33コード化)についての正確さの確率を示すベースコール品質メトリック。
【0080】
図3Bに更に図示されるように、ベースコーラー再較正システム106は、コール生成モデル310を実装、利用、又は適用して、配列データ308を処理又は分析する。実際、いくつかの実施形態では、ベースコーラー再較正システム106は、コール生成モデル310を利用して生の配列決定メトリック(例えば、配列データ308内の生の配列決定メトリック)を再操作することによって、コールモデル生成の配列決定メトリック312を生成する。特に、コール生成モデル310は、配列データ308からのヌクレオチドベースコールをマッピング及びアラインメントするためのマッピング及びアラインメントコンポーネントを含む。加えて、コール生成モデル310は、配列データ308からヌクレオチドベースコール(例えば、バリアントコール又は非バリアントコールなどの参照ベースコール)を生成するためのバリアントコーリングコンポーネントを含む。いくつかの場合では、ベースコーラー再較正システム106は、コール生成モデル310のマッピングコンポーネント及びバリアントコーリングコンポーネントを利用して生成されているコールモデル生成の配列決定メトリック312を抽出する。
【0081】
コールモデル生成の配列決定メトリック312の例を示すために、いくつかの場合では、ベースコーラー再較正システム106は、i)コール生成モデル310を介して生成されたヌクレオチドベースコールについての品質スコアを示すベースコール品質メトリック(例えば、DRAGEN QUALスコア)、ii)パイルアップ中のヌクレオチドリード302のうちの1つ以上が外来リードであり得る(例えば、それらの真の位置が参照配列中の他の場所にある)確率を示すコールモデル生成外来リード検出メトリック(例えば、外来リード検出(foreign read detection、FRD)スコア)、iii)鎖バイアス、スレッド中のエラー位置、又はヌクレオチドリード302のサブセットにわたる低平均ベース品質のうちの1つ以上に基づくベース品質ドロップオフの確率を示すコールモデル生成ベース品質ドロップオフメトリック(例えば、ベース品質ドロップオフ(base quality dropoff、BQD)スコア)、iv)平均リード深度、v)インデル統計(例えば、ポリメラーゼ連鎖反応又は「PCR」曲線)及び/又はvi)隠れマルコフモデル(hidden Markov model、HMM)統計、vii)二次ヌクレオチドベースコールが正しい確率を示す二次アラインメントメトリック、viii)ヌクレオチドベースコールの周囲のヌクレオチドのためのコンテキスト情報を示すベースコンテキストメトリック、iv)ヌクレオチドベースコールの近傍(例えば、隣接又はそれからの分離の閾値程度内)を示す近傍コールメトリック、x)2つ以上の重複ヌクレオチドベースコールに対応するジョイントを検出する確率を示すジョイント検出メトリック、xii)低マッピング品質、ベース品質、又は他の品質メトリックなどを有するヌクレオチドベースコールをフィルタ除外するための閾値品質メトリック又は他のメトリックを示すリードフィルタリングメトリック、のうちの1つ以上を含む(バリアントコーリングメトリックを生成する。ベースコーラー再較正システム106は、相互作用する処理経路、コーナケース、及び困難な予測/決定を反映する内部(例えば、独自及びモデル固有)変数から、コールモデル生成の配列決定メトリック312を生成する。
【0082】
上で示したように、いくつかの場合では、ベースコーラー再較正システム106は、Eric Jon Ojardの米国特許出願第16/280,022号に記載され、System and Method for Correlated Error Event Mitigation for Variant Callingと題する方法に従ってFRDスコアを決定し、これは、参照によりその全体が本明細書に組み込まれる。ある特定の実装形態では、ベースコーラー再較正システム106はまた(又は代替的に)、米国特許出願第17/165,828号、同第15/643,381号、及び同第14/811,836号に記載されている方法に従って、BQDスコア、FRDスコア、HMM統計、及び/又は他のバリアントコーリングメトリックを決定し、これらは、参照によりその全体が本明細書に組み込まれる。
【0083】
図3Bに図示されるように、コールモデル生成の配列決定メトリック312は、コール生成モデル310のバリアントコーリングコンポーネントを介して抽出されたバリアントコーリングメトリックを含むが、これに限定されない。上述のコールモデル生成の配列決定メトリック312の例に加えて、又はその代替として、いくつかの場合では、ベースコーラー再較正システム106は、i)集団内の試料の数、ii)ヌクレオチドベースコールを生成するために処理されたリードの数、バリアント(例えば、SNP、インデル、及びMNP)の数、iii)二対立遺伝子部位の数(例えば、2つの観察された対立遺伝子を含むゲノム座標)、iv)複対立遺伝子部位の数(例えば、3つ以上の観察された対立遺伝子を含むバリアントコールファイル内の部位の数)、v)SNPの数、vi)異なるタイプのインデル(例えば、ホモ接合性挿入、ヘテロ接合性挿入、及びヘテロ接合性欠失)の数、vii)ヘテロ接合性インデルの総数(例えば、挿入+欠失、挿入+SNP、又は欠失+SNP)、viii)デノボSNPの数(例えば、閾値レベルを満たすデノボ品質メトリックを有するSNP)、ix)デノボインデルの数(例えば、閾値レベルを満たすデノボ品質メトリックを有するインデル)、x)デノボMNPの数(例えば、閾値レベルを満たすデノボ品質メトリックを有するMNP、xi)第1の染色体中のSNPの数を第2の染色体中のSNPの数で除算したもの、xii)SNPトランジションの数、xiii)SNPトランスバージョンの数、xiv)ヘテロ接合性バリアントの数、xv)ホモ接合性バリアントの数、xvi)ヘテロ接合性バリアントの数とホモ接合性バリアントの数との間の比、xvii)dbSNP参照ファイル内で検出されたバリアントの数、及び/又はxviii)バリアントの総数からdbSNPファイル内で検出された数を引いたもの、のうちの1つ以上を含むバリアントコーリングメトリックを(例えば、メトリック再操作を介して)生成する。
【0084】
加えて、コールモデル生成の配列決定メトリック312は、コール生成モデル310のマッピング及びアラインメントコンポーネントを介して抽出されたマッピング及びアラインメント配列決定メトリックを含むことができる。例えば、塩基対コーラー再較正システム106は、i)総入力リードの数、ii)重複マークリードの数、iii)重複マークの除去されたメイトリード(mate read)の数、iv)ユニークリード(unique read)の数、v)メイト配列を有するリードの数、vi)メイト配列を有さないリードの数、vii)品質チェックに失敗するリードの指標、viii)マッピングされたリードの指標、ix)ユニーク及びマッピングされたリードの数、x)マッピングされていないリードの数、xi)シングルトンリード(singleton read)の数(例えば、リードはマッピングされるが、ペアメイトは読み出せなかった場合)、xii)ペアリードの数、xiii)適切にペアになったリードの数(例えば、ペアの両方のリードがマッピングされ、推定インサート長分布に基づいて互いに許容範囲内に入る場合)、xiv)不一致リードの数(例えば、適切にペアになっていないリードの数)、xv)異なる染色体にマッピングされたペアリードの数、xvi)異なる染色体にマッピングされ、マッピング品質メトリックが10以上であるペアリードの数、xvii)インデルR1及びR2内のリードの割合、xviii)R1及びR2内のソフトクリップされたベースの割合、xix)インデルR1及びR2内のミスマッチベースの数、xx)少なくとも30のベース品質を有するベースの数(例えば、総数及び/又はR1若しくはR2)、xxi)アラインメントの数(例えば、総アラインメント、二次アラインメント、及び/又は補足アラインメント)、xxii)推定リード長、並びにxxiii)推定試料汚染、のうちの1つ以上を含むマッピング及びアラインメントメトリックを(例えば、メトリック再操作を介して)生成又は抽出する。
【0085】
ここで
図3Cを参照すると、その図に図示されるように、ベースコーラー再較正システム106は、外部ソースの配列決定メトリック316を生成、抽出、又は決定する。特に、ベースコーラー再較正システム106は、ベースコーラー再較正システム106の外部の1つ以上のデータベース、例えば、配列決定情報データベース314(例えば、データベース116)から、外部ソースの配列決定メトリック316を決定する。例えば、ベースコーラー再較正システム106は、一般的であるか、又は一般にヌクレオチドの配列決定に適用可能な配列決定メトリックにアクセスする。更に、ベースコーラー再較正システム106は、特定の参照配列についての配列決定情報(例えば、配列決定情報データベース314内に格納されている)にアクセスするか、又はそれを決定する。いくつかの場合では、ベースコーラー再較正システム106は、以下を含む外部ソースの配列決定メトリック316を決定する:i)特定のヌクレオチド配列(又は特定のヌクレオチドリード若しくはヌクレオチドベースコール)をマッピングする容易さ又は困難さを示すマッピング可能性メトリック、ii)参照ヌクレオチド配列(例えば、参照ゲノム)中のグアニン・シトシン含量のカウント(又はドロップアウト若しくは平均)を示すグアニン・シトシン含量メトリック、iii)参照配列から特定の数のヌクレオチドを複製するのに必要な時間を示す複製タイミングメトリック、iv)参照配列(例えば、参照ゲノム)のDNA構造を示す1つ以上のDNA構造メトリック、v)複数の種にわたる配列保存の尺度(例えば、平均に対する変化の尺度)を示す保存メトリック、及び/又はその他。
【0086】
上で言及したように、ある特定の記載された実施形態では、ベースコーラー再較正システム106は、コール再較正機械学習モデルをコール生成モデルとともに利用して、ヌクレオチドベースコールを生成する。特に、ベースコーラー再較正システム106は、コール再較正機械学習モデルを利用して、ヌクレオチドベースコールを表すバリアントコールファイルに対応するデータフィールドを修正する。
図4は、1つ以上の実施形態によるコール再較正機械学習モデル及びコール生成モデルを利用して、バリアントコールファイルを修正することによって、ヌクレオチドベースコールを生成することを示す。
【0087】
図4に図示されるように、ベースコーラー再較正システム106は、配列決定情報データベース402(例えば、配列決定情報データベース314)、参照配列403、及び1つ以上のヌクレオチドリードから外挿された配列データ404(例えば、配列データ308)にアクセスする。実際、ベースコーラー再較正システム106は、
図3A~
図3Cに関連して上述したように配列決定メトリックを抽出又は再操作するために、配列決定メトリック抽出410を実行する。例えば、ベースコーラー再較正システム106は、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及びコールモデル生成の配列決定メトリックを生成する。いくつかの場合では、ベースコーラー再較正システム106は、コール生成モデル420(例えば、コール生成モデル310)のマッピング及びアラインメントコンポーネント406を利用して、上述のようにマッピング及びアラインメント配列決定メトリックを決定する。加えて、ベースコーラー再較正システム106は、コール生成モデル420のバリアントコーラーコンポーネント408を利用して、上述のようにバリアントコーリングメトリックを生成する。更に、ベースコーラー再較正システム106は、リードベースの配列決定メトリック及び外部ソースの配列決定メトリックも(例えば、配列決定情報データベース402及び/又は参照配列403から)決定する。
【0088】
図4に更に図示されるように、ベースコーラー再較正システム106は、バリアントコール分類414を生成する。より具体的には、ベースコーラー再較正システム106は、コール再較正機械学習モデル412を利用して、配列決定メトリックからバリアントコール分類414を生成する。例えば、コール再較正機械学習モデル412は、偽陽性分類、遺伝子型エラー分類、及び真陽性分類を含むバリアントコール分類414を生成する。具体的には、偽陽性分類は、ヌクレオチドベースコール(例えば、バリアントコール)が偽陽性である確率を示す。逆に、真陽性分類は、ヌクレオチドベースコール(例えば、バリアントコール)が真陽性である確率を示す。更に、遺伝子型エラー分類は、ヌクレオチドベースコール(例えば、バリアントコール)についての遺伝子型に関連付けられたエラーの確率を示す。
【0089】
いくつかの場合では、コール再較正機械学習モデル412は、配列決定メトリックを処理してバリアントコール分類414を生成する勾配ブーストツリーのアンサンブルである。例えば、コール再較正機械学習モデル412は、バリアントコール分類414を生成するためにロジスティック回帰においてトレーニングされる非線形決定ツリーなどの一連の弱い学習器を含む。いくつかの場合では、コール再較正機械学習モデル412は、コール再較正機械学習モデル412が配列決定メトリックをどのように処理してバリアントコール分類414を生成するかを定義する様々なツリー内のメトリックを含む。コール再較正機械学習モデル412のトレーニングに関する更なる詳細は、
図5を参照して以下に提供される。
【0090】
ある特定の実施形態では、コール再較正機械学習モデル412は、ニューラルネットワーク、サポートベクターマシン、又はランダムフォレストなどの異なるタイプの機械学習モデルである。例えば、コール再較正機械学習モデル412がニューラルネットワークである場合、コール再較正機械学習モデル412は、配列決定メトリックを処理するためのレイヤを構成するニューロンを各々が有する1つ以上のレイヤを含む。いくつかの場合では、コール再較正機械学習モデル412は、配列決定メトリックから潜在ベクトルを抽出し、潜在ベクトルをレイヤからレイヤ(又はニューロンからニューロン)に渡して、出力レイヤ(例えば、1つ以上の完全接続レイヤ)を利用してバリアントコール分類414を(例えば、3つの別個の分類からなるセットとして)生成するまでベクトルを操作することによって、バリアントコール分類414を生成する。
【0091】
上で示唆したように、いくつかの実施形態では、ベースコーラー再較正システム106は、複数のコール再較正機械学習モデルを一緒に利用することができる。例えば、ベースコーラー再較正システム106は、コール再較正機械学習モデル412を利用して、第1のバリアントコール分類セットを生成し、更に、第2のコール再較正機械学習モデル(例えば、同じ又は異なるアーキテクチャを有する)を利用して、第2のバリアントコール分類セットを生成する。例えば、ベースコーラー再較正システム106は、2つ(又はそれ以上)の異なるコール再較正機械学習モデルを並行して利用し、各々は、異なるランダムシードを用いてトレーニングされ(例えば、データを異なって処理するために異なるバイアスに対して)、同じ配列決定メトリックから異なるバリアントコール分類をもたらす。
【0092】
いくつかの実施形態では、ベースコーラー再較正システム106は、異なるコール再較正機械学習モデルを介して生成された異なるバリアントコール分類から、バリアントコール分類の組み合わされたセットを更に生成する。いくつかの場合では、ベースコーラー再較正システム106は、第1のコール再較正機械学習モデル及び第2のコール再較正機械学習モデルからそれぞれ生成された第1のバリアントコール分類セット及び第2のバリアントコール分類セットからバリアントコール分類(例えば、バリアントコール分類414)を生成する。例えば、ベースコーラー再較正システム106は、第1のバリアントコール分類セットの及び第2のバリアントコール分類セットの平均又は重み付けされた組み合わせを決定して、ヌクレオチドベースコールを再較正するための組み合わされたバリアントコール分類を生成する。いくつかの実施形態では、ベースコーラー再較正システム106は、各コール再較正機械学習モデルにわたる各バリアントコール分類の平均を決定し、平均バリアントコール分類を再正規化する。他の実施形態では、ベースコーラー再較正システム106は、線形重みを学習し、バリアントコール分類についての全体的な誤差又は損失を最小化するように重みを適合させる。更に他の実施形態では、ベースコーラー再較正システム106は、モデルにわたる平均誤差の逆数に基づいて、コール再較正機械学習モデル毎にバリアントコール分類を重み付けする。
【0093】
1つ以上の実装形態では、ベースコーラー再較正システム106は、コール再較正機械学習モデルに続いてメタモデルを更に利用する。例えば、ベースコーラー再較正システム106は、分類コンバイナ機械学習モデルを利用して、各コール再較正機械学習モデルによって生成されたバリアントコール分類に適用するための重みを選択することなどによって、各コール再較正機械学習モデルから生成されたバリアントコール分類を組み合わせる。実際に、いくつかの場合では、ベースコーラー再較正システム106は、分類コンバイナ機械学習モデルをトレーニングして、コール再較正機械学習モデルのためのそれぞれの重みを決定、選択、又は予測して、最高の精度又は最小の損失をもたらす。
【0094】
バリアントコール分類414を生成するとき、いくつかの実施形態では、ベースコーラー再較正システム106は、統計を利用して参照サポートリード及び代替サポートリードのマッピング品質分布(例えば、比較マッピング品質分布メトリック)をまとめることによって、バリアントコール分類を生成する。例えば、ベースコーラー再較正システム106は、バリアントコール分類として代替対立遺伝子をサポートするリードについてのMAPQの平均を決定し、利用することができる。これら又は他の実施形態では、コール再較正機械学習モデル412は、データから、代替対立遺伝子のMAPQが低く、かつ深度メトリックが分布における他のMAPQ及び深度メトリックに対して高い場合、得られたヌクレオチドベースコールが偽陽性バリアントである可能性が高いと学習する。実際、偽陽性バリアントの確率が増加するにつれて、MAPQメトリックは減少する可能性がある。
【0095】
コール再較正機械学習モデル412を利用してバリアントコール分類414を生成する更なる例として、いくつかの場合では、ベースコーラー再較正システム106は、(例えば、配列決定メトリックからの)ヌクレオチドリードに関連付けられたマッピング品質(例えば、MAPQ)をマッピング品質閾値と比較する。例えば、ベースコーラー再較正システム106は、最良のアラインメントスコアとその次に最良のアラインメントスコアとの間の閾値差などのマッピング品質閾値を利用する。マッピング品質が閾値を満たさないと判定すると、ベースコーラー再較正システム106は、それに応じて、バリアントコール分類414のうちの1つ以上を調整する。例えば、ベースコーラー再較正システム106は、マッピング品質が対応する閾値を満たすかどうかに基づいて、遺伝子型エラー及び/又は偽陽性エラーの確率を増加させる。
【0096】
直前に説明したバリアントコール分類414を生成する方法に加えて(又はその代替として)、ベースコーラー再較正システム106は、(i)(コール再較正機械学習モデル412のアーキテクチャに応じて)複雑な関数にわたる統計分析の蓄積を利用して、(例えば、様々なメトリック間の関係に基づいて)データをどのように最もよく適合させるかを決定するか、又は(ii)リード深度、ベース品質、若しくは(例えば、配列決定メトリックからの)ヌクレオチドベースコールに関連付けられた他のものなどの他のメトリックを、対応する閾値と比較することができる。ベースコーラー再較正システム106は更に、それに応じてバリアントコール分類414を生成する。例えば、いくつかの実施形態では、ベースコーラー再較正システム106は、コール再較正機械学習モデル412をトレーニングして、バリアントコール分類414を生成するためのデータに最もよく適合する(例えば、低減又は最小化された損失をもたらす)重み及びバイアスを決定するために、いくつかの(異なるタイプの)配列決定メトリックから生成される損失を最小化する。別の例として、リード深度がリード深度閾値(例えば、特定のゲノム座標に対応する、又は概して全てのゲノム座標にわたる、最大リード深度)を満たさないと判定すると、ベースコーラー再較正システム106は、対応するヌクレオチドベースコールについて、遺伝子型エラー確率を増加させ、かつ/又は偽陽性確率及び真陽性確率を増加若しくは減少させる。
【0097】
バリアントコール分類414を生成することに加えて、
図4に更に図示されるように、ベースコーラー再較正システム106は、データフィールド生成416を実行する。より具体的には、ベースコーラー再較正システム106は、コール生成モデル420のバリアントコーラーコンポーネント408を利用してバリアントコールファイルに対応するヌクレオチドベースコールのためのデータフィールドを生成し、バリアントコール分類414に基づいてそのようなデータフィールドの値を修正又は維持する。例えば、ベースコーラー再較正システム106は、品質メトリック、マッピングメトリック、又はヌクレオチドベースコールに関連付けられた他のメトリックなどの様々なメトリックを修正する。ある特定の実施形態では、ヌクレオチドベースコールは、コール品質フィールドに対応するコール品質メトリック、遺伝子型フィールドに対応する遺伝子型メトリック、及び遺伝子型品質フィールドに対応する遺伝子型品質メトリックなどの、データフィールドに対応するメトリックを含むバリアントコールファイル418によって表されるか又は定義される。
【0098】
ある特定の実施形態において、ベースコーラー再較正システム106は、バリアントコール分類414とともにバリアントコーラーコンポーネント408を利用して、ヌクレオチドベースコール(のためのデータフィールド)を生成する。例えば、ベースコーラー再較正システム106は、バリアントコーラーコンポーネント408を利用して、コールに含まれるヌクレオチド、コール品質(QUAL)、遺伝子型(genotype、GT)、及び遺伝子型品質(genotype quality、GQ)などのヌクレオチドベースコールの様々なメトリックのためのデータフィールドを生成する。
【0099】
コール生成モデル420を介してヌクレオチドベースコールを生成することに加えて、ベースコーラー再較正システム106はまた、コール再較正機械学習モデル412からのバリアントコール分類414を介してヌクレオチドベースコールを再較正又は修正する。1つ以上の実装形態では、ベースコーラー再較正システム106は、ヌクレオチドベースコールに関連付けられたメトリックのうちの1つ以上(例えば、バリアントコールファイル418内に含まれるものとして)のためのデータフィールドを修正又は再較正することによって、ヌクレオチドベースコールを修正する。例えば、ベースコーラー再較正システム106は、バリアントコール分類414から、コール品質、遺伝子型、及び遺伝子型品質などのメトリックに対する更新値を決定する。実際に、ベースコーラー再較正システム106は、バリアントコール分類414を組み合わせるか又は比較して、バリアントコールファイル418に含まれるヌクレオチドベースコールの対応するメトリックを再較正する。
【0100】
ヌクレオチドベースコールに関連付けられたコール品質メトリックを更新又は再較正するために、ベースコーラー再較正システム106は、バリアントコール分類414の各々がベースコール品質メトリックにどのように影響を及ぼすかを決定し、それに応じてベースコール品質メトリックを調整する。例えば、ベースコーラー再較正システム106は、遺伝子型エラーについての高い確率が、より低い全体的な遺伝子型品質及びおそらく異なる全体的なコール品質をもたらすと判定する。別の例として、ベースコーラー再較正システム106は、偽陽性バリアントについての高い確率がより低い全体的なコール品質をもたらすと判定する。更に別の例として、ベースコーラー再較正システム106は、真陽性バリアントについての高い確率がより高い全体的な(バリアント)コール品質をもたらすと判定する。更なる例として、ベースコーラー再較正システム106が、遺伝子型エラーについて高い確率(例えば、バリアントコール分類414の他の2つのバリアントコール分類よりも高い)を決定する場合、ベースコーラー再較正システム106は、ヌクレオチドベースコールが誤った遺伝子型を有する真のバリアントである可能性が最も高いと判定する。したがって、ベースコーラー再較正システム106は、ヌクレオチドベースコールに関連付けられた遺伝子型品質及びコール品質とともに遺伝子型を更新する。
【0101】
1つ以上の実装形態では、ベースコーラー再較正システム106は、バリアントコール分類414の組み合わせ(例えば、重み付けされた組み合わせ又は平均)を生成して、コール品質メトリックを再較正する。特に、ベースコーラー再較正システム106は、偽陽性分類、遺伝子型エラー分類、及び真陽性分類を、(バリアント)コール品質に及ぼすそれらのそれぞれの影響に従って重み付けする。ある場合では、ベースコーラー再較正システム106は、各バリアントコール分類を均等に重み付けするが、他の場合では、ベースコーラー再較正システム106は、各バリアントコール分類について異なる重みを決定する。いずれにしても、ベースコーラー再較正システム106は、ヌクレオチドベースコール(例えば、初期バリアントコール)のためのコール品質メトリックを再較正する(増加又は減少させる)ために、バリアントコール分類414の重み付けされた組み合わせ又は加重平均を決定する。
【0102】
ヌクレオチドベースコールに関連付けられた(例えば、バリアントコールファイル418のGTフィールド内の)遺伝子型メトリックを更新又は再較正するために、ベースコーラー再較正システム106は、バリアントコール分類414のうちの1つ以上を利用する。例えば、ベースコーラー再較正システム106は、バリアントコール分類414(例えば、偽陽性分類、遺伝子型エラー分類、及び真陽性分類)としての3つのバリアントコール分類を比較して、バリアントコール分類414のうちのどれが最高の確率を有するかを判定する。いくつかの場合では、ベースコーラー再較正システム106は、最高の確率を有するバリアントコール分類を利用して、遺伝子型メトリックを再較正する(例えば、参照ベースに対応する0から、第1の代替サポートリードに対応する1へ)。例えば、ベースコーラー再較正システム106が偽陽性分類について最高の確率を決定する場合、ベースコーラー再較正システム106は、それに応じて遺伝子型メトリックを再較正する。別の例として、ベースコーラー再較正システム106が真陽性分類について最高の確率を決定した場合、ベースコーラー再較正システム106は、遺伝子型メトリックを再較正する(又は再較正を控える)。
【0103】
他の実施形態では、ベースコーラー再較正システム106は、遺伝子型エラー確率のみを利用して、遺伝子型メトリックを修正する。例えば、ベースコーラー再較正システム106が高い遺伝子型エラー確率を決定した場合、ベースコーラー再較正システム106は、ヌクレオチドベースコールの異なる遺伝子型を示すように遺伝子型メトリックを再較正する。
【0104】
ヌクレオチドベースコールに関連付けられた(例えば、バリアントコールファイル418のGQフィールド内の)遺伝子型品質メトリックを更新又は再較正するために、ベースコーラー再較正システム106は、バリアントコール分類414のうちの1つ以上を利用する。より具体的には、ベースコーラー再較正システム106は、バリアントコール分類414の各々が遺伝子型品質メトリックにどのように影響を及ぼすかを判定し、それに応じて(例えば、品質スコアを0~10若しくは0~100の間で、又は何らかの他の尺度で増加又は減少させることによって)遺伝子型品質メトリックを再較正する。例えば、ベースコーラー再較正システム106は、より高い遺伝子型エラー確率が(一般に)より低い遺伝子型品質メトリックを示すと判定し、ベースコーラー再較正システム106は、それに応じてメトリックを低減する。
【0105】
いくつかの場合では、ベースコーラー再較正システム106は、遺伝子型品質メトリックを修正するために、バリアントコール分類414の組み合わせ(例えば、重み付けされた組み合わせ又は加重平均)を決定する。例えば、ベースコーラー再較正システム106は、バリアントコール分類414が遺伝子型品質メトリックに及ぼす複合効果を決定する。別の例として、ベースコーラー再較正システム106は、各バリアントコール分類が遺伝子型品質メトリックに対して及ぼす個々の影響を決定し、それに応じて各バリアントコール分類に重み付けする。ベースコーラー再較正システム106は更に、バリアントコール分類414の各々に関連付けられた示された確率に基づいてその値を増加又は減少させることによって遺伝子型品質メトリックを再較正する。
【0106】
記載されるように、ベースコーラー再較正システム106は、同じ配列決定メトリックセット(又はコール再較正機械学習モデル412とコール生成モデル420との間で共有される配列決定メトリックのサブセット)から、バリアントコール分類414及びヌクレオチドベースコールを生成する。実際、ベースコーラー再較正システム106は、コール再較正機械学習モデル412を利用して、配列決定メトリックからバリアントコール分類414を生成する一方で、試料配列についてのヌクレオチドベースコールも生成する。実際、ベースコーラー再較正システム106は、コール生成モデル420と並行してコール再較正機械学習モデル412を動作させて、ヌクレオチドベースコールのためのメトリック及び生成されたメトリックを再較正するためのバリアントコール分類414を生成することができる。
【0107】
図4に更に図示されるように、ベースコーラー再較正システム106は、バリアントコールファイル418を生成する。特に、ベースコーラー再較正システム106は、ゲノム座標に対応する配列決定メトリックからのヌクレオチドベースコールを表すか又は定義するバリアントコールファイル418を生成する。示されるように、バリアントコールファイル418は、コール品質メトリック(QUAL)、遺伝子型メトリック(GT)、及び遺伝子型品質メトリック(GQ)などの様々なコールメトリックを含む。バリアントコールファイル418を生成するために、記載されるように、ベースコーラー再較正システム106は、コール生成モデル420を利用してヌクレオチドベースコールのためのメトリックを生成し、コール再較正機械学習モデル412からのバリアントコール分類414を利用してヌクレオチドベースコールを再較正する。
【0108】
1つ以上の実装形態では、ベースコーラー再較正システム106は、特定のアルゴリズムに従ってバリアントコールファイル418のためのデータフィールドを更新するか、又は別様に修正する。そのようなデータフィールドを修正した後、ベースコーラー再較正システム106は、QUAL、GT、及びGQのための更新されたデータフィールドを反映するメトリックを含むようにバリアントコールファイル418(例えば、ポストフィルタバリアントコールファイル)を生成することができる。例えば、いくつかの場合では、ベースコーラー再較正システム106は、偽陽性バリアント(例えば、偽陽性分類)の確率に基づいて、バリアント毎にQUALフィールドを更新する。上で示されるように、いくつかの場合では、QUALは、PHREDスケールで測定される、所定の位置にある種のバリアント(又は他のヌクレオチドベースコール)が存在する確率を示す。
【0109】
加えて、ベースコーラー再較正システム106が、バリアントコール分類414としての3つのバリアントコール分類の中から最高の確率が遺伝子型エラー分類であると判定した場合(例えば、het/homエラーの確率)、ベースコーラー再較正システム106は、GTフィールドを保存又は維持しながらGQフィールドを更新する。具体的には、いくつかの実施形態では、ベースコーラー再較正システム106は、真陽性分類(例えば、真の遺伝子型の確率)に基づいてGQフィールドを更新する。
【0110】
更に、ベースコーラー再較正システム106が、バリアントコール分類414の中から最高の確率が真陽性分類であると判定した場合、いくつかの場合では、ベースコーラー再較正システム106は、GQフィールドとGTフィールドとの両方を更新する。具体的には、ベースコーラー再較正システム106は、遺伝子型エラー分類に基づいてGQフィールドを更新し、更にGTフィールドを更新して、既存のGTが0/XであるかX/X(Xは非0値)であるかに応じて遺伝子型を切り替える。
【0111】
ベースコーラー再較正システム106が、真陽性分類も遺伝子型エラー分類もバリアントコール分類414の中で最高の確率を有していないと判定した場合、いくつかの実施形態では、ベースコーラー再較正システム106は、GQフィールドを更新する。言い換えれば、ベースコーラー再較正システム106が、偽陽性分類が最高の確率を有すると判定した場合、ベースコーラー再較正システム106は、GQフィールドを更新する。特に、ベースコーラー再較正システム106は、真陽性分類によって示される確率に基づいてGQフィールドを更新する。
【0112】
上で示唆したように、いくつかの実施形態では、ベースコーラー再較正システム106は、ヌクレオチドベースコールのためのベースコール品質メトリック(例えば、Qスコア)を増加又は減少させる。バリアントコール分類414に基づいて、例えば、ベースコーラー再較正システム106は、以前に品質フィルタを通過しなかったであろうヌクレオチドベースコールのためのベースコール品質メトリックを増加させ、増加させられたベースコール品質メトリックが現在品質フィルタを通過すると判定する。いくつかのそのような場合では、ベースコーラー再較正システム106は、ポストフィルタバリアントコールファイルにおいて、そのような増加させられたベースコール品質メトリック(品質フィルタを通過する)を有するヌクレオチドベースコールを含む。対照的に、他の場合では、ベースコーラー再較正システム106は、以前に品質フィルタを通過したであろうヌクレオチドベースコールのためのベースコール品質メトリックを減少させ、減少させられたベースコール品質メトリックが現在品質フィルタに通過しないと判定する。いくつかのそのような場合では、ベースコーラー再較正システム106は、減少させられたベースコール品質メトリック(品質フィルタを通過しない)を有するヌクレオチドベースコールをポストフィルタバリアントコールファイルから除外するが、そのような減少させられたベースコール品質メトリックを有するヌクレオチドベースコールをプレフィルタバリアントコールファイルに含める。
【0113】
例えば、ベースコーラー再較正システム106は、対応するベースコール品質メトリックを変更することによって、偽陽性バリアントコールを除去し、偽陰性バリアントコールを回復することができる。偽陽性を除去するために、いくつかの場合では、ベースコーラー再較正システム106は、コール再較正機械学習モデル412からのバリアントコール分類414に基づいて、品質フィルタを最初に通過したヌクレオチドベースコールのベースコール品質メトリックを減少させる。減少させられたベースコール品質メトリックが閾値メトリック(例えば、3.0又は10.0のQスコア)を下回ると判定することに基づいて、ベースコーラー再較正システム106は、ヌクレオチドベースコールがもはや品質フィルタを通過しないと判定する。したがって、ベースコーラー再較正システム106は、最初にフィルタを通過した偽陽性ヌクレオチドベースコールを、そのベースコール品質メトリックを変更することによってフィルタ除外又は除去する。
【0114】
ベースコール品質メトリックに対する変更に基づいて偽陽性を除去することに加えて、ベースコーラー再較正システム106は、遺伝子型に対する変更に基づいて偽陽性バリアントコールを除去することができる。偽陽性を除去するために、いくつかの場合では、ベースコーラー再較正システム106は、コール再較正機械学習モデル412からのバリアントコール分類414に基づいて、参照ベース(例えば、GT=1又は2)とは異なるヌクレオチドベースを示す初期ヌクレオチドベースコールの遺伝子型を、参照ベース(例えば、GT=0)と同じヌクレオチドベースを示す更新ヌクレオチドベースコールの遺伝子型に変更する。遺伝子型が参照ベースと同じであることに基づいて、ベースコーラー再較正システム106は、ヌクレオチドベースコールをバリアントとして識別せず、いくつかの場合では、バリアントコールファイルからヌクレオチドベースコールのためのデータを除外する。
【0115】
偽陰性を回復するために、ベースコーラー再較正システム106は、コール再較正機械学習モデル412からのバリアントコール分類414に基づいて、品質フィルタを最初に通過しなかったヌクレオチドベースコールのベースコール品質メトリックを増加させる。増加させられたベースコール品質メトリックが閾値メトリックを超えると判定することに基づいて、ベースコーラー再較正システム106は、ヌクレオチドベースコールが品質フィルタを通過すると判定する。したがって、ベースコーラー再較正システム106は、そのベースコール品質メトリックを変更することによって最初にフィルタ除外された偽陰性ヌクレオチドベースコールを回復する。
【0116】
ベースコール品質メトリックに対する変更に基づいて偽陰性を回復することに加えて、ベースコーラー再較正システム106は、遺伝子型に対する変更に基づいて偽陰性バリアントコールを回復することができる。偽陰性を回復するために、いくつかの場合では、ベースコーラー再較正システム106は、コール再較正機械学習モデル412からのバリアントコール分類414に基づいて、参照ベースと同じヌクレオチドベース(例えば、GT=0)を示す初期ヌクレオチドベースコールの遺伝子型を、参照ベースとは異なるヌクレオチドベース(例えば、GT=1又は2)を示す更新されたヌクレオチドベースコールの異なる遺伝子型に変更する。更新されたヌクレオチドベースコールの異なる遺伝子型及び通過したベースコール品質メトリックに基づいて、ベースコーラー再較正システム106は、ヌクレオチドベースコールをバリアントとして識別し、バリアントコールファイル内にヌクレオチドベースコールを含める。
【0117】
実際に、いくつかの実装形態では、ベースコーラー再較正システム106は、コール生成モデル420及びコール再較正機械学習モデル412を利用して、特定の順序で動作する。例えば、ベースコーラー再較正システム106は、BCLファイルをFASTQに変換することによってFASTQファイルを生成する。加えて、ベースコーラー再較正システム106は(その後)、コール生成モデル420のマッピング及びアラインメントコンポーネント406を利用して、試料ヌクレオチド配列からのヌクレオチドベースをマッピング及びアラインメントする。いくつかの場合では、ベースコーラー再較正システム106は、参照配列(例えば、参照ゲノム)及び/又は様々な代替サポートリードに関連して、試料配列のヌクレオチドベースをマッピング及びアラインメントする。
【0118】
本明細書に記載されるように、マッピング及びアラインメント後、ベースコーラー再較正システム106は、次いで、コール生成モデル420のバリアントコーラーコンポーネント408を利用して、種々の配列決定メトリックに基づいて、特定のゲノム座標に対応する試料配列についての初期ヌクレオチドベースコールを生成する。その後又はそれと同時に、ベースコーラー再較正システム106はまた、コール再較正機械学習モデル412を適用して、マッピング及びアラインメント、バリアントコーリングを介して抽出された配列決定メトリックから、及び/又は上記のような他のソースから、バリアントコール分類414を生成する。バリアントコール分類414に基づいて、ベースコーラー再較正システム106は、ヌクレオチドベースコールを再較正する(例えば、QUAL、GT、及びGQなどのヌクレオチドベースコールの特定のメトリックに対応する様々なデータフィールドを修正することによって)ヌクレオチドベースコールを再較正する。
【0119】
いくつかの場合では、ベースコーラー再較正システム106は更に、ヌクレオチドベースコールに品質フィルタを適用して、ヌクレオチドベースコールが品質フィルタ(例えば、Q20又は他のQスコアのハードパスフィルタ)を通過するかどうかを判定する。その後、ベースコーラー再較正システム106は、参照ベースからのバリアントを表し、品質フィルタを通過するヌクレオチドベースコールのサブセットを識別する。ベースコーラー再較正システム106は、ヌクレオチドベースコールのサブセット、並びに更新されたQUALメトリック、更新されたGTメトリック、及び/又は更新されたGQメトリックなどの、ヌクレオチドベースコールのサブセットについての再較正されたメトリックを含む、修正又は更新されたバリアントコールファイル(例えば、バリアントコールファイル418)を更に生成する。
【0120】
上で言及したように、ある特定の実施形態では、ベースコーラー再較正システム106は、コール再較正機械学習モデル(例えば、コール再較正機械学習モデル412)をトレーニング又は調整する。特に、ベースコーラー再較正システム106は、反復トレーニングプロセスを利用して、正確なバリアントコール分類(例えば、バリアントコール分類414)をもたらす決定ツリー又は学習パラメータを調整又は追加することによって、コール再較正機械学習モデルを適合させる。
図5は、1つ以上の実施形態によるコール再較正機械学習モデルをトレーニングすることを示す。
【0121】
図5に図示されるように、ベースコーラー再較正システム106は、データベース502(例えば、データベース116)からの試料配列決定メトリック504にアクセスする。例えば、ベースコーラー再較正システム106は、試料リードベースのメトリック、試料外部ソースの配列決定メトリック、及び試料コールモデル生成の配列決定メトリックを含む試料配列決定メトリックにアクセスする。いくつかの場合では、試料配列決定メトリック504は、それらに関連付けられた対応するグラウンドトゥルースバリアントコールファイル516を有し、グラウンドトゥルースバリアントコールファイル516は、実際のヌクレオチドベースコールと、試料配列決定メトリック504から生じるその様々なメトリックとを示す。例えば、ベースコーラー再較正システム106は、試料配列決定メトリック504と、PrecisionFDAデータセットと呼ばれる、食品医薬品局からのトレーニングデータセットからのグラウンドトゥルースバリアントコールファイルとを利用する。いくつかの場合では、試料配列決定メトリック504は、グラウンドトゥルースバリアントコールファイル内の各ヌクレオチドベースコールのための試料配列決定メトリックのサブセットを含む。グラウンドトゥルースバリアントコールファイルは、試料配列決定メトリックの各サブセットに対応するグラウンドトゥルースバリアントコール(例えば、遺伝子型フィールド内の遺伝子型メトリック)を有することができる。
【0122】
図5に更に図示されるように、ベースコーラー再較正システム106は、試料配列決定メトリック504に基づいて、予測バリアントコール分類508を生成する。具体的には、ベースコーラー再較正システム106は、コール再較正機械学習モデル506(例えば、コール再較正機械学習モデル412)を利用して、予測バリアントコール分類508を生成する。実際、いくつかの実施形態では、コール再較正機械学習モデル506は、予測偽陽性分類、予測遺伝子型エラー分類、及び予測真陽性分類を含む予測バリアントコール分類508として、3つの予測バリアントコール分類からなるセットを生成する。したがって、予測バリアントコール分類508は、上述のバリアントコール分類のいずれかの形態を取ることができる。
【0123】
予測バリアントコール分類508に基づいて、ベースコーラー再較正システム106は、ヌクレオチドベースコールを決定し、ヌクレオチドベースコール及び対応するフィールドを含む修正されたバリアントコールファイル510を生成する。上で示されたように、ベースコーラー再較正システム106は、(i)コール生成モデルを利用して初期ヌクレオチドベースコールを生成し、(ii)コール再較正機械学習モデル506を利用して、ヌクレオチドベースコールのためのバリアントコールファイルに対応するデータフィールドを修正することができる。そのような修正又は再較正された値は、例えばコール生成モデルによって、修正されたバリアントコールファイル510に出力される。例えば、ベースコーラー再較正システム106は、コール品質メトリック(QUAL)、遺伝子型メトリック(GT)、及び遺伝子型品質メトリック(GQ)を含む、修正されたバリアントコールファイル510内の特定のメトリックのための再較正値を決定する。
【0124】
図5に更に図示されるように、ベースコーラー再較正システム106は、比較512を実行する。具体的には、ベースコーラー再較正システム106は、(i)修正されたバリアントコールファイル510中のバリアントヌクレオチドベースコール及び/又はデータフィールドと、(ii)グラウンドトゥルースバリアントコールファイル516中のバリアントヌクレオチドベースコール及び/又はデータフィールドとの間の比較512を行う。いくつかの実施形態では、ベースコーラー再較正システム106は、損失関数514を利用して、2つのバリアントコールファイルからのバリアントヌクレオチドベースコール及び/又はデータフィールドを比較する(例えば、それらの間の誤差又は損失の尺度を決定する)。例えば、コール再較正機械学習モデル506が勾配ブーストツリーのアンサンブルである場合、ベースコーラー再較正システム106は、損失関数514として、平均二乗誤差損失関数(例えば、回帰用)及び/又は対数損失関数(例えば、分類用)を利用する。
【0125】
対照的に、コール再較正機械学習モデル506がニューラルネットワークである実施形態では、ベースコーラー再較正システム106は、クロスエントロピー損失関数、L1損失関数、又は平均二乗誤差損失関数を損失関数514として利用することができる。例えば、ベースコーラー再較正システム106は、損失関数514を利用して、修正されたバリアントコールファイル510及びグラウンドトゥルースバリアントコールファイル516からのバリアントヌクレオチドベースコール及び/又はデータフィールド間の差異を決定する。
【0126】
図5に更に図示されるように、ベースコーラー再較正システム106は、モデルフィッティング518を実行する。特に、ベースコーラー再較正システム106は、比較512に基づいて、コール再較正機械学習モデル506を適合させる。例えば、ベースコーラー再較正システム106は、後続のトレーニング反復のための損失関数514からの損失の尺度を低減するために、コール再較正機械学習モデル506に対する修正又は調整を行う。
【0127】
勾配ブーストツリーの場合、例えば、ベースコーラー再較正システム106は、損失関数514によって決定された誤差の勾配に対してコール再較正機械学習モデル506をトレーニングする。例えば、ベースコーラー再較正システム106は、過剰なフィッティングを回避するために目的関数を正則化しながら、(例えば、無限次元の)凸最適化問題を解く。いくつかの実装形態では、ベースコーラー再較正システム106は、(例えば、偽陽性よりも真陽性が著しく多い場合)過小表現クラスに対する補正を強調するために勾配をスケーリングする。
【0128】
いくつかの実施形態では、ベースコーラー再較正システム106は、最適化問題を解くことの一部として、連続するトレーニング反復毎に、新しい弱学習器(例えば、新しいブーストされたツリー)をコール再較正機械学習モデル506に追加する。例えば、ベースコーラー再較正システム106は、損失関数514からの損失を最小化する特徴(例えば、配列決定メトリック)を見つけ、その特徴を現在の反復のツリーに追加するか、又はその特徴を有する新しいツリーの構築を開始する。
【0129】
勾配ブースト決定ツリーに加えて、又はその代替として、ベースコーラー再較正システム106は、ロジスティック回帰をトレーニングして、真陽性分類などの1つ以上のバリアントコール分類を生成するためのパラメータを学習する。過剰なフィッティングを回避するために、ベースコーラー再較正システム106は、学習率、確率的勾配ブースティング、ツリーの数、ツリー深度、複雑性ペナルティ化、及びL1/L2正則化などのハイパーパラメータに基づいて更に正則化する。
【0130】
コール再較正機械学習モデル506がニューラルネットワークである実施形態では、ベースコーラー再較正システム106は、コール再較正機械学習モデル506の内部パラメータ(例えば、重み)を修正して、損失関数514のための損失の尺度を低減することによって、モデルフィッティング518を実行する。実際に、ベースコーラー再較正システム106は、内部ネットワークパラメータを修正することによって、コール再較正機械学習モデル506がどのように分析し、レイヤとニューロンとの間でデータを渡すかを修正する。したがって、複数回の反復にわたって、ベースコーラー再較正システム106は、コール再較正機械学習モデル506の精度を改善する。
【0131】
実際に、いくつかの場合では、ベースコーラー再較正システム106は、
図5に図示されるトレーニングプロセスを複数回反復して繰り返す。例えば、ベースコーラー再較正システム106は、対応するグラウンドトゥルースバリアントコールファイル内の対応するグラウンドトゥルースヌクレオチドベースコールとともに、各ヌクレオチドベースコールのための新しい配列決定メトリックセットを選択することによって、反復トレーニングを繰り返す。ベースコーラー再較正システム106は更に、新しい修正されたバリアントコールファイルとともに、反復毎に新しい予測バリアントコール分類セットを生成する。上述したように、ベースコーラー再較正システム106はまた、各反復における修正されたバリアントコールファイルからのバリアントヌクレオチドベースコール及び/又はデータフィールドを、対応するグラウンドトゥルースバリアントコールファイルからの対応するバリアント-ヌクレオチドベースコール及び/又はデータフィールドと比較し、更にモデルフィッティング518を実行する。ベースコーラー再較正システム106は、コール再較正機械学習モデル506が、損失の閾値尺度を満たすバリアントコールをもたらす予測バリアントコール分類を生成するまで、このプロセスを繰り返す。
【0132】
上で言及したように、ある特定の記載された実施形態では、ベースコーラー再較正システム106は、配列決定メトリックに関連付けられた寄与尺度を生成及び提供する。特に、ベースコーラー再較正システム106は、特定のヌクレオチドベースコールを決定する際に個々の配列決定メトリックがどの程度影響力があるかを示すそれぞれの寄与尺度を決定する。
図6は、1つ以上の実施形態による、ヌクレオチドベースコールに関連付けられた配列決定メトリックについての寄与尺度の例示的可視化を示す。
【0133】
図6に図示されるように、クライアント装置108は、対応する配列決定メトリックに関連付けられた寄与尺度の個々の描写を含む寄与尺度インターフェース602を表示する。実際に、ベースコーラー再較正システム106は、配列決定メトリックが最終ヌクレオチドベースコールに対してどれだけ影響力があるか又は影響があるかに基づいて、配列決定メトリックの寄与尺度を決定する。深層学習アーキテクチャを利用する多くの従来のシステムとは異なり、ベースコーラー再較正システム106によって使用されるコール生成モデルの構造は、メトリック毎にそのような寄与尺度の決定を容易にする。
【0134】
例えば、ベースコーラー再較正システム106は、ヌクレオチドベースコールのための配列決定メトリックの各々についてのShapley Additive Explanation(SHAP)値を決定することによって寄与尺度を決定する。具体的には、ベースコーラー再較正システム106は、ベースライン値(例えば、配列決定メトリックのベースライン値)の結果と比較した配列決定メトリックの影響を決定することによって、SHAP値を決定する。
図6に図示されるように、ベースコーラー再較正システム106は、いくつかの列挙された配列決定メトリックについての寄与尺度を決定し、ここで、各配列決定メトリックについてのグラフのより太い(例えば、より球根状の)部分は、その寄与尺度を(大まかに)示す。
【0135】
図6に更に図示されるように、ベースコーラー再較正システム106は、同様に寄与尺度に従って配列決定メトリックをランク付けすることができる。例えば、ベースコーラー再較正システム106は、mapq_pメトリックについての寄与が寄与-尺度インターフェース602内に表示されたものの中で最も高く、qualメトリック、gt0メトリックなどがリストの下に続くことを決定する。
【0136】
上で言及したように、ある特定の記載された実施形態では、ベースコーラー再較正システム106は、従来のシステムよりも精度が向上する。特に、ベースコーラー再較正システム106は、従来のシステムと比較して、偽陽性バリアントヌクレオチドベースコール及び偽陰性バリアントヌクレオチドベースコールを減少させる。実際に、コール再較正機械学習モデルを利用してヌクレオチドベースコールを再較正することによって、ベースコーラー再較正システム106は、あるコール再較正機械学習モデルを利用しなかったコール生成モデルの以前のバージョン(但し、依然として他のシステムより性能が優れている)よりも更に改善する。
図7A~
図7Bは、1つ以上の実施形態によるベースコーラー再較正システム106の改善を描写するグラフを示す。具体的には、
図7Aは、SNPのヌクレオチドベースコールのための改善を示し、
図7Bは、非SNP(例えば、インデル)のための改善を示す。
【0137】
図7Aに図示されるように、グラフ702は、コール再較正機械学習モデルによるバリアントコール分類を介して再較正することなくコール生成モデル(例えば、コール生成モデル420)を利用するシステムと比較して、ベースコーラー再較正システム106についてのSNP偽陽性の低減を示す受信者動作特性(receiver operating characteristic、ROC)曲線を含む。グラフ702は、検出された偽陽性バリアントに対する感度を表す2つの異なるROC曲線の部分を描写し、感度は、真陽性バリアントコールと偽陽性バリアントコールの合計で除算された、正確に決定された真陽性バリアントコールの数を表す。特に、グラフ702は、コール再較正機械学習モデル、すなわち、「再較正のモデル(Recalibrated Model)」を利用するベースコーラー再較正システム106のROC曲線を描写する。「再較正のモデル」は、PrecisionFDA HG002高信頼度トゥルースセットを使用して試験されたコール再較正機械学習モデルを指す。更に、グラフ702は、コール再較正機械学習モデルを伴わないコール生成モデル、すなわち、「非再較正のモデル(Non-Recalibrated Model)」についての感度ROC曲線を描写する。各ROC曲線の上部にズームインするために、感度のy軸は0.985付近から開始する。「再較正のモデル」についてのROC曲線の終わりでは、感度は約0.998である。
【0138】
示されるように、コール再較正機械学習モデルを有するベースコーラー再較正システム106は、(例えば、同じy軸値における非再較正のモデルの曲線と比較して再較正のモデルの曲線の左シフトによって示されるように)ある感度において偽陽性について約65%の改善を示す。表704に示されるように、別の例として、それらの最良の測定点において、ベースコーラー再較正システム106は、4,073個の偽陽性のみを生成するが、非再較正のシステムは、6,972個の偽陽性を生成する。
【0139】
表704に更に描写されるように、ベースコーラー再較正システム106は、他の改善も示す。例えば、ベースコーラー再較正システム106は、非再較正のシステムよりも少ない偽陰性及び少ない遺伝子型エラー(例えば、het/homエラー)を生成する。ベースコーラー再較正システム106はまた、再現率、精度、及びF値において非再較正のシステムよりも改善し、その一方で、全体の計算時間を最小限に増加させる。特に、コール再較正機械学習モデルをコール生成モデルに追加することによって、コール再較正機械学習モデルは、配列決定行程(例えば、約21~25分)からのバリアントコールファイルの生成に約1~5分を追加する。
【0140】
図7Bに図示されるように、グラフ706は、コール生成モデルの非再較正のバージョンと比較して、ベースコーラー再較正システム106についての非SNP(すなわち、インデル)偽陽性の低減を示すROC曲線を含む。上記の議論と同様に、グラフ706は、「非再較正のモデル」と比較して、コール再較正機械学習モデル(「再較正のモデル」)を利用するベースコーラー再較正システム106を描写する。各ROC曲線の上部にズームインするために、感度のy軸は0.98付近から開始する。
【0141】
グラフ706によって示されるように、ベースコーラー再較正システム106は、同じ感度で非SNP偽陽性を改善する(例えば、より大きいドットによって示されるように)。表708に示されるように、例えば、それらの最良の測定点において、ベースコーラー再較正システム106は、図示される感度において998個の偽陽性のみを生成し、一方、非再較正のシステムは、1,342個の偽陽性を生成する。
【0142】
表708によって更に描写されるように、ベースコーラー再較正システム106は、従来のシステムと比べて他の改善も示す。例えば、ベースコーラー再較正システム106は、非再較正のシステムよりも少ない遺伝子型エラー(例えば、het/homエラー)を生成する。ベースコーラー再較正システム106はまた、非SNPについての精度及びF値において、非再較正のシステムと比べて改善する。
【0143】
図7A及び
図7BのROC曲線によって示される精度の改善に加えて、
図8は、非較正のシステムと比べて、ベースコーラー再較正システム106による改善された精度を実証するグラフ802を示す。具体的には、グラフ802は、ベースコーラー再較正システム106についての偽陽性バリアントコール(false positive、FP)及び偽陰性バリアントコール(false negative、FN)を、SNPとインデルとの両方についての非再較正のシステムのもの(例えば、標準ハッシュテーブル(hash table、HT)とグラフハッシュテーブルとの両方について生成されたもの)に対して描写する。示されるように、ベースコーラー再較正システム106は、SNPとインデルとの両方についての標準及びグラフハッシュテーブルについての最良のF1スコア測定点における全体的なFP+FN値を大幅に減少させる。実際に、ベースコーラー再較正システム106は、コール再較正機械学習モデルを利用することによって、偽陽性の数及び偽陰性の数を低減する。
【0144】
ここで
図9を参照すると、この図は、1つ以上の実施形態によるコール再較正機械学習モデルからのバリアントコール分類に基づいてヌクレオチドベースコールを生成する一連の動作900のフローチャートを示す。
図9は、一実施形態による動作を示すが、代替実施形態は、
図9に示される動作のいずれかを省略、追加、再配列、及び/又は修正してもよい。
図9の動作は、方法の一部として実行することができる。あるいは、非一時的コンピュータ可読記憶媒体は、1つ以上のプロセッサによって実行されると、コンピューティング装置に
図9に描写された動作を実行させる命令を含むことができる。更なる実施形態では、システムは、少なくとも1つのプロセッサと、1つ以上のプロセッサによって実行されると、システムに
図9の動作を実行させる命令を含む非一時的コンピュータ可読媒体と、を備える。
【0145】
図9に示されるように、動作900は、ヌクレオチドベースコールのための配列決定メトリックを決定する動作902を含む。特に、動作902は、試料ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することを伴う。例えば、動作902は、リードベースの配列決定メトリック、コールモデル生成の配列決定メトリック、又は外部ソースの配列決定メトリックのうちの1つ以上を決定することを伴う。いくつかの場合では、コールモデル生成の配列決定メトリックを決定することは、コール生成モデルからバリアントコーリング配列決定メトリック並びにマッピング及びアラインメント配列決定メトリックを決定することを伴う。ある特定の実施形態では、動作902は、ヌクレオチドベースコールのための他の配列決定メトリックから導出された再操作された配列決定メトリックを決定することを伴う。動作902はまた、試料ヌクレオチド配列のヌクレオチドリードから導出されたメトリックを含むリードベース配列決定メトリック、コール生成モデルを介して生成されたコールモデル生成の配列決定メトリック、又は1つ以上の外部データベースから識別された外部ソースの配列決定メトリック、のうちの1つ以上を決定することを含むことができる。
【0146】
加えて、一連の動作900は、配列決定メトリックに基づいてバリアントコール分類を生成する動作904を含む。特に、動作904は、コール再較正機械学習モデルを利用して、かつ配列決定メトリックに基づいて、ゲノム座標におけるバリアントを識別する精度を示す1つ以上のバリアントコール分類を生成することを伴う。いくつかの実施形態では、一連の動作900は、1つ以上のバリアントコール分類に基づいて、コール品質、遺伝子型、又は遺伝子型品質のうちの1つ以上のためのバリアントコールファイルに対応する1つ以上のデータフィールドを修正する動作を含む。いくつかの場合では、動作904は、偽陽性分類、遺伝子型エラー分類、又は真陽性分類のうちの1つ以上を生成することを伴う。動作904は、コール再較正機械学習モデルを利用して、ゲノム座標についての最終ヌクレオチドベースコールについての遺伝子型に対応する1つ以上の分類を生成することを伴うことができる。いくつかの場合では、コール再較正機械学習モデルは、ニューラルネットワーク、深層学習トランスフォーマ、勾配ブースト決定ツリー、ランダムフォレストモデル、線形回帰、サポートベクターマシン、又はロジスティック回帰のうちの1つ以上を含む。
【0147】
ある特定の実施形態では、動作904は、コール再較正機械学習モデルを利用して、バリアントコーリング配列決定メトリック並びにマッピング及びアラインメント配列決定メトリックに基づいて、1つ以上のバリアントコール分類を生成することを伴う。動作904は、機械学習分類器を利用して、バリアントコール若しくはヌクレオチドベースコールが偽陽性である偽陽性確率、バリアントコール若しくはヌクレオチドベースコールの遺伝子型が正しくない遺伝子型エラー確率、又はバリアントコール若しくはヌクレオチドベースコールが真陽性である真陽性確率のうちの1つ以上を生成することを含むことができる。動作904はまた、機械学習分類器を利用して、最終ヌクレオチドベースコールが偽陽性である偽陽性確率、最終ヌクレオチドベースコールについての遺伝子型が正しくない遺伝子型エラー確率、又は最終ヌクレオチドベースコールが真陽性である真陽性確率のうちの1つ以上を生成することを含むことができる。
【0148】
図9に更に図示されるように、一連の動作900は、バリアントコール分類に基づいて最終ヌクレオチドベースコールを決定する動作906を含む。特に、動作906は、1つ以上のバリアントコール分類に基づいて、ゲノム座標についての最終ヌクレオチドベースコールを決定することを伴う。例えば、動作906は、1つ以上の配列決定メトリックに基づいてコール生成モデルを利用してゲノム座標についての初期ヌクレオチドベースコールを決定することと、コール再較正機械学習モデルからの1つ以上のバリアントコール分類に基づいてバリアントコールファイル及び初期ヌクレオチドベースコールに対応する1つ以上のデータフィールドを修正することと、を含む。いくつかの場合では、動作906は、1つ以上のバリアントコール分類に基づいて、ゲノム座標についてのバリアントコールを生成することを伴う。いくつかの実施形態では、動作906は、ゲノム座標に対応する一塩基多型、欠失、挿入、又は構造的変異を含むバリアントコールの一部として最終ヌクレオチドベースコールを決定することを伴う。
【0149】
実際、動作906は、初期ヌクレオチドベースコールの遺伝子型を、更新されたヌクレオチドベースコールの更新された遺伝子型に変更することによって、ゲノム座標についての最終ヌクレオチドベースコールを決定することを伴うことができる。一連の動作900はまた、1つ以上のバリアントコール分類に基づいてバリアントコールのためのベースコール品質メトリックを更新する動作と、バリアントコールのためのベースコール品質メトリックが品質フィルタを通過すると判定する動作と、品質フィルタを通過するベースコール品質メトリックに基づいてバリアントコールを含むバリアントコールファイルを生成する動作と、を含むことができる。
【0150】
いくつかの実施形態では、一連の動作900は、1つ以上のバリアントコール分類に基づいて、ヌクレオチドベースコールのためのベースコール品質メトリックを増加させる動作を含む。これら又は他の実施形態では、一連の動作900は、増加させられたベースコール品質メトリックが品質フィルタを通過すると判定し、増加させられたベースコール品質メトリックに基づいて最終ヌクレオチドベースコールを含むバリアントコールファイルを生成する動作、又は代替的に、増加させられたベースコール品質メトリックに基づいて最終ヌクレオチドベースコールを含むようにバリアントコールファイルを更新する動作を含む。ある特定の場合では、一連の動作900は、1つ以上のバリアントコール分類に基づいて最終ヌクレオチドベースコールのためのベースコール品質メトリックを減少させる動作と、減少させられたベースコール品質メトリックが品質フィルタを通過しないと判定する動作と、品質フィルタを通過しない減少させられたベースコール品質メトリックに基づいて最終ヌクレオチドベースコールを除外するポストフィルタバリアントコールファイルを生成する動作、又は代替的に、減少させられたベースコール品質メトリックに基づいて最終ヌクレオチドベースコールを除外するようにバリアントコールファイルを更新する動作と、を含む。
【0151】
1つ以上の実装形態では、一連の動作900は、配列決定メトリックがバリアントコール、ヌクレオチドベースコール、又は最終ヌクレオチドベースコールに及ぼす影響のそれぞれの尺度を示す配列決定メトリックの寄与尺度を決定する動作と、クライアント装置上での表示のために、配列決定メトリックのうちの1つ以上に対応する寄与尺度の可視化を提供する動作と、を含む。
【0152】
本明細書に記載の方法は、様々な核酸配列決定技術と併せて使用することができる。特に適用可能な技術は、核酸を、それらの相対的位置が変化しないようにアレイ内の固定位置に付着させ、アレイが繰り返し撮像されるものである。例えば、1つのヌクレオチドベース型を別のヌクレオチドベース型と区別するために使用される異なる標識と一致する異なる色チャネルで画像が得られる実施形態は、特に適用可能である。いくつかの実施形態では、標的核酸のヌクレオチド配列を決定するプロセスは、自動化プロセスであり得る。好ましい実施形態は、合成による配列決定(sequencing-by-synthesis、SBS)技術を含む。
【0153】
SBS技術は、一般に、鋳型鎖に対するヌクレオチドの反復的付加による、新生核酸鎖の酵素的伸長を伴う。SBSの従来の方法では、単一のヌクレオチドモノマーが、各送達においてポリメラーゼの存在下で標的ヌクレオチドに提供され得る。しかしながら、本明細書に記載の方法では、送達中のポリメラーゼの存在下で、複数の種類のヌクレオチドモノマーを標的核酸に提供することができる。
【0154】
SBSは、ターミネーター部分を有するヌクレオチドモノマー、又は任意のターミネーター部分を欠くヌクレオチドモノマーを利用することができる。ターミネーターを欠くヌクレオチドモノマーを利用する方法としては、例えば、以下に更に詳細に記載されるように、γ-リン酸標識ヌクレオチドを使用するピロ配列決定及び配列決定が挙げられる。ターミネーターを含まないヌクレオチドモノマーを使用する方法では、各サイクルに添加されるヌクレオチドの数は、概ね可変であり、テンプレート配列及びヌクレオチド送達のモードに依存する。ターミネーター部分を有するヌクレオチドモノマーを利用するSBS技術では、ターミネーターは、ジデオキシヌクレオチドを利用する従来のサンガー配列決定の場合のように使用される配列決定条件下で有効に不可逆的であり得るか、又はターミネーターは、Solexa(現Illumina)によって開発された配列決定方法の場合のように可逆的であり得る。
【0155】
SBS技術は、標識部分を有するヌクレオチドモノマー、又は標識部分を欠くヌクレオチドモノマーを使用することができる。したがって、標識の蛍光などの標識の特性、分子量又は電荷などのヌクレオチドモノマーの特性、ピロリン酸の放出などのヌクレオチドの組み込みの副生成物などに基づいて、組み込みイベントを検出することができる。2つ以上の異なるヌクレオチドが配列決定試薬中に存在する実施形態では、異なるヌクレオチドは、互いに区別可能であり得るか、又は代替的に、2つ以上の異なる標識は、使用される検出技術の下で区別可能であり得る。例えば、配列決定試薬中に存在する異なるヌクレオチドは、異なる標識を有することができ、それらは、Solexa(現Illumina)によって開発された配列決定方法によって例示される適切な光学系を使用して区別することができる。
【0156】
好ましい実施形態としては、パイロシークエンシング(パイロ配列決定)技術が挙げられる。パイロ配列決定は、特定のヌクレオチドが新生鎖に組み込まれるときに無機ピロリン酸塩(PPi)の放出を検出する(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.and Nyren,P.(1996)「Real-time DNA sequencing using detection of pyrophosphate release.」Analytical Biochemistry 242(1),84-9、Ronaghi,M.(2001)「Pyrosequencing sheds light on DNA sequencing.」Genome Res.11(1),3-11、Ronaghi,M.、Uhlen,M.and Nyren,P.(1998)「A sequencing method based on real-time pyrophosphate.」Science 281(5375),363、米国特許第6,210,891号、米国特許第6,258,568号及び米国特許第6,274,320号、参照によりその開示の全体が本明細書に組み込まれる)。パイロ配列決定において、放出されたPPiは、ATPスルフラーゼによってアデノシン三リン酸(adenosine triphosphate、ATP)に即座に変換されることによって検出することができ、生成されたATPのレベルはルシフェラーゼで生成された光子を介して検出される。配列決定される核酸は、アレイ中の特徴部に付着させることができ、アレイは、アレイの特徴部にヌクレオチドを組み込むことにより生成される化学発光シグナルを捕捉するために画像化することができる。アレイを特定のヌクレオチド型(例えば、A、T、C、又はG)で処理した後に、画像を得ることができる。各ヌクレオチド型の添加後に得られる画像は、アレイ内のどの特徴部が検出されるかに関して異なる。画像内のこれらの差異は、アレイ上の特徴部の異なる配列コンテンツを反映する。しかしながら、各特徴部の相対的な位置は、画像内で変わらないままである。画像は、本明細書に記載の方法を使用して記憶、処理、及び分析することができる。例えば、アレイを各異なるヌクレオチド型で処理した後に得られる画像は、可逆的ターミネーターベースの配列決定方法についての異なる検出チャネルから得られる画像について、本明細書に例示されるものと同じ方法で処理することができる。
【0157】
別の例示的な種類のSBSでは、サイクル配列決定は、例えば、その開示が参照により組み込まれる、国際公開第04/018497号及び米国特許第7,057,026号に記載されているような切断可能な又は光漂白可能な色素標識を含む可逆的ターミネーターヌクレオチドを段階的に添加することによって達成される。この手法は、Solexa(現Illumina Inc.)によって商品化されており、国際公開第91/06678号及び同第07/123,744号にも記載されており、これらのそれぞれは、参照により本明細書に組み込まれる。終端の両方を逆転させることができ、蛍光標識が開裂された蛍光標識ターミネーターの可用性は、効率的な循環可逆的終端(cyclic reversible termination、CRT)配列決定を容易にする。ポリメラーゼはまた、これらの修飾されたヌクレオチドを効率的に組み込み、かつそこから伸長するように共操作することもできる。
【0158】
好ましくは、可逆的ターミネーターベースの配列決定実施形態では、標識は、SBS反応条件下での伸長を実質的に阻害しない。しかしながら、検出標識は、例えば、開裂又は分解によって除去可能であり得る。画像は、アレイ化された核酸特徴部への標識の組み込み後に撮影することができる。特定の実施形態では、各サイクルは、アレイへの4つの異なるヌクレオチド型の同時送達を伴い、各ヌクレオチド型は、スペクトル的に異なる標識を有する。次に、4つの異なる標識の1つに選択的な検出チャネルをそれぞれ使用して、4つの画像を得ることができる。代替的に、異なるヌクレオチド型を順次追加することができ、各追加ステップの間にアレイの画像を得ることができる。このような実施形態では、各画像は、特定の型のヌクレオチドを組み込んだ核酸特徴部を示す。各特徴部の配列コンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しない。しかしながら、特徴部の相対的な位置は、画像内で変わらないままである。このような可逆的ターミネーター-SBS法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。画像撮影ステップに続いて、標識を除去することができ、その後のヌクレオチド添加及び検出のサイクルについて可逆的ターミネーター部分を除去することができる。特定のサイクルで検出された後、及び後続のサイクルの前に標識を除去すると、サイクル間のバックグラウンド信号及びクロストークを低減できるという利点がある。有用な標識及び除去方法の例を以下に記載する。
【0159】
特定の実施形態では、ヌクレオチドモノマーの一部又は全ては、可逆的ターミネーターを含むことができる。このような実施形態では、可逆的ターミネーター/開裂可能なフルオロフォア(fluor)は、3’エステル結合を介してリボース部分に結合したフルオロフォアを含むことができる(Metzker,Genome Res.15:1767-1776(2005)、これは参照により本明細書に組み込まれる)。他の手法は、ターミネーターの化学を蛍光標識の切断から分離している(参照によりその全体が本明細書に組み込まれる、Ruparel et al.,Proc Natl Acad Sci USA 102:5932-7(2005))。Ruparelらは、少量の3’アリル基を使用して伸長をブロックするが、パラジウム触媒で短時間処理することにより容易に脱ブロックすることができる可逆性ターミネーターの開発について説明している。フルオロフォアは、長波長UV光への30秒の曝露によって容易に開裂することができる光開裂可能リンカーを介して基に付着された。したがって、ジスルフィド還元又は光開裂のいずれかを開裂可能なリンカーとして使用することができる。可逆的終端への別の手法は、dNTP上に嵩高な染料を配置した後に続く自然終端の使用である。dNTP上の帯電した嵩高な染料の存在は、立体障害及び/又は静電障害を介して効果的なターミネーターとして作用することができる。1つの組み込みイベントの存在は、染料が除去されない限り、それ以上の結合を防止する。染料の開裂は、フルオロフォアを除去し、終端を効果的に逆転させる。修飾ヌクレオチドの例はまた、米国特許第7,427,673号及び米国特許第7,057,026,号に記載されており、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0160】
本明細書に記載の方法及びシステムとともに利用することができる追加の例示的なSBSシステム及び方法は、米国特許出願公開第2007/0166705号、米国特許出願公開第2006/0188901号、米国特許第7,057,026号、米国特許出願公開第2006/0240439号、米国特許出願公開第2006/0281109号、国際公開第05/065814号、米国特許出願公開第2005/0100900号、国際公開第06/064199号、国際公開第07/010,251号、米国特許出願公開第2012/0270305号、及び米国特許出願公開第2013/0260372号に記載されており、これらの開示は、参照によりその全体が本明細書に組み込まれる。
【0161】
いくつかの実施形態は、4つ未満の異なる標識を使用する4つの異なるヌクレオチドの検出を利用することができる。例えば、SBSは、組み込まれた資料である米国特許出願公開第2013/0079232号に記載される方法及びシステムを使用して実施することができる。第1の例として、ヌクレオチド型の対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。第2の例として、4つの異なるヌクレオチド型のうちの3つを特定の条件下で検出することができ、一方、第4のヌクレオチド型は、それらの条件下で検出可能な標識がないか、又はそれらの条件下で最小限に検出される(例えば、バックグラウンド蛍光による最小限の検出など)。最初の3つのヌクレオチド型を核酸に組み込むことは、それらの対応するシグナルの存在に基づいて決定することができ、第4のヌクレオチド型を核酸に組み込むことは、任意のシグナルの不在又は最小限の検出に基づいて決定することができる。第3の例として、1つのヌクレオチド型は、2つの異なるチャネルで検出される標識を含むことができ、一方、他のヌクレオチド型は、チャネルのうちの1つ以下で検出される。前述の3つの例示的な構成は、相互に排他的であるとはみなされず、様々な組み合わせで使用することができる。3つ全ての例を組み合わせた例示的な実施形態は、第1のチャネルで検出される第1のヌクレオチド型(例えば、第1の励起波長によって励起されたときに第1のチャネルで検出される標識を有するdATP)、第2のチャネルで検出される第2のヌクレオチド型(例えば、第2の励起波長によって励起されたときに第2のチャネルで検出される標識を有するdCTP)、第1及び第2のチャネルの両方において検出される第3のヌクレオチド型(例えば、第1及び/又は第2の励起波長によって励起されたときに両方のチャネルで検出される少なくとも1つの標識を有するdTTP)、及びいずれのチャネルでも検出されないか、又は最小限に検出される標識を欠く第4のヌクレオチド型(例えば、標識のないdGTP)を使用する蛍光ベースのSBS法である。
【0162】
更に、組み込まれた資料である米国特許出願公開第2013/0079232号に記載のように、配列決定データは、単一のチャネルを使用して得ることができる。このようないわゆる1つの染料配列決定方法では、第1のヌクレオチド型は標識されるが、第1の画像が生成された後に標識が除去され、第2のヌクレオチド型は、第1の画像が生成された後にのみ標識される。第3のヌクレオチド型は、第1及び第2の画像の両方においてその標識を保持し、第4のヌクレオチド型は、両方の画像において標識されていないままである。
【0163】
いくつかの実施形態は、ライゲーション技術による配列決定を利用することができる。このような技術は、DNAリガーゼを利用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組み込みを識別する。オリゴヌクレオチドは、典型的には、オリゴヌクレオチドがハイブリダイズする配列中の特定のヌクレオチドの同一性と相関する異なる標識を有する。他のSBS法と同様に、標識された配列決定試薬で核酸配列のアレイを処理した後、画像を得ることができる。各画像は、特定の型の標識を組み込んだ核酸特徴部を示す。各特徴部の配列コンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しないが、特徴部の相対的な位置は、画像内で変わらないままである。ライゲーションベースの配列決定方法から得られる画像は、本明細書に記載されるように保存、処理、及び分析することができる。本明細書に記載の方法及びシステムとともに利用することができる例示的なSBSシステム及び方法は、米国特許第6,969,488号、米国特許第6,172,218号、及び米国特許第6,306,597号に記載されており、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0164】
いくつかの実施形態は、ナノ細孔配列決定を利用することができる(Deamer,D.W.& Akeson,M.「Nanopores and nucleic acids:prospects for ultrarapid sequencing.」Trends Biotechnol.18,147-151(2000)、Deamer,D.and D.Branton,「Characterization of nucleic acids by nanopore analysis」.Acc.Chem.Res.35:817-825(2002)、Li,J.,M.Gershow,D.Stein,E.Brandin,and J.A.Golovchenko,「DNA molecules and configurations in a solid-state nanopore microscope」Nat.Mater.2:611-615(2003)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。そのような実施形態では、標的核酸はナノ細孔を通過する。ナノ細孔は、α-ヘモリジンなどの合成孔又は生体膜タンパク質であり得る。標的核酸がナノ細孔を通過するとき、各塩基対は、細孔の電気コンダクタンスの変動を測定することによって識別することができる。(米国特許第7,001,792号、Soni,G.V.& Meller,「A.Progress toward ultrafast DNA sequencing using solid-state nanopores.」Clin.Chem.53,1996-2001(2007)、Healy,K.「Nanopore-based single-molecule DNA analysis.」Nanomed.2,459-481(2007)、Cockroft,S.L.,Chu,J.,Amorin,M.& Ghadiri,M.R.「A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution.」J.Am Chem.Soc.130,818-820(2008)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。ナノ細孔配列決定から得られるデータは、本明細書に記載されるように、保存、処理、及び分析することができる。具体的には、データは、本明細書に記載される光学画像及び他の画像の例示的な処理に従って、画像として処理することができる。
【0165】
いくつかの実施形態は、DNAポリメラーゼ活性のリアルタイムモニタリングを伴う方法を利用することができる。ヌクレオチドの組み込みは、例えば、各々が参照により本明細書に組み込まれる、米国特許第7,329,492号及び米国特許第7,211,414号に記載されているようなフルオロフォア含有ポリメラーゼとγ-ホスフェート標識ヌクレオチドとの間の蛍光共鳴エネルギー移動(fluorescence resonance energy transfer、FRET)相互作用を介して検出することができ、又はヌクレオチドの組み込みは、例えば、参照により本明細書に組み込まれる米国特許第7,315,019号に記載されているようなゼロモード導波路、並びに、例えば、各々が参照により本明細書に組み込まれる、米国特許第7,405,281号及び米国特許出願公開第2008/0108082号に記載されているような蛍光ヌクレオチド類似体及び操作ポリメラーゼを使用して検出することができる。照明は、蛍光標識されたヌクレオチドの組み込みが低バックグラウンドで観察され得るように、表面繋留ポリメラーゼの周囲のゼプトリットルスケールの体積に制限することができる(Levene,M.J.et al.「Zero-mode waveguides for single-molecule analysis at high concentrations.」Science,299,682-686(2003)、Lundquist,P.M.et al.「Parallel confocal detection of single molecules in real time.」Opt.Lett.33,1026-1028(2008)、Korlach,J.et al.「Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures.」Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。このような方法から得られる画像は、本明細書に記載されるように、記憶、処理、及び分析することができる。
【0166】
いくつかのSBS実施形態は、伸長産物へのヌクレオチドの組み込み時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づく配列決定は、Ion Torrent(Guilford,CT、Life Technologiesの子会社)から市販されている電気検出器及び関連技術、又は、米国特許出願公開第2009/0026082(A1)号、同第2009/0127589(A1)号、同第2010/0137143(A1)号、若しくは同第2010/0282617(A1)号に記載されている配列決定方法及びシステムであり、これらの各々は、参照により本明細書に組み込まれる。動力学的除外を使用して標的核酸を増幅するための本明細書に記載の方法は、プロトンを検出するために使用される基質に容易に適用することができる。より具体的には、本明細書に記載の方法を使用して、プロトンを検出するために使用されるアンプリコンのクローン集団を生成することができる。
【0167】
上記のSBS法は、複数の異な標的核酸が同時に操作されるように、多重形式で有利に実施することができる。特定の実施形態では、異なる標的核酸は、共通の反応容器又は特定の基質の表面上で処理することができる。これにより、配列決定試薬の簡便な送達、未反応試薬の除去、及び取り込み事象の検出が多重方式で可能になる。表面結合された標的核酸を使用する実施形態では、標的核酸は、アレイ形式であり得る。アレイ形式では、標的核酸は、典型的には、空間的に区別可能な方式で表面に結合され得る。標的核酸は、直接共有付着、ビーズ若しくは他の粒子への付着、又は表面に付着したポリメラーゼ若しくは他の分子への結合によって結合され得る。アレイは、各部位(特徴とも称される)における標的核酸の単一コピーを含むことができ、又は同じ配列を有する複数のコピーは、各部位若しくは特徴に存在することができる。複数のコピーは、以下で更に詳細に記載されるブリッジ増幅又はエマルジョンPCRなどの増幅方法によって生成することができる。
【0168】
本明細書に記載の方法は、例えば、少なくとも約10個の特徴部/cm2、100個の特徴部/cm2、500個の特徴部/cm2、1,000個の特徴部/cm2、5,000個の特徴部/cm2、10,000個の特徴部/cm2、50,000個の特徴部/cm2、100,000個の特徴部/cm2、1,000,000個の特徴部/cm2、5,000,000個の特徴部/cm2、又はそれ以上を含む、様々な密度のいずれかの特徴部を有するアレイを使用することができる。
【0169】
本明細書に記載の方法の利点は、複数の標的核酸の迅速かつ効率的な検出を並行して提供することである。したがって、本開示は、上記で例示されるものなどの当該技術分野において既知の技術を使用して核酸を調製及び検出することができる統合システムを提供する。したがって、本開示の統合システムは、増幅試薬及び/又は配列決定試薬を1つ以上の固定化されたDNAフラグメントに送達することができる流体成分を含むことができ、システムは、ポンプ、弁、リザーバ、流体ラインなどの構成要素を含む。フローセルは、標的核酸を検出するための統合システムで構成及び/又は使用することができる。例示的なフローセルは、例えば、米国特許出願公開第2010/0111768(A1)号及び米国特許出願第13/273,666号に記載され、これらの各々は、参照により本明細書に組み込まれる。フローセルについて例示されるように、統合システムの流体成分の1つ以上を増幅方法及び検出方法に使用することができる。核酸配列決定の実施形態を一例として取ると、統合システムの流体成分の1つ以上を、本明細書に記載の増幅方法、及び上記に例示したような配列決定方法における配列決定試薬の送達に使用することができる。代替的に、統合システムは、増幅方法を実施し、検出方法を実施するための別々の流体システムを含み得る。増幅された核酸を作成し、また核酸の配列を決定することができる統合配列決定システムの例としては、MiSeq(商標)プラットフォーム(Illumina Inc.、San Diego,CA)、及び参照により本明細書に組み込まれる、米国特許出願第13/273,666号に記載の装置が挙げられるが、これらに限定されない。
【0170】
上記の配列決定システムは、配列決定装置によって受け取られた試料中に存在する核酸ポリマーを配列決定する。本明細書で定義されるように、「試料」及びその誘導体は、最も広い意味で使用され、標的を含むことが疑われる任意の試料、培養物などを含む。いくつかの実施形態では、試料は、DNA、RNA、PNA、LNA、キメラ又はハイブリッド形態の核酸を含む。試料は、1以上の核酸を含有する任意の生物学的試料、臨床試料、外科試料、農業試料、大気試料又は水試料を含むことができる。この用語はまた、任意の単離された核酸試料、例えば、ゲノムDNA、新鮮凍結又はホルマリン固定パラフィン包埋核酸試料を含む。試料は、単一個体、遺伝的に関連するメンバーからの核酸試料のコレクション、遺伝的に関連しないメンバーからの核酸試料、腫瘍試料及び正常組織試料のような単一個体からの核酸試料(適合)、又は母体被験体から得られた母体及び胎児DNAのような遺伝物質の2つの異なる形態を含む単一供給源からの試料、又は植物又は動物DNAを含む試料中の混入細菌DNAの存在に由来し得ることも想定される。いくつかの実施形態では、核酸物質の供給源は、例えば新生児スクリーニングに典型的に使用されるような新生児から得られた核酸を含むことができる。
【0171】
核酸試料は、ゲノムDNA(genomic DNA、gDNA)などの高分子量物質を含むことができる。試料は、FFPE又は保管されたDNA試料から得られた核酸分子などの低分子量物質を含むことができる。別の実施形態では、低分子量物質は、酵素的又は機械的にフラグメント化されたDNAを含む。試料は、無細胞循環DNAを含むことができる。いくつかの実施形態では、試料は、生検、腫瘍、擦過物、スワブ、血液、粘液、尿、血漿、精液、毛髪、レーザ捕捉顕微解剖、外科的切除、及び他の臨床的又は実験室で得られた試料から得られた核酸分子を含むことができる。いくつかの実施形態では、試料は、疫学、農業、法医学又は病原性の試料であり得る。いくつかの実施形態では、試料は、ヒト又は哺乳動物源などの動物から得られた核酸分子を含むことができる。別の実施形態では、試料は、植物、細菌、ウイルス又は真菌などの非哺乳類源から得られた核酸分子を含むことができる。いくつかの実施形態では、核酸分子の供給源は、保存された又は絶滅した試料若しくは種であり得る。
【0172】
更に、本明細書中に開示される方法及び組成物は、法医学試料からの分解及び/又はフラグメント化されたゲノムDNAなどの低品質核酸分子を有する核酸試料を増幅するのに有用であり得る。一実施形態では、法医学試料は、犯罪現場から得られた核酸、行方不明者DNAデータベースから得られた核酸、法医学調査と関連した研究所から得られた核酸を含むことができ、又は法執行機関、1つ以上のミリタリーサービス若しくはそのような隊員によって得られた法医学試料を含むことができる。核酸試料は、例えば、口腔スワブ、紙、布、又は唾液、血液、若しくは他の体液で含浸され得る他の基質に由来する、精製された試料又は溶解物を含む粗DNAであり得る。したがって、いくつかの実施形態では、核酸試料は、ゲノムDNAなどの、少量のDNA又はフラグメント化されたDNAの部分を含むことができる。いくつかの実施形態では、標的配列は、限定されるものではないが、血液、痰、血漿、精液、尿及び血清を含む1つ以上の体液に存在し得る。いくつかの実施形態では、標的配列は、犠牲者の毛髪、皮膚、組織試料、剖検又は遺体から得ることができる。いくつかの実施形態では、1つ以上の標的配列を含む核酸は、死亡した動物又はヒトから得ることができる。いくつかの実施形態では、標的配列は、微生物、植物又は昆虫学的DNAなど非ヒトDNAから得られた核酸を含むことができる。いくつかの実施形態では、標的配列又は増幅された標的配列は、ヒト識別を目的とする。いくつかの実施形態では、本開示は、概して、法医学試料の特徴を識別するための方法に関する。いくつかの実施形態では、本開示は、概して、本明細書に開示された1つ以上の標的特異的プライマー、又は本明細書に概説されたプライマー設計基準を用いて設計された1以上の標的特異的プライマーを使用するヒト識別方法に関する。一実施形態では、少なくとも1つの標的配列を含む法医学試料又はヒト識別試料は、本明細書に開示された標的特異的プライマーのいずれか1つ以上を用いて、又は本明細書に概説されたプライマー基準を用いて増幅することができる。
【0173】
ベースコーラー再較正システム106の構成要素は、ソフトウェア、ハードウェア、又はその両方を含むことができる。例えば、ベースコーラー再較正システム106の構成要素は、コンピュータ可読記憶媒体上に記憶され、1つ以上のコンピューティング装置(例えば、クライアント装置108)のプロセッサによって実行可能な1つ以上の命令を含むことができる。1つ以上のプロセッサによって実行されると、ベースコーラー再較正システム106のコンピュータ実行可能命令は、コンピューティング装置に、本明細書で説明される泡検出方法を実行させることができる。あるいは、ベースコーラー再較正システム106の構成要素は、特定の機能又は機能群を実行するための専用処理装置などのハードウェアを含むことができる。加えて、又は代替として、ベースコーラー再較正システム106の構成要素は、コンピュータ実行可能命令及びハードウェアの組み合わせを含むことができる。
【0174】
更に、ベースコーラー再較正システム106に関して本明細書で説明される機能を実行するベースコーラー再較正システム106の構成要素は、例えば、スタンドアロンアプリケーションの一部として、アプリケーションのモジュールとして、アプリケーションのプラグインとして、他のアプリケーションによって呼び出され得るライブラリ関数(複数可)として、及び/又はクラウドコンピューティングモデルとして実装され得る。したがって、ベースコーラー再較正システム106の構成要素は、パーソナルコンピューティング装置又はモバイル装置上のスタンドアロンアプリケーションの一部として実装され得る。加えて、又は代替として、ベースコーラー再較正システム106の構成要素は、限定するものではないが、Illumina BaseSpace、Illumina DRAGEN、又はIllumina TruSightソフトウェアを含む、配列決定サービスを提供する任意のアプリケーションにおいて実装されてもよい。「Illumina」、「BaseSpace」、「DRAGEN」、及び「TruSight」は、米国及び/又は他の国におけるIllumina,Inc.の登録商標又は商標である。
【0175】
本開示の実施形態は、以下でより詳細に論じられるように、例えば、1つ以上のプロセッサ及びシステムメモリ等のコンピュータハードウェアを含む、専用又は汎用コンピュータを含み、又は利用してもよい。本開示の範囲内の実施形態はまた、コンピュータ実行可能命令及び/又はデータ構造を搬送又は記憶するための物理的及び他のコンピュータ可読媒体を含む。特に、本明細書で説明されるプロセスのうちの1つ以上は、非一時的コンピュータ可読媒体において具現化され、1つ以上のコンピューティング装置(例えば、本明細書で説明されるメディアコンテンツアクセス装置のうちのいずれか)によって実行可能な命令として少なくとも部分的に実装されてもよい。概して、プロセッサ(例えば、マイクロプロセッサ)は、非一時的コンピュータ可読媒体(例えば、メモリなど)から命令を受信し、それらの命令を実行し、それによって、本明細書で説明するプロセスのうちの1つ以上を含む、1つ以上のプロセスを実行する。
【0176】
コンピュータ可読媒体は、汎用コンピュータシステム又は専用コンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ実行可能命令を記憶するコンピュータ可読媒体は、非一時的コンピュータ可読記憶媒体(装置)である。コンピュータ実行可能命令を搬送するコンピュータ可読媒体は、伝送媒体である。したがって、限定ではなく例として、本開示の実施形態は、少なくとも2つの明確に異なる種類のコンピュータ可読媒体、すなわち非一時的コンピュータ可読記憶媒体(装置)及び伝送媒体を含むことができる。
【0177】
非一時的コンピュータ可読記憶媒体(装置)は、RAM、ROM、EEPROM、CD-ROM、(例えば、RAMに基づく)ソリッドステートドライブ(solid state drive、SSD)、フラッシュメモリ、相変化メモリ(phase-change memory、PCM)、他のタイプのメモリ、他の光ディスクストレージ、磁気ディスクストレージ若しくは他の磁気ストレージ装置、又はコンピュータ実行可能命令若しくはデータ構造の形態で所望のプログラムコード手段を記憶するために使用することができ、汎用若しくは専用コンピュータによってアクセスすることができる任意の他の媒体を含む。
【0178】
「ネットワーク」は、コンピュータシステム及び/又はモジュール及び/又は他の電子装置間の電子データの移送を可能にする1つ以上のデータリンクとして定義される。情報が、ネットワーク又は別の通信接続(ハードワイヤード、ワイヤレス、又はハードワイヤード若しくはワイヤレスの組み合わせのいずれか)を介してコンピュータに転送又は提供されるとき、コンピュータは、その接続を伝送媒体として適切に認識する。伝送媒体は、コンピュータ実行可能命令又はデータ構造の形態で所望のプログラムコード手段を搬送するために使用することができ、汎用又は専用コンピュータによってアクセスすることができるネットワーク及び/又はデータリンクを含むことができる。上記の組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。
【0179】
更に、様々なコンピュータシステム構成要素に到達すると、コンピュータ実行可能命令又はデータ構造の形態のプログラムコード手段は、伝送媒体から非一時的コンピュータ可読記憶媒体(装置)に(又はその逆に)自動的に転送され得る。例えば、ネットワーク又はデータリンクを介して受信されたコンピュータ実行可能命令又はデータ構造は、ネットワークインターフェースモジュール(例えば、NIC)内のRAMにバッファリングされ、次いで、最終的に、コンピュータシステムRAM及び/又はコンピュータシステムにおけるより揮発性の低いコンピュータ記憶媒体(装置)に転送され得る。したがって、非一時的コンピュータ可読記憶媒体(装置)は、伝送媒体も(又は更に主に)利用するコンピュータシステム構成要素に含まれ得ることを理解されたい。
【0180】
コンピュータ実行可能命令は、例えば、プロセッサで実行されると、汎用コンピュータ、専用コンピュータ、又は専用処理装置に、ある機能又は機能群を実行させる命令及びデータを含む。いくつかの実施形態では、コンピュータ実行可能命令は、汎用コンピュータ上で実行され、汎用コンピュータを、本開示の要素を実装する専用コンピュータに変える。コンピュータ実行可能命令は、例えば、バイナリ、アセンブリ言語などの中間フォーマット命令、又は更にソースコードであってもよい。主題は、構造的特徴及び/又は方法論的動作に特有の言語で説明されているが、添付の特許請求の範囲において定義される主題は、説明された特徴又は上述の動作に必ずしも限定されないことを理解されたい。むしろ、説明された特徴及び動作は、特許請求の範囲を実装する例示的な形態として開示される。
【0181】
当業者は、本開示が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベース又はプログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、PDA、タブレット、ページャ、ルータ、スイッチなどを含む、多くのタイプのコンピュータシステム構成を有するネットワークコンピューティング環境で実施され得ることを理解するであろう。本開示はまた、ネットワークを介して(ハードワイヤードデータリンク、ワイヤレスデータリンク、又はハードワイヤード及びワイヤレスデータリンクの組み合わせのいずれかによって)リンクされたローカル及びリモートコンピュータシステムが両方ともタスクを実行する分散システム環境において実施され得る。分散システム環境では、プログラムモジュールは、ローカルメモリストレージ装置及びリモートメモリストレージ装置の両方に位置することができる。
【0182】
本開示の実施形態は、クラウドコンピューティング環境において実装することもできる。本明細書では、「クラウドコンピューティング」は、構成可能なコンピューティングリソースの共有プールへのオンデマンドネットワークアクセスを可能にするためのモデルとして定義される。例えば、クラウドコンピューティングは、構成可能なコンピューティングリソースの共有プールへのユビキタスで便利なオンデマンドアクセスを提供するために、市場で使用され得る。構成可能なコンピューティングリソースの共有プールは、仮想化を介して迅速に設定され、低い管理労力又はサービスプロバイダ対話で公開され、次いで、それに応じて拡大縮小され得る。
【0183】
クラウドコンピューティングモデルは、例えば、オンデマンドセルフサービス、広域ネットワークアクセス、リソースプーリング、迅速な弾力性、測定されたサービス等の種々の特性から構成することができる。クラウドコンピューティングモデルはまた、例えば、Software as a Service(SaaS)、Platform as a Service(PaaS)、及びInfrastructure as a Service(IaaS)などの様々なサービスモデルを公開することができる。クラウドコンピューティングモデルは、プライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウドなどの異なる展開モデルを使用して展開することもできる。本明細書及び特許請求の範囲において、「クラウドコンピューティング環境」は、クラウドコンピューティングが採用される環境である。
【0184】
図10は、上述したプロセスのうちの1つ以上を実行するように構成され得るコンピューティング装置1000のブロック図を示す。コンピューティング装置1000などの1つ以上のコンピューティング装置が、ベースコーラー再較正システム106及び配列決定システム104を実装することができることが理解されよう。
図10によって示されるように、コンピューティング装置1000は、プロセッサ1002、メモリ1004、ストレージ装置1006、I/Oインターフェース1008、及び通信インターフェース1010を含むことができ、これらは、通信インフラストラクチャ1012によって通信可能に結合され得る。ある特定の実施形態では、コンピューティング装置1000は、
図10に示されるものよりも少ない又は多い構成要素を含むことができる。以下の段落は、
図10に示されるコンピューティング装置1000の構成要素を更に詳細に説明する。
【0185】
1つ以上の実施形態では、プロセッサ1002は、コンピュータプログラムを構成する命令などの命令を実行するためのハードウェアを含む。限定ではなく、例として、ワークフローを動的に修正するための命令を実行するために、プロセッサ1002は、内部レジスタ、内部キャッシュ、メモリ1004、又はストレージ装置1006から命令を取り出し(又はフェッチし)、それらを復号して実行することができる。メモリ1004は、データ、メタデータ、及びプロセッサによる実行のためのプログラムを記憶するために使用される揮発性又は不揮発性メモリであってもよい。ストレージ装置1006は、本明細書に記載の方法を実行するためのデータ又は命令を記憶するための、ハードディスク、フラッシュディスクドライブ、又は他のデジタルストレージ装置などのストレージを含む。
【0186】
I/Oインターフェース1008は、ユーザが、コンピューティング装置1000に入力を提供し、コンピューティング装置1000から出力を受信し、そうでなければコンピューティング装置1000にデータを転送し、コンピューティング装置1000からデータを受信することを可能にする。I/Oインターフェース1008は、マウス、キーパッド若しくはキーボード、タッチスクリーン、カメラ、光学スキャナ、ネットワークインターフェース、モデム、他の既知のI/O装置、又はかかるI/Oインターフェースの組み合わせを含むことができる。I/Oインターフェース1008は、限定はしないが、グラフィックスエンジン、ディスプレイ(例えば、ディスプレイスクリーン)、1つ以上の出力ドライバ(例えば、ディスプレイドライバ)、1つ以上のオーディオスピーカ、及び1つ以上のオーディオドライバを含む、ユーザに出力を提示するための1つ以上の装置を含むことができる。ある特定の実施形態では、I/Oインターフェース1008は、ユーザに提示するためにグラフィカルデータをディスプレイに提供するように構成される。グラフィカルデータは、1つ以上のグラフィカルユーザインターフェース及び/又は特定の実装に役立ち得る任意の他のグラフィカルコンテンツを表してもよい。
【0187】
通信インターフェース1010は、ハードウェア、ソフトウェア、又はその両方を含むことができる。いずれにしても、通信インターフェース1010は、コンピューティング装置1000と1つ以上の他のコンピューティング装置又はネットワークとの間の通信(例えば、パケットベースの通信など)のための1つ以上のインターフェースを提供することができる。限定ではなく例として、通信インターフェース1010は、Ethernet(イーサネット)(登録商標)若しくは他の有線ベースのネットワークと通信するためのネットワークインターフェースコントローラ(network interface controller、NIC)若しくはネットワークアダプタ、又はWI-FIなどのワイヤレスネットワークと通信するためのワイヤレスNIC(wireless NIC、WNIC)若しくはワイヤレスアダプタを含み得る。
【0188】
更に、通信インターフェース1010は、様々なタイプの有線又は無線ネットワークとの通信を容易にし得る。通信インターフェース1010はまた、様々な通信プロトコルを使用して、通信を容易にし得る。通信インフラストラクチャ1012はまた、コンピューティング装置1000の構成要素を互いに結合するハードウェア、ソフトウェア、又はその両方を含み得る。例えば、通信インターフェース1010は、1つ以上のネットワーク及び/又はプロトコルを使用して、特定のインフラストラクチャによって接続された複数のコンピューティング装置が互いに通信して、本明細書で説明するプロセスの1つ以上の態様を実行することを可能にし得る。例示すると、配列決定プロセスは、複数の装置(例えば、クライアント装置、配列決定装置、及びサーバ装置)が配列決定データ及びエラー通知などの情報を交換することを可能にすることができる。
【0189】
前述の明細書において、本開示は、その特定の例示的な実施形態を参照して説明された。本開示の様々な実施形態及び態様は、本明細書で論じられる詳細を参照して説明され、添付の図面は様々な実施形態を図示する。上記の説明及び図面は、本開示の例示であり、本開示を限定するものとして解釈されるべきではない。本開示の様々な実施形態の完全な理解を提供するために、多数の特定の詳細が説明される。
【0190】
本開示は、その趣旨又は本質的な特徴から逸脱することなく、その他の特定の形態で具現化されてもよい。記載された実施形態は、全ての点において、例示的なものに過ぎず、限定的ではないとみなされるべきである。例えば、本明細書で説明される方法は、より少ない又はより多いステップ/動作を用いて行われてもよく、又はステップ/動作は、異なる順序で行われてもよい。更に、本明細書で説明されるステップ/動作は、互いに並行して、又は同じ若しくは同様の動作の異なる出現と並行して、繰り返されるか、又は実行され得る。したがって、本願の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示される。特許請求の範囲の意味及び均等範囲内に含まれる全ての変更は、それらの範囲内に包含されるものである。
【符号の説明】
【0191】
100 環境
102 サーバ装置
102 Proc Natl Acad Sci USA
104 配列決定システム
106 塩基対コーラー再較正システム
108 クライアント装置
110 配列決定アプリケーション
112 ネットワーク
114 配列決定装置
116 データベース
302 ヌクレオチドリード
304 マッピング
306 配列決定メトリック
308 配列データ
310 コール生成モデル
312 配列決定メトリック
314 配列決定情報データベース
316 配列決定メトリック
402 配列決定情報データベース
403 参照配列
404 配列データ
406 アラインメントコンポーネント
408 バリアントコーラーコンポーネント
410 配列決定メトリック抽出
412 コール再較正機械学習モデル
414 バリアントコール分類
416 データフィールド生成
418 バリアントコールファイル
420 コール生成モデル
502 データベース
504 試料配列決定メトリック
506 コール再較正機械学習モデル
508 予測バリアントコール分類
510 バリアントコールファイル
512 比較
514 損失関数
516 グラウンドトゥルースバリアントコールファイル
518 モデルフィッティング
602 寄与尺度インターフェース
702 グラフ
706 グラフ
802 グラフ
1000 コンピューティング装置
1002 プロセッサ
1004 メモリ
1006 ストレージ装置
1008 I/Oインターフェース
1010 通信インターフェース
1012 通信インフラストラクチャ
【手続補正書】
【提出日】2024-02-19
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
システムであって、
少なくとも1つのプロセッサと、
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
試料ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記配列決定メトリックに基づいて、前記ゲノム座標におけるバリアントを識別する精度を示す1つ以上のバリアントコール分類を生成することと、
前記1つ以上のバリアントコール分類に基づいて、前記ゲノム座標についての最終ヌクレオチドベースコールを決定することと、を行わせる命令を含む、非一時的コンピュータ可読媒体と、を備える、システム。
【請求項2】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記1つ以上のバリアントコール分類に基づいて、前記最終ヌクレオチドベースコールのためのベースコール品質メトリックを増加させることと、
増加させられた前記ベースコール品質メトリックが品質フィルタを通過すると判定することと、
増加させられた前記ベースコール品質メトリックに基づいて、前記最終ヌクレオチドベースコールを含むバリアントコールファイルを生成することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記1つ以上のバリアントコール分類に基づいて、前記最終ヌクレオチドベースコールのためのベースコール品質メトリックを減少させることと、
減少させられた前記ベースコール品質メトリックが品質フィルタを通過しないと判定することと、
減少させられた前記ベースコール品質メトリックが前記品質フィルタを通過しないことに基づいて、前記最終ヌクレオチドベースコールを除外するフィルタ後バリアントコールファイルを生成することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項4】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
1つ以上の配列決定メトリックに基づいてコール生成モデルを利用して、前記ゲノム座標についての初期ヌクレオチドベースコールを決定することと、
前記コール再較正機械学習モデルからの前記1つ以上のバリアントコール分類に基づいて、バリアントコールファイル及び前記初期ヌクレオチドベースコールに対応する1つ以上のデータフィールドを修正することと、によって、前記ゲノム座標についての前記最終ヌクレオチドベースコールを決定すること、を行わせる命令を更に含む、請求項1~3のいずれか一項に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記1つ以上のバリアントコール分類に基づいて、コール品質、遺伝子型、又は遺伝子型品質のうちの1つ以上のためのバリアントコールファイルに対応する1つ以上のデータフィールドを修正すること、を行わせる命令を更に含む、請求項1~4のいずれか一項に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、リードベースの配列決定メトリック、コールモデル生成の配列決定メトリック、又は外部ソースの配列決定メトリックのうちの1つ以上を決定することによって、前記ヌクレオチドベースコールのための前記配列決定メトリックを決定すること、を行わせる命令を更に含む、請求項1~5のいずれか一項に記載のシステム。
【請求項7】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、コール生成モデルからバリアントコーラー配列決定メトリック並びにマッピング及びアラインメント配列決定メトリックを決定することによって、前記コールモデル生成の配列決定メトリックを決定すること、を行わせる命令を更に含む、請求項6に記載のシステム。
【請求項8】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記ヌクレオチドベースコールのための他の配列決定メトリックから導出される再操作された配列決定メトリックを決定することによって、前記ヌクレオチドベースコールのための前記配列決定メトリックを決定すること、を行わせる命令を更に含む、請求項1~7のいずれか一項に記載のシステム。
【請求項9】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、偽陽性分類、遺伝子型エラー分類、又は真陽性分類のうちの1つ以上を生成することによって、前記1つ以上のバリアントコール分類を生成すること、を行わせる命令を更に含む、請求項1~8のいずれか一項に記載のシステム。
【請求項10】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記配列決定メトリックが前記最終ヌクレオチドベースコールに与える影響のそれぞれの尺度を示す、前記配列決定メトリックについての寄与尺度を決定することと、
クライアント装置上での表示のために、前記配列決定メトリックのうちの1つ以上に対応する前記寄与尺度の視覚化を提供することと、を行わせる命令を更に含む、請求項1~9のいずれか一項に記載のシステム。
【請求項11】
少なくとも1つのプロセッサによって実行されると、コンピューティング装置に、
試料ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記配列決定メトリックに基づいて、前記ゲノム座標におけるバリアントを識別する精度を示す1つ以上のバリアントコール分類を生成することと、
前記1つ以上のバリアントコール分類に基づいて、前記ゲノム座標についての最終ヌクレオチドベースコールを決定することと、を行わせる命令を含む、非一時的コンピュータ可読媒体。
【請求項12】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記ゲノム座標に対応する一塩基多型、欠失、又は挿入を含むバリアントコールの一部として前記最終ヌクレオチドベースコールを決定すること、を行わせる命令を更に含む、請求項11に記載の非一時的コンピュータ可読媒体。
【請求項13】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、初期ヌクレオチドベースコールの遺伝子型を更新されたヌクレオチドベースコールの更新された遺伝子型に変更することによって、前記ゲノム座標についての前記最終ヌクレオチドベースコールを決定すること、を行わせる命令を更に含む、請求項11又は12に記載の非一時的コンピュータ可読媒体。
【請求項14】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記コール再較正機械学習モデルを利用して、前記ゲノム座標についての前記最終ヌクレオチドベースコールの遺伝子型に対応する1つ以上の分類を生成することによって、前記1つ以上のバリアントコール分類を生成すること、を行わせる命令を更に含む、請求項11~13のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項15】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
コール生成モデルからバリアントコーラー配列決定メトリック並びにマッピング及びアラインメント配列決定メトリックを決定することによって、前記配列決定メトリックを決定することと、
前記コール再較正機械学習モデルを利用して、前記バリアントコーラー配列決定メトリック並びに前記マッピング及びアラインメント配列決定メトリックに基づいて、前記1つ以上のバリアントコール分類を生成することと、を行わせる命令を更に含む、請求項11~14のいずれか一項に記載の非一時的コンピュータ可読媒体。
【請求項16】
コンピュータ実装方法であって、
試料ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記配列決定メトリックに基づいて、前記ゲノム座標におけるバリアントを識別する精度を示す1つ以上のバリアントコール分類を生成することと、
前記1つ以上のバリアントコール分類に基づいて、前記ゲノム座標についてのバリアントコールを決定することと、を含む、コンピュータ実装方法。
【請求項17】
前記1つ以上のバリアントコール分類に基づいて、前記バリアントコールのためのベースコール品質メトリックを更新することと、
前記バリアントコールのための前記ベースコール品質メトリックが品質フィルタを通過すると判定することと、
前記ベースコール品質メトリックが前記品質フィルタを通過することに基づいて、前記バリアントコールを含むバリアントコールファイルを生成することと、を更に含む、請求項16に記載のコンピュータ実装方法。
【請求項18】
前記1つ以上のバリアントコール分類を生成することが、機械学習分類器を利用して、
前記バリアントコールが偽陽性である偽陽性確率、
前記バリアントコールの遺伝子型が正しくない遺伝子型エラー確率、又は
前記バリアントコールが真陽性である真陽性確率、のうちの1つ以上を生成すること、を含む、請求項16又は17に記載のコンピュータ実装方法。
【請求項19】
前記配列決定メトリックを決定することが、前記試料ヌクレオチド配列の前記ヌクレオチドリードから導出されたメトリックを含むリードベース配列決定メトリック、コール生成モデルを介して生成されたコールモデル生成の配列決定メトリック、又は1つ以上の外部データベースから識別された外部ソースの配列決定メトリック、のうちの1つ以上を決定することを含む、請求項16~18のいずれか一項に記載のコンピュータ実装方法。
【請求項20】
前記コール再較正機械学習モデルが、ニューラルネットワーク、深層学習トランスフォーマ、勾配ブースト決定ツリー、ランダムフォレストモデル、サポートベクターマシン、線形回帰、又はロジスティック回帰のうちの1つ以上を含む、請求項16~19のいずれか一項に記載のコンピュータ実装方法。
【国際調査報告】