IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ イルミナ インコーポレイテッドの特許一覧

特表2025-502584標的バリアントに対応するヌクレオチドベースコールを再較正するための機械学習モデル
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2025-01-28
(54)【発明の名称】標的バリアントに対応するヌクレオチドベースコールを再較正するための機械学習モデル
(51)【国際特許分類】
   G16B 30/00 20190101AFI20250121BHJP
   G16B 40/00 20190101ALI20250121BHJP
【FI】
G16B30/00
G16B40/00
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2023579835
(86)(22)【出願日】2022-12-23
(85)【翻訳文提出日】2023-12-26
(86)【国際出願番号】 US2022082364
(87)【国際公開番号】W WO2023129896
(87)【国際公開日】2023-07-06
(31)【優先権主張番号】17/563,934
(32)【優先日】2021-12-28
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【弁理士】
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【弁理士】
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【弁理士】
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ギャヴィン・パーナビー
(57)【要約】
本開示は、機械学習モデルを利用して、コール生成モデルのヌクレオチドベースコール(例えば、バリアントコール)を再較正することができる方法、非一時的コンピュータ可読媒体、及びシステムを説明する。例えば、開示されるシステムは、コール再較正機械学習モデルを訓練及び利用して、試料ヌクレオチド配列に関連付けられた配列決定メトリックに基づいて、予測バリアントコール分類のセットを生成することができる。バリアントコール分類のセットを活用して、開示されるシステムは、ゲノム座標、例えば、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及びホモ接合参照遺伝子型を示すように(コール生成モデルによって)示されたゲノム座標に対応するヌクレオチドベースコール(例えば、バリアントコール)を更に更新又は修正することができる。
【特許請求の範囲】
【請求項1】
システムであって、
少なくとも1つのプロセッサと、
非一時的コンピュータ可読媒体であって、前記少なくとも1つのプロセッサによって実行されると、前記システムに、
試料ヌクレオチド配列の複対立遺伝子ゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記配列決定メトリックに基づいて、前記複対立遺伝子ゲノム座標でのホモ接合参照遺伝子型の参照確率、前記複対立遺伝子ゲノム座標での遺伝子型エラーの異なる遺伝子型確率、及び前記複対立遺伝子ゲノム座標での正確なバリアントコール遺伝子型の正確なバリアント確率を含む、バリアントコール分類のセットを生成することと、
前記バリアントコール分類のセットに基づいて、前記複対立遺伝子ゲノム座標についての最終ヌクレオチドベースコールを決定することと、を行わせる命令を含む、非一時的コンピュータ可読媒体と、を含む、システム。
【請求項2】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記バリアントコール分類のセットに基づいて、ベースコール品質メトリック又は遺伝子型品質メトリックを修正することと、
前記修正されたベースコール品質メトリック又は前記修正された遺伝子型品質メトリックを含む、バリアントコールファイルを生成することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項3】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、
前記複対立遺伝子ゲノム座標での対立遺伝子の候補ヌクレオチドベースコールについて更新された遺伝子型尤度を生成することと、
前記更新された遺伝子型尤度を含む、バリアントコールファイルを生成することと、を行わせる命令を更に含む、請求項1に記載のシステム。
【請求項4】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記複対立遺伝子ゲノム座標での3つ以上の候補対立遺伝子から2つのヌクレオチドベースを予測することによって、前記複対立遺伝子ゲノム座標についての前記最終ヌクレオチドベースコールを決定することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項5】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記複対立遺伝子ゲノム座標での遺伝子型が参照ゲノムに関してホモ接合遺伝子型である確率を決定することによって、前記参照確率を生成することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項6】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記複対立遺伝子ゲノム座標についての予測された遺伝子型が不正確な遺伝子型又は前記予測された遺伝子型における不正確な対立遺伝子である確率を決定することによって、前記異なる遺伝子型確率を生成することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項7】
前記少なくとも1つのプロセッサによって実行されると、前記システムに、前記複対立遺伝子ゲノム座標についての予測された遺伝子型がコール生成モデルによって最初に決定されるように正確である確率を決定することによって、前記正確なバリアント確率を生成することを行わせる命令を更に含む、請求項1に記載のシステム。
【請求項8】
コンピュータ実装方法であって、
試料からの一倍体ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記配列決定メトリックに基づいて、前記ゲノム座標での第1の遺伝子型の第1の遺伝子型確率及び前記ゲノム座標での第2の遺伝子型の第2の遺伝子型確率を生成することと、
前記第1の遺伝子型確率及び前記第2の遺伝子型確率に基づいて、前記ゲノム座標についての一倍体遺伝子型を示す最終ヌクレオチドベースコールを決定することと、を含む、コンピュータ実装方法。
【請求項9】
前記第1の遺伝子型確率を生成することが、前記コール再較正機械学習モデルの層を利用して、前記ゲノム座標でのホモ接合参照遺伝子型のホモ接合参照確率を修正して、前記ゲノム座標での参照遺伝子型の一倍体参照確率を生成することを含み、
前記第2の遺伝子型確率を生成することが、前記コール再較正機械学習モデルの前記層を利用して、前記ゲノム座標でのホモ接合代替遺伝子型のホモ接合代替確率を修正して、前記ゲノム座標での代替遺伝子型の一倍体代替確率を生成することを含む、請求項8に記載のコンピュータ実装方法。
【請求項10】
前記第1の遺伝子型確率及び前記第2の遺伝子型確率を生成することが、
前記コール再較正機械学習モデルの1つ以上の層を利用して、前記ゲノム座標について、第1の遺伝子型に対応する第1の信頼スコア、第2の遺伝子型に対応する第2の信頼スコア、及び第3の遺伝子型に対応する第3の信頼スコアを生成することと、
前記第2の遺伝子型に対応する前記第2の信頼スコアを除外することと、
ソフトマックスモデルを利用して前記第1の信頼スコア及び前記第3の信頼スコアを正規化して、前記第1の遺伝子型確率及び前記第2の遺伝子型確率を生成することと、を含む、請求項8に記載のコンピュータ実装方法。
【請求項11】
前記ゲノム座標について前記一倍体遺伝子型を示す前記最終ヌクレオチドベースコールを決定することが、
前記第2の遺伝子型確率が前記第1の遺伝子型確率を超えると判定することに基づいて、前記ゲノム座標についての一倍体代替遺伝子型、修正されたベースコール品質メトリック、修正された遺伝子型メトリック、及び修正された遺伝子型品質メトリック、又は
前記第1の遺伝子型確率が前記第2の遺伝子型確率を超えると判定することに基づいて、前記ゲノム座標についての一倍体参照遺伝子型、修正されたベースコール品質メトリック、及び修正された遺伝子型品質メトリックのうちの1つを決定することを含む、請求項8に記載のコンピュータ実装方法。
【請求項12】
コール生成モデルによって生成された一倍体参照遺伝子型コールを、前記コール再較正機械学習モデルのための入力として、二倍体ホモ接合参照遺伝子型コールに変換するか、又は
前記コール生成モデルによって生成された一倍体代替遺伝子型コールを、前記コール再較正機械学習モデルのための入力として、二倍体ホモ接合代替遺伝子型コールに変換することと、
前記コール再較正機械学習モデルを利用して、前記二倍体ホモ接合参照遺伝子型コール又は前記二倍体ホモ接合代替遺伝子型コールに更に基づいて、前記第1の遺伝子型確率及び前記第2の遺伝子型確率を生成することと、
を更に含む、請求項8に記載のコンピュータ実装方法。
【請求項13】
二倍体配列決定メトリックをダウンサンプリングして、
前記試料から二倍体ヌクレオチドリードのサブセットを選択して、一倍体ヌクレオチドリードをシミュレートすることと、
前記二倍体ヌクレオチドリードのサブセットのヌクレオチドベースコールに基づいて、コール生成モデルによって示されるように、又はグラウンドトゥルースベースコールデータセットによって示されるように、ホモ接合参照遺伝子型又はホモ接合代替遺伝子型を示すゲノム座標のサブセットを選択することと、によって、前記一倍体ヌクレオチド配列に対応する一倍体配列決定メトリックをシミュレートすることを更に含む、請求項8に記載のコンピュータ実装方法。
【請求項14】
前記第1の遺伝子型確率を生成することが、前記ゲノム座標での前記第1の遺伝子型が一倍体参照遺伝子型である確率を生成することを含み、
前記第2の遺伝子型確率を生成することが、前記ゲノム座標での前記第2の遺伝子型が一倍体代替遺伝子型である確率を生成すること、
を含む、請求項8に記載のコンピュータ実装方法。
【請求項15】
非一時的コンピュータ可読媒体であって、少なくとも1つのプロセッサによって実行されると、コンピューティング装置に、
1つ以上のヌクレオチドリードについて、試料ヌクレオチド配列のゲノム座標でのホモ接合参照遺伝子型を示す1つ以上のヌクレオチドベースコールを決定することと、
前記ゲノム座標に対応する前記1つ以上のヌクレオチドベースコールのための配列決定メトリックを決定することと、
コール再較正機械学習モデルを利用して、かつ前記1つ以上のヌクレオチドベースコールからの前記配列決定メトリックに基づいて、前記ゲノム座標でのバリアントを同定する精度を示す1つ以上のバリアントコール分類を生成することと、
前記1つ以上のバリアントコール分類に基づいて、前記ゲノム座標についてのバリアントコールを決定することと、を行わせる命令を含む、非一時的コンピュータ可読媒体。
【請求項16】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
コール生成モデルから、前記ゲノム座標での前記ホモ接合参照遺伝子型の指標を受信することと、
前記1つ以上のバリアントコール分類に基づいて、前記ホモ接合参照遺伝子型を異なる遺伝子型に修正することによって、前記ゲノム座標についての前記バリアントコールを決定することと、を行わせる命令を更に含む、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項17】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、ホモ接合参照遺伝子型を有するとして示される前記ゲノム座標についての、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、又はコールモデル生成の配列決定メトリックのうちの1つ以上を決定することによって、前記配列決定メトリックを決定することを行わせる命令を更に含む、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項18】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、
前記ゲノム座標での前記試料ヌクレオチド配列についてのコール生成モデルから以前のホモ接合参照遺伝子型コールを同定することと、
前記ゲノム座標での前記試料ヌクレオチド配列についてのグラウンドトゥルースベースコールを同定することと、
前記ゲノム座標についての前記バリアントコールと前記ゲノム座標についての前記グラウンドトゥルースベースコールとの比較に基づいて、前記コール再較正機械学習モデルを修正することと、を行わせる命令を更に含む、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項19】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記ゲノム座標について、
ホモ接合代替分類が前記1つ以上のバリアントコール分類の中から最も高い確率を有すると判定することに基づくホモ接合代替遺伝子型、
ヘテロ接合遺伝子型分類が前記1つ以上のバリアントコール分類の中から最も高い確率を有すると判定することに基づくヘテロ接合遺伝子型、又は
前記ホモ接合代替分類も前記ヘテロ接合遺伝子型分類も、前記1つ以上のバリアントコール分類の中から最も高い確率を有しないと判定することに基づくホモ接合参照遺伝子型のうちの1つを決定することを行わせる命令を更に含む、請求項15に記載の非一時的コンピュータ可読媒体。
【請求項20】
前記少なくとも1つのプロセッサによって実行されると、前記コンピューティング装置に、前記1つ以上のバリアントコール分類に基づいて、バリアントコールファイルに対応するコール品質フィールド、遺伝子型フィールド、又は遺伝子型品質フィールドのうちの1つ以上を更新することを行わせる命令を更に含む、請求項15に記載の非一時的コンピュータ可読媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年12月28日に出願された「MACHINE-LEARNING MODEL FOR RECALIBRATING NUCLEOTIDE BASE CALLS CORRESPONDING TO TARGET VARIANTS」と題する米国特許出願第17/563,934号の利益及び優先権を主張し、その内容は、参照によりその全体が本明細書に組み込まれる。
【背景技術】
【0002】
近年、バイオテクノロジー企業及び研究機関は、ヌクレオチドを配列決定し、ゲノム試料についてヌクレオチドベースコール(nucleotide base call)(例えば、バリアントコール)を決定するためのハードウェア及びソフトウェアを改善してきた。例えば、いくつかの既存のヌクレオチドベース配列決定プラットフォームは、従来のサンガー配列決定を使用することによって、又は合成による配列決定(sequencing-by-synthesis、SBS)法を使用することによって、配列内の個々のヌクレオチドベースを決定する。SBSを使用する場合、既存のプラットフォームは、より大きなベースコールデータセットからヌクレオチドベースコールを予測するために、並行して合成される何千もの核酸ポリマーをモニタリングすることができる。例えば、多くのSBSプラットフォームにおけるカメラは、ヌクレオチドベースコールを決定するためにオリゴヌクレオチドに組み込まれた照射された蛍光タグの画像を捕捉する。そのような画像を捕捉した後、既存のSBSプラットフォームは、ベースコールデータ(又は画像データ)をコンピューティング装置に送信して、核酸ポリマーのヌクレオチドベース配列を決定する配列決定データ分析ソフトウェアを適用する。ある特定の場合において、いくつかの従来のシステムは、バリアントコーラーを更に利用して、バリアント、例えば、一塩基多型(single nucleotide polymorphism、SNP)、挿入若しくは欠失(インデル)、又は試料の核酸配列内の他のバリアントを同定する。
【0003】
配列決定及びバリアントコーリングにおけるこれらの最近の進歩にもかかわらず、既存のヌクレオチドベース配列決定プラットフォーム及び配列決定データ分析ソフトウェア(合わせて、以下、既存の配列決定システム)には、ヌクレオチドベースコール(及び/又は対応するバリアントコール)を不正確に決定するバリアントコーラーが含まれることが多い。例えば、既存の配列決定システムは、複対立遺伝子ゲノム座標のヌクレオチドベースコールを不正確に決定するか、又は決定することができない。実際、二対立遺伝子領域よりも困難である複対立遺伝子領域などのヌクレオチド配列の領域について、いくつかの既存のシステムは、対立遺伝子が所与のゲノム座標をカバーするか又はそれに対応する場合、遺伝子型を正確に決定するのに苦労する(又は決定することができない)。例えば、いくつかの機械学習ベースの配列決定システムは、訓練データが主に二対立遺伝子データであるため、複対立遺伝子座標について遺伝子型を決定するのに苦労する。したがって、パイルアップ又は大きな挿入の場合、既存の配列決定システムは、所与のゲノム座標での複数の可能な対立遺伝子からヌクレオチドベースコール及び/又は遺伝子型を正確に決定することができないことが多い。
【0004】
加えて、既存の配列決定システムは、ゲノム試料又は他のヌクレオチド配列内の一倍体ゲノム座標についてのヌクレオチドベースコール(例えば、バリアントコール)を不正確に決定する。例えば、多くの既存の配列決定システムは、性染色体内のヌクレオチドベースコールを不正確に決定し、これは、多くの場合、良好な一倍体訓練データの希薄性又は完全な欠如に起因する。特に、既存の配列決定システムは、多くの場合、未修飾二倍体データから排他的にヌクレオチドベースコールを決定するためのパラメータを学習し(例えば、PrecisionFDA Truth ChallengeからのPrecisionFDAトゥルースデータ、https://precision.fda.gov/challenges/truthに記載)、二倍体座標以外の座標のヌクレオチドベース又は遺伝子型を同定するためのモデル又は訓練を欠いている。結果として、これらの既存の配列決定システムの多くは、一倍体ゲノム座標についてのヌクレオチドベースコール又はバリアントコールを正確に決定することができない。
【0005】
更に、いくつかの状況では、既存の配列決定システムは、過剰な数の偽陰性バリアントコールを不正確に同定するバリアントコーラーを適用する。例えば、既存の配列決定システムは、実際に座標がバリアントを含む場合、ゲノム座標がホモ接合参照遺伝子型を示す(したがって、バリアントを含まない)と判定することがある。実際、既存のバリアントコーラーは、一定レベルの精度を達成しているが、それらの制限により、偽陰性バリアントコールの回復にはまだ改善の余地が残されている。そのような不正確さのインパクトを例示すると、ヘモグロビンβ(hemoglobin beta、HBB)遺伝子における特定の一塩基多型(SNP)を同定するバリアントコールは、重要な意味を有し得る。例えば、バリアントコーラーが第11染色体上のrs344でSNPを同定する場合、バリアントコーラーは、鎌状赤血球貧血の遺伝的原因を正確に同定するか、又は疾患の原因を見落とすことができる。更なる例として、ヘモグロビンサブユニットα1(hemoglobin subunit alpha 1、HbA1)又はヘモグロビンサブユニットα2(hemoglobin subunit alpha 2、HbA2)遺伝子の1つ以上のコピーの欠失を正確又は不正確に同定するバリアントコールは、遺伝した血液疾患の遺伝的原因を正確に同定するか、又は遺伝子欠失を完全に見逃すかのいずれかをもたらし得る。
【0006】
前述の不正確さに対する寄与因子として、多くの既存の配列決定システムは、ヌクレオチドベースコールを決定する際に限られたセットのデータのみを活用する。例えば、既存の配列決定システムは、ヌクレオチドベースコールを決定するために、リード深度、ミスマッチ数、配列アラインメントスコア、及びマッピング品質などの、試料配列のヌクレオチドリードから直接抽出された情報に排他的に依存することが多い。ヌクレオチドリードからの配列情報は、ヌクレオチドベースコールを決定するための貴重な洞察を提供することができるが、これらのデータのみに依存する既存の配列決定システムは、ヌクレオチドベースコールを決定する場合、性能が低下する可能性がある。実際、生の配列データに依存するいくつかの既存の配列決定システムは、より複雑なモデルと比較して、ゲノム試料配列中のSNP、インデル、又は他のバリアントを不正確に決定する。実際、既存の配列決定システムは、米国食品医薬品局(U.S.Food and Drug Administration、FDA)のTruth Challengesにおいて偽陰性バリアント又は偽陽性バリアントを同定することが多く、信頼できる一倍体データは、バリアントコーラーを試験又は訓練するために取得することが困難であることが多い。
【0007】
バリアントコールを不正確に決定することに加えて、いくつかの既存の配列決定システムはまた、過度に複雑なモデルを用いて計算リソースを非効率的に費やす。具体的には、いくつかの既存の配列決定システムのバリアントコーラーは、計算コストが高く、遅い。実際、いくつかの既存の配列決定システムは、訓練及び適用するために大規模な計算リソース(例えば、計算時間、処理能力、及びメモリ)を必要とする深層学習アーキテクチャ又は何らかの他のニューラルネットワークアーキテクチャを有するバリアントコーラーを利用する。例えば、いくつかの既存の配列決定システムは、訓練後であっても、単一の試料配列に対するヌクレオチドベースコールを生成するために複数のコンピューティング装置にわたって多くの時間を要する深層学習アーキテクチャを利用する。
【0008】
複雑なネットワークを有する既存の配列決定システムの更なる欠点として、多くのそのようなシステムは、配列データを解釈不可能にするモデルアーキテクチャを利用する。より具体的には、いくつかの既存のディープニューラルネットワークは、バリアントコールを生成するための基礎として、様々な層及びニューロンにわたって1つのベクトルから別のベクトルに変更しながら、配列データを何度も変換及び操作する。多くの場合、これらのディープニューラルネットワークの内部データは解釈不可能であり、ニューラルネットワークアーキテクチャ自体の外部では何らかの形で利用することが不可能である。
【発明の概要】
【課題を解決するための手段】
【0009】
本開示は、コール生成モデルのヌクレオチドベースコール(例えば、バリアントコール)を再較正するために機械学習モデルを利用することができる方法、非一時的コンピュータ可読媒体、及びシステムの実施形態を説明する。例えば、開示されるシステムは、コール再較正機械学習モデルを訓練及び利用して、分類予測(例えば、バリアントコール分類)のセットを生成して、複対立遺伝子座標、一倍体座標、及び/又はホモ接合参照遺伝子型を示すものとして既存の配列決定システムによって不正確に同定された座標についてのヌクレオチドベースコールなどの特定のシナリオにおけるヌクレオチドベースコールを改善することができる。開示されるように、開示されるシステムは、(i)特定のゲノム座標(例えば、複対立遺伝子座標、一倍体座標、又は不正確に同定されたホモ接合参照座標)についての配列決定メトリックを決定し、(ii)コール再較正機械学習モデルを利用して、ゲノム座標についての初期ヌクレオチドベースコールを更新又は再較正するための分類予測を生成することができる。再較正後、開示されるシステムは、バリアントコールファイル又は他のベースコール出力ファイルにおいて、更新された又は再較正されたヌクレオチドベースコールを最終ヌクレオチドベースコール(例えば、最終バリアントコール)として出力することができる。
【0010】
コール再較正機械学習モデルを利用して、ヌクレオチドベースコールを生成するための配列決定メトリックを更新することによって、開示されるシステムは、既存の配列決定システムよりも精度、効率、及び速度を改善することができる。以下で更に説明するように、例えば、開示されるコール再較正機械学習モデルは、複対立遺伝子座標、一倍体座標、又は不正確に同定されたホモ接合参照座標でのバリアントコーリングについて、従来の隠れマルコフモデル(hidden Markov model、HMM)ベース若しくは確率ベースのバリアントコーラー及びより複雑なニューラルネットワーク(例えば、ディープニューラルネットワークベースのバリアントコーラー)よりも良好な精度でバリアントコールを決定する。開示されるコール再較正機械学習モデルはまた、複雑なニューラルネットワークよりも速い計算時間で、そのようなゲノム座標でのバリアントコールを決定する。加えて、開示されるシステムは、アクセス可能な、解釈可能なフォーマットでデータを処理するコール再較正機械学習モデルを利用することによって、複雑なニューラルネットワークと比較して、そのようなゲノム座標での正確なバリアントコールにインパクトを与える因子の解釈可能性を改善することができる。実際に、開示されるシステムの改善された解釈可能性のために、いくつかの実施形態では、開示されるシステムは、配列決定メトリックが結果として生じるヌクレオチドベースコールに対して有するインパクトのそれぞれの尺度を視覚的に描写するために、個々の配列決定メトリックと関連付けられる様々な寄与尺度の可視化を生成及び提供することができる。
【図面の簡単な説明】
【0011】
詳細な説明は、以下に簡単に説明される図面を参照する。
図1】1つ以上の実施形態による、コール再較正システムを含む配列決定システムのブロック図を示す。
図2】1つ以上の実施形態による、コール再較正システムを利用してヌクレオチドベースコールを生成するコール再較正システムの概要を示す。
図3A】1つ以上の実施形態による、複対立遺伝子ゲノム座標についてのヌクレオチドベースコールを生成するコール再較正システムを示す。
図3B】1つ以上の実施形態による、複対立遺伝子ゲノム座標についてのヌクレオチドベースコールを生成するコール再較正システムを示す。
図4A】1つ以上の実施形態による、一倍体ゲノム座標についてのヌクレオチドベースコールを生成するコール再較正システムを示す。
図4B】1つ以上の実施形態による、一倍体ゲノム座標についてのヌクレオチドベースコールを生成するコール再較正システムを示す。
図5】1つ以上の実施形態による、ホモ接合参照ゲノム座標についてのバリアントコールを生成するコール再較正システムを示す。
図6A】1つ以上の実施形態による、配列決定メトリックを生成又は決定するコール再較正システムを示す。
図6B】1つ以上の実施形態による、配列決定メトリックを生成又は決定するコール再較正システムを示す。
図6C】1つ以上の実施形態による、配列決定メトリックを生成又は決定するコール再較正システムを示す。
図7】1つ以上の実施形態による、コール再較正機械学習モデルを利用してバリアントコール分類を生成し、ヌクレオチドベースコールを再較正するコール再較正システムを示す。
図8】1つ以上の実施形態による、コール再較正機械学習モデルを訓練するコール再較正システムの例示的なプロセスを示す。
図9】1つ以上の実施形態による、クライアント装置上に表示される例示的な寄与尺度インターフェースを示す。
図10A】1つ以上の実施形態による、二倍体座標についてのコール再較正システムに関連する精度の改善を示すグラフ及び表を示す。
図10B】1つ以上の実施形態による、二倍体座標についてのコール再較正システムに関連する精度の改善を示すグラフ及び表を示す。
図11A】1つ以上の実施形態による、一倍体座標についてのコール再較正システムに関連する精度の改善を示すグラフ及び表を示す。
図11B】1つ以上の実施形態による、一倍体座標についてのコール再較正システムに関連する精度の改善を示すグラフ及び表を示す。
図12】1つ以上の実施形態による、複対立遺伝子ゲノム座標に関連付けられたヌクレオチドベースコールを生成するための一連の動作のフローチャートを示す。
図13】1つ以上の実施形態による、一倍体ゲノム座標に関連付けられたヌクレオチドベースコールを生成するための一連の動作のフローチャートを示す。
図14】1つ以上の実施形態による、ホモ接合参照ゲノム座標に関連付けられたバリアントコールを生成するための一連の動作のフローチャートを示す。
図15】本開示の1つ以上の実施形態による、例示的なコンピューティング装置のブロック図を示す。
【発明を実施するための形態】
【0012】
本開示は、コール再較正機械学習モデルを利用して、試料ヌクレオチド配列についてのヌクレオチドベースコールを生成及び再較正するコール再較正システムの実施形態を説明する。特に、コール再較正システムは、コール生成モデルによって生成された初期ヌクレオチドベースコールを更新、再較正、又は修正するために、コール再較正機械学習モデルを利用することができる。例えば、コール再較正システムは、コール再較正機械学習モデルを利用して、コール品質、コールに関連付けられた遺伝子型、遺伝子型に関連付けられた遺伝子型品質、Phredスケール尤度(Phred-scaled Likelihood、PL)、及び/又は対応するフィールドを有する他のメトリックなどの様々なコールメトリックを更新することによって、初期ヌクレオチドベースコールを再較正し、その精度を改善することができる。メトリックを更新するためにコール再較正機械学習モデルを利用することによって、コール再較正システムは、特定のゲノム座標、例えば、複対立遺伝子座標、一倍体座標、及びホモ接合参照遺伝子型を示すと誤って決定された座標(初期コールにおいて、又は既存の配列決定システムによって)でのヌクレオチドベースコールの精度を改善することができる。
【0013】
直前に述べたように、ある特定の実装形態では、コール再較正システムは、試料ヌクレオチド配列の複対立遺伝子座標についてのヌクレオチドベースコール及び対応するバリアントコールを改善する。複対立遺伝子ヌクレオチドベースコールの生成を容易にするために、いくつかの実施形態では、コール再較正システムは、二対立遺伝子座標及び複対立遺伝子座標の両方についてヌクレオチドベースコールを生成するように特化され、適合可能なコール再較正機械学習モデルを利用する。例えば、コール再較正システムは、複対立遺伝子ゲノム座標に関連付けられた配列決定メトリックから、複対立遺伝子ゲノム座標でのホモ接合参照遺伝子型の確率(すなわち、参照確率)、複対立遺伝子ゲノム座標での遺伝子型エラーの確率(すなわち、異なる遺伝子型確率)、及び複対立遺伝子ゲノム座標での正確なバリアントコール遺伝子型の確率(すなわち、正確なバリアント確率)を含むバリアントコール分類のセットを生成することができる。コール再較正システムは、バリアントコール分類のセットから、複対立遺伝子ゲノム座標についての最終ヌクレオチドベースコールを更に決定することができる。複対立遺伝子座標についてのコールの生成に関する更なる詳細は、図を参照して以下に提供される。
【0014】
言及したように、1つ以上の実施形態では、コール再較正システムは、試料ヌクレオチド配列の一倍体ゲノム座標についてのヌクレオチドベースコール及び対応するバリアントコールを改善する。特に、コール再較正システムは、二倍体データに基づいて一倍体遺伝子型を決定するように適合されたコール再較正機械学習モデルを利用することができる。例えば、コール再較正システムは、二倍体データ(例えば、二倍体配列決定メトリック)を修正して、一倍体データ(例えば、一倍体配列決定メトリック)をシミュレートすることによって、コール再較正機械学習モデルを訓練することができる。加えて、コール再較正システムは、訓練されたコール再較正機械学習モデルを利用して、所与のゲノム座標について3つの出力:(i)ホモ接合参照遺伝子型についての第1の信頼スコア(0/0)、(ii)ヘテロ接合遺伝子型についての第2の信頼スコア(0/1)、及び(iii)ホモ接合代替遺伝子型(1/1)についての第3の信頼スコアを生成することができる。
【0015】
コール再較正システムは、第2の信頼スコア(例えば、0/1信頼スコア)を更に削減又は除去することができ、ソフトマックスモデル又は層を利用して、他の2つの信頼スコアにわたって正規化し、信頼スコアを一倍体確率に変換することができる。したがって、ソフトマックスモデル又は層を利用して、コール再較正システムは、(i)ホモ接合参照信頼スコア(0/0)から、一倍体参照確率(0)を決定し、(ii)ホモ接合代替信頼スコア(1/1)から、一倍体代替確率(1)を決定することができる。一倍体座標のためのコールの生成に関する更なる詳細は、図を参照して以下に提供される。
【0016】
上で更に言及したように、コール再較正システムは、ホモ接合参照遺伝子型を示すと決定された試料ヌクレオチド配列のゲノム座標についてのヌクレオチドベースコール及び対応するバリアントコールを改善する。より具体的には、コール再較正システムは、(例えば、コール生成モデルによって決定されるように)ホモ接合参照遺伝子型を示すものとして最初に決定されたゲノム座標について、実際には、これらの座標の遺伝子型が参照配列に関してホモ接合性でない場合、偽陰性バリアントコールを回復することができる。ホモ接合参照座標に関連付けられたデータをフィルタ除外する既存の配列決定システムとは対照的に、コール再較正システムは、そのようなホモ接合参照座標についての配列決定メトリックを決定することができ、コール再較正機械学習モデルを利用して、配列決定メトリックからバリアントコール分類を生成することができる。更に、コール再較正システムは、バリアントコール分類に基づいてホモ接合参照座標についての最終ヌクレオチドベースコールを生成し、ホモ接合参照遺伝子型を示していたバリアントコールを異なる遺伝子型を示すように変更することができる(それによって、偽陰性バリアントコールを回復する)。ホモ接合参照遺伝子型を示すものとして不正確に同定されたであろうゲノム座標についてのバリアントコールの補正又は更新に関する更なる詳細は、図を参照して以下に提供される。
【0017】
上で言及したように、いくつかの実施形態では、コール再較正システムは、より一般的には、機械学習モデルを利用して、ゲノム座標に対応するヌクレオチドベースコールの配列決定メトリックに基づいてバリアントコール分類を生成することができる。そのような分類を生成するために、コール再較正システムは、試料ヌクレオチド配列から配列決定メトリックを抽出又は決定する。例えば、コール再較正システムは、試料ヌクレオチド配列からのヌクレオチドリードのヌクレオチドベースコールから配列決定メトリックを決定する。実際、いくつかの場合では、コール再較正システムは、(例えば、特定のゲノム座標での)試料ヌクレオチド配列の蛍光イメージングを介して取り込まれた又は決定されたヌクレオチドリードから初期ヌクレオチドベースコールのセットを生成又は決定する。リードベースのヌクレオチドベースコールから、いくつかの実施形態では、コール再較正システムは、様々な配列決定メトリック(例えば、リードから及び/又はコール生成モデルの異なるコンポーネントから取得される様々なタイプの配列決定メトリック)を決定又は抽出する。
【0018】
詳述すると、ある特定の実装形態では、コール再較正システムは、異なるソースに関連付けられた異なるタイプの配列決定メトリックを決定する。例えば、コール再較正システムは、試料ヌクレオチド配列のヌクレオチドリードから導出されたメトリックを含むリードベースの配列決定メトリックを決定する。加えて、コール再較正システムは、様々なヌクレオチド属性、マッピングチャレンジ、及び配列決定バイアスに関連付けられたゲノム配列を示す1つ以上の外部データベースから識別された外部ソースの配列決定メトリックを決定する。更に、コール再較正システムは、バリアントコーラー又は他のコール生成モデルを介して生成されたコールモデル生成の配列決定メトリック、例えば、他のシステム又はパーティーにアクセス可能でないコール再較正システムの内部の変数(例えば、独自品質スコア、塩基コンテキスト、リードフィルタリング、独自仮説スコア、及び他のメトリック)を決定する。実際、いくつかの場合では、コール再較正システムは、バリアントコーリング配列決定メトリック及びマッピングアラインメント配列決定メトリックの形態でコールモデル生成の配列決定メトリックを決定し、各タイプは、コール生成モデルの異なるコンポーネントによって抽出される。
【0019】
更に言及されるように、ある特定の実装形態では、コール再較正システムは、ヌクレオチドベースコール若しくはバリアントコールデータ又はヌクレオチドベースコールに関連付けられたフィールドを修正又は改善するために、配列決定メトリックから予測分類セットを生成する。より具体的には、コール再較正システムは、コール再較正機械学習モデルを利用して、配列決定メトリックから、特定のゲノム座標(例えば、試料ヌクレオチド配列からのヌクレオチドリードのヌクレオチドベースコールに対応するゲノム座標)においてバリアントを同定する精度にインパクトを与えるか又はそれを反映する3つのバリアントコール分類からなるセットを生成する。状況に応じて、コール再較正システムは、コール再較正機械学習モデルを利用して、例えば、一倍体座標又は偽ホモ接合であろう参照座標とは異なる、複対立遺伝子座標についてのバリアントコール分類を生成することができる。
【0020】
例えば、複対立遺伝子ゲノム座標についてのバリアントコール分類を生成する場合、コール再較正システムは、コール再較正機械学習モデルを利用して、(i)複対立遺伝子ゲノム座標でのホモ接合参照遺伝子型の参照確率、(ii)複対立遺伝子ゲノム座標での遺伝子型エラーの異なる遺伝子型確率、及び(iii)複対立遺伝子ゲノム座標での正確なバリアントコール遺伝子型の正確なバリアント確率を含むセットを生成することができる。別の例として、一倍体座標について、コール再較正システムは、コール再較正機械学習モデルを利用して、(i)ゲノム座標での第1の遺伝子型の第1の遺伝子型確率及び(ii)ゲノム座標での第2の遺伝子型の第2の遺伝子型確率を含むバリアントコール分類のセットを生成することができる。更に、ホモ接合であろう参照座標について、コール再較正システムは、コール再較正機械学習モデルを利用して、(i)偽陽性分類(例えば、ヌクレオチドベースコールが偽陽性バリアントである確率)、(ii)遺伝子型エラー分類(例えば、正確な代替対立遺伝子を同定するが遺伝子型エラーを伴う確率-例えば、1/1の代わりに0/1、若しくは0/1の代わりに1/1-を示すヘテロ接合遺伝子型分類、又はヌクレオチドベースコールの遺伝子型を不正確に同定する確率)、及び(iii)真陽性分類(例えば、ヌクレオチドベースコール又は遺伝子型コールが真陽性バリアントである確率を示すホモ接合代替分類)を含むバリアントコール分類のセットを生成することができる。したがって、いくつかの場合では、バリアントコール分類は、バリアントコーラーに関連付けられた中間スコアリングメトリックを表す。
【0021】
バリアントコール分類から、コール再較正システムは、ゲノム座標についての1つ以上の最終ヌクレオチドベースコール(例えば、バリアントコール又は非バリアントコールを示す最終ヌクレオチドベースコール)について、更に修正又は更新することができる。例えば、コール再較正システムは、バリアントコール分類を利用して、最終ヌクレオチドベースコール及び/又はバリアントコールを示す又は表すデジタルコールファイル(例えば、バリアントコールフォーマットファイル又は他のベースコール出力ファイル)内のデータフィールドを更新する。実際、上で言及したように、いくつかの実施形態では、コール再較正システムは、コール生成モデルを利用して、ゲノム座標についての配列決定メトリックから最終ヌクレオチドベースコールを生成又は決定する。
【0022】
加えて、コール再較正システムは、バリアントコール分類を利用して、精度を改善するためにヌクレオチドベースコール及び/又はバリアントコールを更新することができる。ある特定の実装形態では、コール再較正システムは、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及び/又は不正確に同定されるであろうホモ接合参照座標(すなわち、ホモ接合参照遺伝子型を示すようにバリアントコーラーによって以前に不正確に同定された又は不正確に同定されたであろうゲノム座標)などの特定のゲノム座標についてのヌクレオチドベースコールを更新する。実際に、いくつかの実施形態では、コール再較正システムは、(i)コール生成モデルを利用して初期ヌクレオチドベースコールを生成し、(ii)コール再較正機械学習モデルを利用してヌクレオチドベースコールのバリアントコールファイルに対応するデータフィールドを修正する。いくつかの場合では、コール再較正システムは、データフィールドのうちの1つ以上に基づいてヌクレオチドベースコールを更に修正し、修正されたヌクレオチドベースコールを有するバリアントコールファイルを生成する。ある特定の実施形態では、コール再較正システムは、コール再較正機械学習モデルを利用して、バリアントコール分類を生成する一方で、コール生成モデルも利用して、バリアントコール分類に基づいてヌクレオチドベースコールを生成することができる。
【0023】
対照的に、いくつかの場合では、コール再較正システムは、コール生成モデルからの初期ヌクレオチドベースコール(例えば、初期ヌクレオチドバリアントコール)を伴わずに、コール生成モデルのための配列決定メトリックとコール再較正機械学習モデルからのバリアントコール分類との両方に基づいて、ゲノム座標についての最終ヌクレオチドベースコール又はバリアントコールを決定する。例えば、コール生成モデルは、初期ヌクレオチドベースコールを出力しなくてもよいが、その代わりに、ゲノム座標を評価し、次いで、コール再較正機械学習モデルが、コール生成モデルと組み合わせてバリアントコールを生成するために使用することができる配列決定メトリックを生成してもよい。いくつかの実施形態では、コール生成モデルは、(更新されている初期バリアントコールを生成することなく)コール再較正機械学習モデルからのバリアントコール分類を考慮した最終バリアントコールを出力し得る。対照的に、ある特定の場合では、コール生成モデルは、最初に、潜在的なバリアントコールに対応する信頼度又は品質がバリアントコールファイルに含めるための閾値を満たさないと判定し得るが、(ベースコール品質メトリックを更新するバリアントコール分類を考慮した後に)バリアントコールファイルにバリアントコールを含めると判定し得る。このようにしてコール再較正機械学習モデル及びコール生成モデルを実装した結果として、コール再較正システムは、偽陰性コールを回復し、バリアント遺伝子型エラーを修正し、かつ/又はコール生成モデルによって最初に行われた偽陽性コールを除去する。
【0024】
1つ以上の実施形態では、コール再較正システムは更に、配列決定メトリックのうちの1つ以上に関連付けられた寄与尺度を決定する。特に、コール再較正システムは、各配列決定メトリック又は配列決定メトリックのサブセットが最終ヌクレオチドベースコールに対して有するインパクト又は影響の尺度を決定する。例えば、あるゲノム座標対別のゲノム座標でのコールを決定する際に、いくつかのメトリックは、他のメトリックよりも重く重み付けされ得る。実際、コール生成モデル及びコール再較正機械学習モデルのアクセス可能性及び解釈可能性に起因して、コール再較正システムは、ヌクレオチドベースコールを生成するために使用される内部配列決定メトリックにアクセスすることができ、どのメトリックが最終ヌクレオチドベースコール(又はバリアントコール)の再較正を引き起こしているか又は行わせているかを最終的に判定する際に、それぞれの寄与尺度を決定することができる。いくつかの場合では、コール再較正システムは更に、クライアント装置上に表示するために寄与尺度の視覚化を生成及び提供する。
【0025】
上で示唆したように、コール再較正システムは、バリアントコーラー及び他の配列決定データ分析ソフトウェアを含む、既存の配列決定システムに対していくつかの利点、利益、及び/又は改善を提供する。例えば、コール再較正システムは、既存の配列決定システムよりも正確なヌクレオチドベースコール及び/又はバリアントコールを生成する。いくつかの既存の配列決定システムは、複対立遺伝子座標についてのヌクレオチドベースコールを生成することができないか、又は不正確に生成するかのいずれかであるが、いくつかの実施形態では、コール再較正システムは、複対立遺伝子ゲノム座標についてより正確なコールを生成する。具体的には、コール再較正システムは、複対立遺伝子ゲノム座標に特異的なバリアントコール分類のセットを生成するように訓練又は調整されたパラメータを有するコール再較正機械学習モデルを利用又は適合させることができる。バリアントコール分類のセットから、コール再較正システムは、複対立遺伝子座標の遺伝子型を示し、遺伝子型が参照配列に関してバリアントであるかどうかを示し、かつ/又は遺伝子型が正確であるかどうかを示す(例えば、遺伝子型が正確である尤度又は確率を示すGQフィールドにおける遺伝子型品質メトリック)ために、複対立遺伝子ゲノム座標についての1つ以上の最終ヌクレオチドベースコールを更に生成することができる。同様に、バリアントコール分類のセットから、コール再較正システムはまた、品質フィールド及びPLなどの他のフィールドの精度を改善することができる。
【0026】
いくつかの実施形態では、コール再較正システムは、既存の配列決定システムと比較して、試料ヌクレオチド配列の一倍体座標について、より正確なヌクレオチドベースコール及び/又はバリアントコールを生成する。一倍体についてヌクレオチドベースコールを再較正することができないいくつかの既存の配列決定システムとは異なり、コール再較正システムは、試料ヌクレオチド配列の一倍体領域に適合可能なコール再較正機械学習モデルを利用することができる。ある特定の場合において、コール再較正システムは、二倍体データを適合させて一倍体データをシミュレートすることによって、コール再較正機械学習モデルのためのパラメータを学習する。更に、コール再較正システムは、特定のゲノム座標について、一倍体コールに関連しないコール再較正機械学習モデルの特定の機械学習出力(例えば、信頼スコア)を削減することによって、かつ残りの2つの出力(例えば、信頼スコア)にわたって正規化することによって、一倍体座標についてのヌクレオチドベースコールを生成することができる。二倍体データと適合する出力を、一倍体データと適合する出力に削減及び正規化することによって、コール再較正システムは、座標での一倍体参照遺伝子型及び一倍体代替遺伝子型を示す確率を決定することができる。
【0027】
1つ以上の実施形態では、コール再較正システムは、既存の配列決定システムと比較して、試料ヌクレオチド配列の(不正確に同定されたであろう)ホモ接合参照座標について、より正確なヌクレオチドベースコール及び/又はバリアントコールを生成する。例えば、いくつかの既存の配列決定システムは、実際にはそれらの遺伝子型がホモ接合参照ではない場合、ホモ接合参照遺伝子型を示すものとしてある特定のゲノム座標を不正確に同定することによって、異常な数の偽陰性バリアントコールを生成する。対照的に、コール再較正システムは、ホモ接合参照遺伝子型を示すことが示されたゲノム座標について配列決定メトリックを決定し、コール再較正機械学習モデルを利用してこれらの座標についてバリアントコール分類を生成することによって、より少ない偽陰性バリアントコールを同定する(又はより多くの偽陰性バリアントコールを回復する)。コール再較正システムは、ホモ接合参照座標のバリアントコール分類から1つ以上の最終ヌクレオチドベースコールを更に生成することができる。
【0028】
コール再較正システムは、コール再較正機械学習モデルを利用して多数の偽陽性バリアントコールを除去し、かつ/又は多数の偽陰性バリアントコールを回復することによって、(例えば、上で説明したシナリオの各々において)既存の配列決定システムの精度を改善する。コール再較正機械学習モデルからのバリアントコール分類に基づいて初期ヌクレオチドベースコールを編集するか、又は最終ヌクレオチドベースコールを生成することによって、コール再較正システムは、固有の機械学習出力を使用して、既存のバリアントコーラー又は既存の機械学習モデルよりも良好な精度でベースコールを再較正することができる。例えば、コール再較正システムは、コール再較正機械学習モデルを利用して、内部(例えば、独自的かつモデル特異的)と外部配列決定メトリックとの両方からバリアントコール分類を生成し、これにより、以前にフィルタ除外されたバリアントヌクレオチドベースコールの回復及び/又は以前にフィルタ除外されなかった非バリアントヌクレオチドベースコールの除去がもたらされる。
【0029】
前述の精度の改善を達成するために、示されるように、コール再較正システムは、新しいアプリケーションを実行するように訓練される、改善された固有の機械学習モデル-コール再較正機械学習モデル-を利用する。一般的な配列決定データからヌクレオチドベースコールを生成する既存のバリアントコーラーとは異なり(1つのゲノム座標又は別のゲノム座標に対する任意の特定の強調なしに)、コール再較正システムは、特定のシナリオ(例えば、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及び偽ホモ接合参照座標)のための特定のバリアントコール分類を生成する固有のコール再較正機械学習モデルを利用する。いくつかの場合では、コール再較正システムは、コール再較正機械学習モデルを利用して、バリアントコール分類を生成するためにコール再較正機械学習モデルによって使用される同じメトリック(又は同じメトリックのサブセット)からコール生成モデルによって生成されたヌクレオチドベースコールを更新する。
【0030】
改善された精度に少なくとも部分的に寄与して、コール再較正システムは、既存の配列決定システムよりも改善された柔軟性を示す。例えば、多くの既存の配列決定システムは、ある特定のゲノム座標での適用に限定され、かつ/又は他のゲノム座標と不適合であるが、いくつかの実施形態では、コール再較正システムは、これらの以前は不適合であった座標の多くに柔軟に適合する。具体的には、いくつかの既存の配列決定システムとは異なり、コール再較正システムは、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及び偽ホモ接合参照ゲノム座標について、ヌクレオチドベースコール及び/又はバリアントコールを生成することができる。
【0031】
柔軟性の改善の別の例として、上で言及したように、既存の配列決定システムは、ヌクレオチドベースコールを生成するために、特定のベースコールのための内部配列決定メトリックに排他的に依存するバリアントコーラーを、そのような内部配列決定メトリックを再操作若しくは修正することなく、又は対応するヌクレオチドベースコールのゲノム座標に関連付けられた外部ソースの配列決定メトリックを分析することなく、利用することがある。対照的に、いくつかの実施形態では、コール再較正システムは、外部と内部配列決定メトリックとの両方を生成及び操作する。実際、いくつかの場合では、コール再較正システムは、ベイズ確率モデルを機械学習技法と効率的に組み合わせることによって、コール生成モデルのバリアントコーラーコンポーネント及びマッピング及びアラインメントコンポーネントからコールモデル生成の配列決定メトリックを決定する。加えて、コール再較正システムは、コール再較正機械学習モデルを利用して、1つ以上の配列決定メトリックから更新されたヌクレオチドベースコール(例えば、バリアントコール分類から)を生成する。
【0032】
精度及び柔軟性の改善に加えて、ある特定の実施形態では、コール再較正システムは、効率及び速度を改善する。上で記載したように、いくつかの既存の配列決定システムは、配列決定行程からのバリアントコールを用いてファイルを実装及び生成するためでさえにも、多くの時間(例えば、サーバ上で実行する複数のプロセッサで5~8時間)及び大量の計算リソースを必要とする、計算コストが高く、遅いニューラルネットワークアーキテクチャ(例えば、畳み込みニューラルネットワークなどの深層学習アーキテクチャ)を利用する。そのような深層学習アーキテクチャは更に、訓練するのに数日(又は数週間)を必要とする可能性がある。逆に、コール再較正システムは、コール生成モデルとコール再較正機械学習モデルとの両方のために比較的軽量で高速のアーキテクチャを利用する。実際、既存の配列決定システムによって必要とされる複数のプロセッサにわたる多くの時間とは対照的に、コール再較正システムは、多くの場合、試料ヌクレオチド配列についてのヌクレオチドベースコールを生成するために、単一のフィールドプログラマブルゲートアレイ又は単一のプロセッサ上で30分未満(コール生成モデルとコール再較正機械学習モデルとの両方を合わせて)のランタイムを必要とする。したがって、コール再較正システムは、バリアントコーリングに対する多くの深層学習アプローチよりもはるかに高速であり、計算コストが低い。多くの既存の深層学習ベースのシステムよりも、コール再較正システムのモデルは、実装するのに高速であり、かつ計算コストが低いだけでなく、コール再較正システムのモデルは、訓練するのに、はるかに高速であり、計算コストが低い。
【0033】
改善された速度及び効率の一部として、いくつかの実施形態では、コール再較正システムは、各コールがコール生成モデルによって処理される際に、コール毎にヌクレオチドベースコールを再較正する。実際、コール再較正システムは、ヌクレオチドベースコールを再較正するためのバリアントコール分類を生成することができ(例えば、コール再較正機械学習モデルを利用する)、一方で、1つ以上の配列決定メトリックとともにバリアントコール分類からヌクレオチドベースコールを生成することもできる。いくつかの実施形態では、コール再較正システムは、コール再較正機械学習モデルと並行してコール生成モデルを利用して、初期ヌクレオチドベースコールを修正又は再較正するための初期ヌクレオチドベースコール及びバリアントコール分類を同時に生成する。
【0034】
既存の配列決定システムに対する更なる利点として、ある特定の実装形態では、コール再較正システムは、ヌクレオチドベースコールの精度に影響を及ぼす個々のメトリックに対する変更を特定又は容易にすることができる。多くの既存の配列決定システムのニューラルネットワークアーキテクチャは、潜在的特徴を有する内部モデルデータのいかなる解釈も不可能にするが、コール再較正システムは、個々の配列決定メトリックの効果の解釈を容易にするモデルアーキテクチャを利用する。より具体的には、いくつかの場合では、コール再較正システムは、ヌクレオチドベースコールを生成するプロセス全体を通して使用される個々の配列決定メトリックの抽出及び分析を可能にするコール生成モデル及びコール再較正機械学習モデルを利用する。実際に、コール再較正システムは、特定のゲノム座標でのヌクレオチドベースコールを決定することに関与する配列決定メトリックについてのそれぞれの寄与尺度を決定することができる。
【0035】
前述の考察によって示唆されるように、本開示は、コール再較正システムの特徴及び利点を説明するために、様々な用語を利用する。本開示で使用されるこれらの用語の意味に関して、更なる詳細が以下に提供される。本開示で使用される場合、例えば、「試料ヌクレオチド配列」又は「試料配列」という用語は、試料生物から単離又は抽出されたヌクレオチドの配列(又はそのような単離又は抽出された配列のコピー)を指す。特に、試料ヌクレオチド配列は、試料生物から単離又は抽出され、窒素複素環塩基から構成される核酸ポリマーのセグメントを含む。例えば、試料ヌクレオチド配列は、デオキシリボ核酸(deoxyribonucleic acid、DNA)、リボ核酸(ribonucleic acid、RNA)、又は核酸の他のポリマー形態若しくは以下に記載される核酸のキメラ若しくはハイブリッド形態のセグメントを含むことができる。より具体的には、いくつかの場合では、試料ヌクレオチド配列は、キットによって調製又は単離され、配列決定装置によって受け取られた試料中に見出されるものである。
【0036】
本明細書で更に使用される場合、「ヌクレオチドベースコール」(又は時には単に「コール」)という用語は、配列決定サイクル中の試料ゲノムのゲノム座標又はオリゴヌクレオチドについての特定のヌクレオチドベース(又はヌクレオチドベース対)の決定又は予測を指す。特に、ヌクレオチドベースコールは、(i)ヌクレオチド試料スライド上のオリゴヌクレオチド内に組み込まれているヌクレオチドベースのタイプの決定若しくは予測(例えば、リードベースのヌクレオチドベースコール)、又は(ii)デジタル出力ファイルにおけるバリアントコール若しくは非バリアントコールを含む、試料ゲノム内のゲノム座標若しくは領域に存在するヌクレオチドベースのタイプの決定若しくは予測を示すことができる。いくつかの場合では、ヌクレオチドリードについて、ヌクレオチドベースコールは、ヌクレオチド試料スライド(例えば、フローセルのウェル内)のオリゴヌクレオチドに付加された蛍光タグ付きヌクレオチドから生じる強度値に基づくヌクレオチドベースの決定又は予測を含む。代替的に、核酸ベースコールは、ヌクレオチド試料スライドのナノポアを通過するヌクレオチドから生じるクロマトグラムピーク又は電流変化へのヌクレオチドベースの決定又は予測を含む。対照的に、ヌクレオチドベースコールはまた、ゲノム座標に対応するヌクレオチドリードに基づく、バリアントコールファイル又は他のベースコール出力ファイルのための、試料ゲノムのゲノム座標でのヌクレオチドベースの初期又は最終予測を含むことができる。したがって、ヌクレオチドベースコールは、ゲノム座標及び参照ゲノムに対応するベースコール、例えば、参照ゲノムに対応する特定の位置でのバリアント又は非バリアントの指標を含むことができる。実際、ヌクレオチドベースコールは、限定されるものではないが、一塩基多型(SNP)、挿入若しくは欠失(インデル)、又は構造バリアントの一部であるベースコールを含むバリアントコールを指すことができる。ヌクレオチドベースコールを使用することによって、配列決定システムは、核酸ポリマーの配列を決定する。例えば、単一ヌクレオチドベースコールは、DNAについてのアデニンコール、シトシンコール、グアニンコール、若しくはチミンコール(A、C、G、Tと略される)、又はRNAについてのウラシルコール(チミンコールの代わりに)(Uと略される)を含むことができる。
【0037】
関連して、本明細書で使用される場合、「ヌクレオチドリード」という用語は、試料ヌクレオチド配列の全部又は一部からの1つ以上のヌクレオチドベース(又はヌクレオチドベース対)の推定配列を指す。特に、ヌクレオチドリードは、ゲノム試料に対応する配列決定ライブラリからのヌクレオチドフラグメント(又はモノクローナルヌクレオチドフラグメントの群)についての決定又は予測されたヌクレオチドベースコールの配列を含む。例えば、コール再較正システムは、ヌクレオチド試料スライドのナノポアを通過した、蛍光タグ付けを介して決定された、又はフローセル中のウェルから決定された、ヌクレオチドベースについてのヌクレオチドベースコールを生成することによって、ヌクレオチドリードを決定する。
【0038】
上で記載したように、いくつかの実施形態では、コール再較正システムは、ヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定する。本明細書で使用される場合、「配列決定メトリック」という用語は、個々のヌクレオチドベースコール(又はヌクレオチドベースコールの配列)が、参照ゲノムのゲノム座標若しくはゲノム領域に関して、ヌクレオチドリードからのヌクレオチドベースコールに関して、又は外部ゲノム配列決定若しくはゲノム構造に関して、アラインメント、比較、又は定量化する程度を示す定量的測定又はスコアを指す。例えば、配列決定メトリックは、(i)個々のヌクレオチドベースコールが、参照ゲノムのゲノム座標又は参照ベースをアラインメント、マッピング、又はカバーする程度、(ii)ヌクレオチドベースコールが、マッピング、ミスマッチ、ベースコール品質、又は他の生の配列決定メトリックに関して参照又は代替ヌクレオチドリードと比較する程度、又は(iii)ヌクレオチドベースコールに対応するゲノム座標若しくは領域が、マッピング可能性、反復ベースコール含量、DNA構造、若しくは他の一般化されたメトリックを実証する程度、を示す定量的測定又はスコアを含む。
【0039】
関連して、「二倍体配列決定メトリック」という用語は、二倍体ゲノム座標でのヌクレオチドベースコールについて決定された配列決定メトリックを指す。例えば、二倍体配列決定メトリックは、二倍体染色体又は二倍体ヌクレオチド配列(例えば、ゲノム座標に対応するゲノム領域に2つの対立遺伝子を有する)に由来する(又は由来することが示されている)ヌクレオチド配列の特定のゲノム座標についての配列決定メトリックを含む。更に、「一倍体配列決定メトリック」という用語は、一倍体ゲノム座標でのヌクレオチドベースコールについて決定された配列決定メトリックを指す。例えば、一倍体配列決定メトリックは、一倍体染色体又は一倍体ヌクレオチド配列(例えば、ゲノム座標に対応するゲノム領域に単一対立遺伝子を有する)に由来する(又は由来することが示されている)ヌクレオチド配列の特定のゲノム座標についての配列決定メトリックを含む。
【0040】
本明細書で更に使用される場合、「ゲノム座標(又は時には単に「座標」)」という用語は、ゲノム(例えば、生物のゲノム又は参照ゲノム)内のヌクレオチドベースの特定の場所又は位置を指す。いくつかの場合では、ゲノム座標は、ゲノムの特定の染色体についての識別子及び特定の染色体内のヌクレオチドベースの位置についての識別子を含む。例えば、ゲノム座標(単数又は複数)は、染色体の番号、名称、又は他の識別子(例えば、chr1又はchrX)、及び染色体の識別子に続く番号付けされた位置(例えば、chr1:1234570又はchr1:1234570~1234870)などの特定の位置(単数又は複数)を含み得る。更に、ある特定の実装形態では、ゲノム座標は、参照ゲノムのソース(例えば、ミトコンドリアDNA参照ゲノムについてはmt、又はSARS-CoV-2ウイルスの参照ゲノムについてはSARS-CoV-2)、及び参照ゲノムについてのソース内のヌクレオチドベースの位置(例えば、mt:16568又はSARS-CoV-2:29001)を指す。対照的に、ある特定の場合では、ゲノム座標は、染色体又はソース(例えば、29727)を参照せずに、参照ゲノム内のヌクレオチドベースの位置を指す。
【0041】
関連して、本明細書中で使用される場合、「複対立遺伝子ゲノム座標」という用語は、3つ以上の対立遺伝子に関連付けられたゲノム座標を指す。例えば、複対立遺伝子ゲノム座標は、ヌクレオチド配列のゲノム座標を含み、ヌクレオチドリードは、座標に対応する3つ以上の可能な対立遺伝子(例えば、参照対立遺伝子、第1の代替対立遺伝子、第2の代替対立遺伝子など)を示す。いくつかの場合では、複対立遺伝子ゲノム座標は、リードパイルアップが生じるか、又は挿入が生じるゲノム座標に対応する。例えば、複対立遺伝子ゲノム座標は、複対立遺伝子の遺伝子型(例えば、1/2遺伝子型)を示し得、ここで、座標での第1の対立遺伝子は、第1の代替ヌクレオチド配列由来の対立遺伝子に対応し、第2の対立遺伝子は、第2の代替ヌクレオチド配列由来の対立遺伝子に対応する。
【0042】
上で言及したように、いくつかの実施形態では、コール再較正システムは、一倍体ゲノム座標又は一倍体ヌクレオチド配列内のゲノム座標についてのヌクレオチドベースコールを生成する。本明細書で使用される場合、「一倍体ヌクレオチド配列」という用語は、一倍体染色体(例えば、雄における性染色体)又は対応する染色体を含まない単一の染色体由来の1つ以上のヌクレオチドベースの配列を指す。例えば、一倍体ヌクレオチド配列は、ゲノム座標の各々が対応する染色体を含まない一倍体染色体又は単一の染色体由来のヌクレオチドベースをカバーする試料ヌクレオチド配列の一倍体領域を含むことができる。したがって、一倍体ヌクレオチド配列内の一倍体座標は、一倍体参照遺伝子型(0)又は一倍体代替遺伝子型(1)などの一倍体遺伝子型を有する。
【0043】
ヌクレオチド配列内の他の座標は、異なる遺伝子型を示し得る。例えば、「ホモ接合参照遺伝子型」は、試料ヌクレオチド配列の所与の座標での両方のヌクレオチドベースが、参照配列又は参照ゲノムの参照ヌクレオチドベースと一致する遺伝子型(0/0として表される)を指す。別の例として、「ホモ接合代替遺伝子型」は、両方のヌクレオチドベースが参照配列又は参照ゲノムの参照ヌクレオチドベースとは異なる所与の座標での遺伝子型(1/1として表される)を指す。更なる例として、「ヘテロ接合遺伝子型」は、所与の座標でのヌクレオチドベースが同じではない遺伝子型を指す。いくつかの場合では、ヘテロ接合型遺伝子型は、一方のヌクレオチドベースが参照ヌクレオチドベースと一致し、他方のヌクレオチドベースが参照ヌクレオチドベースとは異なる遺伝子型(0/1又は1/0として表される)を含む。複対立遺伝子ゲノム座標に関して、遺伝子型は、参照ゲノムの参照ヌクレオチドベースとは異なる2つ以上の代替ヌクレオチドベースに由来するヌクレオチドベースを示し得る。例えば、複対立遺伝子ヘテロ接合遺伝子型は、1/2として表すことができ、ここで、一方のヌクレオチドベースコールは、参照ヌクレオチドベースとは異なる第1の代替ヌクレオチドベースと一致し、他方のヌクレオチドベースコールは、参照ヌクレオチドベースとは異なる第2の代替ヌクレオチドベースと一致する。
【0044】
上で記載したように、ゲノム座標は、参照ゲノム内の位置を含む。そのような位置は、特定の参照ゲノム内であり得る。本明細書で使用される場合、「参照ゲノム」という用語は、生物の遺伝子及び他の遺伝子配列の代表例(又は複数の代表例)としてアセンブルされたデジタル核酸配列を指す。配列長にかかわらず、いくつかの場合では、参照ゲノムは、特定の種の生物を代表するものとして科学者によって決定された、例示的な遺伝子セット又はデジタル核酸配列における核酸配列セットを表す。例えば、線形ヒト参照ゲノムは、Genome Reference ConsortiumからのGRCh38又は他のバージョンの参照ゲノムであり得る。更なる例として、参照ゲノムは、線形参照ゲノムと祖先ハプロタイプからの核酸配列を表すパスとの両方を含む参照グラフゲノム、例えば、Illumina DRAGEN Graph Reference Genome hg19を含み得る。
【0045】
いくつかの実施形態では、コール再較正システムは、異なるソースから様々なタイプの配列決定メトリック、例えば、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及びコールモデル生成の配列決定メトリックを決定する。本明細書で使用される場合、「リードベースの配列決定メトリック」という用語は、試料ヌクレオチド配列のヌクレオチドリードから導出された配列決定メトリックを指す。例えば、リードベースの配列決定メトリックは、参照配列とヌクレオチドリードとの間の差異を検出するために統計的検定を適用することによって決定される配列決定メトリックを含む。例えば、リードベースの配列決定メトリックは、マッピング品質間の比較を示す比較マッピング品質分布メトリック、又はミスマッチカウント間の比較を示す比較ミスマッチカウントメトリックを含むことができる。
【0046】
対照的に、「外部ソースの配列決定メトリック」は、1つ以上の外部データベースから識別又は取得された配列決定メトリックを指す。例えば、外部ソースの配列決定メトリックは、コール再較正システムの外部で利用可能なヌクレオチドのマッピング可能性、複製タイミング、又はDNA構造に関するメトリックを含む。
【0047】
更に、「コールモデル生成の配列決定メトリック」は、コール生成モデルによって生成又は抽出される内部のモデル固有配列決定メトリックを指す。例えば、コールモデル生成の配列決定メトリックは、コール生成モデルのバリアントコーラーコンポーネントを介して抽出又は決定されたバリアントコーリング配列決定メトリックと、コール生成モデルのマッピング及びアラインメントコンポーネントを介して抽出又は決定されたマッピング及びアラインメント配列決定メトリックと、を含む。上で示したように、コールモデル生成の配列決定メトリックは、試料核酸配列が例示的核酸配列のゲノム座標とアラインメントする程度を定量化するアラインメントメトリック、例えば、欠失サイズメトリック又はマッピング品質メトリックを含むことができる。更に、コールモデル生成の配列決定メトリックは、例示的な核酸配列のゲノム座標での試料核酸配列についてのヌクレオチドベースコールの深度を定量化する深度メトリック、例えば、フォワード・リバース深度メトリック又は正規化深度メトリックを含むことができる。コールモデル生成の配列決定メトリックは、ヌクレオチドベースコールの品質又は精度を定量化するコール品質メトリック、例えば、ヌクレオチドベースコール品質メトリック、コール可能性メトリック、又は体細胞品質メトリックも含むことができる。
【0048】
本明細書で使用される場合、用語「ベースコール品質メトリック」は、ヌクレオチドベースコールの精度を示す特定のスコア又は他の尺度を指す。特に、ベースコール品質メトリックは、ゲノム座標についての1つ以上の予測ヌクレオチドベースコールがエラーを含む尤度を示す値を含む。例えば、ある特定の実装形態では、ベースコール品質メトリックは、任意の所与のヌクレオチドベースコールのエラー確率を予測するQスコア(例えば、Phred品質スコア)を含むことができる。例示のために、品質スコア(又はQスコア)は、あるゲノム座標での不正確なヌクレオチドベースコールの確率が、Q20スコアについて100分の1、Q30スコアについて1,000分の1、Q40スコアについて10,000分の1などに等しいことを示し得る。
【0049】
関連して、本明細書で使用される場合、「再操作された配列決定メトリック」という用語は、他のヌクレオチドベースコール(標準若しくは参照)に関して、又は特定の目的若しくはタスクに対して標的化されたものについて、ヌクレオチドベースコール(例えば、リードについてのヌクレオチドベースコール若しくはバリアントコール)を測定又は比較するために、更新、修正、増強、改良、又は再操作された配列決定メトリックを指す。例えば、再操作された配列決定メトリックは、生の配列決定メトリックに対する修正、又は生の配列決定メトリックの組み合わせを含むことができる。いくつかの実施形態では、例えば、コール再較正システムは、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及び/又はコールモデル生成の配列決定メトリックのうちの1つ以上を、再操作された配列決定メトリックとして生成する。いくつかの場合では、再操作された配列決定メトリックは、コール再較正システムによって生成され、したがって、コール再較正システム独自又はその内部にあり、第三者システムに利用可能ではない配列決定メトリックを指す。例示的な再操作された配列決定メトリックは、参照配列及び代替サポートヌクレオチドリードに関連付けられたマッピング品質分布間の比較を示す比較マッピング品質分布メトリック、又は参照配列及び代替サポートヌクレオチドリードの塩基品質間の比較を示す比較塩基品質メトリックを含む。
【0050】
上で示唆したように、コール再較正システムは、機械学習モデルを利用して、配列決定メトリックを修正し、ヌクレオチドベースコールを更新することができる。本明細書で使用される場合、「機械学習モデル」という用語は、データの使用に基づく経験を通じて特定のタスクについて自動的に改善するコンピュータアルゴリズム又はコンピュータアルゴリズムの集合を指す。例えば、機械学習モデルは、精度及び/又は有効性を改善するために1つ以上の学習技法を利用することができる。例示的な機械学習モデルは、様々なタイプの決定木、サポートベクターマシン、ベイジアンネットワーク、又はニューラルネットワークを含む。いくつかの場合では、コール再較正機械学習モデルは、一連の勾配ブースティング決定木(例えば、XGBoostアルゴリズム)であり、他の場合では、コール再較正機械学習モデルは、ランダムフォレストモデル、多層パーセプトロン、線形回帰、サポートベクターマシン、深層表学習アーキテクチャ、深層学習変換器(例えば、自己注意ベースの表変換器)、又はロジスティック回帰である。
【0051】
いくつかの場合では、コール再較正システムは、コール再較正機械学習モデルを利用して、配列決定メトリックに基づいてヌクレオチドベースコールを修正又は更新する。本明細書で使用される場合、「コール再較正機械学習モデル」という用語は、バリアントコール分類を生成する機械学習モデルを指す。例えば、いくつかの場合では、コール再較正機械学習モデルは、配列決定メトリックに基づいてバリアントコールの様々な確率又は予測を示すバリアントコール分類を生成するように訓練される。したがって、いくつかの場合では、コール再較正機械学習モデルは、バリアントコール再較正機械学習モデルである。ある特定の実施形態では、コール再較正機械学習モデルは、複数のサブモデルを含むか、又は別のコール再較正機械学習モデルと連携して動作する。例えば、第1のコール再較正機械学習モデル(例えば、勾配ブーストツリーのアンサンブル)は、バリアントコール分類の第1のセットを生成し、第2のコール再較正機械学習モデル(例えば、ランダムフォレスト)は、バリアントコール分類の第2のセットを生成する。
【0052】
関連して、「バリアントコール分類」という用語は、1つ以上の配列決定メトリックに基づくヌクレオチドベースコールのいくつかの態様に関連付けられた、確率、スコア、又は他の定量的測定値を示すコール再較正機械学習モデルから予測分類を指す。バリアントコール分類は、コール再較正機械学習モデルの適用に応じて、特殊な予測を含むことができる。複対立遺伝子ゲノム座標についてのヌクレオチドベースコール(又はバリアントコール)を生成するための実施形態では、バリアントコール分類は、(i)複対立遺伝子ゲノム座標でのホモ接合参照遺伝子型の参照確率、(ii)複対立遺伝子ゲノム座標での遺伝子型エラーの異なる遺伝子型確率、及び(iii)複対立遺伝子ゲノム座標での正確なバリアントコール遺伝子型の正確なバリアント確率を含み得る。
【0053】
一倍体ゲノム座標についてのヌクレオチドベースコール(又はバリアントコール)を生成するための実施形態では、バリアントコール分類は、(i)ゲノム座標での第1の遺伝子型の第1の遺伝子型確率及び(ii)ゲノム座標での第2の遺伝子型の第2の遺伝子型確率を含み得る。上で示唆したように、第1の遺伝子型確率は、遺伝子型座標での遺伝子型が一倍体参照遺伝子型である確率であり得、第2の遺伝子型確率は、遺伝子型座標での遺伝子型が一倍体代替遺伝子型である確率であり得る。これら又は他の実施形態、例えば、ホモ接合参照遺伝子型を示すことが示されたゲノム座標についてヌクレオチドベースコール(又はバリアントコール)を生成するための実施形態では、バリアントコール分類は、(i)ヌクレオチドベースコールがそれぞれ偽陽性若しくはホモ接合参照遺伝子型である確率を示す偽陽性分類若しくはホモ接合参照分類、(ii)遺伝子型(例えば、特定の位置でのバリアントコールについてのヘテロ接合若しくはホモ接合遺伝子型の指標)がそれぞれ不正確な遺伝子型若しくはヘテロ接合遺伝子型である確率を示す遺伝子型エラー分類又はヘテロ接合遺伝子型分類、及び/又は(iii)ヌクレオチドベースコールがそれぞれ真陽性若しくはホモ接合代替遺伝子型である確率を示す真陽性分類若しくはホモ接合代替分類を含み得る。したがって、いくつかの場合では、バリアントコール分類は、中間スコアリングメトリック及び/又はヌクレオチドベースコールについての遺伝子型が正確である予測確率を表す。
【0054】
言及したように、いくつかの実施形態では、コール再較正機械学習モデルは、ニューラルネットワークとすることができる。「ニューラルネットワーク」という用語は、分類又は近似未知関数を決定するための入力に基づいて訓練及び/又は調整することができる機械学習モデルを指す。例えば、ニューラルネットワークは、ニューラルネットワークに与えられる複数の入力に基づいて、通信し、複雑な関数を近似し、出力(例えば、生成されたデジタル画像)を生成するように学習する、相互接続された人工ニューロン(例えば、層に編成された)のモデルを含む。いくつかの場合では、ニューラルネットワークは、深層学習技法を実装してデータ内の高レベル抽象化をモデル化するアルゴリズム(又はアルゴリズムセット)を指す。例えば、ニューラルネットワークは、畳み込みニューラルネットワーク、リカレントニューラルネットワーク(例えば、LSTM)、グラフニューラルネットワーク、自己注意変換ニューラルネットワーク、又は生成敵対的ニューラルネットワークを含むことができる。
【0055】
上で記載したように、コール再較正システムは、ゲノム座標においてバリアントを同定する尤度を示すか又は反映するバリアントコール分類を生成することができる。本明細書で使用される場合、「バリアント」という用語は、参照配列又は参照ゲノム中の対応するヌクレオチドベース(又は複数のヌクレオチドベース)とアラインメントしないか、異なるか、又は変化する、ヌクレオチドベース又は複数のヌクレオチドベースを指す。例えば、バリアントは、SNP、インデル、又は参照配列の対応するゲノム座標でのヌクレオチドベースとは異なる試料ヌクレオチド配列におけるヌクレオチドベースを示す構造バリアントを含む。これらに沿って、「バリアントヌクレオチドベースコール」(又は単に「バリアントコール」)は、特定のゲノム座標でのバリアントを含むヌクレオチドベースコールを指す。逆に、「非バリアントヌクレオチドベースコール」(又は単に「非バリアントコール」)は、ゲノム座標での非バリアントを含むヌクレオチドベースコールを指す。
【0056】
言及したように、いくつかの実施形態では、コール再較正システムは、バリアントコールファイルに対応するデータフィールドを修正する。本明細書で使用される場合、「バリアントコールファイル」という用語は、ヌクレオチドベースコール(例えば、バリアントコール)に関する他の情報とともに、参照ゲノムと比較した1つ以上のヌクレオチドベースコール(例えば、バリアントコール)を示す又は表すデジタルファイルを指す。例えば、バリアントコールフォーマット(variant call format、VCF)ファイルは、メタ情報行、ヘッダ行、及び各データ行が単一ヌクレオチドベースコール(例えば、単一バリアント)に関する情報を有するデータ行を含む、特定のゲノム座標でのバリアントに関する情報を有するテキストファイルフォーマットを指す。以下に更に記載されるように、コール再較正システムは、ベースコール品質メトリックのための品質フィルタを通過するか若しくは通過しないバリアントヌクレオチドベースコールを含むプレフィルタバリアントコールファイル、又は品質フィルタを通過するが品質フィルタを通過しないバリアントヌクレオチドベースコールを除外するバリアントヌクレオチドベースコールを含むポストフィルタバリアントコールファイルを含む、異なるバージョンのバリアントコールファイルを生成することができる。
【0057】
いくつかの実施形態では、コール再較正システムは、バリアントコールファイルに関連付けられたヌクレオチドベースコールのメトリックに対応するデータフィールド、例えば、コール品質、遺伝子型、及び遺伝子型品質についてのフィールドを修正する。本明細書で使用される場合、「コール品質」という用語は、バリアントコールファイル内のデータフィールドに関して使用される場合、バリアントが所与の場所に存在する尤度又は確率の尺度又は指標を指す。したがって、VCFファイルに対応するコール品質フィールド(又はQUALフィールド)は、試料ゲノムのゲノム座標がバリアントを含む確率を表す、Phredスケール品質又はQスコアなどのベースコール品質メトリックを含み得る。同様に、「遺伝子型品質」は、フィールドに関して使用される場合、ヌクレオチドベースコールのための特定の予測遺伝子型が正確である尤度又は確率を指す。
【0058】
記載したように、いくつかの実施形態では、コール再較正システムは、コール生成モデルを利用して、ゲノム座標についてのヌクレオチドベースコールを生成する。本明細書で使用される場合、「コール生成モデル」という用語は、ヌクレオチドベースコール及び関連するメトリックを含む、試料ヌクレオチド配列のヌクレオチドリードから配列決定データを生成する確率モデルを指す。したがって、いくつかの場合では、コール生成モデルは、バリアントコール生成モデルであり得る。例えば、いくつかの場合では、コール生成モデルは、試料ヌクレオチド配列のヌクレオチドリードに基づいてバリアントコールを生成するベイズ確率モデルを指す。そのようなモデルは、リードパイルアップ(例えば、単一のゲノム座標に対応する複数のヌクレオチドリード)に対応する配列決定メトリックを処理又は分析することができ、これには、マッピング品質、塩基品質、及び外来リード、欠落リード、ジョイント検出などを含む様々な仮説が含まれる。コール生成モデルは、同様に、限定されるものではないが、マッピング及びアラインメント、ソート、重複マーキング、リードパイルアップ深さの計算、並びにバリアントコーリングのための、異なるソフトウェアアプリケーション又はコンポーネントを含む、複数のコンポーネントを含み得る。いくつかの場合では、コール生成モデルは、バリアントコーリング関数並びにマッピング及びアラインメント関数のためのILLUMINA DRAGENモデルを指す。
【0059】
上で言及したように、ある特定の記載された実施形態では、コール再較正システムは、個々の配列決定メトリックに関連付けられた寄与尺度を生成又は決定する。本明細書で使用される場合、「寄与尺度」という用語は、ベースコール出力ファイル(例えば、バリアントコールファイル)、ベースコール出力ファイル内の所与のヌクレオチドベースコール、又は(特に)所与のバリアントコールのためのフィールドの所与の再較正に対して配列決定メトリックが有する効果、影響、又はインパクトの尺度を指す。例えば、寄与尺度は、ヌクレオチドベースコールを決定する際に、1つの配列決定メトリックが、異なるヌクレオチドベースコールよりも(及び他の配列決定メトリックと比較して)どの程度の役割を果たすかを示す。
【0060】
以下の段落は、例示的な実施形態及び実装形態を描写する例示的な図に関して、コール再較正システムを説明する。例えば、図1は、1つ以上の実施形態による、コール再較正システム106が動作するシステム環境(又は「環境」)100の概略図を示す。図示されるように、環境100は、ネットワーク112を介してユーザクライアント装置108及び配列決定装置114に接続された1つ以上のサーバ装置102を含む。図1は、コール再較正システム106の一実施形態を示すが、本開示は、代替的な実施形態及び構成を以下に説明する。
【0061】
図1に示されるように、サーバ装置102、クライアント装置108、及び配列決定装置114は、ネットワーク112を介して互いに通信することができる。ネットワーク112は、コンピューティング装置が通信することができる任意の適切なネットワークを含む。例示的なネットワークを、図15に関して以下で更に詳細に考察する。
【0062】
図1によって示されるように、配列決定装置114は、核酸ポリマーを配列決定するための装置を含む。いくつかの実施形態では、配列決定装置114は、ゲノム試料から抽出された核酸セグメント又はオリゴヌクレオチドを分析して、配列決定装置114上で直接的又は間接的のいずれかで(本明細書に記載される)コンピュータ実装方法及びシステムを利用して、ヌクレオチドリード又は他のデータを生成する。より具体的には、配列決定装置114は、ヌクレオチド試料スライド(例えば、フローセル)内で、試料から抽出された核酸配列を受け取り、分析する。1つ以上の実施形態では、配列決定装置114は、SBSを利用して、核酸ポリマーをヌクレオチドリードに配列決定する。いくつかの実施形態では、配列決定装置114は、ネットワーク112を介して通信することに加えて、又はその代替として、ネットワーク112を迂回し、クライアント装置108と直接通信する。
【0063】
図1によって更に示されるように、サーバ装置102は、ヌクレオチドベースコールを決定するための、又は核酸ポリマーを配列決定するためのデータなどのデジタルデータを生成、受信、分析、記憶、及び送信することができる。図1に示されるように、配列決定装置114は、配列決定装置114からコールデータを送信し得る(及びサーバ装置102は、コールデータを受信し得る)。サーバ装置102は、クライアント装置108とも通信することができる。特に、サーバ装置102は、バリアントコールファイル、又はヌクレオチドベースコール、配列決定メトリック、エラーデータ、又はヌクレオチドベースコールに関連付けられた他のメトリックを示す他の情報、を含むデータを、クライアント装置108に送信することができる。
【0064】
いくつかの実施形態では、サーバ装置102は、分散したサーバの集合を含み、サーバ装置102は、ネットワーク112にわたって分散され、同じ若しくは異なる物理的場所に位置する、いくつかのサーバ装置を含む。また、サーバ装置102は、コンテンツサーバ、アプリケーションサーバ、通信サーバ、ウェブホスティングサーバ、又は別のタイプのサーバを含むことができる。いくつかの場合では、サーバ装置102は、配列決定装置114と同じ物理的位置に位置する。
【0065】
図1に更に示されるように、サーバ装置102は、配列決定システム104を含むことができる。概して、配列決定システム104は、配列決定装置114から受信した配列決定データなどのコールデータを分析して、核酸ポリマーについてのヌクレオチドベース配列を決定する。例えば、配列決定システム104は、配列決定装置114から生データを受信し、核酸セグメントについてのヌクレオチドベース配列を決定することができる。いくつかの実施形態では、配列決定システム104は、DNA及び/又はRNAセグメント又はオリゴヌクレオチド中のヌクレオチドベースの配列を決定する。核酸ポリマーについての配列を処理及び決定することに加えて、配列決定システム104はまた、1つ以上のゲノム座標についての1つ以上のヌクレオチドベースコール及び/又はバリアントコールを示すバリアントコールファイルを生成する。
【0066】
今述べたように、また図1に図示されるように、コール再較正システム106は、配列決定装置114からの配列決定メトリックなどのコールデータを分析して、試料核酸配列についてのヌクレオチドベースコールを決定する。コール再較正システム106は、コール生成モデル及びコール再較正機械学習モデルを含む。いくつかの実施形態では、コール再較正システム106は、試料ヌクレオチド配列についての配列決定メトリックを決定する。配列決定メトリックから導出又は調製されたデータに基づいて、コール再較正システム106は、コール生成モデルを訓練及び適用して、ゲノム座標に対応する試料配列についてのヌクレオチドベースコールを決定する。コール再較正システム106は更に、コール再較正機械学習モデルを利用して、バリアントコール分類のセットを生成して、ヌクレオチドベースコール(及び/又はバリアントコール)を更新又は修正する。そのようなデータに基づいて、例えば、コール再較正システム106は、バリアントコールファイルに対応するデータフィールドを更新して、精度を改善するためにヌクレオチドベースコール及び/又はバリアントコールを更新することができる。
【0067】
図1に更に図示され示されるように、クライアント装置108は、デジタルデータを生成し、記憶し、受信し、送信することができる。特に、クライアント装置108は、配列決定装置114から配列決定メトリックを受信することができる。更に、クライアント装置108は、サーバ装置102と通信して、ヌクレオチドベースコール、及び/又はコール品質、遺伝子型指標、及び遺伝子型品質などの他のメトリック、を含むバリアントコールファイルを受信することができる。したがって、クライアント装置108は、グラフィカルユーザインターフェース内のヌクレオチドベースコールに関する情報を、クライアント装置108に関連付けられたユーザに提示又は表示することができる。例えば、クライアント装置108は、特定のヌクレオチドベースコールに関する個々の配列決定メトリックに関連付けられた、又はそれに起因する、様々な寄与尺度の視覚化又は描写を含む寄与尺度インターフェースを提示することができる。
【0068】
図1に図示されるクライアント装置108は、様々なタイプのクライアント装置を含むことができる。例えば、いくつかの実施形態では、クライアント装置108は、デスクトップコンピュータ若しくはサーバ、又は他のタイプのクライアント装置などの非モバイル装置を含む。更に他の実施形態では、クライアント装置108は、ラップトップ、タブレット、携帯電話、又はスマートフォンなどのモバイル装置を含む。クライアント装置108に関する更なる詳細は、図15に関して以下で考察する。
【0069】
図1に更に図示されるように、クライアント装置108は、配列決定アプリケーション110を含む。配列決定アプリケーション110は、クライアント装置108上に記憶され、実行されるウェブアプリケーション又はネイティブアプリケーション(例えば、モバイルアプリケーション、デスクトップアプリケーション)であり得る。配列決定アプリケーション110は、(実行されると)クライアント装置108に、コール再較正システム106からデータを受信させ、クライアント装置108における表示のために、バリアントコールファイルからのデータを提示させる命令を含むことができる。更に、配列決定アプリケーション110は、クライアント装置108に、ヌクレオチドベースコールの配列決定メトリックについての寄与尺度の可視化を表示するように命令することができる。
【0070】
図1に更に図示されるように、コール再較正システム106は、配列決定アプリケーション110の一部として、クライアント装置108上に、又は配列決定装置114上に位置し得る。したがって、いくつかの実施形態では、コール再較正システム106は、クライアント装置108上に(例えば、完全に又は部分的に位置して)実装される。更に他の実施形態では、コール再較正システム106は、配列決定装置114など、環境100の1つ以上の他のコンポーネントによって実装される。特に、コール再較正システム106は、サーバ装置102、ネットワーク112、クライアント装置108、及び配列決定装置114にわたって様々な異なる方法で実装することができる。例えば、コール再較正システム106は、サーバ装置102からクライアント装置108及び/又は配列決定装置114にダウンロードすることができ、コール再較正システム106の機能の全部又は一部は、環境100内のそれぞれの装置で実施される。
【0071】
図1に更に図示されるように、環境100は、データベース116を含む。データベース116は、バリアントコールファイル、試料ヌクレオチド配列、ヌクレオチドリード、ヌクレオチドベースコール、バリアントコール、及び配列決定メトリックなどの情報を記憶することができる。いくつかの実施形態では、サーバ装置102、クライアント装置108、及び/又は配列決定装置114は、データベース116と通信して(例えば、ネットワーク112を介して)、バリアントコールファイル、試料ヌクレオチド配列、ヌクレオチドリード、ヌクレオチドベースコール、バリアントコール、及び配列決定メトリックなどの情報を記憶及び/又はアクセスする。いくつかの場合では、データベース116は、コール再較正機械学習モデル及び/又はコール生成モデルなどの1つ以上のモデルも記憶する。
【0072】
図1は、ネットワーク112を介して通信する環境100のコンポーネントを図示しているが、ある特定の実装形態では、環境100のコンポーネントは、ネットワークを迂回して互いに直接通信することもできる。例えば、前述したように、いくつかの実装形態では、クライアント装置108は、配列決定装置114と直接通信することができる。加えて、いくつかの実施形態では、クライアント装置108は、コール再較正システム106と直接通信する。更に、コール再較正システム106は、サーバ装置102又は環境100内の他の場所に収容された、又はそれによってアクセスされる1つ以上のデータベースにアクセスすることができる。
【0073】
上で示したように、コール再較正システム106は、1つ以上のバリアントコール分類に基づいてヌクレオチドベースコールを決定することができる。特に、コール再較正システム106は、コール再較正機械学習モデルを利用して配列決定メトリックからバリアントコール分類を決定することができ、生成されたバリアントコール分類からヌクレオチドベースコールに関連付けられた様々なメトリックを決定又は更新することができる。図2は、1つ以上の実施形態による、バリアントコール分類に基づいてヌクレオチドベースコールを決定する例示的な概要を示す。
【0074】
図2に図示されるように、コール再較正システム106は、配列決定メトリックを決定するために動作202を実行する。特に、コール再較正システム106は、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及びコールモデル生成の配列決定メトリックなどの配列決定メトリックを決定する。例えば、コール再較正システム106は、試料ヌクレオチド配列からのヌクレオチドリードの様々なヌクレオチドベースコールに関する様々な属性又はデータを示す配列決定メトリックを決定する。様々なタイプの配列決定メトリックを決定することに関する更なる詳細は、図6A図6Cを参照して以下で提供される。
【0075】
図2に更に図示されるように、コール再較正システム106は、バリアントコール分類を生成するために動作204を実行する。より具体的には、コール再較正システム106は、コール再較正機械学習モデルを利用して、配列決定メトリックからバリアントコール分類を生成(又は更新若しくは改良)する。詳述すると、コール再較正システム106は、コール再較正機械学習モデルを利用して、1つ以上の配列決定メトリックを処理又は分析し、分類セット(例えば、遺伝子型に関連付けられた予測確率)を生成する。例えば、コール再較正システム106は、コール再較正機械学習モデルを利用して、配列決定メトリックに基づいて、対応するヌクレオチドベースコールの遺伝子型に関連付けられたある特定の確率を示すバリアントコール分類のセット(図2では「クラス1」、「クラス2」、及び「クラス3」として表す)を生成する。
【0076】
いくつかの実施形態では、コール再較正システム106は、異なるアプリケーション及び/又は異なるゲノム座標について異なるバリアントコール分類を生成する。例えば、コール再較正システム106は、複対立遺伝子ゲノム座標についてのバリアントコール分類の第1のセットを生成し、一倍体ゲノム座標についてのバリアントコール分類の第2のセットを生成し、ホモ接合参照遺伝子型が示されたゲノム座標についてのバリアントコール分類の第3のセットを生成する。ある特定の実施形態では、コール再較正システム106は、異なるアプリケーション及び/又は異なるゲノム座標について同じバリアントコール分類を生成するが、それらを別々に利用するか、又はバリアントコール分類に関連付けられた異なる情報を利用する。バリアントコール分類を生成することに関する更なる詳細は、後続の図を参照して以下に提供される。
【0077】
図2に更に図示されるように、コール再較正システム106はまた、バリアントコール分類に基づいて、最終ヌクレオチドベースコール(又はバリアントコール)を決定するための動作206を実行する。より詳細には、コール再較正システム106は、参照ゲノム内のゲノム座標での試料ヌクレオチド配列についてのヌクレオチドベースコールを決定又は更新する。最終ヌクレオチドベースコールを決定又は生成するために、いくつかの実施形態では、コール再較正システム106は、コール生成モデルを利用して初期ヌクレオチドベースコールを決定し、コール再較正機械学習モデルによって生成されたバリアントコール分類に基づいてある特定の初期ヌクレオチドベースコールを編集又は更新する。
【0078】
詳述すると、コール再較正システム106は、コール生成モデルを利用して、配列決定メトリック(例えば、動作204においてバリアントコール分類を生成するために使用される同じ配列決定メトリックのうちの1つ以上)を処理又は分析し、配列決定メトリックからヌクレオチドベースコール(例えば、初期ヌクレオチドベースコール)を決定する。例えば、コール再較正システム106は、いくつかのベイジアン確率モデル又はアルゴリズムを適用して、異なるヌクレオチドベース、品質メトリック、マッピングメトリック、ジョイントメトリック、及びバリアントコールファイル内に含めるための試料ヌクレオチド配列内に生じる他のデータについての様々な確率を導出する。確率モデルから、コール再較正システム106は、対応するゲノム座標での試料ゲノムの予測ヌクレオチドベースを示すヌクレオチドベースコール(例えば、参照ゲノムからの参照ベースに対する差異又は同一性を示すコール)を決定する。
【0079】
図2に更に図示されるように、ある特定の実装形態では、コール再較正システム106は、(例えば、動作204を介して決定されるような)初期バリアントコール分類を利用して、ヌクレオチドベースコールを生成し、再較正し、決定し、修正し、又は増強する。詳述すると、コール再較正システム106は、バリアントコール分類に関連付けられた確率を利用して、ヌクレオチドベースコールに関連付けられたある特定のメトリックを決定又は更新する。例えば、コール再較正システム106は、コール品質、遺伝子型、及び遺伝子型品質(又は以下に説明するその他のもの)などのメトリックについて、バリアントコールファイルに対応するデータフィールドを修正する。
【0080】
いくつかの場合では、コール再較正システム106は、バリアントコール分類から外挿して、コール品質、遺伝子型、及びヌクレオチドベースコールに関連付けられた遺伝子型品質などのバリアントコールファイルに対応するメトリックを決定する。例えば、遺伝子型エラー分類を利用することによって、コール再較正システム106は、初期ヌクレオチドベースコールにおける、又はそれに関連付けられたある特定のエラーを修復することができる。実際、コール再較正システム106がヌクレオチドベースコールについて高い偽陽性確率を決定した場合、コール再較正システム106は、コール再較正機械学習モデルを適用してバリアントフィルタとして機能して、ヌクレオチドベースコールに関連付けられたコール品質を修正(例えば、低減)する。別の例として、コール再較正システム106は、システムが以前にヘテロ接合/ホモ接合(het/hom)エラーをフィルタ除外するか又は二重にペナルティを課す場合(例えば、システムが正しくないヌクレオチドベースコールを生成し、これが更に正確であるヌクレオチドベースコールを見落とすことになる場合)、遺伝子型エラー確率を利用して、ヌクレオチドベースコールの遺伝子型及び/又は遺伝子型品質を修正する。
【0081】
ある特定の実施形態では、コール再較正システム106は、単一のバリアントコール分類を考慮して、ヌクレオチドベースコールのためのデータフィールド(例えば、コール品質、遺伝子型、又は遺伝子型品質)を修正する。他の実施形態では、コール再較正システム106は、複数のバリアントコール分類を一度に(例えば、重み付けされた組み合わせで)考慮して、コール品質、遺伝子型、及び/又は遺伝子型品質のための1つ以上のデータフィールドを修正又は更新する。ヌクレオチドベースコールの生成及び修正に関する更なる詳細は、後続の図を参照して以下に提供される。
【0082】
1つ以上の実装形態では、コール再較正システム106は、ヌクレオチドベースコールを決定するプロセスの間又はその最中に(例えば、動作204を介して)バリアントコール分類を生成する。例えば、コール再較正システム106は、コール再較正機械学習モデル及びコール生成モデルを同時に実装して、ヌクレオチドベースコール及びそのヌクレオチドベースコールを修正するためのバリアントコール分類を生成する。コール再較正システム106は更に、ヌクレオチドベースコールのバリアントコールファイルに対応するデータフィールドを修正して、最終ヌクレオチドベースコールを生成する(例えば、プレフィルタ又はポストフィルタバリアントコールファイル内で)。実際に、コール再較正システム106は、バリアントコール分類並びにコール生成モデルによって処理された配列決定メトリック(例えば、バリアントコール分類を生成するために使用される同じ配列決定メトリックのうちの1つ以上)から、最終的な(例えば、再較正された)ヌクレオチドベースコールを生成する。上で説明したように、この同時の又は並行の動作は、ヌクレオチドベースコールが初めに生成されるときにそれらを再較正することによって(1つの動作を他の動作の前に実行するのではなく)、コール再較正システム106に、改善された計算効率及び増加させられた速度を与える。
【0083】
1つ以上の実装形態では、コール再較正システム106は、ヌクレオチドベースコールを、SNP、欠失、挿入、又は構造バリエーションの一部として決定する。例えば、コール再較正システム106は、参照配列中にAが存在する試料ヌクレオチド配列中のGを同定することによって、ヌクレオチドベースコールがゲノム座標(例えば、chr1:151863125)におけるSNPを表すと決定する。別の例として、コール再較正システム106は、参照配列中にGTAACが存在する試料ヌクレオチド配列中の単一のGを同定することによって、1つ以上のゲノム座標(例えば、chr1:49263256)の周囲のヌクレオチドベースコールが欠失を示すと決定する。
【0084】
更なる例として、コール再較正システム106は、参照配列中にTが存在する試料ヌクレオチド配列中のTTTCCの配列を同定することによって、ヌクレオチドベースコールの配列がゲノム座標(例えば、chr1:7602080)における挿入を表すと決定する。実際、いくつかの場合では、挿入は、参照配列のゲノム座標において単一の参照ベースを置き換えるヌクレオチドベースコールの配列を含む。
【0085】
いくつかの実施形態では、コール再較正システム106は、ゲノム試料のゲノム座標(例えば、二倍体座標、一倍体座標、複対立遺伝子座標、及びホモ接合参照遺伝子型を示すものとして不正確に同定されたゲノム座標のうちの1つ以上を含む)でのベースコール品質メトリックについての品質閾値(例えば、カスタマイズされた品質閾値)を設定する。ベースコール品質メトリックは、コール生成モデルとコール再較正機械学習モデルとの間で著しく変化し得る。ベースコール品質メトリックの潜在的に広い範囲及び著しい変化を調整するために、コール再較正システム106は、性能の尺度(例えば、偽陽性と偽陰性との間の好ましいトレードオフ)として好ましいF1位置をもたらす(又はそれに対応する)バリアントコールファイル出力のための厳しいフィルタQUAL閾値を決定又は設定することができる。
【0086】
そのような好ましいF1位置は、コーリングバリアントの精度と再現率との間の好ましい(例えば、最良の)トレードオフを有するスコア又は位置を含むことができる。いくつかの場合では、例えば、F1位置(又はF1スコア)は、偽陽性バリアント及び偽陰性バリアントの組み合わせ(例えば、合計)に比例する(これは、好ましいF1スコアが低いFP+FNメトリックに対応することを意味する)。以下に記載されるように、例えば、図10Bは、コール再較正システム106が一倍体ゲノム座標でのベースコール品質メトリックのための品質閾値を設定することに基づくFP+FNメトリックの例を示す。したがって、いくつかの実施形態では、コール再較正システム106は、図10Bに示されるコール再較正システム1又は2のための好ましいF1位置をもたらすベースコール品質メトリックのための品質フィルタを利用する。
【0087】
しかしながら、上で示したように、コール再較正システム106は、コール再較正機械学習モデルを使用する場合、好ましいF1位置をもたらすいずれか又は全てのゲノム座標でのベースコール品質メトリックについてそのような品質閾値を設定することができる。実際、いくつかの実施形態では、コール再較正システム106は、F1スコアを生成し、一倍体座標、二倍体座標、複対立遺伝子座標、ホモ接合参照遺伝子型を示すものとして不正確に同定されたゲノム座標、又は他のゲノム座標を含む様々なゲノム座標に対して、QUALスコア(上で説明したような)に関連付けられたフィルタリング論理を適用する。
【0088】
したがって、いくつかの場合では、コール生成モデルが以前の品質フィルタを通過しないある特定のバリアントヌクレオチドベースコールを破棄するのではなく、コール再較正システム106は、以下の一連の動作を実行する:(i)コール生成モデルを利用して、様々な領域又は座標にわたってバリアントヌクレオチドベースコールを生成すること;(ii)コール再較正機械学習モデルを利用して、バリアントヌクレオチドベースコール及び対応するメトリック(例えば、対応するVCFフィールドにおけるベースコール品質メトリック、遺伝子型品質メトリック、又は遺伝子型メトリックのうちの1つ以上)を再較正すること;(iii)コール生成モデルが対応するゲノム座標のバリアントヌクレオチドベースコールを呼び出したため、又はコール再較正機械学習モデルがバリアントヌクレオチドベースコールなどが以前の品質フィルタを通過しなかったとコール生成モデルが決定したゲノム座標のバリアントヌクレオチドベースコールを呼び出したためのいずれかで、品質閾値を上回るバリアントヌクレオチドベースコールを含むプレフィルタリングされたVCFを生成すること;及び(iv)プレフィルタリングされたVCFから品質バリアントヌクレオチドベースコールを選択するための厳しい品質閾値フィルタを利用すること。そのような厳しい品質閾値は、コール再較正システム106のフィルタリングされた出力が好ましいF1位置に近くなるように構成される(それによって、厳しい品質閾値を満たすバリアントヌクレオチドベースコールのみを含むポストフィルタVCFが得られる)。コール再較正システム106は、コール再較正機械学習モデルがアクティブであるか、又はコール生成モデル(例えば、DRAGEN)がコール再較正機械学習モデルなしで実行しているかに応じて、QUAL閾値を変えることができる。
【0089】
上で言及したように、ある特定の記載された実施形態では、コール再較正システム106は、複対立遺伝子ゲノム座標についてのバリアントコール分類を生成する。加えて、コール再較正システム106は、バリアントコール分類に基づいて複対立遺伝子座標についてのバリアントコールファイルを生成又は更新する。図3A図3Bは、1つ以上の実施形態による、複対立遺伝子ゲノム座標のバリアントコール分類からバリアントコールファイルを生成するコール再較正システム106の例示的なフローを示す。例えば、図3Aは、1つ以上の実施形態による、複対立遺伝子ゲノム座標についてのバリアントコール分類を生成するコール再較正システム106を示す。その後、図3Bは、1つ以上の実施形態による、バリアントコール分類からバリアントコールファイルを生成するコール再較正システム106を示す。
【0090】
図3Aに図示されるように、コール再較正システム106は、複対立遺伝子ゲノム座標302を同定する。例えば、コール再較正システム106は、試料ヌクレオチド配列に対応するヌクレオチドベースコールから、又は複対立遺伝子ゲノム座標302に対応するハプロタイプデータに基づいて、複対立遺伝子ゲノム座標302を同定する。いくつかの場合では、コール再較正システム106は、(i)ゲノム座標をカバーするヌクレオチドリードからのヌクレオチドベースコールが対応する対立遺伝子からの3つ以上の可能なヌクレオチドベースコールを含むこと、及び(ii)ヌクレオチドベースコールが1つ以上の閾値配列決定メトリック(例えば、Q30のベースコール品質メトリック)を満たすことを決定することによって、複対立遺伝子ゲノム座標302を同定する。追加的に、又は代替的に、ある特定の実施形態では、コール再較正システム106は、特定のゲノム座標と相関するハプロタイプ参照パネルを含むデータベースからゲノム座標を同定する。データベースにおける異なるハプロタイプ確率に基づいて、コール再較正システム106は、ゲノム座標を複対立遺伝子ゲノム座標の可能性のある候補として同定する。同定方法にかかわらず、いくつかの場合では、コール再較正システム106は、コール生成モデル(例えば、コール生成モデル内のバリアントコーラー)を使用して、複対立遺伝子ゲノム座標302を同定する。
【0091】
図3Aに示されるように、例えば、コール再較正システム106は、座標1~5に対応するヌクレオチドベース配列を分析して、ゲノム座標4を複対立遺伝子ゲノム座標302として同定する。説明を簡単にするために、ヌクレオチドベース配列の各々は、異なる対立遺伝子にマッピングされ、座標1~5に対応する異なるヌクレオチドリードの代表を構成する。座標1~5の各々は、それらに対応する3つの可能な対立遺伝子(1つは参照ゲノム由来、もう1つは第1の可能な対立遺伝子「代替対立遺伝子1」由来、及びもう1つは第2の可能な対立遺伝子「代替対立遺伝子2」由来)を有するが、座標4のみが、おそらく割り当てられ得る異なる対立遺伝子由来の3つ以上の異なるヌクレオチドベースコールを示す。具体的には、座標4は、参照ゲノム由来のG、第1の代替対立遺伝子由来のC、又は第2の代替対立遺伝子由来のTを示し得る。
【0092】
図3Aに更に図示されるように、コール再較正システム106は、複対立遺伝子ゲノム座標302についての配列決定メトリック304を決定する。特に、コール再較正システム106は、コール生成モデルによって生成された、又は外部ソースから取り出されたヌクレオチドリードに関連付けられた配列決定メトリックを決定する。配列決定メトリック304を決定することに関する更なる詳細は、図6A図6Cを特に参照して以下に提供される。
【0093】
加えて、図3Aに示されるように、コール再較正システム106は、コール再較正機械学習モデル306を利用して、バリアントコール分類308を生成する。具体的には、コール再較正システム106は、コール再較正機械学習モデル306を利用して、複対立遺伝子ゲノム座標302でのホモ接合参照遺伝子型の確率を示す参照確率310を生成する。詳述すると、コール再較正システム106は、その配列決定メトリックに基づいて、複対立遺伝子ゲノム座標302が参照ゲノムに関してホモ接合遺伝子型を示す確率を示すバリアントコール分類を生成する。示されるように、参照確率310は、試料ヌクレオチド配列からの座標4のホモ接合参照遺伝子型(0/0)の確率を示す(P(0/0)@4と表される)。
【0094】
1つ以上の実装形態では、コール再較正システム106はまた、コール再較正機械学習モデル306を利用して、複対立遺伝子ゲノム座標302での遺伝子型エラーの確率を示す異なる遺伝子型確率312を生成する。例えば、コール再較正システム106は、複対立遺伝子ゲノム座標302についての予測された遺伝子型が不正確な遺伝子型(例えば、コール生成モデルによって不正確に同定された遺伝子型)であるか、又は予測された遺伝子型に不正確な対立遺伝子を含む確率を決定する。詳述すると、いくつかの場合では、コール再較正システム106は、任意のhet/homエラーが複対立遺伝子ゲノム座標302に存在する確率(例えば、代替ベースは正確であるが遺伝子型が誤っている場合)、又はヌクレオチドベースコールが全て誤った遺伝子型若しくは予測された遺伝子型における誤った対立遺伝子のいずれかを表す確率を決定する。例えば、het/homエラーが存在する確率を決定する場合、コール再較正システム106は、正確な1/1遺伝子型コール(例えば、T/T)の代わりに0/1遺伝子型コール(例えば、A/T)を不正確に決定する確率(又は正確な遺伝子型コールが0/1である場合はその逆)など、「1」として表される代替ベースコールが正確であるが、遺伝子型が不正確である確率を決定する。
【0095】
異なる遺伝子型確率312を決定することによって、コール再較正システム106は、不正確なコールがしばしばインデルである既存の配列決定システムの不正確さを修正することができる。特に、コール再較正システム106は、既存の配列決定システムが、ヌクレオチドベースコールが長い挿入配列又は欠失配列から生じる不正確な対立遺伝子を表す不正確な遺伝子型を表すと判定する場合、インデルに対応するゲノム座標についてのヌクレオチドベースコールをより正確に生成することができる。示されるように、異なる遺伝子型確率312は、座標4に属する異なる遺伝子型の確率(P(diff genotype)@4として表される)を示す。
【0096】
図3Aに更に図示されるように、コール再較正システム106は、コール再較正機械学習モデル306を利用して、複対立遺伝子ゲノム座標302での正確なバリアントコール遺伝子型の確率を示す正確なバリアント確率314を生成する。例えば、コール再較正システム106は、コール生成モデルによって決定されるように、複対立遺伝子ゲノム座標302について予測された遺伝子型が正確である確率を生成する。示されるように、コール再較正システム106は、コール生成モデルからの予測されたバリアントコールが座標4について正確である確率(P(correct)@4として表される)を示す正確なバリアント確率314を決定する。
【0097】
図3Bを続けると、いくつかの実施形態では、コール再較正システム106は、バリアントコール分類308を利用して、バリアントコールファイル(例えば、バリアントコールファイル324)に関連付けられた1つ以上のデータフィールド又はバリアントコールファイルフィールド(「VCF」フィールド)を更新する。例えば、コール再較正システム106は、最終ヌクレオチドベースコールについて更新された配列決定メトリックを示す更新されたVCFフィールド316を生成する。いくつかの場合では、コール再較正システム106は、バリアントコール分類308に基づいて、ある特定のVCFフィールドのみを修正又は更新し、他のフィールドを更新しない。他の場合では、コール再較正システム106は、バリアントコール分類308に基づいて、VCFフィールドを更新しない。例えば、複対立遺伝子ゲノム座標302についてヌクレオチドベースコールを生成する場合、コール再較正システム106は、バリアントコール分類308に基づいて、遺伝子型(genotype、GT)フィールドなどのある特定のフィールドを更新しない。したがって、二対立遺伝子ゲノム座標とは対照的に、いくつかの場合では、コール再較正システム106は、いくつかの場合では、複対立遺伝子ゲノム座標での新しい又は更新された遺伝子型を決定するのに十分な情報がないため、GTフィールドを修正又は更新しない。
【0098】
一実施形態を例示するために、図3Bは、1/2の遺伝子型(GT)について更新されたVCFフィールド316を生成するコール再較正システム106を示す。ここで、シトシンは、参照ゲノムに対応する対立遺伝子についての複対立遺伝子ゲノム座標での参照ベース(「Ref:C」として示されている)を表し、アデニンは、異なる対立遺伝子についての複対立遺伝子ゲノム座標での第1の代替ベース(「Alt 1:A」)を表し、チミンは、更に異なる対立遺伝子についての複対立遺伝子ゲノム座標での第2の代替ベース(「Alt 2:T」)を表す。しかし、図3Bは、複対立遺伝子ゲノム座標での可能な参照ベース及び可能な代替ベースの例を示すにすぎない。コール再較正システム106は、バリアントコール分類を生成し、他の複対立遺伝子ゲノム座標での様々な他の参照ベース及び代替ベースについてVCFフィールドにおける対応するメトリックを修正することができる。
【0099】
図3Bに更に図示されるように、コール再較正システム106は、更新されたベースコール品質(QUAL)フィールド318を生成する。より具体的には、コール再較正システム106は、バリアントコール分類308に基づいてベースコール品質メトリックを修正又は更新して、複対立遺伝子ゲノム座標302でのヌクレオチドベースコールの精度を示す。示されるように、更新されたベースコール品質フィールド318は、対応するゲノム座標でのバリアントについて48のQUALスコアを示す。この例では、更新されたベースコール品質メトリック(例えば、48のQUALスコア)は、対応する複対立遺伝子ゲノム座標での任意のタイプのバリアントについてのスコアを表す。加えて、コール再較正システム106は、修正又は更新された遺伝子型品質(genotype quality、GQ)フィールド320を生成する。例えば、バリアントコール分類308に基づいて、コール再較正システム106は、複対立遺伝子ゲノム座標302での予測された遺伝子型が正確である尤度又は確率を示す、修正又は更新された遺伝子型品質メトリックを生成する。示されるように、例えば、更新された遺伝子型品質フィールド320は、ヘテロ接合遺伝子型を有する遺伝子型コールについての遺伝子型品質メトリック(例えば、複対立遺伝子ゲノム座標での1/2の遺伝子型についての4のGQスコア)を示す。
【0100】
1つ以上の実施形態では、コール再較正システム106は、遺伝子型尤度322を更に生成又は更新し、(いくつかの場合では)遺伝子型尤度322を使用して対立遺伝子をランク付けする。詳述すると、コール再較正システム106は、複対立遺伝子ゲノム座標302での候補ヌクレオチドベースコールのそれぞれの帰属確率に従って、複対立遺伝子ゲノム座標302での候補ヌクレオチドベースコールを順序付けることによって、更新された遺伝子型尤度を遺伝子型尤度322として生成する。例えば、コール再較正システム106は、各二倍体遺伝子型が一対の対立遺伝子から構成される複数の遺伝子型に関連付けられた確率を決定する。別の例として、コール再較正システム106は、試料ヌクレオチド配列の複対立遺伝子ゲノム座標302に属する複数の対立遺伝子(例えば、参照ゲノム、第1の代替対立遺伝子、及び第2の代替対立遺伝子に由来)に関連付けられた相対確率を決定する。いくつかの実施形態では、コール再較正システム106は、更新されたVCFフィールド316の一部としてPHREDスケール尤度(PL)フィールドのためのメトリックを生成する。例えば、コール再較正システム106は、例えば、ホモ接合参照遺伝子型、ヘテロ接合遺伝子型、及びホモ接合代替遺伝子型(例えば、それぞれPLフィールド命名法9/0/3を有する)の遺伝子型を示すことができるPLフィールドについてのメトリックを生成する。
【0101】
実際、コール再較正システム106は、コール再較正機械学習モデル306によって同定された任意の他の(非参照)遺伝子型に対するコール生成モデルからの対立遺伝子に対応するヌクレオチドベースコールの相対確率に基づいて、対立遺伝子特異的確率又は尤度を生成する。例えば、いくつかの実施形態では、コール再較正システム106は、遺伝子型についての正規化されたPHREDスケール尤度を示すPLフィールド、及び/又は呼び出された遺伝子型を与えられたデータ(例えば、配列決定メトリック)の対数スケール尤度(例えば、log10スケール)を示す遺伝子型尤度(GL)フィールドにおける、それぞれのヌクレオチドベースコールに対応する各対立遺伝子についての相対確率スコアを示す。
【0102】
更新された遺伝子型尤度を生成し、ある特定のVCFフィールドを修正する例として、いくつかの場合では、コール再較正システム106は、コール再較正機械学習モデル306を利用して、バリアントコール分類308を、3つのバリアントコール分類(その確率の合計は1になる)のセットとして生成する。特に、コール再較正機械学習モデル306は、参照確率310を0.1として、異なる遺伝子型確率312を0.2として、正確なバリアント確率314を0.7として生成することができる。そのような例における参照確率310、異なる遺伝子型確率312、及び正確なバリアント確率314に基づいて、コール再較正システム106は、参照確率310を使用してGT=0/0を更新し、正確なバリアント確率314を使用してGT=1/2を更新し、コール再較正機械学習モデル306及びコール生成モデルからの情報の組み合わせを使用してPLフィールドにおける他の遺伝子型位置を更新することによって、更新された遺伝子型尤度322を生成する。そのような組み合わせを使用するために、いくつかの実施形態では、コール再較正システム106は、(コール生成モデルによって決定されるような)代替遺伝子型の全ての確率を組み合わせて(例えば、合計して)、異なる遺伝子型確率312に一致するように組み合わせをスケーリングする。
【0103】
図3Bに図示されるように、コール再較正システム106は、異なる遺伝子型(GT)について正規化されたPLスコアを決定することによって遺伝子型尤度を生成する。PLスコアの正規化スケールによれば、遺伝子型についての相対的により低いスコア(例えば、PL0)は、遺伝子型がゲノム座標に存在する尤度が相対的により高いことを表し、遺伝子型についての相対的により高いスコア(例えば、PL101)は、遺伝子型がゲノム座標に存在する尤度が相対的により低いことを表す。例えば、コール再較正システム106は、0/0遺伝子型について111のPLスコア、0/1遺伝子型について52のPLスコア、0/2遺伝子型について49のPLスコア、1/1遺伝子型について42のPLスコア、1/2遺伝子型について0のPLスコア、及び2/2遺伝子型について30のPLスコアを決定する。したがって、図3Bにおいて、0のPLスコアは、最も高い尤度を有する遺伝子型又は選択された遺伝子型(例えば、1/2遺伝子型)を示し、111のPLスコアは、最も低い尤度(例えば、0/0遺伝子型)を表す。したがって、この例では、尤度による遺伝子型の順序(最も可能性が高いものから最も可能性が低いものへ)は、1/2、2/2、1/1、0/2、0/1、及び0/0である。
【0104】
いくつかの場合では、コール再較正システム106は、更新された遺伝子型尤度322を、(コール再較正機械学習モデル306を利用することなく)コール生成モデルを介して同定された複数の対立遺伝子のランキングとして生成する。他の場合には、コール再較正システム106は、バリアントコール分類308に基づいて更新された遺伝子型尤度322を生成するように訓練されたコール再較正機械学習モデル306の特殊バージョンを利用する。
【0105】
図3Bに更に図示されるように、コール再較正システム106は、バリアントコールファイル324を生成又は更新する。コール再較正システム106は、ベースコール品質メトリック、遺伝子型品質メトリック、及び/又は更新された遺伝子型尤度を含む、更新されたVCFフィールド316を含むようにバリアントコールファイル324を生成することができる。言及したように、いくつかの場合では、コール再較正システム106は、図3A図3Bの複対立遺伝子分析に基づいて、ある特定のフィールドのみを更新し、遺伝子型(GT)フィールドなどの他のフィールドは変更されずに残される。例えば、コール再較正システム106は、遺伝子型品質フィールド及びベースコール品質フィールドを更新する。
【0106】
遺伝子型について正規化されたPHREDスケール尤度(PL)及び事後遺伝子型確率(genotype probability、GP)などの他のデータフィールドについて、コール再較正システム106は、(i)フィールドをそのまま維持するか、(ii)フィールドを除去するか、又は(iii)呼び出された遺伝子型及びクラス0出力0/0についてGQを反映するようにフィールドのみを更新するかのいずれかを行う。いくつかの場合では、コール再較正システム106は、一貫した更新及び呼び出された遺伝子型が最も高いことを保証するために、呼び出された遺伝子型に関して他の遺伝子型の相対確率を維持する。0/0及び1/2の値のみを更新することによって、コール再較正システム106は、呼び出された遺伝子型からの他の遺伝子型の距離を維持する。
【0107】
バリアントコールファイル324内で、コール再較正システム106は、更新されたVCFフィールド316に基づいて決定される、複対立遺伝子ゲノム座標302に関連付けられた1つ以上の最終ヌクレオチドベースコール(例えば、バリアントヌクレオチドベースコール)を含むか又は更新することができる。実際、複対立遺伝子ゲノム座標302についての最終ヌクレオチドベースコールを生成するために、コール再較正システム106は、複対立遺伝子ゲノム座標での3つ以上の候補対立遺伝子から2つのヌクレオチドベースを(例えば、それらのそれぞれの確率に従って)予測することができる。
【0108】
言及したように、ある特定の記載された実施形態では、コール再較正システム106は、ゲノム試料からの一倍体ヌクレオチド配列内のゲノム座標についての最終ヌクレオチドベースコール(例えば、バリアントコール)を生成する。特に、コール再較正システム106は、試料ヌクレオチド配列の一倍体座標について一倍体遺伝子型を決定し、更に、一倍体遺伝子型がバリアントであるかどうかを判定する。図4A図4Bは、1つ以上の実施形態による、一倍体ゲノム座標についての最終ヌクレオチドベースコールの生成を示す。例えば、図4Aは、1つ以上の実施形態による、コール再較正機械学習モデルを利用して最終ヌクレオチドベースコールを生成するコール再較正システム106を示す。その後、図4Bは、1つ以上の実施形態による、コール再較正システム106がコール再較正機械学習モデルを訓練、調整、試験、及び/又は適用して、一倍体座標についてのヌクレオチドベースコールを生成するためのプロセスを示す。
【0109】
図4Aに図示されるように、コール再較正システム106は、一倍体ヌクレオチド配列402を同定する。特に、コール再較正システム106は、一倍体ヌクレオチド配列402を、(二倍体とは対照的に)一倍体のみを含む試料ヌクレオチド配列の領域として同定する。例えば、コール再較正システム106は、コール生成モデルを介して、試料ヌクレオチド配列の領域が一倍体性染色体(例えば、chr:Y)上に位置することを判定する。いくつかの場合では、コール再較正システム106は、一倍体ヌクレオチド配列402に対応するヌクレオチドリードについてのヌクレオチドベースコールを決定し、ヌクレオチドリードを参照ゲノムとアラインメントさせることによって、一倍体ヌクレオチド配列402を決定又は同定する。一倍体ヌクレオチド配列402は、ヌクレオチドリードについてのヌクレオチドベースコールから決定されるが、説明を簡単にするために、図4Aは、所与のゲノム座標での基礎となる一倍体ヌクレオチド配列402についての核酸塩基を示す。本開示は、図6A図6Bに関して、以下のヌクレオチドリード及び対応する配列決定メトリックについてヌクレオチドベースコールを決定するプロセスを説明する。図4Aに示されるように、コール再較正システム106は、各々が単一ヌクレオチドベースを有するヌクレオチドリードに基づいて、ゲノム座標1~4を含むように一倍体ヌクレオチド配列402を同定する:1.A 2.A 3.T 4.G。
【0110】
図4Aに更に図示されるように、コール再較正システム106は、一倍体ヌクレオチド配列402についての配列決定メトリック404を決定する。特に、コール再較正システム106は、一倍体ヌクレオチド配列402内の特定のゲノム座標に関連付けられたリードベースの配列決定メトリック、コールモデル生成の配列決定メトリック、及び/又は外部ソースの配列決定メトリックを決定する。配列決定メトリックを決定することに関する更なる詳細は、図6A図6Cを参照して以下に提供される。
【0111】
配列決定メトリック404に基づいて、コール再較正システム106は、コール再較正機械学習モデル406(例えば、コール再較正機械学習モデル306)を利用して、一倍体ヌクレオチド配列402内のゲノム座標について、配列決定メトリック404に基づいて第1の遺伝子型確率408及び第2の遺伝子型確率410を生成する。例えば、コール再較正システム106は、ゲノム座標が第1の遺伝子型(例えば、一倍体参照遺伝子型)を示す確率を示す第1の遺伝子型確率408を生成し、ゲノム座標が第2の遺伝子型(例えば、一倍体代替遺伝子型)を示す確率を示す第2の遺伝子型確率410を生成する。本明細書で使用される場合、いくつかの場合では、第1の遺伝子型確率408及び第2の遺伝子型確率410は、バリアントコール分類のタイプの例である。
【0112】
いくつかの場合では、コール再較正システム106は、コール再較正機械学習モデル406の入力及び/又は出力を変換して、モデルを一倍体シナリオに適合させることによって、第1の遺伝子型確率408及び第2の遺伝子型確率410を生成する。例えば、いくつかの場合では、コール再較正システム106は、コール再較正機械学習モデル406の入力としてのある特定の配列決定メトリック又は特徴を、一倍体入力から二倍体入力に変換する。より具体的には、コール再較正システム106は、コール生成モデルによって生成された一倍体参照遺伝子型コールを、コール再較正機械学習モデル406のための入力として、二倍体ホモ接合参照遺伝子型コールに変換する(例えば、入力としての一倍体0VC GTを二倍体0/0 GTに変換する)。加えて、コール再較正システム106は、コール生成モデルによって生成された一倍体代替遺伝子型コールを、コール再較正機械学習モデル406のための入力として、二倍体ホモ接合代替遺伝子型コールに変換する(例えば、入力として一倍体1VC GTを二倍体1/1 GTに変換する)。更に、いくつかの場合では、コール再較正システム106は、コール再較正機械学習モデル406のための入力として、コール生成モデルによって生成されたヘテロ接合遺伝子型コールを除外、除去、又は無視する。
【0113】
1つ以上の実施形態では、コール再較正システム106はまた(又は代替的に)、コール再較正機械学習モデル406の出力を、二倍体出力から一倍体出力に変換する。例えば、いくつかの場合では、コール再較正システム106は、ソフトマックスモデル又は層(例えば、コール再較正機械学習モデル406内の層として)を利用して、二倍体出力から一倍体出力に変換する。いくつかの場合では、コール再較正システム106は、ソフトマックス層を利用して、二倍体遺伝子型の信頼スコアを修正し、ゲノム座標についての一倍体遺伝子型の確率をシミュレートする(又はそれに変換する)。例えば、コール再較正システム106は、ソフトマックス層を利用して、ゲノム座標でのホモ接合参照遺伝子型のホモ接合参照信頼スコアを修正して、ゲノム座標での参照遺伝子型の一倍体参照確率を生成する。更に、コール再較正システム106は、ソフトマックス層を利用して、ゲノム座標でのホモ接合代替遺伝子型のホモ接合代替信頼スコアを修正して、ゲノム座標での代替遺伝子型の一倍体代替確率を生成する。
【0114】
1つ以上の実施形態では、コール再較正システム106は、3つのモデル出力のうちの1つを削減又は除去する。例えば、一倍体ゲノム座標についてのヌクレオチドベースコールを決定する場合、コール再較正システム106は、ゲノム座標の遺伝子型がヘテロ接合である(又は座標にhet/homエラーが存在する)信頼スコアを除去し、そのような信頼スコアをソフトマックス層に入力しない。ゲノム座標が一倍体参照遺伝子型を示す第1の信頼スコア及びゲノム座標が一倍体代替遺伝子型を示す第2の信頼スコア(又は第3の信頼スコア)に基づいて、コール再較正システム106は、ソフトマックス層を使用して、これらの残りの2つの信頼スコアを正規化して(それらの合計が1になるように)、第1の遺伝子型確率408及び第2の遺伝子型確率410を生成する。したがって、コール再較正システム106は、対応する二倍体確率に基づいて、一倍体についての第1の遺伝子型確率408及び第2の遺伝子型確率410を生成する。
【0115】
図4Aに示されるように、第1の遺伝子型確率408は、一倍体座標3の遺伝子型が0である(又はすなわち、一倍体参照を構成する)確率が80%であることを示す(0@3→80%と表される)。同様に、第2の遺伝子型確率410は、一倍体座標3の遺伝子型が1である(又はすなわち、一倍体代替物を構成する)確率が20%であることを示す(1@3→20%と表される)。出力の変換に関する更なる詳細は、図4Bを参照して以下に提供される。
【0116】
図4Aに更に図示されるように、コール再較正システム106は、第1の遺伝子型確率408(例えば、一倍体参照遺伝子型確率)及び第2の遺伝子型確率410(例えば、一倍体代替遺伝子型確率)に基づいて、バリアントコールファイル412を生成又は更新する。例えば、コール再較正システム106は、第1の遺伝子型確率408及び第2の遺伝子型確率410に基づいて、一倍体ゲノム座標に関連付けられた最終ヌクレオチドベースコール414を反映又は示すように、バリアントコールファイル412を更新する。
【0117】
ある特定の実施形態では、コール再較正システム106は、第1の遺伝子型確率408及び第2の遺伝子型確率410を比較すること、並びに第1の遺伝子型確率408及び第2の遺伝子型確率410の中から最も高い遺伝子型を選択することに基づいて、ゲノム座標についての一倍体遺伝子型を示す最終ヌクレオチドベースコール414を決定する。いくつかの場合では、コール再較正システム106は、第1の遺伝子型確率408及び第2の遺伝子型確率410を比較することに基づいて、ベースコール品質フィールド、遺伝子型品質フィールド、及び/又は遺伝子型フィールドなどの、バリアントコールファイル412に関連付けられた追加のフィールドを更新する。
【0118】
例えば、第2の遺伝子型確率410が最も高い(すなわち、第1の遺伝子型確率408を超える)こと、又はヌクレオチドベースコール(又はバリアントコール)が真陽性である可能性が最も高いと判定することに基づいて、コール再較正システム106は、ゲノム座標についての一倍体代替遺伝子型を決定する。例えば、第2の遺伝子型確率410(例えば、一倍体代替遺伝子型確率)が第1の遺伝子型確率408(例えば、一倍体参照型確率)を超える場合、コール再較正システム106は、(バリアントコールファイル412内に含めるために)修正されたベースコール品質メトリック、修正された遺伝子型メトリック、及び/又は修正された遺伝子型品質メトリックを更に決定する。いくつかの場合では、上記は、ヌクレオチドベースコール又はバリアントコールが既存の遺伝子型と(PHREDフォーマットにおいて)不正確である尤度を反映するように遺伝子型品質メトリックを修正する。
【0119】
第2の遺伝子型確率410が最高ではない(すなわち、第1の遺伝子型確率408が第2の遺伝子型確率410を超える)という判定に基づいて、コール再較正システム106は、ゲノム座標についての一倍体参照遺伝子型を決定する。例えば、第1の遺伝子型確率408(例えば、一倍体参照型確率)が第2の遺伝子型確率410(例えば、一倍体代替遺伝子型確率)を超える場合、コール再較正システム106は、修正された遺伝子型品質メトリック及び/又は修正されたベースコール品質メトリックを更に決定する。例えば、コール再較正システム106が参照遺伝子型コールを予測する場合、コール再較正システム106は、呼び出された遺伝子型を保持し、スコアをコール再較正機械学習モデルによって出力された値に設定する。しかしながら、コール再較正システム106がコール再較正機械学習モデルを使用して、一倍体ゲノム座標での遺伝子型コールについての修正されたベースコール品質メトリックを決定する場合、コール再較正システム106は、修正されたベースコール品質メトリックを含むように遺伝子型コールについての品質フィールドを変更する。代替的に、いくつかの場合では、ベースコール品質メトリックが品質閾値を下回る場合、コール再較正システム106は、ヌクレオチドベースコールを削除するか、又は少なくとも、バリアントコールファイルにおけるゲノム座標についてのヌクレオチドベースコールを含めないようにすることができる。
【0120】
いくつかの実施形態では、コール再較正システム106は、第1の遺伝子型確率408及び第2の遺伝子型確率410を比較することに基づいて、最終ヌクレオチドベースコール414を生成する。示されるように、コール再較正システム106は、第1の遺伝子型確率408が第2の遺伝子型確率410よりも高いと判断し、したがって、特定の一倍体座標(座標3)の遺伝子型が一倍体参照遺伝子型である可能性が最も高いことを示す(3→0として表される)最終ヌクレオチドベースコール414を生成する。
【0121】
図4Bに図示されるように、コール再較正システム106は、コール再較正機械学習モデル406の入力及び出力を修正して、一倍体ヌクレオチド配列のゲノム座標についての最終ヌクレオチドベースコール(例えば、バリアントコール)の生成を容易にする。いくつかの実施形態では、図4Bに図示されるプロセスは、ヌクレオチドベースコール(例えば、バリアントコール)を生成するためのパラメータを学習するためのコール再較正機械学習モデル406の訓練及び/又は調整を表す。他の実施形態では、図4Bに図示されるプロセスの一部又は全部は、コール再較正機械学習モデル406の適用又はそれを使用する推論を表す。
【0122】
示されるように、コール再較正システム106は、二倍体ヌクレオチドリード420(のサブセット)のダウンサンプリング418を実行して、一倍体ヌクレオチドリードをシミュレートする。より具体的には、コール再較正システム106は、コール再較正機械学習モデル406を訓練又は調整するために、二倍体データをダウンサンプリング(又は他の方法で修正)して、一倍体データを模倣又はシミュレートする。実際に、グラウンドトゥルース一倍体データはまばらであるため、コール再較正システム106は、一倍体座標についてのヌクレオチドベースコールを生成するための強力なパラメータを学習するために、二倍体データのみに依存することができない。したがって、(訓練データを欠くため)一倍体座標についてのコールを生成することができないいくつかの既存の配列決定システムとは異なり、いくつかの実施形態では、コール再較正システム106は、二倍体データから一倍体データをシミュレートすることによって、一倍体シナリオに適合する。
【0123】
例えば、コール再較正システム106は、コール生成モデル416を介して二倍体ヌクレオチドリード420を決定(又は受信)する。加えて、コール再較正システム106は、訓練又は試験データとして使用するために、二倍体ヌクレオチドリード420のサブセットを(ランダムに)選択する(例えば、リードの50%のランダム選択)。示されるように、二倍体ヌクレオチドリード420は、以下のように、4つのゲノム座標1~4についてのリードを含む:1)AA、2)AA、3)CC、4)TT。加えて、コール再較正システム106は、二倍体ヌクレオチドリード420(のサブセット)から二倍体配列決定メトリック422を決定する。いくつかの実施形態では、コール再較正システム106は、トゥルースデータ(例えば、PrecisionFDAトゥルースデータ、Platinum Genomes、又はGenome in a Bottle(GIAB)、Global Alliance for Genomic Health(GA4GH)、若しくはTelomere to Telomere Consortiumからのトゥルースセットなどのいくつかの他の信頼性の高いトゥルースセット)及び/又は二倍体配列決定メトリック422に基づいて、ホモ接合参照遺伝子型又はホモ接合代替遺伝子型などのホモ接合遺伝子型を示す二倍体ヌクレオチドリード420の1つ以上のゲノム座標を決定又は同定する。
【0124】
図4Bに更に図示されるように、コール再較正システム106は、ダウンサンプリング418を介して二倍体配列決定メトリック422から一倍体配列決定メトリック424を生成(又はシミュレート)する。例えば、コール再較正システム106は、二倍体ヌクレオチドリード420のホモ接合遺伝子型を修正して、一倍体遺伝子型をシミュレートする。具体的には、コール再較正システム106は、ホモ接合参照遺伝子型を一倍体参照遺伝子型に変換し(0/0→0として表される)、ホモ接合代替遺伝子型を一倍体代替遺伝子型に変換する(1/1→1として表される)。コール再較正システム106は更に、一倍体配列決定メトリック424として、一倍体ヌクレオチドリードをシミュレートするために使用される二倍体ヌクレオチドリード420の配列決定メトリックを選択する。これらの一倍体配列決定メトリック424に基づいて、コール再較正システム106は、コール再較正機械学習モデル406を訓練及び/又は試験して、一倍体座標についての最終ヌクレオチドベースコール(例えば、バリアントコール)を正確に生成することができる。
【0125】
実際に、訓練、試験、及び/又は推論において、コール再較正システム106は、コール再較正機械学習モデル406を利用して、一倍体配列決定メトリック424などの配列決定メトリックに基づいて、最終ヌクレオチドベースコールを生成する。上で言及したように、(訓練、試験、又は推論のいずれかのために)コール再較正機械学習モデル406を介して最終ヌクレオチドベースコール432を生成することの一部として、コール再較正システム106は、コール再較正機械学習モデル406の出力を修正する。例えば、コール再較正システム106は、コール再較正機械学習モデル406の1つ以上の分類器層426によって生成された信頼スコアを修正する。
【0126】
いくつかの実施形態では、コール再較正システム106は、(訓練又は試験プロセスとは対照的に)推論プロセス中に二倍体データから一倍体データをシミュレートしない。実際、コール再較正機械学習モデル406を適用して予測を生成する場合、コール再較正システム106は、シミュレートされた一倍体データを用いて一倍体シナリオについてモデルが訓練されると、コール再較正機械学習モデル406の入力及び出力を修正するだけでよい。コール再較正機械学習モデル406を使用する場合、例えば、コール再較正システム106は、推論プロセス中にデータが一倍体であることを示す配列決定メトリックを入力する。
【0127】
具体的には、図4Bに示されるように、コール再較正システム106は、各々が所与のゲノム座標に属する異なる遺伝子型の信頼レベルを表す3つの別個の信頼スコア:(i)一倍体参照遺伝子型についての第1の信頼スコア(z)、(ii)ヘテロ接合遺伝子型についての第2の信頼スコア(z)、及び(iii)一倍体代替遺伝子型についての第3の信頼スコア(z)を生成する。ヘテロ接合遺伝子型は二倍体データから一倍体データにシミュレートすることができず、(実装中に)一倍体座標はヘテロ接合遺伝子型を示さないため、コール再較正システム106は、第2の信頼スコア(z)を更に削減、無視、又は除去する。いくつかの実施形態では、コール再較正システム106は、コール再較正機械学習モデル406における別の層としてソフトマックスモデル428を利用して、信頼スコアから最終確率を生成する。
【0128】
特に、図4Bに示されるように、コール再較正システム106は、ソフトマックスモデル428を利用して、修正された信頼スコアから2つの遺伝子型確率(例えば、一倍体参照遺伝子型の第1の遺伝子型確率408及び一倍体代替遺伝子型の第2の遺伝子型確率410)を生成する。詳述すると、第2の信頼スコア(z)を無視又は破棄した後、コール再較正システム106は、ソフトマックスモデル428を利用して、第1の信頼スコアから第3の信頼スコアにわたって正規化する(したがって、それらの合計が1になる)。コール再較正システム106は更に、σ=p(0)によって表される第1の遺伝子型確率408及びσ=p(1)によって表される第2の遺伝子型確率410を生成する。記載されるように、各確率スコアは、ゲノム座標でのそれぞれの一倍体遺伝子型の確率を表す。
【0129】
確率スコアに基づいて、コール再較正システム106は、最終ヌクレオチドベースコール432(例えば、最終ヌクレオチドベースコール414)を含むバリアントコールファイル430(例えば、バリアントコールファイル412)を更に生成する。例えば、コール再較正システム106は、2つの遺伝子型確率から最終ヌクレオチドベースコール432を決定する。示されるように、例えば、最終ヌクレオチドベースコール432は、所与のゲノム座標についての一倍体Aである。しかし、最終ヌクレオチドベースコール432は、他の実施形態では、異なる予測ヌクレオチドベースであり得る。バリアントコールファイルを生成することに関する更なる詳細は、本開示全体を通して提供される。
【0130】
上で言及したように、ある特定の記載された実施形態では、コール再較正システム106は、(コール生成モデルによって最初に予測されるような)ホモ接合参照ゲノム座標についての最終ヌクレオチドベースコール(例えば、バリアントコール)を生成する。特に、コール再較正システム106は、ホモ接合参照遺伝子型を示すためにコール生成モデルによって決定された(又は決定されるであろう)試料ヌクレオチド配列のゲノム座標についての最終ヌクレオチドベースコールを生成する。図5は、1つ以上の実施形態による、ホモ接合参照遺伝子型として不正確に同定されるか又は同定され得たゲノム座標についてのバリアントコールの生成を示す。
【0131】
図5に図示されるように、コール再較正システム106は、コール生成モデル502を利用して、試料ヌクレオチド配列504についての初期ヌクレオチドベースコールを生成する。特に、コール再較正システム106は、特定のゲノム座標に関連付けられた対立遺伝子又は遺伝子型を示すヌクレオチドベースコールを生成する。示されるように、コール生成モデル502は、座標1~4の試料ヌクレオチド配列504についての遺伝子型を以下のように決定する:1)0/1、2)1/1、3)0/0、4)0/1。更に、コール再較正システム106は、コール生成モデル502によって決定されるホモ接合参照遺伝子型を示す試料ヌクレオチド配列504内のゲノム座標を同定又は決定する。図示の例では、コール再較正システム106は、座標3をホモ接合参照座標として同定する。対照的に、いくつかの実施形態では、コール再較正システム106は、ホモ接合参照遺伝子型を示す初期ヌクレオチドベースコールを生成せず、むしろ、ホモ接合参照遺伝子型と一致するゲノム座標をカバーするヌクレオチドリードについて配列決定メトリック506を決定する。
【0132】
多くの場合、既存の配列決定システムは、座標3などのホモ接合参照座標を無視し、更なる処理に必要でない真陰性バリアントコールとしてそれらを処理した。しかしながら、そのような処理は、適切なヌクレオチドベースコールを最初に行うコール生成モデル502の精度に依存し、これは常に当てはまるわけではない。実際、コール生成モデル502は、いくつかのシナリオでは、多数の偽陰性バリアントコールを生成する可能性がある。したがって、コール再較正システム106は、ホモ接合参照遺伝子型として最初に同定された(又は同定されたであろう)ゲノム座標を無視せず、これらの遺伝子座で更なる分析を強制することによって(例えば、それらの決定された遺伝子型をその後更新又は改変するために)、これらの偽陰性バリアントコールのいくつかを回復する。
【0133】
具体的には、図5に図示されるように、コール再較正システム106は、ホモ接合参照座標3についての配列決定メトリック506を抽出又は決定する。例えば、コール再較正システム106は、リードベースの配列決定メトリック508、外部ソースの配列決定メトリック510、及びコールモデル生成の配列決定メトリック512を決定する。配列決定メトリックの決定又は抽出に関する追加の詳細は、図6A図6Cを参照して以下に提供される。
【0134】
図5に更に図示されるように、コール再較正システム106は、コール再較正機械学習モデル514(例えば、コール再較正機械学習モデル306又は406)を利用して、配列決定メトリック506から1つ以上のバリアントコール分類516を生成する。詳述すると、コール再較正システム106は、ゲノム座標(例えば、座標3)でのバリアントを同定する精度を示す(又はそのレベルを定義する)バリアントコール分類516を生成する。
【0135】
以下の段落は、バリアントコール分類516の例を説明する。例示的なバリアントコール分類として、コール再較正システム106は、コール再較正機械学習モデル514を利用して偽陽性分類を生成する。例えば、コール再較正システム106は、ヌクレオチドベースコール(例えば、遺伝子型コール)が偽陽性バリアントである確率、又はヌクレオチドベースコールが、試料ヌクレオチド配列504内にバリアントが実際に存在しないバリアントを示す確率、を示す偽陽性分類を生成する。コール再較正システム106は、コール再較正機械学習モデル514によって一緒に考慮された配列決定メトリック506のうちの1つ以上からの偽陽性分類を生成する。
【0136】
ある特定の実装形態では、コール再較正システム106は、バリアントコール分類516の一部として遺伝子型エラー分類(又はヘテロ接合遺伝子型分類)も(又は代替的に)生成する。より具体的には、コール再較正システム106は、コール再較正機械学習モデル514を利用して、ヌクレオチドベースコールに関連付けられた遺伝子型が不正確である確率又はヘテロ接合遺伝子型が存在する確率(例えば、座標3について)を決定する。例えば、コール再較正システム106は、座標3にhet/homエラーが存在する確率を決定し、ここで、ヌクレオチドベースコールは、試料ヌクレオチド配列504内のヘテロ接合遺伝子型(例えば、0/1)を示し得、遺伝子型は、参照ゲノムに関して実際にホモ接合代替(例えば、1/1)である。逆に、コール再較正システム106は、実際にヌクレオチドベースが参照ゲノム(例えば、0/1)に関してヘテロ接合性である場合、座標3の遺伝子型がホモ接合代替(例えば、1/1)であると判定する確率を決定する。
【0137】
1つ以上の実施形態では、コール再較正システム106はまた(又は代替的に)、バリアントコール分類516の一部として、座標3について真陽性分類(又はホモ接合代替分類)を生成する。特に、コール再較正システム106は、コール再較正機械学習モデル514を利用して、座標3についてのヌクレオチドベースコールが真陽性バリアントコールである確率、又はバリアントが参照ゲノムに関して実際に存在する場合にヌクレオチドベースコールが真のバリアントを示す確率、又はホモ接合代替遺伝子型がゲノム座標に存在する確率を決定する。
【0138】
図5に更に図示されるように、コール再較正システム106は、バリアントコール520を示すためにバリアントコールファイル518を生成又は更新する。より具体的には、コール再較正システム106は、バリアントコール分類516に基づいて、バリアントコール520を生成して、座標3にバリアントがあるかどうかを示す。いくつかの場合では、コール再較正システム106は、1つ以上のバリアントコール分類516に基づいて、バリアントコールファイル518に対応するコール品質フィールド、遺伝子型フィールド、又は遺伝子型品質フィールドのうちの1つ以上を更新する。コール品質フィールド、遺伝子型フィールド、及び/又は遺伝子型品質フィールドは、バリアントコール520として更新されたバリアントコールを示すことができる。示されるように、バリアントコール520は、座標3におけるバリアントを示し、座標3についての初期ヌクレオチドベースコールを、ホモ接合参照遺伝子型(0/0)を示すものからヘテロ接合遺伝子型(0/1)を示すものに変更する。他の例では、コール再較正システム106は、座標3についての初期ヌクレオチドベースコールを変更しないか、又は初期ヌクレオチドベースコールをホモ接合代替遺伝子型(1/1)などの異なる遺伝子型に変更する。
【0139】
1つ以上の実施形態では、コール再較正システム106は、バリアントコール分類の確率の比較に基づいて、示されたゲノム座標(例えば、座標3)について遺伝子型を決定する。例えば、コール再較正システム106は、真陽性分類(又はホモ接合代替分類)が1つ以上のバリアントコール分類の中から最も高い確率を有すると判定することに基づいて、ホモ接合代替遺伝子型を決定する。具体的には、コール再較正システム106は、遺伝子型品質フィールドを更新する一方で、遺伝子型フィールド(例えば、1/1に)及びPLフィールドも更新する。
【0140】
代替的に、コール再較正システム106は、遺伝子型エラー分類(例えば、ヘテロ接合遺伝子型分類)が1つ以上のバリアントコール分類の中から最も高い確率を有すると判定することに基づいて、ヘテロ接合遺伝子型を決定する。具体的には、コール再較正システム106は、遺伝子型品質フィールドを更新する一方で、遺伝子型フィールド(例えば、0/1に)及びPLフィールドも更新する。
【0141】
更に代替的に、コール再較正システム106は、真陽性分類(例えば、ホモ接合代替分類)も遺伝子型エラー分類(例えば、ヘテロ接合遺伝子型)も、1つ以上のバリアントコール分類の中から最も高い確率を有しないと判定することに基づいて、ホモ接合参照遺伝子型を決定する。いくつかの場合では、コール再較正システム106は、コール生成モデル502及びコール再較正機械学習モデル514の両方が、ゲノム座標がホモ接合参照遺伝子型を有すると決定する場合、バリアント分類の確率を比較する記録を除去又は破棄する。
【0142】
1つ以上の実施形態では、ホモ接合参照座標についてのバリアントコールを更新することは、(例えば、特定のゲノム座標での遺伝子型及び遺伝子型確率のクエリのための)強制された遺伝子型機能性を提供又は改善する。詳述すると、コール再較正システム106は、最初に(例えば、コール生成モデル502によって示されるように)バリアント品質閾値を満たさないゲノム座標の遺伝子型を決定することができる。実際、コール再較正システム106は、ゲノム座標のバリアント品質が、構造バリアント又は他の決定困難なバリアントを同定するために典型的に必要とされる閾値を下回る場合であっても、バリアントコールファイル518に遺伝子型を出力することができる。
【0143】
上で言及したように、ある特定の記載された実施形態では、コール再較正システム106は、特定のゲノム座標でのヌクレオチドベースコールのための配列決定メトリックを決定又は抽出する。特に、コール再較正システム106は、試料ヌクレオチド配列からのヌクレオチドリードに対応するコールから、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及びコールモデル生成の配列決定メトリックなどの配列決定メトリックを決定する。図6A図6Cは、1つ以上の実施形態による、配列決定メトリックの決定を示す。具体的には、図6Aは、リードベースの配列決定メトリックを決定することを示し、図6Bは、コールモデル生成の配列決定メトリックを決定することを示し、図6Cは、外部ソースの配列決定メトリックを決定することを示す。
【0144】
図6Aに図示されるように、コール再較正システム106は、ヌクレオチドリード602にアクセスし、検索し、取得し、決定し、又は生成する。特に、コール再較正システム106は、配列決定装置114を利用して、試料ヌクレオチド配列(例えば、試料ゲノム)からの領域についてのヌクレオチドベースコールを含む、ヌクレオチドリード602を決定する。例えば、コール再較正システム106は、合成による配列決定(SBS)技法及び/又はサンガー(Sanger)配列決定技法を利用して、複数のヌクレオチドリード602を生成して、フローセル中のウェルからの及び/又は蛍光タグ付けを介してのオリゴヌクレオチドクラスタについてのヌクレオチドベースコールを決定する。より具体的には、コール再較正システム106は、クラスタ生成及びSBS化学を利用して、フローセル中の何百万又は何十億ものクラスタを配列決定する。SBS化学の間、各クラスタについて、コール再較正システム106は、リアルタイム分析(real-time analysis、RTA)ソフトウェアを介して配列決定のサイクル毎にヌクレオチドリード602からのヌクレオチドベースコールを記憶する。
【0145】
図6Aに更に図示されるように、いくつかの実施形態では、コール再較正システム106は、リード処理及びマッピング604を行う。例えば、コール再較正システム106は、RTAソフトウェアを利用して、個々のベースコールデータファイル(又はBCL)の形態でベースコールデータを記憶する。いくつかの場合では、コール再較正システム106は、図6Bに図示されるように、BCLファイルを配列データ608に更に変換する(例えば、BCLからFASTQへの変換を介して)。図6Aに図示されるように、コール再較正システム106は、単一のゲノム座標に対応する複数のヌクレオチドリード602又はヌクレオチドベースコールを含む複数リードカバレッジ(例えば、リードパイルアップ)を生成する。
【0146】
特に、ある特定の実施形態では、コール再較正システム106は、ヌクレオチドリードを参照ゲノムとアラインメントさせるか、又はリードアラインメントに関する情報を受信する。具体的には、コール再較正システム106は、所与のリードのどのヌクレオチドベースが参照配列のどのゲノム座標とアラインメントするかを決定する(又はアラインメントを示す情報を受信する)。異なるリードは、異なる長さを有し、異なるヌクレオチドベースを含む。したがって、いくつかの場合では、コール再較正システム106は、各リードの各ヌクレオチドを分析して、リードが参照配列に関して「適合」する場所、例えば、リード内のベースが参照中のベースとアラインメントする場所を決定する(又はそれを示す情報を受信する)。いくつかの場合では、コール再較正システム106は、単一のゲノム座標において多くのリードをアラインメントさせ、したがってリードパイルアップをもたらす。
【0147】
ある特定の実施形態では、コール再較正システム106は、追加の統計的検定を実施して、参照ヌクレオチド配列に関連付けられたメトリックと代替サポートヌクレオチドリードに関連付けられたメトリックとの間の差異を決定又は検出する。これらの統計的検定を通して、コール再較正システム106は、生の配列決定メトリックを再操作して、リードベースの配列決定メトリック606を決定する。いくつかの場合では、コール再較正システム106は、(i)試料ヌクレオチド配列と例示的ヌクレオチド配列(例えば、参照ゲノム又は祖先ハプロタイプからのヌクレオチド配列)のゲノム座標とのアラインメントを定量化するためのアラインメントメトリック、(ii)例示的ヌクレオチド配列のゲノム座標での試料ヌクレオチド配列についてのヌクレオチドベースコールの深度を定量化するための深度メトリック、又は(iii)例示的ヌクレオチド配列のゲノム座標での試料ヌクレオチド配列についてのヌクレオチドベースコールの品質を定量化するためのコール品質メトリック、のうちの1つ以上を含む生の配列決定メトリックを決定又は抽出する。例えば、コール再較正システム106は、マッピング品質メトリック(例えば、図6Aに示されるMAPQメトリック)、ソフトクリッピングメトリック、又は参照ゲノムとの試料配列のアラインメントを測定する他のアラインメントメトリックを決定する。別の例として、コール再較正システム106は、フォワード・リバース深度メトリック(若しくは他のそのような深度メトリック)又はバリアントヌクレオチドベースコールについてのコール可能性メトリック(若しくは他のそのようなコール品質メトリック)を決定する。
【0148】
直前に述べたように、いくつかの実施形態では、コール再較正システム106は、生の配列決定メトリックを再操作して、参照ヌクレオチド配列に関連付けられたメトリックを様々なサポート代替ヌクレオチドリードに関連付けられたメトリックと比較するためにより有益なリードベースの配列決定メトリック606を生成する。例えば、コール再較正システム106は、参照配列に関する試料配列についての様々なメトリックを決定し、更に、代替サポート配列に関する試料配列についての様々なメトリックを決定する。加えて、コール再較正システム106は、参照配列に関連付けられたメトリックと代替サポートリードに関連付けられたメトリックとの間の比較分析を行う。
【0149】
例えば、コール再較正システム106は、試料ヌクレオチド配列(例えば、試料ゲノム)のヌクレオチドベースが参照配列にどのようにマッピングされるかを、ヌクレオチドベースが様々な代替サポートリードにどのようにマッピングされるかと比較する。いくつかの場合では、コール再較正システム106は、代替サポートリードに関連付けられたマッピング品質と比較するために、参照配列に関連付けられたマッピング品質を決定する。例えば、コール再較正システム106は、参照配列をサポートするリードと代替対立遺伝子をサポートするリードとの対比の分布における差異を反映するマッピング品質統計を決定する。
【0150】
これらの場合又は他の場合では、コール再較正システム106は、試料配列と参照配列との間、及び参照配列と代替サポートリードとの間のミスマッチカウントを決定する。コール再較正システム106は更に、ミスマッチカウントを比較して、比較ミスマッチカウントメトリックを決定する。更に、コール再較正システム106は、参照配列に関する試料配列についてのソフトクリッピングメトリックを決定し、代替サポートリードに関するソフトクリッピングメトリックを更に決定する。コール再較正システム106はまた、参照配列と代替サポートリードとの間のソフトクリッピングメトリックを比較して、比較ソフトクリッピングメトリックを生成する。更にまた、コール再較正システム106は、参照配列及び代替サポートリードに関するベースコール品質メトリックを比較し、かつ/又は参照配列に関する試料配列のクエリ位置を代替サポートリードに関するクエリ位置と比較する。
【0151】
図6Aに更に図示されるように、コール再較正システム106は、比較及び/又は他の統計的検定を利用して、以下を含むリードベースの配列決定メトリック606を生成する:i)参照配列に関するマッピング品質と代替サポートリードに関するマッピング品質とを比較するマッピング品質分布を示す比較マッピング品質分布メトリック、ii)参照配列におけるベースに関する二次マッピングと代替サポートリードにおけるベースに関する二次マッピングとの比較を示す比較二次マッピングアラインメントメトリック、iii)参照配列に関するミスマッチヌクレオチドベースと代替サポートリードに関するミスマッチベースとの比較を示す比較ミスマッチカウントメトリック、iv)参照配列に関するソフトクリッピングメトリックと代替サポートリードに関するソフトクリッピングメトリックとの比較を示す比較ソフトクリッピングメトリック、v)ヌクレオチドリード602のリード深度と1つ以上の平均リード深度(例えば、特定のゲノム座標での局所平均リード深度及びある領域内の多数のゲノム座標にわたるグローバル平均リード深度)との間の比較を示す1つ以上のリード深度比較メトリック、vi)参照配列に関するベース品質と代替サポートリードに関するベース品質(例えば、ヌクレオチドリード602における全体的なベース品質、初期ベース品質、及び後期ベース品質)との比較を示す1つ以上の比較ベース品質メトリック、vii)参照配列に関するクエリ位置と代替サポートリードに関するクエリ位置との比較を示す1つ以上の比較クエリ位置メトリック、viii)ヌクレオチドベースコールのホモポリマー及び周期性を示す1つ以上のコンテキスト情報メトリック、ix)ヌクレオチドリード602の1つ以上に関連付けられた鎖バイアスを示す鎖バイアスメトリック、並びにx)ヌクレオチドリード602に関連付けられたリード方向バイアスを示すリード方向バイアスメトリック。いくつかの場合では、コール再較正システム106は、リードベースの配列決定メトリック606の一部として、追加又は代替のリードベースの配列決定メトリックを生成又は再操作する。
【0152】
リードベースの配列決定メトリック606に加えて、図6Bに図示されるように、コール再較正システム106は、コールモデル生成の配列決定メトリック612を生成する。特に、コール再較正システム106は、コール生成モデル610を利用して、シーケンスデータ608からコールモデル生成の配列決定メトリックを生成する。例えば、コール再較正システム106は、図6Aに関連して記載されるリード処理及びマッピング604に基づいて配列データ608を抽出又は決定する。いくつかの場合では、コール再較正システム106は、BCL及びFASTQファイルなどの1つ以上のデジタルファイルの一部として配列データ608を生成する。
【0153】
そのようなファイルを生成するために、いくつかの実施形態では、配列決定装置114(又はコール再較正システム106)は、クラスタ生成及びSBS化学を利用して、フローセル中の何百万又は何十億ものクラスタを配列決定する。SBS化学の間、各クラスタについて、配列決定装置114(又はコール再較正システム106)は、リアルタイム分析(RTA)ソフトウェアを介して配列決定のサイクル毎にヌクレオチドリード602からのヌクレオチドベースコールを記憶する。配列決定装置114(又はコール再較正システム106)は、RTAソフトウェアを利用して、個々のベースコールデータファイル(又はBCL)の形態でベースコールデータを更に記憶する。いくつかの場合では、配列決定装置114(又はコール再較正システム106)は更に、BCLファイルを配列データ608に変換する(例えば、BCLからFASTQへの変換を介して)。例えば、配列決定装置114(又はコール再較正システム106)は、ヌクレオチドリード602からFASTQファイルを生成し、FASTQファイルは、配列データ608を含む。
【0154】
いくつかの場合では、コール再較正システム106は、試料配列から初期品質フィルタを通過する各クラスタのための配列データ608を生成する。例えば、コール再較正システム106は、各クラスタについてエントリを生成し、各エントリは、以下の4つの行(又は配列データの4つの項目)を含む:i)配列決定行程及びクラスタについての情報を有する配列識別子、ii)配列を構成するヌクレオチドベースコール(例えば、A、C、T、G、及び/又はNコールの配列)、iii)セパレータ(例えば、「+」記号)、及びiv)ヌクレオチドベースコール(Phred+33コード化)についての正確さの確率を示すベースコール品質メトリック。
【0155】
図6Bに更に図示されるように、コール再較正システム106は、コール生成モデル610を実装、利用、又は適用して、配列データ608を処理又は分析する。実際、いくつかの実施形態では、コール再較正システム106は、コール生成モデル610を利用して生の配列決定メトリック(例えば、配列データ608内の生の配列決定メトリック)を再操作することによって、コールモデル生成の配列決定メトリック612を生成する。特に、コール生成モデル610は、配列データ608からのヌクレオチドベースコールをマッピング及びアラインメントするためのマッピング及びアラインメントコンポーネントを含む。加えて、コール生成モデル610は、配列データ608からヌクレオチドベースコール(例えば、バリアントコール又は非バリアントコールなどの参照ベースコール)を生成するためのバリアントコーリングコンポーネントを含む。いくつかの場合では、コール再較正システム106は、コール生成モデル610のマッピングコンポーネント及びバリアントコーリングコンポーネントを利用して生成されているコールモデル生成の配列決定メトリック612を抽出する。
【0156】
コールモデル生成の配列決定メトリック612の例を示すために、いくつかの場合では、コール再較正システム106は、i)コール生成モデル610を介して生成されたヌクレオチドベースコールについての品質スコアを示すベースコール品質メトリック(例えば、DRAGEN QUALスコア)、ii)パイルアップ中のヌクレオチドリード602のうちの1つ以上が外来リードであり得る(例えば、それらの真の位置が参照配列中の他の場所にある)確率を示すコールモデル生成外来リード検出メトリック(例えば、外来リード検出(foreign read detection、FRD)スコア)、iii)鎖バイアス、スレッド中のエラー位置、又はヌクレオチドリード602のサブセットにわたる低平均ベース品質のうちの1つ以上に基づくベース品質ドロップオフの確率を示すコールモデル生成ベース品質ドロップオフメトリック(例えば、ベース品質ドロップオフ(base quality dropoff、BQD)スコア)、iv)平均リード深度、v)インデル統計(例えば、ポリメラーゼ連鎖反応(polymerase chain reaction、「PCR」)曲線)及び/又はvi)隠れマルコフモデル(HMM)統計、vii)二次ヌクレオチドベースコールが正確である確率を示す二次アラインメントメトリック、viii)ヌクレオチドベースコールの周囲のヌクレオチドのためのコンテキスト情報を示すベースコンテキストメトリック、iv)ヌクレオチドベースコールの近傍(例えば、隣接又はそれからの分離の閾値程度内)を示す近傍コールメトリック、x)2つ以上の重複ヌクレオチドベースコールに対応するジョイントを検出する確率を示すジョイント検出メトリック、xii)低マッピング品質、ベース品質、又は他の品質メトリックなどを有するヌクレオチドベースコールをフィルタ除外するための閾値品質メトリック又は他のメトリックを示すリードフィルタリングメトリック、のうちの1つ以上を含む(バリアントコーリングメトリックを生成する。コール再較正システム106は、相互作用する処理経路、コーナケース、及び困難な予測/決定を反映する内部(例えば、独自及びモデル固有)変数から、コールモデル生成の配列決定メトリック612を生成する。
【0157】
上で示したように、いくつかの場合では、コール再較正システム106は、Eric Jon Ojardの米国特許出願第16/280,022号に記載され、System and Method for Correlated Error Event Mitigation for Variant Callingと題する方法に従ってFRDスコアを決定し、これは、参照によりその全体が本明細書に組み込まれる。ある特定の実装形態では、コール再較正システム106はまた(又は代替的に)、米国特許出願第17/165,828号、第15/643,381号、及び第14/811,836号に記載されている方法に従って、BQDスコア、FRDスコア、HMM統計、及び/又は他のバリアントコーリングメトリックを決定し、これらは、参照によりその全体が本明細書に組み込まれる。
【0158】
図6Bに図示されるように、コールモデル生成の配列決定メトリック612は、コール生成モデル610のバリアントコーリングコンポーネントを介して抽出されたバリアントコーリングメトリックを含むが、これに限定されない。上で説明したコールモデル生成の配列決定メトリック612の例に加えて、又はその代替として、いくつかの場合では、コール再較正システム106は、i)集団内の試料の数、ii)ヌクレオチドベースコールを生成するために処理されたリードの数、バリアント(例えば、SNP、インデル、及びMNP)の数、iii)二対立遺伝子部位の数(例えば、2つの観察された対立遺伝子を含むゲノム座標)、iv)複対立遺伝子部位の数(例えば、3つ以上の観察された対立遺伝子を含むバリアントコールファイル内の部位の数)、v)SNPの数、vi)異なるタイプのインデル(例えば、ホモ接合性挿入、ヘテロ接合性挿入、及びヘテロ接合性欠失)の数、vii)ヘテロ接合性インデルの総数(例えば、挿入+欠失、挿入+SNP、又は欠失+SNP)、viii)デノボSNPの数(例えば、閾値レベルを満たすデノボ品質メトリックを有するSNP)、ix)デノボインデルの数(例えば、閾値レベルを満たすデノボ品質メトリックを有するSNP)、x)デノボMNPの数(例えば、閾値レベルを満たすデノボ品質メトリックを有するSNP、xi)第1の染色体中のSNPの数を第2の染色体中のSNPの数で除算したもの、xii)SNPトランジションの数、xiii)SNPトランスバージョンの数、xiv)ヘテロ接合性バリアントの数、xv)ホモ接合性バリアントの数、xvi)ヘテロ接合性バリアントの数とホモ接合性バリアントの数との間の比、xvii)dbSNP参照ファイル内で検出されたバリアントの数、及び/又はxviii)バリアントの総数からdbSNPファイル内で検出された数を引いたもの、のうちの1つ以上を含むバリアントコーリングメトリックを(例えば、メトリック再操作を介して)生成する。
【0159】
加えて、コールモデル生成の配列決定メトリック612は、コール生成モデル610のマッピング及びアラインメントコンポーネントを介して抽出されたマッピング及びアラインメント配列決定メトリックを含むことができる。例えば、塩基対コーラー再較正システム106は、i)総入力リードの数、ii)重複マークリードの数、iii)重複マークの除去されたメイトリード(mate read)の数、iv)ユニークリード(unique read)の数、v)メイト配列を有するリードの数、vi)メイト配列を有さないリードの数、vii)品質チェックに失敗するリードの指標、viii)マッピングされたリードの指標、ix)ユニーク及びマッピングされたリードの数、x)マッピングされていないリードの数、xi)シングルトンリード(singleton read)の数(例えば、リードはマッピングされるが、ペアメイトは読み出せなかった場合)、xii)ペアリードの数、xiii)適切にペアになったリードの数(例えば、ペアの両方のリードがマッピングされ、推定インサート長分布に基づいて互いに許容範囲内に入る場合)、xiv)不一致リードの数(例えば、適切にペアになっていないリードの数)、xv)異なる染色体にマッピングされたペアリードの数、xvi)異なる染色体にマッピングされ、マッピング品質メトリックが10以上であるペアリードの数、xvii)インデルR1及びR2内のリードの割合、xviii)R1及びR2内のソフトクリップされたベースの割合、xix)インデルR1及びR2内のミスマッチベースの数、xx)少なくとも30のベース品質を有するベースの数(例えば、総数及び/又はR1若しくはR2)、xxi)アラインメントの数(例えば、総アラインメント、二次アラインメント、及び/又は補足アラインメント)、xxii)推定リード長、並びにxxiii)推定試料汚染、のうちの1つ以上を含むマッピング及びアラインメントメトリックを(例えば、メトリック再操作を介して)生成又は抽出する。
【0160】
ここで図6Cを参照すると、コール再較正システム106は、外部ソースの配列決定メトリック616を生成、抽出、又は決定する。特に、コール再較正システム106は、コール再較正システム106の外部の1つ以上のデータベース、例えば、配列決定情報データベース614(例えば、データベース116)から、外部ソースの配列決定メトリック616を決定する。例えば、コール再較正システム106は、一般的であるか、又は一般にヌクレオチドの配列決定に適用可能な配列決定メトリックにアクセスする。加えて、コール再較正システム106は、特定の参照配列についての配列決定情報(例えば、配列決定情報データベース614内に格納されている)にアクセスするか、又はそれを決定する。いくつかの場合では、コール再較正システム106は、以下を含む外部ソースの配列決定メトリック616を決定する:i)特定のヌクレオチド配列(又は特定のヌクレオチドリード若しくはヌクレオチドベースコール)をマッピングする容易さ又は困難さを示すマッピング可能性メトリック、ii)参照ヌクレオチド配列(例えば、参照ゲノム)中のグアニン・シトシン含量のカウント(又はドロップアウト若しくは平均)を示すグアニン・シトシン含量メトリック、iii)参照配列から特定の数のヌクレオチドを複製するのに必要な時間を示す複製タイミングメトリック、iv)参照配列(例えば、参照ゲノム)のDNA構造を示す1つ以上のDNA構造メトリック、v)複数の種にわたる配列保存の尺度(例えば、平均に対する変化の尺度)を示す保存メトリック、及び/又はその他。
【0161】
言及したように、ある特定の記載された実施形態では、コール再較正システム106は、コール再較正機械学習モデルをコール生成モデルとともに利用して、ヌクレオチドベースコールを生成する。特に、コール再較正システム106は、コール再較正機械学習モデルを利用して、ヌクレオチドベースコールを表すバリアントコールファイルに対応するデータフィールドを修正する。図7は、1つ以上の実施形態によるコール再較正機械学習モデル及びコール生成モデルを利用して、バリアントコールファイルを修正することによって、ヌクレオチドベースコールを生成することを示す。
【0162】
図7に図示されるように、コール再較正システム106は、配列決定情報データベース702(例えば、配列決定情報データベース614)、参照配列704、及び1つ以上のヌクレオチドリードから外挿された配列データ706(例えば、配列データ608)にアクセスする。実際、コール再較正システム106は、図6A図6Cに関連して上で説明したように配列決定メトリックを抽出又は再操作するために、配列決定メトリック抽出712を実行する。例えば、コール再較正システム106は、リードベースの配列決定メトリック、外部ソースの配列決定メトリック、及びコールモデル生成の配列決定メトリックを生成する。いくつかの場合では、コール再較正システム106は、コール生成モデル722(例えば、コール生成モデル610)のマッピング及びアラインメントコンポーネント708を利用して、上で説明したようにマッピング及びアラインメント配列決定メトリックを決定する。加えて、コール再較正システム106は、コール生成モデル722のバリアントコーラーコンポーネント710を利用して、上で説明したようにバリアントコーリングメトリックを生成する。更に、コール再較正システム106は、リードベースの配列決定メトリック及び外部ソースの配列決定メトリックも(例えば、配列決定情報データベース702及び/又は参照配列704から)決定する。
【0163】
図7に更に図示されるように、コール再較正システム106は、バリアントコール分類716を生成する。より具体的には、コール再較正システム106は、コール再較正機械学習モデル714を利用して、配列決定メトリックからバリアントコール分類716を生成する。例えば、コール再較正機械学習モデル714は、偽陽性分類、遺伝子型エラー分類、及び真陽性分類を含むバリアントコール分類716を生成する。具体的には、偽陽性分類は、ヌクレオチドベースコール(例えば、バリアントコール)が偽陽性である確率を示す。逆に、真陽性分類は、ヌクレオチドベースコール(例えば、バリアントコール)が真陽性である確率を示す。更に、遺伝子型エラー分類は、ヌクレオチドベースコール(例えば、バリアントコール)についての遺伝子型に関連付けられたエラーの確率を示す。
【0164】
いくつかの場合では、コール再較正機械学習モデル714は、配列決定メトリックを処理してバリアントコール分類716を生成する勾配ブーストツリーのアンサンブルである。例えば、コール再較正機械学習モデル714は、バリアントコール分類716を生成するためにロジスティック回帰において訓練される非線形決定木などの一連の弱学習器を含む。いくつかの場合では、コール再較正機械学習モデル714は、コール再較正機械学習モデル714が配列決定メトリックをどのように処理してバリアントコール分類716を生成するかを定義する様々なツリー内のメトリックを含む。コール再較正機械学習モデル714の訓練に関する更なる詳細は、図8を参照して以下に提供される。
【0165】
ある特定の実施形態では、コール再較正機械学習モデル714は、ニューラルネットワーク、サポートベクターマシン、又はランダムフォレストなどの異なるタイプの機械学習モデルである。例えば、コール再較正機械学習モデル714がニューラルネットワークである場合、コール再較正機械学習モデル714は、配列決定メトリックを処理するための層を構成するニューロンを各々が有する1つ以上の層を含む。いくつかの場合では、コール再較正機械学習モデル714は、配列決定メトリックから潜在ベクトルを抽出し、潜在ベクトルを層から層(又はニューロンからニューロン)に渡して、出力層(例えば、1つ以上の完全接続層)を利用してバリアントコール分類716を(例えば、3つの別個の分類からなるセットとして)生成するまでベクトルを操作することによって、バリアントコール分類716を生成する。
【0166】
上で示唆したように、いくつかの実施形態では、コール再較正システム106は、複数のコール再較正機械学習モデルを一緒に利用することができる。例えば、コール再較正システム106は、コール再較正機械学習モデル714を利用して、バリアントコール分類の第1のセットを生成し、更に、第2のコール再較正機械学習モデル(例えば、同じ又は異なるアーキテクチャを有する)を利用して、バリアントコール分類の第2のセットを生成する。例えば、コール再較正システム106は、2つ(又はそれ以上)の異なるコール再較正機械学習モデルを並行して利用し、各々は、異なるランダムシードを用いて訓練され(例えば、データを異なって処理するために異なるバイアスに対して)、同じ配列決定メトリックから異なるバリアントコール分類をもたらす。
【0167】
いくつかの実施形態では、コール再較正システム106は、異なるコール再較正機械学習モデルを介して生成された異なるバリアントコール分類から、バリアントコール分類の組み合わされたセットを更に生成する。いくつかの場合では、ベースコール再較正システム106は、第1のコール再較正機械学習モデル及び第2のコール再較正機械学習モデルからそれぞれ生成されたバリアントコール分類の第1のセット及びバリアントコール分類の第2のセットからバリアントコール分類(例えば、バリアントコール分類716)を生成する。例えば、コール再較正システム106は、バリアントコール分類の第1のセットの及びバリアントコール分類の第2のセットの平均又は重み付けされた組み合わせを決定して、ヌクレオチドベースコールを再較正するための組み合わされたバリアントコール分類を生成する。いくつかの実施形態では、コール再較正システム106は、各コール再較正機械学習モデルにわたる各バリアントコール分類の平均を決定し、平均バリアントコール分類を再正規化する。他の実施形態では、コール再較正システム106は、線形重みを学習し、バリアントコール分類についての全体的な誤差又は損失を最小化するように重みを適合させる。更に他の実施形態では、コール再較正システム106は、モデルにわたる平均誤差の逆数に基づいて、コール再較正機械学習モデル毎にバリアントコール分類を重み付けする。
【0168】
1つ以上の実装形態では、コール再較正システム106は、コール再較正機械学習モデルに続いてメタモデルを更に利用する。例えば、コール再較正システム106は、分類コンバイナ機械学習モデルを利用して、各コール再較正機械学習モデルによって生成されたバリアントコール分類に適用するための重みを選択することなどによって、各コール再較正機械学習モデルから生成されたバリアントコール分類を組み合わせる。実際に、いくつかの場合では、コール再較正システム106は、分類コンバイナ機械学習モデルを訓練して、コール再較正機械学習モデルのためのそれぞれの重みを決定、選択、又は予測して、最高の精度又は最小の損失をもたらす。
【0169】
バリアントコール分類716を生成する場合、いくつかの実施形態では、コール再較正システム106は、統計を利用して参照サポートリード及び代替サポートリードのマッピング品質分布(例えば、比較マッピング品質分布メトリック)をまとめることによって、バリアントコール分類を生成する。例えば、コール再較正システム106は、バリアントコール分類として代替対立遺伝子をサポートするリードについてのMAPQの平均を決定し、利用することができる。これら又は他の実施形態では、コール再較正機械学習モデル714は、データから、代替対立遺伝子のMAPQが低く、かつ深度メトリックが分布における他のMAPQ及び深度メトリックに対して高い場合、得られたヌクレオチドベースコールが偽陽性バリアントである可能性が高いと学習する。実際、偽陽性バリアントの確率が増加するにつれて、MAPQメトリックは減少する可能性がある。
【0170】
コール再較正機械学習モデル714を利用してバリアントコール分類716を生成する更なる例として、いくつかの場合では、ベースコール再較正システム106は、(例えば、配列決定メトリックからの)ヌクレオチドリードに関連付けられたマッピング品質(例えば、MAPQ)をマッピング品質閾値と比較する。例えば、コール再較正システム106は、最良のアラインメントスコアとその次に最良のアラインメントスコアとの間の閾値差などのマッピング品質閾値を利用する。マッピング品質が閾値を満たさないと判定すると、コール再較正システム106は、それに応じて、バリアントコール分類716のうちの1つ以上を調整する。例えば、コール再較正システム106は、マッピング品質が対応する閾値を満たすかどうかに基づいて、遺伝子型エラー及び/又は偽陽性エラーの確率を増加させる。
【0171】
直前に説明したバリアントコール分類716を生成する方法に加えて(又はその代替として)、コール再較正システム106は、(i)(コール再較正機械学習モデル714のアーキテクチャに応じて)複雑な関数にわたる統計分析の蓄積を利用して、(例えば、様々なメトリック間の関係に基づいて)データをどのように最もよく適合させるかを決定するか、又は(ii)リード深度、ベース品質、若しくは(例えば、配列決定メトリックからの)ヌクレオチドベースコールに関連付けられた他のものなどの他のメトリックを、対応する閾値と比較することができる。コール再較正システム106は更に、それに応じてバリアントコール分類716を生成する。例えば、いくつかの実施形態では、コール再較正システム106は、コール再較正機械学習モデル714を訓練して、バリアントコール分類716を生成するためのデータに最もよく適合する(例えば、低減又は最小化された損失をもたらす)重み及びバイアスを決定するために、いくつかの(異なるタイプの)配列決定メトリックから生成される損失を最小化する。別の例として、リード深度がリード深度閾値(例えば、特定のゲノム座標に対応する、又は概して全てのゲノム座標にわたる、最大リード深度)を満たさないと判定すると、コール再較正システム106は、対応するヌクレオチドベースコールについて、遺伝子型エラー確率を増加させ、かつ/又は偽陽性確率及び真陽性確率を増加若しくは減少させる。
【0172】
バリアントコール分類716を生成することに加えて、図7に更に図示されるように、コール再較正システム106は、データフィールド生成718を実行する。より具体的には、コール再較正システム106は、コール生成モデル722のバリアントコーラーコンポーネント710を利用してバリアントコールファイルに対応するヌクレオチドベースコールのためのデータフィールドを生成し、バリアントコール分類716に基づいてそのようなデータフィールドの値を修正又は維持する。例えば、コール再較正システム106は、品質メトリック、マッピングメトリック、又はヌクレオチドベースコールに関連付けられた他のメトリックなどの様々なメトリックを修正する。ある特定の実施形態では、ヌクレオチドベースコールは、コール品質フィールドに対応するコール品質メトリック、遺伝子型フィールドに対応する遺伝子型メトリック、及び遺伝子型品質フィールドに対応する遺伝子型品質メトリックなどの、データフィールドに対応するメトリックを含むバリアントコールファイル720によって表されるか又は定義される。
【0173】
ある特定の実施形態では、コール再較正システム106は、バリアントコール分類716とともにバリアントコーラーコンポーネント710を利用して、ヌクレオチドベースコール(のためのデータフィールド)を生成する。例えば、コール再較正システム106は、バリアントコーラーコンポーネント710を利用して、コールに含まれるヌクレオチド、コール品質(QUAL)、遺伝子型(GT)、及び遺伝子型品質(GQ)などのヌクレオチドベースコールの様々なメトリックのためのデータフィールドを生成する。
【0174】
コール生成モデル722を介してヌクレオチドベースコールを生成することに加えて、コール再較正システム106はまた、コール再較正機械学習モデル714からのバリアントコール分類716を介してヌクレオチドベースコールを再較正又は修正する。1つ以上の実装形態では、コール再較正システム106は、ヌクレオチドベースコールに関連付けられたメトリックのうちの1つ以上(例えば、バリアントコールファイル720内に含まれるものとして)のためのデータフィールドを修正又は再較正することによって、ヌクレオチドベースコールを修正する。例えば、コール再較正システム106は、バリアントコール分類716から、コール品質、遺伝子型、及び遺伝子型品質などのメトリックに対する更新値を決定する。実際に、コール再較正システム106は、バリアントコール分類716を組み合わせるか又は比較して、バリアントコールファイル720に含まれるヌクレオチドベースコールの対応するメトリックを再較正する。
【0175】
ヌクレオチドベースコールに関連付けられたコール品質メトリックを更新又は再較正するために、コール再較正システム106は、バリアントコール分類716の各々がベースコール品質メトリックにどのようにインパクトを与えるか又は影響を及ぼすかを決定し、それに応じてベースコール品質メトリックを調整する。例えば、コール再較正システム106は、遺伝子型エラーについての高い確率が、より低い全体的な遺伝子型品質及びおそらく異なる全体的なコール品質をもたらすと判定する。別の例として、コール再較正システム106は、偽陽性バリアントについての高い確率がより低い全体的なコール品質をもたらすと判定する。更に別の例として、コール再較正システム106は、真陽性バリアントについての高い確率がより高い全体的な(バリアント)コール品質をもたらすと判定する。更なる例として、コール再較正システム106が、遺伝子型エラーについて高い確率(例えば、他の2つのバリアントコール分類716よりも高い)を決定する場合、コール再較正システム106は、ヌクレオチドベースコールが誤った遺伝子型を有する真のバリアントである可能性が最も高いと判定する。したがって、コール再較正システム106は、ヌクレオチドベースコールに関連付けられた遺伝子型品質及びコール品質とともに遺伝子型を更新する。
【0176】
1つ以上の実装形態では、コール再較正システム106は、バリアントコール分類716の組み合わせ(例えば、重み付けされた組み合わせ又は平均)を生成して、コール品質メトリックを再較正する。特に、コール再較正システム106は、偽陽性分類、遺伝子型エラー分類、及び真陽性分類を、(バリアント)コール品質に対するそれらのそれぞれのインパクトに従って重み付けする。いくつかの場合では、コール再較正システム106は、各バリアントコール分類を均等に重み付けするが、他の場合では、コール再較正システム106は、各バリアントコール分類について異なる重みを決定する。いずれにしても、コール再較正システム106は、ヌクレオチドベースコール(例えば、初期バリアントコール)のためのコール品質メトリックを再較正する(増加又は減少させる)ために、バリアントコール分類716の重み付けされた組み合わせ又は加重平均を決定する。
【0177】
ヌクレオチドベースコールに関連付けられた(例えば、バリアントコールファイル720のGTフィールド内の)遺伝子型メトリックを更新又は再較正するために、コール再較正システム106は、バリアントコール分類716のうちの1つ以上を利用する。例えば、コール再較正システム106は、バリアントコール分類716(例えば、偽陽性分類、遺伝子型エラー分類、及び真陽性分類)としての3つのバリアントコール分類を比較して、バリアントコール分類716のうちのどれが最高の確率を有するかを判定する。いくつかの場合では、コール再較正システム106は、最高の確率を有するバリアントコール分類を利用して、遺伝子型メトリックを再較正する(例えば、参照ベースに対応する0から、第1の代替サポートリードに対応する1へ)。例えば、コール再較正システム106が偽陽性分類について最高の確率を決定する場合、コール再較正システム106は、それに応じて遺伝子型メトリックを再較正する。別の例として、コール再較正システム106が真陽性分類について最高の確率を決定した場合、コール再較正システム106は、遺伝子型メトリックを再較正する(又は再較正を控える)。
【0178】
他の実施形態では、コール再較正システム106は、遺伝子型エラー確率のみを利用して、遺伝子型メトリックを修正する。例えば、コール再較正システム106が高い遺伝子型エラー確率を決定した場合、コール再較正システム106は、ヌクレオチドベースコールの異なる遺伝子型を示すように遺伝子型メトリックを再較正する。
【0179】
ヌクレオチドベースコールに関連付けられた(例えば、バリアントコールファイル720のGQフィールド内の)遺伝子型品質メトリックを更新又は再較正するために、コール再較正システム106は、バリアントコール分類716のうちの1つ以上を利用する。より具体的には、コール再較正システム106は、バリアントコール分類716の各々が遺伝子型品質メトリックにどのように影響を及ぼすかを判定し、それに応じて(例えば、品質スコアを0~10若しくは0~100の間で、又は何らかの他の尺度で増加又は減少させることによって)遺伝子型品質メトリックを再較正する。例えば、コール再較正システム106は、より高い遺伝子型エラー確率が(一般に)より低い遺伝子型品質メトリックを示すと判定し、コール再較正システム106は、それに応じてメトリックを低減する。
【0180】
いくつかの場合では、コール再較正システム106は、遺伝子型品質メトリックを修正するために、バリアントコール分類716の組み合わせ(例えば、重み付けされた組み合わせ又は加重平均)を決定する。例えば、コール再較正システム106は、バリアントコール分類716が遺伝子型品質メトリックに及ぼす複合効果を決定する。別の例として、コール再較正システム106は、各バリアントコール分類が遺伝子型品質メトリックに対して有する個々のインパクトを決定し、それに応じて各バリアントコール分類に重み付けする。コール再較正システム106は更に、バリアントコール分類716の各々に関連付けられた示された確率に基づいてその値を増加又は減少させることによって遺伝子型品質メトリックを再較正する。
【0181】
記載されるように、コール再較正システム106は、同じ配列決定メトリックセット(又はコール再較正機械学習モデル714とコール生成モデル722との間で共有される配列決定メトリックのサブセット)から、バリアントコール分類716及びヌクレオチドベースコールを生成する。実際、コール再較正システム106は、コール再較正機械学習モデル714を利用して、配列決定メトリックからバリアントコール分類716を生成する一方で、試料配列についてのヌクレオチドベースコールも生成する。実際、コール再較正システム106は、コール生成モデル722と並行してコール再較正機械学習モデル714を動作させて、ヌクレオチドベースコールのためのメトリック及び生成されたメトリックを再較正するためのバリアントコール分類716を生成することができる。
【0182】
図7に更に図示されるように、コール再較正システム106は、バリアントコールファイル720を生成する。特に、コール再較正システム106は、ゲノム座標に対応する配列決定メトリックからのヌクレオチドベースコールを表すか又は定義するバリアントコールファイル720を生成する。示されるように、バリアントコールファイル720は、コール品質メトリック(QUAL)、遺伝子型メトリック(GT)、及び遺伝子型品質メトリック(GQ)などの様々なコールメトリックを含む。バリアントコールファイル720を生成するために、説明されるように、コール再較正システム106は、コール生成モデル722を利用してヌクレオチドベースコールのためのメトリックを生成し、コール再較正機械学習モデル714からのバリアントコール分類716を利用してヌクレオチドベースコールを再較正する。
【0183】
1つ以上の実装形態では、コール再較正システム106は、特定のアルゴリズムに従ってバリアントコールファイル720のためのデータフィールドを更新するか、又は別様に修正する。そのようなデータフィールドを修正した後、コール再較正システム106は、QUAL、GT、及びGQのための更新されたデータフィールドを反映するメトリックを含むようにバリアントコールファイル720(例えば、ポストフィルタバリアントコールファイル)を生成することができる。例えば、いくつかの場合では、コール再較正システム106は、偽陽性バリアント(例えば、偽陽性分類)の確率に基づいて、バリアント毎にQUALフィールドを更新する。上で示したように、いくつかの場合では、QUALは、PHREDスケールで測定される、所定の位置にある種のバリアント(又は他のヌクレオチドベースコール)が存在する確率を示す。
【0184】
加えて、コール再較正システム106が、バリアントコール分類716としての3つのバリアントコール分類の中から最高の確率が遺伝子型エラー分類であると判定した場合(例えば、het/homエラーの確率)、コール再較正システム106は、GTフィールドを保存又は維持しながらGQフィールドを更新する。具体的には、いくつかの実施形態では、コール再較正システム106は、真陽性分類(例えば、真の遺伝子型の確率)に基づいてGQフィールドを更新する。
【0185】
更に、コール再較正システム106が、バリアントコール分類716の中から最高の確率が真陽性分類であると判定した場合、いくつかの場合では、コール再較正システム106は、GQフィールドとGTフィールドとの両方を更新する。具体的には、コール再較正システム106は、遺伝子型エラー分類に基づいてGQフィールドを更新し、更にGTフィールドを更新して、既存のGTが0/XであるかX/X(Xは非0値)であるかに応じて遺伝子型を切り替える。
【0186】
コール再較正システム106が、真陽性分類も遺伝子型エラー分類もバリアントコール分類716の中で最高の確率を有していないと判定した場合、いくつかの実施形態では、コール再較正システム106は、GQフィールドを更新する。言い換えれば、コール再較正システム106が、偽陽性分類が最高の確率を有すると判定した場合、コール再較正システム106は、GQフィールドを更新する。特に、コール再較正システム106は、真陽性分類によって示される確率に基づいてGQフィールドを更新する。
【0187】
上で示唆したように、いくつかの実施形態では、コール再較正システム106は、ヌクレオチドベースコールのためのベースコール品質メトリック(例えば、Qスコア)を増加又は減少させる。バリアントコール分類716に基づいて、例えば、コール再較正システム106は、以前に品質フィルタを通過しなかったであろうヌクレオチドベースコールのためのベースコール品質メトリックを増加させ、増加させられたベースコール品質メトリックが現在品質フィルタを通過すると判定する。いくつかのそのような場合では、コール再較正システム106は、ポストフィルタバリアントコールファイルにおいて、そのような増加させられたベースコール品質メトリック(品質フィルタを通過する)を有するヌクレオチドベースコールを含む。対照的に、他の場合では、コール再較正システム106は、以前に品質フィルタを通過したであろうヌクレオチドベースコールのためのベースコール品質メトリックを減少させ、減少させられたベースコール品質メトリックが現在品質フィルタに通過しないと判定する。いくつかのそのような場合では、コール再較正システム106は、減少させられたベースコール品質メトリック(品質フィルタを通過しない)を有するヌクレオチドベースコールをポストフィルタバリアントコールファイルから除外するが、そのような減少させられたベースコール品質メトリックを有するヌクレオチドベースコールをプレフィルタバリアントコールファイルに含める。
【0188】
例えば、ベースコール再較正システム106は、対応するベースコール品質メトリックを変更することによって、偽陽性バリアントコールを除去し、偽陰性バリアントコールを回復することができる。偽陽性を除去するために、いくつかの場合では、コール再較正システム106は、コール再較正機械学習モデル714からのバリアントコール分類716に基づいて、品質フィルタを最初に通過したヌクレオチドベースコールのベースコール品質メトリックを減少させる。減少させられたベースコール品質メトリックが閾値メトリック(例えば、3.0又は10.0のQスコア)を下回ると判定することに基づいて、コール再較正システム106は、ヌクレオチドベースコールがもはや品質フィルタを通過しないと判定する。したがって、コール再較正システム106は、最初にフィルタを通過した偽陽性ヌクレオチドベースコールを、そのベースコール品質メトリックを変更することによってフィルタ除外又は除去する。
【0189】
ベースコール品質メトリックに対する変更に基づいて偽陽性バリアントコールを除去することに加えて、コール再較正システム106は、遺伝子型に対する変更に基づいて偽陽性バリアントコールを除去することができる。偽陽性を除去するために、いくつかの場合では、コール再較正システム106は、コール再較正機械学習モデル714からのバリアントコール分類716に基づいて、参照ベース(例えば、GT=1又は2)とは異なるヌクレオチドベースを示す初期ヌクレオチドベースコールの遺伝子型を、参照ベース(例えば、GT=0)と同じヌクレオチドベースを示す更新ヌクレオチドベースコールの遺伝子型に変更する。遺伝子型が参照ベースと同じであることに基づいて、コール再較正システム106は、ヌクレオチドベースコールをバリアントとして同定せず、いくつかの場合では、バリアントコールファイルからヌクレオチドベースコールのためのデータを除外する。
【0190】
偽陰性を回復するために、コール再較正システム106は、コール再較正機械学習モデル714からのバリアントコール分類716に基づいて、品質フィルタを最初に通過しなかったヌクレオチドベースコールのベースコール品質メトリックを増加させる。増加させられたベースコール品質メトリックが閾値メトリックを超えると判定することに基づいて、コール再較正システム106は、ヌクレオチドベースコールが品質フィルタを通過すると判定する。したがって、コール再較正システム106は、そのベースコール品質メトリックを変更することによって最初にフィルタ除外された偽陰性ヌクレオチドベースコールを回復する。
【0191】
ベースコール品質メトリックに対する変更に基づいて偽陰性を回復することに加えて、コール再較正システム106は、遺伝子型に対する変更に基づいて偽陰性バリアントコールを回復することができる。偽陰性を回復するために、いくつかの場合では、コール再較正システム106は、コール再較正機械学習モデル714からのバリアントコール分類716に基づいて、参照ベースと同じヌクレオチドベース(例えば、GT=0)を示す初期ヌクレオチドベースコールの遺伝子型を、参照ベースとは異なるヌクレオチドベース(例えば、GT=1又は2)を示す更新されたヌクレオチドベースコールの異なる遺伝子型に変更する。更新されたヌクレオチドベースコールの異なる遺伝子型及び通過したベースコール品質メトリックに基づいて、コール再較正システム106は、ヌクレオチドベースコールをバリアントとして同定し、バリアントコールファイル内にヌクレオチドベースコールを含める。
【0192】
実際に、いくつかの実装形態では、コール再較正システム106は、コール生成モデル722及びコール再較正機械学習モデル714を利用して、特定の順序で動作する。例えば、コール再較正システム106は、BCLファイルをFASTQに変換することによってFASTQファイルを生成する。加えて、コール再較正システム106は(その後)、コール生成モデル722のマッピング及びアラインメントコンポーネント708を利用して、試料ヌクレオチド配列からのヌクレオチドベースをマッピング及びアラインメントする。いくつかの場合では、コール再較正システム106は、参照配列(例えば、参照ゲノム)及び/又は様々な代替サポートリードに関連して、試料配列のヌクレオチドベースをマッピング及びアラインメントする。
【0193】
本明細書に記載されるように、マッピング及びアラインメント後、コール再較正システム106は、次いで、コール生成モデル722のバリアントコーラーコンポーネント710を利用して、様々な配列決定メトリックに基づいて、特定のゲノム座標に対応する試料配列についての初期ヌクレオチドベースコールを生成する。その後又はそれと同時に、コール再較正システム106はまた、コール再較正機械学習モデル714を適用して、マッピング及びアラインメント、バリアントコーリングを介して抽出された配列決定メトリックから、及び/又は上で説明したような他のソースから、バリアントコール分類716を生成する。バリアントコール分類716に基づいて、コール再較正システム106は、ヌクレオチドベースコールを再較正する(例えば、QUAL、GT、及びGQなどのヌクレオチドベースコールの特定のメトリックに対応する様々なデータフィールドを修正することによって)ヌクレオチドベースコールを再較正する。
【0194】
いくつかの場合では、コール再較正システム106は更に、ヌクレオチドベースコールに品質フィルタを適用して、ヌクレオチドベースコールが品質フィルタ(例えば、Q20又は他のQスコアのハードパスフィルタ)を通過するかどうかを判定する。その後、コール再較正システム106は、参照ベースからのバリアントを表し、品質フィルタを通過するヌクレオチドベースコールのサブセットを同定する。コール再較正システム106は、ヌクレオチドベースコールのサブセット、並びに更新されたQUALメトリック、更新されたGTメトリック、及び/又は更新されたGQメトリックなどの、ヌクレオチドベースコールのサブセットについての再較正されたメトリックを含む、修正又は更新されたバリアントコールファイル(例えば、バリアントコールファイル720)を更に生成する。
【0195】
上で言及したように、ある特定の実施形態では、コール再較正システム106は、コール再較正機械学習モデル(例えば、コール再較正機械学習モデル714)を訓練又は調整する。特に、コール再較正システム106は、反復訓練プロセスを利用して、正確なバリアントコール分類(例えば、バリアントコール分類716)をもたらす決定木又は学習パラメータを調整又は追加することによって、コール再較正機械学習モデルを適合させる。図8は、1つ以上の実施形態による、コール再較正機械学習モデルを訓練することを示す。
【0196】
図8に図示されるように、コール再較正システム106は、データベース802(例えば、データベース116)からの試料配列決定メトリック804にアクセスする。例えば、コール再較正システム106は、試料リードベースのメトリック、試料外部ソースの配列決定メトリック、及び試料コールモデル生成の配列決定メトリックを含む試料配列決定メトリックにアクセスする。いくつかの場合では、試料配列決定メトリック804は、それらに関連付けられた対応するグラウンドトゥルースバリアントコールファイル816を有し、グラウンドトゥルースバリアントコールファイル816は、実際のヌクレオチドベースコールと、試料配列決定メトリック804から生じるその様々なメトリックとを示す。例えば、コール再較正システム106は、試料配列決定メトリック804と、PrecisionFDAデータセットと呼ばれる、食品医薬品局からの訓練データセットからのグラウンドトゥルースバリアントコールファイルとを利用する。いくつかの場合では、試料配列決定メトリック804は、グラウンドトゥルースバリアントコールファイル内の各ヌクレオチドベースコールのための試料配列決定メトリックのサブセットを含む。グラウンドトゥルースバリアントコールファイルは、試料配列決定メトリックの各サブセットに対応するグラウンドトゥルースバリアントコール(例えば、遺伝子型フィールド内の遺伝子型メトリック)及び/又はグラウンドトゥルースベースコールを有することができる。
【0197】
図8に更に図示されるように、コール再較正システム106は、試料配列決定メトリック804に基づいて、予測バリアントコール分類808を生成する。具体的には、コール再較正システム106は、コール再較正機械学習モデル806(例えば、コール再較正機械学習モデル714)を利用して、予測バリアントコール分類808を生成する。実際、いくつかの実施形態では、コール再較正機械学習モデル806は、予測偽陽性分類、予測遺伝子型エラー分類、及び予測真陽性分類を含む3つの予測バリアントコール分類808のセットを生成する。したがって、予測バリアントコール分類808は、上で説明したバリアントコール分類のいずれかの形態をとることができる。
【0198】
予測バリアントコール分類808に基づいて、コール再較正システム106は、ヌクレオチドベースコールを決定し、ヌクレオチドベースコール及び対応するフィールドを含む修正されたバリアントコールファイル810を生成する。上で示したように、コール再較正システム106は、(i)コール生成モデルを利用して初期ヌクレオチドベースコールを生成し、(ii)コール再較正機械学習モデル806を利用して、ヌクレオチドベースコールのためのバリアントコールファイルに対応するデータフィールドを修正することができる。そのような修正又は再較正された値は、例えばコール生成モデルによって、修正されたバリアントコールファイル810に出力される。例えば、コール再較正システム106は、コール品質メトリック(QUAL)、遺伝子型メトリック(GT)、及び遺伝子型品質メトリック(GQ)を含む、修正されたバリアントコールファイル810内の特定のメトリックのための再較正値を決定する。
【0199】
図8に更に図示されるように、コール再較正システム106は、比較812を実行する。具体的には、コール再較正システム106は、(i)修正されたバリアントコールファイル810中のバリアントヌクレオチドベースコール及び/又はデータフィールドと、(ii)グラウンドトゥルースバリアントコールファイル816中のバリアントヌクレオチドベースコール及び/又はデータフィールドとの間の比較812を行う。いくつかの実施形態では、コール再較正システム106は、損失関数814を利用して、2つのバリアントコールファイルからのバリアントヌクレオチドベースコール及び/又はデータフィールドを比較する(例えば、それらの間の誤差又は損失の尺度を決定する)。例えば、コール再較正機械学習モデル806が勾配ブーストツリーのアンサンブルである場合、コール再較正システム106は、損失関数814として、平均二乗誤差損失関数(例えば、回帰用)及び/又は対数損失関数(例えば、分類用)を利用する。
【0200】
対照的に、コール再較正機械学習モデル806がニューラルネットワークである実施形態では、コール再較正システム106は、クロスエントロピー損失関数、L1損失関数、又は平均二乗誤差損失関数を損失関数814として利用することができる。例えば、コール再較正システム106は、損失関数814を利用して、修正されたバリアントコールファイル810及びグラウンドトゥルースバリアントコールファイル816からのバリアントヌクレオチドベースコール及び/又はデータフィールド間の差異を決定する。
【0201】
図8に更に図示されるように、コール再較正システム106は、モデルフィッティング818を実行する。特に、コール再較正システム106は、比較812に基づいて、コール再較正機械学習モデル806を適合させる。例えば、コール再較正システム106は、後続の訓練反復のための損失関数814からの損失の尺度を低減するために、コール再較正機械学習モデル806に対する修正又は調整を行う。
【0202】
勾配ブーストツリーの場合、例えば、コール再較正システム106は、損失関数814によって決定された誤差の勾配に対してコール再較正機械学習モデル806を訓練する。例えば、コール再較正システム106は、過剰なフィッティングを回避するために目的関数を正則化しながら、(例えば、無限次元の)凸最適化問題を解く。ある特定の実装形態では、コール再較正システム106は、(例えば、偽陽性バリアントコールよりも真陽性バリアントコールが著しく多い場合)過小表現クラスに対する補正を強調するために勾配をスケーリングする。
【0203】
いくつかの実施形態では、コール再較正システム106は、最適化問題を解くことの一部として、連続する訓練反復毎に、新しい弱学習器(例えば、新しいブーストされたツリー)をコール再較正機械学習モデル806に追加する。例えば、コール再較正システム106は、損失関数814からの損失を最小化する特徴(例えば、配列決定メトリック)を見つけ、その特徴を現在の反復のツリーに追加するか、又はその特徴を有する新しいツリーの構築を開始する。
【0204】
勾配ブースティング決定木に加えて、又はその代替として、コール再較正システム106は、ロジスティック回帰を訓練して、真陽性分類などの1つ以上のバリアントコール分類を生成するためのパラメータを学習する。過剰なフィッティングを回避するために、コール再較正システム106は、学習率、確率的勾配ブースティング、ツリーの数、ツリー深度、複雑性ペナルティ化、及びL1/L2正則化などのハイパーパラメータに基づいて更に正則化する。
【0205】
コール再較正機械学習モデル806がニューラルネットワークである実施形態では、コール再較正システム106は、コール再較正機械学習モデル806の内部パラメータ(例えば、重み)を修正して、損失関数814のための損失の尺度を低減することによって、モデルフィッティング818を実行する。実際に、コール再較正システム106は、内部ネットワークパラメータを修正することによって、コール再較正機械学習モデル806がどのように分析し、層とニューロンとの間でデータを渡すかを修正する。したがって、複数回の反復にわたって、コール再較正システム106は、コール再較正機械学習モデル806の精度を改善する。
【0206】
実際に、いくつかの場合では、コール再較正システム106は、図8に図示される訓練プロセスを複数回反復して繰り返す。例えば、コール再較正システム106は、対応するグラウンドトゥルースバリアントコールファイル内の対応するグラウンドトゥルースヌクレオチドベースコールとともに、各ヌクレオチドベースコールのための新しい配列決定メトリックセットを選択することによって、反復訓練を繰り返す。コール再較正システム106は更に、新しい修正されたバリアントコールファイルとともに、反復毎に新しい予測バリアントコール分類のセットを生成する。上で説明したように、コール再較正システム106はまた、各反復における修正されたバリアントコールファイルからのバリアントヌクレオチドベースコール及び/又はデータフィールドを、対応するグラウンドトゥルースバリアントコールファイルからの対応するバリアント-ヌクレオチドベースコール及び/又はデータフィールドと比較し、更にモデルフィッティング818を実行する。コール再較正システム106は、コール再較正機械学習モデル806が、損失の閾値尺度を満たすバリアントコールをもたらす予測バリアントコール分類を生成するまで、このプロセスを繰り返す。いくつかの実施形態では、コール再較正システム106は、ホモ接合参照座標について図8の訓練プロセスを実行して、これらの座標のバリアントコールを更新又は修正し、それによって偽陰性バリアントコールを回復する(記載のように、二倍体データから一倍体データをシミュレートし、コール再較正機械学習モデル806の入力及び出力を修正することに基づいて)。
【0207】
上で言及したように、ある特定の記載された実施形態では、コール再較正システム106は、配列決定メトリックに関連付けられた寄与尺度を生成及び提供する。特に、コール再較正システム106は、特定のヌクレオチドベースコールを決定する際に個々の配列決定メトリックがどの程度インパクトがあるかを示すそれぞれの寄与尺度を決定する。図9は、1つ以上の実施形態による、ヌクレオチドベースコールに関連付けられた配列決定メトリックについての寄与尺度の例示的可視化を示す。
【0208】
図9に図示されるように、クライアント装置108は、対応する配列決定メトリックに関連付けられた寄与尺度の個々の描写を含む寄与尺度インターフェース902を表示する。実際に、コール再較正システム106は、配列決定メトリックが最終ヌクレオチドベースコールに対してどの程度インパクトがあるか又は影響があるかに基づいて、配列決定メトリックの寄与尺度を決定する。深層学習アーキテクチャを利用する多くの既存の配列決定システムとは異なり、コール再較正システム106によって使用されるコール生成モデルの構造は、メトリック毎にそのような寄与尺度の決定を容易にする。
【0209】
例えば、コール再較正システム106は、ヌクレオチドベースコールのための配列決定メトリックの各々についてのShapley Additive Description(SHAP)値を決定することによって寄与尺度を決定する。具体的には、コール再較正システム106は、ベースライン値(例えば、配列決定メトリックのベースライン値)の結果と比較した配列決定メトリックのインパクトを決定することによって、SHAP値を決定する。図9に図示されるように、コール再較正システム106は、いくつかの列挙された配列決定メトリックについての寄与尺度を決定し、ここで、各配列決定メトリックについてのグラフのより太い(例えば、より球根状の)部分は、その寄与尺度を(大まかに)示す。
【0210】
図9に更に図示されるように、コール再較正システム106は、同様に寄与尺度に従って配列決定メトリックをランク付けすることができる。例えば、コール再較正システム106は、mapq_pメトリックについての寄与が寄与-尺度インターフェース902内に表示されたものの中で最も高く、qualメトリック、gt0メトリックなどがリストの下に続くことを決定する。
【0211】
上で言及したように、ある特定の記載された実施形態では、コール再較正システム106は、既存の配列決定システムよりも精度が向上する。特に、コール再較正システム106は、既存の配列決定システムと比較して、偽陽性バリアントヌクレオチドベースコール及び偽陰性バリアントヌクレオチドベースコールを低減させる。実際に、コール再較正機械学習モデルを利用してヌクレオチドベースコールを再較正することによって、コール再較正システム106は、あるコール再較正機械学習モデルを利用しなかったコール生成モデルの以前のバージョン(但し、依然として他のシステムより性能が優れている)よりも更に改善する。図10A図10Bは、いくつかの既存のシステムと比較したコール再較正システム106の精度の改善を実証する実験のグラフ及び表を示す。
【0212】
参照のために、図10A図10B及び図11A図11Bに示されるように、名称「非再較正システム1」は、バリアントコーリングのために線形参照ゲノムを使用する既存の配列決定システムを指す。対照的に、名称「非再較正システム2」は、バリアントコーリングのためにグラフ参照ゲノムを使用する既存の配列決定システムを指す。更に、「コール再較正システム1」という名称は、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及びホモ接合であろう参照ゲノム座標でのヌクレオチドベースコールのために構成されていないコール再較正システム106の一実施形態を指す。対照的に、「コール再較正システム2」という名称は、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及びホモ接合であろう参照ゲノム座標でのヌクレオチドベースコールのために構成されていないコール再較正システム106の実施形態を指す。
【0213】
図10Aに図示されるように、グラフ1002は、コール再較正システム106の2つのバリエーションについてのSNP偽陽性を、2つの再較正されていないシステムのSNP偽陽性と比較する、いくつかの受信者動作特性(receiver operating characteristic、ROC)曲線を示す。グラフ1002は、検出された偽陽性バリアントに対する感度を表すROC曲線の部分を描写し、感度は、真陽性バリアントコールと偽陽性バリアントコールの合計で除算された、正確に決定された真陽性バリアントコールの数を表す。特に、グラフ1002は、コール再較正機械学習モデルを利用するコール再較正システム106の異なる実施形態、すなわち、上で説明したような「コール再較正システム1」及び「コール再較正再較正システム2」のROC曲線を示す。実験は、PrecisionFDAトゥルースセット(例えば、PrecisionFDA HG002高信頼度トゥルースセット)を使用して実施した。一般に、グラフ1002において左上方に向かう曲線は、より正確である。示されるように、コール再較正システム106の実施形態は、3つの再較正されていないシステムの各々よりも改善された精度を示し、比較してより高い感度及びより少ない偽陽性バリアントコールを有する。コール再較正システム1のROC曲線とコール再較正システム2のROC曲線との間の改善によって示されるように、感度の増加は、別の配列決定システムによってホモ接合参照遺伝子型として同定されたであろうゲノム座標での偽陰性バリアントコールの回復に部分的に起因する。
【0214】
加えて、グラフ1004は、コール再較正システム106の異なる実施形態についての非SNP(例えば、インデル)偽陽性バリアントコールを、対の非再較正システム(非再較正システム1及び非再較正システム2)のものと比較する、いくつかのROC曲線を示す。グラフ1004は、検出された偽陽性バリアントに対する感度を表すROC曲線を示す。特に、グラフ1004は、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及びホモ接合であろう参照ゲノム座標でのヌクレオチドベースコールのために構成されたコール再較正システム106の一実施形態についてのROC曲線を示し、これは、再較正されていないシステムにおいて約0.4の感度で優勢なバンプ又はジョグを除去又は低減する(代わりに、ほぼ垂直な軌道上で滑らかに上方に継続する)。実際に、複対立遺伝子ゲノム座標での改善に少なくとも部分的に起因して、コール再較正システム106(ここでは、コール再較正システム2)の一実施形態は、複対立遺伝子バリアントを再較正しない1つ以上の非再較正システム(例えば、非再較正システム2)と比較して、同様の感度でより少ない偽陽性バリアントコールを示す。実験は、PrecisionFDAトゥルースセット(例えば、PrecisionFDA HG002高信頼度トゥルースセット)を使用して実施した。
【0215】
図10Bに図示されるように、表1006はグラフ1002に対応し、表1008はグラフ1004に対応する。表1006及び表1008の番号は、それぞれ、グラフ1002及び1004の各々における曲線に対する最良のF値点において取られる。表1006に示されるように、コール再較正システム106の両方の実施形態は、再較正されていないシステムのいずれよりも、偽陰性バリアントコール(false negative、FN)が少なく、偽陽性バリアントコール(false positive、FP)が少なく、真陽性(true positive、TP)が多い。例えば、最良のF値点において、コール再較正システム106(コール再較正システム2として示され、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及びホモ接合であろう参照ゲノム座標でのヌクレオチドベースコール用に構成されている)の実施形態は、表1006に示されるように、7309個の偽陰性バリアントコール及び2801個の偽陽性バリアントコールを生成する。コール再較正システム106(コール再較正システム1として示されているが、複対立遺伝子ゲノム座標及びホモ接合参照ゲノム座標でのヌクレオチドベースコール用には構成されていない)の他の実施形態は、7717個の偽陰性バリアントコール及び3216個の偽陽性バリアントコールを生成する。同様に、コール再較正システム106は、より少ないhet/homエラー、より良好な再現率、及びより高い精度も有する。
【0216】
表1008に図示されるように、コール再較正システム106の実施形態は、非SNPシナリオについても非再較正システムよりも性能が優れている。例えば、表1008の最良F値点において、コール再較正システム106(コール再較正システム2として示され、複対立遺伝子ゲノム座標、一倍体ゲノム座標、及びホモ接合であろう参照ゲノム座標でのヌクレオチドベースコール用に構成されている)の実施形態は、513個の偽陽性バリアントコールを生成し、一方、コール再較正システム106の他の実施形態は、618個の偽陽性バリアントコールを生成する。両方の再較正されていないシステムは、はるかに多くの偽陽性バリアントコールを生成する。コール再較正システム106の実施形態はまた、再較正されないシステムのいずれよりも高い精度を有する。
【0217】
図10A図10Bに示される二倍体精度の改善に加えて、図11A図11Bは、一倍体精度の改善を示す。具体的には、グラフ1102及び1104は、各々、2つのROC曲線を示し、1つはコール再較正システム106に対するものであり、1つは再較正されていないシステムに対するものである。例えば、グラフ1102は、SNPについてのROC曲線を示し、一方、グラフ1104は、非SNP(例えば、インデル)についてのROC曲線を示す。いずれの場合も、一倍体座標での精度改善の結果として、コール再較正システム106は、再較正されていないシステムと比較して、より高い感度及びより少ない偽陽性バリアントコールを有する。実際、グラフ1102及び1104の各々において、コール再較正システム106のROC曲線は改善されており、断面に位置する最良のF値点は、再較正されていないシステムと比較して、(ほぼ)同じ感度でより少ない偽陽性バリアントコールを示す。グラフ1102及び1104の実験は、PrecisionFDAトゥルースセットを使用して実施した。
【0218】
図11Bに図示されるように、表1106はグラフ1102に対応し、表1108はグラフ1104に対応する。実際、表1106は、最良のF値点で再較正されていないシステムと比較したコール再較正システム106についてのSNP結果を示す。示されるように、コール再較正システム106は、SNPについて、より多くの真陽性、より少ない偽陰性バリアントコール、より少ない偽陽性バリアントコール、より高い再現率、及びより高い精度を有する。表1108を見ると、コール再較正システム106は、非SNPについても、(最良のF値点で)再較正されていないシステムよりも多くの真陽性、より少ない偽陰性バリアントコール、より少ない偽陽性バリアントコール、より高い再現率、及びより高い精度を生成する。
【0219】
ここで図12図14を参照すると、この図は、1つ以上の実施形態による、コール再較正機械学習モデルからのバリアントコール分類に基づいて最終ヌクレオチドベースコールを生成する一連の動作の各々の例示的なフローチャートを示す。図12図14は、一実施形態による動作を図示するが、代替実施形態は、図12図14に示される動作のいずれかを省略、追加、再配列、及び/又は修正してもよい。図12図14の動作は、方法の一部として実施することができる。代替的に、非一時的コンピュータ可読記憶媒体は、1つ以上のプロセッサによって実行されると、コンピューティング装置に図12図14に示された動作を実行させる命令を含むことができる。更なる実施形態では、システムは、少なくとも1つのプロセッサと、1つ以上のプロセッサによって実行されると、システムに図12図14の動作を実行させる命令を含む非一時的コンピュータ可読媒体と、を備える。
【0220】
図12に示されるように、一連の動作1200は、複対立遺伝子ゲノム座標についての配列決定メトリックを決定する動作1202を含む。特に、動作1202は、試料ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することを含み得る。
【0221】
加えて、一連の動作1200は、複対立遺伝子ゲノム座標についてのバリアントコール分類のセットを生成する動作1204を含む。特に、動作1204は、コール再較正機械学習モデルを利用し、配列決定メトリックに基づいて、複対立遺伝子ゲノム座標でのホモ接合参照遺伝子型の参照確率、複対立遺伝子ゲノム座標での遺伝子型エラーの異なる遺伝子型確率、及び複対立遺伝子ゲノム座標での正確なバリアントコール遺伝子型の正確なバリアント確率を含むバリアントコール分類のセットを生成することを含み得る。
【0222】
例えば、参照確率を生成することは、複対立遺伝子ゲノム座標での遺伝子型が参照ゲノムに関してホモ接合遺伝子型である確率を決定することを含み得る。異なる遺伝子型確率を生成することは、複対立遺伝子ゲノム座標についての予測された遺伝子型が不正確な遺伝子型又は予測された遺伝子型における不正確な対立遺伝子である確率を決定することを含み得る。正確なバリアント確率を生成することは、複対立遺伝子ゲノム座標について予測される遺伝子型がコール生成モデルによって最初に決定されるように正確である確率を決定することを含み得る。
【0223】
図12に更に図示されるように、一連の動作1200は、複対立遺伝子ゲノム座標についての最終ヌクレオチドベースコールを決定する動作1206を含む。特に、動作1206は、1つ以上のバリアントコール分類のセットに基づいて、複対立遺伝子ゲノム座標についての最終ヌクレオチドベースコールを決定することを含み得る。例えば、動作1206は、複対立遺伝子ゲノム座標での3つ以上の候補対立遺伝子から2つのヌクレオチドベースを予測することを含み得る。
【0224】
一連の動作1200はまた、バリアントコール分類のセットに基づいて、ベースコール品質メトリック又は遺伝子型品質メトリックを修正する動作を含み得る。更に、一連の動作1200は、修正されたベースコール品質メトリック又は修正された遺伝子型品質メトリックを含むバリアントコールファイルを生成する動作を含み得る。加えて、一連の動作1200は、複対立遺伝子ゲノム座標での対立遺伝子の候補ヌクレオチドベースコールについての更新された遺伝子型尤度を生成する動作を含み得る。いくつかの実施形態では、一連の動作1200は、更新された遺伝子型尤度を含むバリアントコールファイルを生成する動作を含む。
【0225】
図13に示されるように、一連の動作1300は、一倍体ヌクレオチド配列のゲノム座標に対応するヌクレオチドベースコールのための配列決定メトリックを決定する動作1302を含む。特に、動作1302は、試料からの一倍体ヌクレオチド配列のゲノム座標に対応するヌクレオチドリードのヌクレオチドベースコールのための配列決定メトリックを決定することを含み得る。
【0226】
一連の動作1300はまた、第1の遺伝子型確率及び第2の遺伝子型確率を生成する動作1304を含み得る。特に、動作1304は、コール再較正機械学習モデルを利用して、かつ配列決定メトリックに基づいて、ゲノム座標での第1の遺伝子型の第1の遺伝子型確率及びゲノム座標での第2の遺伝子型の第2の遺伝子型確率を生成することを含み得る。いくつかの場合では、動作1304は、第1の遺伝子型確率を生成する動作が、ゲノム座標での第1の遺伝子型が一倍体参照遺伝子型である確率を生成することを含み、第2の遺伝子型確率を生成する動作が、ゲノム座標での第2の遺伝子型が一倍体代替遺伝子型である確率を生成することを含むことを含む。
【0227】
第1の遺伝子型確率を生成することは、コール再較正機械学習モデルの層を利用して、ゲノム座標でのホモ接合参照遺伝子型のホモ接合参照確率を修正して、ゲノム座標での参照遺伝子型の一倍体参照確率を生成することを含み得る。第2の遺伝子型確率を生成することは、コール再較正機械学習モデルの層を利用して、ゲノム座標でのホモ接合代替遺伝子型のホモ接合代替確率を修正して、ゲノム座標での代替遺伝子型の一倍体代替確率を生成することを含み得る。
【0228】
いくつかの場合では、動作1304は、コール再較正機械学習モデルの1つ以上の層を利用して、ゲノム座標について、第1の遺伝子型に対応する第1の信頼スコア、第2の遺伝子型に対応する第2の信頼スコア、及び第3の遺伝子型に対応する第3の信頼スコアを生成することを含む。動作1304はまた、第2の遺伝子型に対応する第2の信頼スコアを除外し、ソフトマックスモデルを利用して第1の信頼スコア及び第3の信頼スコアを正規化して、第1の遺伝子型確率及び第2の遺伝子型確率を生成することを含み得る。
【0229】
更に示されるように、一連の動作1300は、一倍体遺伝子型を示す最終ヌクレオチドベースコールを決定する動作1306を含み得る。特に、動作1306は、第1の遺伝子型確率及び第2の遺伝子型確率に基づいて、ゲノム座標についての一倍体遺伝子型を示す最終ヌクレオチドベースコールを決定することを含み得る。例えば、動作1306は、第2の遺伝子型確率が第1の遺伝子型確率を超えると判定することに基づいて、ゲノム座標についての一倍体代替遺伝子型、修正されたベースコール品質メトリック、修正された遺伝子型メトリック、及び修正された遺伝子型品質メトリックうちの1つを決定すること、又は第1の遺伝子型確率が第2の遺伝子型確率を超えると判定することに基づいて、ゲノム座標についての一倍体参照遺伝子型、修正されたベースコール品質メトリック、及び修正された遺伝子型品質メトリックのうちの1つを決定することを含み得る。
【0230】
いくつかの実施形態では、一連の動作1300は、コール生成モデルによって生成された一倍体参照遺伝子型コールを、コール再較正機械学習モデルのための入力として、二倍体ホモ接合参照遺伝子型コールに変換する動作を含む。一連の動作1300は、コール生成モデルによって生成された一倍体代替遺伝子型コールを、コール再較正機械学習モデルのための入力として、二倍体ホモ接合代替遺伝子型コールに変換する動作を含み得る。更に、一連の動作1300は、コール再較正機械学習モデルを利用して、二倍体ホモ接合参照遺伝子型コール又は二倍体ホモ接合代替遺伝子型コールに更に基づいて、第1の遺伝子型確率及び第2の遺伝子型確率を生成する動作を含み得る。
【0231】
ある特定の実施形態では、一連の動作1300は、二倍体配列決定メトリックをダウンサンプリングして、一倍体ヌクレオチド配列に対応する一倍体配列決定メトリックをシミュレートする動作を含む。一倍体配列決定メトリックをシミュレートするために二倍体配列決定メトリックをダウンサンプリングすることは、一倍体ヌクレオチドリードをシミュレートするために試料から二倍体ヌクレオチドリードのサブセットを選択する動作と、二倍体ヌクレオチドリードのサブセットのヌクレオチドベースコールに基づいて、コール生成モデルによって示されるように、又はグラウンドトゥルースベースコールデータセット(例えば、PrecisionFDA v4.2.1などの精選されたトゥルースセット)によって示されるように、ホモ接合参照遺伝子型又はホモ接合代替遺伝子型を示すゲノム座標のサブセットを選択する動作と、を含み得る。
【0232】
図14に示されるように、一連の動作1400は、ホモ接合参照遺伝子型を示す1つ以上のヌクレオチドベースコールを決定する動作1402を含む。特に、動作1402は、1つ以上のヌクレオチドリードについて、試料ヌクレオチド配列のゲノム座標でのホモ接合参照遺伝子型を示す1つ以上のヌクレオチドベースコールを決定することを含み得る。
【0233】
一連の動作1400は、1つ以上のヌクレオチドベースコールについて配列決定メトリックを決定する動作1404を含み得る。特に、動作1404は、ゲノム座標に対応する1つ以上のヌクレオチドベースコールのための配列決定メトリックを決定することを含み得る。例えば、動作1404は、ホモ接合参照遺伝子型を有するとして示されるゲノム座標についてのリードベースの配列決定メトリック、外部ソースの配列決定メトリック、又はコールモデル生成の配列決定メトリックのうちの1つ以上を決定することを含み得る。
【0234】
示されるように、一連の動作1400は、1つ以上のバリアントコール分類を生成する動作1406を含み得る。特に、動作1406は、コール再較正機械学習モデルを利用して、かつ1つ以上のヌクレオチドベースコールからの配列決定メトリックに基づいて、ゲノム座標でのバリアントを同定する精度を示す1つ以上のバリアントコール分類を生成することを含み得る。
【0235】
図14に更に図示されるように、一連の動作1400は、1つ以上のバリアントコール分類からのバリアントコールを決定する動作1408を含み得る。いくつかの場合では、動作1408は、1つ以上のバリアントコール分類に基づいて、ゲノム座標についてのバリアントコールを決定することを含み得る。例えば、動作1408は、コール生成モデルから、ゲノム座標でのホモ接合参照遺伝子型の指標を受信することと、1つ以上のバリアントコール分類に基づいてホモ接合参照遺伝子型を異なる遺伝子型に修正することによって、ゲノム座標についてのバリアントコールを決定することと、を含み得る。
【0236】
いくつかの実施形態では、一連の動作1400は、ゲノム座標での試料についてのコール生成モデルから以前のホモ接合参照遺伝子型コールを同定する動作を含む。更に、一連の動作1400は、ゲノム座標での試料についてのグラウンドトゥルースベースコールを同定する動作と、ゲノム座標についてのバリアントコールとゲノム座標についてのグラウンドトゥルースベースコールとの比較に基づいて、コール再較正機械学習モデルを修正する動作と、を含む。一連の動作1400は、1つ以上のバリアントコール分類に基づいて、バリアントコールファイルに対応するコール品質フィールド、遺伝子型フィールド、又は遺伝子型品質フィールドのうちの1つ以上を更新する動作を含み得る。
【0237】
ある特定の実装形態では、一連の動作1400は、ゲノム座標について、真陽性分類(例えば、ホモ接合代替分類)が1つ以上のバリアントコール分類の中から最も高い確率を有するという判定に基づくホモ接合代替遺伝子型、遺伝子型エラー分類(例えば、ヘテロ接合遺伝子型分類)が1つ以上のバリアントコール分類の中から最も高い確率を有するという判定に基づくヘテロ接合遺伝子型、又は真陽性分類も遺伝子型エラー分類も1つ以上のバリアントコール分類の中から最も高い確率を有しないという判定に基づくホモ接合参照遺伝子型のうちの1つを決定する動作を含む。
【0238】
本明細書に記載の方法は、様々な核酸配列決定技術と併せて使用することができる。特に適用可能な技術は、核酸を、それらの相対的位置が変化しないようにアレイ内の固定位置に付着させ、アレイが繰り返し撮像されるものである。例えば、1つのヌクレオチド塩基型を別のヌクレオチド塩基型と区別するために使用される異なる標識と一致する異なる色チャネルで画像が得られる実施形態は、特に適用可能である。いくつかの実施形態では、標的核酸のヌクレオチド配列を決定するプロセスは、自動化プロセスであり得る。好ましい実施形態は、合成による配列決定(「SBS」)技術を含む。
【0239】
SBS技術は、一般に、鋳型鎖に対するヌクレオチドの反復的付加による、新生核酸鎖の酵素的伸長を伴う。SBSの従来の方法では、単一のヌクレオチドモノマーが、各送達においてポリメラーゼの存在下で標的ヌクレオチドに提供され得る。しかしながら、本明細書に記載の方法では、送達中のポリメラーゼの存在下で、複数の種類のヌクレオチドモノマーを標的核酸に提供することができる。
【0240】
SBSは、ターミネーター部分を有するヌクレオチドモノマー、又は任意のターミネーター部分を欠くヌクレオチドモノマーを利用することができる。ターミネーターを欠くヌクレオチドモノマーを利用する方法としては、例えば、以下に更に詳細に記載されるように、γ-リン酸標識ヌクレオチドを使用するピロ配列決定及び配列決定が挙げられる。ターミネーターを含まないヌクレオチドモノマーを使用する方法では、各サイクルに添加されるヌクレオチドの数は、概ね可変であり、鋳型配列及びヌクレオチド送達のモードに依存する。ターミネーター部分を有するヌクレオチドモノマーを利用するSBS技術では、ターミネーターは、ジデオキシヌクレオチドを利用する従来のSanger配列決定の場合のように使用される配列決定条件下で有効に不可逆的であり得るか、又はターミネーターは、Solexa(現在はIllumina,Inc.)によって開発された配列決定方法の場合のように可逆的であり得る。
【0241】
SBS技術は、標識部分を有するヌクレオチドモノマー、又は標識部分を欠くヌクレオチドモノマーを使用することができる。したがって、標識の蛍光などの標識の特性、分子量又は電荷などのヌクレオチドモノマーの特性、ピロリン酸の放出などのヌクレオチドの組み込みの副生成物などに基づいて、組み込みイベントを検出することができる。2つ以上の異なるヌクレオチドが配列決定試薬中に存在する実施形態では、異なるヌクレオチドは、互いに区別可能であり得るか、又は代替的に、2つ以上の異なる標識は、使用される検出技術の下で区別可能であり得る。例えば、配列決定試薬中に存在する異なるヌクレオチドは、異なる標識を有することができ、それらは、Solexa(現在はIllumina,Inc.)によって開発された配列決定方法によって例示される適切な光学系を使用して区別することができる。
【0242】
好ましい実施形態としては、パイロシークエンシング(パイロ配列決定)技術が挙げられる。パイロシークエンシングは、特定のヌクレオチドが新生鎖に組み込まれるときに無機ピロリン酸塩(PPi)の放出を検出する(Ronaghi,M.,Karamohamed,S.,Pettersson,B.,Uhlen,M.and Nyren,P.(1996)「Real-time DNA sequencing using detection of pyrophosphate release.」Analytical Biochemistry 242(1),84-9、Ronaghi,M.(2001)「Pyrosequencing sheds light on DNA sequencing.」Genome Res.11(1),3-11、Ronaghi,M.,Uhlen,M.and Nyren,P.(1998)「A sequencing method based on real-time pyrophosphate.」Science 281(5375),363、米国特許第6,210,891号、同第6,258,568号及び同第6,274,320号、参照によりその開示の全体が本明細書に組み込まれる)。パイロシークエンシングにおいて、放出されたPPiは、ATPスルフラーゼによってアデノシン三リン酸(adenosine triphosphate、ATP)に即座に変換されることによって検出することができ、生成されたATPのレベルはルシフェラーゼで生成された光子を介して検出される。配列決定される核酸は、アレイ中の特徴部に結合させることができ、アレイは、アレイの特徴部にヌクレオチドを組み込むことにより生成される化学発光シグナルを捕捉するために画像化することができる。アレイを特定のヌクレオチド型(例えば、A、T、C、又はG)で処理した後に、画像を得ることができる。各ヌクレオチド型の添加後に得られる画像は、アレイ内のどの特徴部が検出されるかに関して異なる。画像内のこれらの差異は、アレイ上の特徴部の異なる配列コンテンツを反映する。しかしながら、各特徴部の相対的な位置は、画像内で変わらないままである。画像は、本明細書に記載の方法を使用して、記憶、処理、及び分析することができる。例えば、アレイを各異なるヌクレオチド型で処理した後に得られる画像は、可逆的ターミネーターベースの配列決定方法についての異なる検出チャネルから得られる画像について、本明細書に例示されるものと同じ方法で処理することができる。
【0243】
別の例示的な種類のSBSでは、サイクル配列決定は、例えば、その開示が参照により組み込まれる、国際公開第04/018497号及び米国特許第7,057,026号に記載されているような切断可能な又は光漂白可能な色素標識を含む可逆的ターミネーターヌクレオチドを段階的に付加することによって達成される。この手法は、Solexa(現在はIllumina Inc.)によって商品化されており、国際公開第91/06678号及び同第07/123,744号にも記載されており、これらの各々は、参照により本明細書に組み込まれる。終端の両方を逆転させることができ、蛍光標識が開裂された蛍光標識ターミネーターの可用性は、効率的な循環可逆的終端(cyclic reversible termination、CRT)配列決定を容易にする。ポリメラーゼはまた、これらの修飾されたヌクレオチドを効率的に組み込み、かつそこから伸長するように共操作することもできる。
【0244】
好ましくは、可逆的ターミネーターベースの配列決定実施形態では、標識は、SBS反応条件下での伸長を実質的に阻害しない。しかしながら、検出標識は、例えば、開裂又は分解によって除去可能であり得る。画像は、アレイ化された核酸特徴部への標識の組み込み後に撮影することができる。特定の実施形態では、各サイクルは、アレイへの4つの異なるヌクレオチド型の同時送達を伴い、各ヌクレオチド型は、スペクトル的に異なる標識を有する。次に、4つの異なる標識の1つに選択的な検出チャネルをそれぞれ使用して、4つの画像を得ることができる。代替的に、異なるヌクレオチド型を順次追加することができ、各追加ステップの間にアレイの画像を得ることができる。このような実施形態では、各画像は、特定の型のヌクレオチドを組み込んだ核酸特徴部を示す。各特徴部のシーケンスコンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しない。しかしながら、特徴部の相対的な位置は、画像内で変わらないままである。このような可逆的ターミネーター-SBS方法から得られる画像は、本明細書に記載されるように、保存、処理、及び分析することができる。画像撮影ステップに続いて、標識を除去することができ、その後のヌクレオチド添加及び検出のサイクルについて可逆的ターミネーター部分を除去することができる。特定のサイクルで検出された後、及び後続のサイクルの前に標識を除去すると、サイクル間のバックグラウンド信号及びクロストークを低減できるという利点がある。有用な標識及び除去方法の例を以下に記載する。
【0245】
特定の実施形態では、ヌクレオチドモノマーの一部又は全ては、可逆的ターミネーターを含むことができる。このような実施形態では、可逆的ターミネーター/開裂可能なフルオロフォア(fluor)は、3’エステル結合を介してリボース部分に結合したフルオロフォア(fluor)を含むことができる(Metzker,Genome Res.15:1767-1776(2005)、これは参照により本明細書に組み込まれる)。他の手法は、ターミネーターの化学を蛍光標識の切断から分離している(参照によりその全体が本明細書に組み込まれる、Ruparel et al.,Proc Natl Acad Sci USA 102:5932-7(2005))。Ruparelらは、少量の3’アリル基を使用して伸長をブロックするが、パラジウム触媒で短時間処理することにより容易に脱ブロックすることができる可逆性ターミネーターの開発について説明している。フルオロフォアは、長波長UV光への30秒の曝露によって容易に開裂することができる光開裂可能リンカーを介して基に付着された。したがって、ジスルフィド還元又は光開裂のいずれかを開裂可能なリンカーとして使用することができる。可逆的終端への別の手法は、dNTP上に嵩高な染料を配置した後に続く自然終端の使用である。dNTP上の帯電した嵩高な染料の存在は、立体障害及び/又は静電障害を介して効果的なターミネーターとして作用することができる。1つの組み込みイベントの存在は、染料が除去されない限り、それ以上の結合を防止する。染料の開裂は、フルオロフォア(fluor)を除去し、終端を効果的に逆転させる。修飾ヌクレオチドの例はまた、米国特許第7,427,673号及び米国特許第7,057,026,号に記載されており、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0246】
本明細書に記載の方法及びシステムとともに利用することができる追加の例示的なSBSシステム及び方法は、米国特許出願公開第2007/0166705号、米国特許出願公開第2006/0188901号、米国特許第7,057,026号、米国特許出願公開第2006/0240439号、米国特許出願公開第2006/0281109号、国際公開第05/065814号、米国特許出願公開第2005/0100900号、国際公開第06/064199号、国際公開第07/010,251号、米国特許出願公開第2012/0270305号、及び米国特許出願公開第2013/0260372号に記載されており、これらの開示は、参照によりその全体が本明細書に組み込まれる。
【0247】
いくつかの実施形態は、4つ未満の異なる標識を使用する4つの異なるヌクレオチドの検出を利用することができる。例えば、SBSは、組み込まれた資料である米国特許出願公開第2013/0079232号に記載される方法及びシステムを使用して実施することができる。第1の例として、ヌクレオチド型の対は、同じ波長で検出することができるが、対のうちの1つのメンバーに対する強度の差に基づいて、又は、対の他の部材について検出された信号と比較して明らかなシグナルを出現又は消失させる、対の1つのメンバーへの変化(例えば、化学修飾、光化学修飾、又は物理的改質を行うことを介して)に基づいて区別され得る。第2の例として、4つの異なるヌクレオチド型のうちの3つを特定の条件下で検出することができ、一方、第4のヌクレオチド型は、それらの条件下で検出可能な標識がないか、又はそれらの条件下で最小限に検出される(例えば、バックグラウンド蛍光による最小限の検出など)。最初の3つのヌクレオチド型を核酸に組み込むことは、それらの対応するシグナルの存在に基づいて決定することができ、第4のヌクレオチド型を核酸に組み込むことは、任意のシグナルの不在又は最小限の検出に基づいて決定することができる。第3の例として、1つのヌクレオチド型は、2つの異なるチャネルで検出される標識を含むことができ、一方、他のヌクレオチド型は、チャネルのうちの1つ以下で検出される。前述の3つの例示的な構成は、相互に排他的であるとはみなされず、様々な組み合わせで使用することができる。3つ全ての例を組み合わせた例示的な実施形態は、第1のチャネルで検出される第1のヌクレオチド型(例えば、第1の励起波長によって励起されたときに第1のチャネルで検出される標識を有するdATP)、第2のチャネルで検出される第2のヌクレオチド型(例えば、第2の励起波長によって励起されたときに第2のチャネルで検出される標識を有するdCTP)、第1及び第2のチャネルの両方において検出される第3のヌクレオチド型(例えば、第1及び/又は第2の励起波長によって励起されたときに両方のチャネルで検出される少なくとも1つの標識を有するdTTP)、及びいずれのチャネルでも検出されないか、又は最小限に検出される標識を欠く第4のヌクレオチド型(例えば、標識のないdGTP)を使用する蛍光ベースのSBS方法である。
【0248】
更に、組み込まれた資料である米国特許出願公開第2013/0079232号に記載のように、配列決定データは、単一のチャネルを使用して得ることができる。このようないわゆる1つの染料配列決定方法では、第1のヌクレオチド型は標識されるが、第1の画像が生成された後に標識が除去され、第2のヌクレオチド型は、第1の画像が生成された後にのみ標識される。第3のヌクレオチド型は、第1及び第2の画像の両方においてその標識を保持し、第4のヌクレオチド型は、両方の画像において標識されていないままである。
【0249】
いくつかの実施形態は、ライゲーション技術による配列決定を利用することができる。このような技術は、DNAリガーゼを利用してオリゴヌクレオチドを組み込み、そのようなオリゴヌクレオチドの組み込みを識別する。オリゴヌクレオチドは、典型的には、オリゴヌクレオチドがハイブリダイズする配列中の特定のヌクレオチドの同一性と相関する異なる標識を有する。他のSBS方法と同様に、標識された配列決定試薬で核酸配列のアレイを処理した後、画像を得ることができる。各画像は、特定の型の標識を組み込んだ核酸特徴部を示す。各特徴部のシーケンスコンテンツが異なるため、様々な画像に様々な特徴部が存在するか、存在しないが、特徴部の相対的な位置は、画像内で変わらないままである。ライゲーションベースの配列決定方法から得られる画像は、本明細書に記載されるように、保存、処理、及び分析することができる。本明細書に記載の方法及びシステムとともに利用することができる例示的なSBSシステム及び方法は、米国特許第6,969,488号、米国特許第6,172,218号、及び米国特許第6,306,597号に記載されており、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる。
【0250】
いくつかの実施形態は、ナノ細孔配列決定を利用することができる(Deamer,D.W.& Akeson,M.「Nanopores and nucleic acids:prospects for ultrarapid sequencing.」Trends Biotechnol.18,147-151(2000)、Deamer,D.and D.Branton,「Characterization of nucleic acids by nanopore analysis」.Acc.Chem.Res.35:817-825(2002)、Li,J.,M.Gershow,D.Stein,E.Brandin,and J.A.Golovchenko,「DNA molecules and configurations in a solid-state nanopore microscope」Nat.Mater.2:611-615(2003)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。そのような実施形態では、標的核酸はナノ細孔を通過する。ナノ細孔は、α-ヘモリジンなどの合成孔又は生体膜タンパク質であり得る。標的核酸がナノ細孔を通過するとき、各塩基対は、細孔の電気コンダクタンスの変動を測定することによって識別することができる。(米国特許第7,001,792号、Soni,G.V.& Meller,「A.Progress toward ultrafast DNA sequencing using solid-state nanopores.」Clin.Chem.53,1996-2001(2007)、Healy,K.「Nanopore-based single-molecule DNA analysis.」Nanomed.2,459-481(2007)、Cockroft,S.L.,Chu,J.,Amorin,M.& Ghadiri,M.R.「A single-molecule nanopore device detects DNA polymerase activity with single-nucleotide resolution.」J.Am Chem.Soc.130,818-820(2008)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。ナノ細孔配列決定から得られるデータは、本明細書に記載されるように、保存、処理、及び分析することができる。特に、データは、本明細書に記載の光学画像及び他の画像の例示的な処理に従って、画像として処理することができる。
【0251】
いくつかの実施形態は、DNAポリメラーゼ活性のリアルタイムモニタリングを伴う方法を利用することができる。ヌクレオチドの組み込みは、例えば、各々が参照により本明細書に組み込まれる、米国特許第7,329,492号及び米国特許第211,414号に記載されているようなフルオロフォア含有ポリメラーゼとγ-ホスフェート標識ヌクレオチドとの間の蛍光共鳴エネルギー移動(fluorescence resonance energy transfer、FRET)相互作用を介して検出することができ、又はヌクレオチドの組み込みは、例えば、参照により本明細書に組み込まれる米国特許第7,315,019号に記載されているようなゼロモード導波路、並びに、例えば、各々が参照により本明細書に組み込まれる、米国特許第7,405,281号及び米国特許出願公開第2008/0108082号に記載されているような蛍光ヌクレオチド類似体及び操作ポリメラーゼを使用して検出することができる。照明は、蛍光標識されたヌクレオチドの組み込みが低バックグラウンドで観察され得るように、表面繋留ポリメラーゼの周囲のゼプトリットルスケールの体積に制限することができる(Levene,M.J.et al.「Zero-mode waveguides for single-molecule analysis at high concentrations.」Science,299,682-686(2003)、Lundquist,P.M.et al.「Parallel confocal detection of single molecules in real time.」Opt.Lett.33,1026-1028(2008)、Korlach,J.et al.「Selective aluminum passivation for targeted immobilization of single DNA polymerase molecules in zero-mode waveguide nano structures.」Proc.Natl.Acad.Sci.USA 105,1176-1181(2008)、これらの開示は、参照によりそれらの全体が本明細書に組み込まれる)。このような方法から得られる画像は、本明細書に記載されるように、記憶、処理、及び分析することができる。
【0252】
いくつかのSBS実施形態は、伸長産物へのヌクレオチドの組み込み時に放出されるプロトンの検出を含む。例えば、放出されたプロトンの検出に基づく配列決定は、Ion Torrent(Guilford,CT、Life Technologiesの子会社)から市販されている電気検出器及び関連技術を使用し得る、又は、米国特許出願公開第2009/0026082(A1)号、同第2009/0127589(A1)号、同第2010/0137143(A1)号、若しくは同第2010/0282617(A1)号に記載されている配列決定方法及びシステムであり、これらの各々は、参照により本明細書に組み込まれる。動力学的除外を使用して標的核酸を増幅するための本明細書に記載の方法は、プロトンを検出するために使用される基質に容易に適用することができる。より具体的には、本明細書に記載の方法を使用して、プロトンを検出するために使用されるアンプリコンのクローン集団を生成することができる。
【0253】
上記のSBS方法は、複数の異な標的核酸が同時に操作されるように、多重形式で有利に実施することができる。特定の実施形態では、異なる標的核酸は、共通の反応容器又は特定の基質の表面上で処理することができる。これにより、配列決定試薬の簡便な送達、未反応試薬の除去、及び取り込み事象の検出が多重方式で可能になる。表面結合された標的核酸を使用する実施形態では、標的核酸は、アレイ形式であり得る。アレイ形式では、標的核酸は、典型的には、空間的に区別可能な方式で表面に結合され得る。標的核酸は、直接共有結合、ビーズ若しくは他の粒子への結合、又は表面に結合したポリメラーゼ若しくは他の分子への結合によって結合され得る。アレイは、各部位(特徴部とも称される)における標的核酸の単一コピーを含むことができ、又は同じ配列を有する複数のコピーは、各部位若しくは特徴部に存在することができる。複数のコピーは、以下で更に詳細に記載されるブリッジ増幅又はエマルジョンPCRなどの増幅方法によって生成することができる。
【0254】
本明細書に記載の方法は、例えば、少なくとも約10個の特徴部/cm2、100個の特徴部/cm2、500個の特徴部/cm2、1,000個の特徴部/cm2、5,000個の特徴部/cm2、10,000個の特徴部/cm2、50,000個の特徴部/cm2、100,000個の特徴部/cm2、1,000,000個の特徴部/cm2、5,000,000個の特徴部/cm2、又はそれ以上を含む、様々な密度のいずれかの特徴部を有するアレイを使用することができる。
【0255】
本明細書に記載の方法の利点は、複数の標的核酸の迅速かつ効率的な検出を並行して提供することである。したがって、本開示は、上で例示したものなどの当該技術分野において既知の技術を使用して核酸を調製及び検出することができる統合システムを提供する。したがって、本開示の統合システムは、増幅試薬及び/又は配列決定試薬を1つ以上の固定化されたDNAフラグメントに送達することができる流体コンポーネントを含むことができ、システムは、ポンプ、弁、リザーバ、流体ラインなどのコンポーネントを含む。フローセルは、標的核酸を検出するための統合システムで構成及び/又は使用することができる。例示的なフローセルは、例えば、米国特許第2010/0111768(A1)号及び米国特許出願第13/273,666号に記載され、これらの各々は、参照により本明細書に組み込まれる。フローセルについて例示されるように、統合システムの流体コンポーネントの1つ以上を増幅方法及び検出方法に使用することができる。核酸配列決定の実施形態を一例として取ると、統合システムの流体コンポーネントの1つ以上を、本明細書に記載の増幅方法、及び上に例示したような配列決定方法における配列決定試薬の送達に使用することができる。代替的に、統合システムは、増幅方法を実施し、検出方法を実施するための別々の流体システムを含み得る。増幅された核酸を作成し、また核酸の配列を決定することができる統合配列決定システムの例としては、MiSeq(商標)プラットフォーム(Illumina Inc.,San Diego,CA)、及び参照により本明細書に組み込まれる、米国特許出願第13/273,666号に記載の装置が挙げられるが、これらに限定されない。
【0256】
上で説明した配列決定システムは、配列決定装置によって受け取られた試料中に存在する核酸ポリマーを配列決定する。本明細書で定義されるように、「試料」及びその誘導体は、最も広い意味で使用され、標的を含むことが疑われる任意の試料、培養物などを含む。いくつかの実施形態では、試料は、DNA、RNA、PNA、LNA、キメラ又はハイブリッド形態の核酸を含む。試料は、1つ以上の核酸を含有する任意の生物学的試料、臨床試料、外科試料、農業試料、大気試料又は水試料を含むことができる。この用語はまた、任意の単離された核酸試料、例えば、ゲノムDNA、新鮮凍結又はホルマリン固定パラフィン包埋核酸試料を含む。試料は、単一個体、遺伝的に関連するメンバーからの核酸試料のコレクション、遺伝的に関連しないメンバーからの核酸試料、腫瘍試料及び正常組織試料のような単一個体からの核酸試料(適合)、又は母体被験体から得られた母体及び胎児DNAのような遺伝物質の2つの異なる形態を含む単一供給源からの試料、又は植物又は動物DNAを含む試料中の混入細菌DNAの存在に由来し得ることも想定される。いくつかの実施形態では、核酸物質の供給源は、例えば新生児スクリーニングに典型的に使用されるような新生児から得られた核酸を含むことができる。
【0257】
核酸試料は、ゲノムDNA(genomic DNA、gDNA)などの高分子量物質を含むことができる。試料は、FFPE又は保管されたDNA試料から得られた核酸分子などの低分子量物質を含むことができる。別の実施形態では、低分子量物質は、酵素的又は機械的にフラグメント化されたDNAを含む。試料は、無細胞循環DNAを含むことができる。いくつかの実施形態では、試料は、生検、腫瘍、擦過物、スワブ、血液、粘液、尿、血漿、精液、毛髪、レーザ捕捉顕微解剖、外科的切除、及び他の臨床的又は実験室で得られた試料から得られた核酸分子を含むことができる。いくつかの実施態様では、試料は、疫学、農業、法医学又は病原性の試料であり得る。いくつかの実施態様では、試料は、ヒト又は哺乳動物源などの動物から得られた核酸分子を含むことができる。別の実施態様では、試料は、植物、細菌、ウイルス又は真菌などの非哺乳類源から得られた核酸分子を含むことができる。いくつかの実施態様では、核酸分子の供給源は、保存された又は絶滅した試料若しくは種であり得る。
【0258】
更に、本明細書中に開示される方法及び組成物は、法医学試料からの分解及び/又はフラグメント化されたゲノムDNAなどの低品質核酸分子を有する核酸試料を増幅するのに有用であり得る。一実施態様では、法医学試料は、犯罪現場から得られた核酸、行方不明者DNAデータベースから得られた核酸、法医学調査と関連した研究所から得られた核酸を含むことができ、又は法執行機関、1つ以上のミリタリーサービス若しくはそのような隊員によって得られた法医学試料を含むことができる。核酸試料は、例えば、口腔スワブ、紙、布、又は唾液、血液、若しくは他の体液で含浸され得る他の基質に由来する、精製された試料又は溶解物を含む粗DNAであり得る。したがって、いくつかの実施態様では、核酸試料は、ゲノムDNAなどの、少量のDNA又はフラグメント化されたDNAの部分を含むことができる。いくつかの実施形態では、標的配列は、限定されるものではないが、血液、痰、血漿、精液、尿及び血清を含む1つ以上の体液に存在し得る。いくつかの実施態様では、標的配列は、犠牲者の毛髪、皮膚、組織試料、剖検又は遺体から得ることができる。いくつかの実施態様では、1つ以上の標的配列を含む核酸は、死亡した動物又はヒトから得ることができる。いくつかの実施態様では、標的配列は、微生物、植物又は昆虫学的DNAなど非ヒトDNAから得られた核酸を含むことができる。いくつかの実施形態では、標的配列又は増幅された標的配列は、ヒト同定を目的とする。いくつかの実施形態では、本開示は、概して、法医学試料の特性を同定するための方法に関する。いくつかの実施形態では、本開示は、概して、本明細書に開示される1つ以上の標的特異的プライマー、又は本明細書に概説されるプライマー設計基準を用いて設計された1つ以上の標的特異的プライマーを使用するヒト同定方法に関する。一実施形態では、少なくとも1つの標的配列を含む法医学試料又はヒト同定試料は、本明細書に開示される標的特異的プライマーのいずれか1つ以上を用いて、又は本明細書に概説されたプライマー基準を用いて増幅することができる。
【0259】
コール再較正システム106のコンポーネントは、ソフトウェア、ハードウェア、又はその両方を含むことができる。例えば、コール再較正システム106のコンポーネントは、コンピュータ可読記憶媒体上に記憶され、1つ以上のコンピューティング装置(例えば、クライアント装置108)のプロセッサによって実行可能な1つ以上の命令を含むことができる。1つ以上のプロセッサによって実行されると、コール再較正システム106のコンピュータ実行可能命令は、コンピューティング装置に、本明細書で説明されるコール再較正方法を実行させることができる。代替的に、コール再較正システム106のコンポーネントは、ある特定の機能又は機能群を実行するための専用処理装置などのハードウェアを含むことができる。追加的に、又は代替的に、コール再較正システム106のコンポーネントは、コンピュータ実行可能命令及びハードウェアの組み合わせを含むことができる。
【0260】
更に、コール再較正システム106に関して本明細書で説明される機能を実行するコール再較正システム106のコンポーネントは、例えば、スタンドアロンアプリケーションの一部として、アプリケーションのモジュールとして、アプリケーションのプラグインとして、他のアプリケーションによって呼び出され得るライブラリ関数として、及び/又はクラウドコンピューティングモデルとして実装され得る。したがって、コール再較正システム106のコンポーネントは、パーソナルコンピューティング装置又はモバイル装置上のスタンドアロンアプリケーションの一部として実装され得る。追加的に、又は代替的に、コール再較正システム106のコンポーネントは、限定されるものではないが、Illumina BaseSpace、Illumina DRAGEN、又はIllumina TruSightソフトウェアを含む、配列決定サービスを提供する任意のアプリケーションにおいて実装されてもよい。「Illumina」、「BaseSpace」、「DRAGEN」、及び「TruSight」は、米国及び/又は他の国におけるIllumina,Inc.の登録商標又は商標である。
【0261】
本開示の実施形態は、以下でより詳細に考察されるように、例えば、1つ以上のプロセッサ及びシステムメモリなどのコンピュータハードウェアを含む、専用又は汎用コンピュータを含み、又は利用してもよい。本開示の範囲内の実施形態はまた、コンピュータ実行可能命令及び/又はデータ構造を搬送又は記憶するための物理的及び他のコンピュータ可読媒体を含む。特に、本明細書で説明されるプロセスのうちの1つ以上は、非一時的コンピュータ可読媒体において具現化され、1つ以上のコンピューティング装置(例えば、本明細書で説明されるメディアコンテンツアクセス装置のうちのいずれか)によって実行可能な命令として少なくとも部分的に実装されてもよい。概して、プロセッサ(例えば、マイクロプロセッサ)は、非一時的コンピュータ可読媒体(例えば、メモリなど)から命令を受信し、それらの命令を実行し、それによって、本明細書で説明するプロセスのうちの1つ以上を含む、1つ以上のプロセスを実行する。
【0262】
コンピュータ可読媒体は、汎用コンピュータシステム又は専用コンピュータシステムによってアクセスされ得る任意の利用可能な媒体であり得る。コンピュータ実行可能命令を記憶するコンピュータ可読媒体は、非一時的コンピュータ可読記憶媒体(装置)である。コンピュータ実行可能命令を搬送するコンピュータ可読媒体は、伝送媒体である。したがって、限定ではなく例として、本開示の実施形態は、少なくとも2つの明確に異なる種類のコンピュータ可読媒体、すなわち非一時的コンピュータ可読記憶媒体(装置)及び伝送媒体を含むことができる。
【0263】
非一時的コンピュータ可読記憶媒体(装置)は、RAM、ROM、EEPROM、CD-ROM、(例えば、RAMに基づく)ソリッドステートドライブ(solid state drive、SSD)、フラッシュメモリ、相変化メモリ(PCM)、他のタイプのメモリ、他の光ディスク記憶装置、磁気ディスク記憶装置若しくは他の磁気記憶装置、又はコンピュータ実行可能命令若しくはデータ構造の形態で所望のプログラムコード手段を記憶するために使用することができ、汎用若しくは専用コンピュータによってアクセスすることができる任意の他の媒体を含む。
【0264】
「ネットワーク」は、コンピュータシステム及び/又はモジュール及び/又は他の電子装置間の電子データの移送を可能にする1つ以上のデータリンクとして定義される。情報が、ネットワーク又は別の通信接続(ハードワイヤード、ワイヤレス、又はハードワイヤード若しくはワイヤレスの組み合わせのいずれか)を介してコンピュータに転送又は提供されるとき、コンピュータは、その接続を伝送媒体として適切に認識する。伝送媒体は、コンピュータ実行可能命令又はデータ構造の形態で所望のプログラムコード手段を搬送するために使用することができ、汎用又は専用コンピュータによってアクセスすることができるネットワーク及び/又はデータリンクを含むことができる。上記の組み合わせも、コンピュータ可読媒体の範囲内に含まれるべきである。
【0265】
更に、様々なコンピュータシステムコンポーネントに到達すると、コンピュータ実行可能命令又はデータ構造の形態のプログラムコード手段は、伝送媒体から非一時的コンピュータ可読記憶媒体(装置)に(又はその逆に)自動的に転送され得る。例えば、ネットワーク又はデータリンクを介して受信されたコンピュータ実行可能命令又はデータ構造は、ネットワークインターフェースモジュール(例えば、NIC)内のRAMにバッファリングされ、次いで、最終的に、コンピュータシステムRAM及び/又はコンピュータシステムにおけるより揮発性の低いコンピュータ記憶媒体(装置)に転送され得る。したがって、非一時的コンピュータ可読記憶媒体(装置)は、伝送媒体も(又は更に主に)利用するコンピュータシステムコンポーネントに含まれ得ることを理解されたい。
【0266】
コンピュータ実行可能命令は、例えば、プロセッサで実行されると、汎用コンピュータ、専用コンピュータ、又は専用処理装置に、ある特定の機能又は機能群を実行させる命令及びデータを含む。いくつかの実施形態では、コンピュータ実行可能命令は、汎用コンピュータ上で実行され、汎用コンピュータを、本開示の要素を実装する専用コンピュータに変える。コンピュータ実行可能命令は、例えば、バイナリ、アセンブリ言語などの中間フォーマット命令、又は更にソースコードであってもよい。主題は、構造的特徴及び/又は方法論的動作に特有の言語で説明されているが、添付の特許請求の範囲において定義される主題は、説明された特徴又は上で説明した動作に必ずしも限定されないことを理解されたい。むしろ、説明された特徴及び動作は、特許請求の範囲を実装する例示的な形態として開示される。
【0267】
当業者は、本開示が、パーソナルコンピュータ、デスクトップコンピュータ、ラップトップコンピュータ、メッセージプロセッサ、ハンドヘルド装置、マルチプロセッサシステム、マイクロプロセッサベース又はプログラム可能な家庭用電化製品、ネットワークPC、ミニコンピュータ、メインフレームコンピュータ、携帯電話、PDA、タブレット、ページャ、ルータ、スイッチなどを含む、多くのタイプのコンピュータシステム構成を有するネットワークコンピューティング環境で実施され得ることを理解するであろう。本開示はまた、ネットワークを介して(ハードワイヤードデータリンク、ワイヤレスデータリンク、又はハードワイヤード及びワイヤレスデータリンクの組み合わせのいずれかによって)リンクされたローカル及びリモートコンピュータシステムが両方ともタスクを実行する分散システム環境において実施され得る。分散システム環境では、プログラムモジュールは、ローカルメモリ記憶装置及びリモートメモリ記憶装置の両方に位置することができる。
【0268】
本開示の実施形態は、クラウドコンピューティング環境において実装することもできる。本明細書では、「クラウドコンピューティング」は、構成可能なコンピューティングリソースの共有プールへのオンデマンドネットワークアクセスを可能にするためのモデルとして定義される。例えば、クラウドコンピューティングは、構成可能なコンピューティングリソースの共有プールへのユビキタスで便利なオンデマンドアクセスを提供するために、市場で使用され得る。構成可能なコンピューティングリソースの共有プールは、仮想化を介して迅速に設定され、低い管理労力又はサービスプロバイダ対話で公開され、次いで、それに応じて拡大縮小され得る。
【0269】
クラウドコンピューティングモデルは、例えば、オンデマンドセルフサービス、広域ネットワークアクセス、リソースプーリング、迅速な弾力性、測定されたサービスなどの様々な特性から構成することができる。クラウドコンピューティングモデルはまた、例えば、Software as a Service(SaaS)、Platform as a Service(PaaS)、及びInfrastructure as a Service(IaaS)などの様々なサービスモデルを公開することができる。クラウドコンピューティングモデルは、プライベートクラウド、コミュニティクラウド、パブリッククラウド、ハイブリッドクラウドなどの異なる展開モデルを使用して展開することもできる。本明細書及び特許請求の範囲において、「クラウドコンピューティング環境」は、クラウドコンピューティングが採用される環境である。
【0270】
図15は、上で説明したプロセスのうちの1つ以上を実行するように構成され得るコンピューティング装置1500のブロック図を図示する。コンピューティング装置1500などの1つ以上のコンピューティング装置が、コール再較正システム106及び配列決定システム104を実装することができることが理解されよう。図15によって示されるように、コンピューティング装置1500は、プロセッサ1502、メモリ1504、記憶装置1506、I/Oインターフェース1508、及び通信インターフェース1510を含むことができ、これらは、通信インフラストラクチャ1512によって通信可能に結合され得る。ある特定の実施形態では、コンピューティング装置1500は、図15に示されるものよりも少ない又は多いコンポーネントを含むことができる。以下の段落は、図15に示されるコンピューティング装置1500のコンポーネントを更に詳細に説明する。
【0271】
1つ以上の実施形態では、プロセッサ1502は、コンピュータプログラムを構成する命令などの命令を実行するためのハードウェアを含む。限定ではなく、一例として、ワークフローを動的に修正するための命令を実行するために、プロセッサ1502は、内部レジスタ、内部キャッシュ、メモリ1504、又は記憶装置1506から命令を取り出し(又はフェッチし)、それらを復号して実行することができる。メモリ1504は、データ、メタデータ、及びプロセッサによる実行のためのプログラムを記憶するために使用される揮発性又は不揮発性メモリであってもよい。記憶装置1506は、本明細書に記載の方法を実行するためのデータ又は命令を記憶するための、ハードディスク、フラッシュディスクドライブ、又は他のデジタル記憶装置などの記憶装置を含む。
【0272】
I/Oインターフェース1508は、ユーザが、コンピューティング装置1500に入力を提供し、コンピューティング装置1500から出力を受信し、そうでなければコンピューティング装置1500にデータを転送し、コンピューティング装置1500からデータを受信することを可能にする。I/Oインターフェース1508は、マウス、キーパッド若しくはキーボード、タッチスクリーン、カメラ、光学スキャナ、ネットワークインターフェース、モデム、他の既知のI/O装置、又はそのようなI/Oインターフェースの組み合わせを含むことができる。I/Oインターフェース1508は、限定されるものではないが、グラフィックスエンジン、ディスプレイ(例えば、ディスプレイスクリーン)、1つ以上の出力ドライバ(例えば、ディスプレイドライバ)、1つ以上のオーディオスピーカ、及び1つ以上のオーディオドライバを含む、ユーザに出力を提示するための1つ以上の装置を含むことができる。ある特定の実施形態では、I/Oインターフェース1508は、ユーザに提示するためにグラフィカルデータをディスプレイに提供するように構成される。グラフィカルデータは、1つ以上のグラフィカルユーザインターフェース及び/又は特定の実装形態に役立ち得る任意の他のグラフィカルコンテンツを表してもよい。
【0273】
通信インターフェース1510は、ハードウェア、ソフトウェア、又はその両方を含むことができる。いずれにしても、通信インターフェース1510は、コンピューティング装置1500と1つ以上の他のコンピューティング装置又はネットワークとの間の通信(例えば、パケットベースの通信など)のための1つ以上のインターフェースを提供することができる。限定ではなく、一例として、通信インターフェース1510は、Ethernet(登録商標)若しくは他の有線ベースのネットワークと通信するためのネットワークインターフェースコントローラ(network interface controller、NIC)若しくはネットワークアダプタ、又はWI-FIなどのワイヤレスネットワークと通信するためのワイヤレスNIC(wireless NIC、WNIC)若しくはワイヤレスアダプタを含むことができる。
【0274】
更に、通信インターフェース1510は、様々なタイプの有線又は無線ネットワークとの通信を容易にすることができる。通信インターフェース1510はまた、様々な通信プロトコルを使用して、通信を容易にすることもできる。通信インフラストラクチャ1512はまた、コンピューティング装置1500のコンポーネントを互いに結合するハードウェア、ソフトウェア、又はその両方を含むことができる。例えば、通信インターフェース1510は、1つ以上のネットワーク及び/又はプロトコルを使用して、特定のインフラストラクチャによって接続された複数のコンピューティング装置が互いに通信して、本明細書で説明するプロセスの1つ以上の態様を実行することを可能にすることができる。例示すると、配列決定プロセスは、複数の装置(例えば、クライアント装置、配列決定装置、及びサーバ装置)が配列決定データ及びエラー通知などの情報を交換することを可能にすることができる。
【0275】
前述の明細書において、本開示は、その特定の例示的な実施形態を参照して説明された。本開示の様々な実施形態及び態様は、本明細書で考察される詳細を参照して説明され、添付の図面は様々な実施形態を図示する。上記の説明及び図面は、本開示の例示であり、本開示を限定するものとして解釈されるべきではない。本開示の様々な実施形態の完全な理解を提供するために、多数の特定の詳細が説明される。
【0276】
本開示は、その趣旨又は本質的な特性から逸脱することなく、その他の特定の形態で具現化されてもよい。記載された実施形態は、全ての点において、例示的なものに過ぎず、限定的ではないとみなされるべきである。例えば、本明細書で説明される方法は、より少ない又はより多いステップ/動作を用いて実施されてもよく、又はステップ/動作は、異なる順序で実施されてもよい。更に、本明細書で説明されるステップ/動作は、互いに並行して、又は同じ若しくは同様の動作の異なる出現と並行して、繰り返されるか、又は実施され得る。したがって、本願の範囲は、前述の説明ではなく、添付の特許請求の範囲によって示される。特許請求の範囲の意味及び均等範囲内に含まれる全ての変更は、それらの範囲内に包含されるものである。
【符号の説明】
【0277】
100 システム環境(又は「環境」)
102 サーバ装置
104 配列決定システム
106 コール再較正システム
108 ユーザクライアント装置
110 配列決定アプリケーション
112 ネットワーク
114 配列決定装置
116 データベース
302 複対立遺伝子ゲノム座標
304 配列決定メトリック
306 コール再較正機械学習モデル
308 バリアントコール分類
310 参照確率
312 遺伝子型確率
314 バリアント確率
316 VCFフィールド
318 ベースコール品質(QUAL)フィールド
320 遺伝子型品質(genotype quality、GQ)フィールド
322 遺伝子型尤度
324 バリアントコールファイル
402 一倍体ヌクレオチド配列
404 配列決定メトリック
406 コール再較正機械学習モデル
408 第1の遺伝子型確率
410 第2の遺伝子型確率
412 バリアントコールファイル
414 最終ヌクレオチドベースコール
416 コール生成モデル
418 ダウンサンプリング
420 二倍体ヌクレオチドリード
422 二倍体配列決定メトリック
424 一倍体配列決定メトリック
426 分類器層
428 ソフトマックスモデル
430 バリアントコールファイル
432 最終ヌクレオチドベースコール
502 コール生成モデル
504 試料ヌクレオチド配列
506 配列決定メトリック
508 配列決定メトリック
510 配列決定メトリック
512 配列決定メトリック
514 コール再較正機械学習モデル
516 バリアントコール分類
518 バリアントコールファイル
520 バリアントコール
602 ヌクレオチドリード
604 マッピング
606 配列決定メトリック
608 配列データ
608 シーケンスデータ
610 コール生成モデル
612 配列決定メトリック
614 配列決定情報データベース
616 配列決定メトリック
702 配列決定情報データベース
704 参照配列
706 配列データ
708 アラインメントコンポーネント
710 バリアントコーラーコンポーネント
712 配列決定メトリック抽出
714 コール再較正機械学習モデル
716 バリアントコール分類
718 データフィールド生成
720 バリアントコールファイル
722 コール生成モデル
802 データベース
804 試料配列決定メトリック
806 コール再較正機械学習モデル
806 (ii)コール再較正機械学習モデル
808 予測バリアントコール分類
810 バリアントコールファイル
812 比較
814 損失関数
816 グラウンドトゥルースバリアントコールファイル
816 (ii)グラウンドトゥルースバリアントコールファイル
818 モデルフィッティング
902 寄与尺度インターフェース
1500 コンピューティング装置
1502 プロセッサ
1504 メモリ
1506 記憶装置
1508 I/Oインターフェース
1510 通信インターフェース
1512 通信インフラストラクチャ
図1
図2
図3A
図3B
図4A
図4B
図5
図6A
図6B
図6C
図7
図8
図9
図10A
図10B
図11A
図11B
図12
図13
図14
図15
【国際調査報告】