(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-12-24
(54)【発明の名称】標的参照ゲノムを使わないバリアントコーリング
(51)【国際特許分類】
G16B 30/00 20190101AFI20241217BHJP
【FI】
G16B30/00
【審査請求】未請求
【予備審査請求】有
(21)【出願番号】P 2024539855
(86)(22)【出願日】2022-12-28
(85)【翻訳文提出日】2024-07-01
(86)【国際出願番号】 US2022082462
(87)【国際公開番号】W WO2023129953
(87)【国際公開日】2023-07-06
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2021-12-29
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-09-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-09-23
(33)【優先権主張国・地域又は機関】US
(32)【優先日】2022-09-23
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】500358711
【氏名又は名称】イルミナ インコーポレイテッド
(74)【代理人】
【識別番号】100108453
【氏名又は名称】村山 靖彦
(74)【代理人】
【識別番号】100110364
【氏名又は名称】実広 信哉
(74)【代理人】
【識別番号】100133400
【氏名又は名称】阿部 達彦
(72)【発明者】
【氏名】ホン・ガオ
(72)【発明者】
【氏名】トビアス・ハンプ
(72)【発明者】
【氏名】ジョシュア・グッドウィン・ジョン・マクマスター-シュライバー
(72)【発明者】
【氏名】ラクシュマン・サンダラム
(72)【発明者】
【氏名】カイ-ハウ・ファー
(57)【要約】
開示される技術は、標的種のサンプルをバリアントコーリングするために、非標的種の参照ゲノムを使用することの実行可能性を判断することに関する。特に、開示される技術は、標的種のサンプルの配列決定されたリードを非標的種の参照ゲノムにマッピングして、標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出すること、及び標的種のサンプルの配列決定されたリードを疑似標的種の参照ゲノムにマッピングして、標的種のサンプルの配列決定されたリードにおけるバリアントの第2の集合を検出することに関する。
【特許請求の範囲】
【請求項1】
標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断するコンピュータ実装方法であって、
標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを非標的種の参照ゲノムに対してマッピングすることと、
前記標的種の前記サンプルの前記配列決定されたリードにおけるバリアントの第2の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを疑似標的種の参照ゲノムにマッピングすることと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第1の集合と前記バリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第2の集合に存在するが前記バリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
前記偽陽性バリアントの部分集合のカウントに基づいて、前記標的種をバリアントコーリングするために前記非標的種の前記参照ゲノムを使用することの前記実行可能性を判断することと、を含む、コンピュータ実装方法。
【請求項2】
前記疑似標的種が、前記標的種である、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記疑似標的種が、前記標的種とは異なる、請求項1に記載のコンピュータ実装方法。
【請求項4】
前記疑似標的種が、前記標的種と相同である、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記非標的種が、ヒトである、請求項1に記載のコンピュータ実装方法。
【請求項6】
前記標的種が、非ヒト霊長類である、請求項1に記載のコンピュータ実装方法。
【請求項7】
前記標的種の前記サンプルの前記配列決定されたリードを前記標的種の前記参照ゲノムにマッピングし、次いで、前記標的種の前記サンプルのマッピングされた前記配列決定されたリードを前記非標的種の前記参照ゲノムにリフトオーバーすることによって、前記バリアントの第2の集合を検出することを更に含む、請求項1に記載のコンピュータ実装方法。
【請求項8】
前記バリアントの第1の集合及び前記バリアントの第2の集合から低品質バリアントを除外するために、第1のフィルタを適用することを更に含む、請求項1に記載のコンピュータ実装方法。
【請求項9】
前記バリアントの第1の集合及び前記バリアントの第2の集合から、前記非標的種の前記参照ゲノムと前記疑似標的種の前記参照ゲノムとの間で共有される固定の置換を除外するために、第2のフィルタを適用することを更に含む、請求項1に記載のコンピュータ実装方法。
【請求項10】
前記標的種の前記サンプルの前記配列決定されたリードにおける特定の領域が、前記非標的種の前記参照ゲノムにおける第1の領域及び前記疑似標的種の前記参照ゲノムにおける第2の領域に位置するため、前記偽陽性バリアントの部分集合における偽陽性バリアントが生じ、前記第1の領域及び前記第2の領域が異なる、請求項1に記載のコンピュータ実装方法。
【請求項11】
前記標的種の前記サンプルの前記配列決定されたリードにおける前記特定の領域が、前記非標的種の前記参照ゲノムにおける複数の領域に位置するため、前記偽陽性バリアントが生じる、請求項10に記載のコンピュータ実装方法。
【請求項12】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリには、標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断するためのコンピュータ命令がロードされ、前記コンピュータ命令が、前記1つ以上のプロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを非標的種の参照ゲノムに対してマッピングすることと、
前記標的種の前記サンプルの前記配列決定されたリードにおけるバリアントの第2の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを疑似標的種の参照ゲノムにマッピングすることと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第1の集合と前記バリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第2の集合に存在するが前記バリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
前記偽陽性バリアントの部分集合のカウントに基づいて、前記標的種をバリアントコーリングするために前記非標的種の前記参照ゲノムを使用することの前記実行可能性を判断することと、を含む、動作を実装する、システム。
【請求項13】
前記疑似標的種が、前記標的種である、請求項12に記載のシステム。
【請求項14】
前記疑似標的種が、前記標的種とは異なる、請求項12に記載のシステム。
【請求項15】
前記疑似標的種が、前記標的種と相同である、請求項12に記載のシステム。
【請求項16】
前記非標的種が、ヒトである、請求項12に記載のシステム。
【請求項17】
前記標的種が、非ヒト霊長類である、請求項12に記載のシステム。
【請求項18】
前記標的種の前記サンプルの前記配列決定されたリードを前記標的種の前記参照ゲノムにマッピングし、次いで、前記標的種の前記サンプルのマッピングされた前記配列決定されたリードを前記非標的種の前記参照ゲノムにリフトオーバーすることによって、前記バリアントの第2の集合を検出することを更に含む、請求項12に記載のシステム。
【請求項19】
前記バリアントの第1の集合及び前記バリアントの第2の集合から低品質バリアントを除外するために、第1のフィルタを適用することを更に含む、請求項12に記載のシステム。
【請求項20】
前記バリアントの第1の集合及び前記バリアントの第2の集合から、前記非標的種の前記参照ゲノムと前記疑似標的種の前記参照ゲノムとの間で共有される固定の置換を除外するために、第2のフィルタを適用することを更に含む、請求項12に記載のシステム。
【請求項21】
前記標的種の前記サンプルの前記配列決定されたリードにおける特定の領域が、前記非標的種の前記参照ゲノムにおける第1の領域及び前記疑似標的種の前記参照ゲノムにおける第2の領域に位置するため、前記偽陽性バリアントの部分集合における偽陽性バリアントが生じ、前記第1の領域及び前記第2の領域が異なる、請求項12に記載のシステム。
【請求項22】
前記標的種の前記サンプルの前記配列決定されたリードにおける前記特定の領域が、前記非標的種の前記参照ゲノムにおける複数の領域に位置するため、前記偽陽性バリアントが生じる、請求項21に記載のシステム。
【請求項23】
標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断するためのコンピュータプログラム命令が焼き付けられた非一時的コンピュータ可読記憶媒体であって、前記コンピュータ命令が、プロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを非標的種の参照ゲノムに対してマッピングすることと、
前記標的種の前記サンプルの前記配列決定されたリードにおけるバリアントの第2の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを疑似標的種の参照ゲノムにマッピングすることと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第1の集合と前記バリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第2の集合に存在するが前記バリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
前記偽陽性バリアントの部分集合のカウントに基づいて、前記標的種をバリアントコーリングするために前記非標的種の前記参照ゲノムを使用することの前記実行可能性を判断することと、を含む、方法を実装する、非一時的コンピュータ可読記憶媒体。
【請求項24】
前記疑似標的種が、前記標的種である、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項25】
前記疑似標的種が、前記標的種とは異なる、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項26】
前記疑似標的種が、前記標的種と相同である、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項27】
前記非標的種が、ヒトである、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項28】
前記標的種が、非ヒト霊長類である、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項29】
前記標的種の前記サンプルの前記配列決定されたリードを前記標的種の前記参照ゲノムにマッピングし、次いで、前記標的種の前記サンプルのマッピングされた前記配列決定されたリードを前記非標的種の前記参照ゲノムにリフトオーバーすることによって、前記バリアントの第2の集合を検出することを更に含む、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項30】
前記バリアントの第1の集合及び前記バリアントの第2の集合から低品質バリアントを除外するために、第1のフィルタを適用することを更に含む、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項31】
前記バリアントの第1の集合及び前記バリアントの第2の集合から、前記非標的種の前記参照ゲノムと前記疑似標的種の前記参照ゲノムとの間で共有される固定の置換を除外するために、第2のフィルタを適用することを更に含む、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項32】
前記標的種の前記サンプルの前記配列決定されたリードにおける特定の領域が、前記非標的種の前記参照ゲノムにおける第1の領域及び前記疑似標的種の前記参照ゲノムにおける第2の領域に位置するため、前記偽陽性バリアントの部分集合における偽陽性バリアントが生じ、前記第1の領域及び前記第2の領域が異なる、請求項23に記載の非一時的コンピュータ可読記憶媒体。
【請求項33】
前記標的種の前記サンプルの前記配列決定されたリードにおける前記特定の領域が、前記非標的種の前記参照ゲノムにおける複数の領域に位置するため、前記偽陽性バリアントが生じる、請求項32に記載の非一時的コンピュータ可読記憶媒体。
【請求項34】
システムであって、
標的バリアントの複数の特徴を処理し、前記標的バリアントについての品質指標を生成するように構成されているバリアント品質分類器を含み、
前記バリアント品質分類器が、高品質バリアントの集合及び低品質バリアントの集合に対して訓練されており、
前記高品質バリアントの集合の中の高品質バリアントが、バリアントの第1の集合とバリアントの第2の集合との間で共通である真陽性バリアントとして同定され、
前記低品質バリアントの集合の中の低品質バリアントが、前記バリアントの第2の集合の中には存在するが前記バリアントの第1の集合の中には存在しない偽陽性バリアントとして同定され、
前記バリアントの第1の集合が、標的種のサンプルの配列決定されたリードを、非標的種の参照ゲノムに対してバリアントコーリングすることによって検出され、
前記バリアントの第2の集合が、前記標的種の前記サンプルの前記配列決定されたリードを、疑似標的種の参照ゲノムに対してバリアントコーリングすることによって検出される、システム。
【請求項35】
前記バリアント品質分類器が、ランダムフォレストモデルである、請求項34に記載のシステム。
【請求項36】
前記バリアント品質分類器が、ロジスティック回帰モデルである、請求項34に記載のシステム。
【請求項37】
前記バリアント品質分類器が、ニューラルネットワークモデルである、請求項34に記載のシステム。
【請求項38】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリード内のグアニン-シトシン(GC)含量である、請求項34に記載のシステム。
【請求項39】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリード内のグアニン-シトシン(GC)スキューであり、
前記GCスキューが、前記標的バリアントの所与の配列決定されたリードにおけるグアニンに対するシトシンの正規化された過剰を表す、請求項34に記載のシステム。
【請求項40】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの上流又は下流の100塩基対内の局所組成複雑度である、請求項34に記載のシステム。
【請求項41】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの対立遺伝子カウントである、請求項34に記載のシステム。
【請求項42】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードのマッピング品質である、請求項34に記載のシステム。
【請求項43】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードにおける鎖バイアスを検出するためのFisherの正確確率検定のp値である、請求項34に記載のシステム。
【請求項44】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードにおける鎖バイアスを検出するための対称オッズ比である、請求項34に記載のシステム。
【請求項45】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの深度によるバリアント品質である、請求項34に記載のシステム。
【請求項46】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの遺伝子型品質である、請求項34に記載のシステム。
【請求項47】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの平均カバレッジによって正規化された前記標的バリアントのリード深度である、請求項34に記載のシステム。
【請求項48】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの標的バリアントカバレッジからの代替対立遺伝子断片のリード深度である、請求項34に記載のシステム。
【請求項49】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの上流又は下流の5塩基対内の挿入及び/又は欠失(インデル)変異の存在である、請求項34に記載のシステム。
【請求項50】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの上流又は下流の10塩基対内の挿入及び/又は欠失(インデル)変異の存在である、請求項34に記載のシステム。
【請求項51】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの平均カバレッジによって正規化された、前記標的バリアントの前記配列決定されたリードの100塩基対上流又は下流の隣接領域の前記平均カバレッジである、請求項34に記載のシステム。
【請求項52】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの平均カバレッジによって正規化された、前記標的バリアントの前記配列決定されたリードの500塩基対上流又は下流の隣接領域の前記平均カバレッジである、請求項34に記載のシステム。
【請求項53】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、前記標的バリアントの前記配列決定されたリードの上流又は下流の100塩基対内のヘテロ接合体一塩基多型の数である、請求項34に記載のシステム。
【請求項54】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、前記標的バリアントの前記配列決定されたリードの上流又は下流の500塩基対内のヘテロ接合体一塩基多型の数である、請求項34に記載のシステム。
【請求項55】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、前記標的バリアントの前記配列決定されたリードの上流又は下流の100塩基対内のホモ接合体一塩基多型の数である、請求項34に記載のシステム。
【請求項56】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、前記標的バリアントの前記配列決定されたリードの上流又は下流の500塩基対内のホモ接合体一塩基多型の数である、請求項34に記載のシステム。
【請求項57】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、前記標的バリアントの前記配列決定されたリードの上流又は下流の100塩基対内の代替ホモ接合体一塩基多型の数である、請求項34に記載のシステム。
【請求項58】
前記標的バリアントの前記複数の特徴のうちの1つの特徴が、前記標的バリアントの前記配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、前記標的バリアントの前記配列決定されたリードの上流又は下流の500塩基対内の代替ホモ接合体一塩基多型の数である、請求項34に記載のシステム。
【請求項59】
第1の参照ゲノムと第2の参照ゲノムとの間に1対1マッピングを有さない領域を同定及び排除するコンピュータ実装方法であって、
標的種のサンプルの配列決定されたリードにアクセスすることと、
マッピング品質フィルタを前記配列決定されたリードに適用することに基づいて、前記配列決定されたリードから低品質の配列決定されたリードを同定及び除去し、それによって、前記配列決定されたリードから高品質の配列決定されたリードを取り除くことと、
非標的種の非標的参照ゲノムを複数のビンにセグメント化し、次いで、ビンごとに前記高品質の配列決定されたリードを前記非標的参照ゲノム中の前記複数のビンにマッピングすることと、
疑似標的種の疑似標的参照ゲノムを前記複数のビンにセグメント化し、次いで、ビンごとに前記高品質の配列決定されたリードを前記疑似標的参照ゲノム内の前記複数のビンにマッピングすることと、
前記疑似標的参照ゲノム内の最良にマッピングされたビンと前記非標的参照ゲノム内の対応するビンとの間の最大一致度に基づいて、前記疑似標的参照ゲノム内の最良にマッピングされたビンを同定することであって、前記疑似標的参照ゲノム及び前記非標的参照ゲノムの中の対応するビンの間の一致度が、前記対応するビンの間でマッピングされたリードの数によって判断される、同定することと、
前記疑似標的参照ゲノムの中の前記最良にマッピングされたビンと前記非標的参照ゲノムの中の前記対応するビンとの間でマッピングされたリードの数に基づいて、前記疑似標的参照ゲノムについてのユニークマッパースコアを生成することと、
低品質の配列決定されたリードを同定及び排除するために、前記ユニークマッパースコアを使用することと、を含む、コンピュータ実装方法。
【請求項60】
低品質の配列決定されたリードが、ストップゲインバリアントを含む、請求項59に記載のコンピュータ実装方法。
【請求項61】
低品質の配列決定されたリードをフィルタリングするために、複数のカスケードフィルタが、前記標的種の前記サンプルの前記配列決定されたリードに適用される、請求項59に記載のコンピュータ実装方法。
【請求項62】
前記複数のカスケードフィルタのうちの1つのフィルタが、参照ゲノムにおいて不正確な遺伝子アノテーションを有する遺伝子領域を検出及び排除するように構成されている、請求項61に記載のコンピュータ実装方法。
【請求項63】
前記複数のカスケードフィルタのうちの1つのフィルタが、前記疑似標的種参照ゲノムと前記非標的種参照ゲノムとの間で一致しないコドンを検出及び排除するように構成されている、請求項61に記載のコンピュータ実装方法。
【請求項64】
前記複数のカスケードフィルタのうちの1つのフィルタが、完全な参照ゲノムについてのバリアント分類器スコアの分布と比較して、バリアント分類器スコアの偏った分布を有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、請求項61に記載のコンピュータ実装方法。
【請求項65】
前記複数のカスケードフィルタのうちの1つのフィルタが、Hardy-Weinberg平衡からのずれを有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、請求項61に記載のコンピュータ実装方法。
【請求項66】
前記複数のカスケードフィルタのうちの1つのフィルタが、0.17よりも大きいランダムフォレストスコアを有する一塩基多型を検出及び除去するように構成されている、請求項61に記載のコンピュータ実装方法。
【請求項67】
1対1マッピングによって、疑似標的参照ゲノム内の単一の対応する領域への非標的参照ゲノムマップ内の1つのビンにおけるリード数の断片を記述する、請求項59に記載のコンピュータ実装方法。
【請求項68】
連続する同一のビンが、集合的に単一のビンとみなされ、1対1マッピングの可能性を排除しない、請求項67に記載のコンピュータ実装方法。
【請求項69】
3つ以上の非連続の同一ビンが、重複領域とみなされ、1対1マッピングの可能性を排除する、請求項67に記載のコンピュータ実装方法。
【請求項70】
ビンが、参照ゲノム内の1キロ塩基(kb)領域を記述する、請求項59に記載のコンピュータ実装方法。
【請求項71】
マッピングされたリードの断片が、前記ユニークマッパースコアによって決定されるような最良にマッピングされた領域について検出される、請求項59に記載のコンピュータ実装方法。
【請求項72】
前記ユニークマッパースコアが、各参照ゲノムについてのサンプルにわたるトップの断片の平均によって決定される、請求項59に記載のコンピュータ実装方法。
【請求項73】
前記ユニークマッパースコアが、20未満のマッパースコアを有する配列決定されたリードを排除するフィルタとして構成されている、請求項59に記載のコンピュータ実装方法。
【請求項74】
前記疑似標的種が、ヒトである、請求項59に記載のコンピュータ実装方法。
【請求項75】
前記疑似標的種が、非ヒト霊長類である、請求項59に記載のコンピュータ実装方法。
【請求項76】
前記非標的種が、ヒトである、請求項59に記載のコンピュータ実装方法。
【請求項77】
前記非標的種が、非ヒト霊長類である、請求項59に記載のコンピュータ実装方法。
【請求項78】
前記標的種が、ヒトである、請求項59に記載のコンピュータ実装方法。
【請求項79】
前記標的種が、非ヒト霊長類である、請求項59に記載のコンピュータ実装方法。
【請求項80】
前記標的種及び非標的種が、相同である、請求項59に記載のコンピュータ実装方法。
【請求項81】
前記標的種及び疑似標的種が、相同である、請求項59に記載のコンピュータ実装方法。
【請求項82】
標的種の配列決定されたリードから同定されるバリアントの品質が、バリアント遺伝子に対する進化的制約の代用である、請求項59に記載のコンピュータ実装方法。
【請求項83】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリには、第1の参照ゲノムと第2の参照ゲノムとの間で1対1マッピングを有さない領域を同定及び排除するためのコンピュータ命令がロードされ、前記コンピュータ命令が、前記1つ以上のプロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにアクセスすることと、
マッピング品質フィルタを前記配列決定されたリードに適用することに基づいて、前記配列決定されたリードから低品質の配列決定されたリードを同定及び除去し、それによって、前記配列決定されたリードから高品質の配列決定されたリードを取り除くことと、
非標的種の非標的参照ゲノムを複数のビンにセグメント化し、次いで、ビンごとに前記高品質の配列決定されたリードを前記非標的参照ゲノム中の前記複数のビンにマッピングすることと、
疑似標的種の疑似標的参照ゲノムを前記複数のビンにセグメント化し、次いで、前記ビンごとに前記高品質の配列決定されたリードを前記疑似標的参照ゲノム内の前記複数のビンにマッピングすることと、
前記疑似標的参照ゲノム内の最良にマッピングされたビンと前記非標的参照ゲノム内の対応するビンとの間の最大一致度に基づいて、前記疑似標的参照ゲノム内の最良にマッピングされたビンを同定することであって、前記疑似標的参照ゲノム及び前記非標的参照ゲノムの中の対応するビンの間の一致度が、前記対応するビンの間でマッピングされたリードの数によって判断される、同定することと、
前記疑似標的参照ゲノムの中の前記最良にマッピングされたビンと前記非標的参照ゲノムの中の前記対応するビンとの間でマッピングされたリードの数に基づいて、前記疑似標的参照ゲノムについてのユニークマッパースコアを生成することと、
低品質の配列決定されたリードを同定及び排除するために、前記ユニークマッパースコアを使用することと、を含む、動作を実装する、システム。
【請求項84】
低品質の配列決定されたリードが、ストップゲインバリアントを含む、請求項83に記載のシステム。
【請求項85】
低品質の配列決定されたリードをフィルタリングするために、複数のカスケードフィルタが、前記標的種の前記サンプルの前記配列決定されたリードに適用される、請求項83に記載のシステム。
【請求項86】
前記複数のカスケードフィルタのうちの1つのフィルタが、参照ゲノムにおいて不正確な遺伝子アノテーションを有する遺伝子領域を検出及び排除するように構成されている、請求項85に記載のシステム。
【請求項87】
前記複数のカスケードフィルタのうちの1つのフィルタが、前記疑似標的種参照ゲノムと前記非標的種参照ゲノムとの間で一致しないコドンを検出及び排除するように構成されている、請求項85に記載のシステム。
【請求項88】
前記複数のカスケードフィルタのうちの1つのフィルタが、完全な参照ゲノムについてのバリアント分類器スコアの分布と比較して、バリアント分類器スコアの偏った分布を有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、請求項85に記載のシステム。
【発明の詳細な説明】
【技術分野】
【0001】
優先権出願
本出願は、以下の利益及び優先権を主張する。
【0002】
2022年9月23日に出願された「VARIANT CALLING WITHOUT A TARGET REFERENCE GENOME」と題する米国特許出願第17/952,192号(代理人整理番号ILLM 1064-2/IP-2297-US1)、
【0003】
2022年9月23日に出願された「QUALITY DETECTION OF VARIANT CALLING USING A MACHINE LEARNING CLASSIFIER」と題する米国特許出願第17/952,194号(代理人整理番号ILLM 1064-3/IP-2297-US2)、
【0004】
2022年9月23日に出願された「UNIQUE MAPPER TOOL FOR EXCLUDING REGIONS WITHOUT ONE-TO-ONE MAPPING BETWEEN A SET OF TWO REFERENCE GENOMES」と題する米国特許出願第17/952,198号(代理人整理番号ILLM 1064-4/IP-2297-US3)、
【0005】
2021年12月29日に出願された「PERIODIC MASK PATTERN FOR REVELATION LANGUAGE MODELS」と題する米国特許仮出願第63/294,813号(代理人整理番号ILLM 1063-1/IP-2296-PRV)、
【0006】
2021年12月29日に出願された「CLASSIFYING MILLIONS OF VARIANTS OF UNCERTAIN SIGNIFICANCE USING PRIMATE SEQUENCING AND DEEP LEARNING」と題する米国特許仮出願第63/294,816号(代理人整理番号ILLM 1064-1/IP-2297-PRV)、
【0007】
2021年12月29日に出願された「IDENTIFYING GENES WITH DIFFERENTIAL SELECTIVE CONSTRAINT BETWEEN HUMANS AND NONHUMAN PRIMATES」と題する米国特許仮出願第63/294,820号(代理人整理番号ILLM 1065-1/IP-2298-PRV)、
【0008】
2021年12月29日に出願された「DEEP LEARNING NETWORK FOR EVOLUTIONARY CONSERVATION」と題する米国特許仮出願第63/294,827号(代理人整理番号ILLM 1066-1/IP-2299-PRV)、
【0009】
2021年12月29日に出願された「INTER-MODEL PREDICTION SCORE RECALIBRATION」と題する米国特許仮出願第63/294,828号(代理人整理番号ILLM 1067-1/IP-2301-PRV)、及び
【0010】
2021年12月29日に出願された「SPECIES-DIFFERENTIABLE EVOLUTIONARY PROFILES」と題する米国特許仮出願第63/294,830号(代理人整理番号ILLM 1068-1/IP-2302-PRV)。
【0011】
これらの優先権出願は、参照により本開示に完全に記載されているかのように組み込まれる。
【0012】
開示される技術は、人工知能型コンピュータ及びデジタルデータ処理システム、並びに知能(すなわち、知識ベースシステム、推論システム、及び知識取得システム)を模倣するための対応するデータ処理方法及び製品に関し、不確実性を伴う推論のためのシステム(例えば、ファジー論理システム)、適応システム、機械学習システム、及び人工ニューラルネットワークを含む。具体的には、開示される技術は、順序データを分析するために深層畳み込みニューラルネットワークを使用することに関する。
【0013】
組み込み
以下は、全ての目的のために、本明細書に完全に記載されているかのように参照により組み込まれ、本特許仮出願の一部とみなされるべきである。
【0014】
Sundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)、
【0015】
Jaganathan,K.et al.Predicting splicing from primary sequence with deep learning.Cell 176,535-548(2019)、
【0016】
2017年10月16日に出願された「TRAINING A DEEP PATHOGENICITY CLASSIFIER USING LARGE-SCALE BENIGN TRAINING DATA」と題する米国特許出願第62/573,144号(代理人整理番号ILLM 1000-1/IP-1611-PRV)、
【0017】
2017年10月16日に出願された「PATHOGENICITY CLASSIFIER BASED ON DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)」と題する米国特許出願第62/573,149号(代理人整理番号ILLM 1000-2/IP-1612-PRV)、
【0018】
2017年10月16日に出願された「DEEP SEMI-SUPERVISED LEARNING THAT GENERATES LARGE-SCALE PATHOGENIC TRAINING DATA」と題する米国特許出願第62/573,153号(代理人整理番号ILLM 1000-3/IP-1613-PRV)、
【0019】
2017年11月7日に出願された「PATHOGENICITY CLASSIFICATION OF GENOMIC DATA USING DEEP CONVOLUTIONAL NEURAL NETWORKS(CNNs)」と題する米国特許出願第62/582,898号(代理人整理番号ILLM 1000-4/IP-1618-PRV)、
【0020】
2018年10月15日に出願された「DEEP LEARNING-BASED TECHNIQUES FOR TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/160,903号(代理人整理番号ILLM 1000-5/IP-1611-US)、
【0021】
2018年10月15日に出願された「DEEP CONVOLUTIONAL NEURAL NETWORKS FOR VARIANT CLASSIFICATION」と題する米国特許出願第16/160,986号(代理人整理番号ILLM 1000-6/IP-1612-US)、
【0022】
2018年10月15日に出願された「SEMI-SUPERVISED LEARNING FOR TRAINING AN ENSEMBLE OF DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/160,968号(代理人整理番号ILLM 1000-7/IP-1613-US)、
【0023】
2018年10月15日に出願された「DEEP LEARNING-BASED SPLICE SITE CLASSIFICATION」と題する米国特許出願第16/160,978号(代理人整理番号ILLM 1001-4/IP-1680-US)、
【0024】
2019年5月8日に出願された「DEEP LEARNING-BASED TECHNIQUES FOR PRE-TRAINING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第16/407,149号(代理人整理番号ILLM 1010-1/IP-1734-US)、
【0025】
2021年4月15日に出願された「DEEP CONVOLUTIONAL NEURAL NETWORKS TO PREDICT VARIANT PATHOGENICITY USING THREE-DIMENSIONAL(3D)PROTEIN STRUCTURES」と題する米国特許出願第17/232,056号(代理人整理番号ILLM 1037-2/IP-2051-US)、
【0026】
2021年4月15日に出願された「MULTI-CHANNEL PROTEIN VOXELIZ ATION TO PREDICT VARIANT PATHOGENICITY USING DEEP CONVOLUTIONAL NEURAL NETWORKS」と題する米国特許出願第63/175,495号(代理人整理番号ILLM 1047-1/IP-2142-PRV)、
【0027】
2021年4月16日に出願された「EFFICIENT VOXELIZATION FOR DEEP LEARNING」と題する米国特許出願第63/175,767号(代理人整理番号ILLM 1048-1/IP-2143-PRV)、
【0028】
2021年9月7日に出願された「ARTIFICIAL INTELLIGENCE-BASED ANALYSIS OF PROTEIN THREE-DIMENSIONAL(3D)STRUCTURES」と題する米国特許出願第17/468,411号(代理人整理番号ILLM 1037-3/IP-2051A-US)、
【0029】
2021年10月6日に出願された「PROTEIN STRUCTURE-BASED PROTEIN LANGUAGE MODELS」と題する米国特許仮出願第63/253,122号(代理人整理番号ILLM 1050-1/IP-2164-PRV)、
【0030】
2021年11月19日に出願された「PREDICTING VARIANT PATHOGENICITY FROM EVOLUTIONARY CONSERVATION USING THREE-DIMENSIONAL(3D)PROTEIN STRUCTURE VOXELS」と題する米国特許仮出願第63/281,579号(代理人整理番号ILLM 1060-1/IP-2270-PRV)、及び
【0031】
2021年11月19日に出願された「COMBINED AND TRANSFER LEARNING OF A VARIANT PATHOGENICITY PREDICTOR USING GAPED AND NON-GAPED PROTEIN SAMPLES」と題する米国特許仮出願第63/281,592号(代理人整理番号ILLM 1061-1/IP-2271-PRV)。
【背景技術】
【0032】
本セクションで考察される主題は、単に本セクションにおける言及の結果として、先行技術であると想定されるべきではない。同様に、本セクションで言及した問題、又は背景として提供された主題と関連付けられた問題は、先行技術において以前に認識されていると想定されるべきではない。本セクションの主題は、単に異なるアプローチを表し、それ自体はまた、特許請求される技術の実施態様に対応し得る。
【0033】
利用可能な生物学的配列データの急増は、配列データからタンパク質の三次元構造、生物学的機能、適合性、及び進化歴を推測する複数の計算アプローチをもたらした。Transformerアーキテクチャに基づくモデルのような、いわゆるタンパク質言語モデルは、周囲のアミノ酸を考慮して配列中のマスクされたアミノ酸を埋めるマスク言語モデリング方針を使用することによって、タンパク質配列の大きな全体に対して訓練されてきた。
【0034】
タンパク質言語モデルは、長い距離の依存を捕捉し、タンパク質配列の豊富な表現を学習し、複数のタスクに採用することができる。例えば、タンパク質言語モデルは、教師なしで単一の配列から構造的コンタクトを予測することができる。
【0035】
タンパク質配列は、祖先タンパク質から派生し、類似の構造及び機能を共有する相同タンパク質のファミリーに分類することができる。相同タンパク質の多重配列アライメント(multiple sequence alignment、MSA)の分析は、機能的及び構造的制約についての重要な情報を提供する。アミノ酸部位を表すMSA列の統計は、進化の間に保存される機能的残基を同定する。MSA列の間のアミノ酸使用の相関は、機能的セクター及び構造的コンタクトについての重要な情報を含む。
【0036】
言語モデルは、最初、自然言語処理のために開発され、単純であるが強力な原理に基づいて動作する。言語モデルは、標準化されたテストにおける文完成タスクに類似して、文中の欠けている単語を埋めるように学習することによって言語理解を獲得する。言語モデルは、この原理を大きなテキストコーパスにわたって適用することによって、強力な推論能力を開発する。Transformerからの双方向性エンコーダ表現(Bidirectional Encoder Representations from Transformers、BERT)モードは、アテンションが学習システムの主要構成要素であるニューラルネットワークのクラスであるトランスフォーマを使用して、この原理を例示した。Transformerでは、入力文中の各トークンは、ニューラルネットワーク内のニューロンの中間出力に対応する活性化パターンを交換することによって、他の全てのトークンに「参加」することができる。
【0037】
MSA Transformerのようなタンパク質言語モデルは、進化的に関連する配列のMSAから推論を行うように訓練されてきた。MSA Transformerは、配列(「行」)ごとのアテンションを部位(「列」)ごとのアテンションと交互に扱って、共同進化を組み込む。MSA Transformerでの行アテンションヘッドの組み合わせは、最先端の教師なし構造的コンタクト予測をもたらした。
【0038】
バリアント効果予測のためのエンドツーエンドの深層学習アプローチが、タンパク質配列及び配列保存データからミスセンスバリアントの病原性を予測するために適用される(Sundaram,L.et al.Predicting the clinical impact of human mutation with deep neural networks.Nat.Genet.50,1161-1170(2018)を参照し、本明細書では「PrimateAI」と称される)。PrimateAIは、異種間情報を使用するデータ増強を用いて既知の病原性のバリアントで訓練した深層ニューラルネットワークを使用する。特に、PrimateAIは、野生型及び変異タンパク質の配列を使用し、訓練した深層ニューラルネットワークを使用して差異を比較し、変異の病原性を決定する。病原性予測のためにタンパク質配列を利用するこのようなアプローチは、堂々巡りの問題及び以前の知識への過剰適合を回避することができるので、有望である。しかしながら、深層ニューラルネットワークを効果的に訓練するのに十分な数のデータと比較して、ClinVarにおいて利用可能な臨床データの数は比較的少ない。このデータ不足を克服するために、PrimateAIは、一般的なヒトバリアント及び霊長類に由来するバリアントを良性データとして使用し、トリヌクレオチド文脈に基づいてシミュレートされたバリアントをラベルなしデータとして使用した。
【0039】
PrimateAIは、配列アライメントで直接訓練した場合、従来の方法よりも性能が優れている。PrimateAIは、重要なタンパク質ドメイン、保存されたアミノ酸位置、及び配列依存性を、約120,000のヒトのサンプルからなる訓練データから直接学習する。PrimateAIは、候補の発達障害遺伝子における良性及び病原性のデノボ変異を区別すること、及びClinVarにおける事前知識を再現することにおいて、他のバリアント病原性予測ツールの性能を実質的に上回る。これらの結果は、PrimateAIが、臨床報告の事前知識への依存を減らすことができるバリアント分類ツールにとっての重要な前進であることを示唆する。
【0040】
したがって、バリアント病原性予測のためにタンパク質言語モデル及びMSAを使用する好機が生じる。より正確なバリアント病原性予測が得られ得る。
【図面の簡単な説明】
【0041】
特許又は出願ファイルは、カラーで作成された少なくとも1つの図面を含む。カラー図面を有するこの特許又は特許出願公開のコピーは、要求があり、必要な料金が支払われれば、局によって提供される。カラー図面はまた、補足コンテンツタブを介してPAIRで入手可能であり得る。
【0042】
図面では、同様の参照文字は、概して、異なる図全体を通して同様の部分を指す。また、図面は必ずしも縮尺通りではなく、その代わりに、開示される技術の原理を例解することに重点が置かれている。以下の説明において、開示された技術の様々な実施態様は、以下の図面を参照して説明される。
【
図1】標的参照ゲノムを使用せずに特定の標的種120を求めるバリアントコールのためのシステムのプロセスを例解するフロー図である。
【
図2】配列決定されたリードから真陽性バリアントを同定するための集合比較によって偽陽性バリアントを同定するプロセスを表すシーケンスフロー図である。
【
図3】ある単一の塩基位置にそれぞれの単一のヌクレオチドバリアントを有するが、それ以外は参照配列と同一の組成を有する2つの例示的なバリアント配列を伴う例示的な参照遺伝子配列Aからの遺伝子バリアントの例を例解する。
【
図4】配列決定されたリードを参照ゲノムにマッピングする一連の例示的なフロー図における塩基分解バリアントコーリング感度検出のプロセスを図表で表す。
【
図5】配列決定されたリードを参照ゲノムにマッピングするプロセスを例解する概略図である。
【
図6】標的種参照ゲノムが利用可能である、開示される技術の一実施態様における、第2のバリアント集合の代替検出のためのプロセスのグラフィカルフロー図を表す。
【
図7】単純化された系統樹図を使用して、標的種と疑似標的種との間の進化的関係を例解する概略図である。
【
図8】単純化された系統樹図を使用して、標的種と疑似標的種との間の進化的関係を例解する概略図である。
【
図9】配列決定されたリードのゲノム分解バリアントコーリング感度検出を表す概略図である。
【
図10】品質が、非標的又は疑似標的ゲノムへのマッピングによって判断される方法と対比して、非標的参照ゲノム及び疑似標的参照ゲノムにマッピングされた配列決定されたリードの集合比較によって生成された出力データが、参照ゲノムが利用可能でない場合のバリアント品質を予測するための品質分類器のための訓練データ集合としてどのように使用することができるかを明示する概略フロー図である。
【
図11】グアニン-シトシン含量を説明する複数のバリアント特徴における、バリアント特徴の例示的な例である。
【
図12】局所組成複雑度を説明する複数のバリアント特徴における、バリアント特徴の例示的な例である。
【
図13】対立遺伝子カウントを説明する複数のバリアント特徴における、バリアント特徴の例示的な例である。
【
図14】配列決定されたリードを参照ゲノムにマッピングするプロセスを説明する複数のバリアント特徴におけるバリアント特徴の例示的な例であり、マッピングの品質メトリックを計算するために追加のステップが追加されている。
【
図15】参照ゲノムにマッピングされるときに、配列決定されたリードにおける鎖バイアスを説明する複数のバリアント特徴におけるバリアント特徴の例示的な例である。
【
図16】参照ゲノムにマッピングされる配列決定されたリードの深度及びカバレッジを説明する複数のバリアント特徴におけるバリアント特徴の例示的な例である。
【
図17】標的バリアントを高品質クラス又は低品質クラスのいずれかに属するものとして分類するためのランダムフォレストモデルとして構成されたバリアント品質分類器を表す例解されたフロー図である。
【
図18】標的バリアントを高品質クラス又は低品質クラスのいずれかに属するものとして分類するためのロジスティック回帰モデルとして構成されたバリアント品質分類器を表す、例解されたフロー図である。
【
図19】高品質クラス又は低品質クラスのいずれかに属するものとして標的バリアントを分類するためのニューラルネットワークモデルとして構成されたバリアント品質分類器を表す、例解されたフロー図である。
【
図20】バリアントコーリング又は機械学習バリアント分類に続いて、コールされたバリアントの集合の品質を更に改善するためのユニークマッパーの概観プロセスのフロー図である。
【
図21】バリアント品質フィルタリングのための一連のカスケードフィルタにおける遺伝子アノテーションフィルタを概略的に例解する。
【
図22】コドン転写及び翻訳並びにコドン一致のフィルタリングのプロセスを概略的に例解する。
【
図23】機械学習スコアの分布に基づいて、遺伝子をフィルタリングするプロセスを例解する。
【
図24】例示的な集団におけるHardy-Weinberg平衡からのずれを例解する。
【
図26】サンプル当たりのナンセンスバリアントの数に対するカスケードフィルタ効果を明示する収集結果のグラフを含む。
【
図27】サンプル当たりのコールされたバリアントのミスセンス:同義比に対するカスケードフィルタ効果を明示する、収集された結果のグラフを含む。
【
図28】サンプル当たりの挿入-欠失バリアント(インデル)の数に対するカスケードフィルタ効果を実証する、収集された結果のグラフを含む。
【
図29】開示される技術を実装するために使用することのできる例示的なコンピュータシステムを示す図である。
【発明を実施するための形態】
【0043】
以下の考察は、開示される技術を当業者が作製及び使用することを可能にするために提示され、特定の用途及びその要件に関連して提供される。開示される実施態様に対する種々の修正は、当業者には容易に明らかとなり、本明細書で定義される一般原理は、開示される技術の趣旨及び範囲から逸脱することなく、その他の実施態様及び用途に適用され得る。したがって、開示される技術は、示される実施態様に限定されることを意図するものではなく、本明細書に開示される原理及び特徴と一致する最も広い範囲を与えられるものである。
【0044】
様々な実施態様の詳細な説明は、添付の図面と併せて読むと、より良く理解することができる。図が様々な実施態様の機能ブロックの図を示す限りにおいて、機能ブロックは、必ずしもハードウェア回路間の分割を示すものではない。したがって、例えば、機能ブロック(例えば、モジュール、プロセッサ、又はメモリ)のうちの1つ以上は、単一のハードウェア(例えば、汎用信号プロセッサ又はランダムアクセスメモリのブロック、ハードディスクなど)又は複数のハードウェアに実装されてもよい。同様に、プログラムは、スタンドアロンプログラムであってもよく、オペレーティングシステム内のサブルーチンとして組み込まれてもよく、インストールされたソフトウェアパッケージ内の機能であるなどでもよい。様々な実施態様は、図面に示された配置及び手段に限定されないことを理解されたい。
【0045】
モジュールとして指定された図の処理エンジン及びデータベースは、ハードウェア又はソフトウェアで実装することができ、図に示されるように、正確に同じブロックで分割される必要はない。いくつかのモジュールは、異なるプロセッサ、コンピュータ若しくはサーバ上に実装されてもよく、又は多数の異なるプロセッサ、コンピュータ若しくはサーバの間で展開されることもできる。加えて、モジュールの一部は、達成される機能に影響を及ぼすことなく、図に示されるものとは並行して、又は異なる順序で操作され得ることが理解されるであろう。図のモジュールはまた、方法におけるフローチャートステップと考えることができる。また、モジュールは、必ずしもメモリ内に隣接して配置された全てのコードを有する必要はない。コードのいくつかの部分は、他のモジュール又は他の機能からのコードが間に配置された状態で、コードの他の部分から分離することができる。
【0046】
開示される技術は、病原性バリアントコーリングの質を改善するために使用され得る。開示される技術は、所望の参照ゲノムが利用できないシナリオにおいて、バリアントコーリングの質を改善するために使用することができる。世界中に870万の種が存在するが、参照ゲノム構築物を有するものは非常に少ない。多くのシナリオにおいて、本発明者らは、参照ゲノム構築物が存在しない状態でバリアントコーリングを行う必要がある。いくつかの例では、本発明者らは、バリアントコーリングのための参照ゲノムとして、密接に関連する種を選択することができた。しかし、これはしばしば、多くの偽陽性コールにつながる。したがって、本発明者らは、ランダムフォレスト分類器、線形回帰モデル、及びニューラルネットワークモデルを含む、偽陽性を低減するための様々な方法を開発した。本発明者らはまた、種の間の1対1のマッピングではない領域を同定するためにユニークマッパースコアを考案し、これはバリアントコーリングエラーを更に減少させる。
【0047】
いくつかの実施形態では、開示される技術は、標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断することに関する。特に、開示される技術は、標的種のサンプルの配列決定されたリードを非標的種の参照ゲノムにマッピングして、標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出すること、及び標的種のサンプルの配列決定されたリードを疑似標的種の参照ゲノムにマッピングして、標的種のサンプルの配列決定されたリードにおけるバリアントの第2の集合を検出することに関する。
【0048】
更に、ある特定の実施形態では、開示される技術は、疑似標的種の参照ゲノムに対する標的種のサンプルの配列決定されたリードのバリアントコーリングに関する。低品質バリアントは、バリアントの第2の集合に存在するが、バリアントの第1の集合には存在しない偽陽性バリアントとして同定される。
【0049】
追加的に、いくつかの場合において、開示される技術は、標的バリアントの複数の特徴を処理し、品質バリアントについての品質指標を生成するように構成されるバリアント品質分類器に関する。バリアント品質分類器は、高品質バリアントの集合及び低品質バリアントの集合に対して訓練される。高品質バリアントは、非標的種の参照ゲノムに対する標的種のサンプルの配列決定されたリードのバリアントコーリングによって検出されるバリアントの第1の集合と、疑似標的種の参照ゲノムに対する標的種のサンプルの配列決定されたリードのバリアントコーリングによって検出されるバリアントの第2の集合との間で共通である真陽性バリアントとして同定される。低品質バリアントは、バリアントの第2の集合に存在するが、バリアントの第1の集合には存在しない偽陽性バリアントとして同定される。
【0050】
非標的参照ゲノムを使用するバリアントコーリング
図1は、標的参照ゲノムを使用せずに特定の標的種120をバリアントコーリングするためのシステムのプロセス100を例解するフロー図である。標的種120からの配列決定されたリードを非標的参照ゲノム102にマッピングすることにより、標的種104の配列決定されたリードにおけるバリアントの第1の集合が検出される。非標的参照ゲノム102は、標的種120以外の非標的種に由来する。開示される技術のいくつかの実施態様において、非標的参照ゲノム102は、相同性閾値(例えば、30%、40%、若しくは50%未満のパーセンテージ相同性、又は30~40%若しくは40~50%などの許容可能な相同性パーセンテージの二重境界範囲)によって決定されるように、標的種120のゲノムと非相同である。特定の実施形態では、非標的種及び標的種120は、同じ分類学的属、科、目、又は綱に属する。
【0051】
標的種120からの配列決定されたリードを疑似標的参照ゲノム142にマッピングすることにより、標的種144の配列決定されたリードにおけるバリアントの第2の集合が検出される。疑似標的参照ゲノム142は、標的種120以外の疑似標的種に由来する。開示される技術のいくつかの実施態様において、疑似標的参照ゲノム142は、相同性閾値(例えば、80%、90%、若しくは95%を超えるパーセンテージ相同性、又は85~90%若しくは80~89%などの許容可能な相同性パーセンテージの二重境界範囲)によって決定されるように、標的種120のゲノムと相同である。疑似標的種と標的種との間の相同性の程度を判断するために設定された相同性閾値は、非標的種と標的種との間の相同性の程度を判断するために設定された相同性閾値と同じであり得るか、又はそれぞれの相同性閾値は異なり得る。いくつかの実施形態では、非標的種と標的種との間の相同性の程度を判断するために設定される相同性閾値は、疑似標的種と標的種との間の相同性の程度によって通知されてもよく、又はその逆であってもよい。バリアントの第1の集合及びバリアントの第2の集合の比較126によって、偽陽性バリアント128の部分集合を同定する(すなわち、疑似標的参照ゲノム142へのマッピングによって同定された重複バリアントは、バリアントが非標的参照ゲノム102へのマッピングによっても同定される場合、相同性に基づいて信頼できる陽性バリアントとみなすことができない)。
【0052】
図2は、配列決定されたリードから真陽性バリアントを同定するための集合比較によって偽陽性バリアントを同定するプロセスを表すシーケンスフロー
図200である。標的種202からの配列決定されたリードを非標的種参照ゲノム204にマッピングすることにより、バリアントの第1の集合223が検出される。標的種206からの配列決定されたリードを疑似標的種参照ゲノム208にマッピングすることにより、バリアントの第2の集合227が検出される。ベン図は、和集合バリアント集合1∪バリアント集合2を表し、ここで、差集合バリアント集合1-バリアント集合2は、左下斜線領域244によって表され、差集合バリアント集合2-バリアント集合1は、右上斜線領域246によって表される。バリアント集合1∩バリアント集合2の共通部分は、真陽性バリアント266の集合に対する中央の菱形のクロスハッチ領域によって表される。共通部分バリアント集合1∩バリアント集合2(すなわち、非標的参照ゲノム204へのマッピングによって検出されたバリアントの第1の集合223及び疑似標的参照ゲノム208へのマッピングによって検出されたバリアントの第2の集合227の両方において同定されたコールされたバリアント)は、真陽性バリアントの集合266に言い換えられる。差集合バリアント集合2-バリアント集合1(すなわち、疑似標的参照ゲノム208へのマッピングによって検出されるバリアントの第2の集合227において同定されるが、非標的参照ゲノム204へのマッピングによって検出されるバリアントの第1の集合223において同定されないコールされたバリアント)は、偽陽性バリアントの集合268に言い換えられる。
【0053】
図3は、2つの例示的な遺伝子バリアント配列1A322及び1B342を有する例示的な参照遺伝子配列A302からの遺伝子バリアント300の例を例解し、バリアント配列は、単一塩基の位置にそれぞれの単一ヌクレオチドバリアントを有するが、それ以外は参照配列と同一の組成を有する。例えば、単一ヌクレオチド置換は、参照遺伝子配列A302におけるシトシン306と比較して、バリアント1A322におけるアデニン326及びバリアント1B342におけるチミン336として示される。
【0054】
図4は、配列決定されたリードを参照ゲノムにマッピングする一連の例示的なフロー図における塩基分解バリアントコーリング感度検出のプロセス400を図表で表す。配列決定されたリードX410は、疑似標的参照ゲノム402にマッピングされ、位置5におけるA→C単一ヌクレオチドバリアントに起因して、バリアントとしてコールされる。配列決定されたリードX410はまた、非標的参照ゲノム404にマッピングされ、単一ヌクレオチドバリアントが同定されないため、バリアントとしてコールされない。結果として、配列決定されたリードX410は、疑似標的参照ゲノム402へのマッピングからのコールされたバリアント集合と、非標的参照ゲノム404へのマッピングからのバリアント集合との間の差集合に属し、したがって、配列決定されたリードX410は偽陽性である。配列決定されたリードY412は、疑似標的参照ゲノム422にマッピングされ、位置5におけるA→C単一ヌクレオチドバリアントに起因して、バリアントとしてコールされる。配列決定されたリードY412はまた、非標的参照ゲノム424にマッピングされ、位置5におけるA→C単一ヌクレオチドバリアントに起因して、バリアントとしてコールされる。結果として、配列決定されたリードY412は、疑似標的参照ゲノム422へのマッピングからコールされたバリアント集合と、非標的参照ゲノム424へのマッピングからのバリアント集合との間の共通集合に属し、したがって、配列決定されたリードY412は真陽性である。
【0055】
配列決定されたリードZは、疑似標的参照ゲノム442にマッピングされ、シトシン及びグアニンが位置5において同等でないにもかかわらず、バリアントとしてコールされない。塩基のペアリングによって、疑似標的参照ゲノム442の相補鎖は位置5にシトシンを有し、配列決定されたリードZ 414の相補鎖は位置5にグアニンを有する。結果として、この配列決定されたリードZ 414は、疑似標的参照ゲノム442にマッピングされた場合、バリアントではない。配列決定されたリードZ 414はまた、非標的参照ゲノム444にマッピングされ、位置5に存在する相補的塩基に起因して、バリアントとしてコールされない。結果として、配列決定されたリードZ 414は、疑似標的参照ゲノム442へのマッピングからのコールされたバリアント集合及び非標的参照ゲノム444からのコールされたバリアント集合の両方の相補体に属し、したがって、配列決定されたリードZ 414は真陰性バリアントである。
【0056】
図5は、配列決定されたリードを参照ゲノムにマッピングするプロセスを例解する概略
図500である。配列決定されたリード502は、参照ゲノム505にマッピングされ、マッピング555をもたらす。マッピング555において、配列決定されたリード502の集合からの各配列決定されたリードは、参照ゲノム505内の所与のゲノム領域と整列する。マッピング555に見られるように、マッピングされた配列決定されたリードは、相互排他的である(すなわち、重複しない、例えばマッピング555における左端の配列決定されたリードと中央の配列決定されたリードなど)か、又は互いに相互排他的でない(すなわち、重複する、例えばマッピング555における中央の配列決定されたリードと右端の配列決定されたリードなど)ゲノム領域と整列し得る。
【0057】
図6は、標的種参照ゲノム622が利用可能である場合の、開示される技術の一実施態様におけるバリアント集合2の代替検出のためのプロセスのグラフィカルフロー
図600を表す。標的種602からの配列決定されたリードは、標的種参照ゲノム622にマッピングされる。標的種のマッピングされた配列リードは、非標的種参照ゲノム642にリフトオーバーされる。非標的種参照ゲノム642において検出されるが、標的種参照ゲノム622において検出されないバリアントは、バリアント集合2 662を含み、バリアント集合2 662内の複数のバリアントは、偽陽性バリアントである。バリアント集合2 662の代替検出は、真陽性バリアント及び偽陽性バリアントの検出のために機械学習分類器を訓練する際に使用される既知のグラウンドトゥルースデータを含む訓練データを生成する際に有用である。
【0058】
図7は、簡略化された系統樹図を使用して、標的種と疑似標的種との間の進化的関係を例解する概略
図700である。系統樹A702において、疑似標的種及び標的種は、オーソロガスではない異なる種である。開示される技術の一実施態様において、標的種と疑似標的種との間の進化的関係は、系統樹A702に示されるものを反映する。系統樹B704において、疑似標的種及び標的種は、オーソロガスである異なる種である。開示される技術の一実施態様では、標的種と疑似標的種との間の進化的関係は、系統樹B704に示されるものを反映する。系統樹C706では、疑似標的種と標的種は同じ種である。開示される技術の一実施態様において、標的種と疑似標的種との間の進化的関係は、系統樹C706に示されるものを反映する。
【0059】
図8は、簡略化された系統樹図を使用して、標的種と疑似標的種との間の進化的関係を例解する概略
図800である。系統樹D802において、非標的種及び標的種は異なる種であり、ここで、非標的種はヒトであり、標的種は非ヒト霊長類である。開示される技術の一実施態様において、標的種と非標的種との間の進化的関係は、系統樹D802の進化的関係を反映する。開示される技術の一実施態様において、霊長類種サンプル及び参照ゲノムは、密接に関連する霊長類種ゲノムに対するバリアントコーリング、非標的非相同霊長類種ゲノムに対するバリアントコーリング、及び
図1~5内で明示されるような結果の対比によって、オーソロガスヒトバリアントの病原性を推測するために活用される。開示される技術のいくつかの実施態様において、機械学習分類器は、偽陽性バリアントを検出するように訓練され、真陽性バリアントの同定プロセスを更に精緻化する。
【0060】
図9は、配列決定されたリードのゲノム分解バリアントコーリング感度検出を表す概略
図900である。標的種からの配列決定されたリードA902は、標的種からの配列決定されたリードA942と同等であり、非標的参照ゲノム924内の領域1 922及び疑似標的参照ゲノム964内の領域2 962に位置する。領域1 922及び領域2 962は同等ではなく(すなわち、オーソロガスではない)、したがって、配列決定されたリードAは、非標的参照ゲノム924及び疑似標的参照ゲノム964内の同じゲノム領域には位置しない。非標的参照ゲノム924及び疑似標的参照ゲノム964の両方へのマッピングにもかかわらず、配列決定されたリードA902は、配列決定されたリードA942が疑似標的参照ゲノム964内に位置するゲノム領域に対してオーソロガスである、非標的参照ゲノム964内のゲノム領域におけるコールされたバリアントをもたらさない。結果として、このバリアントは、疑似標的参照ゲノム964へのマッピングからコールされたバリアント集合に属するが、非標的参照ゲノム924へのマッピングからコールされたバリアント集合に属さず、偽陽性をもたらす。
【0061】
標的種からの配列決定されたリードB982、標的種からの配列決定されたリードB984、及び標的種からの配列決定されたリードB986は同等である。領域3 972、領域4 978、及び領域5 980は、非標的参照ゲノムに属し、等価ではない。標的種からの配列決定されたリードB982は、非標的参照ゲノム内の複数の領域に位置する。配列決定されたリードA902と同様に、配列決定されたリードB982は、非標的参照ゲノム内のバリアントコーリングの多様性に起因して、配列決定されたリードB982が疑似標的参照ゲノム内に位置するオーソロガスゲノム領域とは異なる非標的種参照ゲノム内のゲノム領域に位置する。その後、非標的参照ゲノム内の3つ以上のゲノム領域に位置する配列決定されたリードは、偽陽性をもたらす。
【0062】
機械学習分類器
図10は、品質が非標的又は疑似標的ゲノムへのマッピングによって判断される方法と対比して、非標的参照ゲノム及び疑似標的参照ゲノムにマッピングされた配列決定されたリードの集合比較によって生成された出力データが、参照ゲノムが利用可能でない場合のバリアント品質を予測するための品質分類器のための訓練データ集合としてどのように使用することができるかを明示する概略フロー
図1000である。標的種1002からの配列決定されたリードは、
図1、
図2、及び
図3において前述したように、参照ゲノムにマッピングされる。バリアント集合1 1004とバリアント集合2 1006の共通部分は、真陽性バリアントの集合1022に対応する。バリアント集合2 1006とバリアント集合1 1004との間の差集合(すなわち、バリアント集合2 1006に存在するがバリアント集合1 1004には存在しない)は、偽陽性バリアントの集合1008に対応する。真陽性バリアントの集合1022は、高品質バリアントの集合1024として更にコード化される。偽陽性バリアントの集合1008は、低品質バリアントの集合1010として更にコード化される。高品質バリアント1024及び低品質バリアント1010を組み合わせた集合は、グラウンドトゥルースデータ1020の集合を含む。
【0063】
品質分類器1064は、グラウンドトゥルースデータ1020に対してモデル訓練プロセス1040を受ける。品質分類器1064は、複数のバリアント特徴内のバリアント特徴の集合を含むベクトル{x1:xn}として表される入力標的バリアント1062をとり、ここで、xの各値は、標的バリアント1062を説明する複数のバリアント特徴におけるバリアント特徴の集合内のバリアント特徴である。開示される技術のいくつかの実施態様において、バリアントコールフォーマット(.vcf)ファイルから追加のバリアント特徴を抽出することができる。品質分類器1064は、高品質1066及び低品質1068のための出力クラスを有するバイナリ分類モデルである。
【0064】
図11は、グアニン-シトシン含量を説明する複数のバリアント特徴におけるバリアント特徴の例示的な例1100である。短い遺伝子配列B1102は、ある割合のアデニン、チミン、グアニン、及びシトシン核酸を含む。遺伝子配列のグアニン-シトシン含量(GC)は、配列内のグアニン及びシトシン核酸の割合に対応する。GC含量は、核酸配列の生理化学的記述子であり、アデニン-チミン結合の挙動と比較して化学結合の挙動が異なるため、配列の熱安定性の代用として使用することができる核酸配列の生理化学的記述子である。GC含量は、次世代の配列決定用途におけるリードカバレッジに影響を及ぼす。式1122は、遺伝子配列B1102のGC含量についてのサンプル計算のために使用され、GC含量は、全ての核酸の総カウントに対するグアニン及びシトシンのカウントの比と同等である。式1124は、遺伝子配列B1102の遺伝子スキューのサンプル計算のために使用され、GCスキューは、所与のウィンドウサイズについてのグアニンカウント及びシトシンカウントの合計に対するグアニンカウントとシトシンカウントとの間の差の比として決定される。ウィンドウサイズ例1164は、5のウィンドウサイズを例解する。5のウィンドウサイズが遺伝子配列B1102に適用される場合、GCスキューは、表1184に示されるように計算される。
【0065】
図12は、局所組成複雑度を説明する複数のバリアント特徴におけるバリアント特徴の例示的な例1200である。局所組成複雑度は、遺伝子配列内のエントロピーの尺度である。遺伝子配列X1202は、核酸組成の変動性を含まず、したがって、低いエントロピーを有する。遺伝子配列Z1242は、核酸組成の高い変動性を有し、したがって、高いエントロピーを有する。遺伝子配列Y1222は、遺伝子配列X1202よりも大きな可変性を含むが、遺伝子配列Z1242よりも小さく、したがって、中程度(すなわち、並)のレベルのエントロピーを有すると説明することができる。式1224は、局所組成複雑度の形式で遺伝子配列のエントロピーを計算する。遺伝子配列B1204についてのサンプル計算は、1.92のエントロピー値をもたらし、ここで、エントロピーは、各核酸についての同じそれぞれの確率によってスケーリングされた対数確率の合計と同等である。
【0066】
図13は、対立遺伝子カウントを説明する複数のバリアント特徴におけるバリアント特徴の例示的な例1300である。バリアント1 1302は灰色の影付きで示され、バリアント2 1304は白色で示される。集団1322は、バリアント1 1302又はバリアント2 1304のいずれかに属する多数の遺伝子配列のサンプルを含有する。集団1322内には、バリアント1 1302に属する合計6つのサンプルが存在し、したがって、バリアント1 1302の合計対立遺伝子カウントは6である。集団1322内には、バリアント2 1304に属する合計9つのサンプルがあり、したがって、バリアント1 1304の合計対立遺伝子カウントは9である。ヘテロ接合体のコールされたバリアントを検出するエラー率は、ホモ接合性のコールされたバリアントの相当するエラー率よりも高い(すなわち、ヘテロ接合体の偽陽性は、ホモ接合体の偽陽性よりも高い比率で生じる)。
【0067】
図14は、配列決定されたリードを参照ゲノムにマッピングするプロセスを説明する複数のバリアント特徴におけるバリアント特徴の例示的な例1400であり、マッピングの品質メトリックを計算するために追加のステップが追加されている。配列決定されたリード1402は、参照ゲノム1404にマッピングされて、マッピング1444を生成する。マッピング品質スコアは、参照ゲノムに対して誤って配置された配列決定されたリードの可能性を定量化する。マッピング品質は、所与の配列決定されたリードについての可能なアライメントの合計及びアライメント内の不一致塩基対のカウントによって判断される。マッピング品質スコアは、配列解析におけるエラー率のために一般的に使用される対数データスケーリング技術であるPhredスケールで報告される。
【0068】
図15は、参照ゲノムにマッピングされたときに、配列決定されたリードにおける鎖バイアスを説明する複数のバリアント特徴におけるバリアント特徴の例示的な例1500である。配列決定されたリード1502は、異なる鎖配向を有するリードを含む(すなわち、5’→3’方向に配向した鎖と3’→5’方向に配向した鎖)。配列決定されたリード1502が参照ゲノム1504にマッピングされると、生成されたマッピング1544は、一方のDNA鎖が他方よりも優先される鎖配向に基づく配列決定バイアスを表示する。鎖の偏りは、対立遺伝子カウントに対してより高いエラー率をもたらし得る。
【0069】
図16は、参照ゲノムにマッピングされた配列決定されたリードの深度及びカバレッジを説明する複数のバリアント特徴におけるバリアント特徴の例示的な例1600である。特定のマッピングの深度及びカバレッジは、マッピング品質の尺度であり、配列決定カバレッジ及び配列決定カバレッジの深度の両方は、特定のマッピングの品質に比例するメトリックである。配列決定されたリード1602は、X軸に沿って様々なゲノム領域で参照ゲノム1604にマッピングされる。配列決定されたリードがマッピングされる参照ゲノム内の標的塩基の総パーセンテージは、ゲノムのカバレッジとして定量化される。配列決定カバレッジの平均深度は、全参照ゲノム長に対する、リード長によってスケーリングされたリード数の比である。この概念は、アライメントされた配列決定されたリード1602の全広がり幅に対応するカバレッジを有する参照ゲノム1604の長さとしてX軸を視覚化することによって例解され、一方、Y軸は、参照ゲノム1604がカバーされる深度を視覚化することを示す。
【0070】
図17は、標的バリアント1762を高品質クラス1766又は低品質クラス1768のいずれかに属するものとして分類するためのランダムフォレストモデルとして構成されたバリアント品質分類器を表す例示的なフロー
図1700である。品質分類器として、ランダムフォレストモデル1744は、複数のバリアント特徴におけるバリアント特徴の集合を含むベクトル{x
1:x
n}として表される入力標的バリアント1762をとり、ここで、xの各値は、標的バリアント1762を説明する複数のバリアント特徴におけるバリアント特徴の集合内のバリアント特徴であり、ランダムフォレストモデル1744から分類を生成する。ランダムフォレストモデル1744では、複数の決定木の各々が、標的バリアントクラスのそれぞれの出力結果を生成し、多数決平均を介して最終結果が生成される。
【0071】
図18は、標的バリアント1862を高品質クラス1866又は低品質クラス1868のいずれかに属するものとして分類するためのロジスティック回帰モデルとして構成されたバリアント品質分類器を表す例示的なフロー
図1800である。品質分類器1844は、複数のバリアント特徴内のバリアント特徴の集合を含むベクトル{x
1:x
n}として表される入力標的バリアント1862をとり、ここで、xの各値は、標的バリアント1862を説明する複数のバリアント特徴におけるバリアント特徴の集合内のバリアント特徴であり、ロジスティック回帰モデル1844から分類を生成する。ロジスティック回帰モデル1844において、モデルは、{0,1}の範囲内の出力値を生成し、判断閾値境界は、入力値(すなわち、標的バリアント1862)が0又は1の出力として分類されるかどうかを判断する(例えば、0.5の判断閾値境界は、0の出力を生成する範囲{0,0.4}内の値及び1の出力を生成する範囲{0.5,1}内の値をもたらす)。最適判断閾値境界の決定は、ロジスティック回帰モデルを訓練するときに、正確度、精度、再現率、又は特定の誤差関数などの特定の性能メトリックの最適化に基づいて決定され得る。バイナリ出力値0及び1は、2つの出力クラス、高品質クラス1866又は低品質クラス1868に割り当てられる。
【0072】
図19は、標的バリアント1962を高品質クラス1966又は低品質クラス1968のいずれかに属するものとして分類するためのニューラルネットワークとして構成されたバリアント品質分類器を表す例示的なフロー
図1900である。品質分類器1944は、複数のバリアント特徴内のバリアント特徴の集合を含むベクトル{x
1:x
n}として表される入力標的バリアント1962をとり。ここで、xの各値は、標的バリアント1962を説明する複数のバリアント特徴におけるバリアント特徴の集合内のバリアント特徴であり、ニューラルネットワーク1944から分類を生成する。ニューラルネットワークモデルは、各々がそれぞれの重み付けされたデータ変換を行うノードの一連の接続された層を介して入力標的バリアント1962を処理する。ネットワークを通じたバックプロパゲーションにより、訓練プロセス中に各ノードの重みが反復的に更新され、最終的な訓練されたモデルは、入力標的バリアント1962について高品質クラス1966又は低品質クラス1968に属するという出力を生成する。この段階で、高品質又は低品質として同定されたバリアントは、以下に更に記載されるように、特定の実施形態において更にフィルタリングステップを受けてもよい。
【0073】
ユニークマッパー
図20は、バリアントコーリング又は機械学習バリアント分類に続いて、コールされたバリアントの集合の品質を更に改善するためのユニークマッパーの概観プロセスのフロー
図2000である。標的種のサンプルの配列決定されたリード2002は、低品質の配列決定されたリード2024を除去するために、カスケードフィルタ2004を介したフィルタリングプロセスを受ける。配列データは、バイナリアライメントマップ(.bam)ファイルから得ることができる。一連のカスケードフィルタ2004は、霊長類とヒトとの間の不正確なコドン一致を有するバリアントを除去するフィルタ、アノテーションエラーを有するバリアントを除去するフィルタ、遺伝子特有のフィルタ(例えば、エクソソーム全体のスコアと比較したバリアント機械学習分類器品質スコアの偏った分布又はHardy-Weinberg平衡からのずれ)、及び特定の機械学習分類器性能メトリック閾値を満たさないバリアントの除去を含む。得られた配列決定されたリードの中間集合2006は、疑似標的参照ゲノム2008及び非標的参照ゲノム2026にマッピングされる。疑似標的参照ゲノム2008は、いくつかのビン(すなわち、指定された等しい長さの連続的する非重複ゲノム領域)に分割される。非標的参照ゲノム2026はまた、疑似標的参照ゲノム2008ビンと比較して、等しいサイズの等しい数のビンに分割される。ビンは、対応するビンの間のマッピング相同性の程度を判断するために、1対1ベースで比較される。最良にマッピングされたビンは、一致の程度(すなわち、ビンについてのマッピングされたゲノムの間のアライメント)が、ユニークマッパースコア2040を生成するために使用されるビンとして同定される。開示される技術の一実施形態では、ユニークマッパースコア2040は、各特定のサンプルにユニークであり、特定の参照標的種に対する全てのサンプルにわたる固有マッパースコアを平均して、各それぞれのビンに入る参照標的種の全てのバリアントに適用される単一平均ユニークマッパースコアを得る。
【0074】
図21は、バリアント品質フィルタリングのための一連のカスケードフィルタにおける遺伝子アノテーションフィルタ2100を概略的に例解する。遺伝子アノテーションには、遺伝子位置、コード領域及び非コード領域、並びに遺伝子機能の様々な記述子などの特徴についてのゲノムのラベル付けが含まれる。不正確な遺伝子アノテーションは、バリアントコーリングプロセスにおけるエラーをもたらし得る。遺伝子A2102はゲノム領域に位置し、その構造内の特定の位置に特徴Xを含む。遺伝子A2104は、遺伝子A2102の正しい遺伝子アノテーションであり、ゲノム構造は、適切に配置された特徴Xで正しくアノテーションされている。遺伝子B2106は、異なる位置にあり、異なる構造を含む(すなわち、特徴Xではなく特徴Yを含む)。遺伝子予測エラーによる不正確な遺伝子アノテーションの場合、遺伝子A2102は、遺伝子B2106として不正確にアノテーションされ得る。結果として、遺伝子B2106への任意の得られたマッピング(すなわち、遺伝子Bとしてラベル付けされているにもかかわらず、ゲノム配列は遺伝子Aに属する)は誤っている。アノテーションエラーを有する遺伝子にマッピングされたコールされたバリアントは除外される。
【0075】
図22は、プロセス2200のコドン転写及び翻訳並びにコドン一致のためのフィルタリングを概略的に例解する。遺伝子配列A2202は、核酸からなる。遺伝子配列A2202内の核酸配列は、転写を受けて、mRNA転写物A2242を生成する。転写後、mRNA転写物A2242は翻訳されて、アミノ酸配列A2262を生成する。各アミノ酸は、遺伝子配列A2202、mRNA転写物A2242、及びアミノ酸配列A2262にわたって、合計5つのコドンについて灰色の影付きボックスによって強調されているように、コドンと呼ばれる3つの核酸配列から翻訳される。コドンB2282及びコドンC2284は、同一の核酸を含み、したがって、同じアミノ酸に転写及び翻訳される。非標的参照ゲノムがコドンB2282を含有し、疑似標的参照ゲノムが同じ整列位置にコドンC2284を含有する場合、これらのコドンは一致し、コドン不一致フィルタは、コドンB2282及びコドンC2284に対応するゲノム領域に整列するコールされたバリアントを除去しないであろう。コドンD2286及びコドンE2288は、第3の核酸位置が異なり、同じアミノ酸に転写及び翻訳されない。非標的参照ゲノムがコドンD 2286を含有し、疑似標的参照ゲノムが同じ整列位置にコドンE 2288を含有する場合、これらの整列されたコドンは一致せず、コドンD 2286及びコドンE 2288に対応するゲノム領域に整列するコールされたバリアントは除外される。
【0076】
図23は、機械学習スコアの分布に基づいて遺伝子をフィルタリングするプロセス2300を例解する。バリアント品質分類器からのスコアは、特定遺伝子の分布2304によって表される特定遺伝子及びエクソソーム全体の分布2302によって表されるエクソソーム全体の両方について頻度を測定するグラフ上にプロットされる。Wilcoxon順位和検定は、特定遺伝子の分布2304からランダムに選択された機械学習スコアが、エクソソーム全体の分布2302からランダムに選択された機械学習スコアよりも大きい確率が、エクソソーム全体の分布2302からランダムに選択された機械学習スコアが、特定遺伝子の分布2304からランダムに選択された機械学習スコアよりも大きい確率に等しいことに対する有意性検定を介して、特定の遺伝子分布2304がエクソソーム全体の分布2302と比較して偏っているかどうかを判断する。エクソソーム全体の分布2302と対比して偏っていると判断された遺伝子にマッピングされたコールされたバリアントは、除外される。エクソソーム全体の分布2302と特定遺伝子の分布2304とを比較するときの偏りの判断によって、遺伝子を潜在的なエラーを有する外れ値として同定する。
【0077】
図24は、例示的な集団2400におけるHardy-Weinberg平衡からのずれを例解する。カスケードフィルタ2004内のフィルタは、Hardy-Weinberg平衡からずれるバリアントを除去する。優性対立遺伝子は文字「p」で表され、劣性対立遺伝子は文字「q」で表される。ホモ接合性優性遺伝子型(すなわち、「pp」2402)は、上向き斜線の円によって表される。ヘテロ接合性遺伝子型(「pq」2404)は、菱形のクロスハッチングされた円によって表される。ホモ接合性劣性遺伝子型(「qq」2406)は、下向き斜線の円によって表される。示される集団は、それぞれの遺伝子型を有する25個のサンプルを含む。第1世代2442において、各遺伝子型は、全集団カウントに対するそれぞれの遺伝子型の割合としてカウントされるそれぞれの頻度を有する。第2世代2444において、各遺伝子型は、全集団カウントに対するそれぞれの遺伝子型の割合としてカウントされたそれぞれの頻度が更新されたものを有する。連続する世代において遺伝子型頻度が変化しない集団は、Hardy-Weinberg平衡にあると考えられる。
図24に示される例示的集団についての遺伝子型頻度は、第2世代2444と第1世代2442とで異なり、したがって、集団は、Hardy-Weinberg平衡からずれる。Hardy-Weinberg平衡からのずれは、ヘテロ接合性遺伝子型の過剰なコールをもたらし得、結果として、大集団データベースによって判定されるHardy-Weinberg平衡にない遺伝子にマッピングされたコールされたバリアントは、除外される。
【0078】
図25は、ナンセンスバリアントの
図2500である。カスケードフィルタ2004内のフィルタは、ナンセンスバリアントを除去する。ナンセンスバリアント(「ストップゲインバリアント」とも呼ばれる)は、新型の変異したアミノ酸配列の結果として、以前にアミノ酸翻訳していたコドンが終止コドンに翻訳するようにコドン配列を変化させる一塩基多型から生じる。未成熟終止コドンは、mRNA転写物の残りが翻訳されるのを妨げ、その結果、アミノ酸配列は早く打ち切られてしまう。遺伝子配列B2502はmRNA転写物B2522に転写され、mRNA転写物B2522は、合計5つのコドンに対してアミノ酸配列B2542に翻訳される。位置12の一塩基多型2540は、グアニン核酸からチミン核酸への変化をもたらす。結果として、4番目のコドンはACGからACTに変化し、その後、システインアミノ酸残基に転写及び翻訳されるのではなく、終止コドンに転写される。未成熟終止コドンは翻訳を終了させ、5番目のコドンは決して翻訳されない。
図25によって更に示されるように、一塩基多型2540の結果として、遺伝子配列B2562はmRNA転写物B2582に転写され、mRNA転写物B2582は、合計4つのコドンに対してアミノ酸配列B2510に翻訳され、ここで第4のコドンは終止コドンである。
【0079】
図26は、サンプル当たりのナンセンスバリアントの数に対するカスケードフィルタ効果を明示する収集された結果のグラフ2600を含む。開示される技術の一実施態様において、サンプル当たりのナンセンスバリアントの数は、非ヒト霊長類種及びヒトに由来するサンプルの間で比較される。非ヒト霊長類種に由来するサンプルからコールされたバリアントをフィルタリングしないと、サンプル当たりのナンセンスバリアントの対応するヒトレベルと比較して、サンプル当たりのナンセンスバリアントの数が有意に多くなる。非ヒト霊長類種に由来するサンプルからコールされたバリアントは、コドン一致フィルタ、遺伝子アノテーションエラーフィルタ、機械学習分布スキューフィルタ、Hardy-Weinberg平衡ずれフィルタ、ユニークマッパーフィルタ(0.6未満のユニークマッパースコアのコールされたバリアントが除去される)、及びランダムフォレストスコアフィルタ(0.17超のランダムフォレストスコアのコールされたバリアントが除去される)を含むカスケードフィルタを受ける。各霊長類参照種のサンプル当たりのストップゲインバリアントの平均数を示す箱ひげ図は、一連のバリアントフィルタリングのステップの後、ヒトレベル近くまで徐々に減少し、コドン一致が必要、不十分にアノテーションされた遺伝子又は偏ったランダムフォレスト(random forest、RF)スコア分布を有する若しくはHardy Weinberg平衡からずれる遺伝子からSNPを除去、及びユニークマッパースコア<0.6又はRFスコア>0.17であるSNPを除去、を含む。各ドットは、各霊長類参照種のストップゲインバリアントの平均数を表す。水平線は、Platinumゲノムプロジェクトからのヒトサンプルのストップゲインバリアントの平均数を示す。
【0080】
図27は、サンプル当たりのコールされたバリアントのミスセンス:同義比に対するカスケードフィルタ効果を明示する、収集された結果のグラフ2700を含む。開示される技術の一実施態様において、ミスセンス:同義比(missense:synonymous ratio、MSR)(特定のコホート内に存在する良性及び病原性バリアントのバランスを推定するために使用される比)が、非ヒト霊長類種に由来するサンプルとヒトに由来するサンプルとの間で比較される。非ヒト霊長類種に由来するサンプルからコールされたバリアントは、コドン一致フィルタ、遺伝子アノテーションエラーフィルタ、機械学習分布スキューフィルタ、Hardy-Weinberg平衡ずれフィルタ、ユニークマッパーフィルタ(0.6未満のユニークマッパースコアのコールされたバリアントが除去される)、及びランダムフォレストスコアフィルタ(0.17超のランダムフォレストスコアのコールされたバリアントが除去される)を含むカスケードフィルタを受ける。ミスセンス:同義比を示す箱ひげ図は、バリアントフィルタリングのステップの後に減少した。各ドットは、各霊長類参照種のMSRを表す。黒線は、ヒトサンプルのMSRを表す。
【0081】
図28は、サンプル当たりの挿入-欠失バリアント(インデル)の数に対するカスケードフィルタ効果を明示する、収集された結果のグラフ2800を含む。非ヒト霊長類に由来するサンプルからコールされたバリアントは、遺伝子アノテーションエラーフィルタ、機械学習分布スキューフィルタ、Hardy-Weinberg平衡ずれフィルタ、及びユニークマッパーフィルタ(0.6未満のユニークマッパースコアのコールされたバリアントが除去される)を含むカスケードフィルタを受ける。各霊長類参照種のサンプル当たりのインデルの平均数は、フィルタリングのステップの後に小さくなった。
【0082】
コンピュータシステム
図29は、開示される技術を実装するために使用することができる例示的コンピュータシステム2900を示す。コンピュータシステム2900は、バスサブシステム2922を介していくつかの周辺デバイスと通信する少なくとも1つの中央処理ユニット(central processing unit、CPU)2924を含む。これらの周辺デバイスは、例えば、メモリデバイス及びファイル記憶サブシステム2918を含む記憶サブシステム2910、ユーザインターフェース入力デバイス2920、ユーザインターフェース出力デバイス2928、並びにネットワークインターフェースサブシステム2926を含むことができる。入力デバイス及び出力デバイスによって、コンピュータシステム2900とのユーザインタラクションを可能にする。ネットワークインターフェースサブシステム2926は、他のコンピュータシステム内の対応するインターフェースデバイスへのインターフェースを含む外部ネットワークへのインターフェースを提供する。
【0083】
一実施態様では、ランダムフォレストモデル1744は、記憶サブシステム2910及びユーザインターフェース入力デバイス2920に通信可能にリンクされる。
【0084】
ユーザインターフェース入力デバイス2920には、キーボード、マウス、トラックボール、タッチパッド、又はグラフィックスタブレットなどのポインティングデバイス、スキャナ、ディスプレイに組み込まれたタッチスクリーン、音声認識システム及びマイクロフォンなどのオーディオ入力デバイス、並びに他のタイプの入力デバイスを含むことができる。一般に、「入力デバイス」の用語の使用は、コンピュータシステム2900に情報を入力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0085】
ユーザインターフェース出力デバイス2928は、ディスプレイサブシステム、プリンタ、ファックス装置、又はオーディオ出力デバイスなどの非視覚ディスプレイを含むことができる。ディスプレイサブシステムは、LEDディスプレイ、陰極線管(Cathode Ray Tube、CRT)、液晶ディスプレイ(Liquid Crystal Display、LCD)などのフラットパネルデバイス、投影デバイス、又は可視画像を作成するための何らかの他の機構を含むことができる。ディスプレイサブシステムはまた、オーディオ出力デバイスなどの非視覚ディスプレイを提供することができる。一般に、「出力デバイス」の用語の使用は、コンピュータシステム2900からユーザ又は別のマシン若しくはコンピュータシステムに情報を出力するための全ての可能なタイプのデバイス及び方式を含むことを意図している。
【0086】
記憶サブシステム2910は、本明細書に記載されるモジュール及び方法のうちのいくつか又は全ての機能を提供するプログラミング及びデータ構築物を記憶する。これらのソフトウェアモジュールは、一般にプロセッサ2930によって実行される。
【0087】
プロセッサ2930は、グラフィック処理ユニット(graphics processing unit、GPU)、フィールドプログラマブルゲートアレイ(field-programmable gate array、FPGA)、特定用途向け集積回路(application-specific integrated circuit、ASIC)、及び/又は粗粒度再構成可能アーキテクチャ(coarse-grained reconfigurable architecture、CGRA)であることができる。プロセッサ2930は、Google Cloud Platform(商標)、Xilinx(商標)及びCirrascale(商標)などの深層学習クラウドプラットフォームによってホスティングすることができる。プロセッサ2930の例は、GoogleのTensor Processing Unit(TPU)(商標)、GX4 Rackmount Series(商標)、GX29 Rackmount Series(商標)のようなラックマウントソリューション、NVIDIA DGX-1(商標)、Microsoft’ Stratix V FPGA(商標)、Graphcoreの Intelligent Processor Unit(IPU)(商標)、Snapdragon processors(商標)を有するQualcommのZeroth Platform(商標)、NVIDIAのVolta(商標)、NVIDIAのDRIVE PX(商標)、NVIDIAのJETSON TX1/TX2 MODULE(商標)、IntelのNirvana(商標)、Movidius VPU(商標)、Fujitsu DPI(商標)、ARMのDynamicIQ(商標)、IBM TrueNorth(商標)、Testa V100s(商標)を有するLambda GPU Server、及び他のものを含む。
【0088】
記憶サブシステム2910で使用されるメモリサブシステム2912は、プログラム実行中に命令及びデータを記憶するためのメインランダムアクセスメモリ(random access memory、RAM)2914と、固定命令が記憶された読み取り専用メモリ(read only memory、ROM)2916とを含むいくつかのメモリを含むことができる。ファイル記憶サブシステム2918は、プログラム及びデータファイルのための永続的な記憶装置を提供することができ、ハードディスクドライブ、関連する取り外し可能な媒体と併せたフロッピーディスクドライブ、CD-ROMドライブ、光学ドライブ、又は取り外し可能な媒体カートリッジを含むことができる。特定の実施態様の機能を実装するモジュールは、記憶サブシステム2910内のファイル記憶サブシステム2918によって、又はプロセッサによってアクセス可能な他のマシン内に記憶することができる。
【0089】
バスサブシステム2922は、コンピュータシステム2900の様々な構成要素及びサブシステムを意図されるように互いに通信させるための機構を提供する。バスサブシステム2922は、単一のバスとして概略的に示されているが、バスサブシステムの代替の実施態様は、複数のバスを使用することができる。
【0090】
コンピュータシステム2900自体は、パーソナルコンピュータ、ポータブルコンピュータ、ワークステーション、コンピュータ端末、ネットワークコンピュータ、テレビ、メインフレーム、サーバファーム、緩くネットワーク化されたコンピュータの緩く分散した集合、又は任意の他のデータ処理システム若しくはユーザデバイスを含む様々なタイプのものであり得る。コンピュータ及びネットワークは絶え間なく変化する性質のものであるため、
図29に図示されるコンピュータシステム2900の説明は、本発明の好ましい実施態様を例解する目的のための特定の実施例としてのみ意図される。コンピュータシステム2900の多くの他の構成は、
図29に示されるコンピュータシステムよりも多くの又は少ない構成要素を有することができる。
【0091】
条項
開示される技術、特にこのセクションで開示される条項は、システム、方法、又は製品として実施することができる。実施態様の1つ以上の特徴を、塩基実施態様と組み合わせることができる。相互に排他的でない実施態様は、組み合わせ可能であると教示されている。実施態様の1つ以上の特徴を他の実施態様と組み合わせることができる。本開示は、これらのオプションのユーザを定期的に通知する。いくつかの実施態様からこれらのオプションを繰り返す記述が省略されていたとしても、前のセクションで教示されている組み合わせを制限するものとして解釈されるべきではない。これらの記述は、以下の実施態様のそれぞれに参照により本明細書に組み込まれる。
【0092】
開示される技術、又はその要素の1つ以上の実施態様及び条項は、示された方法ステップを実行するためのコンピュータ使用可能なプログラムコードを備えた非一時的コンピュータ可読記憶媒体を含むコンピュータ製品の形態で実装することができる。更に、開示される技術、又はその要素の1つ以上の実施態様及び条項は、メモリと、メモリに結合され、例示的な方法ステップを実行するように動作する少なくとも1つのプロセッサと、を含む装置の形態で実装することができる。更に、別の態様では、開示される技術又はその要素の1つ以上の実施態様及び条項は、本明細書に記載の方法ステップのうちの1つ以上を実行するための手段の形態で実装することができ、この手段は、(i)ハードウェアモジュール、(ii)1つ以上のハードウェアプロセッサ上で実行されるソフトウェアモジュール、又は(iii)ハードウェア及びソフトウェアモジュールの組み合わせ、を含むことができ、(i)~(iii)のいずれかが、本明細書に記載の特定の技術を実装し、ソフトウェアモジュールは、コンピュータ可読記憶媒体(又は複数のそのような媒体)に記憶される。
【0093】
このセクションで説明される条項は、特徴として組み合わせることができる。簡潔性の目的で、特徴の組み合わせは、個別に列挙されず、特徴の各ベースセットで繰り返されない。読者は、このセクションに記載される条項で特定された特徴が、本出願の他のセクションにおける実施態様として特定された基本特徴のセットと容易に組み合わせることができる方法を理解するであろう。これらの条項は、相互排他的、網羅的、又は制限的であることを意味せず、開示される技術は、これらの条項に限定されず、むしろ、特許請求される技術及びその均等物の範囲内の全ての可能な組み合わせ、修正、及び変形を包含する。
【0094】
このセクションで記載される条項の他の実施態様は、このセクションに記載される条項のいずれかを行うためにプロセッサによって実行可能な命令を記憶する非一時的コンピュータ可読記憶媒体を含むことができる。このセクションに記載される条項の更に別の実施態様は、メモリと、メモリ内に記憶された命令を実行してこのセクションに記載される条項のいずれかを行うように動作可能な1つ以上のプロセッサとを含むシステムを含むことができる。
【0095】
本発明者らは、以下の条項を開示する。
条項1.標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断するコンピュータ実装方法であって、標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、標的種のサンプルの配列決定されたリードを非標的種の参照ゲノムに対してマッピングすることと、標的種のサンプルの配列決定されたリードにおけるバリアントの第2の集合を検出するために、標的種のサンプルの配列決定されたリードを疑似標的種の参照ゲノムにマッピングすることと、
バリアントの第1の集合とバリアントの第2の集合とを比較し、バリアントの第1の集合とバリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、バリアントの第1の集合とバリアントの第2の集合とを比較し、バリアントの第2の集合に存在するがバリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
偽陽性バリアントの部分集合のカウントに基づいて、標的種をバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断することと、を含む、コンピュータ実装方法。
条項2.疑似標的種が、標的種である、条項1に記載のコンピュータ実装方法。
条項3.疑似標的種が、標的種とは異なる、条項1に記載のコンピュータ実装方法。
条項4.疑似標的種が、標的種と相同である、条項3に記載のコンピュータ実装方法。
条項5.非標的種が、ヒトである、条項1に記載のコンピュータ実装方法。
条項6.標的種が、非ヒト霊長類である、条項1に記載のコンピュータ実装方法。
条項7.標的種のサンプルの配列決定されたリードを標的種の参照ゲノムにマッピングし、次いで、標的種のサンプルのマッピングされた配列決定されたリードを非標的種の参照ゲノムにリフトオーバーすることによって、バリアントの第2の集合を検出することを更に含む、条項1に記載のコンピュータ実装方法。
条項8.バリアントの第1の集合及びバリアントの第2の集合から低品質バリアントを除外するために、第1のフィルタを適用することを更に含む、条項1に記載のコンピュータ実装方法。
条項9.バリアントの第1の集合及びバリアントの第2の集合から、非標的種の参照ゲノムと疑似標的種の参照ゲノムとの間で共有される固定の置換を除外するために、第2のフィルタを適用することを更に含む、条項1に記載のコンピュータ実装方法。
条項10.標的種のサンプルの配列決定されたリードにおける特定の領域が、非標的種の参照ゲノムにおける第1の領域及び疑似標的種の参照ゲノムにおける第2の領域に位置するため、偽陽性バリアントの部分集合における偽陽性バリアントが生じ、第1の領域及び第2の領域が異なる、条項1に記載のコンピュータ実装方法。
条項11.標的種のサンプルの配列決定されたリードにおける特定の領域が、非標的種の参照ゲノムにおける複数の領域に位置するため、偽陽性バリアントが生じる、条項10に記載のコンピュータ実装方法。
条項12.メモリに結合された1つ以上のプロセッサを含むシステムであって、メモリには、標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断するためのコンピュータ命令がロードされ、命令が、プロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、標的種のサンプルの配列決定されたリードを非標的種の参照ゲノムに対してマッピングすることと、標的種のサンプルの配列決定されたリードにおけるバリアントの第2の集合を検出するために、標的種のサンプルの配列決定されたリードを疑似標的種の参照ゲノムにマッピングすることと、
バリアントの第1の集合とバリアントの第2の集合とを比較し、バリアントの第1の集合とバリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、バリアントの第1の集合とバリアントの第2の集合とを比較し、バリアントの第2の集合に存在するがバリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
偽陽性バリアントの部分集合のカウントに基づいて、標的種をバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断することと、を含む、動作を実装する、システム。
条項13.疑似標的種が、標的種である、条項12に記載のシステム。
条項14.疑似標的種が、標的種とは異なる、条項12に記載のシステム。
条項15.疑似標的種が、標的種と相同である、条項12に記載のシステム。
条項16.非標的種が、ヒトである、条項12に記載のシステム。
条項17.標的種が、非ヒト霊長類である、条項12に記載のシステム。
条項18.標的種のサンプルの配列決定されたリードを標的種の参照ゲノムにマッピングし、次いで、標的種のサンプルのマッピングされた配列決定されたリードを非標的種の参照ゲノムにリフトオーバーすることによって、バリアントの第2の集合を検出することを更に含む、条項12に記載のシステム。
条項19.バリアントの第1の集合及びバリアントの第2の集合から低品質バリアントを除外するために、第1のフィルタを適用することを更に含む、条項12に記載のシステム。
条項20.バリアントの第1の集合及びバリアントの第2の集合から、非標的種の参照ゲノムと疑似標的種の参照ゲノムとの間で共有される固定の置換を除外するために、第2のフィルタを適用することを更に含む、条項12に記載のシステム。
条項21.標的種のサンプルの配列決定されたリードにおける特定の領域が、非標的種の参照ゲノムにおける第1の領域及び疑似標的種の参照ゲノムにおける第2の領域に位置するため、偽陽性バリアントの部分集合における偽陽性バリアントが生じ、第1の領域及び第2の領域が異なる、条項12に記載のシステム。
条項22.標的種のサンプルの配列決定されたリードにおける特定の領域が、非標的種の参照ゲノムにおける複数の領域に位置するため、偽陽性バリアントが生じる、条項12に記載のシステム。
条項23.標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断するためのコンピュータプログラム命令が焼き付けられた非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、標的種のサンプルの配列決定されたリードを非標的種の参照ゲノムに対してマッピングすることと、標的種のサンプルの配列決定されたリードにおけるバリアントの第2の集合を検出するために、標的種のサンプルの配列決定されたリードを疑似標的種の参照ゲノムにマッピングすることと、
バリアントの第1の集合とバリアントの第2の集合とを比較し、バリアントの第1の集合とバリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、バリアントの第1の集合とバリアントの第2の集合とを比較し、バリアントの第2の集合に存在するがバリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
偽陽性バリアントの部分集合のカウントに基づいて、標的種をバリアントコーリングするために非標的種の参照ゲノムを使用することの実行可能性を判断することと、を含む、方法を実装する、非一時的コンピュータ可読記憶媒体。
条項24.疑似標的種が、標的種である、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項25.疑似標的種が、標的種とは異なる、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項26.疑似標的種が、標的種と相同である、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項27.非標的種が、ヒトである、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項28.標的種が、非ヒト霊長類である、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項29.標的種のサンプルの配列決定されたリードを標的種の参照ゲノムにマッピングし、次いで、標的種のサンプルのマッピングされた配列決定されたリードを非標的種の参照ゲノムにリフトオーバーすることによって、バリアントの第2の集合を検出することを更に含む、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項30.バリアントの第1の集合及びバリアントの第2の集合から低品質バリアントを除外するために、第1のフィルタを適用することを更に含む、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項31.バリアントの第1の集合及びバリアントの第2の集合から、非標的種の参照ゲノムと疑似標的種の参照ゲノムとの間で共有される固定の置換を除外するために、第2のフィルタを適用することを更に含む、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項32.標的種のサンプルの配列決定されたリードにおける特定の領域が、非標的種の参照ゲノムにおける第1の領域及び疑似標的種の参照ゲノムにおける第2の領域に位置するため、偽陽性バリアントの部分集合における偽陽性バリアントが生じ、第1の領域及び第2の領域が異なる、条項23に記載の非一時的コンピュータ可読記憶媒体。
条項33.標的種のサンプルの配列決定されたリードにおける特定の領域が、非標的種の参照ゲノムにおける複数の領域に位置するため、偽陽性バリアントが生じる、条項32に記載の非一時的コンピュータ可読記憶媒体。
条項34.システムであって、
標的バリアントの複数の特徴を処理し、標的バリアントについての品質指標を生成するように構成されているバリアント品質分類器を含み、
バリアント品質分類器が、高品質バリアントの集合及び低品質バリアントの集合に対して訓練されており、
高品質バリアントの集合の中の高品質バリアントが、バリアントの第1の集合とバリアントの第2の集合との間で共通である真陽性バリアントとして同定され、
低品質バリアントの集合の中の低品質バリアントが、バリアントの第2の集合の中には存在するがバリアントの第1の集合の中には存在しない偽陽性バリアントとして同定され、
バリアントの第1の集合が、標的種のサンプルの配列決定されたリードを、非標的種の参照ゲノムに対してバリアントコーリングすることによって検出され、
バリアントの第2の集合が、標的種のサンプルの配列決定されたリードを、疑似標的種の参照ゲノムに対してバリアントコーリングすることによって検出される、システム。
条項35.バリアント品質分類器が、ランダムフォレストモデルである、条項34に記載のシステム。
条項36.バリアント品質分類器が、ロジスティック回帰モデルである、条項34に記載のシステム。
条項37.バリアント品質分類器が、ニューラルネットワークモデルである、条項34に記載のシステム。
条項38.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリード内のグアニン-シトシン(GC)含量である、条項34に記載のシステム。
条項39.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリード内のグアニン-シトシン(GC)スキューであり、GCスキューが、標的バリアントの所与の配列決定されたリードにおけるグアニンに対するシトシンの正規化された過剰を表す、条項34に記載のシステム。
条項40.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの上流又は下流の100塩基対内の局所組成複雑度である、条項34に記載のシステム。
条項41.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの対立遺伝子カウントである、条項34に記載のシステム。
条項42.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードのマッピング品質である、条項34に記載のシステム。
条項43.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードにおける鎖バイアスを検出するためのFisherの正確確率検定のp値である、条項34に記載のシステム。条項44.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードにおける鎖バイアスを検出するための対称オッズ比である、条項34に記載のシステム。
条項45.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの深度によるバリアント品質である、条項34に記載のシステム。
条項46.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの遺伝子型品質である、条項34に記載のシステム。
条項47.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された標的バリアントのリード深度である、条項34に記載のシステム。
条項48.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの標的バリアントカバレッジからの代替対立遺伝子断片のリード深度である、条項34に記載のシステム。
条項49.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの上流又は下流の5塩基対内の挿入及び/又は欠失(インデル)変異の存在である、条項34に記載のシステム。
条項50.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの上流又は下流の10塩基対内の挿入及び/又は欠失(インデル)変異の存在である、条項34に記載のシステム。
条項51.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された、標的バリアントの配列決定されたリードの100塩基対上流又は下流の隣接領域の平均カバレッジである、条項34に記載のシステム。
条項52.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された、標的バリアントの配列決定されたリードの500塩基対上流又は下流の隣接領域の平均カバレッジである、条項34に記載のシステム。
条項53.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内のヘテロ接合体一塩基多型の数である、条項34に記載のシステム。
条項54.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内のヘテロ接合体一塩基多型の数である、条項34に記載のシステム。
条項55.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内のホモ接合体一塩基多型の数である、条項34に記載のシステム。
条項56.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内のホモ接合体一塩基多型の数である、条項34に記載のシステム。
条項57.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内の代替ホモ接合体一塩基多型の数である、条項34に記載のシステム。
条項58.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内の代替ホモ接合体一塩基多型の数である、条項34に記載のシステム。
条項59.標的バリアントの複数の特徴を処理し、標的バリアントについての品質指標を生成するコンピュータ実装方法であって、
高品質バリアントの集合及び低品質バリアントの集合に対してバリアント品質分類器を訓練することと、
高品質バリアントの集合の中の高品質バリアントを、バリアントの第1の集合とバリアントの第2の集合との間で共通である真陽性バリアントとして同定することと、
低品質の集合における低品質バリアントを、バリアントの第2の集合に存在するがバリアントの第1の集合には存在しない偽陽性バリアントとして同定することと、
標的種のサンプルの配列決定されたリードを、非標的種の参照ゲノムに対してバリアントコールすることによって、バリアントの第1の集合を検出することと、
標的種のサンプルの配列決定されたリードを、疑似標的種の参照ゲノムに対してバリアントコールすることによって、バリアントの第2の集合を検出することと、を含む、コンピュータ実装方法。
条項60.バリアント品質分類器が、ランダムフォレストモデルである、条項59に記載のコンピュータ実装方法。
条項61.バリアント品質分類器が、ロジスティック回帰モデルである、条項59に記載のコンピュータ実装方法。
条項62.バリアント品質分類器が、ニューラルネットワークモデルである、条項59に記載のコンピュータ実装方法。
条項63.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリード内のグアニン-シトシン(GC)含量である、条項59に記載のコンピュータ実装方法。
条項64.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリード内のグアニン-シトシン(GC)スキューであり、
GCスキューが、標的バリアントの所与の配列決定されたリードにおけるグアニンに対するシトシンの正規化された過剰を表す、条項59に記載のコンピュータ実装方法。
条項65.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの上流又は下流の100塩基対内の局所組成複雑度である、条項59に記載のコンピュータ実装方法。
条項66.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの対立遺伝子カウントである、条項59に記載のコンピュータ実装方法。
条項67.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードのマッピング品質である、条項59に記載のコンピュータ実装方法。
条項68.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードにおける鎖バイアスを検出するためのFisherの正確確率検定のp値である、条項59に記載のコンピュータ実装方法。
条項69.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードにおける鎖バイアスを検出するための対称オッズ比である、条項59に記載のコンピュータ実装方法。
条項70.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの深度によるバリアント品質である、条項59に記載のコンピュータ実装方法。
条項71.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの遺伝子型品質である、条項59に記載のコンピュータ実装方法。
条項72.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された標的バリアントのリード深度である、条項59に記載のコンピュータ実装方法。
条項73.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの標的バリアントカバレッジからの代替対立遺伝子断片のリード深度である、条項59に記載のコンピュータ実装方法。
条項74.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの上流又は下流の5塩基対内の挿入及び/又は欠失(インデル)変異の存在である、条項59に記載のコンピュータ実装方法。
条項75.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの上流又は下流の10塩基対内の挿入及び/又は欠失(インデル)変異の存在である、条項59に記載のコンピュータ実装方法。
条項76.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された、標的バリアントの配列決定されたリードの100塩基対上流又は下流の隣接領域の平均カバレッジである、条項59に記載のコンピュータ実装方法。
条項77.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された、標的バリアントの配列決定されたリードの500塩基対上流又は下流の隣接領域の平均カバレッジである、条項59に記載のコンピュータ実装方法。
条項78.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内のヘテロ接合体一塩基多型の数である、条項59に記載のコンピュータ実装方法。
条項79.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内のヘテロ接合体一塩基多型の数である、条項59に記載のコンピュータ実装方法。
条項80.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内のホモ接合体一塩基多型の数である、条項59に記載のコンピュータ実装方法。
条項81.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内のホモ接合体一塩基多型の数である、条項59に記載のコンピュータ実装方法。
条項82.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内の代替ホモ接合体一塩基多型の数である、条項59に記載のコンピュータ実装方法。
条項83.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内の代替ホモ接合体一塩基多型の数である、条項59に記載のコンピュータ実装方法。
条項84.標的バリアントの複数の特徴を処理し、標的バリアントについての品質指標を生成するためのコンピュータプログラム命令が焼き付けられた非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されるときに、
高品質バリアントの集合及び低品質バリアントの集合に対して訓練されたバリアント品質分類器を含む、方法を実装し、
高品質バリアントの集合の中の高品質バリアントが、バリアントの第1の集合とバリアントの第2の集合との間で共通である真陽性バリアントとして同定され、
低品質バリアントの集合の中の低品質バリアントが、バリアントの第2の集合の中には存在するがバリアントの第1の集合の中には存在しない偽陽性バリアントとして同定され、
バリアントの第1の集合が、標的種のサンプルの配列決定されたリードを、非標的種の参照ゲノムに対してバリアントコーリングすることによって検出され、
バリアントの第2の集合が、標的種のサンプルの配列決定されたリードを、疑似標的種の参照ゲノムに対してバリアントコーリングすることによって検出される、非一時的コンピュータ可読記憶媒体。
条項85.バリアント品質分類器が、ランダムフォレストモデルである、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項86.バリアント品質分類器が、ロジスティック回帰モデルである、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項87.バリアント品質分類器が、ニューラルネットワークモデルである、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項88.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリード内のグアニン-シトシン(GC)含量である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項89.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリード内のグアニン-シトシン(GC)スキューであり、
GCスキューが、標的バリアントの所与の配列決定されたリードにおけるグアニンに対するシトシンの正規化された過剰を表す、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項90.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの上流又は下流の100塩基対内の局所組成複雑度である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項91.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの対立遺伝子カウントである、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項92.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードのマッピング品質である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項93.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードにおける鎖バイアスを検出するためのFisherの正確確率検定のp値である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項94.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードにおける鎖バイアスを検出するための対称オッズ比である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項95.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの深度によるバリアント品質である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項96.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの遺伝子型品質である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項97.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された標的バリアントのリード深度である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項98.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの標的バリアントカバレッジからの代替対立遺伝子断片のリード深度である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項99.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの上流又は下流の5塩基対内の挿入及び/又は欠失(インデル)変異の存在である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項100.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの上流又は下流の10塩基対内の挿入及び/又は欠失(インデル)変異の存在である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項101.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された、標的バリアントの配列決定されたリードの100塩基対上流又は下流の隣接領域の平均カバレッジである、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項102.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの平均カバレッジによって正規化された、標的バリアントの配列決定されたリードの500塩基対上流又は下流の隣接領域の平均カバレッジである、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項103.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内のヘテロ接合体一塩基多型の数である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項104.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内のヘテロ接合体一塩基多型の数である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項105.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内のホモ接合体一塩基多型の数である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項106.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内のホモ接合体一塩基多型の数である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項107.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の100塩基対内の代替ホモ接合体一塩基多型の数である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項108.標的バリアントの複数の特徴のうちの1つの特徴が、標的バリアントの配列決定されたリードの同じ長さの領域内のバリアントの中央値カウントによって正規化された、標的バリアントの配列決定されたリードの上流又は下流の500塩基対内の代替ホモ接合体一塩基多型の数である、条項84に記載の非一時的コンピュータ可読記憶媒体。
条項109.第1の参照ゲノムと第2の参照ゲノムとの間に1対1マッピングを有さない領域を同定及び排除するコンピュータ実装方法であって、
標的種のサンプルの配列決定されたリードにアクセスすることと、
マッピング品質フィルタを配列決定されたリードに適用することに基づいて、配列決定されたリードから低品質の配列決定されたリードを同定及び除去し、それによって、配列決定されたリードから高品質の配列決定されたリードを取り除くことと、
非標的種の非標的参照ゲノムを複数のビンにセグメント化し、次いで、ビンごとに高品質の配列決定されたリードを非標的参照ゲノム中の複数のビンにマッピングすることと、
疑似標的種の疑似標的参照ゲノムを複数のビンにセグメント化し、次いで、ビンごとに高品質の配列決定されたリードを疑似標的参照ゲノム内の複数のビンにマッピングすることと、
疑似標的参照ゲノム内の最良にマッピングされたビンと非標的参照ゲノム内の対応するビンとの間の最大一致度に基づいて、疑似標的参照ゲノム内の最良にマッピングされたビンを同定することであって、疑似標的参照ゲノム及び非標的参照ゲノムの中の対応するビンの間の一致度が、対応するビンの間でマッピングされたリードの数によって判断される、同定することと、
疑似標的参照ゲノムの中の最良にマッピングされたビンと非標的参照ゲノムの中の対応するビンとの間でマッピングされたリードの数に基づいて、疑似標的参照ゲノムについてのユニークマッパースコアを生成することと、
低品質の配列決定されたリードを同定及び排除するために、ユニークマッパースコアを使用することと、を含む、コンピュータ実装方法。
条項110.低品質の配列決定されたリードが、ストップゲインバリアントを含む、条項109に記載のコンピュータ実装方法。
条項111.低品質の配列決定されたリードをフィルタリングするために、複数のカスケードフィルタが、標的種のサンプルの配列決定されたリードに適用される、条項109に記載のコンピュータ実装方法。
条項112.複数のカスケードフィルタのうちの1つのフィルタが、参照ゲノムにおいて不正確な遺伝子アノテーションを有する遺伝子領域を検出及び排除するように構成されている、条項111に記載のコンピュータ実装方法。
条項113.複数のカスケードフィルタのうちの1つのフィルタが、疑似標的種参照ゲノムと非標的種参照ゲノムとの間で一致しないコドンを検出及び排除するように構成されている、条項111に記載のコンピュータ実装方法。
条項114.複数のカスケードフィルタのうちの1つのフィルタが、完全な参照ゲノムについてのバリアント分類器スコアの分布と比較して、バリアント分類器スコアの偏った分布を有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、条項111に記載のコンピュータ実装方法。
条項115.複数のカスケードフィルタのうちの1つのフィルタが、Hardy-Weinberg平衡からのずれを有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、条項111に記載のコンピュータ実装方法。
条項116.複数のカスケードフィルタのうちの1つのフィルタが、0.17よりも大きいランダムフォレストスコアを有する一塩基多型を検出及び除去するように構成されている、条項111に記載のコンピュータ実装方法。
条項117.1対1マッピングによって、疑似標的参照ゲノム内の単一の対応する領域への非標的参照ゲノムマップ内の1つのビンにおけるリード数の断片を記述する、条項109に記載のコンピュータ実装方法。
条項118.連続する同一のビンが、集合的に単一のビンとみなされ、1対1マッピングの可能性を排除しない、条項117に記載のコンピュータ実装方法。
条項119.3つ以上の非連続の同一ビンが、重複領域とみなされ、1対1マッピングの可能性を排除する、条項117に記載のコンピュータ実装方法。
条項120.ビンが、参照ゲノム内の1キロ塩基(kb)領域を記述する、条項109に記載のコンピュータ実装方法。
条項121.マッピングされたリードの断片が、マッパースコアによって決定されるような最良にマッピングされた領域について検出される、条項109に記載のコンピュータ実装方法。
条項122.ユニークマッパースコアが、各参照ゲノムについてのサンプルにわたるトップの断片の平均によって決定される、条項109に記載のコンピュータ実装方法。
条項123.ユニークマッパースコアが、20未満のマッパースコアを有する配列決定されたリードを排除するフィルタとして構成されている、条項109に記載のコンピュータ実装方法。
条項124.疑似標的種が、ヒトである、条項109に記載のコンピュータ実装方法。
条項125.疑似標的種が、非ヒト霊長類である、条項109に記載のコンピュータ実装方法。
条項126.非標的種が、ヒトである、条項109に記載のコンピュータ実装方法。
条項127.非標的種が、非ヒト霊長類である、条項109に記載のコンピュータ実装方法。
条項128.標的種が、ヒトである、条項109に記載のコンピュータ実装方法。
条項129.標的種が、非ヒト霊長類である、条項109に記載のコンピュータ実装方法。
条項130.標的種及び非標的種が、相同である、条項109に記載のコンピュータ実装方法。
条項131.標的種及び疑似標的種が、相同である、条項109に記載のコンピュータ実装方法。
条項132.標的種の配列決定されたリードから同定されるバリアントの品質が、バリアント遺伝子に対する進化的制約の代用である、条項109に記載のコンピュータ実装方法。
条項133.メモリに結合された1つ以上のプロセッサを含むシステムであって、メモリには、第1の参照ゲノムと第2の参照ゲノムとの間で1対1マッピングを有さない領域を同定及び排除するためのコンピュータ命令がロードされ、命令が、プロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにアクセスすることと、
マッピング品質フィルタを配列決定されたリードに適用することに基づいて、配列決定されたリードから低品質の配列決定されたリードを同定及び除去し、それによって、配列決定されたリードから高品質の配列決定されたリードを取り除くことと、
非標的種の非標的参照ゲノムを複数のビンにセグメント化し、次いで、ビンごとに高品質の配列決定されたリードを非標的参照ゲノム中の複数のビンにマッピングすることと、
疑似標的種の疑似標的参照ゲノムを複数のビンにセグメント化し、次いで、ビンごとに高品質の配列決定されたリードを疑似標的参照ゲノム内の複数のビンにマッピングすることと、
疑似標的参照ゲノム内の最良にマッピングされたビンと非標的参照ゲノム内の対応するビンとの間の最大一致度に基づいて、疑似標的参照ゲノム内の最良にマッピングされたビンを同定することであって、疑似標的参照ゲノム及び非標的参照ゲノムの中の対応するビンの間の一致度が、対応するビンの間でマッピングされたリードの数によって判断される、同定することと、
疑似標的参照ゲノムの中の最良にマッピングされたビンと非標的参照ゲノムの中の対応するビンとの間でマッピングされたリードの数に基づいて、疑似標的参照ゲノムについてのユニークマッパースコアを生成することと、
低品質の配列決定されたリードを同定及び排除するために、ユニークマッパースコアを使用することと、を含む、動作を実装する、システム。
条項134.低品質の配列決定されたリードが、ストップゲインバリアントを含む、条項133に記載のシステム。
条項135.低品質の配列決定されたリードをフィルタリングするために、複数のカスケードフィルタが、標的種のサンプルの配列決定されたリードに適用される、条項133に記載のシステム。
条項136.複数のカスケードフィルタのうちの1つのフィルタが、参照ゲノムにおいて不正確な遺伝子アノテーションを有する遺伝子領域を検出及び排除するように構成されている、条項135に記載のシステム。
条項137.複数のカスケードフィルタのうちの1つのフィルタが、疑似標的種参照ゲノムと非標的種参照ゲノムとの間で一致しないコドンを検出及び排除するように構成されている、条項135に記載のシステム。
条項138.複数のカスケードフィルタのうちの1つのフィルタが、完全な参照ゲノムについてのバリアント分類器スコアの分布と比較して、バリアント分類器スコアの偏った分布を有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、条項135に記載のシステム。
条項139.複数のカスケードフィルタのうちの1つのフィルタが、Hardy-Weinberg平衡からのずれを有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、条項135に記載のシステム。
条項140.複数のカスケードフィルタのうちの1つのフィルタが、0.17よりも大きいランダムフォレストスコアを有する一塩基多型を検出及び除去するように構成されている、条項135に記載のシステム。
条項141.1対1マッピングによって、疑似標的参照ゲノム内の単一の対応する領域への非標的参照ゲノムマップ内の1つのビンにおけるリード数の断片を記述する、条項133に記載のシステム。
条項142.連続する同一のビンが、集合的に単一のビンとみなされ、1対1マッピングの可能性を排除しない、条項141に記載のシステム。
条項143.3つ以上の非連続の同一ビンが、重複領域とみなされ、1対1マッピングの可能性を排除する、条項141に記載のシステム。
条項144.ビンが、参照ゲノム内の1キロ塩基(kb)領域を記述する、条項133に記載のシステム。
条項145.マッピングされたリードの断片が、マッパースコアによって決定されるような最良にマッピングされた領域について検出される、条項133に記載のシステム。
条項146.ユニークマッパースコアが、各参照ゲノムについてのサンプルにわたるトップの断片の平均によって決定される、条項133に記載のシステム。
条項147.ユニークマッパースコアが、20未満のマッパースコアを有する配列決定されたリードを排除するフィルタとして構成されている、条項133に記載のシステム。
条項148.疑似標的種が、ヒトである、条項133に記載のシステム。
条項149.疑似標的種が、非ヒト霊長類である、条項133に記載のシステム。
条項150.非標的種が、ヒトである、条項133に記載のシステム。
条項151.非標的種が、非ヒト霊長類である、条項133に記載のシステム。
条項152.標的種が、ヒトである、条項133に記載のシステム。
条項153.標的種が、非ヒト霊長類である、条項133に記載のシステム。
条項154.標的種及び非標的種が、相同である、条項133に記載のシステム。
条項155.標的種及び疑似標的種が、相同である、条項133に記載のシステム。
条項156.標的種の配列決定されたリードから同定されるバリアントの品質が、バリアント遺伝子に対する進化的制約の代用である、条項133に記載のシステム。
条項157.第1の参照ゲノムと第2の参照ゲノムとの間で1対1のマッピングを有さない領域を同定及び排除するためのコンピュータプログラム命令が焼き付けられた非一時的コンピュータ可読記憶媒体であって、命令が、プロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにアクセスすることと、
マッピング品質フィルタを配列決定されたリードに適用することに基づいて、配列決定されたリードから低品質の配列決定されたリードを同定及び除去し、それによって、配列決定されたリードから高品質の配列決定されたリードを取り除くことと、
非標的種の非標的参照ゲノムを複数のビンにセグメント化し、次いで、ビンごとに高品質の配列決定されたリードを非標的参照ゲノム中の複数のビンにマッピングすることと、
疑似標的種の疑似標的参照ゲノムを複数のビンにセグメント化し、次いで、ビンごとに高品質の配列決定されたリードを疑似標的参照ゲノム内の複数のビンにマッピングすることと、
疑似標的参照ゲノム内の最良にマッピングされたビンと非標的参照ゲノム内の対応するビンとの間の最大一致度に基づいて、疑似標的参照ゲノム内の最良にマッピングされたビンを同定することであって、疑似標的参照ゲノム及び非標的参照ゲノムの中の対応するビンの間の一致度が、対応するビンの間でマッピングされたリードの数によって判断される、同定することと、
疑似標的参照ゲノムの中の最良にマッピングされたビンと非標的参照ゲノムの中の対応するビンとの間でマッピングされたリードの数に基づいて、疑似標的参照ゲノムについてのユニークマッパースコアを生成することと、
低品質の配列決定されたリードを同定及び排除するために、ユニークマッパースコアを使用することと、を含む、方法を実装する、システム。
条項158.低品質の配列決定されたリードが、ストップゲインバリアントを含む、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項159.低品質の配列決定されたリードをフィルタリングするために、複数のカスケードフィルタが、標的種のサンプルの配列決定されたリードに適用される、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項160.複数のカスケードフィルタのうちの1つのフィルタが、参照ゲノムにおいて不正確な遺伝子アノテーションを有する遺伝子領域を検出及び排除するように構成されている、条項159に記載の非一時的コンピュータ可読記憶媒体。
条項161.複数のカスケードフィルタのうちの1つのフィルタが、疑似標的種参照ゲノムと非標的種参照ゲノムとの間で一致しないコドンを検出及び排除するように構成されている、条項159に記載の非一時的コンピュータ可読記憶媒体。
条項162.複数のカスケードフィルタのうちの1つのフィルタが、完全な参照ゲノムについてのバリアント分類器スコアの分布と比較して、バリアント分類器スコアの偏った分布を有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、条項159に記載の非一時的コンピュータ可読記憶媒体。
条項163.複数のカスケードフィルタのうちの1つのフィルタが、Hardy-Weinberg平衡からのずれを有する参照ゲノム内の遺伝子を検出及び排除するように構成されている、条項159に記載の非一時的コンピュータ可読記憶媒体。
条項164.複数のカスケードフィルタのうちの1つのフィルタが、0.17よりも大きいランダムフォレストスコアを有する一塩基多型を検出及び除去するように構成されている、条項159に記載の非一時的コンピュータ可読記憶媒体。
条項165.1対1マッピングによって、疑似標的参照ゲノム内の単一の対応する領域への非標的参照ゲノムマップ内の1つのビンにおけるリード数の断片を記述する、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項166.連続する同一のビンが、集合的に単一のビンとみなされ、1対1マッピングの可能性を排除しない、条項165に記載の非一時的コンピュータ可読記憶媒体。
条項167.3つ以上の非連続の同一ビンが、重複領域とみなされ、1対1マッピングの可能性を排除する、条項165に記載の非一時的コンピュータ可読記憶媒体。
条項168.ビンが、参照ゲノム内の1キロ塩基(kb)領域を記述する、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項169.マッピングされたリードの断片が、マッパースコアによって決定されるような最良にマッピングされた領域について検出される、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項170.ユニークマッパースコアが、各参照ゲノムについてのサンプルにわたるトップの断片の平均によって決定される、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項171.ユニークマッパースコアが、20未満のマッパースコアを有する配列決定されたリードを排除するフィルタとして構成されている、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項172.疑似標的種が、ヒトである、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項173.疑似標的種が、非ヒト霊長類である、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項174.非標的種が、ヒトである、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項175.非標的種が、非ヒト霊長類である、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項176.標的種が、ヒトである、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項177.標的種が、非ヒト霊長類である、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項178.標的種及び非標的種が、相同である、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項179.標的種及び疑似標的種が、相同である、条項157に記載の非一時的コンピュータ可読記憶媒体。
条項180.標的種の配列決定されたリードから同定されるバリアントの品質が、バリアント遺伝子に対する進化的制約の代用である、第157項に記載の非一時的コンピュータ可読記憶媒体。
【手続補正書】
【提出日】2024-07-02
【手続補正1】
【補正対象書類名】特許請求の範囲
【補正対象項目名】全文
【補正方法】変更
【補正の内容】
【特許請求の範囲】
【請求項1】
標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用す
るコンピュータ実装方法であって、
標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを
前記標的種と同じ分類学的な綱に属する非標的種の参照ゲノムに対してマッピングすることと、
前記標的種の前記サンプルの前記配列決定されたリードにおけるバリアントの第2の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを
前記標的種と相同である疑似標的種の参照ゲノムにマッピングすることと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第1の集合と前記バリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第2の集合に存在するが前記バリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
前記偽陽性バリアントの部分集合のカウントに基づいて、前記標的種をバリアントコーリングするために前記非標的種の前記参照ゲノムを使用すること
と、を含む、コンピュータ実装方法。
【請求項2】
前記疑似標的種が、前記標的種
とオーソロガスである、請求項1に記載のコンピュータ実装方法。
【請求項3】
前記疑似標的種が、前記標的種とは異なる、請求項
1又は2に記載のコンピュータ実装方法。
【請求項4】
前記疑似標的種が、
相同性閾値により前記標的種と相同である、請求項3に記載のコンピュータ実装方法。
【請求項5】
前記非標的種が、ヒトであ
り、前記標的種が、非ヒト霊長類である、請求項
1~4のいずれか一項に記載のコンピュータ実装方法。
【請求項6】
前記標的種の前記サンプルの前記配列決定されたリードを前記標的種の前記参照ゲノムにマッピングし、次いで、前記標的種の前記サンプルのマッピングされた前記配列決定されたリードを前記非標的種の前記参照ゲノムにリフトオーバーすることによって、前記バリアントの第2の集合を検出することを更に含む、
請求項1~5のいずれか一項に記載のコンピュータ実装方法。
【請求項7】
前記標的種の前記サンプルの前記配列決定されたリードにおける特定の領域が、前記非標的種の前記参照ゲノムにおける第1の領域及び前記疑似標的種の前記参照ゲノムにおける第2の領域に位置するため、前記偽陽性バリアントの部分集合における偽陽性バリアントが生じ、前記第1の領域及び前記第2の領域が異なる、
請求項1~6のいずれか一項に記載のコンピュータ実装方法。
【請求項8】
前記標的種の前記サンプルの前記配列決定されたリードにおける前記特定の領域が、前記非標的種の前記参照ゲノムにおける複数の領域に位置するため、前記偽陽性バリアントが生じる、請求項7に記載のコンピュータ実装方法。
【請求項9】
メモリに結合された1つ以上のプロセッサを含むシステムであって、前記メモリには、標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用
するためのコンピュータ命令がロードされ、前記コンピュータ命令が、前記1つ以上のプロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを
前記標的種と同じ分類学的な綱に属する非標的種の参照ゲノムに対してマッピングすることと、
前記標的種の前記サンプルの前記配列決定されたリードにおけるバリアントの第2の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを
前記標的種と相同である疑似標的種の参照ゲノムにマッピングすることと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第1の集合と前記バリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第2の集合に存在するが前記バリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
前記偽陽性バリアントの部分集合のカウントに基づいて、前記標的種をバリアントコーリングするために前記非標的種の前記参照ゲノムを使用するこ
とと、を含む、動作を実装する、システム。
【請求項10】
前記疑似標的種が、前記標的種とは異なる、請求項
9に記載のシステム。
【請求項11】
前記非標的種が、ヒトであり、
前記標的種が、非ヒト霊長類である、請求項
9又は10に記載のシステム。
【請求項12】
前記標的種の前記サンプルの前記配列決定されたリードを前記標的種の前記参照ゲノムにマッピングし、次いで、前記標的種の前記サンプルのマッピングされた前記配列決定されたリードを前記非標的種の前記参照ゲノムにリフトオーバーすることによって、前記バリアントの第2の集合を検出することを更に含む、
請求項9~11のいずれか一項に記載のシステム。
【請求項13】
前記バリアントの第1の集合及び前記バリアントの第2の集合から低品質バリアントを除外するために、第1のフィルタを適用することを更に含む、
請求項9~12のいずれか一項に記載のシステム。
【請求項14】
前記バリアントの第1の集合及び前記バリアントの第2の集合から、前記非標的種の前記参照ゲノムと前記疑似標的種の前記参照ゲノムとの間で共有される固定の置換を除外するために、第2のフィルタを適用することを更に含む、
請求項9~13のいずれか一項に記載のシステム。
【請求項15】
前記標的種の前記サンプルの前記配列決定されたリードにおける特定の領域が、前記非標的種の前記参照ゲノムにおける第1の領域及び前記疑似標的種の前記参照ゲノムにおける第2の領域に位置するため、前記偽陽性バリアントの部分集合における偽陽性バリアントが生じ、前記第1の領域及び前記第2の領域が異なる、
請求項9~14のいずれか一項に記載のシステム。
【請求項16】
前記標的種の前記サンプルの前記配列決定されたリードにおける前記特定の領域が、前記非標的種の前記参照ゲノムにおける複数の領域に位置するため、前記偽陽性バリアントが生じる、請求項
15に記載のシステム。
【請求項17】
標的種のサンプルをバリアントコーリングするために非標的種の参照ゲノムを使用す
るためのコンピュータプログラム命令が焼き付けられた非一時的コンピュータ可読記憶媒体であって、前記
コンピュータプログラム命令が、プロセッサ上で実行されるときに、
標的種のサンプルの配列決定されたリードにおけるバリアントの第1の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを
前記標的種と同じ分類学的な綱に属する非標的種の参照ゲノムに対してマッピングすることと、
前記標的種の前記サンプルの前記配列決定されたリードにおけるバリアントの第2の集合を検出するために、前記標的種の前記サンプルの前記配列決定されたリードを
前記標的種と相同である疑似標的種の参照ゲノムにマッピングすることと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第1の集合と前記バリアントの第2の集合との間で共通である真陽性バリアントの部分集合を同定することと、
前記バリアントの第1の集合と前記バリアントの第2の集合とを比較し、前記バリアントの第2の集合に存在するが前記バリアントの第1の集合には存在しない偽陽性バリアントの部分集合を同定することと、
前記偽陽性バリアントの部分集合のカウントに基づいて、前記標的種をバリアントコーリングするために前記非標的種の前記参照ゲノムを使用するこ
とと、を含む、
動作を実装する、非一時的コンピュータ可読記憶媒体。
【請求項18】
前記疑似標的種が、前記標的種
とオーソロガスである、請求項17に記載の非一時的コンピュータ可読記憶媒体。
【請求項19】
前記非標的種が、ヒトであり、
前記標的種が、非ヒト霊長類である、請求項
17又は18に記載の非一時的コンピュータ可読記憶媒体。
【請求項20】
前記標的種の前記サンプルの前記配列決定されたリードを前記標的種の前記参照ゲノムにマッピングし、次いで、前記標的種の前記サンプルのマッピングされた前記配列決定されたリードを前記非標的種の前記参照ゲノムにリフトオーバーすることによって、前記バリアントの第2の集合を検出することを更に含む、請求項
17~19のいずれか一項に記載の非一時的コンピュータ可読記憶媒体。
【国際調査報告】