(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2023-10-18
(54)【発明の名称】シークエンシング・データにおけるクロス-コンタミネーションの検出
(51)【国際特許分類】
G16B 30/00 20190101AFI20231011BHJP
C12Q 1/6869 20180101ALI20231011BHJP
G16H 50/20 20180101ALI20231011BHJP
G16B 40/00 20190101ALI20231011BHJP
【FI】
G16B30/00
C12Q1/6869 Z
G16H50/20
G16B40/00
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2023518039
(86)(22)【出願日】2021-09-17
(85)【翻訳文提出日】2023-04-14
(86)【国際出願番号】 US2021050995
(87)【国際公開番号】W WO2022061189
(87)【国際公開日】2022-03-24
(32)【優先日】2020-09-18
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】522105894
【氏名又は名称】グレイル エルエルシー
(74)【代理人】
【識別番号】100147485
【氏名又は名称】杉村 憲司
(74)【代理人】
【識別番号】230118913
【氏名又は名称】杉村 光嗣
(74)【代理人】
【識別番号】100214259
【氏名又は名称】山本 睦也
(72)【発明者】
【氏名】オヌール サカリャ
(72)【発明者】
【氏名】クリストファー-ジェイムス エイ ヴィ ヤキム
(72)【発明者】
【氏名】プラナヴ パルムジット シン
(72)【発明者】
【氏名】ロバート エイブ ペイン キャレフ
(72)【発明者】
【氏名】リチャード フアン
【テーマコード(参考)】
4B063
5L099
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QQ42
4B063QQ52
4B063QR32
4B063QR35
4B063QX01
4B063QX04
5L099AA04
(57)【要約】
対象におけるがんを判定するために使用される試験サンプル間のクロス-コンタミネーションを検出することは、有益である。クロス-コンタミネーションを検出するために、少なくとも1つの単一ヌクレオチド多型を含む試験配列を、ゲノム・シークエンシング技術を用いて、調製する。前記試験配列の一部をフィルタリングして、正確さ及び精密さを向上させることができる。各試験配列についての事前コンタミネーション確率を、マイナー・アレル頻度に基づいて、決定する。尤度検定を含むコンタミネーション・モデルを、試験配列に適用する。前記尤度検定は、前記試験サンプルがコンタミネーションを受けている、ということの尤度を表す、現在のコンタミネーション確率を取得する。前記試験配列がコンタミネーションを受けている、ということの尤度を表す。ヘテロ接合性の喪失を、前記サンプルが含む、ということの尤度を、前記コンタミネーション・モデルはまた、決定することができる。コンタミネーションを受けている試験サンプルを除去する。コンタミネーションを受けている試験サンプルのための源を、コンタミネーションを受けている試験サンプルと他の試験配列とを比較することによって、見出すことができる。
【選択図】
図1
【特許請求の範囲】
【請求項1】
試験サンプルにおけるコンタミネーション(contamination)を同定するための方法、ここで、前記方法は以下のステップを含む:
複数のフォワード鎖(forward strand)配列リード(sequence reads)及び複数のリバース鎖(reverse strand)配列リード(sequence reads)を含む複数の配列リード・ペア(sequence read pairs)を受け取るステップ、ここで:
複数の配列リード・ペア(sequence read pairs)の各々を、メチル化認識シークエンシングから得る、及び、
複数の配列リード・ペア(sequence read pairs)の各々は、少なくとも1つの単一ヌクレオチド多型(SNP)を含む;
配列リード・ペア(sequence read pairs)の集団を生成するために、複数の配列リード・ペア(sequence read pairs)を、以下のステップによって、フィルタリングするステップ:
コンタミネーション(contamination)を示す試験サンプルのフォワード鎖(forward strand)配列リード(sequence reads)を記述する、第1のルールセットにより、フォワード鎖(forward strand)配列リード(sequence reads)をフィルタリングするステップ、及び、
コンタミネーション(contamination)を示す試験サンプルのリバース鎖(reverse strand)配列リード(sequence reads)を記述する、第2のルールセットにより、リバース鎖(reverse strand)配列リード(sequence reads)をフィルタリングするステップ;
各々のSNPについてのマイナー・アレル頻度(minor allele frequency)に基づいて、前記配列リード・ペア(sequence read pairs)の集団の各々のSNPについての事前コンタミネーション(contamination)確率を決定するステップ;
少なくとも1つの尤度検定を含むコンタミネーション(contamination)モデルを、前記集団の配列リード・ペア(sequence read pair)に、その配列リード・ペア(sequence read pair)におけるSNPsについてのコンタミネーション(contamination)確率を使用して、適用するステップ、ここで、各々の尤度検定は、前記配列リード・ペア(sequence read pair)が、前記試験サンプルにおけるコンタミネーション(contamination)を示す、ということの尤度を表す、試験コンタミネーション(contamination)確率を生成するように構成されている;並びに、
前記試験コンタミネーション(contamination)確率が尤度閾値を上回る場合、前記試験サンプルにおけるコンタミネーション(contamination)を同定するステップ。
【請求項2】
以下のステップを更に含む、請求項1に記載の方法:
複数のフォワード鎖(forward strand)配列リード(sequence reads)の各々について、SNP部位でのヌクレオチド塩基を決定するステップ;及び、
複数の対応するリバース鎖(reverse strand)配列リード(sequence reads)の各々について、前記SNP部位での対応するヌクレオチド塩基を決定するステップ。
【請求項3】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団から除去するステップ。
【請求項4】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団から除去するステップ。
【請求項5】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団中に維持するステップ。
【請求項6】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団中に維持するステップ。
【請求項7】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項8】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項9】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項10】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、前記集団中に維持するステップ。
【請求項11】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項12】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項13】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項14】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項15】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項16】
請求項2に記載の方法、ここで、前記複数の試験配列をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項17】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項18】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項19】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項20】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項21】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項22】
請求項2に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、以下のステップを更に含む:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項23】
請求項1に記載の方法、ここで、配列リード・ペア(sequence read pairs)の集団を生成するために、複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、更に以下のステップを含む:
SNP除去表に含まれる1つ以上のSNP部位での、1つ以上のヌクレオチド塩基を含む、配列リード・ペア(sequence read pairs)を除去するステップ、ここで、前記SNP除去表は、前記コンタミネーション(contamination)を不正確に示す、SNPsを示す。
【請求項24】
請求項1に記載の方法、ここで、前記配列リード・ペア(sequence read pairs)の集団を生成するために、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、更に以下のステップを含む:
SNP除去表に含まれる1つ以上の対応するSNP部位での、1つ以上の対応するヌクレオチド塩基を含む、配列リード・ペア(sequence read pairs)を除去するステップ、ここで、前記SNP除去表は、前記コンタミネーション(contamination)を不正確に示す、SNPsを示す。
【請求項25】
請求項1に記載の方法、ここで、コンタミネーション(contamination)モデルを適用するステップは、負の二項確率分布を前記集団に適用するステップを含む。
【請求項26】
請求項1に記載の方法、ここで、前記試験サンプルは、血漿サンプルである。
【請求項27】
請求項1に記載の方法、ここで、前記試験サンプルは、複数の無細胞DNA分子を含む。
【請求項28】
請求項1に記載の方法、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、複数の無細胞DNA(cfDNA)分子を、前記cfDNA分子中の非メチル化シトシン塩基がウラシル塩基に変換されるように処理して、含む、及びここで、前記配列リード・ペア(sequence read pairs)は、その処理したcfDNA分子である。
【請求項29】
請求項1に記載の方法、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、亜硫酸水素ナトリウムで処理した複数の無細胞DNA(cfDNA)分子を含む、及びここで、前記配列リード・ペア(sequence read pars)は、その処理したcfDNA分子である。
【請求項30】
請求項1に記載の方法、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、シチジン・デアミナーゼで処理した複数の無細胞DNA(cfDNA)分子、及び、その処理したcfDNA分子をシークエンシングするステップ、を含む。
【請求項31】
請求項1に記載の方法、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)を、ゲノム-ワイド・バイサルファイト・シークエンシングを介して得る。
【請求項32】
請求項1に記載の方法、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)を、ペアド-エンド超並列シークエンシング(paired-end massively parallel sequencing)を介して得る。
【請求項33】
請求項1に記載の方法、ここで、前記方法は、以下のステップを更に含む:
メチル化認識シークエンシングを実施する前に、複数のターゲット化cfDNA分子について、前記試験サンプルを、富化するステップ。
【請求項34】
試験サンプルにおけるコンタミネーション(contamination)を同定するステップを実行するための、システムのプロセッサによって実行可能な、コンピュータ・プログラム命令、を記憶する非-一過性のコンピュータ-可読記憶媒体、ここで、前記命令は、それを前記プロセッサが実行すると、前記プロセッサに以下のステップをさせる:
複数のフォワード鎖(forward strand)配列リード(sequence reads)、及び複数のリバース鎖(reverse strand)配列リード(sequence reads)、を含む複数の配列リード・ペア(sequence read pairs)を受け取るステップ、ここで:
複数の配列リード・ペア(sequence read pairs)の各々を、メチル化認識シークエンシングから得る、及び、
複数の配列リード・ペア(sequence read pairs)の各々は、少なくとも1つの単一ヌクレオチド多型(SNP)を含む;
配列リード・ペア(sequence read pairs)の集団を生成するために、前記複数の配列リード・ペア(sequence read pairs)を、以下のステップによって、フィルタリングするステップ:
コンタミネーション(contamination)を示す試験サンプルのフォワード鎖(forward strand)配列リード(sequence reads)を記述する、第1のルールセットにより、フォワード鎖(forward strand)配列リード(sequence reads)をフィルタリングするステップ、及び、
コンタミネーション(contamination)を示す試験サンプルのリバース鎖(reverse strand)配列リード(sequence reads)を記述する、第2のルールセットにより、リバース鎖(reverse strand)配列リード(sequence reads)をフィルタリングするステップ;
各々のSNPについてのマイナー・アレル頻度(minor allele frequency)に基づいて、前記配列リード・ペア(sequence read pairs)の集団の各々のSNPについての事前コンタミネーション(contamination)確率を決定するステップ;
少なくとも1つの尤度検定を含むコンタミネーション(contamination)モデルを、前記集団の配列リード・ペア(sequence read pair)に、その配列リード・ペア(sequence read pair)におけるSNPsについてのコンタミネーション(contamination)確率を使用して、適用するステップ、ここで、各々の尤度検定は、前記配列リード・ペア(sequence read pair)が、前記試験サンプルにおけるコンタミネーション(contamination)を示す、ということの尤度を表す、試験コンタミネーション(contamination)確率を生成するように構成されている;並びに、
前記試験コンタミネーション(contamination)確率が尤度閾値を上回る場合、前記試験サンプルにおけるコンタミネーション(contamination)を同定するステップ。
【請求項35】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記コンピュータ・プログラム命令は、それを前記プロセッサが実行すると、前記プロセッサに以下のステップを更にさせる:
複数のフォワード鎖(forward strand)配列リード(sequence reads)の各々について、SNP部位でのヌクレオチド塩基を決定するステップ;及び、
複数の対応するリバース鎖(reverse strand)配列リード(sequence reads)の各々について、前記SNP部位での対応するヌクレオチド塩基を決定するステップ。
【請求項36】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団から除去するステップ。
【請求項37】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団から除去するステップ。
【請求項38】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団中に維持するステップ。
【請求項39】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団中に維持するステップ。
【請求項40】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項41】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項42】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項43】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、前記集団中に維持するステップ。
【請求項44】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項45】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項46】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項47】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項48】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項49】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の試験配列をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項50】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項51】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項52】
請求項35に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項53】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項54】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項55】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項56】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記配列リード・ペア(sequence read pairs)の集団を生成するために、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
SNP除去表に含まれる1つ以上のSNP部位での、1つ以上のヌクレオチド塩基を含む、配列リード・ペア(sequence read pairs)を除去するステップ、ここで、前記SNP除去表は、前記コンタミネーション(contamination)を不正確に示す、SNPsを示す。
【請求項57】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記配列リード・ペア(sequence read pairs)の集団を生成するために、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
SNP除去表に含まれる1つ以上の対応するSNP部位での、1つ以上の対応するヌクレオチド塩基を含む、配列リード・ペア(sequence read pairs)を除去するステップ、ここで、前記SNP除去表は、前記コンタミネーション(contamination)を不正確に示す、SNPsを示す。
【請求項58】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、コンタミネーション(contamination)モデルを適用するステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
負の二項確率分布を前記集団に適用するステップ。
【請求項59】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記試験サンプルは、血漿サンプルである。
【請求項60】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記試験サンプルは、複数の無細胞DNA分子を含む。
【請求項61】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、複数の無細胞DNA(cfDNA)分子を、前記cfDNA分子中の非メチル化シトシン塩基がウラシル塩基に変換されるように処理して、含む、及びここで、前記配列リード・ペア(sequence read pairs)は、その処理したcfDNA分子である。
【請求項62】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、亜硫酸水素ナトリウムで処理した複数の無細胞DNA(cfDNA)分子を含む、及びここで、前記配列リード・ペア(sequence read pars)は、その処理したcfDNA分子である。
【請求項63】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、シチジン・デアミナーゼで処理した複数の無細胞DNA(cfDNA)分子、及び、その処理したcfDNA分子をシークエンシングするステップ、を含む。
【請求項64】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)を、ゲノム-ワイド・バイサルファイト・シークエンシングを介して得る。
【請求項65】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)を、ペアド-エンド超並列シークエンシング(paired-end massively parallel sequencing)を介して得る。
【請求項66】
請求項34に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記コンピュータ・プログラム命令は、それを前記プロセッサが実行すると、前記プロセッサに以下のステップを更にさせる:
メチル化認識シークエンシングを実施する前に、複数のターゲット化cfDNA分子について、前記試験サンプルを、富化するステップ。
【請求項67】
試験サンプルにおけるコンタミネーション(contamination)を同定するためのシステム、ここで、前記システムは、以下を含む:
前記試験サンプルにおけるコンタミネーション(contamination)を同定するためのコンピュータ・プログラム命令を記憶する1つ以上のメモリ;
コンタミネーション(contamination)を同定するためのコンピュータ・プログラム命令を実行するように構成された、1つ以上のプロセッサ、ここで、前記コンピュータ・プログラム命令は、実行されると、前記プロセッサに以下のステップをさせる:
複数のフォワード鎖(forward strand)配列リード(sequence reads)及び複数のリバース鎖(reverse strand)配列リード(sequence reads)を含む複数の配列リード・ペア(sequence read pairs)を受け取るステップ、ここで:
複数の配列リード・ペア(sequence read pairs)の各々を、メチル化認識シークエンシングから得る、及び、
複数の配列リード・ペア(sequence read pairs)の各々は、少なくとも1つの単一ヌクレオチド多型(SNP)を含む;
配列リード・ペア(sequence read pairs)の集団を生成するために、複数の配列リード・ペア(sequence read pairs)を、以下のステップによって、フィルタリングするステップ:
コンタミネーション(contamination)を示す試験サンプルのフォワード鎖(forward strand)配列リード(sequence reads)を記述する、第1のルールセットにより、フォワード鎖(forward strand)配列リード(sequence reads)をフィルタリングするステップ、及び、
コンタミネーション(contamination)を示す試験サンプルのリバース鎖(reverse strand)配列リード(sequence reads)を記述する、第2のルールセットにより、リバース鎖(reverse strand)配列リード(sequence reads)をフィルタリングするステップ;
各々のSNPについてのマイナー・アレル頻度(minor allele frequency)に基づいて、前記配列リード・ペア(sequence read pairs)の集団の各々のSNPについての事前コンタミネーション(contamination)確率を決定するステップ;
少なくとも1つの尤度検定を含むコンタミネーション(contamination)モデルを、前記集団の配列リード・ペア(sequence read pair)に、その配列リード・ペア(sequence read pair)におけるSNPsについてのコンタミネーション(contamination)確率を使用して、適用するステップ、ここで、各々の尤度検定は、前記配列リード・ペア(sequence read pair)が、前記試験サンプルにおけるコンタミネーション(contamination)を示す、ということの尤度を表す、試験コンタミネーション(contamination)確率を生成するように構成されている;並びに、
前記試験コンタミネーション(contamination)確率が尤度閾値を上回る場合、前記試験サンプルにおけるコンタミネーション(contamination)を同定するステップ。
【請求項68】
請求項67に記載のシステム、ここで、前記コンピュータ・プログラム命令は、それを前記プロセッサが実行すると、前記プロセッサに以下のステップを更にさせる:
複数のフォワード鎖(forward strand)配列リード(sequence reads)の各々について、SNP部位でのヌクレオチド塩基を決定するステップ;及び、
複数の対応するリバース鎖(reverse strand)配列リード(sequence reads)の各々について、前記SNP部位での対応するヌクレオチド塩基を決定するステップ。
【請求項69】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団から除去するステップ。
【請求項70】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団から除去するステップ。
【請求項71】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団中に維持するステップ。
【請求項72】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)を、前記集団中に維持するステップ。
【請求項73】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項74】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項75】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項76】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、前記集団中に維持するステップ。
【請求項77】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項78】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項79】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項80】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、フォワード鎖(forward strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記フォワード鎖(forward strand)を、除去するステップ。
【請求項81】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項82】
請求項68に記載のシステム、ここで、前記複数の試験配列をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項83】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項84】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持するステップ。
【請求項85】
請求項35に記載の方法、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項86】
請求項35に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項87】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
【請求項88】
請求項68に記載のシステム、ここで、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
前記集団における配列リード・ペア(sequence read pair)から、リバース鎖(reverse strand)配列リード(sequence read)を同定するステップ、ここで:
前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、
前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である;
前記集団における前記配列リード・ペア(sequence read pair)の前記リバース鎖(reverse strand)配列リード(sequence read)を、除去するステップ。
、
【請求項89】
請求項67に記載のシステム、ここで、前記配列リード・ペア(sequence read pairs)の集団を生成するために、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
SNP除去表に含まれる1つ以上のSNP部位での、1つ以上のヌクレオチド塩基を含む、配列リード・ペア(sequence read pairs)を除去するステップ、ここで、前記SNP除去表は、前記コンタミネーション(contamination)を不正確に示す、SNPsを示す。
【請求項90】
請求項67のシステム、ここで、前記配列リード・ペア(sequence read pairs)の集団を生成するために、前記複数の配列リード・ペア(sequence read pairs)をフィルタリングするステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
SNP除去表に含まれる1つ以上の対応するSNP部位での、1つ以上の対応するヌクレオチド塩基を含む、配列リード・ペア(sequence read pairs)を除去するステップ、ここで、前記SNP除去表は、前記コンタミネーション(contamination)を不正確に示す、SNPsを示す。
【請求項91】
請求項67のシステム、ここで、コンタミネーション(contamination)モデルを適用するステップは、前記プロセッサに、以下のステップのための命令を更に実行させる:
負の二項確率分布を前記集団に適用するステップ。
【請求項92】
請求項67のシステム、ここで、前記試験サンプルは、血漿サンプルである。
【請求項93】
請求項67のシステム、ここで、前記試験サンプルは、複数の無細胞DNA分子を含む。
【請求項94】
請求項67のシステム、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、複数の無細胞DNA(cfDNA)分子を、前記cfDNA分子中の非メチル化シトシン塩基がウラシル塩基に変換されるように処理して、含む、及びここで、前記配列リード・ペア(sequence read pairs)は、その処理したcfDNA分子である。
【請求項95】
請求項67のシステム、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、亜硫酸水素ナトリウムで処理した複数の無細胞DNA(cfDNA)分子を含む、及びここで、前記配列リード・ペア(sequence read pars)は、その処理したcfDNA分子である。
【請求項96】
請求項67のシステム、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)は、シチジン・デアミナーゼで処理した複数の無細胞DNA(cfDNA)分子、及び、その処理したcfDNA分子をシークエンシングするステップ、を含む。
【請求項97】
請求項67のシステム、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)を、ゲノム-ワイド・バイサルファイト・シークエンシングを介して得る。
【請求項98】
請求項67に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、メチル化認識シークエンシングから得られる前記複数の配列リード・ペア(sequence read pairs)を、ペアド-エンド超並列シークエンシング(paired-end massively parallel sequencing)を介して得る。
【請求項99】
請求項67に記載の非-一過性のコンピュータ-可読記憶媒体、ここで、前記コンピュータ・プログラム命令は、それを前記プロセッサが実行すると、前記プロセッサに以下のステップを更にさせる:
メチル化認識シークエンシングを実施する前に、複数のターゲット化cfDNA分子について、前記試験サンプルを、富化するステップ。
【請求項100】
試験サンプルにおけるコンタミネーション(contamination)を同定するための方法、ここで、前記方法は、以下のステップを含む:
複数の配列バッチについての解析時期を決定するステップ、ここで、前記解析時期に、前記複数の配列バッチをシークエンシングした;
前記解析時期における前記配列バッチからの複数の試験配列にアクセスするステップ、ここで、各試験配列は、試験サンプルから得られた少なくとも1つの単一ヌクレオチド多型(SNP)を含む、及び各試験配列は、前記複数の配列バッチのうちの、ある配列バッチに対応する;
前記試験配列の1つ以上を除去することによって、前記複数の試験配列をフィルタリングするステップ、ここで、残りの試験配列は、集団を形成する;
前記集団の各々のSNPについての事前コンタミネーション(contamination)確率を決定するステップ、ここで、前記事前コンタミネーション(contamination)確率は、各々のSNPについてのマイナー・アレル頻度(minor allele frequency)に基づく;
少なくとも1つの尤度検定を含むコンタミネーション(contamination)モデルを、前記集団の試験配列に、関連するコンタミネーション(contamination)確率を使用して、適用するステップ、ここで、前記検定は、前記尤度検定の結果に基づいて、コンタミネーションを受けている試験配列を同定する;
前記コンタミネーションを受けている試験配列を含む前記配列バッチに、コンタミネーション(contamination)源モデルを、適用するステップ、ここで、前記コンタミネーション(contamination)源モデルは、前記集団のSNPs、並びにそれらの対応する試験配列及び配列バッチ、のコンタミネーション(contamination)確率に基づいて、複数の配列バッチから、コンタミネーション(contamination)源配列バッチを同定する;並びに、
前記コンタミネーション(contamination)源バッチである、前記解析時期からの前記配列バッチを報告するステップ。
【請求項101】
試験サンプルにおけるコンタミネーション(contamination)を同定するステップのための、コンピュータ・プログラム命令、を記憶する非-一過性のコンピュータ-可読記憶媒体、ここで、前記コンピュータ・プログラム命令は、それを前記プロセッサが実行すると、前記プロセッサに以下のステップをさせる:
複数の配列バッチについての解析時期を決定するステップ、ここで、前記解析時期に、前記複数の配列バッチをシークエンシングした;
前記解析時期における前記配列バッチからの複数の試験配列にアクセスするステップ、ここで、各試験配列は、試験サンプルから得られた少なくとも1つの単一ヌクレオチド多型(SNP)を含む、及び各試験配列は、前記複数の配列バッチのうちの、ある配列バッチに対応する;
前記試験配列の1つ以上を除去することによって、前記複数の試験配列をフィルタリングするステップ、ここで、残りの試験配列は、集団を形成する;
前記集団の各々のSNPについての事前コンタミネーション(contamination)確率を決定するステップ、ここで、前記事前コンタミネーション(contamination)確率は、各々のSNPについてのマイナー・アレル頻度(minor allele frequency)に基づく;
少なくとも1つの尤度検定を含むコンタミネーション(contamination)モデルを、前記集団の試験配列に、関連するコンタミネーション(contamination)確率を使用して、適用するステップ、ここで、前記検定は、前記尤度検定の結果に基づいて、コンタミネーションを受けている試験配列を同定する;
前記コンタミネーションを受けている試験配列を含む前記配列バッチに、コンタミネーション(contamination)源モデルを、適用するステップ、ここで、前記コンタミネーション(contamination)源モデルは、前記集団のSNPs、並びにそれらの対応する試験配列及び配列バッチ、のコンタミネーション(contamination)確率に基づいて、複数の配列バッチから、コンタミネーション(contamination)源配列バッチを同定する;並びに、
前記コンタミネーション(contamination)源バッチである、前記解析時期からの前記配列バッチを報告するステップ。
【請求項102】
試験サンプルにおけるコンタミネーション(contamination)を同定するステップのためのシステム、ここで、前記システムは、以下を含む:
前記試験サンプルにおけるコンタミネーション(contamination)を同定するステップのためのコンピュータ・プログラム命令を記憶する、1つ以上のメモリ;
コンタミネーション(contamination)を同定するステップのためのコンピュータ・プログラム命令を実行するように構成された、1つ以上のプロセッサ、ここで、前記コンピュータ・プログラム命令は、実行されると、前記プロセッサに以下のステップをさせる:
複数の配列バッチについての解析時期を決定するステップ、ここで、前記解析時期に、前記複数の配列バッチをシークエンシングした;
前記解析時期における前記配列バッチからの複数の試験配列にアクセスするステップ、ここで、各試験配列は、試験サンプルから得られた少なくとも1つの単一ヌクレオチド多型(SNP)を含む、及び各試験配列は、前記複数の配列バッチのうちの、ある配列バッチに対応する;
前記試験配列の1つ以上を除去することによって、前記複数の試験配列をフィルタリングするステップ、ここで、残りの試験配列は、集団を形成する;
前記集団の各々のSNPについての事前コンタミネーション(contamination)確率を決定するステップ、ここで、前記事前コンタミネーション(contamination)確率は、各々のSNPについてのマイナー・アレル頻度(minor allele frequency)に基づく;
少なくとも1つの尤度検定を含むコンタミネーション(contamination)モデルを、前記集団の試験配列に、関連するコンタミネーション(contamination)確率を使用して、適用するステップ、ここで、前記検定は、前記尤度検定の結果に基づいて、コンタミネーションを受けている試験配列を同定する;
前記コンタミネーションを受けている試験配列を含む前記配列バッチに、コンタミネーション(contamination)源モデルを、適用するステップ、ここで、前記コンタミネーション(contamination)源モデルは、前記集団のSNPs、並びにそれらの対応する試験配列及び配列バッチ、のコンタミネーション(contamination)確率に基づいて、複数の配列バッチから、コンタミネーション(contamination)源配列バッチを同定する;並びに、
前記コンタミネーション(contamination)源バッチである、前記解析時期からの前記配列バッチを報告するステップ。
【発明の詳細な説明】
【技術分野】
【0001】
[関連出願の相互参照]
本出願は、2020年9月18日に出願された米国仮出願第63/080,670号(この開示は、その全体が本出願に参照により取り込まれる)に対して優先権の利益を主張する。
【0002】
1. 技術分野
本出願は、広く、サンプル中のコンタミネーション(contamination)を検出することに関する、及びより具体的には、がんを早期に検出するために使用する、ターゲット化シークエンシングを含む、サンプル中のコンタミネーション(contamination)を検出することに関する。
【背景技術】
【0003】
2. 関連技術の説明
循環している腫瘍DNAに関する、次世代シークエンシングに基づくアッセイは、がんを早期に検出するためには、高感度及び高特異性を実現しなければならない。早期にがんを検出すること、及びリキッド・バイオプシー(liquid biopsy)は、両方とも、低い腫瘍負荷を検出するための高感度な方法、並びに偽陽性のコール(call)を減少させるための特異的な方法、を必要とする。隣接するサンプルからDNAのコンタミネーションが生じると、特異性が損なわれ、これによって、偽陽性をコールすることになることがある。様々な例において、コンタミネーション物由来の稀なSNPsは、低レベルの変異のように見えることがあるため、特異性を損なうことがある。全ゲノム・シークエンシング・データ(これは、典型的には比較的低-深度のシークエンシング研究からのものである)中のコンタミネーション(contamination)を、検出する及び推定するための方法が、現在存在する。しかしながら、既存の方法は、がんを検出するサンプルからのシークエンシング・データ中のコンタミネーション(contamination)を検出するためには、設計されておらず、これは、典型的には高-深度のシークエンシング研究を必要とし、様々な頻度で存在し得る腫瘍-由来の変異(例えば、単一塩基の変異及び/又はコピー数の変異(copy number variations (CNVs)))(例えば、クローン性の及び/又はサブ-クローン性の腫瘍-由来の変異)を含む。がんを検出するために使用する試験サンプルからのシークエンシング・データにおけるクロス-サンプル・コンタミネーション(cross-sample contamination)を検出することに関する、新しい方法が必要とされている。
【発明の概要】
【0004】
本出願に記載されるシステム及び方法を使用して、対象におけるがんを決定するために使用する試験サンプル間のクロス-コンタミネーション(contamination)を決定することがある。前記試験サンプルを、ゲノム・シークエンシング技術を用いて、調製する。各々の試験サンプルは、多くの配列リード・ペア(sequence read pairs)を含む。前記配列リード・ペア(sequence read pairs)の各々は、フォワード鎖(forward strand)配列リード(sequence reads)及びリバース鎖(reverse strand)配列リード(sequence reads)を含む。典型的には、前記配列リード・ペア(sequence read pairs)を、メチル化認識配列プロセスを介して取得する、及び前記配列リード・ペア(sequence read pairs)の各々は、少なくとも1つの単一ヌクレオチド多型を含む。
【0005】
前記システム及び方法は、前記配列リード・ペア(sequence read pairs)をフィルタリングして、フィルタリングされた、様々な様式にある集団を生成することがある。1つの例では、そのフィルタリングするステップには、第1のルールセットにより、フォワード鎖(forward strand)配列リード(sequence reads)をフィルタリングするステップ、第2のルールセットにより、リバース鎖(reverse strand)配列リード(sequence reads)をフィルタリングするステップ、が含まれる。前記第1のルールセットは、コンタミネーション(contamination)を示すことがあるフォワード鎖(forward strand)配列リード(sequence reads)を記述する、前記第2のルールセットは、コンタミネーション(contamination)を示すことがあるリバース鎖(reverse strand)配列リード(sequence reads)を記述する。
【0006】
前記システム及び方法は、SNPSの各々に対するマイナー・アレル頻度(minor allele frequency)に基づいて、配列リード・ペア(sequence read pairs)の集団の各々のSNPについての事前コンタミネーション(contamination)確率を決定することがある。そうするために、前記システム及び方法は、コンタミネーション(contamination)モデル(例えば、前記集団に適用される負の二項分布)を適用することがある。前記コンタミネーション(contamination)モデルは、前記集団の配列リード・ペア(sequence read pair)を、その配列リード・ペア(sequence read pair)におけるSNPsについてのコンタミネーション(contamination)確率を使用して、検定をする、少なくとも1つの尤度検定、を含む。少なくとも1つの尤度検定の各々は、前記配列リード・ペア(sequence read pair)がコンタミネーション(contamination)である、ということの尤度を表す、試験コンタミネーション(contamination)確率を生成するように構成されることがある。前記システム及び方法は、前記試験サンプルにおけるコンタミネーション(contamination)が、前記コンタミネーション(contamination)確率が尤度閾値を上回る場合、前記試験サンプルにおけるコンタミネーション(contamination)を同定することがある。
【0007】
前記ルールセットに基づいたフィルタリング・プロセスは、どのヌクレオチド塩基がSNP部位にあるか、に基づくことがある。より具体的には、フィルタリングするステップは、どのヌクレオチド塩基がフォワード鎖(forward strand)配列リード(sequence reads)上のSNP部位にあるか、及び対応するリバース鎖(reverse strand)配列リード(sequence read)上の対応するSNP部位にある任意の決定されたヌクレオチド塩基、に基づくことがある。説明すると、配列リード・ペア(sequence read pair)x、フォワード配列リード(sequence read)y、及びリバース鎖(reverse strand)配列リード(sequence read)zは、対応する配列リード(sequence reads)である。フォワード鎖(forward strand) 配列リード(sequence ready) y、及びリバース鎖(reverse strand)配列リード(sequence read)zの各々は、それぞれ、部位iy及びizでのSNPを含む。前記SNP部位iy及びizは、対応するSNP部位である。配列リード・ペア(sequence read pair)xの、SNP部位iy及びizでのヌクレオチド塩基は、がんを示すことがある。
【0008】
この状況を考慮すると、前記システム及び方法は、フィルタリング・プロセスにおいて、ルールセットからの様々なルールを適用することがある。
【0009】
例えば、前記システム及び方法は、前記集団における配列リード・ペア(sequence read pair)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのシトシン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である。一度同定すると、前記システム及び方法は、その同定した配列リード・ペア(sequence read pair)を、前記集団から除去することがある。
【0010】
例えば、前記システム及び方法は、前記集団における配列リード・ペア(sequence read pair)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である。一度同定すると、前記システム及び方法は、その同定した配列リード・ペア(sequence read pair)を、前記集団から除去することがある。
【0011】
例えば、前記システム及び方法は、前記集団における配列リード・ペア(sequence read pair)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのアデニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である。一度同定すると、前記システム及び方法は、その同定した配列リード・ペア(sequence read pair)を、前記集団中に維持することがある。
【0012】
例えば、前記システム及び方法は、前記集団における配列リード・ペア(sequence read pair)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である。一度同定すると、前記システム及び方法は、その同定した配列リード・ペア(sequence read pair)を、前記集団中に維持することがある。
【0013】
例えば、前記システム及び方法は、前記集団におけるフォワード鎖(forward strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのアデニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である。一度同定すると、前記システム及び方法は、その同定したフォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持することがある。
【0014】
例えば、前記システム及び方法は、前記集団におけるフォワード鎖(forward strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのチミン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である。一度同定すると、前記システム及び方法は、その同定したフォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持することがある。
【0015】
例えば、前記システム及び方法は、前記集団におけるフォワード鎖(forward strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)におけるSNP部位でのグアニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である。一度同定すると、前記システム及び方法は、その同定したフォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持することがある。
【0016】
例えば、前記システム及び方法は、前記集団におけるフォワード鎖(forward strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である。一度同定すると、前記システム及び方法は、その同定したフォワード鎖(forward strand)配列リード(sequence read)を、前記集団中に維持することがある。
【0017】
例えば、前記システム及び方法は、前記集団におけるフォワード鎖(forward strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である。一度同定すると、前記システム及び方法は、前記集団におけるその同定したフォワード鎖(forward strand)配列リード(sequence read)を、除去することがある。
【0018】
例えば、前記システム及び方法は、前記集団におけるフォワード鎖(forward strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である。一度同定すると、前記システム及び方法は、前記集団におけるその同定したフォワード鎖(forward strand)配列リード(sequence read)を、除去することがある。
【0019】
例えば、前記システム及び方法は、前記集団におけるフォワード鎖(forward strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である。一度同定すると、前記システム及び方法は、前記集団におけるその同定したフォワード鎖(forward strand)配列リード(sequence read)を、除去することがある。
【0020】
例えば、前記システム及び方法は、前記集団におけるフォワード鎖(forward strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である。一度同定すると、前記システム及び方法は、前記集団におけるその同定したフォワード鎖(forward strand)配列リード(sequence read)を、除去することがある。
【0021】
例えば、前記システム及び方法は、前記集団におけるリバース鎖(reverse strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である。一度同定すると、前記システム及び方法は、その同定したリバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持することがある。
【0022】
例えば、前記システム及び方法は、前記集団におけるリバース鎖(reverse strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのシトシン塩基である。一度同定すると、前記システム及び方法は、その同定したリバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持することがある。
【0023】
例えば、前記システム及び方法は、前記集団におけるリバース鎖(reverse strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である。一度同定すると、前記システム及び方法は、その同定したリバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持することがある。
【0024】
例えば、前記システム及び方法は、前記集団におけるリバース鎖(reverse strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのシトシン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である。一度同定すると、前記システム及び方法は、その同定したリバース鎖(reverse strand)配列リード(sequence read)を、前記集団中に維持することがある。
【0025】
例えば、前記システム及び方法は、前記集団におけるリバース鎖(reverse strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのアデニン塩基である。一度同定すると、前記システム及び方法は、前記集団におけるその同定したリバース鎖(reverse strand)配列リード(sequence read)を、除去することがある。
【0026】
例えば、前記システム及び方法は、前記集団におけるリバース鎖(reverse strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのグアニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのチミン塩基である。一度同定すると、前記システム及び方法は、前記集団におけるその同定したリバース鎖(reverse strand)配列リード(sequence read)を、除去することがある。
【0027】
例えば、前記システム及び方法は、前記集団におけるリバース鎖(reverse strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのアデニン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である。一度同定すると、前記システム及び方法は、前記集団におけるその同定したリバース鎖(reverse strand)配列リード(sequence read)を、除去することがある。
【0028】
例えば、前記システム及び方法は、前記集団におけるリバース鎖(reverse strand)配列リード(sequence read)を同定することがある、ここで、前記ヌクレオチド塩基は、前記フォワード鎖(forward strand)配列リード(sequence read)のSNP部位でのチミン塩基である、及び、前記対応するヌクレオチド塩基は、前記対応するリバース鎖(reverse strand)配列リード(sequence read)における対応するSNP部位でのグアニン塩基である。一度同定すると、前記システム及び方法は、前記集団におけるその同定したリバース鎖(reverse strand)配列リード(sequence read)を、除去することがある。
【0029】
前記システム及び方法は、更なる方法を使用して、前記集団をフィルタリングすることがある。例えば、前記システム及び方法は、SNP除去表に含まれる1つ以上のSNP部位での、1つ以上のヌクレオチド塩基を含む、配列リード・ペア(sequence read pairs)を除去することによって、複数の配列リード・ペア(sequence ready pairs)をフィルタリングすることがある。前記SNP除去表中のSNP部位は、前記コンタミネーション(contamination)を不正確に示す、SNPsを示す。同様に、前記システム又は方法は、SNP除去表に含まれる1つ以上の対応するSNP部位での、1つ以上の対応するヌクレオチド塩基を含む、配列リード・ペア(sequence read pairs)を除去することがある、前記SNP除去表は、前記コンタミネーション(contamination)を不正確に示す、SNPsを示す。
【0030】
試験サンプルは、様々な場所からのものであってもよく、様々なサンプル・タイプのうちの1つ以上であってもよい。例えば、前記試験サンプルは、血漿サンプルであってもよく、又は複数の無細胞DNAを含んでもよい。
【0031】
更に、前記配列リード・ペア(sequence read pairs)は、可変であっても良い。例えば、前記複数の配列リード・ペア(sequence read pairs)を、メチル化認識シークエンシングから取得することがある。この場合、前記配列リード・ペア(sequence read pairs)は、複数の無細胞DNA(cfDNA)分子を、前記cfDNA分子中の非メチル化シトシン塩基がウラシル塩基に変換されるように処理して、含むことがある。前記配列リード・ペア(sequence read pairs)は、処理したcfDNA分子であることがある。前記配列リード・ペア(sequence read pairs)を、例えば、亜硫酸水素ナトリウムで処理することがある。別の例では、前記配列リード・ペア(sequence read pairs)を、シチジン・デアミナーゼで処理することがある。その処理した配列を、ゲノム-ワイド・バイサルファイト・シークエンシング、及び/又は、ペアド-エンド超並列シークエンシング(paired-end massively parallel sequencing)、を介して、得ることがある。いくつかの例では、前記システム及び方法は、メチル化認識シークエンシングを実施する前に、複数のターゲット化cfDNA分子について、試験サンプルを、富化することがある。
【図面の簡単な説明】
【0032】
【
図1】
図1は、1つの例示的な実施形態による、シークエンシングのために、核酸サンプルを調製するための方法に関する、フローチャートである。
【
図2】
図2は、1つの例示的な実施形態による、配列リード(sequence reads)をプロセシングするための、プロセシング・システムの構成図である。
【
図3】
図3は、1つの例示的な実施形態による、配列リード(sequence reads)のバリアントを決定するための方法に関する、フローチャートである。
【
図4】
図4は、1つの例示的な実施形態による、試験サンプルにおけるコンタミネーション(contamination)を検出するための、及びコールするための、コンタミネーション(contamination)検出アプリケーション及びワークフローの構成図を図示する。
【
図5】
図5A-5Fは、いくつかの例示的な実施形態による、様々なコンタミネーション(contamination)レベルについて、マイナー・アレル深度(minor allele depth)を横軸として、所与のコンタミネーション(contamination)レベルでのデータを観察する確率、及び特定の変異を観察する確率、を示す確率分布プロットである。
図5Gは、1つの例示的な実施形態による、コンタミネーション(contamination)レベルαを有する試験サンプル、及び50という深度でY%という、ある特定の変異εを観察する確率、についての、確率分布図である。
図5Hは、1つの例示的な実施形態による、コンタミネーション(contamination)レベルαを有する試験サンプル、及び1000という深度でY%という、ある特定の変異εを観察する確率、についての、確率分布図である。
【
図6】
図6Aは、1つの例示的な実施形態による、シークエンシング・データのコンタミネーション(contamination)を検出するためのワークフローに関する、流れ図を図示する。
図6Bは、1つの例示的な実施形態による、コンタミネーション(contamination)検出ワークフローに関する、流れ図である。
【
図7】
図7Aは、1つの例示的な実施形態による、コンタミネーション(contamination)事象についての所与のサンプル対についての、情報が有るSNPsの個数を示すプロットである。
図7Bは、1つの例示的な実施形態による、コンタミネーション(contamination)事象についての、情報が有るSNPのスパイダー・プロットである。
【
図8】
図8は、1つの例示的な実施形態による、2718個のSNPsを含む第1のSNPセットに対する、及び12174個のSNPsを含む第2のSNPセットに対する、各々の頻度ビン(frequency bin)についてのSNPsの数を示す、SNP頻度プロット800である。
【
図9】
図9は、1つの例示的な実施形態による、集団マイナー・アレル頻度(minor allele frequency)に基づいた、情報が有るSNPsに関する、予想される検出力、を示すプロットである。
【
図10】
図10は、1つの例示的な実施形態による、コンタミネーション(contamination)検出アプリケーションを使用して得られた、コンタミネーション(contamination)検出限界、を示すプロットである。
【
図11】
図11は、1つの例示的な実施形態による、1つの実施形態による、コンタミネーション(contamination)検出アプリケーションを検証する方法に関する、ワークフローを図示する。
【
図12】
図12は、1つの例示的な実施形態による、閾値評価のためのクロス-バリデーション(cross-validation)中に生成された、ROC曲線の一例を示すプロットである。
【
図13】
図13は、1つの例示的な実施形態による、ヘテロ接合性の喪失に関する3つの仮説の尤度検定についての、確率分布を示すプロットである。
【
図14】
図14Aは、1つの例示的な実施形態による、高いコンタミネーション(contamination)確率を有するサンプルについての、ヘテロ接合性の喪失に関する3つの仮説の尤度検定についての、確率分布を示すプロットである。
図14Bは、1つの例示的な実施形態による、低いコンタミネーション(contamination)確率を有するサンプルについての、ヘテロ接合性の喪失に関する3つの仮説の尤度検定についての、確率分布を示すプロットである。
図14Cは、1つの例示的な実施形態による、負の二項分布を使用するヘテロ接合性の喪失のモデルを、二項分布を使用するヘテロ接合性の喪失のモデルと比較する、確率比較プロットを図示する。
【
図15】
図15は、1つの例示的な実施形態による、ヘテロ接合性の喪失を含むシークエンシング・データを除去し、残りのシークエンシング・データ中のコンタミネーション(contamination)を検出するための方法に関する、流れ図を図示する。
【
図16】
図16は、1つの例示的な実施形態による、in vitroタイトレーション(titration)実験による、ヘテロ接合性の喪失の除去等を含む、コンタミネーション(contamination)検出の検証を示す、プロットである。
【
図17】
図17A-17Cは、1つの例示的な実施形態による、in vitroタイトレーション(titration)によりコンタミネーションを受けているサンプル中のコンタミネーション(contamination)を検出するステップについて、ヘテロ接合性の喪失の除去等を含むコンタミネーション(contamination)検出を決定するための方法の性能を、当技術分野において既知の代替的な検出方法の性能と、比較するプロットである。
【
図18】
図18A-18Bは、1つの例示的な実施形態による、がんを有さないことが既知のサンプルにおけるコンタミネーション(contamination)を検出するステップについて、ヘテロ接合性の喪失の除去等を含むコンタミネーション(contamination)検出の性能を、当該技術分野において既知の代替的な検出方法の性能と、比較するプロットである。
【
図19】
図19A-19Cは、1つの例示的な実施形態による、腫瘍から得られたサンプル中のコンタミネーション(contamination)を検出するステップについて、ヘテロ接合性の喪失の除去等を含むコンタミネーション(contamination)検出の性能を、当該技術分野において既知の代替的な検出方法の性能と、比較するプロットである。
【
図20】
図20は、1つの例示的な実施形態による、コンタミネーション・ノイズ・ベースライン(contamination noise baseline)を生成するための方法の一例に関する、流れ図を図示する。
【
図21】
図21は、1つの例示的な実施形態による、SNPsのノイズ割合の一例を示す、プロットである。
【
図22】
図22Aは、1つの例示的な実施形態による、全てのSNPsと比較した、情報が有るSNPsに関するMAF分布を示す、プロットである。
図22Bは、1つの例示的な実施形態による、全てのSNPsと比較した、情報が有るSNPsに関するノイズ割合分布を示す、プロットである。
【
図23】
図23は、1つの例示的な実施形態による、3つの別々の研究(A、B、及びCと指定される)のために生成されたコンタミネーション(contamination)(ノイズ)ベースラインの比較を示す、ベン図である。
【
図24】
図24は、1つの例示的な実施形態による、25個のSNPsについてのバリアント・アレル頻度(allele frequency)を示す、一群のプロットである。
【
図25】
図25Aは、いくつかの例示的な実施形態による、トリ-ヌクレオチド・コンテキスト・エラー・プロット(tri-nucleotide context error plot)を図示する。
図25Bは、1つの例示的な実施形態による、トリ-ヌクレオチド・コンテキスト・エラー・比較プロット(tri-nucleotide context error comparison plot)を図示する。
図25Cは、1つの例示的な実施形態による、3つのコンタミネーション(contamination)検出プロットを図示する。
【
図26】
図26Aは、1つの例示的な実施形態による、試験したベースライン/正常サンプル毎の情報を含む、MSエクセルにおいて開いた出力ファイルの一例のスクリーンショットである。
図26Bは、1つの例示的な実施形態による、ベースライン/正常サンプル・データセット内の2つのコンタミネーション(contamination)事象についての解析データを示す、
図14に関する出力ファイルの一部のスクリーンショットである。
【
図27】
図27A及び27Bは、1つの例示的な実施形態による、ベースライン/正常サンプルB1_6_W442l6569493及びB6_14_W044216552592についてのコンタミネーション(contamination)レベルの様々な仮説に関するlog-尤度を示す、プロットである。
【
図28】
図28は、1つの例示的な実施形態による、二重-鎖(dual-strand)フィルタリング・ワークフローを図示する、流れ図を示す。
【
図29】
図29は、1つの例示的な実施形態による、前記サンプルをバイサルファイト変換に基づいてフィルタリングした後の、染色体中のSNPsの平均個数を図示する、サンプル分布図である。
【
図30】
図30A及び
図30Bは、1つの例示的な実施形態による、バイサルファイト変換に関連したSNPsをフィルタリングする場合の、コンタミネーション(contamination)検出の検出限界の向上を示す、検証グラフである。
【
図31】
図31は、1つの例示的な実施形態による、二重-鎖(dual-strand)フィルタリング・ワークフローを図示する、流れ図を示す。
【
図32】
図32は、1つの例示的な実施形態による、単一-鎖(single-strand)ワークフローを二重-鎖(dual-strand)フィルタリング・ワークフローと比較する、フィルタ検証プロットである。
【
図33】
図33Aは、1つの例示的な実施形態による、二重-鎖(dual-strand)ワークフローに従ってフィルタリングした試験サンプルついての、SNP密度プロットである。
図33Bは、1つの例示的な実施形態による、単一-鎖(single-strand)ワークフローに従ってフィルタリングした試験サンプルについての、SNP密度プロットである。
【
図34】
図34Aは、1つの例示的な実施形態による、二重-鎖(dual-strand)ワークフロー及びPRSワークフローから生じるSNP密度を比較する、フィルター密度プロットである。
図34Bは、1つの例示的な実施形態による、二重-鎖(dual-strand)ワークフロー及びPRSワークフローから生じるSNP深度を比較することを示す、フィルター深度プロットである。
【
図35】
図35は、1つの例示的な実施形態による、ブラックリスト・フィルタリング・ワークフロー(blacklist filtering workflow)を図示する、流れ図を示す。
【
図36】
図36Aは、1つの例示的な実施形態による、ブラックリスト・フィルタリング・ワークフロー(blacklist filtering workflow)に従って前記試験サンプルをフィルタリングしない場合の、コンタミネーション(contamination)事象比較プロットを図示する。
図36Bは、1つの例示的な実施形態による、ブラックリスト・フィルタリング・ワークフロー(blacklist filtering workflow)に従って前記試験サンプルをフィルタリングする場合の、コンタミネーション(contamination)比較プロットを図示する。
【
図37】
図37は、1つの例示的な実施形態による、ブラックリスト生成ワークフローを図示する、流れ図を示す。
【
図38】
図38は、1つの例示的な実施形態による、試験サンプルのコホートにおけるSNPsについて、観察されるマイナー・アレル頻度(minor allele frequency)を示す、コホート特性プロットである。
【
図39】
図39は、いくつかの例示的な実施形態による、可変閾値をどの位変更すると、コンタミネーションを受けていないサンプルを、不正確にコール(calling)することに影響をあたえるかを図示する、閾値変化(threshold variance)プロットを示す。
【
図40】
図40は、いくつかの例示的な実施形態による、SNPブラックリストのサイズをどの位変更すると、コンタミネーションを受けていないサンプルを、不正確にコール(calling)することに影響をあたえるかを図示する、サイズ変化プロットを示す。
【
図41】
図41は、いくつかの例示的な実施形態による、SNPブラックリストのサイズ、及び外れ値指標の可変閾値の両方をどの位変更すると、コンタミネーションを受けていないサンプルを、不正確にコール(calling)することに影響をあたえるかを図示する、サイズ変化プロット、及び閾値変化(threshold variance)プロットを示す。
【
図42】
図42は、1つの例示的な実施形態による、コンタミネーション(contamination)閾値決定ワークフローを図示する、流れ図を図示する。
【
図43】
図43は、1つの例示的な実施形態による、平均LLRヒューリスティック・プロットを図示する。
【
図44】
図44は、1つの例示的な実施形態による、ROCヒューリスティック・プロット4400を図示する。
【発明を実施するための形態】
【0033】
【0034】
【0035】
【0036】
【0037】
【0038】
【0039】
【0040】
【0041】
【0042】
【0043】
【0044】
【0045】
【0046】
【0047】
【0048】
【0049】
【0050】
【0051】
【0052】
【0053】
【0054】
【0055】
【0056】
【0057】
【0058】
【0059】
【0060】
【0061】
【0062】
【0063】
【0064】
【0065】
【0066】
【0067】
【0068】
【0069】
【0070】
【0071】
【0072】
【0073】
【0074】
【0075】
【0076】
【0077】
【0078】
【0079】
【0080】
【0081】
【0082】
【0083】
【0084】
【0085】
【0086】
【0087】
【0088】
【0089】
前記図は、図説のみを目的として、本発明の実施形態を図示する。当業者は、本出願に記載される本発明の原理から逸脱することなく、本出願に図示された構成及び方法の代替的な実施形態を使用することができることを、以下の考察から容易に認識するであろう。
【0090】
[詳細な説明]
I. 定義
用語「個体」は、ヒト個体を指す。用語「健常な個体」は、がん又は疾患を有さないと推定される個体を指す。用語「対象」は、がん又は疾患を有することが既知の個体、又は有する可能性のある個体、を指す。
【0091】
用語「配列リード(sequence reads)」は、個体から取得したサンプルからのヌクレオチド配列を指す。配列リード(Sequence reads)を、当技術分野で公知の様々な方法によって取得することができる。
【0092】
用語「リード・セグメント(read segment)」又は「リード(read)」は、個体から取得した配列リード(sequence reads)等の任意のヌクレオチド配列、及び/又は、個体から取得したサンプル由来の初期の配列リード(sequence read)から得られたヌクレオチド配列、を指す。例えば、リード・セグメント(read segment)は、アライメントをした配列リード(sequence read)、崩した配列リード(collapsed sequence read)、又は縫い合わせたリード(stitched read)、を指すことがある。更に、リード・セグメント(read segment)は、単一ヌクレオチド・バリアント等の、個々のヌクレオチド塩基を指すことがある。
【0093】
用語「単一ヌクレオチド・バリアント」又は「SNV」は、ヌクレオチド配列(例えば個体由来の配列リード(sequence read))の位置(例えば、部位)で、あるヌクレオチドが別のヌクレオチドに置換すること、を指す。第1の核酸塩基Xから第2の核酸塩基Yへの置換は、「X>Y」と表すことができる。例えば、シトシンからチミンへのSNVは、「C>T」と表すことがある。
【0094】
用語「単一ヌクレオチド多型」又は「SNP」は、前記集団の有意な部分が、あるヌクレオチド配列(例えば、個体由来の配列リード(sequence read))のある位置(例えば、部位)で、あるヌクレオチドが別のヌクレオチドに置換している、ゲノム上の位置を指す。例えば、特定の塩基部位で、ほとんどの個体において、核酸塩基Cが現れることがあるが、少数の個体においては、その位置を、塩基Aが占める。この特定の部位で、SNPがある。
【0095】
用語「インデル(indel)」は、配列リード(sequence read)中に、ある長さ及びある位置(これを、アンカー位置と呼ぶこともある)を有する1つ以上の塩基対が、任意に挿入されること、又は欠失されること、を指す。挿入は正の長さに対応し、一方、欠失は負の長さに対応する。
【0096】
用語「変異」は、1つ以上のSNV又はインデルを指す。
【0097】
用語「真陽性(true positive)」は、実際の生態を示す変異(例えば、個体において、がん、疾患、又は生殖細胞系変異の可能性が存在すること)、を指す。真陽性は、健常な個体において、自然に発生する変異(例えば、反復変異)、又は核酸サンプルをアッセイ調製する際におけるプロセス・エラーなどの不自然な結果という他の源、によって、引き起こされるものではない。
【0098】
用語「偽陽性(false positive)」は、真陽性であると不正確に決定された変異を指す。一般的に、平均ノイズ割合がより大きいこと、又はノイズ割合における不確実性がより大きいこと、に関連する配列リード(sequence reads)をプロセシングする場合に、偽陽性は、より起こりやすくなることがある。
【0099】
用語「無細胞核酸」、「無細胞DNA」、又は「cfDNA」は、個体の体内(例えば、血流)を循環する、並びに1つ以上の健常な細胞に由来する、及び/又は1つ以上のがん細胞に由来する、核酸フラグメントを指す。
【0100】
用語「循環腫瘍DNA(circulating tumor DNA)」又は「ctDNA」は、腫瘍細胞又は他のタイプのがん細胞に由来する、核酸フラグメントを指す。これは、死にかけている細胞のアポトーシス若しくはネクローシスなどの生物学的なプロセスの結果として、個体の血流中に放出されることがある、又は生存している腫瘍細胞によって能動的に放出されることがある。
【0101】
用語「ゲノム核酸」、「ゲノムDNA」、又は「gDNA」は、1つ以上の健常な細胞に由来する染色体DNA等の核酸を指す。
【0102】
用語「代替アレル(alternative allele)」又は「ALT」は、参照アレル(例えば、既知の遺伝子に対応する)と比較して、1つ以上の変異を有するアレルを指す。
【0103】
用語「マイナー・アレル(minor allele)」又は「MIN」は、所与の集団における2番目に最もありふれたアレルを指す。
【0104】
用語「シークエンシング深度(sequencing depth)」又は「深度」は、個体から取得したサンプル由来の、前記ゲノムの特定の位置での、リード・セグメント(read segment)の総数を指す。
【0105】
用語「アレル深度(allele depth)」、又は「AD」若しくは「DP」は、集団中のアレルをサポートするサンプルにおける、リード・セグメント(read segment)の数、を指す。用語「AAD」、「MAD」は、それぞれ、「代替アレル深度(alternate allele depth)」(即ち、ALTをサポートするリード・セグメント(read segment)の数)、及び「マイナー・アレル深度」(即ち、MINをサポートするリード・セグメント(read segment)の数)、を指す。
【0106】
用語「コンタミネーションを受けている(contaminated)」は、第2の試験サンプルの少なくとも一部で、コンタミネーションを受けている試験サンプル、を指す。即ち、コンタミネーションを受けている試験サンプルは、前記試験サンプルを生成しなかった個体由来のDNA配列を、意図せず、含む。同様に、用語「コンタミネーションを受けていない(uncontaminated)」は、第2の試験サンプルの少なくとも一部を含まない試験サンプル、を指す。
【0107】
用語「コンタミネーション・レベル(contamination level)」は、試験サンプル中のコンタミネーション(contamination)の程度を指す。即ち、前記コンタミネーション(contamination)レベルは、第1の試験サンプルにおける、第2の試験サンプル由来の、リードの数である。例えば、1000リードの第1の試験サンプルが、第2の試験サンプル由来の30リードを含む場合、コンタミネーション(contamination)レベルは3.0%である。
【0108】
用語「コンタミネーション事象(contamination event)」は、コンタミネーションを受けている、と呼ばれる試験サンプルを指す。一般的に、その決定されたコンタミネーション・レベル(contamination level)が閾値コンタミネーション・レベル(contamination level)を上回る場合、且つ前記決定されたコンタミネーション・レベル(contamination level)が統計的に有意である場合、試験サンプルを、コンタミネーションを受けている、と呼ばれる。
【0109】
用語「アレル頻度(allele frequency)」、又は「AF」は、サンプル中における、所与のアレルの頻度、を指す。用語「AAF」、「MAF」は、それぞれ、「代替アレル頻度(alternate allele frequency)」及び「マイナー・アレル頻度(minor allele frequency)」、を指す。前記AFを、所与のアレルについて、サンプルの対応するADを、前記サンプルの深度で割ることによって、決定することがある。
【0110】
II. 例示的なアッセイ・プロトコル
本出願に記載される方法及びシステムは、2018年2月15日に出願された、米国特許出願第16/019,315号(これは、全ての目的のために、その全体が、参照により本出願に取り込まれる)に関するものである。
【0111】
図1は、1つの実施形態による、シークエンシングのために、核酸サンプルを調製するステップための方法100に関する、フローチャートである。前記方法100は、限定されるものではないが、以下のステップを含む。例えば、前記方法100の任意のステップは、品質管理のための定量サブステップ、又は当業者に知られている他の実験室アッセイ手順、を含むことがある。
【0112】
ステップ110では、核酸サンプル(DNA又はRNA)を、対象から抽出する。本開示において、DNA及びRNAを、別段の指示がない限り、互換的に使用することがある。即ち、バリアント・コーリング(variant calling)及び品質管理においてエラー源情報を使用するための以下の実施形態は、DNAタイプ及びRNAタイプの両方の核酸配列に対して適用可能である。しかしながら、本出願に記載される例を、明確さ及び説明の目的のために、DNAに焦点を当てることがある。前記サンプルは、全ゲノム等のヒト・ゲノムの任意のサブセット、であることがある。前記サンプルを、がんを有することが既知である、又は有することが疑われる、対象から抽出することがある。前記サンプルは、血液、血漿、血清、尿、糞便、唾液、他のタイプの体液、又はそれらの任意の組合せ、を含むことがある。いくつかの実施形態では、血液サンプルを採取するための方法(例えば、シリンジ又は指先穿刺)は、組織生検を取得するための処置(これは、外科手術を必要とすることがある)よりも、侵襲性が低いことがある。抽出したサンプルは、cfDNA及び/又はctDNA、を含むことがある。健常な個体について、ヒトの身体は、cfDNA及び他の細胞残屑を自然に取り除くことができる。もし、対象が、がん又は疾患を有する場合、抽出されたサンプル中のctDNAは、診断のために検出可能なレベルで、存在することがある。
【0113】
ステップ120では、シークエンシング・ライブラリを調製する。ライブラリ調製の間、固有の分子識別子(unique molecular identifiers (UMI))を、アダプター・ライゲーション(adapter ligation)を介して、前記核酸分子(例えば、DNA分子)に付加する。前記UMIは、アダプター・ライゲーション(adapter ligation)中にDNAフラグメントの末端に付加される、短い核酸配列(例えば、4-10塩基対)である。いくつかの実施形態では、UMIは、特定のDNAフラグメントに由来する配列リード(sequence reads)を同定するために使用することができる、固有のタグとして役立つ、縮重塩基対である。アダプター・ライゲーション(adapter ligation)の後のPCR増幅の間、前記UMIは、結合したDNAフラグメントと共に、複製されることがあり、これによって、その後の解析に際して、同じ元の核酸セグメントに由来する配列リード(sequence reads)を同定する方法が得られる。
【0114】
ステップ130では、ターゲット化DNA配列を、ライブラリから富化する。富化する間、ハイブリダイゼーション・プローブを、がん(若しくは、疾患)の有無、がん状態、又はがん分類(例えば、がんタイプ又は起源組織)についての情報がある、核酸フラグメントを、ターゲット化するために、及びプル・ダウンするために、使用する。所与のワークフローについて、前記プローブを、DNA又はRNAのターゲット(相補的な)鎖にアニールするように(又はハイブリダイズするように)、設計することがある。前記ターゲット鎖は、「正の」鎖(例えば、mRNAに転写される、及びその後タンパク質に翻訳される、鎖)、又は相補的な「負の」鎖、であることがある。前記プローブは、長さが、10s、100s、又は1000sの塩基対からの範囲であることがある。1つの実施形態では、ある特定のがん、又は他のタイプの疾患、に対応することが疑われる、(例えば、ヒトの、又は他の生命体の)ゲノムの、具体的な変異、又はターゲット領域を解析するための遺伝子パネルに基づいて、前記プローブを設計することがある。更に、前記プローブは、ターゲット領域の重なる部分を、カバーすることがある。「全エクソーム・シークエンシング」として既知でもある、ゲノムの全ての発現遺伝子をシークエンシングするよりも寧ろ、ターゲット化した遺伝子パネルを使用することによって、前記方法100を使用して、前記ターゲット領域のシークエンシング深度を増加させることがある、ここで、深度は、前記サンプル内の所与のターゲット配列をシークエンシングした回数の数に関するカウント、を指す。シークエンシング深度(sequencing depth)を増加させると、核酸サンプルの必要な入力量が減少する。ハイブリダイゼーション・ステップの後、そのハイブリダイズした核酸フラグメントを捕捉し、PCRを用いて増幅することもある。いくつかの実施形態では、ターゲット化したDNA配列を富化せず、前記方法100は、直接的にステップ140に進む。
【0115】
ステップ140では、配列リード(sequence reads)を、富化したDNA配列から生成する。当該技術分野で既知の方法によって、前記富化したDNA配列から、シークエンシング・データを獲得することがある。例えば、前記方法100は、合成技術(イルミナ)、パイロシークエンシング(454 Life Sciences)、イオン半導体技術(Ion Torrentシークエンシング)、単一分子リアル-タイム・シークエンシング(Pacific Biosciences)、ライゲーションによるシークエンシング(SOLiDシークエンシング)、ナノポア・シークエンシング(Oxford Nanopore Technologies)、又はペアド-エンド・シークエンシング、等の次世代シークエンシング(next-generation sequencing (NGS))技術、を含むことがある。いくつかの実施形態では、可逆的色素ターミネーターを用いた、合成によるシークエンシング(sequencing-by-synthesis)を用いて、超並列シークエンシング(massively parallel sequencing)を行う。
【0116】
いくつかの実施形態では、前記配列リード(sequence reads)を、当該技術分野で公知の方法を使用して、参照ゲノムとアラインメントをして、アラインメント位置情報を決定することがある。前記アラインメント位置情報は、所与の配列リード(sequence read)の開始ヌクレオチド塩基及び終了ヌクレオチド塩基に対応する、参照ゲノム内の領域の開始位置及び終了位置、を示すことがある。アライメント位置情報はまた、前記開始位置及び終了位置から決定することができる、配列リード(sequence read)長、を含むこともある。参照ゲノム中の領域は、遺伝子又は遺伝子のセグメントと関連することがある。
【0117】
様々な実施形態では(例えば、ペアド-エンド・シークエンシング(paired-end sequencing)では)、配列リード(sequence read)は、R
1及びR
2として示されるリード・ペア(read pair)から構成される。例えば、第1のリードR1を、核酸フラグメントの第1の末端からシークエンシングすることがある、一方、第2のリードR2を、核酸フラグメントの第2の末端からシークエンシングすることがある。従って、第1のリードR
1及び第2のリードR
2のヌクレオチド塩基対を、参照ゲノムの塩基と、一致させて(例えば、逆向きに)アライメントを作ることがある。前記リード・ペアR
1及びR
2から導出されるアライメント位置情報は、第1のリード(例えば、R
1)の末端に対応する、参照ゲノム中の開始位置、及び第2のリード(例えば、R
2)の末端に対応する、参照ゲノム中の終了位置、を含むことがある。言い換えれば、前記参照ゲノム中の開始位置及び終了位置は、前記核酸フラグメントが対応する参照ゲノム中の可能性のある位置、を表す。
図2に関して以下で説明されるように、SAM (配列アライメント・マップ(sequence alignment map))フォーマット又はBAM(バイナリ・アライメント・マップ(binary alignment map))フォーマットを有する出力ファイルを生成し、更なる解析(例えば、バリアント・コーリング(variant calling)など)のために出力することがある。
【0118】
III. 例示的なプロセシング・システム
図2は、1つの実施形態による、配列リード(sequence reads)をプロセシングするステップのための、プロセシング・システム200の構成図である。前記プロセシング・システム200は、配列プロセッサ205、配列データベース210、モデル・データベース215、機械学習エンジン220、モデル225、パラメータ・データベース230、スコア・エンジン235、及びバリアント・コーラー(variant caller)240、を含む。
図3は、1つの実施形態による、配列リード(sequence reads)のバリアントを決定するステップのための方法300に関する、フローチャートである。いくつかの実施形態では、前記プロセッシング・システム200は、方法300を実行して、入力シークエンシング・データに基づいて、(例えば、SNPsについての)バリアント・コーリング(variant calling)を実行する。更に、前記プロセシング・システム200は、上述した方法100を用いて調製した核酸サンプルに関連する出力ファイルから、入力シークエンシング・データを取得してもよい。前記方法300は、限定されるものではないが、以下のステップを含む(これらのステップを、プロセッシング・システム200の構成要素に関して説明する)。他の実施形態では、前記方法300の1つ以上のステップを、例えば、HaplotypeCaller、VarScan、Strelka、又はSomaticSniper、等の、バリアント・コール・フォーマット(Variant Call Format (VCF))を使用して、バリアント・コール(variant call)を生成するための別のプロセスのステップで、置き換えることがある。
【0119】
前記プロセッシング・システム200を、プログラム命令を実行することができる任意のタイプのコンピューティング・デバイス(computing device)とすることができる。プロセシング・システム200の例としては、限定されるものではないが、デスクトップ・コンピュータ、ラップトップ・コンピュータ、タブレット・デバイス、携帯情報端末、携帯電話機又はスマートフォン、等が挙げられる。1つの例では、プロセシング・システムがデスクトップ又はラップトップ・コンピュータである場合、デスクトップ・アプリケーションによって、モデル225を実行することができる。アプリケーションは、他の例では、モデル225を実行するように構成された、モバイル・アプリケーション又はウェブ-ベースのアプリケーション、であることがある。
【0120】
ステップ310では、前記配列プロセッサ205は、前記入力シークエンシング・データに関する、アライメントした配列リード(sequence reads)を、崩す。1つの実施形態では、配列リード(sequence reads)を崩すステップは、UMIs、及び任意選択的に、出力ファイルのシークエンシング・データからの(例えば、
図1に示した方法100からの)アライメント位置情報、を使用するステップを含み、複数の配列リード(sequence reads)を、核酸フラグメント又はその一部の最も可能性の高い配列を決定するステップのためのコンセンサス配列に、崩す。前記UMIは、富化及びPCRによって連結した核酸フラグメントと一緒に複製されるので、前記配列プロセッサ205は、ある特定配列リード(sequence reads)が、ある核酸サンプル中の同じ分子に由来することを、決定することができる。いくつかの実施形態では、同一又は類似のアラインメント位置情報(例えば、閾値オフセット内の開始位置及び終了位置)を有する、及び共通のUMIを含む配列リード(sequence reads)を、崩す、並びに前記配列プロセッサ205は、崩したリード(本出願では、コンセンサス・リード(consensus read)とも呼ばれる)を生成して、前記核酸フラグメントを表す。前記配列プロセッサ205は、崩したリード(collapsed reads)の対応する対が、共通のUMIを有している場合、「二本鎖」としてのコンセンサス・リード(consensus read)を指定する、これは元の核酸分子の正及び負の両方の鎖が捕捉されることを示す;そうではない場合、前記崩したリード(collapsed read)を、「非-二本鎖」と指定する。いくつかの実施形態では、前記配列プロセッサ205は、配列リード(sequence reads)を崩すステップの代替として、又はそれに加えて、他のタイプのエラー訂正を、配列リード(sequence reads)に対して、実行することがある。
【0121】
ステップ320では、前記配列プロセッサ205は、対応するアライメント位置情報に基づいて、崩したリードを縫い合わせる。いくつかの実施形態では、前記配列プロセッサ205は、第1のリードと第2のリードとの間のアラインメント位置情報を比較して、第1及び第2のリードのヌクレオチド塩基対が、参照ゲノム中で重なるかどうかを決定する。1つの使用事例では、第1のリードと第2のリードとの間の(例えば、ヌクレオチド塩基の所与の数である)重なりが閾値長(例えば、ヌクレオチド塩基の閾値数)よりも大きいという決定に応答して、前記配列プロセッサ205は、第1のリードと第2のリードとを「縫い合わせた(stitched)」と指定する;そうではない場合、前記崩したリードを「縫い合わせていない(unstitched)」と指定する。いくつかの実施形態では、前記重なりが閾値長よりも大きい場合、且つ前記重なりがスライディング重なり(sliding overlap)ではない場合、第1のリード及び第2のリードを縫い合わせる。例えば、スライディング重なりは、ホモポリマー・ラン(homopolymer run)(例えば、単一反復ヌクレオチド塩基)、ジヌクレオチド・ラン(dinucleotide run)(例えば、2-ヌクレオチド塩基配列)、又はトリ-ヌクレオチド・ラン(trinucleotide run)(例えば、3-ヌクレオチド塩基配列)を含むことがある、ここで、前記ホモポリマー・ラン、ジヌクレオチド・ラン、又はトリ-ヌクレオチド・ランは、少なくとも閾値長の塩基対を有する。
【0122】
ステップ330では、前記配列プロセッサ205は、リードをパス(path)として組み立てる。いくつかの実施形態では、前記配列プロセッサ205は、リードを組み立てて、ターゲット領域(例えば、遺伝子)についての、有向グラフ、例えば、ド・ブラウン(de Bruijn)グラフ、を生成する。前記有向グラフの一方向エッジは、ターゲット領域におけるk個のヌクレオチド塩基(本出願では、「k-mers」とも呼ぶ)の配列を表す、及び前記エッジを頂点(又はノード)によって接続させる。前記配列プロセッサ205は、崩したリードを有向グラフにアライメントし、その結果、前記崩したリードのうちのいずれかを、前記エッジのサブセット及び対応する頂点のサブセットによって、順番に表すことがある。
【0123】
ステップ340では、前記バリアント・コーラー(variant caller)240は、前記配列プロセッサ205によって組み立てられたパス(path)から、候補バリアントを生成する。ある実施形態では、前記バリアント・コーラー(variant caller)240は、有向グラフ(これは、ステップ310において、剪定エッジ(pruning edge)又はノードによって圧縮されることがある)を、ゲノムのターゲット領域の参照配列と比較することによって、候補バリアントを生成する。前記バリアント・コーラー(variant caller)240は、前記有向グラフのエッジを、参照配列に対してアライメントすることがあり、候補バリアントの位置として、ミスマッチのエッジ及び前記エッジに隣接するミスマッチのヌクレオチド塩基のゲノム位置を記録する。更に、前記バリアント・コーラー(variant caller)240は、ターゲット領域のシークエンシング深度(sequencing depth)に基づいて、候補バリアントを生成することがある。特に、前記バリアント・コーラー(variant caller)240は、より大きなシークエンシング深度(sequencing depth)を有するターゲット領域におけるバリアントを同定することにおいて、より確かであることがある。なぜならば、より多くの数の配列リード(sequence reads)は、配列間のミスマッチ又は他の塩基対のバリエーションを(例えば、冗長性を使用して)解消するのに役立つからである。いくつかの実施形態では、前記バリアントはSNPsであることがある。
【0124】
更に、複数の異なったモデルを、モデル・データベース215に記憶させることがある、又は訓練後、利用するために取得することがある。例えば、モデルを訓練してSNPノイズ割合をモデル化する、モデルを訓練してSNPsをフィルタリングする、モデルを訓練してコンタミネーション(contamination)検出を検証する、モデルを訓練してヘテロ接合性の喪失を検出する、など。更に、前記スコア・エンジン235は、モデル225のパラメータを使用して、配列リード(sequence read)における1つ以上の真陽性又はコンタミネーション(contamination)の尤度を決定することがある。前記スコア・エンジン235は、前記尤度に基づいて、(例えば、対数スケールで)品質スコア決定することがある。例えば、前記品質スコアは、Phred品質スコアQ = -10・log10Pである、ここで、Pは、不正確な候補バリアント・コール(variant call)(例えば、偽陽性)の尤度である。
【0125】
ステップ350では、前記スコア・エンジン235は、前記モデル225、又は真陽性、コンタミネーション(contamination)、品質スコア、等、に関する対応する尤度に基づいて、前記候補バリアントをスコア化する。前記モデル225の訓練及び応用を、以下でより詳細に説明する。
【0126】
ステップ360では、前記プロセシング・システム200は、候補バリアントを出力する。いくつかの実施形態では、前記プロセシング・システム200は、決定した候補バリアントの一部又は全部を、対応するスコアと一緒に、出力する。下流のシステム(例えば、前記プロセシング・システム200に対して、又は前記プロセシング・システム200の他の構成要素に対して外部)は、前記候補バリアントを使用することがある、及び様々な応用(例えば、限定されるものではないが、がんの存在を予測すること、試験配列のコンタミネーション(contamination)を予測すること、ノイズ・レベルを予測すること、又は生殖細胞系列変異、等)についてのスコアを使用することがある。
【0127】
IV. 例示的なコンタミネーション(contamination)検出ワークフロー
図4は、1つの実施形態による、コンタミネーション(contamination)を検出するために、及びコールするために、前記プロセシング・システム200上で実行されるコンタミネーション(contamination)検出ワークフロー400に関する、構成図である。
【0128】
図示した例では、コンタミネーション(contamination)検出ワークフロー400は、単一サンプル構成要素410、ベースライン・バッチ構成要素420、及びヘテロ接合性の喪失(LoH)バッチ構成要素430、を含む。コンタミネーション(contamination)検出ワークフロー400の単一サンプル構成要素410は、例えば、前記バリアント・コーラー(variant caller)240がコールする、単一のバリアント・コール・ファイル(variant call file)442及びマイナー・アレル頻度(minor allele frequency)(MAF)バリアント・コール・ファイル(variant call file)444、の内容から情報を得る。前記単一のバリアント・コール・ファイル(variant call file)412は、単一のターゲット・サンプルのためのバリアント・コール・ファイル(variant call file)である。前記MAFバリアント・コール・ファイル(variant call file)414は、任意の数のSNP集団アレル頻度(allele frequency)AFについてのMAFバリアント・コール・ファイル(variant call file)である。
【0129】
コンタミネーション(contamination)検出ワークフロー400のベースライン・バッチ構成要素420は、コンタミネーションを受けていないサンプルから、各々のSNPについてのバックグラウンド・ノイズ・ベースラインを、単一サンプル構成要素410への別の入力として、生成する。コンタミネーション(contamination)ノイズ・ベースライン・ワークフローを使用してバックグラウンド・ノイズ・ベースラインを生成するステップを、
図19に関して、より詳しく説明する。ベースライン・バッチ構成要素420は、例えば、前記バリアント・コーラー(variant caller)240がコールする、複数のバリアント・コール・ファイル(variant call file)422の内容から情報を得る。前記複数のバリアント・コール・ファイル(variant call file)422は、複数のサンプルのバリアント・コール・ファイル(variant call file)であることがある。
【0130】
コンタミネーション(contamination)検出ワークフロー400のLoHバッチ構成要素430は、サンプルにおけるLoHを、単一サンプル構成要素410への別の入力として、決定する。LoHバッチ構成要素430は、例えば、LoHコール・ファイル432の内容から情報を得る。前記LoHコール・ファイルは、前記サンプル中にLoHを有するSNPsを含むと予め決定された複数のアレルについてのコール・ファイルである。前記LoHコール・ファイルを、バリアント・コーラー(variant caller)240がコールすることがある、及び前記配列データベース210に記憶させることがある。
【0131】
1つの実施形態では、前記コンタミネーション(contamination)検出ワークフロー400は、コンタミネーション(contamination)検出アルゴリズムによって処理されたシークエンシング・データから、出力ファイル440及び/又はプロットを生成することがある。例えば、コンタミネーション(contamination)検出ワークフロー400は、コンタミネーション(contamination)について、DNA試験サンプルを評価するための方法として、log-尤度データを生成することがある、及び/又はlog-尤度プロット442を表示することがある。コンタミネーション(contamination)検出ワークフロー400によって処理されたデータを、前記プロセシング・システム200のグラフィカル・ユーザー・インターフェース(GUI)450を介して、ユーザーに視覚的に提示することがある。例えば、出力ファイル440の内容(例えば、Excelで開かれたデータに関するテキスト・ファイル)、及びlog-尤度プロット442を、GUI 450に表示することがある。
【0132】
別の実施形態では、前記コンタミネーション(contamination)検出ワークフロー400は、前記機械学習エンジン220を使用して、コンタミネーション(contamination)検出を改善することがある。様々な訓練データセット(例えば、パラメータ・データベース230からのパラメータ、配列データベース210からの配列など)を使用して、本出願で記載するように、前記機械学習エンジン220に情報を提供することがある。この実施形態によれば、前記機械学習エンジン220を使用して、コンタミネーション(contamination)ノイズ・ベースラインを訓練する、ノイズ閾値を同定する、ヘテロ接合性の喪失を検出する、及びコンタミネーション(contamination)検出のための検出限界(limit of detection (LOD))を決定する、ことがある。
【0133】
コンタミネーション(contamination)検出ワークフロー400の単一サンプル構成要素410は、例えば、サンプル内のコンタミネーション(contamination)を推定するために使用される実行可能なスクリプトである。対照的に、コンタミネーション(contamination)検出ワークフロー400のベースライン・バッチ構成要素430は、例えば、サンプルのバッチにわたって推定を生成するために使用される実行可能なスクリプトである、及びこれらのサンプルにわたって、ノイズ・モデルを生成するために使用されることもある(入力バッチが健常である場合)。同様に、コンタミネーション(contamination)検出モデルのLoHバッチ構成要素430は、例えば、サンプルのバッチにわたって推定を生成するために使用される実行可能なスクリプトである、及びその生成された推定に基づいて、単一サンプル内のLoHを決定するために使用されることがある。
【0134】
V. サンプルのコンタミネーション(Contamination)を検出するステップ
1つの実施形態では、前記コンタミネーション(contamination)検出ワークフロー400は、コンタミネーション(contamination)を推定するステップのためのモデルに基づくことがある。1つの実施形態では、前記モデルは、試験サンプル由来のシークエンシング・データ中のコンタミネーション(contamination)を検出するステップのための、最尤モデル(本出願では尤度モデルと呼ぶ)である。しかしながら、他の実施例では、前記モデルは、M-推定器、最大間隔推定、支援の方法、等の任意の他の推定モデルであることがある。
【0135】
1つの例では、前記尤度モデルは、所与のコンタミネーション(contamination)レベルαで、サンプルのMAFを観察する確率を計算する、及び、その後、前記サンプルがコンタミネーションを受けているかどうかを決定する、ことによって、コンタミネーション(contamination)を決定する。いくつかの実施形態では、前記尤度モデルは、過去に観察されたコンタミネーションを受けているサンプルの遺伝子型に基づいて、前記サンプル中の各々のSNPについて最初に計算されるコンタミネーション(contamination)の事前確率から情報を得る。
【0136】
更に、前記コンタミネーション(contamination)検出ワークフロー400は、場合によっては、観察したサンプルについて、コンタミネーション(contamination)に関する可能性のある源を決定することがある。即ち、前記尤度モデルは、いくつかのコンタミネーションを受けているサンプルからのシークエンシング・データを比較して、コンタミネーション(contamination)に関する源を決定することがある。前記尤度モデルは、既知の遺伝子型を有する他のサンプルからのコンタミネーション(contamination)の事前確率から情報を得て、コンタミネーション(contamination)に関する可能性のある源を同定することがある。
【0137】
V.A 単一SNPについてのコンタミネーション(CONTAMINATION)の確率
コンタミネーション(contamination)検出ワークフロー400は、(例えば、サンプルの集団において)、事前確率及び観察したシークエンシング・データを用いて、サンプルがコンタミネーションを受けている、ということの確率を決定する。いくつかの例では、前記観察したシークエンシング・データは、試験サンプル・コール・ファイル(例えば、単一のバリアント・コール・ファイル(variant call file)412など)、LoHコール・ファイル(例えば、LoHコール・ファイル432など)、及び集団コール・ファイル(例えば、MAFコール・ファイル414など)、に含まれることがある。コンタミネーション(contamination)の事前確率を、前記観察したシークエンシング・データに基づいて、決定することがある。ここで、例えば、単一SNPについてのコンタミネーション(contamination)の確率は、サンプルのマイナー・アレル頻度(samples minor allele frequency)MAF、及び過去に観察されたホモ接合性SNPsのエラー割合、に基づく。いくつかの実施形態では、前記コンタミネーション(contamination)検出ワークフロー400は、代替アレル頻度(allele frequency)、ノイズ割合、リード深度、等を、追加的に、又は代替的に使用し、コンタミネーション(contamination)確率を決定する。
【0138】
コンタミネーション(Contamination)検出ワークフロー400は、2つの異なったモデルを用いて、前記サンプル及び集団内の、試験配列内の、データを観察する確率を比較する。一方のモデルでは、コンタミネーション(contamination)は存在しない。そして、部位iでの代替アレルを有する任意のリードは、部位iに対応する試験配列におけるノイズの結果、又は部位iでの試験配列のヘテロ接合性の結果、のいずれかである。他方のモデルでは、前記試験サンプルの、及び試験配列の、代替アレルでのコンタミネーションが存在する(これは、コンタミネーションしているDNA鎖を正確に読み取る結果であることがある)。これを踏まえて、コンタミネーション(contamination)検出ワークフロー400は、2つのモデルを使用して、前記試験サンプルがコンタミネーションを受けている尤度、及び前記試験サンプルがコンタミネーションを受けていない尤度、との間の割合を計算する。前記割合に基づいて、コンタミネーション(contamination)検出ワークフローは、前記試験サンプルがコンタミネーションを受けているか、コンタミネーションを受けていないか、を決定することがある。
【0139】
1つの実施形態では、データDの所与のセットについて、単一SNP部位でのコンタミネーション(contamination)の確率を、以下の様に計算する:
【数1】
ここで、P(α|D)は、前記データDを条件として、コンタミネーション(contamination)レベルαを観察することに関する確率である、P(D|α)は、コンタミネーション(contamination)レベルαを条件として、前記データを観察する確率である、及びP(α)は、コンタミネーション(contamination)レベルαの確率である。従って、前記試験サンプル中にコンタミネーション(contamination)が存在しない例では、試験サンプルでのコンタミネーション(contamination)の確率を、次のように表すことができる:
【数2】
ここで、α=0は、前記コンタミネーション(contamination)レベルαが、0.0%であることを示す。
【0140】
1つの例では、試験サンプル中のSNPについてのデータDを、表1に、以下示す。
【表1】
ここで、εは、前記SNP部位での特定のエラー又は変異に関する確率である。他の例では、前記データDは、任意の数の、追加の又はより少ない要素を含むことがあり、その結果、コンタミネーション(contamination)検出ワークフロー400は、試験サンプル内のコンタミネーション(contamination)を決定することができる。
【0141】
1つの実施形態では、前記コンタミネーション・レベルが非-ゼロである試験サンプルでは、データDの所与のセットについて、コンタミネーション(contamination)レベルαで、データDを観察する確率(即ち、P(D|α))は、コンタミネーション物の遺伝子型G
C及び宿主の遺伝子型G
H(前記試験サンプルの源)に、更に基づく。即ち、コンタミネーション(contamination)レベルαを条件とした、データDを観察する確率は、次のように表すことがある:
【数3】
ここで、P(G
C)は、前記SNP部位でのコンタミネーションは、その部位でのコンタミネーション物の遺伝子型に関連したタイプである、ということの確率である、P(G
H)は、前記部位でのコンタミネーションは、その部位での宿主の遺伝子型である、ということの確率である、及びP(D|α)は、コンタミネーション(contamination)レベルαで、前記データDを観察する確率である。ここで、特性pのセットは、特定の遺伝子型GH及びGC、SNP部位についてのSNP変異に関する確率ε、及び前記コンタミネーション(contamination)レベルαを含むが、前記試験サンプルの任意の他の特性を含むことがある。ここで、総和記号は、数学的な総和と、完全には同じではない(即ち、可変G
Hにわたるものではない)。その代わりに、前記遺伝子型の総和は、前記部位に渡って、コンタミネーション・レベルαで、データを観察することに関する確率が、コンタミネーション物及び宿主の3種の可能な遺伝子型(A/A、A/B、及びB/B)に基づいた貢献を含む、ことを、示す
【0142】
所与の部位について、所与のコンタミネーション(contamination)レベルαで、前記データを観察する確率を、一般的な部位特異的モデルで表すことがある。前記一般的な部位特異的モデルを、以下のように表すことがある:
【数4】
ここで、AAは、ホモ接合性の参照アレルである、ABは、ヘテロ接合性アレルである、BBは、ホモ接合性の代替アレルである、下付き文字「host」は、ホストG
Hの遺伝子型を表す、下付き文字「cont」は、コンタミネーション物の遺伝子型を表す、εは、特定の変異を観察する確率である、及びαは、コンタミネーション(contamination)レベルである。
【0143】
V.A.I 二項分布
いくつかの場合では、前記一般的な部位特異的モデルを、二項分布を用いてモデル化することができる。例えば、一般的な部位特異的モデルからの特定の場合について、所与のコンタミネーション(contamination)レベルαで、前記データDを観察することに関する確率を、以下のように表すことがある:
【数5】
ここで、「binomial」は、前記試験サンプルの深度DP及びマイナー・アレル深度MAD(マイナー・アレル深度)、宿主の遺伝子型(A/A)、コンタミネーション物の遺伝子型(A/B)、コンタミネーション(contamination)レベルα、及び、特定のエラー又は変異を観察する確率ε、に基づいて、前記データを観察する二項確率である。
【0144】
例えば、
図5Aは、10%というコンタミネーション(contamination)レベルα、及び0.01%という特異的変異を観察する確率ε、を有する試験サンプルについての、確率分布プロット510である。このプロットでは、前記マイナー・アレル深度は、x-軸上にある、及び前記二項分布に基づく確率(式4と同様)は、y-軸上にある。従って、前記プロットは、コンタミネーション(contamination)レベルα、SNP変異の確率ε、A/Aという宿主の遺伝子型及びA/Bというコンタミネーション物の遺伝子型、を条件として、マイナー・アレル深度MADを観察する確率を示す。
【0145】
図5B-
図5Fは、種々のコンタミネーション(contamination)レベルα及び変異確率εについての、確率分布プロットである。
図5Bは、0%というコンタミネーション(contamination)レベルα、及び0.01%という特定の変異を観察する確率ε、である試験サンプルについての、確率分布プロット520である。
図5Cは、対数的にスケーリングしたy-軸を有する、10%というコンタミネーション(contamination)レベルαである試験サンプルについての、確率分布プロット530である。
図5Dは、対数的にスケーリングしたy-軸を有する、0%というコンタミネーション(contamination)レベルα、及び0.01%という特定の変異を観察する確率ε、である試験サンプルについての、確率分布プロット540である。
図5Eは、10%というコンタミネーション(contamination)レベルα、及び0.002というブラックスワン値 (0.002という最小寄与レベル)、である試験サンプルについての、確率分布プロット550である。
図5Fは、0%というコンタミネーション(contamination)レベルα、0.01%という特定の変異を観察する確率、及び0.002というブラックスワン値、である試験サンプルについての、確率分布プロット560である。
【0146】
V.A.II 負の二項分布
他の場合では、前記一般的な部位特異的モデルを、負の二項分布でモデル化することがある。例えば、特定の部位での、所与のコンタミネーション(contamination)レベルαで、前記データDを観察することに関する確率を以下のように表すことがある:
【数6】
ここで、「nbinomial」は、前記試験サンプルの深度DP及びマイナー・アレル深度 (MAD)、前記宿主の遺伝子型(A/B)、前記コンタミネーション物の遺伝子型(B/B)、コンタミネーション(contamination)レベルα、並びに特定のエラー又は変異を観察する確率ε、に基づいて、前記データを観察する負の二項確率である。
【0147】
図示するために、
図5Gは、X%というコンタミネーション(contamination)レベルα、及びY%という特定のヘテロ接合性SNPを観察する確率ε、である試験サンプルについての、確率分布プロット570である。サンプルの深度は50である。更に、各アレルのプル・ダウン及び富化効率は、約50パーセントである。このプロットでは、前記マイナー・アレル深度はx-軸上にある、及び負の二項分布に基づく確率はy-軸上にある。従って、前記プロットは、コンタミネーション(contamination)レベルα、ヘテロ接合性SNP確率ε、A/Bという宿主の遺伝子型、及びB/Bというコンタミネーション物の遺伝子型、を条件とした、マイナー・アレル深度(MAD)を観察する確率を示す。
図5Hは、
図5Gと同様の、確率分布プロット580であるが、サンプルの深度は、50ではなく1000である。
【0148】
V.A.III 単純化
一般的な部位特異的モデルを、コンタミネーション(contamination)の事前確率を用いて、単純化することが有る。その単純化したモデルを以下のように表すことがある:
【数7】
ここで、P
Cは、宿主遺伝子型Cとは別の遺伝子型であるコンタミネーション物の事前の観察に基づく試験サンプルのコンタミネーション(contamination)の確率である、P(D|α,C)は、前記SNPがコンタミネーションを受けていることを条件とした、コンタミネーション(contamination)レベルαであるデータDを観察する確率である、(1-P
C)は、コンタミネーション(contaminateon)がない確率である、及びP(D|α=0, !C)は、0%というコンタミネーション(contamination)レベルα (即ち、コンタミネーション(contamination)無し、!Cと表記)であるデータDを観察する確率である。
【0149】
別の言い方をすれば、P
Cは、ある部位のSNPがコンタミネーション(contamination)レベルαを条件とした、前記宿主とは異なるアレル・タイプのコンタミネーション物でコンタミネーションを受けている確率である。1つの例では、前記単純化したモデルは、以下の式を用いて、コンタミネーション(contamination)Pcの事前確率を決定する:
【数8】
ここで、MAFは、マイナー・アレル頻度である、A/Aは、ホモ接合性参照アレルである、及びB/Bは、ホモ接合性代替アレルである。ここで、ヘテロ接合性アレルを除去する、及び試験サンプルについてコンタミネーション(contamination)の確率を決定する際に、ヘテロ接合性アレルを考慮しない。
【0150】
V.B サンプルについてのコンタミネーション(Contamination)の確率
前述のように、1つの実施形態では、前記コンタミネーション(contamination)検出ワークフロー400は、尤度モデルを使用して、サンプル中のコンタミネーション(contamination)を決定する。ここで、サンプル中のコンタミネーション(contamination)を決定するために、前記尤度モデルは、尤度関数L(α)を最大化するコンタミネーション(contamination)のレベルαを決定する。前記尤度関数L(α)を、以下のように書くことができる:
【数9】
ここで、P(D|α)は、コンタミネーション(contamination)レベルαを条件として、データDを観察する確率である、βは、最小の許容可能な確率である、Nは、前記サンプルのホモ接合性(A/A又はB/B)SNPsの数である、及びDiは、所与のSNPについて観察されるデータである。
【0151】
尤度関数L(α)は、コンタミネーション(contamination)レベルαを条件として、データDを観察する確率(P(D|α))に比例する。コンタミネーション(contamination)レベルαを条件として、データDの確率は、前記サンプルの全てのSNPsを考慮に入れる。即ち、L(α)は、前記サンプル中の各々のSNPに関する、コンタミネーション(contamination)レベルαを条件とした、そのSNP中のデータの確率(P(Di|α))の最大値の、積である。各々のSNPについて、コンタミネーション(contamination)レベルαを条件としたデータDの確率が閾値を下回る場合、そのSNPについての確率に値βを割り当てることがある。前記値βは、ブラック・スワン項(例えば、β=3.3×10-7)として設定される最小確率であり、これは、評価した各々のSNPが尤度関数L(α)に寄与し得る最小値を制限する。単一SNP部位でのコンタミネーション(contamination)の確率(P(Di|α)を、セクションV.a.でより詳細に説明する。
【0152】
V.C 尤度検定を用いた、サンプルについてのコンタミネーション(Contamination)の確率
コンタミネーション(contamination)の尤度を決定するステップの1つの例では、前記コンタミネーション(contamination)検出ワークフロー400は、2つの別個の尤度検定を含む尤度モデルを適用する。
【0153】
第1の尤度検定では、尤度関数L(α)の積項を用いて、サンプル内のマイナー・アレル頻度(minor allele frequency)に対する一連のコンタミネーション(contamination)レベルαiを検定するステップから取得される、最大コンタミネーション(contamination)尤度を表す第1の尤度比(LR)を計算する。即ち、コンタミネーション(contamination)のどのレベルαが、最も高いコンタミネーション(contamination)尤度を与えるか、ということである。
【0154】
前記第1の尤度比LR
1は、観測したSNPsのMAFに基づいて、前記サンプルが、一連のコンタミネーション(contamination)レベルα(L(α=α
i))の最大値で、コンタミネーションを受けている、ということの第1の帰無仮説を用いる。即ち、前記サンプルは、コンタミネーション(contamination)の最も高い尤度を与える、コンタミネーション(contamination)レベルα
maxで、コンタミネーションを受けている。従って、前記第1の帰無仮説を、以下のように書くことができる:
【数10】
。
【0155】
前記第1の尤度比はまた、前記サンプル中にコンタミネーション(contamination)がない、ということの第1の仮説も用いる(L(α =0.000))。従って、第1の尤度比検定LR
1を、以下のように書くことができる:
【数11】
。
【0156】
一般に、前記第1の尤度比LR1は、ある値になる。前記第1の尤度比LR1の値が閾値を上回る場合、前記サンプルは、第1の尤度検定をパスする(pass)と考えられる。即ち、前記サンプルが、コンタミネーション(contamination)レベルαで、コンタミネーションを受けている可能性は高い。
【0157】
第2の尤度検定では、前記尤度関数L(α)を使用して、観察したマイナー・アレル頻度(minor allele frequency)が、全てのSNPsにわたり、ノイズが一定に増加することに起因するのではなく、コンタミネーション(contamination)に起因する、ということの尤度を表す第2の尤度比LR2を計算する。
【0158】
第2の尤度比LR
2は、第1の帰無仮説(式4)と同じである、第2の帰無仮説L
maxMAFを用いる(方程式4)。更に、前記第2の尤度比LR
2は、コンタミネーション(contamination)レベルα
maxでコンタミネーションを受けているサンプルは、過去に観察したSNPsの平均アレル頻度(allele frequency)でのマイナー・アレル頻度(minor allele frequency) (一様(MAF))を含む、ということの第2の仮説L
noiseを使用する。前記第2の帰無仮説を、以下のように書くことができる:
【数12】
。
【0159】
従って、前記第2の尤度比を、以下のように書くことができる:
【数13】
。
【0160】
前記第2の尤度比LR2は、ある値になる。前記値が閾値を上回る場合、前記サンプルは、第2の尤度検定LR2をパスする(pass)と考えられる。即ち、観察したMAFは、コンタミネーション(contamination)に起因し、ノイズに起因しない、可能性が高い。あるいは、過去に観察したMAFの特定の配列が、コンタミネーション(contamination)尤度を決定する際に有意であるが、過去に観察したMAFのランダムな分布は、コンタミネーション(contamination)尤度を決定する際に有意ではない、場合、前記第2の尤度検定はパスする(pass)。
【0161】
試験サンプルが両方の尤度検定にパスする(pass)場合、前記サンプルは、前記検定にパスする(pass)、コンタミネーション(contamination)レベルαでコンタミネーションを受けている、とコールされる。試験サンプルが、何れかの尤度検定で失敗する場合、それはコンタミネーションを受けている、とコールされない。
【0162】
他の構成では、前記コンタミネーション(contamination)検出ワークフローは、追加の又はより少ない尤度検定を使用して、サンプルがコンタミネーションを受けているかどうかを決定することがある。
【0163】
V.D コンタミネーション(CONTAMINATION)源を決定するステップ
コンタミネーション(contamination)の尤度を決定するステップに関する1つの例では、前記コンタミネーション(contamination)検出ワークフロー400の尤度モデルは、更に、コンタミネーション(contamination)に関する可能性のある源、を決定することがある。コンタミネーション(contamination)に関する源を検出することにより、コンタミネーション物が導入されるリスク、並びにそれが起こるサンプル・プロセス中の点(例えば、プロセス100又は300のうちの任意のステップ)、を評価することが可能になる。コンタミネーション(contamination)検出作業フロー400では、集団SNPsからの事前確率の代わりに、可能性のあるコンタミネーション物の遺伝子型を使用することがある。コンタミネーション(contamination)の事前確率を導入すると、前記集団に基づいた確率について、得られる尤度比と比較して、尤度比が増加する又は減少する。
【0164】
前記尤度モデルは、前記試験サンプルと同じバッチ(又は関連するバッチのセット)において処理したサンプルの既知の遺伝子型に由来するSNPsに関する事前確率から、情報を得ることがある。次いで、尤度検定を行って、正確な遺伝子型確率を知ることが、集団のMAF確率を用いて取得した尤度よりも高い値を、与えるかどうかを決定する。その差異が有意である場合、所与のサンプルは、コンタミネーション物であると結論付けることができる。
【0165】
所与のSNPについて、3つの遺伝子型を観察することが可能である:ホモ接合性参照0/0、ヘテロ接合性0/1、及びホモ接合性代替1/1、ここで、0は参照アレルを表す、及び1は代替アレルを表す。正常な(コンタミネーションを受けていない)サンプルでは、予想される観察されるアレル頻度は、遺伝子型0/0、0/1及び1/1について、それぞれ、0、0.5及び1、に近いと予想される。しかしながら、コンタミネーションを受けているサンプルでは、前記SNPsは、前記集団にわたって変化するので、観察されるアレル頻度(allele frequency)値は、0、0.5、及び1からシフトし、それ故に、コンタミネーションしているサンプル中に存在する、ということの尤度がより高くなる、と予想されることがある。
【0166】
V.E 尤度検定を用いるコンタミネーション(Contamination)検出
コンタミネーション(contamination)とノイズとを区別できることは、重要なことである。上述のように、プロセシング・システム200を使用して、試験サンプル中のコンタミネーション(contamination)を検出することができる。例えば、コンタミネーション(contamination)検出ワークフロー400を使用して、試験サンプル中に観察される複数の(又はセットの)バリアント・アレル頻度(allele frequency)に基づいて、コンタミネーション(contamination)事象を検出することができる。1つの実施形態では、その観察されるバリアント・アレル頻度(allele frequency)を、サンプル間のコンタミネーション(contamination)を検出するために、複数のSNPsからの集団MAFと比較することがある。
【0167】
V.E.I 単一サンプル・コンタミネーション(Contamination)検出
図6Aは、
図4のワークフロー400に従って実行される、コンタミネーション(contamination)検出ワークフロー630を図示する流れ図を図示する。この実施形態の検出ワークフロー630には、限定されるものではないが、以下のステップが含まれる。前記検出ワークフローは、疾患を診断するために、ヒトから取得したサンプル中のコンタミネーション(contamination)を検出する。
【0168】
ステップ610では、(例えば、前記プロセス300を用いて)サンプルから得られたシークエンシング・データをクリーン・アップする、及び遺伝子型を中和する。例えば、データ・クリーニングには、非-情報があるSNPsをフィルタリングして除去するステップ、カバーされていないSNPsを除去するステップ、高いエラー頻度(例えば、>0.1%)を有するSNPsを除去するステップ、高いばらつきを有するSNPsを除去するステップ、閾値未満の深度を有するSNPsを除去するステップ、あらゆるヘテロ接合性SNPsを除去するステップ、カバーが低いSNPsを除去するステップ、及び高い異質性割合(heterogeneity rate)を有するあらゆるSNPsを除去するステップ、が含まれることがある。他の例では、全てのバリアント頻度データを、マイナー・アレル頻度(minor allele frequency)と線形的に比較することができる1つのスケールにするために、バリアント頻度が0.8から1.0であるホモ接合性代替SNPsを、無効にすることがある(例えば、バリアント頻度0.95は0.05になる)。更に、サンプル遺伝子型に基づいて、前記MAF値を無効にすることがある。
【0169】
ステップ604では、コンタミネーション(contamination)の事前確率を、セクションV.bに記載されるように、宿主サンプルの遺伝子型及びマイナー・アレル頻度(minor allele frequency)に基づいて、各々のSNPについて、計算する。
【0170】
ステップ606では、最大尤度推定を含む尤度モデルを、前記SNPsについてのコンタミネーション(contamination)の事前確率に基づいて決定されたコンタミネーション(contamination)に、適用する。前記尤度モデルには、セクションV.cに記載されているように、第1及び第2の尤度検定が含まれる。
【0171】
決定ステップ608では、前記試験サンプルがコンタミネーションを受けているかどうかを決定する。試験サンプルが、両方の尤度検定にパスする(pass)場合(例えば、閾値を上回る確率)、前記サンプルはコンタミネーションを受けている、及びワークフロー600は、ステップ610に進む。試験サンプルがいずれの尤度検定にもパスしない場合、前記サンプルはコンタミネーションを受けていない、及びワークフロー600を終了する。
【0172】
ステップ612では、セクションV.dで記載されるように、前記試験サンプル(又は関連するバッチのセット)と同じバッチで処理した他のサンプルに関する既知の遺伝子型に由来するSNPsの事前確率に基づいて、コンタミネーション(contamination)に関する可能性のある源を同定する。
【0173】
V.E.II バッチのサンプルでのサンプル・コンタミネーション(Contamination)検出
図6Bは、
図4のワークフロー400に従って実行される、コンタミネーション(contamination)検出ワークフロー630を示す流れ図を図示する。この実施形態の検出ワークフロー630としては、限定されるものではないが、以下のステップが含まれることがある。前記検出ワークフローは、1群のサンプル中のコンタミネーション(contamination)源内のコンタミネーション(contamination)を検出する。前記群内のサンプルを、疾患を診断するために、1人以上のヒトから取得する。前記ワークフローを、プロセシング・システム(例えば、プロセシング・システム200)が実装することがある。
【0174】
ステップ632では、前記システムは、解析ウィンドウを決定する。解析ウィンドウは、例えば、同様に取得した及び/又は処理したサンプルの全体セットからのサンプルのサブセットを定義する。例えば、前記解析ウィンドウは、サンプル・バッチからのサンプルのサブセット、又はバッチ・セットからのバッチのサブセット、であってもよい。他の実施形態では、前記解析ウィンドウは、(i)全サンプル・セットからのいくつかのサンプル、(ii)より長い期間のサンプル採取から得られた、ある期間のサンプル、(iii)いくつかの試験部位のうちのある試験部位に関連付けられたサンプル、(iv)ある試験機器に関連付けられたサンプル、など、であることがある。
【0175】
ステップ634では、前記システムは、前記解析ウィンドウ内の試験配列にアクセスする。例えば、前記システムは、5日間のウィンドウ内で取得した、全てのサンプルにアクセスすることができる。別の実施形態では、前記システムは、いくつかのサンプル・バッチのうちの、特定のサンプル・バッチからの全てのサンプルにアクセスすることができる。
【0176】
ステップ636では、前記システムは、前記解析ウィンドウ内のサンプルからシークエンシング・データをクリーニング(又は前-処理)する、及び遺伝子型を中和する。例えば、データ・クリーニングには、非-情報があるSNPsをフィルタリングして除去するステップ、カバーされていないSNPsを除去するステップ、高いエラー頻度(例えば、>0.1%)を有するSNPsを除去するステップ、高いばらつきを有するSNPsを除去するステップ、閾値未満の深度を有するSNPsを除去するステップ、あらゆるヘテロ接合性SNPsを除去するステップ、カバーが低いSNPsを除去するステップ、及び高い異質性割合(heterogeneity rate)を有するあらゆるSNPsを除去するステップ、が含まれることがある。
【0177】
他の例では、全てのバリアント頻度データを、マイナー・アレル頻度(minor allele frequency)と線形的に比較することができる1つのスケールにするために、バリアント頻度が0.8から1.0であるホモ接合性代替SNPsを、無効にすることがある(例えば、バリアント頻度0.95は0.05になる)。更に、サンプル遺伝子型に基づいて、前記MAF値を無効にすることがある。
【0178】
他の例では、データ・クリーニングには、シークエンシング・データ中に示されるメチル化プロセスに基づいて、非-情報があるSNPsを除去するステップが含まれることがある。メチル化処理に基づいてデータをフィルタリングするステップを、以下でより詳細に説明する。
【0179】
ステップ638では、前記システムは、前記解析ウィンドウ中の各々のSNPについてのコンタミネーション(contamination)の事前確率を決定する。コンタミネーション(contamination)の事前確率は、例えば、セクションV.bに記載されているように、宿主サンプルの遺伝子型及びマイナー・アレル頻度(minor allele frequency)に基づく。ここで、前記「宿主」サンプルは、前記解析ウィンドウ内の1つ以上のサンプル、又はコンタミネーション(contamination)を有することが既知のサンプル、であることがある。そうするために、前記システムは、前記試験配列に尤度モデルを適用して、SNPsについてのコンタミネーション(contamination)の事前確率に基づいて、コンタミネーション(contamination)を決定する。前記尤度モデルは、本出願で記載される最大尤度推定を含むことがある。前記尤度モデルは、例えば、セクションV.cに記載されているように、第1及び第2の尤度検定を含むことがある。
【0180】
決定ステップ640では、前記システムは、前記解析ウィンドウ中の1つ以上サンプルがコンタミネーションを受けているかどうかを、決定する。前記試験配列が両方の尤度検定をパスする(pass)場合、前記システムは、前記解析ウィンドウ中のサンプルがコンタミネーションを受けていることを、決定する。前記試験配列が1つ以上の尤度検定で失敗する場合、前記システムは、前記解析ウィンドウ中のサンプルがコンタミネーションを受けていないことを、決定する。コンタミネーション(contamination)があれば、前記ワークフロー630はステップ642に進む、及びコンタミネーション(contamination)がなければ、前記ワークフローは終了する。
【0181】
ステップ642では、前記システムは、前記解析ウィンドウ内のコンタミネーションを受けている試験サンプルがコンタミネーション(contamination)源である、ということの尤度を決定する。そうするために、前記システムは、(マイナー・アレル頻度(minor allele frequency)ではなく)コンタミネーションを受けていると同定されたサンプルからの遺伝子型を用いて、前記尤度を決定する。このようにして、前記システムは、前記解析ウィンドウ内の特定のコンタミネーションを受けているサンプルが、前記解析ウィンドウ内の他のコンタミネーションを受けているサンプル中においての、コンタミネーション(contamination)に関する源であるかどうかを、決定することがある。
【0182】
ステップ644では、前記システムは、コンタミネーション(contamination)に関する可能性のある源を決定する。そうするために、前記システムは、前記解析ウィンドウ中の各々のコンタミ―ネーションを受けているサンプルがコンタミネーション(contamination)源である、ということの尤度をランク付けすることがある。前記システムは、そのランク付けしたリスト中の任意の個数のサンプルがコンタミネーション(contamination)源であると決定することがある(例えば、上位3個、閾値を上回る尤度を有するサンプル、など)。それに応じて、前記システムは、そのコンタミネーションを受けている試験配列を除去することがあり、その結果、それらを、前記システムは、更に解析しない。更に、前記システムは、その決定されたコンタミネーション(contamination)に関する可能性のある源を利用して、存在するコンタミネーション(contamination)の体系的な源を理解し、それらの源が存在する場合には、それらを除去することがある。
【0183】
V.F サポーティング・データ
図7Aは、コンタミネーション(contamination)事象について、所与のサンプル対についての情報があるSNPsの例数を示す、情報があるSNP頻度プロット700である。12174個のSNPsの例示的なセットでは、約700個のSNPsが情報のあるSNPsである。即ち、例えば、前記SNPsは、前記宿主においてホモ接合性であり、コンタミネーション物において異なる遺伝子型である。
【0184】
図7Bは、コンタミネーション(contamination)源事象についての、情報があるSNPスパイダー・プロット710である。SNPスパイダー・プロット710では、x-軸は、SNPs(それらの源尤度によって振るい分けしたSNPs)である、及びy-軸は、実際のコンタミネーション(contamination)尤度値である。正方形のデータ・ポイントは、試験をするコンタミネーション(contamination)に関する可能性のある源を表す、及び三角形のデータ・ポイントは、集団の平均尤度を表す。各々のSNPについてのMAFを、凡例に従って、三角形及び正方形のアイコンの色によって、示す。SNPスパイダー・プロット710内で、前記プロットの上部セクションは、コンタミネーション(contamination)についての正の根拠を有するSNPsを表す、及び下部セクションは、コンタミネーション(contamination)についての負の根拠を有するSNPsを表す。
【0185】
SNPスパイダー・プロット710は、SNP毎に、試験サンプルがコンタミネーション(contamination)源である、ということの尤度を示す。このSNPスパイダー・プロット710では、正の尤度、及び負の尤度の急激な低下は、真の正のコールの方向を指す。(上位数の候補のうちの)他の候補について、この時間のプロットを調べることによって、前記コントロール・システムは、どのようにして、前記SNPが、コンタミネーション(contamination)源であり得る他の考えられるSNPsと、比較するか、を理解することができる。前記尤度は、可能性のあるコンタミネーション(contamination)源として同定された上位3つのサンプルの遺伝子型に基づく。前記スパイダー・プロットは、源仮説を支持するSNPs、及び否定するSNPs、を示す。
【0186】
図8は、2718個のSNPsを含む第1のSNPセット(「以前の(Previous)」、実線で示す)、及び12174個のSNPsを含む第2のSNPセット(「拡張した(Expanded)」、破線で示す)、についての、各々の頻度ビンについての、SNPsの数を示す、SNP頻度プロット800である。このSNPセットについてのマイナー・アレル頻度(minor allele frequency)は、約10
-3から約1までの範囲である。前記データは、SNPセット中のSNPsのほとんどが、より低い頻度範囲にあることを示す。
【0187】
図9は、集団マイナー・アレル頻度(minor allele frequency)(MAF)に基づく、情報があるSNPsの予想される検出力を示す、予想される検出力プロット900である。その予想される検出力は:
検出力= n x ((1 - p)
2 x (1 - (1 - p)
2+ p
2 x (1 - p
2)
である、ここで、pは、MAFである、及びnは、MAFビン中のSNPsの数である。前記データは、最も高い検出力は、より高いMAFを有するSNPsについてのものであることを示す。転移(transition)(破線)は、プリン塩基(A、G)間、又はピリミジン塩基(C、T)間の置換に対応する、一方、転換(transversion)(実線)は、プリン塩基とピリミジン塩基の交換である。
【0188】
V.G 検出限界
コンタミネーション(contamination)検出ワークフロー400の検出限界(limit of detection (LOD))を決定するために、2つのクリーンなサンプルを、様々なコンタミネーション(contamination)レベル(50%から0.01%のコンタミネーション(contamination)レベルαまでの範囲)で、in silicoで混合した。ここで、前記検出限界は、特異性が95%を超える、最も低いコンタミネーション(contamination)レベルであると考えられる。
【0189】
図10は、検出ワークフロー400(例えば、ワークフロー600)を使用して得られたコンタミネーション(contamination)検出限界を示す検出限界プロット1000である。プロット1000において、x-軸はコンタミネーション(contamination)レベルである、及びy-軸は検出率である。検出ワークフロー400についての検出限界を、コンタミネーション(contamination)検出のためのロバスト線形回帰モデルの検出限界と比較した(例えば、「シークエンシング・データにおけるクロス-コンタミネーション(contamination)の検出(Detecting cross contamination in sequencing data)」と題する、米国特許出願第62/460,268号を参照されたい)。プロット1000は、コンタミネーション(contamination)検出ワークフロー600を用いて得られた検出率に関する線910を示す。コンタミネーション(contamination)検出ワークフロー500を用いたLODは、約0.1%のコンタミネーション(contamination)レベルである。プロット1000はまた、ロバスト線形回帰モデルを使用して得られた検出率に関する線1015を示す。線形回帰モデルを用いたLODは、約0.2%のコンタミネーション(contamination)レベルである。
【0190】
VII. コンタミネーション(Contamination)検出の検証
検出ワークフロー400を、3-ステップ・プロセスを使用して、検証した。
図11は、コンタミネーション(contamination)検出ワークフロー400(例えば、ワークフロー600)を検証するための、方法1100の例を示す。検証方法1100には、限定されるものではないが、以下のステップが含まれることがある。
【0191】
ステップ1110では、各々のSNPについてのバックグラウンド・ノイズ・ベースラインを、1セットの正常な訓練サンプル(例えば、80個の正常な、コンタミネーションを受けていないサンプル)を使用して、生成する。前記ノイズ・ベースラインは、各々のSNPについて予想されるノイズの推定を提供する、及びコンタミネーション(contamination)事象をバックグラウンド・ノイズ信号から区別するために使用される。ノイズ(コンタミネーション(contamination))ベースラインの生成については、
図19を参照して更に詳しく説明する。
【0192】
ステップ1115では、5倍のクロス-検証プロセス(5-fold cross-validation process)を、実行する。例えば、24個の正常サンプル及びin silicoタイトレーション(in silica titration)におけるデータセットを、検証セット及び訓練セットに分割する。ここで、前記コンタミネーション(contamination)レベルは、0.05%から50%までの範囲である。前記訓練セットを使用して、検出ワークフロー400を訓練する、及び通常のバックグラウンド・ノイズに対して、コンタミネーション(contamination)事象をコールするステップのための閾値を設定する。即ち、検出ワークフロー400は、各々の閾値についての種々の閾値、及びSNPのリピート、を含むことがある。次に、前記閾値を、前記検証セットで試験する。このプロセスを合計10回繰り返し、コンタミネーション(contamination)事象をコールするステップのための、最終的な閾値及びLODを同定する。
【0193】
ステップ1120では、前記最終的な閾値及びLODを、実際のデータセット(例えば、がん患者サンプルからのcfDNAデータセット)上で、試験をする。
【0194】
図12は、レシーバ演算特性(receiver operating characteristic (ROC))プロット1200(これは、閾値評価のためのクロス-検証中に生成されたROC曲線1210の一例を示す)である。プロット1200では、x-軸は、特異性である、及びy-軸は、感度である。ROCカーブ1210上の「x」1215は、最適な閾値が適用されたときに観察される感度及び特異性レベルを示す。この例では、前記最適な閾値(これは、95%を超える特異性及び最も高い感度を有する)は70であった、及びターゲット特異性レベルは0.97であった。
【0195】
VIII. サンプルにおけるヘテロ接合性の喪失
ヘテロ接合性の喪失(Loss of heterozygosity (LoH))は、1片又は全染色体の獲得又は喪失をもたらし、一方で、他の染色体は無傷のままであり、ヘテロ接合部位でのアレル・バランス(allelic balance)の喪失を引き起こす、DNA中に発生する事象である。場合によっては、アレル・バランスがもはや1:1ではない場合、前記染色体は無傷のままではないが、依然としてLoHを示す。より単純に説明すると、ヒトDNAは、各々の染色体対から1つずつ、2コピーのゲノムを含んでいる。前記ゲノム中の位置の大部分について、各々のコピー中に存在する塩基は、染色体間で一致している;しかし、わずかな割合で、参照染色体とは異なった塩基(例えば、SNP)を含むことがある。一般的に、染色体対からのコピーは、バランスがとれている。しかしながら、場合によっては、ある領域の1つの染色体対のコピーが、獲得される、又は失われる、その結果、染色体のうちの1つに関して、より少ないコピー、又は余分なコピー、を有する領域が生じる。この染色体間のバランスが失われると、前記領域は、ヘテロ接合性が失われていると言われる。
【0196】
LoHは、がんでよく発生する、及びLoHを、早期のがん検出に使用することができる。コピー対の欠失により、LoHを、アレルのホモ接合性状態として、読み取ることがある。しかしながら、LoHは、実際のホモ接合性状態(これは、細胞中に2つの同一のアレルの存在を必要とする)を、必ずしも意味するわけではない。特に、LoHは、ヘテロ接合性サンプルとホモ接合性サンプルとの間に、アレル状態を作り出す(正常なサンプルが混じったがんサンプルをシークエンシングする場合)。この場合、ヘテロ接合性からの逸脱が十分に高ければ、前記アレルは、尤度モデルについて、コンタミネーションを受けているホモ接合性状態として、見える。従って、サンプルにおけるLoHは、ホモ接合性SNPsのアレル頻度(allele frequency)に基づいて、コンタミネーション(contamination)検出ワークフロー(例えば、ワークフロー400及び500)において、偽陽性を生成することがある。即ち、(LoHを介する)がんの指標であるホモ接合性SNPsは、サンプル・コンタミネーション(contamination)の指標であることもある。従って、コンタミネーション(contamination)検出ワークフローを実行する前に、サンプルから、LoHによって引き起こされるホモ接合性SNPsを除去することは、有益である。
【0197】
VIII.A サンプルにおけるヘテロ接合性の喪失を決定するステップ
1つの実施形態では、前記コンタミネーション(contamination)検出ワークフロー400はまた、ヘテロ接合性の喪失を伴うサンプルを含むコンタミネーション(contamination)を、検出することがある。コンタミネーション(contamination)を検出する場合、前記コンタミネーション(contamination)検出ワークフローは、前記サンプルのSNPsが、ヘテロ接合性の喪失を示す、ということの確率を計算する、及びその検出されたSNPsを前記サンプルから除去する。
【0198】
サンプルのSNPsがヘテロ接合性の喪失を含むかどうかを決定するために、前記コンタミネーション(contamination)検出ワークフロー400は、LoH尤度検定を実行することがある。前記LoH尤度検定は、前記サンプルのSNPsが、コンタミネーション(contamination)ではなく、LoHを示す、ということの尤度を決定する。前記LoH尤度検定は、帰無仮説、第1の仮説、及び第2の仮説、を含む。
【0199】
帰無仮説Hoは、マイナー・アレル深度AD及び全深度DPを観察する確率を表し、ヘテロ接合性レベルγであるヘテロ接合性の喪失が無いことを示す(P(AD|DP,γ))。即ち、前記帰無仮説Hoは、観察されるマイナー・アレルの数が、ヘテロ接合性を示す、ということの確率、を示す。一般に、ヘテロ接合性レベルγは、0.5である、しかし、任意の他の値であることがある。ここで、前記染色体がバランスをとれている場合、前記ヘテロ接合性レベルは、参照アレルの割合である。1つの構成では、LoHが無いことを示すマイナー・アレル深度を観察する確率を、AD、DP、及びヘテロ接合性レベルγに基づく、二項分布によって表すことができる。従って、帰無仮説Hoを、以下のように書くことができる:
【数14】
ここで、ADは、マイナー・アレル深度である、DPは、(メジャー・アレル及びマイナー・アレルの両方、又は「集団」の)全深度である、γは、ヘテロ接合性レベルである、及びdbinomは、二項分布関数である。
【0200】
第1の仮説H
1は、ヘテロ接合性の喪失レベルΔでのLoH、を示すマイナー・アレル深度MADを観察する確率を表す。即ち、前記第1の仮説H
1は、観察されるマイナー・アレルの数が、LoHレベルΔでのLoHを示す、ということの尤度を示す。1つの例では、Δは、本出願に記載される最尤モデルを使用した推定から経験的に決定される値、である。1つの構成では、LoHを示す、マイナー・アレル深度を観察する確率を、MAD、AD、ヘテロ接合性レベルγ、及び試験したLoHレベルΔ、に基づいて、二項分布によって表すことができる、従って、前記第1の仮説を、以下のように書くことができる:
【数15】
ここで、ADは、マイナー・アレル深度である、及びDPは全深度である、γは、ヘテロ接合性レベルである、dbinomは、二項分布関数である、及びΔは、LoHレベルである。
【0201】
第2の仮説H
2は、所与のコンタミネーション(contamination)レベルαのサンプルで、マイナー・アレル深度ADを観察する確率を表す。即ち、第2の仮説H
2は、観察されるマイナー・アレルの数が、レベルαで、コンタミネーション(contamination)を示す確率を与える。1つの構成では、レベルαで、コンタミネーション(contamination)を示すマイナー・アレル深度ADを観察する確率は、コンタミネーション物の遺伝子型に基づいて、前記サンプルがコンタミネーションを受けている、ということの確率(cP)から情報を得る。
【数16】
【数17】
ここで、ADは、マイナー・アレル深度である、及びDPは、全深度である、γは、ヘテロ接合性レベルである、Δは、LoHレベルである、及びcPは、コンタミネーション(contamination)確率である。
【0202】
LoH尤度検定L
LoHは、前記集団の各々のSNPについて、第2の仮説を、第1の仮説と比較する。所与のSNPについて、前記第1の仮説H
1から第2の仮説H
2を引いた値が閾値を上回る場合、前記SNPを前記集団から除去してから、前記サンプルがコンタミネーションを受けているかどうかを決定する、そうではない場合、前記SNPを前記集団内に残す。即ち、前記SNPがコンタミネーション(contamination)よりもLoHを含む可能性がより高い場合、前記SNPを前記集団から除去する。前記LoH尤度検定を、次式で表すことができる:
【数18】
ここで、L
LoH(i)は、各々のSNPiについて取られたLoH尤度検定を表す、H
2は、第2の仮説である、H
1は、第1の仮説である、及びφは、閾値である。1つの例示的な実施形態では、閾値φを、コンタミネーション(contamination)検出のためのシミュレーション試験から決定するが、任意の他の解析に基づいて、決定することがある。いくつかの場合では、前記LoH尤度検定を、染色体の大きな部分を表すSNPsのセットに対して、実施する。
【0203】
図13は、LoH尤度検定L
LoHを使用して、サンプル中のLoHを決定するために使用される、例示的な確率分布に関する、確率分布プロット1300、を示す。X-軸は、サンプルについてのアレル深度である、及びy-軸は、尤度検定L
LoHの仮説について決定した確率である。線1310は、前記サンプルがヘテロ接合性の喪失又はコンタミネーション(contamination)を含まない、という帰無仮説に関する、確率分布を示す。或いは、線1310は、正常なヘテロ接合性を示すサンプル中のいくつかのリードを観察する確率である。線1320は、前記サンプルが所与のLoHレベルΔでのヘテロ接合性の喪失を含むという第1の仮説H
1の確率分布を表す。即ち、線1320は、前記サンプル中にヘテロ接合性の喪失を示すリードを含む、前記サンプル中のいくつかのリードを観察する確率、を表す。線1330は、前記サンプルが、コンタミネーション(contamination)レベルαで、コンタミネーション(contamination)確率cPで、コンタミネーションを受けているという第2の仮説H
2に関する、確率分布を示している。即ち、線1330は、コンタミネーション(contamination)レベルαで、コンタミネーション(contamination)を示すサンプル中のいくつかのリードを観察する確率、を表す。
【0204】
図14A及び
図14Bは、コンタミネーション(contamination)確率cP、ヘテロ接合性の喪失レベルΔ、及びコンタミネーション(contamination)レベルαについて、種々の値を用いた、帰無仮説H
0(線1412)、第1の仮説H
1(線1414)及び第2の仮説H
2(赤線1416)、についての確率分布に関する、確率分布プロットを示す。プロット1410は、0.9というコンタミネーション(contamination)確率cP、0.2というLoHレベルΔ、及び0.2というコンタミネーション(contamination)レベルα、である確率分布を示す。プロット1420は、0.1というコンタミネーション(contamination)確率cP、0.2というLoHレベルΔ、及び0.2というコンタミネーション(contamination)レベルα、である確率分布を示す。前記サンプルの各々のSNPに対して、LoH尤度検定L
LoHは、第1の及び第2の仮説に対する確率分布を比較する。LoH確率(H
1)とコンタミネーション(contamination)確率(H
2)との間の差異が閾値を上回る
【数19】
サンプルのSNPsに対して、LoH尤度検定L
LoHは、前記解析に基づいて、可能性のあるLoH SNPs(又はLoH SNPsを含む配列)を除去することがある。
【0205】
VIII.B 負の2項分布
上述の負の二項分布を、ヘテロ接合性の喪失の試験に適用することもある。即ち、帰無仮説は、第1の仮説は、及び第2の仮説は、以下である:
【数20】
【数21】
【数22】
ここで、前記変数を、上記と同様に定義する。
【0206】
従って、LoH尤度検定L
LoHを、更に使用して、試験サンプルLoHに基づいてサンプルをフィルタリングすることがある。L
LoHは、前記集団の各々のSNPについて、更に、第2の仮説を、第1の仮説と比較する。従って、L
LoHを、次式で更に表すことができる:
【数23】
ここで、前記変数を、上記と同様に定義する。L
LoH(i)は、各々のSNPiについて取られたLoH尤度検定を表す、H
2は、第2の仮説である、H
1は、第1の仮説である、及びφは、閾値である。1つの例示的な実施形態では、閾値φを、コンタミネーション(contamination)検出のためのシミュレーション試験から決定するが、任意の他の解析に基づいて決定することがある。いくつかの場合では、前記LoH尤度検定を、染色体の大きな部分を表すSNPsのセットに対して、実施する。
【0207】
図14Cは、負の二項分布を使用するヘテロ接合性の喪失のモデルを、二項分布を使用するものと比較する、確率比較プロット1430を示す。確率比較プロット1430では、x-軸は、情報があるSNPsに関する、順序付けしたリストを提供する、及びy-軸は、尤度検定に基づいて、それらのSNPsについて、ヘテロ接合性の喪失をコールする確率である。確率比較プロットは、負の二項分布1434、及び二項分布1432についての分布線を有する。閾値1436は、閾値未満の確率を有するSNPsは考慮されないこと、を示す。ここで、前記負の二項分布は、前記二項分布に代わる、より高いばらつきを提供する。
【0208】
VIII.C LoH尤度検定を用いたコンタミネーション(Contamination)検出
偽陽性をコールすることなく、コンタミネーション(contamination)とノイズとを区別できることは、重要なことである。ワークフロー1500を含む検出ワークフロー400は、前記サンプル中のLoHを検出するステップ、及びコンタミネーション(contamination)検出の精度を改善するために、LoHを含むサンプルをフィルタリングするステップ、を含むことがある。
【0209】
図15は、1つの実施形態に従って実行される、コンタミネーション(contamination)を検出するステップのためのワークフロー1500に関する、流れ図を図示する。この実施形態のコンタミネーション(contamination)検出方法は、限定されるものではないが、以下のステップを含む。
【0210】
ステップ1510では、前記シークエンシング・データをクリーン・アップする、及び
図6中のワークフロー600のクリーン・アップ610ステップと同様に、遺伝子型を正規化する。
【0211】
ステップ1515では、前記ワークフローは、
図6のステップ615と同様に、コンタミネーション物の遺伝子型に基づいて、各々のSNPについて、コンタミネーション(contamination)の事前確率を計算する。
【0212】
ステップ1520では、ヘテロ接合性の喪失の尤度検定を実施して、LoHを含むSNPsを決定する。LoH尤度検定は、前記SNPsについて、LoHレベルΔ、コンタミネーション(contamination)レベルα、及びコンタミネーション(contamination)の事前確率cP、に基づく。
【0213】
ステップ1525では、コンタミネーション(contamination)よりもヘテロ接合性の喪失を含む可能性が高いSNPsを、前記集団から除去する。場合によっては、除去した場合、各々のSNPについて、尤度の差が閾値レベルを上回る。
【0214】
ステップ1530では、バックグラウンド・ノイズ・モデルは、健常サンプルにわたるSNPsの平均アレル頻度(allele frequency)から計算されたバックグラウンド・ノイズ・ベースラインを生成する。前記バックグラウンド・ノイズ・モデルは、ノイズ係数を生成し、これは、SNPsの各々について予想されるノイズを推定する。
【0215】
前記ノイズ・モデルを生成した後、前記ワークフロー1500は、
図6のワークフロー600と同様に進む。即ち、検出ワークフロー1500は、尤度検定を使用してデータに最大尤度推定を適合させる(1535)、コンタミネーション(contamination)を検出する(1540)、及び検出ワークフロー600の対応するステップと同様に、コンタミネーション(contamination)に関する可能性のある源を同定する(1545)。
【0216】
特に、ワークフロー1500中のこれらのステップを、LoHを含む配列を除去した、SNPsの集団を使用して実行する。結果として得られるコンタミネーション(contamination)検出1540は、
図6のワークフロー600よりも高い特異性を達成する。
【0217】
IX. LoH検出によるコンタミネーション(CONTAMINATION)検出の検証
IX.A in vitroタイトレーション(In-Vitro Titration)
図16は、検出ワークフロー1500の検証を示す検証プロットである。ここで、in vitroタイトレーションを使用して、35個のサンプルのターゲット化した配列に、コンタミネーション(contamination)を導入する。7つのコンタミネーション(contamination)レベル(0.00%、0.01%、0.025%、0.05%、0.1%、0.6%及び0.8%)を、各5つのサンプルに導入する。前記検出ワークフロー1500を、前記35個のサンプルに適用して、コンタミネーション(contamination)をコールする、及びコンタミネーション(contamination)レベルを決定する。プロット1600のx-軸は、タイトレーションによってサンプルに導入する、予想されるコンタミネーション(contamination)レベルである、及びy-軸は、検出ワークフローが決定する、決定したコンタミネーション(contamination)レベルである。前記プロット1600上の点線1610は、前記予想されるコンタミネーション(contamination)レベルが、検出されたコンタミネーション(contamination)レベルと同等である場所を示す。プロット1600上のデータ・ポイントは、検出ワークフロー1500が決定したコンタミネーション(contamination)レベルを示す。この場合、前記検出ワークフロー1500は、97.1%(この例では、34/35)という特異性で、コンタミネーション(contamination)をコールする。前記コンタミネーション(contamination)検出におけるエラーを、二乗平均平方根エラーを用いて、0.0006として、測定した。
【0218】
当該技術分野で知られている3つの代替的なコンタミネーション(contamination)ワークフローを使用して、前記サンプル中のコンタミネーション(contamination)を測定した。3つの代替的なワークフローには、以下が含まれる:1) Cibulskis, K. et. al., Bioinformatics, 2011による「ContEst:次世代シークエンシング・データにおけるヒト・サンプルのクロス-コンタミネーション(Contamination)を推定する」(“ContEst: estimating cross-contamination of human samples in next-generation sequencing data”)(本出願では「ContEst」と称する);2) Jun, G. et. al., American Journal of Human Genetics, 2012による「シークエンシング・データ中の、及びアレイ-ベースの遺伝子型データ中の、ヒトDNAサンプルのコンタミネーション(Contamination)を検出する、及び推定する」(“Detecting and Estimating Contamination of Human DNA Samples in Sequencing and Array-Based Genotype Data”)(本出願では、「VerifyBamID」と称する);及び3) Bergmann, E.a. et. al., Bioinformatics, 2016による「Conpair:対応させた腫瘍-正常対についての、一致及びコンタミネーション(Contamination)推定器」(“Conpair: concordance and contamination estimator for matched tumor-normal pairs”)(本出願では「Conpair」と称する)。3つの検出ワークフローのRMSEエラーは、それぞれ0.001、0.03、及び0.003、であった。
【0219】
図17A-17Cは、ワークフロー1500と3つの代替的なワークフロー1-3との間の、検出されたコンタミネーション(contamination)レベルにおける差異を図示する、比較プロットである。
図17A-17Cでは、ワークフロー1500についての検出されたコンタミネーション(contamination)レベルはx-軸である、及び代替的なワークフローについての検出されたコンタミネーション(contamination)レベルはy-軸である。点線は、ワークフロー1500と代替的なワークフローとの間で、コンタミネーション(contamination)が同等に検出されたことを、視覚的に支援して表す。
【0220】
プロット1710では、代替的なワークフローは、ContEstである。プロット1710は、ContEstは、0.01%未満のコンタミネーション(contamination)を検出することができないことを、図示する。線1712は、ContEst及びコンタミネーション(contamination)検出ワークフロー1500がコンタミネーション(contamination)を等しく検出する場所を、示す。更に、検出したコンタミネーション(contamination)レベルが0.5%未満ではエラーが大きい。プロット1720では、代替的なワークフローは、VerifyBamIDである。線1722は、VerifyBamID及びコンタミネーション(contamination)検出ワークフロー1500がコンタミネーション(contamination)を等しく検出する場所を、示す。前記プロットは、VerifyBamIDが0.01%未満のコンタミネーション(contamination)を検出できないことを、図示する。更に、0.025%未満のコンタミネーション(contamination)レベルは、時々、異常に大きなコンタミネーション(contamination)レベルをコールすることがある。プロット1730では、代替的なワークフローは、Conpairである。線1732は、Conpair及びコンタミネーション(contamination)検出ワークフロー1500がコンタミネーション(contamination)を等しく検出する場所を、示す。プロット1730は、Conpairが、一般に、ワークフロー1400によって決定したコンタミネーション(contamination)レベルよりも低いコンタミネーション(contamination)レベルを決定することを、図示する。
【0221】
IX.B 1000ゲノムのデータ(1000 GENOMES DATA)由来の非-がんサンプル
図18A-18Bは、検出ワークフロー1500、並びに代替的なワークフロー2及び3、によるコンタミネーション(contamination)コールに関する比較を示す、比較プロットである。前記検出ワークフロー及び代替的なワークフローを、1000ゲノム・プロジェクトに由来する63個のCEUサンプルに適用し、前記サンプルがコンタミネーションを受けているかどうか、及びどのコンタミネーション(contamination)レベルで前記サンプルがコンタミネーションを受けているか、を決定する。ここで、前記サンプルは、がんを含まないことが既知である。黒丸は、代替的なワークフロー及び検出ワークフロー1500の両方によって検出されたコンタミネーション(contamination)事象である。白丸は、検出ワークフロー1500によって検出された、且つ前記代替的なワークフローによっては検出されなかった、コンタミネーション(contamination)事象である。x-軸は、コンタミネーション(contamination)ワークフロー1500によって検出されるコンタミネーション(contamination)レベルである、及びy-軸は、代替的なワークフローによって検出されるコンタミネーション(contamination)レベルである。線1812は、同等に検出されたコンタミネーション(contamination)レベルを表す、及び線1814は、決定したコンタミネーション(contamination)レベルに関する線形適合を表す。
【0222】
プロット1810は、代替的なワークフロー1を検出ワークフロー1500と比較する。プロット1810は、コンタミネーション(contamination)レベルが~0.2%を超える場合、両方のワークフローが同様のコンタミネーション(contamination)事象をコールすることを、図示する。更に、ContEstは、ワークフロー1400と比較した場合に、検出されたコンタミネーション(contamination)レベルを、過大評価する。プロット1820は、代替的なワークフロー2を検出ワークフロー1400と比較する。プロット1820 は、コンタミネーション(contamination)レベルが~0.1% を超える場合、両方のワークフローが同様のコンタミネーション(contamination)事象をコールすることを、図示する。更に、VeirifyBamlDは、ワークフロー1500と比較した場合、検出されたコンタミネーション(contamination)レベルを、僅かに過小評価する。
【0223】
IX.C 腫瘍由来のがんサンプル
図19A-19Cは、検出ワークフロー1400及び代替的なワークフロー1-3による,コンタミネーション(contamination)コール及び検出されたコンタミネーション(contamination)レベルの比較を示すプロットである。前記検出ワークフロー及び代替的なワークフローを、エクソーム配列データからの120個の腫瘍サンプルに適用して、前記サンプルがコンタミネーションを受けているかどうか、及びどのコンタミネーション(contamination)レベルで, 前記サンプルがコンタミネーションを受けているか、を決定する。ここで、全てのサンプルは、がんを含むことが既知である。x-軸は、コンタミネーション(contamination)ワークレベル1500によって検出されるコンタミネーション(contamination)レベルである、及びy-軸は、代替的なワークフローによって検出されるコンタミネーション(contamination)レベルである。線1912は、同等に検出されたコンタミネーション(contamination)レベルを表す。
【0224】
プロット1910は、代替的なワークフロー1を検出ワークフロー1500と比較する。プロット1910は、代替的なワークフロー1が、ワークフロー1500と比較して、コンタミネーション(contamination)レベルを過大評価することを、図示する。更に、ContEstは、~2%未満でコンタミネーションを受けているサンプルを、大幅に過小評価する。プロット1920は、代替的なワークフロー2を検出ワークフロー1500と比較する。プロット1920は、代替的なワークフロー2が、ワークフロー1500と比較して、コンタミネーション(contamination)レベルを過大評価することを、図示する。更に、VeirifyBamIDは、~1%未満のコンタミネーション(contamination)レベルを有するいくつかのサンプルを、大幅に過大評価する。プロット1930は、代替的なワークフロー3が、0.2%と2.0%との間のコンタミネーション(contamination)レベルであるサンプルにおいて、同様のコンタミネーション(contamination)レベルを決定することを、図示する。しかしながら、Conpairは、一般的に、その範囲のコンタミネーション(contamination)レベル外のコンタミネーション(contamination)レベルを、過小評価する。
【0225】
X. バックグラウンド・ノイズ・ベースライン
コンタミネーション物の信号とノイズとを区別することは、重要なことである。バックグラウンド・ノイズ・ベースラインを使用して、各々のSNPのシークエンシング中に生成される静的ノイズを区別することができる。前記バックグラウンド・ノイズは、バリアントの配列文脈からのものであることがある;ある領域はより高いノイズ・レベルを有するし、ある領域はより低いノイズ・レベルを有する。1つの実施形態では、前記ノイズ・ベースラインを、健常サンプルにわたる、複数のSNPsについて観察される平均アレル頻度(allele frequency)から決定することがある。
【0226】
前記バックグラウンド・ノイズ・ベースラインは、複数の正常の(コンタミネーションを受けていない)サンプルにわたって、予想されるノイズに基づく、各々のSNPについてのノイズ・ベースラインである。上述のように、前記バックグラウンド・ノイズ・ベースラインを、ベースライン・バッチ構成要素420のバックグラウンド・ノイズ・モデルの中で、捕捉することができる。更に、コンタミネーション(contamination)ノイズ・ベースラインを生成するステップを、本出願で記載する様々なコンタミネーション(contamination)検出方法の何れにおいても(例えば、
図4のワークフロー400、
図6のワークフロー600、及び
図15のワークフロー1500)、使用することができる。
【0227】
1つの実施形態では、コンタミネーション(contamination)ベースラインを決定するステップは、ホモ接合性サンプル遺伝子型についてのエラーに起因するノイズ・レベルを観察する確率に基づくことがある。
【0228】
X.A バックグラウンド・ノイズ・ワークフロー
図20は、コンタミネーション(contamination)ノイズ・ベースラインを生成する、例示的なワークフロー2000の流れ図を図示する。ワークフロー2000は、限定されるものではないが、以下のステップを含むことがある。
【0229】
ステップ2010では、各々のSNPについてのバリアント・アレル頻度(allele frequency)を、1セットの正常ベースライン・サンプル(n = 80の正常サンプル)からのパイルアップ・ファイル(pileup file)から収集する。
【0230】
ステップ2015では、サンプル中の各々のSNPについての遺伝子型をコールする。例えば、約25%から約75%までの範囲にわたるアレル頻度(allele frequency)を、ヘテロ接合性アレルとして、コールする;約25%未満のアレル頻度(allele frequency)を、ホモ接合性参照アレルとして、コールする、及び約75%超のアレル頻度(allele frequency)を、ホモ接合性代替アレルとして、コールする。
【0231】
ステップ2020では、ヘテロ接合性SNPsを除去する。
【0232】
ステップ2025では、各々のホモ接合性代替SNPの頻度を、1からこのアレル頻度(allele frequency)を差し引いて反転させる、例えば、99.9%アレル頻度(allele frequency)は0.1%になる。従って、このステップからのバリアント・アレル頻度(allele frequency)は、ノイズ頻度に対応する。
【0233】
ステップ2030では、その反転させた頻度に関して、0からの偏差を決定する、及びそのSNPについての「ノイズ」として同定する。
【0234】
ステップ2035では、各々のSNPについて、最も高いノイズを有する1つの外れ値サンプルを除去する。
【0235】
ステップ2040では、残りのサンプルを使用して、各々のSNPについての、ノイズ割合及び他の測定基準を計算して、ベースラインを生成する。いくつかの例示的な測定基準としては、ヘテロ接合性割合、ホモ接合性割合、並びにハーディ-ワインベルグ方程式(Hardy-Weinberg equation)及び観察されるノイズ頻度との整合性、が挙げられる。
【0236】
ステップ2045では、コンタミネーション(contamination)検出アルゴリズムを、生成したベースラインを使用して、ベースライン・サンプル上で実行する。
【0237】
決定ステップ2050では、ベースライン・サンプルの何れかが、コンタミネーションを受けているかどうかを決定する。「はい」の場合、ワークフロー200はステップ2055に進む。「いいえ」の場合、生成したベースラインは最終ベースラインになり、ワークフロー2000を終了する。
【0238】
ステップ2055では、コンタミネーションを受けているノイズ・ベースライン・サンプルを除去する、及びワークフロー2000はステップ2010に戻る。
【0239】
X.B バックグラウンド・ノイズ・データ
図21は、SNPsのノイズ割合の1例を示す、ノイズ割合プロット2100である。前記データは、SNPsの約半分(6189個のSNPs(53.71%))は、任意のエラーを有するサンプルの5%未満にあること、を示している。即ち、95%のサンプルSNPsを、期待値として、コールした。
【0240】
図22Aは、全てのSNPsと比較した情報があるSNPsに関する、MAF分布を示すSNP分布プロット2210である。示されるように、情報があるSNPsは、より高いMAFを有する。
【0241】
図22Bは、全てのSNPsと比較した情報があるSNPsのノイズ割合分布を示すSNP分布プロット2220である。示されるように、情報があるSNPsは、より高いノイズ割合を有する。
【0242】
図22は、3つの別々の研究(A、B、及びCと命名される)について生成されたコンタミネーション(contamination)(ノイズ)ベースラインの比較を示すベン
図2300である。本データは、ノイズの多いSNP部位(4934)は、様々なサンプル・セットにわたって一貫しており、何らかのランダム計算(ノイズ割合>0.05)によるものではないこと、を示している。
【0243】
図24は、25個のSNPsについてのバリアント・アレル頻度(variant allele frequencies)を示すバリアント・アレル頻度(variant allele frequency (VAF))プロットに関するパネル2400である。各々のSNPについて、24個のサンプルを評価した。観察されるバリアント・アレル頻度(allele frequency)における0からの逸脱は、ノイズを表す。SNPsのうちのいくつかは、サンプルにわたって、非常に高ノイズを有する、及び解析中にフィルタリングにより除去されることがある。
【0244】
以下の表2は、12174個のSNPsに関する例示的な開始セットについてのフィルタリング統計の例を示す。フィルタリングにより除去されたSNPsは、パイルアップ・ファイルにカバーされていない651個のSNPs、高いエラー頻度(0.1%を超える平均エラー)を有する57個のSNPs、高いばらつきを有する44個のSNPs、低いカバーの28個のSNPs、及び予想よりも高いヘテロ接合性割合(MAF)を有していた9個のSNPs、を含む。
【表2】
*いくつかのSNPsは、2つ以上のフィルタリングによって除去されることがある
【0245】
X.C コンタミネーション(Contamination)検出に際してのバックグラウンド・ノイズ
図6のコンタミネーション(Contamination)検出ワークフロー600を、ベースライン/正常サンプル・データセット(n = 84)を用いて、試験した。下表2は、コンタミネーション(contamination)検出方法200を用いて、ベースライン/正常データセットにおいて同定された、コンタミネーションを受けているサンプルの概要を示す。試験した84個のベースライン/正常サンプルのうち、4個のサンプルは、約0.1%のコンタミネーション(contamination)レベルで、コンタミネーションを受けていることがわかった。前記サンプルのうちの2個(B2_6_CR_l3、及びB6_14_W044216552592)について、コンタミネーション(contamination)に関する源を同定した(B2_5_W044216569928でコンタミネーションを受けているB2_6_CR_l3、及びB6_10_W044216575078でコンタミネーションを受けているB6_14_W044216552592)。ベースライン/正常サンプル・データセット中のコンタミネーションを受けているサンプルは、約0.2%のLODであるロバスト線形回帰モデルを用いて、検出されなかった。
【表3】
【0246】
X.D トリ-ヌクレオチド・コンテキスト・エラー(Tri-Nucleotide Context Error)
いくつかの実施形態では、前記システムは、サンプルにおけるSNPsのトリ-ヌクレオチド・コンテキストを説明するノイズ検出モデル(「TNCエラー・モデル」)を用いることがある。即ち、前記TNCエラー・モデルは、置換エラーそのもの自体ではなく、置換エラー及びその隣接ヌクレオチドについての、予想されるエラー割合を生成する。例えば、エラー・モデルは、試験サンプルにおけるAからGへの置換が、その置換エラーが集団において過去に発生したことに基づくエラーである、ということの尤度を、決定することがある。TNCエラー・モデルは、その隣接ヌクレオチド内のAからGへの置換(例えば、AAAからAGA、CACからCGC、など)がエラーである、ということの尤度を決定する、且つその決定は、その隣接ヌクレオチド内のその置換エラーが集団において過去に発生したことに基づく。TNCエラー・モデルによって、コンタミネーション(contamination)検出ワークフローにおいて置換エラーを検出する際の精度がより高くなる。
【0247】
図25Aは、トリ-ヌクレオチド・コンテキスト・エラー・プロット2500を図示する。トリ-ヌクレオチド・エラー・プロット2500では、y-軸は、特定のトリ-ヌクレオチド・コンテキスト・エラーについてのエラー割合である、及びx-軸は、置換エラーについてのトリ-ヌクレオチド・コンテキストを表す一連の棒である。x-軸上の棒は、色に従って群分けされていて、各々の色は特定の置換エラーを表す。このようにして、同じ色を有するx-軸上の棒は、その置換エラーについての異なるトリ-ヌクレオチド・コンテキストを表す。例えば、最も左のセットの棒は、AからCへの置換エラーについてのトリ-ヌクレオチド・コンテキスト(例えば、AAAからACA、CACからCCC、など)を表す。本プロットは、より細分化したレベルで、(コンタミネーション(contamination)ではなく)エラーを決定する、というTNCエラー・モデルの機能を示している。
【0248】
特に、ある特定のタイプの置換エラー(例えば、影を付けているバンド)は、他の置換エラーよりも高いエラー割合を有する。しかしながら、そのエラー・タイプ内では、置換エラーは、そのトリ-ヌクレオチド・コンテキストを条件として集めた全体よりも、はるかに低い割合で、発生する。例えば、最初に示したトリ-ヌクレオチド・コンテキスト・エラー2502は、このタイプの置換エラーである。
【0249】
逆の例も見られる。即ち、ある特定の置換エラーは、他の置換エラーよりも低いエラー割合を有する。しかしながら、そのエラー・タイプ内では、その置換エラーは、そのトリ-ヌクレオチド・コンテキストを条件として集めた全体よりも、はるかに高い割合で、発生する。例えば、2番目に示したトリ-ヌクレオチド・コンテキスト・エラー2504は、このタイプの置換エラーである。
【0250】
図25Bは、1つの例示的な実施形態による、トリ-ヌクレオチド・コンテキスト・エラー比較プロット2550を図示する。前記トリ-ヌクレオチド・エラー比較プロットでは、y-軸は、特定のトリ-ヌクレオチド・コンテキスト・エラーについてのエラー割合である、及びx-軸は、置換エラーについてのトリ-ヌクレオチド・コンテキストを表す一連の棒セットである。各々の棒セットは、CからAへの置換エラーに関する各々のトリ-ヌクレオチド・コンテキストについて、cfDNA及びWBC DNAについてのエラー割合を比較する。全ての置換型について、WBC DNAについてのエラー割合は、cfDNAのエラー割合よりも高い。
【0251】
図25Cは、1つの例示的な実施形態による、3つのコンタミネーション(contamination)検出プロットを図示する。前記コンタミネーション(contamination)検出プロットは、トリ-ヌクレオチド・コンテキスト・エラーを使用する、サンプルについての検出限界を図示する。これらのプロットでは、x-軸は、平均log尤度割合である、及びy-軸は、推定コンタミネーション(contamination)分率である。本データ点の色は、実際のコンタミネーション(contamination)分率を表す。コンタミネーション(Contamination)検出プロット2560A及び2560Bは、サンプル(このサンプルのコンタミネーション(Contamination)は、タイトレーションによって、サンプル中に導入されている)についてのデータを、マッピングする。コンタミネーション(Contamination)プロット2560Cは、臨床サンプルについてのデータを、マッピングする。
【0252】
本出願に図示するサンプル内で、トリ-ヌクレオチド・コンテキスト・エラー・プロセスは、0.4%でコンタミネーションを受けているサンプルの100%、及び0.2%でコンタミネーションを受けているサンプルの約50%、を検出することができた。トリ-ヌクレオチド・コンテキスト・エラー・プロセスは、0.1%及び0.05%でコンタミネーションを受けているサンプルを検出することができなかった。これを考慮すると、トリ-ヌクレオチド・コンテキスト・エラー・プロセスについての検出限界は、約0.3%である可能性がある。特に、臨床サンプルについて、有効なコンタ深度(conta depth)は、タイトレーション例よりも低く、これは、タイトレーション・データよりも大きい広がりによって示された。
【0253】
XI. 出力ファイル
図26Aは、試験した各々のベースライン/正常サンプルについての情報を含む、マイクロソフト(MS)エクセルで開いた、出力ファイル440の例に関する、スクリーンショット2600である。各行は、サンプルを表す。この例では、ロバスト線形回帰モデル及び
図2のコンタミネーション(contamination)検出方法200の両方を使用して、コンタミネーション(contamination)事象をコールした、及び遺伝子型確率を、尤度推定における事前確率として使用して、コンタミネーション(contamination)に関する源を特定した。前記線形回帰モデルについての出力データは、例えば、MAFpvalue、MAFcoef、Noisecoef、及びCall、を含む;コンタミネーション(contamination)検出方法200についての出力データ(最大尤度推定)としては、LhDiff、Lh、Lh0、Lhunif、MaxLh、及びLhCall、が挙げられる;並びに、コンタミネーション物の源を同定するための遺伝子型方法についての出力データとしては、bestGtSample、最良のGtMaxLh、及び最良のGtCall、が挙げられる。前記線形回帰モデル及びコンタミネーション(contamination)検出アルゴリズムを使用して、コンタミネーションを受けている、とコールされるサンプルは、カラムEの「コール(Call)」及びカラムKの「Lhコール(LhCall)」において、それぞれ「真(TRUE)」で示される。
【0254】
図26Bは、
図25の出力ファイル440(これは、ベースライン/正常サンプル・データセット中の2つのコンタミネーション(contamination)事象についての解析データを示す)の一部に関する、スクリーンショット2610である。サンプルB6_14_W044216552592(行85、囲み領域によって示す)のコンタミネーション(Contamination)は、線形回帰方法(カラムE「真(TRUE)」)及び検出ワークフロー500(カラムK「真(TRUE)」)によって、コールされた。尤度比(カラムF「LhDiff」)は、ゼロ・コンタミネーション(zero contamination)仮説と比較して、165であった。尤度推定における事前確率として遺伝型確率を用いて、遺伝子型B6_10_W044216575078のうちの1つは、318という尤度比(カラムL「bestGtLhDiff」)を与えた、これは、165という元の尤度比よりも有意に高い。この尤度比の違いから、B6_10_W044216575078サンプルがコンタミネーション物である、と結論付けることができる。
【0255】
サンプルB6_02_W044216564538(行73、破線の囲み領域によって示す)のコンタミネーション(Contamination)は、線形回帰方法を用いてコールされなかったが(カラムE「偽(FALSE)」)、コンタミネーション(Contamination)検出方法200を用いるとコールされた(カラムK「真(TRUE)」)。尤度比(カラムF「LhDiff」)は、ゼロ・コンタミネーション(zero contamination)仮説と比較して、219であった。元の尤度比から、B6_02_W044216564538サンプルは、コンタミネーションを受けているが、コンタミネーション(contamination)に関する源は、ベースライン/正常データセットについての遺伝子型データに基づいて、同定されなかった、と結論付けられる。即ち、この場合、161という遺伝子型尤度比は、219という元の尤度比よりも低い。
【0256】
図27A及び27Bは、それぞれ尤度プロット2710及び2720であり、ベースライン/正常サンプルB1_6_W044216569493及びB6_14_W044216552592についてのコンタミネーション(contamination)レベルの様々な仮説に関する、log-尤度プロット442を示す。
図27Aを参照すると、プロット2710は、サンプルB1_6_W044216569493に関して、様々な仮説レベルでのコンタミネーション(contamination)に関する尤度を、示さない。
図27Bを参照すると、プロット2720は、サンプルB6_14_W442l6552592のコンタミネーション(contamination)を示すピーク(「x」で示す)を、示す。
【0257】
上述のように、log-尤度プロット(例えば、
図27Aのプロット2710、及び
図27Bのプロット2720)は、
図4のコンタミネーション(contamination)検出ワークフロー400によって、出力として生成されることがある、及びコンタミネーション(contamination)事象を視覚化するための即時的な方法になることがある。
【0258】
XII. バイサルファイト変換に基づくフィルタリング
いくつかの実施形態では、前記コンタミネーション(contamination)検出ワークフローは、バイサルファイト変換の影響を最小限に抑えるために、コール・ファイル(例えば、コールされたSNPsなど)をフィルタリングすることがある。バイサルファイト変換は、配列中の核酸塩基のいくつかを改変する、及びコンタミネーション(contamination)検出についての偽陽性コールをもたらすことがある。より具体的には、バイサルファイト変換は、SNPにおけるTからCへの変換を引き起こす可能性があり、これはコンタミネーション(contamination)を不正確に検出する可能性をより高める。従って、コンタミネーション(contamination)検出ワークフロー400は、受け取った配列をフィルタリングする、及びコンタミネーション(contamination)事象を正確に反映するSNPsのみを含めることがある。バイサルファイト変換によって改変された可能性がある受け取った配列をフィルタリングすることによってもまた、コンタミネーション(contamination)検出ワークフロー400の検出限界も低下する。
【0259】
図示するために、例示的な実施形態では、コンタミネーション(contamination)検出ワークフローは、受け取った配列をフィルタリングして、AからTへの、及びTからAへのSNPsを有する配列のみを含めることがある。別の例では、コンタミネーション(contamination)検出ワークフローは、鎖特異的な様式で、SNPsを除去することがある。即ち、前記ワークフローは、メチル化エラーを示すフォワード(又はリバース)配列リード(sequence read)からそれらのSNPsを、ただ除去するだけであるが、一方で、コンタミネーション(contamination)事象をコールするために、対応するリバース(又はフォワード)配列リード(sequence read)を維持する。この場合では、どのSNPsが除去される、又は維持されるかは、コンタミネーション(contamination)検出ワークフローがアクセス可能なルール表中に示されていることがある。従って、前記ワークフローを実装するシステムは、前記ルール表にアクセスし、前記表中のルールに基づいて、シークエンシング・データ中のSNPsを除去することがある、又は維持することがある。
【0260】
XII.A 二重-鎖(dual-strand)バイサルファイト変換サンプルをフィルタリングするステップ
図28は、
図4のワークフロー400に従って実行される、二重-鎖(dual-strand)フィルタリング・ワークフロー2800を図示する流れ図を示す。この実施形態の二重-鎖(dual-strand)フィルタリング・ワークフロー2800は、限定するものではないが、以下のステップを含むことがある。前記二重-鎖(dual-strand)フィルタリング・ワークフローは、シークエンシング・データ(このシークエンシング・データは、前記シークエンシング・データに適用されるメチル化プロセスにおけるエラーに起因して、コンタミネーション(contamination)事象を不正確にコールすることがあるシークエンシング・データである)を除去する。前記ワークフローを、プロセシング・システム(例えば、プロセシング・システム200)が実装することがある。
【0261】
ステップ2810では、前記システムは、1セットの試験サンプルにアクセスする。例えば、前記システムは、サンプルにおける疾患の存在及び/又はタイプを決定するステップのために取得したサンプルに、アクセスすることがある。疾患の存在をコールするステップのためのサンプルを調製する際に、前記サンプルにバイサルファイト変換を行い、その結果、メチル化を使用して、疾患の存在を決定することができる。
【0262】
ステップ2820では、前記システムは、解析ウィンドウ中のサンプルからのシークエンシング・データをクリーニングする、及び遺伝子型を中和する。例えば、データ・クリーニングには、非-情報があるSNPsをフィルタリングして除去するステップ、カバーされていないSNPsを除去するステップ、高いエラー頻度(例えば、>0.1%)を有するSNPsを除去するステップ、高いばらつきを有するSNPsを除去するステップ、閾値未満の深度を有するSNPsを除去するステップ、あらゆるヘテロ接合性SNPsを除去するステップ、カバーが低いSNPsを除去するステップ、及び高い異質性割合(heterogeneity rate)を有するあらゆるSNPsを除去するステップ、が含まれることがある。本出願に記載される任意のクリーニング・ステップを適用することもある。
【0263】
ステップ2930では、前記システムは、前記シークエンシング・データをフィルタリングして、バイサルファイト変換プロセスにおけるエラーに起因してコンタミネーション(contamination)事象を示し得るシークエンシング・データを除去する。例えば、前記システムは、シークエンシング・データから全てのAからTへの、又はTからAへのSNPsを除去することがある、なぜなら、バイサルファイト変換プロセスの間にそれらの部位が非メチル化された可能性があるからである。
【0264】
ステップ2940では、前記システムは、前記試験サンプルついて、コンタミネーション(contamination)の確率を決定する。そうするために、前記システムは、例えば、コンタミネーション(contamination)検出ワークフロー600又はコンタミネーション(contamination)検出ワークフロー630を適用することがある。
【0265】
ステップ2940の後、前記ワークフローは終了する。
【0266】
図29は、バイサルファイト変換に基づいて、前記サンプルをフィルタリングした後の染色体中のSNPsの平均個数を図示する、サンプル分布プロット2900である。例えば、前記サンプルを、二重-鎖(dual-strand)フィルタリング・ワークフロー2800に従って、フィルタリングしてもよい。x-軸は、フィルタリング後の染色体中のSNPsの数である、及びy-軸は、その数のSNPsを含むサンプルの数である。ここで、閾値mapQは60である、及び閾値baseQは36である。Phredスケール品質値を、-10log10pとして計算する、ここで、pは、アライメント又は塩基が不正確であることに関する確率である。例えば、塩基が不正確である確率0.01を有する場合、対応するbaseQは20になる。MapQは、前記ゲノムのリピート構造を考慮する、及び低い値は、アラインメントが複数の候補位置を有し得ることを意味する。BaseQは、所与のシークエンシング・サイクルについて、前のサイクルからの位相エラーも考慮して、機器によって計算される、及び塩基コールにおける信頼度を表す。前記サンプル中の唯一のSNPsは、AからTへの、又はTからAへのSNPsである。これらの基準を満たすサンプル中のSNPsの平均数は、11,316である。
【0267】
図30A及び30Bは、バイサルファイト変換に関連するSNPsをフィルタリングする場合の、コンタミネーション(contamination)検出の検出限界における向上を示す、検証プロットである。この例では、前記フィルタリングを、二重-鎖(dual-strand)フィルタリング・ワークフロー2800に従って、行う。各々のプロットは、0.001%と0,1%との間の、一連のコンタミネーション(contamination)レベルによる、タイトレーション実験を示す。x-軸は、タイトレーション中に導入される、予想されたコンタミネーション(contamination)レベルである、及びy-軸は、測定されたコンタミネーション(contamination)レベルである。コンタミネーション(contamination)の検出限界を、各々のプロットにおいて、水平方向の破線として図示する。種々のアライメント・フィルタリング・パラダイムを使用するデータについて、プロット3010は、~1%という検出限界を示す、及びプロット3020は、検出限界~0.2%を示す。
【0268】
XII.A 単一-鎖バイサルファイト変換サンプルをフィルタリングするステップ
いくつかの実施形態では、前記システムは、二重-鎖サンプルではなく、単一-鎖バイサルファイト変換サンプルをフィルタリングすることがある。
【0269】
図31は、
図4のワークフロー400に従って実行される、二重-鎖(dual-strand)フィルタリング・ワークフロー3100を図示する、流れ図を示す。この実施形態の二重-鎖(dual-strand)フィルタリング・ワークフロー3100は、限定されるものではないが、以下のステップを含むことがある。前記二重-鎖(dual-strand)フィルタリング・ワークフローは、シークエンシング・データ(このシークエンシング・データは、前記シークエンシング・データに適用されるメチル化プロセスにおけるエラーに起因して、コンタミネーション(contamination)事象を不正確にコールすることがあるシークエンシング・データである)を除去する。前記ワークフローを、プロセシング・システム(例えば、プロセシング・システム200)が実装することがある。
【0270】
ステップ3110では、前記システムは、1セットの試験サンプルにアクセスする。例えば、前記システムは、サンプルにおける疾患の存在及び/又はタイプを決定するステップのために取得したサンプルに、アクセスすることがある。疾患の存在をコールするステップのためのサンプルを調製する際に、前記サンプルにバイサルファイト変換を行い、その結果、メチル化を使用して、疾患の存在を決定することができる。
【0271】
ステップ3120では、前記システムは、解析ウィンドウ中のサンプルからのシークエンシング・データをクリーニングする、及び遺伝子型を中和する。例えば、データ・クリーニングには、非-情報があるSNPsをフィルタリングして除去するステップ、カバーされていないSNPsを除去するステップ、高いエラー頻度(例えば、>0.1%)を有するSNPsを除去するステップ、高いばらつきを有するSNPsを除去するステップ、閾値未満の深度を有するSNPsを除去するステップ、あらゆるヘテロ接合性SNPsを除去するステップ、カバーが低いSNPsを除去するステップ、及び高い異質性割合(heterogeneity rate)を有するあらゆるSNPsを除去するステップ、が含まれることがある。本出願に記載される任意のクリーニング・ステップを適用することもある。
【0272】
ステップ3130では、前記システムは、フィルタリング・ルール表にアクセスする。前記フィルタリング・ルール表には、前記シークエンシング・データをフィルタリングするステップのための、1つ以上のフィルタリング・ルールセット、が含まれる。実装されると、ルールセットのルールによって、前記シークエンシング・データ中のSNPsは、それらのメチル化状態に基づいて、フィルタリングされる。一例では、前記ルール表には、フォワード・リード及びリバース・リードの両方についてのルールセットが、含まれる。ある場合では、前記ルール表には、フォワード・リード及びリバース・リードの両方に適用するルールセットが、含まれる。
【0273】
以下の表に、ルール表の例示的なルールセットを示す。他のルールセットも可能であるが、本出願では列挙しない。各々のルールセットは、参照アレル及び代替アレルについての、カラムを含む。前記カラムは、試験サンプル中の所与の位置でのSNPの核酸塩基を示す。参照アレルは、フォワード・リード又はリバース・リードの何れかに、位置する。代替アレルは、対応するリード上の同じ位置での核酸塩基である。対応するリードは、フォワード又はリバース参照リード上で、ポリメラーゼ連鎖反応によって生成されたものである。前記表はまた、コンタミネーション(contamination)事象をコールしたときに、前記アレルが除去される、又は維持される(例えば、カウントされない/カウントする)かどうかを示す、カラムも有する。
【0274】
表4は、試験サンプルのリバース・リードに適用されるルールセット、である。
【表4】
【0275】
表5は、試験サンプルのフォワード・リードに適用されるルールセット、である。
【表5】
【0276】
表6は、試験サンプルのフォワード・リード及びリバース・リードの両方に適用されるルールセット、である。
【表6】
【0277】
ステップ3140では、前記システムは、前記試験サンプルについて、コンタミネーション(contamination)の確率を決定する。そうするために、前記システムは、例えば、コンタミネーション(contamination)検出ワークフロー600又はコンタミネーション(contamination)検出ワークフロー630を適用することがある。
【0278】
ステップ3140の後、前記ワークフローは終了する。
【0279】
図32は、
図32の単一-鎖(single-strand)ワークフローを
図28の二重-鎖(dual-strand)フィルタリング・ワークフローと比較する、フィルタ検証プロット3200である。前記フィルタ検証プロットでは、x-鎖は、二重鎖ワークフローに従ってフィルタリングしたSNPsを示す、一方、y-軸は、単一-鎖(single-strand)ワークフローに従ってフィルタリングしたSNPsを示す。前記プロット上の各々の位置の傾きは、前記ワークフローに従ってフィルタリングしたSNPsの数の合計を示す。
【0280】
ここで、前記プロットは、AからTへの、及びTからAへのSNPsのみを示す、これらは、前記ワークフローの各々において同様に扱われる。従って、所与のSNPについて、前記ワークフローが正しく機能している場合、前記SNPsは、各々のワークフローによって同じ回数カウントされるはずである。従って、データは、1という傾きを有するカウントの線形プロットになることが、予想されるであろう。ここで、その線は、類似の様式でSNPsをカウントする各々のワークフローと、ほぼ線形である。
【0281】
図33Aは、二重-鎖(dual-strand)ワークフローに従ってフィルタリングした試験サンプルについての、SNP密度プロット3300である、及び
図33Bは、単一-鎖(single-strand)ワークフローに従ってフィルタリングした同じサンプルについての、SNP密度プロット3310である。SNP密度プロットにおいて、x-軸は、フィルタリング後に残っているサンプル中のSNPsに関する、振るい分けされた位置を示す。y-軸は、所与のSNPについて観察されるマイナー・アレル頻度(minor allele frequency)を示す。
【0282】
二重-鎖(dual-strand)ワークフロー3300のSNP密度プロットにおいて、前記フィルタリング・プロセスによって、174という平均深度で、175個の非-ヘテロ接合性SNPsが維持された。単一-鎖(single-strand)ワークフロー3310のSNP密度プロットにおいて、前記フィルタリング・プロセスによって、110という平均深度で、1545個の非-ヘテロ接合性SNPsが維持された。言い換えれば、二重-鎖(dual-strand)ワークフローは、コンタミネーション(contamination)検出のために維持されるSNPsの個数を大幅に増加させた。対応して、検出限界も減少した。
【0283】
いくつかの実施形態では、前記システムは、コンタミネーション(contamination)事象を決定する際に、異なる源からのSNPsを用いることがある。即ち、コンタミネーション(contamination)をコールするために使用されるSNPsを、1つ以上のコンタミネーション(contamination)検出ワークフローに従って、フィルタリングすることがある。例えば、二重-鎖(dual-strand)ワークフロー3100、及びPRS SNPsを生成するために使用されるコンタミネーション(contamination)フィルター、を使用して、前記SNPsをフィルタリングすることがある。この場合では、前記パネル中のターゲット化した残りのSNPsを、コンタミネーション(contamination)をコールするために、使用することがある。SNPSは、PRS領域を含んでもよい。PRS領域のいくつかは、幾分弱いがん関連SNPsをターゲット化する、しかしより多くの領域は、異常ながんメチル化ターゲットをターゲット化する。
【0284】
図34Aは、二重-鎖(dual-strand)ワークフローから生じるSNP密度、及びPRSワークフローから生じるSNP密度、を比較するフィルター密度プロットである。フィルター密度プロット3400では、x-軸は、試験サンプル中の維持されたSNPsの数である、及びy-軸は、それらのSNPsの密度である。前記プロットの色グレードは、どのワークフローによって前記SNPsが生成されたのか、を示す。ここで、前記二重-鎖(dual-strand)ワークフローは、より多くのSNPsを生成するが、前記SNPsは、試験サンプル中では、より低い密度である。
【0285】
図34Bは、二重-鎖(dual-strand)ワークフローから生じるSNP密度、及びPRSワークフローからから生じるSNP密度、を比較するフィルター深度プロットである。フィルター深度プロット3410では、x-軸は、SNPsの深度である、及びy-軸は、その深度を有するサンプルの数である。前記プロット上の各々のドットは、SNPを表す、及び前記ドットの色グレードは、どのワークフローによって前記SNPが生成されるのか、を示す。ここで、両方のワークフローからのSNPsの大多数は、深度閾値(例えば、15、20、30など)を超えるサンプル深度を有する。深度閾値は、前記SNPが、疾患の有無を意味があるように示すために、必要な最小の深度である。更に、前記二重-鎖(dual-strand)ワークフローは、前記PRSワークフローよりも、深度閾値を超えるSNPsの数を、より大きくなるように増加させる。前記二重-鎖(dual-strand)ワークフロー及びPRSワークフローを使用して、前記サンプルから生成したSNPsの深度及び密度に基づいて、両方のワークフローからのSNPsを使用すれば、疾患の存在を検出することができるであろう。
【0286】
XIII. SNPブラックリスト
いくつかの実施形態では、前記システムは、コンタミネーション(contamination)事象をコールするために、SNPブラックリストに従って、サンプルをフィルタリングすることがある。以下に記載されるように、SNPブラックリストに従ってサンプルをフィルタリングするステップは、コンタミネーション(contamination)検出の特異性及び感度を改善し、並びにコンタミネーション(contamination)の検出限界を減少させる。
【0287】
XIII.A コンタミネーション(Contamination)コールのために、シークエンシング・データをフィルタリングするステップ
図35は、
図4のワークフロー400に従って実行される、ブラックリスト・フィルタリング・ワークフロー3500を図示する流れ図を示す。この実施形態のブラックリスト・フィルタリング・ワークフロー2800は、限定されるものではないが、以下のステップを含むことがある。ブラックリスト・フィルタリング・ワークフローは、コンタミネーション(contamination)事象を不正確にコールする可能性がより高いシークエンシング・データ(例えば、SNPs)を除去する。前記ワークフローを、プロセシング・システム(例えば、プロセシング・システム200)が実装することがある。
【0288】
ステップ3510では、前記システムは、1セットの試験サンプルにアクセスする。例えば、前記システムは、サンプルにおける疾患の存在及び/又はタイプを決定するステップのために取得したサンプルに、アクセスすることがある。1つの実施形態では、前記サンプルにバイサルファイト変換を行って、前記サンプルを調製する、及び得られたメチル化情報を使用して、疾患の存在を決定することがある。
【0289】
ステップ3520では、前記システムは、シークエンシング・データをクリーニングする、及び遺伝子型を中和する。例えば、データ・クリーニングには、非-情報があるSNPsをフィルタリングして除去するステップ、カバーされていないSNPsを除去するステップ、高いエラー頻度(例えば、>0.1%)を有するSNPsを除去するステップ、高いばらつきを有するSNPsを除去するステップ、閾値未満の深度を有するSNPsを除去するステップ、あらゆるヘテロ接合性SNPsを除去するステップ、カバーが低いSNPsを除去するステップ、及び高い異質性割合(heterogeneity rate)を有するあらゆるSNPsを除去するステップ、が含まれることがある。
【0290】
ステップ3530では、前記システムは、SNPブラックリストに従って、試験サンプル中のSNPsをフィルタリングする。例えば、前記システムは、SNPsのリストにアクセスすることがある、及び前記リスト上の全てのSNPsを、前記試験サンプルから、除去することがある。前記ブラックリストは、前記システム上に位置するライブラリ中にあってもよく、当該技術分野で知られている、システムによってアクセス可能であってもよく、又は他の何らかのSNPブラックリストであってもよい。
【0291】
ステップ3540では、前記システムは、前記試験サンプルについてのコンタミネーション(contamination)の確率を決定する。そうするために、前記システムは、例えば、コンタミネーション(contamination)検出ワークフロー600又はコンタミネーション(contamination)検出ワークフロー630を適用することがある。
【0292】
ステップ3540の後、前記ワークフローは終了する。
【0293】
図36Aは、コンタミネーション(contamination)事象比較プロット3600(このプロットでは、ブラックリスト・フィルタリング・ワークフロー3500に従って、前記試験サンプルをフィルタリングしていない)を図示する、及び
図36Bは、コンタミネーション(contamination)比較プロット3610(このプロットでは、ブラックリスト・フィルタリング・ワークフロー3500に従って、前記試験サンプルをフィルタリングしている)を図示する。
【0294】
コンタミネーション(contamination)事象比較プロットでは、x-軸は、試験サンプルの平均LLRである、及びy-軸は、決定されたコンタミネーション(contamination)分率である。前記グラフ上の印の各々は、試験サンプルを表す、及び前記印の形状は、そのサンプルについての既知のコンタミネーション(contamination)分率を示す。従って、完全なコンタミネーション(contamination)検出では、所与の点でのSNPは、既知のコンタミネーション(contamination)分率と同等の決定されたコンタミネーション(contamination)分率を有する。しかしながら、前記決定されたコンタミネーション(contamination)分率は、多くの試験サンプルについての既知のコンタミネーション(contamination)分率とは異なる。
【0295】
決定されたコンタミネーション(contamination)分率と既知のコンタミネーション(contamination)分率との間のミスマッチは、コンタミネーション(contamination)事象比較プロット3600のドリフト領域3602内で、明らかである。SNPブラックリスト・ワークフローを適用しない場合、試験サンプルは、コンタミネーション(contamination)が無いにも拘わらず、コンタミネーション(contamination)をコールする。しかしながら、コンタミネーション(contamination)事象比較プロット3610に見られるように、SNPブラックリスト・ワークフローを適用する場合、前記ドリフト領域は発生しない。言い換えれば、コンタミネーションを受けていないサンプルは、ブラックリスト・フィルタリング・ワークフロー3500を適用する場合、コンタミネーション(contamination)事象をコールしない。
【0296】
XIII.B ブラックリストを生成するステップ
図37は、
図4のワークフロー400に従って実行される、ブラックリスト生成ワークフロー3700を図示する流れ図を示す。この実施形態のブラックリスト生成ワークフロー3700は、限定されるものではないが、以下のステップを含む。前記ブラックリスト生成ワークフローは、SNPブラックリストを生成し、前記ブラックリスト上のSNPsは、シークエンシング・データ中のコンタミネーション(contamination)事象を、不正確に示す可能性が高い。前記ワークフローを、プロセシング・システム(例えば、プロセシング・システム200)が実装することがある。
【0297】
ステップ3710では、前記システムは、試験サンプルのコホートにアクセスする。例えば、前記システムは、サンプルにおける疾患の存在及び/又はタイプを決定するステップのために取得したサンプルに、アクセスすることがある。前記コホート中の試験サンプルは、コンタミネーションを含まないことが既知である。1つの実施形態では、前記サンプルにバイサルファイト変換を行って、前記サンプルを調製する、及び得られたメチル化情報を使用して、疾患の存在を決定することがある。
【0298】
ステップ3720では、前記システムは、試験サンプルのコホートについての特性を決定する。例えば、前記システムは、試験サンプルのコホート中の各々のSNPについて、観察されるマイナー・アレル頻度(minor allele frequency)を決定することがある。いくつかの場合では、観察されるマイナー・アレル頻度(observed minor allele frequency)が高いSNPsは、コンタミネーションを受けていないサンプルにおけるコンタミネーション(contamination)事象を示すことがある。他の決定的な特徴も可能である。
【0299】
ステップ3730では、前記システムは、前記コホート中のサンプルからのシークエンシング・データをクリーニングする、及び遺伝子型を中和する。例えば、データ・クリーニングには、非-情報があるSNPsをフィルタリングして除去するステップ、カバーされていないSNPsを除去するステップ、高いエラー頻度(例えば、>0.1%)を有するSNPsを除去するステップ、高いばらつきを有するSNPsを除去するステップ、閾値未満の深度を有するSNPsを除去するステップ、あらゆるヘテロ接合性SNPsを除去するステップ、カバーが低いSNPsを除去するステップ、0アレル分率であるSNPsを除去するステップ、及び高い異質性の喪失の割合(high loss of heterogeneity rate)を有するあらゆるSNPsを除去するステップ、が含まれることがある。
【0300】
ステップ3740では、前記システムは、決定された特性に基づいて、SNPsのコホートについての外れ値指標を決定する。例えば、前記外れ値指標は、可変閾値レベルであることがあるが、外れ値を他に表現することも考えられる。前記可変閾値は、例えば、10%であることがあるが、他の何らかの閾値レベルであることがある。
【0301】
ステップ3750では、前記システムは、外れ値指標を使用して、SNPブラックリストを生成する。即ち、前記システムは、前記外れ値指標によって示される、前記コホート内の全てのSNPsを、前記SNPブラックリストに追加する。前記SNPブラックリストを、前記システム上に、アクセス可能なリモート・システム上に、又は他の何らかのシステム上に、維持することがある。
【0302】
前のステップを説明するために、決定された特性が、観察されるマイナー・アレル頻度(minor allele frequency)である、可変閾値が外れ値指標である、及び前記可変閾値が10%である、例を考える。ここで、10%を超える観察されるマイナー・アレル頻度(minor allele frequency)を有するSNPsを、SNPブラックリストに加える。従って、SNPが、試験サンプルにおけるコンタミネーション(contamination)事象を、不正確にコールする可能性が高い場合、前記SNPを前記ブラックリストに追加する、及びそれらのSNPsを、コンタミネーション(contamination)検出ワークフロー(例えば、コンタミネーション(contamination)検出ワークフロー630)を適用する前に、前記試験サンプルから除去する。従って、コンタミネーションを受けていないサンプルが、コンタミネーション(contamination)事象をコールする可能性は低い。
【0303】
ステップ3740の後、前記ワークフローは終了する。生成されたSNPブラックリストを、ブラックリスト・フィルタリング・ワークフロー3500のために、使用することがある。様々な実施形態では、前記システムは、ブラックリスト生成ワークフローを、種々のコホートのサンプルに適用することがある、その結果、前記SNPブラックリストを、特定のセットの試験サンプルに対して、ターゲット化させることがある。例えば、SNPブラックリストを、特定のパネル、1セットの個体など、によって取得された試験サンプルのコホートに対して、ターゲット化させることがある。
【0304】
図38は、試験サンプルのコホートにおけるSNPsについて、観察されるマイナー・アレル頻度(minor allele frequency)を示す、コホート特性プロット3800である。前記コホート特性プロットにおいて、x-軸は、観察されるマイナー・アレル頻度(minor allele frequency)である、及びy-軸は、前記コホートにおけるSNPsに関する、順序付けをしたリストである。前記コホートにおけるSNPsの多くは、示されていない。この例では、例示的な外れ値分率3810は、可変閾値、例えば、15%の観察されるマイナー・アレル頻度(minor allele frequency)、である。ここでは、上位2つのSNPsを、SNPブラックリストに追加し、残りを前記集団中に維持する。
【0305】
SNPブラックリストを生成するとき、いくつかのパラメータは、不正確なコンタミネーション(contamination)コールを低減するために、結果として生じるブラックリストがどの位うまく機能するか、ということに影響する。
【0306】
性能に影響を及ぼす1つのパラメータは、前記外れ値指標である。その外れ値分率を変更すると、コンタミネーション(contamination)検出ワークフローが、コンタミネーションを受けていない例に対して、どの位の頻度でコンタミネーション(contamination)事象をコールするか、ということが変わる。
【0307】
図示するために、
図39は、可変閾値をどの位変更すると、コンタミネーションを受けていないサンプルを、不正確にコール(calling)することに影響をあたえるか、を図示する、閾値変化(threshold variance)プロット3900を示す。外れ値変化プロット中の各々のパネルには、同様のx-軸及びy-軸がある。x-軸は、試験サンプルの平均LLRである、及びy-軸は、決定されたコンタミネーション(contamination)分率である。パネル上の印の各々は、試験サンプルを表す、及び印の形状は、そのサンプルについての既知のコンタミネーション(contamination)分率である。各々のパネルは、種々の可変閾値から生成されるブラックリストを、有する。上から下に向かって、前記可変閾値は、0.0%、0.50%、1.0%、5.0%、及び10.0%である。
【0308】
この場合も、前記パネル内のドリフト領域3910は、コンタミネーション(contamination)検出ワークフローが、コンタミネーションを受けたサンプルをどのくらい正確にコールするか、を図示する。理想的には、x-軸及びy-軸の両方にあるコンタミネーションを受けていないサンプルの間には、大きな隔たりが存在するはずである。即ち、円と三角形は、可能な限り、隔たれるべきである。更に、円は、コンタミネーションを受けていないサンプルを正確にコールするために、x-軸及びy-軸の両方で、0に局在化されるべきである。
【0309】
0.0%の可変閾値のサンプルについてのドリフト領域3910A、及び10.0%の可変閾値のサンプルについてのドリフト領域3910Eでは、コンタミネーションを受けていないサンプルは、x-及びy-軸上に局在しない。0.5%の可変閾値のサンプルについてのドリフト領域3910B、及び1.0%の可変閾値のサンプルについてのドリフト領域3910Cでは、コンタミネーションを受けていないサンプルは、0より大きい平均log-尤度割合を有する。従って、5.0%の可変閾値についてのドリフト領域は、最良の性能を与える、及び5.0%可変閾値を有するサンプルは、コンタミネーション(contamination)検出ワークフローの特異性及び感度を増大させる、ということを示す。
【0310】
別の実施形態では、前記システムは、前記ブラックリストが閾値SNPサイズに達するまで、前記ブラックリストに、SNPsを追加することがある。この場合、SNPsを、それらの決定された特性に基づいて、前記SNPブラックリストに追加する。例えば、決定された特性がマイナー・アレル頻度(minor allele frequency)である場合、SNPsを、降順頻度に従って、SNPブラックリストに追加する。即ち、より高いマイナー・アレル頻度(minor allele frequency)を有するSNPsを、より低いマイナー・アレル頻度(minor allele frequency)を有するSNPsよりも先に、前記ブラックリストに追加する。前記ブラックリストが所望のサイズに達するまで、このようにして、SNPsを、前記ブラックリストに継続的に追加する。
【0311】
例示するために、
図40は、SNPブラックリストのサイズをどの位変更すると、コンタミネーションを受けていないサンプルを、不正確にコール(calling)することに影響をあたえるかを図示する、サイズ変化プロット4000、を示す。前記外れ値変化プロット中の各々のパネルには、同様のx-軸及びy-軸がある。x-軸は、試験サンプルの平均LLRである、及びy-軸は、決定されたコンタミネーション(contamination)分率である。パネル上の印の各々は、試験サンプルを表す、及び印の形状は、そのサンプルについての既知のコンタミネーション(contamination)分率である。各々のパネルは、異なるサイズだが、同じ可変閾値を持って生成されるブラックリストを、有する。上から下に向かって、前記ブラックリストのサイズは、10.0k、6.5k、4.4k、3.1k、及び2.3k SNPsである。
【0312】
閾値変化(threshold variance)プロット3900と同様に、前記パネル中のドリフト領域4010は、コンタミネーション(contamination)検出ワークフローがコンタミネーションを受けたサンプルを、どの程度正確にコールするか、を図示する。理想的には、x-軸及びy-軸の両方にあるコンタミネーションを受けていないサンプルの間には、大きな隔たりが存在する。即ち、円と三角形は、可能な限り、隔たれるべきである。更に、円は、コンタミネーションを受けていないサンプルを正確にコールするために、x-軸及びy-軸の両方で、0に局在化されるべきである。ここで、3.lkのブラックリストは、コンタミネーションを受けていないサンプルを最も正確にコールする可能性が高い。
【0313】
図41は、SNPブラックリストのサイズ、及び外れ値指標の可変閾値の両方をどの位変更すると、コンタミネーションを受けていないサンプルを、不正確にコール(calling)することに影響をあたえるかを図示する、サイズ及び閾値変化(threshold variance)プロット、を示す。
【0314】
サイズ及び閾値変化(threshold variance)プロット4100では、各々のパネルは、同様のx-軸及びy-軸を有する。x-軸は、試験サンプルの平均LLRである、及びy-軸は、決定されたコンタミネーション(contamination)分率である。パネル上の印の各々は、試験サンプルを表す、及び印の形状は、そのサンプルについての既知のコンタミネーション(contamination)分率を表す。各々のパネルは、可変閾値及びブラックリスト・サイズが異なる。左側から右側に向かって、前記可変閾値は、0.0%、0.50%、1.0%、5.0%、及び10.0%である、及び上から下に向かって、前記ブラックリスト・サイズは、10.0k、6.5k、4.4k、3.1k、及び2.3kのSNPsである。従って、中央のプロットは、1.0%という可変閾値及び4.4kのSNPsというブラックリスト・サイズを有する。
【0315】
ここで、サイズ及び閾値変化(threshold variance)プロット4100は、5.0%という可変閾値及び10.0kというSNPブラックリスト・サイズが、分析したコホートのサンプルについて、コンタミネーションを受けていないサンプルを最も高い精度でコールする、ということを示す。しかしながら、他の例では、試験サンプル中のシークエンシング・データに基づいて、異なる閾値及び/又はブラックリスト・サイズ、になることがある。
【0316】
XIV. コンタミネーション(Contamination)検出閾値を自動的に選択するステップ
本出願で記載するように、前記システムは、サンプル又はサンプルのセットにおけるコンタミネーション(contamination)事象を決定することができる。一般的に、コンタミネーション(contamination)レベルが閾値コンタミネーション(contamination)レベル(例えば、0.1%、0.5%、1.0%、3.0%など)を上回る場合、前記システムは、コンタミネーション(contamination)をコールする。しかしながら、疾患の存在について、それらのサンプルを生成するステップ及び試験するステップのためのプロセスが変化するにつれて、コンタミネーション(contamination)事象の尤度は変化する。従って、前記システムは、コンタミネーション(contamination)事象をコールする場合に使用されるコンタミネーション(contamination)閾値を、自動的に変更するための方法を実装することがある。
【0317】
図42は、コンタミネーション(contamination)閾値決定ワークフロー4200を図示する、流れ図を図示する。この実施形態の決定ワークフロー4200は、限定されるものではないが、以下のステップを含む。前記検出ワークフローは、疾患の診断のために、対象、又は対象達から取得した1つ以上のサンプルにおいて、コンタミネーション(contamination)事象をコールするための、コンタミネーション(contamination)閾値を決定する。前記検出ワークフローを、試験サンプルをシークエンシングするための、及びバリアントをコールするためのシステム(例えば、プロセシング・システム200)が実装することがある。
【0318】
ステップ4210では、前記システムは、コンタミネーション(contamination)レベルが既知である1つ以上のサンプル(「コンタミネーションを受けているサンプル」)にアクセスする。コンタミネーションを受けているサンプルは、シミュレーションをしたサンプル、組み立てたサンプル、又は実際のサンプル、であることがある。シミュレーションをしたサンプルは、コンタミネーションを受けていない試験サンプルからのシークエンシング・データを含むことがあり、そのシークエンシング・データは、コンタミネーション(contamination)事象をシミュレーションするように操作したものである。組み立てたサンプルは、in-vitroタイトレーション・プロセスを用いて、実験室環境でコンタミネーションを受けたことがある、コンタミネーションを受けていない試験サンプルからのシークエンシング・データを含むことがある。実際のサンプルは、コンタミネーション(contamination)事象を含むと過去に決定されたことがある、試験サンプルからの、シークエンシング・データを含むことがある。次いで、前記システムは、前記シークエンシング・データを使用して、コンタミネーションを受けているサンプルについてのlog尤度割合(log likelihood ratio (“LLR”))を計算する。前記LLRは、サンプルがどれくらいコンタミネーションを受けている可能性があるか、に関する定量である。
【0319】
ステップ4220では、前記システムは、コンタミネーションを受けているサンプルのシークエンシング・データをクリーニングする(又は、前-処理をする)。コンタミネーションを受けているサンプルを、疾患の有無を決定するために使用されるプロセスと同様の様式で、クリーン・アップする。サンプルをクリーン・アップするステップに関する、いくつかの例示的な方法を、本出願に記載する。例えば、
図6Aのステップ610、
図6Bのステップ632、等である。
【0320】
ステップ4230では、前記システムは、外れ値のコンタミネーションを受けているサンプルを、フィルタリングする。外れ値サンプルをフィルタリングするステップは、(i)閾値LR値(例えば、1.5、2.0、5.0等)よりも大きいLLRを有するサンプルを除去するステップ、(ii)決定されたLLRに関する、上位閾値パーセンテージ(例えば、1%、2%、5%等)におけるLLRを有するサンプルを除去するステップ、又は(iii)他のサンプルとの閾値統計的差異(例えば、中央値からの3平均絶対差、平均値からの2シグマ、等)をLLRを有するサンプルを除去するステップ、を含むことがある。外れ値のコンタミネーションを受けているサンプルに関して、他のフィルタリングをするステップもまた、可能である。
【0321】
ステップ4240では、前記システムは、コンタミネーションを受けているサンプルについての1セットのコンタミネーション(contamination)閾値解析結果を決定する。コンタミネーション(Contamination)閾値解析結果は、実装された場合、種々のコンタミネーション(Contamination)閾値が、どの程度うまく、コンタミネーション(Contamination)事象をコールするか、を定量化する。即ち、例えば、前記解析結果は、所与のコンタミネーション(contamination)レベルについて、何のLLRがコンタミネーション(contamination)事象をコールするのに充分であるのかを、定量化する。
【0322】
コンタミネーション(Contamination)閾値解析結果には、コンタミネーション(Contamination)閾値を定量化する、様々なヒューリスティックス(heuristics)が含まれることがある。例えば、コンタミネーション(contamination)解析結果には、所与のコンタミネーション(contamination)閾値について、検出限界、コンタミネーション(contamination)事象を検出する感度、コンタミネーション(contamination)事象を検出する特異性、試験サンプルについての平均LLR、観察されるマイナー・アレル頻度(minor allele frequency)、等が含まれることがある。
【0323】
ステップ4250では、前記システムは、コンタミネーション(contamination)閾値解析結果に基づいて、実装するべきコンタミネーション(contamination)閾値を決定する。例えば、前記システムは、最も低い検出限界を付与するコンタミネーション(contamination)閾値を選択することがある。別の例では、前記システムは、所与の特異性で最も高い感度を生成するコンタミネーション(contamination)閾値を選択することがある。
【0324】
前記システムは、大域的コンタミネーション閾値(global contamination threshold)を選択することがある、又は異なるコンタミネーション(contamination)レベルについてのコンタミネーション(contamination)閾値を選択することがある。例えば、前記コンタミネーション(contamination)閾値は、5E-3というコンタミネーション(contamination)レベルに対して10.5 E-3であることがある、一方で、2E-3というコンタミネーション(contamination)レベルに対して10.3 E-3である。場合によっては、前記システムの管理者は、前記コンタミネーション(contamination)閾値を選択することがある。
【0325】
前記システムがコンタミネーション(contamination)閾値を選択した後、前記ワークフローは終了する。
【0326】
例として、以下の表は、異なるコンタミネーション(contamination)レベルについて決定されたコンタミネーション(contamination)閾値を示す。前記表はまた、前記コンタミネーション(contamination)閾値を用いて、指定したコンタミネーション(contamination)レベルで、コンタミネーション(contamination)事象を検出する感度及び特異度を、示してもいる。
【表7】
この例では、検出限界は、以下であった:(i) 0.954という特異性、及び0.954という感度の3.2 E-3、(ii)0.984という特異性、及び0.954という感度の3.2 E-3、(iii)1.00という特異性、0.95という感度の3.5 E-3。
【0327】
図43は、平均LLRヒューリスティック・プロット4300(average LLR heuristic plot 4300)を図示する。前記平均LLRヒューリスティック・プロットは、棒及びひげプロット(bar and whisker plot)であり、x-軸は、コンタミネーションを受けているサンプル中のコンタミネーション(contamination)レベルを図示する、及びy-軸は、サンプルの平均LLRを示す。このLLRヒューリスティック・プロット4300は、各々のコンタミネーション(contamination)レベルについて、コンタミネーション(contamination)閾値をどのように選択するかが重要である、ということを示す。例えば、サンプルのLLRに基づいて、lE-3でコンタミネーションを受けているサンプルについてのコンタミネーション(contamination)をコールするコンタミネーション(contamination)閾値は、1E-1でコンタミネーションを受けているサンプルについてのコンタミネーション(contamination)閾値、とは異なっている。
【0328】
図44は、ROCヒューリスティック・プロット4400(ROC heuristic plot 4400)を示す。前記ROCヒューリスティック・プロット4400(ROC heuristic plot 4400)は、x-軸上に特異性及びy-軸上に感度を図示するROCプロットである。前記ROCヒューリスティック・プロット中の線の各々は、異なるコンタミネーション(contamination)レベルで、コンタミネーション(contamination)事象をコールするステップにおける、前記システムの能力を表す。各々のコンタミネーション(contamination)レベルでは、コンタミネーション閾値は異なる。
【0329】
XV. 更なる考慮事項
本発明の実施形態の前記の記載は、説明を目的として提示されたものである;網羅的であること、又は開示された厳密な形態に本発明を限定すること、を意図するものではない。当業者は、上記の開示に照らして、多くの改変及び変形が可能であることを、理解することができる。
【0330】
本明細書のいくつかの部分は、本発明の実施形態を、アルゴリズムに関する用語で、及び情報に対する演算に関する象徴的な表現で、記載する。これらのアルゴリズム的な記載及び表現を、データ処理技術の当業者は、普通に用いて、それらの仕事の本質を、効果的に、他の当業者に伝える。これらの演算は、機能的に、計算的に、又は論理的に説明されているが、コンピュータ・プログラム又は同等の電子回路、マイクロコードなどによって実装されると理解される。更に、一般性を失うことなく、これらの演算の配置をモジュールと呼ぶことも、時には便利であることも分かっている。記載した演算及びそれらの関連するモジュールを、ソフトウェア、ファームウェア、ハードウェア、又はそれらの任意の組合せ、として、具体化することがある。
【0331】
本出願で記載されるステップ、演算、又はプロセスの何れも、1つ以上のハードウェア・モジュール又はソフトウェア・モジュールを用いて、単独で、又は他のデバイスとの組合せで、実行することがある、又は実装することがある。1つの実施形態では、記載されるステップ、演算、又はプロセスのうちの何れかを又は全てを実行するためのコンピュータ・プロセッサ、が実行することができるコンピュータ・プログラム・コード、を含むコンピュータ可読可能な、非-一過性の媒体等のコンピュータ・プログラム製品、を用いて、ソフトウェア・モジュールを実装する。
【0332】
本発明の実施形態は、本出願に記載されるコンピューティング・プロセス(computing process)によって生成される製品に、関することもある。そのような製品は、コンピューティング・プロセス(computing process)から生じる情報を含むことがあり、ここで、前記情報は、非-一過性の、有形なコンピュータ-可読記憶媒体に記憶される、及び本出願に記載されるコンピュータ・プログラム製品又は他のデータ組み合わせ、に関する任意の実施形態を含むことがある。
【0333】
最後に、本明細書で使用される言語は主に、可読性及び教示目的のために選択されており、本発明の主題を線引き又は制限するために選択されていない場合がある。従って、本発明の範囲は、この詳細な明細書によってではなく、本明細書に基づく出願に関する任意の請求項によって、限定されることが意図される。従って、本発明の実施形態の開示は、以下の特許請求の範囲に記載される本発明の範囲を例示するものであり、限定するものではない。
【国際調査報告】