(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】コピー数変化呼び出しに対する汚染を検出及び除去するための方法及びシステム
(51)【国際特許分類】
C12Q 1/6827 20180101AFI20241016BHJP
C12Q 1/6869 20180101ALI20241016BHJP
【FI】
C12Q1/6827 Z
C12Q1/6869 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024521088
(86)(22)【出願日】2022-10-07
(85)【翻訳文提出日】2024-05-08
(86)【国際出願番号】 US2022077800
(87)【国際公開番号】W WO2023060261
(87)【国際公開日】2023-04-13
(32)【優先日】2021-10-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
(71)【出願人】
【識別番号】517192663
【氏名又は名称】ファウンデーション・メディシン・インコーポレイテッド
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】ヒューズ, ジェーソン ディー.
(72)【発明者】
【氏名】ニューバーグ, ジャスティン
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA13
4B063QQ02
4B063QQ42
4B063QS36
4B063QX01
(57)【要約】
配列リードデータの反復的な汚染検出及びセグメント化を実施するための方法及びシステムが説明される。方法は、試料中で検出された複数の一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の分布を、複数の選択されたSNP遺伝子座に対するマイナー対立遺伝子頻度の予想される分布と比較することと、異常SNP(複数の選択されたSNPに対して予想される分布とは異なるMAF値の分布を呈するSNP)と、複数の選択されたSNP遺伝子座に対するマイナー対立遺伝子頻度の予想された分布に適合するSNPとの間を区別するために使用されるMAF閾値を調整することと、に基づく。方法は、試料中の汚染の程度を推定するために、かつ試料に対する配列リードデータのセグメント化を提供するために使用され得、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することを更に含み得る。
【選択図】
図1
【特許請求の範囲】
【請求項1】
対象からの試料に対する配列リードデータ内の汚染を検出するための方法であって、前記方法が、
1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、
前記1つ以上のプロセッサを使用して、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布に基づいて、前記試料に対する汚染の程度を推定することと、
前記1つ以上のプロセッサを使用して、前記配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、前記セグメント化プロセスから除外される、セグメント化することと、
前記1つ以上のプロセッサを使用して、前記2つ以上のセグメントのうちのセグメント上で検出されたSNPを、前記SNPが同じ前記セグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
前記1つ以上のプロセッサを使用して、異常SNP対立遺伝子頻度の分布に基づいて、前記第1の閾値を調整することと、
前記第1の閾値が増加したときに、前記セグメント化、分類、及び調整ステップを繰り返すことと、
前記1つ以上のプロセッサを使用して、前記セグメント化データ及び最終閾値を、前記試料に対する推定された汚染の程度を出力することと、を含む、方法。
【請求項2】
前記複数の配列決定リードのうちの1つ以上が、前記試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する、請求項1に記載の方法。
【請求項3】
前記試料に対する前記推定された汚染の程度と等しいように前記第1の閾値に対する初期値を設定することを更に含む、請求項1に記載の方法。
【請求項4】
前記複数の選択された一塩基多型(SNP)が、複数の選択されたヘテロ接合体一塩基多型(SNP)を含む、請求項1に記載の方法。
【請求項5】
前記複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の前記所定の分布が、前記複数の選択された一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の所定の分布を含む、請求項1に記載の方法。
【請求項6】
前記1つ以上のプロセッサによって出力された前記セグメント化データ及び推定された汚染の程度を使用して、前記1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することを更に含む、請求項1に記載の方法。
【請求項7】
前記最終閾値を下回る対立遺伝子頻度を呈するSNPに対する全ての配列リードデータを、前記1つ以上の遺伝子座に対するコピー数分析から除外することを更に含む、請求項1に記載の方法。
【請求項8】
前記最終閾値を下回る対立遺伝子頻度を呈するSNPと同じセグメント上の遺伝子座に対する全ての配列リードデータを、前記1つ以上の遺伝子座に対するコピー数分析から除外することを更に含む、請求項1に記載の方法。
【請求項9】
前記複数の遺伝子座内で識別された前記複数の選択されたSNPが、少なくとも1,000SNPを含む、請求項1に記載の方法。
【請求項10】
複数の遺伝子座内で識別された前記複数の選択された一塩基多型(SNP)が、約50%の不偏ヘテロ接合体対立遺伝子頻度を有する二対立遺伝子ヘテロ接合体SNPを含む、請求項1に記載の方法。
【請求項11】
複数の遺伝子座内で識別された前記複数の選択された一塩基多型(SNP)が、20%超のグローバル対立遺伝子頻度で観察される参照及び代替対立遺伝子を有する二対立遺伝子ヘテロ接合体SNPを含む、請求項1に記載の方法。
【請求項12】
複数の遺伝子座内で識別された前記複数の選択された一塩基多型(SNP)が、20%超のグローバルMAFで観察される参照及び代替対立遺伝子を有する二対立遺伝子ヘテロ接合体SNPを含む、請求項11に記載の方法。
【請求項13】
前記複数の選択されたSNPに対する対立遺伝子頻度の分布に基づいて、前記試料に対する前記汚染の程度を推定することが、少なくとも第2の閾値によって前記複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する前記試料中で識別されたヘテロ接合体SNPのパーセンテージを決定することを含む、請求項1に記載の方法。
【請求項14】
前記配列リードデータが、前記セグメント化ステップを実施する前にlog2カバレッジ比データに変換される、請求項1に記載の方法。
【請求項15】
SNPは、前記SNPが、遺伝子頻度の差の絶対値に基づいて同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される、請求項1に記載の方法。
【請求項16】
SNPは、前記SNPが、統計解析に基づいて同じセグメント上で検出された他のSNPSに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される、請求項1に記載の方法。
【請求項17】
前記統計解析が、t検定を含む、請求項16に記載の方法。
【請求項18】
前記セグメント化が、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、又は変化点法を使用して実施される、請求項1に記載の方法。
【請求項19】
前記セグメント化が、変化点法を使用して実施され、前記変化点法が、枝刈り厳密線形時間(pruned exact linear time(PELT))法である、請求項18に記載の方法。
【請求項20】
前記セグメント化、分類、及び調整ステップが、最大1~10反復で繰り返される、請求項1に記載の方法。
【請求項21】
前記第1の閾値が、異常として分類されるSNPの数を低減するために増分調整され、前記第1の閾値が、少なくとも第3の閾値によって前記複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する前記試料中で識別されたSNPのパーセンテージに基づいて設定される、請求項1に記載の方法。
【請求項22】
前記試料中の汚染を検出するための検出の限界が、約5%未満である、請求項1に記載の方法。
【請求項23】
前記第1の閾値が、0.2、0.3、0.4、又は0.5の値を有する、請求項1に記載の方法。
【請求項24】
前記第2の閾値が、前記複数の選択されたヘテロ接合体SNPに対する前記予想された対立遺伝子頻度分布の平均から少なくとも1、少なくとも2、少なくとも3、少なくとも4の標準偏差である、請求項13に記載の方法。
【請求項25】
前記第3の閾値が、前記複数の選択されたヘテロ接合体SNPに対する前記予想された対立遺伝子頻度分布の平均から少なくとも1、少なくとも2、少なくとも3、少なくとも4の標準偏差である、請求項21に記載の方法。
【請求項26】
対象からの試料中のコピー数変化(CNA)を呼び出すための方法であって、
1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、
前記1つ以上のプロセッサを使用して、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布に基づいて、前記試料に対する汚染の程度を推定することと、
前記1つ以上のプロセッサを使用して、前記配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、前記セグメント化プロセスから除外される、セグメント化することと、
前記1つ以上のプロセッサを使用して、前記2つ以上のセグメントのうちのセグメント上で検出されたSNPを、前記SNPが同じ前記セグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
前記1つ以上のプロセッサを使用して、異常SNP対立遺伝子頻度の分布に基づいて、前記第1の閾値を調整することと、
前記第1の閾値が増加したときに、前記セグメント化、分類、及び調整ステップを繰り返すことと、
前記1つ以上のプロセッサを使用して、前記セグメント化データ及び最終閾値を、前記試料に対する推定された汚染の程度を出力することと、
前記1つ以上のプロセッサによって出力された前記セグメント化データ及び前記推定された汚染の程度を使用して、前記1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することと、
前記1つ以上の遺伝子座に対するコピー数変化を呼び出すことと、を含む、方法。
【請求項27】
前記複数の配列決定リードのうちの1つ以上が、前記試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する、請求項26に記載の方法。
【請求項28】
前記試料に対する前記推定された汚染の程度と等しいように前記第1の閾値に対する初期値を設定することを更に含む、請求項26に記載の方法。
【請求項29】
前記複数の選択された一塩基多型(SNP)が、複数の選択されたヘテロ接合体一塩基多型(SNP)を含む、請求項26に記載の方法。
【請求項30】
前記複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の前記所定の分布が、前記複数の選択された一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の所定の分布を含む、請求項26に記載の方法。
【請求項31】
前記1つ以上の遺伝子座に対する前記呼び出されたCNAが、前記対象の疾患を診断するか、又はその診断を確認するために使用される、請求項26に記載の方法。
【請求項32】
前記疾患が、がんである、請求項31に記載の方法。
【請求項33】
前記1つ以上の遺伝子座に対する前記呼び出されたCNAに基づいて、前記対象に投与するための抗がん治療を選択することを更に含む、請求項32に記載の方法。
【請求項34】
前記1つ以上の遺伝子座に対する前記呼び出されたCNAに基づいて、前記対象に投与するための前記抗がん治療の有効量を決定することを更に含む、請求項33に記載の方法。
【請求項35】
前記1つ以上の遺伝子座に対する前記呼び出されたCNAに基づいて、前記対象に前記抗がん治療を投与することを更に含む、請求項34に記載の方法。
【請求項36】
前記抗がん治療が、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む、請求項32に記載の方法。
【請求項37】
システムであって、
1つ以上のプロセッサと、
前記1つ以上のプロセッサに通信可能に結合され、かつ命令を記憶するように構成されたメモリと、を備え、前記命令が、前記1つ以上のプロセッサによって実行されたとき、前記システムに、
複数の配列リードに対する配列リードデータを受信することと、
配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布に基づいて、前記試料に対する汚染の程度を推定することと、
前記配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、前記セグメント化プロセスから除外される、セグメント化することと、
前記2つ以上のセグメントのうちのセグメント上で検出されたSNPを、前記SNPが同じ前記セグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
異常SNP対立遺伝子頻度の分布に基づいて、前記第1の閾値を調整することと、
前記第1の閾値が増加したときに、前記セグメント化、分類、及び調整ステップを繰り返すことと、
前記セグメント化データ及び最終閾値を、前記試料に対する推定された汚染の程度を出力することと、を行わせる、システム。
【請求項38】
前記命令が、前記システムに、前記セグメント化データ及び推定された汚染の程度を使用して、前記1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築させることを更に含む、請求項37に記載のシステム。
【請求項39】
1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、前記1つ以上のプログラムが、命令を含み、前記命令が、システムの1つ以上のプロセッサによって実行されたとき、前記システムに、
複数の配列リードに対する配列リードデータを受信することと、
配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、前記試料に対する汚染の程度を推定することと、
前記配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、前記セグメント化プロセスから除外される、セグメント化することと、
前記2つ以上のセグメントのうちのセグメント上で検出されたSNPを、前記SNPが同じ前記セグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
異常SNP対立遺伝子頻度の分布に基づいて、前記第1の閾値を調整することと、
前記第1の閾値が増加したときに、前記セグメント化、分類、及び調整ステップを繰り返すことと、
前記セグメント化データ及び最終閾値を、前記試料に対する推定された汚染の程度を出力することと、を行わせる、非一時的コンピュータ可読記憶媒体。
【請求項40】
前記命令が、前記システムに、前記セグメント化データ及び推定された汚染の程度を使用して、前記1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築させることを更に含む、請求項39に記載の非一時的コンピュータ可読記憶媒体。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年10月8日に出願された米国仮特許出願第63/253,912号の優先権利益を主張し、その内容は参照によりその全体が本明細書に組み込まれる。
【0002】
本開示は、ゲノムプロファイリングデータを分析するための方法及びシステム、より具体的には、コピー数変化の自動呼び出しに使用される配列リードデータの汚染検出及びセグメント化のための方法及びシステムに関する。
【背景技術】
【0003】
構造的変異体(SV)は、典型的には、少なくとも50塩基対(bp)の長さの変化を含む、大規模ゲノム変化である(Mahmoud,et al.(2019),“Structural variant calling:the long and the short of it”,Genome Biology 20:246)。これらの大規模ゲノム変化は、欠失、重複、逆位、挿入、及び転座として分類され、DNAの獲得、喪失、再配列の異なる組み合わせを説明する。
【0004】
コピー数変化(CNA)(コピー数変異(CNV)とも呼ばれる)は、欠失又は重複を主に含む大きな構造的変異体のサブタイプであり、最大50万ヌクレオチド長の変化を包含し得る。体細胞コピー数変異(CNV)は、多くのタイプのがんの発症における重要な役割を果たし得る(Samadian,et al.(2018),“Bamgineer:Introduction of simulated allele-specific copy number variants into exome and targeted sequence data sets”,PLoS Comput Biol.14(3):e1006080)。次世代配列決定(NGS)法の発展は、アルゴリズムの発展が、エクソーム及び標的配列データを含む、様々な配列決定データセットからCNAプロファイルを計算で推論することを可能にした。
【0005】
しかしながら、配列決定データに基づいてCNAを検出し呼び出すための既存の方法は、試料汚染及びセグメント化エラーに起因してエラーを起こし易い。ヒト汚染(すなわち、DNAによる汚染が対象から生じる)は、腫瘍試料では一般的な問題であり(分析されることになる試料の約1~5%に見出される)、通常、比較的低い汚染レベルである(非対象DNAによる<5%の汚染)。試料中の汚染の存在は、試料中の誤った検出及び変異体配列の呼び出しにつながり、コピー数変化を検出して呼び出そうとするときのモデリングエラーの原因となる。例えば、汚染された患者試料は、患者試料から実際に生じなかった低頻度SNPの存在に起因して、非常に高純度(高い腫瘍画分)試料であるように見え得る。したがって、配列リードデータ内の汚染を検出するための、かつセグメント化及びコピー数モデリングからの汚染配列データを除去するための改善された方法に対する必要性が存在する。
【発明の概要】
【0006】
配列リードデータの反復的な汚染検出及びセグメント化を実施するための方法及びシステム。方法は、選択された一塩基多型(SNP)(例えば、ヘテロ接合体一塩基多型(SNP))セットに対する対立遺伝子頻度(例えば、マイナー対立遺伝子頻度)の分布に基づいて、試料に対する汚染の程度を推定することを含む。次いで、第1の閾値(マイナー対立遺伝子頻度(MAF)閾値)に対する初期値として、推定された汚染の程度を使用して、配列決定データは、第1の閾値を下回る対立遺伝子頻度を有するSNPを含むセグメント化プロセスから配列決定データを同時に除外しながら反復的にセグメント化される。各反復では、残っているSNPは、それらが、同じセグメント上で検出される他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を有する場合、異常(すなわち、汚染に起因する可能性がある)として分類され、第1の閾値は、選択された、例えば、ヘテロ接合体SNPセットに対する対立遺伝子頻度の予想される分布に対する、異常SNP対立遺伝子頻度の分布の比較に基づいて、増分調整される。セグメント化、分類、及び第1の閾値調整ステップは、第1の閾値が増加するたびに繰り返される。第1の閾値の更なる増加が必要とされないとき(又は異常SNP対立遺伝子頻度の更なる変化が存在しないか、又は反復の指定された最大数に達したとき)、セグメント化データ及び試料に対する推定された汚染の程度(第1の閾値の最終値と等しい)が出力される。いくつかの例では、方法は、セグメント化データを使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築する。
【0007】
方法であって、対象からの試料から取得された複数の核酸分子を提供することと、1つ以上のアダプターを複数の核酸分子からの1つ以上の核酸分子上にライゲーションすることと、複数の核酸分子からの1つ以上のライゲーションされた核酸分子を増幅することと、増幅された核酸分子から増幅された核酸分子を捕捉することと、シーケンサーによって、捕捉された核酸分子を配列決定して、捕捉された核酸分子を表す複数の配列リードを得ることであって、複数の配列リードのうちの1つ以上が、試料中の1つ以上のサブゲノム区間内で1つ以上の遺伝子座と重複する、得ることと、1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、1つ以上のプロセッサを使用して、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、試料に対する汚染の程度を推定することと、1つ以上のプロセッサを使用して、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、1つ以上のプロセッサを使用して、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、1つ以上のプロセッサを使用して、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、1つ以上のプロセッサを使用して、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を含む、方法が、本明細書に開示される。
【0008】
いくつかの実施形態では、方法は、試料に対する推定された汚染の程度と等しいように第1の閾値に対する初期値を設定することを更に含む。いくつかの実施形態では、複数の選択された一塩基多型(SNP)が、複数の選択されたヘテロ接合体一塩基多型(SNP)を含む。いくつかの実施形態では、複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布が、複数の選択された一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の所定の分布を含む。いくつかの実施形態では、方法は、1つ以上のプロセッサによって出力されたセグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することを更に含む。いくつかの実施形態では、方法は、最終閾値を下回る対立遺伝子頻度を呈するSNPと同じセグメント上の遺伝子座に対する全ての配列リードデータを、1つ以上の遺伝子座に対するコピー数分析から除外することを更に含む。いくつかの実施形態では、複数の選択されたSNPSに対する対立遺伝子頻度の分布に基づいて、試料に対する汚染の程度を推定することが、少なくとも第2の閾値によって複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なるMAFを有する試料中で識別されたヘテロ接合体SNPのパーセンテージを決定することを含む。いくつかの実施形態では、SNPは、SNPが、遺伝子頻度の差の絶対値に基づいて同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される。いくつかの実施形態では、SNPは、それが、統計解析に基づいて同じセグメント上で検出された他のSNPSに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈する場合、異常として分類される。いくつかの実施形態では、セグメント化が、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、又は変化点法を使用して実施される。いくつかの実施形態では、セグメント化が、変化点法を使用して実施され、変化点法が、枝刈り厳密線形時間(PELT)法である。いくつかの実施形態では、第1の閾値が、異常として分類されるSNPSの数を低減するために増分調整され、第1の閾値が、少なくとも第3の閾値によって複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する試料中で識別されたSNPのパーセンテージに基づいて設定される。いくつかの実施形態では、対象が、疾患を有する疑いがあるか、又はがんを有すると決定される。いくつかの実施形態では、疾患が、がんである。いくつかの実施形態では、方法が、定期検査のためのコピー数変化(CNA)呼び出しパイプラインの一部として使用される。いくつかの実施形態では、方法が、出生前検査のためのコピー数変化(CNA)呼び出しパイプラインの一部として使用される。いくつかの実施形態では、方法が、対象から試料を収集することを更に含む。いくつかの実施形態では、試料は、組織生検試料、液体生検試料、又は正常対照を含む。いくつかの実施形態では、試料が、組織生検試料であり、骨髄試料を含む。いくつかの実施形態では、試料は、液体生検試料であり、かつ血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む。いくつかの実施形態では、試料が、液体生検試料であり、循環腫瘍細胞(CTC)を含む。いくつかの実施形態では、試料は液体生検試料であり、かつ無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、複数の核酸分子は、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む。いくつかの実施形態では、腫瘍核酸分子は、不均質組織生検試料の腫瘍部分に由来し、かつ非腫瘍核酸分子は、不均質組織生検試料の正常部分に由来する。いくつかの実施形態では、試料は、液体生検試料を含み、腫瘍核酸分子は、液体生検試料の循環腫瘍DNA(ctDNA)画分に由来し、非腫瘍核酸分子は液体生検試料の非腫瘍無細胞DNA(cfDNA)画分に由来する。いくつかの実施形態では、1つ以上のアダプターは、増幅プライマー、フローセルアダプター配列、基質アダプター配列、又は試料インデックス配列を含む。いくつかの実施形態では、捕捉された核酸分子は、1つ以上のベイト分子へのハイブリダイゼーションによって増幅された核酸分子から捕捉される。いくつかの実施形態では、1つ以上のベイト分子が、1つ以上の核酸分子を含み、各核酸分子が、捕捉された核酸分子の領域に相補的な領域を含む。いくつかの実施形態では、核酸分子を増幅することは、ポリメラーゼ連鎖反応(PCR)増幅技術、非PCR増幅技術、又は等温増幅技術を実施することを含む。いくつかの実施形態では、配列決定は、超並列配列決定(MPS)技術、全ゲノム配列決定(WGS)、全エクソーム配列決定、標的配列決定、直接配列決定、又はサンガー配列決定技術の使用を含む。いくつかの実施形態では、配列決定は、超並列配列決定を含み、超並列配列決定技術は、次世代シーケンシング(NGS)を含む。いくつかの実施形態では、次世代配列決定(NGS)が、ペアエンド配列決定を含む。いくつかの実施形態では、配列決定は、次世代シーケンサーを含む。いくつかの実施形態では、方法は、1つ以上のプロセッサによって、1つ以上の遺伝子座に対する予測されたコピー数を示すレポートを生成することを更に含む。いくつかの実施形態では、方法は、レポートを医療提供者に送信することを更に含む。いくつかの実施形態では、レポートは、コンピュータネットワーク又はピアツーピア接続を介して送信される。
【0009】
対象からの試料に対する配列リードデータ内の汚染を検出するための方法であって、方法が、1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、1つ以上のプロセッサを使用して、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、試料に対する汚染の程度を推定することと、1つ以上のプロセッサを使用して、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、1つ以上のプロセッサを使用して、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈する場合、異常として分類することと、1つ以上のプロセッサを使用して、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、1つ以上のプロセッサを使用して、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を含む、方法が、本明細書に開示される。
【0010】
いくつかの実施形態では、複数の配列決定リードのうちの1つ以上が、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する。
【0011】
いくつかの実施形態では、方法は、試料に対する推定された汚染の程度と等しいように第1の閾値に対する初期値を設定することを更に含む。
【0012】
いくつかの実施形態では、複数の選択された一塩基多型(SNP)が、複数の選択されたヘテロ接合体一塩基多型(SNP)を含む。
【0013】
いくつかの実施形態では、複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度の所定の分布が、複数の選択された一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の所定の分布を含む。
【0014】
いくつかの実施形態では、方法は、1つ以上のプロセッサによって出力されたセグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することを更に含む。いくつかの実施形態では、方法は、最終閾値を下回る対立遺伝子頻度を呈するSNPに対する全ての配列リードデータを、1つ以上の遺伝子座に対するコピー数分析から除外することを更に含む。いくつかの実施形態では、方法は、最終閾値を下回る対立遺伝子頻度を呈するSNPと同じセグメント上の遺伝子座に対する全ての配列リードデータを、1つ以上の遺伝子座に対するコピー数分析から除外することを更に含む。
【0015】
いくつかの実施形態では、複数の遺伝子座内で識別された複数の選択されたSNPが、少なくとも100SNP遺伝子座を含む。いくつかの実施形態では、複数の遺伝子座内で識別された複数の選択されたSNPが、少なくとも1,000SNPを含む。いくつかの実施形態では、複数の遺伝子座内で識別された複数の選択されたSNPが、最大10,000SNP遺伝子座を含む。いくつかの実施形態では、複数の遺伝子座内で識別された複数の選択されたSNPが、最大100,000SNP遺伝子座を含む。いくつかの実施形態では、複数の遺伝子座内で識別された複数の選択されたSNPが、最大1,000,000SNP遺伝子座を含む。
【0016】
いくつかの実施形態では、複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)が、約50%の不偏ヘテロ接合体対立遺伝子頻度を有する二対立遺伝子ヘテロ接合体SNPを含む。いくつかの実施形態では、複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)が、20%超のグローバル対立遺伝子頻度で観察される参照及び代替対立遺伝子を有する二対立遺伝子ヘテロ接合体SNPを含む。いくつかの実施形態では、複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)が、20%超のグローバルMAFで観察される参照及び代替対立遺伝子を有する二対立遺伝子ヘテロ接合体SNPを含む。
【0017】
いくつかの実施形態では、複数の選択されたSNPに対する対立遺伝子頻度の分布に基づいて、試料に対する汚染の程度を推定することが、少なくとも第2の閾値によって複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する試料中で識別されたヘテロ接合体SNPのパーセンテージを決定することを含む。
【0018】
いくつかの実施形態では、配列リードデータが、セグメント化ステップを実施する前にlog2カバレッジ比データに変換される。
【0019】
いくつかの実施形態では、SNPは、SNPが、遺伝子頻度の差の絶対値に基づいて同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される。いくつかの実施形態では、SNPは、SNPが、統計解析に基づいて同じセグメント上で検出された他のSNPSに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される。いくつかの実施形態では、統計解析が、t検定を含む。
【0020】
いくつかの実施形態では、セグメント化が、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、又は変化点法を使用して実施される。いくつかの実施形態では、セグメント化が、変化点法を使用して実施され、変化点法が、枝刈り厳密線形時間(PELT)法である。
【0021】
いくつかの実施形態では、セグメント化、分類、及び調整ステップが、最大1~10反復で繰り返される。
【0022】
いくつかの実施形態では、第1の閾値が、異常として分類されるSNPの数を低減するために増分調整され、第1の閾値が、少なくとも第3の閾値によって複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する試料中で識別されたSNPのパーセンテージに基づいて設定される。
【0023】
いくつかの実施形態では、試料中の汚染を検出するための検出の限界が、約10%未満である。いくつかの実施形態では、試料中の汚染を検出するための検出の限界が、約5%未満である。いくつかの実施形態では、試料中の汚染を検出するための検出の限界が、約1%未満である。いくつかの実施形態では、試料中の汚染を検出するための検出の限界が、約0.5%未満である。
【0024】
いくつかの実施形態では、第1の閾値が、0.2、0.3、0.4、又は0.5の値を有する。
【0025】
いくつかの実施形態では、第2の閾値が、複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布の平均から少なくとも1、少なくとも2、少なくとも3、少なくとも4の標準偏差である。
【0026】
いくつかの実施形態では、第3の閾値が、複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布の平均から少なくとも1、少なくとも2、少なくとも3、少なくとも4の標準偏差である。
【0027】
対象からの試料中のコピー数変化(CNA)を呼び出すための方法であって、1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、1つ以上のプロセッサを使用して、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、試料に対する汚染の程度を推定することと、1つ以上のプロセッサを使用して、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、1つ以上のプロセッサを使用して、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、1つ以上のプロセッサを使用して、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、1つ以上のプロセッサを使用して、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、1つ以上のプロセッサによって出力されたセグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することと、1つ以上の遺伝子座に対するコピー数変化を呼び出すことと、を含む、方法もまた、本明細書に開示される。
【0028】
いくつかの実施形態では、複数の配列決定リードのうちの1つ以上が、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する。
【0029】
いくつかの実施形態では、方法は、試料に対する推定された汚染の程度と等しいように第1の閾値に対する初期値を設定することを更に含む。
【0030】
いくつかの実施形態では、複数の選択された一塩基多型(SNP)が、複数の選択されたヘテロ接合体一塩基多型(SNP)を含む。
【0031】
いくつかの実施形態では、複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布が、複数の選択された一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の所定の分布を含む。
【0032】
いくつかの実施形態では、1つ以上の遺伝子座に対する呼び出されたCNAが、対象の疾患を診断するか、又はその診断を確認するために使用される。いくつかの実施形態では、疾患は、がんである。いくつかの実施形態では、方法が、抗がん治療を選択して、1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に投与することを更に含む。いくつかの実施形態では、方法が、抗がん治療の有効量を決定して、1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に投与することを更に含む。いくつかの実施形態では、方法が、1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に抗がん治療を投与することを更に含む。いくつかの実施形態では、抗がん治療が、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む。いくつかの実施形態では、がんは、B細胞がん(多発性骨髄腫)、黒色腫、乳がん、肺がん、気管支がん、結腸直腸がん、前立腺がん、膵臓がん、胃がん、卵巣がん、膀胱がん、脳がん、中枢神経系がん、末梢神経系がん、食道がん、子宮頸がん、子宮内膜がん、口腔のがん、咽頭のがん、肝臓がん、腎臓がん、精巣がん、胆道がん、小腸がん、虫垂がん、唾液腺がん、甲状腺がん、副腎がん、骨肉腫、軟骨肉腫、血液組織のがん、腺がん、炎症性筋線維芽細胞腫、消化管間質腫瘍(GIST)、結腸がん、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性骨髄性白血病(CML)、慢性リンパ性白血病(CLL)、赤血球増加症Vera、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨肉腫、脊索腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ血管内皮肉腫、滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮がん、基底細胞がん、腺がん、汗腺がん、脂腺がん、乳頭状がん、乳頭状腺がん、髄様がん、気管支原性がん、腎細胞がん、肝がん、胆管がん、絨毛がん、精上皮がん、胎児性がん、ウィルムス腫瘍、膀胱がん、上皮がん、神経膠腫、星細胞腫、髄芽腫、頭蓋咽頭腫、上衣腫、松果体細胞腫、神経膠芽腫、聴神経芽腫、乏突起膠腫、髄膜腫、神経芽腫、網膜芽細胞腫、濾胞性リンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞がん、甲状腺がん、胃がん、頭頸部がん、小細胞がん、本態性血小板血症、無形成性骨髄化生、好酸球増加症候群、全身性肥満細胞症、家族性好酸球増加症、慢性好酸球性白血病、神経内分泌がん、又はカルチノイド腫瘍である。
【0033】
いくつかの実施形態では、1つ以上の遺伝子座が、10~20遺伝子座、10~40遺伝子座、10~60遺伝子座、10~80遺伝子座、10~100遺伝子座、10~150遺伝子座、10~200遺伝子座、10~250遺伝子座、10~300遺伝子座、10~350遺伝子座、10~400遺伝子座、10~450遺伝子座、10~500遺伝子座、20~40遺伝子座、20~60遺伝子座、20~80遺伝子座、20~100遺伝子座、20~150遺伝子座、20~200遺伝子座、20~250遺伝子座、20~300遺伝子座、20~350遺伝子座、20~400遺伝子座、20~500遺伝子座、40~60遺伝子座、40~80遺伝子座、40~100遺伝子座、40~150遺伝子座、40~200遺伝子座、40~250遺伝子座、40~300遺伝子座、40~350遺伝子座、40~400遺伝子座、40~500遺伝子座、60~80遺伝子座、60~100遺伝子座、60~150遺伝子座、60~200遺伝子座、60~250遺伝子座、60~300遺伝子座、60~350遺伝子座、60~400遺伝子座、60~500遺伝子座、80~100遺伝子座、80~150遺伝子座、80~200遺伝子座、80~250遺伝子座、80~300遺伝子座、80~350遺伝子座、80~400遺伝子座、80~500遺伝子座、100~150遺伝子座、100~200遺伝子座、100~250遺伝子座、100~300遺伝子座、100~350遺伝子座、100~400遺伝子座、100~500遺伝子座、150~200遺伝子座、150~250遺伝子座、150~300遺伝子座、150~350遺伝子座、150~400遺伝子座、150~500遺伝子座、200~250遺伝子座、200~300遺伝子座、200~350遺伝子座、200~400遺伝子座、200~500遺伝子座、250~300遺伝子座、250~350遺伝子座、250~400遺伝子座、250~500遺伝子座、300~350遺伝子座、300~400遺伝子座、300~500遺伝子座、350~400遺伝子座、350~500遺伝子座、又は400~500遺伝子座を含む。
【0034】
疾患を診断するための方法であって、方法が、対象からの試料に対する呼び出されたCNAに基づいて、対象が疾患を有することを診断することを含み、呼び出されたCNAが、本明細書に開示される方法のうちのいずれかに従って決定される、方法が、本明細書に開示される。
【0035】
抗がん治療を選択する方法であって、方法が、対象からの試料に対する1つ以上の遺伝子座に対するCNAを呼び出すことに応答して、対象に対する抗がん治療を選択することを含み、呼び出されたCNAが、本明細書に開示される方法のうちのいずれかに従って決定される、方法が、本明細書に開示される。
【0036】
対象のがんを処置する方法であって、対象からの試料に対する1つ以上の遺伝子座に対するCNAを呼び出すことに応答して、有効量の抗がん治療を対象に投与することを含み、呼び出されたCNAが、本明細書に開示される方法のうちのいずれかに従って決定される、方法が、本明細書に開示される。
【0037】
対象における腫瘍の進行又は再発を監視するための方法であって、方法が、本明細書に開示される方法のうちのいずれかに従って、第1の時点で対象から得られた第1の試料中の1つ以上の遺伝子座に対するCNAを呼び出すことと、第2の時点で対象から得られた第2の試料中の1つ以上の遺伝子座に対するCNAを呼び出すことと、1つ以上の遺伝子座について、第1の呼び出されたCNAを第2の呼び出されたCNAと比較し、それによって、腫瘍の進行又は再発を監視することと、を含む、方法が、本明細書に開示される。いくつかの実施形態では、第2の試料中の1つ以上の遺伝子座に対する呼び出されたCNAは、本明細書に開示される方法のうちのいずれかに従って決定される。いくつかの実施形態では、方法が、腫瘍の進行に応答して抗がん治療を調整することを更に含む。いくつかの実施形態では、方法は、腫瘍進行に応答して抗がん治療の投与量を調整すること、又は異なる抗がん治療を選択することを更に含む。いくつかの実施形態では、方法が、調整された抗がん治療を対象に投与することを更に含む。いくつかの実施形態では、第1の時点は、対象が抗がん治療を投与される前であり、第2の時点は、対象が抗がん治療を投与された後である。いくつかの実施形態では、対象が、がんを有するか、がんを有するリスクがあるか、がんについて日常的に検査されているか、又はがんを有する疑いがある。いくつかの実施形態では、がんは、固形腫瘍である。いくつかの実施形態では、がんは、血液がんである。いくつかの実施形態では、抗がん治療が、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む。
【0038】
いくつかの実施形態では、本明細書に開示される方法のうちのいずれかは、試料中の1つ以上の遺伝子座に対する呼び出されたCNAを、試料と関連付けられた診断値として決定、識別、又は適用することを更に含み得る。いくつかの実施形態では、本明細書に開示される方法のうちのいずれかは、1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に対するゲノムプロファイルを生成することを更に含み得る。いくつかの実施形態では、対象のゲノムプロファイルが、包括的ゲノムプロファイリング(CGP)試験、遺伝子発現プロファイリング試験、がんホットスポットパネル試験、DNAメチル化試験、DNA断片化試験、RNA断片化試験、又はそれらの任意の組み合わせからの結果を更に含む。いくつかの実施形態では、対象のゲノムプロファイルが、核酸配列決定に基づく試験からの結果を更に含む。いくつかの実施形態では、方法は、生成されたゲノムプロファイルに基づいて、対象に対して、抗がん剤を選択すること、抗がん剤を投与すること、又は抗がん処置を適用することを更に含む。いくつかの実施形態では、1つ以上の遺伝子座に対する呼び出されたCNAが、対象に対する示唆される処置決定を行う際に使用される。いくつかの実施形態では、1つ以上の遺伝子座に対する呼び出されたCNAが、対象に処置を適用又は投与する際に使用される。
【0039】
システムであって、1つ以上のプロセッサと、1つ以上のプロセッサに通信可能に結合され、かつ命令を記憶するように構成されたメモリと、を備え、命令が、1つ以上のプロセッサによって実行されたとき、システムに、複数の配列リードに対する配列リードデータを受信することと、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、試料に対する汚染の程度を推定することと、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を含む、システムが、本明細書に開示される。いくつかの実施形態では、命令が、システムに、セグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築させることを更に含む。
【0040】
1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、1つ以上のプログラムが、命令を含み、命令が、システムの1つ以上のプロセッサによって実行されたとき、システムに、複数の配列リードに対する配列リードデータを受信することと、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、試料に対する汚染の程度を推定することと、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を含む、非一時的コンピュータ可読記憶媒体もまた、本明細書に開示される。いくつかの実施形態では、命令が、システムに、セグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築させることを更に含む。
【0041】
参照による組み込み
この明細書で言及される全ての刊行物、特許及び特許出願は、あたかも各個々の刊行物、特許又は特許出願が参照によりその全体が組み込まれることが具体的かつ個別に示されているのと同程度に、その全体が参照により本明細書に組み込まれる。本明細書の用語と組み込まれた参考文献の用語との間に矛盾がある場合、本明細書の用語が支配する。
【図面の簡単な説明】
【0042】
開示される方法、デバイス、及びシステムの様々な態様は、添付の特許請求の範囲に詳細に記載されている。開示される方法、デバイス、及びシステムの特徴及び利点のより良い理解は、例示的な実施形態の以下の詳細な説明及び添付の図面を参照することによって得られるであろう。
【0043】
【
図1】核酸配列データを処理するための反復汚染検出及びセグメント化プロセスを実施するためのプロセスフローチャートの非限定的な例を提供する。
【
図2】複数の選択されたヘテロ接合体SNPに対するマイナー対立遺伝子頻度の分布に基づいて、試料汚染に対する初期推定値を決定するためのプロセスフローチャートの非限定的な例を提供する。
【
図3】試料汚染の初期推定値に基づいて、配列データの反復セグメント化を実施するためのプロセスフローチャートの非限定的な例を提供する。
【
図4】汚染DNAに由来する可能性が高い、したがって、コピー数分析から除外されるべき遺伝子座データを識別するためにSNPマイナー対立遺伝子頻度データのレビューを実施するためのプロセスフローチャートの非限定的な例を提供する。
【
図5】本明細書に説明されるシステムのいくつかの例による、例示的なコンピューティングデバイスを図示する。
【
図6】本明細書に説明されるシステムのいくつかの例による、例示的なコンピュータシステム又はコンピュータネットワークを図示する。
【
図7】log2カバレッジ比データ及びマイナー対立遺伝子頻度データのプロットの非限定的な例を提供する。
【発明を実施するための形態】
【0044】
配列リードデータの反復汚染検出及びセグメント化を実施するための方法及びシステム。方法は、選択された一塩基多型(SNP)(例えば、ヘテロ接合体一塩基多型(SNP))セットに対する対立遺伝子頻度(例えば、マイナー対立遺伝子頻度)の分布に基づいて、試料に対する汚染の程度を推定することを含む。次いで、第1の閾値(マイナー対立遺伝子頻度(MAF)閾値)に対する初期値として、推定された汚染の程度を使用して、配列決定データは、第1の閾値を下回る対立遺伝子頻度を有するSNPを含むセグメント化プロセスから配列決定データを同時に除外しながら反復的にセグメント化される。各反復では、残っているSNPは、それらが、同じセグメント上で検出される他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を有する場合、異常(すなわち、汚染に起因する可能性がある)として分類され、第1の閾値は、選択された、例えば、ヘテロ接合体SNPセットに対する対立遺伝子頻度の予想される分布に対する、異常SNP対立遺伝子頻度の分布の比較に基づいて、増分調整される。セグメント化、分類、及び第1の閾値調整ステップは、第1の閾値が増加するたびに繰り返される。第1の閾値の更なる増加が必要とされないとき(又は異常SNPマイナー対立遺伝子頻度の更なる変化が存在しないか、又は反復の指定された最大数に達したとき)、セグメント化データ及び試料に対する推定された汚染の程度(第1の閾値の最終値と等しい)が出力される。いくつかの例では、方法は、セグメント化データを使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築する。
【0045】
いくつかの例では、例えば、試料に対する配列リードデータ内の汚染を検出するための開示される方法は、1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、試料に対する汚染の程度を推定することと、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を含む。いくつかの例では、方法は、1つ以上のプロセッサによって出力されたセグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することを更に含み得る。
【0046】
開示される方法及びシステムは、患者試料中に実際に存在しない変異体配列の誤った検出及び呼び出しを低減又は排除し、配列リードデータのより正確なコピー数モデリングを可能にし、それによって、患者試料に対する配列データによって表された1つ以上の遺伝子座におけるコピー数変化のより信頼性の高い検出及び呼び出しを結果的にもたらす。
【0047】
定義
他に定義されない限り、本明細書において使用される技術的用語の全ては、本開示が属する分野の当業者によって一般的に理解されるのと同じ意味を有する。
【0048】
本明細書及び添付の特許請求の範囲において使用される場合、単数形「1a」、「an」、及び「the」は、文脈上他に明確に指示されない限り、複数の言及を含む。本明細書における「又は」への任意の言及は、特に明記しない限り、「及び/又は」を包含することが意図される。
【0049】
本明細書で使用される場合、「含む(comprising)」(並びに「comprise」及び「comprises」などのcomprisingの任意の形態又は変形)、「有する(having)」(並びに「have」及び「has」等のhaving任意の形態又は変形)、「含む(including)」(並びに「includes」及び「include等を含む任意の形態又は変形)、又は「含有する(containing)」(及び「contains」及び「contain」等のcontainingの任意の形態又は変形)という用語は、包括的又はオープンエンドであり、追加の列記されていない添加剤、構成要素、整数、要素、又は方法ステップを排除するものではない。
【0050】
本明細書で使用される場合、数又は値の「約」という用語は、その数又は値のプラス又はマイナス10%の数又は値を指す。範囲の文脈で使用されるときの「約」という用語は、その範囲のその最低値のマイナス10%及びその最大値のプラス10%を指す。
【0051】
本明細書で使用される場合、「サブゲノム区間」(又は「サブゲノム配列区間」)という用語は、ゲノム配列の一部分を指す。
【0052】
本明細書で使用される場合、「対象区間」という用語は、サブゲノム区間又は発現サブゲノム区間(例えば、サブゲノム区間の転写配列)を指す。
【0053】
本明細書で使用される場合、「変異体配列」又は「変異体」という用語は、互換的に使用され、対応する「正常な」又は「野生型」配列に対して修飾された核酸配列を指す。いくつかの例では、変異体配列は、「短い変異体配列」(又は「短い変異体」)、すなわち、約50塩基対未満の長さの変異体配列であり得る。
【0054】
「対立遺伝子頻度」及び「対立遺伝子画分」という用語は、本明細書では互換的に使用され、ゲノム遺伝子座に対する配列リードの総数に対する特定の対立遺伝子に対応する配列リードの画分を指す。
【0055】
「変異体対立遺伝子頻度」及び「変異体対立遺伝子画分」という用語は、本明細書では互換的に使用され、ゲノム遺伝子座の配列リードの総数に対する特定の変異体対立遺伝子に対応する配列リードの画分を指す。
【0056】
本明細書で使用される場合、「メジャー対立遺伝子」という用語は、所与の遺伝子座又は一塩基多型(SNP)に対する最も共通の対立遺伝子を指す。
【0057】
本明細書で使用される場合、「マイナー対立遺伝子」という用語は、所与の遺伝子座又はSNPに対する共通性の低い対立遺伝子を指す。マイナー対立遺伝子は、3つ以上の対立遺伝子が観察されるゲノム遺伝子座(例えば、遺伝子座、SNP遺伝子座など)に対する2番目に共通性の高い対立遺伝子である。
【0058】
本明細書で使用される場合、「二対立遺伝子座」及び「二対立遺伝子SNP」という用語は、それぞれ、参照を1つとカウントして、2つの観察された対立遺伝子を含有する、遺伝子座又はSNPを指す。二対立遺伝子座又は二対立SNPは、したがって、2つの観察された対立遺伝子、参照対立遺伝子(すなわち、GRCh38などの参照ゲノムに存在する対立遺伝子に一致する対立遺伝子)及び代替対立遺伝子を含有し得る。
【0059】
本明細書で使用される場合、「セグメント化」(又は「配列セグメント化」)という用語は、複数のセグメントの各セグメントが可能な限り均質であり、かつ所与のセグメントと関連付けられた全ての配列リードが同じコピー数を有するように、配列リードデータを、全ての配列リードデータ点をカバーするいくつかの非重複セグメントに分割するためのプロセスを指す。いくつかの例では、セグメント化は、当業者に既知の様々な方法(例えば、Braun and Miller(1998),“Statistical methods for DNA sequence segmentation”,Statistical Science 13(2):142-162を参照されたい)のうちのいずれかを使用して、整列された配列リードデータ(又は配列リードデータに由来する、他の配列決定関連データ、例えば、カバレッジデータ、対立遺伝子頻度データなど)を処理することによって実施され得る。セグメント化方法の例としては、限定されるものではないが、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、変化点法、又はそれらの任意の組み合わせを含む。
【0060】
本明細書で使用される場合、「倍数性」という用語は、腫瘍試料中の複数の遺伝子座に対する平均コピー数を指す。いくつかの例では、腫瘍試料の「倍数性」は、腫瘍試料の不均質性(すなわち、腫瘍試料純度の変動)に起因して、細胞内の完全な染色体セットの数、したがって、常染色体遺伝子(すなわち、番号付きの非性染色体に位置する遺伝子)に対する可能な対立遺伝子の数とは異なり得る。
【0061】
本明細書で使用されるいかなる項目の見出しも、構成上の目的のみのためであり、記載される主題を限定するものと解釈されるべきではない。
【0062】
反復汚染検出及びセグメント化を実施するための方法
反復汚染検出及びセグメント化を実施するための開示される方法は、2つの主な目的に対処する。(i)配列決定試料中の汚染の程度を検出及び推定すること、及び(ii)下流コピー数モデリングのエラー源として汚染を除外すること。試料中の汚染を検出する能力、試料が汚染される程度を推定する能力、及び汚染配列リードデータを除去する能力は、例えば、有意な汚染を有し、それゆえに、核酸配列データを処理するための変異体呼び出し又はコピー数呼び出しパイプラインで必ず失敗する試料を識別することを可能にする(移植症例は、この場合の例外であり得、移植症例では、「汚染」が既知であり、したがって、変異体が依然として報告され得る)。追加的に、下流の変異体呼び出し又はコピー数モデリングのエラー源として汚染を除去する能力は、誤った変異体呼び出しを最小化又は排除し、コピー数変化(CNA)をより正確に検出し、呼び出すことを可能にする。未補正のままでは、汚染された試料に対する配列リードデータは、低頻度SNPの存在に起因して、高純度(すなわち、高い腫瘍画分)試料に対するデータと非常によく似ているように見え得る。
【0063】
2つのヒト核酸試料が混合されるとき、共通SNPに対する対立遺伝子頻度(AF)プロファイルが、実質的に影響を受ける。表1は、低レベル汚染の場合における単一SNPに対する汚染の影響を説明する。
【表1】
【0064】
試料汚染を検出するために使用され得るいくつかの戦略が存在する。1つのアプローチでは、例えば、低対立遺伝子頻度SNPの濃縮を探し得る。低レベル汚染は、通常、別個のバンドの低マイナー対立遺伝子頻度SNPを生成する。しかしながら、このアプローチは、腫瘍異数性に起因する低対立遺伝子頻度SNPを有する試料によって混乱し得る。最も問題となる状況は、腫瘍が各染色体の1つのコピーを喪失し、全てのSNPが低対立遺伝子頻度で出現する、高純度(高い腫瘍画分)のゲノムワイドのヘテロ接合性の喪失の場合である。
【0065】
試料汚染を検出するための第2の戦略は、過剰なヘテロ接合性を探すことに基づく。母集団全体のSNPは、一般に、ハーディーワインベルク平衡に見出される。この原理は、所与の試料中のSNPセットに適用されるとき(特に非常に共通の二対立遺伝子SNPセットに適用されるとき)、特定の遺伝子型分布を規定する。特に、どのレベルのヘテロ接合性が合理的に偶然に観察され得るかという制約を設定する。試料の汚染は、過剰な見かけのヘテロ接合性につながり、これは、汚染を検出する有効な手段であり得る。このアプローチは、試料純度(腫瘍画分)に関する問題を回避するが、祖先の系統(母集団間の全体的なヘテロ接合性の変動を含む)及び検定に使用する均一な多型SNPセットを決定する際の難しさによって混乱し得る。
【0066】
第3の戦略は、隣接するSNPに対してマイナー対立遺伝子頻度が一貫しないSNPを探すことを含み、本明細書に説明される方法の基礎を形成する。
【0067】
図1は、核酸配列データを処理するための反復汚染検出及びセグメント化プロセス100を実施するためのプロセスフローチャートの非限定的な例を提供する。ステップ110では、試料中の汚染の程度の初期推定が、1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータ内で識別された複数の選択されたヘテロ接合体SNPを使用して試料の見かけのヘテロ接合性を決定することに基づいて行われる。汚染の初期推定を生成するためのプロセスは、
図2に関して以下により詳細に説明される、
【0068】
いくつかの例では、配列リードデータは、更なる処理の前にカバレッジ比データに(又はlog2カバレッジ比(L2R)データに)変換され得る。いくつかの例では、試料に対するカバレッジ比データ(例えば、患者腫瘍試料)は、試料中及び対照中(例えば、一対の正常対照、プロセスマッチド対照、又は「パネルオブノーマル」対照)の1つ以上のサブゲノム区間内の1つ以上の遺伝子座が重複する複数の配列リードを参照ゲノム(例えば、GRCh38ヒト参照ゲノム)にアラインメントし、腫瘍試料に対するカバレッジを対照におけるカバレッジに正規化するために、試料中及び対照中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座の各々が重複する配列リードの数を決定することによって決定される。いくつかの例では、例えば、一対の正常対照試料が利用可能ではない場合、プロセスマッチド対照(例えば、複数のHapMap細胞株からのDNAの混合物)が、カバレッジを正規化するために、一対の正常対照の代わりに使用され得る。いくつかの例では、例えば、一対の正常対照試料が利用可能ではない場合、「パネルオブノーマル」対照が、カバレッジを正規化するために、一対の正常対照の代わりに使用され得る。
【0069】
配列決定カバレッジを正規化するために「パネルオブノーマル」又は「タンジェント正規化」対照法を適用する1つの方法は、Tabak,et al.(2019)“The Tangent copy-number inference pipeline for cancer genome analyses”,https://www.biorxiv.org/content/10.1101/566505v1.full.pdfによって説明されている。タンジェント正規化法は、データ内のノイズに対処するために腫瘍データを正規化する方法である。具体的には、タンジェント法は、腫瘍及び/又はそれらの正常対照からの配列決定データが生成された実験条件の差から結果的に生じるシステミックノイズを低減することに対処する。タンジェント正規化法が従来の正規化法よりもノイズのより大きい低減をもたらすことが示されている。
【0070】
いくつかの例では、試料(例えば、患者腫瘍試料)に対する対立遺伝子画分データは、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座が重複する複数の配列リードを参照ゲノム(例えば、GRCh38ヒト参照ゲノム)にアラインメントし、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に存在する異なる対立遺伝子の数を検出し、所与の対立遺伝子配列に対して識別された配列リードの数を、遺伝子座に対して識別された配列リードの総数で除算することによって、1つ以上の遺伝子座に存在する異なる対立遺伝子に対する対立遺伝子画分を決定することによって、決定される。
【0071】
図1のステップ120では、配列リードデータの汚染検出及びセグメント化の反復プロセスが実施される。上記のように、試料中及び対照中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータが、参照ゲノムにアラインメントされ得、試料中及び対照中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座の各々と重複する配列リードの数が、腫瘍試料に対するカバレッジを対照のカバレッジに正規化するために(すなわち、カバレッジ比を決定するために)決定され得る。いくつかの例では、カバレッジ比データは、L2Rデータに更に変換され得る。次いで、反復プロセスが、汚染の可能性を検出し、更なる分析からの関連付けられたカバレッジ又はL2Rデータを除去し、カバレッジ又はL2Rデータのセグメント化を実施するために使用される対立遺伝子頻度(AF)閾値(例えば、マイナー対立遺伝子頻度(MAF)閾値)を調整するために、1つ以上の遺伝子座に対する(及び関連付けられたSNP)L2Rデータを使用して実施される。反復的に、汚染の可能性を検出し、更なる分析からの関連付けられたカバレッジ又はL2Rデータを除去し、セグメント化を実施するためのプロセスは、
図3に関して以下により詳細に説明される。
【0072】
図1のステップ130では、ステップ120で反復プロセスを使用して決定されたセグメント化及び汚染データが出力される。いくつかの例では、ステップ130で出力されたセグメント化及び汚染データが、例えば、1つ以上の遺伝子座に対する複数の配列リードと関連付けられたカバレッジ比及び対立遺伝子画分データを最良に考慮するコピー数モデルへの入力として使用される。
【0073】
図2は、1つ以上の遺伝子座と関連付けられた複数の選択されたSNP(例えば、複数の選択されたヘテロ接合体SNP)に対する対立遺伝子頻度(例えば、マイナー対立遺伝子頻度)の分布に基づいて、試料汚染に対する初期推定値を決定するために使用されるプロセス200のフローチャートの非限定的な例を提供する。所定のSNPセットが、ステップ202で入力され、ステップ204で遺伝子型を同定されて、ヘテロ接合体と思われるSNPのサブセットを識別する。
【0074】
汚染の初期推定に関して、典型的には、少数のみのSNP遺伝子座(例えば、1,000桁)が考慮される。いくつかの例では、複数の選択されたヘテロ接合体一塩基多型(SNP)が、約50%の不偏ヘテロ接合体対立遺伝子頻度を有する二対立遺伝子SNPを含む。いくつかの例では、複数の選択されたヘテロ接合体一塩基多型(SNP)は、例えば、20%超のグローバルMAFで観察される(すなわち、Single Nucleotide Polymorphism Database(dbSNP)又はGenome Aggregation Database(GnomAD)で報告されるように、例えば、デフォルトグローバル母集団の20%超で観察される)参照及び代替対立遺伝子を有する共通の二対立遺伝子SNPを含む。
【0075】
いくつかの例では、汚染の初期推定値を決定するために使用される選択されたヘテロ接合体SNP遺伝子座の数は、約100~約1,000,000SNP遺伝子座の範囲であり得る。いくつかの例では、選択されたヘテロ接合体SNP遺伝子座の数は、少なくとも100、少なくとも1,000、少なくとも10,000、少なくとも100,000、又は少なくとも1,000,000であり得る。いくつかの例では、選択されたヘテロ接合体SNP遺伝子座の数は、最大で1,000,000、最大で100,000、最大で10,000、最大で1,000、又は最大で100であり得る。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、選択されたヘテロ接合体SNP遺伝子座の数は、1,000~10,000の範囲であってもよい。当業者は、選択されたヘテロ接合体SNP遺伝子座の数が、この範囲内の任意の値、例えば、約1,012SNP遺伝子座を有し得ることを認識するであろう。
【0076】
いくつかの例では、選択されたヘテロ接合体SNP遺伝子座は、少なくとも10%、少なくとも15%、少なくとも20%、少なくとも25%、少なくとも30%、少なくとも35%、少なくとも40%、又は少なくとも45%のグローバルMAFの参照及び代替対立遺伝子頻度を有する二対立遺伝子SNPを含み得る。
【0077】
図2のステップ206では、汚染と関連付けられる可能性が高いカバレッジ比又はL2Rデータが、試料中の選択されたSNPに対する過剰な数のヘテロ接合体呼び出しに基づいて検出される(例えば、隣接する標的遺伝子座、SNP遺伝子座、又はイントロンに対して一貫していないマイナー対立遺伝子頻度を有する選択されたヘテロ接合体SNPのサブセットの識別)。したがって、試料に対する汚染の程度の初期推定値は、ステップ208で、複数の選択されたヘテロ接合体SNPに対する対立遺伝子頻度の分布に基づいて出力され、複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想されたAF分布(例えば、予想されたMAF分布)とは有意に異なるAF(例えば、MAF)を有する選択されたヘテロ接合体SNPのパーセンテージを決定することを含む。いくつかの例では、複数の選択されたヘテロ接合体SNPに対する様相されたAF分布(例えば、予想されたMAF分布)とは有意に異なるAF(例えば、MAF)を有する選択されたヘテロ接合体SNPのパーセンテージを決定することは、少なくとも第2の閾値によって複数の選択されたヘテロ接合体SNPに対する予想されたAF分布とは異なるAFを有する選択されたヘテロ接合体SNPのパーセンテージを決定することを含み得る。いくつかの例では、第2の閾値が、複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布の平均から少なくとも1、少なくとも2、少なくとも3、少なくとも4の標準偏差であり得る。
【0078】
図3は、試料汚染の初期推定値に基づいて、配列データの反復セグメント化を実施するためのプロセス300のフローチャートの非限定的な例を提供する。試料汚染レベルの初期推定値(
図2に例示されるプロセス200によって決定される)は、ステップ302で入力され、調整可能な第1の閾値(例えば、調整可能なAF閾値又はMAF閾値)に対する初期値として使用される。反復セグメント化プロセスが、1つ以上の遺伝子座及び関連付けられたヘテロ接合体SNPに対するL2Rデータを使用して、ステップ304で開始される。ステップ306では、所定のSNPセットの各々に対する対立遺伝子頻度が、現在のAF閾値(例えば、MAF閾値)と比較され(すなわち、汚染に起因する可能性が高いL2R及び対立遺伝子頻度データを識別するために)、それが現在のAF閾値(例えば、MAF閾値)を下回る対立遺伝子頻度を有する場合、ステップ308で、更なる分析から除外される(すなわち、セグメント化及びコピー数モデリングに使用されるデータセットから除外される)。
【0079】
いくつかの例では、第1の閾値(例えば、対立遺伝子頻度閾値、又はマイナー対立遺伝子頻度(MAF)閾値)は、約0.1~約0.9(画分単位)の範囲であり得る。いくつかの例では、第1の閾値は、少なくとも0.1、少なくとも0.2、少なくとも0.3、少なくとも0.4、少なくとも0.5、少なくとも0.6、少なくとも0.7、少なくとも0.8、又は少なくとも0.9であり得る。いくつかの例では、第1の閾値は、最大で0.9、最大で0.8、最大で0.7、最大で0.6、最大で0.5、最大で0.4、最大で0.3、最大で0.2、又は最大で0.1であり得る。
【0080】
いくつかの例では、第1の閾値(例えば、対立遺伝子頻度閾値、又はマイナー対立遺伝子頻度(MAF)閾値)は、約10%~約90%(パーセンテージ単位)の範囲であり得る。いくつかの例では、第1の閾値は、少なくとも10%、少なくとも20%、少なくとも30%、少なくとも40%、少なくとも50%、少なくとも60%、少なくとも70%、少なくとも80%、又は少なくとも90%であり得る。いくつかの例では、第1の閾値は、最大で90%、最大で80%、最大で70%、最大で60%、最大で50%、最大で40%、最大で30%、最大で20%、又は最大で10%であり得る。
【0081】
SNP対立遺伝子頻度データが、ステップ306で、現在のAF閾値(例えば、MAF閾値)を上回ると決定された場合、同じセグメント上の他のSNPに対する対立遺伝子頻度への比較がステップ310で行われる。いくつかの例では、SNPは、ステップ312で、それが、遺伝子頻度の差の絶対値に基づいて同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈する場合、異常として分類される。いくつかの例では、SNPは、ステップ312で、それが、統計解析、例えば、t検定に基づいて同じセグメント上で検出された他のSNPSに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈する場合、異常として分類される。
【0082】
図3のステップ314では、現在のAF閾値(例えば、MAF閾値)が増加されるべきであるか否かに関する決定が行われる。AF閾値は、異常SNPマイナー対立遺伝子頻度の全体的な分布に基づいて、増分ステップで反復的に増加され得る。いくつかの例では、AF閾値は、異常として分類されるSNPの数を低減するように増分調整され、AF閾値は、1つ以上の遺伝子座内で識別された選択された(所定の)ヘテロ接合体SNPセットに対する予想されたAF分布とは有意に異なるAFを有するヘテロ接合体SNPのパーセンテージに基づいて設定される。真の汚染の場合、かなりの数の汚染SNPが存在することが予想され(例えば、それらが全て検出可能なレベルである場合、数千)、そのため、AF閾値(例えば、MAF閾値)を決定するために観察された最高の対立遺伝子頻度を採用する必要はない。代わりに、分布における、ある位置、例えば、50番目に高い対立遺伝子頻度(例えば、汚染に起因すると予想された分布の特定のパーセンタイルに対応する)に注目し得る。次いで、AF閾値が、データ品質の変動を考慮するようにいくつかの異なる基準に基づいて調整される(例えば、観察されたSNP対立遺伝子頻度の差、試料に対して観察された最高の対立遺伝子頻度、全てのSNPが異常として分類される場合など)。いくつかの例では、AF閾値が、少なくとも第3の閾値による複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する試料中で識別されたSNPのパーセンテージに基づいて増分調整される。いくつかの例では、第3の閾値が、複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布の平均から少なくとも1、少なくとも2、少なくとも3、少なくとも4の標準偏差である。
【0083】
ステップ314でAF閾値を増加させることが必要である場合、反復セグメント化プロセスが、ステップ304にループバックすることによって繰り返される。いくつかの例では、セグメント化が、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、又は変化点法を使用して実施される。いくつかの例では、セグメント化が、変化点法を使用して実施され、変化点法が、枝刈り厳密線形時間(PELT)法である。いくつかの例では、
図3に図示されるセグメント化ループ(ステップ304~314)は、少なくとも1、2、3、4、5、6、7、8、9、10、又は10回超繰り返され得る。
【0084】
ステップ314でAF閾値を増加させる必要がない場合、AF閾値の現在の値が、ステップ316で、試料中の汚染の程度の最終推定値として出力される。
【0085】
いくつかの例では、配列決定データの品質に応じて、開示される方法を使用して試料中の汚染を検出するための検出の限界は、約10%未満、約5%未満、約4%未満、約3%未満、約2%未満、約1%未満、約0.5%未満、又は約0.1%未満である。
【0086】
図4は、汚染DNAに由来する可能性が高い、したがって、コピー数分析から除外されるべき遺伝子座データを識別するためにSNPマイナー対立遺伝子頻度データのレビュー及びフィルタリングを実施するために使用されるプロセス400のフローチャートの非限定的な例を提供する。
図3に図示されるプロセス300によって決定されたAF閾値(例えば、MAF閾値)の最終値が、ステップ402で入力される。ステップ404では、所定の(選択された)ヘテロ接合体SNPセット内の各SNPに対するマイナー対立遺伝子頻度が、AF閾値の最終値と比較される。AF閾値を有意に上回らないAFを有するSNPは、コピー数モデリングの使用から除外される(そのSNPと同じセグメント上の遺伝子座に対するL2R及び対立遺伝子頻度データとともに)。AF閾値を有意に上回るAFを有するSNPは、コピー数モデリングに含められ(そのSNPと同じセグメント上の遺伝子座に対するL2R及び対立遺伝子頻度データとともに)、AF閾値の最終値が、試料中の推定された汚染の程度として報告される。
【0087】
いくつかの例では、反復汚染検出及びセグメント化を実施するための開示される方法は、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも120、少なくとも140、少なくとも160、少なくとも180、少なくとも200、少なくとも220、少なくとも240、少なくとも260、少なくとも280、少なくとも300、少なくとも320、少なくとも340、少なくとも360、少なくとも380、少なくとも400、又は400超の遺伝子座を含む、遺伝子座のパネルをカバーする配列リードデータに適用され得る。いくつかの例では、パネルは、例えば、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1,000、少なくとも2,000、少なくとも3,000、少なくとも4,000、少なくとも5,000、少なくとも600、少なくとも7,000、少なくとも8,000、少なくとも9,000、又は少なくとも10,000SNP遺伝子座を含む、複数のゲノムワイドSNP遺伝子座を更に含み得る。いくつかの例では、パネルは、遺伝子座、SNP遺伝子座、エクソン遺伝子座、イントロン遺伝子座、又はそれらの任意の組み合わせを含む、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1,000、少なくとも1,500、少なくとも2,000、少なくとも2,500、少なくとも3,000、少なくとも3,500、少なくとも4,000、少なくとも4,500、少なくとも5,000、少なくとも5,500、少なくとも6,000、少なくとも6,500、少なくとも7,000、少なくとも7,500、少なくとも8,000、少なくとも8,500、少なくとも9,000、少なくとも9,500、少なくとも10,000、少なくとも11,000、少なくとも12,000、少なくとも13,000、少なくとも14,000、又は少なくとも15,000標的遺伝子座を含み得る。
【0088】
いくつかの例では、所定のヘテロ接合体SNP遺伝子座セット(又は選択されたサブセット)は、少なくとも100、少なくとも500、少なくとも1,000、少なくとも5,000、少なくとも10,000、少なくとも50,000、少なくとも100,000、少なくとも500,000、又は少なくとも1,000,000SNP遺伝子座を含み得る。
【0089】
使用方法
いくつかの例では、開示された方法は、(i)対象(例えば、がんを有することが疑われるか、又はがんを有すると決定された対象)から試料を得るステップと、(ii)試料から核酸分子(例えば、腫瘍核酸分子と非腫瘍核酸分子との混合物)を抽出するステップと、(iii)試料から抽出された核酸分子に1つ以上のアダプター(例えば、1つ以上の増幅プライマー、フローセルアダプター配列、基質アダプター配列、又は試料インデックス配列)をライゲーションするステップと、(iv)(例えば、ポリメラーゼ連鎖反応(PCR)増幅技術、非PCR増幅技術、又は等温増幅技術を使用して)核酸分子を増幅するステップと、(v)(例えば、捕捉された核酸分子の領域に相補的な領域をそれぞれ含む1つ以上の核酸分子をそれぞれ含む1つ以上のベイト分子へのハイブリダイゼーションによって)増幅された核酸分子から核酸分子を捕捉するステップと、(vi)例えば、次世代(例えば、大規模並列)シーケンサーを使用して、例えば、次世代(超並列)配列決定技術、全ゲノム配列決定(WGS)技術、全エクソーム配列決定技術、標的配列決定技術、直接配列決定技術、又はサンガー配列決定技術を使用して、試料から抽出された核酸分子(又はそれに由来するライブラリプロキシ)を配列決定するステップと、(vii)対象(又は患者)、介護者、ヘルスケア提供者、医師、腫瘍学者、電子カルテシステム、病院、診療所、診療所、第三者支払人、保険会社、又は官公庁にレポート(例えば、電子レポート、ウェブベースのレポート、又は紙のレポート)を生成、表示、送信、及び/又は送達するステップと、のうちの1つ以上を更に含み得る。場合によっては、レポートは、本明細書に記載の方法からの出力を含む。場合によっては、レポートの全部又は一部は、オンライン又はウェブベースのヘルスケアポータルのグラフィカルユーザインターフェースに表示されることができる。場合によっては、レポートは、コンピュータネットワーク又はピアツーピア接続を介して送信される。
【0090】
開示される方法は、様々な試料のうちのいずれかとともに使用され得る。例えば、いくつかの例では、試料は、組織生検試料、液体生検試料、又は正常対照を含み得る。いくつかの例では、試料は、液体生検試料であり得、血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含み得る。いくつかの例では、試料は、液体生検試料であり得、循環腫瘍細胞(CTC)を含み得る。いくつかの例では、試料は、液体生検試料であり得、無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、又はそれらの任意の組み合わせを含み得る。
【0091】
いくつかの例では、試料から抽出された核酸分子は、腫瘍核酸分子と非腫瘍核酸分子との混合物を含むことができる。いくつかの例では、腫瘍核酸分子は、異種組織生検試料の腫瘍部分に由来することができ、非腫瘍核酸分子は、異種組織生検試料の正常部分に由来することができる。いくつかの例では、試料は、液体生検試料を含むことができ、腫瘍核酸分子は、液体生検試料の循環腫瘍DNA(ctDNA)画分に由来することができ、非腫瘍核酸分子は、液体生検試料の非腫瘍無細胞DNA(cfDNA)画分に由来することができる。
【0092】
いくつかの例では、反復汚染検出及びセグメント化を実施するための開示される方法は、コピー数変化呼び出しパイプラインの一部として使用され得、その結果、対象(例えば、患者)における疾患(例えば、がん、遺伝性疾患(ダウン症候群及び脆弱X)、神経疾患、又はコピー数が当該疾患の診断、処置、又は予測に関連する任意の他の疾患タイプ)の存在を診断するために使用され得る。いくつかの例では、開示される方法は、本明細書の他の箇所で説明されるように、様々ながんのうちのいずれかの診断に適用可能であり得る。
【0093】
いくつかの例では、反復汚染検出及びセグメント化を実施するための開示される方法は、コピー数変化呼び出しパイプラインの一部として使用され得、その結果、胎児DNAにおける遺伝性疾患を予測するために使用され得る。(例えば、侵襲的又は非侵襲的出生前検査のために)。例えば、侵襲的羊水穿刺、絨毛絨毛サンプリング(CVS)、若しくは胎児臍帯サンプリング技術を使用して得られた試料、又は無細胞DNA(cfDNA)試料の非侵襲的サンプリング(母体cfDNAと胎児cfDNAとの混合物を含む)を使用して得られた試料から抽出された胎児DNAを配列決定して得られた配列リードデータが、例えば、ダウン症(トリソミー21)、トリソミー18、トリソミー13、X及びY染色体の余分なコピー又は欠損と関連付けられたコピー数変化を識別するために、開示される方法に従って処理され得る。
【0094】
いくつかの例では、反復汚染検出及びセグメント化を実施するための開示される方法は、コピー数変化呼び出しパイプラインの一部として使用され得、その結果、1つ以上の遺伝子座に対して決定されたCNA値に基づいて、臨床試験のための対象(例えば、患者)を選択するために使用され得る。いくつかの例では、例えば、1つ以上の遺伝子座のCNAの識別に基づく、臨床試験のための患者選択は、標的療法の開発を加速させ、処置決定の医療成果を改善する。
【0095】
いくつかの例では、反復汚染検出及びセグメント化を実施するための開示される方法は、コピー数変化呼び出しパイプラインの一部として使用され得、その結果、対象に対する適切な治療又は処置(例えば、がん治療又はがん処置)を選択するために使用され得る。いくつかの例では、例えば、がん治療又は処置は、ポリ(ADP-リボース)ポリメラーゼ阻害薬(PARPi)、白金化合物、化学療法、放射線療法、標的療法(例えば、免疫療法)、外科手術、又はそれらの任意の組み合わせの使用を含み得る。
【0096】
いくつかの例では、反復汚染検出及びセグメント化を実施するための開示される方法は、コピー数変化呼び出しパイプラインの一部として使用され得、その結果、対象における疾患(例えば、がん)を治療する際に使用され得る。例えば、本明細書に開示される方法のうちのいずれかを使用してCNAを呼び出すことに応答して、有効量のがん治療又はがん処置が対象に投与され得る。
【0097】
いくつかの例では、反復汚染検出及びセグメント化を実施するための開示される方法は、コピー数変化呼び出しパイプラインの一部として使用され得、その結果、対象における疾患の進行又は再発(例えば、がん又は腫瘍の進行又は再発)を監視するために使用され得る。例えば、いくつかの例では、方法は、第1の時点で対象から得られた第1の試料中のCNAを呼び出すために使用されるとともに、第2の時点で患者から得られた第2の試料中のCNAを呼び出すために使用され得、CNAの第1の決定及びCNAの第2の決定の比較は、疾患の進行又は再発を監視することを可能にする。いくつかの例では、第1の時点は、患者が治療又は処置を投与される前に選択され、第2の時点は、対象が治療又は処置を投与された後に選択される。
【0098】
いくつかの例では、開示される方法は、例えば、本明細書に開示される反復汚染検出及びセグメント化方法を組み込むコピー数変化呼び出しパイプラインを使用する1つ以上のCNAの決定における変化に応答して、処置用量を調整し、及び/又は異なる処置を選択することによって、対象に対する治療又は処置(例えば、がん処置又はがん治療)を調整するために使用され得る。
【0099】
いくつかの例では、開示される方法を使用するコピー数変化(CNA)の検出は、試料と関連付けられた予後又は診断指標として使用され得る。例えば、いくつかの例では、予後又は診断指標は、試料中の疾患(例えば、がん)の存在の指標、疾患(例えば、がん)が試料中に存在する可能性の指標、試料が由来した対象が疾患(例えば、がん)を発症することになる可能性の指標(すなわち、危険因子)、又は試料が由来した対象が特定の治療又は処置に応答することになる可能性の指標を含み得る。
【0100】
いくつかの例では、コピー数変化呼び出しパイプラインの一部としての反復汚染検出及びセグメント化を実施するための開示される方法は、特定の疾患、例えば、がんの検出、監視、危険因子の予測、又は処置の選択の一部として、対象に由来する試料中の1つ以上の遺伝子座における変異体配列の存在の識別を含むゲノムプロファイリングプロセスの一部として実装され得る。いくつかの例では、ゲノムプロファイリングのために選択される変異体パネルは、選択された遺伝子座セットにおける変異体配列の検出を含み得る。いくつかの例では、ゲノムプロファイリングのために選択される変異体パネルは、包括的ゲノムプロファイリング(CGP)、単一のアッセイで数百の遺伝子(関連するがんバイオマーカーを含む)を評価するために使用される次世代配列決定(NGS)アプローチを介して、いくつかの遺伝子座での変異体配列の検出を含み得る。ゲノムプロファイリングプロセスの一部として、反復汚染検出及びセグメント化並びにCNAの呼び出しを実施するための開示される方法の含有(又は対象のゲノムプロファイルの一部として、反復汚染検出及びセグメント化並びにCNAの呼び出しを実施するための開示される方法からの出力の含有)は、例えば、所与の患者試料中の1つ以上の遺伝子座におけるCNAの存在を独立して確認することによって、ゲノムプロファイルに基づいて行われる、例えば、疾患検出呼び出し及び処置決定の妥当性を改善し得る。
【0101】
いくつかの例では、ゲノムプロファイルは、個人のゲノム及び/又はプロテオームにおける遺伝子(又はその変異体配列)、コピー数変異、エピジェネティック形質、タンパク質(又はその改変)、及び/又は他のバイオマーカーの存在に関する情報、並びに個人の対応する表現型形質、並びに遺伝的又はゲノム形質、表現型形質、及び環境因子の間の相互作用に関する情報を含むことができる。
【0102】
いくつかの例では、被験者のゲノムプロファイルは、包括的ゲノムプロファイリング(CGP)試験、核酸配列決定に基づく試験、遺伝子発現プロファイリング試験、がんホットスポットパネル試験、DNAメチル化試験、DNA断片化試験、RNA断片化試験、又はそれらの任意の組み合わせからの結果を含むことができる。
【0103】
いくつかの例では、方法は、生成されたゲノムプロファイルに基づいて、処置又は治療(例えば、抗がん剤、抗がん処置、又は抗がん治療)を対象に投与又は適用することを更に含み得る。抗がん剤又は抗がん処置は、がん細胞の処置に有効である化合物を指し得る。抗がん剤又は抗がん治療の例は、アルキル化剤、代謝拮抗物質、天然産物、ホルモン、化学療法、放射線療法、免疫療法、外科手術、又は特定の細胞シグナル伝達経路の欠陥、例えば、DNAミスマッチ修復(MMR)経路の欠陥を標的とするように構成された治療を含むが、これらに限定されない。
【0104】
試料
開示される方法及びシステムは、対象(例えば、患者)から収集される核酸(例えば、DNA又はRNA)を含む様々な試料(本明細書では検体とも呼ばれる)のうちのいずれかとともに使用され得る。例としては、限定されるものではないが、腫瘍試料、組織試料、生検試料、血液試料(例えば、末梢全血試料)、血漿試料、血清試料、リンパ試料、唾液試料、痰試料、尿試料、婦人科液試料、循環腫瘍細胞(CTC)試料、脳脊髄液(CSF)試料、心嚢液試料、胸水試料、腹水(腹膜液)試料、糞便(又は便)試料、又は他の体液、分泌物、及び/若しくは排泄物試料(あるいはそれらに由来する細胞試料)が挙げられる。ある特定の例では、試料は、凍結試料又はホルマリン固定パラフィン包埋(FFPE)試料であり得る。
【0105】
いくつかの例では、試料は、組織切除(例えば、外科的切除)、針生検、骨髄生検、骨髄吸引、皮膚生検、内視鏡生検、細針吸引、口腔スワブ、鼻腔スワブ、膣スワブ、又は細胞学的スミア、擦り傷、洗浄又は洗浄液(管腔洗浄液又は気管支肺胞洗浄液など)などによって収集され得る。
【0106】
いくつかの例では、試料は、液体生検試料であり、例えば、全血、血漿、血清、尿、便、痰、唾液、又は脳脊髄液を含み得る。いくつかの例では、試料は、液体生検試料であり得、循環腫瘍細胞(CTC)を含み得る。いくつかの例では、試料は、液体生検試料であり得、無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、又はそれらの任意の組み合わせを含み得る。
【0107】
いくつかの例では、試料は、1つ以上の前悪性又は悪性細胞を含み得る。本明細書で使用される場合、前悪性腫瘍とは、まだ悪性ではないが、悪性になる準備ができている細胞又は組織を指す。ある特定の例では、試料は、固形腫瘍、軟部組織腫瘍、又は転移性病変から取得され得る。ある特定の例では、試料は、血液悪性腫瘍又は前悪性腫瘍から取得され得る。他の例では、試料は、手術マージンからの組織又は細胞を含み得る。ある特定の例では、試料は、腫瘍浸潤リンパ球を含み得る。いくつかの例では、試料は、1つ以上の非悪性細胞を含み得る。いくつかの例では、試料は、原発性腫瘍又は転移(例えば、転移生検試料)であるか、又はその一部であり得る。いくつかの事例では、試料は、隣接部位(例えば、腫瘍に隣接する部位)と比較して、腫瘍(例えば、腫瘍細胞)のパーセントが最も高い部位(例えば、腫瘍部位)から得られ得る。いくつかの事例では、試料は、隣接部位(例えば、腫瘍に隣接する部位)と比較して、最大腫瘍病巣(例えば、顕微鏡下で視覚された際の最大数の腫瘍細胞)を有する部位(例えば、腫瘍部位)から得られ得る。
【0108】
いくつかの例では、開示される方法は、一次対照(例えば、正常組織試料)を分析することを更に含み得る。いくつかの例では、開示される方法は、一次対照が利用可能であるかどうかを決定すること、及び利用可能である場合、当該一次対照から対照核酸(例えば、DNA)を単離することを更に含み得る。いくつかの例では、試料は、一次対照が利用可能ではない場合、任意の正常対照(例えば、正常隣接組織(NAT))を含み得る。いくつかの例では、試料は、組織学的に正常な組織であり得るか、又はそれを含み得る。いくつかの例では、方法は、本明細書に説明される方法を使用して、試料、例えば、組織学的に正常な試料(例えば、外科的組織マージンから)を評価することを含む。いくつかの例では、開示される方法は、例えば、一次対照を伴わない試料中の当該NATからの非腫瘍組織をマクロ切開することによって、非腫瘍細胞が濃縮されたサブ試料を取得することを更に含み得る。いくつかの例では、開示される方法は、一次対照及びNATが利用できないと決定することと、マッチド対照なしで分析のために当該試料をマーキングすることとを更に含み得る。
【0109】
いくつかの例では、組織学的に正常な組織(例えば、そうでなければ組織学的に正常な組織マージン)から得られた試料は、依然として、本明細書に説明される変異体配列などの遺伝子変化を含み得る。したがって、方法は、検出された遺伝子変化の存在に基づいて、試料を再分類することを更に含み得る。いくつかの例では、複数の試料(例えば、異なる対象からの)が同時に処理される。
【0110】
開示される方法及びシステムは、様々な組織試料(又はその疾患状態)、例えば、固形組織試料、軟組織試料、転移性病変、又は液体生検試料のうちのいずれかから抽出された核酸の分析に適用され得る。組織の例としては、限定されるものではないが、結合組織、筋肉組織、神経系組織、上皮組織、及び血液が挙げられる。組織試料は、動物又は人体内の器官のいずれかから収集され得る。ヒト器官の例としては、脳、心臓、肺、肝臓、腎臓、膵臓、脾臓、甲状腺、乳腺、子宮、前立腺、大腸、小腸、膀胱、骨、皮膚などが挙げられるが、これらに限定されない。
【0111】
いくつかの例では、試料から抽出された核酸は、デオキシリボ核酸(DNA)分子を含み得る。開示される方法による分析のために好適であり得るDNAの例としては、限定されるものではないが、ミトコンドリアDNA又はその断片、無細胞DNA(cfDNA)、及び循環腫瘍DNA(ctDNA)が挙げられる。無細胞DNA(cfDNA)は、アポトーシス及びネクローシス中に正常及び/又はがん細胞から放出されるDNAの断片から構成され、血流中を循環し、及び/又は他の体液中に蓄積する。循環腫瘍DNA(cfDNA)は、血流中を循環し、及び/又は他の体液中に蓄積するがん細胞及び腫瘍から放出されるDNAの断片から構成される。
【0112】
いくつかの例では、DNAは、試料から有核細胞から抽出される。いくつかの例では、試料は、例えば、試料が主に赤血球、過剰な細胞質を含有する病変細胞、又は線維症を有する組織で構成される場合、有核細胞性が低い。いくつかの例では、有核細胞性が低い試料は、DNA抽出のために、より多くの、例えば、より大きな組織体積を必要とし得る。
【0113】
いくつかの例では、試料から抽出された核酸は、リボ核酸(RNA)分子を含み得る。開示される方法による分析のために好適であり得るRNAの例としては、限定されるものではないが、総細胞RNA、特定の存在量のRNA配列の枯渇後の総細胞RNA(例えば、リボソームRNA)、無細胞RNA(cfRNA)、メッセンジャーRNA(mRNA)又はその断片、総RNAのポリ(A)尾部mRNA画分、リボソームRNA(rRNA)又はその断片、転移RNA(tRNA)又はその断片、及びミトコンドリアRNA又はその断片が挙げられる。いくつかの例では、RNAは、試料から抽出され、例えば、逆転写反応を使用して相補的DNAに変換され得る。いくつかの例では、cDNAは、ランダムプライムcDNA合成法によって産生される。他の例では、cDNA合成は、オリゴ(dT)含有オリゴヌクレオチドによるプライミングによって成熟mRNAのポリ(A)尾部で開始される。枯渇、ポリ(A)濃縮、及びcDNA合成のための方法は、当業者に周知である。
【0114】
いくつかの例では、試料は、例えば、腫瘍細胞又は腫瘍細胞核を含む、腫瘍含有量を含み得る。いくつかの例では、試料は、少なくとも5~50%、10~40%、15~25%、又は20~30%の腫瘍細胞核を有する腫瘍含有量を含み得る。いくつかの例では、試料は、少なくとも5%、少なくとも10%、少なくとも20%、少なくとも30%、少なくとも40%、又は少なくとも50%の腫瘍細胞核の腫瘍含有量を含み得る。いくつかの例では、腫瘍核のパーセントは、試料中の腫瘍細胞の数を、核を有する試料中の全ての細胞の総数で除算することによって決定(例えば、計算)される。いくつかの例では、例えば、試料が肝細胞を含む肝臓試料であるとき、異なる腫瘍含有量計算が、2倍以上の核を有する肝細胞の存在、他のDNA含有量、例えば、非肝細胞、体細胞核の存在に起因して必要とされ得る。いくつかの例では、遺伝子変化、例えば、変異体配列の検出の感度、又は、例えば、マイクロサテライト不安定性の決定の感度は、試料の腫瘍含有量に依存し得る。例えば、より低い腫瘍含有量を有する試料は、所与のサイズの試料に対する検出のより低い感度を結果的にもたらし得る。
【0115】
いくつかの例では、上記のように、試料は、例えば、腫瘍からの、又は正常組織からの、核酸(例えば、DNA、RNA(又はRNAに由来するcDNA)、又は両方)を含む。ある特定の例では、試料は、例えば、腫瘍又は正常組織由来の非核酸成分、例えば、細胞、タンパク質、炭水化物、又は脂質を更に含み得る。
【0116】
対象
いくつかの例では、試料は、ある条件若しくは疾患(例えば、過剰増殖性疾患又は悲がん指標)を有するか、又はある条件若しくは疾患を有すると疑われる対象(例えば、患者)から得られる(例えば、収集される)。いくつかの例では、過剰増殖性疾患は、がんである。いくつかの例では、がんは、固形腫瘍又はその転移性形態である。いくつかの例では、がんは、血液がん、例えば、白血病又はリンパ腫である。
【0117】
いくつかの例では、対象は、がんを有するか、又はがんを有するリスクがある。例えば、いくつかの例では、対象は、がん(例えば、がんを発症するためのベースラインのリスクを増加させる遺伝子変異を有すること)に対する遺伝的素因を有する。いくつかの例では、対象は、がんを発症するリスクを増加させる環境変動(例えば、放射線又は化学物質)に曝露されている。いくつかの例では、対象は、がんの発症について監視されることを必要とする。いくつかの例では、対象は、例えば、がん治療で処置された後に、がんの進行又は退縮について監視されることを必要としている。いくつかの例では、対象は、がんの再発について監視されることを必要としている。いくつかの例では、対象は、微小残存病変(MRD)について監視されることを必要としている。いくつかの例では、対象は、がんに対して処置されていたか、又は処置されている。いくつかの例では、対象は、がん療法(又はがん処置)で処置されていない。
【0118】
いくつかの例では、対象(例えば、患者)は、1つ以上の標的療法で処置されているか、又は以前に処置されたことがある。いくつかの例では、例えば、標的療法で以前に処置されたことがある患者について、標的療法後試料(例えば、検体)が得られる(例えば、収集される)。いくつかの例では、標的療法後試料は、標的療法の完了後に得られた試料である。
【0119】
いくつかの例では、患者は、標的療法で以前に処置されていない。いくつかの例では、例えば、以前に標的療法で処置されていない患者について、試料は、切除、例えば、元の切除、又は再発後の切除(例えば、治療後の疾患再発後)。
【0120】
がん
いくつかの例では、試料は、がんを有する対象から取得される。例示的ながんとしては、限定されるものではないが、B細胞がん(例えば、多発性骨髄腫)、黒色腫、乳がん、肺がん(非小細胞肺がん又はNSCLCなど)、気管支がん、結腸直腸がん、前立腺がん、膵臓がんが含まれるが、これらに限定されない、胃がん、卵巣がん、膀胱がん、脳又は中枢神経系がん、末梢神経系がん、食道がん、子宮頸がん、子宮がん又は子宮内膜がん、口腔又は咽頭がん、肝がん、腎臓がん、精巣がん、胆道がん、小腸又は付属器がん、唾液腺がん、甲状腺がん、副腎腺がん、骨肉腫、軟骨肉腫、血液組織のがん、腺がん、炎症性筋線維芽細胞腫瘍、胃腸間質腫瘍(GIST)、結腸がん、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性骨髄性白血病(CML)、慢性リンパ性白血病(CLL)、多発性細胞血症ベラ、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨形成性肉腫、脊索腫、血管肉腫、内皮肉腫滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮がん、基底細胞がん、腺がん、汗腺がん、脂腺がん、乳頭がん、乳頭腺がん、髄質がん、気管支原性がん、腎細胞がん、肝細胞腫、胆管がん、絨毛がん、セミノーマ、胚性がん腫、ウィルムス腫瘍、膀胱がん、上皮がん、神経膠腫、星状細胞腫、髄芽細胞腫、頭蓋咽頭腫、上衣腫、松果体腫、血管芽細胞腫、聴神経腫、乏突起膠腫、髄膜腫、神経芽細胞腫、網膜芽細胞腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞がん、甲状腺がん、胃がん、頭頸部がん、小細胞がん、本態性血小板血症、アグノーゲン性骨髄性化生、高好酸球性症候群、全身性肥満細胞症、家族性高好酸球増加症、慢性好酸球性白血病、神経内分泌がん、がん様腫瘍などが挙げられる。
【0121】
いくつかの例では、がんは、血液悪性腫瘍(又は前悪性腫瘍)である。本明細書で使用される場合、血液悪性腫瘍は、造血又はリンパ組織の腫瘍、例えば血液、骨髄、又はリンパ節に影響を及ぼす腫瘍を指す。例示的な血液悪性腫瘍には、白血病(例えば、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性白血病(CLL)、慢性骨髄性白血病(CML)、有毛細胞白血病、急性単球性白血病(AMoL)、慢性骨髄単球性白血病(CMML)、若年性骨髄単球性白血病(JMML)、又は大顆粒リンパ性白血病)、リンパ腫(例えば、AIDS関連リンパ腫、皮膚T細胞リンパ腫、ホジキンリンパ腫(例えば、古典的ホジキンリンパ腫又は結節性リンパ球優位型ホジキンリンパ腫)、菌状息肉症、非ホジキンリンパ腫(例えば、B細胞非ホジキンリンパ腫(例えば、バーキットリンパ腫、小リンパ性リンパ腫(CLL/SLL)、びまん性大細胞型B細胞リンパ腫、濾胞性リンパ腫、免疫芽球性大細胞リンパ腫、前駆Bリンパ芽球性リンパ腫、又はマントル細胞リンパ腫)又はT細胞非ホジキンリンパ腫(菌状息肉症、未分化大細胞リンパ腫、又は前駆Tリンパ芽球性リンパ腫))、原発性中枢神経系が含まれるが、これらに限定されない。
【0122】
核酸抽出及び処理
DNA又はRNAは、当業者に既知の様々な技術のうちのいずれかを使用して、組織試料、生検試料、血液試料、又は他の体液試料から抽出され得る(例えば、国際特許出願公開第2012/092426号の実施例1、Tan,et al.(2009),“DNA,RNA,and Protein Extraction:The Past and The Present”,J.Biomed.Biotech.2009:574398、the technical literature for the Maxwell(登録商標)16 LEV Blood DNA Kit(Promega Corporation,Madison,WI)、及びthe Maxwell 16 Buccal Swab LEV DNA Purification Kit Technical Manual(Promega Literature #TM333,January 1,2011,Promega Corporation,Madison,WI)を参照されたい)。RNA単離のためのプロトコルは、例えば、Maxwell(登録商標)16 Total RNA Purification Kit Technical Bulletin(Promega Literature#TB351、2009年8月、Promega Corporation、Madison、WI)に開示されている。
【0123】
典型的なDNA抽出手順は、例えば、(i)DNAが抽出されることになる流体試料、細胞試料、又は組織試料の収集と、(ii)必要な場合、DNA及び他の細胞質成分を放出するための細胞膜の破壊(すなわち、細胞溶解)と、(iii)タンパク質、脂質、及びRNAを沈殿させるための濃厚塩溶液による液体試料又は溶解した試料の処置、その後の、沈殿したタンパク質、脂質、及びRNAを分離するための遠心分離と、(iv)細胞膜溶解ステップ中に使用された洗剤、タンパク質、塩、又は他の試薬を除去するための上清からのDNAの精製と、を含む。
【0124】
細胞膜の破壊は、様々な機械的剪断(例えば、フレンチプレス又は細針)又は超音波破壊技術を使用して実施され得る。細胞溶解ステップは、多くの場合、脂質、細胞及び核膜を溶解するための洗剤及び界面活性剤の使用を含む。いくつかの例では、溶解ステップは、タンパク質を破壊するためのプロテアーゼの使用、及び/又は試料中のRNAの消化のためのRNaseの使用を更に含み得る。
【0125】
DNA精製のための好適な技術の例としては、限定されるものではないが、(i)氷冷エタノール又はイソプロパノール中の沈殿、その後の遠心分離(例えば、酢酸ナトリウムの添加による、イオン強度を増加させることによって増強され得るDNAの沈殿)と、(ii)フェノール-クロロホルム抽出、その後の、核酸を含有する水相を、変性タンパク質を含有する有機相から分離するための遠心分離と、(iii)核酸が緩衝液のpH及び塩濃度に応じて固相(例えば、シリカ又はその他)に吸着する固相クロマトグラフィーと、が挙げられる。
【0126】
いくつかの例では、DNAに結合された細胞及びヒストンタンパク質は、プロテアーゼを添加することによって、又は酢酸ナトリウム若しくは酢酸アンモニウムでタンパク質を沈殿させることによって、あるいはDNA沈殿ステップの前のフェノール-クロロホルム混合物による抽出を通じて除去され得る。
【0127】
いくつかの例では、DNAは、様々な好適な市販のDNA抽出及び精製キットのうちのいずれかを使用して抽出され得る。例としては、限定されるものではないが、Qiagen(Germantown、MD)製のQIAamp(ヒト試料からのゲノムDNAの単離用)及びDNAeasy(動物又は植物試料からのゲノムDNAの単離用)キット、又はPromega(Madison、WI)製のMaxwell(登録商標)及びReliaPrep(商標)シリーズが挙げられる。
【0128】
上記のように、いくつかの例では、試料は、ホルマリン固定(ホルムアルデヒド固定、又はパラホルムアルデヒド固定)、パラフィン包埋(FFPE)組織調製を含み得る。例えば、FFPE試料は、基質、例えば、FFPEブロックに包埋された組織試料であり得る。ホルムアルデヒド固定又はパラホルムアルデヒド固定、パラフィン包埋(FFPE)組織から核酸(例えば、DNA)を単離するための方法が、例えば、Cronin,et al.,(2004)Am J Pathol.164(1):35-42、Masuda,et al.,(1999)Nucleic Acids Res.27(22):4436-4443、Specht,et al.,(2001)Am J Pathol.158(2):419-429、Ambion RecoverAll(商標)Total Nucleic Acid Isolation Protocol(Ambion,Cat.No.AM1975,September 2008)、Maxwell(登録商標)16 FFPE Plus LEV DNA Purification Kit Technical Manual(Promega Literature #TM349,February 2011)、E.Z.N.A.(登録商標)FFPE DNA Kit Handbook(OMEGA bio-tek,Norcross,GA,product numbers D3399-00,D3399-01,and D3399-02,June 2009)、並びにQIAamp(登録商標)DNA FFPE Tissue Handbook(Qiagen,Cat.No.37625,October 2007)に開示されている。例えば、RecoverAll(商標)Total Nucleic Acid Isolation Kitは、高温でキシレンを使用してパラフィン包埋試料を可溶化し、ガラス繊維フィルタにかけて核酸を捕捉する。Maxwell(登録商標)16 FFPE Plus LEV DNA Purification Kitを、Maxwell(登録商標)16 Instrumentとともに、FFPE組織の1から10μm切片のゲノムDNAを精製するために使用する。シリカクラッド常磁性粒子(PMP)を用いてDNAを精製し、低溶出容量で溶出する。E.Z.N.A.(登録商標)FFPE DNA Kitは、ゲノムDNAの単離のためにスピンカラム及び緩衝系を使用する。QIAamp(登録商標)DNA FFPE Tissue Kitは、ゲノム及びミトコンドリアDNAの精製にQIAamp(登録商標)DNA Micro technologyを使用する。
【0129】
いくつかの例では、開示される方法は、試料から抽出された核酸の収量値を決定又は取得することと、決定された値を参照値と比較することを更に含み得る。例えば、決定又は取得された値が参照値未満である場合、核酸は、ライブラリ構築を進める前に増幅され得る。いくつかの例では、開示される方法は、試料中の核酸断片のサイズ(又は平均サイズ)に対する値を決定又は取得することと、決定又は取得された値を、参照値、例えば、少なくとも100、200、300、400、500、600、700、800、900、又は1000塩基対(bps)のサイズ(又は平均サイズ)と比較することと、を更に含み得る。いくつかの例では、本明細書に説明される1つ以上のパラメータは、この決定に応答して、調整又は選択され得る。
【0130】
単離後、核酸は、典型的には、わずかにアルカリ性の緩衝液、例えば、Tris-EDTA(TE)緩衝液中、又は超純水中で溶解される。いくつかの例では、単離された核酸(例えば、ゲノムDNA)は、当業者に既知の様々な技術のうちのいずれかを使用することによって、断片化又は剪断され得る。例えば、ゲノムDNAは、物理的剪断法、酵素的切断法、化学的切断法、及び当業者に周知の他の方法によって断片化され得る。DNA剪断のための方法は、例えば、国際特許出願公開第2012/092426号の実施例4に説明されている。いくつかの例では、DNA剪断法の代替法を使用して、ライブラリ調製中のライゲーションステップを回避することができる。
【0131】
ライブラリ調製
いくつかの例では、試料から単離された核酸は、ライブラリを構築するために使用され得る(例えば、本明細書に説明される核酸ライブラリ)。いくつかの例では、核酸は、上記に説明された方法のうちのいずれかを使用して断片化され、任意選択的に、鎖末端損傷の修復に供され、任意選択的に、アダプター、プライマー、及び/若しくはバーコード(例えば、増幅プライマー、配列アダプター、フローセルアダプター、基質アダプター、試料バーコード若しくはインデックス、及び/又は固有の分子識別子配列)を合成するためにライゲーションされ、サイズ選択され(例えば、分取ゲル電気泳動による)、並びに/又は増幅される(例えば、PCR、非PCR増幅技術、又は等温増幅技術を使用して)。いくつかの例では、断片化及びアダプターライゲーションされた核酸群は、標的配列のハイブリダイゼーションベースの選択の前に明示的なサイズ選択又は増幅なしに使用される。いくつかの例では、核酸は、当業者に周知の様々な特異的又は非特異的核酸増幅方法のうちのいずれかによって増幅される。いくつかの例では、核酸は、例えば、ランダムプライム鎖置換増幅などの全ゲノム増幅法によって増幅される。次世代配列決定のための核酸ライブラリ調製技術の例は、例えば、van Dijk,et al.(2014),Exp.Cell Research 322:12-20,and Illumina’s genomic DNA sample preparation kitに説明されている。
【0132】
いくつかの例では、結果的に得られる核酸ライブラリは、ゲノムの複雑さの全て又は実質的に全てを含み得る。この文脈における「実質的に全て」という用語は、実際には、手順の初期ステップ中にゲノム複雑性のいくらかの望ましくない喪失があり得る可能性を指す。本明細書に説明される方法はまた、核酸ライブラリがゲノムの一部である場合、例えば、ゲノムの複雑性が設計によって低減される場合に有用である。いくつかの例では、ゲノムの任意の選択された部分は、本明細書に説明される方法とともに使用され得る。例えば、ある特定の実施形態では、エクソーム全体又はそのサブセットが単離される。いくつかの例では、ライブラリは、少なくとも95%、90%、80%、70%、60%、50%、40%、30%、20%、10%、又は5%のゲノムDNAを含み得る。いくつかの例では、ライブラリは、少なくとも95%、90%、80%、70%、60%、50%、40%、30%、20%、10%、又は5%のゲノムDNAを含むゲノムDNAのcDNAコピーからなり得る。ある特定の例では、核酸ライブラリを生成するために使用される核酸の量は、5マイクログラム未満、1マイクログラム未満、500ng未満、200ng未満、100ng未満、50ng未満、10ng未満、5ng未満、又は1ng未満であり得る。
【0133】
いくつかの例では、ライブラリ(例えば、核酸ライブラリ)は、核酸分子の集合を含む。本明細書に説明されるように、ライブラリの核酸分子は、標的核酸分子(例えば、腫瘍核酸分子、参照核酸分子及び/又は制御核酸分子、本明細書ではそれぞれ第1、第2及び/又は第3の核酸分子とも呼ばれる)を含むことができる。ライブラリの核酸分子は、単一の対象又は個体に由来し得る。いくつかの例では、ライブラリは、2以上の対象(例えば、2、3、4、5、6、7、8、9、10、20、30以上の対象)に由来する核酸分子を含み得る。例えば、異なる対象由来の2つ以上のライブラリは、2以上の対象由来の核酸分子を有するライブラリを形成するために組み合わせられ得る(各対象に由来する核酸分子は、任意選択的に、特定の対象に対応する固有の試料バーコードにライゲーションされる)。いくつかの例では、対象は、がん又は腫瘍を有するか、又は有するリスクがあるヒトである。
【0134】
いくつかの例では、ライブラリ(又はその一部分)は、1つ以上のサブゲノム区間を含み得る。いくつかの例では、サブゲノム区間は、単一ヌクレオチド位置、例えば、その位置の変異体が腫瘍表現型と関連付けられている(陽性又は陰性に)ヌクレオチド位置であり得る。いくつかの例では、サブゲノム区間は、2つ以上のヌクレオチド位置を含む。そのような例は、長さが少なくとも2、5、10、50、100、150、又は250以上のヌクレオチド位置の配列を含む。サブゲノム区間は、例えば、1つ以上の全遺伝子(又はその一部分)、1つ以上のエクソン若しくはコーディング配列(又はその一部分)、1つ以上のイントロン(又はその一部分)、1つ以上のマイクロサテライト領域(又はその一部分)、又はそれらの任意の組み合わせを含み得る。サブゲノム区間は、天然に存在する核酸分子、例えば、ゲノムDNA分子の断片の全部又は一部を含み得る。例えば、サブゲノム区間は、配列決定反応に供されるゲノムDNAの断片に対応し得る。いくつかの例では、サブゲノム区間は、ゲノム供給源からの連続配列である。いくつかの例では、サブゲノム区間は、ゲノム中で連続していない配列を含み、例えば、cDNA中のサブゲノム区間は、スプライシングの結果として形成されたエクソン-エクソン接合部を含み得る。いくつかの例では、サブゲノム区間は、腫瘍核酸分子を含む。いくつかの例では、サブゲノム区間は、非腫瘍核酸分子を含む。
【0135】
分析のための遺伝子座の標的化
本明細書に説明される方法は、本明細書に説明されるように、例えば、ゲノム遺伝子座セット(例えば、遺伝子座又はその断片)から、対象区間セット(例えば、標的配列)を評価するための方法と組み合わせて、又はその一部として使用され得る。
【0136】
いくつかの例では、開示される方法によって評価されるゲノム遺伝子座セットは、変異形態で、細胞分裂、増殖若しくは生存に対する効果と関連付けられるか、又はがん、例えば、本明細書に説明されるがんと関連付けられる、複数の、例えば、遺伝子を含む。
【0137】
いくつかの例では、開示される方法によって評価される遺伝子座セットは、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、又は100超の遺伝子座を含む。
【0138】
いくつかの例では、選択された遺伝子座(本明細書では標的遺伝子座又は標的配列とも呼ばれる)又はその断片は、対象ゲノムの非コーディング配列、コーディング配列、遺伝子内領域、又は遺伝子間領域を含む、対象区間を含み得る。例えば、対象区間は、非コーディング配列又はその断片(例えば、プロモーター配列、エンハンサー配列、5’非翻訳領域(5’UTR)、3’非翻訳領域(3’UTR)、又はそれらの断片)、その断片のコーディング配列、エクソン配列又はその断片、イントロン配列又はその断片を含み得る。
【0139】
標的捕捉試薬
本明細書に説明される方法は、分析のための複数の特定の標的配列(例えば、遺伝子配列又はその断片)を選択及び捕捉するために、核酸ライブラリを複数の標的捕捉試薬と接触させることを含み得る。いくつかの例では、標的捕捉試薬(すなわち、標的分子に結合し、それによって、標的分子の捕捉を可能にする分子)が、分析される対象区間を選択するために使用される。例えば、標的捕捉試薬は、標的分子にハイブリダイズし(すなわち、それに相補的である)、それによって、標的核酸の捕捉を可能にし得るベイト分子、例えば、核酸分子(例えば、DNA分子又はRNA分子)であり得る。いくつかの例では、標的捕捉試薬、例えば、ベイト分子(又はベイト配列)は、捕捉オリゴヌクレオチド(又は捕捉プローブ)である。いくつかの例では、標的核酸は、ゲノムDNA分子、RNA分子、RNA分子由来のcDNA分子、マイクロサテライトDNA配列などである。いくつかの例では、標的捕捉試薬は、標的に対する溶液相ハイブリダイゼーションに好適である。いくつかの例では、標的捕捉試薬は、標的に対する固相ハイブリダイゼーションに好適である。いくつかの例では、標的捕捉試薬は、標的に対する溶液相ハイブリダイゼーション及び固相ハイブリダイゼーションの両方に好適である。標的捕捉試薬の設計及び構築は、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0140】
本明細書に説明される方法は、配列決定されることになる標的核酸分子を選択するための標的捕捉試薬の適切な選択によって、1以上の対象からの試料(例えば、がん組織検体、液体生検試料など)からの多数のゲノム遺伝子座(例えば、遺伝子又は遺伝子産物(例えば、mRNA)、マイクロサテライト遺伝子座など)の最適化された配列決定を提供する。いくつかの例では、標的捕捉試薬は、特定の標的遺伝子座、例えば、特定の標的遺伝子座又はその断片にハイブリダイズし得る。いくつかの例では、標的捕捉試薬は、特定の標的遺伝子座群、例えば、特定の遺伝子座群又はその断片にハイブリダイズし得る。いくつかの例では、標的特異的及び/又は群特異的標的捕捉試薬の混合を含む複数の標的捕捉試薬が使用され得る。
【0141】
いくつかの例では、核酸配列決定のための複数の標的配列を捕捉するために核酸ライブラリと接触した複数の標的捕捉試薬(例えば、ベイトセット)中の標的捕捉試薬(例えば、ベイト分子)の数は、10超、50超、100超、200超、300超、400超、500超、600超、700超、800超、900超、1,000超、1,250超、1,500超、1,750超、2,000超、3,000超、4,000超、5,000超、10,000超、25,000超、又は50,000超である。
【0142】
いくつかの例では、標的捕捉試薬配列の全長は、約70ヌクレオチド~1000ヌクレオチドであり得る。一例では、標的捕捉試薬の長さは、約100~300ヌクレオチド、110~200ヌクレオチド、又は120~170ヌクレオチド長である。上記のものに加えて、約70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800及び900ヌクレオチド長の中間オリゴヌクレオチド長を本明細書に記載の方法で使用することができる。いくつかの実施形態において、約70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220又は230塩基のオリゴヌクレオチドを使用することができる。
【0143】
いくつかの例では、各標的捕捉試薬配列は、(i)標的特異的捕捉配列(例えば、遺伝子座又はマイクロサテライト遺伝子座特異的相補配列)、(ii)アダプター、プライマー、バーコード、及び/又は固有の分子識別子配列、並びに(iii)一端若しくは両端のユニバーサルテールを含み得る。本明細書に使用される際、「標的捕捉試薬」という用語は、標的特異的標的捕捉配列又は標的特異的標的捕捉配列を含む標的捕捉試薬オリゴヌクレオチド全体を指し得る。
【0144】
いくつかの例では、標的捕捉試薬中の標的特異的捕捉配列は、約40ヌクレオチド~1000ヌクレオチド長である。いくつかの例では、標的特異的捕捉配列は、約70ヌクレオチド~300ヌクレオチド長である。いくつかの例では、標的特異的配列は、約100ヌクレオチド~200ヌクレオチド長である。更に他の例では、標的特異的配列は、約120ヌクレオチド~170ヌクレオチド長、典型的には120ヌクレオチド長である。上記のものに加えて、中間の長さ、例えば、約40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800及び900ヌクレオチド長の標的特異的配列、並びに上記の長さの間の長さの標的特異的配列もまた、本明細書中に記載される方法において使用され得る。
【0145】
いくつかの例では、標的捕捉試薬は、1つ以上の再編成を含む対象区間、例えば、ゲノム再編成を含むイントロンを選択するように設計され得る。そのような例では、標的捕捉試薬は、選択効率を高めるために反復配列がマスクされるように設計される。再編成が既知の連結配列を有するこれらの例では、相補的標的捕捉試薬を連結配列に設計して選択効率を高めることができる。
【0146】
いくつかの例では、開示される方法は、2つ以上の異なる標的カテゴリを捕捉するように設計された標的捕捉試薬の使用を含み得、各カテゴリは、異なる標的捕捉試薬設計戦略を有する。いくつかの例では、本明細書に開示される、ハイブリダイゼーションベースの捕捉方法及び標的捕捉試薬組成物は、標的配列セットの捕捉及び均質なカバレッジを提供するが、一方で、標的化された配列セットの外側のゲノム配列のカバレッジを最小化する。いくつかの例では、標的配列は、ゲノムDNAのエクソーム全体又はその選択されたサブセットを含み得る。別の例では、標的配列は、大きな染色体領域(例えば、染色体腕全体)を含み得る。本明細書に開示される方法及び組成物は、複合標的核酸配列セットについて異なる配列決定深度及びカバレッジのパターンを達成するための異なる標的捕捉試薬を提供する。
【0147】
典型的には、DNA分子が標的捕捉試薬配列として使用されるが、RNA分子も使用することができる。いくつかの例では、DNA分子標的捕捉試薬は、一本鎖DNA(ssDNA)又は二本鎖DNA(dsDNA)であり得る。いくつかの例では、RNA-DNA二重鎖は、DNA-DNA二重鎖よりも安定であり、したがって、潜在的により良好な核酸の捕捉を提供する。
【0148】
いくつかの例では、開示される方法は、1つ以上の核酸ライブラリから捕捉された、選択された核酸分子セット(例えば、ライブラリキャッチ)を提供することを含む。例えば、方法は、1つ又は複数の核酸ライブラリを提供することであって、各々が、1以上の対象からの1つ以上の試料から抽出された複数の核酸分子(例えば、複数の標的核酸分子及び/又は参照核酸分子)を含む、提供することと、1つ又は複数のライブラリ(例えば、溶液ベースのハイブリダイゼーション反応における)を、1、2、3、4、5つ以上の複数の標的捕捉試薬(例えば、オリゴヌクレオチド標的捕捉試薬)と接触させて、複数の標的捕捉試薬/核酸分子ハイブリッドを含むハイブリダイゼーション混合物を形成することと、例えば、ハイブリダイゼーション混合物を、当該ハイブリダイゼーション混合物からの当該複数の標的捕捉試薬/核酸分子ハイブリッドの分離を可能にする結合実体と接触させることによって、複数の標的捕捉試薬/核酸分子ハイブリッドをハイブリダイゼーション混合物から分離し、それによって、ライブラリキャッチ(例えば、1つ又は複数のライブラリからの選択又は濃縮された核酸分子の部分群)を提供することと、を含み得る。
【0149】
いくつかの例では、開示される方法は、ライブラリキャッチを増幅することを更に含み得る(例えば、PCRを実施することによって)。他の例では、ライブラリキャッチは、増幅されない。
【0150】
いくつかの例では、標的捕捉試薬は、必要に応じて説明書、標準、緩衝液若しくは酵素又は他の試薬を含み得るキットの一部であり得る。
【0151】
ハイブリダイゼーション条件
上記のように、本明細書に開示される方法は、ライブラリ(例えば、核酸ライブラリ)を、複数の標的捕捉試薬と接触させて、選択されたライブラリ標的核酸配列(すなわち、ライブラリキャッチ)と接触させるステップを含み得る。接触ステップは、例えば、溶液ベースのハイブリダイゼーションで行われ得る。いくつかの例では、方法は、1回以上の追加の溶液ベースのハイブリダイゼーションに関してハイブリダイゼーションステップを繰り返すことを含む。いくつかの例では、方法は、ライブラリキャッチを、同じか又は異なる標的捕捉試薬の集合との1回以上の追加の溶液ベースのハイブリダイゼーションに供することを更に含む。
【0152】
いくつかの例では、接触ステップは、固体支持体、例えば、アレイを使用して行われる。ハイブリダイゼーションのための好適な固体支持体は、例えば、Albert,T.J.et al.(2007)Nat.Methods 4(11):903-5、Hodges,E.et al.(2007)Nat.Genet.39(12):1522-7、及びOkou,D.T.et al.(2007)Nat.Methods 4(11):907-9に説明されており、それらの内容は、その全体が参照により本明細書に組み込まれる。
【0153】
本明細書の方法での使用に適合させることができるハイブリダイゼーション方法は、例えば、国際特許出願公開第2012/092426号に記載されているように、当技術分野で記載されている。複数の標的核酸に標的捕捉試薬をハイブリダイズするための方法は、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0154】
配列決定方法
本明細書に開示される方法及びシステムは、核酸を配列決定するための方法又はシステム(例えば、次世代配列決定システム)と組み合わせて、又はその一部として使用されて、試料中のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを生成し、それによって、例えば、複数の遺伝子座における遺伝子対立配列を決定し得る。本明細書で使用される「次世代配列決定」(又は「NGS」)はまた、「超並列配列決定」とも呼ばれ得、個々の核酸分子(例えば、単一分子配列決定では)又は個々の核酸分子のクローン的に拡大されたプロキシのヌクレオチド配列をハイスループット様式(例えば、103、104、105又は105超の分子が同時に配列決定される)で決定する任意の配列決定方法を指す。
【0155】
次世代配列決定法は、当技術分野で公知であり、例えば、参照により本明細書に組み込まれる、Metzker、M.(2010)Nature Biotechnology Reviews11:31-46に説明されている。本明細書に開示される方法及びシステムを実装するときに使用するために好適な配列決定方法の他の例は、例えば、国際特許出願公開第2012/092426号に説明されている。いくつかの例では、配列決定は、例えば、全ゲノム配列決定(WGS)、全エクソーム配列決定、標的配列決定、又は直接配列決定を含み得る。いくつかの例では、配列決定は、例えば、サンガー配列決定を使用して実施され得る。いくつかの例では、配列決定は、断片の両端が配列決定されることを可能にし、かつ、例えば、ゲノム再編成、反復配列要素、遺伝子融合、及び新規の転写物の検出のための高品質のアラインメント可能な配列データを生成する、ペアエンド配列決定技術を含み得る。
【0156】
開示される方法及びシステムは、Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent、Complete Genomics、Pacific Bioscience、Helicos、及び/又はPolonatorプラットフォームなどの、配列決定プラットフォームを使用して実装され得る。いくつかの例では、配列決定は、Illumina MiSeq配列決定を含み得る。いくつかの例では、配列決定は、Illumina HiSeq配列決定を含み得る。いくつかの例では、配列決定は、Illumina NovaSeq配列決定を含み得る。試料から抽出された核酸中の多数の標的ゲノム遺伝子座を配列決定するための最適化された方法は、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0157】
ある特定の例では、開示される方法は、(a)複数の正常及び/若しくは腫瘍核酸分子を含むライブラリを試料から取得するステップ、(b)標的核酸分子への標的捕捉試薬のハイブリダイゼーションを可能にする条件下でライブラリを1、2、3、4、5、又は5つ超の複数の標的捕捉試薬と同時に若しくは順次接触させ、それによって、選択された捕捉された正常及び/若しくは腫瘍核酸分子セット(すなわち、ライブラリキャッチ)を提供するステップ、(c)例えば、ハイブリダイゼーション混合物を、ハイブリダイゼーション混合物からの標的捕捉試薬/核酸分子ハイブリッドの分離を可能にする結合実体と接触させることによって、核酸分子の選択されたサブセット(例えば、ライブラリキャッチ)をハイブリダイゼーション混合物から分離するステップ、(d)ライブラリキャッチを配列決定して、1つ以上の対象区間(例えば、1つ以上の標的配列)と重複する複数のリード(例えば、配列リード)を、変異(又は変化)を含み得る当該ライブラリキャッチ、例えば、体細胞変異又は生殖細胞系列変異を含む変異体配列から取得するステップ、(e)本明細書の他の箇所で説明されるアラインメント方法を使用して当該配列リードをアラインメントするステップ、並びに/又は(f)複数のうちの1つ以上の配列リードから対象区間内のヌクレオチド位置にヌクレオチド値を割り当てる(例えば、ベイズ法又は本明細書に説明される他の方法を使用して、例えば、変異を呼び出す)ステップのうちの1つ以上を含む。
【0158】
いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、少なくとも1、少なくとも5、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも300、少なくとも350、少なくとも400、少なくとも450、少なくとも500、少なくとも550、少なくとも600、少なくとも650、少なくとも700、少なくとも750、少なくとも800、少なくとも850、少なくとも900、少なくとも950、少なくとも1,000、少なくとも1,250、少なくとも1,500、少なくとも1,750、少なくとも2,000、少なくとも2,250、少なくとも2,500、少なくとも2,750、少なくとも3,000、少なくとも3,500、少なくとも4,000、少なくとも4,500、又は少なくとも5,000の遺伝子座、例えば、ゲノム遺伝子座、遺伝子座、マイクロサテライト遺伝子座などを配列決定することを含み得る。いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、この段落に説明された範囲内の任意の数の遺伝子座、例えば、少なくとも2,850の遺伝子座に対する対象区間を配列決定することを含み得る。
【0159】
いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、少なくとも20塩基、少なくとも30塩基、少なくとも40塩基、少なくとも50塩基、少なくとも60塩基、少なくとも70塩基、少なくとも80塩基、少なくとも90塩基、少なくとも100塩基、少なくとも120塩基、少なくとも140塩基、少なくとも160塩基、少なくとも180塩基、少なくとも200塩基、少なくとも220塩基、少なくとも240塩基、少なくとも260塩基、少なくとも280塩基、少なくとも300塩基、少なくとも320塩基、少なくとも340塩基、少なくとも360塩基、少なくとも380塩基、又は少なくとも400塩基の配列リード長(又は平均配列リード長)を提供する配列決定方法を用いて対象区間を配列決定することを含む。いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、この段落に説明された範囲内の任意の数の塩基の配列リード長(又は平均配列リード長)、例えば、56塩基の配列リード長(又は平均配列リード長)を提供する配列決定方法を用いて対象区間を配列決定することを含み得る。
【0160】
いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、平均で少なくとも100×以上のカバレッジ(又は深度)で配列決定することを含み得る。いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、平均で少なくとも100×、少なくとも150×、少なくとも200×、少なくとも250×、少なくとも500×、少なくとも750×、少なくとも1,000×、少なくとも1,500×、少なくとも2,000×、少なくとも2,500×、少なくとも3,000×、少なくとも3,500×、少なくとも4,000×、少なくとも4,500×、少なくとも5,000×、少なくとも5,500×、又は少なくとも6,000×以上のカバレッジ(又は深度)で配列決定することを含み得る。いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、この段落で説明された値の範囲内の任意の値を有する平均カバレッジ(又は深度)、例えば、少なくとも160×で配列決定することを含み得る。
【0161】
いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、約90%、92%、94%、95%、96%、97%、98%、又は99%超の配列決定された遺伝子座に対して、少なくとも100×~少なくとも6,000×の範囲の任意の値を有する平均配列決定深度で配列決定することを含む。例えば、いくつかの例では、対象区間に対するリードを取得することは、少なくとも99%の配列決定された遺伝子座に対して少なくとも125×の平均配列決定深度で配列決定することを含む。別の例として、いくつかの例では、対象区間に対するリードを取得することは、少なくとも95%の配列決定された遺伝子座に対して少なくとも4,100×の平均配列決定深度で配列決定することを含む。
【0162】
いくつかの例では、ライブラリ中の核酸種の相対存在量は、配列決定実験によって生成されたデータ中のそれらの同族配列の出現の相対数(例えば、所与の同族配列に対する配列リードの数)をカウントすることによって推定され得る。
【0163】
いくつかの例では、開示される方法及びシステムは、本明細書に説明されるように、対象区間セット(例えば、遺伝子座)に対するヌクレオチド配列を提供する。ある特定の事例では、配列は、マッチする正常対照(例えば、野生型コントロール)、及び/又はマッチする腫瘍対照(例えば、原発性対転移性)を含む方法を使用せずに提供される。
【0164】
いくつかの例では、本明細書で使用される場合、配列決定深度のレベル(例えば、配列決定深度のX倍レベル)は、重複リード(例えば、PCR重複リード)の検出及び除去の後に得られるリードの数(例えば、固有リード)を指す。他の例では、例えば、コピー数変化(CNA)の検出を支援するために、重複リードが評価される。
【0165】
アラインメント
アラインメントは、リードをある場所、例えば、ゲノム場所又は遺伝子座とマッチングさせるプロセスである。いくつかの例では、NGSリードは、既知の参照配列(例えば、野生型配列)にアラインメントされ得る。いくつかの例では、NGSリードは、デノボアセンブリされ得る。NGSリードに対する配列アラインメントの方法は、例えば、Trapnell,C.and Salzberg,S.L.Nature Biotech.,2009,27:455-457に説明されている。デノボ配列アセンブリの例は、例えばWarren R.et al.,Bioinformatics,2007,23:500-501、Butler J.et al.,Genome Res.,2008,18:810-820、及びZerbino D.R.and Birney E.,Genome Res.,2008,18:821-829に説明されている。配列アラインメントの最適化は、例えば、国際特許出願公開第2012/092426号に記載されているように、当技術分野で説明されている。配列アラインメント方法の追加の説明が、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0166】
ミスアラインメント(例えば、ゲノム内の不正確な場所における短いリードからの塩基対の配置)、例えば、代替対立遺伝子のリードが代替対立遺伝子リードのヒストグラムピークからシフトされ得るため、実際のがん変異の周りの配列コンテキスト(例えば、反復配列の存在)に起因するリードのミスアラインメントは、変異検出の感度の低下につながり得、変異検出の感度の低下につながり得る。ミスアラインメントを引き起こし得る配列コンテキストの他の例は、ショートタンデムリピート、散在反復配列、低複雑性領域、挿入-欠失(インデル)、及びパラログを含む。実際の変異が存在しない場合に問題のある配列状況が生じる場合、ミスアラインメントは、実際の参照ゲノム塩基配列のリードを誤った場所に配置することによって、「変異」対立遺伝子のアーチファクトのリードを導入し得る。多重遺伝子分析のための変異呼び出しアルゴリズムは、低存在量の変異に対してさえも感受性でなければならないため、配列ミスアラインメントは、偽陽性発見率を増加させ、及び/又は特異性を低下させ得る。
【0167】
いくつかの例では、本明細書に開示される方法及びシステムは、複数の個別に調整されたアラインメント方法又はアルゴリズムの使用を統合して、配列決定方法、特に、多数の多様なゲノム遺伝子座における多数の多様な遺伝的事象の超並列配列決定に依存する方法で、ベース呼び出し性能を最適化し得る。いくつかの例では、開示される方法及びシステムは、1つ以上のグローバルアラインメントアルゴリズムの使用を含み得る。いくつかの例では、開示される方法及びシステムは、1つ以上のローカルアラインメントアルゴリズムの使用を含み得る。使用され得るアラインメントアルゴリズムの例としては、限定されるものではないが、Burrows-Wheeler Alignment(BWA)ソフトウェアバンドル(例えば、Li,et al.(2009),“Fast and Accurate Short Read Alignment with Burrows-Wheeler Transform”,Bioinformatics 25:1754-60、Li,et al.(2010),Fast and Accurate Long-Read Alignment with Burrows-Wheeler Transform”,Bioinformatics epub.PMID:20080505参照)、Smith-Watermanアルゴリズム(例えば、Smith,et al.(1981),“Identification of Common Molecular Subsequences”,J.Molecular Biology 147(1):195-197参照)、Striped Smith-Watermanアルゴリズム(例えば、Farrar(2007),“Striped Smith-Waterman Speeds Database Searches Six Times Over Other SIMD Implementations”,Bioinformatics 23(2):156-161参照)、Needleman-Wunschアルゴリズム(Needleman,et al.(1970)“A General Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins”,J. Molecular Biology 48(3):443-53)、又はそれらの任意の組み合わせが挙げられる。
【0168】
いくつかの例では、本明細書に開示される方法及びシステムはまた、配列アセンブリアルゴリズム、例えば、Arachne配列決定アセンブリアルゴリズム(例えば、Batzoglou,et al.(2002),“ARACHNE:A Whole-Genome Shotgun Assembler”,Genome Res.12:177-189参照)の使用も含み得る。
【0169】
いくつかの例では、配列リードを分析するために使用されるアラインメント方法は、異なるゲノム遺伝子座における異なる変異体(例えば、点変異、挿入、欠失など)の検出のために個別的にカスタマイズ又は調整されない。いくつかの例では、異なるゲノム遺伝子座で検出される異なる変異体の少なくともサブセットの検出のために個別的にカスタマイズ又は調整される異なるアラインメント方法がリードを分析するために使用される。いくつかの例では、異なるゲノム遺伝子座で各異なる変異体を検出するために個別的にカスタマイズ又は調整される異なるアラインメント方法がリードを分析するために使用される。いくつかの例では、調整は、(i)配列決定される遺伝子座(例えば、遺伝子座、マイクロサテライト遺伝子座、又は他の対象区間)、(ii)試料と関連付けられた腫瘍タイプ、(iii)配列決定される変異体、又は(iv)試料若しくは対象の特徴のうちの1つ以上の関数であり得る。配列決定されるいくつかの特定の対象区間に個別に調整されるアラインメント条件の選択又は使用は、速度、感度及び特異性の最適化を可能にする。この方法は、比較的多数の多様な対象区間に対するリードのアラインメントが最適化される場合に特に有効である。いくつかの例では、方法は、再配置のために最適化されたアラインメント方法と、再配置と関連付けられていない対象区間のために最適化された他のアラインメント方法の併用を含む。
【0170】
いくつかの例では、本明細書に開示される方法は、配列リードを分析、例えば、アラインメントするための当該アラインメント方法を選択又は使用することを更に含み、アラインメント方法は、(i)腫瘍タイプ、例えば、試料中の腫瘍タイプ、(ii)配列決定される対象区間の場所(例えば、遺伝子座)、(iii)配列決定される対象区間内の変異体のタイプ(例えば、点変異、挿入、欠失、置換、コピー数変異(CNV)、再編成、又は融合)、(iv)分析される部位(例えば、ヌクレオチド位置)、(v)試料のタイプ(例えば、本明細書に説明される試料)、及び/又は(vi)評価される対象区間内若しくはその近くの隣接配列(例えば、対象区間内又はその近くの反復配列の存在に起因する対象区間のミスアラインメントに対する、その予想される傾向に従って)のうちの1つ以上の関数であるか、それらに応じて選択されるか、それらに対して最適化される。
【0171】
いくつかの例では、本明細書に開示される方法は、面倒なリード、例えば、再編成を有するリードの迅速かつ効率的なアラインメントを可能にする。したがって、対象区間に対するリードが再編成、例えば、転座を伴うヌクレオチド位置を含むいくつかの例では、方法は、適切に調整され、以下を含むアラインメント方法を使用することを含み得る。(i)リードとのアラインメントのための再配列参照配列を選択することであって、当該再配列参照配列が再配列(いくつかの例では、参照配列はゲノム再編成と同一ではない)とアラインメントする、選択すること、及び(ii)リードを当該再編成参照配列と比較、例えば、アラインメントすること。
【0172】
いくつかの例では、代替的な方法が、問題のあるリードをアラインメントするために使用され得る。これらの方法は、比較的多数の多様な対象区間に対するリードのアラインメントが最適化される場合に特に有効である。例として、試料を分析する方法は、(i)第1のパラメータセットを使用するリードの比較(例えば、アラインメント比較)を実施し(例えば、第1のマッピングアルゴリズムを使用するか、又は第1の参照配列との比較によって)、当該リードが第1のアラインメント基準を満たす(例えば、リードが当該第1の参照配列で、例えば、特定の数のミスマッチ未満でアラインメントされ得る)かどうかを決定することと、(ii)当該リードが第1のアラインメント基準を満たさない場合、第2のパラメータセットを使用して第2のアラインメント比較を実施する(例えば、第2のマッピングアルゴリズムを使用するか、又は第2の参照配列との比較によって)ことと、(iii)任意選択的に、当該リードが当該第2の基準を満たす(例えば、リードが当該第2の参照配列で、例えば、特定の数未満のミスマッチ未満でアラインメントされ得る)かどうかを決定することであって、当該第2のパラメータセットが、例えば、当該第1のパラメータセットと比較して、変異体に対するリードとのアラインメント(例えば、再編成、挿入、欠失、又は転座)を結果的にもたらす可能性が高い、第2の参照配列の使用を含む、決定することと、を含み得る。
【0173】
いくつかの例では、開示される方法における配列データのアラインメントは、本明細書の他の箇所に説明される変異呼び出し方法と組み合わせられ得る。本明細書で論じられるように、実際の変異を検出するための感度の低下は、分析されている遺伝子又はゲノム遺伝子座(例えば、遺伝子座)の予想される変異部位の周りのアラインメントの質を(手動で又は自動化された様式で)評価することによって対処することができる。いくつかの例では、評価されることになる部位は、ヒトゲノム(例えば、HG19ヒト参照ゲノム)又はがん変異(例えば、COSMIC)のデータベースから得られ得る。問題があると特定された領域は、例えば、Smith-Watermanアラインメントなどのより遅いがより正確なアラインメントアルゴリズムを使用するアラインメント最適化(又は再アラインメント)によって、関連する配列状況においてより良好な性能を与えるように選択されたアルゴリズムを使用して修復することができる。一般的なアラインメントアルゴリズムが問題を改善することができない場合、カスタマイズされたアラインメントアプローチが、例えば、置換を含む可能性が高い遺伝子に対する最大の異なるミスマッチペナルティパラメータの調整、特定の腫瘍タイプに共通である特定の変異タイプ(例えば、黒色腫のC→T)に基づいて、特定のミスマッチペナルティパラメータを調整すること、又はある特定の試料タイプ(例えば、FFPEに共通である置換)に共通である特定の変異タイプに基づいて、特定のミスマッチペナルティパラメータを調整することによって作成され得る。
【0174】
ミスアラインメントに起因する評価された対象区間の特異性の低下(偽陽性率の増加)は、配列決定データ内の全ての変異呼び出しの手動又は自動検査によって評価され得る。ミスアラインメントに起因して偽の変異呼び出しが発生し易いことが判明した領域は、上記に論じられたアラインメント改善に供され得る。アルゴリズム的な改善策が可能でない場合、問題領域からの「変異」を標的遺伝子座のパネルから分類又はスクリーニングすることができる。
【0175】
変異呼び出し
ベース呼び出しは、配列決定デバイスの生の出力、例えば、オリゴヌクレオチド分子中のヌクレオチドの決定された配列を指す。変異呼び出しは、配列決定されている所与のヌクレオチド位置に対してヌクレオチド値、例えば、A、G、T、又はCを選択するプロセスを指す。典型的には、位置に対する配列リード(又はベース呼び出し)は、2つ以上の値を提供することになり、例えば、いくつかのリードがTを示すことになり、いくつかがGを示すことになる。変異呼び出しは、正しいヌクレオチド値、例えば、それらの値のうちの1つを配列に割り当てるプロセスである。「変異」呼び出しと呼ばれるが、任意のヌクレオチド位置、例えば、変異体対立遺伝子、野生型対立遺伝子、変異体若しくは野生型として特徴付けられていない対立遺伝子に対応する位置、又は可変性を特徴としない位置にヌクレオチド値を割り当てるために適用することができる。
【0176】
いくつかの例では、開示される方法は、特に、試料、例えば、がんを有する対象からの試料中の多数の多様なゲノム遺伝子座(例えば、遺伝子座、マイクロサテライト領域など)における多数の多様な遺伝子事象の超並列配列決定に依存する方法において、配列決定データに適用されるときの性能を最適化するために、カスタマイズ又は調整された変異呼び出しアルゴリズム又はパラメータの使用を含み得る。変異呼び出しの最適化は、例えば、国際特許出願公開第2012/092426号に記載されているように、当技術分野で説明されている。
【0177】
変異呼び出しのための方法は、以下のうちの1つ以上を含むことができる:参照配列内の各位置での情報に基づいて独立した呼び出しを行う(例えば、配列リードを調べること;ベース呼び出し及び品質スコアを調べること;潜在的な遺伝子型が与えられたときの観察された塩基及び品質スコアの確率を計算すること;及び遺伝子型(例えば、ベイズ則を使用する)の割り当て);偽陽性を除去すること(例えば、深度閾値を使用して、予想よりもはるかに低い又は高い読み取り深度を有するSNPを拒否する;小さいインデルに起因する偽陽性を除去するための局所再調整);連鎖不平衡(LD)/帰属に基づく分析を実行して、呼び出しを改良すること。
【0178】
特定の遺伝子型及び位置に関連する遺伝子型尤度を計算するために使用される式は、例えば、Li H.and Durbin R.Bioinformatics,2010;26(5):589-95に説明されている。特定のがん型における特定の変異に対する事前の予想は、そのがん型からの試料を評価するときに使用することができる。そのような可能性は、がん変異の公開データベース、例えば、Catalogue of Somatic Mutation in Cancer(COSMIC)、HGMD(Human Gene Mutation Database)、The SNP Consortium、Breast Cancer Mutation Data Base(BIC)及びBreast Cancer Gene Database(BCGD)から得ることができる。
【0179】
LD/インピュテーションベースの分析の例は、例えば、Browning,B.L.and Yu,Z.Am.J.Hum.Genet.2009,85(6):847-61に説明されている。低カバレッジSNP呼び出し方法の例は、例えば、Li,Y.,et al.,Annu.Rev.Genomics Hum.Genet.2009,10:387-406に説明されている。
【0180】
アラインメント後、呼び出し方法(例えば、ベイジアン変異呼び出し方法)を使用して置換の検出が実施され得、これは、対象区間の各々の各塩基、例えば、評価される遺伝子又は他の遺伝子座のエクソンに適用され、代替対立遺伝子の存在が観察される。この方法は、変異の存在下でリードデータを観測する確率を、ベース呼び出しエラーのみの存在下でリードデータを観測する確率と比較する。この比較が変異の存在を十分に強く支持する場合、変異を呼び出すことができる。
【0181】
ベイズ変異検出手法の利点は、変異の存在確率と塩基呼び出しエラーの確率のみとの比較を、その部位における変異の存在の事前予想によって重み付けできることである。代替対立遺伝子のいくつかのリードが所与のがん型について頻繁に変異した部位で観察される場合、変異の証拠の量が通常の閾値を満たさない場合であっても、変異の存在が確実に呼び出され得る。次いで、この柔軟性を使用して、より希少な変異/より低い純度の試料の検出感度を高めるか、又は読み取りカバレッジの減少に対して試験をより堅牢にすることができる。がんにおいてゲノム中のランダムな塩基対が変異している可能性は約1e-6である。例えば、典型的な多遺伝子性がんゲノムパネルの多くの部位で生じる特異的変異の可能性は、桁違いに高くなり得る。これらの尤度は、がん変異の公開データベース(例えば、COSMIC)に由来し得る。
【0182】
インデル呼び出しは、典型的には関連する信頼スコア又は統計的証拠指標を含む、挿入又は欠失によって参照配列とは異なる配列特定データ中の塩基を見つけるプロセスである。インデル呼び出しの方法は、候補インデルを同定するステップ、局所再アラインメントによって遺伝子型尤度を計算するステップ、並びにLDベースの遺伝子型推論及びコールを行うステップを含み得る。典型的には、ベイズ法を使用して潜在的インデル候補を取得し、次いでこれらの候補をベイズフレームワーク内の参照配列とともに試験する。
【0183】
候補インデルを生成するためのアルゴリズムは、例えば、McKenna,A.,et al.,Genome Res.2010;20(9):1297-303、Ye,K.,et al.,Bioinformatics,2009;25(21):2865-71、Lunter,G.,and Goodson,M.,Genome Res.2011;21(6):936-9、及びLi,H.,et al.(2009),Bioinformatics 25(16):2078-9に説明されている。
【0184】
インデル呼び出し及び個体レベルの遺伝子型尤度を生成する方法としては、例えば、Dindelアルゴリズム(Albers C.A.et al.,Genome Res.2011;21(6):961-73)が挙げられる。例えば、ベイジアンEMアルゴリズムを使用して、リードを分析し、初期インデル呼び出しを行い、各候補インデルについて遺伝子型尤度を生成し、続いて、例えば、QCALL(Le S.Q.and Durbin R.Genome Res.2011;21(6):952-60)を使用して遺伝子型を補完することができる。インデルを観察する事前の予想などのパラメータは、インデルのサイズ又は位置に基づいて調整することができる(例えば、増加又は減少)。
【0185】
がんDNAの分析のための50%又は100%の対立遺伝子頻度からの限られた偏差に対処する方法が開発されている。(例えば、SNVMix-Bioinformatics.2010 March 15;26(6):730-736参照。)しかしながら、本明細書に開示される方法は、1%~100%の範囲の頻度(又は対立遺伝子画分)(すなわち、0.01~1.0の範囲の対立遺伝子画分)、及び、特に、50%未満のレベルの変異体対立遺伝子の存在の可能性の考慮を可能にする。このアプローチは、例えば、天然(マルチクローナル)腫瘍DNAの低純度FFPE試料における変異の検出に特に重要である。
【0186】
いくつかの例では、配列リードを分析するために使用される変異呼び出し方法は、異なるゲノム遺伝子座における異なる変異体の検出のために個別的にカスタマイズ又は調整されない。いくつかの例では、異なるゲノム遺伝子座で検出される異なる変異体の少なくともサブセットのために個別的にカスタマイズ又は微調整される異なる変異呼び出し方法が使用される。いくつかの例では、各異なるゲノム遺伝子座で検出される各異なる変異体のために個別的にカスタマイズ又は微調整される異なる変異呼び出し方法が使用される。カスタマイズ又は調整は、本明細書に説明される因子、例えば、試料中のがんのタイプ、配列決定される対象区間が位置する遺伝子若しくは遺伝子座、又は配列決定される変異体のうちの1つ以上に基づくことができる。配列決定される対象区間の数に対して個別的にカスタマイズ又は微調整された変異呼び出し方法のこの選択又は使用は、変異呼び出しの速度、感度、及び特異性の最適化を可能にする。
【0187】
いくつかの例では、ヌクレオチド値は、固有の変異呼び出し方法を使用してX個の固有の対象区間の各々のヌクレオチド位置に割り当てられ、Xは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも1000、少なくとも1500、少なくとも2000、少なくとも2500、少なくとも3000、少なくとも3500、少なくとも4000、少なくとも4500、少なくとも5000以上である。呼び出し方法は異なり、それによって、例えば、異なるベイズ事前値に依存することによって一意であり得る。
【0188】
いくつかの例では、当該ヌクレオチド値を割り当てることは、タイプの腫瘍における当該ヌクレオチド位置における変異体、例えば、変異を示すリードを観察する以前(例えば、文献)の期待値であるか又はそれを表す値の関数である。
【0189】
いくつかの例では、方法は、少なくとも10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900又は1,000個のヌクレオチド位置についてヌクレオチド値(例えば、変異の呼び出し)を割り当てることを含み、各割り当ては、タイプの腫瘍における当該ヌクレオチド位置における変異体、例えば変異を示すリードを観察する以前(例えば、文献)の期待値であるか又はそれを表す固有の(他の割り当ての値とは対照的な)値の関数である。
【0190】
いくつかの例では、当該ヌクレオチド値を割り当てることは、変異体が特定の頻度(例えば、1%、5%、10%など)で試料中に存在する場合及び/又は変異体が存在しない場合(例えば、塩基呼び出しエラーのみに起因してリードにおいて観察される)、当該ヌクレオチド位置で当該変異体を示すリードを観察する確率を表す値のセットの関数である。
【0191】
いくつかの例では、本明細書に説明される変異呼び出し方法は、(a)当該X個の対象区間の各々におけるヌクレオチド位置について、(i)タイプXの腫瘍の当該ヌクレオチド位置における変異体、例えば、変異を示すリードを観察する以前(例えば、文献)の期待値であるか又はそれを表す第1の値と、(ii)変異体がある頻度(例えば、1%、5%、10%など)で試料中に存在する場合、及び/又は変異体が存在しない(例えば、ベース呼び出しエラー単独に起因して、リード内で観察される)場合、当該ヌクレオチド位置で当該変異体を示すリードを観察する可能性を表す第2の値のセットと、を取得することと、(b)当該値に応答して、例えば、本明細書に説明されるベイズ法によって、第1の値を使用する第2のセット内の値の間の比較を重み付けすることによって、当該ヌクレオチド位置の各々に、当該リードからのヌクレオチド値(例えば、変異を呼び出す)を割り当て、それによって、当該試料を分析することと、を含み得る。
【0192】
変異体呼び出し方法の追加の説明が、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0193】
システム
対象からの試料中で反復汚染検出及びセグメント化(例えば、スタンドアロン手順として、又はコピー数変化呼び出しパイプラインの一部として)を実施するための開示される方法のうちのいずれかを実装するために設計されたシステムもまた、本明細書に開示される。システムは、例えば、1つ以上のプロセッサと、1つ以上のプロセッサに通信可能に結合され、かつ命令を記憶するように構成されたメモリユニットと、を備え、命令が、1つ以上のプロセッサによって実行されたとき、システムに、複数の配列リードに対する配列リードデータを受信することと、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、試料に対する汚染の程度を推定することと、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を含む、システムが、本明細書に開示される。
【0194】
いくつかの例では、開示されるシステムは、シーケンサー、例えば、次世代シーケンサー(超並列シーケンサーとも呼ばれる)を更に含む。次世代(又は超並列)配列決定プラットフォームの例としては、限定されるものではないが、Roche454、Illumina Solexa、ABI-SOLiD、ION Torrent、又はPacific Bioscience配列決定プラットフォームが挙げられる。
【0195】
いくつかの例では、開示されるシステムは、本明細書に説明される様々な試料(例えば、対象に由来する組織試料、生検試料、血液試料、又は液体生検試料)のうちのいずれかにおける反復汚染検出及びセグメント化を実施するために(及び/又はコピー数変化呼び出しのために)使用され得る。
【0196】
いくつかの例では、汚染の程度を決定するために、及び/又はCNAを呼び出すために配列決定データが処理される複数の遺伝子座は、少なくとも1、2、3、4、5、6、7、8、9、10又は10超の遺伝子座を含み得る。
【0197】
いくつかの例では、核酸配列データは、400塩基未満、300塩基未満、200塩基未満、150塩基未満、100塩基未満、90塩基未満、80塩基未満、70塩基未満、60塩基未満、50塩基未満、40塩基未満、又は30塩基未満のリード長を有する次世代配列決定技術(超並列配列決定技術とも呼ばれる)を使用して取得される。
【0198】
いくつかの例では、1つ以上の遺伝子座におけるコピー数変化の決定は、本明細書の他の箇所で説明されるように、試料が由来した対象(例えば、患者)内のがんに対する処置を選択、開始、調整、又は終了するために使用される。
【0199】
いくつかの事例では、開示されるシステムは、試料処理及びライブラリ調製ワークステーション、マイクロプレートハンドリングロボット、流体分注システム、温度制御モジュール、環境制御チャンバ、追加のデータ記憶モジュール、データ通信モジュール(例えば、Bluetooth(登録商標)、WiFi、イントラネット、又はインターネット通信ハードウェア及び関連ソフトウェア)、ディスプレイモジュール、1つ以上のローカル及び/若しくはクラウドベースのソフトウェアパッケージ(例えば、機器/システム制御ソフトウェアパッケージ、配列決定データ分析ソフトウェアパッケージ)など、又はそれらの任意の組み合わせを更に含み得る。いくつかの事例では、システムは、本明細書の他の箇所に説明されるコンピュータシステム又はコンピュータネットワークを含むか、又はその一部であり得る。
【0200】
コンピュータシステム及びネットワーク
図5は、一実施形態によるコンピューティングデバイス又はシステムの例を例示する。デバイス500は、ネットワークに接続されたホストコンピュータとすることができる。デバイス500は、クライアントコンピュータ又はサーバとすることができる。
図5に示されるように、デバイス500は、パーソナルコンピュータ、ワークステーション、サーバ、又はハンドヘルド計算デバイス(携帯電子デバイス、例えば、電話又はタブレット)などの任意の好適なタイプのマイクロプロセッサベースのデバイスであり得る。デバイスは、例えば、1つ以上のプロセッサ510、入力デバイス520、出力デバイス530、メモリ又は記憶デバイス540、通信デバイス560、及び核酸シーケンサー570を含み得る。メモリ又は記憶デバイス540に常駐するソフトウェア550は、例えば、オペレーティングシステム、及び本明細書に説明される方法を実行するためのソフトウェアを含み得る。入力デバイス520及び出力デバイス530は、一般に、本明細書に記載のものに対応していてもよく、コンピュータと接続可能であってもよく、又はコンピュータと一体化していてもよい。
【0201】
入力デバイス520は、タッチスクリーン、キーボード若しくはキーパッド、マウス、又は音声認識デバイスなどの入力を提供する任意の好適なデバイスであってもよい。出力デバイス530は、タッチスクリーン、触覚デバイス、又はスピーカなど、出力を提供する任意の好適なデバイスであってもよい。
【0202】
ストレージ540は、ストレージ(例えば、RAM(揮発性及び不揮発性)、キャッシュ、ハードドライブ、又はリムーバブルストレージディスクを含む、電気的、磁気的、又は光学的メモリ)を提供する任意の好適なデバイスであり得る。通信デバイス560は、ネットワークインターフェースチップ又はデバイスなどのネットワークを介してシグナルを送受信し得る任意の好適なデバイスを含み得る。コンピュータの構成要素は、例えば、有線メディア(例えば、物理システムバス580、イーサネット接続、若しくは任意の他の有線転送技術)を介して、又は無線(例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、又は任意の他の無線技術)で、任意の好適な様式で接続することができる。
【0203】
ソフトウェアモジュール550は、ストレージ540に実行可能な命令として記憶され、プロセッサ510によって実行されることができ、例えば、オペレーティングシステム及び/又は本開示の方法の機能を具現化するプロセスを含むことができる(例えば、上記のデバイスに具現化される)。
【0204】
ソフトウェアモジュール550はまた、命令実行システム、装置、若しくはデバイス(例えば、本明細書に記載のもの)によって、又はそれらと接続して使用するための任意の非一時的コンピュータ可読記憶媒体内に記憶及び/又は転送することができ、命令実行システム、装置、若しくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行することができる。本開示の文脈において、コンピュータ可読記憶媒体は、ストレージ540などの任意の媒体であり得、命令実行システム、装置、若しくはデバイスによって、又はそれらと接続して使用するためのプロセスを含む若しくは記憶することができる。コンピュータ可読記憶媒体の例としては、単一の機能ユニットとして動作するハードドライブ、フラッシュドライブ、及び配信モジュールなどのメモリユニットを挙げることができる。また、本明細書に記載の様々なプロセスは、上記の実施形態及び技法に従って動作するように構成されたモジュールとして具現化され得る。更に、プロセスは別個に示され、かつ/又は説明され得るが、当業者は、上記のプロセスが他のプロセス内のルーチン又はモジュールであり得ることを理解するであろう。
【0205】
ソフトウェアモジュール550はまた、命令実行システム、装置、若しくは上述したものなどのデバイスによって、又はそれらと接続して使用するための任意の伝送媒体内に伝播され得、命令実行システム、装置、若しくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行し得る。本開示の文脈において、伝送媒体は、任意の媒体とし得、命令実行システム、装置、若しくはデバイスによって、又はそれらと接続して使用するための伝送プログラミングを通信、伝播、又は伝送し得る。伝送可読媒体は、電子、磁気、光学、電磁気、若しくは赤外線の有線又は無線伝播媒体を含み得るが、これらに限定されない。
【0206】
デバイス500は、任意の好適なタイプの相互接続された通信システムであり得る、ネットワーク(例えば、
図6に示され、及び/又は以下に説明される、ネットワーク604)に接続され得る。ネットワークは、任意の好適な通信プロトコルを実装し得、任意の好適なセキュリティプロトコルによって保護され得る。ネットワークは、無線ネットワーク接続(T1若しくはT3回線)、ケーブルネットワーク、DSL、又は電話回線などの、ネットワークシグナルの送受信を実装し得る任意の好適な配置のネットワークリンクを含み得る。
【0207】
デバイス500は、任意のオペレーティングシステム、例えば、ネットワーク上で動作するのに好適なオペレーティングシステムを使用して実装され得る。ソフトウェアモジュール550は、C、C++、Java、又はPythonなどの任意の好適なプログラミング言語で書くことができる。様々な実施形態では、本開示の機能を具現化するアプリケーションソフトウェアは、異なる構成で(例えば、クライアント/サーバ配置で、又はウェブベースのアプリケーション若しくはウェブサービスとしてのウェブブラウザを介して)展開され得る。いくつかの実施形態では、オペレーティングシステムは、1つ以上のプロセッサ、例えば、プロセッサ510によって実行される。
【0208】
デバイス500は、任意の適切な核酸配列決定機器とすることができるシーケンサー570を更に含むことができる。
【0209】
図6は、一実施形態によるコンピューティングシステムの例を例示する。システム600では、デバイス500(例えば、上記に説明され、
図5に例示される)は、ネットワーク604に接続され、これはまた、デバイス606にも接続されている。いくつかの実施形態では、デバイス606は、シーケンサーである。例示的なシーケンサーは、限定されないが、Roche/454のGenome Sequencer(GS)FLX System、Illumina/SolexaのGenome Analyzer(GA)、IlluminaのHiSeq 2500、HiSeq 3000、HiSeq 4000、及びNovaSeq 6000配列決定システム、Life/APGのSupport Oligonucleotide Ligation Detection(SOLiD)システム、PolonatorのG.007システム、Helicos BioSciencesのHeliScope Gene配列決定システム、又はPacific BiosciencesのPacBio RSシステムを含む。
【0210】
デバイス500及び606は、例えば、ローカルエリアネットワーク(LAN)、仮想プライベートネットワーク(VPN)、又はインターネットなどのネットワーク604を介して適切な通信インターフェースを使用して通信することができる。いくつかの実施形態では、ネットワーク604は、例えば、インターネット、イントラネット、仮想プライベートネットワーク、クラウドネットワーク、有線ネットワーク、又は無線ネットワークとすることができる。デバイス500及び606は、イーサネット、IEEE802.11b無線などの無線又は有線通信を介して、部分的又は全体的に通信することができる。追加的に、デバイス500及び606は、例えば、好適な通信インターフェースを使用して、モバイル/セルラーネットワークなどの第2のネットワークを介して通信することができる。デバイス500と606との間の通信は、メールサーバ、モバイルサーバ、メディアサーバ、電話サーバなどの様々なサーバを更に含むか、それらと通信することができる。いくつかの実施形態では、デバイス500及び606は、(ネットワーク604を介した通信の代わりに、又はそれに加えて)、例えば、イーサネット、IEEE802.11b無線などの無線又は有線通信を介して、直接通信することができる。いくつかの実施形態では、デバイス500及び606は、直接接続とすることができるか、又はネットワーク(例えば、ネットワーク604)を介して発生することができる通信608を介して通信する。
【0211】
デバイス500及び606のうちの一方又は全ては、一般に、本明細書に記載の様々な例にしたがってネットワーク604を介して情報を提供及び/又は受信するために、ローカル若しくはリモートのデータベース又は他のデータ及びコンテンツのソースからアクセスされる論理(例えば、httpウェブサーバロジック)を含むか、又はデータをフォーマットするようにプログラムされる。
【実施例】
【0212】
実施例1-例示的なLog2カバレッジ比データ
図7は、反復汚染検出及びセグメント化のための開示される方法を使用して生成されたlog2カバレッジ比(L2R)データ(上部パネル)及びマイナー対立遺伝子頻度(MAF)データ(下部パネル)の非限定的な例を提供する。異常SNPに対するマイナー対立遺伝子頻度データ点は、下部パネルでオレンジ色であり、この試料に対するコピー数分析から除外されている。開示される方法を使用して生成された汚染推定値は、4.6%であった。水平バー702及び704は、それぞれ、コピー数モデルに対する最良適合モードを考慮した、L2R及びMAFデータに対して予想されたレベルに対応する。
【0213】
例示的な実施態様
本明細書に説明される方法及びシステムの例示的な実施態様は、以下を含む。
1.方法であって、
対象からの試料から得られた複数の核酸分子を提供することと、
1つ以上のアダプターを複数の核酸分子からの1つ以上の核酸分子上にライゲーションすることと、
複数の核酸分子からの1つ以上のライゲーションされた核酸分子を増幅することと、
増幅された核酸分子から増幅された核酸分子を捕捉することと、
シーケンサーによって、捕捉された核酸分子を配列決定して、捕捉された核酸分子を表す複数の配列リードを得ることであって、複数の配列リードのうちの1つ以上が、試料中の1つ以上のサブゲノム区間内で1つ以上の遺伝子座と重複する、得ることと、
1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、
1つ以上のプロセッサを使用して、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布に基づいて、試料に対する汚染の程度を推定することと、
1つ以上のプロセッサを使用して、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、
1つ以上のプロセッサを使用して、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
1つ以上のプロセッサを使用して、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、
第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、
1つ以上のプロセッサを使用して、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を含む、方法。
2.試料に対する推定された汚染の程度と等しいように第1の閾値に対する初期値を設定することを更に含む、条項1に記載の方法。
3.複数の選択された一塩基多型(SNP)が、複数の選択されたヘテロ接合体一塩基多型(SNP)を含む、条項1又は2に記載の方法。
4.複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布が、複数の選択された一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の所定の分布を含む、条項1~3のいずれか一項に記載の方法。
5.1つ以上のプロセッサによって出力されたセグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することを更に含む、条項1~4のいずれか一項に記載の方法。
6.最終閾値を下回る対立遺伝子頻度を呈するSNPと同じセグメント上の遺伝子座に対する全ての配列リードデータを、1つ以上の遺伝子座に対するコピー数分析から除外することを更に含む、条項1~5のいずれか一項に記載の方法。
7.複数の選択されたSNPに対するマイナー対立遺伝子頻度の分布に基づいて、試料に対する汚染の程度を推定することが、少なくとも第2の閾値によって複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPSに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する試料中で識別されたSNPのパーセンテージを決定することを含む、条項1~6のいずれか一項に記載の方法。
8.SNPは、SNPが、遺伝子頻度の差の絶対値に基づいて同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される、条項1~7のいずれか一項に記載の方法。
9.SNPは、SNPが、統計解析に基づいて同じセグメント上で検出された他のSNPSに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される、条項1~8のいずれか一項に記載の方法。
10.セグメント化ステップが、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、又は変化点法を使用して実施される、条項1~9のいずれか一項に記載の方法。
11.セグメント化が、変化点法を使用して実施され、変化点法が、枝刈り厳密線形時間(PELT)法である、条項10に記載の方法。
12.第1の閾値が、異常として分類されるSNPの数を低減するために増分調整され、第1の閾値が、少なくとも第3の閾値によって複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPSに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する試料中で識別されたSNPのパーセンテージに基づいて設定される、条項1~11のいずれか一項に記載の方法。
13.対象が、疾患を有することが疑われるか、又は疾患を有すると決定される、条項1~12のいずれか一項に記載の方法。
14.疾患が、がんである、条項13に記載の方法。
15.方法が、定期検査のためのコピー数変化(CNA)呼び出しパイプラインの一部として使用される、条項1~14のいずれか一項に記載の方法。
16.方法が、出生前検査のためのコピー数変化(CNA)呼び出しパイプラインの一部として使用される、条項1~15のいずれか一項に記載の方法。
17.対象から試料を収集することを更に含む、条項1~16のいずれか一項に記載の方法。
18.試料が、組織生検試料、液体生検試料、又は正常対照を含む、条項1~17のいずれか一項に記載の方法。
19.試料が、組織生検試料であり、骨髄試料を含む、条項18に記載の方法。
20.試料が、液体生検試料であり、かつ血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む、条項18に記載の方法。
21.試料が、液体生検試料であり、かつ循環腫瘍細胞(CTC)を含む、条項18に記載の方法。
22.試料が、液体生検試料であり、かつ無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、又はそれらの任意の組み合わせを含む、条項18に記載の方法。
23.複数の核酸分子が、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む、条項1~22のいずれか一項に記載の方法。
24.腫瘍核酸分子が、不均質組織生検試料の腫瘍部分に由来し、かつ非腫瘍核酸分子が、不均質組織生検試料の正常部分に由来する、条項23に記載の方法。
25.試料が、液体生検試料を含み、腫瘍核酸分子が、液体生検試料の循環腫瘍DNA(ctDNA)画分に由来し、非腫瘍核酸分子が、液体生検試料の非腫瘍無細胞DNA(cfDNA)画分に由来する、条項23に記載の方法。
26.1つ以上のアダプターが、増幅プライマー、フローセルアダプター配列、基質アダプター配列、又は試料インデックス配列を含む、条項1~25のいずれか一項に記載の方法。
27.捕捉された核酸分子が、1つ以上のベイト分子へのハイブリダイゼーションによって増幅された核酸分子から捕捉される、条項1~26のいずれか一項に記載の方法。
28.1つ以上のベイト分子が、1つ以上の核酸分子を含み、各核酸分子が、捕捉された核酸分子の領域に相補的な領域を含む、条項27に記載の方法。
29.核酸分子を増幅することが、ポリメラーゼ連鎖反応(PCR)増幅技術、非PCR増幅技術、又は等温増幅技術を実施することを含む、条項1~28のいずれか一項に記載の方法。
30.配列決定が、超並列配列決定(MPS)技術、全ゲノム配列決定(WGS)、全エクソーム配列決定、標的配列決定、直接配列決定、又はサンガー配列決定技術の使用を含む、条項1~29のいずれか一項に記載の方法。
31.配列決定が、超並列配列決定を含み、超並列配列決定技術が、次世代配列決定(NGS)を含む、条項30に記載の方法。
32.次世代配列決定(NGS)が、ペアエンド配列決定を含む、条項31に記載の方法。
33.シーケンサーが、次世代シーケンサーを含む、条項1~32のいずれか一項に記載の方法。
34.1つ以上のプロセッサによって、1つ以上の遺伝子座に対する予測されたコピー数を示すレポートを生成することを更に含む、条項5~33のいずれか一項に記載の方法。
35.レポートをヘルスケア提供者に送信することを更に含む、条項34に記載の方法。
36.レポートが、コンピュータネットワーク又はピアツーピア接続を介して送信される、条項35に記載の方法。
37.対象からの試料に対する配列リードデータ内の汚染を検出するための方法であって、方法が、
1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、
1つ以上のプロセッサを使用して、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布に基づいて、試料に対する汚染の程度を推定することと、
1つ以上のプロセッサを使用して、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、
1つ以上のプロセッサを使用して、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
1つ以上のプロセッサを使用して、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、
第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、
1つ以上のプロセッサを使用して、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を含む、方法。
38.複数の配列決定リードのうちの1つ以上が、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する、条項37に記載の方法。
39.試料に対する推定された汚染の程度と等しいように第1の閾値に対する初期値を設定することを更に含む、条項37又は38に記載の方法。
40.複数の選択された一塩基多型(SNP)が、複数の選択されたヘテロ接合体一塩基多型(SNP)を含む、条項37~39のいずれか一項に記載の方法。
41.複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布が、複数の選択された一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の所定の分布を含む、条項37~40のいずれか一項に記載の方法。
42.1つ以上のプロセッサによって出力されたセグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することを更に含む、条項37に記載の方法。
43.最終閾値を下回る対立遺伝子頻度を呈するSNPに対する全ての配列リードデータを、1つ以上の遺伝子座に対するコピー数分析から除外することを更に含む、条項37~42のいずれか一項に記載の方法。
44.最終閾値を下回る対立遺伝子頻度を呈するSNPと同じセグメント上の遺伝子座に対する全ての配列リードデータを、1つ以上の遺伝子座に対するコピー数分析から除外することを更に含む、条項37~43のいずれか一項に記載の方法。
45.複数の遺伝子座内で識別された複数の選択されたSNPが、少なくとも100SNP遺伝子座を含む、条項37~44のいずれか一項に記載の方法。
46.複数の遺伝子座内で識別された複数の選択されたSNPが、少なくとも1,000SNPを含む、条項37~45のいずれか一項に記載の方法。
47.複数の遺伝子座内で識別された複数の選択されたSNPが、最大10,000SNP遺伝子座を含む、条項37~46のいずれか一項に記載の方法。
48.複数の遺伝子座内で識別された複数の選択されたSNPが、最大100,000SNP遺伝子座を含む、条項37~47のいずれか一項に記載の方法。
49.複数の遺伝子座内で識別された複数の選択されたSNPが、最大1,000,000SNP遺伝子座を含む、条項37~48のいずれか一項に記載の方法。
50.複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)が、約50%の不偏ヘテロ接合体対立遺伝子頻度を有する二対立遺伝子ヘテロ接合体SNPを含む、条項37~49のいずれか一項に記載の方法。
51.複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)が、20%超のグローバル対立遺伝子頻度で観察される参照及び代替対立遺伝子を有する二対立遺伝子ヘテロ接合体SNPを含む、条項37~50のいずれか一項に記載の方法。
52.複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)が、20%超のグローバルMAFで観察される参照及び代替対立遺伝子を有する二対立遺伝子ヘテロ接合体SNPを含む、条項51に記載の方法。
53.複数の選択されたSNPに対する対立遺伝子頻度の分布に基づいて、試料に対する汚染の程度を推定することが、少なくとも第2の閾値によって複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する試料中で識別されたヘテロ接合体SNPのパーセンテージを決定することを含む、条項37~52のいずれか一項に記載の方法。
54.配列リードデータが、セグメント化ステップを実施する前にlog2カバレッジ比データに変換される、条項37~53のいずれか一項に記載の方法。
55.SNPは、SNPが、遺伝子頻度の差の絶対値に基づいて同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される、条項37~54のいずれか一項に記載の方法。
56.SNPは、SNPが、統計解析に基づいて同じセグメント上で検出された他のSNPSに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類される、条項37~55のいずれか一項に記載の方法。
57.統計解析が、t検定を含む、条項56に記載の方法。
58.セグメント化ステップが、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、又は変化点法を使用して実施される、条項37~57のいずれか一項に記載の方法。
59.セグメント化が、変化点法を使用して実施され、変化点法が、枝刈り厳密線形時間(PELT)法である、条項58に記載の方法。
60.セグメント化、分類、及び調整ステップが、最大1~10反復で繰り返される、条項37~59のいずれか一項に記載の方法。
61.第1の閾値が、異常として分類されるSNPの数を低減するために増分調整され、第1の閾値が、少なくとも第3の閾値によって複数の遺伝子座内で識別された複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布とは異なる対立遺伝子頻度を有する試料中で識別されたSNPのパーセンテージに基づいて設定される、条項37~60のいずれか一項に記載の方法。
62.試料中の汚染を検出するための検出の限界が、約10%未満である、条項37~61のいずれか一項に記載の方法。
63.試料中の汚染を検出するための検出の限界が、約5%未満である、条項37~62のいずれか一項に記載の方法。
64.試料中の汚染を検出するための検出の限界が、約1%未満である、条項37~63のいずれか一項に記載の方法。
65.試料中の汚染を検出するための検出の限界が、約0.5%未満である、条項37~64のいずれか一項に記載の方法。
66.第1の閾値が、0.2、0.3、0.4、又は0.5の値を有する、条項1~65のいずれか一項に記載の方法。
67.第2の閾値が、複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布の平均から少なくとも1、少なくとも2、少なくとも3、少なくとも4の標準偏差である、条項7又は53に記載の方法。
68.第3の閾値が、複数の選択されたヘテロ接合体SNPに対する予想された対立遺伝子頻度分布の平均から少なくとも1、少なくとも2、少なくとも3、少なくとも4の標準偏差である、条項12又は61に記載の方法。
69.対象からの試料中のコピー数変化(CNA)を呼び出すための方法であって、
1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、
1つ以上のプロセッサを使用して、配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布に基づいて、試料に対する汚染の程度を推定することと、
1つ以上のプロセッサを使用して、配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、
1つ以上のプロセッサを使用して、2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
1つ以上のプロセッサを使用して、異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、
第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、
1つ以上のプロセッサを使用して、セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、
1つ以上のプロセッサによって出力されたセグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築することと、
1つ以上の遺伝子座に対するコピー数変化を呼び出すことと、を含む、方法。
70.複数の配列決定リードのうちの1つ以上が、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する、条項69に記載の方法。
71.試料に対する推定された汚染の程度と等しいように第1の閾値に対する初期値を設定することを更に含む、条項69又は70に記載の方法。
72.複数の選択された一塩基多型(SNP)が、複数の選択されたヘテロ接合体一塩基多型(SNP)を含む、条項69~71のいずれか一項に記載の方法。
73.複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布が、複数の選択された一塩基多型(SNP)に対するマイナー対立遺伝子頻度(MAF)の所定の分布を含む、条項69~72のいずれか一項に記載の方法。
74.1つ以上の遺伝子座に対する呼び出されたCNAが、対象の疾患を診断するか、又はその診断を確認するために使用される、条項69~73のいずれか一項に記載の方法。
75.疾患が、がんである、条項74に記載の方法。
76.1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に投与するための抗がん治療を選択することを更に含む、条項75に記載の方法。
77.1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に投与するための抗がん治療の有効量を決定することを更に含む、条項76に記載の方法。
78.1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に抗がん治療を投与することを更に含む、条項77に記載の方法。
79.抗がん治療が、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む、条項75~78のいずれか一項に記載の方法。
80.がんが、B細胞がん(多発性骨髄腫)、黒色腫、乳がん、肺がん、気管支がん、結腸直腸がん、前立腺がん、膵臓がん、胃がん、卵巣がん、膀胱がん、脳がん、中枢神経系がん、末梢神経系がん、食道がん、子宮頸がん、子宮頸部がん、子宮内膜がん、口腔のがん、咽頭のがん、肝臓がん、腎臓がん、精巣がん、胆道がん、小腸がん、虫垂がん、唾液腺がん、甲状腺がん、副腎がん、骨肉腫、軟骨肉腫、血液組織のがん、腺がん、炎症性筋線維芽細胞腫、消化管間質腫瘍(GIST)、結腸がん、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性骨髄性白血病(CML)、慢性リンパ性白血病(CLL)、真性赤血球増加症、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨肉腫、脊索腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ血管内皮肉腫、滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮がん、基底細胞がん、腺がん、汗腺がん、脂腺がん、乳頭状がん、乳頭腺がん、髄様がん、気管支原性がん、腎細胞がん、肝がん、胆管がん、絨毛がん、精上皮がん、胎児性がん、ウィルムス腫瘍、膀胱がん、上皮がん、神経膠腫、星細胞腫、髄芽腫、頭蓋咽頭腫、上衣腫、松果体細胞腫、血管芽細胞腫、聴神経芽腫、乏突起膠腫、髄膜腫、神経芽細胞腫、網膜芽細胞腫、濾胞性リンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞がん、甲状腺がん、胃がん、頭頸部がん、小細胞がん、本態性血小板血症、原発性骨髄線維症、好酸球増加症候群、全身性肥満細胞症、家族性好酸球増加症、慢性好酸球性白血病、神経内分泌がん、又はカルチノイド腫瘍である、条項75~79のいずれか一項に記載の方法。
81.1つ以上の遺伝子座が、10~20遺伝子座、10~40遺伝子座、10~60遺伝子座、10~80遺伝子座、10~100遺伝子座、10~150遺伝子座、10~200遺伝子座、10~250遺伝子座、10~300遺伝子座、10~350遺伝子座、10~400遺伝子座、10~450遺伝子座、10~500遺伝子座、20~40遺伝子座、20~60遺伝子座、20~80遺伝子座、20~100遺伝子座、20~150遺伝子座、20~200遺伝子座、20~250遺伝子座、20~300遺伝子座、20~350遺伝子座、20~400遺伝子座、20~500遺伝子座、40~60遺伝子座、40~80遺伝子座、40~100遺伝子座、40~150遺伝子座、40~200遺伝子座、40~250遺伝子座、40~300遺伝子座、40~350遺伝子座、40~400遺伝子座、40~500遺伝子座、60~80遺伝子座、60~100遺伝子座、60~150遺伝子座、60~200遺伝子座、60~250遺伝子座、60~300遺伝子座、60~350遺伝子座、60~400遺伝子座、60~500遺伝子座、80~100遺伝子座、80~150遺伝子座、80~200遺伝子座、80~250遺伝子座、80~300遺伝子座、80~350遺伝子座、80~400遺伝子座、80~500遺伝子座、100~150遺伝子座、100~200遺伝子座、100~250遺伝子座、100~300遺伝子座、100~350遺伝子座、100~400遺伝子座、100~500遺伝子座、150~200遺伝子座、150~250遺伝子座、150~300遺伝子座、150~350遺伝子座、150~400遺伝子座、150~500遺伝子座、200~250遺伝子座、200~300遺伝子座、200~350遺伝子座、200~400遺伝子座、200~500遺伝子座、250~300遺伝子座、250~350遺伝子座、250~400遺伝子座、250~500遺伝子座、300~350遺伝子座、300~400遺伝子座、300~500遺伝子座、350~400遺伝子座、350~500遺伝子座、又は400~500遺伝子座を含む、条項69~80のいずれか一項に記載の方法。
82.疾患を診断するための方法であって、方法が、
対象からの試料に対する呼び出されたCNAに基づいて、対象が疾患を有することを診断することを含み、呼び出されたCNAが、条項69~81のいずれか一項に記載の方法に従って決定される、方法。
83.抗がん治療を選択する方法であって、方法が、
対象からの試料に対する1つ以上の遺伝子座に対するCNAを呼び出すことに応答して、対象に対する抗がん治療を選択することを含み、呼び出されたCNAが、条項69~81のいずれか一項に記載の方法に従って決定される、方法。
84.対象のがんを処置する方法であって、
対象からの試料に対する1つ以上の遺伝子座に対するCNAを呼び出すことに応答して、有効量の抗がん治療を対象に投与することを含み、呼び出されたCNAが、条項69~81のいずれか一項に記載の方法に従って決定される、方法。
85.対象における腫瘍の進行又は再発を監視する方法であって、
条項69~81のいずれか一項に記載の方法に従って、第1の時点で対象から得られた第1の試料中の1つ以上の遺伝子座に対するCNAを呼び出すことと、
第2の時点で対象から得られた第2の試料中の1つ以上の遺伝子座に対するCNAを呼び出すことと、1つ以上の遺伝子座について、第1の呼び出されたCNAを第2の呼び出されたCNAと比較し、それによって、腫瘍の進行又は再発を監視することと、を含む、方法。
86.第2の試料中の1つ以上の遺伝子座に対する呼び出されたCNAが、条項69~81のいずれか一項に記載の方法に従って決定される、条項85に記載の方法。
87.腫瘍の進行に応答して、抗がん治療を調整することを更に含む、条項85又は86に記載の方法。
88.腫瘍進行に応答して抗がん治療の投与量を調整すること、又は異なる抗がん治療を選択することを更に含む、条項85~87のいずれか一項に記載の方法。
89.調整された抗がん治療を対象に投与することを更に含む、条項88に記載の方法。
90.第1の時点は、対象が抗がん治療を投与される前であり、第2の時点は、対象が抗がん治療を投与された後である、条項85~89のいずれか一項に記載の方法。
91.対象が、がんを有するか、がんを有するリスクがあるか、がんについて日常的に検査されているか、又はがんを有する疑いがある、条項85~90のいずれか一項に記載の方法。
92.がんが、固形腫瘍である、条項85~91のいずれか一項に記載の方法。
93.がんが、血液がんである、条項85~91のいずれか一項に記載の方法。
94.抗がん治療が、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む、条項87~93のいずれか一項に記載の方法。
95.試料中の1つ以上の遺伝子座に対する呼び出されたCNAを、試料と関連付けられた診断値として決定、識別、又は適用することを更に含む、条項69~94のいずれか一項に記載の方法。
96.1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に対するゲノムプロファイルを生成することを更に含む、条項69~95のいずれか一項に記載の方法。
97.対象のゲノムプロファイルが、包括的ゲノムプロファイリング(CGP)試験、遺伝子発現プロファイリング試験、がんホットスポットパネル試験、DNAメチル化試験、DNA断片化試験、RNA断片化試験、又はそれらの任意の組み合わせからの結果を更に含む、条項96に記載の方法。
98.対象のゲノムプロファイルが、核酸配列決定に基づく試験からの結果を更に含む、条項96又は97に記載の方法。
99.生成されたゲノムプロファイルに基づいて、対象に対して、抗がん剤を選択すること、抗がん剤を投与すること、又は抗がん処置を適用することを更に含む、条項96~98のいずれか一項に記載の方法。
100.1つ以上の遺伝子座に対する呼び出されたCNAが、対象に対する示唆される処置決定を行う際に使用される、条項69~99のいずれか一項に記載の方法。
101.1つ以上の遺伝子座に対する呼び出されたCNAが、対象に処置を適用又は投与する際に使用される、条項69~100のいずれか一項に記載の方法。
102.システムであって、
1つ以上のプロセッサと、
1つ以上のプロセッサに通信可能に結合され、かつ命令を記憶するように構成されたメモリと、を備え、命令が、1つ以上のプロセッサによって実行されたとき、システムに、
複数の配列リードに対する配列リードデータを受信することと、
配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の所定の分布に基づいて、試料に対する汚染の程度を推定することと、
配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、
2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、
第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、
セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を行わせる、システム。
103.命令が、システムに、セグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築させることを更に含む、条項102に記載のシステム。
104.1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、1つ以上のプログラムが、命令を含み、命令が、システムの1つ以上のプロセッサによって実行されたとき、システムに、
複数の配列リードに対する配列リードデータを受信することと、
配列リードデータ内の複数の遺伝子座内で識別された複数の選択された一塩基多型(SNP)に対する対立遺伝子頻度(AF)の分布に基づいて、試料に対する汚染の程度を推定することと、
配列リードデータを2つ以上のセグメントにセグメント化することであって、各セグメントが、同じコピー数を有し、第1の閾値を下回る対立遺伝子頻度を呈するSNPを含む配列リードデータが、セグメント化プロセスから除外される、セグメント化することと、
2つ以上のセグメントのうちのセグメント上で検出されたSNPを、SNPが同じセグメント上で検出された他のSNPに対する対立遺伝子頻度とは異なる対立遺伝子頻度を呈するとき、異常として分類することと、
異常SNP対立遺伝子頻度の分布に基づいて、第1の閾値を調整することと、
第1の閾値が増加したときに、セグメント化、分類、及び調整ステップを繰り返すことと、
セグメント化データ及び最終閾値を、試料に対する推定された汚染の程度を出力することと、を行わせる、非一時的コンピュータ可読記憶媒体。
105.命令が、システムに、セグメント化データ及び推定された汚染の程度を使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築させることを更に含む、条項104に記載の非一時的コンピュータ可読記憶媒体。
【0214】
以上から、開示される方法及びシステムの特定の実施態様が例示及び説明されたが、様々な修正がそれらになされ得、本明細書で企図されることが理解されるべきである。本明細書内に提供される特定の例によって本発明が限定されることも意図していない。本発明は、上述の明細書を参照して説明されたが、本明細書の好ましい実施形態の説明及び例示は、限定の意味で解釈されることを意味していない。更に、本発明の全ての態様は、様々な条件及び変数に依存する、本明細書に記載された特定の描写、構成、又は相対的割合に限定されないことを理解されたい。本発明の実施形態の形態及び詳細に置ける様々な修正が当業者にとって明らかであろう。したがって、本発明はまた、任意のそのような修正例、変形例、及び均等物も包含するものと企図される。
【国際調査報告】