IP Force 特許公報掲載プロジェクト 2022.1.31 β版

知財求人 - 知財ポータルサイト「IP Force」

▶ ファウンデーション・メディシン・インコーポレイテッドの特許一覧

特表2024-538724コピー数変化の自動呼び出しのための方法及びシステム
<>
  • 特表-コピー数変化の自動呼び出しのための方法及びシステム 図1
  • 特表-コピー数変化の自動呼び出しのための方法及びシステム 図2
  • 特表-コピー数変化の自動呼び出しのための方法及びシステム 図3
  • 特表-コピー数変化の自動呼び出しのための方法及びシステム 図4
  • 特表-コピー数変化の自動呼び出しのための方法及びシステム 図5
  • 特表-コピー数変化の自動呼び出しのための方法及びシステム 図6
  • 特表-コピー数変化の自動呼び出しのための方法及びシステム 図7
< >
(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-10-23
(54)【発明の名称】コピー数変化の自動呼び出しのための方法及びシステム
(51)【国際特許分類】
   C12Q 1/6809 20180101AFI20241016BHJP
   C12Q 1/6874 20180101ALI20241016BHJP
   C12Q 1/6883 20180101ALI20241016BHJP
   C12Q 1/6886 20180101ALI20241016BHJP
【FI】
C12Q1/6809 Z
C12Q1/6874 Z
C12Q1/6883 Z
C12Q1/6886 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024521087
(86)(22)【出願日】2022-10-07
(85)【翻訳文提出日】2024-05-08
(86)【国際出願番号】 US2022077764
(87)【国際公開番号】W WO2023060236
(87)【国際公開日】2023-04-13
(31)【優先権主張番号】63/253,907
(32)【優先日】2021-10-08
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
【公序良俗違反の表示】
(特許庁注:以下のものは登録商標)
1.JAVA
2.PYTHON
(71)【出願人】
【識別番号】517192663
【氏名又は名称】ファウンデーション・メディシン・インコーポレイテッド
(74)【代理人】
【識別番号】110002077
【氏名又は名称】園田・小林弁理士法人
(72)【発明者】
【氏名】フェンドラー, バーナード
(72)【発明者】
【氏名】ヒューズ, ジェーソン ディー.
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA11
4B063QA13
4B063QA17
4B063QA19
4B063QQ02
4B063QQ12
4B063QQ42
4B063QQ43
4B063QQ58
4B063QR32
4B063QR40
4B063QR80
4B063QS39
4B063QX02
(57)【要約】
コピー数変化(CNA)の自動呼び出しのための方法及びシステムが説明される。方法及びシステムは、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、配列決定ベースのカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルデータを利用して、遺伝子座の増幅及び欠失を検出し、いくつかの閾値及びフィルタを適用して、プロセスマッチド対照及び配列決定データの手動キュレーションの必要性を排除しつつ、改善された信頼性を有するCNAの自動呼び出しを提供する。
【選択図】図1
【特許請求の範囲】
【請求項1】
コピー数変化の自動呼び出しのための方法であって、
1つ以上のプロセッサで、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータを受信することと、前記配列リードデータに基づいて、
前記1つ以上のプロセッサを使用して、前記1つ以上のサブゲノム区間内の前記1つ以上の遺伝子座に対する、前記試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、
前記1つ以上のプロセッサを使用して、前記セグメント化データに基づいて、複数のセグメントを識別することと、
前記1つ以上のプロセッサを使用して、少なくとも前記カバレッジ比データ、前記対立遺伝子画分データ、前記セグメント化データ、及び前記コピー数モデルに基づいて、前記複数のセグメントに対するコピー数を決定することと、
前記1つ以上のプロセッサを使用して、前記複数のセグメントの対応するセグメントの前記コピー数に基づいて、前記1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、
前記1つ以上のプロセッサを使用して、前記1つ以上の遺伝子座に対する前記検出された増幅及び欠失に基づいて、前記1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を含む、方法。
【請求項2】
前記1つ以上の遺伝子座のうちの遺伝子座について検出された増幅及び欠失の任意の重複を併合することを更に含む、請求項1に記載の方法。
【請求項3】
前記1つ以上の遺伝子座に対する前記呼び出されたコピー数変化を含むレポートを生成することを更に含む、請求項1に記載の方法。
【請求項4】
前記1つ以上の遺伝子座に対する前記呼び出されたコピー数変化に基づいて、前記対象に対するゲノムプロファイルを生成することを更に含む、請求項1に記載の方法。
【請求項5】
前記カバレッジ比データが、前記試料中及び前記対照試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、前記試料中及び前記対照試料中の前記1つ以上のサブゲノム区間内の前記1つ以上の遺伝子座の各々と重複する配列リードの数を決定することと、によって決定される、請求項1に記載の方法。
【請求項6】
前記対照試料が、一対の正常試料、プロセスマッチド対照試料、又はパネルオブノーマル対照試料である、請求項5に記載の方法。
【請求項7】
前記対立遺伝子画分データが、前記試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、前記1つ以上の遺伝子座のうちの遺伝子座に存在する対立遺伝子の数を検出することと、前記遺伝子座に存在する前記対立遺伝子のうちの少なくとも1つに対する対立遺伝子画分を決定することと、によって決定される、請求項1に記載の方法。
【請求項8】
前記セグメント化データが、
前記試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、
枝刈り厳密線形時間(PELT)法を使用して、前記アラインメントされた配列リードデータ、カバレッジ比データ、及び対立遺伝子画分データを処理して、前記アラインメントされた配列リードデータを考慮することを必要とするセグメントの数を決定することであって、各セグメントが、同じコピー数を有する、決定することと、によって生成される、請求項1に記載の方法。
【請求項9】
前記コピー数モデルが、前記カバレッジ比データ及び対立遺伝子画分データに基づいて、前記1つ以上の遺伝子座に対するコピー数を予測する、請求項1に記載の方法。
【請求項10】
前記カバレッジ比データが、前記1つ以上の遺伝子座と関連付けられた一塩基多型(SNP)及びイントロンに対するカバレッジ比データを更に含む、請求項9に記載の方法。
【請求項11】
前記コピー数モデルがまた、前記試料に対する試料純度及び倍数性も予測する、請求項9に記載の方法。
【請求項12】
前記コピー数モデルがまた、前記セグメント化データも出力する、請求項9に記載の方法。
【請求項13】
前記試料に対する前記倍数性が、1~8の範囲の値を有する、請求項1に記載の方法。
【請求項14】
増幅は、前記対応するセグメントに対する前記コピー数が前記試料の前記倍数性以上であるときに検出される、請求項1に記載の方法。
【請求項15】
増幅は、前記対応するセグメントに対する前記コピー数が前記試料の前記倍数性+第1の所定の値以上であるときに検出される、請求項14に記載の方法。
【請求項16】
前記第1の所定の値が、2~500の範囲の値である、請求項15に記載の方法。
【請求項17】
前記第1の所定の値が、2~10の範囲の値である、請求項15に記載の方法。
【請求項18】
増幅は、前記対応するセグメントに対する前記コピー数が前記試料の前記倍数性+第2の所定の値以上であり、かつ前記遺伝子座が第1の定義済み遺伝子座セットのメンバーであるときに検出される、請求項14に記載の方法。
【請求項19】
前記第2の所定の値が、0~500の範囲の値である、請求項18に記載の方法。
【請求項20】
前記第2の所定の値が、2~10の範囲の値である、請求項18に記載の方法。
【請求項21】
前記第1の定義済み遺伝子座セットが、1つ以上の薬物投与可能遺伝子標的座、予後遺伝子座、がん遺伝子座、又はそれらの任意の組み合わせを含む、請求項18に記載の方法。
【請求項22】
前記第1の定義済み遺伝子座セットが、AR及びERBB2遺伝子座を含む、請求項21に記載の方法。
【請求項23】
欠失の前記検出が、対応するセグメント内の前記1つ以上の遺伝子座のホモ接合体欠失を識別することを含む、請求項1に記載の方法。
【請求項24】
ホモ接合体欠失が、前記遺伝子座における第1の対立遺伝子及び第2の対立遺伝子に対する前記コピー数の合計に等しい所与の遺伝子座に対する総コピー数を決定することによって検出される、請求項23に記載の方法。
【請求項25】
前記第1の対立遺伝子が、メジャー対立遺伝子であり、前記第2の対立遺伝子が、マイナー対立遺伝子である、請求項24に記載の方法。
【請求項26】
ホモ接合体欠失は、所与の遺伝子座に対する前記総コピー数が第3の所定の値に等しい場合に呼び出される、請求項24に記載の方法。
【請求項27】
前記第3の所定の値が、約ゼロである、請求項26に記載の方法。
【請求項28】
欠失の前記検出が、対応するセグメント内の前記1つ以上の遺伝子座のヘテロ接合体欠失を識別することを含む、請求項1に記載の方法。
【請求項29】
ヘテロ接合体欠失は、所与の遺伝子座における第1の対立遺伝子に対するコピー数が第4の所定の値に等しく、かつ前記所与の遺伝子座における第2の対立遺伝子に対するコピー数が前記第4の所定の値に等しくない場合、呼び出される、請求項28に記載の方法。
【請求項30】
前記第4の所定の値が、約ゼロである、請求項29に記載の方法。
【請求項31】
前記第1の対立遺伝子が、メジャー対立遺伝子であり、前記第2の対立遺伝子が、マイナー対立遺伝子である、請求項29に記載の方法。
【請求項32】
欠失の前記検出が、対応するセグメント内の前記1つ以上の遺伝子座の部分欠失を識別することを含む、請求項1に記載の方法。
【請求項33】
部分欠失は、所与の遺伝子座に対して、隣接する遺伝子座、一塩基多型(SNP)、及びイントロンに対するlog2比(L2R)が、前記遺伝子座に対する前記log2比とは有意に異なり、かつ前記所与の遺伝子座に対する前記log2比が、隣接していない遺伝子座、一塩基多型(SNP)、及びイントロンに対するL2Rの分布とは有意に異なる場合、呼び出される、請求項32に記載の方法。
【請求項34】
前記1つ以上の遺伝子座に対する前記コピー数変化を呼び出す前に品質管理手順を実施することを更に含む、請求項1に記載の方法。
【請求項35】
前記品質管理手順が、前記配列リードデータの品質を評価するために実施される、請求項34に記載の方法。
【請求項36】
前記品質管理手順が、コピー数モデルの成功した収束を評価するために実施される、請求項34に記載の方法。
【請求項37】
前記品質管理手順が、前記1つ以上の遺伝子座に対するCNA呼び出しの信頼性を評価するために実施される、請求項34に記載の方法。
【請求項38】
前記呼び出されたCNAが、前記対象の疾患を診断するか、又はその診断を確認するために使用される、請求項1に記載の方法。
【請求項39】
前記疾患が、がんである、請求項38に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年10月8日に出願された米国仮特許出願第63/253,907号の優先権利益を主張し、その内容は参照によりその全体が本明細書に組み込まれる。
【0002】
本開示は、ゲノムプロファイリングデータを分析するための方法及びシステム、より具体的には、ゲノムプロファイリングを使用するコピー数変化の自動呼び出しのための方法及びシステムに関する。
【背景技術】
【0003】
構造的変異体(SV)は、典型的には、少なくとも50塩基対(bp)の長さの変化を含む、大規模ゲノム変化である(Mahmoud,et al.(2019),“Structural variant calling:the long and the short of it”,Genome Biology 20:246)。これらの大規模ゲノム変化は、欠失、重複、逆位、挿入、及び転座として分類され、DNAの獲得、喪失、再配列の異なる組み合わせを説明する。
【0004】
コピー数変化(CNA)(コピー数変異(CNV)とも呼ばれる)は、欠失又は重複を主に含む大きな構造的変異体のサブタイプであり、最大50万ヌクレオチド長の変化を包含し得る。体細胞コピー数変異(CNV)は、多くのタイプのがんの発症における重要な役割を果たし得る(Samadian,et al.(2018),“Bamgineer: Introduction of simulated allele-specific copy number variants into exome and targeted sequence data sets”,PLoS Comput Biol.14(3):e1006080)。次世代配列決定(NGS)法の発展は、アルゴリズムの発展が、エクソーム及び標的配列データを含む、様々な配列決定データセットからCNAプロファイルを計算で推論することを可能にした。
【0005】
しかしながら、配列決定データに基づいてCNAを検出及び呼び出すための既存の方法は、配列決定カバレッジ正規化のための一対の正常試料又はプロセスマッチド対照を必要とし得、配列決定データの広範な手動キュレーションを必要とし得、例えば、試料汚染によって導入される誤差の影響を受け易い場合があり、並びに/又は小さい欠失及び/若しくは染色体Xで生じるCNA事象に対して良好にCNA検出及び呼び出しを取り扱うことができない場合がある。したがって、CNAの自動呼び出しのための改善された方法に対する必要性が残っている。
【発明の概要】
【0006】
コピー数変化のより正確な検出を提供し、かつカバレッジ正規化試料又は配列決定データの手動キュレーションを必要としない、コピー数変化(CNA)の自動呼び出しのための方法及びシステムが本明細書に開示される。特に、説明された方法及びシステムは、(i)性別を考慮する染色体X配列リードデータの適切な正規化を提供する「パネルオブノーマル」を使用するカバレッジ正規化手順、(ii)カバレッジ比データの特定の変換を使用するようにカスタマイズされ、かつ試料汚染を考慮するように拡張された枝刈り厳密線形時間(pruned exact linear time(PELT))法に基づくセグメント化、(iii)異常SNPプロファイル(汚染シグナルを識別するためにベース置換ノイズモデル及びコピー数モデルプロファイルを使用して決定される)に基づく反復試料汚染検出法、(iv)全ての局所的に最適なコピー数モデル構成の決定及びモデル(例えば、配列リードデータと最も一貫し、かつ生物学的に妥当であるコピー数モデル)の優先順位付けに基づく新規コピー数モデル決定法、並びに/又は(v)特定のコピー数モデル及びコピー数モデル全体に明示的に含まれない追加の変化に対するスキャンの両方に基づくCNAの自動呼び出しを利用する。
【0007】
方法であって、対象からの試料から得られた複数の核酸分子を提供することと、1つ以上のアダプターを複数の核酸分子からの1つ以上の核酸分子上にライゲーションすることと、複数の核酸分子からの1つ以上のライゲーションされた核酸分子を増幅することと、増幅された核酸分子から増幅された核酸分子を捕捉することと、シーケンサーによって、捕捉された核酸分子を配列決定して、捕捉された核酸分子を表す複数の配列リードを得ることであって、複数の配列リードの1つ以上が試料中のサブゲノム区間内で変異体遺伝子座と重複する、得ることと、1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、配列リードデータに基づいて、1つ以上のプロセッサを使用して、1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、1つ以上のプロセッサを使用して、セグメント化データに基づいて、複数のセグメントを識別することと、1つ以上のプロセッサを使用して、少なくともカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルに基づいて、複数のセグメントに対するコピー数を決定することと、1つ以上のプロセッサを使用して、複数のセグメントの対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、1つ以上の遺伝子座に対する検出された増幅及び欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を含む、方法が、本明細書に開示される。
【0008】
いくつかの実施形態では、1つ以上の遺伝子座のうちの遺伝子座について検出された増幅及び欠失の任意の重複を併合することを更に含む。いくつかの実施形態では、コピー数モデルが、カバレッジ比データ及び対立遺伝子画分データに基づいて、1つ以上の遺伝子座に対するコピー数を予測する。いくつかの実施形態では、カバレッジ比データが、1つ以上の遺伝子座と関連付けられた一塩基多型(SNP)及びイントロンに対するカバレッジ比データを更に含む。いくつかの実施形態では、コピー数モデルがまた、試料に対する試料純度及び倍数性も予測する。いくつかの実施形態では、コピー数モデルがまた、セグメント化データも出力する。いくつかの実施形態では、増幅は、対応するセグメントに対するコピー数が試料の倍数性以上であるときに検出される。いくつかの実施形態では、欠失の検出が、対応するセグメント内の1つ以上の遺伝子座のホモ接合体欠失を識別することを含む。いくつかの実施形態では、欠失の検出が、対応するセグメント内の1つ以上の遺伝子座のヘテロ接合体欠失を識別することを含む。いくつかの実施形態では、欠失の検出が、対応するセグメント内の1つ以上の遺伝子座の部分欠失を識別することを含む。いくつかの実施形態では、対象が、疾患を有する疑いがあるか、又はがんを有すると決定される。いくつかの実施形態では、疾患が、がんである。いくつかの実施形態では、方法が、定期検査に使用される。いくつかの実施形態では、方法が、出生前検査に使用される。いくつかの実施形態では、方法が、対象から試料を収集することを更に含む。いくつかの実施形態では、試料が、組織生検試料、液体生検試料、又は正常対照を含む。いくつかの実施形態では、試料が、組織生検試料であり、骨髄試料を含む。いくつかの実施形態では、試料が、液体生検試料であり、かつ血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む。いくつかの実施形態では、試料が、液体生検試料であり、循環腫瘍細胞(CTC)を含む。いくつかの実施形態では、試料が、液体生検試料であり、かつ無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、複数の核酸分子は、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む。いくつかの実施形態では、腫瘍核酸分子は、不均質組織生検試料の腫瘍部分に由来し、かつ非腫瘍核酸分子は、不均質組織生検試料の正常部分に由来する。いくつかの実施形態では、試料は、液体生検試料を含み、腫瘍核酸分子は、液体生検試料の循環腫瘍DNA(ctDNA)画分に由来し、非腫瘍核酸分子は、液体生検試料の非腫瘍無細胞DNA(cfDNA)画分に由来する。いくつかの実施形態では、1つ以上のアダプターは、増幅プライマー、フローセルアダプター配列、基質アダプター配列、又は試料インデックス配列を含む。いくつかの実施形態では、捕捉された核酸分子は、1つ以上のベイト分子へのハイブリダイゼーションによって増幅された核酸分子から捕捉される。いくつかの実施形態では、1つ以上のベイト分子が、1つ以上の核酸分子を含み、各核酸分子が、捕捉された核酸分子の領域に相補的な領域を含む。いくつかの実施形態では、核酸分子を増幅することは、ポリメラーゼ連鎖反応(PCR)増幅技術、非PCR増幅技術、又は等温増幅技術を実施することを含む。いくつかの実施形態では、配列決定は、超並列配列決定(MPS)技術、全ゲノム配列決定(WGS)、全エクソーム配列決定、標的配列決定、直接配列決定、又はサンガー配列決定技術の使用を含む。いくつかの実施形態では、配列決定は、超並列配列決定を含み、超並列配列決定技術は、次世代シーケンシング(NGS)を含む。いくつかの実施形態では、次世代配列決定(NGS)が、ペアエンド配列決定を含む。いくつかの実施形態では、配列決定は、次世代シーケンサーを含む。いくつかの実施形態では、方法は、1つ以上のプロセッサによって、呼び出されたコピー数変化を示すレポートを生成することを更に含む。いくつかの実施形態では、方法は、レポートを医療提供者に送信することを更に含む。いくつかの実施形態では、レポートは、コンピュータネットワーク又はピアツーピア接続を介して送信される。
【0009】
コピー数変化の自動呼び出しのための方法であって、1つ以上のプロセッサで、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータを受信することと、配列リードデータに基づいて、1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、1つ以上のプロセッサを使用して、セグメント化データに基づいて、複数のセグメントを識別することと、1つ以上のプロセッサを使用して、少なくともカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルに基づいて、複数のセグメントに対するコピー数を決定することと、1つ以上のプロセッサを使用して、複数のセグメントの対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、1つ以上の遺伝子座に対する検出された増幅及び欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を含む、方法もまた、本明細書に開示される。
【0010】
いくつかの実施形態では、1つ以上の遺伝子座のうちの遺伝子座について検出された増幅及び欠失の任意の重複を併合することを更に含む。いくつかの実施形態では、1つ以上の遺伝子座に対する呼び出されたコピー数変化を含むレポートを生成することを更に含む。いくつかの実施形態では、1つ以上の遺伝子座に対する呼び出されたコピー数変化に基づいて、対象に対するゲノムプロファイルを生成することを更に含む。
【0011】
いくつかの実施形態では、カバレッジ比データが、試料中及び対照試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、試料中及び対照試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座の各々と重複する配列リードの数を決定することと、によって決定される。いくつかの実施形態では、対照試料が、一対の正常試料、プロセスマッチド対照試料、又はパネルオブノーマル対照試料である。
【0012】
いくつかの実施形態では、対立遺伝子画分データが、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、1つ以上の遺伝子座のうちの遺伝子座に存在する対立遺伝子の数を検出することと、遺伝子座に存在する対立遺伝子のうちの少なくとも1つに対する対立遺伝子画分を決定することと、によって決定される。
【0013】
いくつかの実施形態では、セグメント化データが、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、枝刈り厳密線形時間(PELT)法を使用して、アラインメントされた配列リードデータ、カバレッジ比データ、及び対立遺伝子画分データを処理して、アラインメントされた配列リードデータを考慮することを必要とするセグメントの数を決定することであって、各セグメントが、同じコピー数を有する、決定することと、によって生成される。
【0014】
いくつかの実施形態では、コピー数モデルが、カバレッジ比データ及び対立遺伝子画分データに基づいて、1つ以上の遺伝子座に対するコピー数を予測する。いくつかの実施形態では、カバレッジ比データが、1つ以上の遺伝子座と関連付けられた一塩基多型(SNP)及びイントロンに対するカバレッジ比データを更に含む。いくつかの実施形態では、コピー数モデルがまた、試料に対する試料純度及び倍数性も予測する。いくつかの実施形態では、コピー数モデルがまた、セグメント化データも出力する。いくつかの実施形態では、試料に対する倍数性が、1~8の範囲の値を有する。
【0015】
いくつかの実施形態では、増幅は、対応するセグメントに対するコピー数が試料の倍数性以上であるときに検出される。いくつかの実施形態では、増幅は、対応するセグメントに対するコピー数が試料の倍数性+第1の所定の値以上であるときに検出される。いくつかの実施形態では、第1の所定の値が、2~500の範囲の値である。いくつかの実施形態では、第1の所定の値が、2~10の範囲の値である。
【0016】
いくつかの実施形態では、増幅は、対応するセグメントに対するコピー数が試料の倍数性+第2の所定の値以上であり、かつ遺伝子座が第1の定義済み遺伝子座セットのメンバーであるときに検出される。いくつかの実施形態では、第2の所定の値が、0~500の範囲の値である。いくつかの実施形態では、第2の所定の値が、2~10の範囲の値である。いくつかの実施形態では、第1の定義済み遺伝子座セットが、1つ以上の薬物投与可能遺伝子標的座、予後遺伝子座、がん遺伝子座、又はそれらの任意の組み合わせを含む。いくつかの実施形態では、第1の定義済み遺伝子座セットが、AR及びERBB2遺伝子座を含む。
【0017】
いくつかの実施形態では、欠失の検出が、対応するセグメント内の1つ以上の遺伝子座のホモ接合体欠失を識別することを含む。いくつかの実施形態では、ホモ接合体欠失が、遺伝子座における第1の対立遺伝子及び第2の対立遺伝子に対するコピー数の合計に等しい所与の遺伝子座に対する総コピー数を決定することによって検出される。いくつかの実施形態では、第1の対立遺伝子が、メジャー対立遺伝子であり、第2の対立遺伝子が、マイナー対立遺伝子である。いくつかの実施形態では、ホモ接合体欠失は、所与の遺伝子座に対する総コピー数が第3の所定の値に等しい場合に呼び出される。いくつかの実施形態では、第3の所定の値が、約ゼロである。
【0018】
いくつかの実施形態では、欠失の検出が、対応するセグメント内の1つ以上の遺伝子座のヘテロ接合体欠失を識別することを含む。いくつかの実施形態では、ヘテロ接合体欠失は、所与の遺伝子座における第1の対立遺伝子に対するコピー数が第4の所定の値に等しく、かつ所与の遺伝子座における第2の対立遺伝子に対するコピー数が第4の所定の値に等しくない場合、呼び出される。いくつかの実施形態では、第4の所定の値が、約ゼロである。いくつかの実施形態では、第1の対立遺伝子が、メジャー対立遺伝子であり、第2の対立遺伝子が、マイナー対立遺伝子である。
【0019】
いくつかの実施形態では、欠失の検出が、対応するセグメント内の1つ以上の遺伝子座の部分欠失を識別することを含む。いくつかの実施形態では、部分欠失は、所与の遺伝子座に対して、隣接する遺伝子座、一塩基多型(SNP)、及びイントロンに対するlog2比(L2R)が、遺伝子座に対するlog2比とは有意に異なり、かつ所与の遺伝子座に対するlog2比が、隣接していない遺伝子座、一塩基多型(SNP)、及びイントロンに対するL2Rの分布とは有意に異なる場合、呼び出される。
【0020】
いくつかの実施形態では、呼び出されたCNAが、対象の疾患を診断するか、又はその診断を確認するために使用される。いくつかの実施形態では、疾患が、がんである。いくつかの実施形態では、方法が、がん治療を選択して、呼び出されたCNAに基づいて、対象に投与することを更に含む。いくつかの実施形態では、方法が、がん治療の有効量を決定して、呼び出されたCNAに基づいて、対象に投与することを更に含む。いくつかの実施形態では、方法が、呼び出されたCNAに基づいて、がん治療を対象に投与することを更に含む。いくつかの実施形態では、がん治療は、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む。いくつかの実施形態では、がんは、B細胞がん(多発性骨髄腫)、黒色腫、乳がん、肺がん、気管支がん、結腸直腸がん、前立腺がん、膵臓がん、胃がん、卵巣がん、膀胱がん、脳がん、中枢神経系がん、末梢神経系がん、食道がん、子宮頸がん、子宮内膜がん、口腔のがん、咽頭のがん、肝臓がん、腎臓がん、精巣がん、胆道がん、小腸がん、虫垂がん、唾液腺がん、甲状腺がん、副腎がん、骨肉腫、軟骨肉腫、血液組織のがん、腺がん、炎症性筋線維芽細胞腫、消化管間質腫瘍(GIST)、結腸がん、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性骨髄性白血病(CML)、慢性リンパ性白血病(CLL)、赤血球増加症Vera、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨肉腫、脊索腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ血管内皮肉腫、滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮がん、基底細胞がん、腺がん、汗腺がん、脂腺がん、乳頭状がん、乳頭状腺がん、髄様がん、気管支原性がん、腎細胞がん、肝がん、胆管がん、絨毛がん、精上皮がん、胎児性がん、ウィルムス腫瘍、膀胱がん、上皮がん、神経膠腫、星細胞腫、髄芽腫、頭蓋咽頭腫、上衣腫、松果体細胞腫、神経膠芽腫、聴神経芽腫、乏突起膠腫、髄膜腫、神経芽腫、網膜芽細胞腫、濾胞性リンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞がん、甲状腺がん、胃がん、頭頸部がん、小細胞がん、本態性血小板血症、無形成性骨髄化生、好酸球増加症候群、全身性肥満細胞症、家族性好酸球増加症、慢性好酸球性白血病、神経内分泌がん、又はカルチノイド腫瘍である。
【0021】
いくつかの実施形態では、1つ以上の遺伝子座は、10~20遺伝子座、10~40遺伝子座、10~60遺伝子座、10~80遺伝子座、10~100遺伝子座、10~150遺伝子座、10~200遺伝子座、10~250遺伝子座、10~300遺伝子座、10~350遺伝子座、10~400遺伝子座、10~450遺伝子座、10~500遺伝子座、20~40遺伝子座、20~60遺伝子座、20~80遺伝子座、20~100遺伝子座、20~150遺伝子座、20~200遺伝子座、20~250遺伝子座、20~300遺伝子座、20~350遺伝子座、20~400遺伝子座、20~500遺伝子座、40~60遺伝子座、40~80遺伝子座、40~100遺伝子座、40~150遺伝子座、40~200遺伝子座、40~250遺伝子座、40~300遺伝子座、40~350遺伝子座、40~400遺伝子座、40~500遺伝子座、60~80遺伝子座、60~100遺伝子座、60~150遺伝子座、60~200遺伝子座、60~250遺伝子座、60~300遺伝子座、60~350遺伝子座、60~400遺伝子座、60~500遺伝子座、80~100遺伝子座、80~150遺伝子座、80~200遺伝子座、80~250遺伝子座、80~300遺伝子座、80~350遺伝子座、80~400遺伝子座、80~500遺伝子座、100~150遺伝子座、100~200遺伝子座、100~250遺伝子座、100~300遺伝子座、100~350遺伝子座、100~400遺伝子座、100~500遺伝子座、150~200遺伝子座、150~250遺伝子座、150~300遺伝子座、150~350遺伝子座、150~400遺伝子座、150~500遺伝子座、200~250遺伝子座、200~300遺伝子座、200~350遺伝子座、200~400遺伝子座、200~500遺伝子座、250~300遺伝子座、250~350遺伝子座、250~400遺伝子座、250~500遺伝子座、300~350遺伝子座、300~400遺伝子座、300~500遺伝子座、350~400遺伝子座、350~500遺伝子座、又は400~500遺伝子座を含む。
【0022】
疾患を診断するための方法であって、方法が、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)の検出に基づいて、対象が疾患を有することを診断することを含み、検出されたCNAが、本明細書に開示される方法のうちのいずれかに従って決定される、方法が、本明細書に開示される。
【0023】
がん治療を選択する方法であって、方法が、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)を検出することに応答して、対象に対するがん治療を選択することを含み、検出されたCNAが、本明細書に開示される方法のうちのいずれかに従って決定される、方法が、本明細書に開示される。
【0024】
対象のがんを処置する方法であって、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)を検出することに応答して、有効量のがん治療を対象に投与することを含み、検出されたCNAが、本明細書に開示される方法のうちのいずれかに従って決定される、方法が、本明細書に開示される。
【0025】
対象における腫瘍の進行又は再発を監視するための方法であって、方法が、本明細書に開示される方法のうちのいずれかに従って、第1の時点で対象から得られた第1の試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)を検出することと、第2の時点で対象から得られた第2の試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)を検出することと、第1の試料中で検出されたCNAを第2の試料中で検出されたCNAと比較し、それによって、腫瘍の進行又は再発を監視することと、を含む、方法が、本明細書に開示される。いくつかの実施形態では、第2の試料中のCNAの検出は、本明細書に開示される方法のうちのいずれかに従って決定される。いくつかの実施形態では、方法が、腫瘍の進行に応答して抗がん治療を調整することを更に含む。いくつかの実施形態では、方法は、腫瘍進行に応答して抗がん治療の投与量を調整すること、又は異なる抗がん治療を選択することを更に含む。いくつかの実施形態では、方法が、調整された抗がん治療を対象に投与することを更に含む。いくつかの実施形態では、第1の時点は、対象が抗がん治療を投与される前であり、第2の時点は、対象が抗がん治療を投与された後である。いくつかの実施形態では、対象が、がんを有するか、がんを有するリスクがあるか、がんについて日常的に検査されているか、又はがんを有する疑いがある。一部の実施形態では、がんは、固形腫瘍である。いくつかの実施形態では、がんが、血液がんである。いくつかの実施形態では、抗がん治療が、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む。
【0026】
いくつかの実施形態では、本明細書に開示される方法のうちのいずれかは、1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する呼び出されたCNAを決定することと、呼び出されたCNAを試料と関連付けられた診断値として適用することと、を更に含む。いくつかの実施形態では、本明細書に開示される方法のうちのいずれかは、1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に対するゲノムプロファイルを生成することを更に含む。いくつかの実施形態では、対象のゲノムプロファイルが、包括的ゲノムプロファイリング(CGP)試験、遺伝子発現プロファイリング試験、がんホットスポットパネル試験、DNAメチル化試験、DNA断片化試験、RNA断片化試験、又はそれらの任意の組み合わせからの結果を更に含む。いくつかの実施形態では、対象のゲノムプロファイルが、核酸配列決定に基づく試験からの結果を更に含む。いくつかの実施形態では、方法は、生成されたゲノムプロファイルに基づいて、対象に対して、抗がん剤を選択すること、抗がん剤を投与すること、又は抗がん処置を適用することを更に含む。
【0027】
いくつかの実施形態では、開示される方法のうちのいずれかを使用する、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するCNAの検出は、対象に対する示唆される処置決定を行う際に使用される。いくつかの実施形態では、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するCNAの検出は、対象に処置を適用又は投与する際に使用される。
【0028】
システムであって、1つ以上のプロセッサと、1つ以上のプロセッサに通信可能に結合され、かつ命令を記憶するように構成されたメモリと、を備え、命令が、1つ以上のプロセッサによって実行されたとき、システムに、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータを受信することと、配列リードデータに基づいて、1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、セグメント化データに基づいて、複数のセグメントを識別することと、少なくともカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルに基づいて、複数のセグメントに対するコピー数を決定することと、複数のセグメントの対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、1つ以上の遺伝子座に対する検出された増幅及び欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を含む、方法が、本明細書に開示される。
【0029】
1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、1つ以上のプログラムが、命令を含み、命令が、システムの1つ以上のプロセッサによって実行されたとき、システムに、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータを受信することと、配列リードデータに基づいて、1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、セグメント化データに基づいて、複数のセグメントを識別することと、少なくともカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルに基づいて、複数のセグメントに対するコピー数を決定することと、1つ以上のプロセッサを使用して、複数のセグメントの対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、1つ以上の遺伝子座に対する検出された増幅及び欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を含む、方法もまた、本明細書に開示される。
【0030】
参照による組み込み
この明細書で言及される全ての刊行物、特許及び特許出願は、あたかも各個々の刊行物、特許又は特許出願が参照によりその全体が組み込まれることが具体的かつ個別に示されているのと同程度に、その全体が参照により本明細書に組み込まれる。本明細書の用語と組み込まれた参考文献の用語との間に矛盾がある場合、本明細書の用語が支配する。
【図面の簡単な説明】
【0031】
開示される方法、デバイス、及びシステムの様々な態様は、添付の特許請求の範囲に詳細に記載されている。開示される方法、デバイス、及びシステムの特徴及び利点のより良い理解は、例示的な実施形態の以下の詳細な説明及び添付の図面を参照することによって得られるであろう。
【0032】
図1】開示される方法の一例による、自動CNA呼び出しのためのプロセスフローチャートの非限定的な例を提供する。
図2】開示される方法の一例による、自動CNA呼び出しのためのプロセスフローチャートの別の非限定的な例を提供する。
図3】開示される方法の一例による、欠失呼び出しをスキャンするためのプロセスフローチャートの非限定的な例を提供する。
図4】開示される方法の一例による、重複遺伝子呼び出しを併合するためのプロセスフローチャートの非限定的な例を提供する。
図5】開示される方法の一例による、遺伝子座に対応する遺伝子オブジェクトのプロパティを設定するためのプロセスフローチャートの非限定的な例を提供する。
図6】本明細書に説明されるシステムのいくつかの例による、例示的なコンピューティングデバイスを図示する。
図7】本明細書に説明されるシステムのいくつかの例による、例示的なコンピュータシステム又はコンピュータネットワークを図示する。
【発明を実施するための形態】
【0033】
カバレッジ正規化試料又は配列決定データの手動キュレーションを必要としない、コピー数変化(CNA)の自動呼び出しのための方法及びシステムが本明細書に開示される。説明される方法及びシステムは、(i)性別を考慮する染色体X配列リードデータの適切な正規化を提供する「パネルオブノーマル」を使用するカバレッジ正規化手順、(ii)例えば、カバレッジ比データの特定の変換を使用するようにカスタマイズされ、かつ試料汚染を考慮するように拡張された枝刈り厳密線形時間(PELT)法に基づくセグメント化、(iii)異常SNPプロファイル(汚染シグナルを識別するためにベース置換ノイズモデル及びコピー数モデルプロファイルを使用して決定される)に基づく反復試料汚染検出法、(iv)全ての局所的に最適なコピー数モデル構成の決定及びモデル(例えば、配列リードデータと最も一貫し、かつ生物学的に妥当であるコピー数モデル)の優先順位付けに基づく新規コピー数モデル決定法、並びに/又は(v)特定のコピー数モデル及びコピー数モデル全体に明示的に含まれない追加の変化に対するスキャンの両方に基づくCNAの自動呼び出しを利用する。
【0034】
いくつかの例では、例えば、コピー数変化の自動呼び出しのための方法であって、1つ以上のプロセッサで、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルデータを受信することと、セグメント化データで識別された対応するセグメントのコピー数及び試料の倍数性に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅を決定することと、1つ以上のプロセッサを使用して、セグメント化データで識別された対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座の欠失を検出することと、1つ以上のプロセッサを使用して、1つ以上の遺伝子座のうちの遺伝子座に対する増幅及び欠失呼び出しの任意の重複を併合することと、1つ以上の遺伝子座に対する決定された増幅及び検出された欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を含む、方法が、説明される。
【0035】
CNAの呼び出しのための従来のアプローチに対する開示される方法及びシステムの利点は、プロセスマッチド対照の必要性の排除、手動キュレーションの必要性の排除、従来のアプローチにおけるマッチド対照の使用と比較して、改善されたカバレッジ正規化(低減されたノイズ)、プロセスマッチド対照の品質に対する依存が除去されるという点における改善された堅牢性、低純度腫瘍試料のより精密な取り扱い(低減されたノイズレベル及び改善されたコピー数モデリングに起因する)、及びより再現性の高いCNA呼び出し(例えば、手動キュレーションから生じる変動の排除による)を含む。
【0036】
定義
他に定義されない限り、本明細書において使用される技術的用語の全ては、本開示が属する分野の当業者によって一般的に理解されるのと同じ意味を有する。
【0037】
本明細書及び添付の特許請求の範囲において使用される場合、単数形「a」、「an」、及び「the」は、文脈上他に明確に指示されない限り、複数の言及を含む。本明細書における「又は」への任意の言及は、特に明記しない限り、「及び/又は」を包含することが意図される。
【0038】
本明細書で使用される場合、「含む(comprising)」(並びに「comprise」及び「comprises」等のcomprisingの任意の形態又は変形)、「有する(having)」(並びに「have」及び「has」等のhaving任意の形態又は変形)、「含む(including)」(並びに「includes」及び「include等を含む任意の形態又は変形)、又は「含有する(containing)」(及び「contains」及び「contain」等のcontainingの任意の形態又は変形)という用語は、包括的又はオープンエンドであり、追加の列記されていない添加剤、構成要素、整数、要素、又は方法ステップを排除するものではない。
【0039】
本明細書で使用される場合、数又は値の「約」という用語は、その数又は値のプラス又はマイナス10%の数又は値を指す。範囲の文脈で使用されるときの「約」という用語は、その範囲のその最低値のマイナス10%及びその最大値のプラス10%を指す。
【0040】
本明細書で使用される場合、「サブゲノム区間」(又は「サブゲノム配列区間」)という用語は、ゲノム配列の一部分を指す。
【0041】
本明細書で使用される場合、「対象区間」という用語は、サブゲノム区間又は発現サブゲノム区間(例えば、サブゲノム区間の転写配列)を指す。
【0042】
本明細書で使用される場合、「変異体配列」又は「変異体」という用語は、互換的に使用され、対応する「正常な」又は「野生型」配列に対して修飾された核酸配列を指す。いくつかの例では、変異体配列は、「短い変異体配列」(又は「短い変異体」)、すなわち、約50塩基対未満の長さの変異体配列であり得る。
【0043】
「対立遺伝子頻度」及び「対立遺伝子画分」という用語は、本明細書では互換的に使用され、ゲノム遺伝子座に対する配列リードの総数に対する特定の対立遺伝子に対応する配列リードの画分を指す。
【0044】
「変異体対立遺伝子頻度」及び「変異体対立遺伝子画分」という用語は、本明細書では互換的に使用され、ゲノム遺伝子座の配列リードの総数に対する特定の変異体対立遺伝子に対応する配列リードの画分を指す。
【0045】
本明細書で使用される場合、「セグメント化」(又は「配列セグメント化」)という用語は、複数のセグメントの各セグメントが可能な限り均質であり、かつ所与のセグメントと関連付けられた全ての配列リードが同じコピー数を有するように、配列リードデータを、全ての配列リードデータ点をカバーするいくつかの非重複セグメントに分割するためのプロセスを指す。いくつかの例では、セグメント化は、当業者に既知の様々な方法(例えば、Braun and Miller(1998),“Statistical methods for DNA sequence segmentation”,Statistical Science 13(2):142-162を参照されたい)のうちのいずれかを使用して、整列された配列リードデータ(又は配列リードデータに由来する、他の配列決定関連データ、例えば、カバレッジデータ、対立遺伝子頻度データなど)を処理することによって実施され得る。セグメント化方法の例としては、限定されるものではないが、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、変化点法、又はそれらの任意の組み合わせを含む。
【0046】
本明細書で使用される場合、「倍数性」という用語は、コピー数モデルによって決定される際の腫瘍試料中の複数の遺伝子座に対する平均コピー数を指す。いくつかの例では、腫瘍試料の「倍数性」は、腫瘍試料の不均質性(すなわち、腫瘍試料純度の変動)に起因して、細胞内の完全な染色体セットの数、したがって、常染色体遺伝子(すなわち、番号付きの非性染色体に位置する遺伝子)に対する可能な対立遺伝子の数とは異なり得る。
【0047】
本明細書で使用されるいかなる項目の見出しも、構成上の目的のみのためであり、記載される主題を限定するものと解釈されるべきではない。
【0048】
自動CNA呼び出しのための方法
図1は、開示される方法の一例による、自動CNA呼び出しプロセス100のためのプロセスフローチャートの非限定的な例を提供する。説明される方法及びシステムは、(i)性別を考慮する染色体X配列リードデータの適切な正規化を提供する「パネルオブノーマル」を使用するカバレッジ正規化手順、(ii)例えば、カバレッジ比データの特定の変換を使用するようにカスタマイズされ、かつ試料汚染を考慮するように拡張された枝刈り厳密線形時間(PELT)法に基づくセグメント化、(iii)異常SNPプロファイル(汚染シグナルを識別するためにベース置換ノイズモデル及びコピー数モデルプロファイルを使用して決定される)に基づく反復試料汚染検出法、(iv)全ての局所的に最適なコピー数モデル構成の決定及びモデル(例えば、配列リードデータと最も一貫し、かつ生物学的に妥当であるコピー数モデル)の優先順位付けに基づく新規コピー数モデル決定法、並びに/又は(v)特定のコピー数モデル及びコピー数モデル全体に明示的に含まれない追加の変化に対するスキャンの両方に基づくCNAの自動呼び出しを利用する。
【0049】
図1に例示されるように、自動CNA呼び出しプロセス100は、分析される試料(例えば、患者腫瘍試料)中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータの前処理によって導出される、配列決定カバレッジ比データ(又は「カバレッジ比データ」)、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルデータの入力によるステップ102で始まる。
【0050】
いくつかの例では、試料に対するカバレッジ比データ(例えば、患者腫瘍試料)は、試料中及び対照中(例えば、一対の正常対照、プロセスマッチド対照、又は「パネルオブノーマル」対照)の1つ以上のサブゲノム区間内の1つ以上の遺伝子座が重複する複数の配列リードを参照ゲノム(例えば、GRCh38ヒト参照ゲノム)にアラインメントし、腫瘍試料に対するカバレッジを対照におけるカバレッジに正規化するために、試料中及び対照中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座の各々が重複する配列リードの数を決定することによって決定される。いくつかの例では、例えば、一対の正常対照試料が利用可能ではない場合、プロセスマッチド対照(例えば、複数のHapMap細胞株からのDNAの混合物)が、カバレッジを正規化するために、一対の正常対照の代わりに使用され得る。いくつかの例では、例えば、一対の正常対照試料が利用可能ではない場合、「パネルオブノーマル」対照が、カバレッジを正規化するために、一対の正常対照の代わりに使用され得る。
【0051】
いくつかの例では、「パネルオブノーマル」(PoN)又は「タンジェント正規化」対照法が、配列決定カバレッジを正規化するために使用され得る(例えば、Tabak,et al.(2019)“The Tangent copy-number inference pipeline for cancer genome analyses”,https://www.biorxiv.org/content/10.1101/566505v1.full.pdfを参照されたい)。タンジェント正規化法は、データ内のノイズに対処するために腫瘍データを正規化する方法である。具体的には、タンジェント法は、腫瘍及び/又はそれらの正常対照からの配列決定データが生成された実験条件の差から結果的に生じるシステミックノイズを低減することに対処する。タンジェント正規化法が従来の正規化法よりもノイズのより大きい低減をもたらすことが示されている。
【0052】
始めに、nを正常な非患者試料(すなわち、複数の健常な個体から得られた試料)の数とし、nを腫瘍試料の数とする。iを集合{1,2,…,n}の要素、jを集合{1,2,…,n}の要素とする。Nをi番目の正常試料のゲノム順位におけるlog2コピー比強度のベクトルと定義する。同様に、Tをj番目の腫瘍試料のゲノム順位におけるlog2コピー比強度のベクトルと定義する。正常試料ベクトル及び腫瘍試料ベクトルは、全ての可能なカバレッジプロファイルのM次元ベクトル空間の要素である。ここで、全ての可能なカバレッジプロファイルのベクトル空間の参照部分空間Nを、正常試料のベクトルの全ての線形結合{N,N,…,NnN}を含む空間と定義する。Nは、「ノイズ空間」と呼ばれ、(n-1)次元平面である。
【0053】
この設定を考慮すると、タンジェント正規化法は、次のように進む。各腫瘍試料ベクトルTごとに、ユークリッド計量法を使用して、ノイズ空間NにおけるTに最も近いベクトルを決定することによって始まる。このベクトルをp(T)と表記し、TのNへの投影である。p(T)は、Tと同様の条件下で特徴化された正常試料のプロファイルを表す。ここで、Tの正規化は、TとTのNへの投影p(T)との間の差を計算することによって算出され得る:
の正規化=T-p(T
投影p(T)は、標準線形代数技術を使用して直接算出され得る。
【0054】
PoN法は、典型的な変動を除去するために正常な試料中の観察されたシステミックノイズのパターンを使用する。染色体X(chrX)は、正常な男性が1つのみのX染色体を有するため、男性ではchrX上の遺伝子座のカバレッジが半分であるという特異的なパターンを有する。したがって、PoN法は、この変動を除去する。
【0055】
いくつかの例では、試料(例えば、患者腫瘍試料)に対する対立遺伝子画分データは、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座が重複する複数の配列リードを参照ゲノム(例えば、GRCh38ヒト参照ゲノム)にアラインメントし、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に存在する異なる対立遺伝子の数を検出し、所与の対立遺伝子配列に対して識別された配列リードの数を、遺伝子座に対して識別された配列リードの総数で除算することによって、1つ以上の遺伝子座に存在する異なる対立遺伝子に対する対立遺伝子画分を決定することによって、決定される。
【0056】
いくつかの例では、試料(例えば、患者腫瘍試料)に対するセグメント化データは、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座が重複する複数の配列リードを参照ゲノム(例えば、GRCh38ヒト参照ゲノム)にアラインメントし、セグメント化アルゴリズム(例えば、円形バイナリセグメンテーション(CBS)法、最尤法、隠れマルコフ連鎖法、ウォーキングマルコフ法、ベイズ法、長距離相関法、変化点法、又はそれらの任意の組み合わせ)を使用して、整列された配列リードデータ(又は配列リードデータに由来する、他の配列決定関連データ、例えば、カバレッジ比データ、対立遺伝子頻度データなど)を処理して、所与のセグメントと関連付けられた配列が同じコピー数を有するように、複数の非重複セグメントを生成することによって、生成され得る。
【0057】
いくつかの例では、セグメント化は、カバレッジ比及び対立遺伝子画分データを最良に考慮するコピー数モデルを決定するためのコピー数モデリングプロセスの一部として実施され得る。例えば、いくつかの例では、コピー数モデルは、純度推定値(例えば、腫瘍に由来した試料中の細胞の画分)、セグメント化(例えば、増幅又は喪失のいずれかを受けた成分へのゲノムの分割)、各セグメントへのコピー数の割り当て、を含み得、コピー数状態は、そのセグメントのゲノムコピーの数である。いくつかの例では、コピー数モデリングは、半数体カバレッジ比データ(例えば、R及びR、式中、R及びRは、それぞれ、マイナー及びメジャー対立遺伝子A及びBの半数体カバレッジ比である)を、メジャー及びマイナー対立遺伝子に対する合計カバレッジ比(R+R=(2+(C+C)g)/(1+λ g)、式中、C及びCは、それぞれ、マイナー及びメジャー対立遺伝子A及びBの対立遺伝子カウントであり、g=ρ/(1-ρ)、式中、ρは、純度であり、λ=(Ψ/2)、式中、Ψは、倍数性である)及び差分カバレッジ比(R-R=((C-C))/(1+λ g))データに変換し、差分カバレッジ比データ対合計カバレッジ比データを、セグメントデータ及び許容されるコピー数状態を表すグリッドと重複するプロットにプロットすることによって容易にされ得る。
【0058】
いくつかの例では、セグメント化は、配列リードデータ内の試料汚染を同時に検出及び補正しながら、反復様式で実施され得る。例えば、いくつかの例では、方法は、選択されたヘテロ接合体一塩基多型(SNP)セットに対するマイナー対立遺伝子頻度の分布に基づいて、試料に対する汚染の程度を推定することを含み得る。次いで、マイナー対立遺伝子頻度(MAF)閾値に対する初期値として、推定された汚染の程度を使用して、配列決定データは、MAF閾値を下回るマイナー対立遺伝子頻度を有するSNPを含むセグメント化プロセスから配列決定データを同時に除外しながら反復的にセグメント化される。各反復では、残っているSNPは、それらが、同じセグメント上で検出される他のSNPに対するMAFとは異なるマイナー対立遺伝子頻度を有する場合、異常(すなわち、汚染に起因する可能性がある)として分類され、MAF閾値は、選択されたヘテロ接合体SNPセットに対するマイナー対立遺伝子頻度の予想される分布に対する、異常SNPマイナー対立遺伝子頻度の分布の比較に基づいて、増分調整される。セグメント化、分類、及びMAF閾値調整ステップは、MAF閾値が増加するたびに繰り返される。MAF閾値の更なる増加が必要とされないとき(又は異常SNPマイナー対立遺伝子頻度の更なる変化が存在しないか、又は反復の指定された最大数に達したとき)、セグメント化データ及び試料に対する推定された汚染の程度(MAF閾値の最終値と等しい)が出力される。いくつかの例では、方法は、セグメント化データを使用して、1つ以上の遺伝子座に対するコピー数を予測するコピー数モデルを構築する。
【0059】
いくつかの例では、試料(例えば、患者腫瘍試料)に対するセグメント化データは、整列された配列リードデータ(又は配列リードデータに由来する、他の配列決定関連データ、例えば、カバレッジ比データ、対立遺伝子頻度データなど)を適切に考慮するために必要なセグメントの数を決定するために、枝刈り厳密線形時間(PELT)法を使用して生成され得、各セグメント(及びセグメントと関連付けられた配列リード)が同じコピー数を有する。いくつかの例では、セグメント化データは、カバレッジ比及び対立遺伝子画分データの特定の変換(例えば、推定されたコピー数状態を同時に重ねながら同じグラフ上におけるカバレッジ比及び対立遺伝子画分データの提示を可能にする変換)を使用するようにカスタマイズされ、かつ試料汚染を考慮するために拡張された枝刈り厳密線形時間(PELT)を使用して生成される。
【0060】
いくつかの例では、コピー数モデルは、1つ以上の遺伝子座(すなわち、1つ以上の遺伝子標的)に対する測定されたカバレッジ比及び対立遺伝子画分データを最良に考慮する、各遺伝子座のコピーの数、試料のセグメント化、試料純度、及び試料倍数性(すなわち、試料に対する平均コピー数)を識別(又は予測)するために使用され得る。いくつかの例では、コピー数モデルを生成するために使用される入力データはまた、一塩基多型(SNP)及びイントロンに対するカバレッジ比及び対立遺伝子画分データを含む。カバレッジ比データは、多くの場合、log2カバレッジ比データに変換される。コピー数モデリング方法の例としては、限定されるものではないが、非重複ウィンドウにおけるリードカウントを算出するためのスライディングウィンドウ法、正規化カバレッジ深度及びB対立遺伝子頻度(すなわち、2つの対立遺伝子についての相対シグナル強度比の正規化尺度)法、円形化バイナリセグメンテーション(CBS)法、平均シフトアプローチに基づくマッピング密度の統計解析、隠れマルコフモデル、リード深度ベースのベイズ情報基準法、又はそれらの任意の組み合わせが挙げられる(例えば、Li and Olivier (2013),“Current analysis platforms and methods for detecting copy number variation”,Physiol.Genomics 45(1):1-16参照)。
【0061】
いくつかの事例では、コピー数モデルを生成するために使用される入力カバレッジ比データ又はコピー数推定値は、整数値に四捨五入される。いくつかの例では、完成したコピー数モデルによって報告される出力値(例えば、セグメントの予測されたコピー数値)は、整数値である。いくつかの例では、完成したコピー数モデルによって報告される出力値(例えば、特定の遺伝子座に対して予測された試料純度、試料倍数性、及びコピー数値)は、実数(例えば、連続する)である。いくつかの例では、サブクローナル事象(例えば、サブクローナル欠失事象)は、整数コピー数値を適合させずに生じ得、したがって、非整数の予測されたコピー数値を有し得る。
【0062】
いくつかの例では、コピー数モデルは、試料純度(又は腫瘍画分)が0.05~1.0の範囲の値を有すると決定し得る。いくつかの例では、決定される試料純度は、少なくとも0.05、少なくとも0.1、少なくとも0.2、少なくとも0.3、少なくとも0.4、少なくとも0.5、少なくとも0.6、少なくとも0.7、少なくとも0.8、少なくとも0.9、少なくとも0.95、少なくとも0.98、又は少なくとも0.99であり得る。いくつかの例では、決定される試料純度は、最大で0.99、最大で0.98、最大で0.95、最大で0.9、最大で0.8、最大で0.7、最大で0.6、最大で0.5、最大で0.4、最大で0.3、最大で0.2、最大で0.1、又は最大で0.05であり得る。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、決定される試料純度は、0.1~0.8の範囲であってもよい。当業者は、所与の例で決定される試料純度が、この範囲内の任意の値、例えば、約0.64を有し得ることを認識するであろう。
【0063】
いくつかの例では、コピー数モデルは、試料倍数性が1.0~10.0の範囲の値を有すると決定し得る。いくつかの例では、決定される試料倍数性は、少なくとも1.0、少なくとも2.0、少なくとも3.0、少なくとも4.0、少なくとも5.0、少なくとも6.0、少なくとも7.0、少なくとも8.0、少なくとも9.0、又は少なくとも10.0であり得る。いくつかの例では、決定される試料倍数性は、最大で10.0、最大で9.0、最大で8.0、最大で7.0、最大で6.0、最大で5.0、最大で4.0、最大で3.0、最大で2.0、又は最大で1.0であり得る。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、決定される試料倍数性は、1.0~8.0の範囲であってもよい。当業者は、所与の例で決定される試料倍数性が、この範囲内の任意の値、例えば、約3.4を有し得ることを認識するであろう。いくつかの例では、試料倍数性は、整数値として四捨五入及び報告され得る。
【0064】
いくつかの例では、コピー数モデルは、0~500の範囲の所与の遺伝子座(又は関連付けられたセグメント)に対するコピー数を予測し得る。いくつかの例では、予測されるコピー数は、少なくとも0、少なくとも2、少なくとも4、少なくとも6、少なくとも8、少なくとも10、少なくとも20、少なくとも40、少なくとも60、少なくとも80、少なくとも100、少なくとも200、少なくとも300、少なくとも400、又は少なくとも500である。いくつかの例では、予測されるコピー数は、最大で500、最大で4400、最大で300、最大で200、最大で100、最大で80、最大で60、最大で40、最大で20、最大で10、最大で8、最大で6、最大で4、最大で2、又は最大で0である。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、予測されるコピー数は、1~100の範囲であってもよい。当業者は、予測されるコピー数が、この範囲内の任意の値、例えば、7を有し得ることを認識するであろう。いくつかの例では、遺伝子座に対して予測されるコピー数は、整数ではなく実数値であり得る。
【0065】
再び図1を参照すると、ステップ104では、分析されている1つ以上の遺伝子座の各遺伝子座の増幅(例えば、遺伝子座のコピーの数の増加)又は欠失(完全な若しくは部分的な遺伝子座の欠失)は、セグメントベースによってセグメント上で決定される。1つ以上の遺伝子座の増幅又は欠失を検出するために使用される方法は、図2に関して以下により詳細に説明される。
【0066】
図1のステップ106では、重複遺伝子呼び出し、又はより正式には「遺伝子オブジェクト」に対する重複呼び出し(すなわち、所与の遺伝子座と関連付けられたプロパティセット(例えば、配列場所、標的対立遺伝子配列、カバレッジ比など)を保持するデジタルデータ構築物)が併合される。重複呼び出しは、例えば、遺伝子配列が2つの部分配列に破壊され、両方の部分配列が増幅又は欠失を含む遺伝子座として呼び出される場合に生じ得、したがって、遺伝子座に対する2つ以上の遺伝子オブジェクトを生成する。他の事例では、欠失は、コピー数モデルデータから直接得られるコピー数予測、及び部分欠失スキャン法(例えば、標的対立遺伝子配列と重複するが有意に逸脱する配列リードを探し、部分欠失呼び出しを結果的にもたらす)の両方を使用して呼び出され得、その場合、2つ以上の遺伝子オブジェクトが、遺伝子座に対して再び生成される。部分欠失を検出して呼び出すための方法は、図3に関して以下により詳細に説明される。併合時、2つ以上の遺伝子オブジェクト及びそれらの対応するプロパティ(例えば、配列場所、標的対立遺伝子配列、カバレッジ比など)は、単一の遺伝子オブジェクト及びプロパティのコンセンサスセットによって置き換えられることになる。遺伝子オブジェクト及びそれらのプロパティを併合するための方法は、図4に関して以下により詳細に説明される。
【0067】
図1のステップ108では、各遺伝子座(又は遺伝子オブジェクト)と関連付けられたプロパティセットが更新される。遺伝子プロパティの更新のより詳細な説明は、図5の説明の一部として以下に提供される。
【0068】
図1のステップ110では、CNAの結果が、例えば、配列リードデータ、試料純度(例えば、指定された試料純度閾値に対する試料純度の比較によって)、コピー数モデルの成功した収束の品質を評価するための、及び/又は個々の遺伝子座に対するCNA呼び出しの信頼性を評価するためなどの品質管理(QC)手順を実施することによって、フィルタリングされ、報告のために準備される。
【0069】
図2は、開示される方法の一例による、自動CNA呼び出しプロセス200のためのプロセスフローチャートのより詳細な例を提供する。プロセスは、分析される試料(例えば、患者腫瘍試料)中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータの前処理によって導出されるカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルデータの入力によるステップ202で始まる。
【0070】
図2のステップ204では、増幅された遺伝子座が、コピー数モデルによって決定される試料の倍数性に対して、コピー数モデルによる遺伝子座(又はそれと関連付けられたセグメント)に対して予測されたコピー数を比較することによってセグメントごとに識別される。例えば、遺伝子座(又はそれと関連付けられたセグメント)のコピー数がステップ204の倍数性を超える場合、遺伝子座は、増幅されると決定され、ステップ210で呼び出された遺伝子(又は呼び出された遺伝子座)のリストに加えられる。
【0071】
いくつかの例では、遺伝子座に対する増幅の決定は、遺伝子座(又は対応するセグメント)に対するコピー数が試料の倍数性+第1の所定の値以上であるかどうかを決定することを含む。いくつかの例では、第1の所定の値は、0~500の範囲の値であり得る。いくつかの例では、第1の所定の値は、少なくとも0、少なくとも2、少なくとも4、少なくとも6、少なくとも8、少なくとも10、少なくとも20、少なくとも40、少なくとも60、少なくとも80、少なくとも100、少なくとも200、少なくとも300、少なくとも400、又は少なくとも500である。いくつかの例では、第1の所定の値は、最大で500、最大で4400、最大で300、最大で200、最大で100、最大で80、最大で60、最大で40、最大で20、最大で10、最大で8、最大で6、最大で4、最大で2、又は最大で0である。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、第1の所定の値は、2~10の範囲であってもよい。当業者は、第1の所定の値が、この範囲内の任意の値、例えば、約11を有し得ることを認識するであろう。
【0072】
図2のステップ204の遺伝子座に対する増幅の決定は、遺伝子座(又は対応するセグメントに対するコピー数が試料の倍数性+第2の所定の値(すなわち、第1の所定の値とは異なる値)以上であるかどうか、及び遺伝子座が第1の定義済み遺伝子座セットのメンバーであるかどうかを決定することを含む。いくつかの例では、第2の所定の値は、0~500の数値範囲である。いくつかの例では、第2の所定の値は、少なくとも0、少なくとも2、少なくとも4、少なくとも6、少なくとも8、少なくとも10、少なくとも20、少なくとも40、少なくとも60、少なくとも80、少なくとも100、少なくとも200、少なくとも300、少なくとも400、又は少なくとも500である。いくつかの例では、第2の所定の値は、最大で500、最大で4400、最大で300、最大で200、最大で100、最大で80、最大で60、最大で40、最大で20、最大で10、最大で8、最大で6、最大で4、最大で2、又は最大で0である。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、第2の所定の値は、4~60の範囲であってもよい。当業者は、第2の所定の値が、この範囲内の任意の値、例えば、約7を有し得ることを認識するであろう。いくつかの例では、第1の定義済み遺伝子座セットが、1つ以上の薬物投与可能遺伝子標的座、予後遺伝子座、がん遺伝子座、又はそれらの任意の組み合わせを含む。いくつかの例では、第1の定義済み遺伝子座セットが、例えば、AR及びERBB2遺伝子座を含む。
【0073】
図2のステップ206では、遺伝子座のホモ接合体欠失が、所与の遺伝子座に対する総コピー数(総CN)を決定することと、遺伝子座の総コピー数を第3の定義済み値と比較することと、によって、セグメントごとに識別される。遺伝子座に対する総コピー数は、遺伝子座における第1の対立遺伝子及び第2の対立遺伝子(例えば、メジャー対立遺伝子及びマイナー対立遺伝子)に対するコピー数の合計と等しい。いくつかの例では、所与の遺伝子座に対する予測されるコピー数は、コピー数モデルへのカバレッジ比データ入力における統計的変動(又はノイズ)に起因して負の値を有し得る。遺伝子座(又はそれと関連付けられる対応するセグメント)に対する総コピー数が第3の定義済み値とほぼ等しい場合、ホモ接合体欠失が、遺伝子座に対して呼び出され、遺伝子座が、ステップ210で、呼び出された遺伝子のリストに追加される。
【0074】
図2のステップ208では、遺伝子座のヘテロ接合体欠失が、所与の遺伝子座の第1の対立遺伝子及び第2の対立遺伝子(例えば、メジャー対立遺伝子及びマイナー対立遺伝子)に対するコピー数を第4の定義済み値と比較することによって、セグメントごとに識別される。ヘテロ接合体欠失は、遺伝子座(又は対応するセグメント)に対する第1の対立遺伝子のコピー数が第4の所定の値とほぼ等しく、かつ遺伝子座(又は対応するセグメント)に対する第2の遺伝子座に対するコピー数が第4の所定の値と等しくない場合に、所与の遺伝子座に対して呼び出される。遺伝子座(又は対応するセグメント)に対する第1の対立遺伝子のコピー数が第4の所定の値とほぼ等しく、かつ遺伝子座(又は対応するセグメント)に対する第2の対立遺伝子に対するコピー数が第4の所定の値と等しくない場合、ヘテロ接合体欠失が、遺伝子座に対して呼び出され、遺伝子座が、ステップ210で、呼び出された遺伝子のリストに追加される。
【0075】
図2のステップ212では、遺伝子座の部分欠失は、所与の遺伝子座に対して、隣接する遺伝子座、一塩基多型(SNP)、及び/又はイントロンに対するlog2比カバレッジ比(「log2比」又は「L2R」)が、所与の遺伝子座に対するL2Rとは有意に異なるかどうか、並びに所与の遺伝子座に対するL2Rが、隣接していない遺伝子座、一塩基多型(SNP)、及び/又はイントロンに対するL2Rの分布とは有意に異なるかどうかを決定することによって識別され得る。L2Rの有意な差の決定は、図3に関して以下により詳細に説明される。所与の遺伝子座の部分欠失がステップ212で呼び出される場合、遺伝子座は、ステップ214で、呼び出された遺伝子のリストに追加される。
【0076】
図2のステップ216では、遺伝子座(デジタルでは「遺伝子オブジェクト」として表される)に対する重複呼び出しが併合され得る。上記のように、重複呼び出しは、例えば、遺伝子配列が2つの部分配列に破壊され、両方の部分配列が増幅又は欠失を含む遺伝子座として呼び出される場合、又は欠失が、コピー数モデルデータから直接得られるコピー数予測、及び部分欠失スキャン法の両方を使用して、遺伝子座に対して呼び出された場合に生じ得る。部分欠失を検出して呼び出すための方法は、図3に関して以下により詳細に説明される。併合時、2つ以上の遺伝子オブジェクト及びそれらの対応するプロパティ(例えば、配列場所、標的対立遺伝子配列、カバレッジ比など)は、単一の遺伝子オブジェクト及びプロパティのコンセンサスセットによって置き換えられることになる。遺伝子オブジェクト及びそれらのプロパティを併合するための方法は、図4に関して以下により詳細に説明される。
【0077】
図2のステップ218では、各遺伝子座(又は遺伝子オブジェクト)と関連付けられたプロパティセットが更新される。遺伝子プロパティの更新のより詳細な説明は、図5の説明の一部として以下に提供される。
【0078】
図2のステップ220では、CNAの結果が、例えば、配列リードデータ、試料純度(例えば、指定された試料純度閾値との試料純度の比較によって)、コピー数モデルの成功した収束の品質を評価するための、及び/又は個々の遺伝子座に対するCNA呼び出しの信頼性を評価するためなどの品質管理(QC)手順を実施することによって、フィルタリングされ、報告のために準備される。
【0079】
図3は、遺伝子座で部分欠失を呼び出すためのシステムのプロセス(又はサブルーチン)300の非限定な例を提供する。ステップ302で始まり、各遺伝子重複セグメントが、部分欠失についてレビューされる。上記のように、遺伝子座の部分欠失は、ステップ304で、所与の遺伝子座に対して、隣接する遺伝子座(例えば、遺伝子座、一塩基多型(SNP)、及び/又はイントロン)に対するlog2比カバレッジ比(「log2比」又は「L2R」)が、所与の遺伝子座に対するL2Rとは有意に異なる(及び非ゼロコピー数に対応する)かどうかを決定することと、ステップ308で、所与の遺伝子座に対するL2Rが、隣接していない遺伝子座(例えば、遺伝子座、一塩基多型(SNP)、及び/又はイントロン)に対するL2Rの分布とは有意に異なるかどうかを決定することによって識別され得、隣接していない遺伝子座に対するL2Rは、ステップ306で収集される。隣接する遺伝子座に対するL2Rが、ステップ304で、遺伝子座に対するL2Rとは有意に異ならないと決定された場合、その所見は、ステップ310で、遺伝子座に対応する遺伝子オブジェクトに追加され、リターンされる(部分欠失評価プロセスは、全ての遺伝子重複セグメントがスキャンされた後に図2に例示されるプロセス200にリターンする)。隣接する遺伝子座に対するL2Rが、ステップ304で、遺伝子座に対するL2Rと有意に異なると決定され、かつ所与の遺伝子座に対するL2Rが、ステップ308で、隣接していない遺伝子座に対するL2Rの分布と有意に異なると決定された場合、その所見は、ステップ310で、遺伝子座に対応する遺伝子オブジェクトに追加され、リターンされる。
【0080】
いくつかの例では、例えば試料純度が指定された純度閾値を下回る場合、隣接する遺伝子座、一塩基多型(SNP)、及び/又はイントロン(すなわち、関心対象の2つの他の遺伝子座の間に存在するか、又は関心対象の遺伝子座に隣接する、介在する遺伝子座、SNP、又はイントロン)に対するLog2カバレッジ比(L2R)は、次の場合、ステップ304で、所与の遺伝子座に対するL2Rと有意に異なると決定され得る。(i)2つの最も近い隣接遺伝子座(例えば、遺伝子座、SNP遺伝子座、及び/又はイントロン)に対する平均コピー数は、第1の指定された閾値及びカバレッジ比(例えば、log2カバレッジ比)の画分差以下である。例えば、画分差は、|(L2R-L2Ri+1)|/(max[L2R,L2Ri+1])として定義され得、式中iは、隣接する遺伝子座のゲノムインデックスであり、2つの最も近い隣接遺伝子座について、第2の指定された閾値以下であるか、又は(ii)現在の遺伝子座(遺伝子座i)の予測されるコピー数が、ゼロ以下であり(上記のように、予測されるコピー数値は、カバレッジ比(又はlog2カバレッジ比)データの統計的変動に起因して負の場合がある)、最も近い隣接遺伝子座i+1(例えば、最も近い隣接遺伝子座、SNP遺伝子座、及び/又はイントロン)の予測されるコピー数がゼロ以下であり、画分差(上記に定義される)が、第1の指定された閾値未満であり、(iii)両側p値が第3の指定された閾値未満である。いくつかの例では、第1の指定された閾値、第2の指定された閾値、及び第3の指定された閾値は、各々独立して、約0.000001~約0.3の範囲であり得る。いくつかの例では、第1の指定された閾値、第2の指定された閾値、及び第3の指定された閾値は、各々独立して、少なくとも若しくは約0.000001、少なくとも若しくは約0.00001、少なくとも若しくは約0.0001、少なくとも若しくは約0.001、少なくとも若しくは約0.002、少なくとも若しくは約0.003、少なくとも若しくは約0.004、少なくとも若しくは約0.005、少なくとも若しくは約0.01、少なくとも若しくは約0.02、少なくとも若しくは約0.03、少なくとも若しくは約0.04、少なくとも若しくは約0.05、少なくとも若しくは約0.06、少なくとも若しくは約0.07、少なくとも若しくは約0.08、少なくとも若しくは約0.09、少なくとも若しくは約0.1、少なくとも若しくは約0.12、少なくとも若しくは約0.14、少なくとも若しくは約0.16、少なくとも若しくは約0.18、少なくとも若しくは約0.20、少なくとも若しくは約0.22、少なくとも若しくは約0.24、少なくとも若しくは約0.26、少なくとも若しくは約0.28、又は少なくとも若しくは約0.30であり得る。
【0081】
いくつかの例では、例えば、試料純度が、指定された純度閾値を上回る場合、所与の遺伝子座のlog2カバレッジ比は、隣接していない遺伝子座、一塩基多型(SNP)、及び/又はイントロンの分布と有意に異なると決定され得、ステップ304では、2つの最も近い隣接遺伝子座(例えば、遺伝子座、SNP遺伝子座、及び/又はイントロン)に対する平均コピー数が第1の指定された閾値未満であり、log2カバレッジ比の画分差(上記に定義される)が第2の指定された閾値未満であり、かつ両側p値が第3の指定された閾値未満である場合。これらの例では、第1の指定された閾値、第2の指定された閾値、及び第3の指定された閾値は、各々独立して、約0.000001~約0.3の範囲であり得る。いくつかの例では、第1の指定された閾値、第2の指定された閾値、及び第3の指定された閾値は、各々独立して、少なくとも若しくは約0.000001、少なくとも若しくは約0.00001、少なくとも若しくは約0.0001、少なくとも若しくは約0.001、少なくとも若しくは約0.002、少なくとも若しくは約0.003、少なくとも若しくは約0.004、少なくとも若しくは約0.005、少なくとも若しくは約0.01、少なくとも若しくは約0.02、少なくとも若しくは約0.03、少なくとも若しくは約0.04、少なくとも若しくは約0.05、少なくとも若しくは約0.06、少なくとも若しくは約0.07、少なくとも若しくは約0.08、少なくとも若しくは約0.09、少なくとも若しくは約0.1、少なくとも若しくは約0.12、少なくとも若しくは約0.14、少なくとも若しくは約0.16、少なくとも若しくは約0.18、少なくとも若しくは約0.20、少なくとも若しくは約0.22、少なくとも若しくは約0.24、少なくとも若しくは約0.26、少なくとも若しくは約0.28、又は少なくとも若しくは約0.30であり得る。
【0082】
図3のステップ308では、所与の遺伝子座に対するL2Rは、例えば、両側p値が指定された閾値未満である場合、隣接していない遺伝子座、一塩基多型(SNP)、及び/又はイントロンに対するL2Rの分布とは有意に異なると決定され得る。
【0083】
図4は、重複遺伝子呼び出しを枝刈り及び併合するためのプロセス(又はサブルーチン)400の非限定的な例を提供する。上記のように、重複呼び出しは、例えば、遺伝子配列が2つの部分配列に破壊され、両方の部分配列が増幅又は欠失を含む遺伝子座として呼び出される場合、又は欠失が、コピー数モデルデータから直接得られるコピー数予測、及び部分欠失スキャン法の両方を使用して、遺伝子座に対して呼び出された場合に生じ得る。プロセスは、同じ遺伝子名を有する各遺伝子オブジェクトをレビューすることによってステップ402で始まる。ステップ404では、全ての対応するゲノム区間(例えば、所与の遺伝子座にアラインメントされた配列リード)が同じ遺伝子オブジェクトに対して呼び出されたか否かの決定が行われる。呼び出された場合、遺伝子オブジェクトは、ステップ406でリターンされる(全ての遺伝子オブジェクトがレビューされた後、枝刈り及び併合プロセスは、図2に例示されるプロセス200にリターンする)。呼び出されていない場合、重複呼び出しが、どの呼び出しが枝刈りされるべきであり、どの呼び出しが保存され、併合されるべきかを決定するためにレビューされる。保存された重複遺伝子オブジェクトの属性(例えば、遺伝子標的配列、L2Rデータ、増幅又は欠失ステータスなど)がステップ408で併合され、その後、ステップ406でメインプロセスにリターンされる。
【0084】
併合されることになる重複遺伝子呼び出しは、同一、重複、又は完全な遺伝子配列の部分配列である、遺伝子配列を含み得る。例えば、枝刈りステップは、1つの遺伝子オブジェクトが、全遺伝子配列にまたがり、同じ遺伝子に対する別の遺伝子オブジェクトが部分配列であるときに、頻繁に実施される。
【0085】
図5は、遺伝子座に対応する遺伝子オブジェクトのプロパティを選択又は更新するためのプロセス500の非限定的な例を提供する。プロセスは、各遺伝子オブジェクトのレビューを伴うステップ502で始まる。ステップ504では、遺伝子オブジェクトに対してステータスが設定される(例えば、遺伝子のタイプ、変化の関連性、コピー数事象の所与のサイズ、増幅又は欠失呼び出しの信頼性、遺伝子が既知又は未知であるかどうかなど)。
【0086】
図5のステップ506では、欠失呼び出しが遺伝子に対して行われたかどうかを決定するために遺伝子オブジェクトが評価される。行われた場合、欠失呼び出しに対する信頼性評価がステップ508で行われる。行われていない場合、ステップ510で、増幅呼び出しが遺伝子に対して行われたかどうかを決定するために遺伝子オブジェクトが評価される。行われた場合、増幅呼び出しに対する信頼性評価(増幅曖昧度評価)がステップ512で行われる。行われていない場合、サブクローナル欠失に対する信頼性評価がステップ514で行われる。
【0087】
図5のステップ508で行われる欠失呼び出し信頼性評価は、試料のバルク純度(すなわち、試料のバルク腫瘍塊を特性評価するコピー数モデルによって決定されるパラメータ、又は言い換えると、試料中の腫瘍組織によって呈されるコピー数の範囲をカバーするコピー数値)がどうかを決定することと、第1の指定されたバルク純度閾値とのバルク純度の比較に基づいて、欠失が呼び出された各遺伝子オブジェクトに対する真又は偽の品質管理ステータスを割り当てることと、を含み得る。
【0088】
図5のステップ512で行われる増幅曖昧度評価は、遺伝子座がマッピングする対応するセグメントのコピー数が試料の倍数性+第1の指定された倍数性差閾値以下である場合、増幅曖昧として1つ以上の遺伝子座のうちの所与の遺伝子座に対するステータスを設定することを含み得る。
【0089】
いくつかの例では、図5のステップ512で行われる増幅曖昧度評価は、遺伝子座がマッピングする対応するセグメントのコピー数が試料の倍数性+第2の指定された倍数性差閾値以下であり、かつ遺伝子座が第2の指定されたコピー数閾値を下回るコピー数で呼び出される第3の定義済み遺伝子座セット内に含まれない場合、増幅曖昧として1つ以上の遺伝子座のうちの所与の遺伝子座に対するステータスを設定することを含み得る。
【0090】
いくつかの例では、図5のステップ512で行われる増幅曖昧度評価は、遺伝子座がマッピングする対応するセグメントのコピー数が試料の倍数性+第3の指定された倍数性差閾値と等しく、かつ遺伝子座が第4の定義済み遺伝子座セット内に含まれる場合、増幅曖昧として1つ以上の遺伝子座のうちの所与の遺伝子座に対するステータスを設定することを含み得る。
【0091】
いくつかの例では、図5のステップ512で行われる増幅曖昧度評価は、遺伝子座がマッピングする対応するセグメントのコピー数が試料の倍数性+第4の指定された倍数性差閾値と等しく、かつ遺伝子座が第5の定義済み遺伝子座セット内に含まれる場合、増幅曖昧として1つ以上の遺伝子座のうちの所与の遺伝子座に対するステータスを設定することを含み得る。
【0092】
いくつかの例では、第1の指定された倍数性差閾値、第2の指定された倍数性差閾値、第3の指定された倍数性差閾値、及び第4の指定された倍数性差閾値は、各々独立して、1~12の範囲であり得る(例えば、整数又は浮動小数点数)。いくつかの例では、第1の指定された倍数性差閾値、第2の指定された倍数性差閾値、第3の指定された倍数性差閾値、及び第4の指定された倍数性差閾値は、各々独立して、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、又は少なくとも12である。いくつかの例では、第1の指定された倍数性差閾値、第2の指定された倍数性差閾値、第3の指定された倍数性差閾値、及び第4の指定された倍数性差閾値は、各々独立して、最大で12、最大で11、最大で10、最大で9、最大で8、最大で7、最大で6、最大で5、最大で4、最大で3、最大で2、又は最大で1である。この段落で説明された下限及び上限値のうちのいずれかは、本開示内に含まれる範囲を形成するために組み合わせられ得、例えば、いくつかの例では、第1の指定された倍数性差閾値、第2の指定された倍数性差閾値、第3の指定された倍数性差閾値、及び第4の指定された倍数性差閾値は、各々独立して、2~11の範囲であり得る。
【0093】
いくつかの例では、第2の指定されたコピー数閾値は、2~12の範囲である。いくつかの例では、第2の指定されたコピー数閾値は、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも11、又は少なくとも12である。いくつかの例では、第2の指定されたコピー数閾値は、最大で12、最大で11、最大で10、最大で9、最大で8、最大で7、最大で6、最大で5、最大で4、最大で3、又は最大で2であり得る。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、第2の指定されたコピー数閾値は、3~7の範囲であってもよい。
【0094】
いくつかの例では、第3の定義済み遺伝子座セット、第4の定義済み遺伝子座セット、及び第5の定義済み遺伝子座セットは、各々独立して、ERBB2遺伝子座、AR遺伝子座、又はそれらの任意の組み合わせを含み得る。
【0095】
図5のステップ518では、サブクローナル欠失呼び出しに対する信頼性評価が行われる。いくつかの例では、欠失が遺伝子座に対して呼び出された場合、コピー数モデルが成功して収束した場合、試料純度が指定された純度閾値を超える場合、第1の分離係数と分離との積がカバレッジ比の差未満である場合、及びカバレッジ比の差が第2の分離係数と分離との積未満である場合、「サブクローナル欠失曖昧」のステータスが設定される。分離は、試料純度及び倍数性に基づくコピー数モデルパラメータであり得、例えば、分離は、β=ρ/(Ψρ+2(1-ρ))であり、式中、ρは、試料純度(腫瘍画分)であり、Ψは、試料倍数性である。カバレッジ比の差は、メジャー及びマイナー対立遺伝子に対するカバレッジ比の合計(R+R、平均カバレッジ比の2倍に等しい)-コピー数モデルに対するゼロレベル(又は基底状態)パラメータ、β=(2(1-ρ))/(Ψρ+2(1-ρ))と等しくなり得る。
【0096】
いくつかの例では、指定された純度閾値は、0~1の範囲である。いくつかの例では、指定された純度閾値は、少なくとも0、少なくとも0.05、少なくとも0.1、少なくとも0.2、少なくとも0.3、少なくとも0.4、少なくとも0.5、少なくとも0.6、少なくとも0.7、少なくとも0.8、少なくとも0.9、又は少なくとも0.95である。いくつかの例では、指定された純度閾値は、最大で1、最大で0.95、最大で0.9、最大で0.8、最大で0.7、最大で0.6、最大で0.5、最大で0.4、最大で0.3、最大で0.2、最大で0.1、最大で0.05である。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、第2の指定された純度閾値は、0.1~0.7の範囲であってもよい。
【0097】
いくつかの例では、第1の分離係数は、0.10~0.30の範囲である。いくつかの例では、第1の分離係数は、少なくとも0.1、少なくとも0.15、少なくとも0.2、少なくとも0.25、又は少なくとも0.3である。いくつかの例では、第1の分離係数は、最大で0.3、最大で0.25、最大で0.2、最大で0.15、又は最大で0.1である。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、第1の分離係数は、0.15~0.25の範囲であってもよい。
【0098】
いくつかの例では、第2の分離係数は、0.50~0.90の範囲である。いくつかの例では、第2の分離係数は、少なくとも0.5、少なくとも0.6、少なくとも0.7、少なくとも0.8、又は少なくとも0.9である。いくつかの例では、第2の分離係数は、最大で0.9、最大で0.8、最大で0.7、最大で0.6、又は最大で0.5である。この段落に説明された下限値及び上限値のいずれかは、本開示内に含まれる範囲を形成するように組み合わせられてもよく、例えば、いくつかの例では、第2の分離係数は、0.6~0.8の範囲であってもよい。
【0099】
図5のステップ516では、増幅又は欠失呼び出しが上記に説明されるように曖昧であると決定された場合、「曖昧」の最終ステータスが遺伝子座に対して設定され得る。ステップ518では、特別規則セット(例えば、開示されるCNA呼び出し手順が良好に実施されないと知られている特定の遺伝子座のリスト)が参照され、それにより、リストにある遺伝子座に対する呼び出しがフィルタ除去され得る。ステップ520では、1つ以上の遺伝子座に対する更新ステータス設定のプロセスが完了する。
【0100】
いくつかの例では、CNAの自動呼び出しのための開示される方法は、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも120、少なくとも140、少なくとも160、少なくとも180、少なくとも200、少なくとも220、少なくとも240、少なくとも260、少なくとも280、少なくとも300、少なくとも320、少なくとも340、少なくとも360、少なくとも380、少なくとも400、又は400超の遺伝子座を含む、遺伝子座のパネルをカバーする配列リードデータに適用され得る。いくつかの例では、パネルは、例えば、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1,000、少なくとも2,000、少なくとも3,000、少なくとも4,000、少なくとも5,000、少なくとも600、少なくとも7,000、少なくとも8,000、少なくとも9,000、又は少なくとも10,000SNP遺伝子座を含む、複数のゲノムワイドSNP遺伝子座を更に含み得る。いくつかの例では、パネルは、遺伝子座、SNP遺伝子座、エクソン遺伝子座、イントロン遺伝子座、又はそれらの任意の組み合わせを含む、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも600、少なくとも700、少なくとも800、少なくとも900、少なくとも1,000、少なくとも1,500、少なくとも2,000、少なくとも2,500、少なくとも3,000、少なくとも3,500、少なくとも4,000、少なくとも4,500、少なくとも5,000、少なくとも5,500、少なくとも6,000、少なくとも6,500、少なくとも7,000、少なくとも7,500、少なくとも8,000、少なくとも8,500、少なくとも9,000、少なくとも9,500、少なくとも10,000、少なくとも11,000、少なくとも12,000、少なくとも13,000、少なくとも14,000、又は少なくとも15,000標的遺伝子座を含み得る。
【0101】
使用方法
いくつかの例では、開示された方法は、(i)対象(例えば、がんを有することが疑われるか、又はがんを有すると決定された対象)から試料を取得するステップと、(ii)試料から核酸分子(例えば、腫瘍核酸分子と非腫瘍核酸分子との混合物)を抽出するステップと、(iii)試料から抽出された核酸分子に1つ以上のアダプター(例えば、1つ以上の増幅プライマー、フローセルアダプター配列、基質アダプター配列、又は試料インデックス配列)をライゲーションするステップと、(iv)(例えば、ポリメラーゼ連鎖反応(PCR)増幅技術、非PCR増幅技術、又は等温増幅技術を使用して)核酸分子を増幅するステップと、(v)(例えば、捕捉された核酸分子の領域に相補的な領域をそれぞれ含む1つ以上の核酸分子をそれぞれ含む1つ以上のベイト分子へのハイブリダイゼーションによって)増幅された核酸分子から核酸分子を捕捉するステップと、(vi)例えば、次世代(例えば、大規模並列)シーケンサーを使用して、例えば、次世代(超並列)配列決定技術、全ゲノム配列決定(WGS)技術、全エクソーム配列決定技術、標的配列決定技術、直接配列決定技術、又はサンガー配列決定技術を使用して、試料から抽出された核酸分子(又はそれに由来するライブラリプロキシ)を配列決定するステップと、(vii)対象(又は患者)、介護者、ヘルスケア提供者、医師、腫瘍学者、電子カルテシステム、病院、診療所、診療所、第三者支払人、保険会社、又は官公庁にレポート(例えば、電子レポート、ウェブベースのレポート、又は紙のレポート)を生成、表示、送信、及び/又は送達するステップと、のうちの1つ以上を更に含み得る。いくつかの例では、レポートは、本明細書に記載の方法からの出力を含む。いくつかの例では、レポートの全部又は一部は、オンライン又はウェブベースのヘルスケアポータルのグラフィカルユーザインターフェースに表示されることができる。いくつかの例では、レポートは、コンピュータネットワーク又はピアツーピア接続を介して送信される。
【0102】
開示される方法は、様々な試料のうちのいずれかとともに使用され得る。例えば、いくつかの例では、試料は、組織生検試料、液体生検試料、又は正常対照を含み得る。いくつかの例では、試料は、液体生検試料であり得、血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含み得る。いくつかの例では、試料は、液体生検試料であり得、循環腫瘍細胞(CTC)を含み得る。いくつかの例では、試料は、液体生検試料であり得、無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、又はそれらの任意の組み合わせを含み得る。
【0103】
いくつかの例では、試料から抽出された核酸分子は、腫瘍核酸分子と非腫瘍核酸分子との混合物を含むことができる。いくつかの例では、腫瘍核酸分子は、異種組織生検試料の腫瘍部分に由来することができ、非腫瘍核酸分子は、異種組織生検試料の正常部分に由来することができる。いくつかの例では、試料は、液体生検試料を含むことができ、腫瘍核酸分子は、液体生検試料の循環腫瘍DNA(ctDNA)画分に由来することができ、非腫瘍核酸分子は、液体生検試料の非腫瘍無細胞DNA(cfDNA)画分に由来することができる。
【0104】
いくつかの例では、コピー数変化(CNA)の自動検出及び呼び出しのための開示される方法は、対象(例えば、患者)における疾患若しくは他の条件(例えば、がん、遺伝性疾患(ダウン症候群及び脆弱X)、神経疾患、又はコピー数が疾患の診断、処置、又は予測に関連する任意の他の疾患タイプ)の存在を診断するために使用され得る。いくつかの例では、開示される方法は、本明細書の他の箇所で説明されるように、様々ながんのうちのいずれかの診断に適用可能であり得る。
【0105】
いくつかの例では、自動CNA呼び出しのための開示される方法が、胎児DNAの遺伝性疾患を予測するために使用され得る。(例えば、侵襲的又は非侵襲的出生前検査のために)。例えば、侵襲的羊水穿刺、絨毛絨毛サンプリング(cVS)、若しくは胎児臍帯サンプリング技術を使用して得られた試料、又は無細胞DNA(cfDNA)試料の非侵襲的サンプリング(母体cfDNAと胎児cfDNAとの混合物を含む)を使用して得られた試料から抽出された胎児DNAを配列決定して得られた配列リードデータが、例えば、ダウン症(トリソミー21)、トリソミー18、トリソミー13、X及びY染色体の余分なコピー又は欠損と関連付けられたコピー数変化を識別するために、開示される方法に従って処理され得る。
【0106】
いくつかの例では、自動CNA呼び出しのための開示される方法は、1つ以上の遺伝子座に対して決定されたCNA値に基づいて、臨床試験のための対象(例えば、患者)を選択するために使用され得る。いくつかの例では、例えば、1つ以上の遺伝子座のCNAの識別に基づく、臨床試験のための患者選択は、標的療法の開発を加速させ、処置決定の医療成果を改善する。
【0107】
いくつかの例では、コピー数変化(CNA)の自動検出及び呼び出しのための開示される方法は、対象に対する適切な治療又は処置(例えば、がん治療又はがん処置)を選択するために使用され得る。いくつかの例では、例えば、がん治療又は処置は、ポリ(ADP-リボース)ポリメラーゼ阻害薬(PARPi)、白金化合物、化学療法、放射線療法、標的療法(例えば、免疫療法)、外科手術、又はそれらの任意の組み合わせの使用を含み得る。
【0108】
いくつかの例では、コピー数変化(CNA)の自動検出及び呼び出しのための開示される方法は、対象における疾患(例えば、がん)を治療する際に使用され得る。例えば、本明細書に開示される方法のうちのいずれかを使用して患者試料中の1つ以上の遺伝子座でCNAが生じることを決定することに応答して、有効量のがん治療又はがん処置が対象に投与され得る。
【0109】
いくつかの例では、コピー数変化(CNA)の自動検出及び呼び出しのための開示される方法は、対象における疾患の進行又は再発(例えば、がん又は腫瘍の進行又は再発)を監視するために使用され得る。例えば、いくつかの例では、方法は、第1の時点で対象から得られた第1の試料中のCNAを検出するために使用されるとともに、第2の時点で患者から得られた第2の試料中のCNAを検出するために使用され得、CNAの第1の決定及びCNAの第2の決定の比較は、疾患の進行又は再発を監視することを可能にする。いくつかの例では、第1の時点は、患者が治療又は処置を投与される前に選択され、第2の時点は、対象が治療又は処置を投与された後に選択される。
【0110】
いくつかの例では、開示される方法は、例えば、呼び出されたコピー数変化(CNA)の変化に応答して、処置用量を調整し、及び/又は異なる処置を選択することによって、対象に対する治療又は処置(例えば、がん処置又はがん治療)を調整するために使用され得る。
【0111】
いくつかの例では、開示される方法を使用して決定された、呼び出されたCNAは、試料と関連付けられた予後又は診断指標として使用され得る。例えば、いくつかの例では、予後又は診断指標は、試料中の疾患(例えば、がん)の存在の指標、疾患(例えば、がん)が試料中に存在する可能性の指標、試料が由来した対象が疾患(例えば、がん)を発症することになる可能性の指標(すなわち、危険因子)、又は試料が由来した対象が特定の治療又は処置に応答することになる可能性の指標を含み得る。
【0112】
いくつかの例では、コピー数変化(CNA)の自動検出及び呼び出しのための開示される方法は、特定の疾患、例えば、がんの検出、監視、危険因子の予測、又は処置の選択の一部として、対象に由来する試料中の1つ以上の遺伝子座における変異体配列の存在の識別を含むゲノムプロファイリングプロセスの一部として実装され得る。いくつかの例では、ゲノムプロファイリングのために選択される変異体パネルは、選択された遺伝子座セットにおける変異体配列の検出を含み得る。いくつかの例では、ゲノムプロファイリングのために選択される変異体パネルは、包括的ゲノムプロファイリング(CGP)、単一のアッセイで数百の遺伝子(関連するがんバイオマーカーを含む)を評価するために使用される次世代配列決定(NGS)アプローチを介して、いくつかの遺伝子座での変異体配列の検出を含み得る。ゲノムプロファイリングプロセスの一部として、コピー数変化(CNA)の自動検出及び呼び出しのための開示される方法の含有(又は対象のゲノムプロファイルの一部として呼び出されたCNAに対する、開示される方法からの出力の含有)は、例えば、所与の患者試料中の1つ以上の遺伝子座におけるCNAの存在を独立して確認することによって、ゲノムプロファイルに基づいて行われる、例えば、疾患検出呼び出し及び処置決定の妥当性を改善し得る。
【0113】
いくつかの例では、ゲノムプロファイルは、個人のゲノム及び/又はプロテオームにおける遺伝子(又はその変異体配列)、コピー数変異、エピジェネティック形質、タンパク質(又はその改変)、及び/又は他のバイオマーカーの存在に関する情報、並びに個人の対応する表現型形質、並びに遺伝的又はゲノム形質、表現型形質、及び環境因子の間の相互作用に関する情報を含むことができる。
【0114】
いくつかの例では、被験者のゲノムプロファイルは、包括的ゲノムプロファイリング(CGP)試験、核酸配列決定に基づく試験、遺伝子発現プロファイリング試験、がんホットスポットパネル試験、DNAメチル化試験、DNA断片化試験、RNA断片化試験、又はそれらの任意の組み合わせからの結果を含むことができる。
【0115】
いくつかの例では、方法は、生成されたゲノムプロファイルに基づいて、処置又は治療(例えば、抗がん剤、抗がん処置、又は抗がん治療)を対象に投与又は適用することを更に含み得る。抗がん剤又は抗がん処置は、がん細胞の処置に有効である化合物を指し得る。抗がん剤又は抗がん治療の例は、アルキル化剤、代謝拮抗物質、天然産物、ホルモン、化学療法、放射線療法、免疫療法、外科手術、又は特定の細胞シグナル伝達経路の欠陥、例えば、DNAミスマッチ修復(MMR)経路の欠陥を標的とするように構成された治療を含むが、これらに限定されない。
【0116】
試料
開示される方法及びシステムは、対象(例えば、患者)から収集される核酸(例えば、DNA又はRNA)を含む様々な試料(本明細書では検体とも呼ばれる)のうちのいずれかとともに使用され得る。例としては、限定されるものではないが、腫瘍試料、組織試料、生検試料、血液試料(例えば、末梢全血試料)、血漿試料、血清試料、リンパ試料、唾液試料、痰試料、尿試料、婦人科液試料、循環腫瘍細胞(CTC)試料、脳脊髄液(CSF)試料、心嚢液試料、胸水試料、腹水(腹膜液)試料、糞便(又は便)試料、又は他の体液、分泌物、及び/若しくは排泄物試料(あるいはそれらに由来する細胞試料)が挙げられる。ある特定の例では、試料は、凍結試料又はホルマリン固定パラフィン包埋(FFPE)試料であり得る。
【0117】
いくつかの例では、試料は、組織切除(例えば、外科的切除)、針生検、骨髄生検、骨髄吸引、皮膚生検、内視鏡生検、細針吸引、口腔スワブ、鼻腔スワブ、膣スワブ、又は細胞学的スミア、擦り傷、洗浄又は洗浄液(管腔洗浄液又は気管支肺胞洗浄液など)などによって収集され得る。
【0118】
いくつかの例では、試料は、液体生検試料であり、例えば、全血、血漿、血清、尿、便、痰、唾液、又は脳脊髄液を含み得る。いくつかの例では、試料は、液体生検試料であり得、循環腫瘍細胞(CTC)を含み得る。いくつかの例では、試料は、液体生検試料であり得、無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、又はそれらの任意の組み合わせを含み得る。
【0119】
いくつかの例では、試料は、1つ以上の前悪性又は悪性細胞を含み得る。本明細書で使用される場合、前悪性腫瘍とは、まだ悪性ではないが、悪性になる準備ができている細胞又は組織を指す。ある特定の例では、試料は、固形腫瘍、軟部組織腫瘍、又は転移性病変から取得され得る。ある特定の例では、試料は、血液悪性腫瘍又は前悪性腫瘍から取得され得る。他の例では、試料は、手術マージンからの組織又は細胞を含み得る。ある特定の例では、試料は、腫瘍浸潤リンパ球を含み得る。いくつかの例では、試料は、1つ以上の非悪性細胞を含み得る。いくつかの例では、試料は、原発性腫瘍又は転移(例えば、転移生検試料)であるか、又はその一部であり得る。いくつかの事例では、試料は、隣接部位(例えば、腫瘍に隣接する部位)と比較して、腫瘍(例えば、腫瘍細胞)のパーセントが最も高い部位(例えば、腫瘍部位)から得られ得る。いくつかの事例では、試料は、隣接部位(例えば、腫瘍に隣接する部位)と比較して、最大腫瘍病巣(例えば、顕微鏡下で視覚された際の最大数の腫瘍細胞)を有する部位(例えば、腫瘍部位)から得られ得る。
【0120】
いくつかの例では、開示される方法は、一次対照(例えば、正常組織試料)を分析することを更に含み得る。いくつかの例では、開示される方法は、一次対照が利用可能であるかどうかを決定すること、及び利用可能である場合、一次対照から対照核酸(例えば、DNA)を単離することを更に含み得る。いくつかの例では、試料は、一次対照が利用可能ではない場合、任意の正常対照(例えば、正常隣接組織(NAT))を含み得る。いくつかの例では、試料は、組織学的に正常な組織であり得るか、又はそれを含み得る。いくつかの例では、方法は、本明細書に説明される方法を使用して、試料、例えば、組織学的に正常な試料(例えば、外科的組織マージンから)を評価することを含む。いくつかの例では、開示される方法は、例えば、一次対照を伴わない試料中のNATからの非腫瘍組織をマクロ切開することによって、非腫瘍細胞が濃縮された部分試料を取得することを更に含み得る。いくつかの例では、開示される方法は、一次対照及びNATが利用できないと決定することと、マッチド対照なしで分析のために試料をマーキングすることとを更に含み得る。
【0121】
いくつかの例では、組織学的に正常な組織(例えば、そうでなければ組織学的に正常な組織マージン)から得られた試料は、依然として、本明細書に説明される変異体配列などの遺伝子変化を含み得る。したがって、方法は、検出された遺伝子変化の存在に基づいて、試料を再分類することを更に含み得る。いくつかの例では、複数の試料(例えば、異なる対象からの)が同時に処理される。
【0122】
開示される方法及びシステムは、様々な組織試料(又はその疾患状態)、例えば、固形組織試料、軟組織試料、転移性病変、又は液体生検試料のうちのいずれかから抽出された核酸の分析に適用され得る。組織の例としては、限定されるものではないが、結合組織、筋肉組織、神経系組織、上皮組織、及び血液が挙げられる。組織試料は、動物又は人体内の器官のいずれかから収集され得る。ヒト器官の例としては、脳、心臓、肺、肝臓、腎臓、膵臓、脾臓、甲状腺、乳腺、子宮、前立腺、大腸、小腸、膀胱、骨、皮膚等が挙げられるが、これらに限定されない。
【0123】
いくつかの例では、試料から抽出された核酸は、デオキシリボ核酸(DNA)分子を含み得る。開示される方法による分析のために好適であり得るDNAの例としては、限定されるものではないが、ミトコンドリアDNA又はその断片、無細胞DNA(cfDNA)、及び循環腫瘍DNA(ctDNA)が挙げられる。無細胞DNA(cfDNA)は、アポトーシス及びネクローシス中に正常及び/又はがん細胞から放出されるDNAの断片から構成され、血流中を循環し、及び/又は他の体液中に蓄積する。循環腫瘍DNA(cfDNA)は、血流中を循環し、及び/又は他の体液中に蓄積するがん細胞及び腫瘍から放出されるDNAの断片から構成される。
【0124】
いくつかの例では、DNAは、試料から有核細胞から抽出される。いくつかの例では、試料は、例えば、試料が主に赤血球、過剰な細胞質を含有する病変細胞、又は線維症を有する組織で構成される場合、有核細胞性が低い。いくつかの例では、有核細胞性が低い試料は、DNA抽出のために、より多くの、例えば、より大きな組織体積を必要とし得る。
【0125】
いくつかの例では、試料から抽出された核酸は、リボ核酸(RNA)分子を含み得る。開示される方法による分析のために好適であり得るRNAの例としては、限定されるものではないが、総細胞RNA、特定の存在量のRNA配列の枯渇後の総細胞RNA(例えば、リボソームRNA)、無細胞RNA(cfRNA)、メッセンジャーRNA(mRNA)又はその断片、総RNAのポリ(A)尾部mRNA画分、リボソームRNA(rRNA)又はその断片、転移RNA(tRNA)又はその断片、及びミトコンドリアRNA又はその断片が挙げられる。いくつかの例では、RNAは、試料から抽出され、例えば、逆転写反応を使用して相補的DNAに変換され得る。いくつかの例では、cDNAは、ランダムプライムcDNA合成法によって産生される。他の例では、cDNA合成は、オリゴ(dT)含有オリゴヌクレオチドによるプライミングによって成熟mRNAのポリ(A)尾部で開始される。枯渇、ポリ(A)濃縮、及びcDNA合成のための方法は、当業者に周知である。
【0126】
いくつかの例では、試料は、例えば、腫瘍細胞又は腫瘍細胞核を含む、腫瘍含有量を含み得る。いくつかの例では、試料は、少なくとも5~50%、10~40%、15~25%、又は20~30%の腫瘍細胞核を有する腫瘍含有量を含み得る。いくつかの例では、試料は、少なくとも5%、少なくとも10%、少なくとも20%、少なくとも30%、少なくとも40%、又は少なくとも50%の腫瘍細胞核の腫瘍含有量を含み得る。いくつかの例では、腫瘍核のパーセントは、試料中の腫瘍細胞の数を、核を有する試料中の全ての細胞の総数で除算することによって決定(例えば、計算)される。いくつかの例では、例えば、試料が肝細胞を含む肝臓試料であるとき、異なる腫瘍含有量計算が、2倍又は2倍超の核を有する肝細胞の存在、他のDNA含有量、例えば、非肝細胞、体細胞核の存在に起因して必要とされ得る。いくつかの例では、遺伝子変化、例えば、変異体配列の検出の感度、又は、例えば、マイクロサテライト不安定性の決定の感度は、試料の腫瘍含有量に依存し得る。例えば、より低い腫瘍含有量を有する試料は、所与のサイズの試料に対する検出のより低い感度を結果的にもたらし得る。
【0127】
いくつかの例では、上記のように、試料は、例えば、腫瘍からの、又は正常組織からの、核酸(例えば、DNA、RNA(又はRNAに由来するcDNA)、又は両方)を含む。ある特定の例では、試料は、例えば、腫瘍又は正常組織由来の非核酸成分、例えば、細胞、タンパク質、炭水化物、又は脂質を更に含み得る。
【0128】
対象
いくつかの例では、試料は、ある条件若しくは疾患(例えば、過剰増殖性疾患又は悲がん指標)を有するか、又はある条件若しくは疾患を有すると疑われる対象(例えば、患者)から得られる(例えば、収集される)。いくつかの例では、過剰増殖性疾患は、がんである。いくつかの例では、がんは、固形腫瘍又はその転移性形態である。いくつかの例では、がんは、血液がん、例えば、白血病又はリンパ腫である。
【0129】
いくつかの例では、対象は、がんを有するか、又はがんを有するリスクがある。例えば、いくつかの例では、対象は、がん(例えば、がんを発症するためのベースラインのリスクを増加させる遺伝子変異を有すること)に対する遺伝的素因を有する。いくつかの例では、対象は、がんを発症するリスクを増加させる環境変動(例えば、放射線又は化学物質)に曝露されている。いくつかの例では、対象は、がんの発症について監視されることを必要とする。いくつかの例では、対象は、例えば、がん治療で処置された後に、がんの進行又は退縮について監視されることを必要としている。いくつかの例では、対象は、がんの再発について監視されることを必要としている。いくつかの例では、対象は、微小残存病変(MRD)について監視されることを必要としている。いくつかの例では、対象は、がんに対して処置されていたか、又は処置されている。いくつかの例では、対象は、がん治療(又はがん処置)で処置されていない。
【0130】
いくつかの例では、対象(例えば、患者)は、1つ以上の標的療法で処置されているか、又は以前に処置されたことがある。いくつかの例では、例えば、標的療法で以前に処置されたことがある患者について、標的療法後試料(例えば、検体)が得られる(例えば、収集される)。いくつかの例では、標的療法後試料は、標的療法の完了後に得られた試料である。
【0131】
いくつかの例では、患者は、標的療法で以前に処置されていない。いくつかの例では、例えば、以前に標的療法で処置されていない患者について、試料は、切除、例えば、元の切除、又は再発後の切除(例えば、治療後の疾患再発後)。
【0132】
がん
いくつかの例では、試料は、がんを有する対象から取得される。例示的ながんとしては、限定されるものではないが、B細胞がん(例えば、多発性骨髄腫)、黒色腫、乳がん、肺がん(非小細胞肺がん又はNSCLCなど)、気管支がん、結腸直腸がん、前立腺がん、膵臓がんが含まれるが、これらに限定されない、胃がん、卵巣がん、膀胱がん、脳又は中枢神経系がん、末梢神経系がん、食道がん、子宮頸がん、子宮がん又は子宮内膜がん、口腔又は咽頭がん、肝がん、腎臓がん、精巣がん、胆道がん、小腸又は付属器がん、唾液腺がん、甲状腺がん、副腎腺がん、骨肉腫、軟骨肉腫、血液組織のがん、腺がん、炎症性筋線維芽細胞腫瘍、胃腸間質腫瘍(GIST)、結腸がん、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性骨髄性白血病(CML)、慢性リンパ性白血病(CLL)、多発性細胞血症ベラ、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨形成性肉腫、脊索腫、血管肉腫、内皮肉腫滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮がん、基底細胞がん、腺がん、汗腺がん、脂腺がん、乳頭がん、乳頭腺がん、髄質がん、気管支原性がん、腎細胞がん、肝細胞腫、胆管がん、絨毛がん、セミノーマ、胚性がん腫、ウィルムス腫瘍、膀胱がん、上皮がん、神経膠腫、星状細胞腫、髄芽細胞腫、頭蓋咽頭腫、上衣腫、松果体腫、血管芽細胞腫、聴神経腫、乏突起膠腫、髄膜腫、神経芽細胞腫、網膜芽細胞腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞がん、甲状腺がん、胃がん、頭頸部がん、小細胞がん、本態性血小板血症、アグノーゲン性骨髄性化生、高好酸球性症候群、全身性肥満細胞症、家族性高好酸球増加症、慢性好酸球性白血病、神経内分泌がん、がん様腫瘍などが挙げられる。
【0133】
いくつかの例では、がんは、血液悪性腫瘍(又は前悪性腫瘍)である。本明細書で使用される場合、血液悪性腫瘍は、造血又はリンパ組織の腫瘍、例えば血液、骨髄、又はリンパ節に影響を及ぼす腫瘍を指す。例示的な血液悪性腫瘍には、白血病(例えば、急性リンパ芽球性白血病(ALL)、急性骨髄性白血病(AML)、慢性リンパ性白血病(CLL)、慢性骨髄性白血病(CML)、有毛細胞白血病、急性単球性白血病(AMoL)、慢性骨髄単球性白血病(CMML)、若年性骨髄単球性白血病(JMML)、又は大顆粒リンパ性白血病)、リンパ腫(例えば、AIDS関連リンパ腫、皮膚T細胞リンパ腫、ホジキンリンパ腫(例えば、古典的ホジキンリンパ腫又は結節性リンパ球優位型ホジキンリンパ腫)、菌状息肉症、非ホジキンリンパ腫(例えば、B細胞非ホジキンリンパ腫(例えば、バーキットリンパ腫、小リンパ性リンパ腫(CLL/SLL)、びまん性大細胞型B細胞リンパ腫、濾胞性リンパ腫、免疫芽球性大細胞リンパ腫、前駆Bリンパ芽球性リンパ腫、又はマントル細胞リンパ腫)又はT細胞非ホジキンリンパ腫(菌状息肉症、未分化大細胞リンパ腫、又は前駆Tリンパ芽球性リンパ腫))、原発性中枢神経系が含まれるが、これらに限定されない。
【0134】
核酸抽出及び処理
DNA又はRNAは、当業者に既知の様々な技術のうちのいずれかを使用して、組織試料、生検試料、血液試料、又は他の体液試料から抽出され得る(例えば、国際特許出願公開第2012/092426号の実施例1、Tan,et al.(2009),“DNA,RNA,and Protein Extraction: The Past and The Present”,J.Biomed.Biotech.2009:574398、the technical literature for the Maxwell(登録商標)16 LEV Blood DNA Kit(Promega Corporation,Madison,WI)、及びthe Maxwell 16 Buccal Swab LEV DNA Purification Kit Technical Manual(Promega Literature #TM333,January 1,2011,Promega Corporation,Madison,WI)を参照されたい)。RNA単離のためのプロトコルは、例えば、Maxwell(登録商標)16 Total RNA Purification Kit Technical Bulletin(Promega Literature#TB351、2009年8月、Promega Corporation、Madison、WI)に開示されている。
【0135】
典型的なDNA抽出手順は、例えば、(i)DNAが抽出されることになる流体試料、細胞試料、又は組織試料の収集と、(ii)必要な場合、DNA及び他の細胞質成分を放出するための細胞膜の破壊(すなわち、細胞溶解)と、(iii)タンパク質、脂質、及びRNAを沈殿させるための濃厚塩溶液による液体試料又は溶解した試料の処置、その後の、沈殿したタンパク質、脂質、及びRNAを分離するための遠心分離と、(iv)細胞膜溶解ステップ中に使用された洗剤、タンパク質、塩、又は他の試薬を除去するための上清からのDNAの精製と、を含む。
【0136】
細胞膜の破壊は、様々な機械的剪断(例えば、フレンチプレス又は細針)又は超音波破壊技術を使用して実施され得る。細胞溶解ステップは、多くの場合、脂質、細胞及び核膜を溶解するための洗剤及び界面活性剤の使用を含む。いくつかの例では、溶解ステップは、タンパク質を破壊するためのプロテアーゼの使用、及び/又は試料中のRNAの消化のためのRNaseの使用を更に含み得る。
【0137】
DNA精製のための好適な技術の例としては、限定されるものではないが、(i)氷冷エタノール又はイソプロパノール中の沈殿、その後の遠心分離(例えば、酢酸ナトリウムの添加による、イオン強度を増加させることによって増強され得るDNAの沈殿)と、(ii)フェノール-クロロホルム抽出、その後の、核酸を含有する水相を、変性タンパク質を含有する有機相から分離するための遠心分離と、(iii)核酸が緩衝液のpH及び塩濃度に応じて固相(例えば、シリカ又はその他)に吸着する固相クロマトグラフィーと、が挙げられる。
【0138】
いくつかの例では、DNAに結合された細胞及びヒストンタンパク質は、プロテアーゼを添加することによって、又は酢酸ナトリウム若しくは酢酸アンモニウムでタンパク質を沈殿させることによって、あるいはDNA沈殿ステップの前のフェノール-クロロホルム混合物による抽出を通じて除去され得る。
【0139】
いくつかの例では、DNAは、様々な好適な市販のDNA抽出及び精製キットのうちのいずれかを使用して抽出され得る。例としては、限定されるものではないが、Qiagen(Germantown、MD)製のQIAamp(ヒト試料からのゲノムDNAの単離用)及びDNAeasy(動物又は植物試料からのゲノムDNAの単離用)キット、又はPromega(Madison、WI)製のMaxwell(登録商標)及びReliaPrep(商標)シリーズが挙げられる。
【0140】
上記のように、いくつかの例では、試料は、ホルマリン固定(ホルムアルデヒド固定、又はパラホルムアルデヒド固定)、パラフィン包埋(FFPE)組織調製を含み得る。例えば、FFPE試料は、基質、例えば、FFPEブロックに包埋された組織試料であり得る。ホルムアルデヒド固定又はパラホルムアルデヒド固定、パラフィン包埋(FFPE)組織から核酸(例えば、DNA)を単離するための方法が、例えば、Cronin,et al.,(2004)Am J Pathol.164(1):35-42、Masuda,et al.,(1999)Nucleic Acids Res.27(22):4436-4443、Specht,et al.,(2001)Am J Pathol.158(2):419-429、Ambion RecoverAll(商標)Total Nucleic Acid Isolation Protocol(Ambion,Cat.No.AM1975,September 2008)、Maxwell(登録商標)16 FFPE Plus LEV DNA Purification Kit Technical Manual(Promega Literature #TM349,February 2011)、E.Z.N.A.(登録商標)FFPE DNA Kit Handbook(OMEGA bio-tek,Norcross,GA,product numbers D3399-00,D3399-01,and D3399-02,June 2009)、並びにQIAamp(登録商標)DNA FFPE Tissue Handbook(Qiagen,Cat.No.37625,October 2007)に開示されている。例えば、RecoverAll(商標)Total Nucleic Acid Isolation Kitは、高温でキシレンを使用してパラフィン包埋試料を可溶化し、ガラス繊維フィルタにかけて核酸を捕捉する。Maxwell(登録商標)16 FFPE Plus LEV DNA Purification Kitを、Maxwell(登録商標)16 Instrumentとともに、FFPE組織の1から10μm切片のゲノムDNAを精製するために使用する。シリカクラッド常磁性粒子(PMP)を用いてDNAを精製し、低溶出容量で溶出する。E.Z.N.A.(登録商標)FFPE DNA Kitは、ゲノムDNAの単離のためにスピンカラム及び緩衝系を使用する。QIAamp(登録商標)DNA FFPE Tissue Kitは、ゲノム及びミトコンドリアDNAの精製にQIAamp(登録商標)DNA Micro technologyを使用する。
【0141】
いくつかの例では、開示される方法は、試料から抽出された核酸の収量値を決定又は取得することと、決定された値を参照値と比較することを更に含み得る。例えば、決定又は取得された値が参照値未満である場合、核酸は、ライブラリ構築を進める前に増幅され得る。いくつかの例では、開示される方法は、試料中の核酸断片のサイズ(又は平均サイズ)に対する値を決定又は取得することと、決定又は取得された値を、参照値、例えば、少なくとも100、200、300、400、500、600、700、800、900、又は1000塩基対(bps)のサイズ(又は平均サイズ)と比較することと、を更に含み得る。いくつかの例では、本明細書に説明される1つ以上のパラメータは、この決定に応答して、調整又は選択され得る。
【0142】
単離後、核酸は、典型的には、わずかにアルカリ性の緩衝液、例えば、Tris-EDTA(TE)緩衝液中、又は超純水中で溶解される。いくつかの例では、単離された核酸(例えば、ゲノムDNA)は、当業者に既知の様々な技術のうちのいずれかを使用することによって、断片化又は剪断され得る。例えば、ゲノムDNAは、物理的剪断法、酵素的切断法、化学的切断法、及び当業者に周知の他の方法によって断片化され得る。DNA剪断のための方法は、例えば、国際特許出願公開第2012/092426号の実施例4に説明されている。いくつかの例では、DNA剪断法の代替法を使用して、ライブラリ調製中のライゲーションステップを回避することができる。
【0143】
ライブラリ調製
いくつかの例では、試料から単離された核酸は、ライブラリを構築するために使用され得る(例えば、本明細書に説明される核酸ライブラリ)。いくつかの例では、核酸は、上記に説明された方法のうちのいずれかを使用して断片化され、任意選択的に、鎖末端損傷の修復に供され、任意選択的に、アダプター、プライマー、及び/若しくはバーコード(例えば、増幅プライマー、配列アダプター、フローセルアダプター、基質アダプター、試料バーコード若しくはインデックス、及び/又は固有の分子識別子配列)を合成するためにライゲーションされ、サイズ選択され(例えば、分取ゲル電気泳動による)、並びに/又は増幅される(例えば、PCR、非PCR増幅技術、又は等温増幅技術を使用して)。いくつかの例では、断片化及びアダプターライゲーションされた核酸群は、標的配列のハイブリダイゼーションベースの選択の前に明示的なサイズ選択又は増幅なしに使用される。いくつかの例では、核酸は、当業者に周知の様々な特異的又は非特異的核酸増幅方法のうちのいずれかによって増幅される。いくつかの例では、核酸は、例えば、ランダムプライム鎖置換増幅などの全ゲノム増幅法によって増幅される。次世代配列決定のための核酸ライブラリ調製技術の例は、例えば、van Dijk,et al.(2014),Exp.Cell Research 322:12-20,and Illumina’s genomic DNA sample preparation kitに説明されている。
【0144】
いくつかの例では、結果的に得られる核酸ライブラリは、ゲノムの複雑さの全て又は実質的に全てを含み得る。この文脈における「実質的に全て」という用語は、実際には、手順の初期工程中にゲノム複雑性のいくらかの望ましくない喪失があり得る可能性を指す。本明細書に説明される方法はまた、核酸ライブラリがゲノムの一部である場合、例えば、ゲノムの複雑性が設計によって低減される場合に有用である。いくつかの例では、ゲノムの任意の選択された部分は、本明細書に説明される方法とともに使用され得る。例えば、ある特定の実施形態では、エクソーム全体又はそのサブセットが単離される。いくつかの例では、ライブラリは、少なくとも95%、90%、80%、70%、60%、50%、40%、30%、20%、10%、又は5%のゲノムDNAを含み得る。いくつかの例では、ライブラリは、少なくとも95%、90%、80%、70%、60%、50%、40%、30%、20%、10%、又は5%のゲノムDNAを含むゲノムDNAのcDNAコピーからなり得る。ある特定の例では、核酸ライブラリを生成するために使用される核酸の量は、5マイクログラム未満、1マイクログラム未満、500ng未満、200ng未満、100ng未満、50ng未満、10ng未満、5ng未満、又は1ng未満であり得る。
【0145】
いくつかの例では、ライブラリ(例えば、核酸ライブラリ)は、核酸分子の集合を含む。本明細書に説明されるように、ライブラリの核酸分子は、標的核酸分子(例えば、腫瘍核酸分子、参照核酸分子及び/又は制御核酸分子、本明細書ではそれぞれ第1、第2及び/又は第3の核酸分子とも呼ばれる)を含むことができる。ライブラリの核酸分子は、単一の対象又は個体に由来し得る。いくつかの例では、ライブラリは、2以上の対象(例えば、2、3、4、5、6、7、8、9、10、20、30以上の対象)に由来する核酸分子を含み得る。例えば、異なる対象由来の2つ以上のライブラリは、2以上の対象由来の核酸分子を有するライブラリを形成するために組み合わせられ得る(各対象に由来する核酸分子は、任意選択的に、特定の対象に対応する固有の試料バーコードにライゲーションされる)。いくつかの例では、対象は、がん又は腫瘍を有するか、又は有するリスクがあるヒトである。
【0146】
いくつかの例では、ライブラリ(又はその一部分)は、1つ以上のサブゲノム区間を含み得る。いくつかの例では、サブゲノム区間は、単一ヌクレオチド位置、例えば、その位置の変異体が腫瘍表現型と関連付けられている(陽性又は陰性に)ヌクレオチド位置であり得る。いくつかの例では、サブゲノム区間は、2つ以上のヌクレオチド位置を含む。そのような例は、長さが少なくとも2、5、10、50、100、150、250、又は250超のヌクレオチド位置の配列を含む。サブゲノム区間は、例えば、1つ以上の全遺伝子(又はその一部分)、1つ以上のエクソン若しくはコーディング配列(又はその一部分)、1つ以上のイントロン(又はその一部分)、1つ以上のマイクロサテライト領域(又はその一部分)、又はそれらの任意の組み合わせを含み得る。サブゲノム区間は、天然に存在する核酸分子、例えば、ゲノムDNA分子の断片の全部又は一部を含み得る。例えば、サブゲノム区間は、配列決定反応に供されるゲノムDNAの断片に対応し得る。いくつかの例では、サブゲノム区間は、ゲノム供給源からの連続配列である。いくつかの例では、サブゲノム区間は、ゲノム中で連続していない配列を含み、例えば、cDNA中のサブゲノム区間は、スプライシングの結果として形成されたエクソン-エクソン接合部を含み得る。いくつかの例では、サブゲノム区間は、腫瘍核酸分子を含む。いくつかの例では、サブゲノム区間は、非腫瘍核酸分子を含む。
【0147】
分析のための遺伝子座の標的化
本明細書に説明される方法は、本明細書に説明されるように、例えば、ゲノム遺伝子座セット(例えば、遺伝子座又はその断片)から、対象区間セット(例えば、標的配列)を評価するための方法と組み合わせて、又はその一部として使用され得る。
【0148】
いくつかの例では、開示される方法によって評価されるゲノム遺伝子座セットは、変異形態で、細胞分裂、増殖若しくは生存に対する効果と関連付けられるか、又はがん、例えば、本明細書に説明されるがんと関連付けられる、複数の、例えば、遺伝子を含む。
【0149】
いくつかの例では、開示される方法によって評価される遺伝子座セットは、少なくとも1、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも6、少なくとも7、少なくとも8、少なくとも9、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、又は100超の遺伝子座を含む。
【0150】
いくつかの例では、選択された遺伝子座(本明細書では標的遺伝子座又は標的配列とも呼ばれる)又はその断片は、対象ゲノムの非コーディング配列、コーディング配列、遺伝子内領域、又は遺伝子間領域を含む、対象区間を含み得る。例えば、対象区間は、非コーディング配列又はその断片(例えば、プロモーター配列、エンハンサー配列、5’非翻訳領域(5’UTR)、3’非翻訳領域(3’UTR)、又はそれらの断片)、その断片のコーディング配列、エクソン配列又はその断片、イントロン配列又はその断片を含み得る。
【0151】
標的捕捉試薬
本明細書に説明される方法は、分析のための複数の特定の標的配列(例えば、遺伝子配列又はその断片)を選択及び捕捉するために、核酸ライブラリを複数の標的捕捉試薬と接触させることを含み得る。いくつかの例では、標的捕捉試薬(すなわち、標的分子に結合し、それによって、標的分子の捕捉を可能にする分子)が、分析される対象区間を選択するために使用される。例えば、標的捕捉試薬は、標的分子にハイブリダイズし(すなわち、それに相補的である)、それによって、標的核酸の捕捉を可能にし得るベイト分子、例えば、核酸分子(例えば、DNA分子又はRNA分子)であり得る。いくつかの例では、標的捕捉試薬、例えば、ベイト分子(又はベイト配列)は、捕捉オリゴヌクレオチド(又は捕捉プローブ)である。いくつかの例では、標的核酸は、ゲノムDNA分子、RNA分子、RNA分子由来のcDNA分子、マイクロサテライトDNA配列などである。いくつかの例では、標的捕捉試薬は、標的に対する溶液相ハイブリダイゼーションに好適である。いくつかの例では、標的捕捉試薬は、標的に対する固相ハイブリダイゼーションに好適である。いくつかの例では、標的捕捉試薬は、標的に対する溶液相ハイブリダイゼーション及び固相ハイブリダイゼーションの両方に好適である。標的捕捉試薬の設計及び構築は、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0152】
本明細書に説明される方法は、配列決定されることになる標的核酸分子を選択するための標的捕捉試薬の適切な選択によって、1以上の対象からの試料(例えば、がん組織検体、液体生検試料など)からの多数のゲノム遺伝子座(例えば、遺伝子又は遺伝子産物(例えば、mRNA)、マイクロサテライト遺伝子座など)の最適化された配列決定を提供する。いくつかの例では、標的捕捉試薬は、特定の標的遺伝子座、例えば、特定の標的遺伝子座又はその断片にハイブリダイズし得る。いくつかの例では、標的捕捉試薬は、特定の標的遺伝子座群、例えば、特定の遺伝子座群又はその断片にハイブリダイズし得る。いくつかの例では、標的特異的及び/又は群特異的標的捕捉試薬の混合を含む複数の標的捕捉試薬が使用され得る。
【0153】
いくつかの例では、核酸配列決定のための複数の標的配列を捕捉するために核酸ライブラリと接触した複数の標的捕捉試薬(例えば、ベイトセット)中の標的捕捉試薬(例えば、ベイト分子)の数は、10超、50超、100超、200超、300超、400超、500超、600超、700超、800超、900超、1,000超、1,250超、1,500超、1,750超、2,000超、3,000超、4,000超、5,000超、10,000超、25,000超、又は50,000超である。
【0154】
いくつかの例では、標的捕捉試薬配列の全長は、約70ヌクレオチド~1000ヌクレオチドであり得る。一例では、標的捕捉試薬の長さは、約100~300ヌクレオチド、110~200ヌクレオチド、又は120~170ヌクレオチド長である。上記のものに加えて、約70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800及び900ヌクレオチド長の中間オリゴヌクレオチド長を本明細書に説明される方法で使用することができる。いくつかの実施形態では、約70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220又は230塩基のオリゴヌクレオチドを使用することができる。
【0155】
いくつかの例では、各標的捕捉試薬配列は、(i)標的特異的捕捉配列(例えば、遺伝子座又はマイクロサテライト遺伝子座特異的相補配列)、(ii)アダプター、プライマー、バーコード、及び/又は固有の分子識別子配列、並びに(iii)一端若しくは両端のユニバーサルテールを含み得る。本明細書に使用される際、「標的捕捉試薬」という用語は、標的特異的標的捕捉配列又は標的特異的標的捕捉配列を含む標的捕捉試薬オリゴヌクレオチド全体を指し得る。
【0156】
いくつかの例では、標的捕捉試薬中の標的特異的捕捉配列は、約40ヌクレオチド~1000ヌクレオチド長である。いくつかの例では、標的特異的捕捉配列は、約70ヌクレオチド~300ヌクレオチド長である。いくつかの例では、標的特異的配列は、約100ヌクレオチド~200ヌクレオチド長である。更に他の例では、標的特異的配列は、約120ヌクレオチド~170ヌクレオチド長、典型的には120ヌクレオチド長である。上記のものに加えて、中間の長さ、例えば、約40、50、60、70、80、90、100、110、120、130、140、150、160、170、180、190、200、210、220、230、240、250、300、400、500、600、700、800及び900ヌクレオチド長の標的特異的配列、並びに上記の長さの間の長さの標的特異的配列もまた、本明細書中に記載される方法において使用され得る。
【0157】
いくつかの例では、標的捕捉試薬は、1つ以上の再編成を含む対象区間、例えば、ゲノム再編成を含むイントロンを選択するように設計され得る。そのような例では、標的捕捉試薬は、選択効率を高めるために反復配列がマスクされるように設計される。再編成が既知の連結配列を有するこれらの例では、相補的標的捕捉試薬を連結配列に設計して選択効率を高めることができる。
【0158】
いくつかの例では、開示される方法は、2つ以上の異なる標的カテゴリを捕捉するように設計された標的捕捉試薬の使用を含み得、各カテゴリは、異なる標的捕捉試薬設計戦略を有する。いくつかの例では、本明細書に開示される、ハイブリダイゼーションベースの捕捉方法及び標的捕捉試薬組成物は、標的配列セットの捕捉及び均質なカバレッジを提供するが、一方で、標的化された配列セットの外側のゲノム配列のカバレッジを最小化する。いくつかの例では、標的配列は、ゲノムDNAのエクソーム全体又はその選択されたサブセットを含み得る。別の例では、標的配列は、大きな染色体領域(例えば、染色体腕全体)を含み得る。本明細書に開示される方法及び組成物は、複合標的核酸配列セットについて異なる配列決定深度及びカバレッジのパターンを達成するための異なる標的捕捉試薬を提供する。
【0159】
典型的には、DNA分子が標的捕捉試薬配列として使用されるが、RNA分子も使用することができる。いくつかの例では、DNA分子標的捕捉試薬は、一本鎖DNA(ssDNA)又は二本鎖DNA(dsDNA)であり得る。いくつかの例では、RNA-DNA二重鎖は、DNA-DNA二重鎖よりも安定であり、したがって、潜在的により良好な核酸の捕捉を提供する。
【0160】
いくつかの例では、開示される方法は、1つ以上の核酸ライブラリから捕捉された、選択された核酸分子セット(例えば、ライブラリキャッチ)を提供することを含む。例えば、方法は、1つ又は複数の核酸ライブラリを提供することであって、各々が、1以上の対象からの1つ以上の試料から抽出された複数の核酸分子(例えば、複数の標的核酸分子及び/又は参照核酸分子)を含む、提供することと、1つ又は複数のライブラリ(例えば、溶液ベースのハイブリダイゼーション反応における)を、1、2、3、4、5、5つ超の複数の標的捕捉試薬(例えば、オリゴヌクレオチド標的捕捉試薬)と接触させて、複数の標的捕捉試薬/核酸分子ハイブリッドを含むハイブリダイゼーション混合物を形成することと、例えば、ハイブリダイゼーション混合物を、ハイブリダイゼーション混合物からの複数の標的捕捉試薬/核酸分子ハイブリッドの分離を可能にする結合実体と接触させることによって、複数の標的捕捉試薬/核酸分子ハイブリッドをハイブリダイゼーション混合物から分離し、それによって、ライブラリキャッチ(例えば、1つ又は複数のライブラリからの選択又は濃縮された核酸分子の部分群)を提供することと、を含み得る。
【0161】
いくつかの例では、開示される方法は、ライブラリキャッチを増幅することを更に含み得る(例えば、PCRを実施することによって)。他の例では、ライブラリキャッチは、増幅されない。
【0162】
いくつかの例では、標的捕捉試薬は、必要に応じて説明書、標準、緩衝液若しくは酵素又は他の試薬を含み得るキットの一部であり得る。
【0163】
ハイブリダイゼーション条件
上記のように、本明細書に開示される方法は、ライブラリ(例えば、核酸ライブラリ)を、複数の標的捕捉試薬と接触させて、選択されたライブラリ標的核酸配列(すなわち、ライブラリキャッチ)と接触させるステップを含み得る。接触ステップは、例えば、溶液ベースのハイブリダイゼーションで行われ得る。いくつかの例では、方法は、1回以上の追加の溶液ベースのハイブリダイゼーションに関してハイブリダイゼーションステップを繰り返すことを含む。いくつかの例では、方法は、ライブラリキャッチを、同じか又は異なる標的捕捉試薬の集合との1回以上の追加の溶液ベースのハイブリダイゼーションに供することを更に含む。
【0164】
いくつかの例では、接触ステップは、固体支持体、例えば、アレイを使用して行われる。ハイブリダイゼーションのための好適な固体支持体は、例えば、Albert,T.J.et al.(2007)Nat.Methods 4(11):903-5、Hodges,E.et al.(2007)Nat.Genet.39(12):1522-7、及びOkou,D.T.et al.(2007)Nat.Methods 4(11):907-9に説明されており、それらの内容は、その全体が参照により本明細書に組み込まれる。
【0165】
本明細書の方法での使用に適合させることができるハイブリダイゼーション方法は、例えば、国際特許出願公開第2012/092426号に記載されているように、当技術分野で記載されている。複数の標的核酸に標的捕捉試薬をハイブリダイズするための方法は、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0166】
配列決定方法
本明細書に開示される方法及びシステムは、核酸を配列決定するための方法又はシステム(例えば、次世代配列決定システム)と組み合わせて、又はその一部として使用されて、試料中のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを生成し、それによって、例えば、複数の遺伝子座における遺伝子対立配列を決定し得る。本明細書で使用される「次世代配列決定」(又は「NGS」)はまた、「超並列配列決定」とも呼ばれ得、個々の核酸分子(例えば、単一分子配列決定では)又は個々の核酸分子のクローン的に拡大されたプロキシのヌクレオチド配列をハイスループット様式(例えば、10、10、10、又は10超の分子が同時に配列決定される)で決定する任意の配列決定方法を指す。
【0167】
次世代配列決定法は、当技術分野で公知であり、例えば、参照により本明細書に組み込まれる、Metzker、M.(2010)Nature Biotechnology Reviews11:31-46に説明されている。本明細書に開示される方法及びシステムを実装するときに使用するために好適な配列決定方法の他の例は、例えば、国際特許出願公開第2012/092426号に説明されている。いくつかの例では、配列決定は、例えば、全ゲノム配列決定(WGS)、全エクソーム配列決定、標的配列決定、又は直接配列決定を含み得る。いくつかの例では、配列決定は、例えば、サンガー配列決定を使用して実施され得る。いくつかの例では、配列決定は、断片の両端が配列決定されることを可能にし、かつ、例えば、ゲノム再編成、反復配列要素、遺伝子融合、及び新規の転写物の検出のための高品質のアラインメント可能な配列データを生成する、ペアエンド配列決定技術を含み得る。
【0168】
開示される方法及びシステムは、Roche 454、Illumina Solexa、ABI-SOLiD、ION Torrent、Complete Genomics、Pacific Bioscience、Helicos、及び/又はPolonatorプラットフォームなどの、配列決定プラットフォームを使用して実装され得る。いくつかの例では、配列決定は、Illumina MiSeq配列決定を含み得る。いくつかの例では、配列決定は、Illumina HiSeq配列決定を含み得る。いくつかの例では、配列決定は、Illumina NovaSeq配列決定を含み得る。試料から抽出された核酸中の多数の標的ゲノム遺伝子座を配列決定するための最適化された方法は、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0169】
ある特定の例では、開示される方法は、(a)複数の正常及び/若しくは腫瘍核酸分子を含むライブラリを試料から取得するステップ、(b)標的核酸分子への標的捕捉試薬のハイブリダイゼーションを可能にする条件下でライブラリを1、2、3、4、5、又は5つ超の複数の標的捕捉試薬と同時に若しくは順次接触させ、それによって、選択された捕捉された正常及び/若しくは腫瘍核酸分子セット(すなわち、ライブラリキャッチ)を提供するステップ、(c)例えば、ハイブリダイゼーション混合物を、ハイブリダイゼーション混合物からの標的捕捉試薬/核酸分子ハイブリッドの分離を可能にする結合実体と接触させることによって、核酸分子の選択されたサブセット(例えば、ライブラリキャッチ)をハイブリダイゼーション混合物から分離するステップ、(d)ライブラリキャッチを配列決定して、1つ以上の対象区間(例えば、1つ以上の標的配列)と重複する複数のリード(例えば、配列リード)を、変異(又は変化)を含み得るライブラリキャッチ、例えば、体細胞変異又は生殖細胞系列変異を含む変異体配列から取得するステップ、(e)本明細書の他の箇所で説明されるアラインメント方法を使用して配列リードをアラインメントするステップ、並びに/又は(f)複数のうちの1つ以上の配列リードから対象区間内のヌクレオチド位置にヌクレオチド値を割り当てる(例えば、ベイズ法又は本明細書に説明される他の方法を使用して、例えば、変異を呼び出す)ステップのうちの1つ以上を含む。
【0170】
いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、少なくとも1、少なくとも5、少なくとも10、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも100、少なくとも150、少なくとも200、少なくとも250、少なくとも300、少なくとも350、少なくとも400、少なくとも450、少なくとも500、少なくとも550、少なくとも600、少なくとも650、少なくとも700、少なくとも750、少なくとも800、少なくとも850、少なくとも900、少なくとも950、少なくとも1,000、少なくとも1,250、少なくとも1,500、少なくとも1,750、少なくとも2,000、少なくとも2,250、少なくとも2,500、少なくとも2,750、少なくとも3,000、少なくとも3,500、少なくとも4,000、少なくとも4,500、又は少なくとも5,000の遺伝子座、例えば、ゲノム遺伝子座、遺伝子座、マイクロサテライト遺伝子座などを配列決定することを含み得る。いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、この段落に説明された範囲内の任意の数の遺伝子座、例えば、少なくとも2,850の遺伝子座に対する対象区間を配列決定することを含み得る。
【0171】
いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、少なくとも20塩基、少なくとも30塩基、少なくとも40塩基、少なくとも50塩基、少なくとも60塩基、少なくとも70塩基、少なくとも80塩基、少なくとも90塩基、少なくとも100塩基、少なくとも120塩基、少なくとも140塩基、少なくとも160塩基、少なくとも180塩基、少なくとも200塩基、少なくとも220塩基、少なくとも240塩基、少なくとも260塩基、少なくとも280塩基、少なくとも300塩基、少なくとも320塩基、少なくとも340塩基、少なくとも360塩基、少なくとも380塩基、又は少なくとも400塩基の配列リード長(又は平均配列リード長)を提供する配列決定方法を用いて対象区間を配列決定することを含む。いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、この段落に説明された範囲内の任意の数の塩基の配列リード長(又は平均配列リード長)、例えば、56塩基の配列リード長(又は平均配列リード長)を提供する配列決定方法を用いて対象区間を配列決定することを含み得る。
【0172】
いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、平均で少なくとも100×以上のカバレッジ(又は深度)で配列決定することを含み得る。いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、平均で少なくとも100×、少なくとも150×、少なくとも200×、少なくとも250×、少なくとも500×、少なくとも750×、少なくとも1,000×、少なくとも1,500 ×、少なくとも2,000×、少なくとも2,500×、少なくとも3,000×、少なくとも3,500×、少なくとも4,000×、少なくとも4,500×、少なくとも5,000×、少なくとも5,500×、又は少なくとも6,000×以上のカバレッジ(又は深度)で配列決定することを含み得る。いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、この段落で説明された値の範囲内の任意の値を有する平均カバレッジ(又は深度)、例えば、少なくとも160×で配列決定することを含み得る。
【0173】
いくつかの例では、1つ以上の対象区間に対する配列リードを取得することは、約90%、92%、94%、95%、96%、97%、98%、又は99%超の配列決定された遺伝子座に対して、少なくとも100×~少なくとも6,000×の範囲の任意の値を有する平均配列決定深度で配列決定することを含む。例えば、いくつかの例では、対象区間に対するリードを取得することは、少なくとも99%の配列決定された遺伝子座に対して少なくとも125×の平均配列決定深度で配列決定することを含む。別の例として、いくつかの例では、対象区間に対するリードを取得することは、少なくとも95%の配列決定された遺伝子座に対して少なくとも4,100×の平均配列決定深度で配列決定することを含む。
【0174】
いくつかの例では、ライブラリ中の核酸種の相対存在量は、配列決定実験によって生成されたデータ中のそれらの同族配列の出現の相対数(例えば、所与の同族配列に対する配列リードの数)をカウントすることによって推定され得る。
【0175】
いくつかの例では、開示される方法及びシステムは、本明細書に説明されるように、対象区間セット(例えば、遺伝子座)に対するヌクレオチド配列を提供する。ある特定の事例では、配列は、マッチする正常対照(例えば、野生型コントロール)、及び/又はマッチする腫瘍対照(例えば、原発性対転移性)を含む方法を使用せずに提供される。
【0176】
いくつかの例では、本明細書で使用される場合、配列決定深度のレベル(例えば、配列決定深度のX倍レベル)は、重複リード(例えば、PCR重複リード)の検出及び除去の後に得られるリードの数(例えば、固有リード)を指す。他の例では、例えば、コピー数変化(CNA)の検出を支援するために、重複リードが評価される。
【0177】
アラインメント
アラインメントは、リードをある場所、例えば、ゲノム場所又は遺伝子座とマッチングさせるプロセスである。いくつかの例では、NGSリードは、既知の参照配列(例えば、野生型配列)にアラインメントされ得る。いくつかの例では、NGSリードは、デノボアセンブリされ得る。NGSリードに対する配列アラインメントの方法は、例えば、Trapnell,C.and Salzberg,S.L.Nature Biotech.,2009,27:455-457に説明されている。デノボ配列アセンブリの例は、例えばWarren R.et al.,Bioinformatics,2007,23:500-501、Butler J.et al.,Genome Res.,2008,18:810-820、及びZerbino D.R.and Birney E.,Genome Res.,2008,18:821-829に説明されている。配列アラインメントの最適化は、例えば、国際特許出願公開第2012/092426号に記載されているように、当技術分野で説明されている。配列アラインメント方法の追加の説明が、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0178】
ミスアラインメント(例えば、ゲノム内の不正確な場所における短いリードからの塩基対の配置)、例えば、代替対立遺伝子のリードが代替対立遺伝子リードのヒストグラムピークからシフトされ得るため、実際のがん変異の周りの配列コンテキスト(例えば、反復配列の存在)に起因するリードのミスアラインメントは、変異検出の感度の低下につながり得、変異検出の感度の低下につながり得る。ミスアラインメントを引き起こし得る配列コンテキストの他の例は、ショートタンデムリピート、散在反復配列、低複雑性領域、挿入-欠失(インデル)、及びパラログを含む。実際の変異が存在しない場合に問題のある配列状況が生じる場合、ミスアラインメントは、実際の参照ゲノム塩基配列のリードを誤った場所に配置することによって、「変異」対立遺伝子のアーチファクトのリードを導入し得る。多重遺伝子分析のための変異呼び出しアルゴリズムは、低存在量の変異に対してさえも感受性でなければならないため、配列ミスアラインメントは、偽陽性発見率を増加させ、及び/又は特異性を低下させ得る。
【0179】
いくつかの例では、本明細書に開示される方法及びシステムは、複数の個別に調整されたアラインメント方法又はアルゴリズムの使用を統合して、配列決定方法、特に、多数の多様なゲノム遺伝子座における多数の多様な遺伝的事象の超並列配列決定に依存する方法で、ベース呼び出し性能を最適化し得る。いくつかの例では、開示される方法及びシステムは、1つ以上のグローバルアラインメントアルゴリズムの使用を含み得る。いくつかの例では、開示される方法及びシステムは、1つ以上のローカルアラインメントアルゴリズムの使用を含み得る。使用され得るアラインメントアルゴリズムの例としては、限定されるものではないが、Burrows-Wheeler Alignment(BWA)ソフトウェアバンドル(例えば、Li,et al.(2009),“Fast and Accurate Short Read Alignment with Burrows-Wheeler Transform”,Bioinformatics 25:1754-60、Li,et al.(2010),Fast and Accurate Long-Read Alignment with Burrows-Wheeler Transform”,Bioinformatics epub.PMID: 20080505参照)、Smith-Watermanアルゴリズム(例えば、Smith,et al.(1981),“Identification of Common Molecular Subsequences”,J.Molecular Biology 147(1):195-197参照)、Striped Smith-Watermanアルゴリズム(例えば、Farrar (2007),“Striped Smith-Waterman Speeds Database Searches Six Times Over Other SIMD Implementations”,Bioinformatics 23(2):156-161参照)、Needleman-Wunschアルゴリズム(Needleman,et al.(1970)“A General Method Applicable to the Search for Similarities in the Amino Acid Sequence of Two Proteins”,J. Molecular Biology 48(3):443-53)、又はそれらの任意の組み合わせが挙げられる。
【0180】
いくつかの例では、本明細書に開示される方法及びシステムはまた、配列アセンブリアルゴリズム、例えば、Arachne配列決定アセンブリアルゴリズム(例えば、Batzoglou,et al.(2002),“ARACHNE: A Whole-Genome Shotgun Assembler”,Genome Res.12:177-189参照)の使用も含み得る。
【0181】
いくつかの例では、配列リードを分析するために使用されるアラインメント方法は、異なるゲノム遺伝子座における異なる変異体(例えば、点変異、挿入、欠失など)の検出のために個別的にカスタマイズ又は調整されない。いくつかの例では、異なるゲノム遺伝子座で検出される異なる変異体の少なくともサブセットの検出のために個別的にカスタマイズ又は調整される異なるアラインメント方法がリードを分析するために使用される。いくつかの例では、異なるゲノム遺伝子座で各異なる変異体を検出するために個別的にカスタマイズ又は調整される異なるアラインメント方法がリードを分析するために使用される。いくつかの例では、調整は、(i)配列決定される遺伝子座(例えば、遺伝子座、マイクロサテライト遺伝子座、又は他の対象区間)、(ii)試料と関連付けられた腫瘍タイプ、(iii)配列決定される変異体、又は(iv)試料若しくは対象の特徴のうちの1つ以上の関数であり得る。配列決定されるいくつかの特定の対象区間に個別に調整されるアラインメント条件の選択又は使用は、速度、感度及び特異性の最適化を可能にする。この方法は、比較的多数の多様な対象区間に対するリードのアラインメントが最適化される場合に特に有効である。いくつかの例では、方法は、再配置のために最適化されたアラインメント方法と、再配置と関連付けられていない対象区間のために最適化された他のアラインメント方法の併用を含む。
【0182】
いくつかの例では、本明細書に開示される方法は、配列リードを分析、例えば、アラインメントするためのアラインメント方法を選択又は使用することを更に含み、アラインメント方法は、(i)腫瘍タイプ、例えば、試料中の腫瘍タイプ、(ii)配列決定される対象区間の場所(例えば、遺伝子座)、(iii)配列決定される対象区間内の変異体のタイプ(例えば、点変異、挿入、欠失、置換、コピー数変異(CNV)、再編成、又は融合)、(iv)分析される部位(例えば、ヌクレオチド位置)、(v)試料のタイプ(例えば、本明細書に説明される試料)、及び/又は(vi)評価される対象区間内若しくはその近くの隣接配列(例えば、対象区間内又はその近くの反復配列の存在に起因する対象区間のミスアラインメントに対する、その予想される傾向に従って)のうちの1つ以上の関数であるか、それらに応じて選択されるか、それらに対して最適化される。
【0183】
いくつかの例では、本明細書に開示される方法は、面倒なリード、例えば、再編成を有するリードの迅速かつ効率的なアラインメントを可能にする。したがって、対象区間に対するリードが再編成、例えば、転座を伴うヌクレオチド位置を含むいくつかの例では、方法は、適切に調整され、以下を含むアラインメント方法を使用することを含み得る。(i)リードとのアラインメントのための再配列参照配列を選択することであって、当該再配列参照配列が再配列(いくつかの例では、参照配列はゲノム再編成と同一ではない)とアラインメントする、選択すること、及び(ii)リードを当該再編成参照配列と比較、例えば、アラインメントすること。
【0184】
いくつかの例では、代替的な方法が、問題のあるリードをアラインメントするために使用され得る。これらの方法は、比較的多数の多様な対象区間に対するリードのアラインメントが最適化される場合に特に有効である。例として、試料を分析する方法は、(i)第1のパラメータセットを使用するリードの比較(例えば、アラインメント比較)を実施し(例えば、第1のマッピングアルゴリズムを使用するか、又は第1の参照配列との比較によって)、当該リードが第1のアラインメント基準を満たす(例えば、リードが当該第1の参照配列で、例えば、特定の数のミスマッチ未満でアラインメントされ得る)かどうかを決定することと、(ii)当該リードが第1のアラインメント基準を満たさない場合、第2のパラメータセットを使用して第2のアラインメント比較を実施する(例えば、第2のマッピングアルゴリズムを使用するか、又は第2の参照配列との比較によって)ことと、(iii)任意選択的に、当該リードが第2の基準を満たす(例えば、当該リードが当該第2の参照配列で、例えば、特定の数未満のミスマッチ未満でアラインメントされ得る)かどうかを決定することであって、当該第2のパラメータセットが、例えば、当該第1のパラメータセットと比較して、変異体に対するリードとのアラインメント(例えば、再編成、挿入、欠失、又は転座)を結果的にもたらす可能性が高い、当該第2の参照配列の使用を含む、決定することと、を含み得る。
【0185】
いくつかの例では、開示される方法における配列データのアラインメントは、本明細書の他の箇所に説明される変異呼び出し方法と組み合わせられ得る。本明細書で論じられるように、実際の変異を検出するための感度の低下は、分析されている遺伝子又はゲノム遺伝子座(例えば、遺伝子座)の予想される変異部位の周りのアラインメントの質を(手動で又は自動化された様式で)評価することによって対処することができる。いくつかの例では、評価されることになる部位は、ヒトゲノム(例えば、HG19ヒト参照ゲノム)又はがん変異(例えば、COSMIC)のデータベースから得られ得る。問題があると特定された領域は、例えば、Smith-Watermanアラインメントなどのより遅いがより正確なアラインメントアルゴリズムを使用するアラインメント最適化(又は再アラインメント)によって、関連する配列状況においてより良好な性能を与えるように選択されたアルゴリズムを使用して修復することができる。一般的なアラインメントアルゴリズムが問題を改善することができない場合、カスタマイズされたアラインメントアプローチが、例えば、置換を含む可能性が高い遺伝子に対する最大の異なるミスマッチペナルティパラメータの調整、特定の腫瘍タイプに共通である特定の変異タイプ(例えば、黒色腫のC→T)に基づいて、特定のミスマッチペナルティパラメータを調整すること、又はある特定の試料タイプに共通である特定の変異タイプ(例えば、FFPEに共通である置換)に基づいて、特定のミスマッチペナルティパラメータを調整することによって作成され得る。
【0186】
ミスアラインメントに起因する評価された対象区間の特異性の低下(偽陽性率の増加)は、配列決定データ内の全ての変異呼び出しの手動又は自動検査によって評価され得る。ミスアラインメントに起因して偽の変異呼び出しが発生し易いことが判明した領域は、上記に論じられたアラインメント改善に供され得る。アルゴリズム的な改善策が可能でない場合、問題領域からの「変異」を標的遺伝子座のパネルから分類又はスクリーニングすることができる。
【0187】
変異呼び出し
ベース呼び出しは、配列決定デバイスの生の出力、例えば、オリゴヌクレオチド分子中のヌクレオチドの決定された配列を指す。変異呼び出しは、配列決定されている所与のヌクレオチド位置に対してヌクレオチド値、例えば、A、G、T、又はCを選択するプロセスを指す。典型的には、位置に対する配列リード(又はベース呼び出し)は、2つ以上の値を提供することになり、例えば、いくつかのリードがTを示すことになり、いくつかがGを示すことになる。変異呼び出しは、正しいヌクレオチド値、例えば、それらの値のうちの1つを配列に割り当てるプロセスである。「変異」呼び出しと呼ばれるが、任意のヌクレオチド位置、例えば、変異体対立遺伝子、野生型対立遺伝子、変異体若しくは野生型として特徴付けられていない対立遺伝子に対応する位置、又は可変性を特徴としない位置にヌクレオチド値を割り当てるために適用することができる。
【0188】
いくつかの例では、開示される方法は、特に、試料、例えば、がんを有する対象からの試料中の多数の多様なゲノム遺伝子座(例えば、遺伝子座、マイクロサテライト領域など)における多数の多様な遺伝子事象の超並列配列決定に依存する方法において、配列決定データに適用されるときの性能を最適化するために、カスタマイズ又は調整された変異呼び出しアルゴリズム又はパラメータの使用を含み得る。変異呼び出しの最適化は、例えば、国際特許出願公開第2012/092426号に記載されているように、当技術分野で説明されている。
【0189】
変異呼び出しのための方法は、以下のうちの1つ以上を含むことができる:参照配列内の各位置での情報に基づいて独立した呼び出しを行う(例えば、配列リードを調べること;ベースコール及び品質スコアを調べること;潜在的な遺伝子型が与えられたときの観察された塩基及び品質スコアの確率を計算すること;及び遺伝子型(例えば、ベイズ則を使用する)の割り当て);偽陽性を除去すること(例えば、深度閾値を使用して、予想よりもはるかに低い又は高い読み取り深度を有するSNPを拒否する;小さいインデルに起因する偽陽性を除去するための局所再調整);連鎖不平衡(LD)/帰属に基づく分析を実行して、呼び出しを改良すること。
【0190】
特定の遺伝子型及び位置に関連する遺伝子型尤度を計算するために使用される式は、例えば、Li H.and Durbin R.Bioinformatics,2010;26(5):589-95に説明されている。特定のがん型における特定の変異に対する事前の予想は、そのがん型からの試料を評価するときに使用することができる。そのような可能性は、がん変異の公開データベース、例えば、Catalogue of Somatic Mutation in Cancer(COSMIC)、HGMD(Human Gene Mutation Database)、The SNP Consortium、Breast Cancer Mutation Data Base(BIC)及びBreast Cancer Gene Database(BCGD)から得ることができる。
【0191】
LD/インピュテーションベースの分析の例は、例えば、Browning,B.L.and Yu,Z.Am.J.Hum.Genet.2009,85(6):847-61に説明されている。低カバレッジSNP呼び出し方法の例は、例えば、Li,Y.,et al.,Annu.Rev.Genomics Hum.Genet.2009,10:387-406に説明されている。
【0192】
アラインメント後、呼び出し方法(例えば、ベイジアン変異呼び出し方法)を使用して置換の検出が実施され得、これは、対象区間の各々の各塩基、例えば、評価される遺伝子又は他の遺伝子座のエクソンに適用され、代替対立遺伝子の存在が観察される。この方法は、変異の存在下でリードデータを観測する確率を、ベースコールエラーのみの存在下でリードデータを観測する確率と比較する。この比較が変異の存在を十分に強く支持する場合、変異を呼び出すことができる。
【0193】
ベイズ変異検出手法の利点は、変異の存在確率と塩基呼び出しエラーの確率のみとの比較を、その部位における変異の存在の事前予想によって重み付けできることである。代替対立遺伝子のいくつかのリードが所与のがん型について頻繁に変異した部位で観察される場合、変異の証拠の量が通常の閾値を満たさない場合であっても、変異の存在が確実に呼び出され得る。次いで、この柔軟性を使用して、より希少な変異/より低い純度の試料の検出感度を高めるか、又は読み取りカバレッジの減少に対して試験をより堅牢にすることができる。がんにおいてゲノム中のランダムな塩基対が変異している可能性は約1e-6である。例えば、典型的な多遺伝子性がんゲノムパネルの多くの部位で生じる特異的変異の可能性は、桁違いに高くなり得る。これらの尤度は、がん変異の公開データベース(例えば、COSMIC)に由来し得る。
【0194】
インデル呼び出しは、典型的には関連する信頼スコア又は統計的証拠指標を含む、挿入又は欠失によって参照配列とは異なる配列特定データ中の塩基を見つけるプロセスである。インデル呼び出しの方法は、候補インデルを同定する工程、局所再アラインメントによって遺伝子型尤度を計算する工程、並びにLDベースの遺伝子型推論及びコールを行う工程を含み得る。典型的には、ベイズ法を使用して潜在的インデル候補を取得し、次いでこれらの候補をベイズフレームワーク内の参照配列とともに試験する。
【0195】
候補インデルを生成するためのアルゴリズムは、例えば、McKenna,A.,et al.,Genome Res.2010;20(9):1297-303、Ye,K.,et al.,Bioinformatics,2009; 25(21):2865-71、Lunter,G.,and Goodson,M.,Genome Res.2011;21(6):936-9、及びLi,H.,et al.(2009),Bioinformatics 25(16):2078-9に説明されている。
【0196】
インデル呼び出し及び個体レベルの遺伝子型尤度を生成する方法としては、例えば、Dindelアルゴリズム(Albers C.A.et al.,Genome Res.2011;21(6):961-73)が挙げられる。例えば、ベイジアンEMアルゴリズムを使用して、リードを分析し、初期インデル呼び出しを行い、各候補インデルについて遺伝子型尤度を生成し、続いて、例えば、QCALL(Le S.Q.and Durbin R.Genome Res.2011;21(6):952-60)を使用して遺伝子型を補完することができる。インデルを観察する事前の予想などのパラメータは、インデルのサイズ又は位置に基づいて調整することができる(例えば、増加又は減少)。
【0197】
がんDNAの分析のための50%又は100%の対立遺伝子頻度からの限られた偏差に対処する方法が開発されている。(例えば、SNVMix -Bioinformatics.2010 March 15;26(6):730-736参照。)しかしながら、本明細書に開示される方法は、1%~100%の範囲の頻度(又は対立遺伝子画分)(すなわち、0.01~1.0の範囲の対立遺伝子画分)、及び、特に、50%未満のレベルの変異体対立遺伝子の存在の可能性の考慮を可能にする。このアプローチは、例えば、天然(マルチクローナル)腫瘍DNAの低純度FFPE試料における変異の検出に特に重要である。
【0198】
いくつかの例では、配列リードを分析するために使用される変異呼び出し方法は、異なるゲノム遺伝子座における異なる変異体の検出のために個別的にカスタマイズ又は調整されない。いくつかの例では、異なるゲノム遺伝子座で検出される異なる変異体の少なくともサブセットのために個別的にカスタマイズ又は微調整される異なる変異呼び出し方法が使用される。いくつかの例では、各異なるゲノム遺伝子座で検出される各異なる変異体のために個別的にカスタマイズ又は微調整される異なる変異呼び出し方法が使用される。カスタマイズ又は調整は、本明細書に説明される因子、例えば、試料中のがんのタイプ、配列決定される対象区間が位置する遺伝子若しくは遺伝子座、又は配列決定される変異体のうちの1つ以上に基づくことができる。配列決定される対象区間の数に対して個別的にカスタマイズ又は微調整された変異呼び出し方法のこの選択又は使用は、変異呼び出しの速度、感度、及び特異性の最適化を可能にする。
【0199】
いくつかの例では、ヌクレオチド値は、固有の変異呼び出し方法を使用してX個の固有の対象区間の各々のヌクレオチド位置に割り当てられ、Xは、少なくとも2、少なくとも3、少なくとも4、少なくとも5、少なくとも10、少なくとも15、少なくとも20、少なくとも30、少なくとも40、少なくとも50、少なくとも60、少なくとも70、少なくとも80、少なくとも90、少なくとも100、少なくとも200、少なくとも300、少なくとも400、少なくとも500、少なくとも1000、少なくとも1500、少なくとも2000、少なくとも2500、少なくとも3000、少なくとも3500、少なくとも4000、少なくとも4500、少なくとも5000以上である。呼び出し方法は異なり、それによって、例えば、異なるベイズ事前値に依存することによって一意であり得る。
【0200】
いくつかの例では、当該ヌクレオチド値を割り当てることは、タイプの腫瘍における当該ヌクレオチド位置における変異体、例えば、変異を示すリードを観察する以前(例えば、文献)の期待値であるか又はそれを表す値の関数である。
【0201】
いくつかの例では、方法は、少なくとも10、20、40、50、60、70、80、90、100、200、300、400、500、600、700、800、900又は1,000個のヌクレオチド位置についてヌクレオチド値(例えば、変異の呼び出し)を割り当てることを含み、各割り当ては、タイプの腫瘍における当該ヌクレオチド位置における変異体、例えば変異を示すリードを観察する以前(例えば、文献)の期待値であるか又はそれを表す固有の(他の割り当ての値とは対照的な)値の関数である。
【0202】
いくつかの例では、ヌクレオチド値を割り当てることは、変異体が特定の頻度(例えば、1%、5%、10%など)で試料中に存在する場合及び/又は変異体が存在しない場合(例えば、塩基呼び出しエラーのみに起因してリードにおいて観察される)、当該ヌクレオチド位置で前記変異体を示すリードを観察する確率を表す値のセットの関数である。
【0203】
いくつかの例では、本明細書に説明される変異呼び出し方法は、(a)当該X個の対象区間の各々におけるヌクレオチド位置について、(i)タイプXの腫瘍の当該ヌクレオチド位置における変異体、例えば、変異を示すリードを観察する以前(例えば、文献)の期待値であるか又はそれを表す第1の値と、(ii)変異体がある頻度(例えば、1%、5%、10%など)で試料中に存在する場合、及び/又は変異体が存在しない(例えば、ベース呼び出しエラー単独に起因して、リード内で観察される)場合、当該ヌクレオチド位置で当該変異体を示すリードを観察する可能性を表す第2の値のセットと、を取得することと、(b)当該値に応答して、例えば、本明細書に説明されるベイズ法によって、第1の値を使用する第2のセット内の値の間の比較を重み付けすることによって、当該ヌクレオチド位置の各々に、当該リードからのヌクレオチド値(例えば、変異を呼び出す)を割り当て、それによって、当該試料を分析することと、を含み得る。
【0204】
変異体呼び出し方法の追加の説明が、例えば、国際特許出願公開第2020/236941号により詳細に説明され、その内容全体は参照により本明細書に組み込まれる。
【0205】
自動CNA呼び出しのためのシステム
対象からの試料中の1つ以上の遺伝子座におけるCNAの自動検出及び呼び出しのための開示される方法のうちのいずれかを実装するために設計されたシステムもまた、本明細書に開示される。システムは、例えば、1つ以上のプロセッサと、1つ以上のプロセッサに通信可能に結合され、かつ命令を記憶するように構成されたメモリと、を備え得、命令が、1つ以上のプロセッサによって実行されたとき、システムに、1つ以上のプロセッサで、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルデータを受信することと、セグメント化データで識別された対応するセグメントのコピー数及び試料の倍数性に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅を決定することと、1つ以上のプロセッサを使用して、セグメント化データで識別された対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座の欠失を検出することと、1つ以上のプロセッサを使用して、1つ以上の遺伝子座のうちの遺伝子座に対する増幅及び欠失呼び出しの任意の重複を併合することと、1つ以上の遺伝子座に対する決定された増幅及び検出された欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を行わせる。
【0206】
いくつかの例では、開示されるシステムは、シーケンサー、例えば、次世代シーケンサー(超並列シーケンサーとも呼ばれる)を更に含む。次世代(又は超並列)配列決定プラットフォームの例としては、限定されるものではないが、Roche454、Illumina Solexa、ABI-SOLiD、ION Torrent、又はPacific Bioscience配列決定プラットフォームが挙げられる。
【0207】
いくつかの例では、開示されるシステムは、本明細書に説明される様々な試料(例えば、対象に由来する組織試料、生検試料、血液試料、又は液体生検試料)のうちのいずれかにおけるCNAの自動検出及び呼び出しに使用され得る。
【0208】
いくつかの例では、コピー数変化を決定するために配列決定データが処理される複数の遺伝子座は、少なくとも1、2、3、4、5、6、7、8、9、10、20、30、40、50、60、70、80、90、100、又は10超の遺伝子座を含み得る。
【0209】
いくつかの例では、核酸配列データは、400塩基未満、300塩基未満、200塩基未満、150塩基未満、100塩基未満、90塩基未満、80塩基未満、70塩基未満、60塩基未満、50塩基未満、40塩基未満、又は30塩基未満のリード長を有する次世代配列決定技術(超並列配列決定技術とも呼ばれる)を使用して取得される。
【0210】
いくつかの例では、1つ以上の遺伝子座におけるコピー数変化の決定は、本明細書の他の箇所で説明されるように、試料が由来した対象(例えば、患者)内のがんに対する処置を選択、開始、調整、又は終了するために使用される。
【0211】
いくつかの事例では、開示されるシステムは、試料処理及びライブラリ調製ワークステーション、マイクロプレートハンドリングロボット、流体分注システム、温度制御モジュール、環境制御チャンバ、追加のデータ記憶モジュール、データ通信モジュール(例えば、Bluetooth(登録商標)、WiFi、イントラネット、又はインターネット通信ハードウェア及び関連ソフトウェア)、ディスプレイモジュール、1つ以上のローカル及び/若しくはクラウドベースのソフトウェアパッケージ(例えば、機器/システム制御ソフトウェアパッケージ、配列決定データ分析ソフトウェアパッケージ)など、又はそれらの任意の組み合わせを更に含み得る。いくつかの事例では、システムは、本明細書の他の箇所に説明されるコンピュータシステム又はコンピュータネットワークを含むか、又はその一部であり得る。
【0212】
コンピュータシステム及びネットワーク
図6は、一実施形態によるコンピューティングデバイス又はシステムの例を例示する。デバイス600は、ネットワークに接続されたホストコンピュータとすることができる。デバイス600は、クライアントコンピュータ又はサーバとすることができる。図6に示されるように、デバイス600は、パーソナルコンピュータ、ワークステーション、サーバ、又はハンドヘルド計算デバイス(携帯電子デバイス、例えば、電話又はタブレット)などの任意の好適なタイプのマイクロプロセッサベースのデバイスであり得る。デバイスは、例えば、1つ以上のプロセッサ610、入力デバイス620、出力デバイス630、メモリ又は記憶デバイス640、通信デバイス660、及び核酸シーケンサー670を含み得る。メモリ又は記憶デバイス640に常駐するソフトウェア650は、例えば、オペレーティングシステム、及び本明細書に説明される方法を実行するためのソフトウェアを含み得る。入力デバイス620及び出力デバイス630は、一般に、本明細書に記載のものに対応していてもよく、コンピュータと接続可能であってもよく、又はコンピュータと一体化していてもよい。
【0213】
入力デバイス620は、タッチスクリーン、キーボード若しくはキーパッド、マウス、又は音声認識デバイスなどの入力を提供する任意の好適なデバイスであってもよい。出力デバイス630は、タッチスクリーン、触覚デバイス、又はスピーカなど、出力を提供する任意の好適なデバイスであってもよい。
【0214】
ストレージ640は、ストレージ(例えば、RAM(揮発性及び不揮発性)、キャッシュ、ハードドライブ、又はリムーバブルストレージディスクを含む、電気的、磁気的、又は光学的メモリ)を提供する任意の好適なデバイスであり得る。通信デバイス660は、ネットワークインターフェースチップ又はデバイスなどのネットワークを介してシグナルを送受信し得る任意の好適なデバイスを含み得る。コンピュータの構成要素は、例えば、有線メディア(例えば、物理システムバス680、イーサネット接続、若しくは任意の他の有線転送技術)を介して、又は無線(例えば、Bluetooth(登録商標)、Wi-Fi(登録商標)、又は任意の他の無線技術)で、任意の好適な様式で接続することができる。
【0215】
ソフトウェアモジュール650は、ストレージ640に実行可能な命令として記憶され、プロセッサ610によって実行されることができ、例えば、オペレーティングシステム及び/又は本開示の方法の機能を具現化するプロセスを含むことができる(例えば、上記のデバイスに具現化される)。
【0216】
ソフトウェアモジュール650はまた、命令実行システム、装置、若しくはデバイス(例えば、本明細書に記載のもの)によって、又はそれらと接続して使用するための任意の非一時的コンピュータ可読記憶媒体内に記憶及び/又は転送することができ、命令実行システム、装置、若しくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行することができる。本開示の文脈において、コンピュータ可読記憶媒体は、ストレージ640などの任意の媒体であり得、命令実行システム、装置、若しくはデバイスによって、又はそれらと接続して使用するためのプロセスを含む若しくは記憶することができる。コンピュータ可読記憶媒体の例としては、単一の機能ユニットとして動作するハードドライブ、フラッシュドライブ、及び配信モジュールなどのメモリユニットを挙げることができる。また、本明細書に記載の様々なプロセスは、上記の実施形態及び技法に従って動作するように構成されたモジュールとして具現化され得る。更に、プロセスは別個に示され、かつ/又は説明され得るが、当業者は、上記のプロセスが他のプロセス内のルーチン又はモジュールであり得ることを理解するであろう。
【0217】
ソフトウェアモジュール650はまた、命令実行システム、装置、若しくは上述したものなどのデバイスによって、又はそれらと接続して使用するための任意の伝送媒体内に伝播され得、命令実行システム、装置、若しくはデバイスからの、ソフトウェアに関連付けられた命令をフェッチし、命令を実行し得る。本開示の文脈において、伝送媒体は、任意の媒体とし得、命令実行システム、装置、若しくはデバイスによって、又はそれらと接続して使用するための伝送プログラミングを通信、伝播、又は伝送し得る。伝送可読媒体は、電子、磁気、光学、電磁気、若しくは赤外線の有線又は無線伝播媒体を含み得るが、これらに限定されない。
【0218】
デバイス600は、任意の好適なタイプの相互接続された通信システムであり得る、ネットワーク(例えば、図7に示され、及び/又は以下に説明される、ネットワーク704)に接続され得る。ネットワークは、任意の好適な通信プロトコルを実装し得、任意の好適なセキュリティプロトコルによって保護され得る。ネットワークは、無線ネットワーク接続(T1若しくはT3回線)、ケーブルネットワーク、DSL、又は電話回線などの、ネットワークシグナルの送受信を実装し得る任意の好適な配置のネットワークリンクを含み得る。
【0219】
デバイス600は、任意のオペレーティングシステム、例えば、ネットワーク上で動作するのに好適なオペレーティングシステムを使用して実装され得る。ソフトウェアモジュール650は、C、C++、Java、又はPythonなどの任意の好適なプログラミング言語で書くことができる。様々な実施形態では、本開示の機能を具現化するアプリケーションソフトウェアは、異なる構成で(例えば、クライアント/サーバ配置で、又はウェブベースのアプリケーション若しくはウェブサービスとしてのウェブブラウザを介して)展開され得る。いくつかの実施形態では、オペレーティングシステムは、1つ以上のプロセッサ、例えば、プロセッサ610によって実行される。
【0220】
デバイス600は、任意の適切な核酸配列決定機器とすることができるシーケンサー670を更に含むことができる。
【0221】
図7は、一実施形態によるコンピューティングシステムの例を例示する。システム700では、デバイス600(例えば、上記に説明され、図6に例示される)は、ネットワーク704に接続され、これはまた、デバイス706にも接続されている。いくつかの実施形態では、デバイス706は、シーケンサーである。例示的なシーケンサーは、限定されないが、Roche/454のGenome Sequencer(GS)FLX System、Illumina/SolexaのGenome Analyzer(GA)、IlluminaのHiSeq 2500、HiSeq 3000、HiSeq 4000、及びNovaSeq 6000配列決定システム、Life/APGのSupport Oligonucleotide Ligation Detection(SOLiD)システム、PolonatorのG.007システム、Helicos BioSciencesのHeliScope Gene配列決定システム、又はPacific BiosciencesのPacBio RSシステムを含む。
【0222】
デバイス600及び706は、例えば、ローカルエリアネットワーク(LAN)、仮想プライベートネットワーク(VPN)、又はインターネットなどのネットワーク704を介して適切な通信インターフェースを使用して通信することができる。いくつかの実施形態では、ネットワーク704は、例えば、インターネット、イントラネット、仮想プライベートネットワーク、クラウドネットワーク、有線ネットワーク、又は無線ネットワークとすることができる。デバイス600及び706は、イーサネット、IEEE802.11b無線などの無線又は有線通信を介して、部分的又は全体的に通信することができる。追加的に、デバイス600及び706は、例えば、好適な通信インターフェースを使用して、モバイル/セルラーネットワークなどの第2のネットワークを介して通信することができる。デバイス600と706との間の通信は、メールサーバ、モバイルサーバ、メディアサーバ、電話サーバなどの様々なサーバを更に含むか、それらと通信することができる。いくつかの実施形態では、デバイス600及び706は、(ネットワーク704を介した通信の代わりに、又はそれに加えて)、例えば、イーサネット、IEEE802.11b無線などの無線又は有線通信を介して、直接通信することができる。いくつかの実施形態では、デバイス600及び706は、直接接続とすることができるか、又はネットワーク(例えば、ネットワーク704)を介して発生することができる通信708を介して通信する。
【0223】
デバイス600及び706のうちの一方又は全ては、一般に、本明細書に説明される様々な例に従ってネットワーク704を介して情報を提供及び/又は受信するために、ローカル若しくはリモートのデータベース又は他のデータ及びコンテンツのソースからアクセスされる論理(例えば、httpウェブサーバロジック)を含むか、又はデータをフォーマットするようにプログラムされる。
【0224】
例示的な実施態様
本明細書に説明される方法及びシステムの例示的な実施態様は、以下を含む。
1.方法であって、
対象からの試料から取得された複数の核酸分子を提供することと、
1つ以上のアダプターを複数の核酸分子からの1つ以上の核酸分子上にライゲーションすることと、
複数の核酸分子からの1つ以上のライゲーションされた核酸分子を増幅することと、
増幅された核酸分子から増幅された核酸分子を捕捉することと、
シーケンサーによって、捕捉された核酸分子を配列決定して、捕捉された核酸分子を表す複数の配列リードを得ることであって、複数の配列リードのうちの1つ以上が、試料中の1つ以上のサブゲノム区間内で1つ以上の遺伝子座と重複する、得ることと、
1つ以上のプロセッサで、複数の配列リードに対する配列リードデータを受信することと、配列リードデータに基づいて、
1つ以上のプロセッサを使用して、1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、
1つ以上のプロセッサを使用して、セグメント化データに基づいて、複数のセグメントを識別することと、
1つ以上のプロセッサを使用して、少なくともカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルに基づいて、複数のセグメントに対するコピー数を決定することと、
1つ以上のプロセッサを使用して、複数のセグメントの対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、
1つ以上のプロセッサを使用して、1つ以上の遺伝子座に対する検出された増幅及び欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を含む、方法。
2.1つ以上の遺伝子座のうちの遺伝子座について検出された増幅及び欠失の任意の重複を併合することを更に含む、条項1に記載の方法。
3.コピー数モデルが、カバレッジ比データ及び対立遺伝子画分データに基づいて、1つ以上の遺伝子座に対するコピー数を予測する、条項1又は2に記載の方法。
4.カバレッジ比データが、1つ以上の遺伝子座と関連付けられた一塩基多型(SNP)及びイントロンに対するカバレッジ比データを更に含む、条項1~3のいずれか一項に記載の方法。
5.コピー数モデルがまた、試料に対する試料純度及び倍数性も予測する、条項1~4のいずれか一項に記載の方法。
6.コピー数モデルがまた、セグメント化データも出力する、条項1~5のいずれか一項に記載の方法。
7.増幅は、対応するセグメントに対するコピー数が試料の倍数性以上であるときに検出される、条項1~6のいずれか一項に記載の方法。
8.欠失の検出が、対応するセグメント内の1つ以上の遺伝子座のホモ接合体欠失を識別することを含む、条項1~7のいずれか一項に記載の方法。
9.欠失の検出が、対応するセグメント内の1つ以上の遺伝子座のヘテロ接合体欠失を識別することを含む、条項1~8のいずれか一項に記載の方法。
10.欠失の検出が、対応するセグメント内の1つ以上の遺伝子座の部分欠失を識別することを含む、条項1~9のいずれか一項に記載の方法。
11.対象が、疾患を有することが疑われるか、又は疾患を有すると決定される、条項1~10のいずれか一項に記載の方法。
12.疾患が、がんである、条項11に記載の方法。
13.方法が、定期検査に使用される、条項1~12のいずれか一項に記載の方法。
14.方法が、出生前検査に使用される、条項1~13のいずれか一項に記載の方法。
15.対象から試料を収集することを更に含む、条項1~14のいずれか一項に記載の方法。
16.試料が、組織生検試料、液体生検試料、又は正常対照を含む、条項1~15のいずれか一項に記載の方法。
17.試料が、組織生検試料であり、骨髄試料を含む、条項16に記載の方法。
18.試料が、液体生検試料であり、かつ血液、血漿、脳脊髄液、痰、便、尿、又は唾液を含む、条項16に記載の方法。
19.試料が、液体生検試料であり、かつ循環腫瘍細胞(CTC)を含む、条項16に記載の方法。
20.試料が、液体生検試料であり、かつ無細胞DNA(cfDNA)、循環腫瘍DNA(ctDNA)、又はそれらの任意の組み合わせを含む、条項16に記載の方法。
21.複数の核酸分子が、腫瘍核酸分子と非腫瘍核酸分子との混合物を含む、条項1~20のいずれか一項に記載の方法。
22.腫瘍核酸分子が、不均質組織生検試料の腫瘍部分に由来し、かつ非腫瘍核酸分子が、不均質組織生検試料の正常部分に由来する、条項21に記載の方法。
23.試料が、液体生検試料を含み、腫瘍核酸分子が、液体生検試料の循環腫瘍DNA(ctDNA)画分に由来し、非腫瘍核酸分子が、液体生検試料の非腫瘍無細胞DNA(cfDNA)画分に由来する、条項21に記載の方法。
24.1つ以上のアダプターが、増幅プライマー、フローセルアダプター配列、基質アダプター配列、又は試料インデックス配列を含む、条項1~23のいずれか一項に記載の方法。
25.捕捉された核酸分子が、1つ以上のベイト分子へのハイブリダイゼーションによって増幅された核酸分子から捕捉される、条項1~24のいずれか一項に記載の方法。
26.1つ以上のベイト分子が、1つ以上の核酸分子を含み、各核酸分子が、捕捉された核酸分子の領域に相補的な領域を含む、条項25に記載の方法。
27.核酸分子を増幅することが、ポリメラーゼ連鎖反応(PCR)増幅技術、非PCR増幅技術、又は等温増幅技術を実施することを含む、条項1~26のいずれか一項に記載の方法。
28.配列決定が、超並列配列決定(MPS)技術、全ゲノム配列決定(WGS)、全エクソーム配列決定、標的配列決定、直接配列決定、又はサンガー配列決定技術の使用を含む、条項1~27のいずれか一項に記載の方法。
29.配列決定が、超並列配列決定を含み、超並列配列決定技術が、次世代配列決定(NGS)を含む、条項28に記載の方法。
30.次世代配列決定(NGS)が、ペアエンド配列決定を含む、条項29に記載の方法。
31.シーケンサーが、次世代シーケンサーを含む、条項1~30のいずれか一項に記載の方法。
32.1つ以上のプロセッサによって、呼び出されたコピー数変化を示すレポートを生成することを更に含む、条項1~31のいずれか一項に記載の方法。
33.レポートをヘルスケア提供者に送信することを更に含む、条項32に記載の方法。
34.レポートが、コンピュータネットワーク又はピアツーピア接続を介して送信される、条項33に記載の方法。
35.コピー数変化の自動呼び出しのための方法であって、
1つ以上のプロセッサで、対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータを受信することと、配列リードデータに基づいて、
1つ以上のプロセッサを使用して、1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、
1つ以上のプロセッサを使用して、セグメント化データに基づいて、複数のセグメントを識別することと、
1つ以上のプロセッサを使用して、少なくともカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルに基づいて、複数のセグメントに対するコピー数を決定することと、
1つ以上のプロセッサを使用して、複数のセグメントの対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、
1つ以上のプロセッサを使用して、1つ以上の遺伝子座に対する検出された増幅及び欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を含む、方法。
36.1つ以上の遺伝子座のうちの遺伝子座について検出された増幅及び欠失の任意の重複を併合することを更に含む、条項35に記載の方法。
37.1つ以上の遺伝子座に対する呼び出されたコピー数変化を含むレポートを生成することを更に含む、条項35又は36に記載の方法。
38.1つ以上の遺伝子座に対する呼び出されたコピー数変化に基づいて、対象に対するゲノムプロファイルを生成することを更に含む、条項35~37のいずれか一項に記載の方法。
39.カバレッジ比データが、試料中及び対照試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、試料中及び対照試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座の各々と重複する配列リードの数を決定することと、によって決定される、条項35~38のいずれか一項に記載の方法。
40.対照試料が、一対の正常試料、プロセスマッチド対照試料、又はパネルオブノーマル対照試料である、条項39に記載の方法。
41.対立遺伝子画分データが、試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、1つ以上の遺伝子座のうちの遺伝子座に存在する対立遺伝子の数を検出することと、遺伝子座に存在する対立遺伝子のうちの少なくとも1つに対する対立遺伝子画分を決定することと、によって決定される、条項35~40のいずれか一項に記載の方法。
42.セグメント化データが、
試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードを参照ゲノムにアラインメントすることと、
枝刈り厳密線形時間(PELT)法を使用して、アラインメントされた配列リードデータ、カバレッジ比データ、及び対立遺伝子画分データを処理して、アラインメントされた配列リードデータを考慮することを必要とするセグメントの数を決定することであって、各セグメントが、同じコピー数を有する、決定することと、によって生成される、条項35~41のいずれか一項に記載の方法。
43.コピー数モデルが、カバレッジ比データ及び対立遺伝子画分データに基づいて、1つ以上の遺伝子座に対するコピー数を予測する、条項35~42のいずれか一項に記載の方法。
44.カバレッジ比データが、1つ以上の遺伝子座と関連付けられた一塩基多型(SNP)及びイントロンに対するカバレッジ比データを更に含む、43に記載の方法。
45.コピー数モデルがまた、試料に対する試料純度及び倍数性も予測する、項43又は44に記載の方法。
46.コピー数モデルがまた、セグメント化データも出力する、条項43~45のいずれか一項に記載の方法。
47.試料に対する倍数性が、1~8の範囲の値を有する、条項35~46のいずれか一項に記載の方法。
48.増幅は、対応するセグメントに対するコピー数が試料の倍数性以上であるときに検出される、条項35~47のいずれか一項に記載の方法。
49.増幅は、対応するセグメントに対するコピー数が試料の倍数性+第1の所定の値以上であるときに検出される、条項48に記載の方法。
50.第1の所定の値が、2~500の範囲の値である、条項49に記載の方法。
51.第1の所定の値が、2~10の範囲の値である、条項49又は50に記載の方法。
52.増幅は、対応するセグメントに対するコピー数が試料の倍数性+第2の所定の値以上であり、かつ遺伝子座が第1の定義済み遺伝子座セットのメンバーであるときに検出される、条項48に記載の方法。
53.第2の所定の値が、0~500の範囲の値である、条項52に記載の方法。
54.第2の所定の値が、2~10の範囲の値である、条項52又は53に記載の方法。
55.第1の定義済み遺伝子座セットが、1つ以上の薬物投与可能遺伝子標的座、予後遺伝子座、がん遺伝子座、又はそれらの任意の組み合わせを含む、条項52~54のいずれか一項に記載の方法。
56.第1の定義済み遺伝子座セットが、AR及びERBB2遺伝子座を含む、条項55に記載の方法。
57.欠失の検出が、対応するセグメント内の1つ以上の遺伝子座のホモ接合体欠失を識別することを含む、条項35~56のいずれか一項に記載の方法。
58.ホモ接合体欠失が、遺伝子座における第1の対立遺伝子及び第2の対立遺伝子に対するコピー数の合計に等しい所与の遺伝子座に対する総コピー数を決定することによって検出される、条項57に記載の方法。
59.第1の対立遺伝子が、メジャー対立遺伝子であり、第2の対立遺伝子が、マイナー対立遺伝子である、条項58に記載の方法。
60.ホモ接合体欠失は、所与の遺伝子座に対する総コピー数が第3の所定の値に等しい場合に呼び出される、条項58又は59に記載の方法。
61.第3の所定の値が、約ゼロである、条項60に記載の方法。
62.欠失の検出が、対応するセグメント内の1つ以上の遺伝子座のヘテロ接合体欠失を識別することを含む、条項35~61のいずれか一項に記載の方法。
63.ヘテロ接合体欠失は、所与の遺伝子座における第1の対立遺伝子に対するコピー数が第4の所定の値に等しく、かつ所与の遺伝子座における第2の対立遺伝子に対するコピー数が第4の所定の値に等しくない場合、呼び出される、条項62に記載の方法。
64.第4の所定の値が、約ゼロである、条項63に記載の方法。
65.第1の対立遺伝子が、メジャー対立遺伝子であり、第2の対立遺伝子が、マイナー対立遺伝子である、条項63又は64に記載の方法。
66.欠失の検出が、対応するセグメント内の1つ以上の遺伝子座の部分欠失を識別することを含む、条項35~65のいずれか一項に記載の方法。
67.部分欠失は、所与の遺伝子座に対して、隣接する遺伝子座、一塩基多型(SNP)、及びイントロンに対するlog2比(L2R)が、遺伝子座に対するlog2比とは有意に異なり、かつ所与の遺伝子座に対するlog2比が、隣接していない遺伝子座、一塩基多型(SNP)、及びイントロンに対するL2Rの分布とは有意に異なる場合、呼び出される、条項66に記載の方法。
68.1つ以上の遺伝子座に対するコピー数変化を呼び出す前に品質管理手順を実施することを更に含む、条項35~67のいずれか一項に記載の方法。
69.品質管理手順が、配列リードデータの品質を評価するために実施される、条項68に記載の方法。
70.品質管理手順が、コピー数モデルの成功した収束を評価するために実施される、条項68又は69に記載の方法。
71.品質管理手順が、1つ以上の遺伝子座に対するCNA呼び出しの信頼性を評価するために実施される、項68~70のいずれか一項に記載の方法。
72.呼び出されたCNAが、対象の疾患を診断するか、又はその診断を確認するために使用される、条項35~71のいずれか一項に記載の方法。
73.疾患が、がんである、条項72に記載の方法。
74.がん治療を選択して、呼び出されたCNAに基づいて、対象に投与することを更に含む、条項72又は73に記載の方法。
75.がん治療の有効量を決定して、呼び出されたCNAに基づいて、対象に投与することを更に含む、条項73又は74に記載の方法。
76.呼び出されたCNAに基づいて、がん治療を対象に投与することを更に含む、条項74又は75に記載の方法。
77.がん治療が、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む、条項74~76のいずれか一項に記載の方法。
78.がんが、B細胞がん(多発性骨髄腫)、黒色腫、乳がん、肺がん、気管支がん、結腸直腸がん、前立腺がん、膵臓がん、胃がん、卵巣がん、膀胱がん、脳がん、中枢神経系がん、末梢神経系がん、食道がん、子宮頸がん、子宮頸部がん、子宮内膜がん、口腔のがん、咽頭のがん、肝臓がん、腎臓がん、精巣がん、胆道がん、小腸がん、虫垂がん、唾液腺がん、甲状腺がん、副腎がん、骨肉腫、軟骨肉腫、血液組織のがん、腺がん、炎症性筋線維芽細胞腫、消化管間質腫瘍(GIST)、結腸がん、多発性骨髄腫(MM)、骨髄異形成症候群(MDS)、骨髄増殖性障害(MPD)、急性リンパ性白血病(ALL)、急性骨髄性白血病(AML)、慢性骨髄性白血病(CML)、慢性リンパ性白血病(CLL)、真性赤血球増加症、ホジキンリンパ腫、非ホジキンリンパ腫(NHL)、軟部組織肉腫、線維肉腫、粘液肉腫、脂肪肉腫、骨肉腫、脊索腫、血管肉腫、内皮肉腫、リンパ管肉腫、リンパ血管内皮肉腫、滑膜腫、中皮腫、ユーイング腫瘍、平滑筋肉腫、横紋筋肉腫、扁平上皮がん、基底細胞がん、腺がん、汗腺がん、脂腺がん、乳頭状がん、乳頭腺がん、髄様がん、気管支原性がん、腎細胞がん、肝がん、胆管がん、絨毛がん、精上皮がん、胎児性がん、ウィルムス腫瘍、膀胱がん、上皮がん、神経膠腫、星細胞腫、髄芽腫、頭蓋咽頭腫、上衣腫、松果体細胞腫、血管芽細胞腫、聴神経芽腫、乏突起膠腫、髄膜腫、神経芽細胞腫、網膜芽細胞腫、濾胞性リンパ腫、びまん性大細胞型B細胞リンパ腫、マントル細胞リンパ腫、肝細胞がん、甲状腺がん、胃がん、頭頸部がん、小細胞がん、本態性血小板血症、原発性骨髄線維症、好酸球増加症候群、全身性肥満細胞症、家族性好酸球増加症、慢性好酸球性白血病、神経内分泌がん、又はカルチノイド腫瘍である、条項74~77のいずれか一項に記載の方法。
79.1つ以上の遺伝子座が、10~20遺伝子座、10~40遺伝子座、10~60遺伝子座、10~80遺伝子座、10~100遺伝子座、10~150遺伝子座、10~200遺伝子座、10~250遺伝子座、10~300遺伝子座、10~350遺伝子座、10~400遺伝子座、10~450遺伝子座、10~500遺伝子座、20~40遺伝子座、20~60遺伝子座、20~80遺伝子座、20~100遺伝子座、20~150遺伝子座、20~200遺伝子座、20~250遺伝子座、20~300遺伝子座、20~350遺伝子座、20~400遺伝子座、20~500遺伝子座、40~60遺伝子座、40~80遺伝子座、40~100遺伝子座、40~150遺伝子座、40~200遺伝子座、40~250遺伝子座、40~300遺伝子座、40~350遺伝子座、40~400遺伝子座、40~500遺伝子座、60~80遺伝子座、60~100遺伝子座、60~150遺伝子座、60~200遺伝子座、60~250遺伝子座、60~300遺伝子座、60~350遺伝子座、60~400遺伝子座、60~500遺伝子座、80~100遺伝子座、80~150遺伝子座、80~200遺伝子座、80~250遺伝子座、80~300遺伝子座、80~350遺伝子座、80~400遺伝子座、80~500遺伝子座、100~150遺伝子座、100~200遺伝子座、100~250遺伝子座、100~300遺伝子座、100~350遺伝子座、100~400遺伝子座、100~500遺伝子座、150~200遺伝子座、150~250遺伝子座、150~300遺伝子座、150~350遺伝子座、150~400遺伝子座、150~500遺伝子座、200~250遺伝子座、200~300遺伝子座、200~350遺伝子座、200~400遺伝子座、200~500遺伝子座、250~300遺伝子座、250~350遺伝子座、250~400遺伝子座、250~500遺伝子座、300~350遺伝子座、300~400遺伝子座、300~500遺伝子座、350~400遺伝子座、350~500遺伝子座、又は400~500遺伝子座を含む、条項35~78のいずれか一項に記載の方法。
80.疾患を診断するための方法であって、方法が、
対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)の検出に基づいて、対象が疾患を有することを診断することを含み、検出されたCNAが、項35~75のいずれか一項に記載の方法に従って決定される、方法。
81.がん治療を選択する方法であって、方法が、
対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)を検出することに応答して、対象に対するがん治療を選択することを含み、検出されたCNAが、条項35~79のいずれか一項に記載の方法に従って決定される、方法。
82.対象のがんを処置する方法であって、
対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)を検出することに応答して、有効量のがん治療を対象に投与することを含み、検出されたCNAが、条項35~81のいずれか一項に記載の方法に従って決定される、方法。
83.対象における腫瘍の進行又は再発を監視するための方法であって、方法が、
条項35~81のいずれか一項に記載の方法に従って、第1の時点で対象から得られた第1の試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)を検出することと、
第2の時点で対象から得られた第2の試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するコピー数変化(CNA)を検出することと、第1の試料中で検出されたCNAを第2の試料中で検出されたCNAと比較し、それによって、腫瘍の進行又は再発を監視することと、を含む、方法。
84.第2の試料中のCNAの検出が、条項35~81のいずれか一項に記載の方法に従って決定される、項83に記載の方法。
85.腫瘍の進行に応答して、抗がん治療を調整することを更に含む、条項83又は84に記載の方法。
86.腫瘍進行に応答して抗がん治療の投与量を調整すること、又は異なる抗がん治療を選択することを更に含む、条項83~85のいずれか一項に記載の方法。
87.調整された抗がん治療を対象に投与することを更に含む、条項86に記載の方法。
88.第1の時点は、対象が抗がん治療を投与される前であり、第2の時点は、対象が抗がん治療を投与された後である、条項83~87のいずれか一項に記載の方法。
89.対象が、がんを有するか、がんを有するリスクがあるか、がんについて日常的に検査されているか、又はがんを有する疑いがある、条項83~88のいずれか一項に記載の方法。
90.がんが、固形腫瘍である、条項83~89のいずれか一項に記載の方法。
91.がんが、血液がんである、条項83~89のいずれか一項に記載の方法。
92.抗がん治療が、化学療法、放射線療法、免疫療法、標的療法、又は外科手術を含む、条項85~91のいずれか一項に記載の方法。
93.1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する呼び出されたCNAを決定することと、呼び出されたCNAを試料と関連付けられた診断値として適用することと、を更に含む、条項35~79のいずれか一項に記載の方法。
94.1つ以上の遺伝子座に対する呼び出されたCNAに基づいて、対象に対するゲノムプロファイルを生成することを更に含む、条項35~79のいずれか一項に記載の方法。
95.対象のゲノムプロファイルが、包括的ゲノムプロファイリング(CGP)試験、遺伝子発現プロファイリング試験、がんホットスポットパネル試験、DNAメチル化試験、DNA断片化試験、RNA断片化試験、又はそれらの任意の組み合わせからの結果を更に含む、条項94に記載の方法。
96.対象のゲノムプロファイルが、核酸配列決定に基づく試験からの結果を更に含む、条項94又は95に記載の方法。
97.生成されたゲノムプロファイルに基づいて、対象に対して、抗がん剤を選択すること、抗がん剤を投与すること、又は抗がん処置を適用することを更に含む、条項94~96のいずれか一項に記載の方法。
98.試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するCNAの検出が、対象に対する示唆される処置決定を行う際に使用される、条項35~79のいずれか一項に記載の方法。
99.試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対するCNAの検出が、対象に処置を適用又は投与する際に使用される、条項35~79のいずれか一項に記載の方法。
100.システムであって、
1つ以上のプロセッサと、
1つ以上のプロセッサに通信可能に結合され、かつ命令を記憶するように構成されたメモリと、を備え、命令が、1つ以上のプロセッサによって実行されたとき、システムに、
対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータを受信することと、配列リードデータに基づいて、
1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、
セグメント化データに基づいて、複数のセグメントを識別することと、
少なくともカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルに基づいて、複数のセグメントに対するコピー数を決定することと、
複数のセグメントの対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、
1つ以上の遺伝子座に対する検出された増幅及び欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を行わせる、システム。
101.1つ以上のプログラムを記憶する非一時的コンピュータ可読記憶媒体であって、1つ以上のプログラムが、命令を含み、命令が、システムの1つ以上のプロセッサによって実行されたとき、システムに、
対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座と重複する複数の配列リードに対する配列リードデータを受信することと、配列リードデータに基づいて、
対象からの試料中の1つ以上のサブゲノム区間内の1つ以上の遺伝子座に対する、試料の倍数性、カバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルを決定することと、
セグメント化データに基づいて、複数のセグメントを識別することと、
少なくともカバレッジ比データ、対立遺伝子画分データ、セグメント化データ、及びコピー数モデルに基づいて、複数のセグメントに対するコピー数を決定することと、
複数のセグメントの対応するセグメントのコピー数に基づいて、1つ以上の遺伝子座のうちの遺伝子座に対する増幅又は欠失の存在を検出することと、
1つ以上の遺伝子座に対する検出された増幅及び欠失に基づいて、1つ以上の遺伝子座に対するコピー数変化(CNA)を呼び出すことと、を行わせる、非一時的コンピュータ可読記憶媒体。
【0225】
以上から、開示される方法及びシステムの特定の実施態様が例示及び説明されたが、様々な修正がそれらになされ得、本明細書で企図されることが理解されるべきである。本明細書内に提供される特定の例によって本発明が限定されることも意図していない。本発明は、上述の明細書を参照して説明されたが、本明細書の好ましい実施形態の説明及び例示は、限定の意味で解釈されることを意味していない。更に、本発明の全ての態様は、様々な条件及び変数に依存する、本明細書に記載された特定の描写、構成、又は相対的割合に限定されないことを理解されたい。本発明の実施形態の形態及び詳細に置ける様々な修正が当業者にとって明らかであろう。したがって、本発明はまた、任意のそのような修正例、変形例、及び均等物も包含するものと企図される。
図1
図2
図3
図4
図5
図6
図7
【国際調査報告】