(19)【発行国】日本国特許庁(JP)
(12)【公報種別】公表特許公報(A)
(11)【公表番号】
(43)【公表日】2024-08-01
(54)【発明の名称】妊娠中の女性における新生物を検出するための方法
(51)【国際特許分類】
C12Q 1/6869 20180101AFI20240725BHJP
C12Q 1/6851 20180101ALN20240725BHJP
【FI】
C12Q1/6869 Z
C12Q1/6851 Z
【審査請求】未請求
【予備審査請求】未請求
(21)【出願番号】P 2024505616
(86)(22)【出願日】2022-07-29
(85)【翻訳文提出日】2024-03-28
(86)【国際出願番号】 US2022038832
(87)【国際公開番号】W WO2023014597
(87)【国際公開日】2023-02-09
(32)【優先日】2021-08-02
(33)【優先権主張国・地域又は機関】US
(81)【指定国・地域】
(71)【出願人】
【識別番号】513156537
【氏名又は名称】ナテラ, インコーポレイテッド
(74)【代理人】
【識別番号】100099759
【氏名又は名称】青木 篤
(74)【代理人】
【識別番号】100123582
【氏名又は名称】三橋 真二
(74)【代理人】
【識別番号】100117019
【氏名又は名称】渡辺 陽一
(74)【代理人】
【識別番号】100141977
【氏名又は名称】中島 勝
(74)【代理人】
【識別番号】100138210
【氏名又は名称】池田 達則
(72)【発明者】
【氏名】ゴールドリング,ジョージーナ
(72)【発明者】
【氏名】ディノンノ,ウェンディ
(72)【発明者】
【氏名】シュー,ウェンボ
(72)【発明者】
【氏名】レオナルド,サマンサ
(72)【発明者】
【氏名】メルツァー,ジェフリー
【テーマコード(参考)】
4B063
【Fターム(参考)】
4B063QA01
4B063QA13
4B063QA19
4B063QQ03
4B063QQ42
4B063QR08
4B063QR58
4B063QR62
4B063QS25
4B063QS28
4B063QX02
(57)【要約】
本発明は、妊娠中の女性における新生物を特定するのに有用な妊娠中の女性の生体サンプルに由来する増幅されたDNAの調製物を調製するための方法であって、(a)胎児無細胞DNAと母体無細胞DNAとの混合物を含む妊娠中の女性の生体サンプルから無細胞DNAを単離することと、(b)単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも100の多型遺伝子座を増幅することによって、増幅されたDNAの調製物を調製することと、(c)増幅されたDNAを配列決定して、少なくとも100の多型遺伝子座の配列リードを得、配列リードを使用して目的の胎児及び母体の染色体又は染色体セグメントにおけるコピー数変動(CNV)を特定することによって、増幅されたDNAの調製物を分析し、目的の母体の染色体又は染色体セグメントにおけるCNVの2つ以上の存在により、妊娠中の女性の新生物を特定することと、を含む方法を提供する。
【選択図】なし
【特許請求の範囲】
【請求項1】
妊娠中の女性における新生物を特定するのに有用な妊娠中の女性の生体サンプルに由来する増幅されたDNAの調製物を調製するための方法であって、
(a)胎児無細胞DNAと母体無細胞DNAとの混合物を含む妊娠中の女性の生体サンプルから無細胞DNAを単離することと、
(b)前記単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも100の多型遺伝子座を増幅することによって、増幅されたDNAの調製物を調製することと、
(c)前記増幅されたDNAを配列決定して、前記少なくとも100の多型遺伝子座の配列リードを得、前記配列リードを使用して目的の胎児及び母体の染色体又は染色体セグメントにおけるコピー数変動(CNV)を特定することによって、前記増幅されたDNAの調製物を分析し、前記目的の母体の染色体又は染色体セグメントにおけるCNVの2つ以上の存在により、前記妊娠中の女性の新生物を特定することと、を含む方法。
【請求項2】
前記生体サンプルが、血液、血漿、血清、又は尿サンプルである、請求項1に記載の方法。
【請求項3】
前記生体サンプルが、母体血漿サンプルである、請求項1に記載の方法。
【請求項4】
前記単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも1,000の多型遺伝子座を増幅することと、前記増幅されたDNAを配列決定して、前記少なくとも1,000の多型遺伝子座の配列リードを得ることと、を含む、請求項1に記載の方法。
【請求項5】
前記単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも10,000の多型遺伝子座を増幅することと、前記増幅されたDNAを配列決定して、前記少なくとも10,000の多型遺伝子座の配列リードを得ることと、を含む、請求項1に記載の方法。
【請求項6】
前記単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも20,000の多型遺伝子座を増幅することと、前記増幅されたDNAを配列決定して、前記少なくとも20,000の多型遺伝子座の配列リードを得ることと、を含む、請求項1に記載の方法。
【請求項7】
前記多型遺伝子座の少なくとも50%が、前記染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する、請求項1に記載の方法。
【請求項8】
前記多型遺伝子座の少なくとも70%が、前記染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する、請求項1に記載の方法。
【請求項9】
前記母体の染色体又は染色体セグメント内に3つ以上のCNVが存在するかどうかを決定することを含む、請求項1に記載の方法。
【請求項10】
前記胎児の染色体又は染色体セグメント内に1つ以上のCNVが存在するかどうかを決定することを含む、請求項1に記載の方法。
【請求項11】
前記胎児の染色体又は染色体セグメント内の1つ以上のCNVの存在によって、前記胎児における異数性を特定することを更に含む、請求項10に記載の方法。
【請求項12】
妊娠中の女性における新生物を特定するのに有用な妊娠中の女性の生体サンプルに由来する増幅されたDNAの調製物を調製するための方法であって、
(a)胎児無細胞DNAと母体無細胞DNAとの混合物を含む妊娠中の女性の生体サンプルから無細胞DNAを単離することと、
(b)前記単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも1,000の一塩基多型(SNP)遺伝子座を増幅することによって、増幅されたDNAの調製物を調製することと、
(c)前記増幅されたDNAを配列決定して、前記少なくとも1,000のSNP遺伝子座の配列リードを得、前記配列リードを使用して目的の胎児及び母体の染色体又は染色体セグメントにおけるコピー数変動(CNV)を特定することによって、前記増幅されたDNAの調製物を分析し、前記目的の母体の染色体又は染色体セグメントにおけるCNVの2つ以上の存在、及び前記目的の胎児の染色体又は染色体セグメントにおけるCNVの非存在により、前記妊娠中の女性の新生物を特定することと、を含む方法。
【請求項13】
前記生体サンプルが、血液、血漿、血清、又は尿サンプルである、請求項12に記載の方法。
【請求項14】
前記生体サンプルが、母体血漿サンプルである、請求項12に記載の方法。
【請求項15】
前記単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも5,000のSNP遺伝子座を増幅することと、前記増幅されたDNAを配列決定して、前記少なくとも5,000のSNP遺伝子座の配列リードを得ることと、を含む、請求項12に記載の方法。
【請求項16】
前記単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも10,000のSNP遺伝子座を増幅することと、前記増幅されたDNAを配列決定して、前記少なくとも10,000のSNP遺伝子座の配列リードを得ることと、を含む、請求項12に記載の方法。
【請求項17】
前記単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも20,000のSNP遺伝子座を増幅することと、前記増幅されたDNAを配列決定して、前記少なくとも20,000のSNP遺伝子座の配列リードを得ることと、を含む、請求項12に記載の方法。
【請求項18】
前記SNP遺伝子座の少なくとも60%が、前記染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する、請求項12に記載の方法。
【請求項19】
前記SNP遺伝子座の少なくとも70%が、前記染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する、請求項12に記載の方法。
【請求項20】
前記母体の染色体又は染色体セグメント内に3つ以上のCNVが存在するかどうかを決定することを含む、請求項12に記載の方法。
【発明の詳細な説明】
【技術分野】
【0001】
関連出願の相互参照
本出願は、2021年8月2日に出願された米国仮特許出願第63/228,565号の優先権及び利益を主張し、その全体が参照により本明細書に組み込まれる。
【0002】
本発明は、目的の1つ以上の染色体又は染色体セグメントにおけるコピー数変動に基づいて、妊娠中の女性における新生物を検出するための方法及びシステムに関する。
【背景技術】
【0003】
コピー数変動(CNV)は、典型的には1kb~20mbの長さの範囲の配列の重複及び欠失の両方を伴う、ゲノムにおける構造的変動の主な原因として特定されている。染色体セグメント又は染色体全体の欠失及び重複は、疾患に対する感受性又は耐性などの様々な状態に関連している。
【0004】
CNVは、しばしば、影響を受けた配列の長さに基づいて、2つの主要なカテゴリーのうちの1つに割り当てられる。第1のカテゴリーには、コピー数多型(CNP)が含まれ、これは一般集団において一般的であり、1%を超える全体的な頻度で生じる。CNPは、典型的には小さく(ほとんどは長さが10kb未満である)、薬物解毒及び免疫において重要なタンパク質をコードする遺伝子について、しばしば濃縮される。これらのCNPのサブセットは、コピー数に関して極めて可変である。結果として、様々なヒト染色体が、遺伝子の特定のセットについて広範囲のコピー数(例えば、2、3、4、5など)を有することができる。免疫応答遺伝子に関連するCNPは、最近、乾癬、クローン病、及び糸球体腎炎を含む複雑な遺伝性疾患に対する感受性と関連付けられている。
【0005】
第2のクラスのCNVは、長さが数十万塩基対から100万塩基対を超えるサイズの範囲の、CNPよりもはるかに長い比較的稀なバリアントを含む。いくつかの場合において、これらのCNVは、特定の個体を生じさせた精子若しくは卵子の産生中に生じた可能性があるか、又は、それらは、家族内でわずか数世代の間に受け継がれた可能性がある。これらの大きくて稀な構造的変異は、精神遅滞、発達遅延、統合失調症、及び自閉症を有する対象において偏って観察されている。そのような対象におけるそれらの出現は、大きくて稀なCNVが、一塩基置換を含む他の形態の遺伝性変異よりも、神経認知疾患においてより重要であり得るという推測につながった。
【0006】
無細胞DNA(cfDNA)を使用した非侵襲的出生前検査(NIPT)を使用して、胎児の異常、例えば、胎児のトリソミー13、18、及び21、三倍体、並びに性染色体異数性を検出することができる。更に、遺伝子コピー数は、がん細胞において変化し得る。例えば、Chr1pの複製は、乳がんにおいて一般的であり、EGFRコピー数は、非小細胞肺がんにおいて通常よりも高くなり得る。がんは、死亡の主要因の1つである。したがって、がんの早期診断及び治療は、(寛解の確率及び寛解の持続時間を増加させることによって)患者の転帰を改善することができるため、重要である。早期診断はまた、患者がより少ない、又はより劇的でない治療選択肢を受けることを可能にし得る。がん細胞を破壊する現在の処置の多くは、正常な細胞にも影響を及ぼし、吐き気、嘔吐、低血球数、感染リスク上昇、脱毛、及び粘膜の潰瘍などの様々な可能性のある副作用をもたらす。したがって、がんの早期検出は、がんを除去するために必要な治療(化学療法剤又は放射線など)の量及び/又は数を減少させることができるため、望ましい。
【0007】
したがって、染色体セグメント又は染色体全体の欠失及び重複を検出するための改良された方法が必要であり、これには、妊娠中の女性の腫瘍又はがんを特定するために使用することができるものが含まれる。
【発明の概要】
【課題を解決するための手段】
【0008】
本明細書に記載の本発明の少なくとも1つの態様は、妊娠中の女性における新生物を特定するのに有用な妊娠中の女性の生体サンプルに由来する増幅されたDNAの調製物を調製するための方法であって、(a)胎児無細胞DNAと母体無細胞DNAとの混合物を含む妊娠中の女性の生体サンプルから無細胞DNAを単離することと、(b)単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも100の多型遺伝子座を増幅することによって、増幅されたDNAの調製物を調製することと、(c)増幅されたDNAを配列決定して、少なくとも100の多型遺伝子座の配列リードを得、配列リードを使用して複数の目的の胎児及び母体の染色体又は染色体セグメントの倍数性を決定することによって、増幅されたDNAの調製物を分析し、目的の母体の染色体又は染色体セグメントにおけるコピー数変動(CNV)の2つ以上の存在により、妊娠中の女性の新生物を特定することと、を含む方法に関する。
【0009】
いくつかの実施形態において、生体サンプルは、血液、血漿、血清、又は尿サンプルである。いくつかの実施形態において、生体サンプルは、母体血漿サンプルである。
【0010】
いくつかの実施形態において、妊娠中の女性における新生物は、良性である。いくつかの実施形態において、妊娠中の女性における新生物は、悪性である。いくつかの実施形態において、妊娠中の女性における新生物は、がん組織の存在を示す染色体異常を含む。
【0011】
いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも200の多型遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも200の多型遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも500の多型遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも500の多型遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも1,000の多型遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも1,000の多型遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも2,000の多型遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも2,000の多型遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも5,000の多型遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも5,000の多型遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも10,000の多型遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも10,000の多型遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも20,000の多型遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも20,000の多型遺伝子座の配列リードを得ることと、を含む。
【0012】
いくつかの実施形態において、多型遺伝子座の少なくとも50%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、多型遺伝子座の少なくとも60%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、多型遺伝子座の少なくとも70%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、多型遺伝子座の少なくとも80%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、多型遺伝子座の少なくとも90%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、多型遺伝子座の少なくとも95%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。
【0013】
いくつかの実施形態において、方法は、母体の染色体又は染色体セグメント内に3つ以上のCNVが存在するかどうかを決定することを含む。いくつかの実施形態において、方法は、母体の染色体又は染色体セグメント内に4つ以上のCNVが存在するかどうかを決定することを含む。
【0014】
いくつかの実施形態において、方法は、胎児の染色体又は染色体セグメント内に1つ以上のCNVが存在するかどうかを決定することを含む。いくつかの実施形態において、方法は、胎児の染色体又は染色体セグメント内の1つ以上のCNVの存在によって、胎児における異数性を特定することを更に含む。
【0015】
本明細書に記載の本発明の少なくとも別の態様は、妊娠中の女性における新生物を特定するのに有用な妊娠中の女性の生体サンプルに由来する増幅されたDNAの調製物を調製するための方法であって、(a)胎児無細胞DNAと母体無細胞DNAとの混合物を含む妊娠中の女性の生体サンプルから無細胞DNAを単離することと、(b)単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも100の一塩基多型(SNP)遺伝子座を増幅することによって、増幅されたDNAの調製物を調製することと、(c)増幅されたDNAを配列決定して、少なくとも100のSNP遺伝子座の配列リードを得、配列リードを使用して複数の目的の胎児及び母体の染色体又は染色体セグメントの倍数性を決定することによって、増幅されたDNAの調製物を分析し、目的の母体の染色体又は染色体セグメントにおけるCNVの2つ以上の存在、又は目的の胎児の染色体又は染色体セグメントにおけるCNVの非存在により、妊娠中の女性の新生物を特定することと、を含む方法に関する。
【0016】
いくつかの実施形態において、生体サンプルは、血液、血漿、血清、又は尿サンプルである。いくつかの実施形態において、生体サンプルは、母体血漿サンプルである。
【0017】
いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも200のSNP遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも200のSNP遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも500のSNP遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも500のSNP遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも1,000のSNP遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも1,000のSNP遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも2,000のSNP遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも2,000のSNP遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも5,000のSNP遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも5,000のSNP遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも10,000のSNP遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも10,000のSNP遺伝子座の配列リードを得ることと、を含む。いくつかの実施形態において、方法は、単離された無細胞DNAに対して標的化多重増幅を行い、少なくとも20,000のSNP遺伝子座を増幅することと、増幅されたDNAを配列決定して、少なくとも20,000のSNP遺伝子座の配列リードを得ることと、を含む。
【0018】
いくつかの実施形態において、SNP遺伝子座の少なくとも50%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、SNP遺伝子座の少なくとも60%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、SNP遺伝子座の少なくとも70%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、SNP遺伝子座の少なくとも80%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、SNP遺伝子座の少なくとも90%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。いくつかの実施形態において、SNP遺伝子座の少なくとも95%が、染色体又は染色体セグメント上の1つ以上のハプロブロック内に位置する。
【0019】
いくつかの実施形態において、方法は、母体の染色体又は染色体セグメント内に3つ以上のCNVが存在するかどうかを決定することを含む。いくつかの実施形態において、方法は、母体の染色体又は染色体セグメント内に4つ以上のCNVが存在するかどうかを決定することを含む。
【発明を実施するための形態】
【0020】
例示的な実施形態において、個体のサンプル中の染色体セグメントの倍数性を決定する方法が本明細書で提供される。方法は、以下の工程を含む。
a.染色体セグメント上の多型遺伝子座のセット内の各遺伝子座で、サンプル中に存在する各対立遺伝子の量を含む対立遺伝子頻度データを受信する工程、
b.対立遺伝子頻度データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成する工程、
c.対立遺伝子頻度データを使用して、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成する工程、
d.個々の確率及びフェージング対立遺伝子情報を使用して、多型遺伝子座のセットについての結合確率を生成する工程、及び
e.結合確率に基づいて、染色体倍数性を示す最良適合モデルを選択し、それにより染色体セグメントの倍数性を決定する工程。
【0021】
倍数性を決定するための方法の例示的な一実施形態において、このデータは、核酸配列データ、特に、高スループット核酸配列データを使用して生成される。倍数性を決定するための方法の特定の例示的な例では、対立遺伝子頻度データは、これを使用して個々の確率を作成する前に、エラーについて修正される。具体的な例示的な実施形態において、修正されるエラーは、対立遺伝子増幅効率バイアスを含む。他の実施形態において、修正されるエラーは、周囲コンタミネーション及び遺伝子型コンタミネーションを含む。いくつかの実施形態において、修正されるエラーとしては、対立遺伝子増幅バイアス、周囲コンタミネーション及び遺伝子型コンタミネーションが挙げられる。
【0022】
倍数性を決定するための方法の特定の実施形態において、個々の確率は、多型遺伝子座のセットについての異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットを用いて作成される。これらの実施形態及び他の実施形態において、結合確率は、染色体セグメント上の多型遺伝子座間の結合を考慮することによって作成される。
【0023】
したがって、これらの実施形態のいくつかを組み合わせた例示的な一実施形態において、個体のサンプルにおいて染色体倍数性を検出するための方法が本明細書で提供され、これは、以下の工程を含む。
a.個体における染色体セグメント上の多型遺伝子座のセットでの対立遺伝子の核酸配列データを受信する工程、
b.核酸配列データを使用して、遺伝子座のセットでの対立遺伝子頻度を検出する工程、
c.検出された対立遺伝子頻度における対立遺伝子増幅効率バイアスを修正して、多型遺伝子座のセットについての修正された対立遺伝子頻度を生成する工程、
d.核酸配列データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成する工程、
e.修正された対立遺伝子頻度を、多型遺伝子座のセットの異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットと比較することによって、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成する工程、
f.染色体セグメント上の多型遺伝子座間の連結を考慮して、個々の確率を組み合わせることによって、多型遺伝子座のセットについての結合確率を生成する工程、並びに
g.結合確率に基づいて、染色体異数性を示す最良フィッティングモデルを選択する工程。
【0024】
別の態様において、個体のサンプル中の染色体倍数性を検出するためのシステムが本明細書で提供され、このシステムは、
a.染色体セグメント上の多型遺伝子座のセット内の各遺伝子座で、サンプル中に存在する各対立遺伝子の量を含む対立遺伝子頻度データを受信するように構成された入力プロセッサと、
b.
i.対立遺伝子頻度データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成し、かつ
ii.対立遺伝子頻度データを使用して、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成し、かつ
iii.個々の確率及びフェージング対立遺伝子情報を使用して、多型遺伝子座のセットについての結合確率を生成するように構成された、モデラーと、
c.結合確率に基づいて、染色体倍数性を示す最良適合モデルを選択し、それにより染色体セグメントの倍数性を決定するように構成された仮説マネージャと、を備える。
【0025】
このシステムの実施形態の特定の実施形態において、対立遺伝子頻度データは、核酸配列決定システムによって作成されるデータである。特定の実施形態において、このシステムは、更に、対立遺伝子頻度データ中のエラーを修正するような構成のエラー修正ユニットを備えており、修正された対立遺伝子頻度データは、モデラーによって、個々の確率を作成するために使用される。特定の実施形態において、エラー修正ユニットは、対立遺伝子増幅効率バイアスを修正する。特定の実施形態において、モデラーは、多型遺伝子座のセットについての異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットを用い、個々の確率を作成する。モデラーは、特定の例示的な実施形態において、染色体セグメント上の多型遺伝子座間の結合を考慮することによって、結合確率を作成する。
【0026】
例示的な一実施形態において、個体のサンプル中の染色体倍数性を検出するためのシステムが本明細書で提供され、このシステムは、
a.個体における染色体セグメント上の多型遺伝子座のセットでの対立遺伝子のための核酸配列データを受信し、核酸配列データを使用して遺伝子座のセットでの対立遺伝子頻度を検出するように構成された入力プロセッサと、
b.検出された対立遺伝子頻度のエラーを修正し、多型遺伝子座のセットについての修正された対立遺伝子頻度を生成するように構成されたエラー修正ユニットと、
c.
i.核酸配列データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成し、
ii.フェージング対立遺伝子情報を、多型遺伝子座のセットの異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットと比較することによって、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成し、かつ
iii.染色体セグメント上の多型遺伝子座間の相対距離を考慮して、個々の確率を組み合わせることによって、多型遺伝子座のセットについての結合確率を生成するように構成された、モデラーと、
d.結合確率に基づいて、染色体異数性を示す最良フィッティングモデルを選択するように構成された仮説マネージャとを含む。
【0027】
特定の態様において、本発明は、循環腫瘍核酸が個体のサンプル中に存在するかどうかを決定するための方法であって、
a.サンプルを分析して、個体における染色体セグメント上の多型遺伝子座のセットでの倍数性を決定することと、
b.倍数性の決定に基づき、多型遺伝子座に存在する対立遺伝子不均衡のレベルを決定することとを含む方法を提供し、0.4%、0.45%、若しくは0.5%に等しいか、又はこれより大きい対立遺伝子不均衡は、サンプル中の循環腫瘍核酸の存在の指標である。
【0028】
特定の実施形態において、循環腫瘍核酸が存在するかどうかを決定する方法は、更に、単一ヌクレオチド分散位置のセットにおいて、単一ヌクレオチド分散部位にある単一ヌクレオチドバリアントを検出することを含み、45%に等しいか、又はこれより大きい対立遺伝子不均衡を検出すること、又は単一ヌクレオチドバリアントを検出すること、又はこの両者は、サンプル中の循環腫瘍核酸の存在の指標である。
【0029】
特定の実施形態において、循環腫瘍核酸が存在するかどうかを決定するための方法の分析する工程は、がんにおいて異数性を示すことが知られている染色体セグメントのセットを分析することを含む。特定の実施形態において、循環腫瘍核酸が存在するかどうかを決定するための方法の分析する工程は、倍数性について、1,000~50,000又は100~1000個の多型遺伝子座を分析することを含む。
【0030】
特定の態様において、サンプル中の単一ヌクレオチドバリアントを検出するための方法が本明細書で提供される。したがって、単一ヌクレオチドバリアントが、個体からのサンプル中のゲノム位置のセットに存在するかどうかを決定するための方法が本明細書で提供され、この方法は、
a.各ゲノム位置について、トレーニングデータセットを使用して、そのゲノム位置に広がるアンプリコンについての効率及びサイクル当たりのエラー率の推定値を生成することと、
b.サンプル中の各ゲノム位置について観測されるヌクレオチド同一性情報を受信することと、
c.それぞれのゲノム位置での1つ以上の実際の変異に起因する単一ヌクレオチドバリアントパーセンテージの確率のセットを、それぞれのゲノム位置についての推定増幅効率及びサイクル当たりのエラー率を独立して使用して、それぞれのゲノム位置での観測されたヌクレオチド同一性情報を異なるバリアントパーセンテージのモデルと比較することによって、決定することと、
d.各ゲノム位置についての確率のセットから、最も可能性の高い実際のバリアントパーセンテージ及び信頼性を決定することと、を含む。
【0031】
単一ヌクレオチドバリアントが存在するかどうかを決定するための方法の例示的な実施形態において、効率及びサイクル当たりのエラー率の推定値は、ゲノム位置に広がるアンプリコンのセットについて作成される。例えば、ゲノム位置に広がる2、3、4、5、10、15、20、25、50、100個、又はもっと多くのアンプリコンが含まれていてもよい。1つ以上のSNVを検出するためのこの方法の特定の実施形態において、検出限界は、0.015%、0.017%、又は0.02%である。
【0032】
単一ヌクレオチドバリアントが存在するかどうかを決定するための方法の例示的な実施形態において、観測されるヌクレオチド同一性情報は、各ゲノム位置についての総リードの観測数及び各ゲノム位置についてのバリアント対立遺伝子リードの観測数を含む。
【0033】
単一ヌクレオチドバリアントが存在するかどうかを決定するための方法の例示的な実施形態において、サンプルは、血漿サンプルであり、単一ヌクレオチドバリアントは、サンプルの循環腫瘍DNA中に存在する。
【0034】
別の実施形態において、個体からの試験サンプル中の1つ以上の単一ヌクレオチドバリアントを検出する方法が本明細書で提供される。本実施形態に係る方法は、以下の工程を含む。
a.配列決定ランにおいて生成された結果に基づき、単一ヌクレオチド分散位置のセットにおけるそれぞれの単一ヌクレオチドバリアント位置について、複数の正常な個体のそれぞれからの複数の対照サンプルについてのバリアント対立遺伝子頻度の中央値を決定して、閾値を下回る、正常なサンプルにおいてバリアント対立遺伝子頻度の中央値を有する選択された単一ヌクレオチドバリアント位置を特定し、単一ヌクレオチドバリアント位置のそれぞれについて外れ値サンプルを除去した後、単一ヌクレオチドバリアント位置のそれぞれについてバックグラウンドエラーを決定する工程、
b.試験サンプルについての配列決定ランで生成されたデータに基づき、試験サンプルについて選択された単一ヌクレオチドバリアント位置について観察されたリード深度の重み付けされた平均及び分散を決定する工程、並びに
c.コンピュータを使用して、統計的に有意なリード深度の重み付けされた平均を有する1つ以上の単一ヌクレオチドバリアント位置を、その位置についてのバックグラウンドエラーと比較して特定し、それにより1つ以上の単一ヌクレオチドバリアントを検出する工程。
【0035】
1つ以上のSNVを検出するためのこの方法の特定の実施形態において、サンプルは、血漿サンプルであり、対照サンプルは、血漿サンプルであり、検出された1つ以上の検出された単一ヌクレオチドバリアントは、サンプルの循環腫瘍DNA中に存在する。1つ以上のSNVを検出するためのこの方法の特定の実施形態において、複数の対照サンプルは、少なくとも25個のサンプルを含む。1つ以上のSNVを検出するためのこの方法の特定の実施形態において、外れ値が、高スループット配列決定ランで作成されたデータから除去され、観測されたリード深度の重み付けされた平均を計算し、観測された分散が決定される。1つ以上のSNVを検出するためのこの方法の特定の実施形態において、試験サンプルについての各々の単一ヌクレオチドバリアント位置についてのリード深度は、少なくとも100リードである。
【0036】
1つ以上のSNVを検出するためのこの方法の特定の実施形態において、配列決定ランは、制限されたプライマー反応条件で行われる多重増幅反応を含む。1つ以上のSNVを検出するためのこの方法の特定の実施形態において、検出限界は、0.015%、0.017%、又は0.02%である。
【0037】
一態様において、本発明は、個体由来の1つ以上の細胞のゲノムにおいて、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定する方法を特徴とする。いくつかの実施形態において、本方法は、第1の相同染色体セグメント上の多型遺伝子座のセット中のそれぞれの遺伝子座について、第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第1の相同染色体セグメントについてのフェージング遺伝子データを得ることと、第2の相同染色体セグメント上の多型遺伝子座のセット内のそれぞれの遺伝子座について、第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、多型遺伝子座のセット内の遺伝子座のそれぞれにある対立遺伝子のそれぞれについて、個体からの1つ以上の細胞からのDNA又はRNAのサンプル中に存在する各対立遺伝子の量を含む、測定された遺伝子対立遺伝子データを得ることと、を含む。いくつかの実施形態において、本方法は、個体からの1つ以上の細胞のゲノム中の第1の相同染色体セグメントの過剰出現の程度を特定する1つ以上の仮説のセットを列挙することと、サンプルの得られた遺伝子データ及び得られたフェージング遺伝子データに基づいて、仮説の1つ以上の尤度を計算する(例えば、コンピュータ上で計算する)ことと、最大の尤度を有する仮説を選択し、それにより個体からの1つ以上の細胞のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現の程度を決定することと、を含む。いくつかの実施形態において、フェージングデータは、集団ベースのハプロタイプ頻度及び/又は測定されたフェージングデータ(例えば、個体又は個体の血縁者からのDNA又はRNAを含有するサンプルを測定することによって得られるフェージングデータ)を使用する推定されたフェージングデータを含む。
【0038】
一態様において、本発明は、個体由来の1つ以上の細胞のゲノムにおいて、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定するための方法を提供する。いくつかの実施形態において、本方法は、第1の相同染色体セグメント上の多型遺伝子座のセット中のそれぞれの遺伝子座について、第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第1の相同染色体セグメントについてのフェージング遺伝子データを得ることと、第2の相同染色体セグメント上の多型遺伝子座のセット内のそれぞれの遺伝子座について、第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、多型遺伝子座のセット内の遺伝子座のそれぞれにある対立遺伝子のそれぞれについて、個体からの1つ以上の細胞からのDNA又はRNAのサンプル中に存在する各対立遺伝子の量を含む、測定された遺伝子対立遺伝子データを得ることと、を含む。いくつかの実施形態において、本方法は、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットを列挙することと、上述のそれぞれの仮説について、得られたフェージング遺伝子データから、サンプル中の複数の遺伝子座について予測される遺伝子データを計算することと、サンプルの得られた遺伝子データと、そのサンプルについて予測される遺伝子データとの間のデータフィッティングを計算する(例えば、コンピュータ上で計算する)ことと、そのデータフィッティングに従い、仮説の1つ以上をランク付けすることと、最も高くランク付けされた仮説を選択することによって、個体からの1つ以上の細胞のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現の程度を決定することと、を含む。
【0039】
一態様において、本発明は、個体由来の1つ以上の細胞のゲノムにおいて、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定するための方法を特徴とする。いくつかの実施形態において、本方法は、第1の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第1の相同染色体セグメントについてのフェージング遺伝子データを得ることと、第2の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、上述の多型遺伝子座のセット中の各々の遺伝子座にある各々の対立遺伝子について、個体からの1つ以上の標的細胞及び1つ以上の非標的細胞からのDNA又はRNAのサンプル中に存在する各々の対立遺伝子の量を含む、測定された遺伝子対立遺伝子データを得ることと、を含む。いくつかの実施形態において、本方法は、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットを列挙することと、上述のそれぞれの仮説について、サンプル中の総DNA又はRNAに対する、1つ以上の標的細胞からのDNA又はRNAの1つ以上の可能な比率について得られたフェージング遺伝子データから、サンプル中の複数の遺伝子座について予測される遺伝子データを計算する(例えば、コンピュータ上で計算する)ことと、それぞれのDNA又はRNAの可能な比率について、かつ、それぞれの仮説について、サンプルの得られた遺伝子データと、そのDNA又はRNAの可能な比率について、かつ、その仮説についてのサンプルについて予測される遺伝子データとの間のデータフィッティングを計算する(例えば、コンピュータ上で計算する)ことと、このデータフィッティングに従い、上述の1つ以上の仮説をランク付けすることと、最も高くランク付けされた仮説を選択することによって、個体からの1つ以上の細胞のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現の程度を決定することと、を含む。
【0040】
一態様において、本発明は、個体由来の1つ以上の細胞のゲノムにおいて、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定するための方法を特徴とする。いくつかの実施形態において、本方法は、第1の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第1の相同染色体セグメントについてのフェージング遺伝子データを得ることと、第2の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、多型遺伝子座のセット中の遺伝子座の各々にある対立遺伝子の各々について、個体からの1つ以上の標的細胞及び1つ以上の非標的細胞からのDNA又はRNAのサンプル中に存在する各々の対立遺伝子の量を含む、測定された遺伝子対立遺伝子データを得ることと、を含む。いくつかの実施形態において、本方法は、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットを列挙することと、上述のそれぞれの仮説について、サンプル中の総DNA又はRNAに対する、1つ以上の標的細胞からのDNA又はRNAの1つ以上の可能な比率について得られたフェージング遺伝子データから、サンプル中の複数の遺伝子座について予測される遺伝子データを計算する(例えば、コンピュータ上で計算する)ことと、複数の遺伝子座におけるそれぞれの遺伝子座について、それぞれのDNA又はRNAの可能な比率について、かつ、それぞれの仮説について、その遺伝子座についてのサンプルの得られた遺伝子データと、そのDNA又はRNAの可能な比率について、かつ、その仮説についてのその遺伝子座についての予測される遺伝子データとを比較することにより仮説が正しいことの尤度を計算する(例えば、コンピュータ上で計算する)ことと、それぞれの遺伝子座についてのその仮説の確率とそれぞれの可能な比率とを組み合わせることにより、それぞれの仮説の組み合わされた確率を決定することと、最大の組み合わされた確率を有する仮説を選択し、それにより、第1の相同染色体セグメントのコピー数の過剰出現の程度を決定することと、を含む。いくつかの実施形態において、遺伝子座の全ては、特定の仮説の確率を計算するために一度に考慮され、最大の確率を有する仮説が選択される。
【0041】
一態様において、本発明は、胎児のゲノム中の目的の染色体セグメントのコピー数を決定するための方法を特徴とする。いくつかの実施形態において、本方法は、胎児の少なくとも1つの生物学的親についてのフェージング遺伝子データを得ることを含み、フェージング遺伝子データは、目的の染色体セグメントを含む、相同染色体セグメントの対における第1の相同染色体セグメント及び第2の相同染色体セグメント上の多型遺伝子座のセット内の各遺伝子座について存在する対立遺伝子の同一性を含む。いくつかの実施形態において、本方法は、各遺伝子座での各対立遺伝子の量を測定することによって、胎児DNA又はRNAと、胎児の母親からの母体DNA又はRNAとを含むDNA又はRNAの混合サンプル中の目的の染色体セグメント上の多型遺伝子座のセットでの遺伝子データを得ることを含む。いくつかの実施形態において、方法は、胎児のゲノム中に存在する目的の染色体セグメントのコピー数を指定する1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、一方又は両方の親について、胎児のゲノム中の親からの第1の相同染色体セグメント又はその一部のコピー数、胎児のゲノム中の親からの第2の相同染色体セグメント又はその一部のコピー数、及び胎児のゲノム中に存在する目的の染色体セグメントの総コピー数を指定する1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、それぞれの仮説について、親(複数可)から得られたフェージング遺伝子データから、混合サンプル中の複数の遺伝子座についての予測される遺伝子データを計算する(例えば、コンピュータ上で計算する)ことと、混合サンプルの得られた遺伝子データと混合サンプルについての予測される遺伝子データとの間のデータフィッティングを計算する(例えば、コンピュータ上で計算する)ことと、データフィッティングに従って、仮説の1つ以上をランク付けすることと、最も高くランク付けされた仮説を選択し、それにより胎児のゲノム中の目的の染色体セグメントのコピーの数を決定することと、を含む。
【0042】
一態様において、本発明は、胎児のゲノム中の目的の染色体又は染色体セグメントの数のコピーを決定するための方法を特徴とする。いくつかの実施形態において、本方法は、胎児の少なくとも1つの生物学的親についてのフェージング遺伝子データを得ることを含み、フェージング遺伝子データは、親の第1の相同染色体セグメント及び第2の相同染色体セグメント上の多型遺伝子座のセット中の各遺伝子座について存在する対立遺伝子の同一性を含む。いくつかの実施形態において、本方法は、各遺伝子座での各対立遺伝子の量を測定することによって、胎児DNA又はRNAと、胎児の母体からの母体DNA又はRNAとを含むDNA又はRNAの混合サンプル中の染色体又は染色体セグメント上の多型遺伝子座のセットでの遺伝子データを得ることを含む。いくつかの実施形態において、本方法は、胎児のゲノム中に存在する目的の染色体又は染色体セグメントのコピー数を指定する1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、(i)親(複数可)から得られたフェージング遺伝子データ、及び(ii)任意選択で、胎児に目的の染色体又は染色体セグメントのコピーを寄与する配偶子の形成中に生じた可能性のある1つ以上のクロスオーバーの確率から、混合サンプル中の複数の遺伝子座のそれぞれにおけるそれぞれ対立遺伝子の予測される量の確率分布を作成する(例えば、コンピュータ上で作成する)ことと、仮説のそれぞれについて、(1)混合サンプルの得られた遺伝子データと、(2)その仮説についての混合サンプル中の複数の遺伝子座のそれぞれにおけるそれぞれの対立遺伝子の予測される量の確率分布との間のフィッティングを計算する(例えば、コンピュータ上で計算する)ことと、データフィッティングに従って、仮説の1つ以上をランク付けすることと、最も高くランク付けされた仮説を選択し、それにより、胎児のゲノム中の目的の染色体セグメントのコピー数を決定することと、を含む。
【0043】
いくつかの実施形態において、本方法は、胎児の母親についてフェージング遺伝子データを得ることを含む。いくつかの実施形態において、本方法は、胎児のゲノム中の母親からの第1の相同染色体セグメント又はその一部のコピー数、胎児のゲノム中の母親からの第2の相同染色体セグメント又はその一部のコピー数、及び胎児のゲノム中に存在する目的の染色体セグメントの総コピー数を指定する1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、仮説のそれぞれについて、母親から得られたフェージング遺伝子データから、混合サンプル中の複数の遺伝子座についての予測遺伝子データを計算することを含む。
【0044】
いくつかの実施形態において、仮説のそれぞれについての予測される遺伝子データは、母体DNA又はRNA及び混合サンプル中の胎児DNA又はRNAからの複数の遺伝子座の各遺伝子座における同一性及び1つ以上の対立遺伝子の量を含む。いくつかの実施形態において、本方法は、混合サンプル中の胎児DNA又はRNAの分率及び母体DNA又はRNAの分率を決定することによって、予測される遺伝子データを計算する(例えば、コンピュータ上で計算する)ことを含む。いくつかの実施形態において、本方法は、複数の遺伝子座中のそれぞれの遺伝子座について、得られた母体のフェージング遺伝子データ中のその遺伝子座に存在する対立遺伝子(複数可)の同一性、及び混合サンプル中の母体DNA又はRNAの分率を使用して、混合サンプル中の母体DNA又はRNA中のその遺伝子座についての対立遺伝子のうちの1つ以上の予測される量を計算することを含む。いくつかの実施形態において、本方法は、それぞれの仮説についての複数の遺伝子座中のそれぞれの遺伝子座について、混合サンプル中の母親から遺伝された胎児DNA又はRNA中の遺伝子座についての対立遺伝子の1つ以上の予測される量を、胎児によって遺伝されたと仮定される母親からの第1の相同染色体セグメント又は第2の相同染色体セグメント中のその遺伝子座に存在する対立遺伝子の同一性、胎児によって遺伝されたと仮定される母親からの第1の相同染色体セグメント又は第2の相同染色体セグメントのコピー数、及び混合サンプル中の胎児DNA又はRNAの分率を使用して計算する(例えば、コンピュータ上で計算する)ことを含む。
【0045】
いくつかの実施形態において、仮説のそれぞれについての予測される遺伝子データは、母体DNA又はRNA及び混合サンプル中の胎児DNA又はRNAからの複数の遺伝子座の各遺伝子座における同一性及び1つ以上の対立遺伝子の量を含む。いくつかの実施形態において、本方法は、混合サンプル中の胎児DNA又はRNAの分率及び母体DNA又はRNAの分率を決定することによって、予測される遺伝子データを計算することを含む。いくつかの実施形態において、本方法は、複数の遺伝子座中のそれぞれの遺伝子座について、得られた母体のフェージング遺伝子データ中のその遺伝子座に存在する対立遺伝子(複数可)の同一性、及び混合サンプル中の母体DNA又はRNAの分率を使用して、混合サンプル中の母体DNA又はRNA中のその遺伝子座についての対立遺伝子のうちの1つ以上の予測される量を計算する(例えば、コンピュータ上で計算する)ことを含む。いくつかの実施形態において、本方法は、それぞれの仮説についての複数の遺伝子座のそれぞれの遺伝子座について、混合サンプル中の母親から遺伝した胎児DNA又はRNA中のその遺伝子座についての対立遺伝子のうちの1つ以上の対立遺伝子の予測される量を、胎児によって遺伝されたと仮定される母親からの第1の相同染色体セグメント又は第2の相同染色体セグメント中のその遺伝子座に存在する対立遺伝子の同一性、胎児によって遺伝されたと仮定される母親からの第1の相同染色体セグメント又は第2の相同染色体セグメントのコピー数、胎児によって遺伝されたと仮定される父親からの第1の相同染色体セグメント又は第2の相同染色体セグメント中のその遺伝子座に存在する1つ以上の可能な対立遺伝子の同一性、胎児によって遺伝されたと仮定される父親からの第1の相同染色体セグメント又は第2の相同染色体セグメントのコピー数、及び混合サンプル中の胎児DNA又はRNAの分率を使用して計算する(例えば、コンピュータ上で計算する)ことを含む。いくつかの実施形態において、集団頻度は、父親からの第1又は第2の相同染色体セグメントにおける対立遺伝子の同一性を予測するために使用される。いくつかの実施形態において、父親からの第1又は第2の相同染色体セグメントにおける各遺伝子座における可能な対立遺伝子のそれぞれについての確率は、同じであるとみなされる。
【0046】
いくつかの実施形態において、本方法は、胎児の母親及び父親の両方についてフェージング遺伝子データを得ることを含む。いくつかの実施形態において、本方法は、胎児のゲノム中の母親からの第1の相同染色体セグメント又はその一部のコピー数、胎児のゲノム中の母親からの第2の相同染色体セグメント又はその一部のコピー数、胎児のゲノム中の父親からの第1の相同染色体セグメント又はその一部のコピー数、胎児のゲノム中の父親からの第2の相同染色体セグメント又はその一部のコピー数、及び胎児のゲノム中に存在する目的の染色体セグメントの総コピー数を指定する1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、仮説のそれぞれについて、母親から得られたフェージング遺伝子データ及び父親から得られたフェージング遺伝子データから、混合サンプル中の複数の遺伝子座についての予測遺伝子データを計算する(例えば、コンピュータ上で計算する)ことを含む。
【0047】
いくつかの実施形態において、仮説のそれぞれについての予測される遺伝子データは、母体DNA又はRNA及び混合サンプル中の胎児DNA又はRNAからの複数の遺伝子座の各遺伝子座における同一性及び1つ以上の対立遺伝子の量を含む。いくつかの実施形態において、本方法は、混合サンプル中の胎児DNA又はRNAの分率及び母体DNA又はRNAの分率を決定することによって、予測される遺伝子データを計算することを含む。いくつかの実施形態において、本方法は、複数の遺伝子座中のそれぞれの遺伝子座について、得られた母体のフェージング遺伝子データ中のその遺伝子座に存在する対立遺伝子(複数可)の同一性、及び混合サンプル中の母体DNA又はRNAの分率を使用して、混合サンプル中の母体DNA又はRNA中のその遺伝子座についての対立遺伝子のうちの1つ以上の予測される量を計算する(例えば、コンピュータ上で計算する)ことを含む。いくつかの実施形態において、本方法は、それぞれの仮説についての複数の遺伝子座のそれぞれの遺伝子座について、混合サンプル中の胎児DNA又はRNA中のその遺伝子座についての対立遺伝子のうちの1つ以上の対立遺伝子の予測される量を、胎児によって遺伝されたと仮定される母親からの第1の相同染色体セグメント又は第2の相同染色体セグメント中のその遺伝子座に存在する対立遺伝子の同一性、胎児によって遺伝されたと仮定される母親からの第1の相同染色体セグメント又は第2の相同染色体セグメントのコピー数、胎児によって遺伝されたと仮定される父親からの第1の相同染色体セグメント又は第2の相同染色体セグメント中のその遺伝子座に存在する対立遺伝子の同一性、胎児によって遺伝されたと仮定される父親からの第1の相同染色体セグメント又は第2の相同染色体セグメントのコピー数、及び混合サンプル中の胎児DNA又はRNAの分率を使用して計算する(例えば、コンピュータ上で計算する)ことを含む。
【0048】
いくつかの実施形態において、本方法は、仮説のそれぞれについて、親(複数可)から得られたフェージング遺伝子データから、混合サンプル中の複数の遺伝子座についての予測遺伝子データの確率分布を計算する(例えば、コンピュータ上で計算する)ことを含む。いくつかの実施形態において、本方法は、特定の対立遺伝子が親の第1の相同セグメント中に存在し、親の第1の相同セグメント中の近傍遺伝子座にある対立遺伝子が混合サンプルの得られた遺伝子データ中に観察される場合、混合サンプル中の第1の遺伝子座に存在するその特定の対立遺伝子の確率分布を増加させること、又は、特定の対立遺伝子が親の第1の相同セグメント中に存在し、親の第1の相同セグメント中の近傍遺伝子座にある対立遺伝子が混合サンプルの得られた遺伝子データ中に観察されない場合、混合サンプル中の第1の遺伝子座に存在するその特定の対立遺伝子の確率分布を減少させること、を含む。いくつかの実施形態において、本方法は、特定の対立遺伝子が親の第2の相同セグメント中に存在し、親の第2の相同セグメント中の近傍遺伝子座にある対立遺伝子が混合サンプルの得られた遺伝子データ中に観察される場合、混合サンプル中の第2の遺伝子座に存在するその特定の対立遺伝子の確率分布を増加させること、又は、特定の対立遺伝子が親の第2の相同セグメント中に存在し、親の第2の相同セグメント中の近傍遺伝子座にある対立遺伝子が混合サンプルの得られた遺伝子データ中に観察されない場合、混合サンプル中の第2の遺伝子座に存在するその特定の対立遺伝子の確率分布を減少させること、を含む。
【0049】
いくつかの実施形態において、本方法は、胎児の母親及び父親の両方についてフェージング遺伝子データを得ることを含む。いくつかの実施形態において、本方法は、胎児のゲノム中の母親からの第1の相同染色体セグメント又はその一部のコピー数、胎児のゲノム中の母親からの第2の相同染色体セグメント又はその一部のコピー数、胎児のゲノム中の父親からの第1の相同染色体セグメント又はその一部のコピー数、胎児のゲノム中の父親からの第2の相同染色体セグメント又はその一部のコピー数、及び胎児のゲノム中に存在する目的の染色体セグメントの総コピー数を指定する1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、仮説のそれぞれについて、母親及び父親から得られたフェージング遺伝子データから、混合サンプル中の複数の遺伝子座についての予測遺伝子データの確率分布を計算する(例えば、コンピュータ上で計算する)ことを含む。いくつかの実施形態において、本方法は、特定の対立遺伝子が母親若しくは父親親の第1の相同セグメント中に存在し、その親の第1の相同セグメント中の近傍遺伝子座にある対立遺伝子が混合サンプルの得られた遺伝子データ中に観察される場合、混合サンプル中の第1の遺伝子座に存在するその特定の対立遺伝子の確率分布を増加させること、又は、特定の対立遺伝子が母親若しくは父親の第1の相同セグメント中に存在し、その親の第1の相同セグメント中の近傍遺伝子座にある対立遺伝子が混合サンプルの得られた遺伝子データ中に観察されない場合、混合サンプル中の第1の遺伝子座に存在するその特定の対立遺伝子の確率分布を減少させること、を含む。いくつかの実施形態において、本方法は、特定の対立遺伝子が母親若しくは父親の第2の相同セグメント中に存在し、その親の第2の相同セグメント中の近傍遺伝子座にある対立遺伝子が混合サンプルの得られた遺伝子データ中に観察される場合、混合サンプル中の第2の遺伝子座に存在するその特定の対立遺伝子の確率分布を増加させること、又は、特定の対立遺伝子が母親若しくは父親の第2の相同セグメント中に存在し、その親の第2の相同セグメント中の近傍遺伝子座にある対立遺伝子が混合サンプルの得られた遺伝子データ中に観察されない場合、混合サンプル中の第2の遺伝子座に存在するその特定の対立遺伝子の確率分布を減少させること、を含む。
【0050】
いくつかの実施形態において、第1の遺伝子座及び第1の遺伝子座の近傍にある遺伝子座は、同時分離する。いくつかの実施形態において、第2の遺伝子座及び第2の遺伝子座の近傍にある遺伝子座は、同時分離する。いくつかの実施形態において、第1の遺伝子座と第1の遺伝子座の近傍にある遺伝子座との間にクロスオーバーが生じることはないと予測される。いくつかの実施形態において、第2の遺伝子座と第2の遺伝子座の近傍にある遺伝子座との間にクロスオーバーが生じることはないと予測される。いくつかの実施形態において、第1の遺伝子座と第1の遺伝子座の近傍にある遺伝子座との間の距離は、5mb、1mb、100kb、10kb、1kb、0.1kb、又は0.01kb未満である。いくつかの実施形態において、第2の遺伝子座と第2の遺伝子座の近くにある遺伝子座との間の距離は、5mb、1mb、100kb、10kb、1kb、0.1kb、又は0.01kb未満である。
【0051】
いくつかの実施形態において、1つ以上のクロスオーバーは、目的の染色体セグメントのコピーを胎児に寄与する配偶子の形成中に生じ、クロスオーバーは、親からの第1の相同セグメントの一部及び第2の相同セグメントの一部を含む胎児のゲノム中の目的の染色体セグメントを生成する。いくつかの実施形態において、仮説のセットは、親からの第1の相同セグメントの一部及び第2の相同セグメントの一部を含む胎児のゲノム中の目的の染色体セグメントのコピー数を指定する1つ以上の仮説を含む。
【0052】
いくつかの実施形態において、混合サンプルの予測される遺伝子データは、仮説のそれぞれについての混合サンプル中の複数の遺伝子座中のそれぞれの遺伝子座における対立遺伝子のうちの1つ以上の予測される量を含む。
【0053】
一態様において、本発明は、フェージング遺伝子データを使用して、個体のゲノム(例えば1つ以上の細胞、cfDNA、cfRNA、がんを有することが疑われる個体、胎児、又は胚のゲノム)において、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定する方法を特徴とする。いくつかの実施形態において、本方法は、同時に、又は任意の順序で連続して、(i)第1の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第1の相同染色体セグメントについてのフェージング遺伝子データを得ることと、(ii)第2の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、(iii)個体からの1つ以上の細胞からのDNA若しくはRNAのサンプル中、又は個体からの2つ以上の遺伝的に異なる細胞からの無細胞DNA若しくはRNAの混合サンプル中の多型遺伝子座のセット中の各々の遺伝子座についての各々の対立遺伝子の量を含む、測定された遺伝子対立遺伝子データを得ることと、を伴う。いくつかの実施形態において、本方法は、サンプルの由来となる少なくとも1つの細胞においてヘテロ接合性である多型遺伝子座のセット中の1つ以上の遺伝子座についての対立遺伝子比率を計算することを伴う。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子の1つの測定量を、その遺伝子座についての全ての対立遺伝子の総測定量によって割り算したものである。いくつかの実施形態において、本方法は、第1の相同染色体セグメントと第2の相同染色体セグメントが同じ割合で存在する場合、ある遺伝子座についての1つ以上の対立遺伝子比率の計算値を、予測対立遺伝子比率、例えばその遺伝子座について予測される比率と比較することによって、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを伴う。いくつかの実施形態において、予測比率は、2対立遺伝子座について0.5である。
【0054】
出生前検査のためのいくつかの実施形態において、本方法は、同時に、又は任意の順序で連続して、(i)第1の相同染色体セグメント上の多型遺伝子座のセット中のそれぞれの遺伝子座について、第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、胎児(例えば妊娠中の母親内の妊娠期の胎児)のゲノム中の第1の相同染色体セグメントについてのフェージング遺伝子データを得ることと、(ii)第2の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、胎児のゲノム中の第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、(iii)胎児DNA又はRNA及び母体DNA又はRNAを含む胎児の母親からのDNA又はRNAの混合サンプル(例えば、胎児無細胞DNA又はRNA及び母体無細胞DNA又はRNAを含む母親からの血液サンプルに由来する無細胞DNA又はRNAの混合サンプル)中の多型遺伝子座のセット中の遺伝子座のそれぞれについてのそれぞれの対立遺伝子の量を含む、測定された遺伝子対立遺伝子データを得ることと、を伴う。いくつかの実施形態において、本方法は、胎児においてヘテロ接合性及び/又は母親においてヘテロ接合性である多型遺伝子座のセット中の1つ以上の遺伝子座についての対立遺伝子比率を計算することを伴う。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子の1つの測定量を、その遺伝子座についての全ての対立遺伝子の総測定量によって割り算したものである。いくつかの実施形態において、本方法は、第1の相同染色体セグメントと第2の相同染色体セグメントが同じ割合で存在する場合、ある遺伝子座についての1つ以上の対立遺伝子比率の計算値を、予測対立遺伝子比率、例えばその遺伝子座について予測される比率と比較することによって、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを伴う。
【0055】
いくつかの実施形態において、対立遺伝子比率の計算値は、(i)第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の測定量についての対立遺伝子比率を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、その遺伝子座についての対立遺伝子比率の予測値より大きい場合、又は(ii)第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の測定量についての対立遺伝子比率を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、その遺伝子座についての対立遺伝子比率の予測値より小さい場合のいずれかの場合、第1の相同染色体セグメントのコピー数の過剰出現の指標である。いくつかの実施形態において、対立遺伝子比率の計算値は、(i)第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の測定量についての対立遺伝子比率を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、その遺伝子座についての対立遺伝子比率の予測値より小さいか、又は等しい場合、又は(ii)第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の測定量についての対立遺伝子比率を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、その遺伝子座についての対立遺伝子比率の予測値より大きいか、又は等しい場合のいずれかの場合、第1の相同染色体セグメントのコピー数の過剰出現がないことの指標である。
【0056】
いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することは、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率の予測値は、それぞれの仮説について、その仮説によって指定される過剰出現の程度を考慮して、推定される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値と対立遺伝子比率の予測値とを比較することによって計算され、最大の尤度を有する仮説が選択される。いくつかの実施形態において、試験統計の予測分布(expected distribution)は、各仮説についての対立遺伝子比率の予測値を用いて計算される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値を用いて計算される試験統計と、対立遺伝子比率の予測値を用いて計算される試験統計の予測分布とを比較することによって計算され、最大の尤度を有する仮説が選択される。いくつかの実施形態において、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座))についての対立遺伝子比率の予測値は、第1の相同染色体セグメントについてのフェージング遺伝子データ、第2の相同染色体セグメントについてのフェージング遺伝子データ、及びその仮説によって指定される過剰出現の程度を考慮して、推定される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値と対立遺伝子比率の予測値とを比較することによって計算され、最大の尤度を有する仮説が選択される。
【0057】
いくつかの実施形態において、サンプル中の総DNA(又はRNA)に対する1つ以上の標的細胞からのDNA(又はRNA)の比率が計算される。例示的な比率は、サンプル中の総DNA(又はRNA)に対する胎児DNA(又はRNA)の比率である。いくつかの実施形態において、サンプル中の総DNAに対する胎児DNAの比率は、胎児がその対立遺伝子を有し、母親がその対立遺伝子を有しない1つ以上の遺伝子座における対立遺伝子の量を測定することによって決定される。いくつかの実施形態において、サンプル中の総DNAに対する胎児DNAの比率は、1つ以上の母体対立遺伝子と胎児対立遺伝子との間のメチル化の差異を測定することによって決定される。いくつかの実施形態において、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットが列挙される。いくつかの実施形態において、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率の予測値は、計算されたDNA又はRNAの比率を考慮して推定され、それぞれの仮説について、その仮説によって指定される過剰出現の程度が推定される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値と対立遺伝子比率の予測値とを比較することによって計算され、最大の尤度を有する仮説が選択される。いくつかの実施形態において、対立遺伝子比率の予測値及びDNA又はRNAの比率の計算値を用いて計算された試験統計の予測分布が、各仮説について推定される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値及びDNA又はRNAの比率の計算値を用いて計算される試験統計と、対立遺伝子比率の予測値及びDNA又はRNAの比率の計算値を用いて計算される試験統計の予測分布とを比較することによって決定され、最大の尤度を有する仮説が選択される。
【0058】
いくつかの実施形態において、本方法は、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、各仮説について、(i)その仮説によって示される過剰出現の程度を考慮した、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/若しくは母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率の予測値、又は(ii)DNA若しくはRNAの1つ以上の可能な比率(例えば、サンプル中の総DNA若しくはRNAに対する胎児DNA若しくはRNAの比率)について、対立遺伝子比率の予測値及びサンプル中の総DNA若しくはRNAに対する1つ以上の標的細胞(例えば、胎児細胞)からのDNA若しくはRNAの可能な比率を用いて計算された試験統計の予測分布のいずれかを推定することを含む。いくつかの実施形態において、データフィッティングは、(i)対立遺伝子比率の計算値を、対立遺伝子比率の予測値、又は(ii)対立遺伝子比率の計算値及びDNA若しくはRNAの可能な比率を用いて計算された試験統計のいずれかを、対立遺伝子比率の予測値及びDNA又はRNAの可能な比率を用いて計算された試験統計の予測分布と比較することによって計算される。いくつかの実施形態において、仮説のうちの1つ以上は、データフィッティングに従ってランク付けされ、最も高くランク付けされた仮説が選択される。いくつかの実施形態において、検索アルゴリズムなどの技術又はアルゴリズムは、データフィッティングを計算する工程、仮説をランク付けする工程、又は最も高くランク付けされた仮説を選択する工程のうちの1つ以上のために使用される。いくつかの実施形態において、データフィッティングは、ベータ二項分布に対するフィッティング又は二項分布に対するフィッティングである。いくつかの実施形態において、この技術又はアルゴリズムは、最大尤度の推定、経験的な最大推定、ベイズ推定、動的推定(例えば、動的ベイズ推定)及び期待最大化推定からなる群から選択される。いくつかの実施形態において、本方法は、得られた遺伝子データと遺伝子データの予測値に対して、上述の技術又はアルゴリズムを適用することを含む。
【0059】
いくつかの実施形態において、本方法は、サンプル中の総DNA又はRNAに対する1つ以上の標的細胞からのDNA又はRNAの比率について、下限から上限までの範囲の可能な比率(例えば、サンプル中の総DNA又はRNAに対する胎児DNA又はRNAの比率)の分配を作成することを含む。いくつかの実施形態において、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットが列挙される。いくつかの実施形態において、本方法は、分配におけるDNA又はRNAの可能な比率の各々について、また、各仮説について、(i)DNA若しくはRNAの可能な比率及びその仮説によって示される過剰出現の程度を考慮した、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/若しくは母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率の予測値、又は(ii)対立遺伝子比率の予測値及びDNA若しくはRNAの可能な比率を用いて計算される試験確率の予測分布のいずれかを推定することを含む。いくつかの実施形態において、本方法は、分配におけるDNA又はRNAの可能な比率のそれぞれについて、また、各仮説について、(i)対立遺伝子比率の計算値を、対立遺伝子比率の予測値、又は(ii)対立遺伝子比率の計算値及びDNA若しくはRNAの可能な比率を用いて計算された試験統計のいずれかを、対立遺伝子比率の予測値及びDNA又はRNAの可能な比率を用いて計算された試験統計の予測分布と比較することによって、その仮説が正しい尤度が計算される。いくつかの実施形態において、各仮説についての結合確率は、分配における可能な比率それぞれについて、その仮説の確率を合わせることによって決定され、最大の結合確率を有する仮説が選択される。いくつかの実施形態において、各仮説についての結合確率は、特定の可能な比率について、その可能な比率が正しい比率である尤度に基づき、ある仮説の確率を重み付けすることによって決定される。
【0060】
一態様において、本発明は、フェージング又は非フェージング遺伝子データを使用して、個体からの1つ以上の細胞のゲノム中の染色体又は染色体セグメントのコピー数を決定するための方法を特徴とする。いくつかの実施形態において、本方法は、各遺伝子座での各対立遺伝子の量を測定することによって、サンプル中の染色体又は染色体セグメント上の多型遺伝子座のセットでの遺伝子データを得ることを伴う。いくつかの実施形態において、サンプルは、個体からの1つ以上の細胞からのDNA若しくはRNAのサンプル、又は2つ以上の遺伝的に異なる細胞からの無細胞DNAを含む個体からの無細胞DNAの混合サンプルである。いくつかの実施形態において、対立遺伝子比率は、サンプルの由来となる少なくとも1つの細胞においてヘテロ接合性である遺伝子座について計算される。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子の1つの測定量を、その遺伝子座についての全ての対立遺伝子の総測定量によって割り算したものである。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子(例えば、第1の相同染色体セグメント上の対立遺伝子)の1つの測定量を、その遺伝子座についての1つ以上の他の対立遺伝子(例えば、第2の相同染色体セグメント上の対立遺伝子)の測定量によって割り算したものである。いくつかの実施形態において、細胞の1つ以上のゲノム中の染色体又は染色体セグメントのコピー数を示す1つ以上の仮説のセットが列挙される。いくつかの実施形態において、試験統計に基づいて最も可能性が高い仮説が選択され、それによって、細胞の1つ以上のゲノム中の染色体又は染色体セグメントのコピー数を決定する。
【0061】
一態様において、本発明は、フェージング又は非フェージング遺伝子データを使用して、胎児(例えば、妊娠期の胎児)のゲノム中の染色体又は染色体セグメントのコピー数を決定するための方法を特徴とする。いくつかの実施形態において、本方法は、各遺伝子座での各対立遺伝子の量を測定することによって、サンプル中の染色体又は染色体セグメント上の多型遺伝子座のセットでの遺伝子データを得ることを伴う。いくつかの実施形態において、サンプルは、胎児DNA又はRNAと、胎児の母親からの母体DNA又はRNAとを含むDNAの混合サンプルである(例えば、胎児の無細胞DNA又はRNAと、母体の無細胞DNA又はRNAとを含む、母親からの血液サンプルに由来する無細胞DNA又はRNAの混合サンプル)。いくつかの実施形態において、対立遺伝子比率は、胎児においてヘテロ接合性である及び/又は母親においてヘテロ接合性である遺伝子座について計算される。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子の1つの測定量を、その遺伝子座についての全ての対立遺伝子の総測定量によって割り算したものである。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子(例えば、第1の相同染色体セグメント上の対立遺伝子)の1つの測定量を、その遺伝子座についての1つ以上の他の対立遺伝子(例えば、第2の相同染色体セグメント上の対立遺伝子)の測定量によって割り算したものである。いくつかの実施形態において、胎児のゲノム中の染色体又は染色体セグメントのコピー数を示す1つ以上の仮説のセットが列挙される。いくつかの実施形態において、試験統計に基づいて最も可能性が高い仮説が選択され、それによって、胎児のゲノム中の染色体又は染色体セグメントのコピー数を決定する。
【0062】
いくつかの実施形態において、試験統計が、ある仮説についての試験統計の分布に属する確率が上限閾値を超える場合、その仮説が選択される。試験統計が、ある仮説についての試験統計の分布に属する確率が、下限閾値を下回る場合、その1つ以上の仮説は否定されるか、又は試験統計が、ある仮説についての試験統計の分布に属する確率が、下限閾値から上限閾値の間である場合、又はその確率が、十分に高い信頼性で決定されない場合、その仮説は、選択されず、又は否定もされない。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現は、第1の相同染色体セグメントの重複又は第2の相同染色体セグメントの欠失に起因する。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現が、第1の相同染色体セグメントの重複又は第2の相同染色体セグメントの欠失に起因するかどうかを決定するために、遺伝子座の1つ以上についての全ての遺伝子座の全測定量が参照量と比較される。いくつかの実施形態において、対立遺伝子比率の計算値と1つ以上の遺伝子座についての対立遺伝子比率の予測値との差の大きさを使用して、第1の相同染色体セグメントのコピー数の過剰出現が、第1の相同染色体セグメントの重複又は第2の相同染色体セグメントの欠失に起因するものであるかどうかを決定する。いくつかの実施形態において、第1の相同染色体セグメント及び第2の相同染色体セグメントは、第1の相同染色体セグメントのコピー数の過剰出現が存在せず、第2の相同染色体セグメントの過剰出現が存在しない場合(例えば、細胞、cfDNA、cfRNA、個体、胎児、又は胚のゲノムにおいて)、同じ割合で存在することが決定される。
【0063】
いくつかの実施形態において、サンプル中の総DNAに対する1つ以上の標的細胞からのDNAの比率は、標的細胞の遺伝子型が非標的細胞の遺伝子型と異なり、標的細胞及び非標的細胞はダイソミーであると予測される、1つ以上の遺伝子座における1つ以上の対立遺伝子の総量又は相対量に基づいて決定される。いくつかの実施形態において、この比率を使用して、第1の相同染色体セグメントのコピー数の過剰出現は、第1の相同染色体セグメントの重複又は第2の相同染色体セグメントの欠失に起因するかどうかを決定する。いくつかの実施形態において、この比率を使用して、重複する染色体セグメント又は染色体の過剰なコピー数を決定する。いくつかの実施形態において、フェージング遺伝子データは、確率データを含む。いくつかの実施形態において、胎児のゲノム中の第1の相同染色体セグメント及び/又は第2の相同染色体セグメントについてのフェージング遺伝子データを得ることは、胎児の一方又は両方の生物学的親のゲノム中の第1の相同染色体セグメント及び/又は第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、胎児が一方又は両方の生物学的親から遺伝した相同染色体セグメントを推測することと、を含む。いくつかの実施形態において、第1の相同染色体セグメント又は第2の相同染色体セグメントのコピーを胎児個体に寄与する配偶子の形成中に生じた可能性のある1つ以上のクロスオーバー(例えば、1つ、2つ、3つ、又は4つのクロスオーバー)の確率を使用して、胎児が一方又は両方の生物学的親から遺伝した相同染色体セグメント(複数可)を推測する。いくつかの実施形態において、胎児の母親及び/又は父親についてのフェージング遺伝子データは、デジタルPCR、集団に基づくハプロタイプ頻度を使用してハプロタイプを推論すること、精子又は卵子などの単倍体細胞を使用してハプロタイプ決定すること、1つ以上の一親等からの遺伝子データを使用してハプロタイプ決定すること、及びそれらの組み合わせからなる群から選択される技術を使用して得られる。いくつかの実施形態において、個体についてのフェージング遺伝子データは、個体からのサンプル中の欠失又は重複に対応する領域の一部又は全てをフェージングすることによって得られる。いくつかの実施形態において、胎児についてのフェージング遺伝子データは、胎児又は胎児の母親からのサンプル中の欠失又は重複に対応する領域の一部又は全てをフェージングすることによって得られる。いくつかの実施形態において、第1の相同染色体セグメント及び第2の相同染色体セグメントについてのフェージング遺伝子データを得ることは、染色体セグメントのうちの1つに存在する対立遺伝子の同一性を決定することと、他の染色体セグメントに存在する対立遺伝子の同一性を推論によって決定することとを含む。いくつかの実施形態において、第1の相同染色体セグメントに存在しない非フェージング遺伝子データからの対立遺伝子は、第2の相同染色体セグメントに割り当てられる。例えば、個体の遺伝子型が(AB,AB)であり、その個体についてのフェージングデータが、第1のハプロタイプが(A,A)であることを示す場合、他のハプロタイプは、(B,B)であると推論することができる。いくつかの実施形態において、1つの対立遺伝子のみが遺伝子座で測定される場合、その対立遺伝子は、第1の相同染色体セグメント及び第2の相同染色体セグメントの両方の一部であると決定される(例えば、遺伝子型が遺伝子座でAAである場合、両方のハプロタイプがA対立遺伝子を有する)。いくつかの実施形態において、個体についてのフェージング遺伝子データは、例えば、組換えホットスポット、及び任意選択で組換えホットスポットに隣接する領域の配列を決定することによって、1つ以上の可能な染色体クロスオーバーが生じたかどうかを決定することを含む。いくつかの実施形態において、本発明のプライマーライブラリのいずれかを使用して、組換えイベントを検出し、どのハプロタイプブロックが個体のゲノムに存在するかを決定する。
【0064】
いくつかの実施形態において、本方法は、結合分布モデル(例えば、遺伝子座間の連結を考慮する結合分布モデル)を使用すること、連結分析を実行すること、二項分布モデルを使用すること、ベータ-二項分布モデルを使用すること、及び/又は、胎児に成長した胚を形成した配偶子を生じさせた減数分裂中にクロスオーバーが生じた尤度を使用すること(例えば、目的の染色体又は染色体セグメント上の多型対立遺伝子間の依存性をモデル化するために、染色体が染色体中の異なる位置でクロスオーバーする確率を使用すること)を含む。
【0065】
いくつかの実施形態において、cfDNA又はcfRNAについての計算された対立遺伝子比率のうちの1つ以上は、cfDNA又はcfRNAが由来する細胞におけるDNA又はRNAについての対応する対立遺伝子比率を示す。いくつかの実施形態において、cfDNA又はcfRNAについての計算された対立遺伝子比率の1つ以上は、個体のゲノム中の対応する対立遺伝子比率を示す。いくつかの実施形態において、対立遺伝子比率は、単に計算されるか、又は、測定された遺伝子データが、サンプル中(例えば、cfDNA若しくはcfRNAサンプル中)の遺伝子座について2つ以上の異なる対立遺伝子が存在することを示す場合、単に予測される対立遺伝子比率と比較される。いくつかの実施形態において、対立遺伝子比率は、単に計算されるか、又は、遺伝子座が、サンプルが由来する細胞の少なくとも1つにおいてヘテロ接合性である場合(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座)、単に予測される対立遺伝子比率と比較される。いくつかの実施形態において、対立遺伝子比率は、単に計算されるか、又は、その遺伝子座が胎児においてヘテロ接合性である場合、単に予測される対立遺伝子比率と比較される。いくつかの実施形態において、対立遺伝子比率が計算され、ホモ接合性遺伝子座についての予測される対立遺伝子比率と比較される。例えば、試験される特定の個体(又は胎児及び妊娠中の母親の両方)についてホモ接合性であると予測される遺伝子座についての対立遺伝子比率を分析して、システム内のノイズ又はエラーのレベルを決定してもよい。
【0066】
いくつかの実施形態において、少なくとも10個、50個、100個、200個、300個、500個、750個、1,000個、2,000個、3,000個、4,000個、又はそれ以上の遺伝子座(例えば、SNP)が、目的の染色体又は染色体セグメントについて分析される。いくつかの実施形態において、目的の染色体又は染色体セグメントにおけるmb当たりの遺伝子座の平均数(例えば、SNP)は、mb当たり少なくとも1個、10個、25個、50個、100個、150個、200個、300個、500個、750個、1000個、又はそれ以上である。いくつかの実施形態において、目的の染色体又は染色体セグメントにおけるmb当たりの遺伝子座(例えば、SNP)の平均数は、mb当たり1~500個の遺伝子座、例えば、1~50個、50個~100個、100個~200個、200個~400個、200個~300個、又は300個~400個の遺伝子座(境界値を含む)である。いくつかの実施形態において、潜在的な欠失又は重複の複数の部分における遺伝子座を分析して、1つの遺伝子座のみの分析、又は互いに近いいくつかの遺伝子座のみの分析と比較して、CNV決定の感度及び/又は特異性を高める。いくつかの実施形態において、各遺伝子座における2つの最も一般的な対立遺伝子のみが、測定されるか、又は対立遺伝子比率の計算を決定するために使用される。いくつかの実施形態において、遺伝子座の増幅は、低い5’→3’エキソヌクレアーゼ活性及び/又は低い鎖置換活性を有するポリメラーゼ(例えば、DNAポリメラーゼ、RNAポリメラーゼ又は逆転写酵素)を用いて行われる。いくつかの実施形態において、測定された遺伝的対立遺伝子データは、(i)サンプル中のDNA若しくはRNAの配列決定、(ii)サンプル中のDNA若しくはRNAの増幅、次いで増幅されたDNAの配列決定、又は(ii)サンプル中のDNA若しくはRNAの増幅、PCR産物のライゲーション、次いでライゲーションされた産物の配列決定によって得られる。いくつかの実施形態において、測定された遺伝的対立遺伝子データは、サンプルからのDNA又はRNAを複数の画分に分割し、各画分中のDNA又はRNAに異なるバーコードを付与し(例えば、特定の画分中の全てのDNA又はRNAが同じバーコードを有するように)、任意選択でバーコード化DNA又はRNAを増幅し、画分を組み合わせ、次いで組み合わせた画分中のバーコード化DNA又はRNAを配列決定することによって得られる。いくつかの実施形態において、多型遺伝子座(例えば、SNP)の対立遺伝子は、以下の方法のうちの1つ以上を使用して特定される:配列決定(例えば、ナノポア配列決定又はハルシオン分子配列決定)、SNPアレイ、リアルタイムPCR、TaqMan、Nanostring nCounter(登録商標)分析システム、識別DNAポリメラーゼ及びリガーゼを使用するIllumina GoldenGate Genotyping Assay、ライゲーション媒介PCR、又は連結反転プローブ(LIP;これはまた、環状化前(pre-circularized)プローブ、環状化前(pre-circularizing)プローブ、環状化プローブ、パドロックプローブ、又は分子反転プローブ(MIP)と呼ぶことができる)。いくつかの実施形態において、2つ以上(例えば、3又は4)の標的アンプリコンが一緒にライゲーションされ、次いで、ライゲーションされた産物が配列決定される。いくつかの実施形態において、同じ遺伝子座についての異なる対立遺伝子の測定値は、対立遺伝子間の代謝、アポトーシス、ヒストン、不活化及び/又は増幅の差(例えば、同じ遺伝子座の異なる対立遺伝子間の増幅効率の差)について調整される。いくつかの実施形態において、この調整は、得られた遺伝子データの対立遺伝子比率を計算する前に、又は測定された遺伝子データを予測遺伝子データと比較する前に行われる。
【0067】
いくつかの実施形態において、本方法はまた、ある疾患又は障害の1つ以上のリスク因子の有無を決定することを含む。いくつかの実施形態において、本方法はまた、疾患若しくは障害又は疾患若しくは障害のリスク上昇に関連する1つ以上の多型又は変異の有無を決定することを含む。いくつかの実施形態において、本方法はまた、cfDNA、cf mDNA、cf nDNA、cfRNA、miRNA、又はそれらの任意の組み合わせの合計レベルを決定することを含む。いくつかの実施形態において、本方法は、ある疾患若しくは障害又は疾患若しくは障害のリスク上昇に関連する多型又は変異を有する分子などの、1つ以上の目的のcfDNA cf mDNA、cf nDNA、cfRNA、及び/又はmiRNA分子のレベルを決定することを含む。いくつかの実施形態において、総DNA中の腫瘍DNAの分率(例えば、総cfDNA中の腫瘍cfDNAの分率又は総cfDNA中の特定の変異を有する腫瘍cfDNAの分率)が決定される。いくつかの実施形態において、この腫瘍分率を使用して、がんのステージを決定する(より高い腫瘍分率は、より進行したステージのがんと関連するため)。いくつかの実施形態において、本方法はまた、DNA又はRNAレベルの総レベルを決定することも含む。いくつかの実施形態において、本方法は、ある疾患若しくは障害又は疾患若しくは障害のリスク上昇に関連する多型又は変異を有する分子などの、1つ以上の目的のDNA又はRNA分子のメチル化レベルを決定することを含む。いくつかの実施形態において、本方法は、DNA完全性の変化の有無を決定することを含む。いくつかの実施形態において、本方法はまた、mRNAスプライシングの総レベルを決定することを含む。いくつかの実施形態において、本方法は、ある疾患若しくは障害又は疾患若しくは障害のリスク上昇に関連する多型又は変異を有する分子などの、1つ以上の目的のRNA分子のmRNAスプライシングのレベルを決定するか、又は代替のmRNAスプライシングを検出することを含む。
【0068】
いくつかの実施形態において、本発明は、個体におけるがん表現型を検出するための方法を特徴とし、がん表現型は、変異のセットのうちの少なくとも1つの存在によって定義される。いくつかの実施形態において、本方法は、個体からの1つ以上の細胞からのDNA又はRNAのサンプルについてのDNA又はRNAの測定を得ることであって、1つ以上の細胞が、がん表現型を有することが疑われる、得ることと、DNA又はRNAの測定を分析して、変異のセット中の各々の変異について、細胞の少なくとも1つがその変異を有する尤度を決定することと、を含む。いくつかの実施形態において、本方法は、(i)変異のうちの少なくとも1つについて、細胞の少なくとも1つがその変異を有する尤度が閾値より大きい、又は(ii)変異のうちの少なくとも1つについて、細胞の少なくとも1つがその変異を有する尤度が閾値より小さく、複数の変異について、細胞の少なくとも1つが、変異のうちの少なくとも1つを有する結合尤度が閾値よりも大きい場合に、個体はがん表現型を有すると決定することを含む。いくつかの実施形態において、1つ以上の細胞は、変異のセット中の変異の部分集合又は全てを有する。いくつかの実施形態において、変異の部分集合は、がん又はがんのリスク上昇に関連する。いくつかの実施形態において、サンプルは、無細胞DNA又はRNAを含む。いくつかの実施形態において、DNA又はRNAの測定は、目的の1つ以上の染色体又は染色体セグメント上の多型遺伝子座のセットでの測定(例えば、各遺伝子座での各対立遺伝子の量)を含む。
【0069】
一態様において、本発明は、哺乳動物における疾患又は障害の治療、安定化、又は予防のための療法を選択するための方法を特徴とする。いくつかの実施形態において、方法は、本明細書に記載の方法のいずれかを使用して、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。いくつかの実施形態において、療法は、哺乳動物のために選択される(例えば、第1の相同染色体セグメントの過剰出現に関連する疾患又は障害のための療法)。
【0070】
一態様において、本発明は、哺乳動物における疾患又は障害を予防する、遅らせる、安定化させる、又は治療するための方法を特徴とする。いくつかの実施形態において、方法は、本明細書に記載の方法のいずれかを使用して、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。いくつかの実施形態において、療法は、哺乳動物のために選択され(例えば、第1の相同染色体セグメントの過剰出現に関連する疾患又は障害のための治療)、次いで、療法は、哺乳動物に施される。
【0071】
いくつかの実施形態において、疾患又は障害を治療、安定化、又は予防することは、疾患若しくは障害の初期若しくはその後の発生を予防する、若しくは遅らせること、ある状態の消失とその再発との間の無疾患生存期間を延長すること、ある状態に関連する有害な症状を安定化若しくは低減すること、又はある状態の進行を阻害若しくは安定化することを含む。いくつかの実施形態において、治療される対象の少なくとも20、40、60、80、90又は95%は、状態の全ての証拠が消失する完全寛解を有する。いくつかの実施形態において、対象がある状態と診断され、治療された後に生存する時間の長さは、(i)未治療の対象が生存する平均時間量、又は(ii)別の療法で治療された対象が生存する平均時間量よりも少なくとも20、40、60、80、100、200、又は更には500%大きい。
【0072】
いくつかの実施形態において、がんを治療、安定化、又は予防することは、腫瘍(例えば、良性若しくは悪性腫瘍)のサイズを低減若しくは安定化すること、腫瘍の大きさの増加を遅くする、若しくは防止すること、腫瘍細胞数を低減若しくは安定化すること、腫瘍の消失とその再発との間の無疾患生存期間を延長すること、腫瘍の初期若しくはその後の発生を防止すること、又は腫瘍に関連する有害な症状を低減若しくは安定化することを含む。一実施形態において、治療から生存するがん細胞の数は、任意の標準アッセイを使用して測定した場合、がん細胞の初期数よりも少なくとも10、20、40、60、80又は100%少ない。いくつかの実施形態において、本発明の療法を施すことよって誘導されるがん細胞の数の減少は、非がん細胞の数の減少よりも少なくとも2倍、5倍、10倍、20倍又は50倍大きい。いくつかの実施形態において、療法を施した後に存在するがん細胞の数は、対照の投与(例えば、生理食塩水又は緩衝液の投与)後に存在するがん細胞の数よりも少なくとも2倍、5倍、10倍、20倍又は50倍少ない。いくつかの実施形態において、本発明の方法は、標準的な方法を使用して決定される腫瘍のサイズの10、20、40、60、80又は100%の減少をもたらす。いくつかの実施形態において、治療された対象の少なくとも10、20、40、60、80、90又は95%は、検出可能ながん細胞が存在しない完全寛解を有する。いくつかの実施形態において、がんは、再発しないか、又は少なくとも2、5、10、15、又は20年後に再発する。いくつかの実施形態において、対象ががんと診断され、本発明の療法で治療された後に生存する時間の長さは、(i)未治療の対象が生存する平均時間量、又は(ii)別の療法で治療された対象が生存する平均時間量よりも少なくとも10、20、40、60、80、100、200、又は更には500%大きい。
【0073】
一態様において、本発明は、哺乳動物における疾患又は障害の治療、安定化、又は予防のための臨床試験に関与する対象の層別化のための方法を特徴とする。いくつかの実施形態において、方法は、臨床試験の前、その間、又はその後に、本明細書に記載の方法のいずれかを使用して、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。いくつかの実施形態において、対象のゲノム中の第1の相同染色体セグメントの過剰出現の有無は、対象を臨床試験のためのサブグループに入れる。
【0074】
いくつかの実施形態において、疾患又は障害は、がん、精神障害、学習障害(例えば、特発性学習障害)、精神遅滞、発達遅延、自閉症、神経変性疾患又は障害、統合失調症、身体障害、自己免疫疾患又は障害、全身性エリテマトーデス、乾癬、クローン病、糸球体腎炎、HIV感染、AIDS、及びそれらの組み合わせからなる群から選択される。いくつかの実施形態において、疾患又は障害は、ディジョージ症候群、ディジョージ2症候群、ディジョージ/VCFS症候群、プラダー・ウィリ症候群、アンジェルマン症候群、ベックウィズ・ヴィーデマン症候群、1p36欠失症候群、2q37欠失症候群、3q29欠失症候群、9q34欠失症候群、17q21.31欠失症候群、ネコ鳴き症候群、ヤコブセン症候群、ミラー・ディーカー症候群、フェラン・マクダーミド症候群、スミス・マギニス症候群、WAGR症候群、ウォルフ・ヒルシュホーン症候群、ウィリアムズ症候群、ウィリアムズ-ビューレン症候群、ミラー・ディーカー症候群、フェラン・マクダーミド症候群、スミス・マギニス症候群、ダウン症候群、エドワード症候群、パトー症候群、クラインフェルター症候群、ターナー症候群、47,XXX症候群、47,XYY症候群、ソトス症候群、及びそれらの組み合わせからなる群から選択される。いくつかの実施形態において、本方法は、以下の染色体異常のうちの1つ以上の有無を決定する:零染色体性、一染色体性、単親ダイソミー性、トリソミー性、適合トリソミー性、非適合トリソミー性、母体トリソミー性、父体トリソミー性、三倍体性、モザイク四染色体性、適合四染色体性、非適合四染色体性、他の異数性、不均衡転座、均衡転座、挿入、欠失、組換え、及びそれらの組み合わせ。いくつかの実施形態において、染色体異常は、例えばヒト体細胞において、そのセグメント又は染色体の最も一般的なコピー数からの特定の染色体又は染色体セグメントのコピー数の任意の偏差であり、2つのコピーからの任意の偏差は、染色体異常とみなすことができる。いくつかの実施形態において、本方法は、正倍数性の有無を決定する。いくつかの実施形態において、コピー数仮説は、単胎妊娠についての1つ以上のコピー数仮説を含む。いくつかの実施形態において、コピー数仮説は、双生児の妊娠(例えば、一卵性双生児若しくは異卵性双生児又は消滅性双生児)などの多胎妊娠に関する1つ以上のコピー数仮説を含む。いくつかの実施形態において、コピー数仮説は、多胎妊娠中の全ての胎児が正倍数性である、多胎妊娠中の全ての胎児が異数性である(例えば、本明細書に開示される異数性のいずれか)、及び/又は多胎妊娠中の1つ以上の胎児が正倍数性であり、多胎妊娠中の1つ以上の胎児が異数性であることを含む。いくつかの実施形態において、コピー数仮説は、一卵性双生児(単卵双生児とも呼ばれる)又は異卵双生児(二卵双生児とも呼ばれる)を含む。いくつかの実施形態において、コピー数仮説は、奇胎妊娠、例えば、完全又は部分的な奇胎妊娠を含む。いくつかの実施形態において、目的の染色体セグメントは、染色体全体である。いくつかの実施形態において、染色体又は染色体セグメントは、染色体13、染色体18、染色体21、X染色体、Y染色体、それらのセグメント、及びそれらの組み合わせからなる群から選択される。いくつかの実施形態において、第1の相同染色体セグメント及び第2の相同染色体セグメントは、目的の染色体セグメントを含む相同染色体セグメントの対である。いくつかの実施形態において、第1の相同染色体セグメント及び第2の相同染色体セグメントは、目的の相同染色体の対である。いくつかの実施形態において、信頼度は、CNVの決定又はその疾患若しくは障害の診断のために計算される。
【0075】
いくつかの実施形態において、欠失は、少なくとも0.01kb、0.1kb、1kb、10kb、100kb、1mb、2mb、3mb、5mb、10mb、15mb、20mb、30mb又は40mbの欠失である。いくつかの実施形態において、欠失は、1kb~40mb、例えば、1kb~100kb、100kb~1mb、1~5mb、5~10mb、10~15mb、15~20mb、20~25mb、25~30mb又は30~40mb(境界値を含む)の欠失である。いくつかの実施形態において、染色体セグメントの1つのコピーが欠失し、1つのコピーが存在する。いくつかの実施形態において、染色体セグメントの2つのコピーが欠失する。いくつかの実施形態において、染色体全体が欠失する。
【0076】
いくつかの実施形態において、重複は、少なくとも0.01kb、0.1kb、1kb、10kb、100kb、1mb、2mb、3mb、5mb、10mb、15mb、20mb、30mb又は40mbの重複である。いくつかの実施形態において、重複は、1kb~40mb、例えば、1kb~100kb、100kb~1mb、1~5mb、5~10mb、10~15mb、15~20mb、20~25mb、25~30mb又は30~40mb(境界値を含む)の重複である。いくつかの実施形態において、染色体セグメントは、1回重複する。いくつかの実施形態において、染色体セグメントは、2回以上、例えば2、3、4、又は5回重複する。いくつかの実施形態において、染色体全体が重複する。いくつかの実施形態において、第1の相同セグメント内の領域が欠失し、第2の相同セグメント内の同じ領域又は別の領域が重複する。いくつかの実施形態において、試験したSNVの少なくとも50、60、70、80、90、95、96、98、99又は100%は、転位型変異ではなく、転換型変異である。
【0077】
いくつかの実施形態において、サンプルは、(i)1つ以上の標的細胞又は(ii)1つ以上の非標的細胞からのDNA及び/又はRNAを含む。いくつかの実施形態において、サンプルは、1つ以上の標的細胞及び1つ以上の非標的細胞からのDNA又はRNAを含む混合サンプルである。いくつかの実施形態において、標的細胞は、CNV、例えば、目的の欠失又は重複を有する細胞であり、非標的細胞は、目的のコピー数変動を有しない細胞である。1つ以上の標的細胞ががん細胞(複数可)であり、1つ以上の非標的細胞が非がん細胞(複数可)であるいくつかの実施形態において、方法は、がん細胞の1つ以上のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。1つ以上の標的細胞が遺伝的に同一のがん細胞(複数可)であり、1つ以上の非標的細胞が非がん細胞(複数可)であるいくつかの実施形態において、方法は、がん細胞(複数可)のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。1つ以上の標的細胞が遺伝的に非同一のがん細胞(複数可)であり、1つ以上の非標的細胞が非がん細胞(複数可)であるいくつかの実施形態において、方法は、遺伝的に非同一のがん細胞の1つ以上のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。サンプルが1つ以上のがん細胞及び1つ以上の非がん細胞の混合物からの無細胞DNAを含むいくつかの実施形態において、方法は、がん細胞の1つ以上のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。1つ以上の標的細胞が遺伝的に同一の胎児細胞(複数可)であり、1つ以上の非標的細胞が母体細胞(複数可)であるいくつかの実施形態において、方法は、胎児細胞(複数可)のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。1つ以上の標的細胞が遺伝的に非同一の胎児細胞(複数可)であり、1つ以上の非標的細胞が母細胞(複数可)であるいくつかの実施形態において、方法は、遺伝的に非同一の胎児細胞の1つ以上のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを含む。ほとんどの個体の細胞は、ほぼ同一の核DNAのセットを含有するため、いくつかの実施形態において、「標的細胞」という用語は、「個体」という用語と互換的に使用され得る。がん細胞は、宿主個体とは異なる遺伝子型を有する。この場合、がん自体が個体とみなされ得る。更に、多くのがんは不均一であり、すなわち腫瘍内の異なる細胞が同じ腫瘍内の他の細胞と遺伝的に異なる。この場合、異なる遺伝的に同一の領域は、異なる個体とみなすことができる。これに代えて、がんは、異なるゲノムを有する細胞の混合物を有する単一の個体とみなされてもよい。典型的には、非標的細胞は、必ずしもそうではないが、正倍数性である。
【0078】
いくつかの実施形態において、サンプルは、母体全血サンプル又はその画分、母体血サンプルから単離された細胞、羊水穿刺サンプル、受胎サンプルの生成物、胎盤組織サンプル、絨毛膜絨毛サンプル、胎盤膜サンプル、子宮頸部粘液サンプル、又は胎児からのサンプルから得られる。いくつかの実施形態において、サンプルは、母親からの血液サンプル又はその画分から得られた無細胞DNAを含む。いくつかの実施形態において、サンプルは、胎児細胞及び母体細胞の混合物から得られた核DNAを含む。いくつかの実施形態において、サンプルは、胎児細胞が濃縮された有核細胞を含有する母体血液の画分から得られる。いくつかの実施形態において、サンプルは、本発明の方法を使用してそれぞれ分析される複数の画分(例えば、2つ、3つ、4つ、5つ又はより多くの画分)に分割される。各画分が同じ結果(例えば、目的の1つ以上のCNVの有無)を生じさせる場合、結果の信頼性が増加する。異なる画分が異なる結果を生じさせる場合、サンプルを再分析するか、又は同じ対象から別のサンプルを収集して分析することができる。
【0079】
例示的な対象には、哺乳動物、例えば、ヒト及び獣医学的な目的の哺乳動物が含まれる。いくつかの実施形態において、哺乳動物は、霊長類(例えば、ヒト、サル、ゴリラ、サル、キツネザルなど)、ウシ、ウマ、ブタ、イヌ、又はネコである。
【0080】
いくつかの実施形態において、方法のうちのいずれかは、本発明の方法の結果(例えば、欠失又は重複の有無)を開示する報告書(例えば、書面又は電子報告書)を作成することを含む。
【0081】
いくつかの実施形態において、方法のうちのいずれかは、本発明の方法の結果(例えば、欠失又は重複の有無)に基づいて臨床行為を行うことを含む。胚又は胎児が、本発明の方法の結果に基づく目的の1つ以上の多型又は変異(例えば、CNV)を有するいくつかの実施形態において、臨床行為は、追加の試験(例えば、多型又は変異の存在を確認する試験)を行うこと、IVFのために胚を移植しないこと、IVFのために異なる胚を移植すること、妊娠を終わらせること、特別なニーズのある子供のために準備すること、又は遺伝子障害の表現型の提示の重症度を低下させるように設計された介入を受けることを含む。いくつかの実施形態において、臨床行為は、超音波を行うこと、胎児の羊水穿刺、母親及び/又は父親から遺伝子物質を受け継ぐ後続の胎児の羊水穿刺、胎児の絨毛膜生検、母親及び/又は父親から遺伝子物質を受け継ぐ後続の胎児の絨毛膜生検、体外受精、母親及び/又は父親から遺伝子物質を受け継ぐ1つ以上の胚の着床前遺伝子診断、母親の核型決定、父親の核型決定、胎児の心エコー図(例えば、21、18又は13のトリソミー、モノソミーX又は微小欠失を有する胎児の心エコー図)並びにそれらの組み合わせからなる群から選択される。いくつかの実施形態において、臨床行為は、モノソミーXを有する出生児に成長ホルモンを投与すること(例えば、約9ヶ月で開始する投与)、22q欠失を有する出生児にカルシウムを投与すること(例えば、ディジョージ症候群)、47,XXYを有する出生児にテストステロンなどのアンドロゲンを投与すること(例えば、乳児又は幼児に25mgのエナント酸テストステロンを3ヶ月間毎月1回注射すること)、完全又は部分的な奇胎妊娠(三倍体胎児など)を有する女性のがんの試験を行うこと、完全又は部分的な奇胎妊娠(三倍体胎児など)を有する女性に化学療法などのがんの療法を施すこと、男性であると判断された胎児(本発明の方法を使用して男性であると判断された胎児など)をデュシェンヌ型筋ジストロフィー(DMD)、副腎白質ジストロフィー、又は血友病などの1つ以上のX連鎖遺伝性疾患についてスクリーニングすること、X連鎖疾患のリスクのある男性胎児に対して羊水穿刺を行うこと、先天性副腎過形成のリスクがある女性胎児(本発明の方法を使用して女性であると判定された胎児など)を有する女性にデキサメタゾンを投与すること、先天性副腎過形成のリスクがある女性胎児に羊水穿刺を行うこと、(生ワクチンの代わりに)死菌ワクチンを投与すること、又は22q11.2欠失から免疫不全である(又は免疫不全であると疑われる)出生児に特定のワクチンを投与しないこと、職業療法及び/又は理学療法を行うこと、教育における早期介入を行うこと、NICUを備えた、及び/又は分娩時に利用可能な小児専門家を有する三次ケアセンターで出産すること、出生児(XXX、XXY、又はXYYを有する子供)の行動介入、並びにそれらの組み合わせを含む。
【0082】
いくつかの実施形態において、超音波検査又は別のスクリーニング検査が、多胎妊娠(例えば、双生児)を有すると判断された女性に対して行われ、胎児のうちの2人以上が単絨毛性であるかどうかが判断される。単卵双生児は、単一の卵母細胞の排卵及び受精に起因し、続いて接合子が分裂する。胎盤形成は、二絨毛性又は単絨毛性であってもよい。二卵性双生児は、2つの卵母細胞の排卵と受精から発生し、通常は二絨毛性胎盤形成をもたらす。単絨毛性双生児は、双生児間輸血症候群のリスクがあり、胎児間の血液の不均等な分布を引き起こし、その成長及び発達の違いをもたらし、時には死産をもたらす可能性がある。したがって、本発明の方法を使用して単卵双生児であると判断された双生児は、望ましくは、それらが単絨毛性双生児であるかどうかを判断するために(例えば、超音波によって)試験され、もしそうであれば、これらの双生児は、双生児間輸血症候群の徴候について監視され得る(例えば、16週からの隔週超音波)。
【0083】
本発明の方法の結果に基づいて胚又は胎児が1つ以上の1つ以上の目的の多型又は変異(例えば、CNV)を有しないいくつかの実施形態において、臨床行為は、IVFのために胚を移植すること又は妊娠を継続することを含む。いくつかの実施形態において、臨床行為は、超音波、羊水穿刺、絨毛生検及びそれらの組み合わせを行うことからなる群から選択される、多型又は変異が存在しないことを確認するための追加の試験である。
【0084】
個体が、本発明の方法の結果に基づく1つ以上の1つ以上の多型又は変異(例えば、がんなどの疾患若しくは障害又はがんなどの疾患若しくは障害のリスク上昇に関連する多型又は変異)を有するいくつかの実施形態において、臨床行為は、ある疾患又は障害について追加の試験を行うか、又は1つ以上の療法(例えば、がんに対する療法、個体が診断されるがんの特定の種類若しくは変異の種類に対する療法、又は本明細書に開示される療法のいずれか)を施すことを含む。いくつかの実施形態において、臨床的作用は、生検、手術、医学的画像診断(例えば、マンモグラム又は超音波)、及びそれらの組み合わせからなる群から選択される多型又は変異の有無を確認するための追加の試験である。
【0085】
いくつかの実施形態において、追加の試験は、同じ又は異なる方法(例えば、本明細書に記載される方法のいずれか)を行って、多型又は変異(例えば、CNV)の有無を確認することを含み、例えば、試験された同じサンプルの第2の画分又は同じ個体(例えば、同じ妊娠中の母親、胎児、胚、又はがんのリスクが高い個体)からの異なるサンプルのいずれかを試験することを含む。いくつかの実施形態において、追加の試験は、多型又は変異(例えば、CNV)の確率が閾値を上回る個体に対して行われる(例えば、可能性のある多型又は変異の存在を確認するための追加の試験)。いくつかの実施形態において、追加の試験は、多型又は変異(例えば、CNV)の決定のための信頼度又はzスコアが閾値を上回る個体に対して行われる(例えば、可能性のある多型又は変異の存在を確認するための追加の試験)。いくつかの実施形態において、追加の試験は、多型又は変異(例えば、CNV)の決定のための信頼度又はzスコアが、最小値と最大値との間にある個体に対して行われる(例えば、初期結果が正しいという信頼度を増加させるための追加の試験)。いくつかの実施形態において、追加の試験は、多型又は変異(例えば、CNV)の有無を決定するための信頼性が閾値を下回る個体に対して行われる(例えば、CNVの有無を十分な信頼性をもって決定することができないことによる「ノーコール」結果)。例示的なZコアは、Chiu et al.BMJ 2011;342:c7401(これは、その全体が参照により本明細書に組み込まれる)において計算されており、染色体21が例として使用され、試験サンプル中の任意の他の染色体又は染色体セグメントと置き換えられ得る。
試験症例における染色体21のパーセンテージのZスコア=((試験症例における染色体21のパーセンテージ)-(参照対照における染色体21の平均パーセンテージ))/(参照対照における染色体21のパーセンテージの標準偏差)。
【0086】
いくつかの実施形態において、追加の試験は、初期サンプルが品質管理ガイドラインを満たさなかった、又は胎児分率若しくは腫瘍分率が閾値を下回っていた個体に対して行われる。いくつかの実施形態において、方法は、本発明の方法の結果、結果の確率、結果の信頼度、又はzスコアに基づいて、追加の試験のために個体を選択することと、個体に対して(例えば、同じ又は異なるサンプルに対して)追加の試験を行うこととを含む。いくつかの実施形態において、診断される対象は、本発明の方法又はその疾患若しくは障害に対する既知の検査を用い、複数の時点で繰り返し検査を受け、その疾患若しくは障害の進行又はその疾患若しくは障害の寛解又は再発が監視される。
【0087】
一態様において、本発明は、本発明の方法から得られた結果(例えば、欠失又は重複の有無)を有する報告書(例えば、書面又は電子報告書)を特徴とする。
【0088】
様々な実施形態において、プライマー伸長反応又はポリメラーゼ連鎖反応は、ポリメラーゼによる1つ以上のヌクレオチドの付加を含む。いくつかの実施形態において、プライマーは、溶液状態である。いくつかの実施形態において、プライマーは、溶液状態であり、固体支持体に固定されていない。いくつかの実施形態において、プライマーは、マイクロアレイの一部ではない。様々な実施形態において、プライマー伸長反応又はポリメラーゼ連鎖反応は、ライゲーション媒介PCRを含まない。様々な実施形態において、プライマー伸長反応又はポリメラーゼ連鎖反応は、リガーゼによる2つのプライマーの結合を含まない。様々な実施形態において、プライマーは、環化前(pre-circularized)プローブ、環状化前(pre-circularizing)プローブ、環状化プローブ、パドロックプローブ、又は分子反転プローブ(MIP)とも称され得る結合型反転プローブ(LIP)を含まない。
【0089】
本明細書に記載の本発明の態様及び実施形態は、本発明の態様又は実施形態のうちの任意の2つ以上の組み合わせを含むことが理解される。
【0090】
定義
一塩基多型(SNP)は、同じ種の2つのメンバーのゲノム間で異なり得る単一ヌクレオチドを指す。この用語の使用は、各バリアントが生じる頻度のいかなる制限も意味すべきではない。
【0091】
配列は、DNA配列又は遺伝子配列を指す。これは、個体におけるDNA分子又は鎖の一次的な物理的構造を指し得る。これは、そのDNA分子内に見出されるヌクレオチドの配列、又はDNA分子に対する相補鎖を指し得る。これは、コンピュータでのその表現としてのDNA分子に含まれる情報を指し得る。
【0092】
遺伝子座は、個体のDNA上の特定の目的領域を指し、これはSNP、可能性のある挿入若しくは欠失の部位、又はいくつかの他の関連する遺伝的変動の部位を指し得る。疾患関連SNPはまた、疾患関連遺伝子座を指し得る。
【0093】
多型対立遺伝子、別名「多型遺伝子座」は、遺伝子型が所与の種内の個体間で変化する対立遺伝子又は遺伝子座を指す。多型対立遺伝子のいくつかの例としては、一塩基多型、短いタンデム反復、欠失、重複及び反転が挙げられる。
【0094】
多型部位は、個体間で異なる多型領域に見出される特定のヌクレオチドを指す。
【0095】
変異は、挿入、欠失、重複、転座、置換、フレームシフト変異、サイレント変異、ナンセンス変異、ミスセンス変異、点変異、転位型変異、転換型変異、復帰変異、又はマイクロサテライト変異などの、天然に存在する又は参照核酸配列における変化を指す。いくつかの実施形態において、核酸配列によってコードされるアミノ酸配列は、天然に存在する配列からの少なくとも1つのアミノ酸変化を有する。
【0096】
対立遺伝子は、特定の遺伝子座を占める遺伝子を指す。
【0097】
遺伝子データ、別名「遺伝子型データ」は、1つ以上の個体のゲノムの態様を記述するデータを指す。これは、遺伝子座の1つ又は1セット、部分的又は全体的な配列、部分的又は全体的な染色体、又はゲノム全体を指し得る。これは、1つ又は複数のヌクレオチドの同一性を指し得、これは、一連の連続したヌクレオチド、又はゲノム内の異なる位置からのヌクレオチド、又はそれらの組み合わせを指し得る。遺伝子型データはコンピュータ上であるが、配列中の物理的ヌクレオチドを化学的にコードされた遺伝子データとみなすことも可能である。遺伝子型データは、個体(複数可)「に関する」、個体(複数可)「の」、個体(複数可)「での」、個体(複数可)「からの」又は個体「に関する」と言うことができる。遺伝子型データは、遺伝物質に対してこれらの測定が行われる遺伝子型決定プラットフォームからの出力測定を指し得る。
【0098】
遺伝物質、別名「遺伝子サンプル」は、DNA又はRNAを含む1つ以上の個体からの、組織又は血液などの物理的物質を指す。
【0099】
信頼性は、いわゆるSNP、対立遺伝子、対立遺伝子のセット、染色体若しくは染色体セグメントの決定されたコピー数、又はある疾患の有無の診断が、個体の実際の遺伝的状態を正しく表すという統計的尤度を指す。
【0100】
「染色体コピー番号の呼び出し」又は「コピー番号の呼び出し」(CNC)とも呼ばれる倍数性の呼び出しは、細胞内に存在する1つ以上の染色体又は染色体セグメントの量及び/又は染色体同一性を決定する行為を指し得る。
【0101】
異数性は、間違った数の染色体(例えば、間違った数の完全な染色体、又は間違った数の染色体セグメント、例えば、染色体セグメントの欠失又は重複の存在)が細胞内に存在する状態を指す。ヒト体細胞の場合、これは、細胞が22対の常染色体及び1対の性染色体を含有しない場合を指し得る。ヒト配偶子の場合、これは、細胞が23個の染色体のそれぞれのうちの1つを含有しない場合を指し得る。単一染色体型の場合、これは、2つより多い、又は少ない相同であるが同一でない染色体コピーが存在する場合、又は同じ親に由来する2つの染色体コピーが存在する場合を指し得る。いくつかの実施形態において、染色体セグメントの欠失は、微小欠失である。
【0102】
倍数性状態とは、細胞内の1つ以上の染色体又は染色体セグメントの量及び/又は染色体同一性を指す。
【0103】
染色体は、単一染色体コピーを指し得、これは、正常な体細胞内に46個あるDNAの単一分子を意味し、その例は「母体由来染色体18」である。染色体はまた、正常なヒト体細胞内に23個ある染色体型を指し得、その例は「染色体18」である。
【0104】
染色体同一性は、対象の染色体番号、すなわち染色体型を指し得る。正常なヒトには、22種類の番号付けされた常染色体型と、2種類の性染色体がある。これはまた、染色体の親起源を指し得る。これはまた、親から遺伝した特定の染色体を指し得る。これはまた、染色体の他の識別特徴を指し得る。
【0105】
対立遺伝子データは、1つ以上の対立遺伝子のセットに関する遺伝子型データのセットを指す。これは、段階的なハプロタイプのデータを指し得る。これは、SNP同一性を指し得、挿入、欠失、反復及び変異を含む、DNAの配列データを指し得る。これは、各対立遺伝子の親起源を含み得る。
【0106】
対立遺伝子状態とは、1つ以上の対立遺伝子のセットにおける遺伝子の実際の状態を指す。これは、対立遺伝子データによって説明される遺伝子の実際の状態を指し得る。
【0107】
対立遺伝子数は、特定の遺伝子座にマッピングする配列の数を指し、その遺伝子座が多型である場合、対立遺伝子のそれぞれにマッピングする配列の数を指す。各対立遺伝子がバイナリ方式でカウントされる場合、対立遺伝子数は整数となる。対立遺伝子が確率的にカウントされる場合、対立遺伝子数は、分数であってもよい。
【0108】
対立遺伝子数確率は、マッピングの確率と組み合わせて、多型遺伝子座における特定の遺伝子座又は対立遺伝子のセットにマッピングする可能性が高い配列の数を指す。対立遺伝子数は、それぞれのカウントされた配列についてのマッピングの確率がバイナリ(ゼロ又は1)である対立遺伝子数確率と等価であることに留意されたい。いくつかの実施形態において、対立遺伝子数の確率は、バイナリであってもよい。いくつかの実施形態において、対立遺伝子数の確率は、DNA測定値と等しいように設定されてもよい。
【0109】
対立遺伝子分布、又は「対立遺伝子数分布」は、遺伝子座のセット内の各遺伝子座について存在する各対立遺伝子の相対量を指す。対立遺伝子分布は、個体、サンプル、又はサンプルに対して行われる測定のセットを指すことができる。配列決定等のデジタル対立遺伝子測定の文脈において、対立遺伝子分布は、多型遺伝子座のセット内の各対立遺伝子についての特定の対立遺伝子にマッピングするリードの数又は可能性のある数を指す。SNPアレイなどのアナログ対立遺伝子測定の文脈において、対立遺伝子分布は、対立遺伝子強度及び/又は対立遺伝子比率を指す。対立遺伝子の測定値は、確率的に処理されてもよく、すなわち、所与の対立遺伝子が、読み取られた所与の配列に対して存在する尤度は、0と1との間の分数であり、又はそれらは、バイナリ様式で処理されてもよく、すなわち、所与の読み取り値は、特定の対立遺伝子の正確なゼロ又は1つのコピーであるとみなされる。
【0110】
対立遺伝子分布パターンは、異なる親の文脈などの異なる文脈に対する異なる対立遺伝子分布のセットを指す。特定の対立遺伝子分布パターンは、特定の倍数性状態を示し得る。
【0111】
対立遺伝子バイアスは、ヘテロ接合遺伝子座で測定された対立遺伝子の比率が、DNA又はRNAの元のサンプルに存在した比率と異なる程度を指す。特定の遺伝子座での対立遺伝子バイアスの程度は、測定時のその遺伝子座で観察された対立遺伝子比率を、その遺伝子座での元のDNA又はRNAサンプルにおける対立遺伝子の比率で除したものである。対立遺伝子バイアスは、増幅バイアス、精製バイアス、又は異なる対立遺伝子に異なる影響を与えるいくつかの他の現象に起因し得る。
【0112】
SNVについて、対立遺伝子不均衡は、以上DNAの割合が、典型的には変異対立遺伝子頻度(ある遺伝子座での変異対立遺伝子の数/その遺伝子座での対立遺伝子の総数)を用いて測定されることを指す。腫瘍における2つのホモログの量の差が類似しているため、平均対立遺伝子不均衡(AAI)によって、CNVについての異常DNAの割合|(H1-H2)|/(H1+H2)と定義される)を測定し、ここで、Hiは、サンプル中のホモログiの平均コピー数であり、Hi/(H1+H2)は、ホモログiの存在分率、すなわち、ホモログ比率である。最大ホモログ比率は、より豊富なホモログのホモログ比率である。
【0113】
アッセイドロップアウト率は、全SNPを用いて推定される、リードを有しないSNPの割合である。
【0114】
単一対立遺伝子ドロップアウト(ADO)率は、ヘテロ接合性SNPのみを用いて推定される、たった1つの対立遺伝子が存在するSNPの割合である。
【0115】
「PCRプローブ」とも呼ばれるプライマーは、分子が同一又はほぼ同一であり、プライマーが、標的遺伝子座(例えば、標的多型遺伝子座若しくは非多型遺伝子座)又はユニバーサルプライミング配列にハイブリダイズするように設計された領域を含み、PCR増幅を可能にするように設計されたプライミング配列を含み得る、単一核酸分子(DNA分子若しくはDNAオリゴマーなど)又は核酸分子(DNA分子若しくはDNAオリゴマーなど)の集合体を指す。プライマーはまた、分子バーコードを含んでいてもよい。プライマーは、個々の分子ごとに異なるランダム領域を含んでいてもよい。
【0116】
プライマーのライブラリは、2つ以上のプライマーの集団を指す。様々な実施形態において、ライブラリは、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000、又は100,000個の異なるプライマーを含む。様々な実施形態において、ライブラリは、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なるプライマー対を含み、プライマーの各対が、順方向の試験プライマー及び逆方向の試験プライマーを含み、試験プライマーの各対が、標的遺伝子座にハイブリダイズする。いくつかの実施形態において、プライマーのライブラリは、それぞれが異なる標的遺伝子座に結合する少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる個々のプライマーを含み、個々のプライマーは、プライマー対の一部ではない。いくつかの実施形態において、ライブラリは、(i)プライマー対及び(ii)プライマー対の一部ではない個々のプライマー(ユニバーサルプライマーなど)の両方を有する。
【0117】
異なるプライマーは、同一でないプライマーを指す。
【0118】
異なるプールは、同一でないプールを指す。
【0119】
異なる標的遺伝子座は、同一でない標的遺伝子座を指す。
【0120】
異なるアンプリコンは、同一でないアンプリコンを指す。
【0121】
ハイブリッド捕捉プローブは、PCR又は直接合成などの様々な方法によって生成され、サンプル中の特定の標的DNA配列の1つの鎖に相補的であることを意図している、場合によっては修飾された任意の核酸配列を指す。外因性ハイブリッド捕捉プローブを調製したサンプルに添加し、変性-アニールプロセスを通じてハイブリダイゼーションして、外因性-内因性断片の二本鎖を形成してもよい。次いで、これらの二本鎖は、様々な手段によってサンプルから物理的に分離され得る。
【0122】
配列リードは、例えばクローン配列決定方法を用いて測定した、ヌクレオチド塩基の配列を表すデータを指す。クローン配列決定は、単一の、又はクローンの、又はクラスターの1つの元のDNA分子を表す配列データを生成し得る。配列リードはまた、ヌクレオチドが正しく呼び出された可能性を示す配列の各塩基位置に、関連する品質スコアを有し得る。
【0123】
配列リードをマッピングすることは、特定の生物のゲノム配列における配列リードの起点の位置を決定するプロセスである。配列リードの起点の位置は、リード及びゲノム配列のヌクレオチド配列の類似性に基づく。
【0124】
「マッチング染色体異数性」(MCA)とも呼ばれるマッチしたコピーエラーは、1つの細胞が2つの同一又はほぼ同一の染色体を含む異数性の状態を指す。この種の異数性は、減数分裂における配偶子の形成中に生じる場合があり、減数分裂非分離エラーと呼ばれる場合がある。この種のエラーは、有糸分裂で発生し得る。マッチングトリソミーは、所与の染色体の3つのコピーが個体に存在し、コピーのうちの2つが同一である場合を指し得る。
【0125】
「ユニーク染色体非整数体」(UCA)とも呼ばれるマッチしないコピーエラーは、1つの細胞が同じ親由来の2つの染色体を含有し、相同であり得るが同一ではない異数性の状態を指す。この種の異数性は、減数分裂中に生じる場合があり、減数分裂エラーと呼ばれる場合がある。非マッチングトリソミーは、所与の染色体の3つのコピーが個体に存在し、コピーのうちの2つが同じ親に由来し、かつ相同であるが、同一ではない場合を指し得る。非マッチングトリソミーは、一方の親からの2つの相同な染色体が存在し、染色体のいくつかのセグメントが同一であり、他のセグメントが単に相同である場合を指し得ることに留意されたい。
【0126】
相同染色体は、通常減数分裂中に対合する遺伝子の同じセットを含む染色体コピーを指す。
【0127】
同一染色体は、遺伝子の同じセットを含む染色体コピーを指し、各遺伝子について、それらは、同一又はほぼ同一の対立遺伝子の同じセットを有する。
【0128】
対立遺伝子ドロップアウト(ADO)は、所与の対立遺伝子における相同染色体からの塩基対のセット内の塩基対の少なくとも1つが検出されない状況を指す。
【0129】
遺伝子座ドロップアウト(LDO)は、所与の対立遺伝子における相同染色体からの塩基対のセット内の両方の塩基対が検出されない状況を指す。
【0130】
ホモ接合性とは、対応する染色体遺伝子座と同様の対立遺伝子を有することを指す。
【0131】
ヘテロ接合性とは、対応する染色体遺伝子座として異なる対立遺伝子を有することを指す。
【0132】
ヘテロ接合率は、所与の遺伝子座にヘテロ接合性対立遺伝子を有する群内の個体の割合を指す。また、ヘテロ接合率は、個体、又はDNA若しくはRNAのサンプル中の所与の遺伝子座における対立遺伝子の予測される、又は測定される比率を指し得る。
【0133】
染色体領域は、染色体のセグメント、又は完全な染色体を指す。
【0134】
染色体のセグメントは、1つの塩基対から染色体全体までのサイズの範囲であり得る染色体のセクションを指す。
【0135】
染色体は、完全な染色体、又は染色体のセグメント若しくはセクションのいずれかを指す。
【0136】
コピーは、染色体セグメントのコピー数を指す。これは、染色体セグメントの同一のコピー、又は染色体セグメントの異なるコピーが実質的に類似した遺伝子座のセットを含み、対立遺伝子の1つ以上が異なる、染色体セグメントの非同一の相同コピーを指し得る。M2コピーエラーなどの異数性のいくつかの場合においては、同一である所与の染色体セグメントのいくつかのコピー及び同一でない同じ染色体セグメントのいくつかのコピーを有することが可能であることに留意されたい。
【0137】
ハプロタイプは、典型的には、同じ染色体上で一緒に遺伝される複数の遺伝子座における対立遺伝子の組み合わせを指す。ハプロタイプは、所与の遺伝子座のセット間で生じた組換えイベントの数に応じて、わずか2個の遺伝子座又は染色体全体を指し得る。ハプロタイプはまた、統計的に関連付けられている単一の染色分体上のSNPのセットを指し得る。
【0138】
「フェージングデータ」又は「順序化遺伝子データ」とも呼ばれるハプロタイプデータは、二倍体又は多倍体ゲノム中の単一染色体又は染色体セグメント、例えば、二倍体ゲノム中の染色体の分離された母体又は父体コピーのいずれかからのデータを指す。
【0139】
フェージングは、個々の所与の順序付けられていない二倍体(又は多倍体)遺伝子データのハプロタイプ遺伝子データを決定する行為を指す。これは、1つの染色体上に見出される対立遺伝子のセットについての対立遺伝子における2つの遺伝子のうちのどれが、個体における2つの相同染色体のそれぞれと会合するかを決定する行為を指し得る。
【0140】
フェージングデータは、1つ以上のハプロタイプが決定された遺伝子データを指す。
【0141】
仮説は、第2の相同染色体又は染色体セグメントと比較して、第1の相同染色体又は染色体セグメントのコピー数の可能な過剰出現の程度、可能性のある欠失、可能性のある重複、1つ以上の染色体又は染色体セグメントの所与のセットでの可能性のある倍数性状態、1つ以上の遺伝子座の所与のセットでの可能性のある対立遺伝子状態、可能性のある父系関係、又は1つ以上の染色体又は染色体セグメントの所与のセットでの可能性のあるDNA、RNA、胎児分率、又は遺伝子座のセットからの遺伝子物質の量のセットなどの可能な状態を指す。遺伝状態は、任意選択で、仮説内の各要素が仮説内の他の要素に対して真である相対尤度、又は全体としての仮説が真である相対尤度を示す確率と関連付けることができる。可能性のセットは、1つ以上の要素を含んでもよい。
【0142】
「倍数性状態仮説」とも呼ばれるコピー数仮説は、個体における染色体又は染色体セグメントのコピー数に関する仮説を指す。これはまた、各染色体の起源の親、及び親の2つの染色体のうちのどの染色体が個体に存在するかを含む、染色体のそれぞれの同一性に関する仮説を指し得る。これはまた、ある場合には、関連する個体からのどの染色体、又は染色体セグメントが、個体からの所与の染色体に遺伝的に対応するかに関する仮説を指し得る。
【0143】
関連する個体とは、標的個体と遺伝的に関連し、したがってハプロタイプブロックを共有する任意の個体を指す。1つの文脈において、関連する個体は、標的個体の遺伝的親、又は精子、極性体、胚、胎児、若しくは子供などの親に由来する任意の遺伝物質であってもよい。また、兄弟姉妹、親、又は祖父母を指す場合もある。
【0144】
兄弟姉妹とは、遺伝的親が問題の個体と同じである任意の個体を指す。いくつかの実施形態において、これは、出生児、胚若しくは胎児、又は出生時、胚若しくは胎児に由来する1つ以上の細胞を指し得る。兄弟姉妹はまた、精子、極性体、又は任意の他のセットのハプロタイプ遺伝子物質など、親の一方に由来する単倍体個体を指し得る。個体は、それ自体の兄弟姉妹であるとみなされ得る。
【0145】
子供は、胚、芽球、又は胎児を指し得る。本開示の実施形態において、説明される概念は、出生児、胎児、胚、又はそれからの細胞のセットである個体に等しく良好に適用されることに留意されたい。子供という用語の使用は、単に、子供と呼ばれる個体が親の遺伝的子孫であることを意味する場合がある。
【0146】
胎児は、「胎児の」、又は「胎児と遺伝的に類似している胎盤の領域の」ものを指す。妊娠中の女性において、胎盤の一部は胎児と遺伝的に類似しており、母体血液中に見出される遊離浮遊胎児DNAは、胎児にマッチする遺伝子型を有する胎盤の一部に由来する可能性がある。胎児における染色体の半分の遺伝情報は、胎児の母親から遺伝することに留意されたい。いくつかの実施形態において、胎児細胞に由来するこれらの母体から遺伝した染色体からのDNAは、「母体起源の」ではなく「胎児起源の」ものであるとみなされる。
【0147】
胎児起源のDNAとは、元々遺伝子型が胎児のものと本質的に同等であった細胞の一部であったDNAを指す。
【0148】
母体起源のDNAとは、元々遺伝子型が母親のものと本質的に同等であった細胞の一部であったDNAを指す。
【0149】
親は、個体の遺伝的母親又は父親を指す。個体は、典型的には、2人の親、すなわち母親及び父親を有するが、これは、必ずしも、遺伝的又は染色体キメラのような場合ではないかもしれない。親は個体とみなされ得る。
【0150】
親の文脈は、標的の2つの親の一方又は両方の2つの関連する染色体のそれぞれにおける、所与のSNPの遺伝子状態を指す。
【0151】
母体血漿とは、妊娠している女性からの血液の血漿部分を指す。
【0152】
臨床的決定は、個人の健康又は生存に影響を及ぼす結果を有する行為を行うかどうかの決定を指す。臨床的決定はまた、更なる検査を実行すること、妊娠を中止若しくは維持すること、望ましくない表現型を緩和するための措置を講じること、又は表現型に備えるための行為を行うことを指し得る。
【0153】
診断ボックスは、本明細書に開示される方法の1つ又は複数の態様を実行するように設計された機械の1つ又は組み合わせを指す。一実施形態において、診断ボックスは、患者のケアのポイントに配置されてもよい。一実施形態において、診断ボックスは、標的増幅の後に配列決定を行ってもよい。一実施形態において、診断ボックスは、単独で、又は技術者の助けを借りて機能してもよい。
【0154】
インフォマティクスベースの方法は、大量のデータを理解するために統計に大きく依存する方法を指す。出生前診断の文脈において、これは、例えば分子アレイ又は配列決定からの大量の遺伝子データを仮定して、状態を直接物理的に測定することによってではなく、最も可能性の高い状態を統計的に推測することによって、1つ以上の染色体又は染色体セグメントでの倍数性状態、1つ以上の対立遺伝子での対立遺伝子状態、又は父性を決定するように設計された方法を指す。本開示の一実施形態において、インフォマティクスベースの技術は、本特許出願において開示されるものであってもよい。本開示の一実施形態において、これは、PARENTAL SUPPORTであってもよい。
【0155】
一次遺伝子データは、遺伝子型決定プラットフォームによって出力されるアナログ強度シグナルを指す。SNPアレイの文脈では、一次遺伝子データは、任意の遺伝子型呼び出しが行われる前の強度シグナルを指す。配列決定の文脈では、一次遺伝子データは、任意の塩基対の同一性が決定される前に、及び配列がゲノムにマッピングされる前に、シーケンサから出る、クロマトグラムに類似するアナログ測定値を指す。
【0156】
二次遺伝子データは、遺伝子型決定プラットフォームによって出力される処理された遺伝子データを指す。SNPアレイの文脈では、二次遺伝子データは、SNPアレイリーダーに関連付けられたソフトウェアによって行われた対立遺伝子呼び出しを指し、ソフトウェアは、所与の対立遺伝子がサンプル中に存在するか又は存在しないかどうかを呼び出した。配列決定の文脈では、二次遺伝子データは、配列の塩基対同一性が決定されていることを指し、場合によっては、配列がゲノムにマッピングされている場合もある。
【0157】
遺伝子座に対応するDNAの優先的濃縮、又は遺伝子座におけるDNAの優先的濃縮とは、遺伝子座に対応する濃縮前DNA混合物中のDNAの分子のパーセンテージよりも高い、遺伝子座に対応する濃縮後DNA混合物中のDNAの分子のパーセンテージをもたらす任意の方法を指す。この方法は、遺伝子座に対応するDNA分子の選択的増幅を含んでもよい。この方法は、遺伝子座に対応しないDNA分子を除去することを含んでもよい。この方法は、方法の組み合わせを含んでもよい。濃縮度は、遺伝子座に対応する濃縮後混合物中のDNA分子のパーセンテージを、遺伝子座に対応する濃縮前混合物中のDNA分子のパーセンテージで割ったものとして定義される。優先的濃縮は、複数の遺伝子座で行われてもよい。本開示のいくつかの実施形態において、濃縮度は、20、200、又は2,000を超える。優先的濃縮が複数の遺伝子座で行われる場合、濃縮度は、遺伝子座のセット中の全ての遺伝子座の平均濃縮度を指し得る。
【0158】
増幅は、DNA又はRNAの分子のコピー数を増加させる方法を指す。
【0159】
選択的増幅は、DNA(若しくはRNA)の特定の領域に対応する、DNA(若しくはRNA)の特定の分子、又はDNA(若しくはRNA)の分子のコピー数を増加させる方法を指し得る。また、DNA(若しくはRNA)の非標的化分子又は領域を増加させるよりも、DNA(若しくはRNA)の特定の標的化分子、又はDNA(若しくはRNA)の標的化領域のコピー数を増加させる方法を指し得る。選択的増幅は、優先的濃縮方法であり得る。
【0160】
ユニバーサルプライミング配列は、例えば、ライゲーション、PCR、又はライゲーション媒介PCRによって標的DNA(又はRNA)分子の集団に付加され得るDNA(又はRNA)配列を指す。標的分子の集団に加えられると、ユニバーサルプライミング配列に特異的なプライマーを使用して、単一の増幅プライマー対を使用して標的集団を増幅することができる。ユニバーサルプライミング配列は、典型的には、標的配列に関連しない。
【0161】
ユニバーサルアダプター、又は「ライゲーションアダプター」若しくは「ライブラリタグ」は、標的二本鎖核酸分子の集団の5’末端及び3’末端に共有結合可能なユニバーサルプライミング配列を含む核酸分子である。アダプターの添加は、PCR増幅が行われ得る標的集団の5’末端及び3’末端にユニバーサルプライミング配列を提供し、単一の増幅プライマー対を使用して、標的集団由来の全ての分子を増幅する。
【0162】
標的化は、DNA(又はRNA)の混合物中の遺伝子座のセットに対応するDNA(又はRNA)の分子を選択的に増幅するか又は別様に優先的に濃縮するために使用される方法を指す。
【0163】
結合分布モデルは、同じ確率空間上に定義された複数のランダム変数を仮定して、変数の確率がリンクされている場合に、複数のランダム変数の観点から定義されたイベントの確率を定義するモデルを指す。いくつかの実施形態において、変数の確率がリンクされていない縮退事例が使用されてもよい。
【0164】
がん関連遺伝子は、がんのリスクの変化又はがんの予後の変化に関連する遺伝子を指す。がんを促進する例示的ながん関連遺伝子としては、がん遺伝子、細胞増殖、浸潤又は転移を促進する遺伝子、アポトーシスを阻害する遺伝子、及び血管新生促進遺伝子が挙げられる。がんを阻害するがん関連遺伝子としては、限定されないが、腫瘍抑制遺伝子、細胞増殖、浸潤又は転移を阻害する遺伝子、アポトーシスを促進する遺伝子、及び抗血管新生遺伝子が挙げられる。
【0165】
エストロゲン関連がんは、エストロゲンによって調節されるがんを指す。エストロゲン関連がんの例としては、限定されないが、乳がん及び卵巣がんが挙げられる。Her2は、多くのエストロゲン関連がんにおいて過剰発現される(その全体が参照により本明細書に組み込まれる米国特許第6,165,464号)。
【0166】
アンドロゲン関連がんは、アンドロゲンによって調節されるがんを指す。アンドロゲン関連がんの一例は、前立腺がんである。
【0167】
通常よりも高い発現レベルは、対照対象(例えば、がんなどの疾患又は障害を有しない対象)における対応する分子の平均発現レベルよりも高いレベルでのmRNA又はタンパク質の発現を指す。様々な実施形態において、発現レベルは、対照対象におけるレベルよりも少なくとも20、40、50、75、90、100、200、500、又は更には1000%高い。
【0168】
通常よりも低い発現レベルは、対照対象(例えば、がんなどの疾患又は障害を有しない対象)における対応する分子の平均発現レベルよりも低いレベルでのmRNA又はタンパク質の発現を指す。様々な実施形態において、発現レベルは、対照対象におけるレベルよりも少なくとも20、40、50、75、90、95又は100%低い。いくつかの実施形態において、mRNA又はタンパク質の発現は、検出可能ではない。
【0169】
発現又は活性を調節することは、対照条件と比較して、例えばタンパク質又は核酸配列の発現又は活性を増加又は減少させることを指す。いくつかの実施形態において、発現又は活性の調節は、少なくとも10、20、40、50、75、90、100、200、500、又は更には1000%の増加又は減少である。様々な実施形態において、転写、翻訳、mRNA若しくはタンパク質の安定性、又はインビボでのmRNA若しくはタンパク質の他の分子への結合は、療法によって調節される。いくつかの実施形態において、mRNAのレベルは、標準的なノーザンブロット分析によって決定され、タンパク質のレベルは、標準的なウェスタンブロット分析、例えば、本明細書に記載される分析、又は例えば、Ausubelらによって説明される分析(その全体が参照により本明細書に組み込まれるCurrent Protocols in Molecular Biology,John Wiley & Sons,New York,July 11,2013)によって決定される。一実施形態において、タンパク質のレベルは、標準的な方法を用いて酵素活性のレベルを測定することによって決定される。別の好ましい実施形態において、mRNA、タンパク質、又は酵素活性のレベルは、ナンセンス変異に対してホモ接合性の細胞など、タンパク質の機能的形態を発現しない対照細胞において、対応するレベルの20、10、5、又は2倍以下である。更に別の実施形態において、mRNA、タンパク質、又は酵素活性のレベルは、非がん細胞、異常な細胞増殖を誘導するか若しくはアポトーシスを阻害する条件に曝露されていない細胞、又は目的の疾患若しくは障害を有しない対象からの細胞などの対照細胞において、対応する基底レベルの20、10、5、又は2倍以下である。
【0170】
mRNA又はタンパク質の発現又は活性を調節するのに十分な投薬量は、対象に投与された場合にmRNA又はタンパク質の発現又は活性を増加又は減少させる療法の量を指す。いくつかの実施形態において、発現又は活性を低下させる化合物については、調節は、阻害剤の投与前の同じ対象又は未治療の対照対象よりも、治療された対象において少なくとも10%、30%、40%、50%、75%又は90%低い発現又は活性の低下である。加えて、いくつかの実施形態において、発現又は活性を増加させる化合物については、mRNA又はタンパク質の発現又は活性の量は、調節物質の投与前の同じ対象又は未治療の対照対象よりも、治療された対象において少なくとも1.5倍、2倍、3倍、5倍、10倍又は20倍大きい。
【0171】
いくつかの実施形態において、化合物は、mRNA又はタンパク質の発現又は活性を直接又は間接的に調節し得る。例えば、化合物は、目的のmRNA又はタンパク質の発現又は活性に直接的又は間接的に影響を与える分子(例えば、核酸、タンパク質、シグナル伝達分子、成長因子、サイトカイン、又はケモカイン)の発現又は活性を調節することによって、目的のmRNA又はタンパク質の発現又は活性を間接的に調節し得る。いくつかの実施形態において、化合物は、細胞分裂を阻害するか、又はアポトーシスを誘導する。療法におけるこれらの化合物は、例えば、未精製又は精製タンパク質、抗体、合成有機分子、天然に存在する有機分子、核酸分子、及びそれらの成分を含んでもよい。併用療法における化合物は、同時に又は連続して投与されてもよい。例示的な化合物には、シグナル伝達阻害剤が含まれる。
【0172】
精製とは、自然に付随する他の成分から分離されることを指す。典型的には、因子は、それが天然に会合するタンパク質、抗体、及び天然に存在する有機分子を少なくとも50重量%含まない場合、実質的に純粋である。いくつかの実施形態において、因子は、少なくとも75重量%、90重量%、又は99重量%純粋である。実質的に純粋な因子は、化学合成、因子の天然源からの分離、又は因子を天然に産生しない組換え宿主細胞内での因子の産生によって得られてもよい。タンパク質及び小分子は、Ausubelら(その全体が参照により本明細書に組み込まれるCurrent Protocols in Molecular Biology,John Wiley & Sons,New York,July 11,2013)により説明されるものなどの標準的な技術を使用して当業者により精製され得る。いくつかの実施形態において、因子は、ポリアクリルアミドゲル電気泳動、カラムクロマトグラフィー、光学密度、HPLC分析、又はウェスタン分析を使用して測定した場合、出発材料の少なくとも2、5、又は10倍の純度である(Ausubelら、前出)。精製の例示的な方法には、免疫沈降、免疫親和性クロマトグラフィー等のカラムクロマトグラフィー、磁気ビーズ免疫親和性精製、及びプレート結合抗体によるパニングが含まれる。
【0173】
一態様において、本発明は、一般的に、少なくとも一部には、コピー数変動(例えば、染色体セグメント又は染色体全体の欠失又は重複)の有無を決定する改良された方法に関する。この方法は、特に、関連する染色体セグメントから入手可能なデータが少数であることに起因して、従来の方法を用いて高い特異性及び感度で検出することが困難な場合がある小さな欠失又は重複を検出するのに有用である。この方法は、改善された分析方法、改善されたバイオアッセイ方法、及び改善された分析方法とバイオアッセイ方法の組み合わせを含む。本発明の方法は、試験される細胞又は核酸分子のわずかな割合にのみ存在する欠失又は重複を検出するのにも使用することができる。このことは、疾患の発生前に(例えば、前がん状態で)、又は疾患の早期、例えば、欠失又は重複を伴う多数の疾患細胞(例えばがん細胞)が蓄積する前に、欠失又は重複を検出することを可能にする。疾患又は障害に関連する欠失又は重複の更に正確な検出は、その疾患又は障害を診断し、予知し、予防し、遅らせ、安定化させ、又は治療するための改善された方法を可能にする。いくつかの欠失又は重複は、がん又は重篤な知的障害又は身体障害と関連することが知られている。
【0174】
別の態様において、本発明は、一般的に、少なくとも一部には、単一ヌクレオチド変動(SNV)を検出する改善された方法に関する。これらの改善された方法は、改善された分析方法、改善されたバイオアッセイ方法、及び改善された分析方法とバイオアッセイ方法の組み合わせを使用する改善された方法を含む。特定の例示的な実施形態において、本方法を使用して、例えば、SNVが非常に低濃度で(例えば、SNV遺伝子座の正常コピーの総数に対して10%、5%、4%、3%、2.5%、2%、1%、0.5%、0.25%又は0.1%未満で)存在するサンプル(例えば、循環遊離DNAサンプル)中のがんを検出し、診断し、モニタリングし、又はステージを決定する。すなわち、これらの方法は、特定の例示的な実施形態において、遺伝子座について存在する正常な多型対立遺伝子に対して比較的低い割合の変異又はバリアントが存在するサンプルに特に十分に適している。最後に、コピー数変動を検出するための改善された方法を、単一ヌクレオチド変動を検出するための改善された方法と組み合わせた方法が本明細書で提供される。
【0175】
がんなどの疾患の治療の成功は、多くは、早期診断、疾患の正しいステージ決定、有効な治療レジメンの選択、再発を予防又は検出するための密接なモニタリングに依存する。がん診断について、組織生検から得られる腫瘍物質の組織学的評価が、最も信頼性の高い方法であると考えられることが多い。しかしながら、生検に基づくサンプリングの侵襲的性質により、大量スクリーニング及び定期的なフォローアップには実用的ではない。したがって、本方法は、比較的低コストであり、かつターンアラウンドタイムが速いことが望まれる場合に、非侵襲的に行うことができるという利点を有する。本発明の方法によって使用可能な標的化配列決定は、ショットガン配列決定よりも少ないリード(例えば、4000万リードではなく、数百リード)を必要とし、それによって、コストを減らす。マルチプレックスPCR及び使用可能な次世代配列決定は、スループットを増加させ、コストを減らす。
【0176】
いくつかの実施形態において、本方法は、個体における欠失、重複又は単一ヌクレオチドバリアントを検出するために使用される。欠失、重複又は単一ヌクレオチドバリアントを有することが疑われる細胞又は核酸を含有する個体由来のサンプルを分析してもよい。いくつかの実施形態において、サンプルは、欠失、重複又は単一ヌクレオチドバリアントを有することが疑われる組織又は臓器、例えば、がん性であることが疑われる細胞又は塊に由来する。本発明の方法を使用して、欠失、重複又は単一ヌクレオチドバリアントを有する細胞と、欠失、重複又は単一ヌクレオチドバリアントを有しない細胞とを含有する混合物において、1つの細胞又は少数の細胞にのみ存在する欠失、重複又は単一ヌクレオチドバリアントを検出することができる。いくつかの実施形態において、個体由来の血液サンプルからのcfDNA又はcfRNAが分析される。いくつかの実施形態において、cfDNA又はcfRNAは、細胞(例えばがん細胞)によって分泌される。いくつかの実施形態において、cfDNA又はcfRNAは、壊死又はアポトーシスを受けている細胞(例えばがん細胞)によって放出される。本発明の方法を使用して、わずかな割合のcfDNA又はcfRNA中にのみ存在する欠失、重複又は単一ヌクレオチドバリアントを検出することができる。いくつかの実施形態において、胚由来の1つ以上の細胞が試験される。
【0177】
いくつかの実施形態において、本方法は、胎児の非侵襲的又は侵襲的出生前試験に使用される。これらの方法を使用して、重度の精神的若しくは身体的障害、学習障害、又はがんに関連することが知られている欠失又は重複などの染色体セグメント又は染色体全体の欠失又は重複の有無を決定することができる。非侵襲的出生前検査(NIPT)のためのいくつかの実施形態において、妊娠中の母親由来の血液サンプルからの細胞、cfDNA又はcfRNAが試験される。本方法は、母親からの大量の細胞、cfDNA、又はcfRNAもまた存在するにもかかわらず、胎児からの細胞、cfDNA、又はcfRNA中の欠失又は重複の検出を可能にする。侵襲的出生前検査のためのいくつかの実施形態において、胎児由来のサンプルからのDNA又はRNAが試験される(例えば、CVS又は羊水穿刺サンプル)。サンプルが妊娠中の母親由来のDNA又はRNAで汚染されている場合であっても、本方法を使用して、胎児DNA又はRNAの欠失又は重複を検出することができる。
【0178】
コピー数変動の有無を決定することに加え、所望な場合に、1つ以上の他の因子を分析してもよい。これらの因子を使用して、診断の精度(例えば、がんの有無又はがんのリスク上昇を決定すること、がんを分類すること、又はがんのステージを決定すること)又は予後の精度を高めることができる。これらの因子は、対象において有効である可能性が高い特定の療法又は治療レジメンを選択するためにも使用することができる。例示的な因子としては、多型又は変異の有無、全体又は特定のcfDNA、cfRNA、マイクロRNA(miRNA)のレベル変化(増加又は減少)、腫瘍画分の変化(増加又は減少)、メチル化レベルの変化(増加又は減少)、DNA完全性の変化(増加又は減少)、変化(増加又は減少)又は代替的なmRNAスプライシングが挙げられる。
【0179】
以下の章は、フェージングデータ(例えば、推論又は測定されたフェージングデータ)又は非フェージングデータを用いて欠失又は重複を検出する方法、試験可能なサンプル、サンプル調製、増幅及び定量化の方法、遺伝子データをフェージングする方法、検出可能な多型、変異、核酸変化、mRNAスプライシングの変化及び核酸レベルにおける変化、本方法、他のリスク因子及びスクリーニング方法から得られるデータベース、診断又は治療が可能ながん、がん治療、治療を試験するためのがんモデル、及び治療を処方し、行うための方法を記載する。
【0180】
フェージングデータを用いて倍数性を決定するための例示的な方法
本発明の方法のいくつかは、一部には、CNVを検出するためにフェージングデータを用いると、非フェージングデータを用いる場合と比較して、偽陰性率及び偽陽性率が減少するという発見に基づく。この改善は、低レベルで存在するCNVを有するサンプルにとって、最大のものである。したがって、フェージングデータは、非フェージングデータを用いる場合(例えば、1つ以上の遺伝子座での対立遺伝子比率を計算するか、又は異なる遺伝子座での対立遺伝子比率が、異常な量で同じ又は異なるハプロタイプが存在するように見えることを示すかどうかを考慮することなく、対立遺伝子比率を集計して、染色体又は染色体セグメントにわたる集計値(例えば平均値)を与える方法)と比較して、CNV検出の精度を高める。フェージングデータを使用することにより、対立遺伝子比率の測定値と対立遺伝子比率の予測値との間の差が、ノイズに起因するか、又はCNVの存在に起因するかについて、より正確な決定を行うことが可能になる。例えば、ある領域内の遺伝子座の大部分又は全てで、対立遺伝子比率の測定値と対立遺伝子比率の予測値との間の差が、サンプルハプロタイプが過剰出現されていることを示す場合、CNVが存在する可能性が高い。ハプロタイプにおける対立遺伝子間の結合を使用することにより、測定された遺伝子データが、(ランダムノイズではなく)過剰出現しているのと同じハプロタイプに一致するかどうかを決定することができる。これとは対照的に、対立遺伝子比率の測定値と対立遺伝子比率の予測値との間の差が、ノイズ(例えば実験誤差)にのみ起因する場合、いくつかの実施形態において、約半分の時間は、第1のハプロタイプが過剰出現するように見え、他方の約半分の時間は、第2のハプロタイプが過剰出現するように見える。
【0181】
SNP間の連鎖、及び胎児に成長した胚を形成した配偶子を生じさせた減数分裂中に発生したクロスオーバーの可能性を考慮に入れることによって、精度を高めることができる。1つ以上の仮説について対立遺伝子測定値の予測される分布を作成する場合に連鎖を使用することは、連鎖が使用されない場合よりも実態にかなり良好に対応する、予測される対立遺伝子測定値分布の作成を可能にする。例えば、互いに近接して位置する2つのSNP、1及び2が存在し、母親が、1つの相同体上のSNP1でA及びSNP2でAであり、相同体2上のSNP1でB及びSNP2でBであると仮定する。両方のホモログ上の両方のSNPについて父親がAであり、胎児SNP1についてBが測定される場合、これは、ホモログ2が胎児に遺伝していることを示し、したがって、BがSNP2で胎児に存在する可能性がはるかに高いことを示す。連鎖を考慮したモデルはこれを予測できるが、連鎖を考慮していないモデルは予測できない。これに代えて、母親がSNP1でABであり、近くのSNP2でABである場合、その位置での母体のトリソミーに対応する2つの仮説を使用することができ、1つは、マッチングコピーエラー(減数分裂IIにおける非分裂又は胎児発達初期における有糸分裂)を伴い、1つは、非マッチングコピーエラー(減数分裂Iにおける非分裂)を伴う。マッチングコピーエラートリソミーの場合では、SNP1で母親からAAが胎児に遺伝した場合、胎児には、ABではなく、SNP2で母親からAA又はBBのいずれかが遺伝する可能性がはるかに高い。非マッチングコピーエラーの場合では、胎児には、両方のSNPにおいて母親からABが遺伝する。連鎖を考慮したCNV呼び出し法によって作成された対立遺伝子分布仮説は、これらの予測を行うことができ、したがって、連鎖を考慮しないCNV呼び出し法よりも大幅に大きな範囲で実際の対立遺伝子測定に対応する。
【0182】
いくつかの実施形態において、フェージング遺伝子データを使用して、個体のゲノムにおいて(例えば、1つ以上の細胞のゲノムにおいて、又はcfDNA又はcfRNAにおいて)、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定する。例示的な過剰出現としては、第1の相同染色体セグメントの重複又は第2の相同染色体セグメントの欠失が挙げられる。いくつかの実施形態において、第1の染色体セグメントと相同染色体セグメントが等しい割合で存在するため、過剰出現は存在しない(例えば、二倍体サンプル中の各セグメントの1つのコピー)。いくつかの実施形態において、核酸サンプルにおいて対立遺伝子比率の計算値を、対立遺伝子比率の予測値と比較して、以下に更に記載するような過剰出現が存在するかどうかを決定する。本明細書において、「第2の相同染色体セグメントと比較した場合の第1の相同染色体セグメント」との句は、染色体セグメントの第1のホモログ及び染色体セグメントの第2のホモログを意味する。
【0183】
いくつかの実施形態において、本方法は、第1の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第1の相同染色体セグメントについてのフェージング遺伝子データを得ることと、第2の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、上述の多型遺伝子座のセット中の各々の遺伝子座にある各々の対立遺伝子について、個体からの1つ以上の標的細胞及び1つ以上の非標的細胞からのDNA又はRNAのサンプル中に存在する各々の対立遺伝子の量を含む、測定された遺伝子対立遺伝子データを得ることと、を含む。いくつかの実施形態において、本方法は、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットを列挙することと、上述のそれぞれの仮説について、サンプル中の総DNA又はRNAに対する、1つ以上の標的細胞からのDNA又はRNAの1つ以上の可能な比率について得られたフェージング遺伝子データから、サンプル中の複数の遺伝子座について予測された遺伝子データを計算することと、それぞれのDNA又はRNAの可能な比率について、かつ、それぞれの仮説について、サンプルの得られた遺伝子データと、そのDNA又はRNAの可能な比率について、かつ、その仮説についてのサンプルについて予測される遺伝子データとの間のデータフィッティングを計算する(例えば、コンピュータ上で計算する)ことと、このデータフィッティングに従い、上述の1つ以上の仮説をランク付けすることと、最も高くランク付けされた仮説を選択することによって、個体からの1つ以上の細胞のゲノム中の第1の相同染色体セグメントのコピー数の過剰出現の程度を決定することと、を含む。
【0184】
一態様において、本発明は、胎児のゲノム中の目的の染色体又は染色体セグメントの数のコピーを決定するための方法を特徴とする。いくつかの実施形態において、本方法は、胎児の少なくとも1つの生物学的親についてのフェージング遺伝子データを得ることを含み、フェージング遺伝子データは、親の第1の相同染色体セグメント及び第2の相同染色体セグメント上の多型遺伝子座のセット中の各遺伝子座について存在する対立遺伝子の同一性を含む。いくつかの実施形態において、本方法は、各遺伝子座での各対立遺伝子の量を測定することによって、胎児DNA又はRNAと、胎児の母体からの母体DNA又はRNAとを含むDNA又はRNAの混合サンプル中の染色体又は染色体セグメント上の多型遺伝子座のセットでの遺伝子データを得ることを含む。いくつかの実施形態において、本方法は、胎児のゲノム中に存在する目的の染色体又は染色体セグメントのコピー数を指定する1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、(i)親(複数可)から得られたフェージング遺伝子データ、及び任意選択で(ii)胎児に目的の染色体又は染色体セグメントのコピーを寄与する配偶子の形成中に生じた可能性のある1つ以上のクロスオーバーの確率から、混合サンプル中の複数の遺伝子座のそれぞれにおけるそれぞれ対立遺伝子の予測される量の確率分布を作成する(例えば、コンピュータ上で作成する)ことと、仮説のそれぞれについて、(1)混合サンプルの得られた遺伝子データと、(2)その仮説についての混合サンプル中の複数の遺伝子座のそれぞれにおけるそれぞれの対立遺伝子の予測される量の確率分布との間のフィッティングを計算する(例えば、コンピュータ上で計算する)ことと、データフィッティングに従って、仮説の1つ以上をランク付けすることと、最も高くランク付けされた仮説を選択し、それにより、胎児のゲノム中の目的の染色体セグメントのコピー数を決定することと、を含む。
【0185】
いくつかの実施形態において、本方法は、本明細書に記載される方法のいずれか、又は任意の既知の方法を用いてフェージング遺伝子データを得ることを伴う。いくつかの実施形態において、本方法は、同時に、又は任意の順序で連続して、(i)第1の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第1の相同染色体セグメントについてのフェージング遺伝子データを得ることと、(ii)第2の相同染色体セグメント上の多型遺伝子座のセット中の各々の遺伝子座について、第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の同一性を含む、第2の相同染色体セグメントについてのフェージング遺伝子データを得ることと、(iii)個体からの1つ以上の細胞からのDNAのサンプル中の多型遺伝子座のセット中の各々の遺伝子座についての各々の対立遺伝子の量を含む、測定された遺伝子対立遺伝子データを得ることと、を伴う。
【0186】
いくつかの実施形態において、本方法は、サンプルの由来となる少なくとも1つの細胞においてヘテロ接合性である多型遺伝子座(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座)のセット内の1つ以上の遺伝子座についての対立遺伝子比率を計算することを伴う。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子の1つの測定量を、その遺伝子座についての全ての対立遺伝子の総測定量によって割り算したものである。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子(例えば、第1の相同染色体セグメント上の対立遺伝子)の1つの測定量を、その遺伝子座についての1つ以上の他の対立遺伝子(例えば、第2の相同染色体セグメント上の対立遺伝子)の測定量によって割り算したものである。対立遺伝子比率の計算値は、本明細書に記載される方法のいずれか、又は任意の標準的な方法(例えば、本明細書に記載される対立遺伝子比率の計算値の任意の数学的変換)を用いて計算されてもよい。
【0187】
いくつかの実施形態において、本方法は、第1の相同染色体セグメントと第2の相同染色体セグメントが同じ割合で存在する場合、ある遺伝子座についての1つ以上の対立遺伝子比率の計算値を、その遺伝子座について予測される対立遺伝子比率と比較することによって、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することを伴う。いくつかの実施形態において、対立遺伝子比率の予測値は、ある遺伝子座についての可能な複数の対立遺伝子が存在する尤度が等しいと仮定する。ある特定の遺伝子座についての対立遺伝子比率の計算値が、対立遺伝子の1つの測定量をその遺伝子座についての全ての対立遺伝子の総測定量で割り算したものであるいくつかの実施形態において、対応する対立遺伝子比率の予測値は、二対立遺伝子座について0.5であるか、又は三対立遺伝子座について1/3である。いくつかの実施形態において、対立遺伝子比率の予測値は、全ての遺伝子座について同じであり、例えば、全ての遺伝子座について0.5である。いくつかの実施形態において、対立遺伝子比率の予測値は、ある遺伝子座についての可能な対立遺伝子が存在する尤度、例えば、対象が属する特定の集合(例えば、対象の祖先に基づく集合)における各々の対立遺伝子の頻度に基づく尤度が異なる場合があると仮定する。このような対立遺伝子頻度は、公的に利用可能である(例えば、HapMap Project;Perlegen Human Haplotype Project;ウェブncbi.nlm.nih.gov/projects/SNP/;Sherry ST,Ward MH,Kholodov M,et al.dbSNP:the NCBI database of genetic variation.Nucleic Acids Res.2001年1月1日;29(1):308-11を参照、各々、その全体が参照による本明細書に組み込まれる)。いくつかの実施形態において、対立遺伝子比率の予測値は、第1の相同染色体セグメントの過剰出現の程度を示す特定の仮説について試験される特定の個体について予測される対立遺伝子比率である。例えば、ある特定の個体についての対立遺伝子比率の予測値は、その個体からのフェージング遺伝子データ又は非フェージング遺伝子データ(例えば、非がん性サンプルなどの欠失又は重複を有する可能性が低い、その個体からのサンプル)、又はその個体からの1名以上の血縁者からのデータに基づいて決定されてもよい。出生前検査のいくつかの実施形態において、対立遺伝子比率の予測値は、第1の相同染色体セグメントの過剰出現の程度を示す特定の仮説について、妊娠中の母親及び胎児からのDNA又はRNAを含む混合サンプル(母親からのcfDNA及び胎児からのcfDNAを含む母体血漿又は血清サンプルなど)について予測される対立遺伝子比率である。例えば、混合サンプルについての対立遺伝子比率の予測値は、母親からの遺伝子データ及び胎児についての予測される遺伝子データ(母体及び/又は父親から胎児に遺伝した対立遺伝子の予測など)に基づいて決定されてもよい。いくつかの実施形態において、母親のみからのDNA又はRNAのサンプルからのフェージング又は非フェージング遺伝子データ(例えば、母体血液サンプルからのバフィーコート)は、混合サンプル中の母体のDNA又はRNAからの対立遺伝子、及び母体から胎児に遺伝したかもしれない(したがって、混合サンプル中の胎児DNA又はRNA中に存在し得る)対立遺伝子を決定することになる。いくつかの実施形態において、父親のみからのDNA又はRNAのサンプルからのフェージング又は非フェージング遺伝子データを使用して、父親から胎児に遺伝したかもしれない(したがって、混合サンプル中の胎児DNA又はRNA中に存在し得る)対立遺伝子を決定する。対立遺伝子比率の予測値は、本明細書に記載される方法のいずれか、又は任意の標準的な方法(例えば、本明細書に記載される対立遺伝子比率の予測値の任意の数学的変換)を用いて計算されてもよい(その全体が参照により本明細書に組み込まれる、2011年11月18日に出願された米国特許公開第2012/0270212号)。
【0188】
いくつかの実施形態において、対立遺伝子比率の計算値は、(i)第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の測定量についての対立遺伝子比率を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、その遺伝子座についての対立遺伝子比率の予測値より大きい場合、又は(ii)第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の測定量についての対立遺伝子比率を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、その遺伝子座についての対立遺伝子比率の予測値より小さい場合のいずれかの場合、第1の相同染色体セグメントのコピー数の過剰出現の指標である。いくつかの実施形態において、対立遺伝子比率の計算値は、その遺伝子座についての比率の予測値より顕著に大きいか、又は小さい場合にのみ、過剰出現の指標であると考えられる。いくつかの実施形態において、対立遺伝子比率の計算値は、(i)第1の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の測定量についての対立遺伝子比率を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、その遺伝子座についての対立遺伝子比率の予測値より小さいか、又は等しい場合、又は(ii)第2の相同染色体セグメント上の遺伝子座に存在する対立遺伝子の測定量についての対立遺伝子比率を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、その遺伝子座についての対立遺伝子比率の予測値より大きいか、又は等しい場合のいずれかの場合、第1の相同染色体セグメントのコピー数の過剰出現がないことの指標である。いくつかの実施形態において、対応する比率の予測値に等しい、比率の計算値は、無視される(これらは、過剰出現がないことの指標であるため)。
【0189】
様々な実施形態において、以下の方法のうち1つ以上を使用して、対立遺伝子比率の計算値のうちの1つ以上を、対応する対立遺伝子比率の予測値(複数可)と比較する。いくつかの実施形態において、対立遺伝子比率の計算値が、その差の大きさにかかわらず、特定の遺伝子座についての対立遺伝子比率の予測値を上回るか、又は下回るかを決定する。いくつかの実施形態において、対立遺伝子比率の計算値が、対立遺伝子比率の予測値を上回るか、又は下回るかにかかわらず、対立遺伝子比率の計算値と、ある特定の遺伝子座についての対立遺伝子比率の予測値との差の大きさを決定する。いくつかの実施形態において、対立遺伝子比率の計算値が、対立遺伝子比率の予測値を上回るか、又は下回るか、及びある特定の遺伝子座についてのその差の大きさを決定する。いくつかの実施形態において、対立遺伝子比率の計算値の平均又は重み付けされた平均値が、その差の大きさにかかわらず、対立遺伝子比率の予測値の平均又は重み付けされた平均値を上回るか、又は下回るかを決定する。いくつかの実施形態において、対立遺伝子比率の計算値の平均又は重み付けされた平均値が、対立遺伝子比率の予測値の平均又は重み付けされた平均値を上回るか、又は下回るかにかかわらず、対立遺伝子比率の計算値の平均又は重み付けされた平均値と、対立遺伝子比率の予測値の平均又は重み付けされた平均値との差の大きさを決定する。いくつかの実施形態において、対立遺伝子比率の計算値の平均又は重み付けされた平均値が、対立遺伝子比率の予測値の平均又は重み付けされた平均値を上回るか、又は下回るか、及びその差の大きさを決定する。いくつかの実施形態において、対立遺伝子比率の計算値と対立遺伝子比率の予測値との差の大きさの平均又は重み付けされた平均値を決定する。
【0190】
いくつかの実施形態において、対立遺伝子比率の計算値と1つ以上の遺伝子座についての対立遺伝子比率の予測値との差の大きさを使用して、第1の相同染色体セグメントのコピー数の過剰出現が、1つ以上の細胞のゲノム中の第1の相同染色体セグメントの重複又は第2の相同染色体セグメントの欠失に起因するものであるかどうかを決定する。
【0191】
いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現は、以下の条件のうちの1つ以上が満たされる場合に、存在すると決定される。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現の指標である対立遺伝子比率の計算値の数値は、閾値を上回る。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現がないことの指標である対立遺伝子比率の計算値の数値は、閾値を下回る。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現の指標である対立遺伝子比率の計算値と、対応する対立遺伝子比率の予測値との差の大きさは、閾値を上回る。いくつかの実施形態において、過剰出現の指標である全ての対立遺伝子比率の計算値について、対立遺伝子比率の計算値と対応する対立遺伝子比率の予測値との差の大きさの合計が、閾値を上回る。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現がないことの指標である対立遺伝子比率の計算値と、対応する対立遺伝子比率の予測値との差の大きさは、閾値を下回る。いくつかの実施形態において、第1の相同染色体セグメント上に存在する対立遺伝子の測定量についての対立遺伝子比率の計算値の平均又は重み付けされた平均値を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、対立遺伝子比率の予測値の平均又は重み付けされた平均値より少なくとも1つの閾値だけ大きい。いくつかの実施形態において、第2の相同染色体セグメント上に存在する対立遺伝子の測定量についての対立遺伝子比率の計算値の平均又は重み付けされた平均値を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、対立遺伝子比率の予測値の平均又は重み付けされた平均値より少なくとも1つの閾値だけ小さい。いくつかの実施形態において、対立遺伝子比率の計算値と、第1の相同染色体セグメントのコピー数の過剰出現について予測される対立遺伝子比率との間のデータフィッティングは、閾値を下回る(良好なデータフィッティングの指標である)。いくつかの実施形態において、対立遺伝子比率の計算値と、第1の相同染色体セグメントのコピー数の過剰出現がないことについて予測される対立遺伝子比率との間のデータフィッティングは、閾値を上回る(データフィッティング不良の指標である)。
【0192】
いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現は、以下の条件のうちの1つ以上が満たされる場合に、存在しないと決定される。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現の指標である対立遺伝子比率の計算値の数値は、閾値を下回る。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現がないことの指標である対立遺伝子比率の計算値の数値は、閾値を上回る。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現の指標である対立遺伝子比率の計算値と、対応する対立遺伝子比率の予測値との差の大きさは、閾値を下回る。いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現がないことの指標である対立遺伝子比率の計算値と、対応する対立遺伝子比率の予測値との差の大きさは、閾値を上回る。いくつかの実施形態において、第1の相同染色体セグメント上に存在する対立遺伝子の測定量についての対立遺伝子比率の計算値の平均又は重み付けされた平均値を、その遺伝子座についての全ての対立遺伝子の総測定量で割り算し、対立遺伝子比率の予測値の平均又は重み付けされた平均値を引いたものが、閾値を下回る。いくつかの実施形態において、対立遺伝子比率の予測値の平均又は重み付けされた平均値から、第2の相同染色体セグメント上に存在する対立遺伝子の測定量についての対立遺伝子比率の計算値の平均又は重み付けされた平均値を引き算し、その遺伝子座についての全ての対立遺伝子の総測定量で割り算したものが、閾値を下回る。いくつかの実施形態において、対立遺伝子比率の計算値と、第1の相同染色体セグメントのコピー数の過剰出現について予測される対立遺伝子比率との間のデータフィッティングは、閾値を上回る。いくつかの実施形態において、対立遺伝子比率の計算値と、第1の相同染色体セグメントのコピー数の過剰出現がないことについて予測される対立遺伝子比率との間のデータフィッティングは、閾値を下回る。いくつかの実施形態において、閾値は、目的のCNVを有することが知られているサンプル及び/又はCNVを欠くことが知られているサンプルの経験的な試験から決定される。
【0193】
いくつかの実施形態において、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定することは、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットを列挙することを含む。例示的な仮説では、第1の染色体セグメントと相同な染色体セグメントが等しい割合(二倍体サンプル中の各セグメントの1コピーなど)で存在するため、過剰出現は存在しない。他の例示的な仮説は、1回以上複製される第1の相同染色体セグメント(例えば、第2の相同染色体セグメントのコピー数と比較して、第1の相同染色体セグメントの1、2、3、4、5又はもっと多い過剰なコピー)を含む。別の例示的な仮説は、第2の相同染色体セグメントの欠失を含む。更に別の例示的な仮説は、第1及び第2の相同染色体セグメントの両方の欠失である。いくつかの実施形態において、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率の予測値は、それぞれの仮説について、その仮説によって指定される過剰出現の程度を考慮して、推定される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値と対立遺伝子比率の予測値とを比較することによって計算され、最大の尤度を有する仮説が選択される。
【0194】
いくつかの実施形態において、試験統計の予測分布(expected distribution)は、各仮説についての対立遺伝子比率の予測値を用いて計算される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値を用いて計算される試験統計と、対立遺伝子比率の予測値を用いて計算される試験統計の予測分布とを比較することによって計算され、最大の尤度を有する仮説が選択される。
【0195】
いくつかの実施形態において、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座))についての対立遺伝子比率の予測値は、第1の相同染色体セグメントについてのフェージング遺伝子データ、第2の相同染色体セグメントについてのフェージング遺伝子データ、及びその仮説によって指定される過剰出現の程度を考慮して、推定される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値と対立遺伝子比率の予測値とを比較することによって計算され、最大の尤度を有する仮説が選択される。
【0196】
混合サンプルの使用
多くの実施形態について、サンプルは、1つ以上の標的細胞及び1つ以上の非標的細胞からのDNA又はRNAを含む混合サンプルであることが理解されるだろう。いくつかの実施形態において、標的細胞は、CNV(例えば、目的の欠失又は重複)を有する細胞であり、非標的細胞は、目的のコピー数変動を有しない細胞である(例えば、目的の欠失又は重複を有する細胞と、試験される欠失又は重複のいずれも含まない細胞との混合物)。いくつかの実施形態において、標的細胞は、ある疾患若しくは障害又は疾患若しくは障害のリスク上昇に関連する細胞(例えば、がん細胞)であり、非標的細胞は、ある疾患若しくは障害又は疾患若しくは障害のリスク上昇に関連しない細胞(例えば、非がん性細胞)である。いくつかの実施形態において、標的細胞は全て同じCNVを有する。いくつかの実施形態において、2つ以上の標的細胞は、異なるCNVを有する。いくつかの実施形態において、標的細胞のうちの1つ以上は、少なくとも1つの他の標的細胞では見られない、その疾患若しくは障害又は疾患若しくは障害のリスク上昇に関連するCNV、多型又は変異を有する。いくつかのこのような実施形態において、サンプルからの全細胞の中で、その疾患若しくは障害又は疾患若しくは障害のリスク上昇に関連する細胞の一部は、そのサンプル中のこれらのCNV、多型又は変異の最も頻度が高い部分より大きいか、又はこれに等しいと仮定される。例えば、細胞の6%がK-ras変異を有し、細胞の8%がBRAF変異を有する場合、細胞の少なくとも8%ががん性であると仮定される。
【0197】
いくつかの実施形態において、サンプル中の総DNA(又はRNA)に対する1つ以上の標的細胞からのDNA(又はRNA)の比率が計算される。いくつかの実施形態において、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットが列挙される。いくつかの実施形態において、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率の予測値は、計算されたDNA又はRNAの比率を考慮して推定され、それぞれの仮説について、その仮説によって指定される過剰出現の程度が推定される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値と対立遺伝子比率の予測値とを比較することによって計算され、最大の尤度を有する仮説が選択される。
【0198】
いくつかの実施形態において、対立遺伝子比率の予測値及びDNA又はRNAの比率の計算値を用いて計算された試験統計の予測分布が、各仮説について推定される。いくつかの実施形態において、その仮説が正しい尤度は、対立遺伝子比率の計算値及びDNA又はRNAの比率の計算値を用いて計算される試験統計と、対立遺伝子比率の予測値及びDNA又はRNAの比率の計算値を用いて計算される試験統計の予測分布とを比較することによって決定され、最大の尤度を有する仮説が選択される。
【0199】
いくつかの実施形態において、本方法は、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットを列挙することを含む。いくつかの実施形態において、本方法は、各仮説について、(i)その仮説によって示される過剰出現の程度を考慮した、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/若しくは母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率の予測値、又は(ii)DNA若しくはRNAの1つ以上の可能な比率について、対立遺伝子比率の予測値及びサンプル中の総DNA若しくはRNAに対する1つ以上の標的細胞からのDNA若しくはRNAの可能な比率を用いて計算された試験統計の予測分布のいずれかを推定することを含む。いくつかの実施形態において、データフィッティングは、(i)対立遺伝子比率の計算値を、対立遺伝子比率の予測値、又は(ii)対立遺伝子比率の計算値及びDNA若しくはRNAの可能な比率を用いて計算された試験統計のいずれかを、対立遺伝子比率の予測値及びDNA又はRNAの可能な比率を用いて計算された試験統計の予測分布と比較することによって計算される。いくつかの実施形態において、仮説のうちの1つ以上は、データフィッティングに従ってランク付けされ、最も高くランク付けされた仮説が選択される。いくつかの実施形態において、検索アルゴリズムなどの技術又はアルゴリズムは、データフィッティングを計算する工程、仮説をランク付けする工程、又は最も高くランク付けされた仮説を選択する工程のうちの1つ以上のために使用される。いくつかの実施形態において、データフィッティングは、ベータ二項分布に対するフィッティング又は二項分布に対するフィッティングである。いくつかの実施形態において、この技術又はアルゴリズムは、最大尤度の推定、経験的な最大推定、ベイズ推定、動的推定(例えば、動的ベイズ推定)及び期待最大化推定からなる群から選択される。いくつかの実施形態において、本方法は、得られた遺伝子データと遺伝子データの予測値に対して、上述の技術又はアルゴリズムを適用することを含む。
【0200】
いくつかの実施形態において、本方法は、サンプル中の総DNA又はRNAに対する1つ以上の標的細胞からのDNA又はRNAの比率について、下限から上限までの範囲の可能な比率の分配を作成することを含む。いくつかの実施形態において、第1の相同染色体セグメントの過剰出現の程度を示す1つ以上の仮説のセットが列挙される。いくつかの実施形態において、本方法は、分配におけるDNA又はRNAの可能な比率の各々について、また、各仮説について、(i)DNA若しくはRNAの可能な比率及びその仮説によって示される過剰出現の程度を考慮した、少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/若しくは母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率の予測値、又は(ii)対立遺伝子比率の予測値及びDNA若しくはRNAの可能な比率を用いて計算される試験確率の予測分布のいずれかを推定することを含む。いくつかの実施形態において、本方法は、分配におけるDNA又はRNAの可能な比率のそれぞれについて、また、各仮説について、(i)対立遺伝子比率の計算値を、対立遺伝子比率の予測値、又は(ii)対立遺伝子比率の計算値及びDNA若しくはRNAの可能な比率を用いて計算された試験統計のいずれかを、対立遺伝子比率の予測値及びDNA又はRNAの可能な比率を用いて計算された試験統計の予測分布と比較することによって、その仮説が正しい尤度が計算される。いくつかの実施形態において、各仮説についての結合確率は、分配における可能な比率それぞれについて、その仮説の確率を合わせることによって決定され、最大の結合確率を有する仮説が選択される。いくつかの実施形態において、各仮説についての結合確率は、特定の可能な比率について、その可能な比率が正しい比率である尤度に基づき、ある仮説の確率を重み付けすることによって決定される。
【0201】
いくつかの実施形態において、最大尤度の推定、経験的な最大推定、ベイズ推定、動的推定(例えば、動的ベイズ推定)及び期待最大化推定からなる群から選択される技術を使用して、サンプル中の総DNA又はRNAに対する1つ以上の標的細胞からのDNA又はRNAの比率を推定する。いくつかの実施形態において、サンプル中の総DNA又はRNAに対する1つ以上の標的細胞からのDNA又はRNAの比率は、目的のCNVのうちの2つ以上(又は全て)について同じであると仮定される。いくつかの実施形態において、目的の各々のCNVについて、サンプル中の総DNA又はRNAに対する1つ以上の標的細胞からのDNA又はRNAの比率が計算される。
【0202】
不完全なフェージングデータを使用するための例示的な方法
多くの実施形態について、不完全なフェージングデータが使用されることを理解されたい。例えば、第1及び/又は第2の相同染色体セグメント上の遺伝子座のうちの1つ以上について、どの対立遺伝子が存在するかは100%確実には知られていない場合がある。いくつかの実施形態において、個体の可能なハプロタイプについての事前確率(例えば、集合に基づくハプロタイプ頻度に基づくハプロタイプ)を、各仮説の確率を計算する際に使用する。いくつかの実施形態において、可能なハプロタイプについての事前確率は、遺伝子データをフェージングするための別の方法を用いることによって、又は個体のインフォマティクスに基づくフェージングのために使用される集合データを絞り込むために他の対象(例えば、以前の対象)からのフェージングデータを用いることによって調整される。
【0203】
いくつかの実施形態において、フェージング遺伝子データは、フェージング遺伝子データの2つ以上の可能なセットについての確率データを含み、フェージングデータの各々の可能なセットは、第1の相同染色体セグメント上の多型遺伝子座のセット中の各遺伝子座に存在する対立遺伝子の可能な同一性及び第2の相同染色体セグメント上の多型遺伝子座のセット中の各遺伝子座に存在する対立遺伝子の可能な同一性を含む。いくつかの実施形態において、仮説のうちの少なくとも1つについての確率は、フェージング遺伝子データの可能なセットそれぞれについて決定される。いくつかの実施形態において、仮説についての結合確率は、フェージング遺伝子データの可能なセット各々についてのその仮説の確率を合わせることによって決定され、最大の結合確率を有する仮説が選択される。
【0204】
本明細書に開示される方法のいずれか又は任意の既知の方法を使用して、請求項記載の方法で使用するための不完全なフェージングデータを作成してもよい(例えば、集合に基づくハプロタイプ頻度を用い、最も可能性の高いフェーズを推測する)。いくつかの実施形態において、フェージングデータは、より小さなセグメントのハプロタイプを確率的に組み合わせることによって得られる。例えば、可能なハプロタイプは、第1の領域からの1つのハプロタイプと、同じ染色体からの別の領域からの別のハプロタイプとの可能な組み合わせに基づいて決定されてもよい。異なる領域からの特定のハプロタイプが、同じ染色体上の同じ、より大きなハプロタイプブロックの一部である確率は、例えば、集合に基づくハプロタイプ頻度及び/又は異なる領域間の既知の組換え率を用いて決定されてもよい。
【0205】
いくつかの実施形態において、単一仮説否定試験は、ダイソミーの帰無仮説のために使用される。いくつかの実施形態において、ダイソミー仮説の確率が計算され、ダイソミーの仮説は、その確率が所与の閾値を下回る場合(例えば、1,000分の1未満である場合)、否定される。帰無仮説が否定される場合、このことは、不完全なフェージングデータにおけるエラーに起因するか、又はCNVの存在に起因する可能性がある。いくつかの実施形態において、より正確なフェージングデータが得られる(例えば、バイオインフォマティクスに基づいて推測されるフェージングデータではなく、実際のフェージングデータを得るための本明細書に開示される分子フェージング方法のいずれかからのフェージングデータ)。いくつかの実施形態において、ダイソミー仮説の確率は、このより正確なフェージングデータを用いて再計算され、ダイソミー仮説がそれでも否定されるべきかどうかを決定する。この仮説の否定は、染色体セグメントの重複又は欠失が存在することを示す。所望な場合、偽陽性率は、閾値を調整することによって変化させることができる。
【0206】
フェージングデータを用いて倍数性を決定するための更なる例示的な実施形態
例示的な実施形態において、個体のサンプル中の染色体セグメントの倍数性を決定する方法が本明細書で提供される。方法は、以下の工程を含む。
a.染色体セグメント上の多型遺伝子座のセット内の各遺伝子座で、サンプル中に存在する各対立遺伝子の量を含む対立遺伝子頻度データを受信する工程、
b.対立遺伝子頻度データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成する工程、
c.対立遺伝子頻度データを使用して、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成する工程、
d.個々の確率及びフェージング対立遺伝子情報を使用して、多型遺伝子座のセットについての結合確率を生成する工程、及び
e.結合確率に基づいて、染色体倍数性を示す最良適合モデルを選択し、それにより染色体セグメントの倍数性を決定する工程。
【0207】
本明細書に開示されるように、対立遺伝子頻度データ(本明細書において、測定される遺伝子対立遺伝子データとも呼ばれる)は、当該技術分野で既知の方法によって作成されてもよい。例えば、このデータは、qPCR又はマイクロアレイを使用して作成されてもよい。例示的な一実施形態において、このデータは、核酸配列データ、特に、高スループット核酸配列データを使用して生成される。
【0208】
特定の例示的な例では、対立遺伝子頻度データは、これを使用して個々の確率を作成する前に、エラーについて修正される。具体的な例示的な実施形態において、修正されるエラーは、対立遺伝子増幅効率バイアスを含む。他の実施形態において、修正されるエラーは、周囲コンタミネーション及び遺伝子型コンタミネーションを含む。いくつかの実施形態において、修正されるエラーとしては、対立遺伝子増幅バイアス、周囲コンタミネーション及び遺伝子型コンタミネーションが挙げられる。
【0209】
特定の実施形態において、個々の確率は、多型遺伝子座のセットについての異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットを用いて作成される。これらの実施形態及び他の実施形態において、結合確率は、染色体セグメント上の多型遺伝子座間の結合を考慮することによって作成される。
【0210】
したがって、これらの実施形態のいくつかを組み合わせた例示的な一実施形態において、個体のサンプルにおいて染色体倍数性を検出するための方法が本明細書で提供され、これは、以下の工程を含む。
a.個体における染色体セグメント上の多型遺伝子座のセットでの対立遺伝子の核酸配列データを受信する工程、
b.核酸配列データを使用して、遺伝子座のセットでの対立遺伝子頻度を検出する工程、
c.検出された対立遺伝子頻度における対立遺伝子増幅効率バイアスを修正して、多型遺伝子座のセットについての修正された対立遺伝子頻度を生成する工程、
d.核酸配列データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成する工程、
e.修正された対立遺伝子頻度を、多型遺伝子座のセットの異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットと比較することによって、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成する工程、
f.染色体セグメント上の多型遺伝子座間の連結を考慮して、個々の確率を組み合わせることによって、多型遺伝子座のセットについての結合確率を生成する工程、並びに
g.結合確率に基づいて、染色体異数性を示す最良フィッティングモデルを選択する工程。
【0211】
本明細書に開示されるように、個々の確率は、多型遺伝子座のセットについての異なる倍数性状態及び平均対立遺伝子不均衡フラクションのモデル又は仮説のセットを用いて作成されてもよい。例えば、特に例示的な例では、個々の確率は、染色体セグメントの第1のホモログ及び染色体セグメントの第2のホモログの倍数性状態をモデリングすることによって作成される。モデリングされる倍数性状態は、以下のものを含む。
【0212】
(1)全ての細胞は、染色体セグメントの第1のホモログ又は第2のホモログの欠失又は増幅を有しない、
【0213】
(2)少なくともいくつかの細胞は、染色体セグメントの第1のホモログの欠失又は第2のホモログの増幅を有する、及び
【0214】
(3)少なくともいくつかの細胞は、染色体セグメントの第2のホモログの欠失又は第1のホモログの増幅を有する。
【0215】
上のモデルは、モデルを制約するために使用される仮説と称される場合もあることが理解されるだろう。したがって、上に示されたのは、使用可能な3つの仮説である。
【0216】
モデリングされる平均対立遺伝子不均衡フラクションは、染色体セグメントの実際の平均対立遺伝子不均衡を含む、任意の範囲の平均対立遺伝子不均衡を含んでいてもよい。例えば、特定の例示的な実施形態において、モデリングされる平均対立遺伝子不均衡の範囲は、下限で0、0.1、0.2、0.25、0.3、0.4、0.5、0.6、0.75、1、2、2.5、3、4及び5%、上限で1、2、2.5、3、4、5、10、15、20、25、30、40、50、60、70 80 90、95及び99%であってもよい。この範囲を有するモデリングのための間隔は、使用される計算能力及び分析のために許容されている時間に応じて、任意の間隔であってもよい。例えば、0.01、0.05、0.02又は0.1の間隔がモデリングされてもよい。
【0217】
特定の例示的な実施形態において、サンプルは、染色体セグメントについての平均対立遺伝子不均衡が0.4%~5%である。特定の実施形態において、平均対立遺伝子不均衡は、低い。これらの実施形態において、平均対立遺伝子不均衡は、典型的には、10%未満である。特定の例示的な実施形態において、対立遺伝子不均衡は、下限で0.25、0.3、0.4、0.5、0.6、0.75、1、2、2.5、3、4及び5%、上限で1、2、2.5、3、4及び5%である。他の例示的な実施形態において、平均対立遺伝子不均衡は、下限で0.4、0.45、0.5、0.6、0.7、0.8、0.9又は1.0?、上限で0.5、0.6、0.7、0.8、0.9、1.0、1.5、2.0、3.0、4.0又は5.0?である。例えば、サンプルの平均対立遺伝子不均衡は、例示的な例では、0.45~2.5%である。別の例では、平均対立遺伝子不均衡は、0.45、0.5、0.6、0.8、0.8、0.9又は1.0%感度で検出される。本発明の方法において対立遺伝子不均衡が低い例示的なサンプルにおいて、循環腫瘍DNAを有するがんを有する個体からの血漿サンプル又は循環胎児DNAを有する妊婦由来の血漿サンプルを含む。
【0218】
SNVについて、異常DNAの割合は、典型的には、変異体対立遺伝子頻度(ある遺伝子座での変異体対立遺伝子の数/その遺伝子座での対立遺伝子の総数)を用いて測定されることが理解されるだろう。腫瘍における2つのホモログの量の差が類似しているため、平均対立遺伝子不均衡(AAI)によって、CNVについての異常DNAの割合|(H1-H2)|/(H1+H2)と定義される)を測定し、ここで、Hiは、サンプル中のホモログiの平均コピー数であり、Hi/(H1+H2)は、ホモログiの存在分率、すなわち、ホモログ比率である。最大ホモログ比率は、より豊富なホモログのホモログ比率である。
【0219】
アッセイドロップアウト率は、全SNPを用いて推定される、リードを有しないSNPの割合である。単一対立遺伝子ドロップアウト(ADO)率は、ヘテロ接合性SNPのみを用いて推定される、たった1つの対立遺伝子が存在するSNPの割合である。遺伝子型信頼性は、二項分布を、B対立遺伝子リードであった各SNPでのリード数に対して、SNPの焦点領域の倍数性状態を用いてフィッティングすることによって決定され、各遺伝子型の確率を推定することができる。
【0220】
腫瘍組織サンプルについて、染色体異数性(この段落ではCNVによって例示される)は、対立遺伝子頻度分布間の遷移によって表すことができる。血漿サンプルにおいて、CNVは、腫瘍サンプルから推定されるハプロタイプ情報を使用して、同じ個体からの腫瘍サンプルもCNVを有する領域において血漿CNVを検索する最大尤度アルゴリズムによって特定することができる。このアルゴリズムは、以下の仮説の3つのセットについて、0.025%の間隔で、全ての対立遺伝子不均衡比率にわたって、対立遺伝子頻度の予測値をモデリングすることができる。(1)全ての細胞が正常である(対立遺伝子不均衡なし)、(2)いくつか/全ての細胞が、ホモログ1の欠失又はホモログ2の増幅を有する、又は(3)いくつか/全ての細胞が、ホモログ2の欠失又はホモログ1の増幅を有する。各仮説の尤度は、全てのヘテロ接合性SNPでの対立遺伝子頻度の予測値及び観測値のベータ二項モデルに基づくベイズ分類器を用い、各SNPで決定することができ、次いで、複数のSNPにわたる結合尤度を、特定の例示的な実施形態において、本明細書に例示されるように、SNP遺伝子座の結合を考慮しつつ、計算することができる。次いで、最大尤度仮説を選択することができる。
【0221】
腫瘍中の平均N個のコピーを有する染色体領域を考慮し、cは、ダイソミー領域における正常細胞と腫瘍細胞の混合物に由来する血漿中のDNAの分率を示す。AAIは、以下のように計算される。
【数1】
【0222】
特定の例示的な例では、対立遺伝子頻度データは、これを使用して個々の確率を作成する前に、エラーについて修正される。異なる種類のエラー及び/又はバイアスの修正が、本明細書に開示される。具体的な例示的な実施形態において、修正されるエラーは、対立遺伝子増幅効率バイアスである。他の実施形態において、修正されるエラーは、周囲コンタミネーション及び遺伝子型コンタミネーションを含む。いくつかの実施形態において、修正されるエラーとしては、対立遺伝子増幅バイアス、周囲コンタミネーション及び遺伝子型コンタミネーションが挙げられる。
【0223】
対立遺伝子増幅効率バイアスは、試験中のサンプルを含む実験又は研究室での決定の一部として、ある対立遺伝子について決定することができるか、又は効率が計算される対立遺伝子を含むサンプルのセットを用い、異なる時間に決定することができることが理解されるだろう。周囲コンタミネーション及び遺伝子型コンタミネーションは、典型的には、試験中のサンプル分析と同じランで決定される。
【0224】
特定の実施形態において、周囲コンタミネーション及び遺伝子型コンタミネーションは、サンプル中のホモ接合性対立遺伝子について決定される。個体からの任意の所与のサンプルについて、ある遺伝子座が集合の中で比較的高いヘテロ接合性を有するために、分析のために選択される場合であっても、サンプル中のいくつかの遺伝子座はヘテロ接合性であり、他方はホモ接合性であることが理解されるだろう。有利にも、いくつかの実施形態において、染色体セグメントの倍数性は、個体についてヘテロ接合性遺伝子座を用いて決定され得るが、ホモ接合性遺伝子座を用いて、周囲コンタミネーション及び遺伝子型コンタミネーションを計算することができる。
【0225】
特定の例示的な例では、上述の選択することは、フェージング対立遺伝子情報とモデルについて作成された推定対立遺伝子頻度との差の大きさを分析することによって行われる。
【0226】
例示的な例では、対立遺伝子頻度の個々の確率は、多型遺伝子座のセットでの対立遺伝子頻度の予測値及び観測値のベータ二項モデルに基づいて作成される。例示的な例では、個々の確率は、ベイズ分類器を用いて作成される。
【0227】
特定の例示的な実施形態において、核酸配列データは、多重増幅反応を用いて作成される一連のアンプリコンの複数のコピーの高スループットDNA配列決定を行うことによって作成され、一連のアンプリコンの各々のアンプリコンは、多型遺伝子座のセットの少なくとも1つの多型遺伝子座に広がり、このセットの多型遺伝子座の各々が増幅される。特定の実施形態において、多重増幅反応は、反応の少なくとも1/2について、制限されたプライマー条件で行われる。いくつかの実施形態において、制限されたプライマー濃度は、多重反応のうちの反応の1/10、1/5、1/4、1/3、1/2、又は全てで使用される。PCRなどの増幅反応において制限されたプライマー条件を達成するために考慮すべき因子が、本明細書で提供される。
【0228】
特定の実施形態において、本明細書で提供される方法は、複数の染色体にわたる複数の染色体セグメントについて倍数性を検出する。したがって、これらの実施形態における染色体倍数性は、サンプル中の染色体セグメントのセットについて決定される。これらの実施形態について、より多くの多重増幅反応が必要とされる。したがって、これらの実施形態について、多重増幅反応は、例えば、2,500~50,000の多重反応を含んでいてもよい。特定の実施形態において、以下の範囲の多重反応が行われる。範囲の下限で100、200、250、500、1000、2500、5000、10,000、20,000、25000、50000から、範囲の上限で200、250、500、1000、2500、5000、10,000、20,000、25000、50000及び100,000まで。
【0229】
例示的な実施形態において、多型遺伝子座のセットは、高いヘテロ接合性を示すことが知られている遺伝子座のセットである。しかしながら、任意の所与の個体について、これらの遺伝子座のいくつかがホモ接合性であることが予想される。特定の例示的な実施形態において、本発明の方法は、ある個体のホモ接合性遺伝子座及びヘテロ接合性遺伝子座の両方についての核酸配列情報を利用する。ある個体のホモ接合性遺伝子座は、例えば、エラー修正のために使用され、一方、ヘテロ接合性遺伝子座は、サンプルの対立遺伝子不均衡の決定に使用される。特定の実施形態において、多型遺伝子座の少なくとも10%は、個体のヘテロ接合性遺伝子座である。
【0230】
本明細書に開示されるように、集合中でヘテロ接合性であることが知られている標的SNP遺伝子座を分析することが好ましく与えられる。したがって、特定の実施形態において、多型遺伝子座の10、20、25、50、75、80、90、95、99又は100%が、集合中でヘテロ接合性であることが知られている多型遺伝子座が選択される。
【0231】
本明細書に開示されるように、特定の実施形態において、サンプルは、妊婦由来の血漿サンプルである。
【0232】
いくつかの例では、本方法は、更に、既知の平均対立遺伝子不均衡比率を有する対照サンプルに対して本方法を実施することを含む。対照は、例えば、胎児又は腫瘍からの循環遊離DNAについて予想されるように、低濃度で存在するサンプル中の対立遺伝子の平均対立遺伝子不均衡を模倣するために、0.4~10%の染色体セグメントの異数性の指標で特定の対立遺伝子状態についての平均対立遺伝子不均衡比率を有していてもよい。
【0233】
いくつかの実施形態において、本明細書に開示されるように、PlasmArt対照は、対照として使用される。したがって、特定の態様において、これは、染色体異数性を示すことが知られている核酸サンプルを、個体の血漿中で循環するDNAのフラグメントの大きさを模倣するフラグメントへとフラグメント化することを含む方法によって作成されるサンプルである。特定の態様において、染色体セグメントについての異数性を有しない対照が使用される。
【0234】
例示的な実施形態において、1つ以上の対照からのデータは、試験サンプルとともに本方法で分析されてもよい。対照は、例えば、染色体異数性を含有することが疑われない個体からの異なるサンプル、又はCNV又は染色体異数性を含有することが疑われるサンプルを含んでいてもよい。例えば、試験サンプルが、循環遊離腫瘍DNAを含有することが疑われる腫瘍サンプルである場合、本方法は、その血漿サンプルとともに、その対象からの腫瘍由来の対照サンプルについても行うことができる。本明細書に開示されるように、対照サンプルは、染色体異数性を示すことが知られているDNAサンプルをフラグメント化することによって調製されてもよい。このようなフラグメント化によって、特に、サンプルが、がんに罹患している個体由来である場合、アポトーシス細胞のDNA組成物を模倣するDNAサンプルを得ることができる。対照サンプルからのデータは、染色体異数性の検出の信頼性を高めるだろう。
【0235】
倍数性を決定する方法の特定の実施形態において、サンプルは、がんを有することが疑われる個体からの血漿サンプルである。これらの実施形態において、本方法は、更に、上述の選択することに基づいて、コピー数変動が個体の腫瘍細胞に存在するかどうかを決定することを含む。これらの実施形態について、サンプルは、個体からの血漿サンプルであってもよい。これらの実施形態において、本方法は、更に、上述の選択することに基づいて、がんが個体中に存在するかどうかを決定することを含んでいてもよい。
【0236】
染色体セグメントの倍数性を決定するためのこれらの実施形態は、更に、単一ヌクレオチド分散位置のセットにおいて、単一ヌクレオチド分散位置にある単一ヌクレオチドバリアントを検出することを含んでいてもよく、染色体異数性又は単一ヌクレオチドバリアントのいずれか、又は両者を検出することは、サンプル中の循環腫瘍核酸の存在を示す。
【0237】
これらの実施形態は、個体のある腫瘍についての染色体セグメントのハプロタイプ情報を受信することと、このハプロタイプ情報を用いて、多型遺伝子座のセットについての異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットを作成することと、を更に含んでいてもよい。
【0238】
本明細書に開示されるように、倍数性を決定する方法の特定の実施形態は、更に、初期又は修正された対立遺伝子頻度をモデルのセットと比較する前に、初期又は修正された対立遺伝子頻度データから外れ値を除去することを含んでいてもよい。例えば、特定の実施形態において、染色体セグメント上の他の遺伝子座についての平均値よりも少なくとも2又は3の標準偏差分、上又は下である遺伝子座対立遺伝子頻度は、モデリングのために使用される前に、データから除去される。
【0239】
本明細書に言及されるように、染色体セグメントの倍数性を決定するためのものを含む、本明細書で提供される実施形態の多くについて、不完全又は完全なフェージングデータが好ましく使用されることが理解されるだろう。倍数性を検出するための従来方法を超える改善を与えるいくつかの特徴が本明細書で提供され、これらの特徴の多くの異なる組み合わせを使用してもよいことも理解されるだろう。
【0240】
特定の実施形態において、本発明の任意の方法を行うためのコンピュータシステム及びコンピュータ可読媒体が本明細書で提供される。これらは、倍数性を決定する方法を行うためのシステム及びコンピュータ可読媒体を含む。したがって、システム実施形態の非限定的な例として、本明細書で提供される方法のうちのいずれかが、本明細書における開示を用い、システム及びコンピュータ可読媒体を使用して実行され得ることを実証するために、別の態様において、個体のサンプル中の染色体倍数性を検出するためのシステムが本明細書で提供され、このシステムは、
a.染色体セグメント上の多型遺伝子座のセット内の各遺伝子座で、サンプル中に存在する各対立遺伝子の量を含む対立遺伝子頻度データを受信するように構成された入力プロセッサと、
b.
i.対立遺伝子頻度データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成し、かつ
ii.対立遺伝子頻度データを使用して、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成し、かつ
iii.個々の確率及びフェージング対立遺伝子情報を使用して、多型遺伝子座のセットについての結合確率を生成するように構成された、モデラーと、
c.結合確率に基づいて、染色体倍数性を示す最良適合モデルを選択し、それにより染色体セグメントの倍数性を決定するように構成された仮説マネージャと、を備える。
【0241】
このシステムの実施形態の特定の実施形態において、対立遺伝子頻度データは、核酸配列決定システムによって作成されるデータである。特定の実施形態において、このシステムは、更に、対立遺伝子頻度データ中のエラーを修正するような構成のエラー修正ユニットを備えており、修正された対立遺伝子頻度データは、モデラーによって、個々の確率を作成するために使用される。特定の実施形態において、エラー修正ユニットは、対立遺伝子増幅効率バイアスを修正する。特定の実施形態において、モデラーは、多型遺伝子座のセットについての異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットを用い、個々の確率を作成する。モデラーは、特定の例示的な実施形態において、染色体セグメント上の多型遺伝子座間の結合を考慮することによって、結合確率を作成する。
【0242】
例示的な一実施形態において、個体のサンプル中の染色体倍数性を検出するためのシステムが本明細書で提供され、このシステムは、
a.個体における染色体セグメント上の多型遺伝子座のセットでの対立遺伝子のための核酸配列データを受信し、核酸配列データを使用して遺伝子座のセットでの対立遺伝子頻度を検出するように構成された入力プロセッサと、
b.検出された対立遺伝子頻度のエラーを修正し、多型遺伝子座のセットについて修正された対立遺伝子頻度を作成するように構成されたエラー修正ユニットと、
c.
i.核酸配列データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成し、
ii.フェージング対立遺伝子情報を、多型遺伝子座のセットの異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットと比較することによって、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成し、かつ
iii.染色体セグメント上の多型遺伝子座間の相対距離を考慮して、個々の確率を組み合わせることによって、多型遺伝子座のセットについての結合確率を生成するように構成された、モデラーと、
d.結合確率に基づいて、染色体異数性を示す最良フィッティングモデルを選択するように構成された仮説マネージャとを含む。
【0243】
本明細書で提供される特定の例示的なシステムの実施形態において、多型遺伝子座のセットは、1000~50,000個の多型遺伝子座を含む。本明細書で提供される特定の例示的なシステムの実施形態において、多型遺伝子座のセットは、100個の既知のヘテロ接合性ホットスポット遺伝子座を含む。本明細書で提供される特定の例示的なシステムの実施形態において、多型遺伝子座のセットは、組換えホットスポットの0.5kbにあるか、又はその内部にある100個の遺伝子座を含む。
【0244】
本明細書で提供される特定の例示的なシステムの実施形態において、最良フィッティングモデルは、染色体セグメントの第1のホモログ及び染色体セグメントの第2のホモログの以下の倍数性状態を分析する。
【0245】
(1)全ての細胞は、染色体セグメントの第1のホモログ又は第2のホモログの欠失又は増幅を有しない、
【0246】
(2)いくつかの細胞又は全ての細胞は、染色体セグメントの第1のホモログの欠失又は第2のホモログの増幅を有する、及び
【0247】
(3)いくつかの細胞又は全ての細胞は、染色体セグメントの第2のホモログの欠失又は第1のホモログの増幅を有する。
【0248】
本明細書で提供される特定の例示的なシステムの実施形態において、修正されるエラーは、対立遺伝子増幅効率バイアス、コンタミネーション及び/又は配列決定エラーを含む。本明細書で提供される特定の例示的なシステムの実施形態において、コンタミネーションは、周囲コンタミネーション及び遺伝子型コンタミネーションを含む。本明細書で提供される特定の例示的なシステム実施形態において、周囲コンタミネーション及び遺伝子型コンタミネーションは、ホモ接合性対立遺伝子について決定される。
【0249】
本明細書で提供される特定の例示的なシステムの実施形態において、仮説マネージャは、そのモデルについて作成されたフェージング対立遺伝子情報と推定対立遺伝子頻度との差の大きさを分析するような構成である。本明細書で提供される特定の例示的なシステムの実施形態において、モデラーは、多型遺伝子座のセットでの対立遺伝子頻度の予測値及び観測値のベータ二項モデルに基づき、対立遺伝子頻度の個々の確率を作成する。本明細書で提供される特定の例示的なシステムの実施形態において、モデラーは、ベイズ分類器を用いて個々の確率を作成する。
【0250】
本明細書で提供される特定の例示的なシステムの実施形態において、核酸配列データは、多重増幅反応を用いて作成される一連のアンプリコンの複数のコピーの高スループットDNA配列決定を行うことによって作成され、一連のアンプリコンの各々のアンプリコンは、多型遺伝子座のセットの少なくとも1つの多型遺伝子座に広がり、このセットの多型遺伝子座の各々が増幅される。本明細書で提供される特定の例示的なシステムの実施形態において、多重増幅反応は、反応の少なくとも1/2について、制限されたプライマー条件で行われる。本明細書で提供される特定の例示的なシステムの実施形態において、サンプルは、平均対立遺伝子不均衡が0.4%~5%である。
【0251】
本明細書で提供される特定の例示的なシステムの実施形態において、サンプルは、がんを有することが疑われる個体からの血漿サンプルであり、仮説マネージャは、更に、最良フィッティングモデルに基づき、コピー数変動が個体の腫瘍細胞に存在するかどうかを決定するような構成である。
【0252】
本明細書で提供される特定の例示的なシステムの実施形態において、サンプルは、個体からの血漿サンプルであり、仮説マネージャは、更に、最良フィッティングモデルに基づき、がんが個体に存在するかどうかを決定するような構成である。これらの実施形態において、仮説マネージャは、更に、単一ヌクレオチド分散位置のセットにおいて、単一ヌクレオチド分散位置にある単一ヌクレオチドバリアントを検出するような構成であってもよく、染色体異数性又は単一ヌクレオチドバリアントのいずれか、又は両者を検出することは、サンプル中の循環腫瘍核酸の存在を示す。
【0253】
本明細書で提供される特定の例示的なシステムの実施形態において、入力プロセッサは、更に、個体のある腫瘍についての染色体セグメントのハプロタイプ情報を受信するような構成であり、モデラーは、このハプロタイプ情報を用いて、多型遺伝子座のセットについての異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットを作成するような構成である。
【0254】
本明細書で提供される特定の例示的なシステムの実施形態において、モデラーは、0%~25%の範囲の対立遺伝子不均衡フラクションにわたってモデルを作成する。
【0255】
本明細書に提供される方法のうちのいずれかは、非一時的コンピュータ可読媒体に保存されるコンピュータ可読コードによって実行されてもよいことが理解されるだろう。したがって、一実施形態において、個体のサンプル中の染色体倍数性を検出するための非一時的コンピュータ可読媒体であって、コンピュータ可読コードを含む非一時的コンピュータ可読媒体が本明細書で提供され、コンピュータ可読コードは、処理デバイスによって実行されると、処理デバイスに、
a.染色体セグメント上の多型遺伝子座のセット内の各遺伝子座で、サンプル中に存在する各対立遺伝子の量を含む対立遺伝子頻度データを受信させ、
b.対立遺伝子頻度データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成させ、
c.対立遺伝子頻度データを使用して、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成させ、
d.個々の確率及びフェージング対立遺伝子情報を使用して、多型遺伝子座のセットについての結合確率を生成させ、かつ
e.結合確率に基づいて、染色体倍数性を示す最良適合モデルを選択させ、それにより染色体セグメントの倍数性を決定させる。
【0256】
特定のコンピュータ可読媒体の実施形態において、対立遺伝子頻度データは、核酸配列データから作成される。特定のコンピュータ可読媒体の実施形態は、更に、対立遺伝子頻度データ中のエラーを修正することと、修正された対立遺伝子頻度データを、個々の確率を作成する工程に使用することとを含む。特定のコンピュータ可読媒体の実施形態において、修正されるエラーは、対立遺伝子増幅効率バイアスである。特定のコンピュータ可読媒体の実施形態において、個々の確率は、多型遺伝子座のセットについての異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットを用いて作成される。特定のコンピュータ可読媒体の実施形態において、結合確率は、染色体セグメント上の多型遺伝子座間の結合を考慮することによって作成される。
【0257】
1つの特定の実施形態において、個体のサンプル中の染色体倍数性を検出するための非一時的コンピュータ可読媒体であって、コンピュータ可読コードを含む非一時的コンピュータ可読媒体が本明細書で提供され、コンピュータ可読コードは、処理デバイスによって実行されると、処理デバイスに、
a.個体における染色体セグメント上の多型遺伝子座のセットでの対立遺伝子の核酸配列データを受信させ、
b.核酸配列データを使用して、遺伝子座のセットでの対立遺伝子頻度を検出させ、
c.検出された対立遺伝子頻度における対立遺伝子増幅効率バイアスを修正させて、多型遺伝子座のセットについての修正された対立遺伝子頻度を生成させ、
d.核酸配列データのフェーズを推定することによって、多型遺伝子座のセットについてのフェージング対立遺伝子情報を生成させ、
e.修正された対立遺伝子頻度を、多型遺伝子座のセットの異なる倍数性状態及び対立遺伝子不均衡フラクションのモデルのセットと比較することによって、異なる倍数性状態についての多型遺伝子座の対立遺伝子頻度の個々の確率を生成させ、
f.染色体セグメント上の多型遺伝子座間の連結を考慮して、個々の確率を組み合わせることによって、多型遺伝子座のセットについての結合確率を生成させ、かつ
g.結合確率に基づいて、染色体異数性を示す最良フィッティングモデルを選択させる。
【0258】
特定の例示的なコンピュータ可読媒体の実施形態において、上述の選択することは、フェージング対立遺伝子情報とモデルについて作成された推定対立遺伝子頻度との差の大きさを分析することによって行われる。
【0259】
特定の例示的なコンピュータ可読媒体の実施形態において、対立遺伝子頻度の個々の確率は、多型遺伝子座のセットでの対立遺伝子頻度の予測値及び観測値のベータ二項モデルに基づいて作成される。
【0260】
本明細書で提供されるいずれかの方法の実施形態は、非一時的コンピュータ可読媒体に保存されるコードを実行することによって行われてもよいことが理解されるだろう。
【0261】
がんを検出するための例示的な実施形態
特定の態様において、本発明は、がんを検出するための方法を提供する。サンプルは、がんを有することが疑われる個体からの腫瘍サンプル又は液体サンプル、例えば、血漿であってもよいことが理解されるだろう。本方法は、遺伝子変異、例えば、SNVなどの単一ヌクレオチド変化、又はコピー数の変化、例えば、サンプル中の総DNAの一部として低レベルのこれらの遺伝子変化を含むサンプル中のCNVを検出するのに特に有効である。したがって、サンプル中のがんからのDNA又はRNAを検出するための感度は、並外れている。本方法は、この並外れた感度を達成するために、CNV及びSNVを検出するための本明細書で提供される改良のいずれか又は全てを組み合わせてもよい。
【0262】
したがって、本明細書で提供される特定の実施形態において、循環腫瘍核酸が、個体のサンプル中に存在するかどうかを決定する方法、及び非一時的コンピュータ可読媒体であって、コンピュータ可読コードを含み、処理デバイスで実行される場合、処理デバイスに本方法を実施させる、非一時的コンピュータ可読媒体である。方法は、以下の工程を含む。
c.サンプルを分析して、個体における染色体セグメント上の多型遺伝子座のセットでの倍数性を決定する工程、及び
d.倍数性の決定に基づき、多型遺伝子座に存在する平均対立遺伝子不均衡のレベルを決定する工程であって、0.4%、0.45%、0.5%、0.6%、0.7%、0.75%、0.8%、0.9%又は1%に等しいか、又はこれらより大きい平均対立遺伝子不均衡は、サンプル中の循環腫瘍核酸(例えば、ctDNA)の存在の指標である、工程。
【0263】
特定の例示的な実施例において、0.4、0.45又は0.5%を超える平均対立遺伝子不均衡は、ctDNAの存在の指標である。特定の実施形態において、循環腫瘍核酸が存在するかどうかを決定する方法は、更に、単一ヌクレオチド分散位置のセットにおいて、単一ヌクレオチド分散部位にある単一ヌクレオチドバリアントを検出することを含み、0.5%に等しいか、又はこれより大きい対立遺伝子不均衡を検出すること、又は単一ヌクレオチドバリアントを検出すること、又はこの両者は、サンプル中の循環腫瘍核酸の存在の指標である。染色体倍数性又はCNVを検出するために提供される方法のいずれかを使用して、対立遺伝子不均衡(典型的には平均対立遺伝子不均衡として表される)のレベルを決定することができることが理解されるだろう。SNVを検出するために本明細書で提供される方法のいずれかを使用して、本発明のこの態様のための単一ヌクレオチドを検出することができることが理解されるだろう。
【0264】
特定の実施形態において、循環腫瘍核酸が存在するかどうかを決定するための方法は、更に、既知の平均対立遺伝子不均衡比率を有する対照サンプルに対して本方法を行うことを含む。対照は、例えば、個体の腫瘍からのサンプルであってもよい。いくつかの実施形態において、対照は、分析対象のサンプルに対して予測される平均対立遺伝子不均衡を有する。例えば、AAIは0.5%~5%、又は平均対立遺伝子不均衡比率が0.5%。
【0265】
特定の実施形態において、循環腫瘍核酸が存在するかどうかを決定するための方法の分析する工程は、がんにおいて異数性を示すことが知られている染色体セグメントのセットを分析することを含む。特定の実施形態において、循環腫瘍核酸が存在するかどうかを決定するための方法の分析する工程は、倍数性について、1,000~50,000又は100~1000個の多型遺伝子座を分析することを含む。特定の実施形態において、循環腫瘍核酸が存在するかどうかを決定するための方法の分析する工程は、100~1000個の単一ヌクレオチドバリアント部位を分析することを含む。例えば、これらの実施形態において、分析する工程は、マルチプレックスPCRを行い、1000~50,000多型遺伝子座及び100~1000単一ヌクレオチドバリアント部位にわたってアンプリコンを増幅させることを含んでいてもよい。この多重反応は、単一の反応として、又は異なる部分集合の多重反応のプールとして設定することができる。本明細書で提供される多重反応方法(例えば、本明細書に開示される大規模マルチプレックスPCR)は、改良された多重化、したがって、感度レベルを達成するのに役立つように増幅反応を行う例示的なプロセスを提供する。
【0266】
特定の実施形態において、マルチプレックスPCR反応は、反応の少なくとも10%、20%、25%、50%、75%、90%、95%、98%、99%又は100%についての制限されたプライマー条件で行われる。本明細書で提供される大規模多重反応を行うための改良された条件を使用することができる。
【0267】
特定の態様において、循環腫瘍核酸が個体のサンプル中に存在するかどうかを決定するための上述の方法、及びその全ての実施形態は、システムを用いて行うことができる。本開示は、上述の方法を行うための特定の機能的特徴及び構造的特徴に関する教示を提供する。非限定的な例として、システムは、以下を含む。
a.サンプルからのデータを分析して、個体における染色体セグメント上の多型遺伝子座のセットでの倍数性を決定するような構成の入力プロセッサと、
b.倍数性の決定に基づき、多型遺伝子座に存在する対立遺伝子不均衡のレベルを決定するような構成であり、0.5%に等しいか、又はこれより大きい対立遺伝子不均衡が、循環の存在の指標である、モデラー。
【0268】
単一ヌクレオチドバリアントを検出するための例示的な実施形態
特定の態様において、サンプル中の単一ヌクレオチドバリアントを検出するための方法が本明細書で提供される。本明細書で提供される改良された方法は、サンプル中の0.015、0.017、0.02、0.05、0.1、0.2、0.3、0.4又は0.5%のSNVの検出限界を達成することができる。SNVを検出するための全ての実施形態は、システムを用いて行うことができる。本開示は、上述の方法を行うための特定の機能的特徴及び構造的特徴に関する教示を提供する。更に、コンピュータ可読コードを含み、処理デバイスによって実行されると、処理デバイスに、本明細書で提供されるSNVを検出するための方法を行わせる、非一時的コンピュータ可読媒体を含む実施形態が本明細書で提供される。
【0269】
したがって、一実施形態において、単一ヌクレオチドバリアントが個体からのサンプル中のゲノム位置のセットに存在するかどうかを決定するための方法が本明細書で提供され、この方法は、
a.各ゲノム位置について、トレーニングデータセットを使用して、そのゲノム位置に広がるアンプリコンについての効率及びサイクル当たりのエラー率の推定値を生成することと、
b.サンプル中の各ゲノム位置について観測されるヌクレオチド同一性情報を受信することと、
c.それぞれのゲノム位置での1つ以上の実際の変異に起因する単一ヌクレオチドバリアントパーセンテージの確率のセットを、それぞれのゲノム位置についての推定増幅効率及びサイクル当たりのエラー率を独立して使用して、それぞれのゲノム位置での観測されたヌクレオチド同一性情報を異なるバリアントパーセンテージのモデルと比較することによって、決定することと、
d.各ゲノム位置についての確率のセットから、最も可能性の高い実際のバリアントパーセンテージ及び信頼性を決定することと、を含む。
【0270】
単一ヌクレオチドバリアントが存在するかどうかを決定するための方法の例示的な実施形態において、効率及びサイクル当たりのエラー率の推定値は、ゲノム位置に広がるアンプリコンのセットについて作成される。例えば、ゲノム位置に広がる2、3、4、5、10、15、20、25、50、100個、又はもっと多くのアンプリコンが含まれていてもよい。
【0271】
単一ヌクレオチドバリアントが存在するかどうかを決定するための方法の例示的な実施形態において、観測されるヌクレオチド同一性情報は、各ゲノム位置についての総リードの観測数及び各ゲノム位置についてのバリアント対立遺伝子リードの観測数を含む。
【0272】
単一ヌクレオチドバリアントが存在するかどうかを決定するための方法の例示的な実施形態において、サンプルは、血漿サンプルであり、単一ヌクレオチドバリアントは、サンプルの循環腫瘍DNA中に存在する。
【0273】
別の実施形態において、個体からのサンプル中に存在する単一ヌクレオチドバリアントの割合を推定する方法が本明細書で提供される。方法は、以下の工程を含む。
a.ゲノム位置のセットにおいて、トレーニングデータセットを使用して、それらのゲノム位置に広がる1つ以上のアンプリコンについての効率及びサイクル当たりのエラー率の推定値を生成する工程、
b.サンプル中の各ゲノム位置について観測されるヌクレオチド同一性情報を受信する工程、
c.アンプリコンの増幅効率及びサイクル当たりのエラー率を用い、実際の変異分子の初期の割合を含む検索空間について分子の総数、バックグラウンドエラー分子及び実際の変異分子についての推定平均及び分散を生成する工程、並びに
d.平均及び分散の推定値を用い、分布を、サンプル中の観測されたヌクレオチド同一性情報にフィッティングすることによって最も可能性の高い実際の単一ヌクレオチドバリアントの割合を決定することによって、実際の変異から得られるサンプル中に存在する単一ヌクレオチドバリアントの割合を決定する工程。
【0274】
サンプル中に存在する単一ヌクレオチドバリアントの割合を推定するためのこの方法の例示的な例では、サンプルは、血漿サンプルであり、単一ヌクレオチドバリアントは、サンプルの循環腫瘍DNA中に存在する。
【0275】
本発明のこの実施形態のトレーニングデータセットは、典型的には、1名の健康な個体又は好ましくは健康な個体群からのサンプルを含む。特定の例示的な実施形態において、トレーニングデータセットは、同じ日に分析されるか、又は1つ以上の試験中のサンプルについて同じランで分析される。例えば、2、3、4、5、10、15、20、25、30、36、48、96、100、192、200、250、500、1000、又はもっと多くの健康な個体の群からのサンプルを使用して、トレーニングデータセットを作成してもよい。更に多数の健康な個体(例えば、96名以上)についてデータが利用可能である場合、試験中のサンプルについて本方法を実行する前にランが行われる場合であっても、増幅効率の推定値についての信頼性が増加する。PCRのエラー率は、エラー率がアンプリコン当たりであるため、SNV塩基位置についてだけではなく、SNV周囲の全増幅領域について作成された核酸配列情報を使用してもよい。例えば、50名の個体からのサンプルを用い、SNV周囲の20塩基対アンプリコンを配列決定すると、1000塩基リードからのエラー頻度データを使用して、エラー頻度率を決定することができる。
【0276】
典型的には、増幅効率は、増幅するセグメントについての増幅効率の平均及び標準偏差を推定し、次いで、これを分布モデル(例えば、二項分布又はベータ二項分布)にフィッティングすることによって推定される。既知のサイクル数を有するPCRについてエラー率が決定され、次いで、サイクル当たりのエラー率が推定される。
【0277】
特定の例示的な実施形態において、試験データセットの開始時分子を推定することは、更に、リードの観測数が、リード数の推定値と有意に異なっている場合に、工程(b)で推定される開始時の分子数を用い、試験データセットについての効率の推定値を更新することを含む。次いで、この推定値は、新たな効率及び/又は開始分子について更新することができる。
【0278】
分子の総数、バックグラウンドエラー分子及び実際の変異分子を推定するために使用される検索空間は、SNV塩基であるSNV位置にある塩基のコピーの下限で0.1%、0.2%、0.25%、0.5%、1%、2.5%、5%、10%、15%、20%又は25%、上限で1%、2%、2.5%、5%、10%、12.5%、15%、20%、25%、50%、75%、90%又は95%の検索空間を含んでいてもよい。これより低い範囲である、下限で0.1%、0.2%、0.25%、0.5%又は1%、上限で1%、2%、2.5%、5%、10%、12.5%又は15%が、血漿サンプルについての例示的な例で使用されてもよく、ここで、本方法は、循環腫瘍DNAを検出する。腫瘍サンプルには、更に高い範囲が使用される。
【0279】
分布は、総分子における総エラー分子の数(バックグラウンドエラー及び実際の変異)に対してフィッティングされ、検索空間における各々の可能な実際の変異について尤度又は可能性を計算する。この分布は、二項分布又はベータ二項分布であってもよい。
【0280】
最も可能性の高い実際の変異は、最も可能性の高い実際の変異の割合を決定し、分布のフィッティングからのデータを用いて信頼性を計算することによって、決定される。例示的な例として、本明細書で提供される臨床的解釈を制限することを意図しないが、平均変異率が高い場合、SNVの陽性決定を行うのに必要な信頼性の割合は、低くなる。例えば、最も可能性の高い仮説を用いるサンプル中のSNVについての平均変異率が5%であり、信頼性の割合が99%である場合、陽性SNVのコールが行われるだろう。他方で、この例示的な例について、最も可能性の高い仮説を用いるサンプル中のSNVについての平均変異率が1%であり、信頼性の割合が50%である場合、特定の状況において、陽性SNVのコールは行われないだろう。データの臨床的解釈は、感度、特異性、有病率及び代替製品の入手可能性の関数であり得ることが理解されるだろう。
【0281】
例示的な一実施形態において、サンプルは、循環DNAサンプル、例えば、循環腫瘍DNAサンプルである。
【0282】
別の実施形態において、個体からの試験サンプル中の1つ以上の単一ヌクレオチドバリアントを検出する方法が本明細書で提供される。本実施形態に係る方法は、以下の工程を含む。
d.配列決定ランにおいて生成された結果に基づき、単一ヌクレオチド分散位置のセットにおけるそれぞれの単一ヌクレオチドバリアント位置について、複数の正常な個体のそれぞれからの複数の対照サンプルについてのバリアント対立遺伝子頻度の中央値を決定して、閾値を下回る、正常なサンプルにおいてバリアント対立遺伝子頻度の中央値を有する選択された単一ヌクレオチドバリアント位置を特定し、単一ヌクレオチドバリアント位置のそれぞれについて外れ値サンプルを除去した後、単一ヌクレオチドバリアント位置のそれぞれについてバックグラウンドエラーを決定する工程、
e.試験サンプルについての配列決定ランで生成されたデータに基づき、試験サンプルについて選択された単一ヌクレオチドバリアント位置について観察されたリード深度の重み付けされた平均及び分散を決定する工程、並びに
f.コンピュータを使用して、統計的に有意なリード深度の重み付けされた平均を有する1つ以上の単一ヌクレオチドバリアント位置を、その位置についてのバックグラウンドエラーと比較して特定し、それにより1つ以上の単一ヌクレオチドバリアントを検出する工程。
【0283】
1つ以上のSNVを検出するためのこの方法の特定の実施形態において、サンプルは、血漿サンプルであり、対照サンプルは、血漿サンプルであり、検出された1つ以上の検出された単一ヌクレオチドバリアントは、サンプルの循環腫瘍DNA中に存在する。1つ以上のSNVを検出するためのこの方法の特定の実施形態において、複数の対照サンプルは、少なくとも25個のサンプルを含む。特定の例示的な実施形態において、複数の対照サンプルは、下限で少なくとも5、10、15、20、25、50、75、100、200又は250個のサンプル、上限で10、15、20、25、50、75、100、200、250、500及び1000個のサンプルである。
【0284】
1つ以上のSNVを検出するためのこの方法の特定の実施形態において、外れ値が、高スループット配列決定ランで作成されたデータから除去され、観測されたリード深度の重み付けされた平均を計算し、観測された分散が決定される。1つ以上のSNVを検出するためのこの方法の特定の実施形態において、試験サンプルについての各々の単一ヌクレオチドバリアント位置についてのリード深度は、少なくとも100リードである。
【0285】
1つ以上のSNVを検出するためのこの方法の特定の実施形態において、配列決定ランは、制限されたプライマー反応条件で行われる多重増幅反応を含む。本明細書で提供される多重増幅反応を行うための改善された方法を使用して、例示的な例で、これらの実施形態を行う。
【0286】
理論に限定されないが、本実施形態の方法は、正常な血漿サンプルを用いるバックグラウンドエラーモデルを利用し、これを試験中のサンプルとして同じ配列決定ランで配列決定し、ランに特有のアーチファクトを考慮する。閾値、例えば、0.1%、0.2%、0.25%、0.5%、0.75%及び1.0%を超える通常のバリアント対立遺伝子頻度の中央値を有するノイズ位置を除去する。
【0287】
ノイズ及びコンタミネーションを考慮するために、外れ値のサンプルをこのモデルから繰り返し除去する。全てのゲノム遺伝子座の各々の塩基置換について、リード深度で重み付けされた平均及び誤差の標準偏差を計算する。特定の例示的な実施形態において、閾値のリード数(例えば、少なくとも2、3、4、5、6、7、8、9、10、15、20、25、50、100、250、500又は1000個のバリアントリード)を少なくとも有し、特定の実施形態においてバックグラウンドエラーモデルに対するa1 Zスコアが2.5、5、7.5又は10より大きい単一ヌクレオチドバリアント位置を有するサンプル(例えば、腫瘍又は細胞を含まない血漿サンプル)は、候補変異として計数される。
【0288】
特定の実施形態において、範囲の下限で100、250、500、1,000、2000、2500、5000、10,000、20,000、25,0000、50,000又は100,000より多く、上限で2000、2500、5,000、7,500、10,000、25,000、50,000、100,000、250,000又は500,000個のリードのリード深度が、単一ヌクレオチドバリアント位置のセットにおける各々の単一ヌクレオチドバリアント位置についての配列決定ランで達成される。典型的には、配列決定ランは、高スループット配列決定ランである。試験中のサンプルについて作成された平均又は中央値の値は、例示的な実施形態において、リード深度によって重み付けされる。したがって、バリアント対立遺伝子決定が、1000リードにおいて1つのバリアント対立遺伝子が検出されたサンプル中で実際のものである尤度は、10,000リードにおいて1つのバリアント対立遺伝子が検出されたサンプルよりも大きく重み付けされる。バリアント対立遺伝子(すなわち変異)の決定が、100%の信頼性で行われないため、特定された単一ヌクレオチドバリアントは、候補バリアント又は候補変異と考えられてもよい。
【0289】
フェージングデータの分析のための例示的な試験統計
例示的な試験統計は、遺伝的に同一ではない2つ以上の細胞に由来するDNA又はRNAを含有する混合サンプルであることが知られているか、又はそれが疑われるサンプルからのフェージングデータの分析について、以下に記載される。fは、目的のDNA又はRNAの分率、例えば、目的のCNVを含むDNA又はRNAの分率、又は目的の細胞、例えば、がん細胞からのDNA又はRNAの分率を示す。出生前試験のいくつかの実施形態において、fは、胎児及び母体のDNA、RNA、又は細胞の混合物中の胎児のDNA、RNA、又は細胞の分率を示す。なお、これは、DNAの2つのコピーが目的の各々の細胞によって与えられると仮定すると、目的の細胞からのDNAの分率を指す。これは、欠失又は重複しているセグメントでの目的の細胞からのDNAの分率とは異なる。
【0290】
各SNPの可能な対立遺伝子の値は、A及びBで示される。AA、AB、BA及びBBは、全ての可能な順序付き対立遺伝子対を示すために使用される。いくつかの実施形態において、順序付き対立遺伝子AB又はBAを含むSNPが分析される。N
iは、i番目のSNPの配列リード数を示し、A
i及びB
iは、それぞれ対立遺伝子A及びBを示すi番目のSNPのリード数を示すとする。以下を仮定する。
N
i=A
i+B
i
対立遺伝子比率R
iは、以下のように定義される。
【数2】
Tは、標的とされるSNPの数を示す。
【0291】
一般性を失うことなく、いくつかの実施形態は、単一染色体セグメントに焦点を当てる。更なる明確性の問題として、本明細書において、「第2の相同染色体セグメントと比較した場合の第1の相同染色体セグメント」との句は、染色体セグメントの第1のホモログ及び染色体セグメントの第2のホモログを意味する。いくつかのこのような実施形態において、標的SNPの全てが、目的のセグメント染色体に含有される。他の実施形態において、複数の染色体セグメントは、可能なコピー数変動について分析される。
【0292】
MAP推定
この方法は、標的セグメントの欠失又は重複を検出するために、順序付き対立遺伝子対を介したフェージングの知識を活用する。各SNPiについて、以下のように定義する。
【数3】
【0293】
次いで、以下のように定義する。
【数4】
種々のコピー数仮説(例えば、ダイソミーの仮説、第1又は第2のホモログの欠失、又は第1又は第2のホモログの重複)でのX
i及びSの分布を以下に記載する。
【0294】
ダイソミー仮説
標的セグメントが欠失又は重複していないという仮説の下、
【数5】
式中、
【数6】
一定のリード深度Nを仮定すると、パラメータ
【数7】
及びTを有する二項分布Sを与える。
【0295】
欠失仮説
第1のホモログが欠失する(すなわちAB SNPがBになり、BA SNPがAになる)という仮説の下で、R
iは、二項分布を有し、AB SNPについてパラメータ
【数8】
及びTであり、BA SNPについて
【数9】
及びTを有する。したがって、
【数10】
一定のリード深度Nを仮定すると、パラメータ
【数11】
及びTを有する二項分布Sを与える。
【0296】
第2のホモログが欠失する(すなわちAB SNPがAになり、BA SNPがBになる)という仮説の下で、R
iは、二項分布を有し、AB SNPについてパラメータ
【数12】
及びTであり、BA SNPについて
【数13】
及びTを有する。したがって、
【数14】
一定のリード深度Nを仮定すると、パラメータ
【数15】
及びTを有する二項分布Sを与える。
【0297】
重複仮説
第1のホモログが重複する(すなわちAB SNPがAABになり、BA SNPがBBAになる)という仮説の下で、R
iは、二項分布を有し、AB SNPについてパラメータ
【数16】
及びTであり、BA SNPについて
【数17】
及びTを有する。したがって、
【数18】
一定のリード深度Nを仮定すると、パラメータ
【数19】
及びTを有する二項分布Sを与える。
【0298】
第2のホモログが重複する(すなわちAB SNPがABBになり、BA SNPがBAAになる)という仮説の下で、R
iは、二項分布を有し、AB SNPについてパラメータ
【数20】
及びTであり、BA SNPについて
【数21】
及びTを有する。したがって、
【数22】
一定のリード深度Nを仮定すると、パラメータ
【数23】
及びTを有する二項分布Sを与える。
【0299】
分類
上の章で示されるように、Xiは、以下を有する、バイナリランダム変数である。
【数24】
【0300】
これにより、各仮説の下で試験統計Sの確率を計算することができる。測定データを考慮した各仮説の確率を計算することができる。いくつかの実施形態において、最大確率を有する仮説が選択される。所望な場合、Sについての分布は、各N
iを一定の到達深さNで概算することによって、又はリード深度を一定値Nに切り捨てることによって単純化することができる。この単純化は、以下を与える。
【数25】
【0301】
fの値は、測定データを考慮した、fの最も可能性の高い値、例えば、アルゴリズム(例えば、検索アルゴリズム)、例えば、最大尤度の推定、経験的な最大推定又はベイズ推定を用いる最良データフィッティングを作成するfの値を選択することによって、推定することができる。いくつかの実施形態において、複数の染色体セグメントが分析され、fの値は、各セグメントについてのデータに基づいて推定される。全ての標的細胞が、これらの重複又は欠失を有する場合、これらの異なるセグメントについてのデータに基づくfの推定値は同様である。いくつかの実施形態において、fは、例えば、がん及び非がん性DNA又はRNAのメチル化(低メチル化又は高メチル化)の差に基づき、がん細胞からのDNA又はRNAの分率を決定することによって、実験的に測定される。
【0302】
胎児及び母体の核酸の混合サンプルのいくつかの実施形態において、fの値は、胎児分率、すなわち、サンプル中のDNA(又はRNA)の総量のうちの胎児のDNA(又はRNA)の分率である。いくつかの実施形態において、胎児分率は、母親及び胎児の両方において異質体であると予測される少なくとも1つの染色体上の多型遺伝子座のセットについての母体の血液サンプル(又はその画分)から遺伝子型データを得ること、染色体での異なる可能な胎児分率にそれぞれ対応する複数の仮説を作成すること、可能な胎児分率について染色体上の多型遺伝子座のセットでの血液サンプル中の予測される対立遺伝子測定値についてのモデルを構築すること、モデル及び血液サンプル又はその画分からの対立遺伝子測定値を用いて胎児分率の仮説のそれぞれの相対確率を計算すること、並びに最大確率で仮説に対応する胎児分率を選択することにより血液サンプル中の胎児分率を決定することによって決定される。いくつかの実施形態において、胎児分率は、母親が多型遺伝子座にある第1の対立遺伝子についてホモ接合性であり、父親が(i)第1の対立遺伝子及び第2の対立遺伝子についてヘテロ接合性であるか、又は(ii)多型遺伝子座にある第2の対立遺伝子についてホモ接合性である、それらの多型遺伝子座を特定すること、及び特定された多型遺伝子座のそれぞれについて血液サンプル中に検出される第2の対立遺伝子の量を使用して、血液サンプル中の胎児分率を決定することによって決定される(例えば、2012年3月29日に出願された米国特許公開第2012/0185176号、及び2013年3月13日に出願された米国特許公開第2014/0065621号を参照されたい)。
【0303】
胎児分率を決定するための別の方法は、高スループットDNAシーケンサを使用して、多数の多型(SNPなど)遺伝子座における対立遺伝子をカウントすること、及び考えられる胎児分率をモデリングすることを含む(例えば、その全体が参照により本明細書に組み込まれる米国特許公開第2012/0264121号を参照されたい)。胎児分率を計算するための別の方法は、その全体が参照により本明細書に組み込まれる、Sparks et al.,”Noninvasive prenatal detection and selective analysis of cell-free DNA obtained from maternal blood:evaluation for trisomy 21 and trisomy 18,”Am J Obstet Gynecol 2012;206:319.e1-9に見出すことができる。いくつかの実施形態において、特定の遺伝子座が胎児においてメチル化されるか、又は優先的にメチル化され、かつそれらの同じ遺伝子座が母親において非メチル化されるか、又は優先的に非メチル化されると仮定するメチル化アッセイ(例えば、それぞれその全体が参照により本明細書に組み込まれる、米国特許第7,754,428号、同第7,901,884号、及び同第8,166,382号を参照されたい)を使用して、胎児分率が決定される。
【0304】
様々な深度のリード及び腫瘍分率についての様々なコピー数仮説についての、増加する数のSNPに対する試験統計量SをT(SNPの数)で除した分布(「S/T」)(fは、全DNAのうちの腫瘍DNAの分率である)。
【0305】
単一仮説拒否
ダイソミー仮説についてのSの分布は、fに依存しない。したがって、測定データの確率は、fを計算することなく、ダイソミー仮説について計算することができる。単一仮説否定試験は、ダイソミーの帰無仮説に使用することができる。いくつかの実施形態において、ダイソミー仮説についてのSの確率が計算され、ダイソミーの仮説は、その確率が所与の閾値を下回る場合(例えば、1,000分の1未満である場合)、否定される。このことは、染色体セグメントの重複又は欠失が存在することを示す。所望な場合、偽陽性率は、閾値を調整することによって変化させることができる。
【0306】
フェージングデータの分析のための例示的な方法
例示的な方法は、遺伝的に同一ではない2つ以上の細胞に由来するDNA又はRNAを含有する混合サンプルであることが知られているか、又はそれが疑われるサンプルからのデータの分析について、以下に記載される。いくつかの実施形態において、フェージングデータが使用される。いくつかの実施形態において、本方法は、各対立遺伝子比率の計算値について、ある特定の遺伝子座についての対立遺伝子比率の計算値が対立遺伝子比率の予測値を上回るか、又は下回るかと、その差の大きさを決定することを伴う。いくつかの実施形態において、尤度分布は、特定の仮説についての遺伝子座での対立遺伝子比率について決定され、対立遺伝子比率の計算値が尤度分布の中心に近いほど、その仮説が正しい可能性が高い。いくつかの実施形態において、本方法は、ある仮説が各遺伝子座について正しい尤度を決定することを伴う。いくつかの実施形態において、本方法は、ある仮説が各遺伝子座について正しい尤度を決定することと、各遺伝子座についてのその仮説の確率を組み合わせることとを伴い、最大の結合確率を有する仮説が選択される。いくつかの実施形態において、本方法は、ある仮説が、各遺伝子座について、また、サンプル中の総DNA又はRNAに対する1つ以上の標的細胞からのDNA又はRNAの各々の可能な比率について、正しい尤度を決定することを伴う。いくつかの実施形態において、各仮説についての結合確率は、各遺伝子座及び各可能な比率についての仮説の確率を合わせることによって決定され、最大の結合確率を有する仮説が選択される。
【0307】
一実施形態において、以下の仮説が考慮される:H
11(全ての細胞が正常である)、H
10(ホモログ1のみを有する細胞の存在、したがって、ホモログ2の欠失)、H
01(ホモログ2のみを有する細胞の存在、したがって、ホモログ1の欠失)、H
21(ホモログ1の重複を有する細胞の存在)、H
12(ホモログ2の重複を有する細胞の存在)。がん細胞又はモザイク細胞などの標的細胞の分率f(又は標的細胞からのDNA又はRNAの分率)について、ヘテロ接合性(AB又はBA)SNPについての対立遺伝子比率の予測値は、以下のように見出すことができる。
数式(1):
【数26】
【0308】
バイアス、コンタミネーション及び配列決定エラーの修正:
SNPでの観測Dsは、各対立遺伝子が存在する元々のマッピングされたリードの数nA
0及びnB
0からなる。次いで、A及びBの対立遺伝子の増幅におけるバイアスの予測値を用い、修正されたリードnA及びnBを見出すことができる。
【0309】
caは、周囲コンタミネーション(例えば、空気又は環境中のDNAからのコンタミネーション)を示し、r(ca)は、周囲汚染物質についての対立遺伝子比率を示す(最初は0.5とみなされる)。更に、cgは、遺伝子型コンタミネーション率(例えば、別のサンプルからのコンタミネーション)を示し、r(cg)は、その汚染物質についての対立遺伝子比率である。se(A,B)及びse(B,A)は、1つの対立遺伝子を異なる対立遺伝子とコールする配列決定エラーを示す(例えば、B対立遺伝子が存在する場合に、A対立遺伝子を誤って検出することによる)。
【0310】
周囲コンタミネーション、遺伝子型コンタミネーション及び配列決定エラーを修正することによって、所与の対立遺伝子比率の予測値rについて、対立遺伝子比率の観測値q(r,ca,r(ca),cg,r(cg),se(A,B),se(B,A))を見出すことができる。
【0311】
汚染物質の遺伝子型は不明であるため、集合頻度を使用して、P(r(cg))を見出すことができる。より具体的には、pは、対立遺伝子の1つ(参照対立遺伝子と呼ばれる場合がある)についての集合頻度である。次いで、P(r(cg)=0)=(1-p)2、P(r(cg)=0)=2p(1-p)及びP(r(cg)=0)=p2である。r(cg)にわたる条件付期待値を使用して、E[q(r,ca,r(ca),cg,r(cg),se(A,B),se(B,A))]を決定することができる。なお、周囲コンタミネーション及び遺伝子型コンタミネーションは、ホモ接合性SNPを用いて決定され、したがって、欠失又は重複の有無によって影響を受けない。更に、所望な場合、参照染色体を用い、周囲コンタミネーション及び遺伝子型コンタミネーションを測定することが可能である。
【0312】
各SNPでの尤度:
以下の式は、対立遺伝子比率rを考慮して、n
A及びn
Bを観測する確率を与える。
数式(2):
【数27】
【0313】
Dsは、SNPのデータを示す。各仮説hε{H11,H01,H10,H21,H12}について、数式(1)においてr=r(AB,h)又はr=r(BA,h)として、r(cg)にわたる条件付期待値を見出し、対立遺伝子比率の観測値E[q(r,ca,r(ca),cg,r(cg))]を決定することができる。次いで、数式(2)においてr=E[q(r,ca,r(ca),cg,r(cg),se(A,B),se(B,A))]として、P(Ds|h,f)を決定することができる。
【0314】
検索アルゴリズム:
いくつかの実施形態において、外れ値であると思われる対立遺伝子比率を有するSNPは、無視される(例えば、平均値よりも少なくとも2又は3の標準偏差分、上又は下である対立遺伝子比率を有するSNPを無視するか、又は除外することによる)。なお、この手法について特定される利点は、より高い割合のモザイク存在下、対立遺伝子比率の可変性を高くし得るため、SNPがモザイクに起因してトリミングされないことを確実にすることである。
【0315】
F={f1,….,fN}は、モザイクの割合についての検索空間を示す(例えば、腫瘍分率)。各SNP及びfεFでのP(Ds|h,f)を決定し、全SNPにわたる尤度を組み合わせることができる。
【0316】
このアルゴリズムは、各仮説について、各fにわたって行う。検索方法を用い、欠失又は重複仮説の信頼性が、欠失がなく、重複がない仮説の信頼性よりも高い場合に、fの範囲F*が存在するとき、モザイクが存在すると結論付ける。いくつかの実施形態において、F*におけるP(Ds|h,f)の最大尤度推定値が決定される。所望な場合、fεF*にわたる条件付期待値を決定してもよい。所望な場合、各仮説についての信頼性を決定することができる。
【0317】
追加の実施形態
いくつかの実施形態において、ベータ二項分布が、二項分布の代わりに使用される。いくつかの実施形態において、参照染色体又は染色体セグメントを使用して、ベータ二項式のサンプル特有のパラメータを決定する。
【0318】
シミュレーションを用いる理論性能:
所望な場合、所与のリード深度(DOR)で、参照リードの数をSNPにランダムに割り当てることによって、アルゴリズムの理論性能を評価することができる。通常の場合、二項確率パラメータについてp=0.5を使用し、欠失又は重複について、pをそれに応じて修正する。各シミュレーションの例示的な入力パラメータは、以下のとおりである。(1)SNPの数S、(2)SNP当たりの一定DOR D、(3)p及び(4)実験数。
【0319】
第1のシミュレーション実験:
この実験は、Sε{500,1000},Dε{500,1000}及びpε{0%,1%,2%,3%,4%,5%}に焦点が当てられた。各設定で、1,000のシミュレーション実験を行った(したがって、フェーズを伴う24,000実験及びフェーズを伴わない24,000実験)。二項分布からのリード数をシミュレーションした(所望な場合、他の分布を使用してもよい)。偽陽性率(p=0%の場合)及び偽陰性率(p>0%の場合)は、フェーズ情報を用い、又はフェーズ情報を用いずに決定した。なお、特にS=1000、D=1000について、フェーズ情報は非常に有用である。しかし、S=500、D=500について、このアルゴリズムは、試験される条件からのフェーズアウトの有無にかかわらず、最も高い偽陽性率を有する。
【0320】
フェーズ情報は、特に、低いモザイク割合(≦3%)で有用である。フェーズ情報がなければ、欠失に対する信頼性が、H10及びH01に対して等しい機会を割り当てることによって決定されるため、p=1%について高レベルの偽陰性が観測され、1つの仮説に有利な小さな偏差は、他の仮説からの低い尤度を補うのに十分ではない。このことは、重複にも同様に当てはまる。また、このアルゴリズムは、SNPの数と比較して、リード深度に対してより感度が高いようである。フェーズ情報を用いた結果について、完全なフェーズ情報が、多数の連続ヘテロ接合性SNPについて利用可能であると仮定する。所望な場合、ハプロタイプ情報は、より小さなセグメントについてのハプロタイプを確率的に合わせることによって得ることができる。
【0321】
第2のシミュレーション実験:
この実験は、各々の設定で、Sε{100,200,300,400,500}、Dε{1000,2000,3000,4000,5000}及びpε{0%,1%,1.5%,2%,2.5%,3%}及び10000のランダム実験に焦点が当てられた。偽陽性率(p=0%の場合)及び偽陰性率(p>0%の場合)は、フェーズ情報を用い、又はフェーズ情報を用いずに決定した。偽陰性率は、ハプロタイプ情報を用い、D≧3000及びN≧200について10%未満であり、一方、D=5000及びN≧400について同じ性能に達する。小さなモザイク割合について、偽陰性率の差は特に目立つものであった。例えば、p=1%の場合、ハプロタイプデータがなければ、20%未満の偽陰性率は決して達成されず、一方、N≧300及びD≧3000については0%に近い。p=3%の場合、ハプロタイプデータを用いると0%の偽陰性率が観測され、一方、ハプロタイプデータがなければ、同じ性能に達するのにN≧300及びD≧3000が必要である。
【0322】
フェージングデータを用いずに欠失及び重複を検出するための例示的な方法
いくつかの実施形態において、非フェージング遺伝子データを使用して、個体のゲノムにおいて(例えば、1つ以上の細胞のゲノムにおいて、又はcfDNA又はcfRNAにおいて)、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰表現が存在するかどうかを決定する。いくつかの実施形態において、フェージング遺伝子データを使用するが、フェージングは無視される。いくつかの実施形態において、DNA又はRNAのサンプルは、2つ以上の遺伝的に異なる細胞からのcfDNA又はcfRNAを含む固体からのcfDNA又はcfRNAの混合サンプルである。いくつかの実施形態において、本方法は、各遺伝子座について、対立遺伝子比率の計算値と対立遺伝子比率の予測値との差の大きさを利用する。
【0323】
いくつかの実施形態において、本方法は、各遺伝子座での各対立遺伝子の量を測定することによって、個体からの1つ以上の細胞からのDNA又はRNAのサンプル中の染色体又は染色体セグメント上の多型遺伝子座のセットでの遺伝子データを得ることを伴う。いくつかの実施形態において、サンプルの由来となる少なくとも1つの細胞においてヘテロ接合性である遺伝子座(例えば、胎児においてヘテロ接合性である、及び/又は母親においてヘテロ接合性である遺伝子座)についての対立遺伝子比率が計算される。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子の1つの測定量を、その遺伝子座についての全ての対立遺伝子の総測定量によって割り算したものである。いくつかの実施形態において、特定の遺伝子座について対立遺伝子比率の計算値は、対立遺伝子(例えば、第1の相同染色体セグメント上の対立遺伝子)の1つの測定量を、その遺伝子座についての1つ以上の他の対立遺伝子(例えば、第2の相同染色体セグメント上の対立遺伝子)の測定量によって割り算したものである。対立遺伝子比率の計算値及び対立遺伝子比率の予測値は、本明細書に記載される方法のいずれか、又は任意の標準的な方法(例えば、本明細書に記載される対立遺伝子比率の計算値又は対立遺伝子比率の予測値の任意の数学的変換)を用いて計算されてもよい。
いくつかの実施形態において、試験統計は、各遺伝子座について、対立遺伝子比率の計算値と対立遺伝子比率の予測値との差の大きさに基づいて計算される。いくつかの実施形態において、試験統計Δは、以下の式を用いて計算される。
【数28】
式中、δ
iは、i番目の遺伝子座についての対立遺伝子比率の計算値と対立遺伝子比率の予測値の間の差の大きさであり、
μ
iは、δ
iの平均値であり、
【数29】
は、δ
iの標準偏差である。
【0324】
例えば、対立遺伝子比率の予測値が0.5である場合に、δ
iを以下のように定義することができる。
【数30】
μ
i及びσ
iについての値は、R
iが二項ランダム変数であるという事実を使用して計算することができる。いくつかの実施形態において、標準偏差は、全ての遺伝子座について同じであると仮定される。いくつかの実施形態において、標準偏差の平均値又は重み付けされた平均値、又は標準偏差の推定値が、
【数31】
の値について使用される。いくつかの実施形態において、試験統計は、正規分布を有すると仮定される。例えば、中心極限定理は、遺伝子座の数(例えば、SNPの数T)が大きくなるにつれて、Δの分布が正規分布に収束することを示唆する。
【0325】
いくつかの実施形態において、細胞の1つ以上のゲノム中の染色体又は染色体セグメントのコピー数を示す1つ以上の仮説のセットが列挙される。いくつかの実施形態において、試験統計に基づいて最も可能性が高い仮説が選択され、それによって、細胞の1つ以上のゲノム中の染色体又は染色体セグメントのコピー数を決定する。いくつかの実施形態において、試験統計が、ある仮説についての試験統計の分布に属する確率が上限閾値を超える場合、その仮説が選択される。試験統計が、ある仮説についての試験統計の分布に属する確率が、下限閾値を下回る場合、その1つ以上の仮説は否定されるか、又は試験統計が、ある仮説についての試験統計の分布に属する確率が、下限閾値から上限閾値の間である場合、又はその確率が、十分に高い信頼性で決定されない場合、その仮説は、選択されず、又は否定もされない。いくつかの実施形態において、上限閾値及び/又は下限閾値は、例えば、トレーニングデータからの分布(例えば、既知のコピー数を有するサンプル、例えば、二倍体サンプル又は特定の欠失又は重複を有することが知られているサンプル)からの経験的な分布から決定される。このような経験的な分布を使用して、単一仮説否定試験のための閾値を選択することができる。
【0326】
なお、試験統計Δは、Sから独立しているため、所望な場合、どちらも独立して使用することができる。
【0327】
対立遺伝子分布又はパターンを用いて欠失又は重複を検出するための例示的な方法
この章は、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現が存在するかどうかを決定する方法を含む。いくつかの実施形態において、本方法は、(i)個体の1つ以上の細胞(例えばがん細胞)のゲノム中に存在する染色体又は染色体セグメントのコピー数を示す複数の仮説、又は(ii)個体の1つ以上の細胞のゲノム中の第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現の程度を示す複数の仮説を列挙することを伴う。いくつかの実施形態において、本方法は、染色体又は染色体セグメント上の複数の多型遺伝子座(例えばSNP遺伝子座)で個体から遺伝子データを得ることを伴う。いくつかの実施形態において、各々の仮説についての個体の予測遺伝子型の確率分布が作成される。いくつかの実施形態において、得られた個体の遺伝子データと個体の予測遺伝子型の確率分布との間のデータフィッティングが計算される。いくつかの実施形態において、1つ以上の仮説は、データフィッティングに従ってランク付けされ、最も高くランク付けされた仮説が選択される。いくつかの実施形態において、検索アルゴリズムなどの技術又はアルゴリズムは、データフィッティングを計算する工程、仮説をランク付けする工程、又は最も高くランク付けされた仮説を選択する工程のうちの1つ以上のために使用される。いくつかの実施形態において、データフィッティングは、ベータ二項分布に対するフィッティング又は二項分布に対するフィッティングである。いくつかの実施形態において、この技術又はアルゴリズムは、最大尤度の推定、経験的な最大推定、ベイズ推定、動的推定(例えば、動的ベイズ推定)及び期待最大化推定からなる群から選択される。いくつかの実施形態において、本方法は、得られた遺伝子データと遺伝子データの予測値に対して、上述の技術又はアルゴリズムを適用することを含む。
【0328】
いくつかの実施形態において、本方法は、(i)個体の1つ以上の細胞(例えばがん細胞)のゲノム中に存在する染色体又は染色体セグメントのコピー数を示す複数の仮説、又は(ii)個体の1つ以上の細胞のゲノム中の第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現の程度を示す複数の仮説を列挙することを伴う。いくつかの実施形態において、本方法は、染色体又は染色体セグメント上の複数の多型遺伝子座(例えばSNP遺伝子座)で個体から遺伝子データを得ることを伴う。いくつかの実施形態において、遺伝子データは、複数の多型遺伝子座についての対立遺伝子数を含む。いくつかの実施形態において、各仮説についての染色体又は染色体セグメント上の複数の多型遺伝子座での対立遺伝子数の予測値について、結合分布モデルが作成される。いくつかの実施形態において、仮説のうちの1つ以上の相対確率は、結合分布モデル及びサンプルについて測定された対立遺伝子数を用いて決定され、最大確率を有する仮説が選択される。
【0329】
いくつかの実施形態において、対立遺伝子の分布又はパターン(例えば、対立遺伝子比率の計算値のパターン)を使用して、CNV(例えば、欠失又は重複)の有無を決定する。所望な場合、CNVの親起源は、このパターンに基づいて決定することができる。母体から遺伝した重複は、母親からの染色体セグメントの余分なコピーであり、母体から遺伝した欠失は、存在する染色体セグメントの唯一のコピーが父親からのものであるように、母親からの染色体セグメントのコピーの非存在である。
【0330】
目的の染色体セグメントの欠失の有無を決定するために、アルゴリズムは、染色体当たりの多数のSNPにおける2つの可能な対立遺伝子のそれぞれからの配列カウントの分布を考慮する。アルゴリズムのいくつかの実施形態は、視覚化するのに適さないアプローチを使用することに留意することが重要である。したがって、A及びBとして標識された2つの最も可能性の高い対立遺伝子の比率として簡略化された様式で、関連する傾向をより容易に視覚化することができる。この簡略化された例示は、アルゴリズムの可能な特徴のいくつかを考慮していない。例えば、対立遺伝子比率を表示する視覚化の方法で例示することが不可能であるアルゴリズムの2つの実施形態は、1)連鎖不均衡、すなわち、1つのSNPにおける測定値が隣接するSNPの同一性の可能性に及ぼす影響を活用する能力、及び2)所与のプラットフォーム特性及び増幅バイアスを考慮したSNPにおける対立遺伝子測定値の予測分布を説明する非ガウスデータモデルの使用、である。また、アルゴリズムの簡略化されたバージョンは、各SNPにおいて2つの最も一般的な対立遺伝子のみを考慮し、他の可能性のある対立遺伝子を無視することに留意されたい。
【0331】
目的の欠失は、ゲノム及び母体血液サンプルにおいて検出された。いくつかの実施形態において、ゲノム及び母体血漿サンプルは、マルチプレックスPCR及び配列決定法を使用して分析される。試験されたゲノムDNA症候群サンプルは、標的領域においてヘテロ接合性SNPを欠いており、アッセイがモノソミー(影響を受けた)とダイソミー(影響を受けていない)とを区別する能力が確認された。母体血液サンプルからのcfDNAの分析は、胎児における22q11.2欠失症候群、ネコ鳴き欠失症候群、及びウォルフ・ヒルシュホーン欠失症候群、及び他の欠失症候群を検出することができた。
【0332】
全ての場合において、母親及び胎児の両方でA対立遺伝子(AA)についてホモ接合性であるSNPは、B対立遺伝子が存在しないはずであるため、A対立遺伝子の読み取り分率が高いことから、プロットの上限と密接に関連することが見出される。逆に、母親及び胎児の両方でB対立遺伝子についてホモ接合であるSNPは、B対立遺伝子のみが存在するはずであるため、A対立遺伝子の読み取り分率が低いことから、プロットの下限と密接に関連することが見出される。プロットの上限及び下限と密接に関連付けられていないスポットは、母親、胎児、又はその両方がヘテロ接合性であるSNPを表し、これらのスポットは、胎児の欠失又は重複を特定するのに有用であるが、父体対母体の遺伝の決定にも有益であり得る。これらのスポットは、母体及び胎児の遺伝子型並びに胎児分率の両方に基づいて分離され、したがって、y軸に沿った各個々のスポットの正確な位置は、化学量論及び胎児分率の両方に依存する。例えば、母親がAAであり、胎児がABである遺伝子座は、A対立遺伝子の異なる分率を有し、したがって、胎児分率に応じてy軸に沿った異なる位置付けを有することが予測される。
【0333】
必要に応じて、がんに関連するCNVなどの欠失又は重複を有することが疑われる個体からのサンプルについて同様のプロットを生成することができる。そのようなプロットにおいて、以下の色分けは、CNVを有しない細胞の遺伝子型に基づいて使用することができる:赤は、AAの遺伝子型を示し、青は、BBの遺伝子型を示し、緑は、ABの遺伝子型を示す。欠失についてのいくつかの実施形態において、パターンは、個体がヘテロ接合性であるSNPを表す2つの中央の緑色のバンドを含み(上側の緑色のバンドは、欠失を有しない細胞からのABと、欠失を有する細胞からのAを表し、下側の緑色のバンドは、欠失を有しない細胞からのABと、欠失を有する細胞からのBを表す)、個体がホモ接合性であるSNPを表し、それぞれプロットの上限及び下限(1及び0)と密接に関連したままの単一の周囲の赤色及び青色のバンドのみを有する。いくつかの実施形態において、2つの緑色のバンドの分離は、欠失を有する細胞、DNA又はRNAの分率が高くなるにつれて、大きくなる。
【0334】
多胎妊娠を特定及び分析するための例示的な方法
いくつかの実施形態において、本発明の方法のいずれかを使用して、胎児のうちの少なくとも1人が少なくとも1人の他の胎児と遺伝的に異なる、双生児の妊娠などの多胎妊娠の存在が検出される。いくつかの実施形態において、異卵双生児は、試験された遺伝子座のいくつか(又は全て)における異なる対立遺伝子、異なる対立遺伝子比率、又は異なる対立遺伝子分布を有する2人の胎児の存在に基づいて特定される。いくつかの実施形態において、異卵双生児は、サンプル(例えば、血漿サンプル)中の同じ又は異なる胎児分率を有し得る2人の胎児について、各遺伝子座(例えば、SNP遺伝子座)での予測される対立遺伝子比率を決定することによって特定される。いくつかの実施形態において、胎児分率の特定の対(f1は、胎児1の胎児分率であり、f2は、胎児2の胎児分率である)の尤度は、母親の遺伝子型及び遺伝子型集団頻度について条件付けられた、2人の胎児の可能な遺伝子型のいくつか又は全てを考慮することによって計算される。2つの胎児及び1つの母体遺伝子型の混合物は、胎児分率と組み合わされて、SNPでの対立遺伝子比率の予測値を決定する。例えば、母親がAAであり、胎児1がAAであり、胎児2がABである場合、SNPでのB対立遺伝子の全体的な分率は、f2の半分である。尤度計算には、全てのSNPが一緒になって、胎児遺伝子型の全ての可能な組み合わせに基づいて、予測される対立遺伝子比率にどれだけ良好にマッチするかが求められる。データに最もマッチする胎児分率ペア(f1、f2)が選択される。胎児の特定の遺伝子型を計算する必要はなく、代わりに、例えば、可能性のある全ての遺伝子型を統計的な組み合わせで考慮することができる。いくつかの実施形態において、本方法が単胎と一卵性双生児とを区別しない場合、超音波を実行して、単胎又は一卵性双生児妊娠が存在するかどうかを判定することができる。超音波が双生児の妊娠を検出した場合、上記のSNP分析に基づいて異卵性双生児の妊娠が検出されたであろうため、その妊娠は一卵性双生児妊娠であると想定することができる。
【0335】
いくつかの実施形態において、妊娠中の母親は、超音波などの事前の試験に基づいて、多胎妊娠(例えば、双生児の妊娠)を有することが知られる。本発明の方法のいずれかを使用して、多胎妊娠が一卵性双生児又は異卵性双生児を含むかどうかを決定することができる。例えば、測定された対立遺伝子比率を、一卵性双生児(単胎妊娠と同じ対立遺伝子比率)又は異卵性双生児(上述の対立遺伝子比率の計算など)について予測されるものと比較することができる。いくつかの一卵性双生児は、双生児間輸血症候群のリスクを有する単絨毛性双生児である。したがって、本発明の方法を使用して一卵性双生児であると判断された双生児は、望ましくは、それらが単絨毛性双生児であるかどうかを判断するために(例えば、超音波によって)試験され、もしそうであれば、これらの双生児は、双生児間輸血症候群の徴候について監視され得る(例えば、16週からの隔週超音波)。
【0336】
いくつかの実施形態において、本発明の方法のいずれかを使用して、双生児の妊娠などの多胎妊娠における胎児のいずれかが異数性であるかどうかが決定される。双生児の異数性試験は、胎児分率の推定から始まる。いくつかの実施形態において、データに最も良くマッチする胎児分率ペア(f1、f2)が、上述のように選択される。いくつかの実施形態において、可能な胎児分率の範囲にわたってパラメータペア(f1、f2)について最大尤度の推定が行われる。いくつかの実施形態において、f2は、より小さい胎児分率として定義されるため、f2の範囲は、0~f1である。ペア(f1、f2)を考慮して、データ尤度は、SNP遺伝子座などの遺伝子座のセットで観察される対立遺伝子比から計算される。いくつかの実施形態において、データの尤度は、母親の遺伝子型、可能であれば父親、集団頻度、及び結果として生じる胎児遺伝子型の確率を反映する。いくつかの実施形態において、SNPは、独立していると仮定される。推定される胎児分率ペアは、最も高いデータ尤度を生成するものである。f2が0である場合、データは、一卵性双生児を示す胎児遺伝子型の1つのセットのみによって最も良好に説明され、f1は、組み合わされた胎児分率である。それ以外の場合、f1及びf2は、個々の双生児胎児分率の推定値である。(f1、f2)の最良の推定値を確立したことにより、所望に応じて、母体及び胎児の遺伝子型の任意の組み合わせについて、血漿中のB対立遺伝子の全体的な割合を予測することができる。個々の配列リードを個々の胎児に割り当てる必要はない。倍数性試験は、2つの仮説のデータ尤度を比較する別の最大尤度推定を使用して行われる。一卵性双生児についてのいくつかの実施形態において、(i)両方の双生児が正倍数性であり、(ii)両方の双生児がトリソミーであるという仮説を考慮する。異卵性双生児についてのいくつかの実施形態において、(i)双生児の両方が正倍数性であり、(ii)少なくとも1つの双生児がトリソミーであるという仮説を考慮する。より高い胎児分率を有する双生児におけるトリソミーもまた検出されるため、異卵性双生児のトリソミー仮説は、より低い胎児分率に基づいている。倍数性尤度は、ダイソミー仮説又はトリソミー仮説のいずれかに条件付けられた各標的ゲノム遺伝子座における予測されるリード数を予測する方法を使用して計算される。ダイソミー参照染色体の要件はない。予測されるリード数の分散モデルは、個々の標的遺伝子座のパフォーマンス及び遺伝子座間の相関を考慮する(例えば、各々その全体が参照により本明細書に組み込まれる、2014年6月5日に出願された米国出願第62/008,235号及び2014年8月4日に出願された米国出願第62/032,785号を参照されたい)。より小さい双生児が胎児分率f1を有する場合、その双生児のトリソミーを検出する能力は、同じ胎児分率で単胎妊娠中のトリソミーを検出する能力と同等である。これは、いくつかの実施形態において、トリソミーを検出する方法の一部が、遺伝子型に依存せず、多胎妊娠又は単胎妊娠を区別しないためである。決定された胎児分率に従って、単に増加したリード数を探すだけである。
【0337】
いくつかの実施形態において、本方法は、(上述のような)SNP遺伝子座に基づいて双生児の存在を検出することを含む。双生児が検出される場合、SPNを使用して、上記のような各胎児(f1、f2)の胎児分率を決定する。いくつかの実施形態において、信頼度の高いダイソミーのコールを有するサンプルを使用して、SNPごとの増幅バイアスを決定する。いくつかの実施形態において、高い信頼度のダイソミーのコールを有するこれらのサンプルは、目的の1つ以上のサンプルと同じランで分析される。いくつかの実施形態において、SNPごとの増幅バイアスは、予測される1つ以上の染色体若しくは染色体21などの目的の染色体セグメントについてのリードの分布をモデル化するために使用されるか、又は2つの双生児の胎児分率のうちのより低い方を考慮したダイソミー仮説及びトリソミー仮説をモデル化するために使用される。2つのモデル及び目的の染色体又は染色体セグメントの測定された量を考慮して、ダイソミー又はトリソミーの尤度又は確率が計算される。
【0338】
いくつかの実施形態において、陽性異数性コール(例えば、トリソミーのコール)の閾値は、より低い胎児分率を有する双生児に基づいて設定される。このようにして、他方の双生児が陽性である場合、又は両方が陽性である場合、総染色体表現は間違いなく閾値を上回る。
【0339】
例示的な計数方法/定量方法
いくつかの実施形態において、1つ以上の計数方法(定量方法とも呼ばれる)を使用して、1つ以上のCNS(例えば、染色体セグメント又は全染色体の欠失又は重複)を検出する。いくつかの実施形態において、1つ以上の計数方法を使用して、第1の相同染色体セグメントのコピー数の過剰出現が、第1の相同染色体セグメントの重複又は第2の相同染色体セグメントの欠失に起因するかどうかを決定する。いくつかの実施形態において、1つ以上の計数方法を使用して、重複する染色体セグメント又は染色体の過剰なコピー数(例えば、1、2、3、4、又はもっと多い過剰なコピーが存在するかどうか)を決定する。いくつかの実施形態において、1つ以上の計数方法を使用して、多くの重複を有し、腫瘍分率が小さいサンプルを、重複が少なく、腫瘍分率が多いサンプルから区別する。例えば、1つ以上の計数方法を使用して、2つの過剰な染色体コピーを有し、腫瘍分率が20%であるサンプルから、4つの過剰な染色体コピーを有し、腫瘍分率が10%であるサンプルを区別してもよい。例示的な方法は、例えば、米国公開第2007/0184467号、同第2013/0172211号及び同第2012/0003637号、米国特許第8,467,976号、同第7,888,017号、同第8,008,018号、同第8,296,076号及び同第8,195,415号、2014年6月5日に出願された米国出願第62/008,235号及び2014年8月4日に出願された米国出願第62/032,785号に開示されており、各々が、全体として参照により本明細書に組み込まれる。
【0340】
いくつかの実施形態において、計数方法は、1つ以上の所与の染色体又は染色体セグメントにマッピングするDNA配列に基づくリードの数を計数することを含む。いくつかのこのような方法は、特定の染色体又は染色体セグメントにマッピングするDNA配列リードの数についての参照値(カットオフ値)の作成を伴い、過剰な値のリード数は、特定の遺伝子異常の指標である。
【0341】
いくつかの実施形態において、1つ以上の遺伝子座についての全ての対立遺伝子の総測定量(例えば、多型又は非多型遺伝子座の総数)を参照値と比較する。いくつかの実施形態において、参照量は、(i)閾値又は(ii)特定のコピー数仮説についての予測量である。いくつかの実施形態において、参照量(CNVが存在しない場合)は、欠失又は重複を有しないことが知られているか、又は予測される1つ以上の染色体又は染色体セグメントについての1つ以上の遺伝子座についての全ての対立遺伝子の総測定量である。いくつかの実施形態において、参照量(CNVが存在する場合)は、欠失又は重複を有することが知られているか、又は予測される1つ以上の染色体又は染色体セグメントについての1つ以上の遺伝子座についての全ての対立遺伝子の総測定量である。いくつかの実施形態において、参照量は、1つ以上の参照染色体又は染色体セグメントについての1つ以上の遺伝子座についての全ての対立遺伝子の総測定量である。いくつかの実施形態において、参照量は、2つ以上の異なる染色体、染色体セグメント、又は異なるサンプルについて決定される値の平均又は中央値である。いくつかの実施形態において、ランダム(例えば、超並列ショットガン配列決定)又は標的化配列決定を使用して、1つ以上の多型又は非多型遺伝子座の量を決定する。
【0342】
参照量を利用するいくつかの実施形態において、本方法は、(a)目的の染色体又は染色体セグメントに対する遺伝物質の量を測定することと、(b)工程(a)からの量を参照量と比較することと、(c)この比較に基づき、欠失又は重複の有無を特定することと、を含む。
【0343】
参照染色体又は染色体セグメントを利用するいくつかの実施形態において、本方法は、サンプルからのDNA又はRNAを配列決定して、標的遺伝子座に整列する複数の配列タグを得ることを含む。いくつかの実施形態において、配列タグは、特定の標的遺伝子座に割り当てられるのに十分な長さを有し(例えば、15~100ヌクレオチド長)、標的遺伝子座は、サンプル中に異常な分布を有することが疑われる少なくとも1つの第1の染色体又は染色体セグメントと、サンプル中に正常に分布していると推定される少なくとも1つの第2の染色体又は染色体セグメントとを含む、複数の異なる染色体又は染色体セグメントに由来する。いくつかの実施形態において、複数の配列タグは、それらの対応する標的遺伝子座に割り当てられる。いくつかの実施形態において、第1の染色体又は染色体セグメントの標的遺伝子座に割り当てる配列タグの数と、第2の染色体又は染色体セグメントの標的遺伝子座に割り当てる配列タグの数を決定する。いくつかの実施形態において、これらの数を比較して、第1の染色体又は染色体セグメントの異常分布(例えば、欠失又は重複)の有無を決定する。
【0344】
いくつかの実施形態において、fの値(例えば、胎児分率又は腫瘍分率)をCNV決定に使用して、例えば、2つの染色体又は染色体セグメントの量の差の観測値と、fの値を考慮して特定の種類のCNVについて予測される差とを比較する(例えば、各々、全体として参照により本明細書に組み込まれる、米国公開第2012/0190020号、米国公開第2012/0190021号、米国公開第2012/0190557号、米国公開第2012/0191358号を参照)。例えば、胎児を有する母親からの血液サンプル中のダイソミー参照染色体セグメントと比較した、胎児中で重複する染色体セグメントの量の差は、胎児分率が増加するにつれて増加する。更に、ダイソミー参照染色体セグメントと比較した、腫瘍中で重複する染色体セグメントの量の差は、腫瘍分率が増加するにつれて増加する。いくつかの実施形態において、本方法は、目的の染色体又は染色体セグメントの相対頻度を、参照染色体又は染色体セグメント(例えば、ダイソミーであると予測されるか、又は知られている染色体又は染色体セグメント)と、fの値とを比較して、CNVの尤度を決定することを含む。例えば、第1の染色体又は染色体セグメントと、参照染色体又は染色体セグメントの量の差を、様々な可能なCNVについてのfの値を考慮して予測されるもの(例えば、目的の染色体セグメントの1つ又は2つの過剰なコピー)と比較してもよい。
【0345】
以下の仮想例は、第1の相同染色体セグメントの重複と第2の相同染色体セグメントの欠失とを区別するための計数方法/定量方法の使用を示す。宿主の正常なダイソミーゲノムがベースラインであると考えると、正常細胞及びがん細胞の混合物の分析は、混合物中のベースラインとがんのDNAとの平均差を与える。例えば、サンプル中のDNAの10%が、アッセイによって標的とされる染色体の領域にわたって欠失を有する細胞に由来する場合を想像する。いくつかの実施形態において、定量手法は、この領域に対応するリードの量が、正常サンプルについて予測される量の95%であると予測されることを示す。これは、標的領域の欠失を有する腫瘍細胞各々における2つの標的染色体領域の1つが欠けているため、この領域にマッピングするDNAの総量は、90%(正常細胞の場合)+1/2×10%(腫瘍細胞の場合)=95%である。これに代えて、いくつかの実施形態において、対立遺伝子手法は、ヘテロ接合性遺伝子座での対立遺伝子の比率が平均で19:20であることを示す。次に、サンプル中のDNAの10%が、アッセイによって標的とされる染色体の領域の5倍の焦点増幅を有する細胞に由来する場合を想像する。いくつかの実施形態において、定量手法は、この領域に対応するリードの量が、正常サンプルについて予測される量の125%であると予測されることを示す。これは、5倍の焦点増幅を有する腫瘍細胞各々における2つの標的染色体領域の1つが、標的領域にわたって過剰に5倍コピーされるため、この領域にマッピングするDNAの総量は、90%(正常細胞の場合)+(2+5)×10%(腫瘍細胞の場合)/2=125%である。これに代えて、いくつかの実施形態において、対立遺伝子手法は、ヘテロ接合性遺伝子座での対立遺伝子の比率が平均で25:20であることを示す。なお、対立遺伝子手法のみを用いる場合、10%のcfDNAを含むサンプル中の染色体領域にわたる5倍の焦点増幅は、40%のcfDNAを含むサンプル中の同じ領域にわたる欠失と同じであるように見える場合がある。これらの2つの場合では、欠失の場合に過小出現するハプロタイプは、焦点重複を有する場合において、CNVを含まないハプロタイプであるように見え、欠失の場合において、CNVを有しないハプロタイプは、焦点重複の場合において、過剰出現するハプロタイプであるように見える。この対立遺伝子手法によって作成される尤度と、定量手法によって作成される尤度とを組み合わせることで、この2つの確率を区別する。
【0346】
参照サンプルを用いる例示的な計数方法/定量方法
1つ以上の参照サンプルを使用する例示的な定量方法は、2014年6月5日に出願された米国出願第62/008,235号及び2014年8月4日に出願された米国出願第62/032,785号に記載されており、その全体が参照により本明細書に組み込まれる。いくつかの実施形態において、1つ以上の染色体又は目的の染色体上にCNVを有しない可能性が最も高い1つ以上の参照サンプル(例えば、正常サンプル)は、腫瘍DNA分率が最も高いサンプルを選択し、zスコアが0に最も近いサンプルを選択し、最も高い信頼性又は尤度を有するCNVがないことに対応する仮説にデータが適合するサンプルを選択し、正常であることが知られているサンプルを選択し、がんを有する尤度が最も低い(例えば、年齢が低い、乳がんについてスクリーニングする場合に男性である、家族歴がないなどの)個体からのサンプルを選択し、DNAのインプット量が最も多いサンプルを選択し、信号ノイズ比が最も高いサンプルを選択し、がんを有するという尤度に相関関係があると考えられている他の基準に基づいてサンプルを選択し、又は基準のいくつかの組み合わせを用いてサンプルを選択することによって特定される。参照セットが選択されると、これらの場合がダイソミーであると仮定し、SNP当たりのバイアス、すなわち、実験に特有の増幅及び各遺伝子座についての他の処理バイアスを推定することができる。次いで、この実験に特有のバイアスの推定値を使用して、目的の染色体、例えば、染色体21の遺伝子座の測定におけるバイアスを、適切な場合には他の染色体遺伝子座について、ダイソミーが染色体21について仮定されていない部分集合の一部ではないサンプルについて修正することができる。バイアスが、未知の倍数性を有するこれらのサンプルにおいて修正されたら、これらのサンプルについてのデータを、同じ方法又は異なる方法を用いて2回分析し、個体(例えば胎児)がトリソミー21に罹患しているかどうかを決定することができる。例えば、定量方法を、未知の倍数性を有する残りのサンプルに対して使用してもよく、zスコアは、染色体21について修正された遺伝子データの測定値を用いて計算することができる。これに代えて、染色体21の倍数性状態の予備的な推定の一部として、胎児分率(又はがんを有することが疑われる個体からのサンプルの腫瘍分率)を計算することができる。ダイソミーの場合(ダイソミー仮説)に予測される修正されたリードの割合と、トリソミーの場合(トリソミー仮説)に予測される修正されたリードの割合を、その胎児分率を有する場合について計算することができる。これに代えて、胎児分率が前もって測定されていない場合、ダイソミー仮説及びトリソミー仮説のセットが、異なる胎児分率について作成されてもよい。各々の場合について、様々なDNA遺伝子座の選択及び測定において、修正されたリードの割合の予測分布が、所与の予測統計的変動を考慮して計算されてもよい。リードの修正された割合の観測値を、修正されたリードの割合の予測分布と比較してもよく、尤度比率を、未知の倍数性を有するサンプル各々について、ダイソミー及びトリソミー仮説について計算することができる。最も高い尤度の計算値を有する仮説に関連する倍数性状態を、正しい倍数性状態として選択することができる。
【0347】
いくつかの実施形態において、がんを有する尤度が十分に低いサンプルの部分集合を選択し、サンプルの対照セットとして機能させてもよい。この部分集合は、固定数であってもよく、又は閾値を下回るサンプルのみを選択することに基づき、可変数であってもよい。サンプルの部分集合からの定量データを、組み合わせ、平均を計算し、又は重み付け平均を用いて組み合わせてもよく、この重み付けは、正常であるサンプルの尤度に基づく。定量データを使用して、対照サンプルの即時バッチにおいてサンプルの配列決定をする増幅についての遺伝子座当たりのバイアスを決定してもよい。遺伝子座当たりのバイアスは、サンプルの他のバッチからのデータも含んでいてもよい。遺伝子座当たりのバイアスは、他の遺伝子座と比較して、その遺伝子座について観測される相対的な過剰増幅又は相対過小増幅を示していてもよく、サンプルの部分集合がCNVを含有しないと仮定すると、過剰増幅又は過小増幅の任意の観測値が、増幅及び/又は配列決定又は他のバイアスに起因することを示していてもよい。遺伝子座当たりのバイアスは、アンプリコンのGC含有量を考慮してもよい。遺伝子座は、遺伝子座当たりのバイアスを計算する目的のために、遺伝子座群にグループ分けされてもよい。複数の遺伝子座中の各々の遺伝子座について、遺伝子座当たりのバイアスが計算されると、サンプルの部分集合中にはないサンプルのうちの1つ以上についての配列決定データと、場合により、サンプルの部分集合中にあるサンプルのうちの1つ以上が、各遺伝子座についての定量測定を調整して、その遺伝子座でのバイアスの効果を除去することによって修正されてもよい。例えば、患者の部分集合において、SNP1が、平均の2倍の大きさのリード深度を有すると観測された場合、調整は、その大きさの半分の数を有するSNP1からの対応するリード数に置き換えることを伴っていてもよい。問題となっている遺伝子座がSNPである場合、調整は、その遺伝子座での各々の対立遺伝子に対応するリード数を半分にすることを伴っていてもよい。1つ以上のサンプル中の各々の遺伝子座についての配列決定データが調整されたら、1つ以上の染色体領域でのCNVの存在を検出する目的のために、ある方法を用いて分析されてもよい。
【0348】
一例では、サンプルAは、定量方法を用いて分析される正常細胞とがん性細胞との混合物に由来する増幅されたDNAの混合物である。以下は、例示的な可能なデータを示す。染色体22上のqアームの領域は、その領域にマッピングするDNAの予測される値の90%しか有していないことがわかり、HER2遺伝子に対応する焦点領域は、その領域にマッピングするDNAの予測される値の150%を有することがわかり、染色体5のpアームは、マッピングするDNAの予測される値の105%を有することがわかっている。医師は、そのサンプルが、染色体22上のqアーム上の領域の欠失と、HER2遺伝子の重複を有することを推論し得る。医師は、22q欠失が乳がんにおいて一般的であるため、また、両染色体上の22q領域の欠失を有する細胞が、通常は生存しないことから、サンプル中のDNAの約20%が、2つの染色体のうちの1つの上の22q欠失を有する細胞に由来することを推論し得る。医師はまた、腫瘍細胞に由来する混合サンプルからのDNAが、HER2領域及び22q領域が均質である遺伝的な腫瘍細胞のセットに由来する場合、その細胞が、HER2領域の5倍重複を含有することを推論し得る。
【0349】
一例では、サンプルAは、対立遺伝子方法を用いても分析される。以下は、例示的な可能なデータを示す。染色体22上のqアーム上の同じ領域についての2つのハプロタイプは、4:5の比率で存在し、HER2遺伝子に対応する焦点領域における2つのハプロタイプは、1:2の比率で存在し、染色体5のpアーム中の2つのハプロタイプは、20:21の比率で存在する。ゲノムの全ての他のアッセイされた領域は、いずれのハプロタイプも統計的に有意に過剰に含まない。医師は、そのサンプルが、22q領域、HER2領域及び5pアーム中のCNVを有する腫瘍からのDNAを含有すると推論し得る。22q欠失が乳がんにおいて非常に一般的であるという知識及び/又はゲノムの22q領域にマッピングするDNAの量の過小出現を示す定量分析に基づき、医師は、22q欠失を有する腫瘍の存在を推論し得る。HER2増幅が乳がんにおいて非常に一般的であるという知識及び/又はゲノムのHER2領域にマッピングするDNAの量の過剰出現を示す定量分析に基づき、医師は、HER2増幅を有する腫瘍の存在を推論し得る。
【0350】
例示的な参照染色体又は染色体セグメント
いくつかの実施形態において、本明細書に記載される方法のいずれかが、1つ以上の参照染色体又は染色体セグメントに対しても行われ、その結果を、目的の1つ以上の染色体又は染色体セグメントについての結果と比較する。
【0351】
いくつかの実施形態において、参照染色体又は染色体セグメントは、CNVが存在しないことが予測される対照として使用される。いくつかの実施形態において、参照は、染色体又は染色体セグメント中に欠失又は重複を有しないことが知られているか、又は予測される1つ以上の異なるサンプルからの同じ染色体又は染色体セグメントである。いくつかの実施形態において、参照は、ダイソミーであると予測される試験されるサンプルからの異なる染色体又は染色体セグメントである。いくつかの実施形態において、参照は、試験されるのと同じサンプル中の目的の染色体の1つからの異なるセグメントである。例えば、参照は、潜在的な欠失又は重複の領域の外側にある1つ以上のセグメントであってもよい。試験されるのと同じ染色体についての参照を有することで、異なる染色体間の可変性、例えば、代謝、アポトーシス、ヒストン、不活化及び/又は染色体間の増幅の差を回避する。試験されるのと同じ染色体上にCNVを含まないセグメントを分析することも使用して、代謝、アポトーシス、ヒストン、不活化及び/又は染色体間の増幅の差を決定することができ、CNVが存在しないホモログ間の可変性のレベルを、潜在的なCNVからの結果と比較するために決定することを可能にする。いくつかの実施形態において、潜在的なCNVについての対立遺伝子比率の計算値と予測値との差の大きさは、参照についての対応する大きさよりも大きく、それによって、CNVの存在を確認する。
【0352】
いくつかの実施形態において、参照染色体又は染色体セグメントは、CNV(例えば、目的の特定の欠失又は重複)が存在することが予想される対照として使用される。いくつかの実施形態において、参照は、染色体又は染色体セグメント中に欠失又は重複を有することが知られているか、又は予測される1つ以上の異なるサンプルからの同じ染色体又は染色体セグメントである。いくつかの実施形態において、参照は、CNVを有することが知られているか、又は予測される試験されるサンプルからの異なる染色体又は染色体セグメントである。いくつかの実施形態において、潜在的なCNVについての対立遺伝子比率の計算値と予測値との差の大きさは、CNVについての参照のための対応する大きさと同様であり(例えば、有意に異ならず)、それによって、CNVの存在を確認する。いくつかの実施形態において、潜在的なCNVについての対立遺伝子比率の計算値と予測値との差の大きさは、CNVについての参照のための対応する大きさよりも小さく(例えば、有意に小さく)、それによって、CNVが存在しないことを確認する。いくつかの実施形態において、非がん性細胞の遺伝子型(又は非がん性細胞からのDNA又はRNA、例えば、cfDNA又はcfRNA)とは異なる、がん細胞の遺伝子型についての1つ以上の遺伝子座(又はcfDNA又はcfRNAなどのがん細胞からのDNA又はRNA)を使用して、腫瘍分率を決定する。腫瘍分率を使用して、第1の相同染色体セグメントのコピー数の過剰出現が、第1の相同染色体セグメントの重複又は第2の相同染色体セグメントの欠失に起因するかどうかを決定することができる。腫瘍分率を使用して、重複する染色体セグメント又は染色体の過剰なコピー数(例えば、1、2、3、4、又はもっと多い過剰なコピーが存在するかどうか)を決定し、例えば、2つの過剰な染色体コピーを有し、腫瘍分率が20%であるサンプルから、4つの過剰な染色体コピーを有し、腫瘍分率が10%であるサンプルを区別することもできる。腫瘍分率を使用して、観測されたデータが、可能なCNVについての予測データとどの程度十分に適合するかを決定することもできる。いくつかの実施形態において、CNVの過剰出現の程度を使用して、個体のための特定の療法又は治療レジメンを選択する。例えば、いくつかの治療薬は、染色体セグメントの少なくとも4、6、又はもっと多くのコピーに対してのみ有効である。
【0353】
いくつかの実施形態において、腫瘍分率を決定するために使用される1つ以上の遺伝子座は、参照染色体又は染色体セグメント(例えば、ダイソミーであると知られているか、又は予測される染色体又は染色体セグメント、一般的にがん細胞において、又は有することが知られているか、又は有するリスクが上昇している個体の特定の種類のがんにおいてほとんど重複又は欠失しない染色体又は染色体セグメント、又は異数性の可能性が低い染色体又は染色体セグメント(例えば、欠失又は重複すると、細胞死を引き起こすと予測されるこのようなセグメント)に対するものである。いくつかの実施形態において、本発明の方法のいずれかを使用して、参照染色体又は染色体セグメントが、がん細胞及び非がん性細胞の両方においてダイソミーであることを確認する。いくつかの実施形態において、ダイソミーのコールについての信頼性が高い1つ以上の染色体又は染色体セグメントが使用される。
【0354】
腫瘍分率を決定するために使用可能な例示的な遺伝子座としては、個体における非がん性細胞(又は非がん性細胞からのDNA又はRNA)中には存在しない、がん細胞(又は、がん細胞からのcfDNA又はcfRNAなどのDNA又はRNA)中の多型又は変異(例えばSNP)が挙げられる。いくつかの実施形態において、腫瘍分率は、個体からのサンプル(例えば、血漿サンプル又は腫瘍検体)中のがん細胞(又はがん細胞からのDNA又はRNA)が、非がん性細胞(又は、非がん性細胞からのDNA又はRNA)中には存在しない対立遺伝子を有する、これらの多型遺伝子座を特定し、特定された多型遺伝子座のうちの1つ以上でのがん細胞に固有の対立遺伝子の量を使用して、サンプル中の腫瘍分率を決定することによって、決定される。いくつかの実施形態において、非がん性細胞は、多型遺伝子座にある第1の対立遺伝子についてホモ接合性であり、がん細胞は、(i)第1の対立遺伝子及び第2の対立遺伝子についてヘテロ接合性であるか、又は(ii)多型遺伝子座にある第2の対立遺伝子についてホモ接合性である。いくつかの実施形態において、非がん性細胞は、多型遺伝子座にある第1の対立遺伝子及び第2の対立遺伝子についてヘテロ接合性であり、がん細胞は、(i)多型遺伝子座にある第3の対立遺伝子の1つ又は2つのコピーを有する。いくつかの実施形態において、がん細胞は、非がん性細胞中に存在しない対立遺伝子の1つのコピーのみを有すると仮定されるか、又は知られている。例えば、非がん性細胞の遺伝子型がAAであり、がん細胞がABであり、サンプル中のその遺伝子座での信号の5%がB対立遺伝子からのものであり、95%がA対立遺伝子からのものである場合、そのサンプルの腫瘍分率は10%である。いくつかの実施形態において、がん細胞は、非がん性細胞中に存在しない対立遺伝子の2つのコピーを有すると仮定されるか、又は知られている。例えば、非がん性細胞の遺伝子型がAAであり、がん細胞がBBであり、サンプル中のその遺伝子座での信号の5%がB対立遺伝子からのものであり、95%がA対立遺伝子からのものである場合、そのサンプルの腫瘍分率は5%である。いくつかの実施形態において、がん細胞が非がん性細胞中にはない対立遺伝子を有する複数の遺伝子座を分析して、がん細胞中のどの遺伝子座がヘテロ接合性であり、どの遺伝子座がホモ接合性であるかを決定する。例えば、非がん性細胞がAAである遺伝子座について、B対立遺伝子からの信号が、いくつかの遺伝子座で約5%であり、いくつかの遺伝子座で約10%である場合、がん細胞は、約5%のB対立遺伝子を有する遺伝子座ではヘテロ接合性であり、約10%のB対立遺伝子を有する遺伝子座ではホモ接合性であると仮定される(腫瘍分率が約10%であることを示す)。
【0355】
腫瘍分率を決定するために使用可能な例示的な遺伝子座としては、がん細胞及び非がん性細胞が共通して1つの対立遺伝子を有する遺伝子座が挙げられる(例えば、がん細胞はABであり、非がん性細胞はBBであるか、又はがん細胞はBBであり、非がん性細胞はABである遺伝子座)。混合サンプル(がん細胞及び非がん性細胞からのDNA又はRNAを含有する)中のA信号の量、B信号の量、又はB信号に対するA信号の比率を、(i)がん細胞のみからのDNA若しくはRNAを含有するサンプル又は(ii)非がん性細胞のみからのDNA若しくはRNAを含有するサンプルについての対応する値と比較する。この値の差を使用して、混合サンプルの腫瘍分率を決定する。
【0356】
いくつかの実施形態において、腫瘍分率を決定するために使用可能な遺伝子座は、(i)がん細胞のみからのDNA若しくはRNAを含有するサンプル及び/又は(ii)非がん性細胞のみからのDNA若しくはRNAを含有するサンプルの遺伝子型に基づいて選択される。いくつかの実施形態において、遺伝子座は、混合サンプルの分析に基づいて選択され、例えば、各対立遺伝子の絶対量又は相対量が、がん細胞及びがん性細胞の両方が特定の遺伝子座で同じ遺伝子型を有する場合に予測される量とは異なる遺伝子座が選択される。例えば、がん細胞及び非がん性細胞が同じ遺伝子型を有する場合、遺伝子座は、全ての細胞がAAである場合には、0%のB信号を生成すると予測されるか、全ての細胞がABである場合には、50%のB信号を生成すると予測されるか、又は全ての細胞がBBである場合には、100%のB信号を生成すると予測される。B信号の他の値は、がん細胞及び非がん性細胞の遺伝子型がその遺伝子座で異なるため、その遺伝子座を使用して腫瘍分率を決定することができることを示す。
【0357】
いくつかの実施形態において、1つ以上の遺伝子座にある対立遺伝子に基づいて計算される腫瘍分率を、本明細書に開示される計数方法のうちの1つ以上を用いて計算される腫瘍分率と比較する。
【0358】
表現型を検出するか、又は多重変異を分析するための例示的な方法
いくつかの実施形態において、本方法は、ある疾患若しくは障害(例えばがん)又はある疾患若しくは障害のリスク上昇に関連する変異のセットについて、サンプルを分析することを含む。ある方法の信号ノイズ比を改善し、腫瘍を別個の臨床部分集合に分類するために使用可能な、クラス内の事象(例えば、M又はCのがんクラス)間に強い相関関係が存在する。例えば、合わせて考慮される1つ以上の染色体又は染色体セグメントについてのいくつかの変異(例えば、いくつかのCNV)についての境界にある結果は、非常に強力な信号であり得る。いくつかの実施形態において、目的の複数の多型又は変異(例えば、2、3、4、5、8、10、12、15又はもっと多い)の有無を決定することは、ある疾患若しくは障害(例えばがん)の有無、又はある疾患若しくは障害(例えばがん)のリスク上昇の決定の感度及び/又は特異性を高める。いくつかの実施形態において、複数の染色体にわたる事象間の相関関係を使用して、これらの各々を個々に見るのと比較すると、より強力に信号を見る。本方法自体の設計を、腫瘍を最適に分類するために最適化することができる。このことは、1つの特定の変異/CNVに対する感度が最も重要であり得る再発に対する早期検出及びスクリーニングに非常に有用であろう。いくつかの実施形態において、事象は常に相関関係があるものではないが、相関関係がある確率を有する。いくつかの実施形態において、使用される非対角項を有するノイズ共分散行列を有するマトリックス推定組成が使用される。
【0359】
いくつかの実施形態において、本発明は、個体における表現型(例えば、がん表現型)を検出する方法を特徴とし、表現型は、変異のセットのうちの少なくとも1つの存在によって定義される。いくつかの実施形態において、本方法は、個体からの1つ以上の細胞からのDNA又はRNAのサンプルについてのDNA又はRNAの測定を得ることであって、1つ以上の細胞が、表現型を有することが疑われる、得ることと、DNA又はRNAの測定を分析して、変異のセット中の各々の変異について、細胞の少なくとも1つがその変異を有する尤度を決定することと、を含む。いくつかの実施形態において、本方法は、(i)変異のうちの少なくとも1つについて、細胞の少なくとも1つがその変異を有する尤度が閾値より大きい、又は(ii)変異のうちの少なくとも1つについて、細胞の少なくとも1つがその変異を有する尤度が閾値より小さく、複数の変異について、細胞の少なくとも1つが、変異のうちの少なくとも1つを有する結合尤度が閾値よりも大きい場合に、個体は表現型を有すると決定することを含む。いくつかの実施形態において、1つ以上の細胞は、変異のセット中の変異の部分集合又は全てを有する。いくつかの実施形態において、変異の部分集合は、がん又はがんのリスク上昇に関連する。いくつかの実施形態において、変異のセットは、がん変異のMクラス中の変異の部分集合又は全てを含む(Ciriello、Nat Genet.45(10):1127-1133、2013、doi:10.1038/ng.2762、その全体が参照により本明細書に組み込まれる)。いくつかの実施形態において、変異のセットは、がん変異のCクラス中の変異の部分集合又は全てを含む(Ciriello、前出)。いくつかの実施形態において、サンプルは、無細胞DNA又はRNAを含む。いくつかの実施形態において、DNA又はRNAの測定は、目的の1つ以上の染色体又は染色体セグメント上の多型遺伝子座のセットでの測定(例えば、各遺伝子座での各対立遺伝子の量)を含む。
【0360】
父性試験又は遺伝子関連性試験のための例示的な方法
本発明の方法は、父性試験又は他の遺伝子関連性試験の精度を改善するために使用することができる(例えば、その全体が参照により本明細書に組み込まれる、2011年12月22日に出願された米国特許公開第2012/0122701号を参照されたい)。例えば、マルチプレックスPCR法は、本明細書に記載されるPARENTAL SUPPORTアルゴリズムで使用するために何千もの多型遺伝子座(例えばSNP)を分析して、その中の主張された父親が胎児の生物学的父親であるかどうかを決定することを可能にすることができる。いくつかの実施形態において、本発明は、主張された父親が、妊娠中の母親内での妊娠期の胎児の生物学的な父親であるかどうかを確定する方法を特徴とする。いくつかの実施形態において、本方法は、主張された父親についてのフェージング遺伝子データを得ることを伴い(例えば、遺伝子データをフェージングするために本明細書に記載される方法のうちの別の方法を使用することによって)、フェージング遺伝子データは、主張された父親の第1の相同染色体セグメント及び第2の相同染色体セグメント上の多型遺伝子座のセット中の各遺伝子座について存在する対立遺伝子の同一性を含む。いくつかの実施形態において、本方法は、各遺伝子座での各対立遺伝子の量を測定することによって、胎児DNAと、胎児の母親からの母体DNAとを含むDNAの混合サンプル中の染色体又は染色体セグメント上の多型遺伝子座のセットでの遺伝子データを得ることを伴う。いくつかの実施形態において、本方法は、主張された父親についてのフェージング遺伝子データから、DNAの混合サンプルについての予測遺伝子データをコンピュータ上で計算することと、DNAの混合サンプルについて得られた遺伝子データをDNAの混合サンプルについての予測遺伝子データと比較することによって、主張された父親が胎児の生物学的父親である確率をコンピュータ上で決定することと、主張された父親が胎児の生物学的父親である決定された確率を用いて、主張された父親が胎児の生物学的父親であるかどうかを確定することとを伴う。いくつかの実施形態において、本方法は、胎児の生物学的母親についてのフェージング遺伝子データを得ることを伴い(例えば、遺伝子データをフェージングするために本明細書に記載される方法のうちの別の方法を使用することによって)、フェージング遺伝子データは、母親の第1の相同染色体セグメント及び第2の相同染色体セグメント上の多型遺伝子座のセット中の各遺伝子座について存在する対立遺伝子の同一性を含む。いくつかの実施形態において、本方法は、胎児についてのフェージング遺伝子データを得ることを伴い(例えば、遺伝子データをフェージングするために本明細書に記載される方法のうちの別の方法を使用することによって)、フェージング遺伝子データは、胎児の第1の相同染色体セグメント及び第2の相同染色体セグメント上の多型遺伝子座のセット中の各遺伝子座について存在する対立遺伝子の同一性を含む。いくつかの実施形態において、本方法は、主張された父親についてのフェージング遺伝子データを使用し、母親についてのフェージング遺伝子データ及び/又は胎児についてのフェージング遺伝子データを使用して、DNAの混合サンプルについての予測される遺伝子データをコンピュータ上で計算することを伴う。
【0361】
いくつかの実施形態において、本発明は、主張された父親が、妊娠中の母親内での妊娠期の胎児の生物学的な父親であるかどうかを確定する方法を特徴とする。いくつかの実施形態において、本方法は、主張された父親についてのフェージング遺伝子データを得ることを伴い(例えば、遺伝子データをフェージングするために本明細書に記載される方法のうちの別の方法を使用することによって)、フェージング遺伝子データは、主張された父親の第1の相同染色体セグメント及び第2の相同染色体セグメント上の多型遺伝子座のセット中の各遺伝子座について存在する対立遺伝子の同一性を含む。いくつかの実施形態において、本方法は、各遺伝子座での各対立遺伝子の量を測定することによって、胎児DNAと、胎児の母親からの母体DNAとを含むDNAの混合サンプル中の染色体又は染色体セグメント上の多型遺伝子座のセットでの遺伝子データを得ることを含む。いくつかの実施形態において、本方法は、(i)胎児DNA中に存在するが、多型遺伝子座における母体DNA中に存在しない対立遺伝子を特定すること、並びに/又は(i)多型遺伝子座における胎児DNA及び母体DNA中に存在しない対立遺伝子を特定することを含む。いくつかの実施形態において、本方法は、主張された父親が胎児の生物学的父親である確率をコンピュータ上で決定することを含み、決定は、(1)(i)胎児DNAに存在するが、多型遺伝子座における母体DNAに存在しない対立遺伝子を、(ii)主張された父親からの遺伝子材料中の対応する多型遺伝子座における対立遺伝子と比較すること、及び/又は(2)(i)胎児DNAに存在しない対立遺伝子及び多型遺伝子座における母体DNAを、(ii)主張された父親からの遺伝子材料中の対応する多型遺伝子座における対立遺伝子と比較することと、主張された父親が胎児の生物学的父親である決定された確率を用いて、主張された父親が胎児の生物学的父親であるかどうかを確定することとを含む。
【0362】
いくつかの実施形態において、主張された父親が胎児の生物学的父親であるかどうかを決定するための上述の方法を使用して、胎児の主張された血縁者(例えば、祖父母、兄弟、叔母、又は叔父)が胎児の実際の生物学的血縁者であるかどうかを決定する(例えば、主張された父親の遺伝子データの代わりに主張された血縁者の遺伝子データを使用することによって)。
【0363】
方法の例示的な組み合わせ
結果の精度を高めるために、CNVの有無を検出する2つ以上の方法(例えば、本発明の方法のいずれか、又は任意の既知の方法)が行われる。いくつかの実施形態において、ある疾患若しくは障害の有無又はある疾患若しくは障害のリスク上昇の指標である因子を分析する1つ以上の方法(例えば、本発明の方法のいずれか、又は任意の既知の方法)が行われる。
【0364】
いくつかの実施形態において、標準的な数学技術を使用して、2つ以上の方法間の共分散及び/又は相関を計算する。標準的な数学技術を使用して、2つ以上の試験に基づく特定の仮説の結合確率も決定してもよい。例示的な技術としては、メタ分析、独自試験のためのフィッシャーの結合確率検定、従属p値と既知の共分散を組み合わせるブラウン法及び従属p値と未知の共分散を組み合わせるコスト法が挙げられる。尤度が、尤度が第2の方法について決定される方法に対して直交するか、又は無関係の方法で第1の方法によって決定される場合では、尤度を組み合わせることは簡単であり、乗算及び正規化によって行うことができ、又は以下のような式を使用することによって行うことができる。
Rcomb=R1R2/[R1R2+(1-R1)(1-R2)]
Rcombは、結合尤度であり、R1及びR2は、個々の尤度である。例えば、方法1からのトリソミーの尤度が90%であり、方法2からのトリソミーの尤度が95%である場合、2つの方法からの出力を組み合わせることによって、医師は、(0.90)(0.95)/[(0.90)(0.95)+(1-0.90)(1-0.95)]=99.42%の尤度で、胎児がトリソミーであると結論付けることが可能になる。第1の方法と第2の方法が直交していない場合、すなわち、この2つの方法の間に相関関係がある場合にも、尤度を組み合わせることができる。
【0365】
複数の因子又は変数を分析する例示的な方法は、2011年9月20日に登録された米国特許第8,024,128号、2006年7月31日に出願された米国公開第2007/0027636号及び2006年12月6日に出願された米国公開第2007/0178501号に開示されており、各々が参照により本明細書に組み込まれる。
【0366】
様々な実施形態において、特定の仮説又は診断の結合確率は、80、85、90、92、94、96、98、99又は99.9%より大きいか、又はいくつかの他の閾値より大きい。
【0367】
検出限界
いくつかの実施形態において、本発明の方法の変異(例えば、SNV又はCNV)の検出限界は、10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さいか、これらに等しい。いくつかの実施形態において、本発明の方法の変異(例えば、SNV又はCNV)の検出限界は、15~0.005%、例えば、10~0.005%、10~0.01%、10~0.1%、5~0.005%、5~0.01%、5~0.1%、1~0.005%、1~0.01%、1~0.1%、0.5~0.005%、0.5~0.01%、0.5~0.1%又は0.1~0.01(境界値を含む)である。いくつかの実施形態において、検出限界は、サンプル(例えば、cfDNA又はcfRNAのサンプル)中に遺伝子座を含むDNA又はRNAの10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さいか、又はこれらに等しい量で存在する変異(例えば、SNV又はCNV)が検出される(又は検出することが可能な)値である。例えば、遺伝子座中に変異を有する遺伝子座(例えば、遺伝子座の野生型又は非変異態様又はその遺伝子座にある異なる変異の代わりに)を含むDNA又はRNA分子の10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さいか、又はこれらに等しい場合に、変異を検出することができる。いくつかの実施形態において、検出限界は、サンプル(例えば、cfDNA又はcfRNAのサンプル)中のDNA又はRNA分子の10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さいか、又はこれらに等しい量で存在する変異(例えば、SNV又はCNV)が検出される(又は検出することが可能な)値である。CNVが欠失であるいくつかの実施形態において、サンプル中に欠失を含有していてもよく、又は含有していなくてもよい目的の領域を有するDNA又はRNA分子の10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さいか、又はこれらに等しい量でのみ存在する場合であっても、欠失を検出することができる。CNVが欠失であるいくつかの実施形態において、サンプル中のDNA又はRNA分子の10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さいか、又はこれらに等しい量でのみ存在する場合であっても、欠失を検出することができる。CNVが重複であるいくつかの実施形態において、存在する過剰に重複したRNA又はDNAが、サンプル中でサンプル中で重複していてもよく、又は重複していなくてもよい目的の領域を有するDNA又はRNA分子の10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さいか、又はこれらに等しい量で存在する場合であっても、重複を検出することができる。CNVが重複であるいくつかの実施形態において、存在する過剰に重複したRNA又はDNAが、サンプル中のDNA又はRNA分子の10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さいか、又はこれらに等しい量でのみ存在する場合であっても、重複を検出することができる。
【0368】
例示的なサンプル
本発明の態様のいずれかのいくつかの実施形態において、サンプルは、欠失又は重複を有することが疑われる細胞、例えば、がん性であることが疑われる細胞からの細胞内及び/又は細胞外の遺伝物質を含む。いくつかの実施形態において、サンプルは、欠失又は重複を有する細胞、DNA又はRNA、例えばがん細胞、DNA又はRNAを含むことが疑われる任意の組織又は体液を含む。これらの方法の一部として使用される遺伝子測定は、DNA又はRNAを含む任意のサンプル、例えば、限定されないが、組織、血液、血清、血漿、尿、毛髪、涙、唾液、皮膚、指の爪、糞便、胆汁、リンパ液、子宮頸粘液、精液、又は核酸を含む他の細胞又は物質について行われてもよい。サンプルは、任意の細胞型を含んでいてもよく、又は任意の細胞型からのDNA又はRNAを使用してもよい(例えば、がん性であることが疑われる任意の臓器又は組織からの細胞、又はニューロン)。いくつかの実施形態において、サンプルは、核及び/又はミトコンドリアDNAを含む。いくつかの実施形態において、サンプルは、本明細書で開示される標的個体のいずれかに由来する。いくつかの実施形態において、標的個体は、出生した個体、妊娠期の胎児、非妊娠期の胎児、例えば、受胎サンプルの生成物、胚、又は任意の他の個体である。
【0369】
例示的なサンプルとしては、cfDNA又はcfRNAを含有するものが挙げられる。いくつかの実施形態において、cfDNAは、細胞を溶解する工程を必要とせずに、分析に利用可能である。無細胞DNAは、様々な組織、例えば、液体形態である組織、例えば、血液、血漿、リンパ液、腹水又は脳脊髄液から得られてもよい。ある場合に、cfDNAは、胎児細胞に由来するDNAからなる。ある場合に、cfDNAは、胎児細胞及び母体細胞の両方に由来するDNAからなる。ある場合に、cfDNAは、細胞物質を除去するために遠心分離された、全血から単離された血漿から単離される。cfDNAは、標的細胞(例えばがん細胞)及び非標的細胞(例えば非がん細胞)に由来するDNAの混合物であってもよい。
【0370】
いくつかの実施形態において、サンプルは、DNA(又はRNA)の混合物、例えば、がんDNA(又はRNA)及び非がん性DNA(又はRNA)の混合物を含有するか、又は含有することが疑われる。いくつかの実施形態において、サンプル中の細胞の少なくとも0.5、1、3、5、7、10、15、20、30、40、50、60、70、80、90、92、94、95、96、98、99又は100%ががん細胞である。いくつかの実施形態において、サンプル中のDNA(例えばcfDNA)又はRNA(例えばcfRNA)の少なくとも0.5、1、3、5、7、10、15、20、30、40、50、60、70、80、90、92、94、95、96、98、99又は100%が、がん細胞(複数可)由来である。様々な実施形態において、サンプル中のがん性細胞である細胞の割合は、0.5~99%、例えば、1~95%、5~95%、10~90%、5~70%、10~70%、20~90%又は20~70%(境界値を含む)である。いくつかの実施形態において、サンプルは、がん細胞が濃縮されているか、又はがん細胞からのDNA又はRNAが濃縮されている。がん細胞が濃縮されているサンプルのいくつかの実施形態において、濃縮サンプル中の細胞の少なくとも0.5、1、2、3、4、5、6、7、10、15、20、30、40、50、60、70、80、90、92、94、95、96、98、99又は100%ががん細胞である。がん細胞からのDNA又はRNAが濃縮されているサンプルのいくつかの実施形態において、濃縮サンプル中のDNA又はRNAの少なくとも0.5、1、2、3、4、5、6、7、10、15、20、30、40、50、60、70、80、90、92、94、95、96、98、99又は100%が、がん細胞(複数可)由来である。いくつかの実施形態において、細胞選別(例えば、蛍光活性化細胞選別(FACS))を用いて、がん細胞を濃縮する(それぞれその全体が参照により本明細書に組み込まれる、Barteneva et.al.,Biochim Biophys Acta.,1836(1):105-22,Aug 2013.doi:10.1016/j.bbcan.2013.02.004.Epub 2013 Feb 24、及びIbrahim et al.,Adv Biochem Eng Biotechnol.106:19-39,2007)。
【0371】
本発明の態様のいずれかのいくつかの実施形態において、サンプルは、少なくとも部分的に胎児起源であることが疑われる任意の組織を含む。いくつかの実施形態において、サンプルは、胎児からの細胞遺伝物質及び/若しくは細胞外遺伝物質、汚染性細胞遺伝物質及び/若しくは細胞外遺伝物質(胎児の母親からの遺伝物質など)、又はそれらの組み合わせを含む。いくつかの実施形態において、サンプルは、胎児からの細胞遺伝物質、汚染性細胞遺伝物質、又はそれらの組み合わせを含む。
【0372】
いくつかの実施形態において、サンプルは、妊娠期の胎児からのサンプルである。いくつかの実施形態において、サンプルは、受胎サンプルの産物又は胎児死亡後の任意の胎児組織からのサンプルなど、非妊娠期の胎児からのサンプルである。いくつかの実施形態において、サンプルは、母体の全血サンプル、母体の血液サンプルから単離された細胞、母体の血漿サンプル、母体の血清サンプル、羊水穿刺サンプル、胎盤組織サンプル(例えば、絨毛性絨毛、脱落膜、若しくは胎盤膜)、子宮頸部粘液サンプル、又は胎児からの他のサンプルである。いくつかの実施形態において、サンプル中の細胞の少なくとも3、5、7、10、15、20、30、40、50、60、70、80、90、92、94、95、96、98、99又は100%が母体細胞である。様々な実施形態において、サンプル中の母体細胞である細胞の割合は、5~99%、例えば、10~95%、20~95%、30~90%、30~70%、40~90%、40~70%、50~90%、又は50~80%(境界値を含む)である。
【0373】
いくつかの実施形態において、サンプルは、胎児細胞が濃縮されている。胎児細胞が濃縮されているサンプルのいくつかの実施形態において、濃縮サンプル中の細胞の少なくとも0.5、1、2、3、4、5、6、7%又はもっと多くが、胎児細胞である。いくつかの実施形態において、サンプル中の胎児細胞である細胞の割合は、0.5~100%、例えば、1~99%、5~95%、10~95%、10~95%、20~90%又は30~70%(境界値を含む)である。いくつかの実施形態において、サンプルは、胎児DNAが濃縮されている。胎児DNAが濃縮されているサンプルのいくつかの実施形態において、濃縮サンプル中のDNAの少なくとも0.5、1、2、3、4、5、6、7%又はもっと多くが、胎児DNAである。いくつかの実施形態において、サンプル中の胎児DNAであるDNAの割合は、0.5~100%、例えば、1~99%、5~95%、10~95%、10~95%、20~90%又は30~70%(境界値を含む)である。
【0374】
いくつかの実施形態において、サンプルは、単一細胞を含むか、又は単一細胞からのDNA及び/又はRNAを含む。いくつかの実施形態において、複数の個々の細胞(例えば、同じ対象又は異なる対象からの少なくとも5、10、20、30、40又は50個の細胞)を並列に分析する。いくつかの実施形態において、同じ個体由来の複数のサンプルからの細胞を組み合わせ、これらのサンプルを別個に分析する場合と比較して、作業量が減少する。複数サンプルを組み合わせることで、がんについて同時に複数組織を試験することも可能になる(これを使用して、がんについてより十分なスクリーニングを提供するか、又はがんが他の組織に転移した可能性があるかどうかを決定することができる)。
【0375】
いくつかの実施形態において、サンプルは、単一の細胞又は少数の細胞、例えば、2、3、5、6、7、8、9又は10個の細胞を含有する。いくつかの実施形態において、サンプルは、1~100、100~500又は500~1,000個の細胞(境界値を含む)を有する。いくつかの実施形態において、サンプルは、1~10ピコグラム、10~100ピコグラム、100ピコグラム~1ナノグラム、1~10ナノグラム、10~100ナノグラム又は100ナノグラム~1マイクログラムのRNA及び/又はDNA(境界値を含む)を含有する。
【0376】
いくつかの実施形態において、サンプルは、パラフィルムに包埋される。いくつかの実施形態において、サンプルは、ホルムアルデヒドなどの防腐剤で保存され、場合により、パラフィンに封入され、そのうちの少量がPCRに利用可能であるように、DNAの架橋を引き起こし得る。いくつかの実施形態において、サンプルは、ホルムアルデヒド固定パラフィン包埋(FFPE)サンプルである。いくつかの実施形態において、サンプルは、新鮮なサンプル(例えば、1日又は2日の分析で得られるサンプル)である。いくつかの実施形態において、サンプルは、分析前に凍結される。いくつかの実施形態において、サンプルは、歴史的サンプルである。
【0377】
これらのサンプルは、本発明の方法のいずれにおいて、使用することができる。
【0378】
例示的なサンプル調製方法
いくつかの実施形態において、本方法は、DNA及び/又はRNAを単離又は精製することを含む。このような目的を達成するために、当該技術分野で既知であるいくつかの標準的な手順が存在する。いくつかの実施形態において、サンプルを遠心分離して、様々な層を分離してもよい。いくつかの実施形態において、DNA又はRNAは、濾過を用いて単離されてもよい。いくつかの実施形態において、DNA又はRNAの調製は、増幅、分離、クロマトグラフィーによる精製、液液分離、単離、優先的濃縮、優先的増幅、標的化された増幅、又は当該技術分野で知られているか、又は本明細書に記載されるいくつかの他の技術のいずれかを伴っていてもよい。DNAの単離のためのいくつかの実施形態において、RNaseを使用してRNAを分解する。RNAの単離のためのいくつかの実施形態において、DNase(例えば、Invitrogen、Carlsbad,CA,USA製のDNase I)を使用してDNAを分解する。いくつかの実施形態において、RNeasyミニキット(Qiagen)を使用して、製造業者のプロトコルに従ってRNAを単離する。いくつかの実施形態において、低分子RNAは、mirVana PARISキット(Ambion、Austin,TX,USA)を用い、製造業者のプロトコルに従って単離される(その全体が参照により本明細書に組み込まれるGu et al.,J.Neurochem.122:641-649,2012)。RNAの濃度及び純度は、場合により、Nanovue(GE Healthcare、Piscataway,NJ,USA)を用いて決定されてもよく、RNAの完全性は、場合により、2100 Bioanalyzer(Agilent Technologies、Santa Clara,CA,USA)の使用によって測定されてもよい(その全体が参照により本明細書に組み込まれるGu et al.,J.Neurochem.122:641-649,2012)。いくつかの実施形態において、TRIZOL又はRNAlater(Ambion)を使用して、保管中のRNAを安定化させる。
【0379】
いくつかの実施形態において、ユニバーサルタグ付けアダプターが追加され、ライブラリを作成する。ライゲーションの前に、サンプルDNAは、平滑末端化されてもよく、次いで、単一のアデノシン塩基を3’末端に付加する。ライゲーションの前に、DNAは、制限酵素又はいくつかの他の開裂方法を用いて開裂されてもよい。ライゲーション中に、サンプルフラグメントの3’アデノシンと、アダプターの相補性3’チロシンオーバーハングが、ライゲーション効率を高めることができる。いくつかの実施形態において、アダプターライゲーションは、AGILENT SURESELECTキット中に見出されるライゲーションキットを用いて行われる。いくつかの実施形態において、ライブラリは、ユニバーサルプライマーを用いて増幅される。一実施形態において、増幅されるライブラリは、サイズ分離によって、又はAGENCOURT AMPUREビーズなどの製品又は他の同様の方法を用いることによって、分画される。いくつかの実施形態において、PCR増幅を用いて、標的遺伝子座を増幅する。いくつかの実施形態において、増幅されるDNAは、配列決定される(例えば、ILLUMINA IIGAX又はHiSeqシーケンサ)。いくつかの実施形態において、増幅されるDNAは、増幅されるDNAの各末端から配列決定され、配列決定エラーを減らす。増幅されるDNAの一端から配列決定する場合に、特定の塩基における配列エラーが存在する場合、増幅されるDNAの他端から配列決定するときに相補性塩基中に配列エラーがある可能性が低い(増幅されるDNAの同じ末端からの複数回の配列決定と比較して)。
【0380】
いくつかの実施形態において、全ゲノムアプリケーション(WGA)を用いて核酸サンプルを増幅する。ライゲーション媒介PCR(LM-PCR)、変性オリゴヌクレオチドプライマーPCR(DOP-PCR)及び多重置換増幅(MDA)といった、WGAに利用可能ないくつかの方法が存在する。LM-PCRにおいて、アダプターと呼ばれる短いDNA配列を、DNAの平滑末端にライゲーションする。これらのアダプターは、PCRによってDNAを増幅するために使用されるユニバーサル増幅配列を含有する。DOP-PCRにおいて、ユニバーサル増幅配列も含有するランダムプライマーを、アニーリング及びPCRの第1ラウンドで使用する。次いで、第2ラウンドのPCRを使用して、更にユニバーサルプライマー配列を用い、配列を増幅させる。MDAは、phi-29ポリメラーゼを使用し、このポリメラーゼは、DNAを複製し、単一細胞分析に使用されてきた、高度なプロセッシブ非特異性酵素である。いくつかの実施形態において、WGAは実施されない。
【0381】
いくつかの実施形態において、選択的な増幅又は濃縮を使用して、標的遺伝子座を増幅するか、又は濃縮する。いくつかの実施形態において、増幅及び/又は選択的な濃縮技術は、PCR(例えば、ライゲーション媒介PCR)、ハイブリダイゼーションによる画分の捕捉、分子反転プローブ又は他の環状化プローブを伴っていてもよい。いくつかの実施形態において、リアルタイム定量PCR(RT-qPCR)、デジタルPCR、又はエマルションPCR、単一対立遺伝子塩基伸長反応の後の質量分析が使用される(Hung et al.,J Clin Pathol 62:308-313、2009、その全体が参照により本明細書に組み込まれる)。いくつかの実施形態において、ハイブリッド捕捉プローブを用いたハイブリダイゼーションによる捕捉を使用して、DNAを優先的に濃縮する。いくつかの実施形態において、増幅又は選択的な濃縮のための方法は、標的配列に正しくハイブリダイゼーションすると、ヌクレオチドプローブの3’末端又は5’末端が少数のヌクレオチドによって多型対立遺伝子の多型部位から分離されるプローブを用いることを伴っていてもよい。この分離は、対立遺伝子バイアスと呼ばれる1つの対立遺伝子の優先的増幅を減らす。これは、正しくハイブリダイズされたプローブの3’末端又は5’末端が、対立遺伝子の多型部位に直接隣接しているか、又は非常に近い位置にあるプローブを用いることを伴う方法の改善である。一実施形態において、ハイブリダイズする領域が多型部位を含有し得るか、又は確実に含有するプローブは除外される。ハイブリダイゼーション部位にある多型部位は、一部の対立遺伝子において不均等なハイブリダイゼーションを引き起こし、又はハイブリダイゼーションを完全に阻害する場合があり、特定の対立遺伝子の優先的増幅をもたらす場合がある。これらの実施形態は、各多型遺伝子座でサンプルの元々の対立遺伝子頻度をより良好に保存するという点で、標的化された増幅及び/又は選択的な濃縮を伴う他の方法の改善であり、ここで、サンプルは、単一の個体又は個体の混合からの純粋なゲノムサンプルである
【0382】
いくつかの実施形態において、PCR(ミニPCRと呼ばれる)を使用して、非常に短いアンプリコンを作成する(それぞれその全体が参照により本明細書に組み込まれる、2012年11月21日に出願された米国出願第13/683,604号、米国公開第2013/0123120号、2011年11月18日に出願された米国出願第13/300,235号、2011年11月18日に出願された米国公開第2012/0270212号及び2014年5月16日に出願された米国出願第61/994,791号)。cfDNA(例えば、母体血清中の胎児cfDNA、又は壊死若しくはアポトーシスによって放出されるがんcfDNA)は、高度にフラグメント化される。胎児cfDNAの場合、フラグメントサイズは、平均が160bp、標準偏差が15bp、最小サイズが約100bp、最大サイズが約220bpのほぼGaussian方法で分布する。ある特定の標的遺伝子座の多型部位は、その遺伝子座に由来する様々なフラグメントの最初から最後までの任意の位置を占めていてもよい。cfDNAフラグメントが短いため、両プライマー部位が存在する尤度、長さLのフラグメントが順方向及び逆方向のプライマー部位の両方を含む尤度は、そのフラグメントの長さに対するアンプリコンの長さの比率である。理想的な条件下で、アンプリコンが45、50、55、60、65又は70bpであるアッセイは、利用可能なテンプレートフラグメント分子のそれぞれ72%、69%、66%、63%、59%又は56%からの増幅に成功する。がんを有することが疑われる個体のサンプルからのcfDNAに対して最も好ましく関連する特定の実施形態において、cfDNAは、85、80、75又は70bp、特定の好ましい実施形態において75bpの最大アンプリコン長を与え、融点が50~65℃、特定の好ましい実施形態において54~60.5℃のプライマーを用いて増幅される。アンプリコンの長さは、順方向及び逆方向のプライミング部位の5’末端間の距離である。当該技術分野で知られているものによって典型的に使用されるものよりも短いアンプリコン長は、短い配列リードのみを必要とすることによって、所望な多型遺伝子座のより効率的な測定をもたらし得る。一実施形態において、アンプリコンの実質的な画分は、100bp未満、90bp未満、80bp未満、70bp未満、65bp未満、60bp未満、55bp未満、50bp未満又は45bp未満である。
【0383】
いくつかの実施形態において、増幅は、直接多重化PCR、連続PCR、ネスティッドPCR、二重ネスティッドPCR、片側及び片側半(one-and-a-half sided)ネスティッドPCR、完全ネスティッドPCR、片側完全ネスティッドPCR、片側ネスティッドPCR、ヘミネスティッドPCR、ヘミネスティッドPCR、三重ヘミネスティッドPCR、セミネスティッドPCR、片側セミネスティッドPCR、逆セミネスティッドPCR法、又は片側PCRを用いて行われ、これらは、2012年11月21日に出願された米国出願第13/683,604号、米国公開第2013/0123120号、2011年11月18日に出願された米国出願第13/300,235号、米国公開第2012/0270212号及び2014年5月16日に出願された米国出願第61/994,791号(その全体が参照により本明細書に組み込まれる)に記載される。所望な場合、これらの方法のいずれかをミニPCRに使用してもよい。
【0384】
所望な場合、PCR増幅の伸長工程は、200ヌクレオチド、300ヌクレオチド、400ヌクレオチド、500ヌクレオチド又は1,000ヌクレオチドより長いフラグメントからの増幅を減らすために、時間的観点から制限されてもよい。これにより、フラグメント化されたDNA又はより短いDNA(例えば、胎児DNA、又はアポトーシス又は壊死を受けたがん細胞からのDNA)の濃縮をもたらす場合があり、試験性能が向上し得る。
【0385】
いくつかの実施形態において、マルチプレックスPCRが使用される。いくつかの実施形態において、核酸サンプルにおいて標的遺伝子座を増幅する方法は、(i)核酸サンプルと、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる標的遺伝子座を同時にハイブリダイズするプライマーのライブラリとを接触させ、反応混合物を生成することと、(ii)この反応混合物をプライマー伸長反応条件(例えばPCR条件)に供して、標的アンプリコンを含む増幅産物を生成することとを伴う。いくつかの実施形態において、標的遺伝子座の少なくとも50、60、70、80、90、95、96、97、98、99又は99.5%が増幅される。様々な実施形態において、増幅産物の60、50、40、30、20、10、5、4、3、2、1、0.5、0.25、0.1又は0.05%未満が、プライマーダイマーである。いくつかの実施形態において、プライマーは、溶液状態である(例えば、固相ではなく液相に溶解する)。いくつかの実施形態において、プライマーは、溶液状態であり、固体支持体に固定されていない。いくつかの実施形態において、プライマーは、マイクロアレイの一部ではない。いくつかの実施形態において、プライマーは、分子反転プローブ(MIP)を含まない。
【0386】
いくつかの実施形態において、2つ以上(例えば、3又は4)の標的アンプリコン(例えば、本明細書に開示されるミニPCR方法からのアンプリコン)が一緒にライゲーションされ、次いで、ライゲーションされた産物が配列決定される。複数のアンプリコンを単一のライゲーション産物になるように組み合わせることで、その後の配列決定工程の効率が増加する。いくつかの実施形態において、標的アンプリコンは、これらがライゲーションされる前には、長さが150、100、90、75又は50塩基対未満である。選択的な濃縮及び/又は増幅は、各々の個々の分子を、異なるタグ、分子バーコード、増幅のためのタグ及び/又は配列決定のためのタグを用いてタグ化することを伴っていてもよい。いくつかの実施形態において、増幅産物は、配列決定(例えば、高スループット配列決定)によって、又はアレイ、例えば、SNPアレイ、ILLUMINA INFINIUMアレイ又はAFFYMETRIX遺伝子チップへのハイブリダイゼーションによって分析される。いくつかの実施形態において、ナノポア配列決定、例えば、Geniaによって開発されたナノポア配列決定技術が使用される(例えば、その全体が参照により本明細書に組み込まれる、geniachip.com/technologyでのワールドワイドウェブを参照)。いくつかの実施形態において、二重配列決定が使用される(Schmittら、「Detection of ultra-rare mutations by next-generation sequencing」、Proc Natl Acad Sci U S A.109(36):14508-14513、2012、その全体が参照により本明細書に組み込まれる)。この手法は、DNA二本鎖の2つの鎖の各々を独立してタグ化し、配列決定することによって、エラーを大きく減らす。この2つの鎖が相補性であるため、真の変異は、両方の鎖の同じ位置に見出される。これとは対照的に、PCR又は配列決定のエラーは、1つの鎖にのみ変異が生じるため、技術的エラーとして割り引くことができる。いくつかの実施形態において、本方法は、二本鎖DNAの両方の鎖を、ランダムであるが相補性の二本鎖ヌクレオチド配列(二本鎖タグと呼ばれる)を用いてタグ化することを含む。最初に、一本鎖のランダム化ヌクレオチド配列を1つのアダプター鎖に導入し、次いで、反対側の鎖をDNAポリメラーゼを用いて伸長し、相補性の二本鎖タグを得ることによって、二本鎖タグ配列が、標準的な配列決定アダプターに組み込まれる。タグ化されたアダプターを剪断DNAにライゲーションした後、個々に標識された鎖が、アダプターテール上の非対称プライマー部位からPCR増幅され、ペアエンド配列決定に供される。いくつかの実施形態において、サンプル(例えば、DNA又はRNAサンプル)が、複数の画分に、例えば、異なるウェル(例えば、WaferGen SmartChipのウェル)に分割される。サンプルを異なる画分(例えば、少なくとも5、10、20、50、75、100、150、200又は300画分)に分割することによって、変異を有する分子の割合が、全体的なサンプルよりもウェルのいくつかで高くなるため、分析の感度を上げることができる。いくつかの実施形態において、各画分は、500、400、200、100、50、20、10、5、2個又は1個未満のDNA又はRNA分子を含む。いくつかの実施形態において、各画分中の分子は、別個に配列決定される。いくつかの実施形態において、同じバーコード(例えば、ランダム又は非ヒト配列)を、同じ画分中の全ての分子に加えられ(例えば、バーコードを含有するプライマーを用いた増幅によって、又はバーコードのライゲーションによって)、異なるバーコードが、異なる画分中の分子に加えられる。バーコード化された分子をプールし、一緒に配列決定することができる。いくつかの実施形態において、分子をプールし、配列決定(例えば、ネスティッドPCRを用いることによって)する前に、分子を増幅する。いくつかの実施形態において、1つの順方向プライマーと2つの逆方向プライマー、又は2つの順方向プライマーと1つの逆方向プライマーが使用される。
【0387】
いくつかの実施形態において、サンプル(例えば、cfDNA又はcfRNAのサンプル)中のDNA又はRNA分子の10、5、2、1、0.5、0.1、0.05、0.01又は0.005%より小さい量で存在する変異(例えば、SNV又はCNV)が、検出される(又は検出することが可能である)。いくつかの実施形態において、サンプル(例えば、血液サンプルからのcfDNA又はcfRNAのサンプルなど)中の1,000、500、100、50、20、10、5、4、3又は2未満の元々のDNA又はRNA分子(増幅前)に存在する変異(例えば、SNV又はCNV)が検出される(又は検出することができる)。いくつかの実施形態において、サンプル(例えば、血液サンプルからのcfDNA又はcfRNAのサンプルなど)中のたった1つの元々のDNA又はRNA分子(増幅前)に存在する変異(例えば、SNV又はCNV)が検出される(又は検出することができる)。
【0388】
例えば、変異(例えば、単一ヌクレオチドバリアント(SNV))の検出限界が0.1%である場合、画分を複数の画分(例えば、100ウェル)に分割することによって、0.01%で存在する変異を検出することができる。ウェルの大部分は、変異のコピーを含まない。変異を有する数少ないウェルについて、変異は、かなり高い割合のリードで存在する。一例では、標的遺伝子座からの20,000個のDNAの初期コピーが存在し、これらのコピーのうちの2つが、目的のSNVを含む。サンプルが100ウェルに分割される場合、98ウェルはSNVを有し、2ウェルは、0.5%でSNVを有する。各ウェル中のDNAをバーコード化し、増幅し、他のウェルからのDNAとともにプールし、配列決定することができる。SNVを含まないウェルを使用して、バックグラウンド増幅/配列決定エラー率を測定し、外れ値のウェルからの信号が、ノイズのバックグラウンドレベルを超えているかどうかを決定することができる。
【0389】
いくつかの実施形態において、増幅産物は、アレイ、例えば、目的の1つ以上の染色体(例えば、染色体13、18、21、X、Y、又はこれらの任意の組み合わせ)に対するプローブを用いるアレイ(特にマイクロアレイ)を用いて検出される。例えば、市販のSNP検出マイクロアレイ、例えば、Illumina(サンディエゴ、CA)GoldenGate、DASL、Infinium、又はCytoSNP-12遺伝子型決定アッセイ、又はAffymetrix製のSNP検出マイクロアレイ製品、例えば、OncoScanマイクロアレイを使用することができることが理解されるだろう。いくつかの実施形態において、胚又は胎児の一方又は両方の生物学的親についてのフェージング遺伝子データを使用して、単一細胞からのアレイデータの分析の精度を増加させる。
【0390】
配列決定することを伴ういくつかの実施形態において、リード深度は、所与の遺伝子座にマッピングする配列決定リードの数である。リード深度は、リード総数にわたって正規化されてもよい。サンプルのリード深度についてのいくつかの実施形態において、リード深度は、標的遺伝子座にわたる平均リード深度である。遺伝子座のリード深度についてのいくつかの実施形態において、リード深度は、その遺伝子座にマッピングするシーケンサによって測定されるリードの数である。一般に、遺伝子座のリード深度が大きいほど、その遺伝子座での対立遺伝子の比率が、元々のDNAサンプルにおける対立遺伝子の比率と近い傾向がある。リード深度は、限定されないが、百分率又は割合を含め、様々な異なる方法で表現されてもよい。したがって、例えば、高度に並行なDNAシーケンサ、例えば、Illumina HISEQは、例えば、100万個のクローン配列を生成し、1つの遺伝子座の配列決定を3,000回行うと、その遺伝子座でのリード深度は、3,000リードになる。その遺伝子座でのリードの割合は、3,000を総リード100万で割り算したものであり、すなわち、総リードの0.3%である。
【0391】
いくつかの実施形態において、対立遺伝子データが得られ、対立遺伝子データは、多型遺伝子座の特定の対立遺伝子のコピー数の指標である定量測定値(複数可)を含む。いくつかの実施形態において、対立遺伝子データは、多型遺伝子座で観測される対立遺伝子の各々のコピー数の指標である定量測定値(複数可)を含む。典型的には、目的の多型遺伝子座の全ての可能な対立遺伝子について、定量測定値が得られる。例えば、マイクロアレイ、qPCR、DNA配列決定、例えば、高スループットDNA配列決定など、SNP又はSNV遺伝子座について対立遺伝子を決定するための前述の段落で記載された方法のいずれかを使用して、多型遺伝子座の特定の対立遺伝子のコピー数の定量測定値を作成することができる。この定量測定値は、本明細書では、対立遺伝子頻度データ又は遺伝子対立遺伝子データの測定値と呼ばれる。対立遺伝子データを用いる方法は、時に、定量対立遺伝子方法と呼ばれることがある。これは、非多型遺伝子座から、又は多型遺伝子座からであるが、対立遺伝子同一性に関するものではない、定量データを排他的に使用する定量方法とは対照的である。対立遺伝子データが、高スループット配列決定を用いて測定される場合、対立遺伝子データは、典型的には、目的の遺伝子座にマッピングする各対立遺伝子のリード数を含む。
【0392】
いくつかの実施形態において、非対立遺伝子データが得られ、非対立遺伝子データは、特定の遺伝子座のコピー数の指標である定量測定値(複数可)を含む。遺伝子座は、多型又は非多型であってもよい。遺伝子座が非多型である場合のいくつかの実施形態において、非対立遺伝子データは、その遺伝子座に存在し得る個々の対立遺伝子の相対量又は絶対量に関する情報を含有しない。非対立遺伝子データ(すなわち、非多型対立遺伝子からの定量データ、又は多型遺伝子からであるが、各フラグメントの対立遺伝子同一性に関するものではない定量データ)のみを使用する方法は、定量方法と呼ばれる。典型的には、目的の多型遺伝子座の全ての可能な対立遺伝子について、定量測定値が得られ、1つの値は、全体で、その遺伝子座にある全ての対立遺伝子についての測定量に関連付けられる。多型遺伝子座についての非対立遺伝子データは、その遺伝子座にある各対立遺伝子についての定量対立遺伝子を合計することによって得られてもよい。対立遺伝子データが、高スループット配列決定を用いて測定される場合、非対立遺伝子データは、典型的には、目的の遺伝子座にマッピングするもののリード数を含む。配列決定測定値は、その遺伝子座に存在する各々の対立遺伝子の相対数及び/又は絶対数を示すことができ、非対立遺伝子データは、対立遺伝子同一性にかかわらず、その遺伝子座にマッピングするリードの合計を含む。いくつかの実施形態において、配列決定測定値の同じセットを使用して、対立遺伝子データ及び非対立遺伝子データの両方を得ることができる。いくつかの実施形態において、対立遺伝子データを、ある方法の一部として使用して、目的の染色体でのコピー数を決定し、作成した非対立遺伝子データを、異なる方法の一部として使用して、目的の染色体でのコピー数を決定することができる。いくつかの実施形態において、この2つの方法は、統計的に直交しており、これらを組み合わせて、目的の染色体でのコピー数のより正確な決定を与える。
【0393】
いくつかの実施形態において、遺伝子データを得ることは、(i)実験技術によって、例えば、自動化高スループットDNAシーケンサの使用によって、DNA配列情報を取得すること、又は(ii)実験技術によって前もって得ておいた情報を取得することを含み、この情報は、例えば、インターネットを介したコンピュータによって、又は配列決定デバイスからの電子送信によって、電気的に送信される。
【0394】
更なる例示的なサンプル調製、増幅及び定量化の方法は、2012年11月21日に出願された米国出願第13/683,604号(米国公開第2013/0123120号及び2014年5月16日に出願された米国出願第61/994,791号、その全体が参照により本明細書に組み込まれる)に記載される。これらの方法は、本明細書に開示されるサンプルのうちのいずれかの分析に使用することができる。
【0395】
無細胞DNAのための例示的な定量化方法
所望な場合、cfDNA又はcfRNAの量又は濃度は、標準的な方法を用いて測定することができる。いくつかの実施形態において、無細胞ミトコンドリアDNA(cf mDNA)の量又は濃度が決定される。いくつかの実施形態において、核DNAに由来する無細胞DNA(cf nDNA)の量又は濃度が決定される。いくつかの実施形態において、cf mDNA及びcf nDNAの量又は濃度が、同時に決定される。
【0396】
いくつかの実施形態において、qPCRを使用して、cf nDNA及び/又はcfm DNAを測定する(その全体が参照により本明細書に組み込まれる、Kohler et al.“Levels of plasma circulating cell free nuclear and mitochondrial DNA as potential biomarkers for breast tumors.”Mol Cancer 8:105,2009,8:doi:10.1186/1476-4598-8-105)。例えば、cf nDNAからの1つ以上の遺伝子座(例えば、グリセルアルデヒド-3-ホスファト-デヒドロゲナーゼ、GAPDH)及びcf mDNAからの1つ以上の遺伝子座(ATPase 8及びMTATP 8)を、マルチプレックスqPCRを用いて測定することができる。いくつかの実施形態において、蛍光標識PCRを使用して、cf nDNA及び/又はcf mDNAを測定する(その全体が参照により本明細書に組み込まれる、Schwarzenbach et al.,“Evaluation of cell-free tumour DNA and RNA in patients with breast cancer and benign breast disease.”Mol Biosys 7:2848-2854,2011)。所望な場合、データの正規分布は、標準的な方法、例えば、シャピロ-ウィルク検定を用いて決定することができる。所望な場合、cf nDNA及びmDNAのレベルは、標準的な方法、例えば、マン-ホイットニーのU検定を用いて比較することができる。いくつかの実施形態において、cf nDNA及び/又はmDNAのレベルを、標準的な方法、例えば、マン-ホイットニーのU検定又はクラスカル-ウォリス検定を用いて、他の確立された予後因子と比較する。
【0397】
例示的なRNA増幅、定量化及び分析方法
以下の例示的な方法のいずれかを使用して、RNA(例えば、cfRNA、細胞RNA、細胞質RNA、コード細胞質RNA、非コード細胞質RNA、mRNA、miRNA、ミトコンドリアRNA、rRNA又はtRNA)を増幅し、場合により定量してもよい。いくつかの実施形態において、miRNAは、mirbase.orgでのワールドワイドウェブ(その全体が参照により本明細書に組み込まれる)で入手可能なmiRBaseに列挙されるmiRNA分子のいずれかである。例示的なmiRNA分子としては、miR-509、miR-21及びmiR-146aが挙げられる。
【0398】
いくつかの実施形態において、逆転写酵素多重ライゲーション依存性プローブ増幅(RT-MLPA)を用い、RNAを増幅する。いくつかの実施形態において、ハイブリダイズプローブの各セットは、SNPに広がる2つの短い合成オリゴヌクレオチドと、1つの長いオリゴヌクレオチドとからなる(それぞれその全体が参照により本明細書に組み込まれる、Li et al.,Arch Gynecol Obstet.“Development of noninvasive prenatal diagnosis of trisomy 21 by RT-MLPA with a new set of SNP markers,”July 5,2013,DOI 10.1007/s00404-013-2926-5、Schouten et al.“Relative quantification of 40 nucleic acid sequences by multiplex ligation-dependent probe amplification.”Nucleic Acids Res 30:e57,2002、Deng et al.(2011)“Non-invasive prenatal diagnosis of trisomy 21 by reverse transcriptase multiplex ligation-dependent probe amplification,”Clin,Chem.Lab Med.49:641-646,2011)。
【0399】
いくつかの実施形態において、RNAは、逆転写酵素PCRで増幅される。いくつかの実施形態において、RNAは、リアルタイム逆転写酵素PCR、例えば、既に記載したようなSYBR GREEN Iを用いる1工程リアルタイム逆転写酵素PCRを用いて増幅される(それぞれその全体が参照により本明細書に組み込まれる、Li et al.,Arch Gynecol Obstet.“Development of noninvasive prenatal diagnosis of trisomy 21 by RT-MLPA with a new set of SNP markers,”July 5,2013,DOI 10.1007/s00404-013-2926-5、Lo et al.,“Plasma placental RNA allelic ratio permits noninvasive prenatal chromosomal aneuploidy detection,”Nat Med 13:218-223,2007、Tsui et al.,Systematic micro-array based identification of placental mRNA in maternal plasma:towards non-invasive prenatal gene expression profiling.J Med Genet 41:461-467,2004、Gu et al.,J.Neurochem.122:641-649,2012)。
【0400】
いくつかの実施形態において、マイクロアレイを使用して、RNAを検出する。例えば、Agilent Technologies製のヒトmiRNAマイクロアレイを、製造業者のプロトコルに従って使用することができる。簡単に言うと、単離されたRNAは、脱リン酸化され、pCp-Cy3を用いてライゲーションされる。標識されたRNAを精製し、Sanger miRBase release 14.0に基づいて、ヒト成熟miRNAについてのプローブを含有するmiRNAアレイにハイブリダイズする。このアレイを洗浄し、マイクロアレイスキャナ(G2565BA、Agilent Technologies)を使用してスキャンする。各ハイブリダイゼーション信号の強度は、Agilent抽出ソフトウェアv9.5.3によって評価される。標識、ハイブリダイゼーション及びスキャンは、Agilent miRNAマイクロアレイシステムのプロトコルに従って行われてもよい(その全体が参照により本明細書に組み込まれる、Gu et al.,J.Neurochem.122:641-649,2012)。
【0401】
いくつかの実施形態において、TaqManアッセイを使用して、RNAを検出する。例示的なアッセイは、TaqMan Array Human MicroRNA Panel v1.0(Early Access)(Applied Biosystems)であり、157のTaqMan MicroRNAアッセイを含み、それぞれの逆転写プライマー、PCRプライマー及びTaqManプローブを含む(Chim et al.,“Detection and characterization of placental microRNAs in maternal plasma,”Clin Chem.54(3):482-90,2008、その全体が参照により本明細書に組み込まれる)。
【0402】
所望な場合、1つ以上のmRNAのmRNAスプライシングパターンは、標準的な方法を用いて決定することができる(Fackenthal1及びGodley、Disease Models & Mechanisms 1:37-42、2008、doi:10.1242/dmm.000331、その全体が参照により本明細書に組み込まれる)。例えば、高密度マイクロアレイ及び/又は高スループットDNA配列決定を使用して、mRNAスプライスバリアントを検出することができる。
【0403】
いくつかの実施形態において、全トランスクリプトームショットガン配列決定又はアレイを使用して、トランスクリプトームを測定する。
【0404】
例示的な増幅方法
同じ反応体積(例えば、全ての標的遺伝子座を同時に増幅するサンプルマルチプレックスPCRの一部)における付近又は隣接する標的遺伝子座の増幅に起因する干渉を最小化するか、又は防ぐ、改善されたPCR増幅方法も開発された。これらの方法を使用して、付近又は隣接する標的遺伝子座を同時に増幅することができ、これは、標的遺伝子座を別個に増幅し、干渉を避けることができるような、付近の標的遺伝子座を異なる反応体積に分割する必要がある方法よりも、迅速であり、安価である。
【0405】
いくつかの実施形態において、標的遺伝子座の増幅は、低い5’→3’エキソヌクレアーゼ活性及び/又は低い鎖置換活性を有するポリメラーゼ(例えば、DNAポリメラーゼ、RNAポリメラーゼ又は逆転写酵素)を用いて行われる。いくつかの実施形態において、低レベルの5’→3’エキソヌクレアーゼは、付近のプライマー(例えば、伸長していないプライマー、又はプライマー伸長中に加えられる1つ以上のヌクレオチドを有しているプライマー)の分解を減らすか、又は防ぐ。いくつかの実施形態において、低レベルの鎖置換活性は、付近のプライマー(例えば、伸長していないプライマー、又はプライマー伸長中に加えられる1つ以上のヌクレオチドを有しているプライマー)の置換を減らすか、又は防ぐ。いくつかの実施形態において、互いに隣接する標的遺伝子座(例えば、標的遺伝子座の間に塩基がない)又は付近のもの(例えば、遺伝子座が、50、40、30、20、15、10、9、8、7、6、5、4、3、2又は1塩基以内にある)が増幅される。いくつかの実施形態において、1つの遺伝子座の3’末端は、次の下流の遺伝子座の5’末端の50、40、30、20、15、10、9、8、7、6、5、4、3、2又は1塩基以内である。
【0406】
いくつかの実施形態において、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる標的遺伝子座が増幅される(例えば、1つの反応体積における同時増幅による)。いくつかの実施形態において、増幅産物の少なくとも50、60、70、80、90、95、96、97、98、99又は99.5%が、標的アンプリコンである。様々な実施形態において、標的アンプリコンである増幅産物の量は、50~99.5%、例えば、60~99%、70~98%、80~98%、90~99.5%又は95~99.5%(境界値を含む)である。いくつかの実施形態において、例えば、1つの反応体積における同時増幅によって、標的遺伝子座の少なくとも50、60、70、80、90、95、96、97、98、99又は99.5%が増幅される(例えば、増幅前の量と比較して、少なくとも5、10、20、30、50又は100倍に増幅される)。様々な実施形態において、増幅される標的遺伝子座の量(例えば、増幅前の量と比較して、少なくとも5、10、20、30、50又は100倍に増幅される)は、50~99.5%、例えば、60~99%、70~98%、80~99%、90~99.5%、95~99.9%又は98~99.99%(境界値を含む)である。いくつかの実施形態において、より少ない非標的アンプリコン、例えば、第1のプライマー対からの順方向プライマー及び第2のプライマー対からの逆方向プライマーから作られる、より少ないアンプリコンが産生される。このような望ましくない非標的アンプリコンは、例えば、第1のプライマー対からの逆方向プライマー及び/又は第2のプライマー対からの順方向プライマーが分解し、及び/又は置き換わっている場合に、従来の増幅方法を用いて産生する可能性がある。
【0407】
いくつかの実施形態において、これらの方法は、伸長されるプライマーに結合するポリメラーゼが、このポリメラーゼの低い5’→3’エキソヌクレアーゼ活性及び/又は低い鎖置換活性を考慮して、付近のプライマー(例えば、次の下流のプライマー)を分解及び/又は置き換える確率が低いため、より長い伸長時間を使用することが可能である。様々な実施形態において、ポリメラーゼの伸長率が、伸長されるプライマーに付加されるヌクレオチドの数が、そのプライマー結合部位の3’末端と同じ鎖上の次の下流のプライマー結合部位の5’末端との間のヌクレオチド数の80、90、95、100、110、120、130、140、150、175又は200%に等しいか、又は大きくすることが可能であるような反応条件(例えば、伸長時間及び温度)が使用される。
【0408】
いくつかの実施形態において、DNAポリメラーゼは、DNAをテンプレートとして用い、DNAアンプリコンを産生するために使用される。いくつかの実施形態において、RNAポリメラーゼは、DNAをテンプレートとして用い、RNAアンプリコンを産生するために使用される。いくつかの実施形態において、逆転写酵素は、RNAをテンプレートとして用い、cDNAアンプリコンを産生するために使用される。
【0409】
いくつかの実施形態において、ポリメラーゼの低レベルの5’→3’エキソヌクレアーゼは、同じ条件で同じ量のThermus aquaticusポリメラーゼの活性の80、70、60、50、40、30、20、10、5、1又は0.1%未満である(「Taq」ポリメラーゼ、一般的に使用される好熱菌由来のDNAポリメラーゼであり、PDB 1BGX、EC 2.7.7.7、Murali et al.,“Crystal structure of Taq DNA polymerase in complex with an inhibitory Fab:the Fab is directed against an intermediate in the helix-coil dynamics of the enzyme,”Proc.Natl.Acad.Sci.USA 95:12562-12567,1998、その全体が参照により本明細書に組み込まれる)。いくつかの実施形態において、ポリメラーゼの低レベルの鎖置換活性は、同じ条件で同じ量のTaqポリメラーゼの活性の80、70、60、50、40、30、20、10、5、1又は0.1%未満である。
【0410】
いくつかの実施形態において、ポリメラーゼは、PUSHION DNAポリメラーゼ、例えば、PHUSION High Fidelity DNAポリメラーゼ(M0530S、New England BioLabs,Inc.)又はPHUSION Hot Start Flex DNAポリメラーゼ(M0535S、New England BioLabs,Inc.、Frey及びSuppman BioChemica.2:34-35、1995、Chester及びMarshak Analytical Biochemistry.209:284-290、1993、それぞれ、その全体が参照により本明細書に組み込まれる)である。PHUSION DNAポリメラーゼは、処理能力向上ドメインと融合したPyrococcus様酵素である。PHUSION DNAポリメラーゼは、5’→3’ポリメラーゼ活性と3’→5’エンドヌクレアーゼ活性を有し、平滑末端化した産物を生成する。PHUSION DNAポリメラーゼは、5’→3’エキソヌクレアーゼ活性と鎖置換活性を欠く。
【0411】
いくつかの実施形態において、ポリメラーゼは、Q5(登録商標)DNAポリメラーゼ、例えば、Q5(登録商標)High-Fidelity DNA Polymerase(M0491S、New England BioLabs,Inc.)又はQ5(登録商標)Hot Start High-Fidelity DNA Polymerase(M0493S、New England BioLabs,Inc.)である。Q5(登録商標)High-Fidelity DNAポリメラーゼは、忠実度が高く、熱に安定なDNAポリメラーゼであり、3’→5’エキソヌクレアーゼ活性を有し、処理能力向上Sso7dドメインに融合している。Q5(登録商標)High-Fidelity DNAポリメラーゼは、5’→3’エキソヌクレアーゼ活性と鎖置換活性を欠く。
【0412】
いくつかの実施形態において、ポリメラーゼは、T4 DNAポリメラーゼである(M0203S、New England BioLabs,Inc.;それぞれその全体が参照により本明細書に組み込まれる、Tabor and Struh.(1989).“DNA-Dependent DNA Polymerases,”Ausebel et al.(Ed.),Current Protocols in Molecular Biology.3.5.10-3.5.12.New York:John Wiley & Sons,Inc.,1989、Sambrook et al.Molecular Cloning:A Laboratory Manual.(2nd ed.),5.44-5.47.Cold Spring Harbor:Cold Spring Harbor Laboratory Press,1989)。T4 DNAポリメラーゼは、5’→3’方向へのDNAの合成を触媒し、テンプレート及びプライマーの存在を必要とする。この酵素は、DNA Polymerase Iで見られるよりもかなり活性が高い3’→5’エキソヌクレアーゼ活性を有する。T4 DNAポリメラーゼは、5’→3’エキソヌクレアーゼ活性と鎖置換活性を欠く。
【0413】
いくつかの実施形態において、ポリメラーゼは、Sulfolobus DNA Polymerase IVである(M0327S、New England BioLabs,Inc.;それぞれその全体が参照により本明細書に組み込まれる、Boudsocq,.et al.(2001).Nucleic Acids Res.,29:4607-4616,2001、McDonald,et al.(2006).Nucleic Acids Res.,34:1102-1111,2006)。Sulfolobus DNA Polymerase IVは、様々なDNAテンプレート病変にわたってDNAを効率的に合成する、熱に安定なYファミリー病変バイパスDNA Polymeraseである(その全体が参照により本明細書に組み込まれる、McDonald,J.P.et al.(2006).Nucleic Acids Res.,.34,1102-1111)。Sulfolobus DNA Polymerase IVは、5’→3’エキソヌクレアーゼ活性と鎖置換活性を欠く。
【0414】
いくつかの実施形態において、プライマーがSNPを有する領域に結合する場合、プライマーは、異なる効率で異なる対立遺伝子に結合し、増幅してもよく、又は1つの対立遺伝子にのみ結合し、増幅してもよい。ヘテロ接合性である対象について、対立遺伝子の1つが、プライマーによって増幅されなくてもよい。いくつかの実施形態において、プライマーは、各対立遺伝子に対して設計される。例えば、2つの対立遺伝子(例えば、二対立遺伝子SNP)が存在する場合、2つのプライマーを使用して、標的遺伝子座の同じ位置に結合してもよい(例えば、「A」対立遺伝子に結合するための順方向プライマー及び「B」対立遺伝子に結合するための順方向プライマー)。標準的な方法(例えばdbSNPデータベース)を使用して、既知のSNP、例えば、高いヘテロ接合率を有するSNPホットスポットの位置を決定することができる。
【0415】
いくつかの実施形態において、アンプリコンは、同様の大きさである。いくつかの実施形態において、標的アンプリコンの長さの範囲は、100、75、50、25、15、10又は5ヌクレオチド未満である。いくつかの実施形態(例えば、フラグメント化されたDNA又はRNA中の標的遺伝子座の増幅)において、標的アンプリコンの長さは、50~100ヌクレオチド、例えば、60~80ヌクレオチド又は60~75ヌクレオチド(境界値を含む)である。いくつかの実施形態(例えば、エクソン又は遺伝子全体の複数の標的遺伝子座の増幅)において、標的アンプリコンの長さは、100~500ヌクレオチド、例えば、150~450ヌクレオチド、200~400ヌクレオチド、200~300ヌクレオチド又は300~400ヌクレオチド(境界値を含む)である。
【0416】
いくつかの実施形態において、複数の標的遺伝子座は、その反応体積中の増幅される各々の標的遺伝子座についての順方向及び逆方向のプライマーを含むプライマー対を用いて同時に増幅される。いくつかの実施形態において、1ラウンドのPCRは、標的遺伝子座当たり1つのプライマーを用いて行われ、次いで、第2ラウンドのPCRは、標的遺伝子座当たり1つのプライマー対を用いて行われる。例えば、第1ラウンドのPCRは、全てのプライマーが同じ鎖に結合する(例えば、各標的遺伝子座について順方向プライマーを用いる)ように、標的遺伝子座当たり1つのプライマーを用いて行われてもよい。これにより、PCRは、線形態様で増幅が可能であり、配列又は長さの差に起因するアンプリコン間の増幅バイアスを減らすか、又は除外する。いくつかの実施形態において、次いで、各標的遺伝子座について、順方向及び逆方向のプライマーを用い、アンプリコンが増幅される。
【0417】
例示的なプライマー設計方法
所望な場合、マルチプレックスPCRは、プライマーダイマーを生成する尤度が低いプライマーを用いて行われてもよい。特に、高度に多重化したPCRは、多くは、プライマーダイマー生成などの生産的ではない副反応から得られる非常に高い割合の産物DNAを生成し得る。一実施形態において、生産的ではない副反応を引き起こす可能性が最も高い特定のプライマーは、プライマーライブラリから除去され、ゲノムにマッピングする増幅されたDNAの割合を大きくするプライマーライブラリを与え得る。問題のあるプライマー、すなわち、ダイマーを安定させる可能性が特に高いプライマーを除去する工程は、予測できないことに、その後の配列決定による分析のための非常に高いPCR多重化レベルを可能にした。
【0418】
非マッピングプライマーダイマー又は他のプライマー妨害産物の量が最小限にされたライブラリのためのプライマーを選択するいくつかの方法が存在する。経験的なデータは、少数の「悪い」プライマーが、多量の非マッピングプライマーダイマー副反応の原因であることを示す。これらの「悪い」プライマーを除去することで、標的遺伝子座へマッピングする配列リードの割合を高めることができる。「悪い」プライマーを特定するための1つの方法は、標的化された増幅によって増幅されたDNAの配列決定データを見ることであり、最も頻繁に見られるこれらのプライマーダイマーが除去され、ゲノムにマッピングされない副産物DNAを生じさせる可能性が顕著に低いプライマーライブラリを与えることができる。様々なプライマーの組み合わせの結合エネルギーを計算することができる公的に利用可能なプログラムも存在し、最も高い結合エネルギーを有するものを除去することで、ゲノムにマッピングされない副産物DNAを生じさせる可能性が顕著に低いプライマーライブラリも与えるだろう。
【0419】
プライマーを選択するためのいくつかの実施形態において、候補プライマーの初期ライブラリは、候補標的遺伝子座に対する1つ以上のプライマー又はプライマー対を設計することによって作成される。候補標的遺伝子座(例えばSNP)のセットは、標的遺伝子座にとって望ましいパラメータ(例えば、標的集合内のSNPの頻度又はSNPのヘテロ接合率)に関する公的に利用可能な情報に基づいて選択することができる。一実施形態において、PCRプライマーは、Primer3プログラム(primer3.sourceforge.net:libprimer3 release 2.2.3でのワールドワイドウェブ、その全体が参照により本明細書に組み込まれる)を用いて設計されてもよい。所望な場合、特定のアニーリング温度範囲内でアニーリングし、特定の範囲のGC内容物を有し、特定のサイズ範囲を有し、特定のサイズ範囲で標的アンプリコンを産生し、及び/又は他のパラメータ特徴を有するようなプライマーを設計することができる。候補標的遺伝子座当たり、複数のプライマー又はプライマー対を用いて開始すると、プライマー又はプライマー対が標的遺伝子座の大部分又は全てについてのライブラリ中に残る尤度が増加する。一実施形態において、選択基準は、標的遺伝子当たり少なくとも1つのプライマーがライブラリ中に残ることを必要とし得る。そうすれば、最終的なプライマーライブラリを使用するとき、標的遺伝子座の大部分又は全てが増幅されるだろう。このことは、ゲノム中の多数の位置での欠失又は重複についてのスクリーニング、又はある疾患若しくはある疾患のリスク上昇に関連付けられた多数の配列(例えば、多型又は他の変異)についてのスクリーニングなどの用途に望ましい。ライブラリからのプライマー対が、別のプライマー対によって産生される標的アンプリコンと重複する標的アンプリコンを産生する場合、プライマー対の1つが、干渉を防ぐためにライブラリから除去されてもよい。
【0420】
いくつかの実施形態において、候補プライマーのライブラリからの2つのプライマーの可能な組み合わせの大部分又は全てについて、「望ましくなさスコア」(最小の望ましくなさを表す、より高いスコア)が計算される。様々な実施形態において、望ましくなさスコアは、ライブラリ中の候補プライマーの可能な組み合わせの少なくとも80、90、95、98、99又は99.5%について計算される。各々の望ましくなさスコアは、少なくとも部分的に、2つの候補プライマー間のダイマー生成の尤度に依存する。所望な場合、望ましくなさスコアは、標的遺伝子座のヘテロ接合率、標的遺伝子座のある配列(例えば、多型)に関連付けられた疾患有病率、標的遺伝子座のある配列(例えば、多型)に関連付けられた疾患浸透度、標的遺伝子座に対する候補プライマーの特異性、候補プライマーの大きさ、標的アンプリコンの融点、標的アンプリコンのGC含有率、標的アンプリコンの増幅効率、標的アンプリコンの大きさ及び組換えホットスポットの中心からの距離からなる群から選択される1つ以上の他のパラメータにも基づいていてもよい。いくつかの実施形態において、標的遺伝子座に対する候補プライマーの特異性は、候補プライマーが、増幅するように設計された標的遺伝子座以外の遺伝子座に結合し、増幅することによって、誤ってプライマー結合する尤度を含む。いくつかの実施形態において、誤ってプライマー結合する1つ以上又は全ての候補プライマーが、ライブラリから除去される。いくつかの実施形態において、選択する候補プライマーの数を増やすために、誤ってプライマー結合し得る候補プライマーは、ライブラリから除去されない。複数の因子が考慮される場合、望ましくなさスコアは、様々なパラメータの重み付けされた平均に基づいて計算されてもよい。パラメータは、プライマーが使用される特定の用途に対するその重要性に基づいて、異なる重みを割り当てられてもよい。いくつかの実施形態において、最も高い望ましくなさスコアを有するプライマーが、ライブラリから除去される。除去されたプライマーが、1つの標的遺伝子座にハイブリダイズするプライマー対のメンバーである場合、そのプライマー対の他のメンバーは、ライブラリから除去されてもよい。プライマーを除去するプロセスは、所望なように繰り返されてもよい。いくつかの実施形態において、上述の選択方法は、ライブラリ中に残る候補プライマーの組み合わせについての望ましくなさスコアが、全て最小閾値と等しいか、又はそれより小さくなるまで行われる。いくつかの実施形態において、上述の選択方法は、ライブラリ中に残る候補プライマーの数が、所望な数まで減るまで行われる。
【0421】
様々な実施形態において、望ましくなさスコアが計算された後、第1の最小閾値より大きな望ましくなさスコアを有する2つの候補プライマーの組み合わせの最大数の一部である候補プライマーは、ライブラリから除去される。この工程は、これらの相互作用があまり有意ではないため、第1の最小閾値と等しいか、又は下回る相互作用を無視する。除去されたプライマーが、1つの標的遺伝子座にハイブリダイズするプライマー対のメンバーである場合、そのプライマー対の他のメンバーは、ライブラリから除去されてもよい。プライマーを除去するプロセスは、所望なように繰り返されてもよい。いくつかの実施形態において、上述の選択方法は、ライブラリ中に残る候補プライマーの組み合わせについての望ましくなさスコアが、全て第1の最小閾値と等しいか、又はそれより小さくなるまで行われる。ライブラリ中に残る候補プライマーの数が、所望な数よりも多い場合、プライマーの数は、第1の最小閾値をそれより小さな第2の最小閾値まで減らし、プライマーを除去するプロセスを繰り返すことによって減らされてもよい。ライブラリ中に残る候補プライマーの数が、所望な数よりも少ない場合、本方法は、第1の最小閾値をそれより大きな第2の最小閾値まで増加させ、元の候補プライマーライブラリを用いて、プライマーを除去するプロセスを繰り返すことによって続けられてもよく、それにより、より多くの候補プライマーがライブラリ中に残ることを可能にする。いくつかの実施形態において、上述の選択方法は、ライブラリ中に残る候補プライマーの組み合わせについての望ましくなさスコアが、全て第2の最小閾値と等しいか、又はそれより小さくなるまで、又はライブラリ中に残る候補プライマーの数が所望な数まで減るまで、行われる。
【0422】
所望な場合、別のプライマー対によって産生される標的アンプリコンと重複する標的アンプリコンを産生するプライマー対は、別個の増幅反応に分割されてもよい。複数のPCR増幅反応は、(重複する標的アンプリコンに起因して、分析からの候補標的遺伝子座を省く代わりに)候補標的遺伝子座の全てを分析することが望ましい用途にとって望ましい場合がある。
【0423】
これらの選択方法は、プライマーダイマーの望ましい減少を達成するために、ライブラリから除去されなければならない候補プライマーの数を最小限にする。より少ない数の候補プライマーをライブラリから除去することによって、標的遺伝子座のより多く(又は全て)を、得られたプライマーライブラリを用いて増幅することができる。
【0424】
多数のプライマーを多重化することで、含まれ得るアッセイにかなりの制約を課す。意図せずに相互作用するアッセイは、偽の増幅産物を生じさせる。ミニPCRのサイズ制約は、更なる制約を引き起こし得る。一実施形態において、非常に多数の潜在的なSNP標的(約500から100万より多くまで)から開始し、各SNPを増幅するようにプライマーを設計するように企画することが可能である。プライマーを設計することが可能な場合、DNA二本鎖生成のための公開されている熱力学的パラメータを用い、全ての可能なプライマー対間の偽のプライマー二本鎖生成の尤度を評価することによって、偽の産物を生成する可能性があるプライマー対を特定するように企画することが可能である。プライマーの相互作用は、この相互作用に関連するスコアリング関数によってランク付けされてもよく、最も悪い相互作用スコアを有するプライマーは、望ましいプライマー数を満たすまで、除外される。ヘテロ接合性である可能性があるSNPが最も有用である場合、アッセイのリストもランク付けし、最もヘテロ接合性に適合するアッセイを選択することが可能である。高い相互作用スコアを有するプライマーが、プライマーダイマーを形成する可能性が最も高いことが実験で検証されている。高度に多重化すると、全ての偽の相互作用を除外することは可能ではないが、反応全体を支配し、意図した標的からの増幅を大きく制限することがあるため、in silicoで最も高い相互作用スコアを有するプライマー又はプライマー対を除外することが不可欠である。この手順を行い、10,000プライマーまで、ある場合には、10,000プライマーを超える複数のプライマーセットを作成した。この手順に起因する改善は、かなりのものであり、全てのPCR産物によって決定されるような標的産物に対して、最も悪いプライマーが除去されなかった反応からの10%と比較して、80%より多く、90%より多く、95%より多く、98%より多く、更に99%より多くの増幅を可能にする。既に記載したように、部分的なセミネスティッド手法と組み合わせると、アンプリコンの90%より多く、更に95%より多くが、標的配列にマッピングされ得る。
【0425】
なお、どのPCRプローブがダイマーを形成する可能性が高いかを決定する他の方法が存在する。一実施形態において、最適化されていないプライマーセットを用いて増幅されたDNAのプールの分析は、問題のあるプライマーを決定するのに十分な場合がある。例えば、分析は、配列決定を用いて行われてもよく、最も多く存在するこれらのダイマーは、ダイマーを形成する可能性が最も高いものであると決定され、除去されてもよい。一実施形態において、プライマー設計の方法は、本明細書に記載のミニPCR方法と組み合わせて使用されてもよい。
【0426】
プライマーに対するタグの使用は、プライマーダイマー産物の増幅及び配列決定を減らし得る。いくつかの実施形態において、プライマーは、タブを含むループ構造を形成する内部領域を含有する。特定の実施形態において、プライマーは、標的遺伝子座に特異的な5’領域と、標的遺伝子座に特異的ではなく、ループ構造を形成する内部領域と、標的遺伝子座に特異的な3’領域とを含む。いくつかの実施形態において、ループ領域は、2つの結合領域がテンプレートDNAの連続した領域又は隣接領域に結合するように設計されている2つの結合領域間に存在していてもよい。様々な実施形態において、3’領域の長さは、少なくとも7ヌクレオチドである。いくつかの実施形態において、3’領域の長さは、7~20ヌクレオチド、例えば、7~15ヌクレオチド又は7~10ヌクレオチド(境界値を含む)である。様々な実施形態において、プライマーは、標的遺伝子座に特異的ではない5’領域(例えば、タグ又はユニバーサルプライマー結合部位)の後に、標的遺伝子座に特異的な領域と、標的遺伝子座に特異的ではなく、ループ構造を形成する内部領域と、標的遺伝子座に特異的な3’領域とを含む。タグプライマーを使用して、必要な標的特異性配列を20未満、15未満、12未満、更に10未満の塩基対まで短くすることができる。これは、標的配列がプライマー結合部位へとフラグメント化される場合、又はプライマー設計へと設計される場合に、予想外の発見となり得る。この方法の利点は、特定の最大アンプリコン長のために設計可能なアッセイの数を増やすことと、プライマー配列の「無情報」配列決定を短くすることを含む。内部タグ化と組み合わせ使用することも可能である。
【0427】
一実施形態において、多重標的化PCR増幅における非生産的な産物の相対量は、アニーリング温度を上げることによって減らすことができる。標的特異性プライマーと同じタグを用いてライブラリを増幅する場合、アニーリング温度は、タグがプライマー結合に寄与するため、ゲノムDNAと比較して、高くすることができる。いくつかの実施形態において、場合により、より長いアニーリング時間とともに、低いプライマー濃度が使用される。いくつかの実施形態において、アニーリング時間は、3分間より長く、5分間より長く、8分間より長く、10分間より長く、15分間より長く、20分間より長く、30分間より長く、60分間より長く、120分間より長く、240分間より長く、480分間より長く、更に960分間より長くてもよい。特定の例示的な実施形態において、より長くアニーリング時間を、低いプライマー濃度とともに使用する。様々な実施形態において、3、5、8、10又は15分間より長い、通常の伸長時間より長い時間が使用される。いくつかの実施形態において、プライマー濃度は、50nM、20nM、10nM、5nM、1nM程度の低さ、及び1nM未満である。これにより、驚くべきことに、高度二多重化された反応、例えば、1000倍反応、2000倍反応、5000倍反応、10000倍反応、20000倍反応、50000倍反応及び更に100000倍反応について、安定した性能が得られる。一実施形態において、増幅は、長いアニーリング時間を有する1、2、3、4又は5サイクルを使用し、その後、タグ化プライマーを用い、通常の更に長いアニーリング時間を有するPCRサイクルを使用する。
【0428】
標的位置を選択するために、候補プライマー対設計のプールから開始し、プライマー対との間の潜在的に有害な副次的相互作用の熱力学的モデルを作成し、次いで、プール中の他の設計と互換性のない設計を除外するモデルを使用してもよい。
【0429】
一実施形態において、本発明は、標的遺伝子座(例えば、ある疾患若しくは障害又はある疾患若しくは障害(例えばがん)のリスク上昇に関連付けられた多型又は変異を含有し得る遺伝子座)の数を減らし、及び/又は検出される疾患負荷を増加させる(例えば、検出される多型又は変異の数を増やす)方法を特徴とする。いくつかの実施形態において、本方法は、疾患又は障害(例えばがん)を有する対象間の各遺伝子座における多型又は変異の頻度又は再発(例えば、単一ヌクレオチド変動、又は欠失、又は本明細書に記載する他の変動のいずれか)によって、遺伝子座をランク付けすること(例えば、最高から最低までランク付けすること)を含む。いくつかの実施形態において、PCRプライマーは、遺伝子座のいくつか又は全てに対して設計される。プライマーのライブラリのためのPCRプライマーの選択中に、より高い頻度又は再発を有する遺伝子座(より高くランク付けされた遺伝子座)に対するプライマーは、より低い頻度又は再発を有する遺伝子座(より低くランク付けされた遺伝子座)よりも好ましい。いくつかの実施形態において、このパラメータは、本明細書に記載される望ましくなさスコアの計算におけるパラメータの1つとして含まれる。所望な場合、ライブラリ中の他の設計と不適合なプライマー(例えば、高くランク付けされた遺伝子座に対するプライマー)は、異なるPCRライブラリ/プールに含まれてもよい。いくつかの実施形態において、複数のライブラリ/プール(例えば、2、3、4、5又はもっと多く)は、別個のPCR反応に使用され、全てのライブラリ/プールによって表される遺伝子座の全て(又は大部分)の増幅を可能にする。いくつかの実施形態において、この方法は、プライマーが、集合体において、(例えば、疾患負荷の少なくとも80、85、90、95又は99%の検出によって)所望な疾患負荷をその疾患又は障害のために捕捉し得ることを可能にするのに十分なプライマーが1つ以上のライブラリ/プールに含まれるまで続けられる。
【0430】
例示的なプライマーライブラリ
一態様において、本発明は、プライマー、例えば、本発明の方法のいずれかを用いて候補プライマーのライブラリから選択されるプライマーのライブラリを特徴とする。いくつかの実施形態において、ライブラリは、1つの反応体積において、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる標的遺伝子座を同時にハイブリダイズする(又は同時にハイブリダイズすることが可能である)か、又は同時に増幅する(又は同時に増幅することが可能である)プライマーを含む。様々な実施形態において、ライブラリは、1つの反応体積において、100~500、500~1,000、1,000~2,000、2,000~5,000、5,000~7,500、7,500~10,000、10,000~20,000、20,000~25,000、25,000~30,000、30,000~40,000、40,000~50,000、50,000~75,000又は75,000~100,000(境界値を含む)の異なる標的遺伝子座を同時に増幅する(又は同時に増幅することが可能である)プライマーを含む。様々な実施形態において、ライブラリは、1つの反応体積において、1,000~100,000の異なる標的遺伝子座、例えば、1,000~50,000、1,000~30,000、1,000~20,000、1,000~10,000、2,000~30,000、2,000~20,000、2,000~10,000、5,000~30,000、5,000~20,000、又は5,000~10,000(境界値を含む)の異なる標的遺伝子座を同時に増幅する(又は同時に増幅することが可能である)プライマーを含む。いくつかの実施形態において、ライブラリは、増幅産物の60、40、30、20、10、5、4、3、2、1、0.5、0.25、0.1又は0.5%未満がプライマーダイマーであるように、1つの反応体積において標的遺伝子座を同時に増幅する(又は同時に増幅することが可能である)プライマーを含む。様々な実施形態は、プライマーダイマーである増幅産物の量は、0.5~60%、例えば、0.1~40%、0.1~20%、0.25~20%、0.25~10%、0.5~20%、0.5~10%、1~20%又は1~10%(境界値を含む)である。いくつかの実施形態において、プライマーは、増幅産物の少なくとも50、60、70、80、90、95、96、97、98、99又は99.5%が標的アンプリコンであるように、1つの反応体積において標的遺伝子座を同時に増幅する(又は同時に増幅することが可能である)。様々な実施形態において、標的アンプリコンである増幅産物の量は、50~99.5%、例えば、60~99%、70~98%、80~98%、90~99.5%又は95~99.5%(境界値を含む)である。いくつかの実施形態において、プライマーは、標的遺伝子座の少なくとも50、60、70、80、90、95、96、97、98、99又は99.5%が増幅される(例えば、増幅前の量と比較して少なくとも5、10、20、30、50又は100倍に増幅される)ように、1つの反応体積において標的遺伝子座を同時に増幅する(又は同時に増幅することが可能である)。様々な実施形態において、増幅される標的遺伝子座の量(例えば、増幅前の量と比較して、少なくとも5、10、20、30、50又は100倍に増幅される)は、50~99.5%、例えば、60~99%、70~98%、80~99%、90~99.5%、95~99.9%又は98~99.99%(境界値を含む)である。いくつかの実施形態において、プライマーのライブラリは、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個のプライマー対を含み、プライマーの各対が、順方向の試験プライマー及び逆方向の試験プライマーを含み、試験プライマーの各対が、標的遺伝子座にハイブリダイズする。いくつかの実施形態において、プライマーのライブラリは、それぞれが異なる標的遺伝子座に結合する少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000の個々のプライマーを含み、個々のプライマーは、プライマー対の一部ではない。
【0431】
様々な実施形態において、各プライマーの濃度は、100、75、50、25、20、10、5、2又は1nM未満であるか、又は500、100、10又は1uM未満である。様々な実施形態において、各プライマーの濃度は、1uM~100nM、例えば、1uM~1nM、1~75nM、2~50nM又は5~50nM(境界値を含む)である。いくつかの実施形態において、プライマーのGC含有量は、30~80%、例えば、40~70%又は50~60%(境界値を含む)である。いくつかの実施形態において、プライマーのGC含有量の範囲は、30、20、10又は5%未満である。いくつかの実施形態において、プライマーのGC含有量の範囲は、5~30%、例えば、5~20%又は5~10%(境界値を含む)である。いくつかの実施形態において、試験プライマーの融点(Tm)は、40~80℃、例えば、50~70℃、55~65℃又は57~60.5℃(境界値を含む)である。いくつかの実施形態において、Tmは、Primer3プログラム(libprimer3リリース2.2.3)を用い、ビルトインのSantaLuciaパラメータ(primer3.sourceforge.netでのワールドワイドウェブ)を用いて計算される。いくつかの実施形態において、プライマーの融点の範囲は、15、10、5、3又は1℃未満である。いくつかの実施形態において、プライマーの融点の範囲は、1~15℃、例えば、1~10℃、1~5℃又は1~3℃(境界値を含む)である。いくつかの実施形態において、プライマーの長さは、15~100ヌクレオチド、例えば、15~75ヌクレオチド、15~40ヌクレオチド、17~35ヌクレオチド、18~30ヌクレオチド又は20~65ヌクレオチド(境界値を含む)である。いくつかの実施形態において、プライマーの長さの範囲は、50、40、30、20、10又は5ヌクレオチド未満である。いくつかの実施形態において、プライマーの長さの範囲は、5~50ヌクレオチド、例えば、5~40ヌクレオチド、5~20ヌクレオチド又は5~10ヌクレオチド(境界値を含む)である。いくつかの実施形態において、標的アンプリコンの長さは、50~100ヌクレオチド、例えば、60~80ヌクレオチド又は60~75ヌクレオチド(境界値を含む)である。いくつかの実施形態において、標的アンプリコンの長さの範囲は、50、25、15、10又は5ヌクレオチド未満である。いくつかの実施形態において、標的アンプリコンの長さの範囲は、5~50ヌクレオチド、例えば、5~25ヌクレオチド、5~15ヌクレオチド又は5~10ヌクレオチド(境界値を含む)である。いくつかの実施形態において、ライブラリは、マイクロアレイを含まない。いくつかの実施形態において、ライブラリは、マイクロアレイを含む。
【0432】
いくつかの実施形態において、アダプター又はプライマーのいくつか(例えば、少なくとも80、90又は95%)又は全ては、天然に存在するホスホジエステル結合以外の隣接ヌクレオチド間の1つ以上の結合を含む。このような結合の例としては、ホスホラミド、ホスホロチオエート及びホスホロジチオエート結合が挙げられる。いくつかの実施形態において、アダプター又はプライマーのいくつか(例えば、少なくとも80、90又は95%)又は全ては、最後の3’ヌクレオチドと2番目から最後の3’ヌクレオチドの間にチホホスフェート(例えば、モノチオホスフェート)を含む。いくつかの実施形態において、アダプター又はプライマーのいくつか(例えば、少なくとも80、90又は95%)又は全ては、3’末端にある最後の2、3、4又は5ヌクレオチド間にチホホスフェート(例えば、モノチオホスフェート)を含む。いくつかの実施形態において、アダプター又はプライマーのいくつか(例えば、少なくとも80、90又は95%)又は全ては、3’末端にある最後の10ヌクレオチドのうち少なくとも1、2、3、4又は5ヌクレオチド間にチホホスフェート(例えば、モノチオホスフェート)を含む。いくつかの実施形態において、このようなプライマーは、開裂又は分解される可能性が低い。いくつかの実施形態において、プライマーは、酵素開裂部位(プロテアーゼ開裂部位など)を含有しない。
【0433】
更なる例示的なマルチプレックスPCR方法及びライブラリは、2012年11月21日に出願された米国出願第13/683,604号(米国公開第2013/0123120号)及び2014年5月16日に出願された米国出願第61/994,791号に記載され、その全体が参照により本明細書に組み込まれる)。これらの方法及びライブラリは、本明細書に開示されるサンプルのいずれかを分析し、本発明の方法のうちのいずれかに使用するために使用することができる。
【0434】
組換えの検出のための例示的なプライマーライブラリ
いくつかの実施形態において、プライマーライブラリ中のプライマーは、1つ以上の既知の組換えホットスポットで組換え(例えば、相同ヒト染色体間のクロスオーバー)が起こったか否かを決定するために設計される。染色体間でどのようなクロスオーバーが起こったかを知ることで、より正確なフェージング遺伝子データを個体について決定することができる。組換えホットスポットは、組換え事象が濃縮して起こる傾向がある染色体の局所的な領域である。組換えホットスポットは、組換えの平均頻度より低い「コールドスポット」領域が隣接していることが多い。組換えホットスポットは、類似の形態を共有する傾向があり、約1~2kb長である。ホットスポット分布は、GC含有量及び反復要素分布と正の相関にある。部分的に変性した13マーモチーフCCNCCNTNNCCNCは、いくつかのホットスポット活性において、ある役割を果たす。PRDM9と呼ばれるジンクフィンガータンパク質がこのモチーフに結合し、その位置で組換えを開始することが示されている。組換えホットスポットの中心間の平均距離は、約80kbであると報告されている。いくつかの実施形態において、組換えホットスポットの中心間の距離は、約3kb~約100kbの範囲である。公的データベースは、多数の既知のヒト組換えホットスポットを含み、例えば、HUMHOT及びInternational HapMap Projectデータベース(例えば、それぞれその全体が参照により本明細書に組み込まれる、Nishant et al.,“HUMHOT:a database of human meiotic recombination hot spots,”Nucleic Acids Research,34:D25-D28,2006,Database issue、Mackiewicz et al.,“Distribution of Recombination Hotspots in the Human Genome-A Comparison of Computer Simulations with Real Data”PLoS ONE 8(6):e65272,doi:10.1371/journal.pone.0065272、及びhapmap.ncbi.nlm.nih.gov/downloads/index.html.enのワールドワイドウェブを参照されたい)。
【0435】
いくつかの実施形態において、プライマーライブラリ内のプライマーは、組換えホットスポット(例えば、既知のヒト組換えホットスポット)でクラスター化される。いくつかの実施形態において、対応するアンプリコンを使用して、組換えホットスポット内又は付近の配列を決定し、その特定のホットスポットで組換えが起こったか否か(例えば、アンプリコンの配列が、組換えが起こった場合に予測される配列であるかどうか、又は組換えが起こらなかった場合に予測される配列であるかどうか)を決定する。いくつかの実施形態において、プライマーは、組換えホットスポットの一部又は全て(及び場合により、組換えホットスポットに隣接する配列)を増幅するように設計される。いくつかの実施形態において、長いリード配列決定(例えば、Illuminaによって開発された、約10kbまでの配列に対するMoleculo Technologyを用いる配列決定)又はペアエンド配列決定を使用して、組換えホットスポットの一部又は全てを配列決定する。組換え事象が起こったか否かの知識を使用して、ハプロタイプブロックがホットスポットに隣接するかどうかを決定することができる。所望な場合、特定のハプロタイプブロックの存在は、ハプロタイプブロック内の領域に特異的なプライマーを用いて確認することができる。いくつかの実施形態において、既知の組換えホットスポット間にクロスオーバーが存在しないと仮定される。いくつかの実施形態において、プライマーライブラリ内のプライマーは、染色体の末端で、又は末端付近でクラスター化される。例えば、このようなプライマーを使用して、染色体の末端に特定のアーム又はセクションが存在するかどうかを決定することができる。いくつかの実施形態において、プライマーライブラリ内のプライマーは、組換えホットスポットで、又はその末端であり、かつ染色体の末端で、又は末端付近でクラスター化される。
【0436】
いくつかの実施形態において、プライマーライブラリは、組換えホットスポット(例えば、既知のヒト組換えホットスポット)に特異的であり、及び/又は組換えホットスポット付近の領域(例えば、組換えホットスポットの5’又は3’末端の10、8、5、3、2、1又は0.5kb以内)に特異的な1つ以上のプライマー(例えば、少なくとも5、10、50、100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000又は50,000個の異なるプライマー又は異なるプライマー対)を含む。いくつかの実施形態において、少なくとも1、5、10、20、40、60、80、100又は150の異なるプライマー(又はプライマー対)は、同じ組換えホットスポットに特異的であるか、又は同じ組換えホットスポット又は組換えホットスポット付近の領域に特異的である。いくつかの実施形態において、少なくとも1、5、10、20、40、60、80、100又は150個の異なるプライマー(又はプライマー対)は、組換えホットスポットの間の領域(例えば、組換えを受ける可能性が低い領域)に特異的であり、これらのプライマーを使用して、ハプロタイプブロックの存在を確認することができる(例えば、組換えが起こったか否かに依存して予測されるもの)。いくつかの実施形態において、プライマーライブラリ中の少なくとも10、20、30、40、50、60、70、80又は90%は、組換えホットスポットに特異的であり、及び/又は組換えホットスポット付近の領域(例えば、組換えホットスポットの5’又は3’末端の10、8、5、3、2、1又は0.5kb以内)に特異的である。いくつかの実施形態において、プライマーライブラリを使用して、組換えが、5、10、50、100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000又は50,000個の異なる組換えホットスポット(例えば、既知のヒト組換えホットスポット)より多く、又はこれに等しい場所で起こったか否かを決定する。いくつかの実施形態において、組換えホットスポット又は付近の領域に対するプライマーによって標的とされる領域は、ゲノムのその部分に沿ってほぼ均一に広がる。いくつかの実施形態において、少なくとも1、5、10、20、40、60、80、100又は150個の異なるプライマー(又はプライマー対)は、染色体の末端又は末端付近の領域(例えば、染色体の末端から20、10、5、1、0.5、0.1、0.01又は0.001mb以内の領域)に特異的である。いくつかの実施形態において、プライマーライブラリ中の少なくとも10、20、30、40、50、60、70、80又は90%は、染色体又は染色体付近の領域(例えば、染色体の末端から20、10、5、1、0.5、0.1、0.01又は0.001mb以内の領域)に特異的である。いくつかの実施形態において、少なくとも1、5、10、20、40、60、80、100又は150個の異なるプライマー(又はプライマー対)は、染色体中の潜在的な微小欠失内の領域に特異的である。いくつかの実施形態において、プライマーライブラリ中の少なくとも10、20、30、40、50、60、70、80又は90%は、染色体中の潜在的な微小欠失内の領域に特異的である。いくつかの実施形態において、プライマーライブラリ中の少なくとも10、20、30、40、50、60、70、80又は90%は、組換えホットスポット、組換えホットスポット付近の領域、染色体の末端又は末端付近の領域、又は染色体中の潜在的な微小欠失内の領域に特異的である。
【0437】
例示的なキット
一態様において、本発明は、キット、例えば、本明細書に記載される方法のいずれかを用い、染色体セグメント又は染色体全体の欠失及び/又は重複を検出するために核酸サンプル中の標的遺伝子座を増幅するためのキットを特徴とする。いくつかの実施形態において、キットは、本発明のプライマーライブラリのいずれかを含んでいてもよい。一実施形態において、本キットは、複数のインナー順方向プライマーと場合により複数のインナー逆方向プライマーと、場合によりアウター順方向プライマー及びアウター逆方向プライマーを含み、各々のプライマーは、標的染色体(複数可)又は染色体セグメント(複数可)及び場合により更なる染色体又は染色体セグメント上の標的部位(例えば、多型部位)のうちの1つからすぐ上流及び/又は下流にあるDNAの領域にハイブリダイズするように設計される。いくつかの実施形態において、本キットは、例えば、本明細書に記載される方法のいずれかを用い、1つ以上の染色体セグメント又は染色体全体の1つ以上の欠失及び/又は重複を検出するために、標的遺伝子座を増幅するためにプライマーライブラリを用いるための説明書を含む。
【0438】
特定の実施形態において、本発明のキットは、染色体の異数性及びCNV決定を検出するためのプライマー対、例えば、染色体の異数性(例えば、CNV(CoNVERGe)(Copy Number Variant Events Revealed Genotypically:遺伝子型的に明らかになったコピー数バリアントイベント)及び/又はSNVを検出するための大規模多重反応のためのプライマー対を提供する。これらの実施形態において、キットは、少なくとも100、200、250、300、500、1000、2000、2500、3000、5000、10,000、20,000、25,000、28,000、50,000又は75,000、かつ最大で200、250、300、500、1000、2000、2500、3000、5000、10,000、20,000、25,000、28,000、50,000、75,000又は100,000個の一緒に出荷されるプライマー対を含んでいてもよい。プライマー対は、単一の容器、例えば、単一のチューブ又はボックス、又は複数のチューブ又はボックスに含まれていてもよい。特定の実施形態において、プライマー対は、商業的な供給業者によって前もって適正な品質にされ、一緒に販売され、他の実施形態において、顧客は、特注の遺伝子標的及び/又はプライマーを選択し、商業的な供給業者は、顧客に対し、1つのチューブでも複数のチューブでもなく、プライマープールを製造し、出荷する。特定の例示的な実施形態において、本キットは、CNV及びSNVの両方、特に、少なくとも1種類のがんと相関関係があることが知られているCNV及びSNVを検出するためのプライマーを含む。
【0439】
本発明のいくつかの実施形態による循環DNA検出のためのキットは、循環DNAのための標準及び/又は対照を含む。例えば、特定の実施形態において、標準及び/又は対照は、本明細書で提供される増幅反応を行うために使用されるプライマー(例えば、CoNVERGeを行うためのプライマー)とともに販売され、場合により出荷され、梱包される。特定の実施形態において、対照は、1個以上の染色体異数性(例えばCNV)を示すか、及び/又は1個以上のSNVを含む単離されたゲノムDNAを含め、ポリヌクレオチド(例えば、DNA)を含む。特定の実施形態において、標準及び/又は対照は、PlasmArt標準と呼ばれ、特に、特定の遺伝性疾患において、特定の疾患状態(例えば、がん)で、CNVを示すことが知られているゲノムの領域に対して配列同一性を有し、血漿中で通常見出されるcfDNAフラグメントのサイズ分布を反映するサイズ分布を有するポリヌクレオチドを含む。PlasmArt標準を作成するための例示的な方法は、本明細書の実施例で提供される。一般的に、染色体異数性を含むことが知られている供給源からのゲノムDNAが、単離され、フラグメント化され、精製され、大きさが選択される。
【0440】
したがって、人工cfDNAポリヌクレオチド標準及び/又は対照は、上にまとめたように調製される単離されたポリヌクレオチドサンプルを、in vivoでcfDNAについて観測されたものと同様の濃度で、例えば、流体中0.01%~20%、0.1~15%又は4~10%のDNAで、染色体異数性及び/又はSNVを示さないことがわかっているDNAサンプルにスパイク化することによって製造される。これらの標準/対照は、アッセイ設計、特性決定、開発及び/又は検証のための対照として、試験(例えば、CLIA実験室で行われるがん試験)中の品質管理標準として、及び/又は研究使用のみ又は診断検査キットに含まれる標準として、使用することができる。
【0441】
例示的な正規化/修正方法
いくつかの実施形態において、異なる遺伝子座、染色体セグメント又は染色体の測定は、バイアス、例えば、GC含有量の差に起因するバイアス又は増幅効率の他の差に起因するバイアスについて調整されるか、又は配列決定エラーについて調整される。いくつかの実施形態において、同じ遺伝子座についての異なる対立遺伝子の測定値は、対立遺伝子間の代謝、アポトーシス、ヒストン、不活化及び/又は増幅の差について調整される。いくつかの実施形態において、RNAにおける同じ遺伝子座についての異なる対立遺伝子の測定値は、異なるRNA対立遺伝子間の転写速度又は安定性の差について調整される。
【0442】
遺伝子データをフェージングするための例示的な方法
いくつかの実施形態において、遺伝子データは、本明細書に記載の方法又は遺伝子データをフェージングするための任意の既知の方法を使用してフェージングされる(例えば、それぞれその全体が参照により本明細書に組み込まれる、2009年2月9日に出願されたPCT公開第2009/105531号及び2009年8月4日に出願されたPCT公開第2010/017214号、2012年11月21日出願の米国特許公開第2013/0123120号、2010年10月7日に出願された米国特許公開第2011/0033862号、2010年8月19日に出願された米国特許公開第2011/0033862号、2011年2月3日に出願された米国特許公開第2011/0178719号、2008年3月17日に出願された米国特許公開第8,515,679号、2006年11月22日に出願された米国特許公開第2007/0184467号、2008年3月17日に出願された米国特許公開第2008/0243398号、及び2014年5月16日に出願された米国出願第61/994,791号を参照されたい)。いくつかの実施形態において、フェーズは、目的のCNVを含有することが知られているか、又は含むことが疑われる1つ以上の領域について決定される。いくつかの実施形態において、フェーズは、CNV領域(複数可)に隣接する1つ以上の領域及び/又は1つ以上の参照領域についても決定される。一実施形態において、個体(例えば、本発明の方法を使用して試験されている個体、又は胎児若しくは胚の親等の妊娠期の胎児若しくは胚の血縁者)の遺伝子データは、例えば、1つ以上の精子又は卵子を測定することによって、単倍体である個体由来の組織を測定することによって、推論によってフェージングされる。一実施形態において、個体の遺伝子データは、1名以上の一親等の血縁者、例えば、個体の親(例えば、個体の父親からの精子)又は兄弟姉妹の遺伝子型データの測定値を用い、推論によってフェージングされる。
【0443】
一実施形態において、個体の遺伝子データは、例えば、デジタルPCRを用いることによって、希釈によってフェージングされ、DNA又はRNAが1個又は複数のウェルで希釈される。いくつかの実施形態において、DNA又はRNAは、各ウェル中の各ハプロタイプの約1個以下のコピーが存在すると予想される程度まで希釈され、次いで、1個以上のウェル中のDNA又はRNAが測定される。いくつかの実施形態において、染色体が密な束である場合、細胞は有糸分裂期に停止され、微小流体を使用して、別個のウェルに別個の染色体を入れる。DNA又はRNAが希釈されるため、1個より多いハプロタイプが同じ画分(又はチューブ)内にある可能性は低い。したがって、チューブ内にDNAの単分子が効果的に存在してもよく、これにより、単一のDNA又はRNA分子上のハプロタイプを決定することができる。いくつかの実施形態において、本方法は、画分の少なくとも1つが、染色体対からの1つの染色体又は1つの染色体セグメントを含むように、DNA又はRNAのサンプルを複数の画分に分割することと、画分の少なくとも1つにおいて、DNA又はRNAのサンプルの遺伝子型を決定すること(例えば、2つ以上の多型遺伝子座の存在を決定すること)によって、ハプロタイプを決定すること、とを含む。いくつかの実施形態において、遺伝子型を決定することは、SNPアレイを配列決定し(例えば、ショットガン配列決定又は単分子配列決定)、多型遺伝子座を検出するか、又はマルチプレックスPCRを伴う。いくつかの実施形態において、遺伝子型を決定することは、多型遺伝子座、例えば、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる多型遺伝子座を検出するためのSNPアレイの使用を伴う。いくつかの実施形態において、遺伝子型を決定することは、マルチプレックスPCRの使用を伴う。いくつかの実施形態において、本方法は、画分中のサンプルと、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる多型遺伝子座(例えばSNP)に同時にハイブリダイズするプライマーのライブラリとを接触させ、反応混合物を生成することと、反応混合物をプライマー伸長反応条件に供して、高スループットシーケンサを用いて測定される増幅産物を産生して配列決定データを作成することと、を伴う。いくつかの実施形態において、RNA(例えばmRNA)が配列決定される。mRNAはエクソンのみを含有するため、mRNAを配列決定することで、ゲノム中の大きな距離(例えば、数メガ塩基)にわたって多型遺伝子座(例えばSNP)について対立遺伝子を決定することができる。いくつかの実施形態において、個体のハプロタイプは、染色体選別によって決定される。例示的な染色体選別方法は、染色体が密な束である場合、有糸分裂期にある細胞を停止させることと、微小流体を使用して、別個のウェルに別個の染色体を入れることと、を含む。別の方法は、FACSを介する単一染色体選別を用い、単一染色体を集めることを伴う。標準的な方法(例えば、配列決定又はアレイ)を使用して、単一染色体上の対立遺伝子を特定して、個体のハプロタイプを決定することができる。
【0444】
いくつかの実施形態において、個体のハプロタイプは、長いリード配列決定によって、例えば、Illuminaによって開発されたMoleculo Technologyを用いることによって決定される。いくつかの実施形態において、ライブラリ調製工程は、DNAをフラグメント(例えば、約10kbの大きさのフラグメント)に剪断することと、フラグメントを希釈することと、(約3,000個のフラグメントが単一のウェル内にあるように)フラグメントをウェルに入れることと、ロングレンジPCRによって、各ウェル中のフラグメントを増幅することと、短いフラグメントに切断することと、フラグメントをバーコード化することと、各ウェルからのバーコード化されたフラグメントを一緒にプールして、これらを全て配列決定することと、を伴う。配列決定の後、計算工程は、各ウェルからのリードを、付けられたバーコードに基づいて分離することと、これらをグループ分けしてフラグメントにすることと、重複するヘテロ接合性SNVにあるフラグメントをハプロタイプブロックにアセンブリすることと、このブロックを、フェージングされた参照パネルに基づき、統計的にフェージングすることと、長いハプロタイプコンフィグを生成することと、を伴う。
【0445】
いくつかの実施形態において、個体のハプロタイプは、個体の血縁者からのデータを用いて決定される。いくつかの実施形態において、SNPアレイを使用して、個体及び個体の血縁者からのDNA又はRNAサンプルにおいて、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる多型遺伝子座の存在を決定する。いくつかの実施形態において、本方法は、個体及び/又は個体の血縁者からのDNAサンプルと、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる多型遺伝子座(例えばSNP)に同時にハイブリダイズするプライマーのライブラリとを接触させ、反応混合物を生成することと、反応混合物をプライマー伸長反応条件に供して、高スループットシーケンサを用いて測定される増幅産物を産生して配列決定データを作成することと、を伴う。
【0446】
一実施形態において、個体の遺伝子データは、集合に基づくハプロタイプ頻度を使用するコンピュータプログラムを使用してフェージングして、最も可能性の高いフェーズを推定する(例えば、HapMapに基づくフェージング)。例えば、倍体データセットは、一般的な集合において既知のハプロタイプブロックを利用する統計的方法を用い、二倍体データから直接的に推測することができる(例えば、公的なHapMap Project及びPerlegen Human Haplotype Projectについて作成されたもの)。ハプロタイプブロックは、本質的には、様々な集合で繰り返し発生する、相関関係にある一連の対立遺伝子である。これらのハプロタイプブロックは、古く、一般的であることが多いため、これらを使用して、二倍体遺伝子型からハプロタイプを予測してもよい。この作業を完成させるのに利用可能な公的なアルゴリズムとしては、不完全な系統学による手法、共役事前分布に基づくベイズ手法及び集合遺伝学からの事前分布が挙げられる。これらのアルゴリズムのいくつかは、隠れマルコフモデルを使用する。
【0447】
一実施形態において、個体の遺伝子データは、遺伝子型データからハプロタイプを推定するアルゴリズム、例えば、局在化したハプロタイプクラスタリングを使用するアルゴリズムを使用して、フェージングされる(例えば、その全体が参照により本明細書に組み込まれる、Browning及びBrowning、「Rapid and Accurate Haplotype Phasing and Missing-Data Inference for Whole-Genome Association Studies By Use of Localized Haplotype Clustering」 Am J Hum Genet.Nov 2007;81(5):1084-1097を参照)。例示的なプログラムは、Beagleバージョン3.3.2又はバージョン4である(hfaculty.washington.edu/browning/beagle/beagle.htmlでワールドワイドウェブで入手可能、その全体が参照により本明細書に組み込まれる)。
【0448】
一実施形態において、個体の遺伝子データは、遺伝子型データからハプロタイプを推定するアルゴリズム、例えば、遺伝子型決定されるマーカーの距離、順序及び間隔、欠落データの代入、組換え率の推定、又はこれらの組み合わせを用いる連鎖不均衡の減衰を使用するアルゴリズムを使用してフェージングされる(例えば、Stephens and Scheet,“Accounting for Decay of Linkage Disequilibrium in Haplotype Inference and Missing-Data Imputation”Am.J.Hum.Genet.76:449-462、2005を参照)。例示的なプログラムは、PHASE v.2.1又はv2.1.1である(stephenslab.uchicago.edu/software.htmlでワールドワイドウェブで入手可能、その全体が参照により本明細書に組み込まれる)。
【0449】
一実施形態において、個体の遺伝子データは、集合の遺伝子型データからハプロタイプを推定するアルゴリズム、例えば、隠れマルコフモデルに従って、クラスターメンバーシップが染色体に沿って連続的に変化することを可能にするアルゴリズムを用いて、フェージングされる。この手法は自由度が高く、連鎖不均衡の「ブロック様」パターンと、距離を用いた連鎖不均衡が徐々に低下することの両方について可能である(例えば、その全体が参照により本明細書に組み込まれる、Scheet and Stephens,“A fast and flexible statistical model for large-scale population genotype data:applications to inferring missing genotypes and haplotypic phase.”Am J Hum Genet、78:629-644、2006を参照)。例示的なプログラムは、fastPHASEである(stephenslab.uchicago.edu/software.htmlでワールドワイドウェブで入手可能、その全体が参照により本明細書に組み込まれる)。
【0450】
一実施形態において、個体の遺伝子データは、遺伝子型代入方法、例えば、以下の参照データセットのうちの1つ以上を使用する方法を用いて、フェージングされる。HapMapデータセット、複数のSNPチップ上で遺伝子型決定される対照のデータセット及び1,000 Genomes Projectからの密に型決定されたサンプル。例示的な手法は、複数の参照パネルにわたって精度を高め、情報を組み合わせた、自由度の高いモデリングフレームワークである(例えば、その全体が参照により本明細書に組み込まれる、Howie、Donnelly及びMarchini(2009)、「A flexible and accurate genotype imputation method for the next generation of genome-wide association studies.」PLoS Genetics 5(6):e1000529,2009を参照されたい)。例示的なプログラムは、IMPUTE又はIMPUTEバージョン2(IMPUTE2としても知られる)である(mathgen.stats.ox.ac.uk/impute/impute_v2.htmlでワールドワイドウェブで入手可能、その全体が参照により本明細書に組み込まれる)。
【0451】
一実施形態において、個体の遺伝子データは、ハプロタイプを推論するアルゴリズム、例えば、PHASE v2.1においてStephensによって開発されたような、組換えとの結合の遺伝子モデルの下でハプロタイプを推論するアルゴリズムを用いて、フェージングされる。主要なアルゴリズムの改善は、各個体についての候補ハプロタイプのセットを表すためのバイナリツリーの使用に依存する。これらのバイナリツリー表現は、(1)PHASE v2.1で行われる冗長操作を回避することによって、ハプロタイプの事後確率の計算を高速化し、(2)バイナリツリーにおける最も合理的な経路(すなわち、ハプロタイプ)のスマートな検索によってハプロタイプ推論問題の指数関数的態様を克服する(例えば、Delaneau,Coulonges and Zagury,“Shape-IT:new rapid and accurate algorithm for haplotype inference,”BMC Bioinformatics 9:540,2008 doi:10.1186/1471-2105-9-540を参照、その全体が参照により本明細書に組み込まれる)。例示的なプログラムは、SHAPEITである(mathgen.stats.ox.ac.uk/genetics_software/shapeit/shapeit.htmlでワールドワイドウェブで入手可能、その全体が参照により本明細書に組み込まれる)。
【0452】
一実施形態において、個体の遺伝子データは、集合の遺伝子型データからハプロタイプを推定するアルゴリズム、例えば、より長いハプロタイプについての経験に基づく確率を得るためにハプロタイプフラグメント頻度を使用するアルゴリズムを用いて、フェージングされる。いくつかの実施形態において、アルゴリズムは、最大の局所的なコヒーレンスを有するようにハプロタイプを再構築する(例えば、Eronen,Geerts,and Toivonen,“HaploRec:Efficient and accurate large-scale reconstruction of haplotypes,”BMC Bioinformatics 7:542,2006を参照、その全体が参照により本明細書に組み込まれる)。例示的なプログラムは、HaploRec、例えば、HaploRecバージョン2.3である(cs.helsinki.fi/group/genetics/haplotyping.htmlでワールドワイドウェブで入手可能、その全体が参照により本明細書に組み込まれる)。
【0453】
一実施形態において、個体の遺伝子データは、集合の遺伝子型データからハプロタイプを推定するアルゴリズム、例えば、パーティションライゲーション戦略を使用するアルゴリズム及び期待最大化に基づくアルゴリズムを用い、フェージングされる(例えば、その全体が参照により本明細書に組み込まれる、Qin、Niu及びLiu、「Partition-Ligation-Expectation-Maximization Algorithm for Haplotype Inference with Single-Nucleotide Polymorphisms」、Am J Hum Genet.71(5):1242-1247、2002を参照)。例示的なプログラムは、PL-EMである(参照によりその全体が本明細書に組み込まれる、people.fas.harvard.edu/~junliu/plem/click.htmlでワールドワイドウェブで入手可能)。
【0454】
一実施形態において、個体の遺伝子データは、集合の遺伝子型データからハプロタイプを推定するアルゴリズム、例えば、遺伝子型からハプロタイプへのフェージング及びブロック分割を同時に行うためのアルゴリズムを用いて、フェージングされる。いくつかの実施形態において、期待最大化アルゴリズムが使用される(例えば、Kimmel and Shamir,“GERBIL:Genotype Resolution and Block Identification Using Likelihood,”Proceedings of the National Academy of Sciences of the United States of America(PNAS)102:158-162,2005を参照、その全体が参照により本明細書に組み込まれる)。例示的なプログラムは、GERBILであり、GEVALTバージョン2プログラムの一部として入手可能である(acgt.cs.tau.ac.il/gevalt/でワールドワイドウェブで入手可能、その全体が参照により本明細書に組み込まれる)。
【0455】
一実施形態において、個体の遺伝子データは、集合の遺伝子型データからハプロタイプを推定するアルゴリズム、例えば、フェーズを指定しない遺伝子型測定を考慮して、ハプロタイプ頻度のML推定値を計算するためにEMアルゴリズムを使用するアルゴリズムを用いて、フェージングされる。このアルゴリズムも、いくつかの遺伝子型測定が欠落する可能性がある(例えば、PCRの失敗に起因する)。個々のハプロタイプの複数の代入も可能にする(例えば、その全体が参照により本明細書に組み込まれる、Clayton,D.(2002),“SNPHAP:A Program for Estimating Frequencies of Large Haplotypes of SNPs”を参照)。例示的なプログラムは、SNPHAPである(gene.cimr.cam.ac.uk/clayton/software/snphap.txtでのワールドワイドウェブで入手可能、その全体が参照により本明細書に組み込まれる)。
【0456】
一実施形態において、個体の遺伝子データは、集合の遺伝子型データからハプロタイプを推定するアルゴリズム、例えば、SNPの対について集められた遺伝子型統計に基づくハプロタイプ推論のためのアルゴリズムを用いて、フェージングされる。このソフトウェアは、例えば、DNAアレイから得られた多数の長いゲノム配列の比較的正確なフェージングのために使用することができる。例示的なプログラムは、遺伝子型マトリックスをインプットとして取り込み、対応するハプロタイプマトリックスを出力する(例えば、Brinza and Zelikovsky,“2SNP:scalable phasing based on 2-SNP haplotypes,”Bioinformatics.22(3):371-3,2006を参照、その全体が参照により本明細書に組み込まれる)。例示的なプログラムは、2SNPである(alla.cs.gsu.edu/~software/2SNPでのワールドワイドウェブで入手可能、参照によりその全体が本明細書に組み込まれる)。
【0457】
様々な実施形態において、個体の遺伝子データは、染色体又は染色体セグメント中の異なる位置で染色体が交差する確率に関するデータを使用して、フェージングされ(例えば、HapMapデータベース中に見られ得るような組換えデータを用いて、任意の間隔で組換えリスクスコアを作成し)、その染色体又は染色体セグメント上の多型対立遺伝子間の依存性をモデル化する。いくつかの実施形態において、多型遺伝子座での対立遺伝子数は、配列決定データ又はSNPアレイデータに基づいてコンピュータで計算される。いくつかの実施形態において、各染色体又は染色体セグメントの異なる可能な状態に関する複数の仮説(例えば、個体からの1つ以上の細胞のゲノムにおいて、第2の相同染色体セグメントと比較して、第1の相同染色体セグメントのコピー数の過剰出現、第1の相同染色体セグメントの重複、第2の相同染色体セグメントの欠失、又は第1及び第2の相同染色体セグメントの等しい出現)が作成され(例えば、コンピュータで作成)、染色体上の多型遺伝子座での対立遺伝子数の予測値についてのモデル(例えば、結合分布モデル)が、各々の仮説について構築され(例えば、コンピュータで構築)、結合分布モデル及び対立遺伝子数を用い、仮説の各々の相対確率が決定され(例えば、コンピュータで決定)、最大確率を有する仮説が選択される。いくつかの実施形態において、対立遺伝子数の結合分布モデルを構築すること、及び各々の仮説の相対確率を決定する工程は、参照染色体の使用を必要としない方法を用いて行われる。
【0458】
一実施形態において、個体の遺伝子データは、個体の1人以上の血縁者(例えば、1人以上の親、兄弟姉妹、子供、胎児、胚、祖父母、叔父、叔母、又はいとこ)の遺伝子データを用いてフェージングされる。一実施形態において、個体の遺伝子データは、胚、胎児、出生児、又は流産のサンプルなど、個体の1人以上の遺伝子子孫(例えば、1、2、3、又は複数の子孫)の遺伝子データを使用してフェージングされる。一実施形態において、親(例えば、妊娠期の胎児又は胚の親)の遺伝子データは、親の1人以上の遺伝子子孫の非フェージング遺伝子データとともに、他方の親のフェージングハプロタイプデータを使用してフェージングされる。
【0459】
いくつかの実施形態において、個体(例えば、がんを有することが疑われる個体、胎児、又は胚)からのサンプル(例えば、生検、例えば、腫瘍生検、血液サンプル、血漿サンプル、血清サンプル、又は大部分が目的のCNVを有する細胞、DNA又はRNA)を含有するか、又はこれらのみを含有する可能性が高い別のサンプル)が分析され、目的のCNV(例えば、欠失又は重複)を含有することが知られているか、又は疑われる1つ以上の領域についてフェーズを決定する。いくつかの実施形態において、サンプルは、高い腫瘍分率(例えば、30、40、50、60、70、80、90、95、98、99又は100%)を有する。いくつかの実施形態において、胎児又は胎児の妊娠中の母親からのサンプル(例えば、母体全血サンプル、母体血液サンプルから単離された細胞、母体血漿サンプル、母体血清サンプル、羊水穿刺サンプル、胎盤組織サンプル(例えば、絨毛性絨毛、脱落膜、若しくは胎盤膜)、子宮頸部粘液サンプル、胎児死亡後の胎児組織、胎児からの他のサンプル、又は目的のCNVを有する細胞、DNA、若しくはRNAの大部分又はそれのみを含有する可能性が高い別のサンプル)を分析し、目的のCNV(例えば、欠失又は重複)を含有することが知られているか、又は疑われる1つ以上の領域についてフェーズを決定する。いくつかの実施形態において、サンプルは、高い胎児分率(例えば、25、30、40、50、60、70、80、90、95、98、99又は100%)を有する。
【0460】
いくつかの実施形態において、サンプルは、ハプロタイプ不均衡又は任意の異数性を有する。いくつかの実施形態において、サンプルは、2種類のDNAの任意の混合物を含み、この2種類は、異なる比率の2つのハプロタイプを有し、少なくとも1つのハプロタイプを共有している。例えば、胎児-母体の場合、母親は1:1であり、胎児は1:0である(プラス父親のハプロタイプ)。例えば、腫瘍の場合、正常組織は1:1であり、腫瘍組織は1:0又は1:2、1:3、1:4などである。いくつかの実施形態において、少なくとも10、100、500、1,000、2,000、3,000、5,000、8,000又は10,000個の多型遺伝子座が分析され、遺伝子座の一部又は全てでの対立遺伝子のフェーズを決定する。いくつかの実施形態において、サンプルは、異数性(例えば、長時間の細胞培養によって誘導される異数性)になるように処理された細胞又は組織に由来する。
【0461】
いくつかの実施形態において、サンプル中のDNA又はRNAの大部分の割合又は全てが、目的のCNVを有する。いくつかの実施形態において、サンプル中の総DNA又はRNAに対する、目的のCNVを含有する1つ以上の標的細胞からのDNA又はRNAの比率は、少なくとも80、85、90、95又は100%である。欠失を有するサンプルについて、その欠失を有する細胞(又はDNA若しくはRNA)について、たった1つのハプロタイプが存在する。この第1のハプロタイプは、標準的な方法を用いて決定され、欠失の領域に存在する対立遺伝子の同一性を決定することができる。欠失を有する細胞(又はDNA若しくはRNA)のみを含有するサンプルにおいて、これらの細胞中に存在する第1のハプロタイプからの信号のみが存在するだろう。欠失を有しない少量の細胞(又はDNA若しくはRNA)(例えば、少量の非がん性細胞)も含有するサンプルにおいて、これらの細胞(又はDNA若しくはRNA)における第2のハプロタイプからの弱い信号は、無視することができる。その欠失を欠く個体からの他の細胞、DNA又はRNA中に存在する第2のハプロタイプは、推論によって決定することができる。例えば、欠失を有しない個体からの細胞の遺伝子型が(AB,AB)であり、その個体についてのフェージングデータが、第1のハプロタイプが(A,A)であることを示す場合、他のハプロタイプは、(B,B)であると推論することができる。
【0462】
欠失を有する細胞(又はDNA若しくはRNA)と、欠失を有しない欠失を有する細胞(又はDNA若しくはRNA)が両方とも存在するサンプルについても、フェーズを決定することができる。例えば、x軸が、染色体に沿った個々の遺伝子座の線形位置を表し、y軸が、総(A+B)対立遺伝子リードの分率としてのA対立遺伝子リードの数を表す、プロットを作成することができる。欠失についてのいくつかの実施形態において、パターンは、個体がヘテロ接合性であるSNPを表す2つの中央のバンドを含む(上側のバンドは、欠失を有しない細胞からのABと、欠失を有する細胞からのAを表し、下側のバンドは、欠失を有しない細胞からのABと、欠失を有する細胞からのBを表す)。いくつかの実施形態において、これら2つのバンドの分離は、欠失を有する細胞、DNA又はRNAの分率が高くなるにつれて、大きくなる。したがって、A対立遺伝子の同一性を使用して、第1のハプロタイプを決定することができ、B対立遺伝子の同一性を使用して、第2のハプロタイプを決定することができる。
【0463】
重複を有するサンプルについて、重複を有する細胞(又はDNA若しくはRNA)について、ハプロタイプの過剰なコピーが存在する。重複した領域のこのハプロタイプは、標準的な方法を用いて決定され、この重複領域において増加した量で存在する対立遺伝子の同一性を決定することができるか、又は重複していない領域のハプロタイプが、標準的な方法を用いて決定され、減少した量で存在する対立遺伝子の同一性を決定することができる。1つのハプロタイプが決定されると、もう一方のハプロタイプは、推論によって決定することができる。
【0464】
重複を有する細胞(又はDNA若しくはRNA)と、重複を有しない欠失を有する細胞(又はDNA若しくはRNA)が両方とも存在するサンプルについても、欠失について上に記載したのと似た方法を用い、フェーズを決定することができる。例えば、x軸が、染色体に沿った個々の遺伝子座の線形位置を表し、y軸が、総(A+B)対立遺伝子リードの分率としてのA対立遺伝子リードの数を表す、プロットを作成することができる。欠失についてのいくつかの実施形態において、パターンは、個体がヘテロ接合性であるSNPを表す2つの中央のバンドを含む(上側のバンドは、重複を有しない細胞からのABと、重複を有する細胞からのAABを表し、下側のバンドは、重複を有しない細胞からのABと、重複を有する細胞からのABBを表す)。いくつかの実施形態において、これら2つのバンドの分離は、重複を有する細胞、DNA又はRNAの分率が高くなるにつれて、大きくなる。したがって、A対立遺伝子の同一性を使用して、第1のハプロタイプを決定することができ、B対立遺伝子の同一性を使用して、第2のハプロタイプを決定することができる。いくつかの実施形態において、1つ以上のCNV領域のフェーズ(例えば、測定された領域中の多型遺伝子座の少なくとも50、60、70、80、90、95又は100%のフェーズ)は、がんを有することが知られている個体からのサンプル(例えば、腫瘍生検又は血漿サンプル)から決定され、がんの進行をモニタリングする(例えば、がんの寛解又は再発をモニタリングする)ために同じ個体からのその後のサンプルの分析に使用される。いくつかの実施形態において、腫瘍分率が高いサンプル(例えば、高い腫瘍負荷を有する個体からの腫瘍生検又は血漿サンプル)を使用して、より低い腫瘍分率を有するその後のサンプル(例えば、がんの治療を受けているか、又は寛解中の個体からの血漿サンプル)の分析に使用されるフェージングデータを得る。
【0465】
出生前診断のための別の実施形態において、フェージング親ハプロタイプデータは、父親からの2つ以上の相同体の存在を検出することであり、2人以上の胎児からの遺伝物質が母体血液サンプル中に存在することを意味する。胎児において正倍数であると予測される染色体に着目することにより、胎児がトリソミーに罹患していた可能性を排除することができる。また、胎児DNAが現在の父親からのものでないかどうかを判定することが可能である。
【0466】
いくつかの実施形態において、本明細書に記載の方法のうちの2つ以上を用いて、個体の遺伝子データをフェージングする。いくつかの実施形態において、バイオインフォマティクス方法(例えば、集合に基づくハプロタイプ頻度を用い、最も可能性が高いフェーズを推定する)及び分子生物学的方法(例えば、バイオインフォマティクスに基づいて推論されたフェージングデータではなく、実際のフェージングデータを得るための本明細書に開示される分子フェージング方法のいずれか)が使用される。いくつかの実施形態において、他の対象(例えば、以前の対象)からのフェージングデータを使用して、集合のデータを絞り込む。例えば、他の対象からのフェージングデータを集合のデータに加え、別の対象についての可能なハプロタイプについての事前分布を計算することができる。いくつかの実施形態において、他の対象(例えば、以前の対象)からのフェージングデータを使用して、別の対象についての可能なハプロタイプについての事前分布を計算する。
【0467】
いくつかの実施形態において、確率データが使用されてもよい。例えば、サンプル中のDNA分子の出現の確率的性質、及び様々な増幅及び測定バイアスに起因して、2つの異なる遺伝子座から、又は所与の遺伝子座にある異なる対立遺伝子から測定されたDNA分子の相対数は、必ずしも、混合物又は個体における分子の相対数を表すものではない。個体の血漿からのDNAを配列決定することによって、常染色体上の所与の遺伝子座での正常二倍体個体の遺伝子型を決定しようと試みる場合、たった1つの対立遺伝子(ホモ接合性)又はほぼ等しい数の2つの対立遺伝子(ヘテロ接合性)のいずれかを観測することが予測されるだろう。その対立遺伝子で、A対立遺伝子の10個の分子が観測され、B対立遺伝子の2つの分子が観測される場合、その個体が、その遺伝子座でホモ接合性であり、B対立遺伝子の2つの分子がノイズ又はコンタミネーションに起因するものであったか、又はその個体がヘテロ接合性であり、少ない方の数のB対立遺伝子の分子は、血漿中のDNA分子の数におけるランダムな統計的変動、増幅バイアス、コンタミネーション又は任意の数の他の原因に起因するものであったかは、明らかではないだろう。この場合、その個体がホモ接合性であった確率と、その個体がヘテロ接合性であった対応する確率とを計算することができ、これらの確率的遺伝子型を更なる計算に使用することができる。
【0468】
なお、所与の対立遺伝子比率では、その比率が個体におけるDNA分子の比率を密接に表す尤度は、観測される分子の数が多いほど大きい。例えば、100個のA分子と100個のB分子を測定しようとする場合、実際の比率が50%である尤度は、10個のA分子と10個のB分子を測定しようとする場合よりもかなり大きい。一実施形態において、データの詳細なモデルと組み合わせたベイズ理論を使用して、観測値を考慮して、特定の仮説が正しい尤度を決定する。例えば、トリソミー個体に対応する仮説と、ダイソミー個体に対応する仮説の2つの仮説を検討する場合、ダイソミー仮説が正しい確率は、2つの対立遺伝子のそれぞれについて100個の分子が観測される場合の方が、2つの対立遺伝子のそれぞれについて10個の分子が観測される場合と比較して、かなり高くなるだろう。バイアス、コンタミネーション又はいくつかの他のノイズ源に起因してデータにノイズが増えるにつれて、又は所与の遺伝子座での観測数が小さくなるにつれて、観測されたデータを考慮して、最大尤度仮説が真のものである確率は、低下する。実際には、最大尤度仮説が正しい仮説であると決定され得る信頼性を上げるために、多くの遺伝子座にわたって確率を集計することが可能である。いくつかの実施形態において、確率は、単に組換えを考慮せずに集計される。いくつかの実施形態において、計算は、クロスオーバーを考慮して行われる。
【0469】
一実施形態において、確率的にフェージングされたデータを、コピー数変動の決定に使用する。いくつかの実施形態において、確率的にフェージングされたデータは、HapMapデータベースなどのデータソースからの集合に基づくハプロタイプブロック頻度データである。いくつかの実施形態において、確率的にフェージングされたデータは、分子方法、例えば、染色体の個々のセグメントが、反応当たり単一分子まで希釈されるが、統計的ノイズに起因して、ハプロタイプの同一性が絶対的には知ることができないような希釈によるフェージングによって得られるハプロタイプデータである。いくつかの実施形態において、確率的にフェージングされたデータは、分子方法によって得られるハプロタイプデータであり、ハプロタイプの同一性は、高い確実性をもって知ることが可能である。
【0470】
医師が、個体からの血漿DNAを測定することによって、個体が体内に特定の染色体セグメントに欠失を有するいくつかの細胞を有するかどうかを決定したいと考えたという仮想の場合を想像されたい。医師は、血漿DNAの由来となる細胞の全てが二倍体であり、同じ遺伝子型である場合、ヘテロ接合性遺伝子座について、2つの対立遺伝子座の各々について観測されるDNAの相対的な分子数が、50%のA対立遺伝子と50%のB対立遺伝子を中心とした1つの分布に含まれるという知識を利用することができる。しかしながら、血漿DNAの由来となる細胞の一部が、特定の染色体セグメントに欠失を有する場合、ヘテロ接合性遺伝子座について、2つの対立遺伝子座の各々について観測されるDNAの相対的な分子数が、2つの分布に含まれ、1つは、B対立遺伝子を含有する染色体セグメントが欠失した遺伝子座について50%のA対立遺伝子を超えたところを中心としており、1つは、A対立遺伝子を含有する染色体セグメントが欠失した遺伝子座について50%未満のA対立遺伝子のところを中心としていると予想されるだろう。血漿DNAの由来となる細胞が欠失を含む割合が大きいほど、これらの2つの分布は、50%から更に離れるだろう。
【0471】
この仮説の場合、個体が、個体の体内にある細胞の一部の割合で染色体領域の欠失を有するかどうかを決定したい医師を想像されたい。医師は、個体からの血液をバキュテナー又は他の種類の血液チューブに抜き取り、血液を遠心分離し、血漿層を単離してもよい。医師は、血漿からDNAを単離し、おそらく、標的化増幅又は他の増幅、遺伝子座捕捉技術、サイズ濃縮又は他の濃縮技術を用い、標的遺伝子座でDNAを濃縮してもよい。医師は、SNPのセットで対立遺伝子の数を測定することによって、言い換えると、対立遺伝子頻度データを作成することによって、qPCR、配列決定、マイクロアレイ、又はサンプル中のDNAの量を測定する他の技術などのアッセイを用い、濃縮及び/又は増幅したDNAを分析してもよい。医師が標的化増幅技術を用いて無細胞血漿DNAを増幅した場合のデータ分析を検討し、次いで、増幅したDNAを配列決定して、がんの指標である染色体セグメント上で見られる6個のSNPで、以下の例示的な可能なデータを得て、ここで、個体は、これらのSNPでヘテロ接合性であった。
【0472】
SNP1:460リードのA対立遺伝子、540リードのB対立遺伝子(46%A)
【0473】
SNP2:530リードのA対立遺伝子、470リードのB対立遺伝子(53%A)
【0474】
SNP3:40リードのA対立遺伝子、60リードのB対立遺伝子(40%A)
【0475】
SNP4:46リードのA対立遺伝子、54リードのB対立遺伝子(46%A)
【0476】
SNP5:520リードのA対立遺伝子、480リードのB対立遺伝子(52%A)
【0477】
SNP6:200リードのA対立遺伝子、200リードのB対立遺伝子(50%A)
【0478】
このデータセットから、個体が正常であり、全ての細胞がダイソミーである場合、又は個体ががんを有する可能性があり、血漿中に見られる無細胞DNAに対してDNAが寄与する細胞の一部が、染色体に欠失又は重複を有する場合を区別することは困難であろう。例えば、最大尤度を有する2つの仮説は、個体が、この染色体セグメントに欠失を有し、腫瘍分率が6%であり、染色体の欠失したセグメントが、(A,B,A,A,B,B)又は(A,B,A,A,B,A)の6つのSNPにわたって遺伝子型を有することであってもよい。SNPのセットにわたる個体の遺伝子型のこの表現において、括弧内の1つめの文字は、SNP1についてのハプロタイプの遺伝子型に対応し、2番目はSNP2に対応する、など。
【0479】
その染色体セグメントでの個体のハプロタイプを決定する方法を使用しようとする場合、また、2つの染色体の1つについてのハプロタイプが(A,B,A,A,B,B)であることを見出そうとし、これが最大尤度仮説に一致する場合、個体がそのセグメントに欠失を有する尤度の計算値、したがって、がん性細胞又は前がん細胞を有する可能性がある尤度の計算値は、かなり大きくなるだろう。一方で、個体がハプロタイプ(A,A,A,A,A,A)を有することがわかった場合、個体がその染色体セグメントに欠失を有する尤度は、かなり小さくなり、おそらく、欠失を有しない仮説の尤度が高くなるだろう(実際の尤度の値は、特に、この系で測定されるノイズなどの他のパラメータに依存するだろう)。
【0480】
個体のハプロタイプを決定する多くの方法が存在し、その多くは、本文書の別の箇所に記載されている。部分的なリストはここに挙げられているが、網羅的であることを意味していない。1つの方法は、各々の染色体領域から約1つの分子が所与の反応体積中に存在するまで、個々のDNA分子が希釈され、次いで、配列決定などの方法を使用して遺伝子型を測定する、生物学的方法である。別の方法は、様々なハプロタイプに関する集合データをその頻度と組み合わせたものを確率的な方法で使用することができる、情報学に基づく方法である。別の方法は、個体とハプロタイプブロックを共有し、ハプロタイプブロックを推論することが予想される、1名又は複数名の関連する個体とともに、個体の二倍体データを測定するものである。別の方法は、高濃度の欠失又は重複したセグメントを有する組織サンプルを採取し、対立遺伝子不均衡に基づいてハプロタイプを決定するものであり、例えば、欠失を有する腫瘍組織のサンプルからの遺伝子型測定を使用して、その欠失領域についてのフェージングデータを決定することができ、次いで、このデータを使用して、がんが切除後に再び成長しているかどうかを決定することができる。
【0481】
実際には、典型的には、20個より多いSNP、50個より多いSNP、100個より多いSNP、500個より多いSNP、1,000個より多いSNP又は5,000個より多いSNPが、所与の染色体セグメント上で測定される。
【0482】
胎児遺伝子データをフェージングする、対立遺伝子比率を予測する、及び胎児遺伝子データを再構築するための例示的な方法
一態様において、本発明は、胎児の1つ以上のハプロタイプを決定するための方法を特徴とする。様々な実施形態において、この方法は、どの多型遺伝子座(例えばSNP)が胎児によって遺伝されたかを決定し、どのホモログ(組換えイベントを含む)が胎児に存在するかを再構築すること(及びそれによって多型遺伝子座間の配列を補間すること)を可能にする。所望な場合、胎児のゲノム全体を本質的に再構築することができる。胎児のゲノム中にいくつかの残存する曖昧さが存在する場合(クロスオーバーを伴う間隔など)、この曖昧さは、所望により、追加の多型遺伝子座を分析することによって最小限に抑えることができる。様々な実施形態において、多型遺伝子座は、任意の曖昧さを所望のレベルに低減する密度で、染色体のうちの1つ以上をカバーするように選択される。この方法は、胎児ゲノム中の目的の多型又は他の変異(例えば、欠失又は重複)の検出を指示するのではなく、連鎖(例えば、胎児ゲノム中の連結された多型遺伝子座の存在)に基づいてそれらの検出を可能にするため、胎児中の目的の多型又は他の変異の検出に重要な用途を有する。例えば、親が嚢胞性線維症(CF)に関連する変異のキャリアである場合、胎児の母親からの母体DNA及び胎児からの胎児DNAを含む核酸サンプルを分析して、胎児DNAがCF変異を含有するハプロタイプを含むかどうかを決定することができる。特に、多型遺伝子座を分析して、胎児DNAが、胎児DNA中のCF変異自体を検出する必要なく、CF変異を含有するハプロタイプを含むかどうかを決定することができる。これは、変異を直接検出する必要なく、疾患関連変異などの1つ以上の変異をスクリーニングするのに有用である。
【0483】
いくつかの実施形態において、本方法は、例えば、本明細書に記載の方法のいずれかを用いることによって、親ハプロタイプ(例えば、胎児の母親又は父親のハプロタイプ)を決定することを伴う。いくつかの実施形態において、この決定は、母親又は父親のからのデータを用いることなくなされる。いくつかの実施形態において、親ハプロタイプは、希釈アプローチ、続いて本明細書に記載のSNP遺伝子型決定又は配列決定を用いて決定される。いくつかの実施形態において、母親(又は父親)のハプロタイプは、母親(又は父親)の血縁者からのデータを用いて、本明細書に記載の方法のいずれかによって決定される。いくつかの実施形態において、ハプロタイプは、父親及び母親の両方について決定される。
【0484】
この親のハプロタイプデータを使用して、胎児に親のハプロタイプが遺伝したかどうかを決定することができる。いくつかの実施形態において、胎児の母親からの母体DNA及び胎児からの胎児DNAを含む核酸サンプルを、SNPアレイを使用して分析して、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000、又は100,000個の異なる多型遺伝子座を検出する。いくつかの実施形態において、胎児の母親からの母体DNA及び胎児からの胎児DNAを含む核酸サンプルを、少なくとも100、200、500、750、1,000、2,000、5,000、7,500、10,000、20,000、25,000、30,000、40,000、50,000、75,000又は100,000個の異なる多型遺伝子座(SNPなど)に同時にハイブリダイズするプライマーのライブラリとサンプルを接触させて反応混合物を生成することにより分析する。いくつかの実施形態において、反応混合物をプライマー伸長反応条件に通し、増幅生成物を生成する。いくつかの実施形態において、増幅産物は、高スループットシーケンサを用いて測定されて、配列決定データを生成する。
【0485】
様々な実施形態において、胎児ハプロタイプは、染色体又は染色体セグメント中の異なる位置で染色体が交差する確率に関するデータを使用して決定され(例えば、HapMapデータベース中に見られ得るような組換えデータを用いて、任意の間隔で組換えリスクスコアを作成することにより)、上述のようにその染色体又は染色体セグメント上の多型対立遺伝子間の依存性をモデル化する。いくつかの実施形態において、本方法は、SNPの物理的距離(例えば、目的の遺伝子又は変異に隣接するSNP)及び位置特異的組換え尤度からの組換えデータ及び母体血漿の遺伝子測定から観察されるデータを考慮して、胎児の最も可能性の高い遺伝子型を得る。次いで、これらのSNPから得られた標的配列決定又はSPNアレイデータに対してPARENTAL SUPPORT(商標)を実行し、両親から胎児に遺伝したホモログを決定することができる(例えば、それぞれその全体が参照により本明細書に組み込まれる、米国特許出願第11/603,406号(米国特許公開第2007/0184467号)、米国特許出願第12/076,348号(米国特許公開第2008/0243398号)、米国特許出願第13/110,685号(米国特許公開第2011/0288780号)、PCT出願PCT/US09/52730(PCT公開第2010/017214号)、及びPCT出願第PCT/US10/050824号(PCT公開第2011/041485号)、米国特許出願第13/300,235号(米国特許公開第2012/0270212号)、米国特許出願第13/335,043号(米国特許公開第2012/0122701号)、米国特許出願第13/683,604号、及び米国特許出願第13/780,022号を参照されたい)。
【0486】
1つの遺伝子座における可能な対立遺伝子がA及びBである一般化された例を仮定し、同一性A又はBの特定の対立遺伝子への割り当ては任意である。遺伝的文脈と称される特定のSNPの親遺伝子型は、母体遺伝子型|父体遺伝子型として表現される。したがって、母親がホモ接合体であり、父親がヘテロ接合体である場合、これはAA|ABとして表される。同様に、両親が同じ対立遺伝子についてホモ接合性である場合、親の遺伝子型はAA|AAとして表される。更に、胎児はAB又はBB状態を有せず、B対立遺伝子を有する配列リード数は低くなるため、低レベルDNA汚染及び配列決定エラーなどの影響を含む、アッセイ及び遺伝子分類プラットフォームのノイズ応答を決定するために使用することができる、これらのノイズ応答は、予測される遺伝子データプロファイルをモデリングするために有用である。5つの可能性のある母体|父体の遺伝的文脈、すなわちAA|AA、AA|AB、AB|AA、AB|AB、及びAA|BBのみが存在し、他の文脈は、対称性により等価である。親が同じ対立遺伝子についてホモ接合性であるSNPは、ノイズ及び汚染レベルを決定するためにのみ有益である。親が同じ対立遺伝子についてホモ接合ではないSNPは、胎児割合及びコピー数カウントを決定する際に有益である。
【0487】
NA,i及びNB,iは、SNPiにおける各対立遺伝子のリード数を表し、Ciは、その遺伝子座における親遺伝子文脈を表す。特定の染色体のデータセットは、NAB={NA,i,NB,i}i=1…N及びC={Ci},i=1…Nによって表される。胎児ゲノムの一部又は全部を再構築するために、胎児が異数性(例えば、染色体又は染色体セグメントの欠損又は余分なコピー)を有するかどうかを任意選択で決定することができる。個々の染色体又は研究中の染色体について、Hは、染色体の総数、各染色体の親起源、及び受精して子供を生成する配偶子の形成中に組換えが生じた親染色体上の位置に関する1つ以上の仮説のセットを表す。仮説P(H)の確率は、HapMapデータベースからのデータ、及び倍数性状態のそれぞれに関連する先行情報を用いて計算することができる。
【0488】
更に、Fは、サンプル中の胎児cfDNA分率を表す。可能性のあるH、C、及びFのセットを考慮して、分子アッセイ及び配列決定プラットフォームのノイズ源のモデリングに基づき、NABの確率、P(NAB|H,F,C)を計算することができる。目標は、P(H,F|NAB)を最大化する仮説H及び胎児分率Fを見出すことである。標準的なベイズ統計手法を使用し、0から1までのFの均一な確率分布を仮定すると、これは、H及びFに対するP(NAB|H,F,C)P(H)の確率を最大化するという点で再キャストすることができ、これらの全てを計算することができる。特定のコピー数及び胎児分率(例えば、トリソミー及びF=10%)に関連付けられるが、全ての可能な親染色体起源及びクロスオーバー位置をカバーする全ての仮説の確率が合計される。最も高い確率を有するコピー数仮説が試験結果として選択され、その仮説に関連する胎児分率は、胎児分率を明らかにし、その仮説に関連する確率は、結果の計算された精度である。
【0489】
いくつかの実施形態において、アルゴリズムは、本方法の可能な胎児遺伝子遺伝パターン、サンプルパラメータ、並びに増幅及び測定アーチファクトから生じ得る非常に多数の仮説的配列決定データセットを生成するために、コンピュータシミュレーションを使用する。より具体的には、アルゴリズムは、まず、HapMapデータベースからの多数のSNP及びクロスオーバー頻度データで親遺伝子型を利用して、可能性のある胎児遺伝子型を予測する。次いで、可能な胎児遺伝子型のそれぞれとともに、胎児分率、予測される読み取り深度プロファイル、サンプル中に存在する胎児ゲノム当量、SNPのそれぞれでの予測増幅バイアス、及びいくつかのノイズパラメータを含む様々なパラメータを考慮に入れて、胎児を有する母親由来の混合サンプルから測定される配列決定データについての予測データプロファイルを予測する。データモデルは、特定のパラメータセットを考慮したこれらの仮説の各々について、配列決定又はSNPアレイデータがどのように出現することが予測されるかを説明する。このモデル化データと測定データとの間で最良のデータフィッティングを有する仮説が選択される。
【0490】
所望な場合、どのようなハプロタイプが胎児によって遺伝されたかの結果を使用して、胎児からのDNA又はRNAについて予測される対立遺伝子比率を計算することができる。また、母親及び胎児の両方からの核酸を含有する混合サンプルについて、期待される対立遺伝子比率を計算することができる(これらの対立遺伝子比率は、サンプル中の母体核酸及び胎児核酸の両方からの対立遺伝子の量を含む、各対立遺伝子の総量の測定について期待されることを示す)。対立遺伝子比率の予測値は、第1の相同染色体セグメントの過剰出現の程度を指定する異なる仮説について計算され得る。
【0491】
いくつかの実施形態において、本方法は、胎児が、嚢胞性線維症、ハンチントン病、脆弱X、サラセミア、筋ジストロフィー(デュシェンヌ型筋ジストロフィーなど)、アルツハイマー、ファンコーニ貧血、ゴーシェ病、ムコリピドーシスIV、ニーマンピック病、ティサックス病、鎌状赤血球貧血、パーキンソン病、捻転ジストニア、及びがんのうちの1つ以上を有するかどうかを決定することを伴う。いくつかの実施形態において、胎児のハプロタイプは、染色体13、18、21、X及びYからなる群から選ばれる1つ以上の染色体について決定される。いくつかの実施形態において、胎児のハプロタイプは、全ての胎児の染色体について決定される。様々な実施形態において、本方法は、本質的に、胎児のゲノム全体を決定する。いくつかの実施形態において、ハプロタイプは、胎児のゲノムの少なくとも30、40、50、60、70、80、90又は95%について決定される。いくつかの実施形態において、胎児のハプロタイプ決定は、少なくとも100個、200個、500個、750個、1,000個、2,000個、5,000個、7,500個、10,000個、20,000個、25,000個、30,000個、40,000個、50,000個、75,000個又は100,000個の異なる多型遺伝子座についてどの対立遺伝子が存在するかについての情報を含む。いくつかの実施形態において、この方法を使用して、胚のハプロタイプ又は対立遺伝子比率を決定する。
【0492】
対立遺伝子比率を予測するための例示的な方法
サンプルの予測される対立遺伝子比率を計算するための例示的な方法を、以下に記載する。表1は、母親及び胎児の両方からの核酸を含有する混合サンプル(例えば、母体血液サンプル)の予測される対立遺伝子比率を示す。これらの予測される対立遺伝子比率は、混合サンプル中の母体核酸及び胎児核酸の両方からの対立遺伝子の量を含む、各対立遺伝子の総量の測定について予測されるものを示す。一例において、母親は、共凝集することが予測される2つの隣接遺伝子座(例えば、遺伝子座間に染色体クロスオーバーが予測されない2つの遺伝子座)においてヘテロ接合性である。したがって、母親は(AB,AB)である。ここで、母体のフェージングデータが、一方のハプロタイプについて母親が(A,A)であることを示すとすると、他のハプロタイプについて、母親は(B,B)であると推論することができる。表1は、胎児分率が20%である異なる仮説について予測される対立遺伝子比率を示す。この例では、父体データの知識は想定されておらず、ヘテロ接合率は50%であると仮定されている。予測される対立遺伝子比率は、2つのSNPのそれぞれについて(Aリードの予測される割合/総リード数)の観点から与えられる。これらの比率は、母体フェージングデータ(1つのハプロタイプが(A,A)であり、1つが(B,B)であるという知識)を使用した場合、及び母体フェージングデータを使用しない場合の両方において計算される。表1は、各親からの胎児における染色体セグメントのコピー数についての異なる仮説を含む。
【表1-1】
【0493】
フェージングデータを使用すると、可能な対立遺伝子比率の数が減少するという事実に加えて、それはまた、最大尤度の結果がより正しくなり得るように、それぞれの予測される対立遺伝子比率の事前の尤度を変化させる。対立遺伝子比率又は不可能な仮説を排除すると、正しい仮説が選択される尤度が高くなる。一例として、測定された対立遺伝子比率が(0.41、0.59)であると仮定する。フェージングデータを使用しない場合、最大尤度を有する仮説は、(ダイソミーについて予測される対立遺伝子比率(0.40、0.60)に対する測定された対立遺伝子比率の類似性を考慮して)ダイソミー仮説であると仮定することができる。しかしながら、フェージングデータを使用して、ダイソミー仮説について予測される対立遺伝子比率として(0.40、0.60)を除外することができ、より可能性が高いものとしてトリソミー仮説を選択することができる。
【0494】
測定された対立遺伝子比率が(0.4、0.4)であると仮定する。ハプロタイプ情報がない場合、各SNPにおける母体欠失の確率は、0.5×P(A欠失)+0.5×P(B欠失)となる。したがって、Aが欠失しているように見えるが(胎児において欠損している)、欠失の尤度は2つの平均となる。十分に高い胎児分率の場合、依然として最も可能性の高い仮説を決定することができる。十分に低い胎児分率の場合、平均化は、欠失仮説に不利に働き得る。しかしながら、ハプロタイプ情報を用いると、ホモログ1が欠失している確率P(A欠失)はより大きく、測定データによりよく適合するであろう。所望な場合、2つの遺伝子座間のクロスオーバー確率も考慮することができる。
【0495】
フェージングデータを使用して尤度を組み合わせる更なる例示的な例では、2つの連続したSNP s1及びs2を考慮し、D1及びD2は、これらのSNPにおける対立遺伝子データを示す。ここで、これら2つのSNPの尤度を組み合わせる方法の例を提供する。cは、2つの連続したヘテロ接合性SNPが同じホモログにおいて同じ対立遺伝子を有する(すなわち、両方のSNPがABであるか、又は両方のSNPがBAである)確率を示す。したがって、1-cは、一方のSNPがABであり、他方のSNPがBAである確率である。例えば、仮説H10と対立遺伝子不均衡値fを考慮する。まず、全てのSNPがAB又はBAのいずれかであると仮定して、全ての尤度が計算されると仮定する。すると、次のように、2つの連続したSNPの尤度を組み合わせることができる。
Lik(D1,D2|H10,f)=
Lik(D1|H10,f)×c×Lik(D2|H10,f)+Lik(D1|H10,f)×(1-c)×Lik(D2|H01,f)
【0496】
これを再帰的に行い、全てのSNPの結合尤度Lik(D1,…,DN|H10,f)を決定することができる。
【0497】
例示的な変異
ある疾患若しくは障害(例えばがん)又はある疾患若しくは障害(例えばがん)のリスク上昇(例えば、通常レベルのリスクより高い)に関連する例示的な変異としては、単一ヌクレオチドバリアント(SNV)、複数ヌクレオチド変異、欠失(例えば、200万~3000万塩基対領域の欠失)、重複又はタンデムリピートが挙げられる。いくつかの実施形態において、変異は、DNA、例えば、cfDNA、無細胞ミトコンドリアDNA(cf mDNA)、核DNAに由来する無細胞DNA(cf nDNA)、細胞DNA又はミトコンドリアDNAの中にある。いくつかの実施形態において、変異は、RNA、例えば、cfRNA、細胞RNA、細胞質RNA、コード細胞質RNA、非コード細胞質RNA、mRNA、miRNA、ミトコンドリアRNA、rRNA又はtRNAの中にある。いくつかの実施形態において、変異は、ある疾患又は障害(例えばがん)を有する対象において、その疾患又は障害(例えばがん)を有しない対象よりも高い頻度で存在する。いくつかの実施形態において、変異は、がんの指標である(例えば、原因となる変異)。いくつかの実施形態において、変異は、疾患又は障害の原因的役割を有するドライバー変異である。いくつかの実施形態において、変異は、原因となる変異ではない。例えば、いくつかのがんでは、複数の変異が蓄積するが、そのうちのいくつかは、原因となる変異ではない。原因とならない変異(例えば、ある疾患又は障害を有する対象において、その疾患又は障害を有しない対象よりも高い頻度で存在するもの)も、その疾患又は障害を診断するのに有用であろう。いくつかの実施形態において、変異は、1つ以上のマイクロサテライトでのヘテロ接合性の消失(LOH)である。
【0498】
いくつかの実施形態において、対象は、対象が有することが知られている多くの多型又は変異のうちの1つをスクリーニングする(例えば、その存在、これらの多型又は変異を有する細胞、DNA又はRNAの量の変化、又はがんの寛解又は再発を試験するために)。いくつかの実施形態において、対象は、対象がリスクがあることが知られている(例えば、その多型又は変異を有する血縁者を有する対象)多くの多型又は変異のうちの1つをスクリーニングする。いくつかの実施形態において、対象は、ある疾患又は障害(例えばがん)と関連する多型又は変異のパネルをスクリーニングする(例えば、少なくとも5、10、50、100、200、300、500、750、1,000、1,500、2,000又は5,000個の多型又は変異)。
【0499】
がんに関連する多くのコードバリアントは、それぞれその全体が参照により本明細書に組み込まれる、Abaan et al.,“The Exomes of the NCI-60 Panel:A Genomic Resource for Cancer Biology and Systems Pharmacology”,Cancer Research,July 15,2013、及びdtp.nci.nih.gov/branches/btb/characterizationNCI60.htmlでのワールドワイドウェブに記載されている。NCI-60ヒトがん細胞株パネルは、肺、結腸、脳、卵巣、乳房、前立腺及び腎臓のがん、並びに白血病及び黒色腫を表す60種類の異なる細胞株からなる。これらの細胞株において特定された遺伝的変動は、正常な集合で見られるI型バリアントと、がんに特有のII型バリアントの2種類からなっていた。
【0500】
例示的な多型又は変異(例えば、欠失又は重複)は、以下の遺伝子のうちの1つ以上の中にある。TP53、PTEN、PIK3CA、APC、EGFR、NRAS、NF2、FBXW7、ERBBs、ATAD5、KRAS、BRAF、VEGF、EGFR、HER2、ALK、p53、BRCA、BRCA1、BRCA2、SETD2、LRP1B、PBRM、SPTA1、DNMT3A、ARID1A、GRIN2A、TRRAP、STAG2、EPHA3/5/7、POLE、SYNE1、C20orf80、CSMD1、CTNNB1、ERBB2。FBXW7、KIT、MUC4、ATM、CDH1、DDX11、DDX12、DSPP、EPPK1、FAM186A、GNAS、HRNR、KRTAP4-11、MAP2K4、MLL3、NRAS、RB1、SMAD4、TTN、ABCC9、ACVR1B、ADAM29、ADAMTS19、AGAP10、AKT1、AMBN、AMPD2、ANKRD30A、ANKRD40、APOBR、AR、BIRC6、BMP2、BRAT1、BTNL8、C12orf4、C1QTNF7、C20orf186、CAPRIN2、CBWD1、CCDC30、CCDC93、CD5L、CDC27、CDC42BPA、CDH9、CDKN2A、CHD8、CHEK2、CHRNA9、CIZ1、CLSPN、CNTN6、COL14A1、CREBBP、CROCC、CTSF、CYP1A2、DCLK1、DHDDS、DHX32、DKK2、DLEC1、DNAH14、DNAH5、DNAH9、DNASE1L3、DUSP16、DYNC2H1、ECT2、EFHB、RRN3P2、TRIM49B、TUBB8P5、EPHA7、ERBB3、ERCC6、FAM21A、FAM21C、FCGBP、FGFR2、FLG2、FLT1、FOLR2、FRYL、FSCB、GAB1、GABRA4、GABRP、GH2、GOLGA6L1、GPHB5、GPR32、GPX5、GTF3C3、HECW1、HIST1H3B、HLA-A、HRAS、HS3ST1、HS6ST1、HSPD1、IDH1、JAK2、KDM5B、KIAA0528、KRT15、KRT38、KRTAP21-1、KRTAP4-5、KRTAP4-7、KRTAP5-4、KRTAP5-5、LAMA4、LATS1、LMF1、LPAR4、LPPR4、LRRFIP1、LUM、LYST、MAP2K1、MARCH1、MARCO、MB21D2、MEGF10、MMP16、MORC1、MRE11A、MTMR3、MUC12、MUC17、MUC2、MUC20、NBPF10、NBPF20、NEK1、NFE2L2、NLRP4、NOTCH2、NRK、NUP93、OBSCN、OR11H1、OR2B11、OR2M4、OR4Q3、OR5D13、OR8I2、OXSM、PIK3R1、PPP2R5C、PRAME、PRF1、PRG4、PRPF19、PTH2、PTPRC、PTPRJ、RAC1、RAD50、RBM12、RGPD3、RGS22、ROR1、RP11-671M22.1、RP13-996F3.4、RP1L1、RSBN1L、RYR3、SAMD3、SCN3A、SEC31A、SF1、SF3B1、SLC25A2、SLC44A1、SLC4A11、SMAD2、SPTA1、ST6GAL2、STK11、SZT2、TAF1L、TAX1BP1、TBP、TGFBI、TIF1、TMEM14B、TMEM74、TPTE、TRAPPC8、TRPS1、TXNDC6、USP32、UTP20、VASN、VPS72、WASH3P、WWTR1、XPO1、ZFHX4、ZMIZ1、ZNF167、ZNF436、ZNF492、ZNF598、ZRSR2、ABL1、AKT2、AKT3、ARAF、ARFRP1、ARID2、ASXL1、ATR、ATRX、AURKA、AURKB、AXL、BAP1、BARD1、BCL2、BCL2L2、BCL6、BCOR、BCORL1、BLM、BRIP1、BTK、CARD11、CBFB、CBL、CCND1、CCND2、CCND3、CCNE1、CD79A、CD79B、CDC73、CDK12、CDK4、CDK6、CDK8、CDKN1B、CDKN2B、CDKN2C、CEBPA、CHEK1、CIC、CRKL、CRLF2、CSF1R、CTCF、CTNNA1、DAXX、DDR2、DOT1L、EMSY(C11orf30)、EP300、EPHA3、EPHA5、EPHB1、ERBB4、ERG、ESR1、EZH2、FAM123B(WTX)、FAM46C、FANCA、FANCC、FANCD2、FANCE、FANCF、FANCG、FANCL、FGF10、FGF14、FGF19、FGF23、FGF3、FGF4、FGF6、FGFR1、FGFR2、FGFR3、FGFR4、FLT3、FLT4、FOXL2、GATA1、GATA2、GATA3、GID4 (C17orf39)、GNA11、GNA13、GNAQ、GNAS、GPR124、GSK3B、HGF、IDH1、IDH2、IGF1R、IKBKE、IKZF1、IL7R、INHBA、IRF4、IRS2、JAK1、JAK3、JUN、KAT6A(MYST3)、KDM5A、KDM5C、KDM6A、KDR、KEAP1、KLHL6、MAP2K2、MAP2K4、MAP3K1、MCL1、MDM2、MDM4、MED12、MEF2B、MEN1、MET、MITF、MLH1、MLL、MLL2、MPL、MSH2、MSH6、MTOR、MUTYH、MYC、MYCL1、MYCN、MYD88、NF1、NFKBIA、NKX2-1、NOTCH1、NPM1、NRAS、NTRK1、NTRK2、NTRK3、PAK3、PALB2、PAX5、PBRM1、PDGFRA、PDGFRB、PDK1、PIK3CG、PIK3R2、PPP2R1A、PRDM1、PRKAR1A、PRKDC、PTCH1、PTPN11、RAD51、RAF1、RARA、RET、RICTOR、RNF43、RPTOR、RUNX1、SMARCA4、SMARCB1、SMO、SOCS1、SOX10、SOX2、SPEN、SPOP、SRC、STAT4、SUFU、TET2、TGFBR2、TNFAIP3、TNFRSF14、TOP1、TP53、TSC1、TSC2、TSHR、VHL、WISP3、WT1、ZNF217、ZNF703、及びこれらの組み合わせ(Su et al.,J Mol Diagn 2011,13:74-84;DOI:10.1016/j.jmoldx.2010.11.010、及びAbaan et al.,”The Exomes of the NCI-60 Panel:A Genomic Resource for Cancer Biology and Systems Pharmacology”、Cancer Research,July 15,2013、それぞれ参照によりその全体が本明細書に組み込まれる)。いくつかの実施形態において、重複は、乳がんに関連付けられた染色体1p(「Chr1p」)の重複である。いくつかの実施形態において、1個以上の多型又は変異は、BRAFにあり、例えば、V600E変異である。いくつかの実施形態において、1個以上の多型又は変異は、K-rasにある。いくつかの実施形態において、K-ras及びAPCにおいて、1個以上の多型又は変異の組み合わせが存在する。いくつかの実施形態において、K-ras及びp53において、1個以上の多型又は変異の組み合わせが存在する。いくつかの実施形態において、APC及びp53において、1個以上の多型又は変異の組み合わせが存在する。いくつかの実施形態において、K-ras、APC及びp53において、1個以上の多型又は変異の組み合わせが存在する。いくつかの実施形態において、K-ras及びEGFRにおいて、1個以上の多型又は変異の組み合わせが存在する。例示的な多型又は変異は、以下のマイクロRNAのうちの1つ以上にある:miR-15a、miR-16-1、miR-23a、miR-23b、miR-24-1、miR-24-2、miR-27a、miR-27b、miR-29b-2、miR-29c、miR-146、miR-155、miR-221、miR-222及びmiR-223(その全体が参照により本明細書に組み込まれる、Calin et al.“A microRNA signature associated with prognosis and progression in chronic lymphocytic leukemia.”N Engl J Med 353:1793-801,2005)。
【0501】
いくつかの実施形態において、欠失は、少なくとも0.01kb、0.1kb、1kb、10kb、100kb、1mb、2mb、3mb、5mb、10mb、15mb、20mb、30mb又は40mbの欠失である。いくつかの実施形態において、欠失は、1kb~40mb、例えば、1kb~100kb、100kb~1mb、1~5mb、5~10mb、10~15mb、15~20mb、20~25mb、25~30mb又は30~40mb(境界値を含む)の欠失である。
【0502】
いくつかの実施形態において、重複は、少なくとも0.01kb、0.1kb、1kb、10kb、100kb、1mb、2mb、3mb、5mb、10mb、15mb、20mb、30mb又は40mbの重複である。いくつかの実施形態において、重複は、1kb~40mb、例えば、1kb~100kb、100kb~1mb、1~5mb、5~10mb、10~15mb、15~20mb、20~25mb、25~30mb又は30~40mb(境界値を含む)の重複である。
【0503】
いくつかの実施形態において、タンデム反復は、2~60ヌクレオチド、例えば、2~6、7~10、10~20、20~30、30~40、40~50又は50~60ヌクレオチド(境界値を含む)の反復である。いくつかの実施形態において、タンデム反復は、2ヌクレオチドの反復である(ジヌクレオチド反復)。いくつかの実施形態において、タンデム反復は、3ヌクレオチドの反復である(トリヌクレオチド反復)。
【0504】
いくつかの実施形態において、多型又は変異は、予後因子である。例示的な予後変異としては、K-ras変異、例えば、大腸がんにおける手術後の疾患再発の指標であるK-ras変異が挙げられる(それぞれその全体が参照により本明細書に組み込まれる、Ryan et al.”A prospective study of circulating mutant KRAS2 in the serum of patients with colorectal neoplasia:strong prognostic indicator in postoperative follow up,”Gut 52:101-108,2003、及びLecomte T et al.Detection of free-circulating tumor-associated DNA in plasma of colorectal cancer patients and its association with prognosis,”Int J Cancer 100:542-548,2002)。
【0505】
いくつかの実施形態において、多型又は変異は、特定の治療に対する応答の変化(例えば、有効性又は副作用の増加又は減少)と関係がある。例としては、K-ras変異は、非小細胞肺がんにおけるEGFRに基づく治療に対する応答の減少と関係がある(Wang et al.,“Potential clinical significance of a plasma-based KRAS mutation analysis in patients with advanced non-small cell lung cancer,”Clin Canc Res16:1324-1330,2010、参照によりその全体が本明細書に組み込まれる)。
【0506】
K-rasは、多くのがんにおいて活性化されるがん遺伝子である。例示的なK-ras変異は、コドン12、13及び61における変異である。K-ras cfDNA変異は、膵臓がん、肺がん、大腸がん、膀胱がん及び胃がんにおいて特定されている(Fleischhacker及びSchmidt“Circulating nucleic acids(CNAs)and caner-a survey,”Biochim Biophys Acta 1775:181-232,2007、参照によりその全体が本明細書に組み込まれる)。
【0507】
p53は、多くのがんにおいて変異し、腫瘍の進行に寄与する、腫瘍抑制因子である(その全体が参照により本明細書に組み込まれる、Levine & Oren“The first 30 years of p53:growing ever more complex.Nature Rev Cancer,”9:749-758,2009)。多くの異なるコドン、例えばSer249が変異し得る。p53 cfDNA変異は、乳がん、肺がん、卵巣がん、膀胱がん、胃がん、膵臓がん、大腸がん、腸がん及び肝細胞がんにおいて特定されている(その全体が参照により本明細書に組み込まれる、Fleischhacker & Schmidt“Circulating nucleic acids(CNAs)and caner-a survey,”Biochim Biophys Acta 1775:181-232,2007)。
【0508】
BRAFは、Rasの下流にあるがん遺伝子である。BRAF変異は、神経膠腫、黒色腫、甲状腺がん及び肺がんにおいて特定されている(それぞれその全体が参照により本明細書に組み込まれる、Dias-Santagata et al.BRAF V600E mutations are common in pleomorphic xanthoastrocytoma:diagnostic and therapeutic implications.PLOS ONE 2011;6:e17948,2011、Shinozaki et al.Utility of circulating B-RAF DNA mutation in serum for monitoring melanoma patients receiving biochemotherapy.Clin Canc Res 13:2068-2074,2007、及びBoard et al.Detection of BRAF mutations in the tumor and serum of patients enrolled in the AZD6244(ARRY-142886)advanced melanoma phase II study.Brit J Canc 2009;101:1724-1730)。BRAF V600E変異は、例えば、黒色腫の腫瘍において発生し、進行期において、更に一般的である。V600E変異は、cfDNAにおいて検出されている。
【0509】
EGFRは、細胞増殖に寄与し、多くのがんにおいて調節異常が起こる(Downward J.Targeting RAS signalling pathways in cancer therapy.Nature Rev Cancer 3:11-22、2003、及びLevine及びOren “The first 30 years of p53:growing ever more complex.Nature Rev Cancer,”9:749-758,2009、参照によりその全体が本明細書に組み込まれる)。例示的なEGFR変異としては、肺がん患者において特定されたエクソン18~21内の変異が挙げられる。EGFR cfDNA変異は、肺がん患者において特定されている(Jia et al.“Prediction of epidermal growth factor receptor mutations in the plasma/pleural effusion to efficacy of gefitinib treatment in advanced non-small cell lung cancer,”J Canc Res Clin Oncol 2010;136:1341-1347,2010、参照によりその全体が本明細書に組み込まれる)。
【0510】
乳がんに関連する例示的な多型又は変異としては、マイクロサテライトでのLOH(その全体が参照により本明細書に組み込まれる、Kohler et al.”Levels of plasma circulating cell free nuclear and mitochondrial DNA as potential biomarkers for breast tumors,”Mol Cancer 8:doi:10.1186/1476-4598-8-105,2009)、p53変異(例えば、エクソン5~8内の変異)(その全体が参照により本明細書に組み込まれる、Garcia et al.”Extracellular tumor DNA in plasma and overall survival in breast cancer patients,”Genes,Chromosomes & Cancer 45:692-701,2006)、HER2(その全体が参照により本明細書に組み込まれる、Sorensen et al.“Circulating HER2 DNA after trastuzumab treatment predicts survival and response in breast cancer,”Anticancer Res30:2463-2468,2010)、PIK3CA、MED1及びGAS6多型又は変異(その全体が参照により本明細書に組み込まれる、Murtaza et al.“Non-invasive analysis of acquired resistance to cancer therapy by sequencing of plasma DNA,”Nature 2013;doi:10.1038/nature12065,2013)が挙げられる。
【0511】
cfDNAレベルの上昇及びLOHは、全生存率及び無疾患生存率の低下と関係がある。p53変異(エクソン5~8)は、全生存率の低下と関係がある。循環HER2 cfDNAレベルの低下は、HER2陽性乳がん対象におけるHER2を標的とした治療に対する応答が良くなることと関係がある。PIK3CAにおける活性化変異、MED1のトランケーション及びGAS6におけるスプライシング変異は、治療に対する耐性を引き起こす。
【0512】
大腸がんと関連する例示的な多型又は変異としては、p53、APC、K-ras、並びにチミジル酸シンターゼ変異及びp16遺伝子メチル化が挙げられる(Wang et al.“Molecular detection of APC、K-ras、and p53 mutations in the serum of colorectal cancer patients as circulating biomarkers,”World J Surg 28:721-726,2004、Ryan et al.“A prospective study of circulating mutant KRAS2 in the serum of patients with colorectal neoplasia:strong prognostic indicator in postoperative follow up,”Gut 52:101-108,2003、Lecomte et al.“Detection of free-circulating tumor-associated DNA in plasma of colorectal cancer patients and its association with prognosis,”Int J Cancer 100:542-548,2002、Schwarzenbach et al.“Molecular analysis of the polymorphisms of thymidylate synthase on cell-free circulating DNA in blood of patients with advanced colorectal carcinoma,”Int J Cancer 127:881-888,2009、各々、参照によりその全体が本明細書に組み込まれる)。血清中のK-ras変異の手術後の検出は、疾患再発の強力な予測因子である。K-ras変異及びp16遺伝子メチル化の検出は、生存率の低下及び疾患再発の増加と関係がある。K-ras、APC及び/又はp53変異の検出は、再発及び/又は転移と関係がある。cfDNAを用いるチミジル酸シンターゼ(フルオロピリミジンに基づく化学療法の標的)遺伝子における多型(LOH、SNP、可変数のタンデム反復及び欠失を含む)は、治療応答と関係がある可能性がある。
【0513】
肺がん(例えば、非小細胞肺がん)と関連する例示的な多型又は変異としては、K-ras(例えば、コドン12内の変異)及びEGFR変異が挙げられる。例示的な予後変異としては、全生存率及び無憎悪生存率の増加に関連するEGFR変異(エクソン19の欠失又はエクソン21の変異)及び無憎悪生存率の減少に関連するK-ras変異(コドン12及び13内)が挙げられる(Jian et al.“Prediction of epidermal growth factor receptor mutations in the plasma/pleural effusion to efficacy of gefitinib treatment in advanced non-small cell lung cancer,”J Canc Res Clin Oncol 136:1341-1347,2010、Wang et al.“Potential clinical significance of a plasma-based KRAS mutation analysis in patients with advanced non-small cell lung cancer,”Clin Canc Res 16:1324-1330、2010、各々、参照によりその全体が本明細書に組み込まれる)。治療に対する応答の指標となる例示的な多型又は変異としては、治療に対する応答を改善するEGFR変異(エクソン19の欠失又はエクソン21の変異)及び治療に対する応答を低下させるK-ras変異(コドン12及び13)が挙げられる。EFGRにおいて耐性を与える変異が特定されている(Murtaza et al.“Non-invasive analysis of acquired resistance to cancer therapy by sequencing of plasma DNA,”Nature doi:10.1038/nature12065,2013、参照によりその全体が本明細書に組み込まれる)。
【0514】
黒色腫(例えば、ブドウ膜黒色腫)に関連する例示的な多型又は変異としては、GNAQ、GNA11、BRAF及びp53が挙げられる。例示的なGNAQ及びGNA11変異としては、R183及びQ209変異が挙げられる。GNAQ又はGNA11におけるQ209変異は、骨への転移と関係がある。BRAF V600E変異は、転移/進行期黒色腫を有する患者で検出することができる。BRAF V600Eは、浸潤性黒色腫の指標である。化学療法後のBRAF V600E変異の存在は、治療への応答がないことと関係がある。
【0515】
膵臓がん腫に関連する例示的な多型又は変異としては、K-ras及びp53(例えば、p53 Ser249)における多型又は変異が挙げられる。p53 Ser249は、B型肝炎感染及び肝細胞がん、並びに卵巣がん及び非ホジキンリンパ腫とも関係がある。
【0516】
サンプル中に低頻度で存在する多型又は変異であっても、本発明の方法を用いて検出することができる。例えば、100万分の1の頻度で存在する多型又は変異は、1000万個の配列決定リードを実施することによって、10回観測することができる。所望な場合、配列決定リードの数は、所望な感度のレベルに応じて変化させてもよい。いくつかの実施形態において、サンプルを再分析するか、又はある対象からの別のサンプルを、より多数の配列決定リードを用いて分析して、感度を向上させる。例えば、がん又はがんのリスク上昇に関連する多型又は変異が検出されないか、又は少数(例えば、1、2、3、4又は5)しか検出されない場合、そのサンプルを再分析するか、又は別のサンプルを試験する。
【0517】
いくつかの実施形態において、がん又は転移がんには、複数の多型又は変異が必要である。このような場合、複数の多型又は変異のスクリーニングは、がん又は転移がんを正確に診断する能力を向上させる。いくつかの実施形態において、対象が、がん又は転移がんに必要な複数の多型又は変異の部分集合を有する場合、その対象を後で再びスクリーニングして、その対象が更なる変異を獲得するかどうかを調べることができる。
【0518】
複数の多型又は変異ががん又は転移がんに必要であるいくつかの実施形態において、各々の多型又は変異の頻度を、同様の頻度で発生するかどうかを見るために比較することができる。例えば、2つの変異ががんに必要である(「A」及び「B」と示される)場合、一部の細胞は、どちらも有せず、一部の細胞はAを有し、一部の細胞はBを有し、一部の細胞は、AとBを有する。A及びBが同様の頻度で観測される場合、対象は、AとBを両方とも有する一部の細胞を有する可能性が高い。A及びBが同様ではない頻度で観察される場合、対象は、異なる細胞集合を有する可能性が高い。
【0519】
複数の多型又は変異ががん若しくは転移がんに必要であるいくつかの実施形態において、対象に存在するこのような多型又は変異の数又は同一性を使用して、対象が疾患又は障害を有する可能性がどれだけ高いか、又はどれだけ早いかを予測することができる。多型又は変異が特定の順序で発生する傾向があるいくつかの実施形態において、対象が他の多型又は変異を獲得したかどうかを見るために、対象が周期的に試験されてもよい。
【0520】
いくつかの実施形態において、複数の多型又は変異(例えば、2、3、4、5、8、10、12、15又はもっと多い)の有無を決定することは、ある疾患若しくは障害(例えばがん)の有無、又はある疾患若しくは障害(例えばがん)のリスク上昇の決定の感度及び/又は特異性を高める。
【0521】
いくつかの実施形態において、多型(複数可)又は変異(複数可)は、直接的に検出される。いくつかの実施形態において、多型(複数可)又は変異(複数可)は、その多型又は変異に結合する1つ以上の配列(例えば、SNPなどの多型遺伝子座)の検出によって、間接的に検出される。
【0522】
例示的な核酸変化
いくつかの実施形態において、ある疾患若しくは障害(例えばがん)又はある疾患若しくは障害(例えばがん)のリスク上昇に関連するRNA又はDNAの完全性の変化(例えば、フラグメント化されたcfRNA又はcfDNAの大きさの変化、又はヌクレオソーム組成の変化)が存在する。いくつかの実施形態において、ある疾患若しくは障害(例えばがん)又はある疾患若しくは障害(例えばがん)のリスク上昇に関連するRNA又はDNAのメチル化パターンの変化(例えば、腫瘍抑制遺伝子の高メチル化)が存在する。例えば、腫瘍抑制遺伝子のプロモーター領域におけるCpGアイランドのメチル化は、局所的な遺伝子サイレンシングの引き金となることが示唆されている。p16腫瘍抑制遺伝子の異常なメチル化が、肝臓がん、肺がん及び乳がんを有する対象で生じる。他の頻繁にメチル化される腫瘍抑制遺伝子(APC、Ras結合ドメインファミリータンパク質1A(RASSF1A)、グルタチオンS-トランスフェラーゼP1(GSTP1)及びDAPKを含む)は、様々な種類のがん、例えば、鼻咽頭がん腫、大腸がん、肺がん、食道がん、前立腺がん、膀胱がん、黒色腫及び急性白血病で検出されてきた。特定の腫瘍抑制遺伝子(例えばp16)のメチル化は、がん形成における早期のイベントとして記載されているため、早期のがんスクリーニングに有用である。
【0523】
いくつかの実施形態において、メチル化感受性制限酵素消化を用いる重亜硫酸塩変換又は非重亜硫酸塩に基づく戦略を使用して、メチル化パターンを決定する(Hung et al.,J Clin Pathol 62:308-313,2009、参照によりその全体が本明細書に組み込まれる)。重亜硫酸塩変換では、メチル化されたシトシンはシトシンとして残り、一方、メチル化されていないシトシンはウラシルに変換される。メチル化感受性制限酵素(例えば、BstUI)は、特定の認識部位(例えば、BstUIの場合は
【化1】
)で、メチル化されていないDNA配列を開裂し、一方、メチル化された配列は、反応を受けない。いくつかの実施形態において、反応を受けなかったメチル化配列が検出される。いくつかの実施形態において、ステムループプライマーを使用して、酵素で消化されないメチル化DNAを一緒に増幅させることなく、制限酵素で消化されたメチル化されていないフラグメントを選択的に増幅する。
【0524】
mRNAスプライシングの例示的な変化
いくつかの実施形態において、mRNAスプライシングの変化は、ある疾患若しくは障害(例えばがん)又はある疾患若しくは障害(例えばがん)のリスク上昇に関連する。いくつかの実施形態において、mRNAスプライシングの変化は、がん又はがんのリスク上昇に関連する以下の核酸のうちの1つ以上において生じる。DNMT3B、BRCA1、KLF6、Ron又はGemin5。いくつかの実施形態において、検出されたmRNAスプライスバリアントは、ある疾患又は障害(例えばがん)に関連する。いくつかの実施形態において、複数のmRNAスプライスバリアントは、健康な細胞(例えば、非がん性細胞)によって作られるが、mRNAスプライスバリアントの相対量の変化は、ある疾患又は障害(例えばがん)に関連する。いくつかの実施形態において、mRNAスプライシングの変化は、mRNA配列の変化(例えば、スプライス部位中の変異)、スプライシング因子レベルの変化、利用可能なスプライシング因子の量の変化(例えば、反復に対するスプライシング因子の結合に起因する利用可能なスプライシング因子の量の減少)、スプライシング調節の変化又は腫瘍の微小環境に起因する。
【0525】
スプライシング反応は、スプライセオソームと呼ばれる複数タンパク質/RNA複合体によって行われる(Fackenthal1及びGodley、Disease Models & Mechanisms 1:37-42、2008、doi:10.1242/dmm.000331、参照によりその全体が本明細書に組み込まれる)。スプライセオソームは、イントロン-エクソン境界を認識し、2つのエステル交換反応を介して、介在するイントロンを除去し、2つの隣接するエクソンをライゲーションする。この反応の忠実さは、絶妙なものでなければならない。なぜなら、ライゲーションが不正確に起こると、正常なタンパク質コード能力が損なわれる場合があるからである。例えば、エクソンスキッピングが、翻訳中のアミノ酸の同一性及び順序を示すトリプレットコドンのリーディングフレームを保存する場合、選択的スプライシングされるmRNAは、重要なアミノ酸残基を欠くタンパク質を示す場合がある。より一般的に、エクソンスキッピングは、翻訳リーディングフレームを乱し、未成熟終止コドンを生じさせる。これらのmRNAは、典型的には、ナンセンス変異依存mRNA分解として知られるプロセスによって少なくとも90%が分解され、このような欠陥のあるメッセージが蓄積して、トランケーションされたタンパク質産物を生成する尤度を小さくする。誤ってスプライシングされたmRNAがこの経路から外れる場合、トランケーションされ、変異され、又は不安定なタンパク質が産生する。
【0526】
選択的スプライシングは、同じゲノムDNAから、いくつか又は多くの異なる転写物を発現する手段であり、特定のタンパク質について利用可能なエクソンの部分集合を含むことから生じる。1つ以上のエクソンを除外することによって、特定のタンパク質ドメインは、コードされるタンパク質から失われる場合があり、タンパク質機能の消失又は増加を引き起こす場合がある。いくつかの種類の選択的スプライシングが記載されている:エクソンスキッピング、代替の5’又は3’スプライス部位、相互排他的なエクソン、及びかなり稀だが、イントロン保持。他者は、バイオインフォマティクス手法を用い、がんにおける選択的スプライシングの量を正常細胞と比較し、がんが正常細胞よりも低レベルの選択スプライシングを示すことを決定した。更に、選択スプライシングイベントの種類の分布は、がん細胞と正常細胞とでは異なっていた。がん細胞は、正常細胞よりも、エクソンスキッピングが少なかったが、より多くの代替の5’及び3’スプライス部位選択及びイントロン保持を示した。エクソン化の現象(他の組織によってイントロンとして主に使用される、エクソンとしての配列の使用)を調べると、がん細胞においてエクソン化に関連する遺伝子は、mRNAプロセシングと優先的に関連付けられ、このことは、がん細胞と異常なmRNAスプライス形態の生成との間の直接的なつながりを示している。
【0527】
DNA又はRNAレベルの例示的な変化
いくつかの実施形態において、DNA(例えば、cfDNA、cf mDNA、cf nDNA、細胞DNA又はミトコンドリアDNA)又はRNA(cfRNA、細胞RNA、細胞質RNA、コード細胞質RNA、非コード細胞質RNA、mRNA、miRNA、ミトコンドリアRNA、rRNA又はtRNA)のうちの1つ以上の種類の合計量又は濃度の変化が存在する。いくつかの実施形態において、1つ以上の特定のDNA(例えば、cfDNA、cf mDNA、cf nDNA、細胞DNA又はミトコンドリアDNA)又はRNA(cfRNA、細胞RNA、細胞質RNA、コード細胞質RNA、非コード細胞質RNA、mRNA、miRNA、ミトコンドリアRNA、rRNA又はtRNA)分子の量又は濃度の変化が存在する。いくつかの実施形態において、1つの対立遺伝子は、目的の遺伝子座の別の対立遺伝子よりも多く発現される。例示的なmiRNAは、遺伝子の発現を調節する短い20~22ヌクレオチドのRNA分子である。いくつかの実施形態において、トランスクリプトームの変化、例えば、1つ以上のRNA分子の同一性又は量の変化が存在する。
【0528】
いくつかの実施形態において、cfDNA又はcfRNAの合計量又は濃度の変化は、ある疾患若しくは障害(例えばがん)又はある疾患若しくは障害(例えばがん)のリスク上昇に関連する。いくつかの実施形態において、ある種のDNA(例えば、cfDNA、cf mDNA、cf nDNA、細胞DNA又はミトコンドリアDNA)又はRNA(cfRNA、細胞RNA、細胞質RNA、コード細胞質RNA、非コード細胞質RNA、mRNA、miRNA、ミトコンドリアRNA、rRNA又はtRNA)の合計濃度は、健康な(例えば、非がん性)対象のその種類のDNA又はRNAの合計濃度と比較して、少なくとも2、3、4、5、6、7、8、9、10倍、又はもっと多く増加する。いくつかの実施形態において、cfDNAの合計濃度が75~100ng/mL、100~150ng/mL、150~200ng/mL、200~300ng/mL、300~400ng/mgL、400~600ng/mL、600~800ng/mL、800~1,000ng/mL(境界値を含む)であること、又はcfDNAの合計濃度が100ng/mLより高く、例えば、200、300、400、500、600、700、800、900又は1,000ng/mLより高いことは、がん、がんのリスク上昇、良性ではなく悪性の腫瘍のリスク上昇、がんが寛解に向かう可能性の低下、又はがんの予後の悪化の指標である。いくつかの実施形態において、ある疾患若しくは障害(例えばがん)、又はある疾患若しくは障害(例えばがん)のリスク上昇に関連する1つ以上の多型又は変異(例えば、欠失又は重複)を有するある種のDNA(例えば、cfDNA、cf mDNA、cf nDNA、細胞DNA又はミトコンドリアDNA)又はRNA(cfRNA、細胞RNA、細胞質RNA、コード細胞質RNA、非コード細胞質RNA、mRNA、miRNA、ミトコンドリアRNA、rRNA又はtRNA)の量は、この種のDNA又はRNAの合計量の少なくとも2、3、4、5、6、7、8、9、10、11、12、14、16、18、20又は25%である。いくつかの実施形態において、ある種のDNA(例えば、cfDNA、cf mDNA、cf nDNA、細胞DNA又はミトコンドリアDNA)又はRNA(cfRNA、細胞RNA、細胞質RNA、コード細胞質RNA、非コード細胞質RNA、mRNA、miRNA、ミトコンドリアRNA、rRNA又はtRNA)の合計量の少なくとも2、3、4、5、6、7、8、9、10、11、12、14、16、18、20又は25%は、ある疾患若しくは障害(例えばがん)、又はある疾患若しくは障害(例えばがん)のリスク上昇に関連する特定の多型又は変異(例えば、欠失又は重複)を有する。
【0529】
いくつかの実施形態において、cfDNAは、封入される。いくつかの実施形態において、cfDNAは、封入されない。
【0530】
いくつかの実施形態において、総DNA中の腫瘍DNAの分率(例えば、総cfDNA中の腫瘍cfDNAの分率又は総cfDNA中の特定の変異を有する腫瘍cfDNAの分率)が決定される。いくつかの実施形態において、腫瘍DNAの分率は、複数の変異について決定されてもよく、変異は、単一ヌクレオチドバリアント、コピー数多型、異なるメチル化、又はこれらの組み合わせであってもよい。いくつかの実施形態において、腫瘍分率の計算値が最も高い1つの変異又は変異のセットについて計算された平均腫瘍分率は、サンプル中の実際の腫瘍分率であるとされる。いくつかの実施形態において、全ての変異について計算された平均腫瘍分率は、サンプル中の実際の腫瘍分率であるとされる。いくつかの実施形態において、この腫瘍分率を使用して、がんのステージを決定する(より高い腫瘍分率は、より進行したステージのがんと関連するため)。いくつかの実施形態において、より大きな腫瘍は、血漿中の腫瘍DNAの分率と相関関係がある可能性があるため、腫瘍分率を使用して、がんの大きさを決定する。いくつかの実施形態において、血漿サンプル中の腫瘍分率の測定値と所与の変異(複数可)遺伝子型を有する組織の大きさとの間に相関関係がある可能性があるため、腫瘍分率を使用して、単一又は複数の変異から影響を受けている腫瘍の割合の大きさを決定する。例えば、所与の変異(複数可)遺伝子型を有する組織の大きさは、その特定の変異(複数可)に焦点を当てることによって計算され得る腫瘍DNAの分率と相関関係がある可能性がある。
【0531】
例示的なデータベース
本発明は、本発明の方法からの1つ以上の結果を含有するデータベースも特徴とする。例えば、データベースは、1名以上の対象についての以下の情報のいずれかを含む記録を含んでいてもよい。特定される任意の多型/変異(例えばCNV)、多型/変異と、ある疾患若しくは障害又はある疾患若しくは障害のリスク上昇との任意の既知の関連性、コードされたmRNA又はタンパク質の発現又は活性レベルに対する多型/変異の影響、サンプル中の総DNA、RNA又は細胞の中で、ある疾患若しくは障害に関連するDNA、RNA又は細胞(例えば、ある疾患又は障害に関連する多型/変異を有するDNA、RNA又は細胞)の分率、多型/変異を特定するために使用されるサンプルの供給源(例えば、血液サンプル、又は特定の組織からのサンプル)、疾患細胞の数、後で試験を繰り返して得られた結果(例えば、その疾患又は障害の進行又は寛解をモニタリングするための試験を繰り返す)、その疾患又は障害についての他の試験の結果、対象が診断された疾患又は障害の種類、行われる治療(複数可)、このような治療(複数可)に対する応答、このような治療(複数可)の副作用、症状(例えば、その疾患又は障害に関連する症状)、寛解の期間及び回数、生存期間(例えば、最初の試験から死亡するまでの期間、又は診断から死亡するまでの期間)、死因、及びこれらの組み合わせ。
【0532】
いくつかの実施形態において、データベースは、1名以上の対象についての以下の情報のいずれかを含む記録を含む。特定される任意の多型/変異、多型/変異と、がん又はがんのリスク上昇との任意の既知の関連性、コードされたmRNA又はタンパク質の発現又は活性レベルに対する多型/変異の影響、サンプル中の総DNA、RNA又は細胞の中で、がん性DNA、RNA又は細胞の分率、多型/変異を特定するために使用されるサンプルの供給源(例えば、血液サンプル、又は特定の組織からのサンプル)、がん性細胞の数、腫瘍(複数可)の大きさ、後で試験を繰り返して得られた結果(例えば、がんの進行又は寛解をモニタリングするための試験を繰り返す)、がんについての他の試験の結果、対象が診断されたがんの種類、行われる治療(複数可)、このような治療(複数可)に対する応答、このような治療(複数可)の副作用、症状(例えば、がんに関連する症状)、寛解の期間及び回数、生存期間(例えば、最初の試験から死亡するまでの期間、又はがん診断から死亡するまでの期間)、死因、及びこれらの組み合わせ。いくつかの実施形態において、治療に対する応答は、以下のいずれかを含む。腫瘍(例えば、良性又はがん性腫瘍)の大きさが小さくなるか、又は安定化すること、腫瘍の大きさの増加が遅くなるか、又は防がれること、腫瘍細胞数が減るか、又は安定化すること、腫瘍の消失とその再出減との間の無疾患生存期間が長くなること、腫瘍の初期又はその後の発生が防がれること、腫瘍に関連する有害な症状が減るか、又は安定化すること、又はこれらの組み合わせ。いくつかの実施形態において、ある疾患又は障害(例えばがん)についての1つ以上の他の試験、例えば、組織サンプルのスクリーニング検査、医学的画像診断又は顕微鏡検査の結果が含まれる。
【0533】
そのような一態様において、本発明は、少なくとも5、10、102、103、104、105、106、107、108又はより多くの記録を含む電子データベースを特徴とする。いくつかの実施形態において、データベースは、少なくとも5、10、102、103、104、105、106、107、108、又はより多くの異なる対象についての記録を有する。
【0534】
別の態様において、本発明は、本発明のデータベースと、ユーザインターフェースとを含むコンピュータを特徴とする。いくつかの実施形態において、ユーザインターフェースは、1つ以上の記録に含有される情報の一部又は全てを表示することが可能である。いくつかの実施形態において、ユーザインターフェースは、(i)記録がコンピュータに保存される、多型又は変異を含有すると特定された1種類以上のがん、(ii)記録がコンピュータに保存される、特定の種類のがんにおいて特定された1つ以上の多型又は変異、(iii)記録がコンピュータに保存される、特定の種類のがん又は特定の多型又は変異についての予後情報、(iv)記録がコンピュータに保存される、多型又は変異を有するがんに有用な1つ以上の化合物又は他の治療、(v)記録がコンピュータに保存される、mRNA又はタンパク質の発現又は活性を調節する1つ以上の化合物、及び(vi)記録がコンピュータに保存される、発現又は活性が化合物によって調節される1つ以上のmRNA分子又はタンパク質を表示することができる。コンピュータの内部構成要素は、典型的には、メモリに接続するプロセッサを含む。外部構成要素は、通常、マスストレージデバイス(例えば、ハードディスクドライブ)、ユーザ入力デバイス(例えば、キーボード及びマウス)、ディスプレイ(例えば、モニタ)と、場合により、コンピュータシステムを他のコンピュータに接続してデータの共有及びタスクの処理を可能にすることができるネットワークリンクを含む。プログラムは、操作中に、このシステムのメモリにロードされてもよい。
【0535】
別の態様において、本発明は、本発明の方法のいずれかの1つ以上の工程を含む、コンピュータに実装されたプロセスを特徴とする。
【0536】
例示的なリスク因子
いくつかの実施形態において、対象は、ある疾患又は障害(例えばがん)の1つ以上のリスク因子についても評価される。例示的なリスク因子としては、その疾患又は障害の家族歴、生活習慣(例えば、喫煙及び発がん物質への曝露)、1つ以上のホルモン又は血清タンパク質のレベル(例えば、肝臓がんにおけるα-フェトプロテイン(AFP)、大腸がんにおけるがん胎児性抗原(CEA)又は前立腺がんにおける前立腺特異抗原(PSA))が挙げられる。いくつかの実施形態において、腫瘍の大きさ及び/又は数が測定され、対象の予後を決定するか、又は対象の治療を選択する際に使用される。
【0537】
例示的なスクリーニング方法
所望な場合、ある疾患若しくは障害(例えばがん)の有無を確認することができるか、又はある疾患若しくは障害(例えばがん)は、任意の標準的な方法を用いて分類することができる。例えば、ある疾患又は障害(例えばがん)は、特定の徴候及び症状、腫瘍生検、スクリーニング検査又は医学的画像診断(例えば、マンモグラム又は超音波)を含む、いくつかの方法で検出することができる。可能性のあるがんが検出されたら、組織サンプルの顕微鏡検査によって診断されてもよい。いくつかの実施形態において、診断される対象は、本発明の方法又はその疾患又は障害のための既知の検査を用い、複数のタイムポイントで繰り返し検査を受け、その疾患又は障害の進行又はその疾患又は障害の寛解又は再発をモニタリングする。
【0538】
例示的ながん
本発明の方法のいずれかを使用して診断され得る、予後判断され得る、安定化され得る、治療され得る、又は予防され得る例示的ながんとしては、固形腫瘍、がん腫、肉腫、リンパ腫、白血病、生殖細胞腫瘍又は胚芽腫が挙げられる。様々な実施形態において、がんは、急性リンパ芽球性白血病、急性骨髄性白血病、副腎皮質がん腫、AIDS関連がん、AIDS関連リンパ腫、肛門がん、虫垂がん、星細胞腫(例えば、小児小脳又は大脳の星細胞腫)、基底細胞がん腫、胆管がん(例えば、肝外胆管がん)、膀胱がん、骨腫瘍(例えば、骨肉腫又は悪性線維性組織球腫)、脳幹グリオーマ、脳がん(例えば、小脳星細胞腫、大脳星細胞腫/悪性グリオーマ、上衣芽細胞腫、髄芽腫、テント上原始神経外胚葉腫瘍、又は視覚伝導路及び視床下部グリオーマ)、膠芽細胞腫、乳がん、気管支腺腫又はカルチノイド、バーキットリンパ腫、カルチノイド腫瘍(例えば、小児又は胃腸管のカルチノイド腫瘍)、がん腫、中枢神経系リンパ腫、小脳星細胞腫又は悪性グリオーマ(例えば、小児小脳星細胞腫又は悪性グリオーマ)、子宮頸がん、小児がん、慢性リンパ芽球性白血病、慢性骨髄性白血病、慢性骨髄増殖性障害、結腸がん、皮膚T細胞性リンパ腫、線維形成性小細胞腫瘍、子宮内膜がん、上衣腫、食道がん、ユーイング肉腫、ユーイングファミリーの腫瘍中の腫瘍、頭蓋外胚細胞腫瘍(例えば、小児頭蓋外胚細胞腫瘍)、性腺外胚細胞腫瘍、眼のがん(例えば、眼内黒色腫又は網膜芽細胞腫の眼のがん)、胆嚢がん、胃がん、胃腸カルチノイド腫瘍、消化管間質腫瘍、胚細胞腫瘍(例えば、頭蓋外、性腺外又は卵巣胚細胞腫瘍)、妊娠性絨毛性腫瘍、グリオーマ(例えば、脳幹、小児大脳星細胞腫、又は小児視覚伝導路及び視床下部グリオーマ)、胃カルチノイド、有毛細胞白血病、頭頸部がん、心臓がん、肝細胞(肝臓)がん、ホジキンリンパ腫、下咽頭がん、視床下部及び視覚伝導路グリオーマ(例えば、小児視覚伝導路グリオーマ)、島細胞がん腫(例えば、内分泌又は膵臓島細胞がん腫)、カポジ肉腫、腎臓がん、喉頭がん、白血病(例えば、急性リンパ芽球性、急性骨髄性、慢性リンパ性、慢性骨髄性又は有毛細胞白血病)、口唇又は口腔がん、脂肪肉腫、肝臓がん(例えば、非小細胞又は小細胞がん)、肺がん、リンパ腫(例えば、AIDS関連、バーキット、皮膚T細胞、ホジキン、非ホジキン、又は中枢神経系リンパ腫)、マクログロブリン血症(例えば、ワルデンシュトレームマクログロブリン血症、骨の悪性線維性組織球腫又は骨肉腫、髄芽腫(例えば、小児髄芽腫)、黒色腫、メルケル細胞がん腫、中皮腫(例えば、成人又は小児の中皮腫)、原発不明の転移性頸部扁平上皮がん、口がん(mouth cancer)、多発性内分泌腫瘍症候群(例えば、小児多発性内分泌腫瘍症候群)、多発性骨髄腫又は形質細胞腫。菌状息肉腫、骨髄異形成症候群、骨髄増殖性新生物又は骨髄増殖性疾患、骨髄性白血病(例えば、慢性骨髄性白血病)、骨髄性白血病(例えば、成人急性又は小児急性骨髄性白血病)、骨髄増殖性障害(例えば、慢性骨髄増殖性障害)、鼻腔又は副鼻腔がん、鼻咽頭がん腫、神経芽細胞腫、口がん(oral cancer)、口咽頭がん、骨肉腫又は骨の悪性線維性組織球腫、卵巣がん、上皮性卵巣がん、卵巣胚細胞腫瘍、卵巣低悪性度腫瘍、膵臓がん(例えば、膵島細胞がん)、副鼻腔又は鼻腔がん、副甲状腺がん、陰茎がん、咽頭がん、褐色細胞腫、松果体星細胞腫、松果体ジャーミノーマ。松果体芽腫又はテント上原始神経外胚葉性腫瘍(例えば、小児松果体芽腫又はテント上原始神経外胚葉性腫瘍)、下垂体腺腫、形質細胞腫、胸膜肺芽腫、原発性中枢神経系リンパ腫、がん、直腸がん、腎細胞がん腫、腎盂又は尿管がん(例えば、腎盂又は尿管移行上皮がん、網膜芽細胞腫、横紋筋肉腫(例えば、小児横紋筋肉腫)、唾液腺がん、肉腫(例えば、ユーイングファミリーの腫瘍中の腫瘍における肉腫、カポジ、軟組織又は子宮肉腫)、セザリー症候群、皮膚がん(例えば、非黒色腫、黒色腫又はメルケル細胞皮膚がん)、小腸がん、扁平上皮がん腫、テント上原始神経外胚葉性腫瘍(例えば、小児テント上原始神経外胚葉性腫瘍)、T細胞リンパ腫(例えば、皮膚T細胞性リンパ腫)、精巣がん、咽頭がん、胸腺腫(例えば、小児胸腺腫)、胸腺腫又は胸腺がん腫、甲状腺がん(例えば、小児甲状腺がん)、絨毛性腫瘍(例えば、妊娠性絨毛性腫瘍)、原発部位不明がん腫(例えば、成人又は小児の原発部位不明がん腫)、尿道がん(例えば、子宮体がん)、子宮肉腫、膣がん、視覚伝導路又は視床下部グリオーマ(例えば、小児視覚伝導路又は視床下部グリオーマ)、外陰がん、ワルデンシュトレームマクログロブリン血症、又はウィルムス腫瘍(例えば、小児ウィルムス腫瘍)である。様々な実施形態において、がんは、転移しているか、又は転移していない。
【0539】
がんは、ホルモンが関連するがん又はホルモン依存性がん(例えば、エストロゲン又はアンドロゲンが関連するがん)であってもよく、そうでなくてもよい。良性腫瘍又は悪性腫瘍は、本発明の方法及び/又は組成物を使用して、診断され、予後判断され、安定化され、治療され、予防されてもよい。
【0540】
いくつかの実施形態において、対象は、がん症候群を有する。がん症候群は、1つ以上の遺伝子中の遺伝子変異が、罹患した個体でがんが発症する素因である、遺伝性障害であり、これらのがんの早期発症を引き起こす可能性もある。がん症候群は、がんを発症する生涯リスクが高いだけではなく、複数の独立した原発性腫瘍の発症も示すことが多い。これらの症候群の多くは、腫瘍抑制遺伝子、細胞ががん性化しないように保護することに関与する遺伝子の変異によって引き起こされる。影響を受け得る他の遺伝子は、DNA修復遺伝子、がん遺伝子、及び血管の産生(血管新生)に関与する遺伝子である。遺伝性がん症候群の一般的な例は、遺伝性乳がん卵巣がん症候群及び遺伝性非ポリオーシス結腸がん(リンチ症候群)である。
【0541】
いくつかの実施形態において、1つ以上の多型又は変異n K-ras、p53、BRA、EGFR又はHER2を有する対象は、それぞれ、K-ras、p53、BRA、EGFR又はHER2を標的とする治療が行われる。
【0542】
本発明の方法は、一般的に、任意の細胞、組織又は臓器型の悪性又は良性の腫瘍の治療に適用することができる。
【0543】
例示的な治療
所望な場合、ある疾患若しくは障害(例えばがん)、又はある疾患若しくは障害(例えばがん)のリスク上昇を安定化し、治療するか、又は予防するための任意の治療を、対象(例えば、本発明の方法のいずれかを用いて、がん又はがんのリスク上昇を有すると特定された対象)に行うことができる。様々な実施形態において、治療は、がんなどのある疾患又は障害のための既知の治療又は治療の組み合わせ、例えば、細胞毒性薬、標的療法、免疫療法、ホルモン療法、放射線療法、がん性細胞又はがん性になる可能性が高い細胞の手術による除去、幹細胞移植、骨髄移植、光力学療法、緩和治療、又はこれらの組み合わせである。いくつかの実施形態において、治療(例えば、予防内服)を使用して、ある疾患又は障害(例えばがん)のリスクが上昇した対象において、ある疾患又は障害(例えばがん)を予防し、遅らせ、又は重篤度を下げる。
【0544】
いくつかの実施形態において、標的療法は、がんの成長及び生存に寄与するがん固有の遺伝子、タンパク質、又は組織環境を標的とする治療である。この種の治療は、正常細胞への損傷を制限しつつ、がん細胞の成長及び広がりを遮断し、通常は、他のがん治療薬よりも副作用が少なくなる。
【0545】
より成功した手法の1つは、血管新生(腫瘍周囲の新しい血管の成長)を標的とすることであった。標的療法、例えば、ベバシズマブ(アバスチン)、レナリドミド(レブラミド)、ソラフェニブ(ネクサバール)、スニチニブ(スーテント)及びサリドマイド(サロミド)は、血管新生を妨害する。別の例は、HER2を過剰発現するがん(例えば、ある種の乳がん)について、HER2を標的とする治療、例えば、トラスツズマブ又はラパチニブの使用である。いくつかの実施形態において、モノクローナル抗体を使用して、がん細胞の外側にある特異的標的を遮断する。例としては、アレムツズマブ(カンパス-1H)、ベバシズマブ、セツキシマブ(エルビタックス)、パニツムマブ(ベクティビックス)、ペルツズマブ(オムニターグ)、リツキシマブ(リツキサン)及びトラスツズマブが挙げられる。いくつかの実施形態において、モノクローナル抗体であるトシツモマブ(ベキサール)を使用して、腫瘍に放射線を送達する。いくつかの実施形態において、経口低分子は、がん細胞内部のがんプロセスを阻害する。例としては、ダサチニブ(スプリセル)、エルロチニブ(タルセバ)、ゲフィチニブ(イレッサ)、イマチニブ(グリーベック)、ラパチニブ(タイケルブ)、ニロチニブ(タシグナ)、ソラフェニブ、スニチニブ及びテムシロリムス(トーリセル)が挙げられる。いくつかの実施形態において、プロテアソーム阻害剤(例えば、多発性骨髄腫薬ボルテゾミブ(ベルケイド))は、特殊タンパク質と呼ばれる、細胞内の他のタンパク質を分解する酵素を妨害する。
【0546】
いくつかの実施形態において、免疫療法は、がんと戦うために身体の自然防御を高めるように設計される。例示的な種類の免疫療法は、免疫システム機能を増強し、標的とし、又は回復するために、体内又は研究所のいずれかで作られた物質を使用する。
【0547】
いくつかの実施形態において、ホルモン療法は、体内のホルモンの量を減少させることによってがんを治療する。ある種の乳がん及び前立腺がんを含むいくつかの種類のがんは、ホルモンと呼ばれる体内の天然化学物質の存在下でのみ成長し、広がる。様々な実施形態において、ホルモン療法は、前立腺、乳房、甲状腺及び生殖系のがんを治療するために使用される。
【0548】
いくつかの実施形態において、治療は、疾患骨髄が造血幹細胞と呼ばれる高度に専門化した細胞によって置き換えられる幹細胞移植を含む。造血幹細胞は、血液と骨髄の両方に見られる。
【0549】
いくつかの実施形態において、治療は、光増感剤と呼ばれる特殊な薬物を光とともに用いてがん細胞を死滅させる光力学療法を含む。この薬物は、特定の種類の光によって活性化された後に作用する。
【0550】
いくつかの実施形態において、治療は、がん性細胞又はがん性になる可能性が高い細胞の外科的除去(例えば、腫瘍摘出術又は乳房切除)を含む。例えば、乳がん感受性遺伝子変異(BRCA1又はBRCA2遺伝子変異)を有する女性は、卵管卵巣摘出(卵管及び卵巣の除去)を減らすリスク及び/又は両側乳房切除術(両方の乳房の除去)を減らすリスクを有する乳がん及び卵巣がんのリスクを減らし得る。いくつかのがんを治療することを含め、非常に慎重な手術作業のために、非常に強力で精密な光の束であるレーザを、刃物(メス)の代わりに使用することができる。
【0551】
がんを遅らせ、停止させ、又は除去するための治療(疾患指向治療とも呼ばれる)に加え、がんの治療の重要な部分は、対象の症状及び副作用(例えば、疼痛及び吐き気)を緩和することである。緩和ケア又は支援ケアと呼ばれる手法で、身体的、感情的及び社会的な需要を有する対象をサポートすることを含む。人々は、疾患指向療法と、症状をやわらげるための治療を同時に受けることが多い。
【0552】
例示的な治療としては、アクチノマイシンD、アドセトリス、アドリアマイシン、アルデスロイキン、アレムツズマブ、アリムタ、アムシジン、アムサクリン、アナストロゾール、アレディア、アリミデックス、アロマシン、アスパラギナーゼ、アバスチン、ベバシズマブ、ビカルタミド、ブレオマイシン、ボンドロナット、ボネフォス、ボルテゾミブ、ブシルベックス、ブスルファン、カンプト、カペシタビン、カルボプラチン、カルムスチン、カソデックス、セツキシマブ、チマックス(chimax)、クロラムブシル、シメチジン、シスプラチン、クラドリビン、クロドロン酸、クロファラビン、クリサンタスパーゼ、シクロホスファミド、酢酸シプロテロン、シプロスタット、シタラビン、シトキサン、ダカルボジン(dacarbozine)、ダクチノマイシン、ダサチニブ、ダウノルビシン、デキサメタゾン、ジエチルスチルベストロール、ドセタキセル、ドキソルビシン、ドロゲニル、エムシット、エピルビシン、エポシン、エルビタックス、エルロチニブ、エストラシット、エストラムスチン、エトポホス、エトポシド、エボルトラ、エキセメスタン、フェアストン、フェマーラ、フィルグラスチム、フルダラ、フルダラビン、フルオロウラシル、フルタミド、ゲフィニチブ、ゲムシタビン、ジェムザール、グリーベック、グリベック。ゴナペプチルデポ、ゴセレリン、ハラヴェン、ハーセプチン、ハイカムプチン、ヒドロキシカルバミド、イバンドロン酸、イブリツモマブ、イダルビシン、イフォスフォミド、インターフェロン、イマチニブメシル酸塩、イレッサ、イリノテカン、ジェブタナ、ランビス、ラパチニブ、レトロゾール、リューケラン、リュープロレリン、ロイスタット、ロムスチン、マブキャンパス、マブセラ、メガス、メゲストロール、メトトレキサート、ミトキサントロン、マイトマイシン、ムツラン(mutulane)、ミレラン、ナベルビン、ニューラスタ、ニューポジェン、ネクサバール、ニペント、ノルバデックスD、ノバントロン、オンコビン、パクリタキセル、パミドロン酸、PCV、ペメトレキセド、ペントスタチン、パージェタ、プロカルバジン、プロベンジ、プレドニゾロン、プロストラップ、ラルチトレキセド、リツキシマブ、スプリセル、ソラフェニブ、ソルタモックス、ストレプトゾトシン、スチルベストロール、スチムバックス、スニチニブ、スーテント、タブロイド、タガメット、タモフェン、タモキシフェン、タルセバ、タキソール、タキソテール、ウラシル含有テガフール、テモダール、テモゾロミド、サリドマイド、チオプレックス、チオテパ、チオグアニン、トムデックス、トポテカン、トレミフェン、トラスツズマブ、トレチノイン、トレオサルファン、トリエチレンチオホスホラミド、トリプトレリン、チバブ、ウフトラル(uftoral)、ベルケイド、ベプシド、ベサノイド、ビンクリスチン、ビノレルビン、ザーコリ、ゼローダ、ヤーボイ、ザクティマ、ザノサー、ザベドス、ゼベリン、ゾラデックス、ゾレドロネート、ゾメタゾレドロン酸及びジチガが挙げられる。
【0553】
mRNA又はタンパク質の変異体形態(例えば、がんに関連する形態)及び野生型形態(例えば、がんに関連しない形態)の両方を発現する対象について、治療は、好ましくは、野生型形態の発現又は活性を阻害するのより更に少なくとも2倍、5倍、10倍又は20倍多く変異体形態の発現又は活性を阻害する。複数の治療薬の同時使用又は逐次使用は、がんの発生を大幅に減らし、治療に対して耐性となる治療されるがんの数を減らし得る。これに加えて、併用療法の一部として使用される治療薬は、がんを治療するために、治療薬を単独で使用する場合に必要な対応する用量よりも低い用量しか必要としないだろう。併用療法における各化合物の用量が低いことは、その化合物からの潜在的な有害な副作用の重篤度を下げる。
【0554】
いくつかの実施形態において、がんのリスクが上昇していると特定された対象は、本発明又は任意の標準的な方法によって、特定のリスク因子を避けてもよく、又はがんの任意の更なるリスクを減らすために生活習慣を変えてもよい。
【0555】
いくつかの実施形態において、多型、変異、リスク因子、又はこれらの任意の組み合わせを使用して、対象の治療レジメンを選択する。いくつかの実施形態において、がんのリスクが高いか、又は予後が悪い対象に対して、用量を増やした治療又は回数を増やした治療が選択される。
【0556】
個々の療法又は併用療法に含めるための他の化合物
所望な場合、ある疾患若しくは障害(例えばがん)、又はある疾患若しくは障害(例えばがん)のリスク上昇を安定化し、治療するか、又は予防するための更なる化合物が、当該技術分野で既知の方法に従って、天然産物又は合成(又は半合成)の抽出物又は化学ライブラリの大きなライブラリから特定されてもよい。当該分野又は薬物の発見及び開発の分野の当業者は、試験抽出物又は化合物の正確な供給源が本発明の方法にとって重要ではないことを理解するだろう。したがって、実質的に、任意の数の化学抽出物又は化合物が、特定の種類のがん又は特定の対象に由来する細胞に対する効果についてスクリーニングされてもよく、又はがんに関連する分子(例えば、特定の種類のがんにおいて活性又は発現が変化することが知られているがんに関連する分子)の活性又は発現に対する効果についてスクリーニングされてもよい。粗抽出物が、がんに関連する分子の活性又は発現を調節することがわかっている場合、陽性なリード化合物の更なるフラクション化を行い、当該技術分野で既知の方法を用い、観測された効果の原因となる化学構成物質を単離してもよい。
【0557】
療法の試験のための例示的なアッセイ及び動物モデル
所望な場合、本明細書に開示される治療のうちの1つ以上は、細胞株(例えば、本発明の方法を用いて、がん又はがんのリスク上昇を有すると診断された対象において特定された変異のうちの1つ以上を有する細胞株)を用い、又はある疾患又は障害の動物モデル、例えば、SCIDマウスモデルを用い、ある疾患又は障害(例えばがん)に対するその効果について試験してもよい(Jain et al.Tumor Models In Cancer Research,ed.Teicher,Humana Press Inc.,Totowa,N.J.,pp.647-671,2001、参照によりその全体が本明細書に組み込まれる)。これに加えて、ある疾患若しくは障害(例えばがん)、又はある疾患若しくは障害(例えばがん)のリスク上昇を安定化し、治療するか、又は予防するための特定の療法の有効性を決定するために使用可能な多くの標準的なアッセイ及び動物モデルが存在する。療法は、標準的なヒト臨床試験において試験することもできる。
【0558】
特定の対象に対して好ましい療法の選択のために、化合物を、対象において変異する1つ以上の遺伝子に対する発現又は活性に対して化合物が及ぼす効果について試験することができる。例えば、ある化合物が特定のmRNA分子又はタンパク質の発現を調節する能力は、標準的なノーザン、ウェスタン又はマイクロアレイ分析を用いて検出することができる。いくつかの実施形態において、(i)対象において(例えば対象からのサンプルにおいて)正常レベルより高いレベルで発現するか、又は正常レベルよりも高い活性レベルを有するがんを促進するmRNA分子又はタンパク質の発現又は活性を抑制するか、又は(ii)対象において正常レベルより低いレベルで発現するか、又は正常レベルよりも低い活性レベルを有するがんを抑制するmRNA分子又はタンパク質の発現又は活性を促進する1つ以上の化合物が選択される。(i)対象におけるがんに関連する変異を有するmRNA分子又はタンパク質の最大数を調節し、(ii)対象におけるがんに関連する変異を有しないmRNA分子又はタンパク質の最小数を調節する、個々の治療又は併用療法。いくつかの実施形態において、選択された個々の療法又は併用療法は、高い薬物有効性を有し、もしあるにしても、有害な副作用はほとんど生じない。
【0559】
上述の対象固有の分析の代替として、DNAチップを使用して、特定の種類の初期又は後期のがん(例えば、乳がん細胞)におけるmRNA分子の発現を、正常組織における発現と比較することができる(Marrackら、Current Opinion in Immunology 12、206-209、2000、Harkin、Oncologist.5:501-507、2000、Pelizzariら、Nucleic Acids Res.28(22):4577-4581、2000、それぞれ、全体として参照により本明細書に組み込まれる)。この分析に基づき、この種類のがんを有する対象についての個々の療法又は併用療法を選択して、この種類のがんにおいて発現が変化したmRNA又はタンパク質の発現を調節することができる。
【0560】
特定の対象又は対象群のための療法を選択するために使用されることに加え、発現プロファイリングを使用して、治療中に生じるmRNA及び/又はタンパク質発現の変化をモニタリングすることができる。例えば、発現プロファイリングを使用して、がん関連遺伝子の発現が正常レベルに戻ったかどうかを決定することができる。戻っていない場合、対応するがん関連遺伝子(複数可)の発現レベルに対するその療法の効果を上げるか、又は下げるように、その療法における1つ以上の化合物の用量を変化させてもよい。これに加えて、この分析を使用して、ある療法が他の遺伝子(例えば、有害な副作用に関連する遺伝子)の発現に影響を与えるかどうかを決定することができる。所望な場合、療法の用量又は組成を変化させて、望ましくない副作用を防ぐか、又は減らすことができる。
【0561】
例示的な製剤及び投与方法
ある疾患若しくは障害(例えばがん)、又はある疾患若しくは障害(例えばがん)のリスク上昇を安定化し、治療するか、又は予防するために、当業者に既知の任意野方法を用い、組成物が製剤化され、投与されてもよい(例えば、各々参照によりその全体が本明細書に組み込まれる米国特許第8,389,578号及び第8,389,557号を参照)。製剤及び投与のための一般的な技術は、「Remington:The Science and Practice of Pharmacy,”21st Edition,Ed.David Troy,2006、Lippincott Williams&Wilkins,Philadelphia,Pa.の中に見出され、参照によりその全体が本明細書に組み込まれる。液体、スラリー、錠剤、カプセル、丸薬、粉末、顆粒、ゲル、軟膏、座薬、注射剤、吸入剤及びエアロゾルは、このような製剤の例である。一例として、放出性が改変されたか、又は徐放性の経口製剤は、当該技術分野で既知の更なる方法を用いて調製することができる。例えば、活性成分の好適な徐放性形態は、マトリックス錠剤又はカプセル組成物であってもよい。好適なマトリックス形成材料としては、例えば、ワックス(例えば、カルナウバ、ミツロウ、パラフィンワックス、セレシン、シェラックロウ、脂肪酸及び脂肪族アルコール)、油、硬化油又は脂肪(例えば、硬化菜種子油、ヒマシ油、牛脂、ヤシ油及び大豆油)、並びにポリマー(例えば、ヒドロキシプロピルセルロース、ポリビニルピロリドン、ヒドロキシプロピルメチルセルロース及びポリエチレングリコール)が挙げられる。他の好適なマトリックス錠剤化材料は、微結晶セルロース、粉末セルロース、ヒドロキシプロピルセルロース、エチルセルロース、他の担体を含むもの、及び充填剤である。錠剤には、粒状物、コーティングされた粉末又はペレットも含有されている場合がある。錠剤はまた、多層であってもよい。場合により、最終的な錠剤は、コーティングされていてもよく、又はコーティングされていなくてもよい。
【0562】
このような組成物を投与する典型的な経路としては、限定されないが、経口、舌下、口腔、局所、経皮、吸入、非経口(例えば、皮下、静脈内、筋肉内、胸骨内注射又は注入技術)、直腸、膣及び経鼻が挙げられる。好ましい実施形態において、療法は、徐放デバイスを用いて行われる。本発明の組成物は、組成物の投与時に、その中に含有される活性成分(複数可)が生体利用可能になるように製剤化される。組成物は、1つ以上の投与単位の形態をとっていてもよい。組成物は、1、2、3、4種類又は更に多い活性成分を含有していてもよく、場合により、1、2、3、4種類又は更に多い不活性成分を含有していてもよい。
【0563】
代替的な実施形態
本明細書に記載される方法のいずれかは、例えば、コンピュータ画面上又は印刷した紙の上などの物理的なフォーマットでのデータの出力を含んでいてもよい。本明細書の方法のいずれかは、医師によって作業され得るフォーマットで、作業可能なデータの出力と組み合わせられてもよい。標的個体に関する遺伝子データを決定するための本文書に記載される実施形態のいくつかは、医療従事者によって、潜在的な染色体異常(例えば、欠失又は重複)、又はそれを欠くことの通知と組み合わせられてもよく、任意選択で、出生前診断の文脈において胎児の中絶を行うか、若しくは行わないかの決定と組み合わされてもよい。本明細書に記載される実施形態のいくつかは、作業可能なデータの出力、臨床的な治療をもたらす臨床決定の実施、又は何の行動も取らないという臨床決定の実施と組み合わせられてもよい。
【0564】
いくつかの実施形態において、本発明の任意の方法の結果(例えば、欠失又は重複の有無)を開示する報告書を作成するための方法が本明細書で開示される。本発明の方法から得られた結果を用いて報告書を作成してもよく、これを医師に電子的に送信し、出力デバイスで表示し(例えば、デジタル報告書)、又は書面による報告書(例えば、報告書の印刷されたハードコピー)が医師に届けられてもよい。これに加えて、記載される方法は、臨床的な治療をもたらす臨床決定の実際の実施、又は何の行動も取らないという臨床決定の実施と組み合わせられてもよい。
【0565】
特定の実施形態において、本発明は、本明細書に開示されるマルチプレックスPCR方法を用い、同じサンプルからCNV及びSNVを両方とも検出するための、試薬、キット及び方法、並びにこのような方法を行うためのコード化された命令を含むコンピュータシステム及びコンピュータ媒体を提供する。特定の好ましい実施形態において、サンプルは、循環腫瘍DNAを含有することが疑われる単一細胞サンプル又は血漿サンプルである。これらの実施形態は、特に、乳がん、卵巣がん及び肺がんなどのCNVを示すがんについて、本明細書に開示される高感度マルチプレックスPCR方法を用いて、CNV及びSNVについて単一細胞又は血漿からのDNAサンプルを調べることによって、CNV又はSNVのいずれかのみについて調べる場合と比べて、改良されたがん検出を達成することができるという発見を利用したものである。本方法は、CNVを分析する特定の例示的な実施形態において、50~100,000、又は50~10,000、又は50~1,000のSNPを調べ、SNVについて、50~1000のSNV、又は50~500のSNV、又は50~250のSNVを調べる。例えば、CNV及びSNVを示すことが知られているがん、例えば、乳がん、肺がん及び卵巣がんを含むがんを有することが疑われる対象の血漿中のCNV及び/又はSNVを検出するための本明細書で提供される方法は、遺伝子組成という観点で、不均一ながん細胞集合で構成されることが多い腫瘍からCNV及び/又はSNVを検出するという利点を提供する。したがって、腫瘍の特定の領域のみを分析することに焦点を当てた従来の方法は、腫瘍の他の領域にある細胞に存在するCNV又はSNVを見落としてしまうことが多い。血漿サンプルは、液体生検として機能し、これを調べ、腫瘍細胞の部分集合にのみ存在するCNV及び/又はSNVのいずれかを検出することができる。
【実施例】
【0566】
実施例1-SNPベースの非侵襲的出生前試験によるCNVの検出
ほとんどのがんは体細胞異常を有し、多くは染色体21、18、及び13が関与し、循環cfDNAで検出可能である。正常な胎児遺伝子型を有するNIPT上で複数の異数性が検出される場合、母体新生物のリスクが上昇する。ここで、SNPベースのNIPTに複数の母体CNVが記録された場合に妊娠結果を再検討した。
【0567】
結果は、複数の母体CNVを示唆するデータを用いて、不特定の非定型所見結果を受けたSNPベースのNIPTについて遡及的に収集した。胎児/母体結果は、診療所から得られた。
【0568】
2017年7月1日から2021年4月30日までに、2,004,428例の結果が報告され、そのうち38例(0.0019%)は不特定の非定型所見及び複数の母体CNVと一致するデータを有していた。胎児/母体の健康結果は、26/38(68.4%)で得られた。これらのうち、14/26の母体悪性腫瘍が分娩前、分娩中又は分娩後に診断された(陽性予測値(PPV)53.8%)。2/26例(7.7%)では、1人の患者が平滑筋腫と診断され、これは母体CNVに関連していたが、他の患者はリンパ節腫瘍を有していた(表1)。
【表1-2】
【0569】
母体の健康上の問題のない胎児三倍体が2症例(2/26;7.7%)で報告され、8/26(30.8%)の症例では胎児/母体の健康上の問題は報告されなかった。BRCA変異を有する複数の家族のがんの顕著な家族歴は、これらの8つのうちの1つに認められた。この患者のBRCA遺伝子状態は不明である。
【0570】
結論:我々の結果は、SNPベースのNIPT中に複数の母体CNVが認められる場合、PPV>50%の母体新生物のリスク上昇を示している。この所見は、SNPベースのNIPTが、母体新生物の存在/再発を特定することができることを示す。これらの結果は、患者のより良い情報に基づいた医学的管理を可能にする検査室における報告の変化を促し、存在する場合は母体新生物の早期検出をもたらした。
【0571】
実施例2-材料及び方法
Nicolaides et al.Prenat.Diagn.33(6):575-9(2013)、Pergament et al.Obstet.Gynecol.124:210-8(2014)、Ryan et al.Fetal Diagn.Ther.40(3):219-223(2016)、及びDar et al.Am.J.Obstet.Gynecol.211(5):527.e1-527.e17(2014)に記載のNIPTワークフローは、その全体が参照により本明細書に組み込まれる。
【0572】
実施例3-SNPベースの非侵襲的出生前試験によるコピー数バリアント:母体健康への影響
染色体21、18、及び13が関与する体細胞異常は、がんにおいて見出され、循環cfDNAで検出可能である。正常な胎児核型を有するNIPT上で複数の異数性が検出される場合、母体新生物のリスクが上昇する。SNPベースのNIPTは、母体/胎児cfDNAを区別し、CNV起源の特定を可能にする。本研究は、母体/胎児結果SNPベースNIPTデータを再検討し、複数の母体コピー数バリアント(CNV)が母体新生物のリスク上昇を予測することができるかどうかを決定した。
【0573】
SNPベースのNIPT症例について、胎児/母体結果を遡及的に収集した。症例は、複数の母体CNVが含まれたことを示唆するデータを有する、不特定の非定型所見として報告された。
【0574】
結果を有する2,004,428症例のうち、38(0.002%)は、母体CNVと一致する内部データを有する不特定の非定型結果を有した。胎児/母体の健康結果は、26/38(68.4%)の症例で得られた。14/26症例では、分娩前、分娩中、分娩後に悪性腫瘍が診断された。母体新生物の陽性予測値(PPV)は、39%(15/38の全症例)から58%(15/26の既知の結果)の範囲であった。1症例の平滑筋腫(1/26、3.8%)、及び1症例のリンパ節腫脹(1/26、3.8%)が観察された。母体の健康上の問題を報告していない胎児の三倍体は、2症例(2/26;7.7%)で見られた。8/26(30.8%)の症例では、患者の変異状態が不明なBRCA変異の家族歴を有するものを含む、胎児/母体の健康上の問題は報告されなかった。(表2)
【0575】
SNPベースのNIPTは、母体新生物の存在/再発を特定することができる。母体CNVがSNPベースのNIPTで特定された場合、データは、39~59%の範囲のPPVでの母体新生物のリスク上昇を示唆している。このコホートにおける新生物は、NIPT後(2~48ヶ月)のフォローアップ時間が限られているため、過小診断され得る。この偶発的な所見を報告することで、より早期の新生物検出が可能なより良い情報に基づいた母体臨床管理が可能になる。
【表2】
【国際調査報告】